部分可观察Twitter网络中内容污染者的实时检测

95 浏览量更新于2023-10-16 收藏 12.85MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13310部分可观察Twitter网络中内容污染者的实时检测0阿德莱德大学数学科学学院，澳大利亚阿德莱德，mehwish.nasim@adelaide.edu.au0阿德莱德大学数学科学学院，澳大利亚阿德莱德，andrew.nguyen03@adelaide.edu.au0Nick Lothian �0Tyto.ai，澳大利亚阿德莱德，nick.lothian@gmail.com0阿德莱德大学数学科学学院，澳大利亚阿德莱德，robert.cope@adelaide.edu.au0阿德莱德大学数学科学学院，澳大利亚阿德莱德，lewis.mitchell@adelaide.edu.au0摘要0内容污染者，或者试图通过政治或广告目的劫持对话的机器人，是事件预测、选举预测以及在社交媒体数据中区分真实新闻和假新闻的已知问题。识别这种类型的机器人特别具有挑战性，最先进的方法利用大量的网络数据作为机器学习模型的特征。这样的数据集通常在典型的实时事件预测应用中并不容易获得，这些应用会流式传输社交媒体数据。在这项工作中，我们开发了一种在实时流式社交媒体数据集中检测内容污染者的方法。将我们的方法应用于澳大利亚的社会动荡事件预测问题，我们可以从单个推文中识别出内容污染者，而无需收集个人账户的社交网络或历史数据。我们在数据集中发现了这些机器人的一些特殊特征，并提出了一些用于识别此类账户的度量标准。然后，我们提出了一些关于这种类型机器人检测的研究问题，包括：Twitter在检测内容污染者方面的效果如何，以及最先进的方法在我们的数据集中检测机器人的表现如何。0CCS概念0• 信息系统 → 社交网络网站；• 安全与隐私 →社交网络安全与隐私；0关键词0社会动荡，社交机器人，内容污染者，缺失链接，Twitter0ACM参考格式：Mehwish Nasim, Andrew Nguyen, Nick Lothian, RobertCope, and Lewis Mitchell. 2018. Real-time Detection of Content Pollutersin Partially Observ- able Twitter Networks. In WWW ’18 Companion:The 2018 Web Conference0� 在参与Data to Decisions CRC期间进行的工作。0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW’18 Companion，2018年4月23日至27日，法国里昂。© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915740Companion,2018年4月23日至27日，法国里昂。ACM，纽约，美国，9页。https://doi.org/10.1145/3184558.319157401 引言 1.1 动机0在线社交媒体中的机器人和内容污染者影响着世界的社会政治状况，从干预选举[4, 13,37]到影响美国退伍军人[15]。2017年9月底，Twitter向国会承认，他们发现了200个与Facebook账户重叠的俄罗斯账户，这些账户被用来影响美国人并在2016年的选举中制造分裂[37]。当然，有些机器人也是有用的，例如那些会向人们发送自然灾害警报的账户。问题出现在他们试图影响人们或传播错误信息时。在在线社交媒体中检测机器人的重要性已经产生了一个活跃的研究领域[9,21]。用于机器人检测的最先进方法使用历史行为模式和丰富的特征集，包括文本、时间和社交网络特征，以区分自动机器人和真实人类用户[35]。然而，对于使用大规模流式数据集的实时应用来说，这些方法可能是禁止的，因为数据样本的数量、速度和不完整性。在这项工作中，我们开发了一种新的方法来检测一种特定类型的社交机器人——内容污染者——在流式微博数据集（如Twitter）中。内容污染者是试图通过劫持真实讨论来达到政治或广告目的的机器人。正如我们将展示的那样，这些机器人对于实时事件预测（如社会动荡）等应用来说是一个重大问题，这些应用使用社交媒体数据集。01.2问题背景0社会动荡预测是全球政府日益关注的问题。这可以从DARPA的开源情报计划中看出，该计划提出了许多预测未来人口级事件（如社会动荡、政治危机、选举结果和疾病爆发）的方法[12, 25, 30,32]。观察到社会事件之前或之后，人口级的沟通行为、消费行为和活动发生了变化。0跟踪：第9届国际社交媒体建模研讨会（MSM 2018）应用机器学习和人工智能进行社交媒体建模WWW 2018年4月23日至27日，法国里昂13320这些变化在在线数据中隐含地反映出来，例如博客、在线社交网络、金融市场或搜索查询。已经证明，其中一些数据源可以有效地实时检测人口级事件。已经开发了通过融合来自多个来源的公开可用数据来预测这些事件的方法。存在大量的研究专注于基于社交媒体的预测模型，表明来自微博（如Twitter）的特征可以预测和检测人口级事件[30]。一旦建立了已知事件（例如选举结果或抗议活动）的“黄金标准”（基准），就可以使用开源数据来训练模型进行预测。这样的模型面临的一个重要挑战是通过过滤“假新闻”、删除错误分类或无关的推文，或减轻缺失数据的影响来减少噪音。这是一个特别关注的问题，因为访问社交媒体数据的限制仍然是研究人员面临的主要挑战[26]。通过API和第三方访问数据可能不一致、不完整，并且可能受到机器人噪音的破坏。当机器人通过虚假的社交媒体账户影响人们时，它们也会在社交媒体网站上充当内容污染者[33]。根据数字取证研究实验室（DFRL）的说法，“他们可以让六个人看起来像四万六千人的群体。”我们的工作的主要目标是在实时的澳大利亚社会动荡事件相关推文数据集中找出内容污染者，而无需访问用户的完整个人资料信息。由于公共API的速率限制和访问数据的高成本，我们只能使用满足特定条件的流式推文。虽然实际的事件预测算法不是本文的主要关注点，但更多细节可以在Osborne等人的文章中找到[29]。01.3相关工作0社交机器人是一种计算机算法，它会在社交媒体上自动产生内容并与人类互动，试图模拟并可能改变他们的行为[14]。社交机器人存在于社交媒体平台上，网络社交网络上有数百万个表现出越来越复杂、类似人类行为的机器人。预计在未来几年，社交媒体机器人将大量增加，因为广告商、犯罪分子、政治家、政府、恐怖分子和其他组织都试图影响人口[34]。这引入了社交机器人的各个方面，包括社交网络特征、时间活动、扩散模式和情感表达[14]。Ghost等人[16]对Twitter上超过40,000个垃圾邮件帐户获取的关注者/被关注者链接进行了分析。他们表明，惩罚用户与垃圾邮件发送者建立联系可能是有效的，因为这将使用户不再与其他用户建立联系以获取影响力。Yang等人[40]发现，在在线社交网络中，机器人帐户与彼此连接是偶然的，并且像普通用户一样融入社交网络。网络信息以及内容已被证明可以检测在线社交网络中的垃圾邮件[20]。当研究人员提出各种机器人检测模型时，Lee等人[24]通过社交媒体上的陌生人进行了识别和互动，以有效地传播信息/错误信息。他们提出了一个模型来利用人们的社交行为（在线互动）和用户的等待时间来进行转发。0社交机器人随时间演化，使它们对标准机器人检测方法具有韧性[9]。它们擅长改变讨论话题和发布活动[38]。研究人员提出了复杂的模型，例如基于可疑账户的交互图[19, 20, 22,39]。对此类账户进行检测的一种策略是调查社交图结构，假设sybil账户与少数合法用户相连[7]。行为模式和情感分析也被用于机器人检测[11]。这些模式可以很容易地编码为特征，因此可以使用机器学习技术来区分类似机器人和类似人类的行为。先前的工作使用基于网络的特征或内容分析进行机器人检测，以及诸如时间活动、转发和众包的指标[10,36]。这些工作需要大量的网络知识或能够快速查询API以获取疑似机器人的社交媒体发布的完整历史。然而，基于关键词或地理位置的流式消息等实时应用使这种方法变得不切实际。因此，一个主要挑战是开发基于部分信息、消息历史和网络知识的方法，以实时检测和移除机器人。在这项工作中，我们从用于预测澳大利亚城市社会动荡的个别推文中检测机器人。根据关键词和事件的地理位置（如抗议、集会、社会骚乱）的过滤器在实时收集的情况下，留下了一个小但信息丰富的数据集用于预测。通过分析来自Twitter等在线社交媒体平台的数据，并与手工标记的“黄金标准记录”（GSR）[29]进行验证生成实时预测。GSR是由新闻分析师创建的；经过验证和清理过程后，该数据可以作为基准数据使用。如果Twitter数据受到社交机器人的污染，可能会严重降低预测模型的性能。因此，开发实时数据流中检测和移除社交机器人的技术至关重要。贡献：我们的科学贡献如下：（1）我们开发了一种方法，仅使用关于用户及其推文历史的部分信息，在实时环境中识别数据中的社交机器人。（2）我们提供了一个新的手工标记的机器人和合法记录数据集，并使用它来验证我们的方法[1]。（3）我们提出了一组研究问题，以评估Twitter用户、Twitter或现有的最先进的机器人检测方法是否能够检测出我们的数据集中的机器人。01.4 数据集0我们的数据集包括来自2015年1月1日至2016年12月31日的时间戳推文，来自澳大利亚的5个主要首府城市。推文标识以下位置之一：“澳大利亚”、“阿德莱德”、“布里斯班”、“墨尔本”、“珀斯”或“悉尼”。该数据旨在研究社会动荡，并旨在捕捉人们表达观点、组织游行、集会、和平/暴力抗议等的方式，以及澳大利亚内部的其他活动。这些事件旨在引起对某个问题的关注，例如基础设施、税收、移民法律等。澳大利亚有大约2450万人口，与01 数据可以在http://maths.adelaide.edu.au/mehwish.nasim/上访问0跟踪：第9届建模社交媒体国际研讨会（MSM 2018）应用机器学习和人工智能建模社交媒体WWW 2018年4月23日至27日，法国里昂13330表1：数据统计0参数阿德莱德布里斯班墨尔本珀斯悉尼0推文数量 14087 5913 23720 8421 31568 唯一用户数量 12039 3466 14611 6215 14515唯一URL数量 548 233 762 456 844 平均关注者数量（入度） 8812 9624 6733 5409 6052平均好友数量（出度） 1223 1736 1517 1643 1860 已验证账户数量 293 432 840 209 4120在许多发达国家，预测公民动荡事件对执法机构、政府机构、媒体和学术界都具有兴趣。尽管如此，文献中缺乏关于实时预测公民动荡事件的探索性研究。我们数据集中关于抗议相关推文的基本统计数据如表1所示。请注意，数据集中缺乏关于改变者（自我关注者/好友）的信息，除了改变者的总数（关注者和好友的数量）。02 检测内容污染者0我们研究推文的两个特征，即时间信息和消息多样性。时间模式：在第一步中，我们对1）频繁发推的用户，2）使用所需关键词在同一天发推的用户对进行了研究。由于没有关于个体用户网络的信息，我们无法构建关注者-好友网络图。相反，我们构建了一个二模用户-事件网络。对于数据中的所有事件，如果两个用户在同一事件日发推，则将它们连接起来。我们将这个问题表示为图论术语如下：设G是用户和事件的二部图。设U是用户集合，V是事件集合。设u，v ∈ U，i，j ∈V。对于任何i ∈ V，如果N(u) ∩ N(v) ≠{}，则在二部图的单模投影中（u，v）∈ E。顶点v ∈U的邻域N(v)是与v相邻的顶点集合。得到的投影是一个无向无环多图。如果边集E包含相同的边多次，则E是一个多重集。如果边在E中出现多次，则该边的副本称为平行边。具有平行边的图也称为多图。与其他社交网络（如友谊网络）类似，事件网络是复杂社会学过程的结果，其中存在多种关系。当这些关系混合在一起形成一个密集网络时，可视化通常类似于“毛球”。文献中存在各种减少此类网络绘图混乱的方法。我们使用最近的骨干布局方法进行网络可视化[28]，该方法考虑到强关系（或边的多重性），并使用所有最大生成树的并集作为稀疏子图以确保连接。在图1b中，边的粗细表示节点对在相同的“事件日”上发推的频率，而节点的大小表示用户发推的个人频率。我们注意到机器人02 事件日期已从GSR确认。3网络可视化是在visone（http://www.visone.info/）中创建的。0（a）右侧的两个紫色节点与核心松散连接，是机器人。他们经常一起发推，与图中其他节点相比，他们个人发推的频率较低，但是二元（成对）频率较高。0（b）推文图中的两个密集连接组件。0图1：墨尔本事件网络中包含机器人和合法用户的图形。0频繁一起发推。与图1a中的其他节点相比，他们个人发推的频率较低，但是二元（成对）频率较高。例如，右侧的两个紫色节点经常一起发推。与图1a中的其他节点相比，他们个人发推的频率较低。0Track：第9届建模社交媒体国际研讨会（MSM 2018）应用机器学习和人工智能建模社交媒体WWW2018，2018年4月23日至27日，法国里昂G =i=1j=1 |ui − uj |2nni=1 udi,(1)13340图2：墨尔本事件网络中包含机器人和合法用户的图形。0然而，二元（成对）频率较高。这两个节点与核心松散连接。在检查他们的完整资料后，发现这些用户是政治机器人。这促使我们进一步探索推文图。网络的核心（绿色节点）被发现是澳大利亚的新闻频道和热门博客，例如MelbLiveNews，newsonaust，7NewsMelbourne和LoversMelbourne等。媒体账户很可能在事件发生当天报道人口级别的事件，因此它们形成了事件网络图的强连接核心。然后，我们以类似的方式对所有推文进行了聚类，构建了一个图，其中两个用户之间存在边，如果他们在同一天发推，无论当天是否有事件。我们使用Louvain方法对网络进行聚类[5]，该方法基于模块性的概念。通过优化模块性，可以在给定网络中获得最佳的节点分组。然后，在图中找到了两个强连接的组件：1.新闻频道，2.机器人。我们分析了网络中的强连接顶点诱导子图。图2显示了墨尔本市的一个这样的组件，它是图1b中的一个强连接组件。机器人是紫色节点（通过手动检查资料进行验证）。绿色节点表示误报。橙色节点既不是机器人也与预测无关，因为这些用户不位于澳大利亚，而是在英国谈论维多利亚。消息多样性：我们根据URL和标签的提及计算推文的多样性。我们选择了最多推文的URL（| K | =20），然后过滤掉提及这些URL的用户（¯ U �U）。这种方法的动机是，事件预测模型应该对在推文中很少提及的机器人URL具有韧性，因此这些URL不会对预测准确性产生很大影响。然后，我们为每个剩余用户计算了以下三个度量：i）包含任何URL的推文总数，u all i，ii）提及URL k ∈ K的推文数，u ki，iii）多样性得分，即两个度量之间的差异，u d i = u all i - u ki。然后，我们绘制了每个u k ∈ ¯U的多样性得分分布，对于每个URL k ∈K。这立即提供了有关内容污染者行为的一些相关见解：图3a显示了一个合法的URL（即由合法用户链接的URL），而图3b和图3c显示了机器人URL（即由机器人链接的URL）。用户们0推文这些URL的用户被分类为潜在机器人。图表显示，链接到合法URL的用户的多样性通常远远大于链接到机器人URL的用户。机器人URL提及的时间模式和定期推文的URL表明这些用户确实是机器人。我们通过两种方式测量多样性：0(1) 基尼系数 ( G ∈ R , G=[0,1]):0其中 n 是推文特定URL的用户数量。基尼系数 G描述了多样性分布中的相对不平等程度：G = 0 表示完全平等，而G = 1 表示完全不平等。高的 G表示观察之间的协调。基尼系数不测量绝对不平等，解释可以因情况而异。新闻频道、报纸和著名活动家等合法账户很可能推文合法且多样化的URL，因此与非法URL相比，合法URL的基尼系数较高。十个URL样本的基尼系数如图4所示。(2)排序规则：我们观察到只有一小部分URL在推文中被频繁提及，而大量URL几乎只在一条推文中出现过一次。有趣的是，城市及其排名也遵循类似的分布规律；这种模式通常被称为排名规模规律[31]。这也在关于用户呼叫行为的各种研究中观察到[2][3][27]。0我们在每个用户与URL多样性图上拟合曲线，并测量决定系数 R 2。接近零的值表示模型对响应数据在其均值周围的可变性解释很少。对于合法的URL，我们获得了接近1的值（图3）。最近，Gilani等人通过查看完整的推文历史评估了自动化账户与人工账户的特征[18]。他们最初假设机器人会推文多个不同的URL，然而在实际数据中，他们发现人类也可能发布多个URL。相反，在这项工作中，我们查看了最常发布的URL，然后针对每个URL分析了推文该URL的用户的多样性。我们使用URL上的消息多样性检测到了849个机器人，我们称之为内容污染者。这些内容污染者在数据中贡献了约7%的推文。我们对内容污染者与合法用户进行了一些统计，如图5所示。在[14]中，作者认为社交机器人往往具有最近创建的账户和较长的名称。然而，在我们的数据中，我们没有发现内容污染者和普通用户之间的显著差异。内容污染者账户的平均账户年龄为2.9年，而合法用户为4.2年。这种差异是显著的（ p <0.01）。这表明这种特定类型的机器人账户相对较老，并且可能未被Twitter发现。机器人的Twitter名称平均有11个字符，而非机器人的平均有12个字符。没有任何机器人账户通过了Twitter的验证。总共有109个政治机器人账户于2014年2月20日创建，带有0研讨会：第9届社交媒体建模国际研讨会（MSM 2018）应用机器学习和人工智能建模社交媒体 WWW2018，2018年4月23日至27日，法国里昂01002003004005006002468101214usersdiversity01002003001.01.21.41.61.82.0usersdiversity0501001501.52.02.5usersdiversityGini0.00.20.40.60.8www.digitaltrends.comlinkis.comwww.9news.com.auwww.theguardian.comwww.facebook.comwww.youtube.comwww.heraldsun.com.auwww.theage.com.auwww.abc.net.auwww.mojahedin.orgtwitter.com13350(a) 合法 (基尼系数 = 0.8, R 2 = 0 . 98 )0(b) 机器人 (基尼系数 = 0.32, R 2 = 0 )0(c) 机器人 (基尼系数 = 0, R 2 = 0 )0图3：通过3个URL测量机器人和真实用户的消息多样性。0图4：十个URL的基尼系数。高基尼系数表示合法的URL。基尼系数最低的三个URL被内容污染机器人推文。0只有12个独特的名称，强烈表明是一个机器人网络。我们还发现了几个数字媒体机器人账户。这些账户旨在通过吸引关注者而变得出名[6]。这些账户于2016年3月30日创建。该集合由8个账户组成，平均朋友数为4099，关注者数为1112。我们还使用我们的算法探索了[23]的数据集。该数据集包含超过60万条推文。每个数据集（机器人和非机器人）的基尼系数约为0.5，因此我们无法得出结论。Gilani等人的数据集[18]只包含每个用户提到的URL数量，因此无法检查任何特定URL的相对频率。我们认为内容污染机器人的性质使它们在传统的机器人检测数据集中难以区分。这激发了我们下面的研究问题以及下一节中创建一个新的经过人工验证的内容污染数据集的动机。03 创建一个内容污染机器人数据集0鉴于我们在分析中发现的机器人账户的特殊性，我们继续提出一些相关的研究问题。03.1 人类是否能成功检测到内容污染者？0我们进行了一项用户研究，手动标记了一组Twitter账户，其中包含相等数量的内容污染者（来自我们在前一节中获得的列表）和合法账户。我们请三个独立的手动标记者创建了该数据集。首先向用户展示了几个内容污染者的示例以及合法账户的示例。所有三位参与者都熟悉使用Twitter。所有参与者都发现即使使用自动翻译，也很难评估非英语账户。参与者记录了以下评论：0参与者1领域知识：高级Twitter用户评论：“我遇到的问题是，用户实际上并不发起可疑的推文。他只是转发了一大堆污染推文的内容"。0策略：•如果用户从众所周知的新闻垃圾网站发推文或转推，则标记为机器人。•否则，查看推文模式，如果推文行为非常垃圾，例如高度一致的推文频率和推文来自单一来源，则标记为机器人。•查看是否经常提及和与其他Twitter用户互动，这表明是一个常规账户的良好迹象。•查看个人资料详细信息和关注者与关注者比例，以区分是否像一个常规账户或机器人。0研讨会：第9届社交媒体建模国际研讨会（MSM 2018）应用机器学习和人工智能进行社交媒体建模WWW2018，2018年4月23日至27日，法国里昂13360参与者2领域知识：Twitter用户/领域专家评论：“这是一项非常困难的任务。并不清楚机器人和人之间的区别。这比标记单个推文要慢得多。"策略：•查看Twitter账户。如果用户发推文来自众所周知的新闻垃圾URL/服务（@convoy，dv.it，360WISE，mojahedin.org），则标记为机器人。•如果没有，浏览该账户。如果我能找到一些原创内容（例如对转推的评论），则标记为合法账户。•如果它总是从一个或只有几个账户转推，则标记为机器人。•否则，就要靠判断了。这包括查看头像图标-如果所有关注者看起来非常相似（例如都是动漫人物，或者都是模糊的图片），或者总是使用相同的非Twitter链接缩短器，那么我会将其标记为机器人。•然后有一组账户发布了相同的内容。我只在一段时间后才注意到这一点，所以我可能只抓住了其中一些。•有一组类似马尔可夫链的账户（例如1240541203）。由于许多Twitter用户的混乱、非标准语言以及有限的文本量，很难区分它们。0参与者3的领域知识：日常Twitter用户评论：“我认为有很多账户是部分自动化的，可能部分是人类（例如，带有烦人的“我增加/减少了n个关注者”的推文），这似乎是一个挑战。我试图弄清楚这些是否真的是人类。”策略：•在每种情况下，我会浏览推文。有连贯的原创内容而没有URL表明该账户很可能是人类。•来自可识别的垃圾邮件来源（例如360WISE）的推文表明该账户是机器人。•推文之间存在压倒性的一致性表明是机器人（即每个推文具有完全相同的文本格式，或者使用相同的URL缩短服务），除非这与一个经过精心策划的商业账户相关联。•对于其他情况，我会查看个人资料信息、关注者比例和推文的更广泛内容，并做出我能做出的最好判断。0我们通过记录3个手动标注者中有2个达成一致的分类来构建了一个标记数据集。对于我们的内容污染者算法，我们观察到在这个手动标记的数据集上观察到的正确预测比例（对于两个类别）为0.57。我们测试以下假设：H1a：我们的方法能够以超过50%的准确率找到机器人/非机器人账户。因此，0零假设是：H0：我们的方法随机标记了机器人/非机器人账户。经过t检验，我们在α=0.05的显著性水平下拒绝了零假设（p=0.00029）。03.2 Twitter在检测社交机器人方面的效率如何？0Twitter不断搜索可疑账户，发现恶意账户后可能会将其删除。在这个实验中，我们研究了Twitter从我们检测到的机器人列表中暂停的机器人账户数量。我们分析的数据集来自2015/2016年，但我们在2017年4月进行了这个实验，这给了我们一个由Twitter确定为机器人的全面账户集合。我们使用了TwitterAPI进行这个实验。给定一个特定账户的查询，TwitterAPI如果该账户被Twitter暂停或用户删除，则返回错误消息。如果返回错误代码63，则表示Twitter已暂停该账户，而错误代码50表示用户已删除该账户。对于活跃账户，会返回有关账户的元数据信息。在查询TwitterAPI时，我们发现Twitter已经暂停了849个内容污染者中的153个账户。03.3 其他方法在机器人检测方面的效率如何？0我们还测试了一种名为Truthy（也称为BotOrNot）的最先进的机器人检测系统的性能[10][35]。这是由印第安纳大学布卢明顿分校于2014年5月开发的公开API服务，用于评估Twitter账户与社交机器人已知特征的相似性。它使用用户的完整个人资料来确定用户账户是否可能是机器人。BotOrNot使用了一个监督式机器学习分类器，利用了对调查中的Twitter账户的1000多个特征。这些特征是基于网络信息和推文行为推导出来的。作者指出，尽管该服务专门设计用于检测机器人，但对于进化的垃圾机器人的性能可能比论文中报告的要差。我们对我们的真实机器人账户集合对该服务进行了查询。Truthy会对每个账户显示得分。得分越高，表示账户更像机器人。图6显示了Truthy对我们的机器人列表的整体性能。平均得分为0.55，标准误差为0.14。表2显示了性能摘要。我们指出，对于检测内容污染者的任务，我们的方法与Truthy的性能相当，仅使用了采样推文级别的URL多样性信息。我们再次强调，我们使用消息多样性来检测内容污染者账户，因为我们无法访问完整的账户信息，而Truthy则利用了从完整用户资料和网络中获取的特征。然而，Truthy的目标与我们试图实现的目标大不相同。我们利用单个推文和用户元数据实时过滤机器人以进行事件预测。04 讨论0Track: 第9届建模社交媒体国际研讨会（MSM 2018）应用机器学习和人工智能建模社交媒体WWW 2018年4月23日至27日，法国里昂 010002000300040000.00000.00100.0020 4681012140.000.050.100.150.20 0.20.40.60.81.005010015020025013370账户创建后的天数0百分比0（a）账户创建时间0Twitter账户名称的长度0百分比0（b）Twitter账户名称的长度0图5：用户特征。机器人（红色）与合法用户（蓝色）0表2：我们的方法与Truthy的性能总结。根据Truthy的说法，用户研究中65%的真阳性可能是机器人，而21%的假阳性也有超过0.5的概率是机器人。0Truthy（pr >= 0.5）） Truthy（µ）0用户研究报告的真阳性65% 0.556 0.159 用户研究报告的假阳性21% 0.392 0.1310得分0频率0图6：在完整的机器人列表上使用Truthy获得的结果。请注意，这些结果是在Twitter暂停的153个账户被删除后获得的。0研究中，我们的数据集缺乏网络信息和详细的推文历史。我们展示了一种使用完整的个人资料和网络信息的最先进的Twitter机器人检测技术在我们的数据集上的有效性。此外，我们分析了Twitter和普通用户在区分机器人和合法用户方面的能力。Twitter不断寻找恶意账户并删除它们。然而，这个过程可能非常缓慢，许多账户仍然未被发现[1]。追踪删除推文的用户是困难的，因为Twitter不提供已删除的推文或超过30天的推文的访问权限。我们表明，即使在没有恶意推文的情况下，任何验证方法都容易失败。0由于现有方法无法有效检测内容污染机器人的存在，我们认为对于实时的Twitter流，由于时间和可扩展性的限制，很难获得详细的个人资料信息，因此一种经济有效的方法是计算每个用户的推文消息多样性。低多样性可能表明存在可疑的账户。这项工作最具挑战性的方面是验证结果，因为用户的观点并不总是正确的，而且标准的机器人检测方法在使用完整的Twitter账户信息时很容易出现误分类[9, 17,18]。我们的用户研究结果表明，我们的方法在大多数合法账户上与参与者意见一致。然而，在机器人账户方面存在一些意见差异，因为这主要涉及人们对机器人或内容污染者的看法。例如，参与者3表示，当一个账户与一个精心策划的商业账户相关联时，他们不认为这是一个机器人账户。然而，当我们查看原始推文时，某些用户在推广与墨尔本市无关的业务时使用了诸如“#墨尔本”之类的标签。参与者还表示，一些账户似乎是部分自动化和部分人工的。即使是高级的Twitter用户也发现区分机器人和合法用户是一项具有挑战性的任务。传统机器人检测方法中删除推文是一个重要问题。在美国选举的情况下，一篇最近的新闻文章称：“Twitter要么无法，要么不愿从传播虚假信息的机器人和假用户中检索到大量推文。这些用户与俄罗斯有关，他们已经删除了这些推文”[8]。在没有恶意推文的情况下，任何验证方法都容易失败。0主题：第9届建模社交媒体国际研讨会（MSM 2018）应用机器学习和人工智能建模社交媒体WWW 2018年4月23-27日，法国里昂13380性能改进：2017年2月，我们使用我们的内容污染者检测方法来提高基于社交媒体的预测模型的性能[29]。来自澳大利亚一家大型执法机构的用户对预测结果的改进给予了积极的反馈。我们注意到该模型不再错误地预测与“陪同”相关的事件，这明显提高了模型的性能。此外，去除机器人还删除了2月份的18个与彩票销售相关的不感兴趣的事件。05 结论和未来工作0我们发现该数据集中的内容污染者通常会在同一时间发布推文。通过分析时间模式，可以推断出机器人账户的存在。然而，我们还注意到新闻频道的推文也存在时间相关性。仅使用时间方法可能会导致对合法账户的错误分类。我们还发现机器人在推文中使用了一小组URL，因此通过找出最常用的URL并计算它们在数据集中所有唯一用户的推文中的相对使用情况，可以成功检测到内容污染者。我们的分析结果表明，传统的机器学习方法可能需要大量特征，并且可能无法正确识别机器人。我们在数据集中检测到的机器人有助于去除数据中的噪声，并显著提高了预测模型的性能。未来，我们的目标是：0（1）分析与抗议无关的推文以检测机器人，并利用其他可用的关系，如用户-事件关系、时间关系、社交互动等。（2）将机器人分类为不同的类别，并探索一些机器人是否甚至可以用于民众动荡的预测。（3）进行更多的用户研究，参与人数更多，以进一步了解内容污染者的特征。06 致谢0作者感谢数据决策CRC的资金支持。MN和LM还感谢澳大利亚数学和统计前沿卓越中心（ACEMS）的支持。0参考文献0[1] Marco T Bastos和Dan Mercea. 2017. BrexitBotnet和用户生成的极端党派新闻。社会科学计算机评论（2017），0894439317734157。[2] Frank Bentley和Ying-Yu Chen. 2015.现代手机通讯录的组成和使用。在第33届人机交互年会论文集中。ACM，2749-2758。[3] Ofer Bergman，Andreas Komninos，Dimitrios Liarokapis和James Clarke. 2012.你从不打电话：使用DMTR在移动电话上降低未使用的联系人。个人和普适计算16，6（2012），757-766。[4] Alessandro Bessi和Emilio Ferrara. 2016.社交机器人扭曲了2016年美国总统选举的在线讨论。（2016）。[5] Vincent DBlondel，Jean-Loup Guillaume，Renaud Lambiotte和Etienne Lefebvre. 2008.大型网络中社区的快速展开。统计力学杂志：理论和实验2008，10（2008），P10008。[6] Yazan Boshmaf，Ildar Muslukhov，Konstantin Beznosov和Matei Ripeanu. 2011.社交机器人网络：当机器人为了名声和金钱而社交化。在第27届年度计算机安全应用会议上。ACM，93-102。[7] Qiang Cao，Michael Sirivianos，Xiaowei Yang和TiagoPregueiro. 2012.帮助检测大规模社交在线服务中的假账户。在第9届USENIX网络系统设计和实现会议上。USENIX协会，15-15。0[8] Monica Chin. 2017. 报告：Twitter删除了与俄罗斯调查相关的推文。 (2017).http://mashable.com/2017/10/13/twitter-deleted-russian-tweets/ #CIbGh7BglkqS[9] Stefano Cresci, Roberto Di Pietro, Marinella Petrocchi, AngeloSpognardi和Maurizio Tesconi. 2017.社交垃圾机器人的范式转变：证据、理论和工具的武器竞赛。在第26届国际万维网会议论文集中。国际万维网会议主席团，963-972。[10] Clayton Allen Davis, Onur Varol, EmilioFerrara, Alessandro Flammini和Filippo Menczer. 2016.BotOrNot：一个评估社交机器人的系统。在第25届国际万维网会议论文集中。国际万维网会议主席团，273-274。[11] John P Dickerson，Vadim Kagan和VS Subrahmanian.2014.使用情感来检测Twitter上的机器人：人类比机器人更有意见吗？在2014年IEEE/ACM国际社交网络分析和挖掘（ASONAM）会议上。IEEE，620-627。[12] Andy Doyle，GrahamKatz，Kristen Summers，Chris Ackermann，Ilya Zavorin，Zunsik Lim，SathappanMuthiah，Patrick Butler，Nathan Self，Liang Zhao等人。2014.使用Embers流预测分析系统预测重大社会事件。大数据2，4（2014），185-195。[13]Emilio Ferrara. 2017. 2017年法国总统选举前的虚假信息和社交机器人行动。 (2017). [14]Emilio Ferrara，Onur Varol，Clayton Davis，Filippo Menczer和Alessandro Flammini.2016. 社交机器人的崛起。ACM通信。 59, 7（2016），96-104。[15] Vlad HowardPhilip N. Gallacher，John D. Barash和John Kelly。[n.d.]。军事事务和国家安全的垃圾新闻：针对美国军人和退伍军人的社交媒体虚假信息运动。([n. d.]). http://comprop. oii.ox.ac.uk/publishing/working-papers/vetops/[16]Saptarshi Ghosh，Bimal Viswanath，Farshad Kooti，Naveen KumarSharma，Gautam Korlam，Fabricio Benevenuto，Niloy Ganguly和Krishna PhaniGummadi. 2012.了解和打击Twitter社交网络中的链接农场。在第21届国际万维网会议论文集中。ACM，61-70。[17] Zafar Gilani，Reza Farahbakhsh，Ga

下载后可阅读完整内容，剩余1页未读，立即下载