没有合适的资源?快使用搜索试试~ 我知道了~
结合机器学习和知识工程检测社交网络中的假新闻-一项调查Sajjad Ahmed1,Knut Hinkelmann2,Flavio Corradini11意大利卡梅里诺大学计算机科学系2FHNW University of Applied Sciences and Arts Northwestern SwitzerlandRiggenbachstrasse 16,4600 Olten,瑞士ahmed. unicam.it; knut. fhnw.ch;flavio. unicam.it摘要由于假新闻在社交媒体和新闻媒体上的广泛传播,它成为一个新兴的研究课题,现在已经引起了人们的关注。在新闻媒体和社交媒体中,信息高速传播但不准确,因此检测机制应该能够足够快地预测新闻以解决假新闻的传播。它有可能对个人和社会产生负面影响。因此,检测社交媒体上的假新闻很重要,也是当今技术上具有挑战性的问题。我们知道,机器学习有助于建立基于隐性知识的人工智能系统,因为它可以帮助我们解决由于真实世界数据而引起的复杂问题。另一方面,我们知道知识工程有助于将专家的知识表示为人们知道的知识.因此,我们提出机器学习和知识工程的集成可以帮助检测假新闻。在本文中,我们介绍了什么是假新闻,假新闻的重要性,假新闻对不同领域的整体影响,在社交媒体上检测假新闻的不同方法,现有的检测算法可以帮助我们克服这个问题,类似的应用领域,最后我们提出了数据驱动和工程知识相结合来打击假新闻。我们研究并比较了三个不同的模块文本分类器,立场检测应用程序事实检查现有的技术,可以帮助检测假新闻。此外,我们还调查了假新闻对社会的影响。对公开数据集的实验评估和我们提出的假新闻检测组合可以更好地检测假新闻。介绍假新闻和错误信息的传播在2016年美国总统选举后主导了新闻周期。一些报告显示,俄罗斯已经创建了数百万个虚假账户和社交机器人,以便在选举期间传播虚假故事版权归作者所有。以. Martin,K. Hinkelmann,A. Ger-ber、黑腹拟步行虫D. Lenat,F. van Harmelen,P. Clark(Eds.),AAAI2019春季研讨会将机器学习与知识工程相结合(AAAI-MAKE2019)。斯坦福大学,帕洛阿尔托,加利福尼亚州,美国,2019年3月25日至27日。(Lewandowsky 2017)。人们观察到在社交媒体渠道上传播假新闻和生成这些类型的信息的各种动机。其中有些是为了获得政治利益或破坏他人的声誉或寻求关注。Fakenews是一种黄色新闻或宣传,包括通过传统印刷和广播新闻媒体或在线社交媒体传播的故意错误信息或恶作剧。根据PEW研究中心发布的报告,假新闻的重要性很容易理解(Rainie et al. 2016)。数据显示,38%的成年人经常在网上获取新闻,28%的人依赖网站/应用程序,18%的人依赖社交媒体。总体而言,64%的成年人认为假新闻造成了很大的混乱。假新闻的重要性也可以通过下图来判断,图中显示了2016年美国总统大选后,假新闻在全球范围内大受欢迎图1:过去五年的Google趋势假新闻的广泛传播会对社会和个人产生负面影响。假新闻故意说服客户接受有偏见或错误的信念。假新闻改变了人们解读和回应真实新闻的方式比如,一些假新闻就是为了引发人们的不信任,使他们感到困惑,阻碍他们区分什么是真的,什么是假的能力(斯科特等人,2000; Leonhard等人,2017; Himma 2017)。重要的是要明白,虚假和欺骗性新闻已经存在很长时间了。它一直是对话的一部分,直到新闻自由的诞生(Soll2016)。有多种方法可以自动检测假新闻:文本分类,立场检测,元数据&事实检查。数据驱动: 文本分类:它们主要集中在提取文本的各种特征,然后将这些特征结合到分类模型中,例如。决策树,支持向量机,逻辑回归,K近邻。最后选择表现良好的最佳算法(Nidhi et al. 2011)。Emergent1是一种实时数据驱动的谣言识别方法。它可以自动跟踪与社交媒体相关的谣言,但那些需要人工输入的谣言还没有自动化。问题是大多数分类方法都是有监督的,所以我们需要先验数据集来训练我们的模型,但正如我们所讨论的,获得可靠的假新闻数据集是非常耗时的过程。 姿态检测:假新闻已经成为美国2016年总统大选后的一项重要任务。政府,报纸和社交媒体组织正在努力将虚假内容和可信内容分开。因此,识别阶段的第一步是了解其他人对同一主题的看法(Ferreira et al.2016)。就假新闻而言,最初的挑战是专注于立场检测。在立场检测中,我们检查关于相同主题和其他人的立场的两个不同文本片段的相关性的估计(Saif et al.2017)。PHEME 2是由欧盟委员会从2014年至2017年资助的三年研究项目,研究用于处理谣言检测、立场分类的自然语言处理技术(Lukasik et al. 2015 ; Zubiaga等人2016),矛盾检测和分析的社交媒体rumors.现有的姿态检测方法基于在各个帖子上嵌入特征来预测该特定内容的姿态。 元数据:我们可以用不同的相似度来分析假新闻。地点、时间、作者和质量。 我们可以检测是否由其他媒体机构发布相同的新闻。我们可以检查新闻的位置。特朗普写关于中国或阿拉-我们还可以检查新闻的时间,因为相同的新闻是否出现在其他媒体或来源中,如果它在开始时更频繁地重复,因为它们很有趣,并且随着时间的推移而被识别为假的,这减少了重复或它们被从一些网站中删除。在这个阶段,我们没有明确的解决方案,但经过详细的文献回顾,我们可以说,制作更多的报道和更多的事实确实可以帮助我们做出这样的决定,并找到虚假新闻检测的技术解决方案。知识工程:事实核查技术主要是在已知事实的基础上对新闻事实进行核查。存在三种类型的可用的事实检查技术Knowledge Linker ( Ciampaglia et al. 2015 ) 、 PRA(Lao et al. 2011)和PredPath(Shi et al.2016)。 然后是利用知识检验事实的预测算法--度积(Shi et al.2016),L. Katz(1953),Adamic& Adar(Adamicet al. 2003)和Jaccard系数(Liben et al. 2016)。一些事实核查组织提供在线事实核查服务,例如:Snopes3,PolitiFact 4&Fiskkit 5. Hoaxy6是另一种用于事实检查的板形式。收集、检测和分析以及检查在线错误信息是Hoaxy的一部分。他们遵循的标准是检查新闻是假的还是真的,他们只是将其提交给该领域的专家,个人或组织。他们还跟踪了无党派信息和数据来 源 ( 例 如 , 同 行 评 审 期 刊 、 政 府 机 构 或 统 计学)。讨论我们的主要研究问题是,如何使用数据驱动和知识工程来区分假新闻和非假新闻。事实表明,假新闻现象是一个重要的问题,需要学术界的关注,以确定假新闻是如何传播的。不同的小组介绍了不同的模型,其中一些应用面向数据,一些只应用知识方面。重要的一点是,这些类型的信息在社交媒体网络上的传播速度是如果发现新闻是假的,现有的技术会立即阻止它们,因为它们的功能是我们无法取代的,但如果发现新闻是假的,至少我们需要一些专家的意见或验证才能阻止特定的新闻.这件事有助于第三方事实核查机构来解决问题,但这也是一个耗时的过程。我们需要一些关于希拉里·克林顿的新闻起源于俄罗斯),我们可以明智地检查新闻质量,更有可能的是假新闻没有提及其来源,只是声称一些东西,而对于真正的新闻,来源是1www.emergent.info2www.pheme.eu3www.snopes.com4www.politifact.com5www.fiskkit.com6https://hoaxy.iuni.iu.eduwww.example.com/应用程序,检查新闻是否是假的或不是在同一个地方。现有的假新闻系统基于预测模型,简单地分类新闻是假的还是假的。一些模型使用源可靠性和网络结构,因此在这些情况下,最大的挑战是训练模型,由于语料库的不可用性,这是不可能的。由于假新闻问题的激增和克服上面讨论的挑战,基于志愿者的组织Fake-NewChallenge7包含70个团队,其组织专门的机器学习竞赛来检测假新闻问题。最后,我们可以说,需要一种将知识与数据相结合的替代应用,并且需要事实检查的自动化,其在同一地方用专家意见深入地查看新闻的内容以检测假新闻。本文的其余部分分为四个部分。第二部分包括背景、对社会的影响、新闻内容模型、相关工作和类似的应用领域;第3节描述了我们用于初始分类的方法学、建议的组合方法和公开可用的数据集。我们的结论和未来的发展方向在第4节。文献综述在本节中,我们试图涵盖与我们的主题相关的所有主题,并有助于更好地理解假新闻检测。本文首先讨论了读者对网络新闻媒体的信任水平。然后我们讨论了假新闻对社会的影响,然后讨论了不同类型的新闻模式。然后,我们讨论了相关的工作和类似的应用领域,其中一些研究人员应用数据驱动和一些应用知识方面,以克服在该特定领域的具体问题。背景互联网给了每个人进入网络新闻业的机会,因为他们中的许多人已经拒绝了传统的新闻来源,这些新闻来源已经获得了公众的高度信任和工作的可信度。根据一项调查,大众媒体的普遍信任度跌至该行业历史上的最低点。特别是在政治右翼中,51%的民主党人和14%的共和党人在美国表达了对大众媒体作为新闻来源的极大信任(Lazer et al.2018)。人们已经知道,再次重复的信息比以前没有听到的信息更有可能被评为真实。对假新闻的熟悉程度会随着真实性的增加而增加。此外,这件事并没有停止在这里,因为虚假的故事会导致创造虚假的记忆。作者首先观察了“错觉-真实效应”,并给出了被试对重复陈述的真实性评价高于新陈述的结果。他们提出了一个案例研究的结果7http://www.fakenewschallenge.orgwww.example.com/与没有接触过假新闻或假故事的参与者相比,连续五周阅读过假新闻或假故事的参与者认为假故事更真实,更可信(Hasher等人,2004)。1977)。新闻可以是真实的,如果它表达的信息是更熟悉的。熟悉意味着暴露的自动后果,因此它会影响真理,而这完全是无意的。在这些情况下,消息来源或传播故事的机构警告说,消息来源可能不可信,人们不会因为熟悉而停止相信这个故事(Begg et al. 1992)。另一项研究包含实验中显示的一半陈述是真的,一半是假的,但结果表明,参与者喜欢重复的陈述,尽管它们是假的,但由于熟悉,他们认为比他们第一次听到的故事更真实(培根等人)。1979)。对消息来源的监控本身就是一种检查和识别我们所阅读的新闻来源的能力。一些研究清楚地表明,参与者使用熟悉性来理解他们记忆的来源。另一项提出一般知识和语义记忆的研究并不关注条件,而是只帮助一个人何时何地学习这些信息。类似地,一个人可能对一个事件有一些知识,但不记得这个事件,所以它来自记忆(Potts et al. 1989)。对不同领域的新闻是一个实时的情况和一个全面的故事,涵盖不同的问题,如犯罪学,健康,体育,政治,商业等。当地新闻机构主要关注特定的地区问题,国际新闻机构则报道当地和全球新闻。根据读者的选择找到一个特定的故事是一项重要的本研究提出了不同的方法,我们如何克服这个问题并遵 循 读 者 的 选 择 ( Zhai et al. 2005 ) 。 基 于 twitter 和Wikipedia中包含不同单词但指向相同主题的微博,在特定时间段内检测局部区域的热点话题业务在网络新闻媒体中,服务和用户总数对于获得更多业务至关重要。由于大量用户和假新闻的传播,一些大公司赚了很多钱,比如Facebook、Twitter、谷歌和搜索引擎,它们也是假新闻的生产者和消费者。假新闻与日俱增,对社会的影响十分恶劣。社交网络美国总统大选后,社交媒体面临来自公众和民间社会的压力,要求在其平台上发布假新闻。打击假新闻是一项非常艰巨的任务,特别是在没有适当的制衡和共享政策的情况下。当用户点击并直接重定向到该页面时,在社交媒体上传播的文章但问题是我们如何衡量社交媒体网络对假新闻供应商因此有可能通过其网络流量的来源进行测量。每次当用户访问该网页时,该用户直接通过服务器导航或它引用到一些其他站点(Allcott等人,2011)。2017)。一个真正有助于检测Facebook上虚假文章的重点领域是事实检查组织。Facebook表示,他们正在采取一切措施来解决平台上的问题,并尽可能地让那些真正想要分享虚假内容的人难以在平台上购买广告。在社区和第三方事实检查组织以及一些立场检测机制的帮助下,更好地识别虚假新闻是可能的,因为它们可以限制虚假内容的传播速度,并且可以使其不经济(Mosseri 2017)。单个用户有相同的设施,他们会得到一个消息,有些人不同意的文章内容。普通用户无法判断他们所看到的链接的有效性。因此,这件事可能是不可靠的脸书标记功能(沃尔森2015)。第二个重点领域是假新闻文章中可用的标志。用户只需点击该帖子的右上角即可。被用户标记为假的特定帖子的次数越多,它就越不经常出现在新闻提要标签中。根据Facebook的政策,他们不会删除标记的帖子,但他们最终以声明“Facebook上的许多人报告说这个故事包含虚假的”斯坦福历史教育集团(2016)。由于问题的敏感性,Facebook会向负责检查该帖子事实的第三方发送标记帖子。如果事实检查组织标记它disputed然后自动用户将看到一个横幅下的article如果它出现在用户新闻提要区。该横幅将清楚地解释第三方组织提出异议的情况,并提供链接。另一件事是,这些disputed故事在新闻提要中被推下,在任何用户分享之前都会出现一条消息,如果他们确定可以分享它(Guynn 2017)。依靠用户并不是一个永久的好解决方案,但这个想法只是为了教育用户,如果他们同意,那么他们就可以分享它。如果每个用户都关心这一点,那么假新闻就不会成为大问题。检查文章的真实程度是非常困难的,因为它们在某些方面有所不同,但以非常专业的方式。这就是为什么只有最好的方法是了解Facebook的管理层每个用户都需要明白,在Facebook上分享任何信息之前,他们必须确定这一点(Dillet 2017)。Facebook的管理层和负责人声称,他们有一种算法可以帮助根除虚假文章。该算法在分享之前向用户显示该文章的来源、日期、主题和交互次数。当我们与Twitter比较时,真实账户持有人向一些小型网站和高度活跃的“cy-borg”用户分享的假新闻(Silva et al.2016)。他们非常专业,有时这些专业团体会被国家和恐怖组织发展成工业化团体。这些团体称巨魔农场和根据一项研究,他们有潜在的算法,以跟踪在Twitter(Nygren等人。2016)。安全机构错误的信息或宣传一直被用来影响人们,给对手制造恐惧。我们可以把它分为三种类型。白色宣传是指我们知道发起者,并且由该特定个人或团体传播的消息是真实的。黑色宣传是指我们不知道消息来源,而且那个人或团体分享的新闻完全是假的。灰色字体是介于白色和黑色之间的字体在冷战期间,这类活动的目的是左右舆论,只是为了向隐藏的发送者隐瞒和歪曲事实。2002年至2008年,美国军事部招募了大约75名领取养老金的军官,只是为了在媒体上宣传伊拉克可能拥有武器。这种活动的目的是削弱支持他们的对手的公众,并加强自己的支持。这项工作是通过不同的来源完成的。广播、报纸和电视频道隐藏了联系(Nygren et al. 2016)。当我们将其与早期的宣传变体进行比较时,由于社会需要,因为今天每个人都有可能在几秒钟内达到大量观众,但在过去这是不可能的。所以这意味着我们更依赖于影响更大的信息。一些其他的行动者也参与了这场运动,他们可以很容易地影响事实,这些是外交人员,军事经济国家行动者和公共关系部门。与国家控制一切相比,一个独立的机构可以很容易地控制这些类型的活动。这种虚假信息的一个很大的例子是2014年的乌克兰危机,一个国家入侵另一个国家的领土并误导它。由于这一点,它严重影响了世界的反应. 我们知道,这不仅是一件事,传播谎言,但也涉及其他活动,与它有关。在下一节中,我们将通过示例逐一讨论不同类型的新闻内容模型。新闻内容模型在内容建模中,我们确定我们的需求,开发满足这些需求的分类法(分类系统),并考虑在哪里应该允许或需要元数据。图2:新闻内容模型新闻内容模型可以是基于知识和基于风格的类别,但由于社交媒体的增强,它为研究人员提供了额外的资源来补充和增强新闻内容模型,如社会背景模型,基于立场的传播。新闻内容建模的主要重点是新闻内容特征,特别是事实来源,以检测虚假和真实文本(Wang 2017)。在下一节中,我们将讨论新闻内容模型和现有的应用程序,并提供示例。基于知识:基于知识的方法的目标是使用外部来源来对新闻内容进行事实检查,并且事实检查的目标是特别地为声明分配真值(Vlachos et al. 2014)。当我们阅读文献时,我们已经知道,在假新闻检测领域中的事实核查受到了高度关注。这就是为什么许多人努力开发一些可行的自动事实核查系统.由于假新闻试图在社会媒体网络和新闻媒体上传播虚假新闻内容,因此直接意味着检测这些虚假声明并检查这些新闻的真实性。我们可以将现有的事实检查应用程序分为三部分面向专家,面向众包和面向计算。 专家导向我们需要高度领域专家在专家导向的事实核查,可以调查数据和文件,以裁定索赔。著名的事实检查应用程序是Snopes8 PolitiFact9。面向专家的事实核查要求很高,但它也是一个耗时的过程.一旦他们收到新的索赔,他们咨询领域专家,期刊或统计分析已经在该特定领域。这花了很多时间,所以我们需要开发一种新的分类方法,可以帮助更好地及时发现假新闻。新的事实核查机制,可以帮助读者在使用事实核查进行判断之前对新闻进行批判性的评估。这项工作的目的不是提供结果,内容是假的或不是假的,而是提供机制,在新闻阅读过程中的批判性评价读者开始阅读新闻,事实核查技术将为读者提供方便,同时阅读所有相关或链接的故事,只是为了进行批判性评价。他们使用评分指标公式显示评分指标阈值的相关故事,但如果评分指标低于阈值,则不会显示在相应的事实检查页面上(Gu- ha 2017)。三人普遍同意假新闻的特征:文章的文本,用户的反应和需要在一个地方的企业来源,之后他们提出了一个混合模型。第一个模块捕获用户,测量响应和文本。然后,第二分量得分估计每个用户的源,然后与第一模块组合(Ruchansky et al. 2017)。最后,所提出的模型允许CSI单独输出预测,如图3所示。图3:所提出的CSI模型 面向众包在众包方法中,它为用户提供了讨论和注释特定新闻的准确性的选项。因此,换句话说,我们可以说这是完全依靠群众的智慧,使事实核查的基础上,他们的知识. Fiskkit10是这种事实检查的一个很好的例子,因为它为用户提供了讨论和注释新闻文章准确性的工具。另一个反假新闻检测应用程序提供检测假文章的设施,并且进一步地,它为用户提供在从Face-book标记方法中获取动机并有公众参与和 利 用 人 群 信 号 来 检 测 虚 假 内 容 之 后 ( Potthast et al.2016)。开发了一种名为Detective的算法,它使用贝叶斯推理方法检查运行时标记的准确性。该算法每天选择新闻的小子集并发送回专家,并在专家响应的基础上阻止假新闻。 面向计算计算事实检查旨在为用户提供可以对真实和虚假内容进行分类的自动系统。大多数计算性事实检查在两个方面起作用,即识别值得检查的声明,然后区分事实声明的真实性。它基于用户对特定内容的关键基础和观点(Houvardas et al.2006)。开放网络和结构化知识图是这些类型的面向计算的事实检查的大例子。开放网络源被用作可以区分新闻真实和虚假的参考(Banko等人,2007; Magdy等人,2010)。本文的主要目的是将虚假内容分为三类:严重的他们提供了一种过滤、审查和核实的方法。8www.snopes.com9www.politifact.com10www.fiskkit.com分析新闻并详细讨论了这些新闻的优点和缺点(Rubin,V等人,2015)。这项研究是面向数据的应用,简单地说,他们使用了可用的数据集,然后应用了深度学习方法,最后他们提出了一种新的文本分类器,可以预测新闻是否是假的(Bajaj2017)。用于该项目的数据集取自两个不同的可公开访问的网站1112。传统的谣言检测技术都是基于消息级的检测,在数据的基础上分析可信度,而在实时检测时则是基于关键词,然后借助数据采集系统对相关微博进行采集,解决了这一问题.所提出的模型结合了基于用户、基于传播和基于内容的模型,并检查实时可信度,并在35秒内发回响应(Zhou等人,2015)。图4:实时谣言检测框架基于样式:在基于风格的方法中,假新闻发布者使用了一些特定的写作风格,这是吸引广泛的范围所必需的,而这在真实的新闻文章中是不存在的。这种活动的目的是误导或歪曲或影响大量人口。将新闻来源分为两类:写作质量和强烈的情感是要点,因为与可能由非专业作家撰写的假新闻文章相比,真实新闻源具有更高的写作质量(考虑到:漏写的单词、标点&句子长度)。另一方面,真实的新闻来源是出现公正或中立的话,用事实来描述事件。因此,分类器的开发并将其与其他分类方法进行比较是虚假内容识别的主要关注领域(Fan et al. C 2017)。在学术文献中很难确定讽刺(Nidhi et al. 2011)。另一项研究提出了一种方法,可以首先将幽默,讽刺和讽刺的理论转化为讽刺检测的预测方法。这部作品在概念上的贡献是将讽刺、反讽和幽默联系起来然后瞄准11www.kaggle.com12https://research.signalmedia.co/newsir16/signal-dataset.html假新闻框架与过滤,由于其潜在的误导读者(鲁宾等人。2016)。图5:假新闻:讽刺检测过程社会背景模型:社交媒体为研究人员提供了额外的资源,以补充和增强新闻语境模型。社会模型参与分析过程,并从各种角度以不同形式捕获信息。当我们检查现有的方法,我们可以分类的立场为基础的和传播的社会建模上下文。我们需要在这里强调的一个重要点是,只有少数现有的社会背景模型方法用于假新闻检测。因此,我们将尝试与文献的帮助下,用于谣言检测的社会背景模型。对社交媒体平台上分享的假新闻故事进行适当评估,并在信息源和基于Facebook数据的社会判断的帮助下自动识别虚假内容,是这项工作的重点。在2016年美国总统选举期间,他们研究了机器学习分类器可以帮助检测假新闻(Tresh et al. 1995)。 基于姿态这是一个过程,可以确定的结果,从新闻,读者是赞成或反对或中立的特定新闻(赛义夫等。2017)。有两种方法可以显式或隐式地表示用户立场。明确的立场是那些立场,读者给出了直接的表达,如拇指向上或拇指向下。隐式立场是从社交媒体帖子中提取结果的那些立场。总的来说,我们可以说立场检测是一个自动从用户帖子中确定大多数用户或赞成或反对的过程(Qazvinian等人,2011; Jin等人,2016)提出了一个模型来检查用户的观点,然后在观点的基础上学习帖子的可信度。(Tecchini et al. 2016)提出了一个使用“喜欢”立场的Facebook帖子用户的双向网络。根据结果,我们可以预测Facebook用户的可能性。基于n-gram匹配的二进制分类“相关”与“相关”的标题姿态检测“不相关的”对。该方法可以应用于虚假新闻的检测,特 别 是 点 击 诱 饵 检 测 。 他 们 使 用 由 组 织 Fake NewsChallenge(FNC1)发布的关于实验的立场检测的数据集(Bourgonje et al. 2017)。数据集是公开的,可以从相应的GitHub页面下载以及基线实现。数据集的关键点可以在下图4中看到。图6:FNC1数据集 基于传播在基于传播的方法中,为传播构建了同质和异质可信性网络。同质传播包含单个实体,如帖子或事件,但异构可信度网络包含多个实体,如帖子,事件和子事件(Jin等人2016; Zhiwei等2014; Gupta等2012)。在基于传播的方法中,我们检查社交媒体帖子上相关事件的相互关系,以检测假新闻和该新闻的可信度。另一项研究有助于在包括子事件之后构建三层网络,然后我们可以在图优化框架的帮助下检查新闻的可信度(Jin et al. 2014)。用于用户编码的 基于 传 播的 算 法, 其 可以 一 起检 查 可信 度 和推 文(Gupta et al. 2014年)类似应用领域在本节中,我们将讨论与假新闻检测问题类似的应用领域。一些应用程序使用数据端,一些应用程序与知识端相关。它们在特定领域中表现出良好的效果,但它们在开发过程中需要很高的努力,因此与知识工程相结合可以有助于减少努力。最后,我们讨论了其他一些数据驱动的应用程序(表1)和少数数据驱动和知识相结合的应用程序(表2)。真相发现/热点话题检测真理发现在信息时代扮演着重要的角色,因为我们现在比以往任何时候都更需要准确的信息。在不同的应用领域,真相发现可能是有益的,特别是在我们需要基于从不同来源 提取 的 可靠 信 息做 出 关键 决 策的 情 况下 , 例如 :Healthcare(Yaliang et al. 2016)、众包(Tschiatschek et al.2018)和信息提取(Highet 1972)。有些情况下,我们有信息,但我们无法解释,所以这些情况下,知识工程可以参与,我们可以更好地预测,根据从以前的结果学习。谣言检测谣言检测的目的是将一条信息分类为谣言或非谣言。四个步骤涉及模型检测,跟踪,立场的准确性,可以帮助检测谣言。这些帖子考虑了确定谣言真实性的重要传感器。谣言检测可以进一步分类为四个子任务立场分类,真实性分类,谣言跟踪,谣言分类(Arkaitz等人,2017)。所以仍然有几点需要更多的细节来理解这个问题,我们也可以从结果中了解到它实际上是谣言还是谣言,如果是谣言,那么它是多少。因此,对于这些问题,我们认为需要结合数据和知识方面来探索那些仍然无法解释的领域。点击诱饵检测吸引访问者的注意力,并鼓励他们点击一个特定的链接是clickbait业务的主要目标。现有的点击诱饵方法利用来自挑逗消息、链接网页、推文Meta信息的各种提取特征(Martin et al. 2016)。因此,在同样的情况下,我们可以在阅读任何类型的新闻之前通知读者,由于一些特定的迹象,它可能是假的,所以读者需要更加小心。电子邮件垃圾邮件检测电子邮件中的垃圾邮件检测是给企业带来经济损失的主要问题之一,也是困扰个人用户的主要问题之一。不同的组织正在使用不同的方法来检测电子邮件中的垃圾邮件,不同的机器学习方法对垃圾邮件过滤非常有帮助。图7:垃圾邮件过滤垃圾邮件会导致不同的问题,正如我们在上面广泛讨论的那样,但更确切地说,垃圾邮件会导致流量、计算能力和存储空间的滥用这项研究还解释了许多其他不同的技术可以帮助垃圾邮件检测,如电子邮件过滤,黑名单未经授权的地址,白名单,法律行动和更多(Siponen et al. 2006)。在下面的两个表中,我们只是概述了数据和知识方面以及它们用于解决问题的特定应用领域。表1:数据驱动的应用程序监督或无监督方法。这些方法由于可以帮助训练和评估分类器并产生良好结果的金标准数据集的不可用而没有提供良好的结果(Subhabrata et al. 2015)。事实上,人们的动机和心理状态可能与现实世界中的专业人士不同。不同的团体现在正在努力解决这个热点问题,为此,他们正在考虑利用实际的数据集,而不是意见,博客。为了解决假新闻检测问题,我们需要将行为和社会实体结合起来,并将知识和数据结合起来。在本章中,我们试图讨论所有可能的假新闻类型以及该新闻的社会影响,因此在文献评估的基础上,我们可以说,利用不同的已知事实(如时间、地点、质量和他人的立场)来检测假新闻也是可能的。有了这些类型的相似性度量,我们可以检测新闻的质量在下一章中,我们将讨论对公开数据集的组合统计分析,以便更深入地理解这个问题。方法从数据和工程知识中学习,以克服社交媒体上的假新闻问题。为了实现这一目标,应开发一种新的组合算法方法(图8),该方法将在新闻在线发布时立即对文本进行分类。表2:数据驱动和知识驱动的组合讨论我们讨论了过去几年中定义的不同方法,以克服社交网络中的假新闻检测问题大多数基于SU的方法图8:框架框图在开发这种新的分类方法作为假新闻调查的起点时,我们首先将公开可用的数据集应用于我们的学习。假新闻检测的第一步是一旦新闻在网上发布,立即对文本进行分类。文本分类是文本挖掘领域的重要研究课题之一。正如我们所知道的,在网上提供的内容急剧增加,提出了管理这个在线文本数据的问题。因此,将新闻分类为特定类别(假,非假,不清楚)是很重要的。数据驱动系统项目/应用作者年数据驱动的配水系统Zheng等人的美国专利公布2017数据驱动的模糊建模Rosa等人2017数据驱动的苹果橘子陈等人2016数据驱动的口语理解系统玉兰等2003健康和管理Delesie等人2001数据质量Feelders等人2000不同应用中DD知识的组合作者年结合知识和数据驱动方法对临床叙述进行et.al2015通过数据驱动学习技术Gorka等人2015从模型、信号到知识:故障检测与诊断Dai等人2013一种基于知识和数据驱动的语义相似概念识别Pivovarov等人2012结合知识和数据驱动的洞察力来识别风险使用电子健康记录Sun等人2012意识与无意识死亡相关的思考:恐怖管理理论的扩展Pyszozynski等人1999对在线发布的数百万条新闻进行分类是一项耗时且昂贵的任务。因此,在进行自动文本分类之前,我们需要了解不同的文本分类技术(Nidhi et al. 2011)。新闻文章为了训练和理解分类器,我们尝试公开可用的数据集13,其基于从在线新闻机构提取的大约一万七千篇新闻文章的集合:物品所在地(国家);出版物详细信息(组织,作者,日期,唯一ID)文本(标题,全文,在线链接)&分类详细信息。数据提取和分析数据集已经按不同类别进行了定性分类,如假的,不是假的,偏见,阴谋仇恨。此外,我们用不同的结果指标(回复、参与者、喜欢、评论和分享总数)对数据进行分类。在下一步中,我们将展示该数据集的结果,这将有助于我们理解该过程。从数据集中提取的结果和未来目标具有分类属性的数据集的详细信息在上面的集合选项卡中提到,但在图9中,我们只是突出显示了我们获得的结果,即我们如何指定可以在所提出的技术组合中有帮助的声明。从17946篇新闻文章中,12460篇文章是偏见类,572篇是假文章,870篇是阴谋类,2059篇是非假文章。图9:比较结果我们提出的组合图包含两部分数据和知识部分,这两个进一步的分类可以在图中看到。数据端包含文本分类和立场检测,而知识端包含事实检查,这将有助于我们改进结果。我们将我们的任务分为三个部分,最后我们将结合结果来检查新闻状态是否是假的。讨论13https://www.kaggle.com/mrisdal/fake-news/version/1在本节中,我们逐步讨论了如何将数据学习和工程知识结合起来,以打击社交网络中的假新闻检测。一旦新闻发布到网上,分类器就会将文本分类为虚假,非虚假和不清楚。在文本分类之后,我们将检查该特定新闻的立场,将该新闻分为四类,同意,不同意,讨论和不相关。在下一步中,我们将应用事实检查,这将细化我们的结果,因为事实检查使用工程知识来分析文本的内容,并将其与已知事实进行比较(见图)。图10:数据驱动和知识的拟议组合当新闻在网上发布时,我们提出的分类器将检查单词之间的相似性,文本和整体相似性。根据文献研究,我们已经知道,在新闻数据集中,SVM可以很好地开始,因为它处理数据,因为我们需要做一些数学表达式,因此为此目的,我们可能需要使用一些其他库API,因此在这些情况下,它可以表现良好。神经网络产生好的结果,但当且仅当我们有大的样本大小和大的存储空间。它也不能容忍噪音。术语图是首选的,特别是当我们有相邻的单词和我们的目标是保持类之间的相关性。贝叶斯分类器也可以表现良好,但仅在数据集较少情况下。在立场检测方法中,我们将检查新闻读者的观点是赞成还是反对还是中立。根据文献,有两种方式来表示用户立场显式和隐式。在显式中,读者给出直接的表达,如拇指向上或拇指向下。我们从社交媒体中提取的结果。最后,我们将应用事实核查,这将在两个点上工作,检查有价值的索赔和歧视索赔的真实性。我们将应用关键的基础和用户的观点对特定的新闻。事实检查的示例是开放式网络和结构化知识图。最后,我们将自动化我们提出的组合,可以自动分类的文本和立场检测后和事实核查,我们将能够得到的结果,新闻是假的或不是假的。在本次调查中,我们介绍了之前开发假新闻系统的努力,该系统可以单独检测和解决谣言的真实性。我们在引言部分讨论了2016年总统选举后的虚假内容,它成为一个大问题,我们也知道谣言真实性值在早期阶段是无法验证的,随后在相对较短的时间内重新解决为真或假,或者它也可以在很长一段时间内保持未经验证。我们还讨论了不同的检测系统,这些系统具有鲜明的特点,但也与谣言有共性,因此很难仅借助数据驱动进行检测。本文中讨论的方法旨在以某种方式解决假新闻问题,但希望集成有助于检测(图10)。由于假新闻制作者似乎改进了他们的共享策略以避免文本分类和检测技术,因此假新闻检测组织需要更新他们的策略。关于希拉里克林顿的新闻起源于俄罗斯),我们可以检查新闻质量明智的是,假新闻更有可能没有提到他们的来源,只是声称一些东西,而对于真正的新闻,来源是提到的,我们也可以检查新闻的时间,因为相同的新闻是否出现在其他媒体或来源,如果它在开始时更经常重复,因为它们很有趣,并且随着时间的推移被识别为假的,这减少了重复,或者它们被从一些网站上删除。在这个阶段,我们没有明确的解决方案,但经过详细的文献回顾,我们可以说,制作更多的报道,更多的事实,这是真的,可以帮助我们做出这样的决定,并找到假新闻检测的技术解决方案。机器学习和知识工程的结合可能对假新闻检测有用,因为假新闻可能是未来几年最具挑战性的研究领域。结论最近在美国总统选举之后,社交媒体经常成为传播错误信息和恶作剧的训练有素的工具不需要必要的工具和认知能力来评估对方的可信度,只需在社交媒体上分享你的观点。如果只是分享或传播不太重要的谣言,这可能没有严重的后果,但当消费者可以根据这些谣言购买产品时,这可能是一个严重的问题,有时甚至是严重的安全问题。特别是在影响公众舆论的政治背景下,当个人经营小规模或大规模组织时,只会破坏某人的信誉(例如,唐纳德特朗普希拉里克林顿选举)。 在本文中,我们试图涵盖的工作,包括:基于知识和基于风格。然后,我们进一步尝试解释这两个领域中出现的子类别,例如。基于社会背景、基于传播、基于立场等。我们试图考虑假新闻在社交平台上的影响。我们还试图涵盖一些背景下,虚假新闻产生严重的问题,为个人参与。我们已经呈现了最先进的框图,其是知识(事实检查)和数据(文本分类、姿态检测)的组合。正如我们已经讨论过的,重要的开放问题是黄金标准数据集和预定义基准的不可用,以及大量虚假文章数据集的收集。因此,根据我们强调的几点,可以说在大数据时代,这个问题仍然没有得到应有的重视。但是,是的,我们在面向专家部分讨论的一些方法已经提出了自动评估新闻的事实检查和可信度评估。我们可以用不同的相似度来分析假新闻,例如,我们可以检测其他媒体机构是否发布了相同的新闻,我们可以检查新闻的位置,如果新闻是在其他地方生成的,而不是在他们处理的位置(例如,我们可以检查新闻的位置),那么新闻是假的可能性更高。特朗普写到中国或阿拉伯国家引用Lewandowsky,S.,Ecker,U. K. &Cook,J.(2017).超越错误:认识和应对“后真相”时代。Journal of Applied Res
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功