没有合适的资源?快使用搜索试试~ 我知道了~
结合机器学习和知识工程检测社交网络中的假新闻-一项调查Sajjad Ahmed1,Knut Hinkelmann2,Flavio Corradini11意大利卡梅里诺大学计算机科学系2FHNW University of Applied Sciences and Arts Northwestern SwitzerlandRiggenbachstrasse 16,4600 Olten,瑞士ahmed. unicam.it; knut. fhnw.ch;flavio. unicam.it摘要由于假新闻在社交媒体和新闻媒体上的广泛传播,它成为一个新兴的研究课题,现在已经引起了人们的关注。在新闻媒体和社交媒体中,信息传播速度快但不准确,因此检测机制应该能够足够快地预测新闻,以解决假新闻的传播。它有可能对个人和社会产生负面影响。因此,检测社交媒体上的假新闻很重要,也是当今技术上具有挑战性的问题。我们知道机器学习有助于建立基于隐性知识的人工智能系统,因为它可以帮助我们解决由于真实世界数据而引起的复杂问题。另一方面,我们知道知识工程有助于将专家的知识表示为人们知道的知识。因此,我们提出机器学习和知识工程的集成可以帮助检测假新闻。在本文中,我们介绍了什么是假新闻,假新闻的重要性,假新闻对不同领域的整体影响,检测社交媒体上假新闻的不同方法,现有的检测算法可以帮助我们克服这个问题,类似的应用领域,最后我们提出了数据驱动和工程知识相结合来打击假新闻。我们研究和比较了三个不同的模块文本分类器,立场检测应用程序事实检查现有的技术,可以帮助检测假新闻。此外,我们还调查了假新闻对社会的影响。实验评估的可用数据集和我们提出的假新闻检测组合可以更好地检测假新闻。介绍假新闻和错误信息的传播在2016年美国总统选举后主导了新闻周期。一些报告显示,俄罗斯已经创建了数百万个虚假账户和社交机器人,以便在选举期间传播虚假故事版权归作者所有。以.马丁,K. Hinkelmann,A. Ger- ber,D.Lenat,F. van Harmelen,P. Clark(Eds.),AAAI 2019春季研讨会将机器学习与知识工程相结合(AAAI-MAKE 2019)。斯坦福大学,帕洛阿尔托,加利福尼亚州,美国,2019年3月25日至27日。(Lewandowsky 2017)。在社交媒体渠道上传播假新闻和生成这类信息的动机多种多样。有的是为了谋取政治利益,有的是为了败坏别人的名声,有的是为了引起注意。Fakenews是一种黄色新闻或宣传,包括通过传统印刷和广播新闻媒体或在线社交媒体传播的故意错误信息或恶作剧。根据PEW研究中心发布的报告,假新闻的重要性很容易理解(Rainie et al. 2016)。数据显示,38%的成年人经常在网上获取新闻,28%的人依赖网站/应用程序,18%的人依赖社交媒体。总体而言,64%的成年人认为假新闻造成了很大的混乱。假新闻的重要性也可以通过下图来判断,图中显示,假新闻在2016年美国总统大选后在全球范围内大受欢迎图1:过去五年的Google趋势假新闻的广泛传播会对社会和个人产生负面影响。假新闻故意说服客户接受偏见或错误的信念。假新闻改变了人们解读和回应真实新闻的方式例如,一些假新闻只是为了引发人们的不信任使他们感到困惑,阻碍了他们区分什么是真的,什么是假的能力(Scott等人,2000; Leonhard等人,2017; Himma 2017)。重要的是要明白,虚假和欺骗性的新闻已经存在了很长一段时间。就新闻自由的诞生而言,它一直是对话的一部分(Soll2016)。有各种方法可以自动检测假新闻:文本分类,立场检测,元数据事实检查。数据驱动: 文本分类:它们主要集中在提取文本的各种特征,然后将这些特征结合到分类模型中,例如决策树,SVM,逻辑回归,K最近邻。最后,选择性能良好的最佳算法(Nidhi等人,2011年)。Emergent1是一种实时数据驱动的谣言识别方法。它可以自动跟踪与社交媒体相关的谣言,但那些需要人工输入的谣言还没有自动化。问题是大多数分类方法都是有监督的,所以我们需要先验数据集来训练我们的模型,但正如我们所讨论的,获得可靠的假新闻数据集是非常耗时的过程。 立场检测:假新闻已成为美国2016年总统大选后的一项重要任务。政府,报纸和社交媒体组织正在努力将虚假内容与可信内容分开。因此,识别阶段的第一步是 了 解 其 他 人 对 同 一 主 题 的 看 法 ( Ferreira et al.2016)。就假新闻而言,最初的挑战是专注于立场检测。在立场检测中,我们检查了关于同一主题的两个不同文本片段的相关性估计和其他人的立场(Saif et al.2017)。PHEME2是欧盟委员会在2014-2017年资助的一个为期三年的研究项目,研究自然语言处理技术,用于处理谣言检测,立场分类(Lukasik et al. 2015 ;Zubiaga et al. 2016),矛盾检测和社交媒体谣言分析。现有的姿态检测方法基于在各个帖子上嵌入特征来预测该特定内容的姿态。 元数据:我们可以用不同的相似性度量来分析假新闻,例如位置,时间,作者和质量。我们可以检测其他媒体机构是否发布了相同的新闻,我们可以检查新闻的位置,如果新闻是在其他地方生成的,而不是在他们处理的位置,那么新闻可能更有可能是假的(例如,特朗普写了关于中国或阿拉伯半岛的文章)。提到,我们还可以检查新闻的时间,因为如果在开始时更经常重复,则相同的新闻是否出现在其他媒体或来源在这个阶段,我们还没有确定的解决方案,但经过详细的文献回顾,我们可以说,制作更多具有更多事实的报道确实有助于我们做出这样的决定,并找到虚假新闻检测的技术解决方案。知识工程:事实核查技术主要是在已知事实的基础上对新闻事实进行核查。有三种类型的事实检查技术可用知识链接 器 ( Ciampaglia 等 人 2015 ) , PRA ( 老 挝 等 人2015)。2011)和PredPath(Shi et al.2016年)。然后使用知识来检查事实的预测算法是度积(Shi et al.2016),L.Katz(1953)、Adamic Adar(Adamic等人,2003)和Jaccard系数(Liben等人,2016)。一些 事 实 核 查 组 织 提 供 在 线 事 实 核 查 服 务 , 如Snopes3、PolitiFact4和Fiskkit5。Hocker6是另一种用于事实检查的板形式。收集、检测和分析并检查在线错误信息是Hoconut的一部分。他们遵循的标准是检查新闻是假的还是真的,只是他们把它交给领域专家,个人或组织就该特定主题。他们还跟踪了无党派信息和数据来源(例如,同行评审期刊、政府机构或统计数据)。讨论我们的主要研究问题是,如何使用数据驱动和知识工程来区分假新闻和非假新闻。事实表明,假新闻现象是一个重要的问题,需要学术界的关注,以确定假新闻如何扩散。不同的小组介绍了不同的模型,其中一些应用面向数据,一些只应用知识方面。重要的一点是,这些类型的信息在社交媒体网络上的传播速度是如果发现新闻是假的,现有的技术会立即阻止它们,因为它们的功能是我们无法取代的,但如果发现新闻是假的,至少我们需要一些专家的意见或验证才能阻止特定的新闻。这件事有助于提高第三方事实核查组织来解决问题,但这也是一个耗时的过程。我们需要一些关于希拉里·克林顿的新闻起源于俄罗斯),我们可以明智地检查新闻质量,更有可能的是,假新闻没有提到他们的来源,只是声称一些东西,而对于真正的新闻,来源是第1www.emergent.info2www.pheme.eu3www.snopes.com4www.politifact.com5www.fiskkit.com6https://hoaxy.iuni.iu.eduwww.example.com/在同一个地方检查新闻是否是假的应用程序。现有的假新闻系统基于预测模型,简单地分类新闻是假的还是假的。一些模型使用源可靠性和网络结构,因此在这些情况下,最大的挑战是训练模型,由于语料库的不可用性,这是不可能的。由于假新闻问题的激增和克服上述挑战,基于志愿者的组织Fake-NewChallenge7包含70个团队,其组织专门的机器学习竞赛来检测假新闻问题。最后,我们可以说,需要一种将知识与数据相结合的替代应用,并且需要事实检查的自动化,其在同一位置用专家意见深入查看新闻的内容以检测假新闻。本文的其余部分分为四个部分。第2节介绍了背景、对社会的影响、新闻内容模型、相关工作和类似的应用领域;第3节介绍了方法学、建议的组合方法和我们用于初始分类的可获得的数据集我们的结论和未来的发展方向在第4节。文献综述在本节中,我们试图涵盖与我们的主题相关的所有主题,并有助于更好地理解假新闻检测。本文首先讨论了读者对网络新闻媒体的信任水平。然后我们讨论了假新闻对社会的影响,然后讨论了不同类型的新闻模式。然后,我们讨论了相关的工作和类似的应用领域,其中一些研究人员应用数据驱动和一些应用知识方面,以克服特定领域的具体问题。背景互联网给了每个人进入网络新闻业务的机会,因为他们中的许多人已经被传统的新闻来源所拒绝,这些新闻来源已经获得了公众的高度信任和工作的可信度。根据一项调查,大众媒体的普遍信任度跌至该行业历史上的最低点。特别是在美国,51%的民主党人和14%的共和党人表示非常信任大众媒体作为新闻来源(Lazer et al. 2018年)。人们已经知道,再次重复的信息比以前没有听到的信息更有可能被评为真实。对假新闻的熟悉会随着真实性而增加。此外,这件事并没有停止在这里,因为虚假的故事会导致创造虚假的记忆。作者首先观察了“错觉-真实效应”,并得出了被试对重复陈述的真实性评价高于对新陈述的真实性评价的结果。他们提出了一个案例研究的结果,7http://www.fakenewschallenge.orgwww.example.com/与没有接触过虚假新闻或故事的参与者相比,连续五周阅读虚假新闻或故事的参与者认为虚假故事更真实,更可信(Hasher et al. 1977年)。新闻可以是真实的,如果它所表达的信息是更熟悉的。熟悉意味着暴露的自动后果,因此它会影响真理,而这完全是无意的。在这些情况下,消息来源或传播故事的机构警告说,消息来源可能不可信,人们不会因为熟悉而停止相信这个故事(Begg et al. 1992)。另一项研究包含一半的陈述,实验中显示一半是真的,一半是假的,但结果表明,参与者喜欢重复的陈述,尽管它们是假的,但由于熟悉,他们认为比他们第一次听到的故事更真实(培根等,1979)。对消息来源的监控本身就是一种检查和识别我们所读到的新闻来源的能力。一些研究清楚地表明,参与者使用熟悉性来理解他们记忆的来源。另一项提出一般知识和语义记忆的研究并不关注条件,但它只帮助一个人何时何地学习这些信息。类似地,一个人可能对某个事件有一些了解,但不记得这个事件,所以它来自记忆(Potts等人,1989)。对不同领域的新闻是一个实时的情况和一个全面的故事,涵盖不同的问题,如犯罪学,健康,体育,政治,商业等地方新闻机构主要集中在特定的区域问题和国际新闻机构涵盖本地和全球新闻。根据读者的选择找到一个特定的故事是一项重要的在这项研究中提出了不同的方法,我们如何克服这个问题,并遵循读者的选择(翟等。2005年)。利用twitter和Wikipedia对同一主题的微博进行词汇差异的局部区域热点话题业务在网络新闻媒体中,服务和用户总数对于获得更多业务至关重要。由于大量的用户和假新闻的传播,一些大公司赚了很多钱,Facebook,Twitter,谷歌和搜索引擎也是假新闻的生产者和消费者。假新闻日益猖獗,对社会的影响十分恶劣。社交网络美国总统选举后,社交媒体面临来自公众和民间社会的压力,要求在其平台上发布假新闻。打击假新闻是一项非常艰巨的任务,尤其是在没有适当的制衡和共享政策的情况下。当用户点击并直接重定向到该页面时,在社交媒体上传播的文章但问题是,我们如何衡量社交媒体网络的重要性,假新闻供应商因此有可能通过其网络流量的来源进行测量。每当用户访问该网页时,用户直接通过服务器导航或引用其他网站(Allcott et al. 2017年)。一个真正有助于检测Facebook上虚假文章的重点领域是事实检查组织。Facebook表示,他们正在采取一切措施来解决平台上的问题,并尽可能地让那些真正想要分享虚假内容的人难以在平台上购买广告。在社区和第三方事实核查组织以及一些立场检测机制的帮助下,更好地识别虚假新闻是可能的,因为它们可以限制虚假内容的传播速度,并且可以使其变得不经济(Mosseri 2017)。单个用户有相同的设施,他们会得到一个消息,有些人不同意的文章内容。普通用户无法判断他们所看到的链接的有效性。因此,这件事可能是不可靠的脸书标记功能(沃尔森2015)。第二个重点领域是假新闻文章中的标志。用户只需点击右上角的那篇帖子就可以了。越多的时候,特定的职位标记的用户,它是假的,那么它就不经常会出现在新闻提要标签。根据Facebook的政策,他们不会删除标记的帖子,但他们最终以免责声明的声明“Facebook上的许多人报告说,这个故事包含虚假的斯坦福历史教育集团(2016)。由于问题的敏感性,Facebook会向负责检查该帖子的第三方发送标记帖子。如果事实检查组织标记它disputed然后自动用户将看到一个横幅下的article如果它出现在用户新闻提要区。该横幅将清楚地解释第三方组织提出异议的情况,并提供链接。另一件事是,这些被质疑的故事在新闻提要中被推下,在任何用户分享之前都会出现一条消息,如果他们确定,那么他们可以分享它(Guynn 2017)。依靠用户并不是一个永久的好解决方案,但这个想法只是为了教育用户,如果他们同意,那么他们就可以分享它。如果每个用户都关心这一点,那么假新闻就不会成为大问题。检查文章的真实程度是非常困难的,因为它们在某些方面不同,但以非常专业的方式。这就是为什么只有最好的方法 是 了 解 Facebook 的 管 理 每 个 用 户 都 需 要 明 白 , 在Facebook上分享任何信息之前,他们必须确定这一点(Dillet 2017)。Facebook的管理层和负责人声称,他们有一种算法可以帮助根除虚假文章。该算法在分享之前向用户显示该文章的来源、日期、主题和交互次数。当我们与Twitter相比时,真实账户持有人向一些小型网站和高度活跃的“cy-borg”用户分享的假新闻(Silva等人。他们非常专业,有时这些专业团体会被国家和恐怖组织发展成工业化团体。这些团体呼吁巨魔农场,根据一项研究,他们有潜在的算法在Twitter上追踪(Nygren等人。安全机构错误的信息或宣传一直被用来影响人们,并为对手制造恐惧。我们可以把它分为三种类型。白色宣传是我们知道发起者和由该特定的人或团体传播的消息是真实的。黑色宣传是指我们不知道消息来源,而且那个人或团体分享的消息完全是假的。灰色字体是介于白色和黑色之间的字体在冷战期间,这类活动的目的是动摇舆论,只是为了向隐藏的敌人隐瞒和歪曲事实。2002年至2008年,美国军事发展部招募了大约75名领取养老金的军官,只是为了在媒体上宣传伊拉克可能拥有武器。这种活动的目的是削弱支持他们的对手的公众,加强自己的支持。这项工作是通过不同的来源完成的,例如广播、报纸和电视频道,这些渠道隐藏了联系(Nygren et al. 2016年)。当我们将其与早期的宣传形式进行比较时,由于社会需要,因为今天每个人都有可能在几秒钟内达到大量观众,但在过去这是不可能的。这意味着我们更依赖于影响更大的信息。其他一些行为者也参与了这场运动,他们很容易影响事实,这些行为者是外交人员,军事经济国家行为者和公共关系专家。一个独立的机构可以很容易地控制这些类型的活动相比,国家控制一切。这种虚假信息的一个很大的例子是乌克兰的危机2014,其中一个国家入侵另一个国家的领土和误导它.由于这一点,它严重影响了世界的反应.我们知道,这不仅是一件事,传播谎言,但也涉及其他活动,与它有关。在下一节中,我们将通过实例逐一讨论不同类型的新闻内容模型。新闻内容模型在内容建模中,我们确定我们的需求,开发满足这些需求的分类法(分类系统),并考虑在哪里应该允许或需要元数据。图2:新闻内容模型新闻内容模型可以是基于知识和基于风格的类别,但由于社交媒体的增强,它为研究人员提供了额外的资源来补充和增强新闻内容模型,如社会背景模型,基于立场的传播模型。新闻内容建模的主要重点是新闻内容特征,特别是事实来源,以检测虚假和真实文本(Wang 2017)。在下一节中,我们讨论了新闻内容模型,并通过示例介绍了现有的应用程序。以知识为基础:基于知识的方法的目标是使用外部来源对新闻内容进行事实 检查 , 事实 检 查 的目 标 是为 特 定的 声 明分 配 真 值(Vlachos等人。2014)。在阅读相关文献的过程中,我们了解到虚假新闻检测领域的事实核查受到了高度重视。这就是为什么许多人努力开发一些可行的自动事实检查系统。由于假新闻试图在社会媒体网络和新闻媒体上传播虚假的新闻内容,因此,直接检测这些虚假声明并检查这些新闻的真实性。我们可以将现有的事实检查应用程序分为三个部分:面向专家的,面向众包的和面向计算的。 专家导向我们需要高度领域专家在专家导向的事实核查,可以调查数据和文件,以裁定索赔。著名的事实检查应用程序是Snopes8 PolitiFact9。面向专家的事实核查要求很高,但它也是一个耗时的过程。一旦他们收到新的索赔,他们咨询领域专家,期刊或统计分析已经在该特定领域。这花了很多时间,所以我们需要开发一种新的分类方法,可以帮助更好地及时发现假新闻。新的事实核查机制,通过事实核查帮助读者在判断之前对新闻进行批判性的这项工作的目的不是提供结果,内容是假或不假,而是提供机制,在新闻阅读过程中的批判性评价读者开始阅读新闻,事实核查技术将为读者提供方便,同时阅读所有相关或链接的故事,只是为了进行批判性评价。他们使用评分指标公式显示评分指标阈值的相关故事,但如果评分指标低于阈值,则不会显示在相应的事实检查页面上(Gu- ha 2017)。三人普遍同意假新闻的特征:文章的文本,用户的反应和需要在一个地方的公司来源,之后他们提出了一个混合模型。第一个模块捕获用户,测量响应和文本。然后,第二个组件得分估计每个用户的源,然后与第一个模块相结合(Ruchansky等人,2017)。最后,所提出的模型允许CSI单独输出预测,如图3所示。图3:拟议CSI模型 众包导向在众包方法中,它为用户提供了讨论和注释特定新闻准确性的选项。因此,换句话说,我们可以说,它充分依靠群众的智慧,使事实核查的基础上,他们的知识。Fiskkit10是这种事实检查的一个很好的例子,因为它为用户提供了讨论和注释新闻文章准确性的工具。另一个反假新闻检测应用程序,提供检测假文章的设施,并进一步为用户提供在从Face- book标记方法中获取动机后,在公众参与和收集人群信号的情况下检测虚假内容(Potthast等人,2016年)。提出了一种基于贝叶斯推理的运行时标记准确性检验算法Detective。该算法每天选择新闻的小子集并发送回专家,并根据专家的响应阻止假新闻。 面向计算计算事实检查旨在为用户提供一个能够对真实和虚假内容进行分类的自动系统。大多数计算性事实检查工作在两个点上,即识别值得检查的声明,然后区分事实声明的真实性。它基于用户对特定内容的关键基础和观点(Houvardas等人,2006年)。开放网络和结构化知识图是这些面向计算的事实检查类型的重要例子。开放的网络资源被用作参考,可以区分新闻的真实性和虚假性(Banko等人,2007;Magdy等人,2010年)。将虚假内容分为三类:严重的捏造、大规模的恶作剧和幽默的虚假,这是这项工作的主要目标。他们提供了一种过滤,审查和核实的方法,8www.snopes.com9www.politifact.com10www.fiskkit.com对新闻进行分析,并详细讨论了这些新闻的利弊(Rubin,V等人,2015年)的报告。这项研究是面向数据的应用,简单地说,他们使用了可用的数据集,然后应用了深度学习方法,最后他们提出了一种新的文本分类器,可以预测新闻是否是假的(Bajaj2017)。用于该项目的数据集来自两个不同的可通过互联网访问的网站1112。传统的谣言检测技术都是基于消息级的检测,在数据的基础上分析可信度,而在实时检测时则是基于关键词,然后借助数据采集系统将相关微博进行采集,解决了这一问题.所提出的模型结合了基于用户、基于传播和基于内容的模型,并检查实时可信度,并在35秒内发回响应(Zhou等人,2015)。图4:实时谣言检测框架基于风格:在基于风格的方法中,假新闻发布者使用了一些特定的写作风格,这些风格是吸引广泛的范围所必需的,而这在真正的新闻文章中是不存在的。这种活动的目的是误导或歪曲或影响大量人口。将新闻来源分类为两类:写作质量和强烈的情感是要点,因为与可能由非专业作家撰写的假新闻文章相比,真实新闻来源具有更高的写作质量(考虑到:漏词,标点另一方面,真实的新闻来源是出现公正或中立的话,用事实描述事件。因此,分类器的开发及其与其他分类方法的比较是虚假内容识别的主要关注领域(Fan et al. C 2017)。在学术文献中很难确定讽刺(Nidhi et al. 2011)。另一项研究提出了一种方法,可以首先将幽默,讽刺和讽刺的理论转化为讽刺检测的预测方法。这部作品在概念上的贡献是将讽刺、反讽和幽默联系起来然后瞄准11www.kaggle.com12https://research.signalmedia.co/newsir16/signal-dataset.html假新闻框架与过滤,由于其潜在的误导读者(鲁宾等人。2016年)。图5:假新闻:讽刺检测过程社会背景模型:社交媒体为研究人员提供了额外的资源,以补充和增强新闻语境模型。社会模型参与分析过程,并从各种角度以不同形式捕获信息。当我们检查现有的方法时,我们可以将社会建模上下文分类为基于立场和基于传播我们需要在这里强调的一个重要点是,只有少数现有的社会背景模型方法用于假新闻检测。因此,我们将尝试与文献的帮助下,用于谣言检测的社会背景模型。对社交媒体平台上分享的假新闻故事进行适当评估,并在信息来源和基于Facebook数据的社会判断的帮助下自动识别虚假内容,是这项工作的重点。在2016年美国总统选举期间,他们研究了机器学习分类器可以帮助检测假新闻(Tresh et al. 1995)。 基于姿态这是一个过程,可以确定新闻的结果,读者是赞成或反对或中立的特定新闻(赛义夫等人。有两种方法可以显式或隐式地表示用户立场。明确的立场是那些立场,读者给出了直接的表达,如拇指向上或拇指向下。隐式立场是从社交媒体帖子中提取结果的立场。总的来说,我们可以说,姿态检测是一个过程,其中自动确定来自用户帖子的大多数用户或赞成或反对(Qazvinian等人,2011; Jin等人,2016年)提出了一个模型来检查用户的观点,然后在观点的基础上学习帖子的可信度。(Tecchini et al. 2016)提出了一个使用“相似度”的Facebook帖子用户的双向网络。根据结果,我们可以预测Facebook用户的可能性。基于二元分类“相关”与“不相关”对的n-gram匹配的标题姿态检测。该方法可以应用于虚假新闻的检测,特别是点击诱饵的检测.他们使用了由组织Fake News Challenge(FNC1)发布的关于立场检测的数据集进行实验(Bourgonje et al.2017年)。该数据集是可用的,可以从相应的GitHub页面下载以及基线实施。数据集的关键点可以在下面的图4中看到。图6:FNC 1数据集 基于在基于传播的方法中,建立了同质和异质的可信度网络进行传播。同质传播包含单个实体,如帖子或事件,但异质可信度网络包含多个实体,如帖子,事件和子事件(Jin etal 2016; Zhiweiet al 2014;Gupta et al 2012)。在基于传播的方法中,我们检查社交媒体帖子上相关事件的相互关系,以检测假新闻和该新闻的可信度。另一项研究有助于在包含子事件后构建三层网络,然后我们可以在图优化框架的帮助下检查新闻的可信度(Jin等人,2014)。用于用户编码的基于传播的算法,可以一起检查可信度和推文(Gupta et al. 2014年度)类似应用领域在本节中,我们将讨论与假新闻检测问题类似的应用领域。有些应用程序使用数据端,有些则与知识端有关。它们在特定领域中表现良好,但在开发过程中需要很高的努力,因此与知识工程相结合可以有助于减少努力。最后,我们讨论了其他一些数据驱动的应用程序(表1),以及少数数据驱动和知识相结合的应用程序(表2)。真相发现/热点话题检测真理发现在信息时代扮演着重要的角色,因为我们现在比以往任何时候都更需要准确的信息。在不同的应用领域,真相发现可能是有益的,特别是当我们需要根据从不同来源 提取 的 可靠 信 息做 出 关键 决 策时 , 例如 医 疗保 健(Yaliang et al. 2016),众包(Tsunatschek et al. 2018)和信息提取(Highet 1972)。有些情况下,我们有信息,但我们无法解释,所以这些情况下,知识工程可以参与,我们可以更好地预测,根据从以前的结果学习。谣言检测谣言检测的目的是将一条信息分类为谣言或非谣言。模型检测、跟踪、姿态准确性四个步骤可以帮助检测谣言。这些帖子考虑了确定谣言真实性的重要传感器。谣言检测可以进一步分类为四个子任务立场分类,真实性分类,谣言跟踪,谣言分类(Arkaitz等人,2017)。所以仍然有几点需要更多的细节来理解这个问题,我们也可以从结果中了解到它是否真的是谣言,如果是谣言,那么它是多少。因此,对于这些问题,我们认为,需要结合数据和知识的一面来探索那些仍然无法解释的领域。点击诱饵检测吸引访问者的注意力,并鼓励他们点击一个特定的链接是clickbait业务的主要目标。前链接点击诱饵方法利用来自预告消息、链接网页、推文Meta信息的各种提取特征(Martin等人,2016)。因此,在同样的情况下,我们可以在阅读任何类型的新闻之前通知读者,由于一些特定的迹象,它可能是假的,所以读者需要更加小心。电子邮件垃圾邮件检测电子邮件中的垃圾邮件检测是给公司带来经济损失的主要问题之一,也是困扰个人用户的主要问题。不同的组织正在使用不同的方法来检测电子邮件中的垃圾邮件,不同的机器学习方法对垃圾邮件过滤非常有帮助。图7:垃圾邮件过滤垃圾邮件会导致不同的问题,正如我们在上面广泛讨论的那样,但更确切地说,垃圾邮件会导致流量、计算能力和存储空间的滥用这项研究还解释了许多其他不同的技术可以帮助垃圾邮件检测,如电子邮件过滤,黑名单未经授权的地址,白名单,法律行动等等(Siponen等人,2006年)。在下面的两个表中,我们只是概述了数据和知识方面以及它们用于解决问题的特定应用领域。表1:数据驱动的应用程序有监督或无监督的方法。由于无法获得黄金标准数据集,这些方法无法提供良好的结果,这些数据集可以帮助训练和 评 估 分 类 器 并 产 生 良 好 的 结 果 ( Subhabrata 等 人 ,2015)。事实上,人们的动机和心理状态可能与现实世界中的专业人士不同。不同的团体现在正在努力解决这个热点问题,为此目的,他们正在考虑利用实际的数据集,而不是意见,博客。为了解决假新闻检测问题,我们需要将行为和社会实体结合起来,并将知识和数据结合起来。在本章中,我们试图讨论所有可能的假新闻类型以及该新闻的社会影响,因此在文献评估的基础上,我们可以说,利用不同的已知事实(如时间,地点,质量和他人的立场)来检测假新闻也是可能的。有了这些类型的相似性指标,我们可以检测新闻的质量在下一章中,我们将讨论建议的组合统计分析的历史上可用的数据集只是为了更深入地理解这个问题。方法从数据和工程知识中学习,以克服社交媒体上的假新闻问题。为了实现这一目标,应开发一种新的组合算法方法(图8),该方法将在新闻在线发布时立即对文本进行分类。表2:数据驱动和知识驱动的组合讨论我们讨论了过去几年中为克服社交网络中的假新闻检测问题大多数基于SU的方法图8:框架框图在开发这种新的分类方法作为调查假新闻的起点时,我们首先应用了可获得的数据集进行学习。假新闻检测的第一步是在新闻在线发布后立即对文本进行分类。文本分类是文本挖掘领域的重要研究课题之一。正如我们所知道的,在网上提供的内容急剧增加,提出了管理这个在线文本数据的问题。因此,将新闻分为特定的类别(假,非假,不清楚)是很重要的。数据驱动系统项目/应用作者年数据驱动的配水系统Zheng等人2017数据驱动的模糊建模Rosa等人2017数据驱动的方法来计算苹果橘子Chen等人2016数据驱动的口语理解系统玉兰等2003健康和管理Delesie等人2001数据质量Feelders等人2000不同应用中DD知识的组合作者年结合知识和数据驱动的方法对临床叙述进行et.al2015通过数据驱动学习技术Gorka等人2015从模型、信号到知识:数据驱动的故障检测与诊断Dai等人2013一种基于知识和数据驱动的语义相似概念识别Mrsovarov等人2012结合知识和数据驱动的洞察力来识别风险使用电子健康记录Sun等人2012对意识和无意识死亡相关思想:恐怖管理理论Pyszozynski等人1999分类数以百万计的新闻,发表在网上,每年是费时和昂贵的任务。因此,在进行自动文本分类之前,我们需要了解不同的文本分类技术(Nidhi et al. 2011年)。新闻文章为了训练和理解分类器,我们尝试了基于从在线新闻机构提取的大约一万七千篇新闻文章的集合的可用数据集13:文章的位置(国家);分类细节(组织、作者、日期、唯一ID)文本(标题、完整文章、在线链接)分类细节。数据提取和分析数据集已经按不同类别进行了定性分类,如假的,不是假的,偏见,阴谋仇恨。此外,我们使用不同的结果指标(回复、参与者、喜欢、评论和分享总数)对数据进行分类。在下一步中,我们将展示该数据集的结果,这将有助于我们理解该过程。从数据集中提取的结果和未来目标具有分类属性的数据集的详细信息在上面的集合选项卡中提到,但在图9中,我们只是突出显示了我们获得的结果,即我们如何指定可以在建议的技术组合中有所帮助的声明。从17946篇新闻文章中,12460篇文章是偏见类,572篇是假文章,870篇是阴谋类,2059篇是非假文章。图9:比较结果我们提出的组合图包含数据和知识两部分,在图中可以看到这两部分的进一步分类。数据端包含文本分类和立场检测,而知识端包含事实检查,这将有助于我们改进结果。我们将我们的任务分为三个部分,最后我们将结合结果来检查新闻状态是否是假的。讨论13https://www.kaggle.com/mrisdal/fake-news/version/1在本节中,我们逐步讨论了如何将数据学习和工程知识结合起来,以打击社交网络中的假新闻检测。一旦新闻发布到网上,分类器就会将文本分类为假的,非假的和不清楚的。在文本分类之后,我们将检查该特定新闻的立场,将该新闻分为四类,同意,不同意,讨论和不相关。在下一步中,我们将应用事实检查,这将改进我们的结果,因为事实检查使用工程知识来分析文本的内容,并将其与已知事实进行比较(见图)。图10:数据驱动和知识的拟议组合当新闻发布在网上时,我们提出的分类器将检查词之间的相似性,文本和整体相似性。根据文献研究,我们已经知道,在新闻数据集中,SVM可以很好地开始,因为它处理数据,因为我们需要做一些数学表达式,因此为此,我们可能需要使用一些其他库API,因此在这些情况下,它可以表现良好。神经网络产生好的结果,但当且仅当我们有大的样本量和大的存储空间。它也不能容忍噪音。术语图是首选的,特别是当我们有相邻的单词,我们的目标是保持类之间的相关性。贝叶斯分类器也可以很好地执行,但仅在数据集较少情况下。在立场检测方法中,我们将检查新闻的读者的观点是赞成还是反对还是中立。根据文献,有两种方式来表示用户立场显式和隐式。在显式中,读者给出直接的表达,如拇指向上或拇指向下。我们从社交媒体上提取的结果是隐含的立场。最后,我们将应用事实核查,这将在两个点上工作,检查有价值的索赔和歧视索赔的真实性。我们将应用关键的基础和用户的观点对特定的新闻.事实检查的例子是开放式网络和结构化知识图。最后,我们将自动化我们提出的组合,可以自动分类的文本和立场检测后和事实核查,我们将能够得到的结果,新闻是假的或不是假的。在本次调查中,我们介绍了之前开发假新闻系统的努力,该系统可以单独检测和解决谣言的真实性。我们在引言部分讨论了2016年总统选举后的虚假内容,这成为一个大问题,我们也知道谣言的真实性值在早期阶段是无法验证的,随后在相对较短的时间内重新解决为真或假,或者它也可以在很长一段时间内保持未经验证。我们还讨论了不同的检测系统,这些系统具有鲜明的特点,但也与谣言有共性,因此很难仅借助数据驱动进行检测。本文中讨论的方法旨在以某种方式解决假新闻问题,但希望集成有助于检测(图10)。由于假新闻制作者似乎改进了他们的共享策略,以避免文本分类和检测技术,因此假新闻检测组织需要更新他们的策略。关于希拉里克林顿的新闻起源于俄罗斯),我们可以检查新闻质量明智的是,假新闻更有可能没有提到他们的来源,只是声称一些东西,而对于真正的新闻,来源是提到,我们也可以检查新闻的时间,因为相同的新闻是否出现在其他媒体或来源,如果它在开始时更经常重复,因为它们很有趣,并且随着时间的推移被识别为假的,这减少了重复,或者它们被从一些网站上删除。在这个阶段,我们还没有确定的解决方案,但经过详细的文献回顾,我们可以说,制作更多事实的报道确实有助于我们做出这样的决定,并找到虚假新闻检测的技术解决方案。机器学习和知识工程的结合可能对假新闻检测有用,因为假新闻可能是未来几年最具挑战性的研究领域。结论最近,在美国总统选举之后,社交媒体经常成为传播错误信息和恶作剧的训练有素的工具没有必要的工具和认知能力来评估其他人的可信度,只是来分享你的意见在社交媒体上。如果只是分享或传播不太重要的谣言,这可能没有严重的后果,但当消费者可以根据这些谣言购买产品时,这可能是一个严重的问题,有时甚至是严重的安全问题。特别是在影响公众舆论的政治背景下,当个人经营小规模或大规模的组织只是为了破坏某人的信誉(例如,唐纳德特朗普希拉里克林顿选举)。在本文中,我们试图涵盖的工作,包括:基于知识和基于风格。然后,我们进一步尝试解释这两个领域中发生的子类别,例如基于社会背景,基于传播,基于立场等。我们试图考虑假新闻对社交平台的影响。我们还试图涵盖一些背景下,虚假新闻产生严重的问题,为个人参与。我们已经提出了最先进的框图,这是知识(事实检查)和数据(文本分类,立场检测)的组合。正如我们已经讨论过的,重要的开放问题是没有黄金标准数据集和预定义的基准以及收集大量的假文章数据集。因此,根据我们强调的几点,可以说在大数据时代,这个问题仍然没有得到应有的重视。但是,是的,我们在面向专家部分讨论的一些方法已经提出了自动评估新闻的事实核查和可信度评估。我们可以用不同的相似度来分析假新闻,例如,我们可以检测其他媒体机构是否发布了相同的新闻,我们可以检查新闻的位置,如果新闻是在其他地方生成的,而不是在他们处理的位置,那么新闻被伪造的可能性更高(例如,特朗普写了关于中国或阿拉伯国家的文章,引用Lewandowsky,S.,埃克,美国K.,&Cook,J.(2017).超越误解:理解和应对“后真相”时代。Journal of Applied Research inMemory and Cognition,6(4),353-369.Rainie,H.,安德森,J. Q.,&Albright,J.(2017). “斯 科 特 湖 Althaus& Da
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功