没有合适的资源?快使用搜索试试~ 我知道了~
多模态基准数据集:假新闻检测的有效性和数据增强
NewsBag:一个用于假新闻检测的多模态基准数据集Sarthak Jindal,1Raghav Sood,1Richa Singh,2Mayank Vatsa,2TanmoyChakraborty11IIIT-Delhi,India,2IIT Jodhpur,India{sarthak15169,raghav16259,tanmoy} @ iiitd.ac.in,{richa,mvatsa} @ iitj.ac.in摘要假新闻的传播在当今虚假新闻检测是一项艰巨的任务,由于缺乏用于训练分类模型的强大的地面真相数据库假新闻文章操纵多媒体内容(文本和图像)传播虚假信息。现有的假新闻数据集要么规模很小,要么主要包含单峰数据。我们提出了两个新的基准多模态数据集,包括文本和图像,以提高假新闻检测的质量。第一个数据集包括从多个在线来源手动收集的真实和虚假新闻数据。在第二个数据集中,我们通过使用Bag of Words方法来增加假新闻数据的数量来研究数据增强的效果。与现有数据集相比,这些数据集的大小明显更大。我们通过在我们的数据集上训练最先进的单峰和多峰假新闻检测算法进行了广泛的实验,并将其与现有数据集上的结果进行了比较,显示了我们提出的数据集的有效性。实验结果表明,增加假新闻数量的数据增强并不影响假新闻检测的准确性。结果还得出结论,利用多模态数据进行假新闻检测大大优于单峰算法。介绍近年来,人们的新闻消费日益增长。主要原因是在几个不同的门户网站上容易获得新闻。在Facebook和Twitter等社交网站的帮助下,人们不仅分享现有的新闻,而且还新闻的产生和在社交媒体上的传播毫不费力,以假新闻的形式构成了严重的挑战(Jin etal.2017年)。假新闻是任何以欺骗或向读者提供错误信息为目的的新闻在制造和传播假新闻的背后可能有许多恶意这些包括诽谤人格(Wang 2017),创造偏见以改变现实世界的事件结果(Farajtabar et al. 2017),以及减少对社交媒体特定部分的信任。图1:诽谤性新闻的例子(a)埃隆·马斯克向沙特投资者介绍了针对通奸者的新型自动斩首机。特朗普说:假新闻经常被用来通过散布关于某些名人的虚假信息来诋毁他们。这些名人可能是政治家和电影明星。Wang介绍了LIAR数据集,该数据集包含从事实核查网站Politifact收集的带有标签的简短真实世界陈述,包含涉及 各种政治人物的诽谤新闻的示 例(Wang 2017)。必须制止这种诽谤的蔓延,以保护这些名人的名誉。例如,图1(a)中所示的假新闻是为了诋毁某个人而撰写的假新闻的一个例子这些例子促使研究人员设计解决方案来阻止假新闻的传播背景和以前的工作研究人员设计了各种解决方案来检测不同领域的假新闻。最早的解决方案完全使用自然语言处理提出版权所有© 2020本文由其作者。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用(Castillo、Mendoza和Poblete 2011)(Kwon等人,2013)。谎言检测器(Mihalcea和Strapparava 2009)是使用纯自然语言处理技术进行欺骗检测的早期主要尝试之一。例如,可以编写手工制作的规则来指出明确的特征,例如大量的第三人称代词,这些代词在假新闻文章中最常见(Shu et al.2018年)。然而,从文本数据中提取的显式手工特征因此,对于与新事件相关的假新闻,很难提出有区别的文本特征来获得良好的检测结果。研究界接下来采取的步骤是整合来自社交网络的信息。新闻的社会背景包括用户交互,如hastags,评论,反应和转发。(Shuet al.2017年)。然而,基于社会背景的假新闻检测的缺点在于这些社会特征的噪声性质。直到最近,研究人员才开始使用图像和文本来检测假新闻。多模态深度学习之前已成功应用于相关任务,如视觉问答(Antol et al. 2015)和图像字幕(Vinyals et al. 2015)。对于假新闻检测,(Yang etal. 2018 ) 提 出 了 文 本 - 图 像 卷 积 神 经 网 络 ( TI-CNN)。这是作者最近的一项工作,其中作者收集了2016年美国总统选举期间产生的假新闻和真新闻,并使用并行卷积神经网络在数据点中找到图像和文本的还原表示然后,他们合并这些表示,以找到用于分类的图像和文本的组合特征表示。微博上的谣言检测(Jin et al. 2017)是假新闻检测的另一种形式。在本文中,作者与微博(金等。2017)和Twitter(Boididou et al. 2015)数据集,分别从中国权威新闻机构和Twitter获得。作者提出了一种多模态融合机制,其中图像特征与LSTM(长短期记忆)网络产生的文本和社会背景尽管有这么多现有的假新闻检测技术,但结果仍然不符合标准。检测假新闻的问题很难主要是因为两个原因:(i)标记数据的稀缺性(Wang 2017),(ii)欺骗性写作风格(Shu et al. 2017年)。贡献在这篇研究论文中,我们提出了一个大规模的数据集,以帮助提高当前假新闻检测算法的性能我们最初从《华尔街日报》和《洋葱报》中提取数据,创建我们的训练数据集,称为News- Bag,其中有215,000篇新闻文章。建议的数据集包含新闻文本和新闻文章的图像由于该训练数据集是不平衡的,因此我们使用数据扩充算法来创建一个更大且近似平衡的图2:使用智能数据增强算法生成假新闻的示例。NewsBag测试从完全不同的新闻网站。我们在实验中使用了最先进的文本和图像分类模型,还使用了最近发表的多模态变分自动编码器(MVAE)(Khattaret al. 2019)和FAKEDETECTOR(Zhang et al. 2018)进行多模态假新闻检测。这是通过用图像和文本输入并行训练网络来实验表明,即使是非常深的网络也不能很好地概括测试数据集中看不见的和不同的新闻。这表明了假新闻检测问题的难度,因为假新闻可以根据写作风格,新闻内容和来源而变化。从相对的角度来看,我们证明了使用来自假新闻检测的多种形式的数据是一个好主意。我们最好的多模态模型是MVAE,其性能显著数据集NewsBag数据集包含20万条真实新闻和1.5万条假新闻。真正的新闻是从《华尔街日报》上挖来的。这些假新闻是从《洋葱1号》(The Onion 1)上刮下来的,该杂志发表了关于真实和虚构事件的讽刺文章。为了验证数据库的难度和论文的真实性,我们要求几个测试对象浏览数据,并手动验证所选的15,000篇然而,由于NewsBag数据集高度不平衡,我们接下来创建了NewsBag++,这是一个增强的训练数据集。NewsBag++数据集包含200,000条真实新闻和389,000条假新闻。在给定假新闻和真新闻的基本事实集合的情况下,用于生成新的假新闻的数据增强算法在以下部分中描述。除了NewsBag和NewsBag++之外,我们还创建了一个NewsBag Test数据集进行测试,同时在NewsBag或NewsBag++数据集上训练模型。NewsBag测试数据集包含从真实新闻2中抓取的11,000篇真实新闻文章,训练数据集NewsBag++,包含约589,000个具有文本和图像数据的新闻文章。为了展示对我们模型的真实评估,我们刮取了测试集-第1https://www.theonion.com/2https://therealnews.com/表1:总结现有用于假新闻检测的数据集的特征。数据集号真实的新闻文章号假新闻文章视觉内容社会背景公开提供BuzzFeed新闻826901没有没有是的BuzzFace1,656607没有是的是的骗子6,4006,400没有没有是的Twitter6,0267,898是的是的是的微博4,7794,749是的没有是的FacebookHoax6,5778,923没有是的是的TI-CNN10,00010,000是的没有是的FakeNewsNet18,0006,000是的是的是的NewsBag测试11,00018,000是的没有是的新闻包200,00015,000是的没有是的新闻资讯++200,000389,000是的没有是的18 , 000 篇 假 新 闻 文 章 来 自 The Poke3 。 我 们 为NewsBag Test数据集使用了完全不同的新闻来源,这样我们就可以了解在NewsBag或NewsBag++上训练的模型对看不见的和不同的新闻的概括程度。用于生成假新闻的数据增强制造假新闻最简单的方法是从现有的15,000条从网站上抓取的假新闻中随机组合任何两条新闻。然而,这提出了两个问题。第一,这两条假新闻可能完全不相关,因此在一起毫无意义。这对我们的研究没有好处,因为我们希望假新闻是人们实际撰写的方式。第二个缺点是,假新闻图片的数量将受到限制,因为我们只能从现有的15,000张图片中挑选。这对于训练一个健壮的模型来说并不好。因此,我们决定提出一种智能数据增强算法来生成假新闻。图2示出了相同的示例。首先,我们从《华尔街日报》上搜集了170,000条真实的新闻除了我们已有的200,000条真实的新闻然后,我们为这额外的170,000条真实新闻中的每条新闻我们还为15,000条假新闻中的每条新闻提供了一个词袋表示。这些词袋表示是在从相应的新闻中去除停止词之后找到的。然后,我们对多个迭代执行以下操作:• 从15,000条假新闻中随机选择一条新闻。找到所有的假新闻,其词袋表示与选定的特定假新闻有交集,超过阈值。• 通过将这些假新闻中的每一个的文本与最初选择的假新闻相结合来生成新的假新闻。此外,标记该对,以便它永远不会再次用于生成。• 从额外的1,70,000条真实新闻中找到真实新闻,这些新闻的词袋表示在-3https://www.thepoke.co.uk/与这个特定生成的假新闻的词袋表示的相交。• 将此真实新闻的图像附加到生成的假新闻。增强算法生成的假新闻与人们撰写的实际假新闻非常相似,这主要是由于两个原因。首先,组合以生成新的假新闻的两个假新闻彼此非常相关,因为它们的词袋表示彼此具有最大的交叉。这使得生成的新闻听起来连贯,而不是完全没有意义。第二个原因是,我们附加了一个来自真实新闻的图像,其词袋表示与生成的假新闻的词袋表示具有最大的共同命名法我们以三种不同的形式公开我们的数据集最简单的是Dataset Folder格式,通常被PyTorch等深度学习库使用图像数据被组织为两个文件夹-假的和真的。每个文件夹包含该特定类的所有图像。文本数据的组织也是如此。FastText是文本分类任务中用于数据的格式。在FastText 格 式 中 , 三 个 数 据 集 - NewsBag Test ,NewsBag和NewsBag++各自作为文本文件存在。在文本文件中,每行表示一个样本,即,两个样本由换行符分隔此外,每行都以label开头,后跟样本的目标label。这个前缀允许模型在训练或测试期间检索给定样本的类。实际的示例在标签前缀之后,用空格、逗号和空格分隔。这种格式非常适合文本分类,因为它只需要很少的额外内存来存储每个样本谷歌协作室是一个公开提供的工具,为重新搜索,提供了一个特斯拉K80 GPU后端。如何-以往任何时候,从谷歌驱动器读取数据文件夹与大量的文件或文件夹在顶级给IO错误的Colab。此外,内存是有限的colab要求数据压缩。因此,我们提供我们的数 据 集 , NewsBag.zip , 新 闻 袋 Test.zip , 和NewsBag++.zip,我们称之为表2:数据集文本特征/数据集NewsBag测试NewsBag NewsBag++Google Colab格式。图像被下采样到28×28,以便只保留最有用的视觉信息并限制内存需求。我们组织的文本和图像到编号的子目录与500个文本和图像的年龄文件,分别。然而,文本和图像文件夹中的最后一个文件夹我们在每个文件名前面加上标签,然后加上一个空格,以便在训练或测试期间检索目标标签。最后,我们使用这种特殊的格式在Colab上进行 了 实 验 该 数 据 库 将 通 过 实 验 室 网 站www.example.com提供http://iab-rubric.org/。与其他现有数据集的比较拟议的数据库的主要优势之一是它的大小。NewsBag++数据库拥有589,000个数据点,分为两类-真实和虚假。这比现有的假新闻数据集大一个数量级。 然而,与此同时,我们数据集的主要弱点是,它没有任何社会背景。通过社会背景,我们的意思是没有关于谁在社交媒体上传播新闻的信息,分享这一新闻的趋势是什么,用户的反应和评论是什么等,这为进一步改进提供了空间,我们可以通过搜索社交媒体上的类似帖子来找到新闻的社会背景。下面讨论一些已经存在的用于假新闻检测的数据集。表1比较了所有数据集。• FakeNews Net数据集(Shu et al. 2018)是最近在假新闻检测方面的一项工作,仅包含约24,000个数据点。该数据集的主要优势在于存在社会背景,例如用户反应和评论等。• 同样,TI-CNN(文本图像卷积神经网络)(Yanget al. 2018)也只有20,000个数据点。假新闻围绕着2016年美国总统选举。• BuzzFeedNews是从Face- book收集的一个小数据集 。 BuzzFeed的 记 者 对 此 进 行 了 评 论 Buz-zFace(Buz-zFace)是BuzzFeedNews的一个扩展。这两个数据集的内容都是基于美国2016年选举的,就像TI-CNN数据集一样。• FacebookHoax(Tacchini et al. 2017)顾名思义,它分别从Facebook的一些科学和阴谋页面中收集了恶作剧和非恶作剧• LIAR数据集(Wang 2017)与其他数据集不同,因为它更细粒度。假新闻被分为很好的类别-裤子着火了,假的和勉强真实的,而真正的新闻被分为很好的类别-半真,大部分是真的,真的。该数据集包含由各种政治演讲者所做的真实世界简短它是从事实检查网站Politifact收集的,该网站对细粒度的类使用手动注释。• 微博数据集(Jin et al. 2017)是从2012年至2016年的4年内从中国权威新闻来源收集的。微博官方辟谣系统通过对可信用户举报的可疑帖子进行过滤,从而做出了上述标注• Twitter数据集(Boididou et al. 2015)是从Twitter收集的,最初用于检测Twitter上的虚假内容。这些数据不仅包含文本和图像,还包含来自twitter用户的其他社会背景信息。数据集分析在本节中,我们将介绍有关News-Bag Test、NewsBag和NewsBag++数据集的关键统计数据。这些统计数据中的每一个都可以用作可以输入到机器学习模型中的手工特征但是,假新闻检测很难的一个主要原因是这些手工制作的特征不是很有鉴别力。这鼓励使用深度学习模型,可以学习数据中隐藏或潜在的特征。下面描述了不同数据集的特征的重要性、变化和缺乏二分法属性表2总结了数据集的分析。词汇是文本数据集中唯一标记的集合,也称为类型集它是数据集多样性的一个非常重要的指标在我们 的 两 个 近 似 均 衡 的 数 据 集 : NewsBag Test 和NewsBag++的情况下,假类和真类的词汇量几乎相等这表明,假新闻和真新闻同样是多种多样的。对于NewsBag数据集,真实新闻样本的词汇量更大,这仅仅是因为与数据集中的假新闻样本相比,它们的数量更大。我们分别对这两类数据集的新闻内容进行了WordCloud表示反映了特定数据集中单词的频率。我们对图3所示的词云表示进行了两个有趣的观察。首先,云假房假房假房词汇量(单词)29,57125,28640,897124,243109,006124,243Avg.每条新闻148219223216446216Avg.每条新闻273738368136Avg.每条新闻91113112711Avg.每条新闻112272(a)(b)(c)(d)(e)(f)图3:NewsBag Test、NewsBag和NewsBag++的假新闻词云表示分别从(a)-(c)中以黑色显示NewsBag Test、NewsBag和NewsBag++的真实新闻词云表示分别从(d)-(f)以白色示出。所有三个数据集的真实新闻反映了重要的真实词实体 。 例 如 , 我 们 可 以 很 容 易 地 观 察 到 , 在NewsBagTest,News-Bag和NewsBag++的真实新闻的词云表示中,分别有高频率的词Israel,New York和China。另一方面,假新闻大多包含与重要实体无关的词语。例如,我们分别在NewsBag Test、NewsBag和NewsBag++数据集中的假新闻的词云中看到了诸如new、one、week和pictures之类的词假新闻和真新闻的词云之间的这种差异强调了一个事实,即假新闻没有太多真实世界的内容可以谈论。 他们只是试图通过使用有吸引力的词来创建新闻,例如,关于纳税的“新”规则等。另一个观察结果是,新闻袋测试与我们的训练数据集NewsBag和NewsBag++相比具有明显不同的 词 云 表 示 。 这 是 因 为 我 们 从 不 同 的 网 站(TheRealNews和ThePoke)抓取了NewsBag Test数据集,而训练数据集包含来自《华尔街日报》和《洋葱报》的新闻。我们为测试和训练数据集使用不同的新闻来源,以便我们可以观察我们的模型如何推广到看不见的数据点。假新闻或真新闻的长度,就字符或单词的数量而言,再次取决于新闻的来源。没有固定的模式。正如我们所看到的,与假新闻相比,News-Bag Test数据集的真实新闻更长,而NewsBag数据集的假新闻更长。这就是为什么假新闻检测是不平凡的另一个原因新闻的长度(字符或单词)是手工制作的特征的一 个 例 子 , 它 在 我 们 的 训 练 ( NewsBag 或NewsBag++)数据集和测试(NewsBag Test)数据集中遵循相反的模式。像这样的特征实际上可以欺骗模型。这反映在我们在实验部分提供的基线结果中,我们看到一些模型的测试精度低于随机。停用词和标点符号是文本中信息量最少的。就像新闻的长度一样,我们看到这些特征在真实和虚假的类中遵循不同的模式,跨越不同的新闻来源。因此,这些手工制作的特征也不适合分类。实验我们在我们的数据集上训练了单模态和多模态模型,并展示了NewsBag和NewsBag++的训练和测试精度使用NewsBag或NewsBag++训练时,测试集是相同的。我们所有的实验都是在Google Colaboratory上进行的,这是一个开源的Python笔记本环境,具有TeslaK80 GPU后端。每个数据集和模型的准确度总结见表3。单一模态-文本我们使用FastText数据格式来训练我们的文本分类模型。下面详细描述了每个模型的训练设置• FastText(Joulin et al. 2017)是最简单的文本分类方法之 一 , 以 其 效 率 而 闻 名 。 我 们 使 用 GloVe(Pennington,Socher和Manning 2014)词嵌入,它有300维向量,220万种词汇和840 B标记。我们训练了30个epoch,学习率为0.5,批量大小为128。• TextCNN(Kim 2014)改进了情感分析和问题分类的最新技术。在这里,我们训练假新闻分类的模型。我们使用与FastText相同的嵌入,但我们用较慢的学习率(0.3)和较小的批量(64)来训练模型我们使用大小为3x3,4x4和5x5的卷积核。该模型训练了15个epoch。• 我们使用双向LSTM网络进行分类。该架构保持简单,只有2个隐藏层,每个层由32个单元组成。我们使用最大句子长度20,以实现更快的训练。• 递归卷积神经网络(Lai et al. 2015)捕获上下文以学习更好的单词表示,从而消除了对手工制作特征的需求。我们训练了一个简单的RCNN,其中1个隐藏层大小为64,dropout为0.2。我们保持批量大小为128,并以0.5的学习率训练模型15个epoch• 神经机器翻译(Bahdanau,Cho和Bengio 2015)是最近的端到端机器翻译方法。它使用一个编码器-解码器架构,表3:使用NewsBag和NewsBag++训练集进行的实验fastText0.950.460.980.52TextCNN0.960.510.980.46TextRNN0.990.510.990.43RCNN0.980.560.990.47Seq2Seq(注意)0.980.480.990.45Transformer0.960.480.980.39深度玻尔兹曼机0.810.320.600.31图像ResNet0.930.520.720.49图像压缩网络0.930.540.710.53图像密集网0.920.490.720.50多模态变分自动编码器0.960.710.760.62防伪检测0.960.700.740.61注意力机制,使单词更好地相互对齐。为了使用序列到序列模型(注意),我们只使用编码器生成的新闻文章的表示进行分类。编码器架构是一个简单的双向LSTM,具有1个大小为32的隐藏层。• Transformers(Vaswani et al. 2017)通过使用自注意和位置前馈神经网络堆栈来执行机器翻译任务,消除了对任何RNN或CNN的需求。使用transformer进行假新闻检测的方法与序列到序列模型相同我们在编码器中使用自注意和位置前馈网络来获得用于分类的数据表示。单一模态-图像我们使用Google Colaboratory数据格式作为我们的图像分类模型。我们展示了非常深的卷积神经网络的结果,这些网络在图像分类任务上表现非常好。• 受限玻尔兹曼机(RBM我们展示了基于深度玻尔兹曼机的多模态深度学习模型的结果(Srivastavaand Salakhutdinov 2014)。我们首先通过最小化重建损失来获得图像的合适表示,然后在此简化表示上进行该模型的图像路径我们训练模型5个epoch,批量大小为128。• 我们使用ResNet(He et al.2016年),具有18层,仅基于图像对假新闻进行分类ResNet通过学习输入层的残差函数,提高了图像分类任务的准确性,降低了复杂性ResNet的最终全连接层(具有1000维输出)被另一个具有2个输出的密集层替换,以获得想要的分类我们使用的批量大小为128,学习率为0.01,每3个epoch衰减0.1倍。该模型训练了7个epoch。• 我们使用SqueezeNet(Iandola et al.2016)作为另一种模型,它比AlexNet或ResNet占用更少的内存,而不会牺牲准确性。训练设置与ResNet相同。我们看到,当在我们的News-Bag数据集上训练时,SqueezeNet 的 表 现 与 ResNet 一 样 好 。 我 们 为SqueezeNet使用了更大的批处理大小256。• DenseNets(Huang et al. 2017)将特征传播和特征重用的思想发挥到了极致,这就是它们实现良好分类精度的原因。对于给定的层,来自所有先前层的特征图被用作输入,导致总共K*(K + 1)/2个直接连接,其中K是卷积层的数量。DenseNets在减少消失梯度问题方面是有效的。多模态-图像和文本多模态模型的训练与仅图像模型类似地执行。我们使用了用于假新闻检测的最先进架构,即MVAE(Khattar等人,2019)和FAKEDETECTOR(Zhang等人,2018)。结果表明,多峰算法显着优于单峰算法。表中总结的结果表明假新闻检测问题的复杂性。我们观察到,训练的准确性是非常高的新闻袋训练集,无论模态。然而,在NewsBag++的情况下,图像模型和基于多模态的模型的训练精度非常低。另一方面,即使在三个NewsBag++数据库上,只有基于文本的模型才能产生非常高的训练精度。这使我们推断出,在NewsBag++训练集的情况下,数据的图像模态会欺骗模型。这背后的原因是,我们为NewsBag++生成定制的智能数据增强算法试图训练精度测试精度训练精度测试精度通过使用来自额外的170,000条真实新闻的图像来生成逼真的假新闻,这些新闻是专门从《华尔街日报》上抓取的。这一推论从经验上验证了假新闻作者如何通过将真实新闻图像附加到其虚假文本内容来欺骗检测我们还观察到,无论使用的训练数据集和模型如何,测试精度都非常低。这是因为当新闻的来源不同时,例如在NewsBag Test和NewsBag/NewsBag++数据集中,即使是模型从训练集学习到的非常基本的潜在特征在测试集中也会有所不同。即使是使用已经可用的地面实况数据的数据增强然而,即使在这样不可预测的数据集上,我们的最佳模型MVAE也比随机精度提高了约20%。我们还观察到,与仅NewsBag相比,增强的NewsBag++数据集并没有显着影响性能,这为尝试进一步增强技术提供了一个范围,从而改善了假新闻检测的结果。结论在本文中,我们介绍了NewsBag,这是一个用于训练和测试假新闻检测模型的基准数据集。它不仅比以前可用的数据集大一个数量级,而且还包含每个数据点的视觉内容。由于不可预测的新闻内容,新闻起源的事件背景,作者写作风格和新闻文章来源,我们的工作提出了虚假新闻检测的复杂性。我们展示了最先进的文本分类和图像分类模型用于单模态假新闻检测的基线结果。我们还展示了多模态假新闻检测技术的结果我们通过显示单模态和多模态方法的泛化能力差来我们通过提出一种增强算法来进一步支持我们关于问题的非平凡性质的主张我们推断,没有一个单一的模态模型实现了良好的改善随机抛硬币。然而,多模态方法通过结合从文本和图像模态的学习来实现更好的性能未来的工作可以在扩展用于假新闻检测数据集的模态集的方向上进行,例如,使用社交上下文、文本、图像、音频和视频来进行假新闻检测。此外,我们可以尝试使用数据增强等技术来增加训练数据集的大小,并进一步改善假新闻检测的结果。引用Antol , S.; 阿 格 拉 瓦 尔 , A.; 卢 , J.; Mitchell , M.;Batra,D.; Zit- nick,C. L.的;和Parikh,D. 2015. Vqa:视 觉 问 答 。 IEEEInternational ConferenceonComputer Vision,2425Bahdanau,D.;周,K.;和Bengio,Y. 2015. 神经瘤-中国翻译通过共同学习对齐和翻译。在第三届学习表征国际会议。Boididou,C.; 安德烈亚杜,K.的;帕帕多普洛斯 ,S. 的 ;Dang Nguyen , D. T.; Boato , G.;Riegler,M.; Larson,M.;和Kompatsiaris,I. 2015.在2015年的中世纪使用多媒体MediaEval多媒体评估基准计划。Castillo,C.; Mendoza,M.;和Poblete,B. 2011. Twitter上的信息可信度。第20届国际万维网会议集,675ACM。陈玉; Conroy,N. J.道:和Rubin,V.L. 2015.网络世界的新闻:需要一个自动垃圾探测器。在信息科学与技术协会会议记录中,第52卷,1 - 4。Farajtabar , M.; 杨 , J.; 叶 , X 。 徐 , H.;Trivedi ,R.;Khalil,E.; Li,S.;宋湖;和Zha,H.2017年。通过基于点过程的干预缓解假新闻arxiv.预印本,(2017年)。他,K。张,X.; Ren,S.; Sun,J. 2016.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别上,770黄,G.;刘志; Weinberger,K.问:和范德马滕,L. 2017.密集连接的卷积网络。IEEE计算机视觉与模式识别集。Iandola,F. N.的; Moskewicz,M. W的; Ashraf,K.;汉 , S.; 达 利 , W 。 J. 道 : 和 Keutzer , K. 2016.Squeezenet:Alexnet级别的精度,参数减少50倍,模型大小为1mbCoRR绝对值/1602.07360。Jin,Z.;曹,J.;郭,H.;张玉;和Luo,J. 2017年。多模态融合递归神经网络用于微博谣言检测第25届ACM国际多媒体会议论文集,795Joulin , A.;Grave , E.;Bojanowski , P.; 和 Mikolov ,T.2017年。高效文本分类的技巧包在计算语言学协会欧洲分会第15次会议的会议记录中,EACL,第2卷:短文,427Khattar , D.; Goud , J. S.; Gupta , M.; 和 Varma ,V.2019。MPEG4:用于假新闻检测的多模态变分自动编码器万维网会议,2915金,Y。2014.用于句子分类的卷积神经网络。2014年自然语言处理经验方法,1746Kwon,S.;Cha,M.;Jung,K.;陈文;和Wang,Y.2013年 。 网 络 社 交 媒 体 谣 言 传 播 的 突 出 特 点 。IEEEInternational Conference on Data Mining , 2013年,第1103Lai,S.;徐,L.;刘,K.; and Zhao,J. 2015.用于文本分类的递归卷积神经网络。在第二十九届AAAI人工智能会议上,2267米哈尔恰河和Strapparava,C. 2009.测谎仪:自动识别欺骗性 语言 的探索 . 在计 算语 言学协 会的会 议记 录-IJCNLP309-312。Pennington , J.;Socher , R.;Manning , C.D. 2014 年 。Glove:单词表示的全局向量。自然语言处理的经验方法(EMNLP),1532-1543。Ruchansky,N.; Seo,S.;和Liu,Y. 2017. CSI:一个用于假新闻检测的混合深度模型。2017年ACM信息与知识管理会议论文集,797Salakhutdinov,R.; Mnih,A.;和Hinton,G. 2007.用于协同过滤的受限玻尔兹曼机。第24届国际机器学习会议论文集,791Alzheimer , G. C. 的 方 法 , 和 Williams , J.R. 2018.Buzzface:一个包含Facebook用户评论和自我的新闻真实性数据集。第十二届网络和社交媒体国际会议论文集,531Shu,K.;Sliva,A.;Wang,S.;唐,J.;和Liu,H.2017年。社交媒体上的假新闻检测:数据挖掘视角。ACM SIGKDD探索通讯19(1):2017.Shu , K.; Mahudeswaran , D.; Wang , S.; 李 , D.; 和Liu,H.2018. Fakenewsnet:一个包含新闻内容、社会背景和动态信息的数据库,用于研究社交媒体上的假新闻。CoRR绝对值/1809.01286。Srivastava,N.,和Salakhutdinov,R. 2014.深度玻尔兹曼 机 的 多 模 态 学 习 Journal of Machine LearningResearch15(1):2949-2980.Tacchini,E.; Ballarin,G.;韦多瓦湾L. D.的; Moret,S.;和de Alfaro,L. 2017.有些人喜欢它的骗局:社交网络中的自动假新闻检测。第二届数据科学社会公益研讨会论文集(So- Good)马其顿,2017年。1960年:《明史》卷110。瓦斯瓦尼,A.;沙泽尔,N.;帕尔马,N.;乌斯科里特,J.;琼斯湖; Gomez,A. N.的;凯泽湖;和Polosukhin,I.2017.注意力集中就行了。神经信息处理系统的进展30:神经信息处理系统年会,5998Vinyals,O.; Toshev,A.; Bengio,S.;和Erhan,D. 2015.Show and tell:A Neural Image Caption Generator. 计算机视觉与模式识别(CVPR)2015:3156- 3164。Wang,W. Y. 2017.“骗子,骗子裤子着火了”:一个新的假新闻检测基准数据集。在计算语言学协会第55届年会的会议记录中,422杨;郑,L.;张,J.;崔,Q.;Li,Z.;和Yu,P.S. 2018. TI-CNN : 用 于 假 新 闻 检 测 的 卷 积 神 经 网 络CoRRabs/1806.00749。张,J.;崔,L.;傅,Y.;和Gouza,F. B. 2018.基于深度扩 散 网 络 模 型 的 虚 假 新 闻 检 测 。CoRRabs/1805.08751。
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功