事实核查文章的相关文档发现

201 浏览量更新于2023-10-15 收藏 13.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5250事实核查文章的相关文档发现0Xuezhi Wang, Cong Yu, Simon Baumgartner, Flip Korn GoogleResearch NYC {xuezhiw,congyu,simonba,flip}@google.com0摘要0在谷歌和必应等主要搜索平台的支持下，采用schema.orgClaimReview结构化标记的事实核查文章因其在打击数字虚假信息方面的作用而得到广泛认可。相关文档是指一个在线文档，它涉及并可能表达对某个声明的立场。因此，相关文档发现问题就是要找到与声明相关的文档。根据事实核查的裁决，相关文档发现可以帮助识别在线的错误信息。在本文中，我们通过利用各种信息检索和机器学习技术提供了一个初步的解决方案来解决相关文档发现问题。该系统由三个阶段组成。首先，我们根据事实核查文章中的各种特征检索候选文档。其次，我们应用一个相关性分类器来过滤掉不涉及声明的文档。第三，我们应用基于语言特征的分类器来区分对声明持不同立场的文档。我们通过实验证明，我们的解决方案在大规模数据集上取得了可靠的结果，并超过了最先进的基准。最后，我们通过丰富的案例研究来突出剩余挑战的多样性，以及这个问题远未解决。0CCS概念0• 信息系统 → 数据挖掘；聚类和分类；• 计算方法 →分类和回归树；0关键词0事实核查；数字虚假信息；相关文档发现0事实核查是一种新闻报道，记者通过检查他人发布的声明来判断这些声明的真实性和准确性。这些声明可以是政治家的陈述，也可以是其他出版商报道的故事，或者是在社交网络中传播的谣言。事实核查的目标是根据事实核查社区达成的方法论，对声明是否真实、错误或混合提供裁决[16]。事实核查为用户提供了更好地理解信息的背景，并且是0本文关注事后事实核查，这与出版商为确保自己的报道事实准确性而进行的事前事实核查不同。0本文根据知识共享署名-非商业性-禁止演绎4.0国际许可证（CC BY-NC-ND4.0）发表。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18Companion，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY-NC-ND 4.0许可证发布。ACMISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31887230对抗数字虚假信息和错误信息以及新闻的整体信任和可信度是打击虚假信息的关键。虽然事实核查自2000年代初就存在，但在2016年才引起更广泛的公众关注。许多事实核查组织采用开放标准ClaimReview标记2，使得包括谷歌和必应在内的主要搜索引擎能够在其产品中为事实核查内容提供额外支持[4，12，17]，因为该标记使得通过结构化数据正确识别事实核查文章变得容易；搜索引擎的支持反过来又促进了全球事实核查社区的增长[19]。ClaimReview标记中编码的数据在事实核查文章的内容之上提供了三个关键字段，它们是：1）声明，即被事实核查的陈述；2）声明者，即提出该声明的个人或组织；3）裁决，即根据事实核查者对该声明真实性的结论。这消除了从文本中提取这些字段的需求，这是信息提取中长期存在的挑战，现在得以绕过，得益于事实核查者的贡献。然而，结构化数据字段无法可靠地提供与在事实核查文章中检查的声明相关的Web文档。这不是由于标记的限制：事实核查者确实可以提供重复该声明的页面的URL。然而，由于多种原因，这很少被做到。首先，许多事实核查者担心边缘内容的传播，因此不愿提供URL，以免被滥用。其次，一个热门声明可能会在数百篇不同的文章中讨论，事实核查者不可能找到所有这些文章。第三，一个相关文档可能在事实核查文章撰写之后很长时间才被创建，事实核查者不可能经常回顾他们撰写的所有事实核查文章并更新列表。与此同时，识别与声明相关的文档非常有用。当与事实核查文章的裁决不一致时，它提供了识别潜在错误信息的手段。请注意，声明相关性发现问题不要求文档中出现字面或精确的声明，而是旨在找到在精神上与之一致的文档。因此，我们的目标不是识别被事实核查文章揭穿的文章，而是尽可能识别一组全面的与声明相关的文档，并对它们对给定声明的立场进行分类。图1展示了Snopes的一篇事实核查文章，检查了“最近谷歌发现的卫星照片”的声明。02 http://schema.org/ClaimReview 3https://developers.google.com/search/docs/data-types/factcheck#creativework 4在这里，我们假设进行事实核查的组织是高质量和有声望的出版商。评估事实核查组织的可信度超出了本文的范围。0跟踪：新闻报道，错误信息，事实核查跟踪WWW 2018，2018年4月23日至27日，法国里昂5https://www.snopes.com/enormous-pyramids-just-discovered-in-antarctica/6https://goo.gl/qQbM847https://goo.gl/K3wy1u8 https://goo.gl/SuhkQDTrack: Journalism, Misinformation, Fact Checking Track WWW 2018, April 23-27, 2018, Lyon, France5260地球上的古代文明在1亿年前在南极洲建造了金字塔，”5文章标题为“在南极洲刚刚发现了巨大的金字塔？”判决为“虚假”。快速的谷歌搜索显示至少有十个与这一主张相关且表达积极立场的文档。图2展示了其中一个例子6，还有同样数量的文档，像Snopes一样反驳7这一主张或在不作判断的情况下讨论它。0图1：一篇事实核查文章及其主张。0图2：与图1中主张相关的文档示例。0这些例子说明了主张相关性发现问题的几个挑战，该问题在第3节中被形式化。首先，如何找到候选文档并不清楚，特别是当主张可以用多种方式表达时。我们提出了一种方法来制定设计良好的查询，以捕捉主张并利用搜索引擎来识别候选文档。其次，虽然现代搜索引擎在返回词汇相关的结果方面做得很好，但并不是所有的结果实际上都涉及到主张陈述，因为搜索引擎对其没有语义理解。事实上，我们的实验表明，尽管我们尽力制定正确的查询，但前100个返回的结果中大多数都与主张无关。为了解决这个挑战，我们设计了一个分类模型，用于预测给定主张和候选文档的情况下，文档是否与主张相关。最后，最困难的挑战是如何区分出与主张相关的每个文档在立场上的立场。这类似于FakeNewsChallenge（FNC）[26]中所谓的“立场检测”问题，并在[21]中进行了探讨。为了解决这三个挑战，我们提出了一个由三个阶段组成的系统，包括：1）候选生成阶段，根据事实核查文章和其主张生成的信号检索候选文档（第4节）；2）相关性分类阶段，过滤掉与主张不太相关的文档（第5节）；3）立场分类阶段，预测与主张相关文档对主张的立场（第6节）。最后，在第7节中，我们通过实验证明：1）我们能够自动找到与事实核查文章相关的全面候选数据集，与大量手动工作相比，召回率达到80%。0努力；2）我们构建了一个相关性分类器，其准确率达到81.7%，超过了FNC（在我们的数据上训练）的获胜方法近5%；3）我们构建了一个立场分类器，其准确率达到91.6%，超过了FNC的获胜方法超过6%。02 相关工作0与事实核查相关的研究可以分为几个一般类别。首先，关于信息提取背景下信息真实性的丰富研究，特别是在大数据时代，多个来源可能提供冲突信息的情况下，从[32]开始。关键的研究主题包括确定什么是正确的信息以及哪些来源更可信。然而，在这些研究中所研究的信息是由知识库三元组表示的简单事实，与我们在本文中研究的具有复杂语义的一般主张非常不同。其次，半自动事实核查是一个新兴的研究领域，旨在开发工具以更高效地帮助记者进行事实核查[11，15，30，31]。其中一些主题包括识别真实但具有误导性的陈述，使用针对给定知识源的查询扰动技术，以及基于仅陈述本身生成的特征预测哪些陈述值得进行事实核查。我们的工作与此线索相辅相成。第三，关于微博的谣言检测也受到了很多关注[27]，其中重点是利用社交图结构来检测社交网络（如Twitter）中的错误信息的出现。其中许多技术可以被视为事实核查者的线索生成技术。最后，[28]提出了一种算法，用于帮助用户建立对新闻文章之间关系的更好理解，这是我们所共享的一个总体目标。然而，他们具体的问题不同，因为他们试图建立的新闻文章之间的联系不必形成支持或相互矛盾的关系，可以是离题的。文本相似性技术广泛应用于文本分类、情感分析、文档聚类等领域。对于我们的任务来说，文本相似性在确定我们找到的文档是否与事实核查文章中的主张实际相关方面至关重要。传统的基于词的模型（词袋或词组）在数据稀疏性和高维度方面存在问题。它们通常无法捕捉文本的语义，因此即使一些词具有相似的语义含义，如果两个文本之间没有很多重叠的词，它们的相似度也会很低。最近关于文本嵌入的研究[1，18，22，23]证明了在识别短文本之间的相似性方面具有很高的效果。在[22]中，作者从非常大的数据集中计算出单词的连续向量表示，并表明基于神经网络的语言模型明显优于N-gram模型。在[18]中，作者提出了段落向量，用于学习文本片段的连续分布式向量表示，可以捕捉文本中的词序和语义。我们在我们的相关性分类阶段采用了其中的一些技术。在自然语言处理文献中，立场检测或立场分类的问题有多个定义，包括[24]中的目标实体情感、[3]中与有争议的话题的一致性以及Fake News Challenge[26]中与谣言的一致性。其中最后一个与我们的问题最接近，并且与文本的9http://schema.org/ClaimReview10 https://www.snopes.com/enormous-pyramids-just-discovered-in-antarctica/11https://goo.gl/etTKik5270自然语言推理中的蕴涵问题。为了解决这个任务，[5]收集了一个包含570k个人工编写的英语句子对的大型数据集（SNLI）[6]。每个句子对包括一个前提和一个假设，标有蕴涵、矛盾和中性的标签。许多模型也已经被开发出来，以提升自然语言推理和文本理解的最新结果，包括基于特征的模型[5]，基于句子编码的模型[7]和通用神经网络模型[8, 25,29]。其中，[25]构建了一个注意力模型，将问题分解为可以分别解决的子问题，并在SNLI数据集上取得了86.8%的准确率，参数数量几乎比之前的工作少一个数量级。最近，[8]构建了一个增强的LSTM模型，在SNLI数据集上取得了88.6%的准确率。[13]引入了一种密集交互推理网络（DIIN），通过从交互空间层次性地提取语义特征，实现了对文本的高层次理解，并在SNLI数据集上取得了88.9%的准确率。03 定义和整体系统0定义3.1事实核查文章被定义为一篇检查单个事实断言的文章，我们称之为主张，并根据作者的研究结果对主张的真实性进行判断，从而产生一个裁决。0事实核查文章通常由专业记者和事实核查人员撰写。在本文中，我们只对那些用ClaimReview标记9进行注释的文章感兴趣。0定义3.2给定一个事实核查文章，一个相关文件是指与事实核查文章有一定主题或词汇相似性的文件。0我们依靠Google搜索根据我们从事实核查文章中制定的查询来获取相关文件。所有相关文件（定义3.3）都是从相关文件集合中选择的。0定义3.3给定一个带有主张c的事实核查文章，一个与主张c相关的文件是指与c相关的文件。0并非所有与事实核查文章相关的文件都是相关的。通过一个例子来说明两者之间的区别最好。考虑一篇带有主张“最近从GoogleEarth获得的卫星照片显示，1亿年前在南极洲有一个古代文明建造了金字塔。”100并且有一篇相关文件讨论了“在埃及沙漠中发现的金字塔状结构。”11尽管这两篇文章相似，但相关文件与具体的主张无关，因为它讨论的是沙漠中的金字塔，而不是在南极洲发现的金字塔。相关文件可以以许多不同的方式处理主张：有些仅仅报告主张或讨论主张而不作判断（“XYZ声称...”）。然而，大多数文件旨在支持或反驳主张。0定义3.4给定一个主张c，一个相矛盾的文件被定义为与c相矛盾的相关文件，一个支持文件被定义为与c相支持的相关文件。0相矛盾和支持是描述文件对主张的立场的术语，而不是（必要地）与事实核查裁决相关。重要的是，我们注意到，支持主张的文件不需要出现字面上或精确的主张；相反，文件与主张的精神相一致。在相关文件中，相矛盾的文件尤其有趣：当事实核查认为主张是错误的时候，相矛盾的文件代表了反驳主张的文件，这些文件可能为用户提供更多上下文或证据，以更好地理解整个故事。0相关文件0谈论不同问题的文件解决相同主张的文件（相关）0相矛盾的文件0支持文件0事实检查文章0讨论，报告，无法确定...0图3：系统概述：查找与事实检查文章相关的文件03.1整体系统0我们的整体系统工作如下。我们从一组事实检查文章开始。对于每篇文章，我们制定一组查询并使用搜索引擎找到一组相关文章。然后，我们构建一个二元分类器来预测相关文档是否为相关文档。最后，在所有相关文档中，我们对每个相关文档相对于事实检查文章及其声明的立场进行分类。系统概述如图3所示。接下来的三个部分详细介绍了这些组件的每个细节。04候选生成0候选生成的目标是尽可能找到一组全面相关的文档，以便在此候选集中发现所有相关文档。我们采用两种主要机制来发现相关文档：导航和搜索。04.1通过导航生成候选项0直观地，我们首先包括事实检查文章中的外部链接和引用的源文章作为候选文档，假设它们是相关的，它们几乎总是相关的。然而，其中大多数都不相关。例如，对于关于“南极洲发现金字塔”的事实检查文章，虽然一些外部链接是相关的，包括支持性文件12和相矛盾的文件13，但其中大多数指向相关但不相关的文件，例如关于“南极洲气候演变”和“大陆漂移”的文件14。012 https://goo.gl/qQbM84 13https://goo.gl/B6SHDJ 14https://goo.gl/zA9tN4, https://goo.gl/bGMU6P0追踪：新闻学，错误信息，事实检查追踪WWW 2018年4月23日至27日，法国里昂52804.2通过搜索生成候选项0鉴于导航的覆盖范围有限，我们转向搜索。通过搜索生成候选项的关键挑战是制定正确的查询集：我们希望查询尽可能具体，同时不会丢失潜在相关的文档。我们采用的三个主要查询类别包括：0（1）事实检查文章的标题和ClaimReview标记的声明文本。这个类别是一个明显的选择：文章标题通常总结了事实检查，而声明文本总结了正在进行事实检查的声明。（2）标题和声明文本通过实体注释进行转换。在这个类别中，我们对文本进行实体解析[20]，并将文本转换为只包含推断实体的替代形式。例如，给定声明“一段视频记录了桑迪胡克小学枪击案是一个假冒的骗局”，我们将生成查询“视频记录桑迪胡克小学枪击案骗局”，这是文本中发现的五个实体（视频，记录，枪击，桑迪胡克小学，骗局）的简单连接。这样做的主要动机是仅从长文本中提取重要信息。（3）与事实检查文章相关的点击图查询[9]，这些查询是导致点击事实检查文章的热门搜索查询。我们收集最多50个最受欢迎的点击图查询，正如我们在第7节中经验性地展示的那样，这是一个非常有用的查询来源。0我们将每个查询发送到Google搜索并收集前100个结果。删除同一事实检查文章的不同查询结果集中的重复项。结合导航和搜索，对于每篇事实检查文章，我们生成大约2400个相关候选文档以供进一步处理。正如我们在第7节中详细介绍的那样，我们能够在由熟练工作者执行开放式研究产生的黄金数据上实现80％的召回率。05 相关性分类0候选生成组件的重点是召回，即在其中希望找到尽可能多的相关文档，其中包括所有相关文档。关联分类组件的目标是剪除不相关的文档。基于8,000个（事实检查文章，相关文档）对的标记语料库，如第7节所述，我们构建了一个分类模型 M(f, d) → {relevant,irrelevant}，其中f，d分别是事实检查文章和相关文档，用于预测相关性。05.1 证据0基本任务是找出相关文档与索赔的相似程度。在为分类模型设计特征时，我们从事实检查文章和相关文档收集证据，并基于这些证据的组合构建特征。我们发现，句子级别的相似性通常提供了强有力的证据，帮助我们确定文档级别的相关性。来自事实检查文章的证据：0•索赔（c）：事实检查员提供的索赔文本非常好地总结了我们在相关文档中寻找的内容。（不幸的是，相关文档没有这样的结构化数据。）• 文章标题（f t）• 文章标题（fh）：一些事实检查员（例如Snopes）提供了更详细的标题，总结了事实检查• 选择的句子（f si）：我们进一步选择与索赔文本相似的事实检查文章中的句子，即sim(c, f s i) > θ• 在索赔文本上注释的实体，带有相关的置信度分数ala [20]请注意，对于f si，我们特别不包括事实检查文章中的所有句子，因为许多句子与索赔本身无关。来自相关文档的证据：0• 文档标题（d t）• 文档标题（d h），如果有的话• 句子（d si）：来自相关文档的所有句子• 段落（d pi）：来自相关文档的所有段落•在整个内容上注释的实体，带有置信度分数请注意，我们使用来自相关文档的所有句子，因为与事实检查文章不同，我们没有一个好的选择机制来确定哪些句子更有用。我们还使用段落，即句子组，因为我们认为段落有时可以提供更全面的关键信息集，以与事实检查文章中的索赔匹配。05.2 特征0对于每一对事实检查文章和相关文档，我们提取以下特征：实体相似度：从事实检查文章的索赔文本和相关文档的整个内容中收集带有置信度分数的注释实体。让 { e 1 , e 2 , . . . , e K }成为从两侧提取的实体的并集，然后我们将每一侧的实体表示为与实体向量 { c 1 , c 2 , . . . , c K }对齐的置信度分数向量（如果在此侧找不到实体，则 c i为0）。实体相似度特征计算为两个实体置信度分数向量之间的余弦相似度。核心文本相似度：sim(c, d t)和sim(c, dh)索赔到句子相似度：max i (sim(c, d s i))索赔到段落相似度：max i(sim(c, d p i))句子相似度：max i, j (sim(f i, d s j))，其中 f i 遍历 f t ,f h , f s i .内容相似度：sim(c, d)和sim(f,d)，即相关文档的整个内容与索赔或事实检查文章的整个内容之间的相似度。对于每一对文本，sim(t 1, t2)计算为文本嵌入之间的余弦相似度。对于每一段文本，文本嵌入通过对词嵌入和短语嵌入（通过连接两个标记）进行加权求和来计算，其中权重基于倒排词/短语频率计算（即，较不频繁的词/短语获得较大的权重）。0主题：新闻报道、错误信息、事实核查主题 WWW 2018年4月23日至27日，法国里昂5290词/短语嵌入是在Google News数据集[22,23]上预训练的向量。发布顺序：我们还从事实核查文章和相关文档中提取发布日期，并计算两个日期之间的绝对差异（以天为单位）。这反映了事实核查文章往往在发布虚假信息后的同一时间出现以打击错误信息。05.3 模型0我们构建了一个梯度提升决策树模型[10]，结合了上述所有特征，并预测相关文档是否与事实核查文章相关。我们根据10折交叉验证选择GBDT模型的超参数（最大深度、学习率、估计器数量等）。06 立场分类0在这个阶段，我们构建了一个模型 M ( f , d ) → { contradict ,support } ，其中 f , d 分别是事实核查文章和相关文档，用于将 d分类为以下两个类别，给定事实核查文章和其声明： •矛盾文档：与声明相矛盾的相关文档。 •支持文档：支持声明的相关文档；虽然我们承认存在“既不支持/讨论”类别15，但在事实核查领域中这类相关文档的数量很少，因此不是本文的主要关注点。根据众包标注实验，我们发现大约80%的相关文档属于矛盾或支持类别（参见第7节）；这与[26]中使用的数据集相当不同，该数据集中有66%的相关文档属于“讨论”类别。在检查非矛盾/支持文档时，我们发现大多数包含用户生成的内容，例如来自论坛、社交网络帖子和视频16，因为这些文档包含不同用户的相反陈述，因此往往过于混乱或主观，没有一个单一的叙述，无法被人工评定者正确分类。06.1 总体直觉0相似性并不总是判断立场的好指标：两个文本可能有很多词汇重叠，但只需在正确的位置添加“不”一词就完全改变了立场状态。因此，我们在构建立场分类模型时的主要直觉是确定相关文档是否包含与声明相矛盾的陈述。从技术上讲，对于每个相关文档，我们希望在与声明相似的上下文中识别关键的矛盾模式。这种直觉源于我们的观察，即传播错误信息的文档通常试图以非严谨的方式报道虚假声明，而不像记者在支持报告时使用的基于证据的论述那样。015一个例子是一篇关于政治家如何提出特定声明的文章，而不对声明本身进行评判（尽管许多来源倾向于在声明明显错误时予以指责）。16我们的技术尚不能分析视频内容。然而，我们认识到数字错误信息是通过在线视频传播的，并打算将这个挑战作为未来的工作。0在设计矛盾特征时，我们注意到对于许多事实核查者（例如Snopes），当裁决为“错误”（或“大部分错误”）时，事实核查文章的标题通常是一个完美的例子，它与声明相矛盾。例如，对于对声称“乡村明星WillieNelson已经去世”的事实核查文章17，标题是“乡村音乐传奇WillieNelson并没有去世；他只是一个被重新传播的名人死亡谣言的目标”，这直接与声明相矛盾。06.2 矛盾词汇0基于上述观察，我们决定构建一个相对较小的词汇表，可以指示相互矛盾的话语。我们从事实核查文章中收集了约3.1k（主张，相互矛盾陈述）对，其中标题可以很容易地提取出来。我们从相互矛盾的陈述中汇总了一元组和二元组，并使用频率最高的n-gram构建了一个900维的词汇表。除了表示否定的词汇（如no和not）之外，我们还删除了停用词。具有相互矛盾意图的最常见的一元组包括fake、purportedly、hoax和rumor，而二元组包括made up、fact check、nottrue和noevidence。请注意，还有其他一元组和二元组出现频率相同，但没有相互矛盾意图，例如Web、story和reported，这些词汇在学习支持和相互矛盾文档的示例时可能会给予较低的权重。06.3分类器0给定一个相关文档和一个主张，我们首先从相关文档中收集关键文本证据，以便进行后续特征生成。如第5节所述，相关文档的文本证据包括标题（d t ）、头条（d h ）和重要句子（d s i），我们都使用。然后，我们删除与主张相似度低于预定义阈值18的任何文本。我们称剩下的文本为关键文本。对于每个关键文本，我们进一步构建关键组成部分，即将该句与其周围的文本连接起来（每个关键文本之前和之后各一句）。这主要是因为在很多情况下，相互矛盾的文档首先会陈述主张，然后是简单的相互矛盾的陈述，例如“...真的发生了吗？不，事实证明这是错误的。”然后，我们从关键组成部分的并集中提取一元组和二元组，基于第6.2节构建的相互矛盾词汇。词汇表中的一元组和二元组都经过了词干处理以便更好地匹配。最终的特征是一个基于相互矛盾词汇的n-gram权重向量，其中每个权重是关键组成部分中出现的特定词汇词的频率。最后，我们基于这些n-gram特征构建了一个梯度提升决策树模型，用于预测相关文档是支持文档还是相互矛盾的文档。与相关性分类器类似，我们根据10折交叉验证选择了GBDT模型的超参数（最大深度、学习率、估计器数量等）。017 https://www.snopes.com/inboxer/hoaxes/willienelson.asp18我们使用的阈值为0.8，选择尽可能高的值，同时确保有足够的证据。0主题：新闻报道、错误信息、事实核查主题WWW 2018，2018年4月23日至27日，法国里昂19 https://www.snopes.com/oldwives/hairgrow.asp20https://goo.gl/rB3zS421https://goo.gl/zpa4po22https://goo.gl/KFCJZH23https://goo.gl/ExRfze24https://www.poynter.org/international-fact-checking-network-fact-checkers-code-principl53006.4示例0在这里，我们举例说明了在相关文档中识别关键文本的重要性，使用了一篇辟谣文章来驳斥“剃须会使头发变得更浓密、更快速、更丰满”的说法19。以下是一些相互矛盾的文档示例，其中相互矛盾的信息（加粗）在标题或头条中明确表达：（1）“揭秘：剃须后头发会变浓密吗？”20；（2）“揭穿剃须的神话”21。以下是标题或头条（“剃须会使头发变浓密吗？”）并未传达太多信息，需要使用主要文本中的关键句子和关键组成部分来检测矛盾：“根据以上事实，可以肯定地说，剃须实际上并不会使头发变得更浓密和生长更快。”22，“如果你剃腿、剃腋下或身体的其他部位，你的头发可能看起来变得更浓密和更粗糙。但事实并非如此。”230尽管我们目前的模型表现得相当不错，正如我们在第7节的实验中所展示的那样，我们注意到进一步的改进是必要且具有挑战性的。具体而言，还有更复杂的模式，如“地球上怎么可能...？”，“排除...”，“...？得了吧”，“...，还是吗？”，等等，以及只在特定上下文中有意义的模式，例如reunited with vs. not friendsanymore，not acting maliciously vs had intent to doharm等。更多的长尾模式包括引号和问号的特定用法，讽刺语言等。我们在第7.3.3节中提供了一些这些困难情况的案例。我们相信，要构建一个能够捕捉更复杂和长尾相互矛盾语义的模型，我们需要收集一个包含全面相互矛盾语言模式的数据集，这是我们未来工作的一部分。07 实验 7.1 数据集0我们使用以下数据集进行评估：未标记语料库：该语料库是基于ClaimReview标记自动生成的。我们在网络上爬取了所有包含一个JSON或Microdata格式的ClaimReview的文档。作为一种开放标准，可以预期会有标记的误用。因此，我们执行以下过滤以确保我们拥有一个有效和高质量的事实检查语料库。首先，我们忽略任何无效的标记，其中ClaimReview无法解析或缺少三个关键字段（claimant，claim，verdict）。其次，我们忽略任何指向不同域的事实检查文章的辛迪加或抄袭事实检查。第三，我们执行去重，这样如果有两个相同的事实检查（相同的事实检查员，claim和verdict），只保留一个。这可能发生在事实检查员发布先前事实检查的定期汇总文章时。最后，我们利用IFCN签署者列表24，并仅保留来自被事实检查社区认为非常有声望的事实检查。在所有过滤之后，该语料库中有14,731篇事实检查文章。相关标记语料库：使用我们在第4节中开发的候选生成算法，我们为每篇来自未标记语料库的事实检查文章找到了大约2,400个相关的候选文档，共计33.5M（事实检查文章，候选文档）对。然后，我们从这些对中进行抽样，使用谷歌众包平台确定相关性标签，其中的工作者是从英语世界各地招募的普通网络用户。对于给定的事实检查文章及其相关的主张，每个工作者被要求回答问题“候选文档是否涉及该主张？”每对由3个工作者评分，每个工作者最多可以评分6对。如果大多数工作者对该问题回答“是”，则将该对视为正面（即候选文档与主张相关）；否则，将其视为负面。然后进行子抽样以实现正面和负面示例的平衡。总共收集了8,000个相关性标记对，用于训练和评估第5节中描述的相关性分类。立场标记语料库：我们进一步随机从该语料库的正面对中抽样1,200个，使用相同平台进行众包立场标记，通过问题“候选文档是否（1）支持主张（2）与主张相矛盾（3）两者都不是（4）无法确定？”进行。同样，每对由3个工作者评分，每个工作者最多可以评分6对。每个类别必须由至少两个工作者达成一致，然后才能将其分配为该对的标签；否则，将该对标记为未知。对于约12%的对，工作者未达成一致，这些对被移除。该语料库用于训练和评估第6节中描述的立场分类。手动语料库：上述标记的语料库对于评估分类器的性能很有用，但不能用于衡量候选生成的性能。为此，我们从未标记语料库中随机抽样了450篇事实检查文章，并训练了更多熟练（和昂贵）的众包工作者，以执行对抽样文章进行开放式研究任务，目标是使用他们认为有用的任何手段尽可能多地发现支持文件。大多数研究人员使用了一个带有创造性查询的搜索引擎，然后跟随搜索结果上的链接。每个相关的（事实检查文章，支持文件）对在接受之前由两名人类研究人员进一步检查以达成一致。总共我们获得了约4,000个事实检查文章到支持文件的对。0由事实检查社区认为非常有声望。在所有过滤之后，该语料库中有14,731篇事实检查文章。相关标记语料库：使用我们在第4节中开发的候选生成算法，我们为每篇来自未标记语料库的事实检查文章找到了大约2,400个相关的候选文档，共计33.5M（事实检查文章，候选文档）对。然后，我们从这些对中进行抽样，使用谷歌众包平台确定相关性标签，其中的工作者是从英语世界各地招募的普通网络用户。对于给定的事实检查文章及其相关的主张，每个工作者被要求回答问题“候选文档是否涉及该主张？”每对由3个工作者评分，每个工作者最多可以评分6对。如果大多数工作者对该问题回答“是”，则将该对视为正面（即候选文档与主张相关）；否则，将其视为负面。然后进行子抽样以实现正面和负面示例的平衡。总共收集了8,000个相关性标记对，用于训练和评估第5节中描述的相关性分类。立场标记语料库：我们进一步随机从该语料库的正面对中抽样1,200个，使用相同平台进行众包立场标记，通过问题“候选文档是否（1）支持主张（2）与主张相矛盾（3）两者都不是（4）无法确定？”进行。同样，每对由3个工作者评分，每个工作者最多可以评分6对。每个类别必须由至少两个工作者达成一致，然后才能将其分配为该对的标签；否则，将该对标记为未知。对于约12%的对，工作者未达成一致，这些对被移除。该语料库用于训练和评估第6节中描述的立场分类。手动语料库：上述标记的语料库对于评估分类器的性能很有用，但不能用于衡量候选生成的性能。为此，我们从未标记语料库中随机抽样了450篇事实检查文章，并训练了更多熟练（和昂贵）的众包工作者，以执行对抽样文章进行开放式研究任务，目标是使用他们认为有用的任何手段尽可能多地发现支持文件。大多数研究人员使用了一个带有创造性查询的搜索引擎，然后跟随搜索结果上的链接。每个相关的（事实检查文章，支持文件）对在接受之前由两名人类研究人员进一步检查以达成一致。总共我们获得了约4,000个事实检查文章到支持文件的对。07.2 结果07.2.1候选生成的召回率。我们使用上述手动语料库来评估我们的候选生成算法的覆盖范围。一个简单的基准方法是使用（前100个）基于索赔文本和/或标题的搜索查询结果，以及来自事实核查文章的外链和引用来源。这样得到的召回率小于20%。表1显示了各种提议的查询生成方法与基准方法的比较，其中每一行都是前面所有行的累加。总体上，我们实现了80%的召回率。请注意，实际上的上限约为90%，因为10%的URL无法访问，这在传播错误信息的在线文档中很常见。0追踪：新闻报道、错误信息、事实核查追踪WWW 2018年4月23日至27日，法国里昂5310方法召回率0索赔文本、标题、外链和引用来源<20%0+ 前10个点击图查询 53.8%0+ 前50个点击图查询 74.8%0+ 从索赔文本/标题中注释的实体 80.0%0表1：候选生成：召回分析0URL具有不再可访问的页面，这在传播错误信息的在线文档中很常见。07.2.2关于相关性分类的性能。根据相关性标记语料库，我们提出的相关性分类器在整个数据集上进行了10折随机训练/测试分割，平均准确率为81 . 7% ± 1 .8%，明显击败了多数类标签基准线，后者由于正负标签的平衡而具有50%的准确率。我们还注意到，仅仅采取候选生成阶段生成的所有相关文档会导致更低的准确率/精确率，因为大多数相关文档并不相关。表2显示了我们的分类器与各种基准分类器之间的性能比较。特别是，我们与Fake News Challenge[2]的获胜模型进行了比较。由于提供的代码25不允许重新训练CNN部分，我们只在我们的数据集上训练了GBDT部分，并获得了77.2%的准确率。值得注意的是，如果我们应用在FNC数据集上训练的FNC获胜模型，准确率会降至51 .3%。这突显了我们的数据集与FNC数据集之间的显著差异。关于运行时间，我们的特征提取在每个事实核查文章和相关文档对上独立运行，对于大规模数据集的训练和测试都是可扩展的。FNC模型使用了来自所有训练和测试数据的文本特征的联合模型，因此可能不太可扩展。此外，他们的模型需要重新训练以预测新的测试样例，而我们的模型不需要重新训练以进行预测。我们检查了错误分类的情况，并发现它们通常是由以下原因造成的：•不正确的提取导致标题不准确、发布日期不正确等。•UGC页面，如在线视频页面、社交网络帖子和论坛页面。这些的影响要么是使用错误的文本作为特征，要么是没有足够的文本来进行良好的预测。07.2.3立场分类的性能。为了确保我们有足够的数据来训练模型，我们使用手动语料库中的4 k（事实核查文章，支持文档）对和3 . 1k（事实核查文章，相互矛盾的文档）对自动生成的，这些对是通过将来自事实核查文章的“虚假/大部分虚假”裁决的索赔与事实核查文章本身作为相关文档进行配对生成的。总体而言，我们有一个包含8,422对的标记数据集，其中57%是支持文档，43%是相互矛盾的文档。025 这个代码来自https://github.com/Cisco-Talos/fnc-1/0表3显示了我们的模型与几个基准模型的比较，我们在所有方法中获得了最高的准确率（91 .6%）。主要的比较是与DIIN模型[13]进行的，该模型在SNLI数据集[6]上实现了88 .9%的准确率。在我们的数据集中，我们没有任何中性关系的对，而SNLI数据集的三分之一是中性的。因此，为了公平比较，如果DIIN预测为中性，计算准确率时不计算该对。对于索赔-文档对（原始任务），DIIN的准确率为53 .8%。由于DIIN模型是为短文本对设计的，我们进一步清理了数据集，以最好地近似具有已知蕴含/矛盾关系的句子对：1）对于蕴含关系，我们从支持文档中选择与索赔最相似的句子（这可能包含错误，因为最相似的句子可能不蕴含索赔）；2）对于矛盾关系，我们从Snopes文章中选择（索赔，标题）对，因为我们知道它们直接相互矛盾。清理后的数据集有2,972个蕴含对和3,137个矛盾对。在所有6,109个对中，DIIN将4,446个预测为“中性”（这是错误的），将786个预测为“蕴含”（其中561个是正确的），将877个预测为“矛盾”（其中629个是正确的）。准确率为71 .6%（如果计算“中性”预测，则准确率下降到19%）。我们还将我们的方法与在我们的数据集上训练的FNC模型进行了比较，准确率为85 .0%。如果应用他们在FNC数据集上训练的模型，准确率会降至44 .3%（如果计算模型预测为“无关”或“讨论”的对，则准确率进一步下降至25 . 1%）。07.3案例研究07.3.1候选生成的覆盖范围。覆盖范围丧失的两个主要原因如下：查询构造不良：在某些情况下，文章标题或声称文本不能很好地概括被事实核查的内容，或者丢失了事实核查文章中的重要信息。

下载后可阅读完整内容，剩余1页未读，立即下载