基于外部知识的事实验证方法：CGAT框架的实验和比较

138 浏览量更新于2023-11-29 收藏 1.01MB PDF 举报

文本分析

语言模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

429基于证据的事实验证的外部知识补充Anab Maulana Barik新加坡国立大学计算机学院anabmaulana@u.nus.edu许永宁新加坡国立大学whsu@comp.nus.edu.sg数据科学研究所www.example.com李梦莉新加坡国立大学可信互联网和社区中心leeml@comp.nus.edu.sg摘要现有的事实验证方法采用预先训练的语言模型，如BERT，用于证据句子的上下文表示然而，这种表示没有考虑常识知识，并且这些方法通常得出结论，没有足够的信息来预测证据句子是否支持或反驳索赔在这项工作中，我们提出了一个框架称为CGAT，它结合了外部知识，从ConceptNet丰富的上下文表示的证据句子。我们采用图注意模型来传播证据句子之间的信息，然后预测索赔的准确性在FEVER数据集和UKP Snopes语料库上的实验结果表明，与现有的索赔验证方法相比，该方法具有更高的准确率和FEVER分数。CCS概念• 计算方法学→自然语言处理。关键词事实验证，知识图，语言模型ACM参考格式：Anab Maulana Barik，Wynne Hsu和Mong Li Lee。2022年为基于证据的事实验证提供外部知识。在网络会议2022（WWW '22同伴）的同伴程序，2022年4月25日至29日，虚拟活动，里昂，法国。ACM，New York，NY，USA，9页。https://doi.org/10.1145/3487553.35246221介绍互联网和社交媒体的进步使数字信息受到虚假信息的污染[20]。自然语言处理的研究试图通过预测一组证据句子是支持还是反驳一个主张来开发帮助验证信息的方法。例如，[15，17]中的作品使用语言推理BERT模型来验证给定证据语句的声明，而GEAR [25]和KGAT [12]使用图形注意力网络（GAT）进行预测。我们观察到，这些作品在索赔验证过程中没有利用常识知识，并且经常得出结论，本作品采用知识共享署名国际协议（ Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524622信息来验证声明。例如，在基准数据集中，有33.3%的索赔被KGAT认为没有足够的信息，其中28%被归类为索赔或驳回。通过进一步的研究，我们发现，对于这些主张中的许多句子实际上支持或反驳了这些主张，如下面的例子所示。例1. 考虑一对索赔和证据句子：c1：“广告牌爸爸是一部恐怖片”广告牌爸爸（电影）是1998年的美国直接视频喜剧电影。显然，这句话表明，广告牌爸爸是一个喜剧，而不是恐怖片，从而驳斥了索赔。然而，现有的作品会认为没有足够的信息，因为他们不知道“恐怖”和“喜剧”是反义词。实施例2. 考虑另一对索赔和证据句子：c2：“新泽西州卡姆登是一个大型人类定居点”S2：“卡姆登是新泽西州卡姆登县的一个城市我们看到这个主张得到了句子的支持，因为人类住区这个短语在语义上与城市有关。然而，现有的工作将得出结论，索赔没有足够的证据，因为他们不处理短语级语义。为了解决上述限制，我们提出了一个框架，称为CGAT（常识图注意力网络），将常识知识纳入索赔验证过程。具体来说，我们利用ConceptNet知识图[16]来捕捉各种单词和短语之间的关系。例如，“人类住区”一词与“城市”有关系。 CGAT有一个基于图形的编码器模块，用于将常识知识注入到从一些预先训练的语言模型（如BERT [7]和RoBERTa [11]）获得的表示中。此外，我们利用ConceptNet [16]的结构来构建短语级图，其中每个节点是可以在ConceptNet中找到的声明-句子对中的短语，并且如果ConceptNet中对应短语之间存在路径，则两个节点是连接的。该短语级图用于获得权利要求-句子对中的短语的表示所提出的框架有一个推理模块来传播信息之间的证据句子。这是通过构建一个全连接图来实现的，其中每个节点都是用来自编码器模块的索赔句子对的知识增强表示来初始化的。该图形成了对图注意力网络的输入，以细化表示。获得的最终表示用于对声明的标签进行分类，无论该声明是支持的、反驳的还是没有足够的信息。在实践中，许多证据句子都是从WWWAnab Maulana Barik、Wynne Hsu和Mong Li Lee430我的天≤≤[客户端][客户端]⟨⟩（）∈ {}web和可能是不相关的索赔，我们设计了一个目标函数，考虑的相关性的句子。在两个真实世界数据集上的实验表明，所提出的CGAT优于最先进的索赔验证方法，如GEAR，KGAT和DREAM。消融研究表明，引入外部常识知识有助于提高证据推理的准确性，促进证据推理过程。2相关工作关于事实验证的早期作品通常使用自然语言推理（NLI）[1]来分类证据句子是否需要，矛盾或相对于索赔是中立的[15，17]。随后的工作考虑多个证据句子，并使用基于图的模型来传播这些句子中的信息，以验证索赔。GEAR[25]使用BERT来获得索赔-句子对的表示，然后将其建模为全连通图。图注意力网络（GAT）[19]用于在图中的节点之间传播信息每个索赔证据的最终表示是从GAT的最后一个隐藏层获得的，以预测索赔标签。KGAT [12]采用BERT来获得声明证据句子对的标记级和令牌级表示，并使用GAT基于令牌级表示在相邻节点之间传播信息。为了提取令牌之间更丰富的交互，使用了基于内核的注意力技术[21]。将聚合的令牌级表示与索赔级表示组合以获得索赔预测的每个节点的最终表示。用更强的语言模型（如RoBERTa 或CorefRoBERT a[23]）替代BERT模型进一步提高了KGAT的性能。DREAM[24]使用语义角色标签[14]将证据句子分解为基于其语义角色（代理或谓词）的跨度，并构建语义图。 XLNet [22]用于提取跨度表示和图形卷积网络[9]用于在跨度之间传播信息，以预测索赔是否得到支持或反驳。Loren [2]和[6]中的工作采用不同的方法来验证声明。这些工作使用现成的命名实体识别工具来提取声明中的中心短语，并验证中心短语是否得到证据的支持KagNet[10]试图通过整合外部知识来填补问答中的知识缺口，以找到可以将问题中提到的概念与答案中的概念联系起来的路径。类似地，GapQA [8]利用ConceptNet来寻找核心事实和答案之间的关系。与上述工作不同的是，拟议的CGAT将常识纳入索赔验证过程。3拟议方法给定一个声明c和一组检索到的句子s1，s2，sN，目标是预测声明的准确性标签y标签可以是SUPPORT（支持）、REFUTE（拒绝）或NEI（信息不足）。图1概述了拟议的CGAT框架。该框架主要由知识编码模块和证据推理模块组成。编码器模块为每个声明-句子对c，s，n，1，n，N生成知识感知表示。这些表示被传递到推理模块以预测索赔标签y。我们将在下面的小节中讨论这些模块的细节3.1知识编码器模块该模块创建短语级表示，以便语义相关的两个短语具有相似的表示。图2示出了编码器模块如何处理声明语句对。我们首先从输入中连接声明语句对，如下所示：（[CLS]+c+[SEP]+Title+[SEP]+s+[SEP]）其中Title是获得句子s的文档的标题，CLS是标记声明-句子对的开始的特殊标记，SEP是分隔符。输出被传递到BERT以获得上下文表示B。然后我们用来自ConceptNet的常识知识来增强这种表示[16]。 ConceptNet [16]是一个语义网络，由一组三元组h，r，t组成，表示概念h和t之间存在语义关系r。对于每一个索赔句子对c，s>，我们构造一个图G短语其中V中的节点是短语pc，s。这个短语使用实体链接技术（如Matcher [5]）映射到ConceptNet中的某个概念节点具体地，概念网中的实体形成匹配器建立权利要求或句子中的短语与概念网中的实体之间的映射的基础。如果一个短语在c或s中出现多次，那么我们为短语的每次出现创建一个节点。对于G短语中的一对节点vi和vj，如果在ConceptNet中存在链接vi和vj中的对应短语的k跳路径，则创建边。例如，对于短语“Camden”，我们有两个节点，即Camden c和Camden s，它们分别表示该短语源自权利要求c和证据s（参见图2）。节点Camden c和节点NewJersey c之间的边描述了语义关系relatedTo。注意，具有相同短语的两个节点具有描绘关系的边是相同的。如果有多条路径，我们将选择最短的路径[3]。为了打破长度最短的路径之间的联系，我们将选择关系出现频率最低的路径。例如，假设ConceptNet中有两条连接轮胎和汽车的路径：（tire→RelatedTo→car）（tire →PartOf→car）我们将选择第二条路径，因为关系PartOf只在ConceptNet中的0.3%的关系中出现，而RelatedTo的出现率为66%。通过这种方式，我们的目标是捕捉两个概念之间更具代表性的关系。我们使用BERT表示初始化G短语中的节点如果节点中的短语由多个单词组成，例如“human settlement”，然后我们对单个单词的表示进行平均汇集，即“human”和“settlement”。对于G短语中的每条边，我们用概念网中对应关系的BERT表示来初始化它。如果一条边描述了ConceptNet中的k跳路径，那么我们将路径中k个关系的BERT表示基于证据的事实验证的外部知识补充WWW431图1：CGAT概述图2：知识编码器模块的流水线WWWAnab Maulana Barik、Wynne Hsu和Mong Li Lee432.×∈是v的节点表示在最后一个晚上。然后我sim（Hsi，Hsj）（2）图3：证据推理模块的流水线在构建G短语图之后，我们使用Graph Atten-基于共同注意力计算短语级注意力权重wi→j概念网络（GAT）[19]来学习Gi和Gj中节点对之间visine相似性的节点表示考虑到来自邻域的边缘关系，五岛设Ni是vi邻域内的节点集，hl其中第p个条目wi→j由下式给出：短语短语我层l+1处的Vi的节点表示由下式给出pqJ短语hl +1 = σ（.αij W1hl + W2eij）（1）在应用之前，我们使用softmax函数对wi→j进行Ijv∈N它对表示Hsi进行加权。那么这些信息从节点i传播到j的j i由下式给出其中σ是激活函数，αij是vj对vi的重要性，W1和W2是线性变换的d d权重矩阵，d是BERT表示的维数，并且eij是BERTzi→j =Hsj[CLS]其中，n表示级联。◦ （wi→j·Hsi）（3）从vi到vj的边的表示。声明语句c，s>的最终表示是最后一层中节点表示的连接，表示为传播的信息由事件级注意力βi→j加权，其计算如下：βi→j =W3·（zi→j）T（4）作为Hs R1×d。我们更新的BERT CLS表示的con-[001 pdf 1st-31 files]将[CLS]令牌与所有其中W3∈R1×2d表示线性变换的权矩阵在将其传递到线性层之前，（zi→j）T是zi→j的转置。表示为Hs[CLS] ∈R1×d.我们使用softmax函数将βi→j值映射到范围[0，1]。有了这个，我们就可以约会了。将Hsj的代表提交给：3.2证据推理模块该模块将所有索赔的最终表示作为输入Hsj=i∈Ge恒等式βi→j·zi→j（5）句子对来构造证据图G证据，其中每个节点是声明句子对，并且节点彼此连接，使其成为全连接图（参见图3）。G证据中的每个节点i都用其声明语句对的最终表示H s i初始化。再次，我们采用图注意力网络（GAT）的证据图中的节点之间的G证据传播信息。假设我们有两个节点i和j描述索赔句对c，si>和c，sj>以及它们的最终表示Hsi和3.3索赔准确性分类最后，我们使用按元素的max操作聚合所有更新的表示，如[25]所做o=元素最大值（H=1，...，（6）第100名结果o通过具有三个输出节点（每个标签一个）的线性层，然后通过softmax获得SUPPORT，REFUTE或NEI（信息不足）的概率。具有最高概率的输出被分配为q∈G和Gwi→j[p]=WWWAnab Maulana Barik、Wynne Hsu和Mong Li Lee433短语由短语图Gi得到的HsjJ短语. 我们索赔。基于证据的事实验证的外部知识补充WWW434..我们通过最小化目标函数来训练CGATL=L类+L相关性（7）第一分量L类使用多类交叉熵来获得分类精度：L类=cross_entropy（y_n，y）（8）其中，y是声明的地面真实准确性，y是预测的准确性标签。第二分量L相关性使用二进制交叉熵来确定每个句子与声明的相关性我们使用余弦相似度来计算每个句子si与声明c的相关性得分：其中短语c和短语si是权利要求c和句子中的短语，Si分别。令r表示相关性分数的向量，其中第i个条目是ri。我们将S形函数应用于r，使得每个ri∈[0，1]，1≤i≤N。然后我们有L相关性=binary_cross_entropy（r_x，r）（10）其中，r是二进制向量，其中，如果对应的句子是用于支持或反驳数据集中的声明的给定证据，则条目为1，否则为0。4实验在本节中，我们报告的实验结果，以评估所提出的方法的有效性。建议的CGAT框架使用PyTorch实现[13]。我们在实验中使用(1) 发热[18]。这是一个基准事实验证数据集，由基于维基百科文章创建的185，445个声明组成。这些权利要求已被注释为“不完整”、“不完整”或“信息不足”（NEI）。该数据集还列出了与核实每项索赔有关的证据。(2) UKPSnopes Corpus [4]该数据集来自Snopes事实核查网站，包含5824项权利要求1。这些从不同网络来源创建的声明已被归类为支持者、拒绝者或信息不足。然而，一些被标记为反驳或反驳的主张没有相关的证据句子。因此，我们过滤掉这些索赔并获得3920个索赔的清理数据集。我们采用BERTbase [7]和RoBERTala дe[11]作为预训练的语言模型，序列的最大长度设置为130，如[12]中所做。我们使用ConceptNet中的2跳路径构建G短语，因为这足以在两个实体之间传播信息，换句话说，我们设置k = 2。编码器模块中的GAT层的数量被设置为2。隐藏的大小设置为768在BERT基地和1024ROBERTar дe，与预训练的语言模型的维度相同。我们使用Adam优化器训练模型，批量大小为4，学习率为2 e-5，在FEVER数据集上有2个epoch，在UKP Snopes Corpus上有50个epoch。1虽然网站声明有6422项索赔，但下载的文件只有5824项索赔我们对FEVER数据集使用两个标准评估指标，即标签准确性和FEVER评分。标签准确性度量声明准确性标签的正确性，而不考虑检索到的证据的相关性。 FEVER评分仅使用相关证据集来衡量声明真实性标签的正确性。对于UKP Snopes语料库，没有FEVER评分，因为数据集没有注释检索到的证据是否相关。除了标签准确率，我们还测量召回率和F1分数。我们记录五次运行结果的平均值和标准差。4.1比较研究我们将CGAT与以下方法进行比较[25]第二十五话该方法首先利用BERT算法获得每一个索赔句对的表示形式，然后利用GAT注意机制对证据进行聚合，最后给出预测结果。KGAT [12]. 这个版本的KGAT在使用细粒度的KernelGAT来聚合索赔预测的证据之前，使用Robertala dee来获得索赔-句子对表示。[24]第二十四话该方法使用语义角色标注将句子分块为词/短语并构造语义图。然后，它使用XLNet来获得单词/短语的上下文表示，并使用图卷积网络来传播信息。这些信息在最终预测之前由GAT聚合。表1显示了FEVER测试集上各种方法的标签准确度和FEVER评分。我们看到，尽管CGAT具有与DREAM相当的标签准确性，但它获得了最高的FEVER分数，这表明使用来自ConceptNet的常识知识来增强证据句子可以提高CGAT的推断能力。表2显示了原始和清理后的UKP Snopes数据集的结果。我们观察到，CGAT优于其他方法的所有指标的大幅度，表明其鲁棒性。在KGAT错误分类为“信息不足”的声明中，CGAT_RoBERTa能够利用ConceptNet填补声明和证据语句之间的知识差距，并正确地将清理后的UKP Snopes数据集中的56%声明和FEVER测试集中的25%声明重新分类为支持或拒绝。4.2消融研究我们在FEVER开发套件和UKP Snopes清洁套件上使用轻量级CGAT_BERT模型进行消融研究。我们实现CGAT_BERT的以下变体(1) 没有证据推理的CGAT_BERT 此变体仅使用知识编码器模块并跳过证据推理模块。为了获得每个标签的概率，该模型对来自知识编码器模块的所有[CLS]表示执行逐元素最大池化，结果通过具有三个输出节点的线性层，然后是softmax。(2) CGAT_BERT不带ConceptNet。该变体跳过G短语图的构造，并使用预训练的BERT语言模型来初始化G证据中的节点。···WWWAnab Maulana Barik、Wynne Hsu和Mong Li Lee435→ → →→表1：发热数据集的结果模型开发集测试集标签准确度发热评分标签准确度发热评分齿轮74.8470.6971.6067.10KGAT78.6976.1174.0770.38梦想--76.8570.60CGAT_BERT78.0876.0873.2970.05公司简介80.6478.4676.3973.15表2：UKP Snopes数据集的结果模型原始清洁标签准确度召回F1标签准确度召回F1齿轮62.43±059.29±051.35±075.89±066.6±064.52±0KGAT68.77±0.9465.86±1.7962.05±1.6981.84±1.2873.43±0.9372.65±2.49梦想67.84±1.7766.21±1.0963.89±0.8782.04±0.6277.15±1.1477.67±1.04CGAT_BERT70.82±0.7471.92±0.4670.08±0.6584.99±1.3381.11±1.0381.74±0.97公司简介73.94± 0.4677.21±0.8074.77±0.4786.70± 1.4786.88±0.7985.92±0.65表3：消融研究结果模型FEVER开发套件UKP Snopes清洁套装标签准确度发热评分标签准确度召回F1无证据推理的77.21±0.6475.18±0.6582.06±1.4379.00±1.4779.05±0.33CGAT_BERT（无ConceptNet）77.61±0.4075.59±0.3882.37±1.3179.06±1.1379.56±0.14无相关性损失的78.00±0.0675.81±0.1184.34±1.2180.66±0.4181.23±0.81CGAT_BERT78.05± 0.0576.03± 0.0784.99± 1.3381.11±1.0381.74±0.97(3) CGAT_BERT没有相关性损失。这里，CGAT模型是使用训练目标函数中的交叉熵损失来训练的。表3显示了消融结果。对于FEVER开发集，我们观察到标签准确性下降，并且当CGAT不包含证据推理模块时，FEVER评分最大，表明该模块在验证过程中的重要性。其次是CGAT，没有来自ConceptNet的外部知识。当我们在目标函数中不包括相关性损失时，性能的下降是最小的。在UKP Snopes Cleaned数据集上也观察到了类似的趋势4.3案例研究在本节中，我们重点介绍了FEVER和UKP Snopes中的一些示例声明，以表明结合来自ConceptNet的知识使CGAT能够通过填补声明和证据句子之间的知识差距来做出正确的4.3.1正确预测发热索赔。表4中的权利要求C1和C2被KGAT预测为没有足够的信息（NEI），而建议的CGAT能够提供正确的预测。对于权利要求C1，ConceptNet具有路径（地球人→形式 →反义词 →外星人）表示权利要求中的“地球人”与句子S1中的“外国人”之间的反义词关系。这丰富了他们相应的BERT表示作为构建的G短语图，考虑到边关系反义词，提供上下文信息。再加上S1与索赔的相关性相对较高，CGAT能够得出结论，驳回索赔C1。对于权利要求C2，概念网有“国际组织”和“联合国”的短语。这使得CGAT能够为这些短语创建节点，而不是为单个单词创建节点。更进一步，有一条路（United Nations IsA world organizationSynonyminternational organization）表示两个短语之间的关系。有了这个，CGAT能够推断S1和S2支持声明，并正确标记C2的真实性。4.3.2在UKP Snopes中正确预测索赔同样，表5中的C3和C4被正确地预测为被CGAT驳回，因为ConceptNet中的以下路径连接了“两个”、“妻子”、“一夫多妻制”和“婚姻”以及“杀害”、“埋葬”和“处决”：• （polygamy→IsA →marriage →RelatedTo→two）（polygamy →RelatedTo →marry→wives）（polygamous→RelatedTo →polygamy →IsA→marriage）（polygamous →RelatedTo→monogamous）（妻子→IsA→配偶）（移民→反义词 →公民）基于证据的事实验证的外部知识补充WWW436表4：CGAT正确预测的发热声明样本括号中的值描述了相关性分数。权利要求证据预测C1珍珠（史蒂芬宇宙）是一个虚构的地球人。珍珠是一颗“宝石”，一个虚构的外星生物，作为一颗投射全息身体的魔法宝石而（0.45）S2：Pearl是2013年动画系列Steven Universe中的一个虚构角色，由Rebecca Sugar创作（0.31）S3：她被描绘成一个充满爱心，温柔和细腻的角色，扮演史蒂文的母亲角色（0.06）学生4：然而，她也倾向于对他过度保护，自尊心很低。（0.04）S5：这是一个名叫Steven Universe的小男孩的成年故事，他住在虚构的海滩城小镇，拥有“水晶宝石”珍珠，石榴石和紫水晶，三个（0.12）Ground truth：REFUTESKGAT：NEICGAT without Concept-Net：NEICGAT：难民C2乌克兰苏维埃社会主义共和国是一个国际组织。S1：乌克兰苏维埃社会主义共和国是联合国的创始成员国，尽管它在与苏联以外国家的事务（0.45）联合国LRB是一个促进国际合作、建立和维护国际秩序的政府间组织。（0.31）学生3：乌克兰从1922年成立到1991年解体，（0.06）S4 ：乌克兰苏维埃社会主义共和国（ Ukrainian SSR 或UkrSSR或UkSSR ），通常在英语中称为UkraineLRB LSB。RSB。（0.04）S5：乌克兰苏维埃社会主义共和国位于黑海以北的东欧，与苏联的摩尔达维亚共和国、白俄罗斯共和国和俄罗斯苏维埃联邦社会主义共和国接壤（0.12）基本事实：KGAT：NEICGAT without Concept-Net：NEICGAT：运输公司• （killing→HasLastSubEvent →death→execution）（burying →RelatedTo →killing）（埋葬→谋杀 →处决）4.3.3错误预测索赔。表6给出了KGAT和CGAT都做出错误预测的两个样本声明。声明C5来自FEVER数据集，而C6来自UKSnopes。 KGAT专注于令牌级表示。尽管叙利亚与伊朗不同，但KGAT仍然推断，由于声明和证据句子之间存在大量重叠标记，因此支持声明C5 。另一方面，CGAT 认识到，考虑到ConceptNet中的路径，叙利亚和伊朗之间存在关系：（叙利亚→部分国家 →亚洲 →相关国家 →伊朗）然而，在这种背景下，伊朗和叙利亚这两个国家在同一个大陆上的一般知识是没有帮助的，并导致错误的结论。关于C6索赔，我们看到，KGAT和CGAT都认为没有足够的资料。在令牌级别，没有重叠的单词。此外，概念网不包含短语“用叉子刺穿”和“叉子穿过鼻子”，因为这些短语不常见，导致错误的预测。5结论我们已经提出了一个框架，称为CGAT，将外部知识的证据为基础的事实验证过程。我们利用ConceptNet中的关系和结构来丰富声明和证据句子的短语级表示在此基础上，我们构造了一个证据图，并利用图注意力网络在证据句之间传播信息，然后预测索赔的准确性。我们还在目标函数中引入了相关损失分量，以处理与索赔具有不同程度匹配的证据。基准数据集上的实验结果表明，CGAT的有效性，以提高标签的准确性和最先进的索赔验证方法的FEVER分数。尽管我们提出的方法的优点，仍然有改进的空间，如案例研究所示今后的工作包括研究如何在核查过程中考虑到地理和时间信息WWWAnab Maulana Barik、Wynne Hsu和Mong Li Lee437表5：CGAT正确预测的UK Snopes中的样本声明括号中的值描述了相关性分数。权利要求证据预测C3加拿大移民与两个妻子在抵达时获得一系列S1：一夫多妻制在加拿大是非法的，因此，多个三...根据加拿大的移民法，移民是不被承认的。（0.25）S2：这意味着永久居民或加拿大公民在解除其他婚姻以将其一夫多妻制婚姻“转换”为一夫一妻制婚姻之后，只能与一方配偶一起移民（0.24）答复3：加拿大移民、难民和公民部建议联合国难民署，不应将一夫多妻婚姻转送加拿大重新安置。（0.24）S4：IRCC官员还根据加拿大移民法，包括一夫一妻制婚姻要求，评估私人赞助的难民案件（0.25）Ground truth：KGAT：不CGAT without Concept-Net：NEICGAT：难民C4美国约翰·J将军潘兴通过杀死他们并将他们的尸体与猪一起埋葬，有效地阻止了菲律宾的穆斯林恐怖分子学生1：但这个故事不是真的。（0.003）学生2：没有潘兴领导的大规模处决（0.86）S3：那是网上的谣言。（0.13）学生4：《论坛报》的文章说，潘兴把猪血洒在一些囚犯身上（0.006）学生5：但是后来潘兴把囚犯放了。（0.001）Ground truth：KGAT：拒绝CGAT without Concept-Net：REFUTESCGAT：难民表6：CGAT错误预测的索赔样本括号中的值描述了相关性分数。权利要求证据预测C5真主党获得财政援助叙利亚的支持。S1：真主党接受军事训练、武器和财政援助。伊朗的支持和叙利亚的政治支持（0.72）S2：真主党是由穆斯林神职人员构想的，由伊朗资助，主要是为了骚扰以色列的占领。（0.26）S3：自2012年以来，真主党在叙利亚内战期间帮助叙利亚政府打击叙利亚反对派，真主党将其描述为犹太复国主义阴谋和（0.05）S4 ：真主党在黎巴嫩什叶派人口中保持着强有力的支持（0.03）S5：1982年以色列为支持自由黎巴嫩国入侵黎巴嫩后，以色列占领了黎巴嫩南部的一个狭长地带，该地带由以色列支持的黎巴嫩基督教民兵南黎巴嫩军LRB SLA RRB控制。（0.01）Ground truth：KGAT：KGATCGAT without Concept-Net：中国CGAT：运输公司C6照片显示一个男孩他的鼻子被叉子叉住了学生1：当服务员把他从桌子底下抱起来时，叉子穿过鼻子。（0.47）S2：一张照片来自急诊室，另一张照片是两天后在家里拍的。（0.53）Ground truth：KGAT：不CGAT without Concept-Net：NEICGAT：NEI基于证据的事实验证的外部知识补充WWW438引用[1] Samuel Bowman ， Gabor Angeli ， Christopher Potts ， and Christopher DManning. 2015. 用于学习自然语言推理的大型注释语料库2015年自然语言处理经验方法会议论文集。632-642[2] Jiangjie Chen ， Qiaoben Bao ， Jiaze Chen ， Changzhi Sun ， Hao Zhou ，Yanghua Xiao，and Lei Li.2020年。LOREN：用于事实验证的逻辑增强神经推理arXiv预印本arXiv：2012.13577（2020）。[3] KshitijFadnis ， Kartik Talamadupula ， Pavan Kapanipathi ， HaqueIshfaq，SalimRoukos，and Mr. Fokoue. 2019.基于路径的知识图语境化文本蕴涵。（2019年）。[4] Andreas Hanselowski ， Christian Stab ， Claudia Schulz ， Zile Li 和 IrynaGurevych。2019. 自动事实核查中不同任务的丰富注释语料在第23届计算自然语言学习会议（CoNLL）上。493-503.[5] 马修·霍尼博和伊内斯·蒙塔尼2017年。 spaCy 2：使用Bloom嵌入、卷积神经网络和增量解析的自然语言理解。（2017年）。出现。[6] Mayank Jobanputra。2019.用于事实核查的无监督问题搜索。EMNLP 2019（2019），52.[7] Jacob Devlin Ming-Wei Chang Chung和Lee Kristina Toutanova。2019年。BERT：Deep Bidirectional Transformers for Language Understanding的预训练。在NAACL-HLT的会议记录中。4171-4186[8] Tushar Khot，Ashish Sabharwal，和Peter Clark。2019年。缺少什么：多跳问题分类的知识差距引导方法。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议记录中。计算语言学学会，中国香港，2814- 2828。https://doi.org/10.18653/v1/D19-1281[9] Thomas N Kipf和Max Welling。2016年。图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907（2016）。[10] Bill Yuchen Lin，Xinyue Chen，Jamin Chen，and Xiang Ren.2019年。K a g N e t ：用于常识推理的知识感知图网络。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）上。计算语言学学会，中国香港，2829-2839。https://doi.org/10.18653/v1/D19-1282[11] YinhanLiu ， Myle Ott ， Naman Goyal ， Jingfei Du ， Mandar Joshi ， DanqiChen，OmerLevy，Mike Lewis，Luke Zettlemoyer，and Veselin Stoyanov.2019年。Roberta：一种鲁棒优化的bert预训练方法。（2019年）。[12] Zhenghao Liu，Chenyan Xiong，Maosong Sun，and Zhiyuan Liu.2020年。基于核图注意力网络的细粒度事实验证。在计算语言学协会第58届年会上。7342[13] AdamPaszke，Sam Gross，Francisco Massa，Adam Lerer，James Bradbury，Gregory Chanan，Trevor Killeen，Zeming Lin，Natalia Gimelshein，Luca Antiga，et al. 2019. PyTorch：一个命令式风格的高性能深度学习库。第33届神经信息处理系统国际会议论文集。8026-8037[14] 施鹏和林志颖2019年。用于关系抽取和语义角色标注的简单bert模型。arXiv预印本arXiv：1904.05255（2019）。[15] A Soleimani，C Monz和M Worring。2020年。 BERT用于证据检索和索赔验证。Advances in Information Retrieval12036（2020），359[16] 罗宾·斯皮尔乔舒亚·陈凯瑟琳·哈瓦西2017年。 Conceptnet 5.5：一个开放的多语言通用知识图。第31届AAAI人工智能会议。[17] 多米尼克·斯坦巴赫和冈特·诺伊曼。2019年。DOMLIN团队：为FEVER共享任务开发证据增强第二届事实提取与验证研讨会（FEVER）105比109[18] James Thorne，Andreas Vlachos，Christodoulopoulos，and Arpit Mittal. 2018.FEVER：用于事实提取和验证的大规模数据集在计算语言学协会北美分会2018年会议论文集：人类语言技术，第1卷（长文）。809-819[19] Petar Veličković，Guillem Cucurull，Arantxa Casanova ，Adriana Romero ，PietroLijiang，and YoonyBengio. 2018年图注意力网络。在学习表征国际会议上。[20] Soroush Vosoughi，Deb Roy和Sinan Aral。2018年真实和虚假新闻在网上的传播。Science359，6380（2018），1146[21] Chenyan Xiong ， Zhuyun Dai ， Jamie Callan ， Zhiyuan Liu ， and RussellPower.2017年。端到端神经ad-hoc ranking with kernel pooling。在第40届国际ACM SIGIR会议上，信息检索的研究和发展。55比64[22] ZhilinYang ， Zihang Dai ， Yiming Yang ， Jaime Carbonell ， Russ RSalakhutdinov，and Quoc V Le. 2019. Xlnet：用于语言理解的广义自回归预训练。神经信息处理系统的进展32（2019）。[23] DemingYe，Yankai Lin，Jiaju Du，Zhenghao Liu，Peng Li，MaosongSun，and Zhiyuan Liu. 2020年。语言表征的共指推理学习。2020年自然语言处理经验方法会议（EMNLP）论文集。7170-7186。[24] Wanjun Zhong，Jingjing Xu，Duyu Tang，Zenan Xu，Nan Duan，Ming Zhou，Jiahai Wang，and Jian Yin.2020年。基于语义级图的事实核查推理在计算语言学协会第58届年会上。6170-6180。[25] JieZhou ， Xu Han ， Cheng Yang ， Zhiyuan Liu ， Lifeng Wang ，Changcheng Li ， andMaosong Sun. 2019. GEAR ： Graph-based EvidenceAggregating and Reasoning for Fact Verification基于图的证据聚合和推理。在计算语言学协会第5

下载后可阅读完整内容，剩余1页未读，立即下载