没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文DialFact:对话Prakhar Gupta<$,Chien-Sheng WuXiang,Wenhao LiuXiang,Caiming Xiang,卡内基梅隆大学语言技术学院<$Salesforce AI研究院prakharg@cmu.edu,{wu.jason,wenhao.liu,cxiong}@salesforce.com摘要事实核查是减少错误信息和虚假信息传播的重要工具。我们介绍了对话中的事实核查任务,这是一个相对未探索的领域。我们构建了DIALFACT,这是一个测试基准数据集,包含22,245个带注释的会话声明,并与维基百科的证据配对DIALFACT中有三个子任务:1)可验证的声明检测任务区分响应是否携带可验证的事实信息; 2)证据检索任务检索最相关的维基百科片段作为证据; 3)声明验证任务预测对话响应被支持、被拒绝或没有足够的信息。我们发现,现有的事实检查模型是在非对话数据(如FEVER)上训练的(Thorne et al. ,2018年)未能很好地执行我们的任务,因此,我们提出了一个简单而有效的数据解决方案,以有效地提高对话中的事实检查性能。我们指出了DIAL FACT中的独特挑战,例如在错误分析中处理口语化,共指和检索歧义,以阐明未来在这个方向上的研究。1介绍网上的错误信息可能对我们的社会造成有害后果,尤其是在COVID-19大流行等公共卫生危机期间。错误和过时的信息不仅可以由人类传播,而且可以由自动代理传播,因为生成模型最近已经显示出显着的进步(Adiwardana等人 , 2009 年 ) 。 , 2020; Xu et al. , 2021年)。这些系统并不完美,因为它们可以生成幻觉和不完美的信息,或者它们可以被滥用以自动生成虚假声明并大规模传播错误信息。因此,在当前的信息时代,有必要使用事实核查工具来解决传播错误信息的问题。1数据和代码可以在https://github上找到。com/salesforce/DialFact对话背景:我在爱尔兰有家人!你去过那里吗证据:爱尔兰是北大西洋的一个岛屿。无法证实的回答:我可验证支持响应:我它是北大西洋的一个岛屿,对吗?可验证的反驳回应:我可验证的NEI回应:我我听说它图一:对话事实核查包括预测一个回应是否应该被视为可验证的声明,然后找到相关证据,最后预测它是支持的,不支持的还是NEI的。Wang(2017); Thorne et al. (2018年),从那时起,越来越多的研究探索并提出了各种任务和资源,以应对这一领域的挑战。事实核查已经在诸如维基百科段落、表格、社交媒体和新闻文章等媒介中进行了探索(Guo etal. ,2021; Bekoulis et al. ,2021年)。在对话领域,相关的工作要么集中在评估事实的一致性(Honovichet al. ,2021; Qin et al. ,2021)或 一 致 的响 应 生 成 ( Rashkin et al. , 2021;Shuster et al. ,2021年)。然而,由于缺乏公开的基准,在对话领域对事实核查的探索仍然不足在对话中,声明的事实正确性对数据集的构建和建模都提出了新的挑战。现有数据集中的声明来自正式来源,如新闻文章,它们通常是简洁和正式的。与此相反,对话中的主张往往是非正式的,事实内容很少此外,对话话语通常包括个人观点、俚语和俗语,这些需要与事实信息区分开。对话事实核查的另一个挑战是省略和共指频繁出现,这使得话语不完整和模糊(DeVault和Stone,2007)。虽然人类可以很容易地理解话语与参考-arXiv:2110.08222v2 [cs.CL] 2022年3月+v:mala2277获取更多论文--事实检查系统可能需要明确地对这种行为进行我们在对话中引入了事实检查的任务,并提出了一个评估数据集,DIAL- FACT。示例如图1所示。DI-ALFACT有三个子任务:1)可验证的声明检测旨在区分不包含可验证的事实信息的响应在图1中2)证据检索包括从维基百科中选择最相关的知识片段,这些片段可以验证响应。3)声明验证的目的是分类,如果一个响应是支持,反驳,或没有足够的信息来验证给出的响应对话历史和检索到的证据。DIAL F ACT包括基于维基百科向导的人类书面和机器生成的声明(Dinan et al. ,2019)对话数据集。来自维基百科的每个响应声明及其证据句子都由人群工作人员进行注释,我们对注释进行严格的质量检查。对于事实验证,我们提出了弱监督训练数据的杠杆老化技术,如否定,实体交换,语言模型掩码和填充,知识为基础的生成。我们建立基线模型在这项任务上的表现,并指出事实检查模型的弱点。我们的分析表明,这是一个不平凡的任务,挑战仍然是- ING为未来的工作。我们希望未来的工作可以利用该数据集作为事实检查基准或用于开发自动一致性度量,并推进基于知识的对话生成和评估的最新技术2相关工作事 实 核 查 网 上 虚 假 信 息 的 传 播 索 恩 等 人(2018)和随后的作品(陈文虎等)。,2020;Jiangetal.,2020;NørregaardandDerczynski,2021; Aly et al. ,2021年)介绍了事实提取和验证数据集可验证的证据从维基百科的文章。事实核查已经在各种媒体中进行了探索,如基于维基百科的声明(Schuster等人,2021),索赔表(Aly et al. ,2021),科学声明(Wadden et al. ,2020年),以及社会媒体索赔(Nakov et al. ,2021年)。然而,对话中的事实核查仍然是一个探索不足的领域。Kim等人。(2021)探索了事实核查,口语化声明,通过将FEVER声明转换为口语化风格来策划。虽然与我们的工作密切相关,但口语索赔不是对话数据集,仅包含可验证的索赔,并且没有索赔的对话上下文。另一方面,在DIAL FACT中,证据检索和声明验证都更具挑战性,因为它们需要解决对话背景中的歧义和共指。对话的一致性基于维基百科等知识来源的神经对话系统(Dinan et al. ,2019),知识图谱(Wu et al. , 2019) 或 来 自 互 联 网 的片段(Komeili et al. 2021年),近年来引起了人们的兴趣。尽管产生了合理的和令人信服的反应,现有的模型仍然产生了无效信息的幻觉(Roller et al. ,2021年)。因此,确保对话响应生成的安全性和一致性是一个积极探索的领域(Rashkin et al. ,2021; Shuster et al. ,2021年)。最近的一些工作提出了评估指标和基准的 事 实 一 致 性 知 识 为 基 础 的 响 应 生 成(Honovich等人。,2021; Dabeiet al. ,2021年)。相反,我们的工作重点是在对话中对人类和机器生成的响应进行事实检查,并涉及可验证的索赔检测和证据检索的额外合成数据集合成数据集构建已被证明可以提高评估模型的鲁 棒 性 ( Gupta et al. , 2021;Ghazarian等人,2021),并提高测试集的复杂性(Sakaguchiet al. ,2021; Feng et al. ,2021年)。合成索赔已在事实核查中进行了探索,以创建硬测试集。FEVER 2.0断路器阶段的几名参与者(Niewinski et al. ,2019; Hidey等人,2020; Atanasova et al. ,2020)提出了自动生成对抗性索赔的方法。最近,Jiang et al.(2020)使用单词替换创建了复杂的多跳声明,Saakyan et al. (2021)使用基于Bert的标记填充来创建被反驳的声明,Schuster等人(2021)创建了对维基百科句子的合成修订,以提高事实检查的鲁棒性。我们的工作还介绍了在对话事实核查的背景下创建合成声明的技术3任务背景假 设 会 话 上 下 文 由 一 个 话语列 表 C=u1 ,u2,.,联合国任务是对最后一句话进行事实核查。+v:mala2277获取更多论文对话UN,此后称为权利要求C。在对话中核查事实是一个由几个步骤组成的管道首先,系统需要决定响应是可验证的还是NON-可验证的。我们对它们的定义如下:NON-VERIFIABLE:该声明不包含可验证的事实信息。它包括带有个人意见或个人信息的声明。VER-IFIABLE:声明包含至少一个事实信息,可以通过背景语料库(本任务中为维基百科)进行验证接下来,系统应该从背景语料库中检索文档,并从文档中选择相关的证据句子最后,系统应该预测索赔是否属于以下三种类型之一:SUPPORTED(支持):响应包含根据证据有效的事实信息。反驳:回答中包含的事实信息与证 据 相 比 是 无 效 的 。 NOTENOUGH IN-FORMATION(NEI):回答包含无法用证据验证(支持或反驳)的事实信息。VERIFIABLE 声 明 可 以 是 SUPPORTED 、 RE-FUTED 或 NEI , 而 NON-VERIFIABLE 声 明 总 是NEI。 我们利用维基百科向导(WoW)数据集(Dinan et al. ,2019年)作为构建此任务的基础。WoW是一个基于知识的开放领域对话数据集,其中有两个说话者之间的对话-一个可以访问背景维基百科文档以提供知识携带响应的向导,以及一个扮演好奇学习者角色对于每个回合ui,向导被示出从维基百科检索的一组文章Ki向导或者从集合Ki中选择一个相关知识句子Ki,或者选择一个不使用句子选项来构建响应。对于我们的事实核查任务,我们还需要属于REFUTED和NEI类别的声明。接下来,我们将描述用于从WoW数据集的有效和测试分割创建声明的方法。4数据集构建和注释我们使用两种方法来创建针对DIAL FACT的声明响应:1)自动生成的声明,以及2)人类书面声明,以分别模拟由对话系统和人类创建的声明。所有声明都由亚马逊土耳其机器人(Mturk)上的人群工作人员进一步注释。4.1自动生成的索赔在这种方法中,我们使用自动方法来创建所有类别的声明,无论是从头开始还是通过改变WoW数据集中的响应。4.1.1索赔生成否定我们使用Thorne等人的42个基于规则的变换。(2019),其适用于权利要求的动词短语,以通过添加如“not”或“no”的词将它们转换为它们的否定版本。它通常会创建REFUTED索赔。替换我们执行三种类型的替换:对于1)基于上下文和知识的实体替换,我们首先对来自WoW的响应ui运行SpaCy NER标记(Honnibal和Montani,2017然后,我们将响应ui中的实体与来自其会话上下文C或其背景知识文章集Ki的实体交换。一个实体只有在它出现在ki(原始知识句子)中时才被交换,实体在其类型内交换。对于2)基于意义的替换,我们将ui中的实体与从sense2vec返回的具有类似“意义”的实体交换(Trask et al. ,2015)库。对于3 ) 形 容 词 替 换 , 我 们 用 他 们 的 WordNet(Miller,1998)反义词替换声明中的形容词(忽略与情绪相关的形容词,如这些操作通常会产生REFUTED索赔。屏蔽和填充该方法分两个阶段生成声明:1)屏蔽原始声明中的突出词,以及2)使用语言模型将这些词替换为为了掩盖原始响应声明中的 突 出 词 , 我 们 遵 循 Thorne 和 Vlachos(2021)的程序,并使用Shah等人的中性掩蔽模型。它预测在掩蔽时可能导致从SUPPORTED到NEI的标签翻转的标记。对于步骤2),我们首先训练基于T5的模型(Raffel et al. ,2020年)在WoW数据集上进行填充以证据句子为条件的掩码令牌的任务。对于训练,输入序列由级联的证据句子ki、对话上下文C和在随机位置处具有掩蔽跨度的gold响应组成,并且输出是gold响应。因此,该模型被训练为基于所提供的证据和对话上下文来填充掩蔽的响应。为了生成属于RE-FUTED或NEI类别的响应声明,我们使用以下+v:mala2277获取更多论文--用于调节填充的证据句子的类型:a)空证据,b)从属于原始响应的知识文章集合Ki中随机选择的证据句子,以及c)来自使用sense2vec基于其与原始响应中的实体的相似性检索以这种证据为条件,导致提出的索赔的事实细节与原始证据不符。我 们 微 调 了 最 好 的聊 天 对 话 系 统 之 一 ,Blenderbot模型 (Roller et al. ,2021), 在WoW数据集上。该模型以知识句子ki和对话上下文C的连接作为输入,并训练它来预测黄金响应的令牌为了生成新的响应声明,我们将模型设置在Mask-and-Fill方法中描述的三种类型的证据上。 我们使用高温(1.5)和原子核取样(Holtzman et al. ,2020),其中p= 0。9,以鼓励模型在响应中生成意外和非上下文最终声明集创建我们的目标是创建一个具有挑战性和多样性的对话事实检查测试集。使用上述索赔生成方法,我们得到一个集合Rc=r1,r2,.,针对对话上下文C的响应声明的r k。为了选择最后一组声明,我们首先删除与Rc中的其他响应没有至少3个单词不同的任何响应,然后过滤出GPT-2(Radford et al. ,2019年)的困惑得分高于1.1倍的平均困惑得分的反应在R c。然后,我们使用与我们的任务相关的现有最先进的模型对响应声明进行评分:即对话NLI(Welleck et al. ,2019)、对话矛盾检测(Nie et al. ,2021)、基于FEVER的事实验证(Schuster et al. ,2021年)和事实核查的口语索赔(金等人。,2021年)。对于每个模型,我们计算每个标签的预测得分的熵,并根据所有模型得分的熵之和对Rc中的索赔进行排名,这给出了对索赔分类的混淆或困难从排名列表中选择前4个响应作为该上下文的最终一组响应声明。4.1.2证据集创建对于每一个索赔,首先自动创建一组证据句子我们首先提取一组命名实体以及来自以下来源的名词短语nk:权利要求c、对话上下文C、WoW中的对话上下文的原始响应ui、以及针对ui向向导示出的知识文章的标题Ki。我们使用MediaWiki API2来查找一组相关的Wikipedia页面Pcfornk。然后,我们创建一组候选句子,其中每个页面的前10个句子都在PC中。最后,我们使用两种方法-SpaCy然后,我们将两种方法的非重叠证据结合起来,为每个索赔c创建最终的证据集ec。我们添加与WoW数据集中的原始响应相关联的知识句子k i,如果它还没有出现在e c中。4.1.3声明和证据注释我们在Mturk平台上分3轮进行声明和证据的注释注释UI的屏幕截图如附录的图3所示。在每一轮中,工作人员看到声明c,其对话上下文C及其相关的证据句子ec。工作人员必须执行3项任务:首先,他们选择索赔是否可验证 或NON-VERIFIABLE。 二是选择与所述响应声明相关的一个或多个证据句子如果显示的证据集不足以决定响应的标签,或者如果他们选择NEI,则指示他们搜索维基百科并在界面中添加相关的附加证据句子对于NEI索赔,他们被指示添加与索赔最相关的证据句子第三,他们选择回答的类别--支持、反对或反对。对于NON-VERIFIABLE声明,自动选择NEI。由于自动创建的响应可能存在语法或连贯性相关的问题,因此在第一轮标记中,注释者被要求编辑响应以使其适合上下文(如果需要),或者将响应标记为不连贯,在这种情况下,将其从进一步的回合中删除(我们删除了5%的不连贯声明)。在第二轮和第三轮中,我们为每个索赔收集了2个额外的我们选择在所有轮次的3个注释集合中具有多数投票每个索赔的证据集是在任何一轮中注释的证据的并集。请注意,这种机制可能会错过相关的evi-2www.mediawiki.org/wiki/API:Main_page3www.spacy.io/4www.github.com/dorianbrown/rank_bm25+v:mala2277获取更多论文.LLMI(w,l)=p(w,l)log. 我们在场验证事实测试个人附录中的表134.4质量控制注释:我们在Mturk上雇佣至少5000个点击率和95%或以上的接受率的工人工人必须首先通过资格测试,在那里他们被显示任务说明,标签定义,以及多个示例和每个标签的解释然后,他们被要求标记或写12个索赔。使用这些表1:所有类别的DIALFACT的数据集统计血腥和分裂。Generated表示自动生成,Written表示人类书面声明。证据有时是由于证据集创建中的检索错误,或证据搜索不足或工作人员的证据注释不正确4.2人类书面声明我们的数据集还包括人类书面声明,以涵盖人与人对话中存在的词汇和文体模式。注释分三轮进行。在第一轮中,我们指导人群工作者根据对话上下文和一组证据句子为预先指定的标签(SUPPORTED,REFUTED或NEI之一)编写可验证的为工作人员提供了任务的详细示例和说明,如每项索赔的证据集使用第4.1.2节中描述的方法构造。在第二轮中,我们使用第4.1.3节中的声明标签接口来收集第一轮中收集的声明的标签。对于在第二轮中没有用原始标签lc标记的任何声明,我们收集第三轮注释。如果第三轮中的标签不匹配lc,我们将从数据集中删除该声明。我们放弃了大约7%的人类书面声明。4.3数据集统计数据我们在表1中展示了数据集统计数据。该数据集由平衡的SUPPORTED和RE-FUTED声明组成。测试集包含3,760个对话上下文的声明,平均每个上下文3.1个声明,验证包含3,738个上下文的声明,平均每个上下文2.8个声明每个声明的平均令牌数在测试集中为22.0,在验证集中为20.0每个声明的平均证据数在测试集中为1.3,在验证集中为1.1我们展示了一些示例实例通过资格测试,我们最终获得了87名工人,用于主要数据收集阶段(附录C)。质量检查注释在多周内分批进行。我们检查了随机样本,以向工人提供反馈。注释不佳的工人要么被要求重新参加新的资格考试,要么被从后续批次中除名。我们重新为被移除的工人标注的数据进行了标注。我们在注释过程中提供了工具提示和示例,并且还添加了自动检查,以提醒工作人员注意诸如回答太短、未选择证据以及复制粘贴证据句子作为声明等问题数据验证为了评估注释者之间的一致性,我们为1200个自动生成和人类书面声明收集了额外的2轮注释,占数据的10%。KrippendorffVERIFIABLE与N ON -V ERIFIABLE的Krippendorff较低的协议是由于一些索赔,如很难判断这是个人意见还是可证实的事实。在这种冲突中,工人通常仍然会根据Schuster等人(2019)的研究,我们测量了局部互信息(LMI)来测量索赔(w)和类别l中的二元组之间的相关性,定义如下:p(l/w))p(l))表2中的REFUTED声明中的最高二元组及其LMI值。DIALFACT中的顶部二元组不包括明显的否定,例如“不”、“不是”,本质上大多是局部的分别调查生成的和书面的索赔,我们发现,诸如“没有,只有一个,没有,没有”的二元组支持驳斥NEI-NEI-总生成1686104715017454628书面16562316183605808总334233631986174510436支持驳斥NEI-事实NEI-个人总生成24461195127813056224书面149327401268845585总393939352546138911809+v:mala2277获取更多论文所有标记书面二元模型LMIp(l/w)二元模型p(l/w)p(l/w)二元模型p(l/w)p(l/w)他是3960.45他是6920.40只有一2010.95出生3620.64创作歌手4710.61称为1690.83可见光谱1950.80可见光谱4470.82戏剧学校1630.89可见光1880.76可见光4310.74哈利波特1600.60频谱1860.73频谱4310.78销1580.83一个美国1770.50一个美国3910.47只有1520.89表2:针对REFUTE类别的测试集中的顶部二元组。DIAL FACT不包括基于明显否定的偏倚,如基线准确度可验证F1不可验证F1随机50.064.219.2词汇79.488.133.8DNLI82.189.937.1词汇+DNLI82.890.239.1表3:测试集上可验证声明检测的准确度和宏观F1评分。2000年,索赔人提出了“被解雇”类别的索赔,但其LMI值并不高。最后,不同类别的前二元组之间存在显着重叠,表明数据集中没有明显的词汇偏见。5实验我们提出了新的基线,并与扩展模型进行了比较,用于对话事实检查中的三个子任务:1)可验证的索赔检测,2)证据检索,3)索赔验证。5.1可验证的索赔检测我们提出了三个简单的基线可验证的索赔检测。1)词汇重叠计算使用SpaCy删除标点符号和停用词后,声明和所有证据句子2)DNLI使用来自对话自然语言推理模型(Welleck etal. ,2019)。3)Lexical+DNLI使用两个基线的得分之和,Random以50%的概率预测每个类对于所有基线,我们根据使用验证数据选择的阈值将响应标记为可验证或NON-可验证我们在表3中列出了 两 个 类 别 的 准 确 性 和 个 体 F1 评 分 。Lexical+DNLI 表 现 最 好 , 所 有 基 线 均 具 有NON-VERIFIABLE声明的低F1评分。5.2证据检索证据检索包括两个步骤:1)文档检索; 2)证据句选择。5.2.1文献检索我们测试了两种文档检索方法:第一种是WikiAPI 5,它检索维基百科页面,并用于过去的事实检查工作(Hanselowski et al. ,2018;Stammbach andNeumann , 2019; Liu et al. ,2020 ) 。 它 使 用 Al-lenNLP 选 区 解 析 器(Gardner et al. ,2018年)从索赔中提取潜在实体。然后,它通过Me-diaWiki API2将实体作 为 查 询 提 供 , 每 个 查 询 最 多 返 回 三 个Wikipedia页面。对于每个维基百科页面,我们查询KILT(Petroni et al. ,2021)知识源获取页面的前5段。我们创建了这个方法的两个版本:a)Wiki- ctx,它在文档检索之前将对话上下文的最后两轮与响应声明连接起来; b)Wiki-claimonly-它只使用声明。第二种方法是密集通道检索(DPR)(Karpukhin et al. ,2020),使用BERT检索文档的基于双编码器的模型(Devlin et al. ,2019)通过度量学习训练。我们创建了该方法的三个版本:a)DPR-original,它使用在问答任务上训练的原始 DPR , b ) DPR-WoWft-claimonly , 它 在WoW数据集上进行了微调,以检索与仅由响应声明组成的查询相关的文档,以及c)DPR-WoWft-ctx,它也在WoW数据集上进行了微调,但同时使用上下文和响应作为查询(训练细节在附录B中提供)。对于基于DPR的方法,我们检索前100个文档。一份文件是相关的,如果它包含一个黄金证据句子。我 们 在 表 4 中 列 出 了 文 档 召 回 结 果 。WikiAPI方法优于基于DPR的方法。当使用对话上下文进行检索时,两种方法都表现出更好的性能。DPR通常能够检索具有正确主题的文档,但通常无法检索相关证据句子。实体链接对于事实核查至关重要5www.github.com/UKPLab/© 2018 team-athene版权所有+v:mala2277获取更多论文模型召回DPR-原始40.3DPR-WoWft-claimonly44.7DPR-WoWft-ctx58.8Wiki-claimonly60.8Wiki-ctx75.0表4:测试集的文档召回在文档中描述对话上下文可以提高WikiAPI和DPR的性能。召回@5型号DPR-WoWft-ctx Wiki-ctx仅保留索赔67.170.1与语境相关的Ret-with-Context69.375.4表5:测试集的证据语句Recall@5。在对话中,WikiAPI能够利用这种能力来获得更好的性能。5.2.2证据句的选择在证据句子选择中,从在前一步骤中针对权利要求c检索的文档集合Dc中选择前k个证据句子的最终集合。首先,我们通过取Dc中所有句子的并集来创建候选证据句子集Sc。我们微调了一个Bert基模型,用于对SC中的候选句子进行排名。该模型经过训练,对于给定的索赔,不相关证据预测-1,我们使用来自WoW数据集的上下文响应对除了使用随机选择的证据句子,为了创建用于训练的硬否定示例,我们还从WoW数据收集期间向向导显示的文章集K i中选择句子。这些句子在内容和主题上与金证据句接近在测试时,我们使用得分超过0的前k排名中的证据类似于文档检索,我们创建了两个版本的模型:1)Ret-with-context,以及2)Ret-only-claim,基于对话上下文的最后两个话语是否包含在BERT模型的输入中。 我们在表5中展示了两个最佳执行文档检索模型Wiki-ctx和DPR-WoWft-ctx的模型性能。 我们发现,recall@5值为两个模型更高时,对话上下文作为输入与索赔。5.3声明验证在索赔验证中,给定上下文C,索赔c被分类为SUP-PORTED、REFUTED或NEI,证据句子集Sc.5.3.1基线DNLI(Welleck et al. Dialogue NLI数据集包含标记为蕴涵,neutral或来自对话的矛盾的句子对 。 在 我 们 的 任 务 中 , 内 涵 映 射 到SUPPORTED ,中性映射到NEI,矛盾映射到REFUTED。我们在他们的310,110个数据点的训练集上训练了一个Bert-base模型。DECODE(Nie et al. 对话矛盾检测数据集包含人与人和人与机器人的矛盾对话。训练集包含27,948个数据点,有两个标签矛盾和非矛盾。我们用上下文的最后两个话语和响应作为模型的输入来训练Bert基模型维生素C(Schuster et al. 维生素C是一个大规模的事实验证数据集,它基于维基百科编辑创建的对比声明-证据对。他们训练的模型避免了仅声明的偏见,并且对证据的变化更敏感 我们使用他们基于FEVER的ALBERT模型(Thorne et al. ,2018)和他们的维生素C数据集。口语(Kim et al. ,2021)它包含从FEVER数据集声明转换为口语风格的口语声明它在训练集中有410 k个口语化的声明-证据对,并且由于其口语化的性质而与我们的任务非常我们在这个数据集上微调了一个Bert模型。CorefBert-Colloquial(Ye et al. ,2020)是关于FEVER的性能最好的模型之一,并且被设计为更好地捕获和表示共参信息。我们使用他们 的 模 型 , 该 模 型 使 用 核 图 注 意 力 网 络(KGAT)(Liu et al. ,2020年),并对口头索赔进行微调。Aug-WoW我们提出了一种新的模型,它是在弱监督训练数据上训练的。DIAL- FACT仅用于验证和测试,我们不会在DIAL FACT上训练模型,以避免创建一个可以简单地学习解决数据集而不是任务的模型。相反,我们利用第4.1.1节中描述的技术为每个类别的索赔创建合成训练数据对于SUPPORTED声明,我们使用原始WoW数据集的声明-证据对。我们使用第5.1节中的词汇基线来过滤掉不可验证的声明,这导致 46, 934 个SUPPORTED 声 明。 我 们遵 循 第4.1.1节中的否定和替代方法,创建了38,895个REFUTED声明。我们创建NEI声明+v:mala2277获取更多论文甲骨文证据Wiki-EvidenceDPR-证据模型精度宏F1精度宏F1精度宏F1DNLI43.335.439.131.538.429.5解码37.830.335.325.334.522.5维生素C57.656.146.244.745.944.2CorefBert-口语61.460.047.645.246.441.1口语化63.562.848.146.348.746.4八月哇69.269.051.651.351.550.2表6:测试集的声明验证结果。我们用三种类型的证据进行实验,并报告准确性和宏观F1分数的百分比。8月-魔兽世界在所有设置中都优于所有基线。Oracle证据Wiki-Evidence DPR-Evidence模型精度宏F1精度宏F1精度宏F1八月-哇-天啊68.168.152.452.352.451.3Aug-WoW-BertLarge70.970.945.844.643.539.1八月哇69.269.051.651.351.550.2表7:使用Aug-WoW模型消融的测试集的声明验证结果生成的写入模型精度宏F1精度宏F1DNLI 50.9 38.4 34.8 31.0解码36.5 30.4 39.3 30.1维生素C 48.9 42.1 60.8 60.3最 大 证 据 为5 。 在 所 有 三 种 设 置 中 , Aug-WoW都优于基线,并且与使用Oracle证据相比,使用检索证据时所有基线的性能都会CorefBert-口语化56.9 51.6 66.4这表明,证据检索是一个重要的-这一步,对于这项任务。 即使有神谕的证据,口语8月-魔兽世界63.9 60.7 74.2 74.0表8:针对生成和书面声明的测试集的声明验证结果使用两种方法:1)对于每个上下文-声明-证据三元组,我们用随机不相关的证据替换证据。2)我们使用第4.1.1节中的生成方法,以随机证据为生成条件。我们从这两种方法中选择了一个40,000个NEI索赔的我们在这个合成数据集上微调了Colloquial基线模型模型的输入是由[EOT]标记分隔的最后2个上下文话语的序列,然后是声明。对于所有基于Bert的模型,所有证据句子都连接在一起。有关训练基线的更多详细信息,请参见附录B。5.3.2结果表6总结了测试集上声明验证的结果。 NON-VERIFIABLE索赔被列入NEI类。我们实验了三种证据检索设置- 1)Oracle Evidence,其中我们使用黄金证据,2)Wiki- Evidence,其中我们使用Wiki-ctx进行文档检索,使用Ret-with-context 进 行 证 据 选 择 , 以 及 3 ) DPR-Evidence,其中我们使用DPR- WoWft-ctx进行文档检索,使用Ret-with- context进行证据选择。我们设定了最大-没有一个模型的准确率超过70%,这为未来的改进留下了大量的机会。口语基线是最接近Aug-WoW的,因为它已经接受了类似对话的口 语 声 明 的 训 练 。 尽 管 Col- loquial 和CorefBert-Colloquial在Oracle证据下的表现优于VitaminC,但 VitaminC的对比性质有助于其在重新验证的证据下表现更好在表8中,我们分别使用生成和书面声明的oracle证据,展示了测试集上的声明验证结果与书面声明相比,所有型号的性能在生成声明中均较低。这是预期的,因为正如我们在第4.1.1节“最终索赔集创建”中提到的因此,DIALFACT中生成的声明更具挑战性。此外,Aug-WoW在表7中,我们给出了Aug-WoW模型烧蚀测试集的声明验证结果。在Aug-WoW-BertLarge中,我们不连接对话上下文,而在Aug-WoW-BertLarge中,我们使用Bert-Large模型作为基础架构。+v:mala2277获取更多论文Biathlon是指两项运动,对吗?另一项运动是什么?响应类型:生成冬季两项将这两项运动结合成一个项目,称为越野滑雪比赛。很冬季两项:冬季两项是一项结合了越野滑雪和步枪射击的冬季运动DNLI:S,CorefBERT-口语:S,解码:R,维生素C:NEI,口语:S,AugWoW:R,人类:R你知道职业啦啦队员赚很多钱吗?响应类型:生成啦啦队的全部意义在于展示他们的技能,所以我证据啦啦队:啦啦队起源于美国,估计有150万人参加全明星啦啦队。DNLI:S,CorefBERT-口语:NEI,解码:R,维生素C:S,口语:S,AugWoW:NEI,人:NEI语境日语就更难了,语言很难讲。响应类型:生成语言的起源在于史前时代,当时许多文化相互交谈。证据日本语言:很少有人知道这种语言DNLI:S,CorefBERT-口语:NEI,解码:S,维生素C:NEI,口语:NEI,AugWoW:NEI,人类:R如果我听到的话我可能会认出你在90年代还听过谁的答复类型:书面答复回应我还听了另一组戴夫格罗尔是除了所谓的他们弯曲秃鹫。这不是他最好的团队之一。证据戴夫格罗尔:他是鼓手和摇滚超级组他们弯曲的秃鹫的联合创始人。DNLI:S,CorefBERT-口语:R,解码:R,维生素C:NEI,口语:R,AugWoW:R,人类:S表9:对话上下文、声明、证据和模型预测样本。我们还指出是否响应是自动生成的或人类写的。这里S代表SUPPORTED,R代表REFUTED。Aug-WoW-Battx与Aug-WoW相当,但性能略低于Oracle证据。虽然Aug-WoW-BertLarge在Oracle证据方面表现更好,但它对证据质量更敏感,并且在检索证据方面表现不佳。为了测试一个仅仅依赖于声明而没有证据的模型是否可以利用声明中的词汇偏见来获得DIAL- FACT的良好性能,我们训练了一个模型Aug-WoW-claim only,在训练和测试过程中没有包括任何证据。Aug-WoW-claim only在DIALFACT测试集上实现了33.2%的准确率因此,一个模型不能利用词汇线索的索赔DIALFACT获得良好的性能。我们在附录A(表12)中报告了双向分类实验的性能,其中我们将REFUTED和NEI组合成一个名为N OT-SUPPORTED的单个类。5.3.3讨论我们在表9中展示了对话背景、声明、声明的口头证据以及模型预测。我们发现,当证据和声明之间存在显著重叠时,模型往往会错误地将REFUTED或NEI响应预测为SUPPORTED,而忽略语义。第一个例子说明了这一点,术语“冬季两项”和“越野滑雪”的存在同样,模型预测NEI索赔的SUPPORTED或REFUTED由于索赔和证据之间的文字重叠,如第二个例子所示在验证过程中,模型也经常无法执行复杂的和基于常识的推理在第三个例子中,尽管人类可以推理出证据是RE-FUTED的,但所有模型都无法正确地对索赔进行分类。最后,模型要与词汇偏见作斗争,并将索赔的口语部分与其事实部分分开。在第四个例子中,尽管声明和证据之间存在显著的重叠,但模型会被“不是其中之一”这个词的存在所愚弄6结论我们提出了一个新的基准,DIALFACT,事实检查的基础上,从向导维基百科数据集的接地对话创建的对话。除了人类书写的响应声明之外,我们还创建了具有诸如矛盾、填充和替换等操作的合成声明我们雇佣合格的人群工作者将回答注释为NON- VERIFIABLE,被任命的,驳回, 或NOT E-NOUGHI信息分类以及相应的证据。我们根据经验指出,现有的非对话数据训练的事实检查模型在我们的任务中表现不佳。我们演示了如何利用自动生成的响应作为弱监督信号来提高性能。我们希望DIALFACT能够促进对话社区的事实核查、一致性建模和评估研究+v:mala2277获取更多论文伦理考量更广泛的影响本文研究了对话中的事实核查问题.在这项工作中提出的DIALFACT基准数据集可能有助于创建更准确的自动事实检查系统和度量,并最终创建更忠实于事实知识的数据库系统,从而更值得信赖。对话的自动事实检查在许多现实生活场景中可能是有用的,在这些场景中,需要适当地监视对话以避免错误信息和虚假信息的传播,并且需要向对话参与者提供准确的信息。然
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功