基于机器阅读的长式问答答案生成的新框架和有效性证明

50 浏览量更新于2023-12-01 收藏 984KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文在生成之前阅读！基于机器阅读的苏丹1，李晓光2，张金娣2，尚立峰2，姜鑫2，刘群2，冯培1香港科技大学，清水湾，香港2华为诺亚dsu@connect.ust.hk，lixiaoguang11@huawei.com摘要长式问答（LFQA）的目的是为给定的问题生成一个段落长度的答案。虽然目前使用大型预训练模型进行生成的LFQA工作在生成流畅且有点相关的内容方面是有效的我们提出了一个新的端到端的框架，联合模型的answer生成和机器阅读。其关键思想是用细粒度的、与答案相关的显著信息来增强生成模型，这些信息可以被视为对忠实事实的强调。两个LFQA数据集ELI5和MS MARCO的最新结果证明了我们的方法的有效性，与自动和人工评估指标的强基线相比。详细的分析进一步证明了我们的方法在生成流畅，相关和更忠实的答案的能力。1介绍长式问答（LFQA）是一项针对给定问题生成深入的、段落长度的答案的任务（Fan et al. ，2019）。这很重要，因为人类处理和向搜索引擎提出的许多日常问题需要多句解释（Khashabi et al. ，2021）（例如，为什么/如何..？）.它可以与搜索引擎集成（Metzler etal. ，2021）或虚拟会话代理，并且还可以用于生成解释作为对开放域问题的短语回答的补充（Kwiatkowski et al. ，2019; Yang et al. ，2018年），或回答开放式问题，如Reddit论坛“解释像我五岁”（范等人。，2019）。LFQA是一项非常具有挑战性的任务。它通常涉及搜索大量外部知识源在华为诺亚方舟实习期间所做的工作实验室图1：来自MS MARCO（Nguyen）的示例等人，2016）数据集。我们强调了其他模型的不忠实片段。我们的模型（RBG）生成更真实准确的答案。包含数百万个相关信息的文档然后，它从这些检索到的来源生成一个段落长度的答案虽然在回收技术方面取得了巨大成功（Guu etal. ，2020; Karpukhin等人，2020; Lee等人，2019年）可以结转到LFQA设置，更多的挑战在于一代。首先，需要考虑生成包含数百个标记的多个文档，这增加了直接使用当前预训练语言模型的难度其次，由于不同的文档可能包含冗余、互补或矛盾的信息，因此如何综合信息并生成具有较少幻觉内容的忠实答案甚至更具挑战性。虽然最近关于 LFQA 的工作（ Krishna etal. ，2021年）主要集中在第一个挑战，并产生了流畅和有点相关的内容，后一个忠诚的挑战还没有探索。然而，忠实性问题对于LFQA来说非常重要如图中的例子1显示，一个流利的和相关的，但不忠实的答案（高-arXiv：2203.00343v1 [cs.CL] 2022年3+v：mala2277获取更多论文--绿色）会误导用户。在本文中，我们提出了一种新的端到端框架RBG（ReadB eforeG enerate）LFQA来解决上述挑战。提高答案可信度的关键思想是用预测的显著信息来增强生成过程，这些信息可以被视为对答案相关事实的强调。具体来说，我们结合了一个基于Seq2Seq语言模型的生成器与一个机器阅读压缩（阅读器）模块。阅读器为每个句子生成一个证据概率得分，该得分将与生成器集成以进行最终的分布预测。我们以类似于FiD（Izacard和Grave，2021）的方式执行证据融合，为预训练的语言模型配备多个输入文档以供生成。为了进一步增强RBG的事实基础能力，我们提出了一个额外的预训练任务，以鼓励模型更多地依赖于检索到的文档来生成事实陈述。详情见第2节。我们对我们的方法和ELI5上的几个基线进行了彻底的实验（Fan et al. ，2019），唯一公开可用的大规模 LFQA 数据集，以及 MSMARCO（Nguyenet al. ，2016）段落排名数据，其也可以被转换成答案生成任务。所提出的方法在 KILT的公共排行榜上名列前茅（Petroni et al. ，2021）ELI5数据集上的基准。它也优于基线，包括非检索和基于检索的方法，如 DPR-BART （ Petroni et al. ， 2020年）、RAG（Izacard和Grave，2021年）和FiD（Izacard和Grave，2021年），改进了MSMARCO数据集的自动评估结果。人类评估结果进一步验证了我们提出的框架可以提高生成质量的相关性和事实的正确性。我们的贡献总结如下：• 据我们所知，我们是第一个尝试解决LFQA忠诚度挑战的公司。• 我们提出了一个新的和有效的框架，开放域LFQA生成答案的指导下，句子证据分数从机器阅读模块，以及一个额外的事实接地为导向的预训练任务。评估两个大规模的数据集，我们也证明了人类的评价，我们的方法提高了生成的答案的事实正确性，同时仍然保持高的信息量。2最先进的LFQA系统为了生成针对给定的一般领域问题的深入的、长形式的答案，我们首先使用检索器从大型外部知识源中搜索相关信息。然后我们的阅读器和生成模块将多个检索到的文档与问题一起作为输入来生成答案。具体来说，阅读器模块采用机器阅读理解（MRC）模型为每个文档中的每个句子产生证据分数，而生成器采用大型预训练Seq2Seq语言模型，将句子证据分数融合到其生成过程中。我们的框架如图2所示。2.1支持文件检索器我们使用DPR（Karpukhin et al. ，2020年），以检索支持文件，遵循开放域QA的最新框架中的典型方法（ Izacard 和 Grave ， 2021 年 ;Lewis等人，2012年）。，2020 b）。文章和问题被表示为768维密集向量表示，通过DPR的基于BERT的双向编码器检索器将根据文档的相关性对文档进行排序，计算如下：评分 re （ Q ， Di ） =BERTq （ Q ） T BERTd（Di）（1）检索是使用近似最近邻与 FAISS1库.我们记D=D1，D2，...，D k作为问题Q的前K个检索文档。2.2文档阅读器由于长格式答案没有黄金检索，因此检索到的文档可能包含与答案相关的补充、矛盾或冗余信息因此，我们建议使用一个阅读器模块来明确预测每个文档中的句子级证据概率。证据跨度预测我们使用机器阅读理解（MRC）模型来预测每个文档中的证据跨度，因为这些模型在许多数据集上接近甚至超过人类水平的理解（Joshi et al. ，2020）。• 我们证明了我们的方法的有效性，自动评估和人工评估，1github.com/facebookresearch/faiss+v：mala2277获取更多论文我reareareareareaENCENCENCENCrea2ws∈S我S我S图2：RBG框架的概述架构。RBG包括一个支持文档检索器、一个文档阅读器和一个生成器。MRC模型将检索到的文档Di和问题Q的连接作为输入，并输出Di中潜在证据跨度的开始和结束位置的预测。具体地说，它输出两个概率分布在D i中的时间上： Ps（ ws）和 Pe（ws），其中Ps（ws）/从MRQA共享任务（Fisch et al. ，2019年）在苏的工作之后等人（ 2019 ）： SQuAD（ Rajpurkar et al. ， 2016 ）， NewsQA（Trischler et al. ，2017），TriviaQA（Joshietal. ， 2017 ）、 SearchQA （ Dunn et al. ，2017）、HotpotQA（Yang et al. ，2018），和NatualQues-我我我Pe（ws）是令牌ws是Di中证据跨度的开始/结束。最初，MRC模型被设计为给出准确的短短语跨度预测（Rajpurkar et al. ，2016年），但我们认为，在我们的情况下，证据水平的概率会更好。支持句子可以为每个答案跨度提供最少所需的上下文信息，这非常重要，特别是在多文档生成中（Xu和Lapata，2020）。我们定义我们的证据级别的证据概率得分为（Kwiatkowski et al. ，2019）。多任务微调的MRC模型R将与生成器进一步联合训练，以远程监督的方式使用黄金2.3发生器FiD-BART我们选择BART作为我们的生成骨干，因为它在许多生成任务上表现出色，特别是在长格式抽象摘要任务上（Lewis et al. ，2020a）。我们提出FiD-BART，遵循Izacard和Grave（2021）的解码器融合思想，使BART能够处理多个，第i个文档Pi（S）作为所有长文档输入。每个FiD-BART流程该句子中的标记级证据概率，它通过以下方式计算：Pi（S）=1（Ps（w）+Pe（w））（2）文档独立地在编码器中，而共同地在解码器中执行交叉注意编码器对每个的级联进行编码，证明文件D问题Q。更我Prea（S）= Norm（P1（S）;. Pi（S）;. PK（S）（三）我们将Pi连接起来，并将分布归一化为Prea（S），其中Prea（S）表示所有K准确地说，我们在每个文档Di的标题和文本之前附加特殊标记question：beforeQ，title：andcontext：before the title and text。我们将编码器的编码的最终表示为h_enc，其是K个编码器输出h_i的级联关于这个问题的文件。我ENC对于第i个文档，∈Rd×li）：多任务MRC由于没有黄金和我的Enc=编码器（Q;Di）（4）LFQA数据的转换跨度，我们需要一个MRChenc=（h1、...、hi、...、HK）（5）模型，具有足够的泛化能力，开放领域的问题作为出发点。我们选择SpanBERT（Joshi etal. ，2020年），并在六个大型读者读者...DPR维基百科页面Top-K文档Q对读者问题编码器编码器问：水母没有大脑是如何工作的？编码器...解码器编码器...............H（h）+v：mala2277获取更多论文解码器的部分结构可以由等式（1）来说明(6)-（8），其中h_l是第l个解码器层的表示。我们将hdec表示为最后一层解码器输出：+v：mala2277获取更多论文L一不−ha=SelfAttention（hl，hl，hl）（6）hb=LayerNorm（hl+ha）（7）3实验设置3.1数据集L lhc=交叉注意（hb，henc，henc）（8）我们对以下两个方面L l正如我们所看到的，FiD-BART可以在线性计算时间内扩展到大量的输入文档2.4生成器前读取器为了将证据概率纳入生成，我们应用指针生成器模型（如图2所示）。注意力分布和上下文向量h，以及生成概率-数据集，这两个都集中在长形式的生成QA。ELI5（Fan et al. ，2019年）是唯一公开可用的大规模LFQA数据集。这是一个从Reddit论坛“像我五岁一样解释”（ELI5）中提取的问答对我们使用KILT（Petroni et al. ，2021）版本的数据集从其Github存储库2，其中有272，634ityCpgen∈[0，1]计算如下：A=softmax（hdec henc）（9）hc=Ahenc（10）pgen=sigmod（Wc hc+Wg hdec）（11）培训实例和1，507次发展考试-请。答案的平均长度为130个单词。MSMARCO（Nguyen et al. ，2016年）是对Bing查询的众包响应的数据集。我们其中Wc和Wg是可学习的参数。pgen被用作软开关，以在通过从词汇采样来从生成器生成单词或通过根据证据分布Prea（w）采样来从输入序列复制单词之间进行选择：Pgen（w）=lmhead（hdec）（12）使用MS MARCO通道排名轨道的问题-答案对进行训练和评估，因为它们比NLG轨道的问题-答案对更抽象，更依赖于多文档信息训练样本大小约为500，000，评估样本大小为6980。知识源的外部知识Prea（w）=0.001 s：ws=w，ws∈SP面积（S）（13）检索器的来源是维基百科的段落，这些段落在KILT基准中作为P（w）=pgen Pgen（w）+（1pgen）Prea（w）（十四）2.5预训练为了进一步提高基于检索文档的能力，我们提出了一个预训练任务：检索增强恢复（RAR）。不是通过模型参数中存储的内部知识来恢复损坏的文本（Raf-fel et al. ，2020;Lewis等人，2020 a），RAR鼓励模型更多地依赖于外部检索到的文档来生成事实陈述。具体地，给定原始文本S，我们检索前k个文档D1，D2，.，使用BM 25从知识语料库中提取DN（丢弃S本身），并且我们用[ MASK ]替换S中的30%的词以形成伪查询Q。预训练任务要求我们的RBG模型在输入伪查询Q和k个检索到的文档的情况下恢复S，其可以用公式表示为S=RBG（Q;D1，D2，.， D k）（15）为了在文本损坏和恢复过程中涉及更多的事实信息，我们使用TREX的文本三元组对齐对来自维基百科的至少一个知识库三元组对应的100万个S句子进行采样（Elsahar et al. ，2018 a）。+v：mala2277获取更多论文知识密集型任务的统一知识源，包括开放领域LFQA（Petroni et al. ，2021年）。它基于2019/08/01维基百科快照，包含590万篇文章。3.2基线BART和T5我们微调BART（Lewis et al. ，2020a）和T5（Raffel et al. ，2020年）使用QA对没有明确的检索，并包括他们作为我们的基线，只依赖于参数化的内部知识（罗伯茨等人。#20200;的答案。DPR-BART是我们基于检索的LFQA基线。我们遵循Petroni et al.（2020），为每个输入样本从DPR中检索并预先添加前3个通道，并使用上下文增强的训练数据来微调BART模型。RAG（Lewis et al. ，2020 b）是反向传播到检索器的输入编码器的端到端检索增强生成模型我们在LFQA任务上对RAG进行了微调，在所有任务上建立了一个强大的基线在每一个生成步骤中，我们检索前5个段落并将其用作支持文档。2github.com/facebookresearch/KILT+v：mala2277获取更多论文FiD（Izacard和Grave，2021年）对每个通道进行独立编码，并在将其传递给解码器之前将编码器的所有输出组合在一起FiD在许多开放领域QA任务上取得了优异的性能（Izacard和Grave，2021）。我们实施FiD-BART，使用BART作为生成骨干，作为我们最强大的基线。4实验结果4.1自动评估我们使用的指标unigram F1得分和ROUGE-L（ LIN ， 2004 年）在以前的工作 LFQA（ Petroni 等人。， 2021; Krishna et al. ，2021），以评估和比较我们的方法的生成质量。总体比较表1显示了两个数据集上各种方法的性能。如图所示，我们的RBG方法在两个数据集的两个评估指标方面都优于所有RBG方法在KILT-ELI 5排行榜3上的表现也优于先前的最先进的方法 c-REALM+RT （ Krishna etal. ，2021年），如表2所示。模型Eli5MS MarcoROUGE-LF1ROUGE-LF1T5（基础）21.0218.3621.1920.03BART（大型）22.6922.1923.2625.6DPR+BART17.4117.8823.0125.13抹布16.1117.24--FID25.7028.5524.6427.08RBG（我们的）26.4629.0424.7227.52表1：我们的RBG方法与KILT-ELI 5上的基线之间的性能比较（Petroniet al. ，2021）和MS MARCO（Nguyen et al. ，2016）评估集。模型检索生成PRr.R@5 F1 R-L KRLRBG（我们的）10.8327.2524.5327.132.62DPR_kilt_wiki14.8327.6916.4515.912.46c-REALM110.6724.5623.1922.882.36DPR+BART10.6726.9217.4117.881.90抹布11.0022.9214.0514.511.69BART-大号0.000.0020.5519.230.00T5基0.000.0019.0816.100.00表2：KILT领导板上ELI5测试集的结果我们的RBG在（1）检索性能方面领先于排行榜，使用R精度（RPr）。和Re-call @ 5（R@5），和（2）世代质量，使用F1和ROUGE-L（R-L）。将这些分数组合以产生总体度量KILT R-L（KRL）（Petroni etal. ，2021年）。c-REALM 1来自（Krishna et al. ，2021年）3https://evalai.cloudcv.org/web/challenges/challenge-page/689/leaderboard/1908细粒度的比较直观地说，检索到的文档的质量会影响生成质量，因此我们提供了一个细粒度的性能比较。我们根据检索文档的质量将MS-MARCO评估集分成不同的子集4，并比较每个子集下FiD和RBG之间的从表3中可以看出，尽管RBG在整个MS-MARCO 评估集上以 0.1 Rouge-L 得分击败FiD，但随着评估子集的检索质量的提高，性能差距继续增加这表明RBG在提供高质量的检索文档时特别有效，这与我们的直觉相匹配。>ngram重叠00.40.60.8文件数量698034931470489ROUGE-LFID24.6428.0433.6245.25RBG24.7228.5934.3846.29>检索评分0.0758085文件数量6980581131881001ROUGE-LFID24.6424.725.6326.81RBG24.7225.4626.5327.96表3：不同MS-MARCO评估数据子集上FiD和RBG之间的细粒度比较。4.2人工评价我们进一步评估我们的模型使用人类annotators，我们要求量化生成的答案的三个方面，（1）流畅性，衡量答案是否连贯和较少重复;(2) 相关性，衡量与回答问题相关的信息量，以及(3) 事实正确性（也简称为正确性），它衡量生成的答案中涉及的所有事实的正确性和忠实性我们选择FiD进行比较，这是自动度量方面我们从MS MARCO开发集中抽取评估问题，这些问题比ELI5更好地得到维基百科知识的表4示出了人类注释的绝对评价结果为了减少不同注释器的尺度选择不一致的影响，我们还在表5中显示了相对评估结果。我们可以看到，这两种类型的4我们考虑两个度量来衡量某个问题的检索质量：（1）Top-1文档检索分数，这是检索器输出的匹配分数（等式2）。1）针对前1个文档来测量与给定问题的对应语义相关性，以及（2）N-gram重叠，其是黄金答案与前k个检索到的文档之间的N-gram重叠。+v：mala2277获取更多论文--模型流利相关性正确性FID2.622.342.07RBG（我们的）2.702.502.41表4：MS MARCO上RBG与FiD的绝对人体评价结果该表显示了每个指标的所有注释器和示例的平均值。方面偏好FiD偏好RBG铁流利百分之十二百分之二十六百分之六十二相关性百分之十八百分之四十八百分之三十四正确性百分之四百分之六十二百分之三十四表5：RBG vs. 马可女士的指纹百分比表示一个模型被多个注释者投票为首选的比率。结果表明， RBG 在所有三个方面都优于FiDRBG在事实正确性方面比FiD更具优势，这可能得益于读者模块的引入有关人体评价设置和统计分析的更多详细信息，请参见附录C。4.3消融为了进一步研究所提出的系统中每个模块的贡献和效果，我们对MS-MARCRO评估数据集进行了系统的消融号模型MS MarcoROUGE-LF10RBG（我们的）24.7227.521无读卡器24.6627.302无预培训24.6527.383w/o阅读器+预培训24.6427.084w/读数器冻结24.5125.855w/随机检索22.8425.23表6：MS MARCO评价套件的消融结果。更细粒度的结果比较与第5节中的分析一起显示。w/oreader/pre-training：我们分别从我们的模型中移除 reader 模块（ w/o reader ）、 pre-training模块（w/o pre-training）以及两者一起（w/o reader + pre-training），以测试每个部分的贡献。正如我们从表6中可以看到的，在没有读者预测证据概率的情况下，生成性能在两个指标上都有所下降，并且在没有预训练的情况下性能继续下降。w/reader frozen：我们冻结了reader，以研究远程监督的reader模块端到端培训的好处从表6中可以看出，两个指标的结果都有所下降，特别是F1分数，这证明了端到端训练的有效性w/random retrieval：为了调查生成过程是否以及在多大程度上基于检索到的文档，我们在推理时将检索到的段落替换为从维基百科随机采样的段落进行比较。正如我们所看到的，ROUGE-L在随机检索的文档中显着下降，并且比BART和DPR-BART等基线系统更差（表1）。5进一步分析我们对结果进行了进一步的分析，认为LFQA是一个复杂但探索较少的任务，值得全面研究。5.1猎犬如何影响后代质量？我们进一步研究了检索到的文档的质量对最终生成的影响。我们通过两个度量4的不同阈值分割两个数据集的评估集，并计算每个子集的相应ROUGE-L评分正如我们在表7中所看到的，检索更好的文档总是带来更好的生成质量，表明高质量的支持文档对于生成过程的重要性。我们还测量了检索文档数K对生成质量的影响，发现在5，10，20，50中最好的K是10。更多的检索文档并没有像开放域QA那样提高生成质量。>检索评分（前1名）Eli5MS Marco数据数量ROUGE-L数据数量ROUGE-L0.0157026.35698024.7275127026.37581125.468047926.38318826.53857226.96100127.96901127.2516127.61>ngram重叠Eli5MS Marco# 数据ROUGE-L数据数量ROUGE-L0.0157026.35698024.720.446027.09349328.590.526027.31247030.720.610927.52147034.380.74827.6384539.640.82727.1748946.29表7：我们的RBG在ELI5和MS MARCO上的细粒度结果。在高质量检索（更高的N-gram重叠或检索分数阈值）的情况下，答案质量（ROUGE-L）在两个数据集上都增加。5.2读者如何为一代人做贡献如消融研究所示，阅片器模块提高了 MSMARCO评价数据集的整体性能。我们进一步探讨+v：mala2277获取更多论文我--我 i=1我得分（q，as，al）=i=1i iM--图3：用于读者分析的ROUGE-L与文档检索性能。方面首选w/o reader首选w/reader铁流利百分之十五百分之三十五百分之五十相关性百分之十七百分之五十七百分之二十六正确性百分之二十五百分之四十五百分之三十表8：MS MARCO上RBG读取器分析的人体评价结果有读者的模型在流畅性、相关性和正确性方面具有当提供具有不同质量级别的检索文档时的性能。我们在图3中显示了2号消融模型：无预训练的RBG和3号消融模型：无预训练+读取器的RBG之间的细粒度比较结果。正如我们所看到的，两个模型之间的ROUGE-L差异随着检索文档质量的提高而增加，这表明读者的能力很强，特别是这也符合我们的直觉。我们还进行了人工评估，以供读者分析，结果见表8。5.3预培训有什么帮助？我们还以细粒度的方式比较了模型图4：ROUGE-L与用于预培训分析的文档检索性能。检索到的文档以生成最终答案。5.4忠实性分析零射击提取QA任务的灵感来自以前的工作（王等人。，2020; Durmus等人，2020），其利用问题生成（QG）和QA模型来生成问题答案对，以评估摘要5的忠实性，我们提出通过对两个更简单的开放域QA数据集进行评估来评估答案忠实性：自然问题（Kwiatkowski etal. ， 2019 ）和 Hot-potQA （ Yang et al. ，2018），其包含具有黄金答案（（qi，as）m）的单跳或多跳事实问题，其中可以从基于维基百科的文档中提取s我们使用表1中的训练模型（基于MS MARCO）来为这两个数据集进行零触发长形式答案生成 al=Modelms（qi），并将短答案召回率（包含在生成的长答案al中的黄金答案跨度的比率）测量为对生成的长答案的忠实度的估计：布勒姆1[as∈al]模型1：RBG w/o阅读器和模型3：RBG w/o预训练+阅读器。我们可以看到，在大多数情况下，有预训练的模型比没有预训练的模型更好。表9中的人工评估也表明了我们的预训练任务对提高所生成答案的事实正确性和相关性的有效性我们推测，检索增强再细化的预训练任务可以促进下游LFQA模型组合来自不同领域的多个证据方面更喜欢无预培训更喜欢预培训铁流利百分之四十百分之四十三百分之十七相关性百分之二十百分之三十三百分之四十七正确性百分之二十三百分之四十七百分之三十我们在表10中显示了结果。正如我们所看到的，我们的系统在NQ上实现了与FiD相当的性能，并且在多跳数据集hotpotQA上始终优于其他强基线，这表明它能够生成忠实的答案，特别是在需要综合信息的复杂问题我们还在附录E中给出了具体的例子，表明我们的模型可以生成比FiD更忠实的片段，除了自动度量。为了具体理解读者在处理忠实性方面的作用，我们在表11中展示了两个虽然这两种型号使用相同的ctx，但RBGw reader生成的表9：RBG预处理的人体评价结果对MS MARCO的培训分析。RAR预训练的模型在相关性和正确性方面具有更好的生成性能5他们从摘要中生成问题答案对，并将sum与来自源文档的q的答案a sc进行比较，以评估忠诚度。我们的前期训练任务我们在图4中显示了消融之间的细粒度比较结果，（十六）+v：mala2277获取更多论文NQ召回HotpotQA召回T54.767.20BART-大号10.449.13DPR+BART16.3711.57FID43.9322.94RBG（我们的）43.9323.36表10：通过零激发评估进行的系统生成质量的可信度分析对 NQ（Kwiatkowski et al. ，2019）和HotpotQA（Yanget al. ，2018）。相关的答案，w/o读者只给出了一些气。以前的工作要么使用结构化的外部知识源（刘等。， 2018; Younget al. ， 2018; Su etal. ，2020 a）或非结构化数据。Zhou等人（2018）介绍了一个文本对话的文档接地数据集，Wu et al. （2021）提出提取词汇控制短语来进行可控接地响应生成，而Zhang等人（2021）联合训练检索器和生成器，因此不需要注释的文本参考并行数据。正确但不相关的陈述（案例1）。读者也有助于产生更忠实的答案，如案例2所示。然而，我们注意到有一个不忠实的说法，它把这可能是因为我们的MRC模型的属性：它为一个句子提供了高证据分数，并削弱了同一文档中其他句子的重要性问： ABC在酒店里是什么意思？w/o读者回答：ABC商店。酒类商店是一家零售商店，主要销售预先包装的酒精饮料，供顾客在商店外消费....................................... 选项卡页面上创建其他类似术语。w/读者回答：ABC代表酒精饮料控制（ABC商店），是一种由州政府独家拥有和经营的酒类商店，酒类商店通常只卖烈酒，有时也卖烈酒和葡萄酒，但不卖啤酒。ctxs：[{text：在17个酒精饮料控制（ABC）状态，.}，. ，{text：由州政府独家经营-在这种情况下，卖酒的商店通常只卖烈酒，有时也卖烈酒和葡萄酒，但不卖啤酒。、因为买酒必须用密封瓶包装}，...，{. 得列表.道琼斯工业平均指数（Dow Jones Industrial Average）W/O读者回答：道琼斯工业平均指数（DJIA）是美国30个主要股票指数的指数。道琼斯工业平均指数由统计学家兼《华尔街日报》编辑查尔斯·道于1896年创立。该指数于19世纪80年代中期首次发布，最后一次更新于1896年5月26日。读者回答：道琼斯工业平均指数（DJIA）是一个股票市场指数，跟踪美国30家最大的工业公司的表现。它由标准普尔全球公司持有多数股权的标准普尔道琼斯指数公司拥有。道琼斯指数是历史最悠久、最著名的道琼斯平均指数。它由Charles Dow于1896年创建。ctxs：[{text：. 最初出版于1885年2月16日。... 1896年5月26日首次计算工业平均值。{text：它是美国历史第二悠久的市场指数道琼斯运输平均指数之后目前由标准普尔道琼斯指数公司拥有，该公司由标准普尔全局..}，...，{. 得列表.表11：来自MS MARCO数据集的示例。我们突出显示了那些从读者那里获得高证据概率的句子，并使用绿色标记出不忠实的片段。6相关工作接地生成是利用外部知识资源，以提高生成的任务，开放域QA是回答一般域问题的任务（Chen etal. 2017年），通常不提供证据。明确利用外部语料库的模型被称为开卷模型（Roberts etal. ，2020）。他们通常对语料库进行索引，然后检索并阅读以从文档中提取答案范围（ Chen et al. ， 2017; Lee 等人， 2019;Izacardand Grave ， 2021; Lewis et al. ， 2020b）。最近提出的另一类方法是闭卷QA模型（Ye et al. ，2020; Roberts et al. ，2020）。他们微调预先训练的语言模型，如T5（Raffel etal. ， 2020 ）或 BART （ Lewis et al. ， 2020a），而无需访问任何外部知识或上下文。查询驱动的多文档摘要（QFMD）旨在根据查询和提供的相关文档生成摘要（Tombros和Sanderson，1998）。Baumel等人（2018）将查询相关性纳入了预先训练的抽象摘要器中，而Xu和Lapata（2020）和Su等人（2020 b）利用QA模型进行句子或段落级证据排名。Su等人（2021）试图通过将源文档的答案相关性得分纳入生成中来提高摘要的相关性。7结论我们提出了一个新的端到端框架RBG，它联合模拟答案生成和机器阅读，以解决LFQA中的忠实性问题。在两个LFQA数据集ELI5和MSMARCO上的实验证明了我们的方法与自动和人工评估指标的强基线相比详细的分析进一步证明了我们的方法在生成流畅，相关，更忠实的答案的能力。我们还建议通过回答提取QA任务的问题来评估LFQA模型的事实正确性（例如，自然+v：mala2277获取更多论文问题），这可能有助于有效地评估LFQA模型的忠诚度。引用Tal Baumel Matan Eyal和Michael Elhadad 2018.以查询为中心的抽象摘要：将查询相关性、多文档覆盖率和摘要长度约束纳入seq2seq模型。arXiv预印本arXiv：1801.07704。Danqi Chen ， Adam Fisch ， Jason Weston ， andAntoine Bordes. 2017.阅读维基百科来回答开放领域的问题 . 在 Proceedings of the 55th AnnualMeeting of the Association for ComputationalLinguistics （ Volume 1 ： Long Papers ）， pages1870- 1879中。艾米丽·迪南，斯蒂芬·罗尔，库尔特·舒斯特，安吉拉·范，迈克尔·奥利和杰森·韦斯顿。2018年维基百科的向导：知识驱动的会话代理。在国际学习代表会议上。Matthew Dunn ，Levent Sagun ，Mike Higgins，VUgur Guney，Volkan Cirik 和Kyunghyun Cho。2017. Searchqa：一个新的q数据集，用来自搜索引擎的上下文进行了增强。arXiv预印本arXiv：1704.05179。Esin Durmus，He He和Mona Diab。2020. Feqa：一个用于文摘可信度评估的问答评估框架. 第58届计算语言学协会年会论文集，第5055- 5070页。Hady Elsahar，Pavlos Zagiouklis，Arslen Remaci，Christophe Gravier ， Jonathe Hare ， FrederiqueLaforest，and Elena Simperl. 2018年a。T-rex：自然语言与知识库三元组的大规模对齐。在第十一届国际语言资源与评估会议（LREC2018）。Hady Elsahar，Pavlos Zagiouklis，Arslen Remaci，Christophe Gravier ， Jonathe Hare ， FrederiqueLaforest，and Elena Simperl. 2018年b。T-rex：自然语言与知识库三元组的大规模对齐。在第十一届国际语言资源与评估会议（LREC2018）。Angela Fan ， Yacine Jernite ， Ethan Perez ， DavidGrangier，Jason Weston，and Michael Auli.2019.第五章：长时间的问答第57届计算语言学协会年会集，第3558Adam Fisch ， Alon Talmor ， Robin Jia ， MinjoonSeo ， Eu-nsol Choi ， and Danqi Chen.2019.MRQA 2019共享任务：评估阅读理解。在第二届机器阅读问题分类研讨会的会议记录中，第1-13页，中国香港。计算语言学协会。约瑟夫·L·弗莱斯1971.测量许多评分者之间的名义量表一致性。心理学公报，378页。Kelvin Guu，Champion Lee，Zora Tung，PanupongPasu- pat和Ming-Wei Chang。2020. Realm：检索增强语言模型预训练。 arXiv 预印本 arXiv ：2002.08909。Gautier Izacard和Edouard Grave 2021.利用通道检索与生成模型进行开放域问题回答。在计算语言学协会欧洲分会第16次会议的会议记录中：主要期刊，第874Mandar Joshi，Danqi Chen，Yinhan Liu，Daniel SWeld，Luke Zettlemoyer，and Omer Levy.2020.Spanbert：通过表示和预测跨度来改进预训练。《计算语言学协会汇刊》，8：64Mandar Joshi ， Eunsol Choi ， Daniel Weld ， andLuke Zettlemoyer. 2017. Triviaqa：一个大规模的远程监督挑战数据集，用于阅读文本。第55届计算语言学协会年会论文集（卷1：长文）。Vladimir Karpukhin ， Barlas Oguz ， Se

下载后可阅读完整内容，剩余1页未读，立即下载