QA模型：提问的生成式和提取式读者系统研究分析及多任务学习的影响

147 浏览量更新于2023-11-30 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文明智地选择您的QA模型：用于提问的生成式和提取式读者的系统研究罗满1，2，桥本一马2SemihYavuz2刘志伟2Chitta Baral1周颖波21亚利桑那州立大学2Salesforce Research1{mluo26，chitta}@asu.edu2{k.hashimoto，syavuz，zhiweiliu，yingbo.zhou} salesforce.com摘要虽然抽取式和生成式阅读器都已成功地应用于问题回答（QA）任务，但很少有人关注它们之间的系统比较描述这两种读者的优势和劣势不仅对于在实践中更明智地选择读者至关重要，而且对于发展更深层次的理解，以促进以原则性方式改进读者的进一步研究也至关重要。基于这一目标，本文首次系统地比较研究了抽取式和生成式阅读器在问答中的作用。为了与最先进的技术保持一致，我们将九个基于transformer 的大型预训练语言模型（PrLM）作为骨干架构。此外，我们组织我们的发现下两个主要类别：（1）保持不变的架构，（2）变化的基础PrLM。在几个有趣的发现中，重要的是要强调：（1）生成读取器在长上下文QA中表现更好，（2）提取读取器在短上下文中表现更好，同时还显示出更好的域外泛化，以及（3）编码器-解码器PrLM的编码器（例如，T5）证明是强提取读取器并且优于仅编码器PrLM的标准选择（例如，RoberTa）。我们还研究了多任务学习对两种类型的读者的影响，改变了潜在的PrLM，并进行定性和定量诊断，以进一步了解未来的方向，在建模更好的读者。1介绍提问是一项重要的工作以评估智能系统的阅读理解能力，并且可以直接应用于诸如搜索引擎的实际应用（Kwiatkowski等人，，2019）和对话系统（Reddy et al. ，2019; Choi et al. ，2018）。这在Salesforce Research实习期间完成的工作论文研究了提取QA，这是一种特定类型的QA;即，使用来自上下文的跨度回答问题（ Rajpurkar et al. ， 2016; Fischet al. ，2019 ）。提取读数器（ Seo et al. ， 2017;Devlin et al. ，2019）被广泛用于解决这样的任务，其中目标是在上下文中对答案的开始和结束位置进行分类。生成型读者（Raffel etal. ， 2020; Lewis 等人， 2020 c;Izacard 和Grave，2021）也显示出可评论的性能，其中目标是通过自回归预测令牌来生成答案。最先进的提取和生成阅读器都基于大型预训练语言模型（PrLM），并在不同的数据集上表现出良好的性能。然而，它们之间的系统比较在很大程度上尚未探索。这样的比较揭示了每个读者的优势和劣势，这反过来又可以提供更多的原则性指导，在哪些情况下应该应用哪些读者和PrLM，也开辟了未来的研究机会，根据确定的具体挑战，以改善读者模型。然而，很难在这些之间进行公平的比较，主要是因为1）提取和生成的PrLM是不同的，即，提取读取器通常建立在仅编码器PrLM之上，而生成读取器基于编码器-解码器PrLM，以及2）生成读取器和提取读取器的大小不相同，这会极大地影响性能。我们设计了两个主要的对照实验，以解决这些挑战，在比较提取和生成的读者在原则上的方式。在第一组实验中，我们使用相同的PrLM比较了提取型和生成型读者。具体地， T5（Raffel et al. ，2020）将生成读取器与T5提取读取器进行比较，并且对于BART（Lewis etal. ，2020a）。这允许公平比较不同的答案预测方法，而不受不同的架构或先验知识的PrLM。更多-arXiv：2203.07522v1[cs.CL] 2022年3月+v：mala2277获取更多论文此外，我们通过利用编码器-解码器PrLM的编码器更具体地说，我们使用T5和BART模型的编码器来探索它们作为提取阅读器的能力，以更好地理解不同预训练策略对最终QA性能的影响。虽然上述比较策略采用相同的PrLM，但仍不清楚生成式阅读器与构建在仅编码器PrLM上的传统提取式阅读器因此，在第二个实验中，我们比较了不同架构的PrLM，包括T5、BART、ELECTRA（Clark et al. ，2020）和RoBERTa（Liu et al. ，2019），以得出更一般化和更有根据的结论。这组实验中的所有模型都具有相似的大小，从而减少了模型大小对性能的影响通过这两个实验，我们使用9名阅读者对MRQA任务进行了提取和生成阅读器的系统比较（Fisch et al. ，2019），多个提取QA数据集的集合。这项评价得出了五项有见地的结论：1. 第一个实验表明，PrLM的选择影响性能。具体而言，对于T5，生成读者优于提取读者，但对于BART，提取读者优于生成读者。2. 第二个实验表明，平均而言，提取阅读器的性能优于生成阅读器，其中构建在T5编码器上的提取阅读器在不同类型的PrLM中表现最好。3. 提取式阅读器在短上下文中表现更好，并且在域外数据集和罕见答案上具有更好的泛化，但是生成式阅读器在长上下文中表现更好4. 编码器-解码器PrLM的编码器也是良好的提取读取器。构建在BART或T5编码器之上的提取读取器优于仅编码器的PrLM，如RoBERTA。5. 虽然推理长度通常选择与训练时间相同，但我们发现较长的推理长度对所有PrLM都有积极影响对于长上下文使用较长的长度会比短上下文带来更大的收益。我们的工作提出了一个深入的研究提取和生成读者的问答任务，一个重要的NLP的任务是构建智能系统。我们的研究结果揭示了读者选择背后的关键因素，并将有助于制定未来的研究推进读者模型。2相关工作在这里，我们主要讨论基于transformers架构的两种类型的预训练模型（Vaswani et al. ，2017），自动编码器和编码器-解码器模型，广泛用于QA任务。 Autoencoder仅依赖于原始Transformer中的编码器部分，并且在预训练时间中，输入是一个损坏的句子，例如，具有掩码令牌的句子，例如BERT（Devlin et al. ，2019 ）和 RoBERTa （ Liu et al. ， 2019 ）和ELECTRA（Clarket al. ，2020）。RoBERTa和ELECTRA都具有与BERT相同的架构，但在许多任务上比BERT执行得更好。RoBERTa主要受益于由新闻，书籍，故事和网络文本组成的大型训练语料库。ELECTRA采用GAN式训练（Mirza和Osindero，2014），旨在检测令牌是否被替换或者是来自原始文本。大型ELECTRA 使用与 RoberTa 类似的数据进行BART（Lewiset al. ，2020b）和T5（Raffel etal. 2020）属于编码器-解码器架构。BART是在与Roberta相同的数据上进行预训练的，而T5是在Colossal Clean Common Crawl Corpus以及多个下游任务上进行预训练的。我们专注于建立在PrLM基础上的QA系统。提取式QA阅读器假设答案可以在上下文中找到，并且旨在从上下文中预测相应的开始和结束标记（Fisch et al. ，2019; Li et al. ，2019;Clark等人，2020; Karpukhin等人，2020）。因此，生成式QA阅读器不限于输入上下文，在输入上下文中，他们可以以自回归方式使用整个词汇表逐个令牌地自由生成答案（Raffel et al. ，2020 ）。生成式阅读器更常用于开放域（ Lewis et al. ， 2020 c; Izacard andGrave ，2021; Xiong et al. ， 2021 ）和统一设置（ Khashabi et al. ， 2020;Tafjord 和 Clark ，2021）。Fajcik等人（2021）通过添加分类模块来决定哪个读者预测答案，从而将提取和生成读者结合起来。Cheng等人（2021）提出了一个提取和生成读者的统一系统，但不同于（Fajcik et al. ，2021），输出由提取读取器和生成读取器两者计算。+v：mala2277获取更多论文----|···|∈Σ关于我们3模型我们主要研究了基于PrLM的QA模型的提取和生成方法。3.1提取读取器在抽取式阅读器中，编码器首先接收问题q的级联：q1，. . . .，q，t和上下文c：c1，. . . ..然后，它产生h：[h1hm]Rd×m，其中hj对应于上下文标记cj的d维上下文表示. 然后我们把两个域内数据集域外数据集表一：统计域内（IID）和域外（out-of-domain）在上下文表示之上的线性层，以独立地预测每个上下文标记是正确答案的开始和结束位置的概率。更正式地说，给定一个元组（q，c，a），其中a是答案，训练目标是最小化以下损失函数LExt=−log（Pstart，s）−log（Pend，e）（1）其中Pstart，Pend∈Rm定义为：Pstart=softmax（wstart h）（2）Pend=softmax（wend h）（3）领域（OOD）数据集的MRQA基准。H.然后，解码器将先前生成的答案令牌作为输入，并在h上执行注意，然后生成下一个令牌。形式上，给定元组（q，c，a），训练目标是最小化以下损失函数KLGen=log P（a i|h，a：i）（4）i=1其中K是答案a中的令牌数，ai是a中的第i个标记，0对应于SPE。其中w开始和w端对于线性铺设，序列开始（BOS）令牌。在推理时，我们使用贪婪搜索方法预测开始和结束标记的概率，Pstart，s和Pend，e分别表示答案a 在测试时间，答案跨度由argmaxi，jPstart，iPend，j解码。在这项工作中，我们有两个变种的extrac-有吸引力的读者。一种是仅编码器模型，用于获取每个标记的上下文表示。我们称这种阅读器为电子提取阅读器。除了采用传统的PrLM如 RoberTa 和 ELECTRA 外，我们还将 T5 和BART中的编码器部分应用于E-Extractive阅读器。另一种是使用编码器-解码器模型，其中解码器将以自回归方式获得上下文中每个标记的上下文表示（参见§3.2）。我们使用BART和T5 PrLM，并将这种阅读器称为ED提取阅读器。3.2生成式阅读器我们考虑一个生成的读者组成的编码器和解码器的解码器是用来生成答案的自回归的方式。特别地，编码器将问题q和上下文c作为输入并输出上下文表示自回归生成答案。4实验4.1数据集我们在MRQA基准上进行了实验，该基准提供了六个域内（ IID ）数据集和六个域外（OOD）数据集用于泛化评估。MRQA涵盖不同的领域（例如新闻和生物医学）和不同类型的问题（例如单跳和多跳）。表1显示了每个IID和OOD数据集的统计数据一些数据集具有长上下文，另一些数据集具有短上下文。有关MRQA的更多详细信息见附录A。4.2学习策略单任务学习：我们使用每个IID数据集来训练提取和生成读者。多任务学习：我们认为所有（六个）IID数据集的训练As（Su et al. ，2019）表明，不同的IID数据集具有较低的相似性，因此，它们可能需要不同的推理技能。此外，表1显示不同的数据集具有不同的数据集培训规模Avg. Q中的代币Avg. C中的tokens小队86,58811.53144.15新闻资讯74,1607.60581.61TriviaQA61,68815.81782.59搜索QA117,38417.46744.44HotpotQA72,92818.89237.67NQ104,0719.18158.80下降-11.18215.16种族-11.82347.90BioASQ-11.53252.83教科书QA-11.07663.36RE-9.2630.02DuoRC-8.63732.92+v：mala2277获取更多论文问题和上下文长度，这可能导致数据集之间的不同困难。4.3实验装置我们使用Huggingface（Wolf et al. ，2020）和Py-torch（Paszke et al. ，2019年），用于培训每个模型。所有模型都使用最大输入长度512和其他细节进行训练见附录B1。在表2中，我们总结了每个评估模型的大小，并基于可比方式和最佳计算能力选择PrLM的大小。例如，我们为生成式阅读器选择T5基本模型，因为大的T5太大（737 M）。输入格式：给定问题Q和上下文C，提取阅读器的输入是{Q[SEP]C}，生成阅读器的输入是{问题：Q[SEP]上下文：C}。我们还考虑了其他输入格式，在附录C中报告。生成式阅读器的答案长度：我们将生成式阅读器的最大生成答案长度设置为16。使用更长的世代长度（32和64）不会产生明显的改善，如附录D所报告。5结果和分析我们首先介绍了对每个模型使用不同推断长度的研究，因为它指导我们选择每个模型的最佳性能。然后，我们比较了生成和提取读者使用相同的PrLM和不同的PrLM。最后，我们对抽取式读者和生成式F1用于衡量性能。请注意，由于我们在12个数据集上测试了每个模型，因此我们得出的观察结果和结论主要基于所有数据集的平均值。5.1语境长度虽然所有模型都是用512最大长度训练的，但推理长度可以比这更长我们用三个长度进行实验，512，1024，以及输入问题和上下文的完整长度由于每个PrLM的标记化和预训练最大长度，ELECTRA仅允许512个最大推断长度，RoBERTA和BART允许我们在表3- 2中给出了每个模型在IID和OOD上的平均性能，从中观察到三个趋势。(1)当使用512推理长度时，ELECTRA是IID数据集上单任务学习和IID和OOD数据集上多任务学习的最佳(2)增加推理长度实际上提高了所有模型的性能。(3)长度对T5模型的影响更大，例如，在单任务学习中，长度1024对T5模型在IID和OOD数据集上的最大改进为2。77%，5。49%，而对于其他型号，长度1024相比512的最大改进是1. 32%和1。百分之六十五使用512和1024的性能在附录E中给出，我们在下面的章节中展示了使用最佳输入长度的每个数据集的性能。5.2相同PrLM当使用相同的PrLM时，我们比较不同的读取器考虑两个PrLM，T5和BART，其中T5-基础模型应用于每个T5阅读器，BART-大模型应用于每个BART阅读器。我们有三种比较，因为有两种类型的提取和一种类型的生成读者（§3）。我们给出了每次比较的平均性能，每个数据集的详细性能见附录F。由于E- Extractive阅读器只使用PrML的编码器部分而不使用解码器，因此E-Extractive阅读器的大小但令人惊讶的是，即使在这个缺点下，我们发现编码器部分实际上在QA任务中表现良好在图1中，红色和绿色条比较ED-Extractive和E-Extractive读数器。对于BART模型，在单任务学习和多任务学习中， E-Extractive阅读器在IID和OOD数据集上的平均性能优于ED- Extractive阅读器。这表明BART中的解码器对于提取阅读器并不重要。另一方面，对于T5，ED-提取阅读器在IID和OOD数据集上的平均性能优于E-提取阅读器这表明，在T5的解码器仍然发挥作用，以产生更好的性能。但性能相似，即使电子提取阅读器具有较少的参数。1024，T5允许输入的全长。2注意，在单任务学习中，1虽然我们为了实验效率而固定了所有模型的训练超参数，但我们设置的性能接近原始结果。OOD是从每个数据集上每个单任务模型的最佳性能中提取的，这适用于本文中的所有其他+v：mala2277获取更多论文T5 E-ExtT5 E-ExtT5 ED-ExtT5 ED-GenBart E-ExtBart ED-ExtBart ED-GenElectra罗伯塔大小基地大基地基地大大大大大#参数（M）110335223223204406406334354表2：阅读器的尺寸和参数ED：编码器-解码器，Ext用于提取，Gen用于生成方法。模型域内平均值域外平均值5121024充分5121024充分单任务学习T5 E-Ext（B）74.42 七十五点八77.9355.89 58.0658.65T5 E-Ext（L）76.46 七十八点六七80.8560.74 六十三点六七64.49T5 ED-Ext（B）74.75 七十七点零六分79.1157.11 59.1959.99T5 ED-Gen（B）77.91 80.6881.0256.26 六十一点七五61.82BART E-Ext（L）77.78 七十九点十分-59.67 六十一点三二-BART ED-Ext（L）77.10 七十七点三四-59.29 五十九点二一-BART ED-Gen（L）69.89 70.24-49.65 五十三点五一-RoberTa（L）77.59 七十七点八九-60.32 六十点四十七-ELECTRA（L）78.71 - --60.19 - --多任务学习T5 E-Ext（B）75.74 七十六点六五78.9958.94 六十一点五五61.98T5 E-Ext（L）77.10 七十九点半81.5563.04 66.1066.78T5 ED-Ext（B）75.92 七十七点三八79.9359.23 61.8662.64T5 ED-Gen（B）78.06 80.8981.1657.82 六十三点五六63.68BART E-Ext（L）77.75 七十九点一三-63.27 64.06-BART ED-Ext（L）77.26 七十七点五五-62.14 62.68-BART ED-Gen（L）78.11 七十八点五五分-57.41 六十点五四-RoberTa（L）77.86 七十八点零二分-63.7063.58-ELECTRA（L）78.52 - --63.83 - --表3：使用三个推断长度的每个模型的结果。粗体数字表示IID和OOD数据集具有三个推断长度的每个模型的最高值。L：大PrLM，B：基础PrLM图1：左为单任务，右为多任务设置。对于T5，ED-Ext的性能优于E-Ext阅读器;对于BART，E-Ext优于ED-Ext阅读器，尽管前者的参数较少。ED-提取和ED-生成读取器这里，提取读取器和生成读取器的模型大小几乎相同（参见表2），并且两个读取器的预先拥有的知识也相同，因为两个读取器都使用编码器和解码器部分。在图 2 中，红色和蓝色条比较了 ED-Extractive和ED-Generative读取器。对于T5，生成模型在四种情况下，IID和OOD数据集以及单任务和多任务学习上的表现优于提取模型为+v：mala2277获取更多论文BART PrLM，在单任务学习中，提取模型比生成模型好得多。这可能解释了为什么在大多数以前的工作中，当BART应用于提取QA任务时，它被用作提取读取器，即使它属于编码器-解码器模型家族3。多任务学习的故事是不同的，我们发现BART生成阅读器从多任务学习中受益匪浅，甚至在IID数据集上优于BART ED提取阅读器。这表明BART中的解码器需要更大和更多样化的数据集来学习QA任务。图2：左为单任务，右为多任务设置。对于T5，ED-Gen的表现优于ED-Ext;对于BART，ED-Ext在单任务学习中优于ED-Gen，但在多任务学习中较差。E-Extractive和Generative Reader在这个比较中，由于E-Extractive Reader中删除了解码器，因此提取式阅读器的优势不如生成式阅读器在图 3 中，绿色和蓝色条比较了 E-Extractive和ED-Generative读取器。对于T5模型，无论是单任务还是多任务，无论是IID数据集还是OOD数据集，生成型阅读器都优于抽取型阅读器。但是，正如我们在前面的比较中讨论的那样，提取读取器的这种缺点可能来自较小的模型大小对于BART模型，E-Extractive阅读器在IID和OOD数据集上的性能显著优于生成式阅读器，并且E-Extractive阅读器的优势在单任务学习场景中更为显著总而言之，1. T5和BART中的编码器部分本身可以作为提取读取器执行良好。3. BART 的原始论文采用 BART 作为抽取，在Huggingface库中使用BART进行QA的实现也是如此。+v：mala2277获取更多论文∼图3：左为单任务，右为多任务设置。对于T5，ED-Gen优于E-Ext阅读器;对于BART，E-Ext优于ED-Gen阅读器，尽管前者的参数较少。2. 使用BART和T5的三种类型的阅读器之间的比较表明，尽管两种PrLM都是编码器-解码器架构，但三种类型的阅读器的行为完全不同。这可能是由于训练前的目标和知识不同造成的。3. 对于BART模型，E-Extractive阅读器优于ED-Extractive阅读器和生成式阅读器，无论参数如何，因此应用作提取阅读器。4. BART生成式阅读器需要大型且多样化的数据集来学习QA任务，因此从多任务学习中受益匪浅5. 对于T5，生成型读者的表现始终优于两种类型的提取型读者。T5-Extractive阅读器的不足可能是由参数较少引起的。5.3不同PrLM上一节比较了使用相同PrLM的生成和提取读取器，两种PrLM都是编码器-解码器模型。一方面，这种比较减少了PrLM架构和预先拥有的知识的影响。另一方面，它引起了两个关切。首先，使用编码器-解码器PrLM的提取阅读器毕竟，在大多数以前的工作中，仅编码器的PrLM是提取读取器的第二，提取阅读器的较小尺寸是否导致其相对于生成阅读器的不足，特别是T5 E-Extractive阅读器在先前的比较中是T5生成阅读器的一半尺寸。为了清除第一个问题，在这里，我们提出了跨不同PrLM的比较，包括用于提取读取器的标准仅编码器模型。为了解决第二个问题，我们仔细选择了模型尺寸，以便每个模型具有相对可比的尺寸。每种型号尺寸的选择当将BART PrLM用于提取读取器时，我们只使用BART E-Extractive读取器而不使用ED-Extractive读取器，因为前者的性能更好，即使它具有更少的参数（204M），而后者具有更大的尺寸。T5生成式阅读器也更小（223M），但这比使用T5大型生成式阅读器与其他阅读器（737M）进行比较要好得多对于BART生成式阅读器，它比其他阅读器大（406M）。上述设置的一个潜在问题是，即使我们选择了最佳比较设置，每个模型尺寸仍然不同，因此如果模型的性能低于其他模型，则可能是由于模型尺寸较小然而，我们得出的以下结论并不影响这个问题。编码器-解码器PrLM适合提取式阅读器吗？基于表4，我们发现编码器-解码器PrLM作为提取读取器平均优于仅编码器PrLM。 T5和BART E-Extractive阅读器在单任务和多任务学习下的 IID 和 OOD 数据集上的表现都优于RoBERTa和ELECTRA，而不管T5和BART的参数如何。这一观察结果令人兴奋，因为与使用标准的仅编码器PrLM作为提取阅读器相比，编码器-解码器PrLM实际上是更好的选择。哪一位读者对面向对象设计的概括性更好？提取阅读器在OOD数据集上更好地泛化在单任务和多任务学习中，T5 E-Extractive阅读器表现出最好的性能，特别是击败了BART生成阅读器，即使后者具有更多的参数。BART E-Extractive阅读器也很好地概括了OOD，它也击败了BART生成式阅读器，尽管前者的参数比后者少哪个PrLM最好？基于表4，我们看到T5在IID和OOD数据集上的单任务和多任务学习场景中是四个PrLM中最好的。我们观察到T5比其他PrLM的两个首先，T5在NewsQA数据上比ELECTRA和ROBERTA好得多。在单任务和多任务学习中，4请注意，T5 PrLM已经在SQuAD上进行了训练，而其他人则没有。然而，基于SQuAD的结果，T5在该数据集上并不优于其他模型+v：mala2277获取更多论文模型小队新闻资讯TQA域内数据集SQA HQANQAvg.下降种族域外数据集BioASQTbQA REDuoRCAvg.单任务学习T5 ED-Gen90.7571.6579.6186.2179.8978.0481.0248.0848.8967.3660.3084.9461.3561.82BART ED-Gen78.7566.2067.8178.8973.2256.5870.2444.2243.7055.5945.1176.8355.6353.51T5 E-Ext92.4772.6376.0983.2480.6780.0080.8553.1452.0671.2661.9285.7862.8064.49捷运E-Ext92.1972.2073.1277.1980.6179.2979.1051.5748.8268.8351.2986.0461.3561.32Electra93.3960.2376.3182.5480.9978.7878.7155.4349.8066.9647.8086.2354.9060.19罗伯塔92.6459.9572.9781.6281.2178.9577.8955.8847.7264.4752.3186.6955.7560.47多任务学习T5 ED-Gen91.41 +0。6671.29-0。3680.01 +0。4086.46 +0。2579.70-0。19 七十八点零九分。05八十一点一六+0。1451.20 +3。12四十九点六六+0。77六十八点七二+1。3662.90 +2。6085.84 +0。9063.76 +2。4163.68 +1。86BART ED-Gen88.63 +9。8868.91 +2。7174.91 +7。1082.52 +3。6380.53 +7。3175.78 +19。2078.55 +8。3155.20 +10。9850.04 +6。3463.78 +8。1954.81 +9。7080.94 +4。1158.47 +2。8460.54 +7。03T5 E-Ext92.84 +0。37七十三点五一+0。88七十七点三七+1。2882.89-0。35 八十一点九二+1。25八十点七四+0。7481.55 +0。7059.10 +5。9654.01 +1。9571.13-0。13 64.90 +2。9886.53 +0。7565.01 +2。2166.78 +2。29捷运E-ExtElectra罗伯塔92.46 +0。2793.27-0。1293.41 +0。7772.11-0。09六十点五九+0。3659.56-0。3972.24-0。8872.96-3。3572.23-0。7476.53-0。6682.03-0。5180.98-0。6482.04 +1。4383.10 +2。1182.37 +1。1679.40 +0。11七十九点一六+0。3879.55 +0。60七十九点一三+0。0378.52-0。1978.02 +0。1358.22 +6。6562.56 +7。1364.47 +8。5950.40 +1。5850.29 +0。4951.81 +4。0970.72 +1。8971.50 +4。5469.15 +4。6856.29 +5。0054.60 +6。8053.68 +1。3786.79 +0。75八十七点一四+0。9186.31-0。3861.95 +0。60五十六点八八+1。9856.06 +0。3164.06 +2。7463.83 +3。6463.58 +3。11表4：根据F1评分比较基于不同PrLM的阅片员。T5的推断长度已满上下文长度，ELECTRA为512，BART和ROBERTa为1024。TQA：TriviaQA; SQA：SearchQA; HQA：HotpotQA; NQ：NaturalQuestions;TbQA：TextbookQA; RE：Extraction。粗体数字表示最佳结果，下划线数字表示次佳结果。和ELECTRA在NewsQA上的F1得分达到60%左右，而T5提取和生成阅读器的F1得分都超过70%，提高了10%以上。其次，T5在长上下文数据集上更好在IID、TQA和SQA中，T5 ED-生成式阅读器至少优于其他阅读器3。30%和3。67%，单任务，7。05%，4。43%在多任务学习中。在OOD数据集、TbQA和DuoRC上，T5 E-Extractive阅读器至少比其他阅读器好9。61% ， 1。 45% 在单一任务， 8。 61% ， 3 。06%，多任务。我们要提到的是，T5的这一优势取决于使用完整的推理长度，当使用短输入长度（如512）时，这一优势不会像我们在§5.1中所示的那样表现出来。哪种PrLM从多任务学习中受益更多？虽然多任务学习通常对所有PrLM都有益，但我们发现BART从多任务学习中获益最多，尤其是对于生成型读者。例如，在 IID 数据集上。BART生成式阅读器平均提高了8%以上，而所有其他阅读器的提高不到1%。同样，对于OOD数据集，BART生成式阅读器上的多任务学习的改善比其他阅读器更显著。总而言之，1. 编码器-解码器PrLM实际上可以用作提取读取器，它们甚至平均优于提取读取器的常规选择（仅编码器PrLM）。2. 在面向对象数据集上，抽取式阅读器的性能优于生成式阅读器，尤其是基于编码器-解码器PrLM的抽取式阅读器。3. T5是四种PrLM中性能最好的更好地在新闻领域和长期的背景下。T5的优势是以使用完整的推理长度为条件的4. 虽然一般来说，多任务学习对所有PrLM都有好处，但BART PrLM受益最多。5.4深入诊断我们研究了抽取模型和生成模型在长上下文和短上下文中的行为，并预测了包含稀有字符的答案。选择§5.3中的多任务模型进行比较。5.4.1长和短上下文正如我们在前一节所讨论的，生成式读取器比提取式读取器更有优势。为了进一步支持这一趋势，我们将测试集分为五个子集，在这些子集中，我们计算问题和上下文中的总单词，并选择五个阈值，2/4/6/8/10百。值得一提的是，由于所有提取读取器都使用窗口步幅策略（即，如果输入长度大于最大长度，则将输入分割为多个输入），因此对于提取读取器来说，整个上下文都是可观察的。从图4中，我们有两个观察结果。首先，在IID数据集上，对于小于600个单词的问题和上下文，提取的表现总是优于生成的表现（虚线高于实线），但当长度超过600个单词时，生成的表现持续优于提取的表现。这表明，提取型阅读者在短语境中表现更好，而生成型阅读者在长语境中表现更好。第二，在OOD数据集上，T5生成式阅读器在长上下文（超过600字）中仍然具有优势，而BART+v：mala2277获取更多论文答案类型域GenExt图4：生成读者和提取读者在不同问题长度和上下文上的比较。左部分为IID，右部分为OOD数据集。虚线表示提取式阅读器，实线表示生成式阅读器。无论是在短语境还是在长语境中，生成型阅读器的阅读效果都要差于抽取型阅读器。但是，BART生成型读者和提取型读者之间的差距在长语境上比短语境上要小这可能表明，提取型读者比生成型读者具有更好的概括能力，从而削弱了生成型读者在长语境中的优势。T5巴特T5巴特RoEl罕见IIDOOD68.9759.2573.6479.8477.7985.2278.5484.9578.6480.7378.1886.94正常IIDOOD82.7168.2880.0264.1979.9869.979.9566.9180.3567.7578.1868.12表5：在罕见和正常答案方面比较提取和生成读者。Ro代表RoberTa，EL代表ELECTRA。5.4.2回答中的罕见字符问题答案预测我们发现测试集的一些答案包括罕见字符，如n′和n ′（发现119个），因此，谁是在华沙出生的最著名的人之一？玛丽亚·斯克诺多夫斯卡库里玛丽亚·斯科多夫斯卡-居里我们将测试集分成两个子集，一个是正常答案集，其中答案不包含稀有字符5，另一个是稀有字符5。哪个博物馆保存着对这场犯罪的记忆？凯蒂博物馆KatyMuseum字符. IID和OOD数据集的罕见病例百分比分别为1.4%和2%从表5中，我们有两个观察结果。首先，在正常情况下，提取式和生成式阅读器在IID和OOD数据集上的性能相对相当，但在极少数情况下，提取式阅读器优于生成式阅读器，这表明提取式阅读器比生成式阅读器具有更好的泛化能力。其次，我们看到，在域内和域外数据集中，稀有令牌对T5的影响比BART生成读取器更差。进一步的研究发现，119个稀有字符中有94个不能被T5标记器表示（即T5标记器使用显然，BART标记器可以表示所有罕见字符。提高生成式阅读器在预测罕见答案方面的表现，5稀有字符是指任何不属于Python字符串库中可打印字符的字符可打印字符包括小写和大写字母、数字、标点符号和空白。表6：具有包含罕见字符的答案的问题的示例和T5-Gen的预测。未来的重要工作。总而言之，1. 提取型读者在短语境中的阅读效果优于生成型读者，而生成型读者在长语境中的阅读效果优于提取型读者。2. 生成型阅读者在预测稀有字符答案时表现较差，T5的表现比BART差。6结论和今后的工作我们系统地比较了抽取型和生成型读者在问答任务中的表现。设计了两组实验，以控制不同PrLM和模型尺寸的影响。通过对12个QA数据集进行实验，我们的研究结果提供了如何根据其优点和缺点选择抽取式或生成式读者的指导方针调查观察结果背后的原因，提高生成和提取读者将是未来有趣的研究问题。+v：mala2277获取更多论文引用Hao Cheng ， Yelong Shen ， Xiaodong Liu ，Pengcheng He，Weizhu Chen，and Jianfeng Gao.2021. Unit-edQA ：一种开放领域问答 . 在Proceedings of the 59th Annual Meetings of theAssociation for Computational Linguistics and the11th International Joint Conference on NaturalLanguage Processing（Volume 1：Long Papers）中，第3080计算语言学协会崔恩索尔、何贺、莫希特、马克、尹文涛、崔业珍、梁柏西、路克.2018. QuAC：上下文问答。2018年自然语言处理经验方法，第2174-2184页，比利时布鲁塞尔。计算语言学协会。Kevin Clark，Minh-Thang Luong，Quoc V. Le，andChristopher D.曼宁2020. Electra：预训练文本编码器作为判别器而不是生成器 . ArXiv ，abs/2003.10555。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。马丁·法伊奇克，马丁·多塞卡，Karel Ondrej，以及P. Smrz.2021.修剪的指数用于存储器高效开放域QA的内容。ArXiv，abs/2102.10697。Adam Fisch ， Alon Talmor ， Robin Jia ， Minj

下载后可阅读完整内容，剩余1页未读，立即下载