QAConv：信息性对话的问答数据集及模型研究

108 浏览量更新于2023-12-01 收藏 22.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0QAConv：信息性对话的问答0Chien-Sheng Wu†, Andrea Madotto‡, Wenhao Liu†, Pascale Fung‡, Caiming Xiong†0† Salesforce AI研究 ‡ 香港科技大学 {wu.jason, wenhao.liu, cxiong}@salesforce.comamadotto@connect.ust.hk0摘要0本文介绍了QAConv1，这是一个使用对话作为知识源的新的问答（QA）数据集。我们关注的是包括商务电子邮件、面板讨论和工作渠道在内的信息性对话。与开放领域和任务导向对话不同，这些对话通常是长、复杂、异步的，并涉及强大的领域知识。总共，我们从10,259个选定的对话中收集了34,204个问答对，包括基于跨度、自由形式和无法回答的问题，其中既有人工编写的问题，也有机器生成的问题。我们将长对话分割成块，并使用问题生成器和对话摘要生成器作为辅助工具来收集多跳问题。该数据集有两种测试场景，块模式和完整模式，取决于是否提供或从大型对话池中检索到基于块的信息。实验结果表明，训练在现有QA数据集上的最先进的QA系统在零-shot能力方面有限，并且倾向于将我们的问题预测为无法回答。在我们的语料库上微调这些系统可以在块模式和完整模式下分别实现23.6%和13.6%的显著改进。01 引言0进行对话是分享知识和交换信息最常见的方式之一。最近，随着远程工作的增加，许多沟通工具和平台被广泛使用，如何有效地检索信息并根据过去的对话回答问题变得越来越重要。在本文中，我们关注的是商务电子邮件（例如Gmail）、面板讨论（例如Zoom）和工作渠道（例如Slack）等对话。与日常闲聊[Li et al., 2017]和任务导向对话[Budzianowski et al.,2018]不同，这些对话通常是长、复杂、异步的、多方参与的，并涉及强大的领域知识。我们将其称为信息性对话，示例如图1所示。0然而，QA研究主要集中在文档理解（例如维基百科），而不是对话理解，而对话与文档在数据格式和措辞风格上存在显著差异[Wolf et al., 2019b, Wu et al.,2020]。与QA和对话AI相关的现有工作主要集中在对话QA[Reddy et al., 2019, Choi et al.,2018]，而不是对话上的QA。具体而言，对话QA具有顺序对话式的QA对，这些对话式QA对基于短文档段落，但我们更感兴趣的是基于对话的QA对，将过去的对话作为知识源。与我们最相关的工作是FriendsQA数据集[Yang and Choi,2019]，但它是建立在只有一千个对话的电视节目闲聊剧本上的。对话问答面临几个独特的挑战：1）信息分布在多个发言人之间，并散布在对话转换之间；2）更难的发言人和实体的共指消解问题；3）缺少训练数据以此格式。01 数据和代码可在https://github.com/salesforce/QAConv上获得0预印本。正在审查中。0arXiv:2105.06912v1[cs.CL]2021年5月14日0+v:mala2277获取更多论文20图1：对话问答和数据收集流程的示例。0在多个发言人之间分布的信息，并分散在对话转换之间；2）更难的发言人和实体的共指消解问题；3）缺少以这种格式的训练数据。0因此，我们引入了QAConv数据集，从电子邮件、面板和渠道数据中采样了10,259个对话。我们的数据中最长的对话样本有19,917个单词（或32个发言人），来自一次长时间的面板讨论。我们将长对话分割成18,728个较短的对话块，以收集人工编写的（HW）问答对或修改来自Amazon MechanicalTurk（AMT）的机器生成的（MG）问答对。我们训练了一个多跳问题生成器和一个对话摘要生成器，以获得非平凡的问答对。我们使用具有预测答案的QA模型来识别不确定的样本，并进行额外的人工验证阶段。数据收集流程如图1所示。总共，我们收集了34,204个问答对，其中包括5%的无法回答的问题。0我们构建了两个测试场景：1）在块模式下，提供相应的对话块来回答问题，类似于SQuAD数据集[Rajpurkar et al.,2016]；2）在完整模式下，需要进行对话检索阶段才能回答问题，类似于开放领域QA数据集[Chen andYih, 2020]。我们探索了几种最先进的QA模型，如在SQuAD2.0数据集上训练的跨度提取RoBERTa-Large模型[Liu et al.,2019]，以及在20个不同QA数据集上训练的生成式Uni�edQA模型[Khashabi et al.,2020]。我们使用基于统计的BM25 [Robertson et al.,1994]检索器和基于神经网络的密集通道检索器（DPR）[Karpukhin et al.,2020]作为基础对话检索器。我们展示了在两种模式下的零-shot和微调性能，并进行了改进研究和错误分0我们论文的主要贡献有三个方面：据我们所知，1）QAConv是第一个具有包括电子邮件、面板讨论和工作频道在内的信息性对话的QA数据集。我们为对话型QA提供了一个新的测试平台；2）我们首次将多跳问题生成（QG）模型纳入QA数据收集中，并通过人工评估证明了这种方法的有效性；3）我们展示了将长对话视为知识源的潜力，并指出了现有QA模型在文档训练和我们提出的QAConv数据集上的性能差距。0+v:mala2277获取更多论文30表1：与DREAM和FriendsQA数据集的比较。0QAConv DREAM FriendsQA0完整块0来源电子邮件、面板、频道闲聊（日常）闲聊（电视节目）形式跨度/自由形式/无法回答多项选择跨度问题 34,204 10,259 18,728 对话 10,259 18,728 6,444 1,222 平均/最大词数568.8 / 19,917 303.5 / 6,787 75.5 / 1,221 277.0 / 2,438 平均/最大发言者数 2.8 / 32 2.9 / 142.0 / 2 3.9 / 1502 QAConv 数据集0我们的数据集分为四个阶段进行收集：1）选择和分割信息性对话，2）通过多跳QG模型生成问题候选项，3）在这些对话/问题上众包生成问题-答案对，4）进行质量验证和数据划分。与相关工作的数据集比较如表1所示。02.1 数据收集02.1.1 选择和分割0首先，我们使用不那么技术性的世界广泛网联盟（W3C）网站的英属哥伦比亚对话语料库（BC3）[Ulrich et al., 2008]和Enron语料库[Klimt and Yang,2004]来代表商业电子邮件使用案例。BC3是W3C网站的一个子集。我们从Agarwal等人[2012]那里采样了Enron电子邮件的线程，这些邮件是从Enron公司收集的。其次，我们选择了法庭语料库[Danescu-Niculescu-Mizil et al., 2012]和媒体数据集[Zhu et al.,2021]作为面板讨论数据。法庭数据是美国最高法院口头辩论的记录。媒体数据是来自国家公共广播电台和有线新闻网络的采访记录。第三，我们选择了Slack聊天记录[Chatterjee et al.,2020]来代表工作频道对话。Slack数据是从几个公共的与软件开发相关的频道（如pythondev#help）中爬取的。每个来源的完整数据统计如表2所示，其许可证和隐私信息在附录中展示。0我们数据集收集中的一个主要挑战是输入对话的长度，因此对众包工作者来说非常低效。例如，法庭数据集中每个对话平均有13,143个词，而Slack频道的长对话中没有明确的边界注释。因此，我们通过基于轮次的缓冲区将长对话分割成短块，以确保每个块中的最大令牌数低于一个固定阈值，即512。对于Slack频道，我们使用Chatterjee等人[2020]的解缠脚本将频道消息拆分为独立的对话线程，然后我们要么分割长线程，要么合并短线程以获得最终的对话块。总共有18,728个块在QAConv中。02.1.2 多跳问题生成0为了获得更多需要推理的非平凡问题（即，答案与多个句子或轮次相关），我们利用问题生成器和对话摘要生成器生成多跳问题。我们有两个假设：1）在多跳QA数据集上训练的QG模型可以生成多跳问题，2）以对话摘要为输入的QG模型可以生成高级问题。根据第一个假设，我们在HotpotQA[Yang et al., 2018]上训练了一个T5-Base [Raffel et al.,2019]模型，该数据集是一个具有自然和多跳问题的QA数据集，用于为我们的对话块生成问题。根据第二个假设，我们首先在News [Narayan et al., 2018]和对话摘要[Gliwa et al.,2019]语料库上训练了一个BART [Lewis et al., 2020]摘要生成器，并在生成的摘要上运行QG模型。0我们过滤掉以下生成的问题：1）预训练的QA模型可以有一致的答案，2）QA模型具有与对话或摘要相关的相似答案。请注意，我们的QG模型具有“已知”答案，因为它是通过给定文本上下文和一个提取的实体来训练生成问题的。0+v:mala2277获取更多论文40表2：不同对话来源的数据集统计信息。0BC3 Enron Court0完整块完整块完整块0问题 164 8096 9456 对话 40 84 3,257 4,220 125 4,923 平均/最大单词数 514.9 / 1,236 245.2 / 593 383.6 / 69,13285.8 / 6,787 13,143.4 / 19,917 330.7 / 1,551 平均/最大发言者数 4.8 / 8 2.7 / 6 2.7 / 10 2.2 / 8 10.3 / 14 2.7 / 70媒体 Slack0完整块完整块0问题 9,155 5,599 对话 699 4,812 6,138 4,689 平均/最大单词数 2,009.6 / 11,851288.7 / 537 247.2 / 4,777 307.2 / 694 平均/最大发言者数 4.4 / 32 2.4 / 11 2.5 /15 4.3 / 140提取的实体。我们假设这些问题是可以轻松找到答案的平凡问题，因此对于我们的数据集来说并不有趣。02.1.3 众包QA对0我们使用两种策略来收集QA对，即人类作者和机器生成器。我们首先要求众包工作者阅读部分对话，然后我们随机分配设置，要么让他们自己编写QA对，要么选择一个推荐的机器生成的问题来回答。我们应用了几个即时约束条件来控制收集到的QA对的质量：1）问题应该有超过6个单词，并以问号结尾，至少有10％的单词必须出现在源对话中；2）问题和答案不能包含第一人称和第二人称代词（例如，我，你等）；3）答案必须少于15个单词，并且所有单词必须出现在源对话中，但不一定来自同一文本片段。0我们从问题池中随机选择四个MG问题，并要求众包工作者回答，不提供我们的预测答案。他们可以根据需要修改问题。为了收集无法回答的问题，我们要求众包工作者编写至少提及给定对话中的三个实体但无法回答的问题。我们向众包工作者支付大约每小时8-10美元的报酬，平均阅读和编写一个QA对的时间约为4分钟。02.1.4 质量验证和数据拆分0我们设计了一种基于不同答案的过滤机制：人类作者的答案、现有QA模型的答案以及QG问题的答案。如果所有答案的配对模糊匹配比（FZ-R）得分都低于75％，我们将进行另一轮众包调查，并要求众包工作者选择以下选项之一：A）QA对看起来不错，B）问题无法回答，C）问题的答案错误，D）问题的答案正确，但我更喜欢另一个答案。我们在大约40％的不确定样本上运行此步骤。我们过滤（C）选项的问题，并将（D）选项的答案添加到真实答案中。对于标记为（B）选项的问题，我们将它们与我们收集到的无法回答的问题结合起来。此外，我们还将1％的随机问题（从其他对话中抽样的问题）包含在相同的数据收集批次中，并且如果众包工作者未能将此类问题标记为（B）选项，则过滤其结果。最后，我们根据每个对话源内的抽样将数据分为80％的训练集，10％的验证集和10％的测试集，结果为27,287个训练样本，3,414个验证样本和3,503个测试样本。在训练、验证和测试集中，无法回答的问题分别占4.7％、4.8％和5.8％。02.2 QA分析0在本节中，我们分析了我们收集的问题和答案。我们首先调查问题类型的分布，并比较人工编写的问题和机器生成的问题。然后，我们通过现有的命名实体识别（NER）模型和成分解析器分析答案。02 https://pypi.org/project/fuzzywuzzy0+v:mala2277获取更多论文50图2：问题类型树状图和示例（最佳查看颜色）。0表3：HW问题与MG问题：比例和人工评估。来源问题生成器人工编写者0问题14,076（41.2%）20,128（58.8%）类型100 81-99 51-790-50答案未回答比例33.56% 19.92% 24.72% 21.80% 91.39% 8.61%0平均单词数12.94（±5.14）10.98（±3.58）流畅度1.8081.658复杂度0.899 0.674置信度0.830 0.90202.2.1 问题分析0问题类型。我们在附录的表9中展示了问题类型树状图，并与其他数据集进行了详细比较。在QAConv中，前5个问题类型分别是什么问题（29%），哪个问题（27%），如何问题（12%），谁的问题（10%）和何时问题（6%）。与SQuAD2.0（49%的什么问题）相比，我们的数据集具有更平衡的问题分布。无法回答的问题的分布与整体分布不同。前5个无法回答的问题类型分别是什么问题（45%），为什么问题（15%），如何问题（12%），哪个问题（10%）和何时问题（8%），其中为什么问题的比例从3%增加到15%。0人工编写者与机器生成器。如表3所示，有41.2%的问题是机器生成的问题。由于我们仍然允许众包工人在必要时修改问题，我们不能保证这些问题没有改变。我们发现我们推荐的问题中有33.56%没有改变（100%模糊匹配分数），其中19.92%的问题略有修改（81%-99%模糊匹配分数）。为了深入了解这两个问题来源的特点和差异，我们进一步通过随机抽样200个对话块进行人工评估。我们选择那些QG问题没有改变的块（即从33.56%的QG问题中抽样）。我们请三名标注员首先回答给定的问题和对话，然后标记流畅度（问题的流畅程度和语法正确性，从0到2），复杂度（寻找答案的难度，从0到2）和置信度（他们对答案是否有信心，0或1）。每个评估维度的更多细节在附录中显示。表3中的结果表明，QG问题更长，更流畅，更复杂，众包工人对他们提供正确答案的信心较低。这一观察进一步证实了我们的假设，即多跳问题生成策略对收集更难的QA示例是有效的。0+v:mala2277获取更多论文6+v:mala2277获取更多论文0表4：答案类型分析。0答案类型百分比示例0介词短语1.3%使用'syntax-local-lift-module'国籍或宗教1.3%白种高加索美国货币价值1.6%$250,000从句5.4%需要使用外部存储器来存储国家、城市、州8.9%芝加哥其他数字9.6%第66页，第4卷日期9.6%2020组织11.4%药物执法局人物，包括虚构人物12.5%汤米∙诺曼特名词短语30.4%普利策奖02.2.2 答案分析0根据Rajpurkar等人[2016]的方法，我们使用词性（POS）[Kitaev和Klein，2018]和SpacyNER标记器研究答案的多样性。首先，我们使用NER标记器为答案分配实体类型。然而，由于我们的答案不一定是实体，那些没有实体标签的答案将被传递给POS标记器，以提取相应的短语标签。在表4中，我们可以看到名词短语占数据的30.4%；其次是人物、组织、日期、其他数字和国家；其余部分由从句和其他类型组成。所有类别的分布在附录的图3中显示。02.3 块模式和完整模式0两种模式之间的主要区别在于我们用来收集问答对的对话块是否提供。在块模式中，我们的任务更像是传统的机器阅读理解任务，答案可以在一个短段落中找到（或找不到），通常少于500个单词。另一方面，在完整模式中，通常需要一个信息检索阶段，然后才是问答阶段。例如，在自然问题数据集[Kwiatkowski等，2019]中，他们将维基百科分成数百万个段落，并检索最相关的段落来回答问题。0我们根据以下假设定义了我们的完整模式任务：1）对于电子邮件和面板数据，我们假设知道一个问题对应于哪个对话，也就是说，我们只搜索对话中的块，而不是所有可能的对话。这样更简单、更合理，因为每个对话是独立的；2）对于slack数据，我们假设我们只知道一个问题属于哪个频道，而不知道对应的线程，因此检索部分必须在整个频道中完成。尽管由于数据收集方式的原因，完整模式下的问题可能是模棱两可的，但我们发现我们收集的大多数问题都是自包含的和特定于实体的。此外，对于开放域问答任务，已经显示出召回度量比精确度度量更重要[Izacard and Grave，2020]。03 实验结果03.1 最先进的基线模型0问答模型分为两类：基于跨度的抽取模型，预测答案的起始和结束位置，以及直接逐词生成答案的自由形式文本生成模型。我们在零-shot和微调设置以及块模式和完整模式下对所有模型进行评估，并使用检索器。03.1.1 基于跨度的模型0我们使用在SQuAD 2.0数据集上微调的几个预训练语言模型作为跨度抽取基线。我们使用了huggingface[Wolf等，2019a]库中上传的模型。DistilBERT[Sanh等，2019]是一个知识蒸馏版本，比BERT模型减小了40%的大小，并且在移动设备上被广泛使用。BERT-Base和RoBERTa-Base[Liu等，2019]模型被评估为研究界最常用的模型。我们还运行了BERT-Large和RoBERTa-Large模型作为更强的基线。我们使用BERT-Large的整词掩蔽版本，而不是原始论文中的标记掩蔽版本。EMFZ-RDistilBERT-Base (SQuAD 2.0)46.5052.7963.3063.6973.9479.30BERT-Base (SQuAD 2.0)42.7349.6760.9966.3776.2981.25BERT-Large (SQuAD 2.0)61.0668.1174.9872.8581.6585.59RoBERTa-Base (SQuAD 2.0)57.7564.5372.4071.1480.3684.52RoBERTa-Large (SQuAD 2.0)59.0466.5473.8074.6283.6587.38T5-Base (UniﬁedQA)57.7569.9076.3171.2080.9284.74T5-Large (UniﬁedQA)64.8375.7380.5973.5483.0386.61T5-3B (UniﬁedQA)66.7776.9881.7775.2184.1487.47T5-11B (UniﬁedQA)51.1366.1971.68---GPT-353.7267.4572.94---EMDistilBERT-Base (SQuAD)44.4751.1579.7022.4165.0175.8942.0842.59BERT-Base (SQuAD2)40.2347.5983.6621.8067.6278.1546.0444.59BERT-Large (SQuAD2)59.9867.6478.7130.2674.1983.5250.9953.66RoBERTa-Base (SQuAD2)56.4463.6479.2127.5672.7182.4945.5447.78RoBERTa-Large (SQuAD2)57.1665.1389.6030.8976.0185.5951.9855.64Two retrieval baselines are investigated in this paper: BM25 and DPR-wiki. The BM25 retriever is abag-of-words retrieval function weighted by term frequency and inverse document frequency. TheDPR-wiki model is a BERT-based [Devlin et al., 2018] dense retriever model trained for open-domainQA tasks, learning to retrieve the most relevant Wikipedia passage. We trained the DPR-wiki modelby sharing the passage encoder and question encoder, and we reduce the dimension of the denserepresentations from 768 to 128 with one fully connected layer to speed up whole retrieval process.70表5：评估结果：块模式。0零-shot微调0人类表现 79.99 89.87 92.33 - - -0表6：可回答/不可回答结果：块模式0零-shot微调0回答不可回答二进制回答不可回答二进制回答0人类表现 80.46 90.95 72.27 71.01 - - - -0我们运行了几个Uni�edQA模型版本[Khashabi等，2020]作为强大的生成QA基线。Uni�edQA基于T5模型[Raffel等，2019]，这是一个在750GBC4文本语料库上进行预训练的语言模型。Uni�edQA还在20个现有的QA语料库上对T5模型进行了进一步的微调，涵盖了四种不同的格式，包括抽取式、生成式、多选和是/否问题。它在10个事实和常识QA数据集上取得了最先进的结果。我们使用T5-Base、T5-Large和T5-3B对我们的数据集进行微调。我们报告了T5-11B大小的零射击性能。我们还测试了GPT3[Brown等，2020]的性能，其中我们将提示设计为将CoQA[Reddy等，2019]的一个训练示例与我们的测试样本连接起来。我们使用的提示在附录的表11中显示。03.1.2自由形式模型0本文研究了两种检索基线：BM25和DPR-wiki。BM25检索器是一个由词项频率和逆文档频率加权的词袋检索函数。DPR-wiki模型是一个基于BERT的[Devlin等，2018]密集检索模型，用于开放领域的QA任务，学习检索最相关的维基百科段落。我们通过共享段落编码器和问题编码器来训练DPR-wiki模型，并通过一个全连接层将密集表示的维度从768降低到128，以加快整个检索过程。03.1.3检索模型03.2评估指标0我们遵循QA社区的标准评估指标：精确匹配（EM）和F1分数。EM分数是一种严格的分数，预测的答案必须与真实答案相同。F1分数是通过预测答案和真实答案之间的标记重叠计算得出的。此外，我们还报告了FZ-R分数，它使用Levenshtein距离计算序列之间的差异。我们按照Rajpurkar等人的方法[2016]对答案进行了多种方式的归一化处理：去除停用词、去除标点符号，并将每个字符转换为小写。我们使用num2words和word2number库添加了一步，以避免预测差异，例如“2”和“two”。0+v:mala2277获取更多论文8+v:mala2277获取更多论文0表7：检索结果：BM25和DPR。0R@1 R@3 R@5 R@100BM25 0.584 0.755 0.801 0.852 DPR-wiki0.432 0.596 0.661 0.7510表8：评估结果：使用BM25的全模式。BM25零射击微调0EM F1 FZ-R EM F1 FZ-R0DistilBERT-Base（SQuAD 2.0）33.66 38.19 52.28 43.51 52.12 62.63BERT-Base（SQuAD 2.0）30.80 35.80 50.50 44.62 52.91 63.50BERT-Large（SQuAD 2.0）42.19 47.59 59.41 48.99 56.60 66.40RoBERTa-Base（SQuAD 2.0）41.11 46.15 58.35 48.42 56.24 66.080T5-Base（Uni�edQA）39.68 49.76 60.51 48.56 56.38 66.01T5-Large（Uni�edQA）44.08 53.17 63.17 49.64 57.58 67.36T5-3B（Uni�edQA）45.87 55.24 64.83 51.44 58.80 68.1003.3性能分析03.3.1块模式0我们首先通过要求众包工作者回答我们测试集中的QA对来估计人类表现。我们为每个问题收集两个答案，并选择具有更高FZ-R分数的答案。请注意，我们无法衡量众包工作者的细心程度，因此表5中列出的数字可以视为人类表现的下限。正如表5中显示的块模式结果，具有3B大小的Uni�edQAT5模型实现了66.77％的零射击EM分数和75.21％的微调EM分数，与人类表现相差不到5％。这一观察结果与最近的趋势相吻合，即在特定下游任务（例如，QA任务[Khashabi等，2020]和对话任务[Wu等，2020]）上对聚合数据集进行预训练的大规模语言模型通过知识转移可以展示出最先进的性能。0与此同时，这些基于跨度的模型在较小的模型尺寸下表现出良好的性能。BERT-Base模型在微调后的EM分数上取得了最大的提升，提高了23.64个百分点。进行了词屏蔽预训练的BERT-Large模型在零-shot EM分数上达到了61.06％，如果我们在我们的训练集上进一步微调基于SQuAD2.0的RoBERTa-Large模型，它将达到74.62％的EM分数。我们发现Uni�edQAT5模型（11B）无法达到与3B模型一样好的性能，一个潜在的原因是该模型太大，并且尚未经过Khashabi等人的充分训练。使用CoQA提示的GPT-3模型在我们当前的提示设计下最多可以达到53.72％的零-shot性能。0我们进一步在表6中检查了可回答和不可回答问题之间的结果差异。在可回答的问题中，Uni�edQA模型优于基于跨度的模型，然而，它们无法回答任何不可回答的问题，并且继续预测一些“答案”。更有趣的是，我们观察到那些基于跨度的模型在可回答的问题上表现不佳，但在二元设置中对不可回答的问题具有较高的召回率但低的F1值（预测可回答或不可回答）。这表明现有的基于跨度的模型倾向于将我们的任务预测为不可回答，揭示了它们在对话理解能力方面的弱点。03.3.2 完整模式0检索器的结果显示在表7中，我们发现在我们的数据集上，BM25在召回率@k度量上远远优于DPR-wiki，其中我们报告 k = 1, 3, 5,10。可能的两个原因是：1）维基百科和对话之间的数据分布差异很大，DPR无法正确地转移到未见过的文档上；2）QAConv中的问题更加具体，与提及的实体更相关，这使得BM25方法更可靠。我们使用BM25显示了完整模式的结果（DPR-wiki的结果显示在表10中）。我们只使用一个检索到的对话块作为训练好的QA模型的输入。结果是，在零-shot设置下，Uni�edQA（T5-3B）的性能下降了约20％，RoBERTa-Large的微调结果也下降了24.4％，这表明完整模式存在严重的错误传播问题。9+v:mala2277获取更多论文04 错误分析0我们首先检查在块模式下在我们的训练数据上微调后，测试集中哪些QA样本的改进最大。我们检查那些在RoBERTa-Large零-shot实验中不完全匹配但在微调后变为正确的样本。我们发现这样的样本中有75％被错误地预测为不可回答，这与表6中的结果一致。接下来，我们分析微调后的错误预测。我们发现35.5％是what-question错误，18.2％是which-question错误，12.1％是how-question错误，10.3％是who-question错误。我们还从FZ-R分数低于50％的错误中随机抽取了100个QA对，并手动检查了预测的答案。我们发现这样的例子中有20％在某种程度上是合理的（例如，UCLA与加利福尼亚大学，JaySonneburg与Jay），31％是预测错误的答案，但具有正确的实体类型（例如，Eurasia与中国，Susan Flynn与SaraShackleton），38％是具有不同实体类型的错误答案（例如，监狱与药物测试，感恩节与第四季度），11％被错误地分类为不可回答的问题。05 相关工作0QA数据集可以分为四类。第一类是填空式QA，模型必须填写空白处。例如，Children's Book Test[Hill et al., 2015]和Who-did-What数据集[Onishi et al.,2016]。第二类是阅读理解QA，模型选择多项选择题或是是/否问题的答案。例如，RACE [Lai et al.,2017]和DREAM [Sun et al., 2019]数据集。第三类是基于跨度的QA，例如SQuAD [Rajpurkar etal., 2016]和MS MARCO [Nguyen et al.,2016]数据集，模型从给定的上下文中提取文本跨度作为答案。第四类是开放领域QA，答案从大量段落中进行选择和提取，例如WikiQA [Yang et al., 2015]和Natural Question [Kwiatkowski et al.,2019]数据集。0与对话相关的QA任务侧重于像对话一样提出顺序问题和回答，并基于短篇章。CoQA [Reddy et al.,2019]和QuAC [Choi et al.,2018]是这一类别下最具代表性的对话QA数据集。CoQA包含对话QA对、自由形式的答案以及作为理由的文本片段，以及来自七个领域的文本段落。QuAC通过教师-学生设置在维基百科章节上收集数据，可以是开放式的、无法回答的或上下文特定的问题。与我们的工作最接近的是Dream [Sun etal.,2019]，它是一个基于多项选择的对话式阅读理解考试数据集，但对话通常是在两个人之间的日常闲聊领域中进行的。FriendsQA [Yang and Choi,2019]是从电视剧《老友记》的剧本中编制的，其中也包括人物之间的闲聊对话。0总的来说，我们的任务也与对话作为知识源有关。任务导向的对话系统中的对话状态跟踪任务也可以看作是这一目标的一个具体分支，其中跟踪槽位和值可以重新构建为QA任务[Li et al.,2021]，例如，“餐厅的位置在哪里？”此外，从开放领域对话中提取用户属性[Wu et al.,2019]，通过对话了解用户，可以被视为潜在的应用之一。最近提出的基于查询的会议摘要数据集QMSum [Zhong et al., 2021]，可以被视为将对话视为数据库并进行抽象化问答任务的一种应用。06 结论0QAConv是一个在信息性对话（如电子邮件、面板和频道）上进行QA的新数据集。它包含34,204个问题，包括基于跨度的问题、自由形式的问题和无法回答的问题。我们展示了我们任务的独特挑战，包括使用部分对话的块模式和使用检索阶段的完整模式。我们发现，最先进的QA模型在零样本性能方面有限，并且倾向于将我们可回答的QA对预测为无法回答的，经过微调后可以显著改善。QAConv是一个用于对话任务和将对话作为知识源研究的新测试平台。10+v:mala2277获取更多论文0参考文献0Apoorv Agarwal，Adinoyi Omuya，Aaron Harnly和OwenRambow。Enron组织层次结构的全面黄金标准。在《计算语言学协会第50届年会论文集（第2卷：短论文）》中，第161-165页，韩国济州岛，2012年7月。计算语言学协会。URLhttps://www.aclweb.org/anthology/P12-2032 .0Tom B Brown，Benjamin Mann，Nick Ryder，Melanie Subbiah，Jared Kaplan，PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，Girish Sastry，AmandaAskell等。语言模型是少样本学习器。arXiv预印本arXiv:2005.14165，2020年。0Paweł Budzianowski，Tsung-Hsien Wen，Bo-Hsiang Tseng，Iñigo Casanueva，Stefan Ultes，OsmanRamadan和MilicaGaši´c。MultiWOZ-一个大规模的多领域人机对话数据集，用于任务导向的对话建模。在《2018年自然语言处理实证方法会议论文集》中，第5016-5026页，比利时布鲁塞尔，2018年10月-11月。计算语言学协会。doi:10.18653/v1/D18-1547。URL https://www.aclweb.org/anthology/D18-1547 .0Preetha Chatterjee，Kostadin Damevski，Nicholas A. Kraft和LoriPollock。与软件相关的松弛聊天与解缠对话。MSR'20，第588-592页，美国纽约，2020年。计算机协会。ISBN 9781450375177。doi:10.1145/3379597.3387493。URL https://doi.org/10.1145/ 3379597.3387493 .0Danqi Chen和Wen-tauYih。开放领域问答。在《计算语言学协会第58届年会：教程摘要》中，第34-37页，2020年7月在线。计算语言学协会。doi: 10.18653/v1/2020.acl-tutorials.8。URL https://www.aclweb.org/anthology/2020.acl-tutorials.8 .0Eunsol Choi，He He，Mohit Iyyer，Mark Yatskar，Wen-tau Yih，Yejin Choi，Percy Liang和LukeZettlemoyer。 QuAC：上下文中的问答。在 2018年经验方法自然语言处理会议论文集上，页2174–2184，比利时布鲁塞尔，2018年10月-11月。计算语言学协会。 doi:10.18653/v1/D18-1241. URL https://www.aclweb.org/anthology/ D18-1241 .0Cristian Danescu-Niculescu-Mizil，Lillian Lee，Bo Pang和Jon Kleinberg。权力的回声：语言效应和社交互动中的权力差异。在第21届国际万维网会议论文集上，页699–708，2012年。0Jacob Devlin，Ming-Wei Chang，Kenton Lee和Kristina Toutanova。Bert：用于语言理解的深度双向变压器的预训练。 arXiv预印本arXiv:1810.04805 , 2018年。0Bogdan Gliwa，Iwona Mochol，Maciej Biesek和Aleksander Wawer。Samsum语料库：用于抽象摘要的人工注释对话数据集。 arXiv预印本arXiv:1911.12237 , 2019年。0Felix Hill，Antoine Bordes，Sumit Chop

下载后可阅读完整内容，剩余1页未读，立即下载