对话问答:重新评估静态对话历史对模型表现的影响

196 浏览量更新于2023-12-01 收藏 19.24MB PDF 举报

信息检索

模型开发

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0放弃黄金标准：重新评估对话问答0Huihan Li � Tianyu Gao � Manan Goenka Danqi ChenPrinceton大学计算机科学系{huihanl,tianyug,mgoenka,danqic}@princeton.edu0摘要0对话问答旨在为信息检索对话中的用户提供自然语言答案。现有的对话问答基准通过比较模型与预先收集的人机对话，使用对话历史中提供的真实答案进行评估。目前尚不清楚我们是否可以依赖这种静态评估进行模型开发，以及当前系统是否能够很好地推广到真实世界的人机对话。在这项工作中，我们进行了第一次大规模的人工评估，评估了最先进的对话问答系统，其中人工评估者与模型进行对话并判断其答案的正确性。我们发现人机对话的分布与人人对话的分布有很大的差异，并且在模型排名方面，人机对话与黄金历史评估存在分歧。我们进一步研究如何改进自动评估，并提出了一种基于预测历史的问题重写机制，该机制与人工判断更好地相关。最后，我们分析了各种建模策略的影响，并讨论了构建更好的对话问答系统的未来方向。01 引言0对话问答旨在构建能够回答对话中的问题的机器，并有望彻底改变人类与机器进行信息检索的方式。随着大规模数据集的最新发展（Choi等，2018；Saeidi等，2018；Reddy等，2019；Campos等，2020），在对话问答系统的建模方面取得了快速进展。当前的对话问答数据集是通过众包人机对话收集的。0*第一和第二作者贡献相等。我们的数据和代码可以在https://github.com/princeton-nlp/EvalConvQA上公开获取。0在评估对话问答系统时，使用一组保留的对话依次向模型提问。由于评估是基于预先收集的对话进行的，无论模型的实际预测如何，对话的黄金历史始终被提供（图1（b））。尽管当前的系统在这种静态评估中达到了接近人类的F1分数，但这是否能真实地反映模型在实际应用中的性能是有问题的。人机对话在多大程度上偏离人人对话？如果模型在对话中没有访问真实答案，会发生什么？为了回答这些问题并更好地了解对话问答系统的性能，我们通过让人工评估者与四个最先进的模型进行对话并判断其答案的正确性，在QuAC数据集（Choi等，2018）上进行了第一次大规模的人工评估。我们总共收集了1,446个人机对话，包含15,059个问题-答案对。通过仔细分析，我们注意到人机对话与人人对话存在显著的分布偏移，并且在当前评估协议和人工判断之间存在明显的模型性能不一致。这一发现激励我们改进自动评估，使其更好地与人工评估相一致。Mandya等（2020）；Siblini等（2021）在黄金历史评估中发现了类似的问题，并提出使用模型自己的预测结果进行自动评估。然而，预测历史评估也带来了另一个挑战：由于所有问题都事先收集好了，使用预测的历史将使一些问题无效，因为对话历史发生了变化（见图1（c）的示例）。基于这一直觉，我们提出了一个问题0arXiv:2112.08812v2[cs.CL]2022年3月21日0+v:mala2277获取更多论文1985.0主题：Spandau Ballet（英国流行乐队）0这个乐队在国际上的第一张成功专辑是什么？0他们获得了白金级别的地位。0这是哪一年发生的？0这个乐队在国际上的第一张成功专辑是什么？0他们获得了白金级别的地位。0“Only When You Leave”。0其中有哪些歌曲？0金标答案：“1984年的“游行”。0这个乐队在国际上的第一张成功专辑是什么？0他们获得了白金级别的地位。0???0（a）人工评估（b）自动评估 w/0其中有哪些歌曲？0（c）自动评估 w/0预测历史金标历史0图1：使用金标或预测历史进行人工和自动评估的示例。模型错误地回答了第一个问题。（a）人类提问者根据当前预测提出下一个问题。（b）使用金标历史的自动评估将预先收集的问题和金标答案作为对话历史。（c）在自动评估中使用预测历史使下一个问题无效。0重写机制，它可以自动检测和重写具有预测历史的无效问题（图4）。我们使用一个共指消解模型（Lee等，2018年）来检测问题文本中基于预测历史和金标历史的一致性，并通过替换正确的提及来重写这些问题，以便在预测的上下文中可以解决这些问题。与预测历史评估相比，我们发现加入这个重写机制更符合人工评估。最后，我们还根据人工评估研究了不同建模策略的影响。我们发现准确检测无法回答的问题和明确建模对话中的问题依赖关系对模型性能至关重要。在获得所有这些见解的基础上，我们讨论了对话型问答建模的方向。我们发布了我们的人工评估数据集，并希望我们的发现能为未来开发更好的对话型问答系统提供启示。02 预备知识02.1 对话型问答的评估0在现实世界中评估对话型问答包括三个组成部分：证据段落 P，没有访问 P 的（人类）提问者H，以及有访问 P 的模型 M。提问者根据 P提出问题，模型根据 P和迄今为止的对话历史回答这些问题（见图1（a）中的示例）。形式上，对于第 i轮，人类提问一个问题：02现有的对话型问答数据集做出了不同的假设：例如，QuAC（Choi等，2018年）假设没有访问权限，而CoQA则假设提问者有访问权限。0基于先前对话提出问题。0Q i � H(Q 1 , A 1 , ..., Q i − 1 , A i − 1)，(1)0然后模型根据历史和段落进行回答。0A i � M(P, Q 1 , A 1 , ..., Q i − 1 , A i − 1 , Q i)，(2)0其中，Q i 和 A i 分别表示第 i轮的问题和答案。如果问题无法从 P 中回答，则将A i 标记为 CANNOT ANSWER。模型 M的评估是根据答案的正确性进行的。评估对话型问答系统需要人工参与，因此成本较高。相反，当前的基准测试使用自动评估和人机对话收集一组人机对话进行自动评估。对于每个段落，一个注释者在不看段落的情况下提出问题，而另一个注释者提供答案。将收集到的问题和答案表示为 Q � i 和 A �i。在基于金标历史的评估中，模型根据预先收集的问题 Q � i 和金标答案作为历史进行查询：0A i � M（P，Q � 1，A � 1，...，Q � i−1，A � i−1，Q0我们通过比较A i 和A � i 来评估模型0（以单词级F1度量）。这个过程不需要人力，但不能真正反映人机对话的分布，因为与人类提问者可能根据不同的模型预测提出不同的问题不同，这个静态过程忽略了模型预测，并总是提出预先收集的问题。在这项工作中，我们选择QuAC数据集（Choi等人，2018）作为我们的主要评估，因为它更接近真实世界的信息寻求对话，其中在数据集收集期间，提问者无法看到证据段落。它防止提问者提出与段落重叠的问题，并鼓励无法回答的问题。QuAC还采用了抽取式问答，将答案限制为文本片段，这通常被认为更容易评估。0+v:mala2277获取更多论文For human evaluation and analysis, we choose thefollowing four conversational QA models with dif-ferent model architectures and training strategies:of qualiﬁcation questions to make sure that the an-notators fully understand our annotation guideline.For each model and each passage, we collect threeconversations from three different annotators.We collect each conversation in two steps:(1) The annotator has no access to the passageand asks questions. The model extracts the an-swer span from the passage or returns CANNOTANSWER in a human-machine conversation inter-face.5 We provide the title, the section title, thebackground of the passage, and the ﬁrst questionfrom QuAC as a prompt to annotators. Annotatorsare required to ask at least 8 and at most 12 ques-tions. We encourage context-dependent questions,but also allow open questions like “What else isinteresting?” if asking a follow-up question is difﬁ-cult. (2) After the conversation ends, the annotatoris shown the passage and asked to check whetherthe model predictions are correct or not.We noticed that the annotators are biased whenevaluating the correctness of answers. For ques-tions to which the model answered CANNOTANSWER, annotators tend to mark the answer asincorrect without checking if the question is an-swerable. Additionally, for answers with the cor-rect types (e.g. a date as an answer to “When wasit?”), annotators tend to mark it as correct withoutverifying it from the passage. Therefore, we askedanother group of annotators to verify question an-swerability and answer correctness.0对于人类评估和分析，我们选择了以下四个具有不同模型架构和训练策略的对话QA模型：02.2 模型0BERT.这是一个简单的BERT（Devlin等人，2019）基线，它将前两轮的问题-答案对、问题和段落连接在一起作为输入，并预测答案范围。30该模型与Qu et al.（2019a）中的“BERT +PHQA”基线相同。0GraphFlow.Chen等人（2020）提出了一个基于BERT嵌入的循环图神经网络，用于建模问题、历史和段落之间的依赖关系。0HAM.Qu等人（2019b）提出了一种历史注意机制（HAM），用于软选择最相关的先前轮次。0ExCorD.Kim等人（2021）在CANARD（Elgohary等人，2019）上训练了一个问题重写模型，以生成与上下文无关的问题，然后使用原始问题和生成的问题来训练QA模型。该模型在QuAC上达到了当前的最新水平（67.7%F1）。除了BERT之外的所有模型，我们使用原始实现进行直接比较。我们在表2中报告了它们在标准基准和我们的评估上的性能。03 人类评估03.1 对话收集0在本节中，我们使用上述四个模型进行了大规模的人类评估。我们使用QuAC开发集中的100个段落在亚马逊机械土耳其上收集人机对话。4我们还设计了一组资格问题，以确保注释者完全理解我们的注释准则。对于每个模型和每个段落，我们从三个不同的注释者那里收集三个对话。我们分两步收集每个对话：（1）注释者无法访问段落并提问问题。模型从段落中提取答案范围或在人机对话界面中返回CANNOTANSWER。我们向注释者提供标题、章节标题、段落背景和来自QuAC的第一个问题作为提示。注释者被要求提出至少8个问题，最多12个问题。我们鼓励上下文相关的问题，但也允许开放性问题，比如“还有什么有趣的吗？”，如果提出后续问题很困难。（2）对话结束后，向注释者显示段落，并要求他们检查模型的预测是否正确。我们注意到，在评估答案的正确性时，注释者存在偏见。对于模型回答为CANNOTANSWER的问题，注释者倾向于在不检查问题是否可回答的情况下将答案标记为不正确。此外，对于具有正确类型的答案（例如，对于“它是什么时候？”的答案是日期），注释者倾向于在不从段落中验证的情况下将其标记为正确。因此，我们要求另一组注释者验证问题的可回答性和答案的正确性。03 我们使用bert-base-uncased作为编码器。4我们限制来自英语国家的注释者，并且那些完成了至少1000个HITS并且接受率大于95%的注释者。亚马逊机械土耳其工人的补偿率使用每小时15美元计算。03.2答案验证0对于每个收集到的对话，我们要求另外两名标注者验证注释。首先，每个标注者在看到对话之前阅读段落。然后，标注者只看到问题，并选择问题是否（a）不符合语法，（b）无法回答或（c）可回答。如果标注者选择“可回答”，界面将显示答案并询问其正确性。如果答案是“不正确”，标注者从段落中选择正确的答案范围。我们丢弃两名标注者都认为“不符合语法”且正确性是三个标注中的多数的问题。03.3注释统计0总共，我们收集了1,446个人机对话和15,059个问题-答案对。我们将这个收集作为一个重要的资源发布，05我们使用ParlAI（Miller等，2017）构建了界面。0+v:mala2277获取更多论文# C3573593733571,000# Q3,7553,6663,9593,6797,3548082848688906062646668700人工评估QuAC0BERT GF HAM ExCorD0表1：人工评估中收集到的对话数量（#C）和问题数量（#Q），使用了QuAC开发集中的100个段落。我们还添加了QuAC开发集作为参考。GF：GraphFlow。0补充现有的对话问答数据集。表1显示了每个模型收集到的对话和问题-答案对的数量。该收集的数据分布与原始的QuAC数据集（人-人对话）非常不同：我们看到更多的开放性问题和无法回答的问题，这是由于模型错误导致的对话流程不够流畅，而且模型不能像人类回答者那样向提问者提供关于答案是否值得跟进的反馈（在第6.2节中进行更多分析）。对于某些情况下，甚至对于人类来说，决定答案的正确性也是具有挑战性的，特别是当问题简短且含糊不清时。我们测量标注者的一致性，并计算验证阶段标注者之间的Fleiss'sKappa（Fleiss，1971）一致性。我们获得了总体标注一致性的κ =0.598（中等一致性）。关注可回答性标注，我们获得了κ = 0.679（显著一致性）。04人工评估与黄金历史评估之间的分歧0我们现在比较人工评估和黄金历史（自动）评估的结果。请注意，这两组数字不能直接进行比较：（1）人工评估报告准确率，而自动评估报告F1分数；（2）人工评估的绝对数字要比自动评估的数字高得多。例如，对于BERT模型，人工评估的准确率为82.6％，而自动评估的F1为63.2％。原因是在自动评估中，黄金答案无法捕捉到开放式问题或多个答案问题的所有可能正确答案；然而，人工标注者可以轻松评估答案的正确性。尽管如此，我们可以比较不同模型之间的相对排名。图2显示了人工评估和黄金历史评估（Auto-Gold）之间的不同趋势。0BERT GraphFlow HAM ExCorD0模型0准确率（%）0人工评估自动评估0图2：人工评估（准确率，左）和自动评估（F1，右）的模型表现。准确率和F1的刻度不同。人工评估和自动评估对BERT和GraphFlow的排名不同。0当前的标准评估无法反映模型在人机对话中的表现：（1）人工评估和自动评估对BERT和GraphFlow的排名不同；特别是，在自动评估中，GraphFlow的表现要好得多，但在人工评估中表现较差。（2）HAM和ExCorD之间的差距在自动评估中是显著的（F1分别为65.4％和67.7％），但在人工评估中这两个模型的表现相似（准确率分别为87.8％和87.9％）。0自动评估的5种策略0人工评估与黄金历史评估之间的不一致表明我们需要更好的方法来评估和开发我们的对话问答模型。当在现实场景中部署时，模型以前的回合中将永远无法访问到真实情况（黄金答案），只能接触到对话历史和段落。直观地说，我们可以简单地用模型的预测答案替换黄金答案，我们将其称为预测历史评估（Auto-Pred）。形式上，模型根据问题和自己的答案进行预测：0A i � M（P，Q � 1，A 1，...，Q � i−1，A i−1，Q �i）。（4）0这种评估已经被几个最近的研究（Mandya等，2020年；Siblini等，2021年）提出，他们报告了使用预测历史时的显著性能下降。我们观察到相同的性能下降，如表2所示。然而，预测历史自然引发了另一个问题：Q � i是由数据集的注释者根据（Q �1，A � 1，...，Q � i−1，A � i−1）编写的，该问题是0+v:mala2277获取更多论文S∗i = [BG; Q∗i−k; A∗i−k; Q∗i−k+1; A∗i−k+1; ...; Q∗i ]Si = [BG; Q∗i−k; Ai−k; Q∗i−k+1; Ai−k+1; ...; Q∗i ],0未解决的指代（44.0%）0Q � 1：Frenzal Rhomb的第一首歌是什么？A �1：Punch in the Face. A 1：无法回答。0Q � 2：它的表现如何？0不连贯（39.1%）0Q � 1：比利∙格雷厄姆成功成为牧师了吗？A �1：他不久之后得了腮腺炎... A1：在佛罗里达康复一段时间后，他...0Q � 2：他在诊断腮腺炎后退休了吗？0正确答案发生变化（16.9%）0Q � 1：还有其他有趣的方面吗？A � 1：... Steve DiGiorgio回到了乐队... A 1：...贝斯手GregChristian再次离开了Testament...0Q � 2：在这次换班之后发生了什么？0图3：使用预测历史的无效问题示例。为了更好地演示，有些问题被缩短了。Q � i，A �i：来自收集的数据集的问题和黄金答案，Ai：模型预测的答案。0当历史被更改为（Q � 1，A 1，...，Q � i−1，Ai−1）时，可能会变得不自然或无效。05.1 预测历史使问题无效0我们检查了100个QuAC对话与表现最佳的模型（ExCorD），并确定了由预测历史引起的无效问题的三个类别。我们发现在使用预测历史后，23%的问题变得无效。我们总结了无效问题的类型如下（详细示例见图3）：0•未解决的指代（44.0%）。问题包含一个代词或一个明确的名词短语，该名词短语指代一个无法在没有黄金历史的情况下解决的实体，因此问题变得无效。0•不连贯（39.1%）。问题与对话流程不连贯（例如，提及在预测历史中不存在的实体）。虽然人类可能仍然可以使用段落回答问题，但这会导致对于模型来说对话不自然，并且在训练和测试中存在差异。0•正确答案发生变化（16.9%）。这个问题的答案在预测历史上发生了变化，与基于黄金历史时的答案不同。0我们进一步分析了最大的“未解决的指代”类别的原因，并发现模型要么对先前的问题给出了错误答案（“错误预测”，39.8%），要么模型对先前问题给出了不同（但正确）的答案0乐队在国际层面上的第一次成功是什么专辑？0成为乐队在美国的最后一次成功。0在其中有哪些歌曲核心指代消解0黄金答案：“1984年的游行”。0它们取得了白金认证。0使用预测和黄金历史的共指结果不匹配。0“Parade”中有哪些歌曲通过黄金历史共指结果重写。0首张单曲“Only When You Leave”。0黄金答案：“Only When You Leave”。0它在排行榜上表现如何？共指消解。0共指结果匹配。不需要重写。0图4：问题重写示例。我们使用黄金历史中的指代重写第二个问题，因为预测和黄金历史具有不同的共指结果。由于共指结果相同，我们不重写第三个问题。0开放性问题（“开放性问题”，37.0%），或者模型错误地返回“无法回答”（“无预测”，9.5%），或者黄金答案比预测答案长，下一个问题取决于额外部分（“额外黄金信息”，13.6%）。无效的问题会导致错误的累积，进而可能影响模型对后续问题的解释。05.2使用问题替换进行评估0在所有无效的问题类别中，“未解决的共指”问题是最关键的。它们导致对问题的错误解释，从而得出错误的答案。我们建议通过首先使用最先进的共指消解系统（Lee等，2018年）6检测这些问题，然后通过在原地重写问题和用其与上下文无关的替代问题替换问题来改进我们的评估。0检测无效问题。我们假设如果共指模型在使用黄金历史（Q � 1 , A � 1 , ..., A � i − 1 , Q � i）和预测历史（Q � 1 , A 1 , ..., A i − 1 , Q � i）解析 Q � i 时解析提及的方式不同，则将 Q � i识别为存在未解决的共指问题。对于 Q � i，共指模型的输入如下：0我们使用AllenNLP的共指模型（Gardner等，2018年）。0+v:mala2277获取更多论文BERTGraphFlowHAMExCorDBERTGraphFlowHAMExCorDAuto-Gold (F1)63.264.965.467.761.866.664.566.4Auto-Pred (F1)54.649.657.261.252.754.554.659.2Auto-Rewrite (F1)54.548.257.361.951.251.955.159.7Auto-Replace (F1)54.247.857.161.750.751.754.859.7dataset (Elgohary et al., 2019) provides such a re-source, which contains human-rewritten context-independent version of QuAC’s questions. Recentworks (Anantha et al., 2021; Elgohary et al., 2019)have proposed training sequence-to-sequence mod-els on such dataset to rewrite questions; however,since the performance of the question-rewritingmodels is upper bounded by the human-rewrittenversion, we simply use CANARD for question re-placement. We denote this strategy as replaced-question evaluation (Auto-Replace). Because col-lecting context-independent questions is expensive,Auto-Replace is limited to evaluating models onQuAC; it is also possible to be extended to otherdatasets by training a question rewriting model, asdemonstrated in existing work.0所有可回答的问题0人工（准确率）82.6 81.0 87.8 87.9 75.9 83.2 84.8 85.30表2：自动评估和人工评估中的模型性能。我们报告所有问题的整体性能以及仅可回答问题的性能。0其中BG是背景，S � i和Si表示黄金历史和预测历史的输入。在共指模型返回给定S � i和Si的实体集群信息后，我们提取实体列表E � = { e � 1, ..., e � | E � | } 和E = { e 1 , ..., e | E | }。我们只有当E � = E时才说Q � i是有效的，即，0| E � | = | E | 且 e � j = e j , � e j ∈E,0假设e � j和e j在Q �i中有共同的提及。我们通过检查F1（s � j，s j）>0来确定e � j = e j，其中s � j和s j分别是e � j和ej的第一次提及，F1是词级F1得分，即，只要它们的第一次提及有词重叠，e � j = ej。我们之所以使用F1而不是精确匹配来检查实体是否相同，原因在附录A中说明。0通过实体替换进行问题重写。我们的第一个策略是将Q�i中的实体名称替换为E�中的实体，如果Q�i无效。改写后的问题将用于对话历史并输入模型。我们将这种评估方法称为重写问题评估（Auto-Rewrite），图4展示了一个具体的例子。为了分析Auto-Rewrite在检测和重写问题方面的表现，我们手动检查了QuAC开发集中的100个ExCorD对话。我们发现Auto-Rewrite可以以72%的精确度和72%的召回率检测到无效问题（更详细的分析见附录B）。图4展示了一个正确检测和重写问题的例子。0使用CANARD进行问题替换。另一种策略是用与上下文无关的问题替换无效问题。CANARD数据集（Elgohary等，2019）提供了这样的资源，其中包含了QuAC问题的人工重写的与上下文无关的版本。最近的研究（Anantha等，2021；Elgohary等，2019）提出了在这种数据集上训练序列到序列模型来重写问题；然而，由于问题重写模型的性能上限是由人工重写版本确定的，我们只是简单地使用CANARD进行问题替换。我们将这种策略称为替换问题评估（Auto-Replace）。由于收集与上下文无关的问题是昂贵的，Auto-Replace仅限于在QuAC上评估模型；通过训练一个问题重写模型，也可以将其扩展到其他数据集，这在现有工作中已经得到证明。07我们只对当前问题Q�i中提到的实体感兴趣，并过滤掉命名实体（例如，国家橄榄球联盟），因为它们可以在没有共指消解的情况下理解。06 自动评估与人工评估的比较0在本节中，我们将人工评估与我们介绍的所有自动评估进行比较：黄金历史（Auto-Gold）、预测历史（Auto-Pred）以及我们提出的自动重写（Auto-Rewrite）和自动替换（Auto-Replace）评估。我们首先解释了比较中使用的指标（§6.1），然后讨论了发现（§ 6.2和§ 6.3）。06.1 一致性指标0模型性能和排名。我们首先考虑使用不同评估方法报告的模型性能。考虑到自动和人工评估的数量不能直接比较，我们还计算了模型的排名，并比较了自动和人工评估之间的排名是否一致。模型性能报告在表2中。在人工评估中，GraphFlow < BERT< HAM ≈ ExCorD；在Auto-Gold中，BERT

下载后可阅读完整内容，剩余1页未读，立即下载