+v:mala2277获取更多论文ConditionalQA:一个包含条件答案的孙海天卡内基梅隆大学计算机科学学院haitians@cs.cmu.eduWilliam W.科恩谷歌研究wcohen@google.com卡内基梅隆大学计算机科学学院rsalakhu@cs.cmu.edu摘要我 们 描 述 了 一 个 包 含 复 杂 问 题 的 问 答(QA)数据集,这些问题具有条件答案,即答案仅在某些条件适用时才适用。我们称这个数据集为ConditionalQA。除了条件答案之外,该数据集还具有以下特征:(1)具有以逻辑复杂方式相关的信息的长上下文文档;(2)需要组合逻辑推理的多跳问题我们表明,条件QA是具有挑战性的许多现有的QA模型,特别是在选择答案的条件。我们相信,这个数据集将推动进一步的研究,以回答复杂的问题,在长文件。数据和排行榜是公开的1.1介绍最近已经提出了许多阅读理解(RC)数据集(Rajpurkar et al. ,2016,2018; Kwiatkowskiet al. ,2019; Yang et al. ,2018; Dasigi et al. ,2021; Ferguson等人,2020)。在阅读理解任务中,模型被提供了一个文档和一个问题,并被要求找到答案。现有阅读理解数据集中的问题通常具有唯一的用我们说这些问题有确定性的答案。然而,现实世界中的问题并不总是有确定性的答案,即。在不同的条件下,问题的答案是不同的。例如,在图1中,文档讨论了“丧葬费”,并且有一个问题询问申请人的资格。这个问题1https://github.com/haitian-sun/条件QA图1:Conditional QA数据集中的问题和文档示例。左侧是讨论“丧葬费”福利资格文本跨度绿色和红色的文本是必须满足的要求,因此被选为“是”和“否”答案的条件不能确定地回答:只有当“你在英国安排葬礼”时,答案才是死者的另一名近亲在工作”是真的我们把在不同条件下不同的答案称为条件答案。一个有条件的答案由一个答案和一个条件列表组成。一个答案只有在其条件适用时才为真。在上面的例子答案可以有多种条件。条件答案通常在上下文复杂的情况下出现;例如,当一个人提出一个问题时,心中有一些先前的知识,但不能列举所有必要的细节来获得确定性的答案。我们说这样的问题是不完整的。回答不完整问题的一种实用方法是找到问题的所有arXiv:2110.06884v1 [cs.CL] 2021年10+v:mala2277获取更多论文我们提出了ConditionalQA数据集,其中包含有条件答案的问题当地居民询问有关英国公共政策的问题。每个示例都包含一个用户要求模型阅读文档并找到适用于用户场景的所有可能答案。如果答案仅在某些条件下为真,则模型应返回条件列表以及答案。我们提供由人类注释者标记的支持证据作为额外的监督。除了具有条件答案之外,ConditionalQA还具有以下属性。首先,条件QA中的文档具有复杂的结构。与维基百科页面相反,大多数句子或段落包含独立的信息,条件QA中的文档通常具有复杂的内部逻辑,这对于回答问题至关重要。其次,数据集中的许多问题自然是多跳的,如图1的示例所示,例如,“死者的伴侣”满足了“你与死者的解决这些问题需要模型理解文档中的内在逻辑,并通过推理找到正确的答案。第三,我们在注释问题时将提问和回答过程解耦,如Ferguson et al.(2020); Dasigiet al.(2021); Clarket al. (2020年),所以问题是问,不知道答案。第四,条件问答包含各种类型的问题,包括是/否问题和提取问题。问题可以有一个或多个答案,也可以是不可回答的,这是解耦注释过程的结果。我们在条件QA上试验了几个强基线模型(Ainslie et al. ,2020; Sun et al. ,2021;Izacard和Grave,2021)。表现最好的模型在是/否问题上仅达到64.9%的准确率,略好于大多数基线(如果总是预测“是”,则为62.2%),并且在额外答案上达到25.2%的精确匹配(EM)。我们进一步测量了联合预测答案和条件的准确度,在这种情况下,准确度下降到49.1%和22.5%。如果没有预测到任何条件,则会获得条件下的最佳结果现有的模型预测条件答案。2相关作品在过去的几年中,已经提出了许多问题回答数据集(Rajpurkar et al. ,2016,2018; Yang etal. , 2018; Dasigi et al. , 2021; Fergu-sonetal. ,2020; Kwiatkowski et al. ,2019年),对这些问题的研究大大提高了QA模型的性能 作为大型预训练语言模型(Devlin et al. ,2019;Liu et al. ,2019; Ainslieet al. ,2020; Beltagy等人,2020; Guu et al. ,2020; Verga等人,2020)在传统的阅读理解和问题回答任务上取得了更好的表现,已经做出努力使问题更复杂。发布了几个多跳QA数据集(Yang et al. ,2018;Fergusonetal., 2020;TalmorandBerant,2018; Welbl et al. ,2018)来测试模型解决复杂问题的能力。然而,这些数据集中的大多数问题都可以通过一次关注一小块证据来回答,例如一个句子或一个简短的段落,这使得通过长而复杂的内容进行推理成为一个具有挑战性但尚未解决的问题。最近,一些数据集被提出用于长文档的问题回答。QASPER(Dasigi et al. ,2021)包含学术论文中提出的问题,例如“本文中实验的数据集是什么?"。要回答这些问题,模型应该阅读几 个部分并收 集相关信息 。NarrativeQA(Mou et al. ,2021年)要求阅读整本书或电影剧本,以回答有关其人物或情节的问题。其他数据集,例如HybridQA(Chen et al. ,2021b)也可以被看作是在长文档上回答的问题,如果具有来自单元格的超链接文本的表格被展平成分层文档的话。ShARC(Saeidi et al. ,2018年)是一个会话QA数据集,需要理解复杂的内容来回答问题。然而,ShARC数据集只包含是/否问题,并且会话历史是由注释者使用原始规则文本生成的,这使得会话是人为的。ShARC中的上下文长度通常很短,例如几个句子或一小段。大多数现有的数据集,包括上面讨论的答案是独特的,因为问题是明确的,例如:“谁是2010年的美国总统?”。但是,问题可以是-+v:mala2277获取更多论文如 果 问 题 中 没 有 提 供 所 有 信 息 , 请 填 写bifurcation,例如:“When was the Harry Pottermovie released?”没有说明是哪部哈利波特电影。 AmbigQA(Min et al. ,2020)包含模糊的问题,并且要求模型找到模糊问题的所有可能的答案,并且重写问题以使其很好地具体化。 类似的数据集Temp-LAMA(Dhingra etal. , 2021) 、 TimeQA (Chen et al. , 2021a)和Situat-edQA(Zhang和Choi,2021),其包括需要在上下文中解决时间或地理模糊性以找到答案的问题它们类似于ConditionalQA,因为问题是不完整的,但ConditionalQA专注于理解具有复杂逻辑的文档并回答带有条件的问题在条件问答中,通常不可能消除问题的歧义,因为重写问题(或sce- narios)以反映答案的所有条件以使问题具有确定性是不切实际的我们在公共策略域中创建ConditionalQA。存在一些现有的领域特定的数据集,包括PubMedQA和BioAsq(Nenet al. ,2018; Jin etal. , 2019 ) 在 医 学 领 域 , UDC ( Lowe etal. , 2016) 在计 算机 软件 领域 ,QASPER(Dasigi et al. ,2021)在学术论文领域,PrivacyQA 和 PolicyQA ( Ahmadet al. , 2020;Ravichander等人PrivacyQA和PolicyQA具有与ConditionalQA类似的上下文,但大多数问题不需要组合推理,并且答案是短文本跨度。我们在公共政策领域使用语料库,因为它很容易被非专家理解,同时足够复杂,以支持具有挑战性的问题。Condi- tionalQA不是设计为特定于领域的数据集。3任务在我们的任务中,模型提供了一个长文档,描述了一个公共策略,一个关于这个文档的问题,以及一个用户场景。要求模型阅读文档并找到所有答案及其条件(如果有的话)。3.1语料库ConditionalQA中的文件描述了英国的公共每一个文件-2https://www.gov.uk/标准访问签证该部分涵盖了一个独特的主题,内容分为章节和子章节。同一节中的内容密切相关,但也可能在其他节中引用我们在这个领域中创建Condition-alQA,因为这些文档具有相当复杂的内部逻辑,但注释者熟悉内容,因此与具有更复杂术语和语言的正式法律或财务文档相比,他们可以提出3.2输入阅读理解模型的输入包括文档、问题和用户场景:• 一份文件描述了英国的一项公共政策。文档的内容是连贯的、有层次的,分为节和子节.文档是从网站上抓取的,并通过将网页的DOM树序列化为带有标记(如h1>、p>、li>和
.更多信息请参见第4.1节。• 一个问题询问文档的一个特定方面• 用户场景提供问题的背景信息。一些信息将用于限制可能正确的答案。并非用户场景中的所有信息都是相关的,因为它们是由众包工作人员编写的,而没有看到完整的文档或知道答案。设想方案中的信息也可能不完整。这种设置模拟了具有不相关和不完整信息的真实信息搜索过程。3.3输出阅读理解模型被要求预测答案和条件列表(如果有的话)。• 对问题的回答有三种不同的类型:(1)“是”或“否”的问题,如“我可以得到这个好处?"; (2)针对询问“如何”、“何时”、“什么”等问题的提取文本跨度(3)因为有时候要得到一个明确的答案+v:mala2277获取更多论文----··········{}··--Σ不完整的,除了预测答案,模型被要求识别他们的条件。• 条件包含必须满足的信息,以便使答案正确 , 但 在 用 户 场 景 中 没 有 提 到 。 在ConditionalQA中,我们将条件限制为文档中的HTML元素之一,而不是确切的提取文本跨度。3然后将选定的条件作为元素级别的F1检索任务进行评估,即模型应该检索所有具有不满意信息的HTML元素,以获得完美的F1分数。如果不需要条件,模型必须返回一个空列表。有关评价的更多详细信息,请参见§3.43.4评价我们评估模型的性能条件QA数据集作为一个阅 读 理 解 ( RC ) 任 务 。 答 案 以 精 确 匹 配(EM)和F1来衡量有些问题有多种答案。该模型应该正确预测所有可能的答案,以获得满分。由于答案的顺序并不重要,为了计算度量,我们将预测答案的所有可能排列与正确答案的列表进行我们取所有排列中的最佳结果作为本例的结果。 让一个100,。 . . ,a是预测答案的列表,并且a是1,. . .,在参考答案中。预测答案的EM为min(m,n)我们还测量了有条件的回答者的表现我们采用与上述相同的置换策略,不同之处在于评分函数还将考虑准确性预测的条件。设C是前集合,预测答案ai的预言条件和Ci是答案ai的预言条件。带有条件的预测答案的新评分函数为sem+c(ai,Ci,ai,Ci)=sem(ai,ai)·F1(Ci,Ci)其中F1(,)测量HTML元素级别的预测条件集的准确性。再-调用条件被限制为从文档中的HTML元素中进行选择。F1(Ci,Ci)等于1,当且仅当所有必要条件满足选定.这与测量所提取的答案的令牌级别F1的sf1(,)如果答案不需要任何条件,模型应该预测空集。 我们简单地替换等式中的评分函数se m(,)。 1与sem+c(,)来计算具有条件的EM。4数据收集4.1文件文件最初以HTML格式出现在英国政府网站我们从网站上抓取了页面,并对其进行了处理,只保留了关键的标签,包括:• 标题h1,h2,h3,h4>:我们保持标题EM=最大1s(a,a)·γ在不同的层面上。这可以用来识别{a}1,.,am}ni=1埃姆伊m,n(一)文档中的层次结构• Text p>:此标记用于一般内容。γm,n=e1−m/nifm> n1,如果m≤n为了简单起见,我们用普通标记p>替换描述性标记,例如strong>其中,一个1,. . . ,a_m是预测的答案a_i,. . .是测量两个文本跨度之间的EM的评分函数。 γm,n是小于1的惩罚项,如果预测的答案比参考答案多,即m> n。 我们以类似的方式在提取的答案跨度上使用评分函数sf1(,)来计算令牌级F1。对于无法回答的问题,EM和F1为1.0,当且仅当没有预测到答案3我们认为,选择HTML元素作为条件已经非常具有挑战性(参见第6.2节中的实验结果),并将提取精确的文本跨度作为未来的工作。• 列表li>:我们保留列表项的标记,但删除它们的父标记ul>或ol>。我们观察到在数 据 集 中 使 用 了 很 少 的 有 序 列 表(ol>),因此我们将不区分它们。• 表tr>:再次删除它们的父标记<表格>以简化文档格式。我们进一步从单元格中删除和 | 标记,并使用“|“的。处理过的文档包含一个字符串列表,该列表以标记开始,然后是其内容,最后是.+v:mala2277获取更多论文使用标签,例如[/ ",. . . ]中。我们删除了一些不包含任何关键信息的常见部分,例如。 我们进一步要求,文件应包含至少3个部分。我们最终有652个文档作为语料库。文档的平均长度为1358个令牌,最大长度为9230个令牌。4.2问题我们从Amazon Mechanical Turk上的众包工作人员那里收集问题。为了鼓励工作人员提出的问题不局限于特定的文本,我们隐藏了完整的文档,而是向工作人员提供了文档的一个片段。片段包括一个包含节和子节标题(来自h1>和h2>标记)的内容表,以及文档中通常提供主题高级概述的第一个子节这段代码有助于工作人员熟悉本文档的主题,以便他们可以提出密切相关的问题。我们观察到,将工人的地理位置限制在英国可以显著提高问题的质量,因为当地居民更熟悉他们的政策。我们要求工人在提出问题时执行三个子任务。首先,我们要求工人提供三个属性,以确定可能受益于文档中讨论的政策或受其监管的人群。第二,他们被要求提出一个场景,当他们想要阅读这份文件和一个问题,他们想知道什么第三,要求工作人员标记在他们的问题和场景中提到在评估注释质量时,我们发现要求工作人员提供属性会使问题和场景更加具体,从而显着提高数据集的质量我们将3个工作人员分配给具有四个或更多部分的文档,将2个工作人员分配给具有三个部分的文档。每个工人被要求提出两个问题,这两个问题必须是不同的。在这个阶段,我们收集了3617个问题。4.3找到答案我们雇佣了另一组工人来完成这个任务的答案部分。寻找答案对众包工作者来说非常具有挑战性,因为要求工人仔细阅读整份文件,以了解文件内的每一项我们为工作人员提供一对一的培训,教他们如何选择支持性证据、答案和条件。工人被要求执行三个子任务。第一步是从文件中选择支持证据支持证据是与问题密切相关的HTML元素,包括具有直接证明答案的内容的元素以及将在下一步中被选择为条件的元素。在第二步中,要求工作人员键入答案并选择相关条件。工作人员可以输入尽可能多的答案或将问题标记为“不可回答”。对于每个答案,如果需要,他们可以选择一个或多个支持证据作为答案如果场景中有足够的信息来回答问题,则要求工作人员不要选择条件。如果问题没有明确说明,我们允许工作人员稍微修改问题或sce- narios,或者他们可以将其标记为一个坏问题(与不可回答不同),因此我们将从数据集中删除它。我们还执行了一个修订步骤来提高注释质量。我们将从一个问题的多个标注中选择的证据和答案的联合提供给另一组标注者,让他们排除不相关的证据并合并答案。由于在此步骤中提供给工作者的信息量显著少于先前的答案选择阶段,因此标注质量显著提高我们最终得到了3102个带注释的答案。4.4将条件移动到方案为了鼓励学习影响答案和条件的用户场景中的细微差异的模型,我们通过将条件之一移动到其场景中来修改具有条件答案的现有问题来具体来说,我们向工作人员展示原始问题、场景以及带注释的答案和条件。还为工作人员提供了证据,使他们熟悉问题的背景和推理,以获得原始答案。工作人员被要求选择一个条件,并修改原始场景以反映此条件。修改后的问题和场景将被发送回回答阶段以获得它们的注释。我们随机选择一个+v:mala2277获取更多论文类型情景问题答案w/[条件]情景:“我父亲最近呼吁单一的答案单一答案/条件多个答案多个是/否条件多种浸提条件多个浸提液,带条件交通罚单。“问题:“需要多长时间才能做出决定?“场景:“我申请在我的土地上砍伐一棵树,但20天前被拒绝了。问:“我还能上诉吗?“剧情:“我明天会拿到第一份薪水“问题:“我的工资分成应该有什么信息?“剧情:“我正在考虑买一个新的房子。我26岁,是第一次买房。“问:“我是否有资格获得股权贷款?”“场景:“我总是在开阔的地方遛狗。我昨天忘了收拾他的烂摊子。问题:“我可以为此被罚多少钱?”“情景:“我即将申请一个孩子的父母学生签证,与我的孩子一起呆在一起,在英国的一年”问:“申请签证需要哪些文件?”“• “4周”• “是的”[“ 你可以在更换树木通知书生效日期前提出上诉。lt;/p>”]• “扣除前和扣除后的收入”• “任何扣除额”• “你工作的小时数”• “是的”[“li>能够负担费用和利息li>”,“li>由符合条件的房屋建筑商出售/li>”]• “否”[“p>如果您有任何形式的伊斯兰教法抵押贷款融资,您不能申请/p>”]• “一百块。”[“li>$100 on the spot/li>”]• “最多1000美元”[“li>如果上法庭,最高可达1,000美元/li>”]• “有效护照或其他旅行证件”• “证明你有足够的资金”• “英国境外永久地址证明”• “您的结核病(TB)检测结果”[“li>您的结核病(TB)检测结果(如果您来自必须进行TB检测的国家/li>”]表1:条件性QA中的问题示例。括号中的答案后面的文本是[条件]。有些答案是确定性正确的,所以后面没有条件。一小部分问题具有条件答案作为此阶段的输入,以便不影响数据集的原始分布。我们从这个阶段收集了325个额外的例子。4.5培训/开发/测试拆分我们通过文档对数据集进行分区,以防止同一文档中的问题之间的信息泄漏。训练集包含436篇文档和2338个问题,开发集包含59篇文档和285个问题,测试集包含136篇文档和804个问题。5数据集分析数据集由是/否问题和额外问题组成问题可能包含一个或多个答案,有条件或无条件。问题的统计数据见表2。答案类型在所有可回答的问题中,1751个问题有是/否的答案,而其他1527个问题有摘录的答案。1161个是/否问题的答案是类型#回答类型是/否1751采掘1527条件类型确定性2475条件803单项答案数2526多752–149表二:各类问题的统计数字。条件请参见表1中的示例。提取答案的平均长度为6.36个标记。条件类型803问题具有条件答案。803道题中有390道只有一个答案,但这个答案只有在满足条件时才是正确的。173个问题有多个答案,每个答案都有自己的条件,即如果适用不同的条件,答案也会不同。其余的240个问题也有多个答案,但有些答案需要条件,而另一些则参见表1中的示例。803个问题中共有1090个答案有条件,其中672个答案只有一个条件,418个答案有多个条件。+v:mala2277获取更多论文{}∈--除了在不同条件下有不同答案的问题外,339个问题有多个确定性答案。6评价6.1基线在条件QA上评估现有的模型是具有挑战性的。除了预测问题的答案外,条件QA任务还要求模型找到答案的条件(如果其中任何一个条件适用)。据我们所知,没有任何现有的模式符合这项任务的目的。我们修改了三个有竞争力的QA模型作为ConditionalQA数据集的基线。除了新形式的答案之外,传统的阅读理解模型还面临着挑战,即条件问答中的问题上下文太长,无法适应许多基于转换器的模型(如BERT和RoBERTa)的内存(Devlin et al. ,2019; Liu et al. ,2019)。我们实现的基准模型如下所述。ETC管道:ETC(Ainslie et al. ,2020年)是一个预先训练的基于transformer的语言模型,设计用于更长的输入(高达4096个标记)。ETC在多项挑战任务上达到了最先进水平,例如: HotpotQA和WikiHop(Yanget al. ,2018;Welbl et al. ,2018)。由于vanilla ETC不能联合预测答案和条件,因此我们设计了一个两阶段管道来在ConditionalQA上运行ETC。在第一阶段中,ETC被训练成一个正常的阅读理解模型,通过联合编码来自问题和文档的级联标记来预测来自文档的答案由于ETC无法将整个文档(最多9230个令牌)放入其内存中,因此我们采用顺序读取方法,每次读取一个部分。所有部分中概率最高的答案将被视为最终答案。对于是/否和不可回答的问题,我们使用了三个特殊标记由于不清楚如何使用基于transformer的提取QA模型提取多个答案,因此我们将预测答案的数量限制为一个。管道的第二阶段是选择条件。问题、答案和文档被连接在一起成为一个输入,并由ETC编码。然后,我们使用ETC中全局令牌的嵌入来预测条件。由于答案的条件数是未知的,我们训练ETC将其全局标记(每个标记代表一个候选条件)标记为二进制分类目标。选择条件的阈值被调整为超参数。DocHopper:DocHopper(Sun et al. ,2021)是用于阅读长文档以回答多跳问题的迭代注意力方法。该模型迭代地关注文档中不同层次的信 息 为 了 完 成 这 项 任 务 , 我 们 修 改 了DocHopper 中 的 迭 代 过 程 : 具 体 来 说 ,DocHopper被训练运行三个迭代注意步骤:(1)注意支持证据;(2)注意包含答案的句子由于每个注意步骤中的查询向量都是用来自先前步骤的信息来更新的,因此在第三步骤处注意的条件知道先前预测的答案。与ETC管道类似,我们限制模型为每个问题预测一个答案。DocHop- per中的条件选择步骤与ETC管道不同,三个注意步骤共同优化。FiD:FiD(Izacard和Grave,2021)是一种具有编码器-解码器架构的生成模型。编码器独立地读取多个上下文并生成它们的嵌入。解码器处理上下文的所有嵌入在这个任务中,我们训练FiD顺序生成具有条件的答案,即 [a1,c11 ,c12 ,. . . ,a2,c2 1,c22 ,. . . ],其中 1,. . .,an是正确答案,C1,. . .,Cn是它们的条件,即,是答案a i的第j个如果Ci为空,则训练模型以预测我们随机抽取了80个问题,并要求人工注释者回答。注释者提供了完整的说明和10个附加的注释示例,以阐明任务。我们不对注释者提供广泛的培训不对答案执行任何额外的修订步骤。6.2结果实验结果如表3所示。我们分别报告是/否问题和提取问题的数字表3中的数字表明,条件QA任务非常具有挑战性-最佳模型在是/否问题上的表现+v:mala2277获取更多论文减少?“是/否答案/条件采掘答案/条件有条件的答案/条件 *整体答案/条件大多数62.2/62.242.8/42.8– /– /– /– /– /– /ETC管道63.1/63.147.5/47.58.9/17.36.9/14.639.4/41.82.5/3.435.6/39.826.9/30.8DocHopper64.9/64.949.1/49.117.8/26.715.5/23.642.0/46.43.1/3.840.6/45.231.9/36.0FID64.2/64.248.0/48.025.2/37.822.5/33.445.2/49.74.7/5.844.4/50.835.0/40.6人类91.4/91.482.3/82.372.6/84.962.8/69.174.7/86.948.3/56.682.6/88.473.3/76.2表3:条件QA(EM/F1)的实验结果。数字是通过重新运行基线的开源代码获得的“多数”反映了总是无条件地预测“是”的准确性。* 见正文中的讨论。错误类型%示例正确答案预测7.6“我有资格缴税吗不可回答的“是”错误答案类型(是/否与萃取物)“我如何查看该外观 设 计 是 否 已 注册?““让知识产权局来找你”“否”回答错误错误答案“它会被归类为小型船只吗?“20.3“有多少点会“是”“不是”微观实体?““什么将不需要每次旅行都要重复吗?““微型晶片”、“狂犬病疫苗”“微芯片”表4:最佳性能模型(FiD)预测的误差分析。百分比是该类别中的错误在所有错误中所占的比例。选择率为64.9%(略高于总是预测大多数人回答FiD在提取问题上具有最佳性能,因为FiD可 以 预 测 多 个 答 案 , 而 ETC-pipeline 和DocHopper只能预测一个。如果答案和条件被联合评估,则性能显著下降 。 表 3 中 联 合 评 估 答 案 和 条 件 ( “w/conditions”)的最佳更糟糕的是,当没有选择条件时,即选择条件的阈值被设置为1时,获得该最佳性能。0。如果我们关注至少有一个条件答案的问题子集,选择条件的难度就更加明显。如果答案和条件联合评估,准确率下降90%以上。4研究了选择条件的置信度阈值对评价结果的影响。结果示于图二、当我们降低用于选择条件的阈值时,具有条件答案的问题子集上的具有条件的EM略微改善,但是具有条件的总体EM由于假阳性条件而显著下降。FiD是一个生成模型,所以我们不能以同样的方式评估它。在我们的评估中,来自性能最好的FiD检查点的预测也没有选择任何条件。表5显示了具有条件答案的问题子集的最佳结果超参数根据问题子集进行调整。我们可能会得到更好的结果,对问题的条件答案与阈值为<100。0,但改善仍然是边际的。4EM/F1 w/ conditions* 在此子集上为非零即使没有选择任何条件,也会出现问题,因为有些问题既有条件答案,也有确定性答案。4.219.5部分答复24.5(extractive,right type)我的执照上收到的?““六”字“三”错误答案“什么是账户(提取,错误类型)9.3我应该发送“12001020”“英国税务及海关总署”把钱给?“正确答案“我还可以发送更简单的w/错误的条件14.4年度账目作为“是的”,[”$316,000或以下在其资产负债表上”]“是的”,[]+v:mala2277获取更多论文图2:具有不同条件置信度阈值(eps)的条件的答案的EM。虚线表示具有条件答案的问题子集的实验结果。最佳总体最佳条件ETC管道2.5/3.44.4/4.6DocHopper3.1/3.85.9/7.1FID4.7/5.84.7/5.8表5:EM/F1,条件性QA中问题子集的条件,有条件回答。“Best Overall” uses6.3误差分析我们手动检查了200个预测最佳模型FiD的示例,并标记了所犯错误的类型。数字见表四、当只有一个子集的正确答案被预测时,最多的错误。这是因为模型(FiD)倾向于为每个问题预测一个答案。第二个最常见的错误是用正确的类型但错误的值预测答案。在许多任务中,阅读理解模型通常会犯这样的该模型在是/否问题中犯了很多错误,因为它们包含了大约50%的问题。该模型能够很好地区分是/否问题和提取性问题,因为产生错误答案的概率仅为4.2%。7结论我 们 提 出 了 一 个 具 有 挑 战 性 的 数 据 集ConditionalQA , 其 中 包 含 有 条 件 答 案 的 问题。数据集要求模型理解文档中的复杂逻辑,以便找到问题的正确对现有QA模型的实验表明,它们在条件QA上的整体性能相对较差。这也表明当前的QA模型缺乏推理能力,根据条件确定答案的能力。我们希望这个数据集将激发进一步的研究,建立问答模型来回答有条件的问题,并建立更广泛的NLP模型,具有更好的推理能力。8道德声明这个数据集应该只用于自然语言处理的研究目的.问题是人为的,不包含任何个人信息。答案不是由法律专业人士提供的,不应用于任何法律目的。9确认这项工作得到了NSF IIS1763562,ONR GrantN000141812861,Google的Research.我们还要感谢VijayA. Saraswat获取宝贵的反馈。引用Wasi Ahmad,Jianfeng Chi,Yuan Tian,and Kai-Wei Chang. 2020. PolicyQA:用于隐私政策的阅读理解数据集。在计算语言学协会的调查结果:EMNLP 2020,第743-749页,在线。计算语言学协会。Joshua Ainslie,Santiago Ontanon,Chris Alberti,Va- clav Cvicek,Zachary Fisher,Philip Pham,Anirudh Ravula,Sumit Sanghai,Qifan Wang和Li Yang。2020. 等:在transformer中编码长的结构化输入。放大图片作者:Matthew E.彼得斯和阿曼·科汉2020年。Longformer:长文档Transformer。Wenhu Chen , Xinyi Wang , and William YangWang. 2021年a. 用于回答时间敏感问题的数据集。Wenhu Chen,Hanwen Zha,Zhiyu Chen,WenhanXiong,Hong Wang,and William Wang. 2021b的最后一页。Hy-bridqa:一个基于表格和文本数据。乔纳森·H Clark,Eunsol Choi,Michael Collins,DanGarrette , TomKwiatkowski , VitalyNikolaev , andJennimariaPalomaki.2020.Tydiqa:一个在不同语言中进行信息搜索问题回答的基准。Pradeep Dasigi , Kyle Lo , Iz Beltagy , ArmanCohan,Noah A.史密斯和马特·加德纳。2021. 研究论文的信息寻求问题和答案的数据集。+v:mala2277获取更多论文Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova.2019年。Bert:深度双向转换器的语言理解预训练。Bhuwan Dhingra , Jeremy R. Cole , Julian MartinEisenschlos,Daniel Gillick,Jacob Eisenstein,and William W.科恩2021. 作为时间知识库的时间感知语言模型。JamesFerguson , MattGardner , HannanehHajishirzi , Tushar Khot , and Pradeep Dasigi.2020. Iirc:不完全信息阅读理解问题。Kelvin Guu,Champion Lee,Zora Tung,PanupongPasu- pat和Ming-Wei Chang。2020. Realm:检索增强语言模型预训练。戈蒂埃·伊萨卡尔和爱德华·格拉夫。2021. 利用通道检索与生成模型进行开放式主题问题回答。Jiao Jin , Bhuwan Dhingra , Zhengping Liu ,WilliamW.Cohen , andXinghuaLu.2019.Pubmedqa:一个生物医学研究问答数据集。作者:Tom Kwiatkowski,Jennimaria Palomaki,Olivia Red- field , Michael Collins , AnkurParikh , Chris Alberti , Danielle Epstein , IlliaPolosukhin , Matthew Kelcey , Jacob Devlin ,Wendon Lee , Kristina N. Toutanova , LlionJones , Ming-Wei Chang , Andrew Dai , JakobUszkoreit,Quoc Le,and Slav Petrov. 2019.自然问题:问答研究的基准。计算语言学协会汇刊。Yinhan Liu,Myle Ott,Naman Goyal,Jingfei Du,Man-dar Joshi,Danqi Chen,Omer Levy,MikeLewis , LukeZettlemoyer , andVeselinStoyanov.2019. Roberta:一个鲁棒优化的bert预训练方法。Ryan Lowe , Nissan Pow , Iulian Serban 和 JoellePineau。2016. The ubuntu dialogue corpus:一个用于非结构化多轮对话系统。Sewon Min,Julian Michael,Hannaneh Hajishirzi,and Luke Zettlemoyer. 2020. Ambigqa:正在搜索开放域问题。Xiangyang Mou , Chenghao Yang , Mo Yu ,Bingsheng Yao,Xiaoxiao Guo,Saloni Potdar,and Hui Su. 2021. 叙事问题回答与尖端开放领域问答技术:一项全面的研究。Anastasios Nentidis,Anastasia Krithara,Konstanti-nos Bougiatiotis,Georgios Paliouras,and IoannisKakadiaris. 2018.第六版BioASQ挑战的结果。在第六届BioASQ研讨会的会议记录中,大规模生物医学语义索引和问题回答的挑战,第1-10页,比利时布鲁塞尔。计算语言学协会。Pranav Rajpurkar,Robin Jia,Percy Liang. 2018. 知道你不知道的PranavRajpurkar , JianZhang , KonstantinLopyrev,and Percy Liang.2016. Squad :100,000+文本机器理解问题。Abhilasha Ravichander , Alan W Black , ShomirWilson,Thomas Norton和Norman Sadeh。2019.隐私政策的问答计算和法律观点。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)会议录中,第4947-4958页中国计算语言学协会。Marzieh Saeidi 、 Max Bartolo 、 Patrick Lewis 、SameerSingh 、 TimRocktäschel 、 MikeSheldon 、 GuillaumeBouchard 和 SebastianRiedel。2018. 会话式机器阅读解释。Haitian Sun,William W.科恩和鲁斯兰·萨拉胡特-迪诺夫。2021. 针对长文档的端到端多跳检索。阿隆·塔尔莫和乔纳森·伯兰特。2018. 网络作为回答复杂问题。Pat Verga 、 Haitian Sun 、 Livio Baldini Soare 资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
|