没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文MCurie:一种情境推理的迭代查询方法Dheeraj Rajagopal,AmanMadaan,NiketTandon,Yiming Yang,ShrimaiPrabhumoye,Abhilasha Ravichander,PeterClark,EduardHovyLanguage Technologies Institute,Carnegie Mellon University关闭PA,USA†美国华盛顿州西雅图艾伦人工智能研究所{dheeraj,amadaan,yiming,sprobhum,aravicha,hovy}@ cs.cmu.edu{nikett,peterc}@ allenai.org摘要最近,模型已被证明可以预测意外情况的影响,例如,多云的天空会帮助还是阻碍植物生长?给定一个语境,这种情境推理的目标是引出在该语境中出现的新情境(st我们提出了一种方法来迭代地构建一个图的相关后果显式的结构化情景图(ST图)使用自然语言查询在微调的语言模型()。在多个领域,居里产生的st图,人类发现相关的和有意义的引出一个新的情况的后果。 我们表明,由CURIE生成的st图通过简单地用我们生成的情景图来增加它们的输入,特别是对于需要背景知识和多跳推理的硬子集,将情景推理最终任务(WIQA - QA)的准确性提高了3个点。1介绍在推理中,一个长期存在的挑战是在一个背景下对一个新情况的后果进行建模。考虑这些问题-如果我们种更多的树,雨会更多吗?什么能帮助水更快地沸腾?回答这些问题需要理解复杂的事件,如植物生长和水沸腾,其中许多信息仍然是隐含的(根据Grice需要情景推理的任务越来越多地被部署在现实世界中的机器观察到-意外的情况很常见,机器被期望优雅地处理它们。它对于定性推理等任务也是必不可少的(Tandon et al. ,2019年;Tafjord 等人,2019a),物理常识推理两位作者对这项工作也做出了同样的贡献。由掷骰子决定的顺序。RQ 1. St图生成:内容:阳光照射叶绿素。阳光被困情况(st):更多的阳光RQ2. QA结束任务示例:上下文情况[c] =风暴End [e]=较小的岩石图1:RQ1:CURIE通过对模型的迭代查询生成情景图,迭代地使模型的RQ2:当添加到QA输入时,这些图可以改善情境推理QA(下面,上下文是关于侵蚀的段落)。任务(Sap et al. ,2019; Bisk et al. ,2020)和可去性推理(Rudinger et al. ,2020)。与人类不同,机器并不擅长这种推理。解决情境推理的现有系统将提供背景信息的上下文、情境(ST)和结尾作为输入,并且在分类设置(例如,Tandon等人 (2019)在上下文中最多两个句子的基础上的路径)或最近,在故事生成设置(秦等。,2019年),其中的目标是生成一个替代的结局时,原来的结局和反事实的情况下给出。然而,在现实世界的场景中,结局通常是未知的情况的生成效果仍然是一个开放的挑战。我们可能还需要跨多个领域(超越领域)的推理能力.此外,可能必须对某一情况产生多种后果(例如,积极和消极的影响,或最终和立即的影响晴朗的天空多云的天空更多的阳光较高的植物c加速(帮助)arXiv:2104.00814v2 [cs.CL] 2021年4QA对:Q1:什么帮助最迫切?A1:明亮的天空Q2:什么事最让人难受?A2:多云Q3:最终有什么A3:高大植物+v:mala2277获取更多论文M∈∈--∈----影响),这需要结构化的产出。为了解决这些局限性,我们提出了居里-一个生成框架,概括了多个推理任务下的一般情境推理框架。该任务如图1所示:给定一些上下文和一个情景st(短语),我们的框架生成一个情景推理图(st-graph)。在其核心,Curie构建了一个基于上下文知识的推理图,支持以下类型的推理:1. 如果发生了,最后会发生什么?2. 如果st发生,哪些即将发生/最终的影响不会发生?3. 什么将支持/防止ST?如图1所示,我们完成此任务的方法是迭代编译问题1、2、3的答案,以构建st-图。与从开箱即用的seq-to-seq模型获得的自由形式的文本输出相比,我们的方法对图生成过程提供了更多的需要对情况进行推理的下游任务可以组成自然语言查询,以构建可以简单地对其输入进行扩充的st推理图在本文中,我们提出了以下两个研究问题:RQ1给定一个特定的背景和情况,我们可以迭代地生成一个潜在影响的情景推理图吗?由CURIE生成的st图能提高下游任务的性能吗?为此,我们作出以下贡献:(一)我们提出了CURIE,第一个领域不可知的情境推理框架,它将一些上下文和一个st作为输入,并迭代地生成一个情境推理图(§2)。我们表明,我们的框架是有效的情景推理在三个数据集,验证了人工评估和自动化指标。(二)我们表明,通过使用我们生成的情景图简单地增加输入,由CURIE生成的st图将st推理任务(WIQA-QA)的准确性提高了3个点,特别是对于需要背景知识和多跳推理的硬子集(§4)。(表2)。st图模型Mst任务图2:CURIE框架由两个组成部分组成:(i)一个适应数据集的公式,该数据集允许进行预训练的st-推理(ii)一种在微调的语言模型(M)上使用自然语言查询迭代构建结构化st-图的2情境推理CURIE为情境推理提供了一个通用框架,也为从预先训练的语言模型构建情境推理图提供了CURIE的总体架构如图2所示。CURIE框架由两个部分组成:(i)st-推理任务制定:一种适应允许情景推理的数据集的制定(ii)st-图构建:一种微调语言模型的方法以生成情况的后果并迭代地构造结构化的情况图(如图1所示)。在本节中,我们将介绍(i)我们的任务制定(§2.1),(ii)调整现有数据集以用于CURIE任务制定(§2.2),(iii)学习过程( §2.3 ) , 以 及 ( iv ) 通 过 推 理 生 成 st 图(§2.4)。2.1任务制定我们描述了一般的任务制定适应预训练语言模型 的 ST 推 理 任 务 。 给 定 上 下 文 T=s1 ,s2,. . .,sN,有N个句子,和一个情境st,我们的目标是在这个变化的世界中生成st-图G。st-图G(V,E)是一个无权有向图非循环图一个顶点v V是一个事件或一个状态,它描述了T中原始条件的变化。每个边eijE用关系rij标记,该关系指示vi是正面影响v j还是负面影响vj。正面影响通过绿色边缘表示,包括需要,加强,帮助之一,负面影响通过红色边缘表示,描绘矛盾,削弱,伤害之一。我们的关系集是通用的,可以容纳各种st-推理任务。给定两个节点vi,vk V,如果从vi到vk的路径有多条边,我们将效应c描述为最终效应,将直接效应描述为即将发生。+v:mala2277获取更多论文→--M上一篇:Wind CreatesWaves海浪冲刷着海滩...问:如果有风暴,它将如何影响更大的海浪?链:风暴→更强WIQA回答:更大的波浪风→更大的波浪鉴于背景和st:有暴风雨Q1:什么是ST帮助迫切?A1:强风Q2:什么是ST最终帮助?A2:更大的波浪风暴强风大浪Dataset Original formulationst formulationst graph夸雷尔背景:汽车在木头上比在厚地毯问:什么有更多的阻力?(a)木材(二)地毯简化的逻辑形式的上下文,ques:距离在木头(a) 地毯的摩擦力更高(或)(b) 木材的摩擦力更大答:(一)地毯鉴于背景和st:距离在木头问1:什么是st需要迫切?A1:木材问题2:什么是st矛盾迫切?A2:地毯问题3:st最终需要什么?A3:木材具有更强的抵抗力牧羊犬旅游地图男农民鉴于背景和st:狗是牧羊犬两个男人和一条狗是什么?站在绿色的山丘之间。A1:男人是农民假设:男人是农民。st:男人们在研究旅游地图证据类型:强化者Q2:什么是st削弱迫在眉睫?DEFEAS回答:狗是牧羊犬A2:男人是农民表1:CURIE使用的数据集以及我们如何将它们重新用于st推理图生成任务。如第2.1节所述,绿色边集描述关系(r)(需要,加强,帮助),红色边集描述关系(矛盾,削弱,伤害)之一。即将发生的最终效应(c)用于支持多跳推理。 DEFEAS=DEFEASIBLE,链是指推理链。有些例子是为了适应而裁剪的。关键的见解是,一个st图可以分解成一系列的QA对,使我们能够利用seq-to-seq方法的st推理。我们通过将st图分解为一组问题-答案对来获得st图生成任务的训练数据。每个问题包括上下文T、st-顶点Vs、关系r和效果c的性质。输出是对应于目标节点vt的问题的答案。示例如图1所示。与端到端的图形生成方法相比,我们的方法在生成过程中具有更大的灵活性,可以对图形中的任何选定节点进行推理2.2泛化现有数据集尽管理论上有所进步,但缺乏大规模的通用情景推理数据集对训练seq-to-seq语言模型提出了挑战。在本节中,我们将描述如何将现有的各种数据集推广到对语言模型进行微调的st-推理。 如果一个推理任务允许一个上下文,一个st-情况,并且可以用绿色和/或红色边缘来描述st的影响,那么它就可以无缝地适应CURIE框架.由于缺乏直接支持我们任务制定的现有数据集,因此采用以下三个不同的数据集-WIQA,QUAREL和DEFEASIBLEforCURIE。WIQA:WIQA任务研究程序文本中扰动的影响(Tandon et al. ,2019)。WIQA中的上下文T是描述物理过程的过程文本,并且st是扰动,即,一个偏离T的外部环境,st的影响要么是帮助,要么是伤害。WIQA至st-制剂的示例见表1。QUAREL : QUAREL 数 据 集 ( Tafjord et al. ,2019a)包含定性故事问题,其中T是叙述,st是定性陈述。T和st也可以用一种更简单的逻辑形式来表达,我们之所以使用这种形式,是因为它清楚地突出了推理的挑战。st的效果要么是必然的,要么是矛盾的(例如表1)。Defeasible:Defeasible reasoning task(Rudinger etal. ,2020)研究了pres中的推理-高密度木材地 毯 摩擦力低摩擦木材木材阻力更大+v:mala2277获取更多论文Mi=1← ∅←- -M我k=1我我我我我我JJJ我 我我JJQMk1k−1。J∼|研究问题训练数据集测试数据集任务度量我们能不能WIQA-stWIQA-st一代布鲁·鲁日好的st图?(§3)QUAREL-st失效-stQUAREL-st失效-st世代红色,蓝色,红色,蓝色才能提高WIQA-st ,WIQA-QAWIQA-QA微调QA精度下游任务?(第4.1、4.2节)QUAREL-st石英-质量保证零射击精度表2:实验算法1:迭代生成(IGEN):使用居里曲线生成st给出:CURIE语言模型。给定:上下文段落T,情境st,由NQ构成的集合R={(ri,ci)}NQ表3:数据集统计,我们保持分裂反事实的证据。语境T是由描述日常语境的前提给出的,而st是加强或削弱假设的观察证据。我们调整原始的外展设置,如表1所示。除了常识性的情况,DEFEASI-BLE-st还包括社会情况,从而有助于我们数据集的多样性。2.3学习生成st-图为了重申我们的任务公式(第2.1节),对于给定的上下文和st,我们首先指定一组问题,然后编译问题的结果输出以形成st图。因此,训练数据由元组(xi,yi)组成,其中xi=(T,st,r,c)i,其中T表示上下文,st表示情况,r表示边缘(绿色或红色),c表示效果的性质(即将发生或最终发生),y是输出(描述效果的短句或短语NQ个这样的问题的输出被编译成图G=yi1:NQ(如图1所示)。我们使用预先训练的语言模型来估计为输入 xi生成答案yi的概率。我们首先将元组xi=x1,x2,. . .,x N转换为单个查询(r,c)元组。结果:st图G,其中第i个节点将由关系ri和效应类型ci生成。初始化:G对于i1,2,. . . ,N Qdo//创建一个查询xi=concat(T,st,ri,ci);/*从语言模型M中采样一个节点*/ii≠ M(xi);/*将采样节点和边添加到图中*/G=G(ri,ci,yi);端返回Gp θ(yi|xi)作为由θ参数化的一系列条件下一个令牌分布:作为p θ(yi|xi)=p θ(y |xi,y,..,年)的2.4st-图译码的推论语言模型pθ的自回归因子分解允许我们有效地为给定的测试输入xj生成目标事件影响。解码过程开始于对第一个符号y1<$p θ(y|xj)。下一个令牌是通 过 连 接 其 组 成 部 分 , 即 , 我 们 设 置xi=concat(T,st,r,c),其中concat指的是字符串连接。令表示目标事件的令牌序列为yi=y1,y2,. . .,y M,其中N和M是然后通过采样y2pθ(yxj,y1)来绘制。重复该过程,直到在第K步绘制指定的结束符号标记。我们使用细胞核取样(Holtzman et al.2019 ) 在 实 践 中 。 到 kens 的 长 度 为 1 ,y2,. . . ,yK−1,然后返回为查询和目标事件序列的长度我们对条件概率生成的答案。为了生成最终的st-推理图G,我们将所有生成数据集火车dev测试WIQA119.2k34.8k34.8k夸雷尔4.6k1.3k652可废止200k14.9k15.4k+v:mala2277获取更多论文M∼∼∼∼∼∼M- -MMM联系我们M型号()BLEU ROUGEWIQA-stLSTMSeq-to-Seq 7.51 18.71谷丙转氨酶(不含T)7.82 19.30GPT-2(不含T)10.01 20.93谷丙转氨酶9.95 19.64GPT-216.23 29.65QUAREL-stLSTMSeq-to-Seq 13.05 24.76谷丙转氨酶(不含T)20.20 36.64谷丙转氨酶-2(w/oT)谷丙转氨酶25.48 42.87GPT-235.20 50.57失效-stLSTMSeq-to-Seq 7.84 17.50谷丙转氨酶(不含T)9.91 20.63GPT-2(不含T)9.17 9.43谷丙转氨酶10.4921.79GPT-210.5221.19表4:具有语言模型基线的CURIE的生成结果。 我们发现,上下文是必不可少的性能(w/oT)。我们提供这些基线分数作为未来研究的参考。在所有(r,c)组合上具有相同上下文和st对(T,st)的答案yi1:NQ然后,我们可以使用生成的答案stJyi1:NQ作为as(T,stJ)的新输入,以递归地将st-图扩展到任意深度和结构(Al-出租m1)。在第4节中给出了一个将CURIEst图用于下游QA任务的实例。3RQ1:建立基线st-图生成本节报告生成的st推理图的质量,并为st图生成建立强我们使用第2.2节中描述的数据集进行实验。3.1基线语言模型再 次 重申 , CURIE 由 (i ) 任 务公 式 组 件和(ii)图形构造组件组成,图形构造组件使用语言模型来构造ST图。我们要强调的是,任何语言模型架构都可以成为。由于我们的st-任务公式是新颖的,我们建立了强大的基线选择的语言模型。我们的实验包括大规模语言模型(LSTM和预训练的Transformer),参数大小和预训练,以及相应的消融研究。我们的选择如下:LSTM Seq-to-Seq:我们训练了一个基于 LSTM (Hochreiter和Schmidhu-ber , 1997 ) 的 序 列 到 序 列 模 型(Bah-danauet al. ,2015),其使用在(Luonget al. ,2015)。我们使用预先训练的300维Glove(Pennington et al. ,2014)1.我们使用2层LSTM编码器和解码器,隐藏大小为500。编码器是双向的。GPT:我们使用GPT的原始设计(Radfordetal. ,2018)具有12层、768维隐藏状态和12个注意力头。GPT-2:我们使用GPT-2的培养基(355 M)变体(Radford et al. ,2019年)有24层,1024个隐藏大小,16个注意头。对于GPT和GPT-2,我们使用预先训练的权重初始化模型,并使用Wolf等人提供的实现。(2019年)。3.2自动评估为了评估我们生成的st图,我们将它们与黄金标准参考图进行比较。为了比较这两个图,我们首先将参考图和st图作为文本序列进行展平,然后计算它们之间的 重 叠 。 我 们 使 用 标 准 评 估 指 标 BLEU( Papineni et al. , 2002 ) 和 ROUGE ( Lin ,2004)2.我们的研究结果表明,ST生成的任务是具有挑战性的,并建议纳入ST推理特定的归纳偏差可能是有益的。同时,表4显示,即使像GPT-2这样强大的模型在st图生成任务上也很吃力,这为未来的模型改进留下了很大的空间。我们还显示了模型相对于上下文T(§2.1)的消融结果,通过在没有上下文的情况下进行微调我们发现,背景对于GPT和GPT-2的性能都是必不可少的(在表4中用w/oT表示)。此外,我们注意到,GPT-2通过添加上下文获得的收益更高,这表明更大的模型可以更有效地利用上下文。1https://github.com/OpenNMT/OpenNMT-py2我们使用Sharma et al.(2017)计算重叠。https://github.com/Maluuba/nlg-eval+v:mala2277获取更多论文→→3.3人工评价任务GPT-2 GPT-2否(w/oT)偏好相关性46.1130.83参考11.6731.9456.39表5:人体评价结果。数字显示了为每个指标选择特定选项的次数百分比(%)。除了自动评估外,我们还对消融(GPT-2-w/oT和GPT-2模型)进行了人工评估,以评估生成的质量以及在上下文中接地生成的重要性三位人类法官注释了120个独特的样本,以供相关性和参考,下面描述。两种模型(有和没有上下文)都产生了语法流畅的输出,没有任何明显的差异。相关性:为注释者提供程序文本T、st和相关问题的输入。GPT-2(w/oT)和GPT-2生成的输出事件也以随机顺序提供。注释者被问到:他们也可以选择选项C(无偏好)。与真实事件(参考)的比较:我们测量每个系统生成的事件反映参考(真实)事件的准确程度。在这里,注释者只看到参考句子和两个系统(A和B)以随机顺序的输出我们问注释者,注释者可以选择选项A、B或C(无偏好)。对于相关性和参考比较任务(表5),我们给出了三个类别中每一个类别的人类法官计数的百分比。该表说明了GPT-2在两个指标上都优于GPT-2(w/oT)。特别地,GPT-2不仅比GPT-2(w/oT)执行得更好这意味着GPT-2生成逻辑上跟随段落和源事件的目标事件。参考和相关性任务得分共同表明,GPT-2不会生成与参考目标事件非常相似的目标事件,但它们在文章的上下文和源事件中是正确的。这可能是由于语言的变化,以及源事件的能力,以影响多个目标事件在上下文的通道。我们在下面的错误分析中更详细地研究了这一点3.4误差分析表6显示了来自验证集的100个随机样本的误差分析。我们发现,对于约26%的样本,生成的事件影响与参考完全匹配,约30%的样本与参考没有重叠(表6中的类别错误)。我们发现,对于20%的情况,生成的目标事件是正确的,但与参考文本相比表达不同(表6中的语言变异性类)。此外,我们观察到,在17%的病例中,生成的目标事件与参考目标事件不同,但与传代和问题相关,如表6中的相关事件类别所示。在5%的样本(极性)中,模型生成的事件与参考事件极性相反一小部分(2%)样本的金色注释不正确。3.5一致性分析最后,我们对生成的st-图进行了一致性度量.考虑生成的图中长度为2的路BC)。一个一致的图将对A最终帮助什么有相同的答案,即,“C”, and C为了分析一致性,我们手动评估了50个随机生成的长度为2的路径,这些路径选自WIQA-st开发集。我们观察到,58%的样本具有与生成的输出一致的输出。我们还测量了w.r.t.金标准,并观察到系统输出约为48%consis- tent。尽管是在独立样本上训练的,我们的st图显示出合理的一致性,进一步提高一致性是一个有趣的未来研究方向。3.6讨论总之,我们的任务制定允许调整预训练的语言模型,以生成人类认为有意义和相关的st图。自动度量显示了使用大规模模型和在上下文中生成st图我们建立多个基线,+v:mala2277获取更多论文M--}}个字符。{LL长×长×长Error类描述%问题参考预测极性预测的极性错误,但事件是正确的百分之五“油田过度使用”最终会有什么没有精炼的更多的石油被提炼语言变异输出结果是指称的语言变体百分之二十兔子越“怀孕多只白兔更多的婴儿相关事件输出相关,但预期参考不同百分之十七你吸入更多的空气从外部伤害在迫在眉睫?你血液你会产生更多的血凝- 你的血管错产出完全无关百分之三十“植物养分少”最终会造成什么更多的植物更多的葡萄酒生产错误引用金色的注解是错误的百分之二什么是兔子交配兔子少更多的婴儿表6:错误类别示例错误分析仅针对不正确的输出显示不同级别的参数大小和预训练,以指导未来的研究。4RQ2:下游任务 CURIE在本节中,我们描述了为下游推理任务增加st图我们首先确定了领域自适应预训练的任务选择(st -任务)(Gururangan et al. ,2020),得到了CURIE语言模型。下游任务然后提供感兴趣的输入上下文、st和(关系,类型)元组,并且获得st图(参见算法1)。我们在第4.1节中描述了一个这样的实例。4.1居里 增强WIQA-QA我 们 研 究 的 效 用 居 里 生 成 的 图 在 WIQA-QA(Tandon et al. ,2019)下游问答基准。该任务的输入是以段落T、开始事件c、结束事件e的形式提供的上下文,并且输出是描述事件c如何影响结束e的标签帮助、伤害或无效果。我们假设,居里可以增加c和e的影响,与单独的上下文相比,给出一个更清晰的场景我们使用在WIQA-st上训练的CURIE来增强QA任务中每个样本中的事件影响作为附加上下文。更具体地,我们通过定义Rfwd=(helps,imminent ) , ( hurts , imminent ) 和 Rrev=( helped by , imminent ) , ( hurt by ,imminent),并使用算法1获得c和e的影响图如下:G(c)=IGEN(T,c,Rfwd)G(e)=IGEN(T,e,Rrev)我们假设WIQA-st图能够生成连接c到e的推理链,甚至查询类型WIQA-BERT +居里WIQA-BERT1跳78.7871.602-跳63.4962.50三跳68.2859.50外源64.0456.13因帕拉73.5879.68非对位90.8489.38整体76.9273.80表7:按跳数和问题类型划分的QA准确度WIQA-BERT 是指Tandon等人(2019)报告的原始WIQA-BERT结果,WIQA-BERT+ Curie是通过用Curie产生的影响增强QA数据集而获得的结果。如果e不是c的直接结果。根据Tandon等人(2019),我们使用BERT编码器E(Devlin等人)对输入序列concat(T,c,e)进行编码。,2019),并使用[CLS]令牌表示(hi)作为我们的序列表示。然后,我们使用相同的编码器E对生成的效果concat(G(c),G(e))进行编码,并使用[CLS]令牌来获得增强的c和e(h_a)的表示。对于编码的输入,我们将最终损失计算为:=αi+β其中li,la分别表示来自h_i和h_a的logit,i和a是它们对应的交叉熵损失。α和β是超参数,它们决定了生成的影响图和过程文本对损失的贡献。我们设α = 1,β =0。9个实验QA评估结果表7通过问题类型和cf和e之间的跳数显示了我们的方法与普通WIQA-BERT模型的准确性。我们还从表7中观察到,+v:mala2277获取更多论文MM我M我我||用从CURIE产生的影响来扩充上下文导致了相对于基于WIQA-BERT的模型的相当大的增益,其中在3跳问题(其中e和c在影响图中处于三个推理跳的距离处的问题)中看到了最大的改进。在3跳问题上的强大表现支持了我们的假设,即生成的影响可能能够连接推理链中相距较远的两个我们还在表7中显示,使用CURIE增强提高了困难的外源性问题类别的性能,这需要背景知识。总之,评价强调了居里作为一个框架的价值,以提高下游任务的性能,需要反事实推理,并作为居里推理的能力的评估st-场景。4.2零发射评估除了监督增强之外,我们还评估了CURIE-在零拍摄设置中。 为此,我们对QUARTZ进行了零炮评估(Tafjord et al. ,2019b),一个定性反事实推理的数据集。QUARTZ中的每个样本都包含一个问题qi=如果山顶变得更热,山顶上的冰将:,上下文ki=冰在更高的温度下融化,任务是从两个选项中选择正确的答案1=增加,2=减少。由于这项任务5相关工作闭域st推理:在NLP中,大量的工作集中在假设问题上,其中输入是上下文,st和结尾,任务是预测从st到结尾的可达性 最常见的方法(Tandon et al. ,2019; Rajagopal et al. ,2020;Tafjord et al. ,2019a)是分类设置,其中路径被定义为在输入上下文(具有有序步骤的段落或程序文本)中的句子上的或多或少(定性强度)。这样的模型不能跨领域通用化,因为很难处理跨领域变化的词汇表相比之下,我们的框架结合了这样不同的st-推理任务下的一般框架。开放域st推理:最近,人们对来自检索环境的st推理感兴趣(Lin et al. ,2019年)和更常见的生成环境,部分归因于神经生成模型的兴起(Yangfeng Ji和Celiky-ilmaz,2020年)。Qin等 (2019)提出了生成模型,以生成从反事实到故事结局的路径。另一个最近的数据集(Rudinger et al. ,2020)提出了可撤销的推断,其中推断(X是一只鸟,因此X飞)可以根据以下情况被削弱或推翻:我我被设置为定性二元分类任务,不能直接采用CURIE来像算法1中描述的那样增加QA对。对于zero-shot设置,我们使用QUAREL-st上微调的CURIE作为我们的语言模型。对于一个看不见的测试样本(qi,a1,a2,ki),我们选择a1作为新证据(X是企鹅),他们的数据集和任务是区分和生成两种类型的新证据我们利用这个数据集,将他们的归纳推理设置重新制定为演绎设置(见详情见第2.2我我我如果pθ(a1xi)> pθ(a2xi),则为正确答案,且否则选择2(这里pθ代表QUAREL-st)。我们的零杆居里-实现了54%的准确率相比,监督BERT模型,达到54.7%的准确率。这些结果表明,居里在没有任何监督的情况下,在任务中表现出竞争力。4.3讨论总之,当生成的st图作为QA模型的额外输入时,我们显示出了实质性的收益。我们的方法迫使模型在上下文中推理影响,然后提出问题,这被证明比直接提出问题更好当前的系统做出一些简化的解释,例如,结尾是已知的。多个st(例如,更多的阳光,更多的污染)可能同时发生最后,所有这些系统都假设st在上下文中只发生一次。我们的框架通过在演绎推理过程中放弃给出结尾的假设来原则上,我们的公式是一般性的,足以允许多个ST和递归推理,因为更多的情况下展开。最重要的是,我们的框架是第一个允许跨不同数据集进行st推理的框架,在现实的环境中,只有上下文和st是已知的。+v:mala2277获取更多论文6结论我们提出了居里,一个情景推理:(i)在生成ST-推理图方面是有效的,通过自动化度量和人工评估进行了验证,(ii)通过简单地用生成的ST图扩充它们的输入来提高两个下游任务此外,我们的框架支持递归查询任何节点的st图。对于未来的工作,我们的目标是设计先进的模型,寻求一致性,和另一条线的研究递归ST-推理作为对话和推理之间的桥梁。引用德米特里·巴赫达瑙,赵京铉,和尤恩·本吉奥.2015.神经机器翻译通过联合学习来对齐和翻译。第三届国际学习表征会议,ICLR 2015。作者简介:杨文,罗文,罗南,高剑锋,蔡业珍.2020. Piqa:用自然语言推理物理常识在AAAI,第7432Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。H.格莱斯1975.逻辑和会话语法和语义学。在逻辑和会话中,语义学和语义学。苏 钦Gururang an ,AnaMaraso vic' ,SwabhaSwayamdipta , Kyle Lo , Iz Beltagy ,Doug Downey和Noah A Smith。2020.不要停止预训练:使语言模型适应领域和任务。arXiv预印本arXiv:2004.10964。SeppHochreiter和JürgenSchmidhube r. 一九九七年。长短期记忆。Neural computation,9(8):1735-1780.Ari Holtzman,Jan Buys,Li Du,Maxwell Forbes和Yejin Choi。2019.神经文本退化的奇怪案例。arXiv预印本arXiv:1904.09751。林金耀2004. Rouge:一个自动评估摘要的软件包。在文本摘要分支中,第74凯文·林,奥文德·塔夫约德,彼得·克拉克,马特 · 加 德 纳 .2019. 段 落 效 果 的 推 理 。 在MRQA@EMNLP。Minh-Thang Luong,Hieu Pham,and Christopher DManning. 2015.基于注意力的神经机器翻译的有效方法。2015年自然语言处理经验方法会议论文集,第1412Kishore Papineni,Salim Roukos,Todd Ward,andWei-Jing Zhu.2002. Bleu:一种机器翻译的自动评价方法。第40届计算语言学协会年会论文集,第311-318页。计算语言学协会。Jeffrey Pennington、Richard Socher和Christopher D.曼宁2014. Glove:单词表示的。在自然语言处理的经验方法(EMNLP)中,第1532秦连辉,Antoine Bosselut,Ari Holtzman,Chan-dra Bhagavatula,Elizabeth Clark和Yejin Choi。2019.反事实故事推理与生成。EMNLP。Alec Radford,Karthik Narasimhan,Tim Salimans和Ilya Sutskever。2018年通过生成式预训练提高语言理解能力。网址https://s3-us-west-2.亚马逊。com/openai-assets/researchcovers/languageunsupervised/languageunderstanding paper. PDF.Alec Radford ,Jeffrey Wu , Rewon Child , DavidLuan,Dario Amodei,and Ilya Sutskever. 2019.语言模型是无监督的多任务学习器。OpenAIBlog,1(8):9.Dheeraj Rajagopal , Niket Tandon , P. Clarke ,Bhaidan Dalvi,and E.霍维2020.如果我要求你解释:解释程序文本中扰动的影响。EMNLP的结果。放大图片作者:Rachel Rudinger,Vered Shwartz,Jena D. 放 大 图 片 作 者 : Hwang , ChandraBhagavatula,Maxwell Forbes,Ronan Le Bras,Noah A.史密斯和崔艺珍2020. 像怀疑论者一样思考:自然语言中的可废止推理。在计算语言学协会的调查结果:EMNLP 2020,第4661-4675页,在线。计算语言学协会。Maarten Sap 、 Ronan Le Bras 、 Emily Allaway 、Chan- dra Bhagavatula、Nicholas Lourie、HannahRashkin、Brendan Roof、Noah A Smith和YejinChoi。2019年。Atomic:一个用于if- then推理的机器常识图谱。在AAAI人工智能会议论文集,第33卷,第3027-3035页。Shikhar Sharma,Layla El Asri,Hannes Schulz,and Jeremie Zumer. 2017. 面向任务的对话中用于评估自然语言生成的无监督度量的相关性。CoRR,绝对值/1706.09799。Oyvind Tafjord,Peter Clark,Matt Gardner,Wen-tau Yih , and Ashish Sabharwal. 2019 年 a 。Quarel:用于回答有关定性关系问题的数据集和模型。InProceedings of the+v:mala2277获取更多论文AAAI人工智能会议,第33卷,第7063奥伊文德·塔夫约德,马特·加德纳,凯文·林,和彼得·克拉克. 2019年b. Quartz:一个定性关系问题的开放域数据集。在EMNLP/IJCNLP。NiketTandon,BhavianiDalvi,KeisukeSakaguchi , Pe-terClark , andAntoineBosselut.2019. Wiqa:一个“如果......”的数据集。程序文本的推理。在2019年自然语言处理经验方法会议和第9届自然语言处理国际联合会议( EMNLP-IJCNLP ) 的 会 议 中 , 第 6078-6087页。Thomas Wolf,L Debut,V Sanh,J Chaumond,CDe- langue , A Moi , P Ciudad , T Rault , RLouf,M Fun-towicz,et al. 2019. Huggingface的变形金刚:最先进的自然语言处理。ArXiv,abs/1910.03771。Thomas Wolf Yangfeng Ji , Antoine Bosselut andAsli Celikyilmaz. 2020. 令人惊奇的世代世界。EMNLP教程。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功