没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文基于句间依存图的徐丽艳1,张旭超2,宗波2,刘彦驰2,程伟2,倪景超2,陈海峰2,赵亮1,陈金浩D。崔11美国佐治亚州亚特兰大市埃默里大学计算机科学系2NEC Laboratories America,Princeton,NJ,USA1{liyan.xu,liang.zhao,jinho.choi}@ emory.edu2{xuczhang,bozong,yanchi,weicheng,jni,haifeng}@ nec-labs.com摘要我们在直接零镜头设置中针对跨语言机器阅读计算(MRC)任务,通过引入通用语法(UD)的句法特征,我们使用的关键特征是每个句子内的句法关系。虽然以前的工作已经证明了效果-在已有的句法引导的MRC模型中,我们提出除了采用基本的句内关系外,还采用句间句法关系,以进一步利用MRC任务中多句输入在我们的方法中,我们建立了句间依存图(ISDG)连接依存树,以形成跨句子的全局句法关系。然后,我们提出了ISDG编码器,编码的全球依赖图,解决句子之间的关系,通过一跳和多跳依赖路径 明 确 。 在 三 个 多 语 言 MRC 数 据 集 ( XQuAD ,MLQA,TyDiQA-GoldP)上的实验表明,我们的编码器在所有14个测试集上都能提高零射击性能,平均提高3.8 F1 / 5.2 EM,在某些语言上提高5.2 F1 / 11.2 EM。进一步的分析表明,这种改进可以归因于对跨语言一致性句法路径的关注。1介绍普遍的一致性(UD)(Nivreet al. 2016)是一个统一的框架,旨在为超过90种语言提供跨语言的一致性特征,包括词性(POS)标签、形态特征和句法依赖性。由于大量的注释工作,最近发布了100多个树库,已经提供了几个工具包,例如Stanza(Qi et al.2020)和UDPipe(Straka2018),它们构建在UD框架上,并在预测多种语言的通用语法特征方面提供了最先进的性能,为跨语言应用提供了新的潜力。在这项工作中,我们的目标是将UD功能,零触发跨语言机器阅读理解(MRC)任务具体来说,我们的主要动机是每种语言的原始文本可以表现出自己独特的语言特征,而跨语言一致的句法可以作为跨多种语言的锚点例如图1Copyright © 2022 , Association for the Advancement ofArtificial Intelligence(www.aaai.org). All rights reserved.他在2016买了一套房子2016年他家租了一套房子图1:英语和日语中平行句子的句法依赖表示。我们用相同的颜色标记意义相同的动词和名词。两种语言的句子结构差异很大,而主要成分(动词和名词)在句法依赖下具有相同的图形结构,减少了表征上的跨语言差距。展示了英语和日语中在句子结构上差异很大的平行句。通过提供普遍句法依赖的额外线索,该模型可以受益于跨语言表示的更紧密的间隙,与依赖图结构的显式对齐。过去的各种工作已经表明,句法信息模型在机器翻译中是有效的(Chenet al. 2018;Zhang et al.2019)和其他单语句内任务,如语义角色标签(SRL)(Strubellet al. 2018;Kasaiet al. 2019年)的报告。最近,对额外句法线索的利用似乎有所减少,因为新兴的预训练语言模型,如BERT(Devlinet al.2019)已经隐式地编码了句法的语言概念(Hewittand Manning2019)。然而,这项工作的价值是双重的。首先,现有的方法专注于每个句子内的直接句法关系,例如最近的MRC模型SG-Net(Zhang et al.2020);而我们进一步明确地解决全局句法图中跨句子的多跳关系。其次,语法特征是否能为多语言MRC提供有用的辅助信息仍然是一个悬而未决的问题,以前没有回答,因为通用语法是最近才发布的我们的方法采用多语言预训练语言模型作为主干,并具有直接零镜头传输,其中整个模型仅在源上训练买購⼊他家2016彼家2016年,一在はをにarXiv:2112.00503v1 [cs.CL] 2021年12+v:mala2255获取更多论文LLL语言,并直接在多个目标语言的测试集上进行评估。我们提出的模型旨在增强任何预先训练的模型,并且可以进一步与其他跨语言迁移技术结合,这些技术涉及训练中的目标语言,例如在训练中向目标语言添加翻译 ( Hsu , Liu 和 Lee2019;Leeet al. 2019;Cui 等 人2019;Yuanet al. 2020年)。为了解决在MRC任务的多句子文档中利用句法依赖性的主要挑战,我们首先构建了句子间依赖性图(ISDG),这是一个连接每个句子的句法依赖性的文档级图(第3.2节)。然后,我们介绍了我们的ISDG编码器堆叠在预先训练的语言模型上,这是一个基于自我注意力的图形编码器(Vaswaniet al. 2017),并具体编码ISDG结构和关系。所提出的编码器由两个组件组成:特别是,我们定义了我们在三个多语言MRC数据集上使用三种不同的预训练语言模型进行实验,以测试我们方法的通用性:XQuAD(Artetxe,Ruder和Yogatama2020),MLQA(Lewis et al. 2020)、TyDiQA-GoldP(Clark等人,2020)。该评估涵盖了UD支持的8种语言的14个测试集实验结果表明,我们提出的图编码器能够提高所有测试集上的F1或EM的零射击性能,将所有三个数据集上的平均性能提高高达3.8 F1和5.2 EM(第4.3节),并在某些语言上获得高达5.2 F1 / 11.2 EM的改进。结果表明,零激发模型能够从大多数实验语言的跨语言一致UD特征中受益,并且分析表明,对全局句间同义词的关注,战术依赖性可能发挥重要作用。2相关工作我们将零机会跨语言迁移(CLT)分为两种类型。第一种类型是直接转移,表 示 ( AMR ) 解 析 ( Blloshmi , Tripodi 和 Nav-igli2020)。其他技术,如自我学习(Xu et al. 2021)和元学习(Li et al. 2020年;Nooralahzadeh2020年)也被推荐用于CLT。我们的工作是第一种CLT类型的扩充;然而,它与第二种类型并不冲突,并且可以进一步与其他涉及目标语言的训练技术相结合以前的工作主要是在单语设置下介绍了各种语法引导 图 模 型 。 早 期 的 工 作 包 括 Tree-LSTM ( Tai ,Socher,and Manning 2015)和Graph-LSTM(Song et al.2018)来编码语法树或AMR图。关于AMR到文本任务的几个最近的工作(Guo et al. 2019;Subburathinam等人2019)在图编码中使用了图卷积网络(GCN)的变体(Kipf和Welling2017)我们提出的编码器更接近于其他 一 些 最 近 的 工 作 ( Zhu et al.2019;Caiand Lam2020;Yao , Wang , and Wan 2020;Zhanget al. 2020年),它在自我注意力中编码图形。我们的方法是区别于以往的工作,因为我们解决了零杆多语言的角度,以及在多句输入的全球依赖性。3方法我们首先简要回顾了多语言预训练语言模型,这是我们实验中的基线和骨干然后,我们介绍了UD的功能,以及我们如何编码的语法功能,使用本地和全球的编码组件在我们建议的ISDG编码器。3.1多语言预训练模型最近的多语言预训练语言模型采用了Transformers架构(Vaswani et al. 2017)用于序列编码,并且它们的直接零激发性能被用作基线。根据之前关于跨度提取MRC任务的工作,我们使用相同的输入格式,其中问题和上下文被打包在单个序列中。我们在所有的实验中也使用了相同的解码方案,其中两个线性层堆叠在编码器上以分别预测答案跨度的开始和结束位置。黄金开始和结束位置is,ie的对数似然性在训练期间被优化:p s/e(i)= softmax. 西行x行+西行x行(1)Se培训只涉及源语言,不涉及暴露-任何目标语言。最近的多语言预训练语言模型为数字签名带来了重大进展L=−logp(is)−logp(ie)(2)其中ps/e(i)是令牌i是开始/结束位置的可能性,Ws/e和bs/e是线性布局的参数通过对齐不同语言的正确传输性能L L共享嵌入空间,如mBERT(Devlin等人2019)、XLM-R(Conneauet al. 2020)、mT5(Xueet al. 2021年)。 第二种零触发CLT是在训练过程中直接暴露某些目标语言,在这方面已经提出了许多技术。在MRC的任务中,Hsu,Liu 和Lee(2019);Lee et al.(2019);Cui等人(2019)通过利用翻译和投影银标签获得目标语言的训练语料库;类似的技术也用于其他跨语言任务,如SRL(Cai和Lapata2020), POS标记(Es-kander,Muresan和Collins2020)和抽象意义是损失函数。最终选择的预测是具有最高的开始和结束似然之和的跨度。3.2普遍性由于所有原始UD特征都基于UD自己的标记化,因此我们首先调整模型以适应UD和预训练模型的标记化。具体而言,UD首先将原始文本标记为原始标记,然后对每个标记应用“多词标记(MWT)扩展”,这可以改变其形态形式并进一步拆分出多个+v:mala2255获取更多论文子字##poners/e:36/43ims/e:36/43las/e:43/45扣押者s/e:36/43las/e:43/45因波内拉s/e:36/45疑问句:约翰对什么感觉良好?感觉什么约翰好吗?约感觉研究他很好。约翰em##bed ##ding昨天它词上下文句子1:约翰昨天学习了单词嵌入。关于第二句:他感觉很好。图2:左侧显示了ISDG的简化示例节点通过句法依赖关系连接特殊类型的跨句和跨类型连接依赖树的根节点,用蓝色标记。为了简单起见,我们省略了每个节点上的自连接,并省略了“em”,“##bed”,“##ding”的子令牌之间的子令牌在右侧,显示了我们的模型架构的概述我们提出的ISDG编码器堆叠在预训练的语言模型上,并在获得的多句图结构中编码局部单跳和全局多跳可以有完全不同的文本,不出现在原始文本中。我们通过构建从每个单词(MWT扩展后)到原始文本中的开始和结束字符索引的启发式映射来解决这个问题,然后对每个单词执行预训练模型的标记化以获得子标记,如图3所示。图3的左侧显示了一个西班牙语示例,其中MWT通过添加分割将“imponerla”简单地拆分MWT西班牙语:imponerlaàs/e:15/17乐s/e:15/17às/e:15/17乐s/e:15/17法语:au相应地。右侧显示了一个法语示例,MWT将“au”拆分在这种情况下,我们将它们的字符索引分配为与原始标记相同,因为MWT之后的单词不存在于原始文本中。为了生成预测的答案,我们可以简单地使用预测的子词位置的最左边和最右边的字符索引来恢复文本跨度。Universal POS我们为UD定义的17种POS类型使用可学习的嵌入层。对于每个子令牌,我们将其POS嵌入与预训练模型的最后一层的隐藏状态连接起来,作为以下图形编码器的新输入隐藏状态。通用句法依存度UD为句子中的每个词(MWT扩展后)提供句法依存特征,包括其中心词和与中心词的依存关系。每个句子包含一个唯一的词根,没有中心词。在这项工作中,我们使用UD的主要关系类型,而不考虑图3:令牌化过程的示例。s/e表示原始文本中开始/结束字符的索引。亚型所提出的模型如下消耗句法依赖特征。3.3句间依赖图由于MRC是文档级任务,因此输入通常由上下文和问题的多个句子组成。虽然以前的工作主要集中在编码的 原 始 synn-tactical 依 赖 直 接 在 每 个 句 子 中 , 我 们propose进一步考虑全球的句法关系,加强文档级的输入结构。因此,我们为多句输入构建以下图,使用每个句子的依赖树来构建全局句法关系,即句间依赖图(ISDG)。ISDG的一个示例如图2所示。我们首先得到每个句子的原始依存树,然后添加每个中心词的保留关系预测线性层ISDG编码器当地z1L:nWVWRV掩蔽全球z1G:nWGVWQWKWRQWRKLSTMs多语言预训练模型KWGQWGznaus/e:15/17“Soft”多跳关系单跳关系[CLS] 问题[SEP] 上下文[SEP]+v:mala2255获取更多论文MΣikKK我√IJIJIJ孩子的话。然后,我们将树调整到子令牌级别:我们将每个单词拆分为其相应子令牌的节点,其中每个子令牌节点与单词共享相同的关系。在来自同一个单词的所有子标记中,我们通过一个特殊的关系子标记完全连接它们,并且还通过一个特殊的关系self自连接每个节点。对于特殊的子令牌,如[CLS]和[SEP],只分配自连接。本文其余部分中的所有然后,我们连接所有独立的依赖树,以构建最终的ISDG。具体地说,我们用一种特殊的关系跨句将上下文句中的所有根节点完全连接起来,用另一种特殊的关系跨类型将问句和上下文句之间的所有根节点完全连接起来因此,ISDG中的每个节点可以通过一跳或多跳依赖路径到达任何其他节点,建立全局语法关系。ISDG的设计目标是保留所有原始句法特征,同时增加跨句输入结构的可见性。每个输入序列、节点和关系的嵌入矩阵的大小分别为Ndx和N2dr因此,对于n可能相当大的文档级任务,保持dx=dr我们做了第一个调整,将dr设置为比dx小得多,并使用另一组关键字和查询参数的关系。我们还分享了注意力之间的关系矩阵,减少内存使用。其次,由于ISDG不是一个完全图,我们隐式地为任何没有关系的rij设置一个none类型然而,这将在等式(3)中引入非平凡的归纳偏差,因为在图矩阵中没有类型是普遍的。因此,我们通过等式(4)和(5)中指定的无类型对注意力分数应用注意力掩蔽,类似于Yao,Wang和Wan(2020);Zhang等人。(2020),在不直接连接的节点之间强制电感偏置为0。最后,我们还将这些关系注入到自我注意的价值表征中,如等式(6)所示。最终的归一化注意力分数αL和输出zL计算如下:3.4ISDG编码器:本地编码对于每个输入,我们提出的ISDG编码器专用于MijL1rij/=无0否则exp(Mij·eL/λdx)(四)它的ISDG编码上面获得的,它由两个COM,ponents:本地编码组件,直接关注本地单跳关系(第3.4节),全局编码组件,αij =nk=1nIJexp(Mik·eL/dx)(五)编码组件,其进一步考虑全局跨句子的多跳句法关系(3.5节)。zL=<$αL(xj WV+rij WRV)(6)本地编码组件采用了相对位置编码已经被几个最近的WV∈Rdx×dx和WRV∈Rdr×dx是查询参数-工 作 ( Shaw , Uszkoreit 和 Vaswani2018;Dai et al.2019;Cai and Lam2020)。我们将序列位置i处的每个输入节点的隐藏状态表示为xi,这是其POS嵌入及其来自预训练模型的隐藏状态的关联。从节点i到节点j的关系类型的隐藏状态被表示为rij,其由下式获得: 一个独立的可学习嵌入层。单跳关系的结构被注入到自注意中,如下所示:节点和关系的eters。请注意,本地编码组件的多个层可以堆叠在一起,以隐式地对高阶依赖关系进行建模,然而在实践中,堆叠多个层受到GPU内存的限制,并且对于巨大的文档级图形矩阵来说很快变得不切实际。3.5ISDG编码器:全局编码接下来,我们提出并集成以下全局编码L=.(xi)+rij )WQ- 是的(xj+R集)WK汽车旅馆(3)组件到ISDG编码器中,因为ISDG中的每对节点总是具有关系的依赖路径=(xi WQ WT xj)+(xiWQ WT rji)并且利用这种多跳关系应当进一步`(a)x ` (b)xKK提供更强的序列编码。以前的工作已经通过直接编码最短的多跳关系,+(rij WQ WT xj)+(rijWQ WT rji)两个节点之间的路径,用于并行级任务(Zhu etal.`(c)x`(d)x2019;Cai and Lam2020)。然而,这对于MRC任务,因为序列长度n可以大L是原始的注意力分数,它考虑了低-用于文档级输入。设lp为最大路径在ISDG中调用从节点i到j的单跳关系类型;WQ和WK是查询和关键参数。特别地,等式(3)可以被分解和解释为四个部分。术语(a)与原始的自我注意力相同;术语(b)和(c)表示以源/目标节点为条件的关系偏差;项(d)是关系类型的先验偏差。然而,公式(3)中的香草注入不能直接适用于ISDG,我们做了两个调整来解决这个问题。以下问题。首先,设dx和dr是节点和关系的隐藏大小;等式(3)要求相等的隐藏大小dx=dr。为长度,dp是每个路径步长的隐藏大小。路径矩阵的大小为n2lp dp,包括每对节点,这很容易消耗所有GPU内存。为了解决上述问题,我们提出的全局编码组件利用任意两个节点之间的近似路径,而不是完整路径。我们称之为“软”路径背后的基本原理.=eej=1+v:mala2255获取更多论文†G†‡×IJQK节点到节点 ,其顺序与. 我们IJexp(eG/我IJJV我我串联τij在很大程度上捕获了真正的最短路径QKVi,ti,ti,t−1任何跨句节点对,每个节点总是经过它的根节点。我们将p(i)表示为从节点i到其根节点ir的隐藏状态的输出路径:pt(i)=(xi,r ik1,x k1,r k1 k2,. . . ,rkiir,x ir)对于k1,. .,k i是路径中的中间节点。作为查询,并将节点j的传入路径表示<$g−j作为key,类似于注入到自我注意力中:eG=(→−giWG)(<$g−jWG)T(10)exp(eG/10dx)类似地,我们将p(i)表示为从根的传入路径Ir我p†(i)α=ikn(十一)然后定义从节点i到j的τ ij=(xi,. . . ,xir,xjr,.. . ,x j)zG=αG。(→−g+←g−)WG(12)=p<$(i)p<$(j)(7)zi=zL<$zG(十三)xir和xjr是i和j的根节点,WG,WG,WG∈Rdx×dx是查询,键,值参数,的跨句节点对,只失去一个中间,全局编码组件的参数最终输出两个根节点之间的关系rirjr;对于内-是来自局部和全局编码组件两者的输出的级联。变成毛皮-句子对,τij可以成为非最短路径,但仍然通过直接单跳关系提供辅助信息,为了加强句子间的互动,可以选择在句子上叠加额外的香草自我注意层。本地编码组件中的元素的图示“软”路径如图4所示。ISDG编码器,其采用输出序列z4个实验4.1实施设置1:n作为输入。图4:“软”路径的图示。两个依赖关系树被描绘为具有根节点A和G。所有节点对的真实路径严重重叠,因为每个节点都需要经过其根节点。示出了从节点E到K的节点E:p(E)和节点K的传入路径:p(K),作为真实路径的近似。作为“软”路径权衡的结果,我们现在可以将全局多跳关系的近似路径拟合到自注意中我们通过长短期记忆(LSTM)对传出和传入的“软”路径进行编码对于节点i,在步骤t处由−h→i,t和<$hi−,t表示:我们在PyTorch中实现我们的模型,并使用Stanza(Qietal.2020)来提供UD功能。1获取训练集和测试集的UD特征是作为离线预处理步骤计算的,大约需要4个小时。我们实验了三种最近的多语言预训练语言模型:mBERT(Devlin et al.2019),XLM-R Large(Conneau etal.2020),mT5 Large(Xue et al.2021)。为了公平比较,我们根据预训练模型和数据集保持以下相同的条件:(1)相同的预训练权重和超参数;(2)相同的解码方案(第3.1节)。对于mBERT和XLM-RLarge,我们遵循与XTREME类似的超参数设置对于mT5Large,我们仅使用其编码器并丢弃解码器,并采用1 10−4的学习率,这实现了基线结果与Xue et al. (2021年)。对于使用ISDG的实验,我们将最大路径长度限制为8,并从末端截断长POS和关系嵌入采用64位隐藏长度所有实验都在Nvidia A100 GPU上进行,基线训练时间约为1 - 2小时,ISDG编码器训练时间约为2.5 - 4小时。4.2评估协议−h→←LSTM(s<$,−h−→;θ†)(8)我们在三个多语言MRC工作台上评估我们的模型-由XTREME建议的标记:XQuAD(Artetxe,Ruder,←hi−,t←LSTM(si,t,<$hi−,t−−1;θ)(9)JKLH我正确道路GER1CR2一R3GR4HR5Kp<$(E)p(K)一BC“Soft”LSTM自我注意:查询键D E F≈nk=1dx)j=1我√IJ+v:mala2255获取更多论文†‡†‡和Yogatama2020)、MLQA(Lewis等人,2020)、 TyDiQA-GoldP(Clarket al. 2020年)。 对于XQuAD和MLQA,mod-其中s<$i,t和si,t是“软”路径中的第t个隐藏状态在英语SQuAD v1.1(Rajpurkaret al.2016),并直接在每个数据集p(i)和p(i);θt和θt是LSTM的参数。然后,我们可以得到两个不同的表示,每个多种目标语言。对于TyDiQA-GoldP,模型在其英语训练集上训练并直接节点i,用→−gi和<$g−i表示,这是最后一个LSTM隐藏的。输出路径p(i)和输入路径p(i)的den状态尊敬我。我们将输出路径表示为→−gi1我们的代码可在https://github.com/lxucs/multilingual- mrc-isdg上获得。+v:mala2255获取更多论文endeEles嗨ruavgmBERT*83.5/72.270.6/54.062.6/44.975.5/56.959.2/46.071.3/53.370.5/54.6mBERT83.8/73.071.7/55.863.6/45.876.4/59.058.2/44.071.5/55.170.9/55.5+ ISDG84.1/73.174.1/57.664.4/48.276.1/57.859.3/46.072.2/55.371.7/56.3XLM-R*86.5/75.780.4/63.479.8/61.782.0/63.976.7/59.780.1/64.380.9/64.8XLM-R87.4/76.380.8/63.980.6/63.482.2/63.076.4/60.080.9/65.181.4/65.3+ ISDG88.6/77.982.1/66.181.9/64.383.4/65.976.9/60.981.3/64.582.4/66.6mT5*88.4/77.3 80.0/62.9 77.5/57.6 81.8/64.2 73.4 /56.674.7/56.979.3/62.6MT587.8/76.8 80.9/63.9 79.3/60.982.4/64.0 75.7 /58.778.6/62.280.8/64.4+ ISDG88.7/78.2 82.5/65.4 80.5/61.382.1/63.276.9/60.380.5/64.281.9/65.4表1:每种语言的XQuAD结果(F1/EM)。粗体数字是每个预训练语言模型的最佳结果;下划线数字是所有模型的最佳结果(表2相同)。MLQA TyDiQA-GoldPendees嗨avgenFikoruavgmBERT*80.2/67.059.0/43.867.4/49.250.2/35.364.2/48.875.3/63.659.7/45.358.8/50.060.0/38.863.5/49.4mBERT80.8/67.861.0/46.467.3/49.249.3/33.664.6/49.374.3/61.860.3/44.057.3/46.762.5/42.363.6/48.7+ ISDG80.7/67.962.3/48.167.1/49.450.3/35.165.1/50.274.4/63.261.1/43.552.5/44.261.3/43.762.3/48.7XLM-R*83.5/70.670.1/54.974.1/56.670.6/53.174.6/58.871.5/56.870.5/53.231.9/10.967.0/42.160.2/40.8XLM-R84.5/71.571.1/56.174.2/56.471.4/53.675.3/59.473.6/61.374.2/58.259.4/47.869.5/46.869.2/53.5+ ISDG84.9/71.971.2/56.274.4/56.271.8/54.075.6/59.676.2/64.575.3/59.464.0/52.570.7/51.271.6/56.9mT5*84.9 /70.768.9/51.873.5/54.166.9/47.773.6/56.171.6/58.964.6/48.847.6/37.358.9/36.860.7/45.5MT584.5/71.769.0/53.973.8/56.269.2/51.874.1/58.473.3/60.971.5/54.560.8/51.168.1/44.868.4/52.8+ ISDG84.9/71.969.6/54.474.7/56.770.4/52.274.9/58.876.3/64.573.1/55.166.0/56.573.3/56.072.2/58.0表2:每种语言的MLQA结果(左)和TyDiQA-GoldP结果(右)(F1/EM)在它的测试集上。我们使用XTREME提供的评估脚本,保持评估协议相同。使用F1和精确匹配(EM)的标准度量当我们使用Stanza来获得UD特征时,我们的实验包括UD支持的语言,并且也具有与源语言英语相似的预测性能,这在很大程度上保持了所获得的UD特征在不同语言之间的一致性。具体来说,我们通过Stanza2提供的La- beled Attachment Score(LAS,依赖解析的主要评估指标)比较了每种语言的依赖解析性能,并包括当前LAS分数高于80的任何语言。在我们的实验中,所得到的评估包括总共8种语言和14个测试集随着UD项目的积极发展,预计在不久的将来会有更多的语言和更高的功能质量。4.3结果XQuAD的评价结果如表1所示,表2的左右部分分别为MLQA 和 TyDiQA-GoldP 的 评 价 结 果 特 别 是 ,mBERT*、XLM-R*和mT5*表示从XTREME和mT5的原始论文中报告的结果;所有其他结果都是从我们重新实现的基线和提出的模型中获得的。在所有三个数据集上实验了三种不同的多语言预训练语言模型,2https://stanfordnlp.github.io/stanza/performance.html整个评估由8种语言的14个测试集组成。每个测试集的最佳结果(由每列的下划线分数表示)由我们的ISDG编码器在F1或EM方面实现。ISDG编码器还使用三种多语言预训练模型中的任何一种在所有三个数据集上建立了最佳的平均性能,除了TyDiQA-GoldP上的mBERT具体而言,XQuAD和MLQA两者的最佳平均结果由具有XLM-R的ISDG编码器实现,而具有mT5的编码器示出了TyDiQA-GoldP的最佳结果,在其相应基线上平均提高了3.8 F1 / 5.2 EM。在某些测试集上,这种改进可 能非常显著。 例如, ISDG在俄语 (ru)的TyDiQA-GoldP测试集上使用mT5带来了5.2 F1/11.2 EM改进每种语言的结果表明,尽管UD被设计为提供跨语言的一致特征,但不同的语言并没有平等地从句法特征中受益,这可能是由于从语言学角度来看,语言之间存在内在差异,以及从Stanza获得的跨语言的不同特征质量尽管如此,大多数语言确实显示出具有一致的性能提升。一些观察结果可总结如下:• 英语(en)、德语(de)、希腊语(el)、印地语(hi)、俄语(ru)、芬兰语(fi)可以使用任何一种预训练模型在不同的数据集上一致地从UD特征中获得积极的影响(改进高达5.2F1)。• 西班牙语(es)从UD功能中获得了积极的影响;但是,它可以是特定于网络的,并且不会超出-+v:mala2255获取更多论文j=1IJ使用mBERT或mT5在XQuAD上执行基线。• 使用XLM-R或mT5(高达5.2 F1 / 5.4 EM),韩国人(ko)在TyDiQA- GoldP上获得显著改善。然而,当使用mBERT时,性能下降,可能是因为mBERT的词段标记器和韩语中文本分割的节标记化表2还示出了对TyDiQA-GoldP的改进高于对XQuAD和MLQA的改进例如,当使用带有mT5的ISDG编码器时,英语(en)和俄语(ru)在TyDiQA-GoldP上分别具 有 3 F1 和 5.2 F1 由 于 TyDiQA-GoldP 的 训 练 集 比SQuAD(XQuAD和MLQA的训练集)小得多当源语言的训练数据不够时,编码通用语法特征可以帮助模型快速学习任务目标并推广到多种语言。5个分析5.1消融研究我们首先进行烧蚀研究的ISDG编码器检查的本地和全局图形编码。我们对在XQuAD上具有一致性能提升的语言进行评估,以更明确地显示其影响。表3显示了F1在三种设置下的结果差异:ing POS特征(完全跳过图形编码,类似于基线,但具有UD标记化和POS特征),添加本地编码组件(+ L),添加本地和全局组件(+LG)。两个组件的改进在实验语言中是一致的,全局编码组件平均贡献了大约40%的改进,这表明通过对近似的“软”路径进行编码来解决跨句子的全局多跳句法关系的有效性。此外,仅具有POS特征的模型仍然可以在相应的基线上具有大约0.1-0.2的F1改进,这表明UD标记化和POS特征也对最终性能做出了微不足道的贡献。5.2关于全局编码的接下来,我们具体查看等式(10)中整个图节点上的注意力分布,以进一步理解全局编码如何带来改进。我们跟踪每个注意力的注意力,并测量注意力的时间-每个节点i的张力距离,记为D i= |i −endeEl嗨rumBERT + POS83.971.863.858.371.7+ L+0.1+1.2+0.3+0.5+0.3+ L G+0.2+2.3+0.6+0.9+0.5XLM-R + POS+ L+ L G87.6+0.6+1.081.3+0.5+0.881.1+0.4+0.876.5+0.2+0.481.1+0.2+0.2mT5 + POS87.981.079.475.878.8+ L+0.5+0.8+0.7+0.6+0.8+ L G+0.8+1.5+1.1+1.1+1.7表 3 : ISDG 编 码 器 上 的 烧 蚀 。 结 果 ( F1 ) 显 示 在XQuAD上,平均从五次运行中收集。本地和全局组件的改进在实验语言中基本一致。3002001000图5:德语输入示例的注意力热图,XQuAD上的XLM-R w.r.t注意力距离x轴是输入序列,y轴表示两个注意力头。距离由温度表示。对于序列开始处的节点,因为它们是问题内的节点,并且大量关注上下文。此外,我们还在XQuAD上使用XLM-R记录注意力并计算平均注意距离。我们的统计数据显示,它位于50-60的范围内,并因语言而略有不同。相比之下,预训练模型最后一层中的普通自我注意力的平均注意力距离低于40。结果表明,全局组件中的注意力很好地模拟了长期依赖关系,克服了局部组件只使用单跳关系的缺点,并证明了为更强的输入结构编码而解决全局语法关系的必要性。全局编码成分的注意力分布也表明,真正的多跳路径。6结论在这项工作中,我们的目标是提高直接零射击每-argmax nαG|,这是其当前位置与当前位置之间的距离。在多语言MRC任务上,通过利用跨位置和它具有最大注意权重的位置图5示出了关于注意力距离的两个注意力头上的输入示例的热图,其中Di由温度表示图5表明,图节点具有Di>100(由高温表示) 是相当常见的,这意味着 节点支付高atten。一个可能的跨句子节点。尤其常见的是从UD的语言一致性特征,包括POS和句法依赖关系。利用每个句子内部的原始语法依赖关系,我们构建了ISDG以适应多句子输入,并引入ISDG编码器对所获得的图进行编码。特别地,编码器由编码单跳关系的本地组件和编码01021426384105126147168189210231252273294315+v:mala2255获取更多论文全局多跳关系,采用近似的“软”路径之间的在三个数据集上使用三种多语言预训练模型的实验表明,我们的ISDG编码器能够提高零射击结果的一致性,平均提高3.8 F1 / 5.2 EM;约40%的改进来自对全局语法编码的关注。引用Artetxe,M.; Ruder,S.;和Yogatama,D. 2020.论单语表征的跨语言迁移性。在计算语言学协会第58届年会的会议记录中,4623在线:计算语言学协会.Blloshmi , R.; Tripodi , R.; 和 Navigli , R. 2020. XL-AMR:使用迁移学习技术实现跨语言AMR解析。在2020年自然语言处理经验方法会议录(EMNLP)中,2487-2500。在线:计算机语言学协会。蔡,D.;和Lam,W. 2020.图Transformer用于图到序列学习 。 Proceedings of the AAAI Conference on ArtificialIntelligence,34(05):7464Cai,R.;和Lapata,M. 2020. 跨语言语义角色标注。2020年自然语言处理经验方法会议录,3883-3894。在线:计算机语言学协会。Chen,K.;王,R.; Utiyama,M.; Sumita,E.;和Zhao,T.2018.神经机器翻译的语法导向注意力在AAAI人工智能上。克 拉 克 , J.H.; Choi , E.; Collins , M.; Garrette , D.;Kwiatkowski,T.;尼古拉耶夫;和Palomaki,J.2020年。TyDiQA : ABenchmarkforInformation-SeekingQuestion Answering in Typologically Diverse Languages.TransactionsoftheAssociationforComputationalLinguistics,8:454Conneau,A.; Khandelwal,K.; Goyal,N.; Chaudhary,V.; Wenzek,G.; Guz ma'n,F.; Gr av e,E.; Ott ,M.;Zettlemoyer,L.;Stoyanov,V.2020年。无监督跨语言表征学习的规模。在计算语言学协会第58届年会的会议记录中,8440在线:计算语言学协会崔,Y.; Che,W.; Liu,T.; Qin,B.; Wang,S.;和Hu,G. 2019.跨语言机器阅读理解。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议记录中,1586-1595。中国香港:计算语言学(Computational Linguistics)戴 , Z.; 杨 志 ; 杨 ; Carbonell , J.; Le , Q.; 和Salakhutdinov,R. 2019. Transformer-XL:超越固定长度上下文的注意语言模型。第57届计算语言学协会年会论文集,2978-2988。意大利佛罗伦萨:计算语言学协会。Devlin,J.; 张,M.-W的; 李,K.;和Toutanova,K.2019年 。 BERT : Deep Bidirecti
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功