没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文子结构分布投影用于零次跨语言依赖分析史皓月凯文·吉姆佩尔卡伦·利维斯库芝加哥丰田技术学院6045 S KenwoodAve,Chicago,IL,USA,60637{freda,kgimpel,klivescu}@ttic.edu摘要我们提出了子结构分布投影(SUBDP),一种通过分别投影子结构分布将一个域中的结构分布投影到另一个域的技术。目标域的模型可以OBL根情detNsubj化合物我去了书店然后进行培训,使用投影的分布作为软银标签。我们在零镜头跨语言依赖分析上评估了SUBDP,将依赖弧作为子结构:我们我去了書店我去(部分。PT) 书店nsubj(1.0)化合物(0.5)将源语言中的预测依存关系弧分布投影到目标语言,并训练目标语言解析器以拟合得到的分布。 当英语树库是涉及人类努力的唯一注释时,SUBDP实现了比UniversalApproximencies v2.2的所有先前工作更好的未 标记 依恋得 分( Nivre et al. , 2020年)测试集,以及八种语言中六种语言的最佳标记附件得分。此外,SUBDP改进了零镜头跨语言依赖性解析,50)在更广泛的目标语言范围内的超检查的双文本对1介绍零射击跨语言依赖解析受益于跨语言接地信号,如bitext(Ma和Xia,2014; Lacroix等人,2014)。,2016; Rasooli等人,2021年等)。一种流行的工作是注释投影:将源语言依赖解析器生成的解析投影到目标语言中,然后使用投影的解析来训练新的解析器。如图1b所示,大多数注释投影方法通常输出部分依赖性解析树,其中任何一对单词之间要么有要么没有弧。此外,大多数基于双文本的工作依赖于双文本对之间的一对一单词对齐(例如,图1中的我和我; Ma和Xia,2014; Lacroix等人。,2016; Rasooli等人2021年,除其他外,丢弃许多-根(1.0)obl(0.5)部分PT:表示过去时态的粒子。(a) 使用SUB DP的依赖树投影。OBL根情detNsubj化合物我去了书店我去了書店我去(部分。PT) 书店nsubj根(b) 只有一对一对齐的投影。图1:S UB DP(上图)与注释投影(下图; Lacroix等人)的代表图。,2016)。一个英语解析树,标记为统一的惯例(Nivre et al. ,2016,2020),投射到汉语中的平行句。我们用箭头表示依赖边,括号中是相应的弧概率,用虚线表示单词对齐。一对一比对(例如,书店和书店(图1)。在这项工作中,我们引入子结构分布投影(SUB DP),依赖弧作为子结构。我们考虑投影子结构分布,即,条件概率arXiv:2110.08538v1 [cs.CL] 2021年10+v:mala2277获取更多论文给定一个词的对应头部的概率分布,而不是整个解析树的分布(Ma和Xia,2014)。以源是离散解析树(图1a)的情况为例,SUB DP具有与先前工作相同的行为(例如,Lacroix等人,2016);对于多对一比对,SUDP将对应的弧投影到目标语言中的软弧分布中因此,在SUB DP中,目标语言单词在投影树中可以具有多个头部,其中它们的概率总和为1。更一般地,SUBDP可以采用源语言中的依赖弧或标签分布而不是离散树作为输入。 根据注 释 投 影 模 式 ( Rasooli 和 Collins , 2015;Lacroix et al. , 2016; Zhang et al. , 2019等),然后使用所投影的软树来训练目标语言依存关系解析器。我们主要评估S UB DP上的零镜头跨语言依赖分析与八个选定的语言从通用的自动化v2.2(Nivre等。,2020年),其中英语树库是唯一涉及人类努力的监督。以英语为源语言,在我们的实验中,SUBDP在所有远距离语言(阿拉伯语,印地语,韩语和土耳其语)上的标记依恋得分(LAS)和未标记依恋得分(UAS)方面均显著优于所有基线方法,同时在所有邻近语言(德语,法语,西班牙语和意大利语)上也实现了优越的UAS。进一步的分析表明,SUB DP还有助于在更广泛的目标语言范围内,利用少量的有监督的双文本来改进零镜头跨语言依赖解析2相关工作零冲击跨语言依赖分析。1Zero-shot跨语言依赖分析是一项任务,它需要一个模型来预测依赖分析,而不需要看到目标语言中的任何分析示例;相反,该模型可以使用其他语言中的注释分析。现有的方法可分为以下几类:1. 去词汇化训练(Zeman and Resnik,2008;McDonald et al. ,2011; Cohen et al. ,2011;Durrettetal., 2012 年 ;Rosa 和Rumabokrtskirt,2015年,1在最近的文献中也被称为零镜头依赖解析(Schuster et al. ,2019; Wang et al. ,2019)。尤其是),其仅考虑非词汇化特征(例如,词性标记),并试图转移到目标语言。2. 跨语言嵌入的迁移(Täckström et al. ,2012;Guo et al. ,2015; Schus teret al. ,2019年,除其他外),它假设跨语言的单词表示,包 括 单 词 集 群 ( Täckström et al. , 2012;Ammaret al. ,2016)、词类型嵌入(Guoet al. , 2015 , 2016; Duong et al. , 2015;Ammar et al. ,2016; Wick等人,2016),和语境化的跨语言单词嵌入(Schuster etal. ,2019; Wang et al. ,2019; He et al. ,2019; Ah-mad et al. ,2019a,b),为具有相似句法角色的单词提供共享特征。3. 树 库 翻 译 ( Tiedemann et al. , 2014;Tiedemann,2015),其寻求将源语言中的树 库 翻 译 成 目 标 语 言 或 代 码 切 换 模 式(Zhanget al. ,2019),并使用翻译的树库来训练目标语言解析器。4. 注释投影,它用源语言训练解析器,并使用bitext将预测的源语言解析树投影到目标语言(Hwa et al. ,2005; Ma andXia,2014;Agic 'et al. ,2016)。通常使用额外的策略来提高投影质量,例如仅保持置信边缘( Li 等 人 , , 2014; Lacroix et al. ,2016 ) , 从 多 个源 语 言 的投影( Agic 'etal. ,2016年; Rasooli和Collins,2017年),基于密度的迭代滤波(Rasooli和Collins,2015年,2017年,2019年)和噪声自训练(Kurniawanet al. ,2021年)。对注释可用性有不同的假设,例如黄金词性标签(Ze-man和Resnik,2008; Cohen et al. ,2011; Durrettet al. ,2012年,除其他外),一个相当好的翻译器,它在训练过程中使用额外的 注 释 数 据 ( Tiedemann et al. , 2014;Tiedemann,2015; Zhang et al. ,2019),高质量的双语词典(Durrett et al. ,2012; Guo etal. ,2015,2016,等等)和语言特定的约束(Menget al. ,2019)。大多数基于bitext的工作都假设有注释的bitext(Ma和Xia,2014; Liet al. ,2014; Lacroix et al. 2016,等等)或从额外信号构造的双文本(例如,维基百科;Rasooli 等 人 , 2021 年 ) 。 然 而 , He et al.(2019),Schuster et al. (2019),Ahmad etal. (2019a,b)和Kurniawan+v:mala2277获取更多论文O⟨⟩∈∈i、j|Σ|S|Si,k|∈O∈i,j,l|→Σ|L|Si,j,kPOi,j,lp,q,l..等人 (2021)仅需要最少的注释(即,源语言树库和相关语言的无限原始文本)。在这项工作中,我们提出了一个分布投影方法来投影依赖弧和标签分布的零杆跨语言依赖分析,属于注释投影的范畴与之前的工作相比,我们的方法的一些好处是,它可以很好地使用最少的注释,允许软单词对齐(§3.2),支持标记和未标记的解析,并且具有对 于 非 投 射 解 析 , 具 有 低 时 间 复 杂 度(n2)。2多语言 语境化表征最近的情境化模型预先训练在目标语言L2(§ 3.3),以及(3)训练L2的另一个双仿射依赖分析器P2(§ 3.4)。3.1背景双仿射依赖分析器。对于一个有n个单词w1的句子,. . . ,wn,3,我们用H来表示充当头和从属项时的w ord特征Rn×dh和D其中dh和dd表示相应特征的维数。具有中心词的单词的概率可以用公式表示为n维分类问题:S(弧)= DW(弧)H|(一)exp.S(arc)多语言文本(Devlin et al. ,2019年; Conneau等人,2020; Tran et al. ,2020年,除其他外)已被证明在广泛的P(wj wi)=k=1exp(arc),(二)一系列跨语言NLP任务,包括双文本检索(Tran et al. ,2020),跨语言命名实体识别( Pires et al. , 2019; Mulcaireet al. , 2019年),和跨语言依赖解析(舒斯特等人。,2019; Wang et al. ,2019)。 在这项工作中,我们应用了两个上下文化的预训练模型,XLM-R ( Conneau et al. , 2020 ) 和 CRISS(Tran et al. ,2020)以生成无监督的双文本。软标签方法。作为对单热标签的常规交叉熵损失的直观扩展,计算模型输出和软分布之间的 交叉 熵已 被应 用于 知识 蒸馏 (Hinton etal. ,2015; Youet al. ,2017; Sanh et al. ,2019年,除其他外),跨-语言命名实体识别(Wu et al. ,2020年)其中W(arc)Rdd×dh是bi-a ffine模4G iv enlogP(wj对于每对i和j,依 赖 树 可 以 通 过 使用Chu-Liu-Edmonds算法(Chu和Liu,1965 ; Edmonds,1968)找到最大权重的生成树形图来推断。我们使用Tarjan(1977)提出的算法,该算法对每个句子都有(n2)的时间复杂度。对于依赖弧标记,我们用L表示候选标记集。参数化为W(标签)Rdd×dh×|L|,我们定义从头部sj到从属si的弧具有标签l的概率为:S(label)=Di,pW(label)Hj,qpQ并处理注释差异(Fornaciari等人,2021年)。 我们的方法是exp.S(label)(三)跨语言迁移学习的软标签方法,对输出P(lwjwi)=k=1exp(label),的原始模型。3建议方法:SUB DP本节首先介绍背景(第3.1节)和附录(第3.2节)。我们提出的零镜头跨语言依赖分析的流水线包括三个步骤:(1)在源语言L1中训练双仿射依赖分析器1,(2)将L1句子上的注释投影到对应的平行句子中,2相比之下,Ma and Xia(2014)需要(n4)时间进行非投射无标签依赖分析。给定上面的概率定义,训练模型以最大化训练数据的对数似然。更多细节可以在Dozat和Manning(2017)中找到。我们使用双仿射依赖解析器作为本工作中所有解析器的骨干,而值得注意的是,SUB DP适用于任何产生一组弧和标签分布的解析器。3为了方便起见,我们假设w1是一个附加的哑词,它有一个从属词4虽然等式(1)是双线性形式,但在实践中,我们总是可以将一个常数特征列附加到H和D上,从而得到一个双仿射模型。+v:mala2277获取更多论文P⟨⟩--ΣCΣ∈⟨⟩CRISS CRISS(Tran et al. ,2020)是一种使用单语语料库训练的未监督机器翻译模型,从mBART开始(Liuet al. ,2020年),一种多语言预训练序列到序列模型,具有掩码填充去噪我们使用这些注释来训练L1双仿射依赖解析器1,遵循§3.1中描述的过程。双文本。 我们将可用的m个双文本对表示为B={s(k),t(k)<$}m,其中{s(k)}和{t(k)}objective. 在培训过程中,CRISS iter-主动(1)在单语句子在k=1L1和L2。语料库及其编码器,(2)基于编码相似性挖掘双语文本在这项工作中,我们使用CRISS生成英语句子的无监督翻译来构建双文本,并应用其编码器提取单词特征进行消融研究。SimAlignSimAlign ( Jalili Sabet et al. ,2020)是一个基于相似性的单词对齐器:给定一对源和目标句子s,t,SimAlign使用多语言预训练模型计算s和t中每个单词的上下文表示( Devlin et al. , 2019; Conneau etal. ,2020),并计算相似度矩阵S,其中Si,j表示标记si和t j之间的余弦相似度。argmax推理算法选择⟨⟩单词对齐。对于一对双文本s,t,我们生成W阶对齐矩阵A,0、1个|S| ×|不|使用SimAlign,其中A=i,j=1表示在si和t j之间存在对齐。我们希望单词对齐矩阵是右随机的,它满足(1)每个元素是非负的,(2)每行和为1,以确保投影后的结果保持分布。在另一种语言中,可能存在一些单词有零个或多个对齐的单词;因此,我们引入以下两个矩阵运算符。add-dummy-column运算符(·):n:Rr×c→Rr×(c+1)(nr,c∈N+)i,j(j≤c)位置对i,j,其中Si,j都是水平的和垂直最大值,并输出字对对应于诸如单词对齐这样的位置对。 在这项工作中,我们使用XLM-R(Conneauet al. ,2020)的SimAlign与argmax al-tax m来提取用于SUB DP的单词对齐。值得注意的是,(男)i、j=1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(j=c+1,Ck=11.Mi,k= 0)Mi,ki =0)。模型通常使用字节对编码(BPE;Gage,1994),比单词更细粒度的级别用于标记化。 argmax算法可以行归一化运算符NR(·):NR:Rr×c→Rr×c(Rr,c∈N+)因此产生多对一的比对。更多NRMi,j细节可以在Jalili Sabet al. (2020年)。(M)i,j=L.我,我与基于双文本的单词对齐方法不同,例如GIZA++(Och和Ney,2003)和fast_align(Dyer et al. ,2013),SimAlign不需要任何bitext对来产生高质量的比对,因此更适合于只有很少bitext对可用的低资源场景。3.2预赛L1中的相关注释。我们适应最常见的数据设置监督依赖性解析,其中提供依赖性注释的句子。对于句子w1,. . . ,wn,则有一个词根word;其他每个词w i都标记有h i和ri,表示w i的头部是whi,具有依赖关系ri。+v:mala2277获取更多论文.Σ.Σ直觉上,添加的虚拟列对应于单词对齐文 献 中 的 空 单 词 ( Dyer et al. , 2013;Schulz et al. ,2016; Jalili Sabet et al. ,2020年等)。我们将源到目标对准矩阵表示为As→t=NR (A矩阵At→s=N R 中文(简体)|)的。根据定义,两者都是右随机矩阵。3.3相关分布预测弧分布投影。 我们考虑一对比特xt,t。设P1(sj|si)表示由解析器P1产生的弧概率。P1(s i|S|S|+1)= 0。+v:mala2277获取更多论文·|·|ΣΣΣΣΣ·|LPL|→Pi、j· |·→·|→·|→P×ΣΣP=2(tqtp)Pp,qP1(sj电弧22标签22ΣΣ我们将P1()投影到P2(tqtp),得到了平行L2样本t中的弧概率通过类似地,部分标签交叉熵损失可以计算如下:|L||t||不|P=2(tq|tp)=|+1个|S|s|At→sP1(s j | si)As→t.(吨)标签(P2,P<$2)=−l=1p=1q=1i=1 j=1p我j,q(四)P<0.05(l|tq→tp)logP2(l|tq→tp)可以保证P2(tp)对于任何tp都是一个分布注意,如果我们采用矩阵符号,其中我们(2)表示|并表示 |最后的损失由弧和标签,也就是说,我们训练2的参数以最小化L(t)(P,P(五)通过P(1),等式(4)等价于P(2)=At→sP(1)As→t.标签分发项目。设P1(lsjs i)表示由1产生的标签概率。对于虚拟位置,我们只需添加一个制服分布,也就是说,1P1(l|sj→si)=L,如果i或j=|S|+1。我们的项目P1()至P2(ltqtp),并行L2示例t中的标签概率分布,通过P<0.05(l|tq→tp)|S|+1个|S|+1个=At→sP1(l|sj→si)At→ss,t∈B关于SUB DP直观性的更多解释见附录B和C。4实验4.1设置在所有实验中,子字表示是来自冻结预训练模型的层大小表示的加权和,其中每个层与优化的标量权重相关联,以与其他网络参数一起最小化等式(5)。我们通过端点连接将子词特征 转 换 为 词 特 征 , 遵 循 Tosh-niwal et al.(2020)。我们使用Adam优化器(Kingma和Ba,2015)来训练所有模型,其中源语言解析器被训练用于×i=1 j=1p我q,j100个epoch,初始学习率210−3在张的基线实施之后,可 以 得 出 , P<0.05,P <0.01 。tqtp)是一个分布式b u-对于任何一对tp和tq。详细证明见附录A.2。3.4优化我们在语言L2上训练另一个双仿射依赖分析器2,通过最小化其产生的概率P2与软银标签P2之间的交叉熵。请注意,添加的表示空对齐的伪命令在最终的依赖推理过程中,可能会给模型引入额外的噪声,因此我们计算部分交叉熵损失,它不考虑涉及虚拟词的元素。具体地,我们如下计算一个示例t的部分弧交叉熵损失:L(t)(P,P)等人 (2020),5,目标语言解析器是以初始学习率510-4 6我们使用损失对白银预测分布的发展集为SUB DP和发展LAS对预测树木的基线提前停止。7为了评估,我们忽略了所有遵循最常见惯例的标点符号(Ma和Xia,2014;Rasooli和Collins,2015; Kurniawan等人。,2021年等)。如果未指定,5https://github.com/yzhangcs/parser/tree/d7b6ae5498bd045e34c1e1c55ab8e619cf4ad353. 通过对源解析器训练的学习率和辍学率进行网格搜索,我们验证了它们的默认超参数始终是Universal Advertisencies v2.2英语开发集上表现最好的超参数之一。因此,我们采用了他们对学习率和辍学率的超参数选择。弧2 2|t||不|=−P<$2(tq|tp)logP2(tq|tp)p=1q =1L(i)+v:mala2277获取更多论文6我们没有观察到训练更多时期时进一步的训练损失减少。S UB DP的学习率被调整以优化德语的开发损失。7SUB DP不为LAS和UAS计算提供一组离散的银树。+v:mala2277获取更多论文LasUAS方法远距离语言esNEArby语言es远距离语言esNEArby语言esar嗨kotrdeesfr它阿尔希戈trdeesfr它Meng等人--------47.352.437.135.270.875.879.182.0He等人--------55.433.2三十七点零36.169.564.367.770.7Ahmad等人27.928.016.1-61.865.873.375.627.928.016.1-61.865.873.375.6Kurniawan等人38.528.316.120.663.569.274.577.748.336.434.638.474.178.380.683.7SUB DP(我们的)41.338.931.233.571.770.471.075.063.858.354.356.982.883.984.888.2表1:通用依恋量表v2.2的标记依恋评分(LAS)和未标记依恋评分(UAS)(Nivre等人,,2020)标准测试集,从英语转。根据Kurniawan等人(2021)提出的方案,我们的结果在5次运行中使用不同的随机种子进行平均;每列中的最佳数字为粗体。• 目标语言中的所有模型都使用经过训练的源语言解析器进行初始化• 通 过 基 于 XLM-R 的 SimAlign ( Jalili Sabetal. ,2020),使用BPE标记化和argmax算法。• XLM-R被用作特征提取器。出于分析目的,我们报告标准开发集的性能,以避免对测试集进行调优。4.2结果:完全无监督传输我们将SUB DP与最小注释设置(表1)中的先前工作进行比较,其中英语依赖树库是唯一涉及人工的注释。我们选择目标语言之间的重叠考虑Kur-niawan 等 人 。 ( 2021 ) , XLM-R(Conneau et al. ,2020)培训语料库,和那些由CRISS(Tran et al. ,2020年),产生了八种语言:阿拉伯语(ar)、印地语(hi)、韩语(ko)、土耳其语(tr)、德语(de)、西班 牙 语 ( es ) 、 法 语 ( fr ) 和 意 大 利 语(it)。我们使用CRISS生成英语树库句子的翻译,为了确保无监督双文本的质量,我们丢弃(1)至少80%的单词出现在相应的源句子中的翻译,这可能是副本,(2)包含目标语言以外的CRISS语言标记的翻译,这可能是错误的翻译成另一种语言,(3)80%或更多的单词出现在翻译的句子中超过一次,这可能是重复。从英语解析器传输,SUB DP在所有八种目标语言中实现了最佳UAS,并且在八种语言中的六种语言上实现了最佳LAS。此外,我们发现,SUB DP是consis- tent跨越随机种子,有一个标准差小于0。表1中的每个对应数字为8。4.3消融研究我们引入了以下基线,这些基线具有相同的消融研究注释数据可用性:1. 直接转移英语模型(DT)。我们训练一个双仿射依赖分析器上标注的英语依赖分析数据,并直接测试其他语言的模型。预期该方法优于随机基线,因为它具有预训练的基于跨语言对于此基线,我们测试XLM-R和CRISS编码器作为特征提取器,因为SUB DP从两个模型中获益。2. 自我训练(ST)。 根据Kurniawan et al.(2021),我们认为自我培训是另一个基线。首先将DT解析器应用于目标语言,我们训练另一个解析器以适应预测的树。3. 树库的硬投影(硬)。将S UB DP与硬树投影基线进行比较是直观的(Lacroix et al. ,2016年),其中我们使用相同的双文本和对齐集合来将树投影到目标语言,仅保持置信边缘(即,两侧以一对一的方式对齐的边缘)。我们使用投影树来训练目标语言的解析器。值得注意的是,当我们用CRISS直接翻译英语树库句子时,这个基线属于树库投影的范畴(§2),而不是注释投影4.随机目标解析器初始化(RandI)。而不是使用经过训练的英语模型作为+v:mala2277获取更多论文LASar403530252015嗨kotrLAS75de es frit 7065605550图2:Universal Appendencies v2.2标准开发集上的LAS。所有数值均为5次运行的平均值。相应的UAS图见附录F。目标解析器的初始化,我们随机初始化这个基线中的权重。所有基线都使用双仿射依赖解析器,并使用预训练的跨语言模型(XLM-R或CRISS)作为特征提取器。我们比较了SUB DP和上述基线之间的LAS(图2),发现• 在所有语言中,SUB DP显著优于使用XLM-R或CRISS词特征提取器的DTST确实比DT持续改进,但比SUB DP竞争力差得多。这表明,SUB DP的增益超过先前的工作是不是简单地从更强大的词的功能。• 而硬树库投影采用Lacroix等人提出的方法。(2016)是相当有竞争力的,S UB DP一贯产生竞争力(印地语,德语,西班牙语)或更好的(阿拉伯语,韩国,土耳其,法语,意大利语)的结果。• 使用经过训练的源语言(在我们的实验中为英语)解析器初始化目标语言解析器有助于全面提高性能,因此应将其视为未来零镜头跨语言依赖解析工作的一般步骤4.4分析:对齐方法由于大多数现有的工作只使用一对一的对齐方式来进行注记投影(Ma表2:通用数据库v2.2上的LAS和UAS(Nivre etal. ,2020)标准开发集,在具有不同随机种子的5次运行中平均。1:1仅表示过滤的一对一比对。每种语言的最佳LAS和UAS以粗体显示。获得更保守的版本,丢弃所有多对一的边(即,那些有一个词链接到多个边缘),8并将其与BPEargmax算法进行比较(表2)。虽然自信的一对一对齐在阿拉伯语和所有四种邻近语言上实现了进一步的改进,但我们发现多对一BPEargmax对齐对于印地语、韩语和土耳其语的超性能传输是重要的考虑到阿拉伯语的分数非常相似,结果通常建议使用多对一SimAlign BPE argmax比对从英语转移到远距离语言,而使用更有信心的一对一SimAlignBPEargmax比对和Xia,2014; Lacroix et al. ,2016; Rasooli等人、2021,尤其是),我们想分析在SUB DP中引入 多 对 一 对 齐 我 们 过 滤 SimAlignBPEargmax,[8]这种方法与硬方法不同,因为它将源树分布而不是具体的树投射到目标语言,产生软目标树作为银标签来训练目标语言解析器。浪BPE argmaxLAS UAS一比一Las只UASar39.760.740.261.1嗨39.757.438.756.5ko31.151.327.349.6tr37.856.733.355.8avg. Dist.37.156.534.855.8de71.781.672.683.8es67.379.770.484.2fr71.885.372.687.7它74.685.976.088.8avg. 附近71.483.172.986.1+v:mala2277获取更多论文}∗‡等人,2021),其中利用利用经注释的双文本训练的基于编码相似性的双文本挖掘器来挖掘示例。我们改变Wiki-matrix bitext对的数量,在几何序列中{50×2k9k=0,离开-表3:LAS on Universal Approximencies v2.0(Mc-Donaldet al. ,2013)标准测试集。:具有最小注释的方法。:来自我们实验的结果;其他结果来自Schuster et al.(2019)。每种语言的最佳数字是黑体。一个是邻近语言的对齐。4.5结果:多个源语言继Schuster等人(2019)之后,我们使用了Universal Approximencies v2.0 ( McDonald 等人)。,2013)来评估来自多个源语言的零触发跨语言迁移(表3)。9对于德语(de)、西班 牙 语 ( es ) 、 法 语 ( fr ) 、 意 大 利 语(it)、葡萄牙语(pt)和瑞典语(sv)中的每种对于SUB DP,我们使用CRISS从所有适用的源语言生成双文本。SUB DP在德语上的表现优于之前的最先进水平13.5 LAS,但在其他三种语言上的表现低于DT基线然而,如果我们从目标语言的训练过的SUB DP解析器开始其它语言中的树库)以 进 一 步 训 练 双 仿 射 依 赖 性 解 析 器 ( DTw/SUB DP init.),我们能够全面实现比DT更好的结果,获得有竞争力的甚至比使用源树库之外的额外注释的方法更好的LAS(Zhang和Barzilay , 2015; Guo 等 人 , 2016 ) 。 ,2016)。4.6结果:使用受监督的Bitext我们进一步将SUBDP扩展到更大的十八种语言,包括阿拉伯语(ar)、捷克语(cs)、德语(de)、西班牙语(es)、芬兰语(fi)、法 语 ( fr ) 、 印 地 语 ( hi ) 、 匈 牙 利 语(hu)、意大利语(it)、日语(ja)、韩语(ko)、挪威语(no)、葡萄牙语(pt)、俄语 ( ru ) 、 泰 米 尔 语 ( ta ) 、 泰 卢 固 语(te)、越南语(vi)和汉语(zh)。我们使用Wikimatrix bitext(Schwenk)从英语转换到9我们没有报告葡萄牙语和瑞典语的性能,因为CRISS不涵盖它们;然而,这些语言的注释树库仍然用于转换到其他语言。10%的例子用于开发。平均而言,对于附近的语言(图3),我们发现具有50对双文本的SUB尽管一些远距离语言通常需要更多的双文本来进一步改进,但SUB DP实现了以少量的非平凡余量800-1.6K对)的bitext。5讨论根据最近的工作(Rasooli et al. ,2021年),这表明跨语言的转移可以有效地完成与弱监督,如维基百科链接,我们进一步证明了零杆跨语言依赖分析的潜力与零额外的监督,即使在遥远的语言,不共享词汇或子词。我们的工作为低资源语言的依赖注释(1) 训练一个预先训练的多语言模型,遵循现有 的 工 作 , 如 XLM-R ( Conneau et al. ,2020)和CRISS(Tran et al. ,2020),(2)注释少量的双文本对或用训练的无监督翻译模型生成双文本,以及(3)使用SUBDP训练零触发跨语言依赖解析器。我们对零镜头跨语言依赖性解析的贡献可以说是与上下文表示对齐正交的(Schuster etal. ,2019; Wang et al. ,2019),因为我们使用冻结的预训练多语言模型来提取特征,在那里他们微调这些模型以寻求更好的跨语言传输 。 此 外 , 通 过 启 发 式 基 于 规 则 的 过 滤(Rasooli和Collins,2015)进行的投影质量控制另一方面,我们的研究结果表明,多语言预训练模型可能具有更多的应用,而不仅仅是基于表示的直接传输-从这些模型中提取的信息,而无需进一步的监督,例如这项工作中的单词对齐,可以进一步受益于下游任务,例如这项工作中显示的零镜头跨语言依赖解析,并适当使用。我们建议SUB DP可以扩展到其他方法deesfr它Zhang和Barzilay(2015)62.578.078.979.3Guo等人 (2016年)65.079.077.778.5Schuster等人(2019年)61.776.676.377.1DT(XLM-R)双螺杆挤出机73.182.275.579.5SUB DP(XLM-R)78.572.173.174.3DT w/ SUB DP初始化,76.182.677.781.9+v:mala2277获取更多论文avg. (全体)85756555453525avg. (遥远)85756555453525avg. (附近)85756555453525# bitext对# bitext对# bitext对图三:在Universal Expandencies v2.2标准开发集上的LAS和UAS平均值,相对于双文本对的数量(最佳彩色视图)。对于每种语言,我们使用不同的随机种子运行5次。X轴是对数标度。所有的欧洲语言都被归类为邻近语言,而其余的则被视为遥远的语言。各语言的曲线图见附录E。相关并行基础信号可应用的场景,例如跨语言命名实体识别、跨语言选区解析或仅使用文本中的依赖性监督我们把对SUB DP的进一步探索留给未来的工作。引用Agic' , AndersJohannsen , BarbaraPlank , Héc-torMartínez Alonso , Natalie Schluter , and AndersSøgaard.2016. 多语言投影,用于解析真正的低资 源 语 言 。 Transactions of the Association forComputational Linguistics,4:301- 312.Wasi Ahmad,Zhisong Zhang,Xuezhe Ma,EduardHovy,Kai-Wei Chang,and Nanyun Peng. 2019年a。语序差异下跨语言迁移的困难--以依存句法分析为例。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第2440-2452页,明尼阿波利斯,明尼苏达州。计算语言学协会。张志松,马学哲,常开伟,彭南云. 2019年b. 使用无 标 记 辅 助 语 言 的 跨 语 言 依 赖 分 析 。 在Proceedingsofthe23rdConferenceonComputationalNaturalLanguageLearning(CoNLL),第372-382页,中国香港。计算语言学协会。WaleedAmmar 、 GeorgeMulcaire 、 MiguelBallesteros、Chris Dyer和Noah A.史密斯2016. 多语 言 , 一 个 解 析 器 . Transactions of theAssociation for Computational Linguistics , 4 :431朱永进和刘增红。1965.关于有向图的最短树形图。Scientia Sinica,14:1396谢伊湾Cohen,Dipanjan Das,and Noah A.史密斯2011. 具有非并行多语言指导的无监督结构预测 。 在 Proceedings of the 2011 Conference onEmpiricalMethodsinNaturalLanguageProcessing,第50计算语言学协会。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集,第8440- 8451页,在线。计算语言学协会。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。Timothy Dozat和Christopher D Manning。2017. 深度双仿射注意神经依赖解析。在国际学习代表会议上。Long Duong,Trevor Cohn,Steven Bird,and PaulCook.2015. 跨语言传输无监督的依赖性分析没有并行数据。第十九届计算自然语言学习会议论文集,第11
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 批量文件重命名神器:HaoZipRename使用技巧
- 简洁注册登录界面设计与代码实现
- 掌握Python字符串处理与正则表达式技巧
- YOLOv5模块改进 - C3与RFAConv融合增强空间特征
- 基于EasyX的C语言打字小游戏开发教程
- 前端项目作业资源包:完整可复现的开发经验分享
- 三菱PLC与组态王实现加热炉温度智能控制
- 使用Go语言通过Consul实现Prometheus监控服务自动注册
- 深入解析Python进程与线程的并发机制
- 小波神经网络均衡算法:MATLAB仿真及信道模型对比
- PHP 8.3 中文版官方手册(CHM格式)
- SSM框架+Layuimini的酒店管理系统开发教程
- 基于SpringBoot和Vue的招聘平台完整设计与实现教程
- 移动商品推荐系统:APP设计与实现
- JAVA代码生成器:一站式后台系统快速搭建解决方案
- JSP驾校预约管理系统设计与SSM框架结合案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功