没有合适的资源?快使用搜索试试~ 我知道了~
面向任务的跨语言自然语言理解:零触发任务知识的传输与跨语言数据对齐方法
+v:mala2277获取更多论文CrossAligner Co:面向任务的跨语言自然语言理解Milan Gritta1,<$,Ruoyu Hu2,<$,PennsylvaniaandIacobacci11华为诺亚2英国伦敦帝国理工学院{milan.gritta,ignacio.iacobacci}@huawei.comimperial.ac.uk摘要面向任务的个人助理使人们能够使用自然语言与许多设备和服务进行交互。让更多用户使用神经对话系统面临的挑战之一是,除了少数几种语言之外,缺乏所有语言的零触发方法试图通过在高资源语言(如英语)中获取任务知识来解决这个问题,目的是将其转移到低资源语言(S)中。为此,我们介绍CrossAligner,零杆跨语言传输的基础上学习,ING对齐从未标记的并行数据的各种有效方法的主要方法。我们提出了一个定量分析的个别方法,以及他们的加权组合,其中几个超过国家的最先进的(SOTA)的分数,在9种语言,15个测试集和3个基准多语言数据集的评估。对最佳方法的详细定性错误分析表明,我们微调的语言模型可以比预期的更好地零触发传输任务知识。1介绍自然语言理解(NLU)是指系统“理解”人类语言的含义(语义)和结构(语法)的能力(Wanget al. ,2019)以实现与系统或设备的交互。跨语言自然语言理解(XNLU)指的是一种能够同时处理多种语言的系统(Artetxe和Schwenk,2019; Hu等人)。,2020)。我们专注于面向任务的XNLU,它包括两个相关的目标:i)意图分类,识别用户命令的类型,例如在伦敦的华为诺亚方舟实验室担任研究实习生†-平等贡献。轨道、位置等。 在模块化对话系统中,对话管理 器 使 用 此 信 息 来 决 定 如 何 响 应 用 户(Casanuevaet al. ,2017; Gritta et al. ,2021年)。 对于神经XNLU系统,注释数据的有限可用性是将对话系统扩展到更多用户的重大障碍(Razumovskaia et al. ,2021年)。因此,我们可以使用跨语言方法将在高资源语言(如英语)中学 到的 知识 零触 发转 移到 选择的 目标 语言( Artetxe et al. , 2020; Siddhant et al. ,2020)。为此,我们介绍了各种对齐方法的零杆跨语言迁移,最显着的CrossAligner。 我们的方法利用了未标记的并行数据,并且可以很容易地集成在预训练的语言模型之上,称为XLM1 , 例 如 XLM-RoBERTA ( Conneauet al. ,2020)。我们的方法帮助XLM调整其跨语言表示,同时优化主要的XNLU任务,这些任务仅在源语言中学习,并零次转移到目标语言。最后,我们还研究了多个对齐损失的简单和加权组合的有效性,这导致了进一步的模型改进和见解。我们的贡献概述如下:• 我们介绍CrossAligner,一种跨语言传输方 法 ,在三个基准XNLU数据集上实现SOTA性能。• 我们引入了一个简单而有效的基线--翻译意图,它的性能优于常用的对应物• 我们介绍对比对齐,辅助损失,利用对比学习在一个比过去的工作小得多的规模• 我们引入上述损失的加权组合,以进一步提高SOTA分数。• 定性分析的目的是通过检查剩余的错误来指导未来的研究1不要与Lample和Conneau(2019)混淆。arXiv:2203.09982v1 [cs.CL] 2022年3月+v:mala2277获取更多论文2相关工作存在几种零触发跨语言转换的方法,并且可以大致分为:a)基于数据的转换,其专注于训练数据转换;以及b)基于模型的转换,其围绕修改模型的 训练 例程 。用于意图分类任务的基于数据的传输翻译话语是相对直接的,因此先前的工作集中于在翻译的话语之间投影和/或对齐实体标签。接下来是使用这些伪标签的标准监督训练,通常称为训练方法。最 早 的 作 品 之 一 仍 然 被 用 于 这 一目 的 是fastalign(戴尔等人。,2013)。 它是在并行语料库上训练的无监督单词对齐器,用于将源话语中的每个单词(因此其实体标签)映射到目标用户话语中的单词。投影实体标签也可以通过逐字翻译 和 源 标 签 复 制 来 完 成 ( Yi 和 Cheng ,2021)。然后,教师模型弱标记目标数据,用于训练最终的学生模型。有时,这种类型的标记投影与附加的实体对齐 步骤互补(Li et al. ,2021a)。 通过使用具有实体匹配和分布式统计的 机 器 翻 译 ,可以实现更好的性能( Jain等人。,2019年),尽管这对每种语言来说都是一个昂贵的过程。一种“词替换”方法,如代码转换(秦等人。,2020; Kuwanto等人,2021)或字典增强预训练(Chaudhary et al. ,2020)也被证明可以改善跨语言迁移。在采用 多 语 言 转 换 器 ( Lample 和 Conneau,2019)之前,面向任务的XNLU方法采用了BiLSTM编码器与不同的多语言嵌入(Schusteret al. ,2019)。较新的方法通常涉及预训练的XLM和添加一些新的训练组件,其中推理例程基本保持不变。Xu等人(2020)通过融合源语言和目标语言嵌入与注意力,并使用所得的跨语言表示进行实体预测,学习联合对齐和预测实体标签。Qi和Du(2020)在训练中包括一个对抗性语言检测器,其损失促使模型生成语言无关的句 子 表 示 , 以 改 进 零 镜 头 传 输 。 Pan 等 人(2020)和Chi et al. (2020)增加了一个预训练的对比损失,将翻译的句子视为积极的例子,将不相关的句子视为消极的例子。这个训练步骤帮助XLM在不同的语言中产生类似的嵌入。然而,这些方法需要大的注释数据集和昂贵的模型预训练(Chi et al. ,2020)。我们提出的方法只使用英语任务数据(相对有限)及其对每种语言的翻译。最 相 关 的 先 前 作 品 是 Arivazhaganet al.( 2019 ) 用 于 机 器 翻 译 , Gritta 和 Iacobacci(2021)用于面向任务的XNLU。这两种方法都是跨语言对齐方法,使用翻译的训练数据将源语言模型零次转换为目标语言。 我们专注于后一项工作,称为XeroAlign,它报告了我们评估数据集上的最新SOTA分数。XeroAlign通过为每种语言生成用户话语的句子嵌入来工作,例如使用XLM的CLS标记的英语(源)和泰语均方误差损失函数使多语言句子嵌入之间的差异最小化,并与主任务损失一起反向传播XeroAlign旨在将不同语言中的句子嵌入更紧密地结合在一起,由于CLS嵌入而偏向于意图分类,这是意图分类器的标准输入。我们重现这种方法进行分析和比较,但增加了一个小的后处理步骤,明显提高了报告的分数。3方法3.1CrossAligner直觉我们介绍CrossAligner,我们提出的跨语言对齐方法中最值得注意的,在算法1中概述。CrossAligner通过利用未标记的并行数据实现有效的零拍摄传输,以实现通过转换英语实体标签创建的与语言无关的新目标。CrossAligner是从早期的错误分析中得出的,我们观察到该模型错误地预测了输入中没有发生的实体,并且未能预测输入中确实发生的实体。使用这种洞察力作为我们的主要动机,CrossAligner的本质是能够利用用户话语中存在的信息。算法我们使用了专有服务(华为翻译)来翻译英语用户ut-+v:mala2277获取更多论文LL×LL←∈←←←L ← L LL翻译成每一个目标语言翻译,然而,一个公开可用的翻译器也可以使用。请注意,我们对每个对齐方法使用相同的翻译,以公平地比较它们。我们的语言无关目标是通过将英语槽标签yec转换为固定的二进制向量yca来创建的,该向量指示输入中存在哪些实体(算法1中的第1-7行),而不管它们出现的频率如何。标准的XNLU训练(第15-20行)具有一个意图分类器(IC)和一个实体分类器(EC)。每个计算交叉熵损失(ce_loss)与softmax激活使用英语标注的数据(多类分类)。 这就产生了标准损耗ic和ec。然后,CrossAligner(CA)分类器通过将EC logits矩阵重塑为长向量(第24和29行)来汇集EClogits矩阵,并预测哪些实体存在于用户话语中(多标签分类)。 我们计算二元交叉熵损失(bce_loss),其中预测标签predeng和predtar(分别用于英语和目标语言)与我们的语言不可知标签yca之间的sigmoid激活(第26和31行)。这产生了CrossAligner损失eng和tar。这些梯度通过EC传播到XLM标记嵌入的事实确保了实体/槽识别的良好对齐,如结果部分所示请注意,EC、IC和CA在不同语言之间共享以帮助零射击跨语言转移。使用BIO序列标记格式(Sang和De Meulder,2003)可以引入容易避免的模型错误,例如:在I-标签之后预测B-标签、连续预测两个B-标签或者完全跳过B-标签。因此,我们简化了训练过程,使其与w.r.t.无关。实体的BI命令。B标签在预处理中被移除,这意味着实体分类器仅预测IO标签。在推理时,B标记通过一个简单的后处理规则得到恢复。请注意,我们所有的模型都使用这种仅限IO的训练。架构我们使用一个通用的面向任务的XNLU模型,该模型采用了预训练的XLM,例如JointBERT(Chen et al. ,2019)。IC、EC和CA均具有单个多层封装,其大小为:[hidden_size,len(intent_classes)]、[hidden_size,len(entity_classes)]和[seq_lenlen(entity_classes),len(entity_classes)]。根据数据集的不同,seq_len在50-100个标记之间变化。模型架构如图1所示。算法1CrossAligner比对/损失。一 曰 :功 能Ttransform LABELS(yec)2:ycazeros ( len(entity_classes))3:对 于 实体yecdo4:yca[index_of(entity)]15:结束6:returnyca第七章: end function8:XLM←跨语言语言模型第9章:IC ←意图分类器第10章:一个人第11章:你是我的女人12:XEng←标准英语训练数据13:XTar←XEng翻译成目标语言14:对于(xeng,y),(xtar,y)∈XEng,XTardo- 标准XNLU培训-15:yic,yec←y16:clseng,tokenseng←XLM(xeng)17:predic←IC(clseng)18:Lic←ce_loss(predic,yic)19:predec←EC(tokenseng)20:Lec←ce_loss(predec,yec)-CrossAligner培训-21:是,←Ttransform LABELS(yec)22:shape←(seq_len ×len(entity_classes))23:logitsengEC(tokenseng)24:logitseng. reform_matrix_into(shape)25:predeng←CA(logitseng)26:Leng←bce_loss(predeng,yca)27:clstar,tokenstar←XLM(xtar)28:logitstarEC(tokenstar)29:logitstar。reform_matrix_into(shape))30:predtar←CA(logitstar)31:Ltar←bce_loss(predtar,yca)32:总ic+EC+ENG+TAR33:结束3.2XNLU的对比对齐我们的对比比对基于InfoNCE(Oord et al. ,2018)。 先前的工作已经采用了跨舌对齐的对比损失(Panet al. ,2020年),然而,数据集是域外的,数量级更大。我们表明,强有力的结果,可以只使用域(微调)数据。类似于(Wu et al. ,2021),如果给定随机抽样的一批N个英语句子XEng及其平行句子+v:mala2277获取更多论文·|||| · ||||−Σw=∈−我K、、图1:CrossAligner的架构 XLM模型和所有分类器的参数在语言之间共享,以实现跨语言传输。XTar,则第i个句子对xengi∈XEng和xtari∈XTar上的损失等于:esim(xengi,xtari)算法3翻译意图损失。一曰: clstar,tokenstar←XLM(xtar)第二章: predic←IC(clstar)3:Lti←ce_loss(predic,yic)4:Ltotal← Lic+Lec+Lti使用并行数据XTar(从英文复制的标签)进行训练以上算法3示出了替换或补充(在多个损失的组合的情况下)算法1中的第21-32行中所示的交叉对齐器步骤的步骤。3.4辅助损耗的自适应加权为了评估以下组合的益处,l(xengi,xtari)=−logN(一)esim(xeng,xtar)两个或多个对齐,我们采用多损失变异系数(Groe)其中sim(u,v)=u v/u2v2是余弦两 个 句 子 嵌 入 之 间 的 相 似 性 一 个 句 子xengi∈XEng与它的翻译xtari∈XTar对称地形成一个正对,而嫩代克等人,2021)技术(CoV)来计算辅助损耗(Aux)的加权和,我们将其添加到主XNLU损耗Lic和Lec,如下所示:其他N1个句子嵌入被视为阴性样本。批次损失计算如下:所有正对损耗的平均值算法2Ltotal=Lic+Lec+a∈Aux(2)第一次见面。下面示出了替换/补充交叉对齐器块的步骤(算法1中的第21-32行)。算法2对比对齐损失。与CoV的唯一区别是,我们选择在应用省略辅助损失La,t的权重,a∈Aux在训练步骤t的计算如下:一曰: clseng,tokenseng←XLM(xeng)第二章: clstar,tokenstar←XLM(xtar)σla,t的tla t=La,t(三)第三章:sim←batch_cosine_sim(clsEng,cls焦油)µla,tµLa,t−1四: labels ←arange(batch_size)第五章: Lcl←ce_loss(sim,labels)6:Ltotal← Lic+Lec+Lcl其中,la,t是训练步骤t时损失aAux的损失率,σ是损失率历史上的标准差,µl是赔付率a,t−1. 我们3.3翻译意图在多语言NLP中使用的竞争性基线(Liang etal. ,2020; Hu等人,2020)。在机器翻译之后,序列标记任务需要额外的转换,即, 实体标签投影和/或字对齐(Schuster et al. ,2019; Liet al. ,2021b; Xu et al. ,2020)。接下来是用新的伪标签进行监督微调。然而,标签投影和单词对齐都是常见错误的来源.因此,我们引入了一个更简单的基线,称为Translate-Intent,据我们所知,这在面向任务的XNLU中还没有出现。我们省略了目标语言的实体/槽识别(给定不可靠的伪标签),只使用IC,la直到并包括步骤t1还将CoV与所有损失的简单总和进行比较,即,每个损失的权重相等,如算法1、2和3所示(以Ltotal开始的行)。4实验装置数据集使用三个多语言数据集来比较我们的方法与它们最相关的对照。 这些数据集被用作XNLU任务的标准基准,包括来自15个测试集(总共20,000多个实例)的9种独特语言(de,pt,zh,ja,hi,tr,fr,es,th),这些测试集具有用户与面向任务的个人助理交互的各种示例,这些个人助理旨在测试多语言模型的XNLU功能。正在评估两个相关的任务,意图分类和实体/插槽识别。k=1+v:mala2277获取更多论文∼∼模型MTOP(5)MTOD(2)M-ATIS(8)平均值(15)整体Zero-Shot91.7/77.194.1/75.191.1/79.991.7/76.584.1目标语言95.7/88.798.4/91.892.5/88.994.3/89.291.8翻译培训SOTA94.5/77.997.5/67.994.9/78.095.1/76.685.9翻译意图(我们的)95.2/77.198.1/76.595.9/80.095.9/78.587.2上一个SOTA95.6/80.398.8/72.996.0/81.296.1/79.888.0XeroAlignIO(我们的)95.3/81.398.5/75.196.4/82.396.3/81.188.7CrossAligner(我们的)94.4/81.695.3/78.894.8/84.194.7/82.588.6对比(Ours)95.3/80.998.3/79.696.5/79.396.3/79.888.1XeroAlignIO + CrossAligner(1+1)95.3/81.598.6/78.296.2/81.696.2/81.188.7XeroAlignIO + CrossAligner(CoV)95.4/82.298.8/78.396.6/83.196.5/82.189.3表1:所有数据集的MTOP、MTOD、M-ATIS(括号中的非英语语言数量)、平均值的准确度/F评分翻译训练SOTA是(Li et al. ,2021b)和(Xu et al. ,2020)。多语言面向任务的解析(MTOP)包括跨越11个领域的6种语言(en、de、fr、es、hi、th)中 的 每 一 种 的 15 K-22 K 话 语 ( Li et al. ,2021b)。多语言任务导向对话(MTOD)由43K英语、8K西班牙语和5K泰语话语组成,覆盖3个领域(Schuster et al. ,2019)。多语言ATIS++(M-ATIS)包含8种语言(en、es、pt、de、fr、zh、ja、hi、tr)中每种语言的多达4.5K条命令,具有与旅游信息系统的用户交互功能(Xu et al. ,2020)。XLM 我 们 选 择 的 预 训 练 语 言 模 型 是 XLM-RoBERTa(Conneau et al. ,2020)。我们使用HuggingFace ( Wolf et al. , 2019 ) , 其 中hidden_size = 1,024。训练设置我们使用一种极简的设置,它具有默认设置和组件,将结果集中在方法上,而不是hyperparame-ter调优或自定义架构设计。 我们使用PyTorch在实验之间使用固定的超参数来实现所有模型,除了MTOD,由于其大小,我们使用更少的epoch和更低的学习率进行训练(两者都降低了50% 2)。5结果术语障碍,我们将使用每种语言中的标记数据训练的模型称为目标语言,仅使用英语数据训练的模型称为Zero-Shot,我们的翻译意图方法称为翻译意图(TI),Gritta和Iacobacci(2021)报告的分数称为Previ- ous SOTA,我们的仅IO实现2下载代码和数据https://github.com/huawei-noah/noah-research模型为XeroAlignIO(XAIO),对比比对方法为 对 比( CTR) , 主要方法为CrossAligner(CA)。最后,对准损失的简单和被称为1+1,并且来自3.4的加权和被称为CoV。我 们 使 用Accuracy 进 行 意 图 分 类 , 使 用 F-Score进行实体/插槽识别。此外,我们使用总体得分(F-得分和准确性的平均值)进行模型排名 , 类 似 于Hu等 人 。 ( 2020) ; Wang et al.(2019,2018). 结果显示为所有测试集和数据集的平均值(平均值),见表1和表2。因此,意图分类基于20,000个不同的用户命令和来自100多个插槽类型的60,000个单独插槽的实体识别进行评估。详细分类见附录A.2中的表4、5和6。统计学显著性为了与以前的SOTA进行稳健的比较,我们对比例(?)). 我们最有效的方法对于所有数据集在p <0.01时具有统计学显著性。与之前的SOTA相比,插槽标记的改善幅度为+2.3(F评分),在p<0.01时具有显著性。5.1 单个零发射传输方法CrossAligner我们主要方法的重点是改进槽填充,因为模型必须对每个数据集中的数十种实体类型进行分类,为此,这是一种有效的方法。CrossAligner超过之前SOTA的F分数,2.7点(82.5对79.8)。这比XeroAlignIO高1.4分,比Zero-Shot高6分尽管意图准确性比之前的SOTA低1.4分,+v:mala2277获取更多论文设置辅助损耗CoV加权1+1加权CA XAIOCTR TI平均值(15)整体平均值(15)整体XXxXxXXxXxxx96.582.189.396.281.188.795.980.188.096.180.188.196.281.388.896.178.287.22-损失96.281.388.896.279.287.796.280.388.396.380.288.396.179.687.996.279.788.0xxxXxXXXxxxx96.481.488.996.380.188.23-损失96.580.688.696.281.088.696.381.288.896.379.087.796.180.388.296.480.088.24-损失XXXX96.379.788.096.4七十九点七88.1表2:不同加权方案辅助损失组合的准确度和F分数非英语测试语言的数量显示在括号中,MEAN是为3个XNLU数据集中的所有语言计算的。附录A.2中的表4、表5和表6显示了每种数据集和语言的更详细分类。94.7比XeroAlignIO高出0.4。CrossAligner为了证明所提出的架构的必要性和特异性,我们测试 了 均 值 池 到 肯 嵌 入 以 及 CLS 嵌 入 作 为CrossAligner 的 输 入 , 而 不 是 实 体 分 类 器logits。 评分从94.7/82.5(总体88.6)下降至92.3/80 ( 总 体 86.2 ) ( CLS 句 子 表 示 ) 和82.1/78.7(总体80.4)(均值合并嵌入)。我们的方法在其他NLP任务的未来应用必须注意,CrossAligner对于具有复杂实体标签集的任务是最有效的,其中句子中实体的存在是信息性的,即更高的复杂性和插槽密度应该导致更高的性能。此外,CrossAligner与其他损失结合得很好,如我们在第5.2节中所示。翻译意图我们对常见“翻译训练”基线的替代方案不仅在概念上更简单(没有明确的插槽识别训练),而且优于之前的翻译训练SOTA评分(78.5vs 76.6F-评分,95.9vs95.1准确性和87.2vs85.9总体)。翻译意图不需要容易出错的预处理,例如单词/标签对齐,因此可以在将来的工作中作为默认的请注意,不建议将均值池标记嵌入用作句子表示用于翻译意图,因为这会导致F分数急剧下降(-25分)。对比比对尽管数据数量级比相关工作(第2节)中使用的数据少,与之前的SOTA相比,意图分类略有改善也就是说,尽管对比损失将否定句嵌入从肯定句中推出来,但这似乎并没有赋予比以前的SOTA更强的优势,SOTA只使用了肯定的例子。我们还评估了使用均值池标记嵌入作为句子表示的对比对齐的实现,然而,总体得 分 下 降 到 86.8 ( 与标 准 CLS嵌 入的 88.1 相比)。XeroAlignIO我们实施了具有额外后处理步骤(如3.1所述)的自动SOTA,使F分数提高了1.3分,准确度提高了0.2分(总体+0.7)。为了进行比较,培训XeroAlignIO与conven-+v:mala2277获取更多论文传统的BIO标签导致实体识别下降1.8分(81.1至79.3 F分数),意图分类下降0.4分(96.1至95.7)。 不建议XeroAlign IO使用均值池代币,因 为 这 会 产 生 2 个 点 的 下 降 ( 总 体 为 88.7 至86.7)。其他模型也受益于仅IO训练,例如,Zero-Shot 模 型 获 得 2.6 分 ( 73.9 至 76.5 F-Score)。仅IO训练的一个理论限制是,给定一个“B-BRI-BIB-LOC”序列,仅IO模型会错误地将其分类为单个实体。然而,在实践中,这是罕见的,不是我们在预处理或错误分析中看到的。5.2损失的组合由于我们的对齐方法具有不同的优点和缺点,我们还评估了它们的组合(见表2),作为简单的损失总和(1+1)或使用变异系数的加权损失总和(CoV)。XeroAlign IO和CrossAligner的CoV加权组合获得了最高的总分,在之前的SOTA基础上有了显著改善(96.5 vs 96.1准确度,82.1 vs79.8 F评分,89.3 vs88.0)。总的来说,三个人和近十几个组合的损失改善了最好的以前报告的分数。在下面的段落 中 , 我 们 分 析 并 解 释 了 为 什 么 包 括CrossAligner在内的组合始终会产生更高的分数,以及为什么增加更多的损失会导致收益递减。损失的兼容性我们提出一个假设,可以进一步帮助我们解释表2中的数字。它指出,组合使用不同句子表示的损失可能比组合使用相似句子嵌入的损失更有益。为了测试这种匹配,我们根据如何获得句子表示将我们的对齐方法分为两组:1)XeroAlignIO,翻译意图和对比对齐,它们都使用CLS嵌入和2)CrossAligner,它通过标记嵌入(用作实体分类器输入)进行对齐。在图2中,我们注意到,对于使用CLS嵌入的任何两个比对损失的组合(如蓝色方块所示),当使用CoV或1+1时,总体评分没有差异。 然而,当使用CoV加权将损失与不同的句子表示(橙色与任何蓝色正方形)相结合时,我们观察到1+1设置的一致增加(平均1+点图2:使用CoV或1+1(简单和)加权的辅助损失组合的总体得分。总的来说),以及增加他们的最高个人得分。此外,在3损失组合中,我们注意到,使用CoV加权将CrossAligner添加到来自CLS嵌入组的任何两个损失中,与使用1+1没有改善相比,平均改善了0.7个点。损失的过饱和另一个重要的观察回到了我们的假设,即具有相似输入嵌入的对齐方法不容易组合。我们通过测试CrossAligner与每个CLS嵌入损失[XAIO,TI和CTR]的组合提供了进一步的证据,但是,我们使用均值池嵌入。总体评分下降与我们的假设一致(XAIO下降-1.2,TI下降-4.9,CTR下降-0.6),CoV加权损失,1+1加权组合下降更多( XAIO 下降-2.1,TI下降-7.6,CTR下降-1.4)。类似地,组合多个CLS嵌入损失导致相对于个体分数的逐渐减小的益处。再一次,CoV加权损失显示出比1+1组合显著更低的下降(表2)。请注意,在我们的多损失场景中,意图分类仍然不受输入嵌入选择的影响,因为准确度在整个实验中保持稳定在SOTA我们认为这是由于不平等的任务难度.换句话说,符号级推理(意图识别)比符号级推理(实体识别)更容易。6误差分析为了将表1和表2中报告的数字置于相关语言学见解的背景下,我们进行了定性错误分析,+v:mala2277获取更多论文∼类别日嗨FRDEZHESPT是说可接受的转移2851534037382338.6部分转移3415133034475833.0传输不良3834343029151928.4边界错误7243445233476450.7语义错误3840373859303239.1注释错误826112030171718.4表3:我们对母语者的定性错误分析总结(来自7种语言的700个样本在本节中介绍重点鼓励对特定语言分析(包括更多示例)感的读者阅读附录A.1。 我们重点关注CrossAligner和XeroAlign IO所犯的错误,它们获得了最佳的个人和综合得分。 我们从以下设置中随机抽取了100个错误:MTOP中的印地语、法语和德语,M-ATIS中的葡萄牙语、中文和西班牙语以及MTOD中的泰语,以获得不同的错误池。作者与母语人士一起裁定,将错误分为以下类型。错误类型我们发现了两个主要的错误来源:当模型预测的实体词/标记比gold注释中给出的更多或更少时,会出现边界错误。当预测错误的实体类/类型时,会发生语义错误因此,模型可以提交:1)两个错误都导致不良转移,2)没有语义错误的边界错误,反之亦然,给我们一个部分转移,或者3)两个错误都没有(假否定),我们认为这是一个可接受的转移。我们在表3中报告了单个和平均错误发生率以及传输类型百分比。差的传输表明预测错误太严重,在现实世界的个人助理中无法使用(甚至是误导)这通常是由于边界和语义错误,然而,一些错误可能严重到足以导致差的传输。例如,绑定错误可能导致检索到的菜、人或位置的名称不完整,因此无 效 。 将 “10 seconds” ( 法 语 ) 分 类 为“date_time”而不是“mu-sic_rewind_time”的语义错误平均而言,28%的错误属于部分传输被定义为边界或语义错误,其中两者都不被认为是严重的问题。 这样的实体可以在具有简单的后处理规则的个人助理应用中变得可用。大约33%的错误被认为是部分正确的。通常情况下,这是由于包括一些相邻的标点符号或文章/介词作为实体的一部分,或者稍微短/长的新闻标题,即使搜索引擎查询该字符串会返回相关的文章。诸如“24 minat ka”(印地语)与“24 minat”(24分钟)的实体在语义方面,我们认为位置部分正确,如果预测,位置是预期的,边界是准确的。可接受的迁移这些例子是平均而言,我们认为几乎39%的实体对于现实世界的个人助理应用程序是可以接受的,其中大约一半是注释问题(标签丢失或不正确)。在其他情况下,我们接受了提供有效替代方案例如 当“me”(法语)和“je”(I/me)都出现在用户话语中并且都指代同一个“person_personal_personal_deded”时。预测了有效的替代方案,但注释略有不同。例如,当实体边界稍宽时,“deidaevolta”(葡萄牙语)而不是“idaevolta”(往返),其中两个实体都是正确的。类似地,将“鲑鱼”分类为一种配料而不是一道菜(当“鲑鱼”是“烹饪”的对象时)被认为是可接受的转移。6.1错误分析总结虽然意图分类任务在跨语言环境中传输良好,比在标记数据上训练的效果更好+v:mala2277获取更多论文认知F分数落后目标语言近7分。 我们认为有几个因素在里面。冠词、一些介词、连词、限定词和/或所有格不容易转换,并且可能在很大程度上被XLM忽略,因为它们不携带重要的句子级别(例如,意图)语义。对于XLM所涵盖的数十种语言中的许多语言来说,英语作为跨语言的支点并不理想,因为文化和方言的元素可能没有直接的英语对应物 在同一家族中资源最丰富的语言上结盟应该会有所帮助(Xia et al. ,2021年)。机器翻译的局限性,特别是对于低资源语言(?),可以进一步抑制利用并行数据的对齐方法。注释的不一致性(语内和语际)是错误的来源,当关键概念是在一种语言中学习并在目标语言中评估(有时不可靠)时。最后,在我们的错误分析中,XeroAlign IO和CrossAligner之间没有实质性的定性差异,这表明上述错误模式可能是XLM模型本身的一个特征,数据集的性质或一些未知的混淆变量,而不是比对方法的选择。7结论我们为面向任务的XNLU引入了多种跨语言方法,通过学习与未标记并行数据的对齐来实现有效的主要方法CrossAligner将英语训练数据转换为一个新的语言无关任务,用于跨语言对齐模型预测,实现实体识别的SOTA。然后,我们提出了一种对比对齐,它优化了翻译句子之间的小余弦距离,同时增加了不相关句子之间的余弦距离,使用了比以前的作品更少的数据 我们提出了翻译意图,一个快速和简单的基线,击败了以前的翻译训练SOTA方法,没有容易出错的数据 转 换 , 如 插 槽 标 签 投 影 。 CrossAligner 和XeroAlignIO的变异系数加权组合在9种语言、15个测试集和3个面向任务的多语言数据集上实现了最佳整体性能。我们的定量分析研究了哪种类型的辅助损耗产生最有效的组合。这导致了几个拟议的配置也前-放弃之前的SOTA分数。 我们详细的定性错误分析表明,最好的方法有可能接近目标语言的每一个错误,因为大多数错误被认为是低到中等的严重程度。我们希望我们的贡献和资源将激发在这个迷人的NLP研究领域令人兴奋的未来工作。确认我 们 要 感 谢 PhilipJohnGorinski ,GuchunZhang,SushmitBhattacharjee和Nicholas Aussel为我们的定性错误分析提供了母语专家。 我们非常感谢ARR评审员的深刻评论和反馈。我们还要感谢MindSpore 34团队成员的技术支持。引用Naveen Arivazhagan , Ankur Bapna , OrhanFirat , Roee Aharoni , Melvin Johnson , andWolfgang Macherey. 2019.零触发神经机器翻译中 缺 少 的 成 分 。 arXiv 预 印 本 arXiv :1903.07091。MikelArtetxeSebastianRuder和DaniYogatama2020. 论单语表征的跨语言迁移性在计算语言学协会第58届年会的会议记录中,第4623Mikel Artetxe和Holger Schwenk 2019.大规模的多语言句子嵌入,用于零镜头跨语言传输和超越。《计算语言学协会学报》,7:597Inigo Casanueva,Pawestern Budzianowski,Pei-Hao Su,Ni kolaMrkamic',Tsung-HsienWen,StefanUltes,Lina Rojas-Barahona,Steve Young和Milica Gašic'。2017年。基于任务导向对话管理的再 培 训 学 习 基 准 测 试 arXiv 预 印 本 arXiv :1711.11023。Aditi Chaudhary , Karthik Raman , KrishnaSrinivasan,and Jiecao Chen.2020. Dict-MLM:使用双语词典改进多语言预训练。arXiv预印本arXiv:2010.12566。钱辰、朱卓、文王。2019. Bert用于接头意图分类和槽填充。arXiv预印本arXiv:1902.10909。齐泽文、李东、魏福如、杨楠、宋夏、王文辉、毛先玲、黄和燕、周明. 2020. Infoxlm:一个信息理论框架,https://github.com/mindspore-ai3https://mindspore.cn/+v:mala2277获取更多论文跨语言语言模型预训练。arXiv预印本arXiv:2007.07834。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek、Francisco Guzmán、Edouard Grave、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020年。大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集,第8440- 8451页。Jacob Devlin , Ming-Wei Chang , Wendon Lee ,and Kristina Toutanova. 2019. Bert:深度双向转换器的语言理解预训练。在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-41
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功