多语言神经机器翻译模型示例插值改进：mXEncDec方法跨语言融合提高质量5.5BLEU点

93 浏览量更新于2023-12-01 收藏 1.17MB PDF 举报

神经机器翻译

训练模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文多语言混合：示例插值改进多语言神经机器翻译Yong Cheng，Ankur Bapna，Orhan Firat，YuanCao，Pidong Wang，and Wolfgang MachereyGoogle Research{chengyong，ankurbpn，orhanf，yuancao，pidong，wmach}@google.com摘要多语言神经机器翻译模型经过训练，以最大限度地提高从多个语言对中提取的示例混合的可能性。应用于这些模型的主要归纳偏差是跨语言的共享词汇和共享参数集;对应于从不同语言对中提取的示例的输入和标签可能仍然驻留在不同的子空间中。在本文中，我们介绍了多语言交叉编码器-解码器（mXEncDec）融合语言对在一个实例级。我们的方法插值实例从不同的语言对联合为了确保在多语言环境中更好地融合示例，我们提出了几种技术来改善在严重数据不平衡的情况下跨不同语言的示例插值。在大规模WMT多语言数据集上的实验表明，我们的方法显着提高了英语到多个，多个到英语和零镜头翻译任务的质量（从+0。5 BLEU至+5。5BLEU点）。代码切换集的结果表明，我们的方法，以提高模型的泛化，以分布外的多语言的例子的我们还进行了定性和定量的表征比较，以分析我们的方法在表征水平上的优势。1介绍在过去的几年里，多语言建模一直受到越来越多的研究关注，这是因为成功地证明了各种任务、语言和模式的质量得到了提高（ Lample 和 Conneau ， 2019; Arivazhagan 等人，2019 年）。，2019 b; Conneau et al. ，2021年）。这些模型的成功通常归因于词汇共享、参数捆绑和通过英语（Conneau）等主导语言的隐式旋转等人，2020）。这些传统技术是有效的，但可能没有充分利用多语言模型的潜力来学习潜在的归纳偏差：来自一种语言的学习信号应该有益于其他语言的质量（Caruana ，1997;Arivazhagan et al. ，2019 b）。在这里，我们研究了多语言神经机器翻译（NMT ）训练（Dong et al. ，2015; Firat etal. ，2016 a; Johnson et al. ，2017 年）。首先， NMT 模型（ Bahdanau et al. ， 2015;Vaswani et al. ，2017）是用最大似然估计训练的，其具有过拟合甚至备忘录化观察到的训练示例的强烈倾向，特别是针对低资源语言的发布挑战（Zhang et al. ，2018）。其次，来自不同语言对的训练示例被单独馈送到多语言NMT模型中，而没有任何显式的实例级共享（多源NMT除外）（Zoph和Knight，2016;Firat et al. ，2016 b））;因此，给定足够大的容量，模型可以自由地将不同语言的表示映射到不同的子空间中，从而限制跨语言迁移的程度。在这项工作中，我们引入多语言交叉编码器-解码器（mXEncDec）来解决这些问题，这是继最近对XEncDec 的工作（Cheng et al. ，2021）和mixup（Zhang et al. ，2018; Cheng etal. ，2020; Guo et al. ，2020）。受染色体交叉的启发（Rieger et al. ，2012），mXEncDec融合两个多语言训练示例以生成继承不同语言对的特征组合的交叉示例，与机械地组合多个语言对的标准训练相比，其能够显式地捕获跨语言mX-EncDec具有以下优点：1. 加强跨语言的推广。由于通过融合不同语言对生成的交叉示例，鼓励多语言NMT学习迁移arXiv：2203.07627v1 [cs.CL] 2022年+v：mala2277获取更多论文|⟨ ⟩⟨ ⟩···j=1∈i=1QM {D}通过更多的语言显式地而不是通过主要语言直接地实现2. 提高了模型的泛化能力和鲁棒性. 作为多语言语料库中每个示例周围的邻近示例（类似于邻近风险最小化（Chapelle etal. ，2001）），mX-EncDec产生的交叉示例可以丰富训练分布的支持，并分别在一般输入和噪声输入上产生更好的泛化和鲁棒性（Zhang et al. ，2018）。3. 减轻对低资源语言的过度拟合。mXEncDec可以通过将低资源示例与其他示例融合来增加低资源语言的多样性，而不是标准训练中的简单重复。在mXEncDec中，我们随机选择两列火车-优化将源语言句子x翻译成目标语言句子y的条件概率P（y x;θ）。编码器读取源句子x=x1，.，x I作为一个词嵌入序列e（x）。解码器充当嵌入e（y）上的条件语言模型，并且编码器输出具有交叉注意机制（ Bahdanau et al. ， 2015 ）。为了清楚起见，我们将解码器中的输入和输出表示为z和y，i。e. ，z=s，y1，，yJ−1作为y的移位副本，其中s是句子开始标记。然后，解码器生成y作为P （ y|x;θ ）=JP（yj|z≤j，x;θ）。十字架-注意力矩阵表示为ARJ×I。NMT通过最大化并行训练集D的可能性来优化参数θ：从多语言训练语料库中抽取例句，并首先插入它们的源句子D（θ）= E（x，y）∈D[l（f（x，y;θ），v（y））]，（1）我们必须谨慎地处理语言标签。然后利用混合解码器生成虚拟目标句。为了解决语言对数据不平衡的问题，本文提出了一种成对抽样策略来调整语言对之间的插值比例。我们还建议简化目标插值，以应付嘈杂的注意和不同语言对的融合。不同于XEncDec融合两个异构任务（Cheng et al. ，2021），我们试图调整它，以深度融合不同的语言对。在大规模WMT多语言数据集上的实验结果表明，mXEncDec产生im-mXEncDec。其中l是模型预测f（x，y; θ）和y的标签向量v（y）之间的交叉熵损失。v（y）可以是在Transformer中具有平滑的独热向量的序列（Vaswani et al. ，2017年）。多语言NMT将NMT从双语扩展到多语言环境，其中它学习从一组语言到另一组语言的一对多、多对一或多对多映射（Firat et al. ，2016 a; Johnson et al. ，2017年）。更具体地说，多语言NMT模型是在并行语料库上学习的，其中L是语言对的数量：验证+113 + 0 47BLEU points av-LM（θ）=l[l（f（x，y;θ），v（y））]，L在xx-en和en-xx测试集上，Di∈M（x，y）∈Di（二更）多语言Transformer模型。我们还评估了我们的零镜头翻译方法，并获得了+5。53BLEU点超过基线方法，这证实了我们的方法具有更好的多语言模型的可移植性在噪声输入文本上更稳定的性能证明了我们的方法能够提高模型的鲁棒性。为了进一步解释模型在表示层面的行为，定性和定量的表示比较表明，我们的方法学习更好的多语言表示，这间接解释了BLEU的改进。2背景多语言神经机器翻译。NMT（Bahdanau等人，2015; Vaswani et al. （2017年）其中所有并行训练集都被馈送到NMT模型中。XEncDec：交叉编码解码器。XEnc- Dec的目标是在编码器-解码器模型中融合两个并行示例（称为 parents ）（ Cheng et al. ， 2021年）。在编码器侧，父母给出一对例子（x，y）和（xJ，yJ），其中它们的长度在大多数情况下是不同的，标记被附加到较短的标记以对齐它们的长度。通过在（x，y）和（xJ，yJ）（父代）上执行XEncDec来生成交叉示例（x，y，j）（fspring）交叉编码器将两个源序列的嵌入组合成一个新的序列，LEE+v：mala2277获取更多论文| | | || |···∈ {}Σi=1ΣJJ JJJe（x）e（x≠1）=e（x1）i=2+e（xJ1）i=2嵌入：e（xi）=e（xi）mi+e（xJi）（1−mi），（3）其中m=m1，，m|X轴|0、1个|X轴 |从分布中采样或根据超参数比率p构造;例如，p= 0。15意味着m中15%的元素是0。 x是x的长度，等于max（x，xJ）。在交叉解码器端，采用混合转换语言模型生成虚拟目标句。输入嵌入e（zj）和输出labe lv（yj）在第j个位置处的解码器的值被计算为：e（zj）=e（yj−1）tj−1+e（yjJ−1）（1−tj−1），（4）v（yj）=v（y）t+v（yJ）（1-t），（5）交叉话语言标记mXEncDec图1：多语言交叉编码器-解码器（mXEncDec）的说明。源句中的语言符号根据其单词在x中的比例进行软插值。如何应对mXEncDec为多语言NMT带来的新挑战。语言插值。作为多语种NMT涉及大量的语言对，其中t=t1，.，不 |y| [0，1]|y|EURR|y|. 与此同时-为了区分它们之间的翻译方向，采用了一些技巧，如前置atrast到一个共同的语言模型喂养一个单一的为了在第j个位置预测y j，交叉解码器的目标是在当前输入嵌入也对嵌入 e（ yj-1 ）和 e（yjJ-1）加权的条件下，通过对v（y j）和v（y j j）与t j进行平均来生成内插向量v（y j j）。用于内插目标输入和标签的权重向量t被计算为：源输入的语言标签（Johnson et al. ，2017）或源句子和目标句子两者（Wang et al. ，2018年），为不同的语言训练特定于语言的嵌入（ Lample 和 Conneau ， 2019 年），等等（Dabre et al. ， 2020 ）。当遵循Lample 和Conneau（2019）时，很自然地插入特定于语言的嵌入，就像我们对令牌嵌入所做的那样。但如果要TJ=我i=1 阿吉咪咪′、（六）在源代码的第一个单词中采用语言标记表示目标语言的句子（约翰逊我i=1 Aji mi+iAJji（1−mi）等人，2017），我们需要解决如何插值其中A和AJ是（x，y）和（xJ，yJ）的对齐矩阵。在实践中，NMT模型中的交叉注意分数被用作交替噪声对准矩阵（ Garg et al. ，2019）。利用交叉熵计算损失他们如图1所示，为了使句子x_j仍然携带来自x和x_J的语言特定信息，我们对它们的语言标签进行软组合，即：XEncDec喂食时，和Σ|M|MiΣ|M|（1 − mi）编码器-解码器模型，表示为：| − 1|−1| − 1|−1（八）l（f（x≠，y≠;θ），v（y≠））=jKL（v（yj）P（y|z<$≤j，x<$;θ））。（七）3mXEncDec在这项工作中，我们的目标是利用XEncDec来鼓励多语言NMT模型，以更好地利用通过显式融合不同语言对创建的我们引入了它的变体mXEncDec，如图1所示，其中父示例可以属于相同或不同的语言对。随后的小节讨论了为e（z）v（y）+v：mala2277获取更多论文||吉吉|M|− 1其中m是m的长度。 e（x∈1）捕获x∈ 1中来自平移对（x，y）和（xJ，yJ）的词的比例。简化的目标插值。与双语NMT相比，在多语言NMT模型中学习的注意力矩阵过于嘈杂，这导致在等式中使用基于注意力的目标插值的设计不当。（6）对于mXEncDec.相反，我们可以通过将t设置为常数向量来使用简单的线性插值，这里以使用语言标签的情况为例|M|mtj=i=2， j∈{1，.， |y|}，（9）+v：mala2277获取更多论文∈←←M← ∈MLE∈E∈|| ||||E−E对于使用语言嵌入，可以获得类似的等式。此外，忽略注意力可以提高并行效率，加速增益为10%。硬目标输入插值。对于在目标侧具有多种语言的多语言NMT ，即，一对多和多对多模型，我们需要仔细设计目标输入词嵌入的组合由于来自同一语言的表示通常彼此接近，因此它仍然可以通过在等式中线性插值目标嵌入来扩大表示空间（四）、但对于不同的语言，特别是远亲语言，它们之间的插值点为了解决这个问题，如果t j > 0，我们只需将j设为1。5，否则，当在等式5中为两种不同的目标语言内插目标输入嵌入时，tj=0（四）、更好的解决方案应该考虑基于语言相似性改变插值比率或鼓励相似语言的插值。我们把它留给未来的探索。成对抽样。多语言语料库通常是严重不平衡的：它的大部分数据分布集中在高资源语言对上（Arivazhagan et al. ，2019 b）。当内插高资源和低资源句子对时，我们假设应该鼓励融合以有利于高资源语言对，因为高资源句子支持的表示空间相对可靠和稳定（Kudugunta et al. ，2019）。这表示更频繁的小p（例如p<0. 5）如果（x，y）Dli是高资源句子，则将高资源句子加权于低资源句子，并且（xJ，yJ）D lj是低资源句。为此，我们提出了一种成对采样方法来采样源shu fle比pli，lj，用于内插语言对l i和l j：g<$Bernoulli（1/（1+exp（−τd（li，lj），（10）pli，lj=gp+（1−g）（1−p），（11）其中τ是温度超参数，用于控制伯努利分布的g朝向0或1的趋势d（l i，l j）可以是测量语言l i和l j之间的关系的任意度量。这里我们使用d（li，lj）=Dli/Dlij，其中Dli表示语言对li的数据大小。计算损失。我们计算训练损失算法1：计算mXEncDec损失。输入：语料库M，温度τ，比率p。输出：批次损失X（θ）。1函数mXEncDec（，τ，p）：2（XJ，YJ）将（X，Y）沿批进行混洗;3foreach（x，y，xJ，yJ）（X，Y，XJ，YJ）做4pli，lj采样等式中的shuffle比率（10）和（11）与τ和p;5（e（x），e（z），v（y））使用等式（1）计算它们。（3）-（5）、（8）、（6）或（9），以及p11、lj;6LX←等式（7）与（e（x），e（z），v（y））7端8returnLX（θ）在mXEncDec上为：LX（θ）=l l l lDi ∈MDj∈M（x，y） ∈Di（x′，y′）∈Dj[l（f（x，y;θ），v（y））]，（12）其中（xj ，yj ）的生成取决于（x，y）和（xJ，yJ）。算法1显示了如何计算Eq. （12）有效。我们洗牌的min-batch consisting的所有语言对。然后，混洗批次和原始批次可以用于生成（x_n，y_n）以计算mXEncDec损失。代替在等式中使用独热标签 v （ y ， j ），（ 5 ），我们采用标签 co-refinement （ Li etal. ，2019年）通过线性组合地面实况一热标签与模型预测，t=v（yj）β+fj（x，y;θj）（1β）。最后，我们的方法优化了模型损失，涉及两个训练损失，方程。（2）Eq. （十二）：θm= argmin{LM（θ）+LX（θ）}。（十三）4实验数据与评价。我们在以英语为中心的WMT多语言数据集上进行实验，该数据集由16种语言（包括英语）和30个翻译方向组成，这些翻译方向来自WMT' 19之前和WMT'19（Barraultet;+v：mala2277获取更多论文al. ，2019）。数据分布是高度偏斜的，从En-Gu的大约10 k个例子到En-Cs的大约60 M个例子两个非英语测试集，Fr-De和De-Cs，用于验证零镜头翻译。此外，我们还使用多-+v：mala2277获取更多论文×--联系我们τ=-2-0.8-0.400.4 0.82xx-en 27.22，27.42,27.21,27.41,27.4627.6027.41en-xx 21.76，21.83,21.74,21.87,二十一点八九，二十二点零一，21.87表1：成对采样中温度τ的影响。我们在mXEncDec-A上为多对多模型调整这个超参数。mXEncDec-A：基于注意力计算目标插值。多对一一对多方法xx-enen-xx低Med.高AvgWR低Med.高AvgWRMLE21.2829.9631.8526.53-14.9222.5229.4221.27-mixup+0.95+0.28+0.05+0.5293.33+0.49-0.46-0.26+0.0546.66mXEncDec-A+0.50+0.44+0.30+0.4286.67+0.51+0.06+0.17+0.3180.00+硬-----+0.47+0.08+0.31+0.3486.66mXEncDec-S+1.76+0.62+0.36+1.0693.33+0.45-0.25-0.04+0.1573.33+硬-----+0.78-0.05+0.35+0.4786.66表2：WMT多语言翻译的多对一和一对多模型的基线比较。mXEncDec-A：基于注意力计算目标插值。mXEncDec-S：目标插值被简化为常数向量。WR：胜率。xx-en：other languages to English. en-xx：英语到其他语言。硬：硬目标输入插补时，插补不同的语言。FLORES-101（Goyal et al. ，2021）来分析训练的多语言模型1为了缓解WMT多语言语料库中的数据不平衡，我们遵循Arivazhagan et al.（2019 b），采用基于温度的数据采样策略，对温度设置为5的低资源语言进行过采样。我们应用SentencePiece（Kudo和Richardson，2018）学习64k子单词的词汇我们在三种环境下进行实验：多对一，一对多和多对多的翻译。15个测试语言对根据其数据大小被分为三组：高（>10M，5种语言），低（1M，7）和中（>1M10M，3）。<&<我们不仅报告了由SacreBLEU脚本（Post，2018）计算的每组的平均去标记BLEU 分数，还报告了获胜率（WR），表明我们的方法击败基线方法的所有测试集的比率。模型和超参数。继Chen等人（2018）之后，我们选择了Transformer Big（6层，1024个模型维度，8192个隐藏维度）作为骨干模型，并使用开源Lingvo（Shen et al. ，2019 ）。Adafactor（Shazeer和Stern，2018）被改编为设置为3。0，并以40k预热步长进行调整我们使用4的光束尺寸和长度惩罚，0。所有测试集均为6。我们将特定于语言的嵌入应用于多对一和一对多模型，而多对多模型中的语言用语言标签指定多对一和一对多模型针对15万步进行了优化，而多对多模型则针对30万步进行了优化。所有Transformer型号都使用了大量的64个令牌，超过64个TPUv 4/TPUv 3芯片。我们平均最后8个检查点来报告模型性能。我们在集合上调整p：0。10，0。15，0。25，0。50并将其设置为0。15除了多对一使用0。二十五方程中使用的温度τ（10）为了采样，在集合0，0上选择混洗比率。四、0。八，二、0。τ=0。如表1所示，多对多模型选择8，而其他模型选择τ=0。标签协同细化中的参数β从0退火到0。第一个40K步。我们发现，非零和非一个β不仅可以更好地捕获信息标签，而且可以大大提高训练稳定性。训练效率。如果采用简化的目标插值，则L（θ）我们的训练优化器，其中学习率和iX（θ）M由方程式（13）完全独立。但1数据详情见附录表6我们必须将批量大小减半以加载插值-+v：mala2277获取更多论文LMany-to-Many方法xx-enen-xx低Med.高AvgWR低Med.高AvgWRMLE23.229.0231.1927.03-15.8622.3429.4921.70-mixup+0.79-0.11-0.12+0.3160.00+0.32-0.28-0.48-0.0633.33mXEncDec-A+0.88+0.28+0.31+0.5793.33+0.64-0.01+0.04+0.3173.33τ=0+0.88+0.20-0.22+0.3873.33+0.58-0.14-0.22+0.1766.66+硬+0.92+0.30+0.16+0.54100+0.52-0.20-0.14+0.1566.66mXEncDec-S+0.62+0.34+0.27+0.4586.66+0.45-0.10+0.18+0.2560.00τ=0+0.87+0.06-0.10+0.3866.66+0.43-0.40-0.29+0.0237.50+硬+1.78+0.35+0.71+1.13100+0.66-0.14+0.53+0.4660.00表3：WMT多语言翻译多对多模型的基线比较方法Many-to-ManyWMT FLORESde→frfr→dede→cscs→dede→frfr→dede→cscs→deAvgMLE16.8416.506.5210.6515.309.945.1810.9411.48mixup+2.66+1.02-3.35+1.01+2.16+0.18-2.61+0.95+0.25mXEncDec-A+3.70+1.45+2.33+4.07+2.54+0.83+1.82+4.14+2.61+硬+4.98+3.66+5.53+4.36+5.02+2.99+5.11+4.28+4.49mXEncDec-S+4.94+3.50+0.18+5.31+5.26+3.30-0.26+4.56+3.34+硬+3.45+3.82+3.50+3.52+2.46+2.98+3.44+3.76+3.37表4：WMT多对多模型对来自WMT和FLORES的零激发翻译的结果将示例（X（θ））存储到内存中。为了使基线模型和我们的模型在每一步中观察到相同数量的并行示例，我们将TPU的数量加倍以补偿它。4.1主要结果我们在多对一、一对多和多对多设置上验证mXEncDec• mXEncDec-A：目标插值t是通过在等式中归一化注意力来（六）、• mXEncDec-S：目标插值t被简化为等式（1）中的常数向量。（九）、我们将mXEncDec与基线方法进行比较：• MLE：vanilla多语言NMT使用最大似然估计进行训练。• mixup：我们适应mixup（Zhang et al. ，2018）通过按照Cheng et al.（2020）和Guo et al.（2020）提出的方法混合源序列和靶序列来进行多语言NMT。为了进行公平的比较，我们还混合了共同精炼的标签，而不是单一标签。表2显示了WMT多语言多对一和一对多模型的数据集。基线MLE和我们的方法之间的比较表明，mXEncDec可以在xx-en和en- xx翻译设置上提高翻译性能（最多+1。&93. honeymoon 33 WR在xx-en和+0上。86. &honor 66WR on en- xx）.特别是，使用简化的目标插值来替代基于噪声注意力的插值（mXEncDec-S vs.mXEncDec -A）可以在xx-en翻译（+0.64 BLEU）上获得更好的结果，而在en-xx翻译（-0.16 BLEU）上表现略差。在结合量化目标插值后，它在 en-xx 平移上产生了mXEncDec-S的额外改进（+0.32 BLEU）。xx-en 和 en-xx 之间的改进差异（ +1.06 BLEU vs.+0.47 BLEU）在某种程度上意味着目标侧的插值更有利于类似的语言，而编码器侧的插值对语言类型不敏感。表3显示了多对多模型的结果。+v：mala2277获取更多论文MLEmixupmXEncDec-S*MLEmixupmXEncDec-S*28 2216262014241812221614201012188101686140.0 0.1 0.2 0.3 0.40.5噪声分离(a) xx-en0.0 0.1 0.2 0.3 0.40.5噪声分离(b) en-xx0.0 0.1 0.2 0.3 0.4 0.5噪声分离(c) zero-shot图2：人工代码转换噪声数据的结果。我们绘制了多对多模型在xx-en，en-xx和零次测试集上改变噪声分数时的BLEU变化。在所有的训练方法中，我们的方法对于xx-en和en-xx翻译仍然获得了最好的结果（高达+1 。 13 BLEU &100 WR 在 xx-en 和 +0 上。46BLEU 73.33 WR）。&我们一致地发现，mXEncDec-S从量化目标插值中受益更多，其中xx-en上+0.68 BLEU，en上+0.21 BLEUxx.尽管该技术稍微损害了mXEncDec-A在xx-en和en-xx转换上的性能，但它显著提高了其零激发转换，如表4所示。我们还观察到，删除τ=0的成对采样对多对多模型的高资源语言对成对抽样不仅可以稳定低资源语言对的性能，而且可以显著提高高资源语言对的性能。与mixup相比，我们的方法仍然获得了更好的性能，只是xx- en上的mXEncDec-A的性能稍差。mixup在示例及其标签的线性插值上训练模型相比之下，mXEncDec在源端以非线性方式组合训练样本，并鼓励解码器以与源端相关的比率解耦非线性插值4.2Zero-shot Translation为了进一步验证我们的方法的跨语言迁移，我们利用多对多模型来对训练数据中不存在的语言对进行解码来自WMT和FLORES的零镜头集。在表4中，与基线方法相比，我们的方法在所有测试集上都取得了显着的平均而言，我们的最佳方法（ mX- EncDec-A +Hard）可以获得+4。49BLEU/MLE。有趣的是，这个模型在一般翻译上不是最好的，但在零镜头翻译上提供了最好这些实质性的改进表明了强大的可移植性我们的方法。4.3多语言健壮性我们构建了一个包含代码切换噪声的噪声测试集，以测试多语言 NMT 模型的鲁棒性（ Belinkov 和 Bisk ， 2018; Cheng 等人，2019 ）。， 2019 ）。按照 Cheng et al.（2021），我们通过求助于以英语为中心的词典，将一定比例的英语/非英语源词随机替换为非英语/英语目标词。从图2的结果中，我们发现我们的方法随着噪声分数的增加而表现出 mXEncDec-A 在零次翻译上显示出与mXEncDec-S相似的鲁棒性，并且在xx-en翻译上显示出甚至更高的鲁棒性，尽管其在干净测试集上的性能落后于mXEncDec-S。与其他方法相比，mXEncDec-S语言在en-xx翻译上的表现明显更好此外，值得注意的是，我们的方法有更好的稳定性，在xx-英语翻译，我们用英语对应物取代非英语单词，这是在4.4节中的发现，英语表征往往会融合到非英语表征凭借我们的方法。4.4代表性分析为了更好地解释我们的方法相对于基线的优势一种常见的方法是研究多语言NMT模型的编码器表示（Kudugunta et al. 2019年），我们遵循。我们通过平均编码器输出来聚合句子数据计算表示来自 FLO-RES （ Goyal etal. ，2021年），因为它提供了高质量的多方式翻译，这意味着每种语言的句子在语义上是等同的，MLEmixupmXEncDec-S *BleuBleuBleu+v：mala2277获取更多论文encsfrruzhesfideetlvltrohikktrguencsfrruzhesfideetlvltrohikktrguencsfrruzhesfideetlvltrohikktrguencsfrruzhesfideetlvltrohikktrgu(a) MLE(c) mXEncDec-A（b）混淆(d) mXEncDec-S图3：xx-en翻译上编码器表示的t-SNE可视化，用于比较使用MLE，mixup，mXEncDec-A和mXEncDec-S训练的多对多模型。2mXEncDec-S ：mXEncDec-S +硬。借给对方。我们使用每种语言的前100个句子来可视化表示。我们认为，在一个良好的多语言NMT模型的编码器更喜欢分配句子表示，基于它们的语义相似性，而不是语言的家庭。图3描绘了由t-SNE（Van der Maaten和Hinton，2008）绘制的xx-en翻译的表示的可视化。我们提出以下意见：1. 在每个图中，具有相同语义的句子倾向于形成单个集群。2. 对于图（a）中的MLE，大多数句子基于语义分散到每个聚类中，而极低资源语言（Hi，Gu，Kk）和英语拥有自己独特的聚类。3. 对于 mixup ，图（ b ） - （ d ）中的mXEncDec-A和mXEncDec-S，来自极低资源语言的句子开始被同化到它们自己的语义集群中。4. 对于图（c）-（d）中的mXEncDec-A和mXEncDec-S，英语句子试图融合转化成其他语言的表现英语句子更倾向于形成独立的语簇。因为当使用语言标记然而，我们的方法促进了英语句子更接近其他语言的语义这导致在翻译与英语代码混合的语言中的句子时对代码切换噪声的增强的鲁棒性。对极低资源语言的明显表示改进证实了表2和表3中对低资源翻译的显著BLEU改进。通过我们的方法学习的编码器表现最好，并且符合我们的论点。我们还进行定量分析，以评估图3中每种方法的聚类效果。在表5中，我们[2]在附录中，我们也从en- xx翻译的可视化中得到了类似的发现+v：mala2277获取更多论文方法SC↑ CH↑ DB ↓MLE 0.1625 15.021.896表5：通过图3中的方法产生的簇的定量分析。使用三种流行的度量来mXEncDec-S ：mXEncDec-S +硬。采用 SC （ Silhouette Coefficient ）、 CH（ Calinski-Harabaz Index ）和 DB （ Davies-Bouldin Index）三种聚类度量尽管这些指标不能充分评估多语言代表性，因为它们提倡不同集群之间的明显分离和同一集群内的紧密接近，但我们相信它们仍然可以部分测量集群内的方差其中，mX-EncDec-S的性能最好，mixup和mX-EncDec-A的性能相近.5相关工作近年来，多语言 NMT 取得了巨大的进展（ Dong et al. ， 2015; Firat et al. ， 2016 a;Johnson et al. ， 2017; Arivazhagan et al. ，2019 b; Fan et al. ，2021年）。最近的研究有效地提高了多语言模型的泛化能力，集中在扩大模型容量上（Huang et al. ，2019; Zhang etal. ，2020; Lep- ikhin et al. ，2020），包含数百种语言（Fan et al. ，2021），预训练多语言模型（Liu et al. ，2020），并引入额外的正则化约束（ Arivazhagan et al. ， 2019a; Al-Shedivat and Parikh，2019; Yang et al. ，2021年）。我们的工作与前三个相关，因为它们试图通过引入对齐损失来学习中间语言（Arivazhagan et al. ，2019 a）或对翻译等价物施加协议损失（Al-Shedivat和Parikh，2019;Yang等人，2019年）。，2021年）。然而，我们建议利用mXEncDec直接组合语言对，以更好地开发跨语言信号。另一个相关的研究领域是数据混合。由于混淆（Zhang et al. ，2018; Yun et al. ，2019年）是在计算机视觉中提出的，我们已经观察到 NLP 的巨大成功（ Guo et al. ， 2019;Cheng et al. ，2020; Guo et al. ，2020; Cheng等人，2021年）。mX- EncDec具有将前受 XEncDec 启发的示例对（ Cheng et al. ，2021年）。据我们所知，我们是第一个融合不同的语言对，以提高跨语言的泛化和鲁棒性的多语言NMT。6结论我们已经提出了mXEncDec来在多语言NMT的实例级别融合不同的语言对，这使得模型能够更好地利用跨语言信号。在一般测试集、零次测试集和噪声测试集上的实验结果表明，该方法能显著提高多语言NMT模型的跨语言泛化能力、零次迁移能力和鲁棒性表征分析进一步证实了我们的方法能够更好地学习多语言表征，这与BLEU的改进相吻合。我们计划研究这种方法是否可以在更广泛的范围内提高模型的泛化能力，如领域泛化。我们发现，mXEncDec可以很容易地实现显着的改进，因为他们共享一个相同的目标语言的xx-en翻译。然而，英语到xx的翻译仍有很大的发展空间我们计划探索如何更有效地插入目标语言，例如，可能考虑语言相似性。引用Maruan Al-Shedivat和Ankur P Parikh。2019.零次神经机器翻译中的一致性。北美计算语言学协会（NAACL）。Naveen Arivazhagan，Ankur Bapna，Orhan Firat，Roee Aharoni ， Melvin Johnson ， and WolfgangMacherey. 2019年a。零触发神经机器翻译中缺少的成分。arXiv预印本arXiv：1903.07091。Naveen Arivazhagan，Ankur Bapna，Orhan Firat，Dmitry Lepikhin ， Melvin Johnson ， MaximKrikun ， Mia Xu Chen ， Yuan Cao ， GeorgeFoster，Colin Cherry，et al. 2019 b.大规模多语言神经机器翻译：发现和挑战。arXiv预印本arXiv：1907.05019。德米特里·巴赫达瑙，赵京贤，和尤恩·本吉奥.2015.神经机器翻译通过联合学习来对齐和翻译。国际学习表征会议（ICLR）Loïc Barrault ， Ond Jourej Bojar ， Marta R Costa-Jussa ， Christian Federmann ， Mark Fishel ，Yvette Gra ham ， Barry Haddow ， MatthiasHuck，Philipp Koehn，mixup0.182116.56 1.796mXEncDec-A0.179616.52 1.806mXEncDec-S0.192418.38 1.739+v：mala2277获取更多论文Shervin Malmasi，et al. 2019. 2019年机器翻译会议（WMT19）第四届机器翻译会议论文集。Yonatan Belinkov和Yonatan Bisk。2018.合成噪声和自然噪声都会破坏神经机器翻译。国际学习报告会议（International Conference on LearningRepresentations，ICLR）瑞奇·卡鲁阿纳1997.多任务学习。机器学习Olivier Chapelle，Jason Weston，Léon Bottou，andVladimir Vapnik. 2001.邻近风险最小化。神经信息处理系统会议（ Conference on NeuralInformation Processing Systems，NeurIPS）Mia Xu Chen，Orhan Firat，Ankur Bapna，MelvinJohnson，Wolfgang Macherey，George Foster，Llion Jones ， Niki Parmar ， Mike Schuster ，Zhifeng Chen，et al. 2018.两全其美：结合神经机器翻译的最新进展。在计算语言学协会（ACL）上。YongCheng，

下载后可阅读完整内容，剩余1页未读，立即下载