UM4：零资源神经机器翻译的统一多语言多教师学生模型

37 浏览量更新于2023-11-04 收藏 19.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

En-Cs………arXiv:2207.04900v1 [cs.CL] 11 Jul 2022+v:mala2277获取更多论文0UM4：零资源神经机器翻译的统一多语言多教师学生模型0Jian Yang 1 � ，Yuwei Yin 2 * ，Shuming Ma 2 ，Dongdong Zhang 2 ，Shuangzhi Wu 3 ，Hongcheng Guo 2，Zhoujun Li 1 † ，Furu Wei 201 软件开发环境国家重点实验室，北京航空航天大学 2 微软研究院 3腾讯云 Xiaowei { jiaya，lizj } @buaa.edu.cn，frostwu@tencent.com，{v-yuweiyin，shumma，dozhang，v-hongguo，fuwei }@microsoft.com0摘要0大多数语言之间的翻译任务属于零资源翻译问题，其中平行语料库不可用。与两次中间语言翻译相比，多语言神经机器翻译（MNMT）使用共享语义空间进行一次翻译，但通常性能不如基于中间语言的方法。在本文中，我们提出了一种名为UM4的新方法，即统一的多语言多教师学生模型用于零资源翻译。源教师、目标教师和中间教师模型被统一起来指导学生模型进行零资源翻译。源教师和目标教师通过源和目标两侧的蒸馏知识迫使学生学习直接的源→目标翻译。中间教师模型进一步利用单语语料库增强学生模型。实验结果表明，我们的模型在WMT基准测试上的72个方向中明显优于先前的方法。01 引言0编码器-解码器框架[Vaswani等人（2017年）;Gheini等人（2021年）]在丰富资源的机器翻译任务上取得了出色的性能，例如英德、英法和中英[Koehn等人（2019年）;Zhou等人（2021年）;Johnson等人（2017年）]，其中有大规模的平行语料可用。然而，当不存在平行训练数据时，它无法直接建模零资源翻译任务。零资源机器翻译问题的一个直接解决方案是中间语言翻译方法[Bertoldi等人（2008年）; Wu和Wang（2009年）;Zahabi等人（2013年）;Cheng等人（2017年）]。基于双语中间语的模型执行两次翻译，这增加了计算成本，并且可能受到错误传播问题的影响[Zhu等人（2013年）]。还有一些工作[Chen等人（2017年）;0� 相等贡献。工作在微软实习期间完成。† 通讯作者。0多语言0学生中间语料库蒸馏语0编码器0解码器En-De0En-Fr...0Tr-Cs0De-Ro...0源教师0目标教师0单语教师0多个教师用于De-Ro0源教师0目标教师0单语教师0多个教师用于De-Fr0源教师0目标教师0单语教师0多个教师用于Tr-Cs0图1：UM4的框架。在原始中间语料库上训练的具有共享参数的统一多教师用于指导多语言学生模型。英语（En）是中间语言。0Currey和Heafield（2019年）;Kim等人（2019a）]直接构建源→目标模型，但受到双语翻译任务的限制。除了基于中间语言的方法外，通过在多个中间语料库上训练具有共享参数的多语言模型利用语言符号来推断所需的翻译方向[Firat等人（2016年）;Johnson等人（2017年）; Lakew等人（2019年）;Currey和Heafield（2019年）]。多语言模型从不同的语言对中受益，并且只需要一步翻译，避免了错误传播并节省了推理时间。但是，这种方法的性能[Kim等人（2019b）]比基于中间语言的模型差。在利用多语言模型解决零资源翻译问题的路线上，我们提出了一种名为UM4的新方法，即统一的多语言多教师学生模型用于NMT。给定中间语言和其他语言的可用语料库，我们直接构建源→目标学生翻译模型，由多语言多教师指导，如图1所示。多个教师模型可以分解为源教师模型、目标教师模型和中间教师模型。源教师模型将知识从中间语言传递到源语句。目标教师将中间语言的知识提炼到目标方，并提升目标生成的能力。中间教师模型通过挖掘单语中间语料库的潜力进一步增强学生模型。统一教师的整体蒸馏语料库使用标准化分数用于学生模型。具体来说，我们首先在𝒀𝑪𝒔𝒀𝑪𝒔𝑿𝑪𝒔𝑿𝑪𝒔𝑿𝒀𝒁𝒚(a)𝒁𝒙𝑬𝒏𝒁𝒙𝑬𝒏𝒀𝑪𝒔𝒀𝑪𝒔𝑿𝑪𝒔𝑿𝑪𝒔𝑿𝒀𝒁𝒙(b)𝒁𝒎𝒁𝒎𝒀𝑪𝒔𝒀𝑪𝒔𝒀𝒀𝒁𝒎(c)̸+N(1)LS =m=1Ex,y∈DSm [−wx,y log Pθ(y|x)](2)+v:mala2277获取更多论文0平行0平行0学生 � �� 0图2：我们统一的多语言多教师-学生模型概述：(a)源教师模型，(b)目标教师模型，(c)中心教师模型。X、Y、Z分别表示源语言、目标语言和中心语言。虚线“- -”表示连接的语言对之间存在真实的平行语料库，点线“ ∙ ∙”表示由教师模型生成的精炼平行语料库可用。实线箭头表示翻译方向。我们的多个教师模型包括源教师模型、目标教师模型和中心教师模型，其中Z x和Z y分别表示与源语言X和目标语言Y相关联的平行语料库中的中心语言Z。源教师和目标教师分别从Z y和Zx传递知识。给定单语语料库Z m，中心教师模型通过向源语言和目标语言传递知识进一步增强多语言学生模型。0将所有中心语语料库作为统一的多个教师共享所有模型参数。然后，我们使用多个教师模型构建所有零资源方向的精炼多语言语料库。使用统一的多个教师生成的归一化分数的精炼语料库来指导源语言→目标语言的学生模型。我们在WMT基准测试的9种语言的多语言语料库上进行实验，共有72个翻译方向。实验结果表明，我们的方法可以显著优于多语言基线和基于中心语的方法。此外，我们通过扰动实验和多语言句子表示的可视化验证了我们方法的有效性。分析结果表明，我们具有更好的跨语言能力的UM4学生模型增强了零资源翻译并避免了错误传播。02我们的方法在本节中，我们介绍了用于零资源机器翻译的统一多教师-学生模型。如图2所示，当直接平行数据不可用时，我们的方法同时使用多个教师模型来训练多语言端到端翻译模型。02.1 UM4概述给定N个语言的双语语料库D B = {D B n} N n= 1，其中一侧是中心语言L z，另一侧是语言L n ∈ {L n} N n= 1，多语言模型在可用的中心语语料库DB上进行训练，以解决零资源翻译问题，即在零资源语言对Li和L j（1 ≤ i，j ≤ N且i ≠j）之间没有直接平行数据的情况下进行翻译。0L D =0n = 1 E x,z x ∈ D Bn [ − log P θ (z x | x )]0n = 1 E y,z y ∈ D Bn [ − log P θ( y | z y )]0其中，x、z x表示双语语料库D B中的源语言句子和中心语句子。y、zy表示中心语和目标语句子。LD是多语言模型的综合目标。多语言模型基于源语言-中心语的双语语料库进行训练。0以及具有共享参数的中心-目标语料库，在语言符号之前添加语言符号以指示从语言L i到语言Lj的零资源翻译方向。对于零资源语言对，如果没有平行训练数据，多语言模型可能会轻易翻译成错误的语言，导致翻译质量较差。因此，我们引入了零资源语言对的合成多语言多个语料库D S = {D S m} M m = 1。0其中 x 和 y 表示蒸馏多语言语料库 D S中的源语言和目标语言句子。w x,y是来自多个教师的多语言训练样本的权重。我们的多语言学生模型在原始语料库 D B 和蒸馏语料库 D S上进行训练，这在零资源方向上改善了翻译质量：0L T = L D + L S (3) 其中 L T是我们多语言学生模型的总目标。L D 和 L S分别表示原始中间语料库 D B 和蒸馏语料库 D S的训练目标。02.2 多教师模型给定源-中间和目标-中间平行语料库0pus D B i = { x ( k ) , z ( k ) x } | D Bi | k =1 and D B j ={ y ( k ) , z ( k ) y } | D Bj | k =1 ,我们的目标是为零资源翻译任务构建一个源语言到目标语言的翻译模型 θ x → y 。 x 和 y分别表示源语言和目标语言的句子，z x 和 z y分别表示来自源-中间语料库 D B i 和中间-目标语料库 D B j的中间句子。| D B i | 和 | D B j | 是语料库 D B i 和 D B j的大小。θ 表示模型参数。源教师模型如果目标句子 y和中间句子 z y 是来自数据集 D B j 的平行句子。源教师 θ zy → x 在源-中间语料库 D B i0L src S = − E y,z y ∈ D Bm � P ( x | z y ; θ z y → x ) log Pθ ( y | x ) � (4) 其中 P ( x | z y ; θ z y → x ) 是源教师模型 θ zy → x 生成的权重。LtgtS= −Ex,zx∈DBi [P(y|zx; θzx→x) log Pθ(y|x)](5)LpivotS= −Ezm∈DM [wx,y log Pθ(y|x)](6)LS = LsrcS+ LtgtS+ LpivotS(7)2http://phontron.com/data/ted talks.tar.gz+v:mala2277获取更多论文0目标教师模型如果源句子 x 和中间句子 z x 是来自数据集 D Bi 的平行句子。目标教师 θ z x → y 在中间-目标语料库 D B j上进行训练。目标教师学生训练目标可以描述为：0其中 P ( y | z x ; θ z x → y ) 是目标教师模型 θ z x → y生成的权重。中间教师模型给定单语中间语料库 D M，中间教师用于指导学生模型。中间教师模型 θ z m → x ∪θ z m → y 在中间语料库 D B i 和 D B j上进行训练。中间教师学生训练目标可以描述为：0其中 w x,y = P ( y | z m ; θ z m → y ) P ( x | z m ; θ z m→ x )是中间教师模型生成的权重。所有教师都基于可用语料库 D B上的多语言训练，并且共享相同的语义空间。因此，统一教师由具有各自功能的不同教师组成。结合源教师模型、目标教师模型和中间教师模型，我们的教师-学生训练的训练目标可以描述为：0其中多个教师的参数在训练过程中保持不变。我们采用序列级知识蒸馏[Chen et al. ,2017]来将教师模型的知识蒸馏到学生模型中。具体而言，我们使用多个教师模型构建零资源语言对的蒸馏语料库 D S ={ D S 1 , . . . , D S M } ，并结合原始中间语料库 D B = { DB 1 , . . . , D B N }训练学生模型。如图2所示，我们的方法可以同时利用源教师模型、目标教师模型和中间教师模型来指导源语言到目标语言的学生模型，从而得到一个更强大的学生模型。02.3 教师-学生转移本节将介绍多语言多教师-学生知识蒸馏的细节。由于源句子x和y的指数级搜索空间的限制，我们采用波束搜索策略生成N个最佳翻译候选项，并重新归一化概率，使学生模型近似于教师模型的分布，如下所示：0w x,y = exp(w x,y/τ) / ΣS s=1 exp(w sx,y/τ) (8)0其中S是固定教师模型的波束大小。w sx,y是教师模型生成的第s个句子的概率。τ是温度。温度τ→0增加了对前选蒸馏句子的权重。我们01根据概率从教师模型生成的合成数据中进行采样是迫使学生模型近似教师模型的一种简单方法[Kim and Rush, 2016]。0将τ <1.0设置为强制模型在训练时更加关注最佳蒸馏句对。我们首先训练一个单一的多语言模型，将所有可用的中间语言语料库DB作为所有语言的多个教师模型，而不是训练不同的双语教师模型。0源-教师转移对于源-教师模型，我们使用中间语言 →源语言模型将中间语言语料库DB的单语中间语言句子翻译成蒸馏的源语言句子。通过这种方式，我们得到了一个蒸馏语料库D srcS。根据公式4，使用得分w x,y = P(x | z y ; θ z y →x)的蒸馏语料库D src S来教授学生模型。0目标-教师转移我们采用波束搜索策略，将源-中间语言语料库DB中的单语中间语言部分翻译成目标语言句子。另一个蒸馏语料库D tgt S是通过知识转移得到的，其得分为w x,y = P(y | zx ; θ z x → y)。0中间语言-教师转移给定额外的单语中间语言语料库，通过中间语言-教师模型将中间语言句子分别翻译成蒸馏的源语言和目标语言句子。我们从单语语料库D M 中获得得分为w x,y = P(x | z m ; θ z m →x) P(y | z m ; θ z m → y)的蒸馏语料库D pivotS。最终，使用多语言教师模型的参数固定，我们生成蒸馏知识并将其组合成一个完整的训练数据集D S = D src S ∪ Dtgt S ∪ D pivot S，用于训练多语言源语言 →目标语言学生模型。03 实验0我们在包括9种语言和56个零资源翻译方向的多语言数据集上评估我们的方法。英语是最流行的语言，与其他语言相比，现实世界中有大量以英语为中心的数据。因此，在所有实验中，英语（En）被视为中间语言。03.1 数据集0所有实验都是在从之前的工作[Wang et al. ,2020]中提取的包括英语（En）、法语（Fr）、捷克语（Cs）、德语（De）、芬兰语（Fi）、爱沙尼亚语（Et）、罗马尼亚语（Ro）、印地语（Hi）和土耳其语（Tr）在内的9种语言的多语言数据集上进行的。0我们从WMT基准测试中每种语言的最新可用年份收集训练数据，排除了WikiTiles。我们删除了重复的样本，并通过从整个语料库中随机抽样，将每种语言对的平行数据数量限制在1000万条。对于9种语言的72个翻译方向，我们使用与之前的工作2相同的有效和测试集进行评估。3http://data.statmt.org/news-crawl4BLEU+case.mixed+lang.{src}-{tgt}+numrefs.1+smooth.exp+tok.13a+version.1.3.15%12.5%50%100%Downsampling Ratio12.712.913.113.313.513.7BLEUOur method+v:mala2277获取更多论文0单语数据英语单语数据来自NewsCrawl3，随机抽样了100万个英语句子。我们使用多语言NMT模型将这些英语单语数据翻译成其他语言的句子，作为所有基线模型的反向翻译数据。我们的方法使用中间语言-教师模型来指导源语言 → 目标语言学生模型的训练，使用单语数据。03.2 评估在推理过程中，使用束搜索策略生成目标句子，束大小为5。我们将长度惩罚设置为1.0。最后5个检查点进行平均评估。我们使用sacreBLEU 4报告大小写敏感的去标记化BLEU。03.3 基线我们的方法与基于中间语言和多语言的基线进行了比较。双语基于中间语言[Cheng etal.，2017]通过使用在每对语言上训练的两个单对NMT模型，将源语言翻译为目标语言。多语言基于中间语言[Lakew etal.，2019]利用在所有可用方向上训练的单个多语言NMT模型进行中间语言翻译。多语言[Johnson etal.，2017]共享所有语言的相同词汇，并在源语句前添加语言符号以指示翻译方向。单语适配器[Philip etal.，2020]基于预训练的多语言模型，调整每种语言的适配器以实现零资源翻译。Teacher-Student[Chen etal.，2017]使用中间-目标翻译模型教授源-目标翻译模型。MTL[Wang etal.，2020]提出了一个包括翻译任务和两个去噪任务的多任务学习（MTL）框架。03.4 实现细节所有实验都基于Transformer big架构[Vaswanietal.，2017]进行。编码器和解码器都包含6层，每层有16个头。词嵌入大小dmodel设置为1024，FFN（前馈网络）大小为4096。学习率设置为3e-4，多语言数据集上进行了4000次预热步骤。使用Adam [Kingma和Ba，2014]来更新参数。使用64个TeslaV100 GPU对4096个令牌的小批量大小的模型进行训练。03.5 实验结果在表1和表2中列出了针对基线的测试集的评估结果。在表1中，源-中间语料库相对于表1中的低资源中间-目标语料库而言是高资源的，在表2中，源-中间语料库相对于表2中的高资源中间-目标语料库而言是低资源的。如表1所示，包括多语言基于中间语言和双语基于中间语言在内的基于中间语言的方法明显优于包括多语言在内的多语言方法。0图3：我们的方法在不同下采样比例下的整体平均BLEU点数。0MTL和单语适配器。但是基于中间语言的方法仍然存在错误传播和计算开销大的问题。相反，我们的UM4方法是一个统一的多语言源→目标模型，可以缓解这个问题。与强基线Teacher-Student相比，我们的模型在Avg >28上取得了一致的改进，BLEU得分提高了≥0.6个点（在“Mono-Data”上提高了≥0.6个点）。这表明我们的学生模型通过多个教师的指导，在多种语言之间学习了一个高质量的表示空间，以增强零资源翻译方向的能力。在给定单语中间语料库的情况下，我们的方法还通过从中间语言教师模型中提取的知识击败了基于中间语言和多语言的方法。在表2中，源-中间语料库的大小小于中间-目标语料库，因此源教师从更大的中间-目标语料库中传递更多的知识，以更多的精炼句子指导学生模型。我们的UM4方法还击败了所有先前的方法，在Avg <28上获得了≥0.9个BLEU点的增益（在“MonoData”上获得了≥0.5个点）。这证明了引入源教师模型的有效性和重要性。我们的UM4方法在没有单语数据的情况下（Avg > 28 =11.8和Avg < 28 =14.7）的性能甚至比所有带有回译数据的基线方法更好。03.6分析不同教师的影响为了研究不同教师的影响，我们训练了7个学生，分别由源教师、目标教师和中间语教师模型的所有可能组合进行指导。我们的方法将多个教师同时引导源-目标学生模型，从而提高性能。表3显示了由不同教师指导的消融结果。一致地，更多的教师可以带来更好的结果，这证明了我们提出的模型可以全面地利用不同教师的优势。给定中间语和其他N种语言的多语种中间语语料库，使用N（N-1）个零资源方向的蒸馏训练集来指导多语种学生模型。语料库的总体规模包含TN（N-1）个句对，其中T是蒸馏语料库的平均大小。为了将复杂度从O（TN 2）降低到O（TN），我们采用了一种下采样策略，其中10N下采样比率如下所示：0T' = max { Tm , Tm + (T - Tm) / N } (9)X (High)Y (Low)Fr→FiCs→FiCs→RoCs→HiDe→EtFi→EtFi→RoFi→TrAvg8Avg>28X (Low)Y (High)Fi→DeEt→DeEt→FiRo→CsRo→DeRo→EtTr→FrTr→EtAvg8Avg<281234Sample Space12.312.412.512.612.712.812.9BLEUOur method0在并行数据上训练（Bitext）。0双语中间语 [Cheng et al. , 2017] 13.5 13.4 15.2 2.6 13.4 12.7 13.1 3.2 10.9 9.5 多语种中间语 [Lakew et al. , 2019] 12.5 11.9 16.1 6.9 14.8 13.3 14.05.3 11.9 11.20多语种 [Johnson et al. , 2017] 3.8 10.2 12.6 5.1 12.5 12.0 10.7 4.0 8.9 8.1 师生模型 [Chen et al. , 2017] 13.0 13.6 16.4 7.1 15.6 14.6 14.6 5.0 12.510.9 单语适配器 [Philip et al. , 2020] 8.2 10.7 14.3 5.9 12.1 12.6 12.4 4.8 10.1 9.2 MTL [Wang et al. , 2020] 6.0 9.0 13.0 6.0 14.3 12.0 11.7 4.6 9.68.90UM4无中间语教师模型（我们的方法）13.8 13.9 16.8 7.3 16.3 14.9 15.1 5.4 12.9 11.80在并行和单语数据上训练（Bitext + MonoData）。0双语中间语 + BT [Cheng et al. , 2017] 13.9 13.4 16.3 6.9 15.3 13.7 13.6 4.8 12.2 11.0 多语种中间语 + BT [Lakew et al. , 2019] 13.5 12.6 16.0 6.714.8 13.3 14.0 5.6 12.1 11.20多语种 + BT [Johnson et al. , 2017] 7.5 10.2 14.4 5.7 12.5 12.9 10.7 5.3 9.9 9.4 师生模型 + BT [Chen et al. , 2017] 13.6 13.0 16.6 6.8 15.2 14.8 15.25.5 12.6 11.6 单语适配器 + BT [Philip et al. , 2020] 10.8 7.6 15.1 5.0 15.4 14.1 14.1 5.4 10.9 10.0 MTL + BT [Wang et al. , 2020] 10.6 9.0 13.5 5.412.7 12.8 12.8 5.2 10.3 8.00UM4（我们的方法）14.1 14.1 17.1 7.4 16.2 15.0 15.8 5.9 13.2 12.40表1：在WMT基准测试上，对9个语言对的双语和多语种模型进行X →Y测试，其中源-中间语语料库相对于低资源中间语-目标语料库是高资源的。Avg 8是所列方向的平均结果，Avg >28是在此设置下所有28个方向的平均BLEU分数。0在并行数据上训练（Bitext）。0双语中间语 [Cheng et al. , 2017] 15.5 15.3 11.0 14.6 16.8 11.8 10.0 5.8 12.6 11.1 多语种中间语 [Lakew et al. , 2019] 14.6 16.3 12.9 15.1 18.2 14.015.7 9.9 14.6 13.60多语种 [Johnson et al. , 2017] 11.4 12.5 10.1 12.1 15.6 10.7 7.2 5.2 10.6 9.2 师生模型 [Chen et al. , 2017] 16.0 17.9 14.1 16.0 19.1 15.1 16.4 11.015.7 13.6 单语适配器 [Philip et al. , 2020] 11.8 14.7 11.5 13.1 16.4 12.2 11.7 7.8 12.4 10.4 MTL [Wang et al. , 2020] 11.7 15.1 10.1 13.0 16.1 12.510.4 7.0 12.0 10.40UM4无中间语教师模型（我们的方法）16.6 18.5 14.2 16.3 19.9 15.4 17.1 11.3 16.2 14.70在并行和单语数据上训练（Bitext + MonoData）。0双语中间语 + BT [Cheng et al. , 2017] 15.0 17.0 12.3 16.0 18.6 13.9 14.6 9.0 14.6 13.8 多语种中间语 + BT [Lakew et al. , 2019] 16.2 17.4 12.8 15.819.4 14.2 16.7 10.4 15.4 14.10多语言+BT [Johnson et al.，2017] 13.6 16.3 12.3 14.9 16.1 12.7 12.1 8.6 13.3 11.3 教师-学生+BT [Chen et al.，2017] 16.6 19.0 13.8 16.5 20.0 15.016.8 10.9 16.1 14.3 单语适配器+BT [Philip et al.，2020] 13.8 13.8 11.6 15.6 11.7 13.7 13.4 9.6 12.9 10.8 MTL + BT [Wang et al.，2020] 12.8 16.611.5 13.9 17.0 13.0 14.2 8.7 13.5 11.70UM4（我们的方法）17.6 19.6 14.3 17.2 20.7 15.6 17.5 11.5 16.8 15.10表2：X →Y测试结果，包括9个语言对的双语和多语言模型在WMT基准测试上的结果，其中源-中间语料库相对于高资源中间-目标语料库是低资源的。Avg 8是列出的方向的平均结果，Avg < 28是在此设置下所有28个方向的平均BLEU分数。0源目标单语 Fr → De De → Ro Et → Ro 平均560� 21.3 17.0 14.5 12.3 � 21.4 16.2 15.2 13.0 � 22.5 17.2 15.4 12.70� � 22.4 17.5 15.8 13.4 � � 22.3 16.5 14.6 12.6 � � 21.7 17.5 15.6 13.30� � � 22.8 17.7 16.4 13.70表3：不同教师的消融研究。Avg56表示56个零资源翻译方向的平均BLEU分数。0其中T'是下采样语料库的大小。Tm =1/M是阈值，以避免对低资源对进行欠采样。在我们的工作中，使用了16个平行语料库和56（8×7）个蒸馏语料库进行训练。不同采样比例的结果列在图3中，这表明适当的下采样比例（10图4：不同beam大小的效果。我们绘制了不同beam大小下所有方向的平均BLEU分数曲线。0图5：在不同破坏概率的扰动实验中不同方法的比较。我们显示了所有56个零资源翻译方向的平均性能。0+v:mala2277获取更多论文0%5%10%15%20%Perturbation Ratio40%50%60%70%80%90%100%PerformanceMultilingualMultilingual PivotOur methodSZero-resource22.019.811.5-13.0Both22.820.712.323.113.7+v:mala2277获取更多论文0监督 11.7 16.1 9.6 22.8 8.7 零资源 22.0 19.8 11.5 - 13.0 两者 22.820.7 12.3 23.1 13.70#对 Fr → De Ro → De Tr → Cs 平均16 平均560表4：使用原始语料库（“Surpervised”）、蒸馏训练语料库（“Zero-resource”）和两者的组合（“Both”）训练的多语言学生模型的比较。0可能序列的样本空间我们采用公式8中的序列级知识蒸馏，并使用不同的样本空间（beam大小）设置来检验我们的方法，其中S表示beam大小。受指数搜索空间的限制，我们使用beam搜索策略，其中beam大小为S（S∈[1，4]）来指导学生模型。图4显示，当S =3或S =4时，多语言学生模型在零资源翻译任务上获得最佳性能。考虑到计算成本和模型性能，我们在我们的工作中将S =4设置为最佳值。0对输入错误的鲁棒性为了进一步测试不同方法的鲁棒性，我们在图5的测试集的源句子中添加不同比例的扰动。输入句子随机受到四种类型的扰动，包括（1）删除（删除单词），（2）掩码（用“[unk]”替换单词），（3）交换（交换单词），和（4）替换（用词汇表中的随机单词替换单词）。对于测试集，我们通过固定的破坏概率随机扰动源句子。给定图5中具有不同破坏概率的扰动输入句子，多语言模型[Johnson etal.，2017]（绿线）很容易受到噪声输入的影响，并且性能下降到最差。这表明多语言模型在训练时未见过的零资源方向的翻译性能不稳定。多语言基于中间语言的方法[Lakew etal.，2019]（红线）的性能也比我们的方法更一致地下降，这是由两次翻译过程引入的错误传播所致。结果表明，由多个教师指导的多语言学生表现更好，并避免了错误传播。0训练语言对的数量我们的学生模型是在原始平行语料库DB和由多个教师生成的蒸馏训练语料库DS上训练的，如公式3所述。我们的学生模型具有零资源翻译能力。0学生模型受益于共享的语义空间。在表4中，“Supervised”表示仅使用16个方向的原始语料库训练的多语言模型，“Zero-resource”表示仅使用56个方向的蒸馏语料库训练的学生多语言模型，“Both”表示我们的方法同时在原始语料库和蒸馏语料库上进行训练。我们的UM4模型在72个方向上联合训练，通过在不同语言之间传递知识获得了最佳性能。04 相关工作0零资源神经机器翻译（NMT）是一项具有挑战性的任务，因为源-目标平行语料库不可用。一种可行的解决方案是基于中间语言的NMT[Zhu等，2013; Firat等，2016;Cheng等，2017; Zheng等，2017;Currey和Hea�eld，2019]，其中将源语言翻译为中间语言，然后将中间语言翻译为目标语言。这种两步翻译过程既增加了复杂性，又可能遭受错误传播问题的困扰，因为源→中间模型产生的错误将被引入到中间→目标模型[Lakew等，2019]。最近的研究[Chen等，2017; Zheng等，2017;Currey和Hea�eld，2019]探索了使用可用的平行语料库和额外的单语语料库来改进零资源性能，但受到双语设置的限制。0多语言NMT多语言神经机器翻译（MNMT）[Firat等，2016;Johnson等，2017; Lakew等，2019; Tan等，2019;Garcia等，2020;Yang等，2021]提供了一种零资源翻译的替代方式，无需任何源-目标平行数据，但性能比基于中间语言的模型差。具有语言感知模块的多语言模型[Bapna和Firat，2019;Zhang等，2020;Philip等，2020]用于在训练时看不见的零资源方向上进行翻译。然而，多语言模型通常表现不如基于中间语言的模型，并且提供较差的零资源翻译。多语言预训练方法[Kim等，2019a]用于获取跨语言编码器，然后在伪数据上进行微调。受到之前的工作的启发[Chen等，2017;Zheng等，2017]，我们使用多语言多个教师来指导多语言源→目标学生，以增强零资源翻译。05 结论0在本文中，我们提出了一种名为UM4的新方法，用于改善零资源方向的翻译。我们的方法将源教师模型、目标教师模型和中间教师模型统一起来，以指导多语言源→目标学生模型，减轻了两步翻译引起的错误传播问题。在WMT基准测试的多语言数据集上的实验结果证实了我们的方法利用来自统一教师的蒸馏知识的有效性。0参考文献[Bapna和Firat，2019] Ankur Bapna和OrhanFirat。用于神经机器翻译的简单可扩展的自适应方法。在EMNLP 2019中，第1538-1548页，2019年。0[Bertoldi et al. , 2008] Nicola Bertoldi, MadalinaBarbaiani, Marcello Federico, and Roldano Cattoni.使用中间语言的基于短语的统计机器翻译。在IWSLT2008中，第143-149页，2008年。0[Chen等，2017] Yun Chen，Yang Liu，YongCheng和Victor O. K.Li。用于零资源神经机器翻译的教师-学生框架。在ACL2017中，第1925-1935页，2017年。0[Cheng et al., 2017] Yong Cheng，Qian Yang，YangLiu，Maosong Sun和WeiXu。基于桥接的神经机器翻译的联合训练。在IJCAI2017中，第3974-3980页，2017年。0[Currey and Hea�eld, 2019] Anna Currey和KennethHea�eld。使用单语桥接数据的零资源神经机器翻译。在EMNLP 2019中，第99-107页，2019年。0[Firat et al., 2016] Orhan Firat，Baskaran Sankaran，YaserAl-Onaizan，Fatos T. Yarman-Vural和KyunghyunCho。多语言神经机器翻译的零资源翻译。在EMNLP2016中，第268-277页，2016年。0[Garcia et al., 2020] Xavier Garcia，PierreForet，Thibault Sellam和Ankur P.Parikh。无监督机器翻译的多语言视角。在EMNLP2020中，第3160-3170页，2020年。0[Gheini et al., 2021] Mozhdeh Gheini，Xiang Ren和JonathanMay。交叉注意力就是你所需要的：为机器翻译调整预训练的Transformer。在EMNLP 2021中，第1754-1765页，2021年。0[Johnson et al., 2017] Melvin Johnson，MikeSchuster，Quoc V Le，Maxim Krikun，YonghuiWu，Zhifeng Chen，Nikhil Thorat，FernandaVi´egas，Martin Wattenberg，GregCorrado等。谷歌的多语言神经机器翻译系统：实现零-shot翻译。在TACL 2017中，第5页，2017年。0[Kim and Rush, 2016] Yoon Kim和Alexander M.Rush。序列级知识蒸馏。在EMNLP2016中，第1317-1327页，2016年。0[Kim et al., 2019a] Yunsu Kim，Petre Petrov，PavelPetrushkov，Shahram Khadivi和HermannNey。基于桥接的非英语语言神经机器翻译的迁移学习。在EMNLP 2019中，第866-876页，2019年。0[Kim et al., 2019b] Yunsu Kim，Petre Petrov，PavelPetrushkov，Shahram Khadivi和HermannNey。基于桥接的非英语语言神经机器翻译的迁移学习。在EMNLP 2019中，第866-876页，2019年。0[Kingma and Ba, 2014] Diederik P. Kingma和JimmyBa。Adam：一种用于随机优化的方法。CoRR，abs/1412.6980，2014年。0[Koehn et al., 2019] Philipp Koehn，FranciscoGuzm´an，Vishrav Chaudhary和Juan Pino。WMT2019共享任务关于低资源条件下平行语料库过滤的发现。在0[Lakew et al., 2019] Surafel Melaku Lakew，MarcelloFederico，Matteo Negri和MarcoTurchi。零资源语言的多语言神经机器翻译。CoRR，abs/190[Philip et al., 2020] Jerin Philip，AlexandreBerard，Matthias Gall´e和LaurentBesacier。用于零样本神经机器翻译的单语适配器。在EMNL0[Tan et al., 2019] Xu Tan，Yi Ren，Di He，Tao Qin，ZhouZhao和Tie-Yan Liu。具有知

下载后可阅读完整内容，剩余1页未读，立即下载