没有合适的资源?快使用搜索试试~ 我知道了~
UM4:零资源神经机器翻译的统一多语言多教师学生模型
………arXiv:2207.04900v1 [cs.CL] 11 Jul 2022+v:mala2277获取更多论文0UM4:零资源神经机器翻译的统一多语言多教师学生模型0Jian Yang 1 � ,Yuwei Yin 2 * ,Shuming Ma 2 ,Dongdong Zhang 2 ,Shuangzhi Wu 3 ,Hongcheng Guo 2,Zhoujun Li 1 † ,Furu Wei 201 软件开发环境国家重点实验室,北京航空航天大学 2 微软研究院 3腾讯云 Xiaowei { jiaya,lizj } @buaa.edu.cn,frostwu@tencent.com,{v-yuweiyin,shumma,dozhang,v-hongguo,fuwei }@microsoft.com0摘要0大多数语言之间的翻译任务属于零资源翻译问题,其中平行语料不可用。与两次中间语翻译相比,多语言神经机器翻译(MNMT)使用共享语义空间进行一次翻译,但通常性能不如基于中间语的方法。在本文中,我们提出了一种名为UM4的新方法,即统一多语言多教师学生模型用于零资源翻译。源教师、目标教师和中间语教师模型被统一起来指导学生模型进行零资源翻译。源教师和目标教师通过源侧和目标侧的蒸馏知识迫使学生学习直接的源→目标翻译。中间语教师模型进一步利用单语语料库增强学生模型。实验结果表明,我们的模型在WMT基准测试上的72个方向中明显优于先前的方法。01 引言0编码器-解码器框架[Vaswani等,2017;Gheini等,2021]在丰富资源的机器翻译任务上取得了出色的性能,例如英德、英法和中英[Koehn等,2019;Zhou等,2021;Johnson等,2017],其中有大规模平行语料可用。然而,在不存在平行训练数据的零资源翻译任务中,它无法直接建模。零资源机器翻译问题的一个直接解决方案是中间语翻译方法[Bertoldi等,2008; Wu和Wang,2009; Zahabi等,2013;Cheng等,2017]。基于双语中间语的模型执行两次翻译,这增加了计算成本,并且可能遭受错误传播问题[Zhu等,2013]。还有一些工作[Chen等,2017;0� 平等贡献。工作期间在微软实习。† 通讯作者。0多语言0学生中间语语料库蒸馏0编码器0解码器En-De0En-Cs0En-Fr...0De-Fr0Tr-Cs0De-Ro...0源教师0目标教师0单语教师0多个教师用于De-Ro0源教师0目标教师0单语教师0多个教师用于De-Fr0源教师0目标教师0单语教师0多个教师用于Tr-Cs0图1:UM4的框架。在原始中间语语料库上训练具有共享参数的统一多教师用于指导多语言学生模型。英语(En)是中间语。0Currey和Hea�eld,2019;Kim等,2019a]直接构建源→目标模型,但受到双语翻译任务的限制。除了基于中间语的方法外,通过在多个中间语语料库上训练具有共享参数的多语言模型利用语言符号推断所需的翻译方向[Firat等,2016; Johnson等,2017; Lakew等,2019;Currey和Hea�eld,2019]。多语言模型从不同的语言对中受益,并且只需要一步翻译,避免了错误传播并节省了推理时间。但是,这种方法的性能[Kim等,2019b]比基于中间语的模型差。在利用多语言模型解决零资源翻译问题的路线上,我们提出了一种名为UM4的新方法,即统一多语言多教师学生模型用于NMT。给定中间语和其他语言的可用语料库,我们直接构建源→目标学生翻译模型,由多语言多教师指导,如图1所示。多个教师模型可以分解为源教师模型、目标教师模型和中间语教师模型。源教师模型将知识从中间语传递到源语句。目标教师将中间语知识提炼到目标侧,并增强目标生成的能力。中间语教师模型通过挖掘单语中间语语料库的潜力进一步增强学生模型。使用统一教师的整体蒸馏语料库和标准化分数用于学生。具体而言,我们首先在𝒀𝑪𝒔𝒀𝑪𝒔𝑿𝑪𝒔𝑿𝑪𝒔𝑿𝒀𝒁𝒚(a)𝒁𝒙𝑬𝒏𝒁𝒙𝑬𝒏𝒀𝑪𝒔𝒀𝑪𝒔𝑿𝑪𝒔𝑿𝑪𝒔𝑿𝒀𝒁𝒙(b)𝒁𝒎𝒁𝒎𝒀𝑪𝒔𝒀𝑪𝒔𝒀𝒀𝒁𝒎(c)̸+N(1)LS =m=1Ex,y∈DSm [−wx,y log Pθ(y|x)](2)+v:mala2277获取更多论文0平行0平行0学生 � �� � �� �0图2:我们统一的多语言多教师-学生模型概述:(a)源教师模型,(b)目标教师模型,(c)中心教师模型。X、Y、Z分别表示源语言、目标语言和中心语言。虚线“- -”表示连接的语言对之间有真实的平行语料库可用,点线“ ∙ ∙”表示教师模型生成的蒸馏平行语料库可用。实线箭头表示翻译方向。我们的多个教师模型包括源教师模型、目标教师模型和中心教师模型,其中Z x和Z y分别表示与源语言X和目标语言Y相关联的平行语料库中的中心语言Z。源教师和目标教师分别从Z y和Z x传递知识。给定单语语料库Zm,中心教师模型通过向源语言和目标语言蒸馏知识进一步增强多语言学生模型。0将所有中心语语料库作为统一的多个教师共享所有模型参数。然后,我们使用多个教师模型构建所有零资源方向的蒸馏多语言语料库。蒸馏语料库中的标准化分数由统一的多个教师生成,用于指导源语言→目标语言的学生模型。我们在WMT基准测试的9种语言的多语言语料库上进行实验,共有72个翻译方向。实验结果表明,我们的方法可以显著优于多语言基线和基于中心语的方法。此外,我们通过扰动实验和多语言句子表示的可视化验证了我们方法的有效性。分析结果表明,我们的UM4学生模型具有更好的跨语言能力,增强了零资源翻译并避免了错误传播。02我们的方法在本节中,我们介绍了用于零资源机器翻译的统一多教师-学生模型。如图2所示,当直接平行数据不可用时,我们的方法同时使用多个教师模型训练多语言端到端翻译模型。02.1 UM4概述给定N种语言的双语语料库D B = {D B n} N n= 1,其中一侧是中心语言L z,另一侧是语言L n ∈ {L n} N n= 1,多语言模型在可用的中心语语料库DB上进行训练,以解决零资源翻译问题,即在零资源语言对Li和L j之间没有直接平行数据的情况下进行翻译(1 ≤ i,j ≤N且i ≠ j):0L D =0n = 1 E x,z x ∈ D Bn [ − log P θ (z x | x )]0n = 1 E y,z y ∈ D Bn [ − log P θ( y | z y )]0其中,x、z x表示双语语料库D B中的源语言句子和中心语句子。y、zy表示中心语和目标语句子。LD是多语言模型的综合目标。多语言模型在源-中心语上进行训练。0和具有共享参数的中心-目标语料库在语言符号之前添加以指示从语言L i到语言Lj的零资源翻译方向。对于零资源语言对,如果没有平行训练数据,多语言模型很容易翻译成错误的语言,导致翻译质量差。因此,我们引入了零资源语言对的合成多语言多个语料库DS = {D S m} M m = 1。0其中 x 和 y 分别表示蒸馏多语言语料库 D S中的源语言和目标语言句子。w x,y是来自多个教师的多语言训练样本的权重。我们的多语言学生模型在原始语料库 D B 和蒸馏语料库 D S上进行训练,这在零资源方向上改善了翻译质量:0L T = L D + L S (3) 其中 L T是我们多语言学生模型的总目标。L D 和 L S分别表示原始中间语言语料库 D B 和蒸馏语料库 D S的训练目标。02.2 多教师模型形式上,给定源语言-中间语言和目标语言-中间语言平行语料库0pus D B i = { x ( k ) , z ( k ) x } | D Bi | k =1 and D B j = { y( k ) , z ( k ) y } | D Bj | k =1 ,我们的目标是为零资源翻译任务构建一个源语言到目标语言的翻译模型 θ x → y 。 x 和 y 分别表示源语言和目标语言的句子,z x和 z y 分别表示来自源语言-中间语言语料库 D B i和中间语言-目标语言语料库 D B j 的中间语言句子。| D B i | 和 |D B j | 是语料库 D B i 和 D B j 的大小。θ表示模型参数。源教师模型如果目标句子 y 和中间语言句子 z y是来自数据集 D B j 的平行句子,则源教师模型 θ z y → x在源语言-中间语言语料库 D B i0L src S = − E y,z y ∈ D Bm � P ( x | z y ; θ z y → x ) log Pθ ( y | x ) � (4) 其中 P ( x | z y ; θ z y → x ) 是源教师模型 θ zy → x 生成的权重。LtgtS= −Ex,zx∈DBi [P(y|zx; θzx→x) log Pθ(y|x)](5)LpivotS= −Ezm∈DM [wx,y log Pθ(y|x)](6)LS = LsrcS+ LtgtS+ LpivotS(7)2http://phontron.com/data/ted talks.tar.gz+v:mala2277获取更多论文0目标教师模型如果源语言句子 x 和中间语言句子 z x是来自数据集 D B i 的平行句子,则目标教师模型 θ z x → y在中间语言-目标语言语料库 D B j上进行训练。目标教师学生训练目标可以描述为:0其中 P ( y | z x ; θ z x → y ) 是目标教师模型 θ z x → y生成的权重。中间语言教师模型给定单语中间语言语料库 DM ,中间语言教师用于指导学生模型。中间语言教师模型 θ zm → x ∪ θ z m → y 在中间语言语料库 D B i 和 D B j上进行训练。中间语言教师学生训练目标可以描述为:0其中 w x,y = P ( y | z m ; θ z m → y ) P ( x | z m ; θ z m→ x )是中间语言教师模型生成的权重。所有教师都基于可用语料库D B进行多语言训练,并且共享相同的语义空间。因此,统一教师由具有各自功能的不同教师组成。结合源教师模型、目标教师模型和中间语言教师模型,我们的教师-学生训练的训练目标可以描述为:0其中多个教师的参数在训练过程中保持不变。我们采用序列级知识蒸馏[Chen et al. ,2017]来将教师模型的知识蒸馏到学生模型中。具体来说,我们使用多个教师模型构建零资源语言对的蒸馏语料库 D S ={ D S 1 , . . . , D S M } ,并结合原始中间语言语料库 D B ={ D B 1 , . . . , D B N }训练学生模型。如图2所示,我们的方法可以同时利用源教师模型、目标教师模型和中间语言教师模型来指导源语言到目标语言的学生模型,从而得到一个更强大的学生模型。02.3 教师-学生转移本节将介绍多语言多教师-学生知识蒸馏的细节。由于源句子x和y的指数搜索空间的限制,我们采用波束搜索策略生成N个最佳翻译候选项,并将概率重新归一化,以使学生模型近似于教师模型的分布,如下所示:0w x,y = exp(w x,y/τ) / ΣS s=1 exp(w sx,y/τ) (8)0其中S是固定教师模型的波束大小。wsx,y是教师模型生成的第s个句子的概率。τ是温度。温度τ →0增加了对顶级选择的蒸馏句子的权重。我们01根据概率从教师模型生成的合成数据的采样是迫使学生模型近似教师模型的一种简单方法[Kim and Rush, 2016]。0设置τ <1.0以强制模型在训练时更多地关注最佳蒸馏句对。我们首先训练一个单一的多语言模型,将所有可用的中间语料库DB作为所有语言的多个教师模型,而不是训练不同的双语教师模型。0源-教师转移 对于源-教师模型,我们使用中间语言 →源语言模型将中间语料库DB的单语中间语句翻译成蒸馏的源语句。通过这种方式,我们得到了一个蒸馏语料库D src S。根据公式4,使用得分w x,y= P(x | z y ; θ z y → x)的蒸馏语料库D srcS来教导学生模型。0目标-教师转移我们采用波束搜索策略,将源-中间语言部分在源-中间语料库D B中翻译成目标语言句子。另一个蒸馏语料库D tgtS是通过得分w x,y = P(y | z x ; θ z x →y)进行知识转移而获得的。0中间语-教师转移给定额外的单语中间语料库,中间语句分别由中间语-教师模型翻译成蒸馏的源语句和目标语句。我们从单语语料库D M中获得得分w x,y = P(x | z m ; θ z m → x) P(y | z m ; θ z m→ y)的蒸馏语料库D pivotS。最终,使用多语言教师模型的参数固定,我们生成蒸馏知识并将其合并成一个完整的训练数据集D S = D src S ∪ Dtgt S ∪ D pivot S,用于训练多语言源语言 →目标语言学生模型。03 实验0我们在包括9种语言和56个零资源翻译方向的多语言数据集上评估我们的方法。英语是最流行的语言,与其他语言相比,在现实世界中有大量以英语为中心的数据。因此,在所有实验中,英语(En)被视为中间语言。03.1 数据集0所有实验都是在从之前的研究[Wang et al. ,2020]中提取的包括英语(En)、法语(Fr)、捷克语(Cs)、德语(De)、芬兰语(Fi)、爱沙尼亚语(Et)、罗马尼亚语(Ro)、印地语(Hi)和土耳其语(Tr)在内的9种语言的多语言数据集上进行的。0Bitext Data我们从WMT基准测试中每种语言的最新可用年份收集训练数据,并排除WikiTiles。我们删除了重复的样本,并通过从整个语料库中随机抽样将每种语言对的平行数据数量限制在1000万条。对于9种语言的72个翻译方向,我们使用与之前的研究相同的TED Talks的验证集和测试集进行评估。3http://data.statmt.org/news-crawl4BLEU+case.mixed+lang.{src}-{tgt}+numrefs.1+smooth.exp+tok.13a+version.1.3.15%12.5%50%100%Downsampling Ratio12.712.913.113.313.513.7BLEUOur method0单语数据 英语单语数据来自NewsCrawl3,随机抽样了100万个英语句子。我们使用多语言NMT模型将这些英语单语数据翻译成其他语言的句子,作为所有基线模型的反向翻译数据。我们的方法使用中间语-教师模型来指导源语言 → 目标语言学生模型的训练,使用单语数据。03.2 评估在推理过程中,使用束搜索策略生成目标句子,束大小为5。我们将长度惩罚设置为1.0。最后5个检查点的平均值用于评估。我们使用sacreBLEU 4报告大小写敏感的去标记化BLEU。03.3 基线我们的方法与基于中间语言和多语言的基线进行比较。双语基于中间语言[Cheng等,2017]通过使用在每对语言对上训练的两个单对NMT模型将源语言翻译为目标语言。多语言基于中间语言[Lakew等,2019]利用在所有可用方向上训练的单个多语言NMT模型进行中间语言翻译。多语言[Johnson等,2017]共享所有语言的相同词汇,并在源语句前添加语言符号以指示翻译方向。单语适配器[Philip等,2020]基于预训练的多语言模型,调整每种语言的适配器以实现零资源翻译。教师-学生[Chen等,2017]使用中间-目标翻译模型教授源-目标翻译模型。MTL[Wang等,2020]提出了一个多任务学习(MTL)框架,包括翻译任务和两个去噪任务。03.4 实现细节 所有实验都基于Transformer big架构[Vaswanietal.,2017]进行。编码器和解码器都包含6层,每层有16个头。词嵌入大小dmodel设置为1024,FFN(前馈网络)大小为4096。学习率设置为3e-4,在多语言数据集上进行4000次预热步骤。使用Adam [Kingma和Ba,2014]来更新参数。使用64个TeslaV100 GPU对4096个令牌的小批量大小的模型进行训练。03.5 实验结果在表1和表2中列出了针对基线的测试集的评估结果。在表1中,源-中间语料库相对于表中的低资源中间-目标语料库而言是高资源的,而在表2中,源-中间语料库相对于高资源的中间-目标语料库而言是低资源的。如表1所示,包括多语言基于中间语言和双语基于中间语言在内的基于中间语言的方法明显优于包括多语言在内的多语言方法。0图3:我们的方法在不同下采样比例下的整体平均BLEU得分。0MTL和单语适配器。但是基于中间语言的方法仍然存在错误传播和计算开销大的问题。相反,我们的UM4方法是一个统一的多语言源→目标模型,可以缓解这个问题。与强基线模型Teacher-Student相比,我们的模型在平均大于28的情况下实现了一致的改进,BLEU得分提高了≥0.6个点(在“Mono-Data”上提高了≥0.6个点)。这表明我们的学生模型通过多个教师的指导,在多种语言上学习了一个高质量的表示空间,以增强零资源翻译方向的能力。在给定单语中间语料库的情况下,我们的方法还通过从中间语言教师模型中提取的知识击败了基于中间语言和多语言的方法。在表2中,源-中间语料库的大小小于中间-目标语料库,因此源教师从更大的中间-目标语料库中转移更多的知识,以更多的精炼句子指导学生模型。我们的UM4方法还击败了所有先前的方法,在平均小于28的情况下获得了≥0.9个BLEU得分的提高(在“MonoData”上提高了≥0.5个点)。这证明了引入源教师模型的有效性和重要性。我们的UM4方法在没有单语数据的情况下(Avg>28=11.8和Avg<28=14.7)的表现甚至比所有基线模型的回译数据更好。03.6 不同教师的分析为了研究不同教师的影响,我们训练了7个学生模型,每个模型由源教师、目标教师和中间语言教师模型的所有可能组合进行指导。我们的方法同时结合多个教师来指导源-目标学生模型,从而提高性能。表3显示了由不同教师指导的消融结果。一致地,更多的教师可以带来更好的结果,这证明了我们提出的模型可以全面利用不同教师的优势。给定中间语言和其他N种语言的多语种中间语言语料库,使用N(N-1)个零资源方向的蒸馏训练集来指导多语种学生模型。语料库的总体规模包含TN(N-1)个句对,其中T是蒸馏语料库的平均大小。为了将复杂度从O(TN^2)降低到O(TN),我们采用了一种降采样策略。0N降采样比率如下所示:0T' = max { Tm, Tm + (T - Tm)/N } (9)0+v:mala2277获取更多论文X (High)Y (Low)Fr→FiCs→FiCs→RoCs→HiDe→EtFi→EtFi→RoFi→TrAvg8Avg>28X (Low)Y (High)Fi→DeEt→DeEt→FiRo→CsRo→DeRo→EtTr→FrTr→EtAvg8Avg<281234Sample Space12.312.412.512.612.712.812.9BLEUOur method0使用平行数据进行训练(双语对齐数据)。0双语中间语言 [Cheng等,2017] 13.5 13.4 15.2 2.6 13.4 12.7 13.1 3.2 10.9 9.5 多语种中间语言 [Lakew等,2019] 12.5 11.9 16.1 6.9 14.8 13.3 14.0 5.311.9 11.20多语种 [Johnson等,2017] 3.8 10.2 12.6 5.1 12.5 12.0 10.7 4.0 8.9 8.1 师生模型 [Chen等,2017] 13.0 13.6 16.4 7.1 15.6 14.6 14.6 5.0 12.5 10.9单语适配器 [Philip等,2020] 8.2 10.7 14.3 5.9 12.1 12.6 12.4 4.8 10.1 9.2 MTL [Wang等,2020] 6.0 9.0 13.0 6.0 14.3 12.0 11.7 4.6 9.6 8.90UM4无中间语言教师模型(我们的方法)13.8 13.9 16.8 7.3 16.3 14.9 15.1 5.4 12.9 11.80使用平行和单语数据进行训练(双语对齐数据+单语数据)。0双语中间语言 + BT [Cheng等,2017] 13.9 13.4 16.3 6.9 15.3 13.7 13.6 4.8 12.2 11.0 多语种中间语言 + BT [Lakew等,2019] 13.5 12.6 16.0 6.7 14.813.3 14.0 5.6 12.1 11.20多语种 + BT [Johnson等,2017] 7.5 10.2 14.4 5.7 12.5 12.9 10.7 5.3 9.9 9.4 师生模型 + BT [Chen等,2017] 13.6 13.0 16.6 6.8 15.2 14.8 15.2 5.512.6 11.6 单语适配器 + BT [Philip等,2020] 10.8 7.6 15.1 5.0 15.4 14.1 14.1 5.4 10.9 10.0 MTL + BT [Wang等,2020] 10.6 9.0 13.5 5.4 12.7 12.812.8 5.2 10.3 8.00UM4(我们的方法)14.1 14.1 17.1 7.4 16.2 15.0 15.8 5.9 13.2 12.40表1:在WMT基准测试中,对9个语言对的双语和多语种模型进行X →Y测试,其中源-中间语言语料库相对于低资源的中间语言-目标语料库是高资源的。Avg 8是列出的方向的平均结果,Avg >28是在此设置下所有28个方向的平均BLEU分数。0使用平行数据进行训练(双语对齐数据)。0双语中间语言 [Cheng等,2017] 15.5 15.3 11.0 14.6 16.8 11.8 10.0 5.8 12.6 11.1 多语种中间语言 [Lakew等,2019] 14.6 16.3 12.9 15.1 18.2 14.0 15.79.9 14.6 13.60多语种 [Johnson等,2017] 11.4 12.5 10.1 12.1 15.6 10.7 7.2 5.2 10.6 9.2 师生模型 [Chen等,2017] 16.0 17.9 14.1 16.0 19.1 15.1 16.4 11.0 15.7 13.6单语适配器 [Philip等,2020] 11.8 14.7 11.5 13.1 16.4 12.2 11.7 7.8 12.4 10.4 MTL [Wang等,2020] 11.7 15.1 10.1 13.0 16.1 12.5 10.4 7.0 12.0 10.40UM4无中间语言教师模型(我们的方法)16.6 18.5 14.2 16.3 19.9 15.4 17.1 11.3 16.2 14.70使用平行和单语数据进行训练(双语对齐数据+单语数据)。0双语中间语言 + BT [Cheng等,2017] 15.0 17.0 12.3 16.0 18.6 13.9 14.6 9.0 14.6 13.8 多语种中间语言 + BT [Lakew等,2019] 16.2 17.4 12.8 15.8 19.414.2 16.7 10.4 15.4 14.10多语言+BT [Johnson et al.,2017] 13.6 16.3 12.3 14.9 16.1 12.7 12.1 8.6 13.3 11.3 教师-学生+BT [Chen et al.,2017] 16.6 19.0 13.8 16.5 20.0 15.016.8 10.9 16.1 14.3 单语适配器+BT [Philip et al.,2020] 13.8 13.8 11.6 15.6 11.7 13.7 13.4 9.6 12.9 10.8 MTL + BT [Wang et al.,2020] 12.8 16.611.5 13.9 17.0 13.0 14.2 8.7 13.5 11.70UM4(我们的方法)17.6 19.6 14.3 17.2 20.7 15.6 17.5 11.5 16.8 15.10表2:X →Y测试结果,包括9个语言对的双语和多语言模型在WMT基准测试上的结果,其中源-中间语料库相对于高资源中间-目标语料库是低资源的。Avg 8是所列方向的平均结果,Avg < 28是在此设置下所有28个方向的平均BLEU点。0源目标单语 Fr → De De → Ro Et → Ro 平均 560� 21.3 17.0 14.5 12.3 � 21.4 16.2 15.2 13.0 � 22.5 17.2 15.4 12.70� � 22.4 17.5 15.8 13.4 � � 22.3 16.5 14.6 12.6 � � 21.7 17.5 15.6 13.30� � � 22.8 17.7 16.4 13.70表3:不同教师的消融研究。Avg56表示56个零资源翻译方向的平均BLEU点。0其中T'是下采样语料库的大小。Tm =1/M是避免对低资源对进行欠采样的阈值。在我们的工作中,使用了16个平行语料库和56(8×7)个蒸馏语料库进行训练。不同采样比例的结果列在图3中,这表明适当的下采样比例(10图4:不同beam大小的效果。我们绘制了具有不同beam大小的所有方向的平均BLEU点的曲线。0图5:在不同破坏概率的扰动实验中不同方法的比较。我们显示了所有56个零资源翻译方向的平均性能。0+v:mala2277获取更多论文0%5%10%15%20%Perturbation Ratio40%50%60%70%80%90%100%PerformanceMultilingualMultilingual PivotOur methodSZero-resource22.019.811.5-13.0Both22.820.712.323.113.7+v:mala2277获取更多论文0监督 11.7 16.1 9.6 22.8 8.7 零资源 22.0 19.8 11.5 - 13.0 两者 22.820.7 12.3 23.1 13.70#对 Fr → De Ro → De Tr → Cs 平均 16 平均 560表4:使用原始语料库(“Surpervised”)、蒸馏训练语料库(“Zero-resource”)和两者的组合(“Both”)训练的多语言学生模型的比较。0可能序列的样本空间我们采用公式8中的序列级知识蒸馏,并检查我们的方法在不同的样本空间(beam大小)设置下的表现,其中S表示beam大小。受指数搜索空间的限制,我们使用S(S∈[1,4])的beam搜索策略来指导学生模型。图4显示,当S = 3或S =4时,多语言学生模型在零资源翻译任务中获得最佳性能。考虑到计算成本和模型性能,我们在我们的工作中将S =4设置为最佳值。0对输入错误的鲁棒性为了进一步测试不同方法的鲁棒性,我们在图5的测试集的源句子中添加了不同比例的扰动。输入句子随机受到四种扰动的破坏,包括(1)删除(删除单词),(2)掩盖(用“[unk]”替换单词),(3)交换(交换单词),和(4)替换(用词汇表中的随机单词替换单词)。对于测试集,我们通过固定的破坏概率随机扰动源句子。给定图5中具有不同破坏概率的扰动输入句子,多语言模型[Johnson etal.,2017](绿线)很容易受到嘈杂输入的影响,并且性能下降到最差。这表明多语言模型在训练时未见的零资源方向的翻译性能不稳定。多语言基于中间语言的方法[Lakew etal.,2019](红线)的性能也比我们的方法更一致地下降,这是由两次翻译过程引入的错误传播所致。结果表明,由多个教师指导的多语言学生表现更好,并避免了错误传播。0训练语言对的数量我们的学生模型是在原始平行语料库DB和由多个教师生成的蒸馏训练语料库DS上训练的,如公式3所述。我们的学生模型具有零资源翻译能力。0学生模型从共享的语义空间中受益。在表4中,“Supervised”表示仅使用16个方向的原始语料库训练的多语言模型,“Zero-resource”表示仅使用56个方向的蒸馏语料库训练的学生多语言模型,“Both”表示我们的方法同时在原始语料库和蒸馏语料库上进行训练。我们的UM4模型在72个方向上联合训练,通过在不同语言之间传递知识获得了最佳性能。04 相关工作0零资源NMT零资源神经机器翻译(NMT)是一项具有挑战性的任务,因为源-目标平行语料库不可用。一种可行的解决方案是基于中间语言的NMT[Zhu等,2013; Firat等,2016;Cheng等,2017; Zheng等,2017;Currey和Hea�eld,2019],其中源语言被翻译为中间语言,然后将中间语言翻译为目标语言。这种两步翻译过程既增加了复杂性,又可能受到错误传播问题的影响,因为源→中间模型产生的错误将被引入到中间→目标模型[Lakew等,2019]。最近的研究[Chen等,2017; Zheng等,2017;Currey和Hea�eld,2019]探索了使用可用的平行语料库和额外的单语语料库来改进零资源性能,但受到双语设置的限制。0多语言NMT 多语言神经机器翻译(MNMT)[Firat等,2016;Johnson等,2017; Lakew等,2019; Tan等,2019;Garcia等,2020;Yang等,2021]提供了一种零资源翻译的替代方式,没有任何源-目标平行数据,但性能比基于中间语言的模型差。具有语言感知模块的多语言模型[Bapna和Firat,2019;Zhang等,2020;Philip等,2020]用于在训练时看不见的零资源方向上进行翻译。然而,多语言模型通常表现不如基于中间语言的模型,并且提供较差的零资源翻译。多语言预训练方法[Kim等,2019a]用于获得跨语言编码器,然后在伪数据上进行微调。受到以前的工作的启发[Chen等,2017;Zheng等,2017],我们采用多语言多教师来指导多语言源→目标学生以增强零资源翻译。05 结论0在本文中,我们提出了一种名为UM4的新方法,用于改善零资源方向的翻译。我们的方法将源教师模型、目标教师模型和中间教师模型统一起来,以指导多语言源→目标学生模型,减轻了两步翻译引起的错误传播问题。在WMT基准测试的多语言数据集上的实验结果证实了我们的方法利用来自统一教师的蒸馏知识的有效性。0参考文献[Bapna和Firat,2019] Ankur Bapna和OrhanFirat. 神经机器翻译的简单可扩展适应方法。在EMNLP2019中,第1538-1548页,2019年。0[Bertoldi et al. , 2008] Nicola Bertoldi, MadalinaBarbaiani, Marcello Federico, and Roldano Cattoni.基于短语的统计机器翻译与中间语言. 在IWSLT2008中,第143-149页,2008年。0[Chen等,2017] Yun Chen,Yang Liu,YongCheng和Victor O. K. Li.用于零资源神经机器翻译的教师-学生框架。在ACL2017中,第1925-1935页,2017年。0[Cheng et al. , 2017] Yong Cheng,Qian Yang,YangLiu,Maosong Sun和WeiXu。基于桥接的神经机器翻译的联合训练。在IJCAI2017中,第3974-3980页,2017年。0[Currey and Hea�eld, 2019] Anna Currey和KennethHea�eld。使用单语桥接数据的零资源神经机器翻译。在EMNLP 2019中,第99-107页,2019年。0[Firat et al. , 2016] Orhan Firat,Baskaran Sankaran,YaserAl-Onaizan,Fatos T. Yarman-Vural和KyunghyunCho。多语言神经机器翻译的零资源翻译。在EMNLP2016中,第268-277页,2016年。0[Garcia et al. , 2020] Xavier Garcia,PierreForet,Thibault Sellam和Ankur P.Parikh。无监督机器翻译的多语言视角。在EMNLP2020中,第3160-3170页,2020年。0[Gheini et al. , 2021] Mozhdeh Gheini,XiangRen和JonathanMay。交叉注意力就是你所需要的:为机器翻译调整预训练的Transformer。在EMNLP 2021中,第1754-1765页,2021年。0[Johnson et al. , 2017] Melvin Johnson,MikeSchuster,Quoc V Le,Maxim Krikun,YonghuiWu,Zhifeng Chen,Nikhil Thorat,FernandaVi´egas,Martin Wattenberg,GregCorrado等。Google的多语言神经机器翻译系统:实现零-shot翻译。在TACL 2017中,第5页,2017年。0[Kim and Rush, 2016] Yoon Kim和Alexander M.Rush。序列级知识蒸馏。在EMNLP2016中,第1317-1327页,2016年。0[Kim et al. , 2019a] Yunsu Kim,Petre Petrov,PavelPetrushkov,Shahram Khadivi和HermannNey。基于桥接的非英语语言神经机器翻译的迁移学习。在EMNLP 2019中,第866-876页,2019年。0[Kim et al. , 2019b] Yunsu Kim,Petre Petrov,PavelPetrushkov,Shahram Khadivi和HermannNey。基于桥接的非英语语言神经机器翻译的迁移学习。在EMNLP 2019中,第866-876页,2019年。0[Kingma and Ba, 2014] Diederik P. Kingma和JimmyBa。Adam:一种随机优化方法。CoRR,abs/1412.6980,2014年。0[Koehn et al. , 2019] Philipp Koehn,FranciscoGuzm´an,Vishrav Chaudhary和Juan Pino。WMT2019共享任务关于低资源条件下平行语料库过滤的发现。在0[Lakew et al. , 2019] Surafel Melaku Lakew,MarcelloFederico,Matteo Negri和MarcoTurchi。零资源语言的多语言神经机器翻译。CoRR,abs/190[Philip et al. , 2020] Jerin Philip,AlexandreBerard,Matthias Gall´e和LaurentBesacier。用于零资源神经机器翻译的单语适配器。在EMNL0[Tan et al. , 2019] Xu Tan,Yi Ren,Di He,Tao Qin,ZhouZhao和Tie-Yan Liu。使用知识蒸馏的多语言神经机器翻译。在ICLR2019中,2019年。0[Vaswani et al. , 2017] Ashish Vaswani,Noam Shazeer,NikiParmar,Jakob Uszkoreit,Llion Jones,Aidan N. Gomez,LukaszKaiser和Illia Polosukhin。注意力就是你所需要的。在NIPS2017中,第6000-60
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功