CeMAT:预训练双向解码神经机器翻译模型的性能增益

168 浏览量更新于2023-12-01 收藏 632KB PDF 举报

神经机器翻译

预训练模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文⇐⇒→·神经机器翻译李鹏飞1李良友1张萌1吴明浩2刘群11华为诺亚{李鹏飞111，李良友，张梦92，刘群}@ huawei.comminghao. monash.edu摘要预先训练的序列到序列模型显著改善了神经机器翻译（NMT）。与现有的预训练模型通常采用单向解码器的工作不同，本文证明了预训练序列到序列模型，但具有双向解码器，可以产生显着的性能增益的自回归和非自回归NMT。具体来说，我们提出了CeMAT，这是一种在许多语言的大规模双语和单语语料库上预训练的条件掩蔽语言模型。1本文还介绍了两种简单有效的CeMAT增强方法：对齐码转换掩蔽和动态双掩蔽。我们进行了广泛的实验，并表明我们的CeMAT可以实现从低到极高资源语言的所有场景的显着性能改进，即，低资源时最高可达+14.4 BLEU，自回归NMT平均可达+7.9 BLEU。对于非自回归NMT，我们证明了它也可以产生一致的性能增益，即，最高+5.3 BLEU据我们所知，这是第一个预训练统一模型的工作，用于对两个NMT任务进行微调。1介绍预先训练的语言模型已被广泛用于NLP任务（Devlinetal.，2019;RadfordandNarasimhan ， 2018 ）。例如， XLM （ Con-neauand Lample，2019）证明了跨语言预训练在改进神经机器翻译（NMT）方面是有效的，特别是在低资源语言上。这些方法都是直接对双向编码器或单向解码器进行预训练.NMT模型中的编码器和解码器1代码，数据，和预训练模型是可访问https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CeMAT进近Enc. 12月，莫诺。段落mBERT（Devlin et al. ，2019年）··XLM（Conneau和Lample，2019）···MASS（Song et al. ，2019）·→·mBART（Liu et al. ，2020）·→·mRASP（Lin et al. ，2020）·→·CeMAT（Ours）·我们的··表1：现有机器翻译预训练模型的比较和总结。Enc：编码器; Dec：解码器; Mono：单语; Para：双语。 ““表示对应的模型已预先训练或使用对应的数据。 “ ” denotes the de- coder of model isunidirectional, “然后用它们独立地初始化并微调（Guo etal. ，2020; Zhu等人，2020）。最近，预训练标准序列到序列（Seq2Seq）模型已经显示出显著的改进，并且成为NMT任务的流行范例（Song et al. ，2019; Liu et al. ，2020; Lin等人，2020）。然而，XLM的一些实验结果（Conneau和Lample，2019）表明，由预训练的双向掩码语言模型（ MLM ）初始化的解码器模块（Devlinet al. ，2019年），而不是单向因果语言模型（CLM，Radford和Narasimhan，2018年），将在自动回归NMT（AT）上取得更好的结果。特别是，与随机初始化相比，由GPT初始化（Radford和Narasimhan，2018）有时可能会导致性能下降。我们推测，当对生成任务进行微调时（例如，NMT），预训练模型的表示能力可能比生成能力更需要因此，在预训练过程中，我们不仅要受此启发，我们提出了CeMAT，一个多语言的条件掩码语言prE。arXiv：2203.09210v3[cs.CL] 2022年6+v：mala2277获取更多论文编码器双向解码器杜Wer→[en]谁是你[de][面具]bist[面具]段单声道。编码器前馈自注意双向解码器前馈交叉注意自注意自回归NMT编码器解码器[en]谁是你[de]Werbist杜蒙面段单声道。原始段单声道。对齐语码转换掩蔽动态双屏蔽非自回归NMT预训练微调图1：CeMAT的框架，由一个编码器和一个双向解码器组成。“在预训练期间（左），许多语言中的原始单语和双语输入被增强（单词被替换为具有相同语义或“[mask]”的新词最后，我们分别在源端和目标端预测所有的对于微调（右），CeMAT为AT和NAT提供统一的初始参数集机器翻译的训练模型，它包括一个双向编码器，一个双向解码器，和一个用于桥接它们的交叉注意模块。具体地说，该模型是由MLM在编码器和条件MLM（CMLM）的解码器与大规模的单语言和双语文本在许多语言的联合表1比较了我们的模型与以前的作品。CeMAT不仅可以为AT任务提供统一的初始化参数，而且可以直接为非自回归NMT（NAT）提供统一的初始化参数。NAT以其并行解码的特点，大大降低了翻译延迟，受到越来越多的关注。为了更好地训练模型的表示能力，分两步应用掩蔽操作。首先，随机选取与目标词对齐的源词，然后用其他语言中意义相近的新词替换，并对目标词进行屏蔽。我们称这种方法为对齐语码转换掩蔽。然后，源语言和目标语言中的剩余单词将被动态双掩蔽掩蔽。下游AT和NAT任务的广泛实验显示出显着的收益比以前的作品。具体来说，在低资源条件下（1M bitext对），我们的系统比基线增加了+14.4 BLEU点。<即使是极高的-资源设置（>25M），CeMAT仍然实现了显着的改进。此外，在WMT 16罗马尼亚英语任务上的实验表明，我们的系统可以通过反向翻译（BT; Sen-nrich et al. ，2016 a）。我们工作的主要贡献可以概括如下：• 我们提出了一个多语种的预训练模型CeMAT，它包括一个双向编码器，一个双向解码器。该模型在单语和双语语料库上进行预训练，然后用于初始化下游AT和NAT任务。据我们所知，这是第一个预训练适合AT和NAT的统一模型的工作• 我们引入了两步掩蔽策略，以增强双向解码器设置下的模型训练。基于多语言翻译词典和源语与目标语句子之间的词对齐，首先应用对齐的语码转换掩蔽然后，使用动态双掩蔽• 我们进行了广泛的实验，在AT和NAT的任务与不同大小的数据与强大的竞争对手相比，CeMAT的持续改进垫猫Gras坦岑对垫Werbist杜<联系我们[en]我们 danse [面具]的草[de]Wir[面具]aufdem[面具][en]克敌坐对的[面具][en]我们舞蹈对的草[en][面具]坐对的[面具][en]猫坐对的垫[de]Wir坦岑aufdemGras[en]猫坐对的垫+v：mala2277获取更多论文M∈--MnMnnMnKMnKnnnJ我的天[en]我们 danse对的草[de]Wir[面具]aufdemGras[en]我们 danse [面具]的草[de]Wir[面具]aufdem[面具]DM图2：我们的两步掩蔽的细节。我们首先获得对齐对集合Λ ={（“dance”，“tanzen”），.}通过查找跨语言词典（标记为1. Aligned）从原始输入中选择一个子集（标记为− −·），然后从图的左下角随机选择一个子集（标记为红色的“dance”−−·“tanzen”）。对于子集中的每个元素，我们通过Fm（xi）选择一个新词，并执行CSR以分别替换源片段（最后，我们执行DM过程，分别屏蔽源和目标的内容（2预培训方法我们的CeMAT分别在源端和目标端由MLM和CMLM联合训练总体框架如图1所示。在本节中，我们首先介绍多语言CMLM任务（第2.1节）。然后，我们描述了两步掩蔽，包括对齐代码切换掩蔽（第2.2节）和动态双掩蔽（第2.3节）。最后，我们提出了CeMAT的培训目标（第2.4节）。形式上，我们的训练数据由M个语言对D=D1，D2，...，D M. Dk（m，n）是语言Lm和语言Ln中的句子对的集合。在下面的描述中，我们将句子对表示为（Xm，Yn）Dk（m，n），其中Xm是语言Lm中的源文本，并且Yn是语言Ln中的对应目标文本。对于单语语料，我们通过复制句子来生成伪双语文本，即Xm=Yn。虽然双语句子对可以直接用于与传统CMLM一起训练模型（Ghazvininejad et al. ，2019），由于源和目标句子相同，因此从单语言语料库创建的句子对因此，我们引入了一个两步掩蔽策略来增强双语和单语语料库上的模型训练。2.2对齐码转换掩蔽我们使用对齐码转换掩蔽策略，用另一种语言的新词替换源词或短语，然后掩蔽相应的目标词。不同于以往的语码转换方法（Yang etal. ，2020; Lin等人，2020），其中源词总是被随机选择并直接替换，我们的方法包括三个步骤：1. 对齐：我们利用多语言翻译词典来获得一组对齐的单词2.1条件掩码语言模型CMLM预测掩码标记y_mask，给定源句子X_m和剩余目标句子sen，Λ=，（xi，y），在源X m和目标Y n之间。词对（xi，yj）表示Xm中的第i个词和第j个词在Y 是彼此的翻译。对于森-JNtenseY\y面具每个y∈y掩模独立计算：P（y j|X m，Y n\y掩模）。（一）对齐的词对中的词是相同的。n n2. 代码转换替换（CSR）：给定一个CMLM可以直接用于训练标准Seq 2Seq模型与双向编码器，一个uni-对齐词对（xi，yj）∈Λ，我们首先se-在语言Lk中选择一个新单词xi，它可以方向解码器和交叉注意How-ki由于屏蔽字之间的独立性，它不限于解码器侧的自回归因此，在NAT的实践之后，我们使用CMLM来预训练具有双向解码器的Seq2Seq模型，如图1所示。用于替换源句中的xmXm，xi=Fm（xi）其中，Fm（x）是语言Lm中的单词x的多语言字典查找函数，CSRCSM1.Aligned2. 中文（简体）舞蹈DM从单语语料库创建的时态对西班牙语：danza德语：tanzen法语：danse…[en]我们舞蹈对的草[de]Wir坦岑aufdemGras+v：mala2277获取更多论文MKΣnΣΣM≥nnMn=nnm mn字典，这是一个翻译的xi语言Lk.在遵循预先训练的语言模型的做法，10%的用于掩蔽的选定单词仍然是未被掩蔽的。3. 代码转换掩蔽（CSM）：如果对齐对（xi，yj）中的源单词xi被xi替换，我们也通过用通用掩码标记替换它来掩蔽Y中的yj然后，CeMAT将被训练以在双向解码器的输出层中预测它。对于对齐和CSR，我们仅使用由MUSE提供的可用的多语言翻译词典（ Lample et al. ，2018）。图2显示了对齐代码切换掩蔽的过程。根据给定的字典，改变，10%替换为随机令牌。被对齐的语码转换掩蔽所替代的词将不会被选择，以防止跨语言信息的丢失。我们使用（DM（CSR（Xm）），DM（CSM（Yn）表示动态双掩蔽后的新句子对，用于预训练。2.4多语种预培训目标我们联合训练MLM和CMLM任务的编码器和解码器鉴于句子对对齐，然后选择一个新的法语单词（Xm，Y=n）=（DM（CSR（Xm））、DM（CSM（Yn）））”在训练期间，句子中最多15%的单词将由CSR和CSM执行为根据掩蔽的语料库D，最终训练目标被公式化如下：单语数据，我们将此比例设为30%。我们使用L=−（X<$m，Y<$n）∈D<$λyj∈y掩码logP（yj|Xm，Yn）(CSR(Xm），CSM（Yn））表示对齐代码后的新句子对+（1 −λ）xi∈x掩码logP（xi|Xˆm)切换掩蔽，其将进一步随机地动态双掩蔽2.3动态双掩蔽受词典的限制，对齐词对的比例事实上，在双语语料库中，我们平均只能匹配6%的标记对。为了进一步提高训练效率，我们对双语和单语数据进行动态双掩蔽• 双语数据：我们首先从[0. 2，0。5]，然后随机选择一个目标词的子集同样，我们选择源文本的一个子集，并在[0]的范围内使用µ的比率对其进行掩码。1，0。2]。图2显示了双语数据上的动态双掩蔽的我们设置µ以强制双向解码器从编码器获取更多信息。• 单语数据：由于源和目标在掩蔽之前是相同的，因此我们采样M m（二更）其中y_mask是掩码目标词的集合，x_mask是掩码源词的集合，并且λ是用于平衡两个任务的影响的超参数在我们的实验中，我们设置λ = 0。第七章3培训前设置预训练数据我们使用以英语为中心的多语种平行语料库PC 322，然后从公共爬行3收集21种语言的单语语料库。在本文中，我们使用ISO语言代码4来识别每种语言。一个这种类型的标记有助于模型区分不同语言的句子。我们的培训前语料库的详细通信和摘要可以在附录A中看到。数据预处理我们直接学习一个共享的BPE（Sennrich et al. ，2016b）在标记化之后对整个数据集建模。我们将 Moses 应用于 -kenization（Sennrich et al. ，2016 b）对于大多数语言和其他语言，我们使用KyTea5从一个范围[0. 三，零。4]并在两侧屏蔽相同的单词这将避免解码器直接从源复制令牌。2https://github.com/linzehui/mRASP3https://commoncrawl.org/4https://www.loc.gov/standards/iso639-2/php/code_list.php5http://www.phontron.com/kytea/+v：mala2277获取更多论文nnn−−→→↔Σ Σt 1M和10M）、高资源（>10M和25M）和极高资源（>25M）。<<<更多详情请参见附录B配置对于极高资源的En Fr，En De（WMT19），我们采用0.1的丢弃率;对于所有其他语言对，我们将值设置为0.3。我们对AT进行了微调，最大学习率为5e4，预热步长为4000，标签平滑度为0.2。对于推理，我们使用波束搜索，波束大小为5，用于所有transla- tion方向。为了与以前的作品进行公平的比较，所有结果都报告了区分大小写和标记化的BLEU分数。4.3结果和分析主要结果我们在8个流行的语言对上微调了由CeMAT 初始化的 AT 系统，这些语言对是mBART实验中的重叠语言对（ Liu et al. ，2020）和mRASP（Lin et al. ，2020）。表2显示了结果。与直接训练AT模型相比，我们的系统以CeMAT作为初始化，在所有四种情况下都得到了显着的改进我们在低资源场景下的四个任务中的三个任务上观察到En Tr.不失一般性，随着数据集规模的增加，预训练的好处+v：mala2277获取更多论文→→↔→→↔→→ → →→nΣΣn模型变得越来越小。然而，当数据大小足够大时，我们仍然可以获得显著的收益（极高资源：>25M），即对于En De和En Fr分别为+8.3和+2.3BLEU。这一显著的改进表明，我们的模型可以进一步增强极高资源的翻译。总体而言，我们在大多数方向上获得了超过+8.0BLEU的性能增益，最终观察到所有语言对的平均值为+7.9 BLEU我们进一步比较了我们的CeMAT与mBART（Liu et al. ，2020）和mRASP（Lin et al. ，2020），这是目前SOTA的两种预训练方法。如表2所示，CeMAT在所有语言对上的表现都优于mBART，并且有很大的优势（平均+3.8BLEU），对于极高的资源，当mBART损害性能时，我们可以获得显著的改进。与mRASP相比，我们在总共13个翻译方向中的11个方向上实现了更好的性能，并在所有方向上以+1.2BLEU的平均改进超过了这个强大的竞争对手与现有预训练模型的比较我们进一步将CeMAT与现有的结果示于表3 中。我们的CeMAT平均在这些语言对上获得了有竞争力的结果，并在En→Ro上实现了最佳性能。我们的模型也优于BT（Sennrich et al. ，2016a），这是一种通用且稳定的方法，可以用单语数据来增强双语。此外，当在Ro En上将反向翻译与我们的CeMAT相结合时，我们获得了从36.8到39.0 BLEU的显着改善，如表3所示。这表明我们的方法是对BT的补充。对齐语码转换和掩蔽的有效性我们研究了对齐语码转换掩蔽的有效性，如表4所示。我们发现，利用对齐的语码转换掩蔽可以帮助CeMAT提高性能。在预训练阶段，我们使用动态策略分别对编码器和解码器进行双掩蔽。我们验证了这种动态掩蔽策略的有效性。如表4和附录C所示，当我们将掩蔽比率从静态值调整为动态随机选择值时，我们实现了从+0.4到+4.5 BLEU的裕度的显著增益所有语言对的平均改善为+2.1BLEU。这表明了动态掩蔽的重要性。Lang-Pairs En De En Ro Ro En RoEn Size 4.5M 597K597K（+BT）直接29.3 34.3 34.0 36.8mBART-37.7 37.8 38.8mRASP质量28.9XLM 28.8mBERT 28.6表3：与WMT14 En De，WMT16 En Ro上最近的多语言预训练模型的比较。我们在所有三个方向上都达到了可比较的结果。当结合反向翻译时，我们进一步在Ro→En上获得+2.2 BLEU增益。5非自回归神经机器翻译在本节中，我们将验证CeMAT在NAT上的性能，NAT在广泛使用的翻译任务上并行生成5.1微调目标如图1所示，NAT也采用Seq2Seq框架，但由编码器和双向解码器组成，可用于并行预测目标序列。NAT的培训目标如下：|Yn|L（θ）=−log P（y t|X m;θ）所有不同场景的平均增益为+0.5 BLEU，即使我们只能匹配（Xm，Yn）∈D（m，n）t=1（四）在双语语料库中，平均有6%的词对对齐我们认为，如果我们采用更复杂的词对齐方法，该方法可以得到更显着的改善。在这项工作中，我们遵循Ghazvininejad等人。（2019），它随机抽取一些标记y掩码，用于从目标句子中进行掩蔽，并通过预测给定的源句子来+v：mala2277获取更多论文J掩模↔↔↔→→→Lang-Pairs方向En-Kk→ ←En-Tr→ ←恩-埃→ ←En-Fi→ ←恩律→ ←AvgCeMAT8.812.923.923.622.228.525.428.722.024.322.0.无对准CS掩蔽8.012.323.623.122.128.024.828.121.424.121.5.无对齐CS掩蔽动态7.28.721.220.420.826.824.427.516.920.219.4表4：验证不同技术的有效性。“.“w/oAligned CS masking&“. w/oAligned CS maskingDynamic更多详情见附录C。我们可以看到两种方法都是关键的组成部分。剩下的目标。培训目标是：L（θ）= θ∈5.3主要成果三种语言对的主要结果是预-（Xm，Yn）D（m，n）− logP（y n|Xm，Yn\yn;θ）（五）在表5中列出。使用CeMAT初始化时在Mask-Predict模型中，我们观察到显著性改善（从+0.9到+5.3 BLEU）yj∈y掩码nn在解码期间，给定要翻译的输入序列，初始解码器输入是“[mask]”令牌序列。微调后的模型通过迭代预测目标标记并屏蔽低质量预测来生成翻译。该过程可以使模型重新预测以先前的高置信度预测为条件的更令人担忧的情况5.2实验设置NAT基准数据我们在三个流行的数据集上进行评估：WMT14 En De，WMT16 En Ro和IWSLT14 En De。对于具有基线的公平计算，我们仅使用双语PC32语料库来预训练我们的CeMAT。我们只使用知识蒸馏（顾等人。，2018）on WMT 14 EnParticipDe tasks.基线我们使用CeMAT进行初始化和微调掩模预测模型（Ghazvinine-jad et al. 2019年），如第4节所示。为了更好地量化所提出的预训练模型的效果，我们建立了两个强大的基线。直接. 我们直接用随机初始化的参数训练Mask-PredictmRASP。为了验证我们的预训练模型更适合NAT，我们使用最近预训练的模型mRASP（Lin et al. ，2020）对下游语言对进行微调。配置我们使用与预训练和AT几乎相同的配置，除了以下差异。我们使用习得的位置嵌入（Ghazvininejad et al. ，2019年），并将最大位置设置为10，000。平均蓝。我们还在IWSLT14数据集上的En De（+2.8 BLEU）和De En（+0.9 BLEU）方向上实现了比AT模型更高的结果，这是一种资源非常少的系统，从头开始训练更难，预训练更有效。如表5所示，在所有不同的任务中，CeMAT的表现都优于mRASP，并具有显著的优势。平均而言，我们比mRASP获得了+1.4 BLEU的增益特别是在IWSLT14 De En上的低资源设置下，我们实现了比mRASP更大的 +3.4 BLEU总体而言，与CeMAT相比，mRASP显示出有限的改善（+0.4至+1.9 BLEU）。这也表明，尽管我们可以使用传统的预训练方法来微调NAT任务，但由于预训练和微调任务之间的差距，它不会像AT任务那样带来显着的改进我们进一步比较了迭代解码过程中三种语言对的动态性能，如附录D所示。我们只需要3到6次迭代就可以获得最好的分数。在此过程中，我们始终保持快速改进。相比之下，mRASP在6至9次迭代后获得最佳结果。我们还观察到一种现象，即迭代期间的性能在mRASP和Mask-Predict上也不稳定，但CeMAT似乎更稳定。我们推测，我们的预训练模型可以学习更多的相关信息之间的单词在相同和不同的语言。这种能力减轻了NAT假设的缺点：各个令牌预测是有条件地相互独立的。不同的任务，并最终获得+2.5的增益+v：mala2277获取更多论文源IWSLT14恩→德的→恩WMT16En→Ro Ro→EnWMT14恩→德的→恩AvgLang-PairsTransformer（Vaswani et al. （2017年）23.932.834.134.528.032.731.0Mask-Predict（Ghazvininejad et al. ，2019年）22.028.431.531.726.129.028.1mRASP（Lin et al. ，2020年）23.930.332.232.126.729.829.2CeMAT（我们的）26.733.733.333.027.229.930.6表5：与两个强基线的全面比较。“mRASP”表示使用mRASP初始化掩码预测，“CeMAT（Ours）”表示使用我们的CeMAT初始化。我们在所有语言对上都获得了一致和显著的改进，在IWSLT14任务上的表现优于AT。最佳非自回归结果以粗体突出显示。6相关工作多语言预训练任务Conneau和Lample（2019）和Devlin等人。（2019）提出在多语言语料库上预训练跨语言语言模型，然后独立初始化模型的编码器或解码器进行微调。Song等人（2019），Yang等人（2020）和Lewis等人（2020）通过重建部分或全部输入直接预训练Seq2Seq模型，并实现显着的性能增益。最近，mRASP（Lin et al. ，2020）和CSP（Yanget al. ，2020）应用代码切换技术来简单地在源侧执行随机替换。另一个类似的工作，DICT-MLM（Chaudhary et al. ，2020）引入多语言词典，通过屏蔽单词来预训练MLM，然后预测其跨语言同义词。 mRASP2（Pan etal. ，2021）也在单语和双语数据上使用了语码转换来提高有效性，但它本质上是一个多语言AT模型。与以往的研究相比：1）CeMAT是第一个预训练的具有双向解码器的Seq 2Seq模型;2）引入对齐码切换掩蔽，与传统的码切换不同，我们增加了两个步骤：源和目标之间的对齐和CSM; 3）我们还引入了动态双掩蔽方法。自回归神经机器翻译我们的工作也与AT有关，它采用编码器-解码器框架来训练模型（Sutskever et al. ，2014）。为了提高性能，提出了回译，前译和相关技术，以利用单语语料库（ Sennrich et al. ， 2016 a; ZhangandZong ， 2016; Eddom et al. ， 2018; Hoang etal. ，2018）。先前的工作还试图联合训练同时翻译多语言方向的单个多语言翻译模型（ Firatet al. ， 2016; Johnson et al. ， 2017;Aharoni et al. 、2019; Wu et al. ，2021年）。在这项工作中，我们专注于预训练多语言语言模型，它可以为语言对提供初始化参数。另一方面，我们的方法可以使用其他语言来进一步改进高资源任务。Non-autoregressive Neural Machine Trans-lation Gu et al. （2018）首次引入了一种基于transformer的方法来并行预测完整的靶序列。为了减少与 AT 模型的差距， Lee et al.（2018）和Ghazvininejad et al. （2019）提出了用迭代细化来解码目标句子。Wanget al.（2019 b）和Sun et al.（2019）利用辅助信息来提高NAT的性能。与我们相关的一项工作是Guo et al.（2020），其使用BERT来初始化NAT。在这项工作中，CeMAT是首次尝试在NAT任务上预训练多语言Seq2Seq语言模型7结论在本文中，我们证明了多语言预训练序列到序列模型，但使用双向解码器可以为自回归和非自回归神经机器翻译带来显着的性能提升。由于条件掩蔽效应的存在，解码器模块，特别是交叉注意模块，能够更容易地学习词表征和跨语言表征能力。我们进一步引入对齐码转换掩蔽来对齐语义相似但不同语言的词的表示空间，然后使用动态双掩蔽策略来诱导双向解码器主动获取来自源端的信息最后，验证了这两种方法的有效性。在未来，我们将研究更有效的词对齐方法对齐码切换掩蔽。+v：mala2277获取更多论文8致谢我们要感谢匿名评论者的有益反馈。我们还要感谢黄文勇、侯路、郭银鹏、张谷春对实验的有益建议和帮助引用Roee Aharoni，Melvin Johnson，Orhan Firat。2019年。大规模多语言神经机器翻译。在计算语言学协会北美分会2019年会议论文集：人类语言技术， NAACL-HLT 2019 ，明尼阿波利斯，MN，美国，2019年6月2日至7日，第1卷（长论文和短论文），第3874-3884页。计算语言学协会。AditiChaudhary ， KarthikRaman ， KrishnaSrinivasan，and Jiecao Chen. 2020. DICT-MLM：使用双语词典改进多语言预训练。 CoRR ，abs/2010.12566。亚历克西斯·康诺和纪尧姆·兰普尔。2019. 跨语言语言模型预训练. 神经信息处理系统进展32：神经信息处理系统年度会议2019，NeurIPS 2019，2019年12月8日至14日，加拿大不列颠哥伦比亚省温哥华，第7057Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，NAACL-HLT 2019 ，明尼阿波利斯， MN ，美国，2019年6月2日至7日，第1卷（长和短纸张），第4171-4186页。计算语言学协会。Sergey Edmund ， Myle Ott ， Michael Auli ， andDavid Grangier. 2018. 理解大规模的反向翻译。在2018年自然语言处理经验方法会议论文集，比利时布鲁塞尔，2018年10月31日日，第489-500页。计算语言学协会。Orhan Firat ， KyungHyun Cho ，和 YoonyBengio.2016. 具有共享注意力机制的多路多语言神经机器翻译。CoRR，abs/1601.01073。Marjan Ghazvininejad，Omer Levy，Yinhan Liu，and Luke Zettlemoyer. 2019. Mask-predict：条件掩码语言模型的并行解码。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议的会议记录中， EMNLP-IJCNLP2019，中国香港，2019年11月3日至7日，第6111- 6120页。计算语言学协会。作者：Gu Jiaotao，James Bradbury，Xiong CaimingXiong ， Victor O. K. Li ， and Richard Socher.2018. 非自回归神经机器翻译。在第六届学习代表国际会议上，ICLR 2018，加拿大不列颠哥伦比亚省温哥华，4月30日-2018年5月3日，Conference Track Proceedings。开放- Review.net.Junliang Guo ， Zhirui Zhang ，Linli Xu ， Hao-RanWei，Boxing Chen，and Enhong Chen. 2020. 用适配器中.在神经信息处理系统的进展33：神经信息处理系统2020年年会，NeurIPS 2020，2020年12月6日至12日，虚拟。Cong Duy Vu Hoang，Philipp Koehn，GholamrezaHaffari，and Trevor Cohn. 2018. 神经机器翻译的迭代回译。在第二届神经机器翻译和生成研讨会上， NMT@ACL 2018 ，澳大利亚墨尔本，2018年7月20日，第18-24页。计算语言学协会.陈志峰，陈志峰 . 作者： Viégas ， MartinWattenberg， Greg Corrado，Macduff Hughes ，and Jeffrey Dean. 2017. 谷歌半导体计算。Linguistics，5：339-351.Guillaume Lample ， Alexis Conneau ， LudovicDenoyer，and Marc2018. 仅使用单语语料库的无监督机器翻译。在第六届国际会议上学习代表，ICLR 2018，温哥华，不列颠哥伦比亚省，加拿大，2018年4月30日至5月3日，会议跟踪进行。OpenReview.net.Jason Lee Elman Mansimov和Kyunhyun Cho。2018.迭代精化的确定性非自回归神经序列建模。在2018年自然语言处理经验方法会议上日，第1173- 1182页。计算语言学协会。Mike Lewis，Yinhan Liu，Naman戈亚尔，Mar-jan Ghazvininejad ， Abdelrahman Mohamed ，Omer Levy ， Veselin Stoyanov ， and LukeZettlemoyer. 2020. BART：用于自然语言生成、翻译和理解的去噪序列到序列预。在计算语言学协会第58届年会的会议记录中，ACL 2020，在线，2020年7月5日至10日，第7871-7880页。计算语言学协会。林泽辉，潘晓，王明轩，邱喜鹏，冯江涛，周浩，李磊。2020. 利用对齐信息预训练多语言神经机器翻译。2020年经验方法会议论文集+v：mala2277获取更多论文自然语言处理，EMNLP 2020，在线，2020年11月16-20日，第2649-2663页。计算语言学协会.Yinhan Liu，Jiatao Gu，Naman Goyal，Xian Li，Sergey Eddom ， Marjan Ghazvininejad ， MikeLewis，and Luke Zettlemoyer. 2020. 用于神经机器翻译的多语言去噪预训练。事务处理关联计算Linguistics，8：726-742.潘晓，王明轩，吴立伟，李磊。2021. 多对多语言神经机器翻译的对比学习。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议的会议记录中，ACL/IJCNLP 2021，（第1卷：长纸），虚拟活动，2021年8月1日至6日，第244258.计算语言学协会。亚历克·雷德福和卡蒂克·纳拉辛汉2018.通过生成式预训练提高语言理解能力.瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016年a。用单语数据改进神经机器翻译模型。在Proceedings of the 54th Annual M

下载后可阅读完整内容，剩余1页未读，立即下载