Seq2Seq预训练对神经机器翻译的影响及改进策略

30 浏览量更新于2023-12-01 收藏 557KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文----理解和改进神经机器翻译的王文轩1焦文祥2郝永昌3王兴2史树明2涂兆鹏2<$Michael R.Lyu11香港中文大学计算机科学与工程系wxwang，cse.cuhk.edu.hk2腾讯人工智能实验室joelwxjiao，brightxwang，shumingshi，tencent.com3阿尔伯塔大学yongcha1@ualberta.ca摘要在本文中，我们提出了一个实质性的步骤，更好地理解 SOTA 序列到序列（ Seq2Seq ）预训练神经机器翻译（NMT）。我们专注于研究联合预训练解码器的影响，这是Seq2Seq预训练和以前基于编码器的NMT预训练方法之间的主要区别。通过对三种语言对进行精心设计的实验，我们发现Seq2Seq预训练是一把双刃剑：一方面，它有助于NMT模型产生更多样化的翻译，减少与充分性相关的翻译错误。另一方面，Seq2Seq预训练和NMT微调之间的差异域差异）并引起过估计问题（即，客观差异）。基于这些观察，我们进一步提出了简单有效的策略，命名为领域内预训练和输入自适应，以弥补主和客观的差异，分别。在几个语言对上的实验结果表明，我们的方法在Seq2Seq预训练的基础上，可以始终如一地提高翻译性能和模型鲁棒性。1介绍在过去的几年里，有大量关于自然语言处理任务的自我监督预训练的研究（Devlin et al. ，2019;Liu et al. ，2019; Conneau et al. ，2020; Jiao etal. ，2020 a），其旨在将大规模未标记数据的知识转移到具有标记数据的下游任务。尽管在其他理解和生成任务中取得了成功，但自监督预训练在机器翻译（MT）中并不是一种常见的做法。一个可能的原因是预训练模型工作主要是在王文轩和郝永昌在腾讯AI Lab实习时完成的。[2]图兆鹏为通讯作者。（例如， Transformer 编码器）和 NMT模型（例如，Transformer编码器-解码器）。为了弥补架构差距，一些研究人员提出了用于机器翻译的序列到序列（Seq2Seq）预训练模型，例如，MASS（Song et al. ，2019）和BART （ Zhu et al. ， 2019; Lewis et al. ，2020）。最近，Liu et al. （2020年）通过对大规模多语言数据进行培训来扩展BART（即，mBART），从而显著提高了跨各种语言对的翻译性能。虽然以前的NMT预训练方法通常只关注 Transformer 编码器（ Lample 和Conneau，2019），但mBART通过恢复被掩蔽短语噪声化的输入句子来预训练完整的一个研究问题自然会出现：联合预训练的解码器有多大作用？在这项工作中，我们在更好地理解SOTASeq2Seq预训练模型方面迈出了实质性的一步我们通过精心设计的实验来细粒度地观察联合预训练解码器的影响，这些实验是使用已发布的mBART-25模型在跨语言对和数据规模的几个WMT和IWITR基准上进行的（Liu et al. ，2020）。通过仔细检查翻译输出，我们发现（§2。（2）：• 联合预训练的解码器产生了更多不同词序的翻译，这需要多个参考来准确评估其在大规模数据上的有效性。• 联合预训练解码器一致地减少了与预训练编码器相关的翻译错误尽管联合预训练解码器可以持续提高翻译性能，但我们也发现了由于预训练和微调之间的差异而产生的几个副作用（§2.3）：• 域差异：Seq2Seq预训练模型通常在一般域上训练arXiv：2203.08442v1 [cs.CL] 2022年3月+v：mala2277获取更多论文数据同时在特定域上训练下游翻译模型（例如，news）。域差异要求微调模型做出更多努力，以使预训练模型中的知识适应域内目标。• 客观差异：NMT训练学习将句子从一种语言翻译成另一种语言，而Seq2Seq预训练学习重新构建输入句子。客观的离散性引起过估计问题，并且倾向于利用噪声输入生成更多的幻觉过度估计问题以及由Seq2Seq预训练引起的更多复制翻译（Liu et al. ，2021）使其遭受更严重的波束搜索退化问题。为了弥补上述差异，我们提出了简单而有效的策略，称为微调中的域内预训练和输入自适应（§3）。在域内预训练中，我们提出通过在域内单语数据上继续mBART的预训练来减少域移位，这与下游翻译任务的数据分布更相似。对于输入自适应，我们在双语数据的源句子中添加噪声我们期望扰动的输入能够更好地将知识从预训练模型转移到微调模型。在基准数据集上的实验结果表明，域内预训练显著提高了NMT模型的翻译性能，输入自适应增强了NMT模型的鲁棒性。结合这两种方法，我们得到了一个性能良好的NMT系统的最终解决方案。大量的分析表明，我们的方法可以缩小域差异，特别是改善低频词的翻译此外，我们的方法可以减轻过估计的问题，并减轻波束搜索NMT模型的退化问题2了解Seq2Seq预训练在本节中，我们进行实验和分析，以更好地了解NMT当前的Seq2Seq预训练我们首先展示了预训练组件的翻译性能（§2.2），然后展示了预训练和微调之间的差异（§2.3）。2.1实验装置数据我们在几个跨语言对的基准上进行实验，包括高-资源WMT 19英语-德语（W19 En-De，36.8M实例），低资源WMT 16英语-罗马尼亚语（W16 En-Ro，610 K实例）和IWSLT 17英语-法语（I17 En-Fr，250 K实例）。为了消除不同语言的影响，我们还从WMT 19 En-De中采样一个子集W19 En-De（S），610 K例），以构建消融研究的低资源环境。对于所提出的域内预训练，我们收集NewsCrawl单语数据作为WMT任务的域内数据（即，200 M英语、200 M德语和60 M罗马尼亚语），以及用于IWITOS任务的TED单语数据（即，1M英语和0.9M法语）。由于TED的单语言数据很少，我们用伪域内数据OpenSubtitle（Tiedemann，2016）扩展它，它也提供TED的口语。具体来说，我们使用最新的 200 M英语字幕和所有可用的法语字幕（即，100米）。我们遵循Liu et al.（2020）使用他们发布的具有25万个子词的碎片模型（Kudo和Richardson，2018）来标记双语和单语数据。我们使用 Sacre- BLEU （ Post ，2018）评估了翻译性能。模型至于预训练模型，我们采用官方发布的mBART 25模型（Liu et al. ，2020）1，其在25种语言的大规模CommonCrawl（CC）单语数据上训练。因此，mBART 25的词汇量非常大mBART 使用更大的 Transformer 模型，将Transformer-Big的编码器和解码器扩展到12层。我们使用来自预训练mBART 25的编码器或编码器-解码器然后，在下面的部分中，我们使用预训练编码器，简称预训练编码器-解码器。我们遵循官方推荐的微调设置，dropout为0。3、标签平滑度为0。2、热身2500步。我们对10万步的高资源任务和4万步的低资源任务进行微调。我们还列出了没有预训练的 vanillaTransformer的结果作为基线。词汇表是建立在双语数据上的，因此要小得多（例如，En-De44K）比mBART 25。具体来说，对于高资源任务，我们训练6L-6L Transformer- Big，每批460 K令牌，30 K步，1https://github.com/pytorch/fairseq/tree/main/examples/mbart+v：mala2277获取更多论文⇒⇒预训练W19 En-DeW19 En-De（S）W16 En-Ro I17 En-Fr模型EncDec⇒⇐⇒⇐⇒⇐⇒⇐无预训练39.641.029.730.134.534.337.338.0××39.440.126.727.130.029.635.335.1捷运C×40.841.131.733.5三十五点零三十五点六38.438.4CC40.841.435.3三十五点七37.137.439.2 40.2表1：MT基准测试的BLEU分数对于低资源任务，我们训练 6L-6LTransformer- Base，每批16 K令牌，50 K步。2.2联合预训练解码器Seq2Seq预训练模型的主要区别mBART）从先前的预训练模型（例如，BERT和XLM-R）在于是否一起训练解码器。在本节中，我们研究了联合预训练解码器在BLEU分数方面的影响翻译性能。表1列出了预训练NMT模型的不同组件的BLEU分数，其中我们还包括从头开始在数据集上训练的NMT模型的结果（为了公平比较，我们对预训练NMT组件的所有变体使用相同的词汇量。我们使用预训练的单词嵌入模型变体，随机初始化编码器-解码器（因此，由于较大的词汇量250K vs. 44K），这使得模型训练更加困难。仅预训练编码器（“Enc：C，Dec：×”）显著提高了翻译性能，这与之前研究的结果一致（Zhu et al. ，2019; Weng et al. ，2020）。我们还使用预训练的编码器XLM-R（Conneau etal. ，2020年），其实现了与mBART编码器相当的性能（参见附录A.1）。为了公平的比较，我们在下面的部分中只使用mBART编码器令人鼓舞的是，联合预训练解码器可以进一步提高翻译性能，尽管在大规模上提高并不显著您正在为儿童保育工作做准备。Ref她指责成年人贩卖儿童。大规模数据没有压力。它指控成年人贩卖儿童。（×，×）它指控成年人贩卖儿童。（C，×）她指控成年人贩卖儿童。（C，C）她指责成年人贩卖儿童。小规模数据没有压力。它指责成年人买卖儿童。（×，×）它要求成年人贩运儿童。（C，×）它指控成年人贩卖儿童。（C，C）她指责成年人贩卖儿童。表2：WMT19 De En测试集上的翻译示例。翻译错误以红色突出显示，词序的变化以蓝色突出显示。WMT 19 En-De数据。这些结果似乎为共同认知- 预训练在大规模数据上的效果较差。然而，我们对生成的输出有一些有趣的发现为了消除语言和数据偏差的影响，我们使用WMT19 DeEn数据的全集和采样子集作为代表性的大规模和小规模数据场景。表2显示了一些翻译示例。首先，联合预训练解码器可以产生在词序上与地面实况参考不同的良好翻译（例如，“贩卖儿童”与“贩卖儿童”），因此被分配低BLEU分数。这可以解释为什么联合预训练解码器只能略微提高大规模数据的性能。其次，联合预训练解码器可以减少翻译错误，特别是在小规模数据上（例如，把“它”错误地翻译我们在以下实验中实证验证了上述两个发现。Src+v：mala2277获取更多论文⇑⇒⇒⇒PretrainSingle MultipleBLEU Δ BLEU Δ-2.5-3.5（×，×）27.0+0.052.3-0.8（C，×）32.3+5.363.4+10.3（C，C）35.3米+8.369.1米+16.0表3：具有单个和多个参考的En De测试集上的BLEU分数。“<“表示显著更好（p 0. 01）比没有mBART预训练.预训练大小型Enc Dec Ut Mt Ot Ut Mt Ot××49 0 25450C×33 0 5215CC20 0 3150表 4 ： mBART 预训练的 NMT 模型在翻译不足（Ut）、错误翻译（Mt）和过度翻译（Ot）错误方面的人类评估。对翻译多样性的影响。我们遵循Du et al.（2021）的方法，使用多个参考文献更好地评估不同词序的翻译质量我们使用Ott等人发布的测试集。（2018），由10个人工翻译的500个句子组成，这些句子取自WMT14 En De测试集。如表3所示，当通过多个参考进行测量时，预训练的解码器在所有情况下都实现了更显著的改进这些结果为我们的主张提供了实证支持，即联合预训练解码器产生了具有不同词序的更多样化的翻译，这可以通过多个参考文献更好地衡量。这些结果可能会更新我们对预训练的认知，也就是说，当更准确地评估时，它们在大规模数据上也是有效的。影响力的。我们进行了一个人的评估，以提供一个更直观的了解如何联合预训练解码器提高翻译质量。具体地说，我们要求两个注释者对从WMT 19 De En测试集中随机抽取的100个句子进行欠译、误译和过译的注释。如表4中所列，继承预训练的解码器重新0 10000 20000 30000词索引图1：一般领域英语语料库的词汇分布（即，CC数据）和域内（即，WMT 19 En-De新闻域）。词频被归一化并以对数标度报告。在小数据上比在大数据上产生更多的翻译错误，这与表1中的BLEU评分结果一致。有趣的是，只继承预训练的编码器会在小数据上引入更多的过度翻译错误，这可以通过组合预训练的解码器来解决。一个可能的原因是，只继承预训练的2这个问题不会发生在大数据上，因为大量的域内数据可以平衡编码器和解码器之间的关系，以便很好地完成翻译任务。2.3预训练和微调离散虽然Seq2Seq预训练在数据规模上始终提高翻译性能，但由于预训练和微调之间的差异，我们发现Seq2Seq预训练的几个副作用在本节中，我们提出了两个重要的差异：领域差异和客观差异。除非另有说明，否则我们使用小数据报告WMT 19 En-De测试集的2.3.1领域差异Seq2Seq预训练模型通常在一般领域数据上训练，而下游翻译模型在特定领域（例如，news）。这种领域差异需要微调模型做出更多努力，以使预训练模型中的知识适应域内目标。我们从词汇分布和领域分类器两个方面实证性地展示了领域差异。训练数据中的词汇分布。受词汇分布分析（Ding et al. 、2Tu et al. （2017a）表明，源语境的影响更大，导致过度翻译错误。CC：EnWMT 19：En罗大规模无预训练数据39.5-77.1--4.5（×，×） 38.6-0.975.7-1.4GF（C，×）39.5+0.077.8+0.7-5.5（C，C）39.9+0.479.1米+2.0小规模数据-6.5+v：mala2277获取更多论文⇒SetEnDeDeEn来源具体目标表5：WMT 19 En-De测试集中被分类为WMT新闻领域的句子比例。2021），我们首先绘制了一般领域（即，CC数据）和域内（即，WMT 19 En-De新闻域）0.60.50.40.30.2预训练：Enc-Dec预训练：Enc - X预训练：X -X0 10 20 30时间步长(a) 参考0.40.30.20.10.0预训练：Enc-Dec预训练：Enc - X预训练：X -X0 10 20 30时间步长(b) 牵引器来研究它们在词汇层面上的差异。这些单词根据它们在WMT 19 En-De训练数据中的频率进行排名。如图1所示，我们在长尾区域观察到WMT新闻数据和CC数据之间的明显差异，长尾区域应该携带更多特定于领域的因此，将有一个从预训练到微调的领域转移。测试数据的域分类器。我们进一步证明，测试数据也遵循一个consistent域作为训练数据。为了区分一般域和域内，我们基于WMT 19En-De训练数据和CC数据构建了一个域分类器我们从具有一些可信数据的WMT训练数据中选择一个子集（ Wang et al. ， 2018; Jiao etal. ，2020 b，2022），其中包括来自WMTnewest 2010 -2017的22404个样本（详见附录A.2）。具体来说，我们分别从WMT训练数据和CC数据中选择1.0M样本最新的2018年测试与CC数据的相等大小的子集相结合我们采用领域分类器对WMT 19 En-De测试集中的每个样本进行如表5所示，大多数句子（例如，70%-80%）被识别为WMT新闻领域，这证明了下游任务中训练数据和测试数据之间的领域一致性。2.3.2客观的谨慎Seq2Seq预训练和NMT训练之间的学习目标差异是NMT学习将句子从一种语言翻译成另一种语言，而Seq2Seq预训练学习重构输入句子（Liu et al. ，2021年）。在本节中，我们通过评估受学习目标高度影响的预测行为来模型不确定性。我们遵循Ott et al. （2018）通过计算分析模型的不确定性图2：WMT 19 En De（S）测试集上的每个令牌生成概率。对于地面实况参考（a），期望较高的概率，并且对于干扰项（b），期望较低的概率。在每个时间步长，句子对集合的平均概率。为了评估LM对目标语言建模的能力，我们还遵循Wang和Sennrich（2020）考虑了一组“干扰项”翻译，这些翻译是来自CC数据的随机句子，它们在长度上与相应的参考翻译匹配。图2绘制了参考（Y）和干扰项（Y）的模型不确定性。我们发现，联合预训练解码器显着提高模型的确定性后，前几个时间步长（图2a）。至于干扰项，预训练编码器只会导致比从头开始训练更低的错误率（图2b），这表明相应的NMT模型更多地受源上下文的支配。这再次证实了我们在人体评价中的发现（表4）。相比之下，联合预训练解码器导致了显着的改进，这表明预训练解码器往往会导致NMT模型的过估计问题一个可能的原因是Seq2Seq预训练没有建立语言之间的联系，使得其强大的LM建模能力仍然将干扰项识别为有效的目标句子，即使它在语义上与源句子不匹配。干扰下的幻觉与高估相关的一个翻译问题是幻觉（Wang和Sennrich，2020），其中NMT模型生成流畅的翻译，但与输入无关。在本节中，我们遵循Lee等人（2018）的研究，以评估模型具体来说，我们采用每令牌概率+v：mala2277获取更多论文预训练FPI（%）RSM（%）Enc DecΔBLEUHUP ΔBLEUHUP× ×-1.30.5-8.8 2.4C×-0.30.5-8.30.5C C-3.2 7.8-17.8 15.5表6：扰动输入下的模型性能相对于标准输入的BLEU变化，以及扰动下的幻觉（HUP）得分。预训练BLEU拷贝（%）ENCDec5 1005100××26.7二十六点六12.913.9C×31.731.612.712.9CC35.3三十三点五13.219.4表7：波束搜索降级和翻译输出中复制标记的比率两种不同的扰动策略：（1）第一位置插入（FPI），其将单个附加输入标记插入到源序列中，这可以将翻译与输入句子完全分离（Lee et al. ，2018）。（2）随机跨度掩码（RSM），其模拟mBART的Seq2Seq预训练中的噪声输入（Liu et al. ，2020）。我们遵循Lee et al.（2018）将翻译视为扰动下的幻觉（HU P），当：(1) 参考句与未扰动句的翻译之间的BLEU大于5，(2) 扰动句的翻译与非扰动句的翻译之间的BLEU小于3。我们计算幻觉的百分比作为HUP评分。表6列出了扰动输入的BLEU变化和HUP分数正如预期的那样，联合预训练解码器对扰动输入的鲁棒性较低（BLEU分数下降更多），并且比其他两个模型变体产生更多的幻觉。光束搜索问题。NMT模型的一个常见弱点是波束搜索问题，其中模型性能随着波束尺寸的增加而下降（Tu et al. ，2017 b）。先前的研究表明，过度估计是波束搜索问题的重要原因（Ottet al. ，2018; Cohen and Beck，2019）.我们针对具有Seq2Seq预训练的NMT模型重新审视这个问题，如表7所示。我们还列出了翻译输出中复制标记的比例（即，直接将源单词复制到目标端，翻译），这已经被证明是Seq2Seq预训练模型的副作用（Liu et al. ，2021年）。可以看出，联合预训练解码器遭受更严重的波束搜索退化问题，这再次证实了波束搜索问题和过估计之间的联系此外，较大的波束尺寸比其他模型变体引入更多的复制标记19.4 vs. 13.9，12.9），这也将与Seq2Seq预训练相关的复制行为与波束搜索问题联系起来。3改进Seq2Seq预训练3.1方法为了弥合Seq2Seq预训练和微调之间的上述差距，我们引入了域内预训练和输入自适应来提高翻译质量和模型鲁棒性。域内预训练。为了弥合领域差距，我们建议继续mBART的培训（Liu et al. ，2020）在域内单语言数据上。具体来说，我们首先删除文本的跨度，并将其替换为掩码标记。我们通过根据泊松分布（λ=3）对跨度长度进行随机采样来屏蔽每个句子中35%的单词。5）。我们还在每个实例中排列句子的顺序。训练目标是在目标端重构原始句子。我们期望域内预训练通过对域内数据进行重新预训练来减少域偏移，域内数据在数据分布上与下游翻译任务更相似。输入自适应微调。为了弥合客观差距并提高模型的鲁棒性，我们提出添加噪声（例如，屏蔽、删除、置换），并保持目标句子不变。具体来说，我们在每个源句子中的10%的单词中添加噪声，并将噪声数据与干净数据以1：9的比例组合，用于微调预训练模型。我们期望在微调中引入扰动输入可以帮助更好地将知识从预训练模型转移到微调模型，从而减轻过度估计并提高模型的鲁棒性。3.2实验结果翻译性能和鲁棒性的主要结果。主要结果列于表8。我们报告的输入适应的结果，在-+v：mala2277获取更多论文⇒⇒⇒途径W19 EnEnergroundDeW19 EnEnergroundDe（S） W16 EnEnergroundRo I17EnEnergroundFrBLEU HU P BLEU HU P BLEU HU P途径W19 DeBohenW19 DeBohen（S）W16 RoBohenI17 FrBohenBLEU HU P BLEU HU P BLEU HU P基线40.12.827.11.329.61.335.11.7一般41.47.735.74.937.46.040.24.7+ 输入适配器41.22.635.92.837.13.540.72.5+域名内41.38.236.97.438.17.741.14.2+ 输入适配器41.43.136.82.937.93.941.01.7表8：我们用于下游翻译任务的方法的BLEU和HUP得分。进路W19 En-DeW19恩德（南）BLEU Δ BLEU Δ基线75.7 - 52.3-方法W19恩德（南） W16 En-Ro⇒ ⇐ ⇒ ⇐基线一般79.1+3.469.1+16.8域名内35.2 35.7 36.1 36.3+ 输入适配器79.2+3.571.7+19.4+域名内80.1+4.473.7+21.4表10：仅域内预训练的BLEU分数+ 输入适配器79.8+4.175.6+23.3表9：具有多个参考的BLEU评分。域预训练，以及这两种方法的组合，分别。对于输入自适应，它达到了与一般领域预训练模型相当的翻译质量，并显着降低了HU P的比率，表明模型鲁棒性的增强。域内预训练通常会提高翻译质量，但不会使模型更鲁棒。相反，在某些情况下（例如， En Ro 5.6 vs.8.2）。在域内预训练之后立即进行输入自适应将结合这两种方法的优点，并提高翻译质量和模型鲁棒性。我们的方法的有效性，特别是输入适应性，在使用多个参考文献进行评估时更为显著，如表9所示。仅限域内。鉴于域内预训练的良好性能，我们研究了仅对域内数据进行预训练是否也可以获得显着的改善。我们在表10中报告了结果。我们可以观察到预训练-在没有预训练的情况下，单独地对域内数据进行处理可以显著地提高模型的翻译性能然而，这种改进比预训练的mBART 25（例如，内滚：36.1 v.s. 37.1在表8中），这可能是由于在一般预训练中使用的多语言数据的规模大得多。3.3分析我们提供了一些见解，我们的方法如何提高模型的性能比一般的预训练。我们使用小规模数据报告WMT19 En De测试集的结果。缩小领域差距。由于一般领域和领域内数据之间的词汇分布差异主要在于长尾区域（见图1），我们研究了我们的方法如何在低频词上执行。具体而言，我们通过compare-mt3工具计算WMT 19 En-De（S）我们遵循以前的研究（Wang et al. ，2021; Jiao et al. ，2021）将单词分为三个3https://github.com/neulab/compare-mt基线39.42.626.72.430.01.135.31.6一般40.83.335.315.537.16.539.27.8+ 输入适配器40.82.735.65.737.22.439.41.5+域名内42.29.236.410.438.08.239.95.5+ 输入适配器41.34.136.13.637.82.940.13.0+v：mala2277获取更多论文接近频率低中高基线一般情况+域名内46.2 54.3 64.9表11：在双语数据中计算的不同频率的单词预测的F测量。根据其在bilin中的频率分类0.60.50.40.30.2一般基线0 10 20 30时间步长(a) 参考0.40.30.20.10.0一般基线0 10 20 30时间步长(b) 牵引器质量数据，包括高：最多3,000个频繁词;中：最多3001 - 12000个频繁词;低：其他词。表11列出了结果。低频词的改进是性能提高的主要原因域内预训练，其中它在低/中/高频词的翻译准确性上分别优于一般预训练1.7，0.0和0.7 BLEU分数。这些发现证实了我们的假设，即领域内预训练可以缩小领域差距与领域内数据，这是更相似的词汇分布的测试集。缓解高估。图3显示了我们的方法对模型不确定性的影响。显然，我们的方法成功地解决了在地面实况和干扰场景中一般预训练的高估问题减轻波束搜索降级。我们在表12中应用我们的方法重新解决了波束搜索退化问题。当使用较大的波束尺寸（例如，从-1.8到-0.9），部分地由于在生成的翻译中复制标记的减少（例如，从19.4%到15.3%）。虽然域内预训练不能缓解波束搜索退化问题，但它可以与输入自适应相结合，以构建性能良好的NMT系统。4相关工作NMT的预培训。先前的NMT预训练方法通常集中在如何有效地集成预训练BERT（Devlinet al. ，2019）或GPT（Radford et al. ，2019）到NMT模型。例如，Yang et al. （2020）提出了一个有针对性的培训框架， Weng et al.（2020）提出了一种动态融合机制和一种从BERT和GPT中获取知识的并行化范式。在这项工作中，我们旨在提供一个更好的图3：当采用我们的方法时，WMT19 En De（S）测试集上的每个令牌生成概率。接近BLEU拷贝（%）5 100 5 100一般35.333.513.219.4+ 输入适配器35.634.712.5↓15.3↓+域名内36.433.912.919.8+ 输入适配器36.135.012.6↓15.6↓表12：采用我们的方法时的波束搜索降级和了解Seq2Seq预训练模型如何用于NMT，并根据这些观察结果提出一种简单有效的方法来提高模型性能中级预训练。我们的领域内预训练方法与最近在NLU任务中例如，Ye et al. （2021）调查中介预培训中掩蔽政策的影响。 Poth 等人（2021年）探索选择任务进行中级预培训。与我们的工作密切相关的是，Gururangan等人。（2020）建议继续R O BERT A的预训练（Liu et al. ，2019年）的特定任务数据。受这些发现的启发，我们采用域内预训练来缩小一般Seq2Seq预训练和NMT训练之间的域差距我们还证明了目标侧单语数据在域内预训练中的必要性（见附录A.3），这在以前的域内预训练工作5结论在本文中，我们通过展示好处和副作用，更好地理解了NMT的Seq2Seq预训练我们提出了简单有效的方法来补救的副作用，每令牌概率+v：mala2277获取更多论文弥合Seq2Seq预训练和NMT微调之间的差距未来的方向包括在更多的Seq2Seq预训练模型和语言对上验证我们的发现引用Yonatan Belinkov和Yonatan Bisk。2018.合成噪声和自然噪声都会破坏神经机器翻译。在ICLR。埃尔丹·科恩和克里斯托弗·贝克。2019.神经序列模型中波束搜索性能退化的实证分析在ICML。Alexis Conneau ， Kartikay Khandelwal ， NamanGoyal，VishravChaudhary，GuillaumeWenzek ， Francisco Guzmán ， E.Grave ， MyleOtt，LukeZettlemoyer，andVeselinStoyanov.2020年。大规模无监督在ACL。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2019年。Bert：深度双向转换器的语言理解预训练在NAACL-HLT中。丁亮，王龙跃，刘雪波，Derek F.黄，陶大成，涂兆鹏。2021.非自回归翻译中词汇选择的理解与改进. InProc. of ICLR.杜存孝，涂兆鹏，姜静。2021.用于非自回归机器翻译的顺序不可知交叉熵。在ICML。苏钦Gururang an ，AnaMaraso vic' ，SwabhaSwayamdipta ， Kyle Lo ， Iz Beltagy ，Doug Downey，and Noah A.史密斯2020.不要停止预训练：使语言模型适应领域和任务。在ACL的过程中。焦文祥，Michael Lyu和Irwin King。2020年a。利用无监督数据进行对话中的情感识别。在EMNLP调查结果中。Wenxiang Jiao ， Xing Wang ， Shilin He ， IrwinKing，Michael Lyu ，and Zhaopeng Tu. 2020 年b。数据更新：利用非活动训练样本进行神经机器翻译。在EMNLP。Wenxiang Jiao，Xing Wang，Shilin He，ZhaopengTu，Irwin King，and Michael R Lyu.2022年利用数据再生。IEEE/ACM TASLP.焦文祥，王兴，涂兆鹏，石树明，Michael R. Lyu和Irwin King 2021.神经机器翻译的单语数据不确定性自训练采样在ACL/IJCNLP中。工藤拓和约翰·理查森。2018年SentencePiece：一个简单的和语言无关的子词分词器和去分词器，用于神经文本处理。在EMNLP中。纪尧姆·兰普尔和亚历克西斯·康诺。2019.跨语言语言模型预训练.在NeurIPS中。Katherine Lee ， Orhan Firat ， Ashish Agarwal ，Clara Fannjiang，and David Sussillo.2018年神经机器翻译中的幻觉。在NeurIPS-IRASL中。Mike Lewis，Yinhan Liu，Naman戈亚尔，Mar-jan Ghazvininejad ， Abdelrahman Mohamed ，Omer Levy ， Veselin Stoyanov ， and LukeZettlemoyer. 2020. BART：用于自然语言生成、翻译和理解的去噪序列到序列预训练。在ACL的过程中。刘雪波，王龙跃，Derek F.黄亮鼎Lidia S. Chao，Shuming Shi，and Zhaopeng Tu. 2021.神经机器翻译预训练中的复制行为研究。在ACL的过程中。刘银汉，顾嘉涛，纳曼·戈亚尔，X.放大图片作者：Li，SergeyEdmund，MarjanGhazvininejad，M.刘易斯和卢克·泽特尔莫耶。2020.用于神经机器翻译的多语种去噪预训练。TACL。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。arXiv预印本arXiv：1907.11692。Myle Ott ， Michael Auli ， David Grangier ， andMarc'Aurelio Ranzato. 2018.神经机器翻译中的不确定性分析。在ICML的Proc。马特·波斯特2018.要求明确报告BLEU分数。第三届机器翻译会议论文集：研究论文。Clifton Poth，Jonas Pfeiffer，Andreas Rücklé，andIryna Gurevych.2021.什么是预训练？有效的中间任务选择。arXiv.Alec Radford ， Jeffrey Wu ， Rewon Child ， DavidLuan，Dario Amodei，Ilya Sutskever，et al. 2019.语言模型是无监督的多任务学习器。OpenAI博客。宋凯涛，徐坦，秦涛，陆剑锋，刘铁岩. 2019.MASS：用于语言生成的序列预训练的掩码序列。在ICML的Proc。约格·提德曼2016.在大量的电影字幕语料库中寻找替代在LREC。Zhaopeng Tu，Yang Liu，Zhengdong Lu，XiaohuaLiu，and Hang Li. 2017年a。神经机器翻译的语境门。TACL。Zhaopeng Tu，Yang Liu，Lifeng Shang，XiaohuaLiu，and Hang Li. 2017年b。神经机器翻译与重构在AAAI。Chaojun Wang and Rico Sennrich. 2020.论神经机器翻译中的暴露偏差、幻觉和域转移。在ACL。+v：mala2277获取更多论文Shuo Wang，Zhaopeng Tu，Zhixing Tan，ShumingShi，Maosong Sun，and Yang Liu. 2021.关于神经机器翻译的语言覆盖偏差。在ACL过程中。Wei Wang ， Taro Watanabe ， Macduff Hughes ，Tetsuji Nakagawa，and Ciprian Chelba. 2018.使用可信数据和在线数据选择进行去噪神经机器翻译训练在WMT中。Rongxiang Weng ， Heng Yu ， Shujian Huang ，Shanbo Cheng，and Weihua Luo. 2020.从预训练模型获取知识到神经机器翻译。在AAAI。Jiacheng Yang ， Mingxuan Wang ， Hao Zhou ，Chengqi Zhao ，Weinan Zhang，Yong Yu，andLei Li. 2020.在神经机器翻译中充分利用bert。在AAAI。Qinyuan Ye ， Belinda Z Li ， Sinong Wang ，Benjamin Bolte，Hao Ma，Wen-tau Yih，XiangRen，and Ma- dian Khabsa. 2021.论掩蔽策略对中级职前训练的影响。arXiv.Jinhua Zhu，Yingce Xia，Lijun Wu，Di He，TaoQin，Wengang Zhou，Houqiang Li，and TieyanLiu.2019年。把伯特翻译成神经机器翻译。在ICLR。+v：mala2277获取更多论文−A附录A.1XLM-R和mBART的比较Pre-Train En-DeEn-De（S）En-RoEnc 12月24日上午 10时mBART模型C× 40.8 41.0 31.7 33.5 35.0 35.6C C40.8 41.4 35.3 35.7 37.1 37.

下载后可阅读完整内容，剩余1页未读，立即下载