没有合适的资源?快使用搜索试试~ 我知道了~
Chulun Zhou1†, Fandong Meng2, Jie Zhou2,Min Zhang3, Hongji Wang1, Jinsong Su1,4∗0神经机器翻译的基于置信度的双向全局上下文感知训练框架01 厦门大学信息学院,厦门 2 腾讯公司微信AI模式识别中心,中国 3哈尔滨工业大学深圳,深圳 4 深圳市鹏城实验室,clzhou@stu.xmu.edu.cn{fandongmeng,withtomzhou}@tencent.com zhangminmt@hotmail.com{whj,jssu}@xmu.edu.cn0摘要0大多数主流的神经机器翻译(NMT)模型只能根据左到右的本地上下文进行预测。尽管许多先前的研究尝试将全局信息纳入NMT模型,但在如何有效利用双向全局上下文方面仍存在限制。在本文中,我们提出了一种基于置信度的双向全局上下文感知(CB-BGCA)训练框架用于NMT,其中NMT模型与辅助条件掩码语言模型(CMLM)联合训练。训练分为两个阶段:(1)多任务联合训练;(2)基于置信度的知识蒸馏。在第一阶段,通过共享编码器参数,NMT模型还受到来自CMLM解码器的信号的监督,该信号包含双向全局上下文。此外,在第二阶段,使用CMLM作为教师,我们通过知识蒸馏进一步将双向全局上下文有针对性地纳入NMT模型对其不确定预测的目标词。实验结果表明,我们提出的CB-BGCA训练框架在三个大规模翻译数据集(WMT'14英德,WMT'19中英和WMT'14英法)上的BLEU分数分别提高了+1.02、+1.30和+0.57。01 引言0近年来,神经机器翻译(NMT)取得了巨大的进展并引起了更多的关注。大多数主流NMT模型主要采用编码器-解码器框架(Sutskever等,2014年;Bahdanau等,2015年;Vaswani等,2017年;Meng和Zhang,2019年;Miao等,2021年)与0† 本工作是在腾讯公司微信AI模式识别中心实习期间完成的,*通讯作者0教师强制策略(Goodfellow等,2016年)用于训练。尽管取得了成功,但教师强制策略的单向属性限制了NMT模型只能关注本地上下文,即在每个解码器步骤中,要预测的目标词的前面的单词。显然,这种策略往往受限,因为单词之间的依赖关系通常是双向的,涉及目标端的前面和后面的单词。为了解决这个问题,许多先前的研究尝试利用目标端的全局信息(Liu等,2016年;Zhang等,2016年;Serdyuk等,2018年;Zhang等,2018年;Su等,2018年;Zhang等,2019a,b;Su等,2019年;Zhou等,2019年;Zhang等,2020年)。通常,它们通过将传统的从左到右(L2R)NMT模型与从右到左(R2L)辅助模型配对,引入了目标端全局上下文的建模。然而,在这些方法中,反向全局上下文的建模与前面单词的本地上下文是分开的。因此,它们不能充分鼓励NMT模型利用双向全局上下文(Devlin等,2019年)。同时,其中一些方法采用双向解码,通常依赖于多次解码或特殊定制的解码算法(Liu等,2016年;Zhang等,2018年;Zhou等,2019年;Zhang等,2020年)。另一系列研究(Conneau和Lample,2019年;Edunov等,2019年;Weng等,2020年;Baziotis等,2020年;Yang等,2020年;Chen等,2020年)利用大规模预训练语言模型(PLM)中包含的目标端双向全局上下文,如ELMo(Peters等,2018年)和BERT(Devlin等,2019年)。这些PLM通常对翻译不具备双语意识,并且独立于NMT模型进行训练。作为一个特例,Chen等人(2020年)设计了一个条件掩码语言建模目标,使BERT在微调阶段意识到源输入。然而,在这些方法中,0arXiv:2202.13663v1[cs.CL]28Feb20220+v:mala2277获取更多论文0%5%10%15%20%25%30%0.00.10.20.30.40.50.60.70.80.91.05.076.208.7722.3112.0025.674.82 4.44 4.546.190总目标单词的比例0对目标真实单词的预测概率0图1:在WMT'14英德翻译任务的训练集上,通过教师强制策略使用完全训练的Transformer模型输出的NMT对应的目标真实单词的概率分布。例如,模型在每个时间步骤上基于完全正确的前面单词以0.0�0.1之间的概率预测25.67%的目标真实单词。0PLM的预训练与NMT模型无关,限制了模型性能的潜力。关于如何有效地将全局信息纳入NMT模型,以前的工作的另一个明显不足之处是它们没有根据其单词级别的预测置信度恰当地增强NMT模型。理想情况下,在教师强制策略下,经过良好训练的NMT模型应该根据正确的前面单词为目标的真实单词分配高概率,然而事实并非如此。图1显示了一个完全训练的Transformer模型的预测单词级概率分布。我们发现,即使基于完全正确的前面单词,模型对相当一部分目标真实单词的预测概率相对较低。这种现象的合理原因是NMT模型仅根据前面单词的局部上下文无法自信地预测这些目标单词(Watanabe和Sumita,2002;Hoang等,2017)。因此,我们应该特别在这些不自信预测的目标单词上对NMT模型进行改进。在本文中,我们提出了一种基于置信度的双向全局上下文感知(CBBGCA)NMT训练框架。在我们的框架下,NMT模型与条件掩蔽语言模型(CMLM)一起进行联合训练,后者本质上是双语感知的,并且在目标端包含双向全局上下文。具体而言,CBBGCA训练包括两个阶段。0在第一阶段,我们以多任务学习的方式共同训练NMT模型和CMLM,通过与CMLM解码器共享两个模型的编码器,这在一定程度上增强了NMT模型,因为编码器还受到包含双向全局上下文的CMLM解码器的信号的监督。在第二阶段,我们使用CMLM通过基于置信度的知识蒸馏,有针对性地改进NMT模型在那些不自信预测的目标单词上的训练。通过这样做,我们的模型可以进一步有效地利用CMLM中包含的双语感知的双向全局上下文。总之,我们论文的主要贡献如下:0•我们引入多任务学习,通过与辅助CMLM共享其编码器,使NMT模型受益,从而初步增强NMT模型以捕捉双向全局上下文。0•我们进一步提出了基于置信度的知识蒸馏,使用CMLM作为教师,特别在不自信预测的目标单词上改进NMT模型,更有效地利用双向全局上下文信息。0•在大规模WMT'14英德、WMT'19中英和WMT'14英法翻译任务上进行了大量实验,结果显示我们的CBBGCA训练框架分别将最先进的Transformer模型的BLEU分数提高了+1.02、+1.30和+0.57,这证明了我们方法的有效性和泛化能力。02 CBBGCA训练框架0在本节中,我们将介绍我们提出的CB-BGCA训练框架,该框架利用CMLM根据其预测置信度增强NMT模型。在接下来的子节中,我们首先描述了我们的NMT模型和CMLM的基本架构。然后,我们介绍了我们的CBBGCA框架的训练过程,包括两个阶段。02.1 NMT模型和CMLM模型0NMT模型和CMLM模型都基于Transformer(Vaswani等,2017),它们是基于Transformer的。0+v:mala2277获取更多论文p(yt|y
下载后可阅读完整内容,剩余1页未读,立即下载
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)