双向全局上下文感知的神经机器翻译训练新框架

0 下载量 128 浏览量 更新于2025-01-16 收藏 18.78MB PDF 举报
"基于置信度的双向全局上下文感知神经机器翻译训练框架" 这篇论文主要探讨了神经机器翻译(NMT)模型的优化方法,尤其是如何更好地利用双向全局上下文来提高翻译质量。传统的NMT模型往往仅依赖左到右的局部上下文进行预测,这限制了其对复杂句子结构的理解和翻译效果。为了克服这一局限性,作者提出了一个名为基于置信度的双向全局上下文感知(CB-BGCA)的训练框架。 在这个框架中,NMT模型与条件掩码语言模型(CMLM)协同训练,以引入全局信息。训练过程分为两个阶段:一是多任务联合训练,二是基于置信度的知识蒸馏。在第一阶段,通过共享编码器参数,NMT模型不仅接收自身的编码信息,还同时受到CMLM解码器提供的双向全局上下文的影响。CMLM能够捕捉到整个序列的信息,弥补了NMT模型的不足。 第二阶段,CMLM扮演教师角色,对NMT模型进行知识蒸馏。这里,重点是将全局上下文有选择性地传授给NMT模型,特别是针对那些模型预测不确定性较高的目标词。通过这种方式,NMT模型能学习到更全面的上下文依赖,从而提高翻译的准确性。 实验结果显示,CB-BGCA训练框架在WMT'14英德、WMT'19中英和WMT'14英法三个大规模翻译数据集上均提升了BLEU分数,分别提高了+1.02、+1.30和+0.57,这表明该方法在提升翻译性能方面具有显著效果。 这项工作对于理解如何利用全局上下文信息改进NMT模型的训练有重要的贡献,并为未来研究提供了新的方向。通过结合置信度和双向全局上下文,可以增强NMT模型处理复杂语句和捕获长距离依赖的能力,这对于提升机器翻译的质量尤其关键。
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部