双向全局上下文感知的神经机器翻译训练新框架

128 浏览量更新于2025-01-16 收藏 18.78MB PDF 举报

"基于置信度的双向全局上下文感知神经机器翻译训练框架" 这篇论文主要探讨了神经机器翻译（NMT）模型的优化方法，尤其是如何更好地利用双向全局上下文来提高翻译质量。传统的NMT模型往往仅依赖左到右的局部上下文进行预测，这限制了其对复杂句子结构的理解和翻译效果。为了克服这一局限性，作者提出了一个名为基于置信度的双向全局上下文感知（CB-BGCA）的训练框架。在这个框架中，NMT模型与条件掩码语言模型（CMLM）协同训练，以引入全局信息。训练过程分为两个阶段：一是多任务联合训练，二是基于置信度的知识蒸馏。在第一阶段，通过共享编码器参数，NMT模型不仅接收自身的编码信息，还同时受到CMLM解码器提供的双向全局上下文的影响。CMLM能够捕捉到整个序列的信息，弥补了NMT模型的不足。第二阶段，CMLM扮演教师角色，对NMT模型进行知识蒸馏。这里，重点是将全局上下文有选择性地传授给NMT模型，特别是针对那些模型预测不确定性较高的目标词。通过这种方式，NMT模型能学习到更全面的上下文依赖，从而提高翻译的准确性。实验结果显示，CB-BGCA训练框架在WMT'14英德、WMT'19中英和WMT'14英法三个大规模翻译数据集上均提升了BLEU分数，分别提高了+1.02、+1.30和+0.57，这表明该方法在提升翻译性能方面具有显著效果。这项工作对于理解如何利用全局上下文信息改进NMT模型的训练有重要的贡献，并为未来研究提供了新的方向。通过结合置信度和双向全局上下文，可以增强NMT模型处理复杂语句和捕获长距离依赖的能力，这对于提升机器翻译的质量尤其关键。

展开

p(y

, x) = softmax(Ws

), (6)

p(y

, x) = softmax(W

), (7)

本质上是一个注意力编码器-解码器框架。*

2.1.1编码器

NMT模型和CMLM模型的编码器是相同的，主要

用于学习源句子的语义表示。通常，编码器由Le个

相同的层组成，每个层包含两个子层：自注意力（

SelfAtt）子层和位置-智能前馈网络（FFN）子层

。自注意力子层以前一层的隐藏状态作为输入，并

进行多头缩放点积注意力计算。设h(l)表示第l个编

码器层的隐藏状态，自注意力子层可以表示为：

c(l)=AN(SelfAtt(h(l−1),h(l−1),h(l−1))),(1)

其中AN(∙)表示AddNorm，即带有残差连接的层归

一化。然后，应用FFN子层，

h(l)=AN(FFN(c(l))).(2)

请注意，h(0)初始化为源句子的嵌入序列，第Le层

的隐藏状态h(Le)用作源句子的最终词级表示。

2.1.2解码器

NMT模型和CMLM模型的解码器相似，除了它们

的自注意机制和预测方式不同。

NMT解码器。它由Ld个相同的层组成，每个层包含三个子层：掩码自注

意力（MaskSelfAtt）子层、交叉注意力（CrossAtt）子层和FFN子层

。特别地，在每个时间步骤上保持自回归属性，MaskSelfAtt子层执行

带有注意力掩码的自注意力，防止解码器看到后续单词。为了生成隐藏

状态s(l)

对于第l个解码器层，MaskSelfAtt子层可以表示为

：

a(l)=AN(MaskSelfAtt(s(l−1),s(l−1),s(l−1))).

(3)

然后，CrossAtt子层使用a(l)和源表示h(Le)进行交

叉注意力计算，

z(l)=AN(CrossAtt(a(l),h(Le),h(Le))).(4)

*请注意，我们的框架也可以适应其他NMT模型。

接下来，FFN子层将z(l)映射为s(l)：

s(l)=AN(FFN(z(l))).(5)

最后，对于源句子x、目标翻译y<t和学习到的顶层

隐藏状态s，解码器模型在第t个时间步骤上建模目

标词汇的概率分布如下：

其中，W代表线性变换的可学习参数矩阵。

CMLM解码器。通常，它预测一组掩码目标词ym

，给定源句子x和可观察目标词yo

。CMLM解码器也包含Ld个相同的层，每个层还

包括一个SelfAtt子层、一个CrossAtt子层和一个F

FN子层。与NMT解码器的MaskSelfAtt子层不同

，CMLM解码器的SelfAtt子层中移除了注意力掩

码。最后，利用CMLM解码器的学习到的顶层隐藏

状态s'，可以形式化地预测每个掩码目标词yt∈y

m的概率分布：

其中W'是线性变换的可学习参数矩阵。请注意，

由于CMLM解码器接受的输入是yo而不是y<t

，其中包括相对于每个掩码目标词的前后单词，因

此它应该包含双向的全局上下文信息。

2.2两阶段训练

CBBGCA框架的训练包括两个阶段。在第一阶段，

我们通过多任务学习联合训练NMT模型和CMLM

。在第二阶段，根据单词级别的预测置信度，我们

使用CMLM通过知识蒸馏来改进NMT模型的训练

。

第1阶段：多任务联合训练在第一个训练阶段，给

定一批训练实例，我们通过同时优化NMT模型和C

MLM的各自目标来联合训练它们。

L1(θe,θnd,θcd)=λLnmt+(1-λ)Lcmlm,(8)

+v:mala2277获取更多论文

下载后可阅读完整内容，剩余11页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 5

双向全局上下文感知的神经机器翻译训练新框架

神经翻译模型

基于上下文相关置信度打分的语音确认方法 (2006年)

基于凸优化理论的置信度感知真值发现方法及其在通信领域的应用.docx

基于置信度传播的立体匹配算法研究

基于卷积神经网络置信度的跨语言情感分类.pdf

电信设备-基于置信度传播的图像处理方法.zip

电信设备-基于置信度传播的图像立体匹配方法.zip

电信设备-基于置信度得分的语音标签方法和装置.zip

电信设备-基于置信度的关键词检出系统裁剪方法.zip

电信设备-基于置信度的语音识别实现方法及系统.zip

最新资源