双读写路径的双路径SiMT方法和性能优化

106 浏览量更新于2023-12-01 收藏 2.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文↔↔读写对齐并行机器翻译的双读写路径张少磊1，2，杨锋1，21智能信息处理中国科学院计算技术研究所（ICT/CAS）2中国科学院大学，中国{zhangshaolei20z，fengyang}@ict.ac.cn摘要Fandich超声波对准同时机器翻译（SiMT）在阅读源句子的同时输出翻译，因此需要一个策略来决定是等待下一个源单词（READ）还是等待下一个源单词（READ）。我找到了I中国大陆生成目标字（WRITE），其动作形成读/写路径。虽然读/写路径对于SiMT每一个节点是必不可少的，但是在现有方法中没有对路径进行直接监督。本文提出了一种双路径SiMT方法，该方法引入对偶约束来指导读写路径，根据对偶约束，源到目标和目标到源SiMT模型中的读写路径可以相互映射。结果两我发现它伟大我发现它很棒。(a) 句子对之间的段对。Fand我找到了ichI超级中国大陆SiMT模型可以通过强制它们的读/写路径来满足映射来联合优化在En Vi和De En任务上的实验表明，该方法可以获得更好的性能读/写路径：RRWWW|RW|RW源到目标(De→恩）双世界各地|RW|RW目标到源(En→De）所有延迟下的强基线。1介绍同步机器翻译（SiMT）（Cho和Esipova，2016; Gu et al. ， 2017; Ma 等人， 2019;Arivazhagan et al. ，2019），其在阅读源句的同时输出翻译，对于许多现场场景（例如同声传译、现场广播和同步字幕）是重要的与等待整个源句子的整句机器翻译不同，SiMT必须决定是否等待下一个源单词（即，READ动作）或翻译目标单词（即，WRITE action）来完成翻译。转换过程中的读和写操作序列形成读/写路径，这是SiMT性能的关键。不正确的读/写路径会对翻译性能造成损害，与以下WRITE操作相比，过多但不必要的READ操作通讯作者：杨峰.代码可在：https://github.com/ictnlp/双路径(b) 两个方向上的读/写路径之间的对偶性图1：一个二元性约束的例子在双重约束下，源到目标和目标到源翻译的读/写路径应该投射到两种语言之间的相同段对。将导致高转换延迟，而太少但不够的读取动作将排除不可缺少的源信息。因此，理想的读/写路径是，与随后的写动作相对应的读动作是足够的和必要的，这意味着由连续的读动作覆盖的源字和由随后的连续的写动作生成的目标字应该在语义上等同。确保读/写操作之间的充分性和必要性将导致正确的读/写路径，从而良好的SiMT性能。但现有的SiMT方法采用固定的或自适应的策略，没有考虑策略的充分性和必要性。固定策略根据以下条件执行SiMT：德：线段对恩：arXiv：2203.09163v2 [cs.CL] 2022年3月+v：mala2277获取更多论文↔↔···我的天我的天我的天我的天我→⟨ ⟩ ⟨ ⟩ ⟨⟩i=1布吕- -预定义的读/写路径（Dalvi et al. ，2018; Ma etal. ，2019），其中在写入之前的读取动作的数量是固定的。自适应策略（Gu et al. ，2017;Zheng et al. ，2019 b; Arivazhaganet al. ，2019;Zheng et al. ，2019a; Ma et al. ，2020; Liu etal. ，2021）由翻译质量和总等待时间引导动态地决定读取或写入，但是跳过读取/写入动作之间的充分性和必要性的评估。在这些理由下，我们的目标是在读/写动作之间引入充分性和必要性的评估，以指导读/写路径，而不涉及外部信息。如上所述，在理想的读/写路径中，源段（即，由连续READ动作读取的源字）和相应的目标段（即，由随后的连续WRITE动作生成的目标词）被认为语义上等价，从而相互转换，这构成了单独的分段对。因此，理想的读/写路径将整个句子对划分为一系列分段对，其中源句子和目标句子应该逐段地相互翻译。这意味着如果平移方向被反转，则也可以从相同的段对序列推导出目标到源SiMT的理想读/写路径。例如，根据图1（a）中的对齐，理想的头部注意力（Ma et al. ，2020）。通过最小化从两个读/写路径导出的段对之间的差异在IWSLT15 En Vi和WMT15 De En SiMT任务上的实验表明，我们的方法在所有延迟下都优于强基线，包括最先进的自适应策略。2背景我们首先简要介绍SiMT，重点是单调多头注意力（Ma et al. ，2020）。对于SiMT任务，我们将源句子表示为x =x1，，xj和相应的-将源隐藏状态设为m=m1，m 1，m 2，其中J是源长度。该模型生成tar r get语句y=y1 ，， yI其中 tar 得到隐藏状态s=s1，，s1，其中1是目标长度。在翻译过程中，SiMT模块决定读源词（READ）还是写目标词在每一步中，写入（WRITE），形成读/写路径。读 / 写路径可以以多种形式表示RRWWWRW），或者从目标到源的注意矩阵中从（0，0）到（I，J）的路径，如图1（b）所示。在数学上，读/写路径可以表示为：单调非减序列读/写路径应为“RRWWW |RW |RW ' inDe→En SiMT and ' RRRWW |RW |RW 'in{gi}=1 其中，i代表i的个数。日En De SiMT，如图1（b）所示，这两个共享Fand ich相同的片段对序列，我发现它，超级，伟大的和. ，。.因此，从源到目标和目标到源SiMT中的读取/写入路径导出的段对的一致性（称为二元约束）可以是评估读取/写入动作之间的充分性和必要性的良好选择基于上述推理，本文提出了一种双路径SiMT方法，该方法利用SiMT模型在反向方向上的读写路径之间的对偶约束，引导SiMT模型在当前方向上的读写路径与对偶约束，源中的读/写路径，目标词yi. g iI的值取决于具体的SiMT策略，其中单调多头注意力（MMA）（Ma et al. ，2020）是通过将读取/写入动作建模为伯努利变量的当前最先进的SiMT性能。单调多头注意力MMA对源词逐个处理，同时预测选择概率pij，表示读xj时写yi的概率，并据此计算伯努利随机变量zij，确定读或写动作：. mjVK（si−1VQ）TK目标到目标和目标到源SiMT应该就相应的段对达成一致。沿着这条线，我们的方法同时维护源到目标SiMT模型和目标到源SiMT模型，它们分别使用单调多线程生成它们自己的读/写路径。zij<$Bernoulli（pij），（2）其中VK和VQ是可学习的参数，dk是头部的尺寸如果zij= 0，则MMA执行读取动作以等待下一个源字。如果zij= 1，则MMA设置gi=j并执行WRITE动作以写入i时读入的源单词的错误率pij=Sigmoid、（1）+v：mala2277获取更多论文YLΣL基于x≤gi生成yi。因此，具有参数θ的y的解码概率为我p（y|x; θ）=p（y i|x≤gi，y< i; θ），（3）i=1其中，x

下载后可阅读完整内容，剩余1页未读，立即下载