基于长度感知框架的同步机器翻译的位置偏差分析与改进

104 浏览量更新于2023-11-30 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文基于长度感知框架张少磊1，2，杨锋1，21智能信息处理中国科学院计算技术研究所（ICT/CAS）2中国科学院大学，中国{zhangshaolei20z，fengyang}@ict.ac.cn摘要同步机器翻译（SiMT）在接收流源输入的同时开始翻译，因此源发送资料来源：目标：ŏ全部刑期ŏ在翻译过程中，时态往往是不完整的。与使用(a) 具有seq-to-seq架构的传统的Seq-to-Seq体系结构中，SiMT 10应用前缀-前缀体系结构，这迫使每个目标字仅与部分源前缀对齐，以适应流输入中的不完整源。然而，在前面位置的源词是资料来源：目标：ŏ源前缀ŏ由于它们出现在前缀中的次数较多，往往被误认为更重要，从而产生位置偏差，使得模型在测试时更加关注前端源位置。本文首先分析了SiMT中的位置偏差现象，并提出了一个长度感知框架，通过弥合SiMT和整句MT之间的结构鸿沟来减少位置偏差具体地，给定流输入，我们首先预测整句长度，然后用位置编码填充未来源位置，从而将流输入变成伪整句。所提出的框架可以集成到大多数现有的SiMT方法，以进一步提高性能。两个代表性的SiMT方法，包括国家的最先进的自适应政策的实验表明，我们的方法可持续地减少位置偏差，从而实现更好的SiMT性能。1介绍同步机器翻译（SiMT）（Cho和Esipova，2016; Gu et al. ， 2017; Ma 等人， 2019;Arivazhagan et al. ，2019）在接收流媒体源输入的同时开始翻译，这对于许多现场场景（例如同声传译、现场广播和同步字幕）至关重要。与等待完整源信息的全句机译相比通讯作者：杨峰.(b) 具有前缀到前缀架构的图1：整句MT和SiMT的架构。然而，SiMT更具有挑战性，因为在翻译过程中源句子总是不完整的。为了处理不完整的源代码，SiMT具有与整句MT不同的架构，如图1所示。整句MT应用seq-to-seq架构（Sutskever et al. ，2014），其中每个目标词可以基于完整的源句子来翻译SiMT始终应用前缀到前缀架构（Ma et al. ，2019），以迫使每个目标词仅与源前缀而不是完整的源句子对齐，其中源前缀由在前面位置的部分源词组成，并且在每个步骤处单调非递减。尽管前缀到前缀架构通过移除后续源词而有效地适应流输入，但它加剧了SiMT和整句MT之间的结构差距，导致以下问题。首先，由于每个目标词被强制与单调非递减的源前缀对齐具体而言，由于源语出现较早，处于前位置的源语参与了更多的译arXiv：2203.09053v2 [cs.CL] 2022年3月+v：mala2277获取更多论文Y我的天→→.Σ|.ΣY.Σ认为更重要，导致位置偏差（Ko et al. ，2020;Yan等人，2021年）。由于位置偏差，SiMT模型在测试过程中更倾向于关注位于前面位置的源词，这不仅剥夺了本应对齐的词的注意力（增加了误译错误）（Zhang and Feng，2021b），而且导致注意力分布的极大重叠（加剧了重复翻译错误）（Elbayad et al. ，2020）。本文将详细分析我国证券市场中职位偏见产生的原因和弊端3. 第二，前缀到前缀结构直接删除了后续的源词，导致一些潜在的整句信息的丢失（Zhang et al. ，2021年）。最重要的是，前缀到前缀的训练使模型对整句长度不敏感，这可以为翻译提供全局规划（Feng et al. ，2020，2021）。得到长度I。Transformer（Vaswani et al. ，2017）是目前最广泛使用的用于全句MT的模型，它由编码器和解码器组成编码器将x映射到源隐藏状态h=h1，h1<，，总体而言，整句MT的解码概率为：我pfu ll（y|x）= p（yi|x，y2时。然而，SiMT中的位置偏差使得该模型总是集中在某些特定的源词在前面的位置，从而加剧了重复翻译错误，特别是在固定的政策。在3-grams中，Wait-k的重复翻译大约是整句MT的6倍，这与之前的结论一致（Elbayad et al. ，2020）。应用LAF后，SiMT中的重复翻译显著减少，与整句MT相似7.5不同难度的改进词序差异是SiMT的主要挑战，其中许多词序反转可能迫使模型在读取对齐的源词之前开始翻译（Chen et al. ，2021年）。按照Zhang和Feng（2021c）的方法，我们根据词序颠倒的数量Wait-k + LAFMMA + LAF整句Wait-kWait-k + LAF准确度（%）etenc+ LAFl-senAAFulMMMM平均注意平均注意+v：mala2277获取更多论文2.31参考整句Wait-k +MMA +1.331.280.980.210.090.050.340.380.460.510.510.681.091.12LAFLAFWait-kMMA1.79关注未来的源位置a a新一轮间接会谈有望本月在埃及开始.新一轮间接会谈有望本月在埃及举行的.新一轮间接会谈有望本月在埃及举行.新一轮间接会谈有望本月在埃及举行.新一轮间接会谈有望本月在埃及开始.(a) 整句机器翻译(b) Wait-k(c) Wait-k + LAF(d) MMA(e) MMA + LAF图9：De→En任务中的注意力可视化水平轴是源输入，垂直轴是目标平移。LAF中带有“×”的位置‘颜色的深浅表示注意力权重。0.520.40.30.210.10.05 10 15 20 25 30 35 40解码步骤02克3克4克5克图11：不同解码图10：翻译中重复n元语法的比例，其中LAF消除了不需要的重复。在使用快速比对5（Dyer et al. ，2013），并在表2中报告每组的结果。对于整句机器翻译，词序颠倒不会造成太大的挑战，因此不同集合之间的性能差距很小。在SiMT中，词序反转往往会导致模型在读取对齐的源词之前进行翻译，迫使目标词关注一些不相关的源词，从而导致模型在硬集上的表现不佳。LAF将不完整的源补充到完整的句子长度，这使得目标词在未接收到对齐词时可以关注后续位置，而不是必须关注当前不相关的源词，从而使目标词能够在不需要对齐词的情况下，提高硬集的性能7.6注意力特征LAF通过预测整句长度和位置编码填充未来位置来构造伪整句为了验证未来位置的重要性，我们计算未来位置上的注意力权重（即，填充有位置编码）。一开始，未来的前景--5https://github.com/clab/fast_align步在第一个解码步骤中，它获得了大约30%的关注度随着接收到的源词的增加，未来位置受到的关注逐渐减少。此外，我们在图9中可视化了一个示例的注意力分布。在Wait-k和MMA中，注意力更多地集中在前面的位置上，尤其是Wait-k过分关注第一个源词，导致了 “expected to to tohold“的重译利用LAF，当未接收到对齐的源单词时，未来位置倾向于得到更多的关注，例如，当此外，LAF中的预测长度是动态变化的，并逐渐接近整句长度。总的来说，LAF减少了位置偏差，从而减少了注意力 SiMT中的注意力与整句MT中的注意力更为相似，从而提高了翻译质量。8结论本文提出了一种基于长度感知的SiMT算法框架，以减小不完整源带来的位置偏差实验结果表明，该方法能够弥合SiMT和整句MT之间的结构鸿沟，取得了令人满意的结果重复比例（%）WAit-k + LAFMMA + LAF+v：mala2277获取更多论文确认我们感谢所有匿名评论者的深刻和宝贵的意见。本工作得到了国家重点科技攻关项目（2005年）的资助。2017YFE0192900）。引用Ashkan Alinejad ， Hassan S. Shavarani 和 AnoopSarkar 2021. 同步神经机器翻译中基于翻译的策略生成监督。在2021年自然语言处理经验方法集，第1734-1744页，在线和蓬塔卡纳，多米尼加共和国。计算语言学协会。Ashkan Alinejad ， Maryam Siahbani ， and AnoopSarkar.2018. 预测提高了同步神经机器翻译。在2018年自然语言处理经验方法会议论文集，第3022-3027页，比利时布鲁塞尔。计算语言学协会。Naveen Arivazhagan ， Colin Cherry ， WolfgangMacherey，Chung-Cheng Chiu，Semih Yavuz，Ruoming Pang，Wei Li，and Colin Raffel. 2019.单调无限回看注意的同时机器翻译。在计算语言学协会第57届年会的会议记录中，第1313-1323页，意大利佛罗伦萨。计算语言学协会。菲利普·亚瑟特雷弗·科恩和戈拉姆瑞扎·哈法利2021.利用模仿学习学习同步机器翻译的耦合策略。在计算语言学协会欧洲分会第16届会议的会议上：主卷，第2709-2719页计算语言学协会。Srinivas Bangalore，Vivek Kumar Rangarajan Srid-har，Prakash Kolan，Ladan Golipour，and AuraJimenez. 2012. 对话的实时增量语音到语音翻译。在计算语言学协会北美分会2012年会议的会议记录中：人类语言技术，第437-445页，加拿大蒙特利尔。计算语言学协会。Mauro Cettolo ， Niehues Jan ， Stüker Sebastian ，Luisa Bentivogli，R.卡托尼和马塞洛·费德里科。2015年。iwslt 2015评估活动。Junkun Chen ， Renjie Zheng ， Atsuhito Kita ，Mingbo Ma，and Liang Huang. 2021. 通过引入伪参考和较少的重新排序来改善同步翻译。在2021年自然语言处理经验方法会议论文集，第5857-5864页，在线和蓬塔卡纳，多米尼加共和国。计算语言学协会。赵京铉和玛莎·艾西波娃2016年。神经机器翻译可以做同声翻译吗？Chris Dyer ， Victor Chahuneau 和 Noah A. 史密斯2013. 一个简单，快速，有效的重新参数化的IBM模型2。在计算语言学协会北美分会2013年会议的会议记录中：胡曼语言技术，第644-648页，佐治亚州亚特兰大。计算语言学协会。Maha Elbayad，Michael Ustaszewski，EmmanuelleEsperança-Rodier ， Francis Brunet-Manquat ，Jakob Verbeek，and Laurent Besacier. 2020. 在线与离线NMT质量：深入分析英德和德英。第28届计算语言学，第5047国际计算语言学委员会。杨峰，顾书豪，郭登吉，杨正新，邵晨泽。 2021.神经机器翻译中的教师强迫与预言者强迫。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议中，第2862-2872页，在线。计算语言学协会。Yang Feng ， Wanying Xie ， Shuhao Gu ， ChenzeShao，Wen Zhang，Zhengxin Yang ，and DongYu. 2020. 为不同的神经机器翻译建立流畅性和忠实性模型。Proceedings of the AAAI Conferenceon Artificial Intelligence，34（01）：59Jiatao Gu，Graham Neubig，Kyunghyun Cho，andVic- tor O.K.李2017. 使用神经机器翻译学习实时翻译。在计算语言学协会欧洲分会第15次会议的会议记录：第1卷，长文，第1053-1062页，瓦伦西亚，西班牙。计算语言学协会。Shuhao Gu，Jinchao Zhang，Fandong Meng，YangFeng ， Wanying Xie ， Jie Zhou ， and Dong Yu.2020. 用于神经机器翻译的令牌级自适应训练。在 2020 年自然语言处理经验方法会议（EMNLP）的会议中，第1035-1046页。计算语言学协会。Miyoung Ko ， Jinhyuk Lee ， Hyunjae Kim ，Gangwoo Kim，and Jaewoo Kang. 2020. 看看第一句话：问题回答中的立场偏见。在2020年自然语言处理经验方法会议（EMNLP）中，第1109计算语言学协会Jason Lee Elman Mansimov和Kyunhyun Cho。2018.迭代精化的确定性非自回归神经序列建模。在Pro-+v：mala2277获取更多论文2018年自然语言处理经验方法会议，第1173-1182页，比利时布鲁塞尔。计算语言

下载后可阅读完整内容，剩余1页未读，立即下载