从上述论述中总结得出的20字中文标题为：“多语言文档级翻译中的上下文建模与迁移质量”

141 浏览量更新于2023-12-01 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文多语言文档级翻译实现从句子到文档的张彪1分，安库尔2分，梅尔文2分，AliDabirmoghan2，Naveen Arivazhagan2，Orhan Firat21爱丁堡大学信息学院2谷歌研究b. ed.ac.uk，{ankurbpn，melvinp，dabir，navari，orhanf}@google.com摘要文档级神经机器翻译（DocNMT）通过结合跨句子上下文来实现连贯的翻译。然而，对于大多数语言对来说，尽管平行句子很容易找到，但平行文档的历史很短。本文研究了DocNMT中的上下文建模是否以及如何通过多语言建模进行转换。我们专注于从教师语言与文档级数据到学生语言没有文档，但句子级数据的零镜头传输的使用简单的基于拼接的DocNMT，我们探索了3个因素对迁移的影响：具有文档级数据的教师语言的数量，训练时文档和句子级数据之间的平衡，以及并行文档的数据条件（真实与回译）。我们在Europarl-7和IWITAL-10上的实验表明了DocNMT多语言传输的可行性，特别是在文档特定的度量上。我们观察到更多的教师语言和足够的数据平衡都有助于更好的迁移质量。令人惊讶的是，传输对数据条件不太敏感，多语言DocNMT无论是回译还是真正的文档对都能提供不错的性能。1介绍近年来，已经出现了从文档级神经机器翻译（Sen- NMT）到文档级神经机器翻译（Doc-NMT）的趋势。 SenNMT不可避免地遭受与文档现象相关的翻译错误（Marufet al. ，2021年），与人工翻译相比，并在文档级别进行评估时，其性能明显较差（Läubli等人，、张彪在谷歌研究院实习时完成的工作。文档丰富语言记录不良语言图1：DocNMT的聚焦零激发问题概述。我们研究将上下文建模从文档丰富的（教师）语言转移到文档贫乏的（学生）语言，其中只为学生提供句子对。传输发生在多语言设置中，如虚线矩形所示。虚线箭头表示传输方向。2018年）。DocNMT上的大多数努力旨在通过专用模型架构和/或解码算法改进上下文建模（ Bawdenet al. ， 2018; Voita et al. ， 2019;Chen et al. ，2020年），严重依赖大规模并行文档资源。然而，文档资源在语言对之间分布不均匀，大多数语言对几乎没有这样的资源。1一种有前途的方法来适应不同的训练数据的语言是多语言建模，如多语言 SenNMT（ Firatet al. ， 2016; Johnson et al. ， 2017年）。通过跨语言共享参数，多语言建模鼓励跨语言知识转移，从而实现性能改进，甚至零迁移（ Aharoni et al. ， 2019; Arivazhaganetal. ，2019b; Zhang et al. ，2020，2021）。然而，在翻译语境中，多语言迁移的研究大多集中在名词性翻译上，很少超越语际层面的到目前为止，文档级上下文建模是否以及如何在多语言DocNMT中跨语言学习的问题仍然没有答案。本文研究了零炮点推广问题对于DocNMT-1注意，我们使用语言和语言对可互换，因为我们的并行数据的一侧总是英语。DocNMT零发射转移w/句子对w/句子对SenNMTw/文档对W/O文档对arXiv：2109.10341v2 [cs.CL] 2022年5月+v：mala2277获取更多论文→→→→某些重点（学生）语言对的NMT质量，在多语言混合中，学生只使用平行句子，而其他（教师）语言使用平行文档我们试图回答的高级研究问题如图1所示。我们通过多语言迁移学习来利用教师语言的文献资源来帮助学生学习语言。我们使用一个简单的基于连接的DocNMT来执行我们的分析，其中连续的句子被链接到一个序列中进行翻译。我们广泛研究了三个维度来理解多语言DocNMT中的传输：1）具有文档级数据（教师语言）的语言数量，其中我们简化了传输设置，仅包含一种教师语言（具有N个学生）或N个教师（具有一个学生）; 2）并行文档的数据平衡，即在训练期间操纵文档级数据与句子级数据的比率;以及3）并行文档的数据条件，其中当仅给出教师语言中的单语言文档时，我们采用回译的并行文档，或者使用本地抓取的真正的并行文档我们在两个公开可用的数据集上进行了实验，即Europarl-7和IWARL-10，覆盖了6种和9种语言从/到英语的再学习。我们分别分析了一对多（En Xx）和多对一（Xx En）的翻译场景。根据最近的工作（ Ma et al. ，2021年），我们采用BLEU之外的文档特定指标进行评估，并通过人工评估支持我们的发现。我们还提出了一个代词F1指标（针对性别代词：他/她）的Xx En翻译，并采用对比测试集的准确性（ Bawden et al. ， 2018; Müller etal. ，2018年）的En XX翻译。我们的主要发现总结如下：• 通过多语言Doc-NMT建模，从句子到文档的零触发传输是可行的，特别是在使用文档特定指标进行评估时。这在一定程度上得到了人类评价的支持。• 使用文档级数据的教师语言的数量和文档的数据平衡对迁移质量有很大影响。更高的质量是通过更多的教师语言和足够的文档时间表来实现的，其中最佳平衡因场景而异。• 令人惊讶的是，通过回译文档传输的性能与通过真正的并行文档传输的性能相当。• 从高资源文档级语言到低资源语句级语言的零触发迁移相对容易，从而获得更好的迁移效果。2相关工作文档级MT将文档级信息有意义地集成到NMT中是一项艰巨的任务，这不仅激发了探索高级上下文感知神经架构的研究，包括简单的基于连接的模型（ Tiedemann 和 Scherrer ， 2017;Junczys-Dowmunt ， 2019; Lopes 等人， 2019年）。，2020），多源模型（Jean et al. ，2017; Bawden et al. ， 2018; Zhang et al. ，2018）、分层模型（Miculi-cichet al. ，2018;Zheng et al. ，2020; Chen等人，2020）、多通道模型（Voita et al. ，2019; Yuet al. ，2020;Mansimov et al. ，2021）和动态上下文模型（Kang et al. 2020年），仅举几例。但它也促使该领域重新审视用于评估的共同协议（Freitaget al. ，2021年）。尽管很难衡量成功，所有上述方法都隐含地假设了丰富的文献资源，忽视了数据稀缺的问题。在这项研究中，我们采用简单的连接模型作为我们的实验协议，并留下各种输入格式选项和建模的探索，以未来的工作。考虑到（上下文）机器翻译评估的快速变化，我们还提供了包括人类评估在内的多种评估指标，以全面了解正在调查的现象，同时承认目前评估机器翻译系统的正确方法存在缺陷和分歧（Kocmi et al. ，2021年）。多语言建模通常将来自共享语义空间内的不同语言的具有相似含义的句子聚类（Kuduguntaet al. ，2019; Siddhant et al. ，2020）。假设这样的表示空间能够实现零镜头传输，在许多跨语言任务中提供改进的性能（Eriguchi et al. ，2018; Hu et al. ，2020; Chi等人，2021; Ruder等人，2021），特别是基于大规模预训练的多语言转换器（Devlin et al. ，2019; Conneau andLample，2019; Xue et al. ，2021年）。当涉及到transla-+v：mala2277获取更多论文→→因此，多语言SenNMT成功地实现了零镜头翻译，将翻译级生成知识转移到训练过程中看不见的语言对（Firat et al. ，2016; Johnson et al. ，2017; Gu et al. ， 2019; Arivazhagan et al. ，2019a ），即使在大规模的多语言环境（Aharoni et al. ，2019; Arivazhagan et al. ，2019b; Zhang et al. ，2020，2021）。我们的研究将多语言 SennMT 扩展到多语言DocNMT，旨在从具有文档级数据的语言到仅具有句子级数据的语言的文档级知识转移。据我们所知，我们的研究是第一次证明跨语言文档级零镜头传输的出现，用于多语言机器翻译。3多语言DocNMT中的零次传输我们首先制定了本文探讨的零杆泛化框架。给定N+1个语言对，我们假设所有语言对都有用于训练的para-sentences，但其中只有一部分有并行文档（教师）。通过多语言训练，我们研究文档监督DocNMT中的上下文建模在多大程度上可以转移到那些文档贫乏（学生）语言，如图1所示。在培训中不允许任何形式的学生语言平行文档，确保迁移是零射击测量。3.1多语言DocNMT我们采用基于连接的方法，具有DocNMT的D2D结构，其中文档中的D个连续句子被连接成一个用于翻译的序列（Junczys-Dowmunt，2019; Sun et al. ，2020）。句子边界用特殊符号“[SEN]"表示我们采用语言标记法（约翰逊等。，2017年），分别使用源和目标我们没有将这个标记附加到源序列中，而是将它的嵌入添加到每个源单词嵌入中，以加强文档翻译设置中的对于训练，我们采用了两阶段的方法：我们首先在所有语言的句子级数据上预训练多语言SenNMT;然后，我们微调它模型，两阶段方法通过共享预训练的SenNMT节省为了评估，我们区分句子级推理（ SenInfer ）和文档级推理（ DocInfer ）。SenInfer单独翻译句子（脱离上下文），而DocInfer翻译D个连续和不重叠的句子。23.2零发射设置我们探讨了零发射传输的三个因素• 教师语言的数量迁移的来源是教师语言。直观地说，教师语言的数量然而，在多语言环境中详尽地探索所有可能的教师-学生配置将导致一个大的搜索空间，该搜索空间相对于所涉及的语言总数呈指数级扩展。相反，我们通过探索两个极端的转移设置，即N21和12N转移来简化我们的研究。第一个设置使用N个教师，其合并文档级数据，其中1个学生仅具有句子级数据，而第二个设置具有1个教师和N个学生。注意，无论是N21或12N迁移，都存在N个师生配置，我们报告了它们的平均结果。3• 并行文档的数据平衡当改变教师语言的数量时，训练时文档数据的比例也会改变。这种不平衡可能会严重影响转移（Arivazhagan et al. ，2019 b）。为了抵消这种影响，我们通过将文档的采样率p控制在0.1到0.9之间，步长为0.1，来包括用于分析的数据平衡。注p是所有教师语言的文件，教师之间的相对比例始终保留。• 平行文档的数据条件我们还研究了当教师语言没有平行文档而只有单语文档时的数据条件。利用单语文档进行DocNMT的方法差异很大。根据最近的工作（杉山和吉永，要获得多语言DocNMT，从教师语言中提取句子级数据，从学生语言中提取句子级数据。我们的分析需要训练大量的DocNMT2在解码阶段，源文档中的最后一块可以有9%增益）。7结论和今后的工作本文研究了通过从能够访问文档级数据的语言（教师）进行多语言转换来实现只有句子级数据的语言（学生）的零镜头文档级翻译能力我们在这个方向上迈出了第一步，通过研究三个不同的变量来广泛地探索转移的性质我们在Europarl-7和IWARL-10上的实验证实了可行性，我们发现增加文档监督的教师语言从而增加文档训练数据大小，在训练时适当平衡文档和DocNMT中上下文建模的可移植性展示了在有限的文档资源下交付多语言DocNMT的潜力随着文档级零镜头传输的成功，准确估计文档级翻译的问题变得棘手。BLEU通常无法捕获文档现象，而对比测试集仅涵盖少数文档级方面。也不完全正确-模型参考人的评价（↑）4.96SenNMT（基线）3.31DocNMT软件包/SenInfer3.60带DocInfer的 DocNMT3.84N21 Transfer w/DocInfer3.4612N传输，带DocInfer2.78N21传输+ BT，带DocInfer3.1812N传输+ BT，带DocInfer2.72+v：mala2277获取更多论文与人类评价的差距此外，收益是否真的来自上下文建模仍然不清楚。我们的人工评估显示了对DocNMT与SenInfer的一些兼容性，其中上下文根本不用于解码。设计更好的评估协议（自动或人工）再次被证实是至关重要的。除此之外，对12 N和N21迁移的研究也值得进一步的努力，研究语言相似性对迁移的影响是一个有趣而可行的方向确认我们感谢评论者的深刻评论。我们要感谢Macduff Hughes和Wolfgang Macherey的宝贵反馈。我们还要感谢谷歌翻译团队的建设性讨论和评论。引用Roee Aharoni，Melvin Johnson，Orhan Firat。2019年。大规模多语言神经机器翻译。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第3874-3884页，明尼阿波利斯，明尼苏达州。计算语言学协会。Naveen Arivazhagan，Ankur Bapna，Orhan Firat，Roee Aharoni ， Melvin Johnson ， and WolfgangMacherey. 2019年a。零射击神经机器翻译中缺少的成分。Naveen Arivazhagan，Ankur Bapna，Orhan Firat，Dmitry Lepikhin ， Melvin Johnson ， MaximKrikun ， Mia Xu Chen ， Yuan Cao ， GeorgeFoster ， Colin Cherry ， Wolfgang Macherey ，Zhifeng Chen，and Yonghui Wu. 2019年b. 大规模多语言神经机器翻译：发现和挑战。Loïc Barrault ， Magdalena Biesialska ， Ond ZarrejBojar ， MartaR.Costa-jussà 、 ChristianFedermann、YvetteGraham、RomanGrundkiewicz、Barry Haddow、Matthias Huck、Eric Joanis 、 Tom Kocmi 、 PhilippKoehn 、 Chi-kiuLo、Nik olaLjube Zampieric'、Christof Monz、Makoto Morishita 、 Masaaki Nagata 、 Toshi-akiNakazawa 、Santanu Jakov 、Matt Post和MarcosZampieri 。 2020. 2020 年机器翻译会议（WMT20）第五届机器翻译会议论文集，第1-55页，在线。计算语言学协会。瑞秋·鲍登，里科·森里奇，亚历山德拉·伯奇，巴里·哈多。2018年神经机器翻译中语篇现象的评价。InProceedings of2018年计算语言学协会北美分会会议：人类语言技术，第1卷（长纸），第1304-1313页，路易斯安那州新奥尔良。计算语言学协会。M. 切托洛湾费德里科湖 Bentivogli，J. 尼休斯，S. Stüker，K.Sudoh，K.Yoshino和C.费德曼2017.iwslt 2017评估活动。在国际口语翻译研讨会，东京，日本。Junxuan Chen ， Xiang Li ， Jiarui Zhang ， ChulunZhou ， Jianwei Cui ， Bin Wang ， and JinsongSu.2020年。文档级神经机器翻译建模。第一届自动同声翻译研讨会论文集，第30-36页，西雅图，华盛顿。计算语言学协会。Zewen Chi ， Li Dong ， Furu Wei ， Nan Yang ，Saksham Singhal ， Wenhui Wang ， Xia Song ，Xian-Ling Mao，Heyan Huang，and Ming Zhou.2021. InfoXLM：跨语言语言模型预训练。在计算语言学协会北美分会20

下载后可阅读完整内容，剩余1页未读，立即下载