无监督神经机器翻译中的源数据缺口对翻译性能的影响分析

121 浏览量更新于2023-12-01 收藏 551KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文}{⇒XX}{XX{XY}无监督神经机器翻译何志伟上海交通大学cs@sjtu.edu.cn兴旺腾讯AI Labang@tencent.com王锐†上海交通大学wangrui12@sjtu.edu.cn史树明腾讯AI Labshumingshi@tencent.com涂兆鹏腾讯人工智能实验室zptu@tencent.com摘要反向翻译是无监督神经机器翻译（UNMT）的一个关键组成部分，它从目标单语数据生成伪并行数据。UNMT模型在具有翻译源的伪并行数据上训练，并在推理中翻译自然源训练和推理之间的源差异阻碍了UNMT模型的翻译性能。通过精心设计的实验，我们确定了源数据缺口的两个代表性特征：（1）风格缺口（即，翻译文本样式与自然文本样式），这导致较差的泛化能力;（2）内容间隙，这导致模型产生偏向目标语言的幻觉内容为了缩小数据鸿沟，我们提出了一种在线自训练方法，该方法同时使用伪并行数据自然源，翻译目标来模仿推理场景。在几个广泛使用的语言对上的实验结果表明，我们的方法通过弥补风格和内容差距，性能优于两个强基线（XLM和MASS）。11介绍近年来，人们对无监督神经机器翻译（UNMT）越来越感兴趣，它只需要单语语料库来完成翻译任务（Lample et al. ，2018a，b;Artetxe et al. ，2018 b; Yang et al. ，2018; Renet al. ，2019）。UNMT的关键思想是使用回译（BT）（Sennrich et al. （2016）建设这些工作是何志伟在Ten- cent AI Lab实习时完成的。†Rui Wang为通讯作者。1代码、数据和训练模型可在https：//github.com/zwhe99/SelfTraining4UNMT网站。源靶列车X线推论XY表1：是用于X-Y转换上的UMMT训练的转换伪并行数据。训练和推理之间的输入差异：1）风格差距：翻译风格中的差异，2）内容空白：内容的缺失由于回译操作而产生的对译语Y的偏误，以及对源语X的偏误的内容。用于平移建模的伪并行数据。通常，UNMT将自然目标句子回译为合成源句子（ translatedsource sentence ）以形成训练数据。在伪并行数据转换的源、自然目标上计算BT损失，以更新UNMT模型的参数。在有监督的神经机器翻译（SNMT）中，Edmund等人（2020）发现BT会受到解释问题的影响（Zhang和Toral，2019; Graham等人，2019）。，2020），其中BT在源原始测试集上具有有限增益的情况下提高了目标原始测试集上的BLEU分数。与SNMT训练数据中可用的真实并行数据不同，UNMT训练数据完全来自由反向翻译生成的伪并行数据。因此，在这项工作中，我们首先重新审视了UNMT设置中的问题，并从观察（§2）开始我们的研究：在完整测试集上具有可比的翻译性能，基于BT的UNMT模型在目标原始（即原始）测试集上实现了比SNMT模型更好的翻译性能，而在源测试集上实现了更差的性能。arXiv：2203.08394v1 [cs.CL] 2022年3月+v：mala2277获取更多论文}{i=1}j=1{}{------∈YXX{}Y{}→Y原创的此外，BT生成的伪并行数据转换源、自然目标对UNMT提出了很大的挑战，如表1所示。首先，UNMT训练数据中的翻译源（翻译风格）和推理数据中的自然源（自然风格）之间存在输入差异我们发现，由风格差距（即，翻译风格与自然风格）限制了UNMT的翻译性能（§3.1）。第二，翻译的伪并行数据遭受语言覆盖偏差问题（Wang et al. ，2021），其中UNMT训练数据的内容偏向目标语言，而推理数据的内容偏向源语言。内容差距导致幻觉翻译（李等人。，2018; Wang和Sennrich，2020）偏向于目标语言（§ 3.2）。为了缓解训练和推理之间的数据差距，我们提出了一种在线自训练（ST）的方法来提高UNMT的性能。具体地说，除了BT损失，该方法还同步计算了伪并行数据自然源上的ST损失伪并行数据自然源，翻译的目标是用来模拟自然源，翻译的目标推理场景，以弥合数据差距的联合国机器人。值得注意的是，所提出的方法不花费额外的计算来生成伪并行数据自然源，翻译目标2，这使得所提出的方法高效且易于实现。我们在XLM（Lample和Conneau，2019）和MASS（Song et al. ，2019年）UNMT模型在不同语料库大小的多语言对（WMT 14 En-Fr/WMT 16 En-De/WMT 16 En-Ro/WMT 20En-De/WMT 21En-De）。实验结果表明，该方法在基线模型上取得了一致的改进.此外，我们进行了广泛的分析，以更好地理解所提出的方法，定量证据表明，所提出的方法缩小了风格和内容的差距，以实现改进。2、普通UNMT模型采用双重结构，将两个翻译方向一起训练，生成的伪语法数据自然源、翻译目标已经生成，用于反向更新UNMT模型的参数。概括地说，本工作的贡献详述如下：• 我们的实证研究表明，基于回译的UNMT框架存在着自适应问题，导致UNMT模型在标准基准上的评估不准确。• 我们实证分析了UNMT训练和推理之间的数据差距，并确定了两个关键因素：风格差距和内容差距。• 我们提出了一个简单而有效的方法，将自我训练方法纳入UNMT框架，以弥补训练和推理之间的数据差距。2UNMT中的翻译风格问题2.1背景：联合国布隆迪特派团符号。令X和Y表示语言pair，并且令=xiM且=yjN表示对应语言的单语句子的集合，其中M、N是对应集合的大小。通常，基于BT的UNMT方法采用双重结构来训练双向翻译模型（Artetxeet al. ，2018 b，2019;Lample et al. ，2018 a，b）.为了简单起见，我们只考虑平移方向X→Y，除非另有说明。在线BT。当前主流的联合机器人训练方法是通过BT将无监督任务转化为合成监督任务，BT是联合机器人训练中最关键的部分。给定目标语料库可用的翻译任务XY，对于每一批，目标句子y用于通过后向模型MTY→X生成其合成源句：xx= arg maxPY→X （ x|y;θ ），（1）其中θ是当前参数的固定副本θ表示梯度不通过θθ传播。以这种方式，获得合成并行语句对{x，y}，并将其用于通过最小化以下项来以监督方式训练前向模型MTX→YLB=EyY[−logP X→Y（y|xθ; θ）]。（二更）值得注意的是，BT生成的合成句子对是UNMT训练的唯一监督+v：mala2277获取更多论文L目标函数除了 BT 之外，去噪自动编码（DAE）是UNMT训练的额外损失项，由D表示，并且不是本工作中讨论的主要主题。总而言之，联合国布隆迪监测组的最终目标是：L=LB+λDLD，（3）其中λD是超参数加权DAE损失项。通常，λD从1开始，并且随着训练过程的继续而减小3。2.2翻译问题为了验证UNMT模型是否存在训练和推理之间的输入差距，从而偏向于翻译输入而反对自然输入，我们在SNMT和UNMT模型之间进行了比较设置我们根据Lample和Conneau（2019）和Song等人（2019）在WMT 14 En-Fr、WMT 16En-De和我们首先在上述语言对上训练UNMT模型，模型参数由XLM和MASS模型初始化。然后，我们训练相应的SNMT模型，其在全测试集上的性能通过对训练数据进行欠采样来控制近似于UNMT。最后，我们在目标原始测试集和源原始测试集上对UNMT和SNMT模型进行了评估，其输入分别是翻译的和自然的。除非另有说明，否则我们遵循先前的工作（Lample和Conneau，2019; Song等人，2019年）。，2019）使用区分大小写的BLEU评分（ Papineni et al. ， 2002 ），其中 multi-bleu.perl4脚本作为评估度量。SacreBLEU的结果参见附录B，SNMT和UNMT模型的训练细节参见附录A结果我们在表2中以BLEU评分的形式呈现了翻译性能，我们的观察结果是：• UNMT模型在整个测试集上的表现接近SNMT 模型，平均差异最多为 0.3BLEU33.6）。• UNMT模型在目标原始测试集（翻译输入）上的表现优于SNMT模型，3通过开源XLM Github实现验证。4https://github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl模型En-FrEn-DeEn-Ro平均值⇒ ⇐ ⇒ ⇐ ⇒ ⇐完整测试集SNMT 29.5 33.9 33.7 32.5 33.6XLM37.4 34.5 27.2 34.3 34.6 32.7 33.5质量 37.8 34.9 27.1 35.2 35.1 33.4 33.9目标-原始测试集/转换输入SNMT 37.4 32.4 25.6 33.2XLM39.1 36.5 26.6 42.2 42.1 34.4 36.8质量 39.2 37.6 27.0 42.9 43.1 35.6 37.6原始测试集/自然输入SNMT 38.2 34.1 32.3 28.8 29.4 35.9 33.1XLM34.7 30.4 26.6 22.5 27.4 30.6 28.7质量 35.2 30.2 26.1 23.6 27.4 30.8 28.9表2：SNMT和UNMT模型在完整/目标原始/源原始测试集上的翻译性能SNMT表示在欠采样并行数据上训练的监督翻译模型，并且它们在完整测试数据上的性能被控制为近似于UNMT对应物。平均BLEU评分改善3.6和4.4分（36.8/37.6 vs.33.2）。• UNMT模型在原始测试集（自然输入）上的表现低于SNMT模型，平均性能下降4.4和4.2个33.1）。上述观察结果对于预训练模型和平移方向是不变的。特别是，在自然投入方面，联合国布隆迪监测站的业绩不能令人满意，这表明，根据以前的基准，联合国布隆迪监测站被高估了。我们将这一现象归因于UNMT的训练和推理之间的数据差距：源原始测试数据的自然输入与UNMT用于训练的回译输入这项工作的重点是对源原始测试集（即，NMT翻译系统的输入通常是自然的），这更接近于实际情况。53训练和推理在本节中，我们确定了训练数据和推理数据之间的两个代表性数据差距，5从WMT 19开始，WMT社区建议使用自然输入集的源代码原始测试来评估翻译性能。+v：mala2277获取更多论文⇒⇒⇒推理输入PPL自然242翻译219表3：2013 -2018年最新测试中自然输入句和翻译输入句的困惑语言模型在UNMT翻译的源句子上进行训练。模型自然德翻译德BLEU BLEUSNMT 28.8联合国军事观察团22.5-6.3表4：WMT 16 De En的自然输入部分的翻译性能。我们还使用谷歌翻译器通过翻译相应的目标句子来生成翻译版本。UNMT：风格差距和内容数据。我们将测试集分为两个部分：原始输入部分和翻译输入部分，原始输入部分的源句子是用源语言编写的由于空间有限，我们使用预训练的XLM初始化进行实验，并使用不同类型的输入（即，自然和翻译输入）的De En newstest 2013 -2018，除非另有说明。3.1风格差距为了对风格差异进行定量分析，我们采用KenLM6对 UNMT翻译的源句7训练一个4-gram语言模型，并使用该语言模型计算测试集中自然输入句和翻译输入句的复杂度（PPL）。实验结果示于表3中。较低的困惑值（219 242）表明，与自然输入相比，UNMT翻译的训练输入与测试集中的。为了进一步揭示风格差距对UNMT的影响，我们手动消除了它，并在WMT16 De En的自然输入部分重新评估了模型。具体来说，我们首先采用第三方谷歌翻译器进行翻译6https://github.com/kpu/kenlm7为了缓解内容偏差问题，我们生成的训练数据50%来自翻译，50%来自往返翻译。将测试的目标英语句子集转换为源德语以消除风格差异。然后我们对自然输入部分和Google翻译部分进行了翻译我们在表4中列出了实验结果。我们可以发现，通过从自然输入（自然De）转换到翻译输入（翻译De），UNMT模型比SNMT模型获得了更大的改进（ -2.8 > -6.3），表明风格差距抑制了UNMT翻译输出质量。3.2内容差距在本节中，我们通过（1）显示最高频的名称实体，（2）使用训练和推理数据的词频-逆文档频率（TF- IDF）计算内容相似度来显示内容差距的存在我们使用spaCy8来识别测试集中UNMT翻译源句子、自然输入和翻译输入的德语命名实体，并在表5中显示了十个最常见的名称实体。从该表中，我们可以观察到UNMT翻译的源句子具有很少偏向源语言德语的命名实体（红色单词），而具有更多偏向目标语言英语的命名实体，例如，美国，奥巴马。这表明，联合国翻译的源语句的内容偏向于目标语言英语。同时，推理数据的自然输入部分具有更多偏向源语言德语的命名实体（红色单词），这表明推理数据的自然输入部分与UNMT翻译的训练数据之间存在内容差距。接下来，我们去除停止词，并使用词频-逆文档频率（TF-IDF）方法来计算训练数据和推理数据之间的内容相似度。相似性评分见表6。我们可以观察到UNMT翻译的源数据与从目标英语句子生成的翻译输入具有更显著的相似性得分。这一结果表明，联合国翻译的源数据的内容更偏向于目标语言，这与表5中的调查结果一致。由于很难测量名称实体，8https://github.com/explosion/spaCy+v：mala2277获取更多论文X→→y--数据最常见名称实体InputDie deutschen Kohlekraftwerke.代林自然推断输入翻译推断输入Deutschland，Stadt，CDU，deutschen，ZeitSPD，USA，deutsche，China，MittwochGroßbritannien，London，Trump，USA，Russia，VereinigtenStaaten，Europa德国发射Gesamtmenge。参考德国燃煤电厂，...，德国排放总量的三分之二。墨西哥人，美国人，奥巴马BT列车数据德国，dpa，美国，中国，奥巴马，StadtHause，Europa，大不列颠，俄罗斯SNMT...，德国燃煤发电厂德国的总排放量。表5：源语句中十个最常见的实体（即，返回翻译的训练数据（“BT Train Data”）的德语）。作为参考，我们还列出了自然和翻译推理输入中最常见的实体。BT训练数据具有更多偏向于目标语言英语（蓝色单词）而不是预期的源语言德语（红色单词）的实体。推理输入训练自然翻译自然0.95 0.85翻译0.84 0.93表6：不同类型的训练和推理数据之间的内容相似性。为了提高BLEU评估指标的翻译准确性，我们在表7中提供了一个翻译示例，以显示UNMT翻译中内容差距的影响（附录C中有更多示例）。我们观察到UNMT模型输出了幻觉化的翻译其偏向于目标语言英语。在第6.2节中，我们提出了一个定量分析，以显示内容差距对UNMT翻译绩效的影响。4UMMT在线自我培训为了弥补训练和推理之间的数据鸿沟，我们提出了一种简单有效的方法，通过自我训练。对于翻译任务XY，我们从源语料库中生成源原始训练样本，以提高模型对于每个批次，我们对自然源句子x应用前向模型MTX→Y来生成其翻译：美国燃煤发电厂美国排放总量的三分之二.表7：UNMT模型输出幻觉翻译偏向于目的语英语。在联合国布隆迪工作队的培训框架内，最终目标函数可表述为：L=LB+λDLD+λSLS，（6）其中λS是加权自训练损失项的超参数值得注意的是，Eq.（4）已完成的BT步骤的Y X训练。因此，所提出的方法不会显著增加训练成本，而是充分利用BT生成的数据（表9）。5实验5.1设置数据我们遵循通常的做法，在几个UNMT基准上进行实验：WMT 14 En-Fr，WMT 16 En-De，WMT 16 En-De，WMT 16 En-De。罗单语训练数据的详细信息见附录A.2。我们采用 En-Fr newsdev 2014 、 En-De newsdev2016、En-Ro news-dev 2016作为验证（开发）集， En-Fr newstest 2014 、 En-De newstest2016、En-Ro newstest 2016作为测试集。除了完整的测试集外，我们还将测试集分为两部分：目标源和源，并在这三种测试集上评估模型我们对所有语言对使用已发布的XLM BPE代码和词汇表。模型我们评估UNMT模型微调y= arg max P X→Y（y |x; θπ）。（四）通过这种方式，我们使用自然输入构建样本x，y，在此基础上，可以通过以下方式训练模型：在XLM 9和MASS 10预训练模型上（Lample和Conneau，2019; Song et al. ，2019）。对于XLM 模型，我们采用 Lample 和 Conneau（2019）为所有语言对发布的预训练模型。对于MASS模型，我们采用预训练的最小化：9https://github.com/facebookresearch/XLM+v：mala2277获取更多论文LS=Ex<$X[−logP X→Y（y <$ | x; θ)]. （5）10https://github.com/microsoft/MASS+v：mala2277获取更多论文↑⇑测试集模型方法En-Fr En-De En-Ro 平均值∆⇒ ⇐ ⇒ ⇐ ⇒ ⇐现有工程（全套）XLM（Lample和Conneau，2019） 33.433.326.434.333.331.832.1–MASS（Song et al. ，2019年）37.534.928.335.235.233.134.0–CBD（Nguyen et al. ，2021年）38.235.530.136.336.333.835.0–全套我们的实现XLMUNMT+自我训练37.8 35.1 28.1 34.8 36.2 33.9 34.3+0.8联马特派团特尔格奥里斯尔茨奥里+自我训练39.3 37.826.542.4 42.934.137.2+0.4联马特派团+自我训练39.0 37.327.7 42.7 42.9 35.3 37.5-0.1XLMUNMT 34.730.426.6 22.5 27.4 30.6 28.7+自我训练35.4<$30.228.0<$23.1↑ 29.6<$32.7< $29.8+1.1联马特派团+自我训练35.9<$30.9↑ 28.7<$24.9< $30.1< $31.9< $30.4 +1.5表8：WMT 14 En-Fr、WMT 16 En-De、WMT 16 En-Ro及其相应的源原始（自然输入）和目标原始（翻译输入）子集上的翻译性能。“

下载后可阅读完整内容，剩余1页未读，立即下载