没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文}{⇒XX}{XX{XY}无监督神经机器翻译何志伟上海交通大学cs@sjtu.edu.cn兴旺腾讯AI Labang@tencent.com王锐†上海交通大学wangrui12@sjtu.edu.cn史树明腾讯AI Labshumingshi@tencent.com涂兆鹏腾讯人工智能实验室zptu@tencent.com摘要反 向 翻 译 是 无 监 督 神 经 机 器 翻 译(UNMT)的一个关键组成部分,它从目标单语数据生成伪并行数据。UNMT模型在具有翻译源的伪并行数据上训练,并在推理中翻译自然源训练和推理之间的源差异阻碍了UNMT模型的翻译性能。通过精心设计的实验,我们确定了源数据缺口的两个代表性特征:(1)风格缺口(即,翻译文本样式与自然文本样式),这导致较差的泛化能力;(2)内容间隙,这导致模型产生偏向目标语言的幻觉内容为了缩小数据鸿沟,我们提出了一种在线自训练方法,该方法同时使用伪并行数据自然源,翻译目标来模仿推理场景。在几个广泛使用的语言对上的实验结果表明,我们的方法通过弥补风格和内容差距,性能优于两个强基线(XLM和MASS)。11介绍近 年 来 , 人 们 对 无 监 督 神 经 机 器 翻 译(UNMT)越来越感兴趣,它只需要单语语料库来完成翻译任务(Lample et al. ,2018a,b;Artetxe et al. ,2018 b; Yang et al. ,2018; Renet al. ,2019)。UNMT的关键思想是使用回译(BT)(Sennrich et al. (2016)建设这些工作是何志伟在Ten- cent AI Lab实习时完成的。†Rui Wang为通讯作者。1代码、数据和训练模型可在https://github.com/zwhe99/SelfTraining4UNMT网站。源靶列车X线推论XY表1:是用于X-Y转换上的UMMT训练的转换伪并行数据。训练和推理之间的输入差异:1)风格差距:翻译风格中的差异,2)内容空白:内容的缺失由于回译操作而产生的对译语Y的偏误,以及对源语X的偏误的内容。用于平移建模的伪并行数据。通常,UNMT将自 然 目 标 句 子 回 译 为 合 成 源 句 子( translatedsource sentence ) 以 形 成 训 练 数据。在伪并行数据转换的源、自然目标上计算BT损失,以更新UNMT模型的参数。在有监督的神经机器翻译(SNMT)中,Edmund等人(2020)发现BT会受到解释问题的影响(Zhang和Toral,2019; Graham等人,2019)。,2020),其中BT在源原始测试集上具有有限增益的情况下提高了目标原始测试集上的BLEU分数。与SNMT训练数据中可用的真实并行数据不同,UNMT训练数据完全来自由反向翻译生成的伪并行数据。因此,在这项工作中,我们首先重新审视了UNMT设置中的问题,并从观察(§2)开始我们的研究:在完整测试集上具有可比的翻译性能,基于BT的UNMT模型在目标原始(即原始)测试集上实现了比SNMT模型更好的翻译性能,而在源测试集上实现了更差的性能。arXiv:2203.08394v1 [cs.CL] 2022年3月+v:mala2277获取更多论文}{i=1}j=1{}{------∈YXX{}Y{}→Y原创的此外,BT生成的伪并行数据转换源、自然目标对UNMT提出了很大的挑战,如表1所示。首先,UNMT训练数据中的翻译源(翻译风格)和推理数据中的自然源(自然风格)之间存在输入差异我们发现,由风格差距(即,翻译风格与自然风格)限制了UNMT的翻译性能(§3.1)。第二,翻译的伪并行数据遭受语言覆盖偏差问题(Wang et al. ,2021),其中UNMT训练数据的内容偏向目标语言,而推理数据的内容偏向源语言。 内容差距导致幻觉翻译(李等人。,2018; Wang和Sennrich,2020)偏向于目标语言(§ 3.2)。为了缓解训练和推理之间的数据差距,我们提出了一种在线自训练(ST)的方法来提高UNMT的性能。具体地说,除了BT损失,该方法还同步计算了伪并行数据自然源上的ST损失伪并行数据自然源,翻译的目标是用来模拟自然源,翻译的目标推理场景,以弥合数据差距的联合国机器人。值得注意的是,所提出的方法不花费额外的计算来生成伪并行数据自然源,翻译目标2,这使得所提出的方法高效且易于实现。我们在XLM(Lample和Conneau,2019)和MASS(Song et al. ,2019年)UNMT模型在不同语料库大小的多语言对(WMT 14 En-Fr/WMT 16 En-De/WMT 16 En-Ro/WMT 20En-De/WMT 21En-De)。实验结果表明,该方法在基线模型上取得了一致的改进.此外,我们进行了广泛的分析,以更好地理解所提出的方法,定量证据表明,所提出的方法缩小了风格和内容的差距,以实现改进。2、普通UNMT模型采用双重结构,将两个翻译方向一起训练,生成的伪语法数据自然源、翻译目标已经生成,用于反向更新UNMT模型的参数。概括地说,本工作的贡献详述如下:• 我们的实证研究表明,基于回译的UNMT框架存在着自适应问题,导致UNMT模型在标准基准上的评估不准确。• 我们实证分析了UNMT训练和推理之间的数据差距,并确定了两个关键因素:风格差距和内容差距。• 我们提出了一个简单而有效的方法,将自我训练方法纳入UNMT框架,以弥补训练和推理之间的数据差距。2UNMT中的翻译风格问题2.1背景:联合国布隆迪特派团符号。令X和Y表示语言pair,并且令=xiM且=yjN表示对应语言的单语句子的集合,其中M、N是对应集合的大小。通常,基于BT的UNMT方法采用双重结构来训练双向翻译模型(Artetxeet al. ,2018 b,2019;Lample et al. ,2018 a,b).为了简单起见,我们只考虑平移方向X→Y,除非另有说明。在线BT。当 前 主流的联合机器人训练方法是通过BT将无监督任务转化为合成监督任务,BT是联合机器人训练中最关键的部分。 给定目标语料库可用的翻译任务XY,对于每一批,目标句子y用于通过后向模型MTY→X生成其合成源句:xx= arg maxPY→X ( x|y;θ ) ,(1)其中θ是当前参数的固定副本θ表示梯度不通过θθ传播。以这种方式,获得合成并行语句对{x,y},并将其用于通过最小化以下项来以监督方式训练前向模型MTX→YLB=EyY[−logP X→Y(y|xθ; θ)]。(二更)值得注意的是,BT生成的合成句子对是UNMT训练的唯一监督+v:mala2277获取更多论文L目 标 函 数 除 了 BT 之 外 , 去 噪 自 动编 码(DAE)是UNMT训练的额外损失项,由D表示,并且不是本工作中讨论的主要主题。总而言之,联合国布隆迪监测组的最终目标是:L=LB+λDLD,(3)其中λD是超参数加权DAE损失项。通常,λD从1开始,并且随着训练过程的继续而减小3。2.2翻译问题为了验证UNMT模型是否存在训练和推理之间的输入差距,从而偏向于翻译输入而反对自然输入,我们在SNMT和UNMT模型之间进行了比较设置我们根据Lample和Conneau(2019)和Song等人(2019)在WMT 14 En-Fr、WMT 16En-De和我们首先在上述语言对上训练UNMT模型,模型参数由XLM和MASS模型初始化。然后,我们训练相应的SNMT模型,其在全测试集上的性能通过对训练数据进行欠采样来控制近似于UNMT。最后,我们在目标原始测试集和源原始测试集上对UNMT和SNMT模型进行了评估,其输入分别是翻译的和自然的。除非另有说明,否则我们遵循先前的工作(Lample和Conneau,2019; Song等人,2019年)。,2019)使用区分大小写的BLEU评分( Papineni et al. , 2002 ) , 其 中 multi-bleu.perl4脚本作为评估度量。SacreBLEU的结果参见附录B,SNMT和UNMT模型的训练细节参见附录A结果我们在表2中以BLEU评分的形式呈现了翻译性能,我们的观察结果是:• UNMT模 型 在 整个 测 试 集 上 的 表现 接 近SNMT 模 型 , 平 均 差 异 最 多 为 0.3BLEU33.6)。• UNMT模型在目标原始测试集(翻译输入)上的表现优于SNMT模型,3通过开源XLM Github实现验证。4https://github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl模型En-FrEn-DeEn-Ro平均值⇒ ⇐ ⇒ ⇐ ⇒ ⇐完整测试集SNMT 29.5 33.9 33.7 32.5 33.6XLM37.4 34.5 27.2 34.3 34.6 32.7 33.5质量 37.8 34.9 27.1 35.2 35.1 33.4 33.9目标-原始测试集/转换输入SNMT 37.4 32.4 25.6 33.2XLM39.1 36.5 26.6 42.2 42.1 34.4 36.8质量 39.2 37.6 27.0 42.9 43.1 35.6 37.6原始测试集/自然输入SNMT 38.2 34.1 32.3 28.8 29.4 35.9 33.1XLM34.7 30.4 26.6 22.5 27.4 30.6 28.7质量 35.2 30.2 26.1 23.6 27.4 30.8 28.9表2:SNMT和UNMT模型在完整/目标原始/源原始测试集上的翻译性能SNMT表示在欠采样并行数据上训练的监督翻译模型,并且它们在完整测试数据上的性能被控制为近似于UNMT对应物。平均BLEU评分改善3.6和4.4分(36.8/37.6 vs.33.2)。• UNMT模型在原始测试集(自然输入)上的表现低于SNMT模型,平均性能下降4.4和4.2个33.1)。上述观察结果对于预训练模型和平移方向是不变的。特别是,在自然投入方面,联合国布隆迪监测站的业绩不能令人满意,这表明,根据以前的基准,联合国布隆迪监测站被高估了。我们将这一现象归因于UNMT的训练和推理之间的数据差距:源原始测试数据的自然输入与UNMT用于训练的回译输入这项工作的重点是对源原始测试集(即,NMT翻译系统的输入通常是自然的),这更接近于实际情况。53训练和推理在本节中,我们确定了训练数据和推理数据之间的两个代表性数据差距,5从WMT 19开始,WMT社区建议使用自然输入集的源代码原始测试来评估翻译性能。+v:mala2277获取更多论文⇒⇒⇒推理输入PPL自然242翻译219表3:2013 -2018年最新测试中自然输入句和翻译输入句的困惑语言模型在UNMT翻译的源句子上进行训练。模型自然德翻译德BLEU BLEUSNMT 28.8联合国军事观察团22.5-6.3表4:WMT 16 De En的自然输入部分的翻译性能。我们还使用谷歌翻译器通过翻译相应的目标句子来生成翻译版本。UNMT:风格差距和内容数据。我们将测试集分为两个部分:原始输入部分和翻译输入部分,原始输入部分的源句子是用源语言编写的由于空间有限,我们使用预训练的XLM初始化进行实验,并使用不同类型的输入(即,自然和翻译输入)的De En newstest 2013 -2018,除非另有说明。3.1风格差距为了对风格差异进行定量分析,我们采用KenLM6对 UNMT翻译的源句7训练一个4-gram语言模型,并使用该语言模型计算测试集中自然输入句和翻译输入句的复杂度(PPL)。实验结果示于表3中。较低的困惑值(219 242)表明,与自然输入相比,UNMT翻译的训练输入与测试集中的。为了进一步揭示风格差距对UNMT的影响,我们手动消除了它,并在WMT16 De En的自然输入部分重新评估了模型。具体来说,我们首先采用第三方谷歌翻译器进行翻译6https://github.com/kpu/kenlm7为了缓解内容偏差问题,我们生成的训练数据50%来自翻译,50%来自往返翻译。将测试的目标英语句子集转换为源德语以消除风格差异。然后我们对自然输入部分和Google翻译部分进行了翻译我们在表4中列出了实验结果。我们可以发现,通过从自然输入(自然De)转换到翻译输入(翻译De),UNMT模型比SNMT模 型获 得了 更 大的 改进 ( -2.8 > -6.3),表明风格差距抑制了UNMT翻译输出质量。3.2内容差距在本节中,我们通过(1)显示最高频的名称实体,(2)使用训练和推理数据的词频-逆文档频率(TF- IDF)计算内容相似度来显示内容差距的存在我们使用spaCy8来识别测试集中UNMT翻译源句子、自然输入和翻译输入的德语命名实体,并在表5中显示了十个最常见的名称实体。从该表中,我们可以观察到UNMT翻译的源句子具有很少偏向源语言德语的命名实体(红色单词),而具有更多偏向目标语言英语的命名实体,例如,美国,奥巴马。这表明,联合国翻译的源语句的内容偏向于目标语言英语。同时,推理数据的自然输入部分具有更多偏向源语言德语的命名实体(红色单词),这表明推理数据的自然输入部分与UNMT翻译的训练数据之间存在内容差距。接下来,我们去除停止词,并使用词频-逆文档频率(TF-IDF)方法来计算训练数据和推理数据之间的内容相似度。相似性评分见表6。我们可以观察到UNMT翻译的源数据与从目标英语句子生成的翻译输入具有更显著的相似性得分。这一结果表明,联合国翻译的源数据的内容更偏向于目标语言,这与表5中的调查结果一致。由于很难测量名称实体,8https://github.com/explosion/spaCy+v:mala2277获取更多论文X→→y--数据最常见名称实体InputDie deutschen Kohlekraftwerke.代林自然推断输入翻译推断输入Deutschland,Stadt,CDU,deutschen,ZeitSPD,USA,deutsche,China,MittwochGroßbritannien,London,Trump,USA,Russia,VereinigtenStaaten,Europa德国发射Gesamtmenge。参考德国燃煤电厂,...,德国排放总量的三分之二。墨西哥人,美国人,奥巴马BT列车数据德国,dpa,美国,中国,奥巴马,StadtHause,Europa,大不列颠,俄罗斯SNMT...,德国燃煤发电厂德国的总排放量。表5:源语句中十个最常见的实体(即,返回翻译的训练数据(“BT Train Data”)的德语)。作为参考,我们还列出了自然和翻译推理输入中最常见的实体。BT训练数据具有更多偏向于目标语言英语(蓝色单词)而不是预期的源语言德语(红色单词)的实体。推理输入训练自然翻译自然0.95 0.85翻译0.84 0.93表6:不同类型的训练和推理数据之间的内容相似性。为了提高BLEU评估指标的翻译准确性,我们在表7中提供了一个翻译示例,以显示UNMT翻译中内容差距的影响(附录C中有更多示例)。我们观察到UNMT模型输出了幻觉化的翻译其偏向于目标语言英语。在第6.2节中,我们提出了一个定量分析,以显示内容差距对UNMT翻译绩效的影响。4UMMT在线自我培训为了弥补训练和推理之间的数据鸿沟,我们提出了一种简单有效的方法,通过自我训练。对于翻译任务XY,我们从源语料库中生成源原始训练样本,以提高模型对于每个批次,我们对自然源句子x应用前向模型MTX→Y来生成其翻译:美国燃煤发电厂美国排放总量的三分之二.表7:UNMT模型输出幻觉翻译偏向于目的语英语。在联合国布隆迪工作队的培训框架内,最终目标函数可表述为:L=LB+λDLD+λSLS,(6)其中λS是加权自训练损失项的超参数值得注意的是,Eq.(4)已完成的BT步骤的Y X训练。因此,所提出的方法不会显著增加训练成本,而是充分利用BT生成的数据(表9)。5实验5.1设置数据我们遵循通常的做法,在几个UNMT基准上进行实验:WMT 14 En-Fr,WMT 16 En-De,WMT 16 En-De,WMT 16 En-De。罗单语训练数据的详细信息见附录A.2。我们采 用 En-Fr newsdev 2014 、 En-De newsdev2016、En-Ro news-dev 2016作为验证(开发)集 , En-Fr newstest 2014 、 En-De newstest2016、En-Ro newstest 2016作为测试集。除了完整的测试集外,我们还将测试集分为两部分:目标源和源,并在这三种测试集上评估模型我们对所有语言对使用已发布的XLM BPE代码和词汇表。模型我们评估UNMT模型微调y= arg max P X→Y(y |x; θπ)。(四)通过这种方式,我们使用自然输入构建样本x,y,在此基础上,可以通过以下方式训练模型:在XLM 9和MASS 10预训练模型上(Lample和Conneau,2019; Song et al. ,2019)。对于XLM 模 型 , 我 们 采 用 Lample 和 Conneau(2019)为所有语言对发布的预训练模型。对于MASS模型,我们采用预训练的最小化:9https://github.com/facebookresearch/XLM+v:mala2277获取更多论文LS=Ex<$X[−logP X→Y(y <$ | x; θ)]. (5)10https://github.com/microsoft/MASS+v:mala2277获取更多论文↑⇑测试集模型方法En-Fr En-De En-Ro 平均值∆⇒ ⇐ ⇒ ⇐ ⇒ ⇐现有工程(全套)XLM(Lample和Conneau,2019) 33.433.326.434.333.331.832.1–MASS(Song et al. ,2019年)37.534.928.335.235.233.134.0–CBD(Nguyen et al. ,2021年)38.235.530.136.336.333.835.0–全套我们的实现XLMUNMT+自我训练37.8 35.1 28.1 34.8 36.2 33.9 34.3+0.8联马特派团特尔格奥里斯尔茨奥里+自我训练39.3 37.826.542.4 42.934.137.2+0.4联马特派团+自我训练39.0 37.327.7 42.7 42.9 35.3 37.5-0.1XLMUNMT 34.730.426.6 22.5 27.4 30.6 28.7+自我训练35.4<$30.228.0<$23.1↑ 29.6<$32.7< $29.8+1.1联马特派团+自我训练35.9<$30.9↑ 28.7<$24.9< $30.1< $31.9< $30.4 +1.5表8:WMT 14 En-Fr、WMT 16 En-De、WMT 16 En-Ro及其相应的源原始(自然输入)和目标原始(翻译输入)子集上的翻译性能。““:与相应的基线模型相比具有显著性(p <0. 05)。05/0。01),通过自举回归(Koehn,2004)进行测试。Song等人(2019)发布的En-Fr和En-Ro模型,并继续预训练En-De的MASS模型,以更好地再现结果。更多详情见附录A.2。5.2主要结果表8显示了XLM和MASS基线以及我们提出的模型的转换性能我们有以下意见:• 我们重新实现的基线模型实现了与以前的作品中报告的性能相当甚至更好的性能。与Lample和Conneau(2019)的原始报告相比,重现的XLM+UNMT模型平均提高了1.4个BLEU点,MASS+UNMT模型平均仅比Song等人低0.1个BLEU点。 (2019年)。• 我们的在线自我培训方法显著提高了整体翻译性能(平均+0.8BLEU实验结果表明,该方法在大规模语料库(En-Fr,En-De)和数据不平衡语料库(En-Ro)上具有普遍性。• 在翻译的输入场景中,我们的方法实现了与基线相当的性能。实验结果表明,尽管自训练的样本是源-源风格,我们的方法并没有牺牲目标-源风格的性能• 在自然输入的情况下,我们发现我们提出的方法实现了更显着的改进,在两个基线上的平均BLEU分别为+1.1和+1.3。这是因为通过自我训练引入的源语-原文风格样本消除了自然输入和翻译输入之间的模型偏差。5.3与离线自我训练和CBD的比较我们将在线自我训练与以下两种相关方法进行比较,这两种方法也将自然输入纳入训练中:• 离线自训练模型从训练的UNMT模型生成的向前和向后转换的数据中提取• CBD(Nguyen et al. ,2021)模型,该模型通过交叉翻译从由两个训练的UNMT模型生成的数据中提取,其包含数据多样性。+自我培训38.035.228.935.636.534.034.7+0.8XLMUNMT39.136.526.642.242.134.436.8–+v:mala2277获取更多论文↑⇑模型方法WMT 19WMT 20平均值培训费用⇒ ⇐ ⇒ ⇐联合国军事观察团XLM质量+离线ST 26.9 24.2 23.2 25.9 25.1 +0.0 ×1.8+CBD 28.325.624.226.9 26.3 +1.2 ×7.3+在线ST28.3<$26.0< $24.3< $27.6< $26.6 +1.5 ×1.2联合国军事观察团26.7 24.6 23.1 27.0+离线ST 27.2 24.6 23.1 26.9 25.4 +0.1 ×1.8+CBD 28.325.624.027.026.2 +0.9 ×7.3+在线ST28.5<$26.1<$23.8< $27.8< $26.6 +1.3 ×1.1表9:与离线自我训练和CBD的比较11.““:与相应的基线模型相比具有显著性(p <0. 05)。05/0。01),通过自举回归(Koehn,2004)进行测试。通过训练一个epoch所需的时间来估计训练成本,其中还考虑了数据生成的成本。数据集以前的研究建议将测试集限制为自然输入句子,这是2019-2020年版WMT新闻翻译共享 任 务 所 采 用 的 方 法 ( Edmundet al. ,2020)。为了进一步验证该方法的有效性,我们还对WMT 19和WMT 20 En-De测试集进行了评估两个测试集都只包含自然输入样本。结果实验结果见表9。我们还显示了这些方法的培训成本。我们发现• 出乎意料的是,离线自我训练与基线UNMT相比没有显著改善。Sun等人(2021)已经证明了在低资源和数据不平衡的情况下,UNMT离线自我训练的有效性。然而,在我们的数据充足的场景中,离线自训练可能会受到数据多样性问题的影响,而在线自训练可以通过训练过程中的动态模型参数来缓解这个问题。我们把完整的分析留给未来的工作。• CBD与基线UNMT相比实现了显著改善,但培训成本约为在线自我培训的六倍。• 所提出的在线自训练在BLEU分数方面达到了最佳的翻译性能,这进一步证明了所提出的方法在自然输入下的优越性。11我们重新实现的CBD模型无法实现与Nguyen等人相比的性能。 (2021年),28.4和35.2 WMT 16 En-De和De-En测试集的BLEU评分。6分析6.1翻译输出由于自训练样本是目标侧的翻译句子,因此有人担心自训练所实现的改进仅来自于使模型输出更好地匹配翻译参考,而不是增强模型 为了消除这种担忧,我们进行了以下实验:(1)根据语言模型PPL评估模型输出的流畅性 , ( 2 ) 在 Google Paraphrased WMT 19Encoder De测试集上评估翻译性能(Freitag etal. ,2020)。输出流畅性我们利用目标语言的单语语料库来训练4-gram语言模型。表10显示了§ 5.2中提到的测试集的模型输出上的语言模型我们发现在线自我训练对模型输出的流畅性只有轻微的影响,XLM和MASS模型的平均PPL分别只增加了+3和+6。我们将这种现象归因于自训练样本的翻译目标,这是模型生成的,因此不如自然句子流利。然而,由于BT数据的目标是自然的并且BT损失项是主要训练目标,因此输出流畅性不会显著降低。Freitag et al.(2020)为2019年的最新测试收集了额外的人工翻译,最终目的是生成一个自然到自然的测试集。我们采用人力充足性评分较高的HQ(R)和HQ(全部4个),重新评估+v:mala2277获取更多论文⇒⇔⇔入路En-FrEn-DeEn-Ro 平均值⇒ ⇐ ⇒ ⇐ ⇒ ⇐该方法对测试集的自然输入部分具有比基线更好的泛化能力UNMT100质量145 256 144 143 119 151+St103 146 263 142156 133 157表10:根据复杂度(PPL)的自动流畅性分析。语言模型在相应目标语言的自然单语数据评估我们提出的模型。实验结果见表11。我们提出的方法优于基线上的两种测试集。因此,我们证明了我们提出的方法提高了UNMT模型的性能,自然输入与有限的cractionese输出。型号HQ(R)HQ(all 4)Supervised Model35.0 27.2(Freitag et al. ,2020年)XLM+UNMT24.519.6+自我培训25.920.7MASS+UNMT24.319.6+自我培训26.020.8表11:翻译性能对Freitag等人(2020)提供的WMT 19 En De测试集,具有额外的人类翻译参考。我们报告sacreBLEU与监督模型进行比较。模型方法净入学率联合国军事观察团0.46不同模式的翻译。具体地说,我们采用spaCy来识别引用和翻译输出中的名称实体,并将引用中的名称实体作为基础事实来计算NER翻译的准确性。我们在表12中显示了结果。我们提出的方法实现了显着的改善,在翻译准确性的NER相比,基线。实验结果表明,在线自训练可以使模型更加关注输入内容,而不受目标语言训练语料库内容的影响6.3目标质量接下来,我们研究目标质量对ST的影响我们使用§2.2中的SNMT模型来生成ST数据,而不是当前模型本身,并保持BT过程不变。如表2所示,SNMT模型在源-原始测试集上表现良好,因此在ST数据中产生更高质量我们将该变体表示为当目标质量变好时,模型性能显著提高,正如预期的那样。因此,减少ST数据的目标侧上的噪声可以进一步提高性能。以无人监督的方式实施留待今后工作。接近WMT 19 WMT 20⇒ ⇐ ⇒ ⇐XLM+自我训练0.53XLMMASSUNMT 0.44+自我训练0.52表12:测试集的自然输入部分上的NER翻译6.2数据差距从表8中,我们提出的方法在自然输入部分上实现了显着改进,而在基线上没有获得翻译的输入部分这表明我们的表 13 : WMT 19/20 En De 上 的 翻 译 性 能 “KD”denotes the variant that exploits SNMT model togenerate ST data with higher qualityXLM内容差距为了验证我们提出的申请-UNMT101 147 250 145 152 126 154方法弥合了培训之间的内容差距+St101 144 253 147 156 138 157和推理,我们计算了NERUNMT26.6 24.422.926.6+St28.3 26.024.327.6+KD33.8 31.029.530.6UNMT质量26.7 24.623.127.0+St28.5 26.123.827.8+KD32.9 31.028.131.1+v:mala2277获取更多论文7相关工作在尝试仅使用单语言语料库构建NMT模型之前 , Zhang et al. ( 2017 ) ;Artetxe et al.(2017,2018 a);Conneau et al.(2018)已经对无监督跨语言嵌入映射进行了很好的研究。这些方法试图在没有并行数据的情况下对齐两种语言的词嵌入空间,因此可以用于无监督的逐字翻译。初始化的跨语言的词嵌入,Artetxe等。 (2018b)和Lample et al. (2018a)同时提出了UNMT,首次仅使用单语语料库就取得了显著的成绩。它们都依赖于在线反向翻译和去噪自动编码。之后,Lample等人(2018 b)提出了相关语言的联合BPE,并结合了神经和基于短语的方法。Artetxe等人(2019)通过改进的统计机器翻译模型预热了UNMT模型。Lample和Conneau(2019)提出了跨语言语言模型预训练,比以前的工作有了很大的改进Song等人(2019)将预训练框架扩展到序列到序列。 Tran等人 (2020)通过跨模型回译蒸馏在UNMT中诱导数据多样化。数 据 增 强 回 译 ( Sennrichet al. , 2016 年 ;Edmund et al. ,2018; Marie et al. ,2020)和自我训练(Zhang和Zong,2016; He et al. ,2020; Jiao et al. ,2021)已经在监督NMT中得到了很好的研究。 在无人监督的情况下,Tranet al. (2020)已经表明,多语言预训练语言模型可以用于从大型单语数据中检索伪并行数据。Han等人(2021)使用生成预训练语言模型,例如,GPT-3,执行零镜头翻译,并将翻译用作少量提示,以采样更大的合成翻译数据集。与我们最相关的工作是离线自我训练技术,用于增强资源不足的联合国军事训练队(Sun et al. ,2021年)。在本文中,提出的在线自训练方法的UNMT可以适用于高资源和低资源的情况下,没有额外的计算,以产生伪并行数据。翻译问题翻译问题已经在机器翻译评估中进行 了 研 究 ( Lembersky et al. , 2012; ZhangandToral,2019; Eddom et al. ,2020; Grahamet al. 、2020年)。这些工作的目的是分析双向测试集的影响。在这项工作中,我们重新审视了UNMT中的伪并行问题,并发现它导致了UNMT性能的不准确评估,因为训练数据完全来自翻译的伪并行数据。8结论反向翻译生成的伪平行语料库是联合机器翻译的基础.但这也带来了宣传语的问题,导致对联合国军事行动绩效的评价不准确。我们将问题归因于训练和推理之间的数据差距,并确定了两个数据差距,即,风格差距和内容差距。我们通过实验评估了数据鸿沟对翻译性能的影响,并提出了在线自训练方法来缓解数据鸿沟问题。我们在多语言对上的实验结果表明,该方法在自然输入的测试集上取得了与强基线XLM和MASS模型一致的显著改进。确认何志伟和王锐分别就职于上海交通大学电子信息与电气工程学院计算机科学与工程系MT实验室和上海交通大学人工智能研究所艺术智能MoE重点实验室国家自然科学基金面上项目( 6217020129 ) 、 上 海 市 浦 江 项 目( 21PJ1406800 ) 、 上 海 市 科 技 重 大 专 项(2021SHZDZX0102)。智微获CCF-腾讯开放基金(RAGR 20210119)支持引用Mikel Artetxe Gorka Labaka和Eneko Agirre2017年。学习双语词嵌入(几乎)没有双语数据。在ACL。Mikel Artetxe Gorka Labaka和Eneko Agirre 2018年a。一个鲁棒的自学习方法,用于完全无监督的词嵌入跨语言映射。在ACL。Mikel Artetxe Gorka Labaka和Eneko Agirre2019年。一种有效的无监督机器翻译方法。在ACL。+v:mala2277获取更多论文Mikel Artetxe,Gorka Labaka,Eneko Agirre,andKyunhyun Cho. 2018年b。无监督神经机器翻译。在ICLR。Alexis Conneau、Guillaume Lample、Marc'AurelioRanzato、Ludovic Denoyer和Hervé Jégou。2018.没有并行数据的单词翻译。在ICLR。Sergey Edmund , Myle Ott , Michael Auli , andDavid Grangier. 2018. 理解大规模的反向翻译。在EMNLP。SergeyEdmund , MyleOtt , Marc'AurelioRanzato,and Michael Auli. 2020. 关于用回译训练的机器翻译系统的评估。在ACL。Markus Freitag ,David Grangier和Isaac Caswell 。2020. 布鲁可能是有罪的,但推荐人并不是无辜的。在EMNLP。伊薇特·格雷厄姆巴里·哈多菲利普·科恩2020. 机器翻译评价中的统计功效与解释力。在EMNLP。Jesse Michael Han,Igor Babuschkin,Harrison Ed-wards,Arvind Neelakantan,Tao Xu,StanislasPolu , Alex Ray , Pranav Shyam , AdityaRamesh,Alec Rad- ford,et al. 2021.仅使用生成语言模型的无监督神经机器翻译。arXiv.Junxian He , Jiatao Gu , Jiajun Shen , andMarc'Aurelio Ranzato. 2020. 重新审视神经序列生成的自我训练。在ICLR。Wenxiang Jiao , Xing Wang , Zhaopeng Tu ,Shuming Shi , Michael Lyu , and Irwin King.2021. 神经机器翻译的单语数据不确定性自训练采样。在ACL-IJCNLP。菲利普·科恩2004. 机器翻译评估的统计显著性测试。在EMNLP。纪尧姆·兰普尔和亚历克西斯·康诺。2019. 跨语言语言模型预训练. NeurIPS。Guillaume Lample , Alexis Conneau , LudovicDenoyer,and Marc2018年a。仅使用单语语料库的无监督机器翻译。在ICLR。纪尧姆·兰普尔、梅尔·奥特、亚历克西斯·康诺、卢多维奇·德诺耶和马克·奥雷利奥·兰扎托。2018年b。基于短语的神经无监督机器翻译。在EMNLP。Katherine Lee,Orhan Firat,Ashish Agarwal,ClaraFannjiang,and David Sussillo. 2018. 神经机器翻译中的幻觉。在NeurIPS 2018研讨会上,音频,语音和语言的可解释性和鲁棒性。Gennadi Lembersky , Noam Ordan , and ShulyWintner.2012. 使 翻译 模型 适应 英语 可 以改 进smt。在EACL中,第255本杰明·玛丽,拉斐尔·鲁比诺,藤田淳。2020. 重新审视回译:为什么它真的有效? 在ACL。Xuan-Phi Nguyen , ShafiqJoty , Thanh-TungNguyen,Wu Kui,and Ai Ti Aw. 2021. 用于无监督机器翻译的跨模型回译蒸馏。在ICML。Kishore Papineni,Salim Roukos,Todd Ward,andWei-Jing Zhu.2002. Bleu:一种机器翻译的自动评价方法。在ACL。马特·波斯特2018. 要求明确报告BLEU分数。第三届机器翻译会议论文集:研究论文。Shuo Ren , Zhirui Zhang , Shujie Liu , MingZhou,Shuai Ma. 2019. 以smt作为后验正则化的无监督神经机器翻译。在AAAI。瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016. 用单语数据改进神经机器翻译模型。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功