冻结枢纽的迁移学习方法在三角形机器翻译中的应用

198 浏览量更新于2023-12-01 收藏 437KB PDF 举报

机器翻译

迁移学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文三角形转移：冻结三角形机器翻译的枢轴张梦，李良友，刘华为诺亚{zhangmeng92，liliangyou，qun.liu}@ huawei.com摘要三角机器翻译是低资源机器翻译的特殊自然，三角机器翻译的关键是成功利用这些辅助数据。在这项工作中，我们提出了一种基于迁移学习的方法，利用所有类型的辅助数据。当我们训练辅助的源-枢纽和目标-目标翻译模型时，我们用预先训练的语言模型初始化枢纽侧的一些参数，并冻结它们，以鼓励两个翻译模型在相同的枢纽语言空间中工作，以便它们可以平滑地转移到源-目标翻译模型。实验表明，我们的方法可以优于以前的。1介绍机器翻译（MT）在大规模并行数据的情况下取得了令人满意的性能。不幸的是，大量的并行数据在很大程度上仅限于英语，这导致了对跨语言的机器翻译服务的不公平部署的反过来，研究人员对非英语为中心的机器翻译方法越来越感兴趣（Fan et al. ，2021年）。三角MT（Kim et al. ，2019; Ji et al. ，2020年）有可能在源语言和目标语言都具有大量并行数据的情况下缓解一些数据稀缺的情况。 Kim等人（2019年）已经表明，迁移学习是三角形MT的有效方法，超过了通用AP，像多语言机器翻译这样的方法然而，以前的工作并没有充分利用所有类型的辅助数据（表1）。例如，假设源、目标和透视语言都有很多单语言数据是合理的，因为源-透视和透视-目标之间的并行数据量非常大。方法XYZX-ZZ-YX-Y过户登记手续✓主元平移✓✓逐步预训练✓✓✓共享目标转移✓✓✓✓共享源转移✓✓✓✓简单三角形转移✓✓✓✓三角形转移✓✓✓✓✓✓表1：不同方法的数据使用情况（第3.2节）。X、Y和Z分别表示源语言、目标语言和主元语言。我们的三角传输使用所有类型的数据。在这项工作中，我们提出了一种基于迁移学习的方法，利用所有类型的辅助数据。在辅助数据上训练辅助模型的过程中，我们设计了参数冻结机制，鼓励模型在相同的枢轴语言空间中计算表示，以便组合辅助模型的部分为源目标数据的微调提供合理的起点。我们验证了我们的方法的有效性与一系列的实验。2方法为了便于理解，我们首先提出一个初步的方法，它是我们基本思想的简单实现。然后，我们提出了一个增强版本，实现更好的性能。出于符号的目的，我们使用X、Y和Z分别表示源语言、目标语言和主元语言2.1简单三角形转移我们在图1中显示了初步方法的说明，称为简单三角形转移。在步骤（1）中，我们用主元语言单语数据准备了一个预训练语言模型（PLM）我们认为该PLM为枢轴语言定义了一个表示空间，我们希望后续模型坚持这种表示arXiv：2203.09027v1 [cs.CL] 2022年3月+v：mala2277获取更多论文Zmono。（一）X-Z和Z-Y第（2）段X-Y第（3）款目标语言一种简单的方法是准备源和目标PLM，并分别使用它们来初始化源-主元编码器和主元-目标解码器。然而，这导致最终源-目标翻译性能的边际改进（第3.5节）。这可能是因为源、目标和枢轴PLM是独立训练的，因此它们的表示空间是孤立的。因此，我们也打算在pivot语言空间中训练源和目标PLM。为此，我们设计了另一种初始化和冻结图1：简单的三角形转移。虚线代表重新发送参数初始化。根据冻结策略（第 2.3节），某些块内的灰色表示某些参数被冻结。其他颜色表示不同语言的可训练参数。下图显示了每个步骤中使用的数据空间为了实现这一点，我们在步骤（2）中冻结了某些参数，因为我们训练了源-枢轴和目标-目标翻译模型，这些模型部分由PLM初始化。例如，枢轴-目标翻译模型在源端具有枢轴语言，因此编码器由PLM初始化，并且其一些（或全部）参数被冻结。这确保了编码器在主元语言空间中产生同样，源-枢纽转换模型中的编码器需要学习在相同的空间中生成表示。因此，当在步骤（3）中，目标-目标解码器与源-枢轴编码器组合时，它们可以在步骤（1）中定义的空间中更容易地协作。我们用 RoberTa 进行实验（ Liu et al. ，2019）和BART（Lewis et al. ，2020）作为PLM。我们发现，简单的三角形转移达到约0.8高BLEU使用BART而不是ROBERTa。相反，我们发现双转移（Zhang et al. ，2021年），我们的基线之一，执行与 BART 和RoberTa类似的当用于初始化解码器参数时，RoBERTa必须使交叉注意参数随机初始化，这可以解释BART对于我们的方法的优越性，而双重传输不涉及初始化解码器参数。因此，我们选择BART作为我们的默认PLM。2.2三角转移简单三角形转移的局限性在于它不利用源的单语数据，受Zhang等人（2021）启发的步骤，如图2所示。在本例中，我们使用BART作为PLM。步骤（2）是在源语言和目标语言中准备BART模型的附加步骤由于BART主体参数从枢轴语言BART继承并冻结，因此源语言然后在步骤（3）中，可以在主元语言空间中初始化翻译模型的每个部分。同样，我们冻结了pivot语言端的参数，以确保表示不会漂移太多。2.3冻结策略当我们冻结源-枢纽和枢纽-目标翻译模型的枢纽语言侧的参数时，有各种选择以目标-目标翻译模型的编码器为例。在一种极端情况下，我们可以仅冻结嵌入;这有利于优化非目标翻译，但可能导致空间远离由枢轴PLM给出的枢轴语言空间在另一种极端情况下，我们可以冻结整个编码器，这显然会损害目标翻译性能。因此，这是我们在两个极端之间试验了多种冷冻策略，即，冻结给定数量的层。我们总是确保冻结层的数量对于源-枢轴转换模型的解码器是相同的除了逐层冻结之外，我们还尝试了受Li等人启发的组分冻结。（2021年）。在他们的研究中，他们发现一些组件，如层规范化和解码器交叉注意力是微调所必需的，而其他组件则可以被冻结。特别是，我们根据他们在任务中发现的最有效的策略来实验三种策略这些策略适用于三角形转移的步骤（3）。[Y]解码器[Z]编码器[Y]解码器[Z] PLM[Z]解码器【X】编码器【X】编码器+v：mala2277获取更多论文→→[Z] BART解码器[Y] emb[Y]解码器[Y] emb[Z] BART解码器[Z] emb[Z] BART编码器[Y] emb[Z]编码器[Z] emb[Y]解码器[Y] emb[Z] BART编码器[Z] emb[Z] BART解码器[X] emb[Z]解码器[Z] emb【X】编码器[X] emb[Z] BART编码器[X] emb【X】编码器[X] embZmono。（一）X和Y是单色的。（二更）X-Z和Z-Y第（3）段X-Y第（4）款图2：三角形转移。虚线表示参数初始化。灰色表示参数已冻结。在步骤（3）中，灰色显示了一种可能的冻结策略（第2.3节）。语言代码#句子（对）恩德3.1m法语-英语29.5mFr-De247k志恩11.9mZh-De189kEn93.9mDe100.0mFr44.6mZh20.0m表2：训练数据统计。LNA-E，D所有层归一化，编码器自关注，解码器交叉关注可以微调。其他人被冻结。LNA-D所有编码器参数、解码器层标准化和交叉注意都可以微调。LNA-e，D在训练源-主元模型时使用LNA-D。当训练目标模型时，除了LNA-D之外，还冻结编码器嵌入3实验3.1设置我们进行了实验，法语（Fr）德语（De）和汉语（Zh）德语（De）的翻译，英语（En）作为枢纽语言。训练数据统计见表2。评价度量由SacreBLEU1计算（Post，2018）。所有方法都使用Transformer基础（Vaswaniet al. ，2017）作为翻译模型，但是注意，枢轴翻译需要两个翻译模型用于解码，等效地使参数的数量加倍。更多细节见附录。3.2基线我们与以下几个基线进行比较无传输此基线直接在源-目标并行数据上进行训练。枢轴翻译通过源-枢轴和枢轴-目标翻译的两遍解码。这是（Kim et al. ，2019）。它是简单和强大的，并已被证明优于多语言MT。它训练一个源-枢轴转换模型，并使用编码器初始化一个目标-目标翻译模型。为了实现这一点，这两个编码器需要使用共享的源枢轴词汇表。然后在保持其编码器冻结的同时训练枢轴-目标翻译模型最后对源-目标并行数据模型进行微调。共享靶双转移双转移（Zhang et al. ，2021）是低资源机器翻译的通用迁移学习方法。当1SacreBLEU签名：BLEU+case.mixed+numrefs.1+smooth.exp+tok.13a+version.1.4.12。+v：mala2277获取更多论文→→→方法Bleu过户登记手续13.49不通过转移的18.99逐步预训练18.49共享目标转移18.88共享源转移18.89三角形转移19.91表3：与Fr De基线的比较我们的三角形转移显著更好（p <0. 01）比基线（Koehn，2004）。方法Bleu过户登记手续11.39不通过转移的12.91三角形转移16.03表4：Zh→ De上无转移和枢轴转移的比较应用于三角形MT，它不能同时利用源-主元和源-目标并行数据。共享目标双传输使用双目标辅助翻译模型，不利用源-主元数据。共享源双重传输共享源版本使用源-枢轴转换模型进行传输，不利用源-目标并行数据。3.3主要结果我们在表3中展示了我们的方法的性能和Fr De的基线。无传输基线的性能很差，因为它是在少量并行数据上训练的其他基线的表现要好得多。其中，pivot transla- tion在BLEU方面获得了最佳性能，但延迟增加我们的方法可以超越所有的基准。以主元平移作为最佳基线，我们进一步评估了我们在Zh De上的方法。表4中的结果表明，我们的方法的性能3.4冻结策略从表5中，我们可以观察到不同冷冻策略的效果。对于逐层冻结，我们看到Fr-En和En-De性能相对于冻结层的数量的大致单调趋势：冻结层越多，表5：用于三角形转移的不同冷冻策略的BLEU分数对于逐层冻结，枢轴侧网络的嵌入层和最低L层被冻结。如果L=0，则只有嵌入被冻结。方法Bleu不通过转移的18.99通过BERT2BERT进行19.06共享目标转移18.88共享目标转移+幼稚单。18.93共享源转移18.89共享源代码传输+ naive mono。18.97简单三角形转移18.96简单三角形转移+幼稚单克隆抗体。19.00三角形转移19.62表6：使用辅助单语数据的简单方法没有带来明显的改善。我们的方法冻结嵌入作为此表中的冻结策略降低他们的BLEU分数然而，最佳Fr-De性能在L=3时实现。这表明辅助模型的性能和枢轴空间锚定之间的权衡。对于组件冻结，Fr-En和En-De性能遵循类似的趋势，但我们最终关心的Fr-De性能没有那么好。3.5使用单语言数据表6显示了使用单语数据的不同方法的效果。最简单的方法是用单语数据准备PLM，并在需要的地方初始化对于枢轴翻译，这被称为BERT 2 BERT（Rothe et al. ，2020）的源-枢纽和目标-目标transla- tion模型。对于双传输，辅助模型的部分可以由PLM初始化（例如，对于共享目标传输，初始化目标解码器。战略法语-英语恩德Fr-DeL=031.4220.9519.62L=131.4120.9819.76L=231.5520.5619.71L=331.0620.5419.91L=430.9220.2219.68L=530.3919.9519.21L=630.3119.1119.02LNA-E、D28.7217.9217.97LNA-D31.0820.2318.75+v：mala2277获取更多论文→方法Bleu过户登记手续18.74共享目标转移20.53共享源转移20.73三角形转移20.84表7：来自具有基于翻译的反向翻译的训练的BLEU分数。化）。对于简单三角形转移中的步骤（2），我们还可以用PLM初始化主元-目标解码器和源-主元编码器。然而，上述方法都没有显示出明显的改善。这可能是因为这些方法只帮助辅助翻译模型进行训练，这是不必要的，因为它们已经可以用大量的并行数据很好地训练。相比之下，我们在三角形转移中的步骤（2）的设计还有助于辅助翻译模型停留在主元语言空间中。3.6基于XML的反向翻译继Kim et al. （2019），我们使用基于反向平移的合成并行Fr-De 数据（ Bertoldi et al. ，2008）。具体地说，我们使用一种无迁移的EnFr模型将En-De数据的英文部分翻译成法文，并对真实的Fr-De数据进行过采样，使真实数据和合成数据的比例达到1：2。表7中的结果表明，三角形转移和双重转移明显优于无转移基线。4结论在这项工作中，我们提出了一种基于迁移学习的方法，利用所有类型的辅助数据，包括源主元和目标主元的平行数据，以及涉及单语数据。我们研究了不同的冻结策略来训练辅助模型，以提高源-目标翻译，并实现比以前的方法更好的性能。引用Nicola Bertoldi，Madalina Barbaiani，MarcelloFederico，and Roldano Cattoni.2008. 基于短语的统计Baines ， Onur Celebi ， Guillaume Wenzek ，Vishrav Chaudhary，Naman Goyal，Tom Birch，Vitaliy Liptchinsky ， Sergey Eddom ， MichaelAuli，and Armand Joulin. 2021. 超越以英语为中心的多语言机器翻译。 Journal of MachineLearning Research，22（107）：1Baijun Ji ， Zhirui Zhang ， Xiangyu Duan ， MinZhang，Boxing Chen，and Weihua Luo. 2020. 基于跨语言预训练的零触发神经机器翻译迁移。在AAAI。Yunsu Kim ， Petre Petrov ， Pavel Petrushkov ，Shahram Khadivi，and Hermann Ney. 2019. 非英语语言间神经机器翻译的基于学习的迁移学习。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（ EMNLP-IJCNLP）会议录中，第866-876页，中国香港。计算语言学协会。菲利普·科恩2004. 机器翻译评估的统计显著性测试。在 Proceedings of the 2004 Conference onEmpiricalMethodsinNaturalLanguageProcessing，pages 388计算语言学协会。Mike Lewis，Yinhan Liu，Naman Goyal，MarjanGhazvininejad ， Abdelrahman Mohamed ， OmerLevy，Veselin Stoyanov，and Luke Zettlemoyer.2020. BART：用于自然语言生成、翻译和理解的去噪序列到序列预。在计算语言学协会第58届年会的会议记录中，第7871-7880页计算语言学协会。Xian Li ， Changhan Wang ， Yun Tang ， ChauTran ， Yuqing Tang ， Juan Pino ， AlexeiBaevski，Alexis Conneau，and Michael Auli.2021.多语言语音翻译，从有效的微调预训练模型。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议（第1卷：长文）的会议记录中，第827计算语言学协会。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. RoBERTa ：一种鲁棒优化的BERT预训练方法。arXiv：1907.11692 [cs]。Myle Ott 、 Sergey Edmund 、 Alexei Baevski 、Angela Fan 、 Sam Gross 、 Nathan Ng 、 DavidGrangier和Michael Auli。2019. fairseq：A Fast，Extensible Toolkit forSequence Modeling. 在 2019年的会议记录中机器翻译与枢纽语言。第五届国际口语翻译研讨会论文集，第143-149页Angela Fan，Shruti Bhosale，Holger Schwenk，Zhiyi Ma，Ahmed El-Kishky，Siddharth Goyal，Mandeep计算语言学协会北美分会会议（Demonstrations），第48-53页，明尼阿波利斯，明尼苏达州。计算语言学协会.马特·波斯特2018年报告BLEU分数时需要明确。在第三次会议上，+v：mala2277获取更多论文××→××机器翻译：研究论文，第186- 191页，比利时布鲁塞尔。计算语言学协会。奥菲尔出版社和利奥尔沃尔夫。2017. 使用输出嵌入改进语言模型。计算语言学协会欧洲分会第15届会议论文集，第157-163页，西班牙巴伦西亚。计算语言学协会。Sascha Rothe ， Shashi Narayan ， and AliakseiSeveryn. 2020. 利用预先训练的检查点进行序列生成任务。 Transactions of the Association forComputational Linguistics，8：264瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016. 具有子词单元的生僻词神经机器翻译。在Proceedings of the 54th Annual Meeting of theAssociationforComputationalLinguistics（ Volume 1 ： Long Papers ）， pages 1715-1725，Berlin，Germany.计算语言学协会。Ashish Vaswani ， Noam Shazeer ， Niki Parmar ，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Jakukasz Kaiser，and Illia Polosukhin. 2017. 注意力是你所需要的一切。神经信息处理系统进展，第30卷。Curran Associates，Inc.张梦，李良友，刘群。2021. 两个父母，一个孩子：低资源神经机器翻译。在计算语言学协会的调查结果：ACL-IJCNLP 2021，第2726-2738页计算语言学协会。A数据和预处理我们从WMT和ParaCrawl收集数据，如表8和表9所示。我们使用jieba2进行中文分词，Moses3脚本用于标点符号规范化和其他语言的标记化。语料库已删除重复数据。每种语言都使用字节对编码（BPE）进行编码（Sennrich et al. ，2016），具有32k合并操作。BPE代码和词汇表是在每种语言的单语言数据上学习的子词超过128个的句子被重新移动.平行句以1.5的长度比进行清理（长度按子字计算）。B超参数我们的实现基于 fairseq （ Ottet al. ，2019）。我们共享解码器输入和输出嵌入（Press和Wolf，2017）。优化器2https://github.com/fxsjy/jieba3https://github.com/moses-smt/莫斯解码器是亚当“丢弃”和“标签平滑”均设置为0.1。每个GPU的批量大小为6，144，我们在8个GPU上训练峰值学习率是510−4用于无传输基线和辅助模型，逐步预训练和双重转移的Fr De模型为110−4，三角转移的最后一步为7 10−5学习率预热4,000步，然后遵循平方根倒数衰减。当BLEU的发展在10个时期内没有改善时，会RoBERTa和BART模型使用与Transformer基础完全相同的架构。掩模比例为15%。批量大小为每个GPU 256个句子，每个句子包含多达128个令牌。学习率预热10，000步，达到峰值5 10−4，然后遵循多项式衰减。他们接受了125k步的训练。我们使用5的波束大小进行解码，包括用于枢轴平移和基于枢轴的反向平移。+v：mala2277获取更多论文浪源火车dev测试恩德WMT 2019Europarl v9，新闻评论v14，文档分割Rapid语料库新闻2011新闻2012法语-英语WMT 2015Europarl v7，新闻评论v10，联合国语料库，109法英语料库新闻2011新闻2012Fr-DeWMT 2019新闻评论v14，newest 2008 -2010新闻2011新闻2012志恩ParaCrawlParaCrawl v9新闻发展2017最新动态2017Zh-DeWMT 2021新闻评论v16 - dev -test3k分割3k分割表8：并行数据源。浪源名称EnWMT 2018新闻抓取2014-2017DeWMT 2021WMT 2021FrWMT 2015Europarl v7，新闻评论v10，新闻抓取2007-2014，新闻讨论ZhWMT 2021新闻抓取，并行数据表9：单语数据来源。

下载后可阅读完整内容，剩余1页未读，立即下载