基于mBART的多语言文本风格转移与任务适应

156 浏览量更新于2023-12-01 收藏 680KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文↔↔基于语言和任务适应的多语言文本风格迁移Huiyuan Lai，Antonio Toral，Malaysia Nissim荷兰格罗宁根大学CLCG{h.lai，a.toral.ruiz，m.nissim}@rug.nl摘要我们利用预先训练的seq2seq模型mBART进行多语言文本样式传输。使用机器翻译的数据以及黄金对齐的英语句子在我们考虑的三种目标语言中产生了最先进的结果。此外，针对并行数据的普遍缺乏，本文提出了一种多语言形式转换的模块化方法，该方法包括两种训练策略，分别针对语言和任务的适应性。我们的方法在没有单语任务特定并行数据的情况下实现了竞争性的性能，并且可以应用于其他风格转换任务以及其他语言。1介绍文本风格转换（TST）是一个文本生成任务，其中给定的句子必须重写，改变其风格，同时保持其含义。传统上，诸如交换句子的极性（例如，以及改变文本的形式（eidogg.“这一切都取决于你什么时候准备好了。”“这一切都取决于你什么时候准备好了。被认为是TST的实例。我们在这里只关注后一种情况，即形式转换，因为（i）最近的工作表明，极性转换不是一种风格转换任务，因为意义在转换中发生了变化（Lai et al. ，2021a），和（ii）数据在多种语言最近已成为正式转移（Briakou等人。，2021b）。事实上，主要是由于并行训练和评估数据的可用性，几乎所有之前的TST工作都集中在单语（英语）文本上（Rao和Tehrult，2018; Li等人。，2018; Prabhumoyeet al. ，2018; Cao etal. ，2020）。[1]作为多语言风格迁移的第一步， Briakou et al. （ 2021b ）发布了XFORMAL，一个基准测试1本文中的巴西葡萄牙语（BR-PT）、法语（FR）和意大利语（IT）的非正式文本的多次正式改写对于这些语言，作者手动创建了评估数据集。在这些基础上，他们测试了几个单语TST基线模型，这些模型是使用机器翻译GYAFC获得的语言特定对开发的，GYAFC是一个用于正式迁移的英语语料库（Rao和Tehrult，2018）。Briakou等人（2021b）发现，在翻译的并行数据上训练的模型并没有优于基于手工转换的简单规则系统，特别是在内容保留方面，并得出结论，英语以外的语言的正式转换特别具有挑战性。性能不佳的一个原因可能是伪并行数据的低质量（在我们自己的手动检查中观察到的），特别是非正式方面。由于机器翻译系统通常是用正式文本（如新闻）进行训练的（Zhang etal. ，2020），非正式文本更难翻译，或者在翻译时可能会变得更正式。但最重要的是，Briakou等人开发的神经模型。（2021 b）没有利用两个最近的发现：（i）预先训练的模型，特别是序列到序列模型BART（Lewis et al. ，2020年），已被证明实质上有助于在风格转换中保持内容（Lai et al. ，2021 b）;（ii）多语言神经机器翻译（ Johnson et al. ， 2017;Aharoniet al. ，2019; Liu et al. ，2020）和多语言文本摘要（Hasan et al. ，2021年）利用允许跨语言知识转移的多语言模型取得了令人印象深刻的成果。在这项工作中，我们使用多语言的大型模型mBART（刘等。，2020）以利用一种语言（英语）的可用并行数据来以多语言方式对风格转移进行建模，以将任务和领域知识转移到其他目标语言。为了解决真实发生的情况，在我们的实验中，我们还模拟了目标语言（即使是机器翻译）完全缺乏并行数据，arXiv：2203.08552v1 [cs.CL] 2022年3月+v：mala2277获取更多论文∈Σ−以及完全缺乏风格相关的数据（尽管域外数据的可用性）。语言特异性通过基于适配器的策略来解决（Pfeiffer et al. ，2020; Üstün et al. ，2020，2021）。我们在所有三种目标语言中获得了最先进的结果我们发布了我们的代码，并希望促进研究进展。22方法和数据作为旨在探索mBART的连续性的基础实验（Liu et al. ，2020; Tang et al. ，2020）进行多语言风格转换时，我们使用专门为英语（原文）和其他三种语言（机器翻译）的风格转换开发的并行数据对该模型进行了接下来，鉴于目标语言的并行数据不可用的常见情况，我们提出了一种两步适应训练方法，使模块化的多语言TST的mBART。我们避免了迭代反向翻译（IBT）（Hoang et al. ，2018 年），经常用于以前的 TST 工作（ Prabhumoye et al. ， 2018; Lample et al. ，2019; Yi et al. ，2020; Lai等人，2021a），因为它已被证明是计算成本高（Üstünet al. ，2021; Stickland et al. ，2021a）。我们仍然运行使用它的比较模型。在第一个适应步骤中，我们解决了一些语言在mBART中没有很好地表示的问题，初步实验表明这会损害我们的下游任务。3我们使用目标语言的未标记数据进行语言适应去噪训练在第二步中，我们通过使用辅助的金平行英语数据微调交叉注意来解决手头的任务，使模型适应TST任务。对于TST微调，我们使用并行训练数据，即正式/非正式对齐的句子（英语手动生成和其他三种语言的机器翻译对于适应策略，我们还收集了形式和一般的非平行数据。详情如下。英语正式数据 GYAFC （ Rao 和 Tehrult ，2018）是一个对齐的正式和非正式句子的英语数据集。金平行线对2所有代码见https://github.com/laihuiyuan/multilingual-tst。3例如，mBART- 50的预训练中使用的单语句子数量用于培训、验证和测试。多语言形式数据XFORMAL（Bri-akou et al. ，2021 b）是多语言正式迁移的基准，它提供了一个评估集，该评估集由BR-PT、FR和IT中的非正式句子的四个正式重写组成。该数据集包含每种语言的伪平行语料库，通过机器翻译英语GYAFC对获得。根据 Rao 和 Tehrult （ 2018 ）和 Briakou 等人（2021 b），我们从Yahoo Answers中抓取目标语言的域数据。4然后，我们使用Briakou等人（2021 a）的风格回归量来预测句子的正式得分σ，以自动选择每个风格方向的句子。5从News Crawl中随机选择的每种语言包含5至30个单词的5 M句子。63适应性训练为了使mBART适应多语言TST，我们采用了两种分别针对语言和任务的适应训练策略。3.1语言适应如图1（a）所示，我们引入了一个用于语言适应的模块。受以前工作的启发（Houlsby etal. ，2019年; Bapna和Firat，2019年），我们使用适配器（ADAPT; ~ 50 M参数），该适配器在前馈块之后插入到Transformer编码器和解码器的每一层中。继Bapna和Firat（2019）之后，第i层的ADAPT模块Ai由输入xi∈Rh的层归一化LN、随后的下投影Wdown∈Rh×h、非线性和上投影WupRh×h组成，与输入x的剩余连接：A（xi）=Wup U（Wdown LN（xi））+xi（1）在mBART的预训练之后，我们在去噪任务上进行语言适应L φA = −log（T|g（T）; φA）（2）4https://webscope.sandbox.yahoo.com/catalog.php? datatype=l did=115个句子，σ<0。5被认为是非正式的，>1. 0在我们的实验中是正式的。6http://data.statmt.org/news-crawl/+v：mala2277获取更多论文S→不→[en]这是适应性训练。联系我们前馈前馈交叉注意自我关注Self Attention编码解码[en]这是面具训练。联系我们联系我们联系我们[en]这是适应性训练。联系我们前馈前馈交叉注意自我关注Self Attention编码解码[en]这是适应训练/S>联系我们联系我们(a) 单语数据的语言适应训练（b）英语平行数据图1：适应性训练概述。在1（a）中，用单语数据训练每个Transformer层或插入的适配器层的前馈网络以适应目标语言。在1（b）中，使用辅助英语平行数据训练mBART的交叉注意以适应TST任务。其中φA是自适应模块A的参数，T是目标语言的句子，g是屏蔽句子中30%单词的噪声函数。每种语言都有自己的适应模块。在语言自适应训练期间，自适应模块的参数被更新，而其他参数保持冻结。3.2任务适应如图1（b）所示，在训练语言适应模块之后，我们在辅助英语平行数据上微调模型，目的是使模型适应正式迁移的特定任务在Stickland等人（2021 b）之后，我们只更新解码器的交叉注意（即任务自适应模块）的参数，而其他参数是固定的，从而限制了多语言TST过程对于语言适配模块，我们有两个设置：（i）编码器上的适配模块AE来自用源样式文本训练的模型，解码器上的模块AD来自用目标样式文本训练的模型（M2.X，表1）;（ii）AE和AD都来自用通用文本训练的模型（M3.X），因此适配模块没有源和目标样式对于任务适应模块，我们也有两个设置：（i）模块来自英语模型（X + EN交叉attn）;（ii）用英语平行数据（X + EN数据）微调目标语言的模型。4实验所有实验都在变压器上进行（Wolf et al. ，2020年）使用mBART-large-50（Tang et al. ，2020）。我们使用Adamoptimiser （ Kingma and Ba ， 2015 ）训练模型，所有实验的学习率为1 e-5。我们为每种语言分别使用通用文本训练语言自适应模块，训练步骤为20万步，批量大小为32，在8个更新步骤中累积梯度，并将其设置为1用于其他训练。评价根据以前的工作（ Luo et al. ， 2019;Sancheti et al. ，2020），我们评估风格强度和内容保存。我们微调mBERT（Devlin et al. ，2019）with Briakou et al. （2021b）我们还使用Briakou等人的风格回归器。（2021 a），其基于XLM-R（Conneau et al. ，2020），并显示出与人类判断良好相关。7我们计算了BLEU和COMET（Rei et al. 2020年），以评估内容保存。作为总体得分，根据先前的工作，我们计算风格准确性和 BLEU 的调和平均值（HM）。系统根据我们的数据（第2节），我们有四个系统设置。D1：通过机器翻译英语资源的目标语言的伪并行数据;D2：目标语言的非并行样式数据 ;D3 ：没有目标语言的样式数据;D4：根本没有并行数据前三个设置都包含金英并行数据。结果表1显示了IF（非正式到正式）和FI（正式到非正式）转换的结果。[8]我们包括Bri-akou et al. （2021 b）进行比较（它们仅对I→F方向进行建模）。7分类器/回归器的结果见附录A.2。8完整结果见附录A.3。+v：mala2277获取更多论文→→→→→→→→→DATAMODEL非正规→正规正态→非正态ITALIANFRENCH葡萄牙语ITALIANFRENCH葡萄牙语BleuACCHMBleuACCHMBleuACCHMBleuACCHMBleuACCHMBleuACCHM多任务（Briakou et al. ，2021 b）0.4260.7270.5370.4800.7420.5830.5500.7820.645---------D1M1.1：伪并行数据0.4590.8560.5980.5300.8290.6470.5240.8520.6490.1770.3110.2260.1950.3770.2570.2250.3060.259M1.2：M1.1 + EN数据0.4610.8410.5960.5250.8630.6530.5530.8090.6570.1780.3150.2270.1940.4580.2730.2190.3130.258DLSM（Briakou et al. ，2021 b）0.1240.2230.1590.1800.1520.1650.1850.1910.188---------D2M2.1：IBT培训+ EN数据M2.2：ADAPT + EN交叉连接0.4600.4670.5100.6370.4840.5390.5000.5160.4870.6270.4920.5660.4910.4990.4280.3650.4570.4220.1680.1750.4200.6720.2400.2780.1960.2120.2350.6270.2140.3170.2370.2370.0830.4710.1230.315M2.3：ADAPT + EN数据0.4760.7310.5770.5190.7020.5970.5260.5090.5170.1800.7190.2880.2090.5670.3050.1690.5340.257M3.1：EN数据0.4850.6700.5630.5530.7270.6280.0390.8900.0740.1860.7670.2990.2160.6920.3290.0200.4030.038D3M3.2：ADAPT + EN交叉连接0.4800.6720.5600.5450.7490.6310.5470.5590.5530.1790.4210.2510.2090.6850.3200.1750.5600.267M3.3：ADAPT + EN数据0.4230.7350.5370.5470.7220.6220.4230.5080.4620.1690.7330.2750.2050.5840.3030.1890.5050.275基于规则（Briakou et al. ，2021b）0.4380.2680.3330.4720.2080.2890.5350.4480.488---------D4M4.1：原mBART0.3800.1030.1620.4250.0800.1350.1280.2000.1560.1600.1460.1530.1890.1890.1890.0800.6570.143M4.2：ADAPT（通用数据）0.4010.0920.1500.4440.0750.1280.4630.2230.3010.1640.1300.1450.1940.1700.1810.2370.0820.122表1：多语言正式迁移的结果。备注：（i）对于FI，存在四个不同的源句子和仅人类参考，因此对于每个实例，分数被平均;（ii）粗体数字表示每个块的最佳系统，并且下划线表示每种语言的每个转移方向的最佳分数。D1 中的结果表明，用伪并行数据微调mBART在IF方向上产生最佳的整体相反，F I结果相当差，在意大利语上甚至比基于IBT的模型（M2.1）更差。这可能是因为这个方向一般来说更难，因为非正式文本中有更多的变化，但也可能事实上，机器翻译的工作表明，低质量的数据在目标端比在源端更有问题（Bogoychev和Sennrich，2019）。在D2中，我们看到我们提出的自适应方法在两个传输方向上都优于基于IBT的模型。使用英语平行数据微调目标语言这表明，前者可以更好地转移任务和领域知识。在D3中，大量的通用文本在I中产生了更多的改进，F方向，而不是F I.这可能是因为通用案文比非正式案文更正式。葡萄牙语的性能改进尤其明显（COM M3.1仅使用其他M3.X模型的EN数据进行训练），主要是由于这种语言在mBART中的代表性低于其他语言。有趣的是，与D2相比，任务适应策略的表现是相反的：在这里，更好地适应英语模型中的交叉注意，而不是直接微调目标语言模型。未来的工作将需要研究如何使用不同的数据源的语言适应（D2，风格特定与D3，通用）与任务适应策略的相互作用。D4的结果表明，语言适应培训有助于内容保存，特别是葡萄牙语，这证实了这一点，遏制了语言代表性不足的问题，在预先培训。然而，风格准确性的低表现表明，特定于任务的数据是必要的，即使它来自不同的语言。5分析与探讨案例研究表2显示了一组意大利语的示例输出。在IF方向上，大多数系统倾向于从源代码中大量复制，并稍微改变正式词汇。DLSM和基于规则的系统未能传递正式风格，而其他系统在某种程度上是成功的：我们的M1.1在风格强度上产生了最好的性能。当查看内容时，大多数输出或多或少包含源句子的一部分;多任务系统获得了最高的BLEU分数，但我们的系统（除了M3.3）具有更高的COMET分数，其中M3.1获得了最高分数。对于F I方向，我们可以看到M1.1在风格强度上的表现最差（其输出几乎与源相同），而M2.1、M3.1和M3.2生成相同的输出，回归得分最低总体而言，M3.3在风格和内容上实现了最佳方向分析对于英语，Rao和Tehrult（2018）发现IF方向与相反的方向有由于我们的工作是在多语言环境中对FI方向的第一次尝试，因此我们使用每个方向的两个测试集运行一些额外的分析我们微调BART（Lewis et al. ，2020）和mBART-50（Tanget al. ，2020）与英语平行数据（GYAFC）+v：mala2277获取更多论文→→→→→如果用意大利语书写正确的话，可能会很高兴地看到一个risposta。表2：意大利文产出实例及其初级评价分数。注：（i）REG.表示风格回归因子的得分;（ii）ACC是来自风格分类器的风格置信度。图2：使用一个参照的内容保留的英语形式转换。设置（a）使用每个方向的原始测试集;（b）使用相反方向的测试集，交换源和参考。并根据（a）和（b）对它们进行评价。图2显示了内容保存的结果。对于INPUT（源拷贝），BLEU分数几乎是相同的交换源和引用，但COMET分数不是，可能是由于COMET被训练为更喜欢正式/更好的其他语言的结果相似（表 3 ）。我们从表 1 中选择 M1.1 和M1.2，因为它们都使用目标语言中的并行数据进行了微调。F I的BLEU分数总是低于相反的分数; F中INPUT的COMET分数I高于IF，但两个系统的F I得分下降后，转换成目标风格的源句所有这些观察表明，在非正式文本中，非正规→正规（设定（a））输入0.1760.0780.198-0.0190.2440.217M1.10.1960.1700.2340.1330.2690.282M1.20.1940.1810.2310.1380.2830.319正态→非正态（设定（b））输入0.1740.3640.1960.2770.2430.463M1.10.1940.3260.2010.2390.2260.371M1.20.1930.3110.1990.2190.2200.358表3：使用一个引用的内容保存的多语言形式转移的结果。我们认为，F→I方向更难。6结论使用机器翻译的训练数据微调预训练的多语言模型，可以产生最先进的结果，将非正式文本转换为正式文本。正式到非正式的方向的结果是相当糟糕的任务更困难，翻译的非正式文本的质量较低。我们还提出了两个适应训练策略，可以应用于跨语言迁移策略。这些策略的目标语言和任务的适应，并可以结合起来，以适应mBART的多语言形式转移。使用不同语言的辅助并行数据的自适应策略是有效的，产生了有竞争力的结果，并且优于没有特定任务并行数据的基于IBT的经典方法最后，我们已经证明，从正式到非正式的转换比相反的方向更难。MODELITALIANFRENCH葡萄牙语Bleu彗星Bleu彗星Bleu彗星MODELSENTENCEREG.ACCBleu彗星非正规→正规源你不能跟随我，也不能离开我，因为你有许多问题，----如果你离开，我认为这参考我的父母，你和你的孩子，都不知道自己是谁，因为他们有很多问题，必须解决。----在我看来，你的离开意味着软弱和恐惧，因为如果你有很多问题，解决它们是至关重要的多任务你不能跟随我，也不能离开我，因为你有许多问题，就是不能解决的。0.1200.9590.1510.175DLSM你没有资格，也没有能力，因为你是一个有能力的人，你是一个有能力的人。-2.6660.0140.015-1.563基于规则你不能跟随我，也不能离开我，因为你有许多的问题，-1.3400.4300.0290.423M1.1请听我说，我已经把钱都给你了. 这是一个很大的问题，因为它可以解决问题。0.7420.9950.0350.658M2.1你不能跟着我去，也不能跟着我去。这是一个很大的问题。-0.2430.9780.0280.634M3.1你不去，我也不去.如果有问题，就解决问题。0.3100.9920.0260.728M3.2你既不知道自己的罪，也不知道自己的罪。-0.2250.9710.0370.639M3.3这是一个很重要的问题，因为这是一个可以解决的问题。-0.0920.6920.126-0.968源正态→非正态----如果你用正确的意大利语写，你会有更好的机会得到答案。参考se magari scrivi in italiano riusciamo a riponderti！----也许如果你用意大利语写，我们可以回答你！！！M1.1如果用意大利语写出来，很可能会有另一个版本。1.5800.0010.0710.566M2.1用意大利语写的corretto avrai pituitable possibilità di ricevere una risposta。0.2210.8960.0830.557M3.1用意大利语写的corretto avrai pituitable possibilità di ricevere una risposta。0.2210.7960.0830.557M3.2用意大利语写的corretto avrai pituitable possibilità di ricevere una risposta。0.2210.7960.0830.557M3.3意大利语书写，并希望有机会获得一份意大利语。0.8910.8780.0840.566+v：mala2277获取更多论文致谢这项工作得到了中国学校管理委员会（CSC）的部分资助. ACL Rolling Review的匿名评审员为我们提供了有用的意见，有助于改进本文及其演示文稿，因此我们我们还要感谢格罗宁根大学信息技术中心的支持，感谢他们提供Peregrine高性能计算集群的访问权限。道德声明不幸的是，所有自动生成和/或改变自然文本的工作都可能被恶意使用。虽然我们的模型一旦公开，我们无法完全阻止这种使用，但我们确实希望明确地写上风险，并提高公众对这种可能性的认识，这是控制潜在有害使用影响的方法。我们愿意进行任何讨论和协商，以尽量减少此类风险。引用Roee Aharoni，Melvin Johnson，Orhan Firat。2019年。大规模多语言神经机器翻译。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第3874-3884页，明尼阿波利斯，明尼苏达州。计算语言学协会。安库尔·巴普纳和奥尔罕·菲拉。2019. 简单，可扩展的神经机器翻译适应。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议记录中，第1538- 1548页，中国香港。计算语言学协会。尼古拉·博戈伊切夫和里科·森里希2019. 神经机器翻译中合成数据中的主成分、干扰和噪声. arXiv预印本arXiv：1911.03362。Eleftheria Briakou，Sweta Agrawal，Joel Tejulult，and Marine Carpuat. 2021年a. 风格迁移的评估指标：多语言正式迁移的案例研究。2021年自然语言处理，第1321计算语言学协会。Eleftheria Briakou ， Di Lu ， Ke Zhang ， and JoelTehrult. 2021b的最后一页。你好，你好，药膏！XFORMAL：多语言正式样式转换的基准。在计算语言学协会北美分会2021年会议记录中：人类语言技术，第3199-3216页，在线。计算语言学协会。Yixin Cao，Ruihao Shui，Liangming Pan，Min-YenKan，Zhiyuan Liu，and Tat-Seng Chua.2020. 专家风格转移：一个新的任务，以更好地沟通专家和外行。在计算语言学协会第58届年会的会议记录中，第1061-1071页，在线。计算语言学协会。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440- 8451页，在线。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Tahmid Hasan ， Abhik Bhattacharjee ，马里兰州Saiful Islam ， Kazi Mubashir ， Yuan-Fang Li ，Yong-Bin Kang，M.苏赫尔·拉赫曼和里法特·沙赫里亚2021. XL-sum：44种语言的汇总。在计算语言学协会的调查结果：ACL-IJCNLP 2021，第4693-4703页，在线。计算语言学协会。Vu Cong Duy Hoang，Philipp Koehn，GholamrezaHaffari，and Trevor Cohn. 2018. 神经机器翻译的迭代回译。在第二届神经机器翻译和生成研讨会的会议上，第18-24页，澳大利亚墨尔本。计算语言学协会。NeilHoulsby ， AndreiGiurgiu ， StanislawJastrzebski ， BrunaMorrone ， QuentinDeLaroussilhe，AndreaGesmundo，MonaAttariyan，and Sylvain Gelly. 2019. NLP的参数有效迁移学习。第36届机器学习国际会议论文集Melvin Johnson ， Mike Schuster ， Quoc V. Le ，Maxim Krikun ， Yonghui Wu ， Zhifeng Chen ，NikhilThorat ， FernandaViégas ， MartinWattenberg，Greg Corrado，Macduff Hughes ，and Jeffrey Dean.2017. 谷歌计算语言学协会学报，5：339+v：mala2277获取更多论文金允。 2014. 用于句子分类的卷积神经网络。在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，第1746-1751页，卡塔尔多哈。计算语言学协会。Diederik P. Kingma和Jimmy Ba。2015. Adam：一种随机优化方法。在学习代表国际会议论文集。Huiyuan Lai，Antonio Toral，and Malaysia Nissim.2021年a. 通用资源正是您所需要的：没有特定任务的并行训练数据的风格。在2021年自然语言处理经验方法集，第4241-4254页，在线和蓬塔卡纳，多米尼加共和国。计算语言学协会。Huiyuan Lai，Antonio Toral，and Malaysia Nissim.2021b的最后一页。感谢你的评分奖励预先训练的模型改善了正式风格迁移。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议（第2卷：短文）的支持下，第484- 494页计算语言学协会纪尧姆·兰普尔，桑迪普·苏布拉马尼安，埃里克·史密斯，卢多维奇·德诺耶，马克·奥雷利奥·兰扎托和Y-兰·布鲁。2019. 多属性文本重写。在国际学习代表会议上。Mike Lewis，Yinhan Liu，Naman戈亚尔，Mar-jan Ghazvininejad ， Abdelrahman Mohamed ，Omer Levy ， Veselin Stoyanov ， and LukeZettlemoyer. 2020. BART：用于自然语言生成、翻译和理解的去噪序列到序列预。在计算语言学协会第58届年会的会议记录中，第7871-7880页，在线。计算语言学协会。Juncen Li ， Robin Jia ， He He ， and Percy Liang.2018. 删除，检索，生成：一个简单的方法来感受和风格转移。在计算语言学协会北美分会2018年会议论文集，第1865-1874页计算语言学协会。Yinhan Liu，Jiatao Gu，Naman Goyal，Xian Li，Sergey Eddom ， Marjan Ghazvininejad ， MikeLewis，and Luke Zettlemoyer. 2020. 用于神经机器翻译的多语言去噪预训练。《计算语言学协会学报》，8：726Fuli Luo，Peng Li，Jie Zhou，Pengcheng Yang，Baobao Chang，Zhifang Sui，and Xu Sun.2019.双用于无监督文本风格迁移的强化学习框架。第28届国际人工智能联合会议论文集，第5116JonasPfeif fer，Iv anVulic' ，IrynaGure vych，andSe-bastian Ruder.2020. MAD-X：一个基于适配器的多任务跨语言迁移框架。在2020年自然语言处理经验方法会议（EMNLP）的会议记录中，第7654计算语言学协会Shrimai Prabhumoye ， Yulia Tsvetkov ， RuslanSalakhut- dinov，and Alan W Black.2018. 通过回译进行风格转换。在 Proceedings of the 56thAnnualMeetingoftheAssociationforComputational Linguistics （ Volume 1 ： LongPapers），pages 866-876，Melbourne，Australia.计算语言学协会。Sudha Rao和Joel Tehrult。2018. 尊敬的先生或女士，请允许我介绍GYAFC数据集：用于正式风格转换的。在计算语言学协会北美分会2018年会议论文集：人类语言技术，第1卷（长文），第129-140页，路易斯安那州新奥尔良。计算语言学协会。Ricardo Rei，Craig Stewart，Ana C Farinha ，andAlon Lavie. 2020. COMET：机器翻译评估的神经框架。在2020年自然语言处理经验方法会议（EMNLP）的会议中，第2685-2702页。计算语言学协会。Abhilasha Sancheti，Kundan Krishna，Balaji VasanSrinivasan和Anandhavelu Natarajan。2020年。文本风格迁移的约束奖励框架.在信息检索的进展，第545阿萨·库珀·斯蒂克兰，亚历山大·贝拉尔，还有瓦斯·西里娜·尼库里娜. 2021年a. nmt的多语言领域自适应：用适配器解耦语言和领域信息。arXiv预印本，arXiv：2110.09574。Asa Cooper Stickland ， Xian Li ， and MarjanGhazvininejad. 2021b的最后一页。使预训练的单语和多语言模型适应机器翻译的食谱。在计算语言学协会欧洲分会第16次会议的会议记录：主卷，第3440-3453页，在线。计算语言学协会。Yuqing Tang ， Chau Tran ， Xian Li ， Peng-JenChen ， Na- man Goyal ， Vishrav Chaudhary ，Jiatao Gu，and Angela Fan.2020. 多语言翻译，可扩展的多语言预训练和微调。arXiv预印本，arXiv：2008.00401。+v：mala2277获取更多论文AhmetÜstün ， AlexandreBerard ， LaurentBesacier，and Matthias Gallé.2021. 多语言无监督神经机器翻译与去噪适配器。在2021年自然语言处理经验方法集，第6650-6662页计算语言学协会。Ahmet Üstün，Arianna Bisazza，Gosse Bouma，andGertjan van Noord. 2020. UDPLESS：真正的通用依赖分析的语言适配。在2020年自然语言处理经验方法会议（EMNLP）中，第2302计算语言学协会Thomas Wolf ， Lysandre Debut ， Victor Sanh ，Julien Chaumond ， Clement Delangue ， AnthonyMoi，Pier- ric Ciudad，Tim Rault，Remi Louf，MorganFuntow-icz ， JoeDavison ， SamShleifer，Patrick von Platen，Clara Ma，YacineJernite ， Julien Plu ， Canwen Xu ， Teven LeScao ， Sylvain Gugger ， Mariama Drame ，Quentin Lhoest ， and Alexander Rush. 2020.transans-formers：最先进的自然语言处理。在2020年自然语言处理中的Em-pesticide方法会议论文集：系统演示，第38-45页，在线。计算语言学协会。Xiaoyuan Yi ， Zhenghao Liu ， Wenhao Li ， andMaosong Sun.2020. 通过学习风格实例支持的潜在空间进行文本风格迁移。第二十九届人工智能国际联合会议论文集，IJCAI-20，第3801张毅，陶戈，孙旭。2020. 并行数据扩充，用于形式风格的传输。在计算语言学协会第58届年会的会议上，第3221- 3228页，在线。计算语言学协会。+v：mala2277获取更多论文A附件：本附录包括：（i）BART和mBART在英语数据上的结果（A.1）;（ii）风格分类器/回归器的结果（A.2）;（iii）多语言形式转换的详细结果（A.3）。A.1BART和mBART在英语数据上的结果我们微调BART（Lewis et al. ，2020）和mBART-50（Tang et al. ，2020年）与英语平行数据专门开发的英语正式转移（GYAFC）。BART和英语数据的表现可以被视为一种上限，因为这些是最佳条件（单语模型和黄金平行数据）。我们看到使用mBART的下降相当小，这表明mBART是一个可行的选择。我们还看到，从正式到非正式比从非正式到正式要困难得多，这可能是由于非正

下载后可阅读完整内容，剩余1页未读，立即下载