多语言模型数量与模型性能关系的研究

27 浏览量更新于2023-12-01 收藏 914KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文匹配脚本，适应多语言：多语言预训练对跨语言迁移Yoshinari Fujinuma介绍AWS AILabsAmazon.comfujinumay@gmail.com乔丹·博伊尔-格拉伯UMIACS， CS， LSC，iSchool马里兰大学jbg@umiacs.umd.edu卡塔琳娜·卡恩科罗拉多大学博尔德分校katharina. colorado.edu摘要预训练的多语言模型即使对于看不见的语言也可以实现零射击学习，并且可以通过在微调之前进行自适应来进一步提高性能。然而，目前还不清楚预训练语言的数量如何影响模型对预训练期间未见过的语言的零射击学习。为了填补这一空白，我们提出了以下研究问题：（1）预训练语言的数量如何影响对未知目标语言的零射击性能？(2)这个问题的答案会随着模型的适应而改变吗？ (3)如果用于预训练的语言都是相关的，我们第一个问题的结果会改变吗？我们对相关语言进行预训练的实验表明，选择一组不同的语言至关重要。令人惊讶的是，在没有模型自适应的情况下，增加预训练语言的数量会产生更好的结果，直到添加相关语言，之后性能稳定。相比之下，通过持续的预训练进行模型自适应，在大量语言上进行预训练通常会带来进一步的改进，这表明模型自适应对于利用其他预训练语言至关重要。11介绍预训练的多语言模型（Devlinet al. ，2019;Conneau et al. ，2020）现在是自然语言处理（NLP）中跨语言迁移的标准方法。然而，在预训练多语言模型方面存在多个潜在的相关问题。 Conneau等人（2020）发现“多语言性的诅咒”：对于固定的模型大小，在预训练期间看到的目标语言的零射击性能只会随着额外的预训练语言而增加，直到某个点，之后这项工作是在第一作者还是科罗拉多大学博尔德分校的学生时完成的1本文中使用的所有代码都可以在https：//github.com/akkikiki/multilingual_zeroshot_analysis.其性能降低。 Wang等人（2020 b）还报告了“负干扰”，其中单语言模型在高资源和低资源语言的子集上都比多语言模型获得更好的结果。然而，这些发现仅限于在预训练期间看到的目标语言。目前的多语言模型只覆盖了世界语言的一小部分。此外，由于数据稀疏性，单语预训练模型对于许多低资源语言不太可能获得良好的结果。在这些情况下，多语言模型可以零射击学习看不见的语言，具有高于机会的性能，这可以通过目标语言文本的模型自适应来进一步改进（Wang et al. ，2020 a），即使是有限的数量（Ebrahimi和Kann，2021）。然而，人们对预训练语言的数量如何影响这些情况下的性能知之甚少“多语言的诅咒”或“负面干扰”是否也会影响看不见的目标语言的表现？而且，如果我们希望一个模型能够适用于尽可能多的未知语言，那么它应该在多少种语言上进行训练？具体来说，我们提出了以下研究问题：（1）在越来越多的语言上进行预训练如何影响看不见的目标语言的零射击（2）预训练语言的数量是否会随着模型对目标语言的适应（3）如果预训练语言都是相互关联的，那么第一个研究问题的答案是否会我们预训练了各种单语和多语模型，然后对英语进行微调，并将其应用于看不见的目标语言中的三个零射击跨语言下游任务：词性（POS）标记，命名实体识别（NER）和自然语言推理（NLI）。实验结果表明，选择不同的预训练语言集是有效迁移的关键。如果没有模型自适应，增加预训练语言的数量，arXiv：2203.10753v1 [cs.CL] 2022年3月+v：mala2277获取更多论文首先证明了对不相关的看不见的目标语言的准确性，然后证明了对不相关的看不见的目标语言的准确性。最后，对于模型自适应，除了英语之外的其他预训练语言通常会有所帮助。我们意识到预训练的计算成本及其对环境的影响（Strubell et al. ，2019）。因此，我们在第4节中的实验规模相对较小，每个模型和相对简单的NLP任务（POS标记，NER和NLI）都有固定的计算预算，但验证了我们在第5节中关于大型公共预训练模型的最核心发现。2通过预训练实现预训练的多语言模型是一种直接的跨语言迁移方法：在多种语言上预训练的模型然后在源语言的目标任务数据上进行微调。随后，将该模型应用于目标语言的目标任务数据。最常见的情况是，目标语言是模型预训练数据的一部分。然而，即使情况并非如此，跨语言迁移也是可能的，尽管性能往往较低。本文扩展了先前的工作，探索了预训练模型对可见目标语言的跨语言迁移能力，这取决于预训练语言到不可见目标语言的数量我们现在通过预训练的多语言模型进行传输，并介绍在我们的实验中审查的模型和方法。2.1背景和方法预训练语言模型上下文表示，如 ELMo（Peters et al. ，2018）和BERT（Devlin et al. ，2019）不仅适用于单语表示。多语言 BERT（ Devlin et al. ， 2019 ， mBERT ）， XLM（ Lample 和 Conneau ， 2019 ）和 XLM-RoBERTa（Con-neau et al. ，2020，XLM-R）与之前的最佳实践相比具有令人惊讶的高跨语言传输性能：静态跨语言单词嵌入（Pires etal. ，2019;Wu and Dredze，2019）。多语言模型也是实用的--当你只需要一种语言就可以做得更好的时候，为什么要为每种语言建立数百个单独的模型呢？此外， Wu 和 Dredze（2020）报告说，在100多种语言上预训练的模型在零次跨语言迁移中优于双语或单语语言模型。将预训练的多语言模型（如mBERT和XLM-R）适配到未见过的语言是使用这些模型的一种方法，可以在预训练期间覆盖的语言之外使用这些模型。已经提出了几种用于使预训练的多语言模型适应看不见的语言的方法，包括持续的掩蔽语言模型（MLM）训练（Chau et al. ，2020; Müller et al. ，2020），可选地添加适配器模块（Pfeifferet al. ，2020），或扩展预训练模型的词汇表（Artetxe et al. ，2020; Wang等人，2020a）。然而，这样的适应方法假设在目标语言中存在足够的单语语料库。一些口语、方言或已灭绝的语言缺乏单语语料库来进行模型自适应，这促使我们研究在预训练过程中看不见的语言。我们留下了对目标语言特定处理效果的研究，例如，音译成拉丁字母（Muller et al. 2021年），为今后的工作。2.2研究问题一个可以应用于任何语言的预训练模型，包括那些在预训练过程中看不见的模型，比每种语言预训练一个此外，对于未知的目标语言或没有足够资源进行预训练的语言，它是唯一实用的选择因此，可以应用或至少很容易适应看不见的语言的模型这项工作解决了以下研究问题（RQ），使用英语作为微调的源语言。RQ 1：预训练语言的数量如何影响简单NLP任务在看不见的目标语言上的零次跨语言迁移？我们首先探讨了如果目标语言在测试时是未知的，或者模型适应的单语言资源一方面，我们假设增加预训练语言的数量将提高性能，因为模型看到了更多样化的脚本和语言现象集。此外，预训练语言越多，与目标语言相关的语言的机会就越大。然而，多语言训练可能会造成干扰：其他语言可能会分散对英语的注意力，从而降低表现。+v：mala2277获取更多论文RQ2：RQ1的答案如何随着模型对目标语言的适应而改变？这个问题与我们有足够的单语数据来使预训练模型适应目标语言的设置有关就像我们对RQ1的假设一样，我们希望看到更多的预训练语言应该使适应看不见的目标语言变得更容易。然而，另一种可能性是，调整模型使得除了微调源语言之外的任何语言都不必要;当添加更多预训练语言时，性能保持不变或下降如果所有的预培训语言都相互关联，那么RQ1的答案是否会改变？在探索RQ1时，我们使用了一组不同的预训练语言，因为我们希望这能带来最大的好处。但是，结果可能会根据确切的语言而变化。因此，作为案例研究，我们使用一组密切相关的语言重复所有实验。一方面，我们假设由于添加更多的预训练语言（如果有的话）而带来的好处对于相关语言来说会更小，因为我们减少了预训练数据中语言现象然而，另一方面，如果英语是我们在微调过程中使用的所有语言，则性能可能会随着相关语言的增加而增加，因为这将更接近于对更多英语数据的训练。3实验装置预训练语料库我们所有的模型都是在CoNLL2017 维基百科转储上预训练的（ Gin-ter etal. ，2017年）。为了对所有预训练语言使用相同数量的数据，我们将所有维基百科数据集下采样为相同数量的序列。我们标准化到最小的语料库，印地语。由此产生的预训练语料库大小约为每种语言200 MB。2在预处理后，我们保留了1K序列，每个序列约有512个标记，作为开发集，以跟踪模型对于模型自适应（RQ 2），我们选择包含在两个XNLI（Conneau et al. ，2018 b）和通用自动化 2.5 （ Nivreet al. ， 2019 年）：波斯语（FA），希伯来语（HE），法语（FR），越南语（ VI），泰米尔语（ TA）和保加利亚语（BG）。模型自适应通常针对预训练期间未看到的低资源语言2Micheli等人。（2020）表明，至少100MB的语料库对于预训练是合理的。Langs任务看到的语言英语（EN）POS，NER，NLI俄语（RU）POS，NER，NLI阿拉伯语（AR）POS，NER，NLI中文（ZH）POS，NER，NLI印地语（HI）POS，NER，NLI西班牙语（ES）POS，NER，NLI希腊语（EL）POS，NER，NLI芬兰语（FI）POS，NER印度尼西亚语（ID）POS，NER土耳其语（TR）POS，NER，NLI德语（DE）POS，NER，NLI荷兰语（NL）POS，NER，NLI瑞典语（SV）-丹麦语（DA）-看不见的语言保加利亚语（BG）POS，NER，NLI法语（FR）POS，NER，NLI乌尔都语（UR）POS，NER，NLIAfricaans（AF）POS，NER爱沙尼亚语（ET）POS，NER巴斯克语（欧盟）POS，NER波斯语（FA）POS，NER希伯来语（HE）POS，NER匈牙利语（HU）POS，NER意大利语（IT）POS，NER日语（JA）POS，NER韩语（KO）POS，NER马拉地语（MR）POS，NER葡萄牙语（PT）POS，NER越南语（VI）POS，NER泰米尔语（TA）POS，NER泰卢固语（TE）POS，NER斯瓦希里语（SW）NLI泰国（TH）NLI表1：我们实验中使用的语言。因为单语语料库太小（ Wanget al. ，2020a）。因此，我们使用约翰霍普金斯大学圣经语料库麦卡锡等人。（2020年），继Ebrahimi和Kann（2021年）。3我们在XTREME数据集的以下下游任务上评估我们的预训练模型（Hu et al. ，2020）：POS标签和NLI。对于前者，我们从通用语言v2.5（Nivre et al. ，2019）。对于后者，我们在 XNLI 中使用所有 15 种语言（ Conneauetal. ，2018 b）。我们遵循XTREME中默认的训练、验证和测试分割。模型和超参数遵循Con-neau等人（2020）的XLM - R 基础模型，我们训练 transformers（Vaswani等人）。，2017），具有12个层、768个单元、12个注意力头，并且每个序列最多512个令牌。以容纳所有3如果目标语言有多个版本的圣经，我们会选择最大的一个。+v：mala2277获取更多论文×××模型预培训语言Div-2EN，RUDiv-3EN，RU，ZHEN，RU，ZH，AREN，RU，ZH，AR，HIEN，RU，ZH，AR，HI，ESEN，RU，ZH，AR，HI，ES，ELEN，RU，ZH，AR，HI，ES，EL，FIEN，RU，ZH，AR，HI，ES，EL，FI，ID第十区EN，RU，ZH，AR，HI，ES，EL，FI，ID，TRRel-2EN，DERel-3EN，DE，SVRel-4EN，DE，SV，NL0.30.20.10en Div-2 Div-3 Div-4 Div-5 Div-6 Div-7 Div-8 Div-9 Div-10（+ru）（+zh）（+ar）（+hi）（+es）（+el）（+fi）（+id）（+tr）预培训语言版本5EN、DE、SV、NL、DA表2：用于模型的预训练语言在我们的实验中：模型在不同的集合（Div-X）和相关的预训练语言（Rel-X）上训练，具有不同数量的预训练语言。语言和促进所有预训练设置之间的可比性，我们使用 XLM-R的词汇表和Conneau等人的SentencePiece（Kudo and Richardson，2018）tokenizer。（2020年）。我们使用掩码语言建模（MLM）作为我们的预训练目标，像Devlin等人。（2019年），屏蔽15%的代币。我们使用Adam W（Loshchilov和Hutter，2019）对所有模型进行15万步的预训练，学习率为1在NVIDIA RTX2080Ti或GTX1080Ti 12GB上，10−4和批量大小为2，大约需要四天时间来训练每个模型。在预训练时，我们一起预处理句子，以生成大约512个标记的对于连续的预训练，我们使用2 10−5的学习率并训练40个epoch，否则遵循预训练的设置对于微调，我们使用210−5的学习率，并对POS标记和NER进行额外的10个时期的训练，并对NLI进行额外的5个时期的训练。（2020年）。表1显示了我们实验中使用的语言。英语是所有模型的预训练数据的一部分。它也是继Hu等人（2020）之后所有任务的微调源语言。我们使用两组不同的预训练语言：我们主要专注于最多五种语言的预训练，除了趋势不明确的词性标注，我们进一步实验了多达十种语言。对于POS标记和NER，我们认为XTREME中可用的29种语言中有17种是不可见的，而其余12种语言是至少一种模型的预训练语言图1：在多达10种语言的不同集合上进行预训练并在英语上进行微调后的POS标记准确率。准确性提高，直到六种语言对给定的目标语言。对于NLI，六种语言是可见的，其余的是不可见的。我们添加预训练语言的顺序遵循其原始CoNLL2017维基百科转储的大小，首先添加较大的大小。4结果我们现在介绍每个RQ的实验结果4.1RQ1的结果图1显示了在预训练期间未见过的17种语言的平均POS标记准确率。平均而言，在多种语言上预训练的模型在看不见的语言上的准确率高于仅在英语上预训练的模型，这表明该模型受益于更多样化的预训练数据集。然而，平均准确率只增加到六种语言。这表明我们最初的假设“语言越多越好”可能不正确。图2提供了更详细的图片，显示了所有可见和不可见目标语言的不同预训练语言数量的准确性。正如预期的那样，当一种语言本身作为预训练语言添加时此外，如果加入与目标语言来自同一语系的预训练语言，准确率会提高：例如，马拉地语的准确率提高了9。3%，保加利亚语的准确率提高了31. 2%，加上俄罗斯。这表明相关语言确实有利于迁移学习。此外，（部分）与预训练语言共享相同的脚本（例如，ES和ET，AR和FA）有助于零镜头跨语言迁移，即使是来自不同语言的语言不可见语言的词性标注准确性+v：mala2277获取更多论文1.00.50.01.00.50.01.00.50.01.00.50.0图2：使用在不同语言（EN，RU，ZH，AR，HI，ES，EL，FI，ID，TR）上预训练的模型进行的POS标记准确性，这些语言按目标语言家族分组，印欧语（IE）语言进一步分为XTREME之后的子组。颜色代表语言的脚本类型。当添加来自相同家族或使用相同脚本的预训练语言时，准确率增益更大。家人这些结果与Müller等人（2020）的结果一致，并部分支持Pires等人（2019）的假设，即共享脚本对看不见的语言有效。但是，与其他功能相比，脚本有多重要？为了量化它的重要性，我们对词性标注结果进行了线性回归分析。表3显示了使用目标语言和预训练语言之间的类型学特征的线性对于脚本和家族特征，我们遵循Xu et al.（2019）并将其编码为二进制值，如果具有相同脚本或来自相同家族的语言被包括作为预训练语言之一，则将其设置为1。对于句法和音位特征，我们使用lang2vec（Littell et al. ，2017）。我们取目标语言和任何预训练语言之间的最大余弦相似性。表3进一步证实，具有共享相同脚本的预训练语言对积极的跨语言迁移贡献最大。遗憾的是，我们无法给出一个确定的预训练语言的最佳数量。一个一致的发现-特点Coef.p值CI剧本061<. 001[.050，.073]家庭022004[.007，.036]001905[-.016，.018]语音学.021<. 001[.009，.033]#pretrain langs.011. 044[.000，.022]表3：关于具有系数（Coef.）的POS标注准确性的回归分析，p值和95%置信区间（CI）。具有低p值的大系数表明该特征显著有助于更好的跨语言迁移，这表明相同的脚本是最重要的特征。对于绝大多数语言来说，只使用英语会对看不见的语言产生最差的结果然而，添加预训练语言并不一定能提高准确性（图1）。这表明，虽然我们需要不止一种预训练语言，但使用比100种常用预训练语言更少的语言可能就足够了，除非我们期望它们与潜在目标语言之一密切相关。我们的净入学率结果显示了类似的趋势。因此，我们在本文的主要部分仅报告平均性能（图3），并全面af de ennlIE：Germanic俄罗斯天然气公司IE：斯拉夫语zh汉藏语系阿尔河亚非裔hi mrurIE：Indo−Aryanes fr itptIE：February2009elIE：希腊语etFi乌拉胡南岛语族tr突厥语巴斯克语日本语vi澳亚ko朝鲜语达代德拉威faIE：伊朗人en+ru+zh+ar+Hi+es+El+Fi+id+tren+ru+zh+ar+Hi+es+El+Fi+id+tren+ru+zh+ar+Hi+es+El+Fi+id+tren+ru+zh+ar+Hi+es+El+Fi+id+tr+v：mala2277获取更多论文精度1.00.20.50.00.10en Div-2 Div-3 Div-4 Div-5 Div-6 Div-7 Div-8 Div-9 Div-10（+ru）（+zh）（+ar）（+hi）（+es）（+el）（+fi）（+id）（+tr）预培训语言1.00.50.01.00.5图3：对多达10种语言进行预训练并对英语进行微调后的NER0.00.30.21.00.50.0(a) POS标签的准确性。0.10enDiv-2（+ru）Div-3（+zh）Div-4（+ar）Div-5（+hi）1.00.50.0预培训语言图4：在不同集合上进行预训练并对英语进行微调后的XNLI详情见附录A。对于NER，转移到看不见的语言是更有限的，可能是由于标记为实体相比，POS标签时，令牌的小子集。NLI我们在图4中的NLI结果显示了类似的趋势：在相对少量的预训练语言中，未见过语言的准确率达到稳定水平。具体而言，Div-4对8种目标语言具有最高的准确性，而Div-5仅对两种目标语言最好。准确性再次随着相关语言而提高，例如提高3。在添加俄语作为预训练语言后，保加利亚语的准确率为7%。完整结果见附录B。4.2RQ2的结果图5a显示了通过持续预训练调整预训练模型后六种语言的POS标记结果。正如预期的那样，准确度总体上高于图2。重要的是，在波斯语中添加土耳其语（+9）时，准确性有所提高。8%），并在他酿造时，加入希腊（+7。7%），在调整模型之前没有观察到。我们将在第5节中对此进行进一步研究。1.00.50.0(b)NERF1分数。图5：在每种目标语言的圣经上继续训练后的结果。与词性标注相比，持续培训对大多数语言的净认率提高有限。图5b中的NERNER结果示出了POS标记之间的相似性（例如，在加入俄语后对保加利亚语的改进然而，在增加阿拉伯语后，尽管两种语言之间有部分共享脚本，但这表明添加相关预训练语言的效果部分依赖于任务。NLI对于NLI，在添加第二种预训练语言后，准确率略有增加。2到5种预训练语言的结果对于所有目标语言都是相似的这表明，与我们对POS标记的发现类似，一些预训练语言可能足以进行模型适应。完整结果见附录B。最后，我们的NLI结果总体较低。这可能是由于预训练语料库的大小是 NLI 的最相关特征之一（LauscherBGIE：斯拉他亚非裔frIE：浪漫vi澳大利亚-亚洲ta德拉威faIE：伊朗NLI在看不见的语言BGIE：斯拉他亚非裔frIE：浪漫vi澳大利亚-亚洲ta德拉威faIE：伊朗NER F1看不见的语言F1分数F1分数F1分数精度精度en+ru+zh+ar+Hi+es+El+Fi+id+tren+ru+zh+ar+Hi+es+El+Fi+id+tren+ru+zh+ar+Hi+es+El+Fi+id+tren+ru+zh+ar+Hi+es+El+Fi+id+tr+v：mala2277获取更多论文1.00.50.01.00.50.01.00.50.01.00.50.0图6：使用相关预训练语言（EN，DE，SV，NL，DA）的POS标记准确率，按目标语言家族分组，印欧语（IE）语言进一步分为XTREME数据集之后的子组准确性的变化主要可以在日耳曼语、罗曼语和乌拉尔语中观察到，这是由于只使用来自日耳曼语系的预训练语言。0.40.30.20.10en版本2（+de）Rel-3（+sv）Rel-4（+nl）Rel-5（+da）谎言）接近英语。来自其他语系的语言的准确率变化了10%，这比各种预训练语言的变化要小。<这表明，在类似语言上预训练的模型很难转移到不相关的语言上。EN、Rel-2、Rel-3、Rel-4和Rel-5的NERF1分数分别为.218、.219、.227、.236和.237。预培训语言图7：在对一组相关语言进行预训练并对英语进行微调后，XNLI等人，2020），与POS标记不同（Hu et al. ，2020）。4.3RQ3的结果与RQ1相比，当增加预训练语言的数量时，大多数语言的POS标记准确性变化是有限的（图6）。我们观察到收益的看不见的语言属于日耳曼语，罗曼语和乌拉尔语系，这些语系相对（与其他语系相比很好与Div-X相比，语言也得到了提高，增加了五种语言。然而，这些模型带来了较小的改进，类似于POS标记。NLI图7显示了NLI的类似趋势：当添加相关的预训练语言时，远离英语的语言的准确性变化不大或下降。事实上，对于十三种看不见的目标语言中的九种，Rel-5是最差的5更多预培训语言我们从上一节中得到的主要结论是：（RQ1）在没有模型自适应的情况下，增加预训练语言的数量并不能提高不相关的不可见目标语言的准确性;（RQ2）模型自适应在很大程度上有助于利用在更多语言上预训练的模型 ; 以及（RQ3）af de ennlIE：Germanic俄罗斯天然气公司IE：斯拉夫语zh汉藏语系阿尔河亚非裔hi mr urIE：Indo−Aryanes fr it ptIE：February 2009elIE：希腊语etFi乌拉胡南岛语族tr突厥语巴斯克语日本语vi澳亚ko朝鲜语达代德拉威faIE：伊朗人enNLI在看不见的语言+的+SV+nl+daen+的+SV+nl+daen+的+SV+nl+daen+的+SV+nl+da+v：mala2277获取更多论文POS精度第五区1第六区第八区第十区XLM-17XLM-100XLM-R第五区1第六区第八区第十区XLM-17XLM-100XLM-R0.75 0.750.50 0.500.25 0.250马耳他沃洛夫约鲁巴目标语言埃尔齐亚诺鲁·萨米0马耳他沃洛夫约鲁巴目标语言埃尔齐亚诺鲁·萨米(a)在模型调整之前。（b）模型调整后。图8：在对英语进行微调后，我们的模型在不同语言集（XLM-17，XLM-100和XLM-R）上预训练的POS标记准确性。无论预训练语言的数量如何，自适应之前的模型大致相当，而自适应之后的模型更多地受到相关预训练语言的影响。当使用一种以上的预训练语言时，多样性很重要。然而，第4节中的实验设置存在局限性我们假设如下：（1）相对较小的预训练语料库;（2）在构建模型的词汇表时包括目标语言;（3）固定的计算资源;以及（4）只有多达10种预训练语言。我们现在探讨我们对RQ1和RQ2的发现是否在没有这些限制的情况下成立为此，我们使用了两个公开的预训练XLM模型（Lample和Conneau，2019），它们已经在17种（XLM-17）和100种（XLM-100）语言的全尺寸维基百科上进行了预训练，以及在更大的通用爬行语料库上训练的XLM - R基础模型（Con-neauet al. 2020年，100种语言。我们对所有模型都看不见的低资源语言进行了案例研究，包括看不见的词汇：马耳他语（MT），沃洛夫语（WO），约鲁巴语（YO），Erzya（MYV）和北萨米语（SME）。Div-X中使用的所有预训练语言都包含在XLM-17中，除了芬兰语，XLM- 17的所有17种预训练语言都是XLM-100预训练语言的子集。我们报告三个随机种子的平均值和标准差。5.1结果对于没有自适应的模型，准确性不会随着源语言数量的增加而提高事实上，XLM-17和XLM-100的准确性是相当的，尽管前者使用17种预训练语言，后者使用100种。一个例外是北萨米语（带有拉丁字母的乌拉尔语言），因为XLM- 17没有看到任何乌拉尔语言，但XLM-100在预训练期间。当进一步比较Div-10和XLM-17时，通过ad-speech预训练语言提高的准确性有限。 Erzya 在 5 到 100 种语言之间保持不变（XLM-R除外），即使将预训练语料库大小从下采样（ Div-X ）增加到完整的维基百科（XLM-17和XLM-100）。RQ 2对于具有自适应的模型（图8b），XLM-17和XLM之间存在显著差距。100.这证实了我们在上一节中的发现：如果预训练的模型适应目标语言，那么更多的预训练语言是有益的因此，一种可能的解释是，XLM-100的一种或多种预训练语言与我们的目标语言相似，这些语言只能通过持续的预训练来利用（例如，乌克兰语包含在XLM-100中，但不包含在Div-X中）。因此，当模型可以适应每种目标语言时，让模型在预训练期间看到更多的语言会更好。6相关工作静态跨语言单词嵌入静态跨语言单词嵌入（ Mikolov et al. ， 2013; Conneau 等人，2018a）嵌入和对齐来自多种语言的单词，用于下游NLP任务（Lample et al. ，2018; Gu etal. ，2018年），包括一个大规模的50+语言培训（Ammar et al. ，2016）。静态跨语言嵌入方法可以分为两类：监督和无监督。监督方法使用双语词典作为跨语言监督信号。另一方面，预训练的多语言模型和无监督POS精度+v：mala2277获取更多论文跨语言嵌入是类似的，因为它们不使用双语词典。Lin等人（2019）探索了使用数据独立（例如，类型学）特征，以及数据相关特征（例如，词汇重叠）。他们的工作是静态监督的跨语言单词嵌入，而本文探讨的是预训练的语言模型。从Pires等人开始的对可见语言的预训练多语言模型的分析。（2019），分析预训练的多语言模型的跨语言可移植性一直是一个感兴趣的话题。Pires等人（2019）假设跨语言迁移是由于跨语言共享令牌而发生的，但Artetxeet al.（2020）表明，即使在没有共享脚本的语言之间，跨语言迁移也可以成功。其他工作研究了零镜头跨语言学习和打字特征之间的关系（Lauscher et al. ，2020），编码语言特定的特征（Libovickalet al. ，2020），以及mBERT的多语言性（Dufter and Schütze，2020）。然而，大多数分析要么局限于大型公共模型（例如，mBERT，XLM-R），到最多两种预训练语言（K et al. ，2020; Wu和Dredze，2020），或在预训练期间看到的目标语言。一个例外是deVries等人（2022）的并行工作，该工作分析了针对未见过语言的特定任务训练数据的语言选择。在这里，我们分析了模型从越来越多的预训练语言中受益的能力7结论本文探讨了在对英语进行微调后，不同语言数的预训练对隐性目标语言的影响。我们发现：（1）如果不将预训练的多语言语言模型适配于目标语言，则可以使用一组涵盖脚本和未见过的目标语言家族的各种预训练语言（例如，用于XLM-17的17种语言）可能就足够了;(2)如果使预训练的多语言语言模型适应目标语言，那么应该在尽可能多的语言上进行预训练，最多至少100种。未来的发展方向包括从不同的角度分析多语言预训练的效果，如不同的预训练任务和架构，例如，mT5（Xue et al.#20201;更复杂。超越分类或序列标记的任务确认我们衷心感谢评论者的积极和详细的反馈。我们还要感谢科罗拉多大学博尔德分校NALA小组的 Boiling-Graber 由 ODNI ， IARPA 通过BETTER Pro- gram合同#2019-19051600005支持。本文中包含的观点美国政府被授权为政府目的复制和分发重印本，尽管其中有任何版权引用WaleedAmmar、 GeorgeMulcaire 、 YuliaTsvetkov、Guillaume Lample、Chris Dyer和NoahA Smith。2016.大规模多语言单词嵌入。计算研究库，arXiv：1602.01925。版本2.Mikel Artetxe Sebastian Ruder和Dani Yogatama 2020.论单语表征的跨语言迁移性。计算语言学。伊森·C作者：Lucy H.Lin，and Noah A.史密斯2020年。使用多语言BERT、小型语料库和小型树库进行解析。计算语言学协会（Association forComputational Linguistics：EMNLP 2020）Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。在计算语言学协会的会议记录中。Alexis Conneau 、Guillaume Lample 、Marc2018年a。没有并行数据的单词翻译。学习表征国际会议论文集。Alexis Conneau，Ruty Rinott，Guillaume Lample，Adina Williams ， Samuel Bowman ， HolgerSchwenk ， and Veselin Stoyanov. 2018 年 b 。XNLI：评估跨语言句子表示。自然语言处理中的经验方法进展。Wietse de Vries ， Martijn Wieling ， and MalaysiaNissim.2022. 当从mBERT看不见只是+v：mala2277获取更多论文beginning：用多语言模型处理新语言。在计算语言学协会会议录中。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会会议录中：人类语言技术。Philipp Dufter和Hinrich Schütze。2020. 确定BERT的多语言性所必需的要素自然语言处理论文集。Abteen Ebrahimi和Katharina Kann 2021. 如何使预训练的多语言模型适应1600种语言。在计算语言学协会年会和自然语言处理中。FilipGinter，JanHajic，JuhaniLuotolahti，MilanStraka ， and Daniel Zeman.2017. CoNLL2017共享任务- 自动标注原始文本和单词嵌入。查尔斯大学数学与物理学院形式与应用语言学研究所（InstituteofFormalandAppliedLinguistics，顾佳涛，王勇，陈云，Victor O. K.李和赵京铉。2018. 低资源神经机器翻译的元学习。自然语言处理中的经验方法胡俊杰，塞巴斯蒂安·鲁德，阿迪蒂亚·西丹特，格拉哈姆·诺伊比格，奥尔罕·菲拉特，梅尔文·约翰逊。2020. XTREME：一个用于评估跨语言概括的大型多语言多任务基准。国际机器学习会议集。Karthikeyan K，Zihan Wang， Stephen Mayhew ，and Dan Roth. 2020. 多语言 BERT的跨语言能力：实证研究。在学习表征国际会议论文集。工藤拓和约翰·理查森。2018年SentencePiece：一个简单的和语言无关的子词分词器和去分词器，用于神经文本处理。自然语言处理论文集。纪尧姆·兰普尔和亚历克西斯·康诺。2019. 跨语言语言模型预训练. 神经信息处理系统进展论文集。Guillaume Lample ， Alexis Conneau ， LudovicDenoyer，and Marc2018. 仅使用单语语料库的无监督机器翻译。在学习表征。AnneLausche r，VinitR a vishanka r，I v anVuli c'，和Goran Glavavaeti。2020. 从零到英雄：论多语言变形金刚。自然语言处理。Jind Jindrich Libovickerg ， Rudolf Rosa ， andAlexander Fraser.2020. 论预训练多语言表征的语言中立性。计算语言学协会（Association forComputational Linguistics：EMNLP2020）Yu-Hsiang Lin ，Chian-Yu Chen，Jean Lee，ZiruiLi ， Yuyan Zhang ， Mengzhou Xia ， ShrutiRijhwani，Junxian He ，Zhisong Zhang ，XuzheMa，Antonios Anastasopoulos，Patrick Littell，and Graham Neubig.2019. 为跨语言学习选择迁移语言。在计算语言学协会的会议记录中。Patrick Littell ， David R Mortensen ， Ke Lin ，Katherine Kairis，Carlisle Turner，and Lori Levin.2017. Uriel和lang2vec：将语言表示为类型学、地理学和系统发育向量。在计算语言学协会欧洲分会的支持下。伊利亚·洛希洛夫和弗兰克·哈特。2019. 修正adam中的权重衰减正则化。在学习代表国际会议的会议记录。艾莉亚·D麦卡锡，雷切尔·威克斯，迪伦·刘易斯，亚伦·穆勒，温斯顿·吴，奥利弗·亚当斯，加勒特·尼科莱，马特·波斯特，大卫·亚罗夫斯基。2020. 约翰霍普金斯大学圣经语料库：1600+舌头类型学探索。语言资源与评估会议论文集。VincentMicheli ， Martind'Hoffschmidt ， andFranç

下载后可阅读完整内容，剩余1页未读，立即下载