没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文×XLM-E:通过ELECTRA进行跨语言语言模型预训练ZewenChi,ShaohanHuangg,LiDong,ShumingMaSaksham Singhal,Payal Bajaj,XiaSong,Furu WeiMicrosoft Corporationhttps://github.com/microsoft/unilm摘要在本文中,我们介绍了ELECTRA风格的任务(克拉克等人。,2020b)到跨语言语言模型预训练。具体来说,我们提出了两个预训练任务,即多语言替换标记检测和翻译替换标记检测。此外,我们预训练模型,命名为XLM-E,在多语言和平行语料库。我们的模型在各种跨语言理解任务上的性能优于基线模型,并且计算成本更低。此外,分析表明,XLM-E倾向于获得更好的跨语言迁移性。76.676.476.276.075.875.675.475.275.0XLM-E(125K)加速130倍XLM-R+TLM(1.5M)XLM-R+TLM(1.2M)InfoXLMXLM-R+TLM(0.9M)XLM-E(90K)XLM-AlignXLM-R+TLM(0.6M)XLM-R+TLM(0.3M)XLM-E(45K)XLM-R0 20 40 60 80 100 120触发器(1e20)1介绍使用预先训练的语言模型已经成为事实上的趋势(Devlin et al. ,2019; Dong et al. ,2019;Yang et al. ,2019b; Bao et al. ,2020)用于下游NLP任务。这些模型通常使用掩码语言建模对象进行预训练,这些对象学习生成输入句子的掩码标记除了单语表征外,掩蔽语言建模任务对于学习跨语言表征也是有效通过仅使用多语言语料库,这种预训练模型在零次跨语言迁移上表现良好(Devlin et al. ,2019; Conneauet al. ,2020),即,使用英语训练数据进行微调,同时将模型直接应用于其他目标语言。跨语言可移植性可以通过使用并行语料库引入外部预训练任务来进一步改进,例如翻译语言建模(Conneau和Lample,2019)和跨语言对比(Chi等人,2019)。,2021b)。然而,先前基于掩蔽语言建模的跨语言预训练通常需要大量计算资源,使得这样的模型相当昂贵。如图1所示,与经过良好调整的预训练模型相比,我们提出的XLM-E实现了巨大的加速。平等贡献。图1:使用相同的语料库和代码库,与内部预训练的XLM-R增强翻译语言建模(XLM-R + TLM;蓝线)相比,拟议的XLM-E预训练(红线)实现了130的加速比。培训步骤显示在括号中。我们还介 绍 了 XLM-R ( Conneau等 人 , 2020 ) 、InfoXLM(Chi et al. ,2021b)和XLM-Align(Chiet al. ,2021c)。比较的型号都是基本尺寸。在本文中,我们介绍了ELECTRA风格的任务(克拉克等人。,2020 b)到跨语言语言模型预训练。具体来说,我们提出了两个区别性的预训练任务,即多语言替换标记检测和翻译替换标记检测。该模型不是恢复屏蔽的令牌,而是学习区分损坏的输入序列中的替换令牌。这两个任务分别通过在多语言句子和翻译对中替换标记来构建输入序列。我们还描述了我们的模型XLM-E的预训练算法,该算法是用上述两个判别任务进行预训练的。它为跨语言语言模型的预训练提供了一种计算效率和样本效率更高的方法我们在XTREME跨语言理解基准arXiv:[中文2021年6月XNLI访问+v:mala2277获取更多论文M我Σ我LLi=1LM|M {}Σ--我评估和分析XLM-E。在七个数据集上,我们的模型与基线模型相比取得了有竞争力的结果,而与XLM-R相比,仅使用了1%的计算成本除了高计算效率外,我们的模型还显示了跨语言的可转移性,实现了合理的低转移差距。我们使用替换令牌检测任务来训练CNOD具体地,判别器将损坏的句子xcorrupt作为输入,其通过用从生成器G采样的标记替换标记来构造:.xcorrupt{\displaystylex{i}}{\displaystyle x {i}}|xmas k e d),i∈M还表明,歧视性的预训练en-鼓励普遍的代表性,使文本我xcorrupt=xi,i/∈M(二更)在不同的局域网上更好地对齐表示,语言。我们的贡献总结如下:然后,预测器预测xcorrupt是否为原始或从发生器采样。损失函数为:n• 我们探索了ELECTRA风格的跨语言语言模型预训练任务,并使用两种语言语料库LD(x;θD)=−logpDi=1(z i|(3)第一次见面并行数据。• 我们证明了XLM-E大大降低了跨语言预训练的计算成本。• 我们发现,有区别的预训练往往会鼓励更好的跨语言transferability。2背景:ELECTRAELECTRA(Clark et al. ,2020 b)引入了用于语言模型预训练的替换标记检测任务,其目标是区分真实输入标记与损坏标记。这意味着文本编码器被预训练为判别器而不是生成器,这与复杂的预训练语言模型不同,例如BERT(De-vlin et al. ,2019年),学习预测掩码令牌。ELECTRA训练两个Transformer(Vaswanietal. ,2017)编码器,分别用作生成器和解码器。生成器G典型地是用掩蔽语言建模训练的小BERT模型(MLM; Devlin et al. 2019)任务。考虑一个输入句子x =xin包含-ingn个令牌。MLM首先随机选择子集1,. . .,n作为要被掩蔽的位置,并通过用[MASK]替换中的标记来构造掩码语句x。然后,生成器预测被屏蔽的令牌pG(xxmasked)的概率分布。生成器G的损失函数为:LG(x;θG)= −logp G(x i|X掩蔽)。(一)i∈M其中zi表示xcorrupt是原始令牌还是替换令牌的标签。ELECTRA的最终损耗函数是发电机损耗和发电机损耗的组合,E=G+λ D。与生成式预训练相比,XLM-E每步使用更多的模型参数和训练FLOP,因为它在预训练期间包含一个生成器和一个判别器。然而,只有BACK用于对下游任务进行微调,因此最终检查点的大小与实践中的BERT模型相似。3方法图2示出了用于预训练XLM-E的两个区分性任务的概述与第2节中描述的ELECTRA相似,XLM-E有两个Transformer组件,即:发电机和发电机生成器预测给定掩码语句或翻译对的掩码标记,并且搜索器区分标记是否被生成器替换。3.1培训前任务有两个预训练任务,包括多语言替换标记检测(MRTD)和翻译替换标记检测(TRTD)。多语言替换标记检测多语言替换标记检测任务要求模型将真实输入标记与损坏的多语言句子区分开来。生成符和后缀都是跨语言共享的。不同语言的词汇表也是共享的任务与单语ELECTRA预培训相同(第2节)。唯一的+v:mala2277获取更多论文ΣM MΣ发生器我是原创的吗?鉴别器取代原始面具(a) 多语言替换标记检测(MRTD)是原创的吗?取代原始面具是的是的是的没有是的没有是的鉴别器你好世界?你好地球.你?地球发生器好世界你好.你好世界。Hello world.(b) 翻译替代令牌检测(TRTD)图2:XLM-E的两个预训练任务概述,即,多语言替换标记检测和翻译替换标记检测。生成器预测给定掩码句子或掩码翻译对的掩码标记,并且搜索器区分标记是否被生成器替换。不同之处在于输入文本可以是各种语言。我们用均匀的掩模来制造核-打破阵地。 我们还尝试了跨度掩蔽(Joshietal. ,2019; Bao et al. ,2020)在我们的初步通过将标记替换为从G采样的标记,并将级联的翻译对作为输入来构造。形式上,ecorrupt的构造是.ecorrupt{\displaystylee}{\corrupt}{\displaystylee}{\corrupt}{\corrupt}}{\displaystyleG}(ei|[e;f]mas k e d),i∈Me实验 结果表明,跨度掩模-ing显著削弱了生成器我ecorrupt=ei,i/∈Me(四)准确性,这反过来又会损害预训练。翻译替代标记检测平行语料库是容易获得的,并被证明是有效的学习跨语言的语言模型,同样的操作也用于构造f腐败。然后,判别器D的损失函数可以写为:ne+nfels(Conneau and Lample,2019; Chi et al. ,2021b),而如何利用平行语料库改进区分性预训练还有待研究。我们介绍了翻译替代令牌检测任务LD(e,f;θD)=−i=1 logp D(r i|[e; f]腐败)(五)其目的是将真实输入标记与翻译对区分开。给定输入翻译对,生成器预测两种语言中的掩码标记。考虑输入翻译对(e,f)。我们通过将翻译对连接为单个句子来构造输入序列。生成器G的损失函数为:其中ri表示第i个输入标记是原始标记还是替换标记的标签。翻译替换标记检测任务的最终损失函数为LG+λLD。3.2预培训XLM-EXLM-E模型与LG(e,f;θG)=−i∈Me−i∈Mflogp G(e i|[e; f]掩蔽)mass k e dlogpG(fi|[e;f])掩蔽语言建模、翻译语言建模、多语种替换标记检测和翻译替换标记检测任务。总体培训目标是尽量减少其中[; ]是连接运算符,e、f分别代表e和f的随机选择的该损失函数与翻译语言建模损失相同(TLM;Conneau and Lample2019)。CNOD学习区分真实的输入标记和损坏的翻译对。被破坏的翻译对(ecorrupt,fcorrupt)是con.是是的是的没有是的没关注是所有我们需要?是我?关注所有需要注意力就是你所需要的。+v:mala2277获取更多论文P {}X{}L=LMLM(x;θG)+LTLM(e,f;θG)+λLMRTD(x;θD)+λLTRTD(e,f;θD)大规模多语种语料库=x,平行语料库=(e,f)。我们从头开始联合预训练生成器和编译器Clark et al. (2020b),我们使生成器更小以提高预训练效率。+v:mala2277获取更多论文ΣMΣ∈∈i=1i=1我i=1p =jijdi−j3.3门控相对位置偏差我们建议在自我注意机制中使用门控相对位置偏差。给定输入标记{x i}|X|,让{hi}|X|表示它们的隐藏状态,语言分布形式上,考虑N种语言的预训练语料库,其中第j种语言具有m个示例使用第j种语言的例子的概率是特兰斯福尔河自我注意输出{h$>}|X|mα通过以下方式计算qi,ki,vi=hiWQ,hiWK,hiWV(6)aexp{qi·kj+r}(7)K|x|hi=aijvi(8)j=1其中ri−j表示门控相对位置偏差,每个hi分别使用参数矩阵WQ,WK,WVRdh×dk受门控回流单元(GRU;Cho et al.2014)门控机制的启发,我们通过以下公式计算门控相对位置偏差ri−j:g(更新),g(重置)=σ(qi·u),σ(qi·v)ri−j=wg(reset)di−jri−j=di−j+g(更新)di−j+(1−g(更新))ri−j其中di−j是可学习的相对位置偏差,向量u,vRdk是参数,σ是S形函数,w是可学习的值。与相对位置偏差(Parikhet al. ,2016; Raffelet al. ,2020; Bao et al. ,2020),所提出的门将内容带入到分级,其通过对输入标记进行调节来自适应地调整相对直觉上,两个标记之间的相同距离在不同的语言中往往4实验4.1设置数 据 我 们 使 用 CC-100 ( Conneau et al. ,2020)数据集。CC- 100包含从CommonCrawl转储收集的100种语言的文本 我们使用并行语料库进行翻译替换标记检测任务,包括从MultiUN收集的100种语言的翻译对(Ziemskiet al. ,2016),IIT Bombay(Kunchukuttan etal. ,2018),OPUS(Tiede-mann,2012),WikiMatrix ( Schwenk et al. , 2019 ) 和CCAligned(El-Kishky et al. ,2020)。在XLM(Conneau和Lample,2019)之后,我们对多语言句子进行采样,以平衡(九)+v:mala2277获取更多论文jNαk=1k指数α控制分布,使得较低的α增加从低资源语言中采样示例的概率。在本文中,我们设置α= 0。第七章模型我们使用基本尺寸的12层Trans-former(Vaswani et al. ,2017)作为判别器,隐藏大小为768,FFN隐藏大小为3072。生成器是一个4层的转换器,使用与判别器相同的隐藏大小(Meng et al. ,2021年)。我们使用与XLM-R相同的变量(Conneau et al. ,2020年),由25万个由句子片段标记的子词组成(Kudo和Richardson,2018年)。训 练 我 们 使 用 Adam ( Kingma and Ba ,2015)优化器对XLM-E的生成器和训练器进行了125 K步的联合预训练。 我们为每个预训练任务使用大约100万个令牌的动态训练。我们设置λ,即目标的权重为50。整个预训练过程在64块Nvidia A100 GPU卡上大约需要1.7天有关预训练超参数的更多详细信息,请参见附录A。4.2跨语言理解我们在XTREME上评估XLM-E(Hu et al. ,2020 b)基准,其是用于评估跨语言理解的多语言多任务基准。XTREME基准包含七个跨语言理解任务,即通用词典v2.5上的词性标记(Zeman et al. ,2019年),NER在维基百 科 上 命 名 实 体 识 别 ( Pan et al. , 2017;Rahimi et al. ,2019)数据集,XNLI上的跨语 言 自 然 语 言 推 理 ( Conneau et al. ,2018),来自单词加扰的跨语言释义对手(PAWS-X; Yang et al. 2019a)和MLQA上的跨 语 言 问 题 回 答 ( Lewiset al. , 2020 ) 、XQuAD(Artetxe et al. ,2020)和TyDiQA-GoldP(Clark et al. ,2020a)。基线我们将XLM-E模型与使用多语言文本预训练的跨语言语言模型进行比较,即,多语言BERT+v:mala2277获取更多论文POS NER表1:XTREME跨语言理解任务的评估结果我们考虑跨语言迁移设置,其中模型仅在英语训练数据上进行微调,但在所有目标语言上进行评估带有“*”的结果取自(Hu et al. ,2020 b)。XLM-E和XLM-R碱的结果在五次运行中取平均值。(M B ERT; Devlin et al. 2019)、M T5(Xue etal. , 2020 ) 和 XLM-R ( Conneau et al. ,2020),或者用多语言文本和部分语料库预训练,即,XLM(Conneau和Lample,2019),I NFO XLM(Chi et al. ,2021 b)和XLM-A LIGN(Chi et al. ,2021c)。结果我们使用跨语言迁移设置对XTREME进行评估(Hu et al. ,2020 b),其中首先用英语训练数据对模型进行微调,然后在目标语言上进行评估。在表1中,我们报告了XTREME跨语 言 理 解 任 务 的 准 确 性 , F1 或 精 确 匹 配(EM)分数结果是所有目标语言的平均值,并使用不同的随机种子运行五次。我们将预训练的模型分为两类,即,模型在多语种语料库上进行预训练,模型在多语种语料库和平行语料库上进行预训练。对于第一个设置,我们只使用多语言替换为- ken检测任务预训练XLM-E。从结果中可以看出,XLM-E在两种设置下的性能都优于以前的型号,平均得分为67.6分别为69.3。与XLM-R 基 础相比,XLM-E(不含TRTD)1.2在七个任务中平均提高。对于第二种设置,与XLM-ALIGN相比,XLM-E平均产生绝对0.4的改进。XLM-E在问题回答任务和句子分类任务上表现更好,同时在结构化预测任务上保持合理的高F1分数。尽管XLM-E的有效性,我们的模型需要大量的型号XTREME ParamsFLOPsM BERT63.1167 M6.4e19XLM-R底座66.4279M9.6e21INFOXLM底座 *-279M9.6e21+1.7e20XLM-ALIGN*68.9279M9.6e21 + 9.6e19XLM-E279M 9.5e19−TRTD 67.6279M 6.3e19表2:培训前费用比较。带“*”的模型计算成本比XLM-Rbase和XLM-ALIGN低。详细的效率分析见第4.3节。4.3训练效率我们提出了一个预训练资源的比较,以探讨XLM-E是否提供了一个更有效的计算和样本的预训练跨语言模型的有效途径。表2比较了XTREME平均得分、参数数量和预训练计算成本。请注意,INFOXLMbase和XLM- ALIGN是从XLM-Rbase继续训练的,因此总训练FLOP在XLM-Rbase上累积。表2显示,XLM-E大大降低了跨语言模型预训 练 的 计 算 成 本 。 与 使 用 至 少 9.6e21 训 练FLOP的XLM- Rbase和XLM-ALIGN相比,XLM-E总共仅使用9.5e19训练FLOP,同时甚至比两个基线模型实现更好的XTREME性能对于设置的预训练,只有多-模型结构化预测问答XQuAD MLQA TyDiQA分类平均值XNLI PAWS-X度量F1F1F1 /EMF1 /EMF1 /EMAcc.Acc.多语种语料库MB ERT*70.362.264.5/49.461.4/44.259.7/43.965.481.963.1MT5碱-55.767.0/49.064.6/45.057.2/41.275.486.4-XLM-R底座75.661.871.9/56.465.1/47.255.4/38.375.084.966.4XLM-E(不含TRTD)74.262.774.3/58.267.8/49.757.8/40.675.187.167.6多语种语料库和平行语料库的预训练XLM70.161.259.8/44.348.5/32.643.6/29.169.180.958.6INFO XLM底座--- /-68.1/49.6- /-76.5--XLM-ALIGN76.063.774.7/59.068.1/49.862.1/44.876.286.868.9XLM-E75.663.576.2/60.268.3/49.862.4/45.776.688.369.3+v:mala2277获取更多论文−→→模型Tatoeba-36模型对齐错误率↓平均值→xxxx→ enen→ xxxx→ enXLM-R底座59.557.655.5五十三点四INFOXLM底座80.677.868.667.3XLM-E74.472.365.062.3−TRTD 55.8 55.1 46.4 44.6表3:Tatoeba跨语言句子检索的平均准确度@1得分模型在两种环境下分别用14个和36个平行语料库进行评估双语语料库中,XLM-E(w/o TRTD)的总体表现也优于XLM-R基础,使用6.3e19 FLOP。这证明了XLM-E的计算有效性XLM-E作为一种更强大的跨语言语言模型,需要更少的计算资源。4.4跨舌对齐恩-德-恩-弗-恩-希-恩-罗快速对齐32.14 十九点四十六分 59.90XLM-R底座17.747.5437.7927.49 二十二点六四XLM-ALIGN16.636.6126.97 二十一点零五分XLM-E16.496.1930.2024.41 十九点三十二分−TRTD 17.87 6.2935.0230.22 二十二点三十五分表4:四个以英语为中心的语言对的单词对齐任务的对齐错误率得分(越低越好)。基线模型的结果来自Chi等人(2021 c)。我们使用最优传输方法来获得所得到的单词对齐,其中句子表示来自XLM-E的第9层。来自EuroParl1、WPT 20032和WPT 20053的比对数据集,包含用黄金比对注释的1,244个翻译对 。 通 过 比 对 误 差 率 评 估 预 测 的 比 对(AER;Och and Ney2003):为了探索区分性预训练是否改善了所得到的跨语言表示,AER= 1|一个人|+的|A P||+的|S|S|(十)我们在句子级和单词级对齐任务上评估我们的模型,即,跨语言句子检索和单词对齐。我们使用Tatoeba(Artetxe和Schwenk,2019)数据集进行跨语言句子检索任务,其目标是从不同语言的语料库中找到翻译对。Tatoeba是一个以英语为中心的平行语料库,涵盖122种语言。继Chi等人(2021 b)和Hu等人(2020 b)之后,我们考虑了两种设置,分别使用14个和36个平行语料库进行评估句子表示是通过对中间层的隐藏向量进行平均池化来获得的。具体来说,我们使用层7用于XLM-R,层9用于XLM-E。然后利用余弦相似度进行最近邻搜索,得到平移对.表3显示了在Tatoeba的两种设置下,xx en和en xx方向的平均准确度@1得分。XLM-E对Tatoeba-14的准确度评分为74.4和72.3,对Tatoeba-36的准确度评分为65.0和62.3,与XLM-R基础相比有显著改善。XLM-E性能略差于INFO XLM基地。我们认为跨语言对比(Chi et al. ,2021 b)任务前-其中A、S和P分别代表预测的比对、注释的确定比对和注释的可能比对。在表4中,我们将XLM-E与基线模型进行了比较,即,快速对齐(Dyer et al. ,2013)、XLM-Rbase和XLM-ALIGN。通过最优传输方法(Chiet al. ,2021c),其中句子表示来自XLM-E的第9层。 在四种语言对中,XLM-E的AER得分低于基线模型,平均AER从21. 05到19.32。值得一提的是,我们的模型需要比其他跨语言预训练语言模型低得多的计算成本来实现如此低的AER分数。详细的培训效率分析见第4.3节。值得一提的是,XLM-E在两个任务上都比XLM-E(w/o TRTD)有显著的改进,表明翻译替换标记检测任务对跨语言对齐有效4.5跨语言的我们在不同的层上评估单词级和句子级的表示来探索planet学习句子表示,使INFOXLM库更有效地进行跨语言句子检索任务。对于单词级对齐,我们使用单词1www-i6.informatik.rwth-aachen.de/goldAlignment/2web.eecs.umich.edu/3web.eecs.umich.edu/+v:mala2277获取更多论文→→604050403020102 4 6 8 10 12层353025200 2 4 6 8 10 12层图3:Tatoeba跨语言句子检索在不同层上的评估结果。对于每一层,准确性得分是所有36种语言的平均值图4:不同层上跨语言单词对齐的评估结果。Layer-0代表嵌入层。在xx→ en和en→ xx两个方向上对。XLM-E任务是否鼓励普遍代表。如图3所示,我们说明了accu-XLM-E和XLM-R的racy@1评分基于−TRTD 16.318.616.3 11.5 9.6Tatoeba跨语言句子检索,使用来自不同层的句子表示。对于每一层,最终的准确性得分是在xx en和en中的所有36个语言对上的平均值xx方向从图中可以观察到,对于顶层,XLM-E实现了比XLM-R基底显著更高的平均准确度分数。XLM-E的结果还显示了跨层的抛物线趋势,即,精度在特定层之前连续增加,然后连续下降。这种趋势也在其他跨语言语言模型中发现,例如XLM-R和XLM-Align(JaliliSabet al. ,2020; Chi等人,2021c)。与XLM-R底座在第7层达到最高精度54.42不同,XLM-E将其推到第9层,达到63.66的精度。在第10层,XLM-R基地仅获得43.34的准确度,而XLM-E保持准确度得分高达57.14。图4显示了基于单词对齐任务的XLM-E和XLM-R的平均对齐错误我们使用来自不同层的隐藏向量来执行单词对齐,其中layer-0代表嵌入层。最终的AER分数是在不同语言的四个测试集上的平均值图4显示了与图3类似的趋势,其中XLM-E不仅提供了相对于XLM-R的实质性性能改进,而且还将最佳性能层推到更高层,即,该模型在第9层获得最佳性能,而不是较低的表5:XTREME任务的跨语言迁移差距分数。较低的迁移差距分数表明较好的跨语言迁移性。我们使用EM分数来计算QA任务的差距分数。层,例如层7。在这两项任务中,XLM-E显示了顶层的良好性能,即使XLM-E和XLM-R 底 座都使用了Transformer(Vaswani等人,,2017)架构。与鼓励顶层是语言特定的掩蔽语言建模任务相比这表明跨语言区分性预训练鼓励模型内部的通用表示。4.6跨语言迁移差距我们分析了跨语言迁移差距(Hu et al. ,2020b)的预训练的跨语言语言模型。迁移差距分数是英语测试集的表现与其他语言测试集的平均表现之间的差异。该分数表明在微调后有多少最终较低的差距分数表明更好的跨语言可转移性。表5比较了五个极端任务的跨语言迁移差距分数。我们注意到,XLM-E仅在PAWS-X上获得最低的差距分数XLM-RXLM-EXLM-RXLM-E平均准确度对准误差率(AER)模型XQuAD MLQA TyDiQA XNLI PAWS-XMBERT25.027.522.216.514.1XLM-R底座15.920.315.210.411.4INFOXLM底座-18.8-10.3-XLM-ALIGN14.618.710.611.29.7XLM-E14.919.213.111.28.8+v:mala2277获取更多论文尽管如此,它仍然以如此低的计算成本在其他任务上实现了相当低的差距分数,证明了XLM-E的跨语言我们认为,当模型获得更好的性能时,要达到同样低的差距分数是更困难的。5相关工作在大规模多语言文本上学习自监督任务已被证明是预训练跨语言语言模型的有效方法。掩蔽语言建模(MLM; Devlin et al.2019)通常用于学习跨语言编码器,如多语言BERT(mBERT;Devlin et al. 2019 ) 和 XLM-R ( Conneau etal. ,2020)。掩蔽序列到序列预训练(MASS;Song et al. 2019)、去噪自动编码和跨度校正(Raffel et al. ,2020)被设计用于学习跨语言序列到序列模型,即,MASS,mBART(Liuet al. ,2020)和mT5(Xueet al. ,2020)。通过引入外部预训练任务,可以进一步改进XLM(Conneau andLample,2019)引入了翻译语言建模(TLM)任务,该任务从连接的翻译对中预测掩码标记。ALM(Yanget al. ,2020)利用翻译对来构造代码切换序列作为输入。InfoXLM(Chiet al. ,2021b)将输入翻译对视为相同含义的跨语言视图,并提出旨在最大化InfoNCE的跨语言对比学习任务(Oord etal. ,2018)两个视图的互信息的下界。 对比学习也用于Hictl(Wei et al. ,2021)和预训练后的多语言BERT(Pan et al. ,2020)。 几个预训练任务利用并行数据中的标记级对齐来改进跨语言语言模型(Cao et al. ,2020; Zhaoet al. , 2020; Hu 等 人 , 2020a; Chi et al. ,2021c)。此外,并行数据也用于跨语言序列到序列的预训练。XNLG(Chi et al. ,2020)提出了跨语言自然语言生成的跨语言掩蔽语言建模和跨语言自动编码方法VECO(Luo et al. ,2020)利用交叉注意MLM来预训练用于NLU和NLG两者的可变跨语言语言模型。mT6(Chi etal. ,2021 a)通过学习提高mT5-正在对并行数据执行转换跨度损坏任务。Mr.L.M.(Ma et al. ,2021)提出对齐预训练的多语言编码器以改进跨语言序列到序列预训练。6结论我们介绍了XLM-E,一个跨语言的语言模型预训练的ELECTRA风格的任务。具体来说,我们提出了两个预训练任务,即,多语言替换标记检测和翻译替换标记检测。XLM-E在跨语言理解任务上优于基线模型除了改进的性能和计算效率,我们还表明,XLM-E获得了跨语言的可转移性与合理的低转移差距。对于未来的工作,我们想扩大XLM-E到更大的模型尺寸。引用Mikel Artetxe Sebastian Ruder和Dani Yogatama 2020.论单语表征的跨语言迁移性。在计算语言学协会第58届年会的会议记录中,第4623-4637页,在线。计算语言学协会。Mikel Artetxe和Holger Schwenk 2019. 大规模的多语言句子嵌入,用于零镜头跨语言传输和超越。TransactionsoftheAssociationforComputational Linguistics,7(0):597包航波,李东,魏福如,王文辉,杨楠,刘晓东,王宇,朴松浩,高剑锋,周明,和Hsiao-WuenHon. 2020.UniLMv2:用于统一语言模型预训练的 伪 掩 码 语 言 模 型 。 arXiv 预 印 本 arXiv :2002.12804。史蒂文·曹尼基塔·基塔耶夫和丹·克莱因2020. 语境词表征的多语言对齐。在国际学习代表上。Zewen Chi , Li Dong , Shuming Ma , ShaohanHuang , Xian-Ling Mao , Heyan Huang , andFuru Wei. 2021年a. mT6:多语言预训练的文本到文本的转换器Transformer与翻译对。arXiv预印本arXiv:2104.08692。池泽文,李东,魏福如,王文辉,毛先玲,黄和燕.2020. 通过预训练生成跨语言自然语言。在第三十四届AAAI人工智能会议,AAAI 2020,纽约,纽约,美国,2020年2月7日至12日,第7570-7577页。Press.+v:mala2277获取更多论文Zewen Chi,Li Dong,Furu Wei,Nan Yang,Sak-sham Singhal,Wenhui Wang,Xia Song,Xian-Ling Mao,Heyan Huang,and Ming Zhou. 2021b的最后一页。In-foXLM:一个跨语言语言模型预训练。在计算语言学协会北美分会2021年会议的开幕式上:人类语言技术,第3576-3588页,在线。计算语言学协会。池泽文,李东,郑波,黄少涵,毛先玲,黄和燕,魏福如.2021年c。通过自标记单词对齐改进预训练 的 跨 语 言 语 言 模 型 。 arXiv 预 印 本 arXiv :2106.06381。Kyungh yunCho,BartvanMerri eünboer,CaglarGul-cehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoonge Bengio.2014. 使用RNN编码器-解码器学习在2014年自然语言处理经验方法会议(EMNLP)的会议记录中,第1724- 1734页,卡塔尔多哈。计算语言学协会。乔纳森·H Clark,Eunsol Choi,Michael Collins,DanGarrette , TomKwiatkowski , VitalyNikolaev , and Jennimaria Palomaki. 2020 年 a 。TyDi QA:一个在不同类型语言。Transactionsof the Association for Computational Linguistics,8:454- 470.Kevin Clark,Minh-Thang Luong,Quoc V. Le,andChristopher D.曼宁2020年b。Electra:预训练文本编码器作为判别器而不是生成器.在国际学术代表上。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 FranciscoGuzma' n 、 EdouardGrav e 、MyleOtt、LukeZettle-moyer和VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集,第8440- 8451页,在线。计算语言学协会。亚历克西斯·康诺和纪尧姆·兰普尔。2019. 跨语言语言模型预训练. 神经信息处理系统进展,第7057-7067页。Curran Associates,Inc.Alexis Conneau,Ruty Rinott,Guillaume Lample,Adina Williams , Samuel Bowman , HolgerSchwenk,and Veselin Stoyanov. 2018. XNLI:评估跨语言句子表示。2018年自然语言处理经验方法会议论文集,第2475-2485页,比利时布鲁塞尔。计算语言学协会。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。Li Dong,Nan Yang,Wenhui Wang,Furu Wei,Xi- aodong Liu,Yu Wang,Jianfeng Gao,MingZhou,and Hsiao-Wuen Hon. 2019. 用于自然语言理解和生成的统一语言模型预训练。神经信息处 理 系 统 进 展 , 第 13063-13075 页 。 Cur-ranAssociates,Inc.克里斯·戴尔,维克多·查胡诺,诺亚·史密斯。2013.一个简单,快速,有效的ibm模型2重新参数化。在2013年计算语言学协会北美分会会议论文集:人类语言技术,第644Ahmed El-Kishky , Vishrav Chaudhary , FranciscoGuz m'n和PhilippKoehn。2020年。CCAligned:跨语言Web文档对的大量集合。在2020年自然语言处理经验方法会议(EMNLP)的会议记录中,第5960-5969页。计算语言学协会。胡俊杰,梅尔文·约翰逊,奥尔罕·菲拉,阿迪蒂亚·希德丹特,格雷厄姆·诺伊比格. 2020年a。多语言双向编码器的明确对齐目标。arXiv预印本arXiv:2010.07972。胡俊杰,塞巴斯蒂安·鲁德,阿迪蒂亚·西丹特,格拉哈姆·诺伊比格,奥尔罕·菲拉特,梅尔文·约翰逊。2020年b。XTREME:一个大规模的多语言多任务基准,用于评估跨语言的一般化。arXiv预印本arXiv:2003.11080。MasoudJaliliSabet , PhilippDufte r , Fran coisY von,andHinrichSchütze. 2020 年。SimAlign:使用静态和上下文嵌入,无需并行训练数据的高质量单词 对 齐 。 计 算 语 言 学 协 会 的 发 现 : EMNLP2020,第1627-1643页,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功