强大有效的两阶段对比学习框架工作对词汇翻译的BLI任务产生实质性收益

96 浏览量更新于2023-12-01 收藏 4.2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文用两阶段对比学习法Yaoyiran Li，Fangyu Liu，Nigel Collier，Anna Korhonen，andIvan Vulic剑桥大学语言技术实验室{yl711,fl399,nhc30,alk23,iv250}@cam.ac.uk摘要词汇翻译或双语词汇归纳是跨语言交际的一项重要任务，旨在弥补不同语言之间的词汇空缺。在这项工作中，我们提出了一个强大的和有效的两阶段对比学习框架工作的BLI任务。在阶段C1，我们建议通过对比学习目标来改进静态词嵌入（WEs）之间的标准跨语言线性映射;我们还展示了如何将其集成到更精细的跨语言映射的自学习过程中。在C2阶段，我们对mBERT进行面向BLI的对比微调，释放其单词翻译能力。我们还表明，静态WEs诱导的“C2调谐”mBERT补充静态WEs从阶段C1。在不同语言和不同实验设置的标准BLI数据集上进行的综合实验证明了我们的框架所取得的实质性收益。虽然在我们的比较中，来自阶段C1的BLI方法已经产生了比所有最先进的BLI方法更大的收益，但是使用完整的两阶段框架可以实现更强的改进：例如，我们报告了112/112 BLI设置的增益，跨越28种语言对。1介绍和动机双语词汇归纳（BLI）或词翻译是多语言NLP中的一个开创性和长期存在的任务（Rapp，1995; Gaussier et al. ，2004; Heyman et al. ，2017; Shi et al. ，2021年等）。它的主要目标是学习跨语言的翻译对应，BLI的应用范围从语言学习和习得（Yuan et al. ，2020; Akyurek和Andreas，2021）到机器翻译（Qi et al. ，2018; Duanet al. ，2020; Chronopoulou et al. ，2021年）和语言技术在低资源语言和领域的发展（Irvine和Callison-Burch，2017年; Heyman等人，2017年）。，2018）。最近BLI的大量工作集中在所谓的基于映射的方法（Mikolovet al. ，2013; Artetxe et al. 、静态单词嵌入C1对齐f1（yni种子词典mBERT/mT5f1（xmiC2对齐f2（ynif1（xf2（xmiJf2（xJProcrustes吸引排斥阴性采样（1−λ）λ图1：拟议的两阶段BLI方法的说明（见§2）。它结合了静态WEs（C1）和预训练的多语言LM（C2）的对比调整，其中静态WEs用于在LM的对比调整中选择负面示例C1和C2的输出被合并用于最终的BLI任务。2018; Ruder等人，2019）。1这种方法特别适合于低资源语言和弱监督学习设置：它们支持仅具有多达几千个单词翻译对的BLI（例如，1k或最多5k）作为唯一的双语监督（Ruder etal. ，2019）。2与多语言 NLP 中的许多其他任务不同（Doddapaneni et al. ，2021; Chau and Smith，2021; Ansell et al. ， 2021 ），最先进的（ SotA ） BLI 结果仍然是通过静态词嵌入（WE）实现的（Vulic 'et al. ，2020b; Liu etal. ，2021b）。基于映射的方法的典型操作方式是首先在单语语料库上独立地训练单语WE，然后通过线性映射将它们映射到共享的跨语言空间（Mikolov et al. ，2013年;1 它们也被称为基于投影或基于比对的方法（Glavaetry et al. ，2019; Ruder et al. ，2019）。2在极端情况下，完全无监督的基于映射的BLI方法可以仅利用单语数据，而无需任何双语监督（Lample etal. ，2018; Artetxe et al. ，2018; Hoshen and Wolf，2018;Mohiuddin and Joty，2019; Ren et al. ，2020年等）。然而，比较实证分析（Vulic 'et al. ，2019年）表明，在所有其他组件相同的情况下，使用仅500- 1，000个翻译对的种子集，总是优于完全无监督的BLI方法。因此，在这项工作中，我们专注于这种更务实的（弱）监督BLI设置（Artetxe et al. ，2020）;我们假设每个语言对至少存在1,000个种子翻译。arXiv：2203.08307v1 [cs.CL] 2022年3月+v：mala2277获取更多论文≈Y{|Y|}∈我不是DD0GiM1n1M|D0|n|D0|不t1G1不|DT|G| DT|Y≤≤ |X |≤≤ |Y||D|Glavaeli 等人， 2019 ）或非线性映射函数（Mohiuddin et al. ，2020）。为了实现更好的结果，许多BLI方法还应用自学习循环，其中迭代地（并且逐渐地）细化训练字典，并且然后在每次迭代中学习改进的映射（Artetxeetal. ，2018; Karan et al. ，2020）。然而，仍然有很大的改进空间，特别是对于低资源语言和不同的语言对（Vulic 'et al. ，2019; Nasution etal. ，2021年）。另一方面，最近的另一系列研究表明，大量词汇语义信息被编码在大型多语言预训练语言模型（LM）中，如mBERT（Devlin et al. ，2019），但是1）将LM转换成多语言词汇编码器并不简单（Liu et al. ，2021 b），2）从中提取单词级信息（ Vulic 'et al. ， 2020 b ，2021），和3）从这些LM提取的单词表示仍然不能超过静态WEs在BLI任务（Vulic 'et al. ，2020b; Zhang et al. ，2021年）。受这些见解的启发，在这项工作中，我们调查了以下研究问题：（RQ 1）我们能否进一步改进基于静态WE的（弱监督）基于映射的BLI方法利用来自阶段C1的静态跨语言WE;然后将组合的表示用于BLI。我们在标准BLI基准上运行一组全面的BLI实验（Glavaetry et al. ，2019年），包括8种不同的语言，在几个设置。我们的研究结果表明，与最先进的BLI模型相比，+8精度@平均1点，+10点的许多语言对，增益为107/112 BLI设置已经在阶段C1（参见，RQ 1），以及C2阶段之后的所有112/112 BLI设置（参见，RQ2和RQ3）。此外，我们的研究结果还扩展到BLI的低资源语言从另一个BLI基准（Vulic 'etal. ，2019）。最后，正如最近的工作所暗示的那样（Zhang et al. ，2021），我们的研究结果证实，当在我们的对比学习框架中暴露和提取时，LM中的多语言词汇知识可以补充静态跨语言WEs（RQ 3）中的知识，并有利于BLI。我们发布代码并分享数据：https：//github.com/cambridgeltl/ContrastiveBLI网站。2方法任务和任务规划。在BLI中，我们假设两个词汇表X={wx，. . . ，w x}yy1| X|（RQ 2）我们如何提取更有用的交叉-从预先训练的多语言LM，如mBERT或mT5语言单词表示（RQ3）是否有可能通过结合基于静态WE的跨语言表示和从多语言LM中提取的跨语言表示来提高BLI？受对比学习技术在高级表征学习中的广泛成功的启发（ Reimers 和 Gurevych ， 2019;Carlsson等人，2019年）。，2021; Gao等人，2021年），我们提出了一个两阶段的对比学习框架，用于在（弱）监督设置中进行有效的单词翻译;它利用并结合了来自静态WE和预训练的多语言LM的多语言知识。阶段C1仅对静态WE进行操作：简而言之，它是一种具有自学习的基于映射的方法，其中在每个步骤中，我们还使用对比学习对线性映射进行微调，该对比学习对逐渐细化的正例进行操作（即，真翻译对）和硬负样本。阶段C2微调预训练的多语言LM（例如，mBERT），再次具有对比学习目标，使用从C1的输出中提取的最后，我们从在阶段C2中微调的多语言LM中提取单词表示，并将它们和 =w1，. . .，与两个相应的w-语言Lx和Ly。我们还假设每个词汇表单词都被分配了它的（静态）类型级别的单词嵌入（WE）;也就是说，每个词汇表的相应WE矩阵是X∈R| X| ×d，YR| Y| ×d.每个WE是d-dim行向量，对于静态WE具有典型值d=300（例如，快-正文）（ Bojanowski et al. ， 2017 年），d=768，mBERT 。 3 我们还假设一组种子平移对D={（w x，w y），.，（w x，wy）}进行训练（Mikolov et al. ，2013; Glavavaeli etal. ， 2019 年），其中 1mi， 1尼岛种子字典大小0是5k对和1k对（Vulic 'et al. ，2019），通常被称为监督（5k）和半监督或弱监督设置（1k）（Artetxe et al. ，2018）。给定另一个测试lexi-con D={ （ wx ， wy ）， . ，（ wx ，wy）}，其中0T=，对于T中的每个Lx测试词wx，目标是从Ly简单地说就是方法。我们提出了一种新3 我们还尝试了 XLM （ d=1 ， 280 ）和 mT5small（d=512）; mBERT是我们初步研究中性能最好的预训练LM+v：mala2277获取更多论文DD←D ← D D−DDDDi0MiniD我我（wyD阿克斯DD DDDD我MiJniniJMiMi两阶段对比学习（CL）方法，通过对比学习目标实现C1和C2阶段（见图1）。阶段C1（§2.1）仅在静态WE上操作，并且可以被视为具有静态WE的基于映射的BLI方法的对比扩展。在实践中，我们将对比学习与标准的基于SotA映射的框架和自学相结合：VecMap（Artetxe et al. ，2018），并进行了一些修改。阶段C1仅在与先前工作完全相同的BLI设置中对静态WE进行操作，因此可以独立评估在阶段C2（§2.2）中，我们建议利用预训练的多语言LM进行BLI：我们对比微调它们用于BLI，并从调整的LM中提取静态的这些基于LM的WE可以是结合阶段C1中获得的WE（§2.3）。算法1阶段C1：自学习1：Require：X，Y，0，add=2：对于i=l：Niterdo3：Wx，Wy使用Di−1的初始AM;4：CL0（监督）或i1（半超）; 5：对于i=1：NCLdo6：从DCL取回对的D';7：Wx，Wy←优化对比损失;8：计算新添加;9：Update=add;returnWx，Wy但不构成单词翻译对。这些硬阴性样品的提取方法如下。假设（wx，wy）是当前字典i−1中的一个翻译对，其组成词与静态WEsxm，yn∈R1×d相关联。我们找到最近的邻居-ynWy的boursfromXWxandderiv ew<$xX2.1阶段C1阶段C1基于VecMap框架x排除），一组大小为Nneg.以类似的（对称）方式，我们也可以定义neg ativ esw<$yyY（wex-（Artetxe et al. ，2018），其特征在于：1）双线性映射，其中两个单独的线性变换矩阵将相应的源和目标WE映射到共享的跨语言空间;以及2）自学习过程，其在每次迭代i中细化训练字典并迭代地改进映射。ni ni包括在内）。我们用“i”表示所有在当前迭代i中的所有训练对上的硬负集合对。然后，我们通过优化以下对比目标来微调Wx和Wysi，j= exp（cos（xiWx，yjWy）/τ），（1）平. 我们扩展和改进了VecMapsmi，ni（二更）用于通过CL进行监督和半监督设置pi=wy∈{wy}Sw<$y smi，j+w∈w<$x、sj，ni初始高级映射。l2归一化后min-E（wx，wy）∈Dlog（pi）。（三）字嵌入，4 这两个映射矩阵，Wx，WyM iniCL对于源语言Lx表示为Wx，对于Ly表示为Wy，通过基于训练字典的高级映射（AM）过程来计算，如附录A.1中充分描述的;虽然VecMap利用白化、正交映射、重新加权和去白化操作来导出映射的WE，但我们计算Wx和Wy，使得一次性矩阵乘法产生相同的结果（详见附录A.1）。对比微调。在每次迭代i，在初始AM步骤之后，两个映射矩阵Wx和Wy然后经由InfoNCE损失被进一步对比地微调（ Oord et al. ，2018），CL研究中损失函数的标准和稳健选择（ Musgrave et al. ， 2020; Liu et al. ，2021c，b）。核心思想是真正的翻译对）来自字典i-1，并[4]与VecMap不同，我们不使用平均中心WEs，因为这在我们的初步实验中产生了稍微好一点的结果τ表示标准温度参数。在此针对单个正示例制定的目标跨越来自当前词典的所有正示例，连同如上文所描述计算的相应的负示例集合。自学。（a）经由AM的初始映射和（b）对比微调的应用可以迭代地重复。这样的自学习循环通常产生更鲁棒和性能更好的BLI 方法（ Artetxe 等人， 2011 ）。， 2018; Vulic 'etal. ，2019）。在每次迭代i中，自动提取一组add被添加到种子字典0，并且这个字典i=然后在下一次迭代i+1中使用0 add。我们的字典扩充方法稍微有点...VecMap使用的方法我们利用最频繁的N频率源和目标词汇，并进行正向和反向字典归纳（Artetxe et al. ，2018）。与VecMap不同，我们不向过程中添加随机性，而只是选择最高的Naug高置信度+v：mala2277获取更多论文×DDD D≥·阿克斯DD|D|DDD| D|∈MiniJDniniJMiMini（wm，wm）和（wy，wn）我θiθj来自前向的字对（即，源到目标）归纳和来自逆向归纳的另一个Naug在实践中，我们检索具有最高跨域相似性局部缩放（CSLS）分数的2N aug对（Lample et al. ，2018），5重新移动重复对和那些与0中的地面实况相矛盾的对，然后将其余的添加到add中。对于初始AM步骤，我们始终使用增强字典0add;相同的增强字典用于弱监督设置中的对比微调。6.我们重复自学习循环Niter次：在每次迭代中，我们优化对比损失NCL次;也就是说，我们对来自训练字典的所有正对进行NCLNiter和NCL是可调的超参数。在算法1中总结了阶段C1中的自学习。2.2C2期以前的工作试图通过以下方式提示现成的多语言LM单词翻译知识学习目标，将使mBERT暴露其单词翻译知识，并补充C1阶段后已有的知识。在整个工作中，我们假设使用具有12个trans-former层和768-dim嵌入的预训练mBERT基础模型。每个原始字输入w通过mBERT的专用令牌化器被令牌化为以下序列：[ CLS ][ sw1 ]。. . [星期一至五]， M1，哪里[SW1]。. . [sw M]是指M con的序列。w的替代子词/词段，[CLS]和[SEP]是特殊的标记（Vulic 'et al. ，2020 b）。然后将序列作为编码器传递给mBERT，其编码函数表示为fθ（）：它提取[CLS]令牌的表示在最后一个Transformer层中作为输入单词w的表示。然后，在阶段C2中对mBERT的全部s′i，j= exp（cos（f（wx），f（wy））/τ），（4）掩蔽的自然语言模板（Gonen et al. 、2020年），平均超过他们的上下文编码在一个大型语料库（Vulic 'et al. ，2020b; Zhang etal. 、p′i=wy∈{wy}Sw<$y s′mi，nis′mi，j+w∈w<$x、s'j，ni（五）2021），或者从LM中提取类型级WEmin−E（wx，wy）∈Dlog（p′i）.（六）直接没有上下文（ Vulic 'et al. ， 2020 a ，2021）。然而，即使是复杂的模板和WE提取策略通常仍然会导致 BLI 性能低于 fastText（Vulic 'et al. ，2021年）。（BLI导向）对比微调。在这里，我们建议依赖于监督BLI信号来微调现成的多语言LM：目的是直接从LM中暴露类型级别的单词翻译在实践中，我们首先准备一个用于对比微调的正例字典：（a）当0跨越5k对时CL=0，或者（b）当0=1k，我们自动加上Naug=4k，从阶段C1（基于其CSLS评分，不存在于0中）到0（即， CL跨越1k+4k字对）。然后，我们以与§2.1中相同的方式提取N个否定的硬否定，依赖于作为阶段C1的输出导出的共享跨语言空间。我们的假设区分真正的翻译对和高度相似的非翻译作为硬否定，在对比5关于CSLS相似性及其与余弦相似性的关系的更多详细信息见附录A.2。每个输入单词w的类型级WE然后简单地获得为 fθ′ （ w ），其中 θJ 指的是 “BLI 调整的”mBERT模型的参数2.3合并C1和C2为了组合来自阶段C1的输出WE和来自阶段C2的基于mBERT的WE，我们还需要将它们映射到因此，我们学习一个额外的线性正交映射从C1诱导的跨语言WE空间到C2诱导的跨语言WE空间。它将12-赋范的300-dim C1诱导的跨语言WEs转换为768-dim跨语言WEs。线性映射 WRd1×d2 的学习，其中在我们的情况下d1=300 和 d2=768 ，被公式化为一个广义Procrustes问题（Schönemann，1966;Viklands，2006），对所有（即，Lx和Ly）词。77学习程序的技术细节见附录A.3。需要注意的是，在这种情况下，我们不直接使用单词翻译对（wx，wy）来学习映射，而是每个单词wx和wy都是重复的6当以5k对开始时，我们仅利用D为创建训练对xxmi我我niy得双曲余切值.对比微调，如添加可能会降低质量由于潜在的噪声输入，每一对中的左字/项被分配来自C1的WE并且在C2之后将其WE分配给正确的字/项。θCL0ni+v：mala2277获取更多论文|D|D|D|→→→|X||Y|−−|D|| D D || D ∪D|除非另有说明，否则输入单词w的最终表示是（a）经由W映射到768- dim表示的其基于C1的向量vw，和（b）来自BLI调谐的mBERT的其768-dim编码fθ′（w）（1 λ）vwW+λfθ'（w），（7）vwW<$2<$fθ'（w）<$2其中λ是可调插值超参数。3实验装置单语WE和BLI设置。我们在很大程度上遵循标准的 BLI 设置从以前的工作（ Artetxe 等人。，2018; Joulin et al. ，2018; Glavavaelietal. ，2019; Karan et al. ，2020年等）。主要评估是基于Glavaetry等人的标准BLI数据集。（2019年）：它包括28个语言对，在类型学上相似和遥远的语言之间保持了良好的平衡（克罗地亚语：HR，英语：EN，芬兰语：FI，法语：FR，德语：DE，意大利语：IT，俄语：RU，土耳其语：TR）。再次遵循先前的工作，我们依赖于在每种语言的完整维基百科上训练的单语快速文本向量（Bojanowski et al. ，2017年），其中每种语言中的词汇被修剪为20万个最频繁的单词（即，=200k ，=200k）。我们的Stage C1和所有基线BLI模型都使用相同的fastText WE。阶段C2中的mBERT在每种语言中跨越200k我们使用1 k个翻译对（半监督BLI模式）或5 k个翻译对（监督）作为种子词典0;测试集跨越2k个翻译对（Glavavaintel et al. ，2019）。总共有56个BLI方向，8在我们的计算机中，每个模型总共有112个BLI设置报告了标准的Precision@1（P@1）BLI测量，我们依赖于CSLS （ k=10 ）来对单词相似性进行评分（Lample et al. ，2018）。9训练设置和超参数。由于标准BLI数据集通常缺乏验证集（Ruder et al. ，2019），根据先前的工作（Glavaetryet al. ，2019; Karan et al. ，2020年），我们对单个随机选择的语言对ENTR进行超参数调整，并将这些超参数值应用于所有其他BLI运行中。8对于任意两种语言Li和Lj，我们对LiLj和LjLi方向都进行了实验。9使用平均倒数等级（MRR）作为另一个BLI评估指标观察到了相同的结果趋势（Glavavaetiet al. ，2019）;为了清晰起见，我们省略了MRR评分。此外，当用更简单的余弦相似性度量替代CSLS时，观察到相似的相对趋势，但绝对BLI评分略低：结果见附录。在阶段C1中，当0=5k时，超参数值是Niter=2，NCL=200，Nneg=150，Nfreq=60k，Naug=10k。使用SGD优化器，学习率为1。5，γ=0。九十九当0=1k时，值为Niter=3，NCL=50，Nneg=60，Nfreq=20k，Naug=6k; SGD，学习率为2。0，γ=1。0。 τ=1。0，dropout在这两种情况下都是0，并且对比学习的批量大小始终等于当前字典CL（即，0（5 k的情况），或0加，随迭代而变化（1 k的情况）;见§2.1）。在阶段C2中，Nneg=28，最大序列长度为6。我们使用AdamW（Loshchilov和Hut-ter，2019），学习率为2e5，权重衰减为0。01.我们对mBERT进行了5个epoch的微调，批量大小为100;丢弃率为0。1和 τ=0。1.一、除非另有说明，否则λ固定为0。二、基线模型。我们的BLI方法进行了评估，对四个强大的SotA BLI模型从最近的文献，所有这些都与公开可用的implementations。在这里，我们提供简短的摘要：10RCSLS（Joulin et al. ，2018）优化了松弛的CSLS损失，学习了非正交映射，并且已经在实验比较分析中被建立为强BLI模型，因为其目标函数直接是“BLI导向的”（Glavavaintelet al. ，2019）。VecMap的核心组件（Artetxe et al. ，2018）已在§2.1中列出。LNMap（Mohiuddin et al. ，2020）将原始静态WE非线性地映射到经由非线性自编码器11学习的两个潜在语义空间中，并且然后学习基于潜在自编码器的空间之间的另一非线性映射。FIPP（Sachidananda et al. ，2021），简而言之，首先发现共同的（即，同构）的几何结构，在单语WE空间的两种语言，然后对齐的Gram矩阵的WE发现，在这些共同的结构。对于所有基线，我们已经验证了在其各自的存储库中建议的超参数值产生（接近）最佳BLI 性能。除非另有说明，我们运行VecMap、LNMap和FIPP，它们都有自己的自学习过程。1210有关每个BLI模型的进一步技术细节和说明我们使用了所有基线模型的公开实现[11]这一步是为了减轻各向异性（Søgaard et al. ，2018; Dubossarsky et al. （2020年）原来的WE空间，这应该有助于他们的对齐。12RCSLS是在没有自学习的情况下打包的;扩展它以支持自学习是不平凡的，超出了这项工作的范围。+v：mala2277获取更多论文FRRU→∗∗→→∗→∗∗→→∗→∗→∗∗→→∗→∗−D≈≈FRRU∗→→∗∗→→∗→∗→∗∗→→∗→∗→∗→∗ ∗ →模型变体。我们将完整的两阶段BLI模型表示为C2（Mod），其中Mod是指用于导出由阶段C2使用的共享跨语言空间的实际模型/方法。例如，C2（C1）指的是依赖于我们的Stage C1的模型变体，而C2（RCSLS）依赖于RC- SLS作为基本方法。我们还单独评估了StageC1 BLI方法的BLI性能。多语言LM。我们采用mBERT作为阶段C2中的默认预训练多语言LM。我们的补充实验也涵盖了1280-13[5k]对公司简介VecMapxLNMap FIPP C1 C2（C1）德国43.77 40.49 40.35 40.95 46.14 48.86德国44.74 42.18 39.55 41.66 46.3950.1250.94 45.43 44.74 51.3154.31EN 49.17 50.19 44.32 52.6155.4735.11 36.29 39.8043.44菲律宾33.49 33.40 34.15 33.00 38.8241.9747.02 44.67 42.80 49.1251.91法国法郎49.42 48.86 46.25 51.8454.5334.06 36.26 33.41 40.2245.5332.80 32.96 31.34 31.52 37.8242.6544.77 43.23 44.11 48.9251.9147.85 45.53 46.64 50.9953.8540.99 41.01 37.94 44.1747.24RU 40.10 35.62 35.66 36.03 42.1545.2031.29 31.54 30.14 36.6139.86卢旺达共和国31.66 29.42 28.99 28.37 35.6739.26Avg.41.22 40.06 38.22 44.5447.88[1k]对公司简介VecMapxLNMap FIPP C1 C2（C1）dim XLM模型（Lample和Conneau，2019）德国→德国33.43 36.69 37.28 37.7046.61和512-dim mT5 small（Xue et al. ，2021年）。14为了清楚起见，我们使用C2 [LM]表示从不同LM获得的C2（C1）;当[LM]未指定时，使用mBERT。考虑到GPU内存的限制，我们对C2 [XLM]采用较小的批量大小50，并以6e4的较大学习率训练C2 [mT5]6个epoch，因为我们发现它比C2 [mBERT]更难训练。4结果和讨论表1中提供了主要结果，附录E中提供了每个单独语言对的完整结果，以及余弦相似度作为单词检索函数。下文讨论了主要调查结果阶段C1与基线。首先，我们注意到，在四种SotA BLI方法中没有一种最强的基线。例如，RCSLS和VecMap比LNMap和FIPP稍好，具有5k监督对，而FIPP和VecMap则是具有1k监督的更强基线。在单个语言对上存在一些分数波动，但所有基线模型的平均性能在相对较窄的区间内：所有四个基线的平均性能在5k对的3个P@1点内范围从38.22到41.22），并且VecMap、FIPP和LNMap在2个点内，具有1k对。引人注目的是，阶段C1中的对比学习已经在所有四个SotA BLI模型上产生了实质性的增益，这通常远远高于基线之间检测到的变化。我们标记C1在51/56 BLI设置中的所有基线上都有所改善（在5 k的情况下），并且当D0跨越1 k对时，在所有56/56 BLI设置中都有所改善。平均收益13我们选择了在100种语言上预训练的XLM大型模型，并使用了MLM（Masked Language Modeling）目标。14我们还测试了XLM-R底座，但在我们的初步实验中，它显示出较差的BLI性能。DE 32.23 38.63 36.74 39.47 43.1546.0138.16 38.63 40.44 42.26 47.1649.84EN 38.57 48.39 43.61 46.68 51.5954.0322.49 33.08 30.00 36.8140.2829.95 29.88 36.6139.6334.98 38.65 39.77 41.08 46.2348.57法国法郎36.83 46.61 43.81 49.7552.1721.59 33.22 30.05 37.2842.16人力资源20.87 28.15 38.77美元36.67 39.45 39.93 46.5549.2238.33 45.49 43.47 48.5050.9428.45 37.75 35.13 42.2144.61俄罗斯27.78 26.16 29.71 31.28 38.0241.0418.72 26.97 26.63 33.7736.89卢旺达共和国17.59 23.63 24.26 24.6835.57Avg.29.31 35.56 34.90 44.77表1：Glavavaeletal.（2019）的BLI基准的P@1分数，有双语监督（即，0大小）的5k（上半部分）和1k翻译对（下半部分）。L和L表示BLI设置的平均BLI分数，其中L分别是源语言和目标语言。单词相似性度量是CSLS（见第3节）。带下划线的分数是仅依赖于静态fastText WE的方法中的峰值分数;粗体分数表示总体上的最高分数（即，允许使用从 mBERT 暴露的单词翻译知识）。+RCSLS总是在没有自学习的情况下使用（参见3中的脚注）;x我们报告了在1 k对场景中具有自学习的VecMap，以及在使用5 k对的监督时没有自学习的变体，因为它比具有自学习的变体表现得更好。在C1变体的情况下，在SotA基线上有5个P@1点，5k对，6个P@1点，1k对（忽略1k场景中的RCSLS请注意，相比之下，所有模型（当前在BLI任务中考虑SotA）都使用完全相同的单语WE，并利用完全相同的双语监督量。因此，我们的阶段C1所获得的收益强烈表明，在使用静态WE学习线性跨语言映射时，单词级对比微调的潜力和有用性（参见第1节的RQ1）。阶段C1+阶段C2。分数随着完整的两阶段程序进一步提高。C2（C1）BLI变体使平均P@1再增加3.3ENFiHR它TR∗→∗→∗→∗→∗→ENFiHR它TR∗→∗→∗→∗→∗→+v：mala2277获取更多论文[1k] 配对BG→CACA→HEHE→BG[5k]DE→TR对TR→HRHR→RUC2（C1）[1k]对38.8636.3246.40DE→ TRTR→ HR HR→ RU·VecMap 39.43 24.64 31.55FIPP 34.29C141.88 30.56mBERT 1.64 1.28 0.88mBERT（tuned）13.90 3.43 4.76C2（C1）44.28 33.99 37.78[1k]对ET→ HUHU→ EU EU→ ETVecMap35.55 20.03 9.83FIPP30.30 11.58C140.3520.0913.00mBERT15.4016.9723.70mBERT（调谐）20.5922.3028.62C2（C1）44.6428.2621.35C2（C1，λ = 0.四、-34.6236.70表2：Panlex-BLI集上的BLI分数。(5k)和3个P@1点（1k），我们观察到所有语言对在两个翻译方向上的增益，使阶段C2普遍有用。这些增益表明mBERT在其参数中确实包含单词然而，该模型必须进行微调（即，转换）以因此，我们的研究结果进一步证实了先前工作中的“重新布线假设”（Vulic 'et al. ，2021; Liu et al. ， 2021b; Gao et al. ， 2021年），在这里验证了BLI任务（见RQ 2，§1），其指出，即使在利用非常有限的任务监督时，也可以从现成的LM“重新连接”/暴露句子和单词级别在我们的实验中只有1k语言上的表现绝对BLI分数自然取决于实际的源语言和目标语言：例如，在形态丰富的语言（HR、RU、FI、TR）和非印欧语言（FI、TR）中观察到最低的绝对表现。然而，C1和C2（C1）模式变体都为所有语言对提供了广泛而实质性的性能增益，而不管起始绝对分数如何。这一结果进一步表明我们的BLI方法的广泛适用性和鲁棒性。4.1进一步讨论对低资源语言的评价我们的BLI方法的鲁棒性在另一个BLI评估集上进一步测试：PanLex-BLI（Vulic 'et al. ，2019年），其重点是低资源语言的BLI评估; 1 k训练对和2k测试对来自PanLex（Kamholzet al. ，2014）。六种语言子集（巴斯克语：EU，保加利亚语：BG，加泰罗尼亚语：CA，爱沙尼亚语：ET，希伯来语：HE，匈牙利语：HU）的结果如下RCSLS 30.99 37.19C2（RCSLS）VecMap 27.18 25.99 37.98C2（VecMap）34.95 34.29 44.98C134.69 32.37 41.66RCSLSC2（RCSLS）25.40 22.52 33.88VecMap 23.37 20.50 36.09C2（VecMap）27.91 26.84 40.45C132.03 27.00 39.40C2（C1）34.85 32.16 42.14表3：具有不同“支持”方法的阶段C2：RCSLS、VecMap和C1。P@1×100%评分。[5k]对C1C2 [mBERT][XLM]C2[mT5]DE→TR 34.6938.8638.08 37.19EN→IT 63.4565.6065.45 64.15中文→人力资源40.7047.2045.20 43.00FI→RU 37.7340.9937.94 38.36HR→RU41.6646.4046.29IT→FR 66.5167.8666.61 67.34RU→IT 49.66 51.9652.3350.39TR→HR 32.3736.3232.22 34.56[1k]对C1C2 [mBERT][XLM]C2[mT5]DE→TREN→IT 59.60 61.0561.8060.05中文→人力资源35.6542.3541.75 39.40国际货币基金组织→俄罗斯联邦33.89 37.1538.3636.00HR→RU39.40 42.14 43.35意大利→法国65.6366.7766.51 66.15RU→IT 48.35 49.2450.8649.24TR→HR 27.0032.1630.35表4：具有不同预训练LM的阶段C2：mBERT、XLM和mT5。P@1×100%评分。如表2所示。总的来说，结果进一步证实了C2（C1）的功效，即使在类型学上遥远的语言对（例如，HE→BG和EU→ET）。C2阶段的安全性？表1中的结果证实了我们的两阶段C2（C1）BLI方法的有效性（参见§1中的RQ 3）。然而，阶段C2实际上独立于我们的阶段C1，因此也可以与其他标准BLI方法相结合。因此，我们试图验证结合暴露的基于mBERT的翻译知识是否也可以帮助其他BLI方法。换句话说，我们不是从阶段C1（§2.2）中提取阳性和阴性样本，并将C2 WE与C1的WE相结合（§2.3表3中提供了用于选择语言对的这些C2（RCSLS）和C2（VecMap）BLI变体的结果。使用所有C2（）变体实现的增益清楚地表明，阶段C2产生有助于所有BLI方法的WE事实上，将其与RC结合-+v：mala2277获取更多论文[5k] 配对EN→DE→ DEIT→IT−706560555045403530252015100.00.10.20.30.40.50.60.70.80.91.0版706560555045403530252015100.00.10.20.30.40.50.60.70.80.91.0版70656055504540353025201510500.00.10.20.30.40.50.60.70.80.91.0版图2：不同λ值的BLI评分：（左）|D0| = 5k;（中间）|

下载后可阅读完整内容，剩余1页未读，立即下载