两阶段对比学习提升词汇翻译：BLI任务新框架

127 浏览量更新于2024-06-19 收藏 4.2MB PDF 举报

"这篇论文提出了一种两阶段对比学习框架，用于提高跨语言词汇翻译（BLI）任务的性能。该框架首先通过对比学习优化静态词嵌入（WEs）之间的跨语言线性映射，然后对mBERT进行面向BLI的对比微调，以进一步提升单词翻译能力。在不同语言对和实验设置下的BLI数据集上，该框架显示出了显著的改进效果。" 在多语言自然语言处理（NLP）领域，双语词汇归纳（BLI）是一项关键任务，它旨在找出不同语言间的词汇对应关系。传统的BLI方法主要依赖于基于映射的技术，通过学习将一种语言的词嵌入空间映射到另一种语言的空间，从而找到词对之间的对应。然而，这种方法往往受限于初始的种子词典和线性映射的简单性。论文提出的两阶段对比学习框架首先在第一阶段（C1）中改进了这一过程。通过对比学习，不仅可以优化静态词嵌入（如Word2Vec或FastText）之间的跨语言映射，还能将这种学习策略融入自监督的映射过程，从而获得更精确的跨语言对应。这种方法提升了基础静态词嵌入的表示能力，减少了词汇空缺，并增强了不同语言间的语义相似度理解。第二阶段（C2）聚焦于预训练的多语言BERT模型（mBERT）的微调。作者发现，通过对比学习对mBERT进行定向微调，可以激活其内在的跨语言翻译能力。mBERT经过这样的微调后，不仅能够补充静态WEs的不足，还能在不同语言环境中提供更丰富的上下文信息。这一步骤对于那些没有充足平行数据的语言对尤其有益，因为它利用了mBERT的预训练知识来学习潜在的词汇对应。在多个标准BLI数据集上的实验结果证明了该框架的有效性。阶段C1的对比学习方法已经在单一阶段的BLI方法上取得了显著的提升，而完整框架的使用则带来了更强的改进。例如，在涵盖28种语言对的112/112 BLI设置中，该框架实现了明显的性能提升。此外，这种两阶段学习框架对于低资源语言和领域的语言技术发展具有重大意义，因为它们通常缺乏足够的训练数据。通过对比学习，可以从已有的大规模预训练模型中抽取更多的信息，为这些语言提供更准确的词汇对应，从而推动其在机器翻译、语言学习等应用中的进步。这项工作为跨语言词汇翻译提供了新的视角，通过结合静态词嵌入的优化和预训练模型的微调，构建了一个强大且有效的学习框架。未来的研究可能会探索如何将这种框架扩展到其他NLP任务，或者改进对比学习策略以适应更多样化的语言环境。

+v：mala2277获取更多论

文

|D|

→

|X| |Y|

−

|D | | D D | | D ∪D

除非另有说明，否则输入单词

的最终表示

是（a）经由W映射到768- dim表示的其基于

的向量v

，

和（

）来自

BLI

调谐的

mBERT

的其768-dim编码f

′

（w）

（1 λ）

（w）

，

（

）

（

）

<$2

其中λ是可调插值超参数。

实验装置

单语

和

BLI

设置。我们在很大程度上遵循

标准的 BLI 设置从以前的工作（ Artetxe 等

人。，

2018; Joulin et al.

，

2018; Glavavaeliet

al. ，2019; Karan et al. ，2020年

等

）。主要评

估是基于

Glavaetry

等人的标准

BLI

数据集。

（2019年）：它包括28个语言对，在类型学上

相似和遥远的语言之间保持了良好的平衡（克

罗地亚语：HR，英语：EN，芬兰语：FI，法

语：

，德语：

，意大利语：

，俄语：

RU ，土耳其语：TR ）。再次遵循先前的工

作，我们依赖于在每种语言的完整维基百科上

训练的单语快速文本向量（Bojanowski et al. ，

2017

年），其中每种语言中的词汇被修剪为

万个最频繁的单词（即， =200k ，

=200k

）。我们的

Stage C1

和所有基线

BLI

模

型都使用相同的 fastText WE 。阶段 C2 中的

mBERT

在每种语言中跨越

200k

我们使用1 k个翻译对（半监督BLI模式）或

5 k个翻译对（监督）作为种子词典

;测试集跨

越2k

个翻译

对（Glavavaintel et al. ，2019）。

总共有56个BLI方向，

在我们的计算机中，每

个模型总共有 112 个 BLI 设置报告了标准的

Precision@1（P@1）BLI测量，我们依赖于

CSLS （ k=10 ）来对单词相似性进行评分

（

Lample et al.

，

2018

）。

训练设置和超参数。由于标准

BLI

数据集通常

缺乏验证集（

Ruder et al.

，

2019

），根据先前

的工作（

Glavaetryet al.

，

2019; Karan et al.

，

2020年），我们对

单个随机选择的

语言对EN

TR进行超参数调整，并将这些超参数值应用

于所有其他BLI运行中。

对于任意两种语言

和

，我们对

和

方

向都进行了实验。

使用平均倒数等级（MRR）作为另一个BLI评估指

标观察到了相同的结果趋势（

Glavavaetiet al.

，

2019

）

;

为

了清晰起见，我们省略了MRR评分。此外，当用更简单

的余弦相似性度量替代

CSLS

时，观察到相似的相对趋

势，但绝对BLI评分略低：结果见附录。

在阶段C1中，当

=5k时，超参数值是

Niter

=2，

NCL

=200，

Nneg

=150，

Nfreq

=60k，

Naug

=10k。使用SGD优化器，学习率为1

。

5，

γ=0

。

九十九当

=1k时，值为

Niter

=3，

=50，N

neg

=60，N

freq

=20k，N

aug

=6k; SGD，

学习率为2

。

0，γ=1

。

0。 τ=1

。

0，dropout在

这两种情况下都是0，并且对比学习的批量大

小始终等于当前

字典

（即，

（

5 k

的情况），或

加

，随迭代而变化（1 k的情况）;

见

§2.1

）。在阶段

中，

neg

=28

，最大序列长

度为6。我们使用AdamW（Loshchilov和Hut-

ter

，

2019

），学习率为

2e 5

，权重衰

减为0

。

01.我们对mBERT进行了5个epoch的微

调，批量大小为

100;

丢弃率为

。

和

τ=0

。

一、除非另有说明，否则λ固定为0

。

二、

基线模型。我们的BLI方法进行了评估，对四

个强大的SotA BLI模型从最近的文献，所有这

些都与公开可用的

implementations

。在这里，

我们提供简短的摘要：

RCSLS（Joulin et al. ，2018）优化了松弛的

CSLS

损失，学习了非正交映射，并且已经在

实验比较分析中被建立为强

BLI

模型，因为其

目标函数直接是

“BLI

导向的

”

（

Glavavaintelet al.

，

2019）。

VecMap

的核心组件（

Artetxe et al.

，

2018

）

已在§2.1中列出。

LNMap

（

Mohiuddin et al.

，

2020

）将原始静

态

非线性地映射到经由非线性自编码器

学习的两个潜在语义空间中，并且然后学习基

于潜在自编码器的空间之间的另一非线性映

射。

FIPP（Sachidananda et al. ，2021），简而言

之，首先发现共同的（即，同构）的几何结

构，在单语

空间的两种语言，然后对齐的

Gram矩阵的WE发现，在这些共同的结构。

对于所有基线，我们已经验证了在其各自的

存储库中建议的超参数值产生（接近）最佳

BLI 性能。除非另有说明，我们运行

VecMap、LNMap和FIPP，它们都有自己的自

学习过程。

有关每个

BLI

模型的进一步技术细节和说明我们使

用了所有基线模型的公开实现

[11

]

这一步是为了减轻各向

异性（Søgaard et al. ，2018; Dubossarsky et al. （2020

年）

原来的WE空间，这应该有助于他们的对齐。

RCSLS

是在没有自学习的情况下打包的

;

扩展它以支

持自学习是不平凡的，超出了这项工作的范围。

剩余22页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

两阶段对比学习提升词汇翻译：BLI任务新框架

Boosting学习在图片自动语义标注中的应用

IS42S32160C-75BLI：512Mb同步DRAM规格详情

Python机器学习入门：数据下载与版本检查

如何利用两阶段对比学习框架提升多语言词汇翻译的准确性？

如何运用两阶段对比学习框架来提升多语言词汇翻译的准确性？

bli-generic-portfolio

BLI-FIND-crx插件

IS42S32160C-75BLI

基于Java的mybatis-bli设计源码下载平台

oecd_bli_2015 gdp_per_capita

最新资源