多语言预训练模型：实体引导的跨语言迁移效率研究

153 浏览量更新于2024-06-18 收藏 778KB PDF 举报

本文主要探讨了多语言预训练语言模型在跨语言迁移任务中的有效性，以及实体信息如何提升模型性能。近年来，多语言预训练模型如mLUKE（由RyokanRi1、山田郁也和鹤冈义正等人开发的模型）在自然语言处理领域展现出显著优势，特别是在处理跨语言问题时。这些模型通过利用维基百科实体的跨语言对齐信息进行训练，能够捕捉到不同语言之间的语义联系。研究者们发现，传统的预训练方法主要是在预训练阶段利用实体信息，而在下游任务中并未直接利用实体表示。为了深入理解实体的重要性，他们构建了一个涵盖24种语言的多语言模型，并在多项跨语言迁移任务中对比测试了其与基于单词的预训练模型。结果表明，包含实体表示的多语言模型在这些任务中表现更为出色，能够提取更多的语言无关特征，从而提高跨语言理解能力。文章特别关注了mLAMA数据集中的多语言完形填空提示任务，通过实验证明，基于实体的提示能更好地引导模型提取和利用正确的事实知识，相比之下，仅仅依赖文本表示则显得较为局限。研究者们认为，将实体表示形式化并融入输入，有助于模型在处理跨语言挑战时提供更精准的理解。值得注意的是，这项工作的成果可以通过访问<https://github.com/studio-ousia/luke>获取源代码和预训练模型，这对于其他研究者和实践者来说是一个宝贵的资源。本文为多语言预训练语言模型在跨语言迁移任务中的优化策略提供了新的视角，强调了实体信息在提升模型性能和跨语言理解方面的关键作用。

+v：mala2277获取更多论

文

图1：如何在下游任务中使用实体表示输入实体嵌入通过位置嵌入与它们的提及（由虚线指示）相关联

实体词汇mLUKE中使用的实体被定义为维基

百科条目。来自不同语言的文章通过语言间链

接

对齐，并且对齐的文章被视为单个实体。

我们在词汇表中包括了最常见的

120

万个实

体，这些实体出现在至少三种语言中，以促进

跨语言学习。

优化. 我们优化了模型，批量大小为2048，总

共

100

万步。使用

AdamW

（

Loshchilov

和

Hutter，2019），具有学习率的预热和线性衰

减。为了稳定训练，我们分两个阶段进行预训

练：（1）在前50万步中，我们只更新那些随

机初始化的参数（例如，实体嵌入）

;

（

）我

们在剩余的

万步中更新所有参数。学习速率

调度器在每个训练阶段被重置有关超参数的更

多详细信息，请参见附录A。

2.3

基线模型

我们将我们研究的主要模型，多语言

LUKE

与

实体表示（

mLUKE-E

），与几个基线预训练

模型和基于单词表示的消融模型进行

mBERT

（

Devlin et al.

，

2019

）是最早的多语

言模型之一。我们提供这些结果作为参考。

XLM-R

（

Conneau et al.

，

2020 a

）是

mLUKE

构建的模型。这个结果表明我们额外的预训练

步骤和实体如何表示

https://en.wikipedia.org/wiki/Help：

Interlanguage_links. 我们从 2020 年 11 月 30 日的

wikidatawiki

转储中构建了一个跨语言数据库。

影响性能。由于早期的研究（刘等。，

2019;

Lan et al. ，2020）表明更长的预训练只会提高

性能，我们训练了另一个基于

XLM-R

基础的

模型

，

并在mLUKE的相同配置下进行额外的

MLM

预训练。

mLUKE-W是mLUKE-E的消融模型。该模型

丢弃了在预训练期间学习的实体嵌入，并且与

其他基线模型一样该模型的结果表明

MEP

仅作

为预训练中的辅助任务的效果，并且与该模型

的一致性将突出mLUKE-E中使用实体表示的

下游任务的效果

上述模型使用附录B中描述的相同超参数搜

索空间和计算预算进行微调。

我们还介绍了

XLM-K

（

Jianget al. 2022

年），以便于参考。XLM-K基于

XLM-R

库

，

并使用维基百科的实体信息进行训练，但在下

游任务中不使用实体表示请注意，他们的结果

与我们的结果并不严格可比，因为预训练和微

调设置不同。

在QA中添加实体作为与数据库无关

的

我们评估的方法添加实体嵌入

dings

的输入

mLUKE-E跨语言提取QA任务。任务是，给定

一个问题和一个上下文段落，从上下文中提取

答案跨度。实体嵌入提供了语言无关的特征，

因此应该促进跨语言迁移学习。

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

多语言预训练模型：实体引导的跨语言迁移效率研究

用实体信息丰富预训练的语言模型进行关系分类1

预训练语言模型实体匹配的可解释性.pdf

深入解析XLNet多流机制与预训练模型最新进展

BERT与预训练语言模型

语言模型预训练技术详解

BERT简介：自然语言处理中的预训练模型

BERT模型解析：从预训练到微调

BERT 模型解析：预训练与微调在文本生成中的应用

实体识别跨语言挑战：构建多语言NLP系统的4大策略

BERT的掩码语言模型：如何通过掩码预测词

最新资源