美洲NLI：预训练多语言模型在低资源土著语言中的高级语义任务评估

PDF格式 | 619KB | 更新于2025-01-16 | 55 浏览量 | 举报

本研究论文主要关注跨语言迁移在预训练多语言模型中的应用，特别是在低资源语言环境中的高级语义任务评估。随着预训练模型如XLM、mBERT和XLM-R在多语言NLP领域的显著成果，这些模型展现出在无任何特定语言领域知识的情况下进行形式上的跨语言迁移能力，即使在预训练阶段未曾接触过的语言中也能展现基础性能。然而，以往的研究对于低资源语言的评估主要集中在较低级别的句法任务上，关于能否通过零射击学习实现高级别的语义理解并不明确。为了填补这一空白，研究者们设计并推出了一个名为AmericasNLI的数据集，它是XNLI（Conneau et al., 2018）的扩展，涵盖了美洲的10种土著语言。通过对XLM-R模型进行一系列实验，包括零射击和基于预训练的方法对比，论文试图解答在这些低资源语言中进行高级语义任务的可能性。实验结果显示，持续的预训练对XLM-R模型的性能有显著提升，平均准确率达到了44.05%。出人意料的是，使用翻译质量较差的数据进行训练，尽管在某些方面可能存在挑战，但最终的准确率却高达48.72%，这表明模型在处理翻译不准确的数据时仍能展现出一定的适应性和理解力。论文还强调了模型自我适应的重要性，通过持续预训练让模型能够更好地应对不同语言环境。同时，通过分析数据集，研究人员揭示了在处理低资源语言时，预训练模型的优势和限制，这对于理解和优化跨语言模型的性能具有重要意义。这篇论文不仅验证了预训练多语言模型在低资源语言中的潜力，也提供了关于如何进一步优化这些模型在高级语义任务中的表现的见解，对于推动跨语言NLP技术的发展具有重要价值。

+v：mala2277获取更多论

文

14，592瑞郎

2.3

自然语言推理

给定两个句子，

前提

和

假设

，

NLI

的任务包括

确定是否

浪来源已发送。

02The Dog（2012）

Feldman and Coto-Solano（2020）;Margery（2005）;

假设在逻辑上需要、矛盾或对前提是中性的。

NLI 在英语中最广泛使用的数据集是 SNLI

（Bowmanet al. ，2015）和MNLI（Williams et

al. ，2018）。XNLI（Conneau et al. ，2018）

是

MNLI

的多语言扩展到

种语言，提供手动

翻译的评估集和机器翻译的训练集。而NLI或

Jara Murillo（2018 a）; Constenla et al.

（2004年）;

7,508

识别文本蕴涵类似任务存在于其它语言中

（Bos et al. ，2009; Alab-bas，2013; Eichler et

al. ，2014; Amirkhani等人2020），他们缺乏

相似性，阻止了一般-

焦

油

Galarreta等人（2017）; Loriot等人（1993

年）;

Go'mezMont o yaetal. （2019年）

Brambila（1976年）;

github.com/pywirrarika/tar_par

14,720

跨语言零射击性能的标准化研究。这与XNLI

相反，XNLI中所有15种语言的示例都是并行

的。为了保留

XNLI

的这一属性，在创建

AmericasNLI

时，我们选择翻译西班牙语

XNLI，而不是直接用目标语言创建示例。

然而， NLI 数据集并非没有问题：

Gururangan等人（2018）表明，创建MNLI的

工件允许模型仅根据假设对示例进行分类，这

表明模型可能无法按预期进行推理。出于这一

动机，我们在第6节中通过比较仅假设模型与

在完整示例上训练的模型的性能

美国NLI

3.1

数据收集设置

AmericasNLI是 XNLI子集的翻译（ Conneau et

al. ，2018）。由于西班牙语和目标语言之间

的翻译比英语翻译更频繁，我们从西班牙语版

本翻译。此外，一些译者报告说，语码转换经

常被用来描述某些主题，虽然许多在目标语言

中没有确切对等词的词是通过翻译或解释来处

理的为了尽量减少翻译示例中的西班牙语词汇

量我们从每个开发和测试集中选择了多达750

个示例，表

中列出了每种语言的精确计数。

表2：用于我们的翻译模型的并行数据。

3.2

语言

我们现在讨论美国的语言关于以前对美洲土著

语言的NLP研究的其他背景，我们建议读者参

考

Mager

等人。（

2018

年）。

AymaraAymara是一种多合成的美洲印第安人

语言，在玻利维亚，智利和秘鲁有超过

200

万

人使用（

Homola

，

2012

）。艾马拉语有多种

方言，包括北艾马拉语和南艾马拉语，在的的

喀喀湖的秘鲁南部海岸以及拉巴斯周围，分别

在智利北部伊基克省的东半部，玻利维亚奥鲁

罗省，波托西北部和科恰班巴西南部使用然

而，在最后两个地区，南部艾马拉人正在慢慢

地被盖丘亚人取代。在艾马拉语中发现的一种

罕见的语言现象是元音省略，一种语言中各种

声音的省略。艾马拉语有SOV语序。Amer-

icasNLI

的例子被翻译成中央艾马拉语变体，

特别是

AymaraLaPaz

。

亚什阿宁卡

Ash a

ninka

是一种

来自阿拉瓦克

家族的亚马逊语言，在秘鲁中部和东部使用，

位于安第斯山脉东部山麓和亚马逊盆地西部边

缘之间的地理区域（

Mihas

，

2017

）。

2017

年

的全国人口普查显示，人口为73，567人。

]

虽然 Asha

ninka 在严格意义上指的是 Ene ，

Tambo和Bajo Perene' rivers所说的语言变体，

但这个名字

https://bdpi.cultura.gob.pe/pueblos/

阿沙宁卡

Jara Murillo和Garc 'ıa Segura（2013年）;

JaraMurillo（2018年b）;FloresSol o'rzano

（2017年）

CNI

CushimarianoRomano和Sebasti a'nQ. （二零零

八年）

3,883

Chiruzzo等人（2020年）

26,032

hch

Mager等人（2017年）

8,966

nah

Gutierrez-Vasques等人（2016年）

16,145

https://tsunkua.elotl.mx

4,889

剩余13页未读，继续阅读

cpongm

粉丝: 6

美洲NLI：预训练多语言模型在低资源土著语言中的高级语义任务评估

ChatGPT模型对跨语言对话生成的适应性和效果评估.docx

藏汉跨语言话题模型构建及对齐方法研究

多语言预训练模型：实体引导的跨语言迁移效率研究

零次跨语言迁移：多语言机器阅读理解新框架

似然比模型选择在序列迁移学习中的应用

跨语言对齐：利用产品图片优化多语言搜索体验

多语言声学模型构建指南：掌握跨语言识别的7大关键

Transformer模型在机器翻译中的最新突破：解锁跨语言沟通新境界

迁移学习在自然语言处理中的高级技术：5个最新进展解析

ViT模型在语义分割中的实践及优势

最新资源