CrossAligner：面向任务的跨语言自然语言理解与零触发知识传输

65 浏览量更新于2025-01-16 收藏 775KB PDF 举报

"这篇论文探讨了面向任务的跨语言自然语言理解（XNLU），特别是零触发（zero-shot）技术在转移任务知识方面的应用。研究中提出的CrossAligner是一种学习方法，旨在通过未标记的并行数据对齐不同语言的任务知识，从而克服低资源语言在NLU领域的挑战。论文对各种个体方法进行了定量分析，并提出了它们的加权组合，这种方法在多个多语言基准数据集上超越了现有的最先进的（SOTA）成绩。作者还对最佳方法进行了深入的定性错误分析，揭示了微调的语言模型在零触发知识转移上的出色表现。" 本文的核心关注点在于提高跨语言自然语言理解系统的效能，尤其是对于那些资源有限的语言。在个人助手和神经对话系统中，理解和处理多种语言的能力至关重要。然而，缺乏足够的标注数据是限制这些系统发展的一个主要因素。零触发方法试图解决这个问题，它利用高资源语言（如英语）中的知识，无需在目标语言上进行额外训练，即可将其转移到其他语言。 CrossAligner是作者提出的一种新型框架，它利用未标记的并行数据来学习语言之间的对齐，从而有效地在不同语言之间传递任务知识。通过一系列实验，CrossAligner在九种语言、十五个测试集和三个多语言基准数据集上展示了其优势，证明了其在跨语言任务理解中的有效性。此外，通过对最佳方法的错误分析，研究人员发现微调的语言模型在零触发知识传输方面可能比预期的更强大，这为进一步优化跨语言NLU系统提供了新的见解。面向任务的XNLU主要包括意图分类，即识别用户命令的意图，这对于对话管理至关重要。由于标注数据的局限性，尤其是在低资源语言中，CrossAligner的零触发跨语言迁移方法提供了一种可能的解决方案，有助于扩大对话系统的服务范围，覆盖更多用户。总结来说，这篇论文贡献了CrossAligner这一创新工具，它在跨语言任务理解和知识转移方面展现出强大的潜力，有望推动多语言神经对话系统的发展，并减少对大量标注数据的依赖。

+v：mala2277获取更多论

文

←

∈

←

L ← L LL

翻译

成每一个目标语言

翻译

，然而，一个公开可用

的翻译器也可以使用。请注意，我们对每个对

齐方法使用相同的翻译，以公平地比较它们

。我

们的语言无关目标是

通过将英语槽标签y

转换

为固定的二进制向量y

来创建的，该向量指示

输入中存在哪些实体

（算法

中的第

1-7

行），

而不管它们出现的频率如何。

标准的XNLU训练（第15-20行）具有一个意

图分类器（IC）和一个实体分类器（EC）。每

个计算交叉熵损失

（

ce_loss

）与

softmax

激活使

用英语标注的数据（多类分类）。这就产生了标

准损耗

和

。然后，

CrossAligner

（CA）分类器通过将EC logits矩阵

重塑为长向

量（第

和

行）来汇集

EClogits

矩阵，并

预测哪

些实体存在于用户

话语中（多标签分类）。我们

计算二元交叉熵损失（

bce_loss

），其中预测标

签

pred

eng

和

pred

tar

（分别用于英语和目标语

言

）与我们的语言不可知标签

之间的

sigmoid

激活（第

26和31行）。这产生了CrossAligner

损失

eng

和

tar

。这些梯度通过EC传播到XLM标记

嵌入的事实

确保了实体

槽识别的良好对齐

，如

结果部分所示请注意，EC、IC和CA在不同语言

之间共享

以帮助零射击跨语言转移。

使用

BIO

序列标记格式（

Sang

和

De Meulder

，

2003）可以

引入容易避免的模型错误，例如：

在

I-标签之后预测B-标签、连续预测两个B-标

签或者完全跳过

B-

标签。因此，我们简化了训

练过程，使其与

w.r.t.

无关。实体的

命令。

标签

在预处理中被移除，这意味着实体

分类器仅

预测

标签。在推理时，

标记

通过一个简单的后

处理规则得到恢复。

请注意，我们所有的模型

都使用这种仅限IO的训练。

架构我们使用一个通用的面向任务

的

XNLU

模型，该模型采用了预训练的XLM，

例如

JointBERT

（

Chen et al.

，

2019

）。IC、EC

和CA均具有单个多层封装，其大小为：

[hidden

size

，

len（intent

classes）]、

[hidden_size

，

len（entity_classes）]和[seq_len

len（entity_classes）

，

len（entity_classes）]。

根据

数据集的不同，

seq_len

在

50-100

个标记之

间变化

。模型架构如图1所示。

算法1CrossAligner

比对

损失。

一曰：功能

Ttransform LABELS

（y

）2： y

zeros （ len

（entity_classes））

：对于实

体y

： y

[index

of（entity）] 1

5：结束

6：returny

第七章： end function

8：XLM←跨语言语言模型

第

章：IC

←

意图分类器

第

章：一个人

第

章：你是我的女人

12：X

Eng

←标准英语训练数据

13：X

Tar

←X

Eng

翻译成目标语言

：对于（x

eng

，

y）

，

（x

tar

，

y）

∈

Eng

，

Tar

标准

XNLU

培训

15：y

，

←y

16：cls

eng

，

tokens

eng

←XLM（x

eng

）

：pred

←

IC（cls

eng

）

：

←

loss（pred

，

）

：pred

←

EC（tokens

eng

）

20： L

←ce_loss（pred

，

）

-CrossAligner

培训

21：是

，

←Ttransform LABELS（y

）

22： shape←（seq_len ×len

（entity

classes））

23： logits

eng

EC（tokens

eng

）

24： logits

eng

. reform_matrix_into（shape）

25：pred

eng

←CA（logits

eng

）

26：

Leng

←bce_loss（pred

eng

，

）

27：cls

tar

，

tokens

tar

←XLM（x

tar

）

： logits

tar

EC（tokens

tar

）

： logits

tar

。

reform

matrix

into（shape））

：pred

tar

←

CA（logits

tar

）

31： L

tar

←bce_loss（pred

tar

，

）

32：

总 ic

ENG

TAR

：结束

3.2

XNLU的对比对齐

我们的对比比对基于InfoNCE（Oord et al. ，

2018）。先前的工作已经采用

了跨舌对齐的对

比损失（

Pan

et al. ，2020年），然而，数据集

是域外

的，数量级更大。我们表明

，强有力的

结果，可以只使用域（微调）数据。类似于

（Wu et al. ，2021），如果给定随机抽样的

一批N个英语句子X

Eng

及其平行句子

剩余13页未读，继续阅读

cpongm

粉丝: 6

CrossAligner：面向任务的跨语言自然语言理解与零触发知识传输

QT之TCP网络数据（文本和图像数据）传输

基于C#语言开发的简单的游戏服务器，API对齐Unity3D

【信号完整性指南】：FPGA设计中的DHT11数据传输稳定性保证策略

AXI4流控制：确保数据传输无损的关键策略

汇编语言动画帧速率控制：精确播放速度的专家指南

跨平台SPI编程全解：多操作系统实现方法一网打尽

【汇川IT7000系列触摸屏多语言与本地化】：打造国际化人机界面的实用技巧

【数据结构】：理解FFT基8算法中的数据结构与内存管理：内存优化的秘诀

【南方idata大数据分析指南】：从数据到洞察的6大分析工具与方法

Matlab与Maple的协同舞：数据交换与分析接口全攻略

最新资源