LOVE: 字形预训练增强NLP系统OOV鲁棒性

113 浏览量更新于2024-06-19 收藏 909KB PDF 举报

LOVE: 基于字形的预训练词嵌入用于增强NLP系统的鲁棒性在当前先进的自然语言处理（NLP）系统中，词嵌入扮演着核心角色，它们通过将词语转化为向量形式，极大地推动了诸如文本分类、情感分析等任务的性能提升。然而，这些系统在遇到词汇表外（OOV）词时表现脆弱，因为它们受限于训练集中的固定词汇范围。OOV词包括罕见词、专业术语、俚语以及拼写错误，它们会导致模型性能大幅下降，甚至对微小的字符变动异常敏感。为解决这一问题，研究人员陈力虎、Gael Varoquaux和Fabian M. Suchanek提出了LOVE（Learning Orthographic Vectors for Embeddings），一个基于模仿类模型的简单对比学习框架。LOVE的目标是扩展现有的预训练语言模型（如BERT），通过学习预训练词嵌入的行为，仅依赖单词的表面形态生成未知单词的向量，从而提高对OOV词的鲁棒性。 LOVE的核心思想在于，它在不增加大量额外参数的情况下，通过对比学习的方式，使得模型能够理解和处理未曾出现在训练数据中的单词。这种轻量级的设计允许模型在处理噪声更大、包含OOV词的真实世界数据集时，保持或甚至提高性能。研究结果显示，在标准数据集和经过损坏的变体上，LOVE的表现优于先前的词嵌入方法，如FastText和BERT。 LOVE具有即插即用的优势，可以直接整合到FastText和BERT中，显著提升了这些模型的鲁棒性。例如，与BERT结合使用时，LOVE在情感分析任务的SST-2基准上表现出接近或超过BERT的性能，同时对文本分类模型的抗错别字干扰能力有所增强。图1所示的实验直观地显示了添加错别字对模型性能的影响，LOVE在这样的情况下能够提供更稳健的预测。 LOVE作为一种轻量级的解决方案，不仅解决了NLP系统对OOV词的处理问题，而且展示了如何在不牺牲效率的前提下，提升模型在实际应用中的稳定性和可靠性，这对于提高整体NLP系统的实用性和普适性具有重要意义。

+v：mala2277获取更多论

文

∈

这里，

是温度参数，

sim

（）是诸如余弦相似

度的相似度函数，并且（u

，

）、（u

，

）分别是正对和负对（假设所有向量被归一

化）。在训练过程中，通常通过对同一样本进

行扩增来获得阳性对，并且阴性样本是小批次

中的其他样本这个过程学习在一定程度上对噪

声因素保持不变的表示

我们的方法：爱

LOVE （ Learning Out-of-Vocabulary

Embeddings

）利用对比学习的原理，最大限度

地提高目标向量和生成向量之间的相似性，并

将否定向量对分开。图

显示了我们框架的概

述。它的灵感来自视觉表征学习（ Chen et

al. ，2020），但不同之处在于，正对中的一个

是从预先训练的嵌入获得的，而不是使用两个

增强版本。在这个框架中，我们采用了五种新

颖的词级此外，我们发现在训练过程中添加硬

否定可以有效地产生更好的表示。我们在编码

器层之后删除了非线性投影头，因为它的改进

是针对视觉领域中的此外，我们的方法不是一

个无监督的对比学习框架，而是一个监督学习

方法。

我们的框架从原始词汇表中提取一个词，

数据例如，

“misspelling”

在去掉一个字

母

“s”

后变成了

“mispelling”

。接下来，我们从

原始单词的预训练嵌入中获得目标向量，并为

损坏的单词生成向量这两个向量是一对正样

本，我们最大化它们之间的相似性，同时使负

对（同一小批次中的其他样本）的距离尽可能

大。如前所述，我们使用对比损失作为目标函

数（公式3）。我们将在下面详细介绍框架中

的五个关键要素（类似于表1中的要素）：输

入法，编码器，损失函数，数据增强和硬否定

的选择。

4.1

输入法

我们的目标是使用表面形式来为单词赋予向

量。因此，问题是如何设计第

3.1

来表示每

个输入单词。 MIMICK（Pinteret al. ，2017）

直接使用字符序列（见表

）。然而，这丢失

了词素的信息，即，一系列的字符共同构成了

一个意义。因此，

FastText

（

Bojanowski et

al. ，2017）采用字符n-gram。然而，这样的n

元语法是高度冗余的。例如，如果我们使用长

度为3到5的子串来表示单词拼写错误，我们得

到一个包含

个

n-gram

字符的列表因此，像

BERT一样，我们使用WordPiece（Wu et al. ，

2016

），词汇量大约为

30000

，以获得输入单

词的有意义的子单词。对于单词拼写错误，这

产生

{miss

，

##pel

，

##ling}

。然而，如果

我们只是交换两个字母（比如打字错误），那

么序列就完全不同了：

{mi

，

##sp

，

##sell，##ing}。因此，我们同时使用字符

序列和子字（图

）。

我们缩小我们的词汇量，通过词干提取所有

单词，只保留每个单词的基本形式，并通过删

除带有数字的单词这将词汇量从

30 000

减少到

21 257

，而不会太多地降低性能（第

A.1

节）。

4.2

编码器

现在让我们设计3.1节中提到的函数φ（）。我

们正在寻找一个可以编码局部特征和全局特征

的函数。局部特征是字符n-gram，它提供了对

字符交换或遗漏等微小变化的鲁棒性。全局特

征结合了局部特征，而不管它们之间的距离。

对于拼写错误的单词，可以通过结合单词开头

和结尾的局部信息来获得前缀和后缀的错误模

式。传统的CNN、RNN和自我注意力不能同

时提取这种局部和全局信息。因此，我们设计

了一个新的位置注意模块。假设我们有一个前

面提到的混合输入序列和一个对应的嵌入矩阵

V R

| V|

其中d是向量的维数。

然后，输入可以由向量列表表示：X

{

，

xn} ∈ R

n×d

，其中

是

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

LOVE: 字形预训练增强NLP系统OOV鲁棒性

带有词嵌入的情感分析

嵌入：用于自然语言处理的快速，DB支持的预训练词嵌入

使用预训练的词嵌入：使用预训练的FastText，带有RNN的GlOve词嵌入

《自然语言处理：基于预训练模型的方法》章后习题参考答案

bpemb：基于字节对编码（BPE）的275种语言的预训练子词嵌入

真棒句嵌入：精选的预训练句子和单词嵌入模型列表

NLP预训练模型：自然语言处理预训练模型的集合

BERT：深度双向预训练Transformer推动NLP性能新高

Keras深度学习：embedding层详细解析与预训练词嵌入

深度解析：知识增强预训练模型的进展与未来

最新资源