预训练模型的泛化与记忆：噪声环境与低资源挑战

74 浏览量更新于2024-06-19 收藏 1.21MB PDF 举报

本研究论文深入探讨了预训练语言模型，特别是BERT等先进的模型在嘈杂和低资源环境下的泛化能力和记忆机制。作者们来自伦敦帝国理工学院和Google Research，他们指出，尽管预训练模型在有限的标注数据下表现出强大的事实记忆和性能，但其学习过程并非无懈可击。首先，实验结果显示，预训练语言模型对标签噪声具有惊人的鲁棒性，即使在高度噪声的训练数据集中，它们依然能逼近最优解。这表明这些模型能够在一定程度上过滤噪声，关注于核心信息的提取。然而，研究也揭示了一个关键问题：模型主要依赖于高频模式进行学习，对于低资源任务，如少数类学习和稀有实体识别，它们的表现却相当有限，基本无法胜任。为了克服这一局限，研究人员提出了一种扩展的原型网络模型，该模型在处理低资源命名实体识别任务时显示出了显著的性能提升。这是通过强化模型在低频模式和特定上下文中的学习能力，以提高其在资源匮乏环境下的适应性和泛化能力。本文的研究深入剖析了预训练语言模型在不同环境下的行为特性，强调了理解和优化模型的泛化和记忆策略对于提升其在实际应用中的性能和可靠性的重要性。同时，它也为未来的模型设计和改进提供了有价值的洞见，特别是在处理数据稀缺和复杂噪声场景时。

+v：mala2277获取更多论

文

（Augenstein et al. ，2017年）。数据集的重点

是在测试时识别模型无法简单记忆的不寻常或

罕见实体除非另有说明，否则我们基于实体级

进行评估。

语言模型我们使用

BERT-base

（

Devlinet al.

，

2019

）作为我们实验的主要语言模型，因为

BERT在实践中被广泛使用，并且预训练语言

模型的其他变体构建在类似的架构上。该模型

增加了分类前馈层

1.0

0.8

0.6

0.4

0.2

0.0

0 1

2 3

5 6 7 8 9 10

时代

并使用交叉熵损失进行微调，学习率为10

−

。

AdamW（Loshchilov和Hutter，2019）在训练

期间使用，重量衰减为0.01，线性热身率为

10%。使用模型记录测试结果，

产生了最高的验证指标。

我们将BERT的行为与其他预先训练的变压

器（如

RoBERTa

（

Liu et al.

，

2019

）和

DeBERTa（He et al. ，2020）用与上述相同的

优化器和超参数进行微调。为了与非转换器模

型进行比较，我们报告了bi-LSTM-CRF的性能

（

Lample et al.

，

2016

）模型，具有组合的字

符级和单词级表示。该模型由10层组成，具有

300

维单词表示和

维字符表示，总共约

3000

万个可训练参数。在我们的实验中，该模型使

用

Adam optimiser

（

Kingma and Ba

，

2014

）进

行训练，使用 CRF 损失（ Laffe et al. ，

2001

）。

噪声环境

我们首先研究BERT如何从包含标签噪声的数

据集中学习一般图1显示了当面临不同水平的

噪声时，

CoNLL03

训练和验证集上的模型性

能如何变化，从0%到50%。根据绩效分数的

进展，我们可以将BERT

拟合：该模型使用训练数据来学习如何泛

化，有效地学习可以解释尽可能多的训练数

据的简单模式（

Arpit et al.

，

2017

年）。随

着模型学习这些模式，训练和验证性能

图 1 ： BERT 性能（ F

）在整个训练过程中的

CoNLL03训练和验证集。较暗的颜色对应较高的

噪声水平（0%至50%）。

0.6

0.5

0.4

0.3

0.2

0.1

0.0

0 1 2 3 4 5 6 7 8 9 10

时代

图2：CoNLL03数据集训练集中噪声样本的分类精

度。较暗的颜色对应较高的噪声水平（ 0% 至

50%）。

稳定性：性能平台的增加，验证和培训都

没有显著变化这个阶段的持续时间似乎与

数据集中存在的噪声量成反比

简化：模型迅速开始记忆噪声示例，快速

提高训练数据的性能，同时降低验证性

能，有效地过度拟合数据集中的噪声。

我们发现

BERT

表现出明显的第二个

稳定

阶

段，在此期间它不会过度拟合。在用梯度下降

训练的其他神经网络中已经观察到对标签噪声

的弹性（Li et al. ，2020）。然而，我们发现

BERT中的这一阶段比在其他平台上预先训练

的模型要长得多

验证

培训阶段

2期

3期

兰德

伯特

相相相

r accu

分类

评分

分类精度

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

预训练模型的泛化与记忆：噪声环境与低资源挑战

预训练模型的记忆机制解密！

不同预训练模型的实验与评估1

预训练语言模型关键技术

为什么Transformer提出后大量预训练语言模型涌现

预训练模型和没有预训练的模型

写一篇预训练语言模型综述

预训练语言模型是干什么用的

预训练模型和算法的关系

介绍预训练模型相关知识

写个文本描述下，大规模预训练家模型采用大量的未标注的公开数据集训练的好处和优势

最新资源