ELLE：提升终身预训练效率与性能的新方法

42 浏览量更新于2024-06-19 收藏 1.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"ELLE：新兴数据的有效终身预训练" ELLE是一种新兴的数据终身预训练方法，旨在解决预训练语言模型（PLM）在面对不断增长的流数据时的效率和性能问题。传统的PLM通常使用静态数据集进行训练，但现实世界中的数据是动态更新的，比如文学作品、新闻报道和科学论文等。ELLE的目标是让PLM能够持续整合来自不同来源的新信息，以适应数据分布的变化，并保持模型的高效性和泛化能力。为了实现这一目标，ELLE提出了“功能保留模型扩展”策略。这一策略允许模型在不损害已有知识的情况下，灵活地扩展其结构以适应新数据。通过这个方法，ELLE能够在现有PLM如BERT和GPT的基础上，有效地整合不同领域的流数据，而不必对所有数据进行全面的重新预训练，从而减少了计算成本。实验在五个不同领域的流数据上对ELLE进行了测试，结果表明，ELLE在预训练效率和下游任务性能上均优于其他终身学习基线。这意味着，即使在资源有限的情况下，ELLE也能让模型保持学习新知识的能力，同时保持对旧知识的回忆，提升了模型的整体性能。 ELLE的实现代码已经开源，可从https://github.com/thunlp/ELLE获取。这一研究对预训练模型的发展具有重要意义，因为它提供了一种更加实用和经济的方法，使PLM能够适应不断变化的数据环境，对于自然语言处理领域的进步有着积极的推动作用。引入终身学习的概念到PLM中，使得模型能够持续学习和适应新的信息，这对于应对现实世界中的NLP任务尤其重要。例如，随着新事件的发生，新闻数据会持续更新，ELLE可以使模型及时理解和处理这些新出现的话题。此外，科学文献的增加也需要模型能够迅速吸收新的专业术语和概念。通过ELLE，这些挑战可以得到有效的解决，模型的性能和实用性得到显著提升。 ELLE是一种创新的终身预训练框架，它解决了静态预训练模型面临的挑战，提高了对新兴数据的处理效率，并且保持了模型的性能。这一研究为未来NLP领域的发展提供了新的方向，即如何设计更高效、更适应数据变化的智能系统。

资源详情

资源推荐

+v：mala2277获取更多论

文

−

transformer

层。

可以作为进一步优化的良好起点我们建议读者

参阅

Chen et al.

（

2021

）以了解有关宽度扩展

的更多详细信息。不同于

Chen et al.

（2021），我们在初始化期间将随机噪声δ

额

外引入

到Wj的新复制参数中。这些轻微的噪音

会破坏复制后的对称性，加速后期的预训练。

深度扩展。对于深度扩展，复杂的工作通常通

过参数复制将所有原始 PLM 层堆叠成 2 层

（

Gong et al.

，

2019

）。这种初始化被证明可

以提高训练效率。

然而，上述

层堆叠

方法

将放大的

PLM M

的层的数量限制

为原始

PLM

-1

的层的数量的整数倍

，这

对于实际使用来说是不灵活的。

为了提高

扩展的灵活性，使得

-1

可以扩展为任意层

数，

我们提出了一种新的

层插入

方法来

构造

具有L

层的新的PLM M D 1，其中

训练阶段。

3.3

预先训练的域提示

我们不需要为每个领域训练一个单独的模型，

而是希望一个紧凑的

PLM

来整合来自所有来

源的知识。当面对来自特定领域的下游任务

时，PLM需要展示在预培训期间学到的适当

知识。为了促进预培训期间的知识获取和微调

期间的知识暴露软提示已被证明是优秀的任务

指示符（

Qin et al.

，

2021 b

），并具有非平凡

的任务之间的可转移性（苏等。，

2021

年）。

具体来说，在预训练期间，为了理清来自

不同来源的知识，我们在输入中植入了一个

软提示令牌，以引导

PLM

学习哪种知识域

的

prompt是一个可调向量p

。我们准备

在原始令牌嵌入H

之前的p

1 ≤L

我

≤

。具体来说，我们随机选择

{

，

. . .

，

}

对于输入x∈ D

，得到

M中的图层

，复制每个层

|x|

−

修改的输入H

{

;

，

. . .

，

}

，即

并在原始层之前

之后插入复制层我们根据

经验发现，将复制的层插入到其他位置会导

致性能下降，原因是它会违反原始层序列的

处理顺序

并破坏

PLM

的原始功能

。在每个扩

展阶段，当有新的数据出现时，由于不同的

层有不同的功能

，我们总是选择那些以前

没

有被复制的层来帮助

PLM

全面开发

，而不仅

仅是开发

某种功能。由于宽度

扩展和深度扩

展是相互兼容

的，我们同时对它们进行扩

展，构造了一个扩展模型

，它继承了参

数中包含的M

−1

的知识。

功能恢复热身。由于上述模型扩展不能保证

精确的功能保持，结果在功能丢失和性能

下降的情况下，我们在

然后由所有的

处理

|X|

每个

在预训练期间

，

在微调过程中，当在前面看到

的类似数据域上应用

PLM

时，我们可以利用

经过训练的域提示并将其置于输入之前下游

数据。通过这种方式，我们手动操作PLM，

以激发在预培训期间学到的最

实验

4.1

实验环境

数据流。我们模拟了顺序收集来自5个域的流

数据的场景，即，

WIKIPEDIA

和

BOOK C ORPUS

（WB）的串联（Zhu et al. ，2015）、NEWS A

RTICLES

（

N S

）（

Zellers et al.

，

2019

），

MA-ZON R EVIEWS （ R EV ）（ He and

McAuley

，

2016

），

B IOMEDICAL P APERS

（

IO）（Lo et al. ，2020）和C OMPUTER S CIENCE

P APERS

（

）（

Lo et al.

、

子

−

2020年）。对于每个语料库D

，我们大致采样

以往语料库

保存在内存

恢复在模型扩展过程中丢失的语言能力，这

被称为函数恢复预热（FRW）。预热后，我

们得到

WD+

，它成功地继承了来自

−

的知

识，也为接下来的

3400

代币，每个代币的数量

是

与

BERT

的预训练数据相当（

De-vlinet al.

，

2019

）。此外，考虑到在实践中，存储的费用

远远低于用于预训练的计算资源，我们保持了

相对较大的内存，

+v：mala2277获取更多论

文

我

−

−1

{D D

}

我

传统的终身学习环境随机

2000万元人民币（

sub

）对于每个语料库

评估模型。我们主要遵循

BERT

和

GPT

的模型架构（Radford et al. 、

2018

年）。我们使用字节级

BPE

词汇表来

en-

当然，每个语料库中都有一些未知的标记

我们用最初的

层

PLM

进行实验

和384的隐藏大小（大约30M参数，

表示为

BERT

L6_D384

/GPT

L6_D384

），以及连-

提前将PLM的参数数量扩大

新闻评论

Bio CS

次，到最终的PLMM

的12层和隐藏

火车壁时间

大小为

768

（大约

125M

参数，表示为

BERT

L12_D768

/ GPT

L12_D768

）。我们还在更大的

模型尺寸上进行实验，即，将 PLM 从

BERT

L12_D768

（

125M

）增长到

BERT

L24_D1024

（355M）。

每个细节

彭萨科拉湾我们还在附录A中讨论了每个阶段

扩大模型尺寸的影响。

培训详情。我们为第一个语料库训练了62

，

500

步的模型。对于下面的域

（

i >1

），在模

型扩展之后，我们执行5000步的功能恢复预

热，然后在新数据上训练

20000

步的

PLM

，

并

进行内存重放。根据Chaudhry et al. （2019年

），我们共同培训

PLM

子

图

：以

BERT

L6_D384

为初始

PLM

的不同终身学习

方法的平均困惑度（

）

和其他

PLM

的趋势

曲线

见

附录

。

(1) 平均困惑（ AP ）和（ 2）平均增加困惑

（ AP

）。我们记录列车壁时间（ Li et al.

2020年），在培训前。对于学习第j个域时时

间步

处

I.假设PPL

是当PLM完成第i个域上的训练时第

个

域上的困惑度，上述度量计算如下：

在

和

−1

的混合样本上，

exp

log

PPL

，

每个批次，以及D和D

子

i=1

我

（二

更）

在每批中设置为9：1。亚当（金马

和Ba，2015）被选为优化器。所有的

（

PPL

−

PPL

）的

情况下，

i=1

实验在相同的环境下进行

个

V100 GPU

的批量大小为

，

048

。有关预培

训的更多培训详情，请参见附录B。我们还在

附录

中对较少的计算预算和内存预算进行了

实验，发现在合理的范围内，这两个因素都不

会显著影响

ELLE

的性能。

评价我们认为，如果一种算法能够利用较少的

计算量达到与其他方法对于

PLM

，这相当于

使用相同的计算实现更好的性能，因为使用更

多计算的预训练几乎总是会导致更好的性能

（Clark et al. ，2020）。我们在预训练和下游

微调期间评估

PLM

具体来说，对于预训练，我们提出了两个指

标来评估PLM如何在Chaudhry等人的学习域

上执行。（2019年a）：

其中

测量所有

可见数据

，

. . .

，

较低的

表示

PLM

通常从现有

领域学习更多的知识

; AP

衡量当前数据

对先前数据

-1

的影响

。较

低的

意味着

PLM忘记以前学过的知识较少。

为了评估

PLM MNLI

（

Williamset al.

，

2018

），

YPER P ARTISAN

（

Kibrillant et al.

，

2019

），

H ELPFULLNESS

（

McAuley et al.

，

2015

年），

C HEM P ROT

（

Kringelum et al.

，

2016

）和

ACL-ARC（ Jurgens et al. ，2018）分别用于

WB、NS、REV、BIO和CS。微调的训练细节

留在附录C中.

基线。保持大多数实验设置相同，我们选择

以下基线进行比较：（

）朴素，这是

Gururangan

等人的朴素扩展。（

2020

年），以

不断适应每个领域的PLM，可以看出，

天真

EWC

MAS

创业板

儿

Logit-KD

PNN

我们

剩余25页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

ELLE：提升终身预训练效率与性能的新方法

elle：基于Elle协程的异步C ++开发框架

写c++代码：输入5个英文人名，对人名进行排序输出（字典序，升序）。 【输入形式】 5个英文人名 【输出形式】 排序后的人名 【样例输入】 Bob Candy Andy Elle David 【样例输出】 Andy Bob Candy David Elle

数据结构六度空间理论代码

Analyse des traits de personnalité de Léa dans le roman de Colette "Chéri" par ses remarques dans le roman

transformer实例实现代码

三维空间中每一个点xyz存储到矩阵中变量elle控制每个点的xyz的大小

analyse la Transformation émotionnelle de Léa envers Chéri et la sublimation de sa pensée féminine dans le roman Chéri de Colette

analyse la Transformation d'une image entièrement féminine, Edmée, et sa révolte contre Chéri

法语中的介词avec的用法

analyse des Traits de caractère de l'androgyne de Léa avec des examples danas le roamn Chéri de Colette

analyse Le mariage tragique d'Edmée, qui est l'opposé de Léa, avec Chéridans le roman Chéri de Colette

analyse les Traits de caractère de l'androgyne de Léa dans le roman Chéri de Colette

Comment Colette critique les idées patriarcales dans les sociétés patriarcales dans son roman Chéri

使用html+css写一个TNT时代少年团的主要作品的代码，包括音乐专辑，音乐单曲，综艺节目，杂志写真以及，演唱会记录

厦门理工学院在广东2021-2024各专业最低录取分数及位次表.pdf

算法竞赛学习资源114514

最新资源

写c++代码：输入5个英文人名，对人名进行排序输出（字典序，升序）。【输入形式】 5个英文人名【输出形式】排序后的人名【样例输入】 Bob Candy Andy Elle David 【样例输出】 Andy Bob Candy David Elle