ICML'21新突破：Transformer速度提升五倍，显存占用减99%

版权申诉

19 浏览量更新于2024-08-04 收藏 2.37MB PDF 举报

"超硬核 ICML’21 _ 如何使自然语言生成提速五倍，且显存占用减低99%" 这篇论文探讨了一种名为EL-Attention（Efficient Lossless Attention）的新方法，该方法针对自然语言生成任务中的Transformer模型进行了优化，实现了速度的显著提升和显存占用的大幅减少。在ICML 2021会议上发表的这项工作，不仅展示了理论上的改进，还提供了一个名为FastSeq的开源工具包，使得开发者能够轻松地在现有模型上应用这一优化。 Transformer模型的核心是其自注意力机制，它在编码和解码过程中负责捕捉序列内的依赖关系。然而，传统的自注意力计算过程通常需要大量的显存，尤其是在处理长序列时。作者通过深入分析发现，显卡计算时间相对于CPU操作和显存I/O时间来说相对较小，因此他们聚焦于显存优化，以提高整体性能。 EL-Attention的创新之处在于重新安排了注意力计算的顺序，以减少显存的需求。这种方法允许模型在不牺牲生成质量的前提下，实现速度的五倍提升，并将显存使用量降低到原来的96分之一。这意味着，即使是那些需要大量计算资源的大型自回归预训练模型，也能通过这种优化变得更为高效。 FastSeq是一个由微软开发的工具包，它封装了EL-Attention和其他相关技术，提供了一键式调用接口。用户只需在Facebook的Fairseq或Huggingface的Transformers模型中导入FastSeq库，无需修改代码，就能直接享受优化带来的加速效果。在2021 ACL Demo Paper中，FastSeq获得了高分，并被推荐为最佳演示论文。对于那些希望深入理解Transformer注意力机制的人来说，一个简单的回顾是必要的。Transformer中的注意力机制包括查询（Query）、键（Key）和值（Value）的计算，这三个矩阵的内积用于计算每个位置的注意力权重。通过改变这些计算的顺序和存储方式，EL-Attention能够在保持原有生成结果不变的情况下，极大地提高了计算效率和减少了显存占用。这篇论文和FastSeq的贡献在于提供了一种实用且高效的解决方案，解决了Transformer模型在大规模自然语言生成任务中的瓶颈问题，使得更复杂、更大规模的模型得以在有限的硬件资源下运行，这对未来AI技术和自然语言处理的发展具有重要意义。

超

硬

核

ICML

ʼ21

如

何使

⾃

然

语⾔

⽣

成

提

速

五倍

，且

显

存

占

⽤

减

低

⽂

炼

丹

学

徒

编

⼩

轶

我

们

忽

略

掉

引

⾔

和

介

绍

，

直

接

把

⼯

作

的

效

果

丢上

来

，

相

信

就

⾜

够

令

⾃

然

语⾔

⽣

成

的相

关

同

学

⼼

动

——

对

于任何

⼀个

已

有

的

Transformer

⽣

成

模

型

，

只

需

根

据

本

⽂

算

法

更

改

attention

的

计

算

顺

序

，

就

可

以

实

现

成

倍

速

度

提

升

！

显

存

使

⽤

量

降

低

到

原

来

百

分

之

个

位

数

！

不

需

要

重

新

训

练

！

保

证

输

出

结

果

与

原

来

完

全

⼀

致

以

BART

为例

，

本

⽂⽅

法

可

以

把

显

存

使

⽤率

降

低为

原

来

的

分

之

⼀！

是

的

，不

需

要

在

效

率

和

质

量

中

做

权

衡

！

⽆

脑

地

将

本

⽂

策

略

应

⽤

到

你

的

Transformer

⾥

，

庞

⼤

的

⾃

回

归

预

训

练

的

⽣

成

模

型

速

度

也会

变

得

可

以

接

受

！

你

甚

⾄

可

以

⼤

胆

地

去和

蒸

馏

模

型

、

剪

枝

模

型

、

（

半

）

⾮

⾃

回

归

模

型

⽐

较速

度

。

仔

细

想想

，

我

们

⾃

然

语⾔

⽣

成

的

过

程

中

，

其

实

只

有

编

码

和

解

码

是

必

须

要计

算

的

开

销

，

⽽

作

者

们

发

现

，

显

卡

计

算

的

时

间

远

⼩

于

CPU

操

作

和

显

存

的

时

间

，

并

最

终

进

⾏

理

论

分

析

降

低

显

存

的

耗

时

、

优

化

代

码

降

低

CPU

操

作

的

耗

时

，

显

著

降

低

显

存

占

⽤

和

提

升

⽣

成

速

度

。

本

⽂

正

是

聚

焦

在

了

显

存

优

化

的

部

分

。

对

于

该

⽅

法

的

理

论

描

述

先

是

发

表

在

了

ICML 2021

上

。

之

后

⽂

章

作

者

⼜

将

EL-Attention

等

相

关

技

术

封

装

成

了

⼀个

⼯

具包

供

⼤

家

⼀

键

调

⽤

，

项

⽬

名

称

FastSeq

，

在

2021 ACL Demo paper

⾥

获

得

了

5 5 4

的

⾼

分

，

并

被

两

位

审

稿

⼈

推

荐

为

best demo paper

。

感

兴

趣

的

读

者

可

以

直

接

安

装

FastSeq

⼯

具包

，

仅

需

要

⼀

⾏

代

码

引

⼊

该

库

函

数

，

只

要

你

⽤

的

是

常

⻅

的

Facebook Fairseq

或

者

Huggingface Transformers

中

的

模

型

，

import

完

FastSeq

，

甚

⾄

不

需

要

炼

丹

学

徒

2021-06-09

12:25

原

创

夕

⼩

瑶

的

卖

萌

屋

下载后可阅读完整内容，剩余9页未读，立即下载

地理探险家

粉丝: 1255
资源: 5601

ICML'21新突破：Transformer速度提升五倍，显存占用减99%

超硬核 ICML’21 _ 如何使自然语言生成提速五倍，且显存占用减低99%.rar

ICML2020_Machine Learning Production Pipeline.pdf

ICML2023_Tutorial.pdf

relu_hybrid_icml2013_final.pdf

ICML2021 _ Self-Tuning- 如何减少对标记数据的需求？ .pdf

icml2018_selecting_representative_examples:icml纸代码

2007ICML-Boosting_for_Transfer_Learning[1].(上交).pdf

kaiminghe论文： icml2016_tutorial_deep_residual_networks_kaiminghe

ICML_2019_Paper_Table.xlsx

无内鬼，来点ICML_ACL审稿人笑话.pdf

最新资源