Transformer的崛起：NLP领域的未来趋势分析

需积分: 9 126 浏览量更新于2024-07-17 收藏 6.59MB PDF 举报

"全面拥抱Transformer，探讨NLP领域中CNN、RNN与Transformer的演变与前景" 在自然语言处理（NLP）领域，模型架构的更新迭代不断推动技术的进步。2018年，Transformer模型的出现，尤其以BERT为代表的预训练模型，极大地提升了NLP任务的性能。Transformer以其独特的自注意力机制，有效解决了RNN（循环神经网络）在处理长序列时的计算效率问题，以及CNN（卷积神经网络）在捕捉全局依赖关系上的局限性。 RNN在过去一段时间内是NLP中的重要特征抽取器，因其在处理序列数据时能够捕获时间依赖性而备受青睐。然而，RNN在处理长距离依赖时存在梯度消失或爆炸的问题，这限制了其在某些复杂任务上的表现。随着Transformer的崛起，RNN的地位逐渐被替代，因为Transformer通过自注意力机制可以在并行计算中处理全局依赖，显著提高了计算效率。 CNN在图像处理领域有着显著成就，但在NLP中，尽管其能有效捕捉局部特征，但对长距离依赖的处理能力相对较弱。尽管如此，通过改进和创新，如使用更深层次的残差网络和多尺度卷积，CNN仍有可能在某些特定NLP任务中发挥作用，但其成为主流特征抽取器的可能性相对较小。 Transformer模型的崛起在于其高效、并行的处理方式以及强大的建模能力。自注意力层使得Transformer能够在处理任意长度的输入时，同时考虑所有位置的信息，这对于理解和生成复杂的语言结构至关重要。此外，Transformer的预训练-微调范式，如BERT，已经在众多NLP任务上取得了前所未有的效果，这进一步巩固了其在NLP领域的核心地位。未来，Transformer可能会继续演化和发展，适应更多类型的NLP任务。比如，针对低资源语言学习，或者将Transformer应用于语音识别、机器翻译等领域。同时，研究者们也在探索Transformer的变体，以减少计算复杂度，提高效率，例如使用更轻量级的头部设计和动态卷积等。 NLP领域的特征抽取器经历了从RNN到CNN再到Transformer的转变，Transformer凭借其优势正逐步成为主流。RNN的角色逐渐淡化，CNN则可能在特定场景下保持一定影响力，而Transformer及其后续发展将是推动NLP技术前进的关键力量。

2019/3/26 Evernote Export

file:///C:/Users/chenghd/Desktop/%E6%94%BE%E5%BC%83%E5%B9%BB%E6%83%B3%EF%BC%8C%E5%85%A8%E9%9D%A2%E6%8B

…

5/26

上述内容简单介绍了RNN在NLP领域的大致技术演进过程。那么为什么RNN能够这么快

在NLP流行并且占据了主导地位呢？主要原因还是因为RNN的结构天然适配解决NLP的

问题，NLP的输入往往是个不定长的线性序列句子，而RNN本身结构就是个可以接纳

不定长输入的由前向后进行信息线性传导的网络结构，而在LSTM引入三个门后，对

于捕获长距离特征也是非常有效的。所以RNN特别适合NLP这种线形序列应用场景，

这是RNN为何在NLP界如此流行的根本原因。

RNN

在

新时

代

面

临

的

两个严

重

问

题

RNN在NLP界一直红了很多年（2014-2018？），在2018年之前，大部分各个子领域的

State of Art的结果都是RNN获得的。但是最近一年来，眼看着RNN的领袖群伦的地

位正在被动摇，所谓各领风骚3-5年，看来网红模型也不例外。

那这又是因为什么呢？主要有两个原因。

第一个原因在于一些后起之秀新模型的崛起，比如经过特殊改造的CNN模型，以及最

近特别流行的Transformer，这些后起之秀尤其是Transformer的应用效果相比RNN来

说，目前看具有明显的优势。这是个主要原因，老人如果干不过新人，又没有脱胎

换骨自我革命的能力，自然要自觉或不自愿地退出历史舞台，这是自然规律。至于

RNN能力偏弱的具体证据，本文后面会专门谈，这里不展开讲。当然，技术人员里的

RNN保皇派们，这个群体规模应该还是相当大的，他们不会轻易放弃曾经这么热门过

的流量明星的，所以也想了或者正在想一些改进方法，试图给RNN延年益寿。至于这

些方法是什么，有没有作用，后面也陆续会谈。

另外一个严重阻碍RNN将来继续走红的问题是：RNN本身的序列依赖结构对于大规模

并行计算来说相当之不友好。通俗点说，就是RNN很难具备高效的并行计算能力，这

个乍一看好像不是太大的问题，其实问题很严重。如果你仅仅满足于通过改RNN发一

篇论文，那么这确实不是大问题，但是如果工业界进行技术选型的时候，在有快得

多的模型可用的前提下，是不太可能选择那么慢的模型的。一个没有实际落地应用

支撑其存在价值的模型，其前景如何这个问题，估计用小脑思考也能得出答案。

那问题来了：为什么RNN并行计算能力比较差？是什么原因造成的？

我们知道，RNN之所以是RNN，能将其和其它模型区分开的最典型标志是：T时刻隐层

状态的计算，依赖两个输入，一个是T时刻的句子输入单词Xt，这个不算特点，所有

2019/3/26 Evernote Export

file:///C:/Users/chenghd/Desktop/%E6%94%BE%E5%BC%83%E5%B9%BB%E6%83%B3%EF%BC%8C%E5%85%A8%E9%9D%A2%E6%8B

…

6/26

模型都要接收这个原始输入；关键的是另外一个输入，T时刻的隐层状态St还依赖T-

1时刻的隐层状态S(t-1)的输出，这是最能体现RNN本质特征的一点，RNN的历史信息

是通过这个信息传输渠道往后传输的，示意参考上图。那么为什么RNN的并行计算能

力不行呢？问题就出在这里。因为T时刻的计算依赖T-1时刻的隐层计算结果，而T-1

时刻的计算依赖T-2时刻的隐层计算结果……..这样就形成了所谓的序列依赖关系。

就是说只能先把第1时间步的算完，才能算第2时间步的结果，这就造成了RNN在这个

角度上是无法并行计算的，只能老老实实地按着时间步一个单词一个单词往后走。

而CNN和Transformer就不存在这种序列依赖问题，所以对于这两者来说并行计算能

力就不是问题，每个时间步的操作可以并行一起计算。

那么能否针对性地对RNN改造一下，提升它的并行计算能力呢？如果可以的话，效果

如何呢？下面我们讨论一下这个问题。

如

何

改

造

RNN

使

其具

备

并

行

计

算

能

力

？

上面说过，RNN不能并行计算的症结所在，在于T时刻对T-1时刻计算结果的依赖，而

这体现在隐层之间的全连接网络上。既然症结在这里，那么要想解决问题，也得在

这个环节下手才行。在这个环节多做点什么事情能够增加RNN的并行计算能力呢？你

可以想一想。

其实留给你的选项并不多，你可以有两个大的思路来改进：一种是仍然保留任意连

续时间步（T-1到T时刻）之间的隐层连接；而另外一种是部分地打断连续时间步

（T-1到T时刻）之间的隐层连接。

我们先来看第一种方法，现在我们的问题转化成了：我们仍然要保留任意连续时间

步（T-1到T时刻）之间的隐层连接，但是在这个前提下，我们还要能够做到并行计

算，这怎么处理呢？因为只要保留连续两个时间步的隐层连接，则意味着要计算T时

刻的隐层结果，就需要T-1时刻隐层结果先算完，这不又落入了序列依赖的陷阱里了

吗？嗯，确实是这样，但是为什么一定要在不同时间步的输入之间并行呢？没有人

说RNN的并行计算一定发生在不同时间步上啊，你想想，隐层是不是也是包含很多神

经元？那么在隐层神经元之间并行计算行吗？如果你要是还没理解这是什么意思，

那请看下图。

上面的图只显示了各个时间步的隐层节点，每个时间步的隐层包含3个神经元，这是

个俯视图，是从上往下看RNN的隐层节点的。另外，连续两个时间步的隐层神经元之

剩余25页未读，继续阅读

RobinQueue

粉丝: 2

Transformer的崛起：NLP领域的未来趋势分析

"深入探讨Transformer在自然语言处理中的特征抽取优势与应用

SwinTransformer：计算机视觉中的通用模型与拥抱Transformer的五大理由

深度学习与自然语言处理：2018年技术进展综述

放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN_RNN_TF）比较 - 知乎1

传媒行业周报：全面拥抱AIGC+，布局游戏、电商、教育核心标的.pdf

智行千里：汽车行业全面拥抱AI智能化时代-亚马逊云科技&凯捷咨询-2023-137页(1).zip

迁移学习模型评估：全面比较与选择最佳方法

深度学习指南：全面解析Transformer模型

人脸识别_深度学习_CNN_表情分析系统_1741778057.zip

Hono框架下基于TypeScript的Web应用构建指南：从项目初始化到模块全面实现（可复现，有问题请联系博主）

最新资源