"深入探讨Transformer在自然语言处理中的特征抽取优势与应用"

需积分: 0 31 浏览量更新于2024-04-02 收藏 2.26MB PDF 举报

本文讨论了自然语言处理中三大特征抽取器CNN、RNN和Transformer的比较。文章中指出，在NLP领域，Transformer逐步成为主流。文章将特征抽取器分为三类任务：文本分类、序列标注和句子关系判断，如Entailment、QA和语义分析。对于这三类任务，Transformer在处理长距离依赖和建模全局信息的能力上有明显优势。首先，对于文本分类任务，Transformer在处理长文本和建模全局信息方面表现出色。相比之下，CNN和RNN受限于固定长度的滑动窗口或隐藏状态传递的方式，不能有效处理长距离依赖和全局信息。Transformer利用了自注意力机制，能够同时关注输入序列中的所有位置，从而更好地捕捉文本之间的关联性和语义信息，因此在文本分类任务中取得了更好的效果。其次，对于序列标注任务，如命名实体识别和词性标注，Transformer同样展现出强大的特征抽取能力。传统的CNN和RNN模型通常需要通过窗口或顺序传递的方式来处理序列数据，难以有效捕捉全局信息和长距离依赖。而Transformer由于自注意力机制的存在，能够直接对整个序列进行建模，更好地理解序列中的词语之间的关系和上下文信息，从而提高序列标注任务的准确性和泛化能力。最后，对于句子关系判断任务，如Entailment和QA，Transformer同样具备优势。这类任务需要模型理解两个句子之间的语义关系和逻辑结构，而Transformer由于其全局建模和自注意力机制，在整体理解文本语义和逻辑关系方面有天然优势。相比之下，CNN和RNN在处理句子级任务时往往面临难以全面理解和建模文本之间关系的困境，因此Transformer在此类任务中有明显优势。综上所述，放弃幻想，全面拥抱Transformer已经成为自然语言处理领域的主流趋势。Transformer以其独特的自注意力机制和全局建模能力，在文本分类、序列标注和句子关系判断等多个任务中表现优异。未来随着Transformer模型的不断发展和优化，相信其在NLP领域的应用还将有很多新的突破和拓展。Transformers are the future of NLP! 【2000字】

2019/11/28 放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较 - 知乎

https://zhuanlan.zhihu.com/p/54743941?utm_source=wechat_session&utm_medium=social&utm_oi=739179029113884672 7/40

优势。这是个主要原因，老人如果干不过新人，又没有脱胎换骨自我革命的能力，自然要自觉或不

自愿地退出历史舞台，这是自然规律。至于RNN能力偏弱的具体证据，本文后面会专门谈，这里

不展开讲。当然，技术人员里的RNN保皇派们，这个群体规模应该还是相当大的，他们不会轻易

放弃曾经这么热门过的流量明星的，所以也想了或者正在想一些改进方法，试图给RNN延年益

寿。至于这些方法是什么，有没有作用，后面也陆续会谈。

另外一个严重阻碍RNN将来继续走红的问题是：RNN本身的序列依赖结构对于大规模并行计算来

说相当之不友好。通俗点说，就是RNN很难具备高效的并行计算能力，这个乍一看好像不是太大

的问题，其实问题很严重。如果你仅仅满足于通过改RNN发一篇论文，那么这确实不是大问题，

但是如果工业界进行技术选型的时候，在有快得多的模型可用的前提下，是不太可能选择那么慢的

模型的。一个没有实际落地应用支撑其存在价值的模型，其前景如何这个问题，估计用小脑思考也

能得出答案。

那问题来了：为什么RNN并行计算能力比较差？是什么原因造成的？

我们知道，RNN之所以是RNN，能将其和其它模型区分开的最典型标志是：T时刻隐层状态的计

算，依赖两个输入，一个是T时刻的句子输入单词Xt，这个不算特点，所有模型都要接收这个原始

输入；关键的是另外一个输入，T时刻的隐层状态St还依赖T-1时刻的隐层状态S(t-1)的输出，这是

最能体现RNN本质特征的一点，RNN的历史信息是通过这个信息传输渠道往后传输的，示意参考

上图。那么为什么RNN的并行计算能力不行呢？问题就出在这里。因为T时刻的计算依赖T-1时刻

的隐层计算结果，而T-1时刻的计算依赖T-2时刻的隐层计算结果……..这样就形成了所谓的序列依

首发于

深度学习前沿笔记

赞同 1.9K

2019/11/28 放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较 - 知乎

https://zhuanlan.zhihu.com/p/54743941?utm_source=wechat_session&utm_medium=social&utm_oi=739179029113884672 8/40

赖关系。就是说只能先把第1时间步的算完，才能算第2时间步的结果，这就造成了RNN在这个角

度上是无法并行计算的，只能老老实实地按着时间步一个单词一个单词往后走。

而CNN和Transformer就不存在这种序列依赖问题，所以对于这两者来说并行计算能力就不是问

题，每个时间步的操作可以并行一起计算。

那么能否针对性地对RNN改造一下，提升它的并行计算能力呢？如果可以的话，效果如何呢？下

面我们讨论一下这个问题。

如何改造RNN使其具备并行计算能力？

上面说过，RNN不能并行计算的症结所在，在于T时刻对T-1时刻计算结果的依赖，而这体现在隐

层之间的全连接网络上。既然症结在这里，那么要想解决问题，也得在这个环节下手才行。在这个

环节多做点什么事情能够增加RNN的并行计算能力呢？你可以想一想。

其实留给你的选项并不多，你可以有两个大的思路来改进：一种是仍然保留任意连续时间步（T-1

到T时刻）之间的隐层连接；而另外一种是部分地打断连续时间步（T-1到T时刻）之间的隐层连接

。

我们先来看第一种方法，现在我们的问题转化成了：我们仍然要保留任意连续时间步（T-1到T时

刻）之间的隐层连接，但是在这个前提下，我们还要能够做到并行计算，这怎么处理呢？因为只要

保留连续两个时间步的隐层连接，则意味着要计算T时刻的隐层结果，就需要T-1时刻隐层结果先

算完，这不又落入了序列依赖的陷阱里了吗？嗯，确实是这样，但是为什么一定要在不同时间步的

输入之间并行呢？没有人说RNN的并行计算一定发生在不同时间步上啊，你想想，隐层是不是也

是包含很多神经元？那么在隐层神经元之间并行计算行吗？如果你要是还没理解这是什么意思，那

请看下图。

首发于

深度学习前沿笔记

赞同 1.9K

剩余39页未读，继续阅读

袁大岛

粉丝: 40
资源: 305

"深入探讨Transformer在自然语言处理中的特征抽取优势与应用"

BERT中文预训练模型：chinese_L-12_H-768_A-12介绍

深入理解chinese_bert_wwm_L-12_H-768_A-12中文预训练模型

transformer_as_service-1.12.2-py3-whl文件下载与解压指南

rt-polarity.pos.zip_CNN训练数据集_RNN_RNN分类_rnn 分类_rt-polarity.pos

Last_Query_Transformer_RNN-PyTorch:在PyTorch中实施论文“用于知识跟踪的最新查询变压器RNN”。 （Kaggle第一名解决方案）

神经网络作业：公式识别，两种模型（CNN+RNN ResNet+Transformer）-深度学习.zip

Transformer：自然语言处理的变革者

GPT-4核心技术分析报告（2）——GPT-4的技术分析（收录于GPT-4_ChatGPT技术与产业分析） - 知乎.pdf

Python库 | tf_bind_transformer-0.0.46-py3-none-any.whl

深入探索Transformer：重塑自然语言处理的强大引擎.pdf

最新资源

Last_Query_Transformer_RNN-PyTorch:在PyTorch中实施论文“用于知识跟踪的最新查询变压器RNN”。（Kaggle第一名解决方案）