RNN进阶：解决梯度问题与LSTM、GRU的比较

9 浏览量更新于2024-08-30 收藏 322KB PDF 举报

循环神经网络（RNN）是深度学习领域中一种专门设计用于处理时序数据的神经网络模型，其在自然语言处理、机器翻译、情感分析等任务中发挥着核心作用。RNN的特点在于每个神经元不仅接收当前时间步的输入（Xt），还依赖于前一时刻的隐藏状态（Ht-1），通过这种方式保留了时间序列上的信息，形成所谓的“记忆”。然而，RNN在处理长序列时面临挑战，主要问题是梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）。梯度消失是指在网络向前传播过程中，由于反向传播的梯度不断被链式乘积，对于较早时间步的权重更新非常小，导致网络在训练长序列时难以学习到长期依赖关系。梯度爆炸则是梯度值过大，使得网络参数更新不稳定。为了解决这些问题，研究人员提出了长短期记忆网络（LSTM）和门控循环单元（GRU）。LSTM通过引入三个门控机制（输入门、遗忘门和输出门）来控制信息的流动，有效地解决了梯度消失问题，并能保持长期记忆。而GRU作为LSTM的简化版，虽然在结构上较为简洁，但它在实践中也表现出了良好的性能，特别是在计算效率上被认为优于LSTM。 LSTM的结构相比于标准RNN更为复杂，包括输入门、遗忘门和细胞状态（C），允许网络选择性地忘记或保留信息，从而更好地处理长序列。GRU则去掉了LSTM中的独立的细胞状态，只保留了两个门控机制，这使得模型计算更加高效。 RNN、LSTM和GRU都是为了克服传统RNN在处理时序数据中的局限，它们的发展反映了神经网络模型对解决实际问题不断优化的过程。理解并掌握这些循环神经网络的变种是深入学习人工智能和深度学习的重要环节，对于实际项目中的序列预测、文本生成等任务有着关键作用。

【人工智能学习】【十一】循环神经网络进阶【人工智能学习】【十一】循环神经网络进阶

RNN的问题的问题

RNN（Recurrent Neural Network，循环神经网络）主要应用在自然语言处理、机器翻译、情感分析、时序序列问题。这些的

功能的共同特点是具有时序性。卷积神经网络是没有记忆性的（我对这句话的理解是神经元之间没有信息传递，各个WWW矩

阵是独立计算的，当然不是说整个网络没有记忆，只是记忆是独立的），RNN通过神经元之间的信息传递保留了记忆（就是

一个state变量，加变量是为了增加模型的非线性表达能力加变量是为了增加模型的非线性表达能力），但在长序列，即长时间步的问题上，梯度消失会让网络变得不梯度消失会让网络变得不

可训练可训练。

Ht=f(XtWxh+Hh−1Whh+bh)H_t=f(X_tW_{xh}+H_{h-1}W_{hh}+b_h)Ht=f(XtWxh+Hh−1Whh+bh)

在【人工智能学习】【六】循环神经网络中介绍了RNN的结构，RNN需要按照时间序列进行展开可能导致梯度消失和梯度爆

炸的问题【人工智能学习】【八】梯度消失与梯度爆炸，梯度爆炸我们可以dropout，做正则化来解决。

长短期记忆网络（LSTM，Long Short-Term Memory）（1997年）和后来出现的GRU模型（2014年），都解决了梯度消失和

语义前后顺序的问题。这两者差不多，但是为啥又出现了了GRU，论文里说是它比LSTM好算。

LSTM

长短期记忆网络（LSTM，Long Short-Term Memory），RNN的变种。

上图对比RNN，似乎结构上差不多，但是里面多了很多东西。但是模型虽然复杂了，不要忘了诞生于1997年的LSTM是解决

了RNN的问题：梯度消失和长序列记忆（说白了就是和前面离得太远了，梯度传过来已经接近于0了）。所以这些结构看上去

应该是和梯度消失问题有关。

RNN的神经元节点上有两个输入：1、ttt时刻的输入XtX_tXt；2、t−1t-1t−1时刻的隐含层节点传过来的状态Ht−1H_{t-1}Ht−1。

状态状态C的引出的引出

现在得出一个很直观的结论：既然当前节点无法记忆到很长时间序列之前的信息，那么我再开辟一条通道，用来传递之前的信既然当前节点无法记忆到很长时间序列之前的信息，那么我再开辟一条通道，用来传递之前的信

息息。即在RNN上加上一条传送带（adding a carry track），这条传送带上有之前神经元节点的记忆信息Ct−1C_{t-1}Ct−1（C

是carry track里的C），这里的Ct−1C_{t-1}Ct−1尽管也是一个状态，好像和之前神经元节点的Ht−1H_{t-1}Ht−1（state）没什

么区别。但是RNN中的Ht−1H_{t-1}Ht−1是每次都会进行下面的计算来更新，并传递到下一个神经元节点。

Ht=f(XtWxh+Hh−1Whh+bh)H_t=f(X_tW_{xh}+H_{h-1}W_{hh}+b_h)Ht=f(XtWxh+Hh−1Whh+bh)

这里的这个Ct−1C_{t-1}Ct−1就不是这么计算的了，极端情况试想一下，Ct−1C_{t-1}Ct−1永远只参与Ht−1H_{t-1}Ht−1的计

算，但是自己永远不被计算，初始的C0C_{0}C0值会沿着这条carry track，从第一个节点传到最后一个节点，途中值是复制一

份自己来计算Ht−1H_{t-1}Ht−1的值。

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38666527

粉丝: 9
资源: 911

RNN进阶：解决梯度问题与LSTM、GRU的比较

复旦大学AI人工智能课程 机器学习课程 神经网络与深度学习 共208页.pptx

伯禹AI – task03 过拟合、欠拟合及其解决方案 -梯度消失与爆炸、循环神经网络进阶

深度学习与神经网络进阶

深度学习进阶：卷积神经网络与循环神经网络

人工智能项目资料-基于循环神经网络LSTM的单乐器AI作曲.zip

人工智能项目资料-基于卷积循环神经网络的数字识别.zip

神经网络技术深度学习：全面入门至进阶VIP资源

神经网络与深度学习：入门到进阶指南

理解GRU：门控循环神经网络在AI公益学习中的应用

【神经网络进阶秘籍】：揭秘反向传播算法及其优化技巧

最新资源

复旦大学AI人工智能课程机器学习课程神经网络与深度学习共208页.pptx