循环神经网络出现梯度消失现象的推导公式

循环神经网络（RNN）中的梯度消失问题是由于反向传播算法中的链式法则导致的。如果在RNN中使用标准的反向传播算法，每个时间步的梯度将乘以一个矩阵，这个矩阵也就是RNN的权重矩阵。如果这个权重矩阵的所有特征值都小于1，那么在反向传播中，梯度会在时间步骤中指数级地减小，这就是所谓的梯度消失问题。具体地，我们可以考虑一个时间步骤为t的RNN单元，其输入为$x_t$，输出为$h_t$，权重矩阵为$W$，激活函数为$f$。假设我们的目标是最小化损失函数$L$，则RNN的参数可以通过反向传播算法来更新。对于第$t$个时间步骤的参数更新，我们需要计算$L$对$h_t$的梯度，即$\frac{\partial L}{\partial h_t}$。由于$h_t$同时影响到后续时间步骤的输出，我们还需要计算$L$对后续时间步骤的$h_{t+1}, h_{t+2}, ...$的梯度，即$\frac{\partial L}{\partial h_{t+i}}$。根据链式法则，$\frac{\partial L}{\partial h_{t+i}}$可以表示为： $$ \frac{\partial L}{\partial h_{t+i}} = \frac{\partial L}{\partial h_{t+i-1}} \frac{\partial h_{t+i-1}}{\partial h_{t+i}} = \frac{\partial L}{\partial h_{t+i-1}} W $$ 其中，$\frac{\partial h_{t+i-1}}{\partial h_{t+i}}$就是RNN的权重矩阵$W$。因此，我们可以得到： $$ \frac{\partial L}{\partial h_t} = \sum_{i=t}^{T} \frac{\partial L}{\partial h_i} \frac{\partial h_i}{\partial h_t} = \sum_{i=t}^{T} \frac{\partial L}{\partial h_i} \prod_{j=t+1}^{i} W $$ 其中，$T$是序列的长度。从上面的公式可以看出，如果矩阵$W$的所有特征值都小于1，那么在求解$\frac{\partial L}{\partial h_t}$时，梯度会在每个时间步骤中指数级地减小，从而导致梯度消失问题。

循环神经网络出现梯度消失现象的推导公式

相关推荐

神经网络梯度推导1

神经网络的公式推导，涉及目标函数，梯度下降

神经网络之解决梯度消失或爆炸.pdf

人工神经网络的层数增加会出现梯度消失现象

循环神经网络计算梯度的方法

神经网络中梯度消失和梯度爆炸

人工神经网络的层数增加会出现梯度消失现象，其本质原因是

神经网络梯度消失解决办法

循环神经网络中的梯度

残差神经网络 梯度消失

bp神经网络推导公式

卷积神经网络的adam算法推导公式

用数学公式解释RNN中的梯度消失现象

神经网络的梯度消失和过拟合是什么意思

gru神经网络梯度计算公式

如何使用残差网络缓解浅层卷积神经网络的梯度消失问题？

BP神经网络公式推导（含代码）

推导一下神经网络的所有公式

长短时记忆神经网络(lstm)介绍及公式推导

最新推荐

深度学习（三）————过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

稀疏编码公式推导：LASSO，ISTA，近端梯度优化，软阈值

第四章神经网络的学习算法——随机梯度下降numpy代码详解

神经网络梯度更新优化器详解笔记.docx

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

用matlab绘制高斯色噪声情况下的频率估计CRLB，其中w(n)是零均值高斯色噪声，w(n)=0.8*w(n-1)+e(n)，e(n)服从零均值方差为se的高斯分布

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

残差神经网络梯度消失