LSTM公式详解与推导

5星 · 超过95%的资源 需积分: 44 420 下载量 118 浏览量 更新于2024-09-09 8 收藏 131KB PDF 举报
"LSTM公式详细推导" LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN)结构,旨在解决传统RNN在处理长期依赖问题时的梯度消失和梯度爆炸问题。这篇文档详细介绍了LSTM的公式推导,包括前向传播和反向传播的过程。 在LSTM中,主要由四个核心部件组成:输入门(Input Gate)、遗忘门(Forget Gate)、细胞状态(Cell State)和输出门(Output Gate)。这些门控制着信息的流动和存储,使得模型能够有效地学习长期依赖关系。 1. **前向传播**: - **输入门**: 输入门负责决定新信息的流入。其激活值`at_ι`由输入数据`xt`、前一时刻的隐藏层状态`bt-1_h`以及上一时刻的细胞状态`st-1_c`通过权重`wiι`, `whι`和`wcι`加权求和后,通过激活函数f(通常为sigmoid函数)计算得出。 - **遗忘门**: 遗忘门决定哪些信息应该被丢弃。计算方式类似输入门,但使用不同的权重`wiϕ`, `whϕ`和`wcϕ`。 - **细胞状态**: 细胞状态`st_c`是LSTM的核心,存储长期信息。它由遗忘门控制的旧细胞状态和输入门控制的新信息组合而成,通过输入门的激活值`at_ι`和遗忘门的激活值`at_ϕ`,以及当前输入`g`(通常通过 tanh 激活函数处理的输入)计算得到。 - **输出门**: 输出门决定了当前时间步的细胞状态如何影响下一个时间步的隐藏层输出。输出门的激活值`at_ω`由输入数据、前一时刻的隐藏层状态和细胞状态通过权重计算,然后通过激活函数得出。 2. **反向传播**: 反向传播阶段,LSTM计算损失函数相对于所有参数的梯度,以便更新这些参数。这个过程涉及计算每个门的梯度,然后利用链式法则回溯到输入和细胞状态的梯度。 LSTM的反向传播计算相对复杂,涉及到每个门的误差项和细胞状态的梯度,需要对前向传播的每个步骤反向传播以更新权重。由于篇幅限制,反向传播的具体公式推导在此不详述,但通常涉及计算每个门的输入和输出的偏导数,以及细胞状态的偏导数。 LSTM的这种设计使得它在自然语言处理、语音识别和序列预测任务中表现出色,能够有效地处理长期依赖问题,避免了标准RNN可能出现的问题。由于其复杂的结构和参数,理解和正确实现LSTM的公式推导至关重要。