长短期记忆网络lstm图示
时间: 2025-01-03 12:40:29 浏览: 7
### LSTM神经网络结构图解
LSTM(Long Short-Term Memory Network),即长短时记忆网络,是一种特殊的循环神经网络(RNN),能够学习长期依赖关系。这种能力使得LSTM在网络处理序列数据方面表现出色。
#### 基本单元构成
LSTM的核心在于其独特的细胞状态以及三个门控机制——输入门、遗忘门和输出门。这些组件共同作用来决定哪些信息应该被保留或丢弃[^1]。
- **细胞状态**:贯穿整个链式的水平线表示的是细胞的状态$c_t$,它允许信息沿着时间轴流动而不受太多干扰。
- **遗忘门层**:决定了有多少来自上一时刻的记忆会被忘记掉。通过一个Sigmoid函数计算得到0到1之间的数值作为权重系数应用于旧的细胞状态上。
- **输入门层**:用于更新当前时刻的新候选值$\tilde{C}_t$;同样由两个部分组成,一个是sigmoid激活后的$h_{t−1}$乘以$x_t$的结果控制着新信息进入的程度;另一个则是tanh产生的可能加入的信息本身。
- **输出门层**:最终确定要输出的内容。先经过一层Sigmoid筛选出有用的部分再经Tanh压缩范围并加权求和得出最后结果$h_t$。
以下是简化版的LSTM单元内部运作流程:
```plaintext
ft = σ(Wf * [ht-1, xt] + bf) # 遗忘门
it = σ(Wi * [ht-1, xt] + bi) # 输入门
C~t= tanh(Wc*[ht−1 ,xt ]+bc ) # 新增候选集
ct = ft⊙ ct −1 + it ⊙ C ~ t # 更新细胞状态
ot = σ(Wo *[ ht −1 ,x t]+ bo ) # 输出门
ht = ot ∘ tanh(ct) # 当前隐藏状态
```
其中`σ`代表逻辑回归(Sigmoid)函数而`tanh`是非线性的双曲正切激活函数;符号`⊙`表示按位相乘操作。
#### 架构可视化
为了更直观理解上述过程,下面给出一张典型的LSTM架构示意图:
![LSTM Architecture](https://miro.medium.com/max/700/1*ZwJjzX9QVHkUW8bFgYpG_g.png)
此图为标准形式下的单个LSTM cell展开视图,在实际应用中多个这样的cell会串联起来形成完整的模型结构[^2]。
阅读全文