Bi-LSTM结构图
时间: 2024-12-26 15:12:51 浏览: 4
### Bi-LSTM 架构详解
Bi-LSTM(双向长短期记忆网络)通过组合两个方向上的LSTM来处理序列数据,从而能够同时获取正向和反向的信息流。这种设计使得模型可以在任意给定的时间点上利用过去和未来的信息[^2]。
#### 双向机制的工作原理
在一个标准的单向LSTM中,信息仅沿单一时间轴流动——从前向后。然而,在Bi-LSTM里,存在两条并行路径:
- **前向LSTM**:按照正常的时间顺序读取输入序列;
- **反向LSTM**:逆序读取同一输入序列;
这两条路径分别独立运作,并最终将各自的隐藏状态输出进行拼接作为该时刻的整体表示[^3]。
#### 输入与输出特征
对于每一个时间步\( t \),假设输入是一个大小为512维的列向量 \( X_t \)。经过一层Bi-LSTM之后,由于有两个不同方向上传播得到的状态被连接在一起,因此如果设定隐含层尺寸为`hidden_size`,那么实际产生的输出将是两倍于此值,即 `2 * hidden_size` 维度的数据。
#### 结构示意
下面给出的是简化版Bi-LSTM架构的文字描述及其工作流程:
1. 前向传播过程中,来自左侧的第一个单词开始逐个传递直到最后一个单词结束。
2. 后向传播则相反,从右侧第一个单词(实际上是整个句子中的最后一个词)依次向前推进至最左边的那个词为止。
3. 对于任一特定位置而言,它既接收到来自其之前所有节点的影响同时也受到后续各结点作用力的影响。
4. 最终每个时间戳处都会产生一对前后相联的记忆单元输出,这些输出会被串联成一个新的更高维度向量用于下一步骤的任务执行或是进一步传入下一层神经元继续加工处理。
```plaintext
Input Sequence: W1 -> W2 -> ... -> Wi -> ... -> Wn
Forward LSTM: h1f -> h2f -> ... -> hif -> ... -> hnf
Backward LSTM: hnb <- hn-1b<-...<-hib <-...<-h1b
Concatenated Output:[hi_combined]=[hif;hib]
```
其中,“->” 表示前向传输过程而 “<-” 则代表了对应的逆向操作。“Wi” 是指第 i 个词语,“hxf” 和 “hyb” 分别对应着前向及后向 LSTMs 的内部状态变量。
阅读全文