Transformer解码器公式
时间: 2024-11-20 21:27:27 浏览: 13
Transformer解码器的核心部分是自注意力机制和前馈神经网络(Feedforward Network),它们一起构成了Decoder Block。每个Decoder Block通常包含两个子层:Multi-Head Self-Attention(MHA)和Position-wise Feedforward Network(FFN)。这里是一个简化的公式描述:
1. Multi-Head Attention (MHA):
- Query(Q): 来自上一层的解码器隐藏状态 \( \mathbf{H}^{\prime}_{i-1} \)
- Key(K), Value(V): 同样来自上一层的解码器隐藏状态 \( \mathbf{H}^{\prime}_{i-1} \)
- 自注意力得分:\( \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \)
- MHA结果:将多个注意力头的结果拼接并经过线性变换
2. Position-wise Feedforward Network (FFN):
- 输入:MHA后的结果 \( \mathbf{H}^{\prime}_{i} \)
- FFN内部有两层线性变换,第一层用于扩张维度(Linear_1),第二层用于压缩维度(Linear_2):
- 输出:\( \text{FFN}(\mathbf{H}^{\prime}_i) = \text{ReLU}(\text{Linear_1}(\mathbf{H}^{\prime}_i)) \cdot \text{Linear_2}(\mathbf{H}^{\prime}_i) \)
整个解码步骤可以概括为:
\[ \mathbf{H}_i = \text{DecoderBlock}(\mathbf{H}^{\prime}_{i-1}) = \text{MHA}(\mathbf{H}^{\prime}_{i-1}, \mathbf{H}^{\prime}_{i-1}, \mathbf{H}^{\prime}_{i-1}) + \mathbf{H}^{\prime}_{i-1} \]
\[ \mathbf{H}^{\prime}_i = \text{FFN}(\mathbf{H}_i) + \mathbf{H}_i \]
阅读全文