Transformer Decoder 公式?
时间: 2023-10-14 08:03:34 浏览: 195
transformer教程.docx
Transformer Decoder 的公式如下:
$$
\begin{aligned}
\text{MultiHead}(Q,K,V)&=\text{Concat}(head_1,\dots,head_h)W^O \\
\text{where } head_i&=\text{Attention}(QW_i^Q,KW_i^K,VW_i^V) \\
\text{Attention}(Q,K,V)&=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \\
z&=\text{LayerNorm}(x+\text{Dropout}(\text{MultiHead}(x,x,x))) \\
y&=\text{LayerNorm}(z+\text{Dropout}(\text{FFN}(z))) \\
\end{aligned}
$$
其中,$Q, K, V$ 分别为查询(Query)、键(Key)、值(Value) 的向量表示,$d_k$ 为 $K$ 的维度,$W_i^Q, W_i^K, W_i^V$ 分别为第 $i$ 个头的查询、键、值映射矩阵,$W^O$ 为拼接后的向量再次映射的矩阵,$\text{softmax}$ 是 softmax 函数,$x$ 为输入的向量,$z$ 为经过多头注意力后的向量,$y$ 为经过全连接层后的向量,$\text{LayerNorm}$ 是层归一化操作,$\text{Dropout}$ 是 dropout 操作,$\text{FFN}$ 为全连接层。
阅读全文