多头注意力机制和自注意机制分别公式
时间: 2023-12-03 08:25:05 浏览: 109
基于多头注意力机制的房颤检测方法
5星 · 资源好评率100%
多头注意力机制公式:
$$\text{MultiHead}(Q, K, V) = \text{Concat}(head_1, head_2, ..., head_h)W^O$$
其中,$h$ 表示头的数量,$head_i$ 为第 $i$ 个头的注意力计算结果,$W^O$ 是输出矩阵,$\text{Concat}$ 表示将所有头的注意力结果拼接在一起。
每个头的注意力计算公式为:
$$head_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$$
其中,$W_i^Q$,$W_i^K$,$W_i^V$ 是将输入 $Q$,$K$,$V$ 投影到第 $i$ 个头的 $Q$,$K$,$V$ 投影矩阵,$\text{Attention}$ 表示单独计算每个头的注意力。
自注意力机制公式:
$$\text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V$$
其中,$Q$,$K$,$V$ 分别表示查询(query)、键(key)、值(value)的输入向量,$d_k$ 是键向量的维度,$\text{softmax}$ 表示对注意力权重进行归一化处理。
阅读全文