SE注意力机制的数学原理
时间: 2024-06-17 09:01:44 浏览: 202
基于Python和tensorflow图像注意力机制实现各种图像注意力模块(源码).rar
5星 · 资源好评率100%
自注意力(Self-Attention)机制是Transformer模型的核心组成部分,由Vaswani等人在2017年的论文《Attention is All You Need》中首次提出,主要用于处理序列数据,如自然语言。它借鉴了人类处理信息的方式,即在处理当前单词时,会同时考虑序列中的所有其他单词。
数学上,自注意力机制的基本步骤包括:
1. **Query Key Value(查询-键-值)映射**:对于每个输入位置的单词(或特征向量),我们生成三个向量,分别是Query(Q)、Key(K)和Value(V)。通常,这一步使用线性变换(矩阵乘法)完成,每个词的表示被投影到不同的空间。
\[ Q = W_Q \cdot X, \quad K = W_K \cdot X, \quad V = W_V \cdot X \]
其中,\( W_Q \), \( W_K \) 和 \( W_V \) 是权重矩阵,\( X \) 是输入的序列向量。
2. **相似度计算**:用Query向量与所有的Key向量做点积,然后取softmax(通常是逐行 softmax)来计算注意力得分,反映了Query对应于每个Key的重要性。
\[ Attention(\text{query}, \text{key}) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}}) \]
3. **加权求和**:将每个Value向量乘以其对应的注意力得分,得到加权后的结果。
\[ Attention\_Output = Attention \cdot V \]
4. **残差连接和层归一化**:最后,将这个加权求和的结果与原始输入通过残差连接(Residual Connection)连接,并通过层归一化(Layer Normalization)来优化学习过程。
阅读全文