swin transformer涉及到的公式
时间: 2024-08-21 13:02:21 浏览: 77
Swin Transformer 实现图像分类
5星 · 资源好评率100%
Swin Transformer是一种基于Transformer架构的模型,它在传统的自注意力机制中引入了空间局部性和层次结构,以提高计算效率并解决大分辨率输入的问题。核心组件包括窗口内注意力(Windowed Self-Attention)和跨窗口注意力(Cross-Window Attention),以及一种新颖的划分策略(Shifted Windows)。
1. 窗口内注意力(Window-based Attention):
这里注意力仅在每个小窗口(window)内部计算,而不是在整个特征图上。其公式可以简化为标准的注意力机制,但它只考虑了局部的信息:
\[
Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V
\]
其中 \( Q \), \( K \), 和 \( V \) 分别是查询、键和值矩阵,\( d_k \) 是键向量的维度。
2. 跨窗口注意力(Cross-Window Attention):
为了融合来自不同窗口的信息,Swin Transformer设计了一种交替进行窗口内注意力和跨窗口注意力的方式。跨窗口注意力相当于将窗口内的注意力视为查询,其他窗口作为键和值,这样信息可以在更大的范围内流动:
\[
CrossAttention(Q, K', V') = softmax\left(\frac{QK'^T}{\sqrt{d_k}}\right)V'
\]
3. Shifted Windows:
通过将窗口左移一部分,避免了直接相邻窗口间的冗余计算,减少了计算复杂度,并有助于更好地学习长距离依赖。
阅读全文