swin transformer做出的改动
时间: 2024-08-11 20:01:49 浏览: 87
Swin Transformer 实现图像分类
5星 · 资源好评率100%
Swin Transformer是一种基于Transformer架构的模型,它在处理图像数据上引入了一些关键的改动:
1. **空间自注意** (Spatial Self-Attention): 原始Transformer是全连接的,不适合处理局部依赖。Swin Transformer采用了局部窗口注意力机制,将图像划分为固定大小的窗口,每个窗口内的元素可以同时相互影响,窗口之间的信息则是通过跨窗机制传递,这提高了计算效率并降低了内存需求。
2. **局部特征融合** (Shifted Windows): Swin Transformer通过“滑动”窗口的方式进行计算,相邻窗口之间有部分重叠,这种设计保留了上下文信息,增强了对长距离依赖的理解。
3. **线性混合层** (Linear Mixing Layer): 代替全局下采样操作,使用线性混合层来进行特征融合,减少了参数量,提高了模型的轻量化能力。
4. **堆叠结构** (Hierarchical Architecture): Swin Transformer采用了一种层次化的结构,包括多个密集连接的Swin Transformer块,以及一个单独的下采样模块,使得模型能够捕获不同尺度的特征。
5. **权重共享** (Weight Sharing): Swin Transformer在不同分辨率的子区域内使用相同的网络参数,进一步节省了参数量。
这些改动使得Swin Transformer在保持Transformer优秀表示能力的同时,更适合于计算机视觉任务,并在图像分类、目标检测等任务上取得了显著性能提升。
阅读全文