Swin transformer
Swin Transformer 是一种层次化视觉 Transformer 模型,旨在解决将 Transformer 模型从语言领域应用到计算机视觉领域所面临的挑战,如视觉实体的度变化和像素分辨率高于文本中的单词等问题。该模型具有灵活性,可以在不同尺度下进行建模,并且与广泛的视觉任务兼容,包括图像、目标检测和语义分割等。 知识点一:Hierarchical Vision Transformer Swin Transformer 的主要贡献是引入了 Hierarchical Vision Transformer 结构,该结构可以在不同尺度下进行建模,并且与广泛的视觉任务兼容。该结构包括 Patch Partition、Patch Merging、Layer l 层和 LayerNorm 层等模块。 知识点二:Shifted Windows Multi-Head Self-Attention(SW-MSA) SW-MSA 模块是 Swin Transformer 的核心组件之一,旨在解决 W-MSA 模块中的信息传递问题。SW-MSA 模块通过偏移窗口(Windows)来进行自注意力计算,解决了 W-MSA 模块中的信息传递问题。 知识点三:Patch Merging 层 Patch Merging 层是 Swin Transformer 中的一个关键组件,该层通过将输入的 RGB 图像分割成不重叠的 patch,并将每个 patch 的特征设置为原始像素 RGB 值的串联。该层可以在每个 Stage 中进行下采样,并且可以将 feature map 的深度由 C 变成 C/2。 知识点四:Layer l 层 Layer l 层是 Swin Transformer 中的一个核心组件,该层包括 W-MSA 模块和 SW-MSA 模块。W-MSA 模块只会在每个窗口内进行自注意力计算,而 SW-MSA 模块可以解决 W-MSA 模块中的信息传递问题。 知识点五:Cyclic Shift Cyclic Shift 是 Swin Transformer 中的一个关键技术,该技术可以解决窗口数量的问题。通过循环移位后再进行分割,可以使窗口数量保持一致。 知识点六:Relative Position Bias Table Relative Position Bias Table 是 Swin Transformer 中的一个关键组件,该表可以存储相对位置偏执参数 B,该参数可以根据相对位置索引表进行查找。 知识点七:实验结果 实验结果表明,Swin Transformer 模型在三个基准上对移位窗口方法和不同位置嵌入方法的消融研究中具有较好的性能。 Swin Transformer 是一种具有灵活性和高效性的视觉 Transformer 模型,可以应用于广泛的视觉任务中。