基于平移窗口的分层视觉Transformer：SwinTransformer

4 浏览量更新于2023-10-14 收藏 933KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Swin Transformer：基于平移窗口的分层视觉Transformer刘泽1、2 †*林宇彤1、3 †*曹越1*韩虎1*‡魏逸轩1、4 †张征1林昊1郭柏宁11微软亚洲研究院2中国科学技术大学3西安交通大学4清华大学{v-zeliu1，v-yutlin，yuecao，hanhu，v-yixwe，zhez，stevelin，bainguo} @ microsoft.com摘要本文提出了一种新的视觉Transformer，称为Swin变压器，能够作为一个通用的骨干计算机视觉。将Transformer从语言应用到视觉的挑战来自于两个领域之间的差异，例如视觉实体的规模变化很大，像素的分辨率很高与文字相比，图像中的文字。为了解决这些差异，我们提出了一个分层的Transformer，其表示计算与S移位窗口。移位加窗方案通过将自注意力计算限制到非重叠局部窗口同时还允许跨窗口连接来带来更高的效率。这种分层架构具有在各种尺度下建模的灵活性，并且具有相对于图像大小的线性计算复杂性。Swin Trans- former的这些特性使其与广泛的视觉任务兼容，包括图像分类（ImageNet-1 K上的87.3 top-1精度）和密集预测任务，如对象检测（COCO test-dev 上的 58.7 box AP 和 51.1 mask AP ）和语义分割（ADE 20 K val上的53.5 mIoU）。它的性能超过了之前的最先进水平，在COCO上为+2.7盒AP和+2.6掩模AP ，在 ADE20K 上为+3.2 mIoU ，证明了基于Transformer的模型作为视觉骨干的分层设计和移位窗口方法也证明有利于所有MLP架构。代码和模型可在https：//github上公开获取。com/microsoft/Swin-Transformer.1. 介绍计算机视觉建模长期以来一直由卷积神经网络（CNN）主导。从AlexNet [35]及其在ImageNet图像分类挑战中的革命性性能开始，CNN architec-*同等贡献。†MSRA实习生。‡联系人。图1. （a）所提出的Swin Transformer通过合并较深层中的图像块（以灰色示出）来构建分层特征图因此，它可以作为一个通用的骨干图像分类和密集的识别任务。(b)相比之下，先前的视觉变换器[19]产生单个低分辨率的特征图，并且由于全局自注意力的计算而对输入图像大小具有二次计算复杂度。tures已经发展成为越来越强大，通过更大的规模[27，69]，更广泛的连接[31]，和更复杂的卷积形式[64，17，75]。随着CNN作为各种视觉任务的骨干网络，这些架构上的进步导致了性能的提高，从而广泛提升了整个领域。另一方面，自然语言处理（NLP）中的网络架构的发展已经走上了一条不同的道路，今天流行的架构是Transformer [58]。Transformer专为序列建模和转换任务而设计，它以其对数据中的长期依赖性建模而闻名。它在语言领域的巨大成功促使研究人员研究其对计算机视觉的适应性，其中它最近在某些任务上表现出有希望的结果，特别是图像分类[19]和联合视觉语言建模[43]。10012210013在本文中，我们试图扩展Transformer的适用性，使其可以作为计算机视觉的通用骨干，就像NLP和就像CNN在视觉中所做的那样。我们观察到，将其在语言领域的高性能转移到视觉领域的重大挑战可以通过两种模式之间的差异来解释。这些差异之一涉及规模。与作为语言转换器中处理的基本元素的单词标记不同，视觉元素在规模上可以有很大的不同，这是一个在诸如对象检测等任务中受到关注的问题[38，49，50]。在现有的基于变换器的模型[58，19]中，令牌都具有固定的规模，这是不适合这些视觉应用的属性。另一个区别是图像中像素的分辨率比文本段落中的单词高得多。存在许多视觉任务，例如语义分割，其需要像素级的密集预测，并且这对于高分辨率图像上的Transformer来说将是棘手的，因为其自我关注的计算复杂度是图像大小的二次方。为了克服这些问题，我们提出了一个通用的 Transformer 骨干，称为 SwinTransformer，它构造分层特征映射，并具有线性计算复杂度的图像大小。如图 1 （ a ）所示， SwinTransformer通过从小尺寸的补丁（以灰色轮廓）开始并逐渐合并更深Transformer层中的相邻补丁来构建分层表示通过这些分层特征图，Swin Transformer模型可以方便地利用先进的密集预测技术，例如特征金字塔网络（FPN）[38]或U-Net [47]。线性计算复杂度是通过在划分图像的非重叠窗口（红色轮廓）内局部计算自注意力来实现的每个窗口中的补丁的数量是固定的，因此复杂度与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用骨干，与以前的基于Transformer的架构[19]形成对比，后者产生单一分辨率的特征图并具有二次复杂性。Swin Transformer的一个关键设计元素是在连续的自关注层之间转换窗口分区，如图2所示。移位的窗口桥接前一层的窗口，提供它们之间的连接，从而显著增强建模能力（参见表4）。该策略在现实世界延迟方面也是有效的：窗口内的所有查询补丁共享相同的密钥集1，这便于硬件中的存储器访问。相比之下，早期的基于滑动窗口的图2. 在建议的Swin Transformer架构中计算自注意力的移位窗口方法的说明。在层1（左）中，采用常规窗口划分方案，并且在每个窗口内计算自注意。在下一层1+ 1（右）中，窗口分割被移位，从而产生新的窗口。新窗口中的自注意计算跨越层1中的先前窗口的边界，从而提供它们之间的连接。查询像素2.我们的实验表明，所提出的移位窗口方法具有比滑动窗口方法低得多的延迟，但在建模能力方面相似（参见表5和表6）。移位窗口方法也证明对全MLP架构有益[56]。所提出的Swin Transformer在图像分类、对象检测和语义分割等识别任务上具有很强的性能。它显著优于ViT/DeiT [19，57]和ResNe（X）t模型[27，64]，在三个任务上具有相似的延迟。其在COCO测试开发集上的58.7框AP和51.1掩模AP超过了之前的最新结果，分别为+2.7框AP（无外部数据的复制-粘贴[23]）和+2.6掩模AP（DetectoRS [42]）。在ADE20K语义分割上，它在val集上获得了53.5 mIoU，比之前的最新技术水平（SETR [73]）提高了+3.2 mIoU。它还在ImageNet-1 K图像分类中达到了87.3%的前1准确率我们相信，跨计算机视觉和自然语言处理的统一架构可以使这两个领域受益，因为它将促进视觉和文本信号的联合建模，并且可以更深入地共享来自这两个领域的建模知识。我们希望Swin Transformer2. 相关工作CNN及其变体是整个计算机视觉的标准网络模型。虽然CNN已经存在了几十年[36]，但直到AlexNet的引入[35]，CNN才起飞并成为主流。从那时起，更深入、更有效的……自我注意方法[30，46]具有低延迟在一般硬件上，由于不同的密钥集1查询和关键字是自我关注层中的投影向量2虽然存在在通用硬件上实现基于滑动窗口的卷积层的有效方法，但由于其跨特征图共享内核权重，基于滑动窗口的自注意力层在实践中难以具有有效的存储器访问。210014×× ××个×个×× ×4488×个已经提出了演化神经体系结构以进一步推动计算机视觉中的深度学习浪潮，例如，VGG [48]、GoogleNet[53] 、 ResNet [27] 、 DenseNet [31] 、 HRNet [59] 和EfficientNet [54]。除了这些架构上的进步之外，还有很多关于改进单个卷积层的工作，例如深度卷积[64]和可变形卷积[17，75]。虽然CNN及其变体仍然是计算机视觉应用的主要骨干架构，但我们强调了类似Transformer的架构在视觉和语言之间统一建模的强大潜力。我们的工作在几个基本的视觉识别任务上取得了很好的性能，我们希望它将有助于建模的转变。基于自注意力的骨干架构也受到NLP领域中自注意力层和变换器架构的成功的启发，一些作品采用自注意力层来替换流行的ResNet中的一些或全部空间卷积层[30，46，72]。在这些工作中，在每个像素的局部窗口内计算自注意力以加速优化[30]，并且它们实现了比相对部分ResNet架构稍好的精度/FLOP权衡。然而，它们昂贵的存储器访问导致它们的实际延迟明显大于卷积网络[30]。而不是使用，ING滑动窗口，我们建议转移窗口之间的连续层，这使得一个更有效的实现，在一般硬件。自我关注/变压器来补充CNN另一项工作是用自我关注层或变压器来增强标准CNN架构。自我注意层可以补充骨干[61，7，3，65，66]。21，68，51]或头部网络[29，24]，通过提供对远距离依赖性或异构交互进行编码的能力。最近，Transformer中的编码器-解码器设计已被应用于对象检测和实例分割任务[8，13，76，52]。我们的工作explores适应变形金刚的基本视觉特征提取，是这些作品的补充。与我们的工作最相关的是Vision Transformer（ViT）[19]及其后续工作[57，66，15，25，60]。ViT的开创性工作直接将Transformer架构应用于非重叠的中等大小图像块，用于图像分类。与卷积网络相比，它在图像分类上实现了令人印象深刻的速度-准确性权衡。虽然ViT需要大规模训练数据集（即，JFT-300 M）表现良好，DeiT [57]引入了几种培训策略，使ViT也有效在图像分类上的应用是令人鼓舞的，但是由于其低分辨率特征图和复杂性随图像大小的二次增加，其架构不适合用作密集视觉任务上的通用骨干网络或者当输入图像分辨率高时。有一些作品通过直接上采样或去卷积将ViT模型应用于对象检测和语义分割的密集视觉任务，但性能相对较低[2，73]。与我们的工作并行的是一些修改ViT架构[66，15，25]以更好的图像分类。从经验上讲，我们发现我们的Swin Transformer架构，以实现最佳的速度-准确性权衡这些方法之间的图像classi- fication，即使我们的工作重点是通用性能，而不是专门的分类。另一个并行工作[60]探索了类似的思路，以在变换器上构建多分辨率特征图。其复杂性仍然是图像大小的二次方，而我们的复杂性是线性的，并且还在局部操作，这已被证明有利于对视觉信号中的高相关性进行建模[32，22，37]。我们的方法既高效又有效，在COCO对象检测和ADE20K语义分割方面都达到了最先进的精度。3. 方法3.1. 整体架构Swin Transformer架构的概述如图3所示，其中说明了微型版本（Swin- T）。它首先通过像ViT这样的块分割模块每个块被视为在我们的实现中，我们使用4 4的补丁大小，因此每个补丁的特征维度是4 4 3 = 48。线性嵌入层应用于该原始值特征以将其投影到任意维度（表示为C）。在这些补丁令牌上应用了几个具有修改的自我注意计算的 Transformer 块（ Swin Transformer 块）Transformer块保持令牌的数量（Hff），并且与线性嵌入一起被称为为了产生分层表示，随着网络变得更深，通过补丁合并层来减少令牌的数量。第一片合并层连接每组2个相邻片的特征，并在4个C维连接特征上应用线性层。这将令牌的数量减少了22 = 4的倍数（分辨率的2个下采样），并且输出维度被设置为2C.然后应用SwinTransformer块进行特征变换，其分辨率保持在H×W。这第一块补丁合并使用较小的ImageNet-1 K数据集。 ViT和特征变换的结果被表示为亲-210015163232×× ××个.. ΣΣl llz=MLPLNz+z，.. ΣΣ..ΣΣMLPMLPLNLNW-MSASW-MSALNLN(a) 架构（b）两个连续Swin Transformer块图3. （a）Swin Transformer（Swin-T）的架构;（b）两个连续的Swin Transformer块（用等式1表示的符号）（三））。W-MSA和SW-MSA分别是具有规则和移位窗口配置的多头自注意模块重复程序两次，作为W在h×w块的图像上是3：H的输出分辨率×16和H×W。Ω（MSA）= 4hwC2+ 2（hw）2C，（1）这些阶段共同产生分层表示，具有与典型卷积网络相同的特征图分辨率，例如，VGG [48]和ResNet [27]。因此，所提出的架构可以方便地取代现有方法中的骨干网络，以执行各种视觉任务。Swin Transformer 模块 Swin Transformer 是通过将Transformer模块中的标准多头自注意（MSA）模块替换为基于移位窗口的模块（在第3.2节中描述）来构建的，其他层保持不变。如图 3 （ b ）所示， SwinTransformer块由基于移位窗口的MSA模块组成在每个MSA模块和每个MLP之前应用LayerNorm（LN）层，并且在每个模块之后应用剩余连接。3.2. 基于移位窗口的自注意标准的Transformer架构[58]及其对图像分类的适应[19]都进行全局自我关注，其中令牌与所有Ω（W-MSA）= 4hwC2+ 2M2hwC，（2）其中，前者是补丁数hw的二次函数，而后者在M固定（默认设置为7）时是线性的。全局自注意计算对于大硬件来说通常是负担不起的，而基于窗口的自注意是可扩展的。基于窗口的自注意模块缺乏跨窗口的连接，这限制了其建模能力。为了在保持非重叠窗口的有效计算的同时引入跨窗口连接，我们提出了一种移位窗口分区方法，该方法在连续Swin Transformer块中的两个分区配置之间交替如图2所示，第一个模块使用从左上角像素开始的常规窗口分区策略，而第二个模块使用从左上角像素开始的88特征图被均匀地划分成2 2个大小为4的窗口4（M= 4）。然后，下一个模块采用从前一层的窗口移位的窗口配置，通过将窗口移位（[M，[M））个像素。计算其它令牌全局计算导致22二次复杂度相对于令牌的数量，使得它不适合于许多视觉问题，需要一个巨大的令牌集的密集预测或表示一个高分辨率的图像。非重叠窗口中的自注意力为了高效建模，我们建议在局部窗口内计算自注意力。窗口被布置成以不重叠的方式均匀地分割图像假设每个使用移位窗口分区方法，连续Swin Transformer块计算为zl=W-MSA。LN. zl−1ΣΣ+zl−1，zl+l=SW-MSALNzl+zl，zl+1=MLPLNzl+1+zl+1，（3）其中，Zl和Zl分别表示块1的（S）W-MSA模块和MLP模块的输出特征;阶段1阶段2阶段3阶段4图像SwinTransformer块SwinTransformer块SwinTransformer块SwinTransformer块2262面片分区线性嵌入面片合并面片合并面片合并210016窗口包含M×M块，计算COM-全局MSA模块和基于窗口的MSA模块的复杂性3在确定复杂度时，我们省略了SoftMax计算。210017MSA蒙面MSA蒙面× ×××个×个∈∈- -× →××个M在转变的配置中，以及一些ACCBB窗隔C A我们观察到相对于没有该偏置项或使用绝对位置嵌入的对应物的显著改进，如表4所示。如[19]所示，进一步向输入添加绝对位置嵌入会降低性能循环移位反向循环移位所以在我们的实现中没有采用。图4.移位窗口分区中自注意力的高效批处理计算方法的说明。W-MSA和SW-MSA分别表示使用常规和移位窗口划分配置的移位窗口分割方法引入了前一层中相邻非重叠窗口之间的连接，并且被发现在图像分类、对象检测和语义分割中是有效的，如表4所示。移位配置的高效批处理计算移位窗口分区的问题是，它将导致更多的窗口，从[h|× [w|到（[h|+1）×预训练中学习的相对位置偏差也可以用于初始化模型，以通过双三次插值[19，57]用不同的窗口大小进行微调。3.3. 架构变体我们构建我们的基础模型，称为Swin-B，具有与ViT-B/DeiT-B类似的模型大小和计算复杂度。我们还介绍了Swin-T，Swin-S和Swin-L，它们是大约0. 25，0。5和2的模型大小和计算复杂度。请注意，Swin-T和Swin-S的复杂度分别类似于ResNet-50（DeiT-S）和ResNet-101的复杂度。窗口大小默认设置为M= 7。对于所有实验，每个头部的查询维度为d= 32，并且每个MLP的扩展层为α= 4。这些模型变体的架构超参数是：（[w|+1）M M M窗口将小于M M4。一个简单的解决方案是将较小的窗口填充到M的大小M和面罩在计算注意力时输出填充值。当常规分割中的窗口的数目小时，例如，2 2，使用这种简单的解决方案增加的计算量是相当大的（2 2 3 3，是2.25倍）。在这里，我们提出了一种更有效的批处理计算方法，通过循环移位向左上方的方向，如图4所示。在该移位之后，批处理窗口可以由在特征图中不相邻的若干子窗口组成，因此采用掩蔽机制来将自注意力计算限制在每个子窗口内利用循环移位，批量窗口的数量保持与常规窗口分区的数量相同，并且因此也是有效的。表5中示出了该方法的低延迟。相对位置偏差在计算自我注意力时，我们遵循[45，1，29，30]，在计算相似度时包括每个头部的相对位置偏差B∈RM2× M2：Attention（Q，K，V）=SoftMax（QK T/√d + B）V，（4）其中Q、K、V RM 2 × d是查询、键和值矩阵; d是查询/键维度，M2是窗口中补丁的数量。由于沿每个轴的相对位置位于范围[M +1，M 1]中，因此我们参数化小尺寸的偏置矩阵BR（2M−1）×（2M−1），B中的值由B得出。4为了使窗口大小（M，M）可被特征图大小（h，w），如果需要，则在特征图上采用右下填充。• Swin-T：C= 96，层数={2，2，6，2}• Swin-S：C= 96，层数={2，2，18，2}• Swin-B：C= 128，层数={2，2，18，2}• Swin-L：C= 192，层数={2，2，18，2}其中C是第一级中隐藏层的通道号。ImageNet图像分类的模型大小、理论计算复杂度（FLOPs）和模型变体的吞吐量列于表1中。4. 实验我们对ImageNet-1 K图像分类[18]，COCO对象检测[39]和ADE 20 K语义分割[74]进行了实验。在下文中，我们首先比较了所提出的Swin Transformer架构与以前的国家的最先进的三个任务。然后，详细阐述了SwinTransformer的设计要点。4.1. ImageNet-1 K图像分类对于图像分类，我们在ImageNet-1 K [18]上对提出的Swin Transformer进行了基准测试，其中包含来自1，000个类的1.28M训练图像和50 K验证图像。报告单次裁剪的前1精度。我们考虑两种训练设置：• ImageNet-1 K训练这一点，大多数人都认同[57]。我们采用AdamW [33]优化器，使用余弦衰减学习率调度器和20个线性预热时期进行300个时期。批量大小为1024，初始学习率为0.001，ACBBCAA...210018∼使用0.05的重量衰减。我们在训练中包括了[57]的大部分增强和正则化策略，除了重复增强[28]和EMA [41]，它们不会提高性能。请注意，这与[57]相反，其中重复增强对于稳定ViT的训练至关重要。• 在ImageNet-22 K上进行预训练，并在ImageNet-1K上进行微调。我们还在ImageNet-22 K数据集上进行了预训练我们采用AdamW优化器用于90个时段，使用具有5时段线性预热的余弦学习速率调度器。使用4096的批量大小、0.001的初始学习率和0.01的权重衰减。在ImageNet-1 K微调中，我们训练了30个时期，批量大小为1024，恒定的学习速率为10−5，权重衰减为10−8。常规ImageNet-1 K训练的结果表1（a）显示了使用常规ImageNet-1 K训练与其他骨干网的比较，包括基于Transformer和基于ConvNet的骨干网。与先前最先进的基于Transformer的架构相比，即DeiT [57]，Swin Transformers明显优于具有类似复杂性的对应 DeiT 架构：使用 224 2 输入， Swin-T（81.3%）相对于DeiT-S（79.8%）分别为+1.5%，使用224 2 /384 2输入，Swin-B（83.3%/84.5%）相对于DeiT-B（81.8%/83.1%）分别为+1.5%/1.4%。与最先进的ConvNets 相比， Reg- Net [44]，SwinTransformer实现了稍微更好的速度-精度权衡。注意，虽然RegNet [44]是通过彻底的架构搜索获得的，但Swin Transformer是从标准Transformer手动改编的，并且具有进一步改进的潜力。ImageNet-22 K预训练的结果我们还在ImageNet-22 K上预训练了更大容量的Swin-B和Swin-L。在ImageNet-1 K图像分类上微调的结果如表1（b）所示。对于Swin-B，ImageNet-22 K预训练比训练带来1.8%-1.9%的增益在ImageNet-1 K上从头开始。与ImageNet-22K预训练的最佳结果相比，我们的模型实现了更好的速度-准确性权衡：Swin-B获得了86.4%的top-1准确率，这比具有相似推理吞吐量的ViT高出2.4%（84.7 vs.85.9张图像/秒）和略低的FLOP（47.0G与55.4G）。较大的Swin-L模型达到87.3%的前1准确度，比Swin-B模型好+0.9%。4.2. 基于COCO的对象检测和实例分割实验在COCO 2017上进行，其中包含(a) 常规ImageNet-1 K训练模型方法image #参数浮点运算吞吐量（image/不个）ImageNettop-1 acc.RegNetY-4G [4]二二四二21M4.0G1156.780.0RegNetY-8G [44] 二二四二39M8.0G591.681.7RegNetY-16G[44]二二四二84M16.0G334.782.9ViT-B/16 [19]三八四二86M55.4G85.977.9ViT-L/16 [19]三八四二307M 190.7G27.376.5DeiT-S [57]二二四二22M4.6G940.479.8DeiT-B [57]二二四二86M17.5G292.381.8DeiT-B [57]三八四二86M55.4G85.983.1Swin-T二二四二29M4.5G755.281.3Swin-S二二四二50M8.7G436.983.0Swin-B二二四二88M15.4G278.183.5Swin-B三八四二88M47.0G84.784.5(b) ImageNet-22 K预训练模型方法image #参数FLOPs吞吐量大小（图像/秒）ImageNettop-1 acc.R-101x3 [34]三八四二388M 204.6G-84.4R-152x4 [34]四八零二937M 840.5G-85.4ViT-B/16 [19]三八四二86M55.4G85.984.0ViT-L/16 [19]三八四二307M 190.7G27.385.2Swin-B二二四二88M15.4G278.185.2Swin-B三八四二88M47.0G84.786.4Swin-L三八四二197M 103.9G42.187.3表1.ImageNet-1 K分类上不同主干的比较吞吐量是使用[62]的GitHub存储库和V100 GPU测量的，遵循[57]。118K培训、5K验证和20K测试开发映像。使用确认集进行消融研究，并在测试开发中报告系统级比较。对于消融研究，我们考虑四个典型的对象检测框架：级联掩码R-CNN [26，6]，ATSS [71]，RepPoints v2 [12]和稀疏RCNN [52]在mmdetection [10]中。对于这四个框架，我们使用相同的设置：多尺度训练[8，52]（调整输入大小，使短边在480到800之间，而长边最多为1333），AdamW [40]优化器（初始学习率为0.0001，权重衰减为0.05，批量大小为16）和3x调度（36个时期）。对于系统级比较，我们采用改进的HTC [9]（表示为HTC++），其中instaboost [20]，更强的多尺度训练 [7] ， 6x 时间表（ 72 个时期）， soft-NMS [5] 和ImageNet-22 K预训练模型作为初始化。我们将我们的Swin Transformer与标准Con-vNet进行比较，即ResNe（X）t和以前的Transformer网络，例如DeiT。通过仅更改主干而其他设置不变来进行比较请注意，虽然Swin Transformer和ResNe（X）t由于210019其分层特征图而直接适用于所有上述框架，但DeiT仅产生特征图的单个分辨率并且不能直接应用。为了公平比较，我们遵循[73]使用去卷积层构建DeiT的分层210020∼‡(a) 各种框架方法骨干AP盒AP盒AP盒五零七五#param.浮点数FPS级联转轴-5046.364.350.582M739G 18.0掩码R-CNN Swin-T50.569.354.986M745G 15.3ATSs转轴-5043.561.947.032M205G 28.3Swin-T47.266.551.336M215G 22.3RepPointsV2 转轴-5046.564.650.342M274G 13.6Swin-T50.068.554.245M283G 12.0稀疏转轴-5044.563.448.2106M166G 21.0R-CNNSwin-T47.967.352.3110M172G 18.4(b) 各种主链W.级联掩码R-CNN(c) 系统级比较方法小型阀AP框AP掩码test-devAP框AP掩码 #param. FLOPsReppPointsV2 *[2]--52.1---GCNet*51.844.752.3 四十五点四-1041GRelationNet++*[13]--52.7---DetectoRS*[42]--55.7 四十八点五--YOLOv4 P7*[4]--55.8---复制粘贴[23]55.947.256.0 四十七点四185M 1440GX101-64（HTC++）52.346.0--155M 1033GSwin-B（HTC++） 56.449.1--160M 1043GSwin-L（HTC++） 57.149.557.750.2284M 1470GSwin-L（HTC++）*58.050.458.751.1284M-表2. COCO对象检测和实例分割的结果。t表示使用附加的去卷积层来产生分层特征图。* 表示多尺度测试。表2（a）列出了Swin-T和ResNet-50在四个对象检测框架上的结果。我们的Swin-T架构带来了比ResNet-50一致的+3.4 4 4.2盒AP增益，模型大小、FLOP和延迟略大。表2（b）使用级联掩码R-CNN比较了不同模型容量下的 Swin Transformer 和 ResNe （ X ） t 。 SwinTransformer实现了51.9盒AP和45.0掩模AP的高检测精度，这是ResNeXt 101 - 64 x4 d的+3.6盒AP和+3.3掩模AP的显著增益，在使用改进的HTC框架的52.3盒AP和46.0掩模AP的较高基线上，Swin变换器的增益也很高，为+4.1盒AP和+3.1掩模AP（参见表2（c））。关于推理速度，虽然ResNe（X）t是由高度优化的Cudnn函数构建的，但我们的架构是用内置的PyTorch函数实现的，这些函数并不都是优化的。一个彻底的内核优化是- yond本文的范围。表3. ADE20K val和测试集的语义分割结果。t指示使用额外的去卷积层来产生分层特征图。表示模型在ImageNet-22 K上进行了预训练。使用级联掩码R-CNN框架的DeiT-S的性能在表2（b）中示出。Swin-T的结果比DeiT-S高+2.5箱AP和+2.3面罩AP，具有相似的模型尺寸（86 M vs.80M）和显著更高的推理速度（15.3 FPS与10.4 FPS）。DeiT较低的推理速度主要是由于其输入图像大小的二次复杂度。表2（c）将我们的最佳结果与先前最先进模型的结果进行了比较。我们最好的模型实现了58.7盒AP和51.1 COCO test-dev上的mask AP，超过之前的最佳结果+2.7 box AP（无外部数据的复制-粘贴[23]）和+2.6mask AP（DetectoRS[42]）。4.3. 基于ADE20K的设置ADE20K [74]是一个广泛使用的语义分割数据集，涵盖了150个语义类别。它总共有25K图像，其中20K用于训练，2K用于验证，另外3K用于测试。我们利用mmseg [16]中的UperNet [63]作为其高效率的基础框架。更多详情见附录。结果表3列出了不同方法/主干对的mIoU、模型大小（#param）、FLOP和FPS从这些结果可以看出，Swin-S高出+5.3mIoU（49.3vs. 44.0）与DeiT-S相比具有相似的计算成本。它也比 ResNet-101 高 +4.4 mIoU ，比ResNeSt-101高+2.4 mIoU [70]。我们使用ImageNet-22K预训练的Swin-L模型在val集上实现了53.5 mIoU，超过了之前的最佳模型+3.2 mIoU（SETR [73]的50.3mIoU，其模型大小更大）。ADE20K方法主干val测试mIoU评分#param. FLOPs FPSDLab.v3+ [11] ResNet-10144.1-63M1021G 16.0[65]第65话46.056.269M1249G 14.8OCRNet [67] ResNet-10145.356.056M923G 19.3[63]第63话44.9-86M1029G 20.1OCRNet [67] HRNet-w4845.7-71M664G 12.5DLab.v3+ [11] ResNeSt-10146.9五十五点一66M1051G 11.9DLab.v3+ [11] ResNeSt-20048.4-88M1381G 8.1SETR [73] T-大号‡50.3六十一点七308M--UperNetDeiT-S†44.0-52M1099G 16.2UperNetSwin-T46.1-60M945G 18.5UperNetSwin-S49.3-81M1038G 15.2UperNetSwin-B‡51.6-121M1841G 8.7AP盒AP盒AP盒五零七五AP掩码AP掩码五零七五paramFLOPsFPSDeiT-S† 48.0 67.2 51.741.464.244.380M 889G 10.4R5046.3 64.3 50.540.161.743.482M 739G 18.0Swin-T 50.5 69.3 54.943.766.647.186M 745G 15.3X101-32 48.1 66.5 52.441.663.945.2 101M 819G 12.8Swin-S 51.8 70.4 56.344.767.948.5 107M 838G 12.0X101-64 48.3 66.4 52.341.764.045.1 140M 972G 10.4Swin-B 51.9 70.9 56.545.068.448.7 145M 982G 11.6210021联系我们联系我们表4. 使用Swin-T架构，在三个基准上对移位窗口方法和不同位置嵌入方法进行消融研究。无移位：所有自注意模块采用规则的窗口划分，而不移位; ABS.位置：绝对位置嵌入项; rel.位置：具有附加相对位置偏置项的默认设置（参见等式（4））;应用程序：等式中的第一缩放点积项。（四）、4.4. 消融研究在本节中，我们将使用ImageNet-1 K图像分类、COCO对象检测上的Cascade Mask R-CNN和ADE 20 K语义分割上的 UperNet 来消除所提出的 SwinTransformer表5. 不同的自我注意力计算方法的真实速度和在V100 GPU上的实现。骨干ImageNet首页-1首页-5CocoAP框AP掩码ADE20kMiou滑动窗口演员[14]Swin-TSwin-T81.4九十五点六79.0九十四点二50.2 43.5- -45.8-偏移窗Swin-T81.3九十五点六50.5 43.746.1表6. Swin Transformer的准确性，使用不同的方法进行自我注意计算，三个基准。的 self-attention 模块建造对拟议移窗法为40.8 /2.5 、 20.2 /2.5，9.3/2.1和7.6 /1.8比在四个网络上的naive/kernel实现中的滑动窗口移位窗口在三个任务上的移位窗口方法的消融报告在表4中。具有移位窗口分区的Swin-T在每个阶段的性能优于基于单个窗口分区的计数器，具体表现为ImageNet-1 K上的top-1准确率为+1.1%，COCO上的box AP 为 +2.8/mask AP 为 +2.2 ， ADE 20 K 上为 +2.8mIoU。实验结果表明，利用移位窗口建立前几层窗口间的连接是有效的。移位窗口的延迟开销也很小，如表5所示。相对位置偏差表4示出了不同位置嵌入方法的比较。相对位置偏差的 Swin-T 在 ImageNet-1 K 上产生+1.2%/+0.8%的top-1准确度，在COCO上产生+1.3/+1.5框 AP 和 +1.1/+1.3 掩模 AP ，在 ADE 20 K 上产生+2.3/+2.9 mIoU，分别与没有位置编码和具有绝对位置嵌入的那些相比，表明相对位置偏差的有效性另请注意，虽然包含绝对位置嵌入提高了图像分类精度（+0.4%），但它损害了对象检测和语义分割（COCO上为-0.2框/掩模AP，ADE 20 K上为-0.6 mIoU）。表5中比较了不同自注意力计算方法和实现的实际速度。我们的循环实现是更硬件效率比朴素填充，特别是对于更深的阶段。总体而言，它分别为Swin-T、Swin-S和Swin-B带来了13%、18%和18%的提速。工作阶段，分别。总体而言，构建在移位窗口上的Swin Transformer架构分别比构建在Swin-T，Swin-S和Swin-B的滑动窗口上的表6比较了它们在三个任务上的准确性，表明它们在视觉建模中具有相似的准确性。与Performer [14]（其是最快的Transformer架构之一（参见[55]））相比，所提出的基于移位窗口的自注意力计算和整体Swin Transformer架构稍微更快（参见表 5 ），同时与使用 Swin-T 的 ImageNet-1 K 上的Performer相比，实现了+2.3%的top-1准确度（参见表6）。5. 结论本文介绍了一种新的视觉变换器Swin Transformer，它产生一种层次化的特征表示，并且具有与输入图像大小成线性关系的计算复杂度。Swin Transformer在COCO对象检测和ADE20K语义分割方面实现了最先进的性能我们希望Swin Transformer确认我们感谢李东和富如伟的有益讨论; Bin Xiao，LuYuan 和 Lei Zhang 提

下载后可阅读完整内容，剩余1页未读，立即下载