CSWinTransformer：具有十字形窗口的高效基于Transformer的通用视觉任务骨干

87 浏览量更新于2023-10-26 收藏 712KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12124CSWin Transformer：一个带有十字形窗口的夏毅东1*，鲍建民2，陈冬东3<$，张伟明1，于能海1，陆远3，陈冬2，郭柏宁21中国科学技术大学2微软亚洲研究院3微软云+AI{dlight@mail.，ustc.edu.cncddlyf@gmail.com{jianbao，luyuan，doch，bainguo} @ microsoft.com摘要我们介绍了CSWin Transformer，这是一个高效的基于Transformer的通用视觉任务骨干Transformer设计中的一个具有挑战性的问题是，全局自注意力的计算非常昂贵，而局部自注意力通常限制了每个令牌的交互领域。为了解决这个问题，我们开发了Cross-S形窗口自关注机制，用于计算平行的水平和垂直条纹中的自关注，这些条纹形成十字形窗口，每个条纹通过将输入特征分割成相等宽度的条纹来获得。我们提供了一个数学分析的条纹宽度的影响，并改变条纹宽度的Transformer网络的不同层，实现强大的建模能力，同时限制计算成本。我们还介绍了本地增强的位置编码（LePE），它handles的本地位置信息比现有的编码方案更好。LePE自然支持任意输入分辨率，因此对于下游任务特别有效和友好。CSWin Transformer结合了这些设计和层次结构，在常见的视觉任务上表现出具体来说，它在ImageNet-1 K上实现了85.4%的Top-1准确率，而无需任何额外的训练数据或标签，在COCO检测任务上实现了53.9个框AP和46.4个掩码AP，在ADE 20K语义分割任务上实现了52.2mIOU，超过了之前最先进的Swin Transformer骨干+1.2，+2.0，+1.4和+2.0。通过在更大的数据集ImageNet-21 K上进行进一步的预训练，我们在ImageNet-1 K上实现了87.5%的Top-1准确率，并在ADE 20 K上实现了55.7mIoU的高分割性能1*在微软亚洲研究院实习期间完成的工作。†Dongdong Chen为通讯作者。1 代码和预训练模型可在 https://github.com/microsoft/CSWin-Transformer上获得1. 介绍基于变换器的架构[12，30，42，49]最近在各种视觉任务中与CNN同行相比取得了竞争力通过利用多头自注意机制，这些视觉变换器展示了对长范围依赖性建模的高能力，这对于处理下游任务中的高分辨率输入特别有帮助，目标检测和分割。尽管取得了成功，但具有全注意力机制的trans-former架构[12]在计算上是低效的。为了提高效率，一种典型的方法是将每个标记的注意力区域从完全注意力限制为局部/窗口注意力[30，44]。为了弥合窗口之间的联系，研究人员进一步提出了晕轮和移位操作，通过附近的窗口交换信息然而，感受野的扩大相当缓慢，它需要堆叠大量的块来实现全局自我注意。一个足够大的感受野对性能至关重要，特别是对于下游任务（例如，对象检测和分割）。因此，在保持低计算成本的同时，有效地实现大的可接受性是很重要的在本文中，我们提出了十字形窗口（CSWin）的自我注意，这是在图1中所示，并与现有的自我注意机制进行了比较。使用CSWin自注意，我们并行地在水平和垂直条纹中执行自注意计算，每个条纹通过将输入特征分割为相等宽度的条纹而获得该条纹宽度是十字形窗口的重要参数，因为它允许我们在限制计算成本的同时实现强大的建模能力。具体来说，我们根据网络的深度调整条纹宽度更大的条纹宽度使长程元素之间的连接更强，12125--SWHKH1充分重视HK幻灯片本地H1HKH1 移动本地h1hK/2+1Dynaic Stripe Window+平行分组头= CSWinHK纵横交错H1本地+全球h1HKh1顺序轴向h1图1.说明不同的自我注意机制，我们的CSWin是从两个方面根本不同。首先，我们拆分多头（h1，...，hK）分成两组，并同时在水平和垂直条纹中进行自我注意。其次，我们根据深度网络调整条带宽度，可以在计算成本和能力之间实现更好的权衡以较小的计算成本增加来实现更好的网络容量。我们将提供一个数学分析条纹宽度如何影响建模能力和计算成本。值得注意的是，使用CSWin自注意机制，平行计算水平和垂直条纹的自注意。我们将多头机器人分成平行的组，并对不同的组应用不同的自我注意力操作。这种并行策略不引入额外的计算成本，同时扩大了每个Transformer块内用于计算自注意的该策略从根本上不同于现有的自注意机制[18，30，45，56]，现有的自注意机制跨多头应用相同的注意操作（图lb，c，d，e），并且顺序地执行不同的注意操作（图lc，e）。我们将通过消融分析表明，这种差异使得CSWin自我注意力在一般视觉任务中更有效。基于CSWin的自注意机制，采用层次化设计方法，提出了一种新的面向通用视觉任务的视觉Transformer体系结构CSWin Transformer。该架构提供了更强大的建模能力，同时限制了计算成本。为了进一步增强这种视觉Transformer，我们引入了一种有效的位置编码，局部增强的位置编码（LePE），这是特别有效和友好的输入变化的下游任务，如对象检测和分割。与以前的位置编码方法[9，35，45]相比，我们的LePE在每个Transformer块内施加位置信息，并直接对注意力结果进行操作，而不是注意力计算。LePE使CSWinTransformer对下游任务更加有效和友好。作为通用视觉Transformer骨干，CSWin Transformer在图像分类、对象检测和语义分割任务方面表现出强大的性能在相似的FLOP和模型大小下，CSWin Trans-former变体显著优于以前的状态-最先进的（SOTA）视觉变形金刚。例如，我们的基础变体CSWin-B在ImageNet-1 K上实现了85.4%的Top-1准确率，没有任何额外的训练数据或标签，在COCO检测任务上实现了53.9个框AP和46.4个掩码AP，在ADE20 K语义分割任务上实现了51.7mIOU，分别超过了之前最先进的Swin Transformer对应物+1.2，+2.0，1.4和+2.0在较小的FLOPs设置下，我们的微小变体CSWin-T甚至显示出更大的性能增益，即，，ImageNet分类+1.4分，COCO检测+3.0框AP，+2.0掩模AP+4.6在ADE20K分割上。此外，当在更大的数据集ImageNet-21 K上预训练CSWin Transformer时，我们在ImageNet-1 K上实现了87.5%的Top-1准确率，并在ADE 20 K上实现了55.7mIoU的高分割性能。2. 相关工作视觉变形金刚。卷积神经网络（CNN）多年来一直主导着计算机视觉领域，并取得了巨大的成功[5，16，19最近，开创性的工作ViT [12]表明，纯基于transformer的架构也可以实现非常有竞争力的结果，表明在统一的框架下处理视觉任务和自然语言处理（NLP）任务的潜力。在ViT成功的基础上，许多努力都致力于为各种视觉任务设计更好的基于Transformer的架构，包括低级图像处理[4，46]，图像分类[8，8，10，13，14，17，24，42，43，47，49，53-对象检测[3，59]和语义分割[37，48，57]。最近的一些工作[30，47，56]试图为通用视觉任务设计一个通用视觉它们都遵循分层的Transformer结构，但采用不同的自我注意机制。分层设计的主要好处是利用多尺度特征，并通过逐步减少令牌的数量来降低计算复杂度在本文中，我们提出了一个新的层次视觉Transformer骨干，通过引入下块HK下一块HKhK/2分裂式头部H1ConcatSWHKHK12126×××∈2i+12i+1×44××高×宽× 3高×宽× CHW×× 2CHW×× 4CHW×× 8C44 8816163232阶段1阶段2阶段3阶段4CSwin Transformer模块图2.左：我们提出的CSWin Transformer的整体架构，右：CSWin Transformer块的说明十字形窗口自我注意和局部增强的位置编码。有效的自我关注。在NLP领域，许多有效的注意力机制[1，6，7，25，27，31，33，41]被设计用于提高Transformer处理长序列的效率。由于图像分辨率在视觉任务中通常非常高，因此设计有效的自我注意机制也非常重要。然而，许多现有的视觉变换器[12，42，49，55]仍然采用原始的完全自注意，其计算复杂度是图像大小的平方。为了降低复杂性，最近的视觉转换器[30，44]采用了本地自注意力机制[32]及其移位/晕圈版本，以增加跨不同本地窗口的交互。此外，轴向自我注意[18]和交叉注意[23]提出了沿水平或/和垂直轴在条纹窗口内计算注意。虽然轴向注意力的性能受到其顺序机制和受限窗口尺寸的限制，但交叉注意力由于其重叠窗口设计而在实践中是无效的，并且由于其受限窗口尺寸而无效。它们是与我们的CSWin最相关的作品，可以被视为这些先前作品的更通用和有效的格式。位置编码。由于自注意是置换不变的，并且忽略了标记位置信息，因此位置编码被广泛用于Transformer中以将这样的位置信息添加回去。典型的位置编码机制包括绝对位置编码（ APE ） [45] 、相对位置编码（RPE）[30，35]和条件位置编码（CPE）[9]。APE和RPE通常被定义为一系列频率或可学习参数的正弦函数，它们是为特定的输入大小而设计的，对不同的输入分辨率不友好CPE将特征作为输入，并且可以生成任意输入分辨率的位置编码然后，生成的位置编码将被添加到输入特征上。我们的LePE与CPE具有相似的精神，但建议将位置编码作为并行模块添加到自注意操作中，并对每个Transformer块中的投影值进行操作。这种设计将位置编码从自注意计算中分离出来，并且可以实施更强的局部归纳偏差。3. 方法3.1. 整体架构CSWin Transformer的整体架构如图2所示。对于大小为H W3的输入图像，我们遵循[49]并利用重叠卷积令牌嵌入（步长为4的7 ×7卷积层）来获得HW补丁令牌，每个令牌的维度为C。为了产生分层表示，整个网络由四个阶段组成在两个相邻阶段之间使用卷积层（33，步幅2），以减少令牌的数量并使通道维度加倍。因此，构造的特征图具有用于第i阶段的H W令牌，这类似于传统的CNN骨干，如VGG/ResNet。每个阶段由Ni个顺序的CSWinTransformer块组成，并保持令牌的数量。CSWinTransformer块具有与vanilla多头自注意Transformer块完全相似的拓扑结构，但有两个不同之处：1）它用我们提出的十字形窗口自注意替换自注意机制;2）为了引入局部感应偏置，将LePE作为并行模块添加到自注意分支。3.2. 十字窗自我注意尽管具有很强的长距离上下文建模能力，但原始全自注意机制的计算复杂度是特征图大小的二次方因此，对于以高分辨率特征图为输入的视觉任务，如目标检测和分割，将遭受巨大的计算成本。为了缓解这个问题，现有的工作[30，44]建议在局部注意窗口中执行自我注意，并应用光晕或移位窗口来扩大接受文件。然而，每个Transformer块内的令牌仍然具有有限的关注区域，并且需要堆叠更多的块以实现全局可接受填充。为了扩大注意区域并更有效地实现全局自我注意，我们提出了十字形窗口自我注意机制，该机制通过平行的水平和垂直条纹形成十字形窗口来执行自我注意来实现水平和垂直条纹。根据多头自注意机制，输入特征XR（H× W）× C将首先线性投影到K个头，CSwinTransformer模块（软件1）Conv↓CSwinConv↓ CSwinConv↓CSwin Transformer Block Transformer BlockTransformer Block（sw2）（sw3）（sw4）× N1× N2× N3× N4MLPLNLN十字形窗口自我注意卷积令牌嵌入12127XKVSoftMax（+RPE）VQK不DTransformer块× N××.∈∈n我K我KK我IJIJk kkJXX XAPE/CPE（X）图3.不同位置编码机制之间的比较：APE和CPE在馈送到Transformer块之前引入位置信息，而RPE和我们的与RPE将位置信息添加到注意力计算中不同，我们的LePE直接操作V，并作为一个并行模块。为了简单起见，这里我们只画出自我注意部分来表示Transformer块则每个头将在水平或垂直条纹内执行局部自关注对于水平条纹自注意，X被均匀地划分成不重叠的水平条纹[X1，..，每个人都有自己的一个共同点，每个人都有自己的一个共同点。这里，sw是条带宽度并且可以被调整以平衡学习能力和计算复杂度。形式上，假设第k头的投影查询，键和值都具有维度dk，那么第k头的水平条纹自注意的输出被定义为：X= [X1，X2，.，X M]，Ω（CSWin）=HWC（4C+swH+swW）（3）对于高分辨率输入，考虑到H、W在早期阶段将大于C，在后期阶段将小于C，因此我们选择小sw用于早期阶段，而较大sw用于后期阶段。换句话说，调整sw提供了灵活性，以有效的方式在后期阶段扩大每个标记的注意区域。此外，为了使224 224输入的中间特征图大小可被sw整除，我们根据经验将sw默认设置为1，2，7，7四个阶段局部增强的位置编码。由于自注意操作是置换不变的，因此它将忽略Yi=Attention（Xi WQ，Xi WK，XiWV），（一）2D图像中的重要位置信息kkk kH-注意k（X）= [Y1，Y2，...，Y M]其中Xi∈R（sw×W）×C且M=H/sw，i=为了将这样的信息添加回去，在现有的视觉变换中已经利用了不同的位置编码机制呃。在图3中，我们展示了一些典型的位置编码1、…M.WQ∈RC× dk，WK∈RC× dk，WV∈RC×dk机制，并将其与我们在当地提出的-分别表示第k头的查询、键和值的投影矩阵，dk设为C/K。可以类似地导出垂直条纹自注意，并且其针对第k头的输出被表示为V-Attentionk（X）。假设自然图像没有方向偏差，我们将K个头像平均分成两个平行组（每组有K/2个头像，K通常是偶数）。第一组头部执行水平条纹自我注意，而第二组头部执行垂直条纹自我注意。最后，这两个并行组的输出将连接在一起。CSWin-Attention（X）= Concat（head1，.，标题K）WO增强的位置编码。详细地说，APE [45]和CPE [9]在输入Transformer块之前将位置信息添加到输入令牌中，而 RPE [35] 和我们的 LePE 将位置信息合并到每个Transformer块中。但与在注意力计算内添加位置信息的RPE不同（即，Softmax（QKT）），我们考虑更直接的方式并将位置信息施加在线性投影值上。同时，我们注意到RPE以每头的方式引入偏差，而我们的LePE是每通道偏差，这可能显示出更多的潜力作为位置嵌入。头部k=H-注意k（X）k=1，…K/2V-注意k（X）k=K/2+ 1，...，K（二）在数学上，我们将输入序列表示为x=（x1，...，xn）的n个元素，以及注意力的输出其中WORC×C是常用的投影矩阵，将自注意结果投影到目标输出维度（默认设置为C）。如上所述，我们的自我注意力机制中的一个关键见解是，z=（z1，…z n），其中xi，z iRC。自我注意力计算可以公式化为：zi=<$αijvj，αij=exp（qTkj/<$d）（4）标志是将多头分成不同的组，哪里j=1qi，ki，vi是队列，键和值相应地应用不同的自注意操作。换句话说，一个Transformer块内的每个令牌的关注区域通过多头分组而被扩大。相比之下，现有的自我注意机制适用于相同跨不同多头的自注意操作在输入xi和d的线性变换是特征维数。然后，我们的局部增强的位置编码作为可学习的每元素偏置和等式执行。4可以表述为：n实验部分，我们将表明，这种设计将带来更好的性能。zk=<$（αk+βk）vk（五）计算复杂度分析。CSWin自注意的计算复杂度为：其中zk表示向量zi的第k个元素。为了使LePE适合不同的输入大小，我们设置了一个距离XKVSoftMax（）VQKTDLePE（V）Transformer块× NX′KVSoftMax（）VDQKTTransformer块× Nj=112128×模型#暗淡块数SW头数#参数。FLOPsCSWin-T641,2,21,1 1,2,7,7 2,4,8,1623M4.3GCSWin-S642,4,32,2 1,2,7,7 2,4,8,1635M6.9GCSWin-B962,4,32,2 1,2,7,7 4,8,16,3278M15.0GCWin-L1442,4,32,2 1,2,7,7 6,12,24,48 173M31.5G表1. CSWin Transformer不同变体的详细配置。FLOP的计算采用224×224输入。将阈值设置为LePE，并将其设置为0，如果Chebyshev不-如果令牌i和j的比率大于阈值τ（τ= 3，默认设置）。3.3. CSWin Transformer模块配备了上述自注意机制和位置嵌入机制，CSWinTransformer块被正式定义为：X轴 =CSWin-注意.LN. Xl−1 +Xl−1，Xl=MLP。LN.Xl+Xl，（6）其中X1表示第l个Transformer块或每个阶段的前一个卷积层的输出3.4. 架构变体为了与类似设置下的其他视觉变压器进行公平比较，我们构建了CSWin变压器的四种不同变体，如表1所示： CSWin-T （微小）， CSWin-S （小型），CSWin-B（基础），CSWin-L（大型）。通过改变基本通道尺寸C和每级的块数来设计它们在所有这些变型中，每个MLP的扩展比被设置为4。前三个变体中的四个阶段的头数分别设置为2、4、8、16，最后一个变体中的头数分别设置为6、12、24、484. 实验为了证明CSWin Transformer作为通用视觉骨干的有效性，我们对ImageNet-1 K [11]分类，COCO [29]对象检测和ADE 20 K [58]语义分割进行了实验我们还进行了全面的消融研究，以分析CSWin Transformer的每个组件。由于我们讨论的大多数方法都没有报告下游推理速度，因此为了简单起见，我们使用了一个额外的部分来报告它4.1. ImageNet-1 K分类为了公平比较，我们遵循DeiT [ 42 ]中的训练策略作为其他基线Transformer架构[30，49]。具体来说，我们所有的模型都训练了300个epoch，输入大小为224224。我们使用AdamW优化器，CSWin-T/S的权重衰减为0.05，CSWin-B为0.1默认的批量大小和初始学习速率设置为1024和0.001，并且使用具有20个epochs线性预热我们应用方法图像大小#参数FLOPs输出Top-1EFF-B4 [40]380219M4.2G349/秒82.9EFF-B5 [40]456230M9.9G169/秒83.6EFF-B6 [40]528243M19.0G96/秒84.0[42]第四十二话224222M4.6G940/秒79.8DeiT-B [42]224287M17.5G292/秒81.8DeiT-B [42]384286M55.4G85/秒83.1PVT-S [47]224225M3.8G820/秒79.8PVT-M [47]224244M6.7G526/秒81.2PVT-L [47]224261M9.8G367/秒81.7T2Tt-14 [55]224222M6.1G–81.7T2Tt-19 [55]224239M9.8G–82.2T2Tt-24 [55]224264M15.0G–82.6CvT-13 [49]224220M4.5G–81.6CvT-21 [49]224232M7.1G–82.5CvT-21 [49]384232M24.9G–83.312129×CSWin-T224223M4.3G701/秒82.7CSWin-S224235M6.9G437/秒83.6CSWin-B224278M15.0G250/秒84.2CSWin-B384278M47.0G80/s85.4表2. ImageNet-1 K上不同模型的比较。方法参数大小FLOPsTop-1方法参数大小FLOPs Top-1 R-101 x3 388M 3842 204.6G84.4R-152x4 937M 4802 840.5G 85.4ViT-B/16 86 M 3842 55.4G 84.0 ViT-L/16 307 M 3842 190.7G 85.2Swin-B88M 224 215.4G 85.2Swin-L 197M 224 234.5G 86.33842 47.1G 86.4 3842 103.9G 87.32242 15.0G 85.9 2242 31.5G 86.5CSWin-B78M 384 247.0G 87.0CSWin-L 173M 384 296.8G 87.5表3. ImageNet-1 K通过在ImageNet-21 K数据集上进行预训练来微调结果。增加CSWin-T，CSWin-S和CSWin-B的随机深度[22]增强，最大速率为0.1，0.3，分别为0.5。当报告384 384个输入的结果时，我们对30个epoch的模型进行了微调，权重衰减为1e-8，学习率为1e-5，批量大小为512。在表2中，我们将CSWin Transformer与最先进的CNN和Transformer架构。由于篇幅所限，本文仅对几种经典方法进行比较，并在补充资料中作了全面的比较这表明我们的CSWin变压器的性能大大优于以前最先进的视觉变压器。例如，CSWin-T仅以4.3GFLOP实现了82.7%的 Top-1精度，分别超过CvT-13，Swin-T和DeiT-S1.1%，1.4%和2.9%对于小的，12130××××××骨干#参数（男）FLOPs（G）掩码R-CNN 1x时间表Mask R-CNN 3x + MS时间表APBAPB50APB75APmAPm50APm75APBAPB50APB75APmAPm50APm75[16]第4426038.058.641.434.455.136.741.061.744.937.158.440.1PVT-S [47]4424540.462.943.837.860.140.343.065.346.939.962.542.8VIL-S [56]4521844.967.149.341.064.244.147.168.751.542.765.946.2[8]第十八话4424542.965.847.140.062.742.946.869.351.842.666.346.0双胞胎S [8]4422843.466.047.340.363.243.446.869.251.242.666.345.8Swin-T [30]4826442.264.646.239.161.642.046.068.250.241.665.144.8CSWin-T4227946.768.651.342.265.645.449.070.753.743.667.946.6[16]第101话6333640.461.144.236.457.738.842.863.247.138.560.141.3X101-32 [52]6334041.962.545.937.559.440.244.064.448.039.261.441.9PVT-M [47]6430242.064.445.639.061.642.144.266.048.240.563.143.5VIL-M [56]6026143.4----39.7----44.666.348.540.763.843.7双胞胎P-B[8]6430244.666.748.940.963.844.247.970.152.543.267.246.3双胞胎B [8]7634045.267.649.341.564.544.848.069.552.743.066.846.6Swin-S [30]6935444.866.648.940.963.444.248.570.253.543.367.346.6CSWin-S5434247.970.152.643.267.146.250.071.354.744.568.447.7X101-64 [52]10149342.863.847.338.460.641.344.464.948.839.761.942.6PVT-L [47]8136442.965.046.639.561.942.544.566.048.340.763.443.7VIL-B [56]7636545.1----41.0----45.767.249.941.364.444.5双胞胎P-L[8]8136445.4----41.5----------------双胞胎L [8]11147445.9----41.6----------------Swin-B [30]10749646.9----42.3----48.569.853.243.466.846.9CSWin-B9752648.770.453.943.967.847.350.872.155.844.969.148.3表4.使用Mask R-CNN框架在COCO val 2017上进行对象检测和实例分割FLOP（G）以800×1280的分辨率测量，模型在ImageNet-1 K上进行了预训练ResNet/ResNeXt结果复制自[47]。基本型号设置，我们的CSWin-S和CSWin-B也实现了最佳性能。当对384 384输入进行微调时，观察到类似的趋势，这充分证明了我们的CSWin变压器的强大学习能力与最先进的 CNN 相比，我们发现我们的 CSWinTransformer是唯一一个基于Transformer的架构，在小和基本设置下实现了与Efficient- Net [40]相当甚至更好的结果，同时使用更少的计算复杂度。同样值得注意的是，EfficientNet中使用了神经架构搜索，而我们的CSWin Transformer设计。我们进一步在ImageNet-21 K数据集上预训练CSWinTransformer，该数据集包含1420万张图像和21 K个类。模型训练90个epoch，输入大小为224 224.我们使用AdamW优化器，CSWin-B的权重衰减为0.1，CSWin-L的权重衰减为0.2，默认批次大小和初始学习率设置为2048和0.001。在ImageNet-1 K上进行微调时，我们训练模型30个epoch，权重衰减为1e-8，学习率为1e-5 ，批量为512。增加随机深度[22]CWin-B和CWin-L两者的增强被设置为0.1。表. 3报告了ImageNet-21 K上的预训练结果。与在ImageNet-1 K 上预训练的 CWin-B 的结果相比，ImageNet-21 K的大规模数据带来了1.6%~ 1.7%的增益。CWin-B和CWin-L达到87.0%和87.5%的top-1准确率，超过了以往的方法。4.2. COCO对象检测接下来，我们分别使用Mask R-CNN [15]和CascadeMask R-CNN [2]框架在COCO对象检测任务上评估CSWin Transformer。特殊-表5.对象检测和实例分割性能在COCO val 2017上使用级联掩码R-CNN。我们在ImageNet-1 K数据集上预训练骨干，并遵循Swin Transformer中使用的微调策略。[30]关于COCO训练集。我们将CSWin Transformer与各种骨干进行比较：以前的 CNN 骨干 ResNet [16] ， ResNeXt （ X ） [51] 和Transformer骨干PVT [47]，Twins [8]和Swin [30]。表4报告了具有“1“（12个训练时期）和“3”的Mask R-CNN框架的结果。+ MS”（36个训练周期，多尺度训练）时间表。它表明我们的CSWin Transformer变体明显优于所有CNN和Transformer对应物。详细地说，我们的CSWin-T优于Swin-T+4.5箱AP，+3.1面具AP与1的时间表和+3.0箱AP，+2.0面具AP与3的时间表分别。我们还在小型和基本配置上实现了类似的性能增益表5报告了Cascade Mask R-CNN框架的结果。虽然Cascade Mask R-CNN总体上比Mask R-CNN更强，但我们观察到CSWin Transform- ers仍然超过了同行，在骨干参数数（M）FLOPs（G）级联掩码R-CNN 3x +MSAPB APB50 APB75 APm APm50 APm75[16]第Swin-T [30]828673974546.350.564.369.350.554.940.143.761.766.643.447.1CSWin-T8075752.571.557.145.368.848.9X101-32 [52]Swin-S [30]10110781983848.151.866.570.452.456.341.644.763.967.945.248.5CSWin-S9282053.772.258.446.469.650.6X101-64 [52]Swin-B [30]14014597298248.351.966.470.952.356.541.745.064.068.445.148.7CSWin-B135100453.972.658.546.470.050.412131× ∼ ×[16]第101话47.526038.886.01029--/44.9PVT-M [47]48.021941.6------/--双胞胎P-B[8]48.122044.974.397747.1/48.4双胞胎B [8]60.426145.388.5102047.7/48.9Swin-S [30]53.227445.281.3103847.6/49.5CSWin-S38.527149.264.6102750.4/51.5X101-64[52]86.4-40.2------/--PVT-L [47]65.128342.1------/--双胞胎P-L[8]65.328346.491.5104148.6/49.8双胞胎L [8]103.740446.7133.0116448.8/50.2Swin-B [30]91.242246.0121.0118848.1/49.7CSWin-B81.246449.9109.2122251.1/52.2[30]第三十话[30]第三十话------------121.0234.01841323050.0/51.752.1/53.5CSWin-B<$CSWin-L <$------------109.2207.71941274551.8/52.654.0/55.7表6. ADE20K分段任务中不同骨干网的性能比较。使用了两种不同的框架语义FPN和Upernet。FLOP的计算分辨率为512×2048。ResNet/ResNeXt结果和Swin FPN结果分别复制自[47]和[8]。†表示模型在ImageNet-21 K上进行了预训练，并以640× 640分辨率进行了微调不同的模型配置。4.3. ADE20K语义分割我们进一步研究了CSWin Trans-former在ADE 20 K[58]数据集上进行语义分割的能力。在这里，我们采用语义FPN [26]和上层网[50]作为基本框架。为了公平比较，我们遵循以前的工作[30，47]并以批量大小为16训练语义FPN 80k迭代，以批量大小为16训练 Upernet160k在表6中，我们报告了不同方法在mIoU和多尺度测试mIoU（MS mIoU）方面的结果。可以看出，我们的CSWin变压器在不同配置下的表现明显优于以往的最先进产品。具体而言，CSWin-T、CSWin-S、CSWin-B在语义FPN框架下实现了比Swin同行高+6.7、+4.0、+3.9的mIOU，并且使用Upernet框架，mIOU增加了+4.8、+2.8、+3.0。与CNN同行相比，性能增益非常有希望，再次展示了视觉变形金刚的潜力。当使用ImageNet-21 K预训练模型时，我们的CSWin-L进一步实现了55.7mIoU，超过了之前的最佳模型+2.2 mIoU，同时使用了更低的计算复杂度。表7. FPS与Swin在下游任务上的比较。4.4. 推理速度。在这里，我们报告我们的CSWin和Swin作品的推理速度。对于下游任务，我们报告了级联掩码R-CNN的FPS在COCO上的对象检测和UperNet在ADE 20 K上的语义分割。在大多数情况下，我们的模型的速度只比Swin稍慢（不到10%），但我们的模型比Swin的速度大得多。例如，在COCO上，CSWin-S比Swin-S高出请注意，我们的CSWin-T在框AP（+0.6%），掩码AP（+0.3%）上的表现优于Swin-B，推理速度更快（14.2FPS vs. 11.2 FPS），表明我们的CSWin实现了更好的准确性/FPS权衡。4.5. 消融研究为了更好地理解CSWin Transformers，我们在完全公平的设置下将每个关键组件与之前的作品进行比较，我们在以下实验中使用相同的架构和超参数，并且每次消融仅改变一个组件。对于时间延迟，我们使用具有1x时间表的Mask R-CNN作为检测和实例分割评估的默认设置，使用具有80 k迭代和单尺度测试的语义FPN进行分割评估。平行多头分组。我们首先研究了我们的新的“并行多头搜索”策略的有效性在这里，我们比较了CSWin-T主干下的轴向注意力[18]和Criss-Cross- Attention [23]。“注意区域”被用作详细比较的计算成本度量。为了简化，我们假设注意力是在H=W的平方输入上计算的。在表中。8、我们发现，高效且有效，尤其是对于下游任务。当我们用顺序取代并行方式时，CSWin在所有任务上的性能都会下降当与之前的方法在相似的注意力区域约束下进行比较时，我们的sw= 1CSWin在ImageNet上的表现略好于Axial，而在下游任务上的表现则远远我们的sw = 2CSWin的性能略好于Criss-Cross Attention，而CSWin的速度为2 5 这进一步证明了我们的模型COCO #参数上的级联掩码R-CNN 浮点数FPSAPb/mADE20K上的UperNet #参数。FLOPs FPS mIoUSwin-T86M745G 15.3 50.5/43.760M945G 18.5 44.5CSWin-T80M小行星757G14.2 52.5/45.360M959G 17.3 49.3Swin-S107M838G 12.0 51.8/44.781M1038G 15.2 47.6CSWin-S92M820G 11.7 53.7/46.465M1027G 15.6 50.4Swin-B145M982G 11.2 51.9/45.0121M1188G 9.92 48.1[16]第28.518336.7------/--PVT-S [47]28.216139.8------/--[8]第十八话28.416244.354.691946.2/47.5双胞胎S [8]28.314443.254.490146.2/47.1Swin-T [30]31.918241.559.994544.5/45.8CSWin-T26.120248.259.995949.3/50.7骨干Semantic

下载后可阅读完整内容，剩余1页未读，立即下载