跨窗口和维度的混合成形器设计用于解决局部窗口自我注意的限制，提供更强的特征建模能力

95 浏览量更新于2023-10-25 收藏 639KB PDF 举报

自注意力

双向交互

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5249MixFormer：跨窗口和维度Qiang Chen1*，Qiman Wu1 yuan，Jian Wang1 yuan，QinghaoHu2†，Tao Hu1 Errui Ding1，Jian Cheng2，Jingdong Wang11百度VIS2中国科学{chenqiang13，wuqiman，wangjian33，hutao06，dingerrui，wangjingdong}@baidu.comhuqinghao2014@ia.ac.cn，jcheng@nlpr.ia.ac.cn摘要虽然局部窗口自我注意在视觉任务中表现突出，但它存在有限的感受野和弱建模能力问题。这主要是因为它在非重叠窗口内执行自注意，并在通道维度上共享权重我们提出混合成形器来解决这个问题.首先，我们将局部窗口自注意与深度卷积结合在一个并行设计中，模拟跨窗口连接以扩大接收场。其次，我们提出了跨分支的双向交互，以提供通道和空间维度的补充线索。这两种设计被集成以实现在窗口和维度之间的有效特征混合。我们的MixFormer提供了与EfficientNet相竞争的图像分类结果，并且显示出比RegNet和SwinTransformer更好的结果。在MS COCO、ADE 20k和LVIS上的5个密集预测任务中，下游任务的性能显著优于其替代方案，计算成本更低。代码可在https://github.com/PaddlePaddle/PaddleClas获得。1. 介绍Vision Transformer（ViT）[10，36]在图像分类[8]中的成功验证了将Transformer [38]应用于视觉任务的潜力。下游任务仍然存在挑战，特别是高分辨率视觉任务的效率低下和捕获局部关系的效率低下。一个可能的解决方案是使用局部窗口自我注意。它在非重叠窗口内执行自注意，并在信道维度上共享权重虽然这一过程提高了效率，但它带来了有限的感受野和弱建模能力的问题。*同等贡献。†通讯作者。输入要素通道相互作用局部窗口自我注意空间相互作用深度卷积ConcatFFN输出要素图1. 混合块。我们将局部窗口自关注与深度卷积结合在一起，采用并行设计。在并行分支中的窗口内和跨窗口捕获的关系被连接并发送到前馈网络（FFN）以用于输出特征。在图中，标有通道交互和空间交互的蓝色箭头是建议的双向交互，这为两个分支中更好的表征学习提供了补充线索。代码块中的其他细节，如模块设计、规范化层和快捷方式，都被省略了，以使演示更简洁。扩大感受野的常用方法是建立跨窗连接。窗口通过移位[30]、扩展[37，49]或洗牌[22]操作连接。卷积层也被采用，因为它们捕获自然的局部关系。研究[22，53]在此基础上将局部窗口自注意与深度卷积相结合，并提供了有希望的结果。尽管如此，操作在连续步骤中捕获窗口内和跨窗口关系，使得这两种类型的关系较少交织。此外，在这些尝试中忽视建模弱点阻碍了特征表示学习的进一步发展。5250×我们建议混合块来解决这两个问题（图1）。首先，我们将局部窗口自注意与深度卷积相结合，但以并行的方式。并行设计通过模拟窗口内和跨窗口关系来扩大感受野。其次，我们引入跨分支的双向交互（如图1中的蓝色箭头所示）。这种相互作用抵消了权重共享机制1造成的限制，并通过分别为局部窗口自注意和深度上述设计被集成以实现跨窗口和尺寸的互补特征混合。我们提出了MixFormer来验证块的效率和有效性。构建了一系列计算复杂度从0.7G（B1）到3.6G（B4）的MixFormers，以执行多个视觉任务，包括图像分类，对象检测，实例分割，语义分割等。在ImageNet-1 K [8]上，我们与Ef- ficientNet [35]取得了竞争结果，大大超过了 RegNet [32] 和 Swin Trans- former [30] 。MixFormer在5个密集预测任务中的表现明显优于其替代品，降低计算成本。使用MS COCO [29]上的Mask R-CNN[16]（1），MixFormer-B4在Swin-T [30]上显示了2.9盒mAP和2.1掩码mAP的提升，同时需要更少的计算成本。将主链替换为UperNet [46]，MixFormer-B4在ADE 20 k [55]上提供了超过Swin-T [30]的 2.2 mIoU增益此外，MixFormer在关键点检测[29]和长尾实例分割[13]方面非常简而言之，我们的 MixFormer 作为一种高效的通用视觉Transformer，在多个视觉任务2. 相关作品视觉变形金刚。开创性工作ViT [10，36]的成功显示了将Transformer应用于计算机视觉社区的巨大潜力。之后，提出了各种方法[2，14，25，36，51，56]来提高视觉变换器的性能，展示了图像分类任务的竞争结果。由于自我注意力[38]在本质上不同于卷积：自我注意力对长程依赖性进行建模，而卷积则在局部窗口中捕获关系，因此也有旨在集成卷积和视觉变换器的工作。像PVT [41]和CvT [45]这样的作品在全局自注意力之前插入空间缩减或卷积，从而产生自注意力和卷积的优点。1局部窗口自注意在通道维度上共享权重，而深度卷积在空间维度上共享权重[15]。从权值共享的角度来看，权值共享会导致相应维度的建模能力受限基于窗口的视觉转换器。尽管 global VisionTransformer在图像分类方面取得了成功，但下游任务仍面临挑战。对于高分辨率视觉任务，视觉Transformer的计算成本与图像大小成二次方，这使得它无法用于现实世界的应用。最近，研究人员提出了大量的方法[6，9，30，41，45，48]，使视觉转换器成为通用的主干，如ConvNets [17，19，47]。其中，基于窗口的视觉Transformer [6，22，30]采用局部窗口注意机制，使其计算复杂度随图像大小线性增加。感受场感受野对下游视觉任务很重要。然而，基于窗口的可视化Transformer在非重叠的局部窗口内计算自我注意，这限制了局部窗口中的感受为了解决这个问题，研究人员提出使用移位[30]，扩展[37，49]或shuf-fling [22]操作来连接附近的窗口。也有工作[22，53]使用卷积来有效地扩大卷积层用于创建连接，因为它们捕获自然的局部关系。我们在块设计中结合了局部窗口自关注和深度卷积。动力机制这里的动态网络[7，21，24，28，38，44]是指其权重或路径部分依赖于数据的网络一般来说，动态网络比静态网络实现更高的性能，因为它在建模关系方面更灵活在ConvNets中，动态机制被广泛用于在给定不同输入的情况下更好地提取自定义特征。有各种类型的动态网络，专注于通道[21，28]和空间维度[7，24，44]。这些工作将许多任务提升到了新的最先进水平。对于Transformer [38]，自我注意力模块是一个动态组件，它根据输入生成注意力地图。在本文中，我们还在网络设计中采用了动态机制，而我们的应用是基于两个有效组件在不同维度上共享其权重的发现[15]。为了构建一个强大的块，同时保持效率，我们引入了跨两个分支的动态交互，这是轻量级的，并提高了建模能力，在通道和空间维度。3. 方法3.1. 混合块件我们的混合块（图1）在标准的基于窗口的注意力块上增加了两个关键设计建议它们解决5251间隙conv1x1BN格卢conv1x1乙状× ×××××关注注意ConvDwConv共享权通道尺寸通道尺寸空间尺寸空间尺寸FLOPs2NCH2W22NCHW K2NC2 HWKNCHW K2表1.共享权重、尺寸和浮点数。我们提供了四种操作之间的比较：全局自注意（Attention），局部窗口自注意（W-Attention），卷积（Conv）和深度卷积（DwConv）。在表中，我们在第一行中提供了所有组件的权重共享维度此外，FLOP是用N C H W输入和输出计算的，一样的形状。表中的K表示局部窗口自注意或卷积中的窗口大小。请注意，Attention操作符采用H×W的窗口大小，因为它在空间维度中建模全局依赖关系。Q K V*DwConv3x3W-Attention7x7通道相互作用投影*空间相互作用图2. 双向交互的详细设计。信道/空间交互向另一路径提供通过深度卷积/局部窗口自关注提取的信道/空间上下文。有限的感受野和局部窗口自我注意中的弱建模能力问题我们首先提出这两种设计，然后将它们集成起来构建混合块。下面描述细节平行设计。虽然在非重叠窗口内执行自我注意带来了计算效率2，但由于没有提取跨窗口连接，它导致有限的感受野几种方法重新排序以移位[30]，扩展[37，49]，洗牌[22]或卷积[22，53]来模拟跨窗口的连接。考虑到卷积层被设计为对局部关系进行建模，我们选择了有效的替代方案（深度卷积）作为连接窗口的有前途的方法。然后，注意力移动到采用适当的方式来结合局部窗口自注意和深度卷积。以前的方法[22，30，37，49，53]通过连续堆叠这两个操作符来填充目标。然而，在连续步骤中捕获窗口内和跨窗口关系使得这两种类型的关系较少交织。在本文中，我们提出了一种并行设计，扩大了感受野，同时建模内窗口和跨窗口的关系。如图1所示，局部窗口自关注和深度卷积位于两条平行路径中。详细地说，它们使用不同的窗口大小。一个7本地窗口采用7窗口自我关注，继以前的作品[20，30，37，54]。而在深度卷积中，较小的内核大小3 3考虑到效率3。而且，作为他们的2它具有关于图像大小的线性计算复杂度，如表1所示。3表8中的结果表明，3 3是实现准确性和效率平衡的良好选择。FLOPs是不同的，我们调整通道的数量根据FLOPs比例表1。然后，它们的输出由不同的归一化层[1，23]归一化合并后的特征被发送到连续的前馈网络（FFN），以混合跨通道的学习关系，生成最终的输出特征。并行设计有两个好处：首先，将局部窗口自注意与跨分支的深度卷积相结合，对跨窗口的连接进行建模，解决了有限的感受野问题。其次，并行设计同时对窗口内和跨窗口关系进行建模，为跨分支的特征交织提供机会，并实现更好的特征表示学习。双向互动。通常，共享权重会限制共享维中的建模能力解决这一难题的一种常见方法是生成数据相关的权重，就像在动态网络中所做的那样[4，21，26，44]。局部窗口自注意在空间维度上动态地计算权重，同时跨通道共享权重，导致通道维度上的弱建模能力问题。我们在本小节中重点讨论这个问题。为了增强局部窗口自关注在信道维度上的建模能力，我们尝试生成信道动态权重[21]。假定深度卷积在空间维度上共享权重，同时聚焦于通道。它可以为局部窗口自我注意提供补充线索，反之亦然。因此，我们提出了双向交互（图1和图2），以增强局部窗口自关注和深度的通道和空间维度乙状conv1x1格卢BNconv1x15252××××--��×�� ×3��×��×��×�� ×2��×��×4��×��×8��×��×12804488161632323232图3. MixFormer的整体架构。MixFormer中有四个部分：卷积干，阶段，投影层和分类头。在卷积干中，我们应用三个连续的卷积来将通道从3增加到C。在Stages中，我们在每个阶段中堆叠混合块，并使用步幅卷积（步幅= 2）来对特征图进行下采样。对于投影层，我们使用带有激活的线性层将通道增加到1280。分类头用于分类任务。wise卷积分别。双向相互作用包括并联支路之间的通道相互作用和空间相互作用。深度卷积分支中的信息通过通道交互流向其他分支，增强了通道维的建模能力。同时，空间相互作用使空间关系从局部窗口自我注意分支流向另一个分支。因此，所提出的双向相互作用为彼此提供了互补的线索接下来，我们详细介绍了通道和空间交互的设计。对于通道交互，我们遵循SE层的设计[21]，如图2所示。通道交互包含一个全局平均池化层，随后是两个连续的11卷积层，在它们之间具有归一化（BN [23]）和激活（GELU [18最后，我们使用sigmoid在通道维度上产生注意力虽然我们的通道交互与SE层共享相同的设计[21]，但它们在两个方面有所不同：（1）注意力模块的输入不同。我们的通道交互的输入来自另一个并行分支，而SE层在同一个分支中执行（2）我们仅将通道交互应用于局部窗口自注意中的值，而不是像SE层那样将其应用于模块对于空间相互作用，我们也采用了简单的设计，其由两个11卷积层组成，随后是BN [23]和GELU [18]。详细设计如图2所示。这两个层将通道的数量减少到一个。最后，使用sigmoid层来生成空间注意图。与我们在通道交互中所做的一样，空间注意是由一个-其他分支产生的，其中应用了局部窗口自我注意它具有比深度方向3 × 3卷积更大的核大小（7 × 7），并且关注空间维度，这为深度方向卷积分支提供了强有力的空间线索。混合块。由于上述两个设计，我们减轻了局部窗口自我注意中的两个核心问题我们将它们集成在一起，在标准窗口注意力块的基础上构建一个新的Transformer块，即Mixing Block。如图1所示，混合块由并行设计中的两个有效操作、双向交互（图2）和FFN（前馈网络）组成[38]。它可以用公式表示如下：X= 1+ 1=MIX（LN（X1），W-MSA，CONV）+X1，（1）X1+ 1=FFN（LN（X1+1））+X1+ 1（2）其中，MIX表示实现W-MSA（基于窗口的多头自注意）分支和CONV（深度卷积）分支之间的特征混合的函数MIX函数首先通过两个线性投影层和两个范数层将输入特征投影到并行分支。然后按照图1和图2所示的步骤混合这些特性。对于FFN，我们保持简单并遵循以前的作品[30，36]，这是一个由两个线性层组成的MLP，其中一个GELU [18]在它们之间。此外，我们还尝试添加PVTv2 [40]和HRFormer [53]中所做的深度卷积，这与MLP设计相比没有太大改进（表9）。因此，为了保持块简单，我们在FFN中使用MLP3.2. MixFormer整体架构。在此基础上，我们设计了一个高效的通用视觉Transformer MixFormer，并使用金字塔特征映射。有四个阶段，下采样率分别为4，8，16，32。MixFormer是一种混合视觉Transformer，它在茎层和下采样层中都使用卷积层。此外，我们在阶段的尾部引入了投影层投影层将特征通道增加该方法具有较高的分类性能，尤其适用于较小的模型。在以前的高效网络中可以找到相同的设计，例如MobileNets [19，33]和EfficeintNets [35]。我们的MixFormer的草图如图3所示。阶段1阶段2阶段3阶段4混合块混合块混合块混合块×��1×��2×��3联系我图像卷积股骨柄步幅转换-2×2步幅转换-2×2步幅转换-2×2凸出层分类负责人类5253××××−×−×方法#参数FLOPsTop-1ConvNets表2. 架构变体。MixFormer架构变体的详细配置。架构变体。我们将每个阶段中的块手动堆叠，并格式化不同大小的模型，其计算复杂度从0。7 G（B1）至3。6G（B4）。不同阶段中的块数量是通过以下方法设置的：在最后两个阶段中放置更多的块，这在表10中大致验证。如表2所示，我们提供了模型的详细设置。4. 实验我们在ImageNet-1 K [8]，MS COCO [29]和ADE 20k [55]上验证了MixFormer。首先介绍了图像分类的精度。然后，我们进行迁移学习来评估三个主要任务的模型：对象检测，实例分割和语义分割。此外，还提供了MixFormer中不同设计模块的烧蚀过程和更多视觉任务的结果.4.1. 图像分类Setup. 我们首先通过ImageNet-1 K [8]上的分类来验证我们的方法。为了与经典作品[30，36，41]进行公平的比较，我们训练了300个epoch的所有模型，图像大小为224224 ，并报告Top-1 验证准确度。我们应用AdamW优化器使用余弦衰减时间表。通过遵循较小模型需要较少正则化的规则，我们在训练不同大小的模型时灵活地调整训练设置详情见附录。结果表3将我们的MixFormer与高效的ConvNets [32，35]和各种Vision Transformer [22，27 、 30 、 36 、 41 、 45 、 49] 。 MixFormer 的性能与EfficientNet [35]相当，并且在各种计算预算（从B1到B4）下的显著裕度优于RegNet [32]。我们注意到，对于基于视觉变换器的模型，尤其是小模型，实现这样的结果是不平凡的（FLOPs <1. 0G）。以前的作品，如DeiT [36]和PVT [41]显示性能急剧下降当降低模型复杂性时（7. 7%从DeiT-S到DeiT-T和4.7%从PVT-S到PVT-T）。与Swin Transformer [30]及其变体[22，27，49]相比，Mix-Former显示出更好的性能和更少的计算成本。具体而言，MixFormer-B4达到83.0%Top-1 accu- racy，仅3. 6G浮点运算。它的性能优于Swin-T [30] 1。7%，同时节省20%的计算成本，并给出了COM-与Swin-S [ 30 ]的比喻结果，但2。4倍效率。视觉变形金刚[36]第三十六话6M1.3G72.2[36]第三十六话22M4.6G79.9DeiT-B [36]87M17.5G81.8PVT-T [41]13M1.8G75.1PVT-S [41]25M3.8G79.8PVT-M [41]44M6.7G81.2PVT-L [41]61M9.8G81.7CvT-13 [45]20M4.5G81.6CvT-21 [45]32M7.1G82.5[6]第六话24M3.8G81.2DS-Net-S [31]23M3.5G82.3Swin-T [30]29M4.5G81.3Swin-S [30]50M8.7G83.0双胞胎S [6]24M2.9G81.7LG-T [27]33M4.8G82.1[49]第四十九话29M4.9G82.2[22]第二十二话29M4.6G82.5MixFormer-B1（我们的）8M0.7G78.9MixFormer-B2（我们的）10M0.9G80.0MixFormer-B3（我们的）17M1.9G81.7MixFormer-B4（我们的）35M3.6G83.0表3. ImageNet验证集上的分类精度。性能是用一次224 224作物来衡量的。“Params”指的是参数的数量。“FLOPs” iscalcu- lated under the input scale ofMixFormer的竞争优势在LG-Transformer [27]，FocalTransformer [49]和Shuffle Transformer [22]方面保持不变。此外，我们的MixFormer还可以很好地扩展到更小和更大的模型。更多结果见附录。4.2. 目标检测和实例分割Setup. 我们验证了MixFormer对下游任务的有效性。我们在COCO 2017训练分割上训练Mask R-CNN [16]，并在val分割上评估模型。采用两个训练时间表（1和3）来显示与以前方法的一致性比较[17，27，30，36，49]。对于第1个时间表，我们使用单一大小训练12个epoch（将短边调整为800，同时保持其长边不超过1333）[16]。而在3个时间表（36个epoch）中，我们使用多尺度训练，将短边随机扩展到[480，800]的范围（更多细节见附录）。除了Mask R-CNN [16]，我们还提供了与预处理的比较。[32]第三十二话6M0.8G76.3[32]第三十二话11M1.6G78.0RegNetY-4G [32]21M4.0G80.0RegNetY-8G [32]39M8.0G81.7[35]第三十五话8M0.7G79.1[35]第三十五话9M1.0G80.1[35]第三十五话12M1.8G81.6[35]第三十五话19M4.2G82.9模型通道数块数股骨头数量MixFormer-B1C=32[1、 2、6、 6][二、四、八、十六]MixFormer-B2C=32[二、二、八、八][二、四、八、十六]5254×××××骨干#参数FLOPs掩码R-CNN 1x时间表Mask R-CNN 3x + MS时间表APBAPB50APB75APmAPm50APm75APBAPB50APB75APmAPm50APm75ResNet18 [17]31M-34.054.036.731.251.032.736.957.140.033.653.935.7ResNet50 [17]44M260G38.058.641.434.455.136.741.061.744.937.158.440.1ResNet101 [17]63M336G40.461.144.236.457.738.842.863.247.138.560.141.3ResNeXt101-64×4d[47]101M493G42.863.847.338.460.641.344.464.948.839.761.942.6PVT-T [41]33M-36.759.239.335.156.737.339.862.243.037.459.339.9PVT-S [41]44M245G40.462.943.837.860.140.343.065.346.939.962.542.8PVT-M [41]64M302G42.064.445.639.061.642.144.266.048.240.563.143.5PVT-L [41]81M364G42.965.046.639.561.942.544.566.048.340.763.443.7[6]第六话44M245G42.965.847.140.062.742.946.869.351.842.666.346.0DS-Net-S [31]43M-44.3--40.2--------Swin-T [30]48M264G42.264.646.239.161.642.046.068.250.241.665.144.8双胞胎S [6]44M228G43.466.047.340.363.243.446.869.251.242.666.345.8[49]第四十九话49M291G------47.269.451.942.766.545.9[22]第二十二话48M268G------46.868.951.542.366.045.6MixFormer-B1（我们的）26M183G40.662.644.137.559.740.043.965.648.140.062.942.9MixFormer-B2（我们的）28M187G41.563.345.238.360.641.245.166.949.240.864.143.6MixFormer-B3（我们的）35M207G42.864.546.739.361.842.246.268.150.541.965.645.0MixFormer-B4（我们的）53M243G45.167.149.241.264.344.147.669.552.243.066.746.4表4. 使用Mask R-CNN进行COCO检测和分割。性能报告的COCO阀分裂下1和3时间表。FLOP（G）以分辨率800 1280测量，所有模型都在ImageNet-1 K上进行了预训练。在表中，骨干#参数FLOPs APB APB50 APB75 APm APm50 APm75ResNet50 [17]82M739G46.3 64.350.540.161.743.4Swin-T [30]86M745G50.5 69.354.943.766.647.1[22]第二十二话86M746G50.8 69.655.144.166.948.0MixFormer-B4（我们的）91M721G51.6 70.556.144.967.948.7表5. 使用Cascade Mask R-CNN进行COCO检测和分割。性能报告在 COCOval 分裂下的 3 个时间表。结果表明，MixFormer相对于Swin Transformer有一致的改进。骨干方法#参数FLOPs mIoUss mIoUmsResNet-101 [17]DANet [11]69M小行星111943.6 45.2ResNet-101 [17]DLab.v3+[5]63M1021G45.1 46.7ResNet-101 [17]ACNet [12]--45.9-ResNet-101 [17][50]第50话69M1249G46.0-ResNet-101 [17]OCRNet [52]56M923G-45.3ResNet-101 [17][46]第四十六话86M1029G43.8 44.9HRNet-w48 [39]OCRNet [52]71M664G-45.7DeiT-S [36][46]第四十六话52M1099G44.0-[6]第六话[46]第四十六话55M919G46.2 47.5Swin-T [30][46]第四十六话60M945G44.5 45.8双胞胎S [6][46]第四十六话54M901G46.2 47.1LG-T [27][46]第四十六话64M小行星957G-45.3[49]第四十九话[46]第四十六话62M998G45.8 47.0[22]第二十二话[46]第四十六话60M小行星949G46.6 47.6[46]第四十六话：一个女人35M854G42.043.5[46]第四十六话：一个女人37M859G43.143.9[46]第四十六话：一个女人44M880G44.545.5[46]第四十六话：一个女人63M918G46.848.0表6. ADE20K语义分割。我们使用单尺度（ss）测试和多尺度（ms）测试报告了ADE 20K [55] val分割的分辨率5122048用于测量各种型号的FLOP（G）。vieve基于更强的模型Cascade Mask R-CNN [3，16]，其中进行3×5255×××Mask R-CNN的比较。表4显示Mix-Former在各种模型尺寸下使用Mask R-CNN始终优于其他竞争对手[17，27，30，41，45，49][16 ]第10段。在特别是， MixFormer-B4实现了+2。9（+1. 6）较高的盒mAP和+2。1（+1. 4）面罩mAP高于Swin-T [30]基线（1（3）方案）。此外，MixFormer保持了其在检测和实例分割方面的效率，从而实现了比其他网络更高的性能和更少的计算成本[17，30]。这是一个令人惊讶的是，我们的MixFormer-B1（仅具有0.7G）在Mask R-CNN（1）中表现强劲，超过ResNet- 50（具有4.1G）[17] 2.3盒mAP和2.9掩码mAP。结果表明，在MixFormer中突出了设计高性能检测小模型的意义。级联掩码R-CNN的比较我们还使用Cascade Mask R-CNN [3，16]评估了MixFormer，这是Mask R-CNN[ 16 ]的更强变体。MixFormer-B4与Swin-T [30]（表5）相比提供了稳健的改进，无论检测器如何，因为它显示了相似的增益（+1.1/1.2盒/面罩mAP vs.+1.6/1.4盒/掩模mAP）与掩模R-CNN（3×）上的（表4）。4.3. 语义分割Setup. 我们的实验使用UperNet [46]在ADE20K [55]上进行。对于训练食谱，我们主要遵循[30]中的设置我们在单尺度测试（ss）和多尺度测试（ms）中报告我们的模型的mIoU详情见附录。结果在表6中，MixFormer-B4始终实现比以前的网络更好的mIoU性能。似乎5256××−××××- --技术ImageNet前5名CocoAP框AP掩码ADE20kMiouMixFormer-B1（我们的）78.494.340.337.340.9+移动窗口78.394.140.537.340.7FFN中的+DwConv78.694.440.537.440.9表7. 具有双向交互的并行设计。本表中的基线模型采用逐次设计，区组中无交互作用。窗口大小ImageNet前5名CocoAP髁间盒AP掩模ADE20kMiou1 ×13×35 ×577.1 93.678.4 94.378.4 94.336.3 34.340.3 37.340.3 37.237.640.940.8表8. DwConv中的窗口大小我们为DwConv调查了各种窗口大小。默认情况下，MixFormer对DwConv使用3 3混合块中跨窗口和维度的连接在语义分割上提供更多益处，因为增益大于具有相同主干的检测任务（表4、表5特别是，MixFormer-B4的性能优于Swin-T [30] 2。两百万。此外，MixFormer的其他变体（从B1到B3）也实现了更高的性能，同时比以前的网络更有效。值得注意的是，MixFormer-B3获得45。5 mIoU（与Swin-T [30]相当，但FLOP更少），与OCRNet [52]和HRNet-W 48[39]（45. 7mIoU）。请注意，HRNet [39]经过精心设计，可以聚合不同阶段的特征，而MixFormer只是构建金字塔特征图，这表明进一步改进的巨大潜力。密集型预测任务。4.4. 消融研究Setup. 我们在MixFormer-B1上提供与我们的设计相关的消融。我们报告了ImageNet-1 K [8]分类，COCO [29]检测和分割以及ADE 20 K [55]语义分割的不同设计的所有变化。为了进行快速评估，我们只在ImageNet-1K上训练MixFormer-B1200个epoch [8]。然后，Mask R-CNN [16] （ 1 ）在 MS COCO [29] 和 UperNet [46]（160k）在ADE 20 K [55]上采用预训练模型。请注意，预训练模型的差异提供了与表4和表6中的结果略有不同的结果。消融：是否平行。表7提供了结合局部窗口自注意和深度卷积的方法（连续设计或并行设计）的比较。我们的并行设计始终优于表9. 其他技术。我们将两种技术与我们的MixFormer相结合。当在FFN中插入DwConv时，我们只考虑3×3DwConv。块数通道数FLOPs ImageNet前5名CocoAP框AP掩码 ADE20kMiou[二、二、八、二][32，64， 160，256]0.9G77.7 93.9 40.137.340.6[二、二、六、四][32，64， 128，256]0.9G77.5 93.7 39.636.739.8[一、二、六、二][32，64， 160，320]0.8G77.2 93.5 39.336.640.4[1、 2、6、 6][32，64， 128，256]0.7G78.4 94.3 40.337.340.9表10. 阶段中的块数。在表中，前两个模型和后两个模型彼此共享类似的计算复杂度。跨各种视觉任务的连续设计，这验证了第1节中并行设计能够更好地进行特征表征学习的假设。以下模型默认使用并行设计消融：双向相互作用。表7显示了拟定相互作用的结果。根据结果，我们看到，通道和空间的相互作用都超过了模型，在所有不同的视觉任务之间没有相互作用。结合两个交互可以提高性能，从而使性能持续提高0。ImageNet上的Top-1准确率为3%-1 K，0。九比零。COCO 上的7 盒/面罩mAP ，和1. ADE20K上的1mIoU。考虑到我们只使用简单和轻量级的设计进行双向交互，增益是不平凡的，这表明为局部窗口自注意和深度卷积提供互补线索的有效性。消融：DwConv中的窗口尺寸表8显示，在各种视觉任务中，性能将显著下降（1. 3 ImageNet上的Top-1准确率-1 K，4。0/3。COCO上的0盒/面罩mAP，以及3。如果我们将深度卷积的窗口大小从33减小到11，则ADE20K上的窗口大小为3mIoU。这种现象意味着此外，当我们将窗口大小增加到5 5时，没有观察到明显的进一步增益。因此，我们使用的窗口大小为3×3的效率。消融：其他技术。我们还研究了MixFormer中的其他设计，包括应用移位窗口平行相互作用信道空间ImageNet前5名CocoAP框AP掩码ADE20kMiou✓✓✓✓✓77.478.193.894.138.239.435.736.638.939.8✓78.394.140.137.140.6✓78.394.139.736.640.578.494.340.337.340.9✓∆+1.0+0.5+2.1+1.6+2.05257××∼骨干COCO关键点检测APkpAPkpAPkp50 75ResNet50 [17]71.8 94.9 49.2Swin-T [30]74.2 92.5 82.5[30]第三十话74.5 92.3 82.1MixFormer-B4（我 75.3（+1.1）93.5（+1.0）83.5（+1.0）模型FLOPs Top-1Top-5ResNet50 [36]4.1G78.4-ResNet50 [43]4.1G79.8-ResNet50系列4.1G79.094.3ResNet50 +混合块3.9G80.6（+1.6）95.1（+0.8）[33]第三十三话0.3G72.0-MobileNetV20.3G71.790.3MobileNetV2+SE+非本地网关0.3G72.591.0MobileNetV2 +混合块0.3G73.6（+1.9）91.6（+1.3）表11. 更多下游任务我们将我们的MixFormer与ResNet50 [17]和Swin Transformer [30]在关键点检测和长尾实例分割方面进行了比较。以及在FFN中插入3 3深度卷积，这在以前的工作中发挥了重要作用[30，53]。如表9所示，移位窗口无法提供超过MixFormer的增益我们假设深度卷积在窗口之间建立连接，消除了移位操作的需要。此外，虽然在FFN中插入3 × 3深度卷积可以提供进一步的增益，但MixFormer的改进空间有限。因此，我们默认在FFN中使用MLP。消融：阶段中的阻滞数量。以前的作品通常把更多的块在第三阶段，大大增加了块的数量在该阶段时，缩放模型[17，30，41]。我们展示了一种可以实现目标的替代方法我们大致以积木的方式进行实验。在表10中，通过在最后两个阶段中放置更多块，我们在计算复杂度较低的情况下实现了各种视觉任务的略高性能。我们按照这个配方来构建我们的MixFormer。4.5. 泛化更多下游任务在表11中，我们对另外两个下游任务进行了实验：关键点检测和长尾实例分割。详细的实验设置见附录。COCO关键点检测：在表11中，MixFormer-B4在所有指标中均优于基线模型[17，30]此外，与专门为密集预测任务设计的HRFormer [53LVIS1. 0实例分割：该任务具有1000个长尾分布类别，其依赖于由主干学习的区分特征。结果以Ta-表11显示MixFormer的性能优于Swin-T [30] 1。0AP掩码，这证明了MixFormer中学习的表示的鲁棒性。总结：考虑到MixFormer在之前的任务中给出的有希望的结果：对象检测，实例分割和语义分割，MixFormer可以表12. 将混合块应用于ImageNet-1 K上的ConvNets。我们将我们的混合块引入典型的 ConvNets ， ResNet [17] 和MobileNetV2 [33]。由于不同的训练配方提供不同的准确性[43]，我们还训练ResNet50 [17]和MobileNetV2

下载后可阅读完整内容，剩余1页未读，立即下载