MPViT：多路径VisionTransformer实现密集预测任务

6 浏览量更新于2023-10-25 收藏 20.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

............Transformer...TransformerTransformer...............72870MPViT：用于密集预测的多路径Vision Transformer0Youngwan Lee 1,2 Jonghee Kim 1 Jeffrey Willette 2 Sung Ju Hwang 2,301 韩国电子与通信研究院（ETRI） 2 韩国科学技术院（KAIST） 3AITRICS，韩国0摘要0密集计算机视觉任务，如目标检测和分割，需要有效的多尺度特征表示，以便检测或分类具有不同大小的对象或区域。虽然卷积神经网络（CNN）一直是这类任务的主要架构，但最近引入的VisionTransformers（ViTs）旨在取代它们作为骨干网络。与CNN类似，ViTs构建了一个简单的多阶段结构（即从精细到粗糙）来进行多尺度表示，使用单尺度补丁。在这项工作中，与现有的Transformer不同，我们探索了多尺度补丁嵌入和多路径结构，构建了Multi-Path VisionTransformer（MPViT）。MPViT通过使用重叠的卷积补丁嵌入，同时将不同尺度的特征（即序列长度）嵌入到Transformer编码器中，通过多个路径独立地输入Transformer编码器，并聚合生成的特征，从而在相同的特征层面上实现了精细和粗糙特征的表示。由于多样化的多尺度特征表示，我们的MPViT从小型（5M）到基础型（73M）在ImageNet分类、目标检测、实例分割和语义分割等任务上始终表现出优越的性能。01. 引言0自从Transformer[48]被引入以来，它对自然语言处理（NLP）[4, 13,39]产生了巨大影响。同样，VisionTransformer（ViT）[15]的出现也推动了计算机视觉领域的发展。因此，基于Transformer的视觉方法近年来迅猛发展，涵盖了静态图像分类[16, 33, 45, 46, 52, 53, 59,60]、目标检测[5, 11, 63]、语义分割[49,57]以及视频分类[1, 3, 17]和目标跟踪[7, 37, 51]等任务。0多尺度0补丁嵌入0Transformer0单尺度0补丁嵌入0聚合0ViT变种：单尺度补丁 + 单路径结构0我们的方法：多尺度补丁 + 多路径结构0图1. 顶部：最新的ViT变种[33, 54,60]使用单尺度补丁和单路径Transformer编码器。底部：MPViT使用多尺度补丁嵌入，每个嵌入的补丁都经过一条独立的路径到达Transformer编码器，同时实现了精细和粗糙特征的表示。0对于密集预测任务（如目标检测和分割），在区分不同大小的对象或区域时，表示多尺度特征至关重要。现代卷积神经网络（CNN）的骨干网络在卷积核层面[18, 28, 29, 42,43]或特征层面[30, 38,50]上利用多尺度特征，展现出更好的性能。InceptionNetwork [42]或VoVNet[28]在相同的特征层面上利用多粒度卷积核，产生不同的感受野，从而提高检测性能。HRNet[50]通过在卷积层中同时聚合细粒度和粗粒度特征来表示多尺度特征。尽管CNN模型广泛用作密集预测的特征提取器，但目前的最新技术仍然存在局限性。2 × 1023 × 1024 × 10221033738394041424344CoaT-Lite S [59]41.140M249CoaT-S [59]43.742M423Swin-B [33]43.4107M496Focal-B [60]43.7110M533XCiT-M24/8 [16]43.799M144872880最新的Vision Transformers（SOTA）[16, 33, 52-54,59-61]已经超越了CNN的性能。然而，ViT变种[16, 33, 53,54, 60,61]在解决自注意力在高分辨率密集预测中的二次复杂度时，对于构建有效的多尺度表示关注较少。例如，遵循传统的CNN[21, 40]，最近的Vision Transformer骨干网络[33, 53,60,61]构建了一个简单的多阶段结构（例如从精细到粗糙的结构），使用单尺度补丁（即令牌）。CoaT[59]通过使用共尺度机制同时表示精细和粗粒度特征，实现了跨层注意力的并行计算，提高了检测性能。然而，共尺度机制需要大量的计算和内存开销，因为它在基础模型（例如CoaT-Lite）中增加了额外的跨层注意力。因此，对于ViT架构的多尺度特征表示仍有改进空间。在这项工作中，我们关注如何有效地表示VisionTransformers的多尺度特征以用于密集预测任务。受到CNN模型利用多粒度卷积核实现多感受野的启发[18, 28,42]，我们提出了一种用于Transformer的多尺度补丁嵌入和多路径结构方案，称为Multi-Path VisionTransformer（MPViT）。如图1所示，多尺度补丁嵌入同时对不同尺度的视觉补丁进行标记，通过重叠的卷积操作，在适当调整卷积的填充/步幅后，得到具有相同序列长度（即特征分辨率）的特征。然后，不同尺度的令牌被独立地并行输入到Transformer编码器中。每个具有不同尺度补丁的Transformer编码器执行全局自注意力。然后聚合生成的特征，实现了在相同特征层面上的精细和粗糙特征表示。在特征聚合步骤中，我们引入了全局到局部特征交互（GLI）过程，将卷积局部特征与Transformer的全局特征连接起来，充分利用卷积的局部连接性和Transformer的全局上下文。按照DeiT [45]中的标准训练方法，我们在ImageNet-1K[12]上训练MPViTs，与最新的SOTA Vision Transformers[16, 33, 54, 59,60]相比，始终实现了更好的性能。此外，我们在COCO数据集上验证了MPViT作为骨干网络在目标检测和实例分割上的性能，以及在ADE20K数据集上的语义分割性能，均取得了最先进的结果。特别是，MPViT-Small（22M和4GFLOPs）在图2中超过了最近的、更大的SOTA Focal-Base[60]（89M和16GFLOPs）。总之，我们的主要贡献如下：0•我们提出了一种多尺度嵌入的多路径结构，用于同时表示密集预测任务的细粒度和粗粒度特征。0FLOPs (G)0COCOmaskAP(%)0T0XS0S0MPViT-B0Mini0CoaT-Lite S0Mini0T0S Focal-B0T0S Swin-B0T120S120S240XCiT-M24/80T0S0M PVT-L0ResNet-500ResNet-1010ResNeXt-1010图2. FLOPs与Mask R-CNN上的COCO maskAP之间的对比。MPViT在拥有更少参数和FLOPs的情况下胜过最先进的视觉Transformer。模型名称末尾的B、S、XS和T分别表示基础、小型、超小型和微小型。完整结果请参见表3。0•我们引入了全局到局部特征交互（GLI）来充分利用卷积的局部连接性和Transformer的全局上下文。0•我们提供了消融研究和定性分析，分析了不同路径维度和补丁尺度的影响，发现了高效且有效的配置。0•我们验证了MPViT作为密集预测任务的骨干网络的有效性，在ImageNet分类、COCO检测和ADE20K分割任务上取得了最先进的性能。02. 相关工作0用于密集预测的视觉Transformer。当前最先进的视觉Transformer [ 16 , 33 , 53 , 59 – 61 ]主要致力于减少自注意力在高分辨率密集预测中的二次复杂度。[ 33 , 60 , 61 ]通过细粒度的局部区域补丁限制注意力范围，并将其与滑动窗口或稀疏的全局注意力相结合。[ 53 , 54 ]通过空间降维（即池化）减少序列长度，利用粗粒度的全局自注意力。[ 16 , 59 ]通过在特征通道而不是标记上操作自注意力实现线性复杂度。虽然[ 33 , 53 , 60 , 61 ]具有简单的金字塔结构（从精细到粗糙），XCiT [ 16 ]具有与ViT [ 15 ]相同的单阶段结构。在应用于密集预测任务时，XCiT在在ImageNet上预训练后添加了下采样/上采样层以提取多尺度特征。Xu等人[ 59]引入了具有简单金字塔结构的CoaT-Lite和在其上的跨层注意力。0模型 mAP 参数 GFLOPs0MPViT-S (我们的) 43.9 43M 26872890多路径Transformer块0多尺度Patch嵌入0! × #0! 4 × #0! 8 × #0! 16 ×#0! 32 ×#0卷积干节点0多尺度Patch嵌入0Transformer0编码器0Transformer0编码器0Transformer0编码器0全局到局部特征交互0卷积局部特征0多路径Transformer块0多尺度Patch嵌入0多路径Transformer块0多尺度Patch嵌入0多路径Transformer块0多尺度Patch嵌入0多路径Transformer块0全局到局部特征交互0Transformer0编码器0卷积局部特征01×1卷积01×1卷积03×30DWConv0层归一化0FFN0分解0MHSA0层归一化0连接01×1卷积0图3.多路径视觉Transformer（MPViT）概述。MPViT由多尺度补丁嵌入（MS-PatchEmbed）和多路径Transformer（MP-Transformer）块组成，为密集预测任务的每个阶段输出特征。Transformer编码器利用分解的多头自注意力（MHSA）[59]。为简化起见，我们省略了卷积位置编码。0CoaT-Lite。跨层注意力使CoaT优于CoaT-Lite，但需要大量的内存和计算开销，限制了模型的扩展。与同时进行的工作的比较。CrossViT[6]也利用不同的补丁大小（例如小和大）和单阶段结构中的双路径，如ViT [15]和XCiT[16]。然而，CrossViT的分支之间的交互仅通过[CLS]令牌进行，而MPViT允许不同尺度的所有补丁进行交互。此外，与CrossViT（仅分类）不同，MPViT更普遍地探索更大的路径维度（例如超过两个）并采用多阶段结构进行密集预测。03. 多路径视觉Transformer03.1. 架构0图3显示了多路径视觉Transformer（MPViT）架构。由于我们的目标是探索用于密集预测的强大骨干网络，我们构建了一个多阶段架构[33, 53, 60]，而不是像ViT [15]和XCiT[16]那样的单阶段（即整体）架构。具体而言，我们构建了一个四阶段的特征层次结构，用于生成不同尺度的特征图。由于多阶段架构具有更高分辨率的特征，因此需要更多的计算。因此，我们使用包括分解自注意力在内的Transformer编码器，因为它具有线性复杂度，与CoaT[59]中所做的一样。在LeViT[19]中，卷积干块显示出比非重叠补丁嵌入更好的低级表示（即不丢失显著信息）。受LeViT的启发，给定尺寸为H×W×3的输入图像，我们也采用了一个干块。0它由两个通道为C2/2、C2和步幅为2的3×3卷积层组成，生成大小为H/4×W/4×C2的特征，其中C2是第2阶段的通道大小。每个卷积后面跟随批量归一化[25]和Hardswish[22]激活函数。从第2阶段到第5阶段，我们在每个阶段中堆叠了提出的多尺度补丁嵌入（MS-PatchEmbed）和多路径Transformer（MP-Transformer）块。许多研究[8, 15, 19,53]已经证明，用最终特征图的全局平均池化（GAP）替换[CLS]令牌不会影响性能，因此我们也删除了[CLS]令牌并使用GAP来简化。03.2. 多尺度补丁嵌入0我们设计了一个多尺度补丁嵌入（MS-PatchEmbed）层，同时利用细粒度和粗粒度的视觉标记在同一特征级别上。为此，我们使用具有重叠补丁的卷积操作，类似于CNNs [21,40]和CvT[54]。具体而言，给定来自前一阶段的二维重塑输出特征图（即令牌图）Xi∈RHi−1×Wi−1×Ci−1作为第i阶段的输入，我们学习一个将Xi映射到新令牌Fk×k(Xi)的函数Fk×k(∙)，其通道大小为Ci，其中F(∙)是核大小（即补丁大小）k×k，步幅s和填充p的二维卷积操作。输出的二维令牌图Fk×k(Xi)∈RHi×Wi×Ci的高度和宽度如下：0H_i = �H_i−10s +1 �，W_i = �W_i−1 − k 0s +1 �。0（1）卷积补丁嵌入层使我们能够通过改变步幅和填充来调整令牌的序列长度。即，可以输出same size (i.e., resolution) with different patch sizes. Thus,we form several convolutional patch embedding layers withdifferent kernel sizes in parallel. For example, as shown inFig. 1, we can generate various-sized visual tokens of thesame sequence length with 3 × 3, 5 × 5, 7 × 7 patch sizes.Since stacking consecutive convolution operations withthe same channel and filter sizes enlarges receptivefield (e.g., two 3 × 3 are equivalent to 5 × 5) and requiresfewer parameters (e.g., 2 × 32 < 52), we choose consecu-tive 3 × 3 convolution layers in practice. For the triple-pathstructure, we use three consecutive 3 × 3 convolutions withthe same channel size C′, padding of 1 and stride of s wheres is 2 when reducing spatial resolution otherwise 1. Thus,given a feature Xi ∈ RHi×Wi×Ci at stage i, we can getF33(Xi), F55(Xi), F77(Xi) features with the same size72900s × C'。由于 MPViT由于多路径结构具有更多的嵌入层，因此我们采用 3 × 3深度可分离卷积[9,23]来减少模型参数和计算开销，该卷积由 3 × 3深度卷积和 1 × 1 点卷积组成。所有卷积层后面都跟随Batch Normalization[25] 和 Hardswish[22]激活函数。最后，不同大小的令牌嵌入特征分别输入到每个Transformer 编码器中。03.3. 全局到局部特征交互0尽管 Transformer中的自注意力可以捕捉长程依赖关系（即全局上下文），但很可能忽略结构信息[26]和每个补丁内的局部关系[35]。此外，Transformer受益于“形状偏差”[47]，使其能够专注于图像的重要部分。相反，CNN 可以利用平移不变性的局部连接性[27, 47] -图像中的每个补丁都由相同的权重进行处理。这种归纳偏差鼓励 CNN在对视觉对象进行分类时更强烈地依赖纹理而不是形状[2]。因此，MPViT 以互补的方式将 CNN 的局部连接性与Transformer的全局上下文相结合。为此，我们引入了一个全局到局部特征交互模块，用于学习如何交互局部和全局特征以获得丰富的表示。具体而言，为了表示第 i 阶段的局部特征 Li ∈RH_i × Wi × Ci，我们采用深度残差瓶颈块，该块由 1 × 1卷积、3 × 3 深度卷积和与 Ci 相同通道大小的 1 × 1卷积以及残差连接[21]组成。使用来自每个 Transformer的二维重塑全局特征 Gi,j ∈ RH_i × Wi ×Ci。通过串联来聚合局部和全局特征，0A_i = Concat([L_i, G_i,0, G_i,1, ..., G_i,j]) (2)0X_i+1 = H(A_i), (3)0MPViT #Layers Channels Param. GFLOPs0Tiny (T) [1, 2, 4, 1] [64, 96, 176, 216] 5.7M 1.5 XSmall (XS) [1, 2, 4, 1][64, 128, 192, 256] 10.5M 2.9 Small (S) [1, 3, 6, 3] [64, 128, 216,288] 22.8M 4.7 Base (B) [1, 3, 8, 3] [128, 224, 368, 480] 74.8M 16.40表 1. MPViT 配置。MPViT 模型在每个阶段中使用路径[2,3,3,3]。#Layers 和 Channels 分别表示每个阶段的Transformer 编码器数量和嵌入维度。所有模型都使用 8 个Transformer 头部。Tiny 模型和其他模型的 MLP 扩展比率分别为2 和 4。FLOPs 使用 224 × 224 的输入图像进行测量。0其中 j 是路径的索引，A_i ∈ RH_i × Wi × (j+1)Ci是聚合特征，H(∙)是一个学习与特征交互的函数，产生下一阶段通道维度为Ci+1 的最终特征 X_i+1 ∈ RH_i × Wi ×(Ci+1)。我们使用通道为 Ci+1 的 1 × 1 卷积进行H(∙)。最终特征 X_i+1作为下一阶段的多尺度补丁嵌入层的输入。03.4. 模型配置0为了减轻多路径结构的计算负担，我们使用 CoaT[59]中提出的高效分解自注意力：0FactorAtt(Q, K, V) = Q √0C(softmax(K)�V), (4)0其中，Q、K、V ∈ R N × C是线性投影的查询、键和值，N、C分别表示令牌的数量和嵌入维度。为了保持可比较的参数和FLOPs，增加路径的数量需要减少通道 C 或层数 L（即Transformer 编码器的数量）。具有 N 个令牌和 h 个Transformer 编码器头部的 L分解自注意力层[59]的总时间复杂度为O(LhNC^2)，内存复杂度为 O(LhC^2 +LhNC)。这些复杂度相对于通道 C 是二次的，相对于层数 L是线性的。因此，我们通过减少 C 而不是 L来扩展路径的数量。我们在消融研究中验证了减少 C 比减少L 获得更好的性能（见表 5）。由于第 2阶段的计算成本相对较高，由于更高的特征分辨率，我们还将路径的数量设置为 2，用于三路径模型的第 2阶段。因此，从第 3 阶段开始，三路径模型有 3条路径。有趣的是，我们还发现，虽然三路径和双路径在ImageNet分类上的准确性相似，但三路径模型在密集预测任务中表现更好。这表明，通过扩展路径维度获得的多样特征对于密集预测任务是有用的。因此，我们基于三路径结构构建MPViT 模型。我们将 MPViT 模型从小规模的MPViT-Tiny（5M）扩展到对应的 CoaT-LiteTiny（5M）[59] 或 DeiT-Tiny（5.7M）[45]，到DeiT-T [45]5.71.372.2ICML21XCiT-T12/16 [16]7.01.277.1NeurIPS21MPViT-T5.81.678.2 (+1.6)CoaT-Lite Mi [59]11.02.078.9ICCV21MPViT-XS10.52.980.9 (+2.0)ResNet-50 [21]25.64.176.1CVPR16PVT-S [53]24.53.879.8ICCV21DeiT-S/16 [45]22.14.679.9ICML21Swin-T [33]29.04.581.3ICCV21CvT-13 [54]20.04.581.6ICCV21XCiT-S12/16 [16]26.04.882.0NeurIPS21Focal-T [60]29.14.982.2NeurIPS21CoaT S [59]22.012.682.1ICCV21CrossViT-15 [6]28.26.182.3ICCV21CvT-21 [54]32.07.182.5ICCV21CrossViT-18 [6]43.39.582.8ICCV21MPViT-S22.84.783.0 (+1.1)MPViT-B74.816.484.372910大规模MPViT-Base（74M）对应于Swin-Base（88M）[33]。所有MPViT模型都使用8个Transformer编码器头，Tiny和其他模型的MLP的扩展比例分别设置为2和4。MPViT的详细信息在表1中描述。04.实验0在本节中，我们评估MPViT作为视觉骨干的有效性和多功能性，包括图像分类（ImageNet-1K[12]），密集预测，如目标检测和实例分割（COCO[32]），以及语义分割（ADE20K [62]）。04.1. ImageNet分类0实验设置。我们在ImageNet-1K[12]数据集上进行分类。为了与最新的研究进行公平比较，我们遵循DeiT [45]中的训练方法，其他基线Transformer[33，52，53，59，60]也是如此。我们使用AdamW[34]优化器进行300个epoch的训练，批量大小为1024，权重衰减为0.05，进行五个预热epoch，并使用初始学习率为0.001的余弦衰减学习率调度器进行缩放。我们将每个图像裁剪为224×224，并使用与[45，59]中相同的数据增强。随机深度丢弃[24]仅用于Small和Base大小的模型，其中我们将率分别设置为0.05和0.3。更多细节请参见附录。0结果。表2总结了根据模型大小的性能比较。为了公平比较，我们仅比较使用224×224输入分辨率且没有蒸馏[45]或更大分辨率的模型，MPViT模型始终优于具有类似参数数量和计算复杂性的SOTA视觉Transformer架构。MPViT-XS和Small相对于单路径基线CoaT-LiteMini和Small分别提高了2.0％和1.1％。MPViT-Small还优于CoaTSmall，同时GFLOPs减少了约3倍。此外，MPViT-Small优于更大的模型，如PVT-L，DeiT-B/16和XCiT-M24/16。MPViT-Base（74M）达到84.3％，超过了使用更多参数的最新SOTA模型，如Swin-Base（88M）和Focal-Base（89M）。有趣的是，MPViT-Base优于使用更复杂的训练方法[16，46]训练的XCiT-M24/16，后者使用了更多的训练轮次（400），LayerScale和不同的裁剪比例。04.2. 目标检测和实例分割0实验设置。我们使用RetinaNet [31]和Mask R-CNN[20]对MPViT进行目标检测和实例分割的有效特征提取器进行验证。我们在COCO[32]数据集上对我们的模型进行基准测试。我们预训练模型0模型参数（M）GFLOPs Top-1 参考0CoaT-Lite T [59] 5.7 1.6 76.6 ICCV210ResNet-18 [21] 11.7 1.8 69.8 CVPR16 PVT-T [53] 13.2 1.9 75.1 ICCV21XCiT-T24/16 [16] 12.0 2.3 79.4 NeurIPS21 CoaT Mi [59] 10.0 6.8 80.8ICCV210CoaT-Lite S [59] 20.0 4.0 81.9 ICCV210ResNeXt-101 [58] 83.5 15.6 79.6 CVPR17 PVT-L [53] 61.4 9.8 81.7ICCV21 DeiT-B/16 [45] 86.6 17.6 81.8 ICML21 XCiT-M24/16 [16] 84.016.2 82.7 NeurIPS21 Swin-B [33] 88.0 15.4 83.3 ICCV21 XCiT-S12/8[16] 26.0 18.9 83.4 NeurIPS21 Focal-B [60] 89.8 16.0 83.8 NeurIPS210表2.ImageNet-1K分类。这些模型是在224×224分辨率下训练的。为了公平比较，我们不包括经过蒸馏[45]或使用384×384分辨率的模型。请注意，CoaT-Lite [59]模型是我们的单路径基准。0在ImageNet-1K上训练骨干网络，并将预训练的骨干网络插入到RetinaNet和Mask R-CNN中。根据常见设置[20,55]和Swin-Transformer的训练方法[33]，我们使用多尺度训练策略[5, 33,41]对模型进行3×训练（36个epochs）[55]。我们使用AdamW[34]优化器，初始学习率为0.0001，权重衰减为0.05。我们基于detectron2[55]库实现了模型。更多细节请参阅附录。0结果。表3显示，MPViT模型在目标检测和实例分割上始终优于最近的、大小相当的SOTATransformer模型。对于RetinaNet，MPViT-S的准确率达到了47.6%，相比于Swin-T [33]和Focal-T[60]，提高了2.1-2.6%。有趣的是，MPViT-S(32M)相比于更大的Swin-S (59M) / B (98M)和Focal-S(61M) / B(100M)在表2中具有更高的分类准确率，这表明了所提出的多尺度补丁嵌入和多路径结构可以表示比简单的多尺度结构模型更多样化的多尺度特征，而目标检测需要尺度不变性。值得注意的是，与Swin-相比，Swin-B和Focal-B的性能有所下降。BackboneParams. (M)GFLOPsAP b507550755075SMAP bLXCiT-T12/16 [16]2620042.764.346.438.561.241.1------XCiT-T12/8 [16]2626644.566.448.840.463.543.3------MPViT-T28 (17)216 (196)44.866.949.241.064.244.144.465.547.429.948.356.1PVT-T [53]33 (23)240 (221)39.862.243.037.459.339.939.459.842.025.542.052.1CoaT Mini [59]3030746.567.950.741.865.344.8------CoaT-Lite Mini [59]3121042.964.746.738.961.641.7------MPViT-XS30 (20)231 (211)46.668.551.142.365.845.846.167.449.331.450.258.4PVT-S [53]44 (34)305 (226)43.065.346.939.962.542.842.262.745.026.245.257.2XCiT-S12/16 [16]4428545.367.149.540.864.043.8------Swin-T [33]48 (39)267 (245)46.068.150.341.665.144.945.065.948.429.748.958.1XCiT-S12/8 [16]4355047.068.951.742.366.045.4------Focal-T [60]49 (39)291 (265)47.269.451.942.766.545.945.566.348.831.249.258.7CoaT S [59]4242349.070.253.843.767.547.1------CoaT-Lite S [59]4024945.767.149.841.164.144.0------MPViT-S43 (32)268 (248)48.470.552.643.967.647.547.668.751.332.151.961.2PVT-M [53]64 (54)392 (283)44.266.048.240.563.143.543.263.846.127.346.359.9PVT-L [53]81 (71)494 (345)44.566.048.340.763.443.743.463.646.126.146.059.5XCiT-M24/16 [16]10152346.768.251.142.065.544.9------XCiT-S24/8 [16]6589248.169.553.043.066.546.1------XCiT-M24/8 [16]99144848.570.353.443.767.546.9------Swin-S [33]69 (60)359 (335)48.570.253.543.367.346.646.467.050.131.050.160.3Swin-B [33]107 (98)496 (477)48.569.853.243.466.849.645.866.449.129.949.460.3Focal-S [60]71 (62)401 (367)48.870.553.643.867.747.247.367.851.031.650.961.1Focal-B [60]110 (101)533 (514)49.070.153.643.767.647.046.967.850.331.950.361.5MPViT-B95 (85)503 (482)49.570.954.044.568.348.348.369.551.932.352.262.3Swin-T [33]59M94544.5Focal-T [60]62M99845.8XCiT-S12/16 [16]54M96645.9XCiT-S12/8 [16]53M123746.6XCiT-S24/16 [16]76M105346.9Swin-S [33]81M103847.6XCiT-M24/16 [16]112M121347.6Focal-S [60]85M113048.0Swin-B [33]121M184148.1XCiT-S24/8 [16]74M158748.1XCiT-M24/8 [16]110M216148.4Focal-B [60]126M135449.072920Mask R-CNN 3×计划+MS RetinaNet 3×计划+MS0表3. 使用RetinaNet [ 31 ]和Mask R-CNN [ 20 ]进行COCO检测和实例分割。模型使用3×调度[ 55 ]和多尺度训练输入（MS）[ 33 , 41]进行训练。所有骨干网络都在ImageNet-1K上进行了预训练。我们省略了在更大数据集（例如ImageNet-21K）上预训练的模型。MaskR-CNN的参数/FLOPs在括号中跟随RetinaNet。0对于S和Focal-S，MPViT-B优于MPViT-S，显示MPViT可以很好地扩展到大型模型。对于MaskR-CNN，MPViT-XS和MPViT-S在性能上优于单路径基线CoaT [ 59 ]-LiteMini和Small。与将并行块添加到CoaT-Lite以及额外的跨层注意力的CoaT相比，MPViT-XS优于CoaTMini，而MPViT-S显示出较低的box AP b但更高的maskAPm。值得注意的是，尽管CoaT-S和MPViT-S的性能相当，但MPViT-S需要更少的计算。这个结果表明，MPViT可以有效地表示多尺度特征，而无需CoaT的额外跨层注意力。值得注意的是，MPViT-S的maskAP（43.9%）高于XCiT-M24/8或Focal-B等更大的模型，同时计算量要小得多。04.3. 语义分割0设置。我们进一步评估MPViT在ADE20K [ 62]数据集上进行语义分割的能力。我们将UperNet [ 56]部署为分割方法，并将ImageNet-1k预训练的MPViT集成到UperNet中。根据[ 16 , 33]，为了公平比较，我们使用批量大小为16的模型进行160k次迭代训练，使用AdamW [ 34]优化器，学习率为6e-5，权重衰减为0.01。我们使用mmseg [ 10 ]库实现MPViT。更多细节请参见附录。0骨干参数 GFLOPs mIoU0MPViT-S 52M 943 48.30MPViT-B 105M 1186 50.30表4. 使用Uper-Net [ 56]进行ADE20k语义分割结果。为了公平比较，我们不包括在更大数据集（即ImageNet-21K）上预训练的模型。结果。如表4所示，我们的MPViT模型在相似大小的最新SOTA架构上始终表现出色。MPViT-S的性能（48.3%）比其他Swin-T、Focal-T和XCiT-S12/16高出很大的幅度，分别为+3.8%、+2.5%和+2.4%。有趣的是，MPViT-S还超过了更大的模型，例如Swin-S/B、XCiT-S24/16、-M24/16、-S24/8和Focal-S。此外，MPViT-B的性能也超过了最新（更大）的SOTA Transformer，Focal-B [ 60]。这些结果表明了MPViT的多样化特征表示能力，这源于其多尺度嵌入和多路径结构，使得MPViT在像素级密集预测任务上非常有效。72930路径规格参数 GFLOPs 内存图像/秒 Top-1 AP box AP mask0单核 [1,1,1,1]P [2,2,2,2]L [64, 128, 320, 512]C 11.0M 1.9 9216 1195 78.9 40.2 37.30(a) 双核 [2,2,2,2]P [ 1,2,4,1 ]L [ 64, 128, 256, 320 ]C 10.9M 2.6 6054 945 80.7 +1.8 42.6 +2.4 39.1 +1.80(b) 三核 [2,3,3,3]P [1,1,2,1]L [ 64, 128, 256, 320 ]C 10.8M 2.3 6000 1080 79.8 +0.9 41.4 +1.2 38.0 +0.70(c) 三核 [2,3,3,3]P [ 1,2,4,1 ]L [64, 128, 192, 256]C 10.1M 2.7 5954 803 80.5 +1.6 43.0 +2.8 39.4 +2.10(d) 四核 [2,4,4,4]P [ 1,2,4,1 ]L [64, 96, 176, 224]C 10.5M 2.6 5990 709 80.5 +1.6 42.4 +2.2 38.8 +1.50表5. 探索路径维度。Spec表示[#每个阶段的路径]P，[#每个阶段的层]L和[#每个阶段的维度]C。我们在V100GPU上使用批量大小为256来测量推理吞吐量和GPU峰值内存使用情况。注意，单路径是CoaT-Lite Mini [59]。0路径参数 GFLOPs Top-1 AP b /AP m0单路径（CoaT-Lite Mini）11.01M 1.99 78.9 40.2 / 37.30+ 三路径（p=[3,5,7]，并行）10.18M 2.78 80.3 41.7 / 38.4 +三路径（p=[3,3,3]，串行）10.15M 2.67 80.5 43.0 / 39.40+ GLI（求和）10.13M 2.82 80.3 43.0 / 39.5 + GLI（连接）10.57M 2.9780.8 43.3 / 39.70表6. 组件分析。04.4.

下载后可阅读完整内容，剩余1页未读，立即下载