基于Transformer和CNN的CMT网络：超越经典Transformer和高性能卷积模型的视觉变换器

194 浏览量更新于2023-10-25 收藏 775KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12175××× ×××OOCMT：卷积神经网络满足视觉变换器郭家元1，2，韩启汉2，韩武1，唐叶辉2，陈兴浩2，王云和2*，张旭11悉尼大学工程学院计算机科学学院2华为诺亚{jianyuan.guo，kai.han，yunhe.wang} @ huawei.com;c. sydney.edu.au摘要视觉变换器由于其捕获图像内的长距离依赖性的然而，变压器和现有的卷积神经网络（CNN）之间在性能和计算成本方面仍然存在在本文中，我们的目标是解决这个问题，并开发一个网络，它不仅可以超越经典的transformers，而且还可以超越高性能的卷积模型。我们提出了一种新的基于Transformer的混合网络，利用变压器来捕获远程依赖关系，并利用CNN来提取本地信息。此外，我们将其扩展以获得一系列模型，称为CMT，比以前的基于CNN和基于变压器的模型获得更好的准确性和效率权衡。特别是，我们的CMT-S在ImageNet上达到了83.5%的top-1准确率，而FLOP分别比现有的DeiT和EfficientNet提出的CMT-S也很好地推广了 CIFAR 10 （ 99.2% ）， CIFAR 100（91.7%），Flowers（98.7%）和其他具有挑战性的视觉数据集，如COCO（44.3%mAP），计算成本大大降低。1. 介绍在过去的几十年里，CNN [16，46，47，52，53]在计算机视觉领域做出了非凡的贡献，因为它具有提取深度判别特征的能力与此同时，基于自我注意力的转换器[9，58]已经成为自然语言处理（NLP）任务中事实上最流行的模型，并显示出捕获长距离关系的出色能力。最近，许多研究人员试图将基于变换器的架构应用于视觉领域，并在各种任务中取得了有希望的结果，例如图像分类[10，57]，对象检测[2，70]和语义分割[69]。Vi- sion Transformer（ViT）[10]是第一个取代*通讯作者。Mindspore[23]的实现可以在https://gitee.com/mindspore/models/tree/master/research/cv/CMT 上找到。Py-torch [43]实现：https://github.com/huawei-noah/CV-Backbones。传统的CNN骨干与纯Transformer。输入图像（224 2243）首先被分成196个不重叠的补丁（每个补丁的固定大小为16 16 3），类似于NLP中的单词标记。然后将补丁馈送到堆叠的标准Transformer块中，以建模全局关系并提取用于分类的特征。ViT的设计范式极大地启发了以下基于变换器的计算机视觉模型，例如用于低级视觉的IPT [3]和用于语义分割的SETR [69尽管transformers在迁移到视觉任务时表现出了出色的能力，但它们的性能仍然远不如类似大小的卷积神经网络，例如，有效网络[53]。我们认为，这种弱点的原因有三个方面。首先，图像在ViT [10]和其他基于变换器的模型（如IPT [3]和SETR [69]）中被分割成补丁。这样做可以大大简化将Transformer应用于基于图像的任务的过程补丁序列可以直接输入到标准的Transformer中，在那里补丁之间的长距离依赖性可以很好地捕获。然而，它忽略了基于序列的NLP任务和基于图像的视觉任务之间的根本区别，每个片内的2D结构和空间局部信息其次，由于图像块大小固定，变换器难以显式提取低分辨率和多尺度特征，这对检测和分割等密集预测任务提出了很大的挑战。第三，与基于卷积的CNN的（NC2）相比，transformers中自注意模块的计算和内存成本是输入分辨率的二次（（N2C））。高分辨率图像是普遍和常见的，1333800在COCO [35]和2048 1024在Cityscapes [7]。使用transformer处理此类图像不可避免地会导致GPU内存不足和计算效率低下在本文中，我们站在CNN和变压器的交叉点所提出的CMT利用CNN的优点来补偿利用纯变压器时的上述限制如图2（c）所示，输入图像首先通过卷积茎进行细粒度特征提取，并被12176××468444824280407838763674347210 20 30 40 5032200 250300350 400 450 500FLOPs（十亿）(a) ImageNet准确性与FLOPsFLOPs（十亿）(b) COCO mAP与FLOPs图1. CMT与其他模型的性能比较。（a）ImageNet上的Top-1准确率[8]。（b）使用RetinaNet框架的不同骨干的COCO val2017 [35]上的对象检测结果，所有数字均针对单尺度，然后馈送到CMT块的堆栈中用于表示学习。具体地，所引入的CMT块是Transformer块的改进变体，其局部信息通过深度卷积来增强与ViT [10]相比，CMT第一阶段生成的特征可以保持更高的分辨率，即，H/4W/4与ViT中的H/16W/16，这对于其他密集预测任务至关重要此外，我们通过使用步长为2的四个卷积层，采用类似于CNN [16，46，53]的分阶段架构设计，以逐渐降低分辨率（序列长度）并灵活地增加维度。分阶段的设计有助于提取多尺度特征，并减轻了高分辨率带来的计算负担CMT模块中的局部感知单元（LPU）和反向残差前馈网络（IRFFN）可以帮助捕获中间特征中的局部和全局结构信息，提高网络的表示能力。最后，平均池被用来取代类令牌在ViT更好的分类结果。此外，我们提出了一个简单的缩放策略，以获得一个家庭的CMT变体。在ImageNet和其他下游任务上的大量实验证明了我们的CMT在准确性和FLOPs方面的优越性例如，我们的CMT-S实现了83.5%的ImageNet top-1，只有4.0B FLOP，同时分别比现有的最佳DeiT [57]和Efficient-Net [53]低14倍和2倍。除了图像分类，CMT还可以轻松地转移到其他视觉任务中，并作为通用的骨干。使用CMT-S作为主干，RetinaNet [34]可以在COCO val 2017上实现44.3%的mAP，比基于PVT的RetinaNet [60]高3.9%，计算成本更低。2. 相关工作计算机视觉社区在过去几十年中蓬勃发展，在深度学习的浪潮中，最重要的是流行的深度神经网络通常建立在基本块上，其中一系列卷积层被顺序地堆叠以捕获中间特征内的局部信息。然而，小卷积核有限的接收域使得难以获得全局信息，从而阻碍了网络在分类、对象检测和语义分割等具有挑战性的任务上的高性能因此，许多研究人员开始深入研究基于自我注意的转换器，这些转换器具有捕获远程信息的能力。在这里，我们简要回顾了传统的CNN和最近提出的视觉变换器。卷积神经网络。第一个标准CNN是由LeCun等人提出的。[32]对于手写字符识别，在过去的几十年里，许多强大的网络[16，22，31，47，51]在大规模图像分类任务上取得了前所未有的成功 [8] 。AlexNet [31] 和VGGNet [47]表明，由卷积层和池化层组成的深度神经网络可以在识别中获得足够的结果。GoogleNet [51]和InceptionNet [52]证明了基本块中多个路径的有效性。ResNet [16]通过每两层向基础网络添加捷径连接来表现出更好的泛化能力。为了缓解先前研究中有限的感受野，一些研究[20，21，41，45，59，62]将注意力机制作为模态之间适应的算子。Wang等人[59]提出在深度残差网络的中间阶段之间顺序堆叠注意力模块。SENet[21]和GENet [20]通过对通道之间的相互依赖性进行建模，自适应地重新校准通道特征响应。NLNet [61]将自我注意机制纳入神经网络，提供所有空间位置的成对交互，以增强长程依赖性。除了以上的archi-efficientnet-B7CMT-SSwin-B384Swin-BDeiT-B384DeiT-BPVT-MRes152CMT PVT高效网络DeiTSwin ResNet模型[57]第五十七话CPVT-Ti-GAP [6]欧洲电信联盟[67][53]第五十三话CMT-XSResNet-50 [16]DeiT-S [57][44]第四十四话T2T-ViT-14[68]ResNeXt-101 [64]PVT-M [60]Swin-T [36]CPVT-S-GAP [6][67]第六十七话CvT-13-NAS[53]第五十三话CMT-STop1 Acc.#参数浮点数72.2%5M1.3B74.9% 6个月1.3亿76.4% 5M1.2亿12个月18亿14个月15亿76.2%79.8%80.0% 21个月4.0亿21个月48亿84M 32B81.2%81.3%81.5%24个月4.5亿82.2%82.9%83.5%25个月4.0亿CMT-BCMT-SPVT-LCMT-XSPVT-MX-101-64x4dX101-32x4dPVT-S网站地图Res101ConT-MPVT-TRes50模型ConT-M [66]ResNet-101 [16][4]第四届全国政地图浮点数百分之三十七点九217B38.5%315BResNeXt-101-64x4d [64]41.0%473B[36]第三十六话245BCMTResNeXtPVT-M [60]42.0%283BPVTResNetTwins-SVT-S [5]42.3%209B净++ConTCMT-S44.3%230BImageNet Top-1准确度（%）COCO BBox AP（%）12177××∈×随着技术的进步，也有一些工作[13，24，39]专注于通过以效率换取准确性来例如，Mo- bileNets [19，46]和EfficientNets [53]都利用神经架构搜索（NAS）来设计高效的移动规模网络，并取得了最新的成果。视觉变换器。由于transformer在自然语言处理（NLP）[9，58]中取得了显著的成功，因此已经进行了许多尝试[6，10，12，14，33，36，55-开创性的工作ViT [10]直接将继承自NLP的Transformer架构应用于以图像块作为输入的分类。虽然ViT需要大型私有数据集JFT-300 M [49]才能实现预期结果，但DeiT [57]引入了一种新的训练范式，将ViT扩展到直接在ImageNet-1 K上训练的数据高效Transformer。T2 T-ViT [68]提出通过递归地将相邻令牌聚合成一个令牌来嵌入视觉令牌。TNT [68]提出分别通过内部和外部Transformer块对补丁级和像素级表示进行建模PVT [60]将金字塔结构引入ViT，可以为各种像素级密集预测任务生成多尺度特征图。CPVT [6]和CvT [63]与我们的工作最相关，它们利用卷积投影到传统的Transformer块中，但我们仔细研究了如何通过研究包括快捷和归一化函数在内的不同组件来最大限度地利用CNN和transformers的优势，并成功地获得了更优越的结果。此外，transformers还用于解决其他视觉任务，如对象检测[2，70]，语义分割[69]，图像检索[11]和低级视觉任务[3]。虽然有许多工作成功地将transformer应用于视觉任务，但与传统的CNN相比，它们没有表现出令人满意的结果，而传统的CNN仍然是视觉应用的主要架构转换器特别擅长为下游视觉任务所需的长期依赖性建模然而，也应该保持视觉感知的在本文中，我们展示了将基于Transformer的网络与卷积层结合在一起的潜力，整体架构遵循详细的先前卷积神经网络，如ResNet [16]和EfficientNet [53]。3. 方法3.1. 整体架构我们的目的是建立一个混合网络，同时利用CNN和变压器的优势。ResNet-50 [16]，DeiT [57]和CMT架构的拟议小型版本（CMT-S）的概述如图2所示。如图2（b）所示，DeiT直接将输入图像分割成不重叠的块，然而，块内结构真实信息只能用线性投影很差地建模。为了克服这一限制，我们利用干架构[17]，该架构具有步幅为2的3 3卷积和32的输出通道，以减少输入图像的大小，然后是步幅为1的另外两个3 3卷积，以更好地提取局部信息。遵循现代CNN中的设计（例如，ResNet [16]），我们的模型有四个阶段来生成不同尺度的特征图，这对于密集预测任务很重要。为了产生分层表示，在每个阶段之前应用由卷积和层归一化（LN）[1]组成的补丁嵌入层，在每个阶段中，几个CMT块被顺序堆叠用于特征变换，同时保持输入的相同分辨率。例如，CMT-S的“阶段3”包含16个CMT块能够捕获本地和远程依赖关系，我们将在第二节中描述它3.2细节该模型以全局平均池化层、投影层和带有softmax的1000路分类层结束。给定一个输入图像，我们可以得到四个层次具有不同分辨率的特征映射，类似于典型的CNN，如ResNet [16]和EfficientNet [53]。利用上述特征图，其步幅相对于输入为4，8，16和32，我们的CMT可以获得输入图像的多尺度表示，并且可以很容易地应用于下游任务，如对象检测和语义分割。3.2. CMT块建议的CMT块由一个本地捕获单元（LPU），一个轻量级的多头自注意（LMHSA）模块，和一个反向残差前馈网络（IRFFN），如图2（c）所示。我们将在下面描述这三个部分。本地感知单位。旋转和平移是视觉任务中常用的两种数据增强方式，这些操作不应改变模型的最终结果换句话说，我们期望在这些任务中具有翻译不变性[27]然而，在先前的变换器中使用的绝对位置编码，最初被设计为利用令牌的顺序，破坏了这种不变性，因为它向每个补丁添加了唯一的位置编码[6]。此外，视觉变换器忽略了局部关系[38]和斑块内部的结构信息[26]。为了减轻限制，我们提出了局部感知单元（LPU）来提取局部信息，其定义为：LPU（X）= DWConv（X）+X。（一）其中X RH× W × d，HW是当前阶段输入的分辨率，d表示特征的维数。12178输入图像CMT股骨柄2× 2 Conv步幅=2阶段1CMT块×3CMT股骨柄3× 3 Conv步幅=2格卢BN3× 3 Conv格卢BN3× 3 Conv格卢BN轻型MHSAHi × Wi × Ci线性线性CMT块Hi我爱你Wi高×宽×宽×高× C×× C我我我我我局部感知单元2× 2 Conv步幅=2阶段2CMT块×3MHSA3×3 DW转换Hi × Wi ×Ci2× 2 Conv步幅=2阶段3CMT块×16层规范反相残差FFN2× 2 Conv步幅=2阶段4CMT块×3轻型MHSA层规范平均池1× 1转化率格卢BN反相残差FFNBN1×1转换��×��DW Convstride=× ××∈×∈∈∈′∈×d′R和∈H×n∈∈K2∈×K输入图像输入图像曲面片的线性投影[class] token工位埋Transformer编码器LayerNormMHSA分层规范MLPTransformer Block ×121×1转换格卢BN3×3 DW转换[class] token分类器(a) ResNet-50（b）DeiT-S（ViT-S）（c）CMT-S图2. CMT-S架构示例。（a）ResNet-50 [16]。（b）DeiT-S [57]（ViT-S [10]）架构，其中MHSA表示多头自注意模块。（c）拟议的CMT-S，在第二节中描述3 .第三章。更多细节和其他变型在表1中示出。表示深度方向的卷积。轻型多头自我注意。在原始的自注意模型中，输入XRn×d是线性变换的.形成查询QRn× dk，密钥KRn× dk，以及值VRn× dv，其中n=HW是贴片的数量。为了简单起见，我们省略了图2（c）中张量从H W d到n d 符号d、d k和d v分别是输入、键（查询）和值的维度。然后，自我注意模块被应用为：QKTAttn（Q，K，V）= Softmax（Qld）V。（二）为了减轻计算开销，我们使用步长为k的k k深度卷积来减少注意力操作之前K和V的空间大小，即，nK= DWConv（K）K2V = DWConv（V）Rk2×dv，如图2（c）所示。此外，我们为每个自注意力模块添加了一个相对位置偏差B，相应的轻量级注意力定义为：对于其它下游视觉任务，微调所提出的CMT是方便的。最后，通过考虑h，定义了轻量级多头自注意（LMHSA）模块“heads”, hLightweightAttention函数应用于输入。每个头输出一个大小为n×d的序列。然后，这些h序列被连接成n×d序列。反向剩余前馈网络。ViT [10]中提出的原始FFN由两个由GELU激活分离的线性层组成[18]。第一层将尺寸扩大4倍，第二层将尺寸缩小相同的比例：FFN（X）= GELU（XW1+ b1）W2+ b2.（四）其中W1Rd×4d和W2R4d×d分别表示两个线性层的权重。符号b1和b2是偏置项。图2（c）提供了我们设计的示意图。所提出的反向残差前馈网络（IRFFN）看起来类似于反向残差块[46]，其由扩展层、随后是深度卷积和投影层组成。具体-QK′TLightAttn（Q，K，V）=Softmax（Rightd+B）V′。（三）当然，我们改变了快捷连接的位置，以获得更好的性能：其中B∈Rn×n 是随机初始化和可学习的。IRFFN（X）= Conv（F（Conv（X），（5）学习到的相对位置偏差也可以很容易地通过双三次插值转换为具有不同大小m1m2的B′Rm1×m2，即，B′=双三次（B）。因此F（X）= DWConv（X）+X。（六）股骨柄阶段1残留块×3阶段2残留块×4阶段31× 1转换BN ReLU3× 3 ConvBN ReLU1× 1转换BNReLU残留块×6阶段4残留块×3平均池分类器K12179其中省略了活化层。我们还包括激活层和最后一层之后的批量归一化12180≤−≥×··≈22≥2 2 222根据[46]的线性层。深度卷积用于提取局部信息，可以忽略不计的额外计算成本。插入捷径的动机类似于经典残差网络，它可以提高梯度跨层的传播能力一个复合系数，用于以一种原则性的方式均匀地缩放层数（深度）、维度和输入分辨率：深度：α<$，尺寸：β<$，分辨率：γ<$，我们表明，这样的捷径有助于网络在我们的实验中取得S. t. α·β1。5·γ2·2。5，α≥1，β≥1，γ≥1（十七）利用上述三种组分，CMT块可以公式化为：Yi= LPU（Xi−1），（7）Zi= LMHSA（LN（Yi））+Yi，（8）Xi= IRFFN（LN（Zi））+Zi。（九）其中Yi和Zi分别表示第i个块的LPU和LMHSA模块LN表示层归一化[1]。我们在每个阶段堆叠几个CMT块进行特征转换和聚合。3.3. 复杂性分析在本节中，我们分析了标准ViT [10]和CMT之间的计算成本。一个标准的变压器块包括一个MHSA模块和一个FFN。给定大小为n d的输入特征，计算复杂度（FLOPs）可以计算为：O（MHSA）=2nd（dk+dv）+n（dk+dv），（10）O（FFN）=第二个r，（11）其中r是FFN的扩展比，dk和dv分别是键和值的维数更具体地，ViT设置d=dk=dv和r=4，成本可以简化为：其中，α、β和γ是通过网格搜索以决定如何分别向网络深度、维度和输入分辨率分配资源。直观地说，是一个系数，它控制着有多少（1）或更少（101）有资源可用于模型缩放。值得注意的是，所提出的CMT块的FLOP与α，β1近似成比例。5和γ2根据E.q.十六岁我们约束α β1。5γ22. 5，因此对于给定的新浮点数，总FLOPS将大约增加2。5英里。这将在计算成本和性能增益。在我们的实验中，我们根据经验设定α=1.2，β=1.3，γ=1.15。我们构建模型CMT-S，使其具有与DeiT-S（ViT-S）和EfficientNet-B4相似的模型大小和计算复杂度。我们还介绍了CMT-Ti，CMT-XS和CMT-B根据所提出的缩放策略。输入分辨率分别为1602，1922，2242和2562详细的架构超参数如表1所示。4. 实验在本节中，我们通过对几个任务（包括图像分类、对象检测和实例分割）进行实验来研究CMT架构的有效性。我们首先将建议的CMT与先前的最先进的模型进行比较，然后O（Transformer block）= O（MHSA）+O（FFN）= 12nd2 + 2n2d（十二）烧蚀CMT的重要元素。4.1. ImageNet分类在上述设置下，CMT块的FLOP如下：O（LPU）= 9nd，（13）O（LMHSA）=2nd（1 + 1/k）+2ndk，（14）O（IRFFN）= 8nd+ 36nd，（15）O（CMT block）= O（LPU）+ O（LMHSA）+O（IRFFN）=10 nd2（1 + 0. 2/k2）+2n2d/k2+45nd（十六）其中k1是LMHSA中的缩减比。与标准的Transformer块相比，CMT块对计算成本更友好，并且在更高分辨率（较大n）下更容易处理特征图。3.4. 扩展策略受[53]的启发，我们提出了一种新的适合于基于变压器的网络的复合缩放策略，它使用12181≫≪实验设置。 ImageNet [8]是一个图像分类基准，包含1.28M训练图像和1000个类的50K验证图像。为了与最近的作品进行公平的比较，我们采用了与DeiT [57]相同的训练和增强策略，即，使用AdamW [37]优化器对模型进行300个历元的训练（对于需要更多历元才能收敛的CMT-Ti，为800）。所有模型都在8个NVIDIATesla V100 GPU上训练。CMT结果。表2示出了根据E.q. 十七岁与其他基于卷积和基于变换器的模型相比，我们的模型以更少的参数和FLOP特别是，我们的CMT-S实现了83.5%的top-1精度，4.0B FLOPs，[1]珍贵的比例与n和d有关。例如，CMT-S具有n = 3136“阶段1”中d = 64，n = 49d=“第4阶段”中的512。上述比例已经可以产生CMT的良好变体。12182×××表1. ImageNet分类的架构。输出大小对应于224 224的输入分辨率。卷积和CMT块与堆叠块的数量一起显示在括号中（也参见图2（c））。Hi和ki分别是第i阶段LMHSA中的头数和减少率。Ri表示级i的IRFFN中的膨胀比。输出大小图层名称CMT-TiCMT-XSCMT-SCMT-B112× 112干3×3，16，步幅2[3× 3， 16]× 23×3，16，步幅2[3× 3， 16]× 23×3，32，步幅2[3× 3， 32]× 23×3，38，步幅2[3×3，38]× 256× 56贴片嵌入2×2，46，步幅22×2，52，步幅22×2，64，步幅22×2，76，步幅2阶段1LPULMHSAIRFFN3=×3，46H1 1，k 1 = 8×2R 1 = 3。63=×3，52H1 1，k 1 = 8×3R 1 = 3。83=×3，64H1 1，k 1 = 8×3R1=43=×3，76H1 1，k 1 = 8×4R1=428× 28贴片嵌入2×2，92，步幅22×2，104，步幅22×2，128，步幅22×2，152，步幅2阶段2LPULMHSAIRFFN3=×3，92H2 2，k 2 = 4×2R 2 = 3。63×=3，104H2 2，k 2 = 4×3R 2 = 3。83×=3，128H2 2，k 2 = 4×3R2=43×=3，152H2 2，k 2 = 4×4R2=414× 14贴片嵌入2×2，184，步幅22×2，208，步幅22×2，256，步幅22×2，304，步幅2阶段3LPULMHSAIRFFN3×=3，184H3 4，k 3 = 2×10R 3 = 3。63×=3，208H3 4，k 3 = 2×12R 3 = 3。83×=3，256H3 4，k 3 = 2×16R3=43×=3，304H3 4，k 3 = 2×20R3=47× 7贴片嵌入2×2，368，步幅22×2，416，步幅22×2，512，步幅22×2，608，步幅2阶段4LPULMHSAIRFFN3×=3，368H4 8，k 4 = 1×2R 4 = 3。63×=3，416H4 8，k 4 = 1×3R 4 = 3。83×=3，512H4 8，k 4 = 1×3R4=43×=3，608H4 8，k 4 = 1×4R4=41× 1投影1×1，12801× 1分类器全连接层，1000#参数9 .第九条。49米十五岁24M二十五14米四十五72米浮点数0的情况。64B1 .一、54B4.第一章04B9 .第九条。33B比基线模型DeiT-S [57]高3.7%，比CPVT [6]高2.0%，表明CMT阻滞在捕获局部和全局信息方面的受益。请注意，所有先前的基于变压器的模型仍然不如通过彻底的架构搜索获得的EfficientNet [53]，然而，我们的CMT-S比EfficientNet-B4高0.6%，计算成本更低，这证明了所提出的混合结构的有效性，并显示出进一步改进的强大潜力。我们还绘制了图1（a）中的精度-FLOPs曲线，以便直观地比较这些模型。我们可以看到，CMT的表现始终远远优于其他模型。4.2. 消融研究计算成本如表3所示，DeiT-S-4Stage的性能比DeiT-S高1.6%，FLOP更少，这表明CNN中广泛采用的分级设计是促进基于变压器的架构的更好选择。CMT块。CMT中不同模块的消融如表5所示。DeiT-S-4Stage有4个补丁嵌入层（第一个是步幅为4的4× 4卷积该改进显示了基于卷积的柄的益处。此外，建议的LPU和IRFFN可以进一步提高网络的0.8%和0.6%，re-beneficial。值得注意的是，LPU和IRFFN中的快捷连接对最终性能也至关重要阶段式架构。基于Transformer的ViT/DeiT 只能生成单尺度特征图，丢失了大量的多尺度特征，表3. 基于ImageNet的阶段式架构的消融研究。模型参数FLOPs Top-1DeiT-S 22 M 4.6B 79.8% DeiT-S-4级25 M 3.7B 81.4%归一化函数。基于Transformer 的模型通常使用继承自NLP的LN [1]。基于卷积的表5. CMT块消融。型号参数FLOPs Top-1 DeiT-S-4Stage 25 M 3.7B 81.4%+股骨柄25M 3.9B 81.9%+ LPU 25M 3.9B 82.7%不含快捷方式25 M 3.9 B 82.0%+ IRFFN 25M 3.9B 83.3%规模信息对密集预测任务至关重要。我们将列式DeiT-S更改为分层DeiT-S-4Stage，其具有与表1中的CMT-S类似的4个阶段，但保留了模型通常使用批量归一化（BN）[25]来稳定无快捷方式25 M 3.9 B 82.5%+预测25个月4.0亿83.5%原始FFN。我们还将MHSA更改为LMHSA以减少训练。CMT在LMHSA之前维持LN，并且12183表2. CMT的ImageNet结果。CNN和具有类似精度的变压器被分组在一起以进行比较。建议的CMT始终优于其他方法，计算成本更低。模型Top-1 Acc.前5名Acc.吞吐量#参数决议浮点数比CPVT-Ti-GAP [6][22]第二十二话[53]第五十三话CMT-Ti74.9%百分之七十六点二79.1%79.1%-百分之九十三点二94.4%94.5%--- 一千三百二十三点五6M14M7.8M9.5M22422242240216021.3B3.5B0.7B0.6B2.6×7×1.2×1×ResNet-50 [16]百分之七十六点二92.9%-25.6百万224222422242300219224.1B2.0B4.6B1.8B1.5B2.7×1.3×3.1×1.2×1×[65]第六十五话78.9%--11个月DeiT-S [57]百分之七十九点八-940.4 22个月[53]第五十三话81.6%95.7%732.1 12个月CMT-XS百分之八十一点八百分之九十五点八857.4 15.2百万ResNeXt-101-64x4d [64]80.9%百分之九十五点六-84M224222422242224222422242224238022242224232B8.0B6.7B4.5B4.6B8.0B4.5B4.2B8.3B4.0B8×2×1.7×1.1×1.2×2×1.1×1×2.1×1×T2T-ViT-19[68]81.2%--39.0MPVT-M [60]81.2%-528.1 44.2百万Swin-T [36]81.3%-755.2 29个月CPVT-S-GAP [6]百分之八十一点五--23MRegNetY-8GF [4]81.7%-591.6 39.2百万[67]第六十七话82.0%95.9%-24.2M[53]第五十三话百分之八十二点九百分之九十六点四349.4 19个月双胞胎SVT-B[5]百分之八十三点一--56.0MCMT-S83.5%百分之九十六点六562.5 25.1百万ViT-B/16↑384[9]百分之七十七点九82.8%百分之八十三点一百分之八十三点三百分之八十三点三百分之八十三点三百分之八十三点三83.5%百分之八十三点九84.0%84.5%-百分之九十六点三----96.5%96.5%-96.8%96.9%85.9 55.5百万-65.6百万85.9 85.8百万-31.5百万88M 2242288.0 99.2百万-24.2百万-75.1百万-22个月96.9 43个月285.4 45.7百万3842224238423842278.122423842256222425282256277.9B14.1B55.6B24.9B15.4B14.8B12.9B19.3B8.8B19.2B9.3B8.4×1.5倍6.0×2.7×1.5倍1.7×1.4×2.1×1×2.0×1×TNT-B [14]DeiT-B↑384 [57]CvT-21↑384 [63]Swin-B [36]双胞胎SVT-L[5][67]第67话[第48话][54]第五十四话[53]第五十三话CMT-B12184[53]第五十三话CMT-L84.3%百分之八十四点八97.0%97.1%55.1 66个月150.4 74.7百万6002288237B19.5B1.9×1×表4.缩放策略的消融研究。型号（基于CMT-S）FLOPs Top-1FLOPs Top-1比例：α=2.2（仅深度）1.7亿（=-1）80.8%8.6B（B=1）83.4%比例尺：β=1.6（仅尺寸）1.7亿（=-1）81.3% 9.3亿（1）83.8%比例：α=1.3，β=1.3，γ=1.151.5亿（=-1）81.8%9.3B（B=1）84.5%IRFFN，并在卷积层之后插入BN。如果所有的LN都被BN替换，则模型在训练期间不能收敛如果所有的BN被替换为LN，CMT-S的性能下降到83.0%，表明适当的应用规范化函数可以提高最终的性能。扩展策略。表4显示了不同缩放策略下CMT架构的ImageNet结果。一维缩放策略明显劣于所提出的复合缩放策略，尤其是仅深度缩放策略，其结果更差为83.4%对83. 8%的原始CMT-S，当网络扩展时。4.3. 迁移学习4.3.1目标检测和实例分割实验设置。实验在COCO [35]上进行，其中包含80个类的118K训练图像和5K验证图像。我们使用两个典型的框架来评估所提出的CMT-S：RetinaNet [34]和Mask R-CNN [15]，分别用于对象检测和实例分割。具体来说，我们用CMT-S替换了原来的主干，以构建新的检测器。所有模型均在PVT后的标准单尺度和“1x”时间表（12个时期）下进行训练CMT结果。我们分别在表6和表7对于使用RetinaNet作为基本框架的对象检测，CMT-S优于Twins-PCPVT-S[5]，mAP为 1.3%，Twins-SVT-S [5]12185表6.COCO val2017上的物体检测结果。所有模型都使用RetinaNet [34]作为基本框架，并按照“1x”时间表进行训练。FLOP是在1280 × 800输入上计算的。 †表示结果来自[5]。骨干#参数浮点数地图AP50AP75APSAPMAPLConT-M [66]27.0M217B37.958.140.223.040.650.4ResNet-101 [16]56.7M315B38.557.641.021.742.850.4[4]第四届全国政协委员39.0M266B39.458.242.5---ResNeXt-101-32x4d [64]56.4M319B39.959.642.722.344.252.5PVT-S [60]34.2M226B40.461.343.025.042.955.7[36]第三十六话38.5M245B41.562.144.225.144.955.5双胞胎-SVT-S[5]34.3M209B42.363.445.226.045.556.5双胞胎-PCPVT-S[5]34.4M226B43.064.146.027.546.357.3CMT-S（我们的）44.3M231B44.365.547.527.148.359.1表7.COCO val2017实例分割结果。所有模型都使用Mask R-CNN [15]作为基本框架，并在“1x”时间表中进行训练。FLOP在1280× 800输入上计算。†表示结果来自[5]。骨干#参数浮点数AP髁间盒AP髁间盒50AP髁间盒75AP掩模AP掩模50AP掩模75ResNet-101 [16]63.2M336B40.060.544.036.157.538.6PVT-S [60]44.1M245B40.462.943.837.860.140.3ResNeXt-101-32x4d [64]62.8M340B41.962.545.937.559.440.2[36]第三十六话47.8M264B42.264.646.239.161.642.0双胞胎-SVT-S[5]44.0M228B42.765.646.739.662.542.6双胞胎-PCPVT-S[5]44.3M245B42.965.847.140.062.742.9CMT-S（我们的）44.5M249B44.666.848.940.763.943.4表8. 迁移学习结果。模型使用ImageNet预训练的检查点进行微调。†表示结果来自[28]。模型#参数浮点数CIFAR10CIFAR100汽车花宠物ResNet-152† [16][50]第五十话[53]第53话ViT-B/16↑384[9]DeiT-B [57][67]第67话TNT-S↑384 [4]CMT-S（我们的）58.1M 11.3B41.1M 16.1B64.0M 37.2B85.8M 17.6B85.8M 17.6B24.2M 12.9B23.8M17.3B25.1M4.04B97.9%97.9%百分之九十八点九百分之九十八点一百分之九十九点一百分之九十九点一百分之九十八点七99.2%百分之八十七点六87.5%百分之九十一点七87.1%百分之九十点八百分之九十点八90.1%百分之九十一点七百分之九十二百分之九十三点三百分之九十四点七-92.1%94.1%-94.4%97.4%百分之九十八点五百分之九十八点八89.5%百分之九十八点四百分之九十八点六百分之九十八点八百分之九十八点七94.5%百分之九十三点七百分之九十五点四百分之九十三点八-94.9%百分之九十四点七95.2%2.0% mAP。例如，使用Mask R-CNN作为基本框架的分割，CMT-S以1.7%的AP超过Twins-PCPVT- S [5]，以 1.9% 的 AP 超过 Twins-SVT-S [5 我

下载后可阅读完整内容，剩余1页未读，立即下载