MaxViT：高效的可扩展注意力模型与混合卷积的视觉骨干

4 浏览量更新于2023-12-01 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文arXiv：2204.01697v4 [cs.CV] 2022年9MaxViT：多轴视觉Transformer屠正中1、 2、侯赛因·塔莱比1、张涵1、杨锋1、佩曼·米兰法尔1、阿兰·博维克2、李银晓11谷歌研究2德克萨斯大学奥斯汀分校抽象的。变形金刚最近在计算机视觉社区获得了极大的关注。然而，自我注意机制相对于图像大小的可扩展性的缺乏限制了它们在最先进的视觉骨干中的广泛采用。本文介绍了一种高效的可扩展的注意力模型--多轴注意力模型，它包括两个方面：阻塞的局部注意力和扩张的全局注意力。这些设计选择允许在任意输入分辨率上的全局-局部空间交互，仅具有线性复杂度。我们还提出了一个新的架构元素，通过有效地混合我们提出的注意力模型与卷积，并相应地提出了一个简单的分层视觉骨干，称为MaxViT，通过简单地重复多个阶段的基本构建块。值得注意的是，MaxViT能够在整个网络中“看到”全局，即使在早期的高分辨率阶段也是如此我们证明了我们的模型在广泛的视觉任务的有效性。在图像分类方面，MaxViT在各种设置下都达到了最先进的性能：在没有额外数据的情况下，MaxViT达到了86.5%的ImageNet-1 K top-1准确率;在ImageNet-21K预训练的情况下，我们的模型达到了88.7%的top-1准确率。对于下游任务，MaxViT作为骨干在目标检测和视觉美学评估方面提供了良好的性能。我们还表明，我们提出的模型在ImageNet上表达了强大的生成建模能力，证明了MaxViT块作为通用视觉模块的优越潜力。源代码和训练模型将在www.example.com上https://github.com/google-research/maxvit。关键词：Transformer，图像分类，多轴注意。1介绍自AlexNet [48]以来，卷积神经网络（ConvNets）一直是计算机视觉的主要架构设计选择[29，48，75，76]。Con-vNets继续通过更深[75]，更宽[74，76]，增加密集连接[37]，有效的可分离卷积[35，70]，atrous卷积[9]，使用编码器-解码器框架[67]，甚至引入现代微设计组件[57]来解决许多视觉问题。与此同时，受自然语言处理[20，49，63，100]中自我注意力模型（如变形金刚[85]）演变的启发，许多研究人员开始引入注意力+v：mala2255获取更多论文2Z. Tu等8584吨83M-SCSWinFocalSwinT2T-ViTMaxViT-LM-BCoAtNetConvNeXtCait8786M-T8584M-SSwinCswinM-BMaxViT-LCoAtNet转换新XtEffNetV2NFNet82戴特818083T2T-ViT82DeiT818079051015202530354045FLOPs（G）79306090120150180210参数（M）(a) ImageNet-1 K训练集下的精度与FLOPs性能缩放曲线，输入分辨率为224×224。(b) ImageNet-1 K微调设置下的精度与参数缩放曲线，允许更高的尺寸（384/512）。图1：MaxViT与ImageNet-1 K上最先进的视觉变换器的性能比较。我们的模型在精度与计算和精度与参数的权衡方面表现出优越的性能。[6 ， 88] 。 Vision Transformer （ ViT ） [22] 可能是第一个完全基于Transformer的视觉架构，其中图像补丁被简单地视为单词序列，并在这些视觉令牌上应用Transformer编码器当在大规模数据集上进行预训练时[73]，ViT可以在图像识别方面取得令人信服的结果。然而，已经观察到，如果没有广泛的预训练[22，81]，ViT在图像识别方面表现不佳。这是由于变压器的强模型能力，即充满较少的电感偏差，这导致过拟合。为了适当地正则化模型容量并提高其可扩展性，许多后续工作研究了为局部注意力等视觉任务量身定制的稀疏Transformer模型[16，50，56，99]。这些方法通常重新引入分层架构来补偿非局部性的损失。Swin Transformer [56]就是这样一个成功的尝试，通过在移位的非重叠窗口上应用自注意力来修改这种方法第一次在ImageNet基准测试中使用纯视觉Transformer超越了ConvNets。尽管比ViT中使用的完全注意力具有更大的灵活性和可推广性，但由于非局部性的损失，基于窗口的注意力被观察到具有有限的模型容量，并且此后在ImageNet-21 K和JFT等较大的数据体系上不利地扩展[19]。然而，在分层网络的早期或高分辨率阶段通过全注意力获取全局交互在计算上是繁重的，因为注意力运算符需要二次复杂度。如何有效地结合全局和局部的相互作用，以平衡模型的能力和泛化能力下的计算预算仍然是具有挑战性的。在本文中，我们提出了一种新型的Transformer模块，称为多轴自关注（Max-SA），它能够作为一个基本的架构组件ImageNet Top-1准确度[%]ImageNet Top-1准确度[%]+v：mala2255获取更多论文MaxViT：多轴视觉Transformer 3其可以在单个块中执行局部和全局空间交互。与完全自我注意相比，Max-SA具有更大的灵活性和效率，即：，自然适应不同的输入长度与线性复杂度;在对比（移位）窗口/局部注意，最大SA允许更强的模型能力，提出了一个全球性的感受野。此外，仅具有线性复杂性，Max-SA可以用作网络的任何层中的一般独立注意力模块，甚至在早期的高分辨率阶段中。为了证明它的有效性和通用性，我们进一步设计了一个简单但有效的视觉骨干称为多轴是视觉变换器（MaxViT）分层堆叠重复块组成的Max-SA和卷积。虽然我们提出的模型属于混合视觉变换器的类别，但MaxViT与以前的方法[19，94]的区别在于我们力求简单，通过设计一个统一卷积，局部和全局注意力的基本块，然后简单地重复它。我们的实验表明，MaxViT在所有数据机制下显着提高了最先进的（SOTA）性能，适用于广泛的视觉任务，包括分类，对象检测和分割，图像美学评估和图像生成。具体而言，如图1所示，MaxViT在精度与FLOP和精度与参数曲线方面优于所有最近的基于Transformer的我们的贡献是：– 一个通用的强大的Transformer骨干，MaxViT，可以捕获整个网络的每个阶段的本地和全局空间交互。– 一种新的独立的多轴注意模块，由阻塞的局部注意和扩张的全局注意组成，在线性复杂度下享受全局感知。– 我们展示了大量的设计选择，包括层数、布局、MBConv的使用等，并进行了广泛的消融研究，最终最终融合到我们的最终模块化设计MaxViT-Block中。– 我们广泛的实验表明，MaxViT在各种数据机制下实现了SOTA结果，适用于各种任务，包括图像分类，对象检测，图像美学评估和图像生成。2相关工作卷积网络自AlexNet [48]以来，卷积神经网络（ConvNets）已被用作几乎所有视觉任务的事实上的解决方案[8，13，29，37，51，78，89，90，104]，在“咆哮的20年代”[ 57 ]之前。在过去的十年中，已经取得了惊人的架构改进：残差[29]和密集连接[37]，全卷积网络[58]，编码器-解码器方案[67]，特征金字塔[52]，增加的深度和宽度[75]，空间和通道注意力模型[36，91]，非局部交互[88]，仅举几例。最近一项引人注目的工作ConvNeXt [57]重新引入了视觉变形金刚的核心设计，并表明“现代化”的纯ConvNet可以在广泛的视觉任务中实现与变形金刚相当的变形金刚在视野中Transformer最初是为自然语言处理而提出的[85]。Vision Transformer（ViT）[22]将于2020+v：mala2255获取更多论文4 Z. Tu等表明纯粹基于transformer的架构也是解决视觉问题的有效将图像补丁视为视觉单词的优雅新颖的ViT观点激发了对视觉变形金刚的爆炸性研究兴趣为了解释图像的局部性和2D性质，Swin Transformer在分层架构中的移位窗口中聚集注意力[56]。最近的工作集中在提高模型和数据效率，包括稀疏注意力[1，21，64，86，96，99]，改进的局部性[27，101]，金字塔设计[24，87，97]，改进的训练策略[3，81，82，105]等。我们建议读者参考视觉变形金刚的专门调查[44，44]以进行全面的审查。混合模型。已经观察到纯基于transformer的视觉模型由于相对较少的归纳偏差而概括性较差[19，22，81]。视觉变换器也表现出不合格的优化能力[94]。一个有趣的简单改进是采用Transformer和卷积层的混合设计，例如使用几个卷积来替换粗糙的补丁主干[19，94]。大量的作品都属于这一类，要么是明确的杂交[4，19，23，24，93，94，98]，要么是隐含的方式[16，56]。用于GAN的Transformer Transformer在生成对抗网络（GAN）中也被证明是有效的[26]。TransGAN [40]构建了一个纯Transformer GAN，精心设计了局部注意力和上采样层，在小规模数据集上证明了有效性[18，47]。GANformer [38]探索了有效的全局注意力机制，以改进StyleGAN [42]生成器。HiT [103]提出了一种基于局部-全局注意力的高效Transformer生成器，可以扩展到1 K高分辨率图像生成。3方法受[83，103]中提出的稀疏方法的启发，我们引入了一种新型的注意力模块，称为阻塞多轴自注意力（Max-SA），通过将完全密集的注意力机制分解为两种稀疏形式-我们的顺序设计提供了更大的简单性和灵活性，同时比以前的方法更好地执行-由于Max-SA的灵活性和可扩展性，我们能够通过简单地将Max-SA的替代层与MBConv [35]堆叠在分层架构中来构建一个新的视觉骨干，我们称之为MaxViT，如图2所示。MaxViT受益于整个网络从浅到深的全局和局部感受野，在模型容量和泛化能力方面表现出卓越的性能。3.1关注自注意允许整个空间（或序列）位置的空间混合，同时还受益于基于归一化成对相似性的内容相关权重在[22，85]中定义的标准自我注意力是位置感知的，+v：mala2255获取更多论文∈××PPGGMaxViT：多轴视觉Transformer 5S0：股骨柄（112 x112）S1：重复x L1（56 x 56）S2：重复x L2（28 x 28）S3：重复x L3（14 x 14）S4：重复x L4（7 x 7）头部（1 x1）图2：MaxViT架构。我们遵循Con-vNet实践的典型分层设计（例如，ResNet），而是构建一种新型的基本构建块，将MBConv、块和网格注意力层统一起来。为简单起见，省略了归一化即非平移等变，一个重要的归纳偏见灌输在Con-vNets。相对自我注意力[19，40，56，71]已被提出通过引入添加到注意力权重的相对学习偏差来改善普通注意力，这已被证明在许多视觉任务中始终优于原始注意力[19，40，56]。在这项工作中，我们主要采用[19]中定义的预归一化相对自我注意作为MaxViT中的关键算子。3.2多轴注意力与局部卷积相比，全局交互是自注意力的关键优势之一。然而，沿着整个空间直接施加注意力在计算上是不可行的，因为注意力算子需要二次复杂性。为了解决这个问题，我们提出了一个多轴的方法来分解的全尺寸的注意到两个稀疏的形式-本地和全球-通过简单的分解空间轴。设XRH×W×C为输入特征图。我们没有将注意力集中在扁平化的空间维度HW上，而是将特征分块到形状为（H×W，P×P，C）的张量中，表示划分为非重叠窗口，每个窗口的大小为PP.将自我注意力应用于局部空间维度，即，，P P，相当于在小窗口内参加[56]。我们将利用这个区块注意力来进行本地互动。尽管绕过了众所周知的完全自我注意的繁重计算，但局部注意模型已被观察到在大规模数据集上不适合[19，22]。受块注意力的启发，我们提出了一种令人惊讶的简单但有效的方法来获得稀疏的全局注意力，我们称之为网格注意力。我们使用固定的G×G均匀网格将张量网格化为（G×G，H×W，C）形状，而不是使用固定的窗口大小来划分特征图，从而得到窗口MaxViT阻滞MaxViT阻滞MaxViT阻滞MaxViT阻滞MBConv区块注意力网格注意+++++输出FC池FFNGrid-SAFFN块-SAConv 1x1SE独立转换器3x3Conv 1x1Conv 3x3Conv 3x3（S=2）输入224 x 224+v：mala2255获取更多论文××GG6个Z。 Tu等块注意力网格注意力图3：多轴自我注意力（Max-SA）（最佳彩色视图）。用于计算自我注意力的多轴方法的图示（窗口/网格大小为4 4）。块关注模块在窗口内执行自关注，而网格关注模块在整个2D空间上覆盖的稀疏均匀网格中全局关注像素，两者都具有相对于输入大小的线性复杂度，因为我们使用固定关注镜头。相同的颜色通过自注意操作在空间上具有自适应大小H×W。在分解的网格轴，即，G G，对应于令牌的扩张的全局空间混合通过使用相同的固定窗口和网格大小（我们使用P=G= 7，遵循Swin [56]），我们可以完全平衡局部和全局操作之间的计算，两者都具有相对于空间大小或序列长度的线性复杂度。请注意，我们提出的Max-SA模块可以是Swin注意力模块的直接替代品[56]，具有完全相同数量的参数和FLOP。然而，它具有全局交互能力，无需掩蔽，填充或循环移位，使其更易于实现，优于移位窗口方案[56]。例如，多轴注意力可以很容易地用 einops [66]实现，而不需要修改原始的注意力操作（见附录）。值得一提的是，我们提出的多轴注意力（Max-SA）与轴向注意力模型[33，86]有根本的不同。详细比较请参见附录。MaxViT阻滞。我们顺序地堆叠这两种类型的注意力，以在单个块中获得局部和全局交互，如图3所示。请注意，我们还采用了变压器[22，56]中的典型设计，包括LayerNorm [2]，前馈网络（FFN）[22，56]和跳跃连接。我们还在多轴注意力之前添加了具有挤压和激励（SE）模块[36]的 MB- Conv块[35]，因为我们已经观察到使用MBConv和注意力进一步增加了网络的泛化能力和可训练性[94]。在注意力之前使用MBConv层提供了另一个优势，因为深度卷积可以被视为条件位置编码（CPE）[17]，使我们的模型没有显式位置编码层。请注意，我们提出的独立多轴注意力可以一起使用，也可以单独用于不同的目的这些元素可以很容易地插入到许多视觉架构中，特别是在高分辨率的任务中，这些任务可以通过经济实惠的计算进行全局交互。MBConvFFNFFN栅格反转网格划分窗口反转窗口分区+v：mala2255获取更多论文××MaxViT：多轴视觉Transformer 7表1：MaxViT架构变体。B和C表示每级的块数和通道数。我们将所有注意力层的每个注意力头设置为32。对于MBConv，我们始终在SE [36]中使用膨胀率4和收缩率 0.25，遵循[19，79，80]。我们在茎中使用两个Conv层阶段S0：Conv股骨柄尺寸MaxViT-T MaxViT-S MaxViT-B MaxViT-LMaxViT-XL1/2B=2 C=64 B=2 C=64 B=2S1：MaxViT-Block1/4 B=2 C=64B=2 C=96 B=2S2：MaxViT-Block1/8 B=2 C=128 B=2 C=192 B=6C=64 B=2C=128 B=2 C=192C=96 B=2 C=128 B=2 C=192 C=192 B=6C=256 B=6 C=384S3：MaxViT-Block1/16 B=5 C=256 B=5 C=384 B=14 C=384 B=14 C=512 B=14 C=768S4：MaxViT-Block1/32 B=2 C=512 B=2 C=768 B=2C=768 B=2C=1024 B=2 C=15363.3架构变体我们设计了一系列非常简单的架构变体来探索我们提出的MaxViT块的有效性，如图2所示。我们使用类似于常见ConvNet实践的分层骨干[19，29，57，80]，其中输入首先在stem阶段（S0）使用Conv3x3层进行下采样。的网络的主体包含四级（S1-S4），每级具有一半分辨率的前一个与通道数的两倍（隐藏维度）。在我们的网络中，我们在整个骨干网中使用相同的MaxViT块。我们在每个阶段中的第一个MBConv块的Dependency Conv3x3层中应用下采样。反向瓶颈[35]和挤压激发（SE）[36]的膨胀率和收缩率默认为4和0.25。我们将所有注意力块的注意力头部大小设置为32。我们通过增加每个阶段B的块数和通道维度C来放大模型。我们在表1中总结了MaxViT变体的架构配置。4实验我们验证了我们提出的模型对各种视觉任务的有效性：ImageNet分类[48]，图像对象检测和实例分割[53]，图像美学/质量评估[61]和无条件图像生成[26]。更多的实验细节可以在附录中找到。4.1基于ImageNet-1 K的图像分类ImageNet-1K。我们在表2中显示了ImageNet-1 K分类的性能比较。在基本的224 224设置下，MaxViT在整个FLOP谱中的表现远远优于最新的强混合模型CoAtNet，如图1a所示。MaxViT-L模型在没有额外训练策略的情况下，在224224次训练中创造了85.17%的新的性能记录，比CoAtNet-3高出0.67%。关于在2242处的吞吐量-准确度权衡，MaxViT-S获得84.45%的前1准确度，比CSWin-B高0.25%，比具有可比吞吐量的CoAtNet-2高0.35%。+v：mala2255获取更多论文八Z。 Tu等表2：ImageNet-1 K设置下的性能比较。吞吐量是在单个V100 GPU上测量的，批量大小为16，如下[56，57，80]。模型Eval大小 ParamsFLOPs吞吐量（image/s）IN-1Ktop-1 acc.•EffNet-B6 [79]52860022425632038448022422422443M66M84M72M132M24M55M50M89M198M19.0G37.0G16.0G12.4G35.5G8.8G24.0G8.7G15.4G34.4G96.955.1334.7533.3228.5666.6280.7447.1292.1146.884.084.382.983.684.783.985.183.183.884.3•EffNet-B7 [79]•RegNetY-16 [62]•NFNet-F0 [5]ConvNets•NFNet-F1 [5]•[80]第八十话•[80]第八十话•ConvNeXt-S [57]•ConvNeXt-B [57]•ConvNeXt-L [57]○[22]第二十二话38438438422438422422422438422438422422486M307M86M186M186M55M64M50M88M78M78M51M90M55.4G190.7G55.4G36.0G116.1G12.5G15.0G8.7G47.0G15.0G47.0G9.1G16.0G85.927.385.9----四百三十六点九84.7250---77.976.583.183.484.583.182.683.084.584.285.483.583.8○[22]第二十二话○DeiT-B [81]○[82]第二十二话○[82]第二十二话ViTs○[第105话]○T2T-ViT-24 [101]○Swin-S [56]○Swin-B [56]○CSWin-B [21]○CSWin-B [21]○Focal-S [99]○Focal-B [99]混合[93]第二十三话oCoAtNet-2 [19]oCoAtNet-3 [19]oCoAtNet-3 [19]oCoAtNet-3 [19]oMaxViT-ToMaxViT-SoMaxViT-BoMaxViT-LoMaxViT-ToMaxViT-SoMaxViT-BoMaxViT-LoMaxViT-ToMaxViT-SoMaxViT-BoMaxViT-L384 32 M 24.9G-83.3224 75M 15.7G 247.7 84.1224 168男34.7男163.3 84.5384 168M 107.4G 48.5 85.8512 168 M 203.1 G 22.4 86.0224 31M 5.6G 349.6 83.62224 69 M 11.7G 242.5 84.45224 120M 23.4G 133.6 84.95224 212 M 43.9G 99.4 85.17384 31M 17.7G 121.9 85.24384 69M 36.1G 82.7 85.74384 120 M 74.2G 45.8 86.34384 212男133.1男34.3 86.40512 31M 33.7G 63.8 85.72512 69M 67.6G 43.3 86.19512 120 M 138.5G 24.0 86.66512 212 M 245.4G 17.886.70当在更高分辨率（384/512）下微调时，MaxViT与强大的ConvNet和+v：mala2255获取更多论文Transformer竞争对手相比继续提供高性能：（1）在3842下，MaxViT-B达到86.34%的top-1精度，比EfficientNetV 2-L高0.64%;（2）当在5122 2下微调时，我们的MaxViT-L（212 M）+v：mala2255获取更多论文∼MaxViT：多轴视觉Transformer 9表3：大规模数据体系的性能比较：ImageNet-21 K和JFT预训练模型。混合[93]第话oR+ViT-L/16oCoAtNet-3 [19]oCoAtNet-3 [19]oCoAtNet-4 [19]oCoAtNet-5 [19]oMaxViT-BoMaxViT-LoMaxViT-XLoMaxViT-BoMaxViT-LoMaxViT-XL384 277 M 193.2G 87.7-384 330米--87.12384 168M 107.4G 87.6 88.52512 168 M 214 G 87.9 88.81512 275 M 360.9G 88.1 89.11512 688 M 812 G-89.77384 119M 74.2G 88.24 88.69384 212男128.7G 88.32 89.12384 475M 293.7G88.5189.36512 119男138.3G 88.38 88.82512 212男245.2G 88.46 89.41512 475M 535.2G88.70 89.53在正常训练设置下，在ImageNet-1 K上实现了86.7%的top-1准确率，创下了新的SOTA性能。如图 1 所示，在ImageNet-1 K 训练模型规模上，MaxViT的规模比SOTA vision Transformers好得多。ImageNet-21K。表3显示了在ImageNet-21 K上预训练的模型的结果。值得注意的是，MaxViT-B模型达到88.38%的准确率，比之前最好的模型CoAtNet-4高出0.28%，仅使用43%的参数计数和38%的FLOP，表现出更高的参数和计算效率。图4a显示了模型大小的比较-此外，MaxViT-XL型号实现了新的SOTA精度，在512× 512分辨率下微调时，精度为88.70%。JFT-300M。我们还在更大规模的专有数据集JFT-300 M上训练了我们的模型，该数据集包含3亿张弱标记图像。如表3和图4b所示，我们的模型也可扩展到大规模训练数据- Max V i T- X L 在 4. 7 5 亿个参数下实现了 89 . 5 3 % 的高精度，在可比模型尺寸下优于以前的模型。由于资源模型Eval Params FLOPsIN-1K top-1acc.尺寸21K→1K JFT→1K•[46]第四十六话384480480512384384512388M小行星937121M208M198M350M527M204.6G840.5G53.0G94.0G101.0G179.0G367G84.485.486.887.387.587.8-------89.20•BiT-R-152x4 [46]ConvNets•[80]第八十话•[80]第八十话•ConvNeXt-L [57]•[57]第五十七话•NFNet-F4+[5]○[22]第二十二话38438451251851238438487M305M305M632M85M88M197M55.5G191.1G364G1021G---84.085.2--85.887.187.7-87.7688.55---○[22]第二十二话ViTs○[22]第二十二话○[22]第二十二话○HaloNet-H4 [84]○SwinV2-B [56]○SwinV2-L [56]+v：mala2255获取更多论文10 Z。Tu等89M-BMaxViT-XLM-LCoAtNet89.888SwinV2CSWinCVT转换新Xt89.487EffNetV2868584NFNetViT89.088.688.287.887.4830 100 200 300 400 500参数（M）87.00.10.20.30.40.50.60.70.80.91.0版参数（G）(a) ImageNet-21 K预训练模型的精度与(b) JFT-300 M预训练模型的精度与图4：大规模预训练模型的性能比较。MaxViT在ImageNet-21 K和JFT-300 M预训练设置下均显示出卓越的缩放性能。限制，我们离开十亿参数规模的模型在行星规模的数据集上的实验（例如，，JFT-3B [102]）作为未来的工作。4.2目标检测和实例分割设置. 我们使用两阶段框架[65]评估了COCO 2017 [53]对象边界框检测和实例分割任务上的MaxViT架构。在目标检测任务中，采用了特征金字塔架构[52]来提高不同级别的客观性。在实例分割任务中，采用了众所周知的Cascade Mask-RCNN框架[28该数据集包含118K训练样本和5K验证样本。对于所有比较的然后使用预训练的模型对检测和分割任务进行微调。关于COCO 如表4所示，报告了AP、AP50和AP75参数和FLOP也被报告为模型复杂性的参考。用于对象检测和分割任务的MaxViT骨干模型在准确性和效率方面远远优于所有其他骨干，包括Swin，ConvNeXt和UViT请注意，MaxViT-S优于其他基础级别模型（例如，，Swin-B，UViT-B），计算成本降低约40%。4.3图像美学评估。设置. 我们在AVA基准[61]上训练和评估MaxViT模型，该基准包含255K图像，其美学评分由业余摄影师评定。与[77]类似，我们将数据集分为80%/20%的训练和测试集. 我们遵循[77]并使用标准化的地球移动器ImageNet Top-1准确度[%]CoAtNetMaxViT-XLM-LNFNet-F4+M-BViTBiT-L（ResNet152x4）ResNet+ViT-L/16ImageNet Top-1准确度[%]+v：mala2255获取更多论文5075MaxViT：多轴视觉Transformer 11表4：COCO2017上两阶段对象检测和实例分割的比较。所有模型都在ImageNet-1 K上进行了预训练。骨干决议APAP50 AP75 APmmFLOPs Pars.•[29]第二十九话•X101-32 [95]•X101-64 [95]•ConvNeXt-T [57]•ConvNeXt-S [57]1280×800 46.3 64.350.540.161.7 43.41280×800 48.1 66.552.441.663.9四十五点二1280×800 48.3 66.452.341.764.045.11280×800 50.4 69.154.843.766.5四十七点三1280×800 51.9 70.856.545.068.449.1739G 82M819G 101M972G 140M741 G-827 G-•ConvNeXt-B [57] 1280×80052.771.357.245.6 68.9 49.5964 G-○Swin-T [56]○Swin-S [56]○Swin-B [56]○UViT-T [14]○UViT-S [14]○UViT-B [14]1280×800 50.4 69.254.743.766.6四十七点三1280×800 51.9 70.756.345.068.2四十八点八1280×800 51.9 70.556.445.068.1四十八点九896×896 51.170.456.243.667.7四十七点二896×896 51.470.856.244.168.2四十八点零896×896 52.5 72.057.644.368.7四十八点三745G 86M838G 107M982G 145M613G 47M744G 54M975G 74M○As-ViT-L[15]1024×1024 52.7 72.357.945.269.749.81094G139MoMaxViT-ToMaxViT-SoMaxViT-B896×896 52.171.956.844.669.1四十八点四896×896 53.172.558.145.469.8四十九点五896×89653.4 72.9 58.1 45.7 70.3 50.0475G 69M595G 107M856G 157M训练损失我们以三种不同的输入分辨率训练MaxViT： 2242，3842和5122，使用ImageNet-1 K预训练权重初始化。AVA的结果为了评估和比较我们的模型与现有方法，我们在表5中总结了我们的结果。对于相似的输入分辨率，建议的MaxViT-T模型优于现有的图像美学评估方法。随着输入分辨率的提高，性能也会提高，这得益于其强大的非本地容量。此外，与使用多分辨率输入的SOTA方法[43]相比，MaxViT显示出更好的线性4.4图像生成设置. 我们评估了MaxViT块在ImageNet-1 K上生成128 x128分辨率图像的生成能力。我们选择无条件图像生成来关注GAN中不同生成器的性能我们使用初始得分（IS）[69]和Fr'echet初始距离（FID）[32]作为定量评估指标。随机生成50，000份样本以计算FID和IS评分。我们将MaxViT与HiT [103]进行了比较，HiT是一种SOTA生成Transformer模型，它在AP+v：mala2255获取更多论文低分辨率下使用注意力（例如，32，64），以及使用高分辨率的隐式神经函数（例如，128）。相比之下，MaxViT在每个分辨率下使用建议的MaxViT块。请注意，我们使用逆块顺序（GA-BA-Conv），因为我们发现它的性能更好（见表8）。由于Batch Normalization [39，103]在图像生成方面取得了更好的效果，因此我们在此设置下将所有Layer Norm替换为Batch Norm。+v：mala2255获取更多论文‡12号Z。Tu等表5：AVA基准的图像美学评估结果[61]。PLCC和SRCC表示Pearson线性和Spearman等级相关系数。表6：ImageNet上图像生成的比较。使用预先训练的ImageNet分类器。模型Res.部分 PLCC↑ SRCC↑模型FID↓IS↑•NIMA [77]•[79]第79话•[第10话]22422422456M5.3M44.5M0.6360.6420.6710.6120.6200.649○[43]第四十三话○[43]第四十三话○[第43话]384384224∼ 51222M88M27M0.6650.6640.7200.6560.6640.706oMaxViT-TooMaxViT-T22438431M31M0.7070.7360.6850.699•GAN [26]54.17 14.0157.51 13.5050.90 14.4438.41 18.8643.87 -40.30•PacGAN 2 [54]•[34]第三十四话•LogoGAN [68]•SS-GAN [12]•SC GAN [55]•ConvNet-R1[103]○[103]第103话30.83 21.64oMaxViT（18.6M）30.77 22.58ImageNet-1 K上的结果。结果示于表6中。我们的MaxViT实现了更好的FID和IS，参数数量显著减少。这些结果证明了MaxViT块生成任务的有效性。生成实验的更多细节可以在附录中找到4.5消融研究。在本节中，我们将在ImageNet上的MaxViT中消除重要的设计选择-1K图像分类。我们使用MaxViT-T模型训练了300个epoch默认情况下，并在ImageNet-1 K上报告top-1精度。除消融设计选择外，我们使用相同的训练配置，除非另有说明。全球电网注意。我们的主要贡献之一是网格注意力模块，它允许在线性时间进行稀疏的全局交互，使我们的模型能够在所有阶段捕获全局信息。我们进行了两次消融以了解其增益：1）在每个阶段完全去除全局注意力; 2）用块注意力取代网格注意力，以保持相同的参数计数和FLOP。如表7所示，在早期阶段启用全局注意力可以进一步提高性能，而不仅仅是使用局部注意力或卷积。MBConv层。我们还通过删除每个阶段中的所有MBConv来消除MaxViT中MBConv层的使用。请注意，在删除MBConv层时，我们还应该考虑参数计数和FLOP的减少。另外，第三阶段有5个区块，而其他阶段只有2个。如表9所示，在MaxViT中使用MBConv层可以显著提高性能。整批订单研究。我们提出了三个不同的模块来构建MaxViT块-为了研究最有效的结合方式，我们使用所有6种排列来评估MaxViT-T模型。我们总是在第一层应用下采样，这可能会导致较小的模型大小差异。我们可以从表8中观察到，将MBConv放置在注意力层之前，+v：mala2255获取更多论文MaxViT：多轴视觉Transformer 13表7：全球网格注意力的影响。Ablate-S1意味着我们在阶段1中重新移动网格注意力，而Replace-S1意味着用块注意力替换网格注意力。模型部分 FLOPs Top-1 Acc.MaxViT-T 30.9M5.6G83.62Ablate-S130.8M5.3G83.36（-0.26）Ablate-S230.5M5.3G83.38（-0.24）Ablate-S326.9M4.9G83.00（-0.62）更换-S130.9M5.6G83.49（-0.13）更换-S230.9M5.6G83.41（-0.22）更换-S330.9M5.6G83.40（-0.23）表9：MBConv的消融Ablate-S1意味着我们在阶段1中删除MBConv层。请注意，如果我们在某个阶段消融MBConv层，网络也会更小。表8：区块订单研究。C、BA、GA分别表示MBConv、块注意力和网格注意力。C-GA-BA 30.9M5.6G83.54（-0.08）BA-C-GA 31.1M5.3G83.07（-0.55）BA-GA-C 31.1M5.3G83.02（-0.60）GA-C-BA 31.1M5.3G83.08（-0.54）GA-BA-C 31.1M5.3G83.03（-0.59）模型GAN实验部分FID↓30

下载后可阅读完整内容，剩余1页未读，立即下载