苍白形的通用视觉Transformer骨干：PaleTransformer

35 浏览量更新于2023-12-01 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文×苍白Transformer：一个具有苍白形注意力的通用视觉Transformer骨干吴思彤1，2吴天一1，2，谭浩如3，郭国栋1，2*1百度研究院深度学习研究所，北京，中国2深度学习技术及应用国家工程实验室，北京，中国3中国科学院大学人工智能学院，中国北京{wustong，wutianyi01，guoguodong01} @ baidu.com，tanhaoru2018@ia.ac.cn摘要最近，变形金刚在各种视觉任务中表现出了良好的性能。为了降低全局自注意引起的二次计算复杂度，各种方法将注意范围限制在局部区域内以提高其效率。因此，它们在单个注意层中的感受野不够大，导致不充分的上下文建模。为了解决这个问题，我们提出了一个苍白形的自我注意（PS-注意），它在苍白形区域内执行自我注意。与全局自注意相比，PS-Attention可以显著降低计算和记忆成本。同时，在与以往的局部自注意机制相似的计算复杂度下，它能捕捉到更丰富的上下文信息。基于PS-Attention，我们开发了一个具有分层架构的通用Vision Transformer骨干，命名为Pale Transformer，对于224 224ImageNet-1 K分类，模型大小分别为22 M，48 M和85 M，分别达到83.4%，84.3%和84.9%的Top-1准确率，优于之前的Vision Transformer骨干。对于下游任务，我们的Pale Transformer骨干在ADE 20K语义分割和COCO对象检测实例分割方面的性能比最新的CSWinTransformer好很多。该代码将在https://github.com/BR-IDL/PaddleViT上发布。介绍受Transformer成功的启发（Vaswaniet al. 2017）在自然语言处理（ NLP ）（ McCann et al.2017; Howard andRuder2018 ）中的广泛任务上， Vi- sion Transformer（ ViT ）（ Dosovitskiy et al.2021 ）首次采用纯Transformer架构进行图像分类，这显示了Transformer架构在视觉任务中的良好性能。然而，全局自注意的二次复杂度导致昂贵的计算成本和存储器使用，特别是对于高分辨率场景，使得其对于各种视觉任务中的应用是负担不起的一个典型的提高效率的方法是用局部注意代替全局注意如何提高系统的建模能力是一个关键而又棘手的问题。*通讯作者。Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.本地设置。例如， Swin （Liu et al.2021 ）和 ShuffleTransformer（Huang et al. 2021）分别提出了移位窗口和混洗窗口（图1（b）），并交替使用两个不同的窗口分区（即，常规窗口和建议窗口）以建立跨窗口连接。MSG反式形成器（Fang et al. 2021）操纵messengerto- kens跨窗口交换信息。轴向自我注意（Wang等人，2020）将局部注意区域视为特征图的单行或单列（图1（c））。 CSWin（Donget al. 2021）提出了十字形窗口自注意（图1（d）），它可以被视为轴向自注意的多行和多列扩展。尽管这些方法实现了出色的性能，甚至优于CNN的对应方法，但每个自我注意层中的依赖关系不够丰富，无法捕获足够的上下文信息。在这项工作中，我们提出了一个Pale-Shaped self-Attention（PS-Attention），以有效地捕获更丰富的上下文依赖关系。具体地，输入特征图首先在空间上被分割成多个苍白形区域。每个浅色形状的区域（表示为浅色）由特征图的相同数量的交错行和列组成。对于所有调色板，相邻行或列之间的间隔相等。例如，图1（e）中的粉红色阴影表示其中一个苍白。然后，自我注意力在每个苍白中进行。对于任何令牌，它可以直接与同一pale内的其他令牌交互，这增强了我们的方法在单个PS注意力层中捕获更丰富的上下文信息的能力。为了进一步提高效率，我们开发了一个更有效的PS-Attention的部分实现。得益于更大的感受野和更强的上下文建模能力，我们的PS-注意力显示出优于图1所示的现有局部自我注意机制。基于所提出的PS-Attention，我们设计了一个具有层次结构的通用视觉 Transformer 主干，命名为 PaleTransformer。我们将我们的方法扩展到一系列模型，包括Pale-T（22 M），Pale-S（48 M）和Pale-B（85M），达到比以前的方法更好的性能。我们的Pale-T在ImageNet-1 k上实现了 83.4%的Top-1分类准确率，在ADE 20 K 上实现了 50.4% 的单尺度 mIoU （语义分割），47.4框mAP（对象检测）和42.7掩码arXiv：2112.14000v1 [cs.CV] 2021年12+v：mala2255获取更多论文(a) 全球自我关注常规窗口移位窗口洗牌窗口信使(b) 基于窗口的自我注意(c) 轴向自我注意力（d）十字形（e）苍白形窗口自我注意力自我注意力（我们）图1：Transformer主干中不同自我注意机制的图示（一）是标准的全球自我关注。(b)基于窗口的自注意机制在每个窗口内执行注意，并引入各种策略来建立跨窗口连接。（b）中的不同颜色代表不同的窗口。在（c）、（d）和（e）中，首先将输入特征分成多个组，其中一个组由阴影区域示出，并且在每个组内进行自我关注因此，对于由红点表示的参考令牌，它可以直接与被阴影区域覆盖的令牌交互COCO上的mAP（实例分割），分别比最先进的主干高出+0.7%、+1.1%、+0.7和+0.5。此外，我们最大的变体 Pale-B 也优于以前的方法，实现了 84.9% 的 Top-ImageNet-1 K上的1精度，ADE 20 K上的52.2%单尺度mIoU，COCO上的49.3框mAP和44.2掩模mAP。相关工作ViT（Dosovitskiy et al.2021）将输入图像作为一系列补丁，为多年来由CNN此前Vision Transformer的一系列(2)在性能和效率之间寻求更好的平衡局部增强型视觉变换器与CNN不同的是，原始Transformer中不涉及局部连接的归纳偏差，这可能导致局部结构的提取不足，例如线条，边缘和颜色连接。许多工作都致力于增强视觉变换器的局部特征提取.最早的方法是用分层结构取代ViT的单尺度结构以获得多尺度特征（Wanget al. 2021年b）。这样的设计是后续的许多作品（刘等。2021;黄等人 2021; Yang等人 2021; Dong等人2021年）。另一种方法是结合CNN和变压器。Mobile-Former（Chenet al.2021 b）、Conformer（Peng et al.2021）和DS-Net（Mao et al.2021）集成了CNN和Transformer精心设计的双分支结构。相反，Local ViT（Liet al.2021b）、CvT（Wuet al. 2021a）和Shuffle Transformer（Huang et al.2021）仅将几个卷积插入到Transformer的某些组件中。此外，一些作品通过融合不同尺度的多分支（Chen，Fan，and Panda2021）或与局部注意相配合（Han et al.2021; Zhanget al.2021; Chu et al.2021 a; Li etal.2021 a; Yuan et al. 2021年b）。高效视觉转换器提高Vision Transformer主干效率的主流研究有两个方面：通过剪枝策略减少冗余计算和设计更有效的自注意机制。视觉转换器的修剪策略。对于剪枝，现有的方法可以分为三类：（1）令牌剪枝. DVT（Wang et al.2021 d）提出了一种级联Transformer架构，以根据输入图像分类的难度自适应地调整标记的数量考虑到具有不相关或甚至混淆信息的标记可能对图像分类是有害的，一些工作提出通过可学习采样来定位有区别的区域并逐渐丢弃较少信息的标记（Rao等人，2008）。2021;岳等人 2021）和强化学习（Pan et al. 2021）战略。然而，这种非结构化稀疏性导致与密集预测任务的不兼容性。通过令牌池实现了一些结构保持令牌选择策略（Chenet al. 2021 a）和慢-快更新-+v：mala2255获取更多论文图2：（a）我们的Pale Transformer的整体架构。(b)每个区块的组成。(c)PS-Attention的并行实现说明对于参考标记（红点），它可以直接与阴影区域内的标记交互ing（Xu等人，2021）。(2)频道修剪。VTP（Zhu et al.2021a）提出了一种简单但有效的框架来重新移动还原剂通道。(3)注意力共享。基于观察到来自连续块的注意力图是高度相关的，PSViT（Chenet al. 2021a）被提出来在相邻层之间重用注意力计算过程。有效的自我关注机制。考虑到二次计算复杂度是由自我注意引起的，许多方法致力于在避免性能衰减的同时提高其效率（ Wang et al. 2021 b; Zhuet al. 2021b;Liuet al. 2021; Huang等人 2021年）。一种方法是减少键和值的序列长度。PVT（Wanget al. 2021b）提出了一种空间缩减注意力，以在计算注意力之前对键和值的尺度进行下采样。变形注意力（Zhu et al. 2021 b）使用线性层从全集中选择几个键，这可以被视为全局自注意的稀疏版本。然而，过度的下采样将导致信息混乱，并且可变形注意力严重依赖于由CNN学习的高级特征图，并且可能不直接用于原始输入图像。另一种方法是用局部自注意代替全局自注意，将每层自注意的范围限制在一个局部区域内。如图1（b）所示，首先将特征图划分为几个不重叠的方形规则窗口（用不同的颜色表示），并在每个窗口内单独执行局部自注意机制设计的关键挑战是nisms是弥合地方和全球接收领域之间的差距。一种典型的方式是在规则的正方形窗口上建立连接。例如，交替使用正则窗口和另一种新设计的窗口划分方式（移位窗口（Liu et al.2021）或混洗窗口（Huang et al.2021）在图1（b））在连续的块，并操纵信使令牌交换信息跨窗口（方等。 2021年）。此外，轴向自注意（Wang et al.2020）通过在特征图的每一行或每一列中执行自注意，分别在水平和垂直方向CSWin（Dong etal.2021）提出了一种十字形窗口自注意区域，包括多行和多列。虽然这些现有的局部注意机制可以在一定程度上提供突破局部感受野的机会，但它们的依赖性不够丰富，无法在单个自注意层中捕获足够的上下文信息，这限制了整个网络的建模能力。与我们的工作最相关的是 CSWin （ Donget al.2021），它开发了一个十字形窗口自我注意力机制，用于计算水平和垂直条纹中的自我注意力，而我们提出的PS-Attention计算苍白形区域中的自我注意力。此外，在我们的方法中的每个令牌的感受野比CSWin，这也赋予我们的方法具有更强的上下文建模能力更广泛。+v：mala2255获取更多论文SRS××2SS·∈R2RC ∈R∈R2联系我们2方法在本节中，我们首先介绍我们的苍白形自我注意力（PS-注意力）及其有效的并行实现。然后，PaleTransformer块的组成与PS-Attention在整个pale内的普通实现相比，这种并行机制具有较低的计算复杂度。此外，填充操作只需要确保h可以被sr和w整除给出了最后，我们描述了整体架构，可以被sc整除，而不是h=w。因此有C我们的Pale Transformer主干的变体配置苍白形自我注意为了捕捉从短距离到长距离的依赖关系，我们提出了苍白形自我注意力（PS- Attention），它在苍白形的范围内计算自我注意力。也有利于避免过度填充。复杂性分析。给定大小为h w c和苍白大小（sr，sc）的输入特征，标准全局自注意的计算复杂度为O全局=4hwc+2c（hw），（4）形区域（苍白）。如图1（e）的粉色阴影所示，一个调色板包含sr个交错行和sc个交错列，它覆盖了一个包含（srw+sch−srsc）到k个ens的区域。我们将（sr，sc）定义为苍白尺寸给定一个输入特征映射X∈ Rh×w× c，我们首先将其拆分为多个调色板{P1，...，PN}，大小相同（sr，sc），其中Pi∈ R（sr w + sch − sr sc）×c，i ∈{1，2，.，N}个。然而，我们提出的PS-注意力在并行实现下的计算复杂度为OPale=4hwc+hwc（sch+srw+27）由于2hw>>（sch+），调色板的数量等于N=hR =w，可以是Csrw+27）a lw aysholds. 方程的详细描述如下：（四）和等式（5）补充材料中有规定。通过填充或插值操作来确保对于所有调色板，相邻行或列之间的间隔相同。自我关注，然后执行内每个苍白indi- vidually。如图1所示，PS-注意的感受野比所有复杂的局部自我注意机制明显更宽和更丰富，从而实现更强大的上下文建模能力。高效的并行实现。为了进一步提高效率，我们将上面提到的vanilla PS-Attention分解为行式和列式注意，它们分别在行式和列式令牌组具体而言，如图所示，图2（c），我们首先将输入特征X∈Rh× w× c浅色Transformer块如图2（b）所示，我们的Pale Transformer块由三个连续部分组成，用于动态生成位置嵌入的条件位置编码（CPE）第l个块的前向传递可以用公式表示如下：Xl=Xl−1+CPE（Xl−1），（ 6）Xl=Xl+PS- 注意力。LN （ Xl ），（ 7）分成两个独立的部分XrCRH×W×C且Xc∈Xl=Xl+MLP。LN（X射线）（8）h× w×2，然后将其分为多个组用于行式和列式注意力恢复。X r =[X1，...，XNr]，X c =[X1，...，XNc]，（1）其中LN（）是指层归一化（Ba，Kiros，和Hinton2016）。CPE（Chu等人，2021 b）被实现为一个简单的深度卷积，它被广泛使用公司简介在以前的作品中（Wuet al. 2021b; Chuet al. 2021a）其中，Nr=h/sr，Nc=w/sc，Xisr×w × c包含sr交错行，Xjh × sc×c包含sc交错列。然后，分别在每个行方向和列方向标记组内进行自注意。类似于（Wuet al. 2021a），我们使用三个可分离的卷积层φQ，φK和φV来生成查询，键和值。Yi=MSA（φQ（Xi），φK（Xi），φV（Xi）），它与任意大小输入的兼容性。PS-注意力模块定义在等式中。（7）通过依次执行Eq.（1）Eq.（三）、MLP模块中定义的方程。（8）由两个线性投影层组成，以顺序地扩展和收缩嵌入维度，这与（Dosovitskiy等人，2021）的公平比较相同。R r r rYi=MSA（φQ（Xi），φK（Xi），φV（Xi）），（二更）总体架构和变体如图2（a）所示，Pale Transformer由以下部分组成：c c c c c其中 i1 ， 2 ， ... ， N ， MSA 表示多头自我注意（Dosovitskiy et al. 2021年）。最后，行和列方向的注意力的输出沿着信道维度级联，导致最终输出Y∈ Rh×w× c，Y=Concat（Yr，Yc），（3）其中，Yr=[Y1，...，Y Nr]和Yc=[Y1，...，Y Nc]。通过遵循CNN中的流行设计来捕获多尺度特征的四个分层阶段（ He et al. 2016 ）和变形金刚（ Liu etal.2021;Dong et al.2021）。每个阶段都包含一个补丁合并层和多个Pale Transformer块。补丁合并层的目的是空间降采样的输入功能，以一定的比例，并扩大通道维数的两倍，以更好的表示能力。为了公平的比较，我们使用重叠卷积进行补丁合并，与（Wuet al. 2021年a;公司简介+v：mala2255获取更多论文××××表1：Pale Transformer变量的详细配置。Dong等人 2021年）。具体地，空间下采样率对于第一阶段被设置为4，并且对于最后三个阶段被设置为2，分别通过与步幅4的7 × 7卷积和与步幅2的3 × 3补丁合并层的输出被馈送到后续的Pale Trans中。前块，令牌的数量保持不变。接下来（ Liu etal.2021;Dong et al.2021），我们简单地在最后一个块的顶部应用平均池化操作，以获得最终分类头的代表性令牌，该令牌由单个线性投影层组成。变体。第i阶段的模型超参数定义如下：• P1：面片合并层的空间缩减因子，• Ci：标记的嵌入维数，• Si：苍白的大小为PS-注意，• Hi：PS的头号-注意，• Ri：MLP模块的膨胀比。通过改变每个阶段中的超参数Hi和Ci，我们设计了我们的 Pale Transformer 的三个变体，命名为 Pale-T（Tiny）、Pale-S（Small）和Pale-B（Base）。表1显示了所有变体的详细配置。请注意，所有变体都具有相同的深度，[2，2，16，2]分四个阶段。在这些变体的每个阶段中，我们设置苍白大小sr=sc=Si=7，并使用相同的MLP扩展比Ri=4。因此，Pale-T、Pale-S和Pale-B之间的主要区别注意力的标记和头数分为四个阶段，即：例如，变体从窄到宽变化。实验我们首先将 PaleTransformer 与 ImageNet-1K（Russakovskyet al.2015）上最先进的为了进一步证明我们的主干的有效性和通用性，我们表2：ImageNet-1 K验证集上不同主干的比较。所有的方法都用224的大小进行了训练和评估224，除了ViT-B384.第384章.上标“*“表示采用MixToken和令牌标记损失（Jiang et al. 2021年）期间训练在ADE 20 K（Zhou et al.2019）上进行地震分割实验（Wu et al.2021 b，2020; Zhang et al. 2019;Wu等人，2021 c）和COCO（Lin等人，2014）用于对象检测实例分割。最后，我们深入研究了Pale Transformer的关键部件的设计，骨干ParamsFLOPsTop-1（%）阶段输出步长层淡T浅SPale-B14补丁合并P1=4C1=64P1=4C1=96P1=4C1=128浅色Transformer块S1=7H1=2 ×2R1=4S1=7H1=2 ×2R1=4S1=7H1=4 ×2R1=428补丁合并P2=2C2=128P2=2C2=192P2=2C2=256浅色Transformer块S2=7H2=4 ×2R2=4S2=7H2=4 ×2R2=4S2=7H2=8 ×2R2=4316补丁合并P3=2C3=256P3=2C3=384P3=2C3=512浅色Transformer块S3=7H3=8 ×16R3=4S3=7H3=8 ×16R3=4S3=7H3=16 ×16R3=4432补丁合并P4=2C4=512P4=2C4=768P4=2C4=1024浅色Transformer块S4=7H4=16 ×2R4=4S4=7H4=16 ×2R4=4S4=7H4=32 ×2R4=4RegNetY-4G（Radosavovic et al. 2020年）21M4.0G80.0DeiT-S（Touvron et al. 2021年）22M4.6G79.8PVT-S（Wang et al. （2021 b）25M3.8G79.8T2T-14（Yuan et al. （2021年a）22M6.1G80.7DPT-S（Chen et al. 2021年c）26M4.0G81.0TNT-S（Han et al. 2021年）24M5.2G81.3Swin-T（Liu et al. 2021年）29M4.5G81.3Twins-SVT-S（Chu et al. （2021年a）24M2.8G81.3CvT-13（Wu et al. （2021年a）20M4.5G81.6ViL-S（Zhang et al. 2021年）25M4.9G82.0PVTv2-B2（Wang et al. （2021年a）25M4.0G82.0Focal-T（Yang et al. 2021年）29M4.9G82.2Shuffle-T（Huang et al. 2021年）29M4.6G82.5CSWin-T（Dong et al. 2021年）23M4.3G82.7LV-ViT-S β（Jiang et al. 2021年）26M6.6G83.3Pale-T（我们的）22M4.2G83.4Pale-T（我们的）22M4.2G84.2RegNetY-8G（Radosavovic et al. 2020年）39M8.0G81.7PVT-M（Wang et al. （2021 b）44M6.7G81.2T2T-19（Yuan et al. （2021年a）39M9.8G81.4DPT-M（Chen et al. 2021年c）46M6.9G81.9CvT-21（Wu et al. （2021年a）32M7.1G82.5Swin-S（Liu et al. 2021年）50M8.7G83.0MViT-B-24（Fan et al. 2021年）54M10.9G83.1Twins-SVT-B（Chu et al. （2021年a）56M8.3G83.1PVTv2-B3（Wang et al. （2021年a）45M6.9G83.2ViL-M（Zhang et al. 2021年）40M8.7G83.3Focal-S（Yang et al. 2021年）51M9.1G83.5Shuffle-S（Huang et al. 2021年）50M8.9G83.5CSWin-S（Dong et al. 2021年）35M6.9G83.6Refined-ViT-S（Zhou et al. 2021年）25M7.2G83.6VOLO-D1序列（Yuan et al. （2021 b）27M6.8G84.2Pale-S（我们的）48M9.0G84.3Pale-S（我们的）48M9.0G85.0RegNetY-16G（Radosavovic et al. 2020年）84M16.0G82.9维生素B-B/16毫克86M55.4G77.9PVT-L（Wang et al. （2021 b）61M9.8G81.7DeiT-B（Touvron et al. 2021年）86M17.5G81.8T2T-24（Yuan et al. （2021年a）64M15.0G82.2TNT-B（Han et al. 2021年）66M14.1G82.8ViL-B（Zhang et al. 2021年）56M13.4G83.2Swin-B（Liu et al. 2021年）88M15.4G83.3Twins-SVT-L（Chu et al. （2021年a）99M14.8G83.3PVTv2-B5（Wang et al. （2021年a）82M11.8G83.8Focal-B（Yang et al. 2021年）90M16.0G83.8Shuffle-B（Huang et al. 2021年）88M15.6G84.0LV-ViT-M β（Jiang et al. 2021年）56M16.0G84.1CSWin-B（Dong et al. 2021年）78M15.0G84.2Refined-ViT-M（Zhou et al. 2021年）55M13.5G84.6VOLO-D2序列（Yuan et al. （2021 b）59M14.1G85.2Pale-B（我们的）85M15.6G84.9+v：mala2255获取更多论文×骨干ParamsFLOPsAP髁间盒AP髁间盒50Mask R-CNN（1x）AP框AP掩码75AP屏蔽50AP屏蔽75ResNet-50（He et al. （2016年）44M260G38.058.641.434.455.136.7PVT-S（Wang et al. （2021 b）44M245G40.462.943.837.860.140.3ViL-S（Zhang et al. 2021年）45M174G41.864.145.138.561.141.4Twins-S（Chu et al. （2021年a）44M228G42.765.646.739.662.542.6DPT-S（Chen et al. 2021年c）46M-43.165.747.239.962.943.0Swin-T（Liu et al. 2021年）48M264G43.766.647.639.863.342.7RegionViT-S+（Chen，Panda和Fan2021）51M183G44.267.348.240.864.144.0Focal-T（Yang et al. 2021年）49M291G44.867.749.241.064.744.2PVTv2-B2（Wang et al. （2021年a）45M-45.367.149.641.264.244.4CSWin-T（Dong et al. 2021年）42M279G46.768.651.342.265.645.4Pale-T（我们的）41M306G47.469.252.342.766.346.2ResNeXt-101-32（He et al. （2016年）63M340G41.962.545.937.559.440.2PVT-M（Wang et al. （2021 b）64M302G42.064.445.639.061.642.1ViL-M（Zhang et al. 2021年）60M261G43.465.947.039.762.842.1DPT-M（Chen et al. 2021年c）66M-43.866.248.340.363.143.4Twins-B（Chu et al. （2021年a）76M340G45.167.049.441.164.144.4RegionViT-B+（Chen，Panda和Fan2021）93M307G45.468.449.641.665.244.8PVTv2-B3（Wang et al. （2021年a）65M-47.068.151.742.565.745.7Focal-S（Yang et al. 2021年）71M401G47.469.851.942.866.646.1CSWin-S（Dong et al. 2021年）54M342G47.970.152.643.267.146.2Pale-S（我们的）68M432G48.470.453.243.767.747.1ResNeXt-101-64（He et al. （2016年）101M小行星493G42.863.847.338.460.641.3PVT-L（Wang et al. （2021 b）81M364G42.965.046.639.561.942.5ViL-B（Zhang et al. 2021年）76M365G45.167.249.341.064.344.2Twins-L（Chu et al. （2021年a）120M474G45.267.549.441.264.544.5PVTv2-B4（Wang et al. （2021年a）82M-47.568.752.042.766.146.1Focal-B（Yang et al. 2021年）110M533G47.870.252.543.267.346.5CSWin-B（Dong et al. 2021年）97M526G48.770.453.943.967.847.3Pale-B（我们的）105M595G49.371.254.144.268.147.8表3：COCO val 2017与Mask R-CNN框架和用于对象检测和实例分割的1x训练时间表的比较。更好地理解方法。基于ImageNet-1 K的设置. 所有变体都在8个V100 GPU上从头开始训练300个epoch，总批次大小为1024。训练和评估都是在ImageNet-1 K数据集上进行的，输入大小为224 224补充材料中提供了详细配置。结果表2比较了我们的Pale Transformer与最先进的CNN和Vision Transformer骨干在ImageNet-1 K验证集上的性能。与先进的CNN相比，我们的Pale变体在相似的计算复杂度下，分别比众所周知的Reg- Net（ Radosavovic et al.2020 ）模型好 +3.4% ， 2.6% 和2.0%。同时，我们的Pale Transformer优于最先进的基于Transformer的主干，并且在相似的模型大小和FLOP下，对于所有变体，比最相关的CSWin Transformer高出+0.7%。注意，LV-ViT（Jianget al. 2021）和VOLO（Yuan et al.2021 b），使用额外的MixToken增强和标记丢失（Jiang et al.2021）进行训练，似乎与我们的方法相当。为了公平的比较，我们在Pale模型上使用这两个技巧，标为“Pale”。Pale-T比LV-ViT-S获得+0.9%的增益，计算成本更低。Pale-S和Pale-B分别达到85.0%和85.8%，超过VOLO分别为+0.8%和+0.6%基于ADE20K的设置. 为了证明我们的Pale Trans-former在密集预测任务中的优越性，我们使用广泛使用的UperNet（Xiao etal. 2018）作为解码器，用于与其他骨干进行公平比较。详细设置见补充材料。结果表4显示了在ADE 20K验证集上UperNet与各种优秀Transformer骨干的比较。我们报告了单尺度（SS）和多尺度（MS）mIoU，以进行更好的比较。我们的Pale变体始终优于最先进的方法。具体而言，我们的Pale-T和Pale-S分别比最先进的CSWin表现出+1.1%和+1.2% 的 SS mIoU 。此外，我们的 Pale-B 达到52.5%/53.0%SS/MS mIoU，超过之前最好的+1.3%，+1.2%。这些结果证明了我们的Pale Transformer对于密集预测任务具有更强的上下文建模能力基于COCO的目标检测与实例分割设置. 我们利用Mask R-CNN（Heet al. 2017年）框架下的1x时间表（12个培训期）。详情见补充材料。+v：mala2255获取更多论文--联系我们骨干ParamsFLOPsSS MSMiouMiou苍白大小分四个阶段ImageNet-1K前1名（%）ADE20K处理器SS mIoUCocoAP框AP掩码1 1 1 182.447.946.141.53 3 3 382.949.446.742.35 5 5 583.149.746.842.47 7 7 783.450.447.442.79 9 9 983.350.647.442.6表5：不同苍白球大小选择的消融研究。完整的参数和FLOP表可在补充材料中找到。注意力模式ImageNet-1K前1名（%）ADE20K处理器SS mIoU（%）CocoAP框AP掩码轴向82.447.946.141.5十字形82.849.046.642.2淡（香草）83.450.347.142.3苍白（连续）82.949.546.942.2苍白（平行）83.450.447.442.7表4：在ADE 20 K上使用Uper-Net作为解码器进行语义分割的不同主干的比较。所有主干都在ImageNet-1 K上进行了预训练，大小为 224×224FLOP的计算分辨率为512 ×2048。结果如表3所示，对于对象检测，我们的Pale-T、Pale-S和Pale-B实现了47.4、48.4和49.2箱mAP的对象检测，分别超过之前最好的CSWin Transformer +0.7、+0.5和+0.6。此外，我们的变体在实例分割上也有一致的改进，比以前的最佳主干高出+0.5，+0.5和+0.3消融研究我们对Pale Transformer的关键设计进行消融研究，用于图像分类和下游任务。所有的实验都是在与上述相同的训练设置下用Tiny变体进行的我们还分析了位置编码在语义材料中的影响Pale Size的效果四个阶段的苍白大小S1、S2、S3、S4控制上下文信息的丰富性和计算成本之间的权衡。如表7所示高达9不会带来明显和一致的改进，但会带来更多的FLOP。因此，我们默认使用Si= 7，i1，2，3，4来处理所有任务。PS- Attention不同实现的比较。我们比较了我们的PS-注意力的三个实现。香草PS-Attention直接在整个苍白区域内进行自我注意，这可以近似为两个更有效的实现，顺序和并行。顺序算法在连续的块中交替地计算行和列方向表6：不同注意力模式的消融研究。补充材料中提供了所有实验的参数和FLOP。而并行的一个在每个块内并行地执行行式和列式注意。如表8所示，并行的PS-Attention在所有任务上都取得了最佳结果，甚至比普通的更好，在COCO上有+0.3/0.4 框 / 掩码 mAP 。我们将此归因于 vanilla PS-Attention中对非方形输入大小的过度填充将导致轻微的性能下降。与其他基于轴向的注意力比较。为了将我们的PS-注意力与最相关的基于轴向的自我注意力机制直接进行比较，我们将Pale-T的PS-注意力替换为轴向自我注意力（Wanget al.2020）和十字形窗口自我注意力（Dongetal. 2021年）。如表8所示，我们的PS- Attention明显优于这两种机制。结论本文提出了一种新的有效的自我注意机制，称为苍白形自我注意（PS-Attention），它在苍白形区域内执行自我注意。PS-Attention模型比以往的局部自注意机制具有更丰富的上下文依赖性。为了进一步提高其效率，我们设计了一个并行的PS-Attention实现，它将整个pale中的自我注意分解为行和列的注意。它还有助于避免过多的填充操作。基于所提出的PS-Attention，我们开发了一个通用的Vision Transformer主干，称为PaleTransformer，它可以在ImageNet-1 K上实现此外，我们的Pale Transformer在语义分割方面优于ADE20 K上之前的Vision Transformer主干，在对象检测实例分割方面优于COCO。DeiT-S（Touvron et al. 2021年）52M小行星1099G-44.0Swin-T（Liu et al. 2021年）60M945G44.545.8Focal-T（Yang et al. 2021年）62M998G45.847.0Shuffle-T（Huang et al. 2021年）60M小行星949G46.647.6CrossFormer-S（Wang et al. 2021年c）62M980G47.648.4LV-ViT-S（Jiang

下载后可阅读完整内容，剩余1页未读，立即下载