视觉变形：卷积变压器混合电路优化视觉模型

110 浏览量更新于2023-10-13 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

599××视觉变形：变形金刚在视觉模型中真正属于哪里？吴碧晨1，徐晨峰2，戴晓亮1，万伟2，张培昭1，阎志成1，富冢正吉2，约瑟夫·冈萨雷斯2，库尔特·科伊策2，彼得·瓦伊达11Facebook Inc，2加州大学伯克利分校{wbc，xiaoliangdai，stzpz，zyan3，vajdap} @ fb.com，{xuchenfeng，alvinwan，tomizuka，jegonzal，keutzer} @ berkeley.edu摘要计算机视觉的最近趋势是用变压器代替卷积。然而，变压器的性能增益是以高昂的成本实现的，需要GPU年和数亿个样本进行训练。这种过度的资源使用补偿了变压器的误用：Transformers密集地建模其输入之间的关系-对于神经网络的后期阶段是理想的，当概念稀疏且空间距离较远时，但对于网络的早期阶段是非常低效的，当模式冗余且局部化时。为了解决这些问题，我们利用这两种操作的各自优势，构建卷积变压器混合电路。至关重要的是，与像素空间转换器形成鲜明对比，我们的视觉转换器（VT）在语义令牌空间中运行，根据上下文审慎地处理不同的图像部分我们的VT显著优于基线：在ImageNet上，我们的VT-ResNets比仅卷积的ResNet高出4.6到7个点，比仅变换器的ViT-B高出2.6个点。FLOP减少2.5，参数减少2.1。对于LIP和COCO-stuff上的语义分割，基于VT的特征金字塔网络（FPN）实现了高0.35点的mIoU，同时将FPN模块的FLOP降低1. 介绍在计算机视觉中，视觉信息被捕获为像素的阵列。这些像素阵列然后通过卷积处理，卷积是计算机视觉的事实上尽管该公约产生了非常成功的愿景模型，但仍存在关键挑战：1) 并非所有的像素都是平等的：图像分类模型应该优先考虑前景对象而不是背景。分割模型应该优先考虑行人，而不是不成比例的大片天空、道路、植被等。然而，卷积统一处理所有图像块，而不管其重要性如何。这条路通向spa-在计算和表示方面都是低效的2) 并非所有图像都具有所有概念：所有自然图像中都存在角点和边缘等低级特征，因此对所有图像应用低级卷积滤波器是合适的。然而，诸如耳朵形状的高级特征存在于特定图像中，因此将高级滤波器应用于所有图像在计算上是低效的。例如，狗特征可能不会出现在花、车辆、水生动物等的图像中。这导致很少使用的、不适用的过滤器消耗大量的计算。3) 卷积很难将空间上遥远的概念联系起来：每个卷积滤波器都被限制在一个小区域上操作，但语义概念之间的长距离交互至关重要。要涉及空间上遥远的概念，以前的方法增加内核大小，增加模型深度，或采用新的操作，如扩张卷积，全局池，和非局部注意层。然而，通过在像素卷积范例内工作，这些方法最多减轻问题，通过增加模型复杂性来补偿卷积。为了克服上述挑战，我们解决了根本原因，并引入了Visual Transformer（VT）（图1）来表示和处理图像中的高级概念。我们的直觉是，具有几个单词（或视觉标记）的句子足以描述后期特征图中的高级概念。这激发了在网络中稍后的固定像素阵列表示的偏离;相反，我们使用空间注意力将特征图转换为一组紧凑的语义标记。然后，我们将这些令牌馈送到自我注意模块或Transformer[39]以捕获令牌交互。计算得到的视觉令牌可以直接用于图像级预测任务（例如，分类）或被空间地重新投影到用于像素级预测任务的特征图（例如，分段）。与后期卷积不同，我们的VT解决了三个挑战：1）通过关注重要区域来明智地分配计算，而不是同等地对待所有像素; 2）将语义概念编码在一些视觉上-600×语义投射空间注意中的X输入图像Conv中的要素图X分词器Transformer投影仪Tokens TinTokensToutVisual Transformer特征图X输出图1：可视化Transformer（VT）的示意图对于给定的图像，我们首先应用卷积层来提取低级特征。然后将输出特征图馈送到VT：首先，应用标记器，将像素分组为少量视觉标记，每个视觉标记代表图像中的一个语义概念。其次，应用转换器来建模令牌之间的关系第三，视觉标记直接用于图像分类或投影回特征图进行语义分割。与图像相关的概念，而不是对所有图像的所有概念进行建模;以及3）通过标记空间中的自我注意来关联空间距离概念。为了验证VT的有效性并了解其关键组件，我们通过使用VT来替换ResNet中的卷积来运行受控实验，ResNet是图像分类新构建块的常见测试床。我们还使用VT重新设计特征金字塔网络（FPN），一个强大的基线语义分割。我们的实验表明，VT在这两个任务中以较低的计算成本实现了更高的精度。对于ImageNet[11]基准测试，我们用VT替换了ResNet[14]的最后一个阶段，将该阶段的FLOP降低了6.9倍，并将top-1准确度提高了4.6到7个点。对于COCO-Stuff [2]和Look-Into-Person [25]上的语义分割，基于VT的FPN实现了高0.35点的mIOU，同时将常规FPN模块2. 与以前工作的视觉模型中的变换器：最近一个值得注意的相关趋势是在视觉模型中采用变换器。Dosovitskiy等人提出了一种视觉Transformer（ViT）[12]，将图像分成16个16块，并将这些块（即，tokens）到标准Transformer中。虽然简单，但这需要变压器学习密集的，可重复的模式（例如，纹理），其中卷积在学习方面效率更高。这种简单性带来了极高的计算代价：ViT需要长达7年的GPU和3亿JFT数据集图像才能超越竞争对手的卷积变体。相比之下，我们利用各自的优势，每个操作，使用卷积提取低级别的功能和变压器相关的高层次的概念。我们进一步使用空间注意力来关注重要区域，而不是逐个图像修补均匀。另一项相关工作DETR[3]采用变压器来简化对象检测训练中的手工锚点匹配过程。这是一个正交用例，与VT不可比较，但可以与VT组合。视觉模型中的图卷积：我们的工作也与以前的工作有关，例如GloRe [6]，Latent- GNN [51]和[26]，它们使用图卷积在潜在空间中密集地关联概念。为了增加卷积，[26，6，51]采用类似于我们的程序：（1）提取潜在变量作为图形节点（类似于我们的视觉标记）（2）应用图形卷积来捕获节点交互（类似于我们的Transformer），以及（3）将节点投影回特征图。尽管这些方法避免了空间冗余，但它们容易受到概念冗余的影响：第二个限制在引言中列出。特别地，通过使用非内容感知的固定权重，图卷积期望每个节点中的固定语义概念，而不管该概念是否存在于图像中相比之下，Transformer使用内容感知的权重，允许视觉令牌表示不同的概念。因此，虽然图卷积需要数百个节点（[4]中的128个节点，[25]中的340个节点，[52]中的150个节点）来编码潜在的语义概念，但我们的VT仅使用16个视觉标记并达到更高的准确性。此外，虽然[26，6，51]增加了预训练网络中的卷积，但VT取代了卷积层以保存FLOP和参数，并支持从头开始训练。视觉模型中的注意：注意力也被广泛用于不同的计算机视觉模型[21，20，43，46，48]。48、42、28、18、19、1、53、30、49]。注意力首先从输入中计算出来，并与特征图相乘[43，21，20，46]。后来的工作[48，34，41]将其解释为使卷积空间自适应和内容感知的一种方式。在[42]中，Wang等人引入了非局部算子，语义分组601·∈联系我们∈HW等同于自我注意，视频理解，捕捉远程交互。然而，自我注意力是昂贵的，所以[1]在卷积中使用自我注意力与小使用逐点卷积。然后，在每个组内，我们在空间上汇集像素以获得令牌T。从形式上讲，通道尺寸和[30，28，7，53，19]限制了接收T=SOFTMAX硬件（XWA）TX（一）自我关注的领域。从[30]开始，自我关注是用作视觉模型的独立构建块我们的工作不同于上述所有工作，因为我们提出了一种新的令牌转换器范例来取代低效的像素卷积范例，并实现了卓越的性能。高效的视觉模型：许多工作以较低的计算成本实现了更好的性能在这个方向的早期工作最近的工作使用神经架构搜索[44，10，40，9，37，36]来自动排列现有的卷积运算符，我们发现当专门使用时可能效率低下3. 视觉Transformer我们在图1中展示了基于Visual Transformer（VT）的模型的整体图首先，用几个卷积块处理输入图像，然后将输出特征图馈送到VT。我们的见解是利用卷积和VT的优势：（1）在网络的早期，使用卷积来学习密集分布的低级模式A∈RHW×L在这里，WARC×L从X形成语义组，SOFTMAXHW（）将这些激活转化为空间注意。最后，A与X相乘并计算X中像素的加权平均值以产生L个视觉令牌。然而，许多高级语义概念是稀疏的，并且每个概念可能仅出现在少数图像中。结果，固定的学习权重集合WA潜在地通过一次对所有这样的高级概念建模而浪费计算。我们称之为Conv2dHLW公司简介以及（2）稍后在网络中，使用VT来学习和关联更稀疏分布的高阶语义概念。特征图XL空间注意力A视觉令牌使用视觉标记进行图像级预测任务，并使用增强的特征图进行像素级预测任务。VT模块包括三个步骤：首先，将像素分组为语义概念，以产生一组紧凑的视觉标记。其次，为了对语义概念之间的关系建模，将Transformer [39]应用于这些视觉标记。第三，将这些视觉标记投影回像素空间以获得增强的特征图。只有16个视觉标记，我们的VT优于以前的方法[6，51，26]，使用数以百计的语义概念（3.1. 分词器我们的直觉是一个图像可以用一个图2：基于滤波器的标记器，使用卷积对使用固定卷积滤波器的像素进行分组。3.1.2递归令牌化器为了弥补基于过滤器的标记器的限制，我们提出了一个经常性的标记器的权重是依赖于前一层直觉是让前一层“递归令牌生成器”的名称来自于当前令牌的计算依赖于先前的令牌。形式上，我们定义几个字，或视觉符号。这与使用数百个过滤器的卷积和使用数百个在WT→R中WR=T，TT=λ MAX（XWR）X，（二）可能的概念，而不管图像内容。为了利用这种直觉，我们引入了一个tokenizer模块，将特征图转换为紧凑的视觉标记集。形式上，我们用X∈RHW×C（height）表示输入特征图H，宽度W，通道C）和视觉标记S.T. L#HW（L表示令牌的数量3.1.1 基于过滤器的令牌化器基于过滤器的标记器，也被[51，6，26]采用，利用卷积来提取视觉标记。对于特征图X，我们将每个像素Xp∈RC映射到L个语义组其中WT→RRC×C。这样，VT可以递增地细化以先前处理的概念为条件的所述一组令牌我们从第二个VT开始应用递归令牌化器，因为它需要来自前一个VT的令牌3.2. Transformer在标记化之后，我们需要对这些视觉标记之间的交互进行建模。以前的作品[6，51，26]使用图卷积来关联概念。然而，这些操作在推理期间使用固定权重，这意味着每个令牌（或602--××联系我们∈∈.Σ∈∈∈∈∈∈∈Conv2dHLWCLC对于每个VT：特征图的通道大小;视觉令牌的通道大小;以及视觉标记的数量。图像分类模型：按照图像分类的惯例，我们使用ResNet主干[14]通过用VT替换卷积的最后一个阶段来构建视觉转换器ResNets（VT-ResNets）。首先，我们替换特征图XC前视觉标记L空间注意力A视觉令牌ResNet- 18、34、50、101图3：使用以前的令牌来指导当前VT模块中的令牌提取的循环令牌化器。高级概念，即使是那些只出现在少数图像中的概念。为了解决这个问题，我们采用了transformers [39]，它通过设计使用依赖于输入的权重。因此，变换器支持具有可变含义的视觉标记，用更少的标记覆盖更多可能的概念。我们采用标准Transformer，并进行了微小的更改：具有相同数量的VT模块。其次，由于ResNet- 18，34，50，101输出142256，142256，1421024、1421024阶段4之后的特征图（阶段4之前）阶段-5最大池化），我们将VT1024 1024我们为所有模块使用16个视觉标记。令牌被直接馈送到分类头-附录A对每种型号我们将最后一级的FLOP降低T′out =Tin+MAXL.（TinK）（TinQ）TΣTin，（3）T=T′+σ（T′F）F，（4）出来出来出1 2其中Tin、T′out、ToutRL×C是视觉标记。与图卷积不同，在Transformer中，令牌之间的权重是依赖于输入的，并且被计算为关键字查询乘积：（TinK）（TinQ）TRL×L。这允许我们使用少至16个视觉标记，与图卷积方法的数百个类似节点形成对比[6，51，26]。在自注意之后，我们在等式（4）中使用非线性和两个逐点卷积，其中F1，F2∈RC×C是权重，σ（·）是ReLU函数。3.3. 投影仪许多视觉任务需要像素级的细节，但这样的细节不保留在视觉令牌。因此，我们将Transformer的输出与特征图融合表1：通过用VT模块替换卷积模块的最后一级来减少ResNets上VT的FLOP和参数大小。语义分割：在卷积的情况下，a）计算复杂度随着分辨率而增长，以及b）难以捕获长距离空间交互然而，VT a）对视觉标记的最小集合进行操作而不管分辨率如何，并且b）可以容易地在潜在空间中捕获长距离空间交互我们将VT与常用的全景特征金字塔网络（FPN）集成[24]。Panoptic FPN以多个阶段和分辨率提取ResNet特征图然而，它们依赖于具有大通道尺寸的卷积操作X输出=X输入+最大值L（XinWQ）（TWK）TT，（五）在高分辨率的特征地图上。我们用VT模块替换FPN卷积，产生VT-FPN（图4右侧）。其中Xin、XoutRHW×C是输入和输出特征映射。（XinWQ）RHW×C是根据输入特征图X in计算的查询。（XinWQ）pRC对像素p从视觉视野中需要的信息进行编码。（TWK）RL×C是从t-k计算出的密钥。表示第1个令牌编码的信息。关键字查询产品确定如何将编码在视觉标记T中的信息投影到原始特征图。WQRC×C、WKRC×C是用于计算查询和键的可学习权重4. 在视觉模型在本节中，我们将讨论如何将VT用作视觉模型中的构建块。我们定义了三个超参数R18R34R50R101FLOPs总1.14倍1.16x1.20倍1.09倍第五阶段2.4x5.0x6.1x6.9xParams总0.91x1.21x1.19倍 1.19倍603从每个分辨率，我们提取8个视觉令牌与1024个通道，然后将令牌与Transformer重新投影回像素级预测的特征图之前。VT-FPN使用的FLOP比FPN少6.4倍，精度相同或更高（表9和10）。5. 实验我们进行实验与VT的图像分类和语义分割（a）理解的关键组成部分的VT和（b）验证其有效性。5.1. 用于分类和消融的我们在ImageNet上进行了实验[11]，其中包含130万张训练图像和5万张验证图像。604Conv2dinterp2dConv2dinterp2dConv2d图4：用于语义分割的特征金字塔网络（FPN）（左）与视觉变换器FPN（VT-FPN）（右）。FPN使用卷积和插值来合并具有不同分辨率的特征图VT-FPN从所有特征图中提取视觉标记，用一个Transformer合并它们，并投影回原始特征图。Top-1累积（%）Top-1FLOPs参数累积（%）（M）（M）（Val）（火车）R1869.968.6181411.7公司简介72.076.5157911.6Top-1累积（%）FLOPs（男）Params（男）基于池的70.6155011.0R18基于聚类71.5158011.6基于过滤72.0157911.6基于池的73.5324620.6R34基于聚类75.1323021.8基于过滤74.8329921.8表2：VT-ResNet与ImageNet数据集上的基线ResNets。通过替换ResNets的最后一个阶段，VT-ResNet使用的FLOP比基线ResNets少224 M，少384 M，同时实现了1.7分和2.2分的验证精度。注意，VT-ResNets的训练精度要高得多。这指示VT-ResNets具有更高的模型容量并且需要更强的正则化（例如，数据增强）以充分利用模型。参见表8。我们在PyTorch中实现VT模型[29]。我们使用具有动量的SGD [35]-初始学习率为0。1每30个历元衰减10倍，动量0。9、权重衰减4 e- 5、批量大小256和90个时期。我们使用8个V100 GPU。VT与具有默认训练配方的ResNet：在表2中，我们在相同的训练配方下比较了 VT-ResNet 和 vanillaResNet。VT-ResNets用一串VT模块替换最后一个阶段，对第一个模块使用基于过滤器的分词器，对后续模块使用递归分词器尽管使用更少的FLOP， VT-ResNets 的表现仍优于基线 2.1 点 - 减少此外， VT-ResNets的过拟合程度更高，训练准确率分别为7.9（VT-R18）和6.9（VT-R34）。我们假设这是因为VT-ResNets具有更大的容量并且我们需要更强的正则化（例如，数据增强）。我们在第5.2节和表8中对此进行了说明。标记器消融：我们用更简单的基线替换第一个VT模块的标记器：首先，我们考虑一个天真的基于池化的标记器，简单地双线性插值的特征图空间，从HW=196减少到L=16。其次，我们考虑一个基于聚类的tok-enizer（附录C），它使用k均值聚类像素以形成令牌。根据表3，基于朴素池化的令牌化器表现不佳达显著裕度，从而验证了“更智能”像素分组的功效然而，基于过滤器表3：与不同类型的令牌器一起使用的VT-ResNet。基于池化的令牌化器对特征图进行空间下采样以获得视觉令牌。基于标记的标记器（附录C）在语义空间中对像素进行分组。基于过滤器的标记器（3.1.1）使用卷积过滤器对像素进行分组基于过滤器和基于聚类的标记器都比基于池的标记器工作得更好，从而验证了按语义对像素进行分组的重要性。Top-1累积（%）FLOPs（男）Params（男）R18带RT72.0157911.6不含RT71.4156411.1R34带RT74.8329921.8不含RT74.5336920.7表4：使用递归分词器的VT-ResNet实现更好的性能，因为递归分词器是内容感知的。RT表示递归分词器。基于聚类的令牌解析器执行类似的操作，具有在VT-R18和VT-R34之间的相反的排名我们假设这是由于互补的缺点：基于过滤器的令牌化器受到具有非内容感知权重的固定卷积过滤器的限制，并且基于聚类的令牌化器提取可能对下游分类性能不重要的概念。在表4中，我们验证了再流分词器对令牌关系建模：在表5中，我们比较了捕获令牌关系的不同方法（a）不计算令牌交互的基线和（b）图卷积图卷积[6，26，51]都执行VT，验证了令牌交互和内容感知令牌提取的需要令牌效率消融：在表6中，我们测试了不同的消融。身份分词器Conv2dinterp2dConv2dinterp2dConv2d投影仪Transformer605--Top-1累积（%）FLOPs（男）Params（男）没有一68.815288.5R18GraphConv69.215288.5Transformer72.0157911.6没有一73.4322217.1R34GraphConv73.6322317.1Transformer74.8329921.8表5：使用不同模块来对知识关系建模的VT-ResNet。使用转换器的模型比图卷积或无令牌空间操作执行得更好。这验证了对视觉标记（语义概念）和Transformer之间的关系建模比在相关标记中的图卷积更好地工作是重要的。号令牌Top-1累积（%）FLOPs（男）Params（男）1672.0157911.6R183271.7171111.66472.0197911.61674.8329921.8R343275.1351421.86475.0395121.8表6：使用更多的视觉标记并没有显著提高VT的准确性，这与我们的假设一致，即图像可以通过一组紧凑的视觉标记来描述Top-1累积（%）FLOPs（男）Params（男）R18带投影仪72.0157911.7无投影仪70.914979.3R34带投影仪74.8329921.8无投影仪74.1315817.3表7：将令牌投射回特征图的VT表现更好。这可能是因为特征图仍然编码重要的空间信息。许多视觉标记，只发现可忽略不计或没有增加的准确性。这表明虚拟测试已经覆盖了可能的高级概念的空间。投影消融：在表7中，我们显示将视觉标记重新投影到特征图对于性能是至关重要的。这是因为像素级语义在视觉理解中非常重要，而视觉标记完全缺乏。5.2. 使用高级配方在表2中，我们表明，在常规训练配方下，VT-ResNets经历了严重的过拟合，具有更高的验证准确度，但比基线的训练-值准确度差距更大。因此，我们假设基于VT的模型具有更高的模型容量。为了最大限度地提高这一点，我们使用高级训练配方进行重新训练，使用更多的训练时期，更强的数据增强，更强的正则性。液化和蒸馏。具体而言，我们使用 400 个epoch ，RMSProp，初始学习率0.01，5个预热epoch将学习率提高到0.16，然后每个epoch的学习率降低0.9875，同步批量归一化，批量大小为2048的分布式训练，标签平滑，AutoAugment [8]，随机深度生存概率[22] 0.9，辍学率0.2，指数移动平均（EMA）0.99985衰减，以及使用FBNetV 3-G的知识蒸馏[15]。9、当老师最终损失对蒸馏项加权0.8，对交叉熵项加权0.2。我们的结果报告在表8中。较基准ResNet模型，VT-ResNet模型实现4.6 7、更高的准确性。我们的VT-ResNets进一步优于其他基于ResNet的注意力变体[21，43，1，5，19，30，53，6]。这验证了我们的高级训练配方更好地利用了VT-ResNet我们还比较了在视觉模型中采用变换器的并行工作我们的模型优于竞争者，petitors，尽管使用更少的FLOP和参数。所包含的每个基线除了其架构更改之外，还使用其自己的培训配方;为了理解我们的准确性增益的来源，我们用相同的高级训练配方训练ResNet 18和ResNet34。尽管如此，VT-ResNet和ResNets之间的准确性差距分别从1.7和2.2分增加到2.2和3.0分，尽管使用更少的FLOP和参数。这进一步验证了更强的训练配方可以更好地利用VT模型容量。对于最后一个阶段，我们观察到FLOP降低高达6.9倍（表1）。5.3. 用于语义分割的视觉Transformer我们在COCO-stuff [2]和LIP[25]数据集。COCO-stuff数据集包含91个stuff类的注释，其中包含118 K个训练图像和5 K个验证图像。LIP数据集是具有挑战性姿势和视图的人类图像数据集。对于COCO-stuff数据集，我们使用ResNet- 50，101个主干训练VT-FPN模型。我们的实现基于Detectron2[47]。我们的训练配方基于具有1x训练步骤的语义分割FPN配方，除了我们在VT-FPN中使用同步批量归一化，将批量大小更改为32，并使用0.04的基本学习率。对于LIP数据集，我们还使用同步批量归一化，批量大小为96。我们使用SGD训练模型，使用0.0005的权重衰减和0.01的学习率。如表9和表10所示，在用VT-FPN替换FPN之后，基于 ResNet-50 和 ResNet-101 的模块都实现了略高的mIoU，但VT-FPN需要的FLOP比FPN模块少6.5倍。606†‡（i，j）：PA，ij=xyAA，xy：x∈{i−1，，i，i+ 1}，y∈Tj，i，j=xyAA，xy. 我们对所有像素取Miou（%）总FLOPs（G）FPNFLOPs（G）R50FPN47.0437.112.8VT-FPN47.3926.4（1.41x）2.0（6.40x）R101FPN47.3554.412.8VT-FPN47.5843.6（1.25x）2.0（6.40x）表 10 ： Look Into Person 验证集的语义分割结果。FLOP是用473×473的典型输入分辨率计算的。表第八章：将VT-ResNets与其他注意力进行比较-第1层（头1）第5层（头1）第12层（头1）图5：上图显示了不同层的局部注意力占所有注意力值实线是所有头部的平均值，边界表示标准差。底行是预训练的ViT-B/16模型中的自我注意模式。ImageNet上的增强ResNets。* [43]中报告的基线ResNetFLOP低于我们的基线。我们引用了从头开始训练的准确性，分辨率为[50]的224。引用[50]的FLOP估计。附录中的图9显示了上述模型的准确度与参数和FLOP的关系图。Miou（%）总FLOPs（G）FPNFLOPs（G）转轴-50FPN40.7815955.1VT-FPN41.00113（1.41x）8.5（6.48x）R-101FPN41.5123155.1VT-FPN41.50185（1.25x）8.5（6.48x）（b）在具有类似资源限制的基准上进行比较（表8）。为了研究原因，我们分析了一个预先训练好的ViT-B/16，发现它在早期层中的自我注意模式是高度本地化的。图5，行2），其中每个标记仅聚焦于相邻块（如对角线所示）。自我注意力只在后面的层中传播到非局部区域。为了量化这种观察，我们计算每个注意力图是如何通常，给定层1，其注意力图AA和像素（i，j），我们在一个以表9：COCO-stuff验证。FLOP在800×1216输入下计算。{j−1，j， j+1}。WΣe也计算所有atten的和6. 分析为什么不在早期阶段使用变压器？一个突出的并发工作，ViT [12]用变压器取代了网络所有阶段的卷积然而，我们发现在网络早期使用变压器效率极低，与模型Top-1累积（%）FLOPs（G）Params（男）R18[14]69.81.81411.7R18+SE[21、43]70.61.81411.8R18+CBAM[43]70.71.81511.8LR-R18[19]74.62.514.4[14]第十四话73.81.81411.7VT-R18（我们的）76.81.56911.7R34[14]73.33.66421.8R34+SE[21，43]73.93.66422.0R34+CBAM[43]74.03.66422.9AA-R34[1]74.73.5520.7R34[14]（我们的）77.73.66421.8VT-R34（我们的）79.93.23619.2R50[14]76.04.08925.5R50+SE[21，43]76.93.860*28.1R50+CBAM[43]77.33.864*28.1LR-R50发动机[19]77.34.323.3独立[30]77.63.618.0AA-R50[1]77.74.125.6A2-R50[5]77.0--SAN19[53]78.23.320.5GloRe-R50[6]78.45.230.5VT-R50（我们的）80.63.41221.4R101[14]77.47.80244.4R101+SE [21，43]77.77.575*49.3R101+CBAM[43]78.57.581*49.3LR-R101[19]78.57.7942.0AA-R101[1]78.78.0545.4GloRe-R200[6]79.916.970.6VT-R101（我们的）82.37.12941.5ViT-B/16-22479.717.6‡86.4DeiT-B/16-224 [38]T2T-ViTt-224 [50]81.882.217.6‡13.28664.1607Σ和图像，R=P/T并绘制此ra-A A，ijA，ij1nlninjA，ij（图5）。这证实了网络中早期的ViT-B/16变压器是高度本地化的，仅在后续层使用全局注意力。这让人想起卷积：网络中早期的变换器以大得多的计算成本来模仿卷积的高度局部化和稀疏的注意力。因此，这激发了我们的设计模式：当需要局部注意力时（在网络的早期）使用卷积，当需要全局注意力时使用transformer608Σ∈Σ∈∈∀×−令牌2令牌8令牌10令牌3令牌11令牌15图6：基于过滤器的分词器在来自LIP数据集的图像上生成的空间注意力的可视化。红色表示较高的关注值，蓝色表示较低。在没有任何监督的情况下，视觉令牌自动聚焦于图像的不同区域，这些区域对应于不同的语义概念，例如羊、地面、衣服、树林。行1示出了像素对每个标记的贡献，并且行2示出了不同像素如何与相同标记交互注意，在行2中，像素可以来自图像的不同的、空间上远离的部分，指示VT可以捕获长程相互作用。需要（稍后在网络中）。令牌学习什么我们表明，提取的VT到- kens对应于不同的语义图像区域，通过可视化的空间注意力ARHW×L为基于过滤器的分词器在图6中，行1。注意力图反映每个像素我们还发现，在LIP上训练的VT对前景像素（注释部分）的注意力比对背景像素的注意力高28.3%。更多目视检查病例见附录B。VT 是否平等对待每个像素？我们发现，作为hypothe- esized，VT分配计算非均匀空间。这通过跨图像的非均匀注意力分布来验证我们还通过计算可视化的注意力图A的熵E=i，jAi，jlog（Ai，j）.对于卷积，i，j，Ai，j=1/（HW）。我们使用473473的LIP 图像，使基线熵E conv=12。318号对于VT，注意是ARHW×L（3.1.1节），使VT熵E vt=0。941这比Econv小13倍，验证VT没有平等对待每个像素VT是否捕获远程相互作用？我们设计了VT，希望它可以捕获长程相互作用，并克服卷积的限制。我们通过分析哪些像素与每个令牌相互作用来验证这一点形式上，对于具有注意力映射Ai，j，l的令牌-1，其与其他令牌的交互由等式（3）中计算的自注意力权重Wl，l’捕获我们分析哪些像素通过计算Ai，j，l=l′Wl，l′×Ai，j，l′。我们在图中可视化Ai，j，l6 Ro w 2.与A相同，A参加7. 结论计算机视觉的最新趋势是用变压器取代卷积。然而，这忽略了卷积的动机：卷积对于处理在网络早期出现的高度冗余、高度局部化的模式（如边和角）是有效的。代替这一点，我们设计的卷积变压器的混合动力，利用这两个操作的优势。我们提出了视觉转换器（VT），可以更有效地学习和关联稀疏分布的高级概念：而不是像素阵列，VT仅表示使用视觉标记的图像中的高级概念。而不是卷积，VT应用变换器直接关联令牌空间中的语义概念。为了评估这个想法，我们用VT替换卷积模块，在任务和数据集之间获得显着的准确性改进使用高级训练配方，我们的VT将Im-ageNet上的ResNet准确性提高了4.6到7个点。对于LIP和COCO-stuff的语义分割，基于VT的特征金字塔网络（FPN）实现了0.35点的mIoU，尽管FLOP比卷积FPN模块少6.5倍。这种范式还可以与本文范围之外的其他当代技巧相结合，包括额外的训练数据和神经结构搜索。然而，我们的目标不是展示深度学习技巧的混乱，而是表明像素卷积范式充满了冗余，这可以通过采用令牌转换器范式来解决像素卷积约定中的根本原因-全局到整个图像。Acan的焦点区域是图像的不同的、空间上远离A的部分，指示VT捕获长距离相互作用。609引用[1] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens，and Quoc V Le.注意力增强卷积网络。在IEEE计算机视觉国际会议论文集，第3286-3295页[2] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在计算机视觉和模式识别（CVPR），2018年IEEE会议上。IEEE，2018年。[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。arXiv预印本arXiv：2005.12872，2020。[4] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页[5] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng. A？2-nets：双重注意力网络。神经信息处理系统的进展，第352-361页[6] Yunpeng Chen，Marcus Rohrbach，Zhicheng Yan，YanShuicheng，Jiashi Feng，and Yannis Kalantidis.基于图的全局推理网络。在IEEE计算机视觉和模式识别会议论文集，第433-442页[7] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。arXiv预印本arXiv：1911.03584，2019。[8] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。在IEEE计算机视觉和模式识别集，第113[9] 戴晓亮，万文，张培昭，吴碧晨，何子建，甄伟，陈侃，田远东，余修，彼得·瓦伊达，等. Fbnetv 3：使用神经获取功能的联合架构-配方搜索。arXiv预印本arXiv：2006.02049，2020。[10] 戴晓亮，张培昭，吴碧晨，尹红旭，孙飞，王扬汉，马拉·杜汗，胡云青，吴一鸣，贾扬青，等.Chamnet：通过平台感知模型适应实现高效在IEEE计算机视觉和模式识别会议的论文集中，第11398-11407页[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[13] Amir Gholami 、 Kiseok Kwon 、 Bichen Wu 、 ZizhengTai 、 Xiangyu Yue 、 Peter Jin 、 Sicheng Zhao 和 KurtKeutzer。挤压下一个：硬件感知神经网络设计。在IEEE计算机视觉和模式识别研讨会会议集，第1638[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on compute

下载后可阅读完整内容，剩余1页未读，立即下载