渐进采样策略提升了PS-ViT网络在图像分类任务中的性能

102 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

387××具有渐进采样的岳晓宇* 1孙舒阳* 2邝张辉3孟伟4菲利普托2 张伟3，6林大华1，51感知与互动智能中心2牛津大学3商汤科技4清华大学5香港中文大学6上海交通大学清源研究院xyyue@cpii.hk{kevinsun，phst}@ robots.ox.ac.ukweim18@mails.tsinghua.edu.cn{kuangzhanghui，wayne.zhang}@dhlin@ie.cuhk.edu.hk sensetime.com摘要具有强大的全局关系建模能力的变换器最近被引入到基本的计算机视觉任务中。作为一个典型的例子，视觉变换器（ViT）直接将纯Transformer架构应用于图像分类，通过简单地将图像分割成具有固定长度的标记，并采用变换器来学习这些标记之间的关系。然而，这样的朴素标记化可能破坏对象结构，将网格分配给不感兴趣的区域（诸如背景），并且引入干扰信号。为了缓解上述问题，在本文中，我们提出了一个迭代和渐进的采样策略来定位判别区域。在每次迭代时，当前采样步骤的嵌入被馈送到Transformer编码器层中，并且预测一组采样偏移以更新下一步骤的采样位置。渐进采样是可微的。当与Vision Transformer相结合时，所获得的PS-ViT网络可以自适应地学习看哪里。所提出的PS-ViT是有效的和高效的。当在ImageNet上从头开始训练时，PS-ViT在top-1准确度方面比vanilla ViT高3.8%，参数少了大约4个，FLOP少了10个。代码可在https://github.com/yuexy/PS-ViT上获得。1. 介绍Transformer [39，11]已经成为自然语言处理任务的事实上的由于其强大的全局关系建模能力，研究人员试图将其引入到基本的计算机视觉任务中，例如最近的图像分类[6，38，12，44，32]，对象检测[56，4，53，10，37]和图像分割[40]。然而，变压器最初*同等贡献。补丁…（一）X N（b）第（1）款图1. ViT [12]中的朴素标记化方案与我们提出的PS-ViT中的渐进式采样（a）朴素标记化方案生成图像块的序列，该图像块被嵌入并且然后被馈送到变换器的堆叠中。(b)我们的PS-ViT迭代地对有区别的位置进行采样。×N表示N次采样迭代。适合于处理中等大小的序列，并且具有二次计算复杂度w.r.t.序列长度。因此，它们不能直接用于处理具有大量像素的图像为了克服计算复杂性问题， pi-oneer VisionTransformer（ViT）[12]采用了一种朴素的令牌化方变压器变压器偏移Transformer令牌388案，该方案将一个图像划分为一系列规则间隔的补丁，这些补丁被线性投影到令牌中。以这种方式，图像被转换成数百个视觉标记，这些视觉标记被馈送到用于分类的变换器编码器层的堆叠中。ViT取得了出色的结果，特别是在大规模数据集上进行预训练时，这证明了全转换器架构是389××83817977757371690 20 40 60 80 100参数（M）83817977757371690 5 10 1520FLOPS（B）8382818079787776750 500 1000150020002500速度（img/s）图2.PS-ViT与最先进的网络在ImageNet上的top-1准确性，参数数量，FLOPs和速度方面的比较左侧、中间和右侧的图表显示了前1精度与参数编号、FLOP和速度。在相同的V100上测试速度，批量为128，以进行公平比较。一个很有前途的视觉任务的替代品。然而，这种朴素令牌化方案的局限性是明显的。首先，硬分裂可能会分离一些高度语义相关的区域，这些区域应该用同一组参数来建模，这破坏了固有的对象结构，并使输入补丁不那么具有信息性。图1（a）示出了猫头被分成几个部分，导致仅基于一个部分的识别挑战。第二，令牌被放置在规则网格上，而不管底层图像内容如何。图1（a）示出了大多数网格集中在不感兴趣的背景上，这可能导致感兴趣的前景对象被淹没在干扰信号中。人类视觉系统组织视觉信息的方式与不加选择地一次处理整个场景的方式完全不同相反，它会在需要的时间和地点逐步和选择性地将注意力集中在视觉空间的有趣部分，同时忽略不感兴趣的部分，随着时间的推移结合来自不同注视点的信息来理解场景[33]。受上述过程的启发，我们提出了一种新的基于变换器的渐进式采样模块，该模块能够学习在图像中查看的位置，以减轻ViT [12]中的朴素令牌化方案引起的问题。而不是从固定位置采样，我们提出的模块更新的采样位置，在迭代的方式。如图1（b）所示，在每次迭代中，当前采样步骤的令牌被馈送到Transformer编码器层中，并且预测一组采样偏移以更新下一步骤的采样位置。该机制利用Transformer的能力来捕获全局信息，以通过与本地上下文和当前令牌的位置相结合来估计朝向感兴趣区域的偏移。以这种方式，注意力逐步地集中到图像的有区别的区域，就像人类视觉所做的那样。我们提出的渐进式采样是可区分的，并且很容易插入ViT的硬分裂，以构建端到端的视觉转换与渐进采样网络被称为PS-ViT。由于任务驱动的训练，PS-ViT倾向于采样与语义结构相关的对象区域。与简单的标记化相比，该方法对前景物体的关注度更高，当在ImageNet上从头开始训练时，所提出的PS-ViT优于当前最先进的基于变换器的方法。具体达到82。ImageNet上的top- 1准确率为3%，高于最近的ViT变体DeiT [ 38 ]，只有约4少参数和2更少的FLOPs如图-在图2中，我们观察到PS-ViT明显更好，更快，并且与最先进的基于变压器的网络ViT和DeiT相比，参数效率更高。2. 相关工作Transformer首先被提出用于序列模型，例如机器翻译[39]。得益于其强大的全局关系建模能力和高效的训练，transformer实现了显着的改进，并成为许多自然语言处理（NLP）任务的事实标准[11，3，30，29，48]。计算机视觉中的变形金刚受NLP任务中变压器成功的启发，许多研究人员试图将变压器或注意力机制应用于计算机视觉任务中，例如图像分类[6，38，12，44，32]。2，18，36]，对象检测[56，4，53，10，50，37]，图像分割[40]，低级图像处理[5，47，27]，[43]第四十三话：我的世界理解[7，35，22]和光学字符识别。[41，49，34].Transformers它们消耗的内存和计算量与w.r.t.成正交增长。令牌长度，这防止它们被直接应用于具有大量像素作为令牌的图像PS-ViT Deit ViT ResNet2 ×PS-ViT Deit ViT ResNet4 ×PS-ViT Deit ViT准确度（%）准确度（%）准确度（%）390××不∈∈×轴向注意力[17]沿着张量的单个轴施加注意力而不进行展平，以减少计算资源需求。iGPT [6]简单地将图像下采样到一个低分辨率，训练一系列变换器来自动回归预测像素，并使用线性探针实现了有希望的性能。ViT [12]定期将一个高分辨率图像分成16个16块，这些块被馈送到一个纯Transformer架构中进行分类，并且首次获得了与最先进的卷积网络相比的出色结果。然而，ViT需要在大规模数据集上进行预训练，从而限制了它们的采用。DeiT [38]提出了一种数据高效的训练策略和师生蒸馏机制[16]，大大提高了ViT此外，它仅在ImageNet上训练，因此大大简化了ViT的整体管道。我们提出的PS-ViT也从ViT开始我们提出了一种新的渐进式采样策略，而不是将像素分割成少量的视觉标记，以避免结构破坏，并将更多的注意力集中在感兴趣的区域。硬视觉注意。 PS-ViT作为一系列的一瞥类似于硬视觉注意[25，1，46，13]，仅基于输入图像中的位置的子集做出决定。然而，PS-ViT是可区分的，可以很容易地以端到端的方式进行训练，而以前的硬视觉注意力方法是不可区分的，并使用强化学习（RL）方法进行训练这些基于RL的方法已被证明在扩展到更复杂的数据集时效果较差[13]。此外，我们的PS-ViT针对视觉变换器的渐进式采样区别性令牌，而先前的方法定位卷积神经网络[25，1，13]或序列解码器[46]的感兴趣区域。我们的工作也与可变形卷积[9，54]和可变形注意力[55]机制有关，然而，这项工作中的像素采样的动机和方式与可变形卷积和注意力机制中提出的不同。3. 方法在本节中，我们首先介绍我们的渐进式采样策略，然后描述我们提出的PS-ViT网络的整体架构。最后，我们将详细介绍PS-ViT的细节我们的方法的符号和符号示于表1中。3.1. 渐进采样ViT [12]规则地将一幅图像划分为16个16块，这些块被线性地投影到一组令牌中，而不考虑图像区域的内容重要性和对象的整体结构为了更好地关注图像中的感兴趣区域，减轻结构破坏的问题，提出了一种新的渐进式采样模块。因为它是可微的，所以它是自适应驱动的名称描述F∈RC×H×W所提取的特征图特征提取器模块pt∈R2×（n×n）迭代t处的采样点Pt∈RC×（n×n）位置嵌入迭代tot∈R2×（n×n）采样偏移迭代tT'∈RC×（n×n）不从F采样的令牌迭代测试Tt∈RC×（n×n）由渐进式迭代t时的采样模块表1.本文中使用的符号和标记的列表1图3.渐进采样模块的体系结构。在每次迭代中，给定采样位置pt和特征映射F，我们在pt上对F上的初始令牌T'进行采样，将基于pt生成的位置编码Pt和最后一次迭代的输出令牌Tt-1逐元素相加，然后馈送到一个变换编码器层以预测当前迭代的令牌Tt。基于T t经由一个全连接层预测偏移矩阵ot，将其与pt相加以获得用于下一次迭代的采样位置pt+1。将上述过程迭代N次。通过下面的基于视觉Transformer的图像分类任务。我们的渐进采样模块是一个迭代的框架。给定输入特征图FRC× H × W 其中C、H和W分别为特征通道的维度、高度和宽度，其最终输出令牌序列TNRC×（n×n），其中（n n）表示一幅图像上的样本数量，N是渐进采样模块中的总迭代次数。如图3所示，在每次迭代时，通过将采样位置与最后一次迭代的偏移矢量相加来更新采样位置。从形式上讲，pt+1= pt+ ot，t ∈ {1，. . . ，N-1}，⑴×��位置编码+ 联系我们FC+��′��−1Transformer编码器层……391∈∈1∈我[·不∈不∈⊕·××∈∈∈·不不∈其中ptR2×（n×n）和otR2×（n×n）指示在迭代t处预测的采样位置矩阵和偏移矩阵。对于第一次迭代，我们将p1初始化为规则间隔的位置，如在ViT [12]中所做的那样具体地，第i个位置pi由下式给出：pi=[πy sh+sh/2，πx sw +sw/ 2]其中MtR2×C是可学习的线性变换用于预测采样偏移矩阵。利用渐进采样策略，采样位置渐进地收敛到图像的感兴趣区域因此，我们将其命名为渐进采样。3.2. 整体架构1iiπy=[i/nπx= i− πy* n（二）如图4所示，PS-ViT的架构由四个主要组件组成：1）特征提取-我我sh= H/nsw= W/n，其中，πy和πx将位置索引i映射到用于预测密集令牌的tor模块; 2）对有区别的位置进行采样的渐进采样模块; 3）遵循ViT [12]和DeiT [38]的类似配置的视觉Transformer模块; 4）分类模块。ii特征提取器模块旨在提取密集的dex和column 1。表示楼层操作。Sh和Sw分别是在y和x轴方向上的步长。然后在采样位置处对输入特征图上的初始令牌进行采样，如下所示：T'= F（p），t ∈ {1，. . . ，N}， ⑶其中，T'RC×（n×n）是迭代t时的初始采样令牌。由于pt的元素是分数的，因此采样经由双线性插值运算来实现，该双线性插值运算是可微的。输入特征图F和采样位置p，t。初始采样令牌、最后一次迭代的输出令牌和当前采样位置的位置编码在被馈送到一个Transformer编码器层之前被进一步从形式上讲，我们有Pt=Wtpt特征图F，其中渐进式采样模块可以简化令牌Tt。密集特征图F的每个像素可以被视为与图像的块相关联的令牌。我们采用ResNet50 [14]的第一阶段中的卷积干和前两个残差块作为我们的算法。特征提取器模块，因为卷积运算符在建模空间局部上下文时特别有效视觉Transformer模块遵循ViT [12]和DeiT [38]中采用的架构。我们在渐进采样模块中的最后一次迭代的输出标记TN上填充一个由分类标记TclsRC×1从形式上讲，T=VTM（[Tcls，TN]），（6）其中VTM指示视觉Transformer模块功能，其是变换器编码器层的堆叠，并且T∈RC×（n×n+1）是输出。注意，位置Xt=T'PtTt−1Tt= Transformer（Xt），t ∈{1，. . . ，N}，（四）信息已经在渐进采样模块中被融合到TN中通过vi-其中WtRC×2是将采样位置pt投影到大小为C（n n）的位置编码矩阵Pt的线性变换，所有迭代共享相同的Wt。表示Transformer（）时的元素加法是基于多头自注意力的Transformer编码器层，这将在第3.3节中详细说明。注意，T0是等式（4）中的零矩阵ViT [12]使用贴片索引的2-D由于它们的块是规则间隔的，块索引可以精确地编码一个图像中的块中心的相对坐标。然而，这在我们的情况下不成立，因为我们的采样位置是非等距的，如图1所示。我们将采样位置的归一化绝对坐标投影到一个嵌入空间作为位置嵌入。最后，除了在最后一次迭代之外，如下针对下一次迭代预测采样位置偏移：ot= MtTt，t∈ {1，. . . ，N-1}，（5）最后使用子Transformer模块来预测图像类别。我们使用交叉熵损失来端到端训练所提出的PS-ViT网络。3.3. 执行Transformer编码器层。Transformer编码器层用作渐进采样模块和视觉变换器模块的基本构建块。每个Transformer编码器层具有多头自关注和前馈单元。给定查询QRD× L，按键KRD× L和值其中D是维数，L是序列长度，缩放的点积自注意力可以计算为：Attn（Q，K，V）= softmax（QTK/√D）VT，（7）其中Q_T指示Q的转置，并且softmax（）是在输入的每一行上应用的softmax运算。392不ΣK（q，p··CCCC我RM我M我MQ†t=tt我我我∈ ∈∈∈图4.所提出的渐进式采样视觉Transformer（PS-ViT）的总体架构。给定输入图像，其特征图F首先由特征提取器模块提取。然后，在渐进式采样模块中，在F上的自适应位置p i处渐进地和迭代地对令牌T i进行采样。渐进式采样模块的最终输出令牌T_N被填充有分类令牌T_cls，并且进一步被馈送到视觉Transformer模块中以细化T_cls，其最终在分类模块中被分类。视觉Transformer模块保持相同的设置。渐进采样反向传播。渐进采样的反向传播是直接的。根据等式（1）和等式（3），对于每个sam，施加位置i，梯度w.r.t.采样偏移表2. PS-ViT配置。指示渐进采样模块（PSM）中不同迭代之间的权重共享。N、Nv、C和M是PSM中的迭代次数，在迭代处，t被计算为：T'i视觉变换器模块中的Transformer器编码器层数、令牌的维数以及每个变换器中的头数。厄佐岛t−1=厄佐岛t−1t−1厄佐岛+oi） t−1F（q），（九）qt−1矩阵对于多头自注意（MHA），查询、键和值经由对输入的线性变换生成M次，其中每个头具有一个单独的学习权重。然后，注意力函数并行地应用于每个头的查询、键和值。从形式上讲，其中K（i）是用于计算每个整数空间位置q的权重的双线性插值的核。网络配置。特征维数C、渐进采样模块中的迭代次数N、视觉变换模块中的视觉Transformer层数NV、图像处理模块中的图像处理模块MHA（Z）= Wo[H1，. . . ，HM1T，Hi=Attn（WQZ，WKZ，WVZ），（八）前模块和头数M在每个变压器层影响模型的大小，FLOP，和perfor- mances。在本文中，我们在表2中用不同的速度-性能权衡来配置它们，使得所提出其中WoRM× C是一个可学习的线性投影。W×C，WKR×C和WVR×C分别是第i个头的查询、键和值的线性投影Transformer编码器层的前馈单元由两个完全连接的层组成，在它们之间具有一个GELU非线性激活[15]，并且潜在变量维度为3C。为简单起见，Transformer器编码器层在渐进采样模块和PS-ViT可用于不同的应用场景。沿着每个空间维度n的采样点的数量默认设置为14考虑到每次迭代中的采样是在渐进采样模块中的相同特征图F上进行的，我们尝试在这些迭代之间共享权重以进一步减少可训练参数的数量。如表2所示，大约25%的参数可以保存在此设置渐进采样模块1212…3Vision Transformer模块…分类模块Transformer编码器层Transformer编码器层Transformer编码器层…采样迭代2采样迭代1特征提取器模块网络NNvCM#参数浮点数PS-ViT-Ti4819234.7百万1.6 BPS-ViT-Ti†4819233.6米1.6 BPS-ViT-B410384621.3百万5.4 BPS-ViT-B†410384616.9百万5.4 B393××模型图像大小Params（男）FLOPs（B）Top-1（%）Top-5（%）基于cnnR-18 [14]224211.71.869.889.1R-50 [14]224225.64.176.192.9R-101 [14]224244.57.977.493.5X-50-32× 4d [45]X-101-32× 4d [45]2242224225.044.24.38.079.380.394.595.1RegNetY-4GF [31]224220.64.079.4-RegNetY-6.4GF224230.66.479.9-RegNetY-16GF [31] 224283.615.980.4-基于transformerViT-B/16 [1]384286.455.577.9-DeiT-Ti [38]22425.71.372.2-DeiT-S [38]224222.14.679.8-DeiT-B [38]224286.417.681.8-PS-ViT-Ti/1422424.81.675.692.9PS-ViT-B/10224221.33.180.695.2PS-ViT-B/14224221.35.481.795.8PS-ViT-B/18224221.38.882.396.1表3.与ImageNet上最先进的网络进行比较，并进行单中心裁剪测试。“/”后面的数字是在每个轴向方向上的采样数。例如，PS-ViT-Ti/14表示具有14×14个采样位置的PS-ViT-Ti。4. 实验历元300优化器AdamW批量512学习率0.0005学习率衰减余弦权重衰减0.05预热时代5标签平滑0.1辍学0.1随机增强垫块（9，0.5）混淆概率0.8CutMix概率1.0表4.训练策略和超参数设置。4.1. ImageNet上的实验细节所有图像分类的实验都是在ImageNet 2012数据集[21]上进行的，该数据集包括1k个类，120万张用于训练的图像和5万张用于验证的图像。我们在Im-ageNet上训练我们提出的PS-ViT，而无需在大规模数据集上进行预训练我们使用PyTorch [28]和8个GPU训练PS-ViT的所有模型。受[38]中所做的数据有效训练的启发，我们使用AdamW [24]作为优化器。总训练时期数和批量大小分别设置为300和512。学习率初始化为0。0005，并随余弦退火时间表衰减[23]。我们通过ε = 0的平滑标签来调节损失。1.一、我们使用随机裁剪，Rand-Augment [8]，Mixup[52]和Cut-Mix [51]在训练期间增强图像将图像大小重新调整为256 256，并在测试时在中心裁剪为224 224大小训练策略及其超参数设置总结于表4中。4.2. ImageNet上的结果我们在表3中将我们提出的PS-ViT与标准图像分类基准ImageNet上的最先进网络在参数数，FLOPS以及前1和前5精度方面进行了比较。与基于CNN的网络进行比较。我们的PS-ViT大大优于ResNets [14]，同时具有更少的参数和FLOP。具体地，与ResNet-18相比，PS-ViT-Ti/14绝对地将top-1准确度提高了 5.8% ，同时减少了 6.9M 参数和 0.2BFLOP。当比较PS-ViT-B/10（PS-ViT-B/14）和ResNet-50（ResNet-101）时，我们可以观察到类似的趋势。与最先进的基于CNN的网络RegNet相比，我们提出的PS-ViT实现了卓越的性能和计算效率 [31]。特别是，与RegNetY-16 GF相比，PS-ViT-B/18将top-1精度提高了1.9%，参数减少了约四分之一，FLOPS减少了一半。与基于Transformer的网络的比较。表3显示我们提出的PS-ViT优于ViT [12]及其最近的变体DeiT [38]。特别地，PS-ViT-B/18实现了82.3%的top-1准确度，其比基线模型DeiT-B高0.5%，同时具有21 M参数和21 M的平均值。8.8仅限B触发器。我们的业绩增长归因于两个部分。首先，PS-ViT对基于CNN的令牌进行采样，这比ViT[12]和DeiT [38]中使用的原始图像补丁更有效其次，我们的渐进式采样模块可以自适应地关注感兴趣的区域，并产生比[12，38]中使用的朴素标记化更语义相关的标记。4.3. 消融研究PS-ViT模型预测所有消融研究中的类别标记。更大的采样数n导致更好的性能。我们首先评估采样数参数n如何影响PS-ViT性能。被馈送到视觉变换器模块中的采样令牌的序列长度是n2。采样的令牌越多，PS-ViT可以提取的信息就越多。然而，采样更多令牌将增加计算和存储器使用。表5报告了FLOP，以及top-1和top-5 ac-394∗≤−∼前1名（%）前5名（%）ViT ®PS-ViT-B/1478.481.794.195.8表5.各轴向取样数n的影响模型N前1名（%）前5名（%）PS-ViT-B/14180.695.3281.595.6481.795.8681.895.7881.995.7981.795.81081.695.8表6.渐进采样模块中迭代次数N不同的咒语已经示出，FlOP随着n变得更大而增加，并且当n16时精度增加，并且当n >16时达到平台。考虑到速度-准确性权衡，除非另有说明，否则我们默认设置n = 14。性能可以进一步提高与更多的erations的渐进式采样。然后，我们评估表6中的渐进采样模块的迭代次数N的影响。为了保持计算复杂度不变，表6中的所有模型在视觉Transformer模块中具有14N个变换器层，并且在整个网络中总共具有14个变换器层。N=1表示采样点不会更新。已经表明，当N=8时，PS-ViT表现最佳，并且当 N >8 时，准确度开始下降。由于我们保持Transformer层的总数不变，增加N将导致横向建模中变压器层的减少，这可能会损害性能。考虑到从N=4到N=8的准确度提高可以忽略不计，除非另有说明，否则我们默认设置N=4。与ViT比较PS-ViT的Transformer编码器中的网络超参数与ViT的原始设置不同。为了公平的比较，我们进一步研究了当网络超参数设置为与我们相同时，ViT的表现。我们将层、通道、头的数量和令牌的数量设置为与PS-ViT-B/14中提出的相同，并在相同的训练机制下训练网络。如表7所示，ViT实现了78.4%的top-1准确度，这大大低于其PS-ViT对应物。因此，我们得出结论，渐进式采样模块可以相当提高表7.我们的PS-ViT与ViT之间的比较。表示具有相同模型配置和训练策略的模型。模型参数（M）前1名（%）前5名（%）PS-ViT-Ti/14PS-ViT-Ti†/144.83.775.674.192.992.3PS-ViT-B/10PS-ViT-B†/1021.316.980.680.095.294.8PS-ViT-B/12PS-ViT-B†/1221.316.981.380.995.595.3PS-ViT-B/14PS-ViT-B†/1421.316.981.781.595.895.6表8.比较在渐进式采样模块中具有和不具有权重共享的PS-ViT。†表示权重共享。ViT的性能在采样迭代之间共享权重模型大小（参数数）是在终端设备上部署深度模型时的关键因素之一。我们提出的PS-ViT是非常终端设备友好的，因为它可以在渐进式采样模块中共享权重，性能下降可以忽略不计表8比较了在渐进式采样模块中具有和不具有权重共享的PS-ViT。它已被证明，重量共享可以减少参数数，伯约21%-23%，而与轻微的性能下降，特别是对于PS-ViT-B/12和PS-ViT-B/14。4.4. 速度比较我们提出的PS-ViT是有效的，不仅在理论上，而且在实践中。表9比较了最先进网络在FLOP和速度（每秒图像数）方面为了公平比较，我们在一台配备32GBV100 GPU的服务器上测量了所有型号的速度。批量大小固定为128，每秒可推断的图像数量已经表明，当它们的前1精度相当时，PS-ViT比ViT和DeiT有效得多。具体地，PS-ViT-B/14和DeiT-B具有约81.7%的相似准确度。然而，PS-ViT-B/14实现约2.4在速度和FLOP方面分别是DeiT-B的1.5倍和3.3倍。PS-ViT-B/10在速度和FLOP方面将ViT-B/16的速度提高了约14.6倍和17.9倍，同时提高了2.7%的top-1精度。4.5. 可视化为了探索我们方法中可学习采样位置的机制，我们将预测的n参数（M）FLOPs（B）前1名（%）前5名（%）1021.33.180.695.2124.281.395.5145.481.795.8167.082.195.8188.882.396.1395×图5.所提出的渐进式采样模块中采样位置的可视化。箭头的起始点是初始采样位置（P1），而箭头的结束点是最终采样位置（P4）。模型IMC10C100花汽车ViT-B/1677.998.187.189.5-ViT-L/1676.597.986.489.7-DeiT-B81.899.190.898.492.1PS-ViT-B/1481.799.090.898.892.9表9.比较PS-ViT的效率，以及最先进的网络在FLOPs和速度方面的效率图5中我们提出的渐进采样模块的偏移。我们可以观察到，根据图像的内容自适应地调整采样位置对象周围的采样点倾向于移动到前景区域并会聚到对象的关键部分。利用这种机制，对诸如鸡头的有区别的区域进行密集采样，保留高度语义相关区域的内在结构信息。4.6. 迁移学习除了ImageNet，我们还将PS-ViT转移到下游任务中，以展示其泛化能力。我们遵循DeiT [38]中的实践进行公平比较。表10显示了在ImageNet上预训练并针对其他数据集（包括 CIFAR-10 [20] ， CIFAR-100[20]，Flowers-102 [26]和Flowers-102 [ 26]）进行微调的模型的结果。斯坦福汽车[19]. PS-ViT-B/14可与表10.其他数据集上的Top-1准确度ImageNet和CIFAR缩写为或者甚至比DeiT-B更好，在所有这些数据集上具有大约少45. 结论在本文中，我们提出了一个有效的视觉变换器与渐进采样（PS-ViT）。PS-ViT首先通过特征提取器提取特征图，然后用一个渐进式采样模块渐进地选择有区别的令牌。采样的标记被馈送到视觉Transformer模块和分类模块中以用于图像分类。PS-ViT减轻了ViT中的结构破坏，并自适应地聚焦于对象的感兴趣与ViT及其最近的变体DeiT相比，它在Ima-geNet上实现了相当大的改进。我们还对实验结果进行了更深入的分析，以调查每个组件的有效性此外，PS-ViT在理论和实践上都比其基于Transformer器的竞争者更有效谢谢。这项工作得到了感知与互动智能中心（CPII）和中国香港特别行政区创新科技署（创新及科技基金B/E030/18项下的企业支持计划模型FLOPs（B）速度（img/s）Top-1RegNetY-4.0GFRegNetY-6.4GF4.06.415.91097.6487.0351.079.479.980.4ViT-B/1655.592.477.9DeiT-SDeiT-B4.617.61018.2316.179.881.8PS-ViT-Ti/141.61955.375.6PS-ViT-B/103.11348.080.6PS-ViT-B/145.4765.681.7PS-ViT-B/188.8463.882.3396引用[1] Jimmy Ba、Volodymyr Mnih和Koray Kavukcuoglu。具有视觉注意的多目标识别。ICLR，2015年。3[2] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens ， and Quoc V Le. 注意力增强卷积网络。在ICCV，2019年。2[3] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv：2005.14165，2020。2[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。一、二[5] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在CVPR，2021年。2[6] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。在ICML，2020。一、二、三[7] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter ：通用图像 - 文本表示学习。在ECCV，2020年。2[8] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动化数据扩充，减少搜索空间。在CVPRW，2020年。6[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。3[10] Zhigang Dai ， Bolun Cai ， Yugeng Lin ， and JunyingChen. Up-detr：使用变压器进行对象检测的无监督预训练在CVPR，2021年。一、二[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：Pre-training of Deep Bidirectional Trans-formers forLanguage Understanding. NAACL，2019年。一、二[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. ICLR，2021年。一二三四六[13] Gamaleldin F Elsayed，Simon Kornblith，and Quoc V Le.扫视：提高视觉硬注意力模型的准确性。 arXiv：1908.07644，2019。3[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。四、六[15] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位（gelus）。arXiv：1606.08415，2016。5[16] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv：1503.02531，2015。3397[17] Jonathan Ho、Nal Kalchbrenner、Dirk Weissenborn和Tim Salimans。多维变压器中的轴向注意力。arXiv：1912.12180，2019. 3[18] Han Hu，Zheng Zhang，Zhenda Xie，and Stephen Lin.用于图像识别的局部关系网络。在ICCV，2019年。2[19] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。在Proceedings ofthe IEEE international conference on computer visionworkshops，第554-561页，2013年。8[20] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009. 8[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS，2012. 6[22] Liunian Harold Li ， Mark Yatskar ， Da Yin ， Cho-JuiHsieh，and Kai-Wei Chang. Visualbert：视觉和语言的简单而高效的基线。arXiv：1908.03557，2019。2[23] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：带热重启的随机梯度下降。arXiv：1608.03983，2016。6[24] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv：1711.05101，2017。6[25] Volodymyr Mnih，Nicolas Heess ， Alex Graves， andKo- ray Kavukcuoglu.视觉注意的循环模型。arXiv：1406.6247，2014。3[26] Maria-Elena Nilsback和Andrew Zisserman。在大量类别上的自动花卉分类。2008年第六届印度计算机视觉会议，图形图像处理，第722-729页IEEE，2008年。8[27] Niki Parmar ， Ashish

下载后可阅读完整内容，剩余1页未读，立即下载