Visformer：基于Transformer的视觉模型拟合数据能力研究

74 浏览量更新于2023-10-15 收藏 631KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

589Visformer：视觉友好型Transformer郑苏车n1、凌希希e2、牛建伟1、5、6*、刘雪峰1、龙辉Wei3、齐田41北京航空航天大学、2约翰·霍普金斯大学、3中国科学技术大学、4西安电子科技大学、5北京航空航天大学杭州创新学院、6郑州大学danczs@buaa.edu.cn，198808xc@gmail.com，niujianwei@buaa.edu.cn，xuefeng@buaa.edu.cnlonghuiwei@pku.edu.cn摘要在过去的一年里，Transformer模块应用于视觉问题的快速发展。虽然一些研究人员已经证明基于Transformer的模型具有良好的拟合数据的能力，但仍然有越来越多的证据表明这些模型遭受过拟合，特别是当训练数据有限时。本文提供了一个实证研究，通过执行一步一步的操作，逐步过渡到基于变换器的模型为基于卷积的模型。我们在过渡过程中获得的结果为提高视觉识别提供了有用的信息基于这些观察，我们提出了一个新的架构命名为Visformer，这是缩写从在计算复杂度相同的情况下，Visformer在ImageNet分类精度方面优于基于Transformer和基于卷积的模型，并且当模型复杂度较低或训练集较小时，优势变得更加该代码可在 https ： //github 上获得。com/danczs/Visformer.1. 介绍在过去的十年中，卷积曾经在深度学习模型[22，29，31，15]中发挥核心作用。当Trans- former [35]，一个源于自然语言处理[35，13，25]的模块，被移植到视觉场景时，这种情况开始改变在ViT模型[14]中显示，图像可以被划分为补丁的网格，并且Transformer直接应用于网格，就好像每个补丁都是一个视觉单词。ViT需要大量的训练数据（例如，，ImageNet-21K [12] 或 JFT-300 M 数据集），可以说是因为Transformer配备了远程注意力和交互，因此易于过度拟合。的* 通讯作者：牛建伟网络ResNet-50 DeiT-S Visformer-SFLOPs（G）4.14.64.9参数（M）25.621.840.2充分数据基设置77.4363.1277.20精英设置78.7380.0782.19的一部分数据10%标签58.3740.4158.7410%班级89.9080.0690.06表1. ResNet-50，DeiT-S和ImageNet分类中的Visformer-S模型之间的比较。虽然DeiT-S在精英设置下表现良好，但当使用基本设置或使用较少数据进行训练时，其性能相比之下，Visformer-S对基础和精英设置都很友好，并且使用有限数量的训练数据报告较小的准确性下降。详细设置请参考正文后续工作[34]在一定程度上改善了ViT，但与基于卷积的模型相比，这些模型仍然表现不佳，特别是在有限的训练数据或适度的数据增强另一方面，视觉变换器在用大量数据训练时可以实现比基于卷积的模型更好的性能。也就是说，视觉变换器具有更高的上界和下界都是神经网络的重要性质。上限是实现更高性能的潜力，下限使网络在使用有限数据进行训练或扩展到不同复杂度时能够表现得更好。通过对基于Transformer和基于卷积的网络的下界和上界的观察，本文的主要目标是找出差异背后的原因，从而设计出具有更高下界和上界的网络。基于Transformer和基于卷积的网络之间的差距可以通过Ima-geNet上的两种不同训练设置来揭示。第一个是基础设置。它是标准的-590×个×个对于基于卷积的模型，即，训练时间表较短，数据增强仅包含基本操作符，如随机大小裁剪[32]和翻转。在本文中，这种设置下的性能被称为基本性能。另一个是[34]中使用的训练设置。它针对基于Transformer的模型进行了精心调整，即，训练时间表更长并且数据增强更强（例如，、RandAugment [11]、Cut-Mix[41]等。已添加）。我们使用精英performance来表示它所产生的准确性。我们以DeiT-S [34]和ResNet-50 [15]作为基于变换器和基于卷积的模型的示例。如表1所示，Deit-S和ResNet-50采用可比较的FLOP和参数。然而，在这两种设置下，它们在完整数据上的训练表现Deit-S具有更高的精英性能，但将设置从精英更改为基础可能会导致10%以上的精度下降DeiT-S ResNet-50在基本设置下表现得更好，但精英设置的改进仅为1。百分之三。这促使我们研究这些模型之间的差异。有了这两个设置，我们可以粗略地估计模型的下限和上限。我们使用的方法是执行一步一步的操作，逐步过渡到另一个模型，通过它，我们可以识别这两个网络中的模块和设计的属性。整个转换过程总共需要8个步骤，如图1所示。具体地，从DeiT-S到ResNet-50，应该（i）使用全局平均池化（不是分类令牌），（ii）引入逐步补丁嵌入（不是大补丁平坦化），（iii）采用逐步主干设计，（iv）使用批量归一化[20]（不是层归一化[1]），（v）利用3 × 3卷积，（vi）丢弃位置嵌入方案，（vii）用卷积代替自注意，以及最后（viii）调整网络形状（例如，、深度、宽度等。）. 在深入分析了产生这种结果的原因后，我们吸收了所有有助于视觉识别的因素，并推导出视觉识别的Visformer，即视觉识别的Visformer。，视觉友好的Transformer。在ImageNet分类上进行评估，Visformer声称比竞争对手DeiT和ResNet的性能更好，如表1所示。在精英设置下，Visformer-S型号的性能优于DeiT-S和ResNet-502。12%和3。46%，分别在一个可比的模型复杂性。与Deit-S不同的是，Visformer-S还经受住了两个额外的挑战，即当模型使用10%的标签（图像）和10%的类进行训练时Visformer-S的性能甚至优于ResNet-50，这揭示了Visformer-S的高下限。此外，对于微小模型，Visformer-Ti显著优于Deit-Ti超过6%。本文的贡献有三个方面。首先，我们首次引入上界和下界来研究基于Transformer的视觉模型其次，我们通过逐步过渡过程来缩小基于Transformer和基于卷积的模型之间的差距，从而确定基于Transformer和基于卷积的模型中的设计属性第三，我们提出了Visformer作为最终模型，达到满意的下限和上限，并享有良好的可扩展性在同一时间。2. 相关工作图像分类是计算机视觉中的一项基本任务。在深度学习时代，最流行的方法是使用深度神经网络[21，29，15]。构建这种网络的基本单元之一是卷积，其中使用多个卷积核来捕获输入图像和中间数据中的可重复局部模式。为了降低计算成本以及减轻过拟合的风险，据信卷积核应该具有小尺寸，例如、33。然而，这给图像中遥远的上下文彼此通信带来了困难--这在一定程度上尽管堆叠越来越多的层，研究人员考虑了另一条路径，即使用基于注意力的方法来简化视觉信息的传播。由于Transformers在自然语言处理（NLP）[35，13，25]方面取得了显着的成功，因此已经做出了许多努力将Transformers引入视觉任务。这些作品主要分为两类。第一个cat-egory由纯注意力模型组成[27，18，43，10，14，34，36]。这些模型通常只利用自我注意力，并试图建立没有卷积的视觉模型。然而，对于真实的全尺寸图像，将所有像素与自我注意力相关联在计算上是昂贵的因此，有一些兴趣迫使自我注意力仅集中在局部邻域中的像素上（例如，像素）。，SASA[27]，LR-Net [18]，SANet [43]）。这些方法用局部自关注代替卷积来学习局部关系，并取得了很好的结果。然而，需要复杂的工程来有效地将自注意力应用于图像中的每个局部区域。解决复杂性问题的另一种方法是将自我注意力应用于降低的分辨率。这些方法要么首先降低分辨率和颜色空间[10]，要么将图像块而不是像素视为令牌（即，，words）[14，34].然而，分辨率降低和补丁平坦通常使其更难以利用自然图像中的局部先验。因此，这些方法通常获得次优结果[10]或需要庞大的数据集[14]和大量的增强[34]。第二类网络不仅包含自注意力首先由非局部神经网络引入CNN [37]。这些网络旨在捕获图像和视频中的注意，非局部神经网络591×个网络的灵感来自视觉任务中的经典非局部方法[5]，并且与Transformers中的那些不同，非局部网络中的自注意力通常不配备多头和位置嵌入[37，6，23]。之后，Transformers在NLP任务中取得了显着的成功[13，25]，因此，继承NLP设置的自我关注（例如，多头、位置编码、分类标记等。）与卷积相结合，以改善视觉任务[27，3，2]。一种常见的组合是首先利用卷积，然后应用自我注意力[14，30]。[14]通过在Trans-former之前添加ResNet主干，构建了自我注意力和卷积的混合体。除了在早期层中利用卷积之外，Bot-Net [30]还设计了用于自我注意的瓶颈单元。此外，自我注意力已被用于许多下游视觉任务（检测[7]，分割[9]）和低视力任务[8]。这些方法主要利用自我注意力和卷积。3. 方法3.1. 基于变换器和基于卷积的视觉识别模型识别是计算机视觉的基本任务。这项工作主要考虑图像分类，其中输入图像通过深度网络传播以导出输出类别标签。大多数深度网络都是以分层的方式设计的，并且由一系列层组成。我们考虑两个流行的层，名为卷积和Transformer。卷积起源于捕捉局部模式的直觉，这些模式被认为比全局模式更具可重复性。它使用一些可学习的内核来计算输入对不同模式的响应，为此，滑动窗口沿着输入数据的两个轴移动，并且计算数据和内核之间的内积。在本文中，我们将我们的研究限制在残差块的范围内，2或3个卷积层和跳过连接的组合。在相邻卷积层之间插入诸如激活和归一化的非线性。另一方面，Transformer源于自然语言处理，旨在频繁地制定任何两个元素（称为令牌）之间的关系，即使它们彼此相距甚远。这是通过为每个标记生成三个特征来实现的，分别命名为查询、然后，每个令牌的响应被计算为所有值的加权和，其中权重由其查询与对应键之间的相似性确定。这通常被称为多头自注意（MHSA），随后是其他操作，包括归一化和线性映射。在剩下的部分中，我们认为DeiT-S [34]和ResNet-50[15]是Transformer的代表基于和基于卷积的模型。除了基本构建块之外，在设计方面也存在差异，例如：ResNet-50具有将模型划分为阶段的几个下采样层，但是令牌的数量在DeiT-S中保持不变。这些细节的影响将在第3.3节中详细说明。3.2. 设置：基础和精英表演虽然DeiT-S报告了80。1%的准确度，高于78。7%的ResNet-50，我们注意到DeiT-S显著改变了训练策略，例如。的情况下，历元的数量增加了3个以上，并且数据增强变得更强。有趣的是，DeiT-S似乎严重依赖于精心调整的训练策略，而其他基于Transformer的模型，包括ViT [14]和PIT [8]也报告了它们对其他因素的依赖性，例如。，一个大规模的训练集。在下文中，我们对这一现象进行了全面的研究。我们在ImageNet数据集[28]上评估了所有分类模型，该数据集有1K个类，1。28M训练图像和50K测试图像。每个类具有大致相同数量的训练图像。这是视觉识别中最受欢迎的数据集之一。有两种设置可优化每个识别模型。第一个被称为基础设置，它被基于卷积的网络广泛采用。特别地，该模型使用SGD优化器训练90个时期。学习率从0开始。2，并且逐渐衰减到0。00001之后的余弦退火函数。使用具有随机大小裁剪[32]和翻转的适度数据增强策略。第二种是精英设置，已被验证有效地改善基于Transformer的模型。初始学习率为0的Adamw优化器。0005用于批量512。数据增强和正则化策略变得更强以避免过度拟合，对于过度拟合，密集操作包括RandAugment [11]、Mixup [42]、CutMix [41]、随机擦除[44]、使用重复增强[4，17]和随机深度[19]。相应地，训练持续300个时期，比基本设置的时间长得多。在本文的其余部分中，我们将基础和精英设置下的分类准确度分别称为基础性能和精英性能我们希望这些数字能为我们理解所研究的模型提供补充性的观点3.3. 从DeiT-S到ResNet-50的过渡本小节展示了一个逐步的过程，在这个过程中总共有八个步骤关键步骤如图1所示，结果（包括基础和精英表现以及模型统计量）汇总于表2中。592×× ××个图1.从DeiT开始到ResNet-50结束的过渡过程。为了节省空间，我们只展示三个重要的动作。第一个移动将DeiT从Transformer转换为卷积视图（第3.3.1节）。第二个运动用逐步贴片嵌入（在第3.3.2节中详细描述）替换贴片平坦化模块，并引入逐步设计（第3.3.3节）。第三个动作用卷积代替了自我注意模块（第3.3.7节）。右上区域显示了相对较小的修改，插入了3 3卷积（第3.3.5节）。右下角区域比较了3 3卷积和自我注意的感受野。这个数字最好用彩色看。3.3.1使用全局平均池替换分类令牌转换的第一步是删除分类标记，并将全局平均池添加到基于Transformer的模型中。与基于卷积的模型不同，Trans-former通常将分类令牌添加到输入，并利用相应的输出令牌来执行分类，这是从NLP任务继承的[13]。作为对比，基于卷积的模型中的分类特征通过在空间维度上进行全局平均池化通过移除分类令牌，Transformer可以等效地转换为卷积版本，如图1所示。具体而言，补丁嵌入操作相当于卷积，其内核大小和步幅是补丁大小[14]。中间特征的形状可以自然地从一系列标记（即中间特征）转换。词）到束特征映射，并且to_kens变成通道维度中的向量（在图1中示出）。MHSA和MLP块中的线性层相当于1×1卷积。所获得的网络（Netl）的性能在表2中示出。可以看出，这种转变可以实质上改善基础性能。我们进一步的实验表明，添加全局池本身可以将基本性能从64.17%提高到69.44%。换句话说，全局平均池化操作是自NIN [24]以来广泛用于基于卷积的模型，使网络能够在现代增强下更有效地学习。此外，这种转变可以稍微提高精英的表现。3.3.2用逐步面片嵌入代替面片展平DeiT和ViT模型直接用补丁嵌入层对图像像素进行编码，补丁嵌入层等效于具有大核大小和步幅的卷积（例如，卷积）。，16）。此操作将图像补丁展平为一系列令牌，以便Transformer可以处理图像。然而，片平坦化损害了每个片中的位置信息，并且使得更难以提取片中的图案。为了解决这个问题，现有的方法通常附加一个预处理模块之前，补丁嵌入。预处理模块可以是特征提取 con-vnet [14] 或专门设计的Transformer [40]。我们发现，有一个相当简单的解决方案，这是因式分解的大补丁嵌入逐步小补丁嵌入。具体来说，我们首先将ResNet中的stem层添加到Transformer中，这是一个步长为2的7 × 7卷积层茎层可以看作是具有像素重叠的2×2修补嵌入操作（即，、7×7内核大小）。由于原始DeiT模型中的补丁大小为16，因此我们仍然需要在主干之后嵌入8×8个补丁我们进一步因式分解8×8补丁嵌入分类器L/3 xFF细胞Conv，2x2，s2L/3 xFF细胞Conv，2x2，s2L/3 xFF单元MHSA细胞Conv，4x4，s4Conv，7x7，s2Transformer视图中的Deit分类器卷积视图分类器长x长x线性转换，1x1线性Conv，1x1规范规范MHSAMHSA规范规范...线性Conv，16x16，s16...分类器L1 xFF电池Conv，2x2，s2L2xFF电池Conv，2x2，s2L3 xFF单元FF单元Conv，4x4，s4Conv，7x7，s2MLP1536，1x1，384384，1x1，1536规范瓶颈320，1x1，384320、3x3、320384，1x1，规范3x3卷积全球自我关注593×个.Σ×个×个×× ××× ××× ×× ××× ×××个型号名称添加移除基本性能精英性能FLOPs（G）参数（M）DeiT-S-64.1780.074.6022.1Net1全局平均池化分类符记69.81（+5.64）80.16（+0.09）4.5722.0Net2逐步嵌入大面片嵌入73.01（+3.20）81.35（+1.19）4.7723.9Net3分阶段设计-75.76（+2.75）80.19（-1.14）4.7939.5Net4batch norm层范数76.49（+0.73）80.97（+0.78）4.7939.5网络5Net63×3卷积--工位埋77.37（+0.88）77.31（-0.06）80.15（-0.82）79.86（-0.29）4.764.7639.239.0Net7卷积self-attention76.24（-1.07）79.01（-0.85）4.8345.0ResNet-50网形平差77.43（+1.19）78.73（-0.28）4.0925.6表2.在从DeiT-S到ResNet-50的过渡过程中，ImageNet的分类准确性基础设置和精英设置都被考虑（关于细节，参见第3.2节），并且我们用红色标记阳性修饰，用蓝色标记阴性修饰。注意，修改可以不同地影响基础性能和精英性能。虽然参数的数量在中间状态下大大增加，但由FLOP测量的计算成本没有显著变化。到44嵌入和2 2嵌入，它们是4 4和2 2卷积层，在卷积的角度中具有步幅4和2 此外，我们还添加了一个额外的22卷积以在分类之前进一步将块大小从16 16升级到32 32。这些补丁嵌入层也可以被视为下采样层，并且我们在嵌入之后按照基于卷积的模型中的实践将通道数量加倍。通过利用逐步嵌入，补丁内的位置先验被编码成特征。因此，模型可以更有效地学习模式。从表2中可以看出，这种转变可以显著提高网络的基本性能和精英性能。它表明，逐步嵌入是一个更好的选择比更大的补丁嵌入在基于变换器的模型。此外，这种转变是计算效率和只introduces约4%的额外FLOPs。3.3.3分段设计在本节中，我们将网络划分为ResNets等阶段。相同阶段中的块共享相同的特征分辨率。由于最后一次转换中的逐步嵌入将网络划分为不同的阶段，因此本节中的转换是将块重新分配到不同的阶段，如图1所示。然而，与卷积块不同，自关注块的复杂性相对于特征尺寸增加了O N4因此，我们仅将块插入到8 8、16 16和3232块嵌入级。其对应于28 28、14 14和7 7特征分辨率分别为224 224输入。此外，我们减半的头部尺寸和特征尺寸之前，在28 - 28阶段的自我注意，以确保在不同阶段的块利用类似的FLOP。这种转变导致了有趣的结果。基础性能得到进一步改善。据推测，逐阶段设计利用图像局部先验，因此可以在适度增大下表现更好然而，网络的精英性能显著下降。为了研究原因，我们进行了消融实验，发现自我注意在非常大的分辨率下不能很好地工作。我们推测，大分辨率包含太多的令牌，这是更困难的自我注意学习它们之间的关系我们将在3.4节中详细说明3.3.4将LayerNorm替换为BatchNorm基于转换器的模型通常使用LayerNorm [1]对特征进行归一化，这是从NLP任务继承的[35，13]。相比之下，基于卷积的模型（如ResNets）通常使用BatchNorm [20]来稳定训练过程。LayerNorm与批量大小无关，与BatchNorm相比，对于特定任务更友好，而BatchNorm通常可以在给定适当的批量大小的情况下实现更好的性能[38]。我们将所有LayerNorm层替换为BatchNorm层，结果表明BatchNorm的性能优于LayerNorm。它可以提高网络的基本性能和精英性能。此外，我们还尝试将BatchNorm添加到Net2中，以进一步提高精英性能。然而，该Net 2- BN网络遭受收敛问题。这可以解释为什么BatchNorm在纯自我注意模型中没有被广泛使用但对于我们的混合模型，BatchNorm是提高性能的可靠方法。3.3.5介绍3×3卷积由于网络的令牌作为特征图存在，因此引入具有大于11的内核大小的卷积是自然的。大核卷积的具体含义在图1的右下方示出当全局自我注意力试图建立所有令牌之间的关系时（即，像素），卷积专注于关联594×个×个×个×个×个×个×× ×本地社区内的代币。我们选择插入3在前馈块中的11个卷积之间的3个卷积，其将MLP块变换成如图1的右上方所示的瓶颈块。注意，3 × 3卷积层的通道数被调谐以确保前馈块的FLOP几乎不变。所获得的瓶颈块类似于ResNet-50中的瓶颈块，尽管它们具有不同的瓶颈比（即，在3 × 3卷积之前减少信道数的因子）。我们在所有三个阶段中用瓶颈块替换MLP块。毫不奇怪，可以利用图像中的局部先验的3 × 3卷积进一步提高了网络基础性能。基本性能（77.37%）与ResNet-50（77.43%）相当。而精英的表现则下降了0.82%。我们进行了更多的实验来研究其原因。而不是添加3 3卷积的所有阶段，我们插入3 3卷积不同的阶段分别。我们观察到3 -3卷积只在高分辨率特征上工作得很好。我们conjec- ture，利用本地的关系是重要的高分辨率功能，在自然图像。然而，对于低分辨率特征，当配备全局自注意时我们将在3.4节中详细说明。3.3.6删除位置嵌入在基于Transformer的模型中，位置嵌入被提出来对令牌间的位置信息进行在过渡网络中，我们利用[13]中的可学习位置嵌入，并在补丁嵌入后将其添加到特征中。为了接近ResNet-50，应该去除位置嵌入。结果示于表2中。基本绩效几乎没有变化，精英绩效略有下降（0.29%）。作为比较，我们测试去除DeiT-S的位置嵌入，并且精英性能显著下降3.95%。结果表明，与基于Transformer的模型相比，位置嵌入在转换模型中的重要性要小一些。这是因为在帧间标记之前的位置被特征图保留，并且与空间内核的卷积可以对其进行编码和利用。因此，在转移网络中去除位置嵌入的危害显著降低。它还解释了为什么基于卷积的模型不需要位置嵌入。3.3.7用前馈在本节中，我们将在每个阶段中删除自注意块，并使用前馈层，使网络成为纯卷积网络。到在保持FLOP不变的情况下，向每个级添加几个瓶颈块。替换后，获得的网络由ResNet-50等瓶颈块组成。所得网络（Net7）的性能如表2所示。基于纯卷积的网络在基本性能和精英性能方面都表现得更差。这表明，自我关注确实会驱动神经网络达到更高的精英性能，而不是ViT或DeiT中基础性能差的原因设计一个具有高基础性能和精英性能的自注意网络是3.3.8调整网络Net 7和ResNet之间仍然存在许多差异-50.首先，Net 7的形状与ResNet不同-50.它们的深度、宽度、瓶颈比和网络阶段的块数不同。第二，它们使不同位置的特征正常化。Net 7仅对块中的输入特征进行归一化，而ResNet-50对每个卷积层之后的特征进行归一化。第三，ResNet-50对具有瓶颈块的特征进行下采样，但Net 7利用单个卷积层（即，补片嵌入层）。此外，Net7 使用了更多的FLOP。然而，这两个网络都是基于卷积的网络。这两个网络之间的性能差距可以归因于架构设计策略。如表2所示，转变后基础性能得到改善。实验结果表明，ResNet-50具有更好的网络结构，能够以更少的FLOP实现更好的性能。然而，ResNet-50获得较差的精英性能。这表明，基本性能和精英性能之间的不一致性不仅存在于自注意模型中，而且存在于纯卷积网络中。3.4. 概述：Visformer模型我们的目标是建立一个具有高基础性能和精英性能的网络。转型研究表明，基础绩效和精英绩效之间存在一些不一致。第一个问题是阶段式设计，它增加了基础性能，但降低了精英性能。为了研究其原因，我们在Net5的每个阶段分别用瓶颈块替换自注意块，以此来估计自注意在不同阶段的重要性。结果示于表3中。在所有三个阶段中自我注意的替换降低了基础绩效和精英绩效。在低分辨率条件下，自我注意的作用比高分辨率条件下更重要。此外，在第一阶段替换自我注意力对网络性能几乎没有影响。更大的分辨率包含更多的令牌和595×个×个×个×个网络基本性能（%）精英性能（%）网络577.3780.15Net5-DS177.29（-0.08）80.13（-0.02）Net5-DS277.34（-0.02）79.75（-0.40）Net5-DS377.05（-0.32）79.59（-0.56）表3.在Net5的每个阶段中用瓶颈块替换自我注意块的影响这些实验单独进行。网络基本性能（%）精英性能（%）Net476.4980.97Net4-S177.02（+0.53）81.10（+0.13）Net4-S276.55（+0.06）80.50（-0.47）Net4-S376.82（+0.33）80.44（-0.53）网络577.37（+0.88）80.15（-0.82）表4.在Net4的每个阶段中用瓶颈块替换MLP层的影响。这些实验单独进行。我们推测，自我关注更难了解它们之间的关系。第二个问题是在前馈块中添加3 - 3卷积，这使精英性能降低在Net4的基础上，我们在每个阶段分别用瓶颈块替换MLP块。从表4中可以看出，尽管所有阶段都获得了基本性能的改进 33个卷积是对于其他两个低分辨率阶段来说，当自我注意力在这些位置上已经具有全局视图时，这是在高分辨率阶段，自我注意力难以处理所有令牌，3 - 3卷积可以提供改进。综合以上观察，我们提出了视觉友好的基于变换器的模型。详细架构如表5所示除了正向过渡，Visformer还采用分段式设计，以获得更高的基础性能。但自我注意仅在最后两个阶段被利用，认为即使在FLOP平衡的情况下，高分辨率阶段的自我注意也相对低效Visformer 在第一阶段中采用瓶颈块，并利用受ResNeXt [39]启发的瓶颈块中的组33卷积。我们还将BatchNorm 引入 CNN 中的补丁嵌入模块。我们将Visformer-S命名为直接来自DeiT-S的模型。此外，我们还可以通过改变多头注意力的输出维度来在这里，我们将维度缩小一半，并推导出Visformer-Ti模型，这需要大约1/4的Visformer-S模型的计算成本。表5.用于构建Visformer-Ti和Visformer-S模型的配置，其中'emb.'“s1”-“s3”表示具有不同空间分辨率的三个阶段。4. 评价减粘剂4.1. 与最新技术水平的我们首先将Visformer与DeiT（直接基线）进行比较。结果总结在表 6 中。使用可比的计算成本，Visformer模型优于相应的DeiT模型显着。具体而言，在精英设置下， Visformer-S 和 Visformer-Ti 相对于DeiT-S和DeiT-Ti的优势分别换句话说，在更频繁地用于视觉识别的基础设置下，优势变得更显著。然后，我们将Visformer与表7中的其他在微小级别上，Visformer-Ti明显优于其他视觉Transformer模型。对于较大的模型，Visformer-S的性能比具有类似FLOP的模型好得多。其他型号通常需要利用更多的FLOP来实现可比的性能。至于最先进的 EfficientNetconvnets ，我们的模型低于具有类似 FLOP 的EfficientNets然而，EfficientNets在GPU上的计算效率低下。表 8 中的结果表明，我们的模型明显快于EfficientNet-b3，后者的性能略差于我们的模型。我们的模型与DeiT-S和ResNet-50一样有效，但具有更好的性能。输出大小Visformer-TiVisformer-S干112× 1127×7，16，步幅27×7，32，步幅2EMB.28× 284×4，96，步幅44×4，192，步幅4S128× 281×1,1923×3，384(group =8)×71×1，961×1,3843×3，768(group=8)×71×1，192EMB.14× 142×2，192，步幅2 2×2，384，步幅2S214× 14MHSA,1921×1，768×41×1，192MHSA,3841×1，1536×41×1，384EMB.7× 72×2，384，步幅2 2×2，768，步幅2S37× 7MHSA,3841×1，1536×41×1，384MHSA,7681×1，3072×41×1，768596网络基本性能（%）精英性能（%）FLOPs（G）Visformer-Ti脱钛74.3463.8778.6272.211.31.3Visformer-SDeiT-S77.2063.1282.1980.074.94.6表6.基础和精英性能的比较以及Visformer和DeiT之间的FLOP，直接基线。方法前1名（%）FLOPs（G）Params（男）ResNet-18 [15]69.81.811.7DeiT-Ti [34]72.21.35.7DeiT-Ti（KD）[34]74.61.35.7PVT-Ti [36]75.11.913.2Visformer-Ti（我们的）78.61.310.3ResNet-50 [5]76.24.125.6ResNet-50* [15]78.74.125.6RegNetY-4GF [26]79.44.020.6RegNetY-8GF [26]79.98.039.2[26]第二十六话80.04.020.6DeiT-S [34]79.84.621.8[34]第三十四话80.14.621.8DeiT-B [34]81.817.486.3PVT-S [36]79.83.824.5PVT-培养基[36]81.26.744.2T2T-ViTt-14 [40]80.75.221.5T2T-ViTt-19 [40]81.48.439.0BoTNet-S1-59 [30]81.77.333.5Visformer-S（我们的）82.24.940.2表7.比较我们的方法和其他基于Transformer的视觉模型。'*'表示我们使用精英设置重新运行模型。 ‘KD’ stands forknowledge distillation方法Top-1（%）FLOPs（G）批次时间（毫秒）ResNet-50*78.74.134.2DeiT-S*80.14.636.9RegNetY-4GF*80.04.040.2[33]第三十三话81.61.848.3Visformer-S（我们的）82.24.936.7表8. Visformer-S与其他模型的推理效率比较。使用32个批量进行检测。除了EfficientNet-B3之外，其他模型也使用精英设置进行训练。4.2. 数据有限的培训最后但并非最不重要的是，我们评估了Vis-former在具有有限训练数据的场景中的性能，我们认为这是视觉友好的重要能力597表9. Visformer、DeiT和ResNet之间的比较，使用有限的训练数据进行分类准确度（%）。所有型号均采用300epochs的精英设置。而先前的基于Transformer的模型大多需要大量的训练数据[14]。使用ImageNet的四个子集，分别具有10%和1%的随机选择的类（所有数据），以及10%和1%的随机选择的图像（所有类）。为了挑战模型，我们仍然使用300个纪元的精英设置（未扩展）。如表9中所示，观察到DeiT-S模型在所有四个测试中报告了显著的准确度下降（注意，如果延长时期，则仅使用10%和1%类的准确度相比之下，Visformer在这些场景中仍然很强大，显示出其在有限数据下用于视觉识别的潜力。在微小级别，ResNet-50-55%是通过将通道数（如其他微小模型）减少到55%（因此FLOP，1.3G，类似于Visformer-Ti和Deit-Ti）来获得的结论是类似的：Visformer-Ti仍然是最好的整体模型，优势略有扩大，因为过度拟合的风险已经降低。5. 结论本文介绍了Visformer，一个基于Transformer的模型，是友好的视觉识别。我们建议使用两个协议，基础和精英设置，以评估每个模型的性能。为了研究基于Transformer的模型和基于卷积的模型表现不同的原因，我们分解了这些模型之间的差距，并设计了一个八步过渡过程，弥合了DeiT-S 和ResNet-50之间的差距通过吸收优点并丢弃缺点，我们获得了优于DeiT-S和ResNet-50的Visformer-S模型。当它被转移到一个紧凑的模型，并在小数据集上进行评估时，Visformer也显示出有前途的能力。鸣谢本工作得到国家重点研发计划（ 2017YFB1301100 ）、国家自然科学基金（ 61772060 ， U1536107， 61472024 ， 61572060 ，61976012，61602024）、CERNET创新项目（NGII20160316）。Visformer-S82.1990.0691.6058.7416.56DeiT-S80.0780.0673.4040.416.94ResNet-5078.7389.9093.2058.3713.59Visformer-Ti78.6289.4890.6055.1411.79代提72.3378.7274.4038.446.53ResNet-50-55%72.8487.1091.4051.4810.68598引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[2] Irwan Bello Lambdanetworks：在没有注意的情况下模拟长距离的相互作用。arXiv预印本arXiv：2102.08602，2021。[3] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens ， and Quoc V Le. 注意力增强卷积网络。在IEEE/CVF计算机视觉国际会议论文集，第3286-3295页Mostafa Dehghani，Matthias Minderer，Georg Heigold，Syl-vain Gelly，et al.一张图片相当于16 x16个单词：用于大规模图像识别的变换器 . arXiv 预印本 arXiv ：2010.11929，2020。[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页[16] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[17] Elad Hoffer ， Tal Ben-Nun ， Itay Hubara ， Niv Giladi ，Torsten[4] Maxim Berman，Herve 安德烈·韦达尔迪，亚索纳斯题名其余部分：Daniel Soudry.增加批次：改进Kokkinos和Matthijs Douze

下载后可阅读完整内容，剩余1页未读，立即下载