CvT：卷积视觉变换器提高ViT性能和效率

38 浏览量更新于2023-11-02 收藏 815KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1CVTViT位8882.58682.08481岁。582八十。580八十。025M20M307M86M32M928M277M×CvT：将卷积引入视觉变换器吴海萍1，2*肖斌2†Noel Codella2刘梦晨2戴曦阳2吕远2张磊21麦吉尔大学2微软云+人工智能mail.mcgill.ca，{bixi，ncodella，mengcliu，xidai，luyuan，leizhang} @ microsoft.com摘要本文提出了一种新的体系结构，称为卷积视觉Transformer（CvT），它通过在视觉变换器（ViT）中引入卷积来提高ViT的性能和效率，从而达到两者的最佳效果。这是通过两个主要的修改来实现的：包含新的卷积标记嵌入的Transformer层次结构，以及利用卷积投影的卷积Transformer块这些变化将卷积神经网络（CNN）的理想特性引入ViT架构（即，平移、缩放和失真不变性），同时保持78CvT ViT BiT（a）CvTT2TTNT戴特Pvt20 40 60 80模型参数（M）（b）变压器（即动态注意力、全局上下文和更好的泛化）。我们通过进行广泛的实验来验证CvT，表明这种方法在ImageNet-1 k上实现了比其他视觉变换器和ResNets更先进的性能，具有更少的参数和更低的FLOP。此外，当在较大的数据集上进行预训练时，性能增益得以保持（例如，ImageNet-22 k），并对下游任务进行微调。在ImageNet-22 k上进行预训练后，我们的CvT-W24在ImageNet-1 k val集上获得了87.7%的top-1最后，我们的研究结果表明，位置编码，在现有的视觉变换器的一个关键组成部分，可以安全地在我们的模型中删除，简化设计更高的分辨率视觉任务。代码将在https上发布//github.com/microsoft/CvT。1. 介绍Transformers [30，9]最近在自然语言处理（NLP）[31]中占据了广泛的任务。Vision Transformer（ViT）[10]是第一个完全依赖于Transformer架构的计算机视觉模型，可大规模获得有竞争力的图像分类性能。ViT设计适用于Transformer*本工作是在吴海平在微软实习时完成的。†通讯作者图1：ImageNet验证与其他方法在模型参数方面的Top-1 准确性。 (a) 与基于 CNN 的模型 BiT [17] 和基于Transformer的模型ViT [10]的比较，在ImageNet-22 k上进行预训练。较大的标记尺寸表示较大的结构。(b)与并发作品的比较：DeiT [29]，T2 T [40]，PVT [33]，TNT [13]在ImageNet-1 k上预训练时。架构[9]从语言理解与最小的修改。首先，图像被分割成离散的不重叠的小块（例如. 16 16）。然后，这些补丁被视为令牌（类似于NLP中的令牌），用特殊的位置编码求和以表示粗略的空间信息，并输入到重复的标准Trans-former层中以建模全局关系用于分类。尽管视觉变换器在大规模上取得了成功，但性能仍然低于类似大小的卷积神经网络（CNN）同行（例如，ResNets [14]）在少量数据上训练一个可能的原因可能是ViT缺乏固有地内置于CNN架构中的某些理想属性，这些属性使CNN唯一适合解决视觉任务。例如，图像具有很强的2D局部结构：空间上相邻的像素通常高度相关。CNN架构通过使用22ImageNet top-1准确率（%）ImageNet top-1准确率（%）23××方法需要位置编码（PE）代币嵌入注意力投射分级变压器[29]第29话：我的世界是的非重叠线性没有CPVT [6]否（带PE发生器）非重叠线性没有TNT炸药[13]是的非重叠（面片+像素）线性没有T2T [40]是的重叠（连接）线性部分（标记化）PVT [33]是的非重叠空间归约是的CvT（我们的）没有重叠（卷积）卷积是的表1：视觉变形金刚代表作品局部感受野、共享权重和空间子采样[19]，从而也实现了一定程度的移位、缩放和失真不变性。此外，卷积核的分层结构学习视觉模式，这些视觉模式以不同的复杂程度考虑局部空间上下文，从简单的低级边缘和纹理到更高阶的语义模式。在本文中，我们假设可以将卷积策略性地引入到ViT结构中以提高性能和鲁棒性，同时保持高度的计算和内存效率。为了验证我们的假设，我们提出了一种新的架构，称为卷积视觉Transformer（CvT），它将卷积合并到Transformer中，这在浮点运算（FLOPs）和参数方面都是非常有效的CvT的设计引入了卷积的两个核心部分的ViT架构。首先，我们将变形金刚划分为多个阶段，形成了一个层次结构的变形金刚。每个阶段的开始由卷积令牌嵌入组成，该卷积令牌嵌入在2D整形的令牌图上执行具有步幅的重叠卷积操作（即，将展平的记号序列重新整形回到空间网格），然后进行层归一化。这使得模型不仅可以捕获本地信息，还可以逐步减少序列长度，同时跨阶段增加令牌特征的维度，实现空间下采样，同时增加特征图的数量，如CNN中所执行的那样[19]。其次，Transformer模块中每个自注意力块之前的线性投影被我们提出的卷积投影所取代，该卷积投影在2D重塑的令牌映射上采用ss深度可分离卷积[5这允许模型进一步捕获局部空间上下文并减少注意力机制中的语义歧义。它还允许管理计算复杂性，因为卷积的步幅可以用于对键和值矩阵进行子采样，以将效率提高4或更多，同时性能下降最小。总之，我们提出的卷积视觉变换器（CvT）采用了CNN的所有优点：局部接收域、共享权重和空间子采样，同时保留了变形金刚的所有优点：动态注意力，全局上下文融合和更好的泛化。我们的研究结果表明，当CvT使用ImageNet-1 k进行预训练时，这种方法达到了最先进的性能，同时是轻量级和高效的：与基于CNN的模型相比，CvT提高了性能（例如，ResNet）和先前的基于transformer的模型（例如，ViT，DeiT），同时使用更少的FLOPS和参数。此外，CvT在大规模预训练（例如，在公共ImageNet-22 k数据集上）。最后，我们证明了在这种新的设计中，我们可以放弃标记的位置嵌入，而不会降低模型性能。这不仅简化了架构设计，而且使其能够轻松适应对许多视觉任务至关重要的输入图像的可变分辨率。2. 相关工作完全依赖自注意机制来捕获全局依赖关系的转换器在自然语言建模中占主导地位[30，9，24]。最近，基于Transformer的架构已被视为视觉识别任务中卷积神经网络（CNN）的可行替代方案，例如分类[10，29]，对象检测[3，44，42，7，27]，分割[32，35]，im-taged [ 32，35 ]，年龄增强[4，39]，图像生成[23]，视频亲，cessing [41，43]和3D点云处理[11]。视觉变形金刚。Vision Transformer（ViT）是第一个证明纯Transformer架构可以达到最先进性能（例如，ResNets [14] ， Ef- ficientNet [28] ）在数据足够大（即，在ImageNet-22 k、JFT-300 M上）。具体来说，ViT将每个图像分解为一系列标记（即，不重叠的片），然后应用多个标准的Transformer层，包括多头自注意模块（MHSA）和位置前馈模块（FFN），来对这些标记进行建模。DeiT [29]进一步探索了ViT的数据有效训练和蒸馏。在这项工作中，我们研究了如何将CNN和Transformer相结合，以有效的方式对图像分类的局部和全局依赖性进行建模为了更好地模拟视觉中的本地背景，24图2：建议的CvT架构的流水线。(a)整体架构，显示了卷积令牌嵌入层促进的分层多级结构。(b)卷积Transformer块的详细信息，其中包含卷积投影作为第一层。在前一阶段，一些并行工程引入了设计变更。例如，条件位置编码Visual Transformer（CPVT）[6]用条件位置编码（CPE）取代了ViT中使用的预定义位置嵌入，使Transformer能够处理任意大小的输入图像，而无需插值。Transformer-iN-Transformer（TNT）[13]利用处理补丁嵌入的外部Transformer块和对像素嵌入之间的关系进行建模的内部Transformer块来对补丁级和像素级表示进行建模。令牌到令牌（T2T）[40]主要通过将滑动窗口内的多个令牌连接到一个令牌中来改进ViT中的令牌化然而，这种操作从根本上不同于卷积，特别是在规范化细节上，并且多个令牌的串联大大增加了计算和内存的复杂性。PVT [33]结合了Transformer的多级设计（没有卷积），类似于CNN中的多尺度，有利于密集预测任务。与这些并行工作相比，这项工作旨在通过将卷积与图像域特定的归纳偏差引入到Trans- former中来实现两全其美表1显示了上述代表性并行工作和我们的工作之间在位置编码的必要性、标记嵌入的类型、投影的类型和骨干中的Transformer结构将自我注意力引入CNN。自我注意机制已被广泛应用于视觉任务中的CNN。在这些工作中，非局部网络[34]被设计用于通过全局注意力捕获长距离依赖关系。局部关系网络[16]基于以下内容之间的组成关系来调整其权重聚合：这与在空间上相邻的输入特征上采用固定聚合权重的卷积层相反。这种自适应权重聚合将几何先验引入到网络中，这对于识别任务是重要的。最近，BoTNet[26]提出了一种简单而强大的骨干架构，该架构仅在ResNet的最后三个瓶颈块中用全局自注意力取代空间卷积，相反，我们的工作执行相反的研究方向：将卷积引入到变压器。将卷积引入变压器。在NLP和语音识别中，卷积已被用于修改Transformer块，通过用卷积层[37]替换多头注意力，或者并行[38]或顺序[12]添加额外的卷积层，以捕获局部关系。其他先前的工作[36]提出通过残差连接将注意力映射传播到后续层，该残差连接首先通过卷积进行变换。与这些工作不同的是，我们建议将卷积引入视觉Transformer的两个主要部分：首先，用我们的卷积投影替换现有的用于注意力操作的位置线性投影，其次，使用我们的多级结构来实现2D重新成形的令牌映射的不同分辨率，类似于CNN。我们独特的设计提供了显着的性能和效率的好处比以前的作品。3. 卷积视觉Transformer卷积视觉转换器（CvT）的整体流水线如图2所示。我们在Vision Transformer架构中引入了两个基于卷积的操作，即卷积令牌嵌入25∈×我我→...→...×我卷积投影如图2（a）所示，采用了从CNN借用的多级层次结构设计[19，14 每个阶段有两个部分。首先，输入图像（或2D重塑的标记图）经受卷积标记嵌入层，该卷积标记嵌入层被实现为与具有重塑到2D空间网格的标记的重叠补丁的卷积作为输入附加层归一化被应用于令牌。这允许每个阶段逐渐减少令牌的数量（即特征分辨率）同时增加标记的宽度（即，特征维度），从而实现空间下采样和增加的表示丰富度与其他先前的基于transformer的架构[10，29，40，33]不同，我们不将ad-hod位置嵌入求和到令牌。接下来，所提出的卷积Transformer块的堆栈包括每一级的剩余部分。图2（b）示出了卷积Transformer块的架构，其中深度方向可分离的卷积运算[5]（称为卷积投影）分别应用于查询、键和值嵌入，而不是ViT [10]中的标准位置方向线性投影。此外，分类标记仅在最后阶段添加。最后，一个MLP（即，完全连接）头被用于最后阶段输出的分类标记以预测类别。我们首先详细介绍了所提出的卷积令牌嵌入层。接下来，我们将展示如何为多头自注意模块执行卷积投影，以及其管理计算成本的有效设计。3.1. 卷积令牌嵌入CvT中的这种卷积操作旨在通过类似于CNN的多级层次方法对从低级边缘到高阶语义基元的局部空间上下文进行建模。形式上，给定一个2D图像或一个来自前一阶段的2D整形输出到- ken的映射x i−1∈RHi−1 × Wi−1 × Ci−1作为阶段i的输入，我们学习一个函数f（·），它将x i−1映射到通道大小为C i的新令牌f（x i−1），其中f（·）是一个2D卷积运算，其内核大小为s×s，步幅为s − o，填充为p（用于处理边界条件）。新的令牌映射f（x i−1）RHi× Wi× Ci具有高度和宽度通过改变卷积运算的参数来调整每一级以这种方式，在每个阶段中，我们逐渐减小令牌序列长度，同时增加令牌特征维度。这使得令牌能够在越来越大的空间足迹上表示越来越复杂的视觉模式，类似于CNN的特征层3.2. 注意力的卷积投影所提出的卷积投影层的目标是实现局部空间上下文的附加建模，并且通过允许K和V矩阵的欠采样来提供效率益处。从根本上说，所提出的具有卷积投影的Transformer块是原始Transformer块的推广。虽然以前的作品[12，38]试图将额外的卷积模块添加到Transformer块中以进行语音识别和自然语言处理，但它们导致了更复杂的设计和额外的计算成本。相反，我们建议用深度可分离的卷积代替多头自注意（MHSA）的原始位置线性投影，形成卷积投影层。3.2.1实现细节图3（a）显示了ViT [10]中使用的原始位置线性投影，图3（b）显示了我们提出的ss卷积投影。如图3（b）所示，令牌首先被重塑为2D令牌映射。接下来，使用具有内核大小s的深度可分离卷积层来实现卷积投影。最后，投影的令牌被展平为1D，以供后续处理。这可以用公式表示为：xq/k/v=Flatten（Conv2d（Reshape2D（xi），s）），（二）其中xq/k/v是层i处的Q/K/V矩阵的令牌输入，xi是卷积投影之前的未扰动令牌，Conv 2d是由下式实现的深度可分离卷积[5]：深度Conv 2d BatchNorm 2d逐点Conv 2d，s是指卷积核大小。由此产生的带有卷积投影层的新Transformer Block是原始Transformer Block设计的概括。原来的位置线-H=Hi−1+2p−s+1，Ws−o=W i−1+2p−s+1。（1）耳投影层可以使用具有1 ×1的核大小的卷积层来平凡地实现。f（xi-1）然后被平坦化为大小Hi Wi Ci，并通过层归一化[1]进行归一化，以输入到随后的阶段i的Transformer块。卷积令牌嵌入层允许我们3.2.2效率考虑我们的卷积投影层的设计有两个主要的效率优势。我26O××O×图3：（a）ViT中的线性投影[10]。(b)卷积投影。(c)压缩卷积投影。除非另有说明，我们默认使用（c）压缩卷积投影。首先，我们使用有效的卷积。直接使用卷积投影的标准s s卷积将需要s2C2参数和（s2C2T）FLOP，其中C是令牌通道维度，T是用于处理的令牌的数量。相反，我们将标准的s s卷积拆分为深度可分离卷积[15]。以这种方式，所提出的卷积投影中的每一个与原始逐位置线性投影相比将仅引入额外的s2C参数和（s2CT）FLOP，其相对于模型的总参数和FLOP是可忽略的。其次，我们利用建议的卷积投影，以减少MHSA操作的计算成本。卷积投影允许通过使用大于1的步幅来减少令牌的数量。图3（c）示出了卷积投影，其中通过使用步长大于1的卷积对键和值投影进行二次采样。对于键和值投影，我们使用步长2，而对于查询，步长1保持不变。通过这种方式，键和值的令牌的数量减少了4倍，并且对于后面的MHSA操作，计算成本减少了4倍这带来了最小的性能损失，因为图像中的相邻像素/补丁往往在外观/语义上具有冗余。此外，所提出的卷积投影的局部上下文建模补偿了分辨率降低所引起的信息损失。3.3. 方法论讨论去除位置嵌入：为每个Transformer块引入卷积投影，结合卷积令牌嵌入，使我们能够通过网络建模局部空间关系这个内置属性允许从网络中删除位置嵌入，而不会损害性能，正如我们的实验所证明的那样（第4.4节），简化了具有可变输入分辨率的视觉任务的设计。与并发工作的关系：最近，两个相关的并发工作也提出了通过内部-将CNN的元素整合到Transformers中。Tokens-to-TokenViT [40] 实现了渐进式令牌化，然后使用基于Transformer的主干，其中令牌的长度是固定的。相比之下，我们的CvT通过多阶段过程实现渐进式令牌化-在每个阶段中包含卷积令牌嵌入和卷积Transformer块。随着标记的长度在每个阶段中减小，标记的宽度（特征的维度）可以增加，从而允许在每个特征空间分辨率下增加表示的丰富性。此外，鉴于T2T将相邻的令牌连接成一个新的令牌，导致增加内存和计算的复杂性，我们使用卷积令牌嵌入直接执行上下文学习而无需连接，同时提供控制步幅和特征维度的灵活性。为了管理复杂性，T2T必须考虑在后续骨干中具有比ViT更小的隐藏维度和MLP大小的深窄相反，我们更改了以前的Transformer模块，将位置线性投影替换为卷积投影Pyramid Vision Transformer（PVT）[33]克服了将ViT移植到各种密集预测任务的困难。在ViT中，输出特征图只有一个低分辨率的单一比例。此外，即使对于常见的输入图像尺寸，计算和存储器成本也相对较高。为了解决这个问题，PVT和我们的CvT都将CNN的金字塔结构与Transformers结构结合起来。与PVT相比，它只在空间上对投影中的特征映射或键/值矩阵进行子采样，我们的CvT采用卷积步长来实现这一目标。我们的实验（如4.4节所示）表明，局部邻域信息的融合对性能起着重要的作用。4. 实验在本节中，我们在大规模图像分类数据集上评估CvT模型，并将其此外，我们通过消融术27×××输出大小图层名称CvT-13CvT-21CvT-W24Stage156× 56Conv. Embed.7×7，64，stride47×7，192，步幅4米56× 56Conv. 项目MHSAMLP3× 3， 64H1=1， D1=64×1R1=43× 3， 64H1=1， D1=64×1R1=43× 3， 192H1=3，D 1=192R1=4Stage228× 28Conv. Embed.3×3，192，stride23×3768，步幅2米28× 28Conv. 项目MHSAMLP3× 3， 192H2=3， D2=192×2R2=43× 3， 192H2=3，D 2=192R2=43× 3，768H2=12， D2=768×2R2=4阶段314× 14Conv. Embed.3×3，384，跨距23×3，1024，步幅2米14× 14Conv. 项目MHSAMLP3× 3，384H3=6，D 3=384R3=43× 3，384H3=6，D 3=384R3=43× 3， 1024H3=16， D3=1024×20R3=4头1× 1线性1000Params十九岁98米31岁54M276. 7MFLOPs第四章53G第七章13G六十86G表2：ImageNet分类的架构默认情况下，输入图像大小为224 224Conv. 嵌入：卷积令牌嵌入。Conv.项目：卷积投影Hi和Di是第i个MHSA模块中Ri是第i个MLP层中的特征尺寸扩展比研究以验证拟议架构的设计。4.1. 设置为了进行评估，我们使用ImageNet数据集，包含130万张图像和1 k个类，以及它的超集ImageNet-22 k，包含22 k个类和14 M张图像[8]。我们进一步将ImageNet-22 k上预训练的模型转移到下游任务，包括CIFAR-10/100 [18]，Oxford-IIIT-Pet [22]，[21]第21话：[17]模型变体我们通过改变每个阶段的Transformer块的数量和所使用的隐藏特征维度来实例化具有不同参数和FLOP的模型，如表2所示。三个阶段是适应。我们定义了 CvT-13 和 CvT-21 作为基本模型，参数分别为19.98M和31.54M。CvT-X代表卷积视觉Transformer，总共有X个Transformer块。此外，我们用每个阶段具有更大令牌维度的更宽模型进行实验，即CvT-W24（W代表宽），得到298.3M参数，以验证所提出的架构的缩放能力。训练AdamW [20]优化器用于我们的CvT-13的权重衰减为0.05，CvT-21和CvT-W24的权重衰减为0.1。我们用初始学习率为0.02，总批量为2048，持续300个epochs来训练我们的模型，使用余弦学习率衰减调度器。我们采用与ViT [29]相同的数据增强和正则化方法。除非另有说明，所有ImageNet模型都是使用224×224输入大小训练。微调我们采用ViT的微调策略[29]。使用动量为0.9的SGD优化器进行微调。与ViT [29]一样，我们以分辨率224 224预训练模型，并以分辨率384进行微调384.我们对每个型号进行微调，总批量为512，ImageNet-1 k上的20，000步，CIFAR- 10和CIFAR-100上的10，000步，以及Oxford-IIIT Pets和Oxford-IIITFlowers-102上的500步。4.2. 与最新技术我们将我们的方法与最先进的分类方法进行了比较，包括表 3 中 ImageNet [8] ， ImageNet Real [2] 和ImageNet V2 [25]数据集上的基于Transformer的模型和代表性的基于CNN的模型。与基于Transformer的模型相比，CvT以更少的参数和FLOP实现了更高的精度。CvT-21获得了82.5%的ImageNet Top-1准确率，比DeiT-B高0.5%，减少了63%的参数和60%的FLOP。与并行工作相比，CvT仍显示出优越的优势。由于参数较少，CvT-13实现了81.6%的 ImageNet Top-1准确率，优于PVT-Small [33]，T2T-ViTt-14 [40]，TNT-S [13]分别降低1.7%、0.8%、0.2%与基于CNN的模型相比，CvT进一步缩小了基于Transformer的模型的性能差距。我们最小的模型CvT-13具有20 M参数和4.5G FLOP，在ImageNet Top-1精度上超过大型ResNet-152模型3.2%，而ResNet-151的参数是CvT-13的3倍。此外，当涉及更多数据时，我们在ImageNet-22 k上预训练的宽模型CvT-W24* 在ImageNet上达到了87.7%的Top-1准确率，而无需额外的数据（例如，JFT-300M），超过了之前最好的基于Transformer的模型ViT-L/16 2.5%，模型参数和FLOP数量相似。4.3. 下游任务转移我们进一步研究了我们的模型的能力，通过微调模型在各种任务，与所有模型转移28方法类型网络#Param.（男）图像触发器尺寸（G）ImageNet前1名（%）房前1名（%）V2前1名（%）ResNet-50 [14]2522424.176.282.563.3卷积网络ResNet-101 [14]4522427.977.483.765.7ResNet-152 [14]6022421178.384.167.0ViT-B/16 [9]86384255.577.983.6–VIT-L/16 [10]3073842191.176.582.2–[29]第二十九话2222424.679.885.768.5DeiT-B [29]86224217.681.886.771.5变压器T2T-ViTt-14 [40][arxiv 2021]2222426.180.7––T2T-ViTt-19 [40][arxiv 2021]3922429.881.4––T2T-ViTt-24 [40][arxiv 2021]64224215.082.2––TNT-S [13][arxiv 2021]2422425.281.3––TNT-B [13][arxiv 2021]66224214.182.8––我们的：CvT-132022424.581.686.770.4卷积变换器我们的：我们的：我们的：CvT-21CvT-13↑384CvT-21↑3843220322242384238427.116.324.982.583.083.387.287.987.771.371.971.9卷积网络22kBiT-M↑480 [17]928480283785.4––变形金刚22kViT-B/16↑384 [9]ViT-L/16↑384 [9]ViT-H/16↑384 [9]86307632384255.53842191.1384284.085.285.188.488.488.7–––卷积变压器22k我们的：CvT-13↑384我们的：CvT-21↑384我们的：CvT-W24↑38420322773842163842253842193.283.384.987.788.789.890.672.975.678.8表3：ImageNet [8]，ImageNet Real [2]和ImageNet V2匹配频率[25]上手动设计架构的准确性。下标22k表示在ImageNet 22 k [8]上预训练的模型，并在ImageNet 1 k上进行微调，输入大小为384×384，除了BiT-M [17]，输入大小为480×480。在ImageNet-22 k上进行预训练。表4显示了结果。我们的CvT-W24模型能够在所有考虑的下游任务中获得最佳性能，即使与大型BiT-R152 x4 [17]模型相比，比CvT-W24的参数数多3倍4.4. 消融研究我们设计了各种消融实验来研究所提出的组件的有效性一是通过我们的卷积的引入，可以从模型中删除位置嵌入。然后，我们研究了所提出的卷积To- ken嵌入和卷积投影组件中的每一个的影响考虑到我们已经将卷积引入到模型中，允许捕获局部上下文，我们研究CvT是否仍然需要位置嵌入。结果如表5所示，并表明去除位置嵌入PVT-小型[33][arxiv 2021]2522423.879.8––PVT-培养基[33][arxiv 2021]4422426.781.2––PVT-大号[33][arxiv 2021]6122429.881.7––模型参数（MCIFAR10CIFAR100宠物鲜花102BiT-M [17]92898.9192.1794.4699.30ViT-B/16 [9]8698.9591.6794.4399.38VIT-L/16 [10]30799.1693.4494.7399.61ViT-H/16 [9]63299.2793.8294.8299.51我们的：CvT-132098.8391.1193.2599.50我们的：CvT-213299.1692.8894.0399.62我们的：CvT-W2427799.3994.0994.7399.7229表 4 ：下游任务的前 1 准确度所有模型都是在ImageNet-22 k数据我们的模型不会降低性能。因此，默认情况下，位置嵌入已从CvT中删除。相比之下，删除DeiT-S的位置嵌入会导致ImageNet Top-1准确率下降1.8%，因为它没有对图像空间关系进行建模。30方法模型参数（MPOS. EMB.ImageNetTop-1（%）方法Conv.项目KV步幅参数（MFLOPs（G）ImageNettop-1（%）一DeiT-S22默认79.8BDeiT-S22N/A78.0一1206.5582.3B2204.5381.6CCvT-1320每个阶段81.5DCvT-1320第一级81.4eCvT-1320末级81.4FCvT-1320N/A81.6表5：位置嵌入时的消融。方法Conv.Embed.POS.Embed.#Param（M）ImageNettop-1（%）abcd✓✓✓✓19.519.920.320.080.781.181.481.6表6：卷积令牌嵌入的消融而不是通过添加位置嵌入来发布。这进一步表明了我们引入的卷积的有效性。位置嵌入通常通过固定长度的可学习向量来实现，限制了训练模型对可变长度输入的适应。然而，广泛的视觉应用采用可变的图像分辨率。最近的工作CPVT [6]试图用条件位置编码模块替换视觉变换器的显式位置嵌入，以动态地对位置信息进行建模。CvT能够完全去除位置嵌入，提供了简化适应更多视觉任务的可能性，而无需重新设计嵌入。我们研究了所提出的卷积令牌嵌入的有效性，表6显示了结果。表6d是CvT-13模型。当我们用非重叠补丁嵌入[10]替换卷积令牌嵌入时，每比特率下降0.8%（表6a与表6 b相比）。表6d）。当使用位置嵌入时，卷积令牌嵌入的引入仍然获得0.3%的改进（表6bV.S.表6c）.此外，当使用卷积令牌嵌入和位置嵌入两者时，如表6d，它稍微降低了0.1%的准确度。这些结果验证了卷积令牌嵌入的引入不仅提高了性能，而且有助于CvT在没有位置嵌入的情况下建模空间关系。卷积投影首先，我们比较了表7中不同步长的卷积投影.通过使用步幅为2的键和值投影，我们观察到ImageNetTop-1准确率下降了0.3%，但FLOP减少了30%。我们选择使用卷积表7：卷积投影上的消融，键投影和值投影的步长不同。Conv.项目KV.：键和值的卷积投影我们在所有Transformer块中应用方法Conv. 投影Imagenettop-1（%）阶段1阶段2阶段3abcd✓✓✓✓✓✓80.680.881.081.6区块数1210表8：卷积投影消融与位置线性投影。“”表示使用卷积投影，否则使用位置线性投影。键和值的步幅为2的投影作为默认值，以减少计算成本和内存使用。然后，我们研究了如何建议卷积投影影响性能，选择是否使用卷积投影或定期的位置明智的线性投影的每个阶段。结果见表8。我们观察到，用建议的卷积投影替换原始的位置线性投影将ImageNet上的Top-1准确率从80.6%提高到81.5%。此外，随着更多的阶段使用该设计，性能不断提高，验证了这种方法作为一种有效的建模策略。5. 结论在这项工作中，我们详细研究了将卷积引入视觉Transformer架构中，以将Transformer的优势与CNN的优势结合起来，用于图像识别任务。大量的实验表明，引入的卷积到肯嵌入和卷积投影，以及由卷积实现的网络的多级设计，使我们的CvT架构实现卓越的性能，同时保持计算效率。此外，由于卷积引入了内置的局部上下文结构，CvT不再需要位置嵌入，从而使其具有适应需要可变输入分辨率的各种视觉任务的潜在优势。31引用[1] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E.辛顿图层正常化，2016年。4[2] LucasB e ye r， Ol i vierJHe′na f f ， Al e xanderKolesnikov，XiaohuaZhai，andA？ronvandenOord.我们完成了imagenet吗arXiv预印本arXiv：2006.07159，2020。六、七[3] Nicolas Carion、 Francisco Massa 、 Gabriel Synnaeve 、NicolasAlbernier 、 AlexanderKirillov 和 SergeyZagoruyko。使用变压器进行端到端的物体检测在欧洲计算机视觉会议上，第213-229页斯普林格，2020年。2[4] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。arXiv预印本arXiv：2012.00364，2020。2[5] 弗朗索瓦·肖莱。Xception：深度学习与深度可分离卷积。在IEEE计算机视觉和模式识别会议论文集，第1251-1258页，2017年。二、四[6] 楚香香，张波，田志，魏小林，夏华夏。我们真的需要视觉转换器的显式位置编码吗？arXiv预印本arXiv：2102.10882，2021。三，八[7] Zhigang Dai ， Bolun Cai ， Yugeng Lin ， and JunyingChen. Up-detr：使用transformers进行对象检测的无监督预训练arXiv预印本arXiv：2011.09094，2020。2[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。2009年11月。六、七[9] Jacob Devlin ， Ming-Wei Chang ， Wendon Lee ， andKristina Toutanova. BERT：用于语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州，2019年。计算语言学协会。1、2[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. arXiv预印本arXiv：2010.11929，2020。一、二、四、五、六、七、八[11] Nico Engel Vasileios Belagiannis 和 Klaus Dietmayer 点Transformer。arXiv预印本arXiv：011.00931，2020。2[12] Anmol Gulati ， James Qin ， Chung-Cheng Chiu ， NikiPar- mar ， Yu Zhang ， Jiahui Yu ， Wei Han ， ShiboWang ， Zheng-dong Zhang ， Yonghui Wu ， et al.Conformer ： Convolution- augmented Transformer forspeech recognition. arXiv 预印本 arXiv ： 2005.08100 ，2020。三，四[13] Kai Han ， An Xiao ， Enhua Wu ， Jianyuan Guo ，ChunjingXu ， andYunheWang.Transformer 在Transformer 中。 arXiv 预印本 arXiv ： 2103.00112 ，2021。一、三、六、七[14] 何开明，张翔宇，任少卿，孙健。深度残差学习用于图像识别。在进行中-32IEEE计算机视觉和模式识别会议，第770-778页，2016年。一、二、四、七[15] Andrew G Howard ， Menglong Zhu ， Bo Chen ，DmitryKalenichenko ， WeijunWang ， TobiasWeyand ， Marco An- dreetto ， and Hartwig Adam.Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。5[16] Han Hu，Zheng Zhang，Zhenda Xie，and StephenLin.用于图

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

CvT：卷积视觉变换器提高ViT性能和效率

卷积编码器的输出波形图像的特征

cvt: introducing convolutions to vision transformers

使用卷积神经网络的计算机视觉领域的应用

卷积神经网络的应用领域

卷积神经网络的评价_金工研报：利用卷积神经网络进行多因子选股

详细说明一下：卷积神经网络

卷积池深度与卷积效率

图像压缩：卷积神经网络与 JPEG

卷积神经网络中卷积的作用是什么？

卷积与transformer结合

三维卷积、二维卷积和一维卷积的区别是？

运用卷积函数conv时需要注意什么问题。

卷积神经网络算法的应用

基于卷积神经网络的手写数字识别性能评价

卷积神经网络的介绍优势

卷积神经网络和一般的神经网络有什么区别

学习卷积神经网络的好处

卷积神经网络分类的特点

基于卷积神经网络的多目标识别算法优劣分析

卷积神经网络有什么应用

最新资源