没有合适的资源?快使用搜索试试~ 我知道了~
11936×个重新思考视觉变换器的空间维度许炳镐 尚都运1号 韩东允 尚学春12*首尔乐天饭店1NAVER AI Lab2西江大学摘要Vision Transformer(ViT)将变换器的应用范围从语言处理扩展到计算机视觉任务,作为现有卷积神经网络(CNN)的替代架构。由于基于变压器的架构已经创新的计算机视觉建模,设计公约对一个有效的架构一直研究较少。从CNN的成功设计原则,我们调查的空间维度转换的作用和它的有效性,基于变压器的架构。 我们特别注意CNN的降维原理;随着深度的增加,传统的CNN增加了信道尺寸并减小了空间尺寸。我们的 经 验 表 明 , 这 样 的 空 间 维 数 减 少 是 有 益 的Transformer架构,以及,并提出了一种新的基于池的视觉变压器(PiT)上的原始ViT模型。我们表明,PiT实现了改进的模型能力和泛化性能对ViT。在整个广泛的实验中,我们进一步表明PiT优于基线的几个任务,如图像分类,对象检测,和鲁棒性评估。源代码和ImageNet 模 型 可在 https://github.com/naver-ai/pit上获得。1. 介绍基于自注意机制的架构在自然语言处理(NLP)领域取得了巨大成功[34]。已经尝试在计算机视觉中利用自注意机制。非局部网络[37]和DETR [4]是代表性的作品,表明自注意机制在视频分类和对象检测任务中 也 是 有 效 的 。最 近 , Vision Transformer ( ViT )[9],一种由自注意力层组成的变换器架构,已被提出与ResNet [13]竞争,并表明它可以在没有卷积运算的情况下实现最佳性能*在NAVER AI Lab担任研究科学家ImageNet [8]。因此,在计算机视觉中出现了基于自注意机制而不是卷积运算的网络架构的新方向ViT与卷积神经网络(CNN)有很大的不同输入图像被分成16个16块并馈送到Transformer网络;除了第一嵌入层之外,在ViT中不存在卷积运算,并且位置交互仅通过自注意层发生。虽然CNN具有有限的空间相互作用,但ViT允许图像中的所有位置通过变换器层进行交互虽然ViT是一种创新架构,并且已经证明了其强大的图像识别能力,但它遵循NLP [34]中的Transformer架构,没有任何变化。CNN的一些基本设计原则在过去十年中已被证明在计算机视觉领域是有效的,但没有得到充分反映。因此,我们重新审视CNN架构的设计原则,并在应用于ViT架构时研究其功效CNN以大空间尺寸和小通道尺寸的特征开始,并且在减小空间尺寸的同时逐渐增加通道尺寸。由于称为空间池的层,这种维度转换是必不可少的。现代CNN架构,包括AlexNet [21],ResNet [13]和EfficientNet[32],都遵循这种设计原则。池化层与每层的感受野大小深度相关。一些研究[6,26,5]表明,池化层有助于网络的表达能力和通用化性能然而,与CNN不同,ViT不使用池化层,并且对所有层使用相同的空间维度。首先,我们验证了CNN的维度配置的优点。我们的实验表明,ResNet风格的维度提高了ResNet的模型能力和泛化性能。为了将优势扩展到ViT,我们提出了基于 池 化 的 视 觉 Transformer ( PiT ) 。 PiT 是 一 个Transformer架构结合了一个新设计的池层。它能够像ResNet中那样在ViT结构我们还研究了PiT与ViT相比的优点,并确认ResNet风格的维度设置也提高了ViT的性能。最后,为了分析PiT与ViT相比的效果,我们11937×个(27×27)×144空间令牌(14×14)×288(7×7)×576类令牌1×1441×2881×576汇集汇集(a) ResNet-50(b) ViT-S/16(c) PiT-S图1. 网络维度配置的示意图。我们可视化ResNet 50 [13],Vision Transformer(ViT)[9]和我们基于池化的Vision Transformer(PiT);(a)ResNet 50从输入到输出逐渐下采样特征;(b)ViT不改变空间维度;(c)PiT将ResNet风格的空间维度引入ViT。利用熵和平均距离测度对Transformer组的注意力矩阵进行了分析。分析结果揭示了ViT和PiT各层内部的注意模式,有助于理解ViT和PiT的内在机制。我们验证了PiT提高了ViT在各种任务上的性能。在ImageNet分类上,PiT和ViT在各种尺度和训练环境下都表现出色。此外,我们还比较了PiT与各种卷积架构的性能,并指定了Transformer架构优于CNN的规模。我们进一步测量PiT作为对象检测的骨干的性能基于ViT和PiT的可变形DETR [44]在COCO 2017数据集[24]上进行训练,结果表明PiT作为除图像分类之外的任务的骨干架构甚至优于ViT。最后,我们通过鲁棒性基准测试验证了PiT在各种环境中的性能。2. 相关作品2.1. CNN的维度配置维度转换可以在AlexNet [21]中找到,这是计算机视觉中最早的卷积网络之一AlexNet使用三个最大池化层。在最大池化层中,特征的空间大小减少一半,并且通道大小通过最大池化之后的卷积而增加。VGGnet[30]使用5个最大池化使用5个空间解析。在池化层中,空间大小减少一半,通道大小加倍。GoogLeNet[31]也使用了池化层。ResNet [13]使用步幅2的卷积层而不是最大池化来执行空间大小减小是一种进步在空间缩减方法中。步幅2的卷积层也用作最近架构中的池化方法(EfficietNet [32],MobileNet [29,19])。Pyramid- Net [11]指出,通道增加只发生在池化层,并提出了一种在池化层以外的层中逐渐增加通道大小的方法。ReXNet [12]报道称,网络的通道配置对网络有着显著的影响性能总之,大多数卷积网络使用具有空间缩减的维度配置。2.2. 自我注意机制Transformer架构[34]通过自我注意机制显著提高了NLP任务的性能FunnelTransformer [7]通过池化层和跳过连接来减少令牌,从而改进了Transformer的体系结构.然而,由于NLP和计算机视觉的体系结构之间的基本差异,应用于池的方法与我们的方法不同。进行了一些研究,以利用Transformer器架构的骨干网络的计算机视觉任务。Non-local network [37]在CNN主干上增加了一些自注意层,表明自注意机制可以用于CNN。[28]将ResNet的3 3卷积替换为局部自注意层。[36]对每个空间轴使用了注意层。[2]通过减少注意力机制的计算来实现整个空间图的自注意力。这些方法中的大多数用自我注意力代替3x3卷积或添加一些自我注意力层。因此,继承了ResNet的基本结构,即它具有步长2的卷积作为ResNet,从而产生具有ResNet的维度配置的网络。只有视觉Transformer使用在所有层中使用相同空间大小的结构。虽然ViT没有遵循ResNet的惯例,但它在网络架构中包含许多有价值的新组件。在ViT中,对每个空间令牌应用层归一化因此,ViT的层规范化比卷积神经网络的层规范[1,39]更接近位置规范化[22]。虽然它与lambda网络重叠[2],但通过网络的所有块使用全局注意力并不常见。使用类令牌而不是全局平均池也是新的,并且据报道,分离令牌可以提高蒸馏的效率[33]。此外,Transformer的层配置、跳过连接位置和规范化位置也与ResNet不同。因此,本文的研究为新体系结构的发展指明了方向。空间令牌(14×14)×384224×224×3类令牌1×384224×224×356×56×25628×28×51214×14×10247×7×2048224×224×311938×个×个(a) 模型能力(b)泛化性能(c)模型性能图2. ResNet50中空间维度的影响[13]。我们用ResNet50验证了空间维度的影响。如图所示,ResNet风格在模型能力、泛化性能和模型性能方面优于ViT风格3. 重新审视空间维度为了引入维转换到ViT,我们研究了网络架构中的空间维。首先,我们验证了ResNet架构中维度配置的好处。虽然维数转换已被广泛用于大多数卷积架构,但其有效性很少得到验证。基于这些发现,我们提出了一种基于池化的视觉Transformer(PiT),该视觉转换器将ResNet风格的维度应用于ViT。我们提出了一个新的池化层的Transformer架构和设计ViT与新的池化层(PiT)。使用PiT模型,我们验证了ResNet风格的维度是否为ViT带来了优势。此外,我们分析了ViT的自我注意块的注意矩阵,以探讨PiT在Transformer机制中的作用最后,我们介绍了PiT架构对应的各种规模的ViT。3.1. CNN尺寸设置如图1(a)所示,大多数卷积架构在增加通道维度的同时减小了空间维度在ResNet50中,茎层将图像的空间大小减小到56 56。在若干层块之后,具有步幅2的卷积层将空间维度减少一半并且使信道维度加倍。使用步长为2的卷积层的空间缩减是最近架构中经常使用的方法[32,29,19,12]。我们进行了一个实验,以分析性能差异,根据存在或不存在的卷积架构中的空间还原层ResNet50是ImageNet中使用最广泛的网络之一,用于架构,并在没有复杂训练技术的情况下训练了100多个epoch对于具有ViT风格维度的ResNet,我们使用ViT的茎层将特征减少到14 - 14个空间维度,同时减少茎层中我们还删除了ResNet的空间我们通过改变ResNet的通道大小来测量几种尺寸的性能。首先,我们测量了具有ResNet风格或ViT风格维度配置的ResNet的FLOP和训练损失之间的关系。如图2(a)所示,ResNet(ResNet风格)在相同的计算成本(FLOP)下显示出更低的训练损失。这意味着ResNet风格的维度增加了架构的能力。接下来,我们分析了训练和验证精度之间的关系,这代表了体系结构的泛化性能。如图2(b)所示,ResNet(ResNet样式)比ResNet(ViT样式)实现了更高的验证准确性。因此,ResNet风格的维度配置也有助于泛化性能。总之,ResNet风格的维度提高了模型能力和架构的泛化性能,从而显著提高了验证准确性,如图2(c)所示。3.2. 基于池化的视觉Transformer(PiT)Vision Transformer(ViT)基于自我注意力执行网络操作,而不是卷积操作。在自注意机制中,所有位置之间的相似性用于空间交互。图1(b)示出了该ViT的维度结构。与CNN的主干层类似,ViT在第一嵌入层将图像按块划分,基本上,该结构不包括空间缩减层,并且在网络的整个层中保持相同数量的空间令牌。虽然自注意操作不受空间距离的限制,但参与注意的空间区域的大小受特征空间大小的影响。因此,为了像ResNet一样调整维度配置,在ViT中还需要空间缩减层为了利用维配置到ViT的优点,我们提出了一种新的架构,称为基于池的视觉Transformer(PiT)。首先,我们为ViT设计了一个池化层。我们的池化层如图4所示。由于ViT以2D矩阵而不是3D张量的形式处理神经元响应,因此池化层应该分离。11939N∈距离=1Σ Σαp− p。(二)(a) 模型能力(b)泛化性能(c)模型性能图3. 视觉Transformer(ViT)中空间维度的影响[9]。我们比较了我们的基于池化的视觉Transformer(PiT)与原始的ViT在各个方面。PiT在能力、泛化性能和模型性能方面优于ViT空间令牌(×)×���联系我们深度方向���×二个 ×2空间令牌���(×个 )×2二个另一方面,在PiT的情况下,验证精度随着训练精度的增加而增加。泛化性能的巨大差异导致了性能的差异-重塑1×���类令牌卷积整形全连接层1×2类令牌PiT和ViT之间的差异,如图3(c)所示。即使在ImageNet中FLOP增加,ViT也不会提高性能的现象在ViT论文[9]中有报道。在ImageNet规模的训练数据中,ViT表现出较差的泛化性能,PiT缓解了这一点。因此,我们认为空间缩减层对于ViT的推广使用训练技巧是提高ImageNet中ViT泛化性能的一种方法。训练技巧和PiT的结合是图4.PiT架构的池化层。 PiT使用池层,以利用小参数实现信道倍增和空间缩减。创建空间令牌并将其重塑为3D张量在实验部分覆盖。3.3. 注意力分析我们分析了Transformer网络与注意力矩阵的措施[35]。我们把αi,j记为(i,j)分量A∈RM×N.Σ注意注意力值空间结构在整形之后,通过深度卷积来执行空间大小减小并且,响应被重新塑造为2D矩阵,用于Transformer块的计算在ViT中,有部分在使用soft-max层之后,即熵被定义为Niα i,j= 1。注意不对应于空间结构的,诸如熵=−1Σ Σαi、j对数αi、j.(一)类令牌或蒸馏令牌[33]。 对于这些部件,ji池化层使用附加的全连接层来调整信道大小以匹配空间令牌。我们的池- ING层,使空间减少ViT,并用于我们的PiT架构,如图1(c)所示。PiT包括两个池化层,其形成三个空间尺度。使用PiT架构,我们进行了一个实验,以验证PiT相比ViT的效果。实验设置与ResNet实验相同。图3(a)表示ViT和PiT的模型能力在相同的在ViT中使用空间缩减层也提高了架构的能力。训练精度和验证精度之间的比较显示出显着的差异。如图3(b)所示,即使训练精度提高,ViT也不会提高验证精度。对熵反映了注意力交互作用的扩散和集中程度。小的熵指示集中的相互作用,并且大的熵指示扩散的我们还测量了注意力距离NNi,j ij1J Ipi表示特征图FRH×W ×C的第i个标记(xi/W,yi/H)的相对空间位置。因此,注意距离示出了与总体特征尺寸相比的相对比率,这使得能够在特征的不同尺寸我们分析了基于变换器的模型(ViT-S [33]和PiT-S),并在所有验证图像上测量值,并在所有头上取平均值。11940×个每一层。我们的分析仅针对空间标记进行,而不是遵循 先 前 研 究 的 类 标 记 [35] 。 我 们 还 跳 过 最 后 一 个Transformer块的注意,因为最后一个注意的空间令牌与网络输出无关。结果见图5。在ViT中,熵和距离随着层变深而增加这表明,ViT的相互作用在浅层集中在近kens,而在深层则分布在广泛的token中。ViT的熵和距离模式类似于语言域中的变换器的模式[35]。PiT随着空间维度设置改变模式。在浅层(1-2层),大的空间尺寸增加熵和距离。另一方面,由于小的空间尺寸,熵和距离在深层(9-11层)处减小。简而言之,PiT的池化层在浅层中传播相互作用并且在深层中集中相互作用。与语言域的离散单词输入相反,视觉域使用需要诸如滤波、对比度和亮度校准的预处理操作的图像块输入。在浅层,PiT的扩散相互作用比ViT的集中相互作用而且比起(a) 注意熵(b) 相互作用的空间距离图5. 注意分析。我们研究了自我注意层的注意矩阵。图(a)示出了熵和图(b)显示了交互距离。PiT在浅层增加熵和距离,在深层减少。语言模型,图像识别具有相对较低的输出复杂度。因此,在深层,集中的相互作用可能就足够了。存在显著差异网络空间大小区块数股骨头数量通道FLOP大小视觉和语言领域,我们认为,注意力的PiT是适合的图像识别骨干。ViT-Ti [33] 14 x 14 12 3 192 1.3B27 x 27 2 2 643.4. 建筑设计ViT论文[9]中提出的架构针对的是大于ImageNet的数据集。这些架构(ViT-大型、ViT-巨型)的规模比Gen-点钛PiT-XS14 x 14 6 4 1287 x 7 4 8 25627 x 27 2 2 9614 x 14 6 4 1927 x 7 4 8 3840.7B1.4BImageNet网络是一个单一的网络,因此将其与其他网络进行比较并不容易。根据之前的研究[33]ViT-S [33] 14 x 14 12 6 384 4.6B27 x 27 2 3 144在ImageNet上的Vision Transformer中,我们以类似于小规模ViT架构(ViT-Base,PiT-S14 x 14 6 6 2887 x 7 4 12 5762.9BViT-Small、ViT-Tiny)。在DeiT论文[33]中,ViT-Small和ViT-Tiny分别命名为DeiT-S和DeiT-Ti,但为了避免因型号名称更改而引起的混淆,我们对所有型号均使用ViT。对应于ViT的三个尺度(微小、小和基础),我们设计了PiT的四个尺度(微小、超小、小和基础)。详细架构描述在表1中。为方便起见,我们将模型名称缩写为:基于224224图像测量Tiny-Ti、ExtraSmall-XS、Small-S、Base-B FLOP和空间大小。由于PiT使用比ViT更大的空间大小,我们将嵌入层的步幅大小减小到8,而ViT的补丁大小为16。两个池化层用于PiT,并且信道增加被实现为增加多头注意的头部的数量。我们将PiT设计为与ViT具有相似的深度,并调整通道和头部以具有ViT-B [9] 14 x 14 12 12 768 17.6B31 x 3134256PiT-B16 x 166851212.5B8 x 84161024表1. 体系结构配置。该表示出了ViT和PiT的空间大小、块的数量、头的数量、通道大小和FLOP。PiT的结构被设计为尽可能类似于ViT,并且具有更少的GPU延迟。更小的FLOP、参数大小和GPU延迟。我们澄清,PiT不是用NAS [25,3]等大规模参数搜索设计的,因此可以通过网络架构搜索进一步改进PiT11941体系结构FLOP#of生产能力Vanilla +CutMix [41]+DeiT [33]+Distill [33]params(imgs/秒)ViT-Ti[33]1.3 B5.7百万256468.7%68.5%72.2%百分之七十四点五点钛0.7B4.9米303071.3%百分之七十二点六73.0%百分之七十四点六PiT-XS1.4B10.6百万2128百分之七十二点四76.8%百分之七十八点一79.1%VIT-S [33]4.6 B22.1百万98068.7%76.5%百分之七十九点八81.2%PiT-S2.9B23.5百万1266百分之七十三点三79.0%80.9%百分之八十一点九VIT-B [9]17.6 B86.6百万303百分之六十九点三百分之七十五点三百分之八十一点八百分之八十三点四PiT-B12.5 B73.8百万34876.1%79.9%82.0%84.0%表2. ImageNet与ViT的性能比较。 我们比较了ViT和PiT与ImageNet数据集上的一些训练技术的性能。与ViT相比,PiT显示出更好的性能和低计算。4. 实验我们通过各种实验验证了PiT的性能。首先,我们在ImageNet训练的各种训练环境而且,我们将ImageNet的比较扩展到了Transformer以外的架构。特别地,我们重点比较了ResNet和PiT的性能,并研究了PiT是否可以击败ResNet。我们还将PiT应用于基于可变形DETR的对象检测器[44],并将其作为对象检测的骨干架构进行了性能比较。为了从不同角度分析PiT,我们评估了PiT在鲁棒性基准测试中的性能。4.1. ImageNet分类我们比较了表1的PiT模型与相应的ViT模型的性能为了阐明网络的计算时间和大小,我们测量了每个网络的FLOP、参数数量和GPU吞吐量(图像/秒)。GPU吞吐量是在具有128批大小的NVIDIAV100单GPU我们使用四个有代表性的训练环境来训练网络。第一个是一个普通的设置,它可以训练网络,而不需要复杂的训练技术。vanilla设置由于缺乏有助于泛化性能的技术而具有最低的性能,并且也用于图2、3中的先前实验。第二个是使用CutMix [41]数据增强进行训练。虽然只有数据增强发生了变化,但它显示出比普通设置明显更好的第三个是DeiT [33]设置,这是在ImageNet-1 k上训练ViT的训练技术的汇编[8]。DeiT设置包括各种训练技术和参数调整,我们通过官方开源代码使用了相同的训练设置。然而,在重复增强[18]的情况下,我们确认它在小模型中具有负面影响,并且它仅用于基础模型。最后是知识升华的DeiT设置。在DeiT [33]文件中,蒸馏设置被报告为最佳性能设置。该网络使用额外的蒸馏令牌,并且11942使用RegNetY-16 GF [27]作为教师网络,使用蒸馏损失[17]进行训练我们使用AdamP [16]优化器进行所有设置,学习率,权重衰减和预热设置等于DeiT [33]论文。我们为Vanilla和CutMix设置训练了100个epoch,为DeiT和Distill设置训练了300个epoch结果示于表2中。比较PiT和同名的ViT,PiT的FLOP比ViT少,速度快。然而,PiT显示出比ViT更高的性能。在香草和CutMix设置的情况下,其中应用了一些训练技术,PiT的性能优于ViT的性能即使在DeiT和蒸馏设置的情况下,PiT也显示出与ViT相当或更好的性能。因此,PiT可以被看作是一个更好的架构比ViT的性能和计算方面。图3中的ViT的泛化性能问题也可以在该实验中观察到与Vanilla设置中的ViT-S和Cut-Mix设置中的ViT-B另一方面,在所有训练设置中,PiT的性能根据模型大小而增加看起来ViT的泛化性能问题被池化层减轻了。我们比较了PiT与卷积网络的性能。在先前的实验中,我们使用架构的然而,当比较各种体系结构时,统一一个对所有体系结构都有效的设置是不可行的因此,我们进行了比较的基础上报告的最佳性能为每个架构。但是,它仅限于使用ImageNet图像训练的模型。当提出架构的论文和报告最佳性能的论文不同时,我们引用这两篇论文。当体系结构不同时,FLOP的比较常常不能反映实际吞吐量。因此,我们重新测量了单个V100 GPU上的GPU吞吐量和参数数量,并比较了性能指标的前1名准确度。表3示出了比较结果。在PiT-B标度的情况下,基于变压器的archi-11943网络参数数吞吐量(img/sec)精度设置体系结构吞吐量(img/sec)精度ResNet18 [13,42] 11.7M 4545 72.5%MobileNetV2 [29] 350万3846 72.0%MobileNetV3 [19] 550万3846 75.2%长ViT-Ti [33] 2564 76.6%PiT-Ti 3030 76.4%PiT-XS 2128 80.6%ViT-S [33] 980 82.6%PiT-S 1266 82.7%ViT-Ti [33]5.7M2564百分之七十四点五VIT-B [33]303百分之八十四点二点钛4.9M3030百分之七十四点六PiT-B34884.5%大分辨率(384×384)ViT-B [33] 91 83.1%PiT-B 82 83.0%ViT-B [33] 91 84.5%PiT-B 82 84.6%EfficientNet-B3 [32] 12.2M 806 81.6%骨干Avg. IOU APAP50AP75时的精度参数。延迟(ms/img)RegNetY-4GF [27] 20.6M 1136 79.4%ResNeSt50 [43] 27.5M 877 81.1%ViT-S [33] 22.1M 980 79.8%PiT-S23.5M 1266 80.9%ViT-S [33] 22.1M 980 81.2%PiT-S23.5M1266百分之八十一点九表5.基于Deformable的COCO检测性能ResNet152 [13,42]60.2M420百分之八十一点九DETR [44]. 我们评估PiT作为预训练的ResNet101D [14,38]44.6M35483.0%用于对象检测的主干。ResNet152D [14,38]60.2M25183.7%[32]第三十二话19.3M368百分之八十二点九培训计划:长时间的培训和大规模的微调RegNetY-16GF [27]83.6M35280.4%溶液。表4示出了结果。如前ResNeSt101 [43]ViT-B [9,33]48.3M86.6M39830383.0%百分之八十一点八研究[33]中,ViT的性能在长训练方案(1000个时期)上显著所以,我们-表3. ImageNet性能。 我们将我们的PiT-(Ti,XS,S和B)模型与具有类似数量的参数的对应模型进行比较。表示用蒸馏训练的模型[33]。结构(ViT-B,PiT-B)优于卷积结构。即使在PiT-S规模下,PiT-S也表现出比卷积架构(ResNet 50)更出色的性能,或者在吞吐量(EfficientNet-b3)方面表现出色。然而,在PiT-Ti的情况下,诸如ResNet 34 [13],MobileNetV 3 [19]和EfficientNet-b 0 [32]等卷积架构的性能优于ViT-Ti和PiT-Ti。总的来说,在ResNet50或更高的规模下,Transformer架构显示出比卷积架构创建一个轻量级的Transformer架构,如MobileNet,是ViT研究的未来工作之一此外,我们还在两个扩展的ResNet50 [13,42]25.6M126680.2%表4. 扩展训练设置。 我们比较了-ResNet101 [13,42]44.6M75781.6%PiT与ViT的管理,用于长期培训(1000个epochs)和精细ResNet50D [14,38][32]第三十二话25.6M9.2M11761333百分之八十点五百分之八十点一大分辨率调谐(384× 384)ResNet50 [13]41.560.544.341.0个月49.7VIT-S [33]36.957.038.034.9百万55.2PiT-S39.458.841.536.6个月46.9[32]第三十二话5.3M2857百分之七十七点一培训ViT-Ti[33]5.7M256472.2%(1000时代)点钛4.9M303073.0%PiT-B73.8M34882.0%维生素B[9、33]86.6M303百分之八十三点四PiT-B73.8M34884.0%ResNet34 [13,38]21.8M2631百分之七十五点一ResNet34D [14,38]21.8M2325百分之七十七点一[32]第三十二话7.8M175479.1%PiT-XS10.6M2128百分之七十八点一11944×个×个长期培训计划的日期PiT如表4所示,PiT模型在长训练方案上显示出与ViT模型相当的性能。虽然性能改进比Distill设置有所降低,但PiT在吞吐量方面仍优于ViT。在大分辨率(384)上进行微调384)是一个著名的方法来训练一个计算量小的大型ViT模型在大型的RE-在解决方案设置中,PiT具有与ViT相当的性能,但是在吞吐量上比ViT差。暗示PiT是为224224设计的,设计不兼容对于大分辨率。然而,我们相信PiT可以通过384 ×384的新层设计超越ViT。4.2. 对象检测我们通过可变形DETR [44]中的COCO数据集[24]我们用不同的骨干训练检测器,包括ResNet 50、ViT-S和我们的PiT-S。除了图像分辨率之外,我们遵循原始论文[44]的训练设置。由于原始图像分辨率对于基于变换器的主干来说太大,因此我们将图像分辨率减半用于训练和11945×个×个转转标准Occ IN-A [15] BGC [40] FGSM [10]PiT-S80.874.621.721.029.5VIT-S [33]79.873.019.117.627.2ResNet50 [13]76.052.20.022.37.1[38]第三十八话79.067.15.432.724.7表6. ImageNet鲁棒性基准测试。我们比较了三种可比较的架构,PiT-B,ViT-S和ResNet 50在各种ImageNet鲁棒性基准测试中的表现,包括中心遮挡(Occ),ImageNet-A(IN-A),背景挑战(BGC)和快速符号梯度方法(FGSM)攻击。我们评估了来自官方PyTorch存储库的两个ResNet50模型,以及优化良好的实现[38],表示为†。测试所有主干。我们使用边界框细化和两阶段方案以获得最佳性能[44]。对于ViT-S的多尺度特征,我们使用在PiT上的池化层的位置之后的第2、第8和第12层处的特征所有检测器都被训练了50个历元,并且学习率在40个历元时下降了1/10。表5显示了val2017的测量AP评分。基于PiT-S的检测器优于具有ViT-S的检测器S. 它表明PiT的池化层不仅对ImageNet分类有效,而且对对象检测的预训练骨干也我们使用分辨率为600和400PiT的随机噪声图像测量单个图像延迟,基于检测器的延迟低于基于ResNet50或ViT-S虽然PiT检测器无法击败ResNet 50检测器的性能,但PiT检测器具有更好的延迟,并且相对于ViT-S的改进是显著的。对基于PiT的检测器的训练设置的附加研究将改善PiT检测器的性能。4.3. 鲁棒性基准测试在这一小节中,我们调查的有效性,建议的架构,对输入变化的鲁棒性。我们假设,现有的ViT设计概念,它保持从输入层到最后一层的空间维度,有两个概念上的限制:缺乏背景的鲁棒性和敏感性的本地判别视觉特征。因此,我们假设PiT,我们的新设计选择与池机制,比ViT的背景鲁棒性基准和本地判别灵敏度基准的表现更好。我们采用四种不同的鲁棒性基准。Oc- clusion基准测量ImageNet验证准确性,其中中心112112图像的补片都归零了该基准测试衡量模型是否仅关注小的区分性视觉特征。ImageNet-A(IN-A)是通过从网络[15]收集ResNet 50的失败案例构建的数据集,其中收集的图像包含不寻常的背景或尺寸非常小的对象[23]。从这个基准,我们可以-解释模型如何对不寻常的背景或对象大小变化不太敏感。然而,由于IN-A是通过收集ResNet 50预测错误标签的图像(由200个因此,我们采用背景挑战(BGC)基准[40]来探索显式背景鲁棒性。BGC数据集由前景和背景两部分组成。该基准测试在保持前景但相反地改变来自另一图像的背景的同时测量模型验证准确性。由于BGC数据集建立在ImageNet的九个子类之上,因此基线随机概率为11.1%。最后,我们使用快速梯度符号法(FGSM)[10]测试了对抗攻击的表6示出了结果。首先,我们观察到PiT在所有鲁棒性基准测试中表现出比ViT更好的性能,尽管它们在标准ImageNet基准测试中表现出相当的性能(80.8 vs.79.8)。它支持,我们的尺寸设计,使模型不敏感的背景和局部判别功能。此外,我们发现ResNet 50对遮挡样本的性能下降比PiT显著得多; 80.874.6,PiT下降 5% , 79.0 67.1 , ResNet50 下 降 15% 。 这 意 味 着ResNet50通过卷积运算的性质更专注于局部区分区域有趣的是,在表6中,ResNet50在背景挑战数据集中优于ViT变体(32.7 vs. 21.0)。这意味着与ResNet设计选择相比,自注意机制无意地关注更多的背景克服视觉变换器的这一潜在缺点将是一个有趣的研究方向。5. 结论在本文中,我们已经证明了CNN中广泛使用的设计原理-通过池化或卷积进行的空间维度变换,在基于变换器的架构(如ViT)中没有考虑;最终影响模型性能。我们首先使用ResNet进行了研究,发现在空间维度方面的变换提高了计算效率和泛化能力。为了利用ViT中的优势,我们提出了一个将池化层合并到Vit中的PiT,并且PiT表明这些优势可以通过广泛的实验很好地协调到ViT。因此,虽然显着提高性能的ViT架构,我们已经表明,通过考虑空间交互比池层是必不可少的自我注意力为基础的架构。鸣谢我们感谢NAVER AI Lab成员的宝贵讨论和建议。NSML [20]已用于实验。我们感谢审稿人富有成效的反馈。11946引用[1] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。二个[2] Irwan Bello Lambdanetworks:在没有注意的情况下模拟长距离的相互作用。2021年,在国际学术会议上发表。二个[3] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv:1812.00332,2018。五个[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中,第213-229页Springer,2020年。1[5] Nadav Cohen,Or Sharir,and Amnon Shashua.关于深度学习的表现力:张量分析学习理论会议,第698-728页。PMLR,2016. 一个[6] Nadav Cohen和Amnon Shashua。通过池化几何结构对深度卷积网络的归纳偏差。在2016年国际学习代表会议上。一个[7] Zihang Dai,Guokun Lai,Yiming Yang,and Quoc V Le.漏斗变压器:过滤掉顺序冗余以实现高效的语言处理。arXiv预印本arXiv:2006.03236,2020。二个[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。1、6[9] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器在学习代表国际会议上,2021年。一、二、四、五、六、七[10] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释 和 利 用 对 抗 性 的 例 子 。 arXiv 预 印 本 arXiv :1412.6572,2014。八个[11] Dongyoon Han,Jiwhan Kim和Junmo Kim深层金字塔残余 网 络 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition , 第 5927-5935页,2017年。二个[12] Dongyoon Han , Sangdoo Yun , Byeongho Heo , andYoungJoon Yoo.重新考虑有效模型设计的通道尺寸。在IEEE/CVF计算机视觉和模式识别会议论文集,第732-741页二、三[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。一、二、三、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功