没有合适的资源?快使用搜索试试~ 我知道了~
CEIT-T(100)CEIT-T(300)DeiT-T(100)DeiT-T(300)×∼将卷积设计并入视觉变换器Kun Yuan1,Shaopeng Guo2,Ziwei Liu3,Aojun Zhou1,Fengwei Yu1 and WeiWu11商汤科技研究院,2香港科技大学,3南洋理工大学S-Labyuankunbupt@gmail.com,sguoad@connect.ust.hk,ziwei. ntu.edu.sg摘要由于Transformer在自然语言处理(NLP)任务中的成功,出现了一些尝试(例如,ViT和DeiT)将变形金刚应用于视觉领域。然而,纯Transformer架构通常需要大量的训练数据或额外的监督才能获得与卷积神经网络(CNN)相当的性能。为了克服这些限制,我们分析了直接从NLP借用Transformer架构时的潜在缺点。然后,我们提出了一种新的卷积增强的图像Transformer(CeiT),它结合了CNN在提取低级特征、增强局部性方面的优势以及变换器在建立远程依赖关系方面的优势。对原始Transformer进行了三项修改:1)代替从原始输入图像的直接标记化,我们设计了从生成的低级特征提取补丁的图像到标记(I2 T)模块;2)每个编码器块中的前馈网络被替换为局部增强前馈(LeFF)层,该LeFF层促进空间维度中的相邻令牌之间的相关性; 3)在使用多级表示的Transformer的顶部附加分层类令牌Attention(LCA)。在ImageNet和七个下游任务上的实验结果表明,与以前的Transformers和最先进的CNN相比,CeiT的有效性和泛化能力,而不需要大量的训练数据和额外的CNN教师。此外,CeiT模型表现出更好的收敛性,训练次数减少3次,这可以显著降低训练成本1。1. 介绍Transformer [37]已经成为自然语言处理(NLP)任务的事实标准,最近,存在一些应用反式-1代码可在:https://github.com/coeusguo/ceit807060504030201000 50 100 150 200 250 300历元图1:CEiT模型的快速收敛能力。用100个时期训练的CeiT模型获得与用300个时期训练的DeiT模型相当的结果。其他设置见表8。前视觉域[7,10,35,5,52,6,50],导致在不同的任务有希望的结果。其中,Vision Transformer(ViT)[10]是第一个直接继承自NLP的纯Transformer架构,并应用于图像分类。与许多最先进的CNN相比,它获得了有希望的结果[25,43,19]。但它严重依赖于JFT-300 M [33]的大量数据集,这限制了在计算资源有限或标记训练数据的场景中的应用。为了减轻对大量数据的依赖,数据高效图像变换器(DeiT)[35]引入了CNN模型作为教师,并应用知识蒸馏[14]来改进ViT的学生模型因此,仅在ImageNet上训练的DeiT可以获得令人满意的但是,对训练的高性能CNN模型的要求是潜在的计算负担。此外,教师模型的选择、蒸馏类型也会影响最终的绩效。因此,我们打算设计一个新的可视化Transformer,可以克服这些限制。这些工作中的一些现有观察可以帮助我们设计所需的架构。在ViT中,基于Transformer的模型在10M训练样本的领域中表现不佳。它声称579Top-1访问2580××××CNN固有的偏差,因此当在不充分的数据上训练时不能很好地泛化在DeiT中,CNN老师比使用Transformer老师提供更好的性能,这可能是由于这些观察使我们重新思考是否应该从Transformer中删除所有卷积中继承的归纳偏见是否应该被遗忘?回顾卷积,主要特征是平移不变性和局部性[22,31]。平移不变性与权重共享机制相关,其可以捕获关于视觉任务中的几何和拓扑的信息[23]。对于局部性,在视觉任务[11,26,9]中常见的假设是邻近像素总是倾向于相关的。然而,纯粹的Transformer架构并不能充分利用图像中存在的这些先前的首先,ViT执行直接从原始输入图像的大小为16 - 16或32 - 32的补丁的kenization。在图像中形成一些基本结构的拐角和边缘)。第二,自我注意模块专注于在对象之间建立远程依赖关系,忽略了空间维度上的局部性。为了解决这些问题,我们设计了一个卷积增强的图像Transformer(CeiT),以结合CNN在提取低级特征、增强局部性方面的优势以及变换器在关联远程依赖性方面的优势。与vanilla ViT相比,进行了三处修改。为了解决第一个问题,而不是直接从原始输入图像标记化,我们设计了一个图像到令牌(I2T)模块,从生成的低级别的功能,其中补丁是在一个较小的大小,然后平整成一个序列的令牌提取补丁。由于设计良好的结构,I2T模块不会引入更多的计算成本。为了解决第二个问题,每个编码器块中的前馈网络被替换为局部增强前馈(LeFF)层,其促进空间维度中的相邻令牌之间的相关性。为了利用自我注意力的能力,在Transformer的顶部附加了一个分层类令牌Attention(LCA),该令牌利用多层次表示来改善最终表示。概括而言,我们的贡献如下:• 我们设计了一个新的可视化Transformer架构,即卷积增强的图像变换器(CeiT)。它结合了卷积神经网络在提取低级特征、加强局部性方面的优势,以及Trans-former在建立远程依赖关系方面的优势。• 在ImageNet和七个下游任务上的实验结果表明,与以前的Trans相比,CeiT的有效性和泛化能力former和最先进的CNN,而不需要大量的训练数据和额外的CNN教师。例如,使用与ResNet- 50相似的模型大小,CeiT-S获得了82的Top-1准确度。0%在ImageNet上。结果是83. 3%,当好-分辨率为384 ×384。• CeiT模型表现出比纯Transformer模型更好的收敛性,训练迭代次数减少3次,这可以显着降低训练成本。2. 相关工作Transformer in Vision. iGPT [7]首先引入变换器来自动回归预测像素,并在不包含2D图像中内容的然而,它只 能在一个 非常大 的模型(1.4B)的 小数据集(CIFAR10)中实现最近,ViT [10]成功地使标准Transformer可扩展用于图像分类。它将图像整形为一系列16个补丁作为输入令牌。然而,当在非常大的数据集上训练时,ViT只能获得与最先进的CNN相当的性能DeiT [35]通过引入模拟令牌来增强ViT,并采用知识蒸馏来模拟CNN教师的输出,无需在大规模数据集上进行训练即可获得满意的结果。一些工作还利用了可以直接在ImageNet中训练的高效Transformer,包括LambdaNetworks [2],T2 T-ViT[46 ][49][49][49][49]此外,最近的工作还将变换器应用于各种视觉任务,包括对象检测[5,52],分割[41],图像增强[6,44]和视频处理[47,51]。卷积和自我注意的混合模型。为了利用自注意力在构建远程依赖性中的优势,一些工作将注意力模块引入CNN [49,45,40,3,8,17,42]。在这些工作中,Non-local network [40]将非本地层插入到ResNet [12]的最后几个块中,并提高了视频识别和实例分割的性能 。CCNet [18] 在 分 割 网 络 的 顶 部 附 加 了 SASA[29]、SANet[48]和Axial-SASA [38]提出用自注意模块代替所有卷积层,以形成独立的自注意网络。最近的工作还将Trans-former与CNN相结合。DETR [5]使用CNN主干之外的Transformer块,其动机是为了简单起见而摆脱区域建议和非最大抑制ViLBERT [24]和VideoBERT [32]使用CNN和BERT构建跨模态模型与上述方法不同,CeiT将卷积设计纳入Transformer的基本构建块中,以继承CNN中的电感偏置,这是一种更精细的设计。2581∈∈∈∈××∈∈·分裂卷积原始图像分裂Max-pooling嵌入嵌入低级功能编码器块。ViT由一系列堆叠的编码器组成。每个编码器具有MSA和FFN两个子层。在每个子层周围采用残差连接[12],然后进行层归一化(LN)[1]。每个编码器的输出为:y=LN(x′+ FFN(x′)),且x′=LN(x+ MSA(x))(1)与在每个阶段开始时对特征图进行下采样的CNN不同,令牌的长度图2:不同标记化方法的比较。上面的一个从原始输入图像中提取补丁下面的一个(I2T)使用卷积干生成的低级特征。3. 方法我们的CeiT是基于ViT设计的。首先,我们在第二节中3.1. 接下来,我们介绍三个修改,其并入卷积设计并使视觉变换器受益,包括第3.2节中的图像到令牌(I2T)模块、第3.4节中的局部增强的FeedForwad(LeFF)模块和第3.5节中的局部增强的FeedForwad(LeFF)模块。3.3节中的分层类令牌注意力(LCA)模块和3.4节中的分层类令牌注意力(LCA)模块。最后,我们在第3.5节中分析了这些提出的模块的计算复杂度。3.1. 再访Vision Transformer我们首先回顾ViT中的基本组件,包括标记化、编码器块、多头自注意(MSA)层和前馈网络(FFN)层。在不同的编码器块中没有减少。有效感受野不能有效扩展,这可能影响视觉变形器的优化效率MSA。对于自注意(SA)模块,输入令牌序列XtR(N+1)X C被线性变换到qkv空间中,即, 查询Q R(N+1)×C、键KR(N+1)×C和值VR(N+1)×C。然后,通过以下公式计算序列中所有值QKTAttention(Q,K,V)=softmax(√C)V(2)并对加权值进行线性变换。MSA是SA的延伸。它将查询、键和值拆分h次,并行执行attention函数,然后投影它们的连接输出。通过计算点积,计算不同标记之间的相似度,从而产生长距离和全局关注。并且对相应的值V执行线性聚合。FFN。FFN执行逐点操作,这些操作分别应用于每个令牌。它由两个线性变换组成,其间有一个非线性激活:代币化。标准Transformer [37]接收一系列令牌嵌入作为输入。要处理2D im-FFN(x)=σ(xW1)+b1)W2+B2(三)年龄,ViT将图像x∈RH×W×3重塑为序列其中W1∈RC×K是第一层的权重,pro-2平面化二维曲面xp∈RN×(P·3),其中(H,W)将每个令牌引入更高维度K。 且W2∈是原始图像的分辨率,3是RGB图像的通道数,(P,P)是每个图像块的分辨率,并且N=HW/P2是得到的块数,其也用作有效输入序列Transformer的长度这些补丁被展平并映射到大小为C的潜在嵌入。然后在序列中添加一个额外的类标记作为图像表示,得到大小为xt∈R(N+1)×C的序列输入。在实践中,ViT将每个图像分割为1616或32三十二 但是直接的标记化具有大块的输入图像的分辨率可能具有两个限制:1)难以捕捉图像中的低级信息(如边缘和角落); 2)大的核是过度参数化的,并且通常难以优化,因此需要更多的训练样本或训练迭代。RK×C是第二层的权重。B1Rk和b2Rc是偏差。σ()是ViT中GELU [13]的非线性激活。作为MSA模块的补充,FFN模块对每个令牌执行维度扩展/缩减和非线性变换,从而增强令牌的表示能力然而,在视觉中重要的标记之间的空间这导致原始ViT需要大量的训练数据来学习这些归纳偏差。3.2. 具有低级特征的图像到令牌为了解决令牌化中的上述问题,我们提出了一个简单但有效的模块,称为图像到令牌(I2T),从特征图中提取补丁,而不是原始输入图像。如图2所示,I2T2582局部增强前馈类令牌身份补丁令牌……n……n线性空间投影恢复深度卷积展平线性投影pHW∈pp不不pC ∈俄.西SpCp不∈−n输入令牌输出令牌图3:局部增强前馈模块的图示。首先,补丁令牌被投影到更高的维度。其次,基于原始位置将它们恢复为空间维度中的“图像”。第三,对恢复的令牌执行深度卷积,如黄色区域所示。然后将面片标记展平并投影到初始维度。此外,类令牌进行相同的映射。模块是由卷积组成的轻质杆。e是膨胀比。 第二,重新生成pa tch令牌。典型层和最大池化层。消融研究还表明,卷积层之后的BatchNorm层有利于训练过程。它可以表示为:x′=I2T(x)= MaxPool(BN(Conv(x)(4)其中x′∈×× D,S是原始输入的步幅存储到基于相对于原始图像的位置的空间维度上的xsR√N×√N×(e×C)的“图像”。第三,我们在这些恢复的补丁令牌上执行具有k的内核大小的深度卷积,增强了与相邻k21个令牌的表示相关,得到 xd∈ R√N ×√N ×(e×C)。第四,这些补丁-图像,并且D是富集通道的数量然后将所学习的特征图提取到空间维度中的一系列为了保持生成的令牌的数量与ViT一致,我们将补丁的分辨率缩小为(P,P)。实际上,我们设置S=4。kens被展平为xf的序列RN ×(e×C)。最后将补丁标记投影到初始维上,xl2∈ RN ×C,并与类标记连接,得到xh+1∈ R(N +1)×C. 在每个线性投影SS和深度卷积,BatchNorm和GELU是I2T充分利用CNN在提取低层特征方面的优势,通过缩小补丁大小降低了嵌入的训练难度这也是不一样的补充说这些程序可记为:xh,xh=Split(xh)(5)来自ViT中提出的混合型Transformer,其中x11=GELU( BN(线性1(xh)(6)p p常规ResNet-50用于提取高级特征xs=SpatialRestore(xll)(7)从最后两个阶段。我们的I2T更轻。p pxd=GELU( BN( DWConv(xs) (8)3.3. 局部增强前馈网络p pxf=Flatten(xd)(9)结合CNN的优势提取局部in-ppxl2=GELU( BN( Linear2(xf) (10)形成与Transformer的能力,以建立长期p pp范围依赖性,我们提出了一个本地增强的饲料-xh+1=Concat(xh,xl2)(11)T C P前向网络(LeFF)层。在每个编码器块中,我们保持MSA模块不变,保留捕获令牌之间全局相似性的能力。相反,原始前馈网络层被LeFF替换。结构如图3所示。LeFF模块执行以下过程。首先,给定从前面的MSA模块生成的令牌xh∈R(N+1)×C,我们将它们分成补丁令牌xh∈RN×C和类令牌xhRC相应。线性投影-将补丁的嵌入扩展到-……2583Cp3.4. 分层类令牌注意在CNN中,随着网络的加深,特征图的感受域增加。在ViT中也发现了类似的观察结果,其“注意力距离”随着深度而增加。因此,特征表示将在不同层处不同。为了整合不同层次的信息,我们设计了一个分层的类令牌注意(LCA)模块。与将最后第L层处的类令牌x(L)kens到更高的维度xl1∈RN ×(e×C),其中在不同的层上关注类标记。2584NC×××××4×6464C cc······类令牌LeffMSACEiT输出FFNMSA………LeffMSALCAFFN:前馈Leff:局部增强前馈类补丁MSA :多头自关注令牌编码器图4:所提出的逐层类令牌注意块。它通过接收一系列类标记作为输入来集成不同层的信息。如图4所示,LCA获得类令牌序列作为输入,其可以表示为Xc=[x(1),,x(l),,x(L)],其中l表示层深度。LCA遵循标准的Transformer块,其中包含MSA和FFN层。与原始MSA计算任意两个标记之间的相似性(O(n2))不同,LCA仅计算最后一层中的类标记与其他层中的其余类标记之间的相关性(O(n)),其中n表示标记的数量。x(L)的相应值通过注意力与其他值聚合。然后,聚合值被发送到FFN层,从而产生最终表示。3.5. 计算复杂性分析我们分析了额外的计算复杂度(在FLOPs方面)所带来的修改。一般来说,在计算成本略有增加的情况下 , 我 们 的 CeiT 模 型 可 以 有 效 地 结 合 CNN 和Transformer的优势,从而获得更高的性能和更好的收敛性。I2T与Original。标记化的类型影响嵌入的计算成本。对于具有1616的补丁大小的原始一个,FLOP是3C(HW)2。 对于I2T,FLOP由两部分组成,包括特征生成和嵌入。在本文中,生成的特征比输入小4在4.1节中给出了I2T的 详 细 架 构 。 I2T的 总 FLOP 为(147+9)DHW +1DCHW。 对于ViT-B/16型号,I2 T与原始型号之间的比值约为1。1.一、 以这种方式,额外的计算成本可以忽略不计。LeFF vs FFN 。 在 e=4 的 FFN 层 中 , FLOP 是 8(N+1)C2。LeFF的主要额外计算成本是由深度卷积引入的,其浮点数为4k2N2C. FLOP的增加很小,因为实际上O((N +1)C2)O(N2C),如表1所示。LCA与编码器块。与 标准编码器块相比,LCA仅计算第L类令牌上的注意力。在MSA和FFN的计算成本已减少到1。与其他12个编码器块相比,可以忽略成本。4. 实验我们进行了大量的实验,以证明我们提出的CEiT的有效性在第4.1节中,我们给出了所使用的视觉数据集和训练设置的细节。在第4.2节中,我们将CeiT与其他最先进的架构进行了比较,包括ImageNet中的CNN和Transformer在4.3节中,我们将ImageNet上训练的CeiT模型转移到其他基准数据集,显示出强大的泛化能力。在第4.4节中,我们对我们的修改进行了消融研究。在第4.5节中,我们展示了我们的CeiT模型的快速收敛能力。4.1. 实验设置网络架构。我们通过遵循ViT和DeiT的基本配置来构建我们的CeiT架构详情见表1。I2T模块由卷积层组成,其内核大小为7,步幅为2,生成32个丰富通道。并添加BatchNorm层以进行稳定的训练。然后,跟随具有3的内核大小和2的步幅的最大池化层,导致具有比输入图像小的4的补丁大小为16 - 16在ViT相比,我们使用的补丁大小为4 - 4生成一个序列的令牌。我们按照标准设置在深度的数量为12。对于LeFF模块,我们将扩展比e设置为4。深度卷积的核大小为3 3。对于LCA模块,头的数量和MLP的比率遵循标准编码器块的那些。实施详情。我们所有的实验都在NVIDIA Tesla V100GPU上进行。我们在DeiT中采用相同的训练策略。我们在表2中列出了训练、微调和迁移学习的详细设置。数据集。 我们没有使用JFT 300M或ImageNet 22K的大规模训练数据集,而是采用中等规模的ImageNet [46]数据集。它由1000个类的120万个训练图像和50K个验证图像组成。此外,我们还在一些下游基准上进行测试,以评估我们训练的CeiT模型的传输能力。这些数据集由不同的场景组成,包括细粒度识别(StandfordCars [20],Oxford-1022585××××↑表1:我们的CeiT架构的变体FLOP是针对分辨率为224 224的图像计算的。7ks2意味着卷积/池化,内核大小为7,步幅为2。模型convI2tmaxpool渠道编码器块嵌入尺寸头LeFeFKParams(男)FLOPs(G)欧洲电信联盟k7s2k3s232121923436.41.2中欧国际工商学院k7s2k3s2321238464324.24.5中欧国际工商学院k7s2k3s23212768124386.617.4表2:根据任务而变化的超参数在我们的experimenet中,ImageNet上的训练和微调采用了DeiT中相同的设置我们使用相同的设置对不同的下游数据集进行微调任务数据集输入大小历元批大小学习率LR调度器热身时代重量衰减重复[15]培训ImageNet22430010241e-3余弦50.05✓微调ImageNet3843010245e-6恒定01e-8✓转移下游224 3841005125e-4余弦21e-8✗表3:所用视觉数据集的详细信息。数据集类列车数据值数据ImageNet10001,281,16750000iNaturalist2018814243751324426iNaturelist201910102652403003斯坦福汽车19681338041牛津大学-102关注者10220406149牛津-IIIT-宠物3736803669CIFAR1001005000010000CIFAR10105000010000Followers [27] 和 Oxford-IIIT-Pets [28] ) 、 长 尾 分 类(iNaturalist 18 [16]、iNaturalist 19 [16])和超水平分类(CIFAR 10 [21]、CIFAR 100 [21])。详情见表3。4.2. ImageNet上的结果我们在表4中报告了ImageNet验证数据集和ImageNetReal 数据集[4]的结果。为了比较,我们 选择CNN( ResNets [12] , EfficieNets [34], RegNets [30]) 和Transformer(ViTs,DeiTs)来评估我们的CeiT模型的有效性。CEiT vs CNN。我们首先比较CEiT模型与CNN模型。CeiT-T达到了76的Top-1精度。ImageNet中的4%,接近ResNet的性能50. 但CeiT-T只需要比ResNet-50少3个FLOP和4对于与ResNet-50类似大小的CeiT-S,其性能为82。0%,实现了更高的性能(+5。3%)比ResNet-50(76.7%)。这种性能也优于ResNet-152和RegNetY-8 GF的较大CNN模型。当在384 384的分辨率上训练时 ,CeiT-S384超过EfficientNet-B4 0。百分之四它表明,我们已经获得了与EfficientNets相当的结果,并且几乎2586↑缩小了视觉变形金刚和CNN之间的差距。CeiT与ViT/DeiT。CeiT-T也获得了类似的结果,为76。4%,ViT-L/16为76。百分之五这是一个令人惊讶的结果,因为CeiT-T模型的大小仅为ViT-L/16大小的五分之一但这一结果是通过改进训练策略和修改模型结构而产生的。为了进一步证明该结构带来的改进,我们将CeiT与DeiT进行比较。CEiT模型遵循第节中给出的相同训练策略4.1.我们的修改只增加了约10%的参数的数量,并几乎没有影响FLOP。以这种方式,CeiT-T以4的大幅度优于DeiT-T。Top-1精度为2% CeiT-S的结果比DeiT-S和DeiT-B的结果高2。1%和0。2%。CeiT vs DeiT-Teacher. DeiT引入了CNN教师模型作为额外的监督,以优化Transformer,实现更高的性能。但是它需要额外的计算成本来获得训练的CNN模型。而CeiT不需要额外的CNN模型来提供监督信息,除了地面实况。与此同时,CeiT-T超过DeiT-T-Teacher 1。9%的Top-1准确度。而CeiT-S也比DeiT-S-Teacher高出0。百分之八这些实验结果证明了我们的CEiT的有效性。4.3. 迁移学习为了证明预训练的CeiT模型的泛化能力,我们在7个下游基准测试中进行了迁移学习实验。并且结果在表6中给出。培训详情见上表二、可以看出,在具有较少参数和FLOP的大多数数据集中,CeiT-S优于DeiT-B。CeiT-S384在大多数数据集中实现了最先进的结果。值得注意的是,2587↑×↑表4:CEiT和几个SOTA CNN和Transformer的ImageNet和ImageNet Real上的准确度,对于没有额外数据训练的模型。符号384意味着模型在384 384的分辨率上被微调。还报告了不同模型它被测量为每秒可以在Nvidia 16GB V100GPU上处理的图像数量,批量大小为256(200次更大的吞吐量意味着模型更快。组模型FLOPs参数输入吞吐量(G)(M)大小图像/秒ImageNet前5名房Top-1ResNet-18 [12]1.811.7224327270.386.777.3ResNet-50 [12]4.125.6224105176.793.382.5ResNet-101 [12]7.844.522467378.394.183.7ResNet-152 [12]11.560.222448478.994.484.1CNNsRegNetY-4GF [30]4.020.6224101080.094.986.4RegNetY-8GF [30]8.039.222455781.795.287.4ViT-B/16 [9]18.786.538427077.9-83.6ViT-L/16 [9]65.8304.333848676.5-77.8DeiT-T [35]1.25.7224207972.291.180.6DeiT-S [35]4.522.122487979.995.085.7DeiT-B [35]17.386.622427081.895.686.7[35]第35话1.25.7224205174.591.982.1[35]第三十五话4.522.122487281.295.486.8DeiT-B↑ 384 [35]52.886.63848283.196.287.7变压器PVT-T [39]1.913.2224-75.1--PVT-S [39]3.824.5224-79.8--PVT-M [39]6.744.2224-81.2--PVT-L [39]9.861.4224-81.7--欧洲电信联盟1.46.4224152476.493.483.6中欧国际工商学院4.824.222463682.095.987.3CEI-T↑ 384CEI-S↑ 3845.115.96.424.238438443319778.883.394.796.585.688.1CeiT-S384获得了与EfficientNet-B7相当的结果,输入大小为600。它显示了视觉变形金刚对抗CNN的强大潜力。4.4. 消融研究为了进一步确定所提出的模块的影响,我们进行消融研究的主要组成部分的I2T,LeFF和LCA。我们所有的消融实验都基于ImageNet上的DeiT-T模型。不同类型的I2T模块。I2T中的影响因素包括卷积的核大小、卷积的步幅、最大池化层和批范数层的存在结果在表5中给出。如果没有最大池化层,一个具有k7s4和k5s4内核的卷积层都会降低性能。I2T表5:I2T类型的消融研究结果。报告Top-1准确度和变化convI2T类型maxpoolBN渠道Top-1✗✗✗372.2k7s4✗✗6471.4(-0.8)k5s4✗✗6471.1(-1.1)k3s2+k3s2✗✗6470.4(-1.8)k7s2k3s2✗3272.9(+0.7)k7s2k3s2✓3273.4(+1.2)具有两个卷积层且核为k3s2的情况下,也会遭受下降。Max-pooling和BatchNorm层都有利于训练。因[34]第三十四话0.45.3224226277.193.383.5[34]第三十四话0.77.8240146379.194.484.9[34]第三十四话1.09.1260103480.194.985.9[34]第三十四话1.812.230064081.695.786.8[34]第三十四话4.419.338038782.996.488.0T2T-ViT-14[46]5.221.5224-81.5--T2T-ViT-19[46]8.939.2224-81.9--T2T-ViT-24[46]14.164.1224-82.3--2588此,我们在所有实验中采用最佳结构(最后一行)。2589××××× ××××3×Top-11×Top-11×Top-1表6:ImageNet预训练下游任务的结果。CEiT模型实现了最先进的性能。具有前两个最高精度的结果以粗体显示。模型FLOPsImageNetiNat18iNat19汽车追随者宠物CIFAR10CIFAR100[36]第三十六话4.1G79.669.875.992.598.2---[36]第三十六话8.0G-76.880.094.099.0---[34]第三十四话10.3G83.6---98.5-98.191.1[34]第三十四话37.3G84.3--94.798.8-98.991.7ViT-B/16 [9]18.7G77.9---89.593.898.187.1ViT-L/16 [9]65.8G76.5---89.793.697.986.4迪伊特-B [35]17.3G81.873.277.792.198.4-99.190.8[35]第38话52.8G83.179.581.493.398.5-99.190.8欧洲电信联盟1.4G76.464.372.890.596.993.898.588.4CEI-T↑ 384中欧国际工商学院4.8G5.1G78.882.072.273.377.978.993.093.297.898.294.594.698.599.088.090.8CEI-S↑ 38415.9G83.379.482.794.198.694.999.190.8表7:LeFF类型的消融研究结果。报告Top-1准确度和变化3× 35×573.1(+0.9)3×3✓74.3(+2.1)5×5✓74.4(+2.2)不同类型的LeFF模块。在LeFF模块中,内核的大小确定补丁令牌建立局部相关性的区域大小。因此,我们使用内核大小为1第1、3条3和5表7中的5。与没有中间深度方向卷积的基线相比,11的类型显示出差 的 性 能 , 下 降 1 。 9% 。 这 表 明 , 简 单 地 增 加Transformer的层数当将核大小增加到更大时,每个令牌可以通过非线性变换与相邻令牌累积。33和33的类型都是5 5获得收益。 当采用BatchNorm层时,该模型可以实现高达2的进一步精度提高。Top-1精度的2%基于参数的数量和精度之间的权衡,我们选择的内核大小为33。 与I2T相同,在变换层之后存在Batch_Norm层显著地提高了性能。LCA的有效性。我们比较的性能W/WO的LCA模块。通过采用生命周期评价,性能从72。2%至72。8%,显示多层次信息有助于最终的图像表示。4.5. 快速收敛标准的视觉变形金刚,如ViT和DeiT,通常需要大量的训练时期来控制。表8:DeiT和CeiT模型之间收敛能力的比较。用100个时期训练的CeiT模型获得与用300个时期训练的DeiT模型相当的结果。1×表示100个epoch。DeiT-T72.2DeiT-T65.3欧洲电信联盟72.2(+6.9)DeiT-S79.9DeiT-S74.5中欧国际工商学院78.9(+4.4)DeiT-B81.8DeiT-B76.8中欧国际工商学院81.8(+5.0)边缘使用少3个训练时期,DeiT的性能遭受显著下降。如表8所示,CeiT模型比DeiT模型表现出更好的收敛性,从而在大的裕度中产生更高的性能。在100个epoch中训练的CeiT模型可以获得与在300个epoch中训练的DeiT模型相当的结果。它表明,将这些固有的归纳偏差纳入CNNs有利于视觉变压器的优化过程5. 结论在本文中,我们提出了CEiT,它结合了CNN在提取低级特征、增强局部性方面的优势以及Transformer在建立远程依赖关系方面的优势。CeiT在ImageNet和各种下游任务上获得SOTA性能,而不需要大量的训练数据和额外的CNN教师。此外,CeiT模型表现出比纯Transformer更好的收敛性,训练迭代次数减少3次,显著降低了训练成本。通过结合卷积设计,我们提供了一个新的视角,更有效的视觉变压器。确认本研究得到了NTU NAP的支持,并在RIE 2020行业联盟基金-行业合作项目(IAF-ICP)资助计划下LeFF类型核尺寸BNTop-1✗✗72.21× 1✗✗70.3(-1.9)72.7(+0.5)2590引用[1] Lei Jimmy Ba、Jamie Ryan Kiros和Geoffrey E.辛顿层归一化。CoRR,abs/1607.06450,2016。[2] Irwan Bello Lambdanetworks:在没有注意的情况下模拟长距离的相互作用。2021年,在国际学术会议上发表[3] Irwan Bello、Barret Zoph、Quoc Le、Ashish Vaswani和Jonathon Shlens。注意力增强卷积网络。在ICCV,第3285-3294页中。IEEE,2019。[4] LucasB e ye r,Ol i vierJ. 他 的 名 字 是 : He'na f f,Al exanderKolesnikov ,XiaohuaZhai,和Aa ?ronvandenOord 。我 们 完 成 了 imagenet 吗 CoRR ,abs/2006.07159,2020。[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在ECCV ( 1 ) , Lecture Notes in Computer Science 的 第12346卷,第213- 218229. Springer,2020年。[6] Hanting Chen,Yunhe Wang,Tanyu Guo,Chang Xu,Yiping Deng,Zhenhua Liu,Siwei Ma,Chunjing Xu,Chao Xu , and Wen Gao. 预 训 练 的 图 像 处 理Transformer。CoRR,abs/2012.00364,2020。[7] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。在ICML,Proceedings of Machine Learning Research的第119卷,第1691-1703页中。PMLR,2020年。[8] Yunpeng Chen,Yannis Kalatidis,Jianshu Li,ShichengYan,and Jianshi Feng. A 2-nets:双重注意网络。在NeurIPS,第350-359页[9] AntonioCriminisi,PatrickPe'rez,和KentaroToyama. 基于样本的图像补绘的区域填充和目标去除IEEE传输图像处理。,13(9):1200[10] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。[11] 何开明,孙建,唐晓鸥。引导图像滤波。在ECCV(1),Lecture Notes in Computer Science的第6311卷,第1-14页中。施普林格,2010年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,第770-778页中。IEEE计算机学会,2016年。[13] 丹·亨德里克斯和凯文·金佩尔。用高斯误差线性单元桥接 非 线 性 和 随 机 正 则 化 。 CoRR, abs/1606.08415 ,2016。[14] 杰弗里·E Hinton,Oriol Vinyals
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功