没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文缩放的ReLU对训练Vision Transformers很Pichao Wang*,Xue Wang*,Hao Luo,Jingkai Zhou,Zhipeng Zhou,Fan Wang,Hao Li,Rong Jin阿里巴巴集团{pichao.wang,xue.w}@ alibaba-inc.com{michuan.lh,zhoujingkai.zjk,yuer.zzp,fan.w,lihao.lh,jinrong.jr}@ alibaba-inc.com摘要视觉变换器(ViTs)一直是卷积神经网络(CNN)的替代设计范式。然而,ViTs的训练比CNN困难得多,因为它对训练参数敏感,例如学习率,优化器和预热时期。在(Xiao et al.2021)中对训练困难的原因进行了经验分析,作者推测问题在于ViT模型的补丁茎在本文中,我们进一步研究了这个问题,并扩展了上述结论:只有早期的卷积对稳定训练没有帮助,但卷积干(conv-stem)中的缩放ReLU操作很重要。我们从理论上和经验上都验证了,conv-stem中的缩放ReLU不仅提高了训练稳定性,而且还增加了补丁令牌的多样性,从而通过添加少量参数和触发器来大幅提升峰值性能。此外,进行了大量的实验,以证明以前的ViTs远没有得到很好的训练,进一步表明ViTs有很大的潜力成为CNN的更好的替代品介绍视觉识别一直由卷积神经网络(CNN)主导(He et al.2016;Howard 等 人 2017;Zhangetal.2018;TanandLe2019;Li et al.2021 a;Zhou et al.2021 c)多年来,有效地施加了空间局部性和翻译等价性。最近,流行的视觉转换器(ViT)被认为是一种替代性设计范式,其目标是用全局自注意力取代CNN中固有的对局部处理的感 应 偏 差 ( Dosovitskiy 等 人 , 2020;Touvron 等 人 ,2020;Wang 等 人 , 2021 b;Fan 等 人 , 2022 b ) 。 2021年)。尽管ViT对于完整的数据驱动训练具有吸引人的潜力与CNN相比,ViT对优化器的选择、数据扩充、学习率、训练时间表长度和预热时间敏感(Touvron etal.2020 , 2021;Chen , Hsieh , and Gong2021;Xiao etal.2021)。训练困难的原因在(Xiao et al.2021)中进行了实证分析,作者推测问题在于*前两位作者贡献相同。Copyright © 2022 , Association for the Advancement ofArtificial Intelligence(www.aaai.org). All rights reserved.ViT模型提出,早期的回旋有助于变形者看得更清楚.最近 的 工 作 ( Graham et al.2021;Guoet al.2021;Yuan etal.2021 c ) 也 引 入 了 conv-stem 来 提 高 训 练 视 觉Transformer的鲁棒性,但他们缺乏对这种conv-stem工作原理的深入分析。在本文中,我们从理论和经验上验证了Conv-stem中的缩放ReLU对于健壮的ViTs训练至关重要。具体来说,缩放的ReLU不仅提高了训练的稳定性,而且增加了多样性 的补丁令牌,从而提高了最终的识别性能的一个大的利润。此外,进行了广泛的实验以进一步揭示conv- stem的影响,并进行了以下有趣的观察:首先,在将conv-stem添加到ViT之后,SAM优化器(Foret et al.2020)不再像(Chen,Hsieh和Gong 2021)中报 告 的 那 样 强 大 ; 其 次 , 使 用 conv-stem , 监 督 ViT(Touvronet al. 2020)优于其相应的自监督训练模型(Caron et al. 2021)加上Imagenet-1k上的监督微调;第三,使用conv-stem,受过更好训练的ViTs可以提高性能,下游任务的管理所有这些观察结果都反映出,以前的ViTs远没有得到很好的训练,ViTs可能成为CNN的更好替代品。相关工作卷积神经网络(CNN)。自从AlexNet在ImageNet上的突破性表现(Krizhevsky,Sutskever,andHinton2012)以来,CNN已经成为计算机视觉领域的主导架构。遵循通过更深入地串联堆叠低到高卷积的主要设计规则,提出了许多流行的架构,例如VGG(Simonyan和Zisserman2014),GoogleNet(Szegedyet al. 2015)和ResNet(He et al. 2016年)。为了进一步利用视觉表示的能力,已经提出了许多创新,例如ResNeXt(Xieet al. 2017),SENet(Hu,Shen和Sun2018),EfficientNet(Tan和Le2019)和NFNet(Brocket al. 2021年)。对于大多数CNN,Conv+BN+ReLU成为标准块。在本文中,我们调查这个基本块训练视觉变压器作为一个轻量级的干。Vision Transformers(ViTs)。 以来 Dosovitskiy 等人(Dosovitskiy等人,2020年)首次成功地将变换器用于图像分类,将图像划分为非重叠的小块,许多ViT变体都是亲arXiv:2109.03810v2 [cs.CV] 2022年1月+v:mala2255获取更多论文·∈i,c.ΣβCBi=1 Xi,c−µcei,c我我( Wang et al.2021 b;Han et al. 2021;Chen 等 人 2021a;Ranftl , Bochkovskiy , and Koltun2021;Liu et al.2021;Chen,Fan,andPanda2021;Zhangetal.2021a;Xieet al.2021;Zhang et al.2021b;Jonnalagadda,Wang , andEckstein2021;Wangetal.2021d;Fangetal.2021;Huanget al. 2021;Gao等人2021;Rao等人2021;Yu等人2021;Zhou et al.2021b;El-Nouby et al.2021;Wang etal. 2021 c;Xu等人,2021)。在本节中,我们主要回顾了与培训ViTs密切相关的几项工作具体而言,DeiT(Touvron et al. 2020)采用了几种训练技术(例如,截断 的正常 初始 化、强 数据增 强和 较小的权重 衰减),并使用蒸馏将ViT扩展到数据高效版本; T2 TViT(Yuanet al. 2021b)、CeiT(Yuanet al. 2021a)和CvT(Wuet al. 2021)尝试通过引入卷积运算生成补丁序列 来处 理刚 性补 丁划分 ,以 促进 训练; DeepViT(Zhou et al.2021 a) ,CaiT ( Xi-vronet al.2021 )和PatchViT(Gong et al.2021)研究了不稳定的训练问题,并提出了用于稳定训练的重新注意,重新缩放和抗 过平 滑 技术 ;为 了加 速 训练 的 收敛 , ConViT( d'Ascoli et al. 2021 ) ,PiT( Heo et al. 2021 ) 、 CeiT(Yuan etal. 2021b)和Visformer(Chen et al.2021 b)引入卷积偏置来加速训练; LV-ViT(Jiang et al. 2021)采用了几种技术,包括混合令牌和令牌标记,以更好地训练和特征生成; SAM优化器(F oretet al. 2020)被采用(Chen,Hsieh和Gong2021),以更好地训练ViT,而无需强大的数据增强; KVT(Wang et al.2021 a)引入了k-NN注意力来过滤掉不相关的令牌,以加速训练;在几项工作中采用了conv-stem(Graham et al. 2021;Xiaoet al.2021;Guo et al.2021;Yuan et al.2021 c),以提高训练ViT的鲁棒性在本文中,我们调查的ViTs的培训,通过使用的conv-stem,并证明了conv-stem的视觉变换器的背景下,从理论上和经验上的几个属性。Vision Transformer架构在本节中,我们 首先回顾视觉Transformer,即ViT(Dosovitskiy et al. 2020年),然后描述我们工作中使用的conv-stemViT. ViT首先将输入图像划分为不重叠的pXp块,并使用学习的权重矩阵将每个块线性投影到d维特征向量conv-stem比patchify-stem稍大。例如,DeiT-Small的参数从22 M增加到23 M,但是增加非常小,因为最后一个线性投影层中的核尺寸从斑块化茎中的16*16减小到对 流 茎 中 的 8*8 。 我 们 采 用 VOLO conv-stem 而 不 是(Xiao et al. 2021)是我们希望保持编码器的层与ViT中相同,但不像(Xiao et al. 2021年)。ViTp和ViTc。为了便于比较,使用patchify-stem的原始ViT模型称为ViTp。为了形成一个带有conv-stem的ViT模型,我们只需将pathify-stem替换为conv-stem,其他所有内容保持不变,我们将此ViT称为ViTc。在下面的章节中,我们从理论和经验上验证了ViTc在稳定训练和多样化补丁令牌方面优于ViTp,这是由于缩放的ReLU结构。缩放的ReLU结构在本节中,我们首先介绍Scaled ReLU结构,然后分析Scaled ReLU如何分别稳定训练和增强令牌多样化。对于任何输入x,我们定义了缩放的ReLU结构,其中缩放参数α,β,ReLUα ,β()用于简写,如下所示:ReLU α,β(x)= β max {x + α,0}。缩放的ReLU结构可以通过将ReLU与包含可训练缩放参数的归一化层(例如Batchnorm或Lay- ernorm)组合来实现,并且可以将Conv-stem中的Batchnorm + ReLU视为缩放的ReLU的变量。直观地说,ReLU层可能会切掉部分输入数据,使数据集中在更小的范围内。有必要将其扩展到与其输入类似的数据范围,这有助于稳定训练并保持有希望的表达能力。为了简单起见,我们将在本文中关注缩放的ReLU,我们的分析可以扩展到常用的规范化层的情况。训练稳定化假设基于Batchnorm的定义,最后一次转换的输出X典型的补丁和图像大小分别为p= 16和224x224。补丁嵌入以及添加的位置嵌入和级联分类标记是i,cXi,c−µc e被馈送到标准Transformer编码器(Vaswaniet al.2017年),由一个分类头。类似于(XiaoX输出= ReLU输出。ΣBi=1 Xi,c−µceβc+αce等人2021),我们将ViT在变换器块之前的部分命名为ViT-stem,并将线性投影=ReLUαc ,βcXi,c−µce(stride-p,pxp kernel)作为patchify-stem。Conv-stem。 除特别指明外,βcBi=1α˜1999年i,c-µce2来自VOLO的conv-stem(Yuanet al. 2021年c)。完整的Conv-=ReLUc,βc(Xi,c),(1)主干由3Conv+3BN+3ReLU+1Proj块组成,很好详细配置见算法其中,X=i,c=Xi,c−µce,µc是Xi,c的平均值1、补充材料。的参数和FLOP将通道上的Xout指定为Xout,并将其整形为Xin∈核大小和步长分别为(7,3,3,8)和(2,1,1,8),在一个批次中,B是批次大小。接下来,我们来解释一下-+v:mala2255获取更多论文××=[CC√我√]=XiWReLUαc,β(Xi,c)Wtranss,cReLUαc,βc(X i,c)Wtranss,cReLUαc,β(Xi,c)Wtrans,cβ-β-CCC222CCHWC学习引入了显著更少的模型偏差(例如,Loh中显示出明显更好的维度效率,HWc=1transc1CCCC信道并随时间自适应地改变。对于在αc和/或βc中具有较大幅度的通道,经缩放的令牌具有CC(α2+β2)+β-Wtrans-β2n(n−1)i/=jBjβCCCRB×n×d,其中n是到k en(patch)的长度,d是ReLUα,β(X∈i,c)在所有通道上的长度。如果没有基因缺失Cc嵌入维数最后,我们计算Q i,Ki,Vi作为erality,我们可以找到一个函数g来重写f函数为:随后:.,,[Q i K i V i]= X in[W Q W K W V .在反式fReLUαc,βc(Xi,c).,,Wtranss ,开始自我关注。为了说明缩放的ReLU如何稳定训练,我们重新排列Wconv-stem(即,βCtranscC以匹配我们考虑一个特殊的情况,我们冻结所有参数,除了缩放参数α c,β c(c = 1,2,...,C在最后一个batchnorm层,W Q、W K和W V在第一个Transformer块。注意,Q、K和V是通过Xin和Wtranss的乘积计算的。为了保持Q、K和V、Wtranss的相同量值将更接近于0CHW而不是nd)。接下来,我们可以重新缩放ηc>0的参数如下:βc=ηcβc,αc=ηcαc,Wt rans,c=ηc−1Wtrans,c,这意味着如果Xin以较大的αc和βc参数缩放换句换句话说,缩放的ReLU可以给Wtransm一个隐式的.,,βC关于其缩放参数的正则化。再-结果总结在下面的定理1中。..˜˜ΣΣC定理1设αc,βc为标度ReLU中的参数最后一个conv-stem块中的结构,c=1,2,...,C此外,利用(a2+b2)+c2≥2的条件|C|A2+B2和Wtrans.注意力参数是人能证明在第一个Transformer块中设置如果我们冻结所有其他参数,并在OP中引入L2权重衰减(α最优化问题是一个最优化的问题。加权l1惩罚学习Wtrans.此外,让c c Fc=1CWtranss,c是与通道c相关联的参数,并且=α2+β2+Wrans,c2对应于Wα2+β2+α2。transc 是正确的,C cc=1Σ. ηα+η β在高维统计中,众所周知,l惩罚C1=2Wα2+β2,(3)Wainwright2015)。此外,正则化强度在O(α2 +β2)的数量级上随通道不同而不同,其中等式(2)成立,.ηC=Wtranss,c C.(四)α2+β2更大的分歧。为了使训练处理c c更稳定,相应参数的更新Wtranss也需要更加小心(使用更大的处罚)。它因此,(3)的右手大小变为Wtransc上的l1惩罚,权重为α2+β2,即,WQ,WK将缩放的ReLU结构与直接使用l1权重在优化器中直接衰减定理11的证明我们将损失函数表示为:低:n和WV在具有不同强度的输入声道上被Q注1. 定理1的分析还能够组合ReLU + Layernorm或Batchnorm + ReLU最小值1μLf({ReLU α(X))},W),yC+ MLP结构。在某些类型的Transformer模型中,n i=1.CQCβc,βci,c特兰斯岛ΣF、代币将首先通过Layernorm或通过MLP在进入自我注意之前。通过类似的肛门-我们还可以证明自适应隐式l1正则化c=1其中KL(·)是KL-偏差,yi是第i个样本的标签,f(·)表示预测函数,λ是12个权重衰减的衰减常数,{ReLUαc,βc(X∈i,c)}是集合1隐式正则化的类似分析过程也在(Ergenet al.2021;Neyshabur,Tomioka和Sre-代币多样化接下来,我们通过consin相似性展示了缩放的ReLU的令牌多样化能力。(Gong et al. 余弦相似性度量被定义为:不bro2014;Savarese et al. 2019年)的报告。CosSim(B)= 1μmBiBj、(五)=g、G=g.该定理显示了一个隐式l21 atten正则化≥2Wtrans,c1C从缩放的ReLU结构中提取权重。在现代(二更)c=1+λ在这两种情况下。+v:mala2255获取更多论文−op√|B|.ǁ· ǁǁ ǁ∈ − − −·我σ2的lnorm.注意,如果我们可以确保为n(n 1)b2最小i/=j.1日志2.n+d. n + dB3E[Bi,j]和σ2=Var[B i,j]对于所有i,j。 对于δ>0,op我我2常数c0使得B2-µ2−σ2以c0σ2sub为中心是的。给定恒等变换(即,B=A)是缩放的ReLU的特殊情况,矩阵A(之前的令牌矩阵....ηΣΣ我我2opJIJ−−.ΣOPδδ∈0+R2+2σ2日志MaxJη2其中,B表示矩阵B的第i个r,并且2min发送通过不.− t2/2如:Maxt/3+RMaxi= 1,2,.,n,则CosSim(B)又将是上界的通过1t=RMaxlog. n + dCosSim(B)≤1BBT3δ1吨吨2吨min9Maxδmaxδ=n(n−1)b2.Be BB e−ΣBi我2≤ Rmaxlog . n + d+ .2σ2日志 . n + d,≤n−121min、(六)其中最后一个不等式使用了以下事实:|一|+的哪里op表示矩阵算子范数。基于(6),只要bop和bmin同阶变化时,余弦相似性降低. 在下面的定理2中,我们分析了Bop和miniB i的阶。则不等式(7)意味着以下结果以概率1δ成立:Xn+d+。2σ2log。n+d。定理2设D为零均值概率分布矩阵A∈Rn×d是一个矩阵,执行部分第3最大δMaxδ(八)独立于D绘制,且ΔA≤R最后与接下来,将公式(8)与以下事实结合起来:R> 0。此外,我们表示B = ReLU α,β(A),μ B=而E=nd,一个有Bγ(0,c0),概率为1δ2exp(cc−02γlogn),我们有2d+B.B.B.普≤O.1µlogδ+σ。日志1个月,B≤O.µlog。1+σ。log.1ΣΣ和最小值B≥Oµ2+(1−γ)σ2,忽略n,d和R的相关性。下界为B1,B2,B3。接下来,我们推导出我是。 由于σA是上界的,因此存在一个约束,IJ其中c,c0为正常数,O()抑制了n,d和R的依赖性.指数随机变量然后,我们可以应用Vershynin2010中的推论5.17,存在c>0,对于η>0:上述结果表明,算子范数和l2缩放ReLU后令牌矩阵每行的范数- 是的布吕德22个2.与其元素平均值和标准偏差成比例P.Bij−d(µ+σ)。≥ηd缩放的ReLU)享有类似的属性。作为ReLU≤2次暴露−cminc2σ4,c σ2d.截断其输入的负部分,则µB≥µA。 如果0我们可以在B和A中保持相同的方差水平,min <$B<$和<$B<$以O(μ+σ)的顺序变化,然后我们设η=γσ2,对于某个γ (0,c),使得μ2+(1−γ)σ2>0。将Bi2=dB2与abovee结合起来根据不等式(6),余弦相似性变为从A到B都比较小。不平等,我们有P.B−c γ2c−2d。定理2的证明:上界为B-B-OOP。记E∈Rn×d为ma-我0通过联合约束,我们有填充1,X=We hav eE[X]=0,minBi≥d(µ2+(1−γ)σ2)=O(µ2+(1−γ)σ2)X 通过矩阵iBernstein不等式(例如,Tropp2012中的定理1.6),概率为1−2exp(−c γ2c−02d+logn)。通过设置δ=(n+d)exp,我们可以表示-δ我J1δδ. Σ.δ0+v:mala2255获取更多论文.- 是的−t2/2ΩσP哪里X≤(n+d)exp2Max+Rmax t/3、(七)实验在本节中,我们进行了大量的实验,以验证2Max=最大{E[XXT]op,E[XT X]op}conv-stem和scaled ReLU的效果。ImageNet- 1k(Russakovskyet al. 2015),用于标准培训=max{nσ2,dσ2}≤(n+d)σ2和验证。它包含130万张训练RMax ≥Xop=(βR + βα + μ)nd.集和验证集中的50 K图像,覆盖1000 ob-项目类。图像被裁剪为224×224。σ+v:mala2255获取更多论文mance将大幅下降; DINO和VOLO也有同样的趋势。对于patchify-stem,在添加ReLU或缩放ReLU之后,它可以通过支持大的学习率来稳定训练。此外,缩放的ReLU具有更快的收敛速度。对于DeiT-Small,前1个准确度分别为18.1 vs 10.6(第5个时期)、53.6 vs 46.8(第20个时期)、63.8 vs 60.9(第50个时期)(对于conv-stem和patchify-stem)。Scaled ReLU使代币为了分析缩放的ReLU多样化令牌的属性,我们采用如公式5中定义的令牌之间的定量度量逐层余弦相似性。我们把Conv-stem看作是ViT-stem中的一层,把位置嵌入看作是ViT-stem中的另一层,ViTc为14(加上12个Transformer编码器层)。这一层-表1:使用不同学习率(lr)、优化器、预热时期(wm-epoch)的conv-stemconv-stem的效果我们以DeiT-Small(Touvron等人,2020)作为基线,并将patchify-stem替换为conv-stem。对于8个GPU,批大小为1024,结果如表1所示。从表中我们可以看到,基于conv-stem的模型能够适应更不稳定的训练环境:图1中示出了标记的明智余弦相似性。从图中我们可以看到,位置嵌入可以在很大程度上使令牌多样化,因为它对每个令牌进行了特定的位置编码。与基线相比(1Proj)(Touvron et al. 2020),完整的conv-stem(3Conv+3BN+3ReLU+1 Proj)可以显著地使较低层的令牌多样化,以学习更好的特征表示,并在较高层更好地收敛,以进行特定于任务的特征学习。有趣的是, 3Conv+3ReLU+1Proj和3Conv+1Proj+warmup20 具有类似的趋势,这反映了ReLU可以稳定对于patchify-stem,ViTp不能支持更大的学习率更长时间的热身训练。(1 e-3)使用AdamW优化器,但仅使用SAM优化器,这反映了ViTp对学习速率和优化器敏感。通过添加conv-stem,ViTc可以使用AdamW和SAM优化器来支持更大的学习率。有趣的是,使用lr= 1 e-3和AdamW优化器,ViTc达到了81.9 top-1的有了conv-stem,SAM不再比 AdamW 更 强 大 , 这 与 ( Chen , Hsieh , and Gong2021)中的结论不同。 在添加conv- stem之后,它仍然需要热身,但5个epoch就足够了,更长的热身训练并不能带来任何好处。缩放ReLU在conv-stem中的效果我们采用了三种视觉Transformer架构,包括监督和自监督方法,来评估0。70。60。50。40。30。2二、五点五0第七章五点十分012. 5层深度评估用于训练ViT的缩放ReLU的值,即DeiT(Touvron等人,2020),DINO(Caron等人,2021)和VOLO(Yuan等人,2021 c)。对于DeiT和VOLO,我们遵循官方实施和训练设置,仅修改表2头部列出的参数;对于DINO,我们遵循100 epoch的训练设置,并将线性评估结果显示为top-1精度。其结果示于表2。从表中我们可以看到,缩放的ReLU(BN+ReLU)对于稳定的训练和提高性能都起着非常重要的作用。具体来说,对于AdamW和SAM优化器,在大多数情况下,如果没有ReLU,训练将在5个预热时间内崩溃;增加预热时间将增加训练的稳定性,结果略好;使用缩放的ReLU,它可以在稳定训练模式下大大提高最终性能。完整的conv-stem大大提高了DeiT-Small的性能,与基线相比提高了2.1%,但是通过删除ReLU或缩放ReLU,性能图1:DeiT的令牌的逐层余弦相似性小了步幅对conv-stem根据这项工作(Xiao et al.2021),conv-stem的步幅对最终性能很重要。我们还在DeiT-Small的VOLOconv-stem的背景下研究了这个问题。我们保持内核大小不变,只调整步幅及其相应的填充。除非另有说明,否则默认预热时间为5。结果示于表3中。从表中可以看出,平均步幅(2,2,2,2)并不优于(2,1,1,8),也不能稳定训练。迁移学习:Object ReID在本节中,我们将ImageNet-1 k上的DINO-S/16(100epoch)转移到对象ReID,以进一步演示conv-stem的效Avg.余弦相似度1Proj(基线)3Conv+3BN+3ReLU+1Proj3Conv+3ReLU+1Proj3Conv+1Proj+预热20模型LR优化器wm时代Top-1访问ViTpDeiT-小型5e-4AdamW579.81e-3AdamW5坠毁1e-3AdamW2080.05e-4山姆579.91e-3山姆579.61e-4山姆577.8ViTcDeiT-小型5e-4AdamW581.61e-3AdamW581.91e-3AdamW2081.71e-3AdamW0坠毁5e-4山姆581.51e-3山姆581.71e-4山姆579.1+v:mala2255获取更多论文果。我们对DINO-S/16进行了微调,+v:mala2255获取更多论文模型LR优化器wm时代conv-stem组件步幅Top-1访问DeiT-Small1e-3AdamW53Conv+3BN+3ReLU+1Proj(二,一,一,八)81.91e-3AdamW53Conv+3BN+1Proj(二,一,一,八)坠毁1e-3AdamW53Conv+3ReLU+1Proj(二,一,一,八)81.51e-3AdamW53Conv+1Proj(二,一,一,八)坠毁1e-3AdamW203Conv+1Proj(二,一,一,八)80.01e-3AdamW53Conv+1Proj+1ReLU(二,一,一,八)79.91e-3AdamW51Proj+1BN+1ReLU(十六)79.81e-3AdamW51Proj+1ReLU(十六)79.51e-3AdamW51项目(十六)坠毁5e-4AdamW51项目(基线)(十六)79.81e-3山姆53Conv+3BN+3ReLU+1Proj(二,一,一,八)81.71e-3山姆53Conv+3BN+1Proj(二,一,一,八)80.21e-3山姆53Conv+3ReLU+1Proj(二,一,一,八)80.61e-3山姆53Conv+1Proj(二,一,一,八)坠毁1e-3山姆203Conv+1Proj(二,一,一,八)80.41e-3山姆53Conv+1Proj+1ReLU(二,一,一,八)80.3DINO-S/16100 epoch5e-4AdamW103Conv+3BN+3ReLU+1Proj(二,一,一,八)76.05e-4AdamW103Conv+3BN+1Proj(二,一,一,八)73.45e-4AdamW103Conv+3ReLU+1Proj(二,一,一,八)74.85e-4AdamW103Conv+1Proj(二,一,一,八)74.15e-4AdamW101Proj+1ReLU(十六)73.65e-4AdamW101Proj+1BN+1ReLU(十六)73.35e-4AdamW101项目(基线)(十六)73.61.6e-3AdamW203Conv+3BN+3ReLU+1Proj(二、84.1+v:mala2255获取更多论文VOLO-d1-224一、一、四)1.6e-3AdamW203Conv+3BN+1Proj(二、一、一、四)83.61.6e-3AdamW203Conv+3ReLU+1Proj(二、一、一、四)84.01.6e-3AdamW203Conv+1Proj(二、一、一、四)坠毁1.6e-3AdamW201项目883.41.6e-3AdamW201Proj+1ReLU883.41.6e-3AdamW201Proj+1BN+1ReLU883.5表2:使用三种方法在不同设置下缩放ReLU的效果conv-stem组件步幅top-1访问3Conv+3BN+3ReLU+1Proj(二,一,一,八)81.93Conv+3BN+3ReLU+1Proj(二,二,二,二)81.03Conv+1Proj(二,一,一,八)坠毁3Conv+1Proj(二,二,二,二)坠毁3Conv+1Proj(wm-epoch=20)(二,一,一,八)80.03Conv+1Proj(wm-epoch=20)(二,二,二,二)79.73Conv+1Proj+1ReLU(二,一,一,八)79.93Conv+1Proj+1ReLU(二,二,二,二)79.9表3:DeiT-Small的conv-stem中步幅的影响表 2 基 于 Market1501 ( Zheng et al.2015 ) 和 MSMT17(Wei et al.2018)数据集。我们遵循基线(He etal.2021 ) , 并 按 照 标 准 评 估 方 案 报 告 平 均 精 密 度(mAP)和秩-1准确度。所有模型都使用基线学习率(1.6e- 3)和更大的学习率(5e-2)进行训练。 结果示于表4中。从表中我们可以看到,完整的conv-stem不仅实现了最佳性能,而且支持大学习率和小学习率训练。如果没有ReLU或BN+ReLU,在大多数情况下,学习率高的机器会崩溃有趣的是,DINO的微调对学习率很敏感,较小的学习率将获得更好的性能。Transformer编码器中的缩放ReLU/GELU在 Transformer 编 码 器 层 中 , 前 馈 层 ( ffn ) 采 用LayerNorm+GELU块,并且在本节中,我们使用DeiT-Small和VOLO-d1-224来研究该设计,使用表2中的最佳性能的训练参数。研究ReLU和GELU的动机是为了表明GELU是否优于ReLU进行conv-stem设计,因为GELU在transformer编码器中取得了比ReLU更好的结果。我们首先删除ffn中的LayerNorm层然后,我们将GELU替换 为 RELU , 性 能 下 降 很 大 , 这 反 映 了 GELU 优 于ReLU 。 接 下 来 , 我 们 在 conv-stem 中 用 GELU 替 换ReLU,性能下降了一点,证明ReLU比GELU更好。最后,我们通过用Conv1D+BN1D+GELU替换fc+act块来重写ffn中的MLP实现(Conv1D等于fc,完整实现在算法2的补充材料中显示),并且性能下降,特别是对于VOLO。这可能会证实NFNet(Brock)的结论+v:mala2255获取更多论文等人2021),批量归一化限制了极端性能,使网络次优。所有结果见表5。conv-stem组件LRMarket1501地图 R-1MSMT17mAP R-13Conv+3BN+3ReLU+1Proj3Conv+3BN+1Proj3Conv+3ReLU+1Proj3Conv+1Proj1Proj+1ReLU1Proj+1BN+1ReLU1项目(基线)1.6e-384.3 93.583.6 92.981.7 91.983.0 92.784.2 93.184.1 92.884.1 93.156.3 七十八点七55.1 七十七点八51.5 七十五点二52.1 七十四点零53.6 七十五点五55.7 七十七点五54.9 七十六点八3Conv+3BN+3ReLU+1Proj3Conv+3BN+1Proj3Conv+3ReLU+1Proj3Conv+1Proj1Proj+1ReLU1Proj+1BN+1ReLU1项目(基线)5e-276.8 89.748.5 72.1坠毁撞车69.5 86.177.6 90.636.1 36.046.2 八十八点六坠毁表4:不同组分的比较基于DINO的conv-stem用于微调ReID任务。自我监督+监督训练为了进一步研究ViT的训练,我们在ImageNet-1 k上采用 DINO 自 监 督 预 训 练 ViT-Small 模 型 ( Caronetal.2021),并使用它来初始化ViT-Small模型,以使用完整标签在ImageNet-1 k上进行微调。结果示于表6中。从该表中可以看出,使用自监督预训练模型进行初始化,使用SAM优化器的ViTp达到81.6 top-1准确度,比基线高1.8个百分点然而,根据(Newell andDeng2020)的分析,对于像Imagenet-1 k数据集这样的大型标记训练数据,两阶段训练策略不会有太大贡献(低0.5%)。通过加入conv-stem,ViTc的峰值性能可达81.9,高于两阶段训练,反映了以往ViTs模型的训练效果还很差。模型设计Top-1访问DeiT-Smallc在ffn坠毁GELU→ReLU inffn80.3(1.6↓)ReLU→GELU inconv-stem81.7(0.2↓)MLP→Conv1D+BN+GELU81.7(0.2↓)MLP→Conv1D+GELU82.0(0.1↑)VOLO-d1c在ffn坠毁GELU→ReLU inffn83.5(0.6↓)ReLU→GELU inconv-stem84.0(0.1↓)MLP→Conv1D+BN+GELU83.2(0.9↓)MLP→Conv1D+GELU84.0(0.1↓)表5:使用缩放的ReLU/GELU的不同设计之间的比较。缩放数据集训练为了验证以前的ViT没有得到很好的训练,我们采用了DINO预训练的ViT-Small模型(Caron+v:mala2255获取更多论文模型LR优化器wm时代Top-1访问DeiT-SmallpTST1e-4AdamW581.25e-4AdamW581.31e-3AdamW580.11e-4山姆581.65e-4山姆581.11e-3山姆580.1DeiT-SmallcOST1e-3AdamW581.91e-3山姆581.7表6:ImageNet-1 k上两阶段训练(TST,自我监督+监督训练)和仅监督训练(OST)之间的比较等人2021)在ImageNet-1 k上初始化ViT-Small模型,并 使 用 包 含 1000 个 类 的 完 整 标 签 的 一 部 分 在ImageNet-1 k 上 进 行 微 调 。 我 们 采 用 了 原 始 的patchify-stem和SAM优化器进行这项调查。结果示于表7中。 可以看出,即使使用自监督预训练模型进行初始化,仅使用ImageNet-1 k数据的10%进行训练,也只能达到67.8%的准确率,远低于使用完整数据的线性分类准确率(77.0%)(Caron et al.2021)。随着数据量的增加,性能得到了明显的提高,并且在数据量方面没有看到任何饱和这种性能在一定程度上证明了ViT在拟合数据方面的强大功能,而目前在ImageNet-1 k上训练的ViT模型还不足以达到其极端性能。模型LR优化器数据大小Top-1访问DeiT-SmallpTST1e-4山姆百分之十67.81e-4山姆百分之二十73.51e-4山姆百分之三十76.01e-4山姆百分之四十77.61e-4山姆百分之五十79.01e-4山姆百分之六十79.81e-4山姆百分之七十80.41e-4山姆百分之八十80.91e-4山姆百分之九十81.41e-4山姆百分百81.6表7:ImageNet-1 k的不同部分在两阶段训练(TST,自我监督+监
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功