缩放的ReLU提高VisionTransformers训练稳定性和性能

24 浏览量更新于2023-12-01 收藏 640KB PDF 举报

阿里巴巴集团

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文缩放的ReLU对训练Vision Transformers很Pichao Wang*，Xue Wang*，Hao Luo，Jingkai Zhou，Zhipeng Zhou，Fan Wang，Hao Li，Rong Jin阿里巴巴集团{pichao.wang，xue.w}@ alibaba-inc.com{michuan.lh，zhoujingkai.zjk，yuer.zzp，fan.w，lihao.lh，jinrong.jr}@ alibaba-inc.com摘要视觉变换器（ViTs）一直是卷积神经网络（CNN）的替代设计范式。然而，ViTs的训练比CNN困难得多，因为它对训练参数敏感，例如学习率，优化器和预热时期。在（Xiao et al.2021）中对训练困难的原因进行了经验分析，作者推测问题在于ViT模型的补丁茎在本文中，我们进一步研究了这个问题，并扩展了上述结论：只有早期的卷积对稳定训练没有帮助，但卷积干（conv-stem）中的缩放ReLU操作很重要。我们从理论上和经验上都验证了，conv-stem中的缩放ReLU不仅提高了训练稳定性，而且还增加了补丁令牌的多样性，从而通过添加少量参数和触发器来大幅提升峰值性能。此外，进行了大量的实验，以证明以前的ViTs远没有得到很好的训练，进一步表明ViTs有很大的潜力成为CNN的更好的替代品介绍视觉识别一直由卷积神经网络（CNN）主导（He et al.2016;Howard 等人 2017;Zhangetal.2018;TanandLe2019;Li et al.2021 a;Zhou et al.2021 c）多年来，有效地施加了空间局部性和翻译等价性。最近，流行的视觉转换器（ViT）被认为是一种替代性设计范式，其目标是用全局自注意力取代CNN中固有的对局部处理的感应偏差（ Dosovitskiy 等人， 2020;Touvron 等人，2020;Wang 等人， 2021 b;Fan 等人， 2022 b ）。 2021年）。尽管ViT对于完整的数据驱动训练具有吸引人的潜力与CNN相比，ViT对优化器的选择、数据扩充、学习率、训练时间表长度和预热时间敏感（Touvron etal.2020 ， 2021;Chen ， Hsieh ， and Gong2021;Xiao etal.2021）。训练困难的原因在（Xiao et al.2021）中进行了实证分析，作者推测问题在于*前两位作者贡献相同。Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.ViT模型提出，早期的回旋有助于变形者看得更清楚.最近的工作（ Graham et al.2021;Guoet al.2021;Yuan etal.2021 c ）也引入了 conv-stem 来提高训练视觉Transformer的鲁棒性，但他们缺乏对这种conv-stem工作原理的深入分析。在本文中，我们从理论和经验上验证了Conv-stem中的缩放ReLU对于健壮的ViTs训练至关重要。具体来说，缩放的ReLU不仅提高了训练的稳定性，而且增加了多样性的补丁令牌，从而提高了最终的识别性能的一个大的利润。此外，进行了广泛的实验以进一步揭示conv- stem的影响，并进行了以下有趣的观察：首先，在将conv-stem添加到ViT之后，SAM优化器（Foret et al.2020）不再像（Chen，Hsieh和Gong 2021）中报告的那样强大 ; 其次，使用 conv-stem ，监督 ViT（Touvronet al. 2020）优于其相应的自监督训练模型（Caron et al. 2021）加上Imagenet-1k上的监督微调;第三，使用conv-stem，受过更好训练的ViTs可以提高性能，下游任务的管理所有这些观察结果都反映出，以前的ViTs远没有得到很好的训练，ViTs可能成为CNN的更好替代品。相关工作卷积神经网络（CNN）。自从AlexNet在ImageNet上的突破性表现（Krizhevsky，Sutskever，andHinton2012）以来，CNN已经成为计算机视觉领域的主导架构。遵循通过更深入地串联堆叠低到高卷积的主要设计规则，提出了许多流行的架构，例如VGG（Simonyan和Zisserman2014），GoogleNet（Szegedyet al. 2015）和ResNet（He et al. 2016年）。为了进一步利用视觉表示的能力，已经提出了许多创新，例如ResNeXt（Xieet al. 2017），SENet（Hu，Shen和Sun2018），EfficientNet（Tan和Le2019）和NFNet（Brocket al. 2021年）。对于大多数CNN，Conv+BN+ReLU成为标准块。在本文中，我们调查这个基本块训练视觉变压器作为一个轻量级的干。Vision Transformers（ViTs）。以来 Dosovitskiy 等人（Dosovitskiy等人，2020年）首次成功地将变换器用于图像分类，将图像划分为非重叠的小块，许多ViT变体都是亲arXiv：2109.03810v2 [cs.CV] 2022年1月+v：mala2255获取更多论文·∈i，c.ΣβCBi=1 Xi，c−µcei，c我我（ Wang et al.2021 b;Han et al. 2021;Chen 等人 2021a;Ranftl ， Bochkovskiy ， and Koltun2021;Liu et al.2021;Chen，Fan，andPanda2021;Zhangetal.2021a;Xieet al.2021;Zhang et al.2021b;Jonnalagadda，Wang ， andEckstein2021;Wangetal.2021d;Fangetal.2021;Huanget al. 2021;Gao等人2021;Rao等人2021;Yu等人2021;Zhou et al.2021b;El-Nouby et al.2021;Wang etal. 2021 c;Xu等人，2021）。在本节中，我们主要回顾了与培训ViTs密切相关的几项工作具体而言，DeiT（Touvron et al. 2020）采用了几种训练技术（例如，截断的正常初始化、强数据增强和较小的权重衰减），并使用蒸馏将ViT扩展到数据高效版本; T2 TViT（Yuanet al. 2021b）、CeiT（Yuanet al. 2021a）和CvT（Wuet al. 2021）尝试通过引入卷积运算生成补丁序列来处理刚性补丁划分，以促进训练; DeepViT（Zhou et al.2021 a），CaiT （ Xi-vronet al.2021 ）和PatchViT（Gong et al.2021）研究了不稳定的训练问题，并提出了用于稳定训练的重新注意，重新缩放和抗过平滑技术 ;为了加速训练的收敛， ConViT（ d'Ascoli et al. 2021 ），PiT（ Heo et al. 2021 ）、 CeiT（Yuan etal. 2021b）和Visformer（Chen et al.2021 b）引入卷积偏置来加速训练; LV-ViT（Jiang et al. 2021）采用了几种技术，包括混合令牌和令牌标记，以更好地训练和特征生成; SAM优化器（F oretet al. 2020）被采用（Chen，Hsieh和Gong2021），以更好地训练ViT，而无需强大的数据增强; KVT（Wang et al.2021 a）引入了k-NN注意力来过滤掉不相关的令牌，以加速训练;在几项工作中采用了conv-stem（Graham et al. 2021;Xiaoet al.2021;Guo et al.2021;Yuan et al.2021 c），以提高训练ViT的鲁棒性在本文中，我们调查的ViTs的培训，通过使用的conv-stem，并证明了conv-stem的视觉变换器的背景下，从理论上和经验上的几个属性。Vision Transformer架构在本节中，我们首先回顾视觉Transformer，即ViT（Dosovitskiy et al. 2020年），然后描述我们工作中使用的conv-stemViT. ViT首先将输入图像划分为不重叠的pXp块，并使用学习的权重矩阵将每个块线性投影到d维特征向量conv-stem比patchify-stem稍大。例如，DeiT-Small的参数从22 M增加到23 M，但是增加非常小，因为最后一个线性投影层中的核尺寸从斑块化茎中的16*16减小到对流茎中的 8*8 。我们采用 VOLO conv-stem 而不是（Xiao et al. 2021）是我们希望保持编码器的层与ViT中相同，但不像（Xiao et al. 2021年）。ViTp和ViTc。为了便于比较，使用patchify-stem的原始ViT模型称为ViTp。为了形成一个带有conv-stem的ViT模型，我们只需将pathify-stem替换为conv-stem，其他所有内容保持不变，我们将此ViT称为ViTc。在下面的章节中，我们从理论和经验上验证了ViTc在稳定训练和多样化补丁令牌方面优于ViTp，这是由于缩放的ReLU结构。缩放的ReLU结构在本节中，我们首先介绍Scaled ReLU结构，然后分析Scaled ReLU如何分别稳定训练和增强令牌多样化。对于任何输入x，我们定义了缩放的ReLU结构，其中缩放参数α，β，ReLUα ，β（）用于简写，如下所示：ReLU α，β（x）= β max {x + α，0}。缩放的ReLU结构可以通过将ReLU与包含可训练缩放参数的归一化层（例如Batchnorm或Lay- ernorm）组合来实现，并且可以将Conv-stem中的Batchnorm + ReLU视为缩放的ReLU的变量。直观地说，ReLU层可能会切掉部分输入数据，使数据集中在更小的范围内。有必要将其扩展到与其输入类似的数据范围，这有助于稳定训练并保持有希望的表达能力。为了简单起见，我们将在本文中关注缩放的ReLU，我们的分析可以扩展到常用的规范化层的情况。训练稳定化假设基于Batchnorm的定义，最后一次转换的输出X典型的补丁和图像大小分别为p= 16和224x224。补丁嵌入以及添加的位置嵌入和级联分类标记是i，cXi，c−µc e被馈送到标准Transformer编码器（Vaswaniet al.2017年），由一个分类头。类似于（XiaoX输出= ReLU输出。ΣBi=1 Xi，c−µceβc+αce等人2021），我们将ViT在变换器块之前的部分命名为ViT-stem，并将线性投影=ReLUαc ，βcXi,c−µce（stride-p，pxp kernel）作为patchify-stem。Conv-stem。除特别指明外，βcBi=1α˜1999年i，c-µce2来自VOLO的conv-stem（Yuanet al. 2021年c）。完整的Conv-=ReLUc，βc（Xi，c），（1）主干由3Conv+3BN+3ReLU+1Proj块组成，很好详细配置见算法其中，X=i，c=Xi，c−µce，µc是Xi，c的平均值1、补充材料。的参数和FLOP将通道上的Xout指定为Xout，并将其整形为Xin∈核大小和步长分别为（7，3，3，8）和（2，1，1，8），在一个批次中，B是批次大小。接下来，我们来解释一下-+v：mala2255获取更多论文××=[CC√我√]=XiWReLUαc，β（Xi，c）Wtranss，cReLUαc，βc（X i，c）Wtranss，cReLUαc，β（Xi，c）Wtrans，cβ-β-CCC222CCHWC学习引入了显著更少的模型偏差（例如，Loh中显示出明显更好的维度效率，HWc=1transc1CCCC信道并随时间自适应地改变。对于在αc和/或βc中具有较大幅度的通道，经缩放的令牌具有CC（α2+β2）+β-Wtrans-β2n（n−1）i/=jBjβCCCRB×n×d，其中n是到k en（patch）的长度，d是ReLUα，β（X∈i，c）在所有通道上的长度。如果没有基因缺失Cc嵌入维数最后，我们计算Q i，Ki，Vi作为erality，我们可以找到一个函数g来重写f函数为：随后：.，，[Q i K i V i]= X in[W Q W K W V .在反式fReLUαc，βc（Xi，c）.，，Wtranss ，开始自我关注。为了说明缩放的ReLU如何稳定训练，我们重新排列Wconv-stem（即，βCtranscC以匹配我们考虑一个特殊的情况，我们冻结所有参数，除了缩放参数α c，β c（c = 1，2，...，C在最后一个batchnorm层，W Q、W K和W V在第一个Transformer块。注意，Q、K和V是通过Xin和Wtranss的乘积计算的。为了保持Q、K和V、Wtranss的相同量值将更接近于0CHW而不是nd）。接下来，我们可以重新缩放ηc>0的参数如下：βc=ηcβc，αc=ηcαc，Wt rans，c=ηc−1Wtrans，c，这意味着如果Xin以较大的αc和βc参数缩放换句换句话说，缩放的ReLU可以给Wtransm一个隐式的.，，βC关于其缩放参数的正则化。再-结果总结在下面的定理1中。..˜˜ΣΣC定理1设αc，βc为标度ReLU中的参数最后一个conv-stem块中的结构，c=1，2，...，C此外，利用（a2+b2）+c2≥2的条件|C|A2+B2和Wtrans.注意力参数是人能证明在第一个Transformer块中设置如果我们冻结所有其他参数，并在OP中引入L2权重衰减（α最优化问题是一个最优化的问题。加权l1惩罚学习Wtrans.此外，让c c Fc=1CWtranss，c是与通道c相关联的参数，并且=α2+β2+Wrans，c2对应于Wα2+β2+α2。transc 是正确的，C cc=1Σ. ηα+η β在高维统计中，众所周知，l惩罚C1=2Wα2+β2，（3）Wainwright2015）。此外，正则化强度在O（α2 +β2）的数量级上随通道不同而不同，其中等式（2）成立，.ηC=Wtranss，c C.（四）α2+β2更大的分歧。为了使训练处理c c更稳定，相应参数的更新Wtranss也需要更加小心（使用更大的处罚）。它因此，（3）的右手大小变为Wtransc上的l1惩罚，权重为α2+β2，即，WQ，WK将缩放的ReLU结构与直接使用l1权重在优化器中直接衰减定理11的证明我们将损失函数表示为：低：n和WV在具有不同强度的输入声道上被Q注1. 定理1的分析还能够组合ReLU + Layernorm或Batchnorm + ReLU最小值1μLf（{ReLU α（X））}，W），yC+ MLP结构。在某些类型的Transformer模型中，n i=1.CQCβc，βci，c特兰斯岛ΣF、代币将首先通过Layernorm或通过MLP在进入自我注意之前。通过类似的肛门-我们还可以证明自适应隐式l1正则化c=1其中KL（·）是KL-偏差，yi是第i个样本的标签，f（·）表示预测函数，λ是12个权重衰减的衰减常数，{ReLUαc，βc（X∈i，c）}是集合1隐式正则化的类似分析过程也在（Ergenet al.2021;Neyshabur，Tomioka和Sre-代币多样化接下来，我们通过consin相似性展示了缩放的ReLU的令牌多样化能力。（Gong et al. 余弦相似性度量被定义为：不bro2014;Savarese et al. 2019年）的报告。CosSim（B）= 1μmBiBj、（五）=g、G=g.该定理显示了一个隐式l21 atten正则化≥2Wtrans，c1C从缩放的ReLU结构中提取权重。在现代（二更）c=1+λ在这两种情况下。+v：mala2255获取更多论文−op√|B|.ǁ· ǁǁ ǁ∈ − − −·我σ2的lnorm.注意，如果我们可以确保为n（n 1）b2最小i/=j.1日志2.n+d. n + dB3E[Bi，j]和σ2=Var[B i，j]对于所有i，j。对于δ>0，op我我2常数c0使得B2-µ2−σ2以c0σ2sub为中心是的。给定恒等变换（即，B=A）是缩放的ReLU的特殊情况，矩阵A（之前的令牌矩阵....ηΣΣ我我2opJIJ−−.ΣOPδδ∈0+R2+2σ2日志MaxJη2其中，B表示矩阵B的第i个r，并且2min发送通过不.− t2/2如：Maxt/3+RMaxi= 1，2，.，n，则CosSim（B）又将是上界的通过1t=RMaxlog. n + dCosSim（B）≤1BBT3δ1吨吨2吨min9Maxδmaxδ=n（n−1）b2.Be BB e−ΣBi我2≤ Rmaxlog . n + d+ .2σ2日志 . n + d，≤n−121min、（六）其中最后一个不等式使用了以下事实：|一|+的哪里op表示矩阵算子范数。基于（6），只要bop和bmin同阶变化时，余弦相似性降低. 在下面的定理2中，我们分析了Bop和miniB i的阶。则不等式（7）意味着以下结果以概率1δ成立：Xn+d+。2σ2log。n+d。定理2设D为零均值概率分布矩阵A∈Rn×d是一个矩阵，执行部分第3最大δMaxδ（八）独立于D绘制，且ΔA≤R最后与接下来，将公式（8）与以下事实结合起来：R> 0。此外，我们表示B = ReLU α，β（A），μ B=而E=nd，一个有Bγ（0，c0），概率为1δ2exp（cc−02γlogn），我们有2d+B.B.B.普≤O.1µlogδ+σ。日志1个月，B≤O.µlog。1+σ。log.1ΣΣ和最小值B≥Oµ2+（1−γ）σ2，忽略n，d和R的相关性。下界为B1，B2，B3。接下来，我们推导出我是。由于σA是上界的，因此存在一个约束，IJ其中c，c0为正常数，O（）抑制了n，d和R的依赖性.指数随机变量然后，我们可以应用Vershynin2010中的推论5.17，存在c>0，对于η>0：上述结果表明，算子范数和l2缩放ReLU后令牌矩阵每行的范数- 是的布吕德22个2.与其元素平均值和标准偏差成比例P.Bij−d（µ+σ）。≥ηd缩放的ReLU）享有类似的属性。作为ReLU≤2次暴露−cminc2σ4，c σ2d.截断其输入的负部分，则µB≥µA。如果0我们可以在B和A中保持相同的方差水平，min <$B<$和<$B<$以O（μ+σ）的顺序变化，然后我们设η=γσ2，对于某个γ （0，c），使得μ2+（1−γ）σ2>0。将Bi2=dB2与abovee结合起来根据不等式（6），余弦相似性变为从A到B都比较小。不平等，我们有P.B−c γ2c−2d。定理2的证明：上界为B-B-OOP。记E∈Rn×d为ma-我0通过联合约束，我们有填充1，X=We hav eE[X]=0，minBi≥d（µ2+（1−γ）σ2）=O（µ2+（1−γ）σ2）X 通过矩阵iBernstein不等式（例如，Tropp2012中的定理1.6），概率为1−2exp（−c γ2c−02d+logn）。通过设置δ=（n+d）exp，我们可以表示-δ我J1δδ. Σ.δ0+v：mala2255获取更多论文.- 是的−t2/2ΩσP哪里X≤（n+d）exp2Max+Rmax t/3、（七）实验在本节中，我们进行了大量的实验，以验证2Max=最大{E[XXT]op，E[XT X]op}conv-stem和scaled ReLU的效果。ImageNet- 1k（Russakovskyet al. 2015），用于标准培训=max{nσ2，dσ2}≤（n+d）σ2和验证。它包含130万张训练RMax ≥Xop=（βR + βα + μ）nd.集和验证集中的50 K图像，覆盖1000 ob-项目类。图像被裁剪为224×224。σ+v：mala2255获取更多论文mance将大幅下降; DINO和VOLO也有同样的趋势。对于patchify-stem，在添加ReLU或缩放ReLU之后，它可以通过支持大的学习率来稳定训练。此外，缩放的ReLU具有更快的收敛速度。对于DeiT-Small，前1个准确度分别为18.1 vs 10.6（第5个时期）、53.6 vs 46.8（第20个时期）、63.8 vs 60.9（第50个时期）（对于conv-stem和patchify-stem）。Scaled ReLU使代币为了分析缩放的ReLU多样化令牌的属性，我们采用如公式5中定义的令牌之间的定量度量逐层余弦相似性。我们把Conv-stem看作是ViT-stem中的一层，把位置嵌入看作是ViT-stem中的另一层，ViTc为14（加上12个Transformer编码器层）。这一层-表1：使用不同学习率（lr）、优化器、预热时期（wm-epoch）的conv-stemconv-stem的效果我们以DeiT-Small（Touvron等人，2020）作为基线，并将patchify-stem替换为conv-stem。对于8个GPU，批大小为1024，结果如表1所示。从表中我们可以看到，基于conv-stem的模型能够适应更不稳定的训练环境：图1中示出了标记的明智余弦相似性。从图中我们可以看到，位置嵌入可以在很大程度上使令牌多样化，因为它对每个令牌进行了特定的位置编码。与基线相比（1Proj）（Touvron et al. 2020），完整的conv-stem（3Conv+3BN+3ReLU+1 Proj）可以显著地使较低层的令牌多样化，以学习更好的特征表示，并在较高层更好地收敛，以进行特定于任务的特征学习。有趣的是， 3Conv+3ReLU+1Proj和3Conv+1Proj+warmup20 具有类似的趋势，这反映了ReLU可以稳定对于patchify-stem，ViTp不能支持更大的学习率更长时间的热身训练。（1 e-3）使用AdamW优化器，但仅使用SAM优化器，这反映了ViTp对学习速率和优化器敏感。通过添加conv-stem，ViTc可以使用AdamW和SAM优化器来支持更大的学习率。有趣的是，使用lr= 1 e-3和AdamW优化器，ViTc达到了81.9 top-1的有了conv-stem，SAM不再比 AdamW 更强大，这与（ Chen ， Hsieh ， and Gong2021）中的结论不同。在添加conv- stem之后，它仍然需要热身，但5个epoch就足够了，更长的热身训练并不能带来任何好处。缩放ReLU在conv-stem中的效果我们采用了三种视觉Transformer架构，包括监督和自监督方法，来评估0。70。60。50。40。30。2二、五点五0第七章五点十分012. 5层深度评估用于训练ViT的缩放ReLU的值，即DeiT（Touvron等人，2020），DINO（Caron等人，2021）和VOLO（Yuan等人，2021 c）。对于DeiT和VOLO，我们遵循官方实施和训练设置，仅修改表2头部列出的参数;对于DINO，我们遵循100 epoch的训练设置，并将线性评估结果显示为top-1精度。其结果示于表2。从表中我们可以看到，缩放的ReLU（BN+ReLU）对于稳定的训练和提高性能都起着非常重要的作用。具体来说，对于AdamW和SAM优化器，在大多数情况下，如果没有ReLU，训练将在5个预热时间内崩溃;增加预热时间将增加训练的稳定性，结果略好;使用缩放的ReLU，它可以在稳定训练模式下大大提高最终性能。完整的conv-stem大大提高了DeiT-Small的性能，与基线相比提高了2.1%，但是通过删除ReLU或缩放ReLU，性能图1：DeiT的令牌的逐层余弦相似性小了步幅对conv-stem根据这项工作（Xiao et al.2021），conv-stem的步幅对最终性能很重要。我们还在DeiT-Small的VOLOconv-stem的背景下研究了这个问题。我们保持内核大小不变，只调整步幅及其相应的填充。除非另有说明，否则默认预热时间为5。结果示于表3中。从表中可以看出，平均步幅（2，2，2，2）并不优于（2，1，1，8），也不能稳定训练。迁移学习：Object ReID在本节中，我们将ImageNet-1 k上的DINO-S/16（100epoch）转移到对象ReID，以进一步演示conv-stem的效Avg.余弦相似度1Proj（基线）3Conv+3BN+3ReLU+1Proj3Conv+3ReLU+1Proj3Conv+1Proj+预热20模型LR优化器wm时代Top-1访问ViTpDeiT-小型5e-4AdamW579.81e-3AdamW5坠毁1e-3AdamW2080.05e-4山姆579.91e-3山姆579.61e-4山姆577.8ViTcDeiT-小型5e-4AdamW581.61e-3AdamW581.91e-3AdamW2081.71e-3AdamW0坠毁5e-4山姆581.51e-3山姆581.71e-4山姆579.1+v：mala2255获取更多论文果。我们对DINO-S/16进行了微调，+v：mala2255获取更多论文模型LR优化器wm时代conv-stem组件步幅Top-1访问DeiT-Small1e-3AdamW53Conv+3BN+3ReLU+1Proj（二，一，一，八）81.91e-3AdamW53Conv+3BN+1Proj（二，一，一，八）坠毁1e-3AdamW53Conv+3ReLU+1Proj（二，一，一，八）81.51e-3AdamW53Conv+1Proj（二，一，一，八）坠毁1e-3AdamW203Conv+1Proj（二，一，一，八）80.01e-3AdamW53Conv+1Proj+1ReLU（二，一，一，八）79.91e-3AdamW51Proj+1BN+1ReLU（十六）79.81e-3AdamW51Proj+1ReLU（十六）79.51e-3AdamW51项目（十六）坠毁5e-4AdamW51项目（基线）（十六）79.81e-3山姆53Conv+3BN+3ReLU+1Proj（二，一，一，八）81.71e-3山姆53Conv+3BN+1Proj（二，一，一，八）80.21e-3山姆53Conv+3ReLU+1Proj（二，一，一，八）80.61e-3山姆53Conv+1Proj（二，一，一，八）坠毁1e-3山姆203Conv+1Proj（二，一，一，八）80.41e-3山姆53Conv+1Proj+1ReLU（二，一，一，八）80.3DINO-S/16100 epoch5e-4AdamW103Conv+3BN+3ReLU+1Proj（二，一，一，八）76.05e-4AdamW103Conv+3BN+1Proj（二，一，一，八）73.45e-4AdamW103Conv+3ReLU+1Proj（二，一，一，八）74.85e-4AdamW103Conv+1Proj（二，一，一，八）74.15e-4AdamW101Proj+1ReLU（十六）73.65e-4AdamW101Proj+1BN+1ReLU（十六）73.35e-4AdamW101项目（基线）（十六）73.61.6e-3AdamW203Conv+3BN+3ReLU+1Proj（二、84.1+v：mala2255获取更多论文VOLO-d1-224一、一、四）1.6e-3AdamW203Conv+3BN+1Proj（二、一、一、四）83.61.6e-3AdamW203Conv+3ReLU+1Proj（二、一、一、四）84.01.6e-3AdamW203Conv+1Proj（二、一、一、四）坠毁1.6e-3AdamW201项目883.41.6e-3AdamW201Proj+1ReLU883.41.6e-3AdamW201Proj+1BN+1ReLU883.5表2：使用三种方法在不同设置下缩放ReLU的效果conv-stem组件步幅top-1访问3Conv+3BN+3ReLU+1Proj（二，一，一，八）81.93Conv+3BN+3ReLU+1Proj（二，二，二，二）81.03Conv+1Proj（二，一，一，八）坠毁3Conv+1Proj（二，二，二，二）坠毁3Conv+1Proj（wm-epoch=20）（二，一，一，八）80.03Conv+1Proj（wm-epoch=20）（二，二，二，二）79.73Conv+1Proj+1ReLU（二，一，一，八）79.93Conv+1Proj+1ReLU（二，二，二，二）79.9表3：DeiT-Small的conv-stem中步幅的影响表 2 基于 Market1501 （ Zheng et al.2015 ）和 MSMT17（Wei et al.2018）数据集。我们遵循基线（He etal.2021 ），并按照标准评估方案报告平均精密度（mAP）和秩-1准确度。所有模型都使用基线学习率（1.6e- 3）和更大的学习率（5e-2）进行训练。结果示于表4中。从表中我们可以看到，完整的conv-stem不仅实现了最佳性能，而且支持大学习率和小学习率训练。如果没有ReLU或BN+ReLU，在大多数情况下，学习率高的机器会崩溃有趣的是，DINO的微调对学习率很敏感，较小的学习率将获得更好的性能。Transformer编码器中的缩放ReLU/GELU在 Transformer 编码器层中，前馈层（ ffn ）采用LayerNorm+GELU块，并且在本节中，我们使用DeiT-Small和VOLO-d1-224来研究该设计，使用表2中的最佳性能的训练参数。研究ReLU和GELU的动机是为了表明GELU是否优于ReLU进行conv-stem设计，因为GELU在transformer编码器中取得了比ReLU更好的结果。我们首先删除ffn中的LayerNorm层然后，我们将GELU替换为 RELU ，性能下降很大，这反映了 GELU 优于ReLU 。接下来，我们在 conv-stem 中用 GELU 替换ReLU，性能下降了一点，证明ReLU比GELU更好。最后，我们通过用Conv1D+BN1D+GELU替换fc+act块来重写ffn中的MLP实现（Conv1D等于fc，完整实现在算法2的补充材料中显示），并且性能下降，特别是对于VOLO。这可能会证实NFNet（Brock）的结论+v：mala2255获取更多论文等人2021），批量归一化限制了极端性能，使网络次优。所有结果见表5。conv-stem组件LRMarket1501地图 R-1MSMT17mAP R-13Conv+3BN+3ReLU+1Proj3Conv+3BN+1Proj3Conv+3ReLU+1Proj3Conv+1Proj1Proj+1ReLU1Proj+1BN+1ReLU1项目（基线）1.6e-384.3 93.583.6 92.981.7 91.983.0 92.784.2 93.184.1 92.884.1 93.156.3 七十八点七55.1 七十七点八51.5 七十五点二52.1 七十四点零53.6 七十五点五55.7 七十七点五54.9 七十六点八3Conv+3BN+3ReLU+1Proj3Conv+3BN+1Proj3Conv+3ReLU+1Proj3Conv+1Proj1Proj+1ReLU1Proj+1BN+1ReLU1项目（基线）5e-276.8 89.748.5 72.1坠毁撞车69.5 86.177.6 90.636.1 36.046.2 八十八点六坠毁表4：不同组分的比较基于DINO的conv-stem用于微调ReID任务。自我监督+监督训练为了进一步研究ViT的训练，我们在ImageNet-1 k上采用 DINO 自监督预训练 ViT-Small 模型（ Caronetal.2021），并使用它来初始化ViT-Small模型，以使用完整标签在ImageNet-1 k上进行微调。结果示于表6中。从该表中可以看出，使用自监督预训练模型进行初始化，使用SAM优化器的ViTp达到81.6 top-1准确度，比基线高1.8个百分点然而，根据（Newell andDeng2020）的分析，对于像Imagenet-1 k数据集这样的大型标记训练数据，两阶段训练策略不会有太大贡献（低0.5%）。通过加入conv-stem，ViTc的峰值性能可达81.9，高于两阶段训练，反映了以往ViTs模型的训练效果还很差。模型设计Top-1访问DeiT-Smallc在ffn坠毁GELU→ReLU inffn80.3（1.6↓）ReLU→GELU inconv-stem81.7（0.2↓）MLP→Conv1D+BN+GELU81.7（0.2↓）MLP→Conv1D+GELU82.0（0.1↑）VOLO-d1c在ffn坠毁GELU→ReLU inffn83.5（0.6↓）ReLU→GELU inconv-stem84.0（0.1↓）MLP→Conv1D+BN+GELU83.2（0.9↓）MLP→Conv1D+GELU84.0（0.1↓）表5：使用缩放的ReLU/GELU的不同设计之间的比较。缩放数据集训练为了验证以前的ViT没有得到很好的训练，我们采用了DINO预训练的ViT-Small模型（Caron+v：mala2255获取更多论文模型LR优化器wm时代Top-1访问DeiT-SmallpTST1e-4AdamW581.25e-4AdamW581.31e-3AdamW580.11e-4山姆581.65e-4山姆581.11e-3山姆580.1DeiT-SmallcOST1e-3AdamW581.91e-3山姆581.7表6：ImageNet-1 k上两阶段训练（TST，自我监督+监督训练）和仅监督训练（OST）之间的比较等人2021）在ImageNet-1 k上初始化ViT-Small模型，并使用包含 1000 个类的完整标签的一部分在ImageNet-1 k 上进行微调。我们采用了原始的patchify-stem和SAM优化器进行这项调查。结果示于表7中。可以看出，即使使用自监督预训练模型进行初始化，仅使用ImageNet-1 k数据的10%进行训练，也只能达到67.8%的准确率，远低于使用完整数据的线性分类准确率（77.0%）（Caron et al.2021）。随着数据量的增加，性能得到了明显的提高，并且在数据量方面没有看到任何饱和这种性能在一定程度上证明了ViT在拟合数据方面的强大功能，而目前在ImageNet-1 k上训练的ViT模型还不足以达到其极端性能。模型LR优化器数据大小Top-1访问DeiT-SmallpTST1e-4山姆百分之十67.81e-4山姆百分之二十73.51e-4山姆百分之三十76.01e-4山姆百分之四十77.61e-4山姆百分之五十79.01e-4山姆百分之六十79.81e-4山姆百分之七十80.41e-4山姆百分之八十80.91e-4山姆百分之九十81.41e-4山姆百分百81.6表7：ImageNet-1 k的不同部分在两阶段训练（TST，自我监督+监

下载后可阅读完整内容，剩余1页未读，立即下载