无需培训的Transformer架构搜索

191 浏览量更新于2023-10-25 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10894∼∼无需培训的Transformer架构搜索2*Xiangqing Zheng3Ke Li2孙星2田永红4陈杰4，3季荣荣1，3，5，6†1厦门大学信息学院媒体分析与计算实验室、2腾讯优图实验室、3鹏程实验室、4北京大学电子与计算机工程学院、5厦门大学人工智能研究所、6福建省工程研究厦门大学可信人工智能分析与应用研究中心摘要近年来，Vision Transformer（ViT）在多个计算机视觉任务中取得这些进展与体系结构设计高度相关，因此提出Transformer Architecture Search（TAS）来自动搜索更好的ViTs是值得的。然而，根据我们的实验观察，目前的TAS方法是耗时的，并且CNN中现有的零成本代理不能很好地推广到ViT在本文中，我们首次研究了如何在一个无训练的方式进行首先，我们观察到ViTs中的多头自注意（MSA）和多层感知器（MLP）的特性是完全不同的，MSA的突触多样性显著影响其性能。其次，基于观察，我们设计了一个模块化的策略TF-TAS评估和排名ViT架构从两个理论角度：突触多样性和突触显着性，称为DSS指标。通过DSS指标，评价结果与ViT模型的检验精度有很强的相关性。实验结果表明，TF-TAS在性能上与现有的人工或自动设计的ViT架构相比具有很强的竞争力，并且在ViT搜索空间中的搜索效率大大提高：从约24 GPU天提高到小于0.5GPU天。此外，拟议的DSS指标优于现有的尖端零成本方法（例如，TE-评分和NASWOT）。1. 介绍Vision Transformer（ViT）[19，38，43]最近在计算机视觉领域显示出了竞争力，*前两位作者贡献相当。这项工作是周琴琴在腾讯优图实验室实习时完成的。†通讯作者：rrji@xmu.edu.cn.= 0.697ViT架构的DSS指标得分搜索空间方法#参数（男）Top-1累积（%）成本时间(GPU日）超网预训练5.774.724自动成型机+ 进化搜索TF-TAS（我们的）5.975.30.5坑随机搜索4.969.70.5TF-TAS（我们的）4.673.70.5图1.上图：DSS指标的评估结果与各种ViT网络的测试精度正相关下图：现有方法的设计和计算成本，即，[4]和PiT[17]，以及建议的TF-TAS。一直是一个重要的研究热点。随着手动设计的高级ViT模型的出现[11，37，46]，Transformer ArchitectureSearch（TAS）[3，4，34，35，41]隆重亮相，旨在以自动化的方式搜索ViT架构的多种配置。尽管在TAS中利用了一次性NAS方案[9，13，47，48]，但它仍然需要高计算成本（例如，大于24GPU天）来训练超网，以在各种ViT架构上进行可靠的性能评估。此外，由于ViT搜索空间的大小（例如，GLiT [3]中的1030）远远超过CNN搜索空间的量级（例如，1018DARTS[26]）和ViT模型通常需要更多的训练时期（例如，#30300;的搜索。基于一次性的TAS的效率仍然不能令人满意。回想一下提高搜索效率，ViTs的准确性在ImageNet上10895×CNN搜索空间，几个代理（例如，，GraSP [40]，TE-评分[5]和NASWOT [29]）被提出来以零成本的方式评估不同CNN架构的排名。从技术上讲，一个典型的CNN主要由卷积层组成。另一方面，一个ViT模型的基本模块，多头自注意（ MSA ）和多层感知器（MLP），主要由线性层组成这种差异使得将在CNN上验证的现有零成本代理直接应用于ViT搜索空间具有风险因此，这是必要的，值得调查的可能性，一个有效的零成本代理，更适合于排名ViT网络，促进TAS的训练效率这个问题促使我们深入研究ViT架构，提出一种有效的方法来进行TAS的培训免费的方式。为此，我们对典型ViT [4，17]中的MSA和MLP进行了模块化研究基于数值结果，我们观察到，MSA和MLP在ViT中有不同的属性，指示模型的性能当MSA具有更高的多样性得分或当MLP具有更多的突触显著性值时，相应的ViT网络总是具有更好的性能（参见图1的顶部）1）。基于这些重要的见解，我们提出了一个有效的DSS指标，并设计了一个免训练的TAS（TF-TAS）。具体而言，我们试图通过利用上述MSA和MLP的性质来对各种ViT进行快速排名。DSS-指示器估计MSA的突触多样性和MLP的突触显著性，以生成针对ViT架构的有效评估分数。突触多样性测量一个MSA上的秩崩溃的程度，并且突触显著性估计一个MLP内的重要参数的量据我们所知，这是第一次提出MSA的突触多样性和MLP的突触显著性作为评价ViT结构的代理。此外，应该注意的是，我们的TF-TAS是正交的搜索空间设计和权重共享策略。因此，可以灵活地将TF-TAS与其他ViT搜索空间或TAS方法相结合，以进一步提高搜索效率。与手动设计的ViT [6，14，27，43]和自动搜索的ViT [3，4，35]相比，我们的TF-TAS实现了具有竞争力的性能，并将搜索过程从大约24 GPU天加速到小于0。5GPU天，大约快48倍（见图的底部1）。为了公平的比较和充分的调查，我们还提出了一个可靠的测试床，以评估最先进的零成本代理（例如，[5]和NASWOT [29]）。我们构建了一个大型代理ViT基准测试，该测试基于AutoFormer [4]的几个预训练超网，以比较ViT架构上替代零成本代理与通过对零成本指标的数值观察，我们实证验证了不同零成本指标在TAS中的相对排名，并且我们的DSS指标优于其他对应部分。我们还得出了一些实际的见解，在设计一个更好的代理排名ViT架构。整体而言，我们的主要贡献如下：• 我们提出了一个免训练TAS（TF-TAS），它包括一个模块化的策略，结合突触多样性的MSA和突触显着性的MLP作为一个DSS指标，在评估ViT架构。• 大量的实验表明，所提出的TF-TAS不仅实现了竞争性的搜索性能，但也提高了搜索效率在搜索ViT架构。• 我们设计了一系列的控制实验来比较TAS中现有的零成本代理结果提供了一些经验的见解，在设计最佳的代理度量评估ViT架构。2. 初步设计搜索Transformer架构。自ViT [38]以来，计算机视觉社区见证了许多手动设计的高级ViT架构的出现[11，17，37，44]。从技术上讲，它们中的大多数由相同的基本块组成，包括MSA，层规范化（LN）和MLP。现有的TAS方法[3，4，35]在MSA和MLP中搜索不同的维度，例如MSA中的头部数量，MSA或MLP的比例。这些方法通常建立在一次性NAS框架上[9，13，47，48]：通过在每个时期训练子网路径来训练超网。典型的基于一次性的TAS方法AutoFormer [4]包括一个纠缠策略，并将搜索空间划分为三个子超网，每个超网都以一次性方式训练500个epoch（约24GPU天），需要8个NVIDIA V100 GPU。AutoFormer搜索空间的大小为1。7 1016，这使得训练超网非常耗时。在一般情况下，如何减少搜索的ViT架构的成本，并确保搜索的网络的性能是一个基本的和具有挑战性的问题。在本文中，我们试图找到一种方法来保持TAS的性能，并加快搜索效率。通过零成本代理进行绩效评估。为了降低性能评估的代价，提高搜索效率，目前有两种主流的零代价代理。第一个，受修剪社区的启发，总结了每个模型权重的显着性值作为相应CNN架构的代理，具有单一的前向/后向传播。流行的方法包括Grad-norm [1]，SNIP[23]和GraSP [40]。这些代理10896、”。ΣV”。，ΣM∥ ∥≤UM∥∥遵循默认假设：权重值越显著，它对模型越重要;一个网络的权重越显著，模型的性能越好。第二个，如TE评分[5]，NAS- WOT [29]和Zen-Score [24]，是专门为CNN设计的。他们分析了重要的属性（例如，表达性）。Mellor等人[29]提出了雅可比协方差来总结每个权重的显着性Chen等人[5]应用两个理论启发的指标作为代理来寻找最佳子网。与现有文献不同的是，本文首次指出了在ViT搜索空间中直接应用现有代理的缺点。然后，我们提出了一个简单而有效的代理，以产生更好的性能，提高TAS的搜索效率。3. 方法3.1. 动机现有的TAS方法[3，4，35]相对耗时，特别是在性能估计中（例如，在8个GPU上进行300次然后，值得利用零成本代理[5，29，40]来对ViT架构进行在秩为1的矩阵中，每行的值是相同的，即，多样性的稀缺。这种等级崩溃严重降低了ViT的性能。然而，在高维表示空间中估计秩崩溃需要巨大的计算成本。实际上，法泽尔等人。[12]证明了矩阵的秩包含特征内多样性信息的代表性线索基于这些理解，MSA模块中的权重参数的排名可以被用作评估ViT架构的指标突触多样性。对于MSA模块，直接测量其权矩阵的秩仍然是计算复杂的，并且阻碍了实际应用。为了加速MSA模块中突触多样性的计算，我们利用MSA权重矩阵的核范数在理论上，当权矩阵的Frobenius范数满足一定条件时，权矩阵的核范数可以特别地，我们将MSA模的权参数矩阵记为Wm. m表示MSA模块中的第m个线性层。Wm的Frobenius范数定义为：并且降低了性能估计中的计算成本然而，现有的零成本代理具体来说是Wm”。ΣUΣ|第二条第一款|2,(1)设计用于CNN搜索空间（例如，DARTS [26]和NAS-Bench 201 [8]）。显然，ViT的搜索空间与CNN的搜索空间有很大不同，那么现有的代理无法保证在ViT搜索空间上的泛化（参见第二节中的结果）。4.6）。它促使我们在ViT中探索和利用MSA和MLP的有用特性，i=1j=1其中U、V是Wm的维数，Wi，j表示Wm的第i行第j列中的元素.根据算术和几何平均值的不等式，Wm的上限计算为：并设计一个有效的面向ViT的零成本代理。在本节中，我们首先提出了一种有效的方法来计算MSA的突触多样性并生成评估，<$Wm<$F≤，（<$wi，j）·（<$w（i，j）与类别正相关的评估结果ViT网络的精确度。然后，我们发现，当MLP模块具有更重要的权重参数时，突触显著性值越高，对应的i=1j=1U=1·1=i=1你好。j=1（二）ing ViT网络总是产生更好的分类性能，这意味着，是最大的数字，曼斯。最后，我们提出了一个DSS指标来识别-在排名线性无关向量的误码率FW m，即，矩阵等级Giv entw o随机选择的向量wi和wj，各种ViT架构有效和高效地，我提高了TAS的搜索效率3.2. MSA中的突触多样性理论分析MSA是ViT架构的基本组成部分。一些作品揭示了MSA的一个重要属性：多样性[10，49]。特别地，Donget al. [10]指出，MSA会导致学习表示的秩崩溃。具体而言，随着输入在网络中向前传播并且深度继续加深，ViTs中的MSA的输出逐渐收敛到秩1。最终，输出退化当wm和wj独立时，wm，wmF可以更大这表明：Wm的Frobenius范数越大，Wm的秩越接近多样性的WM。根据Fazel等人证明的一个定理，[12]当WmF1时，Wm的核范数可以是Wm的秩的近似。形式上，Wm的核范数被定义为：WmW TWm），（3）VV10897√其中tr（n）表示对应矩阵的迹。在我们的例子中，我们总是有<$W m<$F≤U，因此秩10898MSAMLPLL∥ ∥ ∥∥√¨¨MSA上的突触多样性和MLP（一）（b）第（1）款（c）第（1）款图2.（a）代理分数（Dl）与代理分数（Dl）红点&Sl蓝点）和ViT模型（b）（c）MSA和MLP分别对平坦ViT [4]和深窄ViT [17]进行修剪的敏感性分析Wm 的可近似为 Wmnuc/U 。从理论上讲， Wmnuc 与Wmnuc/ U成正比，这表明Wm的核范数可以用来衡量确定Wm的多样性。为了更好地估计来自权重被随机初始化的一个ViT网络的MSA模块的突触多样性，我们进一步考虑每个MSA模块的梯度矩阵λ/λWm总的来说，我们如下定义第l个在此基础上，我们尝试用突触显著性来评价不同的ViTs。然而，已经验证了[31，39，42] MSA和MLP对修剪的敏感性是不同的。MSA中的大部分权重是冗余的[31，39]，这对测试时的性能几乎没有影响。这意味着突触显著性在MSA和MLP中可能表现出不同的表现。为了进一步验证研究结果，我们通过一个修剪敏感性实验来展示一些定量的结果。如图2b所示，我们从AutoFormer搜索空间中随机抽取5个ViT架构，以分析感知。lMSA =L⊙∥Wm很好（四）MSA和MLP的剪枝能力我们观察到mWmnuc为了验证MSA的突触多样性与给定ViT架构的测试准确性之间的正相关性，我们重新训练了从AutoFormer [4]中采样的100个ViT网络，并获得了它们相应的分类性能和MSA模块的突触多样性。它们之间的τ是0。65如图2a所示。结果在SEC。4也将证明积极的连接之间的评价分数的方程。（4）和每个输入ViT架构的性能。3.3. MLP中的突触显著性理论分析网络修剪[30，33]已经为CNN取得了许多进展，并开始在 Transformer上显示其力量[31， 39，42]。已经提出了几种有效的CNN双关方法[22，36，45]来衡量模型权重在早期训练阶段的重要性。Tanaka等人[36]测量了在没有训练的情况下修剪CNN的突触Wang等人[42]发现Transformers中的不同模块即使在初始化阶段也表现出不同程度的冗余，并试图修剪Transformers的不同维度。与剪枝相似，TAS关注于搜索几个重要的维度，包括注意头数、MSA和MLP比率等。受这些发展的启发0修剪率（%）010 20 30 40 50-5-10-15MSAMLP-200修剪率（%）010 20 30 4050-10-20-30-40MSAMLP-50验证准确度（%）准确度损失（%）准确度损失（%）D10899MLP对修剪比MSA敏感得多。我们还对深窄 ViT 网络进行了分析（例如， PiT[17]），并获得类似的观察结果（见图2c）。此外，我们采用MSA和MLP模块上的突触显著性作为代理，分别计算代理ViT基准上的KendallMLP的突触显著性Kendall由于突触显著性通常以求和的形式计算，冗余带来了累积效应。具体而言，MSA模块证明是不敏感的修剪，这意味着MSA的权重参数具有较高的冗余。在剪枝界[1]中已经提出，冗余权重参数的值比非冗余权重参数的值小得多虽然这些冗余参数的值相对较小，但超过50%的冗余往往会产生较大的累积效应，特别是在类似架构之间进行区分时。对于累积效应，零成本代理中考虑了MSA的冗余权重参数来衡量显著性，零成本代理中的累积形式导致MSA中的累积效应这种累积效应可能会使零成本代理给网络带来更高的排名。同时，MLP模块的突触显着性受权重冗余的影响较小，这可能是10900Σ×SA=DDSS+S. Q.. 可表示为：L=IωI，其中I为作为MLP模块的指标。突触显著性。为了评估ViT中的MLP，我们重新排序为突触显著性。在网络剪枝中，模型权值的重要性得到了广泛的研究有几种基于修剪的零成本代理[1，23，40]可以直接用于测量CNN的突触显着性，因为CNN主要由卷积层组成。另一方面，ViT架构主要由MLP和MSA模块组成，它们具有不同的剪枝属性。通过对第二章中MSA和MLP模块的剪枝敏感性3.3中，我们验证了MLP模块对修剪更加敏感因此，MLP模块中权重的重要性差异可以通过突触显著性更好地反映出来作为比较，MSA模块对双关相对不敏感，其突触显著性通常受到冗余权重的影响。基于MLP的剪枝敏感性，我们提出了一种模块化的突触显著性度量方法。具体而言，所提出的模块化策略测量MLP的突触显着性作为ViT架构的指标的一部分。形式上，给定ViT架构，第1个MLP模块的显著性得分为：给定一个指定的参数约束，我们首先在一个ViT搜索空间上随机抽取8000个然后，计算MSA的突触多样性得分和MLP的显著性得分作为每个子网的评估等级。根据每个ViT架构计算的DSS指标得分，我们选择具有最高代理值的网络作为最佳网络。最后，我们重新训练搜索到的最优网络，以获得其最终的测试精度。4. 实验4.1. 实现细节TF-TAS包括搜索阶段和重新训练阶段。在搜索阶段，从给定的ViT搜索空间中随机采样的子网络的数量被设置为8000，其权重被随机初始化。它们的代理分数是为每个子网络计算的。为了计算所提出的DSS指示符，输入被构造为每个像素为1。在计算每个子网络的DSS指标之后，我们重新训练前1个子网络。在重新训练阶段，我们遵循Aut-oFormer [ 4 ]中的训练配置来训练获得的最优ViT网络：AdamW优化器[28]，权重衰减为0。05，初始学习率1×10−3，最小学习率1×10−5lMLP=LnWn无主的;（五）使用余弦调度器，5epochs预热，批量大小为256，模型使用300epochs进行训练等。所有实验均在NVIDIATesla V100 GPU其中，n表示第1个MLP在指定的ViT网络中，通常设置为2。图2a显示了一些定性结果来验证效果。SMLP在评估ViT架构方面的有效性3.4. 免培训TAS基于上述分析，我们提出了一个免训练的TAS（TF-TAS）与模块化的策略，以进一步提高搜索效率。提出了模块化策略，将ViT架构的免培训评估分为两部分，以形成DSS指标。结合MSA的突触多样性和MLP的显着性得分，我们将DSS指标公式化如下：结果是在ImageNet [7]，CIFAR- 10/CIFAR-100 [21]和COCO 2017数据集[25]上估计的。默认情况下，图像分辨率为224 224。我们还使用MindSpore来验证我们的方法的普遍性。DSS指示器的伪代码请参见补充说明。4.2. AutoFormer搜索空间的结果。我们首先在自动成形器的搜索空间上评估TF-TAS，即，AutoFormer搜索空间A。我们将搜索到的最佳ViT的性能与最先进的TAS方法[3，4，35]以及ImageNet上手动设计的CNN和ViT [11，14，18，27，37]lMSALkMLPK.（六）如表中所列。1，搜索到的最优结构TF-TAS（即，TF-TAS-Ti、TF-TAS-S和TF-TAS-B）外-总体而言，DSS指标从两个不同的角度评估每个ViT架构。TF-TAS在前向和后向之后计算SDSS作为指定ViT架构的指示符为了消除输入数据的影响，我们保持输入数据的每个像素为1。因此，SDSS对于随机种子是不变的此外，最初的损失-TL[l]L所有的向量。它使EQ。（6）考虑权值参数的层间交互作用来度量多尺度分析的多样性和多尺度分析的显著性。执行手动设计的CNN（例如，ResNet [15]、Mo-bileNet[18]、PVT [43]和T2 T-ViT [46]），在所有三种常见模型尺寸（即，小的，小的，小的）。与其他手动设计的ViT架构[6，11，14，27，37]相比，我们的TF-TAS实现了竞争性结果。具体来说，搜索的TF-TAS达到了75.3%的top-1准确率，超过DeiT-tiny 3.1%。与其他TAS方法[3，4，35]相比，这些方法需要超过24个GPU天来寻求最佳性能。mal ViT架构，建议的DSS指标有助于我们用更少的GPU实现了类似的结果S10901SS∼表1.Autoformer搜索空间上的比较结果*表示[17]报告的结果模型#参数（M）FLOPS（B）前1名（%）前5名（%）模型类型设计型号GPU日ResNet-18下载 [15]11.7 1.872.5-CNN手动-[18]第十八话5.5-75.2-CNNTransformerTransformerTransformerTransformerTransformerTransformerTransformerHybrid手动手动自动汽车------3224N/A[37]第三十七话5.7 1.272.2 91.1TNT-Ti [14]6.1 1.473.9 91.9[第11话]5.7-74.5-CPVT钛[6]6.0-74.9 92.6[43]第四十三话13.2 1.975.1-ViTAS-C [35]5.6 1.374.7 91.6自动成型机-Ti [4]5.7 1.374.7 92.6GLiT-Ti [3]7.2 1.476.3-TF-TAS-Ti（我们的）5.91.475.392.8Transformer汽车0.5ResNet-50* [15]25.6 4.180.2-CNN手动-[16]第十六话20.6-79.4-CNNTransformerTransformerTransformerTransformerTransformerTransformerTransformerTransformerTransformerHybrid手动自动汽车--------3224N/ADeiT-S [37]22.1 4.779.9 95.0[11]第十一话22.1 4.778.8-小型PVT [43]24.5 3.879.8-Swin-T [27]29.0 4.581.3-TNT-S [14]23.8 5.281.5 95.7CPVT-S [6]23.0-81.5 95.7[46]第四十六话21.5-81.7-[35]第三十五话27.6 6.080.5 95.1自动生成器-S [4]22.9 5.181.7 95.7GLiT-S [3]24.6 4.480.5-TF-TAS-S（我们的）22.85.081.995.8Transformer汽车0.5ResNet-152（英语：ResNet-152）60.2 11.581.9-CNN手动-RegNetY-16GF [32]83.6 15.980.4-CNNTransformerTransformerTransformerTransformerTransformerTransformerHybridTransformer手动自动汽车-------不适用24[43]第四十三话61.0 9.881.7-DeiT-B [37]86.0 18.081.8 95.6CPVT-B [6]88.0-82.3-TNT-B [14]65.5 14.182.9 96.3瑞典-B [27]88.0 15.483.5-T2T-ViT-24[46]64.1-82.6-GLiT-B [3]96.0 17.082.3-自动生成器-B [4]54.0 11.082.4 95.7TF-TAS-B（我们的）54.012.082.295.6Transformer汽车0.5天此外，我们的DSS指标全面考虑了搜索ViT架构的性能和效率。基于每个输入ViT架构的DSS指标的估计结果，我们减少了大量的性能估计的计算预算，并获得最佳的ViT网络具有可比的性能在0。5GPU天。有关检索到的最佳架构的分析，请参阅补充资料。4.3. PiT搜索空间的结果。为了进一步研究我们的DSS指标的通用性，我们建立了另一个搜索空间：PiT搜索空间P。不失一般性，我们提出了PiT上的P [17]，并包括ViT的几个重要维度（例如，深度、MSA的头数、MLP比率），以及深度卷积运算。对于详细的信息-有关SP的资料，请参阅补充资料。如表中所列。2、预算内0. 5GPU天，所提出的DSS指示器仍然能够获得具有与PiT-Ti和PiT-S相当或甚至更好的Top-1分类准确度的最佳ViT架构搜索的网络比随机选择的网络PiT-Ti rand和PiT-S rand的性能高出约2。百分之九十五。我们进一步使用简化的设置[17]使用COCO 2017数据集[25]进行检测的转移实验。如Tab.所示。2、TF-TAS在检测任务中表现出较好的性能。这些结果有助于我们确保所提出的DSS指标在不同ViT搜索空间的推广。我们还注意到，TF-TAS在PiT搜索空间上的搜索结果低于Tab中AutoFormer搜索空间的搜索结果。1.一、这一观察意味着搜索空间也是TAS的重要组成部分。10902†S骨干#参数（M）41.0Avg. IOU时的精密度APAP50AP75ResNet-50 [5]41.560.544.3表2. 在PiT搜索空间上的比较结果。表明了我们重现的结果。模型#参数（M）FLOPs（B）前1名（%）前5名（%）[17]第十七话4.90.773.891.7PiT-Tirand4.90.769.789.1TF-TAS-Ti（我们的）4.60.673.791.7[17]第十七话10.61.478.294.0PiT-XSrand10.51.874.892.2TF-TAS-XS（我们的）10.01.877.793.8[17]第十七话23.52.979.994.4PiT-Srand24.23.375.192.4VIT-S [11]34.936.957.038.0我们36.039.760.940.4表3.在最先进的ViT架构上对所提出的零成本代理的评估结果模型#参数（M）顶部-1（%）代理PiT [17]点钛4.973.8二、9×1043 .第三章。4×1044.第一章3× 104PiT-XS10.678.2PiT-S23.580.5T2T-ViT [46]T2T-ViT-74.371.71 .一、1×1051 .一、3×1051 .一、6×105五、8×1051 .一、1×106二、0×106T2T-ViT-105.975.2T2T-ViT-126.976.5T2T-ViT-1421.581.5T2T-ViT-1939.281.9T2T-ViT-2464.182.3XCiT [2]表4. 下游分类数据集的结果（%）。↑384意味着模型被微调为384×384分辨率。模型#参数ImageNet C-100运输机ViT-B/16 [1]86M77.998.187.1DeiT-B [37]↑384AutoFormer-S [4]↑38486M23M83.183.499.199.190.891.1TF-TAS-S↑384（我们的）23M83.599.1 91.2表5.从三个预训练的AutoFormer超网随机采样的继承网络上的各种评估指标之间的Kendallτ代理5 - 7#参数（M）15 - 19二十三-二十五[23]第二十三话0.4810.028-0.282[40]第四十话0.053-0.022-0.029TE评分[5]-0.039-0.248-0.075NASWOT [29]0.3780.1710.208DSS指标（我们的）0.6970.6150.306我们遵循与DeiT [37]相同的设置并微调TF-TAS-S（见表1）。1）CIFAR-10（C-10）和CIFAR-100（C-100）[21]。结果列在选项卡中。4.第一章正如我们观察到的那样，DSS-indicator以免训练方式找到的最佳ViT架构与AutoFormer搜索的网络具有类似的微调性能[4]。4.6.零成本代理的比较。为了进行全面调查，我们将我们的DSS指标与CNN搜索空间上的其他最先进的零成本代理进行比较[5，23，29，40为了建立一个可靠的测试平台来评估这些零成本代理，我们需要一个ViT基准，我们求助于AutoFormer。我们把搜索空间称为AutoFormer [4]为简单起见，作为SA 经验上，Chenet4.4. 评价流行建筑。为了进一步研究所提出的代理的有效性和通用性，我们还对其他流行的最先进的ViT架构进行了评估实验[2，17，46]。如Tab.所示3、我们的DSS指标可以评估ViT架构在其相应搜索空间中的正确排名。有趣的是，在不同的搜索空间中获得的提议代理的值是不可比的。这可能是由几个因素造成的。例如，模型初始化的方式不同，搜索空间本身包含几个不同的模块，这使得很难实现公平的比较。4.5. 迁移学习结果。为了测试搜索到的最优ViT网络的可移植性，我们进行了一些迁移学习实验。TF-TAS-S（我们的）23.83.280.594.9XCiT-tiny-24-p1612.079.43 .第三章。4×1049 .第九条。2×1041 .一、4×105二、4×105XCiT-small-24-p1648.082.6XCiT-培养基-24-p1684.082.7XCiT-large-24-p16189.082.910903S∼ ∼∼al. [4]发现，A的子网，其权值继承自预训练超网，可以达到与再训练超网相当的性能。在此基础上，我们从A中抽取3000个子集，并在它们继承权重从预先训练好的超网中不失一般性，我们对子网进行采样，参数数量在三个常见范围内：5M7M、15M19M和23M 25米。有了这个ViT基准，我们将我们的DSS指标与四种削减成本的零成本代理方法进行了比较：SNIP [23]，GraSP [40]，NASWOT [29]和TE评分[5]。Kendallτ [20]的结果如表1所示。图5和图3。总的来说，代理的相对排名是：我们的 >NASWOT>SNIP> GraSP> TE分数。我们的DSS指标优于其他人在排名各种ViT架构。研究结果也为TAS设计有效的零成本代理提供了实际的启示：1）MSA和MLP都应该考虑到ViT10904∈S∼(a) 抽样网络的分布。(d) TE评分（τ=-0.039）（b）SNIP（τ= 0.481）(e) NASWOT（τ= 0.378）（c）GraSP（τ= 0.053）(f) 拟议的DSS指标（τ= 0.697）图3.（a）：从A.基于此代理ViT基准，我们比较了建议的DSS指标与其他同行。（b）-（f）：零成本指标的评估得分与来自一个预训练的AutoFormer-Tiny超网的继承网络上的分类准确度之间的Kendall表6.不同初始化种子对各种零代价代理评估结果的影响。代理随机种子AVG STD0123[23]第二十三话0.481 0.530 0.486 0.507 0.501 0.019[40]第四十话0.053 0.126 0.138 0.152 0.117 0.038TE评分[5]0.039-0.003 -0.04 0.013-0.017 0.023NASWOT [29]0.378 0.332 0.394 0.421 0.381 0.032DSS指标（我们的）0.697 0.697 0.697 0.697 0.6970有效地这就是为什么我们的DSS指标在排名ViT网络方面优于其他替代方案2)根据SNIP [23]的结果和我们的DSS指标，很明显，初始化ViT网络的梯度矩阵包含丰富的信息来评估相应的模型。3)基于GraSP [40]和TE-score [5]的性能，我们发现：尽管它在CNN [40]中具有实用价值，但ViT的Hessian矩阵并不容易使用，需要进一步努力。4.7.不同随机种子的一致性。为了检查各种代理的稳定性，我们用四个随机种子生成结果并计算静校正。为了简单起见，实验是在ViT网络参数个数为5七百万。如表中所列。6、不同种子下的几个指标存在一定的波动。我们的DSS指标是不变的差异-种子（如第二节所述）第3.4段）。由于不同的种子影响输入数据的采样，使用采样数据作为输入的代理可能不稳定。5. 结论为了提高TAS的搜索效率，我们首次提出了一种有效的零代价代理，用于评估ViT架构。具体地说，一个面向ViT的绩效指标，即，DSS指标，提出。它是建立在两个理论观点：突触多样性和突触显着性。基于这两个维度，所提出的指标分别测量MSA上的突触多样性和MLP上的突触显著性。与其他先进的TAS方法相比，我们的DSS指标引导的随机搜索实现了不同流行的ViT搜索空间之间的竞争性能。最重要的是，我们大大提高了TAS的搜索效率：它只需要0。5GPU天，以寻求相对最佳的ViT架构，相比之下，24GPU天的现有同行。鸣谢：本工作得到国家杰出青年科学基金（No.62025603）、国家自然科学基金（No.U21B2037、No.62176222、No.62176223、No.62176226、No.62072386、No.62072387、No.62072389、No.62002305）的资助，广东省基础与应用基础研究基金（No.2019B1515120049）、福建省自然科学基金（No.2021J01002 ）、CAAI-HuaweiMindSpore开放基金。验证准确度（%）验证准确度（%）验证准确度（%）验证准确度（%）验证准确度（%）验证准确度（%）10905引用[1] Mohamed S Abdelfattah ， Abhinav Mehrotra ， MukaszDudziak，and Nicholas D Lane.用于轻量级nas的零成本代理。ICLR，2021年。二、四、五[2] Alaaeldin Ali ， Hugo Touvron ， Mathilde Caron ， PiotrBo- janowski ， Matthijs Douze ， Armand Joulin ， IvanLaptev，Na- talia Neverova，Gabriel Synnaeve，JakobVerbeek，et al.Xcit：互协方差图像变换器。NeurIPS，2021。7[3] 陈博宇，李培霞，李初明，李宝璞，白磊，陈琳，孙明，欧阳万里，等. Glit：神经网络架构搜索全局和局部图像Transformer.ICCV，2021。一二三五六[4] Minghao Chen，Houwen Peng，Jianlong Fu，and HaibinLing. Autoformer：搜索变压器的视觉识别。ICCV，2021。一、二、三、四、五、六、七[5] 陈舞阳、新余公、张阳王。Imagenet上的神经结构搜索在四个GPU小时内：一个理论启发的视角。ICLR，2021年。二三七八[6] 楚翔翔，田智，张波，王新龙，魏晓林，夏华夏，沈春华 . 视觉变换器的条件位置编码。 Arxiv 预印本2102.10882，2021。二、五、六[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。5[8] 董轩逸和杨毅。Nas-bench-201：扩展可再现神经结构搜索的范围。2019年，在ICLR。3[9] 董轩逸和杨毅。通过自评估模板网络进行一次性神经结构搜索。在ICCV，2019年。一、二[10] Yihe Dong ， Jean-Baptiste Cordonnier ， and AndreasLoukas.注意力并不是你所需要的全部：纯粹的注意力会随着深度的增加而呈指数级下降。在ICML，2021。3[11] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale.在ICLR，2020年。一、二、五、六、七[12] 玛丽亚姆·法泽尔矩阵秩最小化及其应用。博士论文，博士论文，斯坦福大学，2002年。3[13] Zichao Guo ， Xiangyu Zhang ， Haoyuan Mu ， WenHeng，Zechun Liu，Yichen

下载后可阅读完整内容，剩余1页未读，立即下载