没有合适的资源?快使用搜索试试~ 我知道了~
4751重温免培训NAS解决方案:一种高效的基于训练的方法陶建南,杨林杰,纪晓杰,陈晨1中央佛罗里达大学计算机视觉研究中心2字节跳动公司taoyang1122@knights.ucf.edu{linjie.yang,jinxiaojie}@ bytedance.comchen.crcv.ucf.edu摘要最近的神经结构搜索(NAS)工作提出了无需训练的度量来对网络进行排序,这大大降低了NAS中的搜索成本。在本文中,我们重新审视了这些无训练指标,并发现:(1)数量- 参数的BER(#Param)是最直接的无训练度量,在以前的工作中被忽视,但令人惊讶地有效。(2)最近的无训练度量主要依赖于#Param信息来对网络进行排名。我们的实验表明,当#Param信息不可用时,最近的无训练指标的性能急剧下降。受这些观察的启发,我们认为,与#Param相关性较低的指标是希望为NAS提供额外的信息。我们提出了一个轻量级的基于训练的指标,它与#Param的相关性很弱,同时以较低的搜索成本实现了比无训练指标更好的性能。具体而言,在DARTS搜索空间上,我们的方法仅用2.6 GPU小时就直接在ImageNet上完成搜索,并实现了24.1%/7.1%的前1/前5错误率,这在最先进的NAS方法中具有竞争力1. 介绍神经架构搜索(NAS)[40,28,21,27,33,23,41]正在成为设计高效和有效的深度神经网络的重要技术其有效性已在各种计算机视觉任务中得到证明,如分类[27,33,41],对象检测[10,30]和语义分割[6,20]。早期的NAS方法[40,28,29]利用强化学习或进化算法来搜索网络。但这个过程非常昂贵,因为他们需要训练数千个候选网络。以下工作[23,9,36]使用从超网采样的候选网络的可微搜索来在训练中,The* 在字节跳动公司网络参数和体系结构参数被交替地优化。然而,训练超网仍然可能非常慢,并且超网中的子网络的准确性与其地面真实准确性的相关性很差[38]。为了进一步降低搜索成本,提出了无需训练的度量[24,7,2]来对候选网络进行排名,而无需任何训练过程。这些指标在很大程度上受到修剪方法[18,32,31]和深度神经网络理论发现[17,34,35,26]的启发。他们的目标是从网络的特性的不同方面(如可训练性和表达性)对网络进行排名。这些指标以更小的搜索成本实现了与以前的NAS方法竞争的结果。然而,这些工作忽略了一个简单的无训练指标,即网络中的参数数量(#Param),这比那些无训练指标的计算速度更快。我们的实验表明,#Param在NAS-Bench-101 [37]和NAS-Bench-201 [12]上的表现令人惊讶。我们进一步发现,这些无需训练的指标与#Param具有非常高的相关性(详见第二节)。3.1),这表明他们的排名能力很大一部分可能来自与#Param的相关性。为了验证我们的猜想,我们设计了系统的实验来消除#Param的影响。结果表明,在没有#Param信息的情况下,最近的无训练指标[7,24]没有实现良好的性能。受上述发现的启发,我们的目标是开发一种与#Param具有弱相关性的指标,同时仍然有效,以便它可以提供有关估计网络性能的额外信息。直观地说,网络#Param,#Layers)、权重初始化以及训练期间的动态(例如,损失、梯度)。我们相信,从训练动态中产生的指标应该与#Param弱相关。角度度量是一种训练动态,它首先在[5]中提出,以指示网络的泛化能力。它被定义为训练前后向量化网络权重之间的角度。我们发现,在最后的全连接(FC)层的角度度量有一个高的相关性与交流,4752精确性,但与参数数目的相关性低。这表明它可以提供除#Param之外的关于估计网络性能的其他信息。为了减少模型训练的计算量,我们提出了一个非常轻量级的训练方案,使用一个小的代理数据集,比传统训练快数千倍我们的实验表明,这样的短训练方案已经产生有效的角度度量。除了角度度量之外,我们还利用训练损失作为第二度量,这在不增加额外计算的情况下实现了更好的性能。总而言之,我们做出了以下贡献。1. 我们重新审视了最近的无训练指标,并揭示了它们如何在评估的基准上实现良好的性能。尽管无需训练的指标声称通过估计模型的容量和收敛速度来对网络进行排名,但我们的实验表明,它们之所以能取得良好的性能,主要是它们的功能实际上类似于#Param,但非常复杂。2. 受我们发现的启发,我们提出了一个基于训练的度量,它为排名网络上的#Param提供了正交信息我们的方法在流行的NAS基准测试中实现了与免训练方法我们的搜索成本甚至比无培训指标更小。3. 我们的研究结果提出了设计新的搜索空间的必要性,其中#Param不占主导地位的模型,以更好地评估NAS指标的有效性,并了解它是如何工作的。我们的研究结果也启发了未来的工作,以设计提供正交信息的指标#Param,因为#Param可能不是一个很好的指标在许多情况下(例如,MLP与CNN)。2. 相关工作神经结构搜索(NAS)。NAS提出了自动搜索网络结构,而不是耗时的手工设计一个给定的任务。早期的作品[40,28,29,22]利用强化学习或进化算法来探索架构。控制器将产生一些网络,网络性能将被用作反馈信息来更新控制器。然而,训练大量的网络是非常昂贵的,需要花费数千个GPU天。后续工作通过在超网中进行权值共享来加速NAS算法。ENAS [27]建议在候选网络之间共享权重DARTS [23]连接所有候选操作并且每个操作被分配一个表示其重要性的结构参数。在训练过程中,结构参数和权值参数交替优化。另一种权重分配方法是one-shot NAS [3,4,14],其中超网是用在每个迭代中随机采样的子网络来然而,最近的研究[38]表明,通过权重共享的网络性能与其实际性能的相关性很差免培训NAS。 为了进一步加速搜索过程,最近的作品[24,7,2]提出在没有训练的情况下预测网络性能。[2]评估了NAS的不同初始化修剪标准[32,31,18]的有效性NASWOT [24]利用线性区域的数量[35]来对不同的网络进行排名。TE-NAS [7]进一步将线性区域与神经正切核(NTK)[17]结合起来,通过其表达能力和可训练性对网络进行然而,[25]表明基于NTK的度量在不同的搜索空间和初始化中是不稳定的在这项工作中,我们进一步揭示了免训练度量(线性区域和NTK)的有效性主要来自于与#Param的高度相关性,并且#Param是评估基准的良好度量3. 方法节中3.1,我们首先回顾几个现有的无训练指标和#Param。我们证明了#Param是NAS-Bench-101和NAS-Bench- 201上的有效搜索指标,并且现有的无训练指标依赖于#Param来实现高性能。然后,我们介绍了我们的轻量级训练为基础的度量和短训练策略。3.2与次级3.3分别。3.1. 重新审视免培训指标线性区域(LR)的数量在[24,7]中用于在初始化时对网络进行排名。线性区域是一个研究得很好的理论标准[35,26],用于表示网络的学习能力。 它被定义为网络可以将输入空间划分为多少个区域。线性区域的数量越多,表明网络具有越高的性能。在TE-NAS[7]和NASWOT [24]中,LR的数量估计不同。TE-NAS通过将一批样本转发到网络并计算有多少样本具有不同的激活模式来计算LR,而NASWOT将一批样本馈送到网络并计算不同激活模式之间的汉明距离。这些激活模式之间的汉明距离用于定义核矩阵K。排序度量被定义为K的行列式。为了区分这两个度量,我们将TE-NAS和NASWOT估计的LR分别表示为LR 1和LR2。TE-NAS进一步利用神经正切内核(NTK)对网络进行”[17]他说,“网。4753·.Σ工作的收敛速度由NTK的条件数决定。直觉上,更快的收敛速度表明网络具有更高的性能。因此,NTK的条件数可以用来对网络进行排序。注意,在[7]中,NTK与准确度呈负相关,而在本文中,我们使用负NTK使其为正。这些理论指标从不同的角度描述了网络的特性。然而 , 描 述 网 络 的 最 简 单 的 指 标 是 参 数 的 数 量(#Param)。直觉上,一个更大的模型往往表1:NAS- Bench-101和NAS-Bench-201上#Param和无训练指标每个实验重复5次,并报告平均准确度和标准偏差。度量CIFAR-10CIFAR-10NAS-Bench-201CIFAR-100ImageNet16-120#参数92.6(1.3)93.2(0.5)70.1(0.8)41.6(4.1)LR191.6(0.9)92.3(1.1)66.2(5.0)43.1(2.5)NTK91.2(0.9)91.9(1.7)66.6(4.3)41.4(4.9)LR292.8(1.2)92.6(0.9)69.3(1.4)43.3(2.9)表2:不同的无训练度量与参数数量(#Param)的相关性(Kendall具有更好的性能。这让我们怀疑,参数的数量是一个很好的无训练指标?答案是肯定的。在选项卡中。1,我们在NAS-Bench-101 [37]和NAS-Bench-201 [12]上比较了#Param和无训练指标。我们基于随机搜索来评估这些指标具体来说,我们随机抽取100名网络从搜索空间,并使用度量来选择最好的一个。我们每个实验运行5次,并报告平均准确度和标准偏差。令人惊讶的是,结果表明#Param在不同数据集上实现了与其他无训练指标相当的性能。#Param的良好性能进一步促使我们研究这些无需训练的指标是否与#Param相关。我们计算了表中NAS-Bench-101(10000个网络)和NAS-Bench-201(15625个网络)上不同免训练指标和#Param之间的Kendall秩相关系数(Kendall's Tau)[16]。2.作为参考,在NAS-Bench-201上,LR 1和LR 2之间的相关性为0.56。请注意,它们是相同的度量,只是估计不同,因此0.56的相关性很高。结果表明,所有这些无训练度量都与#Param具有较高的相关性,尤其是两个线性区域度量。这在直观上是合理的,因为线性区域的数量上限为2#次激活,而激活单元的数量与参数的数量高度相关。这些结果意味着这些免训练指标的排名能力可能主要来自与#Param的高相关性节中4,我们通过评估相同参数数量的网络上的无训练度量来在这种情况下,他们的表现会急剧下降。与#Param高度相关的指标的缺点是什么?首先,这些无需训练的指标声称通过估计模型的容量和收敛性来对网络进行排名其次,#Param并不总是一个好的度量标准。在#Param没有帮助的情况下(例如,MLP与CNN,残差与普通结构,网络与第二节中的#Param相似。4),这样的指标的性能将大幅下降。受这些观察的启发,我们在这项工作中探索了一种新的度量,它与参数的数量,同时提供额外的信息-估计神经网络的性能。我们提出的度量标准将在以下章节中介绍3.2. 角度度量由于现有的无训练度量都具有与基于第二节中的观测的参数的数量的高度3.1,我们将注意力转移到训练动态上。角度度量是在[5]中首次提出的一种训练动态,用于指示网络的泛化能力,后来在[15,39]中用作NAS中对候选网络进行排名的度量将网络的所有权值视为一维向量,将角度度量定义为训练前后权值向量之间的夹角具体地,令W0表示网络N在初始化时的权重,Wt表示训练后的则角度度量定义为θ(N)=arccosW0·Wt,(1)W0其中W0Wt是W0和Wt的内积。[39]表明角度度量与网络的最终性能呈正相关然而,我们发现角度度量在不同的网络阶段表现不同。具体而言,用来自特征提取层的权重计算的角度度量与网络的最终精度正相关在大多数NAS搜索空间[37,12,23]中,特征提取阶段主要由网络模块堆栈构成。为了简洁起见,我们将特征提取阶段的角度度量θfeat和预测层的角度度量θpred记下来在表3中,我们通过两个角度度量变量演示了模型参数对上述两个变量的影响。与#ParamLR1NTKLR2NAS-Bench-101NAS-Bench-2010.460.360.620.390.300.564754DSSDD−D×××表3:分别在50个不同大小(不同#Param)或相同大小(相同#Param)的随机网络上比较θ feat和θ pred的Kendallτ。diff. #参数0.37-0.50相同#参数-0.09-0.25各种网络设置。我们从NAS-Bench-201中随机抽取了50个不同大小(设置1)和相同大小(设置2)的网络,并在CIF AR-10上对其进行了全面训练。然后我们计算θ f eat的Kendall算法1ST-NAS输入:候选网络的数量N。搜索空间。获取数据集。训练迭代m。输出:具有最高等级的模型。however,θpred= zeros(N),loss= zeros(N)sampler = RandomSampler()样本代理数据集评估候选网络对于0,1,..., N1donetwork = sampler()W0= network.fc.weights用D_∞对网络进行m次迭代。和θ的pred 对于这两种情况。在设置1中,它显示loss[i] = - compute loss(network,network)Wt=网络.fc.权重θfeat与准确度呈显著正相关,与[15,39]一致,而θ pred与准确度呈负相关,相关性高于θfeat。然而,在θpred[i] = -计算角度度量(W0,Wt)端合并两个指标设置2,θ f的Kendall's τ au显著地Rθpred =获得排名(θpred)到0附近,这意味着θf 吃鱼来排名网络工作者R损失=获得排名(损失)没有#Param信息。 但是肯德尔R=Rθpred +R损失θpred退化较少,仍然能够对相同数量参数的网络进行排序。因此,θpred是对参数数量具有弱依赖性3.3. 短期培训计划节中3.2,我们证明了θpred是一个很好的度量,即使没有#Param信息。然而,在NAS中,完全训练所有候选网络的成本太高。为了缓解这个问题,我们提出了一个非常轻量级的短训练方案,通过使用一个小的代理数据集从原始目标数据集。具体来说,我们首先从目标数据集中随机抽取一个类的子集。然后,对于每个采样类,我们随机采样少量图像,生成高度浓缩的代理数据集。我们在代理数据集上训练网络,迭代次数有限。这个训练过程比完全训练网络快数千倍。我们发现我们的θpred度量在不同的搜索空间和数据集上都是有效的。除了θpred,我们还使用另一个训练动态,训练损失,作为评估网络的额外指标。请注意,在我们的方法中,训练损失是免费的。节中4、我们发现训练损失与参数个数也有弱将训练损失与θpred相结合可以在不增加计算成本的情况下提供更丰富的模型性能信息。由于θpred和训练损失的尺度不同,直接将它们的值相加会导致一个支配另一个。为了避免这个问题,我们首先使用这两个度量分别对网络进行排名。然后我们将它们的排名指数相加,作为每个网络的最终排名指数。请注意,θpred和训练损失都与模型精度呈负相关。为了清楚起见,我们取两个指标的负值,使它们在下面的max idx =Rreturn:S[max idx]实验由于所提出的度量采用短的训练周期,我们将我们的NAS方法与此度量相结合,称为短训练NAS(ST-NAS)。在算法1中示出了基于随机搜索的ST-NAS的流水线4. 实证研究如第3.最近的免训练度量与参数的数量高度相关,这意味着它们的有效性来自于与参数数量的高度相关性。为了进一步验证我们的主张,我们彻底评估了不同的无训练指标,以及我们在具有相同数量参数的策划搜索空间上的指标。这防止度量利用参数信息来评估网络。在以下部分中,Angle表示使用θpred进行搜索,Loss表示使用训练损失进行搜索,AngleLoss表示使用两个度量的组合进行搜索。我们基于NAS-Bench-201 [12]设计了几个搜索空间NAS-Bench-201定义了基于小区的搜索空间。每个细胞被表示为一个密集连接的有向无环图(DAG)。每个单元格有4个节点和6条边,其中每条边表示一个操作 。 有 5 个 可 以 修 改 的 操 作 , 包 括 zeroize , skip-connect,11conv,33conv,33平均池化。 不同的模型可能具有相同数量的参数,但具有不同的结构和性能。我们选择了8组模型,同一组中的模型数量相同,参 数 的 BER , 即 {0.37 , 0.40 , 0.59 , 0.62 , 0.64 ,0.83,0.86,1.05} M。中的网络数量采样网络θfeatθpred4755--图1:在相同参数数量的网络上评估时,不同指标的测试准确度(%)。X轴是每个网络组中的参数数量(M)每个实验重复5次,并报告平均准确度和标准偏差表4:我们的指标和#Param之间的Kendall相关性角损耗角损耗0.20-0.110.07每组1602 、540、1602 、810、180、 540、 180、135 、分别我们评估这些网络组中的每一个不同的met-rics的有效性我们使用原始文件[7,24]中的设置计算无训练指标。我们的培训计划在SEC中有详细说明。3.3.我们随机抽取10个类,每个类10张图像。该网络以0.2的固定学习率进行50次迭代训练。其他设置遵循NAS-Bench-201 [12]中的设置。请注意,如果没有指定,这是我们整个实验的默认设置。我们比较了以前的无训练指标和我们使用随机搜索的指标我们从每个网络组中随机抽取100个网络,并根据指标选择性能最好的网络。 我们还添加了一个基线,从候选网络中随机选择一个网络。每个实验重复5次,并报告平均准确度和标准偏差。如图1,LR2,与Tab. 2和最好的性能在标签。 1,在这种情况下表现最差。它甚至比随机基线更糟糕。我们的AngleLoss指标consis-在三个数据集上的所有网络组上,明显优于无训练指标。在大多数情况下,AngleLoss比无训练指标高出1%以上我们还在Tab中显示了指标4.可以看出,相关性远低于Tab中的无训练度量的相关性。2.上述实验证明,无需训练的度量在很大程度上依赖于参数信息来对网络进行排名,并且我们的度量通过与参数数量的弱相关性而具有优势,从而提供额外的有用信息来估计网络5. 实验节中5.1,我们首先在NAS-Bench-101和NAS-Bench-201上展示了无训练指标和我们的指标的比较。我们将度量应用于随机搜索方法和基于修剪的搜索方法。然后,我们比较了该度量与其他方法的DARTS搜索空间在第二节。五点二。最后,我们进行消融研究,以显示短训练超参数的影响。5.1. NAS-Bench-101/201上的结果随机搜索。我们首先基于随机搜索来评估不同的度量。我们从搜索空间中随机抽取了100个网络,并使用不同的指标,4756表5:基于随机检索的NAS-Bench-101和NAS-Bench-201上不同指标的测试准确度比较(N= 100)。每个实验重复5次以计算其平均值和标准偏差。度量搜索成本NAS-Bench-101CIFAR-10CIFAR-10NAS-Bench-201CIFAR-100 ImageNet16-120#参数392.58(1.26)93.21(0.49)70.15(0.83)41.58(4.07)LR1LR1+#参数606091.98(1.31)92.52(1.37)92.30(1.07)92.96(0.55)66.23(4.96)69.83(0.43)43.12(2.52)43.71(2.20)NTKNTK+#参数18118191.23(1.11)91.48(1.52)91.94(1.70)93.12(0.48)66.63(4.29)69.82(0.73)41.38(4.88)42.39(1.61)LR2LR2+#参数484891.95(1.16)92.58(1.39)92.65(0.93)93.33(0.13)69.28(1.40)70.10(1.22)43.33(2.91)42.83(1.49)角度损失角度损失+#参数角度损失+LR243743746292.86(0.77)93.60(0.46)93.47(0.47)84.65(5.88)93.46(0.59)93.08(0.66)58.06(0.40)70.58(0.82)69.62(0.59)28.08(0.31)43.74(1.48)43.43(1.62)选择最好的一个。我们遵循[24,7]中的默认设置我们的培训设置与SEC相同。4.我们每个实验运行5次,并报告平均准确度和标准偏差。搜索成本在单个GTX-1080Ti GPU上测量。结果见表。5.我们在Tab中添加#Param作为基线指标 。 5.结 果表 明 , #Param 在 NAS-Bench-101 和 NAS-Bench-201上表现良好。它甚至比CIFAR-10和CIFAR-100上的无训练指标略好请注意,#Param非常容易计算,在100个网络上的搜索成本仅为3秒。基于线性区域的度量(LR1和LR2)比NTK更好且更稳定NTK的性能较低,并且具有非常大的方差。虽然LR1和LR2都是基于线性区域,但LR2稍好一些,也更稳定。请注意,免训练指标的有效性可能归因于它们与#Param的高度相关性。令 人 惊 讶 的 是 , 我 们 的 度 量 AngleLoss 在 NAS-Bench-201的整体搜索空间上表现不佳,尽管我们已经在第二节中证明了这一点。4,它明显优于不同网络组中的其他无训练度量。通过对搜索到的网络结构进行可视化,我们发现我们的Angle度量可能会崩溃为一些 平 凡 的 结 构 , 其 中 大 多 数 连 接 是 zeroize , skip-connect或avg pooling。我们的推测是,在这些琐碎的结构中,特征提取层没有学习任何有意义的东西,并且预测层在每次训练迭代中朝着随机方向进行优化。因此,预测层的权重向量在训练后几乎没有变化,这意味着角度度量将为这些结构提供高评分然而,如果我们将我们的度量与#Param结合起来,以避免具有少量参数的结构,这个问题当我们使用基于修剪的搜索方法时,也可以避免这种情况。在选项卡中。5,我们看到,当与#Param结合时,我们的指标显着提高了约10%,4757它实现了比其它无需训练的度量更高的性能在NAS-Bench-101上,我们我们实现了比无训练指标更好的性能。我们还将无需训练的指标与#Param相结合。它表明,这些无需训练的指标也可以从#Param中略微受益,但改进是微不足道的。以#Param为基准,结合无训练指标,甚至会降低其在NAS-Bench-201 CIFAR-10和CIFAR-100上的性能。然而,我们的方法在三个数据集上实现了对#Param的一致改进。我们还表明,当与LR2相结合时,AngleLoss +LR2在所有数据集上都优于LR2。这些实验表明,我们的指标提供了正交的信息,以#参数和训练免费指标。它们可以组合在一起以实现更好的性能。基于剪枝的搜索。我们还将我们的度量应用于TE-NAS中使用的基于修剪的搜索[7]。所有的设置都与Sec中的相同。4,除了我们训练超网100次迭代,因为超网收敛需要更长的时间。每个实验重复5次,并报告平均值和标准偏差。我们比较我们的方法与TE-NAS在Tab。6.文中还列举了其它几种NAS方法的性能,[12]供参考我们报告了TE-NAS的两个结果,一个在原始论文中报告[7],另一个由我们使用官方代码[1]复制,因为我们无法使用默认设置复制原始论文中的结果。再现性能较低,同时搜索成本也较低(我们在1080Ti GPU上进行了评估,这与TE-NAS相同)。在选项卡中。6,我们可以看到,我们的短期训练方法甚至比TE-NAS更快。这是因为TE-NAS需要计算两个指标(LR 1和NTK),对于每个指标,它重复3次并取平均值以获得更好和稳定的性能。然而,我们只用极短的训练方案计算一次度量。4758×表6:基于[7]中基于修剪的搜索的NAS-Bench-201上的测试准确度比较。†表示结果由我们使用官方发布的代码复制[1]。我们的方法和TE-NAS的搜索成本是在1080Ti GPU上测量的,而LGA是在Tesla A40 GPU上测量的。最好的和第二好的结果分别用粗体和下划线表示。方法搜索成本CIFAR-10CIFAR-100ImageNet16-120RSPS [19]800787.66(1.69)58.33(4.34)31.14(3.88)[23]第23话1088954.30(0.00)15.61(0.00)16.32(0.00)GDAS [13]2892593.61(0.09)70.70(0.30)41.84(0.90)[25]第二十五话540093.94(不适用)72.42(不适用)45.17(不适用)TE-NAS [7]155893.90(0.47)71.24(0.56)42.38(0.46)TE-NAS† [7]68293.20(0.29)70.44(1.34)42.34(0.63)角度损失50893.16(0.37)70.48(1.04)43.04(1.82)角度损失+#参数50893.36(0.26)70.87(0.41)43.77(1.33)表7:与DARTS CIFAR-10的最新技术水平的比较最好的和第二好的结果分别用粗体和下划线表示NASNet-A [41]ENAS [27][28]第二十八话20000.531503.34.63.297.3597.1196.66RLRL进化随机基线[23]43.296.71随机[23]第23话0.43.397.00梯度[23]第23话1.03.397.24梯度GDAS [13]0.172.597.18梯度P-DARTS [9]0.33.497.50梯度[36]第三十六话0.13.697.43梯度SDARTS-ADV [8]1.33.397.39梯度TE-NAS [7]0.053.897.37免训练角度损失0.093.297.37短训练角度损失+#参数0.093.297.44短训练在基于剪枝的搜索下,我们的度量不会像随机搜索那样出现崩溃问题。这是因为基于修剪的方法从超网开始,这绝对是不平凡的。在有限的步骤中,网络几乎永远不会达到具有大量空操作的平凡结构。如Tab.所示。6、TE-NAS在CIFAR-10和CIFAR-100上的原始结果优于我们,但搜索成本是我们的3。我们的性能是与TE-NAS的再现结果相比,在较低的搜索成本。在ImageNet 16 - 120上,我们的指标在两种情况下都优于TE-NAS。我们还将我们的度量与#Param结合起来,额外的搜索成本可以忽略不计。它进一步提高了我们的性能,所有三个数据集都是0。2%-0。百分之七。5.2. DARTS搜索空间我们将我们的度量应用于TE-NAS [7]中使用的基于修剪的搜索方法,以进行以下实验。CIFAR-10的结果 我们首先在CIFAR-10数据集上将我们的度量与其他方法进行比较。如Tab.所示。7,我们的指标在0. 09天内完成搜索过程(即,2.16 1080Ti GPU上运行。与重-方法搜索成本(GPU天数)参数(M)前1位访问(%)搜索方法4759在NAS-Bench-201上的结果表明,在这种情况下,我们 的 搜 索 成 本 高 于 这 是 因 为 TE-NAS 在 DARTSCIFAR-10上使用较小的批处理大小来计算NTK,从而减少了计算量。尽管如此,我们的搜索成本仍然比其他NAS方法低得多。我们的指标也达到了与TE-NAS相当的性能,但搜索的网络大小要小得多。当与#Param结合使用时,我们的度量再次实现了2.56%的较低测试误差,这与最先进的方法相比具有竞争力。ImageNet-1 K上的结果。我们将我们的度量与最先进的NAS方法在ImageNet-1 K [11]上进行了比较。8. 我们的短期培训设置与CIFAR-10相同。为了进行评估,我们按照[7]将网络堆叠为14个单元,初始通道数为48。在Tab的上半部分。在CIFAR-10上搜索网络,然后在ImageNet-1 K上进行评估。我们可以看到,我们的指标与最先进的NAS方法相比具有竞争力,搜索成本要与TE-NAS相比,我们的性能明显更好,网络规模更小。Tab的下半部分。8显示了直接在ImageNet-1 K上搜索的不同方法的结果。使用我们的指标进行基于修剪的搜索仅需0.11 GPU天4760×Init.凯明制服凯明普通泽维尔制服费用437 437 437累积(%)70.58(0.82)70.40(0.70)70.25(1.00)#图片5 10 20费用347 437 627累积(%)70.26(1.08)70.58(0.82)70.28(0.97)表8:与DARTS搜索空间ImageNet-1 K数据集上最先进的NAS方法的比较方法搜索成本(GPU天)参数(M)前1名(%)前5名(%)搜索方法搜索数据集NASNet-A [41]20005.374.091.6RLCIFAR-10AmoebaNet-C [28]31506.475.792.4进化[23]第23话4.04.773.391.3梯度GDAS [13]0.215.374.091.5梯度P-DARTS [9]0.34.975.692.6梯度[36]第三十六话0.15.374.992.2梯度TE-NAS [7]0.056.373.891.7免训练角度损失0.094.775.392.5短训练角度损失+#参数0.094.774.892.3短训练[21]第二十一话8.37.175.192.5梯度ImageNet-1K[36]第三十六话3.85.374.892.7梯度TE-NAS [7]0.175.475.592.5免训练角度损失0.114.874.591.9短训练角度损失+#参数0.115.975.992.9短训练表9:NAS-Bench-201 CIFAR-100上不同训练超参数的消融研究(a) 训练迭代次数(b)抽样类别的数目。迭代次数10255075#类51020费用99230437673费用332437641累积(%)70.22(1.08)70.33(0.91)70.58(0.82)70.37(0.57)累积(%)70.02(0.74)70.58(0.82)70.30(0.74)(c)网络启动。(d)取样图像的数目。(即,2.64 GPU小时),甚至比TE-NAS更快。我们的指标比其他NAS方法快30多。我们的度量的性能比其他方法略低,但模型尺寸较小。当与#Param相结合时,我们的方法的性能得到了很大的提高,达到了24.1%/7.1%的具有竞争力的请注意,我们的搜索成本也明显低于其他方法。5.3. 消融研究在这里,我们研究了不同的超参数在我们的短训练方案中的影响,包括训练迭代次数,采样类,每个类的图像和权重初始化方法。我们在CIFAR上进行实验100. 不同设置的结果显示在选项卡中。9.我们在Tab中使用随机搜索方法。5.1作为基线。我们可以看到,更长的训练迭代往往会获得更好的性能。这是因为更长的训练迭代允许网络更好地收敛,这会产生更多信息的角度度量和训练损失。但即使只有10次训练迭代也可以达到不错的性能。增加类的数量并不总是提高性能。我们推测,虽然更多的类可以提供更多关于目标数据集的信息,但它也使代理数据集更难,使得网络在有限的迭代中更难收敛,并且产生更少的信息角度度量和训练损失。同样,增加图像数量也不能保证更好的性能。为了实现最佳的准确性-效率权衡,可能需要调整训练超参数。但是该方法的性能对超参数不太敏感,并且由于该方法的高效性,可以对超参数进行调整。6. 结论我们进行了一项系统研究,以探索最近的无训练指标与#Param之间的关系。我们的实证研究表明,最近的无训练方法与#Param类似,但不必要地复杂。受这一发现的启发,我们提出了一个轻量级的基于训练的度量,它提供了比#Param更好的估计模型性能的正交信息。我们的方法实现了具有竞争力的性能与国家的最先进的NAS方法,同时甚至比训练免费指标更快。在#Param信息无用的搜索空间上,无训练指标的性能急剧下降,而我们的方法在不同的数据集上的性能明显优于它们。我们希望我们的工作可以启发未来的工作,以设计新的指标,提供更多的参数无关的信息估计网络4761引用[1] 正式实施TE-NAS。https://github. com/VITA-Group/TENAS.[2] Mohamed S Abdelfattah , Abhinav Mehrotra , KukaszDudziak,and Nicholas Donald Lane.用于轻量级nas的零成本代理。在2020年国际学习代表会议上[3] Gabriel Bender,Pieter-Jan Kindermans,Barret Zoph,Vijay Vasudevan,and Quoc Le.理解和简化一次性架构搜 索 。 在 Jennifer Dy 和 Andreas Krause 的 编 辑 ,Proceedings of the 35 th International Conference onMachine Learning , Proceedings of Machine LearningResearch的第80卷,第550-559页中。PMLR,2018年7月10日[4] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。通过超网络的一次性模型架构搜索在2017年国际学习代表会议上[5] 作者声明:by Simon Carbonnelle,and Christophe DeVleeschouwer图层旋转:是深度网络泛化的一个非常强大的指标arXiv预印本arXiv:1806.01603,2018。[6] 陈武阳、龚新宇、刘先明、张骞、李元、王章阳。Fasterseg:搜索更快的实时语义分割。在2019年国际学习代表会议上[7] 陈舞阳、新余公、张阳王。四个GPU小时内在ImageNet上搜索神经结构:一种理论上的观点。在2020年国际学习代表会议上[8] Xiangning Chen和Cho-Jui Hsieh。通过基于扰动的正则化稳定可微分体系结构搜索。国际机器学习会议,第1554-1565页。PMLR,2020年。[9] 辰昕、邪灵犀、君无邪、齐天。 渐进式可区分体系结构 搜 索 : 缩 小 搜 索 和 评 价 之 间 的 深 度 差 距 。 在IEEE/CVF计算机视觉国际会议论文集,第1294-1303页[10] Yukang Chen ,Tong Yang ,Xiangyu Zhang,GaofengMeng,Xinyu Xiao,and Jian Sun.Detnas:用于对象检测的主干搜索。神经信息处理系统的进展,32:6642[11] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页[12] 董轩逸和杨毅。Nas-bench-201:扩展可再现神经架构搜索的范围。在2019年国际学习代表会议[13] 董轩逸和杨毅。 寻找一个强大的新-在四个GPU小时内完成的Ral架构。在IEEE/CVF计算机视觉和模式识别会议论文集,第1761-1770页[14] Zichao Guo , Xiangyu Zhang , Haoyuan Mu , WenHeng,Zechun Liu,Yichen Wei,and Jian Sun.均匀采样单路径单次神经结构搜索在欧洲计算机视觉会议,第544-560页。Springer,2020年。[15] Yingming Hu , Yuding Liang , Zichao
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功