没有合适的资源?快使用搜索试试~ 我知道了~
347Zen-NAS:用于高性能图像识别的零拍摄NAS明林阿里巴巴集团美国华盛顿州贝尔维尤ming. alibaba-inc.com陈和森阿里巴巴集团杭州,浙江省,中国hesen. alibaba-inc.com阿里巴巴集团美国华盛顿州贝尔维尤pichao.wang邮件alibaba-inc.com孙秀玉阿里巴巴集团杭州,浙江省,中国xiuyu. alibaba-inc.com孙振红阿里巴巴集团杭州,浙江省,中国zhenhong. alibaba-inc.com阿里巴巴集团美国华盛顿州贝尔维尤qi.qian@ alibaba-inc.com阿里巴巴集团杭州,浙江省,中国lihao. alibaba-inc.com融金阿里巴巴集团杭州,浙江省,中国jinrong. alibaba-inc.com摘要精度预测器是神经结构搜索(NAS)中用于排序结构的关键组件.构建高质量的准确度预测器通常需要大量的计算。为了解决这个问题,而不是使用一个准确性预测,我们提出了一种新的零杆指数称为禅分数排名的架构。Zen-Score代表了网络的表达能力,与模型的准确性呈正相关. Zen-Score的计算只需要通过随机初始化的网络进行一些前向推理,而无需训练网络参数。 在Zen-Score的基础上,我们进一步提出了一种新的NAS算法,称为Zen-NAS,通过在给定的推理预算下最大化目标网络的Zen-Score。在不到半个GPU天的时间内,Zen-NAS能够以无数据的方式直接搜索高性能架构。与以前的NAS方法相比,所提出的Zen-NAS在多个服务器端和移动端GPU平台上的速度提高了数倍,在ImageNet上具有最先进的准确性。搜索和训练代码以及预训练模型可从https://github.com/idstcv/ZenNAS获得。1. 介绍高性能深度神经网络的设计是一项具有挑战性的任务。神经结构搜索(NAS)方法促进了这一进展。主要有两个关键NVIDIA V100 FP168075700 2 4 6 8推理延迟(ms)图1. ZenNets top-1准确度与ImageNet上的推理延迟(毫秒/图像)。以NVIDIA V100 GPU为基准,半精度(FP 16),批量大小64,搜索成本0.5 GPU/天。组件、架构生成器和准确度预测器。发电机提出了潜在的高性能网络和预测器预测其准确性。流行的生成器包括均匀采样[13]、进化算法[41]和强化学习[30]。准确度预测器包括蛮力方法[42,57,3,41]、基于预测器的方法[42,57,3,41]、基于预测器的方法[42,57,3,41]、基于预测器的方法[42,57,3,41]和基于预测器的方法[42,57,3,41]。[30,56,29]和一次性方法[26,61,69,62,57,59,6、66、54、5]。构建高质量准确度预测器的主要挑战是巨大的计算RegNetResNetEfficientNetOFANetDenseNetResNeStMobileNetMnasNetDNANetDFNetZenNet4.9倍加速前1位准确度(%)348成本。两个都是蛮-349O→强制方法和基于预测器的方法需要训练相当多的网络。one-shot方法通过参数共享降低了训练成本。虽然比暴力方法更有效,但一次性方法仍然需要训练一个巨大的超网,这仍然是最近的研究还发现,几乎所有基于超网的方法都会受到模型干扰[5,63]的影响,这会降低准确度预测器的质量[46]。此外,由于超网必须比目标网络大得多这些问题使得一次性方法在设计高性能网络时遇到困难为了解决这些问题,而不是使用一个昂贵的准确性预测,我们提出了一个几乎零成本的代理,称为禅分数,高效的NAS。Zen-Score测量深度神经网络的表达能力[39,31],并与模型准确性呈正相关。Zen-Score的计算只需要在使用随机高斯输入的随机初始化网络此外,Zen-Score处理了批量归一化(BN)[4,35]引起的尺度敏感问题,使其广泛适用于现实世界的问题。基于Zen-Score,我们设计了一个新的Zen-NAS算法。它在推理预算内最大化目标网络的Zen-Score。Zen-NAS是一种Zero-Shot方法,因为它在搜索1期间不优化网络参数。我们应用Zen-NAS在各种推理预算下搜索最优网络,包括推理延迟,FLOPs(浮点运算)和模型大小,并在CIFAR-10/CIFAR-100/ImageNet上实现了最先进的(SOTA)性能,大大优于以前的人类设计和NAS设计的模型。Zen-NAS是第一个在大规模全分辨率ImageNet-1 k数据集[12]上实现SOTA结果的零射击方法[32,1,7]。我们的方法受到深度学习研究的最新进展的启发[34,11,23,39,9,28,31,44,47,14,60],这些研究表明,深度模型优于浅层模型,因为在相同数量的神经元下,深度模型更具表达力根据统计学习理论中的偏差-方差权衡[19],提高深度网络的表达能力意味着更小的偏差误差。当训练数据集的大小n足够大时,方差误差将减少为(1/√n)0。 这意味着,化误差由偏置误差主导,偏置误差可以通过更有表达力的网络来减少。这些理论结果与大规模深度学习实践[36,52,37]非常一致。我们将主要贡献总结如下:1显然,最终搜索到的架构必须在部署之前在目标数据集上进行训练• 我们提出了一种新的零杆代理Zen-Score NAS。Zen-Score算法具有计算效率高、尺度不敏感等优点。提出了一种新的NAS算法Zen-NAS,用于搜索设计空间中Zen得分最大的网络。• Zen-NAS设计的ZenNets在半个GPU天内达到了83.ImageNet上6%的top-1准确度据我们所知,Zen-NAS是第一个在ImageNet上优于基于训练的方法的零射击方法。2. 相关工作我们简要回顾了相关的工作。关于NAS的全面综述,请参阅各论[43]。在NAS的早期阶段,通过直接训练网络以获得其准确 性 来 采 用 蛮 力 方 法 来 搜 索 体 系 结 构 。 例 如 ,AmoebaNet[41]使用进化算法(EA)[20]在CIFAR-10上进行结构搜索,然后将结构转移它需要大约3150 GPU天的搜索 , 达 到 74 。 ImageNet 上 5% 的 top-1 准 确 率 。 受AmoebaNet成功的启发,提出了许多基于EA的NAS算法来提高搜索效率,例如EcoNAS [69],CARS [62],GeNet [57]和PNAS [25]。这些方法搜索下采样的图像或减少查询的数量。强化学习是NAS中另一种流行的生成器(采样器),包括NAS-Net [70],Mnasnet [49]和MetaQNN [3]。基于EA和RL的方法都需要大量的网络训练。为了解决这个问题,基于预测器的方法将架构编码成高维向量。许多架构被训练以获得它们的准确度[30,29],然后被用作学习准确度预测器的训练数据。一次性方法通过训练一个大的超网进一步降低了训练成本该框架被广泛应用于许多高效的NAS方法中,包括DARTS [26] 、 SNAS [59] 、 PC-DARTS [61] 、ProxylessNAS [62]、SNAS [63]、SNAS [64]、SNAS[65]、SNAS [66]、SNAS [67]、SNAS [68]、SNAS [69]和SNAS [69]。[6]、GDAS [66]、FBNetV2 [54]、DNANet [21]、单路径One-Shot NAS [13].虽然上述努力大大降低了搜索成本,但它们在ImageNet上的前1名准确率低于80。0%。OFANet [5]的作者指出,权重共享会受到模型干扰的影响。他们提出了一个渐进式收缩战略来解决这个问题。所得的OFANet达到80。在搜索51.6 GPU天后,准确率为1%EfficientNet [50]是NAS设计的另一个高精度网络。搜索EfficientNet-B7需要大约3800 GPU天,其准确率为84。百分之四相比之下,Zen-NAS达到83。6%的精度,同时使用的资源数量级倍更少。350∈→×∈||一些正在进行的工作正在积极探索零杆代理高效的NAS。然而,这些努力并没有带来SOTA的结果。在最近的一项实证研究中,[1]评估了NAS基准数据集上六个零射击修剪代理的性能。synflow [51]在他们的实验中取得了最好的结果。我们比较synflow与Zen-Score在公平的设置,并显示Zen-Score达到+1。CIFAR-10和+8的准确度提高1%。CIFAR-100的准确度提高2%。并发工作TE-NAS [7]使用NTK分数和网络表现力的组合作为NAS代理。具体地,TE-NAS通过直接对随机采样的图像上的活性区域的数量R'N进行计数来估计表现力。相比之下,Zen-Score不仅考虑了线性区域的分布,还考虑了线性分类器在每个线性区域的高斯复杂度,从而更准确地估计了网络的表达能力。Zen-Score的计算速度比TE-NAS快20到28倍。在性能方面,TE-NAS达到74. ImageNet上1%的top-1准确率,落后于SOTA基线。Zen- NAS达到+9。5%更好的准确性在类似的搜索- ING成本。另一个并行工作NASWOT [33]根据小批量样本之间的二进制激活模式它在CIFAR-10/CIFAR-100上实现了与TE-NAS相似的top-1精度区分Zen-NAS与非监督NAS(UnNAS)是很重要的[24]。在UnNAS中,网络被训练来预测文本前任务,因此它仍然需要参数训练。在Zen-NAS中,在搜索期间不需要参数训练。在这项工作中,我们主要关注下一节中描述之前的一些作品在更一般的不规则设计空间中设计网络,例如DARTS [26]和RandWire [58]。Zen-NAS不能应用于这些不规则的设计空间,因为Zen-Score在不规则的设计空间中不是数学上良好定义的实际上,普通网络空间是覆盖大多数SOTA网络的足够大的空间,包括但不限于ResNet、MobileNet和EfficientNet。特别是,Zen-NAS在ImageNet上的表现明显优于基于DART的3. Vanilla Network的表现力在本节中,我们将讨论如何测量vanilla卷积神经网络(VCNN)家族的表达能力我们证明了网络的表达能力可以通过其预期的高斯复杂度(简称Φ-score)来有效地测量。在下一节中,我们将进一步证明,对于非常深的网络,直接计算Φ-score会导致数值溢出。该溢出可以通过添加BN层并且然后通过常数重新缩放Φ分数来解决。这个新的分数被命名为第4节中的禅分数。3.1. 符号L层神经网络被公式化为函数f:Rm0RmL,其中m0是输入维度,mL是输出维度. X〇Rm〇表示输入图像。相应地,第t层的输出特征图由Xt表示。第t层有m t−1个输入通道和m t个输出通道。卷积核为θtRmt×mt−1 ×k×k。图像分辨率为H W。小批量大小为B。均值μ和方差σ2的高斯分布由N(μ,σ)表示。3.2. Vanilla卷积神经网络vanilla卷积神经网络(VCNN)是理论研究中广泛使用的原型[39,47,14]。香草网络的主体由多个卷积 层 堆 叠 。 每 一 层 由 一 个 卷 积 运 算 符 , 然 后 是CNOMU激活。所有其他组件都将从主链中删除,包括残余连接和批归一化。在主体之后最后,soft-max操作将网络输出转换为标签预测。给定输入x和网络参数θ,f(x θ)是指网络主体的输出,即GAP层之前的特征图(pre-GAP层)。我们测量的网络表现力方面的pre-GAP,因为它包含了我们需要的大部分信息。现代网络使用辅助结构,如残差链接,批量归一化和自我注意块[16]。这些结构不会显著影响网络的表示能力。例如,BN层可以经由核融合被合并到卷积核中。自关注线性地组合现有的特征图,因此跨越相同的子空间。因此,在测量网络表现力时,这些结构会被暂时删除,然后在训练和测试阶段重新添加对于非RELU激活函数,它们以类似的方式被RELU替换这些简单的修改使我们的方法适用于实践中广泛使用的大多数非VCNN模型。事实上,几乎所有的单分支前馈网络都可以通过上述修改转换为香草网络。3.3. Φ-分数作为表现力给定一个VCNN f(x θ),我们提出了一个新的数值指标Φ-score作为其表达能力的代理。Φ分数的定义受到最近关于深度网络表现力的理论研究的启发[47,60]。这些研究中的一个关键观察结果是,香草网络可以被分解351|S||S||S|S {S S · ··S}|S|Σ∥∥mL×m0转化为以激活模式为条件的分段线性函数[34]:引理1([34,31]). 的激活模式第t层为At(x)。则对于任何vanilla网络f(·),f(x|θ)=Ix(Si)W Si x(1)Si ∈S重要的是要注意,在Φ-score中,只涉及x的梯度而不是θ这与[1]中的零成本代理不同,[1]中的零成本代理在其公式中计算θ的梯度这些代理衡量的是可训练性[55,7],而不是网络的表现力4. Zen-Score和Zen-NAS在本节中,我们将展示直接计算Φ-score哪里SI是一凸多面体取决于{A1(x),A2(x),· ··,AL(x)}; S是Rm0中凸多面体的有限集;Ix(Si)= 1,如果x∈Si,否则为零; WSi是大小为R的系数矩阵.根据引理1,任何vanilla网络都是由凸多面体分割的分段线性函数=1、二、、|S|哪里是线性区域的数量(参见[14]中的图2)。线性区域的数量已在几项理论研究中用作表达率代理[34,47,14,67,60]。但是,直接使用有两个限制:a)计数对于大型网络,在计算上是不可行的; b)在代理中不考虑每个WSi的表示功率。第一个限制是由于大型网络的线性区域数量呈指数增长[34,60]。为了理解第二个限制,我们回顾线性分类器的高斯复杂度[18]:引理2([18]). 对于线性函数类{f:f(X)=WXs.t. <$W<$F≤G},其高斯复杂度的上界为O(G).换句话说,引理2说,由高斯复杂度度量的线性函数类的表达性由其参数矩阵W的Frobenius范数控制。受引理1和引理2的启发,我们定义了以下用于测量网络表现力的指数:定义1(VCNN的Φ分数)。 香草网络f(·)的预期高斯复杂度定义为对于非常深的网络,由于没有BN层的梯度爆炸而导致数值溢出。梯度扩展可以通过将BN层添加回去来解决,但是Φ分数将被自适应地重新缩放,使得难以比较不同网络之间的Φ分数。同样的现象在深度学习复杂性分析中被称为“规模敏感”问题[4,35]。为了解决这个悬而未决的问题,我们建议通过BN层的方差统计的乘积再一次重新缩放Φ分数。该新分数被表示为Zen-Score,以便与原始Φ分数区分开。Zen-Score被证明是尺度不敏感的。最后,我们提出了基于Zen-Score的Zen-NAS算法,并在下一节中演示了其有效性。4.1. 溢出和BN重新缩放当计算非常深的香草网络的Φ-分数时,几乎肯定会引起数值溢出。这是因为BN层从网络中移除,并且网络输出的幅度沿着深度呈指数增长。为了看到这一点,我们构建了一组没有BN层的香草网络Pw/oBN。所有网络具有相同的宽度但不同的深度。图2(a)绘制了Pw/oBN的Φ分数。30层后,Φ-刻痕溢出。为了解决溢出,我们将BN层添加回并计算图2(b)中的Φ分数。这一次,溢出消失,但是Φ分数按大的因子按比例缩小。这种现象被称为BN重新缩放。为了证明BN重新缩放扰乱体系结构排序,我们构建了另外两组网络,Qw/oBNΦ(f)=logEx,θ.SΣi∈SIx(Si)WSiFΣ(二)和QBN,分别具有和不具有BN。所有网络都有两层,并且具有相同数量的输入和最终输出通道。瓶颈通道的数量=log E x,θxf(x|θ)<$F。(三)在定义1中,我们通过其预期的高斯复杂度(简称Φ-score)来衡量网络的表现力。由于任何VCNN都是线性函数的集合,因此通过平均每个线性区域中的线性函数的高斯复杂度来测量其表达能力是自然的。为此,我们从一些先验分布中随机采样x和θ,然后对WSiF求平均值。这相当于计算f相对于输入的期望梯度范数X.在我们的实现中,x和θ是从标准高斯分布中采样的,这在实践中工作得很好。它是隐藏层的宽度,范围为2到60。相应的Φ分数曲线绘制在图2(d)和图2(d)中。(e)分别。当存在BN层时,对于所有网络,Φ分数变得几乎恒定。这会混淆架构生成器并将搜索驱动到错误的方向。4.2. 从Φ分数到Zen-Score在以上小节中,我们示出了BN层对于防止计算Φ分数中的数值溢出是必要的,但是具有重新缩放的副作用。在本小节中,我们设计了一个新的Zen-Score,它能够校准352楠不含BN关于BN评分评分F··N∥ −∥FFNF我Σ√BatchNormConvReLU禅分计算步骤pre-GAP特征图1075 7550 850252560 10 2030层数(a) Pw/oBN网络的Φ-score12110 20 40 60瓶颈通道(d) Qw/oBN网络的Φ-分数0 10 2030层数(b) P-BN网络的Φ-score六、0五、5五、00 20 40 60瓶颈通道(e)QBN网络的Φ-分数0 10 20 30层数(c) P-BN网络的Zen-Score12110 20 40 60瓶颈通道(f)QBN网络的Zen-Score图2.网络的Φ-分数和Zen-Score,具有不同的深度和瓶颈通道。图3. Zen-Score计算图。x0是一个小批量的输入图像。对于每个BN层,我们提取其小批量偏差参数σi。Δx0{f(x0)}是pre-GAP特征图f(x0)相对于x0的微分。算法1Zen-Score要求:具有pre-GAP特征图f()的Network();α= 0。01.确保:Zen-Score Zen()。一曰: 删除中的所有剩余链接。第二章: 初始化所有神经元(0,1)。第三章: 样本x,(0,1)。4:计算∆E x,f(x)f(x+α)F。第五章: 对于具有m个输出通道的第i个BN层,计算网络作为预处理。 然后,我们随机采样输入向量,并用高斯噪声对其进行扰动。预GAP特征图的扰动表示为线中的Δ4. 这一步用有限差分代替了x避免反向传播。为了获得Zen-Score,缩放因子σ2是从BN层中的每个通道的变化中平均的。最后,Zen-Score由σi和σi的对数和计算。下面的定理保证了BN层网络的Zen-Score近似σ¯i=.Σj2i、j其中σi,j是最小批量标准。没有BN层的相同网络的Φ分数的证明推迟到补充I。BN中第j6:禅(F)log(∆)+ilog g(σ¯i).当存在BN层时再缩放。Zen-Score的计算在算法1中描述。图3可视化算法1的计算图。在算法1中,所有残余链路被从链路中移除Theo r em1. 设f¯(x0)=x¯L是一个没有BN层的L层vanilla网络。f( x0)=xL是它与BN层s的姊妹网络。对于某些常数0< δ<1,K0≤O[log(1/δ)],当BHW≥O[(LK0)2]为larg e时禅不含BN关于BN禅评分评分评分评分σ353P-≤≤QSSPPS··∈ P···P {}----如果概率至少为1-δ,我们有人口和突变它。算法3中给出了变异算法。的宽度和深度(QLσ¯2)Eθ{xL2}(1 L)2t=1t(1 +L)2(4)Eθx¯L2其中,εO(2K0/√BHW)。非正式地说,定理1说要计算f¯(·)层在给定范围内突变 我们选择[0. 五二0]作为该工作中的突变范围,即在当前值的一半或两倍内。新结构Ft被附加如果其推理成本不超过预算,则将其分配给总体。网络的最大深度由L控制,避免了算法产生过深结构。Lt=1 t. 近似误差由L限定。通过最后,我们通过移除净-在f¯()和f()上取x的梯度,我们得到Zen-Score和Φ-score之间的期望关系。4.3. Zen-NAS用于最大化表现力算法2Zen-NAS要求:搜索空间、推理预算B、最大深度L、迭代总数T、进化流行度。初始结构F0。确保:NAS设计的ZenNet F *。1:初始化群体=F0。2:对于t=l,2,…,T,do第三章:随机选择F t.第四章:突变Ft=MU TA TE(Ft,)5:如果Ft超过推断budget或具有大于L的值层然后6、什么都不做7:其他8:得到Zen-Scorez=Ze n(Ft)。9:将Ft附加到。10:如果结束11:如果的大小超过B,则移除最小Zen-Score的网络。12:结束十三: 返回F*,P中Zen-Score最高的网络。算法3突变要求:结构F t,搜索空间。确保:随机突变结构Ft。1:在Ft中均匀地选择块h。2:在一定范围内均匀交替块类型、核大小、宽度和深度h3:返回突变结构Ft。我们设计了Zen-NAS算法来最大化目标网络的Zen-Score。算法2中给出了Zen-NAS的逐步描述。Zen-NAS使用进化算法(EA)作为架构生成器。可以选择其他生成器,例如强化学习甚至贪婪选择。选择EA是因为它的简单性。在算法2中,我们随机生成N个结构。在每个迭代步骤t,我们随机选择能用最小的禅值在T次迭代之后,返回具有最大Zen-Score的网络作为Zen-NAS的输出我们将发现的架构命名为ZenNets。5. 实验在本节中,对CIFAR-10/CIFAR-100进行[20] 和ImageNet-1 k [12]来验证Zen-NAS的优越性。我们首先比较Zen-Score与CIFAR-10和CIFAR-100上的几个零杆代理,使用相同的搜索空间,搜索策略和训练设置。然后,我们将Zen-NAS与ImageNet上最先进的方法进行比较。CIFAR-10/CIFAR-100上的Zen-NAS可参见补充D。最后,我们在5.3小节中比较了Zen-NAS与SOTA方法的搜索成本由于篇幅限制,NVIDIA T4和Google Pixel2上的推理速度报告在补充C中。ResNets的Zen-Scores和在公平训练设置下的准确度在补充E中报告。我们在Supple中附上了ImageNet上的一个大型网络性能表-J.为了与以前的工作保持一致,我们考虑以下两个搜索空间:• 搜索空间I在[15,40]之后,该搜索空间由ResNet中定义的残差块和瓶颈块组成。• 搜索空间II在[45,38]之后,这个搜索空间由MobileNet块组成。在集合1、2、4、6中搜索深度扩展比。请参阅附录A中的数据集描述和定义。尾部实验设置。在每次试验中,初始结构是一个随机选择的小网络,保证满足推理预算。在集合3、5、7中搜索内核大小。按照传统的设计,CIFAR-10/CIFAR-100的阶段数为3,ImageNet为5。进化种群规模为256,进化迭代次数T=96,000。CIFAR- 10/CIFAR-100的分辨率为32x32,ImageNet为224 x224。5.1. Zen-Score与其他零快照代理在[1,7]之后,我们将Zen-Score与五个零杆代理进行比较:FLOP、网络参数的梯度范数(grad)、synflow [51] 、 TE-NAS 评 分 ( TE-Score ) [7] 和NASWOT [33]。对于每个代理,我们将Zen-Score替换为354≤Synflow 95.1% 75.9%TE评分96.1% 77.2%NASWOT 96.0% 77.5%随机93.5±0.7% 71.1±3.1%表1.在CIFAR-10/CIFAR-100上,五个零射击代理的最高精度预算:型号尺寸N ≤1 M。‘Random’: average accuracy代理模型N次加速TE评分ResNet-18160.341/28xResNet-50160.771/20xNASWOT† ResNet-18 16 0.040 1/3.3xResNet-50 16 0.059 1/1.6xZen-Score ResNet-18 16 0.012 1.0ResNet-50 16 0.037 1.0表2.在分辨率为224 x224时,计算ResNet-18/50的Zen/TE分数的时间成本(秒)统计误差在 5%以内。‘time’: time forcomputing Zen/TE-score for '加速':TE-评分对. 禅-分数†:正式实现输出ResNet-18/50的Inf分数八十0七十七。575. 0七十二5七十00的情况。5.1. 0个1.52. 0浮点数×109图4. ZenNets针对FLOPs进行了优化。然后运行算法2达T= 96,000次迭代以确保收敛。由于synflow越小越好,我们在Algo中使用其负值[26]全球司73.1 4SNAS [59] GD 72.7 1.5PC-DARTS [61]全球治理75.8 3.8ProxylessNAS [6] GD 75.1 8.3GDAS [66] GD 74 0.8FBNetV2-L1 [54] GD 77.2 25NASNet-A [70] RL 74 1800[49]第四十九话MetaQNN [3] RL 77.4 96PNAS [25] SMBO 74.2 224SemiNAS [29] SSL 76.5 4TE-NAS [7] ZS 74.1 0.2OFANet [5] PS 80.1 51.6EfficientNet-B7[50]扩展84.4 3800‡Zen-NAS ZS 83.6 0.5表3.NAS搜索成本比较。 “方法”:“EA”是进化算法的缩写;GD是Gradient Descent的缩写;“RL”是强化学习的缩写;'ZS'是Zero-shot的缩写;“SMBO”、“SSL”、“PS”和“Scaling”是特殊的搜索方法/框架。t:在TPU上运行;‡:成本由[54]估算;Rithm 2.按照惯例,我们在CIFAR-10/CIFAR-100上搜索模型大小为N的最佳网络 1米 收敛曲线在附录C中绘出在这些图中,所有六个分数随着迭代单调地提高。在上述NAS步骤之后,我们在相同的训练设置下为每个代理训练最佳得分为了提供随机基线,我们随机生成网络。层的宽度在范围[4,512]内变化,并且每个级的深度在范围[1,10]内变化。如果网络大小大于1M,我们将其宽度缩小0倍。每次75美元,直到它满足预算。总共生成并训练了32个随机网络表1中报告了前1位准确度。Zen-Score在CIFAR-10和CIFAR-100上的表现明显优于其他五个代理。TE-Score和NASWOT 是具有类似性能的亚军代理,其次是synflow。不难看出,原始代理(如FLOP和梯度范数)的性能很差,甚至比随机搜索更差。为了比较Zen-Score和TE-score的计算效率,我们以224 x224分辨率计算ResNet-18和ResNet-50的两个分数。预期的时间成本平均超过100次试验。我们发现,平均Zen/TE-RegNetEfficientNetOFANetMobileNetMnasNetDNANetDFNetZenNet减少44%前1位准确度(%)代理CIFAR-10CIFAR-100NAS方法前1名(%)GPU日Zen-Score百分之九十六点二百分之八十点一AmoebaNet-A [41]EcoNAS [69]EAEA74.574.83150†8FLOPs93.1%百分之六十四点七CARS-I [62]EA75.20.4355∼∼对N= 16个随机图像的评分足以将统计误差降低到5%以下。结果报告于表2中。Zen-Score的计算速度是TE-Score的20 ~ 28我们尽最大努力使用官方代码对ResNet- 18/50的NASWOT进行基准测试。然而,官方代码总是在分辨率224处输出ResNet-18/50的Inf。尽管存在Inf问题,Zen-Score 在 ResNet-18 上 比 NASWOT 快 3.3 倍 , 在ResNet- 50上快1.6倍。5.2. ImageNet上的Zen-NAS我 们 使 用 Zen-NAS 在 ImageNet 上 搜 索 有 效 网 络(ZenNet)。我们考虑以下流行网络作为基线:(a)手动设计的网络,包括ResNet [15],DenseNet [17],ResNeSt [65],MobileNet- V2 [45](b)用于GPU上快速推理的NAS设计的网络,包括OFANet-9 ms/11 ms[5],DFNet [22],Reg- Net [40];(c)针对FLOP优化的NAS设计的网络,包括OFANet-389 M/482 M/595 M[5],DNANet [2 1],EfficientNet [50],Mnasnet [49].在 这 些 网 络 中 , EfficientNet 是 NAS 相 关 作 品 中EfficientNet-B 0/B1适用于移动终端,因为它们的浮点数和模型大小都很小。EfficientNet-B3 B7是最适合在高端GPU上部署的大型型号。虽然EfficientNet针对FLOP进行了优化,但其在GPU上的推理速度仍处于顶级水平。许多以前的作品通过GPU上的推理速度与EfficientNet进行比较[65,5,40]。搜索低延迟网络根据以前的工作[5,22,40],我们使用Zen-NAS来优化NVIDIA V100 GPU上的网络干扰速度我们在这个实验中使用搜索在批量大小为64、半精度(float16)的情况下测试推理速度。我们搜索推理延迟在0.1/0.2/0.3/0.5/0.8/1.2毫秒(ms)内的网络。为了测试推理延迟,我们设置batch-size=64,并进行30次小批量推理。记录平均推理等待时间。ImageNet上的top-1准确率与推理延迟绘制在图1中。显然,ZenNets在准确性和推理速度方面都大大优于基线模型。最大型 号 ZenNet-1.2ms 达 到 83. 6% 的 top-1 精 度 , 介 于EfficientNet-B5和B6之间。大约是4。在相同精度水平下,比EfficientNet快9搜索轻量级网络在以前的作品[5,50]之后,我们使用Zen-NAS搜索具有小FLOP的轻量级网络。我们在这个实 验中 使 用 了搜 索 空 间 II。 我们 搜 索 计算 成 本 在400/600/900 M FLOPs内的网络。类似于OFANet和Ef-ficientNet,我们在卷积层之后添加SE块。top-1准确度与FLOP如图4所示。再次,ZenNets的表现远远优于大多数模型。ZenNet-900 M-SE达到80。8%的top-1精度,与EfficientNet-B3相当,FLOP减少43%。第二名是OFANet,其效率与ZenNet相似。5.3. Zen-NAS的搜索成本与SOTAZen-NAS的主要时间开销是Zen-Score的计算。网络延迟由内部延迟预测器预测根据表2,ResNet-50的Zen-Score的计算仅取0。15秒 这意味着,与ResNet-50类似的96,000个网络只需要4个GPU小时,即0。17GPU日。我们在表3中比较了Zen-NAS搜索成本与SOTA NAS方法。由于每种NAS方法都使用不同的设置,因此很难进行每个人都同意的公平比较。然而,我们只关心每篇论文中报道的最佳模型和相应的搜索成本。这给我们一个粗略的印象,这些方法的效率和他们的实际能力,设计高性能的模型。从表3中,对于常规NAS方法,需要数百到数千GPU天来找到精度优于78的良好结构。0%。许多一次性方法非常快。对于大多数单次方法,最好的准确率低于80%。相比之下,Zen-NAS达到83。0.5 GPU天内达到6%的前1位精度 其中方法达到80. 0%的top-1准确度,Zen-NAS的搜索速度比OFANet快近100倍,比EfficientNet快7800倍在表3中,TE-NAS比Zen-NAS使用更少的这与表2并不冲突,因为这两种方法评估的网络总数不同。6. 结论我们提出了Zen-NAS,这是一个零触发神经架构搜索框架,用于设计高性能深度图像识别网络。在不优化网络参数的情况下,Zen-NAS通过网络表现力对网络进行排名,网络表现力可以通过Zen-Score进行数值测量。Zen-NAS的搜索速度明显快于以前的SOTA方法。Zen-NAS自动设计的ZenNet在多个识别任务中的推理延迟、FLOP和模型大小方面显著更高效。我们希望Zen-NAS的优雅能够激发更多的理论研究,从而更深入地理解高效的网络设计。引用[1] 穆 罕 默 德 ·S. Abdelfattah , Abhinav Mehrotra , ŁukaszDudziak,and Nicholas D.巷轻量级NAS的零成本代理。ICLR,2021年。356[2] Gustavo Aguilar , Yuan Ling , Yu Zhang , BenjaminYao,Xing Fan,and Chenlei Guo.从内部表征中提炼知识在AAAI,2020年。[3] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用再增强学习设计神经网络结构.在ICLR,2017。[4] Peter L.作者:Dylan J. Foster,and Matus J.特尔加斯基神经网络的谱归一化边界。在NIPS,2017年。[5] Han Cai,Chuang Gan,Tianzhe Wang,Zhekai Zhang,and Song Han.一次性:训练一个网络并使其专业化,以便在各种硬件平台上进行高效部署。在ICLR,2020年。[6] 韩才、朱立庚、宋涵。ProxylessNAS:在目标任务和硬件上进行直接神经架构搜索2019年,在ICLR[7] 陈舞阳、新余公、张阳王。四个GPU小时内在ImageNet上搜索神经结构:一种理论上的观点。ICLR,2021年。[8] 辰昕、邪灵犀、君无邪、齐天。 Progressive DARTS:Bridging the Optimization Gap for NAS in the Wild. 在ICCV,2019年。[9] Nadav Cohen和Amnon Shashua。通过池化几何的深度卷积网络的归纳偏差。在ICLR,2017。[10] Ekin D. Cubuk、Barret Zoph、Dandelion Mane、VijayVa-sudevan和Quoc V.乐自动增强:从数据中学习资产管理策略。在CVPR,2019年。[11] Amit Daniely Roy Frostig Yoram Singer深入理解神经网络:初始化的力量和对表现力的双重看法。在NIPS,2016年。[12] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。CVPR,2009。[13] Zichao Guo , Xiangyu Zhang , Haoyuan Mu , WenHeng,Zechun Liu,Yichen Wei,and Jian Sun.均匀采样的单路径单次神经结构搜索在ECCV,2020年。[14] 鲍里斯·哈宁和大卫·罗尔尼克。深度网络中线性区域的复杂性。在ICML,2019。[15] K. 他,X。Zhang,S.Ren和J.太阳用于图像识别的深度残差在CVPR,2016年。[16] Jie Hu , Li Shen , Samuel Albanie , Gang Sun , andEnhua Wu.压缩和激励网络。在CVPR,2018年。[17] 高煌,刘庄,劳伦斯·范德马腾,和Kilian Q.温伯格密集连接卷积网络。在CVPR,2017年。[18] 沙姆湾Kakade、Karthik Sridh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功