神经搜索空间进化（NSE）：大空间神经结构搜索方法的优化和填充

96 浏览量更新于2023-10-14 收藏 756KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6659网络结果神经结构搜索元正慈1人，陈琳2人，孙明3人，陈伯玉1人，张弘文4人，欧阳万里1人1悉尼大学、2牛津大学、3商汤科技、4中国科学院{yuanzheng.ci，boyu.chen，wanli. oyang}@ sydney.edu.au，chen. eng.ox.ac.uk，sunming1@sensetime.com，hongwen. cripac.ia.ac.cn摘要神经结构设计的自动化已经成为人类专家的替代品。已经提出了各种搜索方法，旨在找到搜索空间中的最优当搜索空间变大时，人们会期望搜索结果得到改善，因为它可能包含更多的性能候选者。令人惊讶的是，我们观察到，扩大搜索空间是无益的，甚至是有害的现有的NAS方法，如DARTS，ProxylessNAS，和SPOS。这种反直觉现象表明，使现有方法能够用于大搜索空间机制是不平凡的。但这搜索空间池手工艺搜索空间开始(a) 传统NAS搜索结束×这个问题在文献中讨论较少我们提出了一个神经搜索空间进化（NSE）计划，第一个神经结构搜索计划，特别是设计用于大空间神经结构搜索问题。一个精心设计的搜索空间的必要性与约束的大小是一个默认的同意在现有的方法，我们的NSE的目的是尽量减少这种必要性。具体地，NSE以搜索空间子集开始，然后通过重复两个步骤来演进搜索空间：1）从搜索空间子集中搜索优化空间，2）从大的操作池中重新填充该子集，没有穿越。我们进一步扩展的灵活性，可获得的架构，通过引入一个可学习的多分支设置。使用所提出的方法，我们在ImageNet上实现了77.3%的top-1再训练准确率，具有333 M FLOP，这在不涉及知识蒸馏或权重修剪的先前自动生成的架构中产生了最先进的性能。当采用延迟约束时，我们的结果也比以前表现最好的移动模型表现得更好，具有77.9%的Top-1再训练准确率。代码可在https://github.com/orashi/NSE NAS上获得。1. 介绍深度神经网络在现实世界应用的无数领域中盛行。神经元的出现-(b) 搜索空间不断发展的NAS图1.检索方案的比较。(a)传统管道。(b)我们提出的搜索空间不断发展的管道。结构搜索（NAS）已经为特定应用提供了自动定制深度神经网络架构的可能性。研究人员已经研究了基于强化学习（RL）和进化算法（EA）的方法[58，29，30，55]，以实现架构设计的自动化。已经提出了基于权重共享的方法[21，7，2，9，22，56，19，8，33]，其可以这些方法成功地产生了超越人类设计架构的有希望的结果[41]。除了搜索方法，NAS的另一个关键组成部分是搜索空间。与早期NAS作品[59，29]相比，搜索空间的质量随着搜索算法的发展而得到改善[27]。已经观察到，搜索空间设计的改进对许多现有作品的性能产生了积极影响[27，45]。特别是，研究界已经投入了多种努力来搜索空间设计，从基于先验知识[39，14]选择合适的操作到利用通道级细粒度模型搜索[40，35，14，49，6，1]。初始搜索空间开始搜索搜索空间池优化空间优化空间补编空间搜索搜索优化空间补编空间搜索空间的演变6660一组较小的操作。最近的方法通常将每个层中的候选操作的数量限制为小于10（不包括关于激活函数或SE模块的决策[16]）。然而，这种搜索空间的改进又回到了专业知识设计的范式中，这是架构的自动学习的一个现在可以考虑的一个自然问题是：我们能否构造一个巨大的搜索空间，它是前面提到的空间的超集，并从中获得更好的结果？如果答案是肯定的，这种方法将通过简单地使用可以构造的最大搜索空间来解决搜索空间设计的然而，它是讨论的NAS文献较少。Yu等人[51]和Zhanget al. [53]提供的结果表明，在如图1（a）所示的传统NAS流水线下，简单地扩大搜索空间可能对最终结果有害。为了详细研究这个问题，我们设置了一个由27个不同操作组成的搜索空间，然后测试了4个合理快速的NAS算法，包括DARTS [21]，无代理[7]，SPOS [14]和One-Shot [2]。我们发现，所有这些方法不持有的行为，获得更好的搜索结果与更大的搜索空间。此外，有些搜索成本过高或失败收敛，而其他人甚至在训练时期增加的情况下表现不佳（[54，3]建议更长的训练时间表的有效性）。另一个相关技术是搜索空间简化，它也可以辅助神经结构搜索[54，17，13]，我们将证明这种技术不足以帮助NAS算法有效地利用大空间在这项工作中，我们的目标是在大空间的神经架构搜索，提出了一个神经搜索空间进化（NSE）计划。代替直接面对从大搜索空间导出的负面影响，NSE从搜索空间子集开始，该搜索空间子集是完整搜索空间的合理大小的随机子集，并且从该子集搜索优化的空间，然后重新填充该子集并重复如图1（b）所示的搜索-然后-重新填充步骤以逐步遍历整个空间。由此产生的NSE使不断发展的搜索空间神经架构搜索。NSE逐步探索额外的操作候选人，同时保留过去的知识。搜索过程被构造为迭代过程，以遍历未决的不可见操作候选者。在迭代过程中，不是保持单个架构作为中间结果，而是将通过One-Shot [2]方法训练的超网找到的Pareto前沿上的所有架构组合起来，以获得优化的搜索空间，该搜索空间将被继承到下一轮搜索。通过将优化的搜索空间保持为知识，搜索过程始终可以继续进行添加到待定列表的新候选操作，这意味着我们始终可以在CNN文献中添加新提出的操作，这些操作较少验证但可能有效。对于特定的任务。为了有效地利用更复杂的体系结构，我们进一步采用所提出的范例的多分支方案，其具有数量级更独特的结构相比，其单分支计数器的一部分。与仅允许选择一个操作的如DARTS的先前单分支方案相比，多分支方案允许自适应地选择多个操作。通过构造多分支方案的概率模型具有低于某个阈值的适应度的操作将从搜索空间中被丢弃，使得搜索空间的复杂度逐渐降低，并且还可以增强其余可能路径组合的协同适应程度。我们在ImageNet [31]上进行实验，其中有两个资源约束，即FLOPS和Latency。对于这两个约束，NAS根据我们的NSE计划有效地利用了一个非常大的搜索空间的潜力，并确保在迭代过程中的持续性能增量，导致国家的最先进的结果。总之，本文的主要贡献总结如下：• 我们提出了NSE，第一个神经结构搜索方案，专为大空间神经结构搜索问题，这使NAS，以尽量减少专用的搜索空间设计的必要性。进化过程的继承属性保持从先前搜索空间导出的知识，同时通过将新操作添加到当前搜索空间中来改进该知识。• 我们提出了多分支方案的操作适应度的概率建模，这使得随着共享权重通过一次性训练收敛而逐渐简化多分支这样的退火范例逐渐简化了子任务的复杂性，并有助于更好地学习剩余的共享权重[54]。2. 相关工作2.1. NAS算法设计网络体系结构搜索算法对于找到好的体系结构是必不可少的。这些算法是基于贝叶斯优化，强化学习（RL），遗传算法（GA），权重共享和单次。存在将NAS公式化为超参数优化问题并且允许搜索非固定长度神经架构的贝叶斯优化方法[26，4]。基于RL的NAS [58，59，55]采用RL来学习生成最佳架构。基于GA的方法[30，29]使用6661步骤1：初始化搜索空间搜索空间池A步骤2：超网训练搜索空间简化第三步：帕累托前沿检索&架构聚合补充搜索空间步骤4：搜索空间补充目标约束资源图2.所提出的方法的搜索空间更新方案。保留搜索空间子集以在保留现有知识的同时并入新的看不见的搜索空间。遗传算法生成候选架构，也流行，令人印象深刻的结果。权重共享方法[2，21，7，14，10，23]利用在不同架构之间共享权重的超网。One-shot NAS [2，14]通过直接训练具有dropout的超网，具有dropout的超网3. 方法问题表述。由于神经架构通常使用前馈结构，因此我们表示过-所有搜索S空间池A作为有向循环图（DAG）共享权重被用于预测模型得分L层，Ll=1 E1，其中E1表示可用的操作。独裁者然而，当新的候选操作可用时，这些NAS方法必须重新开始搜索。在选择（例如， 3×3卷积、池化或恒等）DAG的第l层W表示神经网络内的神经网络工作。相反，在我们的NSE方案下，搜索空间的子集是搜索空间为a=Ll=1 el，其中el El。保持这些候选操作以有效地适应新的候选操作并继承先前搜索的候选操作的知识。最近的作品[49，6，1，25]还将知识蒸馏或权重修剪集成到NAS管道中以获得即时性能。然而，这些技术仍然可以独立进行，具有可观的增益[44，5]，并且与我们的焦点正交。2.2.搜索空间设计注意到基于多分支的网络，如Incep-tion [36]和ResNeXt [43]是CNN文献的重要发明，我们将该方案纳入我们的搜索空间进化中。对于多分支方案中的网络体系结构，一个层由多个操作从N个操作候选中选择{opn}，即e=og={opn|gn=1，n∈{1，. . . ，N}}，其中g表示操作配置{gn}的特定集合，并且二进制门g n∈{0，1}表示是否选择第n个操作或不.Σ在这种情况下，〇g是Nn=1 gn和可能操作NAS搜索空间被识别为对搜索结果造成了不可忽略的影响[51，53]。同时，搜索空间设计与NAS算法一起得到了改进[27]。Zoph等人[58]采用了具有朴素积木和跳跃连接的设计许多方法重复它们通过NAS搜索的相同构建块来构建网络。[59、55、29、21]。为了更好的灵活性，许多后面的方法使得能够针对不同的块搜索不同的操作，但是必须约束用于控制搜索空间大小的候选操作的数量[37，7，42，14，13，52]。还提出了搜索细粒度模型调整和训练配置的正交工作[50，48，25，40，12]。最近作品[42，14，7，37，52，15，39]还包括新的候选操作或模块设计，例如手工制作的多分支单元[39]、树结构[7]、混洗操作[24]、挤压和激励（SE）模块[16]和swish激活[28]。我们的NSE方案使神经架构搜索与不断发展的新的候选操作。配置（即，组合）为2N。所提出的管道的目标是通过在搜索空间子集中进行进化来探索一个非常大的搜索空间，同时寻找性能最好的架构a*A。3.1. 概述我们将我们的搜索空间演进NAS流水线制定为能够从搜索空间子集补充流中探索的自适应过程，如图2所示。NSE方案的流水线如下：步骤1.最初，从整个搜索空间池A中采样搜索空间子集As。这是通过对每个层随机采样K个候选操作来实现的。在实践中，搜索空间子集As比整个集合A小得多，以避免我们提到的大搜索空间困境。它由当前的被考虑用于NAS算法来搜索;我们相信这个搜索空间子集，在大小上是有限的，自然是更容易的SAr搜索空间子集AsAcc.AS6662SSSn3.2.2权重更新在权分担[2，21，7，14]下，每个子图，即由a表示的超网架构从由WAs表示的超网的权重继承其由WAs（a）表示的权重，其中A是共享权的优化可以表示如下：图3.多分支路径的转发方案。WAs= argminWAsEaUa [LCE（N（a，WAs（a）]，（2）搜索算法来处理。步骤2.超网训练（第3.2节）和搜索空间简化（第3.3.1节）在搜索空间子集As内交替进行。如果发现操作的适合度低于某个阈值，则在超网训练中，则该操作将从搜索空间子集中丢弃。步骤3.优化的搜索空间子集通过从搜索空间子集As中采样架构并对其进行评估来获得（第3.3.2节）。具体而言，这些采样架构的适应性通过验证精度来评估，我们聚合架构并得到优化的搜索空间子集As，它是包含Pareto Front中所有架构的最小网络搜索空间其中E[·]表示期望，L∈E（·）表示交叉熵损失，并且N（a，W∈S（a））表示具有架构a和参数W∈S（a）的网络。最小化在Eq. 通过从空间As中采样结构a，然后使用随机梯度下降更新相应的权重WAs（a）来实现（2）多部著作[10，51]指出，超网需要被均匀地训练，使得共享的权重可以有利于预测准确性。因此，我们对每一种可能的体系结构都进行了同等的采样，即架构将相同-从均匀分布U a中提取，其中每个分支用g n Bernoulli（0. （五）。3.3.搜索空间演变搜索空间演化的每次迭代涉及三个步骤，如图2所示，这里我们为每个步骤提供详细的说明。步骤4. 一个新的搜索空间A′（二）建立第3.3.3条）。A’是来自步骤3的优化的搜索空间子集A（s）和搜索空间的补充子集Ar的组合。是从A采样的补充，以确保在每个层中仍然存在K个候选操作遍历的搜索空间被排除在Ar之外，使得层中的相同操作将不会被采样两次。在这种情况下，As中累积的kn o被继承。令As= A’，重新初始化所有权重，然后转到步骤2。当在A中没有足够的操作时，循环结束，并且步骤2中的A的帕累托前沿被用作架构搜索的最终结果。3.2. 超级网培训3.2.1多分支方案中的前向路径给定输入特征图X，分支opn的输出可以写为gnopn（X）。如图3所示，在配置g={g，n}下的多分支层的输出可以定义如下：3.3.1搜索空间简化我们采用的多分支方案将搜索空间扩大了90多个数量级（详细数字见附录）。为了有效地搜索最优的体系结构，我们建议逐步简化搜索空间子集的操作明智的健身，同时训练超网。具体来说，我们采用可学习的适应-- 属性指示符Θ={θ1}，以预测操作的适合度并引导搜索空间子集的简化如图3所示，它们被单独地分配给每个操作候选。使用Lock and Rehearse简化搜索空间。具有低于特定阈值的其对应指示符θ n的第n条路径将从超网中丢弃，除了：1) 该路径是还原单元中最后剩余的路径，或者2) 该路径的操作是从先前迭代继承的。第二种异常情况保留继承的操作，即使它们的预测适合度低于阈值。它还允许我们重新评估以前的帕累托最优og（X）=Σ1n∈KΣgnn∈Kgn opn（X），（1）在当前的超网架构，从而保护继承的知识被低估。这是由终身学习的知识排练所启发的[34]。其中K表示K个候选操作的索引集合。值得注意的是，对于g_id始终等于1的普通层，身份操作op_id附加地在K中被我们称之为锁定和排练（LR）策略。健身指标的概率建模。健身指标更新后，每两个超网列车-正常层联系我们11减少层伯努利采样avg6663Gaaa bbing迭代。对于每次更新，第n条路径分别采样为gnBernoulli（pn），其中pn=1。最后，我们将模拟梯度近似为：1+e−θn如下在验证集上更新适应度指标dLCE≈dθndLCEoDo(X) GaDL（十）dp~ga+dθndp~（七）Θ* = argminE[Lval（N（a，WAs（a）]，（3）CEdo（X） ogb （十）g湾dθΘaPa（Θ）gan其中Pa（Θ）表示由适应度指示符Θ参数化的架构概率分布。对于具有K个候选操作的层，我们基于操作概率pn将操作配置g的层概率pg计算为K维伯努利随机变量的联合概率：同样地，等式2中的第二项的R（a，τ）为（5）近似为：ΣLR（a，τ）≈（p~glC（ogl）+p~glC（ogl））−τ，（8）l=1Ypg=（gnpn+（1−gn）（1−pn）），（4）n∈K当初始化时，对于所有θ∈Θ，θ = 0，导致ρ η=0。5，使得在开始时以相等的概率选择所有可能的组合当利用资源约束作为正则化来优化适应度指示符ΘEq.（3）可以如下实现：其中，C将操作og的组合映射到其核心。响应资源成本。3.3.2Pareto前沿检索与体系结构聚合帕累托前沿检索为了检索架构聚合所需的Pareto前沿，我们通过使用训练有素的超网和验证数据集的权重来评估采样架构的验证准确性。我们Θ* = argminΘEaPa（Θ）[LCE（N（a，WAs（a）+α（R（α，τ））β]，（五）基于由适应度指标Θ暗示的概率分布随机采样D个不同的模型。不适合资源约束的采样模型被丢弃。帕累托最优的架构从最后一次搜索它-其中，E[·]表示期望，R测量差在架构A的资源需求和tar之间得到需求τ。α和β是特定于应用的常数。对于延迟约束，我们遵循[46]来建立延迟查找表，其记录搜索空间中包括的每个操作的延迟成本。模拟梯度。由于Θ不直接涉及L_CE的计算，因此我们不能更新等式1中的第一项（5）直接通过反向传播，因此模拟梯度是必要的。受BinaryCon- nect [11]的启发，我们首先将采样分支组合oga（X）的输出转发到下一层，其中ga是随机选择的配置。然后我们利用梯度w.r.t.输出为模拟梯度。因此，我们将模拟梯度写成如下：如果存在，也将作为L R策略的一部分进行评估。在实践中，需要额外的De样本来克服边缘效应（详见附录）。毕竟样本进行评估，我们可以得到P个帕累托最优架构{a1，. . .、ap、. . .，a P}。从最后一轮优化导出的帕累托最优架构将被称为最终结果。由于超网BN统计量的波动性以及不同的体系结构应采用不同的BN统计量的事实，我们需要对BN层进行重新计算。具体来说，在评估共享权重超网上的架构之前，我们通过转发20k个随机训练图像来重新计算BN层的统计数据，这大约需要一秒钟。聚合来在Pareto前沿检索之后，我们取KdLΣ2dLdpKΣ2dLdp来自所有P个帕累托最优体系结构以得到优化的搜索空间从数学上讲，我们CE=dθCEdpgi≈dθCEdo（X）奥格伊（十）g1，dθ表示ep={opl|G lS=1，n∈Kl}作为所选操作。ni=1gini=1ganLnn其中o（六）（X）定义在等式（1）中。（一）.所有的总和第p个帕累托最优体系结构的第lap，并将Es表示为Gigi在等式中（6）复杂。我们使用[7]中的方法，6664LLS通过仅选择两个构型来简化计算L层l在As中。Wehav eE s=SPp=1 ep.这可以减少每次迭代所需的GPU存储器和计算。具体来说，我们随机抽取花药3.3.3通过搜索空间补充继承配置gb，然后重新缩放层概率为了获得新的搜索空间子集A’，为下将配置ga和gb转换为p~g，使得p~ga+p~gb =1时。我们随机抽取一定数量的6665SSSS网络Params延迟*Top-1[32]第三十二话6.9M8.9毫秒74.7ShuffleNetV2 2×[24]-6.8毫秒74.9NASNet-A [59]5.3M23毫秒74.0PNASNet [20]5.1M25 ms74.2Proxyless-GPU [7]7.1M7.9毫秒75.1PC-NAS-L [18]15.3M10.3毫秒77.5MixNet-S [39]†4.1M27毫秒75.8MobileNetV 3-大型/1.25 [15]†7.5M10.5毫秒76.6NSENet-GPU15.7M8.9毫秒77.9表1.ImageNet结果与移动环境中最先进的方法进行了比较NSENet-27表示我们在27个OP空间中发现的网络。NSENet表示找到通过基于我们从27个OP空间获得的搜索空间子集探索第二空间。t表示使用额外模块的模型，例如swish激活[28]和SE模块[16]。‡表示使用AutoAugment训练的模型[57]。- 在整个搜索空间池A中的候选操作（不包括先前遍历的操作）作为补充操作Ar。此外，优化的搜索空间子集通过聚合获得的A将被继承。具体地说其中新的搜索空间子集A′是补充运算Ar和优化搜索空间子集A的并集. 在补充之后，所得到的搜索空间子集A’的大小将与每层具有K个候选操作的原始A’的大小相同。最后我们有As=A′。4. 实验结果4.1. 搜索空间和配置搜索空间。对于FLOPs约束实验，我们的主搜索空间由27个不同的操作（27个OP空间）组成。通过继承从27个OP空间导出的最终搜索空间子集，我们在27个OP空间中未覆盖OP的完整新搜索空间（第二空间）上继续搜索三个额外轮次以获得最终结果。对于延迟约束实验，我们使用19个操作搜索空间（19个OP空间）[18]。值得注意的是，与[21，7]相比，OP的数量相当大。详细的搜索空间和搜索架构的结构可以在附录中找到。候选操作的顺序是逐层随机混洗的，以最小化其排序的潜在影响，但我们所有的实验共享同一组混洗序列以进行公平比较。如图2所示，在每一层中可能保留不平衡数量的操作，这意味着一些层可能不平衡。表2.ImageNet结果与延迟受限设置中的最先进方法进行比较NSENet-GPU是网络我们发现了19个OP空间[18]。†表示使用额外模块的模型，例如swish激活[28]和SE模块[16]。*所有网络的延迟在相同设置（批处理）在GTX TITAN Xp GPU和TensorRT3框架上大小为16候选人可能提前用完了我们通过将这种短缺发生的时刻作为NSE搜索过程的结束来绕过这个问题。配置. 搜索空间子集K的逐层大小对于FLOP约束被设置为5，并且对于La_tency约束被设置为6。为了获得最终模型，我们随机抽取5个最终Pareto最优点，并将其重新缩放至约3.3亿FLOP，选择再训练后的最佳模型作为输出模型（详细设置见附录）。所有实验都在ImageNet [31]数据集上进行，其中验证集由从训练集采样的50K随机图像构建。4.2. FLOPs约束结果FLOP约束的目标τ是300M FLOP。如表1所示，我们从27个OP空间得到的初步结果（表1中的NSENet-27）以325 M FLOP实现了75.3%的当我们的搜索空间子集继续容纳第二空间时，结果（表1中的NSENet）进一步将导出模型的最高性能推高到75.5%的Top-1准确度。当辅助技术考虑到这一点，我们的模型（表1中的NSENet†）始终以相当大的幅度超过先前的模型。4.3. 延迟约束结果我们优化的平台是 GTX TITAN Xp GPU 和TensorRT3框架。所有延迟均在批处理大小设置为16的情况下进行评估，以充分利用GPU资源。资源约束以8ms为目标。结果如表2所示，我们的NSENet-GPU获得77. 9%的top1精度，8.9 ms延迟成本。值得注意的是，虽然我们与PC-NAS-L共享相同的搜索空间（参见附录），但我们的搜索模型执行0。在Top-1准确性方面提高4%，延迟成本降低1.4 ms。网络ParamsFLOPsTop-1[32]第三十二话6.9M585M74.7ShuffleNetV2 2×[24]-591M74.9NASNet-A [59]5.3M564M74.0DARTS [21]4.7M574M73.3移动端[7]4.1M320M74.6FBNet-C [42]5.5M375M74.9NSENet-274.6M325M75.3NSENet4.6M330M75.5ShuffleNetV22× [24]†-597M75.4MnasNet-A2 [37]†4.8M340M75.6MixNet-S [39]†4.1M256M75.8MixNet-M [39]†5.0M360M77.0MobileNetV 3-大型/1.25 [15]†7.5M356M76.6GreedyNAS-B [47]†5.2M324M76.8[38]第38话5.3M390M76.3NSENet†7.6M333M77.366661.000.751.000.751.000.750.500.500.500.250.250.250.0066 67 68 69 70 7172重新训练Top-1准确度（一）0.0062 64 66 68 7072重新训练Top-1准确度（b）第（1）款0.0070.5 71.0 71.5 72.0重新训练Top-1准确度（c）第（1）款图4.以FLOP为条件的搜索空间比较。对于每个实验，我们随机抽取20个具有[323M，327M]区间内的FLOP的然后，每个模型从头开始训练50个epoch。（b）：r1_init_n表示随机初始化的搜索空间，其具有逐层空间大小K=n，（c）：rn表示从第n轮中的帕累托最优的聚合导出的搜索空间在（b）和（c）中执行的实验都基于多分支27OP空间。网络搜索成本†FLOPsTop-1移动端[7]无代理[7]-rand 6二百‡2200*320M327M*74.674.2*无代理[7]-274,000336M74.5单次射击[2]-274,000339米73.5NSENet-27K= 54,000327M**75.0**表3.在27个OP空间下比较不同算法。†搜索成本指的是GTX1080Ti GPU小时，‡引用自[7]的数字，它使用GTX V100GPU。*数字是3次运行的平均值。* *数字是图5（a）“K= 5”所27 OP空间包含搜索Proxyless-mobile 和 Proxyless-rand 6 使用的空间。使用ProxylessNAS [7]算法搜索Proxyless-mobile [74.4. 搜索空间演化这有助于在大搜索空间下得到更合理的结果。我们在我们的27个OP空间上运行ProxylessNAS，并通过增加训练时期的数量将搜索成本与NSE对齐，结果由Proxyless-27 表示，如表 3 所示。我们可以观察到ProxylessNAS产生比One-Shot-27更好的结果，但NSE仍然比ProxylessNAS表现得更好。具有不同搜索空间的ProxylessNAS。我们选择具有表3中比较的最高27个OP空间结果的先前NAS算法ProxylessNAS，以进一步展示搜索空间如何影响其性能。首先，我们将其原始结果 Proxyless-mobile 与Proxyless-27 进行比较。 Proxyless-mobile 源自ProxylessNAS [7]中手动设计的搜索空间，仅具有6个OP，这是我们的27个OP空间的子集。然而，它的accu-大搜索空间上的现有方法。在介绍中，我们得出结论，现有的方法不能有效地处理大的搜索空间，这是我们的动机。我们评估了 4 种合理快速的方法：DARTS [21]、One-Shot [2]、SPOS [14]和ProxylessNAS[7]。像DARTS [21]这样的算法保留了所有的优化路径，使得我们的大型27个OP空间的搜索成本像SPOS [14]这样的简单单次算法不保留所有路径，但在我们使用的相同设置下无法合理收敛。具体来说，使用SPOS训练的超网[14]在我们的27个OP空间上不收敛（100个epochs的1%Top-1准确度），即使在尝试调整批量大小，学习率或梯度剪辑之后。使用[2]中描述的一次性策略，在我们的27个OP空间上训练的超网即使在花费4k GPU小时的训练时间表之后也收敛得很差（通过增加训练时期来调整）。具有300 M-350 M FLOP的采样帕累托最优架构在超网上具有小于30%的Top-1验证准确度，并且最终结果是73.5%的Top-1准确度，如表3所示。像ProxylessNAS [7]这样的算法利用可学习的体系结构参数来逐渐缩小搜索空间，多分支机构27单分支27单分支9r1初始化5简化的r1初始化5聚合r1初始化五个r1初始化九个r1初始化二十七个r1r2r3r4r5R6累积概率累积概率累积概率6667racy甚至略高于Proxyless-27，这意味着ProxylessNAS在27个OP空间中不如在6个OP空间中有效。然后，我们将其与随机6个OP子集上的结果进行随机子集是通过从我们的27个OP空间中随机采样6个OP来构造的，用于整个搜索空间的每一层。结果表明，随机子集空间不如手动设计的6个OP空间或全27个OP搜索空间。注意，即使考虑到使用的不同GPU，Proxyless-rand 6的搜索成本也明显高于Proxyless-mobile，这是由随机子集内的时间效率较低的OP引起的搜索空间简化，无需搜索空间进化。我们还研究了是否搜索空间简化在第3.3.1节单独可以处理大的搜索空间。我们比较了具有逐层空间大小K=5和K=9的情况，其分别对应于注意，K=5的初始搜索空间是K=9使用的初始空间的子集。的第一轮搜索结果图5（a）中的K=5和K=9示出了当与较小的初始搜索空间（K=5）相比时，较大的初始搜索空间（K=9）导致较差的结果，尽管两个实验都是如此。666875.575.074.574.00 20 40 6080二空间72.272.071.871.671.41二个三个四个五个六个观察结果的上界和分布。整个过程的最佳模型可以通过检查最新的帕累托最优架构来实现此外，如图4（c）和图5（b）所示，聚合搜索空间的质量也已经逐步提高。在NSE过程暂停之后，我们仍然可以通过重用最终优化的搜索空间子集并使用第二搜索空间对其进行补充来重新启动该过程27个OP空间的遍历部分%（一）轮（b）第（1）款以这种方式，我们的方法图5.沿着NSE优化轨迹的收敛模式(a)中间Pareto最优点的点评估。模型是完全从头开始训练的。由于第4.1节中提到的不公平问题，整个检索过程未覆盖整个检索空间。(b)随着搜索的进行，聚合搜索空间的逐步改进。该图与图4（c）共享相同的数据集，并以95%置信区间的平均准确度显示。允许搜索空间简化。结果表明，不演化搜索空间的搜索空间简化不能很好地处理大的搜索空间。5. 消融研究5.1. 搜索空间质量比较为了进一步了解搜索空间是否对特定任务具有竞争力，我们采用分布估计[27]，即：再训练准确度的分布从在搜索空间内随机采样的体系结构导出，以评估搜索空间质量。图4（a）比较了三个搜索空间，以讨论在我们的实验中扩大搜索空间的潜在影响。多分支27是我们用于关键结果的空间，单分支27代表我们的27的单分支版本OPs空间，并且单分支9是我们的27个OPs空间的子集：仅包括具有内核大小{3，5，7}和扩展比{1，3，6}的DW卷积，这是NAS [7，42，47]的常用操作组可以看出在单分支空间和多分支空间之间没有显著的间隙。此外，虽然多分支27搜索空间理论上具有潜在架构的更高上限，但单分支9空间（其子集）在再训练准确性方面具有明显更好的架构分布。然而，这个差距正是我们想要通过搜索空间进化来解决的问题5.2. 连续收敛为了证明我们的方法可以不断地改进搜索空间子集以及搜索到的架构，我们首先随机选择5个Pareto最优架构，这些架构是由前阈值空间上的每一轮进化捕获的，然后从头开始训练它们。如图5（a）所示，在以下方面的持续改善趋势：图5（a））一致地实现增益。5.3. 组件的影响搜索空间子集的逐层大小。如图4（b）所示，比较逐层空间大小K=5（然而，较小的K仍然可以导致更好的收敛，如图5（a）中的“K=5”和“K=9”之间的比较所示这与我们通过渐进式搜索空间进化来绕过大搜索空间的困难的动机是一致的，因为较小的搜索空间更容易优化。简化和聚合。为了显示我们的搜索空间简化和聚合的有效性，我们绘制了子集搜索空间的质量，以及它的图4（b）中的简化和聚合空间。其示出了搜索空间简化（图中的“rl初始化5简化”）和搜索空间聚合（图中的“rl初始化5聚集”）两者都锁定和排练。我们管道中的另一个强制性过程是锁定和排练策略，它防止继承的搜索空间被低估。不存在这样的正则化方法可能导致显著的性能降低，如图5（a）中的结果‘K=9 w/o L R’所示6. 结论在本文中，我们介绍了一种新的神经结构搜索方案称为NSE。它的目标是大空间的架构搜索，逐步适应新的搜索空间，同时保持以前获得的知识。我们通过引入可学习的多分支设置进一步扩展了可获得架构的灵活性。我们提出的NSE方案提供了一个一致的性能增益与传入的搜索空间，这已最大限度地减少了搜索空间工程的必要性，并导致一个步骤，向全自动神经架构搜索。致谢这项工作得到了澳大利亚研究委员会资助DP200103223，FT210100228和澳大利亚医学研究未来基金MRFAI000085，澳大利亚未来奖学金的支持。K=5K=5 w/第二空间K=9K=9 w/o L R重新训练Top-1准确度|FLOPs重新训练Top-1准确度|FLOPs6669引用[1] Nsganetv2：进化多目标代理辅助神经结构搜索。欧洲计算机视觉会议，2020年。第1、3条[2] Gabriel Bender，Pieter-Jan Kindermans，Barret Zoph，Vijay Vasudevan，and Quoc Le.理解和简化一次性架构搜索。在国际机器学习会议上，第550-559页一二三四七[3] Gabriel Bender，Hanxiao Liu，Bo Chen，Grace Chu，Shuyang Cheng，Pieter-Jan Kindermans，and Quoc V Le.权重共享能否胜过随机架构搜索？对金枪鱼的调查在IEEE/CVF计算机视觉和模式识别会议论文集，第14323-14332页二个[4] James Bergstra，Daniel Yamins，and David Daniel Cox.做一个模型搜索的科学：视觉架构的数百个维度的超参数优化。2013. 二个[5] Davis Blalock ， Jose Javier Gonzalez Ortiz ， JonathanFran- kle，and John Guttag.神经网络修剪的状态是什么？arXiv预印本arXiv：2003.03033，2020。三个[6] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并使其专业化以实现高效部署。在2019年国际学习代表会议上。第1、3条[7] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv：1812.00332，2018。一二三四五六七八[8] Boyu Chen，Peixia Li，Baopu Li，Chen Lin，ChumingLi，Ming Sun，Junjie Yan，and Wanli Ouyang. Bn-nas：使用批量归一化的神经架构搜索在IEEE计算机视觉国际会议论文集，2021年。一个[9] 陈博宇，李佩霞，李初明，李宝璞，白磊，陈林，孙明，欧阳万里，等. Glit：Neural architec- ture search forglobal and local image Transformer.在2021年IEEE计算机视觉国际会议上。一个[10] Xiangxiang Chu ， Bo Zhang ， Ruijun Xu ， and JixiangLi.Fair- nas：重新思考权重共享神经架构搜索的评估公平性。arXiv预印本arXiv：1907.01845，2019。三、四[11] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统的进展，第3123-3131页，2015年。五个[12] 戴晓亮，万文，张培昭，吴碧晨，何子建，甄伟，陈侃，田远东，余修，彼得·瓦伊达，等. Fbnetv 3：使用神经获取功能的联合架构-配方搜索。arXiv预印本arXiv：2006.02049，2020。三个[13] 方牧原，王强，赵忠。Betanas：用于神经结构搜索的平衡训练和选择性丢弃。 arXiv 预印本 arXiv ：1912.11191，2019。二、三[14] Zichao Guo ， Xiangyu Zhang ， Haoyuan Mu ， WenHeng，Zechun Liu，Yichen Wei，and Jian Sun.单路径一次触发均匀采样的神经结构搜索。在欧洲计算机视觉会议（ECCV）的论文集，第544-560页，2020年。一二三四七[15] Andrew Howard ， Mark Sandler ， Grace Chu ， Lia

下载后可阅读完整内容，剩余1页未读，立即下载