神经结构搜索的性能估计新方法及重要性修剪

8 浏览量更新于2023-10-23 收藏 698KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11356重新思考神经结构搜索中的性能估计郑霞武1，2，3，季荣荣1，2，3，王强1，3，叶启祥3，4，李振国5，田永红3，6，田启51，人工智能系媒体分析与计算实验室，厦门大学信息学院，厦门3610052厦门大学国家健康与医学数据科学研究院3中国深圳鹏程实验室。4中国科学院大学。5诺亚{zhengxiawu，Wangqiang}@ stu.xmu.edu.cn，rrji@xmu.edu.cnqxye@ucas.ac.cn，li. huawei.com，yhtian@pku.edu.cn，huawei.com摘要神经网络结构搜索一直是一个具有挑战性的问题，这归因于性能估计（PE）中不可缺少且耗时的部分。在本文中，我们提供了一种新颖而系统的重新思考PE在资源受限的制度，称为预算PE（BPE），它准确，有效地估计性能的架构抽样从一个架构10410310210110010−110−210−3RL EA One-shot RS10410310210110010−110−210−3搜索性能估计0.33 0.330.330.05RL EA One-shot RS空间由于搜索一个最佳的BPE是非常耗时的，因为它需要训练大量的网络进行评估，我们提出了一个最小重要性修剪（MIP）的方法。给定数据集和BPE搜索空间，MIP使用随机森林估计超参数的重要性，并随后从下一次迭代中修剪最小值。通过这种方式，MIP有效地修剪了不太重要的超参数，将更多的计算资源分配到更重要的超参数上，从而实现了有效的探测。通过将BPE与各种搜索算法相结合，包括强化学习，进化算法，随机搜索和微分架构，在实际搜索中，我们实现了1000倍的NAS速度提升，与SOTA相比性能下降可以忽略不计。11. 介绍深度学习在分类[15，12]，检索[48，47]和检测[42，46，20]方面取得了重大成功为此，神经架构搜索（NAS）旨在通过探索巨大的架构搜索空间来自动发现合适的神经网络架构*通讯作者。1所有的 NAS 搜索代码是可用网址：https：//github.com/zhengxiawu/rethinking_performance_estimation_in_NAS图1. 时间成本（含/不含预算绩效评估）（BPE-1）。(a)以前的方法没有优化PE中的巨大计算成本。(b)通过结合BPE，我们可以在很大程度上加速NAS方法，包括强化学习（RL）[52]，进化算法（EA）[34]，随机搜索（RS）和DARTS [28]（一次性），性能下降可以忽略不计。在各种计算机视觉任务中显示出比手动设计更出色的性能[9，51，28，52，10，26]。尽管取得了广泛的成功，但以往的方法仍然存在计算资源密集的缺陷，这严重限制了其应用前景和灵活性。例如，基于强化学习（RL）的方法[52，51]通过使用500个GPU在4天内训练和评估20，000多个架构，在CIFAR 10上搜索合适的架构对于另一个实例，[34]中基于进化算法（EA）的方法需要3，150GPU天才能在CIFAR10上找到最佳架构。NAS方法通常由三个部分组成，即：、搜索空间、搜索策略和性能估计。如[51]所建立的，基于小区的搜索空间现在被很好地采用[49，44，11，31，34，33，51，52]，其在架构搜索期间被预定义和固定，以确保不同NAS方法之间的公平比较。另一方面，如图所示。不同的搜索策略（RL或EA）具有相似的运行时间（减去180031501081.5时间成本（GPU天）11357修剪采样随机森林重要性采样范围时间成本树A树B树C超参数…图像尺寸层LR时代超参数时代LR层⋅⋅⋅图像尺寸重要性0.450.030.32⋅⋅⋅0.12图2.提出的最小重要性修剪的整体框架，以找到一个最佳的修剪性能估计。BPE的搜索空间由训练超参数构建，包括训练时期，批量大小，学习率，层数，浮点数，通道，剪切和图像大小。我们首先对时间成本最低的示例进行采样。然后利用采样样本训练随机森林，并利用随机森林评价相应超参数的重要性。通过分配具有最小时间成本的值来修剪具有最低重要性的超参数。性能估计成本），这也可以很好地与GPU包加速。因此，NAS的主要计算消耗在于性能估计（PE）步骤，如图所示。1.一、然而，很少有工作一直致力于PE的效率问题，这是至关重要的，以应付爆炸性增长的数据集大小和模型的复杂性。此外，非常希望在不同的数据集下进行快速架构搜索，以部署在自动驾驶汽车等新兴应用中[5]。在本文中，我们提出了一种新的和有效的性能估计下的资源受限的制度，称为预算性能估计（BPE），这是第一次在NAS社区。BPE本质上控制训练、网络设计和数据集处理的超参数，例如通道数BPE不是追求特定数据集的模型精度，而是旨在学习特定架构空间中不同神经架构的最可实现的相对精度顺序换句话说，一个好的网络结构在一个准确的BPE上仍然具有相对较高的排名我们认为，准确和有效的BPE的缺失仍然是NAS研究广泛使用的主要障碍然而，找到一个准确和有效的BPE是非常具有挑战性的相比，其他黑盒优化问题。首先，BPE需要仔细处理离散（如层或通道）和连续（如学习率）的超参数。其次，评估特定的BPE需要培训大量的神经网络，例如，2×814网络在基于细胞的architetcture搜索空间[28]。如在先前的NAS [52，22，33，28，7，31]方法，大多数BPE方法仅利用直观的技巧，包括早期停止[52]，数据集采样[22]和较低分辨率的数据集，或使用每层过滤器较少和细胞较少的代理搜索网络[52，28]。虽然这些方法可以在一定程度上降低计算成本（这仍然是耗时的[52，34]），但噪声也被引入PE以低估其相应的性能。很少有工作调查近似评估和完整评估之间的相对per-rank，这在传统上被认为是一个值得的技巧[28，52，34]。然而，随后在SEC中验证。5、这样的相对排名在训练条件的微小差异下会发生巨大的在本文中，我们提出了一个统一，快速和有效的框架，称为最小重要性修剪（MIP），以找到一个特定的架构搜索空间，如基于细胞的搜索空间[49，44，11，31，34，33，51，52]，如图所示二、特别地，对于给定的大规模超参数搜索空间，我们首先以最低的时间消耗采样示例。然后，使用随机森林[6，16]使用采样示例来估计超参数重要性最低重要性的超参数被设置为具有最小时间成本的值。当每一个超参数都被设置时，算法停止。本文的贡献包括：• 本文首次系统地研究了资源受限条件下NAS的性能估计问题.我们寻求一个最佳的预算PE(BPE)通过在一组关键超参数上设计Spearman相关损失函数。• 一种新的超参数优化方法，称为11358最小重要性剪枝（MIP）算法是一种有效的黑盒优化算法，其计算步骤非常耗时。• 所提出的MIP-BPE可以很好地推广到各种体系结构搜索方法，包括增强学习（ RL ）、进化算法（ EA ）、随机搜索（ RS ）和 DARTS 。 MIP-BPE 在 CIFAR-10 和ImageNet上都实现了显著的性能，同时通过以下方式加速了搜索过程：一千倍。2. 相关工作2.1. NAS中的性能评估性能评估是指在架构搜索空间中评估特定架构的性能。传统的选择是在数据集上执行该架构的标准训练和验证过程为了加速性能估计，大多数NAS方法仅提供简单的直观提示，例如提前停止[52]、数据集采样[22]和较低分辨率的数据集，或使用具有较少过滤器和较少细胞的代理搜索网络[52，28]。估计架构性能的另一种可能性是基于单次的方法[50，28，1]，该方法将搜索空间中的每个个体视为从超图中采样的子图。通过这种方式，它们通过参数共享加速搜索过程[31]。陈等人[11]提出在训练过程中逐步增加搜索架构的深度。Xu等人 [44]提出了一种部分连接方法，通过对超网的一小部分进行采样来减少网络空间中的冗余，从而在不影响性能的情况下执行更有效的搜索然而，这些方法没有深入研究不同的超参数的影响五、2.2. 超参数优化超参数优化[41]旨在在学习过程中自动优化超参数[4，19，39，45]。为此，网格搜索和随机搜索[4]是两种最简单、最直接的方法.请注意，这些方法不考虑使用经验（搜索过程中的示例）。随后，提出了顺序基于模型的优化（SMBO）[19]，以从经验中学习代理函数并估计未知超参数的性能。作为最流行的方法之一，贝叶斯优化[39]用采样的例子学习高斯过程，然后决定最佳的超通过最大化相应的改进函数来为下一次试验确定参数。然而，所有这些方法主要处理特定机器学习模型的超参数，其不能处理具有如此昂贵的评估步骤的BPE的优化。与以往方法不同的是，我们通过以最小时间消耗采样样本来评估和估计超参数的重要性，然后在下一次迭代中对最小重要性的超参数进行修剪，这对于寻找最优BPE是非常有效和高效的。3. 预赛3.1. NAS管道给定一个训练集，传统的NAS算法[52，49，25]首先通过某种搜索策略（如强化学习（RL）或进化算法（EA））在预定义的搜索空间中对架构进行采样然后将采样的神经架构传递到性能估计（PE），其将架构的性能返回到搜索算法。在大多数NAS方法[49，28，44]中，PE通过在搜索空间中使用一组低成本的超参数（如较小的图像尺寸，较少的通道和较浅的网络）来加速，搜索空间为Θ 1× Θ 2×. × Θ n，称为预算PE（BPE），它包含n种训练超参数包括训练时期的数量、批量大小、学习率、层数、浮点精度、通道、剪切[13]和图像大小。例如，Liu etal.[28]提出了在一个训练了50个epoch的8层小网络上估计架构的性能，其中批量大小为64，初始通道数为16。在搜索过程之后，然后通过完全且耗时的训练超参数集f来评估最优神经架构。在现有的工作[49，28，44]中，f控制最优架构的最终评估超参数，即，一个20层的大型网络被训练600个时期，批量大小为96，并有一个额外的规则化，如cutout [13]。然而，在该流水线中，BPE和最终评估阶段是解耦的。不能保证BPE与最终评估步骤相关，即，相同的体系结构在不同的训练条件下可能具有大的排序距离大多数NAS方法[28，52]直观地改变了具有较少通道或层的BPE。在SEC进行了大量的实验。结果表明，BPE的有效性是非常敏感的，这意味着需要仔细选择和分析NAS中我们相信，在这一点上，5、BPE是一个重要的组成部分，但遗憾的是，没有相应的工作致力于这一领域。113593.2. 基于单元的体系结构搜索空间如第BPE的目标是在特定的架构搜索空间上找到最佳的训练超参数。在本文中，我们遵循[49，44，11，31，34，33，51，52，50]中广泛使用的基于单元的架构搜索空间：网络由预定义数量的单元[51]组成，这些单元可以是范数单元或约简单元。每个单元格都将前两个单元格的输出作为输入。一个细胞是一个全连接的有向无环图（DAG），M个节点，即，{B1，B2，…，B M}。每个节点Bi取依赖节点作为输入，并通过要训练和评估的大量模型阻止了大多数NAS方法的广泛部署。幸运的是，Radosavovic等人。 [32]观察到从给定的架构搜索空间中采样大约100个模型足以执行鲁棒估计，这也在我们的工作中得到了验证。具体来说，我们在基于细胞的搜索架构空间中随机抽取100个神经架构，构造体系结构集合G.然后通过分别用超参数f和b训练和验证G中的每个架构来获得Rf和Rb4.2.最小重要性剪枝求和运算B j=i< j o（i，j）（B i）。这里每个节点是特定张量（例如，卷积神经网络中的特征图），并且Bi和Bj之间的每个有向边（i，j）表示运算o（i ， j ）（. ），其从对应的操作搜索空间O（i，j）采样。注意，约束i0）7B ={在Eq. };8为b在B做9列R与BPEb;10Rb← {R11rs←Rb之间的斯皮尔曼秩相关Rf;12D ← D {b，rs}13端部14通过使用Eq.5和Eq。D组6例;15计算公式的重要性。8个;16修剪空间由等式2表示。9;17n=n−1;月18日结束超参数BPE-1BPE-2DARTS[28]时代103050批量12812864学习率0.030.030.025N层6168渠道81616图像尺寸161632相关性rs0.500.630.57训练时间0.080.551.38表1.使用MIP在CIFAR10上发现的最佳设置的详细超参数发现的BPE-1和BPE-2显示出更好的相关性rs，平均训练时间（GPU小时）更少。具有最小杂质的分区：G= arg min G（Q，Q）。（六）ξ超参数重要性。对于回归树中的每个节点m，我们计算参数重要性作为节点杂质的减少，其由到达节点的样本数加权。节点m的参数importance定义为：Im=|Qm|H（Qm）− |Q{le ft，m}|H .ΣQ{left，m}1、…l和相应的spearman秩相关- -一种|Q{right，m}|H.ΣQ {right，m}。（七）vector [r s，1，r s，2，.，r s，l]，随机森林中的回归树递归地划分空间，使得Ds中具有相似值的示例被分组在一起。在训练回归树时，我们需要每个Θi的重要性是重要性的总和，通过随机森林中的节点的距离，其使用Θi作为分区参数：Σ考虑如何测量和选择分区特征（在我们的情况下是超参数）。具体来说，让数据在IΘi=m（八）Im节点m由Q表示。对于由超参数i和阈值t，m组成的每个候选分区，我们将数据划分为Q个左（左）子集和Q个右（右）子集，如下所示：参数修剪。在等式中8，通过设置具有最低概率的超参数，Qle ft（x）=（x，rs）|xi≤ tmQright（x）=（x，rs）|xi>tm.（三）Θ i= β i，Θ i= arg min IΘ。（九）βi是超参数Θi中最低FLOP的值我们进一步将given分裂集Q的杂质函数H（·）定义为：当IΘi<0. 1 .一、否则，βi为D中rs最大时的相应参数值。修剪步骤显著提高了搜索效率。通过设置H（Q）=1|Q|Σ2（rs，i-rs，Q）rs，i∈Q、（四）将不太重要的超参数转换为具有较少资源消耗的值，我们可以在重要参数上分配更多的计算我们最小的重要性-其中rs，Q1Σ|Q|rs，i∈Qrs，i、|Q|表示数量ing算法在Alg. 1.一、例如，在Q。而特定分区是杂质函数的加权和：|Qle ft|H（Qle ft）+|QRIGHT|H（Qright）5. 实验正如我们之前提到的，G（Q，Q）=|Qleft |Q|Q 权.（五）|用于评估BPE示例的时间为103GPU小时，这意味着在类似的样本量（1070）下，我们采用穷举法来寻找最优的部分，操作，即遍历所有可能的分区并选择例如最优化或随机搜索，需要7×104GPU小时（几乎不可行）。相比之下=11361架构测试错误参数搜索成本搜索表2.在CIFAR上比较我们发现的架构、人类设计的网络和其他NAS架构的测试错误率-10.为了公平比较，我们选择具有相似参数（5M）和相同训练条件（所有网络都使用Cutout [13]训练）的架构和结果。<4次运行的值为µ±σ。方法只需要5。2× 10 3GPU小时。因此，我们在本文中不对这些方法进行比较。我们首先将BPE与不同的搜索策略相结合，包括强化学习（RL）[21]，进化算法（EA）[2]，随机搜索（RS）[4]和不同架构搜索（DARTS）[28]。如图所示。5.1，我们使用CIFAR10 [24]和ImageNet [35]在有效性和效率方面与最先进的方法进行了比较。节中5.2，我们研究了BPE中各个超参数的影响，以及使用Spearman秩相关作为目标函数的效率。尽管许多作品[38，25]指出，基于单次的方法[37，31，28，3，50]无法有效地评估整个搜索空间的性能，但在第二节中。 5.3我们发现这些方法在局部搜索空间中确实有效，这合理地解释了可再现性和有效性，即，相应的算法实际上能够找到好的结构，并且由于局部信息的影响，在不同的运行中，最优结构有很大的不同。5.1. 与最新技术相比我们首先使用表1中找到的BPE-1和BPE-2搜索神经架构。1，然后用堆叠的更深网络评估最佳架构。为了确保所提出的方法的稳定性，我们将每个实验运行4次，发现得到的架构仅显示出在性能上略有差异。5.1.1实验设置我们使用与现有NAS方法相同的数据集和评估指标[28，8，52，27]。首先，大多数实验都是在CIFAR-10上进行的[23]，它有50K的训练图像和来自10 个类别的 10K测试图像，分辨率为32×32。在架构搜索期间，我们从训练集中随机选择5K图像作为验证集。为了进一步评估泛化能力，我们将CIFAR-10上发现的最佳单元堆叠到更深的网络，然后在ILSVRC 2012 [ 35 ]上评估分类精度，ILSVRC 2012由1，000个类组成，其中1. 28 M训练图像和50 K验证图像。在这里，我们考虑移动设置，其中输入图像大小224×224，浮点数小于600M。在搜索过程中，我们直接使用Tab中找到的BPE- 1和BPE-2。1作为与其他搜索算法的性能估计。在搜索空间中找到最佳架构后，我们验证了20个细胞的大型网络的最终准确性，该网络训练了600个epoch，批量大小为96，并进行了额外的正则化，如cutout [13]，类似于[28，52，31]。当在ImageNet上堆叠细胞进行评估时，我们使用步幅为2的两个初始卷积层，然后堆叠14个细胞，并在第1、第2、第6和第10个细胞处进行规模缩减。总数（%）（男）(GPU天）方法ResNet-18 [15]3.5311.1-手动DenseNet [18]4.771.0-手动SENet [17]4.0511.2-手动NASNet-A [52]2.653.31800RLENAS [31]2.894.60.5RL路径级NAS [8]3.643.28.3RLRL+BPE-1（我们的）2.660.05±2.70.33RLRL+BPE-2（我们的）2.650.12±2.92RLAmoebaNet-B [34]2.552.83150进化EA+BPE-1（我们的）2.68±0.092.460.33进化EA+BPE-2（我们的）2.660.072.872进化DARTS [28]2.7 ±0.013.11.5基于梯度GDAS [14]2.93 ±0.073.40.8基于梯度P-DARTS [11]2.75 ±0.063.40.3基于梯度SNAS [43]2.85 ±0.022.81.5基于梯度DARTS + BPE-1（我们的）2.89±0.03.90.05基于梯度DARTS + BPE-2（我们的）2.72±0.04.040.33基于梯度随机抽样1002.552.9108随机搜索随机样本100 + BPE-1（我们的）2.68±0.092.70.33（337×）随机搜索11362模型Top-1参数搜索时间（男）（GPU日）[36] 72.0 3.4-ShuffleNetV2 2x（V2）[29] 73.7 5-NASNet-A [52] 74.0 5.3180097.297.096.8国家统计局[43][28]第二十八话RL + BPE-1（我们的）74.18 5.5 0.33EA + BPE-1（我们的）74.56 5.0 0.33RS + BPE-1（我们的）74.2 5.5 0.33DARTS [28] + BPE-1（我们的）74.0 5.9 0.05表3.与ImageNet上最先进的图像分类方法进行此表中的所有NAS网络均为96.696.496.296.00.2 0.3 0.4 0.5 0.6相关性在CIFAR 10上搜索，然后直接传输到Ima-geNet。FLOP的初始值由通道的初始数量决定。该网络训练了250个epoch，批量大小为512，权重衰减为3×10−5，初始SGD学习率为0.1。所有实验和模型都在PyTorch中实现[30]。5.1.2CIFAR10结果我们比较了我们的方法与手工设计的网络和NAS网络。手动设计的网络包括ResNet [15]，DenseNet [18]和SENet [17]。我们评估了四类NAS方法，即。、RL方法（NASNet [52]、ENAS [31]和路径级NAS [8]）、进化算法（ AmoebaNet [34] ）、基于梯度的方法（DARTS [28]）和随机搜索。CIFAR-10上卷积架构的结果二、值得注意的是，与各种搜索算法相结合的BPE在准确性方面优于各种最先进的搜索算法[52，28，33]，计算消耗低得多（仅0的情况。05 GPU天3150在[34]）。我们把我们的优越结果归功于所发现的BPE。另一个值得注意的观察从Tab 2是，即使在搜索空间中进行随机搜索，测试错误率也仅为2。44%，在相同的搜索空间中优于以前的方法。最后，利用发现的BPE，搜索算法可以快速地探索架构搜索空间，并生成更好的架构。我们还在Tab中报告了手工制作的网络的结果。二、显然，我们的方法显示出显着的增强。5.1.3ImageNet上的结果我们进一步在ImageNet上的移动设置下比较了我们的方法，以证明其通用性。CIFAR-10上的最佳架构被转移到ImageNet，图3.在随机抽样BPE的情况下，研究了D. X轴通过等式测量斯皮尔曼等级相关性rs。1，y轴测量DARTS+BPE在CIFAR10上发现的真实架构性能。的rs和性能之间的相关性为0。六十五遵循[52，31，8]中相同的实验设置。结果见表1。3表明CI-FAR 10上的最佳细胞架构可以转移到ImageNet。所提出的方法实现了与最先进的方法[52，34，27，34，27，31，28，8]相当的准确性，同时使用更少的计算资源，例如，，比EA快9545倍，比RL快5400倍5.2. 性能评估我们进一步研究了使用Spearman秩相关rs作为目标函数的效率。3.第三章。在图4中，我们还对每个超参数的重要性进行了深入分析人们可以充分利用这种分析，将发现的BPE转移到其他数据集和任务中。我们随机选择了15个超参数设置，并将它们应用于DARTS [28]搜索算法以找到最佳架构。图3示出了rs与通过相应设置找到的最佳架构的精度性能与r s高度相关（0. 65相关性），其表示在等式中提出的目标函数的效率。1.一、在通过所提出的方法探索BPE空间之后，我们得到数据集Dw.r.t. 每个θ i和r s，其用作训练集以训练随机森林回归预测器”[16]故每一个人，都有自己的故事。然后，我们报告预测器估计的r s和图中每个超参数的重要性。4.第一章如示于图4、陡度和重要性高度相关，即，参数越重要，对应的曲线越陡，反之亦然。同时，对于两个最重要的参数（epoch和layer），我们得到了一个小范围的高rs。这意味着我们只需要仔细微调这两个参数精度AmoebaNet-A [34]74.55.13150[40]第四十话74.84.4-113630.650.600.550.500.45200 400 600 8001000批量（0.0004）0.70.60.50.40.30.210 20 30 40 5060通道（0.056）0.6750.6500.6250.6000.5750.5500.5250.5000246810121416开孔（0.00008）0.70.60.50.40.30 50100150200250300时代（0.1429）0.700.650.600.550.500.45161820222426283032浮点数（0.0415）0.6750.6500.6250.6000.5750.5500.5250.500161820222426283032图像大小（0.0028）0.70.60.50.40.35.0七点五10.0十二点五15.0十七点五20.0二十二点五25.0层（0.6426）0.650.600.550.500.450.030.040.050.060.070.080.09零点一学习率（0.0275）图4.重要性（括号内）和回归预测曲线，其中平均值和方差由随机森林为每个超参数学习。重要性与曲线陡度高度相关。对于两个最重要的参数（epoch和layer），我们可以在很小的范围内得到很高的rs。时代50 200 400 600一般全球rs 0.10-0.06 0.13-0.03本地rs0.13 0.50 0.310.31随机全局rs0.10-0.05-0.30-0.19局部rs-0.14-0.520.61-0.01随机10全局rs0.0 0.0 0.02-0.08局部rs 0.260.11 0.57 0.58表4.不同训练条件下的全局rs和局部rs的比较。“公平”表示边缘中的每个操作都是用完全相同的历元训练的。“Random”denotes each op- eration 全局rs和局部rs分别表示我们使用训练好的模型来评估全局和局部的性能估计在一个小范围内，当转移到其他数据集。5.3. 了解基于One Shot的方法以前的作品[25，38]已经报道了基于单次的方法，如DARTS，效果不好（在某些情况下甚至不比随机搜索更好）。有两个主要问题尚未得到解释：（1）单次方法不能很好地估计神经元的性能，但可以搜索到较好的神经元结构。(2)基于单次的方法的不稳定性，即所发现的网络对于不同的随机种子是不同的。有了BPE，我们可以有效地研究这些方法中的每个搜索阶段。为了理解和解释这些问题，我们首先用不同的设置训练同一个超图：（1）公平训练，边缘中的每个操作都是用完全相同的时期训练的;（2）随机训练，边缘中的每个操作都是在不同的随机水平上随机训练的。在选项卡中。4、给出了公平训练和随机训练下的全局和局部rs。全局rs表示我们使用我们的训练超图，得到G中网络的验证性能，然后用Xf计算rs。局部rs通过以下步骤获得：当训练超图时，我们保存采样的网络架构Gt和在epocht的相应验证性能XGt。然后通过使用找到的BPE-2获得局部rs，当量1，即，rs（XGt，BPE-2（Gt））.如Tab中所示。4、基于单次触发的方法在全局Rs，这与以前的工作[25，38]是一致的。然而，这些方法具有高的局部rs，这意味着这些方法本质上是使用局部信息。也就是说，搜索阶段的每个epoch只能利用局部信息进行感知和优化，这合理地解释了DARTS的不稳定性。6. 结论本文首次系统地分析了NAS中的预算性能估计（BPE），并提出了一种最小重要性剪枝（MIP）算法。该算法逐步减少BPE超参数的数量，将更多的计算资源分配到更重要的超参数上。将MIP-BPE推广到各种搜索算法，包括强化学习、随机搜索、进化算法和基于梯度的方法。将发现的BPE与各种NAS算法相结合，我们已经达到了最先进的测试误差2。CIFAR10上的66%，搜索时间更少，这也有助于我们更好地理解广泛使用的基于一次性的方法。鸣谢。本工作得到了国家自然科学基金项目（No.U1705262，No.61772443，No.61572410，No.61802324，No.61702136）、国家重点研究发展计划（2005）的（No.2017YFC0113000、No.2016YFB1001503）、福建省自然科学基金（No.2016YFB1001503）、2017J01125和编号2018J01106）。相关性相关性11364引用[1] 秋本佑平、白川真一、吉成野三、内田健人、斋藤正太、西田幸平。自适应随机自然梯度法用于单次神经结构搜索。在ICML，2019。3[2] 托马斯回来了。进化算法的理论和实践：进化策略，进化规划，遗传算法。牛津大学出版社，1996年。6[3] Gabriel Bender，Pieter-Jan Kindermans，Barret Zoph，Vijay Vasudevan，and Quoc Le.理解和简化一次性架构搜索。在ICML，2018。6[4] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。JMLR，2012年。三、六[5] MariuszBojarski ， DavideDelTesta ， DanielDworakowski ， Bernhard Firner ， Beat Flepp ， PrasoonGoyal ， Lawrence D Jackel ， Mathew Monfort ， UrsMuller，Jiakai Zhang，et al.自动驾驶汽车的端到端学习。arXiv，2016. 2[6] 利奥·布莱曼乱林。机器学习，2001年。二、四[7] Han Cai，Tianyao Chen，Weinan Zhang，Yong Yu，andJun Wang.通过网络变换进行有效的体系结构搜索。在AAAI，2018。2[8] 韩才，杨嘉诚，张渭南，宋涵，永玉。路径级网络转换，用于高效的体系结构搜索。arXiv，2018年。六、七[9] Hanlin Chen ， Lian Zhuo ， Baochang Zhang ， XiawuZheng ， Jianzhuang Liu ， David Doermann ， andRongrong Ji.二进制神经结构搜索。arXiv预印本arXiv：1911.10862，2019。1[10] 陈良杰、麦克斯韦·柯林斯、朱玉坤、乔治·帕潘德里欧、巴雷特·佐夫、弗洛里安·施洛夫、哈特维格·亚当和乔恩·施伦斯。寻找用于密集图像预测的高效多尺度架构。NeurIPS，2018。1[11] 辰昕、邪灵犀、君无邪、齐天。渐进式可区分体系结构搜索：缩小搜索和评估之间的深度差距。ICCV，2019。一二三四六[12] Hao Cheng ， Dongze Lian ， Bowen Deng ， ShenghuaGao，Tao Tan，and Yanlin Geng.从本地到全球的学习：逐步增加训练深度神经网络的类。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。1[13] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。arXiv，2017. 三、六[14] 董轩逸和杨毅。在4个GPU小时内搜索一个强大的神经结构。在CVPR，2019年。6[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一、六、七[16] 霍尔格·霍斯和凯文·莱顿-布朗一种有效的超参数重要性评估方法。在ICML，第754-762页，2014中。二四七[17] 杰虎，李申，孙刚。挤压-激发网络。在CVPR，2018年。六、七[18] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在CVPR，2017年。六、七[19] Frank Hutter，Holger H Hoos，and Kevin Leyton-Brown.基于顺序模型的通用算法配置优化。InLION，2011. 3[20] Rongrong Ji，Ke Li，Yan Wang，Xiaoshuai Sun，FengGuo，Xiaowei Guo，Yongjian Wu，Feiyue Huang，andJiebo Luo. 半监督对抗性单目深度估计。 IEEETransactionsonpatternanalysisandmachineintelligence，2019。1[21] Leslie Pack Kaelbling，Michael L Littman，and AndrewW Moore.强化学习：一个调查。JAIR，1996年。6[22] Aaron Klein ， Stefan Falkner ， Simon Bartels ， PhilippHennig，and Frank Hutter.大型数据集上机器学习超参数的快速baker-optimization。arXiv，2016. 二、三[23] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，2009年。6[24] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，2009年。6[25] Liam L

下载后可阅读完整内容，剩余1页未读，立即下载