神经结构搜索的相对论性能预测器：一种用于快速搜索神经结构的评估方案

178 浏览量更新于2024-01-22 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4411ReNAS：神经结构搜索徐一星1、王云鹤1、韩凯1、唐业辉14、崔尚玲2、徐春静1、徐昌3、诺亚3悉尼大学4北京大学{yixing.xu，yunhe.wang}@ huawei.com;c. sydney.edu.au摘要一个有效的体系结构性能评估方案是神经体系结构搜索成功的关键。为了节省计算成本，大多数现有的NAS算法通常在具有有限训练时期的小代理数据集上训练和评估但是，很难期望在这样一个粗略的评估方式的体系结构的准确的性能估计。本文提出了一种新的神经网络体系结构评估方案，其目的是确定哪种体系结构的性能更好，而不是准确地预测绝对的体系结构性能。因此，我们提出了一个相对论的架构性能预测器在NAS（ReNAS）。我们将神经架构编码为特征张量，并使用预测器进一步细化表示。建议的相对论性能预测器可以部署在离散搜索方法中搜索所需的架构，而无需额外的评估。在NAS-Bench-101数据集上的实验结果表明，采样424（0。整个搜索空间的1%）的神经架构及其相应的验证性能已经足以学习准确的架构性能预测器。在NAS-Bench-101和NAS-Bench-201数据集上的神经元结构的搜索精度高于现有的方法，表明了该方法的优越性。1. 介绍近年来出现了许多著名的卷积神经网络（CNN），（例如：VGG [35]，ResNet [15]，MobileNet [16]）。他们在许多实际应用中取得了最先进的成果[26，32，35，48，39，14，6，5]。然而，这些复杂的CNN的设计在很大程度上依赖于人类专家的经验。因此，研究一种无需人工干预的自动设计神经网络架构的方法是很有吸引力的神经架构搜索（NAS）已被提出来解决这一需求[4，17，27，28，45，38]。受不同搜索策略和算法的启发，已经提出了许多NAS算法来提高搜索速度和结果网络的性能[3，18，36 ， 21] ，包括离散搜索方法，如基于进化算法（EA）的方法[24，29，31]，基于强化学习（RL）的方法[24，29，31ods [2，30，49，50]和连续搜索方法，[25][26][ 27][28][29][29][29]已有大量的研究集中在设计不同的检索方法上.然而，建筑评价方案的研究还不够充分。在离散搜索方法的体系结构评估阶段，为了提高评估效率，往往采用基于超网络的中间性能，连续搜索方法优化一系列可学习的参数，以选择深度神经网络中的层或操作。然而，这些粗略的架构评估可能会阻止我们选择最佳的神经架构（详细信息可以在第3.1节中找到）。最近的一份报告表明，当前NAS框架发现的网络性能与随机搜索的性能相似[33，43]。最近，有一种替代方法通过学习性能预测器来评估神经结构例如，Domhanet al.提出了一个权重概率模型，从学习曲线的第一部分推断性能[9]。Klein等人使用贝叶斯神经网络来预测未观察到的学习曲线[20]。这两种方法依赖于马尔可夫链蒙特卡罗（MCMC）采样过程和手工制作的曲线函数，这是计算昂贵的。Deng等人[8]开发了一种统一的方法，将各个层编码为向量，并通过LSTM将它们组合在一起形成集成描述，并直接预测网络架构的性能Sun等.[37]提出了一种基于随机森林的端到端上面提到的方法专注于预测给定神经架构的精确性能，具有元素级损失函数，例如均方误差（MSE）或最小绝对误差（L1）。然而，在神经元-4412图1：拟议的ReNAS的管道。采样网络：架构从预定义的搜索空间中采样并训练，直到收敛以获得地面实况结果。性能预测。通过利用邻接矩阵和能够很好地表示计算能力的特征，将采样的架构编码成特征张量。然后，使用预测器来预测最终精度。损失函数使用基于成对排序的损失函数来训练预测器。与均方误差（MSE）损失相比，基于排名的损失函数可以导出远离地面实况但处于正确排名位置的预测，这对于以下搜索算法搜索最佳架构至关重要。架构搜索，我们关心的实际上是哪种神经架构会导致更好的性能。因此，采用相对论的方法来评估神经结构的性能，而不是确定性的评估神经结构，这是更合理的在本文中，我们的目标是学习一个架构性能预测器，专注于排名的建筑师，t架构。具体地，给定基于单元的搜索空间，对于所有架构（例如，NASBench[46，12]，DARTS [25]），我们通过利用单元的邻接矩阵和可以很好地表示给定架构的计算能力的特征（例如，每个节点的FLOP和参数）。然后，使用基于成对排序的损失函数而不是元素损失函数，因为对于大多数搜索方法，保持不同网络之间的排名所提出的方法的流水线如图所示1.一、在NAS-Bench-101搜索空间上的实验结果表明，与其他预测器相比，该预测器具有更高的预测精度，能够有效地找到前0的架构。02%的准确率在整个搜索空间的训练只有424（0。整个搜索空间的1%）神经架构。在NAS-Bench-201上与其他先进的EA/RL/差分NAS方法的比较也表明了所提出方法的优越性在NAS-Bench-101上搜索的模型可以在MindSpore模型zoo1中找到。第1https://www.mindspore.cn/resources/hub/2. 问题公式化在本节中，我们首先实例化前面的方法中使用的评估方案的问题然后，我们给出了一个详细的介绍所提出的性能预测器。具体地说，架构性能预测器的开发包括三个部分：将网络架构编码为特征张量、预测性能的回归量（预测器）和待优化的目标函数。在本文中，我们提出了一种新的方法来编码神经网络结构在基于细胞的搜索空间到特征张量和设计回归。此外，我们提出了成对排序损失来优化回归量。2.1. 评估方案在节省计算资源和时间的情况下，在先前NAS方法中常用的评估方案是在神经网络N的一部分上训练神经网络N。具有提前停止策略的训练数据集D∈D，其中D是整个训练数据集。然后对模型进行测试-ed的验证集上，并且中间精度ACC（N，D）代表模型在后续搜索算法中的性能的近似，而不是地面实况精度ACC（N，D）。以前的方法[23，47，43]假设存在线性相关性，中间精度和地面真实精度之间的关系ACC（N，D）=k×ACC（N，D）+σ，（1）其中k是缩放因子，σ是偏移。然而，在Eq. 1在实践中可能不成立，中间精度可能会打破原来的排名4413因为较轻的架构通常在较小的数据集上比笨重的架构更快地收敛，但是在使用整个训练集时表现更差[33]。请注意，为搜索算法产生正确的排名是相当重要的，因为搜索算法总是选择相对更好的架构，而不管它们的绝对性能如何。因此，我们专注于使用预测器学习不同架构之间的正确排名具体地，给定预测器ε和两个不同的架构N1和N2。去 -注意ε（N;W）作为给定ar的预测性能其中W是预测器的权重矩阵，我们应该有：其中n是节点的数量。此外，我们计算了每个节点的FLOP和参数，并导出了FLOP向量f∈Rn（我们假设输入图像大小为32 ×32）以及参数向量p∈Rn。由于每个单元中的节点数量可能不同，我们将邻接矩阵A填充为0，大小固定为7×7。相应地填充类型向量t、FLOP向量f和参数向量p注意，输入和输出节点应该固定为第一个和最后一个节点，因此每次在倒数第二行和倒数第二列加补零，直到A的大小为7×7。在此之后，我们将向量广泛转换为矩阵，并与邻接矩阵进行元素乘法以获得类型ma-FLOW矩阵F和参数矩阵P，最后ε（N1;W）> ε（N2;W），当且仅当ACC（N1，D）> ACC（N2，D），（二）将它们连接在一起以获得19×7×7张量T，以表示NAS-Bench-101中的特定架构前-这意味着预测器应该根据它们的地面实况性能将不同的网络体系结构排列成正确的顺序。2.2. 基于元胞搜索空间通常，具有统一超网的基于单元的搜索空间堆叠相同的搜索单元以获得最终架构[25，46，12]。在本节中，我们将介绍如何将基于单元的搜索空间中的架构编码为特征张量。编码神经结构对于预测器预测性能是重要的。Peephole [8]选择层类型、内核宽度、内核高度和通道数作为每个层的表示。E2EPP [37]迫使网络架构由DenseNet块、ResNet块和池化块组成，并基于这些块生成特征。然而，这些特征还不足以对网络架构进行编码。与上述方法不同的是，我们利用单元的邻接矩阵和能够很好地表示给定体系结构计算能力的特征，在下文中，我们使用NAS-Bench-101数据集[46]作为示例，其中包含超过423 k个独特的CNN架构及其在CIFAR-10数据集上的训练，验证和测试精度。相同的方法可以应用于其他基于单元的搜索空间。不同的细胞产生不同的CNN架构。在每个单元中，有不超过7个节点，其中IN和OUT节点被固定以分别表示单元的输入和输出十元。其他节点是从3种不同的操作中随机选择的：3×3卷积，1×1卷积和3×3最大池。边缘是有限的不超过9。具体地，细胞可以由0-1邻接矩阵A ∈ {0，1}n×n和类型向量t∈{1，···，5}n（5种不同的节点类型，包括输入、3×3卷积、1×1卷积、3 ×3最大池化和输出）表示，在补充材料的第2节中给出了导出特征张量的过程示例。注意，特征张量表示对置换不鲁棒，即，置换邻接矩阵和类型矩阵可能导致不同的结果。这个问题可以通过固定节点的顺序具体来说，我们使用深度优先搜索的方法，根据到INPUT节点的距离对节点进行排序，以减少非唯一排序现象。对于那些具有相同深度的节点，我们研究了一种简单的数据增强方法（即，基于具有相同深度的节点来置换相同体系结构的邻接矩阵和类型矩阵），使得特定体系结构的所有表示被分配有相同的标签。2.3. 架构性能预测器给出了上述特征张量，我们提出了架构性能预测器，并引入了基于排名的损失函数。在实践中，由于大量的时间和资源消耗，预测器的训练数据通常是有限的。训练一个单一的神经结构。因此，为了防止过度拟合问题，我们使用简单的LeNet-5架构来预测给定网络架构张量T的最终精度。当训练预测器时，常用的损失函数-Tion是元素的MSE或L1损失函数[8，19，37]。他们假设较低的MSE或L1损失会导致更好的排名结果。然而，情况并非总是如此。例如，给定两个网络，在验证集上的地面真实分类精度为0.9和0.91。在第一种情况下，预测它们具有0.91和0.9，以及在0.89和0.92.两种情况下的均方误差损失是相同的，但前者更差，因为两个网络之间的排名发生了变化，搜索方法将选择性能较差的架构。我们认为，不同的architec之间的预测精度4414i=1i=1i=1i=1ℓ将网络性能预测器应用于不同的搜索方法时，实际性能比其绝对性能更重要。从形式上讲，给定 n不同网络架构所提出的预测器的效果是双重的。第一种方法是直接预测具有正确排序的精度，第二种方法是生成具有连续性的特征，这间接有助于预测精度。和他们的地面实况表现{（Ni，yi）}n得双曲正弦值.最后，将性能预测器集成到DIS中，{ε（Ni;W）}n是预测器的输出（简称为具体的搜索算法，如基于EA（RL）的搜索ε（Ni）），它们是要排序的n个对象我们定义基于成对排序的损失函数为：方法通过替换给定architec的健身（奖励）我们的预测器的输出（见图1）。基于EAL1（ W）=n−1<$ni=1j=i+1φ（（ε（Ni）−ε（Nj））<$sign（yi−yj）），（三）方法，将个体输入预测器，输出作为EA方法在毫秒内的模型适应度。其中φ（z）=（a-z）+是带参数的铰链函数a. 举两个例子，只有当这些例子的顺序是正确的，但有一定的差别其他函数如逻辑函数φ（z）=log（1+e-z）和指数函数φ（z）=e-z也可以在这里应用。除了利用最终的输出，我们相信，在最后一个FC层之前提取的连续性是机器学习中的一个常见假设I.E. 性能沿着特征空间连续变化然而，对于主网络架构，情况并非如此，在主网络架构中，架构的轻微改变可能导致性能的根本改变（例如，跳过连接）。因此，我们考虑学习具有连续性的特征。为了生成具有连续性的特征，考虑三元组{（η（Ni;W），yi）}3其中η（Ni;W）（短3. 理论分析在这一节中，我们分析了推广误差界，并证明了使用所提出的基于成对排序的损失函数（等式2），3）在使用具有ReLU激活函数的两层神经网络的假设下，在解决排名问题首先，我们重新制定了基于排名的损失函数。给定一个输入对（x，y），（x′，y′）∈（X × Y）2，记f：X →R为X上的排序函数，且f：R×（X ×Y）2→{0，R+}为排序损失函数，f的期望误差可以定义为[1]：R<$（f）=E（（X，Y），（X ′，Y′））<$（X×Y）2[<$（f，（X，Y），（X′，Y′））].（六）给定一个训练集D={xi，yi}n∈ {X，Y}n，f的误差定义为：作为η（Ni））是在最终FC层之前生成的特征。两个特征之间的欧几里得距离是com-假设d=||η（N）−η（N）||的差异，R（f）=1n（n−1）n−1nn（f，（xi，yi），（x′i，yi′）），（7）ij i j2i=1j=i+1两种体系结构之间的性能是简单的COM-假设为lij=|yi−yj|. 因此，我们通过将损失函数定义为：并且正则化经验误差被定义为：L2（ W）=n−2 n−1<$ni=1j=i+1k=j+1φ（（dij−dik）<$sign（lij−lik））。（四）Rλ（f）=Rλ（f）+λC（f），（8）其中第二项是正则化项，并且λ>0是正则化参数。给定单个三元组，存在若干不同的对，并且具有较小距离（较小dij）的对应该具有类似的性能（较小lij）。当量(4) 比较两个不同的对，并且当前一对与后一对相比具有较大的距离（较大的Dij）但具有相似的性能（较小的Lij）时产生成本，反之亦然。损失在所有不同的三元组上累积注意，虽然Eq. 3和等式四是严--4415因此，当使用损失函数φ（z）=（a-z）+时，当量3等于使用表示为如：h（f，（x，y），（x′，y′））=[a−（f（x）−f（x′））·sign（y−y′）]+，（九）并且按元素的MSE损失可以表示为：1但是，背后的目的是完全不同的。给定上述方程，最终损失函数是以下各项的组合：mse（f，（x，y），（x′，y′））=[（f（x）−y）2+（f（x′）−y′）2].2（十）他们：L=L1+λL2，（5）在下文中，我们给出了使用基于成对排序的损失函数和MSE时的推广误差其中λ是控制两个不同损失函数之间的重要性的超参数。因此损失，并表明所提出的损失函数是更好的。证明适用于补充材料。4416ℓCXfnF1000f定理1. 设A为对称排序算法-m2，其训练数据集D ∈（X×Y）n上的样本输出为fD=argminf∈FR<$λ（f），其中n∈N为训练样本数. 将cx和cf表示为：输入和权重的上界，使得对于所有x∈X和f：X→R，我们有|X|≤cx和<$f<$2≤cf。给出了对于所有f：X→ R和（x，y），（x′，y ′）∈（X × Y）2，满足fy0≤ fyh（f，（x，y），（x′，y′））≤ L的铰链排序损失函数fyh，以及满足0 ≤ fymse（f，（x，y），（x′，y′））≤ L的MSE损失函数fymse. 那么对于任何0<δ <1，概率至少为1 − δ，我们有：Bench-101数据集被选为预测器的训练集和测试集回想一下，ReNAS中的一个基本思想是，当将预测器嵌入到不同的搜索方法中时，预测值的排名比它们的绝对值更重要。因此，对于定量计算，我们使用Kendall一致对数KTau=2×2−1，（13）nRh（fD）R （fD）+8c2c2.λn其中n是样本数，C2=n（n−1）/2一致对是指预测值和4c2c2+（ xf+L）λ2ln（1/δ）n、（十一）并且给定对的实际值相同。KTau范围从-1到1，适合于判断预测排名的质量。值越高，表示排名越好。罗姆塞（fD））R 阿姆瑟（fD）8（cxcfL+ 1）c2c2）+2λλn为了清楚地回顾使用特征张量和成对损失的影响，我们进行了以下6个版本-cxcfL22.通过将预测器固定为+（cxcfL4（2<$λ+ 1）cxcf+L）λ2 ln（1/δ）.（十二）nLeNet和变化的特征编码方法和损失函数，包括：ReNAS-1（类型矩阵+ MSE）：仅使用类型由于（2<$λ+1）>1，还应注意，在预期误差和经验误差之间，赌注-概括能力。因此，我们可以说，使用基于成对排序的损失函数（等式2），3）具有比使用逐元素MSE损失更好的泛化能力。4. 实验在本节中，我们进行了几个实验来验证所提出的网络性能预测器的有效性。在此基础上，通过将预测器嵌入EA算法，找到了最佳CNN结构，并与其他最先进的预测器进行了比较，以验证其性能。下面详细描述用于训练预测器和搜索最佳架构的参数设置。在训练预测器时，我们使用Adam训练LeNet架构，初始学习率为1×10−3;权重衰减设置为5×10−4;批量大小设置为1024，训练了200个纪元。当使用EA算法时，我们将最大代数设置为500，种群大小设置为64。选择、交叉和突变的概率被设置为0。五，零。三比零。2所示。4.1. NAS Bench 101我们将所提出的预测器与Peephole [8]和E2EPP [37]中介绍NAS-2对称排序算法的输出与训练序列D中元素的顺序无关。该算法可以很容易地证明是一个对称的排名算法。矩阵作为特征和MSE损失函数。ReNAS-2（张量+ MSE）：使用建议的特征张量和MSE损失函数。ReNAS-3（类型矩阵+L1）：仅使用类型矩阵作为特征和损失函数L1（等式2）。3）。ReNAS-4（张量+L1）：使用所提出的特征张量和损失函数L1。ReNAS-5（类型矩阵+L）：仅使用类型矩阵作为特征和损失函数L（等式2）。5）。ReNAS-6（张量+L）：使用所提出的特征张量和损失函数L。请注意，NAS-Bench-101数据集中的搜索空间E2 EPP和E2 EPP是不同的，E2 EPP中提出的编码方法不能直接用于NAS-Bench-101数据集。为了将NAS-Bench-101数据集应用于E2 EPP，我们提出了E2 EPP的替代方法其他部分保持不变。实验结果见表1。1.一、考虑到实际中训练样本只能覆盖搜索空间的很小一部分，所以在只使用0时，我们只关注第二列。NAS-Bench-101的1%（424个模型和相应的验证精度）数据集作为训练集。为了完整性，实验中使用了不同的比例结果表明，所提出的编码方法可以更好地表示一个体系结构，并且KTau指标增加了约0的情况。14时使用MSE损失和0. 05当使用成对损失时。使用成对损失而不是元素损失时4417表1：Peephole、E2 EPP和所提出的算法在NAS-Bench-101数据集上的Kendall方法0的情况。百分之一百分之一百分之十百分之三十百分之五十百分之七十百分之九十酒店[8]E2EPP [37]0.45560.50380.47690.67340.49630.70090.49770.69970.49720.70110.49750.69920.49510.6997ReNAS-10.34650.59110.79140.82290.82770.83440.8350ReNAS-20.48560.60900.81030.84300.83990.85040.8431ReNAS-30.60390.79430.87520.88940.89490.89760.8995ReNAS-40.63350.81360.87620.89000.89570.89790.8997ReNAS-50.60960.79490.87560.88540.88980.89110.8918ReNAS-60.65740.81610.87630.88730.89100.89230.8954MSE损失，KTau指标增加约0. 26，当仅使用类型矩阵作为特征时，约0。17当使用所提出的特征张量时。这意味着无论输入特征如何，成对损失都优于MSE损失。与其他现有方法相比，Peephole方法除了使用层（节点）类型作为特征外，还使用核大小和通道数作为然而，当使用所有提出的特征时，它的性能比ReNAS-2方法差，这再次表明使用特征张量的优越性。E2EPP使用随机森林作为预测器，只有在训练样本非常稀少时才有优势。当使用有限的训练数据，所提出的方法与损失函数L（方程。5）实现了最佳的KTau性能，而所提出的具有L1损失的方法（等式5）实现了最佳的KTau性能，而所提出的具有L13）当使用更多的训练数据时更好。结果表明，当使用很少的训练数据时，连续性对于模型排序是有利的，这在现实中是经常的情况。NAS-Bench-101数据集的定性比较如图2所示。我们展示了使用0训练预测器的结果。1%的训练数据，每个点的x轴表示所有点中的真实排名，y轴表示相应的预测排名。一个完美的预测点位于y=x线上，越靠近y=x线越好。结果表明，ReNAS的预测排名是优于其他国家的最先进的方法。4.2. NAS Bench 101上的架构搜索结果在搜索最佳架构时，由于EA算法的搜索空间与NAS-Bench- 101中的搜索空间相同，因此预测器的训练集的大小应该受到限制，并且我们不能阻止EA算法在训练集中搜索架构因此，为了减少训练集的影响，我们只使用0。1%的NAS-Bench-101数据集作为训练样本来训练预测器，表2：CIFAR-10数据集上的分类准确度（%）和NAS-Bench-101数据集中不同架构之间的排名（%）预测器是用0训练的。从NAS- Bench-101数据集随机选择1%方法准确度（%）排名（%）酒店[8]92.63 ±0.3112.32E2EPP [37]93.47 ±0.441.23Rs93.72 ±0.130.23ReNAS-192.36 ±0.2716.93ReNAS-293.03 ±0.216.09ReNAS-393.43 ±0.261.50ReNAS-493.90 ±0.210.04ReNAS-593.48 ±0.181.21ReNAS-693.95 ±0.110.02并随后用于EA算法。在CIFAR-10数据集上测试的最终性能，其中使用EA算法搜索最佳架构，使用所提出的预测器，随机搜索（RS）的结果和上述同行竞争者如表所示二、具体地说，EA算法选择的前10个架构中的最佳性能与不同的预测报告和实验重复20次与不同的随机种子，以减轻随机性。第二列表示所选模型在CIFAR-10测试集上的分类准确性，第三列表示所选模型在NAS-Bench-101数据集中所有423k不同模型中的真实排名。所提出的方法优于其他竞争对手，并找到一个网络架构与前0。02%的性能之间的搜索空间使用只有0。1%数据集。用很少的训练数据实现良好的性能首先，FLOP和参数的基本特征4418(a) 窥视孔（b）E2EPP（c）建议图2：在NAS-Bench-101数据集上，Peephole、E2 EPP和建议方法的预测排名和真实排名随机抽取1000个模型用于展览目的。x轴表示真实排名，y轴表示相应的预测排名。表3：CIFAR-10数据集上的分类准确度（%）和NAS-Bench-101数据集中不同架构之间的排名（%），使用0训练的预测器。从NAS-Bench-101数据集中选择1%样本。使用不同的选择方法方法准确度（%）排名（%）随机选择93.95 ±0.110.02按参数93.84 ±0.210.08按浮点数93.76 ±0.130.16表4：使用EA算法与所提出的预测器和对等竞争者在NAS-Bench-101中的不同架构中对CIFAR-100数据集的分类准确度（%）。预测器使用从NAS-Bench-101中随机选择的424个样本进行训练。方法前1位访问（%）前5名的获得率（%）酒店[8]73.5891.97E2EPP [37]75.4992.77Rs77.4793.68提出78.5694.17可以很好地表示结构，并且张量类输入适合于CNN。二是利用成对损失对训练集进行了一定程度的扩展.给定n个个体，实际上有n（n−1）/2对和n（n−1）（n−2）/6个三胞胎用于训练。请注意，在实践中使用性能预测器时，搜索空间通常与NAS-Bench-101数据集不同，这意味着需要从头开始收集训练样本。因此，我们给出了从搜索空间中选择模型结构作为训练样品0的情况。从NAS-Bench-101数据集中选取1%的样本作为训练样本，采用随机选择、参数选择和FLOPs选择的方法。当按参数（FLOP）选择时，所有样本按其总参数（FLOP）排序，并统一选择该方法利用不同的训练样本训练不同的预测器，并将其集成到EA算法中进行搜索。最佳体系结构的性能如表13 .第三章。结果表明，随机选择的效果最好。一个可能的原因是具有相似参数（FLOP）的体系结构进行了分散，并且均匀选择的体系结构不能代表具有相似参数（FLOP）的体系结构的真实性能分布。因此，随机选择是我们的选择，并且在现实中从搜索空间生成训练样本时值得尝试。我们通过在 NAS-Bench- 101 搜索空间中搜索在CIFAR-100数据集上表现良好的架构具体来说，我们随机选择了424个架构，并在CIFAR-100上从头开始训练它们，并获得真实标签。这些样本进一步用于训练预测器，并使用上述方法搜索最佳架构。结果在Tab。4显示所提出方法的优先级NAS-Bench- 101数据集上的其他实验在补充材料中给出。4.3. 与NAS Bench 201为了与其他最先进的NAS搜索方法进行比较，我们进一步在 NAS-Bench-201 [12] 上进行实验， NAS-Bench-201也是一个基于单元的搜索空间，包括15625种不同的架构以及CIFAR-10、CIFAR-10和CIFAR-10上相应的训练、验证和测试精度。4419表5：NAS-Bench-201的检索结果。方法搜索秒CIFAR-10CIFAR-100ImageNet-16-120验证测试验证测试验证测试RSPS [22]7587.1284.16±1.6987.66±1.6959.00±4.6058.33±4.3431.56±3.2831.14±3.88[25]第二十五话10889.8739.77±0.0054.30±0.0015.03±0.0015.61±0.0016.43±0.0016.32±0.00[25]第二十五话29901.6739.77±0.0054.30±0.0015.03±0.0015.61±0.0016.43±0.0016.32±0.00GDAS [11]28925.9190.00±0.2193.51±0.1371.15±0.2770.61±0.2641.70±1.2641.84±0.90[10]31009.8182.25±5.1786.19±4.6356.86±7.5956.87±7.7732.54±3.6331.90±4.07ENAS [30]13314.5139.77±0.0054.30±0.0015.03±0.0015.61±0.0016.43±0.0016.32±0.00NPENAS [40]-91.08±0.1191.52±0.16----REA [31]0.0291.19±0.3193.92±0.3071.81±1.1271.84±0.9945.15±0.8945.54±1.03Rs0.0190.03±0.3693.70±0.3670.93±1.0971.04±1.0744.45±1.1044.57±1.25NASBOT [41]--93.64±0.23-71.38±0.82-45.88±0.37加强[42]0.1291.09±0.3793.85±0.3771.61±1.1271.71±1.0945.05±1.0245.24±1.18BOHB [13]3.5990.82±0.5393.61±0.5270.74±1.2970.85±1.2844.26±1.3644.42±1.49ReNAS（我们的）86.3190.90±0.3193.99±0.2571.96±0.9972.12±0.7945.85±0.4745.97±0.49ResNetN/A90.8393.9770.4270.8644.5343.63最优91.6194.3773.4973.5146.7747.31100和ImageNet-16-120 [7]数据集。在实验过程中，90个随机选择的架构和相应的验证精度被用作所提出的预测器的训练集。在预测器被训练之后，我们用预测器而不是使用EA算法遍历搜索空间，因为架构的数量很少。其他设置与NAS-Bench-101数据集上的实验相同。最好的验证和测试精度的前10名的预测器中选择的架构报告。实验重复20次，选择不同的训练样本。比较方法包括：（1）随机搜索方法，如随机搜索（RS）和随机搜索与参数共享（RSPS）[22]。(2)[31]和NPENAS [40]。(3)RL方法，如REINFORCE [42]和ENAS [30]。(4)差分方法，如DARTS-V1/DARTS-V2[25] 、 GDAS [11] 和 SETN [10] 。 (5)HPO 方法，如BOHB [13]。(6)预测方法，如NASBOT [41]。比较方法的实验设置与[12]中相同五、ReNAS的搜索成本是预测器的训练时间使用预测器遍历搜索空间在毫秒内完成，与训练时间相比可以忽略不计搜索结果表明，基于测试集，本文提出的Re-NAS方法在所有三个数据集上都具有最高的搜索精度，并且在单个GeForce GTX 1080 Ti GPU上的搜索成本在两分钟内可接受，这表明了本文方法的优越性与以前的最先进的方法REA [31]，NASBOT [41]和随机搜索相比，ReNAS发现更好的架构在CIFAR-10测试集上分别好0.07%、0.35%和0.29%，在CIFAR-100测试集上分别好0.28%、0.74%和1.08%，在ImageNet-16-120测试集上分别好0.43%、0.09%和1.40%5. 结论提出了一种在训练前根据网络结构预测网络性能的新方法。我们利用单元的邻接矩阵和能够很好地表示给定架构的计算能力的特征，基于成对排序的损失函数被用于性能预测器而不是元素级损失函数，因为在不同的搜索方法中，不同架构之间的排序比它们的绝对值更重要。我们还从理论上证明了使用成对排序损失的优越性。在NAS-Bench- 101数据集上进行了几个实验，结果表明，该预测器可以优先对不同体系结构的性能进行排序，并在搜索空间中仅使用0. 数据集的1%。在NAS-Bench-201数据集上的实验结果表明，所提出的ReNAS方法在搜索代价较大的情况下，性能优于现有的NAS搜索方法.确认我们感谢匿名地区主席和评论者的有益评论。ChangXu在项目DE180101438下得到了澳大利亚研究委员会的支持。4420引用[1] Shivani Agarwal和Partha Niyogi。基于算法稳定性的排序算法的推广界。 Journal of Machine LearningResearch，10（Feb）：441-474，2009。4[2] Bowen Baker，Otkrist Gupta，Nikhil Naik，and RameshRaskar.使用再学习设计神经网络架构。arXiv预印本arXiv：1611.02167，2016。1[3] Bowen Baker ， Otkrist Gupta ， Ramesh Raskar ， andNikhil Naik.使用性能预测加速神经结构搜索。arXiv预印本arXiv：1705.10823，2017。1[4] 韩彩，朱力耕，宋涵。Proxylessnas：在目标任务和硬件上直接搜索神经架构 arXiv 预印本 arXiv ：1812.00332，2018。1[5] 陈寒亭，王云鹤，徐畅，徐超，陶大成。通过特征嵌入学习学生网络IEEE Transactions on Neural Networks andLearning Systems，2020。1[6] Hanting Chen ， Yunhe Wang ， Chang Xu ， ZhaohuiYang，Chuanjian Liu，Boxin Shi，Chunjing Xu，ChaoXu，and Qi Tian. 学生网络的无数据学习在IEEE/CVF计算机视觉国际会议论文集，第3514-3522页1[7] Patryk Chrabaszcz ，Ilya Loshchilov， and Frank Hutter.imagenet的下采样变体，作为ci- far数据集的替代品。arXiv预印本arXiv：1707.08819，2017。8[8] Boyang Deng，Junjie Yan，and Dahua Lin.窥视孔：在训练前预测网络性能. arXiv预印本arXiv：1712.03351，2017年。一、三、五、六、七[9] 托拜厄斯·多姆汉，约斯特·托拜厄斯·斯普林根伯格，弗兰克·赫特.通过学习曲线的外推来加速深度神经网络的自动超参数优化。2015年第24届国际人工智能联合会议。1[10] 东轩逸和杨逸。通过自评估模板网络进行一次性神经结构搜索。在IEEE计算机视觉国际会议论文集，第3681-3690页，2019年。8[11] 东轩逸和杨逸。在4个GPU小时内搜索一个强大的神经在IEEE计算机视觉和模式识别会议论文集，第1761-1770页，2019年。8[12] 东轩逸和杨逸。 Nas-bench-102：扩展可再现神经结构搜索的范围。arX-iv预印本arXiv：2001.00326，2020。二、三、七、八[13] 斯特凡·福克纳，亚伦·克莱因，弗兰克·哈特。Bohb：大规模的鲁棒性和有效的超参数优化arX- iv预印本arXiv：1807.01774，2018。8[14] 韩凯、王云鹤、田琦、郭建元、徐春静、徐常。Ghostnet：廉价操作的更多功能。在IEEE/CVF计算机视觉和模式识别会议论文集，第1580- 1589页，2020年。1[15] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议，第770-778页，2016年。1[16] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。1[17] 胡寿康，谢思瑞，郑和辉，刘春晓，石建平，刘训英，林大华Dsnas：无需参数再训练的直接神经结构搜索在IEEE/CVF计算机视觉和模式识别会议论文集，第12084-12092页，2020年1[18] Frank Hutter，Holger H Hoos，and Kevin Leyton-Brown.基于顺序模型的通用算法配置优化。在学习和智能优化国际会议上，第507-523页。Springer，2011. 1[19] Roxana Istrate，Florian Scheidegger，Giovanni Mariani，Dimitrios Nikolopoulos，Costas Bekas，and A Cristiano IMalossi. Tapas：用于架构搜索的Train-less精度预测器。arXiv预印本arXiv：1806.00250，2018。3[20] Aaron Klein，Stefan Falkner，Jost Tobias Springenberg，and Frank Hutter.用贝叶斯神经网络预测学习曲线2016.1[21] Lisha Li，Kevin Jamieson，Giulia De

下载后可阅读完整内容，剩余1页未读，立即下载