没有合适的资源?快使用搜索试试~ 我知道了~
11993MiLeNAS:通过混合级重构的高效神经架构搜索朝阳河1号 叶海山2李申3张彤41南加州大学2香港中文大学深圳分校3腾讯AI Lab4香港科技大学usc.edu:chaoyang.cs@outlook.comhsyegmail.com lshen.tongzhang@tongzhang-ml.org摘要形式上,基于梯度的方法可以被公式化为双层优化问题[17]:许多最近提出的神经结构搜索(NAS)的方法可以用公式表示为双层优化。minαLval(w(α),α)(1)为了有效地实现,它的解决方案需要近似的二阶方法。在本文中,我们恶魔-S. t. w(α)= argminLW(w,α)(2)论证了由这种近似引起的梯度误差导致次最优性,在这个意义上,优化过程不能收敛到(局部)最优解。为了解决这个问题,本文提出了MiLeNAS,一个混合级别的重新制定的NAS,可以有效地和可靠地优化结果表明,即使在混合水平公式上使用简单的一阶方法,MiLeNAS也可以实现NAS问题的较低验证误差因此,通过我们的方法获得的架构实现considerably更高的精度比从双层优化。此外,MiLeNAS提出了一个超越DARTS的框架。它通过基于模型尺寸的搜索和提前停止策略进行升级,可以在大约5小时内完成搜索在卷积体系结构搜索空间内的大量实验验证了我们的方法的有效性。1. 介绍深度学习在计算机视觉中的成功在很大程度上取决于新颖的神经架构[7,10]。然而,大多数广泛采用的体系结构都是手动开发的,这使得它们既耗时又容易出错。因此,对神经架构搜索(NAS)的研究兴趣高涨,它使架构设计的手动过程自动化[1,23]。 NAS有三种主要方法:进化算法[23,5],基于再增强学习的方法[1,21]和基于梯度的方法[17,28,5,19]。为基于梯度的NAS开发优化方法是有希望的,因为它在CNN上实现了最先进的性能,而不到一个GPU天[17,4]。*同等贡献其中w表示网络权重,α确定神经结构。Ltr(w,α)和Lval(w,α)分别表示训练数据和验证数据的损失虽然双层优化可以准确地描述NAS问题,但它很难解决,因为获得等式2中的w(α)需要为α的每次更新完全训练网络。NAS中用于求解双层优化的当前方法是启发式的,并且由于一阶或二阶近似[17,4],方程2中的w(α)二阶AP-近似具有叠加效应,因为它建立在W的一步近似的基础上,导致梯度误差和与真实梯度的偏差。单级优化是用于解决NAS问题的另一种方法,其定义为:minLtr(w,α),(3)w,α其可以通过随机梯度下降有效地求解。然而,单级优化通常会导致相对于α的过拟合,这意味着它不能保证验证损失Lval(w,α)足够小。这直接违背了NAS的目标,是最小化验证损失以找到最佳结构。因此,单级优化对于NAS是不够的在这项工作中,我们提出了混合级优化,它结合了两级和单级优化计划。而不是最小化关于α的验证损失,其中完全训练的权重w(α)为在公式2中,或者直接在训练中最小化α损失,我们最小化关于α的训练损失和验证损失,以及关于w,simulation的训练损失注意,当我们的混合级优化的超参数λ(等式5)被设置为零时,我们的tr11994混合层优化方法退化为单层优化。或者,如果λ接近无穷大,我们的方法就变成了双层优化。由于我们混合了单级和二级优化,我们称我们的方法为MiLeNAS,基于混合级优化的NAS。MiLeNAS可以以更快的速度和更稳定的搜索,并可以找到更好的架构和更高的准确性。首先,它具有与单级优化类似的计算效率,但它能够减轻过拟合问题。第二,它能充分利用训练数据和验证数据来更新α,同时避免了二阶二层方法中由于近似而引起的梯度误差。此外,MiLeNAS升级了通用DARTS框架[17]。在这个框架中,我们在两个搜索空间设置(DARTS和GDAS [4])中展示了它的多功能性。值得注意的是,该框架进一步引入了基于模型大小的搜索和提前停止策略,以大大加快搜索速度(更多细节将在第3.3节和第5节中介绍)。大量实验验证了MiLeNAS的有效性。我们首先将MiLeNAS与单水平和双水平方法相关联,通过比较它们各自的训练准确度和评估准确度之间的差距。结果表明,MiLeNAS能够克服过拟合问题,单层和双层优化是MiLeNAS的此外,MiLeNAS实现了更好的验证准确性,比双电平优化快三倍,mization 对搜索架构的评估显示,MiLeNAS的错误率达到2。51%±0. 11%(最佳:2。34%),大大超过了双层优化方法(DARTS-2。76%,GDAS-2。82%)。ImageNet上的可移植性评估表明,MiLeNAS具有前1错误率为24.7%,前5错误率为7.6%,超过双层优化方法约1%至2%。此外,我们证明了MiLeNAS是通用的,通过将其应用到基于采样的搜索空间。最后,MiLeNAS框架引入的基于模型大小和早期停止策略的实验进一步为神经架构设计提供了几个好处,并将搜索速度加快到5小时。我们将我们的贡献总结如下:• 我们提出了一种新的解决方案,通过将NAS问题转化为混合层优化而不是双层优化,从而减轻了梯度误差由二层优化中的近似引起。这导致了一个可靠的一阶方法的有效的单级方法。• MiLeNAS可以搜索更好的架构,具有更快的收敛速度。大量的图像分类实验表明,MiLeNAS可以在搜索时间比二层优化短三倍的情况下实现更低的验证误差。• MiLeNAS引入了超越DARTS的NAS框架。此框架表明MiLe-NAS是基于梯度的NAS通过展示其在基于采样的方法中的多功能性来获得更好的架构。• MiLeNAS框架还引入了基于模型大小的搜索策略和提前停止策略,以加快搜索过程,它还提供了深入了解神经结构设计。我们在github.com/chaoyanghe/MiLeNAS上发布了MiLeNAS的源代码。2. 相关作品虽然卷积神经网络(CNN)的深度架构[25,7,10,9]能够处理各种视觉任务[13,27,18,24],但神经架构搜索(NAS)由于其优于手动设计的架构而引起了广泛的关注NAS有三种主要方法。第一种方法依赖于进化算法[23,5,30]。这些算法可以同时优化网络结构和网络权值.然而,它们对巨大计算资源的需求使得它们具有高度限制性(例如,AmoebaNet [22]需要3150 GPU天)。第二种方法,基于强化学习(RL)的NAS,将神经网络的设计过程公式化为一系列动作,并将模型准确性视为奖励[1,21]。第三种方法是基于梯度的[17,28,5,19,4],它将分类设计选择放宽到连续变量,然后利用高效的梯度反向传播,以便它可以在几个GPU天内完成搜索我们的工作与这一类别有关,因为我们的目标是进一步提高其效率和效力。此外,人们还提出了一些新的NAS算法,从不同的角度对NAS进行改进.例如,针对多任务学习框架提出了任务不可知NAS [6];释放手工设计的算法的约束[29]或减轻搜索准确度和评估准确度之间的差距也是有希望的方向[3,14]。此外,最近提出的NAS方法实现了比我们的方法更高的准确度[20,11,2]。然而,它们的改进是由于新的搜索空间或搜索策略,而不是一个基本的和通用的优化方法。3. 该方法MiLeNAS旨在有效地寻找更好的架构。在本节中,我们首先介绍混合级重构,并提出用于神经架构搜索的MiLeNAS一阶和二阶方法然后,我们通过理论分析解释了MiLeNAS的好处11995trtr将MiLeNAS与DARTS进行了比较最后,我们介绍了MiLeNAS框架,并展示了混合级优化带来的额外好处,包括不同搜索空间中的可扩展性、基于模型大小的搜索和早期停止策略。优化可以减轻过拟合问题,并且搜索具有比单级和二级优化更高精度的体系结构然后,我们应用一阶方法(随机梯度下降)来求解方程5,如下所示:3.1. 混合水平重构我们从单级优化中推导出混合级优化,w=w−ηw<$wLtr(w,α),α=α−ηα(λαLtr(w,α)+λλαLval(w,α)),(六)水平优化,旨在通过考虑训练和验证损失来减少α过拟合。首先,单级优化问题被定义为:minLtr(w,α):minLtr(w<$(α),α),(4)其中,ηw和ηα分别是与w和α相关的步长。活泼地基于该MiLeNAS一阶方法,我们可以利用有限近似推导MiLeNAS二阶方法如下:1. w=w−η<$L(w,α),w,α αWWTR其中,Ltr(w,α)表示关于训练2.更新α如下:α= α− ηα数据 在训练神经网络权值w时,采用了两种方法:.公司 简介. w+.−Σ Σ例如dropout用于避免相对于·∇α Lval w′,α-αtrval,α−<$αLtr w值,α2个月到达沃尔夫冈 然而,直接最小化等式4以获得最佳权重和结构参数可导致.+λαLtr. w′,α— ξ∇αLtr . w+,α— αLtr.−wtr,αΣΣΣ相对于α的过拟合 因为α只取决于训练数据,当它被优化时,有一个dispar-'2年±Ltr(w,α)和Lval(w,α)之间的一致性。 因此,目标其中w=w−wLtr(w,α),wval=w±公式4中定义的函数不适用于神经网络。特拉瓦尔河′Lval (w′,α),w±=w±w′Ltr (w′,α)。阿格特尔工作搜索。为了减轻α的过拟合问题,我们采用最流行的正则化方法,并使用Lval(w,α)作为正则化项。具体地说,我们最小化方程4受到约束和双对数是两个标量。有关MiLeNAS二阶方法推导的更多详细信息,请参见附录。混合级优化的另一个好处是它可以嵌入更多的信息。事实上,在更新α时,训练损失也可以有效地判断神经网络的性能如何Lval(w∈(α),α)≤L(w<$(α),α)+δ,Ral网络结构执行。因此,最好充分利用嵌入在训练和其中δ是常数标量。 上述限制规定,验证损失不可能比训练损失大得多。通过拉格朗日乘子法,我们最小化w(α)= arg minLtr(w,α),Wmin(1−λ′)Ltr(w<$(α),α)+λ′Lval(w<$(α),α)−λ′δ,α0 ≤λ′≤1。因为δ是不影响最小化的常数,所以在将Ltr(w(α),α)之前的参数归一化为1之后,我们使用等式4获得以下混合级优化:更新α时的验证损失。接下来,我们将分析混合级重构的优点,并得出结论,MiLeNAS-1st方法是解决NAS问题的更好选择。3.2. MiLeNAS与DARTS的比较MiLeNAS-第一次与DARTS-2nd正如我们所讨论的,混合级别优化避免了过拟合问题,并充分利用了训练和验证数据。虽然DARTS-2nd也包含了与MiLeNAS-1st相同的训练数据,但它具有梯度偏差,并且由于梯度近似而搜索效率低下。更具体地说,当在双层优化中优化α时(等式1),DARTS-2nd [17]近似对w进行一步更新:<$αLval(w<$(α),α)<$min [Ltr(w(α),α)+λLval(w(α),α)],(5)α,wα-L Val(w−wL线列车(w,α),α),然后应用其中λ是一个非负正则化参数,链式法则:tr11996ξ∇强调了训练损失和验证损失的重要性这不同于等式1和等式2中的双层优化以及等式4中的单层优化。在那里-α-L Val.Σ(w(α),α)αLval w′,α−联系我们G1.Σ(7)因此,通过考虑火车之间的潜在关系2α,w Ltrain(w,α)w′Lvalw′,α,考虑到损失和验证损失,我们的混合级别联系我们G211997Val评价搜索过程基于模型大小的搜索时代提前停止模型大小图1:MiLeNAS框架概述。其中w′= w−wLtrain( w,α)表示一步向前模型的权重。为了避免在其第二项g2中昂贵的矩阵-向量积,DARTS-2nd使用有限差分近似来降低其复杂性:原始DARTS论文表明DARTS-2nd优于DARTS-1st,因为DARTS-2nd在更新α时也利用了训练损失(参见等式8)。因此,这也提供了证据,L(w.′Σ(来自训练数据集)可以帮助MiLeNAS获得αValLαval. +Σw,α−.−Σ(八)性能优于DARTS-1st。ξα火车 wval,α−<$αL序列 w值,α2个月MiLeNAS-第一次与 MiLeNAS-第二届到 完全低于-其中w±=w±平均值′Lval (w ′,α)。站在MiLeNAS,我们进一步研究有效的这带来了两个问题:1. 我们可以从方程8中清楚地看到,二阶近似具有叠加效应:二阶近似α建立在W的一步近似上。这种叠加效应导致梯度误差,导致偏离真实梯度。因此,该梯度误差可能导致不可靠的搜索和次优架构; 2.方程8需要两次前向传递权重w,两次后向传递权重α,这是低效的。相比之下,我们的MiLeNAS-1st方法仅使用一阶信息(如等式6所示),其不涉及由叠加近似引起的梯度误差此外,将公式8与公式6中的α更新进行比较,我们可以看到我们的MiLeNAS-1st需要的操作要少得多,从而加快了收敛速度。我们的实验证实了这一分析。MiLeNAS-第一次与DARTS-1st DARTS还提出使用一阶算法来求解双层优化,其可以概括为w=w −ηw<$wLtr(w,α),α=α−ηα<$αLval(w,α).虽然MiLeNAS-1st和DARTS-1st都有一个简单的形式,但它们有根本的区别。当更新α时,MiLeNAS-1st(公式6)利用了训练和验证损失,并通过适当设置参数λ来获得两者之间的平衡,而DARTS-1st仅利用验证损失Lval(w ,α)。因此,MiLeNAS-1st 的性能优于DARTS-1st。此外,在尼斯 的 米莱纳斯-第二。我们 实验 表明MiLeNAS-2nd不如MiLeNAS-1st好。与MiLeNAS-1st相比,其搜索结构精度较低,搜索速度较慢。该结论支持我们的预期,因为MiLeNAS-2nd和DARTS- 2nd都具有相同的梯度误差问题,其中真实梯度的二阶近似导致梯度下降过程中的较大偏差。这种近似只会带来负面影响,因为MiLeNAS- 1st已经充分利用了嵌入在训练和验证损失中的信息。因此,在实际应用中,我们认为MiLeNAS-1st是解决NAS问题的首选方法。更多的实验细节见附录。总之,本文方法不仅简单有效,而且避免了二阶二层方法中由于近似而引起的梯度误差因此,它可以更稳定和更快的速度进行搜索,并以更高的精度找到更好的体系结构。3.3. 超越DARTS框架基于上述分析和实验结果,MiLeNAS进一步升级了DARTS框架.如图1所示,有三个关键区别。MiLeNAS开启基于梯度搜索空间首先,由于我们提出的MiLeNAS是基于梯度的NAS的通用框架,我们在两个搜索空间设置中评估我们的方法第一个是DARTS中定义的混合运算搜索空间,其中架构搜索仅对卷积单元执行以找到候选运算(例如,最小Ltr(w,α)WminLtr(w,α)+λLval(w,α)α火车数据验证数据SI:网络权重卷积合并SJskip:架构参数SI:网络权重卷积合并SJskip:架构参数基于混合基于采样搜索空间α1α2α6α 7α1α2α6α 7搜索算法……模型大小精度11998KKk′k卷积、最大池化、跳过连接和零)在单元内的节点之间。为了使搜索空间连续,我们在所有可能的操作中放松了对softmax连接的分类选择:早期停止策略早期停止策略是由使用基于模型大小的搜索时对搜索过程的观察所激励的我们发现,经过一定 数 量 的 epoch ( DARTS 和 MiLeNAS 中 约 为 25 个epoch)后,模型大小会减小。因为我们知道大模型Σd(i,j)(x)=exp(α(i,j))Σok(x)。(九)大小可能会导致更好的性能,如果模型尺寸小于预期尺寸。 通过我们d′e×p(α(i,j))k=1`k=1k′XPK一对节点(i,j)的混合运算o<$(i,j)(x)的权重pk由向量αi,j参数化。因此,网络(模型)内的所有架构操作选项都可以参数化为α。 根据这个定义,MiLeNAS旨在同时优化架构参数α和模型权重w。另一个是采样搜索空间:代替如等式9的混合操作,GDAS [4]使用可区分采样器(Gumbel-Softmax)来选择小区中的两个节点之间的操作:通过实验分析,通过绘制模型大小和模型性能(准确性)之间的关系,我们可以确定搜索过程中的最佳停止时间(将在第5节中介绍)。通过上面讨论的改进,我们将MiLeNAS框架总结为算法1。算法1MiLeNAS算法1:定义搜索空间;2:当不收敛时做3: 对于epoch中的e做4:对于训练和验证数据中的minibatch,5:w=w−ηw<$wLtr(w,α);6:α=α−ηα(λαLtr(w,α)+λλαLval(w,α));p(i,j)(x)=exp((α(i,j)+uk)/τ)、(10)7:结束8:保存不同模型尺寸下的最优结构Dk′=1 exp((α(i,j)+u)/τ)9:如果当前模型大小小于预期大小,则10:休息;其中uk是从Gumbel(0,1)中提取的i.i.d样本分布,τ是softmax温度。我以GDAS中的双层优化与混合级优化,以验证MiLeNAS的多功能性。事实上,我们可以使用MiLe-NAS框架设计任何搜索空间。在本文中,我们将使用DARTS和GDAS演示混合级优化。基于模型大小的搜索我们提出了基于模型大小的搜索,它被定义为在一次运行中搜索不同模型大小的最优体系结构。更具体地说,在搜索过程中,我们跟踪模型大小及其在每个时期之后的最佳验证精度,然后评估每个模型大小下的最佳架构的性能。其优点是,我们可以得到多个architectures与不同的参数大小,只有一个单一的运行。我们的动机如下:1)为了充分了解不同优化方法的搜索过程,我们使用基于模型大小的搜索,发现MiLeNAS在搜索过程中更可靠:它稳定地作用于规则的模型大小演化模式(将在第5节中介绍); 2)我们假设一个好的NAS搜索方法可以充分利用不同模型大小下的准确性,这意味着在搜索过程中,在每个模型大小下具有最高验证准确性的体系结构在体系结构评估之后有望表现出色。这在很大程度上被以前的NAS方法所忽略。在第5节中,我们给出了这种搜索策略的实验结果,并为神经架构设计提供了一些见解。11:如果结束12:结束13:结束while14:对搜索到的神经网络架构进行评估。4. 实验和结果4.1. 设置MiLeNAS包含两个阶段:体系结构搜索和体系结构评估。图像分类数据集CIFAR-10 [12]用于搜索和评估,而ImageNet数据集用于可转移性验证。为了保持公平的比较,选择了与DARTS相似的搜索空间定义。在搜索阶段,验证数据集与训练数据集分离,每个方法运行四次。在评估阶段,选择在搜索阶段具有最高验证精度的架构。我们的代码实现基于PyTorch 1.2.0和 Python 3.7.4 。 所 有 实 验 均 在 NVIDIA Tesla V10016GB上运行。超参数设置与DARTS保持相同有关实验设置的更多详细信息见附录。4.2. 单水平法和双水平法的比较我们密集的实验证据表明,在搜索过程中具有最高验证精度的架构也有更大的概率获得K11999(a) 搜索训练和验证差距(b)搜索验证准确性(c)搜索时间图2:比较MiLeNAS-1st与单水平和双水平方法。在评估阶段的准确性最高。因此,为了证明MiLeNAS的优势,我们首先比较了搜索阶段不同方法的验证准确性。我们通过验证训练准确度和验证准确度之间的差距,将我们的MiLeNAS-1st方法与单级和双级方法相关 联 , 以 测 量 相 对 于 结 构 参 数 α 的 过 拟 合 。 对 于MiLeNAS , 我 们 选 择 三 个 λ 设 置 ( λ=0. 1 , λ=1 ,λ=999)来表示训练损失和验证损失之间的不同比例对于单水平方法,我们更新训练数据集上的α和w,而对于双水平方法,我们使用DARTS-2nd [17]。历元数被设置为50(如在二阶DARTS中设置的)。总共五个设置各运行四次,最终结果基于平均值。从图2a所示的结果中,我们可以看到单级方法的差距最大,而双级方法的差距最小。我们的混合级别方法介于两者之间:当λ较小时(0.1),间隙更接近于单水平方法的间隙,而当λ较大时(999),间隙更接近于双水平方法的间隙。因此,这个结果证实了我们的断言,即单级和双层优化是混合级优化其中λ=0和λ→∞。如图2b所示,λ=1的MiLeNAS实现了最高的验证准确度。DARTS-2nd的验证准确度大于DARTS-1st(在图2b中标记为bilevel-1st),这与原始DARTS论文中的结果相同。单水平方法的验证精度最低。验证准确度的比较与我们在第3.2节中的理论分析一致:MiLeNAS不仅简单有效,而且避免了由双层二阶方法中的近似引起的梯度误差。为了进一步证实MiLeNAS的有效性,我们进行了另一个实验,在前35个时期运行双层优化,然后切换到我们的MiLeNAS方法。当将其结果(图2b中的粗紫色曲线)与纯双层优化的结果(图2b中的蓝色曲线)进行比较时,我们看到MiLeNAS继续以提高搜索过程后期的验证准确性。这一观察结果证实了我们的混合级算法可以减轻梯度近似问题,优于双层优化。此外,如图2c所示,MiLeNAS比DARTS-2nd快三倍以上。由于其简单的一阶算法,MiLeNAS执行更快的搜索,而DARTS中的二阶近似需要更多的梯度计算(在第3.2节中讨论)。4.3. CIFAR 10的评价结果在评估阶段,将20个搜索到的单元堆叠起来形成一个更大的网络,随后从头开始训练600个epoch,批量大小为96,学习率设置为0.025。为了公平比较,每个架构共享与DARTS双层方法相同的超参数CIFAR-10评估结果如表1所示(使用λ=1搜索所有架构)。我们的方法的测试误差与最先进的基于RL和基于进化的NAS相当,同时使用三个数量级的计算资源。此外,我们的方法优于ENAS,DARTS-2nd,SNAS和GDAS,具有更低的错误率和更少的参数。我们还证明了我们的算法可以搜索架构与较少的参数,同时保持高精度。4.4. ImageNet上的可移植性可转移性是用于评估学习细胞潜力的关键标准[33]。为了展示通过我们在CIFAR-10上的方法学习的细胞是否可以推广到更大的数据集,我们使用与CIFAR- 10中相同的细胞用于ImageNet上的分类任务表2显示了在ImageNet上的评估结果,并表明我们的方法在CIFAR-10上找到的细胞可以成功转移到ImageNet。我们的方法可以找到更小的细胞架构,实现了相对更好的性能,速度比两级方法(DARTS- 2nd)快三倍超参数设置见附录。12000表1:与CIFAR-10上最先进的图像分类器的比较架构测试误差(%)参数(M)搜索成本(GPU天)搜索方法DenseNet-BC [10]3.4625.6-手动NASNet-A +断路器[33]2.653.32000RLBlockQNN [32]3.5439.896RLAmoebaNet-B +断路器[22]二、55± 0。052.83150进化层次进化[16]3 .第三章。75± 0。1215.7300进化PNAS [15]3 .第三章。41± 0。093.2225森博ENAS + cutout [21]†2.894.60.5RL[17]第17话二、76± 0。093.31基于梯度[28]第二十八话二、85± 0。022.81.5基于梯度SNAS(侵略性)[28]3 .第三章。10± 0。042.31.5基于梯度GDAS [4]2.822.50.17基于梯度MiLeNAS*2.51± 0.11(最佳:2.34)3.870.3基于梯度MiLeNAS*2.80± 0.04(最佳:2.72)2.870.3基于梯度MiLeNAS*2.502.860.3基于梯度MiLeNAS*2.762.090.3基于梯度*我们通过使用基于模型大小的搜索(在第5节中介绍)获得多个结果;搜索时间是在没有提前停止策略的情况下计算的(大约8小时)。如果使用提前停止策略,搜索成本可以进一步降低到5小时左右。表2:与ImageNet上最先进的图像分类器的比较架构测试错误top-1(%)top-5参数(M)+×(M)搜索成本(GPU天)搜索方法[26]第二十六话30.210.16.61448-手动移动网络[8]29.410.54.2569-手动ShuffleNet [31]26.3-∼5524-手动NASNet-A [33]26.08.45.35642000RLAmoebaNet-A [22]25.58.05.15553150进化AmoebaNet-C [22]24.37.66.45703150进化PNAS [15]25.88.15.1588∼225森博DARTS [17]26.78.74.75741基于梯度SNAS [28]27.39.24.25221.5基于梯度GDAS [4]27.59.14.44970.17基于梯度GDAS [4]26.08.55.35810.21基于梯度MiLeNAS*25.47.94.95700.3基于梯度MiLeNAS*24.77.65.35840.3基于梯度*我们通过使用基于模型大小的搜索(在第5节中介绍)获得多个架构,然后在ImageNet上进行迁移学习。5. 超越DARTS框架在本节中,我们将展示MiLeNAS在其他NAS框架中的有效性,然后提出两种策略:基于模型大小的搜索和早期停止。MiLeNAS具有通用性,可以替代其他NAS方法中的双层优化,提高其搜索性能。我们对Gumbel-Softmax采样方法GDAS [4]进行了验证实验。我们重现GDAS1,并用MiLeNAS(Gumbel)代替其双层优化。如图3a所示,MiLeNAS(Gumbel)可以实现下注-1截至本文发表,GDAS仍未公布源代码。ter 验 证 精 度 ( GDAS : 65.79%; MiLeNAS ( Gum-bel):69.56%),从而产生了更好的架构和更低的错误率(GDAS:MiLeNAS(Gumbel):2.57%)。5.1. 基于模型大小的搜索模型尺寸跟踪。为了了解搜索过程中模型大小的演变,对于每个时期搜索的架构,我们跟踪不同模型大小的最佳验证精度,通过计算搜索单元中卷积运算的数量来计算我们以这种方式跟踪模型大小,因为单元中的不同离散操作选择(由α确定)决定了模型大小(例如,建筑的模型尺寸1200177正常细胞电解槽6 66 66665 5最佳范围54 44433 321 10000错误率(%)873.265 3.042.8322.610124813 19 22 29 56 118 139 158 184时期数量1.5 2.0 2.5 3.0 3.5 4.0 4.5模型大小(a) 在GDAS上应用MiLeNAS(b) 基于模型大小的搜索过程(c) 不同模型大小下的错误率图3:对不同模型大小具有更多对流操作的结构大于具有更多跳过连接操作的结构)。观察。通过对模型规模的跟踪,我们发现MiLeNAS在搜索过程中具有明显的逐阶段如图3b所示,每个阶段在一定范围的模型大小(按卷积层数计算)下优化网络架构,然后在进入另一个优化阶段之前减小模型大小。我们评估每个阶段的最佳架构,并找到模型大小和模型性能(准确性)之间的从图3c中,我们了解到当模型大小增加时,模型性能也会增加。然而,这种增长在最佳范围(3.5M和4.5M之间)之间达到了极限随后,即使增加参数数量,模型我们在DARTS上的实验并没有一致地显示出与MiLe-NAS中相同的模型大小减小特性。换句话说,为了总结模型大小和准确性关系,我们必须在DARTS中运行更多的搜索轮,因为它没有稳定的模式。我们认为,在MiLeNAS中看到的这种规则模式归因于我们的混合级优化,因为它不受使用二阶近似的梯度误差的影响。洞察力.在搜索过程中的上述观察推动了我们的搜索策略设计。我们将基于模型大小的搜索定义为在大量的epoch中完成搜索过程,并跟踪模型大小,然后评估不同模型大小下的网络结构精度这为神经架构设计提供了三个潜在的好处:1)对于一个特定的学习任务,必须考察最经济的神经网络结构,冗余的参数量不能带来额外的好处; 2)该方法有可能成为模型压缩的替代方法,因为它可以在不同的计算复杂度下找到多个最优结构; 3)最重要的是,我们可以发现,找出了参数个数和结构精度之间的规律在我们的例子中,我们已经发现,提前停止策略可以显着加快搜索速度。5.2. 提前停止策略停止搜索的时间是受图3c中的参数数的最佳范围(由黄色方块突出显示)在图3b中的搜索过程的早期阶段(由黄色方块突出显示)发现的事实启发的。例如,当参数数目在正常单元中达到6个卷积运算并且在缩减单元中达到0个卷积运算使用此停止策略时,使用MiLeNAS在CIFAR-10上搜索最佳架构仅需约5小时。6. 结论我们提出了MiLeNAS,一个新的角度来看待NAS问题,并将其重新表述为混合级优化而不是双层优化。MiLeNAS可以减轻二层优化中近似引起的梯度误差因此,MiLeNAS可以以更快的收敛速度搜索更好的架构。大量的图像分类实验表明,MiLeNAS可以获得更低的验证错误,搜索时间比二阶二层优化短三倍。MiLeNAS是一种通用方法。实验结果表明,该方法可以应用于基于抽样的方法中,以寻找更好的体系结构。基于模型大小的搜索和早期停止策略进一步加快了搜索过程,并为神经架构设计提供了一些见解。曲线拟合真实数据最佳范围卷积层12002引用[1] Irwan Bello,Barret Zoph,Vijay Vasudevan,and QuocV.乐神经优化器搜索与强化学习。2016. 一、二[2] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv:1812.00332,2018。2[3] 辰昕、邪灵犀、君无邪、齐天。 渐进式差异化体系结构搜索:缩小搜索和评价之间的深度差距。arXiv预印本arXiv:1904.12760,2019。2[4] 董轩逸和杨毅。在4个GPU小时内搜索一个强大的神经在IEEE计算机视觉和模式识别会议论文集,第1761-1770页,2019年。一、二、五、七[5] Thomas Elsken,Jan Hendrik Metzen,and Frank Hutter.通过拉马克进化的有效多目标神经结构搜索。arXiv预印本arXiv:1804.09081,2018。一、二[6] 高元、白浩平、杰泽群、马佳一、贾奎、刘伟。Mtl-nas:面向通用多任务学习的任务无关神经架构搜索。在IEEE计算机视觉和模式识别会议(CVPR)上,2020年。2[7] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。一、二[8] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。7[9] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页,2018年。2[10] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集,第4700-4708页,2017年。一、二、七[11] Andrew Hundt , Varun Jain , and Gregory D Hager. 尖镖:更快、更准确的可区分架构搜索。arXiv预印本arXiv:1903.09900,2019。2[12] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。技术报告,Cite- seer,2009年。5[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。2[14] Guohao Li , Guocheng Qian , Itzel C Delgadillo ,Matthias Müller,AliThabet,andBernardGhanem. 顺序贪婪结构搜索.在IEEE计算机视觉和模式识别会议论文集(CVPR),2020年。2[15] Chenxi Liu,Barret Zoph,Maxim Neumann,JonathonShlens,Wei Hua,Li-Jia Li,Li Fei-Fei,Alan Yuille,Jonathan Huang,and Kevin Murphy.渐进式神经架构搜索。在欧洲计算机视觉会议(ECCV)的会议记录中,第19-34页7[16] Hanxiao Liu , Karen Simonyan , Oriol Vinyals ,Chrisantha Fernando,and Koray Kavukcuoglu.用于高效体 系 结 构 搜 索 的 分 层 表 示 。 arXiv 预 印 本 arXiv :1711.00436,2017。7[17] 柳寒笑,凯伦西蒙尼扬,杨一鸣。 Darts:差异化架构搜索。arXiv预印本arXiv:1806.09055,2018. 一二三六七[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页,2015年。2[19] Renqian Luo,Fei Tian,Tao Qin,Enhong Chen,andTie-Yan Liu.神经结构优化。神经信息处理系统的进展,第7816-7827页,2018年一、二[20] Niv Nayman,Asaf Noy,Tal Ridnik,Itamar Friedman,Rong Jin,and Lihi Zelnik-Manor.Xnas:神经结构搜索与专家建议。arXiv预印本arXiv:1906.08031,2019。2[21] Hieu Pham,Melody Guan,Barret Zoph,Quoc Le,andJeff Dean.通过参数共享进行高效的神经架构搜索。在国际机器学习会议上,第4092-4101页,2018年。一、二、七[22] Esteban Real , Alok Aggarwal , Yanping Huang , andQuoc V Le.用于图像分类器架构搜索的正则化进化。在AAAI人工智能会议论文集,第33卷,第4780-4789页,2019年。二、七[23] Esteban Real 、 Sherry Moore 、 Andrew Selle 、 SaurabhSaxena、Yutaka Leon Suematsu、Jie Tan、Quoc V Le和Alexey Kurakin。图像分类器的大规模进化。第34届机器学习国际会议论文集-第70卷,第2902-2911页。JMLR。org,2017. 一、二[24] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,第91-99页,2015年。2[25] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。2[26] Christian Szegedy , W
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功