自动化神经架构搜索的可微分进化框架AutoSpace

56 浏览量更新于2023-10-13 收藏 12.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

(a) (b)(c)3370AutoSpace：减少人为干预的神经架构搜索0周大全1，金晓杰2，连晓晨2，杨林杰2，薛玉静1，侯奇斌1*，冯家石101新加坡国立大学，2字节跳动美国人工智能实验室0{zhoudaquan21，xjjin0731，lianxiaochen，yljatthu，andrewhoux}@gmail.com0摘要0当前的神经架构搜索（NAS）算法仍然需要专家知识和努力来设计网络构建的搜索空间。在本文中，我们考虑自动化搜索空间设计，以最小化人为干预，但是面临两个挑战：探索空间的复杂性爆炸和评估不同搜索空间质量的计算成本昂贵。为了解决这些问题，我们提出了一种新颖的可微分进化框架AutoSpace，通过以下新技术将搜索空间演化为最优解：可微分的适应度评分函数，以高效评估单元的性能，以及参考架构，以加速演化过程并避免陷入次优解。该框架是通用的，并且与其他计算约束兼容，使得学习适应不同计算预算的专门搜索空间成为可能。通过学习到的搜索空间，与以前手动设计的空间相比，最近的NAS算法的性能可以显著提高。值得注意的是，从新的搜索空间生成的模型在移动设置（MAdds ≤500M）下在ImageNet上达到了77.8％的top-1准确率，优于之前的SOTA Ef�cientNet-B00.7％。https://github.com/zhoudaquan/AutoSpace.git。01. 引言0最近，神经架构搜索（NAS）算法受到广泛探索和应用，产生了几种最先进的深度神经网络架构[32, 31, 15,34]。应用NAS算法通常包括三个步骤：(1)通过指定其基本运算符来设计搜索空间；(2)开发搜索算法来探索空间并从中选择运算符来构建候选模型；(3)实现一个评估策略来验证搜索模型的性能。0*通讯作者。0专家知识0搜索空间0候选块池0选定的搜索空间0 conv，zero，...0评估/搜索0基本运算符0手工设计的搜索空间试错0手工设计的空间0人为干预0搜索成本0自动生成的空间0人为干预0高0低低0低0排名随机突变0图1：不同搜索空间构建方案的比较。 (a)大多数现有的NAS方法采用手工构建的搜索空间，其构建过程严重依赖专业知识和试错。 (b)我们提出的方法通过学习将基本运算符组合成候选构建块，并使用高效的方法来演化和评估这些构建块，自动构建和优化搜索空间。(c) 与现有方案相比，我们提出的方案需要更少的人力和搜索成本。0评估策略来验证搜索模型的性能。对于后两个步骤，即搜索算法和评估策略，已经进行了大量研究[33, 2, 15, 31, 35,34, 33, 12,32]。为了降低搜索空间的复杂性，最近的NAS算法的常见做法是利用人类先验知识设计较小的搜索空间，其中大部分基于表现良好的手工构建块及其变体，例如反向残差块[2,32, 33, 31,14]和通道混洗块[12]。一方面，使用受限搜索空间确实使NAS算法能够获得更高的效率；3380然而，另一方面，由于人为干预过多，发现新颖且更好的架构的可能性有限[9]。如何减少在设计搜索空间方面的人力工作量并使过程自动化仍然未被充分探索[27,30]。在这项工作中，我们考虑了仅包含基本运算符的开放式架构空间，对于单元图形拓扑结构几乎没有人类先验知识。尽管有一些早期的试点研究[41,26]，但由于几个实际挑战，进展受到了很大阻碍。首先，由于问题的组合性质，对开放空间进行搜索是耗时的[27]。因此，如何快速剪枝不必要的运算符组合并降低可能的候选者数量是必要的，但仍然是一个未解决的问题。其次，将类似强化学习的算法应用于从头开始的搜索通常会导致探索性能较差，因为它们很容易陷入次优解。因此，从获得的空间中搜索到的模型可能不比从手动设计的搜索空间中搜索到的模型更好。鉴于上述挑战，我们想知道是否有可能在搜索空间构建中最大程度地减少人为干预，以便算法可以在可接受的时间和计算成本预算内有效地探索大空间？为此，我们开发了一种新颖的可微分AutoSpace框架，用于将完整的搜索空间自动演化为目标应用的最优子空间。我们的主要观点是，首先一次性搜索最优子空间，然后在其中执行NAS将提供更高的探索能力和搜索效率，同时避免陷入次优解。图1说明了我们的空间演化策略与以前用于设计搜索空间的策略之间的差异。具体而言，AutoSpace从包含所有可能的基本运算符组合（例如卷积、池化、恒等映射）的开放空间开始。然后，开发了一种可微分进化算法（DEA）来将搜索空间演化为高质量的单元结构子空间。然后，可以将该子空间无缝地应用于任何NAS算法中，以找到最优的模型架构。为了降低子空间搜索和评估的潜在高成本，AutoSpace引入了一些新技术来删除冗余的单元结构并提高演化过程的并行性，详见第3节。我们在ImageNet[18]数据集上验证了AutoSpace的搜索空间的优越性。使用相同的NAS算法，AutoSpace提供比以前从手动设计的空间中搜索到的SOTA模型更准确的模型。此外，通过将AutoSpace发现的单元结构与Ef�cientNet相结合，我们成功地将ImageNet的Top-1准确率提高了0.7%。0总之，我们的工作具有以下贡献：0•我们是最早探索NAS算法中自动学习搜索空间的研究者之一。与在手动设计的搜索空间中搜索网络架构相比，在搜索搜索空间时更具挑战性，因为探索空间更大/计算复杂度更高。0•我们提出了一种新颖的学习框架，充分利用了进化算法的高探索能力和梯度下降方法的高优化效率。该框架可以与流行的神经架构搜索算法无缝集成。0•通过直接用学习到的搜索空间替换原始搜索空间，先前的SOTANAS算法在不同的模型大小上的top-1分类准确率可以显著提高。具体来说，在200MMAdds的情况下，搜索模型的性能在ImageNet上提高了超过1.8%。02. 相关工作0大多数以前的神经架构搜索（NAS）工作关注于更好的搜索算法，而搜索空间的设计则研究较少。这主要是由于自动搜索搜索空间的计算成本过高。例如，一种最近的评估搜索空间的方法使用经验分布函数（EDF）[24]，其中每个评估迭代需要25k GPU小时1，即使在小型数据集CIFAR10[17]上也是如此。因此，大多数NAS算法使用手动设计的搜索空间。早期的NAS-RL工作[41]通过宏观和微观架构定义其空间。宏观架构用于层之间的连接，微观架构空间包括层内每个过滤器的结构超参数。这样一个巨大的空间枚举每个候选者进行评估是极其困难甚至不切实际的。此后，大多数NAS方法改为采用缩小尺寸的搜索空间来提高搜索效率。例如，基于单元的方法[42，25，21，20，23，36，19，3]通过仅搜索两种类型的单元结构，即正常单元和缩减单元，在所有层之间共享，从而实现了可承受的成本，用于构建神经网络。然而，由于内存成本高，这些方法只能在小型代理数据集上进行搜索。最近的大多数NAS算法[31，33，32，2，15，35，7，34，6，40]采用手工制作的反向残差块（IRB），其具有不同的内核大小和扩展比率作为搜索空间候选项。虽然提供了良好的效率，但这种受限的搜索空间严重限制了NAS算法搜索更强大的网络结构的能力。在这项工作中，我们提出了一种简单而高效的方法来自动化两步搜索空间设计。首先，我们在目标数据集上对完整搜索空间进行一次寻找最佳子空间的搜索。使用获得的搜索空间，可以应用典型的NAS算法来搜索最终的网络架构。通过这种方式，我们不仅可以最小化人为干预搜索空间设计，还可以通过在更好的空间中进行搜索来提高网络性能。我们提出的方法的设计选择与以前的SOTA方法的比较列在表1中。更多讨论见补充01 [24]的工作对50k个模型进行了分布评估，报告的训练速度为每个GPU小时2个模型。(1)3390表1：搜索空间设计选择比较。AutoSpace的设计选择数量超过了以前的算法的搜索空间。AutoSpace自动找到了一个与[2]和[31]大小相当的优化子空间。“层多样性”表示搜索算法是否允许在不同的模型层中使用不同的单元结构；“＃模型（log）”表示21层模型的搜索空间中包含的架构总数的log10值。0算法层搜索空间 #模型多样性 ImageNet设计（log）0DARTS [ 21 ] � � 手动 2.38 ENAS [ 23 ] � � 手动 3.70 PNAS [ 20 ] � �手动 5.74 Amoeba [ 26 ] � � 手动 5.74 NASNet [ 42 ] � � 手动 7.85MNasNet [ 31 ] � � 手动 52.72 SPOS [ 12 ] � � 手动 12.64ProxylessNAS [ 2 ] � � 手动 17.74 AutoSpace (我们的) � � 自动104.370搜索空间的设计严重限制了NAS算法探索更强大的网络结构的能力。在这项工作中，我们提出了一种简单而高效的方法，通过两个步骤自动化搜索空间的设计。首先，在目标数据集上进行一次寻找最佳子空间的搜索。使用获得的搜索空间，可以应用典型的NAS算法来搜索最终的网络架构。通过这种方式，我们不仅可以最小化人为干预搜索空间设计，还可以通过在更好的空间中进行搜索来提高网络性能。我们在表1中列出了我们提出的方法和以前的SOTA的设计选择的比较。更多讨论见补充材料。03. 方法03.1. 问题表述0我们考虑了从由多个基本构建块（单元）d组成的搜索空间S中搜索模型架构N的NAS问题。与以前使用手动预定义搜索空间的NAS工作不同，我们的目标是自动学习一个合适的搜索空间。我们将神经架构搜索形式化为两个阶段的问题：首先搜索优化的搜索空间，然后使用优化的搜索空间搜索网络架构。形式上，给定一个开放的搜索空间S，对网络架构的网络架构的人类先验知识最小，我们的目标是找到一个包含经过优化结构的单元的全空间的子空间S�sub�S，以便构建的模型架构可以在目标数据集D上实现最大的准确性Acc。0可计算成本（以MAdds为单位）。目标可以被表述为一个双层优化问题：0S�sub=argmaxSsub�SAcc（N（d，Ssu0s.t.d=argmaxd∈SsubAcc（N（d，Ssub），D），0MAdds（di）

下载后可阅读完整内容，剩余1页未读，立即下载