无需参数再训练的直接神经结构搜索

168 浏览量更新于2023-10-25 收藏 854KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12084DSNAS：无需参数再训练的直接神经结构搜索胡寿康*1，谢思瑞 *2，郑和辉3，刘春晓4，石建平4，刘训英1，林大华1摘要如果NAS方法是解决方案，那么问题是什么大多数现有的NAS方法需要两阶段的参数优化。然而，相同架构在两个阶段中的性能相关性很差。在这项工作中，我们提出了一个新的问题定义为NAS，特定于任务的端到端，基于这一观察。我们认为，给定期望NAS方法的计算机视觉任务，该定义可以将严格定义的NAS评估减少到i）该任务的准确性和ii）最终获得具有令人满意的准确性的模型所消耗的总计算。看到大多数现有的方法不直接解决这个问题，我们提出DSNAS，一个有效的可区分的NAS框架，同时优化体系结构和参数与低偏蒙特卡罗估计。从DSNAS派生的子网络可以直接部署，而无需参数重新训练。与两阶段方法相比，DSNAS在ImageNet上成功发现网络，准确率相当（74.4%），在420GPU小时内，总时间减少了34%以上1. 介绍深度学习的成功部分建立在神经网络的架构上。然而，网络结构的变化往往会导致网络性能的不可预测的变化，这给ad hoc网络结构设计带来了巨大的困难。神经结构搜索（NAS）被认为是有希望在减轻这种痛苦。业界的从业者希望看到NAS技术能够自动发现具有合理性能的特定任务网络因此，NAS总是被公式化为超参数优化问题，其算法实现跨越进化算法[21，7]，强化学习[28]，贝叶斯优化[9]，蒙特卡罗树搜索[25]和可微架构搜索[14，27，3]。再-* 同等缴款。在 SenseTime Research 工作。电子邮件skhu@se.cuhk.edu.hk：srxie@ucla.edu[1] 香港中文大学 ;2. 加州大学洛杉矶分校 ; 3. 剑桥大学 ; 4.SenseTime Research.低相关性准确性景观搜索重新训练建筑空间图1.在搜索和再训练中，采用不同的参数训练方案，从结构空间A向网络空间N（θ）投影，得到了相关性较低的精度。目前，这些算法框架已经在各种具有挑战性的任务中表现出实际的成功，例如，语义分割[12]和对象检测[4]等。然而，即使作为一个优化问题，NAS几乎是模糊的定义。最近提出的NAS方法大多是隐式两阶段方法。这两个阶段是搜索和评估（或再培训）。虽然架构优化过程涉及搜索阶段，其中为参数和架构设计了协同优化方案，但在评估阶段，针对相同任务的相同训练数据集运行另一轮参数优化这在某种程度上与机器学习任务中不允许在评估中进行优化的规范相矛盾。一个看似合理的论点可能是，NAS的优化结果只是架构，对架构的评估毫无疑问，在从头开始重新训练时实现高性能的体系结构是合理的选择12085用于部署。但是，如果由于搜索和评估中训练设置的不可避免的差异，搜索到的体系结构在重新训练后表现不佳，这种搜索方法是否仍然有效？这些问题只能通过一个假设来回答，即即使两个阶段的训练方案不同，最终的搜索性能也可以概括到评估具体地，训练方案中的差异可以包括不同数量的单元、不同的批量大小和不同的时期数等。在搜索过程中使用不幸的是，这一假设并不成立。只要使用参数共享技术，搜索结束时的性能与重新训练后的性能之间的相关性就相当低[20，5]。因此，我们有动机重新思考神经结构搜索的问题定义。我们想说的是，作为一个应用驱动的领域，可以有一套不同的问题定义，但每一个都不应该是模糊的。在这项工作中，我们把我们的卡放在桌子上：我们的目标是解决特定于任务的端到端NAS问题。给定一个由数据集和目标定义的任务（例如，训练损失），预期的NAS解决方案优化架构和参数，以自动发现具有合理（如果不是原则上最优）性能的神经网络通过端到端这个术语，我们强调解决方案只需要一个单阶段的训练就可以获得给定任务的准备部署的神经特定于任务的术语突出了这种解决方案的边界。搜索到的神经网络只能处理这个特定的任务。我们不确定这个神经网络是否能很好地概括其他任务。相反，可以期望推广的是这个NAS框架。在此定义下，一个框架的评价指标变得清晰，即搜索效率和最终性能。仔细研究这两个指标中的大多数现有方法，我们发现了一个全新框架的巨大利基一方面，基于梯度的方法，如ENAS [17]、DARTS [14]、Proxyless-NAS [3]需要两阶段参数优化。这是因为在使它们可微的近似中，无界偏差或方差被引入到它们的梯度中。两阶段方法总是比单阶段方法消耗更多的计算，不仅是因为另一轮训练，而且还有再现性问题[11]。另一方面，随机搜索[11]和SPOS [7]等一次性方法可以扩展到单阶段训练。但由于它们在参数训练中没有优化结构分布，因此先验分布的选择变得至关重要。统一的采样策略可能会潜在地占用太多的资源，搜索阶段的表现。然而，gumbel-softmax松弛使得必须在向前和向后两个方向上将整个父网络存储在内存中，从而导致巨大的内存和计算浪费。在这项工作中，我们面临的挑战，单阶段同时优化的结构和参数。我们的建议是一个有效的可微NAS框架，离散随机神经结构搜索（DSNAS）。一旦搜索过程完成，最佳性能的子网络与优化的参数，并没有进一步的再训练是必要的。DSNAS是建立在一个新的搜索梯度，结合了可微NAS的稳定性和鲁棒性和离散采样NAS的内存效率。这种搜索梯度被证明是等效的SNAS的梯度在离散极限，优化特定于任务的端到端的它可以在与神经参数梯度相同的反向传播中计算。它的前向传递和反向传播只涉及紧凑的子网络，其计算复杂度可以被证明比 DARTS ， SNAS 甚至ProxylessNAS更友好，从而实现大规模的直接搜索。我们在单路径设置中实例化这个框架。实验结果表明，DSNAS发现的网络具有可比的性能（74。4%）在ImageNet分类任务中仅为420GPU小时，减少了获得准备就绪的通过两阶段NAS部署解决方案的成本降低了34%总结起来，我们的主要贡献如下：• 我们提出了一个定义良好的神经架构搜索问题，特定于任务的端到端NAS，根据评估，大多数现有NAS方法的评估指标仍有改进的空间。• 我们提出了一个即插即用的NAS框架DSNAS，作为这个问题的有效解决方案，大规模的DSNAS结合策略梯度和SNAS梯度的优点，采用一种新的搜索梯度更新体系结构参数.还介绍了一个简单但智能的实现。• 我们在一个单路径父网络中实例化它。实证研究表明，DSNAS鲁棒地发现了具有最先进性能的神经网络，geNet，减少了一个很大的利润比两阶段NAS方法的计算资源。我们已经公开了我们的实施情况1。2. NAS的问题定义2.1. 两阶段NAS大多数现有的NAS方法都涉及两个方面的优化探索阶段和评价阶段。在搜索令人满意的准确性。SNAS [27]显示，概念验证，其中派生网络维护1https://github.com/SNAS-Series/SNAS-Series/12086阶段，必须有参数训练和架构优化，即使它们可能不会同时运行。理想的方法是从头开始训练所有可能的架构，然后选择最佳架构。然而，由于体系结构的组合复杂性，它是不可行的.因此，设计参数和架构的共现优化以提高效率是任何一般NAS问题的主要挑战。这一挑战尚未被优雅地克服。在搜索阶段结束时的准确性几乎没有报告是令人满意的。而一个特别的解决方案是在评估阶段进行另一轮参数优化。在传统的机器学习中，在评估阶段优化参数是不通常，提供的数据集分为训练集和验证集。在训练阶段，使用来自训练集的数据进行学习然后在保留的验证集上测试学习的模型，其中不进行进一步的训练。在假设训练数据和验证数据来自相同分布的情况下，学习问题被简化为优化问题。因此，人们可以有信心期待具有高训练精度的模型，如果假设是正确的，则具有高评估精度。在评估阶段允许参数重新训练使得NAS成为一个定义模糊的机器学习问题。将问题称为神经网络结构搜索给人们一种倾向性的解释，即只有结构才是学习的结果，而不是参数。但是，如果搜索的架构是答案，问题是什么？大多数NAS方法都声称它们可以有效地在指定空间中发现性能最佳的架构[3，7，9]，但性能最佳具体意味着考虑到再训练是在评估阶段进行的，人们可以很自然地认为这是一个类似元学习的超参数问题。然后，优化结果应该表现出一些元级的优势，如更快的收敛速度，更好的优化或更高的可移植性等。这些都是应该在NAS提案中明确说明的目标。尽管如此，目标在实验中只是隐含地传达（大多数是更好的最佳）。精确定义问题是科学研究中的里程碑之一，它在机器学习任务中的直接礼物是一个明确的目标和评估指标。随后的努力，然后可以致力于验证，如果提出的学习损失是近似的一个必要和充分的等价的这个目标。不幸的是，在这种情况下，大多数现有的两阶段NAS方法被报道[20，11]，未能证明搜索精度和再训练精度之间的相关性2.2. 特定于任务的端到端NAS鉴于上述困境在于单独评估体系结构的模糊性，我们提出了一个这类问题称为特定于任务的端到端NAS，其解决方案应提供具有优化的体系结构和参数的可随时部署任务通常是指任何机器学习任务（在这项工作中，我们专门讨论计算机视觉任务）。一个定义明确的任务至少应该有一组数据来表示其功能域，一个针对任务特定动机的学习目标，例如分类，分割等。如果在任何一个因素中有修改，即使是数据中微不足道的增加，任务也会被覆盖。换句话说，特定于任务设置了一个边界，我们可以从搜索结果中期望什么这可以为工业应用带来巨大的运营效益。端到端强调的是，给定一个任务，预期的解决方案可以提供一个随时部署的网络，具有令人满意的准确性，整个过程可以被视为一个黑盒模块。从理论上讲，它需要直接面对任何一般NAS问题的主要挑战，即有效地协同优化参数和架构。从经验上讲，特定于任务的端到端是NAS工业应用场景的最佳描述：i）NAS方法本身应该可推广到任何现成的任务;以及ii）当应用于特定任务时，实践者至少可以对结果具有某些常规保证。基本上，它是将模糊定义的NAS问题减少到已建立的任务。在这个问题定义下，评估指标变得清晰。原则上，最终结果的性能是该任务的准确性。效率应该根据从NAS求解器开始获取数据到输出神经网络的时间来计算，神经网络的结构和参数都是优化的。这个效率指标不同于所有现有的作品。对于两阶段方法，搜索和评估的时间都应考虑在此度量。因此，他们的效率可能并不像他们声称的那样此外，两阶段方法并没有以端到端的方式优化最终导出网络的目标更高精度3. 直接NAS，无需重新培训3.1. 随机神经结构搜索（SNAS）在文献中，SNAS是接近于解决特定任务的端到端NAS问题的解决方案之一考虑到任何具有可区分损失的任务，SNAS框架直接优化了该任务在架构上的预期性能在本小节中，我们将简要介绍SNAS。基本上，SNAS是一个可区分的NAS框架，它保持了基于学习的方法的生成性[28]。SNAS利用网络调度过程的马尔可夫决策过程（MDP）的确定性，将其转化为马尔可夫链。这12087∂αi、ji、jJJi、ji、ji、ji、j重构导致网络构建过程的新表示。如图2，DAG中的节点xi（蓝色块）表示特征图。边（i，j）（箭头线）表示节点xi和xj之间的信息流，在其上附加了n个可能的操作Oi，j与DARTS避免使用注意力机制对子网络进行采样不同，SNAS使用随机计算图来实例化该有向无环图转发SNAS parent网络是首先采样随机变量Zi，j和其中Zi，j是gumbel-softmax随机变量，[·]c表示·是梯度计算的独立于α的成本换句话说，方程4和方程式三是优化任务特定的端到端NAS目标，即等式二、为了摆脱SNAS每个边缘处的架构参数的预期搜索梯度变为：将其乘以DAG中的边（i，j）Oi，j（·）=ZTOi，j（·）。（一）limEλ→0LZp（Z）[k ]的一种i、ji、j=limE[logp（Z）[[LO（x）]]因此，人们可以得到一个蒙特卡罗估计的经验，λ→0Zp（Z）Ki、ji、jxji，j i c任务目标Lθ（Z）在可能架构上的位置：=E[X]logp（Z）[LOT（x）Z]]Zp（Z）Ki、ji、j xji，j ii、j、cEZ<$pα（Z）[Lθ（Z）]，（2）=EL其中α和θ分别是结构分布和神经操作的参数。这正是我们的任务-Zp（Z）[αklogp（Zi，j）[xjOi，j（xi）Zi，j]c]，K（五）特定端到端NAS目标。为了优化参数θ和结构α，其中Zi、j是一个严格的单热随机变量是与EQ。2，（在[14]中称为单级优化），SNAS使用gumbel-softmax技巧将离散的one-hot随机变量Z松弛为连续的随机变量Z然而，连续松弛需要将整个父网络存储在GPU中，这使得它无法直接应用于大规模网络。在Xie et其中的第k个元素，[·]c表示·是成本无关的从α计算梯度。线3是从线2导出的，因为p（Zi，j）=limλ→0p（Zi，j）[16]，L=limλ→0L。利用Zi，j的单热性质，即只有Zs在edge（i，j）是1，其他的，即 Zzs为0，则成本函数可以进一步简化为[27]，SNAS仍然是一个两阶段的方法。C（Z）=LOk（x）Zk如果在SNAS的口香糖软最大技巧的温度由于SNAS可以直接归零，因此可以很容易地扩展到大规模网络中。然而，事实并非如此。采取i、jxjK=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000i，j i（x）Zsi、j=1000Lxi（六）看看Xie等人给出的搜索梯度。【27】：xiLi，jixii、jL1998年L1991年=j=，K=Oi，j（xi）（δ（k-k）− Zi，j）Zi，jk 、（3）xiαi，jxjλαi,jj i，ji、j只要|n（x）|f=∞。这里x i= Os（x）Zs为可以看出，温度λ对于零是无效的，xji，jij i，jii、j搜索梯度。谢等人[27]只是逐渐退火操作的输出为Os在边缘（i，j）处选择。的它将接近于零。在这项工作中，我们寻求一种替代的方式来区分方程。2、结合离散采样的有效性和连续差分的鲁棒性第3行中的相等是由于Zs3.3. 执行=1时。αα12088Zs∂θ名称我们从SNAS的信用分配开始3.2.离散SNAS（DSNAS）在原始SNAS [27]中，为了证明其在ENAS上的效率，提供本文介绍了Eq. 6是离散SNAS的并行友好实现，如图所示。二、在SNAS中，网络的构建过程是随机计算图的一个正向传递过程整个网络都必须使用批处理维度进行实例化在DSNAS中，我们提供了一种替代IM-实施注意，C（ZLi、j）=L只需要是i、jEZp（Z）[=Ek]i、j[2014 -05 -23]logp（Z<$）[<$LOT（x）Z<$]]，（四）为采样的子网络计算。很明显这也适用于BTL。也就是说，DSNAS的反向传播只涉及采样网络，而不是Zp（Z）Ki、jxji，j ii、j、c整个家长网络。所以我们只把∂αα12089J1998年虚设z~#z~#%，'（z~#%，'（假人1SNAsz~#z~#ProxylessNASz~#dummy 1DSNAS图2.在SNAS、ProxylessNAS和DSNAS上向前和向后。蓝色块代表特征图，橙色块代表候选操作。蓝色箭头线表示正向数据流，紫色虚线表示反向数据流。半透明块代表未使用批处理维度实例化的父网络，这是一种减少ProxylessNAS和DSNAS中计算的技术dummy1强调了第2节中介绍的智能实现。三点三算法1离散SNAS要求：父网络，操作参数θ和分类拱分布pα（Z）初始化θ，α而不收敛从pα（Z）采样单热随机变量Z根据Z用θ构造子网络，乘以a每个特征图X后有1个虚拟对象从数据中获取一个批处理并转发以获取L向后L到θ和1个虚拟，向后logpα（Z）到α用L更新θ，用logpα（Z）L更新α由于原始SNAS是以批量维数对整个图进行实例化，与一个子网相比，它需要n倍的GPU内存和n在DARTS中也是如此。∂θend whileα表1. SNAS、ProxylessNAS和DSNAS的计算复杂度比较ProxylessNAS* 表明其理论-子网络与批量尺寸的向前和向后。然而，以这种方式导出的子网络不一定包含Zi，j。如果没有第3行的Eq。六、逻辑复杂性这个可微的我们需要计算C（Zi、j），其中，x i. 则第一次是在[3]。他们提出了一个ap-近似DARTS政策梯度损失将明确取决于内部-diate结果xi=Os（xi），这可能需要额外的一轮BinaryConnect [6]技术：j i，j如果自动微分没有存储，联系我们ZhaoZhaoi，j公司简介兹·格洛克基础设施演进通过巧妙的数学运算，当量 6，1可以简单地将伪1乘以输出-αi，j把每个选定的操作，并计算C（Zi，j）与≈Zki，ji，j，（7）αi，jL整个算法在Alg. 1∂1其中Z∈i，j 表示基于注意力的估计器，如i、j3.4. 复杂性分析在本小节中，我们将提供 DSNAS 、 SNAS 和ProxylessNAS的复杂性分析。在不损失一般性的情况下，我们定义了一个具有l层的父网络，每层有n个候选选择块。假设采样子网络上的前向时间为P，其后向时间为Q，这一轮的内存需求为M。Z方法向前时间落后时间存储器子网络O（P）O（Q）O（M）SNAsO（O）O（nQ）O（nM）ProxylessNAS*O（O）O（nQ）O（nM）12090DARTS [14]，与离散随机变量不同Zi，j，突出显示如何进行近似。但这种近似并不能直接节省内存和计算量。与Eq不同5和Eq。6、定理-icall y，Eq. 如求和所示，7仍然在整个网络中。以减少存储器为了减少消耗，他们还根据经验提出了一种路径采样启发式算法，以将路径的数量从n减少到2。表1显示了比较。12091i、ji、ji、j3.5. 渐进式早停基于样本的可区分NAS中的一个潜在问题是，根据经验，架构分布的熵不会收敛到零，即使与基于注意力的NAS [14]相比，它们被报告[27]以较小的熵收敛。非零熵使采样持续到最后，而不管在该不确定性水平下的采样不会带来显著的增益。相反，它甚至可能阻碍其他边缘的学习。为了避免架构采样的这种副作用，DSNAS应用了一种渐进的提前停止策略。采样和优化以渐进的方式在层/边缘处停止。具体地，为停止条件设置阈值h4.1.两级NAS由于两阶段NAS中搜索的有效性依赖于搜索阶段和评估阶段性能的高度相关性，因此我们使用排名相关性度量Kendall Tau度量τ[10]来检查此假设。τ=2（N一致−N不一致），（9）N（N−1）其中N是来自搜索阶段和评估阶段的对（xi，yi）的总数，其由N个一致一致排序对（x1>x2，y1>y2或x1x2，y1y2）和N个不一致不一致排序对（x1>x2，y1y2或x1x2，y1>y2）组成。<<<

下载后可阅读完整内容，剩余1页未读，立即下载