减少超网络训练可以改进神经架构搜索

39 浏览量更新于2023-10-16 收藏 12.88MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

123540Pi-NAS：通过减少超网络训练来改进神经架构搜索0一致性偏移0Jiefeng Peng1,2*，Jiqi Zhang1*，Changlin Li3，Guangrun Wang4†，0Xiaodan Liang1，Liang Lin101中山大学2DarkMatter AI研究03 GORSE实验室，DSAIDept.，莫纳什大学4牛津大学0{jiefengpeng,wanggrun,xdliang328}@gmail.com0zhangjq49@mail2.sysu.edu.cn，changlin.li@monash.edu，linliang@ieee.org0摘要0最近提出的神经架构搜索（NAS）0方法在一个超网络中共同训练数十亿个架构，并使用从超网络中分离出来的网络权重来估计它们的潜在准确性。然而，架构的预测准确性与实际能力之间的排名相关性是错误的，这导致了现有NAS方法的困境。我们将这个排名相关性问题归因于超网络训练的一致性偏移，包括特征偏移和参数偏移。特征偏移被识别为由于随机路径采样而导致的隐藏层的动态输入分布。输入分布的动态性影响了损失下降，最终影响了架构的排名。参数偏移被识别为共享层中不同路径上的矛盾参数更新在不同的训练步骤中。快速变化的参数无法保持架构的排名。我们使用一个非平凡的超网络-Π模型，称为Π-NAS，同时解决这两个偏移问题。具体来说，我们采用一个包含跨路径学习的超网络-Π模型来减少不同路径之间的特征一致性偏移。同时，我们采用一个包含负样本的新型非平凡均值教师来克服参数偏移和模型冲突。此外，我们的Π-NAS以无监督的方式运行，可以搜索更具可迁移性的架构。在ImageNet和一系列下游任务（如COCO2017、ADE20K和Cityscapes）上进行了大量实验，证明了我们的Π-NAS相对于有监督的NAS的有效性和普适性。详见代码1。01. 引言0自动神经架构搜索（NAS）一直是机器学习领域的一个热门话题。0过去四年来，机器学习领域对自动神经架构搜索（NAS）的需求非常迫切。0* Jiefeng Peng和Jiqi Zhang为共同第一作者并且贡献相等。0它们的名字按字母顺序列出。0† 通讯作者。01 代码：https://github.com/Ernie1/Pi-NAS0输入0无超网络-Π模型有超网络-Π模型0路径i 路径j 路径i 路径j0(a)特征偏移。左图：没有超网络-Π模型，不同路径的特征图之间存在特征偏移。右图：有超网络-Π模型，特征偏移显著减少。0(b)参数偏移。不同颜色代表不同迭代中参数的分布。左图：没有我们的非平凡均值教师，参数在训练中的分布变化很大。右图：有了我们的非平凡均值教师，参数偏移显著减少。0图1：超网络训练一致性偏移的示意图。0早期的工作使用强化学习[69]或进化算法[40]在搜索空间中发现高性能的架构。搜索过程通常需要数千个GPU天来处理大型数据集，因为每个采样的架构都需要从头开始训练。最近，为了减轻这个沉重的负担，广泛使用了权重共享的NAS方法[16, 9, 20, 54, 33, 30, 15, 36, 17, 1,8]，其中候选架构共享权重并在一个超网络中同时训练。训练后，一个候选架构...0从超网络中分离出来的子网络的权重用于预测其实际性能。尽管在效率方面取得了显著进展，但共享权重的NAS的有效性仍然不足。02 一个超网络是一个过参数化的网络，它集成了整个0搜索空间。搜索空间中的每个架构对应于一个捕获所需操作的超网络子网络。123550在当今的NAS中，不准确的架构排名仍然是一个不稳定的问题，即候选模型的实际准确性与在超网络中估计的准确性之间存在较低的排名相关性。简而言之，不准确的架构排名是当今NAS中不可避免的一个关键问题。0在本文中，我们将排名相关性问题归因于0一致性移位问题，包括特征移位和参数移位。特征移位被识别为隐藏层的动态输入分布。具体来说，由于随机路径抽样（见图1a，左），给定层的输入特征图始终具有不确定的分布。这种分布的不确定性可能会损害架构排名相关性。准确地说，我们可以使用损失来衡量架构准确性，并将准确性的提升与梯度下降联系起来。基于反向传播规则，稳定的输入分布可以保证良好的排名相关性。相反，输入分布的动态性会影响损失下降，最终影响架构排名。参数移位被识别为给定层的矛盾参数更新。在超网络训练中，给定层将始终存在于不同的路径中（见图1b，左）。该层中的参数可能会在迭代之间具有矛盾的更新。这些不稳定的更新导致参数的分布变化，从而以两种方式损害架构排名相关性。一方面，稳定的参数可以确保正确的损失下降并保证准确的架构排名，而频繁的参数变化无法保持架构排名。另一方面，不同的参数也可能导致特征移位，进一步损害架构排名相关性。总之，特征移位和参数移位都可能损害架构排名相关性。第4节中的详细实验分析提供了支持这一分析的确凿证据。0受一致性正则化方法的启发[29，044 ]，我们提出了一个非平凡的超网络模型，称为 � -NAS，以同时减少这两个移位。具体来说，为了应对特征移位，我们提出了一种新颖的超网络模型。我们通过两条随机抽样的路径评估每个数据点，然后在两个预测之间应用一致性成本，惩罚不同路径之间的特征一致性移位。如图1a（右）所示，我们的方法可以显著减少特征移位，从而提高架构排名相关性。为了解决参数移位，我们提出了一种新颖的非平凡均值教师模型，通过在超网络教师中维护权重的指数移动平均值来稳定参数。尽管均值教师可以稳定单个网络训练中的参数，但在超网络训练中可能陷入平凡解决方案并导致模型冲突。我们的非平凡均值教师新颖地包含适当的负样本，以避免这种模型冲突。我们的方法在减少参数移位方面取得了令人印象深刻的结果，如图1b（右）所示。简而言之，我们的 � - NAS 可以减少超网络的0训练一致性移位，从而提高架构排名，这对于NAS的有效性至关重要。0一个无法忽视的副产品是我们的 � -0NAS以无监督的方式运行，这具有现有监督NAS方法所没有的额外优势。具体而言，类似于无监督表示学习0与可以学习通用特征的有监督�-NAS相比，我们的�-NAS可以搜索更具可转移性和通用性的架构。0由于以前的NAS搜索中的“好架构”0这些搜索空间通常具有相当大的计算复杂性，使用这些搜索空间进行评估缺乏可解释性。为了评估我们的�-NAS，我们设计了一个基于16层ResNet-50的非平凡搜索空间。我们在该空间上搜索的模型在ImageNet上实现了81.6%的最高准确率，超过了ResNeSt-500.5%，并具有可比较的计算成本。我们还在NAS-Bench-201上使用CIFAR-10验证了�-NAS，击败了最先进的NAS方法，并验证了我们的方法的有效性。此外，我们的�-NAS模型在许多下游任务上保持最先进水平（例如，COCO2017检测和分割，ADE20K分割和Cityscapes分割），证明了我们的�-NAS的普适性。0总的来说，本文提出了三个贡献。0• 我们将不准确的架构排序归因于0超网络训练一致性偏移，包括特征和参数偏移。然后我们详细分析了这两个偏移如何使NAS方法失效。0• 我们提出了�-NAS方法，其中包含两个关键组件。0分别使用超网络�模型和一个非平凡的均值教师来解决特征偏移和参数偏移。值得注意的是，我们的非平凡均值教师模型引入了适当的负样本，避免陷入平凡解。0• 我们的�-NAS方法具有无监督学习的优点。0表示学习，即普适性属性。我们可以搜索比有监督NAS方法更具可转移性和通用性的架构。通过在ImageNet和广泛的下游任务上获得实证结果，证明了我们的�-NAS的有效性和普适性。02. 相关工作0神经架构搜索（NAS）。近年来，NAS引起了越来越多的研究关注。早期的NAS工作[67, 14, 37, 69, 3, 40,42]消耗大量计算资源，从头开始训练数千个候选模型，同时使用一个代理（RNN控制器或进化算法）在搜索空间中探索性能更好的架构。为了减轻计算开销，研究人员开始在候选架构之间共享权重。0由于训练过程引起的计算开销，研究人员开始在候选架构之间共享权重。123560[16, 9, 20, 54, 33, 30, 15, 36, 17, 1,8]。基于梯度的权重共享方法[36, 9, 54,63]通过梯度下降同时优化共享网络参数和架构选择因素。在一次性方法[20, 16, 8, 4,30]中，首先使用路径采样优化超网络，然后使用从超网络继承的权重对子模型进行采样和评估。尽管加速了权重共享，但这些方法仍然存在有效性问题[4, 16,33]。解决这个问题的现有尝试包括确保所有子模型之间的优化公平性[16]，在训练过程中贪婪地减少搜索空间[33]，使用中间知识蒸馏将大型搜索空间模块化为块[30]，以及限制子网络优化以防止多模型遗忘[64,65]。最近，无监督NAS方法也开始引起研究兴趣[35, 58,31, 66, 48]。0减少一致性偏移。特征偏移表示网络对输入图像的扰动的不稳定性。惩罚一致性偏移可以帮助开发网络对错误标签的容忍度，并提高半监督学习中的分类准确性[2, 41, 29, 44, 60,56, 38, 7, 57, 52, 50, 47]。[29]0提出了�-模型，以鼓励对具有不同数据增强和dropout的输入进行一致的输出，并通过对每个输入的网络输出进行时间集成来扩展�-模型，以保持输出的一致性。参数偏移表示网络参数的不稳定性。为了解决参数偏移，平均教师模型[44]通过对模型权重进行平均而不是输出来改进时间集成，该方法也被用于稳定权重共享训练[32]。在本文中，我们将NAS的低效归因于超网络训练一致性偏移，即特征偏移和参数偏移导致的错误架构排名。由于�-模型是减少特征偏移的经典工具，我们提出了一个超网络�-模型来解决特征偏移。我们的超网络�-模型是一种新颖的模型，因为我们使用了一种新颖的交叉路径学习的表达方式。另一方面，平均教师被广泛采用来减少参数偏移，因为它可以可靠地减少不合理的不确定性。因此，我们引入平均教师来解决我们的参数偏移。尽管平均教师可以用于稳定单个网络训练中的参数，但它可能陷入一个平凡的解决方案，并在超网络训练中导致模型碰撞。我们的非平凡平均教师新颖地包含适当的负样本，以避免这种模型碰撞。总之，我们的方法是一种非平凡的NAS方法，旨在消除超网络训练一致性偏移，而不是NAS和�-模型以及平均教师的简单组合。0对比学习。最近基于对比学习的方法在无监督表示方面取得了重大突破0对比学习[39, 55, 26, 45, 68, 22, 11,51]。这些方法被视为字典查找任务[55,22]或一致性学习任务[45,11]，通过使同一图像的不同视图的表示更加接近并将来自不同图像的视图的表示分散开来，学习有区分度的表示。MoCo [22,13]使用指数移动平均（EMA）编码器生成预测，并保留大量历史预测作为负样本。在BYOL[19]中，在线网络与预测器一起训练，以与EMA目标网络保持一致，而不需要负对。然而，直接将对比学习的技术应用于NAS可能是不必要或不成功的。由于训练一致性偏移，对比学习中一对样本中会出现特征偏移，尤其是在负样本对中。这使得超网络优化不稳定且难以收敛。相比之下，我们的�-NAS包含了一个交叉路径训练的表达方式，可以令人满意地解决特征偏移问题。03. 方法论0我们首先简要介绍NAS的困境，即0准确的架构排名，然后将错误的架构排名归因于超网络训练一致性偏移，包括特征偏移和参数偏移。然后，我们提出了一个非平凡的超网络模型，其中包括两个关键组件，即超网络模型和一个非平凡的平均教师，分别解决特征偏移和参数偏移。最后，我们在线性评估中搜索有前途的架构。3.1. NAS的困境0不准确的架构排名。设A表示架构搜索空间。�∈A和!�分别表示网络架构和网络权重。如上所述，NAS的目标是在搜索空间A中找到一个最优的(��,!�)0使得模型性能最大化。搜索过程可以分为两个子问题。第一个问题是架构训练，即训练给定架构的网络权重。第二个问题是架构搜索，即搜索在训练后具有最佳性能的架构。由于从头开始训练每个架构以收敛在实践中是不可行的，最近提出了共享权重的NAS。[9, 20, 54, 33, 30]0提议通过权重共享策略同时训练不同的候选者，将搜索空间A编码到过参数化的超网络中。因此，所有候选架构都可以立即从超网络继承其权重。然而，从超网络借用的代理权重不能充分地表示从头到收敛训练的网络权重，因为每个子图在超网络中没有公平且充分地优化。这可能导致候选者预测准确性与其实际能力之间的排名相关性较低，从而导致效率低下。xixj'xixjjzi'zjziz~[D(zi, z)](1)123570在线候选操作0EMA候选操作停止梯度0超网络-Π模型0相对的0一致性成本0相对的0一致性成本0随机变换0特征流0冻结的超网络-Π模型0x 分类器0准确性0特征容器0训练0评估0Π-NAS学习线性评估搜索0图2：提出的�-NAS方法的概述。在�-NAS学习中，输入图像被转换为四个不同的视图，然后分别通过超网络-�模型和非平凡的均值教师进行路由，以计算与负目标的相对一致性成本。均值教师的输出保存在容器中，以作为未来的负目标。在线性评估搜索中，分类器类似于线性评估进行训练，并将准确性用作架构搜索的度量。0架构搜索的困境。我们将这视为NAS的困境。0超网络训练一致性偏移。那么，是什么导致了0NAS的困境是什么？在本文中，我们将不准确的架构排名归因于超网络训练的一致性偏移，其中包含特征偏移和参数偏移。0特征偏移被识别为动态输入分布0隐藏层的输出。设x l为第l层的输入，y l为其输出，wl为其网络权重。由于训练过程中无法访问最终的架构准确性，我们使用损失L来衡量架构准确性，准确性的提升可以与损失的下降相连。根据反向传播算法中的链式法则，我们有：@ L @ w l = @ L0这表明架构排名保持高度依赖于输入xl。但是对于给定的层l，由于超网络中的随机路径采样，前面的路径会变化，输入xl也会变化。因此，我们应该保证稳定的xl以保持良好的架构排名相关性。否则，输入分布动态会影响损失下降，最终影响架构排名。0参数偏移被识别为矛盾的参数0给定层的更新。在超网络训练中，给定层l在不同迭代中始终存在于不同的路径中。它的权重可能在迭代之间有矛盾的更新，即w t +101. 快速-0变化的wl将以两种方式损害架构排名相关性。一方面，损失的下降不仅与@ L @ w l有关，还与w l - @ L @ w0总之，特征偏移和参数偏移都会对NAS造成困扰。0总结起来，特征偏移和参数偏移都会对NAS造成困扰。0表明稳定的参数可以确保正确的损失下降并保证准确的架构排序，而频繁变化的参数无法保持架构排序。另一方面，由于输入 x l是由前面层的网络权重生成的，变化的参数也会导致特征偏移，进一步损害架构排序的相关性。03.2. �-NAS：一个非微不足道的超网络模型0如前所述，减少超网络训练的一致性会损害架构排序的相关性，进一步使NAS方法失效。第4节的详细0偏移可以缓解NAS的困境。接下来，我们设计了一个新颖有效的非微不足道的超网络模型，包括一个超网络模型和一个非微不足道的平均教师模型，分别解决特征偏移和参数偏移。我们的�-NAS可以成功保持架构排序，从而提高NAS的效果。超网络模型。为了保证稳定的输入分布，我们致力于惩罚通过不同采样路径的相同输入预测之间的不一致性。受到 �模型的启发，我们通过两个随机采样路径（路径 i 和 j）评估数据点 x ，得到其表示 {z i , zj , z 00使用不同视图的增强方法获得表示 z 和 z 0 ，即 z = f(x) 和z 0 = f 0 (x)，其中 f 和 f 0是超网络模型的映射函数。不失一般性，我们将 f 和 f 0定义为学生/教师模型。通常情况下，学生和教师是相同的。0在获得相同输入 x 的评估之后，我们定义交叉路径一致性成本如下：0定义交叉路径一致性成本如下：0L Con = - E0j ) + D ( z j , z 00其中 X 和 D分别表示训练数据集和一致性度量。图2显示了我们带有交叉路径学习的超网络模型的流程。通过最小化公式1，可以减少由不同随机路径引起的特征一致性偏移，从而稳定隐藏层输入特征的分布。0简而言之，我们在 � 框架下制定了我们的方法。0通过交叉路径学习，即超网络模型。广泛的实验表明，架构排序相关性有了显著的改善。W(3)logezTi z0jezTi ez + ezTi z0j + logezTj z0iezTj ez + ezTj z0i123580非微不足道的平均教师模型。除了解决特征偏移外，我们还打算通过平滑迭代之间的参数更新来减少参数偏移。受到平均教师[44]的启发，我们建议在超网络模型训练中维护一个指数移动平均权重的教师模型，而不是仅仅从学生模型中复制。形式上，我们将 f 的参数记为 t 步的学生映射函数 f的参数。然后，平均教师模型 f 0 的权重可以定义为：0t = λ W 00t - 1 + (1 - λ) W t (2)0其中 λ 2 [0, 1] 是一个平滑系数超参数。0尽管平均教师的能力可以稳定模型参数，但在超网络模型中，参数的频繁变化可能会导致模型崩溃。因0参数很明显，它可能会陷入超网络模型中的一个微不足道的解决方案。具体来说，仅仅优化一致性损失可能会导致模型崩溃。例如，跨任意输入恒定的表示始终是完全一致的。为了解决这个问题，我们在模型中引入了适当的负样本，即非微不足道的平均教师模型。形式上，添加的一致性成本为：0L Add = E0X0�0EeZ0[D(zi, ez) + D(zj, ez)]0�0其中e Z表示负样本e z的整个集合，e z ∈ eZ。注意，负样本e0可以通过重用先前的预测（见图2中的特征容器）从我们的非平凡的平均教师模型中收集。相对一致性成本可以写成：L Ref = L Con + L Add。0由于我们的目标是最大化一致性度量D(z, z0)，0通过最小化负样本，同时最大化正样本之间的相似度，我们可以将优化问题形式化为对正样本进行分类的分类交叉熵，其中exp(D(z, z0)) P0e Z exp(D(z, ez))+exp(D(z,0模型一致性度量D使用点积相似性定义为D(z, z0) =zTz0。因此，�-NAS的最终损失函数可以表示为：0L = -E0X0�0P0eZ0P0eZ0�. (4)03.3. 线性评估搜索0在优化非平凡的超级网络-�模型之后，0通过评估候选子架构�的表示能力来进行架构搜索。受自监督学习中使用的标准线性评估协议[28,21]的启发，我们在冻结表示的基础上训练一个线性分类器，即不更新超级网络参数W和批次统计信息。具体来说，线性分类器Fc也通过常见的权重共享策略进行优化。然后，我们通过验证集上的准确率R val来估计子模型的能力，并寻找最佳性能：0� � = arg max0� 2A0R val ( Fc ( W � , � ; X, Y )) (5)0其中W � 是子架构�的参数，直接继承自参数W。0感谢�-NAS学习和线性评估搜索0通过�-NAS，我们不仅提高了搜索效果，还展示了在搜索更具传递性和通用性的架构方面的优越性。最后，我们在图2中概述了我们的�-NAS。04. 实验04.1. 实现细节0搜索空间和数据集。我们构建了我们的超级网络0基于16层的ResNet-50，通过将每层的残差瓶颈替换为4个候选的Split-Attention块[62]（基数s，基数x和宽度d），构建我们的搜索空间A。因此，我们的搜索空间包括4个16个架构。0• Block0: 1 s 1 x 64 d • Block1: 2 s 1 x 64 d0• Block2: 1 s 2 x 42 d • Block3: 2 s 2 x 40 d0请注意，Block1是ResNeSt-50[62]的构建块。0我们故意设计了这样的搜索空间，通过两个条件来0首先，这四个候选块的参数和FLOPs相似，以避免在模型复杂性的代价上获得性能提升，因为复杂性更高的模型通常能够获得更高的准确性。因此，我们的搜索空间是一个需要检验NAS有效性的非平凡空间。其次，我们的搜索空间与ResNet相似，而不是最近的工作[20, 54, 30,36]，因为实验证明，尽管统计数据相反，ResNet的变体在实践中更加高效。如表2所示，在ImageNet上具有相同的top-1准确率的情况下，ResNeSt-50的延迟比EfficientNet-B3[43]高出14.5%，即使FLOPs多了2.9倍。为了进一步减少训练一致性偏移，我们在同一层的所有候选块之间共享瓶颈的下采样操作。下采样共享策略的优势将在第4.5节中进行说明。0我们的� -NAS在ImageNet上进行评估，这是一个最先进的0最近NAS方法广泛使用的分类数据集[20, 54,30]。对于搜索过程，我们从原始的1.28M训练集中随机挑选出每类50张图像构建一个50k的验证集，剩下的图像用作超网络学习的训练集。我们所有的ImageNet结果都在原始的验证集上进行测试。训练细节。我们分为3个阶段进行�-NAS：� - NAS学习、线性评估和架构搜索。0在� -NAS学习中，受[12]的启发，我们使用了一个增强0随机调整大小和裁剪、颜色抖动、颜色丢失、高斯模糊和水平翻转。此外，我们使用一个2层MLP作为超网络的头部。实践中，平均教师在公式（2）中的平滑系数λ设置为0.999。相对一致性损失通过学习率为0.03的SGD优化器进行优化，动量为ResNeSt-5027.5M5.42G64.6%80.7%95.3%123590表1：在验证集上的图像分类快速结果。（Acc@ S：超网络的top-1准确率）0模型参数 FLOPs 准确率@ S 准确率@1 准确率@50� -NAS- � (我们的) 27.1M 5.38G 65.0% 81.2% 95.4%0� -NAS- β (我们的) 27.2M 5.39G 65.1% 81.2% 95.6%0� -NAS- γ (我们的) 27.0M 5.30G 65.0% 81.1% 95.6%0� -NAS- δ (我们的) 26.9M 5.30G 65.0% 81.0% 95.4%0� -NAS- � (我们的) 26.9M 5.42G 65.0% 81.0% 95.4%00.9，权重衰减为10^-4。我们采用余弦衰减学习率计划，在8个NVIDIA GTX 2080TiGPU上以总批量大小为192进行100个epoch的训练。0至于线性评估，我们获取了优化的0超网络-�模型，并用一个随机初始化的1000维线性分类器替换2层MLP。只有线性分类器在ImageNet上进行100个epoch的训练，而超网络的参数W被冻结。在每个训练0在线性评估步骤中，线性分类器的输入是从超网络的随机路径中获取的。注意，批处理0使用批归一化（BN）层中的跟踪统计数据而不是使用批处理中的不准确统计数据，以避免不准确的统计数据跨不同的采样路径。只使用随机调整大小和裁剪、水平翻转进行数据增强。我们使用总批量大小为256的交叉熵损失和学习率为30、动量为0.9、权重衰减为0的SGD优化器对分类器进行100个epoch的训练。学习率在第60和80个epoch时衰减为原来的0.1。0在架构搜索中，候选架构是0分别在50k的Imagenet验证集上进行评估。同样，为了避免BN中的不准确的批处理统计数据，我们从其余的训练集中挑选出另外的50k图像来重新计算每个可选路径的统计数据。然后，我们采用搜索算法Action Space[53]，在最大样本量为1000的情况下寻找性能最佳的候选模型。04.2. 在ImageNet上的实验0搜索模型的快速结果。如表1所示，我们首先在一个快速训练设置中评估了�-NAS搜索到的前5个模型以及ResNeSt-50（Block1）。所有模型都是从头开始在原始的ImageNet训练集上进行270个epoch的训练，使用PyTorch-Encoding[61]遵循ResNeSt-50相同的设置，只是由于GPU内存的限制，总批量大小从8192减少到512。我们的模型在准确率上显著优于ResNeSt-50，平均提高了0.4%，即使参数和FLOPs更少。特别地，所有搜索到的顶级模型在超网络和从头开始训练时的top-1准确率上都达到了相似的水平，这从另一个方面证明了我们�-NAS的有效性。与最先进的模型进行比较。我们选择了搜索到的模型� -NAS- � 作为我们的最佳模型，0表2：在验证集上的图像分类结果。img/sec和GPU分别表示模型进行推理的推理速度和GPU内存使用情况，批量大小为128，使用一块NVIDIA GTX 2080TiGPU。†使用裁剪尺寸300，否则为224。�寻找一堆具有接近准确性的次优解。0模型参数 FLOPs img/sec GPU 准确率0ResNet-50 [24] 25.6M 4.12G 835.9 2.55G 78.40SENet-50 [27] 27.7M 4.25G - - 78.90SKNet-50 [34] 27.5M 4.47G - - 79.20Ef�cientNet-B3† [43] 12.2M 1.88G 490.5 9.25G 81.10ResNeSt-50 [62] 27.5M 5.42G 561.6 4.16G 81.10在我们的搜索空间A上搜索的模型，来自NAS方法SPOS [20]27.1M 5.43G 536.4 4.12G 81.04 ± 0.030FairNAS [16] 26.9M 5.31G 541.7 3.87G 81.05 ± 0.060DNA [30] 26.8M 5.41G 571.6 3.71G 81.1*0FBNetV2 [46] 26.8M 5.29G 478.7 3.89G 81.1*0TuNAS [5] 26.8M 5.39G 554.8 4.95G 81.1*0�-NAS-cls（我们的）27.1M 5.38G 556.8 4.07G 81.60在ImageNet分类中，我们的�-NAS-cls（我们的）考虑了性能和效率之间的权衡。我们重新训练了ResNet-50[24]（在以前的NAS工作中始终训练不足），ResNeSt-50和我们在ImageNet上搜索的模型，使用了一种名为AugMix[25]的增强方案，以相同的设置。为了与最先进的NAS方法进行公平比较，我们将它们应用于我们的搜索空间A。对于S0我们使用与我们相同的架构搜索过程。对于DNA[30]，我们选择每层中损失最小的候选块作为其顶级模型。对于FBNetV2 [46]和TuNAS[5]，我们将我们的搜索空间视为每层中四个可能的通道决策，以应用通道掩码方案。如表2所示，�-NAS-cls在相似的计算复杂度下，以81.6％的新的最高准确率超过ResNeSt-500.5％的大幅度。相比之下，在我们的非平凡搜索空间中，先前的NAS方法似乎陷入了接近ResNeSt-50的局部最优解，验证了�-NAS减少超网训练一致性偏移的优势。此外，即使计算复杂度更高，我们的�-NAS-cls在实践中也实现了比Ef�cientNet-B3[43]更高的性能，同时具有更低的延迟和更少的GPU内存。值得注意的是，表2中的结果表明，我们的�-NAS-cls不仅实现了最先进的性能，而且确实以快速的速度运行。模型排名。如第1节所讨论的，候选模型在超网中的实际和预测性能之间的强大排名相关性对于NAS的有效性至关重要。在这里，我们将我们的排名相关性与DNA [30]和SPOS[20]进行比较。我们在表1中使用前5个架构，并从搜索空间中随机选择其他八个架构，并在上述快速设置中对它们进行训练，以获得它们的顶级1准确率训练。4.4. Experiments on Transfer Learning123600表3：在我们的搜索空间中，不考虑跳过连接和零操作的情况下，各种NAS方法的排名相关性（Kendall's Tau指标）。0方法我们的 DNA SPOS FairNAS FBNetV2 TuNAS0分类 0.79 0.45 0.19 0.36 0.32 0.140实例分割 0.51 0.38 0.18 - - -0图3：在NAS-Bench-201[18]上的792个架构上的排名相关性，与SPOS[20]，arch2vec [59]和ProxylessNAS[9]进行比较，不考虑跳过连接和零操作。0表4：在CIFAR-10上的NAS-Bench-201结果。0方法我们的 SPOS arch2vec ProxylessNAS WPL GDAS-NSAS0测试(％) 93.83 ± 0 93.57 ± 0 92.53 ± 0.32 92.08 ± 0.03 90.92 ± 0.11 93.55 ± 0.160表5：使用Mask-RCNN [23]在COCO2017验证集上的实例分割结果。0模型AP Box AP Mask0ResNet-50 [24] 39.93 ± 0.04 35.99 ± 0.060ResNeSt-50 [62] 42.81 ± 0.02 38.14 ± 0.010�-NAS-cls（我们的）43.72 39.130�-NAS-trans（我们的）44.11 ± 0.04 39.48 ± 0.020表6：在ADE20K和Cityscapes的验证集上使用DeeplabV3[10]的语义分割结果。0模型ADE20K Cityscapes0pixAcc mIoU mIoU0ResNet-50 [24] 80.66 ± 0.27 42.74 ± 0.64 78.42 ± 0.300ResNeSt-50 [62] 81.22 ± 0.05 45.18 ± 0.06 80.08 ± 0.200�-NAS-trans（我们的）81.31 ± 0.04 45.49 ± 0.02 80.40 ± 0.300从头开始训练，然后获取它们在各种方法的超网中预测的性能，计算排名相关性。表3的第二行表明了�-NAS的高级有效性，因为它更准确地预测了模型的性能。如第3.1节所分析的，这是由于训练一致性偏移问题，将在第4.5节进一步讨论。04.3. 在NAS-Bench-201基准上的实验0我们还在一个流行的基于单元的搜索空间NAS-Bench-201上验证了我们的�-NAS。0基于搜索空间NAS-Bench-201[18]在CIFAR-10数据集上进行实验。这个搜索空间被表示为一个DAG，其中每条边与5个选项的操作相关联：零、跳跃连接、1×1卷积、3×3卷积。0图4：不同NAS方法的排名相关性。0方法。括号内的值是它们对应的Kendall'sTau。我们的�-NAS获得了最佳的相关性。0表明�-NAS有效地减少了训练一致性偏移。（CP：跨路径学习；MT：均值教师；DS：降采样共享；DA：学习同一图像的不同增强视图）0和3×3平均池化。这个DAG有4个节点，每个节点表示通过指向该节点的边进行变换的特征图的总和。为了简单起见，尽管我们训练了涉及所有5种操作的超网，但我们预测了所有792种架构的性能，而没有使用零和跳跃连接操作，以衡量它们与基准性能的排名相关性。如图3和表4所示，我们的方法明显优于SPOS [20]，arch2vec[59]（一种无监督的NAS方法），ProxylessNAS[9]（一种可微分的方法），WPL[6]（解决参数偏移的不同解决方案）和GDAS-NASA[65]，验证了我们方法的有效性和兼容性。0实例分割结果。为了探索我们的�-NAS模型的可迁移性，我们首先在一个广泛使用的迁移学习任务上评估它们，即实例分割，该任务同时解决了目标检测和语义分割的问题。我们使用我们搜索到的模型作为Mask-RCNN[23]的骨干，在COCO-2017数据集上进行训练，按照[62,49]的指示进行。我们评估了13种架构（在4.2模型排名中使用）的预训练模型在ImageNet上的性能，通过平均边界框mAP（AP bb）和掩膜mAP（APmk）来研究排名相关性作为实际性能。如表3的第三行所示，我们的�-NAS的有效性仍然优越，这表明我们的方法可以搜索到更具可迁移性和通用性的架构。请注意，我们选择性能最好的架构作为可迁移模型，即�-NAS-trans（也称为�-NAS-γ，我们搜索到的前5个架构之一），用于迁移学习。表5显示，�-NAS-trans和�-NAS-cls在APbb方面都明显优于ResNeSt-50（分别提高了0.91%和1.30%）。语义分割结果。我们进一步迁移0�-NAS-转到ADE20K和Cityscapes数据集上的下游语义分割任务。我们0使用PyTorch-实现训练DeeplabV3[10]123610图5：每个超网络变体中4个路径的最后一层输出的余弦相似性矩阵。括号内的值是去除对角线后的平均值。我们的�-NAS实现了最高的特征相似性，直观地解释了它减少超网络训练一致性偏移的有效性。0编码和[62]的设置。对于ADE20K数据集0数据集，我们将模型训练120个时期，基本图像大小为520，裁剪图像大小为480。至于Cityscapes数据集，模型训练240个时期；基本图像大小为2048；裁剪图像大小为768。我们还遵循[62]使用多尺度评估和翻转。结果显示在表6中，两者都证明了我们的�-NAS-转的优势。04.5.消融研究0组件的有效性。为了分别评估我们的�-NAS的影响，我们首先通过跨路径学习、均值教师和下采样共享将其与SPOS区分开来。如表7和图4所示，我们使用Kendall'sTau作为它们模型预测和实际性能之间的排序相关性进行组合方法的测试。采用第4.2节中相同的测试方案，我们将每种方法应用于它们的超网络训练，然后评估13种架构（用于4.2模型排序）。从表中可以看出，没有均值教师的情况下，�-NAS模型降低了0.31，这表明均值教师在高排序相关性中起到了作用。最值得注意的是，没有跨路径学习，该方法失去了作为SPOS的有效性。显然，跨路径学习是我们�-NAS的重要组成部分。下采样共享还显示出其在预测候选架构的准确性方面的优势，提高了0.39。请注意，当我们尝试执行�-NAS而没有非平凡均值教师时，超网络迅速收敛到输出全为零的状态，这使得模型的区分能力失效（见表7）。特征一致性和排序相关性。如第3节所分析的，训练一致性偏移损害了NAS的排序相关性。为了进一步证明这一观点，我们探索并可视化了最后一层路径之间的特征相似性。例如，我们随机选择4个架构，除了最后一层外，分别是Block0、Block1、Block2和Block3，它们分别表示为s0、s1、s2和s3。然后我们评估特征相似性。0它们之间的正弦相似性。图5显示0表7：我们�-的每个组件的有效性0NAS。（CP：跨路径学习；MT：均值教师；DS：下采样共享）0方法 CP MT DS 非平凡的Kendall's Tau0SPOS [20] X 0.190S-�模型X X X 0.480我们的无CP X X X 0.140我们的无DS X X X 0.400我们的无非平凡X X X碰撞0我们的X X X X 0.790不同方法的嵌入特征相似性。通过相关性分析图4，我们发现高特征一致性导致超网络的强排序相关性，这有力地证明了我们的动机。值得注意的是，图5也证明了我们的�-NAS确实减少了超网络训练一致性偏移，特别是对于跨路径学习。05.结论0本文认识到建筑的重要性0NAS中的排序问题，并将排序相关性问题归因于超网络训练的一致性偏移，包括特征偏移和参数偏移。为了解决这两个偏移，我们提出了一个非平凡的超网络�模型，即�-NAS。具体而言，我们提出了一个具有跨路径学习的超网络�模型来减少特征偏移，并提出了一个非平凡的均值教师来应对参数偏移。值得注意的是，与监督NAS相比，我们的�-NAS可以搜索更具传递性和通用性的架构。大量实验证明了我们的�-NAS在许多任务上的搜索有效性和通用性，相

下载后可阅读完整内容，剩余1页未读，立即下载