GreedyNASv2：贪婪搜索中的路径过滤器

179 浏览量更新于2023-10-26 收藏 12.31MB PDF 举报

搜索空间

路径嵌入

身份认证购VIP最低享 7 折!

30元优惠券

uniform samplingGreedyNASGreedyNASv275.576.076.577.077.5102310241025102610271028GreedyNASv2uniform samplingGreedyNAS30354045505560102310241025102610271028119020GreedyNASv2：具有贪婪路径过滤器的更贪婪搜索0Tao Huang 1, 2 Shan You 1, 3 * Fei Wang 40Chen Qian 1 Changshui Zhang 3 Xiaogang Wang 1, 5 Chang Xu 201商汤研究院2悉尼大学工程学院计算机科学学院3清华大学自动化系，清华大学人工智能研究院，北京国家信息科学技术研究中心4中国科学技术大学5香港中文大学0摘要0在一次性NAS方法中训练一个好的超网络是困难的，因为搜索空间通常非常庞大（例如1321）。为了增强超网络的评估能力，一种贪婪策略是采样好的路径，让超网络倾向于好的路径，从而减轻其评估负担。然而，在实践中，搜索仍然可能非常低效，因为好的路径的识别不够准确，采样的路径仍然散布在整个搜索空间。在本文中，我们利用一个显式的路径过滤器来捕捉路径的特征，并直接过滤掉那些弱的路径，从而使搜索可以更贪婪和高效地在缩小的空间上实现。具体而言，基于好的路径远少于弱路径的事实，我们认为“弱路径”的标签在多路径采样中将比“好路径”的标签更加自信和可靠。因此，我们将路径过滤器的训练转化为正样本和无标签（PU）学习范式，并鼓励路径嵌入作为更好的路径/操作表示来增强学习过滤器的识别能力。借助这种嵌入，我们可以通过聚合具有相似嵌入的相似操作来进一步缩小搜索空间，从而使搜索更加高效和准确。大量实验证实了所提出的方法GreedyNASv2的有效性。例如，我们获得的GreedyNASv2-L在ImageNet数据集上达到了81.1%的Top-1准确率，明显优于ResNet-50强基线。01. 引言0神经架构搜索（NAS）旨在通过在给定空间中寻找最佳架构来提高深度学习的性能，并取得了显著的改进。0*通讯作者：Shan You 。0规模0规模0图1.不同规模搜索空间的搜索架构的性能。左图：GreedyNASv2和基线模型的重新训练准确率。右图：在超网络上搜索模型的验证准确率。0应用视觉领域的改进，例如图像分类[11, 26, 28, 32,34]和目标检测[2, 10]。一次性NAS[11, 15, 23-25, 33,34]在NAS文献中脱颖而出，因为它具有良好的搜索效率。一次性NAS不是通过耗费大量时间训练每个可能的架构来进行搜索，而是通过一次试验来完成搜索，其中一个超网络被用来表示所有候选架构（即路径）。每个路径可以通过超网络中相应的权重进行参数化，然后进行训练、评估和排序。由于可行的单路径内存消耗和对大规模数据集友好，通常采用典型的均匀采样（SPOS）[11]来训练超网络。0NAS中的架构搜索空间可能非常庞大（例如1321）。平等对待不同的路径并从超网络中均匀采样它们可能导致超网络的不适当训练，因为弱路径会干扰高度共享的权重。因此，提出了各种采样策略来解决这个问题，例如公平采样[3]和蒙特卡洛树搜索[23]。我们特别关注GreedyNAS[34]的多路径采样与拒绝策略，该策略从弱路径中识别出好的路径，然后只贪婪地选择它们。1119030架构0操作嵌入0L0LSTM0L×N0N0FC0预测分数0FC0ReLU0N0路径过滤器0采样0阈值0过滤0评估0排序0训练0优化0最后k个0好路径弱路径0图2.左：我们路径过滤器的架构。右：GreedyNASv2中超网训练的图示。在GreedyNASv2中，我们采用路径过滤器从均匀采样的路径中过滤出弱路径，然后使用剩下的潜在好路径进行优化。路径过滤器使用验证集和未标记路径识别出的弱路径进行训练。0ily更新那些好的路径；它易于实现，更适用于这些方法中的大搜索空间。GreedyNAS需要在整个搜索空间上工作，只需安全地分配一定数量的好路径（例如，只有10个中的5个）以确保采样路径的高概率是好的。但是，如果搜索空间随着操作选择的增加而变得更大，搜索将变得不可行和有限。此外，GreedyNAS需要维护一个候选池来回收路径，这限制了存储路径的数量，可能会错过许多精英路径。在本文中，我们提出了GreedyNASv2，为一次性NAS提供了具有显式搜索空间缩小的多路径采样器，该采样器针对一个更贪婪的搜索空间，其中只有很小的一部分路径（例如，仅1%）被视为“好路径”。由于好路径通常比弱路径少得多，通过多路径采样器挑选出好路径的概率可能小于采样弱路径的概率。如果可以自信地捕捉到弱路径，我们可以轻松地将它们从搜索空间中筛选出来，并在缩小的空间上执行更贪婪的搜索。通过这样做，超网只需要专注于评估那些不太差的路径（潜在好路径），这有利于整体的搜索性能和效率。关键是学习一种路径过滤器，以从整个架构搜索空间中识别出那些弱路径。虽然很难找到好路径，但我们可以对多路径采样中的弱路径有很高的信心。这些被确定为弱路径的带有置信度的路径可以被视为要丢弃的正例。作为预防措施，搜索空间中的剩余路径被视为未标记的例子，因为它们可能包含弱路径（要丢弃的正例）和好路径（不要丢弃的负例）。因此，这个路径过滤器的学习可以被形式化为正-未标记（PU）学习问题[9,17]。一旦路径过滤器训练好了，给定一个新的路径可以被高效地预测为0指定它是弱路径还是不是弱路径。还学习了路径嵌入，将路径编码为更好的路径表示。由于路径嵌入是在弱/好的意义上学习的，如果两个操作具有相似的嵌入，这意味着两个操作对于区分路径具有相似或甚至相同的影响，因此它们可以合并。这使得操作的贪婪缩小成为可能，这有望与路径缩小一起提高搜索性能和效率。我们在ImageNet数据集上进行了大量实验证实了我们提出的GreedyNASv2的有效性。与基线方法SPOS和GreedyNAS相比，我们提出的方法在更少的搜索成本下实现了更好的性能。为了进一步研究我们的优势，我们甚至在一个更大的空间上进行搜索，该空间与常用的MobileNetV2-SE搜索空间相比，架构数量增加了�10^4倍，结果显示我们搜索到的模型优于最先进的NAS模型。不同规模的搜索空间上的性能如图1所示。此外，我们还比较了在最近的基准NAS-Bench-Macro[23]上进行一次性NAS的搜索性能。消融研究表明，我们的GreedyNASv2比均匀采样和GreedyNAS中的多路径采样器有效地采样出更好的架构。02. 相关工作02.1. 具有搜索空间收缩的NAS0路径级收缩。为了在搜索空间上进行路径级收缩，GreedyNAS [34]提出了一个候选池，用于存储那些经过评估的好路径，并使用一种探索-开发策略从中进行采样。MCT-NAS [23]提出了使用蒙特卡洛树搜索的指导来采样架构；因此，可以更好地平衡探索和开发，采样出好路径。然而，GreedyNAS中候选池的大小（例如，1000）过于激进，无法训练精英路径。good (k = 5)good (k = 3)good (k = 1)00.20.40.60.81.000.20.40.60.81.0weak (k = 5)weak (k = 3)weak (k = 1)00.20.40.60.81.000.20.40.60.81.0119040足够多样性，指数级增长的蒙特卡洛树使得MCT-NAS难以扩展到更大的搜索空间。操作级收缩。操作级收缩也是减少训练参数和搜索空间大小的有效方法。一些方法[14,22]设计了重要性度量来识别好的操作并丢弃弱的操作。例如，ABS[14]使用训练权重和初始化权重之间的角度来衡量每个操作的重要性；BS-NAS[22]提出了一种基于通道级重要性度量的方法，通过在验证数据集上测量多个架构来实现。然而，这些方法只考虑操作级统计，而对于每个特定的架构，操作的偏好可能不同。另一方面，NSENet[4]提出在每个操作之后使用附加的可学习指标来学习重要性，这些指标是通过模拟二进制选择的架构的梯度来学习的。然而，这种梯度的模拟引入了近似误差，并增加了内存消耗。在本文中，我们使用路径过滤器同时进行路径级和操作级收缩。路径过滤器由二进制分类器构建，可以高效地过滤弱路径，并且对整个搜索空间具有很好的泛化能力；因此，我们可以更贪婪地过滤弱路径。此外，我们可以通过测量路径过滤器中学习到的操作嵌入来执行操作级收缩，而无需额外的成本。这种操作合并策略自然成立，因为具有相似嵌入的操作将具有相似的预测结果和性能。02.2. 正无标签学习0正无标签（PU）分类是仅使用正样本和无标签数据训练二元分类器的问题[9, 17]。许多有效的方法[1, 8,16]被提出来在PU学习中训练一个好的二元分类器。具体而言，uPU[8]将分类风险重写为正样本和无标签样本的分布，并获得了一个无偏的风险估计器，而不需要负样本。为了克服uPU中的过拟合问题，nnPU[16]提出了一个非负风险估计器。最近的方法VPU[1]提出了一种PU学习的变分原理，而不涉及类先验估计或任何其他中间估计问题。在本文中，我们实现了VPU来学习我们的路径过滤器。03. 重新审视多路径采样器0在单路径一次性NAS [11, 23,34]中，搜索空间被视为一个过参数化的超网络N，在该超网络中，搜索层按顺序堆叠，每个层需要从候选操作中选择一个操作。假设超网络有L层和N个候选操作O={oi}，�i=1,2,...,N，则每个架构可以用一个大小为L的元组表示，即a=(o(1), o(2), ...,o(L))，其中o(j)∈O，�j=1,2,...,L。因此，搜索空间A的大小为|A|=NL。使用预定义的超网络，NAS过程分为两个阶段：超网络训练和搜索。在训练过程中，通过交替采样路径和更新其相应的权重来优化超网络。然后，可以通过在保留验证集上的准确性最高的路径来确定最优路径。尽管超网络与所有架构共享权重，但它仍然比普通路径具有�N×参数。例如，基准MobileNetV2-SE搜索空间的超网络有13个操作和46M个参数，而一个路径只有�5M个参数。由于超大的超网络，很难同时优化所有架构并准确评估它们。因此，与均匀采样路径[11]不同，GreedyNAS[34]提出了一种多路径采样与拒绝的方法，贪婪地采样那些潜在的好路径；因此，可以提高训练效率和性能。0P Q0p p0图3.采样至少k个好（弱）路径中的置信度P(Q)，路径总数为m=10，好路径比例为p。0架构可以通过大小为L的元组表示，即a=(o(1), o(2), ...,o(L))，其中o(j)∈O，�j=1,2,...,L。因此，搜索空间A的大小为|A|=NL。使用预定义的超网络，NAS过程分为两个阶段：超网络训练和搜索。在训练过程中，通过交替采样路径和更新其相应的权重来优化超网络。然后，可以通过在保留验证集上的准确性最高的路径来确定最优路径。尽管超网络与所有架构共享权重，但它仍然比普通路径具有�N×参数。例如，基准MobileNetV2-SE搜索空间的超网络有13个操作和46M个参数，而一个路径只有�5M个参数。由于超大的超网络，很难同时优化所有架构并准确评估它们。因此，与均匀采样路径[11]不同，GreedyNAS[34]提出了一种多路径采样与拒绝的方法，贪婪地采样那些潜在的好路径；因此，可以提高训练效率和性能。03.1. 令人沮丧的采样好路径0在多路径采样器中，一次采样 m条路径，然后通过一个小的验证集对其进行评估和排序。根据下面的定理 1，我们可以将前 k条路径安全地视为好路径，并通过仅更新这些 k条路径来贪婪地训练超网。0定理 1（多路径采样[34]）。如果从 A 中均匀独立地采样 m条路径，并且搜索空间中好路径的比例为 p，则至少有 k（k≤ m）条路径是好路径，且置信度为0P :=0j = k C_j^m * p^j * (1 - p)^(m - j)。(1)0为了确保采样到好路径的高置信度 P，GreedyNAS只需假设好路径的比例中等（即较大的p）。例如，当我们从采样到的 m 条路径中保留 k = 5条作为好路径时，P 可以达到 83.38%。0.610.75-0.120.920.560.980.620.78-0.310.524.1. Learning path filter as PU predictionHere we want to learn a path filter with the identifiedweak paths (positive examples) and remaining paths (un-labeled examples). Formally, let us first consider a binaryclassification problem where the architectures a ∈ A andclass labels y ∈ {−1, +1} are distributed according to ajoint distribution D(a, y), and the paths with positive la-bel +1 denote weak paths to be discarded.In Greedy-NASv2, we have positive dataset P = {a1, ..., aM} andunlabeled dataset U = {aM+1, ..., aN} sampled from thesearch space. The learning of path filter is thus cast as a Pos-itive and Unlabeled (PU) learning problem, where a binarypredictor Φ is learned based on P and U so that the classlabels of unseen architectures can be accurately predicted.As an introduction of PU learning, we first investigatethe expected risk (classification loss) on the whole datasetof the commonly supervised learning (PN learning) asR(Φ) = πPEP[l+(Φ(a))] + (1 − πP)EN [l−(Φ(a))], (2)where πP = P(y = +1) denotes the class prior of positivedata, N refers to negative dataset, and l+ and l− denoteclassification losses withEP[l+(Φ(a))] =1|P|�a∈Pl(Φ(a), +1),EN [l−(Φ(a))] =1|N|�a∈Nl(Φ(a), −1),(3)which are the expectations of l+(Φ(a)) on the positivedataset P and l−(Φ(a)) on the negative dataset N.119050操作对0余弦相似度0路径过滤器嵌入0动作合并0缩小0<< << << << FLOPs0保留的操作合并0图 4. 所提出的操作缩小方法的概述。我们使用学习到的操作嵌入评估每一层中操作对的余弦相似度。然后，我们将相似的操作对合并为一个具有较小FLOPs 的操作。0然而，这还不够。由于我们的目标是最优架构，候选的精英路径应该远少于弱路径，这意味着 p � 0.5自然成立，因此我们可以得到一个实际上缩小的空间来提升搜索效果。令人沮丧的是，置信度会相应下降；例如，当 p= 0.1 时，先前的置信度 P 只有 0.16%。尽管Greedy-NAS利用候选池来回收路径，但由于它严重依赖于存储路径的有限数量（例如 1000 条），很多精英路径可能会被错过。03.2. 用弱路径改变局势0在更贪婪的空间中，采样好路径效果不佳，因为置信度会因为失败而崩溃。相比之下，由于好先验概率 p较低，搜索空间将充斥着弱路径，并且采样到弱路径的概率q := 1 - p 因此很大。类似地，根据定理1，在多路径采样中，采样到的弱路径的置信度会更大，表示为 Q := Σ C_j^m * q^j * (1 - q)^(m - j)。例如，当 q =0.9（p = 0.1）时，采样到至少 5条弱路径中的概率很高（Q =99.99%）。更多细节请参见图3。现在情况已经逆转。如果我们能够以高置信度采样到弱路径，我们可以轻松地将它们从整个搜索空间中排除，并在缩小的空间上实施更贪婪的搜索，从而提高搜索性能。那么问题就是：我们如何利用采样到的弱路径来识别由好路径组成的缩小空间？直观地说，我们鼓励学习一种路径过滤器来编码采样到的弱路径的特征，并确定给定新路径的标签。然而，在多路径采样过程中，我们只对弱路径有置信度，我们仍然可以学习一个具有区分性的路径过滤器作为一个良好的二分类器来预测路径的标签吗？答案是肯定的；在接下来的内容中，我们将将学习过程视为一个典型的正例与无标签（PU）问题。04. 带有路径过滤器的更贪婪采样0经过多路径采样，我们现在有了自信的弱路径；然而，剩下的路径很难确定它们是弱路径还是好路径，因为相应的置信度会很低。为了预防起见，我们将剩下的路径（连同未采样的路径）视为未标记的示例，因为它们可能包含弱路径和好路径。Nevertheless, the negative dataset N is unavailable inour PU learning setting.To train the model with pos-itive and unlabeled data, the classical method uPU [8]encourages an unbiased formulation to the PN learningby rewriting the expectation of negative classification lossEN [l−(Φ(a))] to(1−πP)EN [l−(Φ(a))] = EU[l−(Φ(a))]−πPEP[l−(Φ(a))],(4)and thus Eq.(2) can be adapted toR(Φ) = πPEP[l+(Φ(a)) − l−(Φ(a))] + EU[l−(Φ(a))],(5)However, such a method easily leads to severe over-fitting, especially on deep neural classifiers. In our paper,to alleviate the above weakness, we leverage the learningobjective in VPU [1], which proposes a variational loss toapproximate the ideal classifier through an upper-bound ofEq.(2), i.e.,R(Φ) = logEU[Φ(a)] − EP[logΦ(a)](6)where mini-batches BU and BP are sampled from U and Pwith size B. By minimizing Eq.(6), we can obtain an effec-tive binary classifier to distinguish good and weak paths.Train path filter with multi-path sampling. We firstconstruct a neural network as our path filter (binary clas-sifier), which will be trained using PU learning. For thenetwork structure, we follow a simple Embedding-RNNpipeline as the previous work [35]. Concretely, as illustratedin Figure 2 left, we use randomly initialized embeddingsE ∈ RL×N×H to represent operations in the search space,where L, N, and H are numbers of layers, candidate op-erations, and hidden dimensions, respectively, hence eachoperation in each layer is associated with an independentembedding. For example, the embedding of j-th operationo(i)jin layer i can be represented as Ei,j . For an input archi-tecture a = (o(1), o(2), ..., o(L)), the predictor first encodesit through operation embedding E to get the hidden statesA of the selected operations, where A ∈ RL×H. Then weuse a bi-directional LSTM to get the feature fa ∈ RH of thearchitecture. Finally, the architecture feature fa is fed intoa binary classifier (two-layer perceptions with intermediateReLU activation) to obtain the prediction.Following the multi-path sampling strategy in Greedy-NAS, each time we train the path filter, we randomly sam-ple m paths and evaluate them using the loss on a smallvalidation set, which contains 1000 images sampled fromthe validation set. We sort those sampled paths with theirlosses in ascending order, and label the last p percentageof paths as “weak paths” to build the positive dataset P,while the unlabeled dataset U is constructed by uniformlysampling 10 × p × m paths from the search space. Withthe learning objective in Eq.(6), we train the path filter with119060算法1 使用贪婪路径过滤器训练超网。0输入：超网N，路径过滤器P，最大训练迭代次数N，训练数据集Dtr，小验证数据集Dval，预测器更新间隔t，评估路径数m，弱路径先验q，合并操作阈值η。01: 对于i = 1, ..., N循环执行2: ai�U(N)；� 均匀采样一个路径03: 当is weak arch(P, ai)时执行04: ai�U(N)；05: 结束循环06: 训练(N, ai, Dtr)；� 进行一次迭代训练07: 如果i % t = 0，则执行08: 采样m个路径 A = {aj}mj=1，其中aj�U(N)；09: s = {evaluate(N, aj, Dval)}mj=1；010: 弱路径 = last(s, q)；� 获取最后q个百分位数的路径011: 使用A weak训练预测器P；012: 根据第4.2节合并操作013: 结束循环014: 结束循环0在超网的训练中，每隔t个周期对路径过滤器P和U进行更新，以确保其准确性。一旦训练好路径过滤器，就可以用它来预测一批均匀采样的路径，并过滤掉具有正标签的路径，剩下的路径被视为潜在好的路径并用于优化。0通过路径预测的停止准则。在训练中，如果超网训练得很好，路径的排名趋于稳定；因此，GreedyNAS通过测量候选池的稳定性提出了一个早停准则。我们现在提出了一种更准确的方法，即使用学习的路径过滤器预测更多的路径，即0u :=0�0ai∈Ar 1 Φt(0M > β，(7)0其中Ar是M个随机采样路径的集合，Φt表示第t次迭代时学习的路径过滤器，u衡量了最后两个路径过滤器中相同预测的比例，如果u >β，则认为超网已经训练足够，并相应地停止训练。我们在实验中设置N = 10^4和β = 0.9。0带路径过滤器的进化搜索。我们采用进化算法（EA）NSGA-II [6]来搜索架构。与SPOS[11]随机生成架构和GreedyNAS[34]只指定初始种群不同，我们使用学习的路径过滤器在整个搜索过程中过滤EA生成的弱架构，从而使搜索更加高效。Sc(x, y) =x · y∥x∥ · ∥y∥ =�ni=1 xiyini=1 x2ini=1 y2i.(8)119070表1. 我们搜索空间的总结。详细信息请参见补充材料。0搜索空间大小 #层数 #操作操作0MB-SE 13 21 ≈ 2 × 10^23 21 13 {MB3, MB6} × {K3, K5, K7, K3 SE, K5 SE, K7 SE} + {ID}0MB-SE+MixConv 17 21 ≈ 7 × 10 25 21 17 MB-SE ∪ {MB3 MIX，MB6 MIX，MB3 MIX SE，MB6 MIX SE}0MB-SE+MixConv+Shuffle 21 21 ≈ 6 × 10^27 21 21 MB-SE+MixConv ∪ {Shuffle 3, Shuffle 5, Shuffle 7, Shuffle x}0Res-50-SE 19 16 ≈ 3 × 10 20 16 19 {ResNet，ResNeXt} × {K3，K5，K7} × {0.5×，1×，1.5×} + {ID}04.2. 使用学习的嵌入缩小操作0PU预测器使用学习的操作嵌入来区分路径的好坏。如果层i中两个操作o(i)a和o(i)b的嵌入完全相同，那么对于所有的架构来说，将o(i)a替换为o(i)b不会影响分类结果，反之亦然。因此，如果两个操作的作用相似，我们可以贪婪地合并它们，并保留代价较低的一个（例如，FLOPs较小的一个）。余弦相似度是一种常用的衡量两个向量相似度的指标。给定两个向量x和y，它们的余弦相似度Sc(x, y)表示为0每次训练完预测器后，我们会测量每层中不同操作之间的余弦相似度。如果两个操作之间的相似度小于预定义的阈值sthrd，则将这两个操作合并为一个操作，保留FLOPs较小的一个并移除另一个。形式上，对于层i中的操作{o(i)1, o(i)2,...,o(i)N}，它有C2N个配对组合，我们使用学习到的嵌入计算它们之间的余弦相似度，即S(i)j,k = Sc(Ei,j, Ei,k)。0对于任意层i ≤ L和操作对o(i)j和o(i)k（j < k ≤N），当它们满足S(i)j,k >sthrd时，我们将它们合并为FLOPs较少的那个操作。合并后，被移除的操作将不会在训练和搜索中被采样，从而减少超网的训练参数。我们在实验中将sthrd设置为0.8。我们的操作缩减方法可以显著减少搜索空间，而无需额外的评估步骤。它可以与路径级缩减自然地结合，进行更贪婪的搜索。超网训练的整体策略总结在算法1中。05. 实验05.1. 实验设置0搜索空间。如表1所总结的，与基线方法[23,34]进行比较，我们首先在0表2.在不同规模的搜索空间上与基线方法的比较。搜索空间small、medium和large分别表示表1中的MB-SE、MB-SE+MixConv和MB-SE+MixConv+Shuffle。0方法 ACC（%）超网上的ACC（%）0小中大小中大0SPOS [11] 76.8 76.6 75.5 56.5 48.2 33.4 GreedyNAS [34] 77.176.8 76.5 57.6 49.3 35.1 GreedyNASv2 77.3 77.4 77.5 58.1 55.543.80MobileNetV2-SE搜索空间，包括Identity、MobileNetV2块[21]和可选的SE模块[13]。为了验证我们在更大的搜索空间上的优越性，我们使用MixConv[29]块扩展了搜索空间，即MobileNetV2-SE+MixConv。此外，我们还建立了一个非常大的搜索空间MobileNetV2-SE+MixConv+Shuffle，在SPOS[11]之后添加了4个ShuffleNetV2块[19]。为了验证我们的方法在更大的网络上的有效性，我们还引入了一个类似ResNet的搜索空间，其中包括ResNet[12]、ResNeXt[31]和SENet[13]中的块。详细信息请参见补充材料。超网。我们从ILSVRC-2012[7]训练集中随机抽取了50k张图像来构建我们的验证集，剩下的图像用作训练集。我们使用SGD优化器和总批量大小为1024来训练超网，采用余弦学习率，在120个epoch内衰减，初始学习率为0.12。在训练的前20个epoch中，我们均匀采样架构进行预热，然后每5个epoch训练一次路径过滤器并使用它来采样架构。弱路径先验q在90个epoch内从0.5增加到0.99。路径过滤器。路径过滤器由一个128维的嵌入层、一个双向LSTM和两个带有中间ReLU激活的全连接层构成，所有隐藏维度都设置为128。我们在超网训练的每5个epoch之后训练路径过滤器3000次迭代，采用批量大小为1024的Adam优化器和权重衰减为5×10-3，学习率设置为10-3。搜索。我们使用学习到的路径过滤器来帮助进化算法NSGA-II[6]搜索架构。搜索次数设置为500。重新训练。在重新训练中，我们使用官方的ILSVRC-2012[7]训练集，并在原始验证集上报告准确率。按照[23,34]的方法，我们训练搜索到的移动ResNet search space119080表3. 与最先进的NAS方法和手工模型的搜索架构的比较。训练时的训练时期和搜索次数是超参数。我们使用8个NVIDIA V100GPU测量超网的训练成本。*: 使用与GreedyNASv2-L相同的策略进行训练。0方法 Top-1 Top-5 FLOPs 参数训练训练成本搜索0(%) (%) (M) (M) 时期 (GPU天) 次数0移动搜索空间0MobileNetV2 [21] 72.0 91.0 300 3.4 - - - EfficientNet-B0 [28] 76.3 93.2 390 5.3 - - - SPOS [11] 74.7 - 328 3.4 120 12 1000MCT-NAS-B [23] 76.9 93.4 327 6.3 120 12 100 K-shot-NAS-B [27] 77.2 93.3 332 6.2 120 12 1000 NSENet [4] 77.3 - 333 7.6 100166.7 2100 GreedyNAS-B [34] 76.8 93.0 324 5.2 46 7 1000 GreedyNASv2-S 77.5 93.5 324 5.7 65 7 5000ResNeXt-50 [31] 77.8 - 4230 25.0 - - - RegNetX-4.0GF [20] 78.6 - 3964 22.1 - - - ResNet-50 � [12] 78.8 94.6 4089 25.6 - - -SE-ResNeXt-50 [13] 78.9 94.5 4233 27.6 - - - SKNet-50 [18] 79.2 - 4470 27.5 - - - SE-ResNet-50 � [13] 80.5 94.8 4094 30.6 - -GreedyNASv2-L 81.1 95.4 4098 26.9 57 9 5000ResNet搜索空间05.2. ImageNet上的结果0与NAS方法的比较。我们首先将我们的GreedyNASv2与基线方法SPOS[11]和GreedyNAS[34]在MB-SE、MB-SE+MixConv和MB-SE+MixConv+Shuffle搜索空间上进行比较，基于我们的实现。我们使用330 MFLOPs的约束条件，并在表2中报告了搜索到的架构在重新训练和超网上的评估准确性。我们可以看到，在所有大小的搜索空间上，我们的GreedyNASv2可以获得比其他两种方法更高的准确性。此外，SPOS在中等和大型空间上的性能显著下降，表明SPOS很难在如此庞大的空间上训练出有希望的超网。而我们的GreedyNASv2获得了类似的性能，甚至在大型空间上取得了最佳性能。我们将在MB-SE+MixConv+Shuffle搜索空间中获得的模型GreedyNASv2-S与最先进的NAS方法进行了比较，结果见表3。搜索更大的网络。为了评估我们的通用架构，我们使用RMSProp优化器，在每个8个GPU上使用批量大小96进行训练，采用步长学习率调度器，预热3个时期，然后每2.4个时期衰减0.97，初始值为0.048。而对于类似ResNet的模型，我们使用SGD优化器进行训练，权重衰减为10^-4，批量大小为1536，初始学习率设置为0.6，通过余弦调度器在240个时期内衰减。我们使用Autoaugment[5]、随机裁剪和裁剪的数据增强流程。我们使用224×224的训练和测试图像尺寸。此外，还采用了权重的指数移动平均，衰减为0.9999。0化，我们在一个类似ResNet的搜索空间Res-50-SE上进行搜索。如表3所示，我们的GreedyNASv2相比基线的ResNet、ResNeXt和SENet模型取得了显著的改进。值得注意的是，我们使用简单的SGD优化器和额外的Autoaugment[5]数据流程来训练我们的GreedyNASv2-L。然而，它的性能仍然优于TIMM[30]中更复杂的优化和强大的数据增强训练策略，TIMM在ResNet-50上达到了80.4%的准确率。05.3. NAS-Bench-Macro上的结果0MCT-NAS[23]提出了一个名为NAS-Bench-Macro的NAS基准，用于单路径一次性NAS方法，包括6561个架构及其在CIFAR-10数据集上的独立评估结果。我们利用这个基准来验证GreedyNASv2的有效性。使用真实训练数据的路径过滤器性能。为了验证我们的PU学习方法的纯性能，我们进行了实验，使用基准中的真实标签训练路径过滤器。具体而言，我们根据它们的评估准确性将架构分为10%的好路径和90%的弱路径，然后将1%、10%、50%和100

下载后可阅读完整内容，剩余1页未读，立即下载