后验收敛神经结构搜索

134 浏览量更新于2023-10-25 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13836通过抑制后验衰落李翔就读于布朗大学李翔1@brown.edu陈琳，李楚明，孙明，吴伟，严俊杰商汤集团有限公司{linchen，lichuming，sunming1，wuwei，yanjunjie}@sensetime.com欧阳万里悉尼大学wanli.欧阳@ sydney.edu.au摘要神经结构搜索（NAS）在自动设计有效的神经网络结构方面取得了很大的成功。为了提高NAS的效率，以前的方法采用权重共享的方法，迫使所有的模型共享相同的权重集。然而，已经观察到，使用共享权重表现更好的模型在单独训练时不一定表现更好。在本文中，我们分析了现有的权重共享单次NAS方法从贝叶斯的角度来看，并确定后验衰落的问题，这妥协的承诺共享权重的有效性。为了缓解这个问题，我们提出了一种新的方法来引导参数后验向其真实分布。此外，在搜索期间引入硬延迟约束，使得可以实现期望的延迟。由此产生的方法，即后验收敛NAS（PC-NAS），在ImageNet上的标准GPU延迟约束下实现了最先进的性能。1. 介绍神经网络的设计需要人类专家进行大量的实验。近年来，人们对开发算法NAS解决方案以自动化架构设计的手动过程越来越感兴趣[39，16，18]。尽管取得了显著的成果[21，38]，但由于计算成本过高，NAS[28，12]的早期工作仅限于使用代理或子采样数据集进行搜索。为了克服这个困难，[3，27]试图通过在模型之间共享权重来提高搜索效率。这些方法利用包含每个单个模型的过参数化网络（超图），其可以进一步分为两类。*同等贡献第一类是连续松弛方法[23，6]，它保留一组所谓的结构参数来表示模型，并使用超图权重交替更新这些参数。在收敛时使用架构参数获得所得到的模型。连续松弛方法存在富-更富问题[1]，这意味着在早期阶段表现更好的模型将被更频繁地训练（或具有更大的学习率）。这就给搜索过程带来了偏差和不稳定性.另一类被称为一次性方法[5，13，3，9]，其将NAS过程分为训练阶段和搜索阶段。在训练阶段，优化超级图，同时以一定的概率丢弃每个操作符或在候选架构之间均匀采样。在搜索阶段，应用搜索算法来找到具有共享权重的最高验证精度的架构one-shot算法通过对模型结构进行采样或均匀丢弃算子来保证模型间的公平性。然而，如[1，9，3]中所述，一次性方法的问题是具有共享权重的模型的验证精度不能预测其真实性能。在本文中，我们将NAS表述为贝叶斯模型选择问题[8]。这一提法特别有助于从理论上理解一次性方法，从而为我们从根本上解决一次性方法的主要问题之一提供指导特别地，我们证明了共享权实际上是代理分布对真实参数分布的极大似然估计。最重要的是，我们确定了权重共享的共同问题，我们称之为后衰落，即，随着超图中模型数量的增加，真实参数后验和代理后验之间的KL-发散也增加。为了缓解后验衰落问题，我们提出了一种实用的方法来指导代理13837Mm后验分布的真实参数。具体地说，我们将超图的训练分为若干个区间，并维护一个高潜力的部分模型池，并在每个区间后逐步更新这个池。在每个训练步骤中，从池中采样部分模型并补充到完整模型，其中完整模型意味着具有由搜索提供的全部层数的架构。为了更新部分模型池，我们首先通过扩展每个部分模型来生成候选模型并评估它们的潜力。他们中的佼佼者组成了新的游泳池。搜索空间有效地缩小在即将到来的训练间隔。因此，在该过程中，参数后验更接近期望的真实后验我们工作的主要贡献总结如下：• 我们第一次从理论的角度分析了一次拍摄的方法，并确定了这种方法的真正问题，我们称之为后验衰落。这这一视角将为进一步的研究提供启示• 在贝叶斯结果的指导下，我们引入了一种新的NAS算法，它引导代理分布收敛向真实参数后移。• 我们将我们的方法一个强大的体系结构PC-NAS被发现。在一个典型的搜索空间[6]中，我们的PC-NAS-S达到76。8%的top-1准确率，0. 比EfficientNet-B 0高5%，快20%[33]，这是移动环境中当前最先进的模型。为了进一步证明我们的方法的优势，我们在更大的空间上进行了测试，我们的PC-NAS-L将准确率提高到78。百分之一。2. 相关工作早期的神经结构搜索（NAS）[24，22，29，39，2，35]方法通常涉及强化学习或神经进化。这种类型的NAS通常被视为基于代理的探索和利用过程，其中代理（例如，进化机制或递归神经网络（RNN））被引入以探索给定的架构空间，其中在内环中训练网络以获得用于指导探索的评估。这样的方法在计算上是昂贵的，并且难以用于大规模数据集，例如。ImageNet.最近的工作[27，4，23，6]试图通过将NAS建模为包括所有候选模型的过参数化网络的单个训练过程来减轻这种计算成本，其中不同模型中相同运算符的权重ENAS [27]减少了计算量并侧重于小规模数据集（例如，CIFAR10）。One-shotNAS [5]训练过参数化网络，同时以增加的概率丢弃每个操作符。然后，它使用预训练的过参数化网络来评估随机采样的架构。DARTS [23]还为每个算子引入了一个实值架构参数，并通过反向传播交替训练算子权重和架构参数。Proxy- lessNAS [6]将DARTS中的实值参数二进制化，以节省GPU计算和内存，用于训练过参数化网络。SNAS [37]采用Gumbel随机变量直接优化NAS目标。[11]在搜索空间上开发了一个可微分采样器，以实现令人印象深刻的速度。ProxylessNAS [6]和DARTS [23]的范例引入了不可避免的偏差，因为在开始时表现良好的模型的操作员将很容易得到更多的训练，并且通常保持比其他操作员更好。但他们不一定比其他人从零开始训练。其他相关工作是ASAP [26]和XNAS [25]，它们在过参数化网络的训练期间引入修剪以提高NAS的效率。与这些方法类似，我们从一个过度参数化的网络开始，然后减少搜索空间以获得优化的架构。我们不再关注训练的提速，而是进一步提高直接在验证集上建模和评估运算符3. 方法在本节中，我们首先以贝叶斯方式制定神经架构搜索。在此基础上，介绍了PC-NAS算法，并分析了其相对于以往算法的优势。最后，我们讨论了结合延迟约束的搜索算法。3.1. 模型不确定性的概率设置模型比较的贝叶斯设置简单地涉及使用概率来表示模型选择中的不确定性假设我们想比较K个不同模型的集合M ={m1，...，mK}。这里，模型是指在观测数据D和p（D）上的概率分布|θk，mk）描述了给定模型mk及其相关参数θk的数据D的概率密度。贝叶斯方法通过分配先验概率分布p（θk）来进行|mk），以及每个模型的先验概率p（mk）。为了保证所有模型之间的公平性，我们将模型先验p（mk）设为均匀分布。根据以前设置，我们可以开车p（D|mk）p（mk）成本按数量级计算，而需要RNN代理p（mk|D）=0、（1）p（D| ）p（）kk k13838哪里p（D|mk）=∫p（D|θk，mk）p（θk|mk）dθk。（二）这些模型对应于以下目标函数的随机1Σ由于p（mk）是均匀的，mk的最大似然估计（MLE）恰好是（2）的最大值，L份额（θ，D）=KL单独（θ，mk，D）。（四）K表示数据显示的对不同模型可以推断，p（θk|mk）对通过在方程4的两侧取指数，等效于采用代理参数后验，如下所示：模型选择的解决方案。我们感兴趣的是以单独训练的方式获得具有最高测试精度的模型，因此参数先验只是后验低点：p份额（θ|D）=1Yp单独（θ|mk，D），（5）ZKp单独（θk|mk，D），这意味着当mk在数据集D上单独训练时θ k的分布。因此，我们将使用术语真参数后验来单独指代p（θk|mk，D）.-logp分享Σ（θ| D）= − log pK单独（θ|mk，D）+logZ，（六）3.2. 贝叶斯观点下的网络结构选择为了简单起见，我们将讨论限制在NAS文献中经常使用的设置中作为我们搜索空间的构建块，混合运算符（mixop），记为O ={O1. - 是的- 是的，ON}，包含N个不同的选择的候选算子Oi，i=1，. . . N平行。搜索空间由L个混合算子（lay-1）定义其中K和Z是归一化因子。值得注意的一点是，|mk，D）对于不同的k都是独立的，因为不同的模型具有不同的和独立的参数分布。则最大化p份额（θ|D）相当于最小化L份额。对于每一层，参数θl，o受所有剩余层的影响。通过我们的均匀模型采样的内在随机性，我们可以进一步假设，Yers）通过下采样顺序交织连接，如图1所示。第1（a）段。网络架构（模型）m是de-由向量[o1，o2，.，oL]，ol∈O表示p份额（θl，o|D）=p单独（θl，o|mk，D），（7）K层L的操作员的选择。在第l层的操作者o的参数表示为θlo。超图的参数用θ表示，θ包括{θ|l∈ {1，2，…L}，o∈O}. In this setting, the param-这基本上意味着参数θl，o的分布是最终由来自采样架构的所有边缘分布确定。仅p（θl，o）之间的KL-散度|mk，D）和lo每个候选算子的参数在多个候选算子之间共享。p股（θl，o|D) follows:架构。与特定模型.D p（θ..|m，D）..pΣ（θ |D）mk表示为θk=θ1，o1，θ2，o2，.，θL，oL，也就是超图θ的参数子集。获得KL单独∫l，o k..分享p洛，奥（θ|（m，D）p（θ |m，D）或每个模型的MLE是com-=p单独（θl，o|mk，D）单独logl ，okdθ单独K Kp份额（θl，o| D）难以处理的问题因此，一次性方法通过丢弃每个运算符来训练超图[5]，或者p单独（θl，o|mk，D）=p单独（θl，o|mk，D）log Qdθ采样不同的体系结构[3，9]，并利用共享的ip单独（θl，o|mi，D）评价单个模型的权重。在这项工作中，我们采用后者的训练范式，而前者可以很容易地推广。假设我们对模型mk进行采样，Σ=−pi/=k单独（θl，o|mk, D) logp单独（θl，o|mi, D)dθ.（八）使用小批量数据优化超图，目标函数L：- 单独log p（θ|mk，D）KL-散度是p单独的交叉熵（θl，o）的和|mk，D）和p单独（θl，o|mi，D）其中i k.交叉熵项总是正的。增加-单独使用L（θ，mk，D）单独的 − log p（D，θ|mk）− log p（mk）单独的− log p（D|θ，mk）− log p（θ|mk），∫13839（三）增加体系结构的数量将使p共享远离p单独，即后衰落。我们得出结论，非预测性问题自然源于一次性超图训练，因为KL发散随着搜索空间中的架构数量和典型搜索而其中−logp（θ|mk）可以看作是正则化term.因此，最小化该目标等于使MLE仅为p（θ|mk，D）.在训练超图时，我们对许多模型mk进行采样，然后训练参数，空间包含巨大的1021架构。因此，如果我们在训练期间有效地减少（8）中的架构的数量，则KL发散将减小。这就是我们的PC-NAS算法的直观性。13840图1.搜索空间（a）和PC-NAS过程（b）（c）（d）的一个示例每个混合算子由N个（图中=3）算子组成但是，对于每个批处理，每次只能调用每个mixop中的一个操作符在（b）中，池中的部分模型1和2由mixop 1和2中的选择组成我们将这两个部分模型扩展到mixop 3。6个扩展的候选模型在（c）中被评估和排序在（d）中，新池由（c）中排名的前2个候选模型组成。算法1潜力：评估部分候选者的潜力输入：G（supergraph），L（G中的mixops的数目），m′（部分候选），Lat（延迟约束），S（评价编号），Dval（验证数据集）分数=100对于i= 1：S做m=expand（m′）将m′随机扩展为满深度L如果Latency（m）>Lat，则继续倾倒不符合法律规定的样品-关联约束end ifacc = Acc（mval，Dval）一个批次的推断mval分数.追加（acc）保存精度端输出：平均值（分数）3.3. 后会聚NAS缓解后验衰落问题的简单方法然而，大量的候选人是必要的NAS发现有前途的模型。针对这一矛盾，本文提出了采用渐进式搜索空间收缩的PC-NAS由此产生的算法将共享权重的训练划分为L个区间，其中L是搜索空间中混合算子单个间隔的训练时期的数量表示为Ti。我们将分别解释我们方法的关键组成部分部分模型池是部分模型的集合。在第l个区间，单个部分模型应包含l − 1个选定运算符[o1，o2，.， ol-1]。部分模型池的大小表示为P。在第l个间隔之后，池中的每个部分模型将被N个操作器扩展。在第l个混合操作中的变量因此存在P×N个长度为l的候选扩展部分模型。这些候选人部分mod-e1被评估，并且其中的前P被用作区间l+1的部分模型库。部分模型池更新的说明性示例如图所示。1（b）（c）（d）。具有延迟约束的候选评估我们将部分模型的潜力定义为包含部分模型的模型的预期电位（o1，o2，...， ol）= Em∈{m|mi=oi，mi≤l}（Acc（m））.（九）其中，模型m的验证精度由Acc（m）表示。我们通过对有效模型进行均匀采样并计算其有效性的使用一个小批量的测量精度。我们使用S表示评估数，即样本模型的总数。我们观察到，当S足够大时，部分模型的势是相当稳定的，并且在候选者之间是有区别的。伪代码见算法1。通过在计算池中的部分模型的潜力时丢弃无效的完整模型来施加延迟约束与以前的软约束训练方法不同[6，36]，我们的PC-NAS将保证满足延迟约束。基于部分模型池的训练超图与部分模型池的训练13841有两个步骤。首先，对于来自池的部分模型，我们随机采样缺失的操作符{ol+1，ol+2，.，以将部分模型补充为完整模型。然后我们使用采样的全模型和小批量数据优化θ最初，部分模型池是空的。因此超图是由均匀采样的模型训练的，这与之前的单次训练阶段相同。经过初步培训后，对第一台混合机中的所有操作员进行评估。在第二训练阶段中，前P个算子形成部分模型池。然后，超图恢复训练，训练过程与上一段讨论的过程相同。受热身的启发，第一阶段比以下阶段设置更多的时期，记为Tw。整个PC-NAS过程在算法2.在收缩搜索空间中，区间l处的模型数量严格小于区间l-1。在最后的间隔，对于最终池中的每个架构，（8）中的交叉熵项的数量是P-1。因此，PC-NAS的后验参数将向真后验移动在这些间隔期间。算法2PC-NAS：后验收敛架构搜索输入：P（部分模型池的大小），G（超图），Oi（混合算子中的第i个算子），L（G中混合算子的数量），Tw（预热时期），Ti（部分模型池更新之间的间隔），Dtrain（训练集），Dvalue（validataion set），Lat（latencyconstraint）PartialModels =0预热（G，Dtrain，Tw）均匀采样模型从G和火车对于I= 0：（L·Ti−1）如果ImodTi == 0，ExtendedPartialModels=ifPartialModels == 0thenExtendedPartialModels.append（[Oi]）在第一个mixopend ifformin PartialModelsdoextendedPartialModels.append（Extend（m，O1），...，Extend（m，ON））端对于扩展部分模型中的m′，m′势 = 电位（m′， Dval，南纬）评估扩展部分模型端PartialModels = Top（ExtendedPartialModels，P）保P最优部分模型end ifTrain（PartialModels，Dtrain）训练一个epoch，使用部分型号端输出：部分模型4. 实验结果我们在ImageNet [30]上证明了我们的方法的有效性，ImageNet对于这项任务，我们专注于在一定的GPU延迟约束下具有高精度的模型。我们使用PC-NAS搜索模型，它会逐步更新部分模型池并训练共享权重。然后，我们选择池中潜力最大的模型，并报告其在从头开始训练后在测试集上的性能。最后，我们通过在两个任务上评估ImageNet上学习的模型的可移植性，即对象检测和人员重新识别。4.1. 培训详细信息数据集和延迟测量：作为一种常见的做法，我们从训练集中随机抽取50，000张图像，以在模型搜索期间形成验证集。我们在火车组中的剩余图像上进行PC-NAS原始验证集被用作测试集，以报告由我们的方法生成的模型的性能。延迟在Nvidia GTX 1080Ti上进行评估，批量大小设置为16，以充分利用GPU资源。搜索空间：我们使用两个搜索空间。我们将我们的小空间与最近最先进的NAS系统ProxylessNAS [6]、FBNet [36]和EfficientNet[33]为了公平比较。为了在更复杂的搜索空间中测试我们的PC-NAS方法，我们在小空间的混合算子中添加了3种算子来构建我们的这两个空间的详细情况见A.1。PC-NAS超参数：我们使用PC-NAS搜索在小空间和大空间中。为了平衡训练时间和性能，我们在两个实验中设置评估数S=900和部分模型池大小P=5消融研究的两个数值是在5.当更新超图中，我们采用动量为0.9的小批量nesterov SGD优化器，余弦学习率从0.1衰减到5e-4，批量大小为512，权重为1 e-4的L2正则化。设置预热时间Tw和收缩时间Ti分别为100和5，从而使超图的总训练持续100+20×5=200个epoch。搜索后，我们从前5个最终部分模型中选择最好的一个，并从抓痒.你知道与EfficientNet [33]和MixNet [34]类似，我们在每个操作符的末尾向我们的模型添加了挤压和激发（SE）层[15]。然而，考虑到挤压和激发是相对较新的，并且许多现有模型我们的PC-NAS型号在这两种情况下始终表现最佳。4.2. ImageNet结果表1显示了我们的模型在Ima-geNet上的性能。根据我们的设计，我们将目标延迟设置为10ms13842表1.PC-NAS模型空间params延迟top-1top-1（+SE）[31]第三十一话--5.6x10141021-721--1021102120216.9米10 ms百分之七十四点七-[28]第二十八话5.1百万 23毫秒百分之七十四点五-PNASNet [21]5.1百万25 ms百分之七十四点二-FBNet-C [36]5.5米-74.9%-MnasNet [32]4.4米11 ms74.8%76.1%ProxylessNAS-gpu [6]7.1百万8 ms百分之七十五点一-MixNet-S [34]4.1百万 13毫秒-百分之七十五点八[33]第三十三话5.3百万 13毫秒-百分之七十六点三随机搜索3.6M10 ms百分之七十五点五-PC-NAS-S5.1百万10 ms76.1%76.8%PC-NAS-L15.3百万11 ms百分之七十七点五百分之七十八点一在GPU上测量移动设置模型我们的搜索结果在小空间，即PC-NAS-S，达到76.8%的前1的准确率在我们的延迟约束，这是0。比EffcientNet-B 0高5%（在绝对精度提高方面），比MixNet-S高1%。如果我们稍微放宽时间限制，我们在大空间（PC-NAS-L）上的搜索结果达到78。1% top-1准确度，将top-1准确度提高1。8%，与EfficientNet-B 0相比，2. 与MixNet-S相比，3%。PC-NAS-S和PC-NAS-L都比之前的最先进型号EffcientNet-B 0和MixNet-S更快0.1%），如图所示。2.因此，我们在实验中选择了100次的热身训练，以节省计算资源。对于P和S的影响，我们将结果显示在图中。二、可以看出，通过PC-NAS发现的模型的前1精度随着P和S两者而增加因此在实验中我们选择P=5，S=900以获得更好的性能。当在我们的小空间中进一步增加这两个超参数时，我们没有观察到显著的改进。超参数的影响4.3. PC NAS的可移植性我们验证了我们的PC-NAS的对象检测的可移植性。我们使用COCO [20]数据集作为基准。对于数据集，使用ImageNet上预训练的PC-NAS-L作为特征提取器，并与相同训练脚本下的其他模型进行比较该实验使用两阶段框架FPN进行[19]。表2显示0.760.7550.7554321 56Tw=150Tw=100789我们的PC-NAS模型在COCO上的性能。我们的ap-池大小P评估编号S x100该方法大大超过MobileNetV2的mAP[31]以及ResNet50 [14]。与标准ResNet 101 [14]主干相比，我们的模型实现了几乎1/3参数和2. 3倍的速度。5. 消融研究在这一部分中，我们研究了超参数的影响，并讨论了我们的空间收缩技术和搜索方法的有效性。PC-NAS的准确性13843超参数的影响：我们在ImageNet上的小空间内研究了超参数对我们方法的影响。超参数包括预热、训练时期Tw、部分模型池大小P和评估数S。我们尝试将Tw设置为100和150，固定P = 5和S = 900。这两种设置的结果模型在top-1准确性方面没有显着差异（更少图2. Influence of warm-up epochs Tw, partial model pool sizeP和评价数S对结果模型的影响。缩小搜索空间的效果：单次方法的一个优点是可以利用超图的共享权来方便地预测各种体系结构的性能。然而，以前的模型[5，21]在对模型进行排名时并不令人满意。为了评估空间缩小可以减轻这种情况的程度，我们进行了如下第一次比较。最初，我们在小空间下从最终池的候选者中选择一堆模型，从头开始训练它们，并评估它们的独立top-1精度。然后我们使用One-Shot在小空间下训练超图而不收缩.最后，我们展示了PC-NAS和One-Shot的模型排名差异见图。3.皮尔逊相关系数13844表2. COCO的性能比较骨干params延迟Coco[31]第三十一话3.5米7 ms31.7 mAPResNet50 [14]25.5百万15 ms36.8 mAP[第14话]44.4百万26 Ms39.4 mAPProxylessNAS [6]6.3米11 ms38.7 mAPPC-NAS-L15.3百万11 ms38.5 mAPOne-Shot和PC-NAS的超图独立精度与超图精度的相关系数分别为0.11和0.92，因此PC-NAS空间收缩下的模型反复的实验表明了类似的现象。接下来，我们将探讨空间收缩如何影响我们的最终搜索结果。我们使用One-Shot [5]方法训练我们的大空间的超图，而不会缩小搜索空间。然后，我们进行模型搜索在这个超图逐步更新的部分模型池在我们的方法。使用此设置的结果模型达到77。ImageNet上的top-1准确率为1%，比我们的PC-NAS-L低1%。由于收缩需要100个额外的epoch，并且训练比评估更昂贵，因此自然会问这样一个问题，即是否可以用额外的模型（更大的P，更大的S）来代替空间收缩来补偿未收缩的空间。为了解决这个问题，我们将P或S的值加倍，结果列于表3中。没有空间收缩的PC-NAS 达到77.4%，77。2%，P或S较大。从这些结果中，我们可以得出结论，我们的搜索方法本身已经导致令人印象深刻的性能。P和S越大，最终结果越接近0。2%，但空间收缩策略改善了模型排名，并带来额外的0。7%-1%的精度提升。图3. One-Shot（左）和PC-NAS（右）的模型排名比较。我们的搜索方法的有效性：一般来说，我们的方法可以被归类为基于采样的NAS方法。我们的NAS工作原理：进化算法[7，10]和随机搜索[17]。人们普遍认为，EA方法优于随机搜索一致。因此，为了评估我们的搜索方法的性能，我们利用进化算法（EA）作为基线搜索模型在同一个超图训练与一次拍摄。我们实现了种群规模p=5的EA，在我们的方法中与池大小P的值对齐，并将变异操作设置为随机替换一个mixop算子中的算子我们将EA中验证图像的总数限制为与PC-NAS相同。已发现模型的top-1准确率降至75。9%的准确率，也就是2. 比PC-NAS-L低2%。当进一步将EA方法的群体规模扩大到20人时，准确率提高到76. 5%，但仍无法与我们的搜索策略相比。我们得出的结论是，性能差距来自于我们的采样方法的更好的效率。在PC-NAS方法中，每个体系结构都是分批评估的，其大小为512。然后计算平均精度以表示每个mixop的潜力。然而，在经典的EA方法中，整个验证集包含50000图像必须遍历评估一个单一的模型。这是没有效率的，尤其是当共享权重不是预测性的时，如图所示。3.因此，表3中总结的结果表明了我们的新检索方法的有效性。表3.不同一次性搜索方法的比较训练方法搜索方法top-1访问PC-NASPC-NAS百分之七十八点一单触发PC-NAS百分之七十七点一单触发PC-NAS（P=10）77.4%单触发PC-NAS（S=1800）百分之七十七点二单触发EA（p=5）75.9%单触发EA（p=20）76.5%6. 结论提出了一种新的体系结构搜索方法我们首次从贝叶斯的角度研究了传统的权重分配方法，并发现了一个影响权重分配有效性的关键问题。在理论上，设计了一种新的方法来缓解这个问题。经验-13845(a) PC-NAS-S规格(b) PC-NAS-L规格图4.PC-NAS-S和PC-NAS-L的体系结构心理结果表明，我们的方法可以自动找到显着更好的移动设置模型比现有的方法，并实现新的国家的最先进的结果。A. 附录A.1. 搜索空间的构建我们空间中的算子具有Conv 1x 1-ConvNxM-Conv1x 1或Conv 1x 1- ConvNxM-ConvMxN-Conv 1x 1所描述的结构。我们将扩展比率定义为中间ConvNxM的通道数与第一个Conv1x1的输入之间的比率。小搜索空间我们的小搜索空间包含一组具有不同内核大小和扩展比率的MBConv运算符（移动反向瓶颈卷积[31]），加上Identity，最多添加10个运算符以形成混合运算符。我们的小搜索空间中的10个操作符列在表4的左列中，其中符号OP X Y表示具有扩展比X和内核大小Y的特定操作符OP大搜索空间我们在大搜索空间的混合运算符中添加了3种运算符，即NConv，DConv和RConv。我们使用这3个具有不同核大小和扩展比的算子，形成10个专门用于大空间的算子，因此大空间包含20个算子。对于大搜索空间， NConv ， DConv 的结构为 Conv 1x 1-ConvKxK-Conv 1x 1和Conv 1x 1-ConvKxK-ConvKxK-Conv 1x 1 ， RConv 的结构为 Conv 1x 1-Conv 1xK-ConvKx 1-Conv 1x 1.专门用于大空间的算子的内核大小和扩展比这三者中卷积算子的选择是中卷积算子的关键。从原理上讲，这三种算子的通用性和能力越来越强，但同时也越来越耗时。我们的PC-NAS需要在表现力和速度之间进行权衡。在大小搜索空间中共有21个混合算子。因此，我们的小搜索空间包含1021个模型，而大搜索空间包含2021个模型。表4.操作员表在两个大型和小间隔Ops独家大空间MBConv 1 3MBConv 3 3NConv 1 3NConv 2 3MBConv 6 3MBConv 1 5DConv 1 3DConv 2 3MBConv 3 5MBConv 6 5RConv 1 5RConv 2 5MBConv 1 7MBConv 3 7RConv 4 5RConv 1 7MBConv 6 7身份RConv 2 7RConv 4 7A.2. 已发现型号的规格PC-NAS-S和PC-NAS-L的规格如图所示。4.我们观察到，PC-NAS-S采用高扩展率或大内核大小在尾端，这使得高层次的功能得到充分利用。然而，它倾向于选择小内核和低扩展率，以确保模型保持轻量级。PC-NAS-L选择了大量强大的瓶颈，这些瓶颈专门包含在大空间中，以实现准确性的提升。高扩展率并不常见，这是为了补偿大内核所使用的计算量。PC-NAS-S和PC-NAS-L都倾向于在分辨率降低时使用重算子，避免了这些位置的过多信息丢失。224×224×3Conv3×3112×112×16MBConv_3_3 SE112×112×16MBConv_6_5 SE56×56×32MBConv_3_3 SE56×56×32MBConv_1_3 SE56×56×32MBConv_6_5 SE28×28×64MBConv_3_5 SE28×28×64MBConv_3_3 SE28×28×64MBConv_1_5 SE28×28×64MBCov_6_5 SE14×14×136MBConv_3_7 SE14×14×136MBConv_1_3 SE14×14×136MBConv3_3 SE14×14×136MBConv_6_3 SE14×14×136MBConv_6_3 SE14×14×136MBConv_3_5 SE14×14×136MBConv_3_5 SE14×14×136MBConv_6_3 SE7×7×264MBConv_3_7 SE7×7×264MBConv_6_7 SE7×7×264MBConv_6_3 SE7×7×264Conv1×17×7×1024合并FC224×224×3Conv3×3112×112×16RConv_2_7 SE112×112×16RConv_2_7 SE56×56×32RConv_2_7 SE56×56×32DConv_2_3 SE56×56×32DConv_1_3 SE56×56×32NConv_2_3 SE28×28×64NConv_2_3 SE28×28×64RConv_1_5 SE28×28×64RConv_1_5 SE28×28×64DConv_2_3 SE14×14×136RConv_1_7 SE14×14×136MBConv_6_7 SE14×14×136DConv_2_3 SE14×14×136RCov_2_5 SE14×14×136MBConv_1_5 SE14×14×136MBConv_6_5 SE14×14×136RConv_1_5 SE14×14×136MBConv_6_5 SE7×7×264RConv_2_7 SE7×7×264DConv_2_3 SE7×7×264Conv1×17×7×1024合并FC13846引用[1] 乔治·亚当和乔纳森·洛林。了解神经结构搜索技术。arXiv预印本arXiv：1904.00438，2019。[2] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。2017年国际学习代表会议[3] Gabriel Bender，Pieter-Jan Kindermans，Barret Zoph，Vijay Vasudevan，and Quoc V.乐理解和简化一次性架构搜索。ICML，2018。[4] 放大图片作者：Andrew Brock，Theodore Lim，JamesM.里奇和尼克·韦斯顿通过超网络的一次性模型架构搜索NIPS元学习研讨会，2017年。[5] 安德鲁·布洛克，J.M.里奇，西奥多·林，尼克·威斯顿.Smash：通过超网络进行一次性模型架构搜索。arXiv预印本arXiv：1708.05344，2017。[6] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv：1812.00332，2018。[7] 陈宇康，孟高峰，张倩，席明，黄昌，穆立森，王兴刚.Re-nas ：增强的进化神经结构搜索 . arXiv ：1808.00193，2019。[8] 休·奇普曼爱德华一世George，and Robert E.麦库尔湖。模型选择的实际实现《数理统计研究所讲义-专著系列》，38，第65-116页[9] XiangXiang Chu，Bo Zhang，Ruijun Xu，and Jixiang Li.重新思考权重共享神经架构搜索的评估arXiv预印本arXiv：1907.01845v2，2019.[10] Xiaoliang Dai ， Peizhao Zhang ， Bichen Wu ， HongxuYin ， Fei Sun ， Yanghan Wang ， Marat Dukhan ，Yunqing Hu ， Yingming Wu ， Yangqing Jia ， PeterVajda，Matt Uytten-daele，and Niraj K. Jha. Chamnet：通过平台感知模型适应实现高效网络设计。arXiv：1812.08934，2018。[11] 董轩逸和杨毅。在4个GPU小时内搜索一个强大的神经结构。cvpr，2019年。[12] Thomas Elsken，Jan-Hendrik Metzen，and Frank Hutter.简单高效的卷积神经网络架构搜索。ICLR研讨会，2017年。[13] Zichao Guo ， Xiangyu Zhang ， Haoyuan Mu ， WenHeng，Zechun Liu，Yichen Wei，and Jian Sun.均匀采样单路径单次神经结构搜索 arXiv 预印本 arXiv ：1904.00420，2019。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] Jie Hu ， Li Shen ， Samuel Albanie ， Gang Sun ， andEnhua Wu.压缩-激励网络。CVPR，2018年。[16] Chuming Li，Xin Yuan，Chen Lin，Minghao Guo，WeiWu，Wanli Ouyang，and Junjie Yan. Am-lfs：用于损失函数搜索的Automl。arXiv预印本arXiv：1905.07375，2019。[17] Liam Li和Ameet Talwalkar神经结构搜索的随机搜索和再生产。arXiv预印本arXiv：1902.0763，2019。[18] Chen Lin，Minghao Guo，Chumming Li，Xin Yuan，Wei Wu，Dahua Lin，Wanli Ouyang，and Junjie Yan.在线超参数学习的自动增强策略。arXiv预印本arXiv：1905.07373，2019。[19] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[21] Chenxi Liu ， Barret Zoph ， Maxim Neumann ， JonatheShlens，Wei Hua，Li-Jia Li，Fei-Fei Li，Alan Yuille，Jonathan Huang，and Kevin Murphy.渐进式神经架构搜索。在欧洲计算机视觉会议（ECCV）的会议记录中，第19-34页[22] Hanxiao Liu ， Karen

下载后可阅读完整内容，剩余1页未读，立即下载