没有合适的资源?快使用搜索试试~ 我知道了~
16530基于多样性引导的搜索空间收缩的单次神经网络结构搜索车明浩1*,傅建龙2,林海滨11石溪大学2微软亚洲研究院{minghao.chen,haibin.ling}@ stonybrook.edu,jianf@microsoft.com摘要尽 管取 得了 显着 的进 展 ,大 多数 神经 架构 搜 索(NAS)的方法集中在寻找一个单一的准确和强大的架构。为了进一步构建具有更好泛化能力和性能的模型,通常采用模型集成,并且其性能优于独立模型。受模型集成优点的启发,我们提出同时搜索多个不同的模型,作为一种找到强大模型的替代方法。搜索集成是不平凡的,有两个关键的挑战:扩大搜索空间和潜在的更复杂的搜索模型。在本文中,我们提出了一个一次性的神经集成架构搜索(NEAS)解决方案,以解决这两个挑战。对于第一个挑战,我们引入了一种新的基于多样性的度量来指导搜索空间收缩,同时考虑候选算子的潜力和多样性。对于第二个挑战,我们启用了一个新的搜索维度来学习不同模型之间的层共享,以提高效率。在ImageNet上的实验表明,该方法可以提高超网所发现的架构实现了卓越的性能相比,国家的最先进的,如MobileNetV3和EfficientNet家庭对齐设置下的tings。此外,我们评估的泛化能力和鲁棒性,我们搜索架构的COCO 检 测 基 准 , 并 实 现 了 3.1% 的 改 善 AP 相 比MobileNetV3。代码和模型可在这里.图1.比较我们的方法与移动设置下ImageNet上最先进的方法。计算机视觉中的任务。然而,可能的架构数量是巨大的,使得手动设计非常困难。神经架构搜索(NAS)[48]旨在自动化设计过程。最近,NAS方法已经在各种任务上达到了最先进的水平,例如图像分类[48],语义分割[23],对象检测[4]等。尽管取得了很大的进展,NAS方法大多集中在寻找单一模型的最佳架构。然而,单一模型的泛化能力和性能通常会受到不同初始化、噪声数据和训练配方修改的影响。模型集成是一种普遍有效的建模方法,与单一模型相比,它可以建立更稳健、更精确的模型。 隐式集成方法 , 如 Dropout [34] , Dropconnect [40] , StochDepth[15],Shake-Shake [9]已经广泛用于神经结构中。1. 介绍深度神经网络的出现极大地缓解了对特征工程的需求。以前的研究表明,神经网络架构的设计[11,25,32,41]对于各种性能至关重要。*本工作是明浩在微软实习时完成的结构设计相反,尽管在大型比赛和真实世界场景中通常采用显式的集合方法,如平均、装袋、提升和堆叠。显式系综方法在设计有效模型中的使用由于它们带来的额外计算而没有得到充分探索。受合奏效果的启发,我们建议16531搜索多个模型,而不是同时搜索一个模型形成一个稳健、准确和有效的集合模型。然而,NAS和集成的组合面临两个挑战:(1)在大搜索空间上进行有效搜索和超网优化(2)降低模型集成带来的额外复杂性。针对这些挑战,在本文中,我们提出了一个一次性的神经集成架构搜索(NEAS)方法搜索轻量级集成模型。为了解决集成模型相对于单个模型的空间扩大所带来的第一个挑战,我们提出了一种称为多样性得分的新度量,在超网训练过程中逐步丢弃较差的候选模型,从而降低了发现有前途的集成模型的难度。该度量明确量化了运算符之间的多样性,这通常被认为是构建具有更好特征表达能力的模型的关键因素。为了解决第二个挑战,我们引入了层共享机制,以降低模型的复杂性。我们允许集成组件共享一些浅层,并搜索共享层的最佳架构与其余层的架构。我们进一步引入了一个新的搜索维度,称为分裂点,以自动找到最佳层,在给定的FLOPs约束下共享。综合实验验证了所提出的多样性评分和分层共享策略的有效性。它们提高了训练超网的排序能力,并在相同的复杂度约束下导致更好的搜索结构。搜索的架构在ImageNet上产生了新的最先进的性能[8]。例如,如图1所示,我们的搜索算法找到了一个314 M FLOPs模型,在 ImageNet 上 达 到 了 77.9% 的 top-1 准 确 率 , 比EfficientNet-B 0小19%,好1.6%[37]。NEAS发现的体系结构可以很好地转移到下游的目标检测任务中,这表明了搜索模型的泛化能力。我们在COCO验证集上获得了33.0的AP,这优于最先进的主干MobileNetV3 [12]。总之,我们做出了以下贡献:• 我们提出了一个管道,NEAS,在一定的资源限制下寻找不同的模型。我们的方法可以搜索齐次和非齐次系综模型。• 我们设计了一个新的度量,多样性得分,以指导搜索空间的收缩过程。通过大量的实验,我们评估了它在超网训练和搜索模型性能上的优越性。• 我们提出了一个层共享策略,以减少集成模型的复杂性,并扩大搜索空间,以寻找一个最佳的分裂点。• 我们将搜索到的架构与最先进的NAS方法在图像分类任务上进行比较,并获得了最先进的结果。此外,我们评估了我们的搜索模型的下游对象检测任务,显示其泛化能力。2. 相关作品Neural Architecture Search. 早期NAS方法使用强化学习[48,49,45]或进化算法[31,35]搜索架构。这些方法已经证明,NAS可以找到在各种任务上超过手工制作的架构。然而,这些方法需要从头开始训练数千个架构候选者,导致无法承受的计算开销。 最近的作品诉诸的权重共享策略,以摊销的搜索成本。这些方法训练一个单一的过参数化超网,然后在整个网络中共享权重。它们可以进一步分为两种类型:基于路径的方法[10,6,5]和基于梯度的方法[24,3,42]。基于路径的方法在每次迭代中对路径进行采样,以优化超网的权重。一旦训练过程完成,就可以通过共享权重对权重进行排名。另一方面,基于梯度的方法将离散的搜索空间放宽为连续的,并通过有效的梯度下降来优化搜索过程。包围学习。 包围方法被广泛用于提高神经网络的性能[46,34,40,14,47,33]。构建合奏的策略主要可以分为两类。 第一种是独立训练不同的模型,然后应用集成方法来形成一个更强大的模型,例如提升,装袋和堆叠[47]。其他方法只训练一个具有特定策略的模型来实现隐式集成[46,34,40,14]。与上述方法不同的是,我们在不单独训练的情况下进行显式集成,并寻找不同的模型结构来构建具有强大特征表达能力的集成模型。搜索空间缩小。最近的研究表明,搜索空间的缩小可以有效地提高排名能力,NAS方法的灵活性,特别是当搜索空间很大时。[13、20、28、27]。这些方法可以根据其评估指标分为不同的类型。有三种基本类型:基于精度的度量、基于幅度的度量和基于角度的度量。例如,PCNAS [20]使用准确度逐层丢弃不具前景的运营商,并表明它提高了候选网络的质量。AngleNAS [13]使用模型权重之间的角度来指导搜索过程。然而,现有的收缩技术仅独立地考虑运营商。因此,它们不能直接适应于搜索集成模型。我们设计了一个新的度量标准,同时考虑单个运营商的性能和它们之间的多样性。16532是的超网K路超网培训多样性导向萎缩没有搜索空间> T?K路径进化搜索多样性引导收缩所有候选人计算相似度计算质量分裂特征图K路径儿童模特…模型精度百分之七十六百分之七十四77% 80%平均相似度矩阵运算符组合运营商操作者质量75% 76.5百分之七十七百分之七十八点五计算多样性得分评分运算符组合91857872丢掉最差的两个组合6560合奏路径1路径2ER = 4,Conv 3 X3ER = 6,Conv 5 X5ER = 6,Conv 3 X3搜索合奏合奏ER = 4,Conv 5 X 5图2.NEAS主要包括两个步骤:基于多样性引导收缩的K路径超网训练和K路径进化搜索。它以搜索空间作为输入,输出具有共享浅层的集成模型我们将搜索模型中的路径数设置为2,并将选择操作符设置为4。右图中重叠的上线表示两条路径共享前两层。然后,他们分支到两个不同的路径。ER表示移动反转残差块的扩展比3. 方法在3.1节中,我们给出了NEAS的公式。在第3.2节中,我们给出了多样性得分和空间收缩管道的定义。在3.3节中,我们介绍了层共享机制和新的搜索维度SplitPoint。在第3.4节中,我们给出了详细的管道的NEAS,它允许在不同的资源约束下搜索。整体框架如图所示。二、3.1. NEAS配方给定单个深度神经网络的搜索空间Ω,记为A={φk∈Ω:k=1,.,K}作为K的集合与其它一次性方法类似的问题(例如,[10])。第一阶段是通过以下方式优化超网的权重:WS=argminLtrain(Φ(A, W(A),(2)W其中Ltrain是训练集上的损失函数,W(A)意味着A中的架构从W继承权重。该步骤通过从S中均匀地采样系综架构Φ并执行反向传播以更新每次迭代的超网中对应块的权重来完成。详情请参见第3.4第二步是通过基于学习的权重对性能进行排序来搜索最优架构集合A具有对应参数W={ω k:k =1, . , K},Φ(·;A,W )作为系综模型,S=ΩK作为系综模型的搜索空间。NEAS的目标超网的WSA=argmaxACCval(Φ(·;A,WS(A),一K(三)最大限度地降低了整体验证精度。 以减少搜索成本,我们将Ω约束到某个架构系列,具体来说,S. t.gi(φi)Tdo3:在第3.4节之后训练E个时期的超网G;4.随机选取Φ1、Φ2、· · ·、ΦZ模型的样本Z集合;5:使用等式(1)计算来自S检验的每个算子组合的多样性得分五、七、八;6:从S_n中删除k运算符组合,最低k值第七章: end while其中φq,φp∈A,ACCtrain'是在一小部分训练数据集上评估的精度。在实践中,我们不计算精确的期望值, 相似度矩阵和质量矩阵。相反,我们随机抽样有限数量的集成模型,并使用平均值作为期望值的近似值。某个算子组合的多样性得分层m的定义如下:Score(hm)= det(Ly),(8)其中Ly是包含所有算子的Lm的子矩阵Lm=diag(rm)·Sm·diag(rm),(4)其中核由两个部分组成:相似矩阵Sm∈RN×N和质量矩阵rm∈RN.的HM。相似性和准确性之间的权衡由超参数γ控制。根据多样性得分的定义,我们具有以下性质:令v1,···,vK表示从对于hm和h′只相差第i个运算符,如果系综模型的K条不同路径φ1,···,φKSm Sm对于j=1,2,···,K且rm> rm,则Φ(. ;A,W(A))。 我们定义两个OP的相似性Smi、ji′,j伊伊′如所期望的,生成器Oi,m和Oj,m之间的相似性分别包含两个运算符的路径得分(h m)>得分(hm)。(九)Sm=EA S .Σp,qI(i,j,p,q)exp(−β<$vp−vq<$2)Σ、(五)此属性表明,该指标将下降类似,同时保持多样和准确的算子组合。 我们参考附录A,其中1≤p,q≤K,β是比例因子,指示函数定义为:.一个证明多样性引导的搜索空间缩小。基于多样性得分,我们提出了算法1来描述I(i,j,p,q)=一、 O i,m∈ φ p,0、 O j,m∈φ q.(六)多样性引导的搜索空间收缩流水线在图的 二、注意,在收缩过程中,算子Oi,m的质量是通过取包含它的路径的期望精度来计算的正式定义-因为我们的方法不改变超网的连通性,所以至少保留一个算子组合。16534问题是:rm=γEA S. Σφ q|Oi,m∈φqΣACCtrain′(φq)、 (7)3.3. 在Encoder组件的 挑战 的 潜在 大规模 复杂i#{φp|Oi,m∈φp}搜索的集成模型由层共享处理16535我机制这种机制受到最近几项研究的启发[16,26,30]。这些工作发现,具有不同初始化的相同神经架构和不同架构在其较低层中学习相似的特征。因此,我们考虑共享不同系综分量的浅层。我们建议搜索具有共享的浅层和不同的深层的不同的系综分量,以减少计算成本。为了自动找到应该共享的层,我们设计了一个新的搜索维度,称为分割点。分割点定义了集成模型将具有异构架构的位置。它还处理多样性和计算约束之间的权衡。NEAS和其他NAS方法(如[10,12])搜索的体系结构之间的比较见图。3 .第三章。3.4. 神经网络架构搜索如第3.1节和图中所述2、NEAS包括两个连续的阶段:基于多样性引导的搜索空间收缩的K路径超网训练和K路径进化搜索。相一曰:K-Path超网培训多样性-引导搜索空间缩小。对于每一次训练,在此基础上, 建立了一个系综模型Φ(. ;A ,W(A))是随机采样的。具体地说,我们随机采样分裂点s,共享层的架构A共享={o1,o2,···,os},并且运算符组合Asplit={hs+1,hs+2,···,hd}用于来自收缩的搜索空间的其余层每个路径φi的损耗Li计算如下:当使用组合损失L=KLi执行背包传播时,超级网中的响应块。在这个更新过程之后,整个网络仍然以端到端的方式进行训练。在对超网进行了几个时期的训练之后,我们按照算法1中的步骤来缩小搜索空间。收缩和训练交替进行。在推理过程中,这些选定的路径独立地进行预测,我们的集成网络第二阶段:K-Path进化搜索。在获得训练好的超网后,我们对其进行进化搜索,以获得最优的集成模型。根据进化算法的管理者对这些模型进行评价和选择。值得注意的是,在评估集成模型之前,我们首先需要重新计算每个块的批归一化(BN)统计量。这是因为,在超网训练期间,同时优化不同块的BN统计。这些统计数字通常不适用于非政府组织。我们随机提取ImageNet训练集的一部分来重新计算BN统计数据。在进化搜索开始时,我们选择N个种子随机架构作为种子。 选择前k个架构作为父代,通过交叉和变异产生下一代。在一次交叉中,两个随机选择-股骨柄DS 4 3x3 SEMB 6 7x7 SEMB43x3SEMB65x5 SE MB45x5SEMB63x3SEMB65x5 SE干DS 4 3x3 SEMB 6 7x7SE拆分点MB 4 3x3SEMB 4 3x3SEMB 4 5x5 SEMB 4 3x3SEMB 4 5x5 SEMB 4 5x5SEMB 4 3x3 SEMB 6 5x5SEMB 6 5x5 SEMB 4 5x5SEMB 6 7x7SEConv 1x1MB 6 3x3SEConv 1x1合并+FCConv 1x1合并+FC合并+FC(a) 单一型号(b)NEAS图3.(a)通过经典NAS方法搜索的体系结构(例如,[10,6])。(b)NEAS搜索的架构。不同的颜色表示不同的扩展比,而块的长度表示内核的大小。在每一代中,挑选并交叉所选候选物以产生新的候选物。如果对应的架构不在收缩的搜索空间中或超过FLOPs约束,则丢弃通过交叉得到的架构。在一个突变中,候选者以概率Ps突变其分裂点。如果拆分点增加,则共享层的数量将以相同的数量增加。我们随机选择一条路径,并将其相应的架构移动到共享架构。否则,如果分割点减少,我们将切断共享架构并将其添加到每个路径的架构中。最后,候选者以概率Pm变异其层以产生新的候选者。值得注意的是,操作组合仅从收缩的搜索空间中选取。我们执行交叉和突变,多次产生新的候选人。我们在交叉和变异后产生一些随机结构,以满足给定的人口需求。我们在附录B中提供了详细的算法。4. 实验在本节中,我们首先详细介绍我们的搜索空间和实现。然后,我们提出了消融研究,剖析我们的方法,然后与先进的NAS方法进行比较。最后,我们在COCO目标检测基准测试中对搜索到的结构的泛化能力和鲁棒性进行了评估。4.1. 实现细节搜索空间。与先前的NAS方法[10,6,37]一致,我们的搜索空间包括移动反转瓶颈残留块(MBConv)的堆栈。我们还在Effi-cientNet [37]和MobileNetV 3 [12]之后的每个块中添加了挤压激励模块。具体来说,每一层有7个基本操作符,包括MBConv,内核大小为3,5,7,扩展率为4,6,skip con。16536表1. ImageNet上最先进的NAS方法的比较。* :TPU天数,*:由[10]报告,*:在CIFAR-10上检索,“-”表示未报告。NVIDIAGTX 1080Ti上测试。方法前1名(%)前5名(%)FLOPs(M)存储器成本超级列车(GPU天)搜索成本(GPU天)重新训练时期200MobileNetV3Large1. 0[12]75.2-219单径双径-单路-单个路径K个路径288†53-288†10-12♦12-两个--两个-<1<1150--三百五十-四百240350OFA [1]76.9-230[32]第三十二话72.091.0300MnasNet-A1 [36]75.292.5312FairNAS-C [6]74.792.1321FBNetV2-L1 [39]77.2-325SPOS [10]74.7-328NEAS-S(我们的)77.993.9314350[43]第四十三话77.193.3366单个路径7<1300[37]第三十七话76.393.2390---350[39]第三十九话78.2-422---400ProxylessNAS[2]75.1-465两条路径15s-300[29]第二十九话79.294.2481两条路径120.02500NEAS-M(我们的)79.594.6472K个路径12<1350500DARTS [24]73.391.3574全超网双路双路单路-K个路径4‡96†5324-十二岁--两个0.6-<1250--五百350350[44]第四十四话79.5-586OFA大型[1]80.0-595DNA-d [19]78.494.0611[37]第三十七话79.294.5734NEAS-L(我们的)80.094.8574表示弹性深度。分割点空间被设置为范围(9,20)以处理不同的复杂度约束。我们总共有7个20K×12≥7×1033(K≥2)结构,这比大多数NAS方法要大得多更详细的检索空间的描述见附录A。超网训练我们使用类似于SPOS [10]的设置训练超网120个epoch:SGD优化器,动量为0.9,权重衰减为4 e-5,初始学习率为0.5,线性退火。收缩过程每20个时期进行一次。每次丢弃的操作员数量根据经验设置为20。根据实验结果,将计算相似矩阵时的β取为1 e-3。表2.不同收缩指标的比较。基线意味着在超网训练期间没有搜索空间收缩。†:平均精度使用从超网继承的权重。准确度在ImageNet上进行了评估。度量肯德尔·塔尔前1名(%)前5名(%)前1名†(%)基线0.4577.393.367.8精度0.4277.293.267.2多样性0.6577.993.968.34.2. 消融研究多样性得分的有效性。我们将基线设置为NEAS,而没有多样性引导的收缩。另外我们进化搜索我们设定人口N种子在evo-将多样性得分与准确性度量进行比较,以进一步验证其有效性。由于基于精确度的方法搜索到50个最佳候选人库k的大小等于10。世代数为20。Ps和Pm均为0.1。在每一代中,执行变异和交叉的候选者的数量被设置为25。我们在ImageNet的一个子集上对BN统计进行了统计。再培训。我们使用与Efficient- Net [37]类似的设置在ImageNet 上 重 新 训 练 了 350 个 epoch 的 发 现 架 构 :RMSProp优化器,动量为0.9,decay为0.9,权重衰减为1e -5,dropout ratio为0.2,初始学习率为0.064,前10个epoch预热和余弦退火。AutoAugment [7]和指数移动平均也用于训练。我们在16个Nvidia Tesla V100 GPU上重新训练了批量大小为2,048的模型。16537只考虑每层单个算子的精度。我们将准确度的定义与操作员组合的准确度相适应。其他方法,如角度为基础的度量不能很容易地适应搜索合奏。我们首先进行相关性分析,以评估多样性收缩的训练过程是否可以提高超网的排名能力。 我们随机抽取30个样本,从头开始计算权重共享性能和训练的真实性能之间的秩相关性。在ImageNet上训练许多这样的机器人在计算上是非常昂贵的。我们遵循Cream的设置[29],它构建了一个subImageNet数据集,由100个随机抽样的类组成,16538表3.同构(homo)和异构(hetero)路径架构的比较两种架构都有两条路径。列2、3、4中的数字是前1精度。路径2途径1(%)途径2(%)少尉(%)FLOPs(M)Homohomo(第一个)79.079.179.4566同性恋(第二)79.279.379.6586异质(基线)78.979.080.0574表4.不同搜索模型中的分裂点比较。基线:集成模型(2个模型),没有共享层。Top- 1和Top-5代表ImageNet上的前1和前5准确度模型拆分点前1名(%)前5名(%)FLOPs(M)NEAS-L1680.094.8574NEAS-M1679.594.6472NEAS-S2077.993.9314基线-78.594.2605ImageNet.每个类有250个训练图像和50个验证图像。我们使用KendallTau来表示超网的排序能力。表2的第二列表明,我们的多样性得分有效地帮助超网对超网中的集成架构进行排名。我们还重新训练搜索的架构,在相同的FLOPs约束下的三种方法。ImageNet数据集上的前1名和前5名准确率结果显示在表2的第三和第四列中。我们可以看到,多样性引导的收缩比基线方法好0.6%,比基于准确性的方法好0.7%。我们进一步比较了上一代进化搜索中架构的平均准确度,显示在第四列中。我们的多样性引导的收缩超过了基线和基于准确性的方法,在ImageNet的超网中达到了0.5%和1.1%的top-1准确率。结果表明,多样性得分有助于去除不合格的候选人,提高超网的收敛性。异构路径架构的影响。已 知 同构(homo)架构的集成模型是构建强大模型的有效方法[18]。在这里,我们比较了异构和异构体系结构的集成模型,以显示异构集成的我们使用我们搜索的双路径集成模型作为基线。然后,我们镜像搜索的架构的一个路径,形成两个同源的集成模型进行比较。图4给出了基线和在CIFAR-10上微调的均匀网络的最终隐藏特征我们可以看到,homo路径具有相似的特征分布。然而,异质路径具有不同的特征分布和聚类之间的更清晰的边界。在表3中,我们比较了这三个模型在ImageNet上的性能。该表显示了一个有趣的事实,即即使是homo路径的独立性能也优于hetero路径。然而,同性恋杂图4.两种不同集合模型的最终隐藏特征的t-SNE可视化。第一行表示具有两个同质路径的模型,而第二行具有两个异质路径。输入是CIFAR-10的测试集。表5.为NEAS预先定义的路径数量的影响。Top-1和Top-5代表ImageNet上的前1和前5准确度#路径前1名(%)前5名(%)FLOPs(M)280.094.8574379.594.6564578.594.1570集成比异构差,表明搜索模型的两条路径是互补的。层共享的影响。层共享在降低集成模型在这里,我们探索层共享的有效性。基线是我们的方法搜索的没有共享层的集成模型。在表4中,我们可以看到层共享将有助于在保持出色性能的同时大大降低集成模型的复杂性。此外,我们观察到,在我们搜索的模型中,较大的模型试图共享较少的层。一个原因可能独立路径的特征表达能力在更大的模型中已经很强,因为它更复杂。因此,他们更喜欢共享更少的层,并获得更多样化的路径。路径数对包围的影响。用于形成系综模型的路径数K是我们首先定义的超参数。我们比较了搜索模型在移动设置(≤600M FLOPs)下使用不同K的性能。从表5中可以看出,当路径数等于2时,我们可以获得最佳结果。一个可能的原因可能是,如果网络有太多的路径,由于复杂性约束,每条路径搜索算法的影响。已知随机搜索是NAS方法中的竞争基线我们来-9561078342179851063214567109823146543107829116539表6. COCO val2017上各种drop in backbones的对象检测结果。 Top-1精度在ImageNet上。 注:[6]。骨干FLOPs(M)AP(%)AP50AP75APSAPMAPL前1名(%)[12]第十二话21929.949.330.814.933.341.175.2[32]第三十二话30028.346.729.314.830.738.172.0FairNAS-C [6]32531.250.832.716.334.442.376.7[36]第三十六话34030.550.232.016.634.141.175.6[38]第三十八话36031.351.732.417.035.041.977.0SPOS [10]36530.749.832.215.433.941.675.0NEAS-S31433.053.334.417.936.243.878.0图5.随机搜索与进化算法。将随机搜索与进化搜索进行比较,以评价进化搜索的有效性.我们证明了per-bands的架构使用继承超网的权重在搜索过程中的验证数据集。在每次迭代中描述了当前迭代之前的前50个候选项。图5说明了进化搜索更适合于在超网上搜索。4.3. 与最先进方法的表1显示了我们的方法与ImageNet上移动设置下最先进方法的比较。它表明,当考虑FLOP小于600 M的模型时,我们的方法始终优于最近的MobileNetV 3 [12]和EfficientNet-B 0/B1 [37]。特别是,NEAS-L仅以5.74亿FLOPs实现了80.0%的top-1准确度,比EfficientNet-B1小1.6亿FLOPs,好0.8%。NEAS-M获得79.5%的top-1准确率,具有4.72亿FLOP。NEAS-S仅使用3.14亿次FLOP就实现了77.9%的准确性,比EfficientNet-B 0高1.6%,小19%。我们还在表1中提供了其他最先进的NAS方法的结果。值得注意的是,一些NAS方法,如OFA [1],BigNAS [44],DNA [19]使用知识蒸馏来提高训练过程,并提高搜索模型的准确性。然而,即使与这些方法相比,我们的搜索集成架构,不使用知识的融合,仍然取得了优异的性能。4.4. 泛化能力与鲁棒性为了进一步评估NEAS发现的体系结构的泛化能力,我们将体系结构转移到下 游 COCO [22] 对 象 检 测 任 务 。 我 们 使 用 NEAS-S(ImageNet上预训练的500个epochs)作为Reti- naNet[ 21 ]中骨干特征提取器的替代品,并将其与其他骨干网络进行比较。我们使用8个V100 GPU对train2017集(约118k图像)进行训练,并使用32个批量大小对val2017集(5k图像)进行评估。按照[ 6 ]中的设置,我们用12个epoch训练检测模型,初始学习率为0.04,并将学习率乘以0.1在第8和第11个时期。优化器为SGD,动量为0.9,权重 衰 减 为 1 e-4 。 如 表 6 所 示 , 我 们 的 方 法 超 过MobileNetV2 4.7%,使用类似的FLOP。与MnasNet [36]相比,我们的方法使用的FLOP减少了7%,同时性能提高了2.5%,这表明该架构在转移到其他视觉任务时具有良好的泛化能力。5. 结论在这项工作中,我们提出了一种新的方法来搜索轻量级集成模型的基础上一次性NAS。我们设计了一个新的指标,称为多样性得分,以指导搜索空间缩小。我们进一步使用层共享机制来降低集成模型的复杂性,并引入一个新的搜索维度,称为分裂点,处理多样性和复杂性约束之间的权衡。大量的实验表明,新的度量方法是有效的,提高了权重共享超网的排序能力。我们搜索的架构不仅在ImageNet上实现了最先进的性能,而且具有很强的泛化能力和鲁棒性。致谢我们非常感谢明昊 Ling的研究得到了美国国家科学基金会的部分资助(1814745和2006665)。16540引用[1] 韩才,甘闯,王天哲,张哲凯,宋涵。一次性:训练一个网络并使其专门化以实现高效部署。ICLR,2019年。[2] 韩彩,朱力耕,宋涵。Proxylessnas:在目标任务和硬件上直接搜索神经架构ICLR,2018年。[3] 辰昕、邪灵犀、君无邪、齐天。渐进式可区分体系结构搜索:弥合搜索和评估之间的深度差距。在ICCV,2019年。[4] Yukang Chen,Tong Yang,Xiangyu Zhang,GaofengMeng,Xinyu Xiao,and Jian Sun.Detnas:用于对象检测的主干搜索。2019年在NeurIPS[5] Xiangxiang Chu,Xudong Li,Yi Lu,Bo Zhang,andJixiang Li.Mixpath:一种用于一次性神经架构搜索的统一方法。arXiv预印本arXiv:2001.05887,2020。[6] Xiangxiang Chu ,Bo Zhang ,Ruijun Xu ,and JixiangLi.Fair- nas:重新思考权重共享神经架构搜索的评估公平性arXiv预印本arXiv:1907.01845,2019。[7] Ekin D Cubuk , Barret Zoph , Danjay Mane , VijayVasude-van,and Quoc V Le.Autoaugment:从数据中学习CVPR,2018年。[8] J. 邓,W。东河,巴西-地索赫尔湖,美-地J. Li,K.Li和L.飞飞ImageNet:一个大规模的分层图像数据库。2009年,CVPR[9] 泽维尔· 加斯塔尔迪Shake-shake 正则化arXiv预印本arXiv:1705.07485,2017。[10] Guo Zichao , Xiangyu Zhang , Haoyuan Mu , WenHeng,Zechun Liu,Yichen Wei,and Jian Sun.单路径一次神经结构搜索与均匀采样。在ECCV,2020年。[11] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习。在CVPR,2016年。[12] Andrew Howard , Mark Sandler , Grace Chu , Liang-Chieh Chen , Bo Chen , Mingxing Tan , WeijunWang , YukunZhu , RuomingPang , VijayVasudevan,et al. Searching for mo-bilenetv3.在ICCV,2019年。[13] 胡一鸣、梁玉定、郭子超、万若思、张翔宇、魏一晨、顾青衣和孙健。神经结构搜索的基于角度的搜索空间收缩ECCV,2020年。[14] Gao Huang ,Yixuan Li,Geoff Pleiss ,Zhuang Liu ,John E Hopcroft,and Kilian Q Weinberger.快照合奏:火车1,免费获得m。arXiv预印本arXiv:1704.00109,2017。[15] Gao Huang,Yu Sun,Zhuang Liu,Daniel Sedra,andKilian Q Weinberger.深度随机的深度网络在ECCV,2016年。[16] Simon Kornblith,Mohammad Norouzi,Honglak Lee,and Geoffrey Hinton.神经网络表示的相似性重新审视。2019年,在ICML[17] 亚历克斯·库勒萨和本·塔卡k-dpps:固定大小的决定点过程。InICML,2011.[18] Balaji Lakshminarayanan , Alexander Pritzel , andCharles Blundell.使用深度集成的简单和可扩展的预测不确定性估计。在NeurIPS,2017年。[19] Changlin Li,Jiefeng Peng,Liuchun Yuan,GuangrunWang,Xiaodan Liang,Liang Lin,and Xiaojun Chang.分块监督神经结构搜索与知识蒸馏.在CVPR,2020年。[20] Xiang Li , Chen Lin , Chuming Li , Ming Sun , WeiWu,Junjie Yan,Wanli Ouyang.通过抑制后向衰落改善单次nas。在CVPR,2020年。[21] Tsung-YiLin , Priya Goyal , Ross Girshick , KaimingHe,andPiotrDol la'r. 用于密集目标检测的焦面损失。 在ICC V,2017年。[22] 林宗义,迈克尔·梅尔,塞尔日·贝隆吉,詹姆斯·海斯,彼得罗·佩罗纳,德瓦·拉马南,彼得·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO:上下文中的通用对象。在ECCV,2014年。[23] Chenxi Liu , Liang-Chieh Chen , Florian Schroff ,Hartwig Adam,Wei Hua,Alan L Yuille,and Li Fei-Fei. Auto-deeplab:用于语义图像分割的分层神经架构搜索在CVPR,2019年。[24] Hanxiao Liu , Karen Simonyan , and Yiming Yang.Darts:差异化架构搜索。ICLR,2018年。[25] 马宁宁,张翔宇,郑海涛,孙健。Shuf Schuenet v2:高效CNN架构设计的实用指南在ECCV,2018年。[26] 阿里·莫科斯,迈特拉·拉古,萨米·本吉奥. 具有典型相关性的神经网络中的表征相似性在NeurIPS,2018年。[27] NivNayman , AsafNoy , TalRidnik , ItamarFriedman,R
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功