没有合适的资源?快使用搜索试试~ 我知道了~
分布一致的神经结构搜索
10884分布一致的神经结构搜索Junn yiPan,ChongSun*,YzhouZhou,YingZhang,andChenLiWeChat,Tencent Inc.网址:junyipan@tencent.com,网址:waynecsun@tencent.comharryizzhou@tencent.com,网址:chaselli@tencent.com,yinggzhang@tencent.com摘要神经架构搜索(NAS)的最新进展在自动化深度网络架构设计方面取得了令人兴奋的结果。为了克服从头开始训练每个候选架构的负担不起的复杂性,最先进的一次性NAS方法采用权重共享策略来提高训练效率。虽然计算量大大减少,但这种一次性过程引入了严重的权重耦合问题,大大降低了每个候选项的评估精度。现有的方法通常通过缩小搜索空间、模型蒸馏或少次训练来解决这个问题。相反,在本文中,我们提出了一种新的分布一致的单次神经结构搜索算法。我们首先从理论上研究了权重耦合问题如何从参数分布的角度影响网络的搜索性能,然后提出了一种新的超网训练策略与分布一致性约束,可以提供一个很好的衡量两个架构可以共享权重的程度。我们的策略通过迭代地引入网络权值和相应的局部共享状态来优化超网。这种超网权重和拓扑的联合优化因此,它使一个更准确的模型评估阶段,并导致更好的搜索性能。我们在具有多个搜索空间的基准数据集由此产生的架构实现了卓越的性能,在当前的国家的最先进的NAS算法具有可比的搜索成本,这表明了我们的方法的有效性。1. 介绍神经结构搜索(NAS)由于其在结构自动化方面的有效性而引起了广泛的研究关注*通讯作者。图1.与ImageNet上最先进的方法进行比较。工程.一系列NAS算法已经成功地应用于图像分类[14,18,21,41,42]和其他相关领域(例如,、目标检测[4,35]、分割[20,39])。其中,早期的NAS方法难以以嵌套方式解决重量优化和自动化架构工程问题大量的候选架构是从头开始采样和训练的,因此计算成本在大型数据集上是无法承受的。最近的研究热点是一次NAS算法与一个额外的权重共享超网的架构性能评估。包含所有候选架构的超网只训练一次。每个架构都从超网继承其权重。在此之后,搜索策略(例如,强化学习、进化算法等)用于选择性能最佳的子体系结构。从而大大降低了计算成本。虽然已经取得了有希望的结果,但是由一次性算法引入的这种全局权重共享机制导致严重的权重耦合问题[11,14,34],并且导致至少两个限制。首先,在超网训练过程中,具有共享权重的子架构相互影响。不同体系结构中的相同操作器可能具有不同甚至10885相反的梯度方向。一个架构的梯度下降方向可以是另一个架构的梯度上升方向。全局权重共享将导致锯齿形优化过程。第二,在预定义的延迟约束下,具有高FLOP的运算符的采样频率低于其他运算符。具有这种操作员的架构这两个限制都会导致从头开始训练的模型和从超网继承的模型之间的非平凡参数分布差异,从而导致不准确的架构评估。最近的几项工作提出了从各种角度解决这样的问题,包括搜索空间缩小[21,27],知识蒸馏[18,26,38],少量超网训练[40],仅举几例。虽然这些方法很有前途,但它们都是以经验的方式来提高候选子架构的评估性能,但其根本原因是,从超网继承的权值和用独立网络训练的权值之间的分布差距尚未被触及和适当地解决。在本文中,我们首次尝试从理论上分析如何权重共享影响这样的分配差距。我们设法证明,分布差距实际上是由每个候选架构的累积似然概率和成对架构的联合 似然( 即,具有 共享权重 的任何两 个体系 结构)。然而,以前的NAS算法只考虑网络训练的第一似然概率。因此,我们提出了一个新的超网训练指标的分布一致性约束,考虑这两个可能性。在训练超网时,它导致两个迭代子过程,即, 优化超网权值并推断局部权值分担状态。这使我们能够同时监督超网训练和缩小网络参数分布差距。然而,上述优化过程是棘手的,因为成对网络的联合似然的计算成本是负担不起的,并且局部权重共享状态的解空间太大。因此,本文创新性地提出了一种分层优化策略,通过聚类机制避免了对所有候选体系结构对的联合似然计算,并限制了权重共享状态的空间。聚类算法以自监督的方式在网络结构上进行 所有权重共享状态的体系结构在相同的集群中。这大大降低了计算复杂度,使整个优化过程可行。总而言之,我们的主要贡献有三个方面:• 我们是第一个直接从减少从超网继承的权重和用独立网络训练的权重之间的差异的角度来解决权重共享问题的人。工作这种差距被认为是阻碍一次性NAS进展的主要原因。• 我们提出了一种新的联合训练公式来迭代更新超网的权重和拓扑结构,这有助于实现可行的优化过程。• 我们的搜索架构在不同的基准数据集和搜索空间上提供了最先进的2. 相关作品神经结构搜索已成功应用于图像分类[21,26,27]和语言任务[27,41]。一般来说,NAS算法预先定义了网络的搜索空间,并利用一种搜索策略,如强化学习[36]和进化算法[1,25,29],以生成候选架构,然后在验证集上对其进行评估。然后,基于验证结果更新搜索策略。上述过程重复多次,直到满足收敛条件。在[41,42]中,Zophet al.首先在分类和语言建模任务中引入NAS,其搜索卷积层的最佳状态,例如,、内核大小、步幅。作品[41]和[42]以高计算负载为代价具有鼓舞人心的搜索性能,因为它们需要训练大量的独立模型用于架构评估。为了解决这些限制,提出了一种单次NAS算法,该算法利用具有共享权重的超网来编码所有子网架构。在这种方法中,子网可以直接从超网中继承权值进行性能评估,并且可以大大减少搜索时间。然而,超网训练过程中的权值共享机制会在不同的体系结构之间引入权值另外,网络结构的非均匀采样使得部分子网训练不足提出了大量的一次性NAS算法来解决上述限制[14,18,19]。解决耦合问题的一种方法是缩小搜索空间[21,42]。 在[21,27,42]中,假设网络由两种建筑单元组成(即,正常单元和归约单元),每个单元包含一些基本块(例如,卷积、池化)。该算法只需要为这两个建筑单元搜索最佳结构,然后将其堆叠多次以生成整体网络。缩小搜索空间的另一个想法是结合顺序搜索策略[19,21]。Li等[19]将搜索过程分为几个阶段,自下而上逐步确定Liu [21]同时搜索建筑单元(如[42])和单元堆叠的方式。搜索过程从10886YQ||D||AQ||Q||我Qo∈|一一||||Aαi|我p(Wαi|A、D))αiαj我 J网络,然后依次搜索具有更复杂单元的架构。近年来,一些算法在一次NAS算法中引入了蒸馏技术[18,26,38]。这些方法训练高性能网络离线[18,38]或一次飞行[26],以监督更大搜索空间中网络架构的搜索过程。p(A|Wαi,αi,D)N=p(αj|Wαi,αi,D)j=1Np(DWαi,αi,αj)p(αjWαi,αi)j=1(二)在大多数以前的单次架构搜索算法中,权重参数在所有的=p(D|Wαi.,αi)子架构具有相同的操作符。超网拓扑(即,参数共享状态)在模型训练过程期间是固定的。虽然我们的方法朝着同时优化超网参数迈出了第一步,eters和拓扑结构。KL-发展KL(p(Wαiαi,D),p(Wαi,D))来度量p(Wαi ) 与|αi,D)和p(Wαi|A、D)作为DK L(p(Wαi|αi,D),p(Wαi|A、D))=p(W|α,D)logp(Wαi|αi,D)dW3. 神经结构搜索与分布=p(W|Wα i,α i)p(A|αi,D)dW|αi,D)dW一致性约束αi我Nαip(DWαi,αi,αj)p(αjWαi,αi)j=1以前的基于超网的一次性NAS算法中国(W|Wα i,α i)dW|Wαi,αi)dW多目标优化是对不同体系结构的共享权值进行优化,而没有考虑它们之间的内在联系。这种全球重量分担机制导致αi我Nαip(DWαi,αi,αj)p(αjWαi,αi)j=1N针对不同子架构之间的耦合问题,=p(Wαi|αi,D)logp(D|WαiN,α)j=1,oαi=oαj−dWαi他们互相影响,而且通常没有受过足够的训练。基于独立模型的评价精度 并不总是与一次性的j=1αi=oαjp(D|Wαi,αi,αj)p(αj|Wαi,αi)(三)评估,这是一个开放的问题,在NAS领域。本文从模型参数分布的角度对这一问题进行了理论3.1. 全局权值共享超网的一种可能解释给定训练数据D和搜索空间,其中引入了局部权重共享机制,oαioA指示架构α i使用哪个参数集。如果o α i = oα j,则架构α i和α j具有共享权重。p(αi,D)和p(αjWαi,αi)表示体系结构集和α j的先验,它们可视为常数值。 概率p(D W αi,α i,α j)表示给定模型参数W αi和架构α i和α j的似然概率,其可以进一步扩展为的N个采样的候选架构α1,.α N∈ A,我们p(D|W,α,α)我使用p(Wαi|αi,D)表示的参数分布子网络α i从头开始训练,并使用p(WA| A、D)α=p(WI j)p(D|W,W,α,α)dW(四)、来表示超网的模型参数分布。这里,Wαi是子架构αi的模型参数,αj−αiαiαjαj−αi并且是WA的子集。我们认为缩小p(Wαiαi,D)和p(Wαi αi,D)之间的差距,D)以确保一次性和独立模型的评估精度的单调相关性。根据概率论,p(W α|A、D)可以是其中我们使用Wαj−αi表示α j的模型参数,去掉与α i共有的参数,p(DWai,Wαj,αi,αj)是结构αi和α j的李k-概率。 从等式(3)和(4),很容易得出结论,|Wαi,Wαj,αi,αj)表示为i有助于缩小参数分布之间的差距拍摄和独立模型。从网络参数分布一致性的角度,p(W,D)=p(Wαi|αi,D)p(A|Wαi,αi,D)p(A|α i,D)αi1αi|一10887.(一)因此,提高搜索性能的一个可行方法是最大化p(D|W,W,α,α),适用于任何架构我们假设模型架构α1,...,α N是独立的,因此p(A|Wαi,αi,D)可以扩展为pair(α i,α j). 当α i和α j没有共享参数时,p(D|Wαi,αi,αj)可以写成p(D|Wαi,αi)。考虑到p(D|Wαi,αi)≥p(D|Wαi,αi,αj),我们得出结论10888WA|一|一AA,=w一l,kN超网超网权重更新拓扑生成超网权重Finetune训练的超网成对子网对…特征图…匹配0.2度0.70.3…0.8.聚类分析并分配权重具有最大权重的子网Meta网络.……迭代所有层图2.超网拓扑生成。图的左侧显示了一个玩具超网,其中前2层已经被聚类并分配了权重。圆形、正方形和菱形表示每层中的不同操作符蓝色和绿色表示每个运算符的不同权重候选。为了生成第三层的超网拓扑,我们首先对共享相同运算符的子网对进行采样,并将相应的特征映射馈送到Meta网络。然后,Meta网络预测任意两个节点之间的匹配度较高的匹配度表明两个节点可以在该层中共享相同的算子权重,反之亦然。基于匹配度,我们最终能够通过优化等式来聚类样本并分配权重id7.第一次会议。上述过程在所有层上迭代。避免参数共享是提高参数分布一致性的一种可能途径在之前的单次NAS算法[14,18,19]中,通过解决以下优化问题来训练超网:结构(即,在这些架构之间可以共享权重)和用于单次NAS算法的超网模型参数。3.2. 局部权值共享的超网训练W=arg max logp(WWA|A, D)基于前面的理论分析,我们将超网训练过程分为两个交错的阶段,即,=argmaxlogp(D|WA,A)+log p(WA| A)− log p(D| A)、(五)超网拓扑生成和超网权重更新。3.2.1超网拓扑生成其中p(WA)和p(D)可以被认为是常数值。由方程式(5),不考虑一次性模型和独立模型之间的分布间隙。基于前面的推导,我们引入了另一个损失项来衡量单次模型和独立模型之间的分布差距,以及方程。(5)可以重新表述为如前所述,最佳局部权重分配oA可以通过求解等式(1)来获得。(六)、一个简单的实现是为每个架构分配一个唯一的分配idoαi。然而,两个架构可能仅在某些层中具有相似的结构,因此为整个架构分配唯一的集群id是次优的。为了使本地权重共享机制更加灵活,Wmax,omax=arg maxWA,oA+ δ(o,ologp(D|WA,A,oA))log p(D|W,W,α,α)。ble,我们提出了分层结构的聚类算法,并随后优化了从第一层到最后一层的局部权值共享状态划分αiα ji,j=1αiαjI j(六)将潜在网络分成L个部分(层),每个部分包含K个候选算子。我们用Cl,k去-在Eq. (6)可以通过交替方向法求解,即,,优化了最优注意第l层中的第k个操作符不同于现有的NAS算法,在我们的工作中,每个算子由M个候选权重矩阵组成,这些矩阵形成一个Meta固定超网的局部权分配问题重量,反之亦然。 据我们所知,我们的方法是重量组Wl,k1l,k2l,k、...、 wM,. 基于第一次尝试联合优化超网拓扑以上定义,第l层的权重参数,,w一10889i、ji、j联系我们我C电话+1不αiαjλWαji、jαi电话+1不我我=αiαj我J1NNAoAlαiαii、j不α i是W αi,l = Wl,k(oαl),其中oαl ∈ {1,2,.,M} indi-Wf,k(oαi,f),其中k是αi在第f阶中的算子index在Wl,n中加权的cats被用于体系结构αi。假设前l-1层的 局 部 权 重 分 配 状 态 已 被 获 得 为 oA1 , ... ,l−1={oαl−1,.,αl−1},层.否则,Wαi,f被分配Wf,k中的随机权重。我们使用Hx来表示批数据x的基础真值,并使用L(. )来表示用于模型训练的损失函数变量γ是架构α的学习率,第l层的最优局部权值分配可以通过求解我λ i,j=[λ1,...,λ2]是Meta网络的输出,ologl = arg max log p(D| W,oA1,...,l)+δ(oαl,oαl)logp(D|W,αi,αj,oA1,.,l−1),控制架构αj梯度的强度影响更新过程。通过将第三项纳入Eq. (8),我们允许来自不同聚类的模型权重交换梯度信息,这提高了I ji,j=1(七)超网的训练过程 值得注意的是,λ f其中,W={W l,n}l=1,n=1。 直接优化方程(七)用来衡量两个archi之间的匹配程度,结构,基于直觉,如果从两个梯度通过枚举所有可能的oαl,i 1,...,N是不稳定的。如果首先将架构划分为几个集群,则Eq. (7)可以更容易地基于每个集群中的几个代表性架构进行优化。对于所有包含l,k的架构,我们首先采用K均值聚类算法将架构划分为M个clus。体系结构可以使每个体系结构的权重更新过程受益,那么这两个架构可以更好的匹配。用Wt+1代替Wt,我们得到以下损失函数L(Hx,N(x,α i,Wαi)的情况)然后确定每个的权重分配ID集群 参考[26],对于任何两个架构αi,=L(Hx,N(x,αi,Wt-γεWαiL(Hx,N(x,αi,Wαi))不和αj具有相同的操作Cl,k,我们利用输出-λi,j<$WαjL(Hx,N(x,αj,Wαj),li,j一个Meta网络MCl,k(详情见下一节-(九)tion)来衡量αi和αj之间的匹配程度在第l层,其中λl=MC (hl−1−hl−1)。在这里,其中λi,j<$Wαi L(Hx,N(x,αj,Wt)计算为l−11、…l−1i、jl,k αiαjλi,jWL(Hx,N(x,αj,W))hαi =N(x,αi,Wα1,...,l-1)表示输出fea。αiαjJ真实地图的l-.我们计算=[λ1]L(Hα,N(x,α,W t1)),.,α架构αi的第1层任意两个体系结构之间的匹配度i、jW1xjIj(十)包含算子CL.K,并获得匹配度ma-Li、jL(Hx,N(x,αj,WtL))]基于此,将体系结构划分为M通过K-means聚类算法进行聚类。 然后我们而λl是随机抽取几个有代表性的体系结构,每个集群,并获得这些权重分配L.M(hl−1−hl−1,W),αl和αl共用C通过求解Eq.(七)、基于代表性i、j0,否则(十一)架构在每个集群中,我们获得所有候选架构的最优分配ID图2展示了一个玩具模型,展示了我们的方法如何顺序地确定L(Hx,N(x,αi,Wt+1))是关于WMCl,k和WMCl,k可以被更新为本地权重共享状态。3.2.2超网权重更新Wt+1MCl,k哪里=WtMCl,k-ηWMCl,kL(Hx,N(x,α i,Wαi))的情况下,(十二)当前l层的局部权值共享状态确定后,通过随机梯度下降算法更新超网权值。对于每个训练批次x,采样具有至少一个共享操作符的两个架构αi和αj然后,第f层中的αi的模型参数η是Meta网络的学习率。在我们的实现中,Meta网络被实例化为一个具有sigmoid激活函数的全连接层。超网权重被更新几个时期,并且训练过程继续确定用于l+1层的权重分配状态我们制定了整体的算法1中的训练过程。在超网得到充分训练后,网络Wt+1=Wt-γ-γ-WL(Hx,N(x,αi,W))搜索过程开始。我们要遵循《古兰经》的教导。αiα i -λi,jWαiL(Hx,N(x,αj,Wαi))的情况下,l=L,n=Kλ不λCl,kMCl,kl,k.αL我10890≤(八)推理搜索算法,其中αjαj其中考虑了来自两种结构的梯度在模型更新期间,当层索引fl时,第f层中的模型参数W αi,f被分配给在进化控制器的指导下选择和评估超网值得注意的是,在搜索过程中,每个子网的批量因此,我们重新计算每个10891NNCNA{} A×一i、ji、j我∈C×输入:超网、搜索空间S、训练数据D、体系结构数N、候选状态数M、超网层数L、候选算子数K、预热时期Tw、微调时期Tf、训练时期T、Meta网络更新间隔τ、每时期迭代数I。输出:训练好的超网模型N,具有最优权重分配oA1:初始化,其中每个算子l、k包括M个可扩展权重2:随机抽样=α1,α2,.α N,其中S第三章: 火车(,D,Tw)4:对于l=1:L做5:对于t=1:(T I)做6:随机采样k[1,K]7:随机采样αi,αj共享l,k8:根据等式更新W αi89:如果tmodτ == 0,则10:根据等式11更新W_M_C_l,k1211:如果结束12:结束13:对于k=1:K做14:对于αi,αj∈ Ado15:如果Cl,k∈αi且Cl,k∈αj,则(每类50张图片),其余的用于训练。原始验证集用于测试,所有评估结果均在此基础上报告。除了标准搜索空间外,我们还在NAS-Bench-201 [13]上对所提出的方法进行了基准测试。NAS-Bench-201由15,625个架构组成,在一个简化的DARTS搜索空间中,它有4个内部节点,每个节点有5个操作。搜索空间。与最近的工作[2,5,15,18,26,32]一样,我们在由移动反向瓶颈MBConv和挤压激励模块组成的搜索空间上执行架构搜索,以确保公平比较。有6个基本操作符,包括MBConv,内核大小为3,5,扩展率为4,5,6。空间包含约7 .第一次会议。58总共有1019个架构候选人。超级网络。我们使用SGD优化器训练了150个epoch的超网,动量为0.9,权重衰减为4 e-5。学习率设置为0.5,采用线性退火。此外,我们设置N=10,000,M=2,L=16,K=6,TW=10,Tf=44,T=3,τ=20。我们使用8 Nvidia Tesla V100批处理大小为1,024的GPU用于超网训练。搜索我们遵循[14],采用进化算法在随机初始化的子网络集中搜索性能良好的子网络。在评估之前,基于200批训练数据重新计算每个子网络的批量静态我们将最大迭代次数设置为2016:计算λl17:如果结束18:结束19:结束在αi和αj之间人口规模为50人。变异和交叉在每次迭代的前10个性能最好的架构上执行。再培训。与EfficientNet的训练类似[32],我们的20:基于λ1将A分类为M个聚类21:通过求解方程,获得每个α i∈ A的oαl。722:列车(N,D,T)23:结束24:列车(N,D,Tf)在评估之前,在训练数据集的子集上的候选子网络最后,我们得到的子网络的性能排名的权重继承自超网。4. 实验在本节中,我们首先介绍实验的实现细节,包括数据集、搜索空间和训练细节。然后,我们将我们的方法与ImageNet [10]和NAS-Bench-201 [13]数据集上的最先进算法进行比较。最后,我们进行了广泛的消融研究,以验证所提出的算法的每个组成部分的有效性4.1. 实现细节数据集。我们采用ImageNet数据集[10]作为我们的基准之一。ImageNet的原始训练集被随机分成两组:50000张图像用于验证在Imagenet上使用RMSProp优化器(动量为0.9且衰减)对选定的架构进行500 epoch的再训练0.9.学习率设置为0.064,在前3个时期进行预热和余弦退火。丢弃率为0.2,权重衰减为1 e-5。在训练期间,AutoAugment[9]策略和指数移动平均。该模型使用16个Nvidia TeslaV100 GPU进行重新训练,批量大小为2,048。4.2. 与最先进技术的图像网与ImageNet数据集上最先进技术的定量比较见表1和图1。我们在两个不同的约束条件下进行实验(触发器350M和触发器500M分别)。<<可以看出,我们的方法始终优于最近的SOTA算法,具有可比的失败和训练成本。特别是,在350 M的Flops约束下搜索的较小模型(即Ours-S)实现了78.1%的Top-1分类准确率,甚至优于具有较大Flops的其他方法(例如,、345M和465M)。此外,在500 M的Flops约束下,更大的模型Ours-L也显示出优于其他方法的优势。所有优越的结果证明了我们的方法的有效性。NAS-Bench-201。与国家的比较-10892≈≈≈方法Top-1 Top-5 Flops Supernet train搜索成本(%)(%)(M)(GPU天数)(GPU天数)[28]第二届中国国际电信与信息技术展览会1. 电话:+86-021- 8888888传真:+86-021 - 88888888业务基金管理局[2]AtomNAS-A+[24] 76.3 93.0 260 20.5-AKD [23] 73.0 92.2 300 - 1000[14] 74.7 - 328 12GreedyNAS-C [37] 76.2 92.5 284 7 1DNA-A [18] 77.1 93.3 348 24 0.6[26]第一季第17集FairNAS-B [7] 75.1 - 345 12 1SGNAS-A [17] 76.2 - 281 12 1MCT-NAS-C [30] 76.3 92.6 280 12 1我们的-西78.1 93.8290 16 1有效网络-B 0 [32] 76.3 93.2 390 3000-ProxylessNAS [3] 75.1 - 465 15-MnasNet-92 [31] 74.8 92.1 388AtomNAS-C+[24] 77.6 93.6 363 20.5-GreedyNAS-A [37] 77.1 93.3 366 7 1MixNet-M [33] 77.0 93.3 360 3000-DNA-C [18] 77.8 93.7 466 24 0.6SCARLET-A [6] 76.9 93.4 365 10 12[16] 2016 - 03 - 24FairDARTS-C [8] 77.2 93.5 386 3-奶油-M [26] 79.2 94.2 481 12 0.02FairNAS-A [7] 75.3 - 388 12 1DARTS-[5] 77.8 93.9 470 4.5-SGNAS-C [17] 77.1 - 373 12 1MCT-NAS-A [30] 78.0 93.9 442 12 1我们的-L79.5 94.5486 19 1表1.与Imagenet数据集上的最新技术进行比较。NAS-Bench-201上的艺术在表2中给出所有算法均采用CIFAR-10的训练和验证集进行架构搜索,并使用NAS-bench-201 API在三个数据集上查询搜索到的架构的地面真实性能我们的结果是4次搜索的平均值可以观察到,我们的方法在所有三个数据集上都优于最先进的方法,我们的最佳结果接近最佳性能。优越的性能验证了我们的算法的有效性。4.3. 消融研究在本节中,进行了广泛的消融研究,以证明我们的方法的每个组成部分的有效性。体重分担策略。我们通过比较三种不同的实现方式来验证局部权重共享机制的有效性,这三种实现方式分别是利用全局权重共享超网的基线方法(GloablSharing)、随机分配局部权重共享状态的实现方式(Random Assign)和我们的实现方式。比较结果可供参考到表3,其中我们的方法通过0的相对增益改进了第二最佳实现。在ImageNet数据集上的Top-1分类准确率为9%该算法同时考虑了分布一致性约束和Meta网络输出的匹配度,能够训练出更多的分布一致性超网。候选权重状态数在我们的方法中,每个算子由M个候选权重状态组成。我们通过实验分析了M对搜索概率的影响。如表4所示,当M分别为2和3时,该方法获得了相当的结果 给定一个L层网络,共有M L个局部权值分配状态,为超网训练提供了足够的灵活性。在我们的实现中,为了提高训练效率,我们在所有实验中都将M设置为2候选体系结构的数量。最后通过烧蚀实验分析了该方法对候选结构数N的鲁棒性。在我们的超网训练过程中,我们将初始架构数设置为N=10,000。但是,性能最好的架构可能没有包含在初始200- 350 M触发350- 500 M触发10893± ± ± ± ±±± ± ± ± ±±± ± ± ± ±±± ± ± ± ±±± ± ± ± ±±± ± ± ± ±±± ± ± ± ±±± ± ± ± ±±方法成本CIFAR-10 CIFAR-100 ImageNet 16 -120(小时)有效性测试飞镖第一[22] 3.2 39.77 0.00 54.30 0.00 15.03 0.00 15.61 0.00 16.43 0.00 16.32 0.00飞镖第二[22] 10.2 39.77 0.00 54.30 0.00 15.03 0.00 15.61 0.00 16.43 0.00 16.32 0.00电话:+86-021 - 8888888传真:+86-021 - 8888888GDAS [12] 8.7 89.89 0.08 93.61 0.09 71.34 0.04 70.70 0.30 41.59 1.33 41.71 0.98FairNAS [7] 2.7 90.07 0.57 93.23 0.18 70.94 0.94 71.00 1.46 41.90 1.00 42.19 0.31国家统计局[17] 2.5 90.18 0.31 93.53 0.12 70.28 1.20 70.31 1.09 44.65 2.32 44.98 2.10飞镖-[5] 3.2 91.03 0.44 93.80 0.40 71.36 1.51 71.53 1.51 44.87 1.46 45.12 0.82我们的3.991.50 0.07 94.29 0.07 73.03 0.21 73.02 0.16 46.17 0.36 46.41 0.14最佳3.9 91.53 94.22 73.13 73.17 46.32 46.48最佳-91.61 94.37 73.49 73.51 46.77 47.31表2.与NAS-Bench-201上的最新技术进行比较一阶:一阶,二阶:二阶。培训战略前1名(%)前5名(%)触发器(M)全球共享77.293.2291随机分配77.493.3289我们78.193.8290表3.不同体重分担策略的消融研究M前1名(%)前5名(%)触发器(M)177.293.2291278.193.8290377.993.8292表4.候选权重状态数的消融研究。表5.候选架构数量的消融研究。候选人库。因此,在本实验中,我们分别将罐头数量设为5,000、10,000和20,000.搜索架构的评估结果如表5所示。可以看出,将候选架构的数量增加到20,000并没有带来进一步的性能改善,因此我们得出结论,设置N=10,000在训练效率和整体性能之间带来了良好的权衡。模型排名。为了进一步验证我们的NAS方法的有效性,我们通过可视化独立模型和继承权重的模型之间的关系,比较了我们的方法和全局权重共享我们的方法和基线都在NAS-Bench- 201上训练了150个epoch。我们从搜索空间中随机抽取15个样本,并使用NAS-Bench-201 API查询它们的地面实况性能。比较结果如图3所示。每个采样模型对应于图中的2个点,表示两种方法的真实性能和预测性能之间的相关性。正如可以观察到的,我们的方法将图3.比较我们的方法和全球权重分配基线的排名有效更准确地说,这解释了为什么我们的方法取得了更好的最终结果。5. 结论本文提出了一种新的分布一致的神经结构搜索算法,以避免可能的权重耦合问题。分析了超网中权值共享导致性能下降的原因,并在超网训练过程中引入了分布一致性约束和具体地说,推导了一个两阶段优化公式,迭代优化超网拓扑结构和网络模型参数,依次求出局部最优权值分担状态.我们在不同的基准数据集和搜索空间上进行了大量的实验优越的结果验证了该方法的有效性。鸣谢。 本课题得到了国家自然科学基金的部分资助。62106149。方法我们的基线N前1名(%)前5名(%)触发器(M)5,00077.793.528510,00078.193.829020,00078.093.929410894引用[1] Peter J Angeline , Gregory M Saunders , and Jordan BPollack. 一 种 构 造 递 归 神 经 网 络 的 进 化 算 法 。 IEEEtransactions on Neural Networks,5(1):54[2] Han Cai,Chuang Gan,Tianzhe Wang,Zhekai Zhang,and Song Han.一次性:训练一个网络并使其专业化以实现高效部署。在ICLR,2020年。[3] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件上直接进行神经结构搜索。2019年,在ICLR[4] Yukang Chen , Tong Yang , Xiangyu Zhang , GaofengMeng,Xinyu Xiao,and Jian Sun. Detnas:用于对象检测的主干搜索。arXiv预印本arXiv:1903.10979,2019。[5] Xiangxiang Chu , Xiaoxing Wang , Bo Zhang , ShunLu,Xiao-lin Wei,and Junchi Yan.飞镖-:在没有指标的情况下,稳健地走出业绩崩溃。ICLR,2021年。[6] Xiangxiang Chu,Bo Zhang,Qingyuan Li,Ruijun Xu,and Xudong Li.猩红色:在权重共享神经架构搜索中弥合稳定性和可扩展性之间的差距。在ICCV研讨会上,第317-325页[7] Xiangxiang Chu,Bo Zhang,and Ruijun Xu.Fairnas:重新思考权重共享神经架构搜索的评估公平性。在ICCV中,第12239-12248页[8] Xiangxiang Chu,Tianbao Zhou,Bo Zhang,and JixiangLi.公平飞镖:消除差异化架构搜索中的不公平优势。在ECCV,第465-480页[9] Ekin D Cubuk , Barret Zoph , Dandelion Mane , VijayVasude-van,and Quoc V Le.自动扩增:从数据中学习增强策略。在CVPR,第113-123页[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页[11] 董轩逸和杨毅。通过自评估模板网络进行一次性神经结构搜索。在ICCV,第3681-3690页[12] 董轩逸和杨毅。在4个GPU小时内搜索一个强大的神经结构。在CVPR中,第1761-1770页,2019年。[13] 董轩逸和杨毅。Nas-bench-201:扩展可再现神经架构搜索的范围。在ICLR,2020年。[14] Zichao Guo , Xiangyu Zhang , Haoyuan Mu , WenHeng,Zechun Liu,Yichen Wei,and Jian Sun.均匀采样单路径单次神经结构搜索。在ECCV,第544-560页[15] Andrew Howard , Mark Sandler , Grace Chu , Liang-Chieh Chen,Bo Chen,Mingxing Tan,Weijun Wang,Yukun Zhu,Ruoming Pang,Vijay Vasudevan,et al.搜索mobilenetv 3.在ICCV,第1314-1324页[16] 胡寿康,谢思瑞,郑和辉,刘春晓,石建平,刘训英,林大华. Dsnas:无需参数再训练的直接神经结构搜索。在CVPR中,第12084-12092页[17] 黄先尧和朱伟达。通过生成搜索:使用架构生成器实现灵活高效的一次性nas。在CVPR,2021年。[18] Changlin Li , Jiefeng Peng , Liuchun Yuan , GuangrunWang,Xiaodan Liang,Liang Lin,and Xiaojun Chang.具有知识分解的分块监督神经架构搜索在CVPR中,第1989-1998、2020页[19] Xiang Li , Chen Lin , Chuming Li , Ming Sun , WeiWu,Junjie Yan,and Wanli Ouyang.通过抑制后向衰落改善单次nas。在CVPR中,第13836[20] Chenxi Liu , Liang-Chieh Chen , Florian Schroff ,Hartwig Adam,Wei Hua,Alan L Yuille,and Li Fei-Fei.自动deeplab:用于语义图像分割的分层神经结构搜索。在CVPR中,第82-92页[21] Chenxi Liu,Barret Zoph,Maxim Neumann,JonathonShlens,Wei Hua,Li-Jia Li,Li Fei-Fei,Alan Yuille,Jonathan Huang,and Kevin Murphy.渐进式神经架构搜索。在ECCV,第19-34页[22] 柳寒笑,凯伦西蒙尼扬,杨一鸣。Darts:差异化架构搜索。2019年,在ICLR[23] YuLiu , XuhuiJia , MingxingTan , RavitejaVemulapalli,Yukun Zhu,Bradley Green,and XiaogangWang. 搜索蒸馏:珍珠到处都是,但眼睛不是。在CVPR中,第7539-7548页[24] Jieru Mei,Yingwei Li,Xiaochen Lian,Xiaojie Jin,Linjie Yang,Alan Yuille,and Jianchao Yang.Atomnas:细粒度端到端神经架
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功