没有合适的资源?快使用搜索试试~ 我知道了~
可微神经结构搜索:变分信息最大化的新方法
12312通过变分信息最大化学习可微中国上海交通大学电子工程系2上海交通大学计算机科学与工程系{王耀明,刘宇晨6666,戴文瑞,lcl 1985,邹俊妮,熊洪凯}@ sjtu.edu.cn摘要现有的可微神经结构搜索方法简单地假设每个边缘上的结构分布是相互独立的,这与结构的内在属性相冲突在本文中,我们认为建筑分布的潜在代表性的具体数据点。然后,我们提出了变分信息最大化神经架构搜索(VIM-NAS),利用一个简单而有效的卷积神经网络来建模的潜在表示,并优化一个易于处理的变分下界的数据点和潜在的代表之间的互信息。VIM-NAS以极快的收敛速度从连续分布中自动学习接近one-hot的与一个时代融合。实验结果表明,VIM-NAS在各种搜索空间上实现了最先进的性能,包括DARTS搜索空间、NAS-Bench-1 shot 1、NAS-Bench-201和简化的搜索 空 间 S1-S4 。 具 体 来 说 , VIM-NAS 在 CIFAR-10 和CIFAR-100上分别在10分钟内实现了2.45%和15.80%的前1错误率,并且在传输到ImageNet时实现了24.0%的前1错误率。1. 介绍随着深度学习的发展,特定任务需要各种神经架构。神经网络结构搜索(NAS)在给定数据集的情况下,通过自动探索搜索空间来搜索最优的网络结构,使研究者从繁琐的结构设计中解脱出来。由于不同的数据集对架构有自己的偏好,例如,生物医学图像喜欢具有完全卷积运算和对称结构的U-Net类似架构NAS可以被认为是搜索给定数据集的偏好* 通讯作者:戴文瑞。†同等贡献。因此,架构参数可以被视为特定数据点的潜在表示。从方法论的意义上讲,NAS可以分为三个部分,即、搜索空间、搜索策略和性能估计策略[17,38]。单次方法[3,4,34]已被开发为通过参数共享找到超级网络中的最佳子网络来减少搜索时间的有前途的替代方案基于梯度的方法[51,29,37,41],又名可微分NAS,进一步将超级网络视为整个搜索空间,引入架构参数,并通过以可微分方式优化架构参数和超级网络权重来获得子网络。尽管性能卓越,但现有的可扩展NAS方法做出了不正确的假设,即每个边缘上的预定义架构分布彼此独立,与架构的内在属性相冲突。具体来说,SNAS [41]和FBNet [39]利用混凝土分布[22,30]来近似建筑参数的离散分类分布DATA [51]从同一个具体分布中执行多次采样和替换,以扩展搜索空间。SI-VDNAS [37]引入高斯噪声用于变化的丢弃,并通过学习的丢弃率对超级网络进行采样。SI-VDNAS中的各向同性高斯噪声以及SNAS、FBNet和DATA中的可因子化分布忽略了架构参数之间的依赖性除了上述不适当的假设之外,由于众多的搜索空间和任务,可区分NAS方法的搜索成本也是令人望而却步的。两阶段方法[47,36]将模型训练和搜索过程解耦以摊销训练成本,但仍然受到众多搜索空间的限制。因此,对于可微NAS,需要一种具有快速收敛速度的有效搜索策略。在本文中,我们提出了一种新的搜索策略,即变分信息最大化神经结构搜索(VIM-NAS),以最大化互信息12313Oi、jΣΣΣn=1D|DDDDD|Di、j--D在数据点和潜在的建筑表现之间。VIM-NAS利用简单而有效的卷积神经网络来对潜在的架构表示进行建模,并优化交互信息的易处理的变量下限。我们的贡献总结如下。• 我们提出了一个新的观点,架构分布可以被视为一个给定的数据集在NAS的潜在表示。• 我们利用一个简单而有效的架构神经网络来建模架构分布之间的依赖关系。• 我们提出了一种新的搜索策略,以最大限度地提高变下限的数据点和潜在的建筑代表之间的互信息。在实验上,VIM-NAS在一个时期内表现出目前最快的收敛速度,并从连续分布中学习出接近一个热点的分布。具体而言,VIM-NAS在DARTS搜索空间上实现了最先进的性能,在CIFAR-10/100上10分钟内的前1错误率为2.45%和15.80%,在转移到ImageNet时的VIM-NAS还在其他搜索空间上实现了最先进的性能,包括NAS-Bench-1 shot 1、NAS-Bench- 201和简化的搜索空间S1-S4。2. 相关工作LEM和繁琐的超级网络训练。近年来,DARTS中的崩溃问题吸引了大量的研究工作。FairDARTS [11]利用sigmoid函数来避免不公平的排他性竞争。相反,SGAS [25]用贪婪策略来解决这个问题DARTS+[27]和Progressive DARTS [8]采用提前停止来控制身份操作的数量。这些方法涉及太多的人工干预,不适合不同的搜索空间,并且难以转移到不同的任务。[48]设计指标,如Hessian特征值的崩溃,和[7]增加扰动,以正规化这样的指标。神经架构的无监督表示[43]也用于使用不准确的架构来学习良好的架构表示TE-NAS [6]提出了一种免训练策略,利用神经正切核(NTK)的频谱和输入空间中线性区域的数量对候选架构进行排名。3. 方法3.1. 初步:与众不同的NAS可区分的NAS将搜索到的架构分解为堆叠单元。搜索空间被定义为具有N个节点的单元上的有向无环图(DAG)每个节点是潜在表示,并且在连接节点i和j的每个边(i,j)上存在由表示的预定义操作集。 其核心思想是将离散操作选择放宽为连续操作,并获得所有操作的加权和|在每条边上的操作|operations on each edge asΣexp. αoΣ(一)i、jNAS方法将研究人员从繁琐的网络中解放出来,各种任务的工作架构设计,包括IM-fi,j(xi)=o∈O Σo′∈O exp. αo′Σ·o(xi)年龄分类[54],目标检测[19,20,45],im-年龄分割[18,28]和姿态估计[2,50]等。与此同时,更高效、更稳定的神经结构搜索策略仍然吸引着大量的研究。进化算法[16,31,35,44]将网络架构编码为种群,通过连续迭代变异优化种群,并最终将种群转换回网络。基于强化学习(RL)的方法[3,34,54]利用元控制器,基于与所选网络的推理准确度相对应的回报函数,在大型架构空间中引导搜索过程。尽管有显着的性能,进化算法和基于RL的方法遭受高搜索成本,由于重复评估。单次方法[1,3,4,34]采用参数共享以减少搜寻成本基于一致性的方法[29,41,37]进一步引入架构参数,以可区分的方式优化搜索的架构。虽然可微方法可以获得较快的搜索速度,但搜索过程中仍然会遇到不稳定的问题。其中xi是第i个节点的输出,αo是架构参数。一个节点的输出是所有输入边为xj=< ijfi,j(x1),并且总单元的输出是 节点的输出的 级 联 为 concat ( x2 , x3 , . . . ,xN−1),其中x0和x1是固定输入节点。基于单元格搜索空间,可微分NAS放松架构搜索以学习架构参数A=α(i,j)。利用目标数据集和优化目标,架构参数A和网络权重w通过梯度下降交替地[29]或联合地[41]进行优化。3.2. VIM-NAS我们认为架构作为观察到的数据的潜在变量 给定一个数据集由N对观测值和标号(xn,yn)N组成,我们考虑数据集和结构A之间的联合分布p ∈(,A)=p∈()p ∈(A),其中p()是数据集的分布,p ∈(A)是由结构A参数化的后验结构分布.在可区分NAS中,我们12314D{}ΣΣLDD.D.ϕD|D|D|θ,··|Dip i(Ai|(一)简化ΣQθ,|DNN学习使用架构A准确预测特定数据集D的参数θ。为了实现这一目标,我们建议最大化数据集D和架构A之间的互信息I(D,A),如下所示:算法1VIM-NAS输入:数据=xn,yn1:N,初始化的网络权重θ,初始化的架构神经网络参数,以及输入高斯噪声ε。maxIϕ(D,A)=Ep(D,A)logp(D,A)p(D)p(A)输出:搜索到的最终架构。1:不收敛时= H(D)− H(D|A)、(2)2:样本高斯噪声ξN(0,1)。3: 样本架构A =()+ ξ,A p(A| D)。其中H(·)表示信息条目。由于数据熵H(D)对于给定的数据集D是恒定的并且独立于λ,所以我们可以省略等式(2)中的H(D)4:通过下降θ来更新权重θ(,θ; )的情况。5:通过降序(,θ;)更新网络。6:结束while7:根据学习到的知识推导出最终的架构。max−H(D|A)=Ep(D,A)[log p(D|A)](3)计算高维随机变量之间的互信息是非常具有挑战性的。因此,通过引入一个变分逼近q θ(D),我们得到了互信息的下界|A)至真后验分布p(D|A)的情况。I(D,A)= H(D)+Ep(D,A)[log q θ(D|A)]+DKL(p)(D|A)、||qθ(D|(A))≥H(D)+Ep(D,A)[log q θ(D|方程(4)表明,当Q Q(A)匹配p(A)的情况。在NAS看来,真后验p(A)是子网络的分布,用超网络q θ(D)的分布近似|A)的情况。形式上,差异化NAS的目标是maxEp(D,A)[log q θ(D|A)]、(5)其中是架构参数,θ是网络权重。给定任意有限数据集D,我们通过Monte Carlo方法估计关于p(D)及其梯度的目标L(,θ;D)被公式化为maxL(,θ; D)= Ep(A| D)[log q θ(D|A)]。(六)d∈D现有的可区分NAS方法[29,39,41]假设每个边缘上的架构分布彼此独立因 此 ,真 正 的后验p(A| D)可以noise(0,1),并重新公式化架构分布p(A)=(µ,1),其中µ由卷积神经网络()参数化。算法1对VIM-NAS的实现进行了优化3.3. 结构神经网络VIM-NAS 利用架构神经网络ConvReLUBN(3,14,3)-ConvReLUBN(14,1,3)来对架构分布进行建模,其中ConvReLUBN表示与卷积、relu和批归一化堆叠的模块,并且以下三个数字表示输入通道编号、输出通道编号和内核大小,re-rank。建筑神经网络的详细内容可参考补充资料。我们进一步对这个架构神经网络进行微观观察,并找出简单的卷积神经网络所学习的内容。我们在图1中可视化ConvRe-LUBN(3,14,3)模块从图1中可以看出,初始化的特征图是密集和随机的,而稀疏连接是在训练一个时期之后从卷积神经网络学习的。这一现象表明,所提出的简单卷积神经网络捕获了架构分布之间的依赖关系3.4. 1个历元内收敛到近一热据我们所知,VIM-NAS是最快的差异-到目前为止,真正的NAS已经接近了。 VIM-NAS可以达到搜索过程简单的蒙特卡罗抽样被杠杆化以计算等式(6)中的期望。然而,这种假设掩盖了架构参数之间的自然依赖关系。由于卷积神经网络在拟合任意函数方面表现出强大的能力,我们可以利用它来建模隐式分布[33,46]并通过前向传播实现简单的采样。代替完全可因子分解的假设,我们利用卷积神经网络来建模架构分布p(A)。由于单卷积神经网络()只能对结构分布进行点估计,我们进一步引入了加性高斯分布被分解为12315通过在DARTS搜索空间中仅训练一个epoch来获得收敛结果图2和图3展示了VIM-NAS在一个时期训练之后自动地从随机初始化的连续分布中学习接近一热的与DARTS相比,如图2所示,DARTS在搜索期间在候选操作之间表现出振荡和同质性,VIM-NAS接近子网络的真实后验分布,具有接近一热的架构分布。为了验证初始化对收敛的近one-hot架构分布的影响,图3使用了不同的颜色12316·−N|DN·N×(a) 初始化特征图(b) 一个时期图1.与中间层的初始化特征图和收敛特征图(一个时期训练)的比较在每个子图中,特征图的14个通道和每个特征图共享与候选操作和边缘相同的大小。(a)DARTS-N(b)VIM-NAS-N图2. DARTS和VIM-NAS的DARTS搜索空间上的正常小区的第一边缘上的任何时间架构权重。以从噪声中学习用于下游任务的良好表示。类似地,VIM-NAS利用简单的卷积神经网络将输入噪声映射到目标架构分布。在考虑利用网络优化对建筑布局进行建模时,优化目标可以看作是两个网络的对抗优化。具体地说,架构神经网络作为一个生成器,学习一个良好的表示架构分布,而超级网络作为一个判别器,区分具有良好性能的架构。与利用真实数据作为基础事实来优化鉴别器的vanilla GAN相比,我们的VIM-NAS没有明确的良好架构作为参考。因此,VIM-NAS利用给定数据集的训练准确性来优化鉴别器。变异脱落NAS的重新表述。此外,我们还利用卷积神经网络φ()来参数化高斯结构分布的方差σ。具体地,我们实现参数化的架构分布为p ,φ(A)=(μ,σ φ)。我们可以利用重新参数化技巧从分布中采样为A=µ+σ φξ,ξ(0,1)。此外,我们可以将具有可变丢弃率的架构分布[23,32]重新解释为(µ,µ2δ),其中δ=σ/µ2=p/(1 p),p表示高斯丢弃率。 在[37]之后,稀疏约束也在我们的实验中被利用。我们将重新制定的变分丢弃NAS命名为VIM-NAS-丢弃,并在第4节中报告结果。4. 实验4.1. 数据集我们在CIFAR-10/100 [24]和ImageNet [12]上进行实验CIFAR-10/100由60 K图像、50 K训练图像和10 K测试图像组成。ImageNet是一个大规模的图像分类基准测试,包含130万张训练图像和5万张测试图像。4.2. DARTS搜索空间(a) 初始化的体系结构分布(b) 经过一个时期的训练后收敛的体系结构搜索空间。 在DARTS [29]之后,宏架构通过堆叠6个正常单元和2个reduc单元来构建。图3.初始化和训练一个时期后收敛之间的架构分布对比。从数据集学习信息而不是随机初始化的简短指令。3.5. 讨论以类似GAN的方式了解VIM-NAS。在生成模型中,利用卷积神经网络离子细胞每个单元包含七个节点,包括两个输入节点、四个中间节点和一个输出节点。四个中间节点的输出被级联为输出节点的输入。每个单元有14个候选边,每个边有8个候选操作,搜索设置。在搜索过程中,DARTS直接利用148个架构参数来描述微DAG。相反,VIM-NAS利用架构神经网络来对架构分布进行建模。的12317±±±±±±±±±±±±架构±sep_conv_3x3跳过连接sep_conv_3x32sep_conv_3x3跳过连接sep_conv_3x3c_{k}sep_conv_3x33sep_conv_3x310c_{k-1}c_{k-2}(a)搜索空间1(b)搜索空间2(c)搜索空间3图4.NAS-Bench-1 Shot 1上的任何时间测试遗憾(最佳彩色视图c_{k-2}skip_connectsep_conv_3x3sep_conv_3x3sep_conv_3x3sep_conv_3x33c_{k-1}sep_conv_3x31sep_conv_3x32跳过连接0c_{k}(a) 正常细胞(b) 电解槽图5.在CIFAR-10上的DARTS搜索空间上搜索VIM-NAS的正常单元和还原单元结构神经网络参数和传统的网络权重分别用两个单独的动量SGD优化器进行优化。由于架构神经网络非常小,因此额外的计算成本可以忽略不计。其他检索和评价的详细设置与DARTS相同(请参见补充资料)。CIFAR-10的结果。我们提出的VIM-NAS仅在训练一个epoch(在单个NVIDIA GTX 1080 Ti GPU上10分钟内)后就达到了收敛结果。架构分布几乎达到一热,并在进一步培训期间保持不变在CIFAR-10上搜索的正常细胞和还原细胞如图5所示。如表1所示,VIM-NAS可以实现最先进的性能,CIFAR-10和CIFAR-100的前1个测试误差分别为2.45%和15.80%。ImageNet上的结果。我们进一步将在CIFAR-10上搜索到的架构转移到ImageNet上,以评估其泛化能力。如表2所示,与其他流行的基于梯度的NAS方法相比,VIM-NAS实现了最先进的性能,前1错误率为请注意,我们可以通过以下方式前1(测试)错误(%)参数成本CIFAR-10 CIFAR-100(M)(天)DARTS-V1 [29] 3.00 0.14 17.763.3 0.4DARTS-V2 [29] 2.76 0.09 17.54*3.3 1P-DARTS [8] 2.50 16.55*3.4 0.3SNAS [41] 2.85[5] 2.81 0.03 - 3.7 1BayesNAS [53] 2.81 0.04 - 3.4 0.2数据(M = 7)[51] 2.79 - 2.9 1PC-DARTS [42] 2.57 0.07 - 3.6 0.1ASNG-NAS [1] 2.83 0.14 - 3.9 0.11SI-VDNAS-C+ [37] 2.60 0.05 16.20 2.7 0.8GDAS [15] 2.93 18.38 3.4 0.21SDARTS-ADV [7] 2.61 0.02 - 3.3 1.3SGAS [25] 2.66 0.24 - 3.7 0.25DARTS-2.59 0.08 - 3.5 0.4TE-NAS [6]2.630.06-3.80.05VIM-NAS2.450.0415.803.90.007表1.在CIFAR-10/100上与最先进的基于梯度的NAS图像分类方法进行比较。对于每种方法,前1个测试误差(%)、参数数量(M)和搜索成本(GPU-天)进行评估。这里,较低的错误率代表较好的性能,*表明实验是由P-DARTS进行的。t表示SI-VDNAS-C是搜索到的收敛小区。电脑飞镖。此外,我们在ImageNet上进行直接搜索,并实现了更好的性能,前1错误率为23.8%,前5错误率为7.1%。4.3. NAS-Bench-201实验设置. NAS-Bench-201 [13]基于缩减的类DARTS小区搜索空间,有4个内部节点,每个节点有5个操作,总共构建了15,625个架构。在三个数据集(CIFAR-10,CIFAR-100,ImageNet-16-120 [9])上的所有架构性能都可以进行比较。通过在数据库中查询作为地面实况而直接获得我们使用与第4.2节相同的搜索设置,并保持所有比较方法的超参数与[13]相同。我们用不同的随机种子运行每种方法4次,并将结果报告在表3中。12318架构测试误差(%)FLOPS 搜索成本Top-1Top-5(男)(GPU-天)[29]第29话26.78.75741GDAS [15]26.08.55810.21帕塞克[5]26.08.4-1[42]第四十二话25.17.85860.1[42]第四十二话24.27.35973.8P-DARTS [8]24.47.45570.3[27]第二十七话23.97.45826.8DARTS-†[10]23.87.04674.5FairDARTS-B [11]24.97.55410.4DSO-NAS-share [52]25.48.45866SDARTS-ADV [7]25.27.8-1.3SGAS [25]24.27.25850.25SparseNAS [40]24.77.6-1BayesNAS [53]26.58.9-0.2数据(M = 7)[51]24.98.1-1.5SI-VDNAS-B [37]25.38.05770.3TE-NAS [6]26.28.3-0.05TE-NAS† [6]24.57.5-0.17VIM-NAS24.07.26270.007VIM-NAS†23.87.16600.26表2.与ImageNet上最先进的基于梯度的NAS方法进行比较。对于每种方法,评估前1和前5个测试误差(%)、FLOPS(M)和搜索成本(GPU-天)。这里,较低的错误率代表较好的性能,并且该架构直接在ImageNet上搜索。结果在CIFAR-10上的搜索过程中,我们提出的VIM-NAS可以在训练一个epoch(在单个NVIDIA GTX 1080Ti GPU上为232.51秒)后达到收敛结果。与随机基线相比,我们的VIM-NAS在所有三个数据集上显示出更好的性能。与其他可微算法DARTS-V1 [29]、DARTS-V2 [29]、GDAS [15]、SETN [14],DARTS- [10]和TE-NAS [6],我们提出的VIM-NAS实现了一个新的最先进的,其中最好的几乎达到了最优。此外,我们实现了国家的最先进的性能,通过训练一个时代,大大减少搜索时间,这是最小的微分方法。尽管TE-NAS提出了一种无需训练的策略,但搜索成本是VIM-NAS的六倍因此,我们的VIM-NAS在NAS-Bench-201上表现出更稳定和更高的4.4. NAS-Bench-1 Shot 1实验设置. NAS-Bench-1 Shot 1 [49]由基于CIFAR-10的3个搜索空间组成,分别包含6,240、29,160和363,648个架构。宏架构通过堆叠3个块来构造,并且每个块包含3个堆叠的单元。每个单元的微架构表示为DAG。搜索算法需要确定每条边上的操作,以及连接输入、输出节点和选择块的边的拓扑。我们利用建筑神经网络(与第4.2节相同)对操作分布进行建模,并保持其他参数与[49]相同,以确定拓扑。我们比较我们提出的方法与其他流行的NAS算法在所有3个搜索空间。每个算法在三个独立的时间内训练50个历元,并且超参数被设置为默认值[49]。结果图4显示了三次独立运行的平均随时测试遗憾。我们提出的VIM-NAS在所有三个搜索空间中训练几个时期(2-5个时期)后可以达到收敛结果。虽然由结构神经网络参数化的操作分布在一个时期内达到收敛,但其他拓扑参数需要几个时期才能收敛。权重共享随机搜索[26]和ENAS [34]主要发现一些性能较差的架构。GDAS [15] 转 向 过 早 地 收 敛 到 次 优 局 部 最 小 值 。DARTS和PC-DARTS随着搜索过程的逐步进行,探索了一些更好的体系结构。我们提出的VIM-NAS在分别在搜索空间1和2中训练几个时期后实现了最先进的性能。对于搜索空间3,VIM-NAS在训练两个时期后也能达到令人满意的结果与GDAS相比,GDAS证明了由于Gumbel Softmax的温度退火而导致的过早收敛,我们的VIM-NAS在所有三个搜索空间中始终收敛到更好的局部最小值。4.5. 简化搜索空间S1-S4上的实验设置. RobustDARTS(R-DARTS)[48]提出了四个简化的搜索空间(S1-S4),其保持与DARTS相同的宏架构,但仅包含一部分候选操作(请参考R-DARTS [48]中的细节)。我们使用相同的体系结构神经网络搜索CIFAR-10,以模拟第4.2节中R-DARTS [48]、SDARTS[7]和DARTS-[10]有两种不同的评估设置在R-DARTS [48]之后,我们在S1和S3中使用具有36个初始信道的20个小区用于CIFAR-10,在S2和S4中使用具有16个初始信道的20个小区用于CIFAR-10,并且在所有四个搜索空间中使用具有16个初始信道的8个小区用 于 CIFAR-100 此 外 , 根 据 SDARTS [7] 和 DARTS-[10],我们在S2和S4中使用具有36个初始信道的20个小区来评估CIFAR-10的架构性能,并且在所有四个搜索空间中使用具有36个初始信道的20个我们将每个方法独立运行4次,并选择表4中报告的最终最佳架构性能。结果我们提出的VIM-NAS可以在训练一个epoch(10分钟内)后收敛,并且搜索的架构性能在多个空间和数据集上优于最近的SOTA,这进一步证明了VIM-NAS的鲁棒性。具体而言,我们发现S1中的良好是-12319方法± ±±± ± ± ± ±±± ± ± ± ±±± ± ± ± ±±± ± ± ± ±±×搜索成本CIFAR-10(%)CIFAR-100(%)ImageNet-16-120(%)(秒)验证测试ResNet [21] N/A 90. 83 93. 97 70. 42 70. 86 44. 5343.63随机0.01 90.93± 0.36 93.70± 0.36 70.60± 1.37 70.65± 1.38 42.92± 2.00 42.96± 2.15钢筋[54] 0.12 91.09± 0.37 93.85± 0.37 70.05± 1.67 70.17± 1.61 43.04± 2.18 43.16± 2.28ENAS [34] 14058.80 39.77± 0.00 54.30± 0.00 10.23± 0.12 10.62± 0.27 16.43± 0.00 16.32± 0.00DARTS(第一)[29] 11625.77 39.77± 0.00 54.30± 0.00 38.57± 0.00 38.97± 0.00 18.87± 0.00 18.41± 0.00DARTS(第二)[29] 35781.80 39.77± 0.00 54.30± 0.00 38.57± 0.00 38.97± 0.00 18.87± 0.00 18.41± 0.00GDAS [15] 31609.80 89.89 0.08 93.61 0.09 71.34 0.04 70.70 0.30 41.59 1.33 41.71 0.98[14] 34139.53 84.04 0.28 87.64 0.00 58.86 0.06 59.05 0.24 33.06 0.02 32.52 0.2111625.77 91.03 0.44 93.80 0.40 71.36 1.51 71.53 1.51 44.87 1.46 45.12 0.82TE-NAS [6] 1558 - 93.90 0.47 - 71.24 0.56 - 42.38 0.46我们的232.5191.48 0.09 94.31 0.11 73.12 0.51 73.07 0.58 45.92 0.51 46.27 0.17我们的(最好的)232.51 91.55 94.36 73.49 73.51 46.37 46.34最佳不适用91.61 94.37 73.49 73.51 46.77 47.31表3.与NAS-Bench-201上最先进的NAS方法进行比较[13]。4次搜索的平均值基准 飞镖<$R-飞镖<$飞镖<$飞镖-<$我们的<$DP L2 ES ADAPC-DARTS‡SDARTS‡RS ADVDARTS-‡我们的‡S13.843.112.783.013.102.682.613.112.782.732.682.61C10S24.853.483.313.263.353.713.223.022.752.652.632.53S33.342.932.512.742.592.422.422.512.532.492.422.42S47.203.583.563.714.843.883.553.022.932.872.862.85S129.4625.9324.2528.3724.0322.4122.0718.8717.0216.8816.9216.12C100S226.0522.3022.2423.2523.5221.6120.9018.2317.5617.2416.1416.35S328.9022.3623.9923.7323.3721.1321.1118.0517.7317.1215.8615.94S422.8522.1821.9421.2623.2021.5521.0117.1617.1715.4617.4817.39表4.在各种搜索空间中进行比较。我们报告了4个发现的架构的最低错误率(%)。‡:在[7,10]评估设置下,所有模型都有20层和36个初始通道。†:在[48]设置下,其中S2和S4中的CIFAR-10模型具有20层和16个初始通道,并且CIFAR-100模型具有8层和16个初始通道。VIM-NAS在S2中实现了最先进的性能,在小评估设置下 , CIFAR-10 和CIFAR-100 的 前1 测 试误 差 分 别为2.53%和20.90%。在S3中,我们获得了性能良好的架构,CIFAR-10的最先进的top-1测试误差为2.42%,CIFAR-100为21.11%。此外,在S4中,VIM-NAS在CIFAR-10上实现 2.85%的前1错误率,在CIFAR-100上实现21.01%的前1错误率所有这些模型的架构都可以在补充材料中找到。4.6. 大量的实验由于DARTS搜索空间是最流行的搜索空间,我们进行了广泛的实验。建筑网络的消融研究。为了证明我们提出的架构神经网络的有效性,我们进一步使用vanilla评估DARTS†148个建筑参数,但具有相同的预-训练阶段,后验高斯分布与协方差-的 概 率 为 1 , 并 且 对 于 架 构 神 经 网 络 的 学 习 率(0.025)与VIM-NAS相同为了更好地理解搜索算法的收敛性,我们将正常细胞和约简细胞的第一边缘的结构权重可视化。如图6所示,vanilla DARTS收敛得很慢并且在结构参数的均匀化中具有很高的不确定性。虽然具有相同的大学习率,但DARTS†无法快速收敛,并且表现得像噪音。如图8所示,我们提出的VIM-NAS可以实现快速收敛到良好的在训练一个epoch之后执行局部最小值。因此,我们的神经网络结构设计有助于快速稳定的收敛。为了验证架构网络的设计,我们进一步实现了一个小的架构神经网络与一个单一的ConvReLUBN模块和一个大的架构神经网络与五个模块,分别表示为VIM-NAS-小和VIM-NAS-大。详细的网络结构请参考补充资料。正常细胞的第一边缘的结构权重在图7中可视化,并且评估性能在表5中列出。VIM-NAS-Small算法性能稍差,收敛不稳定,由于网络容量有限,收敛波动较大。VIM-NAS-Large在训练几个时期后逐渐收敛,因为大型架构神经网络需要更长的训练时间。近似后验结构分布的广泛实验而不是利用概率-12320(a) DARTS-N(b)DARTS†-N图 6. DARTS 搜 索 空 间 上 的 任 何 时 间 架 构 权重。’N’DARTS†:DARTS以高学习率(0.025)和添加的噪声来实现。(a)VIM-NAS-S-N(b)VIM-NAS-L-N图7. DARTS搜索空间上的任何时间架构权重。“N”表示搜索的正常单元。VIM-NAS-S:使用小型架构网络实施的VIM-NAS。VIM-NAS-L:使用大型架构网络实施的VIM-NAS。(a)VIM-NAS-N(b)VIM-NAS-R图8. DARTS搜索空间上的任何时间架构权重。’N’ and ’R’denote normal cell and reduction cell,(a)VIM-NAS-D-N(b)VIM-NAS-P-N图9. DARTS搜索空间上的任何时间架构权重。’N’VIM-NAS-D:使用VIM重新制定变差丢失NASVIM-NAS-P-N:使用点估计实现的VIM-NAS。在第3.2节中,我们直接利用卷积神经网络作为点估计来近似架构分布。方法DARTS DARTS†VIM-NAS前1位误差(%)3.00 2.65 2.45参数(M)3.3 3.6 3.9方法VIM-NAS-S VIM-NAS-L VIM-NAS-D前1位误差(%)2.51 2.58 2.58参数(M)3.6 3.7 3.3表5.在CIFAR10上进行广泛的实验。DARTS†:以高学习率(0.025)和添加的噪声实现的DARTS。VIM-NAS-S:使用小型架构网络实施的VIM-NAS。VIM-NAS-L:使用大型架构网络实施的VIM-NAS。VIM-NAS-D:具有变分信息最大化的变分丢弃NAS的重新表述。构造分布,即VIM-NAS-P。此外,我们还利用卷积神经网络来参数化后验结构分布的方差,这被认为是第3.5 节 中 变 分 丢 弃 NAS 的 重 新 表 述 , 即 VIM-NAS-Dropout。搜索的正常细胞的第一边缘的架构权重在图9中可视化VIM-NAS-P算法收敛速度慢,波动较大,点VIM-NAS-Dropout也可以像VIM-NAS一样实现快速稳定的收敛。5. 结论在本文中,我们提供了新的见解NAS的架构分布是一个给定的数据集的潜在表示。然后,我们利用一个简单而有效的卷积神经网络来模拟建筑分布之间的依赖关系。此外,我们提出了一种新的搜索策略,以最大限度地提高数据点和潜在的建筑表示之间的互信息的变分下界。实验结果表明,VIM-NAS在一个时期内表现出极快的收敛速度,并在各种搜索空间上实现了最先进的性能,包括DARTS搜索空间,NAS-Bench-1shot 1,NAS-Bench-201和简化的搜索空间S1-S4。具体而言,VIM-NAS在CIFAR-10和CIFAR-100上分别在10分钟内实现了2.45%和15.80%的前1错误率。当传输到ImageNet时,VIM-NAS达到了24.0%的top-1错误率。此外,ImageNet上的直接搜索实现了更好的性能,前1错误率为23.8%,前5错误率为7.1%。确认这 项 工 作 得 到 了 国 家 自 然 科 学 基 金 61932022 、61720106001 、 61931023 、 61831018 、 61971285 、61871267 、 61871268 、 61971285 、 61871267 、61971288、61971289、6197161972256、61838303,部分由上海市科技创新工程项目资助20511100100.12321引用[1] 秋本佑平、白川真一、吉成野三、内田健人、斋藤正太、西田幸平。自适应随机自然梯度法用于单次神经结构搜索。在第36届机器学习国际会议论文集,第171-180页[2] 钱保,吴柳,君弘,段凌玉,桃梅。用于多人人体姿态估计的姿态原生网络架构搜索第28届ACM国际多媒体会议论文集,第592-600页,2020年[3] Gabriel Bender,Pieter-Jan Kindermans,Barret Zoph,Vijay Vasudevan,and Quoc Le.理解和简化一次性架构搜索。第35届国际机器学习会议论文集,第549- 558页,2018年[4] Andrew Brock,Theo Lim,J.M.里奇和尼克·韦斯顿SMASH:通过超网络进行一次性模型架构搜索。在2018年第六届学习表征国际会议上[5] Francesco Paolo Casale ,Jonathan Gordon , and NicoloFusi. 概 率 神 经 结 构 搜 索 。 arXiv 预 印 本 arXiv :1902.05116,2019。[6] 陈舞阳、新余公、张阳王。ImageNet上的神经架构搜索只需4个GPU小时:一种理论上的启发性视角。2021年第九届学习表征国际会议[7] Xiangning Chen和Cho-Jui Hsieh。通过基于扰动的正则化稳定可微分体系结构搜索。在第37届机器学习国际会议论文集,第1554-1565页[8] 辰昕、邪灵犀、君无邪、齐天。 渐进式可区分体系结构搜索:缩小搜索和评估之间的深度差距。2019年IEEE/CVF国际计算机视觉会议(ICCV),第1294[9] Patryk Chrabaszcz , Ilya Loshchilov 和 Frank Hutter 。ImageNet的下采样变体作为CIFAR数据集的替代方案。arXiv预印本arXiv:1707.08819,2017。[10] Xiangxiang Chu , Xiaoxing Wang , Bo Zhang , ShunLu,Xiao-lin Wei,and Junchi Yan. DARTS-:在没有指标的情况下,稳健地走出业绩崩溃。2021年第九届国际学习表征会议[11] Xiangxiang Chu,Tianbao Zhou,Bo Zhang,and JixiangLi.公平DART
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功