根据上述论述，可以总结出一个作为文件的20字中文标题：“基于贝叶斯学习规则的可微分架构搜索”

33 浏览量更新于2023-10-25 收藏 12.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

*Corresponding Author: Steven Sulearning applications, including image classiﬁcation [41], ob-ject detection [11], stereo matching [13]. Although NAS hasthe potential to ﬁnd high-performing architectures withouthuman intervention, the early NAS methods have extremely-high computational requirements [18,37]. This high com-putational requirement in NAS is unaffordable for most re-searchers and practitioners. Since then, more researchersshift to improve the efﬁciency of NAS methods [19,28,36].Weight sharing NAS, also called One-Shot NAS [2,36], de-ﬁnes the search space as a supernet, and only the supernetis trained for once during the architecture search. The ar-chitecture evaluation is based on inheriting weights fromthe supernet without retraining, thus signiﬁcantly reducingthe computational cost. Differentiable architecture search(DARTS) [31], which is one of the most representative works,further relaxes the discrete search space into continuousspace and jointly optimize supernet weights and architec-ture parameters with gradient descent, to further improveefﬁciency. Through employing two techniques, weight shar-ing [2,36] and continuous relaxation [6,15,31,46], DARTSreformulates the discrete operation selection problem in NASas a continuous magnitude optimization problem, which re-duces the computational cost signiﬁcantly and completes thearchitecture search process within several hours on a singleGPU.118710BaLeNAS：通过贝叶斯学习规则进行可微分架构搜索0Miao Zhang 1 Shirui Pan 2 Xiaojun Chang 3, 4 Steven Su 5 * Jilin Hu 1 Gholamreza Haffari 2 Bin Yang 101 Aalborg University 2 Monash University 3 ReLER, AAII, UTS4 RMIT University 5 Shandong First Medical University0{miaoz, hujilin, byang}@cs.aau.dk, xiaojun.chang@uts.edu.au0{shirui.pan, gholamreza.haffari}@monash.edu, steven.su@uts.edu.au0摘要0Differentiable ArchitectureSearch（DARTS）近年来受到广泛关注，主要是因为它通过权重共享和连续松弛显著降低了计算成本。然而，最近的研究发现，现有的可微分NAS技术在搜索过程中很难超越朴素的基准线，导致架构恶化。本文将神经架构搜索形式化为通过将架构权重松弛为高斯分布的分布学习问题。通过利用自然梯度变分推断（NGVI），可以基于现有的代码库轻松优化架构分布，而不会增加更多的内存和计算消耗。我们演示了可微分NAS如何从贝叶斯原理中受益，增强了探索性和稳定性。NAS基准数据集上的实验结果证实了所提出的框架可以取得显著的改进。此外，我们不仅仅在学习的参数上应用argmax，还进一步利用NAS中最近提出的无需训练的代理来从优化分布中选择最佳架构，我们在NAS-Bench-201和NAS-Bench-1shot1基准测试中取得了最先进的结果。我们在DARTS搜索空间中的最佳架构在CIFAR-10、CIFAR-100和ImageNet上的测试错误率分别为2.37％、15.72％和24.2％。01. 引言0神经架构搜索（NAS）[12, 25-27, 38, 45,0尽管可微分NAS在计算效率方面有显著优势，但最近的研究发现直接优化架构大小仍然不可靠[8,50]。例如，DARTS无法稳定地获得优秀的解决方案，并在搜索过程中产生恶化的架构，在某些情况下甚至比随机搜索表现更差[49]。这个关键弱点被称为可微分NAS中的不稳定性[50]。Zela等人[50]通过实验证明，DARTS的不稳定性与验证损失相对于架构参数的Hessian的最大特征值高度相关，而这个特征值在架构搜索过程中增加。因此，他们提出了一个基于这个最大特征值的简单早停准则来增强DARTS的鲁棒性。此外，minαθ∈Aθ Lval�argminwLtrain(w(αθ), αθ)�,(1)Lval(w∗, α∗) = Lval(w∗, α∗θ) + ▽αθLval(w∗, α∗θ)T (α∗ − α∗θ)+ 12(α∗ − α∗θ)T H(α∗ − α∗θ)= Lval(w∗, α∗θ) + 12(α∗ − α∗θ)T H(α∗ − α∗θ)(2)118720Wang等人[44]观察到DARTS在架构选择的最终离散化过程中的不稳定性，优化的大小几乎无法指示操作的重要性。另一方面，一些研究[9, 29, 39,56]指出，直接优化架构参数而不进行探索很容易导致富者恒富问题，导致那些收敛速度更快但训练结束时性能较差的架构，例如具有密集跳跃连接的架构[14,30]。与大多数直接优化架构参数的现有方法不同，我们从分布学习的角度研究可微分NAS，并引入贝叶斯学习规则[22,23, 33,35]到可微分NAS的架构优化中，考虑自然梯度变分推断（NGVI）方法来优化架构分布，我们称之为BaLeNAS。我们从理论上证明了该框架如何自然地增强可微分NAS的探索性能并提高稳定性，实验结果证实了我们的框架增强了可微分NAS的性能。与仅仅对均值应用argmax以获得离散架构不同，我们首次利用无需任何额外训练成本的训练免费代理[1, 7,32]从优化的分布中选择更具竞争力的架构。具体而言，我们的方法在NAS-Bench-201[16]上实现了最先进的性能，并在NAS-Bench-1shot1[51]上大幅提高了性能，在DARTS[31]搜索空间的CIFAR-10、CIFAR-100和ImageNet数据集上获得了有竞争力的结果，分别为2.37％、15.72％和24.2％的测试错误率。我们的贡献总结如下。0•首先，本文将神经架构搜索定义为分布学习问题，并构建了一个通用的贝叶斯框架用于可微分NAS。我们展示了所提出的贝叶斯框架是增强可微分NAS探索和通过隐式正则化Hessian范数改善稳定性的实际解决方案。0•其次，我们首次利用零成本代理从优化的分布中选择具有竞争力的架构，而不是直接对学习参数应用argmax。由于这些代理是在没有任何训练的情况下计算的，因此架构选择可以非常高效地完成。0•第三，所提出的框架基于DARTS构建，并且通过利用自然梯度变分推断（NGVI）可以轻松扩展到其他可微分NAS方法，只需进行最小的修改。实验证明，我们的框架在各种搜索空间中始终改进基线，并获得更具竞争力的架构。02. 预备知识02.1. 可微分架构搜索0可微分架构搜索（DARTS）建立在权重共享NAS[2,36]的基础上，其中超网络每个架构搜索周期只训练一次。DARTS[31]提出了可微分NAS框架，通过将连续松弛（通常是softmax）应用于离散架构空间A，使得架构优化可以进行梯度下降。因此，在超网络训练期间可以同时优化架构参数αθ和超网络权重w，并且一旦超网络训练完成，可以从连续搜索空间Aθ中搜索出有前景的架构参数α�θ。通常采用双层优化公式交替学习αθ和w：0并且最佳离散架构 α � 是在 α � θ 上应用 argmax后获得的。尽管DARTS在计算效率方面有显著的好处，但更近期的研究发现直接优化架构幅度仍然不可靠[ 8 , 50]，DARTS通常在搜索过程中观察到性能崩溃。这种现象也被称为可微分NAS的不稳定性[ 8 ]。Zela等人[ 50]观察到验证损失的Hessian的主特征值与架构的泛化误差之间存在强相关性，在DARTS中保持Hessian矩阵的范数水平较低对于提高可微分NAS的性能起到关键作用[ 8]。此外，如上所述，可微分NAS首先将离散架构松弛为连续表示，以实现梯度下降优化，并将连续架构表示 α θ投影到离散架构 α上进行可微架构优化。然而，更近期的研究[ 44]对DARTS中这种离散化过程的鲁棒性提出了质疑，即架构参数 α � θ 的大小几乎无法指示具有 argmax的操作的重要性。以DARTS为例，搜索到的架构参数 α θ是连续的，而 α 在 argmax 后用 { 0, 1 } 表示。DARTS假设L val ( w � , α � θ ) 是验证性能 L val ( w � , α � )的良好指标。然而，当我们对局部最优的 α � θ进行Taylor展开时[ 8 , 9 ]，我们有：min ¯ℓ(θ) :=N�i=1ℓi(θ) + ηR(θ),(3)p(θ) := N(θ | 0, I/δ), q(θ) := N(θ | μ, diag(σ2)), (5)L(μ, σ) : = −N�i=1Eq [log p(Di | θ)] + KL(q(θ) ∥ p(θ))= −EqN�i=1log p(Di | θ) + Eq�log q(θ)p(θ)�(6)μt+1 = μt − ςt ˆ∇μLt, σt+1 = σt − ϕt ˆ∇σLt,(7)Ssnip(θ) =��∂L∂θ ⊙ θ��, Sgrasp(−θ) = −(H ∂L∂θ ) ⊙ θ, SSF(θ) = ∂RSF∂θ⊙ θ, (8)118730其中 ▽ α θ L val = 0 是由于局部最优条件，H 是 L val ( w �, α θ )的Hessian矩阵。我们可以看到最终连续架构表示和最终离散架构的不一致性与Hessian矩阵的范数有关。然而，正如[50]中的实证结果所示，这个Hessian矩阵的特征值在架构搜索过程中增加，导致更多的不一致性。02.2. 贝叶斯深度学习0给定数据集 D = {D 1 , D 1 , ..., D N } 和具有参数 θ的深度神经网络，学习 θ的最流行方法是经验风险最小化（ERM）：0其中 ℓ i 是损失函数，例如，ℓ i = − log p ( D i | θ )用于分类， R 是正则化项。相比之下，贝叶斯深度学习估计θ 的后验分布，p ( θ | D ) := p ( D | θ ) p ( θ ) /p ( D )，其中 p ( θ )是先验分布。然而，对于大规模的深度神经网络，计算归一化常数 p ( D ) = � p ( D | θ ) p ( θ ) dθ很困难。变分推断（VI）[ 17 ]通过近似 p ( θ | D )为新的分布 q ( θ ) ，并最小化 p ( θ | D ) 与 q ( θ )之间的Kullback-Leibler（KL）散度，解决了这个问题，argmin θ KL ( q ( θ ) ∥ p ( θ | D )) . (4)0当将 p ( θ ) 和 q ( θ )都视为具有对角协方差的高斯分布时：0其中 δ 是已知的精度参数，δ > 0 ，q 的均值 μ 和偏差 σ 2可通过最小化证据下界（ELBO）[ 3 ]来估计：0一种直接的方法是使用随机梯度下降来学习μ和σ2，并同时最小化L，称为Bayes by Backprob (BBB) [4]：0其中ςt和ϕt是学习率，ˆ�μLt和ˆ�σLt是μt和σt处L的无偏随机梯度估计。然而，VI对于学习大型深度网络仍然不切实际。明显的问题是VI引入了更多参数学习的内存需求。0需要学习更多参数，因为它需要用随机变量替换所有神经网络权重，并同时优化两个向量μ和σ来估计θ的分布，因此内存需求也增加了一倍，在将现有的可微分NAS代码库与变分推理相适应时需要进行很多修改。02.3. NAS的无训练代理0无训练NAS试图在初始化时识别有前途的体系结构，而不需要进行训练。Mellor等人通过实验证明，样本级输入输出Jacobian之间的相关性可以指示体系结构的测试性能，并提出使用Jacobian对一组随机采样的具有随机初始化权重的模型进行评分，贪婪地选择得分最高的模型。TE-NAS利用NTK的频谱和线性区域的数量来分析体系结构的可训练性和表达能力。TE-NAS不同于评估整个体系结构，它使用基于扰动的体系结构选择来衡量每个操作对超网络修剪的重要性。Zero-costNAS将网络修剪中的显著性度量扩展到初始化时对体系结构进行评分，通过对体系结构中所有参数θ的得分进行求和。有三种流行的显著性度量，SNIP [24]，GraSP [43]和Synflow[42]：0其中L是基于初始化权重的常见损失，H是Hessian矩阵，RSF定义为R SF = 1 T �� L l =1 �� θ [ l ] �� 1，使得SynFlow与数据无关。由于这些分数可以在没有任何训练的情况下获得，零成本NAS利用这些零成本代理来辅助NAS通过热身不同的搜索算法，例如初始化种群或控制器用于老化进化NAS和基于RL的NAS。与在搜索之前利用代理的零成本NAS不同，我们在搜索之后利用这些零成本代理来从优化的分布中选择更具竞争力的体系结构。03. 提出的方法：BaLeNAS03.1. 将NAS作为分布学习进行建模0不同iableNAS通常将体系结构参数αθ视为可学习参数，并直接在该空间中进行优化。大多数先前的可微分NAS方法首先基于性能的梯度优化体系结构参数，然后基于更新的体系结构参数更新超网络权重。由于具有更新的超网络权重的体系结构应具有更高的性能，在早期阶段具有更好性能的体系结构具有更高的概率。Eq [Lval] := −EqNlog p(Di | αθ) + Eq log q(αθ)p(αθ).λt+1 = λt − ρt∇λLt + γt(λt − λt−1),μt+1 =μt − βt(ˆg(θt) + ˜δμt) ◦1(st+1 + ˜δ)+ γt�st + ˜δst+1 + ˜δ�◦ (μt − μt−1),(17)118740被选为超网络训练。超网络训练再次提高了这些体系结构的性能。这就是说，直接优化αθ而不进行探索很容易导致富者越富问题[29,56]，在搜索空间中导致更快地收敛于开始时但很快停滞的次优路径[9,39]。相反，通过放松体系结构参数，将可微分NAS建模为分布学习问题可以自然地引入随机性并鼓励探索以解决这个问题[8,9]。在本文中，我们将体系结构搜索形式化为分布学习问题，首次考虑了更一般的高斯分布用于优化后验分布p(αθ |D)，而不是αθ。将p(θ)和q(θ)都视为高斯分布，如式(5)，方程(1)中的双层优化问题可以重新表述为基于分布学习的NAS：0min μ,σ E q ( α θ | μ,σ ) L val ( w � ( α0s.t. w � ( α θ ) = argmin w L train ( w ( α θ ) , αθ )，(9)0其中μ和σ是分布q(αθ|μ,σ)的两个可学习参数，其中q(αθ|μ,σ) := N ( α θ | μ, diag ( σ 2))。考虑到变分推断和贝叶斯深度学习，基于Eq. ( 4 ) - ( 6)，外循环架构分布优化问题的损失函数可以定义为：0(10)由于架构参数αθ是从高斯分布q(αθ|μ,σ)中采样得到的随机变量，基于分布学习的方法在架构搜索过程中自然地鼓励探索。03.2. NAS的自然梯度变分推断0如第2.2节所述，传统的变分推断需要双重内存需求，并且需要重新设计目标函数，使其难以适应可微分NAS。因此，本文考虑使用自然梯度变分推断（NGVI）方法[22,35]在自然参数空间中优化架构分布p(αθ|D)，这需要与传统学习方法相同数量的参数。通过利用NGVI，架构参数分布可以通过仅更新自然参数λ来学习搜索过程中的架构参数分布。NGVI使用自然参数λ对分布q(αθ)进行参数化，考虑到q(αθ|λ)在具有自然参数λ的最小指数族类中[21]：0q ( α θ | λ ) := h ( α θ ) exp � λ T φ ( α θ ) − A ( λ) �，(11)0其中h(αθ)是基本测度，φ(αθ)是包含充分统计量的向量，A(λ)是对数分区函数。当h(αθ) ≡1时，可以通过仅更新λ来学习分布q(αθ|λ)[22,23]，并且λ可以在训练过程中在自然参数空间中学习：0λ t +1 = (1 − ρ t ) λ t − ρ t � μ E q t � ¯ ℓ ( α θ0其中ρt是学习率，¯ℓ的形式为Eq. (3)，导数�μEq t (αθ) �¯ℓ(αθ)�在μ =μt处取值，μt是具有马尔可夫链蒙特卡洛（MCMC）采样的期望参数。q t是由λt参数化的q(αθ|λ)，μ =μ(λ)是q(αθ|λ)的期望参数。这也被称为贝叶斯学习规则[23]。当我们考虑高斯均值场VI时，p(αθ)和q(αθ)的形式为Eq.(5)，Khan等人提出的变分在线牛顿（VON）方法[22]表明NGVI更新可以写成以下形式：0μ t +1 = μ t − β t (ˆ g ( θ t ) + ˜ δμ t ) / ( s t +1+ ˜ δ )，(13)0s t +1 = (1 − β t ) s t + β t diag [ ˆ � 2 ¯ ℓ ( θ t0其中β t 是学习率，θ t � N ( α θ | μ t , σ 2 t )，其中σ 2 t =1 / [ N ( s t + ˜ δ )]，而 ˜ δ = δ/N。ˆ g0i ∈M � α θ ¯ ℓ i ( α θ)，小批量M包含M个样本。更多细节请参见[22]。变分RMSprop（Vprop）[22]进一步使用梯度幅度（GM）[5]近似重构了Eq.(14)：0s t +1 = (1 − β t ) s t + β t [ˆ g ( θ t ) ◦ ˆ g ( θ t0i ∈M t g i ( α j θ ) � 2 = [ˆ g ( θ j t )] 2 [ 5]。VON和Vprop最重要的好处是它们只需要计算一个参数的梯度来更新后验分布。这种学习范式需要与传统的学习方法相同数量的参数，并且易于与现有的代码库配合使用。我们基于DARTS [ 31]框架实现了提出的BaLeNAS，这是最流行的可微分NAS基准。类似于DARTS，BaLeNAS还考虑了用于架构优化的类似Adam的优化器，通过更新自然参数λ来更新p(θ|D)的参数：0根据公式（13）和（15）中的Vprop，使用NGVI进行Adam-like优化器的μ和σ的更新，也称为变分Adam（VAdam），可以定义如下：st+1 = (1 − βt)st + βt[ˆg(θt) ◦ ˆg(θt)].(18)qt(αθ)=Eϵ∼N (0,σ2)[Lval(w, μ) + ▽μLval(w, μ)T ϵ + 2ϵT Hϵ]=Eϵ∼N (0,σ2)�Lval(w, μ) + 12ϵT Hϵ�=Lval(w, μ) + σ22 Tr {H} ,(19)118750算法1 BaLeNAS使用超网络的超网络权重w和架构参数αθ进行初始化，当未收敛时执行以下操作：02:根据公式（17）和（18）更新q(αθ|μ,σ2)的μ和σ2，使用VAdam优化器更新超网络权重w，使用常规SGD优化器。4:结束循环，通过argmax获得离散架构α�；或者从q(α�θ|μ,σ2)中采样一组αθ，并利用训练免费的代理进行选择。0其中“◦”表示逐元素乘积，θt�N(αθ|μt,σ2t)，其中σ2t=1/[N(st+˜δ)]。正如在第2.2节中指出的那样0根据公式（17）和（18）所示，分布q(αθ|μ,σ2)现在已经优化，只需要计算一个参数的梯度。0通过MCMC采样的隐式正则化：最近的几项研究[8,9,50]在实证和理论上都表明，可微分NAS的性能与Hessian矩阵H的范数密切相关，并且将该范数保持在较低水平对于增强可微分NAS的鲁棒性起到关键作用。如前所述，我们知道BaLeNAS中架构优化的损失Eq(αθ)�¯ℓ(αθ)�是基于MCMC采样计算的，显示了增强探索的自然性。此外，Eq(αθ)�¯ℓ(αθ)�在可微分NAS中也具有增强稳定性的自然性，如SDARTS[8]。在进行Taylor展开时，用于架构参数更新的损失函数Eq(αθ)�¯ℓ(αθ)�可以描述为：0= E q ( αθ | μ,σ ) L val ( w, αθ ) = E ϵ �N (0 ,σ 2 ) L val ( w, μ+ ϵ )0由于Eϵ�N(0,σ2)[▽μLval(w,αθ)Tϵ]=Eϵ�N(0,σ2)[ϵ]�▽μLval(w,αθ)=0，其中ϵ�N(0,σ2)是均值为零的高斯分布，E(ϵ2)=σ2，所以得到了公式（19）中的第4行。μ是q(αθ|μ,σ2)的期望参数，H是Lval(w,μ)的Hessian矩阵。我们可以找到隐式控制H的迹范数的损失函数，类似于[8,9]，有助于稳定可微分NAS。03.3. 从分布中选择架构0在BaLeNAS优化之后，我们学习到了架构参数q(α�θ|μ,σ2)的优化高斯分布，用于获得最优架构α�。在本文中，我们考虑两种方法来获得离散架构α�。第一种方法是一种简单直接的方法，通过argmax来选择每个边的最佳操作，其中期望项简单地是均值μ[9]，类似于DARTS。然而，正如我们在第2.1节中所描述的，这种方法可能导致不稳定性和不一致性。第二种方法更通用，它从分布q(α�θ|μ,σ2)中采样一组α进行架构选择。然而，在神经架构搜索中，评估一组架构将产生无法承受的计算成本。在本文中，我们不是像[1]那样在搜索之前通过预热利用训练免费的代理来辅助NAS，而是在搜索之后使用这些代理，包括SNIP[24]、GraSP[43]和Syn�ow[42]，为选择后的采样架构评分。算法1给出了BaLeNAS的一个简单实现，其中只有红色部分与DARTS不同。正如所示，在我们的BaLeNAS中，只有架构参数优化与DARTS不同，它使用了VAdam优化器，使得它易于实现，并且在最小修改的情况下也易于适应其他现有的可微分NAS方法。04. 实验和结果0在本节中，我们考虑了三个不同的搜索空间来分析提出的BaLeNAS框架。前两个是NAS基准数据集NAS-Bench-201[16]和NAS-Bench-1shot1[51]。这两个基准数据集中所有候选架构的真实结果是已知的。基于这些基准数据集，可以评估NAS方法而无需重新训练搜索到的架构，从而大大减轻计算负担。第三个是DARTS[31]中常用的CNN搜索空间。我们首先在两个基准数据集上分析我们提出的BaLeNAS，然后将其与DARTS搜索空间中的最先进NAS方法进行比较。04.1. 基准数据集上的实验0NAS-Bench-201[16]具有统一的基于单元的搜索空间，其中单元结构是密集连接的，每个节点上应用了五个候选操作，共有15,625个架构。NAS-Bench-201报告了该搜索空间中所有架构在CIFAR-10、CIFAR-100和Imagenet上的性能。NAS-Bench-1shot1[51]是通过将NAS-Bench-101基准数据集[48]中的所有架构划分为3个不同的基于单元的统一搜索空间而构建的，分别包含6,240、29,160和363,648个架构。GDAS [15]90.00±0.2193.51±0.1371.14±0.2770.61±0.2641.70±1.2641.84±0.90DrNAS [9]91.55±0.0094.36±0.0073.49±0.0073.51±0.0046.37±0.0046.34±0.00DARTS (1st) [31]39.77±0.0054.30±0.0015.03±0.0015.61±0.0016.43±0.0016.32±0.00DARTS (2nd) [31]39.77±0.0054.30±0.0015.03±0.0015.61±0.0016.43±0.0016.32±0.00Zero-cost NAS [1]90.19±0.6693.45±0.2870.55±1.6170.73±1.3643.24±2.5243.64±2.42BaLeNAS (1st)91.03±0.1593.62±0.1270.88±0.6070.98±0.4145.19±0.7545.25±0.86BaLeNAS (2nd)91.32±0.0994.02±0.1471.53±0.0871.93±0.2745.39±0.1745.48±0.39BaLeNAS-TF91.52 0.0494.33 0.0372.67 0.4172.95 0.2846.14 0.2346.54 0.360510152025303540Epoch0.050.060.070.080.090.10.110.12ErrorDARTS(1st) ValidBaLeNAS(1st) ValidDARTS(1st) TestBaLeNAS(1st) Test0510152025303540Epoch0.050.060.070.080.090.10.110.12ErrorDARTS(2nd) ValidBaLeNAS(2nd) ValidDARTS(2nd) TestBaLeNAS(2nd) Test118760表1. 在NAS-Bench-201上与最先进的NAS方法的比较结果。0方法 CIFAR-10 CIFAR-100 ImageNet-16-1200验证(%) 测试(%) 验证(%) 测试(%) 验证(%) 测试(%)0随机基线 83.20 ± 13.28 86.61 ± 13.46 60.70 ± 12.55 60.83 ± 12.58 33.34 ± 9.39 33.13 ± 9.660最优 91.61 94.37 73.49 73.51 46.77 47.310BaLeNAS-TF的最佳单次运行在三个数据集上分别达到了94.37%、73.22%和46.71%的测试准确率。在这个实验中，我们的BaLeNAS-TF考虑了基于Synflow的代理来进行架构选择。0(a) 一阶近似0(b) 二阶近似0图1.在NAS-Bench-1shot1的搜索空间3上，BaLeNAS和DARTS的验证和测试错误率。0分别报告了每个搜索空间中的架构的CIFAR-10性能。每个搜索空间中的架构具有相同数量的节点和连接，使得可微分NAS可以直接应用于每个空间。04.1.1 可重现的NAS基准比较0表1总结了BaleNAS在NAS-Bench-201上与可微分NAS基线的性能，其中统计结果来自于4个独立的搜索实验，使用了四个不同的随机种子。在我们的BaleNAS中，我们考虑了αθ的期望与argmax相结合来获得有效的架构，而BaleNAS-TF则考虑了训练无关的代理来进行架构选择，样本大小设置为100。如表1所示，BaleNAS在NAS-Bench-201基准测试上取得了最佳结果，并在三个数据集上远远优于其他基线方法。正如第3节所述，BaleNAS基于DARTS框架构建，仅将架构参数建模为分布，并引入贝叶斯学习规则进行优化。如表1所示，BaleNAS的一阶和二阶近似都大幅优于DARTS，验证了我们方法的有效性。更有趣的是，结合训练无关的代理，BaleNAS-TF可以取得更好的结果。0表2. 样本大小的消融研究。0方法（大小）测试准确率 CIFAR-10 CIFAR-100 ImageNet0零成本NAS(10) 92.12 ± 1.25 68.1 ± 2.49 40.07 ± 1.86零成本NAS(50) 92.52 ± 0.05 70.27 ± 0.25 42.92 ± 0.95零成本NAS(100) 93.45 ± 0.16 69.87 ± 0.35 44.43 ± 0.75BaLeNAS-TF(10) 94.08 ± 0.13 72.55 ± 0.42 45.82 ± 0.30BaLeNAS-TF(50) 94.33 ± 0.03 72.95 ± 0.28 46.54 ± 0.36BaLeNAS-TF(100) 94.33 ± 0.03 72.95 ± 0.28 46.54 ± 0.360除了预热外，这些代理还可以在架构选择中帮助可微分的NAS取得更好的结果。我们的BaLeNAS-TF的最佳单次运行在三个数据集上分别达到了94.37%、73.22%和46.71%的测试准确率，这在该基准数据集上是最先进的。0我们还在NAS-Bench-1shot1数据集上进行了比较研究，以进一步验证我们的BaLeNAS将架构搜索重新定义为分布学习问题的有效性。我们将BaLeNAS与基线DARTS在NAS-Bench-1shot1的三个搜索空间上进行了比较，并跟踪了每次迭代中搜索架构的验证和测试性能。如图1所示，在最复杂的搜索空间3中，我们的BaLeNAS在架构搜索过程中通常优于DARTS，无需基于无需训练的代理进行架构选择，无论是在验证误差还是测试误差方面。具体而言，我们的BaLeNAS在早期阶段明显优于基线，表明我们的BaLeNAS能够快速找到优秀的架构并且更加稳定。NAS-Bench-201和NAS-Bench-1shot1上的结果验证了通过将架构搜索定义为分布学习问题，并引入贝叶斯学习规则来优化后验分布，BaLeNAS可以缓解不可微分NAS的不稳定性，并自然地增强探索以避免局部最优。118770表3. 与最先进的共享权重NAS方法的比较结果。0方法测试错误率（%）参数 FLOPs 搜索架构0CIFAR-10 CIFAR-100 ImageNet (M) (M) 成本优化0RandomNAS [28] 2.85 ± 0.08 17.63 27.1 4.3 595 2.7 随机0SNAS [46] 2.85 ± 0.02 20.09 27.3 / 9.2 2.8 467 1.5 梯度0BayesNAS [58] 2.81 ± 0.04 - 26.5 / 8.9 3.40 - 0.2 梯度0GDAS [15] 2.93 18.38 26.0 / 8.5 3.4 538 0.21 梯度0PDARTS [10] 2.50 16.63 24.4 / 7.4 3.4 543 0.3 梯度0PC-DARTS [47] 2.57 ± 0.07 17.11 25.1 / 7.8 3.6 571 0.3 梯度0DrNAS [9] 2.54 ± 0.03 16.30 24.2 / 7.3 4.0 644 0.4 梯度0DARTS+ [30] 2.50 ± 0.11 16.28 - 3.7 - 0.4 梯度0DARTS (第1个) [31] 2.94 - - 2.9 505 1.5 梯度0DARTS (第2个) [31] 2.76 ± 0.09 17.54 26.9 / 8.7 3.4 530 4 梯度0BaLeNAS 2.50 ± 0.07 16.84 25.0 / 7.7 3.82 593 0.6 梯度0BaLeNAS-TF 2.43 ± 0.08 15.72 24.2 / 7.3 3.86 597 0.6 梯度04.1.2 架构选择的消融研究0如上所述，我们的BaLeNAS-TF从优化分布中采样了几种架构，并利用无需训练的代理进行架构选择，而不仅仅是在均值上应用argmax。在本小节中，我们进行了消融研究，以研究基于无需训练的架构选择的好处。我们考虑了3种不同的无需训练代理，如Sec.2.3中所述，包括SNIP、GraSP和Syn�ow。我们发现，Syn�ow是架构选择中最可靠的代理，因为它在零成本NAS和BaLeNAS的两个代理中的性能都优于其他两个代理，并且随着样本大小的增加，它还能持续提高性能。零成本NAS[1]随机生成样本，并根据代理计算得分，而我们的BaLeNAS-TF基于优化分布(α�θ|μ，σ2)生成样本。表2比较了在架构选择中具有不同样本大小的零成本NAS和BaLeNAS-TF。如表所示，Syn�ow代理可以像零成本NAS一样帮助NAS，在不同样本大小的情况下取得比表1中的随机基线更好的结果，并且这些代理还可以增强我们的BaLeNAS，其中我们的BaLeNAS-TF实现了更高的准确性。这些结果再次验证了基于无需训练代理的架构选择可以进一步提高基于分布学习的NAS的性能。更有趣的是，表2还显示我们的BaLeNAS-TF在很大程度上优于零成本NAS，这表明我们的BaLeNAS可以收敛到一个有竞争力的分布。04.2. 在DARTS搜索空间上的实验0为了与最先进的可微分NAS方法进行比较，我们将BaLeNAS应用于典型的DARTS搜索空间[15, 28,31]，用于卷积架构搜索，其中所有实验设置都遵循DARTS[31]的公平原则。0与最近的工作相同，我们的BaLeNAS-TF也在这个实验中考虑了Syn�ow代理。DARTS空间中的架构搜索通常包含三个阶段：首先在CIFAR-10上搜索微细胞结构，然后堆叠更多细胞以形成完整的结构进行评估，最后将找到的最佳细胞转移到更大的数据集上评估其可迁移性。04.2.1 CIFAR-10上的搜索结果0与最先进的NAS方法的比较结果如表3所示。我们的BaLeNAS-TF搜索到的最佳架构在CIFAR-10上的测试错误率为2.37％，优于最先进的NAS方法。我们还可以看到，BaLeNAS-TF和BaLeNAS都远远优于DARTS，证明了该方法的有效性。此外，尽管BaLeNAS在架构优化过程中引入了MCMC，但在BaLeNAS的整个架构搜索阶段（第2阶段）只花费了0.6个GPU天。04.2.2 可迁移性结果分析0按照DARTS的实验设置，将在CIFAR-10上搜索到的最佳架构转移到CIFAR-100和ImageNet上评估其可迁移性。与CIFAR-100和ImageNet上最先进的可微分NAS方法的比较结果如表3所示。如表2所示，BaLeNAS-TF在CIFAR-100数据集上的测试错误率为15.72％，是最先进的性能，并且优于同行算法很多。在ImageNet数据集上，我们的BaLeNAS-TF发现的最佳架构也取得

下载后可阅读完整内容，剩余1页未读，立即下载