Shapley-NAS：基于Shapley值的神经架构搜索方法

32 浏览量更新于2023-10-25 收藏 12.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{h-xiao20,wang-zw18}@mails.tsinghua.edu.cn; zhengzhu@ieee.org; {jzhou,lujiwen}@tsinghua.edu.cn118920Shapley-NAS：发现神经架构搜索的操作贡献0韩晓1,2，王子威1,2，朱铮1,2，周杰1,2，陆继文1,2�，1清华大学自动化系，中国2北京国家信息科学技术研究中心，中国0摘要0在本文中，我们提出了一种基于Shapley值的方法来评估操作贡献（Shapley-NAS）进行神经架构搜索。可微架构搜索（DARTS）通过梯度下降优化架构参数来获取最优架构，从而显著降低了搜索成本。然而，通过梯度下降更新的架构参数的大小未能揭示操作对任务性能的实际重要性，因此损害了获得的架构的有效性。相比之下，我们提出了评估操作对验证准确率的直接影响。为了处理超网络组件之间的复杂关系，我们利用Shapley值来量化它们的边际贡献，考虑所有可能的组合。具体而言，我们通过Shapley值评估操作的贡献，通过迭代优化超网络权重并更新架构参数，从而选择对任务有显著贡献的操作来得到最优架构。由于Shapley值的精确计算是NP难的，我们采用基于蒙特卡罗采样的算法进行高效近似，并采用动量更新机制来减轻采样过程的波动。在各种数据集和搜索空间上进行了大量实验证明，我们的Shapley-NAS在轻量级搜索成本下优于现有方法。代码可在https://github.com/Euphoria16/Shapley-NAS.git获取。01. 引言0神经架构搜索（NAS）在深度学习中引起了极大的兴趣，因为它根据任务性能和硬件配置从网络组件的大搜索空间中发现最优架构。0�通讯作者0持续时间。先驱性工作应用了强化学习[48]、进化算法[30,38]和贝叶斯优化[22]进行架构搜索，但大量的计算开销阻碍了NAS算法的实际部署。因此，设计高效的搜索策略而不降低性能是可取的。为了降低架构搜索的搜索成本，提出了几种高效的搜索策略，包括一次性NAS[29]、网络转换[3]和架构优化[26]。在这些方法中，一次性NAS通过权重共享从过参数化的超网络中保留了最优子网络，避免了耗时的模型评估的详尽训练。特别地，DARTS[23]将离散操作选择转化为连续混合权重学习，并通过梯度下降迭代优化了架构参数和超网络权重，大大降低了搜索成本。然而，DARTS中的架构参数的大小不能反映出一般情况下操作的实际重要性[36,42,47]。也就是说，具有最大参数大小的操作不一定会导致最高的验证准确率，这降低了派生架构的性能。在本文中，我们提出了一种Shapley-NAS方法，通过超网络组件的Shapley值来评估操作的贡献，以进行神经架构搜索。我们不依赖于梯度下降更新的架构参数的大小，而是考虑它们对任务性能的实际影响，并直接评估它们对验证准确率的贡献。此外，我们观察到超网络中的操作彼此相关：操作的组合可能与它们各自的单独影响相比，对性能产生不同的联合影响。为了处理这种复杂关系，我们利用Shapley值[31,32]，这是合作博弈理论中对玩家贡献进行归因的重要解决方案。图1显示了我们的Shapley-NAS与现有DARTS方法之间的差异。Shapley值直接测量操作对验证准确率的贡献。...0.820.760.650.68-0.030.06118930分离卷积03x30扩张05x50池化恒等0输入0输出0前向传播0� � � � � � � �0更新0反向传播0(a) 可微分NAS0S0D0I0M0D M Val S0D M Val S0I Val S0I Val S0� �0� �0� �0� �0Shapley值0(b) Shapley-NAS0采样0验证准确率0图1. DARTS和我们的Shapley-NAS的比较。 (a)DARTS构建了一个包含所有候选操作的权重共享超网络。架构参数通过梯度下降进行优化，但未能反映操作的重要性[36, 42, 47]。 (b)提出的Shapley-NAS方法直接评估操作对任务性能的边际贡献，根据所有可能的操作子集及其没有给定操作的对应子集之间的验证准确率差异。0验证准确率差异。同时，它考虑了所有可能的组合，并量化了平均边际贡献，以处理个体元素之间的复杂关系。由于计算精确的Shapley值是NP难的，我们采用蒙特卡洛采样和早期截断来高效地近似计算操作排列集合的Shapley值。最后，我们迭代地优化超网络权重并更新架构参数，采用动量更新机制来减轻采样过程中的波动。我们凭经验证明，与DARTS相比，获得的Shapley值与任务性能具有更高的相关性。我们在不同数据集和各种搜索空间上进行了大量实验，其中我们的Shapley-NAS优于最先进的架构搜索方法。在DARTS的搜索空间上，我们在CIFAR-10[19]上实现了2.43%的错误率，并在ImageNet[9]的移动设置下获得了23.9%的top-1准确率。此外，我们的Shapley-NAS在CIFAR-10和CIFAR-100上获得了最佳架构，并在NAS-Bench-201基准测试的ImageNet-16-120上获得了接近最优的解。02. 相关工作0可微分NAS：可微分架构搜索（DARTS）最初由刘等人提出[23]，目的是减少NAS中繁重的搜索成本。他们对图形架构表示应用了连续松弛，从而使得能够通过梯度下降有效地解决架构搜索的双层优化目标。PC-DARTS[40]进一步提出仅搜索部分连接的操作，利用网络中的冗余性。0工作空间进一步减少内存开销。尽管DARTS的计算效率很高，但是有几项研究挑战了它的泛化能力[8, 20, 39,42]和稳定性[6, 7, 36, 43,44]。为了减少DARTS对操作选择的偏见，SNAS[39]和GDAS[10]在超网络训练中引入了随机性，并采用了可微分的Gumbel-Softmax技巧[17]进行梯度估计。SGAS[20]根据边的重要性、选择确定性和选择稳定性贪婪地选择和修剪候选操作，以减轻搜索和评估阶段之间的性能差距。RobustDARTS[43]发现DARTS的稳定性与验证损失的Hessian矩阵的最大特征值高度相关。因此，他们根据最大特征值进行早停正则化，以避免生成差的架构。SmoothDARTS[6]通过基于扰动的正则化进一步平滑了损失函数。然而，最近的研究[36, 42,47]表明，DARTS框架中的架构参数的大小未能揭示实际操作的重要性，这严重降低了从搜索阶段得到的架构的性能。0Shapley值：Shapley值作为一种公平的贡献分配方法，在合作博弈论中得到了广泛研究[31,32]。最近，Shapley值被应用于可解释的机器学习中，用于发现不同元素的重要性，可以分为三组：解释特征重要性[1,24, 25, 28, 33]，模型组件重要性[2, 13,37]和数据重要性[18,41]。对于第一方面，Ancona等人[1]进行了公理比较，展示了Shapley值在深度网络中的特征映射解释方面相对于归因方法的优势。SHAP[25]提出了基于Shapley值的可加性特征归因，以获得与人类直觉更高的一致性。�118940人类直觉。对于模型组件重要性解释，ShapNets[37]利用Shapley变换将输入转化为Shapley表示，以便在前向传递过程中解释网络预测。神经元Shapley[13]确定了神经网络中最重要的滤波器，并展示了改善模型预测的准确性、公平性和鲁棒性的潜在应用。此外，Ghorbani等人[12]量化了个体数据点的贡献，有效地识别了异常值和损坏的数据。由于计算精确的Shapley值是NP难的，Monte-Carlo采样[12,13]、基于扰动的近似[1]、影响函数等方法被提出来高效估计Shapley值。在本文中，我们将Shapley值扩展到DARTS框架中的操作重要性评估，以便通过选择对性能有重要贡献的操作来得到最佳架构。03. 方法0在本节中，我们首先简要介绍可微架构搜索（DARTS），由于架构参数与操作重要性之间的不匹配，DARTS存在退化架构问题。然后，我们提出直接评估操作对任务性能的影响，并引入Shapley值来量化它们在不同操作之间复杂关系存在时的相对贡献。我们还提出了用于高效近似Shapley值的Monte-Carlo采样算法。最后，我们提出了基于Shapley值的架构搜索（Shapley-NAS），可以从大型搜索空间中有效地识别出最重要的操作的最佳架构。03.1. 预备知识0可微架构搜索（DARTS）是识别有效架构的最流行解决方案之一，它通过将架构搜索松弛为连续的混合权重学习来大大减少搜索成本。根据之前的工作[22, 30,49]，DARTS通过正常和缩减单元的重复来搜索最佳的单元结构并构建超网络。每个单元由具有N个节点和E个边的有向无环图（DAG）表示，其中每个节点x(i)定义了一个潜在表示，每个边(i,j)与一个操作o(i,j)相关联。DARTS的核心思想是对搜索空间应用连续松弛以进行基于梯度的搜索。具体而言，中间节点被计算为候选操作的softmax混合：0¯ o(i,j)(x(i)) = �0o' ∈O exp(α(i,j)o')o(x(i)), (1)0其中O是所有候选操作的集合，α(i,j)o表示操作o(i,j)的混合权重，用于构建超网络。通过这种松弛，可以通过联合优化网络权重w和架构参数α以可微的方式进行架构搜索，其双层目标如下：0min α L val(w*, α) s.t. w* = arg min w L train(w, α).0(2)在搜索阶段，通过梯度下降优化包含所有候选操作的共享权重超网络。在搜索阶段结束时，通过在所有操作选择中选择每条边上具有最大架构参数α的操作来得到最终架构，o(i,j) = arg max o ∈O α(i,j)o。03.2.操作重要性评估0DARTS中基于幅度的架构选择过程依赖于一个重要的假设，即架构参数的幅度代表了操作的重要性。换句话说，它假设幅度较低的α值对应于较弱的特征表示，因此对网络性能的贡献较小。然而，最近的研究[36, 42,47]表明，架构参数的值并不一定反映实际的操作贡献。在许多情况下，具有最大α值的操作并不一定导致最高的验证准确率。因此，基于α值选择最佳操作可能导致评估阶段的显著性能下降。为了解决这个问题，我们提出通过识别对验证准确率贡献最大的操作来进行架构搜索。[36]通过在保持所有其他操作的情况下从超网络中移除目标操作来执行类似的操作贡献评估，以获得性能下降。然而，我们观察到超网络中的操作彼此之间并不是独立的。为了展示不同边上的操作之间的潜在关系，我们分别从在NAS-Bench-201空间上预训练的超网络中移除第4条边和第5条边上的一个操作，并重新评估超网络的准确性。如图2a所示，移除第4条边上的skip connect操作和第5条边上的conv3x3操作会导致最显著的性能下降。然而，我们发现两条边的组合影响与它们单独影响的简单累积不同。我们同时移除两条边上的一个操作，并列举所有候选操作组合来展示结果。如图2b所示，移除第4条边上的conv3x3操作和第5条边上的conv1x1操作会导致最显著的性能下降，而移除skipconnect和conv 3x3的组合只会导致3.88%的性能下降。skip_connectconv_1x1conv_3x3avg_pool_3x3skip_connectconv_1x1conv_3x3avg_pool_3x31.13%2.54%7.90%8.27%Edge 42.08%4.62%1.30%10.01%Edge 52.92%22.36%23.32%-5.72%-0.36%22.04%25.32%-8.44%3.88%21.48%24.92%-1.72%4.76%14.44%19.08%-7.96%skip_connectconv_1x1conv_3x3avg_pool_3x3skip_connectconv_1x1conv_3x3avg_pool_3x3Edge 4Edge 5118950(a)在每条边上分别移除一个操作0(b)同时在两条边上移除一个操作0图2. (a)分别在第4条边和第5条边上移除目标操作引起的性能下降(b)同时在两条边上移除一个操作并列举所有组合。0这个观察结果揭示了不同边上不同操作之间的复杂关系：一些操作可以相互合作，从而对超网络性能有显著的共同贡献。为了处理这种关系，我们利用合作博弈理论中的重要解决方案Shapley值[31,32]来评估个体贡献。具体而言，可微分架构搜索过程可以被唯一地映射到一个合作博弈中，基于Shapley值提供了一种量化操作贡献的实用方案。在一个合作博弈中，N个玩家相互关联，一个价值函数V将每个玩家子集S �N映射到一个实数值V(S)，表示玩家通过合作可以获得的预期收益。在可微分NAS中，超网络由具有相同单元结构的多个层组成，每个单元有|E|个边，每个边有|O|个操作。因此，一组个体操作N = O×E = {o(i,j)} o ∈O , (i,j)∈E可以被建模为合作博弈中的玩家，所有玩家共同努力实现超网络的性能V(N)。Shapley值被用来将总性能增益V(N)分配给N中的每个玩家。在我们的问题中，对于操作o(i,j)，其Shapley值ϕ(i,j)o可以计算为：0ϕ（i，j）o（V）= 1|N|0V（S∪{o（i，j）}）−V（S）�|N|−1|S|�0（3）Shapley值表示操作对网络性能的平均边际贡献，通过评估所有操作子集及其不包含给定操作的对应子集之间的性能差异来获得。这里我们使用验证准确性作为值函数V来衡量网络性能。已经证明，Shapley值在公式（3）中的表述使其成为唯一满足以下属性的量化个体贡献的方法[32]，我们根据我们的问题进行解释：0效率整个超网络的性能是各个操作的贡献之和，即�0o（i，j）∈Nϕ（i，j）o=V（N）。空玩家如果操作在超网络的任何子集中添加或移除时对性能没有影响，则其贡献为零。也就是说，如果对于任何操作子集S�N\{o（i，j）}，V（S）=V（S∪{o（i，j）}），我们可以推导出ϕ（i，j）o=0。例如，DARTS搜索空间中的零操作对最终性能没有影响，因此贡献为零。对称性如果两个不同的操作可以互换而不影响性能，则它们应该被赋予相等的贡献。对于任何操作子集S�N\{o（i，j），o′（k，l）}，V（S∪{o（i，j）}）=V（S∪{o′（k，l）}），那么我们有ϕ（i，j）o=ϕ（k，l）o′。03.3. Shapley值近似0尽管Shapley值可以被认为是量化操作贡献的理想度量标准，但直接从公式（3）计算Shapley值需要枚举所有可能的子集，导致需要进行2|O|×|E|个网络评估，因此精确计算Shapley值变得昂贵，因为常见搜索空间中的|O|×|E|通常很大。为了高效估计Shapley值，我们提出了一种基于蒙特卡洛抽样的近似方法[5]。具体而言，操作o（i，j）（简称为o）的Shapley值等于估计的随机变量的均值，可以写成：0ϕo（V）= 10N！0R∈π（N）[V（Preo（R）∪{o}）−V（Preo0（4）其中π（N）表示N中所有元素的排列集合，Preo（R）表示给定排列R∈π（N）中o的前任集合。根据公式（4），我们可以通过对操作集合N进行排列的抽样来得到每个操作的Shapley值的无偏估计。值得注意的是，蒙特卡洛估计将指数计算复杂度降低为多项式时间M×（|O|×|E|），其中M是样本数量。尽管这种基于抽样的估计需要在验证集上进行准确性评估的重复，但它只包括通过超网络的前向过程，无需进行反向传播，从而实现了Shapley值的高效近似。此外，我们发现当Preo（R）中的操作数量变得太小时，任务性能会急剧下降，并产生不稳定的抽样结果。因此，为了减小Shapley值估计的波动，我们在蒙特卡洛抽样过程中使用了早期截断技术。具体而言，当屏蔽的操作导致性能下降超过预定义的阈值η时，我们中断当前的抽样过程。(6)(7)118960pling。这种早期截断技术还减少了近一半的计算成本，使得整体计算开销与DARTS中基于梯度的架构参数优化相当。03.4. 基于Shapley值的架构搜索0我们利用操作的Shapley值来指导架构搜索，以找到最佳解决方案，因为它揭示了操作对性能的实际贡献。图1显示了我们的Shapley-NAS与传统的差分NAS之间的差异。我们不是通过梯度下降来更新架构参数，而是利用Shapley值来表示操作的相对强度。具体而言，搜索目标应该修改如下：0α ∝ ϕ ( L val ( w � , α ))) s.t. w � = arg min w L train ( w, α ) .0(5)由于精确解决上述问题是不可行的，我们通过近似的方式来优化这个目标。我们根据第3.3节中介绍的算法估计的Shapley值来更新α：0α t = α t − 1 + ϵ ∙ s t0|| s t || 20其中α t表示优化过程中第t步的架构参数，st表示第t步的累积Shapley值，|| ∙ ||2是L2范数，ϵ是步长。我们通过下降� L train ( w t − 1 , α t− 1 )来迭代优化wt，并更新架构参数α直到收敛。为了减少由随机采样引起的更新中的不希望的波动，我们引入动量来稳定优化过程：0s t = µ ∙ s t − 1 + (1 − µ ) ∙ ϕ ( Acc val ( w t −1 , α t − 1 ))0|| ϕ ( Acc val ( w t − 1 , α t − 1 )) || 20其中µ是平衡累积Shapley值和当前采样结果的动量系数，Acc val是用作值函数的验证准确性，w t −1是(t-1)步的超网络权重。在搜索阶段结束后，我们通过选择每条边上贡献最大的操作来得到最终的架构。04. 实验0在这部分中，我们对DARTS搜索空间在CIFAR-10[19]和ImageNet[9]上进行了广泛的实验评估，用于图像分类，以及在广泛使用的NAS基准数据集NAS-Bench-201[11]上进行了评估。我们首先介绍数据集和我们的Shapley-NAS的实现细节。在以下消融研究中，我们分析了所提出的Shapley值评估的有效性，以及超参数对任务性能和搜索成本的影响。我们将我们的方法与现有的NAS方法进行了比较。0Shapley-NAS与最先进的方法相比，具有准确性、模型复杂度和搜索成本方面的优势。最后，我们通过实验证明了蒙特卡罗采样估计的有效性，以及获得的Shapley值与任务性能之间的高相关性。04.1. 数据集和实现细节0CIFAR-10:对于CIFAR-10上的CNN搜索空间，我们采用了与DARTS相同的操作空间O，并将初始通道数设置为16。我们采用了PC-DARTS[40]中的部分连接策略，以减少内存开销并增加批量大小。我们使用256的批量大小对超网络进行了50个时期的训练（前15个时期用于热身）。CIFAR-10的训练集被分为两个大小相等的部分，一个用于优化网络权重，另一个用于评估Shapley值。我们将样本数M设置为10，蒙特卡罗采样的早期截断阈值η设置为0.5。动量系数µ和步长ϵ分别分配为0.8和0.1。在评估阶段，为了公平比较，我们简单地按照DARTS的实验设置重新训练了网络，共进行了600个时期。ImageNet：ImageNet包含大约120万个训练图像和5万个验证图像，来自1000个类别，比CIFAR-10更具挑战性。我们从整个130万个ImageNet训练集中随机采样了10%和2.5%的图像，用于训练网络权重和估计Shapley值。超网络使用1024的批量大小进行了50个时期的训练，而在前25个时期中，架构参数保持冻结状态。其他超参数与CIFAR-10相同。在评估阶段，我们使用线性衰减的学习率初始化为0.5，动量为0.9，权重衰减为3×10-5，通过SGD优化器从头开始训练网络250个时期。NAS-Bench-201：NAS-Bench-201是一个流行的基准，用于分析NAS算法，因为它提供了所有候选架构的性能，可以直接查询得到。在NAS-Bench-201的搜索空间中，操作集O有5个元素，每个单元格包含4个节点，导致总共有15,625个架构。NAS-Bench-201支持三个数据集，CIFAR-10、CIFAR-100和ImageNet-16-120，关于数据集的更多细节可以在他们的论文[11]中找到。具体而言，我们通过直接在评估数据集上进行搜索来获取任务特定的性能，并从具有不同随机种子的4个独立运行中获得最佳架构的均值和标准差。04.2. 剔除研究0Shapley-NAS 的有效性：为了验证 Shapley-NAS的有效性，我们在由提出的 4 个简化搜索空间 S1-S4上进行了实验。2.55102040Number of samples M2.02.22.42.62.83.0Test Error(%)0.00.20.40.60.81.01.2Search Cost(GPU days)Test ErrorSearch Cost0.10.30.50.70.9Early Truncation Threshold 2.02.22.42.62.83.0Test Error(%)0.00.20.40.60.81.0Search Cost(GPU days)Test ErrorSearch Cost118970表1. S1-S4上不同搜索算法的测试错误率（%）。DARTS+Shapley 表示DARTS 和 Shapley 值评估的组合，� 表示在搜索过程中冻结 α。0数据集方法 S1 S2 S3 S40C100DARTS 3.84 4.85 3.34 7.200DARTS+Shapley 3.11 2.92 2.58 3.450DARTS+Shapley � 2.95 2.84 2.67 2.940Shapley-NAS 2.82 2.55 2.42 2.630C1000DARTS 29.46 26.05 28.90 22.850DARTS+Shapley 28.21 24.51 23.67 22.780DARTS+Shapley � 25.24 24.66 22.39 22.150Shapley-NAS 23.60 22.77 21.92 21.530SVHN0DARTS 4.58 3.53 3.41 3.050DARTS+Shapley 2.59 2.72 2.83 2.650DARTS+Shapley � 2.88 2.64 2.49 2.580Shapley-NAS 2.36 2.43 2.34 2.410[43] 在 CIFAR-10、CIFAR100 和 SVHN上的结果。我们首先将提出的 Shapley 值评估方法与DARTS 结合起来（在表1中标记为DARTS+Shapley），仅在最终离散化步骤中应用 Shapley值评估，即根据它们的 Shapley 值而不是 α选择操作。此外，我们还测试了在相同设置下但保持 α冻结的性能，标记为 DARTS+Shapley �。如表1所示，DARTS 在训练中未优化 α的情况下，与提出的 Shapley评估方法取得了竞争性的结果。值得注意的是，我们的Shapley-NAS 仍然优于 DARTS+Shapley 和DARTS+Shapley � ，因为将 Shapley值纳入超网优化可以进一步缓解基于梯度的 NAS方法引起的问题。样本次数 M 和早期截断阈值 η的影响：我们还探索了蒙特卡洛采样算法中样本次数 M和早期截断阈值 η 的影响。样本次数 M 和早期截断阈值 η的值对于准确的 Shapley值估计非常重要，这也影响着整体搜索成本。图3显示了在不同的 M 和 η 下在 CIFAR-10上的测试错误率（%）和搜索成本（GPU天数）。减少样本数量会降低搜索成本，但会降低性能，因为采样不足以进行准确估计。然而，样本数大于10时的估计精度对样本数不敏感，我们选择 M = 10 来提高搜索效率。同时，中等的 η也能在准确性和复杂性之间取得最佳的平衡，因为它减小了采样的波动并降低了搜索成本。动量系数 µ 和步长 ϵ的影响：为了研究动量系数 µ 和步长 ϵ对测试准确率的影响，我们实现了不同 µ 和 ϵ的架构参数分配。表2展示了测试错误范围和模型参数成本，其中中等的 ϵ优于其他值。小的步长无法在达到最大更新迭代次数时实现最佳分布，而大的步长使得超网优化难以收敛。0(a) 变化的样本数 M0(b) 变化的早期截断阈值 η0图3. 在 CIFAR-10 上使用蒙特卡洛采样的 Shapley值估计的测试错误率（%）和搜索成本（GPU天数）：(a)不同样本数；(b) 不同早期截断阈值。0随着 µ 的增加，训练稳定性得到了加强，其中 µ = 0.8时达到了最佳准确率。04.3. 与最先进的 NAS 方法的比较0表 3显示了Shapley-NAS在CIFAR-10上与最先进的NAS方法的性能对比。我们的Shapley-NAS在只使用0.3个GPU天的情况下，实现了2.47%的平均测试误差，显著超过了DARTS基线在搜索成本和准确性方面。我们实验中最好的单次运行的测试误差为2.43%，在流行的NAS方法中排名靠前。虽然ProxylessNAS [ 4]实现了更低的测试误差2.08%，但它在不同的空间上进行了架构搜索，搜索成本很高。实验结果的低方差也证明了所提出的搜索方法的稳定性。与其他方法在ImageNet上的比较结果在表 4 中展示。我们遵循[ 23]中的移动设置，其中乘加操作的数量（“ × +”）限制在600M以下。我们在CIFAR-10上训练了找到的最佳架构，以评估其对ImageNet的可迁移性，并获得了24.3% /7.3%的前1/5测试误差，验证了我们Shapley-NAS的泛化能力。我们还直接在ImageNet上搜索了最优架构，并获得了23.9% /7.2%的前1/5测试误差，这超过了所有其他轻量级搜索成本的NAS方法。值得注意的是，尽管DrNAS的性能出色，但其乘加操作数量远远超过了600M。相比之下，我们的Shapley-NAS在不违反移动设置的情况下实现了竞争性的结果。对于NAS-Bench-201，我们的Shapley-NAS在CIFAR-10、CIFAR-100和ImageNet-16-120上分别实现了94.37%、73.51%和46.85%的优秀测试准确性，如表 5所示。值得注意的是，我们在CIFAR-10和CIFAR-100上获得了全局最优架构，这表明所提出的方法可以识别出最佳架构。0.012.89 ± 0.214.02.87 ± 0.163.72.67 ± 0.063.52.74 ± 0.113.80.052.85 ± 0.183.62.79 ± 0.123.42.55 ± 0.073.22.68 ± 0.073.50.12.82 ± 0.113.72.66 ± 0.103.32.47 ± 0.043.42.61 ± 0.064.10.52.92 ± 0.193.52.84 ± 0.134.22.71 ± 0.123.82.83 ± 0.153.9ArchitectureTest Error(%)Params(M)Search Cost(GPU days)DenseNet-BC [16]3.4625.6-NASNet-A [49]2.653.32000AmoebaNet-A [30]3.34 ± 0.063.23150AmoebaNet-B [30]2.55 ± 0.052.83150PNAS [22]3.41 ± 0.093.2225ENAS [29]2.894.60.5NAONet [26]3.533.10.4RandomNAS [21]2.85 ± 0.084.32.7DARTS (1st order) [23]3.00 ± 0.143.30.4DARTS (2nd order) [23]2.76 ± 0.093.31.0SNAS(moderate) [39]2.85 ± 0.022.81.5GDAS [10]2.933.40.3BayesNAS [46]2.81 ± 0.043.40.2ProxylessNAS [4]2.085.74.0P-DARTS [8]2.503.40.3PC-DARTS [40]2.57 ± 0.073.60.1SGAS (Cri 1. avg) [20]2.66 ± 0.243.70.25SDARTS-RS [6]2.61 ± 0.023.40.4DrNAS [7]2.54 ± 0.034.00.4DARTS+PT [36]2.61 ± 0.083.00.8Shapley-NAS(avg.)2.47 ± 0.043.40.3Shapley-NAS(best)2.433.60.31520253035404550Epoch0.10.20.30.40.5Architecture parameters max_pool_3x3avg_pool_3x3skip_connectsep_conv_3x3sep_conv_5x5dil_conv_3x3dil_conv_5x51520253035404550Epoch0.100.150.200.250.300.35Architecture parameters max_pool_3x3avg_pool_3x3skip_connectsep_conv_3x3sep_conv_5x5dil_conv_3x3dil_conv_5x5Shapley value estimation by Monte-Carlo Sampling:To verify the effectiveness of Monte-Carlo Sampling forShapley value approximation, we plot the architecture pa-rameters evolution on the first edge of normal and reductioncells in Fig. 4. Note that the curves of the first 15 epochs forwarm-up are not presented. As Fig. 4a shows, although themax pool 3x3 operation is larger than all other operationsat the start, the operation sep conv 5x5 finally becomes thestrongest operation since it has the most contribution to thesupernet along with the training process. While in Fig. 4b,the operation sep conv 3x3 becomes dominant after sev-eral epochs, while other operations gradually converge tobe very weak. The supernet gradually converges to the finalderived architecture using the proposed estimation. More-over, the architecture parameters are differentiated to makethe arg max selection more reliable.Correlation between Shapley value and task perfor-mance: We investigate the correlation between Shapleyvalue of operations and real task performance on NAS-Bench-201. After the search phase, we sample 200 dis-crete architectures from the search space and compute theircorresponding operation strength by averaging the magni-tude of architecture parameters. Then we plot the test ac-curacy obtained by directly querying along with the com-puted operation strength of DARTS and our Shapley-NAS.We use the Kendall Tau coefficient to measure the cor-relation, and the results on CIFAR-10, CIFAR-100, and118980表 2. 根据动量系数 µ 的不同值和步长 ϵ 的不同分配，最终架构的测试误差（%）和参数存储成本（M）。0步长 ϵ µ = 0测试误差（%）参数（M）测试误差（%）参数（M）测试误差（%）参数（M）测试误差（%）参数（M）0表 3.与CIFAR-10上最先进的图像分类器的比较。我们通过4个随机种子进行重复实验，得到了Shapley-NAS的均值和标准差。0表 4. 与ImageNet上最先进的图像分类器的比较，采用移动设置[ 23]。†表示在ImageNet上进行搜索的结果，否则在CIFAR-10上进行搜索。0架构测试错误率（%）参数（M）× +（M）搜索成本（GPU天）0Inception-v1 [34] 30.1 6.6 1448 - MobileNet [15] 29.4 4.2 569 -ShuffleNet 2× (v1) [45] 26.4�5 524 - ShuffleNet 2× (v2) [27] 25.1�5591 -0NASNet-A [49] 26.0 5.3 564 2000 AmoebaNet-C [30] 24.3 6.4 5703150 PNAS [22] 25.8 5.1 588 225 MnasNet-92 [35] 25.2 4.4 388 -0DARTS (2nd) [23] 26.7 4.7 574 1.0 SNAS (mild) [39] 27.3 4.3 522 1.5GDAS [10] 26.0 5.3 545 0.3 BayesNAS [46] 26.5 3.9 - 0.2ProxylessNAS (GPU) [4]† 24.9 7.1 465 8.3 P-DARTS [8] 24.4 4.9 5570.3 PC-DARTS [40] 25.1 5.3 586 0.1 PC-DARTS [40]† 24.2 5.3 582 3.8SGAS (Cri 1. best) [20] 24.2 5.3 585 0.25 SDARTS-ADV [6] 25.6 6.1 -0.4 DrNAS [7]† 24.2 5.2 644 3.9 DARTS+PT [36]† 25.5 4.7 538 3.40Shapley-NAS 24.3 5.1 566 0.3 Shapley-NAS† 23.9 5.4 582 4.20重要操作，并从大的搜索空间中得到最佳架构。在ImageNet-16-120数据集上，我们还获得了接近最优的解决方案，超过了最先进的算法，再次验证了我们的Shapley-NAS的有效性。0（a）普通单元0（b）缩减单元0图4.基于蒙特卡洛采样估计Shapley值的架构参数α的演化。（a）普通单元第

下载后可阅读完整内容，剩余1页未读，立即下载