没有合适的资源?快使用搜索试试~ 我知道了~
119120具有表示互信息的神经架构搜索0郑夏武1,2†,费翔1†,张磊1†,吴成林3,晁飞1,刘建壮4,曾伟2,5,田永鸿2,5,纪荣荣1,2,6,7*,1厦门大学智能学院人工智能系媒体分析与计算实验室,2彭城实验室,3深智科技,4华为诺亚方舟实验室,5北京大学计算机科学学院视觉技术国家工程研究中心,6厦门大学人工智能研究所,7厦门大学可信人工智能分析与应用福建省工程研究中心0{ zhengxiawu, xiangf, leizhang } @stu.xmu.edu.cn, rrji@xmu.edu.cn0alexanderwu@fuzhi.ai, liu.jianzhuang@huawei.com, { weizeng, yhtian } @pku.edu.cn0摘要0性能评估策略是决定神经架构搜索(NAS)的有效性和效率的最重要因素之一。现有的策略,如使用标准训练或性能预测器,往往面临计算复杂度高和泛化性差的问题。为了解决这个问题,我们提出通过表示互信息(RMI)对架构进行排名。具体而言,给定一个具有良好准确性的任意架构,与它具有高RMI的架构总是具有良好的准确性。作为一种准确的性能指标,RMI不仅对不同的搜索空间具有很好的泛化性,而且在仅使用一批数据评估架构时也足够高效。在RMI的基础上,我们进一步提出了一种新的搜索算法,称为RMI-NAS,通过一个定理保证了搜索到的架构的全局最优解。特别地,RMI-NAS首先从搜索空间中随机采样架构,然后通过RMI有效地将这些样本分类为正样本或负样本。然后,我们使用这些样本训练一个随机森林来探索新的区域,同时跟踪正样本架构的分布。当样本数量足够大时,从上述分布中选择概率最大的架构,理论上被证明是最优解。我们的方法搜索到的架构在搜索过程中具有显著的top-1准确性,并且速度比以前快了几个数量级。此外,RMI-NAS还适用于不同的数据集和搜索空间。我们的代码已经在https://git.openi.org.cn/PCL AutoML/XNAS上提供。0*通讯作者。†这些作者对本文贡献相同。01. 引言0神经架构搜索(NAS)被提出来促进深度神经网络的设计,这是一项具有挑战性的任务,并在各种计算机视觉任务中展示出卓越的性能,包括但不限于图像分类[61,67],目标检测[10, 53]和分割[7,33]。作为一个被广泛接受的观点,传统的NAS算法分为三个组成部分[19]:搜索空间,搜索算法和性能估计策略。搜索空间定义了搜索的范围,搜索策略研究如何探索搜索空间,性能估计指的是如何估计架构的性能。通过大量实验,之前的研究[62,64]已经证明性能估计是NAS中最重要的组成部分。特别是,一个最佳的估计策略能够在NAS中与不同的搜索算法同时提高效率和效果,这在[62,64]中进行了研究。根据之前的研究[19,31],性能估计策略包括多样性训练方法*[20, 42, 57, 62,67],基于准确性预测器的方法[2, 37, 38,49],一次性方法[5, 35, 48, 51, 54, 56, 58-61,65]和基于无训练的方法[8, 31,39]。性能估计的关键挑战是准确性、泛化性和计算成本之间的权衡。尽管多样性和准确性预测器方法准确且适用于不同的搜索空间,但这些方法需要大量的计算资源,限制了NAS在实际应用中的使用。例如,AmoebaNet[42]的成本超过了3150。0*这些方法使用不同的训练超参数进行加速,包括但不限于更少的时期、数据子集和缩小的模型。119130Kendall的!0(a) 时间成本"0!" 时期0$%" 时期0!" 时期0$" 时期0#" 时期0&()× 更快0#"" 时期5" 时期0)"" 时期0准确率(%)0(b) 时间成本(秒)0REA REA + RMI0RL0RL+ RMI0RS RS + RMI0我们的018倍更快019.2倍更快019倍更快0图1. (a) 在NAS-Bench-201[16]基准测试中评估100个架构的时间成本的示意图。与NASNet[66]、DARTS[35]和一次性方法[59]相比,RMI具有更快的速度和较小的相关性下降。 (b)通过引入RMI,我们可以大大加速包括强化学习(RL)[66]、进化算法(REA)[42]和随机搜索(RS)在内的NAS方法。同时,所提出的方法通过较少的搜索成本进一步提高了准确性。0在CIFAR-10上搜索最佳结果的GPU天数[27]。为了减少计算成本,提出了一次性和无需训练的方法。这些方法分别基于参数共享和深度学习理论。尽管相对于多个保真度和准确性预测器的方法来说,一次性和无需训练的方法更加高效,但它们仍然存在严重的泛化问题。例如,广泛使用的DARTS[35]只在基于单元的搜索空间[66]上高效,而更实际的链式结构搜索空间[48]在这些工作[34, 35,54]中很少被采用。同时,另一种流行的一次性策略[4]只使用MobileNet [23,44]搜索空间进行验证。这个问题在训练中也存在。0无需训练的方法[8, 31,39]。总的来说,它们的搜索空间在他们的工作中被精心选择或设计。在本文中,我们提出了一种新颖的性能估计策略,通过使用隐藏的表示互信息(RMI)对架构进行排名。特别地,通过大量实验证明,具有良好准确性的架构总是具有较高的RMI分数。换句话说,任何具有良好准确性的任意架构都可以通过使用RMI作为NAS的准确性指标。例如,在广泛使用的CIFAR-10[27]数据集中,任何具有>85%顶级分类准确性的人工设计或从预定义搜索空间中随机抽样的架构都被用作准确的性能指标。在实践中,计算和优化两个架构之间的RMI只需要一个小批量的数据。与在常规训练中使用整个数据集相比,我们的方法能够极大地加速对每个架构的估计。此外,RMI还可以推广到不同的搜索空间,使其潜在地广泛适用于实际问题。我们进一步提出了一种有效且高效的NAS算法,通过使用RMI分数来探索搜索空间。在效率方面,所提出的RMI作为NAS的指导。它消除了在整个数据集上的繁琐训练的需求,从而显著降低了计算复杂性。具体而言,RMI-NAS首先从搜索空间中随机抽样架构,然后使用RMI分数将其分类为正样本或负样本。这些样本用于训练随机森林,以进一步加速对未知区域的探索。同时,我们保持追踪正样本架构的分布。在有效性方面,找到的架构也在理论上保证是最优解。在随机森林[3]完全探索整个搜索空间之后,我们从上述分布中选择概率最大的架构。总之,我们的主要贡献有两个方面:0•基于广泛的统计验证,我们经验证明,表示互信息是寻找最佳架构的稳定准确的指标†。据我们所知,RMI首次引入到NAS社区,并且可以轻松地融入到大多数现有的NAS算法中,以加速搜索过程。0•我们引入了一种称为RMI-NAS的新型NAS优化方法,它高效、快速且适用于不同的搜索空间。我们采用RMI和随机森林来有效地探索整个搜索空间。同时,我们还在数学上证明了RMI-NAS找到的解更有可能是搜索空间中的最优解。0†第4节的广泛实验表明,RMI与搜索空间中的架构性能具有很高的相关性。the solution found by RMI-NAS is more likely to bethe optimal solution in the search space.2. Related work119140广泛的实验结果证明了所提方法在搜索空间和数据集上的效率和效果。值得注意的是,在NAS-Bench-201[16]的设置下,我们的搜索模型在30分钟内在CIFAR-10数据集上达到了94.36%的测试准确率,这要归功于所提出的RMI和搜索算法。0如前所述,性能估计策略对NAS的效率和效果至关重要。因此,我们从性能估计的角度审视NAS。关于NAS的综合评述可参考专著[19]。在早期的研究中[42,66,67],采用了基于多样性训练的方法来获得准确性。这些方法通过调整训练超参数来减少性能估计的时间,包括但不限于使用缩小比例的代理模型[66]、减少训练轮数和使用代理数据集[42]。例如,AmoebaNet[42]在CIFAR-10[27]上进行搜索,然后将搜索到的架构转移到ImageNet[15]上。这个搜索过程需要3150个GPU天,搜索到的架构达到74.5%的top-1准确率。可以看出,基于多样性训练的方法需要大量的训练,这阻碍了NAS的实际应用。为了解决这个问题,最近提出了一种一次性方法,它采用权重共享策略来避免耗时且重复的训练过程。这种方法在许多高效的NAS应用中被广泛成功采用,例如DARTS[35],PDARTS[34],PC-DARTS[54]和FBNet[50]。尽管上述方法已经降低了搜索成本,但它们在性能估计的泛化性和效率方面受到了严重挑战。例如,PC-DARTS[54]提出在搜索空间中使用部分通道进行加速。然而,PC-DARTS不能推广到通道数量搜索空间,这是网络压缩中的一个重要研究领域。此外,最近的研究[30]发现这些方法中的搜索算法可能不如随机搜索好。直到最近,出现了基于无训练的方法[8,31,0在文献中提出并积极探索了一些基于无训练的方法[39]。这些方法试图利用一些易于获取的架构属性来探索好的架构。顾名思义,这些方法不需要任何训练过程,因此导致了极其有效的性能估计。然而,这些方法不能推广到不同的搜索空间。具体而言,最近的工作[39]只在基于单元的搜索空间[35]中有效,而未研究链式结构。此外,不同的基于无训练的方法通常在不同的0数据集,例如ImageNet和Lin等人的复杂搜索空间[31]以及Mellor等人的CIFAR-10[39]。在本文中,我们提出了一种新的性能估计方法,称为RMI,它同时关注估计准确性、泛化性和计算成本。结合我们的新搜索算法,RMI-NAS在多个基准和搜索空间上以更少的计算成本实现了可比较或更好的结果。03. 提出的方法0符号。在本文中,我们使用大写字母(例如X,Y)表示随机变量,使用粗体表示向量(例如x,y),矩阵或张量(例如X,Y)。用花体字体表示空间或损失函数(例如X,Y,L)。为了更好地描述所提出的方法,我们进一步定义了CNN中的一些常见符号。α∈A∈RN×M表示一个指示向量,其中N和M分别是边缘和操作的数量。我们使用αa的上标表示特定的架构a,αi的下标表示某个边缘i。W∈W表示架构权重。问题的形式化。在本文中,我们解决以下优化问题0max W∈W, α∈A L(W, α), s.t. T(α) < Ω. (1)0L : W × A → R是损失函数,它对α不可微分,对W可微分。T(∙)是表示架构的约束条件,例如FLOPs,Ω是针对不同硬件给出的。我们在图2中概述了RMI-NAS,旨在自动发现最佳神经架构。详细的动机、描述和分析将在下面的子章节中介绍。03.1. 表示互信息0RMI分数。如前所述,性能估计直接决定了NAS的效率。快速性能估计使搜索算法能够广泛探索搜索空间,而准确的性能估计则有助于搜索算法更好地感知搜索空间的概率分布。我们提出了表示互信息(RMI)来实现有效和高效的性能估计。特别地,给定一个具有良好准确性的任意网络α+,我们使用X1+,...,XL+来表示每层特征图的随机变量。对于从搜索空间中采样得到的任何架构α,我们正式定义RMI分数为0φ(α+, α) =0i=1 I � Xi+, Xi�. (2)0一般来说,具有较高RMI分数的架构往往是一种好的架构,因为提出的RMI分数ℒ!"#(#)ℒ!"#(#)ℒ!"# < &I(X, Y ) ≈ nHSIClinear(X, Y ) =||Y T X||2F||XT X||F ||Y T Y ||F,(3)features are more suitable for the RMI score. In deep learn-ing, samples with a large confidence are close to the classcenter, where the corresponding features tend to be discrim-inative and representative. Therefore, we first set the expan-sion factor γ and randomly select data with γ times of thebatch size as a data pool. The pretrained architecture α+ isthen used as a teacher network to select nbatch samples withthe largest classification confidences from it. Subsequently,the samples are used to obtain the feature maps X+ and Xof each stage/layer in α+ and α, respectively. The RMIloss and classification error are optimized simultaneously,which is formally defined asLloss = βLRMI + (1β)cls= βL�i=1 ||XiT||F ||i+||F+ (1 − β)Lcls.(4)119150一个批次0图像0采样0架构0(a) 热身采样0随机森林0拟合0对新架构进行推理0随机森林上的最高置信度0分类0架构0(b) 拟合和扩展采样0扩展样本集0丢弃不好的0架构0YN0由定理1选择0最佳架构0(c) 架构选择0图2.提出的RMI-NAS概述。(a)具体而言,我们首先采样n个架构,并根据RMI分数将它们分类为好或坏,用于热身随机森林分类器。(b)然后我们使用随机森林有效地和迭代地探索搜索空间。在每次迭代中,采样大量架构,选择在随机森林上具有最高置信度的架构进行训练和计算RMI分数。根据分数,将架构分类并添加到样本集中,以便在下一次迭代中更新随机森林。(c)在收集到一定数量的好架构后,我们使用这些架构构建一个扩展采样集,并近似操作的概率分布。根据定理1,被认为具有最大概率的架构是最优的。0是稳健、有效和高效的,这也在第4节中得到了证明。具体来说,RMI分数与不同的α+和训练条件之间显示出很高的相关性。事实上,我们只使用一个训练批次直接优化RMI分数,其结果已经足够准确来探索搜索空间。加速RMI分数计算。由于隐藏表示的分布难以计算,估计其耗时较长,因此计算RMI分数是困难的。此外,X i的高维度也受到维度灾难的影响。因此,我们引入了归一化的Hilbert-Schmidt独立准则(HSIC)[21, 63]‡来解决这个问题。具体来说,令D := { ( x 1 , y 1 ) , ..., ( xn , y n ) }包含从分布P XY中抽取的n个独立同分布样本。在这种情况下,归一化的HSIC [21, 26, 63]定义为0其中|| ∙ ||F是Frobenius范数或Hilbert-Schmidt范数。计算公式3是有效的,即O(n^2),其中n是样本数量。在实践中,它只需要几秒钟的时间在单个GPU和CPU上完成。使用RMI损失进行表示学习和性能估计。由于RMI分数只需要一个数据批次进行计算,因此数据的选择非常重要。特别是,具有较大置信度的样本接近类中心,相应的特征倾向于具有区分性和代表性。因此,我们首先设置扩展因子γ,并随机选择γ倍批次大小的数据池。然后,预训练架构α+被用作教师网络,从中选择具有最大分类置信度的n批样本。随后,使用这些样本分别获取α+和α中每个阶段/层的特征图X+和X。同时优化RMI损失和分类错误,形式上定义为0‡ 归一化HSIC也被称为CKA[26],RV系数[43]和Tucker的一致性系数[36],也用于学习多样化的表示[24]。0|| X i + T X i || 2 F0在RMI-NAS中,我们使用公式4来估计架构。也就是说,在优化了一定的epochs之后,较低的RMI损失表示性能更好。值得注意的是,优化公式4非常有效,因为从NAS-Bench-201[16]中采样的架构只需要不到10秒的时间。03.2. 搜索算法0在这里,我们描述了提出的RMI-NAS,如图2所示。由于性能估计使用了RMI分数,所以只需要一个批次的训练数据。同时,引入了具有顺序更新的随机森林模型来提高采样效率,其中基于该模型得到最终的架构。119160总体而言,RMI-NAS包括三个步骤:随机森林训练、扩展采样和架构选择,下面将详细介绍这些步骤。随机森林训练。尽管提出的RMI在估计神经架构方面非常有效,但探索整个搜索空间仍然耗时。因此,我们采用随机森林模型来促进探索。具体来说,我们首先随机采样n_warm =100个架构,然后使用公式4中的损失函数进行优化。在对这些架构进行一定数量的迭代训练后,它们的损失值用于性能评估。在这种情况下,损失值最低的前k =5%的架构被认为是好的,并标记为1,而其余的被认为是坏的,并标记为0。这种分类还生成了阈值τ的损失值。然后使用这个分类结果构建一个用于训练随机森林模型的数据集。具体来说,传统的NAS可以抽象为一个离散优化问题,即每个边缘的候选操作选择。因此,我们将α中每个维度(边缘)的选择编码为一个one-hot向量。在这种情况下,α被编码为一个矩阵,成为随机森林的输入,其中分类结果被用作标签来监督输出。当随机森林训练到收敛时,它将被用于有效地和迭代地探索搜索空间。扩展采样。在这个阶段,我们首先在每次迭代中随机采样n_fitting个网络架构。然后,使用随机森林找到具有最大分类置信度的架构,并使用公式4中的RMI损失进行评估。实际的损失值将用于在下一次迭代中更新随机森林。如果架构的损失值低于阈值τ,则将其标记为好样本;当收集到n_collect个好架构时,随机森林的更新步骤终止。架构选择。在前一步中,收集到了n_collect个好架构的集合。我们有一个新的定理来获得最终的架构,描述如下:0定理1:假设P(α)服从任意黑盒函数f(α)的定义域上的均匀分布。对于特定的阈值τ,有以下关系0arg max α f(α) = arg max α P(α | f(α) + σϵ > τ), (5)0其中σ > 0,ϵ � N(0, 1)。0证明详见我们的补充材料以便更好理解。根据定理1,我们可以使用分布P(α | f(α) + σϵ >τ)找到最优解。然而,这个分布在实践中是难以计算的。幸运的是,我们已经有效地探索了搜索空间并收集了ncollect个架构,它们的损失0值小于阈值τ。因此,我们可以相应地得到最终的架构。特别地,对于收集到的架构集合Acollect,在每个边缘上计算统计模式,并将频率最高的操作设置为该边缘的最优架构。具体而言,对于特定的边缘i,通过以下方式获得架构0α � i = Mo � A collect i �, (6)0其中Mo表示统计模式函数。算法也在算法1中总结了0讨论.RMI-NAS是一种快速、通用和高效的方法。首先,我们提出的性能估计指标RMI分数是有效的,并且适用于不同的搜索空间。特别地,RMI损失不需要对整个数据集进行任何训练过程。此外,I(X,Y)的计算是有效的,即O(n^2),其中n是样本数量。其次,提出的随机森林进一步提高了NAS的效果,同时最优架构也由定理1保证。具体而言,在NAS-Bench-201[16]上完成搜索只需要不到30分钟。此外,RMI-NAS可以通过使用拒绝采样来结合延迟约束。04. 实验0在本节中,我们对几个广泛使用的数据集和搜索空间上的提出的方法进行了定量的实证评估。具体而言,我们首先将RMI-NAS应用于广泛使用的CIFAR-100、CIFAR-10和ImageNet数据集上的图像分类NAS,使用不同的搜索空间和NAS基准在第4.1节中进行了实验。然后我们进行消融研究,以调查每个组件的效率在第4.2节中。我们已经发布了包括基线、超参数设置、训练和搜索代码在内的所有源代码。同时,我们仔细检查了所有选项清单[32],确认开源代码符合所有要求。04.1. 与SOTA方法的比较0实现细节.对于RMI的计算,教师网络可以是复杂的、大规模的架构,也可以是具有精心设计的层的小型模型。在实践中,我们在CIFAR [27]和ImageNet[15]数据集上使用不同深度的ResNet[22]。同时,在ImageNet16-120[11]数据集上采用类似的架构。通过大量实验,这两种方法都被证明是有效的。正如我们之前提到的,由于RMI-NAS只需要一批数据进行完整训练,数据的质量对最终模型的性能至关重要。因此,上述教师网络随后被用于判断输入图像的质量。特别地,在数据选择阶段,我们设置扩展119170算法1: RMI-NAS0输入: 采样数量 n warm, n fitting, n collect; 分位数 k ∈ (0, 100);架构搜索空间 A; 随机森林模型 π θ: A → [0, 1]。输出: 搜索到的架构 α �0初始采样集合 D = �, D warm = �;根据第4.1节选择首选批次数据; 对于 i 从1到 n0对于每个架构a,我们从A中采样一个架构α_i,然后通过公式4优化得到l_i。将α_i和l_i加入到数据集D_warm中。通过计算D_warm中l_i的前k%分位数τ,得到指示函数z_i。将α_i和z_i加入到数据集D中。通过使用数据集D来拟合π_θ,得到π_θ*。然后,我们继续采样n_warm个架构,并重复上述步骤。0对于每个架构a,我们从A中采样n_fitting个架构,然后通过公式4优化得到最优的α_i。接下来,我们将α_i和对应的l_i加入到数据集D中。通过使用数据集D来拟合π_θ,得到π_θ*。最后,通过公式6得到最终的架构α*。0我们通过设置γ的倍数作为数据池的数据量,并选择数据池中分类损失最低的一批数据作为后续实验的输入。在实践中,我们将批大小设置为32,γ设置为16,以在搜索速度和准确性之间进行权衡。我们还使用MindSpore验证了我们算法的泛化能力。在后处理阶段,需要将架构适当地编码为随机森林中的输入。我们将每个操作选择编码为一个独热向量,从而将架构表示为矩阵。随机森林的整个过程已在第3.2节中描述。具体来说,我们使用sklearn[40]库实现,将树的数量设置为30,并保持所有其他超参数为默认值。在扩展采样阶段,一个关键步骤是从更大的集合中选择随机森林中具有最高置信度的架构。由于这个过程是并行的,即使我们设置n_fitting =1000,推断也可以在几秒钟内完成。然后,使用RMI重新训练所选的架构,并根据热身阶段设置的阈值进行分类。根据经验,我们将分位数k设置为5作为阈值。0为了获得最佳性能的阈值,我们采用迭代的方式进行搜索。当随机森林找到n个优秀的架构时,迭代过程终止。由于每个操作的选择数量通常小于10,因此设置n_collect =100就足够了。最后,为了进一步稳定结果,我们从n_collect中选择RMI损失较低的一半架构,计算其在分布中的偏好,从而消除了热身阶段的分位数偏差。我们首先在NAS-Bench-201 [16]和DARTS[35]上进行实验。对于不同的搜索空间,我们设置不同的训练轮数。具体来说,在NAS-Bench-201搜索空间中,我们对每个架构训练150个轮次,而在较大的搜索空间中需要更多的轮次和时间。附加的实验设置详见补充材料。NAS-Bench-201上的结果。在这项工作中,我们遵循NAS-Bench-201搜索空间中的设置,并在单个GTX 1080tiGPU上实现我们的方法,以确保与基准方法进行公平比较。如表1所示,RMI-NAS在30分钟内完成,比其他基准方法快几倍。同时,搜索到的架构的准确性也得到了显著提高。我们将这些优越的结果归因于RMI-NAS的高效采样策略和轻量级指标。值得注意的是,我们的结果的方差也大大减小,这表明了我们方法的稳定性和鲁棒性。为了发现RMI的能力,我们首先在图1(a)中比较了几种性能估计策略。结合表1,我们得出以下观察结果:基于训练的评估策略,在传统的RS或RL等传统NAS算法中广泛使用,会导致严重的时间消耗,但有助于实现稳定的性能和较低的方差。相反,高效的权重共享和无需训练的策略在不同的设置下会产生不同的结果。例如,Jacob cov[39]方法,尽管具有最佳的平均性能,但在ImageNet16-120数据集上的方差高达2.07%。总结起来,基于训练的方法更注重稳定性和泛化性,但会导致巨大的时间开销,而权重共享和无需训练的策略提高了搜索速度,但会导致性能下降。基于这些观察结果,RMI-NAS在所有数据集上展现出最稳定和平衡的结果,实现了最先进的性能,并验证了我们在第3.1节中的论断。为了证明RMI的泛化性,我们进一步将其扩展到图1(b)中的其他常用方法。具体来说,我们用RMI替换了三种不同算法中基于训练的策略,结果平均加速了19倍,同时几乎保持了相同的准确性。这个结果突出了我们的RMI-NAS能够从教师网络中学习表示的能力。119180方法 搜索成本 CIFAR-10 CIFAR-100 ImageNet16-1200(秒) 验证 测试 验证 测试 验证 测试0ResNet [22] - 90.83 93.97 70.42 70.86 44.53 43.630RS 22993.93 90.93 ± 0.36 93.80 ± 0.36 70.93 ± 1.09 71.04 ± 1.07 44.45 ± 1.10 44.57 ± 1.25 RL 27870.7 91.09 ± 0.3793.85 ± 0.37 71.61 ± 1.12 71.71 ± 1.09 45.05 ± 1.02 45.24 ± 1.180ENAS [41] 14058.8 37.51 ± 3.19 53.89 ± 0.58 13.37 ± 2.35 13.96 ± 2.33 15.06 ± 1.95 14.84 ± 2.10 DARTS-V2 [35] 35781.8039.77 ± 0.00 54.30 ± 0.00 15.03 ± 0.00 15.61 ± 0.00 16.43 ± 0.00 16.32 ± 0.00 SETN [17] 34139.53 84.04 ± 0.28 87.64 ± 0.0058.86 ± 0.06 59.05 ± 0.24 33.06 ± 0.02 32.52 ± 0.21 GDAS [18] 31609.80 89.89 ± 0.08 93.61 ± 0.09 71.34 ± 0.04 70.70 ± 0.3041.59 ± 1.33 41.71 ± 0.98 FairNAS [13] 9845.00 90.97 ± 0.57 93.23 ± 0.18 70.94 ± 0.94 71.00 ± 1.46 41.09 ± 1.00 42.19 ± 0.31MDENAS [61] 5300.00 - 89.07 ± 0.60 - - - - MIGONAS [59] 3200.00 - 93.15 ± 0.18 - - - -0Jacob cov [39] - 89.69 ± 0.73 92.96 ± 0.80 69.87 ± 1.22 70.03 ± 1.16 43.99 ± 2.05 44.43 ± 2.07 Mag [47] - 89.94 ± 0.34 93.35± 0.04 70.18 ± 0.66 70.47 ± 0.18 42.57 ± 2.14 43.17 ± 2.570我们的 1258.21 91.44 ± 0.09 94.28 ± 0.10 73.38 ± 0.14 73.36 ± 0.19 46.37 ± 0.00 46.34 ± 0.000我们的(最佳)- 91.55 94.36 73.49 73.51 46.37 46.340最优 - 91.61 94.37 73.49 73.51 46.77 47.310表1. RMI-NAS和其他NAS算法在NAS-Bench-201[16]上的分类准确率和平均搜索成本。RS表示随机搜索,RL表示强化学习,每种方法都是通过采样200个架构进行测试的,参考文献[55]。我们使用水平线将我们比较的方法从上到下分为基于训练、基于一次性和基于无训练的方法。0准确地,从而实现更好的性能。在DARTS搜索空间上的结果。在实践中,我们遵循以前的工作设置,使用相同的操作集,但为了简化起见,将搜索空间缩小了一半。换句话说,同一架构用于正常单元和缩减单元。借助随机森林的帮助,我们仍然可以获得可比较的准确性,但在时间消耗方面取得了实质性的改进,如表2所示。考虑到神经网络训练的随机性,我们还在完全相同的设置下重新训练基准架构,并使用NAS-Bench-301[46]报告相应的结果,以进行公平比较。正如我们所看到的,即使在不同的随机种子下,搜索到的架构的性能也会有所不同。因此,我们得出结论,RMI-NAS在最小的搜索成本下实现了可比较或更好的性能。在ImageNet上也观察到了相同的结果,详见补充材料。04.2. 消融研究0在本节中,我们进行消融实验来验证每个组件的效率,这是基于CIFAR-10数据集和NAS-Bench-201进行的,为了简化起见,我们直接采用了Kendall's τ ∈ [-1, +1][45]作为度量标准,该标准衡量了架构性能与基准的序数关联。特别是,较大的Kendall'sτ意味着估计方法与基准高度相关,反之亦然。β的影响。我们首先通过调整方程4中的β来研究RMI分数的有效性。特别是,当β设为0时,RMI损失退化为交叉熵损失。如图3(a)所示,RMI损失最高0当β = 0.8时的Kendall's τ。与此同时,设置β =1只会有轻微的性能下降。相反,仅使用分类损失作为度量会得到一个更低的相关系数0.25,这证实了提出的RMI得分的有效性。α+的影响。由于需要在公式4中计算与α+的互信息,α+的选择可能会影响最终的性能。为此,我们首先选择具有不同准确率的网络作为α+,并通过在NAS-Bench-201上对架构进行采样来计算RMI得分与准确率之间的相关性。在图3(b)中,我们将水平轴设置为选择为α+的不同架构的准确率。我们可以看到准确率与Kendall'sτ呈正相关。这反映出选择具有预测准确性的架构对性能估计是有益的。图3(b)中的另一个有趣观察是,准确率大于85%的网络架构足以使RMI得分成为一个良好的指标。换句话说,几乎所有良好的人工设计架构都可以被选为α+。优化迭代的影响。我们选择ResNet-20[22]作为α+,并测试使用不同优化迭代的RMI得分的Kendall's τ,如图3(c)所示。从图中可以看出,Kendall'sτ也与优化迭代呈正相关。优化迭代设置为150,考虑到效率和效果之间的权衡。RMI得分的普适性和搜索算法的效率。如前所述,提出的RMI得分是一个可以与任何搜索算法灵活结合的指标。因此,我们进行了结合不同搜索策略的实验来验证0.00.20.0.60.81.00.20.30.40.50.6405080900.60.40.20.00.20.40.60.8025501501752000.600.650.700.750.80119190方法 搜索成本 CIFAR-10测试错误率(%) 搜索0(GPU天) NAS-Bench-301 论文 重新训练方法0DenseNet-BC [25] - - 3.46 - 手动 AmoebaNet-B [42] 3150 - 2.55 ± 0.05 - 进化 NASNet-A [67] 1800 -2.65 - RL ENAS [41] 0.5 - 2.89 - RL0DARTS (2nd) [35] 1 5.83 2.76 ± 0.09 2.60 Gradient SNAS [52] 1.5 6.03 2.85 ± 0.02 2.68 Gradient GDAS [18]0.17 5.38 2.93 2.65 Gradient ASNG-NAS [1] 0.11 - 2.83 ± 0.14 2.85 ± 0.12 � ASNG P-DARTS (CIFAR-10) [9]0.35 5.52 2.50 2.70 ± 0.15 � Gradient PC-DARTS (CIFAR-10) [54] 0.15 5.51 2.57 ± 0.07 2.71 ± 0.11 � GradientPARSEC [6] 1 - 2.81 ± 0.03 - Gradient GAGE [29] 0.35 5.54 2.50 2.67 � Gradient MdeNAS [61] 0.16 5.80 2.552.80 ± 0.24 � MDL FairDARTS-D [14] 0.46 6.10 2.54 ± 0.05 2.71 Gradient DARTS- [12] 0.45 5.84 2.59 ± 0.082.62 Gradient SGAS [28] 0.25 6.19 2.66 ± 0.24 2.71 Gradient0我们的方法 0.08 5.61 - 2.64 ± 0.04 随机森林0表2.RMI-NAS和其他NAS算法在DARTS上的分类准确率和平均搜索成本。为了进行公平比较,我们使用发布的训练代码重新训练了所有搜索到的架构[59],其中还报告了NAS-Bench-301原始论文中的性能以便更好地说明。�表示相应的结果是从开源代码[59]中引用的。0(a)0Kendall's0(b) 准确率0Kendall's0(c) 迭代次数0Kendall's0图3. (a) 在不同的β值下的Kendall'sτ。在公式4中,β控制了分类和RMI得分之间RMI损失的比例。我们使用3个随机种子重复实验,图中显示了均值和标准差。(b)使用不同准确率的架构的Kendall's τ。(c) 在公式4中使用不同的优化迭代的Kendall's τ。0从图1中可以看出,与不同的搜索算法集成,绝对加速了搜索过程,并且性能下降更小或可以忽略不计。从图1中还可以观察到,与RS、RL和REA相比,搜索算法进一步提高了性能,存在明显的差距,这表明了所提出的搜索算法的效率。05. 结论0在本文中,我们提出了一种新的性能估计策略,结合了一种新颖的搜索算法。特别是,我们发现表示互信息是一种有效且高效的架构估计指标。然后,我们提出了一种新的搜索算法,进一步加速了搜索过程。同时,我们还搜索到了解决方案。0该论文还通过提出的定理1在各种搜索空间上进行了大量实验,证明了加速搜索过程和搜索更好架构的有效性。0致谢。本工作得到了国家杰出青年科学基金(No.62025603),国家自然科学基金(No. U21B2037,No.62176222,No. 62176223,No. 62176226,No.62072386,No. 62072387,No. 62072389和No.62002305),广东省基础与应用基础研究基金(No.2019B1515120049),福建省自然科学基金(No.2021J01002)和CAAI-HuaweiMindSpore开放基金的支持。感谢OpenI社区提供的支持https://git.openi.org.cn 。[12] Xiangxiang Chu, Xiaoxing Wang, Bo Zhang, Shun Lu, Xi-aolin Wei, and Junchi Yan. Darts-: robustly stepping out ofperformance collapse without indicators. arXiv, 2020. 8119200参考文献0[1] Youhei Akimoto, Shinichi Shirakawa, Nozomu Yoshinari,K
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功