没有合适的资源?快使用搜索试试~ 我知道了~
FreeREA:基于演化的免培训架构搜索
1493FreeREA:基于演化的免培训架构搜索Niccolo`Cav agnero,LucaRobbiano,BarbaraCaputo,GiuseppeAvertaPolitecnico di Torino,意大利{niccolo.cavagnero,luca.robbiano,barbara.caputo,giuseppe.averta} @ polito.it摘要在过去的十年中,机器学习的大多数研究都有助于改进现有模型,目的是提高神经网络解决各种不同任务的性能。然而,这样的进步往往是以增加模型内存和计算需求为代价的。这代表了在现实环境中研究成果的可部署性的一个重大限制,在现实环境中,成本,能源消耗和框架的复杂性起着至关重要的作用。为了解决这个问题,设计师应该寻找最大化性能的模型,同时限制其占地面积。达到这一目标的典型方法要么依赖于手动程序,这不能保证最终设计的最优性,要么依赖于神经架构搜索算法来自动化该过程,代价是极高的计算时间。本文提供了一种快速识别神经网络的解决方案,最大限度地提高模型的准确性,同时保留典型的微小设备的大小和计算限制。我们的方法,名为FreeREA,是一个自定义的基于细胞的进化NAS算法,利用一个优化的组合训练免费指标排名architectures在搜索过程中,因此不需要模型训练。我们的实验,进行了共同的基准标记NAS-Bench-101和NATS-Bench,证明,i)FreeREA是一种快速、高效、有效的模型自动设计搜索方法; ii)在所有考虑的数据集和基准测试中,它优于最先进的基于训练和无训练的技术,iii)它可以很容易地推广到受限场景,代表了通用受限应用中快速神经架构搜索的竞争解决方案。该代码可在https:github.com/ NiccoloCavagnero/FreeREA上获得。1. 介绍近年来,我们观察到机器学习在几个领域的影响急剧扩大然而,这一突破性的技术进步存在一个重大缺陷,即对能源消耗产生重大影响,从而影响气候变化。例如,最近的一项研究表明,与普通自然语言处理模型的单次训练相关的碳足迹是标准美国公民一年日常生活影响的两倍多当神经架构搜索(NAS)算法用于搜索最佳模型时,该数量增加了十倍[28,3]。这些观察结果强烈呼吁减少机器学习模型在所需资源方面的影响出于这个原因,当前和未来的研究趋势可能会包括开发可以在非常小的设备上运行的模型。这代表了机器学习研究的重大范式转变实际上,当硬件资源有限时,设计者应该更多地关注模型如何使用这些资源。要做到这一点,神经结构搜索[9]似乎是获得可以充分利用可用预算的模型的最佳选择,同时对人类专家的时间浪费最小。然而,标准NAS方法基于算法,在搜索期间,需要训练和测试所有候选者以评估其性能。因此,NAS管道在计算时间和资源方面通常非常昂贵,使得标准机器学习用户很难利用它们,无法访问超级计算资源。作为额外的缺点,值得一提的是,基于标准训练的NAS算法的能量消耗将使设计微小模型的努力成为徒劳[28,3]。由于这些原因,在大规模上有效开发微小神经网络需要实现高效的NAS算法,这些算法不需要训练所有可用的神经网络。1494最佳REAREINFORCERSPS飞镖(1)GDASENASNASWOTTENASNASIGA-NINASWOTEPE-NASFreeREA484644424038101 102 103 104 105时间[s]图1:在NATS-Bench [5]的ImageNet 16 - 120上的平均测试准确度与时间[s]X轴为对数标度。基于训练的方法的准确性和时间来自原始的NATS-Bench论文[5]。可以为其他数据集绘制类似的图,为了空间起见,这里省略了这些图。didates 为了解决这个问题,研究界最近一直专注于采用代理来在初始化时对架构进行评分[21,2,1],从而避免繁重而缓慢的训练阶段,即使在有限的硬件资源下也能实现一致的加速。然而,到目前为止提出的无训练NAS算法与基于训练的方法不具有竞争力,并且通常也不考虑包括硬件驱动的约束(诸如模型占用空间和FLOP)的机会。本文弥合了这一差距,并提供了一个自定义约束进化论的方法,名为FreeREA,利用最佳组合的指标,作为代理模型的准确性。我们展示了我们使用的指标如何有效地替代模型训练,从而能够在短短几分钟的搜索中自动识别高性能模型。我们在两个流行的小模型NAS基准测试上测试了我们的解决方案,并展示了我们的方法在无约束情况下如何优于最先进的方法我们还首次采用免培训方法,在受限场景中进行了实验,为未来的工作设定了非常有竞争力的基线。总之,本文提出了以下贡献的最新技术:1. 用于模型排名的无训练度量的优化组合,其可以完全替代NAS算法中的训练阶段;2. 一种改进的进化搜索算法,充分利用排名策略,在几分钟的搜索时间内识别出非常准确的模型;3. 一些实验来证明无训练方法如何有效地取代基于训练的方法。NAS方法,即使在硬件受限的环境中。2. 相关工作神经架构搜索首先在[37]中引入,其中采用具有LSTM [11]控制器的强化学习方法REIN-FORCE [33]来生成高性能神经网络。整个搜索使用了超过800个GPU,历时28天,总计22400个GPU小时,需要对超过12k个不同架构进行部分(35个epochs)训练。在这项开创性的工作之后,研究界专注于开发更有效的方法[22,6,25,17],目的是减轻NAS算法的巨大计算需求。在这个方向上的第一次尝试集中在参数共享[22,6,17],其中新发现的架构从先前发现的架构继承其权重。虽然[22]仍然采用强化学习方法,但NAS文献中出现了另外两种搜索范式:微分搜索和进化。第一个[17,6]从目的出发,使整个搜索可微,以便可以通过梯度下降算法进行优化,从而导致显著的加速w.r.t.原始方法[37]。另一方面,基于进化的策略实现起来非常简单,并且自然地允许从父代继承参数,但性能较低[18,26]。在REA [25]中,作者实现了一种规则化的锦标赛选择搜索算法,该算法被证明是第一个能够超越人工构建架构的基于进化的NAS。但这些方法并不能完全解决核心问题,还需要对成千上万的候选人进行培训和评估。出于这个原因,研究界最近专注于采用指标来在初始化时对不同的架构进行评分,完全避免了训练和评估阶段,这构成了NAS算法的真正瓶颈。提出的第一个度量标准是线性区域(NASWOT)[21],它测量架构的表达能力,并允许在几秒钟内搜索竞争候选者。然而,这些网络仍然不如标准NAS算法所发现的网络准确。因此,这种方法的使用仅限于经典搜索的初始化。后来,GA-NINASWOT [34]采用了线性区域和遗传算法,而EPE-NAS[20]提出了对基本指标的改进。然而,这些方法都没有表现出与基于培训的方法相竞争的能力从NASWOT[21]中获得灵感,[2]作者将线性区域的变化与神经切核(NTK)度量[12]相结合,以在搜索中对候选者的可训练性进行编码由于NTK计算的复杂性,NASI [27]提出了一种测试精度1495∂θS·该度量的近似获得显著的加速。有关这些和其他免训练指标的详细分析,感兴趣的读者可以参考[1]。3. 方法在本文中,我们介绍了FreeREA,一种创新的NAS方法,它利用免训练指标来提供满足FLOP和参数数量约束的高性能架构。事实上,在以前的工作中,无训练阶段无法与标准搜索方法竞争,因此通常仅用于初始化经典NAS算法的种群[21]。相反,在我们的实现中,我们表明,适当选择指标,结合优化的进化搜索,可以产生精确的模型,搜索时间显着降低(比标准NAS低四个数量级)。3.1. 度量如前一节所述,无需训练的算法严重依赖于作为模型性能准确代理的指标。不幸的是,这些与测试准确性没有明显的相关性,因此考虑多个指标的组合很重要,可能会考虑不同的属性,如可训练性和表达性。为此,我们在NATS-Bench数据集上进行了初步实验,以评估作为测试准确性替代指标的选择的关于不同度量的相关性的详细信息,请参见表10。1.一、该分析表明,最有效的此外,我们补充了这些措施与跳过层的数量,有利于更可训练的架构。为了组合不同的度量,我们对单个度量的归一化分数求和,这导致相对于单个度量的更好的经验结果。一个标准的累积排名分数[2]。这种选择背后的理由是,一个既可训练又具有表达力的模型更有可能表现出高性能[2]。在我们的实现中,给定模型i的适应度函数f可以表示为:三次,具有不同的初始化,并将三次运行的平均值作为最终度量。在下面的部分中,我们讨论了我们在这项工作中考虑的指标的实现,同时我们也请感兴趣的读者参考[1]以了解更多细节。3.1.1线性区域线性区域是在[21]中引入的,目的是在初始化时测量架构的表现力。事实上,当一个训练样本被转发到ReLU网络中时,激活值将张量分为活动(正值)和非活动(负值)区域,生成二进制掩码。给定固定维度的输入空间,映射到不同网络激活的输入空间的连续区域的数量提供了模型区分不同输入值的能力的度量事实上,当两个不同的输入项导致相似的掩码时,模型无法轻松区分它们。因此,表达模型能够将输入空间中相对接近的值映射到不同的激活张量。为了定量评估这种措施,在[21]的实现然后,我们通过汉明距离评估激活模式的差异。一旦从汉明距离构建了核矩阵K_H,则得分s被计算为:s=log|det(KH)|(二)得分越高,网络的表达能力和区分样本的能力就越高。如图2所示。如图2-A所示,具有高线性区域评分值的模型往往具有高测试准确性,这也被两个实体之间的正相关性所证实(见表1)。①的人。因此,最大化线性区域得分会产生更具表达力的模型,并且可能具有更高的测试准确性。3.1.2LogSynflowSynflow最初是在[30]中引入的,作为选择要删除的权重以压缩LSifi=maxLSj∈JLRi+ maxLRjj∈J跳过i+ 最大Skipjj∈J(一)架构,同时最大限度地保留性能。它的原始实现在本地评估单个权重的相关性,然后由[1]扩展到评分其 中 LS 代 表 LogSynflow , LR 代 表 Linear Regions ,Skip代表Skipped Layers,J是已探索网络的集合。关于构成函数的三个术语的消融研究见表1。其中1个是一个-通过总结单个权重的贡献来构建整个架构。形式上,全局度量可以定义为权重向量θ和梯度向量θR之间的标量积:材料。此外,为了增加度量的鲁棒性,我们计算线性区域和LogSynflow(Θ)=θR∂θ(三)J1496≥.查尔斯·#跳过连接表1:在NATS-Bench的三个数据集上评估的无训练指标与测试准确度之间的Kendall和Spearman相关性[5]。每个指标已经用不同的初始化计算了三次,平均值作为最终得分。CIFAR10CIFAR100ImageNet16-120度量肯德尔 Spearman 肯德尔 Spearman 肯德尔 Spearman[第12话]-0.33-0.49-0.30-0.45-0.39-0.56[第15话]0.450.610.470.620.410.55费舍尔[31]0.390.540.400.550.360.48[32]第三十二话0.280.410.350.500.350.49PathNorm[13]0.410.590.420.600.450.63[21]第二十一话0.610.790.620.810.600.78Synflow[30]0.570.770.560.760.560.75LogSynflow(我们的)0.610.810.600.790.590.78表2:在NAS-Bench-101上评价的Synflow/LogSynflow与测试准确度之间的Kendall和Spearman相关性[36]。数值表明,LogSynflow始终是测试准确度w.r.t.的更准确代理最初的定义。图2:测试准确度与本工作中考虑的两个度量之间的关系,适用于NATS-Bench中的所有模型:A中的线性区域,B中的LogSynflowAc-度量肯德尔[30]第三十话LogSynflow(我们的)0.31斯皮尔曼0.370.45为ImageNet 16 -120数据集提供了精确性可以为其他数据集绘制类似的图,为了空间起见,在此省略。为了计算度量,首先用其原始权重的绝对值初始化网络,使得θi0 的情况。然后将一个全1张量转发到网络中,输出被后向以计算梯度。值得注意的是,为了计算Synflow,必须抑制Batch Normalisation层,因为它们会干扰梯度流。然而,这很可能导致梯度爆炸,即使在相对较小的架构中。作为结果,度量忽略权重值的重要性,因为与梯度相关联的项可能比对应的权重高几个为了解决这个问题,我们提出了LogSynflow,它在总结每个网络权重的贡献之前,用对数函数缩小梯度:(Θ)=θlogR+1(4)∂θ为了验证我们的修改提供了更具表现力的度量,我们在我们考虑的两个基准数据集上计算了Synflow和LogSynflow的数值[36,5],并计算了结果与测试准确度(见表1) 1和2)。 我们观察到,实现一致地增加了与测试准确度w.r.t.的相关性。标准实现,因此在下文中,我们将使用LogSynflow代替原始定义。此外,测试准确性和LogSynflow评分之间的正相关性也可从图中看出。2-B,表明搜索LogSynflow分数的高值提供了在测试中可能更准确的架构。3.1.3#跳过的层在最近的无训练NAS文献中,神经正切核(NTK)[12]通常被用作模型可训练性的代理[2,4]。然而,NTK计算始终比其他无训练指标更重[12],并且其特征在于与测试准确度的低相关性(参见表11)。①的人。为了支持更多的可训练架构,我们改为采用跳过的层数除以单元中跳过连接的总数作为评分,即s=#跳过的层。事实上,自从他们在[10]中的介绍奠定了现代深度学 习 的 基 础 以 来 , 所 有 最 先 进 的 网 络 ( 例 如 ,EfficientNet [29],ResNeXt [35],ViT [8]和ConvNext[19]等)在其架构中围绕卷积单元呈现跳过连接。这些已被证明是至关重要的1497真正深度的网络和围绕单元的单跳连接的训练有效地减轻了梯度的消失,并允许信息更容易地通过网络反向传播。该度量的基本原理是通过用大量跳过的层来覆盖很少的连接来支持这种配置即小区内的长距离连接。实际上,当存在从输入节点到输出节点的单个跳过连接时,实现了最大可能值。3.2. 搜索算法为了寻找最优模型,我们采用了进化方法。特别是,实施了改进的具有老化的锦标赛选择(REA)[25]。巡回赛选择是用大小为N的随机群体初始化的。每个个体的特征在于编码网络结构的基因型。 对于每次迭代,随机抽取存活的n号种群的一个子集,并选择样本中最好的个体作为繁殖的亲本然后,样本被变异以生成包括到现有群体中的子。经典锦标赛选择通过丢弃不太合适的个体来保持种群规模不变,而REA[25]则删除了最老的模型,从而使锦标赛偏向于年轻的样本,从而加强了对搜索空间的探索为了进一步提高REA的搜索能力,我们实现了原算法的一个变体,即在每一步中对两个亲本进行两个父代独立地突变以生成两个子代,而第三个子代通过交叉操作生成。交叉是通过从其中一个亲本中均匀取样基因来实现的。这增加了搜索算法的探索能力,因为虽然突变本质上是局部的,但两种不同基因型的组合可能导致与其亲本显著不同的更多变异个体我们的经验证明了这一战略的有效性w.r.t.在下面的实验中的基本算法。为了保持种群规模不变,在杀死最老的个体后,我们只保留前N个个体。在变异和交叉中的所有基因选择都是均匀抽样的。约束搜索通过对FLOP和搜索期间考虑的模型的参数数量施加限制来执行,因为这些不依赖于特定的部署架构。在约束的情况下,只有可行的个体被添加到群体中,我们不断生成后代,直到发现一个可行的孩子。在这项工作的所有实验中,N和n分别设置为25和5,如果没有明确不同的报告。其他N和n值的结果见表1。2、补充材料。4. 基准为了帮助我们的方法和最先进的方法之间的比较,并加快实验,我们利用两个不同的基准,包括预训练的模型。这使得能够在不需要一致的计算资源的情况下容易地测试搜索算法,并且消除了由于不同训练管道而导致的固有可变性,从而增加了结果的再现性。4.1. NAS-Bench-101NAS-Bench-101 [36]是第一个为此目的构建的公共数据集。它包含在CIFAR10上训练和评估的423k个独特的卷积架构。每个网络的特征在于一个细胞,这是重复与交织下采样算子,以形成完整的结构。细胞由直接无环图(DAG)表示,每个节点对应一个操作。有三种可能的操作,1x1卷积,3x3卷积和3x3最大池。一个单元中的节点数最多为7,边数最多为9。4.2. NATS-工作台NATS-Bench [5]是NAS-Bench-201 [7]的扩展,包含在三个不同的计算机视觉数据集上训练和评估的架构,CIFAR 10,CIFAR 100和ImageNet 16 -120(从最简单到更复杂列出)。这些都是补充额外的信息,如FLOP和延迟,这是特别相关的约束场景。然而,该基准中的体系结构的数量被限制为15625,具有大约6k个唯一单元。可能的运算符是1x1卷积,3x3卷积,3x3平均池化,跳过连接和零化。在这种情况下,DAG中的边表示运算符,而每个节点代表由指向该节点的边变换的所有特征图的总和。边的数量为6,而节点的数量设置为4。5. 实验鉴于缺乏测试现有约束NAS算法在上述基准上的效率的实验,作为第一步,我们评估FreeREA对最先进的基于训练和无训练的技术,而不对NAS-Bench-101和NATS-Bench两者施加任何约束。然后,也证明其有效性,在一个受约束的情况下,我们直接比较的架构发现我们的方法对NATS-Bench的最佳架构内强加的限制。我们在NATS-Bench上执行45秒,在NAS-Bench-101上执行12分钟后停止FreeREA。所有实验均在单个RTX 3080 GPU上进行的1498≈≈464442403836图3:方法测试准确度的平均值和标准差手稿这表明我们对最优模型的收敛受到较小不确定性w.r.t.的影响。所有其他方法,因此理想地保证了更少的搜索运行次数以获得最终模型。值得注意的是,虽然对于无训练方法,这可能代表分钟数量级的增益,但对于基于训练的方法,该量是几个小时甚至几天。我们认为,平均测试精度的增加和方差的减少是我们考虑的最佳度量组合和我们实现的搜索算法的修改的为了验证这一说法,我们进行了实验,在实验中我们使用了香草REA搜索算法在NATS-Bench的ImageNet 16 -120数据集上实现[5]。橙色阴影区域收集基于训练的方法,而绿色阴影区域收集无需训练的方法。可以为其他数据集绘制类似的图,为了空间起见,这里省略了这些图。NATS-Bench 上基于训练的方法的结果是从原始的NATS-Bench论文[5]中提取的,而无训练方法的结果是从相应的论文中提取的。5.1. 无约束场景作为第一个分析,我们考虑了NATS-Bench基准。如表1所示。图3和图4中所示。3,我们的实验验证了在最先进的方法中,REA [25]是发现最佳架构的算法。然而,我们的解决方案能够超越基准测试中考虑的所有数据集的先前最佳结果,并且随着任务的复杂性而增加。更具体地说,我们得到FreeREA产生了一个模型,94。CIFAR10的测试准确率为36%,73。CIFAR100和46的51%。ImageNet 16 -120为34%,仅为0。01%,0。比CIFAR 10和ImageNet 16 -120的最佳值低97%,而我们在CIFAR 100中达到值得注意的是,我们的方法所表现出的性能事实上,虽然这些算法在2e4、4e4和1.2e5秒的(上限)时间内提供了解决方案,但FreeREA迭代大约45秒。 同样值得注意的是,我们的方法的特点是不同运行之间的变化显著较小(见表1)。图3)。实际上,我们观察到的测试准确度的最大方差(对于CIFAR100情况)低至0.05,而REA显示出显著更高的值(0. CIFAR-10为31,0。CIFAR100 为84,0。ImageNet 16 - 120为80)。对于所有其他方法可以进行类似的考虑,并且在此省略以提高说明的可读性。并根据我们的指标对模型进行排名,而不是通过训练后的验证准确性。我们将此实现命名为FreeREA−。有趣的是,结果使用FreeREA实现-(参见Tab.(3)非常相似FreeREA,尽管其特征在于一定条件这种相似性保证了所选择的度量的有效性,而它没有提供关于搜索算法所起作用的证据。可以合理地预期,这是由于基准的维度相对较小,而对于更高复杂性的基准(例如NAS-Bench-101),差异应该更加明显在图1中,我们总结了我们的方法和所有竞争对手实现的平均测试准确度与执行时间的关系。我们的研究结果表明,FreeREA代表了计算时间和性能之间的最佳权衡。值得注意的是,图右侧报告的所有基于训练的方法都受到相同搜索时间的限制(见表1)。(3)第三章。为了验证我们的方法在更具挑战性的场景中的性能,我们还在NAS-Bench-101的更复杂的搜索空间上测试了FreeREA,与其他无训练方法和基于训练的同类最佳方法(即REA)。在这个实验中,我们分别选择REA 50和5作为总体和锦标赛规模。这些值随时间的推移而减小。NAS-Bench-101 [36]中提供的原始实现,因为我们允许24小时的搜索,并且只有100个候选人的初始化需要18小时我们采用了同样的骗局-FreeREA的配置-用于比较目的,而人口规模将保持默认值为25,FreeREA。数值结果,收集在表中。4、演示FreeREA如何在搜索大约12分钟的时间内仍然优于所有竞争对手。有趣的是,FreeREA和FreeREA之间在平均测试精度方面存在明显差异,这支持了我们的主张,即我们实现的搜索算法比普通REA更有效。实际上,我们在上一节中介绍的修改在为搜索算法提供更好的探索能力换句REAREINFORCERSPS飞镖(1)GDASENASNASWOTTENASNASIGA-NINASWOTEPE-NASFreeREA测试精度1499CIFAR10CIFAR100ImageNet16-120算法精度时间表3:在NATS-Bench上的测试准确度和时间[s]基于训练的方法的结果取自[5]。算法精度时间精度时间精度时间基于训练[25]第二十五章:一夜情02± 0.72. history of life 23± 0。844e4四十五77±0。801.2e5[37]第三十七章:一个女人90± 0。71. history 86± 0。894e4四十五64±0。781.2e5[16]第91话. 05± 0. 662e4 68. 27± 0。72 4e4四十69±0。361.2e5[17]第五十九章:一个女人84± 7。第61章. 26± 4。43 4e4三十七88±2。911.2e5[17]第六十五章:一个女人38± 7。第60章. 49± 4。95 4e4三十六79±7。591.2e593. GDAS 23± 0。68.how to do 17± 2。504e439岁40±0。001.2e5[22]第二十二话76± 0。第70章. 67± 0。624e441岁44±0。001.2e5免培训[21]第二十三章:一个人的世界10± 0。3124869. 10± 1。61248四十五08±1。55248[2]第九十三章. 9±0。47 1558 七十一24±0。56 1558 四十二38±0。461558[27]第二十七章:一个女人55± 0。10120 71. 20± 0。1412044. 84±1。41120[34]第三十四话 九十三70± 0。6320671. 57± 1。37 206四十五18±2。05206[20]第91话. 31± 1。6910469. 58± 0。83 10441岁84±2。0610494.第94章大结局30± 0。024573. 三十 ± 0。314546.34 ±0. 0045FreeREA(我们的)94.36 ± 0. 004573.51 ± 0. 054546.34 ± 0. 00 45最佳-94.37 - 73.51 - 47.31-表4:NAS-Bench-101上免培训方法和REA的测试准确度和时间[s][36]。基于训练[25]第二十三章:一个女人39±0。0986752免培训[21]第二十二章:一个女人23±8。9011493.第93章大结局13± 1。16723FreeREA(我们的)93.80 ± 0.02724最佳94.31-换句话说,通过突变两个父模型,我们可以更好地检查高性能模型的邻域,而通过交叉,我们也可以探索搜索空间的更远区域 因此,我们预计,FreeREA和FreeREA之间的测试准确度-随着搜索空间的复杂性和探索时间为了证明这一点,我们收集了FreeREA、FreeREA −和REA的平均测试准确度及其方差与计算时间 的 关 系 ( 见 图 1 ) 。 4 ) . 还 有 趣 的 是 , 观 察 到FreeREA在第一次迭代中显示出更大的可变性(即,在101和102s之间),而1500输出显示出接近搜索结束时显著更小的不确定性这种行为与FreeREA−和REA不匹配,并且是对搜索算法进行修改的结果,这表明我们实现不仅提供了更高的探索能力,而且还提供了更低的搜索不确定性。5.2. 受限场景正如我们在引言中广泛讨论的那样,我们认为ML研究的未来趋势将越来越多地致力于开发可以适应受限设备的架构。在这种情况下,尽管模型优化的作用是最大限度地利用可用硬件的基础,但我们认为不应该对依赖于目标硬件的搜索算法进行显式修改。出于这个原因,我们在一个受约束的场景中测试了我们的方法,除了对探索阶段引入限制之外,没有明确考虑目标约束。值得报告的是,这些约束的引入并不简单,并且该方法在无约束情况下的良好性能不一定对应于约束情况下的类似结果。事实上,FreeREA严重依赖于充当测试准确性的代理的度量,但是在整个搜索空间中两者之间的相关性可能不同于在受约束的空间中的因此,高效的免培训1501≈≈图4:NAS-Bench-101上的REA、FreeREA−和FreeREA轨迹[36]。标准偏差按比例缩小10倍,用于可视化目的。X轴在对数标度 请注意,FreeREA在第一次迭代中显示出更大的可变性(即,在101和102s之间),以及搜索结束时的不确定性较低。相反,REA和FreeREA-在搜索的所有阶段都存在类似的方差。表5:在约束场景中,FreeREA在NATS-Bench上的测试准确度遗憾是最佳和平均测试精度之间的差异。算法在45秒后停止。九十三02 ± 0.13七十一07 ± 0.00四十五35 ± 0。044e73e540. 73± 0。00 41.00 0.27NAS算法应该能够搜索具有和不具有由目标硬件施加的限制的良好模型,理想地,不改变所使用的度量和搜索算法。由于据我们所知,在考虑基准的约束场景中没有实验结果,为了验证我们的实现在这种情况下是否也是一个好的解决方案,我们考虑模型FLOP和参数数量的三个不同阈值,即(1e8,8e5)、(7e7,5e5)和(4e7,3e5),其代表三个级别的硬件约束。然后,我们在NATS-Bench的三个数据集上测试了FreeREA的所有约束。在没有其他竞争对手的情况下,我们将搜索结果与数据集中符合约束的最佳模型进行比较,这清楚地有趣的是,在CIFAR数据集上,平均改善幅度(遗憾)为0。32%,而在更具挑战性的ImageNet 16 -120上,我们的表现低于最佳模型0。平均56%值得注意的是,这些结果与无约束场景是一致的,对于更具挑战性的ImageNet 16 -120,我们最佳候选模型和最佳模型的测试准确度之间的差异平均约为0。百分之九十七因此,这表明,即使对搜索施加非常严格的限制,我们的指标组合也可以作为测试准确性的良好替代,并且这些结果可以作为该主题未来研究的强有力6. 结论在本文中,我们提出了FreeREA,这是一种新的快速,高效和准确的小型模型免训练NAS。从最新技术水平的结果来看,我们选择了一个合适的无训练指标组合,作为模型测试准确性的准确代理,我们在搜索过程中使用该指数对不同的网络进行排名。后者是根据基于进化的策略来实现的,在竞争对手方法所需的一小部分时间内产生非常有竞争力的结果。我们在两个不同的基准上测试了我们的方法,NATS-Bench [5](具有三个数据集和15k可用模型作为搜索空间)和NAS-Bench-101 [36](具有一个数据集和500k可用模型作为搜索空间)。有趣的是,我们的研究结果表明,FreeREA不仅能够有效地执行神经架构搜索而无需训练任何候选人,而且它也是第一个无需训练的方法,可以与最先进的基于训练的方法竞争并优于它们,从而在所考虑的基准上实现了当前最有效和最准确的NAS算法。这种进步也带来了相关的好处,即我们的搜索时间在最坏的情况下低至12分钟,即。比现有技术算法低四个数量级[25]。对约束设置的其他实验表明,FreeREA可以提供准确的模型,即使目标硬件对搜索空间施加限制,排除了一些模型。受这些结果的激励,我们未来的努力将致力于将我们的方法推广到其他搜索空间,并考虑更具挑战性的任务。FLOPs Params精度最佳后悔CIFAR101e87e74e78e55e53e594 12 ± 0。0191. 30 ± 0。0094.3193.7591.320.190.730.02CIFAR1001e87e74e78e55e53e5七十二08 ±0. 0168岁39 ±0。0072.4371.6368.480.350.540.091502引用[1] Mohamed S Abdelfattah , Abhinav Mehrotra , KukaszDudziak,and Nicholas Donald Lane.用于轻量级nas的零成本代理。在2020年国际学习代表会议上[2] 陈舞阳、新余公、张阳王。四个GPU小时内在ImageNet上搜索神经结构:一种理论上的观点。在国际会议上学习表示(ICLR),2021年。[3] 帕 亚 尔 · 达 尔 人 工 智 能 的 碳 影 响 。 Nature MachineIntelligence,2(8):423[4] Tu Do和Ngoc Hoang Luong。通过神经切线核和线性区域数的在神经信息处理国际会议上,第335347.斯普林格,2021年。[5] Xuanyi Dong,Lu Liu,Katarzyna Musial,and BogdanGabrys. Nats-bench:对架构拓扑和大小的nas算法进行基 准 测 试 。 IEEE transactions on pattern analysis andmachine intelligence,2021。[6] 董轩逸和杨毅。 寻找一个强大的新-在四个GPU小时内完成的Ral架构。在IEEE/CVF计算机视觉和模式识别会议论文集,第1761-1770页[7] 董轩逸和杨毅。Nas-bench-201:扩展可再现神经架构搜索的范围。在2020年国际学习表征会议[8] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。[9] Thomas Elsken,Jan Hendrik Metzen,and Frank Hutter.神经架构搜索:一个调查。机器学习研究杂志,20(1):1997[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[11] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735[12] ArthurJacot,FranckGabriel,andCl e´ mentHongle r. Neur-ral tangent kernel : Convergence and generalization inneural networks.神经信息处理系统的进展,31,2018。[13] Yiding Jiang , Behnam Neyshabur , Hossein Mobahi ,Dilip Krishnan,and Samy Bengio.神奇的泛化措施和在哪里找到他们。在2019年国际学习代表会议上[14] 杰·李,侯赛因·达瓦里,贾斯卡兰·辛格,还有维波·潘德·海尔.基于工业4.0的制造系统的工业人工智能。制造信件,18:20-23,2018。[15] Namhoon Lee,Thalaiyasingam Ajanthan,and Philip H.S.乇SNIP:基于连接敏感性的单次网络修剪。CoRR,abs/1810.02340,2018。[16] Liam Li和Ameet Talwalkar神经结构搜索的随机搜索和可重 复性。人工 智能的 不确定 性,第 367-377页。PMLR,2020年。[17] 柳寒笑,凯伦西蒙尼扬,杨一鸣。Darts:差异化架构搜索。在2018年国际学习表征会议[18] Yuqiao Liu,Yanan Sun,Bing Xue,Mengjie Zhang,Gary G Yen,and Kay Chen Tan.进化神经结构研究综述 。 IEEE transactions on neural networks and learningsystems,2021。[19] Zhuang Liu , Hanzi Mao , Chao-Yuan Wu , ChristophFeicht-enhofer,Trevor Darrell,and Saining Xie. 2020年代的一个挑战。CoRR,abs/2201.03545,2022。[20] Vasco Lopes,Saeid Alirezazadeh和Lu 'ıs A Alexandre。Epe-nas:高效的性能估计,无需训练神经架构搜索。国际人工神经网络会议,第552-563页。斯普林格,2021年。[21] Joe Mellor, Jack Turner , Amos Storkey , and Elliot JCrowley.无需训练的神经结构搜索。国际机器学习,第7588PMLR,2021年。[22] Hieu Pham,Melody Guan,Barret Zoph,Quoc Le,andJeff Dean.通过参数共享的高效神经架构搜索。国际机器学习会议,第4095-4104页。PMLR,2018。[23] Stefan AD Popenici和Sharon Kerr。探索人工智能对高等教育 教学 的影 响。研究 与实 践技 术增 强学 习, 12(1):1[24] 阿尔文·拉杰科马尔杰弗里·迪恩和艾萨克·科汉医学中的机器学习新英格兰医学杂志,380(14):1347[25] Esteban Real , Alok Aggarwal , Yanping Huang , andQuoc V Le.用于图像分类器架构搜索的正则化进化。在AAAI人工智能会议论文集,第33卷,第4780-4789页[26] Est
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功