没有合适的资源?快使用搜索试试~ 我知道了~
基于BN的神经架构搜索与加速:BN-NAS
307BN-NAS:使用批量归一化的神经架构搜索BoyuChenn1*,PeixiaLii1*,BaopuLii2,†ChenLin3,ChumingLii1,4,MingSunn4,JunjieYann4,WanliOuyang1†1悉尼大学,2BAIDU USA LLC3牛津大学、4商汤科技集团有限公司摘要我们提出了BN-NAS,神经架构搜索与批量归一化(BN-NAS),以加速神经架构搜索(NAS)。BN-NAS可以显著减少NAS中模型训练和评估所需的时间具体来说,快速评估,我们提出了一个基于BN的指标,指示器在一个非常早期的训练阶段预测子网的性能。基于BN的指标进一步便于我们通过在超网训练期间仅训练BN参数来提高训练效率。这是基于我们的观察,训练整个超网是不必要的,而仅训练BN参数加速网络架构搜索的网络收敛。大量的实验表明,该方法在保证准确率的前提下,可以显著缩短超网训练时间10倍以上 源 代 码 可 在 https://github.com/bychen515/BNNAS 获得。1. 介绍神经结构搜索(NAS)旨在自动找到最佳网络结构,已显著提高了许多计算机视觉任务中的网络性能,如图像分类[36,11,17,8,3],对象检测[18,6,21],语义分割[4,19]等。然而,成功的NAS方法通常意味着训练和评估数千个模型,这需要数千个GPU天[36,25]。庞大的搜索预算使得NAS难以得到广泛应用。为了克服上述问题,已经提出了一次性方法[24,11]以基于权重共享技术降低计算成本,将搜索成本从数千GPU天减少到数十GPU天。这些方法构造了一个包括所有候选网络架构的超网 使用构建的超网,一次性方法包括三个阶段:超网训练、子网搜索和子网再训练。*同等贡献†通讯作者SPOsay我们图1. SPOS和我们的BN- NAS的设计和计算成本。与SPOS相比,我们提出的BN-NAS可以在两个阶段加速一次法:超网训练速度快十倍以上,子网搜索速度快60万倍以上。加速的关键是基于BN的指示器,它节省了搜索成本,并且便于以更少的时期仅训练BN参数SPOS总共需要11个GPU小时我们只需要0.8 GPU小时。在超网训练阶段,通过反向传播训练超网。在子网搜索阶段,从超网中抽取子网作为候选结构。根据验证数据对采样子网进行评估,在SPOS中从中选择验证数据准确度最高的前5个子网。然后,在子网再训练阶段中,从随机初始化中再训练所选择的子网。单次方法的主要优点是子网可以继承超网的权值,从而显着减少搜索阶段的计算负担然而,训练超级网络数百个epoch和评估数千个子网的过程仍然是耗时的,导致数十个GPU天的成本。在本文中,我们确定的参数学习的批量归一化(BN)层的关键,以显着减少所需的过多时间的一次性方法在训练和搜索阶段。在搜索阶段,动机是BN参数是操作和子网重要性的非常轻量级的度量。现有的一次性方法在验证数据上评估数千个子网。虽然搜索过程的效率已经得到了提高,但这数千个子网所需的大量计算仍然是一个负担。人们普遍认为培训搜索1 GPU d评估1000个子网100个epoch训练所有参数仅列车BN10个epoch+外部20%加速评价BN评分0.14s(CPU)308信道的BN参数反映信道的重要性[22,15]。因此,具有较小BN参数的信道被认为是不太重要的,并且修剪这些信道将对整个深度网络产生较小的影响[22]。因此,很自然地,累积来自多个信道的BN参数以测量候选操作甚至整个子网的重要性。基于这一观察,我们提出了一种新的基于BN的指标来衡量操作以及子网的重要性,这将搜索成本从SPOS的大约1 GPU天显著降低到我们在搜索阶段的CPU上的0.14秒,如图1中的“搜索”列所示。1.一、BN指标进一步激励我们在超网训练阶段仅训练超网的BN参数。为了训练超网,一般的做法是训练所有参数,即,卷积层、全连接层和BN层的参数然而,仅仅训练BN层并非空穴来风。Frankle等人[10]发现,在其他随机初始化参数固定的情况下,仅训练BN参数的网络仍然具有一定的容量。在超网训练阶段,我们的BN-NAS只训练BN参数,但不训练其他参数,如卷积或全连接层,原因有两个:1)网络可以通过仅训练一部分参数来编码来自训练数据的知识,如在[ 10 ]中发现的; 2)我们专注于使用BN参数作为搜索的指标,而不是网络精度。我们经验地发现,训练只BN参数有助于BN参数在早期的训练时期变得稳定。此外,仅训练BN参数有额外的训练加速益处基于以上观察,我们提出了一种新的BN- NAS. BN-NAS以更少的训练时间训练超网,并使用新的基于BN的更快速度的指示器。概括起来,主要贡献如下:• 我们提出了一个基于BN的网络架构评估指标,它可以显着缩短搜索候选网络架构的一次性NAS方法所需的时间• 我们只训练超网的BN参数,并显着减少训练超网所需的时期数,这是基于在评估网络架构时使用基于BN的指标仅训练BN参数和减少训练时期可能对网络架构搜索阶段具有不利影响。然而,使用我们的基于BN的搜索指示器,克服了不利影响• 大量的实验表明,该方法在训练阶段可以显著提高NAS的速度(10倍以上,例如从100提高到10,SPOS的外部速度提高了20如图1)和搜索阶段(超过600000X)而不损失精度。2. 相关作品2.1. NAS的强化学习与进化提出了网络体系结构自动设计的NAS方法。早期的方法利用强化学习(RL)[36,1]或进化算法(EA)[25]来生成网络架构样本。生成的网络样本在验证数据集上进行评估,并将其准确性作为奖励,以指导RL和EA生成更好的架构样本。Zhou等[35]提出了一个最佳代理的经济神经架构搜索。然而,采样和训练过程仍然很耗时,使得NAS难以部署在ImageNet等大规模数据集上[9]。2.2. 权重共享NAS为了克服强化学习和进化算法的耗时问题,提出了基于权重共享机制的方法。这些方法采用由所有候选子网组成的超网根据训练阶段和搜索阶段的不同,这些方法可以分为一次性方法和可微方法。一次法。单次方法直接用候选子网构造超网,并基于数百个时期的采样子网来训练超网。超网训练后,对数千个子网进行采样,并在验证集上进行评估,以找到基于验证精度的最优子网架构。由于搜索空间巨大,采用EA算法生成待评估子网大多数一次性方法集中在训练期间的子网采样。[11]构造超网,然后通过单路径随机抽样训练超网。在文献[11]的基础上,文[7]提出了一种公平抽样方法,以减轻超网偏差,提高评价能力。[34]提出了一种超网训练时的采样池和采样池中的样本子网,提高了训练效率。与上述方法不同,我们只训练超网中的BN参数,这些参数基于更少的时期的不同采样策略此外,我们评估子网通过我们提出的BN为基础的指标,而不是评估子网的验证集,加快搜索阶段显着。可区别的方法。与单次方法不同,可微方法通过增加结构参数来构造超网。在超网训练期间,子网采样由体系结构页控制309一WNW∈ AN超网训练子网搜索子网再训练图2.拟议框架概览。我们遵循一次性方法的三个阶段。在超网训练中,我们固定卷积参数,并且只训练BN参数几个时期。在超网训练的迭代中,仅从超网采样单个路径以用于前向传播,例如沿着绿色实线箭头,以及反向传播,例如绿色虚线箭头。在子网搜索中,我们使用建议的基于BN的指示符搜索子网(相同颜色的线是子网)。在子网重新训练中,我们从头开始训练最佳子网。这些参数交替地用子网参数训练在超网训练后,根据结构参数的大小选择最优结构。 [20]将体系结构参数视为子网输出的权重,并通过反向传播更新体系结构参数。[2]将架构参数二进制化,以节省超网训练期间的GPU内存使用量。[31]引入Gumbel随机变量来直接训练子网和体系结构参数。然而,在训练过程中,体系结构参数会给某些操作带来训练倾向,特别是对于跳过连接。与这些方法相比,该方法不需要外部参数,并且在训练过程中能够保证所有候选者之间的公平性。3. 方法3.1. 初步因为我们的方法是基于One-shot NAS方法[11,7]和批量归一化层[14]。本小节简要介绍了它们。3.1.1One Shot NAS在One-Shot(例如SPOS)方法,所有候选操作构成一个带权值的超网。这些方法的整个流程可以分为三个阶段,即:超网训练、子网搜索和子网再训练。搜索空间。超网体系结构由图1所示的一系列候选操作构成。3.第三章。层包含多个(N)候选操作。层中的每个候选操作都遵循超网训练通过采样单路径架构a基于每次迭代的采样策略。在单路径架构搜索方法中,每层中仅激活单个候选操作。然后通过正常的网络训练来优化采样结构的权值,用a表示,即。反向传播由于具有从超网继承的权重的子网的准确性应该在验证集上具有高度的预测性,超网训练通常需要数百个历元。子网搜索在训练超网之后,下一步是找到具有最佳性能的最佳架构在SPOS中,验证集的准确度用于评估子网性能。根据验证集上的子网准确度选择最优子网。为了得到可靠的搜索结果,需要评估数千个子网。子网重新训练在重新训练阶段,重新训练在子网搜索阶段以最高准确度找到的K然后在验证集上对它们进行评估,并选择具有最高精度的子网作为最终的最优子网。3.1.2批次归一化层批量归一化(BN)层已用于网络修剪[22,33,15],这是信道重要性的良好评估给定BN层的输入x_in,输出x_out通过下式计算:x(单位:−µ)‘Conv-BN-ReLU’比率(通道数)。z=√σ2+ε,x_out=γ·z+β,(一)Op1-1!CONVOp2-1!CONVOp3-1BNOp1-2 Op1-3!CONV BN!CONV BNBN !CONVBN !CONVBNBN !CONVBN !CONVBNOp4-1!CONV BN !CONV BN!BNBNBNBNBNBNBNBNBNBNBN ...BN✓基于BN的指标CONV BNCONV BNCONV BNCONV BN!锁定OP向前落后310CC联系我们Σ一个,一个CC其中ε是数值稳定性的小正值µ≡EΣxinΣ和σ2≡VarΣxinΣ是均值和方差-跨小批计算的项。缩放参数γ和偏置参数β是BN层中的可学习参数,以仿射归一化特征z。3.2. 算法概述我们提出的NAS方法的流水线如图所示。二、在一步法中,我们遵循三个阶段,即超网训练、子网搜索和子网再训练。在超网训练阶段,随机初始化包含所有可能操作的超网.只有BN层参数通过标准的前向-后向训练进行更新,而超网的其他参数在初始化后是固定的(第3.4节)。在子网搜索阶段,根据我们的BN指标对子网进行采样和评估(第3.3节)。在子网再训练阶段中,重新训练在子网搜索阶段中选择的最佳子网。在下文中,我们从第二阶段(子网搜索)开始。以下描述的顺序与我们在该方向上的探索的顺序一致。3.3. 使用BN指示器的给定已训练的超网,我们需要在最优子网搜索阶段评估采样子网我们利用BN参数来评估候选操作的性能。BN层的表征变化。与通道修剪不同,我们关注的是操作级的输出,而不是通道级。以层1中的激活操作或输出的第c个通道(总共C个通道)为例,BN层的表示需要相应地等式对于操作01的第c个通道,公式(1)可以重写如下:xin−µc层L-1层L层L+1图3.单路径搜索空间。在网络转发期间,每层中仅激活一个操作。我们专注于移动设置网络搜索[27,30]的最流行的搜索空间,如右图所示。候选操作由一系列Conv-BN-ReLU组成,并以批量归一化(BN)结束。我们在“OP”中搜索卷积层的最佳内核大小和扩展比在每个'OP'中总共有6其中γ〇n,l是所选择的候选操作〇n,l中的第c个通道的学习参数。候选操作具有许多CONV、BN和RELU层。在操作的前向传播期间,特征被归一化若干次,并且最终输出仅由最后的缩放参数确定。因此,我们仅利用每个构建操作的最后BN层,如图右侧的红色框所示。3来指示候选操作的性能。BN指示符需要每个操作的最后一层是BN层,因此它不直接适用于搜索其中BN 层 被 放 置 在 操 作 开 始 处 的 模 型 ( 诸 如 预 激 活ResNes)。然而,大多数现有的NAS方法应用与我们类似的搜索空间,例如最近发表的作品[27,30,34,11,7,29]。BN指标可以直接应用于这些方法,以减少计算成本。用于架构的基于BN的指示符。 假设x输出zc=2,C=γc·zc+βc,(二)在超网中有L个搜索层,我们随机对来自第l层的候选操作a1,l进行采样,以进行控制。c_struct子网架构oa,l,...〇 a,L]。1升其中,具有下标c的符号表示第c个通道中的参数,如等式11中的定义。(一).假设z中的归一化特征遵循正态分布。对于N(0,1),较小的缩放参数γ意味着BN层输出Xout的较小幅度。 由于具有较小幅度的通道的输出对整体的贡献较小,因此具有较小幅度的通道的输出对整体的贡献较小。网络[22],我们可以将缩放参数γ视为信道的重要性。操作的BN指示符 当我们计算第n个(n=1,. . .N)个候选操作。. . L),其BN指标S 〇n,l被计算为子网N_a的估计BN分数通过下式计算:LSNa=S oal,l.(四)l=1通过计算子网的BN得分,我们可以评估子网性能,而无需在验证集上对其进行评估,并且搜索阶段可以用公式表示为a*= argmax SNa,如下所示:Ca∈AS.T. FLOPs( a)约束。(五)S=1Σ。γ on,l. 、(3)c=1为了搜索最优子网,我们随机抽样子网N一 在FLOPs约束下,并评估它们ConvOp1 Op2Op3BNReLUConvOp1 Op2Op3BNReLUOp1 Op2 Op3Conv搜索空间K=33,R=3K= 3 3 ,R=6K=5 5 ,R=3K= 55 ,R=6K=77,R=3内核扩展尺寸比BN......311一不不∈一NA×个·算法1基于BN的一次性NAS输入:表示搜索空间的超网、搜索空间P上的子网采样策略( )、训练时期T,用于搜索的采样子网数Ns,训练集train,FLOPs约束F输出:搜索的模型。1) 培训:对于时期0、1、. . . ,T do在训练集上通过采样策略P()训练超网。端2) 搜索:在约束F下对Ns个子网进行采样,并通过等式11基于我们的基于BN的指示符对它们进行评估(3)和(4)。选择得分最高的架构a*作为搜索结果,等式。(五)、3) 再培训:在训练集Ttrain上从头开始训练最优架构a*,并得到训练后的搜索模型Ma*。返回:Ma*基于我们的BN指标。最佳子网是具有最高BN分数SNa的子网。在大多数现有的NAS方法中,验证数据集的准确性是评估子网的常用指标,而在我们的BN-NAS中使用BN指标来评估子网。3.4. 仅训练BN层以前的工作[10]表明,只有训练BN层仍然可以提高DNN的表达能力。由于在子网搜索阶段仅使用BN参数而不是子网精度,因此在超网训练阶段只能训练BN层而不是整个超网。具体地,在反向传播期间仅更新BN参数。我们设计的训练超网所需的时间是SPOS所需时间的8%(10%~ 80%= 8%)。 训练时间的减少来自两个方面 , 更 少 的 历 元 ( 10% ) 和 仅 训 练 BN ( 进 一 步80%)。1. 更少的时期。原始的SPOS方法需要训练超网100个epoch,而我们的方法只需要10个epoch(相当于原始训练时间的10%)。2. 只训练BN当我们训练超网时,我们固定所有卷积层和全连接层的参数仅通过前向-后向传播训练BN层的缩放和偏置参数。虽然冻结参数的梯度是在反向传播期间计算的,但是这些计算的梯度将不被存储或用于更新。因此,它将比训练所有参数更快。通过仅训练超网的BN层,用于训练超网的时间可以是3010(a)图4.当训练所有参数(a)的超网和仅训练BN参数(b)时的早鸟特性。为了更好的可视化,我们将0和1之间的相似性比较图中的第i,j个元素表示第i和第j个颜色越深意味着相似度越高。我们对待的反向归一化L2-距离作为两个时期的两个掩模的相似性。值越高(接近1)表示相似性越高,并以较暗的颜色突出显示。与训练所有参数相比,在BN上训练将实现BN参数的更快收敛。节省约20%(等于80%)。3.4.1基于BN的早鸟指标特性分析如果准确度用于评估网络结构,则减少时期的数量或仅训练BN将在搜索阶段具有不利影响具体地,从以这种方式训练的超网采样的子网的排名将与重新训练的子网具有低相关性,导致从训练不足的超网采样的子网对于评估真实性能不可靠。通过第4.5节中的实验结果观察到了这种不良反应。另一方面,基于BN的指标具有早起鸟的特性,这有助于我们克服潜在的不利影响。训练所有参数时的早期特征。 受[ 33 ]中每个通道BN参数检查的启发,我们研究了基于BN的指标的早鸟特性。在此设置中,将使用所有参数。给定训练好的超网,我们可以通过我们提出的基于BN的指标来评估采样子网。对于超网训练期间的每个时期,我们根据候选操作得分S01,1,S02,1,. . . 、S oN、l. 我们将得分最高的操作的排名设置为1,得分最低的操作设置为秩N。通过连接L个局部排名向量,我们可以将一个时期的训练超网映射到大小为N/L的排名向量。对于来自超网的两个不同训练时期的两个排序向量,我们计算两个排序向量的L2距离我们将不同时期之间的距离可视化,发现超网训练中的BN参数显示出与网中BN相似的特征312×个联系我们表1.在ImageNet上比较基线方法和我们的方法SPOsSPOS+我们FairNASFairNAS+我们Top1-ACC(%)75.7375.6774.0774.12FLOPs(M)470470325326超网训练时期1001015015超网训练参数所有BN所有BN子网搜索代价1 GPU天0.14s(CPU)1 GPU天0.14s(CPU)子网搜索数据验证集没有一验证集没有一工作修剪[33]。图4(a)示出了超网训练的成对排序向量距离矩阵(80、80)。我们可以从图中找到。在图4(a)中,第30个时期处的秩向量与第80个时期处的秩向量之间的相似性高。并且秩向量在大约第30个历元之后趋于稳定。这意味着我们可以在第30个历元左右获得最佳架构信息。因此,在早期训练阶段的BN参数对于指示网络性能已经是有用的。仅训练BN时的早期鸟特征。当我们只训练BN层参数时,图图4(b)示出了“秩向量”倾向于比图4(b)中的训练所有参数更早地(在大约第10个时期)变得稳定。4(a)(在大约30个历元变得稳定)。这意味着我们可以在非常早期的训练阶段使用BN参数来找到最佳架构。我们推测更快收敛的原因是,当冻结其他参数并仅训练BN参数时,BN参数尝试用固定参数而不是改变参数来拟合标签,这使得BN参数收敛得更早。因此,我们可以通过仅训练十分之一的BN参数来进一步缩短训练阶段。为了清楚起见,算法1中示出了我们提出的BN-NAS的整个流水线。早起鸟的特征总结。从图中的结果。4、我们发现:1)BN指标有助于排名稳定,并且便于使用更少的时期进行训练; 2)训练BN仅驱动早鸟特征出现在更早的时期,并且便于我们使用少得多的时期来训练超网。4. 实验我们首先在两个基本的一次性NAS方法上评估基于BN的指标,包括SPOS和FairNAS。然后,我们展示了烧蚀实验,以证明在超网训练和BN指示器的早鸟特性期间仅训练BN层的有效性最后,我们验证了搜索到的模型在目标检测上的传输能力我们的实验是在NVIDIAGTX 1080Ti GPU上使用Pytorch框架进行测试4.1. 实现细节数据集。我们在ImageNet [9]上评估了我们的方法,使用了1.28M训练样本和50,000个验证样本。由于我们不需要在验证集,我们只利用训练样本来训练我们的超网和搜索子网。搜索空间。 我们遵循[13]中的搜索空间,它由内核大小为3,5,7,扩展比为3,6的MobileNetV2块组成由于我们的基于BN的指示符作用于BN层,因此我们不涉及身份操作。我们遵循[13]中SPOS的搜索深度结果,并在网络架构搜索期间搜索其他操作由于缩小了搜索空间,SPOS的结果得到了改善。我们的实验是基于改进的版本。对于[13]中的FairNAS搜索空间,没有身份操作。超参数。 我们训练超网和搜索的体系结构具有相同的超参数,除了在所有实验中的训练时期,包括仅训练BN。对于网络参数训练,我们采用动量为0.9的小批量我们利用学习率预热技术从0.2到0.8在前五个时期和采用余弦退火学习率衰减从0.8到0。我们训练网络的批量大小为1024和L2正则化的权重为1 e-4。此外,标签平滑以0.1的平滑比率应用对于基线超网训练,我们为SPOS和FairNAS训练了100个epoch和对于我们的BN超网训练,我们使用十分之一的基线时期,即,10个纪元和15个纪元。对于搜索的架构再训练,我们从零开始训练搜索的架构240个时期。对于子网搜索,我们遵循[11]中的EA设置。总体大小为50,最大迭代次数为20,在FLOP约束下总共采样Ns=10004.2. 与基线方法的我 们 比 较 我 们 的 方 法 与 基 线 方 法 , SPOS 和FairNAS。比较结果见表1。该方法将NAS过程简化为两个阶段:超网训练和子网搜索.在超网训练过程中,受益于所提出的基于BN的指标的早鸟特性,我们显著地减少了超网的训练时期,对于SPOS从100减少到10,对于FairNAS从150减少到15。此外,我们只训练BN参数而不是所有参数,这对于超网训练有额外的20%的加速比。在子网搜索过程中,基线方法采用EA算法对1000个子网进行抽样,并在验证集上对每个子网进行评估。评估1000个子网的成本约为313表2.ImageNet分类结果的方法和SOTA。在小数据集上搜索(即CIFAR [16])将大大降低搜索成本。将这些方法直接转移到ImageNet可能会导致搜索成本的大幅增加有些方法甚至由于计算成本而无法应用于ImageNet上的搜索。Top1-ACC(%)params(男)FLOPs(男)搜索成本(GPU天)搜索方法搜索数据集ResNet50 [12]75.325.64100-手动-移动网络V2(1.4x)[26]74.76.9585-手动-[23]第二十三话74.97.4591-手动-[27]第76.35.3390-网格搜索ImageNetNASNet-A [36]74.05.35642000RLCIFARAmoebaNet-A [25]74.55.15553150进化CIFARSNAS(轻度)[31]72.74.35221.5梯度CIFARDARTS [20]73.34.75744梯度CIFARPDARTS [5]75.64.95570.3梯度CIFARCARS-G [32]74.24.75370.4进化CIFARProxylessNAS(GPU)[2]75.17.14658.3梯度ImageNetFBNet-C [30]74.95.53759梯度ImageNetFairNAS [7]74.074.232516进化ImageNetSPOS [11]75.735.947011进化ImageNetFairNAS(我们的)74.123.73261.2进化ImageNetSPOS(我们的)75.675.44700.8进化ImageNetSPOS(我们的)+SE76.787.64730.8进化ImageNet1 GPU天。我们的方法也采样1000个子网,但利用BN指标进行子网评估,大大降低了评估成本,从1 GPU天到0.14秒的CPU。总的来说,我们的方法加速了一杆NAS方法约10倍,与基线方法相比,同时性能仍然相当。4.3. 与最新方法的我们将我们的方法与最先进的(SOTA)方法进行比较,如表2所示。与人工设计的网络相比,基于SPOS的搜索模型以更少的FLOPs实现了更高的性能。与SOTA NAS方法相比,无论是基于梯度的方法(无代理)还是基于进化的方法(CARS-G),我们搜索的模型在更少或相似的FLOP下也表现得更好。对于搜索成本,我们的方法需要与CIFAR上搜索和将 架 构 转 移 到 ImageNet 的 方 法 相 当 的 对 于 直 接 在ImageNet上搜索架构的方法,我们的方法需要不到十分 之 一 的 搜 索 成 本 。 与 EfficientNet-B 0 相 比 ,EfficientNet-B 0中的网格搜索需要在ImageNet上训练大量的模型,这比许多进化方法的搜索开销要大得多。4.4. 检测我们进一步验证了我们的BN-NAS对象检测的传输能 力 。 我 们 利 用 在 ImageNet 上 预 训 练 的 BN-NAS(SPOS)作为特征提取器,并遵循EfficientDet [28]中的训练设置,并使用与[28]相同的检测头与[28]相似的FLOP,我们搜索的模型实现了相当的性能。比较与其他手动设计的光网络相比,我们搜索的模型以更少的FLOP实现了更好的性能。用我们的方法搜索的模型具有很好的传递能力。表3.我们搜索的模型和一些SOTA轻模型在COCO数据集上的性能我们的方法实现了与EfficientDet-D 0相当的性能,搜索成本要低得多。骨干FLOPs(B)地图ShuffleNetv21427.6MobileNetV2831.7ResNet182132.2高效Det-D 02.533.46我们2.733.324.5. 消融实验在本节中,我们设计实验以显示BN指标的有效性(第4.5.1节),并显示与SPOS [11](第4.5.2节)相比,BN指标评分和再训练准确率之间的相似相关关系。有关不同初始化方法的更多实验在补充材料中。4.5.1指标我们的BN指标是用于评估子网在搜索过程中。 大多数现有的NAS方法利用验证数据集上的模型准确度来评估子网,在这里表示为Acc-indicator。此外,我们还从超网中随机抽取了五个子网,并选择精度最高的子网作为随机基线,如图中红色虚线所示。五、训练100个epochs的所有参数。我们训练超网100个epoch,并根据3141030100个训练时期精度BN/BN全部/BN/1全部/BN/3010所有/Acc/300随机全部/BN/100全部/访问/100基线BN评分BN-NASτ = 0.551子网访问重新培训访问SPOsτ = 0.548图5.在ImageNet上使用不同训练设置搜索架构的准确性。‘All/BN/k’ means training all pa- rameters of the supernet for kepochs and using BN-indicator to find 在 “All/Acc/k” 中 在‘BN/BN/k’中红色虚线显示随机基线的准确度BN- 指 示 器 ( 图 中 的 “ 全 部 /BN/100” ) 5 ) 和 Acc-indicator(图5中的“All/Acc/100”)。(五)。具有这两个指示符的搜索的子网类似地执行,示出当所有参数 被 训 练 足 够 的 训 练 时 期 时 , BN 指 示 符 与 Acc-indicator的准确度相当。然而,训练SurperNet 100个epochs和评估模型精度都会导致大量的计算成本。训练30个时期的所有参数。我们将超网的训练周期从100减少到30,并在此设置下测试了两个指标的性能,如图所示。五、在较少训练时期的情况下,来自BN指示符 5)比来自Acc-indicator(图5中的‘All/Acc/30’)的那些执行得更好。(五)。这表明,较长的训练时间 的 超 网 是 必 要 的 Acc-indicator , 但 不 重 要 的 BN-indicator。使用Acc-indicator(图1B中的‘All/Acc/30’)搜索的模型 5)表现仅优于随机基线(图中的红色虚线)。5)以0.1%的小幅度。低相关性下的性能下降是由不完全训练引起的。仅训练30个epoch的超网子网的精度另一方面,超网的BN参数表现出早鸟特性。如图如图4(a)所示,其示出了在训练30个时期和80个时期的超网之间的更强的相关性,仅考虑它们的BN值。早坏特征很好地解释了为什么所提出的BN指标在30个时期内仍然保持训练10个时期的所有参数。当进一步将训练时期从30减少到10时,我们的BN指示器不能保持良好的性能,如图所示。五、原因是BN参数在以下条件下没有被很好地训练:10 epoch在超网训练期间,如果所有参数都被训练,如图所示。第4(a)段。训练所有参数会导致不同训练时期的卷积参数不一致,从而阻碍BN参数收敛图6.我们和SPOS的模型相关性。快受此启发,我们试图通过只训练BN参数来减少超网所需的如图4(b),早鸟特性甚至更早出现在大约10个历元,当我们仅训练超网中的BN参数时。通过仅训练BN,我们的BN-NAS在子网搜索期间恢复其出色的性能五、4.5.2与再训练精度的对于一次性NAS方法,一个众所周知的问题是不同子网的低性能一致性在一次性NAS中,指示器对保持高性能一致性起着重要作用为了评估我们提出的BN指标的有效性我们遵循[13]中的搜索空间,并训练超网600个epoch。然后,我们随机抽取100个架构,并从头开始重新训练它们。我们利用Kendall Tauτ度量来示出通过等式11获得的BN分数之间的相关性。(4)采样模型的再训练精度。我们还展示了基于Acc-indicator(SPOS)采样的模型的验证精度和再训练精度之间的相关 性如 图6 ,我 们的 方法实 现了 与SPOS 类似 的Kendall Tau τ,这意味着所提出的BN指示符具有与SPOS中使用的Acc-indicator一样的良好指示能力。我们的实验在实现类似的精度的搜索模型也支持这一结论。5. 结论NAS极大地推动了SOTA方法在计算机视觉中然而,现有的NAS方法是耗时的。我们提出了一种新的BN为基础的指标,有效地评估子网的性能选择从超网,大大加快了搜索过程中的NAS。由于Early-bird特性,我们可以通过只训练BN层来训练超网,进一步减少超网训练时间。实验结果表明,BN-NAS算法可以有效地减少单次NAS的时间消耗。致 谢 这 项 工 作 得 到 了 澳 大 利 亚 研 究 委 员 会 资 助DP200103223,FT210100228和澳大利亚医学研究未来基金MRFAI000085的支持。315引用[1] Irwan Bello,Barret Zoph,Vijay Vasudevan,and QuocV.乐神经优化器搜索与强化学习。 ICML,2017。[2] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件上直接进行神经结构搜索。2019年,在ICLR[3] Boyu Chen , Peixia Li , Chuming Li , Baopu Li , LeiBai , Chen Lin , Ming Sun , Junjie Yan , and WanliOuyang.Glit:用于全局和局部图像Transformer的神经架构搜索。ICCV,2021。[4] 放大图片作者:Chen Liang-jieh, Maxwell D.Collins,Yukun Zhu,George Papandreou,Barret Zoph,FlorianSchroff,Hartwig Adam,and Jonathon Shlens.搜索用于密集图像预测的有效多尺度体系结构。NeurIPS,2018。[5] 辰昕、邪灵犀、君无邪、齐天。 渐进式可区分体系结构搜索:缩小搜索和评估之间的深度差距。在ICCV,2019年。[6] Yukang Chen ,Tong Yang ,Xiangyu Zhang,GaofengMeng,Xinyu Xiao,and Jian Sun.Detnas:用于对象检测的主干搜索。NeurIPS,2019。[7] Xiangxiang Chu , Bo Zhang , Ruijun Xu , and JixiangLi.Fair- nas:重新思考权重共享神经架构搜索的评估公平性。CoRR,abs/1907.01845,2019。[8] Yuanzheng Ci , Chen Lin , Ming Sun , Boyu Chen ,Hongwen Zhang,and Wanli Ouyang.神经结构搜索的进化搜索空间ICCV,2021。[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[10] 放大图片作者:David J. Schwab和Ari S.莫科斯训练batchnorm和only batchnorm:论cnns中随机特征的表达能力。CoRR,abs/2003.00152,2020。[11] Zichao Guo , Xiangyu Zhang , Haoyuan Mu , WenHeng,Zechun Liu,Yichen Wei,and Jian Sun.采用均匀采样的单路径在ECCV,2020年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[13] Yingming Hu , Yuding Liang , Zichao Guo , RuosiWan,Xiangyu Zhang,Yichen Wei,Qingyi Gu,andJian Sun.神经结构搜索的基于角度的搜索空间收缩。CoRR,abs/2004.13431,2020。[14] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML ,2015。[15] 姜敏秀和韩宝亨。使用可区分掩码的操作感知软信道修剪。CoRR,abs/2007.03938,2020。[16] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。2009年[17] Xiang Li , Chen Lin , Chuming Li , Ming Sun , WeiWu,Junjie Yan,and Wanli Ouyang.通过抑制后向衰落改善单次nas。在CVPR,2020年。[18] Feng Liang,Chen Lin,Ronghao Guo,Ming Sun,WeiWu,Junjie Yan,and Wanli Ouyang.用于对象检测的计算重新分配。在ICLR,2020年。[19] 刘晨曦,陈良杰,弗洛里安·施罗夫,哈特维希·亚当,华伟,艾伦·L。Yuille和Fei-Fei Li。自动deeplab:用于语义图像分割的分层神经结构搜索。在CVPR,2019年。[20] 柳寒笑,凯伦西蒙尼扬,杨一鸣。DARTS:微分架构搜索。2019年,在ICLR[21] 刘杰,李初明,梁峰,陈林,孙明,严俊杰,欧阳万里,徐东.具有高效扩张搜索的初始在CVPR,2021年。[22] Zhuang Liu,Jianguo Li,Zhiqiang Shen,Gao Huang,Shoumeng Yan,and Changshui Zhang.通过网络瘦身学习高效的卷积网络InICCV,2017.[23] 马宁宁,张翔宇,郑海涛,孙健。Shufflenet V2:有效的CNN架构设计的实用指南。在ECCV,2018。[24] Hieu Pham,Melody Y.放大图片作者:Guan,BarretZoph.Le和Jeff Dean。通过参数共享进行高效的神经架构搜索。在ICML,2018。[25] Esteban Real , Alok Aggarwal , Yanping Huang , andQuoc V. Le.用于图像分类器架构搜索的正则化进化。在AAAI,2019年。[26] 放大图片作者:Andrew G. Howard,Menglong Zhu,AndreyZhmoginov,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功