ScaleNet：模式缩放与神经结构搜索

94 浏览量更新于2023-12-01 收藏 1.25MB PDF 举报

模式识别

进化算法

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文ScaleNet：寻找可扩展谢继阳1、苏秀2、山友3、马占玉1、王飞4、陈谦31模式识别与智能系统实验室，中国北京邮电大学{xiejiyang2013，mazhanyu} @ bupt.edu.cn澳大利亚悉尼大学。xisu5992@uni.sydney.edu.au3商汤科技研究中心，中国。{youshan，qianchen} @ sensetime.com中国科学技术大学wangfei91@mail.ustc.edu.cn抽象的。近年来，模式的尺度化越来越受到人们的重视，并致力于发展一个具有宽尺度谱的模式族。目前的方法要么简单地诉诸一个单一的NAS方式来构建一个非结构化和不可扩展的模型族，或依赖于手动但固定的缩放策略来缩放不必要的最佳基础模型。在本文中，我们桥接这两个组件，并提出了ScaleNet联合搜索基础模型和缩放策略，使规模大的模型可以有更有前途的性能。具体地说，我们设计了一个超-超网来体现具有不同大小谱的模型（例如，、FLOPs）。然后，缩放策略可以通过基于马尔可夫链的进化算法与基本模型交互学习，并推广到开发更大的模型。为了获得一个像样的超超网，我们设计了一个分层抽样策略，以提高其训练充分性和减轻干扰。实验结果表明，我们的规模网络享有显着的性能优势，在各种FLOP，但至少有2。搜索成本降低53倍代码可在https://github.com/luminolx/ScaleNet上获得。关键词：神经结构搜索（NAS），模型缩放，分层采样策略，基于马尔可夫链的进化算法1介绍卷积神经网络（CNN）在计算机视觉中取得了很好的性能，提出了各种模型架构[6，7，12，15，16，30，43，44，45，46，49，51]以获得更好的特征提取能力。以前的工作[31，32，33，34，48]通常集中在如何在一定的资源预算下自动设计模型架构（例如，的浮点运算（FLOPs），并获得了显著的改进。然而，由于不同的预算水平，可能会出现在不同的，在实际应用中，应考虑多尺度架构，本研究得到国家自然科学基金项目No.61922015，U19B2036，部分由北京市自然科学基金项目No.Z200002arXiv：2207.07267v1 [cs.CV] 2022年724+v：mala2255获取更多论文搜索搜索搜索搜索搜索纯一次性NAS（基线）泛化S0S1S2S3EfficientNet（两步流水线）泛化S0S1S2S3联合搜索BigNAS /OFA（基于NAS的一次性S0管道）泛化S1S2S3ScaleNet（我们联合搜索2J. Xie等人独立图1：生成模型族S 0-S3的不同方法的比较红色、蓝色和绿色箭头分别是搜索缩放阶段1、2和3的缩放策略。纯粹的一次性NAS（基线）独立地搜索各种模型，既没有扩展阶段之间的扩展策略建模，也没有更大规模的架构泛化。BigNAS[50]从整个超网中联合搜索模型家族，尽管它获得了非结构化的不可扩展的[37]第37话，一个人的幸福，，S0）和S1的缩放策略仅被独立地搜索以用于架构概括。在我们的ScaleNet中，我们将这两个组件结合起来，联合搜索基础模型和所有的缩放策略，将模型缩放到无限大。可以由NAS独立生成。然而，典型的NAS方法[31，32，33，34，48]必须针对每个尺度一次搜索一个，并且搜索成本也将近似线性缩放[38]（参见图1中的基线）。[2019 - 04 - 19 00：00：00][2019 - 04 - 19 00：00：00][2019 - 04 - 19 00：00：00][2019 - 04 - 19 00：00][2019 - 01：00]注意模型的尺度，以更直观的方式设计模型族。如图1所示，已经提出了两个框架，包括基于NAS的一次性流水线（例如，，BigNAS [50]和一次性（OFA）[4]）和两步流水线（例如，，EfficientNet [37]和EfficientNet-X[22]）。前者直接设计了一个过完备的单次超网来体现多个（有限）尺度，并用NAS搜索模型。然而，他们很难将搜索到的模型扩展到更大的模型，因为找到一个特定的缩放策略来适应所有非结构化搜索的架构是不可行的。后者将大模型的生成分为两步，即：首先获取最优的基础模型，然后使用一些预定义的策略在三维（包括深度、宽度和分辨率）上对其进行缩放，例如，[37]，复合缩放[37]和快速复合缩放[11]。然而，最佳基础模型对于缩放来说是不必要的最优。如何结合两者的优势，即。通过NAS自动联合搜索基础模型和扩展策略，并可自由扩展扩展到无限规模的策略，应该仔细考虑。与手动设计的基于规则的缩放策略[11，37，47]不同，我们建议在基础模型搜索中直接发现最佳缩放策略。One-shot NAS可以基于包含所有可能架构（所谓的路径）的训练超网搜索模型架构。为了提高搜索效率，我们采用了一个更大的超网称为超级超网体现多尺度网络。然而，一个普通的单镜头空间通常具有均匀采样下路径FLOP的单峰分布[13，50]。通过这种方式，超级超级网络倾向于支持中间FLOP，而不能泛化S0S1S2S3+v：mala2255获取更多论文ScaleNet：搜索缩放3很好地容纳所有FLOP预算，这又将妨碍搜索的缩放策略的最优性。受祖先采样[2]的启发，本文提出了一种分层采样策略（HSS），将搜索空间划分为若干部分，分别进行采样。超超网的搜索空间和采样分布是根据各个缩放阶段的预算精心设计的，并进行多模态形式分布。其次，考虑到我们的目标是找到一个具有最强伸缩能力（而不是最佳性能）的基本模型结构及其相应的最优伸缩策略，我们提出了一种联合搜索算法，称为基于马尔可夫链的进化算法（MCEA），通过迭代和交互优化两者。在获得搜索的缩放策略后，我们分别对深度、宽度和分辨率的趋势进行建模，并将其推广到更大的模型。我们从理论上推导出一组通用化功能的三维大规模的架构，与适度的性能可以实际实现。本文的贡献有四个方面：– 我们提出了ScaleNet来联合搜索基础模型和一组基于one-shot NAS框架的扩展策略通过理论推导的推广函数，将搜索到的尺度– 为了提高超超网中路径的训练充分性，在基于NAS的单次缩放搜索算法中，对分层采样策略（HSS）的搜索空间和FLOP预算的多模态分布进行了精心设计.– 提出了一种基于马尔可夫链的进化算法（MCEA），通过迭代和交互式优化基本模型和尺度策略，实现了两者的联合搜索。– 实验结果表明，在包括ImageNet-1 k在内的各种数据集上，具有各种FLOP预算的ScaleNet搜索架构可以优于参考方法。同时，搜索时间可以大大减少至少2。53倍。2相关工作2.1基于NAS的一次性模型族搜索FBNets[9，40，42]为移动设备优化了CNN架构，并生成了一系列模型，以避免单独训练各个架构并减少资源消耗。Cai等人[4]提出通过解耦训练和搜索来训练一个一次性（OFA）模型，该模型支持不同的架构设置，以降低成本。BigNAS[50]挑战了传统的管道，即模型权重的后处理是实现良好性能所必需的，并且在没有额外重新训练或+v：mala2255获取更多论文大规模架构泛化广义模型+=+值分辨率深度宽度缩放级012345概括搜索模型+=+基础模型ID：身份OP：业务超超网训练IDIDIDIDIDIDOP1OP1OP1OP1OP1OP1路径输出OP2OP2OP2OP2OP2OP2OP3OP3OP3OP3OP3OP3搜索空间基础模型分层抽样策略（HSS）缩放阶段1模型策略基地+缩放缩放阶段2基于马尔可夫链的进化算法搜索最优缩放策略评价样品交叉突变迭代地交叉突变缩放阶段3评价搜索最优基础模型样品⋮4 J. Xie等人。图2：建议的ScaleNet的框架。基于精心设计的具有多个缩放阶段的搜索空间（左框），我们将所提出的分层采样策略（HSS）应用于一次性超超网训练中的采样路径（一条路径由基础模型和缩放策略生成）（上框）。然后，我们利用提出的基于马尔可夫链的进化算法（MCEA）迭代和迭代搜索最佳的基础模型和缩放策略（下框）。在每一次迭代中，进行交叉变异和评估的进化过程，以搜索最佳的基础模型或缩放策略的基础上搜索空间。最后，在获得最优的架构之后，我们通过对深度、宽度和分辨率的趋势的估计，将它们分别推广到更大规模的架构所有获得的架构将被应用于再训练和推理。后期处理然而，这些方法的主要缺点是，他们只是通过训练一个联合甚至一组独立的超网来搜索模型族，而没有分析模型族中具有不同预算的架构之间的结构关系和显式缩放策略。将扩展策略扩展到更大的规模是困难的，甚至是不可行的2.2模型缩放Tan和Le[37]系统地研究了模型缩放，发现仔细平衡模型的深度、宽度和分辨率可以获得更好的性能。他们建议根据经验获得最佳复合缩放，该最佳复合缩放有效地缩放特定的基础模型以获得模型族，即，Efficient- Net 。它的变体版本，如 EfficientNetV 2[38] 和 EfficientNet-X[22]，在速度和准确性方面进行了提出了一种简单的快速复合缩放策略[11]另一项工作[23]建立了一种基于计算重新分配的贪婪网络扩大方法，以便通过在阶段级别上改进三维来扩大CNN的容量。然而，上述工作总是估计+v：mala2255获取更多论文j=0ScaleNet：搜索缩放5的通过小网格搜索的理论双FLOP预算的最佳缩放策略，这在计算上是昂贵的并且与实际FLOP预算不匹配。同时，他们只考虑寻找最小缩放阶段的策略，没有学习较大缩放阶段之间的依赖关系此外，没有研究基础模型和缩放策略之间的关系，这意味着基础模型不是缩放的最佳模型。3ScaleNet针对基于NAS的一次性模型族搜索和基于复合缩放的模型缩放方法的不足，提出将两者的优点结合起来，填补两者之间的空白。在这里，ScaleNet通过训练如图2所示的超级超网，联合搜索具有最强缩放能力的基础模型和基于一次性NAS框架的最佳缩放策略。超超网训练和联合搜索过程是为实现这一目标而精心设计的。然后，当获得搜索的缩放策略时，我们分别对深度、宽度和分辨率的趋势进行建模，并推广到开发更大的架构。所有搜索到的和广义的缩放策略都将应用于最终的模型族构建和训练。3.1用于模型缩放的一次性联合搜索空间基本模型的FLOP预算根据搜索空间的平均FLOP选择，如图3所示（搜索空间的详细信息见补充材料）。然后，对于不同的缩放阶段，它们的FLOP预算由基础模型α的FLOP预算指数扩展。作为缩放层-gies{Sj=[dj，wj，rj]}M，最小缩放级为M，包括深度dj、宽度wj和分辨率rj的变化率（不小于1的实数）分别具有它们相应的FLOP预算，我们为每个基本模型架构分配缩放策略以计算平均 FLOP 并根据其FLOP预算找到缩放级j的搜索空间的中心点。的详细设置图 3 ：基于建议的 HSS 的采样分布，与[50]中原始均匀采样的采样分布进行比较。我们为每一条路径选取了750，000条路径，以模拟实际的超超网训练。整个搜索空间都在补充材料中详细说明。+v：mala2255获取更多论文××j=0j=0|···∼M+16 J. Xie et al.3.2超超网训练应用原始的一次性NAS框架[50，13]，通过利用均匀采样来训练超级超网，意味着每个操作都有相等的概率被选择。它有两个缺点：1）针对整个搜索空间的一个特定FLOP预算的原始钟形采样分布不适合于具有各种预算的多个缩放阶段，其中路径不能在每个缩放阶段中被公平地训练（参见图3中的红色直方图）;2）搜索空间比以前大了近300倍，超超网的规模比以前大了8倍（统计数据采用基本模型和三个缩放阶段训练），这增加了超超网训练的难度。由于我们需要在不同的缩放阶段搜索架构，在超超网训练中具有较少选择的FLOP预算的路径没有得到充分训练，并且在一个缩放阶段中的路径没有得到公平训练。在这里，我们提出了一种分层采样策略（HSS），通过实现多模态采样分布来解决上述问题（参见图3中的蓝色直方图）。由于我们将dj、wj和rji n分配给sear ch空间中的标度级，因此我们将目标多模态采样分布p（α，S）视为混合模型，即，、p（α，S）=p（α）·p（S）=p（α）·. CIMMηjpj（S），（1）其中p（α）和pj（S）是基模α和尺度的抽样分布阶段j，分别为n和nd，nj是nt，nd，nd，nd，ηj=1，ηj≥0。这里，我们可以根据经验将compone与weig_ts设置为相等，即，，ηj=1，或者搜索空间中缩放策略的归一化组合比率。在采样中，我们应用概率图模型的祖先采样[2]，这是缩放策略的两步分层策略我们首先选择一个caling阶段m给出了条件分布p（mη1，，ηM），它是一个分类分布，p（m=j|η1，···，ηM）=ηj。（二更）然后，我们在缩放阶段m中对缩放策略S进行均匀采样。同时，在原始均匀采样的基础上，对基础模型α基于所提出的HSS的一次性超超网训练过程是W= argmin损失α，Sp（α，S）（W（α，S）;D序列），（3）W其中，W是一组超超网参数，W是一组最优参数，loss是训练损失函数（通常是交叉熵损失），W（α，S）表示由α和S构成的路径，Dtrain是训练集。3.3基础模型的交互式搜索和多尺度策略在完成超超网训练之后，我们通常通过进化算法（EA）搜索基模型和一组缩放策略原始+v：mala2255获取更多论文⋯状态转移图j=1--JJJJj=1J j=1Jj=1JSJJJJ��(��−1)��(��−1)ScaleNet：搜索缩放7（浏览次数+1）（浏览次数+1）图4：在提出的基于马尔可夫链的进化算法（MCEA）中的交互式搜索与耦合马尔可夫链。耦合马尔可夫链结合了左（（5）-（6））和右（（7）-（8））的相互作用。优化的目标是全局最大化M个缩放阶段的验证精度ACC的加权和[41]]，maxα，{S}MπjACC（W<$（α，Sj）;Dval）<$，（4）S.T. α∈α，Sj∈α，FLOPs（W∈（α，Sj））=fj，其中，πj是缩放阶段j的归一化权重（受约束于其中，ACC是路径的验证精度，Dval是验证集，α和j分别是基础模型和缩放阶段j的搜索空间，fj是缩放阶段j的FLOP预算。然而，过大的搜索空间和有限的计算资源限制了搜索。同时，从搜索空间中搜索全局最优的架构组是困难和昂贵的，因为冗余信息和噪声可能会影响搜索。在这里，受马尔可夫过程的启发，我们提出了一个所谓的基于马尔可夫链的进化算法（MCEA）与耦合马尔可夫链，迭代和交互式优化α和Sj，以克服全局搜索问题。如图4所示，在最大迭代次数T和迭代索引t = 1，···，T的情况下，我们将（4）中的优化问题转移到迭代地和交互地求解极限分布γ（α）和γ（{Sj}），以分别获得最优α和Sj，如下：α=argmaxγ（α）=argmaxαlimt→∞p（α（t）），（5）p（α（t））=πp（α（t）|α（t−1），{S}M={S（t−1）}M）p（α（t−1）），（6）Sj= argmaxγ（Sj）=argmaxSSJ（7）n（S（t））p（S（t））=<$（t−1）p（S（t））|S（t−1），α=α（t））p（S（t−1）），（8）其中p（α（t−1））和p（S（t−1））是离散变量的状态概率α（t−1）和S（t−1），以可搜索空间作为状态空间。中文（简中文（简状态转移图⋯1.25美元��1.19美元2019 -01 -20 00：00：00��1.16最大值=1.04��1.19美元1.15美元��1.41美元1.36美元��1.35美元αα（t−1）J+v：mala2255获取更多论文Sj=0···1∝∝j=1Jj=1j=1JJKk=1Kwˆ.a（w）j−1ββKk=1+1（九）8 J. Xie et al.p（α（t）|α（t−1），{Sj}MJJ={S（t−1）}M）Mπ j ACC。W<$（α，S（t−1））;Dval<$和p（S（t））|S（t），α=α（t−1））<$A CC. W∈（α（t），Sj）;Dv∈L是过渡矩阵，ces和近似实现的交叉变异过程下FLOP预算分别给定所获得的缩放策略或基础模型（0）J是第j个缩放阶段的初始缩放策略，其中概率p（S（0））1KA CC。W∈（α（0），Sj）;Dval∈由一组随机数得到，在基本模型的FLOP预算下，选定基本模型{α（0）}K3.4基于搜索缩放策略的大规模体系结构泛化更大尺度的缩放策略是由搜索的推广。我们定义M+1级缩放的最优尺度为{S<$j}M。我们应该注意对于基本模型，我们将S0预先定义为d0=w0=r0=1。我们认为，深度，宽度和分辨率应该有不同的增长率，分别，因为它们在模型缩放中扮演不同的角色同时，在我们的设置中，j与FLOP预算成指数比例，但S_（ij），j=1，… ，M几乎在线性或二次水平下。因此，受[37]的启发，我们建议利用深度，宽度和分辨率的独立回归函数进行更大规模的泛化，dˆ =a（d）·。.a（d）j−1+1j0 1- 是的Σr.aj−1+1（r）（r）2000年1月其中a0和a1是可以通过随机梯度下降（SGD）或其他优化算法直接优化的参数。由于我们可以分别学习不同的参数值，因此三个维度可以获得不同的增长率。大规模体系结构泛化功能的推导。我们在这里将FLOP预算定义为f。我们可以得到f和将阶段j缩放为f2 θ×j，其中表示“与……成比例”，θ > 0是a参数. 由于深度d、宽度w、分辨率r与f，w有θ（d），θ（w）和θ（r），其中θ=θ（d）+θ（w）+θ（r），并得到2（θ（d）+θ（w）+θ（r））×j阶矩d×w2×r2，（10）其中，“相关性”是指“与...相关”，而不是“与...相关”。We将j与d之间的关系模拟为2θ（d）×j=2θ（d），并导出一个线性近似为2θ（d）×j+δ1·2θ（d）×j−δ，其中β和δ是0J=a（w）·+v：mala2255获取更多论文200β12β01201201001ScaleNet：搜索9级表1：与ImageNet-1 k数据集上其他最先进方法的比较。Top-1和Top-5准确度（%）、FLOP（G）和参数数量（#Param.，M）的报告。最佳结果以粗体突出显示。[37]第三十二章：一个人696.三四。20 19. 0参数这里，我们定义a（d）=1，a（d）=2θ（d），a（d）=−δ，并获得d=a（d）·.a（d）j+a（d）。（十一）注意，由于a（d）、a（d）和a（d）是参数，因此可以将“n”转换为“="。然后，由于基础模型的d= 1（即，，scaling stage 0），我们应该瓜拉恩蒂的关系。因此，我们将d∈=1，j=0代入（11），得到a（d）=1−a（d）。我们将其代入（11），并获得（9）中的深度函数为：d=a（d）·.a（d）j+.1−a（d）=a（d）·。.a（d）<$j−1<$+1。（十二）模型Top-1Top-5FLOPs#Param.FBNetV2-L1[40]七十七。2N/A0。33N/AOFA-80[4]76岁893. 30。35第六章1[48]第四十八话七十七。193. 30。37第六章5[37]第三十七话76岁393. 20。39五、3ScaleNet-S 0（我们的）七十七。593. 70。35四、4[37]第三十七话78岁894. 40。70第七章8OFA-200[4]79. 094. 50。78十一岁0[28]第二十八话76岁3N/A0。80第六章3[22]第二十二话七十七。3N/A0。91第七章6ScaleNet-S1（我们的）79. 994. 80。80第七章4[37]第三十七话79. 894. 91 .一、00第九章2EfficientNet-B2（重新实施）八十。4九十五。11 .一、00第九章2[50]第五十话八十。9N/A1 .一、04第九章5[22]第二十二话79. 4N/A1 .一、58第九章6ScaleNet-S2（我们的）81岁。3九十五。61 .一、4510. 2[37]第三十七话81岁。1九十五。51 .一、8012个。0[22]第二十二话八十。0N/A二、3010. 0RegNetY-3。2GF[28]79. 0N/A3. 2019号。4[28]第二十八话79. 4N/A四、0020. 6ScaleNet-S3（我们的）82. 2九十五。9二、7613岁2RegNetY-500M→ 4GF[11]81岁。7N/A四、10三十六。2+v：mala2255获取更多论文≈√210 J. Xie等人。表2：五个微调任务的性能前1位精度（%）、FLOP（G）、参数编号（#Param.，M）的报告。最佳结果以粗体显示。数据集模型Top-1FLOPs#Param.[35]第三十五话九十。913岁0041FGVC飞机[26][37]第三十七话九十。71 .一、8010ScaleNet-S3（我们的）91. 4二、7611[35]第三十五话93. 413岁0041[19]第十九话[37]第三十七话93. 61 .一、8010ScaleNet-S3（我们的）94. 4二、7611[35]第三十五话九十。813岁0041食品-101[3][37]第三十七话91. 5四、2017ScaleNet-S4（我们的）92. 0五、9714NASNet-A[54]九十八。042岁0085CIFAR-10[20][37]第三十七话九十八。10。394ScaleNet-S 0（我们的）九十八。30。353NASNet-A[54]87岁5 42岁0085CIFAR-100[20][37]第三十七话88岁10。394ScaleNet-S 0（我们的）88岁4 0。353类似地，我们可以将i和w、r、r之间的关系分别表示为：.1δ′1<$θ（w）×iβ′.δ′β′.1δ′′β′′1θ（r）×i≈√ β′′2.δ′′其中β′、δ′、β″′和δ″ ′是参数。4实验结果与讨论4.1ScaleNet在ImageNet-1 k上的性能我们在ImageNet-1 k数据集[29]上进行了实验，用于最近提出的方法。请注意，我们从训练集中划分了一个迷你验证集（每个类50张图像），用于在MCEA中进行评估。搜索模型由Sj命名，其中S0是基本模型，S1、S2和S3由MCEA搜索，S4和S5是广义模型。根据图3选择FLOP预算。详细设置见补充材料。在表1中，具有不同FLOP预算的ScaleNet搜索模型可以在具有相似FLOP的模型中实现最佳性能。4.2可转移到微调任务除了在ImageNet-1 k上进行的实验之外，我们还通过微调ImageNet预训练的模型，将搜索到的实验设置可以在补充材料中找到。表2显示了迁移学习的结果。我们的模型可以分别优于不同的参考模型当应用更大的模型时，我们可以获得进一步的改进。wβ′ ·2θ（w）×i− β′−、（十三）rβ′′−·2θ（r）×i−，（十四）β′′+v：mala2255获取更多论文ScaleNet：搜索缩放11表3：消融研究。报告了ImageNet-100数据集上s 0-s4模型的前1精度（%）在“样品"栏中，“U”和“H”分别是原始均匀采样和建议的HSS。M和T是所提出的MCEA的最大缩放阶段和迭代。“Va l ” （仅用于 T ）是指 MC E A中的验证准确度（ % ）。最佳结果以粗体显示。样品M不ValS0S1S2S3S4U34N/A84. 1686岁。9687岁7289岁26 九十。02H14N/A84. 0686岁。3087岁9388岁86 九十。30H24N/A84. 4286岁。2488岁0289岁12 九十。14H3163岁5884. 1886岁。3488岁1288岁90 89岁76H3263岁3884. 2085. 8688岁0089岁44 九十。18H3463岁6184.7687岁1888岁1089岁90九十。46H3663岁5984. 4486岁。4287岁8089岁54九十。48H3863岁5384. 5086岁。4887岁6489岁30 九十。364.3消融研究我们讨论了ScaleNet的拟议组件对ImageNet-100 数据集的影响 [29 ，39]。我们从训练集中划分了一个迷你验证集（每个类 50 张图像）。以下所有验证精度均由mini计算。搜索到的模型以sj命名，其中 s0 （ 120 M FLOPs ）是基本模型， s1 （ 240 M FLOPs ）， s2（480百万）FLOPs），和s3（960MFLOPs），而s4（1920M FLOPs）是通用的。实验结果示于表3中。详细的实验设置和搜索空间的可视化在补充材料中。HSS的影响：我们将建议的HSS与[50]中的原始均匀抽样进行了比较。我们的HSS改进了搜索结果，ter重新训练了s 0-s4的精度。此外，我们还使用666462605840060080010001200 1400FLOPs（M）图5：分别使用[50]和我们的HSS中的原始均匀采样的MCEA第4次迭代中的平均验证精度精度基于FLOP进行分组。每个非重叠组包含最近的50M FLOP路径。我们只显示了三个缩放阶段的性能，因为我们只在MCEA中评估它们，除了基本模型的那些。这两个都是为了评估超超网训练的充分性。在图5中，除了[360， 440]的FLOP间隔之外，我们的HSS的精度通常大于原始HSS的精度，因为间隔是模式原始统一抽样我们的HSS定标级的目标FLOPs定标级之间平均验证准确度（%）+v：mala2255获取更多论文12 J. Xie等人。表4：三个系数（%）的性能比较，包括Pearson，Spearman和Kendall系数，分别使用[50]和我们的HSS中的原始均匀采样（“原始”）进行验证准确性，以评估超超网训练中的采样策略。我们对6000条路径进行了采样。方法PearsonSpearman肯德尔原始三十五3八十。164岁1我们的HSS七十三。683. 966岁20.410.390.370.350.330.3112345678迭代1.951.911.871.831.791.7512345678迭代1.41.31.21.110.912345678迭代1.11.071.041.010.980.9512345678迭代(a) 基本模型。(b)缩放阶段1。(c)缩放阶段2。(d)缩放阶段3。图6：MCEA每次迭代中验证准确度的标准差（Std）。在不同的缩放阶段，标准差在前四次迭代中显著下降，而随后趋于稳定和收敛。原始的均匀抽样分布。这意味着所提出的HSS可以提高超超网训练的充分性。我们进一步分析了皮尔逊，斯皮尔曼，肯德尔系数的验证精度的两个，分别。它们都是越大越好。详细设置见补充资料。表4显示了我们的HSS值显著优于原始的相应值。具体来说，我们的皮尔逊是原来搜索中最大缩放阶段的效果：我们在MCEA中将最大缩放阶段M设置为1，2或3以进行搜索。M越大，ScaleNet的性能越好，这意味着可以找到更合适的伸缩基础模型。更多的伸缩阶段可以通过获得更好的伸缩基础模型架构来获得更好的性能，这是一个常识。这意味着我们不必用更大的M来验证。迭代在搜索中的效果我们在MCEA中将迭代T设置为1，2，当将T从1增加到4时，可以获得更好的基础模型和缩放策略，其中在大多数缩放阶段中提高了前1精度。这意味着较大的T可以改善搜索结果。然而，当T从4增加到8时，可以发现类似的性能。这意味着大约四次迭代就足够了。同时，我们发现s 0 -4的再训练精度是相对的MCEA中的验证精度，这表明它的有效性此外，我们在图6中显示了MCEA每次迭代中验证精度的标准差（Std），以分析其收敛性。在不同的缩放阶段，Std在前四次迭代中显著降低，而标准偏差（%）标准偏差（%）标准偏差（%）标准偏差（%）+v：mala2255获取更多论文值†ScaleNet：搜索比例为1321.51S0S1S2S3S421.51S0S1S2S3S421.51S0S1S2S3S4方法Top-1 acc.线性89.90平方89.26我们的90.46(a) 深入(b) 宽度.(c) 分辨率(d) s4模型。图7：比较大规模的架构综合功能。对比的定义见补充资料。我们推广了s4中的三个，并在（d）中的ImageNet-100上重新训练缩放模型。表5：搜索成本的比较（GPU/TPU天）。分别比较了超网（超-超网）训练和搜索的性能。“Ratio-to- ScaleNet”是模型总成本与建议的ScaleNet总成本之间的比率，越小越好。““表示我们估计了下界时间。“N/A”表示该工作没有步骤。“*”表示工作有步骤，但论文中没有具体提到。最好的结果是粗体。模型装置训练搜索总比例网络MnasNet [36]†TPUv 2N/A211，571 211，571436.23×[22]第二十二话N/A>1，765>1，765> 3. 64×有效网络[37]†TPUv3N/A>1，714>1，714> 3. 53× FBNetV2 [40]<$V100**> 1，633> 3. 37× OFA [4]<$V100**> 1，486> 3. 06× BigNAS [50]†TPU v3>960>268>1，228>2.53×ScaleNet（我们的）V100379 106 485 1×然后它们趋于稳定和收敛。这表明我们的ScaleNet可以有效地搜索最优的，并逐步最小化标准差。大规模架构推广的效果：我们通过实验比较了所提出的指数函数与常用的多项式函数，如线性和平方函数。如图7（a）-（c）所示，三种情况可以分别精确地拟合深度、宽度和分辨率的趋势。我们的函数可以在三个维度上表现出不同的趋势。对于深度和分辨率，我们获得了类似于平方的快速增加，而它实现了线性的宽度逐渐变化。总趋势本文的结论与[37]的结论相似，但另两种方法总是表现最高或最低，这是不合理的。我们还分别使用三种广义缩放策略训练了所有缩放的s4模型，如图7（d）所示。所提出的一个可以达到最好的前1性能为90。46%，优于其他两项功能。这表明了我们的大规模架构泛化的有效性。4.4关于搜索成本的探讨我们讨论了我们的ScaleNet的效率，与最近的一些策略相比，包括一次基于NAS和两步管道。我们估计线性平方我们的线性平方我们的线性平方我们的值值+v：mala2255获取更多论文××14 J. Xie等人。在我们的FLOP预算下，为被推荐的搜索成本，因为它们适用于各种FLOP预算。估计数均载于补充材料。如表5所示，所提出的ScaleNet可以显着降低总搜索成本，其中包括（超）超网训练和搜索的成本。它可以减少至少2。53甚至436. 23岁同时，提出的ScaleNet在两部分成本上仍能分别显著提高效率。请注意，我们在实验中使用了V100，而其他一些人使用的是比我们好得多的TPUv3。这意味着我们可以在相同的资源条件下实现更大的总搜索时间的减少4.5扩展策略的发展趋势探讨我们讨论了不同缩放阶段（图8），以促进进一步的扩展策略设计。– 它们在不同尺度阶段的变化率值不同。深度和分辨率2.521.51深度曲线宽度曲线分辨率曲线深度宽度分辨率0 1 2 3 4 5缩放级变化类似，而宽度的变化稍小，这与EfficientNet类似[37]。– 它们的值并不完全受理论条件的限制。图8：ImageNet-1 k上深度、宽度和分辨率的趋势。限制[37]，但仅关注每个缩放阶段中的实际FLOP预算这意味着我们的搜索过程更加公平。– 在得到相应的FLOP预算下足够好的搜索结果后，扩展的搜索结果可以在广义体系结构的FLOP中精确地构造，并且在我们的估计下，在实验中工作良好。5结论本文在one-shot NAS框架的基础上，提出了ScaleNet联合搜索基本模型和一我们改进了超超网训练建议HSS。然后，我们联合搜索的基础模型和缩放策略所提出的MCEA。搜索到的缩放策略很好地推广了更大尺度的缩放策略。实验结果表明，所提出的ScaleNet与不同的FLOP预算的搜索架构可以优于各种数据集，包括ImageNet-1 k和微调任务的参考方法。同时，与基于NAS的单步流水线和人工设计的两步流水线相比，搜索时间大大缩短值+v：mala2255获取更多论文·×JJScaleNet：搜索缩放15A详细的实验设置在本节中，我们将分别描述所提出的ScaleNet用于超超网训练、联合基础模型和缩放策略搜索、模型再训练和微调任务的详细实验设置。FLOPs预算：对于ImageNet-1 k和ImageNet-100数据集[29]，我们使用相同的方法来确定各个缩放阶段的FLOPs预算。我们首先根据表6中的搜索空间通过蒙特卡罗模拟选择基础模型的FLOP预算。我们随机抽取了大约100，000条基本模型的路径，并计算了它们的平均FLOP。我们选择了一个接近平均值的50M的倍数作为基本模型的FLOP预算f0。对于缩放阶段j，我们选择2 jf0作为FLOP预算，并搜索最佳缩放战略近在眼前。超超网训练：对于ImageNet-1 k，我们从表6中的搜索空间和表7中的缩放策略中采样了基础模型。我们使用了随机梯度下降（SGD）优化器，动量为0。9和权重衰减为4 10−5来训练超级超网。初始学习设置为0。12的余弦退火策略进行750，000次迭代。学习率预热也包括在3750次迭代中，从0到0线性增加. 2.我们训练超级超级网，批量大小为1024。在数据增强中，我们根据采样缩放策略中的分辨率值随机调整批次大小，并使用增强的公共超参数。然后，我们再次调整批次的大小以缩放分辨率在实验中，最大缩放级M对于消融研究中的ImageNet-100数据集，我们遵循类选择[39]并将超级-超网的通道数量减少到一半，批量大小为256，总迭代为150，000，预热为375次迭代。所有其他设置与ImageNet-1 k实验相同。消融研究中搜索空间的可视化如图9所示，其趋势与ImageNet-1 k实验相似。我们从训练集中划分了一个迷你验证集（每个类50张图像）进行评估。训练集中的其余图像全部用于超超网训练。本文中所强调的所有验证精度都是由微型验证集分别计算的。联合基础模型和缩放策略搜索：我们应用所提出的MCEA进行搜索，迭代次数T为8，用于获得初始缩放策略S（0）的基础模型的采样数为20。我们首先进行基于主体的（7）获得S（0）的初始步骤。然后，我们迭代地搜索最佳的基础模型和缩放策略T迭代。在基础模型搜索步骤的每个子优化过程中，我们采用进化算法NSGA-II [10]，种群规模P为50，世代规模N为40。同时，虽然我们也可以使用进化算法进行缩放策略搜索步骤，但由于缩放阶段的搜索空间足够小，我们直接在训练好的超超网上应用小网格搜索。注意，我们也可以使用小N和大T（例如，+v：mala2255获取更多论文×16J. Xie等人表6：基本模型的搜索空间的宏观结构。“n“是堆叠建筑块的数目，其中“nmin“和“nmax“分别是最小和最大数目。 “N/A”表示“不适用”。“Y/N”在超超网训练的基础模型中表示“使用或不使用”。“输入”是输入特征图的原始分辨率。“通道”是输出通道的数量。“步幅”是第一个街区的步幅。“缩放”表示需要缩放平台的哪些尺寸，其中“D”是深度，“W I”是输入通道数，“W O”是输出通道数，“R”是分辨率，“N“表示保留部分，”表示忽略1。“F C“是一个全连通层。阶段n操作膨胀率SE输入信道步幅规模nmin nmaxD W I W O R转换柄阶段111113× 3转换MBConvN/A1N/AY/N224× 224× 3112× 112× 32112× 112× 1656× 56× 3228× 28× 4014× 14× 8014× 14× 967× 7× 1927× 7× 3207× 7× 12

下载后可阅读完整内容，剩余1页未读，立即下载