多样化快速搜索最优神经网络架构：DONNA

177 浏览量更新于2023-10-13 收藏 838KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12229提取最优神经网络：多样空间中的快速搜索Bert Moons、Parham Noorzad、Andrii Skliar、GiovanniMariani、Dushyant Mehta、Chris Lott和Tijmen BlankevoortQualcomm AI Research*{bmoons,parham,askliar,gmariani,dushmeht,clott,tijmen}@qti.qualcomm.com摘要当前最先进的神经架构搜索（NAS）方法既不能有效地扩展到多个硬件平台，也不能处理不同的架构搜索空间。为了解决这个问题，我们提出了DONNA（蒸馏最佳神经网络架构），一种新的管道，快速，可扩展和多样化的NAS，可扩展到许多用户场景- IOS。DONNA由三个阶段组成。首先，准确度预测器是建立使用块知识蒸馏从参考模型。该预测器使得能够在具有不同的宏观架构参数（诸如层类型和注意机制）以及微架构参数（诸如块重复和扩展速率）的不同网络之间进行搜索。第二，快速演进搜索使用准确度预测器和设备上测量为任何场景找到一组帕累托最优架构三是优化模型快速精细化--调整到从头开始训练的准确性。在查找设备上最先进的体系结构方面，DONNA比MNasNet快100倍。对ImageNet进行分类，DONNA架构在Nvidia V100 GPU上比 EfficientNet-B 0 和 Mo-bileNetV 2 快 20% ，在 NvidiaV100 GPU上快10%。比三星S20智能手机上的MobileNetV 2 -1.4x高0.5%的准确度。除了NAS之外，DONNA还用于搜索空间扩展和探索，以及硬件感知模型压缩。1. 介绍虽然卷积神经网络（CNN）已经实现了广泛的视觉任务的最先进的性能，但它们并不总是在硬件平台上有效地执行，为了缓解这个问题，CNN被特别优化以最小化设备上性能的延迟和能量消耗。然而，最佳CNN架构在不同平台之间可能会有很大差异。*Qualcomm AI Research是Qualcomm Technologies，Inc.的一项计划。即使在单一平台上，它们的效率也会随着不同的操作条件或驱动程序版本而变化。为了解决这个问题，需要用于自动硬件感知神经架构搜索（NAS）的低成本方法。然而，当前的NAS算法受到若干限制。首先，许多优化算法[32，12，31，20]仅针对单个部署场景：硬件不可知的复杂性度量、硬件平台或不同的延迟、能量或准确性要求。这意味着，只要有任何零件这种情况的变化。第二，许多方法不能在具有不同类型的卷积核、激活函数和注意机制的真正多样化的搜索空间中进行搜索。当前的方法要么以极其昂贵的搜索成本搜索大而多样的空间[32，12]，要么通过将搜索时间用于更受约束和更少多样性的搜索来限制其适用性[3，31，33，41，23，22]。 NAS中的大多数这样的加速来自于对权重共享机制的依赖，其要求搜索空间中的所有架构在结构上相似。因此，这些工作通常仅在诸如内核大小、扩展速率和块重复的微架构选择中进行搜索，而不在层类型、注意机制和激活函数的宏架构选择中因此，他们依赖于先前昂贵的方法，如[32，12]，以获得宏架构的最佳选择我们提出了DONNA（蒸馏最优神经网络架构），一种方法，解决了这两个问题：它扩展到多个部署方案的低附加成本，并在不同的搜索空间进行快速NAS该方法从训练的参考模型开始。第一个问题通过将NAS分成场景不可知训练阶段和仅需要有限训练的场景感知搜索阶段来解决，如图1所示。在训练阶段中建立准确度预测器之后，通常在数小时的时间范围内针对每个新部署场景快速执行搜索，并且仅需要最小的微调来最终确定最优模型。其次，DONNA考虑了多种宏观架构选择，以及微观架构选择，通过创建这种交流12230涵盖多种搜索-空间内核3,5,7关注激活SEReLU/Swish展开2，3，4，6 细胞类型分组，DWS深度1,2,3,4宽度刻度0.5x、1.0x部署方案的数量（a）（b）（c）（d）图1.神经网络部署在许多场景中，在具有不同功率模式和驱动软件的各种硬件平台对于许多这样的场景，DONNA优雅地向NAS扩展，这与大多数先前的方法相反，在大多数先前的方法中，NAS针对它们中的每一个重复（a）。这是通过将NAS分成场景不可知训练阶段和快速场景感知搜索阶段来实现的，场景不可知训练阶段通过逐块知识蒸馏（b）构建准确度预测器，快速场景感知搜索阶段使用该预测器和硬件测量（c）。这产生了设备上模型的帕累托前沿，这里显示了ImageNet上的SamsungS20 GPU [8]（d）。通过Blockwise Knowledge Distillation（BKD）[18]的精确度预测器，见图3。这种方法对考虑中的宏观和微观体系结构施加了很少的DONNA流水线产生现有技术的网络架构，如图1（d）中针对Samsung S20 GPU所示。最后，我们使用DONNA的快速搜索空间扩展和勘探，并在设备上的模型压缩。这是可能的，因为DONNA准确度预测器一般化到原始搜索空间之外的架构。2. 相关工作随着时间的推移，NAS文献中的方法已经从过于昂贵但整体和多样化的搜索方法[42，43，32]发展到在更具限制性的非多样化搜索空间中搜索的成本较低的方法[3，31]。这项工作，DONNA，旨在从两个世界的最佳利益：在不同的空间快速搜索。我们建议感兴趣的读者参考Elsken等人现有的专门调查[10]以更广泛地讨论NAS文献。NAS的早期方法依赖于强化学习[42，43，32]或进化优化[29]。这些方法允许不同的搜索空间，但由于需要在整个搜索过程中针对多个时期训练数千个模型，例如，MNasNet [32]在一次搜索中使用多达40，000个epoch。这个过程可以通过在不同模型之间使用权重共享来加速，如ENAS [28]。然而，这是以较少多样性的搜索空间为代价的，因为子采样模型必须相似以使权重可共享。在另一条工作线中，可区分的架构搜索方法，如DARTS [20] ， FBNet [38] ， FBNetV 2 [35] ，ProxylessNAS [4]，AtomNAS [24]和Single-Path NAS[31] 同时优化一个大型超网的权值及其结构参数。这就造成了几个问题--在不同的搜索空间中实现可扩展和可感知NAS的优势。首先，在大多数这些作品中，不同的细胞选择必须可用于算法，最终限制了空间虽然有几项工作通过权衡架构参数的数量与给定时间GPU内存中的权重数量[5]，通过在搜索期间仅更新权重的子集[40]，或者通过利用更细粒度的权重共享形式[31]来解决这个问题，但当引入新操作时，第二，尽管可微分搜索方法加速了单个搜索迭代，但是由于它们的准确性和复杂性的耦合，必须针对每个场景重复搜索。可微方法也需要可微成本模型。通常，这些模型使用层延迟的总和作为网络延迟的代理，这可能是不准确的。在新兴的深度优先处理器[11]中尤其如此，其中中间结果存储在本地存储器中，使得全图延迟取决于层序列而不是单个层。为了提高NAS在不同场景下的扩展性能，关键是将模型的准确性预测与复杂性目标解耦。在一次性（OFA）[3]和[22]中，使用渐进收缩训练大型权重共享这个过程允许从训练的超网中采样较小的子网，这些子网的性能与从头开始训练的模型相当然后，可以对大量网络进行采样，以构建该搜索空间的准确度预测器，该准确度预测器进而可以用于场景感知进化搜索，如图1（c）所示。虽然在这种方法上类似于DONNA，但OFA [3]有几个缺点。首先，其搜索空间的多样性是有限的，这是由于其依赖于渐进收缩和权重共享，这需要在层类型，注意力，输入精度预测器目标设备的快速型号搜索可重复使用的准确度预测器设备上的环内硬件测量输出精度预测器设计成本通过块知识蒸馏高效构建一BA B预测精度快速遗传优化12231ch=32ch=64ch=96ch=128 ch=196ch=256图2. DONNA将模型拆分为股骨柄、头部和N个块。搜索空间被定义在N个块上，具有不同的内核大小、扩展、深度、激活、单元类型、注意力和宽度缩放因子。块步幅保持恒定。激活和通道宽度。此外，渐进收缩只能在批处理维度中并行化，限制了可以并行处理的GPU的最大数量。DONNA不受这些限制。类似地，Blockwisely-Supervised NAS（DNA）[18]将NAS分为两个阶段：创建搜索空间的排名为了构建这个排名模型，DNA使用分块知识蒸馏（BKD）来构建给定搜索空间中所有可能网络的相对排名然后训练和验证最好的网络。重要的是要注意，正是BKD实现了对最佳注意机制、激活函数和通道缩放的多样化搜索然而，DNA有三个缺点：（1）当对大且多样的搜索空间进行排序时，排序模型失败（第3.2节），（2）排序仅在搜索空间内保持，并且不允许对不同空间进行比较，以及（3）由于依赖于从头开始训练子采样架构，因此该方法在搜索时间方面没有竞争力。DONNA的这项工作解决了所有这些问题。总之，DONNA在这些关键方面与以前的工作不同：1. 与OFA [3]不同，DONNA在不同的搜索空间中启用硬件感知搜索;可微和RL-/基于进化的方法也可以做到这一点，但分别使用更多的内存或训练时间2. DONNA可扩展到多个准确性/延迟目标，每个新目标只需要边际成本这与可微分或基于RL/进化的方法形成对比，其中必须对每个新目标重复搜索3. DONNA使用一种新的准确度预测器，其与从头开始训练的准确度的相关性优于先前的工作，如DNA [18]（见图4）。4. 此外，DONNA准确度预测器由于依赖于块质量度量而非网络配置，因此适用于不可见的搜索空间（见图7）。5. DONNA依赖于一种快速微调方法，该方法实现了与从头开始训练相同的准确性，同时速度快9倍，与DNA相比，减少了发现架构的训练时间。3. 提取最优神经网络DONNA从一个经过训练的参考模型开始，是NAS的三步管道。对于给定的搜索空间（第3.1节），我们首先使用 Blockwise Knowledge Distillation （ BKD ）（第3.2节）构建场景不可知的准确这相当于一次性费用。其次，快速场景感知进化搜索阶段为任何特定场景找到帕累托最优网络架构（第3.3节）。第三，预测的帕累托最优体系结构可以快速微调到部署的完全准确度（第3.4节）。3.1. 搜索空间结构图2展示了我们的搜索空间的块级架构和一些可以在其中变化的参数。这个搜索空间由一个主干、头部和N个可变块组成，每个块都有一个固定的步幅。杆、头部和步幅模式的选择取决于参考模型的选择。这里使用的块由通过前馈和残差连接连接在一起的重复层组成搜索空间中的块被表示为Bn，m，其中Bn，m是参考模型中的块Bn的M个选择中的第m个这些模块可以是任何风格的神经架构（见附录C中的视觉转换器[9]），具有非常少的结构限制;只有Bn，m的输入和输出张量的空间维度需要匹配参考模型的空间维度，这允许不同的搜索。在本文和附录A中，讨论了基于MobileNetV3 [12]和EfficientNet [33]的其他参考模型。3.2. 构建模型精度预测器3.2.1顺时针知识蒸馏我们讨论Blockwise Knowledge Distillation（BKD）作为为我们的搜索空间构建准确度预测器的第一步，见图3（a）。BKD产生用于每个替换块Bn，m的预训练权重和质量度量的块库。这随后用于快速微调（第3.4节）和拟合精度预测值（第3.2.2节）。为了构建该库，使用预训练的参考块Bn作为老师，将每个块Bn，m教师的输出特征图Y n与学生的输出特征图之间的误差干1，s=22，s=23，s=24，s=15，s=2头Conv3x3s2内核3，5，7ReLU/Swishch=32DWConv选择：激活扩展2、3、4、6细胞类型分组、DW、注意SE，无SE 深度1,2,3,4 宽度刻度0.5x、1.0xConv1x1平均ch=1536FC12232使用BlockwiseKnowledgeDistillation（BKD）构建块权重和块度量库具有权重和质量指标的块库示例和Finetune20-50架构构建架构库使用端到端知识蒸馏（EKD）的使用块和建筑库拟合线性全搜索空间的精度预测器B1B2…B1B B标签2...NNSRNSRB月1B2，j…线性精度预测器氮钾B1.0BN，BBN，建筑图书馆1,0...B1，...BN，精度预测器可推广到不可见的架构B1，BN，实际准确度（%）CE软CE预测前1位准确度[%]n、c块NSRB1.02......BN，m-11.0BN，m0.9块NSRB1.02......BN，m-11.0BN，m0.9架构精度百分之七十...百分之七十五百分之八(a)（b）（c）图3.准确度预测器分三步构建（a）执行块知识蒸馏（BKD）以构建块质量度量和预训练权重的库（b）从搜索空间采样一组全模型架构，并使用BKD初始化进行微调(c)这些结果被用作拟合线性精度预测器的目标。在这个过程中使用了Y¯n，m。当然，这是由我-80最小化每个信道的噪声信号功率比（NSR）：781.00.8L（Wn，m;Yn−1，Yn）=1摄氏度Cc=0Yn，c-Y¯n，m，c2n、c76(1)74720.60.4这里，C是特征图中的通道数，Wn，m是块Bn，m的权重，Yn是Bn，Y¯n，m的目标输出特征映射，是块Bn，m的输出，σ2是Yn，c的方差。该指标与706870 75 80ImageNet Top-1 val.准确度[%]0.20.070 75 80ImageNet Top-1 val.准确度[%]特征图上的均方误差（MSE），[25]显示与任务丢失相关。基本上，块Bn，m被训练为紧密地复制教师直观地说，具有更大“建模能力”或“表现力”的更大、更精确的块可以比更小、更不精确的块更接近在ImageNet [8]上，这样的知识提取只需要一个单一的训练时期就可以获得有效的结果。在训练每个块之后，将得到的NSR度量添加到块库作为块Bn，m的质量度量。请注意，总数可训练块Bn，m随着N×M线性增长，而整个搜索空间随着MN，mak呈指数增长即使对于大的搜索空间，该方法也可以很好地扩展。3.2.2线性精度预测器DONNA背后的关键见解是通过BKD导出的块级质量度量（例如，每个块的NSR）可以用于预测从搜索空间采样的所有架构的准确度。我们稍后会证明这个度量标准是有效的图4.线性精度预测器推广到测试集看不见的模型（左），是一个更好的排名预测比DNA [18]（右）在同一集：Kendall-Tau [16]为0.91，而DNA为0.75。模型，通常使用二阶项，以使用存储在块库中的质量度量作为特征和来自架构库的准确度作为目标来预测全搜索空间图4（左）显示线性预测器与在DONNA空间中ImageNet [8]上训练的网络架构测试集拟合良好（MSE=0.2，KT [16]=0.91）。该预测器可以被理解为灵敏度模型，该灵敏度模型指示哪些块应该是大的，哪些块可以是小的，以建立具有高精度的网络。附录A.4.2讨论了不同衍生质量指标对准确度预测质量的影响。现在将该过程与DNA [18]进行比较，其中BKD用于构建排名模型而不是准确度模型。DNA [18]将子采样架构i排序为：对于搜索空间之外的体系结构（第4.1.2节）。为了创建准确性预测器，我们构建了从搜索中采样的训练模型的架构库Ri= ΣNn=0Yn−Yn，mi1σn（二）空间，见图3（b）。这些模型可以从头开始训练，也可以使用BKD的权重初始化快速微调（第3.4节）。随后，我们拟合线性回归这由于两个原因是次优的。首先，排名模型仅对相同搜索空间内的模型进行排名，并且不允许比较不同搜索DONNA测试集（MSE=0.20，KT=0.91）DONNA ShiftNet测试集（MSE=0.20，KT=0.80）我们的（MSE=0.20，KT=0.91）DNA [18]（KT=0.75）............预测准确度[%]预测排名[-]σ2架构访问架构Acc.百分之七十...百分之七十二百分百分12233空间.其次，质量度量的简单总和没有考虑块的潜在不同的噪声敏感性，为此需要加权敏感性模型。DONNA预测器承担这两个角色。图4（右）说明了DONNA搜索空间的线性预测器的性能，并将其排序的质量与DNA [18]进行了比较。注意，DONNA预测器的质量随时间增加，因为每当帕累托最优网络被微调时，它们可以被添加到架构库，并且预测器可以被再次拟合3.3. 进化搜索给定精度模型和块库，执行NSGA-II [7，1]进化算法以找到最大化模型精度并最小化目标成本函数的帕累托最优架构，参见图1（c）。成本函数可以是场景不可知的，诸如网络中的操作的数量或参数的数量，或者是场景感知的，诸如设备上延迟、吞吐量或能量。在这项工作中，全网络延迟被认为是一个成本函数，通过使用直接的硬件测量的优化循环。在这个过程的最后，NSGA-II产生的帕累托最优模型被微调，以获得最终模型（第3.4节）。3.4. Finetuning架构从搜索空间采样的完整架构可以快速微调，以匹配从头开始的训练精度，方法是使用BKD过程中的权重对其进行初始化（第3.2.1节）。通过使用端到端知识蒸馏（EKD），使用引用模型作为教师，进一步加速了微调，参见图3（b）。在附录A.5中，我们展示了这样的模型可以被微调到最新状态。在不到50个历元的时间内达到最高精度。与[37]中所需的最先进的450个epoch相比，这是9倍的用于从头开始训练EfficientNet风格的网络。这种快速训练方案对于DONNA的整体效率至关重要，因为我们将其用于生成第3.2节中的线性精度预测器的训练目标，以及微调和验证Pareto最优架构。4. 实验本节讨论DONNA的三个用例：场景感知神经架构搜索（第4.1.1节）、搜索空间外推和设计（第4.1.2节）以及模型压缩（第4.1.3 节）。我们还表明，DONNA可以直接应用于MS- COCO [19]上的对象检测，并且DONNA发现的架构转移到最佳检测主干（第4.2节）。DONNA与随机检索的比较见附录E。4.1. ImageNet分类我们为ImageNet分类提供了不同搜索空间的实验：DONNA 、 EfficientNet- Compression 和 MobileNetV 3（1.0×、1.2×）。后两个搜索空间是空间con的逐块版本。由OFA [2]侧;也就是说，在块级别而不是层级别上修改诸如扩展比和内核大小的参数，使得整体搜索空间比OFA的搜索空间更粗糙。本节讨论了这些空间的选定结果，更广泛的结果可参见附录A.6。我们首先展示了DONNA在DONNA搜索空间中发现的网络优于最先进的网络（图5）。例如，DONNA最多为2。与使用相同数量的参数从头开始训练的OFA[3]相比，ImageNet[8]验证的准确率高出4%与此同时，DONNA发现模型在同一时间在V100 GPU上的表现超过了DNA [18]高达1.5%。延迟和MobileNetV2（1. 4×）提高10%，在三星S20GPU上精度提高0.5%我们也证明了DONNA发现的MobileNetV3风格的网络在优化相同的度量时，与Mnasnet [32]和OFA [3]相比，实现了相同质量的模型（见图2）。6和Tab。2）的情况。所有实验都是针对ImageNet [8]图像，输入分辨率为224×224。训练超参数在附录A.1中讨论。4.1.1NAS for DONNA on ImageNetDONNA用于ImageNet上的场景感知神经架构搜索[8]，快速找到各种部署场景的最先进模型，参见图5。如图2所示，DONNA空间中的所有5个块Bn可以由以下项中的选择来替换：M=384个选项：k ∈ {3，5，7};扩展∈ {2，3，4，6};深度 ∈ {1 ， 2 ， 3 ， 4}; 激活 / 注意 ∈ {ReLU/ 无，Swish[12]/SE[13]};层类型∈ {分组，深度反转的剩余瓶颈};以及信道缩放∈ {0. 5×，1. 0×}。搜索空间可以被扩展或任意地约束到设备的已知有效架构。使用BKD训练这些5×384= 1920个备选块中的每一个以完成块库。一旦块库进行训练，我们使用DNA[18]中基于BKD的排名度量来对均匀分布在排名空间中的一组架构进行采样。对于DONNA搜索空间，我们最终从BKD初始化开始对50个时期的采样网络进行微调，构建具有用于拟合线性精度预测器的精度目标的架构库通常情况下，需要对20-30个目标网络进行微调以产生良好的结果，请参见附录A.4。总的来说，包括参考模型的训练（450个时期），需要450+1920+30×50=3870个训练时期来构建准确度预测器。这比训练单个网络的成本低10倍12234我们的（DONNA）预测mnasnetEfficientNet B0/Lite0MobileNetV2ResNetOFA/划痕我们的（DONNA）实际FBNETMobileNetV3ProxyLessNasDNAOFA*/刮擦807978777675747372712.5 5.0 7.5 10.0 12.5 0.25 0.50 0.75 1.00 1.25 1.505 10 15 20 25307.5 10.012.515.0十七点五#参数[M]模拟延迟，相对于EffNet-B 0延迟- V100 - BS=32 [ms]延迟- Samsung S20 GPU - BS=1 [ms]图5.预测的帕累托最优前沿和DONNA在DONNA搜索空间中找到的模型。结果显示了针对操作数量（左），参数数量（左中），Nvidia V100 GPU上的延迟（右中）以及针对移动SoC中张量计算单元的模拟器上的延迟（右）。趋势线指示预测的准确性，而点是从趋势线采样的，并且微调到从头开始的准确性水平OFA*/Scratch结果是我们自己使用框架的搜索结果在[2]中，对于224× 224的图像，最好的模型是从头开始用DONNA超参数重新训练的，以进行公平的比较。表1.比较NAS方法的成本，假设每个部署场景有10个经过培训的体系结构DONNA可以在类似于MNasNet [32]的不同空间中搜索，搜索成本降低100倍方法粒度宏分集搜寻成本1个场景[epochs]成本/方案4个场景[时代]成本/方案∞情景[时代]OFA [3]层层固定1200+10×[25 −75]550 −1050250 −750NSGANetV2 [22]层层固定1200+10×[25 −75]550 −1050250 −750DNA [18]层层固定770+10×45047004500MNasNet [32]块级可变40000+10×4504450044500这项工作块级可变4000+10×501500500scratch来模拟超过8万亿个体系结构的准确性。随后，从BKD初始化开始，可以选择任何架构并在50个历元中训练到完全准确度。同样地，如在Ap中进一步讨论的pendixA.4 ，用于 MobileNetV3 （ 1.2× ）和EfficientNet-Compressed 的准确度模型，成本为450+135+20×50=1585个epochs，大致与训练来自抓痒.你知道虽然这比OFA [3]的成本更高，但它覆盖了更多样化的搜索空间。OFA需要一个等价的，考虑到动态批量大小[2]，180+125+2×150+4×150=1205个在大型超网上反向传播的渐进收缩时期 BKDNAS [18] 只需要450+16×20=770个epoch来建立它的排名模型，但是450个时期来训练模型从无到有其他方法如MnasNet [32]可以包含-Dle与DONNA类似的多样性，但对于每个部署场景，通常需要更长数量级的搜索时间（40000个历元）。DONNA以2个数量级的搜索成本提供最重要的是，BKD时期比完整网络上的时期明显更快，因为BKD仅需要参考模型的部分计算和单个块Bn，m上的反向传播。此外，与OFA相反，所有块Bn，m可以并行训练，因为它们是完全独立的。互相依赖。表1量化了这些方法之间搜索时间的差异。随着准确度预测的到位，帕累托最优的DONNA模型被发现的几个目标。图5示出了DONNA在移动SoC中的针对张量计算单元的模拟器上、在NVIDIA V100GPU上和在Samsung S20 GPU上发现在参数数量方面优于现有技术的网络。每个预测的帕累托最优前沿都是使用NSGA-II [7，1]在100个架构的群体上进行进化搜索生成的，直到收敛。在适用的情况下，全体系结构的硬件测量中使用的进化循环。测量和基线准确度的详细信息见附录A.3。同样，Tab。图2和图6显示，DONNA发现的模型与其他最先进的方法（如MnasNet [32]和OFA [3]）在相同的空间。选项卡. 2显示DONNA发现mod-在MobileNetV3（1.0×）空间中的元素在操作数量方面与MobileNetV3 [12]相当，尽管[12]使用昂贵的MnasNet[32]。图6显示了在MobileNetV3（1.2×）搜索空间中通过DONNA发现的网络的相同情况，通过将它们与通过OFA [3]优化的模型进行比较。ImageNet Top-1 val.准确度[%]1223579787776757473200300400500600 700手术次数[M]0.250.500.751.00一点二五模拟延迟，相对于EffNet-B 0图6.DONNA-NAS发现的模型与OFA [3]在MobileNetV 3（1.2×）搜索空间中发现的模型相当模-200400600800100051015202530EL被相同地训练以用于公平比较。 OFA* 型号为手术次数[M]延迟- V100 - BS=32 [ms]我们用[2]找到并从头开始训练。表2. DONNA在MobileNetV3（1.0×）空间中发现了与MobileNetV3 [12ImageNet数量图7.（左）DONNA的准确度预测器使用ShiftNets [39]推广到看不见的空间，而不使用ShiftNets来训练预测器。（右）在V100上对原始DONNA搜索空间内的模型进行网络[第12话]我们的（MobNetV31.0×）操作[M] 232242val top-1[%]75.77@600[37]75.75@50GPU。该图说明了多样化搜索空间的必要性，当可以最佳地选择注意力时，可以实现高达25%的延迟增益（线E与C）。复杂度度量，并使用相同的超参数进行训练。其他搜索空间的更多结果如附录A.6中的图11所示。我们还在附录F中可视化了不同平台的Pareto最优DONNA模型。4.1.2搜索空间扩展与探索DONNA方法也可以用于快速搜索空间扩展和探索。使用DONNA，设计者可以快速确定是否应该扩展或限制搜索空间以获得最佳性能。这样的扩展是可能的，因为DONNA准确度预测器推广到以前看不见的架构，而不必扩展架构库。这示于图4（左），显示DONNA预测器在基于ShiftNet的架构测试集上实现了良好的质量，与原始测试集一致。图7（左）通过显示ShiftNet空间搜索的确认结果进一步说明了这种外推工作。请注意趋势线如何预测完全Pareto最优ShiftNet的性能，即使预测器是在没有任何ShiftNet数据的情况下创建的。在这里，ShiftNets是我们的实现，每组32个通道的学习移位作为深度可分离的替换。获得这些一般化能力是因为预测器仅使用质量度量作为输入，而不需要关于替换块的任何结构信息。与OFA [3]和其他方法相比，该特征是DONNA的主要优点，在其他方法中，预测器不能自动推广到完全不同的层类型，或者具有参数（扩展速率、内核大小、深度……）的相同层类型的在原始搜索空间之外附录D示出了这种扩展也可以用于对较低精度量化网络的准确性进行建模。图7（右）中还展示了V100 GPU上DONNA搜索空间的原型设计功能。在这里，我们使用原始精度预测器进行插值以进行探索。为此，Fig。7表明搜索空间多样性对于实现良好性能至关重要。特别是，最佳添加SE注意力的影响[13]非常大，预测在76%的准确度下加速25%（线C与D），或在26 ms时准确度提升1%图7（右）中的每条绘制线都是预测的帕累托-最佳基线（A）考虑每个块中的SE/Swish，并且k∈{7}，扩展∈{3，4，6}和深度∈{2，3，4}。其他行示出了从（A）开始构建的搜索空间的结果，例如（B）考虑k∈ {5，7}，（C）k∈ {3，5，7}，（D）重新移动SE/Swish，（E）允许选择SE/Swish的最佳放置，（F）添加信道宽度乘数。4.1.3模型压缩DONNA还用于将现有神经架构为更快、更高效的版本。DONNA不仅可以按照文献中常见的操作次数进行压缩，还可以针对不同的设备进行压缩。这对于已经为其应用程序设计了网络原型并希望在具有各种硬件和软件约束的许多不同设备上高效运行网络的设计人员非常有用。图8显示了如何将EfficientNet-B 0压缩成比三星S20 GPU上的MnasNet [32]快10%在DONNA压缩管道中，EfficientNet搜索空间将EfficientNet-B 0分成5个块，并将其用作参考模型。在压缩中考虑的每个替换块Bn，m总共花费1135个训练时期来构建准确度预测器：135块训练我们的，预测趋势我们的，实际OFA，ScratchOFA*，ScratchDONNA预测A：k=7，SEE：C + opt. SEDONNA/ShiftNet预测B：A+k=5F：E +宽度x 0.5DONA实际C：B+k=3DONNA预测。DONNA/ShiftNet实际D：C - SE7977757371ImageNet top-1 val.准确度[%]前1位准确度[%]12236Ours（DONNA）pred.我们的（EffNet-Lite 0）预测我们的（EffNet-B 0）预测我们的（DONNA）法案。我们的（EffNet-B 0）法案。MobileNetV3我们的（EffNet-Lite 0）法案。 DNA使用BKD，20个架构被训练50个时期作为预测目标，成本相当于从头开始训练3个网络所图8示出了DONNA在操作数量和设备上找到一组较小的、帕累托最优版本的 EfficientNet-B 0 。这些在操作数量上与MobileNetV3 [12]相当，并且在设备上比MnasNet [32]快10%。对于Samsung S20，校准准确度预测器，因为这些型号的头部2.25 2.75 3.25 3.75 4.25#操作[B]0.40.60.81.01.21.41.61.8 2.0#归一化延迟wrt EfficientDet-D 0并且如在EfficientNet-B 0参考文献中那样主干。同样，DONNA可用于优化压缩Vision Transformers（ViT [9]），参见附录C。4.2. 基于MS COCO的DONNA架构转移到其他任务，例如MS COCO上的对象检测[19]。为此，我们使用EfficientDet-D 0 [34]检测架构，用通过DONNA管道优化的网络替换其骨干网对于训练，我们使用 [36] 中给出的超参数。EfficientDet-D 0初始化来自[37]。图9示出了多个这样的搜索的结果。首先，我们在Mo-bileNetV 3（1.2×）和DONNA空间（ours-224）中优化ImageNet上的主干，目标是针对张量计算单元的模拟器上的操作数量（左）和延迟。在这种情况下，输入分辨率固定为224×224。骨架首先在ImageNet上进行微调，然后转移到MS-COCO。其次，我们直接在完整的DONNA-det 0架构上应用DONNA管道，构建一个精确的MS-COCO的活性预测因子。我们仅优化了脊柱，并保持BiFPN股骨头固定（Ours-COCO-512）。在这种情况下，所得到的网络直接在MS-COCO上进行微调，遵循标准DONNA流。对于OFA [3]，我们考虑两组模型。第一组由针对操作数（FLOP）优化的模型组成，其中不同的输入分辨率直接来自OFA存储库[2]。第二组模型，我们识别为工具[2]，但输入分辨率固定为224×224。这使得OFA-224搜索空间与我们的Mo-bileNetV 3（1.2×）相同，直到分层与分块区分。7977757371200 300 400 500 4 6 8 10 12图9.DONNA主干的对象检测性能，或者在ImageNet上搜索并转移到 COCO （ Ours-224 ），或者直接在 MS COCO（Ours-COCO-512）上搜索。在DONNA搜索空间中，我们的解决方案最多有2。在与OFA模型相同的潜伏期下，mAP高4%。第在第一个实验中，我们使用[2]中发布的渐进收缩权重初始化OFA骨干。在第二个实验中，我们使用[37]中的超参数在ImageNet上使用从头开始训练的权重初始化OFA骨干。在这样的初始化之后，网络被转移到对象检测以进行比较。两个实验的比较表明，OFA式训练的益处在转移到下游任务后是有限的（见图12）。9.）OFA式培训与从无到有的培训之间的差距，最高达1. 4%在Ima-geNet上的top-1，减少到0。COCO上的2%mAP，降低其重要性。我们将在附录B中进一步讨论这一点。在与DONNA模型的比较中，我们做了三个关键的观察。首先，使用DONNA搜索后传输的模型在操作和延迟方面与OFA-224模型相当或更好其次，从DONNA空间转移的模型优于OFA模型高达2。延迟验证集上的4%mAP。第三，当将DONNA直接应用于MS COCO时，获得最佳结果。5. 结论在这项工作中，我们提出了DONNA，一种新的方法，快速的场景感知NAS在不同的搜索空间。通过使用通过知识蒸馏构建的模型准确性预测器，DONNA可以为各种部署场景找到最先进的网络：参数和操作数量，以及 Samsung S20 和 Nvidia V100 GPU 上在ImageNet分类中，DONNA发现的架构在V100上比EfficientNet-B 0和 MobileNetV 2 快在对象检测中，DONNA可以找到最多2个。与OFA相比，在相同潜伏期下mAP高4%。此外，该管道可用于快速搜索手术次数[M]延迟-Samsung S20 GPU-BS=1 [ms]空间扩展（例如，添加ShiftNets）和探索，图8.压缩两个目标的EfficientNet-B 0以及用于设备上的网络压缩。OFA-224（划痕初始化）OFA（暂存初始化）OFA（OFA初始化）我们的-224（MobileNetV 3 1.2倍空间）Ours-224（DONNA Space）Ours-COCO-512（DONNA Space）ResDet-50高效Net-B 03735.03634.534.03533.53433.033Top-1 val.准确度[%]COCO val mAP12237引用[1] Blank和K. Deb. Pymoo：Python中的多目标优化。IEEEAccess，8：89497-89509，2020。五、六[2] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han. 一劳永逸 https://github.com/mit-han-lab/once-for-all，2020年。五、六、七、八、十一、十二、十四、十五[3] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并将其专门化以实现高效部署。2020年国际学习表征会议（ICLR）。一、二、三、五、六、七、八、十四[4] 韩才、朱立庚、宋涵。ProxylessNA

下载后可阅读完整内容，剩余1页未读，立即下载