基于模型动物园的在线微调方法提升任务效率

199 浏览量更新于2023-10-13 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5097NASOA：通过模型动物园实现更快的面向任务的在线微调华为诺亚宁康华为诺亚张耕伟中山大学谢传龙华为诺亚梁晓丹 * 中山大学李振国华为诺亚摘要从预训练的ImageNet模型进行微调是一种简单，有效和流行的方法，用于各种计算机视觉任务。微调的常见做法是采用具有固定预训练模型的默认超参数设置，而它们两者都没有针对特定任务和时间约束进行优化此外，在任务在流中顺序到达的云计算或GPU集群中，更快的在线微调是节省资金、能耗和CO2排放的更期望和在本文中，我们提出了一个联合神经架构搜索和在线自适应框架命名为NASOA对一个更快的面向任务的微调用户的要求。具体地，NASOA首先采用离线NAS来识别一组训练高效的网络以形成预训练的模型动物园。我们提出了一种新的联合块和宏级搜索空间，使一个灵活和高效的搜索。然后，通过从过去的任务中积累经验，通过自适应模型估计微调性能，提出了一个在线时间表生成器，以挑选最合适的模型，并生成一个个性化的训练方案，相对于每个期望的任务，在一个单一的方式。所得到的模型zoo1比SOTA模型更有训练效率，例如比RegNetY-16 GF快6倍在多个数据集上的实验也表明，NASOA实现了更好的微调结果，即。在各种约束和任务下，比RegNet系列的最佳性能提高约2.1%的准确率;比BOHB快40倍。1. 介绍使用预训练模型进行微调成为计算机视觉领域事实上的标准，因为* 通讯作者：梁晓丹xdliang328@gmail.com1高效训练模型动物园（ET-NAS）已在以下网站发布https://github.com/NAS-OA/NASOA它在各种下游任务上取得了令人印象深刻的结果，例如细粒度图像分类[36，50]，对象检测[19，23，54]和分割[8，30]。[25，19]验证了微调预训练的网络优于从头开始的训练。它可以进一步帮助避免过度拟合[10]以及显着减少训练时间[19]。由于这些优点，许多云计算和AutoML管道为具有新数据、不同任务和时间限制的即将到来的用户的在线流提供微调服务。为了节省用户因此，我们建议探索更快的在线微调。微调的传统做法是采用一组预定义的超参数来训练预定义的模型[27]。它在当前在线设置中具有三个缺点：1）骨干模型的设计没有针对即将到来的微调任务进行优化，并且骨干模型的选择不是数据特定的。2)超参数的默认设置可能不是跨任务的最佳设置，并且训练设置可能不满足用户提供的时间约束3）对于即将到来的任务，常规图不适合这种在线设置，因为它不能从过去的微调任务中记忆和积累经验。因此，我们建议将我们的更快微调问题解耦为两个部分：以在线学习的方式找到有效的微调网络并生成与特定时间约束相关的最佳微调调度。最近，神经架构搜索（NAS）算法在发现高精度架构方面展示了有希望的结果，其超过了手工制作的网络的性能并且节省了人类49，40，48，56]以及跨任务和数据集研究NAS [9，13]。然而，这些NAS的工作通常集中在推理时间/FLOPS优化和他们的搜索空间是不够灵活，这不能保证快速微调的最优性。相反，我们求助于发展-5098使用具有用于快速微调的新颖灵活搜索空间的NAS方案。另一方面，超参数优化（HPO）方法，如网格搜索[3]，贝叶斯优化（BO）[46，34]和BOHB [14]用于深度学习并取得良好的性能。然而，这些基于搜索的方法是计算昂贵的，需要迭代的在这项工作中，我们提出了一种新的神经结构搜索和在线自适应框架，名为NASOA。首先，我们进行离线NAS以生成有效的微调模型动物园。我们设计了一个新的块级和宏观结构的搜索空间，允许灵活选择的网络。一旦通过Pareto最优模型离线NAS创建有效的训练模型动物园，在线用户就可以享受这些有效的训练网络的好处，而没有任何边际成本。然后，我们提出了一个在线学习算法与自适应预测建模不同的超参数，模型，数据集元信息和最终的微调性能之间的关系最终的训练计划是直接从选择微调制度与最佳预测性能。受益于通过在线学习积累的经验，数据的多样性和不断增加的结果可以进一步持续改进我们的方案生成器。我们的方法表现在一个一次性的方式，并我们还从理论上证明了我们提出的在线模型的最优性的收敛性。在多个广泛使用的微调数据集上进行了大量的实验搜索到的模型zoo ET-NAS比SOTA ImageNet模型的训练效率更高，例如训练速度比RegNetY-16 GF快5倍，比 EfficientNetB 3 快 1.7 倍此外，通过使用整个NASOA，我们的在线算法在精度和微调速度方面都取得了优异的微调结果，即。在各种任务下，比RegNet系列的最佳性能提高约2.1%的准确率;与BOHB方法相比，节省了40倍的计算成本。我们的贡献总结如下：• 我们首先努力提出一个更快的微调管道，无缝地结合了训练高效的NAS和在线自适应算法。我们的NASOA可以有效地生成一个个性化的微调时间表的每一个期望的任务，通过一个自适应模型，从过去的任务积累经验。• 所提出的新颖的联合块/宏级搜索空间实现了灵活且高效的搜索。由此产生的模型zoo ET-NAS比非常强大的ImageNet SOTA模型更有效，例如EfficientNet、Reg- Net。所有ET-NAS型号已发布，以帮助社区跳过计算繁重的NAS阶段，直接享受NASOA的好处。• 整个NASOA流水线在精度和微调效率方面都比当前微调最佳实践和HPO方法（例如，，比BOHB方法快40倍。2. 相关工作神经架构搜索（NAS）。NAS的目标是自动优化网络架构，并从这种手工网络架构工程中释放人力。大多数以前的作品[32，7，31，47，53，22，51]旨在搜索具有更好推理和更少FLOPS的CNN架构。[2，5，57]应用强化学习来训练RNN控制器以生成单元架构。[32，53，7]尝试通过权重共享和可微分优化来搜索细胞结构。[48]通过改变具有固定块结构的网络的深度/宽度，使用网格搜索来获得有效的网络。相反，我们的NAS专注于创建一个高效的训练模型动物园，用于快速微调。此外，现有的搜索空间设计不能满足我们搜索的目的。生成用于微调的超参数。诸如贝叶斯优化（BO）[46，34]、BOHB [14]的HPO方法实现了非常有希望的结果，但是需要大量的计算资源，这与我们的有效微调的原始目标相矛盾。另一方面，有限的工作讨论的模型选择和HPO微调。[25]发现ImageNet准确度和不同模型的微调准确度高度相关。[27，1]建议用于微调的最佳超参数和模型应该是数据集相关的和主相似性相关的[10]。HyperStar [35]是一项并行的HPO工作，证明性能预测器可以有效地为单个模型生成良好的超参数然而，这些作品没有给出关于如何在更实际的在线场景中执行微调的明确解决方案。在这项工作中，我们利用在线学习[21，43]来构建一个时间表生成器，它允许我们记住过去的训练历史，并为即将到来的新任务提供即将到来的训练方案。此外，我们还引入了NAS模型动物园，以进一步推动速度和性能。3. 所提出的方法本文的目标是开发一个在线微调管道，以促进快速连续的跨任务模型自适应。通过第4.1节中的初步实验，我们确认模型架构和超参数（如学习率和冻结阶段）将极大地影响微调程序的准确性和速度。因此，我们的NASOA包括两个部分，如图1所示：1）搜索一组神经架构5099皮卡型号：选择培训计划：进行更快的微调在线更新网络的训练时间目标：寻找一组高效的培训网络预训练高效训练模型动物园（ET-NAS）学习率，冻结舞台，时代微调状态发生器数据集元信息在线性能预测器P超参数设置模型信息优点：拯救增加性能A∈S一PAAAAAA× × × ××A Aa离线神经架构搜索在线跨任务适应图1.我们的NASOA概述我们更快的面向任务的在线微调系统有两个部分：a）离线NAS，以生成具有良好准确性和训练速度的高效训练模型动物园;b）在线微调机制生成器，以在用户的时间限制下使用合适的模型执行特定于任务的以良好的准确性和较快的训练速度创建预先训练好的动物园模型; 2）设计一个在线的面向任务的算法，以在用户的时间约束下生成一个有效的微调机制与最合适的模型。3.1. 利用NAS创建高效的训练模型动物园用于微调的常用手工主干包括 MobileNet [44]、ResNet [20]和ResNeXt [52]。最近，一些最先进的骨干系列，如RegNet [39]和EfficientNet [49]，通过自动算法开发，以获得更高的准确性和更快的推理速度。然而，我们的NAS的目标是找到一组具有良好的模型泛化能力和训练速度的模型由[25]建议，模型微调精度（模型泛化能力）与ImageNet精度（r= 0. 96）。同时，训练速度可以通过每次训练迭代的步长。因此，我们的NAS可以由搜索空间S上的多目标优化问题（MOOP）来公式化，该搜索空间S由下式给出max（acc（A），−Ts（A））服从Ts（A）≤Tm（1）其中是架构acc（. ）是ImageNet上的Top-1准确率，T s（. ）是一次迭代的平均步长，Tm是允许的最大步长。步长被定义为一次迭代的总时间，包括前向/后向传播和参数更新。搜索空间设计非常重要[39]。如图2所示，我们提出了一种新颖的灵活的联合块级和宏级搜索空间，以实现简单到复杂的块设计和每个阶段上的计算分配的精细调整。与现有的拓扑单元级搜索空间（如DARTS[32]，AmoebaNet[40]和NASBench101[12]）不同，我们的搜索空间更紧凑，并且避免了具有较大内存访问成本（MAC）的冗余跳过连接。我们的块级搜索空间更灵活，可以调整宽度，深度（每个阶段），何时下采样/提高通道。相比之下，EfficientNetRegNet仅通过固定的分配比率向上/向下缩放总宽度和深度，并且RegNet不能改变每个块中的操作的数量/类型。块级搜索空间。我们考虑一个搜索空间的基础上1-3个连续的节点的5个不同的操作。搜索具有一个固定剩余连接的三个跳过连接。选择逐元素添加或逐通道连接来组合跳过连接的特征。对于每个选定的操作，我们还搜索改变通道大小的比率： 0的情况。25岁0的情况。五、1、二、4.第一章请注意，它可以覆盖许多流行的块设计，例如 Bot- tleneck [20] ，ResNeXt [52]和MB块[44]。组成为5. 4×106个唯一块。宏观层面的搜索空间。不同阶段的分配计算对于骨干网至关重要[29]。一个主干中的早期特征图较大，其捕获纹理细节，而后期特征图较小，其更具鉴别力[28]。因此，对于宏级搜索空间，我们设计了灵活的搜索空间，以找到最佳通道大小（宽度）、深度（块的总数）、何时下采样以及何时提升通道。我们的宏观层次结构由四个灵活的阶段组成。级的空间大小以因子2逐渐下采样。在每个阶段中，我们堆叠许多块架构。加倍通道块的位置也是灵活的。这个搜索空间由1 .一、5×107个独特架构。多目标搜索算法对于等式1中的MOOP，我们定义架构1优于2，如果（i）1不比2在所有目标中;（二）1严格优于2、至少有一个目标。*是帕累托最优的，如果没有其他的支配*。所有帕累托最优架构的集合构成帕累托前沿。为了解决这个MOOP问题，我们修改了一个著名的方法，称为精英非支配排序遗传算法（NSGA-II）[11]，以优化帕累托前沿f。NSGA-II的主要思想是通过非支配排序对样本体系结构进行排序，保留一组精英体系结构。然后对一组新的体系结构进行采样并......前1精度5100PPA PA我我一我一Σ∥ ∥块级搜索空间搜索：操作的数量、类型和通道，附加跳过连接的数量、位置和类型宏观搜索空间通道尺寸：C CC C第一阶段： 1-10块C C 2C 2C阶段-2：1-10块2C 2C2C阶段-3：1-10块4C 4C第4阶段：1-10块搜索：通道大小，深度，#. 块在每个阶段，当双通道.图2.我们的联合块/宏级搜索空间，以找到有效的训练网络。我们的块级搜索空间涵盖了许多流行的设计，如ResNet，ResNext，MobileNet Block。我们的宏观级搜索空间允许在每个阶段对网络进行小的调整，因此所产生的模型更加灵活和高效。通过f上当前精英架构的突变来训练。该算法可在多个计算节点上并行运行，并可同时提升f我们将NSGA-II算法修改为NAS算法：a）为了能够在N个计算节点上进行并行搜索，我们修改了非支配排序方法，以便为每一代生成精确的N个突变模型，而不是像原始NSGA-II那样的可变大小。b）我们为NSGA-II的块/宏搜索空间定义了一组变异操作，以动态地改变网络结构。c）、我们添加父计算节点来测量所选架构高效训练模型Zoo Zoo（ET-NAS）。由提出的NAS方法，然后我们创建了一个高效的训练模型ZooZoo 命名为ET-NAS ，它由KPareto 最优模型ionF.机器人是由ImageNet预先训练的。搜索空间、编码、NSGA-II算法和A*i架构的细节可以在附录中找到。3.2. 面向任务的在线微调调度生成在有效训练Zoo的帮助下，每个用户的边际然后，我们需要根据用户即将完成的任务来决定一个合适的微调时间表。给定用户的数据集D和微调时间约束T1，在线状态生成器G（.，. ）是期望的：[RegimeFT，A*i]=G（D，Tl），（2）使得Acc（AFineTune，Dval）被最大化，其中机制FT包括所有超参数re。3.2.1建模访问在线学习（AFT，Dval）最近，[27]建议微调的最佳超参数因此，我们假设我们可以通过一组预测器对最终准确度进行建模，例如，模型信息、元数据描述、数据统计stat（D）、域相似性和超参数。我们列出了我们考虑用于预测准确度结果的变量，如下所示：模型A*i名称（一热虚拟变量）域与ImageNet的相似性（EMD）[10]平均值#。图像/类标准编号。每类ImageNet Acc.关于Ai#.类学习率迭代次数冷冻阶段这些变量可以在微调之前容易地计算。人们可以通过微调不同种类的数据集来准备离线训练数据，并相应地收集准确度，并在其上离线应用多层感知机回归（MLP）。然而，在线学习应该是一个更现实的设置为我们的问题。在云计算服务或GPU集群中，具有不同数据的一系列微调请求将不时到达。可以通过随时间增加数据和请求的多样性在在线设置中使用MLP模型的固定深度可能是有问题的。浅层网络可能更适合于小数量的实例，而当样本大小变得更大时，更深的模型可以获得更好的性能。受[43]的启发，我们使用自适应MLP回归来自动调整其模型容量，随着时间的推移从简单到复杂给定输入变量，准确度的预测由下式给出：要求，即，LR时间表、总训练步骤和冻结阶段。 G（.，. ）还需要挑选最合适的预训练模型。*i从Zoo。注意，现有的基于弓的HPO方法需要巨大的计算资源，并且不能适应我们的在线一次性训练场景。相反，我们首先提出了一个在线学习预测器AccP模型的准确性验证集Acc（FT，Dval）的元数据信息。然后我们可以使用预测器来构造G（. . ）以生成最优超参数设置和模型。LAccP（A*i，RegimeFT，stat（D））=αlfl，（3）l=1f l=hlWl ，hl=R ELU（Φlhl−1），h0=[A*i，Regim eF T ，stat（D）]。其中l=0，…，L.预测准确度是每个中间全连接层h_l的输出f_l的加权和。W1和Φ1是每个全连接层的可学习权重。α1是将重要性分配给每个层的权重向量，并且α=1。因此，预测器AccP可以自动调整其模型容量，残差连接通道尺寸：C C1C2C3搜索的跳过连接（添加/连接）输入执行部分第1段执行部分第2段执行部分第3输出5101αLL∥ ∥∈一--L我Σ。Σ1一不从简单到复杂以及传入的任务。可学习的权重αl控制每个中间层的重要性，并且最终的预测精度是以下的加权和：当T趋于无穷大时，最优可实现平均后悔对于任何给定的α′，使得其中网络可以通过Hedge Back-T T更新fl传播[16]，其中αl根据损失更新Σ（α′）TL（t）−minΣαTL（t）>0受到该层L的如下影响：t=1t=1αl′←αlβL（fl，Accgt），Wl′←Wl−ηαlWL（fl，Accgt）（四）只要训练时间T足够大，学习的权重向量α（t）最终优于α′显然，α′可以Φ′l ←Φ′l−η Σj=lαjWlL（fj，Accgt），α升αl′←Σαl′是任何一个单一的热载体。这意味着我们的自适应学习比使用固定深度神经网络的回归更好。因此，在积累了足够的经验之后，其中β（0，1）是折扣率，权重α1’被重新归一化，使得α=1，并且η是学习率。因此，在在线更新期间，模型可以基于在该深度处的每个输出的性能通过α1选择适当的深度通过利用在线累积结果，我们的生成器获得了有助于未来预测的经验。生成面向任务的微调调度。我们调度生成器G然后可以利用性能预测器来找到最佳训练方案G（D，T1）：在线学习过程找出接近最优的解。学习的权重向量α（t）可以捕获充分利用深度的力量来学习复杂模式的最佳模型容量，并且还保证了浅层模型的更快收敛速度4. 实验结果4.1. 初步实验arg maxA∈Zoo，状态F T∈SFT Acc P（A，方案FT，stat（D））。我们进行了一个完整的初步实验，以证明我们的动机和模型设置。详情可参见一旦提供了时间约束Tl，则最大数量的时间约束T1可以被改变。迭代不同*i可以通过Z oo的线性步进时间查找表来计算。然后可以为传入任务计算对应的Meta数据变量通过对所有可能的网格组合的预测精度进行排序来获得模型和超参数的最优选择详情见附录。理论分析令α和L表示为α=（α 1，α 2，. . . ，αL）T，L =（L1，L2，. . . ，LL）T其中对于l= l，2，. . . ，L. 在时间0 ≤t≤T时，我们将α和L分别记为α（t）和L（t）定理1. 假设层数L是固定整数，训练时间T足够大，并且损失函数（fl，Acc gt）在[0，1]中有界。权重向量的序列：α（1），α（1），. . .，α（T），通过（4）中的对冲反向传播来学习。初始权向量α（1）是均匀离散分布α（1）=（1，1，. . . ，1）。贴现率β在以下期间固定附录。根据我们的实验，我们发现，一个有效的微调，模型最重要。应根据任务和时间限制选择合适的模型。因此，构建具有各种大小的训练有效模型的模型动物园并挑选合适的模型应该是用于更快微调的良好解决方案。我们也验证了一些现有的结论：微调比从头开始训练表现更好[25]，因此我们的主题对于高效的GPU训练非常重要;学习速率和冻结阶段对于微调至关重要[18]，需要仔细调整。4.2. 离线NAS和Model Zoo结果在NAS期间，我们直接搜索ImageNet数据集[42]。我们首先搜索一组有效的块结构，然后使用这些块候选进行宏级搜索。我们使用一个简短的培训设置来评估每个体系结构。对于块级搜索，评估一个架构平均需要大约1小时，对于宏级搜索，评估一个架构平均需要6小时。在GPU上并行，它L L L√ √在64 GPU群集上执行培训程序，并被视为T/（T+C）给定T，其中C是固定常数。然后是Aver-用于建模Acc（AFT，D val）的在线学习算法的年龄遗憾满足全搜索（5K+1K拱）。实施细节和中间结果见附录。更快的微调模型动物园（ET-NAS）。在确认-1T不t=1α（t）δT（吨）minα不不t=1αL（t）1≤O（√T）。从我们的搜索中，我们完全训练这些mod-ImageNet上的元素遵循常见的做法。注意所有包括ET-NAS-L在内的模型可以很容易地在常规的8卡GPU节点上进行预训练，因为我们的模型是在训练-证据详细的证据在附录中。备注。该定理表明，学习序列{α（t），t = 1，. . . ，T}收敛高效.我们已经发布了我们的模型，让公众从头开始复制我们的结果，让公众节省能源/二氧化碳/成本。由于篇幅的关系，我们将详细介绍−L5102一数据集#.类任务#.火车#.测试数据集#.类任务#.火车 #.测试花卉102[36]102细粒度6K2K[26]第二十六话196细粒度8K8K[50]第五十话200细粒度10K2KMIT67[37]67场景cls.5K1K加州理工学院[15]101一般8K1K食品101 [4]101细粒度75K25K美国加州理工学院[17]257一般25K6KFGVC飞机[33]100细粒度7K3K斯坦福犬[24]120细粒度12K8K血细胞[45]4医学图像10K2K表1.本文使用的数据集及其统计数据。粗体数据集用于构建在线学习训练集。其余均为用来测试我们的NASOA人们普遍认为，Aircraft、Flowers 102和Blood-cell偏离了ImageNet域。型号名称前1个Inf培训步骤训练GPU模型非常短，这是更有效的，因为早期阶段的特征图非常大并且计算成本相对较大。这也验证了我们在初步实验中的发现。与最先进的ImageNet模型进行比较我们比较了我们搜索的ET-NAS的训练/推理效率与SOTA ImageNet模型，如 MobileNetV 3 [22] ， RegNet 系列 [39] 和EfficientNet系列[48]，如表2和图4所示。总的来说，我们搜索的模型在训练精度和训练速度方面优于其他SOTA ImageNet模型，如图4（左）所示。具体来说，ET-NAS-G的训练速度比RegNetY-16 GF快约6倍，ET-NAS-I的训练速度比EfficientNetB 3快约1.5倍。我们的模型也优于MobileNetV 2/V3[22]和RegNetY-200 MF等移动设置模型。虽然我们的模型针对快速训练进行了优化，但我们也在图4（右）中比较了推理速度。我们的模型在推理速度方面仍然具有非常强大的性能，优于RegNet系列，并实现了与EfficientNet相当的性能。与NAS型号的比较。我们还将我们的方法与最先进的NAS方法进行了比较。geNet模型。在单个Nvidia V100上测量推理时间、训练步长时间和训练GPU内存消耗，bs=64。我们的模型在训练速度和GPU内存使用方面表现出很大的优势。图3.我们在ET-NAS中搜索的块的两个例子我们发现，较小的模型应该使用更简单的块结构，而较大的模型更喜欢复杂的块来进行快速训练。附录中的最终检索模型。令人惊讶的是，我们发现较小的模型应该使用更简单的块结构，而较大的模型更喜欢复杂的块，如图3所示。将我们搜索的主干与传统的ResNet/ResNeXt进行比较，我们发现我们Ods ： AmoebaNet[41] ， OFA[6] ， Darts[32] ，PCDarts[55]，EfficientNet[48]，RegNet[39]等。在图5中，可以发现我们搜索的模型比其他NAS结果更有训练效率，例如，一些基于进化的 NAS 方法，如AmoebaNet、OFANet，以及一些权重共享方法，如Darts和AmoebaNet。这是因为我们灵活有效的搜索空间，它同时考虑了宏观和微观层次的结构。是什么让我们的网络培训高效？为了回答这个问题，我们定义了一个效率得分，并对效率培训的不同因素进行了统计分析（分析见附录）。我们得出以下结论：a）通过观察最优*i，较小的模型应使用较简单的积木，而较大的模型则宜使用较复杂的积木。对所有大小的模型[48，39]使用相同的块结构可能不是最佳的。b）添加具有较大内存访问成本的冗余跳过连接将降低模型的训练效率，因此现有的拓扑单元级搜索空间（如DARTS [32]，AmoebaNet [40]和NASBench101 [12]）是无效的。c）不同阶段的计算分配是至关重要的。简单地增加深度/宽度以Acc.时间（ms）时间（ms）使用量（MB）RegNetY-200MF70.4014.2562.302842ET-NAS-C71.298.9426.282572RegNetY-400MF74.1020.5790.614222ET-NAS-D74.4614.5436.303184RegNetY-600MF75.5022.1590.114498[22]第二十二话75.2016.8871.6512318OFANet[6]76.1017.8173.10-[47]第四十七话75.228.65125.15642ET-NAS-E76.8725.3461.954922[第48话]77.7024.30120.297778[39]第三十九话78.0045.59170.966338ET-NAS-F78.8033.8393.045800[48]第四十八话80.4058.78277.6014258RegNetY-16GF[39]80.40192.78677.6819258公司简介80.4153.08133.978120ET-NAS-H80.9276.80193.409140[第48话]81.5097.33455.8622368ET-NAS-I81.3894.60265.1310732ET-NAS-J82.08131.92370.2813774ET-NAS-L82.65191.89542.5220556表2. 比较我们的ET-NAS模型和SOTA图像5103我一我们搜索的模型85我们搜索模型85ET-NAS-H公司简介80ET-NAS-IET-NAS-J高效NetB2ET-NAS-K高效NetB3ET-NAS-L公司简介ET-NAS-HET-NAS-IET-NAS-J高效NetB3ET-NAS-KET-NAS-LET-NAS-FRegNetY-4GF RegNetY-6.4GFRegNetY-12GF RegNetY-16GF80ET-NAS-F高效NetB2RegNetY-6.4GFRegNetY-4GFRegNetY-16GFET-NAS-EEfficientNetB0Reext50ResNet152ET-NAS-ERegNetY-800MFResNet15275DgNetY-800MFResNResNet50MobileNetV3ResNet101ET-NAS-D75MobileNetV3ResNet50ResNext50ResNet101ResNet34CMobileNetV270RegNetY-200MFResNet18BMobileNetV3-S65我们搜索的ET-NAS型号ResNet34CMobileNetV270RegNetY-200MFResnet18BMobileNetV3-S65ET-NAS-A60ET-NAS-A60我们搜索的ET-NAS型号0 100 200 300 400 500 600700Nvidia V100 bs上的训练步时间我们搜索的模型基线RegNetY系列EffecientNet系列0 20 40 60 80 100 120 140 160 180 200Nvidia V100 bs上的推断时间我们搜索的模型基线RegNetY系列EffecientNet系列图4.在ImageNet上比较我们搜索的模型（ET-NAS）与SOTA模型的训练和推理效率。我们搜索的模型更快，例如，ET-NAS-G的训练速度比RegNetY-16 GF快 6倍，ET-NAS-I的训练速度比Efficient-NetB 3快 1.5倍尽管我们的模型针对快速训练进行了优化，但推理速度与EfficientNet相当，优于RegNet。与其他NAS方法8580757065600 50 100 150 200 250 300Nvidia V100 bs上的训练步时间图5.将我们搜索的模型（ET-NAS）的训练效率与ImageNet上的其他8个NAS结果进行比较。可以发现，由于我们有效的搜索空间，我们的方法比一些最近的基于进化的NAS方法，如AmoebaNet，OFANet更有效的训练效率。P和模型[48]可能不是最优的，会降低性能。最后，我们的新的联合搜索空间对训练效率的贡献最大。4.3. 在线自适应预测器AccP实验设置。我们基于十个广泛使用的图像分类数据集来评估我们的在线算法，这些数据集涵盖了各种微调任务，如表1所示。其中五个（粗体）被选为在线学习训练集（元训练）。通过对每个数据集的子集连续采样并利用其上的随机化超参数进行微调来收集30K个样本。每个子集从#开始变化。类和#。图像.相应地计算第3.2.1节中的变量在测试集上评估微调精度。30K样本分为24K元训练和6K元验证。然后，使用等式3中的自适应MLP回归来拟合数据并预测Acc（FT，Dval）。我们使用L=10，每个隐藏层中有64个单元。我们使用学习率表3.在线错误率我们的方法和固定的MLP。我们的自适应MLP与对冲反向传播是更好的在线设置，丁预测微调精度。的0。01且β=0。九十九。作为基线，我们还比较了使用固定MLP与不同层（L=3，6，10，14）的结果。MAE（平均绝对误差）和MSE（均方误差）是用于测量任务流的不同段的累积误差的性能度量在线学习方法的比较。表4显示了所有基线获得的累积误差和预测微调精度的建议方法。我们的自适应MLP对冲反向传播是优于固定MLP的预测精度的累积误差。我们的方法享有的好处，从自适应的深度，允许更快的收敛在初始阶段和强大的预测能力在后期阶段。4.4. 最终NASOA结果为了评估整个NASOA的性能，我们在测试数据集上选择了四个时间约束，并使用Acc P（. ）来测试微调精度。测试数据集是MIT 67，Food 101，Aircrafts，Blood-cell 和 Stanford-Car 。最短 / 最长时间约束是ResNet 18/ResNet 101微调10/50 epoch的时间。其余的被平分到日志空间中。对于我们的NA-SOA，我们通过最大化等式2中的预测准确度来生成微调时间表。我们还使用[27]中的默认超参数设置对各种候选基线进行与SOTA网络的最终微调结果的比较。我们把时间和精确度标出来-我们的搜索模型EffecientNetB2EffecientNetB0RegNetY-12GFOFANetRegNetY-6.4GFRegNetY-8A0m0MoFe baNetMobileNetV3PCDartsRegNetY-400MF飞镖RegNetY-200MFMobileNetV3-SImageNet上的Top-1准确度ImageNet上的Top-1准确度ImageNet上的Top-1准确度模型所有累积误差MAE MSE细分市场20-40%MAE MSE段80-100%MAE MSE固定MLP（L=3）百分之十点零七百分之一点九四8.99%1.56%7.99%百分之一点二一固定MLP（L=6） 9.12%1.71%9.03%1.62%7.16%1.04%固定MLP8.45%1.59%8.46%1.53%6.68%百分之51040.950.850.750.650.550.45斯坦福汽车8 40200时间约束0.850.80.750.70.650.60.55MIT678 40200时间约束0.890.8850.880.8750.870.8650.860.8550.85血细胞8 40200时间约束0.910.890.870.850.830.810.79食品1018 40200时间约束0.950.850.750.650.550.450.350.25FGVC飞机8 40 200时间约束EfficientNet上限EfficientNet下限Resnet上限Resnet下限RegNetY上限RegNetY下限我们的NASOA图6. 测试数据集在四个时间约束下的最终微调结果的比较。红色方形线是我们的NASOA一次性结果。另一条实线上的点是该系列中所有型号的最佳性能。在大多数情况下，我们的NASOA生成的模型和训练制度可以优于其他方法的上限我们的方法可以比RegNet/EfficientNet系列的上限平均提高约2.1%~ 7.4%的准确度。方法搜索成本飞机 MIT67Sf-Caroo我们最终的NASOA x1 82.54% 80.30% 88.20% 92.30%表4.最终NASOA结果与其他HPO结果表5. 消融研究。我们计算平均微调方法.RegNetY-16GF其他HPO方法优化了超参数的选择和RegNet系列模型的模型。“OA only”“我们的Zoo”是指使用我们的模型动物园找到合适的模型。“Fixed“我们的NASOA”是我们的整个管道，包括模型动物园和在线自适应调度器。在没有额外搜索成本（x40）的情况下，NASOA可以达到与BOHB类似的性能。图6中的型坯。可以看出，在大多数情况下，我们的NASOA生成的模型和训练方案可以优于其他方法的上限。平均而言，在各种时间限制和任务下，我们的方法可以比RegNet/EfficientNet系列的最佳模型值得注意的是，我们的NASOA表现更好，特别是在短时间限制的情况下，这表明我们的调度生成器能够提供高效和有效的制度。最终微调结果与HPO方法的比较。在表4中，我们将我们的方法与优化超参数并在ResNet，RegNetY和Efficient-Net系列中拾取模型的HPO方法进行了比较。“仅HP 0”意味着该方法仅用固定模型RegNetY-16 GF优化超参数。“OA “Our “固定MLP预测器”是具有我们的模型动物园的固定MLP预测器（L=10）的离线基线。“Our NASOA” is the our whole测试数据集的准确性。既训练有效的模型动物园，又在线自适应调度器。与NASOA的离线基线相比，我们的在线自适应模块可以将平均性能提高2.17%。还可以发现，与HPO方法相比，我们的方法可以节省高达40倍的计算成本，同时达到相似的性能。随着更多的计算预算，我们的模型动物园与BOHB搜索可以达到更高的准确性（+平均。10.28%）。性能优越性的消融解释。表5计算了任务的平均微调精度。我们的NAS模型动物园可以大大提高微调平均精度从77. 17%到87。45%，这是性能优势的主要贡献使用我们的在线自适应调度器代替BOHB可以显著降低计算成本（~ 40倍）。5. 结论我们提出了第一个高效的面向任务的微调框架，旨在节省GPU集群和云计算的资源。联合NAS和在线自适应策略在准确性和速度方面实现了更好的微调结果。搜索的架构比非常强的基线更有训练效率。我们还从理论上证明了我们的在线模型优于固定深度模型。我们在多个数据集上的实验表明，与BOHB相比，我们的NASOA实现了40倍的速度。推广到更多的任务，如检测和分割，可以考虑在未来的工作。方法固定模型现有模型NAS模型自适应调度器Comp成本Avg. Finetune精度BOHB[14]+ 我们的ZooGGx40x40−0×百分之七十七点二百分之八十七点五+10。百分之三我们的OAGGx1−40×83.7%+6. 百分之五NASOAGGx1−40×85.8%+8。占随机搜索（仅HPO）x40 63.07%75.60% 67.47% 86.25%BOHB（仅HPO）x40 72.70%77.61% 70.94% 87.41%随机搜索x40 81.07%79.93% 88.99% 89.06%BOHBx4082.34%79.85% 89.01% 89.49%我们的随机搜索Zoox40 83.71%80.97% 87.84% 92.75%我们的Z关于BOHBx40 84.67%82.34% 89.03%仅限我们的OAX181.22%79.33% 84.56% 89.70%OurZoo with Fixed MLP（离线）X181.31%75.97% 88.81% 88.58%5105引用[1] Alessandro Achille ， Michael Lam ， Rahul Tewari ，Avinash Ravichandran ， Subhransu Maji ， Charless CFowlkes，Stefano Soatto，and Pie

下载后可阅读完整内容，剩余1页未读，立即下载