APQ:高效深度学习部署的联合优化方法

74 浏览量更新于2023-10-24 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1APQ：网络体系结构、剪枝和量化策略的联合研究王天哲1、2王宽1韩才1纪林1刘志坚1王汉瑞1林宇军1宋涵11麻省理工学院2上海交通大学摘要我们提出了APQ，这是一种用于高效深度学习部署的新型设计方法。与以前的方法，分别优化神经网络的架构，修剪政策和量化政策，我们设计，以优化它们在一个联合的方式。为了应对它带来的更大的设计空间，我们设计训练一个量化-单路单次DNAsMobileNetV2 + HAQProxylessNAS + AMC + HAQMnasNetAPQ（我们的）011,344一百一千一万感知准确度预测器，其被馈送到进化搜索以选择最佳拟合。由于直接训练这样的预测器需要耗时的量化数据收集，我们建议使用预测器转移技术来获得量化感知预测器：我们首先生成一个大型的数据集，ImageNet的准确度通过对预训练的统一once for all网络进行采样并进行直接评估来进行配对;然后，我们使用这些数据来训练精度预测器，而不进行量化，随后传递其权重来训练量化感知预测器，这大大减少了量化数据收集时间。 ImageNet上的大量实验显示了这种联合设计方法的好处：通过我们的方法搜索的模型保持了与ResNet 34 8位模型相同的精度，同时节省了8 ×BitOps;与Mo-bileNetV 2 +HAQ [ 30，36 ]相比，我们实现了2 × / 1.3 ×延迟/能量节省，同时获得了相同的精度;新部署场景的联合优化的边际搜索成本优于使用ProxylessNAS+AMC+HAQ [5，12，36]的2.3%的准确率，同时减少数量级的GPU小时和二氧化碳排放量的培训成本。1. 介绍深度学习已经在自动驾驶、机器人和移动VR/AR等许多现实应用中盛行，而效率是连接研究和部署的关键。给定目标硬件上受约束的资源预算（例如，延迟、模型大小和能耗），它需要精心设计网络体系结构，以在约束条件内实现最佳性能。传统上，高效深度学习的部署可以分为模型架构设计和模型压缩（修剪和量化）。一些现有的作品[10，9]已经表明，这样的顺序流水线可以显着降低现有模型的成本从来没有-图1.一个即将到来的以二氧化碳排放量为单位的情景。简单地扩展现有的方法仍然会产生相当大的CO2排放，这是不环保的。为了获得最佳性能，需要进行简单、仔细的超参数调整[12]。当我们将管道中的三个阶段放在一起考虑时，超参数的数量呈为了解决这个问题，最近的工作已经应用AutoML技术来自动化这个过程。研究人员提出了神经架构搜索（NAS）[44，45，18，19，2，4]来自动化模型设计，大大优于人类设计的模型。基于类似的技术，研究人员采用再增强学习通过自动修剪[12]和自动量化[36]来压缩模型。然而，在不同的阶段优化这三个因素将导致次优结果：例如，用于全精度模型的最佳网络结构不一定是修剪和量化之后的最佳网络结构。此外，这种三步策略还需要相当长的搜索时间和能量消耗[32]。因此，我们需要一个解决方案，针对某个硬件平台共同优化深度学习模型。然而，直接将现有的AutoML技术扩展到联合模型优化设置可能存在问题。首先，联合搜索空间与阶段搜索相比是立方的，使得搜索困难。将修剪和量化引入流水线也将大大增加总搜索时间，因为它们都需要耗时的后处理（例如，微调），以获得准确的近似[36，39]。如图1、每一次部署都将导致相当大的CO2排放，这会加剧温室效应，严重恶化环境。而且，流水线中每一步的搜索空间都可能是纠缠的，每一步的搜索空间都可能20786.8111.3427.2385.080.1481 029x2079步骤具有其自身优化目标（例如，准确性、延迟、能量），使得流水线的最终策略总是次优的。为此，我们提出了APQ，联合设计方法来解决这个问题。为了照顾到它带来的巨大空间，我们将传统的“模型设计→剪枝→量化”的流水线重组为 “ 架构搜索+ 混合精度搜索”。前者既包括粗粒度的架构搜索（拓扑结构、算子选择等）以及细粒度信道搜索（代替传统的信道修剪[13]）。后者的目的是找到最佳的混合精度量化政策之间的准确性和资源消耗的权衡。Itis reasonable since “model design” and “pruning”, act onthe topology of network, can be viewed as an integritywhile “quantiza- tion”, acts on the details for each block, ismore microscopic and orthogonal to such integrity.我们在这两个方面进行工作，以解决搜索效率。对于架构搜索，我们需要训练一个高度灵活的一次性网络，不仅支持运营商的变化，而且还支持细粒度的信道变化，以便我们可以在架构和信道号上执行联合搜索。对于混合精度搜索，由于“架构”与“量化”的正交性然而，由于两个主要原因，很难训练这样的预测器。1.它预测了具有不同结构和不同位宽的模型的准确性。因此，它比[18，7]中仅将建筑作为输入的预测器更复杂。 2. Collecting pre- dictor training data could beprohibitive due to the time- consuming fine-tuning process.为了解决这个难题，我们提出了预测传递技术，以显着提高采样效率：我们的量化感知准确度预测器是从全精度准确度预测器转换而来的，全精度准确度预测器首先在使用我们的灵活的一次性网络收集的廉价数据点上进行训练（仅评估，不需要训练）。在训练该量化感知预测器P（arch，prune，quantization）之后，我们可以执行搜索在超快的速度只是使用前，独裁者通过上述设计，我们能够有效地在模型架构、通道数和混合精度量化上执行联合搜索预测器还可以用于新的硬件和部署场景，而无需再次训练整个系统。大量的实验表明了我们方法的优越性：在保持与8位版本ResNet 34模型相同精度的同时，我们实现了8倍的BitOps缩减;我们获得了与Mo-bileNetV 2 +HAQ相同的精度，并实现了2×/1.3×的延迟/能量节省;我们的模型比使用ProxylessNAS+AMC+HAQ的单独优化在相同条件下的准确率高2.3%，延迟限制，同时减少600×GPU小时和CO2排放，这可以减轻生态压力并加速深度模型的部署过程。本文的贡献是：• 我们设计了一种方法APQ，共同执行NAS修剪量化，从而统一到一个集成的解决方案的conventionally分离的阶段。• 我们提出了一种预测器传递方法，以解决量化感知精度预测器的数据集收集的高成本的神经网络结构，量化策略，精度预测。• 通过这种联合优化，我们实现了显著的加速，以搜索最佳的网络结构与量化政策，并使自动调整模型在不同的部署场景。2. 背景和概述研究人员提出了各种方法来加速模型推理，包括架构设计[14，30]，网络修剪[11，21]和网络量化。[10]。神经架构搜索。追溯NAS的发展历程，可以看到搜索时间的减少。以前的NAS [45，29]使用RL代理来确定单元式架构。为了有效地搜索体系结构，许多后来的工作将体系结构搜索视为路径查找问题[20，5]，它通过联合训练而不是从头开始迭代训练来减少搜索时间。受路径结构的启发，已经提出了一些一次性方法[8]，以进一步利用训练时间中的网络另一种工作尝试通过性能预测器[23，7]来掌握信息，这减少了在搜索最优时对目标数据集的频繁评估。修剪。大量的工作表明在修剪方面取得的进展：早期，研究人员提出通过切断连接（即，元素）。然而，这种的方法对CPU和GPU不友好，并且需要专用硬件[26，40]来支持稀疏矩阵乘法，这对设计要求很高[35，34，24]。后来，一些研究人员提出了通道-通过基于某个重要性分数（例如，L1-norm），以在通用硬件上实现加速。然而，细粒度修剪和信道级修剪都引入了巨大的搜索空间，因为不同的层具有不同的灵敏度（例如，第一卷积层对修剪非常敏感，因为它提取了重要的2080ProxylessNASChamNetSPOsAMCHaqAPQ硬件感知CCCCCC搜索期间无需额外培训CCC搜索期间无额外推断CC信道修剪CC支持混合精度CCC表1.高效模型的架构搜索方法的比较（ProxylessNAS [5]，SPOS：单路径One-Shot [8]，Cham- Net [7]，AMC [12]，HAQ[36]和APQ（我们的）。APQ与其他工作不同的是，它直接搜索混合精度结构，而不需要与目标数据集进行额外的交互。低层次特征;而最后一层可以很容易地修剪精度[36]：因为它为此，最近的研究杠杆-杠杆.∗∗ Σ使AutoML技术[12，39]自动化这个探索过程并超越人类设计。厶= argmaxACCvalQQ（AP，wP）（三）量化。量化是在FPGA和手机等硬件平台上部署模型的必要技术。[10]通过使用k-均值对权重进行分组来量化网络权重以减小模型大小。[6]将网络权重二进制化为{-1，+1};[42]使用一位权重量化网络，两位用于激活;[28]将每个卷积滤波器二进制化为{−w，+w}; [43]将网络权重映射为{−wN，0，+wP}，使用两个可训练范围的比特;[41]显式正则化的损失扰动和权重ap-近似误差以增量的方式使用二进制或三进制权重对网络进行加权。[16]使用8位整数作为权重和激活，以在移动设备上部署然而，这种分离通常会导致次优的结果，解决方案：例如，浮点模型的最佳神经结构对于量化模型可能不是最佳的。此外，对目标数据集的频繁评估使得这种方法的时间成本很高：例如，一个典型的流水线可能需要300个GPU小时，这使得计算资源有限的研究人员很难进行自动设计。联合优化。联合优化不是单独优化NAS，修剪和量化，而是在这些配置之间找到平衡并搜索最优策略。为此，联合优化目标可以形式化为：胆汁装置。一些现有的工作探讨了关系.Σ（四）量子化和网络架构之间的联系 HAQ [36]提出利用AutoML来确定混合精度量化模型的位宽当不同的层用不同的比特量化时，可以实现更好的折衷，这表明网络架构和量化之间的强相关性多阶段优化。上述方法是相互正交的，一个简单的组合方法是在多个阶段依次应用它们，即：NAS+修剪+量化：• 在第一阶段，我们可以在目标数据集上以最佳精度搜索神经网络架构[33，5，37]：好吧ΣA= arg maxACCvalQ（P（A，w）），A，w，P，Q然而，这个新的目标的搜索空间是原来的三倍，所以它成为具有挑战性的执行联合优化。我们努力将NAS、剪枝和量化统一为联合优化。大纲是：1.训练一个覆盖大搜索空间的一次性网络，每个子网络可以直接提取而无需重新训练。2. 构建量化感知精度预测器，以在给定子网络和量化策略的情况下预测量化精度。3.构造时延/能量查找表，并进行资源约束进化搜索。因此，可以联合解决该优化问题。3. 联合设计方法我们的联合设计的总体框架见ANAS，wNAS= argmaxACCval厶A，w.（一）图2.它包括一个高度灵活的一次性网络，具有细粒度通道，准确性预测器，• 在第二阶段，我们可以自动修剪模型中的通道[12]：好吧∗∗Σ进化搜索以联合优化架构、修剪和量化。3.1. 一次性网络细粒度的AP，wP= argmaxACCvalPP（ANAS，wNAS）。（二）渠道神经结构搜索旨在找到一个好的子• 在第三阶段，我们可以从一个大的搜索空间将模型转化为混合网络传统上，每个山姆-2081学习迁移直接评估FP32模型大数据集[arch，acc]FP32模型加速预测器传递预测精度模型量化模型访问预测器拱形钻头传输数据Quant-AwareFine-Tuning量化模型小数据集[bits，arch，acc]图2.我们的关节设计方法概述。序列号表示步骤的顺序。我们首先训练全精度NN的准确度预测器，然后增量训练量化NN的准确度预测器（预测器转移）。最后，进行进化搜索，以找到适合硬件约束的量化策略的专用NN架构算法1：APQ框架输入：预训练的一次性网络S，进化轮iterMax，种群大小N，突变率prob，架构约束C。1使用S生成FP 32模型数据集DFP_Qi_arch，acc_Qi_Policy，arch，acc_Qi_2使用DFP训练全精度（FP）精度预测器MFP。3使用DMP和MFP（预训练的权重转移）来训练混合精度（MP）准确度预测器MMP。4.随机生成初始种群P_∞量化策略，生成大小N满足C.5，i = 1。- 是的- 是的iterMax do6使用MMP预测P中候选人的准确性并且用具有Top k最高准确度的候选来更新Topk7P交叉=交叉（顶部k，N/2，C）8P突变=突变（前k，N/2，先证者，C）9P=P交叉P突变输出：在T opk中具有最佳准确度的候选项。训练pled网络以获得实际精度[44]，这是耗时的。最近的基于一次性的NAS [8]首先训练了一个大型的多分支网络。在每个时间，从大网络中提取一个子网络，以直接评估近似精度。这样的大型网络被称为一次性网络。由于深度神经网络中不同层的选择在很大程度上是独立的，因此一种流行的方式是设计多个选择（例如，核大小、膨胀率）。在本文中，我们使用MobileNetV2作为骨干，构建了一个一次性的网络，支持不同的内核大小（即。3，5，7）和信道号（即，4×B ~ 6×B，间隔8，B为该区块的基本通道数），不同深度（即：2，3，4）在阶段水平。合并后的搜索空间包含10个以上的35个子网络，这是大到足以执行搜索的顶部of it.一次性网络的属性。为了保证有效的结构搜索，我们发现一次一次网络需要满足以下性质：（1）对于每个提取的子网络，性能可以直接评估而无需重新训练，因此训练成本只需要支付一次。(2)支持极大的细粒度搜索空间，支持频道号搜索。由于我们希望将修剪策略纳入体系结构空间，因此一次性网络不仅需要支持不同的运营商，而且还需要细粒度的信道数量（间隔为8）。因此，新的空间显着扩大（从1019到1035的近二次方）。然而，由于一次性网络培训的性质，很难同时实现这两个目标：通常认为如果搜索空间变得太大（例如，支持细粒度的信道数），则精确度近似将是不准确的[22]。当训练一次性网络时，大的搜索空间将导致高方差。为了解决这个问题，我们采用渐进收缩（PS）算法[3]来训练一次性网络。具体来说，我们首先在一次性网络中训练一个具有最大内核大小、通道数和深度的完整子网络，并将其用作教师，以逐步提取从一次性网络中采样的较小子网络在蒸馏过程中，经过训练的子网络仍然会更新权重，以防止精度损失。PS算法有效地降低了一次性网络训练过程中的方差。通过这样做，我们可以确保从一次性网络中提取的子网络保持有竞争力的准确性，而无需重新训练。3.2. 量化感知精度预测器为了降低各种部署场景中的设计成本，我们提出构建一个量化感知的准确度预测器P，该预测器基于架构配置预测混合精度（MP）模型的准确度一次性网络带细粒度通道F1百分之六十三F2百分之九十一F3…进化搜索引擎共同优化Arch+Prune+Quant硬件反馈能量延迟…2082量化政策。在搜索过程中，我们使用预测精度acc=P（arch，prune，pitch）而不是测量精度。预测器P的输入是网络架构的编码、修剪策略和量化策略。架构和量化策略编码。我们逐块编码网络架构：对于每个构件块（即，瓶颈残差块，如 Mo-bileNetV 2[30]），我们将逐点卷积和去卷积的内核大小、通道数、权重/激活位编码为独热向量，并将这些向量连接在一起作为块的编码。例如，一个块有3个内核大小的选择（例如，3，5，7）和4个频道号选择（例如，16，24，32，40），如果我们选择预训练从零开始训练内核大小=3，通道数=32，那么我们得到两个向量[1，0，0]和[0，0，1，0]，我们将它们连接在一起，并使用[1，0，0，0，0，1，0]来表示该块同样，我们也使用独热向量来表示某些权重的位宽选择/逐点和逐层的激活，例如。假设逐点/逐层的权重/激活位宽选择是4或8，我们使用[1，0，0，1，0，1，1，0]来表示量化策略的选择（4，8，8，4）。如果跳过这个块，我们将向量的所有值设置为0。我们进一步连接所有块的特征作为整个网络的编码。然后对于5层网络，我们可以使用75-dim（5×（3+4+2×4）=75）向量来表示这样的编码。在我们的设置中，内核大小的选择是[3，5，7]，通道数的选择取决于每个块的基本通道数，位宽的选择是[4，6，8]，总共有21个块要设计。精度预测器。我们使用的预测器是一个3层前馈神经网络，每个嵌入dim等于400。如图3左侧所示，预测器的输入是上述独热编码，输出是预测精度。与现有方法[20，5，37]不同，我们基于预测器的方法不需要在搜索阶段频繁评估目标数据集的架构。一旦我们有了预测器，我们就可以将其与任何搜索方法集成（例如，强化学习、进化、贝叶斯优化等）以合理的成本在架构-修剪-量化上执行联合设计。然而，最大的挑战是如何收集量化模型的结构、量化策略、精度数据集来训练量化模型的预测器，这是由于：1）收集量化模型的精度是耗时的：在量化之后需要微调以恢复精度，这花费每个数据点大约0.2GPU小时。事实上，我们发现，为了训练一个好的全精度准确度预测器，80k的ImageNet神经网络架构，ImageNet准确度预测数据对就足够了。但是，如果我们收集一个与全精度数据集大小相同的量化数据集，则需要花费16，000 GPU小时，这远远超出了我们的承受能力。（二）Arch嵌入Arch+Q嵌入图3.预测传递技术我们从一个预训练的全精度预测器开始然后微调量化感知精度预测器。量化感知精度预测器比全精度模型上的传统精度预测器更难训练：架构设计和量化策略从两个独立的方面影响网络性能，使得难以对相互影响进行因此，使用传统的方式来训练量化感知准确度预测器可能导致显着的性能下降（表2）。将预测器转换为量化模型。收集量化的NN数据集用于训练预测器是困难的（需要微调），但收集全精度NN数据集很容易：我们可以直接从一次性网络中挑选子网络并测量其精度。为了提高采样效率，弥补数据不足，提出了预测传递技术。由于量化前后的精度顺序通常是保持不变的，我们首先在大规模数据集上预训练预测器，以预测全精度模型的精度，然后转移到量化模型。量化的精度数据集要小得多，我们只进行短期微调。如图3所示，我们将当前块的量化位（权重激活）添加到输入嵌入中，以构建量化感知精度预测器。然后，我们使用预先训练的FP预测器的权重作为初始化，进一步微调量化感知准确度预测器由于大多数权重都是从全精度预测器继承的，因此与从头开始训练相比，训练需要3.3. 硬件感知进化搜索由于不同硬件可能具有完全不同的属性（例如，高速缓存大小、并行级别），一个硬件的最佳网络体系结构和量化策略对于另一个来说不一定是最好的因此，我们认为，加速度FPACCQ转移跳过c k跳过c k位2083模型ImageNet前一名（%）延迟（毫秒）能源（毫焦耳）BitOps（G）设计成本(GPU小时）二氧化碳当量（边际）云计算成本（边际）MobileNetV 2 - 8位ProxylessNAS -8位ProxylessNAS + AMC -8位71.874.273.39.1013.149.7712.4614.1210.5319.219.515.0-200N204N-56.7257.85-$148$151MobileNetV2 + HAQ71.98.9311.82-96N27.23$71ProxylessNAS + AMC + HAQ71.88.458.84-300N85.08$222DNAS [38]74.0--57.340N11.34$30[8]第十八话74.6--51.9288 + 24N6.81$18Ours-A（不包括转账）72.18.8511.7913.22400 + 0.5N0.14$0.4我们的-B（包括转让）74.18.4012.1816.52400 + 0.5N0.14$0.4Ours-C（含转让）75.112.1714.1423.62400 + 0.5N0.14$0.4表2.与具有固定量化或混合精度的硬件的最新高效模型进行比较我们的方法减少了边际搜索时间的两个数量级，同时实现更好的性能比别人。边际二氧化碳排放量（lbs）和云计算成本（$）[32]对于新场景中的搜索来说可以忽略不计。这里的边际成本是指在一个新的部署场景中搜索的成本，我们使用N来表示即将到来的部署场景的数量，我们将训练一次性网络的成本列出的图4.与HAQ [36]在延迟/能量约束下搜索的混合精度模型的比较基线分别为4位和6位固定精度当约束条件严格时，该模型的精度优于固定精度模型10%以上，与HAQ模型相比提高了5%。这种性能提升可能得益于动态架构搜索空间，而不是像MobileNetV2那样的固定搜索空间。代替依赖于一些间接信号（例如，BitOps），我们的优化直接基于目标硬件上测量的延迟和能量。测量延迟和能量。在实际硬件上评估每个候选策略的成本可能非常高。由于神经网络的顺序结构，我们可以通过对每一层的延迟（或能量）进行求和来近似模型的延迟我们可以首先建立一个查找表，其中包含不同架构配置和位宽下每一层的延迟和能量之后，对于任何候选策略，我们都可以将其分解并查询查找表，直接计算延迟（或能量），成本可以忽略不计。在实践中，我们发现这样的做法可以精确地接近实际的推理成本。资源约束进化搜索。我们采用基于进化的架构搜索[8]来探索最佳的资源约束模型。在此基础上，我们进一步将评估过程与我们的量化感知精度预测器替换，以估计每个罐的性能直接去约会。然后，每个候选者的成本可以从N次模型推断减少到仅一次预测器推断（其中N是验证集的大小）。此外，我们可以通过我们的延迟/能量查找表来验证资源约束，以避免与目标硬件的直接交互。给定资源预算，我们直接排除超出约束的候选项4. 实现细节量化感知准确度预测器的数据准备。我们生成两种数据（每种2,500）：1.随机采样的结构和量化策略; 2.随机采样架构，以及针对每个架构配置采样10个量化策略我们混合数据来训练量化感知的准确度预测器，并使用全精度预训练预测器训练全精度预测器的数据数量为80，000。因此，我们的量化精度预测器可以具有在不同的量化精度之间进行概括的能力。74.173.972.771.971.371.361.461.4+10。百+11。百2084架构/量化策略配对，并学习架构和量化策略之间的相互关系。进化架构搜索。对于进化架构搜索，我们将种群规模设置为100，并选择前25名候选人产生下一代（50个通过突变，50个通过交叉）。每个种群是具有量化策略的每层的变异率为0.1，与[8]相同对于交叉，每一层都是从其父层的层配置中随机选择的我们将最大迭代次数设置为500次，并在最终种群中选择最佳量化。我们遵循[36]中的实现，做量子化。具体来说，我们使用特定的量化策略来确定权重和激活。对于具有权重w和量化位b的每个层，我们线性地将其转换为[−v，v]，量化权重为：图5.与AMC和HAQ [5，12，36]在延迟约束下搜索的顺序设计混合精度模型的比较我们的联合设计的模型，同时实现更好的精度比顺序设计的模型。w′=max（0，min（2v，round（2w2b− 1）·v））−v （5）我们为每个层设置选择不同的v，以最小化KL散度D（w||w′）。对于激活权重，我们将其转换为[0，v]，因为该值在ReLU6层之后是非负5. 实验为了验证我们的方法的有效性，我们进行了实验，涵盖了设备上部署的两个最重要的约束：延迟和能量消耗。此外，我们比较了BitOps与一些多阶段优化模型。数据集、模型和硬件平台。实验在ImageNet数据集上进行。我们将我们的联合设计模型的性能与[36，12，5]搜索的混合精度模型和一些SOTA固定精度8位模型进行了比较。我们用于测量混合精度模型的资源消耗的平台是BitFusion [31]，这是一种用于神经网络加速器的最先进的空间ASIC设计。它采用了一个2D的融合单元的systolic阵列空间求和的移位部分产品的两个比特元素的权重和activations。5.1. 与SOTA有效模型的表2给出了不同效率约束的结果。可以看出，我们的模型可以始终优于最先进的模型，无论是固定精度还是混合精度。具体来说，我们的小型模型（Ours-B）可以比混合精度MobileNetV 2提高2.2%的精度图6.与BitOps约束下的量化模型的比较。ResNet-34基线是2/3/4位权重和激活。我们的模型实现了0.5%的准确性提高（从74.6%到75.1%）相比，通过单路径一次搜索的模型，同时占用一半的BitOps。此外，我们的模型的准确性与8位版本的ResNet-34模型（75.0%）相同，同时节省8×BitOps。按民政事务总署进行搜寻（由71.9%减至74.1%）;我们的大型模型（Ours-C）获得了更好的准确性（从74.6%到75.1%），而只需要一半的BitOps。当应用转移技术时，它确实有助于模型获得更好的性能（从72.1%到74.1%）。值得注意的是，云计算和CO2排放的边际成本比其他工作小两个数量级。5.2. 接头设计与MobileNetV2+HAQ比较。图4 显示了在不同延迟约束和能量约束下BitFusion平台上的结果在某些限制条件下，我们联合设计的模型始终优于混合精度和固定精度SOTA模型。值得注意的是，当约束较紧时，我们的模型具有显著的75.174.174.2+AMC73.3+H71.875. 1+0。5%Accwith2。2xBitO p s a v i74.672.7+2。百2085图7.不含或不含预测转移技术的性能图示。成对准确度是衡量每两个架构之间的相对关系的度量。左图显示量化感知预测器与w/o传输相比可以实现更快和更高的收敛。右图显示，当数据有限时，预测传递技术可以大大提高两两的准确率（从64.6%到75.6%）。使用预测传递技术，我们可以使用不到3k的数据点实现85%的成对准确度，而如果没有这种技术，至少需要4k的数据。与最先进的混合精度模型相比，有显著的改进。具体来说，在类似的效率约束下，我们将ImageNet top1的准确率从 MobileNetV2 基线的 61.4%提高到了71.9%（+10.5%），并在延迟和能量约束下提高了72.7%（+11.3%）。此外，我们展示了一些模型搜索我们的量化感知预测没有预测转移技术。应用这种技术，准确性可以持续地得到改善，因为非传递预测器可能会丢失架构和量化策略之间的一些互信息。与多阶段优化模型的比较。图5将多阶段优化与我们的联合优化结果进行了比较。可以看出，在相同的延迟/能量约束下，我们的模型可以获得更好的准确性比多阶段优化模型（74.1%比71.8%）。这是合理的，因为每阶段优化可能不会像联合设计那样找到全局最优模型在有限的 BitOps 下进行比较。图 6 报告了有限BitOps预算的结果。可以看出，在严格的BitOps约束下，与使用[8]搜索的模型相比，我们的模型提高了2%以上的准确性（从71.5%到73.9%）此外，我们的模型达到了与ResNet34 8位模型相同的精度（75.1%），同时节省了8 ×BitOps。5.3. 预测转移的有效性图7显示了我们的预测转移技术与从头开始训练的性能比较对于每个设置，我们训练预测器以收敛并评估成对准确度（即，预测器正确地识别出从保留数据集中随机选择的两个候选者之间哪个更好的比例），这是一种测量方法，预测器性能的保证。我们使用相同的测试集，2000个神经网络架构，ImageNet准确度测试对是通过随机选择网络架构和量化策略生成的。典型地，对于具有N个数据点的训练，如在Sec. 4是相等的，即，N/2。如图所示，传递预测器具有更高和更快的成对精度收敛。此外，当数据非常有限时，我们的方法可以比scratch训练具有超过10%的成对准确率6. 结论我们提出了APQ，一个联合设计方法架构的混合精度模型。不同于以往的作品，decouple到分离的阶段，我们直接寻找最佳的混合精度架构没有多级优化。我们使用基于预测器的方法，可以没有额外的评估目标数据集，这大大节省了GPU小时搜索下一个即将到来的场景，从而减少二氧化碳排放和云计算成本。为了解决数据采集费用高的问题，我们提出了预测传递技术来弥补数据的局限性。通过与现有模型的比较，说明了联合优化的必要性和联合设计方法的优越性。致谢我们感谢NSF职业奖#1943349，MIT-IBM Wat- son AILab，三星，索尼，AWS机器学习研究奖支持这项研究。fasterandhigher75.664.6+11。2086引用[1] 萨吉德·安瓦尔和宋元勇压缩深度卷积神经网络与粗修剪，2016。2[2] Han Cai，Tianyao Chen，Weinan Zhang，Yong Yu，andJun Wang.通过网络变换进行有效的体系结构搜索。在AAAI，2018。1[3] 韩才、闯乾、宋涵。一劳永逸：2019年，训练一个网络并使其专业化以实现高效部署。4[4] 韩才，杨嘉诚，张渭南，宋涵，永玉。路径级网络转换，用于高效的体系结构搜索。在ICML，2018。1[5] 韩才、朱立庚、宋涵。ProxylessNAS：在目标任务和硬件上直接搜索神经架构。2019年，在ICLR。一二三五七[6] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二值化神经网络：训练权重和激活约束为+1或-1的深度神经网络。arXiv，2016. 3[7] 戴晓亮，张培昭，吴碧晨，尹红旭，孙飞，王扬汉，马拉·杜汗，胡云青，吴一鸣，贾扬青，等.Chamnet：通过平台感知模型适应实现高效CVPR，2019年。二、三[8] Zichao Guo ， Xiangyu Zhang ， Haoyuan Mu ， WenHeng，Zechun Liu，Yichen Wei，and Jian Sun.均匀采样单路径单次神经结构搜索 arXiv 预印本 arXiv ：1904.00420，2019。二三四六七八[9] Song Han ， Han Cai ， Ligeng Zhu ， Ji Lin ， KuanWang，Zhijian Liu，and Yujun Lin.设计自动化以实现高效的深度学习计算。arXiv预印本arXiv：1904.10616，2019。1[10] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR，2016年。一、二、三[11] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。InNeurIPS，2015. 2[12] Yihui He，Ji Lin ， Zhijian Liu ，Hanrui Wang， Li-JiaLi，and Song Han. Amc：Automl用于移动设备上的模型压缩和加速。在ECCV，2018。一、三、七[13] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。ICCV，2017年。2[14] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。2[15] Hengyuan Hu，Rui Peng，Yu-Wing Tai，and Chi-KeungTang.网络修整：A data-driven neuron pruning approachtowards efficient deep architectures，2016. 2[16] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu 、 Matthew Tang 、 Andrew G Howard 、 HartwigAdam和Dmitry Kalenichenko。量化和训练神经网络，用于高效的仅整数算术推理。在CVPR，2018年。3[17] Ji Lin，Yongming Rao，Jiwen Lu，and Jie Zhou.神经修剪。在NIPS，2017年。2[18] Chenxi Liu，Barret Zoph，Jonathon Shlens，Wei Hua，Li-Jia Li，Li Fei-Fei，Alan Yuille，Jonathan Huang，and Kevin Murphy.渐进式神经架构搜索。在ECCV，2018。一、二[19] Hanxiao Liu ， Karen Simonyan ， Oriol Vinyals ，Chrisantha Fernando ， and Koray Kavukcuoglu. 分层表示，有效的体系结构搜索。在ICLR，2018年。1[20] 柳寒笑，凯伦西蒙尼扬，杨一鸣。飞镖：差异架构搜索。2019年，在ICLR。二、五[21] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络InICCV，2017.2[22] Zechun Liu ， Haoyuan Mu ， Xiangyu Zhang ， ZichaoGuo，Xin Yang，Tim Kwang-Ting Cheng，and Jian Sun.元运行：用于自动神经网络通道修剪的Meta学习。在ICCV，2019年。4[23] 洛仁千，飞天，秦涛，刘铁岩。神经结构优化。NeurIPS，2018。2[24] Hongzi Mao，Parimarjan Negi，Akshay Narayan，Han-rui Wang ， Jiacheng Yang ， Haonan Wang ， RyanMarcus ， Mehrdad Khani Shirkoohi ， Songtao He ，Vikram Nathan，et al. Park：一个学习增强计算机系统的开放平台。神经信息处理系统的进展，第2490-2502页，2019年。2[25] Pavlo Molchanov，Stephen Tyree，Tero Karras，TimoAila，and Jan Kautz.修剪卷积神经网络以实现资源高效推理，2016年。2[26] Subhankar Juman ， Jonathan Beaumont ， Dong-HyeonPark ， Aporva Amarnath ， Siying Feng ， ChaitaliChakrabarti ， Hun- Seok Kim ， David Blaauw ， TrevorMudge，and Ronald Dres-linski. 外层空间：基于外积的稀疏矩阵，电子倍增加速器。2018年IEEE高性能计算机体系结构国际研讨会（HPCA），第724-736页。IEEE，2018年。2[27] A. Polyak和L.狼深度面部表示的通道级加速。IEEEAccess，2015. 2[28] Mohammad Rastegari、Vicente Ordonez、Joseph Redmon和Ali Farhadi。XNOR-Net - ImageNet分类使用

下载后可阅读完整内容，剩余1页未读，立即下载