可推广混合精度量化方法及其在大规模数据集上的有效性

29 浏览量更新于2023-10-13 收藏 918KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5291ARD=9.84ARD=36.78ARD=14.27ARD=42.10基于属性秩保持的可推广混合精度量化王紫薇1，2，3，韩晓1，2，3，陆继文1，2，3 *，周杰1，2，31清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心{wang-zw18，h-xiao20} @ mails.tsinghua.edu.cn;{ lujiwen，jzhou} @tsinghua.edu.cn摘要常规混合精度量化在本文中，我们提出了一种可推广的混合精度量化（GMPQ）的有效的推理方法。传统的方法要求一致性的数据集进行位宽搜索和模型部署，以保证策略最优性，从而导致繁重的搜索搜索层k-1层k位4位Finetune1 位2比特ImageNetVOC在现实应用中挑战大规模数据集的成本。相反，我们的GMPQ搜索混合-搜索层k+12 位概括FinetuneImageNet量化策略，可以推广到大规模的数据集，只有少量的数据，使得搜索成本显着降低，而性能下降。具体而言，我们观察到，正确定位网络属性是跨不同数据分布进行准确可视化分析的一般能力因此，尽管追求更高的模型准确性和复杂性，我们保持属性等级之间的一致性的量化模型和他们的全精度对应物vi-一个有效的能力感知属性模仿generalizable混合精度量化策略搜索。大量的实验表明，与现有的混合精度网络相比，本文的方法在显著的收敛速度上获得了竞争性的精度-复杂度折衷。降低了搜索成本。代码可在http-3位GMPQ(a) 常规方法与GMPQs：github.com/ZiweiWangTHU/GMPQ.git。全精度最优量化随机量化1. 介绍深度神经网络已经在大量视觉任务中实现了最先进的性能，例如图像分类[15，44，18]，对象检测[40[28][29]S.然而，具有有限存储和计算资源的移动设备由于极高的复杂度而不能够处理因此，需要根据硬件配置来设计网络压缩策略*通讯作者(b) 不同精度图1. (a)传统的方法需要数据集的一致性进行位宽搜索和模型部署，而我们的GM-PQ搜索小数据集上的最优量化策略，并将其推广到大规模数据集。(b)Grad-cam为ImageNet（顶行）和PASCAL VOC（底行）中的图像计算的属性。与随机量化不同，最优量化策略与全精度量化策略具有相似的属性，而与数据集无关。ARD表示全精度特征图中具有最高属性的前100个像素的平均属性秩距离。最近，已经提出了几种网络压缩技术，包括修剪[27，16，33]、量化压缩技术[27，16，33]和压缩技术[27，16，33]。问题[59，30，51]，高效架构设计[20，17，37]ImageNetCIFAR-101 021 0 1 110 10 01 0 15292低秩分解[7，57，26]。在这些方法中，量化将网络权重和激活约束在有限的位宽中以节省存储器和快速处理。为了充分利用硬件资源，本文提出了混合精度量化[50，9，3]来搜索每一层的位宽，从而获得最佳的精度-复杂度折衷。然而，传统的混合精度量化要求用于位宽搜索和网络部署的数据集的一致性以保证策略最优性，这导致在诸如ImageNet的大规模数据集上进行自动模型压缩的显著搜索负担[5]。比如说，通常需要几天的GPU时间才能获得ImageNet上ResNet18的预期量化策略[50，3]。在本文中，我们提出了一种 GMPQ方法来学习generalizable混合精度量化策略，通过属性秩保持有效的推理。与现有方法不同，现有方法要求量化策略搜索和模型部署之间的数据集一致性。t，我们的方法使所获得的量化策略能够在各种数据集上推广。在小数据集上搜索的量化策略在具有挑战性的大规模数据集上取得了令人满意的性能，从而显著降低了策略搜索成本。图1（a）显示了我们的GMPQ和传统混合精度网络之间的差异。更具体地说，我们观察到，正确地定位网络归属有利于可视化分析各种输入数据分布。因此，尽管考虑到模型的准确性和复杂性，我们强制量化网络模仿全精度对应物的属性。与直接最小化量化模型和全精度模型属性之间的欧氏距离不同，我们保持了它们的属性等级一致性，使得量化网络的属性可以自适应地调整分布而不会出现容量不足的情况.图1（b）展示了Grad-cam [42]为具有最佳和随机量化策略的混合精度网络及其全精度对应网络计算的属性，其中具有最佳位宽分配的混合精度网络与全精度模型获得更一致的属性秩。实验结果表明，我们的GMPQ获得竞争力的准确性-复杂性权衡ImageNet和PASCAL VOC相比，国家的最先进的混合精度量化方法在只有几个GPU小时。2. 相关工作固定精度量化：网络量化由于其计算和存储复杂度的显著降低，在计算机视觉和机器学习领域引起了广泛的兴趣，现有的网络量化方法分为一位和多位量化。二进制网络将网络权重和激活限制在一个位在极高的压缩比。对于前者，Hubara等人。 [19]和Courbariaux等人。 [4]通过权重和激活二进制化用xnor-bitcount替换乘加操作，并应用直通估计器（STE）优化网络参数。Rastegari等人[39]利用用于权重和激活散列的缩放因子来最小化量化误差。 Liu等人[30]在连续的卷积层之间增加额外的捷径Wang等人。[54]挖掘通道交互以消除特征图中的不一致符号。Qin等人。 [36]最小化推断中的参数熵，并利用反向传播中的软量化来增强信息保留。由于全精度网络和二进制网络之间的性能差距是巨大的，多比特网络被提出用于更好的精度-效率权衡。朱[61]根据权值分布训练自适应量化器进行网络Gong等人 [12]将可微近似应用于量化网络，以确保优化与目标之间的一致性 Li等人[24]提出了用于具有硬件友好实现的对象检测的四位网络，并且通过定制批量归一化和离群值去除来克服训练不稳定性。然而，固定精度量化忽略了不同层之间的冗余方差，并导致量化网络中的次优精度-复杂度权衡。混合精度量化：混合精度网络在不同层中为权重和动作分配不同的位宽，考虑了不同组件的冗余方差，以获得给定硬件配置的最佳精度-效率权衡。现有的混合精度量化方法主要基于不可微或可微搜索。对于前者，Wang等人。 [50]提出了一种再激励学习模型来学习每层权重和激活的最佳位宽，其中在奖励函数中考虑了模型的准确性和复杂性。 Wang等人[52]通过进化算法从超网中联合搜索精简模型的剪枝率、位宽和结构。由于不可微方法需要巨大的搜索成本来获得最佳的位宽，可微搜索方法也被引入到混合精度量化。Cai等人。 [3]设计了一个超网，其中每个卷积层由不同位宽的并行块组成，通过对不同权重的所有块求和来产生输出S.通过反向传播优化块权重，并在推理过程中选择具有最大值的位宽，实现了最佳的此外，Yu等人。 [56]进一步提出了障碍惩罚，以确保搜索的模型在复杂度约束范围内。杨等人[55]将约束5293LLQQValQExDQVal通过乘法器的交替方向方法（ADMM）进行优化，并且Wang等人 [53]利用变化信息瓶颈来搜索适当的位宽和修剪比。Habi等人。 [13]和Van等人。 [48]直接优化了混合精度网络的位宽选择的量化间隔。然而，由于大型超网的优化，混合精度量化的可区分搜索仍然需要大量的时间。为了解决这个问题，Dong等人 [9，8]根据Hessian信息设计了位宽分配规则.然而，手工制作的规则需要专家知识并且不能适应输入数据。归因方法：归因旨在为神经网络的预测产生人类可理解的解释。每个输入分量的贡献早期的作品[10，43，60]通过利用其相对于优化目标的梯度来分析每个像素的敏感性和重要性。近年来关于归因提取的研究主要分为两类：基于梯度和关联的方法ARD=8.20ARD=8.44ARD=7.60ARD=8.96ARD=9.40ARD=9.21≈ 8位≈ 4位≈ 2位图2.不同容量的混合精度网络在最优量化策略下的属性。对于低比特宽度的网络，尽管秩保持相似，但归因更集中。集中的属性使模型的容量是足够的冗余注意力去除，从而实现有前途的性能。写为以下两级优化形式：耗氧物质第一个方面，引导反向传播[45]，梯度凸轮[42]和积分梯度[46]组合像素梯度。minQLval（W（Q），Q）不同地点、不同渠道的事件进行信息融合，从而获得更准确的归属。对于后者，Zhang等人。 [58]构建了一个分层概率模型来挖掘输入分量与预测之间的相关性。在本文中，我们观察到，香草和压缩网络之间的特征映射的属性排名一致性，有利于各种数据分布的可视化分析，这是扩展到可推广的混合精度量化显着降低搜索成本。3. 方法在本节中，我们首先介绍遭受显著搜索负担的混合精度量化框架。然后，我们证明了观察，全精度和量化模型之间的归因等级的一致性，有利于各种数据分布的可视化分析。最后，我们提出了可推广的混合精度量化通过属性秩保持。S.T.W *（Q）= arg min Ltrain（W，Q）Ω（Q）≤Ω0（1）其中val和train描述了验证数据和训练数据上的任务损失。Ω0代表部署平台的资源为了获得最佳混合精度网络，量化策略和网络权重W（）被交替地优化，直到收敛或最大迭代次数。由于用于策略搜索的训练和验证数据的分布显著影响所获取的量化策略，因此现有方法要求用于量化策略搜索的训练和验证数据以及用于模型部署的训练和验证数据来自相同的数据集。然而，压缩模型通常用于大规模数据集，如ImageNet，这在量化策略搜索期间导致沉重的计算负担。为了解决这个问题，理想的解决方案是搜索其最优性独立于数据分布的量化策略。检索目标应修改如下：3.1. 混合精度量化混合精度量化的目标是搜索minQExDAL（W*（Q），Q，x）每一层的适当的位宽度，以便实现最佳的S.T. W*（）=arg minGtrain L（W，Q，x）在给定硬件配置的情况下，错误的准确性-复杂性折衷。令W为量化的网络权重，并且为将不同的位宽分配给各个层中的权重和激活的量化策略Ω（Q）表示Ω（Q）≤Ω0（2）其中L（W，Q，x）表示网络权重W、量化策略Q和输入x的任务损失。DA描绘了压缩网络的计算复杂性，数据集包含部署中的所有验证图像，量化策略Q. 搜索目标函数为G火车说明了包含给定训练t和D5294Val和DValCZAc[m，n]一W一W2小数据集层k121CE损失W一输入特征图4激活滤波器4输出特征图复杂性损失泛化损失图3.我们GMPQ的管道超网络由多个并行分支组成，包括不同位宽的卷积滤波器和激活来自各个分支的输出被添加有可学习的重要性权重以构造输出特征图。尽管交叉熵和复杂性损失，我们提出了额外的泛化损失，以优化网络权重和分支重要性权重，这使得在小数据集上搜索的量化策略可以推广到大规模数据集上。图像在位宽搜索，其中分布差距是-其他类被删除。吐温DAG火车可能是相当大的。因为DA是在-全精度网络实现高性能在实际应用中易于处理的是，希望找到一种替代方法来解决可推广的混合精度量化策略。3.2. 归因等级一致性由于在部署中获取所有验证图像是不可能的，我们通过另一种方式解决了可推广的混合精度量化策略。我们观察到，正确地定位网络属性有利于可视化分析各种输入数据分布。根据关于每个特征图的损失梯度来公式化特征属性，其中最后一个卷积层中的第c个特征图对于识别来自第t个类别的对象的重要性写为如下：而量化模型由于容量的限制，在属性上偏离图2展示了在不同复杂度下具有最优量化策略的网络的属性，其中由于有限的承载信息，低容量的网络的属性更加集中。由于量化网络与全精度网络之间的网络容量差距很大，直接强制属性一致性无法消除压缩模型中的冗余注意，导致容量不足，性能下降。因此，我们保持了量化网络和它们的全精度对应物之间的属性等级一致性可量化的混合精度量化策略搜索。的α[t]=1Σf（x）[t]m，n（三）归因等级说明了不同归因用于模型预测的像素。约束性归因等级其中f（x）[t]表示第t类别的输入x的输出分数，并且Ac[m，n]表示最后一个卷积层中的第c个特征图的第m行和第n列Z是将重要性归一化到范围[0，1]中的缩放因子。利用Grad-cam [42]中提出的特征图可视化技术，我们获得了网络中的特征属性。我们将来自不同通道的特征图与（3）中计算的注意力关于第t个类别的最后一个卷积层中的特征属性用公式表示如下：M[t]=ReLU（Σαc[t]·Ac）⑷C一致性使得量化网络能够集中在重要区域，从而自适应地调整属性分布而不存在容量不足。3.3. 基于属性秩保持我们的GMPQ可以作为一个即插即用模块，用于不可微和可微的搜索方法。由于与不可微方法相比，可微方法实现了竞争精度-复杂度权衡，因此我们采用可微搜索框架[3，56，55]来选择最佳混合精度量化策略。我们设计了一个具有Nk和Nk个并行分支的卷积滤波器和第k层中的特征图Nk和Nk表示特征属性只保留了支持性的fea-类的特征，以及与用于权重和激活位宽的搜索空间的大小并行分支分配有各种位宽1 01 0 1 15295a我w，i充分2ΣΣw我ΣaJJ我a我w，iΣ2−M[y]ΣQΣΣΣΣ1ΣwaWa预期位操作（BOP）[53，1，3]：KNkNkW ak k kKKRC（Q）=（k=1i=1i（i=1πa，iqa，i）·B满（七）其中qkqk代表第i个分支的位宽第k层中的权重和激活，Bk表示p=1 p=2 p=4图4.不同p的全精度网的属性的Lp范数。在秩保持不变的情况下，对于较大的p其输出与重要性πk和πk相加全精度网中第k层的BOP。K表示量化模型的层数。由于全精度网络与其量化对应网络之间的属性等级一致性增强了混合精度量化策略的泛化能力，因此我们以以下形式定义泛化风险：RG（W，Q，x）= ||r（Mq，i j[yx]）−r（Mf，ij[yx]）||2i、j其中，Mq，ij[yx]表示第i个像素中的像素属性。a wrow和j列的特征图分别用于加权和激活以形成中间特征图。图3描述了我们的GM-PQ的管道K层超网中每一层的前馈传播写为：日类yx，并且Mf ，ij[yx]在全精度模型中示出对应的变量。y x表示输入x的标签，以及||·||2是逐元素的l2范数。r（·）代表归因等级，其zk=Nki=1kw，ifk（Nkj=1ka，j（5）如果元素是属性图中的第k个最大元素，则等于k我们只保留全精度网络中具有最高属性的前k个像素的属性排名一致性，因为低属性通常是由噪声引起的。其中zk表示的输出中间特征图第k层。k表示第k层中的第j激活量化分支的输出，并且fk是第k层的第iπk和πk表示第k层中第i个我们观察到归因等级一致性是-在量化网络和它们的全精度计数器之间，使压缩模型能够拥有香草模型的区分能力，而不管数据的大小。明确的信息。由于最小化泛化风险是NP难的，我们提出了能力感知的归因模仿差异优化的目标。我们强制混合精度网络的属性接近全精度模型的lp范数，因为lp范数保持秩的一致性，同时根据网络容量自适应地选择属性分布。泛化风险被重写如下以用于有效优化：pta分布，我们在最优量化策略搜索中施加属性秩一致性约束，尽管RG（W，Q，x）=||Mi、jq，ij[yxMf，ij[yx]]pi，j f，ij x||2准确性和效率目标。为了获得可推广的混合精度量化的最佳精度-复杂度权衡，学习目标以拉格朗日形式表示：R=RE（W，Q，x）+ζRC（Q）+ηRG（W，Q，x）（6）大的p导致集中的属性，反之亦然，我们为容量较低的超网分配更大的p值，其中超参数Q0和Q0用于L层网络：LNkNkp=（Q〇/πk qk）·（Q〇/πk qk）（8）其中RE（W，Q，x）、RC（Q）和RG（W，Q，x）分别为：Lk=1Wi=1w，iw，i一i=1a，i a，i的分类，复杂性和泛化风险的权重W和量化策略的输入x的网络。ζ和η是用于平衡总体学习目标中的复杂性风险和泛化风险的重要性的超参数。在不同的策略搜索中，RE（W，Q，x）由视觉任务的目标表示，而RC（Q）定义为视觉任务的由于分类，复杂性和泛化风险都是可区分的，我们优化的超网权重和分支重要性权重迭代在一个端到端的方式。当超网收敛或达到最大训练时期时，选择具有最大重要权重的分支所表示的位宽来形成最终量化策略。我们对量化网络进行微调ππ5296前1位准确度（%）W一××6858利用部署中的数据来获取最终模型AP。在实际应用中。GMPQ搜索量化72具有泛化约束的小数据集上的策略，70这导致在66中的大规模数据集上的高性能大大降低了搜索成本。64624. 实验60在本节中，我们对图像分类和对象检测进行了广泛的实验。我们首先介绍5610 15 20 25 30BOPs（G）(a) 固定策略(b) 能力意识战略我们的GMPQ的实施细节。在随后的消融研究中，我们评估了能力感知归因模仿中p的赋值策略的影响，考察了风险函数中不同术语的影响，并发现了数据集对量化策略搜索的影响。最后，我们比较了我们的方法与最先进的混合精度网络的图像分类和目标检测的准确性，模型的复杂性和搜索成本。4.1. 数据集和实施详细信息我们首先介绍了我们进行实验的数据集。对于量化策略搜索，我们采用了小数据集，包括CIFAR-10[23]，汽车[22]，鲜花[34]，飞机[32]，宠物[35]和食物[2]。CIFAR-10包含60，000幅图像，分为10类，样本数量相等，Flowers包含8，189幅图像，分布在102个花卉类别中。汽车包括16185张图片，196种类型的制造商，型号和年份，飞机包括10200张图片，102个飞机型号变体中的每一个都有100个样本Pet包含37个狗和猫类别，每个类别有200张图片，Food包含6家餐厅菜单项的32，135张高分辨率食物照片对于混合精度网络部署，我们在ImageNet上评估了量化网络的图像分类，并在PASCAL VOC上评估了对象检测。ImageNet[5]大约包含1。20亿和50k图像，用于训练和验证1000个类别。为了训练，从其短边为256的调整大小的图像应用224 224个随机区域裁剪。在推断阶段，我们利用224 224中心作物。PAS- CAL VOC数据集[11]收集了来自20个类别的图像，我们在VOC 2007和VOC 2012训练集上微调了混合精度网络，其中包含约16k图像，并在VOC 2007测试集上测试了我们的GMPQ，测试集由 5k 样本组成。在 [11]之后，我们使用平均精度（mAP）作为评估指标。我们使用MobileNet-V2 [41]，ResNet 18和ResNet 50[15]架构训练GMPQ进行图像分类，并将VGG 16 [44]与SSD框架[28]和ResNet 18与Faster R-CNN [40]应用于对象检测。用于网络权重和激活的搜索空间中的位宽对于MobileNet-V2是2-8位，并且对于MobileNet-V2是2-4位。图5.（8）中的p的（a）固定值分配策略和（b）容量感知值分配策略的准确度-复杂度权衡，其中超参数也变化。对于其他架构。受文献[3]的启发，本文采用组合卷积，其滤波器是不同位宽的每个量化滤波器的加权和，从而避免了复杂的并行卷积。我们同时更新不同分支的重要性权重和网络参数。能力感知归因模仿的超参数Q0和Q0分别设为4和6个重复。同时，我们只最小化的距离之间的属性在量化网络和lp范数的全精度模型中的前1000个像素的最高属性的实值模型。为了在Ima-geNet上进行评估，我们使用Adam [21]优化器对混合精度网络进行了微调。学习率从0开始。001并通过乘以0衰减两次。在总共40个历元中的第20和第30历元处为1对于目标检测，主干在ImageNet上进行了预训练，然后在PASCAL VOC上进行了微调，并在图像分类上设置了相同的超参数。在所有实验中，批量设定为256。通过调整（6）中的超参数ζ和η，我们获得了不同精度-复杂度权衡下的混合精度网络。4.2. 消融研究为了考察归因等级保持的有效性，我们在不同策略下对能力感知归因模仿中的p通过改变总体风险（6）中的超参数η和η，我们评估了分类、复杂性和泛化风险对模型准确性和效率的影响。我们在ResNet 18架构的ImageNet上进行了消融研究，并在CIFAR-10上搜索了此外，我们在不同的小数据集上搜索了可推广的混合精度量化策略，以发现其对精度-复杂度权衡和搜索成本的影响。不同的价值分配策略对p的有效性：为了研究价值分配策略对p的影响。t策略p的精度-复杂度权衡，我们搜索了具有固定p=1p=2p=3p=4联系我们联系我们联系我们联系我们联系我们5297=0=10=20=40=80CIFAR10（0.5GH）鲜花（0.4GH）宠物（0.3GH）飞机（0.9GH）食品（0.8GH）汽车（0.7GH）前1位准确度（%）W一72 71707068666964686267605866表1.在不同容量和混合精度量化策略下，ImageNet上的前1/前5准确率（%），模型参数表示模型存储成本，Comp.表示BOP的压缩比。方法参数BOPsComp.Top-1Top-5成本ResNet185610 15 20 25 30BOPs（G）6510 15 20BOPs（G）25 30(a) 变化的ζ和η（b）变化的数据集图6. (a)针对不同η的准确度-复杂度权衡，其中ζ变化以选择各种网络容量。(b)ImageNet上的top- 1精度，BOP和混合精度量化策略在不同小数据集上搜索的平均搜索成本，其中GH表示搜索成本的GPU小时数。和容量感知P值。对于固定的p，我们将值设置为1，2，3和4，以约束具有各种浓度的量化网络的属性。容量感知策略用（8）中所示的策略分配p，其中ResNet50在消融研究中，Q0和Q0的乘积图5（a）和5（b）分别展示了针对具有不同超参数的p容量感知策略下的最优准确度-复杂度曲线优于固定策略下的最优准确度-复杂度曲线，表明了属性变异对网络容量的重要性。对于固定策略，中p优于其他值。对于容量有限的量化网络，小的p会导致注意冗余，大的p会导致信息丢失，不能充分利用网络容量。为MobileNet-V2容量感知策略，设置Q和QW a到24导致最佳的准确度-复杂度权衡。对于权重和激活位宽的乘积为24的超网络，其网络容量与其全精度对应物相当，因为它们在没有额外浓度的情况下模仿实值模型的属性。超参数对总体风险的影响（6）：为了验证推广风险的有效性，我们报告了不同η的性能。同时，我们还改变超参数ζ以获得不同的精确性和效率。图6（b）展示了在不同的小数据集上获得的最佳混合精度网络的top- 1精度和BOP。我们还显示了所有计算成本的平均搜索成本测试准确性-复杂性权衡。图6（a）示出了结果，其中介质η实现了最佳折衷曲线。大η未能利用来自注释标签的监督，并且小η忽略属性排名一致性，这增强了混合精度量化策略的泛化能力。随着ζ的增加，所得到的策略倾向于轻量级体系结构，反之亦然。对于不同的η，ζ的相同分配在准确度-复杂度权衡中选择相似的BOP。数据集对量化策略搜索的影响我们在不同的小数据集上搜索混合精度量化策略，包括CIFAR-10，汽车，鲜花，飞机，宠物和食物，以发现对模型的影响在图例中的约束，其中GH表示测量搜索成本的GPU小时数。在CIFAR-10上搜索的混合精度网络实现了最佳的精度-效率权衡，因为CIFAR-10的大小是最大的，具有最充分的视觉信息。此外，与其他数据集相比，CIFAR-10和ImageNet之间的对象类别差距最小。飞机上的搜索量化策略由于图像尺寸为512 ×512，需要最高的搜索代价.4.3. 与最先进方法的在本节中，我们将我们的GMPQ与包含APoT [25]和前1位准确度（%）全精度四十六岁。81853年4−69岁。7892−ALQHAWQGMPQ1 .一、8五、8五、4五十八5三十四0二十七岁831岁7五十四566岁。767岁7−68岁5−七十2901三十四7十五岁60的情况。5全精度九十七539526−七十六。4九十三1−HAWQ十三岁161岁3六十四575. 392. 4三十六6Haq12个。250块378岁675. 592. 467岁7BP-NAS十三岁455. 2七十一7七十六。7九十三6三十2GMPQ12个。4五十三074岁6七十六。7九十三3二、2HMQBP-NAS十五岁611个国家。3三十七7三十三岁。2一百零四8119 075. 5−75.7928四十九4三十五6全精度十三岁4337 9−七十一9903−RQGMPQ二、71 .一、411个国家。910个。428岁4三十二668岁0−七十一5902−1 .一、7公司简介GMPQ1 .一、41 .一、8. 38. 17 .第一次41岁041岁6四十三069岁。588862.782469岁。3−七十490。751岁14.第一章5298表2.在不同容量和混合精度量化策略下，计算了主干网的PASCAL VOC的mAP（%）、模型存储开销参数表示模型存储成本，Comp.表示BOP的压缩比。方法参数BOPsComp.地图成本SSD VGG16全精度一百零五527787 7−七十二4−Haq四十二7八四七2三十二8七十962.5HAQ-C四十二9819号7三十三岁。967岁6五、1EdMIPS三十三岁。5九五八229岁069岁。4二十五9EdMIPS-C三十七2868 4三十二0六十五21 .一、5GMPQ三十六6七九六。2三十四9七十51 .一、6Haq三十五5四百三十15六十四669岁。167岁9HAQ-C三十二3四百四十五362.466岁。4六、8EdMIPS29岁4454. 061岁268岁7三十2EdMIPS-C31岁3四百二十三6六十五6六十四31 .一、6GMPQ二十四岁7413 567岁269岁。21 .一、8R-CNN ResNet18全精度四十七422534 8−74岁5−Haq8. 3三百四十二5六十五8七十三。5三十八岁。9HAQ-C8. 5337 966岁。7七十74.第一章1EdMIPS9 .第九条。3361 762.3七十二3十六岁6EdMIPS-C8. 7348 8六十四669岁。80的情况。4GMPQ六、4337 966岁。7七十三。90的情况。5Haq8. 0303号774岁2七十三。2三十五2HAQ-C7 .第一次会议。6三百一十4七十二6七十4五、2EdMIPS十八岁7348 8七十一1七十一8十八岁1EdMIPS-C7 .第一次会议。4299. 375.369岁。20的情况。4GMPQ六、2286 378岁7七十三。40的情况。5RQ [31]和混合精度网络，包括ALQ [38]，HAWQ [9]，EdMIPS [3]，HAQ [50]，BP-NAS [56]，HMQ [13]和DQ [47]在ImageNet上用于图像分类，在PASCAL VOC上用于对象检测。我们还提供了全精度模型的性能供参考。基线的准确性-复杂性权衡是从他们的原始论文中复制的，或者是通过我们使用官方发布的代码实现的，并且通过重新运行比较的方法来评估搜索成本。我们在CIFAR-10上搜索了最佳量化策略，以便在ImageNet和PASCAL VOC上部署。ImageNet上的结果：表1说明了不同架构和混合精度量化方法中存储和计算成本的计算、BOP的压缩比、top-1和top-5精度以及搜索成本。HAQ-C和EdMIPS-C演示了我们利用HAQ和EdMIPS在CIFAR-10上搜索量化策略，并在ImageNet上评估获得的量化策略。通过比较不同体系结构的精度-复杂度权衡与基线方法，我们得出结论，我们的GMPQ实现了竞争力的精度-复杂度权衡在各种资源约束下，显着降低搜索成本。同时，我们还直接利用HAQ和5299EdMIPS。虽然搜索成本大大降低，但在各种资源约束下，精度-复杂度权衡远非最优，这表明常规方法获得的量化策略缺乏通用化我们的GMPQ保留的贡献排名的一致性，在量化策略搜索与可接受的计算开销，并启用的混合精度的量化搜索小数据集推广到大规模数据集。对于混合精度量化方法 EdMIPS ，ResNet50的搜索成本降低更为明显，因为在大规模数据集上训练时，繁重的体系结构需要更多的训练时期来收敛。PASCAL VOC结果：我们采用具有VGG 16架构的SSD检测框架和具有ResNet 18主干的Faster R-CNN检测器来评估我们的GMPQ对对象检测的影响。表2显示了结果各种混合精度网络。与PASCAL VOC上搜索的准确性-复杂性权衡相比，我们的GMPQ获得了有竞争力的结果，在检测框架和主干上的搜索成本都显着降低此外，在CIFAR-10上直接使用HAQ和EdMIPS搜索的量化策略压缩网络会显著降低性能。由于混合精度网络需要在 ImageNet 上进行预训练，因此PASCAL VOC上的搜索成本降低比ImageNet上的搜索成本降低更大由于两阶段检测器Faster R-CNN对于准确的属性生成具有更强的鉴别能力，因此与一阶段检测器相比，准确度-复杂度权衡更优。5. 结论在本文中，我们提出了一个通用的混合量化方法称为GMPQ的有效推理。GMPQ算法在保持属性排序的小数据集上搜索量化策略，使得获得的量化策略可以推广到大规模数据集上实现最优的精度-复杂度权衡，同时显著降低搜索成本.大量的实验描绘了GMPQ的优越性相比，国家的最先进的方法。确认这项工作部分得到了中国国家重点研究发展计划2017YFA0700802的支持，部分得到了中国国家自然科学基金61822603、U1813218和U1713214的支持，部分得到了北京人工智能研究院（BAAI）的资助，部分得到了北京市人工智能研究所（INSTIT）的资助。清华大学郭强教授。5300引用[1] Joseph Bethge ， Christian Bartz ， Haojin Yang ， YingChen，and Christoph Meinel. Meliusnet：二进制神经网络能达到移动网络级别的准确性吗？arXiv预印本arXiv：2001.05936，2020。[2] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101-用随机森林挖掘判别成分。在ECCV，第446-461页[3] 赵伟蔡和努诺·瓦斯康塞洛斯。重新思考混合精度神经网络的可微分搜索在CVPR中，第2349-2358页[4] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络：训练深度神经网络，权重和激活- s约束为+1或-1。arXiv预印本arXiv：1602.02830，2016。[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页[6] 邓建康，郭佳，薛念南，Stefanos Zafeiri- ou.Arcface：用于深度人脸识别的附加角度余量损失。在CVPR中，第4690-4699页[7] Emily Denton、Wojciech Zaremba、Joan Bruna、YannLeCun和Rob Fergus。利用卷积网络中的线性结构进行有效评估。arXiv预印本arX-iv：1404.0736，2014。[8] Zhen Dong ， Zhewei Yao ， Yaohui Cai ， DaiyaanArfeen，Amir Gholami，Michael W Mahoney，and KurtKeutzer.Hawq-v2：神经网络的Hessian感知迹加权量化arXiv预印本arXiv：1911.03852，2019。[9] 董震，姚哲伟，阿米尔·戈拉米，迈克尔·W·马-哈尼，库尔特 · 库兹尔 .Hawq ： Hessian aware quantization ofneural networks with mixed-precision.在ICCV，第293-302页[10] Dumitru Erhan 、 Yoshua Bengio 、 Aaron Courville 和Pascal Vincent。可视化深度网络的高层功能蒙特利尔大学，1341（3）：1，2009。[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，88（2）：303[12] Ruihao Gong ， Xianglong Liu ， Shenghu Jiang ，Tianxiang Li，Peng Hu，Jiazhen Lin，Fengwei Yu，andJunjie Yan.可区分的软量化：桥接全精度和低位神经网络。在ICCV，第4852-4861页[13] Hai Victor Habi ， Roy H Jennings ， and Arnon Netzer.Hmq：用于c-nns的硬件友好的混合精度量化块。arXiv预印本arXiv：2007.09952，2020。[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在ICCV，第2961-2969页[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[16] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。在ICCV，第1389-1397页5301[17] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[18] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，and K-ilian Q Weinberger. 密集连接的卷积网络。在CVPR中，第4700-4708页[19] Itay Hubara、Matthieu Courbariaux 、Daniel Soudry、Ran El-Yaniv和Yoshua Bengio。二值化神经网络在NIPS，第4114-4122页[20] ForrestNIandola 、 SongHan 、 MatthewWMoskewicz 、 Khalid Ashraf 、 William J Dally 和 KurtKeutzer。Squeezenet：Alexnet级精度，参数减少50倍， …0.5 mb 模型大小。 arXiv 预印本 arX-iv ：1602.07360，2016。[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[22] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。ICCVW，第554-561页[23] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[24] Rundong Li，Yan Wang，Feng Liang，Hongwei Qin，Junjie

下载后可阅读完整内容，剩余1页未读，立即下载