全精度辅助模块解决低精度网络训练的挑战

199 浏览量更新于2023-10-25 收藏 654KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1488用全精度辅助模块庄博涵1刘凌桥1谭明奎2沈春华1李安11阿德莱德大学2华南理工摘要在本文中，我们试图解决训练低精度网络的挑战：由于不可微的量化函数，在通过低精度网络传播梯度时存在着众所周知的困难。我们提出了一种解决方案，通过训练低精度网络与全精度辅助模块。具体来说，在训练过程中，我们通过用全精度辅助模块增强原始低精度网络来构建混合精度网络。然后对增广混合精度网络和低精度网络进行联合优化。该策略创建了额外的全精度路径来更新低精度模型的参数，从而使梯度反向传播更容易。在推理时，我们丢弃辅助模块，而不引入任何计算复杂度的低精度网络。我们评估了所提出的方法对图像分类和对象检测在各种量化方法，并表现出一致的性能提高。特别是，我们实现了接近无损的性能，通过使用4位检测器的全精度模型，这是很大的实用价值。1. 介绍深度神经网络（DNN）在许多计算机视觉任务中取得了长足的进步，例如图像分类[11，20]，分割[8，10]和检测[37，40]。即使深度和/或广度模型可以实现promis- ing准确性，其巨大的计算复杂性使它们与通常具有有限的存储器带宽和计算能力的能量受限设备不兼容。这促使社区设计节能模型，通常基于量化精度，旨在不牺牲相对于全精度模型的准确性。在本文中，我们提出了改进低精度网络的训练。量化的核心挑战是离散量化器的不可微性。因此，我们不能直接优化离散化网络，* 通讯作者，电子邮件：春花。shen @ adelaide。edu. au随机梯度下降目前的解决方案可以分为两类。第一类是采用梯度替代。最常用的方法是直通估计（STE）[2]。最近的一些工作已经提出将离散量化器放松为连续的，以用于基于梯度的优化[1，31]。即使在训练期间离散化操作的不连续性可以通过适当地平滑它来部分地解决，但是由于近似，一些重要信息仍然可能丢失，这可能导致不期望的准确度下降。第二类是从全精度模型中寻求指导，用于区分网络训练。例如，新的训练策略，如知识蒸馏[32，56，57]，已经被提出来通过从全精度教师网络中提取知识来学习低精度学生网络我们的方法属于第二类，我们的方法是基于混合精度（部分全精度）模型和低精度模型之间共享参数的想法。具体来说，我们的方法构建了一个全精度辅助模块，它连接到低精度模型的多个层（见图11）。1）。在训练过程中，将低精度网络与全精度辅助模块相结合，形成一个增广的混合精度网络。然后，混合精度网络和低精度模型进行联合优化。由于低精度模型的参数是共享的，因此它们可以从全精度连接和低精度连接接收梯度。因此，低精度模型的参数可以通过两条路径更新，这可以克服由于量化器的不连续性而导致的梯度传播困难。请注意，只有低精度网络将用于推理，因此在测试阶段不会引入额外的复杂性除了图像分类，我们进一步扩展了所提出的方法，以建立量化的网络进行对象检测。构建用于对象检测的低精度网络更具挑战性，因为检测需要网络输出更丰富的信息，例如边界框的位置。在文献中已经有几项工作来解决量化对象检测器[16，22，48]。怎么-1489然而，与它们的全精度对应物相比，4位或更低精度的量化检测器仍然存在显著的性能下降我们应用我们的技术来训练4位RetinaNet [25]检测器，并进一步提出对RetinaNet的修改，以更好地适应量化设计。通过在COCO基准上的大量实验，我们证明了我们的4位模型可以达到接近无损的性能，与全精度模型相比，这在实践中具有重要的价值。我们的贡献可归纳如下：• 我们提出了一种新的训练方法来解决低精度网络中量化算子的不可微性。我们的方法可以带来更多准确的低精度模型，而不增加模型的复杂性在测试阶段。• 我们应用我们的学习方法，并提出了一个新的设计修改，以建立一个4位量化的对象设计，它实现了与其全精度对应物相当的性能。1.1. 相关工作网络量化量化网络表示权重和激活的精度非常低，因此与浮点模型相比，DNN模型非常紧凑。此外，卷积运算可以通过逐位运算有效地计算量化可以分为定点量化和二进制神经网络，其中定点量化又可以分为均匀量化和非均匀量化。均匀方法[17，54，57]设计具有恒定量化步长的量化器。为了减少量化误差，非均匀策略[4，52]提出通过联合优化参数和量化器来学习量化间隔。量化的一个基本问题是近似不可微量化器的梯度为了解决这个问题，一些工作已经研究了松弛量子化[1，31，47，57]。此外，随着自动机器学习的普及，最近的一些文献采用强化学习来搜索每层的最佳位宽[6，46，49]。BNN [14，36]将权重和激活都约束为二进制值（即，+1或-1），这给专业化的硬-硬件设备。BNN的发展可以分为以下几类：分为两类：（i）专注于改进BNN的训练[13，30，36，45];（ii）多个二进制化以近似全精度张量或结构[9，23，27，28，45，58]。在本文中，我们提出了一个通用的辅助学习方法，可以工作在所有类别的量化方法。体重分担。权值共享是一种高效而又精确的计算方法.在视觉识别中，Faster-RCNN [40]和Mask-RCNN [10]中的区域建议网络（RPN）具有相同的具有特定任务网络的骨干网，大大节省了测试时间。对于神经架构搜索，ENAS [35]允许在搜索空间中的所有架构之间共享参数，这节省了几个数量级的GPU时间。在网络压缩领域，权值/激活量化是将权值/激活分布划分为簇，并以簇的中心作为可能的离散值。这种策略可以被解释为权重共享的特殊情况。与这些方法不同的是，我们提出了利用权值共享对全精度辅助模块和原始低精度网络进行联合优化，以提高后者量化模型的精度。辅助监督。添加辅助监督的一种直接方法是在中间层中引入额外的损失，这有助于在提供正则化的同时解决消失梯度问题附加损失的有效性已在一些文献中得到证明，如GoogLeNet [43]、 DSN [21]、语义分割[33，53]等。然而，这些方法通常对引导信号的位置和尺度知识蒸馏（KD）最初被提出用于模型压缩，其中强大的宽/深教师将知识蒸馏给窄/浅学生以提高其能力[12，41]，这也可以被视为添加辅助监督。就从教师中提取的知识的定义而言值得注意的是，我们提出的辅助学习策略使用权重共享来辅助优化，其中动机与KD方法非常不同。我们不需要预先训练教师网络，这通常是更深的，可能是性能的上限。此外，在网络量化方面，我们在SEC中表现出一致的优于KD方法的性能。4.1.目标检测。物体检测可以分为两类。作为主要的检测框架之一，两阶段检测方法[7，8，40]首先生成区域建议，然后通过后续网络对其进行细化。另一个主要类别是以YOLO [37目标是通过直接分类和回归预定义的锚点而无需建议生成步骤来提高检测效率。目标检测的最新发展趋势是为移动应用设计轻量级框架[5，44，48]，这通常需要实时，低功耗和完全嵌入式。在本文中，我们将从量子化的角度对检测器进行压缩和加速。请注意，我们是第一个在文献中实现近无损4位检测器1490p=1p=1F⨁块⨁块⨁分类器块F分块分级器HOp101适配器g#2美元⨁pReLUg#$&Op适配器⨁中文（简体）ReLUg编号Op101适配器⨁pReLUg#“&分类器洛(a)：培训阶段概述。(b)：测试阶段概述图1：拟议框架概览蓝色表示低精度运算，粉色表示全精度运算。在训练期间，全精度H连接到量化的F以形成混合精度网络FH。然后混合精度网络和低精度F通过权值共享进行联合优化。值得注意的是，在测试期间仅使用学习的量化网络F2. 方法在本节中，我们将描述用于训练低精度网络的拟议学习策略。我们首先概述了第二节中提出的方法。2.1.然后介绍了辅助模块的设计。2.2节中的优化2.3分别。之后，我们将在SEC中进行讨论。2.4节中解释如何将其扩展到量化对象检测。3 .第三章。通过下面的部分，我们采用了以下术语：层是网络中的标准参数化层，例如密集层或卷积层。块是层的集合，其中其最后一层的输出连接到下一块的输入（例如，残余块）。2.1. 概述和动机框架概述如图所示。1.一、蓝色部分表示为F，显示了我们要学习的低精度网络。粉红色的部分表示为H，是一个全精度子网络，我们称之为辅助模块。它连接到F的中间输出。输入图像被馈送到F中，但产生两个输出，一个来自F中的最后一层，另一个来自H中的最后一层。换句话说，F和H的组合形成aug-这种增广的混合精度网络F_（？）H共享低精度网络网络在训练时，两个损失函数应用于两个输出，混合精度网络和低精度网络联合训练。在训练之后，辅助模块H将被丢弃，并且在测试时间仅使用F这种设计的动机是创建全精度路由以更新低精度模型的参数，从而减轻在量化模型中传播梯度的困难。具体来说，中间输出F中的每个块都可以通过H中的全精度连接直接影响混合精度网络F<$H的输出。因此，来自第二输出的损失的梯度将反向传播到低精度模型中的每个块的参数。2.2. 模块设计我们现在详细说明辅助模块H的设计，它由一系列适配器和集成器组成，如图1所示。第1（a）段。具体地，辅助模块H接收P个输出特征图{Op}P的F中的相应块。令{B1，.，B P}是块索引，我们在那里生成特征图。对于H的第p个输入，我们采用一个可训练的适配器φp（·），它从F中接收第B个块的输出特征图Op，并输出一个自适应的特征表示φp（Op）.使用适配器的动机是补偿失真，低精度模型与全精度模型之间的差异。它确保了量化的激活{Op}P与H中的全精度计算兼容。我们通过一个简单的1×1卷积层和一个批处理规范化层来实现这些适配器，本文在辅助模块H中，适配器的输出随后被顺序地聚集。形式上，设gp表示第p个聚合特征。它是通过添加适应的F的特征φp（Op）和H的第（p−1）个聚合特征，然后是ReLU（·）非线性：gp=ReLU （ φp （ Op ） +gp−1 ）。（1）在H中的最后一层，分类器层被应用于gP来做班级预测。然后使用辅助损失。请注意，辅助模块H类似于ResNet [11]中的跳过连接。1491i=1˜M5，，=Σ˜N算法一：联合训练方法w.r.t.主低精度网络F和全精度辅助模H输入：当前小批量{xi，yi};低精度网络F的参数θF;全精度辅助模块H的参数θH。输出：更新参数{θF，θH}。1获得量化权重QF=q（θF），其中q（·）是量化函数;2yF，yH= Forward（xi，QF，θH）;(a) ：(b) ：1 2L1L-23计算主网络的损耗L（yi，yF）F;4计算辅助模块H的损失Laux（yi，yH）;L奥瑟勒QF图2：两种相关方法的概述。(a)：向中间层添加额外的分类损失（b）：知识蒸馏。在网络量化中，粉红色的教师网络是全精度的，而蓝色的学生网络是低精度的。Backward（θL，θLaux，QF，θH）;伊·法伊·H6 计算梯度，特别QF=1（中间激活。低精度学习中辅助全精度路径的另一种生成方法2QFQF7 使用Adam更新参数;2.3. 优化网络将分类损失应用于中间交流，激励图2（a）中示出了该思想的示意图在这种情况下，最终的培训目标变为：设{xi，yi}N为训练样本。拟议方法联合优化主网络F和混合网络F，精确网络是F和H的组合，Lobj=L+i=1αii，（3）表示为FH。培训目标是：minL（F（xi;θF），yi）{θF，θH}i=1+ Laux（（F<$H）（xi;θH，θF），yi），（二）其中L是原始低精度网络的分类损失，αi是应用于第i个中间输出的分类损失，αi是与第i个损失函数相关联的权重。该方案通过全精度分类器在训练过程中直接将梯度信息传递到每个块但是，它的监管非常重--其中θF和θH分别表示主干F和辅助模块HL是任务目标，Laux是辅助损失。在分类任务中，两个项都被设置为交叉熵损失。从等式（2），我们可以注意到θF在F和F<$H之间共享。根据链式法则，θF的梯度将具有另一个术语来自Laux。因此，混合精度网络和原始低精度网络的近似梯度被平均，以实现更准确的更新方向。换句话说，全精度模块H在反向传播期间使用权重共享为F我们在算法1中总结了量化神经网络的拟议学习过程。因为它基本上假设中间输出可以直接用于分类，所以它是严格的。在实践中，我们经常发现选择添加广告监督的位置或权重αi可能具有挑战性。这些因素的不适当设置可能导致比直接训练低精度模型所实现的性能更差的性能。与知识蒸馏的区别。已经探索了知识蒸馏（KD）来辅助量化模型训练[32，56，57]。特别是，低精度学生网络学习生成类似的后验概率和/或全精度教师网络的特征表示（见图2）。第2段（b）分段）。培训目标可表述为2.4. 与其他方法的关系在本节中，我们将详细说明所提出的辅助学习与其他相关方法之间的关系。将辅助分类损失应用于Lobj=L1+L 2+βii，（4）i=1其中，Lv1和Lv2是针对学生和教师网络工作的任务特定的对象iv。第i次亏损代表第i次亏损。blockblock blockblock blockblock分类器分类器块分类器12 3块分类器分类器MΣ1492虽然所提出的方法和KD都使用全精度网络来指导低精度网络的训练，但KD和所提出的方法中施加这种指导的方式是显著不同的。具体地说，在KD中，从全精度模型到低精度模型的指导是蒸馏损失，而在我们的方法中，这是通过使低精度模型的参数与混合精度模型共享来实现的。与KD方法相比，本文方法有许多优点：（1）本文方法不需要全精度网络，只需要一个额外的存储辅助模块的存储器与KD算法相比，该算法具有更高的内存效率. (2)我们的方法只使用一个辅助损失，但可以创建引导信号的各个块的低精度模型。相比之下，KD需要多个蒸馏损失来实现这一点。因此，它通常涉及更多的超参数，即，每个损失项βi的权重。此外，我们的经验发现，所提出的学习策略执行形式始终优于KD学习量化的网络在秒。4.1.3节4.1.4.3. 目标检测的扩展现有的大多数方法评估低精度网络的分类任务。建立一个低精度的网络，更困难的目标检测任务仍然是一个挑战。为了填补这一空白，我们进一步扩展我们的方法来构建一个量化的对象检测器。在[24，25]中的工作之后，我们考虑由骨干，特征金字塔和预测头组成的对象检测框架。我们直接使用在ImageNet分类任务上预训练的量化网络来初始化检测骨干。我们采用统一量化方法QIL [17]来优化权重和激活，其中量化区间被显式参数化并与网络参数联合优化。我们为每个预测头添加一个单独的辅助模块，同时为主干共享一个模块。除了应用所提出的辅助模块和学习策略来帮助训练量化检测器之外，我们还提出了一种我们认为有益的修改。具体来说，与[22]在训练过程中冻结批量归一化（BN）统计以稳定优化不同，我们提出了一种替代策略，其中BN统计仍然保持更新：我们提出，除了用于分类和回归的最后层之外，预测头部的参数不在所有特征金字塔层之间共享。这与常见的全精度设置不同这种设计的动机是，由于在不同的金字塔层次的量化过程中，多尺度的语义信息不能有效地编码。对于全精度网络，使用共享头部足以表示丰富的语义信息，用于连续激活的分类和回归。但在低精度设置，激活的代表能力由于其离散值而高度退化。出于同样的原因，量化激活的批量统计因此，每个头应该学习独立的参数，以捕获相应的多尺度信息。备注：（1）所提出的修改不共享预测头，因此在低精度模型中使用更多参数。然而，我们应该注意到，不使用共享不会增加任何额外的计算复杂度。尽管参数的数量增加了，但与全精度模型相比，由于低比特存储，内存消耗仍然显着减少。(2)我们的经验发现，不共享头可能不会提高（但降低）在全精度设置的性能。因此，所提出的修改仅适用于低精度网络。请检查第二节的实验。4.2.3更多讨论4. 实验在本节中，我们评估了我们在第二节中提出的图像分类方法4.1节中的目标检测4.2分别。为了研究所提出的方法的有效性，我们定义了几种方法进行比较：Auxi：我们使用辅助模块优化网络。KD：我们采用[56，57]中的联合知识蒸馏来改进量化网络。额外损失：我们在中间层均匀地插入分类损失以辅助训练。请注意，我们将在特定章节中详细介绍设置。4.1. 图像分类我们在两个标准图像分类数据集上进行实验：CIFAR-100 [19]和ImageNet [42]。CIFAR-100数据集由60，000张大小为32×32的彩色图像组成，属于100个类别。有50，000个训练图像和10，000个测试图像。ImageNet包含约1.21,000个对象类别的100万个训练和50 K验证图像。为了验证所提出的辅助学习策略的有效性，我们对各种代表性的量化方法进行了实验，包括均匀固定点方法DoReFa-Net [54]，非均匀固定点方法LQ-Net [52]以及二进制神经网络方法 BiReal-Net [30] 和 Group-Net[58]。4.1.1实现细节遵循之前的方法[14，52，54，55，57]，我们将所有卷积层量化为超低精度，但第一层和最后一层除外。但是，为了进一步提高效率，我们将第一个卷积层和最后一个全连接层都设置为8位。我们首先将全精度对应部分作为初始化进行预训练，然后进行微调-1493807060504030205 101520 25 30 35支持学习的辅助梯度可以促进低精度模型的收敛。特别地，从辅助模块和原始低精度网络两者平均共享权重的梯度，以实现更准确的更新方向。此外，增加梯度路径对于解决离散量化过程的不可微性是重要的，已经由[3，30]证明。为了更清楚，我们在图中绘制了DoReFa-Net与ResNet-50的收敛曲线。3 .第三章。从图中，我们可以观察到基线+Auxi比基线收敛得更快更好后历元图3：2位DoReFa-Net ResNet- 50基线的收敛曲线和微调期间Ima-geNet验证集上提出的辅助学习方法调整量化模型。对于所有ImageNet实验，训练图像的大小调整为256×256，并从图像或其水平翻转中随机裁剪224×224个补丁，并减去每像素的平均值。公司现采用国际单作物设置进行测试。未使用偏倚术语。我们使用SGD优化器进行预训练阶段。对于微调阶段，我们采用Adam优化器[18]。最小批处理大小设置为256。我们最多训练35个epoch，并在第25和第30个epoch将学习率衰减10。为了微调定点方法[52，54]，学习率被初始化为1 e-3。对于微调二进制神经网络[30，58]，初始学习率设置为5e-4。在实践中，我们将每个残差块的输出[11]作为辅助模块的输入。我们的实现基于PyTorch。4.1.2辅助模块的作用表1：ImageNet验证集上不同比较方法的准确度（%）。模型方法Top-1 acc.前5名ResNet-101DoReFa-Net（2-bit）70.889.6DoReFa-Net +辅助74.691.9ResNet-50DoReFa-Net（2-bit）70.289.1DoReFa-Net +辅助73.891.4ResNet-50LQ-Net（3-bit）74.291.6LQ-Net +辅助75.492.4ResNet-18BiReal-Net56.479.5BiReal-Net +辅助58.681.2ResNet-18Group-Net（5个基地）64.885.7Group-Net +辅助66.086.5在本节中，我们将探讨辅助模块在辅助低精度网络优化方面的作用结果报告于表1中。通过结合基线和辅助，我们可以观察到一个稳定的性能增长相比，原来的基线。这强烈第一个时期，基线+辅助优于基线在Top-1精度上提高了20%。这一结果强有力地证明了辅助模块通过提供精确的分层结构有效地解决了不可微问题在反向传播期间用于更新参数的梯度。值得注意的是，当网络变得更深时（例如，ResNet-50，101），改进结果是更明显。例如，Auxi在ResNet-101上的2位基线上带来了3.8%的Top-1准确性提高它可以归因于当量化网络越深入时，由于不可微的离散化过程，优化变得越困难。而全精度辅助模块可以提供直接的层次梯度，有效解决这一问题。请注意，使用基本的均匀DoReFa-Net基线，我们目前在ResNet-50和ResNet-101 [17，31，52]上实现了与最新技术的比较结果，而没有先进的非均匀或松弛策略。4.1.3与其他相关方法的在本节中，我们将辅助模块与第2节中讨论的相关方法进行比较。 2.4 并在表 2 中报告性能。实验基于ImageNet上的2位DoReFa-Net，ResNet-18，ResNet-34和ResNet-50。对于KD实验，结果直接引自[56]。我们可以观察到，在中间层中引入与KD相比，我们不需要预先训练一个复杂的教师网络，其质量对最终性能敏感。相比之下，我们提出了一种更简单但有效的权重共享策略，以联合优化低精度网络和浮点辅助模块。关于两种方法之间差异的更详细分析，请参阅第1.2节。 2.4. 从结果中，我们可以观察到，Auxiconsiderability优于KD。例如，在ResNet-50上，Auxi在Top-1精度上超过KD2.4%这些结果表明，辅助模块可以有效地解决低精度网络训练中反向传播过程中的不可微问题。Auxi采用非常不同的学习策略，始终显示出优于KD的经验结果。因此，我们认为，建议auxil-全精度2位基线2-位基线+辅助误差%1494模型方法基线（2位）ResNet-18基线+1 ×1辅助基线+3×3辅助Top-1 acc.前5名64.7 86.066.7 87.066.9 87.1在网络量化中，线性学习可以替代KD方法[32，57表 2 ：基于 ResNet- 18 ， ResNet-34 和 ResNet-50 上的 2 位DoReFa-Net的ImageNet验证集上不同监督策略的准确性（%）。模型方法Top-1 acc.前5名基线（2位）64.786.0ResNet-18基线+额外损失基线+KD64.965.686.186.3基线+辅助66.787.0基线（2位）68.288.1ResNet-34基线+额外损失基线+KD68.569.088.288.6基线+辅助71.289.8基线（2位）70.289.1ResNet-50基线+额外损失基线+KD70.571.489.390.0基线+辅助73.891.44.1.4纯网络实验表3：在ImageNet验证集上提出的方法的准确度（%）。所有的情况都是2位的，除了基线之外没有跳过连接。我们可以观察到，辅助模块可以显着提高平面网络的性能。模型方法Top-1 acc.前5名基线（2位）64.786.0ResNet-18上的DoReFa-Net平原普通+KD61.562.784.385.0普通+辅助63.985.5基线（2位）68.288.1ResNet-34上的DoReFa-Net平原普通+KD62.164.583.985.4普通+辅助66.486.8基线（2位）69.889.1ResNet-34上的LQ-Net平原普通+KD63.565.784.686.8普通+辅助68.688.5表4：在CIFAR-100数据集上使用ResNet-18的2位DoReFa-Net的准确度（%）。模型方法Top-1 acc.前5名ResNet-18全精度70.7 91.3基线（2位）plainplain + Auxi67.690.264.6 88.367.990.0我们进一步探讨了一个有趣的副产品的辅助模块网络量化。我们假设辅助模块模仿跳跃连接的效果，并且可以部分地分享它的效果。因此，我们分析训练一个没有跳过连接的普通低精度网络。结果可参见表3和表4。简单表示我们直接优化低精度简单网络而不跳过连接。通过比较平原和平原+Auxi，我们观察到明显的准确性增加，通过重复Auxi。例如，在基于LQ-Net ResNet-34的实验中，引入Auxi可以将Top-1准确度提高5。百分之一。在微小的CIFAR-100数据集上，plain + Auxi甚至超过了Top-1基线。此外，与Sec. 4.1.3，Auxi的表现始终优于KD。从普通网络设置，我们可以有力地证明，辅助模块可以提供分层梯度，以促进量化网络的收敛。然而，我们仍然观察到plain + Auxi与大规模ImageNet上的基线这可以归因于跳跃连接的两个假设。首先，跳过连接可以改善训练的收敛性，如使用Auxi时观察到的改善所指示的。其次，通过张量加法将跳过连接和一次卷积后的特征图相加。然后是代表性能力（即，值范围）被显著地增强。换句话说，普通网络具有较少的代表性，比其剩余的对应物的感觉能力。4.1.5不同辅助架构的影响我们在表5中进一步探讨了不同辅助模块架构的影响。从表中，我们观察到增加辅助模块的复杂性可以进一步提高性能。例如，通过替换在具有3×3的较大内核的适配器中的1×1卷积，我们进一步获得了略微的性能增益。这可以归因于共享参数的梯度是从F和FH平均的，其中H的更好的表示能力可以导致更准确的梯度更新。表5：使用不同适配器的准确度（%）。我们使用ImageNet上的DoReFa-Net作为我们的基线。4.2. 量化目标检测实验在本节中，我们将在一般的对象检测任务上评估所提出的方法。我们的实验是在大规模检测基准COCO上进行的 [26] 。在 [24 ， 25] 之后，我们使用COCOtrainval35k分割（115K图像）进行训练，并使用minival分割（5K图像）进行验证。我们基于RetinaNet进行实验[25]与最新的《古兰经》[22]进行比较。4.2.1培训详情培训分为两个阶段。在第一阶段，检测框架保持全精度。用预先训练1495ImageNet 数据集上除非特别说明，我们使用与RetinaNet相同的具体地，调整所有训练和评估图像的大小，使得它们的较短边缘为800像素。我们通过随机水平翻转来增强训练图像，而不进行评估增强。我们的网络使用随机梯度下降（SGD）进行了90K次迭代训练，初始学习率为0.01，批量大小为16。学习率分别在迭代60K和80K时衰减10倍。在第二阶段中，我们使用第一阶段中的收敛模型作为初始化，并使用量化进行微调。这个阶段使用与全精度训练相同的设置，除了我们使用Adam优化器并且初始学习率设置为1 e-3。我们的实现基于Detectron 2 [50]。4.2.2绩效评价我们在表6中报告了所提出的量化检测框架的性能。从结果中可以看出，我们的4位检测器可以达到接近无损的结果比全精度的同行，这符合实际部署的要求。此外，我们可以实现显着的性能提升，在所有比较的架构上超过CNON。例如，在ResNet-50上，改进达到3。6在AP表6：具有4位量化的COCO验证集的性能。骨干方法APAP50AP75APSAPMAPLRetinaNet36.556.539.221.440.446.9ResNet-50[22]第二十二话32.551.534.717.335.642.6我们36.155.838.921.239.946.3RetinaNet35.254.337.619.538.546.2ResNet-34[22]第二十二话31.350.433.316.134.441.6我们34.753.736.919.338.045.9RetinaNet32.150.534.116.934.842.6ResNet-18[22]第二十二话28.646.929.914.931.238.7我们31.950.433.716.534.642.34.2.3消融研究我们现在进行消融研究，以提供量化检测框架的全面分析和见解结果报告于表7中。“仅主干”表示我们仅将主干扩展到4位，而其他部分保持全精度。“Baseline”represents we directly quantize the RetinaNet using QIL当我们只对骨干网络进行路由时，我们这证明了4比特骨干可以准确地编码特征，便于进一步的解码.然而，当量化包括特征金字塔和预测头在内的所有分量时，我们可以发现明显的精度下降。基线结果表明，将连续特征量化为固定范围的整数会导致大量的多尺度信息损失。现在我们来探讨一下第二节中所描述的两种策略的效果3 .第三章。首先，我们将建议的辅助表7：采用4位量化的COCO确认集的消融研究。方法APAP50AP75APSAPMAPLRetinaNet（w/sharing）32.150.534.116.934.842.6RetinaNet（不共享）31.249.232.915.834.341.5仅主干（带共享）32.150.734.016.734.742.7基线（有共享）29.247.131.014.431.538.5基线+辅助（w/共享）30.648.832.815.533.140.2基线+辅助（不共享）31.950.433.716.534.642.3学习策略，以协助收敛的量化检测器。具体来说，Baseline + Auxi可以将Baseline的AP提升1。4.第一章二是针对低精度探测器设计了不共用探头。我们应该注意到，这种策略在全精度设置下会降低性能.原因是单独的头部只能看到一定范围大小的物体。相比之下，不共享头部可以将AP提高1。3在量化设置上与共享头对应物相比。这可以归因于当将权重和激活都量化为4位时，每个头部的表示能力非常有限，并且激活的统计数据差异很大。因此，每个头需要学习独立的参数，以转换相应的级别特征进行分类和回归。5. 结论本文提出了一种辅助学习策略来解决低位卷积神经网络训练中不可微量化的问题。具体来说，我们已经明确地利用权重共享来构建全精度辅助模块。在训练过程中，辅助模块与低精度网络相结合，形成混合精度网络，与低精度模型共同优化。通过这种方式，全精度辅助模块可以在反向传播期间提供直接的分层梯度，以辅助低精度网络的优化。在测试阶段，辅助模块被删除，而不引入任何额外的计算复杂性。此外，我们还对量化目标检测进行了研究，并提出了几种实用的解决方案。我们已经进行了广泛的实验，各种量化方法的基础上，观察到一致的图像分类和目标检测性能的提高需要强调的是，我们使用4位检测器实现了接近无损的结果。致谢 MT 部分获得广东省科学技术基金资助2018B010107001。CS部分得到ARC DP项目“可扩展的深度学习”的支持。IR部分由ARC Laureate FellowshipFL130100102支持我们感谢澳大利亚研究委员会通过机器人视觉卓越中心提供的支持。1496引用[1] Yu Bai，Yu-Xiang Wang，and Edo Liberty.Proxquant：通过邻近算子量化的神经网络在proc Int.会议学习。Repren. ，2019年。一、二[2] YoshuaBengio，NicholasLe'onard，andAaronCourville. 通过随机神经元估计或传播梯度以进行条件计算。arXiv预印本arXiv：1308.3432，2013。1[3] Joseph Bethge，Marvin Bornstein，Adrian Loy，HaojinYang，and Christoph Meinel.从头开始训练竞争性二元神经网络。arXiv预印本arXiv：1812.01965，2018。6[4] 蔡兆伟，何晓东，孙健，努诺. 通过半波高斯量化进行低精度深度学习在proc IEEE会议Comp. 目视帕特识别，第5918-5926页，2017。2[5] 陈国斌，崔元根，项羽，韩东，和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。在proc Adv. 神经信息过程系统，第742-751页，2017年。2[6] Yukang Chen ，Gaofeng Meng，Qian Zhang，XinbangZhang，Liangchen Song，Shiming Xiang，and ChunhongPan.联合神经结构搜索和量化。arXiv预印本arXiv：1811.09426，2018。2[7] 罗斯·格希克。快速R-CNN。正在进行IEEE国际Conf.Comp.目视第1440-1448页，2015年。2[8] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。正在进行IEEE会议Comp. 目视帕特识别第580-587页，2014年。一、二[9] Yiwen Guo，Anbang Yao，Hao Zhao，and Yurong Chen.网络素描：利用深cnn中的二元结构。正在进行IEEE会议对比可见光帕特识别，第5955- 5963页，2017年。2[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。正在进行IEEE国际配置文件目视，第2980-2988页，2017年。一、二[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE Conf.Comp.目视帕特识别，第770-778页，2016年。一、三、六[12] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识在proc Adv. 神经信息过程系统研讨会，2014年。2[13] Lu Hou，Quanming Yao，and James T Kwok.深度网络的损失感知二值化在proc Int. Conf. 学习.Repren. ，2017年。2[14] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二值化神经网络在Proc. Adv.Neural Inf.过程系统，第4107-4115页，2016年。二、五[15] Seung Hyun Lee，Dae Ha Kim，and Byung Cheol Song.基于奇异值分解的自监督知识提取。欧洲药典配置文件可见，2018年。2[16] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu、Matthew Tang、Andrew Howard、Hartwig Adam和Dmitry1497卡列尼琴科神经网络的量化和训练，有效的整数算术推理。在proc IEEE Conf. Comp.目视帕特识别第2704-2713页，2018年。1[17] Sangil Jung、Changyong Son、Seohyung Lee、JinwooSon、Jae-Joon Han、Youngjun Kwak、Sung Ju Hwang和Changkyu Choi。学习通过优化量化间隔与任务损失来量化深度网络。在proc IEEEConf. Comp.目视帕特识别，第4350-4359页，2019年。二五六八[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Proc. Int. Conf.学习. Repren. ，2015年。6[19] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。2009. 5[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在proc Adv. 神经信息过程系统第1097- 1105页1[21] Chen-Yu Lee ， Saining Xie ， Patrick Gallagher ，Zhengyou Zhang，and Zhuowen Tu.深度监督网络。人工智能和统计，第562-570页，2015年。2[22] Rundong Li，Yan Wang，Feng Liang，Hongwei Qin，Junjie Yan，and Rui Fan.完全量化的目标

下载后可阅读完整内容，剩余1页未读，立即下载