运行时位宽选择的混合精度网络：Bit-Mixer

23 浏览量更新于2023-10-14 收藏 707KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5188×个Bit-Mixer：具有运行时位宽选择的混合精度网络Adrian Bulat三星AI剑桥adrian@adrianbulat.comGeorgios Tzimiropoulos三星AI剑桥伦敦玛丽女王大学g.tzimiropoulos@qmul.ac.uk摘要混合精度网络允许对网络中的每一层进行可变位宽量化。现有工作的一个主要限制是每个层的位宽必须在训练时间期间预定义。如果部署网络的设备的特性在运行时发生变化，这将提供很小的灵活性。在这项工作中，我们提出了Bit-Mixer，这是第一种训练元量化网络的方法，在测试期间，任何层都可以改变其位宽，而不会影响整个网络为此，我们做出了2个关键贡献：（a）过渡批规范，以及（b）一个3阶段优化过程，该过程可以训练这样的网络。我们表明，我们的方法可以产生混合精度网络，表现出理想的灵活性属性的设备上部署，而不影响准确性。将提供代码。1. 介绍尽管深度神经网络具有前所未有的准确性，但在计算资源有限和/或功率受限的设备上直接部署深度神经网络仍然令人望而却步。为了解决这个问题，出现了一系列相关的研究方向，例如网络prun- ing [29，35，25]，网络压缩[24，40，27]，神经架构搜索[28，6]和网络量化。后者提供了最直接的改进，因为使用更少的位用于权重和激活显著降低了计算和存储要求。例如，从FP 32切换到Int-8精度，在速度和存储方面获得了4的改进，而没有任何额外的功能。本文是混合精度网络，允许一个可变的位宽量化的网络中的每一层。混合位精度网络允许在层级别上更精细的量化粒度，并且因此在找到效率（即，最小化）和最大化之间速度）和内存要求-和网络准确性。虽然这比在整个网络上具有相同的位宽更灵活，但混合位精度方法也具有其自身的限制。首先，由于开发者需要支持的不同硬件平台的数量不断增加，每个硬件平台具有其自身的独特特性和能力，因此利用混合位精度部分或完全量化网络以便获得准确度和速度之间的最佳权衡其次，更重要的是，即使在同一设备上，由于其他并发进程的运行、电池电量、温度或简单的优先级，可用资源也会有所不同。理想地，网络应该能够动态地对这些变化做出反应，并且在运行中调整其每层或模块的量化水平，而不会招致不期望的，或者甚至更重要的是，对推理准确性的不可预测的惩罚我们在本文中提出的方法，创造比特混合器，试图提供一个答案，上述挑战的lenges。Bit-Mixer将焦点从寻找最佳位转移到训练过程中的每层分配，就像以前所有的工作一样。相反，我们建议训练一个元量化网络，在测试期间可以切换到网络中任何层的任何量化级别。然而，由于独特组合的指数数量、跨不同位宽的权重共享约束以及当位宽改变时发生的表示能力的剧烈变化（例如，当位宽改变时），训练这样的元网络是不平凡的。4位对1位）。为此，我们作出以下贡献：1. 过渡批次标准：为了适当地补偿当两个连续层之间发生位宽变化时出现的分布偏移，对于不同位宽之间的每个过渡，我们建议学习一个单独的批归一化层，称为过渡批规范。2. 3-阶段优化：我们首先提出了一个有效的2阶段过程来训练中间元网络，该中间元网络在运行时可以选择不同的位宽，但是这些位宽在整个网络中共享。然后，引入第三最终级以逐渐过渡5189I1I2InO1O2On......--W1W1WlWlWL WL(a) 独立：每个位宽都需要训练具有独立权重的新网络。(b) Adabit：单个网络可以在运行时被量化为η个位宽中的任何一个。网络内部的所有层共享相同的位宽。(c) 建议的方法（Bit-Mixer）：单个网络，其各个层可以在运行时量化为任何位宽，而无需任何重新训练。图1：先前的网络量化范式（a，b）和我们的（c）之间的比较。我们的方法是唯一一个导致指数数量的混合精度网络，人们可以选择适合的设备特性和计算资源可用的飞行。从中间元网络到最终元网络，其中量化级别可以在块或层级别上随机选择。值得注意的是，我们的元网络使用一组共享的权重。3. 我们进行了几项消融研究，揭示了我们的方法的几个组件的行为。此外，基于[11]的发现，我们分析了Bit-Mixer最后，我们extensively评估了建议的比特混合器在不同的架构和模型大小的准确性。2. 相关工作网络量化旨在通过使用更少的比特（即，更少的比特）来减轻现代深度神经网络的高计算和存储成本。b32）的权重和激活。大多数早期的作品只量化了权重[15，8]。后续工作量化权重和激活两者，同时使用统一量化方案在整个网络上保持相同的位宽[19，20，47，33，37，2，48，50，13，3]。最近，越来越多的工作探索混合精度量化，其使得在相同的体系结构内，不同的层能够使用不同的位宽[12，39，42]。位宽分配过程通常使用强化学习技术[12，42]或差分搜索[44，39]来执行。与Bit-Mixer（我们的工作）相反，所有上述方法都会导致sin-每个层具有不同但预定义的比特宽度的角网络，在没有重新训练的情况下不能被修改。与我们的工作相关的是与神经结构搜索有关的研究路线（例如[6，38，28]），特别是[46，45，4]的作品，其中作者训练了一个超网络，可以从该超网络中采样具有不同深度，宽度和内核大小的子网而无需重新训练。这些工作完全没有考虑网络量化问题。与我们的工作更密切相关的是AdaBits [21]，其中作者建议训练一个具有共享权重集的单个神经网络，该神经网络可以在运行时切换位宽。然而，AdaBits的一个主要限制是它不是一个混合精度网络：它在整个网络上使用相同的比特宽度，这降低了它在实际情况中的灵活性。此外，从方法论的角度来看，我们的工作中提出的过渡批规范以及3阶段优化程序与[21]中描述的方法有3. 方法3.1. 统一1对于给定的层l，我们将权重W和输入激活A的量化表示为quant（W，b）=W〜b和quant（A，b）=A〜b，关于值，其中b=1、2、. . . ，n表示位宽。对于量化函数，我们选择采用和调整最近提出的LSQ [13]，如下所示：为了处理这两种情况B=1（即，二进制网络）和1b≤n，1（一）（二）如果1我n是层l的比特带1和1Jn是层1的比特，我们学习BN参数γ ij和β ij。参数γ ij和βij保持与层1的位宽j相关联，因为它们单独取决于当前量化水平，而与层的权重无关，与激活相反，层的权重不经历转变。我们注意到，引入过渡批次规范层不会引起对所述方法的复杂性的任何增加。q签署，如果b=1，网络;仅引入了网络大小的小幅增加（不到总参数计数的1%重要的是，其中. 是地板舍入算子，αR代表表示定义量化步长的可学习标量，如LSQ [13]中所示。对于每个层和位宽，学习两个这样的标量，一个用于权重，另一个用于激活。请注意，我们用floor替换了LSQ [13]中使用的round函数。这使我们能够获得直接从W~i+1得到权重W~i，而不需要存储全精度权重，大大降低了模型存储要求（因为其大小仅由W~n的大小确定）。混合精度网络的各种量化方案之间的差异二、3.2. 过渡性批次标准将各个层和块量化为不同的位宽将导致遵循不同分布的特征。这是因为两个原因：第一，它是表征的内在变化的结果这是因为在二进制网络中，权重和激活都使用符号函数进行量化，因此需要对称量化器。我们强调，没有过渡批范数，网络不能收敛到令人满意的精度水平。这种现象在从头开始训练和从预训练模型初始化时都存在（另见表1）。我们注意到，过渡BatchNorm的核心思想是补偿在两个连续层之间发生的分布偏移，即。每次转换（即，它取决于两层的状态：previous和current），而不是像以前的Conditional BatchNorm [ 9 ]中那样逐层工作。这明显不同于先前关于动态网络[45，43，46]和自适应量化[21]的工作，其中BatchNorm仅取决于输入。3.3. 优化过程我们的方法的一个关键的剩余方面是如何训练所提出的元网络，由于几个原因，这被证明是非常有挑战性的所有路径同时活动的直接朴素方法是不可行的，因为原始DoReFa量化方案AdaBits量化方案建议的量化方案2比特2比特1.03 比特4 比0.83 比特4 比0.50.600.40.50.21.00.01.00.50.00.20.40.6X0.80.00.20.40.6X0.80.0X0.51.01比特2比特3 比特4 比特yyy5191--≈432兰德----4存储器和计算限制。除此之外，我们考虑了对该训练的近似，其中所有活动路径都被认为是2个相邻层之间的。即使在这种情况下，我们也发现由于内部竞争的出现，模型在训练中不稳定，特别是在训练的早期计算上更可行的方法是在训练活动子路径或活动子路径的集合然而，我们通过实验发现，这会导致网络中所有位宽的精度紧密结合在一起，将它们拉向精度最低的网络，从而降低了带宽。从而具有训练所提出的元网络的优点。为了成功地训练新引入的量化元网络，我们首先提出了一种有效的方法来训练一个元网络，该元网络可以在运行时以不同的位宽工作，但是这些位宽在整个网络中共享（下面的阶段I和II）。然后，为了获得最终的Meta网络，我们提出通过从其中所有层被量化为相同位宽的网络逐渐过渡到其中在块或层级别随机选择量化级别的网络来渐进地训练先前的网络程序总结如下：阶段I：在该阶段期间，网络权重保持实值，而激活被量化为η个不同的位宽。在每次迭代中，我们以相等的概率从预定义的集合中随机选择一个位宽b1、. . .，n.在这个阶段，模型将使用相同的位宽度用于跨网络的所有层的激活。第二阶段：在这个阶段，我们使用训练好的网络。ageNet.我们主要报告以下2种情况下Bit-Mixer的准确性（注意，仅评估一个网络）：所有层上的固定位宽选择和每个单独层的随机位宽选择。对于后一种情况，我们简单地针对验证集的每次迭代（前向传递）随机化逐层位宽选择因此，跨多个游程的层的平均位宽为3。我们注意到，该随机逐层比特宽度选择已经被有意地选择用于比特混合器然而，在第4.2节中，我们确实提供了基于[11]的简单方法的准确结果，该方法用于在训练的元网络中发现高性能子网。4.1. 过渡性批规范在第3.2节中，我们引入了过渡批规范层来补偿被量化为不同比特宽度的相邻层之间的分布偏移。在这里，我们展示了它们在有效训练Bit-Mixer方面的重要性如表1所示，在没有过渡批次范数的情况下，元网络不能收敛到良好的解，尽管它是使用训练到阶段II的模型来初始化的。该效果还可以通过分析在图1中应用过渡批次范数层之前和之后的特征的统计来观察。3 .第三章。表 1 ：使用和不使用过渡 BN 训练的 Bit-Mixer 在ImageNet上的前1准确度（%）。阶段I作为初始化，并重复前一阶段的过程。这是第二阶段，不同之处在于这次权重和激活都被量化。同样，模型将使用相同的位宽，在每次迭代时随机选择，用于所有层的权重和激活比特混合器位宽不带过渡BN 8.2 5.6 10.2 8.8过渡性BN 69.2 68.6 64.4 65.8网络注意，Adabit [21]训练了一个类似于在该阶段结束时获得的一个。阶段III：通过从前一检查点恢复来继续训练过程，在该阶段期间，并且以概率σ，以与阶段II中所描述的相同的方式训练权重和特征（即在所有层上使用相同的位宽）。其余的时间，即以概率1σ，每个单独层的位宽b彼此独立地被随机选择，从而导致网络中不同的位宽被用于不同的层。随着训练的进行，我们逐渐降低σ，有效地增加了用逐层随机比特分配训练元网络的机会我们继续该过程直到1σ=k，其中k通常为3。所有3个阶段共享相同的训练调度器。4. 消融研究除非另有说明，否则我们通过使用Bit-Mixer在Im上训练元ResNet-18 [16]来进行消融4.2. Bit-Mixer子网分析比特混合器的训练元网络包含指数数量的子网。通过改变其各个层的位宽（在运行时，并且没有额外的训练），部署网络的设备或应用程序可以从准确性和速度之间的更好的权衡中受益。在本文中，我们描述了一种用于从给定特定avg的Meta网络中“提取”高性能子网的方法。位宽预算。我们注意到，不需要训练来找到这些子网。为了便于选择感兴趣的（根据每平均值的准确度测量的）比特宽度）候选，我们遵循[11]，并且对于每个层，我们计算Hessian2的顶部特征值。请注意，为此，我们使用了具有最高可能性的网络。2由于形成整个Hessian矩阵在计算上和存储器上是禁止的，因此我们使用幂迭代算法[31]。5192Σ∈×--CN×个我ER是更积极的量化的良好候选者，因为引入的误差不太可能被放大[18]。给定元网络Φ，如第3.3节中所述进行训练，并且αr得到平均比特宽度bavg=1Nbi，图3：在应用T转换之前和之后的量化激活A〜b，b=2、3、4上的其中N是层数，并且bi是第i层的所选位宽，我们尝试识别一组有希望的子网Φ〇，… 通过如下改变每层比特宽度而形成：令C位=Nb平均是期望子网的总比特成本，并且是通过采用高比特成本来构造的每层定义的成本向量估计每一层的Hessian矩阵的特征值。注意，取决于目标场景，可以调整成本以考虑特定于设备的知识。由于子网的集合{Φ0，…成本C的Φm}C是fi。常规批次标准请注意，图层有助于减少量化的激活的方差显著，从而稳定比特混合器元网络的训练。图4：从Bit-Mixer的meta-ResNet-18中提取的一组子网在ImageNet上的Top-1准确度（%）注意，精度随着平均值平滑地变化。位宽度改变。图5：具有const的网络的每一层的Hessian矩阵的顶部特征值。bit-width等于4。注意，位于网络末端的层通常对噪声更敏感。位宽（即，对于所有层等于4的恒定位宽）。在图1中可以看到针对网络的每层计算的顶部特征值五、较小的特征值对应于较平坦的损耗表面，这反过来又表明这种层-因此，一种直接的方法是使用贪婪方法来生成比特成本C比特的所有潜在候选。一旦生成，对于来自集合的每个配置，我们通过取乘积C total=[b0bl…bN]vT. 然后，我们可以选择前k个候选并评估它们的准确度。图4示出了用于各种avg的一些有希望的候选。位宽度以及它们相应的精度。可以观察到，即使通过使用像上述方法的简单方法，也可以获得覆盖avg的整个频谱的网络的在精度方面的不同位宽度。不同的运行将导致每个变体的准确度略有不同。一般来说，分配给网络上层的比特数越多，配置的性能越好。虽然图4描绘了一组有希望的候选者，但是一些配置可以被实现。将表现不佳，因此所有配置的平均值比表现最佳的配置低约3-4%4.3. 知识升华之前已经证明知识蒸馏可以提高全精度[17]和量化神经网络[34，32]的性能在此，我们分析并验证蒸馏在多大程度上有助于改善阶段II和III的比特混合器特别是，我们为教师解释了两种情况：（1）使用全精度网络（FP32），以及（2）使用阶段I之后的训练网络。我们注意到，在所有情况下，学生和教师网络具有完全相同的架构。如表2所示，蒸馏确实提高了准确度，尽管该提高低于对于独立量化或全精度模型通常4.4. 1在第3节中，我们介绍了一个统一的量化方案，可以用于所有位宽，包括1位量化（即1位量化）。二值化）。正如我们在表3中的结果所示，使用一个单一的、共享的权重集，我们可以使用所有4个权重集成功地将元网络训练到第二5193四三二一联系我们--我我W我表2：在ImageNet上针对使用和不使用蒸馏训练的Bit-Mixer的前1准确度（%）。表3：使用ResNet- 18进行4-3-2-1位量化的ImageNet上的前1准确度（%）。方法教师4位宽3 2兰德方法位宽独立的65.159.0Adabit [21] 69.2 68.565.1-我们的（第二阶段）65.6-我们的（第二期）68.7 68.064.257.3它周围，并导致在不同的分布（见图）。（六）。然而，我们确实成功地训练了一个具有以下配置bact=2，3，4的比特混合器模型对于激活，以及对于权重，分别为bw=1、3、4结果示于表4中。在这种情况下，我们将后者二进制化，而不是将2位用于激活和权重。由于我们的2位表示实际上是三进制表示，因此这种三进制-二进制量化也允许有效的逐位实现，这可以这将导致至少40×[41]更快的卷积。表4：使用ResNet- 18进行4-3-1.5位量化的ImageNet上的前1准确度（%）。参见第4节，了解rand的定义。*- 表示二进制-三进制量化。图6：量化后1、2、3和4位的权重分布。注意1位量化的分布的显著差异。方法位宽4 3 1.5* 兰特位宽（即，4、3、2和1）具有最小的精度损失3。这被执行以便将1比特量化与其余比特量化对齐。用于4-3-2-1量化的训练调度器与用于4-3-2的训练调度器相同。注意，尽管二进制化和4位量化之间的精度差距相对较大，但也可以从如图1所示的明显不同的权重分布中6，第二阶段后的训练模型总体上提供了良好的准确性。在第二阶段之后，我们继续训练上述模型以获得最终的第三阶段4-3-2-1比特混合器模型。然而，在这最后一个阶段，训练并没有收敛到预期的结果。我们认为，这是主要的原因是缺乏零状态的二元情况。具体地，虽然2-4位宽量化在它们之间共享较低状态，如图11中所示。4.5. 基于缩放在整个工作中，我们使用Eq. 1和2.图7示出了如何学习等式（1）中的可学习量化缩放因子α。2随着我们在网络中前进而改变它们的值。重要的是，αi和αj之间的比率近似等于mi/mj的比率，这表明所有位宽被粗略地缩放以占据整个范围。为了强调每位宽缩放因子的重要性，我们还测试了一种略有不同的方法。想法是具有可共享的量化权重（和激活），其通过首先将实值权重量化到最大位宽n（即，最大比特宽度n）来获得。mn和mn），然后剪裁它们以适合所需的位宽（即，-mi和mi）。对于权重，该想法描述为：图1c，对于1比特量化，这是不正确的。~（三）缺少第零状态，引入高量化误差3我们注意到，与最近大多数作品中使用的当前范式Wn=q对网络二值化即保持1×1下采样层为了完全精确[32]，在我们的实验中，我们也将它们W~ =α×clip（W~，-m，m），（4）一期+1-69.168.565.1-Ours–Stage一阶段69.468.765.6-FP3269.368.765.5--69.068.464.065.5Ours–Stage一阶段69.168.664.565.7Adabit [21]69.2 68.5-第二阶段69.0 68.7-我们的-第三69.0 68.5 62.162.95194----联系我们四三二联系我们--×个直观地，这具有以下效果：实值权重的最大（幅度）值被映射到仅存在于较高位宽中的状态/位相反，使用每位宽缩放因子，实值权重的整个范围被映射到对应于特定位宽（即，对应于特定位宽度）的整个范围。mi和mi）。当使用这种类型的量化进行训练时，我们发现所获得的网络的性能比基于尺度的量化差5-图7：量化为b=2，3，4的ResNet-18模型的每一层的激活和权重（虚线）的量化尺度。请注意，每个标度之间的比率近似等于其相应的最大可表示值的比率。4.6. 对称与非对称量化首先，我们注意到，在这项工作中，对称量化是指数据被映射到范围 2b-11，...， 2b-11，而与数据被映射到2b-1，...， 2b−1 1。在这两种情况下，我们都考虑0本身因为这允许更有效的实现。表达方式为了确保没有由于上述设计选择而发生的准确性损失，我们训练了三个模型：一个具有非对称量化，一个具有对称量化，最后一个具有对称量化，但使用方程中的舍入函数。2，而不是地板。如表5的结果所示，所有3种变体产生基本相同的结果。表5：使用3种不同的量化方案，使用标准ResNet-18量化为2、3和4位的ImageNet上的前1准确度（%）量化方式位宽对称69. 1 68. 5 65.1不对称69.2 68.5 65.2不对称圆形69.2 68.6 65.2方法3243.532.52[第48话]70.468.1-67.5-62.6LQ-Net [47]70.369.3-68.2-64.9PACT [7]70.469.2-68.1-64.4QIL [22]70.270.1-69.2-65.7DSQ [14]69.969.6-68.7-65.2APoT [26]70.2--69.9--EdMIPS [5]*-6867.76766.465.9Adabit [21]-69.2-68.5-65.1我们69.669.169.268.666.464.4表6：使用ResNet-18架构的ImageNet上固定位和混合精度量化的top-1准确度（%）与最先进技术的* 是指结果的位数或精度近似于表中所述的值。5. 结果5.1. 实验装置所有的实验都在ImageNet上进行[10]。我们专注于2-4位的量化范围。对于b >4，精度几乎总是匹配或非常接近全精度对应物的精度。根据以前的工作（例如[21，37，5，48]）批归一化层不被量化。网络体系结构：为了在深度、宽度和基数方面覆盖广泛的体系结构（即通过分组卷积），我们使用以下架构进行实验：（a）ResNet [16]（18，34，50）和（b）最近提出的EBN [1]。我们选择了后者，因为它被证明是有效的，适合于量化和灵活的变化的宽度和组大小的模型容易。例如，通过增加组大小，可以获得更有效的变体请注意，我们没有使用[1]中提出的专家卷积。我们使用了一个EBN，类似于Resnet-18，它有4个阶段，每个阶段有2个卷积块。每个阶段的宽度是Resnet-18中使用的宽度的两倍。最后，每个阶段的组大小由G0：G1：G2：G3表示。我们总共尝试了3种EBN变体：4：8：16，4：8：16：32和4：4：4：4。培训详情：除非另有说明，否则所有模型都按照相同的配方进行训练：网络使用余弦调度器训练160个历元，具有预热（10个历元）并且没有重新启动[30]，起始学习速率为0的情况。001和1E4的权重衰减。我们使用了Adam优化器 [23] 。对于增强，我们遵循先前工作中用于ImageNet的标准转换集，主要是：随机裁剪，调整大小为224 224像素和随机翻转。对于阶段III，我们在早期训练期间逐渐将1 −σ的概率从0增加到目标值k5195×个×个表7：通过在若干ResNet和EBN架构上应用Bit-Mixer获得的ImageNet上的前1准确度（%）。AdaBits的准确性与我们的第二阶段直接相当。请注意，Bit-Mixer（我们的）是唯一可以生成逐层rand结果的方法。比特分配。请注意，如4.2节所示，我们的比特混合器元网络的某些采样子网比rand精确得多。* -表示直接取自[21]的结果。参见第4节，了解rand的定义。方法Arch.#位索引AdaBits我们的[21]（第二阶段）直接比较Bit-Mixer和其他方法，如我们的方法：（1）是在运行时期间提供逐层位宽选择的灵活性的同类中的第一个，（2）不像其他固定位量化方法那样专注于最大化特定位宽的准确性，（3）也不像其他混合精度方法那样专注于找到最佳位宽分配以最大化准确性。此外，（4）其他论文中报道的精度结果取决于其他因素，例如，一个非常重要的因素是所使用的原始FP32模型的精度。因此，这些比较的主要目的是为了说明用比特混合器训练的网络提供与最近提出的最先进的量化器相当的准确性。ResNet-344 69.1 69.2 69.4 69.24 73.1 73.0 73.0 72.93 72.6 72.5 72.6 72.52 70.2 70.0 70.1随机的-70.5化方法为此，在表6中，我们报告了我们的结果，并与最近提出的用于固定位和混合精度量化的各种最新方法进行了比较[48，47，7，22，14，26，21，5]。在所有情况下，使用ResNet- 18架构。正如可以观察到的，Bit-Mixer通过仅训练单个元网络提供了非常有竞争力的结果，该元网络可以在运行时动态定义每层位宽。这一点非常重要，因为我们的目标是拥有Bit-Mixer所能提供的灵活性，而不会影响高度准确的推理能力。本节，特别是表7，还提供了通过使用第5.1节中详述的ResNet和EBN架构训练比特混合器元网络获得的结果。在可能的情况下，我们也与Adabit进行比较[21]。注意，阶段II之后的比特混合器（我们的阶段II）与Adabit直接可还要注意，阶段III（我们的）之后的比特混合器是可以提供逐层随机比特分配的唯一方法。我们相信，表7的结果最终表明，Bit-Mixer可以成功地应用于在各种网络架构中训练元网络6. 结论据我们所知，这项工作构成了第一次尝试训练一个元网络与共享ing，直到网络配置稳定。注意σ=[2/3，4/5]的值也有效。然而，对于σ太低或太高，子网络的精度降低到最低位宽的精度。对于训练的其余部分（通常在时期80之后），k保持固定。k的值基于网络架构来确定（通常为2/3k<4/5）。<在评估期间，我们将图像的大小调整为256256px，然后将它们居中裁剪为相同224 224px分辨率。所有实验都使用PyTorch [36]实现。5.2. 与最新技术水平的在这里，我们首先将我们的方法与当前的最先进的量化方法进行比较。我们注意到加权其层/块可以在运行时被独立地量化为任何期望的比特宽度。为此，我们做出了两项重要贡献：（a）过渡批规范和（b）3阶段优化流水线，其被示出能够训练这样的网络。我们提出了一系列的消融研究，分析所提出的方法的重要此外，我们presented比较与几个国家的最先进的量化方法，以及通过应用位混频器在几种架构上获得的结果。这些结果表明，我们的方法可以成功地训练一个元网络与任意层的位宽选择，而不影响准确性。475.576.3*75.275.2ResNet-50375.375.9*74.974.8272.873.3*72.772.1随机的---73.2474.0-74.073.9EBN373.5-73.473.3四点八分八点十六分270.7-70.570.4随机的---71.8473.8-73.873.3EBN373.3-73.272.8四点八分十六秒三十二269.8-69.768.9随机---70.0ResNet-18368.568.568.768.6265.165.165.664.4随机的---65.85196引用[1] Adrian Bulat、Brais Martinez和Georgios Tzimiropoulos。高容量专家二进制网络。ICLR，2021年。七个[2] Adrian Bulat和Georgios TzimiropoulosXnor-net++：改进的二进制神经网络。BMVC，2019年。二个[3] Adrian Bulat和Georgios Tzimiropoulos利用有限资源进行地标定位的分层二元cnn。IEEE Transactions on PatternAnalysis and Machine Intelligence，42（2）：343-356，2020。二个[4] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并使其专业化以实现高效部署。arXiv预印本arXiv：1908.09791，2019。二个[5] 赵伟蔡和努诺·瓦斯康塞洛斯。重新思考混合精度神经网络的可微分搜索。在IEEE/CVF计算机视觉和模式识别会议的论文集，第2349-2358页，2020年。七、八[6] 辰昕、邪灵犀、君无邪、齐天。渐进式可区分体系结构搜索：缩小搜索和评价之间的深度差距。在IEEE/CVF计算机视觉国际会议论文集，第1294-1303页，2019年。一、二[7] Jungwook Choi，Zhuo Wang，Swagath Venkataramani，Pierce I-Jen Chuang ， Vijayalakshmi Srinivasan ， andKailash Gopalakrishnan. Pact：量化神经网络的参数化裁剪激活。arXiv预印本arXiv：1805.06085，2018。七、八[8] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。arXiv预印本arXiv：1511.00363，2015。二个[9] HarmDeVries，FlorianStrub，Je're'mieMary，HugoLarochelle，Olivier Pietquin和Aaron Courville。通过语言调节早期视觉加工。 arXiv 预印本 arXiv ：1707.00683，2017。三个[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。七个[11] 董震，姚哲伟，阿米尔·戈拉米，迈克尔·W·马-哈尼，库尔特 · 库兹尔 .Hawq ： Hessian aware quantization ofneural networks with mixed-precision.在ICCV，2019年。二、四[12] Ahmed Elthakeb ， Prannoy Pilligundla ， FatemehSadatMireshghallah，Amir Yazdanbakhsh，Sicuan Gao，andHadi Esmaeilzadeh. Releq：一种用于神经网络深度量化的自动强化学习方法。在NeurIPS ML for Systems研讨会，2018年，2019年。二个[13] Steven K Esser，Jeffrey L McKinstry，Deepika Bablani，Rathinakumar Appuswamy，and Dharmendra S Modha.已学习步长量化。在ICLR，2020年。二、三[14] Ruihao Gong ， Xianglong Liu ， Shenghu Jiang ，Tianxiang Li，Peng Hu，Jiazhen Lin，Fengwei Yu，andJunjie Yan.不同的软量化：桥接全精度和低位神经网络。在IEEE/CVF国际计算机视觉会议，第4852七、八[15] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。二个[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。四、七[17] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。五个[18] SeppHochreiter和JürgenSchmidhube r. 平坦极小值。神经计算，9（1）：1-42，1997. 五个[19] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu、Matthew Tang、Andrew Howard、Hartwig Adam和Dmitry Kalenichenko。神经网络的量化和训练，有效的整数算术推理。在CVPR，2018年。二个[20] Qing Jin，Linjie Yang，and Zhenyu Liao.神经网络量化的有效训练arXiv预印本arXiv：1912.10207，2019。二个[21] Qing Jin，Linjie Yang，and Zhenyu Liao. Adabit：具有自适应位宽的神经网络量化。在IEEE/CVF计算机视觉和模式识别会议论文集，第2146-2156页，2020年。二三四六七八[22] Sangil Jung、Changyong Son、Seohyung Lee 、JinwooSon、Jae-Joon Han、Youngjun Kwak、Sung Ju Hwang和Changkyu Choi。学习通过优化量化间隔与任务损失来量化深度网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4350-4359页七、八[23] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。七个[24] Vadim Lebedev ， Yaroslav Ganin ， Maksim Rakhuba ，Ivan Os- eledets，and Victor Lempitsky.使用微调的cp分解加速卷积神经网络。arXiv预印本arXiv：1412.6553，2014。一个[25] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv：1608.08710，2016。一个[26] Yuhang Li，Xin Dong，and Wei Wang.加性二次幂量化：神经网络的有效非均匀离散化ICLR，2020年。七、八[27] 李亚伟，顾书航，吕克·范古尔，拉杜·提莫夫特。卷积神经网络压缩的学习滤波器基础。在IEEE/CVF计算机视觉国际会议论文集，第5623-5632页，2019年。一个[28] 柳寒笑，凯伦西蒙尼扬，杨一鸣。 Darts：差异化架构搜索。arXiv预印本arXiv：1806.09055，2018. 一、二[29] Zhuang Liu，Mingjie Sun，Tinghui Zhou，Gao Huang，and Trevor Darrell.重新思考网络修剪的价值。arXiv预印本arXiv：1810.05270，2018。一个[30] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：Stochas-tic 梯度下降与热重启。 arXiv 预印本 arXiv ：1608.03983，2016。七个5197[31

下载后可阅读完整内容，剩余1页未读，立即下载