神经网络量化方法的标题：网络量化中的聚类促进量化(CPQ)方法

15 浏览量更新于2023-10-13 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5370网络x到x^=α+，其中α控制网格减少网络量化损失Jung Hyun Lee1*，Jihun Yun1*，Sung Ju H wang1，2，Eunho Yang1， 21韩国科学技术高等研究院（KAIST），2AITRICS{onliwad101，arcprime，sjhwang，eunhoy}@ kaist.ac.kr摘要旨在减少网络权重和激活的比特长度的网络量化已经出现，用于将它们部署到资源有限的设备。虽然最近的研究已经成功地离散化了一个全精度网络，但它们在训练后仍然会产生很大的量化误差在这项工作中，我们提出了一种新的神经网络量化方法，聚类促进量化（CPQ），它可以找到最佳的量化网格，同时自然地鼓励底层的全精度权重在训练过程中聚集在这些量化网格周围。CPQ的这种性质是由于我们的两个主要组成部分，使可微分量化：i）使用的分类分布设计的一个特定的概率参数化的前向通过和ii）我们提出的多类直通估计（STE）的后向通过。由于我们的第二个组件，多类STE，本质上偏置，我们还提出了一个新的位丢弃技术， DropBits ，修改标准的 dropoutregularization 随机丢弃位，而不是神经元。作为DropBits的自然扩展，我们进一步引入学习异构量化级别的方式，以通过对DropBits施加额外的正则化来为每一层找到合适的位长度我们在各种基准数据集和网络架构上实验验证了我们的方法，并且还支持一个新的量化假设：学习异构量化级优于从头开始使用相同但固定的量化级的情况。*同等贡献1. 介绍深度神经网络在各种计算机视觉应用中取得了巨大成功。然而，包括ResNet [12]在内的最先进的神经网络架构通常需要太多的计算和内存来部署到资源有限的设备。因此，研究者们探索了各种方法来压缩它们，以减少内存使用和计算成本。其中，网络量化的目的是减少网络参数的位宽，同时保持全精度对应物的竞争性能。最简单的方法之一是对权重或X1α2区间大小。然而，这种幼稚的方法会导致严重的性能下降主要是由于量化损失。假定如果基础全精度权重X很好地聚集在最优量化网格周围，则量化之前和之后之间的性能差异可以是边际的，使得即使在量化参数的情况下也可以保持全精度网络的性能因此，我们专注于联合寻找最佳量化网格，并将这些量化网格周围的底层全精度权重x聚集在一起。事实上，最近的一些研究已经通过实验证实，他们的方法可以在量化过程中部分地给出聚类VNQ [2]使用多尖峰和厚片先验（multi-spike-and-slab prior）将基础全精度权重X聚集在量化网格周围，但其仅限于三进制精度。RQ [19]在实验上显示了低比特宽度下几种模式的一些聚类效果，但它没有配备任何明确鼓励量化网格周围聚类的算法因此，这两种方法在全精度网络和量化网络之间产生了相当大的性能差距。为了保持全精度的性能5371网络中的低比特宽度，我们提出了集群促进量化（CPQ），不仅找到最佳的量化网格，但也鼓励底层的全精度权重x聚集在这些量化网格周围，在低比特长度制度一致。虽然CPQ没有任何显式的正则化或聚类损失，但以下两个关键组件的组合在理论和实验上都产生了更好的聚类效果（以及最终性能）：i）在正向传递中选择由特定概率方法参数化的分类分布的模式，以及ii）利用我们的多类直通估计器（STE）向后传递。由于我们的多类STE像二进制情况下的原始STE一样有偏置[3]，因此我们提出了一种名为DropBits的新型比特丢弃技术，以减少CPQ中多类STE的偏差。受Dropout [27]的启发，DropBits在CPQ框架下丢弃比特而不是神经元/过滤器来训练低位神经网络。此外，DropBits允许异构量化，其通过丢弃冗余位来学习每个参数/通道/层的不同位宽具有可学习的比特丢弃率的DropBits自适应地找出每组参数的最佳比特宽度与最近在异构量化中的研究[30，29]相比，几乎所有层都具有至少4位，最多10位，我们的方法产生了资源效率更高的低位神经网络，所有层最多为对于可训练的位宽，我们还阐明了一个新的量化假设，其中可以找到学习的位宽网络（称为“量化子网络”），它可以比从头开始我们的贡献有三个方面：• 我们提出了一种新的量化方法，C集群-移动量化（CPQ），不仅找到了最佳的量化网格，但也鼓励下derlying的全精度权重聚集在这些量化网格凝聚在低位宽制度的离散化和我们的多类直通估计的特定概率参数化的组合我们进一步提出了一种新的比特丢弃技术，称为DropBits，以减少CPQ中多类直通估计器的偏差• 扩展DropBits技术，我们提出了一个资源更有效的异构量化算法，以削减冗余位宽跨组权重和/或激活（例如，并验证了我们的方法能够找到“量化子网络”。• 我们在多个基准数据集上进行了大量的实验，以证明我们的方法的有效性.我们在ImageNet数据集上完成了ResNet-18和MobileNetV 2的最新结果，所有层都是均匀量化的。2. 相关工作BinaryConnect [6]首先尝试通过采用确定性或随机操作将权重二进制化为±1。为了获得更好的性能，在二值化和三值化中进行了各种研究[23，17，2，25]。虽然这些工作有效地减少了模型的大小，提高了精度，但它们仅限于量化权重，激活保持在全精度。为了在运行时充分利用量化，也有必要对激活进行优化。研究人员最近更多地关注同时量化权重和激活[34，31，4，32，33]。11、15、8]。XNOR-Net [23]利用了XNOR和位计数操作的效率QIL [15]还通过引入可以与权重参数联合训练的参数化可学习量化器来量化权重和激活[8]最近提出了一种简单的技术来近似相对于网格间隔大小的梯度，以提高QIL。然而，这些方法不量化第一层或最后一层，这留下了提高功率效率的空间为了便于实际部署，不可避免地要量化所有层的权重和激活，这是最具挑战性的。[2]提出了在量化网格处允许多个模式之前的多尖峰和厚片，但其限于三进制精度。[19]提出使用Gumbel-Softmax技巧[14，21]，但它不能很好地将权重[13]通过将网格间隔大小公式化为2的幂，提出了有效的定点实现，但他们将第一层和最后一层量化为至少8位。[33]提出在批量归一化中量化网格间隔大小和网络参数以用于在低位整数硬件上部署量化模型，但是它只需要用于这种方法的特定加速剂。作为另一项工作，[10]提出了一种给定预定义位分布的异构二值化。HAWQ [7]基于Hessian的顶部特征值来确定每个块的位宽。不幸的是，他们都没有学习最佳的位宽的异质性。为此，[30]和[29]提出了分层异构5372^^˜˜我˜i=0时网格G^={g}2b−1，取决于要设计的ho w，其中x为因为ReLU的输出是非线性的，所以从零开始^通过分别利用强化学习和学习量化器的动态范围来实现量化然而，在这方面，可以很容易地计算在一个封闭的形式如下：. g i+α− x Σ。g i− α − xΣ他们的结果显示，几乎所有层都具有高达10位的(at最少4位），这将是次优的。[18] Aπi= Sigmoid2σ-S形二、σ（一）该模型通过利用分层强化学习来实现逐通道异构量化，但是逐通道精度限制了加速器的结构，从而限制了模型的适用性。其中逻辑分布的累积分布函数是S形函数。注意，在（1）下，x、α和σ是可训练参数。给定量化的非归一化分类概率π ={π}2b −1我i=0时在本节中，我们首先总结了本文中使用的符号，然后概述了我们的方法。变量X表示权重或激活。在根据π量化的情况下，确定算法细节例如，[19]采用了基于π的Gumbel-Softmax技巧[14，21]。在本文中，我们采用了[19]中的概率参数化（1）。全精度网络，x表示量化的x的值。在这里，我们考虑以下量化-G02− 13.2.多类直通估计给定像（1）的量化的概率模型，我们x的网格：对于权重x，x= [g，. . .，g b]=α[−2b−1，. . . 、0、. . . 其中b是given比特宽度，α>0是控制量化网格的间隔的可学习参数。对于激活x，量化网格定义一个新的直通估计器（STE）如下：正向：y= one hot[argmaxπi]（2）阴性最后，[n]表示正整数n的集合{0，1，···，n−1}。我们的主要目标是设计一个量化算法，向后：Lπimax=Lyimax和πi=0fori=imax，（三）两者都找到最佳α，并且在低比特宽度范围内将潜在的全精度权重x凝聚地聚集在量化网格G周围。当神经网络被过度参数化时，可能存在一个参数，使得底层的全精度权重x聚集在一些离散值周围而不会降低性能。为此，我们提出了聚类促进量化（CPQ），其不仅找到最佳α，而且还帮助底层全精度权重X内聚地聚集在量化网格G周围。拟议的CPQ包括两个组成部分：(i)离散化的某种概率参数化（第3.1节）和（ii）我们的多类STE（第3.2节）。令人惊讶的是，由于这两个组件的组合，CPQ不需要任何惩罚或损失，如第3.2节中介绍的命题1所示。3.1. 用于量化的概率参数化为了允许基于梯度的优化，我们假设x被噪声ε扰动为x=x+ε。变量ε表示变分优化[28]的随机噪声，其可以遵循具有零均值和标准偏差σ的任何分布。在这里，让我们按照物流分布-其中yi是独热向量y的第i个条目，并且L是真实标签与由量化神经网络通过正向传递（2）做出的预测之间的交叉熵。我们称（2）和（3）为也就是说，在前向传递中，我们直接选择由概率模型参数化的分类分布的模式（或最可能的网格）另一方面，在向后传递中，需要在计算i_max时处理不可微的argmax运算符。为了允许基于梯度的优化，我们通过仅通过对应于imax的路径进行反向传播来实现通过不可微的分类样本的反向传播。注意，所提出的多类STE可以被认为是二进制情况的自然扩展[3]，但这项工作是在网络量化方面对多类STE的第一次深入研究。虽然[14]提出了稍微不同的启发式估计器ST GS，它使用Gumbel-softmax技巧和另一个直通估计器来绕过离散随机变量的不可微性，但STGS在网络量化的背景下没有任何理由。另一方面，我们的多类STE在理论和经验上证明了假设p（x）= Logistic（0，σ），则p（x）由下式决定：通过以下命题进行聚类，当πi是com-Logistic（x，σ）。在这样的p（x）下，x~被量化到每个量化网格gi的未归一化概率可以如（1）所示，即使没有任何正则化或聚类损失。3.聚类促进量化5373xyimax0.080.060.040.020.000.020.040.060.08x的轨迹0 5000 10000 15000 20000 2500030000迭代不会是基于梯度的学习。虽然当x接近gimax时L几乎为零，但α仍然被训练以找到更好的网格点。在α更新后，如果x和α之间的差距扩大，则相应地训练x因此，网络将继续训练，直到找到最佳α。这种训练过程在图3中示出。除了命题1，我们的多类STE还有其他优势：它使梯度的方差实际上变为零，这与[19]强调的成功训练具有低位宽的网络有关。由于我们的多类STE总是选择由概率模型参数化的分类分布的模式（即，在正向传递（2）中没有随机性，并且梯度关于个体分类概率图1.在MNIST上以3位方式训练LeNet-5时，第二层中五个随机权重的轨迹x轴表示训练迭代的次数，y轴表示权值。水平虚线（灰色）表示量化培训后的网格除了对应于后向通道（3）中的模式的坐标之外，在任何地方都精确地为零，则我们的梯度估计器的方差变为零。4. DropBits及其对异质结构8000600040002000层24000020000层3新量子化我们提出了一种新的比特丢弃技术，称为DropBits，以减少多类STE的偏差（第4.1节）。我们还对DropBits施加了额外的正则化以允许异构量化（第4.2节），并提出了一种新的方法。00.20.10.00.10.200.40.20.00.20.4量化的新假设（第4.3节）。图2.通过我们的方法CPQ，3位量化的LeNet-5的权重分布。x轴和y轴分别指示权重值及其频率。垂直虚线表示量化网格。1.提案令L是使用（1）和（2）从量化的神经网络计算的损失函数。的假设下|L|是有界的，L的梯度，4.1. DropBits虽然我们的多类STE享有梯度的零方差，但它偏向于[3]中的二进制模式。为了减少STE的偏差，[5]提出了斜率退火技巧，但该策略仅适用于二进制情况。为了解决这个问题，我们提出了一种新的位丢弃方法，DropBits，以减少我们的多类STE的偏见。受Dropout中丢弃神经元的启发[27]，我们丢弃关于（3）中的全精度变量x，L收敛到零作为权重网格xx接近其最接近的量子化在每次迭代中随机地产生任意数量的网格点，其中实际上被量化为丢弃的网格点的概率变为零。通过命题1，一旦X被训练为变得接近g_i_max，则X可以保持在g_i_max附近，如图1所示，从而使得可以如图2所示在量化网格周围内聚地聚集底层全精度权重。由于从这个角度来看，我们的具有（1）的多类STE可以定性地不同于其他不合理的估计，因此我们将（1）和多类STECPQ的整体过程在算法1中描述。人们可能会想，量化网格附近几乎为零的梯度可能会使网络不可训练，这可能会导致网络无法训练。然而，每个网格点都有自己的二进制掩码的设计策略将使掩码的数量随位宽呈指数增长。考虑到适当的噪声电平与较低的侵略性设计，下面的两个例子是可用的：（a）在网格中的端点共享相同的二进制掩码，以及（b）在相同的位级别的网格点共享相同的二进制掩码（见图4）。在下文中，我们考虑（b）网格点组的按位共享掩码，除非另有说明。现在，我们介绍如何制定二进制掩码。通过分割激活实现非相似Dropout权重值5374l=1l=1k k1− Π^WlblαlσlΣ^l=11. Pa r am et��er网格点2。 Gridi nt eval��被限制��为3。学习新知识时，要学会掌握新知识��柳俊还在可训练的��ℒ ≈ 0>> 0现在，变得可训练��ℒ图3.当权重接近量化网格时的训练过程算法1C聚类-预量化（CPQ）1：输入：训练数据D，网络参数{Wl，bl}L 、分层网格间距参数和标准差在第l层{αl，σl}L.第二章：输出：低位宽模型，带量化网络参数L参数{W^l，^bl}l=1 展开程序后。3：初始化：位宽b和参数{Wl，bl，α1，σ1}L。初始化逐层网格G^l：=[gl，0 ，gl，1，···，gl，2b−1]=αl[−2b−1，···，2b−1−1]，其中l∈{1，···，L}。第四章：程序TRAINING(a) 端点共享掩码(b) 按位共享掩码5：// Forward pass6：对于1= 1，···，L做7：x←Wl或bl的每个条目8：Il=G^l-α/2。Σ▷将网格移动−α/2▷计算CDF图4. 3位的两种掩码设计它在两端稍微拉伸，从而将更多的质量集中在0和1上。假设面具不相交，我们10：πi=F[i+1]−F[i]fori∈[2b−1]▷Eq.（一）11：y=one hot[argmaxiπi]▷等式（二）比特级使用如下的硬混凝土分布十二：x^=y⊙G^l▷量化UkUniform（0，1），（4）13：激活可以以相同的方式14：结束15：//向后传球S k=S形。.logU−log（1−U）+logΠk/τ′K16：对于I=L，···，1个do17：计算梯度（L，L，L，L）▷ Eq.（三）18：更新参数（Wl，bl，αl，σl）19：结束20：结束程序二十一：程序D就业22：对于1= 1，···，L做23：Wl=min（max（αl·Round（Wl/αl），gl，0），gl，2b−1）24：bl= min（max（αl·Round（bl/αl），gl，0），gl，2b−1）25：结束26：结束程序通过1-p（这里，p是丢弃概率），我们采用显式二进制掩码Z，其概率Π可以与模型参数联合优化。伯努利随机变量�� ⋯��⋯017701��0��1 ��2无面具7�� ⋯��⋯017701��0��1 ��2无��6��79：F=S形Il−xσl描述第k个的二进制掩码Zk的构造Σ5375˜τS¯k=Sk（ζ−γ）+γ和Zk=min（max（S¯k，0），1）式中，′是反映拉伸水平的γ<0和ζ >0的硬质混凝土分布的温度。对于i = 2b−1− 1，2b−1和2b−1+ 1，我们不从上述过程中采样，而是固定Z = 1以禁止所有二进制掩码变为零（参见图4 中的“ 无掩码”）。利用从上述过程生成的每个掩码的值，通过将πi如图5所示，CPQ的采样分布偏置到模式−3α。对于Πk的适当值，CPQ + DropBits的采样分布可以比CPQ的采样分布更类似于原始分类分布，通过将πi~ i由于不可微，我们通过硬混凝土分布放松二进制掩码[20]。虽然二元混凝土分布[21]有其支持（0，1），但硬混凝土分布[22]有其支持（0，1）。on 不仅如此，DropBits并没有重新--5376j=0k=1k=1. Yk=1l=1K k=1K k=1−使面具l=1l=11.01.01.00.80.80.80.60.60.60.40.40.40.20.20.20.0值(a) 分类分布0.0值(b) CPQ0.0值(c) CPQ + DropBits图5.DropBits对CPQ的影响的说明对于一定的权重，（a）猫的几何分布表示πi/π7πj为，7），（b）CPQ的分布是取πi的argmax之后的采样分布，以及（c）CPQ + DropBits是取π i的argmax后的采样分布。这里，Πk被初始化为0。七是要有明确的认识。向前传球10：向后传递对于重量的每个条目˜在DropBits正则化（3位示例）计算概率落在对于DropBi ts，使用二进制掩码计算��反向支撑通过直通每个网格点�� ⋯��联系我们曲名：The01计算概率的权重7选择网格点与估计器量化重量第层��=L，��最大概率7关于argmax2010 1 2⋯⋯0 1��2�� −1⋯6 7=01 2⋯��2�� −1��0 ��1 ��2 ⋯��⋯ ��2��−1图6.使用DropBits技术的聚类促进量化（CPQ）框架的图示由于Πk的可学习特性，因此根本不需要任何手工制作的调度，而这种调度对于Gumbel-Softmax [14，21]和斜率退火技巧[5]至关重要。尽管权重的量化网格相对于零对称，但激活的量化网格从零开始，这使得难以利用对称设计的DropBits来激活。因此，DropBits仅适用于我们实验中的权重假设Zk由于篇幅限制，CPQ + DropBits的整体算法推迟到附录。ing（4），我们定义平滑的n-0-范数为R（Z; n）=Sigmoid（logΠτ ′log−γ）。这里需要注意的是，我们没有1−Πζ对于低位级别，如果较高比特级仍然有效（在这种情况下，这样的高比特级对于量化仍然是因此，我们以这样一种特定的方式设计二进制掩码在当前最高位级别接近零。更具体地说，对于图4-（b）中的位级二进制掩码{ Z k } b− 1和相应的概率{Πk}b−1，我们用于学习位宽的正则化项为R. {Zk}b−1，{Zk}b−1<$4.2.向资源效率学习位宽正如第1节和第2节所指出的，最近关于异源性的研究b−1=k=1k=1I（Zk>0）k=1b−1j=k+1I（Zj=0）ΣR（Z k; Πk）.（五）均匀量化使用至少4位，直到10位，这为节省能量和存储器留下了很大空间为了实现更资源有效的方法，我们在DropBits上引入了额外的正则化以丢弃冗余位。由于图4-（b）中的掩码设计反映了丢弃中的每个二进制掩码的实际位级和概率注意，{Z k}b−1被分配给每个组（例如例如层或通道中的所有权重或激活）。因此，组中的每个权重共享相同的稀疏模式（以及作为结果的位宽），并且允许跨组的学习的位宽是异构的。假设第1层共享二进制掩码位是可学习的，我们可以惩罚使用{Zl}b−1与概率Πl：={Πl}b−1相关联，更高的比特级别，通过稀疏性鼓励正则化器，如我们的L层神经网络的最终目标函数1. 如[20]所提出的，使用变为L（θ，α，σ，Z，Π）+λΣL的松弛的0正则化R（Zl，III），其中硬混凝土二元掩模，我们采用这种连续的α={αl}L和σ={σl}L表示逐层作为稀疏诱导正则化子的0版本以下-网格间隔参数和logis的标准差4 3 202 343 202 3概率4 3 202 3概率概率Σ5377l=1l=1表 1. MNIST 上 LeNet-5 和 CIFAR-10 上 VGG-7 的测试误差（%）。“安。”代表RQ中的Gumbel-Softmax技巧的退火温度。数据集#位W./A.RQRQ +Ann. 2CPQ +DropBits四分之四0的情况。580 620的情况。590的情况。53MNIST三分之三0的情况。690。740的情况。670的情况。58二分之二0的情况。76−0的情况。720的情况。63四分之四8. 438. 477 .第一次会议。15六、85CIFAR-10三分之三二分之二9 .第九条。5611个国家。7510个。78−7 .第一次会议。087 .第一次会议。68六、947 .第一次会议。51学习曲线10 50 100 150 200 250 300历元图7.由RQ、具有退火τ的RQ和3位中的CPQ量化的VGG-7的学习曲线。其中，Z={Z1}L，Π={Π1}L，并且λ是正则化参数。在推断阶段，我们仅基于Π的值丢弃不必要的位。4.3. 量子化的新假设[9]阐述了“彩票假说”，指出人们可以从随机初始化的密集神经网络中找到一些稀疏的子网络，“中奖彩票”，这些网络比修剪产生的稀疏网络更容易训练。在本节中，我们定义了一个新的量子化假设，其视角与原始假设略有不同（在某种意义上相反）。记法。 a=比特b和a=比特b表示对于所有组中的至少一个组，a具有比b严格更高的比特宽度（例如，通道或层），并且a具有与b在所有组中，分别。定义 . 对于具有随机初始化参数 θ 的网络 f（x;θ），设f（x; θ ′）是f（x;θ）的量化网络，使得θbitθ′。如果f（x;θ′）的精度高于f（x;θ′′）的精度，其中f（x;θ′ ′）是用固定的位宽从头开始训练的，使得θ′=位θ′′，则f（x;θ′）被称为f（x;θ）的量化子网络。2我们无法在2位中重现RQ的结果，因此我们仅在3位和4位RQ上进行实验0090807060501009998270 280 290300403020CPQRQRQ（带退火）训练准确度（%）5378表2.在ImageNet数据集上使用ResNet-18和MobileNetV 2的Top-1/Top-5错误（%）。方法#位W./A.ResNet-18 MobileNetV2Top-1/Top-5 Top-1/Top-5全精度32/ 32三十24小时922812/9。71QQ [19]四分之四三十八岁。48/1601−/−RQ ST [19]四分之四三十七54/15。22−/−QIL3 [15]四分之四31岁05/11. 二十三三十二77/1251LSQF [33]四分之四三十60/11.28三十二63/12. 01三分之三三十三岁。33/12。58−/−TQT [13，29]四分之四三十49/-3221/−CPQ +四分之四三十37/10。96三十83/1126DropBits三分之三三十二79/1257三十五71/1436该假设意味着学习位宽将优于预定义的位宽。据我们所知，我们的研究是第一次尝试深入研究这一假设。5. 实验作为流行的深度学习库，如TensorFlow[1]和PyTorch v1.3 [22]已经提供了自己的8位量化功能，我们专注于低位宽机制（24位）。与其他一些量化论文相比，我们的方法统一量化包含第一层和最后一层的所有层的权重和激活我们首先表明，CPQ和DropBits有自己的贡献，其中没有一个是可以忽略不计的。然后，我们在具有深度网络的大规模数据集上评估CPQ+丢弃位最后，我们证明了我们的异构量化方法产生了有希望的结果，即使所有层最多有4位，并验证了第4.3节中的量化新假设。5.1. 消融研究为了验证CPQ和DropBits的有效性，我们成功地将我们的方法的每一部分应用于MNIST上的LeNet-5 [16]和CIFAR-10上的VGG-7 [26表1显示了CPQ在大多数情况下优于RQ有人可能会想，RQ 的性能可以通过Gumbel-Softmax技巧中的温度退火时间表来提高。不幸的是，具有退火时间表的RQ由于如图7所示的训练结束时的低温而遭受梯度的高方差，从而导致比RQ更差的性能，如表1所示。最后，可以清楚地看出，DropBits通过减少CPQ中多类STE的偏差来不断改善CPQ。3我们自己的实现，使用PyTorch提供的预训练模型量化所有层5379表3.使用MNIST上的LeNet-5、 CIFAR-10上的VGG-7和 ImageNet上的ResNet-18对量化子网络进行测试误差（%）这里，下划线表示学习的位宽，模型初始#位W/A测试误差训练W.每层测试错误（已修复）测试误差（注册）四分之四0的情况。53四三四三四0的情况。550的情况。52LeNet-5三分之三0的情况。583/2/ 3/ 30的情况。650的情况。55二分之二0的情况。632/ 2/ 2/T0的情况。680的情况。59四分之四六、774/ 4/ 4/ 4/ 4/3/3/ 4六、74六、65VGG-7三分之三六、823/ 3/ 3/ 3/ 3/2/ 3/ 3六、81六、77二分之二7 .第一次会议。492/ 2/ 2/ 2/ 2/ 2/27 .第一次会议。437 .第一次会议。36ResNet-18四分之四三十三岁。204/3/ 3/ 3/ 3/ 3/ 3/3/3/3/3/3/3/3 / 3/4/ 4/3/4/3 / 4/3/4/4/4/4/4/4/ 4 / 4/三十四58三十四30三分之三三十七803/ 3/2/ 3/2/ 3/ 3/ 3/ 3/ 3/3/ 3/ 3/2 / 3/3/3/3/ 3/ 3/3/ 3/41岁01四十305.2. ImageNet上的ResNet-18和MobileNetV 2为了验证我们的算法在ImageNet数据集上的有效性，我们量化了ResNet-18 [12]和Mo-bileNetV 2 [24]架构，这些架构使用官方PyTorch存储库中的每个预训练的全精度网络进行初始化在表2中，我们的方法仅与量化所有层的权重和激活两者以进行公平比较的最先进算法进行比较。在附录中给出了与最近的作品的广泛比较，这些作品仍然是全精度的第一层或表2说明了我们的模型比最新的量化方法性能好多少。在 ResNet-18 中， CPQ + DropBits 超越了 RQ 、QIL、LLSQF和TQT，甚至在4位中达到了接近全精度网络的前1和前5错误在MobileNetV 2中，CPQ +4位Drop- Bits超过了所有现有的研究超过一个百分点。此外，我们量化MobileNetV2到3位，获得竞争力的性能，这是值得注意的，由于没有以前的作品成功量化MobileNetV2到3位的事实5.3. 寻找量化的子网络在这个实验中，我们通过使用第4.2节中的正则化器训练二进制掩码的概率来学习每层的位宽，从而验证了一个新的量化假设为了简洁起见，仅权重被非均匀地量化，并且用于激活的位宽保持固定。在表3中，第四列表示由我们的正则化器学习的每层位宽，并且第五列和最后一列分别指示当从头开始将每层的位宽固定为与训练的位宽相同时（第四列）以及当使用我们的正则化方法时的测试误差。表3显示了通过我们的异构量化方法（最后一列）学习的结构优于从头开始学习位宽的固定结构5380（第五栏）。我们的正则化器是否能够识别哪一层是真正冗余的可能是值得怀疑的。这可以通过以下观察间接证实：具有从头开始训练的位宽的固定结构（第五列）优于CIFAR-10上的均匀关于正则化参数λ的不同值的更多实验推迟到附录。6. 结论我们提出了聚类促进量化（CPQ），它不仅可以找到最佳的量化网格，但也鼓励底层的全精度权重聚集在这些量化网格凝聚在低位宽制度。为了减少CPQ中多类STE的偏差，我们还提出了一种新的比特丢弃技术，DropBits。我们证明了CPQ和DropBits都有自己的价值，从而使CPQ + DropBits在ImageNet上实现了ResNet-18和MobileNetV 2的最新性能。此外，我们向前迈出了一步，通过简单地惩罚DropBits中的二元掩码来考虑异构量化，这使我们能够找到量化的子网络。作为未来的工作，我们计划将我们的异构量化方法扩展到激活和其他量化器的应用。确认这项工作得到了韩国国家研究基金会（NRF）资助（2018 R1 A5 A1059921，2019 R1 C1 C1009192）和信息&通信技术规划&评估研究所（IITP）资助（No.2017-0-01779，用于可解释人工智能的机器学习和统计推理框架，以及由韩国政府（MSIT）资助的人工智能研究生院计划（KAIST），编号2019 -0-00075。5381引用[1] Mart´ın Abadi ， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，et al.Tensorflow：一个大规模机器学习系统。在USENIX操作系统设计和实现研讨会上，第265-283页，2016年。7[2] Jan Achterhold，Jan Mathias Koehler，Anke Schmeink，and Tim Genewein.变分网络量化。在2018年国际学习代表会议上。一、二[3] Yoshua Bengio Nicholas Leonard和Aaron Courville通过随机神经元估计或传播梯度以用于条件计算。arXiv预印本arXiv：1308.3432，2013。二、三、四[4] Jungwook Choi，Zhuo Wang，Swagath Venkataramani，Pierce I-Jen Chuang ， Vijayalakshmi Srinivasan ， andKailash Gopalakrishnan. PACT：量化神经网络的参数化裁剪激活CoRR，abs/1805.06085，2018。2[5] Junyoung Chung，Sungjin Ahn，and Yozhou Bengio.层次多尺度递归神经网络。在2016年国际学习代表会议上。四、六[6] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。In C. Cortes，N. D. 劳伦斯D. D. 李，M。Sugiyama和R.Garnett，编辑，Advances inNeural Information Processing Systems 28，第3123Curran Associates，Inc. 2015. 2[7] Zhen Dong，Zhewei Yao，Amir Gholami，Michael W.妈妈，亲爱的，还有科特·库兹。Hawq：Hessian awarequantization of neural networks with mixed-precision. 在IEEE国际计算机视觉会议（ICCV），2019年。2[8] 史蒂文·K杰弗里·埃塞尔McKinstry、Deepika Bablani、Rathinakumar Appuswamy和Dharmendra S.莫达已学习步长量化。在2020年国际学习代表会议上。2[9] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假说：寻找稀疏的、可训练的神经网络。在2019年国际学习代表会议上7[10] 乔舒亚·弗洛姆、舒威塔克·帕特尔和马泰·菲利波塞。卷积神经网络中的异构二值化In S.Bengio，H.Wallach，H.拉罗谢尔湾格劳曼N. Cesa-Bianchi和R. Garnett，编辑，Advances in Neu-ralInformation Processing Systems 31，第4006Curran Associates，Inc. 2018. 2[11] Ruihao Gong，Xianglong Liu，Shenghu Jiang，TianxiangLi，Peng Hu，Jiazhen Lin，Fengwei Yu，and Junjie Yan.可区分的软量化：桥接全精度和低位神经网络。在IEEE国际计算机视觉会议（ICCV），2019年。2[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第7701、8[13] Sambhav R Jain、Albert Gural、Michael Wu 和Chris HDick。训练量化阈值，用于深度神经网络的准确和有效的定点推理。arXiv预印本arXiv：1903.08066，2019。二、七[14] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax进行分类重新校准在2017年国际学习代表会议上二、三、六[15] Sangil Jung ， Changyong Son ， Seohyung Lee ， JinwooSon，Jae- Joon Han，Youngjun Kwak，Sung Ju Hwang，and Changkyu Choi.通过优化量化间隔和任务损失来学习量化深度网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第4350-4359页二、七[16] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998. 7[17] Fengfu Li，Bo Zhang，and Bin Liu.三重网络在EMDNN的NIPS研讨会上，2016年。2[18] Qian Lou，Feng Guo，Minje Kim，Lantao Liu，and LeiJiang.Autoq：自动内核神经网络量化。在2020年国际学习代表会议上。3[19] ChristosLouizos，MatthiasReisser，TijmenBlankevoort，Efs- tratios Gavves，and Max Welling.离散神经网络的松弛量化。在2019年国际学习代表会议上。一二三四七[20] Christos Louizos、Max Welling和Diederik P.金玛通过l0正则化学习稀疏神经网络在2018年国际学习代表会议上五、六[21] Chris J. Maddison，Andriy Mnih，and Yee Whye Teh.具体分布：离散随机变量的连续松弛。在2017年国际学习代表会议上。二三五六[22] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ，

下载后可阅读完整内容，剩余1页未读，立即下载