无数据网络压缩方法PNMQ：基于参数非均匀混合精度量化生成量化网络的研究

82 浏览量更新于2023-10-26 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

450基于参数非均匀混合精度量化的无数据网络压缩弗拉基米尔·奇金华为诺亚电子邮件：vlavel.chikin@huawei.com米哈伊尔·安提乌赫HSE大学mikhail. gmail.com摘要深度神经网络（DNN）通常具有大量参数并且消耗巨大的存储空间，这限制了DNN在内存受限设备上的应用。网络量化是压缩DNN的一种有吸引力的方法。然而，大多数现有的量化方法需要训练数据集和微调过程来保持全精度模型的质量。由于个人隐私和安全问题，这些不适用于机密场景。针对这一问题，本文提出了一种新的无数据网络压缩方法PNMQ，该方法采用参数非均匀混合精度量化生成量化网络。在压缩阶段，直接为每一层计算最优参数非均匀量化网格，以减小量化误差。用户可以直接指定所需的网络压缩比，PNMQ算法使用该压缩该方法不需要任何模型重新训练或昂贵的计算，这允许在边缘设备上有效地实现网络压缩。在各种计算机视觉任务上进行了大量的实验，结果表明PNMQ比其他最先进的网络压缩方法具有更好的性能。1. 介绍DNN在从图像分类到各种生成任务等大量问题但随着待解决问题的增加，模型的大小显着增加，架构变得更加复杂，参数的数量估计以数亿计。不幸的是，在现实世界中，这种模型的使用和存储是困难的，特别是在计算和存储器资源是瓶颈的各种外围设备和移动设备上。由于神经网络在各个领域的应用需求胆汁处理和应用正在增长，非常需要将神经模型与设备的技术参数相匹配。许多研究者试图提供一些方法来解决这个问题，例如改变现有的模型结构或对原始结构应用各种压缩技术。流行的方法包括修剪，量化，编码方法，知识蒸馏及其各种组合等技术。现在有很多公知的方法和现成的框架可以显著地减小模型大小，但是为了保持压缩模型的高质量，这些方法中的许多方法需要大量的训练数据和昂贵的计算，例如模型再训练，这是显著的缺点。不使用昂贵的压缩计算的方法通常会导致压缩模型的显著质量下降，因为使用均匀量化而不进行模型训练会导致大多数权重的量化近似质量较低。在本文中，我们提出了一种新的网络压缩方法PNMQ，它不使用昂贵的计算，如梯度下降训练或聚类，同时允许我们实现更好的结果，与现有的无数据和无训练的压缩方法，甚至与一些使用数据，模型训练或其他额外压缩技术的方法。首先，我们提出了一个参数族的非均匀量化网格，它依赖于一个单一的标量参数，因此很容易优化。相对于均匀量化，非均匀量化网格的使用显著地改善了我们提供了一个优化管道，它允许在不使用数据和使用少量数据的情况下为每个模型层调整这些非均匀网格此外，我们还证明了模型的不同层需要不同的比特宽度来实现高度的量化近似，并提出了一种基于不同层和比特宽度的量化误差比较来选择足够的层比特宽度的通用无数据算法。该算法自动选择操作-451- -⌊·⌉不同层的最小位宽度，以实现用户可以直接指定的所需压缩比，这是所提出的方法的一个非常方便的特征PNMQ可以应用于任何模型，不依赖于层类型，也不需要改变网络结构。此外，PNMQ与大多数现有的权重压缩技术，如权重修剪，transformations或无损编码兼容。2. 相关作品减少模型参数数量的一种相当流行的技术是修剪[7，14，38，40]。修剪的思想是将神经网络中的单个无关紧要的神经元归零（非结构化修剪），或者减少权重张量的一些子集（内核，通道）（结构化修剪）。知识蒸馏意味着训练一个全新的更小的模型，它是在原始模型的输出上训练的[1，16]。这种方法可以显示出良好的压缩结果，但它需要昂贵的训练，并意味着在原始模型的结构的变化。量化是通过使用低精度数字来压缩模型的强大工具。它可以是均匀的[9，20，30，44]或不均匀的[5，6，18，27，46]。对于均匀量化，通常使用将模型参数映射到有限均匀分布集合的特殊函数Q这种函数的一个常见示例如下：Q（x）=x/s，（1）其中x是具有浮点值的张量，并且s是量化尺度。通过我们将循环函数表示为来自分段[2n-1，2n-1]的整数的集合1]，其中n是量化位宽。利用均匀量化，我们对整个量化区间上的值给予同等的关注。然而，在实践中，模型权重可以不均匀地分布，并且非均匀量化可以提供权重张量中更重要区域的更好近似。非均匀量化权重聚类是非均匀量化的方式之一[3，10，23，41，49]。权值聚类的主要思想是将权值张量分成若干个簇，簇的个数由所需的位宽决定。我们需要存储聚类中心的全精度值和聚类权重分量的整数标签。权重聚类最流行的方法之一是最大化量化器[23，26，36，41]。尽管权重聚类方法很受欢迎，但它有显著的缺点-它需要昂贵的聚类过程并存储大量的浮点数，这对压缩比产生了在我们的工作中，我们提出了一种不同的方法来非均匀量化，解决了上述缺点。压缩感知训练压缩期间的模型训练是一种流行的方式，可以保持具有高压缩比的模型[4，25，34，41有许多关于量化和修剪感知训练的作品，其中作者实现了足够高的压缩比，最终质量接近原始。压缩感知训练方法有一些缺点。它们需要大量的数据和长时间的训练，这在实际问题中通常是不可能的。数据的问题可以通过为任何压缩方法生成人工数据的特殊方法来解决[11，17，39]，但这种方法也需要昂贵的模型训练。在我们的工作中，我们专注于没有训练的压缩方法，并表明我们的技术可以与训练方法竞争甚至击败它们。压缩无需训练这是一个更困难和苛刻的任务，因为它具有更高的执行速度，可以有效地应用于移动设备[15，22，47，48]。其中一种流行的技术是对权重张量[22，47]应用特殊变换，旨在改变权重的分布以增加压缩比。来自[29]的跨层均衡和量化偏差校正技术是我们的主要直接竞争对手之一，是用于保持量化模型质量的有效方法一种流行且有效的方法是训练后量化方法AdaRound [28]，它允许自适应地调整模型层不同权重分量的轮函数。尽管该方法不涉及模型训练，但它使用数据和梯度下降过程来调整其自身的一大组特殊参数，这是一个计算复杂的过程。在模型量化之前进行批量归一化折叠[19]也是一个有用的步骤，因为在这种情况下，我们不需要在压缩模型中存储批量归一化的参数。无损压缩压缩过程中的最后一步可以是对量化模型参数应用高效无损编码算法。存在许多公知的编码方法，诸如熵编码（霍夫曼）或通用编码（算术）算法。一种流行的方法是使用bzip2编码器[2，22]。文献[31，45]中描述的方法演示了基于二进制算术编码器CABAC的压缩算法，该算法在无需模型训练的压缩方法中取得了最好的结果之一。3. 方法描述我们提出的压缩方法包括几个步骤。该算法的总体流水线如图1所示。PNMQ是基于一种特殊类型的非均匀量化的模型权重，以及一个特殊的al-452<$G={x：x=−dp，i∈[0，τ−1]}<$ii∈ppppp−⌊⌉||⌊·⌉Σ图1.在批量归一化折叠和跨层均衡之后，我们对每个模型层的位宽进行了优化，并解决了一个特殊的优化问题，以获得每个模型层的非均匀量化参数的值基于所实现的结果和用户指定的压缩比（SCR），估计允许用于不同层的位宽。该方法使用那些位宽和先前计算的参数用于模型层的非均匀量化。最后，我们应用量化偏差校正。用于选择不同层的位宽度。在压缩过程中，为每一层调整特殊的最优参数非均匀量化网格。PNMQ支持两种模式：无数据-在这种情况下PNMQ的一个显著而又非常方便的特点是模型所需的压缩比是用户可以直接指定的方法参数。我们将此参数称为指定压缩比（SCR）。该算法在选择不同层的位宽时使用SCR，使得量化模型的最终压缩比几乎等于指定值。除了模型权重的非均匀混合精度量化外，PNMQ还使用初步批量归一化折叠[19]，以及[29]中的跨层均衡和量化偏差校正技术。使用这些程序不需要数据。最后，我们建议应用无损编码量化的权重，以进一步提高压缩比。在本文中，我们使用传统的霍夫曼编码算法-一种3.1. 参数化非均匀网格在本文中，我们所说的网格是指点的集合设W为层的权重张量，nτ=2n−1，并且s是量化尺度。我们建议使用以下用于量化的非均匀网格：我n kp参数p[1，2]定义了这个网格，参数d用p和τ表示：τd=1+p+p2+···+pτ−1（3）这个网格包含2n个元素，由于选择了d，这个网格xτ−1中的数字的最大绝对值等于τ。使用n，我们表示非均匀网格Gn的舍入过程。我们提供了一个有效的-对附录A中的非均匀网格进行舍入的有效方法。张量W/sn的分量的值属于离散集合，但不是整数。为了存储整数值，我们在所提出的非均匀网格Gn中使用这些分量的整数索引。我们将这些整数指数的张量表示为In。在n比特量化的情况下，这些索引的值的集合是从0到2n-1的数字的集合，这实际上对应于在存储模型的压缩权重时使用n比特算术图2.所提出的参数非均匀网格与均匀网格（n=4）的比较示例。对于p=1，所提出的网格是均匀的，并且随着p的增加，接近零的相邻数字之间的距离减小，远离零的相邻数字之间的距离增加，参见图2。所提出的技术非-k=0我<${0}<${yi：yi=dpk，i∈[0，τ −2]}k=0（二）均匀量化允许我们更详细地近似小的模权值，其通常构成大部分权张量。有时候，453，，，τΣ··s，ps，p某些层的权重具有非常低的熵，并且对于这样的层，所提出的非均匀量化的使用尤其提高了量化近似的平均精度。3.2. 设置量化参数对于具有权重张量W和给定位宽n的每个模型层，我们通过解决特殊的优化问题来调整所提出的参数化非均匀量化网格（参数p）和量化尺度（参数s）。对于无数据模式，我们建议最小化以下损失函数：或等式并且利用非均匀量化的相应最优参数s和p来保持该损失的所实现的最小值L_opt，使用该最优参数s和p来实现该损失值。这是我们压缩算法中最耗时的部分。所有进一步的计算所需的时间都是微不足道的。所提出的位宽选择过程的方案如图3所示。该方法将不同层和位宽的Lopt的所有值收集到一个通用列表中，并按升序对其进行排序。接下来，该方法从最小到最大的L_opt值遍历该列表，并且对于L_opt的每个当前值，将其视为阈值。对于每个阈值，该方法形成一个LDF（W，s，p）=<$W−sWn最小值，（4）根据以下规则设置层位宽度：对于每个层，我们选择最小位宽度，并且对于数据感知模式，我们提出最小化以下损失函数：L_opt的值小于当前阈值L_opt。由于使用了Eq.（4）和等式（5）是量化误差的范数，LDA（W，X，s，p）=<$WX−s，W，nSpX−→min，（5）随着bitwidth值的增加而减小。其中X是某批数据。对于我们的数据感知方法，我们使用的数据明显少于源模型训练期间。参数p在分段[1，2]上被优化，并且参数s在段[0，max]上被优化|W|]中。我们优化建议的损失函数，仅两个参数s和p。在这方面，为了解决这些优化问题并找到参数s和p的最佳值，我们可以使用快速算法，该算法使用蛮力而不使用梯度下降。因此，PNMQ可以在大多数移动设备上部署。我们比较了不同类型的规范，可以使用在建议的损失函数。根据实验结果，我们建议使用L4范数作为最有效的估计.有关各种规范的详细比较，请参见附录B。3.3. 层位宽度通常，为了实现量化近似的良好精度，不同的层需要不同的量化位宽。我们提出了一种选择不同的方法-图3.位宽选择过程的方案。例如，SCR等于7。基于所获得的层位宽集合，我们可以使用以下公式来估计模型的当前压缩比（CR）F·32输入不同层的位宽，这就考虑到了这一点。该方法基于使用特殊函数来估计量化近似的精度CR=pibi+B32+Mi∈Q、（6）对于不同的层和位宽也是一样的。与将整个模型量化为固定位宽相比，这种方法使我们能够在不降低质量的情况下获得显著更高的压缩比。可能的最小和最大位宽值nmin和nmax由用户设置。在我们的工作中，我们使用nmin=3和nmax=8作为默认值。对于每个层和来自段[nmin，nmax]的位宽值，该方法解决了最小化来自等式（1）的损失的问题（四）其中，F是全精度模型中的参数的数量，Q是量化模型层的集合，Pi是第i层r的大小，Bi是第i层r的位宽，B是量化模型中的全精度参数（偏置和量化参数）的数量，以及M是具有关于层的位宽的信息的实际上，M的值是绝对不重要的。随着当前阈值L_opt增大，来自等式（1）的压缩比增大。（6）模型的单调性Sp454p增大当达到SCR时，我们停止并固定当前阈值L_opt和不同层的相应位宽集合。我们使用这组位宽和相应的存储的最佳参数s和p来优化模型层。3.4. 减压程序减压过程进行得非常快。对于每一层具有位宽参数n和非均匀量化的参数p，我们可以恢复所使用的非均匀量化网格Gn。具有比例因子s和由网格Gn的点的整数索引In编码的压缩模型权重，我们可以调用-• 用于对象检测（Bbox）和图像分割（Mask）任务的压缩模型的平均精度（mAP）和平均• 量化后的模型的压缩比，其由来自Eq. （六）、• 在对模型的量化部分应用Huffman编码算法为了计算这个系数，需要用公式中的结果霍夫曼码的大小来替换模型的量化部分的大小，公式来自Eq.（6）而且把码本大小加到分母上。计算模型初始权重的近似值W=s·W/sn=s·G n。我知道。（七）大多数的作品，我们比较我们的结果使用一个类似的测量方案的压缩ra-4. 实验P P Ptio。除了少数几篇论文外，在[47]中，作者将压缩计算为权重张量的原始大小与量化大小之比，而不考虑在本节中，我们评估我们的压缩方法的有效性在这方面，我们用几种不同的广泛使用的神经网络进行了实验，用于图像分类，对象识别和图像分割任务。在所有实验中，我们使用对称张量量化[21]对所有模型层的权重进行了很明显，使用其他技术，如仿射量化或每通道量化[21]可以提高压缩模型的最终质量。然而，这些技术涉及存储额外的浮动参数，这需要压缩比的一定降低。参见附录C中的PNMQ的每个通道版本的附加实验结果。实验设置在我们的实验中，我们解决优化问题，从方程。（4）和等式（5）使用选择参数s和p的最佳值作为均匀网格上优化的结果的朴素蛮力算法。可以使用任何其他优化方法，特别是更有效的蛮力算法。在我们所有的实验中，我们的方法的数据感知版本，我们使用32个随机样本的对象识别任务和160个随机样本的图像分类任务的训练数据集。由于数据感知方法的结果取决于所使用的数据，因此我们提供了具有来自训练集的不同随机样本集的多个运行的平均质量度量。为了评估压缩方法，我们使用以下广泛使用的性能指标：• 图像分类任务的压缩模型的Top-1和Top-5精度考虑量化参数和其他全精度参数。相反，[22]的作者不仅考虑了量化参数，还考虑了模型的其他元数据，例如关于结构、层等的信息这可能不显著地降低压缩比。此外，一些作品使用其他方法-而不是霍夫曼算法，例如bzip2 [22]和CABAC [31，45]编码器。4.1. 图像分类烧蚀研究我们提出的方法包括几个独立的技术，在这一节中，我们将研究它们的影响。为此，我们在Ima-geNet 数据集 [8] 上使用 ResNet-50[13]和 MobileNet-v2[37]模型进行了实验，参见Tab。1.一、作为一个基线，我们考虑DFQ方法的权重量化。在批量归一化的折叠之后，我们应用跨层均衡，调整所有层的权重，然后应用量化偏差校正。我们不应用偏置吸收，因为它的目的是有效的量化激活。我们在本节的所有实验中执行所列DFQ技术。由于我们的方法允许使用特殊的损失优化来调整量化尺度，因此我们将我们的方法与DFQ的版本进行比较，其中我们将类似的过程应用于尺度调整，并且还与PNMQ 的版本进行比较，PNMQ使用均匀量化（p = 1）。此外，我们进行了实验，使用非均匀量化的模型，以固定的位宽的最大量化器。在我们的实验中，我们使用了scikit-learn库中的Lloyd-Max量化方法[33]。我们还实现了BM-Max量化器与我们的位宽选择方法的组合-在这种情况下我们称455表1.在ImageNet上压缩ResNet-50和MobileNet-v2模型。调查所用技术的影响。模型方法SCRTop-1acc.Top-5acc.CR无霍夫曼编码CR伴霍夫曼编码基线DFQ全部为5位32.08%55.96%6.3615.17DFQ（带刻度调整）全部为5位46.60%71.69%6.3611.67ResNet-50DFQ +最大值DFQ +混合位最大值全部为5位6.3673.77%75.56%91.74%92.71%6.376.436.486.59无数据PNMQ，p=16.3674.17%91.96%6.3711.4无数据PNMQ6.3675.32%92.68%6.438.34数据感知PNMQ6.3675.50%92.74%6.467.8基线DFQ全部为5位55.31%79.34%6.238.81DFQ（带刻度调整）全部为5位64.14%85.50%6.237.98MobileNet-v2DFQ +最大值DFQ +混合位最大值全部为5位6.2368.62%70.93%88.25%89.91%6.246.566.326.68无数据PNMQ，p=16.2369.73%89.13%6.327.83无数据PNMQ6.2370.35%89.71%6.327.15数据感知PNMQ6.2370.64%89.74%6.266.75这种方法Mix-Bit Mix-Max。这使我们能够显著改善相对于transmitted-Max方法的压缩结果，然而，Mix-BitLloyd- Max方法需要很长的时间来运行。我们将SCR的值设置为等于基线DFQ情况下的压缩比。从Tab中可以看出。1，在我们的方法的情况下，模型的最终压缩比（CR）确实几乎等于SCR的给定值进而，在随后将霍夫曼编码应用于量化权重之后，压缩比增加从给出的结果可以看出，作为一项规则，基线均匀量化的霍夫曼编码的压缩比大于我们的方法的情况下，与非均匀量化。这可以通过以下事实来解释：非均匀网格更积极地近似零周围的区域，并将更多的值分配给该区域;因此，与均匀量化期间相比，相当少的量化值被清零。由于霍夫曼因此，均匀网格将提供更大程度的压缩，因为它将更大数量的权重张量值转换为零。我们还可以观察到，我们的无数据方法比我们的数据感知方法具有更好的压缩比，但精度更低，尽管浮点数和量化参数的数量相同。我们通过以下事实来解释这一点：在数据感知版本中参数s和p的选择是通过优化损失函数来执行的，损失函数包含有关原始问题的更多信息，从而导致更高的质量。在[28]中也有类似的观察与此同时，这种方法可以更好地近似零附近的区域，这可能会导致稍微差一点的com.压缩与霍夫曼编码。在本节中，我们将我们的方法与神经网络压缩的最新方法进行我们在ImageNet数据集上使用ResNet-18，ResNet-50[13]和MobileNet-v2 [37]模型进行了实验，参见Tab。二、我们将我们的结果与专门针对权重压缩的实验结果进行比较，而无需量化激活。我们的直接竞争对手是以下方法：DFQ [29]，OSC [48]，变换编码[22]和Deep-CABAC [31]，它们不使用数据，通过梯度下降修剪和调整大量参数。我们证明，PNMQ不仅在无数据压缩和无训练压缩的主要已知方法中显示出更好的结果，而且可以与一些压缩感知训练方法和具有修剪的量化方法相比，甚至更好，尽管这些方法不是我们的直接竞争对手，因为它们使用更复杂的技术，在实际任务和移动设备上的适用性很差。方法[25]的压缩比略高，但在ResNet-18模型上压缩模型的精度低于PNMQ。该方法在模型二值化过程中使用复杂的权重重新训练我们在压缩比和准确性方面也比CLIP-Q方法[43]有更好的结果，CLIP-Q方法使用模型再训练和权重修剪。还请注意，PNMQ的结果与[47]中的方法的结果相当，该方法使用特殊的变换和权重张量的修剪，并且与AdaRound方法[28]的结果相当，该方法使用数据和梯度下降过程来调整大量参数以进行自适应舍入。456表2.与最先进技术的比较：ImageNet上不同权重压缩方法的结果模型方法数据自由修剪梯度下降调谐Top-1acc.前5名CRCR伴附加编码ResNet-18全精度模型DFQ（我方实施）[25]第47话：我的世界，我的世界[编辑][第47话]数据感知PNMQ-69.76%✓× × 68.81%✓× × 69.13%× × × 68.71%× × × 68.30%× × 68.50%× × 68.60%× × × 69.21%89.08%88.52%88.65%--88.40%88.50%88.76%14.566.617.978.368.28.26.13-7.988.82----7.4ResNet-50全精度模型DFQ（我方实施）[第48话][22]第二十二话[22]第二十二话DeepCABAC [31][28]第28话最后一句话[47]第四十七话[第47话]数据感知PNMQ数据感知PNMQ-76.13%✓× × 74.67%✓× × 66.2%✓× ×-✓× ×-✓× × 74.99%✓× × 73.61%✓× × 75.32%× × × 75.23%× × 74.80%× × 74.70%× × × 73.95%× × × 75.50%92.86%92.18%-90.86%91.86%-91.92%92.68%-92.30%92.40%91.99%92.74%14.557.94---7.946.437.947.88.47.956.46-7.77-9.78.14.4410.888.34---9.97.8MobileNet-v2全精度模型DFQ （我方实施）DeepCABAC[31][28]第28话最后一句话CLIP-Q [43]数据感知PNMQ数据感知PNMQ-71.88%✓× × 68.48%✓× × 71.48%✓× × 70.35%✓× × 71.62%× × × 69.78%1000万日元× × × 70.64%× × × 71.68%90.29%88.36%-89.71%90.25%--89.74%90.20%15.22- 六点三二4.617.726.146.234.64-6.873.57.155.01-- 六块七毛五4.914.2. 目标识别和图像分割我们使用Faster R-CNN [35]进行对象识别任务，并使用Mask R-CNN [12]在COCO-2017数据集上进行对象分割任务。在COCO-2017数据集上训练的ResNet-50骨干的全精度模型[24]来自TorchVision [32]。我们提供了压缩模型的质量指标，请参见Tab。图3，以及由压缩模型产生的输出图像的几个示例，参见图4和Ap-图D。结果表明，在相同的压缩比下，DFQ压缩后的模型质量远低于PNMQ压缩后例如，使用6位DFQ方法压缩模型后，压缩模型的质量显著下降。折痕，特别是，有损失的对象，不准确的面具和其他文物，见图4。在使用SCR为7的PNMQ方法压缩模型之后。64、压缩模型的质量非常接近全精度模型的质量5. 结论本文提出了一种新的网络压缩方法PNMQ。我们的方法属于不需要数据和任何类型的模型重新训练的技术，并且不仅通过无数据方法的标准而且在使用数据和复杂计算进行压缩的方法中提供了优异的结果因457此，在我们的工作中，我们解决了压缩458表3.基线DFQ方法与我们在COCO-2017上针对Faster R-CNN和Mask R-CNN模型的压缩方法的比较。方法位宽SCRBbox地图BboxMar掩模地图没有霍夫曼的掩模mAR编码关于Huffman编码全精度模型32-0.3790.5190.3460.474114-00.00100.0017.6420.48基线DFQ5-0.2490.3710.2330.3506.1814.026-0.3500.4860.3220.4495.189.77混合9.50.3320.4680.320.4469.5314.11无数据PNMQ混合7.640.3690.5040.3410.4667.6510.46混合6.180.3770.5160.3450.4736.187.97混合9.50.3460.4870.3270.4599.5312.61数据感知PNMQ混合7.640.3710.5090.3430.4697.669.62混合6.180.3770.5160.3460.4736.197.43（a）基线DFQ至6位（b）无数据PNMQ，SCR：7。64（c）具有SCR的数据感知PNMQ：7。64（d）全精度模型(e)基线DFQ到5位（f）无数据PNMQ，SCR：9。5（g）具有SCR的数据感知PNMQ：9。5（h）全精度模型图4. COCO-2017上Faster R-CNN和Mask R-CNN模型的基线DFQ方法和PNMQ方法的比较。当数据和大型计算资源由于许多原因而不可用时，在真实条件下的模型。PNMQ的实现和应用非常简单，因为它不需要对模型进行任何更改，并且意味着对非常简单的泛函进行优化。它可以很容易地与各种其他压缩技术兼容，如修剪，特殊权重变换，编码算法，并且还利用诸如每通道量化或仿射量化之类的高级量化技术来进一步增加压缩比和压缩模型的质量。我们希望我们的工作能够启发研究界进一步改进压缩技术，包括将不同的想法与我们的方法相结合。459引用[1] CristianBuciluaˇ ， RichCaruana ， andAle xandruNiculescu-Mizil. 模型压缩。在 Proceedings of the 12th ACMSIGKDD international conference on Knowledge discoveryand data mining，pages 535-541，2006中。2[2] Zhuo Chen，Weisi Lin，Shiqi Wang，Lingyu Duan，andAlex C Kot. 中级深度特征压缩：智能传感的下一个战场。arXiv预印本arXiv：1809.06196，2018。2[3] Yoojin Choi，Mostafa El-Khamy，and Jungwon Lee.走向网络量化的极限。arXiv预印本arXiv：1612.01543，2016。2[4] Yoojin Choi，Mostafa El-Khamy，and Jungwon Lee.单一深度神经网络压缩。IEEE Journal of Selected Topics inSignal Processing，14（4）：715-726，2020。2[5] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。BinaryConnect：在传播过程中使用二进制权重训练深度神经网络，2015年。2[6] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络：训练权重和激活限制为+1或-1的深度神经网络，2016年。2[7] 艾略特·J·克劳利，杰克·特纳，阿莫斯·斯托奇和迈克尔·奥博伊尔。神经网络压缩的结构化修剪的详细研究。arXiv预印本arXiv：1810.04622，2018。2[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[9] Ruihao Gong ， Xianglong Liu ， Shenghu Jiang ，Tianxiang Li，Peng Hu，Jiazhen Lin，Fengwei Yu，andJunjie Yan.可扩展的软量化：桥接全精度和低位神经网络。在IEEE计算机视觉国际会议论文集，第4852-4861页，2019年。2[10] 龚云超，刘柳，杨明，卢博米尔.使用矢量量化压缩深度卷积网络。arXiv预印本arXiv：1412.6115，2014。2[11] Matan Haroush，Itay Hubara，Elad Hoffer，and DanielSoudry. 其中的知识：无数据模型压缩方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第8494-8502页，2020年。2[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页7[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.图像识别的深度残差学习，2015。五、六[14] Yihui He， Ji Lin ，Zhijian Liu ，Hanrui Wang，Li-JiaLi，and Song Han. Amc：移动设备上模型压缩和加速的自动化。在欧洲计算机视觉会议（ECCV）的会议记录中，第784- 800页，2018年。2[15] 何宇航、潘紫玉、李灵犀、单云霄、曹东圃、陈龙。短距离实时车辆检测压缩mobilenet的范围航空图像。2019年国际机器人与自动化会议（ICRA），第8339-8345页。IEEE，2019。2[16] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。2[17] Maxwell Horton ， Yanzi Jin ， Ali Farhadi ， andMohammad Rastegari.逐层无数据cnn压缩。arXiv预印本arXiv：2011.09058，2020。2[18] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和YoshuaBengio。QuantizedNeuralNetworks：Training Neural Networks with Low PrecisionWeights and Activations，2016.2[19] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu、Matthew Tang、Andrew Howard、Hartwig Adam和Dmitry Kalenichenko。神经网络的量化和训练，有效的整数算术推理。在IEEE计算机视觉和模式识别会议论文集，第2704-2713页，2018年。二、三[20] Benoit Jacob，Skirmantas Kligys，Bo Chen，MenglongZhu ， Matthew Tang ， Andrew G. Howard ， HartwigAdam，Dmitry Kalenichenko.神经网络的量化和训练，用于高效的仅整数算术推理。CoRR，abs/1712.05877，2017。2[21] Raghuraman Krishnamoorthi Quantifying Deep Convolu-tional Networks for Efficient Inference ： A Whitepaper.arXiv预印本arXiv：1806.08342，2018。5[22] Thors t enLaude，YannickRichte r，和J o？nOstermann。使用变换编码和聚类的神经网络压缩arXiv预印本arXiv：1805.07258，2018。二五六七[23] C le'mentL e vrard. 量化/聚类：k -means何时以及如何工作？Journaldelataguie'te'fr anctagaisedestatistique，159（1）：1-26，2018. 2[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的公共对象。欧洲计算机视觉会议，第740Springer，2014. 7[25] 林小凡，赵聪，潘伟。精确二进制卷积神经网络。arXiv预印本arXiv：1711.11294，2017。二六七[26] 斯图尔特·劳埃德。脉码调制中的最小二乘量化IEEE信息论学报，28（2）：129-137，1982. 2[27] Daisuke Miyashita，Edward H Lee，and Boris Murmann.使用对数数据表示的卷积神经网络。arXiv预印本arXiv：1603.01025，2016。2[28] Markus Nagel 、 Rana Ali Amjad 、 Mart Van Baalen 、Chris- tos Louizos和Tijmen Blankevoort。上还是下？用于后训练量化的自适应舍入国际机器学习，第7197PMLR，2020年。二六七[29] Markus Nagel、Mart van Baalen、Tijmen Blankevoort和Max Welling。通过权重均衡和偏差校正实现无数据量化。在IEEE/CVF计算机视觉国际会议论文集，第1325-1334页二、三、六460[30] Maxim Naumov，Utku Diril，Jongsoo Park，BenjaminRay，Jedrzej Jablonski和Andrew Tulloch。关于周期函数作为神经网络量化的正则化器，2018。2[31] David Neumann ， Felix Sattler ， Heiner Kirchhoffer ，SimonWiedemann ， KarstenMüller ， Heik oSchw arz ，ThomasWie-gand ， Detlev Marpe ， and WojciechSamek.Deepcabac：神经网络权重和权重更新的即插2020年IEEE图像处理国际会议（ICIP），第21-25页。IEEE，2020年。二五六七[32] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：一个操作风格的高性能深度学习库。 In H.Wallach ， H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和 R. Garnett ，编辑， Advances in Neural InformationProcessing Systems 32 ，第 8024Curran Asso- ciates ，Inc.，2019. 7[33] FabianPedregosa，GaeülVaroquaux，AlexandreGramfort ， Vincent Michel ， Bertrand Thirion ，Olivier Grisel ， Mathieu Blondel ， Peter Prettenhofer ，Ron Wei

下载后可阅读完整内容，剩余1页未读，立即下载