深度神经网络零激发量化技术及其性能优化方法

156 浏览量更新于2023-10-25 收藏 1.82MB PDF 举报

量化方法

误差补偿

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8311一切Kanghyun Choi1，Hye Yoon Lee1，Deokki Hong1，JoonsangYu2，Noseong Park1，Youngsok Kim1，and Jinho Lee1*1延世大学计算学院2CLOVA ImageVision，CLOVA AI Lab，NAVER1{kanghyun. choi，hylee817，dk. hong，noseong，jingsok，leejinho}@yonsei.ac.kr2joonsang. navercorp.com摘要模型量化被认为是一种很有前途的方法，可以大大降低深度神经网络的资源需求。为了解决量化误差引起的性能下降，一种流行的方法是使用训练数据来微调量化网络。然而，在现实世界环境中，这种方法经常是不可行的，因为训练数据由于安全、隐私或保密问题而不可用零拍量化解决了这样的问题，通常通过从全精度教师网络的权重中获取信息来补偿量化网络的性能下降在本文中，我们首先分析了国家的最先进的零炮量化技术的损失面与通常的知识提取问题相比，零激发量化经常遭受1）一起优化多个损失项的困难，以及2）由于使用合成样本而导致的泛化能力差此外，我们观察到许多权重在训练量化网络期间未能越过舍入阈值，即使为了更好的性能而基于观察，我们提出了AIT，一种简单而强大的零激发量化技术，其以以下方式解决了上述两个问题：AIT i）仅使用KL距离损失而没有交叉熵损失，以及ii）操纵梯度以保证权重的某一部分在越过舍入阈值之后被适当地更新实验表明，AIT的性能大大优于许多现有的方法，接管在该领域的整体国家的最先进的地位。1. 介绍深度神经网络量化[14，23，37，69]是提高深度神经网络（DNN）计算效率的有力工具当伴随着*通讯作者低位宽硬件设计[29，50，59]，可以大大降低DNN的延迟和能耗。然而，量化模型的一个问题是，它们经常遭受精度的显著下降，主要是由于量化误差[37]。解决这个问题的一种流行方法是使用训练数据进一步训练或校准模型[3，9，24，53，66，69]。在微调过程中，使用量化值执行正向传递，而使用浮点值执行反向传播，以恢复初始量化中的准确度损失。不幸的是，这样的微调方法，假设在量化时训练数据的完全可用性，在现实中往往是不可行的。许多模型只向公众公开其训练的权重，数据集可能包含专有，机密或敏感数据，从根本上禁止共享。因此，零拍量化（或无数据量化）[4，5，10，11，45，62，67，68，70]是量化的必要它假设在量化时只有架构和预训练的权重可用。目前成功的方法主要是由生成方法[5，10，39，62，67，70]。使用来自生成器的合成样本，知识蒸馏[22]适用于全精度模型。已知的是，现有技术的方法实现了与数据驱动方法几乎相似的quantization- tion with real samples），并且在4位定点设置上具有相当的性能。[10 ]第10段。然而，零拍量化中的微调方法主要是从既不考虑量化也不考虑合成样本的公知量化问题[8，20，22]中采用的与知识蒸馏一样，零次量化的损失函数通常被构建为针对硬标签的交叉熵（CE）和针对全精度网络输出的Kullback-Leibler（KL）发散的组合。1、工作良好1在本文的其余部分，我们将CE称为硬标签的交叉熵，KL称为全精度网络的KL散度，除非另有说明。8312在实践中，但是没有详细的研究来反思在零拍量化的上下文中的损失的适当性。因此，需要对这些解决方案进行更多的分析。此外，合成样本的分布可以不同于原始数据的分布在这种情况下，它们可以被认为是一种对抗性样本（也可以参见图6的示例），因此，量化网络产生了巨大的泛化差距。据我们所知，我们第一次进行深入分析的损失表面的零拍量化问题。通过分析，我们发现了几个关键的观察，更好的量化。首先，量化模型通常难以优化多个损失项，并且损失项无法合作-换句话说，在许多情况下，CE和KL的梯度之间的角度第二，KL通常有一个更平坦的损失面比CE，具有更好的推广潜力。为此，我们提出了一种方法来解决零拍量化，称为AIT（所有在教师）的问题。在追求损失曲线更平坦的表面的同时，AIT让量化的学生模型更接近全精度的教师模型。更具体地说，我们排除了CE从损失，并应用我们提出的梯度淹没使得量化的学生模型可以忠实地类似于全精度教师模型。• 我们对AIT进行全面评估。实验结果表明，AIT算法的性能明显优于现有算法，在零拍量化问题上具有先进的2. 背景及相关工作2.1. 量化神经网络的量化已经研究了一段时间，并且有许多方法[6，12，17，19，30，49]。在这项工作中，我们考虑对称的，均匀的量化，这是众所周知的是更容易建立硬件架构，tures。在n比特的情况下，权重参数θ由2n个范围中的一个表示我们使用θq来表示作为量化函数Quant（）的输出的量化权重。对于Quant（），我们使用一个简单而有效的函数，如下所示[24]：θq=Quant（θ）=<$θ×S−z<$，（1）2n− 1只有KL。此外，还设计了S= θmax−θ min 、（二）以保证在每一层中更新权重的某一部分的方式来因此，量化模型更接近于全精度教师，并且我们的方法接管了各种数据集的最先进的位置。我们的贡献可归纳如下：z=S×θmin+ 2n−1，（3）其中S是将θ的范围转换为n位的缩放因子，z决定将零映射到哪个量化值。量化后，量化后的整数值表示通过反量化获得的θ′∈R• 我们分析了一阶和二阶损失面，即，梯度和Hessian，零拍量化问题。据我们所知，我们是第一个θ′=（θq+z）.（四）S仔细研究零拍量化问题中的损失函数• 我们识别出来自CE和KL的梯度从微调的开始到结束形成大角度。这意味着，量化的网络是从他们的权衡，而不是受益于他们的和谐工作。• 我们分析了损失表面的局部曲率，并观察到我们感兴趣的两种损失表现出大量的曲率差异。• 我们观察到，量化的学生遭受不频繁的更新，其中只有少数几层改变其整数权重，其余层停留在舍入阈值以下。• 基于这些发现，我们提出了AIT，它不包括交叉熵损失，并使用我们提出的梯度淹没方法操纵梯度激活值的过程相同，不同之处在于最小值和最大值是通过观察几个批次的激活并取移动平均值而获得的2.2. 零拍量化尽管量化已经被证明即使对于极低的比特也是有效的[14，40，53，69]，但它们通常需要训练数据来微调或校准。零拍量化是一种缓解训练数据隐私或机密性问题的方法早期的零拍量化方法主要关注如何通过使用权重均衡、偏置校正或范围调整等方案来构建良好的量化函数Quant（）[4，45，68]。其中，ZeroQ [5]是第一个引入蒸馏数据概念的工作，该数据旨在匹配原始全精度网络的批量范数统计数据。与此方案，选择适当的混合精度量化的每一层已经提出了一起。在ZeroQ之上，DSG [67]增加了多样化的样本生成以提高性能。8313QKLP图1.硬标签上交叉熵与全精度模型上KL发散之间的余弦相似性图。底部是在时期200处知识蒸馏（KD，左下）和零激发量化（ZQ，右下）的后来，GDFQ [62]采用生成模型[44，48]来创建更好的样本。生成器G和量化模型Q用以下损失函数联合训练3.1. 梯度余弦相似性在这一小节中，我们试图找到一个部分的答案的问题：CE和KL合作的量化？如第2.2，当前零激发量化技术的损失函数[10，62，70]主要由针对硬标签的CE和针对全精度教师的KL发散组成。然而，人们已经讨论过，当学生能力有限时，更好的模型不一定是好老师。在这种情况下，学生往往不得不在KL和CE之间做出权衡[8]。由于量化模型的表示能力要低得多[24，46]，因此它们很难优化这两项。此外，由于合成样本与真实样本的分布不完全匹配，通过硬标签和教师输出与每个样本相关联的标签可能是不同的，从而导致难以解决这两种损失。在这方面，[16]建议使用两个梯度的余弦相似性作为确定辅助是否可以对单个主任务做出贡献的度量。作者建议，这两个损失应该一起使用，只有在步骤中，他们的余弦相似性大于零（当他们形成一个锐角）。因此，受[16]建议的启发，我们分析了零拍量化的训练如下。使用GDFQ [62]作为零拍量化的代表，我们测量了gKL和gCE的余弦相似性，用合成数据训练量化的ResNet-20模型LGDFQ（G）=（1−α）LCE（G）+αLBNS（G），（5）LGDFQ（Q）=（1−δ）LCE（Q）+δL（Q），（6）其中两者都利用交叉熵（LCE），而生成器匹配来自全精度模型（LBNS）的批量归一化统计数据，并且量化网络优化KL发散（LKL）。GDFQ的变体目前正在通过采用更好的生成器[70]，对抗训练[39]或边界支持样本生成[10]来形成最先进的零拍量化系列。在这项工作中，我们提供了一个深入的分析损失函数LGDFQ（Q）的性能，并提出了一种新的方案，以提高其性能。3. 零拍量化在本节中，我们对最先进的零拍量化方法的一阶/二阶损耗表面进行了深入分析。我们研究了CE和KL对零拍量化设置的损失函数的影响，并揭示了它们不是合作的，而是相互阻碍的第3.1节）。然后，我们研究了与海森透镜的局部曲率的差异。因为零拍量化遭受较大的泛化间隙，所以找到更平坦的最小值的解决方案是至关重要的（Sec.3.2）。全精度教师是预先训练的，并且生成器与量化的学生使用Eq.（5）和等式（6）α = δ = 0。5所示。为了进行比较，我们还使用相同的损失函数，从基于常见真实数据（CIFAR-10）的知识蒸馏中测量了相同的度量，其中预先训练的ResNet-20作为教师，随机初始化的结果如图所示1.一、使用表示为“KD”的真实然而，在使用表示为下面的两个图显示了梯度的角度在这两个图中，gCE被设置为（1，0），并且绘制gKL以保持与gCE的相对角度。如图所示，该趋势在整个训练过程中持续存在。在训练开始后，ZQ的余弦距离立即变为负值，并一直保持到训练结束这意味着两种损失的组合不能很好地相互配合，并且一起使用它们可能会损害模型性能。虽然为了清楚起见，我们只显示了一个案例，但在许多模型和数据集中都观察到了相同的趋势更多结果请参见附录。8314∂θ2 ∈∈ −··CE-KD（实时数据）KL-KD（实时数据）15 15CE-ZQ（合成）KL-ZQ（合成）损失10500100200300 400时代10500100200300 400时代(a) 局部曲率与可概化性之间关系的概念图(b) 实际数据驱动的知识提取（顶部）和GDFQ（底部）的Hessian矩阵的迹值(c) 沿最大特征向量的损失面的可视化（d）特征值的分布。图2.损失面分析。3.2. 概化在Sec中的观察。3.1建议只使用两个损失中的一个-KL分歧对全精度教师或CE对硬标签-可能更好地解决问题。一些工作[8]建议修改教师进行蒸馏，但这种方法在零射击设置中不可用，因为我们无法访问训练数据在这方面，我们研究了损失条款的普遍性。包括零拍量化，依赖于合成样本的各种应用[13，36，38，51，58，61，64]通常会遭受来自数据分布差异的巨大泛化差距。人们可以很容易地推断出，当在零激发环境下执行时，量化需要更强的泛化为了评估推广性，我们测量损失表面的局部通常用Hessian矩阵H（θ2LRn× n，其中θ是n个权重参数的向量）测量，损失曲面的局部曲率是一个引起该领域广泛关注的度量，并且被认为是更好推广的关键[2，7，25- 28，31 ]。如示于图2a，如果优化器稳定在一个尖锐的最小值，在测试时的性能很可能会招致更大的退化相比，平坦的最小值。如果合成数据错误地对验证数据分布进行建模，则这种差距会大得多根据这一发现，许多文献支持较小的局部曲率改善推广的主张[2，7，25图 2b 绘制了 Tr （ H ）， Hessian 矩阵的迹，由PyHessian [63]实现Lanczos al-出租m [35]近似。我们将海森计算分别用于的CE和KL。迹线值显著不同，其中KL的迹线值远小于CE。零次量化（右，ZQ）的差距明显大于真实数据知识蒸馏（左，KD）。此外，图中显示的特征值2d也显示了损失项的局部曲率的巨大差异。而CE在高特征值时具有较长的尾部，KL的尾部更集中于低特征值。这可能会导致两个结论：KL发散的损失表面更平坦，或者模型已经收敛到KL发散损失表面的最小值。然而，在我们的案例中，我们认为它主张前者，基于辅助实验。通常观察到，在最小值附近，梯度之间的差异开始出现[18，43]。遵循同样的考虑，我们测量在一个时期内平均的梯度的余弦距离，与前一个时期相比（时期间余弦相似性）。如图3a所示，零激发量化设置（ ZQ ）中的 KL 的梯度指向与真实数据蒸馏（KD）的方向一致的方向（大余弦相似性），指示其尚未达到最小值。图2c示出了损失表面的更直接的可视化。从Hessian矩阵中，我们在每个时期取最大的特征向量e，通过计算L（θ（t）+kegn（t）），在左侧图上绘制CE和KL的值，其中k[0。5，0。5]，其中g是沿 e的平均梯度。左图以红色方案表示CE，以蓝色方案表示KL。它清楚地表明，表面是平坦的KL表面，特别是接近训练结束。Log（Tr（H））Log（Tr（H））佛罗里达t Minim一Syn的 tic沙 Rp 迷你马Tra在8315l，k∈l，k1 .一、510的情况。50ZQ KD（真实数据）0 100 200 300 400时代(a) 历元之间梯度的余弦相似性。(b) 在epoch 60处，ResNet-18的每层更新的量化参数的数量。(c) 在epoch 350处每层更新的量化参数的数量ResNet-18。3.3. 总结图3.纯KL零拍量化的分析。限制整数值更新。在培训期间，总结本节中的研究，我们首先观察到CE和KL在梯度空间中形成大角度，并且量化模型难以优化两个此外，通过测量来自Hessian矩阵的统计数据，我们得出结论，KL具有更平坦的损失表面，可能更好的泛化，这是生成式零拍量化方法的一个重要问题。4. AIT方法在本节中，我们将详细描述我们的AIT（All In theTeacher）方法。在SEC的观察。3、首先从损失中去掉CE项，并应用一种新的梯度淹没，使量化模型尽可能接近全精度教师。4.1. 仅KL零激发量化受SEC实验的启发。3.2，我们运行GDFQ [62]，只有KL损失（即，δ= 1）。但是，如稍后在Tab中所示2、性能严重下降量化网络内部存储其全精度值。参数在反向传播的前向传递中进行量化，梯度应用于内部全精度值。随着梯度值在几次训练后变得更小，参数的变化通常不会大到足以跨越阈值，并且只有少数几层不断进行变化，阻止模型向损失曲面中的较低点移动4.2. 梯度淹没为了解决仅KL方法的问题，我们提出了梯度淹没（GI）。总的来说，我们试图动态地操纵每个层l的梯度gl，使得保证一定数量的参数以其整数值更新利用随机梯度下降，考虑参数θl，k在步骤k的更新规则，学习率为η：θl，k+1=θl，k− η·gl，k。（七）在梯度淹没条件下，修正规则为：对于参数θl，k，量化参数θq和in all settings设置.我们从实验中找到了解释图3a.即使在训练结束时，相应的梯度gl，k从层L，l，k的gKL保持一致，并且训练更多的时期θ l，k +1 = θ l，k − η·g l ′，k，（8）并没有解决问题。这表明模型在KL曲面的最小值处没有收敛。gl′，k=κl·gl，k，（9）另一组实验示于图1A和1B中。3b和3cκl=argminθq-T，（10）让我们仔细看看这个现象。我们计算通过舍入阈值的权重参数的平均数ql，kκl=I（θql，kq l，k+1 ），（十一）old（量化值从上一步开始发生变化的我们做了两个观察：第一，量化值的部分越过舍入阈值非常小。即使训练尚未稳定（epoch 60），每一步也只有0.0011%的权重被更新在稍后的时期（350），该现象变得更糟，在整个时期中仅更新四个值，这仅是该时期期间每步权重更新的1.8e-7%。此外，变化是非常不平衡的，所有的更新都只发生在三个层中。T=ρ·dim（θl），（12）其中ρ[0，1]是超过量化阈值的预定比例，I（）是指示函数，并且dim（θl）是θl中的元素的数量。我们的目标是找到κl，它保证量化层上的参数更新次数超过一定的比率T。历元间余弦相似性∆θθ8316l，k为了快速找到近似解，我们应用了一个简单的两步启发式算法。首先，从1.0开始，κl加倍，直到<$θq> T。为了满足Eq。10，kl是我们认为这是通过二进制搜索在κ/2和κ之间调整的量化训练过程是为了8317数据集型号（FP32Acc.）比特ZeroQGDFQGDFQ+AIT奇梅拉奇梅拉+AIT电弧电弧+AITCIFAR-10ResNet-2093.894w4a5w5a79.3091.3490.2593.3891.23（+0.98）93.41（+0.03）91.2693.4691.23（-0.03）93.43（-0.03）88.5592.8890.49（+1.94）92.89（+0.01）CIFAR-100ResNet-2070.334w4a5w5a47.4565.6163.3966.1265.80（+2.41）69.26（+3.14）65.1069.0265.40（+0.30）69.26（+0.24）62.7668.4061.05（-1.71）68.40（+0.00）ResNet-184w4a22.5860.6065.51（+4.91）63.8466.83（+2.99）61.3265.73（+4.41）ImageNet71.47ResNet-5077.735w5a4w4a5w5a59.268.3848.1268.4052.1271.8970.01（+1.61）64.24（+12.12）74.23（+2.34）69.2966.2575.3269.22（-0.07）六十七点六三（+1.38）75.54（+0.22）68.8864.3774.1370.28（+1.40）68.27（+3.90）76.00（+1.87）MobileNetV24w4a10.9659.4365.39（+5.96）61.6266.81（+5.19）60.1366.47（+6.34）73.035w5a59.8868.1171.70（+3.59）70.4571.68（+1.23）68.4071.96（+3.56）表1. AIT与无数据量化方案的比较。为了提高计算效率，搜索步骤的总数被限制为五个。此外，为了确保训练的早期稳定性在预热阶段，κ的最大值限制为128，以获得更精确的解。当发生器需要单独预热时，GI预热阶段在发生器预热结束后开始类似于学习率指数衰减调度，我们将指数衰减应用于ρ。我们将在第二节中讨论对此的敏感性。5.45. 实验结果5.1. 实验环境我们在三个数据集上评估了 AIT ， CIFAR-10 ，CIFAR- 100 [33]和ImageNet（ILSVRC 2012 [34]）。CIFAR-10和CIFAR-100包含10和100类图像，并表示小规模数据集。ImageNet拥有1000类图像，120万个训练样本和50K个验证样本，代表了大规模的数据集。对于CIFAR-10/100，我们使用常用的ResNet- 20 [21]模型。对于ImageNet，我们使用ResNet-18和ResNet- 50来表示流行的中型和大型模型，并使用MobileNetV 2[57]来表示轻量级模型。所有预训练的模型都来自pytorchcv库[1]。有关各种型号的更多结果，请参阅附录。对于基线，我们使用ZeroQ [5]、GDFQ [62]、ARC[70]和Qimera [10]作者提供的官方代码AIT使用Py-Torch [52]版本1.10.0实现。所有实验均使用NVIDIARTX3090和A6000 GPU进行。生成器用损失函数Eq.（5）α = 0。5使用Adam优化器[32]，学习率为0.001。为了训练量化的学生模型，使用 Nesterov 的 SGD [47]，动量为 0.9 。对于 AIT ，CIFAR 和 ImageNet 的超参数 ρ 分别设置为 0.001 和0.0001，每100个epoch衰减CIFAR和ImageNet上的实验在学习率η=1 e-4的情况下运行了400个epoch，批量分别为200和16。5.2. 性能比较AIT可以应用于大多数生成式零炮量化方法。在本节中，我们将我们的方法应用于三种方法：GDFQ[62]，提出这种方法的第一种方法，ARC [70]，它改进了生成器，Qimera [10]，同一系列中的SOTA技术。我们还包括ZeroQ [5]进行比较。我们报告顶级1精度。总体而言，无论是在GDFQ、ARC还是Qimera之上实施，AIT在大多数测试设置中均实现了显著的在ImageNet数据集上观察到了显著的改进，特别是在4w4a设置中，因为与全精度（32位）模型仍然存在很大的差距。4 w 4a ResNet-50在GDFQ之上的增益最大，增益为12.12%p，这似乎主要来自GDFQ最初与全精度模型之间的巨大差距（25.61%p）。有关低位设置的结果，请参阅附录。一个有趣的趋势是，对于其他两种具有更好生成器的方法（Qimera，ARC），对于较小的模型（ResNet-50→ResNet-18→ MobileNetV 2），4 w 4a设置的性能增益更大。 Qimera 的改善为（ +1.38%p ， +2.99%p ，+5.19%p），Qimera的改善为（+3.90%p，+4.41%p，+6.34%p）。这间接支持了我们的观点，即容量较小的量化网络难以优化多个损失项，而AIT可以减轻这种影响。此外，ARC+AIT的性能在所有ImageNet设置中都优于Qimera+AIT，除了一个设置，尽管Qimera在默认设置中优于ARC。从发电机型号尺寸上找出了原因虽然Qimera使用了与GDFQ完全相同的生成器，但ARC使用了通过神经架构搜索找到的更大的生成器模型。结果表明，AIT正在更好地利用发电机网络的潜力在Qimera上观察到 CIFAR-10 的性能下降了 0. 03% p 。由于CIFAR-10是一个小数据集，并且性能已经接近fp 32模型，我们认为这是因为没有太多的改进空间。8318×5.3. 消融研究选项卡 . 2 显示了在 GDFQ 上进行的消融研究。ResNet 家族和 MobileNet分别表示为 “RN”和 “MB” 。‘KL-only’ drops CE from the original loss然而，这导致在所有设置中的巨大退化。如在Sec中分析4.1，这是由于量化权重更新稀少、通过应用梯度淹没，损失的性能大于恢复的性能，并且获得优于基线的增益（仅KL+GI）。‘Baseline+GI’不幸的是，它们只会导致性能下降，因为具有CE+KL损失或CE损失的基线GDFQ不会受到上述稀缺权重更新问题的影响。因此，梯度淹没只会对量化权重产生有害的变化。看到“仅KL + GI”的效果此外图与图3c相比，图4示出了更新在每一层中的分布。 ‘KL-only (high lr)’achieves首先，增加学习率会导致已经获得足够更新的几层更新过于频繁，4a和4b，并且许多层仍然没有更新。此外，进一步提高学习率会导致模型发散。图图4c和4d表示梯度淹没的更新次数，其中ρ用红色虚线表示。梯度淹没将梯度调整到正确的水平，从而获得更好的性能。为了进行全面的比较，我们还测试了自适应优化器，如Adam [32]，RMSProp [60]，特别是LARS [65]，它可以调整每层的学习速率。量化模型的这些优化器的结果如表1所示。3 .第三章。'Baseline-'表示现有方法， 'GI-' 表示使用 GI 修改的优化器。结果表明，‘Baseline-LARS’ survived from such trend, it does数据集CIFAR-10CIFAR-100ImageNet模型RN-20RN-20RN-18RN-50MB-V2基线-LARS90.0163.8458.9452.9859.58基线-SGD90.2563.3960.6052.1259.43基线-亚当91.1257.3940.9730.1626.35基线-RMSProp89.8863.1851.1240.6531.52GI-SGD（我们的）91.2365.8065.5164.2465.39GI-Adam（我们的）91.3364.3865.4765.6761.33GI-RMSProp（我们的）90.8265.7865.7362.4265.41表3.各种优化器上的GI数据集模型0.0050.001ρ0.00050.00010.00005CIFAR-100ResNet-2063.0165.8065.4165.0465.30ImageNetResNet-1857.9560.1164.4865.5165.92表4.敏感性分析。与“基线-SGD”相比有显著差异。我们进一步扩展我们的研究，将GI应用到亚当和RMSProp，写为“GI-Adam”和“GI-RMSProp”。结果表明，该方法在各种优化器上都具有良好的性能，并且仍然优于现有的方法。5.4. 敏感性分析ρ值控制保证在每层中获得更新的量化权重的部分。在选项卡中。4.在GDFQ+AIT的基础上进行了ρ结果表明，AIT对ρ的影响不大，但对ρ的影响不大。更多结果请参见附录表5.显示了我们的方法与GDFQ相比的学习率敏感性。结果表明，GI方法对学习率的变化具有鲁棒性，数据集，同时稳步优于基线方法。5.5. 进一步分析在本节中，我们将介绍AIT的更多细节。图5a示出了在基线GDFQ、“仅KL”和AIT中的训练上的KL发散AIT能够达到较低的KL距离。这也是我们对SEC的分析4.1KL仍有进一步优化的空间。另一个观察结果可以从图5b中找到，其中我们测量了CE和KL之间的角度。对于现在表明，数据集CIFAR-10CIFAR-100 ImageNet型号RN-20 RN-20 RN-18RN-50MB-V2基线（GDFQ）90.2563.39 60.60 52.12 59.43仅吉隆坡90.06 58.93 58.49 42.64 47.03ηCifar-100（RN-20）ImageNet（RN-18）GDFQ AIT GDFQ AIT1e-2 49.81 66.96 40.78 65.69表2. 消融研究。表5.学习率敏感性分析。仅KL（高LR）92.2062.2065.3461.6864.701e-358.1066.2140.9065.57基线+GI89.3259.0555.0144.0943.571e-463.3965.8053.2865.51仅CE + GI90.8951.5752.7227.8633.881e-561.0865.9259.3265.70AIT（仅KL + GI）91.2365.8065.5164.2465.391e-659.4765.7360.6065.238319×(a)（b）（c）（d）图4.更新的量化值的分布，在较早时期（a）、较晚时期（b）具有100的学习率，并且在较早时期（c）、较晚时期（d）具有梯度淹没。(a)(b)（c）第（1）款图5.进一步的实验。(a)KL散度(b)GDFQ、仅KL和AIT的KL和CE的余弦相似性。(c)对比验证样本的交叉熵。(a)（b）（c）（d）图6.样品比较。(a)真实CIFAR-10样本（b）合成CIFAR-10样本（c）真实ImageNet样本（d）合成ImageNet样本。每行代表CIFAR-10的10个类中的一个，以及ImageNet的10个随机选择的类。在损失之间。这表示，虽然它们在开始时难以同时优化，但当它们接近全局最小值时，它们变得共享相同的优化方向。AIT牺牲了少量的方向对齐，但通过使用梯度淹没的量化权重更新来优于最后，Fig。图5c示出了AIT在针对硬标签的验证中实现了较低的CE，即使它没有看到真实数据，并且没有针对 CE进行优化。6. 讨论从损失函数中删除针对硬标签的交叉熵（如AIT中所做的）可能是一种惩罚，因为一些方法[10]依赖于样本标签。正如我们在SEC中所展示的那样。5，应用于Qimera的AIT能够获得显著更好的性能，尽管排除了混合标记。此外，我们的方法不依赖于每个图像的硬标签，因此它可以广泛用于分割[41，56]或对象检测[54，55]。隐私泄露是零拍摄量化的一个社会问题，因为生成器创建合成样本，跟踪真实数据的分布。正如几种输入重构技术所指出的[15，42]，合成样本可以重构私有训练数据。然而，在我们的观察范围内，没有迹象表明AIT重建了如图所示的真实数据六、AIT中发电机的训练方法与其基线没有什么不同，因为它不会改变方程中的发电机损耗（5）因此不会进一步导致隐私泄露。7. 结论在这项工作中，我们分析了SOTA家庭的解决方案为零拍量化。通过一系列的实验和分析，我们发现，目前的解决方案可以通过追求更平坦的最小值，并保证在微调时的权重更新。我们通过使量化模型在KL发散方面更接近全精度模型并设计AIT来实现目标-在我们的方法之前，人们习惯性地使用CE和KL的组合作为零炮量化的主要损失。实验结果表明，AIT是有效的，可以很容易地应用到现有的算法。确认这项工作得到了韩国国家研究基金会（NRF）的支持，由韩国政府（ MSIT ）资助（ 2022 R1 C1 C1008131 ， 2022 R1 C1C1011307），2022年版权技术-文化体育观光部和韩国创意内容厅的nology R D计划（项目名称：开发基于人工智能的版权侵权可疑元素检测和教育内容的替代材料内容推荐技术，项目编号：CR202104003，贡献率：30%），以及韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（2020-0-01361，人工智能研究生院计划（延世大学））。8320引用[1] PyTorch上的计算机视觉模型。6[2] Alessandro Ruple，Matteo Rovere，and Stefano Soatto.深度神经网络中的关键学习期在2019年国际学习代表会议上4[3] 郭怡雯、许玉荣、陈傲君、周安邦、姚明。增量网络量化：实现具有低精度权重的无损CNN。在2017年国际学习代表1[4] Ron Banner ， Yury Nahshan ， Elad Hoffer ，and DanielSoudry.卷积网络的训练后4位量化，用于快速部署。arXiv预印本arXiv：1810.05723，2018。一、二[5] 蔡耀辉，姚哲伟，董震，阿米尔·戈拉米，迈克尔·W·马奥尼和库尔特·库茨。ZeroQ：一种新颖的零拍量化框架。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。一、二、六[6] 蔡兆伟，何晓东，孙健，努诺.通过半波高斯量化进行低精度深度学习。IEEE/CVF计算机视觉和模式识别会议论文集，2017年。2[7] Pratik Chaudhari，Anna Choromanska，Stefano Soatto，Yann LeCun，Carlo Baldassi，Christian Borgs，JenniferChayes ， Levent Sagun ， and Riccardo Zecchina. 熵 -SGD：向宽谷倾斜梯度下降。在2017年国际学习代表会议上4[8] 张贤卓和巴拉斯·哈里哈兰疗效知识的升华。在IEEE/CVF计算机视觉国际会议论文集，2019。一、三、四[9] Jungwook Choi，Zhuo Wang，Swagath Venkataramani，Pierce I-Jen Chuang ， Vijayalakshmi Srinivasan ， andKailash Gopalakrishnan. PACT：量化神经网络的参数化裁剪激活arXiv预印本arXiv：1805.06085，2018。1[10] Kanghyun Choi ， Deokki Hong ， Noseong Park ，Youngsok Kim和Jinho Lee。Qimera：具有合成边界支持样本的无数据量化在神经信息处理系统的进展，2021年。一、三、六、八[11] Yoojin Choi ， Jihwan Choi ， Mostafa El-Khamy ， andJung-won Lee. 无数据网络量化与对抗知识蒸馏。IEEE/CVF计算机视觉和模式识别研讨会论文集，2020年。1[12] Yoojin Choi，Mostafa El-Khamy，and Jungwon Lee.走向网络量化的极限在2017年国际学习代表2[13] Yoojin Choi，Mostafa El-Khamy，and Jungwon Lee.双教师类增量学习与无数据生成重放。在IEEE/CVF计算机视觉和模式识别会议论文集，2021。4[14] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。BinaryConnect：在传播过程中使用二元权重训练深度神经网络。神经信息处理系统进展，2015。一、二[15] Alexey Dosovitskiy和Thomas Brox用卷积网络反转视觉表示。InProceedings ofIEEE/CVF计算机视觉和模式识别会议，2016年。8[16] Yunshu Du ， Wojciech M Czarnecki ， Siddhant MJayakumar，Mehrdad Farajtabar，Razvan Pascanu，andBalaji Lakshmi-narayanan.使用梯度相似性调整辅助损失arXiv预印本arXiv：1812.02224，2018。3[17] Julian Faraone、Nicholas Fraser、Michaela Blott和PhilipHW Leong。SYQ：学习对称量化以实现高效的深度神经网络。IEEE/CVF计算机视觉和模式识别会议论文集，2018年。2[18] Mahsa Forouzesh和Patrick Thiran。通过梯度差异提前停止。2020. 4[19] Song Han，Huizi Mao，and William J Dally.深度压缩：通过修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。2[20] Matan Haroush，Itay Hubara，Elad Hoffer，and DanielSoudry.其中的知识：无数据模型压缩方法。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。1[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议论文集，2016年。6[22] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。在神经信息处理系统研讨会的进展，2014年。1[23] Kyuyeon Hwang和Wonyong Sung。使用权重+1，0和-的定点前馈深度神经网络设计1. 在2014年信号处理系统上。1[24] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu、Matthew Tang、Andrew Howard、Hartwig Adam和Dmitry Kalenichenko。神经网络的量化

下载后可阅读完整内容，剩余1页未读，立即下载