ADMM对齐量化：保持数据相关性的优化

124 浏览量更新于2023-10-26 收藏 735KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12538AlignQ：基于ADMM的相关保持的对齐量化陈廷安1，杨德年2，3，陈明贤1，31台湾国立台湾大学电机工程研究所2中央研究院信息科学研究所3中央研究院信息技术创新研究中心网址：tachen@arbor.ee.ntu.edu.tw，dnyang@iis.sinica.edu.tw，网址：www.example.com，mschen@ntu.edu.tw摘要（a）非独立同分布数据量化是一种有效的网络压缩方法，可以减少推理时间。然而，现有的方法忽略了训练数据和测试数据之间的分布差异，从而在推理中引入了较大的量化误差。为了解决这个问题，我们提出了一种新的量化方案，基于 ADMM 的相关性保持的对齐量化（AlignQ），它利用了训练数据测试数据量化训练空间+0.8-0.4-0.6试验空间对齐空间用于量化累积分布函数（CDF），用于对齐数据大量化误差（c）数据相互关系的保存身份证（独立且同分布的）用于量化误差最小化。理论分析表明，量化后数据相关性的显著变化会导致较大的量化误差。因此，我们的目标是保持数据从原始空间到对齐的量化空间的关系，以保留预测信息。我们设计了一个优化过程，利用改变方向的乘法器（ADMM）优化，以尽量减少对齐和量化前后的数据相关性的差异。在实验中，我们将非独立身份的。在基准测试中训练和测试数据。我们进一步采用域移位数据来比较 AlignQ 与最先进的。实验结果表明，AlignQ实现了显着的性能改善，特别是在低比特模型。代码可从https：//github.com/tinganchen/AlignQ.git网站。1. 介绍卷积神经网络（CNN）已被证明是计算机视觉任务中的有效模型，例如图像分割[2，35]和目标检测[16，30，34]。然而，当部署在资源有限的移动设备上时，CNN遭受大的计算成本和存储器存储[7]。因此，提出了各种模型加速方法，包括prun- ing[20，22，27，29]，量化[6，42，43]和结构简化[10，45]。量化最近收到了图1.AlignQ的动机图（a）给出了非独立同相（non-i.i.d.）训练和测试数据。从训练数据中学习的图（b）和图（c）说明了我们解决图（a）中问题的动机。在图（b）中，我们建议将数据对齐到相同的空间进行量化，以最小化量化误差。此外，如图（c）所示，我们观察到数据相关性的显著变化引起大的量化误差。因此，我们的目标是保留对齐和量化后的数据相关性，以保留原始空间中的预测信息，以进一步减少量化误差。由于通过减少模型权重和激活的位宽来加速推理的有效性而引起越来越多的关注在现有的量化研究中，量化感知训练（QAT）从训练数据中学习量化参数，包括限幅范围和尺度参数，并将其应用于测试数据[3，8，11，28，47，48]。相比之下，零拍量化（ Zero-shot quantization ，简称ZEQ）采用了知识蒸馏的概念，并采用了全精度模型的批量归一化均值和方差，来学习一个可以生成类似特征的量化模型，以减少量化误差[5，9，19，31，44]。学习的批次统计数据也用于测试。然而，以前的方法忽略了训练数据和测试数据之间的差异。如图1（a）所示，真实世界的图像数据通常是在不一致的质量下收集的12539领带，如不同的颜色，亮度和旋转，导致非i.i.d.（独立同分布）数据[21]。因此，当在测试中使用经训练的参数时，可能会引起大的量化误差。为了解决这个问题，我们提出了AlignQ来将数据对齐到相同的域中进行量化，以最小化量化误差（如图1（b）所示）。在本文中，我们的想法是利用累积分布函数（CDF）作为对齐函数，因为任意连续分布的CDF遵循均匀分布[24]（在第2节中演示）。第3.1节）。均匀空间适合于具有几个简单操作的硬件友好的均匀量化[3，8，28]。此外，CDF保留数据顺序，即，在变换之后，较大的值仍然超过较小的值。此外，我们的理论分析表明，量化后数据相关性的无表变化会导致更大的量化误差。因此，如图在图1（c）中，我们的目标是在对准-量化过程之后保持数据相关性我们利用交替方向乘法（ADMM）优化，以最小化的差异，以减少量化误差。为了实现本文中的两个目标，即最小化1）量化模型的预测损失和2）对齐-量化过程前后数据相关性的差异，ADMM通过将其划分为子问题并求解它们来解决这个多目标优化问题[4]。为了验证所提出的AlignQ可以减少从非i.i.d. 在训练和测试数据中，我们不仅在基准数据集上与最先进的技术进行了比较，包括CIFAR-10 [25]，SVHN [33]，ImageNet [37]，而且还在域转移基准上进行了比较，包括数字[12，13，26，33]和Office-31 [38]。这些贡献摘要如下：1. 我们首次尝试设计一种新的量化方案AlignQ，它将非i.i.d. 数据i.i.d. 以最小化量化误差。2. 我们证明了量化后数据相关性的变化会导致较大的量化误差，从而利用ADMM优化过程来最小化量化前后数据相关性的差异以减小误差。3. 我们将AlignQ与最先进的基准测试和域偏移数据集进行比较。实验结果表明，AlignQ实现了显着的性能改善，特别是在低位宽。2. 相关作品量化感知培训（QAT）。 QAT被设计为学习用于量化的限幅范围或尺度参数在训练过程中[3，11，28，46然后，将训练的量化统计应用于对推断数据进行量化DoReFa [48]和LSQ [11]提出了一种有效的低位向前和向后过程来估计不可微梯度。LLSQ [47]学习了批量归一化层上的移位和缩放因子，以调整量化级别，从而动态减少量化误差。ACIQ [3]、OCS [46]和APoT [28]学习了一个限幅函数来确定量化空间。然而，现有的QAT方法忽略了训练数据和测试数据之间的差异.该差异可能导致更大的量化误差和性能降级。零拍量化（Zero-shotquantization，简称ZEQ）。最近的研究提出了零拍量化（Zero-shot quantization，简称ZEQ），将知识蒸馏[40]纳入量化[5，9，19，31，44，46]。它们利用来自全精度模型的知识来增强低位模型的性能。OCS [46]使用KL发散来最小化全精度和量化模型之间的限幅边界。相反，GDFQ [44]，GZNQ [19]，Ze- roQ [5]，Choi et al. ’s work [特别是，GZNQ [19]还以不同的压缩方法从其他模型中提取了知识，包括修剪和低秩模型。ZeroQ [5]进一步学习了接近全精度模型的批量统计（均值和方差）。此外，ZAQ [31]专注于通过检查通道间离散度来学习与浮点模型类似的功能（从低位模型）。由于ARMQ使用来自预训练的全精度模型的辅助信息，因此它们在训练过程中获得更大的内存和计算成本。此外，WARIQ依赖于来自训练数据的预测结果因此，如图1所示，SQREQ对训练数据和测试数据中的分布差异更敏感，这会导致更大的量化误差。因此，在本文中，我们提出解决问题，非i.i.d. 在训练和测试数据中使用（独立且相同分布的）量化器，以最小化量化误差。3. AlignQ在本节中，我们介绍AlignQ，如图所示2. 秒3.1提出了CDF对齐量化，将训练和测试数据的批次单独对齐到相同的域，以最小化量化误差。我们还设计了一种新的方法来更新量化模型的权重。在第3.2节中，我们专注于在量化过程中保持数据相关性我们证明，量化后的相关性的显着变化会导致大的量化误差。因此，我们提出了一个利用交替方向乘法（ADMM）的优化过程[4]。12540−·≤≤·−·L·−·Conv对齐量化-0.3最小化相关性的变化下面的挑战是应该采用哪种CDF进行调整。由于之前的研究表明CNN权重和激活收敛于正态分布[17，28，32，48]，这也在本文的基准数据集上进行了实验验证（见附录D），因此我们采用正态分布的CDF作为对齐函数：F（x）=Φ（x;μ，σ）=1[1+erf（x−μ）]，+0.6-0.7哪里2σ22x−不0图2. AlignQ概述。AlignQ是一种量化方案，认为1）非i.i.d. 在训练和测试数据中，以及2）在量化期间数据相关性的变化以使量化误差最小化。AlignQ首先将训练和测试批次数据对齐到同一个统一空间中（在第二节中介绍）。第3.1节）。之后，对齐的数据被均匀地量化。此外，为了在量化过程中保持数据相关性并最大限度地降低性能下降，我们利用交替方向乘法（ADMM）来最大限度地减少量化前后数据相关性的差异（详细信息见第2.1节）。3.2）。以最小化量化之前和之后的数据相关性的差异。3.1. CDF对齐量化为了减小非独立同相滤波器上的量化误差，（在─erf（x）= πedt.（一）由方程式x是CNN权重或激活（特征）值，μ和σ是正态分布的平均值和标准差对于权重量化，我们利用批量数据另一方面，我们使用标准正态分布的CDF来代替激活量化，即，μ=0，σ=1。然而，对齐的空间是Uniform（0，1），但权重和活动vations并不总是正值。因此，我们通过（2·F（x）−1） ·α 将F （x ）缩放并移位到Uniform （−α ，α）。3.1.2均匀量化对齐后，数据遵循Uniform（α，α）（i.i.d）。如图2所示，我们可以应用均匀量化[15]：相关和相同分布）数据，如图所示。1，我们的目标是将训练和测试数据都转换为i.i.d.，也就是说，将数据对齐到同一个域，Q（ z）=舍入（2k−1z）2k−1，（二）量化（见图1）2）。3.1.1CDF对齐我们提出了一种利用累积分布函数（CDF）的新数据对齐方法[24]。在定理3.1中，我们证明了任意连续分布的CDF服从均匀分布。定理3.1. （在附录A.1中证明）设X具有连续型的累积分布函数（CDF），它在支撑a x b上严格递增。那么函数Y = F（X）具有均匀分布（0，1）。根据定理3.1，我们通过各个CDF将训练和测试数据对齐此外，CDF转换不会改变数据的顺序，即，CDF变换后的大值仍然大于小值。因此，在-其中z是移位和缩放CDF对齐之后的值。项，即，z=（2F（x）1）α，round表示舍入操作，k是位宽。3.1.3用于更新量化权重的由于量化值是离散的，即，等式中的（2）是不可微的，访问用于更新的权重的梯度是具有挑战性的。因此，我们提出了一个梯度近似的方法来解决这个问题。根据等式（1）和方程（2）中，我们从wq=Q（（2F（w）1）α）导出量化权重wq，其中w是原始浮点权重。设w的概率分布函数（pdf）为f（w），它是具有批次均值和标准差的正态分布 3.1.3）。此外，假设是量化模型的训练损失。因此，w的梯度由微积分中的链式法则获得：对准后的数据的形成和性质仍然L=Q··（2α·f（w））。（三）保留。ww q-0.4+0.8-0.6212541wq我| ∀|−∂w·−−x1+e·{··−}∈∈WL-≥||·||i=1|| ||i=11-范数。现在让单个量化误差最小LQ（W）+µ||D~||1、我 J我J∈定理3.2证明了总量子化er-LΣ||−||代理和目标之间的差异是最小的。当量（3）表明w的梯度可以表示为三项的乘积。第一项是wq的梯度，可以直接从反向传播得到了如下方程：<$wq=<$Q·（2α·在量化之前和之后的相关性XTXjQ（Xi）TQ（Xj），i< j。我们首先设置一个可容忍的错误。总量化误差小于Δ k的概率将很大，即，量化误差被限制在AC中，f（w））是2α，由w导出w=Q（（2·如果发生变化，qF（w）−1）·α）。然而，由于Q是不可微的，所以项Q不能直接从其一阶导数尽管如此，由于Sigmoid函数分布为阶连续S形函数来估计在量化之后的数据相关性是次要的。3.2.2最小化数据相关性根据定理3.2，小量化误差∂wQ∂w（四）当数据的差异发生时，（1）在量子化之前和之后，E（|XTXj−∂w≃ ∂w=s（t（wq））·（1 −s（t（wq），Q（Xi）T我Q（Xj）|），则i0。由方程式我们的目标有两个：1）最小化量化模型的预测损失，2）最小化数据相关性的变化。由于交替方向乘法（ADMM）优化已被证明优于SGD来解决多目标问题[4]，因此我们利用ADMM将复杂问题划分为子问题并有效地解决它们。ADMM约束目标函数如下：n数据为n||Xi−Q（Xi）||1，whe r e||·||1份报告δi=Xi− Q（Xi），δi=1，2，.，n和容忍度W，D（七）量化er r或作为r。则P（n||Xi−Q（Xi）||1<ϵ2我11ϵ2i，j=1; ijE我1JS.T. D−D=0，）≥ 1 − nE [||δ ||2] − 4α<$ni=1（||δ ||+的||δ ||）−2ΣnE（|XTX−Q（X）TQ（X）|）的情况。其等于等式中的目标函数。（六）、D~误差nXiQ（Xi）1不仅与来自每个数据i的单独量化误差δi1有关，而且与数据的差异性密切相关限制在约束中。ADMM求解约束目标Eq.（7）通过将其公式化为增广的lϵ2i，j=1; ij是作为要被调节的目标D12542拉格朗日函数：12543{k+1}公司简介||||L˜˜初始权重W{0}，（k1，k2）-bitwidth2L F（十）L算法1：AlignQ的量化和优化过程2. 数据相关性保存的优化：输入：训练数据x xx，型号ρΣD=a rg. 最小µ||D~||+的||D~L-V{k}||二、X ={1，2，...，n}D12llF设置（权重，激活）量化，和参数（Γ，μ，ρ），优化.输出：量化模型权重W。其中V{k}= D1+ 1Γ{k}。该解决方案由下式确定：阈值化操作，{k+1}。（1−µ）Vl，如果||V{k}||F>μ，1 对于k=1到s步，Dl=ρ||V{k}||Flρ/*CDF对齐量化*/2通过域对齐量化过程转发批量数据（等式（1）和方程（2）译注。3用方程3近似梯度。（四）、0，否则。3. 更新dual变量：（十一）* *Γ{k+1}=Γ{k}+ρ（D{k+1}{k+1}（十二）/ ADMM相关性保留/lll−Dl）。4.中间层的表示。5计算数据相关性D{k}的差异，定义为等式（五）、6通过最小化等式2来更新W{k}（9）SGD。7用等式更新D{k}（十一）、8用等式更新Γ{k}（十二）、return：W{s}（W，D，Γ）=Q（W）+µD1+ trace（rT（Dl−Dl））（八）所提出的AlignQ的量化和优化过程总结在算法1中。3.2.3收敛性分析在这一小节中，我们分析了ADMM优化的收敛性。如算法1中的第5行至第8行所示，我们计算数据相关性，并在每次训练迭代中使用模型权重更新ADMM换句话说，我们在每次迭代中更新一次参数，以实现有效的训练过程。为了保证收敛性，我们研究了数据相关性保持的训练损失的递减，即，Eq.的第二项（8），在量化过程中（见附录E）。L+ρ||D~L- - D型||二、其中D1是从第1个网络层1获得的数据特征（在如图2所示的对准-量化过程之前和之后提取的）的相关性的差异，并且R1表示对偶变量，即，拉格朗日乘数，它作为一种注意力机制，在不同程度上局部地规则化每对数据的重复性变化。最后一项表示Frobenius范数中原始残差的全局正则化（表示为||·||F），罚函数ρ> 0。为了有效地获得最优解（W，D，Γ），ADMM算法求解解耦的子问题，当量（八）、1. CDF对齐量化的优化：W{k+1}=rgmin（W，D{k}，Γ{k}）.（九）W权重使用随机梯度下降（SGD）方法[36，41]更新，其中梯度通过等式近似。（四）、1D是D1的级联，并且D是D1的级联，4.1. 实验设置基准数据集。我们在基准数据集上评估AlignQ：CIFAR-10 ， SVHN [33] 和 ImageNet ILSVRC 2012[37]。CIFAR-10包含10个类别的60 K图像。SVHN包含10个类的600K图像。ImageNet拥有超过120万张图像，包含1000个类。Domain Shift数据集。除了基准图像分类数据集外，我们还在域偏移数据集上评估了AlignQ，包括Office-31 [38]，其中包含三个数据域（每个数据域31个类）和数字数据集，包括四个域（MNIST [26]，MINIST-M [13]，SynDigits [12]和SVHN [33]）。域移位数据是非独立同分布的。场景，其中训练和测试数据来自不同的域。建筑。我们在基准数据集上评估了ResNets [18]，DensNet-40 [23]和MobileNet-V2 [39]模型的AlignQ。此外，我们还实现了量化的DANN [14]和DSAN [49]，这是域转移任务中的基准模型。训练我们在 NVIDIA Tesla V100 GPU 和 NVIDIAGTX 2080Ti上使用PyTorch [ 1 ]实现了AlignQ。˜ ˜LlρL4. 实验12544−表1. CIFAR-10的量化结果。“W/A bit” means quantizationbitwidth for weights and(a) CIFAR-10（b）SVHN(c)对齐的CIFAR-10（d）对齐的SVHN图3.来自训练和测试数据的特征差异图（a）显示了从ResNet-20中提取的CIFAR-10特征的方差图（b）显示了来自MobileNet-v2的SVHN特性的差异。图（c）和图（d）显示了CDF对齐后的数据方差，对应于图（a）和图（b）。超参数。ImageNet的批量大小为512，CIFAR-10和SVHN为128，Office-31为 100，表2. SVHN上的量化结果。* 表示量化方法在分类任务中失败。在训练过程中使用数字数据集。训练时期是200。学习率在[0.01，0.1]。量化空间是U（α，α），其中α被设置为1。ADMM优化中的罚分µ和ρ在[0，0.3]中。4.2. 非i.i.d. 基准数据集和CDF对齐图 3 比较了 ResNet-20 （在 CIFAR-10 上）和MobileNet-v2（在SVHN上）在CDF对齐之前和之后的训练和测试特征的分布（在第二节中介绍）。3.1.1）。图3（a）-（b）呈现了原始数据特征的方差。因此，我们验证了训练和测试数据的分布是非独立同分布的。在基准数据集中。相比之下，Fig.3（c）-（d）采用拟议的综合发展框架调整后的差异模型方法W/A位累积（%）W/A钻头累积（%）实验结果表明，非独立同分布的训练数据和测试数据分布的差异显著减小，验证了所提出的CDF对齐的有效性。4.3. 比较结果在下文中，我们将AlignQ的量化结果与QAT [11，28，47，48]和AlignQ [5，9，19，31，44]2进行比较。4.3.1基准比较CIFAR-10。表1比较了AlignQ与小型（ResNet-20）和大型架构下2在本文中，AlignQ和比较作品被量化为每个卷积层的W/A比特。（ResNet-56和DenseNet-40）。与QAT [11，28，47]相比，AlignQ在4位量化时实现了5%至10%的准确度增量，在2位量化时实现了10%至30%的改进。与QAT相比，SQIQ [5，9，19，31，44相比之下，没有从全精度模型中提取的知识的AlignQ也优于基线。特别是对于2位模型，AlignQ可以获得1%到3%的准确度改进，因为它解决了非i.i.d.的问题。在训练和测试数据时，将数据对齐到相同的空间进行量化，然后保留数据相关性，以有效地最小化量化误差（详见第2节）。3.1和3.2）。SVHN。表2表明ResNet架构量化模型方法W/A钻头累积（%）W/A钻头累积（%）[47]第四十七话二分之二76.9四分之四81.5LSQ [11]二分之二77.7四分之四83.4[第28话]二分之二65.2四分之四81.0[46]第四十六话二分之二-四分之四89.1ResNet-20[19]第GDFQ [44]二分之二二分之二--四分之四四分之四89.190.3ZeroQ [5]二分之二87.9四分之四91.8Choi等人 [9]第一章二分之二88.1四分之四91.9ZAQ [31]二分之二88.9四分之四92.1AlignQ（我们的）二分之二91.2四分之四92.8LSQ [11]二分之二79.6四分之四85.5[第28话]二分之二68.3四分之四84.8ResNet-56ZeroQ [5]Choi等人 [9]第一章二分之二二分之二88.188.7四分之四四分之四92.592.7[47]第四十七话二分之二93.0四分之四93.4LSQ [11]二分之二87.5四分之四91.7[第28话]二分之二59.6四分之四86.1ResNet-20ZeroQ [5]二分之二94.3四分之四95.6Choi等人 [9]第一章二分之二94.7四分之四95.6ZAQ [31]二分之二94.9四分之四95.2AlignQ（我们的）二分之二95.5四分之四95.6[第48话]二分之二*四分之四20.2[47]第四十七话二分之二*四分之四62.512545→→→→→→表3. ImageNet上的量化结果模型方法W/A钻头累积（%）W/A钻头累积（%）[第48话]二分之二-四分之四33.2ACIQ [3]二分之二-四分之四59.3[第28话]二分之二-四分之四58.2[46]第四十六话二分之二-四分之四66.2ResNet-50GDFQ [44]二分之二65.0四分之四68.7Choi等人[9]第一章二分之二63.0四分之四69.1ZeroQ [5]二分之二63.1四分之四69.3ZAQ [31]二分之二65.5四分之四70.1AlignQ（我们的）二分之二66.1四分之四72.7[第28话]二分之二-四分之四44.3ZeroQ [5]二分之二-四分之四26.0ResNet-18GDFQ [44]二分之二-四分之四60.6[19]第二分之二-四分之四64.5AlignQ（我们的）二分之二61.1四分之四65.7AlignQ在SVHN上的表现也优于最先进的技术。此外，我们在具有轻量级架构和较少模型参数的高效模型MobileNet-v2[39]因此，在量化过程期间保持预测精度表2显示，大多数先前的方法在低位宽量化这种轻量级模型时失败，例如，2比特。由于ZAQ在量化模型和全精度模型中考虑了通道间的差异，从而提高了预测性能，因此其准确率达到83.6%。然而，由于ZAQ主要侧重于从预训练的全精度模型中提取知识，但忽略了训练数据和测试数据之间的差异，因此准确性下降很明显AlignQ通过将数据对齐到同一个域并保留数据来解决这个问题（参见第3.1与次级3.2）。因此，AlignQ在2位MobileNet-v2上实现了95.7%的准确性，优于最先进的技术。ImageNet. 我们进一步评估了AlignQ和大规模数据集ImageNet上的最新技术。表3显示了ResNet- 50和ResNet-18架构下ImageNet的量化结果。ResNet-50的AlignQ量化达到72.7%的准确度在4位量化，优于ZAQ的70.1%。此外，AlignQ量化的ResNet-18也获得了比GZNQ更高的预测精度。ZAQ利用全精度模型的预测结果来提高性能。GZNQ进一步采用了其他轻量级模型的结果，通过修剪和低秩方法压缩。然而，如果没有从全精度模型中提取的知识这表明，尽管在量化模型和其他教师模型之间生成的特征的最小差异，但是由于非i.i.d.不减少训练和测试数据。AlignQ结合数据空间对齐的思想进行量化，可以有效地减少这种误差，提高性能。表4.量化DANN（VGG-2）[14]在dig- its数据集上的准确性（%）例如，头部A B表示在源A数据集上进行训练，并在目标B数据集上进行测试。* 表示量化方法在分类任务中失败。W/A钻头方法MNIST → MNIST-M MNIST → SVHN SynDigits → MNIST源仅58.830.450.632/32DANN [14]91.330.658.0AlignQ（我们的）95.336.159.1[第48话]83.536.555.4LSQ [11]52.724.154.5[47]第四十七话57.131.150.62/2APoT [28]***Choi等人[9]第一章*54.348.4ZeroQ [5]*56.247.2ZAQ [31]*56.548.8AlignQ（我们的）95.559.558.2[第48话]88.539.155.8LSQ [11]54.624.153.8[47]第四十七话80.938.256.83/3APoT [28]85.229.0*Choi等人[9]第一章77.557.446.9ZeroQ [5]76.957.447.4ZAQ [31]66.858.148.1AlignQ（我们的）95.859.559.0[第48话]90.641.258.4LSQ [11]55.523.253.4[47]第四十七话81.834.557.84/4APoT [28]91.629.655.6Choi等人[9]第一章87.458.647.2ZeroQ [5]86.658.948.4ZAQ [31]88.359.548.5AlignQ（我们的）96.159.961.14.3.2畴移数据除了基准数据集之外，我们还评估了AlignQ在域偏移数据集上的有效性，其中训练和测试数据位于迁移学习中的不同域（非i.i. d），包括数字[12，13，26，33]和[38]第三十一话数字数据集。表4给出了DANN [14]（迁移学习中的基准模型AlignQ下的量化DANN模型在2位精度下实现了MNIST MNIST-M上10%至40%的精度改进，MNISTSVHN和SynDigits MNIST的4%至10%的改进，因为CDF对齐可以有效地对齐非i.i.d.数据到i.i.d.（均匀空间），以减少量化误差（详见第3.1节）。此外，ADMM优化对数据相关性的变化进行了规则化3.2）。表4还表明，QAQ方法并不总是优于QAT（例如，MNIST MNIST-M和SynDigits MNIST），因为SQREQ依赖于来自训练数据上的全精度模型的知识，从而倾向于在测试数据中生成更大的预测误差。Office-31 数据集。表 5 显示了量化 DANN [14] 在Office-31上的性能。结果表明，AlignQ在六个域移位分类任务中的表现优于现有技术，特别是在低位宽时。AlignQ的5位DANN模型在以下方面达到了71.2%的准确率：12546表5. Office-31上量化DANN（ResNet-50）[14]的准确性（%）。Office-31中的三个数据域包括Amazon（A），表6. AlignQ组件的有效性。CIFAR-10上量化ResNet的准确性（%）网络摄像头（W）和数码单反相机（D），从而指示六种组合域转移分类任务。平均性能表示为W/A bit方法A → WD→ WW→ DA→ DD→ AW→ AAvg. 仅来源78.4 94.7 99.1 82.1 58.9 61.0 79.0模型方法W/A位累积（%）W/A钻头累积（%）32/324/4DANN [14] 78.9 95.3 98.2 82.1 59.1 61.8 79.2AlignQ（我们的）78.9 97.1 99.1 85.7 60.6 62.9 80.6多瑞发[48] 59.6 82.5 90.2 62.5 38.2 45.5 63.1亚太经合组织[28] 58.5 88.3 85.7 51.8 44.4 46.7 62.6Choi等人 [9]12.311.715.210.79.58.711.4ZeroQ [5] 11.7 12.3 13.4 9.8 8.0 9.9 10.9ZAQ [31] 12.1 12.4 14.2 10.3 7.8 8.9 11.0AlignQ（我们的）64.9 94.2 97.3 65.2 45.6 49.7 69.5表7. AlignQ组件的有效性。准确度（%）W/Abit方法A → WD→ WW→ DA→ DD→ AW→ AAvg. 制服54.4 81.5 85.7 48.2 32.1 45.557.9多瑞发[48] 64.9 91.2 93.8 57.1 40.2 47.265.7Choi等人 [9]67.294.295.572.846.258.572.4ZeroQ [5] 67.2 94.2 95.5 72.4 43.1 58.471.85/5我们的（仅ADMM）55.5 82.2 86.4 50.1 32.2 46.1 58.8我们的基金（只包括基金）我们的（民防部队+行政管理）我们的（最好的）67.8 94.7 98.2 68.8 47.4 50.2 71.28/8ZAQ [31] 67.794.799.172.745.862.973.8AlignQ（我们的）68.495.399.173.247.763.074.5总体任务（与 Choi et al. ’s work in 68.1% accuracy),while the 4-bit model by AlignQ obtains 69.5% accuracy,6%特别是，CNOQ（Choi et al. ’s因此，结果表明，在训练和测试数据中的域偏移方面，BROMQ比QAT（DeReFa和APoT）更敏感，因为BROMQ根据训练数据中的预训练全精度模型学习量化模型。此外，AlignQ在4比特量化时具有显著的改善，因为AlignQ可以有效地减少来自非量化误差的量化误差i.i.d.训练和测试数据。除了DANN，我们还在附录B中的Office-31上实现了量化的DSAN [49]（最先进的迁移学习模型）。5. 消融研究本节评估所提出的CDF对齐和AlignQ中基于ADMM的相关性分析表6呈现了通过AlignQ量化的ResNet模型的结果（2）译注。它表明，AlignQ只考虑ADMM相关性保持（仅记为ADMM）可以提高均匀量化的性能，因为我们最小化了减少量化误差的数据相关性的变化（也在第12节的命题1中证明）。3.2）。此外，在量化中仅具有CDF对准的AlignQ（仅记为CDF）获得显著的改进，特别是在2比特量化时，因为对准过程使得训练和测试数据能够是i.i.d. (see第3.1节），以避免如图1所示的大量化误差。采用ADMM相关性后，在量化过程中保持CDF对齐（记为CDF + ADMM），结果验证了量化误差进一步减小。表7显示了AlignQ组件在Office-31上的数据转移任务、DANN模型上的有效性统一形式的量化考虑与相关preservation的ADMM（见第二节）。3.2)在每个域移位识别任务中优于基线均匀量化。此外，当考虑CDF对齐时，整体性能提高了12%至17%，即，从57.9%（均匀）到70.5%（仅CDF）和从58.8%（仅ADMM ）到 70.7% （ CDF + ADMM ）。附录 C 在Office-31上量化DSAN的AlignQ组件6. 结论在本文中，我们提出了AlignQ来解决非i.i.d.训练和测试数据。我们建议CDF对齐对齐的数据对齐到同一域（i.i.d）的量化，以尽量减少量化误差。此外，我们还证明了量化后数据相关性的显著变化也会导致较大的量化误差。因此，我们设计了一个ADMM优化过程，以最大限度地减少对齐-量化过程前后的数据相关性的差异，以进一步降低量化误差。实验结果表明，AlignQ优于国家的最先进的基准和域移位数据集，特别是在低位宽。引用[1] Paszke Adam，Gross Sam，Chintala Soumith，ChananGregory ， Yang Edward ， D Zachary ， Lin Zeming ，Desmaison Al-ban，Antiga Luca，and Lerer Adam.自动差速器均匀二分之二86.9四分之四91.5ResNet-20我们的（仅ADMM）我们的（仅CDF）二分之二二分之二87.390.8四分之四四分之四91.892.2我们的（CDF +ADMM）二分91.2四分之四92.8[第28话]63.794.292.960.746.748.367.8在Office-31上量化DANN（ResNet-50）[14]Choi等人 [9]第一章67.886.690.267.945.550.868.15/5 ZeroQ [5]67.286.688.467.241.650.166.9ZAQ [31]AlignQ（我们的）67.467.887.894.789.598.268.168.843.247.750.250.267.771.2[第48话]60.287.192.057.137.245.363.212547在Pytorch中。在神经信息处理系统的程序，2017年。5[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481-2495，2017。1[3] Ron Banner，Yury Nahshan，Elad Hoffer，and DanielSoudry.Aciq：神经网络整数量化的分析裁剪。2018.一、二、七[4] 斯蒂芬·博伊德尼尔·帕里克和埃里克·朱通过交替方向乘法器的分布式优化和统计学习。Now Publishers Inc，2011. 二、四[5] 蔡耀辉，姚哲伟，董震，阿米尔·戈拉米，迈克尔·W·马奥尼和库尔特·库茨。Zeroq：一种新颖的零拍量化框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第13169-13178页，2020年。一二六七八[6] 陈文林、詹姆斯·威尔逊、斯蒂芬·泰里、基利安·温伯格和陈益新。用散列技巧压缩神经网络。机器学习国际会议，第2285-2294页，2015年。1[7] 余成，王铎，潘周，张涛。深度神经网络的模型压缩和加速综述。arXiv预印本arXiv：1710.09282，2017。1[8] Jungwook Choi

下载后可阅读完整内容，剩余1页未读，立即下载