基于最小化重构误差的训练后非均匀量化方案“Mr.BiQ”的优越性研究

166 浏览量更新于2023-10-25 收藏 12.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

123290Mr.BiQ: 基于最小化重构误差的训练后非均匀量化0Yongkweon Jeon 1,* Chungman Lee 1,* Eulrang Cho 2,*,† Yeonju Ro 3,*,†01 三星研究所 2 韩国大学 3 德克萨斯大学奥斯汀分校0{ dragwon.jeon, chungman.lee } @samsung.com ercho@korea.ac.kr yro@utexas.edu0摘要0训练后量化可以在几个小时内仅使用少量未标记的校准集对神经网络进行压缩。然而，到目前为止，它只在卷积神经网络的均匀量化上进行了讨论和经验演示。因此，我们提出了一种新的训练后非均匀量化方法，称为Mr.BiQ，即使在Transformer模型上也可以进行低位宽量化。特别地，我们利用多级二值化来处理权重，同时允许激活以各种数据格式表示（例如INT8、bfloat16、二进制编码和FP32）。与传统方法先优化全精度权重，然后将权重分解为量化参数不同，Mr.BiQ在优化过程中将量化参数（即缩放因子和位码）直接作为可学习参数进行联合学习。为了验证所提出的量化方案的优越性，我们在包括卷积神经网络和Transformer模型在内的各种模型上测试了Mr.BiQ。根据实验结果，当权重的位宽等于2时，Mr.BiQ在CNN中的准确性有了显著提高：在CNN中提高了高达5.35个百分点，在视觉Transformer中提高了高达4.23个百分点，在NLP的Transformer中提高了高达3.37个百分点。01. 引言0随着深度神经网络的快速扩展以提高模型准确性，不仅减少内存占用，而且在资源受限的环境中实现低端到端延迟变得更加具有挑战性。为了缓解这些挑战，许多研究人员在推进模型压缩技术方面做出了大量努力，例如修剪[12, 24,28]，低秩逼近[23, 37]，知识蒸馏[9, 14]和量化[4, 7, 11,22, 29, 35, 40]。0* 相等的贡献。通讯作者：dragwon.jeon@samsung.com †本工作是在他们在三星研究所工作时完成的。0在这些压缩技术中，量化在减少模型大小和加速推理方面特别有效，即使在普通硬件上也可以实现。通过使用较低的位宽表示每个参数，量化可以减小模型大小，从而减轻内存瓶颈问题。此外，由于量化保持了张量的密集格式，可以充分利用并行性，而无需不规则的数据结构。而由修剪等某些压缩方法引起的这些不规则性需要对专用硬件设计提供大量支持。因此，量化可以在不需要对专用硬件设计提供大量支持的情况下高效实施，并使得在各种硬件形态因素上部署量化模型成为可能。总的来说，量化可以分为两类：量化感知训练（QAT）[7, 47, 49]和训练后量化（PTQ）[22, 29, 40,44]。一般来说，QAT比PTQ具有更高的准确性，因为它直接旨在最小化网络的损失。然而，QAT依赖于整个训练数据集，并需要进行彻底的超参数搜索，这导致了与全精度模型相同数量的训练时间和开销。另一方面，PTQ允许仅使用小型校准数据集或无数据集对预训练模型进行量化，这使得在由于各种原因包括隐私问题而受到数据访问限制时，我们可以压缩模型。PTQ还不需要对模型有全面的了解，因此最近一直受到关注。0早期的后训练量化工作集中在最小化量化误差上，量化误差定义为原始权重和量化权重之间的均方误差（即minE[(w−wq)2]）。然而，最近的研究倾向于集中在最小化重构误差上（即minE[(Wx−Wqx)2]），该误差可以从泰勒级数的二阶近似导出。尽管最小化重构误差对于PTQ是有效的，但PTQ仅在卷积神经网络（CNNs）上的均匀量化的背景下进行了讨论和实证。,(1)αibi||2.(2)123300我们还注意到，以前的研究独立地研究了权重的映射方案和激活的步长学习，因此我们可能错过了当这两者共同优化时的协同效应的机会。在这项工作中，我们提出了Mr.BiQ1，一种后训练的非均匀量化方法，它遵循多级二进制（或二进制码）的形式，同时最小化重构误差。我们将后训练量化的一般原则扩展到非均匀量化，并在最近提出的Transformer模型中展示了我们的方法，用于视觉任务和自然语言处理（NLP）任务以及CNNs。特别地，我们引入了一种新的方法，可以同时优化量化参数（即二进制编码和多级步长）。由于均匀量化的搜索空间是非均匀量化的子集，我们的工作提供了对量化模型的全面搜索，并将量化的极限推向了显著低的位宽（即W2A4或W2A8），准确性下降可以忽略不计。请注意，在加速方面，作为量化权重形式的多级二进制可以与各种激活格式（例如INT、bfloat16和FP32）以及二进制码结合使用。当权重和激活都是二进制编码时，矩阵乘法可以通过xnor-popcnt操作加速[4]。如果激活保持为全精度，我们可以利用专用的计算内核BiQGEMM[16]，该内核适用于通用硬件。此外，对于定点激活，计算主要需要整数加法器，这在芯片面积和功耗方面非常有效[1,8]。总之，我们提出了一种后训练的新方法0多级二进制量化。与传统方法不同，Mr.BiQ将两个量化参数都视为可学习参数，并通过自下而上的方式将它们相乘来获得量化权重。总体而言，我们不仅在CNNs中取得了最先进的准确性，还在Transformer模型中取得了最先进的准确性：在CNNs中最多提高5.35个百分点的准确性（RegNetX-3.2GF [33]-W2A4），在VisionTransformers中最多提高4.23个百分点的准确性（DeiT-S[42]-W2A8），在NLP的Transformers中最多提高3.37个百分点的准确性（DistilBERT [39]-SQUADv1.1-W2A8）。02.初步0在多级二进制（或二进制编码）量化（BiQ）中，多个位共享尺度因子αi∈R，而二进制码bi∈{−1,1}n（1≤i≤q）确定相应尺度因子的符号。并且01基于最小化重构误差的后训练多级二进制量化。2 2位权重，4位激活0{αi}qi=1和{bi}qi=1的线性组合产生量化权重wq。因此，我们有0Q(w) = wq∈Q BiQ =0q个二进制码共享尺度因子αi∈R，而二进制码bi∈{−1,1}n（1≤i≤q）确定相应尺度因子的符号。并且0n0其中，q是量化位宽。AMQ [47]和LQ-Nets[49]提出了一种量化感知训练（QAT）方法中的BiQ方法，其中量化器Q将w∈Rn分解为尺度因子{αi}qi=1。0和二进制编码向量 { b i } q i =1 ，使得 w 近似为 w q = Σq i α � i b � i ，从而最小化均方误差：0α � i , b � i = arg min αb i || w -0q0算法 1 交替多位量化 [47]0Input: Full-precision weight w ∈ R n , bit-width q , alternating cycles(AC) T0Output: α i ∈ R , b i ∈ {− 1 , 1 } n , 1 ≤ i ≤ q 1: procedureDECOMPOSITION ( w , q , T ) 2: { α i , b i } q i =1 ← greedy method ( w) � See Eq. ( 3 )03: for t ← 1 to T do04: { α i } q i =1 ← least squares ( B , w ) � See Eq. ( 4 )05: { b i } q i =1 ← binary search ( α 1 , ..., α q , w )0算法 1 描述了一种减小均方误差的方法，如 Eq. ( 2 )所示。当残差 r i 表示 w - Σ i − 1 k =0 α k b k ，对于 i ≥1 ，我们可以按顺序获得 b i 和 α i ，即0b i = sign ( r i ) and α i = r � i b i n ，(3)0对于 1 ≤ i ≤ q 和 α 0 = 0 ，这是贪婪方法（算法 1 中的第2 行）[10]。此外，缩放因子 { α i } q i =1可以通过普通最小二乘法进行改进（第 4 行）[10]：0[ α 1 , ..., α q ] = (( B � B ) − 1 B � w ) � ，(4)0其中 B = [ b 1 , ..., b q ] ∈ {− 1 , 1 } n × q 。然后，二进制编码向量 { b i } q i =1可以通过二进制搜索进行优化，重新校准二进制码，使得每个权重都分配给 { ± α i }中的最近邻（第 5 行）。这个交替过程可以迭代地执行（第 3-5行），以进一步最小化量化误差，如 Eq. ( 2 )[47]。现有方法在训练的每个步骤中执行算法1，并使用直通估计器（STE）更新全精度权重 w （∂L0∂ w = ∂L ∂ w q ) [2]（见图 1 左侧）。3. Mr.BiQ(2-nn) in C to w, where C = {xi|xi ∈ {+αi, −αi}}• sb=softbit(w) := clip(m(w)scale(w), 0, 1)w ≈ wr = base(w) + softbit(w) × scale(w) (7)h(v) = clip(S(v)(ζ − γ) + γ, 0, 1),(8)123310图 1. 将我们提出的方法（自下而上）与传统方法（自上而下）进行比较。0与传统方法（例如 [47, 49]）不同，传统方法将 w 分解为 {α i } q i =1 和 { b i } q i=1（即自上而下的方法），并使用最小二乘解来优化。我们的方法将比例因子和比特编码作为可学习参数进行优化，以生成量化权重 w q（即自下而上的方法，参见图1）。给定一个预训练模型，参数 { α i } q i =1 和0{ b i } q i =1 的初始化如算法 1所示，然后再使用我们的量化技术进行优化，以在几个时期内最小化块间重构误差。块可以定义为一个或多个连续的层，通常设置为残差块。在我们提出的量化过程中，每个块的目标函数如下：0arg min w q ∆ z T ∙ H ( z ) ∙ ∆ z ，(5)0其中 ∆ z 是块输出的扰动，H ( z )0Hessian 矩阵是块输出的 Hessian 矩阵。然而，计算Hessian 矩阵需要很高的计算成本，因此我们将其近似为 c× I ，其中 c 是一个常数，I是单位矩阵。因此，目标函数变为：0arg min w q || z - z q || 2 F ，(6)0其中 z 和 z q 分别是预训练全精度网络和量化网络的块输出（即 ∆ z = z - z q）。因此，我们可以将这个过程视为一种知识蒸馏 [9,14]，其中预训练模型对应于教师，而量化模型成为学生。请注意，我们还使用经验Fisher 矩阵而不是 Hessian 矩阵，与 B RECQ [22]中所做的相同，但在结果上没有显著差异。事实上，经验 Fisher近似可能对结果产生负面影响[19]。为了解释自下而上优化量化参数的一种简单方法，我们假设量化权重 w q 等于 α 1 b 1 + α 2 b 2 + α 3 b 3 ，其中 α i 的顺序为 α 1 > α 2 >α 3 ≥ 0 ，g 表示 ∂ L ∂w q 。然后，我们可以计算相对于 b i 的梯度为 g ∙ α i，这意味着梯度累积到 b 1 中。0由于α1的大小，b1的梯度变得最大。然而，如果我们希望在更新相应的位码时，低位位置的b3的变化频率比高位位置的b1的变化频率更高，那么b1的大梯度是不可取的。具体来说，我们希望将位码从低位位置逐渐变异（例如，111 →110），这也可以在全精度权重的变化中观察到，而不是根本变异（例如，111 →011）。这种根本变化可能来自于输出为二进制参数bi的不可微分阶跃函数。在实践中，二进制参数在通过朴素方法进行优化时无法收敛。为了从根本上解决这个问题，我们使用初始的{ α i } q i =1重新定义全精度权重w0并在进行后训练量化之前，将{ b i } q i=1转化为可微分形式的softbit向量。为简洁起见，我们定义以下几个函数：0• base( w ) := 2个最近邻中较小的一个0• scale( w ) := 2- nn 与w之间的距离0• m( w ) := w 与base(w)之间的距离0通过利用这些函数，我们可以将w重新定义如下：0这与全精度w相同，只是| w | > � αi的异常值。图2提供了当量化位宽等于2时的重新定义示例。请注意，softbit( w)可以被认为是每个部分w的min-max缩放的结果。为了鼓励softbit收敛到0或1，我们使用AdaRound[29]中提出的自适应舍入方法，其中使用修正的sigmoid[26]如下：0其中S(∙)表示sigmoid函数，ζ和γ是拉伸参数。我们将v初始化为h−1(softbit(w))01 =01 −0023−1+ 111•1 = 22,11 = −1•1 =001 =1 +1 ×1 �� − 1 −2 +1 × 2222332300 = − 1 −201arg minwq��z − zq��2F + λ�i1 −�2h(vi) − 1�β.(9)q(x; wq); wq) . . . ; wq)12332010 11位码0图2. 重新定义。当量化位宽为2时，有四个量化点(qij ∈ QBiQ，i，j ∈{0，1})和三个区间([q00，q01]，[q01，q10]和[q10，q11])，其中下标表示与量化点对应的位码。每个区段的权重共享base和scale，但每个权重都有自己的m。重新定义允许softbit(sb)成为0和1之间的实数，并且在优化过程中鼓励sb收敛为0或1。假设在优化后，w1的sb接近q00，那么w1的位码将从'00'更改为'01'。0并将正则化项添加到目标函数中，以强制h(v)为0或1，可以表示为0在公式（9）中，β在优化过程中逐渐退火，使得h(v)趋近于0或1[29]。通过将w重新定义为公式（7）中的形式，我们可以像计算浮点数的梯度一样计算{ α i } q i=1和sb的梯度。如图2所示，在反向传播梯度时涉及到缩放因子、二进制码和softbit。根据优化的sb，将w的每个元素分配给{ � q x i | x i ∈ { + α i , − α i}}中的两个最近邻之一，该最近邻由优化的{ α i } q i=1修订。算法2总结了Mr.BiQ通过最小化重构误差来优化块的过程。Mr.BiQ只需要0算法2 Mr.BiQ0输入：完整精度权重w_b ∈ R^n在块f_b中，比特宽度q，采样数据集D_c0输出：量化块f_b( ∙ ; w q b)01: procedure MR.B I Q( w b , q , D c ) 2: { α i , b i } q i =1 ← 分解 (w b , q, 50 ) � 算法 103: w r b ← 重新定义 ( w b , α 1 , . . . , α q ) � 参见公式（7）04: 对于每个输入x ∈ D_c06: z q ← f b ( a q ; w r b ) � 学生块09: L ← 计算 z_q − z 的F范数的平方 � 参见公式（6）和（9）010: L . backward() � 更新w_r_b和a_q的步长012: { b i } q i =1 ← 恢复 ( sb )0从训练数据集D_t中采样得到的小型无标签校准集D_c（即D_c � D_t且|D_c| �|D_t|）。在算法2的第2行中，Mr.BiQ使用初始的{ α_i } q i =1和{ b_i } q i=1对w_b进行重新定义，将二进制编码向量转换为软比特向量sb ∈R^n（第3行）。然后，Mr.BiQ优化{ α_i } q i =1和{ b_i } q i =10并最小化重构误差（第4-10行）。优化后，根据优化的{ α_i} q i =1（第11行）更新QBiQ，并将软比特向量sb的每个元素恢复为最近的比特编码（第12行）。优化是从最靠近输入层的块开始顺序执行的。为了补偿量化误差的累积，学生块将通过前面的量化块传递的量化激活作为输入（即第5行中的a_q），这与教师块的输入（即第7行中的a）不同。符号f_q_b表示块f_b的量化输出（即f_q_b =Q(f_b)，其中Q是任何量化器）。在第4节中，我们使用LSQ[7]作为激活量化器，并且激活的步长可以与w_r_b一起在第10行进行优化。04.实验结果0我们通过在视觉任务和自然语言处理（NLP）任务中测试最近提出的Transformer模型以及卷积神经网络（CNN）来评估我们提出的方法。我们从ImageNet（ILSVRC12）[36]中随机采样了1K张图像，对包括ResNet [13]、MobileNetV2[38]、RegNet [33]和MnasNet[41]在内的各种CNN进行量化。此外，我们还对视觉任务的Transformer模型（如ViT [6]和DeiT[42]）以及NLP任务的MNLI-matched、MRPC（来自GLUE基准[43]）和SQuAD1.1 [34]进行量化，其中包括BERT [5]和DistilBERT[39]。对于所有CNN评估，我们将第一层和最后一层的权重量化为8位，与[22]中的做法相同。对于Transformer模型（即ViT [6]、DeiT [42]、BERT[5]和DistilBERT [39]），我们不对softmax层和归一化层的输入进行量化，与[25,32,50]中的做法相同。我们对随机采样的数据集进行20次运行的准确性测量，然后得到平均值和标准偏差。此外，我们使用t检验来确定这些数字是否在统计上有显著差异。更多关于其他具体实验设置的详细信息，请参见附录。ResNet-18ResNet-50MobileNetV2RegNetX-600MFRegNetX-3.2GFMnasNetAlpha-only2/3237.2048.2127.3335.6453.3433.45Bit-only66.8372.1258.8365.4573.0660.12Mr.BiQ67.9273.1062.9667.2474.8970.12Alpha-only3/3265.2372.6165.7968.0974.5271.84Bit-only69.7175.5269.2671.4576.9174.17Mr.BiQ70.1775.8370.5772.1177.6375.15Alpha-only4/3268.8875.3170.6671.8876.9775.45Bit-only70.4176.1971.2872.7977.6575.97Mr.BiQ70.7676.4272.1173.1578.2476.17123330表1.消融研究（top-1准确率（%））0方法 #比特0完整精度 32/32 71.08 77.00 72.49 73.71 78.36 76.680BERT [39]。在本节中，我们主要将Mr.BiQ与B RECQ[22]进行比较，后者是一种后训练量化框架，它在基于整数的PTQ方法中显示出了最先进的结果，同时与QAT方法显示出了可比较的结果。这样的框架包括AdaRound[29]用于权重量化和学习步长量化（LSQ）[7]用于激活量化。而BRECQ选择了权重和激活的非对称量化，Mr.BiQ则对它们都使用对称量化。在所有实验中，权重和激活都是按通道和层进行量化的。我们还像B RECQ一样使用LSQ[7]均匀量化激活。请注意，激活量化仅优化步长。根据离线优化的步长，可以通过四舍五入将激活分配给最近的量化点进行推理。对于所有CNN评估，我们将第一层和最后一层的权重量化为8位，与[22]中的做法相同。对于Transformer模型（即ViT [6]、DeiT [42]、BERT [5]和DistilBERT[39]），我们不对softmax层和归一化层的输入进行量化，与[25, 32,50]中的做法相同。我们对随机采样的数据集进行20次运行的准确性测量，然后得到平均值和标准偏差。此外，我们使用t检验来确定这些数字是否在统计上有显著差异。更多关于其他具体实验设置的详细信息，请参见附录。04.1. 消融研究0在表1中，我们首先比较了三种不同的方案来优化量化参数：缩放因子（标记为“仅Alpha”），二进制码（“仅Bit”）以及两者（“Mr.BiQ”）。为了最小化块级重构误差，每个块都经过20K步的优化，批量大小为32，除了“仅Alpha”优化的情况，其中1K步足以成功收敛。从我们的0评估中，仅学习缩放因子（“仅Alpha”）足以在4位量化时实现几乎完全的准确性，而在大多数方案中，准确性在3位时达到饱和点。因此，如果我们使用超过3位的量化，“仅Alpha”可能是一个很好的选择，因为它简单且比其他方法所需的时间少。然而，在超低位宽（即2位）下，准确性的提高严重受限于初始位码，这意味着需要进行位翻转以进一步提高模型的准确性。实际上，“仅Bit”显示了很大的准确性改进，并且几乎达到了先前工作的准确性；但是通过同时优化多级步长和位码，仍然有改进准确性的空间。Mr.BiQ是一种允许同时优化它们的算法，并在多级二进制量化的三种量化方案中呈现最佳准确性。04.2. 卷积神经网络比较0仅权重量化模型作为基线，我们测试了“无数据”量化，这是一种天真的方法，它在没有任何重新训练、微调或校准的情况下最小化量化误差。换句话说，“无数据”从预训练模型中执行一次算法1。我们还以后训练量化的方式实现了现有方法[ 47 , 49]（标记为“自上而下”）。通过将目标设置为最小化块级重构误差，“自上而下”将权重分解为{ α i } q i=1，并使用STE在优化过程中更新权重。0{ b i } q i=1，并在优化过程中使用STE更新权重。此外，比较中还包括BRECQ的结果。如表2所示，Mr.BiQ在将权重量化为2位时优于其他方法。结果还表明，我们的自下而上方法（即Mr.BiQ）在后训练中明显优于传统的BiQ方法（“自上而下”）。在表2中，BRECQ使用了Fisher信息矩阵，而Mr.BiQ没有使用。ResNet-18ResNet-50MobileNetV2RegNetX-600MFRegNetX-3.2GFMnasNet0.160.120.070.110.110.11Mr.BiQ67.92±0.1173.10±0.1162.96±0.1867.24±0.1074.89±0.1070.12±0.17INTBRECQ* [22]66.30±0.1272.40±0.1259.67±0.1365.83±0.1373.88±0.1467.13±0.135.5015.750.534.9520.655.52Mr.BiQ70.17±0.0875.83±0.0770.57±0.1072.11±0.1077.63±0.0875.15±0.09INTBRECQ* [22]69.81±0.0575.61±0.0969.50±0.1271.48±0.0777.22±0.0474.58±0.0855.6958.1929.3236.6766.5854.47Mr.BiQ70.76±0.0676.42±0.0672.11±0.0773.15±0.0778.24±0.0576.17±0.06INTBRECQ* [22]70.70±0.0776.29±0.0471.66±0.0473.02±0.0978.04±0.0476.00±0.02#Bits(W/A)ResNet-18ResNet-50MobileNetV2RegNetX-600MFRegNetX-3.2GFMnasNetMr.BiQ2/466.61±0.1071.38±0.1557.27±0.2264.15±0.1272.50±0.1165.48±0.18BRECQ* [22]64.80±0.0870.29±0.2353.34±0.1559.31±0.4967.15±0.1163.01±0.35AdaQuant* [15]0.210.120.10---Mr.BiQ4/469.68±0.0875.17±0.0868.97±0.0971.18±0.0976.65±0.1073.39±0.13BRECQ* [22]69.60±0.0475.05±0.0966.57±0.6768.33±0.2874.21±0.1973.56±0.24Bit-Split* [44]67.5673.71----AdaQuant* [15]67.573.734.95---ZeroQ* [3]21.712.9426.2428.5412.243.89LAPQ* [31]60.370.049.757.7155.8965.32123340表2. 仅权重量化模型的评估（top-1准确率（%））0方法 #Bits0完全精度 32/32 71.08 77.00 72.49 73.71 78.36 76.680BiQ 无数据0自上而下 63.45 68.67 50.35 58.32 67.87 57.470BiQ 无数据0自上而下 68.41 74.19 66.67 69.03 75.21 72.250BiQ 无数据0自上而下 69.70 75.63 70.15 71.30 76.77 75.210* 这些数据来自[ 22 ]。0表3. 完全量化模型的评估（top-1准确率（%））0完全精度 32/32 71.08 77.00 72.49 73.71 78.36 76.680* 这些数据来自[ 22 ]。0完全量化模型表3评估了通过各种方法量化的模型的准确性，当权重和激活都被量化时。同样，结果显示Mr.BiQ优于其他方法。请注意，即使由于激活量化而没有准确性下降，在“自上而下”的情况下（如果是这样，激活量化后的“自上而下”的结果与表2中的“自上而下”相同），性能仍然不如表3中的Mr.BiQ，其中包括激活量化。0表4. Mr.BiQ和B RECQ之间的t-检验[22]（p-值）0#位数（W/A） t-检验 ResNet-18 ResNet-50 RegNetX-600MFRegNetX-3.2GF02/4 学生 1.14E-33 1.46E-29 3.25E-28 9.84E-44 韦尔奇 7.64E-35 4.25E-314.74E-34 9.89E-4804/4 学生 2.98E-19 9.91E-23 1.17E-31 2.66E-42 韦尔奇 2.37E-19 9.13E-236.28E-32 3.98E-430我们还进行了t-检验，以确定表3中列出的数字是否具有统计学意义。为了进行测试，我们使用他们的结果重新生成了B RECQ的结果。0开源代码3.因为我们在每个实验中使用了不同的采样数据集，所以我们使用无配对的t-检验（如学生t-检验和韦尔奇t-检验[45]）进行评估。当来自Mr.BiQ和BRECQ的评估样本均值分别表示为˜X1和˜X2时，我们将零假设和备择假设设置为H0:˜X1 = ˜X2和Ha:˜X1 >˜X2。表4显示了当量化位宽为W2A4或W4A4时，每个评估的p值。结果表明，零假设被拒绝，支持备择假设。换句话说，Mr.BiQ和BRECQ之间的性能差距不太可能是偶然发生的。04.3. Transformer模型的比较0我们不仅对视觉任务的Transformer模型（如ViT-Base（ViT-B），ViT-Large（ViT-L），DeiT-Small（DeiT-S），DeiT-Base（DeiT-B））进行准确性测量，还对NLP任务（如BERT和DistilBERT）进行准确性测量。03 https://github.com/yhhhli/BRECQData-free2/855.7057.8213.9937.72Mr.BiQ75.46±0.1175.86±0.1273.15±0.1678.97±0.07BRECQ† [22]71.52±2.7672.45±1.0468.92±0.1576.91±0.13Data-free3/874.7374.5767.0175.43Mr.BiQ77.41±0.0676.73±0.0778.09±0.1081.10±0.08BRECQ† [22]75.56±1.9076.08±0.4477.46±0.0980.76±0.05Data-free4/876.9876.1575.7279.49Mr.BiQ77.76±0.0576.84±0.0579.07±0.0581.45±0.04BRECQ† [22]76.49±1.7076.58±0.0678.96±0.0681.43±0.0574.2874.6971.5878.70Mr.BiQ77.34±0.0776.33±0.0876.82±0.1080.86±0.07123350表5. 视觉Transformer模型的比较（top-1准确率（%））0W/A ViT-B ViT-L DeiT-S DeiT-B0全精度 78.04 76.93 79.72 81.740无数据0百分位数 a [21] 71.58 71.48 70.49 73.99 PTQVT a,b [25] 75.26 75.46 75.1 77.47Bit - Split a [44] - - 74.04 76.39 EasyQuant a [46] - - 73.26 75.860a 这些数字取自[25]。ViT-B，ViT-L，DeiT-S和DeiT-B的基线分别为77.91，76.53，79.8和81.8。0b 它代表了混合精度的结果。† 我们基于开源代码将BRECQ应用于视觉任务的Transformer模型。0尽管BRECQ没有评估Transformer模型，但我们基于开源代码实现了基于块的自适应舍入，作为一种基于整数的方法，进行比较，如表5和6所示。对于量化，我们将一个编码器层定义为一个块。换句话说，我们对每个由多个层组成的编码器进行优化。与CNN的结果类似，当权重量化为2位时，Mr.BiQ特别有效。据我们所知，这项工作是首次在训练后量化后的Transformer模型中呈现出合理的2位权重准确性。有趣的是，当使用小数据集（如MRPC）优化BERT和DistilBERT的参数时，我们观察到准确性优于全精度基线，这也在其他工作中报告过（例如，在[18]中）。这一观察结果可能表明量化具有正则化效果。与QAT方法（如Q8BERT[48]，TerneryBERT [50]和KDLSQ-BERT[17]）相比，Mr.BiQ在低位宽（即2位）方面显示出显著结果。请注意，QAT执行端到端的反向传播，使用整个数据集。就数据集和优化所需的时间而言，与QAT方法相比，Mr.BiQ显示出竞争性的准确性（或分数）。05. 相关工作05.1. 量化策略0根据优化过程中数据集的约束类型，量化可以分为两种方法：量化感知训练（QAT）[7, 47,49]和训练后量化（PTQ）[22, 29, 30, 40,44]。QAT需要整个训练数据集及其相关标签，并需要进行彻底的超参数搜索。0假设网络f的输出损失L是通过L = f(x, y, w)来衡量的，其中(x,y)表示数据和标签的对，w表示全精度权重。为了让损失意识到量化误差，QAT通过使用量化后的权重w q而不是w来衡量损失（即L = f(x, y, w q ←Q(w))，其中Q是量化器），并使用直通估计器（STE）更新全精度权重w（即∂L/∂w =∂L/∂w q）[2]，这意味着w t+1 = w t - γ∂L0∂ w qt，其中γ表示学习率。PTQ是我们在这项工作中选择的方法，它使用带有少量无标签数据集进行校准的预训练模型来压缩网络。假设y l是中间层f l的激活（即y l = f l(x,w)）。然后，量化网络的中间激活可以表示为y q l = f ql(x, w q)。PTQ利用y l作为软标签，训练子网络以最小化||yl - y ql||2，这被称为最小化重构误差（MRE）。这个过程可以看作是一种知识蒸馏，其中预训练模型对应于教师，而待量化的模型成为学生。PTQ的一种方法DFQ是在没有任何数据的情况下量化预训练模型。由于缺乏输入数据的先验信息，DFQ将权重映射到固定点以最小化均方误差（MMSE）。通过从学习的参数中估计输入数据分布，可以进一步提高DFQ的压缩比或准确性[30]。05.2. 后训练量化0先前的研究表明，在后训练量化中，最小化重构误差（MRE）可以显著提高准确性[22,29]。这样出色的质量的原因之一是MRE在优化每个权重的映射位置时考虑了输入数据x的领域分布[40]。为了说明MRE的具体步骤，AdaRound [29]将目标函数设定为arg min∆ w E[L(x, y, w + ∆ w) - L(x, y,w)]。然后，可以通过泰勒级数近似目标函数：0E[L(x, y, w q) - L(x, y, w)]0≈ E[∆ w T � w L(x, y, w) + 02 ∆ w T ∙ �^2 w L(x, y, w) ∙ ∆w]0假设预训练模型成功收敛，可以忽略第一项[20]。然后，等式(10)可以简化为：0∆ L ≈ 02 ∆ w T ∙ H(w) ∙ ∆ w，(11)0其中H(w)是关于w的Hessian矩阵（即E[�^2 w L(x, y,w)]）。假设没有层间依赖关系Data-free2/3222.220.0460.6716.1481.2244.51Mr.BiQ86.87±0.1289.21±0.2883.29±0.1183.86±0.1486.62±0.3679.97±0.14BRECQ† [22]84.24±0.1488.85±0.3682.88±0.1880.49±0.1786.32±0.3979.96±0.16Data-free3/3279.9687.2280.3075.8081.2272.49Mr.BiQ87.80±0.0889.63±0.4283.88±0.1285.30±0.0986.71±0.3580.87±0.08BRECQ† [22]87.65±0.0789.24±0.3483.79±0.1185.22±0.0786.45±0.5280.76±0.1022.140.0159.7017.0481.2241.83Mr.BiQ86.69±0.1789.13±0.3683.15±0.1383.78±0.1686.17±0.6379.88±0.15BRECQ† [22]84.230.1088.790.5482.810.1880.390.1286.020.6079.810.16Data-free3/878.9886.9079.5075.1981.2269.45Mr.BiQ87.69±0.0989.43±0.3183.80±0.1085.15±0.1286.42±0.3880.76±0.08BRECQ† [22]87.410.1089.050.3483.750.1085.000.0986.400.3680.680.12H(w(l)) = E[x(l−1)x(l−1)T ⊗ ∇2zlL](13)(a1)≈ E[x(l−1)x(l−1)T ⊗ diag(∇2zlLi,i)](14)(a2)≈ E[x(l−1)x(l−1)T ],(15)arg min∆w(l) E[(∆W(l)x(l−1))2].(16)arg min∆w ∆wT · H(w) · ∆w ≈ arg min∆w ∆zT · H(z) · ∆z.(17)123360表6. 自然语言处理任务评估0模型 BERT DistilBERT0任务（数据集）SQuAD v1.1 MRPC MNLI SQuAD v1.1 MRPC MNLI0指标 F1 F1 准确性 F1 F1 准确性0全精度

下载后可阅读完整内容，剩余1页未读，立即下载