没有合适的资源?快使用搜索试试~ 我知道了~
学习类内异质性合成图像的零样本网络量化方法
123390IntraQ:学习具有类内异质性的合成图像以进行零样本网络量化0钟云山1,2,林明宝2,南功锐2,刘建壮3,张宝昌4,田永红5,6,纪荣荣1,2,6*01.厦门大学人工智能研究所 2.厦门大学信息学院MAC实验室3.华为诺亚方舟实验室 4.北京航空航天大学 5.北京大学 6.鹏城实验室0摘要0学习合成数据已经成为零样本量化(ZSQ)中的一个有前景的方向,它可以在不使用任何真实数据的情况下通过低位整数来表示神经网络。在本文中,我们观察到真实数据中的类内异质性现象,并展示现有方法在合成图像中无法保留这种特性,这导致性能提升有限。为了解决这个问题,我们提出了一种新的零样本量化方法,称为IntraQ。首先,我们提出了一种局部对象强化方法,可以在合成图像的不同尺度和位置上定位目标对象。其次,我们引入了一个边际距离约束,以形成分布在粗糙区域的与类相关的特征。最后,我们设计了一个软先验标签的软入射损失,以防止合成图像过度拟合到一个固定的对象。我们的IntraQ在合成图像中很好地保留了类内异质性,并且表现出了最先进的性能。例如,与先进的ZSQ相比,当将MobileNetV1的所有层量化为4位时,我们的IntraQ在ImageNet上的top-1准确率提高了9.17%。代码位于https://github.com/zysxmu/IntraQ。01.引言0深度神经网络(DNN)的计算能力和内存占用的需求不断增加,这给边缘计算设备(如智能手机或可穿戴设备)上的应用问题带来了挑战,因为有限的硬件资源无法支持高度复杂的DNN。已经研究了各种方法[12, 13, 20,25]来减少模型复杂性。网络量化通过使用低位整数来表示网络中的浮点参数和激活,是一种减少模型复杂性的方法。0*通讯作者:rrji@xmu.edu.cn0在这些方法中,由于显著的内存减少和更高效的整数运算,它在其中脱颖而出。0大多数现有方法探索了量化感知训练(QAT),在访问原始完整训练数据集的前提下构建量化器。在[2, 8,43]中,QAT被证明与其浮点数对应物相当甚至更好,因为在访问足够的训练数据的情况下,可以调整权重以适应量化操作[40]。然而,这种方法也依赖于训练数据。具体而言,在现实世界的情况下,由于隐私和安全问题的恶化,原始训练数据有时是禁止的。例如,人们可能不希望将他们的医疗记录透露给他人,商业材料也不应通过互联网传输。因此,QAT不再适用。尽管最近关于后训练量化(PTQ)的研究[24, 30,40]直接使用原始数据的一小部分对DNN进行量化,但对于MLaas(例如,亚马逊AWS和谷歌云)等情况,用户可能无法访问任何训练数据[3]。0幸运的是,最近研究界提出了零样本量化(ZSQ)的方法,可以在不使用真实数据的情况下对模型进行量化。现有的ZSQ研究可以分为两组。第一组在不涉及任何数据的情况下校准参数。例如,DFQ[31]利用完整精度模型中批量归一化层中存储的偏移和缩放参数β和γ来计算输出的期望偏差误差。然而,简单的参数校准会导致超低精度下性能严重下降。例如,如果将ResNet-18量化为4位,DFQ在ImageNet[36]上仅报告了0.10%的top-1准确率。0第二组通过利用合成的伪造图像进行量化。伪造图像的参与有助于训练性能优越的量化网络[11,41,46]。heterogeneoushomogeneoushomogeneousheterogeneous123400(a)真实数据(b)ZeroQ(c)DSG0(d)ZeroQ+IL0(e)DSG+IL0(f)IntraQ(我们的方法)0图1. 使用t-SNE[39]进行特征可视化。我们随机采样了由5个类别组成的1000个合成/真实图像,每个类别有200个图像。对于ZeroQ和DSG,标签信息不可用。特征是从预训练的ResNet-18中提取的。0一种直观的解决方案是使用生成器合成训练数据[4,28,41]。然而,这些基于生成器的方法在计算资源上面临重大开销,因为生成器必须从头开始训练以适应不同的位宽设置。相反,许多研究,如ZeroQ[3]和DSG[46],将数据合成视为一个优化问题,其中从标准高斯分布中随机抽取的输入数据被迭代更新以适应真实数据分布。这条研究线路导致了一种资源友好的量化,因为合成图像可以在不同的位宽下重复使用来校准或微调网络。然而,与真实数据的特征可视化相比,合成图像仍然存在着不可忽视的质量差距(参见第3.1.2节),因为传统的高斯合成是为了拟合整个数据集,而忽略了更微妙的类别决策边界。因此,量化模型往往会出现较大的性能下降。0为了确保伪造图像中的类别区分度,我们将流行的inceptionloss[9,44]应用于ZeroQ和DSG,它首先选择一个任意的标签,然后进行优化以生成面向标签的图像。结果,我们观察到合成数据的更多类别可分布(图1d和图1e)。这证明了在合成数据中注入先验类别信息的重要性。然而,我们观察到,具有inceptionloss的合成数据未能捕捉到类内异质性。具体而言,同一类别的图像通常包含不同的内容;因此,来自真实数据同一类别的特征分散较多,如图1a所示。相反,图1d和图1e中的特征集中在一个密集区域,这表明同一类别的合成图像大多是同质的。因此,使用这些合成数据微调的量化模型无法很好地推广到具有异质性的真实世界测试数据集。0为了保留类内异质性,本文提出了一种新颖的零射量化方法,称为IntraQ。受到这样一个事实的启发,即在图像中,利于模型学习的感兴趣对象并不总是处于相同的尺度或位置,我们提出了通过从合成图像中随机裁剪局部区域来定位目标对象的局部对象增强方法,这减轻了合成图像中的异质性。0除了异构图像外,我们还提出在特征空间中保留类内异质性。这是通过引入边际距离约束来实现的,不仅形成与类相关的特征,还避免学习特征集中在一个密集区域。与传统的具有one-hot标签的inceptionloss相比,我们进一步设计了一个软inceptionloss,它注入了一个软先验标签,以挖掘具有更复杂场景的图像,并防止合成图像过度拟合到一个固定的对象。通过以上三个创新解决方案,我们的合成图像中保留了类内异质性,如图1f所示,并且当仅使用5120个合成图像对量化模型进行微调时,观察到了显著的性能提升。例如,当将MobileNetV1量化为4位时,我们的IntraQ在ImageNet上实现了51.36%的top-1准确率,与配备传统inceptionloss的先进DSG[46]相比,增加了9.17%。02.相关工作02.1.数据驱动量化0QAT和PTQ都需要真实数据来完成量化。在大量训练图像的情况下,现有的QAT方法主要关注设计量化器[6, 17,23]、训练策略[22, 47]、动态量化[16, 38,45]、二值网络[26, 29, 34, 35]、近似梯度[8,42]等。相反,PTQ仅能访问很小一部分训练数据[1, 7, 24,27, 30,40]。Banner等人[1]结合了分析剪裁、通道内位分配和偏差校正,形成了一种4位后训练方法。AdaRound[30]表明,最近舍入并非最优舍入函数,并将舍入问题形式化为逐层二次无约束二进制问题。在[27]中,使用多个低位向量的线性组合来近似一个全精度权重向量。基于对二阶损失的理论研究和经验证据,Li等人[24]提出了一种块重构方法来恢复准确性。1234102.2.零样本量化0ZSQ在不访问任何真实数据的情况下进行网络量化。为此,DFQ[31]通过利用尺度等变性属性来校准网络参数。为了修复固有偏差[1],在BN层中使用偏移参数β和缩放参数γ来计算输出上的预期偏差误差。另一组专注于合成更好性能的虚假图像。GDFQ[41]将BNS对齐损失和Inception损失集成到一个生成器中,用于生成面向标签的图像。为了使合成图像多样化,DQAKD[4]以对抗性的方式训练生成器。ZAQ[28]也通过一种新颖的两级建模策略对生成器进行对抗性训练,以衡量差异性。除了生成器,数据合成还可以通过优化高斯噪声来实现。通过将批归一化统计量(即运行均值µ和运行方差σ^2)视为分布指标,ZeroQ[3]优化高斯噪声,直到合成数据的均值和方差能够与预训练网络中的BNS匹配。DSG[46]放松了BNS对齐损失,以防止合成图像过拟合,并在反向传播中随机放大每个样本的损失项。受VAE[5]的启发,GZNQ[11]将合成图像视为可优化的参数,并引入集成来建模困难样本。通过近似BNS,[14]估计假数据以确定激活范围。03.方法论03.1.预备知识03.1.1量化器0按照[41]的设置,我们使用非对称均匀量化器来实现网络量化。将x表示为权重/激活,l和u表示x的下界和上界,我们可以得到量化整数q如下:0q = round(clip(x,0s = (u - l) / (2^b - 1)(1)0其中clip(x, l, u) = min(max(x, l),u),round(∙)将其输入四舍五入为最近的整数。s = u - l /2^(b-1)是将浮点数投影到定点整数的缩放因子,b是位宽。相应的反量化值¯x可以计算如下:0¯x = q ∙ s (2)0对于激活和权重,我们分别使用逐层量化器和逐通道量化器。03.1.2数据合成0ZSQ主要因其避免访问真实数据而受到欢迎。然而,其性能有限。0这种限制的结果。由于充分利用预训练的全精度模型F生成假图像,数据合成最近引起了更多关注,因为假图像的参与极大地促进了量化网络的训练。数据合成的一个基本原则是拟合真实数据分布,这在许多现有研究中通过BNS对齐损失来探索,该损失对齐了批归一化统计(BNS)[3, 41,46],如下所示:0LBNS(˜I)=0l =1 ∥ µ ′ l(˜I)− µ Fl ∥ 2 + ∥ σ ′ l(˜I)−σ Fl ∥ 2 2,(3)0其中µ Fl和σFl是预训练全精度网络F的第l个BN层中存储的运行均值和方差,µ ′ l(˜I)和σ ′l(˜I)分别表示F的第l层中合成图像批次˜I的均值和方差。然而,我们观察到相似的均值和方差并不意味着相同的数据分布。如图1b和图1c所示,ZeroQ和DSG合成的假图像的分布与图1a中的真实数据的分布差异很大。特别是,由于合成是为了拟合整个数据集的均值和方差,忽略了更微妙的类内分布,而没有任何标签信息。合成数据的质量差也导致了ZeroQ的性能为60.68%,DSG的性能为60.12%,这是在将ResNet-18的所有层量化为4位时在ImageNet上的实验结果,如Tab.1所示。幸运的是,首先选择一个任意的标签y作为先验分类知识,然后进行优化以生成这些面向标签的图像的inception loss[9]可能是解决这个问题的一种潜在方法。它可以表示为:0L IL(˜I)= ce � F(˜I),y �,(4)0其中ce(∙,∙)表示交叉熵,F(∙)返回一个概率分布,即softmax层的输出。注意,F是固定的,梯度将向后传播以优化合成图像˜I以适应来自类别y的真实图像的分布。如图1d和图1e所示,ZeroQ和DSG的假数据的分布在整合inceptionloss后变得类别区分度更高,并且更接近真实数据的分布。因此,ZeroQ和DSG在Tab.1中的性能分别提高到63.38%和63.11%,证明了在合成图像中融入先验类别信息的有效性。03.2. 我们的观点0尽管现有的ZSQ方法受益于inception loss,但与Tab.1中在真实训练数据上微调的4位ResNet-18的67.89%相比,性能提升有限。为了进行更深入的分析,回顾图1,我们观察到尽管具有类别区分度,带有inceptionloss的合成数据并不能很好地𝒱"(𝐼%&'()𝐶(𝐼%&'()ℒ,-.(𝐼%&'()𝑈(𝜖, 1)ℒ345(𝐼%&'()6 |9:| 𝒱"(𝐼%6)𝒱"(𝐼%;) 𝒱"(𝐼%|9:|)……++𝑀>𝐼%crop𝑔𝑟𝑎𝑑𝑖𝑒𝑛𝑡𝑔𝑟𝑎𝑑𝑖𝑒𝑛𝑡ℒGH3(𝐼%&'()𝑔𝑟𝑎𝑑𝑖𝑒𝑛𝑡+sampleGaussian distribution123420方法 类内余弦距离的平均值 准确率(%)0全精度 - 71.490真实数据 0.44 67.89 ZeroQ - 60.68 DSG -60.12 ZeroQ+IL 0.17 63.38 DSG+IL 0.1963.11 IntraQ(本文方法)0.42 66.470表1.在5,120个假/真图像上微调的4位ResNet-18的Top-1准确率和类内余弦距离的平均值。 “IL”是inception loss的缩写。0捕捉类内异质性。即使是来自同一类别的图像,其内容也经常不同,因此图1a中来自同一类别的特征往往分散。相反,图1d和图1e中的特征聚集在一起,这表明来自同一类别的合成图像大多是同质的。在这些同质的假图像上微调的量化模型无法很好地推广到具有异质性的真实世界测试数据集。因此,性能提升变得有限。0为了定量测量类内异质性,我们将合成图像输入预训练的全精度ResNet-18模型,得到它们的特征向量,然后计算同一类别特征数据之间的余弦距离。表1显示了合成图像的平均余弦距离。很容易理解,余弦距离(范围从0到2)能够很好地反映类内异质性。请注意,由于合成图像在应用入侵损失时没有标签,因此没有提供ZeroQ和DSG的定量结果。从表1可以看出,真实数据的平均距离为0.44,这表明真实数据具有较高的类内异质性。这一统计结果与图1a中的分散类内可视化一致。然而,使用入侵损失的ZeroQ和DSG的平均距离仅为0.17和0.19,不到真实数据的一半。因此,同一类别的合成图像往往在一个小区域内密集分布,如图1d和图1e所示。因此,入侵损失未能保留类内异质性,然而,如果能够很好地解决这个问题,可能会进一步提高ZSQ的性能。03.3. 我们的解决方案0在本节中,我们介绍了我们提出的IntraQ,用于学习具有类内异质性的合成图像。如图2所示,我们的IntraQ的核心贡献有三个:局部对象强化、边际距离约束和软入侵损失。0预训练0模型0本地对象强化0边际距离约束0软入侵损失0调整大小 777� % &'(0图2.我们IntraQ的框架。局部对象强化将对象定位在合成图像˜I的不同尺度和位置上。边际距离约束形成异质的类内特征。软入侵向合成图像中注入软标签信息,以学习复杂的场景。03.3.1 本地对象强化0我们保留类内异质性的第一步是在将合成图像输入预训练的全精度模型F之前增强它们。我们的动机在于,模型期望学习的感兴趣对象在图像中的尺度或位置并不总是相同的。因此,合成图像中自然会包含这些不同尺度或位置的信息内容。然而,早期的方法只关注在数据生成的整个过程中优化完整的图像,给定来自入侵损失的先验标签。因此,合成图像往往将目标对象都放在覆盖整个图像的尺度上,这些具有相同先验标签的合成图像变得非常相似,从而无法保留类内异质性。受到上述分析的启发,我们提出将目标对象定位在合成图像的不同尺度和位置上。具体而言,对于每个合成图像,我们选择以概率p随机裁剪图像的一个补丁。对于每个裁剪,其缩放率从均匀分布U(η,1)中采样,其中η是控制裁剪补丁的最小缩放率的超参数。因此,在我们的局部对象强化之后,预训练的全精度模型F的输入变为:0resize(cropη(˜I))以概率p˜I和概率1−p进行裁剪,其中cropη(∙)从其输入中随机裁剪一个补丁,缩放率从U(η,1)的均匀分布中采样,其中η是预定义的参数,resize(∙)将其输入调整为原始合成图像˜I的大小。观察到p=50%的效果最好。LSIL( ˜ILOR) = mse F( ˜ILOR)c, U(ϵ, 1) ,(8)L( ˜ILOR) = LBNS( ˜ILOR) + LMDC( ˜ILOR) + LSIL( ˜ILOR).(9)123430需要强调的是,传统的数据增强中的裁剪是丢弃不相关的内容,保留图像中令人愉悦的部分,以增强整体构图。相反,我们的图像裁剪是在不同的尺度和位置合成具有目标对象的假图像。如图2所示,如果裁剪,梯度只会向后更新局部裁剪补丁。给定一个先验标签,裁剪应用于不同的位置和尺度,因此合成的图像不再相似,进一步保留了类内异质性。03.3.2边际距离约束0使用增强的合成图像作为输入,我们可以从预训练的全精度网络F中提取它们的特征向量。为了同时正确分类所有类别,我们希望F形成具有大类内区分度的与类别相关的特征。为了将量化模型很好地推广到真实世界的测试数据集,我们还希望F形成异质的类内特征。为了实现这一点,我们进一步设计以下边际距离约束作为监督信号来指导特征学习:0L MDC(˜ILOR)=max(λl−cosVF(˜ILOR),C(˜ILOR),0)0+maxcosVF(˜ILOR),C(˜ILOR)−λu,0,0其中cos(∙,∙)返回其两个输入的余弦距离进行比较,VF(∙)返回预训练的全精度F提取的特征向量,C(˜ILOR)返回˜ILOR的类别中心。假设˜ILOR的标签为c,Mc是先前生成的属于类别c的合成图像的集合,我们将类别中心定义为Mc中所有合成图像的平均特征向量:0C(˜ILOR)=10|Mc|0i=1VF(˜Ii),˜Ii∈Mc. (7)0方程(6)中的λl和λu是两个超参数,用于控制˜ILOR与其类别中心之间的余弦距离的下限和上限。具体来说,方程(6)要求距离大于边界λl,但小于边界λu。上限λu鼓励来自同一类别的假图像的特征相似,从而实现正确分类。下限λl避免学习集中在一个密集区域的特征,从而可以有效地保留类内异质性,确保量化模型在真实世界的测试数据上具有泛化能力。03.3.3软入侵损失0Eq.(4)的初始损失是将先验标签知识注入到合成图像中。为了实现这个目标,损失函数0本质上驱使梯度优化合成图像,直到预训练网络F的输出与独热标签完全匹配。然而,图像内容通常重叠,即使它们被分组到不同的类别中。独热标签不能表示不同对象之间的软决策边界,因此在它们上训练的合成图像容易过拟合到固定的对象。这些图像往往是“简单的”,不能很好地获取内容中的复杂场景。因此,嵌入入侵损失的现有方法无法保留类内异质性,如图1所示。反思这一点,我们认为软标签作为一种正则化方法,有潜力更多地告诉模型关于每个合成图像的含义。具体而言,给定增强的合成图像˜ILOR及其先验标签y=c,我们设计以下软入侵损失:0其中 ϵ是一个预定义的参数,用于控制标签向量的软性。回顾一下, F ( ∙ )返回的是softmax层的输出,如第3.1.2节所述。这里, F ( ∙) c 表示 F ( ∙ ) 的第 c 个元素。 mse ( ∙ , ∙ )计算其两个输入之间的均方误差。我们的软性inceptionloss要求每个合成图像的预测概率与从均匀分布 U ( ϵ, 1)中随机抽样的软标签匹配,而不是硬性的one-hot形式。因此,合成图像不再过度拟合到一个固定的以 y = c标记的对象,而是挖掘出更复杂的场景,进一步有利于类内异质性的期望特性。03.4. 训练过程0我们学习量化网络包括两个部分,包括生成假图像的数据生成和在假图像上微调量化网络。03.4.1 数据生成0我们从标准高斯分布中随机抽取输入数据 ˜I。我们的数据生成旨在优化 ˜I,使得假数据的分布能够与真实数据的分布相匹配,特别是在类内异质性方面。为此,如图2所示,我们首先应用我们的局部对象增强(详见第3.3.1节)得到 ˜ ILOR。然后,我们将 ˜ I LOR 输入到预训练的全精度网络 F中计算Eq. ( 3 )的BNS对齐损失和Eq. ( 6)的边际距离约束。此外,我们用Eq. ( 4)的传统inception损失替换为我们提出的Eq. ( 8)的软性inception损失。因此,我们的数据生成的最终损失可以得到如下:LQCE = ce Q( ˜I), y .(10)LQKD = kl Q( ˜I), F( ˜I) ,(11)LQ = LQCE + α · LQKD,(12)W4A4W3A3W4A4W3A34.2.1CIFAR-10/1001234403.4.2 网络微调0使用我们的合成假图像 ˜ I,我们使用交叉熵损失对量化网络 Q 进行微调:0根据[ 41 ],我们也将 F 的输出传递给 Q,如下所示:0其中 kl ( ∙ , ∙ )计算其两个输入之间的Kullback-Leibler距离。因此,对于微调量化网络 Q 的整体损失可以总结为:0其中 α 平衡了 L Q CE 和 L Q KD 的重要性。在表 1中,我们的IntraQ结果得到了平均类内余弦距离为0.42,非常接近真实数据的0.44。此外,可视化结果显示我们的合成图像的分布(图1f)也接近真实数据的分布。此外,IntraQ在top-1准确率上达到了66.47%,相比于ZeroQ和DSG与inception loss相结合的结果,提高了3.0%,如表1所示。04. 实验04.1. 实现细节0我们在CIFAR-10/100 [ 21 ]和ImageNet [ 36]的验证集上报告top-1准确率。量化网络包括CIFAR-10/100的ResNet-20 [ 10 ],ImageNet的ResNet-18 [ 10],MobileNetV1 [ 15 ]和MobileNetV2 [ 37]。所有实验都使用Pytorch [ 33]实现。对于数据生成,采用Adam [ 19],动量为0.9,初始学习率为0.5。我们更新合成图像1,000次,并在数据生成损失Eq. ( 9)停止减小50次后,将学习率衰减0.1。批量大小设置为256。我们的数据生成有四个超参数,包括Eq. ( 5 )中的 η,Eq. ( 6 )中的 λ l 和 λ u ,以及Eq. ( 8 )中的 ϵ。它们分别在CIFAR-10上设置为0.5、0.05、0.8和0.9;在CIFAR-100上设置为0.5、0.02、1.0和0.6;在ImageNet上设置为0.5、0.3、0.8和0.9。至于ZeroQ+IL和DSG+IL,我们基于它们的开源代码进行实验,并使用与我们相同的配置。对于所有数据集,我们生成5,120个合成图像,使用带有Nesterov的SGD对量化模型进行微调[ 32]。我们将权重衰减设置为10^-4,并进行了150次微调迭代。CIFAR-10/100的微调批量大小为256,ImageNet的微调批量大小为16。此外,CIFAR-10/100的初始学习率为10^-4,ImageNet的初始学习率为10^-6。两个学习率每100次微调迭代衰减0.1。我们网络微调的超参数是Eq. ( 12 )中的α ,始终设置为20。0位宽方法生成器准确率(%)0全精度 - 94.030真实数据 - 91.520GDFQ - 90.250ZeroQ - 84.680DSG - 88.740ZeroQ+IL - 89.660DSG+IL - 88.930GZNQ - 91.300IntraQ(我们的方法) - 91.490真实数据 - 87.940GDFQ - 71.100ZeroQ - 29.320DSG - 32.900ZeroQ+IL - 69.530DSG+IL - 48.990IntraQ(我们的方法) - 77.070(a)CIFAR-100位宽方法生成器准确率(%)0全精度 - 70.330真实数据 - 66.800GDFQ - 63.580DSG - 62.360ZeroQ - 58.420DSG+IL - 62.620ZeroQ+IL - 63.970GZNQ - 64.370IntraQ(我们的方法) - 64.980真实数据 - 56.260GDFQ - 43.870DSG - 25.480ZeroQ - 15.380DSG+IL - 43.420ZeroQ+IL - 26.350IntraQ(我们的方法) - 48.250(b)CIFAR-1000表2. ResNet-20在CIFAR-10/100上的结果。WBAB表示权重和激活被量化为B位。04.2. 性能比较0我们在CIFAR-10/100上分析了性能,将其与流行的ZSQ方法(包括GDFQ [41]、ZeroQ [3]、DSG [46]和GZNQ[11])进行比较。为了证明有效性,我们将ResNet-20的所有层量化为4位和3位的超低精度,因为CIFAR-10/100是相对简单的数据集,如果给定更大的量化位数,可以很容易地达到高性能。W5A5W4A44.2.2ImageNetW5A5W4A4(a) MobileNetV1W5A5W4A4(b) MobileNetV2123450位宽方法生成器准确率(%)0全精度 - 71.470真实数据 - 70.310GDFQ - 66.820DSG - 69.530ZeroQ - 69.650DSG+IL - 69.530ZeroQ+IL - 69.720IntraQ(我们的方法) - 69.940真实数据 - 67.890GDFQ - 60.600DSG+G - 61.580ZeroQ - 60.680DSG - 60.120ZeroQ+IL - 63.380DSG+IL - 63.110GZNQ - 64.500IntraQ(我们的方法) - 66.470表3.ResNet-18在ImageNet上的结果。WBAB表示权重和激活被量化为B位。0从表2中可以看出,我们的IntraQ在CIFAR-10和CIFAR-100上始终优于其他方法。具体而言,与先进的基于生成器的GDFQ相比,我们的IntraQ在3位量化模型的top-1准确率上提高了5.97%(CIFAR-10)和4.38%(CIFAR-100)。在4位量化中也观察到类似的结果。特别是与GZNQ[11]相比,GZNQ需要50,000个合成图像才能在CIFAR-10和CIFAR-100上获得91.30%和64.37%的准确率,而我们提出的IntraQ只使用5,120个合成图像就达到了更高的性能,分别为91.49%和64.98%,充分证明了利用合成伪图像中的类内异质性的优越性。0我们还在大规模的ImageNet上与竞争对手进行了比较。量化网络包括ResNet-18和MobileNetV1/V2。与CIFAR-10/100类似,我们将网络的所有层进行量化。不同的是,由于ImageNet的规模较大,我们展示了5位和4位的结果。ResNet-18。表3显示了ResNet-18的实验结果。在5位的情况下,我们的IntraQ略优于现有方法ZeroQ with inceptionloss(69.94% vs.69.72%)。当转向4位时,我们的方法观察到了明显的提高。具体而言,GZNQ使用总共100,000个合成图像仅获得64.50%的准确率。相反,我们的IntraQ仅使用5,120个合成图像对量化的ResNet-18进行微调,保持了高达66.47%的性能,准确率提高了1.97%。0位宽 方法 生成器 准确率(%)0全精度 - 73.390真实数据 - 69.870GDFQ 59.760ZeroQ 61.950DSG 64.180ZeroQ+IL 67.110DSG+IL 66.610IntraQ(我们的方法) 68.170真实数据 - 59.660GDFQ 28.640ZeroQ 20.960DSG 21.140ZeroQ+IL 25.430DSG+IL 42.190IntraQ(我们的方法) 51.360位宽 方法 生成器 准确率(%)0全精度 - 73.030真实数据 - 72.010GDFQ 68.140ZeroQ 70.880DSG 70.850ZeroQ+IL 70.950DSG+IL 70.870IntraQ(我们的方法) 71.280真实数据 - 67.900GDFQ 51.300DSG+G 54.660GZNQ 53.530ZeroQ 59.390DSG 59.040ZeroQ+IL 60.150DSG+IL 60.450IntraQ(我们的方法) 65.100表4.在ImageNet上的MobileNetV1/V2的结果。WBAB表示将权重和激活量化为B位。0MobileNetV1/V2。在表4中,与5位的ZeroQ+IL和4位的DSG+IL相比,我们的IntraQ在量化轻量级MobileNetV1/V2时仍然保持着最佳性能。特别是在较低的4位上,最高性能尤为明显。例如,当MobileNetV1的所有层以4位形式表示时,我们的IntraQ与DZSGQ+IL相比获得了9.17%的准确率提升。这些结果再次证明了我们的合成图像对于ZSQ的有效性,也验证了我们挖掘类内异质性的动机的正确性。0.30.40.50.60.765.465.65.86.06.266.466.665.5965.9566.4765.7565.45(a)0.10.20.30.40.5l65.465.65.86.06.266.466.665.3266.0266.4765.7965.71(b)0.60.70.80.91.0u65.465.65.86.06.266.466.665.7265.8366.4765.7365.46(c)0.60.70.80.91.065.465.65.86.06.266.466.665.6165.8965.9166.4765.95(d)51020304065.465.65.86.06.266.466.665.866.1566.4766.4566.46(e)ZeroQ+IL63.38123460准确率(%)0准确率(%)0准确率(%)0准确率(%)0准确率(%)0图3.超参数对ImageNet上4位ResNet-18的top-1准确率的影响。0LOR MDC SIL 准确率(%)066.14 63.77 63.60 64.05 66.3266.30 66.470表5.我们的IntraQ不同组件的消融。“LOR”表示局部对象强化,“MDC”表示边际距离约束,“SIL”表示软入侵损失。我们报告了ImageNet上4位ResNet的top-1准确率。04.3. 消融研究0在本节中,我们对我们的IntraQ的超参数和不同组件进行了消融研究。所有实验都是在ImageNet上将ResNet-18的所有层量化为4位进行的。报告了top-1准确率。超参数。超参数包括方程(5)中的η,方程(6)中的λl和λu,方程(8)中的ϵ和方程(12)中的α。如图3所示,最佳结果是η=0.5,λl=0.3,λu=0.8,ϵ=0.9和η=20。为了避免繁琐的搜索,这些结果用于ImageNet上的所有实验。尽管对于所有网络来说并不是最优的,但与现有方法相比,它们已经显示出最佳效果。类似的实验可以用来找出这些参数在其他数据集上的最优值,如第4.1节所列。组件。我们进一步研究了我们提出的局部对象强化在第3.3.1节,边际距离约束在第3.3.2节和软入侵损失在第3.3.3节的有效性。表5显示了实验结果。请注意,ZeroQ+IL可以作为基准,因为它在方程(3)中使用了BNS对齐损失和方程(4)中的入侵损失。可以看出,当这三个策略分别添加到合成的伪图像中时,与ZeroQ+IL的基准相比,准确性有所提高。其中,局部对象强化将基线从63.38%提高到66.14%。这启发我们认识到为了保留类内异质性,合成具有不同尺度和位置的对象的图像的重要性。此外,如果两者一起使用,性能将继续提高。当这三个策略都使用时,0应用时,可以获得最佳性能66.47%。05. 限制0虽然我们提出的IntraQ大大提高了现有ZSQ方法的准确性,但与真实数据的结果相比,其性能仍然大大降低。因此,如何进一步提高伪数据的质量仍然是我们未来工作中需要研究的问题。由于我们有限的硬件资源,我们无法在其他计算机视觉任务(例如检测)上执行我们的IntraQ。目前尚不清楚是否仍然可以观察到类内异质性,因此我们的InterQ在其他任务上的适用性仍然是一个未解决的问题。我们在不久的将来需要更多的努力来解决这个问题。06. 结论0在本文中,我们研究了优化零射量化(ZSQ)的合成图像。我们发现了真实数据中不可忽视的类内异质性现象。为了保留合成图像中的这种特性以获得更好的性能,我们提出了一种新的ZSQ方法,称为IntraQ。为此,我们的创新包括局部对象增强、边际距离约束和软入侵损失。局部对象增强将目标对象定位在合成图像的不同尺度和位置,以避免产生相似的图像。边际距离约束用于防止图像特征聚集在一起。软入侵损失考虑软标签作为先验知识,以在合成图像中挖掘更复杂的场景。通过我们的创新,合成图像在每个类别内被证明是异质的,并且在这些图像上微调的量化模型在性能上优于其他方法。致谢。本工作得到国家杰出青年科学基金(No.62025603),国家自然科学基金(No.U1705262,No.62072386,No.62072387,No.62072389,No.62002305,No.61772443,No.61802324和No.61702136),广东省基础与应用基础研究基金(No.2019B1515120049)和中央高校基本科研业务费(No.20720200077,No.20720200090和No.20720200091)的支持。123470参考文献0[1] Ron Banner, Yury Nahshan, Daniel Soudry等.用于快速部署的卷积网络的训练后4位量化.在神经信息处理系统(NeurIPS)论文集中,页码7950-7958,2019年. 2 , 30[2] Adrian Bulat, Brais Martinez, and GeorgiosTzimiropoulos. 高容量专家二值网络.在国际学习表示会议(ICLR)论文集中,2020年. 10[3] Yaohui Cai, Zhewei Yao, Zhen Dong, Amir Gholami,Michael W Mahoney和Kurt Keutzer. Zeroq:一种新颖的零射量化框架.在IEEE/CVF计算机视觉与模式识别会议(CVPR)论文集中,页码13169-13178,2020年. 1 , 2 , 3 , 60[4] Yoojin Choi, Jihwan Choi, Mostafa El-Khamy, andJungwon Lee. 无数据网络量化与对抗性知识蒸馏.在IEEE/CVF计算机视觉与模式识别会议(CVPRW)论文集中,页码710-711,2020年. 2 , 30[5] Carl Doersch. 变分自编码器教程.arXiv预印本arXiv:1606.05908,2016年. 30[6] Steven K. Esser, Jeffrey L. McKinstry, Deepika Bablani,Rathinakumar Appuswamy, and Dharmendra S. Modha.学习步长量化. 在国际学习表示会议(ICLR)论文集中,2020年. 20[7] Jun Fang, Ali Shafiee, Hamzah Abdel-Aziz, DavidThorsley, Georgios Georgiadis和Joseph H Hassoun.用于深度神经网络的训练后分段线性量化.在欧洲计算机视觉会议(ECCV)论文集中,页码69-86,2020年. 20[8] Ruihao Gong, Xianglong Liu, Shenghu Jiang, Tianxiang Li,Peng Hu, Jiazhen Lin, Fengwei Yu, and Junjie Yan.可微软量化:连接全精度和低位神经网络。在计算机视觉和模式识别(CVPR)的IEEE/CVF会议论文集中,2019年。1, 20[9] Matan Haroush, Itay Hubara, Elad Hoffer, and DanielSoudry.内部知识:无数据模型压缩方法。在计算机视觉和模式识别(CVPR)的IEEE/CVF
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功