没有合适的资源?快使用搜索试试~ 我知道了~
从有限的未标记数据中学习压缩
从有限的未标记数据中学习压缩何翔宇1、2[0000 - 0003 - 2554 - 9289]和建成 1、 2、 3R[0000 - 0003 - 1289 - 2758]1模式识别国家重点实验室中国科学院自动化研究所,北京{xiangyu.he,jcheng}@ nlpr.ia.ac.cn2中国科学院大学,中国北京3中国北京脑科学与智能技术卓越中心抽象。卷积神经网络(CNN)在许多领域中极大地推进了最新技术水平。然而,大多数模型都是计算和内存密集型的,这引起了人们对网络压缩的兴趣。虽然现有的压缩方法实现了良好的性能,但它们受到三个限制:1)不可避免地使用大量标记数据进行重新训练; 2)用于重新训练的大量GPU时间; 3)模型压缩的训练技巧。特别是对原始数据集进行再训练的要求使得其难以应用于训练数据不可公开获得的许多现实世界场景在本文中,我们发现,重新规范化是一个实用和有效的方法,以减轻上述限制。通过量化或修剪,大多数方法可能会压缩大量的参数,但忽略了性能下降的核心作用,这是批归一化引起的高斯共轭先验 通过在批量归一化中使用重新估计的统计数据,我们显着提高了压缩CNN的准确性。在ImageNet上进行的大量实验表明,它的性能大大优于基线,与基于标签的方法相当。此外,微调过程需要不到5分钟的CPU,使用1000未标记的图像。关键词:深度神经网络·无标签网络压缩1介绍卷积神经网络(CNN)在许多具有挑战性的问题中取得了令人印象深刻的性能[15,24],甚至在某些任务(如ImageNet分类)中超过了人类水平[16]。随着基于CNN的识别系统[3]的不断发展,在保持准确性的同时提高推理效率至关重要[5]。由于网络压缩为CNN引入了有效的近似,并且压缩模型需要更少的内存和更少的操作,因此参数量化[8,18,30],修剪[11,13]和低秩[33,38]表示已成为深度学习社区感兴趣的主题特别是量化,随着AI芯片的蓬勃发展,将成为工业中的主力军。虽然这些2X.他和J。程尽管这些技术已经推动了功率效率的进步,但是它们在低比特或高度稀疏的压缩下仍然面临相当大的精度损失在原始数据集上重新训练通常是不可避免的不幸的是,再训练过程需要足够大的开放训练数据集,这对于许多现实世界的应用来说是不可访问的因此,必须避免重新训练或不需要训练数据。在这项工作中,我们通过无标签微调减轻了直接网络压缩的精度下降。 对于网络量化,其包括两个主要组件:权重量化和特征图量化。直观地说,量化误差决定了性能损失。因此,我们提出了Quasi-Lloyd-Max算法来最小化权重量化误差。为了进一步提高压缩网络的准确性,我们探索了特征映射失真的原因。在贝叶斯网络的光,我们揭示了统计移位的批量归一化的结果在精度下降直接压缩。当网络参数不符合近似高斯分布时,均值和方差的先验假设应与受损特征不匹配。通过在批量归一化中采用重新估计的统计数据,可以快速恢复压缩CNN的性能对4位量化和剪枝的大量实验证明了这种观点的鲁棒性。与传统的基于标签的压缩方法相比,本文的主要贡献如下:– 我们揭示了隐藏的因素,为什么直接网络压缩的结果在性能下降,并证明4位或稀疏表示仍然能够原来的任务,而无需再培训。– 本文提出了一种在4位网络上最小化权值量化误差的准Lloyd-Max算法– 通过使用有限的未标记数据,微调时间从几天(GPU)减少到几分钟(CPU)2相关工作深度神经网络的冗余参数会导致计算效率低下和内存占用量大大多数压缩方法可以被看作是正则化技术来解决这些问题。最近,随着TPU[22]和低精度BLAS [10]的存在,参数定点表示已被频繁讨论。传统的基于散列的向量量化,例如HashNet [2],可能无法直接受益于定制的硬件。相比之下,8-8位结构很容易获得TensorRT [27]或TPU [22]支持。具有潜在64倍加速的面向位的方法,如BC [7],FFN [34],BNN[6]和XNOR-Net [30],将DNN压缩到极端1位(32倍压缩),同时遭受不可逆的准确性损失。INQ [39]显示了2n框架的合理性能;然而,需要大量的标记数据进行再训练。无标签网络压缩3对于低秩表示,早期的研究有着相同的出发点:使用矩阵低秩近似来减少计算量。具有规则过滤器和大特征图的常规网络结构对于矩阵分解是友好的。广义奇异向量分解[38],塔克分解[23]和张量块 项 分 解 [33 , 35] 广 泛 用 于 AlexNet [24] , VGG-16 [31] 和 GoogleNet[32]。在精度损失可以忽略不计的代价下,它们在一定的压缩量下获得数倍的加速度。最近,具有信道卷积的MobileNet [17]显示了在有限参数内提取区分特征的潜在能力。最值得注意的是,该网络结构与分解矩阵相同,这使得当前的分解方法无效。类似的问题仍然出现在ResNet [16]中,使用1 ×1过滤器。权重修剪受益于稀疏广义矩阵乘法(稀疏GEMM)和高度优化的硬件设计[14]。结合聚类和Huffman编码[13],报告了有希望的压缩结果而没有准确性损失。问题是数百[11]甚至数千[14]的再训练时期是耗时的,并且仍然严重依赖于标记的数据集。通过使用特征映射拟合,[4,36]通过全精度和压缩网络的特征映射之间的欧氏距离,隐式地从经过良好训练的网络中学习然而,更深层次的网络结构和不平衡的类样本将是手动调整的逐层分析的噩梦。3权重量化由于量化已成为工业界的主流压缩技术,我们首先回顾了量化的原因,然后讨论了三个硬件友好的量化器在不同的度量。在进一步的特征图恢复中采用了精度损失最小的方案3.1原因在早期的研究中,[12,19]表明可以使用16位定点数来训练深度神经网络。定点运算速度快、功耗低,对嵌入式设备更加友好小电路将允许配置更多的算术单元。此外,低位数据表示最小化了存储器占用,这减少了定制设备(如FPGA)的数据传输时间[12,13,25]。3.22范数度量由于定制的硬件单元已完全支持定点乘法和加法,因此通过移位和进位运算将浮点数量化为最接近的定点表示,可以轻松地加快推理时间。假设定点数表示为[Ibit:Fbit],并且整数部分加上4X.他和J。程2.ΣQΣ我Q独立常数。因此,对于任何给定的Q,最佳α为我我分数部分产生实数。在数学上,这个问题被称为舍入到最近,可以表述如下:Q=argminJ(Q)=||W−Q||2Q2S.T. Q i∈ {−2 I/2,−2I/2 + 2 −F,... 0,…2 I/2 − 2 −F}其中,Q被强制拟合W中的大数字。该指标最小化了损失函数的代价是小的数字,并变得更加敏感到离群值也就是说,大的数字确定I位和F位的位宽选择。为了部分解决这个问题,引入了一个比例因子α∈Rα*,Q* = argminα>0, QJ(α,Q)=||W−αQ||2已经证明,缩放因子可以显著扩大值域[30]。虽然该函数仅在每个变量上是凸的,但它们在每个变量上都不是凸的。求解J(α,Q)在寻找全局最小值的意义下是不可行的,特别是在离散约束下。然而,使用迭代数值优化来找到局部最小值是可能的。考虑以下问题,α*,Q* = arg minα2 QT Q− 2α QT W+c,(1)α>0其中Q对应于一组不动点数,c=ΣW2是αα*= QT WQT Q。(二)通过将α*代入(1),优化问题得到偏导数J(α,Q)。将其设为零,然后将解投影到给定的离散空间Q *≈ Fix(W/α*)。(三)算法1ite r idatesα iti量化到最接近的2次幂)或均匀量化(即,量化到最近的量化区间端点)。遵循迭代更新规则,在每次迭代中优化W与α3.3离散熵度量类似于作为布雷格曼距离的规范示例的平方欧几里德距离(2),另一个有用的度量是由凸函数 ipilnpi生成的广义Kullback-Leibler散度(KL)。在这种情况下,α*,Q* = argminD(αQ||(1)A(|W|lnWi−|W|+α|Q|)α>0, QiαQi i我S.T. α> 0,Q i∈ {±20∆,±21∆,…,±2k−1∆}无标签网络压缩5l,kα∗我算法1准Lloyd-Max算法。R方程:Fullpreci_nweightsW,metricJ(·)(2,KL,etc. )和quantizerFix(·)。E nsure:UpdddWa Qandfixed-potQ.1:对于第l层中的第k个滤波器,do2:α1,k←初始化参数3:重复∗l,k∗l,k←arg minJ(αl,k,Ql,k);{ Fixα,solve Q; Fix Q,solveα}α,Q5:swap(αl,k,α*);6:直到参数αl,k7:Yl←W~l*X ~l≈α*(Q*X~l);{low-bitconvolution+cblassscal}L l˜Xl+19:结束←ReLU(Y1);{ ReLU + INT 8位量化}0的情况。100的情况。090的情况。080的情况。070的情况。060的情况。050的情况。040的情况。030 25 50 75 100 125 150 175ITER(a)(b)第(1)款Fig. 1. (a)不同度量的拟Lloyd-Max收敛性比较。报道了W与αQ之间的Eu-clidean距离。(b)第三卷积层的量化4位(2n量化)和全精度权重的分布(为了清楚起见,合并了一些条)其中Δ对应于k比特量化中的最小值2n喜欢2范数度量,这个损失函数也是下界为零。考虑函数D(α Q ||W)相对于Q的元素被部分区分,Q是D(α Q ||W)= − |Wi|+ α·sgn(Q)。(四)QiQii对于固定的α,我们有D(α Q ||W)= − 1Σ|W |+ Σ|Q|.(五)α α i ii ii i通过对方程的求解,得到了K_L的一对l_oΣc_m_i_a分歧。因此,D(α Q)的解||W)为α=通过拟Lloyd-Max迭代修复(W)。Σi|Wi|我|Q*|Q* =conv3L2conv3D(W ||αQ)conv3D(α Q||W)fc7L2fc7 D(W ||α Q)fc 7D(α Q ||W)量化误差,Q4:α第八章:6X.他和J。程我α>0, Q2∗2我表1. 4位权重和8位激活的量化器比较(2范数)模型四舍五入到最近均匀2N全精度AlexNet Top-1Top-548.3272.9343.1267.7358.6681.1760.4382.47ResNet-18 Top-1Top-545.9271.3350.1875.6355.7679.7569.0889.03ResNet-50 Top-1Top-554.6177.9855.9979.0068.1487.9875.3092.11在数学上,广义Kullback-Leibler散度类似于一个度量,但它既不满足三角不等式,也不满足对称性。我们进一步测试D(W ||α Q)作为AlexNet上的权重量化损失,如图1(b)所示。按照同样的程序,我们得到D(W ||α Q)=|Q|ln α + Σ|Q|(ln |QI|)(6)αi我我|W|我D(W ||α Q)= α·sgn(Q)·ln αQi。(七)QiiiWiΣ|Q *|ln|Wi|我我|Q*|在这种情况下,α= exp(Σ)和Q*保持与等式相同(四)、我我|Q *|以AlexNet的第三个卷积层和第二个全连接层为例,图1(a)显示了不同度量下的收敛性在我们的评估中,所有度量在前几次迭代中收敛,并获得几乎相同的量化误差。由于2产生更稳定的收敛速度,我们在2范数度量下评估不同量化器的精度。如表1所列(除第一层外的整个网络量化),2n的性能大大优于其他量化器;因此,我们在接下来的实验中遵循该设置。3.4基于特征的度量一般来说,在计算机视觉任务中,从输入数据中提取的特征图比权重更重要拟合输出特征而不是预先训练的权重将进一步提高性能[36]。获取全精度要素Y和量化的输入激活X优化问题:考虑到,我们得到的多目标α*,Q* = argmin||2+λ||Y− α X ~ QT||二、||2.(八)当λ= 0时,等式(8)降到2公制。对于较大的λ,特征图拟合变得更加关键。这个问题可以通过Quasi-Lloyd-Max在一个˜无标签网络压缩7ΣλQXXQ+QQi我Σ˜ ˜p(D)α*=i=1i我我我 我表2.直接4位2n权量化模型2标准D(W||αQ)D(αQ)||W基于fmapAlexNet Top-1Top-558.9081.4356.3079.4057.5980.26––类似的方式。每一步的封闭形式解是λΣm QTX〜TYi+QTWmi=1MTTT我M(α*λΣX~TX~i+α*I)Q=λΣX~TYi+W,(10)i=1i=1其中I为n×n单位矩阵,m为m个样本。 若XTXi是对称正定的,则利用修正的Cholesky分解,在emaysimpl ifyEq. (10)如α*(λX~TX~i+I)=LDLT,其中L较低三角矩阵的单位对角元素和D是一个对角矩阵的正元素的对角线上。为了求解LDLT x = y,我们只需要解决Lx′ = y和DLT x = x′,这是更快的,具有更好的数值稳定性。然而,给定有限的未标记数据,没有全局测量来促进λ的选择。在我们的实验中,求解Q的迭代数值近似可能会受到不同设置的巨大影响。因此,显式的基于特征图的方法在我们的进一步评估中被弃用通过与各种度量指标的比较,表2表明,2范数可以更好地反映权重拟合误差。4特征恢复为了进一步提高压缩网络的性能,我们将重点放在“类高斯”的过滤器上。从贝叶斯网络压缩的角度来看,由于批量归一化导致的先验判断导致了全精度网络压缩和事后压缩之间的性能差距。因此,我们可以使用批量归一化来改进具有低比特或稀疏表示的良好训练的网络。4.1贝叶斯网络CNN的方法是在给定训练数据集(D)和模型参数W上的先验分布p(W)的情况下找到最大后验(MAP)权重。 在{(xi,yi)i=1:N}处,N_b的D_c上的S_s的s_|D)=p(D|W)p(W )。 由于在p(D)处的计算中的差异,所以通常近似p(W| D)使用变分分布qτ(W)。通过优化(九)8X.他和J。程τNΣMMN(σ,i).i=1N∂ω`negativelog−likelihoodx∫变分参数τ,使得Kullblack-Leiber(KL)发散最小化:L(τ)=−Eqτ(W)[logp(D|W)]+KL(qτ(W)||p(W))(11)=−qτ(W)log p(D |W)dW + KL(qτ(W)||p(W))。(十二)W当量(13)被称为证据下限(ELBO),假设i.i.d.观测噪声。在实践中,通常采用蒙特卡罗积分来估计在iontermEq(W ) [logp(D)]处的e x p ec t|W)]。对于每个批次i,使用weight的振幅Wiqτ(W)L(τ):=−1Σlogp(D|W(i)+KL(q(W)||p(W))(13)Nτi=1N:=−1Σl ogp(y|x,W(i)+KL(q(W))||p(W))。τ(十四)Ni我i=1联系我们特别地,对于批处理归一化参数{μB,σB} ∈W,我们将训练时的推断视为一个随机过程,基于小批处理样本的估计均值和方差是两个随机变量。假设i.i.d. M个样本,其中z i=WxN(µ,σ2)且µi=1Mk=1 zk. 由我们-通过S-充分随机抽样的中心极限定理(CLT)GD,我们有µB N(µ,σ2)。由于E[(z -μ)2]=σ2,类似地,我们获得2 2E[(z−µ)4]−σ4BM4.2KL散度与权正则化概率上,p(D |W)= QN p(y i| x i,W),后验p(y i| X(I,W)按压由参数模型W生成的预测分布,例如,多分类的交叉熵准则负对数似然定义L如下:L(y)=−1Σlogp(y|x,W)+λ||ω||二、(十五)Ni我22i=1其中ω是可学习的参数,如权重,W还包括随机参数,如µB、σB。由于L(τ)和L(y)都是通过梯度下降求解的,因此等式(1)的第二项可以是:(15)和等式(17)示出了KL散度(即,p(W)w. r. t估计的分布qτ(W))和权重正则化:KL(qτ(W)||p(W))λωTωω=2。(十六)σKL散度我无标签网络压缩9ppppQBMi=1Mi=1p图二、AlexNet第5批归一化层的特征分布比较正则化项可以被视为权重上的对数先验分布,例如从2范数导出的高斯分布在低位或稀疏性的约束下,惩罚项引入不同的先验(例如,修剪中的钉和板),这极大地影响了p(W)的近似。我们现在描述权重压缩如何破坏批归一化参数。对于批量归一化中的随机变量,ap-1之间的KL散度为近似值N(µq,σ2)和真实分布N(µp,σ2)可通过以下公式计算QKL(q(W)||p(W))=(µq−µp)22σ2pσp+登录 +σq2Q2σ2 -一个2如果µp,则σp在计算过程中不会改变,而其值不(µ−µ)µ′2 2′σ′= 0,则KL=qp q+(σq−σp)σq。最佳近似μ→pω2σqσ2qμp,σ2→σ2在SGD(partial)求解正则项时达到极限Q p导数为零)。当我们对训练好的网络进行压缩时,权值正则化已经发生了隐式的变化,换句话说,以前的估计会引入很大的偏差。幸运的是,如4.2节所证明的,μq和σ2的期望值收敛到真实的分布参数,然后可以通过重新估计来更新失真的特征。4.3更新扭曲的要素虽然通过对未标记数据的推断来更新权重是不切实际的,但对µB和σB的重新估计仍然是可行的。从[21],激活的均值和方差认为E[x~]:=E[μ~B](17)MVar[x~]:=m−1E[σ~2],(18)whereE(µ~)=1ΣmxianddE(σ2)=1m (x~i−µ~)2.在贝叶斯理论中,如果后验分布在相同的概率中分布族作为先验,那么先验被称为共轭先验。σσ10X.他和J。程表3. ILSVRC 2012验证数据集上的8-8位(全网络权重&特征8位)量化结果。 在8位权重中采用了具有2度量的舍入到最近。对于8位特征映射,我们只需将浮点数转换为最近的固定点模型我们的基线我们的差距TensorRT基线美国[27]AlexNet Top-1Top-560.4382.47+0.50+0.2957.0880.06-0.08-0.08ResNet-18 Top-1Top-569.0889.03-0.08-0.06––––ResNet-50 Top-1Top-575.3092.11-0.27-0.0273.2391.18-0.20-0.03似然函数特别地,高斯分布是也是高斯的可能性的共轭先验在这种情况下,我们已经表明,批归一化参数服从正态分布,并结合经验观察到的batchnormizationis“mor e G au ss i an“[ 20,21]的输出因此,在压缩之后,通过选择新的高斯先验(即,重新归一化或重新估计),则后验分布更可能也是高斯分布:P高斯 ∝P似然 ×P正常。由于通常在卷积之后采用批量归一化,因此可以直接更新失真特征重新归一化后然而,将压缩网络解释为似然函数是一种弱近似。极端量化网络,如二进制或三进制网络,由于似然函数的破坏,其性能不会得到改善在这些情况下,在原始数据集上进行再训练是不可避免的。5实验在本节中,我们在ImageNet数据集(ILSVRC 2012)上验证了所提出方法的有效性。一般来说,在深度神经网络上进行无训练量化或修剪是具有挑战性的,但我们实现了更接近全精度网络的精度。我们在三个代表性CNN上实现权重修剪和低位量化:AlexNet [30]、ResNet-18[16]和MobileNet [17]。此外,我们还对ResNet-50 [16]进行了评估,以检查重新规范化对更深层次网络结构的有效性所有图像的大小调整为在短维度上具有256像素,然后选择224×所有实验均未使用数据增强。无标签网络压缩11表4.网络2n量化的最终性能报告与全精度网络对应的精度损失(4位权重8位激活)模型基线无重新规范带ReNormAlexNet Top-1Top-560.4382.47-1.77-1.30-0.39-0.20ResNet-18 Top-1Top-569.0889.03-13.21-9.28-1.83-1.01ResNet-50 Top-1Top-575.3092.11-7.16-4.13-2.14-0.99MobileNet Top-1Top-570.8189.85-70.80-89.82-9.75-6.37表5. AlexNet和ResNet-18的量化比较。报告与相应全精度网络的Top-1和Top-5间隙。基于标签的再训练方法被称为“+标签”。“+”和“+”之间的关系是针对特定的和特定的。不代表保留字显示“*”。AlexNet位精度方法顶-1间隙 前5名差距历元多瑞福[40]-2.90–* +标签八加八[29]第二十九话-0.88-1.06∼0我们+0.50+0.29∼05+ 32INQ [39]+0.15+0.238 +标签4+ 4WQ [28]-1.2-1.16 +标签4+ 8我们-0.39-0.20∼05+ 4LogQuant [26]–-3.20*4+ 4我们-3.24-2.13∼0ResNet-184+ 32INQ [39]+0.62+0.328 +标签4+ 8我们-1.83-1.01∼05.1网络量化8-具有很少采样或者理想地没有输入数据的比特量化正在成为工业中的主力如表3所示,我们的8-8位已达到与全精度网络可比较的精度为了在嵌入式设备上实现更高的效率,我们证明了即使是4位的权重也可以达到大约32位的水平。使用第3.3节中相同的4位权重,我们在从ILSVRC 2012训练数据集中随机选择的1K图像上重新规范化这些模型,没有标签信息。如表4所示,4-8位网络(除了第一层)的性能从直接量化得到了极大的改善。与Nvidia TenorRT相比,使用1250张图像来更新8位网络的参数;我们需要1000张图像来学习4位量化。AlexNet、ResNet-18、12X.他和J。程1.01.0000.90.9750.80.9500.70.60.50.40.9250.9000.8750.8500.8250.31 2 3 4 5 6 7 89压缩比(一)0.8000 1 2 3 45ReNorm迭代(a)图三. (a)不同压缩率下压缩网络的归一化精度。“1”表示严格遵守工作记录。直接执行和重新执行两个任务的形式包括“P”和“RN”。 当精度下降到0.85(标准化)时,我们将继续运行。(b)归一化准确度在重新归一化迭代中变化。在每次迭代中使用1K个不同的图像和ResNet-50显示了稳定的性能改进,几乎接近32位水平。具有信道卷积层的MobileNet的量化更具挑战性在简单的4位权重量化之后,精度下降到几乎为零。这种微妙的网络结构相当于张量块项分解的低秩表示[33]。出于这个原因,具有很少冗余的逐通道卷积自然难以压缩。由于8位MobileNet在CPU上的运行时速度已经只有31ms(Tensorflow1.1.0),因此4位可能是更高速度和更低精度之间的折衷。表5进一步示出了准确度和学习成本之间的比较。我们的4-8位仍然具有再培训方法的竞争力。在某些情况下,4-8位甚至优于AlexNet上的一些基于标签的同行。对于4-4位,与第3.2节略有不同,我们在重新归一化的过程中将特征量化到最接近的2n(没有尺度)。与8-8位框架相比,4-8位不仅实现了2倍的模型压缩,而且运行速度更高。低位宽使更多的定点乘法在相同的时钟频率的芯片。这可以提供动态数据级并行性,以实现更高的加速比。此外,再训练方法仍然可以从特征图恢复中受益。3-8-位AlexNet的Top-1和Top-5改进分别为+25.43%和26.86%,准确率分别为50.69%(Top-1)和74.87%(Top-5)。该结果为重新训练3位网络提供了更好的起点。5.2权重剪枝为了进一步验证4.2节中的结论,我们对训练好的参数应用网络修剪(基于绝对值)图3(a)显示了权衡AlexNet PAlexNet RNResNet-18 PResNet-18RNAlexNetResNet-18ResNet-50MobileNet归一化准确度归一化准确度无标签网络压缩13表6. AlexNet上的模型稀疏性比较层|百分比(%)|%|W|[14个]总计%|w/=0|%(Ours)|W|总计%Conv184%63.1%Conv238%42.1%Conv335%37%百分之四十九点八48.6%Conv437%百分之五十Conv537%49.0%FC19%百分之七点六FC29%10%百分之十四点五百分之十二点六FC325%52.4%10,000次迭代1次迭代120W标记图像1K未标记图像压缩率和精度之间的关系在一次迭代内,即, 使用1K图像,我们将性能恢复到实际水平(图1中的实线)。3(a))。这种稳定的性能改善不仅表现在网络量化上,而且表现在权值修剪上。由于具有过度参数化内积层的AlexNet是检查修剪方法有效性的典型网络结构,因此我们将典型的修剪方法[14]与我们的压缩率进行了比较。如表6所示,我们的方法甚至在两层上修剪了更多参数,特别是AlexNet中具有大多数参数的Fc1。FC的整体压缩率仍然非常接近。综合考虑两种方法的训练成本,我们的方法具有效率高的显著优势。由于高压缩率下的准确性损失,我们在表7中显示了训练成本和性能之间的权衡。在我们的实验中,更深层次的网络(如ResNet-50)和轻量级结构(如MobileNet)也获得了相同的结果。对于3倍修剪,Mo- bileNet实现了+53.82%的Top-5改进到78.43%,卷积层为43%,全连接层参数为7.3%ResNet-50产生+6.92%Top- 5改进到90.00%,具有35%卷积层和10%完全连接层参数。在我们所有的实验中,性能的改善是一致的,这表明更高性能的网络可以获得更好的性能。5.3时间消耗如表8所示,大多数网络只需要几分钟就可以细化扭曲的特征,如图3(b)所示,使用更多的图像对最终的准确性几乎没有贡献。将批处理大小设置为1K只是一种折衷,即在存储器大小和E(x)和Var(x)的放大率之间进行权衡。 通过使用大内存GPU,整个过程可能只需要几秒钟。这将导致减少几个数量级的时间消耗我们相信,在有限的未标记数据下,学习时间加速在14X.他和J。程表7.不同压缩模型的训练样本数和最终压缩率的比较。“*”表示不代表数据库。Label-basedretraingmethdsaremkedas方法Top-1历元压缩参数[11]第十一话56.91140+标签17.7×3.48M[37]第三十二话:58.07*+标签2×32.8M[37]第三十六话:57.10*+标签3.7×16.4MHan等人[14个]57.23≥960+标签9×6.7M[14]第十四话42.8204.4×13.8M我们55.28∼06.73×9.26M表8.在英特尔至强CPU E5-2680 v4@2.40GHz x2AlexNet ResNet-18 ResNet-50 MobileNet1批次64s172s295s197s实际应用中,因为轻微的精度损失对客户来说是不可察觉的6结论在本文中,我们分析了压缩损失从贝叶斯的角度来看,证明批量归一化统计失配是性能损失的关键原因之一通过使用建议的Quasi-Lloyd-Max和重新归一化,我们将4位网络量化到几乎全精度水平,而无需重新训练。在网络剪枝实验中,我们进一步证明了该定理的鲁棒性。我们的学习过程比现有的方法更有效,因为需要的数据少得多总之,我们部分解决了从有限的未标记数据中学习以压缩深度神经网络的现实挑战,这可以应用于广泛的应用中。7确认本工作得到了国家自然科学基金(No.61332016)、中国科学院战略重点研究计划(批准号:XDBS01000000)的部分资助引用1. 伯比奇河特罗特退伍军人Buxton,B.F.,Holden,S.B.:机器学习药物设 计 : 支 持 向 量 机 用 于 制 药 数 据 分 析 。 ComputersChemist ry26(1),5无标签网络压缩152. 陈伟,Wilson,J.T.,Tyree,S.,Weinberger,K.Q.,陈Y:压缩-用散列技巧运行神经网络。In:Bach,F.R.,布莱,D.M.(由─s.)Proceedings of the 32nd International Conference on Machine Learning ,ICML2015,Lill,France,6-11July2015. pp. 2285-2294 JMLR. org(2015),http://jmlr.org/proceedings/papers/v37/chenc15.html3. 陈旭,Kundu,K.,张志,妈妈,H.,Fidler,S.,乌尔塔松河:用于自动驾驶的单目3d物体检测。In:2016 IEEE Conference on Computer Vision andPattern Recognition,CVPR 2016,Las Vegas,NV,USA,June 27-30,2016.pp. 2147-2156 IEEEComputerS ociety(2016)4. 郑杰,吴,J.,Leng,C.王玉,Hu,Q.:量化CNN:加速和压缩卷积网络的统一方法。IEEE Transactions on Neural NetworksandLearningigSystemspp.2017年15. 郑杰,王,P.,Li,G.,胡QLu,H.:Deep卷积神经网络工作的高效计算的最新进展。FrontiersofITEE19(1),64https://doi.org/10.1631/FITEE.17007896. Courbariaux,M.,Bengio,Y.:Binarynet:训练权重和激活限制为+1或-1的深度神经网络。arXiv abs/1602.02830(2016)7. Courbariaux,M.,Bengio,Y.,David,J.:Binaryconnect:训练深度神经网络-在传播期间使用二进制权重。在:Cortes,C.,劳伦斯,北达科他州,李D.D. Sugiyama,M.,加内特河(编辑)神经信息处理系统进展28:神经信息处理系统2015年年会,December7-12,2015,M〇ntreal,Quebec,Canada.pp.3123-3131CurranAssociates,Inc.(2015),http://papers.nips.cc/paper/5647-binaryconnect-training-deep-neural-networks-with-binary-weights-during-propagations8. Dettmers,T.:8- 深度学习中的位近似并行。arXiv ab- s/1511.04561(2015)9. Djuric,U.,Zadeh,G.,Aldape,K.,Diamandis,P.:精密组织学:深度学习如何为个性化癌症护理重振组织形态学。npj精密肿瘤学1(12 2017)10. 组,G.:gemmlowp:一个小型的独立的低精度gemm库。(2016),代码可从https://github.com/google/gemmlowp11. Guo,Y.,中国科学院,Yao,A.,陈Y:高效动态网络手术。在:Lee,D.D.,Sugiyama,M.,von Luxburg,U.,居永岛加内特河(编辑)神经信息处理系统的进展29:神经信息处理系统2016年年会,December5-10 , 2016 年 , Barcelona , Spai n 。 pp. 1379 柯 兰 联 营 公 司( 2016 ) , http://papers.nips.cc/paper/6165-dynamic-network-surgery-for-efficient-dnns12. 古普塔,S.,阿格拉瓦尔,A., Gopalakrishnan,K., Narayanan,P.:深度学习,数值精度有限。In:Bach,F.R.,布莱,D.M.(编辑)第32届机器学习国际会议的论文集,ICM-L2015,法国Lill,2015年7月6日至11日。pp.1737-1746年。JMLR.org (2015 ),http://jmlr.org/proceedings/papers/v37/gupta15.html13. 汉,S.,毛,H.,Dally,W.J.:深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经arXiv abs/1510.00149(2015)14. 汉,S.,普尔J Tran,J. Dally,W.J.:学习权值和连接以实现高效的神经网络。在:Cortes,C.,劳伦斯,北达科他州,李D.D. Sugiya-ma,M.,加内特河(编辑)Advances in Neural Information Processing Systems28 : Annual Conference on Neural Information Processing Systems 2015 ,December7-12 , 2015 , Montreal , Quebec , Cana. pp.1135 - 11 4 3.CurrranAssociates,Inc.16X.他和J。程(2015),http://papers.nips.cc/paper/5784-learning-both-weights-and-connections-for-efficient-neural-network15. He,K., G.,G., 做吧,P Girshi ck,R. B. :MaskR-CNN。 在:IEEEIn-internationalConference on Computer Vision,ICCV 2017,Venice,Italy,Oc-tober22-29,2017. pp.2980- 2988年。IEEEComputerSo ciety(2017),http-s:doi.org/10.1109/ICCV.2017.32216. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。In:2016 IEEE Conference on Computer Vision and Pattern Recognition , CVPR2016 , LasVegas , NV , USA , June27-30 , 2016.pp.770-778IEEECommputerSociety(2016)17. Howard,A.G.,Zhu,M.,陈伯,Kalenichenko,D.王伟,Weyand,T.,安德里托,M.,Adam,H.:Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv abs/1704.04861(2017)18. 胡Q王,P.,Cheng,J.:从hashing到cnns:通过哈希训练二进制权重网络。In:McIlraith,S.A.,Weinberger,K.Q.(编辑)第32届AAAI人工智能会议,美国路易斯安那州新奥尔良,2018年2月2日至7日。AAAIPress(2018),http-s:www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/1646619. 黄K. Sung,W.:使用权重+1、0和-1的定点前馈深度神经网络设计。In:2014IEEE Workshop on Signal Processing Systems , SiPS2014 , Belfast ,UnitedKingdom , 0ctober20-22 , 2014. pp.174-179 IEEE ( 2014 ) ,https://doi.org/10.1109
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功