没有合适的资源?快使用搜索试试~ 我知道了~
通过稀疏量化联合学习的自动压缩方法
2178通过稀疏量化联合学习的自动神经网络压缩:一种基于约束优化的方法杨海川1、桂树鹏1、朱宇浩1、刘继21美国罗切斯特大学计算机科学系2人工智能平台,Ytech西雅图人工智能实验室,FeDA实验室,Kwai Inc.,美国西雅图摘要深度神经网络(DNN)应用于广泛的用例中。对于在不具有诸如存储器和计算单元之类的丰富资源的设备上部署DNN的需求增加最近,已经提出了通过诸如修剪和量化的各种技术来压缩网络以减少资源需求。所有现有压缩技术都敏感的关键参数是压缩比(例如,修剪稀疏性、量化位宽)。trans-mitting解决方案将每层的压缩比视为超参数,并使用人类启发式对其进行调整。最近的研究者开始使用黑盒超参数优化,但他们会引入新的超参数,并有效率问题。在本文中,我们提出了一个框架,根据目标模型大小自动联合修剪和修剪DNN,而不使用任何超参数手动设置每层的压缩比。在实验中,我们证明了我们的框架可以在CIFAR-10上将ResNet-50的权重数据压缩到836倍小而不损失准确性,并在ImageNet分类上将AlexNet压缩到205倍小而不损失准确性1. 介绍如今,深度神经网络(DNN)正在我们周围的任何地方应用。除了在云服务器上运行推理任务外,DNN还越来越多地部署在当今资源受限的环境中,从微型飞行器和自动驾驶汽车中的嵌入式系统到智能手机和增强现实耳机等移动设备在这些环境中,DNN通常在特定的资源约束下运行,例如模型大小,执行延迟和能耗。因此,压缩DNN以在给定的情况下运行推理是至关重要的。表1:不同自动模型压缩方法的比较。方法\特点修剪量化自动化End-to-endAMC [14]✓✓[42]第四十二话✓✓CLIP-Q [41]✓✓✓我们✓✓✓✓资源限制,同时最大限度地提高精度。在过去的几年中,已经提出了各种技术来压缩DNN模型。剪枝和量化是其中应用最广泛的两种方法修剪要求权重张量是稀疏的,并且量化强制每个DNN权重具有低位表示。这些方法将压缩每层中的DNN权重,并导致具有较低资源消耗的压缩DNN已经证明,通过适当地设置压缩率并进行微调,压缩可以带来可忽略的精度下降[11]。最近的研究工作[49,14,42,31]发现,在给定资源约束的情况下,可以通过调整压缩比(即,稀疏性或量化比特宽度)。 一个有趣的问题是:如何找到最佳压缩比,例如,稀疏性和/或比特宽度。传统的DNN压缩方法[11,53,15]根据人类的行为来设置每个层由于压缩比可以被视为超参数,因此可以直接采用最近研究中使用黑盒优化进行超参数搜索的想法He et al.[14]将强化学习(RL)应用于DNN剪枝,将剪枝率公式化为连续动作,并将准确性作为奖励。Wang等人[42]应用了类似的公式,但将其用于搜索每层的量化位宽。CLIP-Q [41]提出了一种压缩方法,该方法要求将稀疏度和量化位宽设置为2179/++00-:b=2,b =1G:中文(简体)=6,W(+)=3图1:建议的DNN压缩框架的图示DNN权重W是稀疏的,V是量化的。V是W的超参数,他们使用贝叶斯优化算法来搜索它们。进化搜索(ES)也被用于这种情况下,例如,刘等。[31]使用元学习和ES来找到通道修剪的修剪比率。这些方法的基本思想是将压缩比搜索公式化为黑箱优化问题,但在RL或ES算法中引入了新的超参数然而,调整黑盒优化算法可能非常棘手[20],并且通常效率低下[19]。此外,它还引入了新的超参数。例如,RL算法DDPG [29]有几十个超参数,包括批量大小,演员/评论家网络架构,演员/评论家优化器和学习率,奖励规模,折扣因子,回复缓冲区大小,目标网络更新因子,探索噪声方差等。因此,非常希望有一种自动化的方法,尽可能地避免人工操作。同时,为了最大化压缩性能,可以同时应用修剪和量化[11]。因此,在这种情况下,逐层稀疏性和量化位宽将相互影响。例如,如果层i具有比层j更大的位宽,则修剪层i将比修剪层j贡献更多。联合修剪和量化增加了手动选择压缩比或超参数调整的难度在本文中,我们提出了一个端到端的自动DNN压缩框架。我们的方法可以联合修剪和修剪DNN模型,并同时学习压缩比和压缩模型权重。我们的方法不是将压缩比视为表1显示了我们的方法与最近提出的自动模型压缩作品的比较。本文的主要贡献概括如下:• 我们提出了一个端到端的框架压缩DNN,而无需手动设置每层的压缩比它允许用户设置预算,同时利用修剪和量化。• 我们在数学上将自动压缩问题公式化为约束优化问题。该问题有一个“稀疏+量化”的约束,它被进一步解耦,以便我们可以使用交替方向乘法(ADMM)[1]来• 使用ADMM解决自动压缩问题的主要挑战是解决修剪和量化的投影算子。介绍了稀疏约束和量化约束的投影在实验中,我们验证了我们的自动压缩框架,以显示其优越性手工制作和黑盒超参数搜索方法。2. 相关工作2.1. 模型压缩技术由于移动计算的巨大影响,越来越多的复杂DNN模型需要适应这些低功耗设备的实际应用。为了解决移动系统的计算消耗问题,剪枝和量化是目前两种实用的方法。修剪修剪是指减少DNN模型中的非零参数的数量。Han等人。[12]提出了一种简单的方法,将幅度小于阈值的权重归零。按-在去除较小的权重之后形成微调,即使具有可考虑的压缩比,精度下降通常也是可忽略的[11]。除了使用权重修剪来进行模型压缩外,还提出了通道(滤波器/神经元)修剪[28,57,36,16,34,59,30,51]来去除CNN权重的整个滤波器,从而也实现了推理加速。Wen等人。[44]在CNN修剪中引入了更多的稀疏结构,例如形状和深度稀疏。0.000.920.770.060.940.75/1个G−>N+G+>B(-−D<$B)G←PG :4-,G56789:;1+>B-←P-:4-,G56789:;(G+D<$B)D←D+B(G−-)2180i=1量化除了通过修剪来减少参数的数量之外,量化被认为是压缩DNN的为了减轻内存存储或计算的成本例如,可以将所有参数的精度从32位提高到8位或更低[11],以缩小模型大小。极端地,模型权重可以是二元[5,37,6,18]或三元[27,58]。量子化inter-val 可 以 是 uniform [21] 或 nonuniform [11 , 35 , 40 ,55]。通常,非均匀量化可以实现更高的压缩率,而均匀量化可以提供加速度。量化位宽可以通过霍夫曼编码进一步减小[11,4]。除了标量量化之外,矢量量化也应用于DNN模型压缩[8,45]。有一些方法与修剪和量化一起执行训练,包括Ye等人。[53]和CLIP-Q [41]。这些方法依赖于设置超参数来以期望的压缩比压缩层,尽管可以使用黑盒超参数优化方法[41]。 最近,ADMM被用于制定和解决模型压缩问题[26,56,52,38,9]。然而,这些现有方法需要手动设置每层稀疏度/位宽。本文的主要贡献是提出了一个端到端的框架来自动修剪和修剪DNN最近提出的能量约束压缩方法[47,48]使用基于优化的方法来在给定的能量预算下修剪DNN。除此之外,还有一些搜索有效神经结构的方法[2,39],而我们的工作主要集中在压缩给定的结构上。3. 端到端自动化DNN压缩在本节中,我们首先介绍DNN压缩的一般公式,它受到压缩DNN权重的总大小的约束其次,我们重新定义了原始约束,将剪枝和量化解耦,并给出了使用ADMM求解约束优化的算法概要。最后,由于该算法需要两个关键的投影算子,我们证明了它们可以形成为特殊的整数线性规划(ILP)问题,并引入有效的算法来解决它们。3.1. 问题公式化令W:={W(i)}L是具有L层的DNN的权重张量的集合。为了学习具有S预算的目标大小的压缩DNN,我们有约束问题ΣL而不需要手动设置每个压缩比min(W),s.t.Wi=1b(W(i))<$W(i)<$0≤S预算,(1)层.2.2.自动模型压缩先前对设置每层压缩比的努力主要使用基于规则的方法[11,17,53,15]或黑盒超参数搜索。基于规则的方法依赖于算法,因此随着网络架构变得越来越复杂,它们不是最佳的且不可扩展。基于搜索的方法将这个问题视为超参数搜索,以消除对人类劳动的需要。对于修剪,NetAdapt [49]应用贪婪搜索策略,通过逐渐减少资源预算并执行其中b(W)是对张量W的所有非零元素进行编码的最小位宽, 也就是说,b(W)=第二节|{W的唯一非零元素}|。L0-norm <$W<$0是W的非零元素的个数。损失函数它是任务驱动的,例如,使用交叉熵损失作为用于分类的均方误差,或用于回归的均方误差问题(1)是DNN压缩的一般形式。当假设位宽是固定的并且对于所有层都是相同的时,问题(1)简化为权重修剪的情况[12]。当假设权重张量总是密集时,它被简化为混合位宽量化[42]。与深度学习的普通训练相比压缩的DNN学习问题(1)引入了一个连续的,反复进行微调和评估。在每次迭代中,Ne-应变,即Li=1 b(W(i))<$W(i)<$0≤ S预算。它被定义tAdapt尝试减少每一层,并挑选导致最小精度下降的层。最近的基于搜索的方法还采用了强化学习(RL),它使用准确度和资源消耗来定义奖励并引导搜索找到修剪比[14]和量化位宽[50,42]。Guo等人[10]将进化搜索(ES)用于网络架构搜索(NAS),并表明它可用于搜索压缩比。Liu等人[31]在ES算法中使用超网络相反由两个不可微函数b(·)和b·0,阻碍了通过正常的训练算法求解。虽然有一种基于投影的算法可以处理L0-范数约束,但它不能应用于我们的情况,因为我们的约束是对k·k·0和b(·)的乘积求和,这是比较复杂的。3.2. 基于乘子交替方向法的我们通过解耦其L0-范数和位宽部分来处理(1)中的约束。具体来说,我们重新制定了2181{Y}ρJρPW:g(Vt,W)≤S <$2问题(1)的等价形式min(W),s.t.V=W,g(V,W)≤ S预算。(二)W、 V固定稀疏度的压缩投影,并在第3.4节中给出修正W,V,更新Y。 为了更新对偶变量Y,我们其中V:={V(i)}L是DNN权重执行梯度上升步骤,其中学习速率为ρ:W,和g(V,W):=iL=1Li=1b(V(i))<$W(i)<$0.Yt+1= Yt+ ρ(Wt+1− Vt+1)。(七)在本文中,我们应用ADMM的思想来解决上述问题。 我们引入对偶变量Y:=上述更新规则遵循标准ADMM。最近的理论分析表明了ADMM(i)Li=1 并将等式约束吸收到八月中,也适用于非凸问题[43]。 第4节我们分段拉格朗日函数Lρ(W,V,Y):=<$(W)+<$Y,W − V <$+(ρ/2)Vw-Vw 2,即,最小值最大值(W)+Y,W−V+W−V2,(3a)W、VY2证明这些更新规则在我们的问题中工作良好。3.3. 固定位宽的压缩投影问题(5)可以看作是一个加权L0-范数规划。S.T. g(V,W)≤S预算,(3b)PW:g(Vt,W)≤S 预算 (W)与W=(Wt−α(Wt)+其中ρ >0是超参数。 基于ADMM,我们可以通过迭代地更新W,V和Y来解决这个问题。在每次迭代t中,我们有三个步骤对应于αρ(Vt−1Yt))/(1 +αρ):budget(W):= argmin W − Wlc,(8)W变量W、V和Y。修正V、Y,更新W。 在此步骤中,我们将V,Y视为常数并更新W以最小化Lρ,即,Wt+1=S.T.ΣLi=1b(Vt(i))W(i)≤S预算。arg mint tρt2我们将证明这实际上是一个0-1背包问题-W:g(Vt,W)≤Sbudget(W)+W − V2lem [46].=arg minρt1t2(四)1.提案 (8)中的投影问题是等价的W:g(Vt,W)≤Sbudget(W)+W − V2+是的。ρ0-1背包问题:由于DNN模型的复杂性和大量的训练数据,因此,通常会使用基于梯度的算法来迭代求解。为了支持基于梯度的更新,我们应用了一个近似梯度方法。具体地,损失函数ω(W)被其一阶展开式代替,即,的maxW<$2,X ,s.t. A,X≤Sbudget,(9)X是二进制的其中A和X的形状与W′相同,A(i)的元素定义为A(i)=b ( Vt ( i ) ) , n ( j ) .W<$2take k es element-wisesquar eofW<$. (8)的最优解是问题(4)变为PW:g(Vt,W)≤S预算 (W<$)=X <$$>W<$,其中X <$是最优的arg minW:g(Vt,W)≤S预算(Wt)++1W−Wt2+ρW−Vt+1Yt2背包问题的解决方案(9),并且是元素-明智的乘法在这个0-1背包问题中,W2被称为2α2¨ ¨ρ和A是0-1背包基本上是选择-=arg minW:g(Vt,W)≤S预算-W-W(五)将项目的子集(对应于我们的情况下的DNN权重)最大化利润和总和在哪里W :=1(Wt−αρ(Wt)+αρ(Vt−1Yt)),重量不超过预算S预算。0-1背包1+αρ ρ∇ℓ(Wt)is the (stochastic) gradient ofℓ at pointWt,α isthe learning rate, and .问题(5)是(Wt−αρ(Wt)02182ρρ+αρ(Vt−1Yt))/(1+αρ)在集合问题是NP难的,而存在一个有效的贪婪[22]这是一个很好的实践。这个想法是根据利润与收入比率(W(i))2/A(i)。We排序ρj j{W:g(Vt,W)≤S预算}。我们称之为固定位宽的压缩投影,并在3.3节中展示如何解决它修正W,Y,更新V。这 里 我们使用更新的Wt+1最小化Lρ对V的影响1所有项目基于此比率,并迭代地选择最大的直到达到约束边界该算法的理论复杂度为O(nlog(n)),其中n是总项目数。由于GPU支持排序和累加和操作,因此我们可以在GPU上有效地实现该算法并将其用于DNNVt+1=arg minV:g(V,Wt+1)≤SbudgetV+1−VYt2002.(六)ρ压缩框架由于Wt+1和Yt在这一步中是固定的,因此它们在这里可以被视为常数 问题(6)是Wt+1+ 1Yt的投影3.4. 固定稀疏度的压缩投影的溶液的问题(六)是投影到{V:g(V,Wt+1)≤Sbudget}上。 我们称之为投射PV:g(V,Wt+1)≤S预算 (Wt+1+1Yt),其中投影op-21830PV:g(V,Wt+1)≤S<$2算子PV:g(V,Wt+1)≤Sbudget(·)定义为budget(V):= argmin V − Vlc,(10)V降序,即,(ρij′−ρi,j′−1)/(ωij′−ωi,j′−1)≤(ρij−ρi,j−1)/(ωij−ωi,j−1)如果ωij′≥ωij。2.选择每个项目S.T. ΣLi=1b(V(i))Wt+1(一)≤0≤ S预算。组应该指出的是,预算必须足够大,以包含这些项目,否则没有可行的解决方案下的约束。上述问题也可以重新表述为整数线性规划在下文中,我们将介绍背包问题的一个特殊变体,称为多选择背包问题(MCKP)[22],并证明问题(10)可以写成MCKP。定义1. 多选择背包问题(MCKP)[22]。考虑有L个互不相交的群G1,...,GL包含n1,...,nL项。 来自第i个组的第j个项目具有“利润”ρij和“权重”ωij,ωi=1,.,L,j∈1,., 尼岛 MCKP公式化了如何从每个组中选择一个项目,以最大化利润之和,并保持给定预算β下的权重之和,即,3. 对于其他项目,选择增量利润密度最大的项目当选择第i组的第j项时,丢弃第(j-1)项。对第二、第三、.重复相同的过程最大的,直到选定的项目的总重量超过预算。上述算法可以找到可行的MCKP解,即,从每个组中选择一个项目,并保证它们的总权重在给定的预算β之下。其时间复杂度为O(L| B| log(L| B|))。实际上,L和|B|比DNN权值的数量小得多,因此该算法的时间复杂度可以忽略不计。贪婪解有一些很好的性质 , 在 某 些 情 况 下 可 能 是 全 局 最 优 的 [22 , 推 论11.2.3]。通过使用上述算法来解决我们的压缩投影问题(10),我们ΣLMaxx是binaryΣniρijxij,可以得到PV:g(V,Wt+1)≤Sbudget(·)的投影结果,其实质上是跨不同层分配位宽。S.T.Σnii=1j=1ΣLx ij= 1,xij = 1,.,L;Σniωij xij≤β。我们在算法1中总结了我们方法的训练过程。我们使用τ来表示我们算法的总SGD迭代次数。对于大型数据集,j=1i=1j=1SGD迭代的BER可能非常大。所以我们不做将B定义为候选位宽的集合 在本文中,我们使用B={1,2,3,..., 8}。 设Ej(V<$)是用位宽j量化V <$的误差,即,Ej(V2,对于非均匀分布,可以用k-均值算法求解形式量子化[11]。现在我们准备将问题(10)重新表述为MCKP。第二个提案。压缩投影问题(10)可以重新表述为定义1中的MCKP实例。具体地,每个组Gi由每个层定义,并且具有尺寸ni=| B|.量化位宽的每个选择被记录为MCKP项。ρij的pr为−Ej(V<$(i)),在我们对W执行近端SGD之后,投影和对偶每次都更新,但是使用超参数τ′来控制对偶更新的频率τ应该被τ′整除。在我们的实验中,τ'被设置为一个epoch的迭代次数,因为我们没有观察到使用较小的τ'的任何改进。4. 实验在本节中,我们将评估我们的自动压缩框架。我们首先介绍了实验设置,如评估和实施细节,然后我们权重ωij是j<$Wt+1(i)<$,背包预算β是S预算,显示我们的框架的压缩结果,并比较用最先进的方法而xij表示选择哪个位宽。MCKP也是NP难的。然而,如果我们放松二元约束xij∈ {0,1}到xij∈[0,1],它被减少到一个线性规划,可以有效地解决[54]将MCKP的线性松弛转换为分数背包问题,并使用贪婪算法来解决它。基于这个思想,我们可以通过以下步骤得到一个可行的MCKP解:1. 对于每个组,根据项目的权重以升序对项目进行排序,即,如果j ′ ≥ j,则ωij′≥ωij。 根据[22,命题11.2.2],排序项目的利润是不减的,即, 如果ωij′ ≥ω ij,则ρ ij ′≥ρij。递增利润密度(ρij−ρi,j−1)/(ωij−ωi,j−1)具有4.1. 实验装置数据集我们在DNN压缩中最常用的三个数据集上评估我们的方法:[25],CIFAR-10 [23]和ImageNet [7]。我们在所有三个数据集上使用对于ImageNet,我们对图像分类任务(1000个类)进行评估。DNN模型我们对各种DNN模型进行评估,这些模型也用于当前最先进的压缩方法。在MNIST上,我们使用LeNet-5,如[11]中所示它有两个卷积层,后面是两个完全卷积层。结层对于CIFAR-10,我们在ResNet-20上进行评估,2184ρρρ算法1:自动DNN压缩。输入:原始DNN参数化W,压缩预算S预算。结果:压缩后的DNN权重为W。1用预训练的稠密模型初始化W,通过均匀量化W初始化V,初始化Y=0;2 W←PW :g(V,W)≤Sbudget)(W);W_n满足模型大小约束,我们直接对W_n进行量化,位宽为V。4.2. ρ的收敛性和灵敏度为了解决超参数ρ的影响和我们基于ADMM的训练算法的收敛性,我们绘制了MNIST分类实验的训练曲线3 V←PV:g(V,W)≤S预算 (W+1Y);不同的p∈ {0. 010 05,0。1,0。图2中的5}图2a显示了W的训练损失,图2b显示了4Y ← Y+ρ(W−V);对于t←1到τdo,56.计算随机梯度ε(W);W <$(W −α(W)+αρ(V −1Y))/(1 +αρ);7如果t(modτ′)= 0,则8W←PW :g(V,W)≤Sbudget)(W);量化W的训练损失,其中位宽根据V设置。我们可以看到,当ρ越小时,ω(W)收敛到越小的值,因为ρ越小,原始损失项越重要。如果对W执行量化,则最小损耗不再由最小ρ实现,这是因为W没有很好地受到9V←PV:g(V,W)≤S预算 (W+1Y);当ρ太小时,量子化结构。 评估如何10Y ← Y + ρ(W −V);11端部12端部13W=W.ResNet-50 [13]分别有20层和50层。对于ImageNet,我们使用AlexNet [24]和著名的紧凑模型MobileNet [17]。此外,我们还研究了我们的方法在最近提出的紧凑架构MnasNet [39]和ProxylessNAS-mobile [2]上的压缩性能,这些架构通过NAS算法进行搜索。基线和度量我们将我们的方法与当前最先进的模型压缩方法进行比较。这些方法包括最近提出的自动修剪方法AMC [14]和约束感知压缩[3];最近提出的自动量化方法ReLeQ [50]和HAQ [42];采用修剪和量化的方法:深度压缩[11],贝叶斯压缩[33],Ye等人。[53]和CLIP-Q [41]。有关这些方法的更详细特征,请参见表2、3和4虽然稀疏索引有一些开销,但我们使用压缩权重数据的大小来计算压缩率,因为不同的索引技术可能会在比较中引入不公平。我们将AlexNet和LeNet-5的批量大小设置为256,并在ResNets和MobileNet上使用128批量大小。我们使用动量SGD来优化k(W)。我们使用初始学习率α设置为0。01在AlexNet和MobileNet上,0。1个在LeNet-5和ResNets上。 我们使用余弦退火策略[32]来衰减学习率。 我们设置超参数ρ=0。05所有的实验为了进行更清楚的比较,压缩预算Sbudget被设置为接近或小于所比较的方法。 训练在MNIST和CIFAR-10上进行了120次, 在 ImageNet 上 进 行 了 90 次 。 Fine-tuning [11]在ImageNet上使用了60个epochs。为了保证最后的变量W不同于V,我们在图2c中示出了W和V之间的均方误差(MSE)我们可以看到,MSE曲线通常在开始时增加,然后减少,并且ρ=0。05足以使MSE →0。4.3. 与最新技术ImageNet在表2中,我们展示了不同方法的压缩模型对ImageNet分类的验证精度。我们列出了非零权重百分比、平均位宽、压缩率(原始权重大小/压缩后的权重 大 小 ) 和 ( top-1 / top-5 ) 精 度 下 降 。 对 于MobileNet,我们比较了深度压缩[11]和HAQ [42]的量化方法。我们还与均匀压缩基线进行了比较[17]。最初的MobileNet有70个。9%的top-1准确率和89. 9%的前5名准确率。 我们的仅量化结果与平均位宽2和3有7。1%和1. 19%的top-1精度分别下降,比HAQ对比器(13.76%,3。24%)。压缩比可以进一步提高到26。当联合执行修剪和量化时为7×对于AlexNet,我们比较了修剪或联合修剪和量化方法。与我们的端到端框架不同的是,所有比较的方法都设置了剪枝率和量化位宽作为超参数。约束感知压缩[3]和CLIP-Q [41]使用贝叶斯优化来选择这些超参数,而其他人则手动设置它们。未压缩的AlexNet来自PyTorch预训练的模型,有56个。52%的top-1准确率和79. 07%前5名的准确性。当压缩模型为118×较小,我们的方法具有1%的top-1精度改进,这高于具有类似压缩率的压缩CLIP-Q模型。我们的方法还可以将AlexNet压缩到205倍小而不降低精度,而Ye等人的压缩模型。[53]有一个0。1%的top-1精度下降,压缩率相似。对于基于NAS的紧凑型模型,2185ρ=0.01 ρ=0.05ρ=0.11001002.0x10−41.5x10−410−110−11.0x10−410−20.5x10−410−20.0x10−40 25 50 751000 25 50 75 1000 50 100(a) (W)(b) 量化(W)(c) MSE(W,V).图2:不同ρ值的训练损失和MSE(W和V之间)。表2:ImageNet上不同压缩方法的比较模型方法自动化 修剪 量化NZ%Ave. 比特Comp. 率Acc.- 1↓ Acc.- 5↓MobileNet[17]第十七话61%的人-1.6倍2.50%1.70%[17]第十七话61%的人86.6×4.10%2.90%[11]第十一话你好,216×33.28%25.59%[42]第四十二话你好,216×百分之十三点七六8.03%我们你好,216×7.10%4.40%[11]第十一话你好,310.7×百分之四点九七3.05%[42]第四十二话你好,310.7×3.24%1.69%我们你好,310.7×百分之一点一九0.76%我们2019年12月31日2.826.7×4.41%2.61%AlexNet约束感知[3]4.9%-20×2.57%-[11]第十一话11%的人5.454×0.00%的百分比-0.03%的百分比CLIP-Q [41]2018年10月31日3.3119×-0.70%-我们2017年12月31日3.7118×-1.00% -1.15%Ye et al. [五十三]40%左右4.1210×0.10%-我们50%以上3.1205×-0.08%的百分比-0.56%MnasNet固定位宽50%以上416×百分之三点一四百分之一点八六我们50%以上3.717.1×1.66%0.92%我们30%以上3.035.6×5.82%3.23%ProxylessNAS-固定位宽50%以上416×3.17%1.73%移动我们51%的人3.816.8×2.13%百分之一点一六我们2019年10月31日2.935.6×5.21%2.84%MnasNet有73个。46%的top-1准确率和91. 51%的前5名准确率,未压缩的ProxylessNAS-mobile有74。59%的top-1准确率和92. 前五名的准确率为20%我们还通过将所有层的位宽固定为4并基于幅度修剪50%权重来评估联合修 剪和量化基线 (固定-位宽) [11]。通过 与AlexNet的比较可以发现,这些压缩模型的精度更容易受到压缩的影响这种现象与MobileNet类似。MNIST表3显示了MNIST上的LeNet-5结果未压缩的LeNet-5的精度为99。百分之二。Both Ye et al.[53]我们的方法可以达到约2000倍的压缩率,而我们的压缩模型没有精度下降。通过与压缩模型的细节比较,我们发现我们的方法倾向于保留更多的非零权重,但使用更少的ρ= 0.01ρ= 0.05ρ=0.1ρ=0.01 ρ=0.05ρ=0.12186比特来表示每个权重。表3:LeNet-5@MNIST上不同压缩方法的比较。所有方法都采用了剪枝和量化相结合的方法。方法自动化NZ%平均值位补偿率Acc.↓[11]第十一话8.3%5.370×百分之零点一BC-GNJ [33]0.9%5573×百分之零点一BC-GHS [33]0.6%5771×百分之零点一Ye et al. [五十三]0.6%2.81,910×百分之零点一我们✓百分之一点零1.462,120×百分之零点零CIFAR-10表4显示了CIFAR-10数据集上压缩ResNets的结果。原始ResNet-20的准确度为91。29%,ResNet-50的准确率为93。百分之五十五对于ResNet-20,我们与自动量化方法ReLeQ [50]进行了比较。为了公平的比较,我们评估了我们方法的两个压缩模型,其中一个2187#权重位#非零权重8888666644442222层102102102102104104104104106106106106(a)LeNet-5([53])(b)LeNet-5(我国)(c)AlexNet(119×[41])(d)AlexNet(Ours118×)(e)AlexNet(210×[53])(f)AlexNet(Ours205×)图3:LeNet-5和AlexNet上不同层的压缩结果的可视化非零权重的数量以log10标度显示我们的压缩模型在(b),(d)和(f)中给出,以与CLIP-Q [41]和Ye等人压缩的网络进行比较[53]。使用量化,而另一个联合使用修剪和量化。对于仅量化模型,我们实现了16倍的压缩率而没有精度下降,比ReLeQ具有更好的精度和更小的尺寸。当引入修剪时,有一个0。14%的精度下降,但压缩率提高到35。4倍。表4:CIFAR-10上不同方法的比较。所有方法都自动设置压缩比。模型方法修剪 量化NZ%Ave. 比特Comp. 率Acc.↓ResNet-20ReLeQ [50]我...2.811.4×百分之零点一二我们我...216×0.00%我们46%1.935.4×百分之零点一四ResNet-50AMC [14]✓约60%-1.7×-0.11%我们✓50%以上-2×-1.51%我们4.2%1.7462×-1.25%我们3.1%1.9565×-0.90%我们2.2%的人1.8836×0.00%的百分比对于ResNet-50,我们与自动修剪方法AMC进行了比较[14]。其压缩的ResNet-50针对模型大小缩减,具有60%的非零权重。在我们的实验中,我们发现ResNet-50仍然有很大的压缩空间我们的方法的修剪结果压缩了ResNet-50,权重为50%,1。准确率提高51%。通过联合执行修剪和量化,我们的方法可以压缩ResNet-50,压缩率从462×到836×。只有将模型压缩到836倍时才能满足精度损失,这表明ResNet-50在CIFAR-10分类上大部分是冗余的,压缩它可以减少过拟合。压缩模型可视化在图3中,我们可视化了LeNet-5和AlexNet上每层的稀疏度和位宽分布。子图3a、3c和3e示出了Ye等人的压缩模型[53]和CLIP-Q [41]。子图3b、3d和3f是我们的压缩模型。对于勒奈特-5,我们观察到,我们的方法在第三层中保留更多的非零权重,而分配更少的位宽。[53]。对于AlexNet,我们的方法倾向于为卷积层分配比全连接层更大的位宽。CLIP-Q还为卷积层分配了更多的比特,而Ye etal.[53]将更多比特分配给第一层和最后一层。我们的方法还显示了一个偏好,分配更多的比特稀疏层。这与稀疏层的权重可能更具信息性的直觉相一致,并且增加这些层上的位宽也会带来更少的存储增长。5. 结论随着DNN越来越多地部署在移动设备上,模型压缩在实践中变得越来越重要。虽然在过去的几年中已经提出了许多模型压缩技术,但缺乏系统的传统的方法需要人工手动调整压缩比。近年来的研究工作采用黑盒优化算法来搜索压缩比,但黑盒优化算法不稳定,效率不高。我们提出了一个约束优化配方,同时考虑修剪和量化,不需要压缩比作为超参数。通过使用ADMM,我们建立了一个框架,以有效地解决约束优化问题。实验表明,我们的方法优于手工和超参数搜索方法。确认我们衷心感谢NSF CCF Award #1714136的支持。88664422102102104104106106#非零位数2188引用[1] StephenBoyd,Neal Parikh,Eric Chu,Borja Peleato,Jonathan Eckstein,et al.通过交替方向乘法器的分布式优化 和 统 计 学 习 。Foundations andTrendsPsychologicalRinMa chinelearning g,3(1):1-122,2011.[2] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv:1812.00332,2018。[3] Changan Chen ,Frederick Tung ,Naveen Vedula, andGreg Mori. 约束感知深度神经网络压缩。在欧洲计算机视觉会议(ECCV)的会议记录中,第400-415页[4] Yoojin Choi,Mostafa El-Khamy,and Jungwon Lee.走向网络量化的极限。arXiv预印本arXiv:1612.01543,2016。[5] Matthieu Courbariaux , Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect:在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统的进展,第3123-3131页,2015年[6] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络:训练权重和激活限制为+1或-1的深度神经网络。arXiv预印本arXiv:1602.02830,2016。[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库 。在计算 机视 觉和 模式 识别 ,2009 年。 CVPR2009。IEEE会议,第248-255页。IEEE,2009年。[8] 龚云超,刘柳,杨明,卢博米尔·布尔德夫。使用矢量量化压缩深度卷积网络arXiv预印本arXiv:1412.6115,2014。[9] 桂树鹏,王浩涛,杨海川,陈宇,王张扬,刘继。具有对抗鲁棒性的模型压缩:统一的优化框架。神经信息处理系统的进展,第1283-1294页,2019年[10] Zichao Guo , Xiangyu Zhang , Haoyuan Mu , WenHeng,Zechun Liu,Yichen Wei,and Jian Sun.均匀采样单 路 径 单 次 神 经 结 构 搜 索 arXiv 预 印 本 arXiv :1904.00420,2019。[11] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,2015。[12] Song Han,Jeff Pool,John Tran,and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统的进展,第1135-1143页,2015年[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[14] Yihui He , Ji Lin , Zhijian Liu , Hanrui Wang , Li-JiaLi,and Song Han. Amc:Automl用于移动设备上的模型压缩和加速。在欧洲计算机视觉会议(ECCV)的会议记录中,第784-800页,2018年。[15] 杨鹤、刘平、王紫薇、胡芷兰、易阳。通过几何中值进行滤波器修剪,用于深度卷积神经网络加速。在IEEE计算机视觉和模式识别会议论文集,第4340-4349页[16] Yihui He,Xiangyu Zhang,and Jian Sun.用于加速深度神经网络的通道修剪。在IEEE计算机视觉国际会议论文集,第1389-1397页[17] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang, Tobias Weyand ,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。[18] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。量化神经网络
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功