基于低秩稀疏分解的深度模型压缩

183 浏览量更新于2023-10-16 收藏 1013KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1×× × ×基于低秩稀疏分解的深度模型压缩于希宇1刘同良1王新潮2陶大成11悉尼大学人工智能研究所和SIT，FEIT，悉尼大学2IFP，贝克曼研究所，伊利诺伊大学香槟分校（UIUC）yuxiyu88@gmail.comtliang. gmail.comxinchao@illinois.edusydney.edu.au摘要深度压缩是指去除深度学习模型的参数和特征图的冗余。稀疏结构的低秩近似和剪枝在许多压缩工作中起着至关重要的作用。然而，权重滤波器往往是低秩和稀疏的。忽略这些结构信息中的任何一部分，都会导致迭代再训练，损害精度和低压缩率。在这里，我们提出了一个统一的框架集成的低秩和稀疏分解的权重矩阵与特征地图重建。我们的模型包括修剪连接作为特殊情况的方法，并通过一个快速的SVD-免费算法进行优化。理论上已经证明，在小样本的情况下，由于其可推广性，我们的模型可以很好地重建训练和测试数据上的特征图，这导致在后续重新训练之前的准确性降低。有了这样的（a）更高的压缩率，（b）几乎没有精度损失，以及（c）更少的压缩深度模型的轮次。在AlexNet、VGG-16和GoogLeNet等几个流行模型上的实验结果表明，我们的模型可以显著减少卷积层和全连接层的参数。因此，我们的模型将VGG-16的大小减少了15，优于使用单一策略的其他最近的压缩方法。1. 介绍深度学习在多个领域取得了显著的进步，包括图像分类[15，23，25，9]和目标检测[21]。然而，大多数深度模型的密集计算和存储器要求限制了它们在具有低存储和计算能力的日常使用设备（诸如蜂窝电话和嵌入式设备）上的部署。这种限制促使研究人员利用深度模型中参数和特征图中的固有冗余。一般来说，这种冗余反映在权重矩阵和特征图的结构化性质中[3，24]。通过删除冗余，可以节省资源，而不会影响大多数深度模型的容量和泛化能力。稀疏性和低秩性分别作为重要的结构假设在以往的工作中的冗余去除。首先，修剪是一种简单的策略，用于移除相关参数和共适应神经元，并获得稀疏结构。例如，LeCun et al.[16]使用二阶导数信息来指导去除不重要的权重。Han et al. [8]使用硬阈值方法反复重新训练稀疏化模型，并删除不重要的权重。He et al.[10]使用了l1范数等外链权重来识别重要的神经元。Mariet和Sra [19]通过决定点过程对最不相关的神经元进行采样，并去除其他高度相关的神经元。另一个结构假设是低秩。卷积层和全连接层中的权重可以通过逼近低秩滤波器来降低[4，27，14]。Zhang等人[30]为特征向量估计了一个低秩子空间，这导致了权重矩阵分解、参数减少和更快的测试时间。然而，我们观察到独立应用该等假设并不足够及恰当。大多数以前的工作遭受迭代再训练，compro-mising精度，和低压缩率。因此，深度压缩应该处理更丰富的结构信息。我们注意到，权重滤波器通常在低秩子空间中共享平滑分量，并且还记住由稀疏分散在低秩子空间之外的权重表示的一些重要信息生成的特征图还包含平滑分量[30]以及代表每个特征的独特性的尖峰变化。图1很好地解释了我们的直觉。我们在AlexNet的第一层显示过滤器。1111 3 96个过滤器由96个3通道图像表示，将权重的值范围重新调整为[0，255]。颜色可以反映过滤器中的如图1（a）和图1（b）所示，使用73707371×(a)（b）（c）（d）图1. (a)AlexNet第一层的过滤器（来自Caffe Model Zoo）。(b)低秩和稀疏近似使用所提出的方法。这里，秩为12（对于L），非零条目的比率为12.5%（对于S）。我们将参数的数量减少了4倍。(c)近似滤波器的低秩分量（d）近似滤波器的稀疏分量在这里，为了更好的可视化，我们在整个稀疏矩阵上添加一个通过低秩稀疏分解，当参数个数减少4个时，得到的滤波器能很好地逼近原滤波器具体地说，低秩分量保留滤波器中的平滑模式，而稀疏分量保留一些重要的模式，例如滤波器的方向性。因此，我们提出了一个单一的策略来分解权重矩阵的低秩和稀疏的组件。新颖之处在于将低秩近似和剪枝连接作为特例，给出了一个统一的框架，揭示了参数更丰富的结构信息。在适当的结构假设下，该模型在训练前消除了精度上的妥协，在不损失精度的情况下获得了较高的压缩率。我们将一个不对称的数据重建长期到低秩和稀疏分解。此外，我们从理论上证明，由于其推广性，该模型保证重建的特征映射的训练和测试数据是不坏的，即使只有一个合理的小样本提供。小的重建误差意味着非常深的压缩的高精度，这为重新训练提供了良好的初始化因此，随机梯度下降（SGD）解算器不会堆积在坏的局部最小图像中，即使在高压缩率下也能保持原始的1这可以减少轮数2以压缩整个网络并提高压缩。受贪婪双边平滑（或简称GreBsmo）[32]的启发，对于低秩和稀疏分解，我们开发了贪婪双边分解（GreBdec）用于深度模型压缩。具体来说，GreBdec使用1在本文中，“原始”一词例如，原始精度意味着未压缩深度模型的精度。2.深度模型通常需要在几轮中反复压缩。权重矩阵分解选定的层，然后再训练过程是一个回合。只有QR分解[5]和随机投影，与传统的广义奇异值分解（SVD）方法[28]相比，计算复杂度较低。我们的实验结果表明，与最先进的压缩方法[8]相比，我们的方法在代表性模型中提供了更高的压缩率。组件的低稀疏率和非常低的秩具体来说，稀疏率低于大多数以前的工作，这使得更有效地使用稀疏矩阵向量乘法运算符。2. 相关工作通过修剪进行压缩。Han等人。[8]提出了一种简单但有效的修剪方法，该方法使用由权重乘以标量的标准差确定的硬此阈值有助于删除绝对值较小的最不重要的权重。为了得到更稀疏的权重矩阵，还应用了迭代硬阈值我们模型的一个特殊情况是，当我们忽略低秩和数据重建项时，我们的方法简化为[8]中的简单硬阈值方法。然而，我们的方法比[8]有两个主要优点。首先，由于我们的特征图重建项，我们的模型为再训练提供了更好的初始化我们通常可以在一轮中压缩AlexNet和VGG-16等模型中的所有卷积层，其次，通过利用平滑分量和重要权重，我们进一步降低了卷积层中的权重，并且结果分量比[8]中的分量稀疏得多这对于加速深度模型中的推理阶段具有潜在的价值低秩近似压缩减少7372∈≈∈∈∈∈F通过低秩近似的参数维数节省了存储，同时降低了训练和测试期间的时间复杂度。大多数方法[4，12]通过最小化原始参数的重建误差来近似张量。然而，这些方法在连续压缩多层时容易产生误差，并且随着压缩层数的增加，输出的特征图偏离原始值很大在这里，我们把这种低秩分解作为我们提出的模型的一个将输出特征视为权重矩阵和输入特征的线性矩阵乘积，我们可以以相同的方式处理卷积层和全连接层。此外，所提出的模型与特征映射重建项相结合虽然Zhang et al.[30]同样融入了特征图重构，我们在以下两个方面完全不同首先，Zhang et al.[30]最小化重构误差以找到特征向量的近似低秩子空间，而我们的模型利用重构误差来估计权重矩阵的低秩和稀疏分量。第二，Zhang等人[30]主要是关于加速。如他们的实验结果所示，基于计算复杂度的秩选择标准通常导致具有更多参数的层的大秩，这导致较少的压缩。相比之下，我们更关注深度压缩以节省存储空间。3. 深度压缩模型深度模型通常是过度参数化的[3]，冗余通常会导致巨大的存储和计算资源需求。但是，这种冗余也提供了压缩深度模型而不损害准确性的机会，前提是深度网络冗余被适当地移除。权矩阵分量通常位于低秩子空间中，但一些重要的入口稀疏地分散在权矩阵中，并标记不同滤波器的唯一性。因此，我们提出了一个统一的框架，深度压缩的低秩和稀疏分解。我们的方法享有较少的信息损失，并产生更好的重建特征图相比，SVD和修剪。在使用低秩和稀疏分解进行压缩后，可以重新训练模型以保持原始精度。在深度模型中，卷积层或全连接层的输出响应可以通过以下方式获得：y=Wx，其中xRk是输入特征向量，WRm×k是权重矩阵，yRm是响应。为了探索与权重矩阵W的稀疏结构相结合的低秩子空间，我们假设W L+S，其中L是低秩分量，S是稀疏矩阵。然后，为了压缩权重矩阵，我们有以下模型：由于高稀疏性和低秩近似，所提出的模型也具有加速的潜力min12W-L-S这是可以实现的进一步仔细研究卷积非常稀疏的内核。通过其他策略进行压缩。权重共享和量化方法假设许多权重具有相似的值，并且因此可以被分组以减少自由参数的数量。搜索方法包括散列[2]，k均值和矢量量化[7，6]以及Bi-naryNets [20]。[29]提出了一种使用离散余弦变换和量化策略的频域中的有效CNN压缩方法。另一种不同的观点是知识蒸馏，它使用大型成熟的网络来教一个小模型学习好的表示。例如，Hinton等人[11]提出用输出软分布作为教师网络的知识。Romero等人[22]还利用中间代表作为提示，以丰富教师的知识Luo等人[18]声称神经元通常占据更紧凑的信息来指导人脸模型压缩。在本文中，我们强调，所提出的方法是正交的压缩技术，如权重共享，量化和霍夫曼编码[7]。因此，我们的模型可以与这些方法相结合，进一步压缩。S.T.rank（L）≤r，卡（S）≤c，其中rank（L）表示L的秩，card（S）表示矩阵S的基数。这个问题可以通过“GoDec”有效地我们没有使用现在假设 L=UV ，其中 URm×r 和 VRr×k。我们发现参数的总数从m下降到（m +k）r+ c。如果r和c足够小，许多参数可以减少。这种分解很容易实现。以卷积层为例，我们首先连接两个卷积层来实现低秩部分。V表示卷积滤波器，它固定内核大小，同时将输出特征映射的数量更改为r。U表示卷积滤波器，其内核大小等于1，输入信道号等于r。为了获得最终结果，我们将低秩部分和稀疏卷积层的结果相加，在稀疏卷积层中，我们将掩码添加到原始滤波器中，以帮助在反向传播过程中丢弃未掩蔽的梯度。2L、S7373···2×·22F其中A=λI+我我Ui ViXX2n22Fn- -然而，这种朴素的分解方法存在一个问题。如果我们在重新训练之前顺序地和独立地将这种朴素的分解应用于几个层，那么每一层的近似误差将被累积。因此，为了缓解这一点，引入了非对称数据重构项。我们考虑一个层，其输入特征图由于先前的一个或多个层的近似而不精确为了滥用这个符号，我们仍然将近似输入表示为X= [x1，x2，，xn]。然后，我们使用这个近似输入来重构原始输出被发现因此，在我们的方法中，我们应用上面所示的简化模型来修剪不重要的权重并获得它们的稀疏结构。4. 优化在本节中，我们将探索和利用“GreBsmo”，一种快速的无SVD的通常，问题（1）可以用等价目标函数1<$Y−（L+S）X<$2+λ<$W−L−S<$2;即：特征向量Y=[y1，y2，···，yn]。我们的改进模型是：2n22FminL、S12n<$Y−（L+S）X<$F，Li=截断GSVD（BiAt，r）;Si=P（M），且M=Si−1−η（ASi−1−Ci），（三）S.T. 1W − L − S2≤γ，（1）11⊤rank（L）≤r，A的伪逆;Bi=λ（W−Si−1）+n（Y X−Si−1XXi）;且Ci=λ（W−Li）+1（Y X−LiXX）;卡（S）≤ c.n这种由于这种非对称数据重构方法，压缩模型在某些情况下仅遭受准确性的小下降例如是在GoogLeNet [25]中，对于内核大小大于1的所有卷积层，压缩率仅导致测试准确度降低3.7%（前5名）。我们不建议，gest，这一进程的结果在绝对没有损失的准确性，没有方法可以保证这一点时，压缩率非常高。但是，我们可以重新训练模型，最终在不损失准确性的情况下享受高压缩率。一个特例。我们考虑一个没有低秩分量的简化模型：：|Mp，q∈φ|/=0且≥|Mp，q∈N|、|Ω|≤c，且m是的补集。TruncatedGSVD（，r）是指截断广义奇异值分解，其中仅计算具有最大奇异值的r个左/右奇异向量[28]。然而，广义SVD在每次迭代中涉及多个SVD，这在逼近大权重矩阵时花费大量时间，这在深度模型中是常见因此，开发一个快速算法是不平凡的。Greedy Bilateral Decomposition （ GreBdec ）在本文中，为了解决具有特征图重建项的低秩和稀疏分解这个贪婪的计划仅使用QR分解、随机投影和乘法，这降低了计算复杂性并且非常有效。为了开发无SVD的算法，我们首先修改模型，（1）使用L的双边分解形式;即，令min12Y-SXL=UV。然后我们有L，S 2nF1（二）min12λ2Y−（UV +S）XS.T.2W−SF≤γ，U、V、S2nF2F卡（S）≤c.找到这个模型的解决方案相当于最小化-S.T.卡（S）≤c，其中U∈Rm×r，V∈Rm×k，S∈ Rm×k。（四）ing1<$Y−SX<$2+λ<$W−S<$2，其中λ是拉格朗日交替优化U、V和S，得到以下结果更新规则：增效器. 如果我们忽略重建项，可以应用阈值方法来找到c条目，U=B V最大的绝对值，类似于[8]。否则拉吉吉ii−1i−1i−1迭代硬阈值[1]方法可以用来找到一个Vi=（U<$Ui）<$U<$（BiA<$）;（五）阿斯图里岛溶液降维层，例如GoogLeNet中核大小为1 ×1的卷积层，在-Si=P（M），且M=Si−1−η（ASi−1−Ci），其中Bi=λ（W−Si−1）+1（Y X−Si−1XX），Ci=集成到许多国家的最先进的深模型[25，26]。在在这些层中，不需要XX; A† 就是摩尔-彭罗斯.）的情况。在这里，A是满秩n7374nλ（W U V）+1（Y Xλ）如果给定适当的λ。7375公司简介i−1P·Pn2- -公司简介公司简介在（5）中更新规则有两个缺点。首先，涉及大量的矩阵求逆和乘法。其次，r列（行）需要在所有迭代中更新。这些问题导致了很大的计算复杂性。由于只有乘积UV确定目标函数，为了避免上述问题，我们可以找到一对（U，V），它们与（5）中的（Ui，Vi）具有相同的乘积，但可以更有效地计算。根据（5），我们有UiVi= Ui（U <$Ui）<$U<$（BiA<$）。（六）算法1贪婪双边分解（GreBdec）输入：X、W、Y、目标秩r、秩步长r、目标函数f和幂K。初始秩r0和初始V=V0。输出：U、V和S。1：不收敛时2：对于i= 0到K，3：使用等式（7）更新U和V4：结束5：使用（5）中的最后一个等式更新S我我6：计算顶部的右奇异向量v或ran。这意味着乘积UiVi等于正交B A†在U的列空间上的投影。根据U形截面的dom投影ii7：设置V：=[V，v]。到（5），Ui的列空间可以由arbi表示BV列的三个正交基，因为8：结束时矩阵A的满秩通过QR分解，我们有BiV=QR，则乘积UiVi= Q（BiA†）=QQ（BiA†），其中Q表示矩阵在Q的列空间上的正交投影。因此，如果我们用Q和Q（BiA†）代替U i和V i，我们得到更快的更新规则;即，.Ui=Q，QR（BiV）=QR;（七）其中y=（UV+S）x是压缩模型的重构特征向量在压缩过程中，我们希望找到一种分解，使得对于训练和测试数据集中的ny对（y，y_n），这种重建误差可以很小，这确保了精度不会下降太多。为此，我们需要最小化预期重建误差，其定义为：Vi= Q（BiA†）。R（U，V，S）=Ex为oh[fU，V，S（x，y）]。这里更新S与（5）中的相同为了得到更好的结果，我们可以在更新S之前重复（7）几次。我们不是在所有迭代中都更新r列（行），而是应用[32]中的贪婪方法来更新U和V。我们从一个小的秩开始（例如，秩1）。然后，在每次迭代中，我们选择额外的bandr行并将它们连接到V中。选择这些最小行以最大化目标值的减小。我们有然而，在实践中，我们无法访问测试数据。更糟糕的情况是，训练数据集（如ImageNet）通常非常大，以至于有限的计算资源不允许使用所有训练数据来提供重构项因此，我们试图找到一个解决方案，通过最小化的经验重建误差的有限数量的例子;即，1ΣnAUV=AUV+B，（8）Rn（U，V，S）=ni=1fU，V，S（xi，yi），公司简介其中B=λ（W S）+1（Y X<$SXX<$）。因此其中R∈ Rr× Rr是随机矩阵.该贪婪选择使得能够实现用于更高秩优化的“热启动”，并且确保与在所有迭代处更新r列（行）相比更快的计算，更不用说通过广义SVD更新L。我们总结我们算法1中的方法。5. 理论分析给定输入特征x，我们得到其输出特征向量y的重建误差：fU，V，S（x，y）=y−（UV+S）x2，7376···∈···∈其中x1，，xnRk和y1，，ynRm分别对应于输入和输出特征向量，并且n是样本大小。当样本容量n增大时，如果经验重构误差能迅速收敛到期望误差，则该模型具有良好的推广性。在最小化经验重建误差之后，我们可以期望在未见过的数据上的特征图重建也是好的。因此，我们提供了一个最坏的情况下分析的预期重建误差的上限之间的差距的经验和预期的重建误差。我们表示T={{U，V，S}|U∈Rm×r;V∈Rr×k;S∈Rm×k ，卡（ S ）≤c;UV−UV−S<$F≤γ}作为所有可能分解的集合，{Un，Vn，Sn}=arg min{U，V，S}∈TRn（U，V，S），且{U，V，S}= arg min{U，V，S}∈TR（U，V，S），其中7377−{}T∈ −≥ ≥≥××{}∈ Tn--·n----R（U，V，S）是最优期望重建误差。通过最小化经验重建误差，我们试图搜索一个Un，Vn，Sn ，使得R（Un，Vn，Sn）接近预期的重建误差R（Un，Vn，Sn）。当给出足够的例子时，如果缺陷R（Un，Vn，Sn）R（U_n，V_n，S_n）收敛于零，则该模型是相容的在这里，我们将该模型的泛化误差定义为：表1. 深度网络的压缩率。O：参考网络。C：压缩网络。R：压缩率。#W：网络中的权重总数。sup{U，V，S}∈T|.|.方法. 我们首先展示了整体参数和准确度-与[17]中的分析方法类似，误差界推导如下：定理1. 假设对于任意的重构误差函数fU，V，S，U，V，S具有包含在[0，b]中的范围。存在常数c11，α0和s0，使得对于任何δ（0，1），概率至少为1δ，我们有R（Un，Vn，Sn）−R（U，V，S）压缩前后的切片（表1）。然后，我们提供了关于如何压缩每个网络的进一步细节，并通过应用低秩和稀疏结构假设，我们将几个网络的大小减少了4。5到15，这超过了许多最近的压缩方法。最后分析了卷积层的压缩效果。与代表性的最先进的方法相比，我们的方法显示出压缩卷积层的巨大潜力，这对于最先进的CNN（如初始模型）至关重要[25，26]。2个Sup{U，V，S}∈T|R(U, V, S) − Rn(U, V,S)|我们所有的实验都是在Caffe上实现的[13]。到实现稀疏层，我们在原始层.（n+（m+k）r）ln（4nc1β）+ln1/δ4加权矩阵以丢弃参数（分别为梯度）≤2b+、2nn在推理期间（分别地，训练）阶段。我们的参考模型来自Caffe Model Zoo，所有精度其中β=[（αkr+αmr）c1s+α2cs+αkrαc1+[αcc2α（αmr +αkr + α2）+ α cc2α ]α。在没有数据增强的情况下进行测量。在我们的实验中，我们固定参数η= 10−311根据经验，我们设λ= 10tσMax（1（XX）），其中注1. 关于普适常数c1、α和s的更多讨论可以在补充材料中找到。它们被引入到约束U，V，S，输入和输出特征向量。备注2. 根据定理1，w.e.推广误差的上界为O（lnn）. 因此，随着样本大小n的增加，这两个重建误差之间的差距收敛到0，并且Un，Vn，Sn收敛到Un，Vn，Sn。这个结果意味着我们只需要一个合理的小样本来解决所提出的模型，这得到了我们的经验实验的支持，我们只使用了3,000张训练图像。在实践中，通过使用GreBdec最小化经验重建误差，所获得的特征图的经验重建误差通常很小。这表明，根据我们的定理，训练和测试数据集中的不可见数据的特征映射重建误差也不大6. 实验在本节中，我们压缩了几个常用的卷积神经网络（ CNN ）。为了评估深度压缩的性能，报告了ILSVRC 2012验证数据集上的测试精度（Top-1和Top-5）σmax（）表示最大奇异值;我们将t调整为ob-获得最佳结果。我们随机抽取了3，000张训练图像来优化所提出的模型，这足以以很小的误差重建特征图。这与我们的理论分析是一致的。6.1. 整体网络ImageNet上的AlexNet和VGG-16。我们首先研究两个流行的深度网络，AlexNet [15]和VGG-16 [23]。为了压缩它们，我们遵循[8]中的策略并选择三阶段方案：首先，我们压缩所有卷积层并在全连接层中使用固定参数重新训练它们。第二，我们反其道而行之。第三，当精度停止提高时，我们用10−5或10−6的小学习率重新训练整个模型。在第一阶段，我们不需要像[8]中那样迭代压缩和重新训练。所有卷积层在一轮中被压缩到所需的压缩率。AlexNet和VGG-16都有3个完全连接的层，占用了最多的存储空间。所提出的模型压缩这些层以及最先进的方法。此外，与[8]等方法结果示于表2≤网络Top-1Top-5#WRAlexNet（O）AlexNet（C）57.22%57.26%80.27%80.31%61M6M10VGG-16（O）VGG-16（C）68.50%68.75%88.68%89.06%138M9.7M15GoogLeNet（O）GoogLeNet68.70%67.30%88.90%88.11%7M1.5M4.57378×表2. AlexNet的压缩统计数据。L：低级别。斯：稀疏。R：压缩率。层#W#L/#W#S/#WRconv135K百分之四十七百分之三十八百分之八十五conv2307K型百分之十一百分之十百分之二十一conv3885K百分之十二百分之十百分之二十二conv4小行星663K百分之十二百分之十百分之二十二conv5442K百分之十一百分之十百分之二十一FC638M0%的百分比百分之八百分之八fc717M0%的百分比百分之九百分之九fc84M0%的百分比百分之二十四百分之二十四总61M––9.9%（10倍）表3. VGG-16的压缩统计。L：低级别。斯：稀疏。R：压缩率。层#W#L/#W#S/#WRconv1 12K0%的百分比百分百百分百Conv1 237K百分之十百分之十百分之二十conv2 174K百分之十二百分之十一百分之二十三conv2 2十四万八千百分之十一百分之十百分之二十三conv3 1295K百分之十二百分之十二百分之二十四Conv3 2五九万百分之十一百分之十一百分之二十二conv3 3五九万百分之十一百分之十一百分之二十二conv4 11M百分之十二百分之十二百分之二十四conv4 22M百分之十一百分之十一百分之二十二conv4 32M百分之十一百分之十一百分之二十二conv5 12M百分之十一百分之十一百分之二十二conv5 22M百分之十一百分之十一百分之二十二conv5 32M百分之十一百分之十一百分之二十二FC6103M0%的百分比百分之四百分之四fc717M0%的百分比百分之四百分之四fc84M0%的百分比百分之二十百分之二十总138M––6.9%（15倍）和3，其中#表示参数的数量，W是原始权重矩阵。ImageNet上的GoogLeNet。我们的方法可以强大地压缩具有全连接层的传统网络，这些层通常主导模型大小。然而，最新的网络（如Inception模型）倾向于用卷积层或全局平均池化层替换全连接层，以节省存储空间。因此，如何压缩这些模型中最常见的卷积层在GoogLeNet上测试我们的方法，结果表明我们的模型擅长去除卷积层中的冗余（表4）。参数的数量减少了4倍。5，精度略有下降在这里，我们首先在第一轮中压缩内核大小大于1的然后，我们迭代减少其他层中的参数使用简化模型。压缩方法的比较。为了验证我们的方法的整体性能，我们的算法与网络修剪方法[8]，低秩张量分解方法[27]和Trucker分解方法7379表4. GoogLeNet的压缩统计数据。L：低级别。斯：稀疏。R：压缩率。模块#W#L/#W#S/#WRconv1 19K0%的百分比百分百百分百conv2115K百分之五十七百分之二十六百分之八十三初期3a164K百分之八百分之十三百分之二十一Inception 3b389K百分之九百分之十三百分之二十二初期4a376K占6%百分之十六百分之二十二初始4b四四九千占7%百分之十五百分之二十二Inception 4C510K百分之八百分之十五百分之二十三Inception 4D605K百分之八百分之十四百分之二十二Inception 4e868K百分之八百分之十五百分之二十三初期5a1M占6%百分之十六百分之二十二初期5b1M占7%百分之十五百分之二十二FC1M0%的百分比百分之二十百分之二十总7M––22%（4.5×）表5.总压缩率的比较。O：参考模型。R：压缩率。#W：网络中的权重总数。网络Top-1Top-5#WRAlexNet（O）[27] Jiangsu etal.[14] Han etal.德国[8]57.22%––57.23%57.26%80.27%79.66%78.33%80.33%80.31%61M12.2M11M6.7M6M1×5×五、46×9×10×VGG-16（O）[27] Jiangsu etal.[14] Han etal.德国[8]68.50%––68.66%68.75%88.68%90.31%89.40%89.12%89.06%138M50.2M127M10.3M9.7M1×二、75×1 .一、09×13×15×GoogLeNet（O）[27] Jiangsu etal.[14]第十四话68.70%––67.30%88.90%91.79%88.66%88.11%6.9M2.4M4.7M1.5M1×二、84×1 .一、28×4.第一章5×方法[14]。这些作品代表了开始的最先进的压缩方法，其中使用一个单一的结构的压缩- tion;[ 27][28][29]如表5所示，通过适当地应用低秩和稀疏结构，所提出的方法对整个网络实现了更高的压缩率。6.2. 卷积层分析压缩方法的比较。为了减少参数的数量并利用表示的空间结构，最先进的深度学习模型（如GoogLeNet，Inception V3和ResNet）倾向于用一些其他类型的层（如卷积层）替换完全连接的层因此，压缩卷积层至关重要。通过结合适当的权重矩阵结构，我们的方法显着减少了卷积层的参数。我们通过分析卷积层的压缩结果来解决这个问题如图2所示，我们的方法al-7380×(a) 与VGG-16的(b) AlexNet上的比较图2. AlexNet和VGG-16上卷积层的压缩率比较。x轴是原始权重总数的百分比。与最先进的修剪方法相比，大多数方法在许多卷积层上的压缩率加倍[8]。下面的讨论还提供了一些关于低秩和稀疏分解的优点的见解讨论与SVD和剪枝相比，低秩稀疏分解通常会导致输出特征的更小的重建误差这也激发了这样的想法，即深度模型中的权重矩阵可以更好地由其低秩和稀疏分量表示，并且我们可以通过低秩和稀疏分解来压缩深度模型。我们验证了这一点，通过评估压缩模型的性能之前，再训练。该实验基于VGG-16模型[23]。我们通过不同的压缩率压缩所有卷积层，并在重新训练之前分析相应的测试精度，如图3所示。可以看出，当压缩率高时，低秩和稀疏分解（(a) 前1精度(b) Top-5精度图3.测试精度（无再训练）比较，在提出的方法“GreBdec”，“GoDec”[ 31 ]，SVD和修剪[ 8 ]之间x轴是卷积层中参数总数的百分比特征图重建项的有效性也通过我们的模型与“GoDec”的更高精度来突出7. 结论在这里，我们提出了一个统一的深度压缩框架，将权重矩阵分解为它们的低秩和稀疏分量。与传统的SVD和剪枝方法相比，该模型显着提高了再训练之前的性能，特别是当特征图重建集成到框架中时。这种高性能为后续的再训练提供了更好的初始化，这有助于所提出的模型实现高压缩率，而不会损失许多流行模型的准确性。我们最多可以节省15个存储空间，这比使用单一策略的许多最近的方法都要好。确认这项研究得到了澳大利亚研究委员会项目 FT-130101457、DP-140102164、LP- 150100671的支持。7381引用[1] S.巴赫马尼湾Raj和P.T.布弗诺贪婪稀疏约束优化。Journal of Machine Learning Research ， 14 （ Mar ）：807-841，2013. 4[2] W. 陈，J.T. 威尔逊，S。Tyree，K.Q. 温伯格，以及Y.尘用散列技巧压缩神经网络。2015. 3[3] M. 德尼尔湾沙基比湖Dinh，N.de Freitas等人深度学习中的参数预测在神经信息处理系统（NIPS）的进展中，第2148-2156页第1、3条[4] E. L. Denton，W. Zaremba，J. Bruna，Y. LeCun和R.费格斯。利用卷积网络中的线性结构进行有效评估。在神经信息处理系统（NIPS）中，第1269第1、3条[5] G. H. Golub和C. F.范·洛恩矩阵计算，第三卷。JHUPress，2012. 2[6] Y.贡湖，澳-地Liu，M. Yang和L.布尔德夫使用矢量量化压缩深度卷积网络。arXiv预印本arXiv：1412.6115，2014。3[7] S.汉，H. Mao和W. J·达利深度压缩：利用修剪、训练量化和霍夫曼编码压缩深度神经网络。2016年国际学习表征会议（ InternationalConferenceonLearningRepresentations，ICLR）3[8] S. Han，J.普尔，J。Tran和W.Dally学习权值和连接以实现高效的神经网络。神经信息处理系统进展（NIPS），第1135- 1143页，2015年一、二、四、六、七、八[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。1[10] T.他，Y.范，Y。钱氏T. Tan和K. Yu.通过节点修剪重塑深度神经网络以实现快速解码。 IEEEInternationalConference on Acoustics ，Speech and Signal Processing（ICASSP），第245-249页。IEEE，2014。1[11] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取arXiv预印本arXiv：1503.02531，2015。3[12] M. Jaderberg，A. Vedaldi和A.齐瑟曼。加速具有低秩扩展的卷积神经网络。arXiv预印本arXiv：1405.3866，2014。3[13] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。第22届ACM多媒体国际会议（ACMMM），第675-678页。ACM，2014年。6[14] Y.-- D. Kim，E.帕克，S。刘，T。崔湖，澳-地Yang和D.信用于快速和低功耗移动应用的深度卷积神经网络的压缩。arXiv预印本arXiv：1511.06530，2015。1、7[15] A.克里热夫斯基岛Sutskever和G. E.辛顿基于深度卷积神经网络的 ImageNet 分类。神经信息处理系统进展（NIPS），第1097-1105页，2012年。1、6[16] Y. LeCun，J.S. Denker，S.A. 索拉河E. Howard和L.D.杰克最佳脑损伤。神经信息处理系统进展（NIPS），第2卷，第598- 605页，1989年1[17] T. Liu，L.Tao和D.徐k维编码方案的依赖于分辨率的Neural Computation，28（10）：2213-2249，2016. 6[18] P. Luo，Z. Zhu，Z. Liu，X. Wang和X.唐从神经元中提取知识的人脸模型压缩2016年第三十届AAAI人工智能会议（AAAI）。3[19] Z. Mariet和S. SRA.多样性网络。arXiv预印本arXiv：1511.05077，2015年。1[20] M.拉斯泰加里河谷Ordonez，J. Redmon和A.法哈迪。XNOR-Net：使用二进制卷积神经网络的ImageNet分类。arXiv预印本arXiv：1603.05279，2016。3[21] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。神经信息处理系统进展（NIPS），第91-99页，2015年。1[22] A.罗梅罗，北巴拉斯，S。E.卡胡A.查桑角Gatta和Y.本吉奥。FitNets：细深网的提示。arXiv预印本arXiv：1412.6550，2014。3[23] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年国际学习表征会议（InternationalConference on Learning Representations ， ICLR ）一、六、八[24] N. Srivastava、G.E. Hinton，A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout：防止神经网络过拟合的简单方法。 Journal of Machine Learning Research ， 15（1）：1929-1958，2014。1[25] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在IEEE计算机视觉和模式识别会议（CVPR），第1一、四、六[26] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构。arXiv预印本arXiv：1512.00567，2015。四、六[27] C. Tai，T. Xiao，X. wang等人低秩正则化卷积神经网络。arXiv预印本arXiv：1511.06067，2015年。1、7[28] Y. Takane和M. A.猎人约束主成分分析：全面的理论。工程、通信和计算中的应用代数，12（5）：391二、四[29] Y. Wang，C. Xu，S.你D Tao和C.徐CNNpack：将卷积神经网络打包在频率域中. 神经信息处理系统进展（NIPS），第253-261页，2016年。3[30] X. Zhang，J.邹建，K. He和J. Sun.加速用于分类和检测的非常深的卷积网络 IEEE Transactions on PatternAnalysis and Machine Intelligence（TPAMI），2015年。第1、3条[31] T. Zhou和D.涛. Godec：噪声情况下的随机低秩稀疏矩阵分解在第28届国际...7382典型的机器学习会议（ICML），第33- 40页三、八[32] T. Zhou和D.涛.贪婪的双边素描，完成平滑。在人工智能和统计国际会议（AISTATS），第650-658页，2013年。二三四五

下载后可阅读完整内容，剩余1页未读，立即下载