深度网络模型压缩综述：参数稀疏化促进性能优化与硬件部署

需积分: 0 39 浏览量更新于2024-01-01 收藏 1.18MB PDF 举报

深度学习在近年来在计算机视觉任务上不断刷新传统模型的性能,已逐渐成为研究热点。然而，深度模型尽管性能强大，但由于参数数量庞大、存储和计算代价高，依然难以部署在受限的硬件平台上，比如移动设备。在这种情况下，深度网络模型的压缩成为一个备受关注的问题，其目的是减少模型的参数数量和计算量，以便在资源受限的环境中进行有效部署。本综述对国内外学者在深度网络模型压缩上取得的成果进行了概述。首先，我们探讨了深度网络模型压缩的背景和意义，介绍了当前深度学习模型的挑战和压缩的必要性。接着，我们系统地总结了深度网络模型压缩的方法和技术，包括参数量化、剪枝、知识蒸馏、低秩近似等。其中，参数量化通过减少参数的位数来降低模型的存储开销和计算开销；剪枝通过去除模型中的冗余参数和连接来减小模型的尺寸；知识蒸馏通过从一个复杂模型中提取知识，然后将该知识迁移至一个简化模型中；低秩近似通过使用低秩矩阵来近似原模型的权重矩阵，以降低模型的复杂度和存储开销。接着，我们对深度网络模型压缩的评估方法进行了概述。由于模型压缩可能会对模型的性能产生一定的影响，因此评估压缩后模型的性能变得至关重要。我们介绍了静态评估和动态评估两种评估方法，并对它们进行了详细的分析和比较。最后，我们探讨了深度网络模型压缩领域的研究趋势和未来挑战。在当前研究状况的基础上，我们提出了一些可能的研究方向，包括结合多种压缩方法的混合压缩方法、进一步提高压缩后模型的性能等。此外，我们也指出了模型压缩领域存在的一些挑战，比如如何在不影响模型性能的前提下实现更大幅度的压缩、模型压缩与硬件优化的协同设计等。总的来说，深度网络模型压缩是一个备受关注的研究领域，通过对模型参数进行压缩，可以在一定程度上降低模型的存储开销和计算开销，从而实现在资源受限的硬件平台上进行有效部署的目的。我们相信随着该领域研究的不断深入，将会有更多的创新性方法和技术涌现，为深度学习模型的实际应用带来更多的可能性。

254

Journal of Software 软件学报 Vol.29, No.2, February 2018

移除的神经元节点数量

测试误差

显著性(s

i,j

)

误差

(

)

显著性

(

)

显著性(s

i,j

)

相似对数量

Fig.2 Automatic pruning method based on weights

图 2 依赖于权重的参数的自动化剪枝方法

2.2 核内权重粒度

在第 2.1 节中,网络中的任意权重被看作是单个参数并进行随机非结构化剪枝,该粒度的剪枝导致网络连

接不规整,需要通过稀疏表达来减少内存占用,进而导致在前向传播预测时,需要大量的条件判断和额外空间来

标明零或非零参数的位置,因此不适用于并行计算.Han 虽然在文献[21]中将 VGG-16 压缩了 49 倍,获得了很好

的效果.但文献[22]中也指出,如果在前向传播预测时利用这种非结构化的稀疏性,则需要使用专门的软件计算

库或者寄希望于未来的硬件.

Anwar 等人

[23]

提出了结构化剪枝的概念,可以很方便地使用现有的硬件和 BLAS 等软件库进行矩阵相乘,

利用剪枝后网络的稀疏性来加速网络效率.粗粒度剪枝,如通道粒度和卷积核粒度本身就是结构化的,Anwar 的

创新之处在于提出了核内定步长粒度(intra kernel strided sparsity),将细粒度剪枝转化为结构化剪枝.

该方法首先随机初始化步长 m 和偏置 n.考虑到卷积核一般选取 k×k 的方阵,起始项的下标(i,j)选为 i=j=n,

则遍历的位置如(n,n),(n+m,n),(n,n+m)等.核内定步长粒度剪枝的关键思想在于:作用到同一输入特征图上的

Kernel 必须采用相同的步长和偏置.当卷积层不是稠密连接时,作用在不同特征图上的 Kernel 步长与偏置可以

不同,但是,如果卷积层的连接为一般的全连接(即一个特征图需要被所有 Kernel 作用一遍再加和生成新的特征

图),那么所有 Kernel 必须采用相同的步长和偏置.这是由于只有相同的步长与偏置,才能在 Lowering(cuDNN 中

的 im2col)操作时形成大小匹配的 Lowering Kenrel Matrix,从而减小核矩阵和特征图矩阵的大小,极大地节约计

算资源.

除了使用之前提到的定义显著性度量,并进行贪婪剪枝的方法以外,A

nwar 还提出了一种使用进化粒子滤

波器决定网络连接重要性的方法

[23]

.设 x

是状态向量,用来决定是否剪去某一连接权(由 3 位张量降维得到);Z

观测值决定该粒子的权重;选用训练好的网络作为观察函数 h(⋅).粒子滤波由下列方程描述:

()

kkk

xfx

ZhxV

−

⎫

⎬

⎭

(3)

其中,观测过程具体为:通过一次前向测试误分类率(misclassification rate,简称 MCR),h(x

)=1−MCR,在噪声 V

的

干扰下得到观测值 Z

剩下的步骤,如权重重采样(sequential importance resampling,简称 SIR)仍采用传统方法.文献[15]通过实验

证明:蒙特卡洛方法比人为定义显著性度量结合贪婪剪枝的方法要好,在同样的剪枝程度,使用粒子滤波可以保

证准确率降低得更少.

相似对数量

误差(%),显著性(s

i,j

)

显著性(s

i,j

)

显著性(s

i,j

)

(a) 网络错误率、当前被删神经元显著性与神经元

删除数目的关系(Y 轴经过一定的缩放)

(b) 一层全连接层中权重统计直方图

[20]

剩余15页未读，继续阅读

yxldr

粉丝: 22
资源: 326

深度网络模型压缩综述：参数稀疏化促进性能优化与硬件部署

面向嵌入式应用的深度神经网络模型压缩技术综述(2019-09-11-18-57_read)1

融合权重与卷积核删减的SSD网络压缩_韩佳林(2019-09-16-24-40_read)1

卷积神经网络结构优化综述_林景栋(2019-09-04-18-25_read)1

mysqld_exporter监控指标列表

s32k1xx_masserase_read_mdm-ap_registers_command_script.t

getsebool -a | grep httpd 怎么使用

最新资源