深度学习模型压缩与移动端优化实战

版权申诉

163 浏览量更新于2024-06-21 收藏 4.07MB PDF 举报

"本资源是一份关于深度学习模型压缩、加速及移动端部署的教程，旨在帮助读者理解如何在有限计算资源下实现深度学习模型的有效应用。教程详细介绍了模型压缩的各种方法，包括网络剪枝、网络蒸馏、低秩分解等，并对比了前端压缩和后端压缩的策略。同时，讲解了TensorRT等模型优化加速工具的工作原理和应用，以及如何通过改变网络结构设计来实现模型的轻量化。此外，还列举了一些常用的轻量级网络结构，如SqueezeNet、MobileNet及其变体、Xception和ShuffleNet-v1，分析了它们的设计思想、网络架构和实验结果。" 深度学习模型压缩和加速是解决资源受限环境下运行复杂模型的关键技术。模型压缩主要是为了减小模型的大小，降低计算复杂度，提高执行效率，而模型加速则侧重于优化模型的运行速度，确保在有限硬件资源上快速执行。 1. **模型压缩理解**：模型压缩主要针对深度学习模型参数过多、计算量大导致的存储和计算需求问题。通过各种技术手段减小模型的体积，而不显著影响其性能。 2. **模型压缩的必要性与可行性**：随着深度学习的发展，模型越来越大，对于内存和计算力的要求越来越高，模型压缩成为在移动设备或边缘计算环境中部署模型的必要选择。通过模型压缩，可以实现在保持预测精度的同时，降低资源消耗。 3. **深度学习模型压缩方法**： - **前端压缩**：主要通过修改网络结构，如使用更轻量级的卷积层（如GroupConvolution和DepthwiseSeparableConvolution）。 - **后端压缩**：包括网络剪枝，通过移除冗余的神经元或连接，以及低秩分解，将大型矩阵分解为较小的矩阵组合，降低计算复杂度。 - **网络蒸馏**：通过一个大模型（教师模型）指导小模型（学生模型）的学习，保留大模型的预测能力。 4. **影响神经网络速度的因素**：包括模型大小、运算类型（例如FLOPs）、激活函数的选择以及硬件平台的特性等。 5. **模型优化加速方法**：如TensorRT，它通过优化模型的计算图，提供高效的推理性能，支持模型的量化和裁剪，以适应不同的硬件环境。 6. **网络结构设计的改变**：如GroupConvolution和DepthwiseSeparableConvolution可以显著减少计算量，同时保持模型的表达能力。减少网络碎片化（分支数量）和元素级操作也能提升效率。 7. **轻量级网络**：SqueezeNet、MobileNet及其变体MobileNet-v2、Xception和ShuffleNet-v1等网络结构设计，它们通过创新的卷积方式和网络设计，实现了高效率和良好的性能平衡。 8. **选择压缩和加速方法**：应根据具体的应用场景、计算资源和性能要求来决定，通常需要在模型性能和资源消耗之间找到一个合适的权衡点。 9. **未来研究方向**：模型压缩领域的未来研究可能涉及更先进的压缩算法、自动化的模型优化策略以及适用于更多特定任务的轻量级网络设计。

DeepLearning

(出⾃《深度神经⽹络压缩与加速综述》)

17.4.7 总体压缩效果评价指标有哪些？

⽹络压缩评价指标包括运⾏效率、参数压缩率、准确率.与基准模型⽐较衡量性能提升时,可以使⽤提升倍数(speedup)或提升

⽐例(rat io)。

评价指评价指

标标特点特点

准确率⽬前,⼤部分研究⼯作均会测量 Top-1 准确率,只有在 ImageNet 这类⼤型数据集上才会只⽤ Top-5 准确率.为

⽅便⽐较

参数压

缩率

统计⽹络中所有可训练的参数,根据机器浮点精度转换为字节(byte)量纲,通常保留两位有效数字以作近似估计.

运⾏效

率

可以从⽹络所含浮点运算次数(FLOP)、⽹络所含乘法运算次数(MULT S)或随机实验测得的⽹络平均前向传播所

需时间这 3 个⾓度来评价

17.4.8 ⼏种轻量化⽹络结构对⽐

⽹络结构⽹络结构 T OP1 准确率准确率/% 参数量参数量/M CPU运⾏时间运⾏时间/ms

MobileNet V1 70.6 4.2 123

Shuff leNet(1.5) 69.0 2.9 -

Shuff leNet(x2) 70.9 4.4 -

MobileNet V2 71.7 3.4 80

第⼗七章模型压缩及移动端部署

7/55

DeepLearning

MobileNet V2(1.4) 74.7 6.9 149

⽹络结构⽹络结构 T OP1 准确率准确率/% 参数量参数量/M CPU运⾏时间运⾏时间/ms

17.4.9 ⽹络压缩未来研究⽅向有哪些？

⽹络剪枝、⽹络精馏和⽹络分解都能在⼀定程度上实现⽹络压缩的⽬的.回归到深度⽹络压缩的本质⽬的上,即提取⽹络中的有

⽤信息,以下是⼀些值得研究和探寻的⽅向.

(1) 权重参数对结果的影响度量.深度⽹络的最终结果是由全部的权重参数共同作⽤形成的,⽬前,关于单个卷积核/卷积核权重的

重要性的度量仍然是⽐较简单的⽅式,尽管⽂献[14]中给出了更为细节的分析,但是由于计算难度⼤,并不实⽤.因此,如何通过更

有效的⽅式来近似度量单个参数对模型的影响,具有重要意义.

(2) 学⽣⽹络结构的构造.学⽣⽹络的结构构造⽬前仍然是由⼈⼯指定的,然⽽,不同的学⽣⽹络结构的训练难度不同,最终能够达

到的效果也有差异.因此,如何根据教师⽹络结构设计合理的⽹络结构在精简模型的条件下获取较⾼的模型性能,是未来的⼀个研

究重点.

(3) 参数重建的硬件架构⽀持.通过分解⽹络可以⽆损地获取压缩模型,在⼀些对性能要求⾼的场景中是⾮常重要的.然⽽,参数的

重建步骤会拖累预测阶段的时间开销,如何通过硬件的⽀持加速这⼀重建过程,将是未来的⼀个研究⽅向.

(4) 任务或使⽤场景层⾯的压缩.⼤型⽹络通常是在量级较⼤的数据集上训练完成的,⽐如,在 ImageNet上训练的模型具备对 1

000 类物体的分类,但在⼀些具体场景的应⽤中,可能仅需要⼀个能识别其中⼏类的⼩型模型.因此,如何从⼀个全功能的⽹络压

缩得到部分功能的⼦⽹络,能够适应很多实际应⽤场景的需求.

(5) ⽹络压缩效⽤的评价.⽬前,对各类深度⽹络压缩算法的评价是⽐较零碎的,侧重于和被压缩的⼤型⽹络在参数量和运⾏时间

上的⽐较.未来的研究可以从提出更加泛化的压缩评价标准出发,⼀⽅⾯平衡运⾏速度和模型⼤⼩在不同应⽤场景下的影响;另⼀

⽅⾯,可以从模型本⾝的结构性出发,对压缩后的模型进⾏评价.

（出⾃《深度⽹络模型压缩综述》）

17.5 ⽬前有哪些深度学习模型优化加速⽅法？

https://blog.csdn.net/nature553863/article/details/81083955

17.5.1 模型优化加速⽅法

模型优化加速能够提升⽹络的计算效率，具体包括：

（1）Op-level的快速算法：FFT Conv2d (7x7, 9x9), Winograd Conv2d (3x3, 5x5) 等；

（2）Layer-level的快速算法：Sparse-block net [1] 等；

（3）优化⼯具与库：TensorRT (Nvidia), Tensor Comprehension (Facebook) 和 Distiller (Intel) 等；

原⽂：htt ps://blog.csdn.net/nature553863/article/details/81083955

17.5.2 TensorRT加速原理

https://blog.csdn.net/xh_hit/article/details/79769599

在计算资源并不丰富的嵌⼊式设备上，TensorRT之所以能加速神经⽹络的的推断主要得益于两点：

⾸先是TensorRT⽀持int8和fp16的计算，通过在减少计算量和保持精度之间达到⼀个理想的trade-off，达到加速推断的

⽬的。

更为重要的是TensorRT对于⽹络结构进⾏了重构和优化，主要体现在⼀下⼏个⽅⾯。

(1) TensorRT 通过解析⽹络模型将⽹络中⽆⽤的输出层消除以减⼩计算。

(2) 对于⽹络结构的垂直整合，即将⽬前主流神经⽹络的Conv、BN、Relu三个层融合为了⼀个层，例如将图1所⽰的常

第⼗七章模型压缩及移动端部署

8/55

剩余57页未读，继续阅读

安全方案

粉丝: 2551
资源: 3960

深度学习模型压缩与移动端优化实战

探索深度学习工具包：GM_deeplearning_zip_

深度学习入门教程：从基础到DeepLearning模型

深度学习源码包：AST2_deeplearning_zip解析

DeepLearning深度学习教程_第十二章_网络搭建及训练.pdf

DeepLearning深度学习教程_第二章_机器学习基础.pdf

DeepLearning深度学习教程_第一章_数学基础.pdf

DeepLearning深度学习教程_第八章_目标检测.pdf

DeepLearning深度学习教程_第四章_经典网络.pdf

DeepLearning深度学习教程_第十章_强化学习.pdf

DeepLearning深度学习教程_第十八章_后端架构选型及应用场景.pdf

最新资源