"深度学习模型压缩、加速及移动端部署研究综述"

需积分: 0 37 浏览量更新于2024-01-21 2 收藏 3.89MB PDF 举报

第十七章《模型压缩、加速及移动端部署》是深度学习领域中一个重要的研究方向，主要研究如何通过对深度学习模型进行压缩和加速来提高其推理速度和性能。本章首先介绍了模型压缩的概念和背景，然后探讨了为什么需要对模型进行压缩和加速，以及模型压缩的必要性和可行性。接着，介绍了目前主要的深度学习模型压缩方法和技术。模型压缩是指通过减少模型的参数量和计算复杂度来降低模型的存储和计算资源需求，从而提高模型的推理速度和效率。模型压缩的主要目的是在一定程度上减小模型的大小，使得模型可以更好地在移动设备等资源受限的环境中部署和运行。另外，模型压缩还可以减少模型在网络传输中的带宽需求，提高网络的传输效率。模型压缩与加速的需求主要源自以下几个方面。首先，深度学习模型中通常包含大量的参数，导致模型在部署和推理过程中需要消耗大量的存储和计算资源。而对于一些资源受限的设备，如手机、嵌入式设备等，这种高资源消耗是无法满足的。其次，模型的庞大体积和高计算复杂度也限制了模型的传输速度和效率，尤其是在网络传输等带宽有限的场景下。此外，模型压缩和加速也有助于提高模型的泛化能力和鲁棒性，从而提高模型在未知数据上的表现。模型压缩的必要性和可行性主要体现在以下几个方面。首先，模型的压缩和加速可以提高模型的推理速度，使得深度学习在实际应用中更加高效。其次，模型的压缩和加速有助于解决移动设备等资源受限环境中模型部署和运行的问题，进一步推动深度学习技术的应用和发展。最后，随着深度学习模型规模的日益增大，对模型进行压缩和加速已经成为一个迫切的需求和重要的研究方向。目前存在多种深度学习模型压缩方法，包括前端压缩和后端压缩等不同的技术。前端压缩是指在训练阶段对模型进行优化，通过剪枝、蒸馏等方法减少模型的参数量和计算复杂度。后端压缩是指在推理阶段对模型进行优化，通过量化、分解等方法减少模型的存储需求和计算复杂度。此外，还有一些轻量化网络结构的设计方法，如Group convolution和Depthwise separable convolution等，可以在一定程度上减小模型的大小和复杂度。在模型压缩的评价指标方面，主要包括模型的大小、计算复杂度和推理速度等指标。这些指标可以评估模型的压缩效果和加速效果，帮助研究人员选择合适的模型压缩方法和技术。此外，还有一些其他的评价指标，如模型的准确率、鲁棒性和泛化能力等，也可以作为评估模型性能的重要指标。对于模型优化加速方法，目前存在多种技术和工具可供选择。其中，TensorRT是一种常用的深度学习推理引擎，可以通过对模型进行重构和优化来提高模型的推理速度和性能。TensorRT可以通过减少冗余计算和优化计算图等方法，实现对深度学习模型的优化和加速。影响神经网络速度的四个因素包括模型的大小、计算复杂度、输入数据的大小和硬件设备的性能。模型的大小和计算复杂度越大，推理所需的存储和计算资源就越多，从而影响模型的速度和性能。输入数据的大小也会影响模型的推理速度，因为更大的输入数据需要更多的计算资源来处理。另外，硬件设备的性能也是影响模型速度的重要因素，较高性能的硬件可以更快地执行计算任务，提高模型的推理速度。在选择模型压缩和加速方法时，需要综合考虑多个因素，包括模型的大小、推理速度、准确率和资源消耗等。不同的应用场景和需求可能适合不同的方法和技术。因此，选择适合的模型压缩和加速方法是一个权衡不同指标和需求的过程。改变网络结构设计是实现模型压缩和加速的重要方法之一。其中，Group convolution和Depthwise separable convolution是常用的轻量化网络结构设计方法，可以减小模型的参数量和计算复杂度。此外，在输入和输出的通道数相同时，通过调整网络结构和设计合适的矩阵乘法计算顺序，也可以最小化模型的计算量和存储需求。综上所述，模型压缩、加速和移动端部署是深度学习领域中一个重要的研究方向。通过对深度学习模型进行压缩和加速，可以提高模型的推理速度和性能，并在资源受限的设备上实现高效部署。目前存在多种深度学习模型压缩和加速方法，研究人员可以根据具体需求选择合适的方法和技术。同时，改变网络结构设计也是实现模型压缩和加速的重要方法之一。未来的研究方向包括进一步探索新的压缩和加速方法，提高模型的效率和性能。

条

件

方

法

若训练的网络模

型包含TensorRT

支持的操作

1、对于Caffe与TensorFlow训练的模型，若包含的操作都是

TensorRT支持的，则可以直接由TensorRT优化重构

 2、对于MXnet, PyTorch或其他框架训练的模型，若包含的

操作都是TensorRT支持的，可以采用TensorRT API重建网络

结构，并间接优化重构；

若训练的网络模

型包含TensorRT

不支持的操作

1、TensorFlow模型可通过tf.contrib.tensorrt转换，其中不

支持的操作会保留为TensorFlow计算节点；

 2、不支持的操作可通过Plugin API实现自定义并添加进

TensorRT计算图；

 3、将深度网络划分为两个部分，一部分包含的操作都是

TensorRT支持的，可以转换为TensorRT计算图。另一部则

采用其他框架实现，如MXnet或PyTorch；

NETWORK PRECISION FRAMEWORK/GPU:TITANXP AVG.TIME(BATCH=8,UNIT:MS)

TOP1

VAL.ACC.

(IMAGENET-

1K)

Resnet50 fp32 TensorFlow 24.1 0.7374

Resnet50 fp32 MXnet 15.7 0.7374

Resnet50 fp32 TRT4.0.1 12.1 0.7374

Resnet50 int8 TRT4.0.1 6 0.7226

Resnet101 fp32 TensorFlow 36.7 0.7612

Resnet101 fp32 MXnet 25.8 0.7612

Resnet101 fp32 TRT4.0.1 19.3 0.7612

Resnet101 int8 TRT4.0.1 9 0.7574

Tips: 想更好地利用TensorRT加速网络推断，可在基础网络中多采用Inception

模型结构，充分发挥TensorRT的优势。

17.5.3 TensorRT如何优化重构模型？

17.5.4 TensorRT加速效果如何？

以下是在TitanX (Pascal)平台上，TensorRT对大型分类网络的优化加速效果：

17.6

影

响

神

经网络

速

度

的

个

因

素

（

再

稍

微

详

细

一

点

）

1. FLOPs(FLOPs就是网络执行了多少multiply-adds操作)；

2. MAC(内存访问成本)；

3. 并行度(如果网络并行度高，速度明显提升)；

4. 计算平台(GPU，ARM)



17.7

压

缩

和

加

速

方

法

如

何

选

择

？

１）对于在线计算内存存储有限的应用场景或设备，可以选择参数共享和参数

剪枝方法，特别是二值量化权值和激活、结构化剪枝．其他方法虽然能够有效的

压缩模型中的权值参数，但无法减小计算中隐藏的内存大小（如特征图）．

２）如果在应用中用到的紧性模型需要利用预训练模型，那么参数剪枝、参数

共享以及低秩分解将成为首要考虑的方法．相反地，若不需要借助预训练模型，

则可以考虑紧性滤波设计及知识蒸馏方法．

３）若需要一次性端对端训练得到压缩与加速后模型，可以利用基于紧性滤波

设计的深度神经网络压缩与加速方法．

４）一般情况下，参数剪枝，特别是非结构化剪枝，能大大压缩模型大小，且

不容易丢失分类精度．对于需要稳定的模型分类的应用，非结构化剪枝成为首要

选择．

５）若采用的数据集较小时，可以考虑知识蒸馏方法．对于小样本的数据集，

学生网络能够很好地迁移教师模型的知识，提高学生网络的判别性．

６）主流的５个深度神经网络压缩与加速算法相互之间是正交的，可以结合不

同技术进行进一步的压缩与加速．如：韩松等人［３０］结合了参数剪枝和参

数共享；温伟等人［６４］以及Ａｌｖａｒｅｚ等人［８５］结合了参数剪枝

和低秩分解．此外对于特定的应用场景，如目标检测，可以对卷积层和全连接层

使用不同的压缩与加速技术分别处理．

参考《深度神经网络压缩与加速综述》

17.8

改

变

网络结

构

设计

为什么

会

实

现

模

型

压

缩

、

加

速

？

17.8.1 Group convolution

Group convolution最早出现在AlexNet中，是为了解决单卡显存不够，将网络

部署到多卡上进行训练而提出。Group convolution可以减少单个卷积1/g的参数

量。如何计算的呢？

假设

输入特征的的维度为 ;

卷积核的维度为，共个；

输出特征的维度为。

传统卷积计算方式如下：

传统卷积运算量为：

剩余61页未读，继续阅读

是因为太久

粉丝: 24
资源: 295

"深度学习模型压缩、加速及移动端部署研究综述"

17_第十七章_模型压缩、加速及移动端部署1

第十七章_模型压缩、加速及移动端部署.pdf

DeepLearning深度学习教程_第十七章_模型压缩、加速及移动端部署.pdf

深度学习模型压缩、加速及移动端部署探究

模型压缩与移动端部署：AI应用中的资源优化策略

DeepLearning-深度学习 经验总结合集-共18章.zip

"深度学习模型压缩与加速技术解析及未来展望

前端开发者面试宝典：解析与技巧（第一版）

目标检测技术：Faster R-CNN算法优化秘籍，提升模型性能的制胜法宝

深度学习模型在移动端部署

最新资源

DeepLearning-深度学习经验总结合集-共18章.zip