模型压缩与加速：轻量化部署与资源受限环境的解决方案

需积分: 0 70 浏览量更新于2024-06-14 收藏 3.88MB PDF 举报

模型压缩与加速技术是深度学习领域的重要课题，主要针对移动端和嵌入式设备等资源有限的环境，旨在提高模型效率和可部署性。在这些环境中，大型深度学习模型由于计算复杂度和存储需求过高，往往难以直接运用。该领域的研究关注以下几个核心内容： 1. **模型压缩理解**：包括前端压缩和后端压缩，前者涉及模型结构优化，如网络剪枝、网络蒸馏和低秩分解；后者则关注参数的量化和压缩，以减少内存占用。 2. **压缩方法**： - **网络剪枝**：通过去除冗余连接或参数来减小模型规模。 - **网络蒸馏**：利用大型模型指导小型模型学习，实现知识转移和模型精简。 - **前端压缩**：如GroupConvolution和Depthwise Separable Convolution，通过改进网络结构来减少计算量。 - **后端压缩**：包括量化技术，将浮点参数转换为低精度形式。 3. **评价指标**：衡量压缩后的模型在保持性能的同时，压缩率和速度提升的程度。 4. **优化加速方法**：如TensorRT的模型优化，它能自动调整模型结构以提升执行效率，并提供高效的运行速度。 5. **影响速度的因素**：包括网络架构设计、计算复杂度、内存访问效率等，需综合考虑。 6. **选择策略**：根据应用场景、资源限制和性能需求，决定采用哪种压缩和加速方法。 7. **轻量级网络**：列举了一些经典的轻量化网络结构，如SequeezeNet、MobileNet、MobileNet-v2、Xception、ShuffleNet等，它们通过巧妙的设计减少了计算量。 8. **移动端开源框架**：介绍了一系列专为移动端设计的框架，如NCNN、QNNPACK、Prestissimo、MDL、Paddle-Mobile、MACE、FeatherCNN、TensorFlow Lite等，它们提供了模型压缩和加速的支持。模型压缩与加速技术是深度学习模型在资源受限环境中得以广泛应用的关键技术，通过优化网络结构、参数处理和利用专门工具，能够在不影响性能的前提下显著提高模型的效率和部署能力。

以上3步即是TensorRT对于所部署的深度学习网络的优化和重构，根据其优化和重构策略，第一和第

二步适用于所有的网络架构，但是第三步则对于含有Inception结构的神经网络加速效果最为明显。

Tips: 想更好地利用TensorRT加速网络推断，可在基础网络中多采用Inception模型结构，充分发挥

TensorRT的优势。

１）对于在线计算内存存储有限的应用场景或设备，可以选择参数共享和参数剪枝方法，特别是二值

量化权值和激活、结构化剪枝．其他方法虽然能够有效的压缩模型中的权值参数，但无法减小计算中隐

藏的内存大小（如特征图）．

２）如果在应用中用到的紧性模型需要利用预训练模型，那么参数剪枝、参数共享以及低秩分解将成

为首要考虑的方法．相反地，若不需要借助预训练模型，则可以考虑紧性滤波设计及知识蒸馏方法．

３）若需要一次性端对端训练得到压缩与加速后模型，可以利用基于紧性滤波设计的深度神经网络压

缩与加速方法．

４）一般情况下，参数剪枝，特别是非结构化剪枝，能大大压缩模型大小，且不容易丢失分类精度．

对于需要稳定的模型分类的应用，非结构化剪枝成为首要选择．

５）若采用的数据集较小时，可以考虑知识蒸馏方法．对于小样本的数据集，学生网络能够很好地迁

移教师模型的知识，提高学生网络的判别性．

６）主流的５个深度神经网络压缩与加速算法相互之间是正交的，可以结合不同技术进行进一步的压

缩与加速．如：韩松等人［３０］结合了参数剪枝和参数共享；温伟等人［６４］以及Ａｌｖａｒｅ

ｚ等人［８５］结合了参数剪枝和低秩分解．此外对于特定的应用场景，如目标检测，可以对卷积层和

全连接层使用不同的压缩与加速技术分别处理．

参考《深度神经网络压缩与加速综述》

17.8 改变网络结构设计为什么会实现模型压缩、加速？

17.8.1 Group convolution

Group convolution最早出现在AlexNet中，是为了解决单卡显存不够，将网络部署到多卡上进行训

练而提出。Group convolution可以减少单个卷积1/g的参数量。如何计算的呢？

假设

输入特征的的维度为$HWC_1$;

卷积核的维度为$H_1W_1C_1$，共$C_2$个；

输出特征的维度为$H_1W_1C_2$ 。

传统卷积计算方式如下：

传统卷积运算量为：

Group convolution是将输入特征的维度c1分成g份，每个group对应的channel数为c1/g，特征维度H *

W * c1/g；，每个group对应的卷积核的维度也相应发生改变为h1 * w1 * c1/9，共c2/g个；每个group

相互独立运算，最后将结果叠加在一起。

Group convolution计算方式如下：

剩余57页未读，继续阅读

fighting的码农(zg)-GPT

粉丝: 772
资源: 34

模型压缩与加速：轻量化部署与资源受限环境的解决方案

深度学习面试资料-含答案

深度学习模型压缩和加速

第十七章_模型压缩、加速及移动端部署1

"深度学习模型压缩、加速及移动端部署研究综述

模型压缩与移动端部署：AI应用中的资源优化策略

【模型压缩与加速】：CNN在移动端部署的关键技术指南

TensorFlow Lite量化训练：打造适用于移动端的轻量级模型

深度学习模型压缩与加速技术

【深度学习模型压缩手册】：轻量化模型的必备技术

移动端模型部署优化策略

最新资源