深度学习激活映射压缩：加速与优化研究

57 浏览量更新于2024-06-20 收藏 1.32MB PDF 举报

"本文主要探讨了深度学习网络的激活映射压缩和加速策略，提出了一种包含稀疏化、量化和熵编码的三阶段压缩与加速管道。这种方法旨在解决深度学习模型在低功耗设备上运行面临的计算和内存挑战。通过在Inception-V3和MobileNet-V1模型上应用该方法，实验结果显示模型推理速度可以提升1.6倍，精度提高0.38%和0.54%，同时通过量化和熵编码实现了高达6倍的压缩，进一步降低了存储需求。研究指出，尽管现代计算机能够处理大型神经网络的计算需求，但在资源受限的设备上，如手机和自动驾驶汽车，需要高效的方法来运行这些模型。已有大量工作尝试通过不同手段优化模型，包括模型剪枝、知识蒸馏等，但本文提出的方案在保持模型性能的同时，更专注于压缩和加速。" 在深度学习领域，神经网络的复杂性和计算需求随着其准确性的提升而增加。以AlexNet和VGG-16为例，它们分别需要数十亿次的乘加运算和大量参数，这在资源有限的设备上难以实现。为了应对这一挑战，研究人员提出了多种策略，其中包括模型压缩和加速。本研究关注的是激活映射的压缩，这是神经网络中一个关键的组成部分，因为它直接影响模型的计算效率和存储需求。激活映射的稀疏化是第一步，通过去除对模型预测影响较小的神经元，可以减少计算量并提升模型的表达能力。文中提到的“sparse_v2”模型在Inception-V3和MobileNet-V1上取得了显著效果，推理速度提升且精度有所提高。量化是压缩过程的另一个重要环节，它将浮点数权重转换为更低位宽的表示，如16位，从而减少存储和计算需求。结合熵编码，进一步压缩模型，使得Inception-V3和MobileNet-V1的激活图可以被高度压缩，而对模型性能的影响微乎其微。图1展示了ResNet-34各层的非零激活百分比和压缩效率，显示了稀疏化和量化对模型结构的影响。这种压缩方法不仅适用于特定的网络架构，而且可能有广泛的适用性，为在各种低功耗设备上部署深度学习模型提供了新的可能性。尽管模型压缩和加速已取得显著进展，但还有许多问题待解决，如如何在不影响模型性能的前提下进一步提高压缩比例，以及如何在资源受限的环境中实现高效并行计算。未来的研究可能会探索更多维度的优化，如混合精度训练、动态量化和自适应压缩策略，以满足深度学习在物联网和边缘计算等领域的广泛应用需求。

7087

由于其高计算复杂度而不能在实际中使用。无损权重

压缩已经以霍夫曼编码（HC）[18]和算术编码[51]的

形式出现在文献中。

最近，许多轻量级架构出现在文献中，试图在计算

复杂性和模型准确性之间取得平衡[22， 24 ， 54，

68]。典型的设计选择包括引入1×1逐点卷积和深度可

分离卷积。

选项。这些网络是从零开始训练的- 提供了一种替代

最先进的解决方案。当这种轻量级架构不能实现足够

高的准确性时，可以交替地压缩和加速最先进的网

络。修剪权重[14，18，19，

34，36，40，48，63，69]和权重和ac的量化。

tivations [6，7，12，15，18，23，50，64，67]是当前

使用的标准压缩技术。其他流行的方法包括通过用低

秩因子分解[25，29，56]或分组卷积[26]替换卷积核来

修改预先训练的网络

人们可能会错误地认为我们的算法是一种执行激活

修剪的方法，类似于权重修剪[18]或结构化权重修剪

[38，39，43，66]。后者以较粗的粒度修剪权重，并

且在这样做时也影响激活图稀疏性。然而，我们的方

法

动态

地影响稀疏性，而不是像所有其他方法那样静

态地影响稀疏性，因为它不会

永久

地删除任何激活。

相反，它鼓励较小比例的激活针对任何给定的输入，

同时仍然允许网络在需要时充分利用其容量。

图2.基于Eq.3 .第三章。用红色表示x

的两个梯度贡献。

（w）是数据项（通常是交叉熵），r（w）是正则

化项（通常是

范数）。

训练样本

和层

的激活后映射

∈ {1

，

. . .

，

}

表

示为

，

∈

RHl

，其中

，

表示

，

的行

数、列数和通道

数

当上下文允许时，我们写

而不是

，

以减少混乱。

对应于输入

神经网络。预激活映射由y

，

表示。请注意，由于

ReLU可以就地计算，因此在实际应用中，y

，

通常只

是中间结果。因此，我们的目标是压缩

而不是

。这

些量的解释性说明见图2

绝大多数现代CNN架构通过使用ReLU作为激活函

数来实现激活映射的稀疏性，这对映射的内在结构我

们建议通过显式编码成本函数来帮助神经网络的训

练，以最小化，我们希望实现更稀疏的激活映射。我

们通过对所有层在

上放置稀疏诱导先验来这样做，通

过如下修改成本函数：

最后，激活图正则化以各种形式出现在文献中，例

如dropout [57]，batch

E（w）

（w）

，

标准化[27]，层标准化[4]和L

regu-

（

二

）

[41]. 此外，增加活动的稀疏性，

在稀疏自编码器[44]中，使用Kullback-Leibler（KL）

发散和CNN

′

（w）

（

）

，

ReLU [11].在Glorotet al.[11]，

其中，

对于

，，

−1

，α

和c

′

，

作者使用ReLU作为激活函数来诱导激活图上的稀疏

性，并简要讨论了使用

正则化来增强它。然而，

regularizer的效用并没有得到充分的探讨。在这项工作

中，我们扩大

由下式给出：

′

（w）

（w）+

，

（

三）

这个想法并将其应用于CNN

激活图压缩。

学习稀疏激活图

CNN模型中采用的典型成本函数E

（w）由下式给

出：

由方程式2.我们使用

范数来诱导

上的稀疏性，xl作

为最优的代理，但难以优化，通过凸松弛的

该技术

已广泛用于各种不同的应用，包括稀疏编码[45]和

LASSO [62]。

虽然使用上述成本函数从头开始训练神经网络是可

能的，但我们的目标是稀疏化activa。

（

）

（

）

（

）

，

（

）

现有最先进网络的位置图。因此，我们修改了Eq.的成

本函数。1到Eq。2仅在预训练网络的微调过程中。持

续时间

其中n表示训练样本的索引，N是最小批量大小，

≥0，w∈

表示网络

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习激活映射压缩：加速与优化研究

深度学习模型压缩和加速

深度学习模型压缩与加速综述

深度学习神经网络在管道故障诊断中的应用研究.pdf

【深度学习加速秘籍】：TensorFlow优化技巧提升模型性能

【深度学习模型压缩】：掌握技术，让物体识别在边缘设备上飞速运行

深度学习在图像识别中的应用：全方位解析

【深度学习降维技术】：简化数据挖掘问题的深度学习方法

深度学习与手写数字识别：从零开始构建神经网络模型

【进阶】常见深度学习框架对比

【深度学习硬件优化】：充分利用GPU和TPU的技巧

最新资源