半波高斯量化提升低精度深度学习性能

158 浏览量更新于2025-01-16 收藏 598KB PDF 举报

本文主要探讨了在深度学习领域中如何通过半波高斯量化（Half-Wave Gaussian Quantization, HWGQ）技术来实现低精度计算，以解决大规模神经网络的内存和计算资源限制问题。深度神经网络，如AlexNet、ResNet、GoogLeNet和VGG-Net，尽管在性能上表现出色，但它们的庞大模型尺寸和计算需求成为了实际应用中的瓶颈。传统的二进制量化方法，如使用分段常数函数逼近ReLU非线性，以及在反向传播阶段的分段线性硬双曲正切函数，存在一些挑战。这些方法在前向传播和反向传播过程中采用不同的近似方式，可能导致梯度失配问题，影响网络的性能。本文提出的半波高斯量化器是一种新颖的解决方案，它针对ReLU非线性提供了一个有效的前向近似。半波高斯量化器利用了网络激活和批归一化操作的统计特性，能够更准确地保留信号的动态范围，从而减少了量化误差。与以往的低精度网络相比，如使用1位二进制权重和2位量化激活，HWGQ-Net展现了更好的性能，能够在保持相对较低的精度损失的同时，降低内存占用和计算成本。作者们首先介绍了深度神经网络在计算机视觉任务中的广泛应用，强调了模型压缩的需求。他们随后详细讨论了量化技术在模型大小和计算效率提升方面的潜力，尤其是权重量化带来的显著分类精度节省。然而，现有的二进制量化方法在计算效率上的局限性，即点积操作对硬件兼容性的依赖，促使研究者转向寻找新的量化策略。通过对ReLU非线性的半波高斯量化，文章提出了一种创新的方法，旨在提高量化网络的性能，使之更接近全精度网络的表现。这种量化方法的引入不仅有助于解决梯度失配问题，还可能推动低精度深度学习在实际应用中的广泛应用，尤其是在资源受限的设备上，如移动设备和嵌入式系统。总结来说，本文的主要贡献在于提出了一种有效的前向和反向量化策略——半波高斯量化器，通过优化量化过程，提高了低精度深度学习模型在复杂任务中的性能表现，为深度学习的轻量化和计算效率提升提供了新的途径。

5918

通过半波高斯量化实现低精度深度学习

蔡兆伟加州

大学圣地亚

哥分校

zwcai@ucsd.edu

何晓东微软研究院

xiaohe@microsoft.com

Jian Sun

Megvii Inc.

sunjian@megvii.com

Nuno

Vasconcelos UC

圣地亚哥

nuno@ucsd.edu

摘要

研究了深层神经网络激活的量化问题检查流行的二

进制量化方法表明，这包括

通过两个函数来

近似经典的非线性，双曲正切：在前馈

网络计算中使用的分段常数函数，以及在网络学习期

间的反向传播步骤中使用的分段线性硬双曲正切函数

的问题

然后考虑近似广泛使用的

ReLU

非线性。本文提出了一

种半波高斯量化器（

HWGQ

）用于前向近似，并通过

利用网络激活和批归一化操作的统计特性，证明了它

的有效实现为了克服梯度失配的问题，由于使用不同

的前向和后向近似，几个分段向后逼近器，然后研

究。所得到的量化网络的实现，被称为

HWGQ-Net

，

被示出为实现更接近全精度网络的性能，例如

AlexNet

，

ResNet

，

GoogLeNet

和

VGG-Net

，而不是以前

可用的低精度网络，具有

位二进制权重和

位量化激

活。

介绍

深度神经网络已经在计算机视觉问题上取得了最先

进的性能，例如分类[21，33，34，11，12]，检测[7，

31，1]等。然而，它们的复杂性阻碍了在现实世界感

兴趣的许多应用中的广泛部署，其中内存或计算资源

有限。这是由于两个主要问题：大型模型大小

（ GoogLeNet 为 50 MB [34] ， ResNet-101 为 200 M

[12] ， AlexNet 为 250 MB [21] ， VGG-Net 为 500 M

[33]）和大型计算成本，通常需要基于GPU的实现。

这引起了人们对具有较小内存占用和计算的压缩模型

的兴趣。

一些工作已经解决了模型大小的减少，通过使用量

化[3，26，24]，低秩

矩阵分解[18，6]，修剪[10，9]，架构设计[25，16]

等。最近，已经表明，通过量化的权重压缩可以实现

非常大的分类节省，将每个权重减少到1位，在分类精

度的边际成本[3，26]。然而，它在计算维度上的效率

较低，因为由其每个单元实现的核心网络操作是权重

和激活向量之间的点积。用量化激活补充二进制或量

化权重将使得能够通过逻辑和位计数操作来替换因

此，如果除了权重之外，每个单元的输入都被二进制

化或量化为低位，则应该可以大幅加速。

然而，激活的量化比权重的量化更困难。例如，

[4，30]已经表明，虽然可以在模型准确性方面以边际

成本对权重进行二进制化，但激活的额外量化会导致

大规模分类的非平凡损失，例如ImageNet [32]。困难

在于，激活的二进制化或量化需要用不可微算子对其

进行处理，这会给反向传播算法带来问题。这在计算

网络输出的前馈步骤和计算学习所需梯度的反向传播

步骤之间迭代。困难在于二值化或量化算子具有逐步

响应，在反向传播期间产生非常弱的梯度信号，从而

损害学习效率。到目前为止，这个问题已经通过使用

前馈步骤中使用的算子的连续近似来实现反向传播步

骤来解决。然而，这在实现正向计算的模型和用于学

习它的导数之间产生了不匹配，从而导致次优模型。

在这项工作中，我们认为，在前馈步骤中使用的量

化算子，和连续逼近，在反向传播步骤中使用的，作

为两个函数，近似每个网络单元的激活函数。我们把

这些称为激活函数的

向前

和

向后

近似。我们先考虑一

下-

使用[4，30]中使用的二进制±1量化器，其中

下载后可阅读完整内容，剩余8页未读，立即下载

cpongm

粉丝: 6

半波高斯量化提升低精度深度学习性能

基于高斯滤波器的实现

结合半波高斯量化与交替更新的神经网络压缩方法.pdf

机器学习深度学习专业词汇中英文对照

线性方程组解法：高斯消元与LU分解深度解析

深度学习中的不确定性量化：TrustGeo参文2的实证案例研究

实践案例深度解析：YOLOv5如何实现高精度水表读数识别

金融工程中的扩展卡尔曼滤波：量化交易模型仿真权威指南

【实战演练】用深度学习实现人脸识别系统

【深度学习与OpenCV】：结合GPU实现图像识别加速

MATLAB取整与深度学习：探索取整函数在深度学习中的妙用

最新资源