没有合适的资源?快使用搜索试试~ 我知道了~
5918通过半波高斯量化实现低精度深度学习蔡兆伟加州大学圣地亚哥分校zwcai@ucsd.edu何晓东微软研究院xiaohe@microsoft.comJian SunMegvii Inc.sunjian@megvii.comNunoVasconcelos UC圣地亚哥nuno@ucsd.edu摘要研究了深层神经网络激活的量化问题检查流行的二进制量化方法表明,这包括通过两个函数来近似经典的非线性,双曲正切:在前馈网络计算中使用的分段常数函数,以及在网络学习期间的反向传播步骤中使用的分段线性硬双曲正切函数的问题然后考虑近似广泛使用的ReLU非线性。本文提出了一种半波高斯量化器(HWGQ)用于前向近似,并通过利用网络激活和批归一化操作的统计特性,证明了它的有效实现为了克服梯度失配的问题,由于使用不同的前向和后向近似,几个分段向后逼近器,然后研究。所得到的量化网络的实现,被称为HWGQ-Net,被 示 出 为 实 现 更 接 近 全 精 度 网 络 的 性 能 , 例 如AlexNet,ResNet,GoogLeNet和VGG-Net,而不是以前可用的低精度网络,具有1位二进制权重和2位量化激活。1. 介绍深度神经网络已经在计算机视觉问题上取得了最先进的性能,例如分类[21,33,34,11,12],检测[7,31,1]等。然而,它们的复杂性阻碍了在现实世界感兴趣的许多应用中的广泛部署,其中内存或计算资源有 限 。 这 是 由 于 两 个 主 要 问 题 : 大 型 模 型 大 小( GoogLeNet 为 50 MB [34] , ResNet-101 为 200 M[12] , AlexNet 为 250 MB [21] , VGG-Net 为 500 M[33])和大型计算成本,通常需要基于GPU的实现。这引起了人们对具有较小内存占用和计算的压缩模型的兴趣。一些工作已经解决了模型大小的减少,通过使用量化[3,26,24],低秩矩阵分解[18,6],修剪[10,9],架构设计[25,16]等。最近,已经表明,通过量化的权重压缩可以实现非常大的分类节省,将每个权重减少到1位,在分类精度的边际成本[3,26]。然而,它在计算维度上的效率较低,因为由其每个单元实现的核心网络操作是权重和激活向量之间的点积。用量化激活补充二进制或量化权重将使得能够通过逻辑和位计数操作来替换因此,如果除了权重之外,每个单元的输入都被二进制化或量化为低位,则应该可以大幅加速。然而,激活的量化比权重的量化更困难。例如,[4,30]已经表明,虽然可以在模型准确性方面以边际成本对权重进行二进制化,但激活的额外量化会导致大规模分类的非平凡损失,例如ImageNet [32]。困难在于,激活的二进制化或量化需要用不可微算子对其进行处理,这会给反向传播算法带来问题。 这在计算网络输出的前馈步骤和计算学习所需梯度的反向传播步骤之间迭代。困难在于二值化或量化算子具有逐步响应,在反向传播期间产生非常弱的梯度信号,从而损害学习效率。到目前为止,这个问题已经通过使用前馈步骤中使用的算子的连续近似来实现反向传播步骤来解决。然而,这在实现正向计算的模型和用于学习它的导数之间产生了不匹配,从而导致次优模型。在这项工作中,我们认为,在前馈步骤中使用的量化算子,和连续逼近,在反向传播步骤中使用的,作为两个函数,近似每个网络单元的激活函数。我们把这些称为激活函数的向前和向后近似。我们先考虑一下-使用[4,30]中使用的二进制±1量化器,其中5919这两个函数可以被看作是在经典神经网络中经常使用的非线性激活函数双曲正切的离散和连续近似。然而,这种激活在最近的深度学习文献中并不常用,其中ReLU非线性[28,36,11]已经取得了更大的优势。这正是因为它产生更强的梯度幅度。虽然双曲正切或S形非线性是挤压非线性并且大部分是平坦的,但ReLU是半波整流器,对正输入具有线性响应。因此,虽然双曲正切的导数几乎在任何地方都接近于零,但ReLU沿着轴的整个正范围具有单位导数为了提高量化网络的学习效率,我们考虑了ReLU的前向和后向近似函数的设计为了离散其线性分量,我们建议使用最佳量化器。通过利用文学中常用的网络激活和批量归一化操作的统计数据,我们证明了这可以用半波高斯量化器(HWGQ)来完成,该量化器不需要学习,并且计算效率非常虽然最近的一些作品尝试了类似的想法[4,30],但他们的量化器设计不足以保证良好的深度学习性能。我们解决这个问题,通过补充这个设计与适当的向后近似函数,占前向模型和反向传播的衍生物之间的不匹配的研究。本研究建议的操作,如线性化,梯度裁剪或梯度抑制的向后逼近的实施我们表明,前向HWGQ与这些后向操作的组合产生了非常有效的低精度网络,表示为HWGQ-Net,与文献中其他可用的低精度网络相比,其性能更接近连续模型,如AlexNet [21],ResNet [12],GoogLeNet[34]和VGG-Net [33]据我们所知,这是第一次一个低精度算法可以在如此多的流行网络中取得使用[30]的参数理论上可节省1032×内存和1032×卷积计算。这表明HWGQ-Net对于在现实世界的应用中部署最先进的神经网络非常有用2. 相关工作减少模型大小是深度学习文献中的一个流行目标一种策略是利用众所周知的神经网络权重冗余[5]。例如,[6,18]提出了低秩矩阵分解作为将大权重矩阵分解为几个可分离的小矩阵的方法。另一种方法,称为连接修剪[10,9],包括删除不重要的预训练模型和再训练的连接,显示出相当大的模型减少,而没有可补偿的准确性损失。另一种模型压缩策略是约束模型架构本身,例如:通过去除完全连接的层、使用小尺寸的卷积滤波器等。许多最先进的深度网络,如NIN [25],GoogLeNet [34]和ResNet [12],都依赖于这样的设计选择。 例如,SqueezeNet [16]已被证明可以实现了1000倍的参数减少,精度与AlexNet相当。 此外,哈希函数也被用来压缩模型大小[2]。模型压缩方法的另一个分支是权重二值化[3,30,4]或量化[26,24,8]。[35]使用固定点表示来确定预训练神经网络的权重[8]表明,矢量量化能够以最小的精度损失实现4 × 8倍压缩。 [24]提出了一种定点量化的方法。基于跨网络层的最优位宽分配的量化。[22,26]已经表明,即使在大规模分类任务中,三进制权重量化为级别{-1,0,1}也可以实现16倍或32倍的模型压缩,具有轻微的精度损失最后,[3]表明滤波器权重可以量化为±1,而不会明显损失CIFAR-10的分类精度[20]。由于激活的量化能够进一步加速并降低训练记忆要求,因此它受到了极大的关注[35,24,4,30,37,23,26]。[35,24]在网络训练后进行量化,避免了不可微优化的问题。最近,[4,30,37]试图通过在反向传播步骤中使用对量化器函数的连续近似来解决不可微[23]对梯度失配的问题提出了几种可能的解决方案,并且[26,37]表明在反向传播步骤期间可以用少量比特来量化梯度。虽然其中一些方法在CIFAR-10上产生了良好的结果,但在大规模分类任务中,没有一种方法产生了与全精度模型竞争的低精度网络,例如ImageNet [32]。3. 二进制网络我们首先简要回顾一下深度网络二值化所涉及的问题3.1. 目标深度神经网络由几层单元组成,这些单元大致模拟了哺乳动物大脑中神经元的计算。每个单元计算激活函数=(wx),(1)其中w∈ N··N是权向量,x∈N··N是向量,d(·)是非线性函数。一个共同的解决方案5920{˜˜ℎ13.3. 二进制激活量化在[30,4,37]中建议使用二进制激活。它通常通过用非线性代替(1)中的()来=()=+1,如果≥0,-1,否则(三)图1.二进制(左)和半波高斯量化(右)激活的前向和后向函数。网络实现了这些单元的层,其中权重通常表示为传感器W∈N× ×N。尺寸和宽度分别由滤波器通道的数量、宽度和高度由于现代网-作品中这些单元的数量非常多,(1)的结构是整个模型复杂性的主要因素。这种复杂性可能是二维应用程序的问题。第一个是存储权重w所需的大内存占用.第二个是计算机--如图1所示。这给用于学习神经网络的反向传播算法带来了困难,通过最小化关于权重W的成本。考虑(1)的单位。关于W的导数是=(四)∂W ∂当n()由dy(3)代替时,在ive′(Wx)处的阶i v几乎处处为零,并且梯度幅度趋于非常小。结果,梯度下降算法不会收敛到成本的最小值 为了克服这个问题,[4]提出在反向传播步骤中使用一个替代函数,硬tanh,我们表示为。 该函数如图1所示,具有导数计算大量点积wx所需的计算复杂度。这两种困难都因′()=1,如果λ ≤1(5)0,否则。浮点数存储的要求和浮点数-使用点运算来计算点积,这对于许多应用来说是不实用的这激发了人们对低精度网络的兴趣[4,30,37]。3.2. 权重二值化我们在这项工作中采用的卷积滤波器的权重W二值化的有效策略已经由[30]提出。这包括通过二进制矩阵的乘积来近似全精度权重矩阵W,该全精度权重矩阵W用于为所有单元计算(1)的激活B∈{+1,-1}××∈ B,并称f为r∈B+,使得W∈B.然后,对输入I的卷积运算可以近似为:IW(IB),(2)其中,n表示无乘法卷积。 [30]已经表明,最佳近似可以实现B=(W)和d=1<$W。虽然二进制权重极大地减少了模型的内存占用但是它们没有完全解决计算复杂性的问题。通过I的二进制化可以进一步降低复杂性,这使得(2)中的点积能够用逻辑和位计数操作来实现[4,30]。在这项工作中,我们将(3)表示为激活非线性的前向近似,(5)表示为后向近似()(1)。这些近似有两个主要问题。第一个是它们近似于双曲正切(tanh),这是一种压缩非线性。压缩非线性(如双曲正切或S形)的饱和行为强调了导数消失的问题,损害了反向传播的有效性。第二,前向和后向对()的近似之间的差异在前馈模型和用来学习它的导数之间产生失配。结果,反向传播-可能是非常不理想的。这被称为4. 半波高斯量化在本节中,我们提出了一种替代量化策略,即ReLU非线性的近似。4.1. ReLU[28]是一种半波整流器,由[28]定义()= max(0,).(六)现在公知的是,当与压制非线性相比时,其在(1)中的使用显著提高了反向传播算法的效率。 这样看来前进标志1-1后硬坦1-11-1前向HWGQQ2QT1反向ReLU{5921˜{∫5样本池1,平均值=−0.02,标准差=0.971098765432143.532.521.510.55样本池2,平均值=0.00,标准差=0.9743.532.521.510.55conv3,平均值=0.01,标准差=0.9832.521.510.55conv4,平均值=0.01,标准差=0.9843.532.521.510.54样本池5,平均值=−0.00,标准差=1.002.521.510.54conv6,平均值=0.01,标准差=1.000−8−6−4−2024680−8−6−4−2024680−8−6−4−2024680−8−6−4−2024680−8−6−4−2024680−8−6−4−202468图2.AlexNet不同层上的点积分布,具有二进制权重和量化激活(100个随机图像)。与上一节相比,依赖ReLU近似进行网络量化更明智我们提出了一个量化器(),以近似(6)在前馈步骤以及用于反向传播步骤的合适的分段线性近似()4.2. 前向近似量化器是分段常数函数()=,∈(,+1],(7),其映射量化区间网络单元,并且该量化器随着反向传播迭代而改变,所以该过程的直接应用在计算上是难以处理的。这个困难可以通过利用深层网络激活的统计结构来避免。例如,[15,17]已经注意到(1)的点积倾向于具有对称的非稀疏分布,即接近高斯分布。考虑到ReLU是半波整流器的事实,这建议使用半波高斯量化器(HWGQ),(,+1]intoaquantizationnl eve l∈N,f o r=1,· · ·,.通常,1=-∞且d+1=∞。这概括了函数,它可以被看作是一个1位量化器。一量化器表示为均匀的,如果()=,if∈(,+1],0,≤0,(十)+1-=,,(8)其中,k是恒定的量化步长。在降低精度的约束下,量化水平充当的重构值由于对于任何情况,存储(7)的量化索引以恢复量化水平就足够了,因此非均匀量化每次激活需要log2比特的存储。然而,在算术运算中需要多于log2位来表示,因为这些使用的不是ti和x。对于统一的模型,其中它是一个通用的比例因子,可以放在证据中,log2位就足够用于存储和算术计算。最佳量化器通常在均方误差意义上定义,即,()= arg min [(()-)2](9)哪里 ∈+for= 1,···,且 ∈+for=1,· · ·, + 1(1=0和d+1=∞)是用于高斯分布的最佳的HWGQ的采用保证了这些参数仅取决于点积分布的均值和方差。然而,由于这些可以在单元之间变化,因此它并不消除在网络上重复应用劳埃德算法的需要这个问题可以通过采用批量归一化来缓解[17]。这是一种广泛使用的归一化技术,它迫使每个网络层的响应具有零均值和单位方差。我们将这种归一化应用于点积,结果如图2所示,针对不同层的许多AlexNet单元。尽管这些分布不是完美的高斯分布,并且它们之间存在微小的差异,但它们都接近于具有零均值和单位方差的高斯分布。它遵循最佳量化参数s和 d分别约为= arg min()(()-)2其中()是的概率密度函数。因此,(1)的点积的最佳量化器取决于它们的统计。虽然(9)的最优解通常是 非 均 匀 的 , 但 通 过 将 ( 8 ) 的 均 匀 约 束 添 加 到(9),可以获得均匀解给定点产品样本,可以获得(9)的最优解在单元、层和反向传播迭代因此,Lloyd事实上,因为所有的分布都近似为零均值和单位方差的高斯分布,所以量化器甚至可以从这种分布的样本中设计出来。在我们的实现中,我们从零均值和单位方差的标准高斯分布中抽取了106个样本,并获得了最佳量化参数。由Lloyd算法得到的。选择参数sLloyd's algorithm(劳埃德算法)然而,这是一个迭代算法。由于必须针对每个量化器设计不同的量化器,∗并用于参数化单个HWGQ,在点产品的批量归一化之后,在所有层中使用X 10X 10X 10X 10X 10X 105922˜˜⎧⎨⎩4.3. 后向近似由于HWGQ是一个逐步常数函数,它几乎到处都是零导数。因此,(4)中()对()的逼近导致导数消失的问题与第3节一样,分段线性函数()可以在反向传播步骤中使用,以避免弱收敛。总之,我们寻求一个分段函数,它提供了一个很好的近似ReLU,HWGQ。我们接下来考虑三种可能性。4.3.1香草ReLU由于(6)的ReLU已经是一个分段线性函数,因此使用ReLU本身(表示为vanilla ReLU)作为向后近似函数似乎是明智的。这相当于使用导数{1,如果>0,′剪切ReLUQ2Q2对数尾ReLUQ2Q2图3. 剪切ReLU和对数尾ReLU的向后分段激活函数。在(4)中用它来逼近′(Wx)保证了尾部没有失配.仅对于interval(0,]中的点积,导数是非零的。如图3所示,裁剪后的ReLU与HWGQ更匹配比普通的ReLU更好在我们的实验中,ReLU裁剪被证明对于保证稳定的优化非常有用。这与之前的观察结果类似,即梯度裁剪增强了非常深度网络的学习[29]。()=0,否则(11)4.3.3对数尾ReLU在(4)中。ReLU的前向和后向近似()和()如图1所示。请注意,虽然向后近似是精确的,但它不等于向前逼近。因此,存在梯度失配。 对于> 0,ReLU对()的近似是错误的()-ε。 对于r ∈(,+1 ],它有上界dy(+1-),但当n∈(,∞)时,它不无界.因此,失配对于大的.由于这些是分布尾部的值,所以ReLU被认为与()“在尾部有很大的不匹配。“当在(4)中使用d来近似e ′()时,它可以产生非常不准确的梯度,点产品根据我们的经验,这可能会使学习算法不稳定。理想情况下,随着量化级别的增加,具有量化激活的网络应该接近全精度网络的性能。香草ReLU近似对离群值的敏感性限制了低精度网络的性能。当被剪掉的ReLU解决了这个问题,它可能会由于裁剪区间(,∞)中的信息丢失而损害网络性能。中间解决方案是在中间值中使用其增长率在限幅ReLU(零导数)和ReLU(单位导数)的增长率之间的函数。tive)。一种可能性是强制对数增长的尾巴,根据10g(-),>,这是鲁棒估计文献中的一个经典问题,其中离群值会过度影响学习算法的性能[14]。对于量化,其中()假设你的价值已经很低了,()=Where=,∈(0,],(13)0,≤0,-一个这被表示为对数尾ReLU,事实上,大的点积是有效的离群值。离群值缓解的经典策略是限制错误函数,在本例中为()-。因此,问题-如图3所示。它有衍生物"1/(-),>,lem是d上ReLUe的单调y=. 到()=1,∈(0,],0,≤ 0。(十四)解决它,我们研究替代向后近似-增长速度较慢的功能4.3.2剪切ReLU第一个近似,表示为裁剪ReLU,是相同的,直到最后一个ReLUin(-∞,],但在远处是恒定的=,则当在(4)中使用d来近似e′()时,对于小于,但将权重减小到比这更大的幅度。 它的行为就像香草ReLU(单位导数),当增长到无穷大时,0≤but的导数为零5. 实验结果()=,>,,∈(0,],000,否则。(十二)在ImageNet(ILSVRC 2012)[32]上评估了所提出的HWGQ-Net,ImageNet具有1.2M的训练图像5923˜˜˜˜˜˜表1.AlexNet的全精度激活比较充分公司简介公司简介体重+体重体重+体重Top-1Top-555.779.346.771.055.779.343.968.353.977.3表2.低位激活比较。模型充分BWFW+BW+BW+AlexNetTop-1Top-555.779.352.475.949.573.739.563.646.871.0ResNet-18Top-1Top-566.387.561.383.637.561.942.167.133.056.9VGG变体Top-1Top-568.688.965.586.548.372.350.174.344.168.710090807060504030AlexNetBW+符号BW+Q0 2 4 6 8 10 12 1416迭代(1e4)从1000个类别和50000个验证图像中。评价指标为前1和前5分类准确度。测试了几个流行的网络:AlexNet[21] , ResNet [12] , VGG-Net 的 变 体 [33 , 11] 和GoogLeNet [34]。我们的实现使用Caffe [19],请参阅https://github.com/zhaoweicai/hwgq上的源代码。5.1. 实现细节在 所 有 实 验 中 , 训 练 图 像 的 大 小 都 被 调 整 为256×256,并从图像或其水平翻转中随机抽取224×224(AlexNet为在每个quan之前应用批次归一化[17]如第4.2节中所讨论的那样。对于具有二进制权重和完全激活的网络,dropout [13]的比率设置为0.1,但对于具有量化激活的网络,没有dropout。所有网络都是从SGD从头开始学习的除标准随机图像翻转和裁剪外,未使用数据增强。二值化权重未与[30]一样,具有量化激活的网络在批量归一化之前使用最大池化。 这被表示为“层重新排序”。 如在[30,37],第一个和最后一个网络层具有完全精度。评价仅基于中心224×224作物。在AlexNet [21]实验中,小批量大小为256 , 权 重 衰 减 0.0005 , 学 习 率 从 0.01 开 始 对 于ResNet,我们使用[12]的参数。对于VGG-Net的变体,表示为VGG-Variant,[11]中模型A的较小版本,仅使用3个卷积层用于输入大小为56,28和14,并且删除了“spp”层。小批量大小为128,学习率从0.01开始。 对于GoogLeNet [34],侧边在初始层中,最大池化被移除,并且“减少”1×1卷积层的信道数量增加到其随后的3×3和5×5卷积层的信道数量。权重衰减为0.0002,学习策略类似于ResNet [12]。对于所有测试的网络,动量为0.9,当小批量大小为256(128)时,每50K(100K)次迭代后,学习率在以下消融研究中仅探索了AlexNet、ResNet-18和VGG-变体在所有的表和图-图4.训练(薄)和测试(厚)的误差曲线()和()(HWGQ)激活函数。“FW5.2. 全精度激活比较在考虑前向量化函数s()和d()的性能之前,我们比较了continuou()(hardtanh)和()(ReLU)作为激活函数。在这种情况下,不存在激活量化,也不存在前向/后向梯度错误。匹配. AlexNet结果在表1中呈现,使用用于()和()的相同设置,用于比较。正如从第3节和第4节的讨论中所预期的,()对于FW和BW网络都实现了比()更好的性能 事实上,这些结果-当量化包括时可实现的性能表明t()不是量化函数的好选择另一方面,()有一个相当合理的上限。5.3. 低位激活量化结果接下来,我们比较了在上一节的设置中添加和HWGQ()(向后普通ReLU)量化器所实现的性能。AlexNet、ResNet-18和VGG-Variant的结果总结在表2中。请注意,首先,由于第5.1节中引入的层重新排序[30]的影响,BW的性能比表1中AlexNet的BW+弱。接下来,将BW与FW+进行比较,前者仅对权重进行二进制化而后者仅量化激活,可以看出,加权二值化导致精度的轻微降低这与[30,4]的结果一致。另一方面,激活量子化导致非平凡的损失。这证实了后者是一个更困难的问题。当权重二值化和激活量化相结合时,识别性能进一步下降。对于AlexNet,BW+(向后硬双曲正切)的下降幅度要比BW+(向后-前1位误差5924香草木尾夹香草木尾夹前1位误差(%)前1位误差(%)100AlexNet100ResNet−18100VGG−变体9090 908080 807070 706060 60504050 503040 4020300 2 4 6 8 10 12 14 16迭代(1e4)300 2 4 6 8 10 12 14 16迭代(1e4)100 5 10 15 20 25 30 35迭代(1e4)图5.训练(瘦)和测试(厚)的误差曲线,用于替代向后近似。表3.向后近似比较。模型BW无选择香草夹对数尾的AlexNetTop-1Top-552.475.930.053.646.871.048.672.849.073.1ResNet-18Top-1Top-561.383.634.259.633.056.954.578.553.577.7VGG变体Top-1Top-565.586.542.868.344.168.760.983.260.682.9ward vanilla ReLU)。这些结果支持第3节和第4节的假设,以及表1的结果。BW+和BW+在AlexNet上的训练误差如图4所示。 注意,(),这表明它能够实现比()更好的完全精确动作的近似。 然而,由于使用()作为向前近似和使用香草ReLU作为向后近似,导致梯度不匹配。tors使优化有些不稳定。例如,BW+的误差曲线在训练期间是颠簸的。这个问题在更深层次的网络中变得更加严重。事实上,对于ResNet-18和VGG-变体,BW+的性能比BW+差这可以通过以下事实来解释:与vanilla ReLU相比,具有更小的梯度不匹配问题。实质性的改进是可以通过校正前向量化器()和其后向近似器之间的失配来实现。5.4. 向后近似比较接下来我们考虑4.3节中向后近似的影响。表3显示了不同近似值下的性能在所有情况下,权重被二进制化,并且HWGQ被用作前向近似器(量化器)。“no-opt”是指预训练BW网络的激活的量化。这不需要不可微的近似,但不能考虑量化误差。我们试图通过重新计算所有批次归一化层的均值和方差来最大限度地减少网络中累积误差即使在此之后,通过训练活动获得了实质性的收益表4.激活量化的位宽比较量化类型非均匀均匀没有一#水平23715∗3∗7BWAlexNetTop-1Top-548.672.850.674.352.475.852.676.250.574.651.975.752.475.9ResNet-18Top-1Top-554.578.557.681.060.382.860.883.456.179.759.682.461.383.6从头开始量化网络。虽然vanilla ReLU作为AlexNet的向后近似具有合理的性能,但使用(12)的裁剪ReLU和(13)的对数尾ReLU实现了更好的结果。图5显示,对于所有网络,vanilla ReLU的较大梯度失配在优化中造成了不稳定性。然而,这些不稳定性对于更深的网络(如ResNet-18和VGG- Variant)更为严重。这解释了这些网络的vanilla ReLU性能的急剧下降,如表3所示。请注意,在图5中,裁剪ReLU和对数尾ReLU实现了更稳定的学习,并为所有网络达到了更好的最佳效果。其中,对数尾ReLU的性能略优于裁剪ReLU在AlexNet上,但在ResNet-18和VGG-变体上稍差。为了保持一致,5.5. 位宽影响下一组实验研究了激活量化的位宽影响在所有情况下,重量均被二进制化。表4总结了AlexNet和ResNet-18的性能与定量水平数量的函数关系。虽然前者随着后者而改善,但存在饱和效应。默认的HWGQ配置,也用于所有先前的实验中,由两个非均匀的正量化水平 加 上“0” 组 成 这 在 表中 被 取 消 标 注 为“2”。 对 于AlexNet来说,这种非常低的比特量化足以实现接近全精度激活的识别率。对于该网络,具有七个非均匀级别的量化足以再现全精度激活的性能然而,对于ResNet-18,有一个更明显的差距-香草截尾前1位误差(%)5925表5.HWGQ实现各种流行的网络。模型参考充分HWGQAlexNetTop-1Top-557.180.258.581.552.776.3ResNet-18Top-1Top-569.689.267.387.959.682.2ResNet-34Top-1Top-573.391.369.489.164.385.7ResNet-50Top-1Top-576.093.071.590.564.685.9VGG变体Top-1Top-5--69.889.364.185.6GoogLeNetTop-1Top-568.788.971.490.563.084.9低位和全精度激活之间。这些结果表明,增加量化级别的数量对ResNet-18比AlexNet更有利。表4还示出了用均匀量化获得的结果,上标为“0 "。有趣的是,对于相同数量的量化级别,均匀量化器的性能仅略差于其非均匀对应物。然而,这不是一个COM-因为如4.2节中所讨论的,非均匀量化需要更多的比特用于算术运算,所以这是完全公平的比较。对于相同的位宽,例如“2”和“3“都需要2比特表示用于算术计算,均匀量化器明显优于非均匀量化器。5.6. 与最新技术水平的表5-1在所有情况下,HWGQ-Net使用1位二进制权重,2位均匀HWGQ作为前向近似器,并且裁剪的ReLU作为后向近似器。与以前的消融实验相比,训练迭代次数增加了一倍,并对HWGQ- Net使用多项式学习率退火(1的幂)。表5显示,HWGQ-Net很好地近似了所有流行的网络,与它们的复杂性无关,深入从全精度到低精度的前1个精度下降对于所有网络都是相似的(5 - 19点),这表明随着更好的全精度网络的出现,低精度HWGQ-Net将实现更好的性能。从头开始训练具有二进制权重和低精度激活的网络是一个新的和令人困惑的问题,只有少数以前的作品解决了[4,30,37]。表6比较了HWGQ-Net与最近的XNOR-Net [30]和DOREFA-Net [37]在ImageNet分类任务上的情况。 DOREFA-Net结果适用于二进制权重、2位激活、全精度模型1科视参考性能的AlexNet和GoogLeNet在https://github.com/BVLC/caffe,ResNet在https://github.com/facebook/fb.resnet.torch。我们更差的ResNet实现可能是由于更少的训练迭代和没有进一步的数据增强。表6. 与最先进的低精度方法进行比较。还报告了与相应的全精度网的顶1间隙。模型AlexNetResNet-18XNORDOREFAHWGQXNORHWGQTop-1Top-544.269.247.7-52.776.351.273.259.682.2顶-1间隙-12.4-8.2-5.8-18.1-7.7梯度,没有预训练。对于AlexNet,HWGQ-Net的表现远 远 优 于 XNOR-Net 和 DOREFA-Net 。 对 于 ResNet-18,观察到XNOR-Net的类似改进,其中DOREFA-Net结果不可用。值得注意的是,全精度网络和HWGQ-Net(-5.8对于AlexNet和-7.7 对于ResNet-18)比XNOR-Net(AlexNet为-12.4和ResNet-18为-18.1)和DOREFA-Net(AlexNet为-8.2)小得多。这有力地证明了HWGQ是一种更好的激活量化器。请注意,与[4,30,37]使用一个或两个网络的实验相反,HWGQ-Net显示出在各种网络架构中表现良好。据我们所知,这是第一次证明一个低精度网络可以成功地逼近许多流行的网络。6. 结论在这项工作中,我们考虑了以低精度训练高性能深度网络的问题这是通过为ReLU非线性设计两个近似器来实现的:前馈计算中的半波高斯量化器,以及反向传播步骤中的分段连续函数。 这种设计克服了流行的二进制量化过程的学习效率低。为了最大限度地减少梯度错误的问题匹配,我们已经研究了几个向后近似函数,包括裁剪ReLU和对数尾ReLU近似器。对于各种最先进的网络,所提出的网络(表示为HWGQ-Net)在深度学习方面的表现明显优于以前的努力,精度较低这些有希望的结果表明,HWGQ-Net对于在现实世界中部署最先进的神经网络非常有用致 谢 这 项 工 作 部 分 由 NSF 资 助 IIS1208522 和IIS1637941。我们也感谢英伟达通过其学术计划捐赠GPU。引用[1] Z.蔡角,澳-地范河,巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络ECCV,第354-370页,2016年。15926[2] W.陈建堂<英>来华传教士。,1939--人威尔逊,S。Tyree,K. Q. 温伯格,以及Y.尘用散列技巧压缩神经网络。在ICML,第2285-2294页,2015中。2[3] M. Courbariaux,Y. Bengio和J.大卫Binaryconnect:在传播过 程中 使用 二进 制权 重训练 深度 神经 网络 。在NIPS,第3123-3131页,2015年。一、二[4] M.库尔巴里奥岛Hubara,D.苏德里河El-Yaniv,以及Y.本吉奥。二进制神经网络:训练神经网络-使用权重和激活约束为+1或-1。CoRR,abs/1602.02830,2016。一二三六八[5] M.德尼尔湾沙基比湖Dinh,M. Ranzato和N.德弗雷塔斯。深度学习中的参数预测。NIPS,第2148-2156页,2013年。2[6] E. L. Denton,W. Zaremba,J. Bruna,Y. LeCun和R.费格斯。利用卷积网络中的线性结构进行有效评估。NIPS,第1269-1277页,2014年一、二[7] R. B.娘娘腔。快速R-CNN。在ICCV,第1440-1448页1[8] Y.贡湖,澳-地Liu,M. Yang和L. D.布尔德夫使用矢量量化压缩深度卷积网络。CoRR,abs/1412.6115,2014年。2[9] S.汉,H. Mao和W. J·达利深度压缩:使用修剪、训练量化 和 霍 夫 曼 编 码 压 缩 深 度 神 经 网 络 。 CoRR ,abs/1510.00149,2015年。一、二[10] S. Han,J. Pool,J. Tran和W. J·达利学习权值和连接以实现高效的神经网络。在NIPS,第1135-1143页,2015年。一、二[11] K.他,X。Zhang,S. Ren和J. Sun.深入研究整流器:在imagenet分类上超越人类水平的性能在ICCV,第1026-1034页,2015中。一、二、六[12] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。一、二、六[13] G. E. 辛顿,N.斯里瓦斯塔瓦A.克里热夫斯基岛Sutskever和R. 萨 拉 赫季 诺 夫 通过 防 止 特征 检 测 器 的自 适 应 来CoRR,abs/1207.0580,2012。6[14] P. J. Huber等人位置参数的鲁棒估计。数学统计年鉴,35(1):73-101,1964年。5[15] A. HyvaérinenandE. 奥佳独立元件分析:演算法与应用。神经网络,13(4-5):4114[16] F. N. Iandola,M. W.莫斯基维茨K.阿什拉夫S.汉,W。J.达利和K.库茨Squeezenet:Alexnet级别的精度,参数减少50倍,模型大小为1mb。CoRR,abs/1602.07360,2016。一、二[17] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页,2015中。四、六[18] M. Jaderberg,A. Vedaldi和A.齐瑟曼。加速具有低秩扩展的卷积神经网络。InBMVC,2014. 一、二[19] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地 B. Girshick , S. Guadarrama 和 T. 达 雷 尔 。 Caffe :Convolu用于快速特征嵌入的标准架构。在MM中,第6756[20] A.克里热夫斯基从微小的图像中学习多层特征。2009. 2[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS中,第1106-1114页,2012年。一、二、六[22] F. Li和B.刘某三重网络CoRR,abs/1605.04711,2016。2[23] D. D. Lin和S. S.塔拉希克服深度卷积网络定点训练中的挑战。CoRR,abs/1607.02241,2016。二、三[24] D. D. Lin,S. S. Talathi和V. S.安娜普瑞迪深度卷积网络的定点量化在ICML,第2849-2858页一、二[25] M.林角,澳-地Chen和S.燕.网络中的网络。CoRR,abs/1312.4400,2013。一、二[26] Z.林,M。库尔巴里奥河 Memisevic和Y. 本吉欧。具有少量乘法的神经网络。CoRR,abs/1510.03009,2015年。一、二[27] S. P. 劳埃德PCM中的最小二乘量化 IEEE Trans.Information Theory,28(2):129-136,1982. 4[28] V. Nair和G. E.辛顿校正线性单元改善受限玻尔兹曼机。在ICML,第807-814页二、三[29] R. Pascanu,T. Mikolov和Y.本吉奥。关于训练递归神经网络的困难。在ICML,第1310- 1318页5[30] M. 拉斯泰加里河谷Ordonez,J.Redmon和A.法哈迪
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功