ReCU：恢复二进制神经网络中的死权重

64 浏览量更新于2023-10-13 收藏 605KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5198××ReCU：恢复二进制神经网络中的死权重徐子涵1，明宝林1， Jianzhuang Liu3，陈杰4、5凌少6、高跃7、田永红4、5、季荣荣1、2、5*1厦门大学信息学院MAC实验室2厦门大学人工智能研究所3诺亚4北京大学电子与计算机工程学院5鹏程实验室6先启人工智能研究院7清华大学BNRist清华大学软件学院摘要二进制神经网络（BNN）由于其优越的计算和存储能力而受到越来越多的关注。大多数现有的工作集中在通过最小化全精度权重与其二值化之间的间隙来减少量化误差，或者wrWB（一）（b）第（1）款设计梯度近似以减轻梯度失配，同时保持这导致训练BNN时收敛缓慢在本文中，我们第一次探讨了“死权重”的影响我们证明了通过ReCU恢复“死权重”可以导致更小的量化误差。此外，我们还考虑到信息熵的权重，然后数学分析为什么权重标准化可以受益BNN。我们证明了最小化量化误差和最大化信息熵之间的内在矛盾，然后提出了一种自适应指数调度器来识别“死权重 ” 的范围。通过考虑代码可以在https://github.com/z-hXu/ReCU上获得。1. 介绍深度神经网络（DNN）已经取得了巨大的成功，并推进了许多视觉任务[29，44，16，47]。然而，这是以大量内存为代价的*通讯作者：rrji@xmu.edu.cn图1：量化误差（a）和梯度失配（b）。使用和计算负担，这对资源受限的尖端设备（诸如移动电话和嵌入式设备）提出了极大的挑战。社区已经提出了各种方法来解决这个问题。典型的技术包括，但不限于，有效的架构设计[20，25，40]，知识蒸馏，[24，27，45]，网络修剪[15，32，36]，和网络量化[53，54，50，1]。其中，通过将全精度参数和激活转换为低位形式，网络量化提供了一种有前途的解决方案，以产生DNN的轻型和高效版本[26，17，51，49]。在1位表示的极端情况下，二进制神经网络（BNN）将权重和激活限制为仅两个可能的值，即、-1和+1。与原始网络相比，BNN在使用有效的XNOR和位计数操作将模型复杂度降低约32个参数压缩和58个加速方面显示出压倒性的优势[8]。尽管BNN在节省内存和减少计算方面具有优势，但与其实值对应物[43，13，12]相比，它们的准确性急剧下降，这极大地限制了实际部署。性能下降的主要原因有两个：前向传播中的大量化误差和反向传播期间的梯度失配。f（x）X5199图2：“静重”的分布的两个尾部中的红色(Best颜色显示）具体地，量化误差指的是全精度权重向量与其二进制化[43，33]之间的残差，如图2所示第1（a）段。BNN的表示能力确实受限于单位正方形的顶点相比之下，全精度权重具有几乎无限的表示空间。当将实值权重映射到二进制空间中时，这样的表示间隙容易导致大的累积误差。为了解决这个问题，现有的方法试图通过引入缩放因子来减小范数差异[8，9]，或者设计旋转矩阵来对准角度偏差[33]来减少量化梯度失配来自于假设和实际梯度函数[ 31 ]之间的不一致，如图10的粉红色区域所示。第1段（b）分段。由于BNN的前向传播中的量化函数几乎处处具有零梯度，因此需要近似梯度函数以使网络能够更新。一个典型的例子是直通估计器（STE）[4]，然而，这会导致不准确的优化方向，从而损害网络训练的稳定性，特别是在低位宽[2，6]中。为了缓解这一点，已经提出了大量的作品，通常通过调整网络结构[38，37，11，7]或使用梯度函数逐渐接近零[17，49，33]。在本文中，我们提出了一个新的视角，以提高BNN的有效性和训练效率受[23]的启发，潜在权重（指反向传播期间使用的实值权重）在二值化DNN中起着重要作用我们探索了给定DNN的实值权重，发现落入分布的两个尾部的权重，如图所示。2，在BNN的训练过程中几乎没有更新。我们称之为为了解决这个问题，我们开发了一个整流钳位单元（ReCU），其目的是通过将它们移向分布峰值以增加更新这些权重的概率来恢复通过严格的分析，我们证明了应用ReCU后的量化误差在-我们不简单地最小化量化误差，而是考虑权重的信息熵来增加BNN的权重多样性。首次系统地分析了为什么权重标准化[41]可以提高BNN的性能，然后提出了广义权重标准化以进一步增加信息熵。结合信息熵和量化误差，揭示了最大化信息熵和最小化量化误差之间的我们对二值化网络进行了广泛的实验，包括CIFAR-10 [28]上的ResNet-18/20 [21]和VGG-small [51]，以及ImageNet [46]上的ResNet-18/34 [21实验结果表明，ReCU实现了最先进的性能，以及更快的训练收敛，即使使用简单的STE [4]作为我们的权重梯度近似。综上所述，本文的主要贡献如下• 我们探讨了“死权重”的影响，表明它们可以对BNN的优化产生不利影响。据我们所知，这是第一个工作，分析的• 我们引入整流钳位单元（ReCU）来恢复• 从数学上分析了权值标准化有助于提高BNN性能的原因，揭示了BNN中量化误差最小化与信息熵最大化之间的• 大量的实验表明，ReCU不仅比许多最先进的算法有更好的性能[14，41，33，53，17，50，43，11，48，38，18，19，10，34]，而且训练收敛速度更快2. 相关工作作为一项开创性的工作，Courbariauxet al. [13]使用符号函数对权重和激活进行二进制化。为了克服符号函数中几乎处处为零的梯度，他们将STE [4]视为一种近似，以使梯度能够反向传播。然而，BNN的代表性能力在二进制空间中是非常有限的，导致准确性的显着下降为了减轻BNN与其全精度对端之间的精度差距，XNOR-Net [43]引入了一个缩放因子，该因子通过权重或激活的l1XNOR-Net++[8]5200WAWA-≤- ≤⊗A{−}∈ W.（二）WWA.ΣRR一W将用于量化权重和激活的两个缩放因子融合到一个参数中，并使其可经由标准反向传播来学习。旋转二元神经网络-乘法然后，BNN中的量化误差被定义为工作（RBNN）[33]考虑了二值化权重向量及其QE=f（wr）wr−αsign（wr）2−∞dwr，（4）提出了一种基于双旋转矩阵的角度对准方法，减小了量化误差。其他工作提出通过设计新的梯度估计函数或设计量化友好的网络架构来提高BNN的性能。例如，[17，49，33]设计了一个连续的激活梯度，逐渐逼近符号函数，以取代传统的STE [4]。Qin等人[41]提出了误差衰减估计器，以最小化反向传播期间梯度的信息损失。ABC-Net [34]使用更多的二元基进行权重和激活，以增强模型性能。ReActNet [37]通过在MobileNetV 1 [25]之上添加无参数快捷方式构建了一个强大的基线，并实现了69.4%的top-1ac-其中f（wr）是w r的概率密度函数。为了训练BNN，前向卷积通过以下方式实现：使b和由等式（1）二进制化的b而实值r和r在反向传播期间被更新。然而，符号函数的梯度几乎处处为零值，这不适合于优化。相反，我们在本文中使用简单的STE [4]来计算损失w的近似梯度。r. t. wr∈Wr，Lwr=对于梯度w.r.t. 激活，我们认为分段多项式函数[38]如下关于ILSVRC-2012的策展Leng等人[30]模拟LBNN学习作为一个离散化约束的优化问题解决的ADMM优化器，以避免不可微的量化。在文献[50]中，提出了一种辅助概率矩阵来搜索离散量化的哪里ar=伊扎河、（6）权重，以可微分的方式实现。3. 背景F（ar）伊扎河2+2ar，如果1ar0，=2 2ar，如果0ar1，0，否则。（七）在本节中，我们简要回顾BNN的优化。给定DNN，为了便于表示，我们简单地将其每层实值权重表示为r，并且将输入表示为r。然后，卷积结果可以表示为Y=A W，（1）其中表示标准卷积。为了简单起见，本文省略了非线性运算。BNN的目的是二值化每个权重wr并且每个动作都是+1，1。根据XNOR-Net [43]，可以通过符号函数实现二值化关于，从现在开始，为了简单起见，我们去掉实值权重的上标4. 方法4.1. BNN中的死权重如[52，3]中所指出的，量化网络的潜在权重由于其在前向传播中的量化而大致遵循零均值拉普拉斯分布。根据图2、大多数权重聚集在分布峰值（原点）周围，而许多离群值落在两个尾部，远离峰值。xb= sign（xr）=+1，如果xr≥0，-1，否则。我们认为，这些离群值对BNN的训练产生不利影响，可能是BNN训练速度缓慢的潜在原因。为了减轻二进制化DNN时的大量化误差，XNOR-Net [43]进一步引入了两个用于权重的缩放因子b和激活B，分别。在本文中，根据[8]，我们将这两个比例因子简化为一个参数，表示为α。然后，二进制卷积运算可以公式化为：Y≈（Ab②Wb）∠α，（3）其中，②表示包括XNOR和POPCOUNT的逐位操作，并且∫ +∞5201在训练BNN时收敛。具体地说，在实值网络中，不同大小的权值对网络性能的贡献是不同的;换句话说，重要的是每个重量离原点有多远。然而，在BNN中，如果不同幅度的权重具有相同的符号，则它们之间没有太大的区别，因为无论它们的幅度如何，只有符号被保持在前向推理中。因此，从优化的角度来看，尽管在反向传播期间通过梯度下降来更新权重的幅度，但是改变它们的符号的机会是不相等的。5202−||∫ΣΣ2BB（τ）Q（1−τ）bexp（−b）dw+ 2Q（τ）（1−τ）f（w）w−αsign（w）exp（−B ）（w−α）2dw−∞直观上，分布峰值附近的权重符号容易改变，而尾部的异常值则相反，这极大地限制了BNN的代表能力，从而导致训练收敛缓慢出于这个原因，我们将这些离群值称为为了解决这个问题，在SEC。4.2，我们介绍了我们的rec- tified钳位单元，以恢复这些“死重量”，随着严格的证明，我们的钳位功能导致更小的量化误差。节中4.3，分析了权值标准化提高BNN性能的原因，揭示了权值量化误差最小化与权值信息熵最大化之间的内在矛盾。因此，在SEC。5、我们介绍1510QE（）500.5 0.6 0.7 0.8 0.9 1.0图3：应用ReCU之后的量化误差的可视化。可以看出，QE（τ）是τ的凸函数，并且在τ ≈ 0时达到最小值。82岁在将ReCU应用于w之后，w的广义概率密度函数可以写成如下自适应指数调度器，用于识别thef（w）=1exp（−|W|），如果|W| 0。82支持良好的性能，并揭示了最小化量化误差和最大化信息熵之间的矛盾总的来说，我们有以下不等式QE（τ）≤QE（1）= QE，0。82≤τ ≤ 1。（十五）也就是说，ReCU提供比ReCU更小的量化误差。0时的QE。82≤τ1。4.3. 权重的信息熵随机变量的信息熵是变量可能结果的不确定性的平均水平通常，越多样化，BNN的性能越好给定域上的概率密度函数p（x），信息熵定义为H（p）= E.− ln（p（x））Σ = −∫p（x）ln。p（x）≠dx. （16）因此，在应用后的信息熵为：ing ReCU可以通过以下方式计算：3.01.50.0-1.5-3.0图4：w.r.t. τ和b.白色虚线表示当b=e-1时信息熵的固定值。(Best颜色显示）例2：b e-1。H（f）是τ的单调递增函数。回想一下，b是通过等式中的绝对值的平均值来估计的（十一）、我们通过实验观察到，在b1、信息熵（ln 2）太小，无法实现良好的性能（参见第2节5.2.2）。因此，应导出较大的b以克服此问题。然而，在实际应用中，由于现代神经网络中广泛使用的lp-范数正则化，使得网络训练过程中权值逐渐稀疏，使得信息熵不可控，从而不可避免地带来多样性的损失。因此，有必要以可控的方式将b保持在相对高的值（情况3）以保持信息熵。以前的工作[41]通过集中和标准化信息熵来最大化信息熵每个前向传播中的权重如下H（f）=−Q（τ）−Q（τ）f（w）ln. f（w）W′= W −E（W）、（十八）- -一种|W|Σ=Qf（w）ln. f（w）Σσ（W）其中σ（·）表示标准偏差。在什么∫Q（τ）10W. 1周Σ但是，我们通过实验发现它是标准的-有助于性能改进的集中化而不是集中化原因来自于一个事实-2（1 −τ）ln（1 −τ）2=2（lnb+1）τ+ln−1，在大多数情况下，E（W）≈0[22，41]。这促使我们推广Eq。（18）通过简单地标准化权重Wb作为（十七）′=W，（19）K它是τ的函数，通过在等式中代入τb。（11）对于b. 为了便于下面的分析，我们将内部可视化。形成熵w.r.t. 改变图中b和τ的值。4.第一章然后，我们有情形1：b=e−1。在这种情况下，信息熵H（f）被固定为ln 2（图2中的白色虚线）。4）.1附录中提供了严格的证明其中K >0是给定常数。然后，标准化后的权重绝对值的平均值为01- 02 - 03张俊（|W′|）= b.（二十）很容易看出，由于拉普拉斯分布，σ（W）=√2b。因此，通过如[41]中那样设置K = σ（W），b′（τ）W=−5205W√）/（WWA±≈当量（18），我们设置b=2/2我们的分析成为b√2′ −1表1：ResNet-18w.r.t.CIFAR-100上的不同τb=102b=2> e，（21）这增加了信息熵，并解释了为什么除以标准差可以在训练BNN时产生更好的性能[41]。据我们所知，这是第一次提供数学解释。然而，根据图。4、信息熵随b的增大而增大。因此，我们进一步定义K=σ（W）/（2b），其中b是预定义的常数，并且标准化权重W’变为τ平均值±标准差（%）1.00 67.55 ±0.070.98 68.10 ±0.090.96 68.06 ±0.130.94 68.29 ±0.060.92 68.47±0.095.1. 执行τ平均值±标准差（%）0.90 68.18 ±0.090.85 67.39 ±0.260.82 66.50 ±0.150.80 63.56 ±0.260.78 59.09 ±0.20W′=σ（WW很容易看出2b）.（二十二）网络结构。在CIFAR-10上，我们使用ResNet-18/20[21]和VGG-Small [51]评估ReCU。按照比较的方法，我们对除第一层和最后一层之外的所有卷积层为b′=b。（二十三）该分析背后的创新在于，我们的标准化通过基于b>e−1的前提手动设置b，将不受控制的信息熵转换为可调节的信息熵，从而推广了等式的信息增益。[18][19][19]因此，通过使用Eq.在应用ReCU之前，可以在BNN的学习中增加信息熵。尽管如此，通过放大b而增加的信息仍然非常有限（见图11）。4）.相比之下，τ的增加导致更多的信息增益，当τ > 0时，量化误差意外增加。82、分析中四点二。因此，在BNN中存在最小化量化误差和最大化信息熵据我们所知，我们是第一个发现这个矛盾的节中5.2.1中，我们提出了一种指数调度器，用于沿着网络训练调整τ，以便在信息熵和量化误差之间寻求平衡。培训程序。给定具有其每层实值权重和输入的DNN，在前向传播中，我们首先使用等式（1）标准化并恢复“静权重”。（22）和Eq.（8）分别。然后，我们使用等式计算缩放因子α。并且使用等式（13）的符号函数将输入和恢复的权重二值化。（二）、最后，我们使用Eq.（3）前向传播。期间反向传播，我们导出梯度w.r.t. w和使用等式（5）和等式（6），并且使用随机梯度下降（SGD）描述在第2节中。第5.1条ResNet-18/20，我们采用[38]中提出的双跳过连接进行公平比较。在 ILSVRC-2012 上，我们选择二进制化 ResNet-18/34。在[5]之后，不量化下采样层。类似地，添加了双跳过连接[38]。培训详情。我们的网络是从头开始训练的，不依赖于预先训练的模型。对于所有实验，我们使用SGD进行优化，动量为0.9并且权重衰减被设置为5e-4。初始学习率为0.1，然后由余弦调度器调整[39]。我们遵循[21]中的数据增强策略，其中包括随机裁剪和水平翻转。5.2. 消融研究在本节中，我们讨论ReCU的超参数设置，包括b和τ。回想一下，b影响信息熵，而τ影响量化误差和信息熵两者。每个实验运行三次，并且我们报告ResNet-18（64-64-128-256）的平均top-1准确度（平均std）用于参数分析。5.2.1τ对ReCU的影响节中4.2中，我们证明了ReCU的量化误差是τ的凸函数，并且当τ 0时变得最小。82，而信息熵是τ的单调递增函数，如果b> e−1。因此，需要在量化误差和iΣnformationen t√ro py。为了达到这个目的，请跟随机翼[41]。5. 实验在本节中，我们在两个广泛采用的CIFAR-10 [28]和ILSVRC-2012 [46]数据集上评估ReCU，然后将其与几种最先进的方法进行比较[41，38，33，50，17]。我们首先考虑将τ设置为整体培训过程。如Tab.所示。1，当τ=0时。92，网络达到最佳性能。值得注意的是，当τ 0时，准确度显著下降<。82岁这是可以理解的，因为它遭受大的量化误差和小的信息熵。另一个观察结果是，ReCU在以下情况下不能获得最佳准确度：5206≤≤≤≤≤≤我表2：ResNet-18w.r.t.τ由我们的指数调度器在CIFAR-100上计算表3：ResNet-18w.r.t.CIFAR-100重量标准化的不同b值。“w/o” denotes binarization without ourτs/τe平均值±标准差（%）τs/τe平均值±标准差（%）0.80 / 1.0068.37 ±0.160.85 / 1.0068.55 ±0.110.90 / 1.0068.50 ±0.100.80 / 0.9968.44 ±0.150.85/ 0.9968.69± 0.130.90 / 0.9968.61 ±0.17b平均值±标准差（%）w/o 66.13 ±0.210的情况。2 68.10 ±0.172/268.69 ±0.131 68.82 ±0.11b平均值±标准差（%）2 69.02±0.073 68.98 ±0.104 68.80 ±0.155 68.48 ±0.13τ=0。82岁这是因为尽管量化误差在τ = 0时达到最小值。82如图所示3、小的信息熵不能支持好的性能。总之，当0。85τ1。00时，我们可以在量化误差和信息熵之间寻求平衡。尽管当使用固定的τ值时其性能良好，但我们发现ReCU在0时增加了性能的方差。85τ0 94同时保持稳定时0. 96τ1 .一、00，如图所示。1.一、为了解决这个问题，我们进一步提出了一个指数调度器，用于沿着网络训练调整τ我们的动机在于τ应该以落在[0]内的值开始。85，0。94]以追求良好的准确性，然后逐渐进入区间[0。96，1。00]以稳定性能的方差基于此，给定初始τs和结束阈值τe，第i个训练时期的τi计算如下我们进一步设b>e−1。可以看出，当b=2时，网络达到了69.02%的最大平均top-1准确率，这比没有标准化的模型有了显着的改进。我们还观察到，随着b继续增加，性能开始保持稳定，这支持了我们在Sec. 4.3扩大b的改善有限。5.3. 与SOTA方法的比较为了定量评估所提出的ReCU的有效性，我们对CIFAR- 10 [28]和ImageNet [46]进行了广泛的实验我们还将其与一些最先进的方法进行比较，以证明ReCU在提高BNN性能方面的优势。在下面的实验中，我们使用Eq。式（24），用于调整τ，其中τs=0。85和τe=0。九十九。此外，b设置为2。τ=τe−τsei/I+e·τs−τe，（24）e−1e−15.3.1CIFAR-10其中I表示训练时期的总数选项卡. 2显示ReCU 获得68. 69%，τs=0。85和τe=0。九十九。此外，在τ固定的情况下，它能很好地克服大方差的影响。5.2.2b对重量标准化的影响选项卡. 3显示结果w.r.t. b的不同值。我们使用Eq。式（24），用于调整τ，其中τs= 0。85和τe= 0。九十九。实验在三种设置下进行以进行综合分析，包括在没有我们的标准化的情况下训练BNN， b=0。2 e−1。如可以观察到的，在没有我们的标准化的情况下，二值化的ResNet-18显示出66的较差的top-1准确度。百分之十三具体分析，在网络训练过程中，当前神经网络中的lp-范数正则化使网络参数稀疏化，从而减少了信息量，如在Sec. 四点三。有了我们的标准化在手，信息熵可以手动控制，通过调整b的。在选项卡中。 3，其中小b=0。2

下载后可阅读完整内容，剩余1页未读，立即下载