深度神经网络二值化前向后向信息损失的解决方案

106 浏览量更新于2023-10-25 收藏 802KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2250精确二进制神经网络的前向和后向信息111，2分1 4 3 5秦浩彤、龚瑞豪、刘祥龙、沈明珠、魏自然、俞峰伟、宋敬宽1北京航空航天大学软件开发环境国家重点实验室2北京航空航天大学大数据精准医疗技术创新中心3商汤科技4北京邮电大学5Center for Future Media, University of Electronic Science and Technology of China{qinhaotong，gongruihao，xlliu}@nlsde.buaa.edu.cn，lavieenrosesmz@outlook.com，yufengwei@sensetime.com， {weiziran125，jingkuan.song}@ gmail.com摘要权重和激活二值化是深度神经网络压缩的有效方法，可以通过利用逐位操作来加速推理虽然许多二值化方法提高了模型的准确性，通过最小化量化误差的前向传播，仍然有一个显着的性能差距的二值化模型和全精度的模型。我们的实证研究表明，量化在前向和后向传播中都带来了信息损失，这是训练精确二进制神经网络的瓶颈为了解决这些问题，我们提出了一个信息保留网络（IR-Net）来保留信息，包括在前向激活和后向梯度。IR-Net主要依靠两项技术贡献：（1）Libra参数二值化（Libra-PB）：（2）误差衰减估计（EDE）：联合考虑梯度的更新能力和精确度，通过逐步逼近后向传播的符号函数，最小化梯度的信息损失。我们是第一个从统一信息的角度研究二进制网络的前向和后向过程的人在CIFAR-10和ImageNet数据集上使用各种网络结构进行的综合实验表明，所提出的IR-Net可以始终优于最先进的量化方法。1. 介绍深度神经网络（DNN），特别是卷积神经网络（CNN），已经在一个*通讯作者广泛的计算机视觉应用，如图像分类[30，46，47，49，50，56，63，53]，物体检测，[17，16，42，45，34]和语义分割[15，65]。传统的神经网络通常具有大量的参数和高计算复杂度的高精度的要求。因此，部署最先进的深度CNN模型需要昂贵的存储和计算资源，这在很大程度上限制了DNN在移动电话和相机等便携式设备二进制神经网络因其微小的存储使用和有效的推理而吸引了社区[10，52，37，64，55，19]，这是由于权重和激活的二进制化以及由按位操作实现的有效卷积尽管在二进制DNN方面取得了很大进展，但与全精度对应方法相比，现有的量化方法仍然存在显著的准确性下降[14，39，2，28，57，48，9，40，43]。二进制神经网络的性能下降主要是由于二进制化的有限表示能力和离散性，导致前向和后向传播过程中严重的信息丢失。在前向传播中，当激活和权重被限制为两个值时，模型两种方法被广泛用于增加神经网络的多样性：增加神经元的数量或增加特征图的多样性。例如，Bi-Real Net [38]通过向量化激活添加全精度捷径来针对后者，这实现了显着的性能改进。然而，由于额外的浮点加法运算，Bi-Real Net不可避免地面临比vanilla二元神经网络更差的效率。分集意味着在前向传播过程中能够携带足够的信息，同时准确2251反向传播中的梯度为优化提供正确的信息。然而，在二值神经网络的训练过程中，离散二值化往往会导致梯度不准确和优化方向错误为了更好地处理离散性，研究了反向传播的不同二值化近似[8，38，11，32，7]，主要分为提高更新能力或减少符号函数与近似函数之间的失配区域。不幸的是，早期和后期训练阶段之间的差异总是被忽略，其中在实践中，当训练过程开始时，通常高度需要强更新能力，并且在训练结束时，小的梯度误差变得更重要只关注一点从损失函数中获取尽可能多的信息是不够的针对上述问题，本文首次从信息流的角度对模型二值化进行了研究，提出了一种新的信息保持方法网络（IR-Net）（参见图1中的概述）。我们的目标是为了训练高度精确的二值化模型，前向和后向传播中的信息：（1）IR-Net在前向传播中引入了一种平衡和标准化的量化方法，称为Libra参数二值化（Libra-PB）。利用Libra-PB，我们可以通过最大化量化参数的信息熵和最小化量化误差来最小化前向传播中的信息损失，这确保了高分集。(2) 在反向传播中，IR-Net采用误差分解估计（EDE）来计算梯度，并通过更好地逼近符号函数来最小化信息损失，这确保了在训练开始时的足够更新和在训练结束时的准确梯度。我们的IR-Net提供了一个新的和实用的视角了解二进制化网络的工作原理。除了在深度网络中保持前向/后向信息的强大能力外，它还具有良好的通用性，可以在标准的网络训练管道中进行优化。我们使用CIFAR-10和ImageNet数据集上的图像分类任务来评估我们的IR-Net。实验结果表明，我们的方法在ResNet-20，VGG-Small，ResNet-18和ResNet-34等各种网络结构上都表现得非常好，远远超过了传统的量化方法。我们的代码发布在https://github.com/htqin/IR-Net。2. 相关工作网络二值化旨在加速神经网络的推理并节省内存占用，而不会降低精度加速低精度网络的一种方法通过直接二进制化DNN中的32位参数，包括权重和激活，我们可以实现显著的加速，图1：卷积层的IR-Net训练概述，包括前向传播中的Libra参数二值化（Libra-PB）和后向传播中的误差衰减估计（EDE）Libra-PB改变前向传播中的权重分布以保留权重和激活的信息。在整个训练过程中EDE的形状变化减少了反向传播中的梯度信息损失和内存缩减。XNOR-Net [44]利用确定性二进制化方案，并通过在每层中采用一些标量来最小化输出矩阵的量化误差TWN [33]和TTQ [62]通过更多可用的量化点增强了神经网络的表示能力。ABC-Net [36]建议使用更多的二进制基来进行权重和激活，以提高准确性，同时相应地降低压缩和加速比[8]从激活函数的角度提出了考虑量化误差的HWGQ。[59]进一步提出了具有更多训练参数的LQ-Net，其在ImageNet基准测试中获得了相当的结果，但增加了内存开销。与其他模型压缩方法相比，剪枝[21，20，23]和矩阵分解[58，51]，网络二值化可以大大减少模型的内存消耗，并使模型完全兼容按位运算，以获得良好的加速。虽然在网络二值化方面取得了很大的进展，但由于二值神经网络的训练仍然存在大量的信息丢失，现有的量化方法与全精度模型相比，精度仍然有很大的下降。因此，为了在二值化训练的前向和后向传播过程中保留信息并确保正确的信息流，设计了IR-Net。3. 预赛表示了深度神经网络中的主要操作如：z=wa，（1）Libra-PBWQw（w）Ede一EdeLibra-PB：重塑分布以减少信息丢失和量化误差-101-101- α0αstage1stage2EDE：训练期间近似量化，以减少梯度信息损失Qa（a）2252一其中w∈Rn表示权重向量，a∈Rn表示由前一网络层计算的输入激活向量网络二值化的目标是用1位来表示节点权重和/或激活。一般而言，量化可以用公式表示为：其中x表示全精度参数，Qx（x）表示量化参数，J（Qx（x））表示全精度参数和二进制参数之间的量化误差目标函数（等式（5））假设量化模型应该完全遵循全精度模型的模式。然而，这并不总是正确的，特别是当Qx（x）=αBx、（二）应用极低的位宽。对于二元模型，其参数的表示能力仅限于两个值。其中，x表示包括迭代点权重w和激活a的迭代点参数，并且B x ∈ {− 1，+1 } n表示包括二进制权重B w和激活Ba的二进制值。α表示二进制值的标量，包括αw表示权重，αa表示激活。我们通常使用sign函数得到Bx：.这使得神经元携带的信息容易丢失。二进制神经网络的解空间也与全精度神经网络的解空间有很大不同。因此，在不通过网络保留信息的情况下，仅通过最小化量化误差来保证良好的二值化网络是不够的和困难的。保留信息并将信息Bx=sign（ x）=+1，如果x≥0-1，否则。（三）在前向传播的损失，我们提出天秤座参数二值化（Libra-PB），联合考虑量化误差和信息丢失。对于随机变量利用量化的权重和激活，前向传播中的向量乘法可以被重新表示为b∈ {−1，+1}服从伯努利分布，其概率质量函数为.z=Qw （w）Q（a）=ααa（Bw（a）、（4）f（b）=p，如果b=+11 −p，如果b=-1，（六）其中，X表示具有按位运算XNOR和Bitcount的向量的内积。在反向传播中，符号函数的导数几乎处处为零，这使得它与反向传播不兼容，因为离散化（预激活或权重）之前的原始值的精确梯度将被归零。因此，“直通估计器（STE）[5]”通常用于训练二进制模型，其通过Identity或Hardtanh函数传播梯度。4. 信息保留网络本文指出训练高精度二元神经网络的瓶颈主要在于训练过程中严重的信息丢失。正向符号函数和梯度的反向逼近引起的信息损失极大地损害了二进制神经网络的精度。在本文中，我们提出了一种新的模型，信息保留网络（IR-Net），它保留了训练过程中的信息，并获得高精度的二值化模型。4.1. 前向传播中的Libra参数二值化其中p是取值为+1的概率，p∈（−1，1），Bx中的每个元素都可以看作是b的一个样本。等式中的Qx（x）的熵（2）可以通过以下方式计算：H（Qx（x））= H（Bx）= −p ln（p）−（1 −p）ln（1 − p）。（七）如果我们只追求最小化量化误差的目标，在极端情况下，量化参数的信息熵可以接近于零因此，Libra-PB将量化误差和量化值的信息熵作为目标函数，定义为minJ（Qx（x））− λH（Qx（x））.（八）在伯努利分布假设下，当p= 0时。5时，量化值的信息熵取最大值。这意味着量化值应该均匀分布。因此，我们通过减去全精度权重的均值来平衡具有零均值属性的此外，为了使训练更加稳定，而不会产生来自权重大小和梯度的负面影响，我们进一步规范化了平衡权重。标准化平衡重量wstd通过标准化和平衡操作获得，如下所示：在前向传播中，量化操作带来信息损失。许多量化的卷积神经网络，包括二进制模型[44，35，59]，发现w标准值=w 、σ（w）w=w−w。（九）通过最小化量化误差的最佳量化器：minJ（Qx（x））=x−Qx（x）2，（5）其中σ（·）表示标准偏差。wstdhastw o特点：（1）零均值算法，它最大化得到的二进制权值的信息熵。（2）单位范数，W2253⊤⊤WW2传统二值化签署1 B x ≈0.50Libra参数二值化平衡规范签署1��x X 0.69美元图2：分别使用Libra-PB Qx（x）和符号函数量化的二进制权重的信息熵比较。由于Libra-PB的平衡特性，Qx（x）的信息熵大于sign（x），在Bernoulli分布下Qx（x）和sign（x）取1的概率分别为0.5和0.2这使得二进制化中涉及的全精度权重更加分散。因此，与直接使用平衡进度相比，使用标准化平衡进度使得权重稳定更新，并且使得二进制权重 Qw（w_ st_d）在训练期间更加稳定。由于Qw（w_ std）的值取决于w_ std的符号而W的分布几乎是对称的[24，4]，平衡操作总体上可以最大化量化的Qw（w≤ d）的信息熵。当使用Libra-PB作为权重时假设量化激活Qa（a）的平均值E[Qa（a）]=µ1，则z的平均值可以通过下式计算：E[z]=Qw （wst d）E[Qa（a）]=Qw （wst d）µ1。（10）由于在每一层中使用Libra-PB作为权重，我们有IR-Net中的主要操作可以表示为：z=（Bw<$Ba）s。（十四）如图2所示，由Libra-PB量化的参数在伯努利分布下具有最大信息熵我们称我们的二值化方法为“LibraParameter Binarization”，因为参数在二值化之前被平衡以保留信息。请注意，Libra-PB提供了一个隐式整流器，可以在二进制化之前重新塑造数据分布。在文献中，一些研究也意识到了这种对BNN性能的积极影响，并采用经验设置来重新分配参数[44，13]。例如，[13]提出了二值化的特定退化问题，并使用专门设计的额外正则化损失解决了它与这些工作不同的是，我们首先直接提出信息视图来重新考虑二值化之前参数分布的影响，并通过最大化信息熵来保证最优解此外，在该框架中，Libra-PB可以通过在二值化之前这意味着我们的方法可以很容易地和广泛地应用于各种神经网络体系结构，并直接插入到标准的训练管道，具有非常有限的额外计算成本。4.2. 倒向误差衰减估计由于二值化不连续性的限制，后向传播过程中不可避免地要进行梯度Qw（w）STD）如果n=0，则输出的平均值为零。因此，我们认为，因此，由于干扰，不能用近似的方法来精确地模拟量化每一层中的激活的信息熵可以是最大化，这意味着激活中的信息mation该近似可以公式化为：可以保留。联系我们=Qw（wg′（w），为了进一步最小化量化误差并避免额外的在先前二值化中昂贵的浮动点计算wQw（w（十五）方法，Libra-PB引入了整数位移位标量s扩展二进制权重的表示能力。最佳比特移位标量可以通过以下来求解：其中L（w）表示损失函数，g（w）表示符号函数的近似，g′（w）是g（w）的导数。有两种常见的做法，B，s=argminwBw，sSTD-Bw2002年2月2 日 s ∈ N（十一）mation在以前的作品中使用：鉴别：y=x或剪辑：y=Hardtanh（x）。（十六）其中，移位代表左或右移位。B*计算由B=sign（wst d），因此sW可以解为：Identity函数直接将输出值的梯度信息传递给输入值，并完全s=round（log（w STD （1/n））。（十二）忽略二值化的影响。如阴影where n and ǁwˆ stdǁ1 denote the dimension and L1-norm ofthe vector, respectively.因此，我们的用于前向传播的Libra参数二值化可以如下所示：图3（a）的区域，梯度误差是巨大的，将导致在反向传播期间的后期利用随机梯度下降算法时，不能忽略恒等式所带来的噪声，而必须保留正确的梯度信息，以避免训练不稳定。Qw（wst d）=Bws=sign（wstd）s，Q2254a（a）= Ba= sign（a）。（十三）裁剪函数考虑了二值化的裁剪属性，以减少梯度误差。但只能2255σ（w−w））∂wS1S2阶段1阶段2S2S1(a) 鉴别（b）夹子（c）EDE图3：梯度近似引起的误差，由灰色阴影区域表示如图所示，（a）恒等逼近受到巨大的错误。（b）限幅近似不更新限幅间隔之外的值（c）EDE在早期阶段保持更新能力，并逐步减少错误。S1在阶段1期间通过减小限幅值而收缩，并且S2在阶段2期间通过增大导数而收缩。在裁剪间隔内传递梯度信息。在图3（b）中可以看出，对于[-1，+1]之外的参数，梯度被钳位到0。这意味着一旦值跳出箝位间隔，它就不能再更新。这个特性极大地损害了反向传播的更新能力，这可以通过ReLU是比Tanh更好的激活函数来证明因此，裁剪近似增加了优化的难度，并降低了实际中的精度。确保足够的更新可能性至关重要，特别是在培训过程的开始阶段。恒等函数丢失了量化的梯度信息，而裁剪函数丢失了裁剪区间外的梯度信息。存在矛盾每个阶段的EDE的形状变化如图3（c）所示。我们的EDE在第一阶段更新所有参数，并在第二阶段进一步使参数更准确。EDE基于两阶段估计，减小了前向二值化函数和后向近似函数之间的间隔，同时可以合理地更新所有算法1通过所提出的IR-Net进行BNN训练的前向和后向传播。1：要求：输入数据a∈Rn，预激活z∈R，全精度权重w ∈Rn。2：前向传播3：通过Libra-PB计算二进制权重[等式3] （13）]：在这两种梯度信息损失之间。到w标准 =w−w，s= round（log2015年12月 1日n取得平衡，并获得最佳逼近向后梯度，我们设计误差衰减估计：g（x）=ktanhtx（17）其中g（x）是前向符号函数的后向近似替代，k和t是在训练过程期间变化的控制变量i×logTmax1Qw（wstd）=Bws=sign（wstd）s4：计算平衡的二进制输入数据[等式4] （13）]：Qa（a）=Ba=sign（a）;5：计算输出：z=（Bw<$Ba）s6：反向传播7：通过EDE更新g′（·）通过等式得到当前t和k。（十八）更新g′（·）：g′（x）=kt（1−tanh2（tx））8：计算梯度w.r.t. a：t=T最小值10N2016 - 05 - 25 01：01：0000：00，1）（18）L 为L g′（a）塔贾（a）其中i是当前时期，N是时期的数量，9：计算梯度w.r.t. 我是：L=T= 10−1，T= 101。wminMax第10章：参数更新为了保留从损失函数导出的信息，在反向传播中，EDE引入了渐进的两阶段方法来近似梯度。阶段1：保留反向传播算法的更新能力。我们保持梯度估计函数的导数值接近1，然后进行-将限幅值从一个很大的数字减少到一个。利用该规则，我们的估计函数从Identity演化到Clip近似，这确保了在训练的早期阶段的更新能力阶段2：保持参数在零附近的准确梯度。我们保持裁剪值为1，并逐渐将导数诅咒推到楼梯的形状上功能利用这一规则，我们的估计函数从Clip近似演化为符号函数，这保证了前向和后向传播的一致性11：更新w：w=w−ηL，其中η是学习率。4.3. 分析和讨论我们的IR-Net的训练过程总结在算法1中。在本节中，我们将从不同方面分析IR-Net。4.3.1复杂性分析由于Libra-PB应用于权重，因此在IR-Net中有额外的二值化激活操作。在Libra-PB中，与现有的具有浮动点标量的解决方案（例如，XNOR-Net和LQ-Net），如）22256表1：不同二值化方法所消耗的额外浮点运算。方法浮动操作按位运算XNOR-NetC1C1×C 2LQ-NetC1C1×C 2我们0C1×C 2+C 1*C1=wout×hout×cout和C2=wk×hk×cin，其中cout，cin，wk，0.40.30.20.10.0h_k、w_out、h_out分别表示输出通道、输入通道、核宽度、核高度、输出宽度和输出高度的数量按位操作主要包括XNOR、Bitcount和Bit-shift。表1.稍后，我们进一步测试硬件上的实际部署速度，结果可以在部署效率部分看到。4.3.2稳定训练在Libra参数二值化中，引入了权值标准化，减小了全精度权值与二值化权值之间的差距图4示出了没有标准化的权重的数据分布，显然更集中在0附近这一现象意味着在优化过程中，大多数权值的符号容易发生变化，直接导致了二值神经网络训练的不稳定。通过重新分配数据，权重标准化隐含地在前向Libra-PB和后向EDE之间建立了一座桥梁，有助于更稳定地训练二进制神经网络。5. 实验在本节中，我们在两个基准数据集上进行实验：CIFAR-10 [29]和ImageNet（ILSVRC 12）[12]来验证所提出的IR-Net的有效性，并将其与其他最先进的（SOTA）方法进行比较。IR-Net：我们使用PyTorch实现了我们的IR-Net，因为它具有高度的可扩展性和强大的自动重定向机制。在构建二值化模型时，我们只需替换原点中的卷积层使用我们的方法二进制化的二进制卷积层模型网络结构：我们采用了广泛使用的网络结构，包括VGG-Small [59] ， ResNet-18 ， ResNet-20 用于 CIFAR-10，ResNet-18，ResNet-34 [22]用于ImageNet。为了证明IR-Net的多功能性，我们在ResNet的正常结构和Bi-Real [38]结构上对其进行评估除了第一层和最后一层之外，所有卷积层和全连接层都被二进制化，当我们二进制化激活时，我们选择Hardtanh作为我们的激活函数，而不是初始化：我们的IR-Net是从头开始训练的（随机初始化），没有利用任何预先训练的模型。为了在各种网络架构上评估我们的IR-Net，我们−4 −2 0 2 4图4：神经网络中的全精度权重（红色）具有较小的数据范围，并且总是聚集在0附近，因此它们的符号很可能在反向传播中被忽略。IR-Net在二值化之前平衡和调整权重（蓝色）以稳定训练。大多遵循他们原始论文的超参数设置[44，59，38]。在实验中，我们采用SGD作为我们的优化算法。5.1. 消融研究在这一部分中，我们研究了所提出的Libra-PB和EDE技术对BNN性能的行为和影响。5.1.1Libra-PB的影响我们的Libra-PB可以通过调整网络中的权重分布来最大化IR-Net中二元权重和二元激活的信息熵。由于在二值化之前使用了显式的平衡操作，因此网络中每一层的二元权重具有最大信息熵。IR网中受二进制权影响的二进制激活也具有最大信息熵。为了证明Libra-PB在IR-Net中的信息保留，在图5中，我们显示了通过香草二进制化和Libra-PB量化的网络中每层二进制激活的信息损失Vanilla二进制化在二进制激活的信息熵方面遭受了很大的减少在Libra-PB量化的网络中，各层的激活接近伯努利分布下的最大信息熵在前向传播过程中，香草二值化引起的二值激活信息损失幸运的是，图5中的结果表明，Libra-PB可以保留每个层的二进制激活中的信息5.1.2EDE的影响为了证明我们精心设计的EDE的必要性和效果，我们展示了不同训练阶段的权重数据分布，如图6所示。第一行的数字表示分布，第二行的数字表示相应的导数曲线。在导数曲线中，蓝色的代表EDE，FPIR-Net2257信息熵降低百分之三十五百分之三十百分之二十五百分之二十百分之十五百分之十百分之五0%的百分比1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18层索引图5：Libra-PB对ResNet-20中每层激活的信息熵的影响。Libra-PB量化的信息熵减少比率（与伯努利分布下的最大信息熵相比）显著大于vanilla二进制化。黄色的一个代表公共STE（具有削波）。可以看出，在EDE的第一阶段（图6中的时期10到时期200），有许多数据在范围[-1，200]之外。+1]，因此不应该有太多的削波，这将对更新能力有害。另外，体重的峰值图6：EDE充分考虑了训练过程中不同时期（10、200和400）体重分布（标准化后）的影响。重量分布显示在上半部分。在下半部分，蓝线是EDE的导数，黄线和粉线分别是STE和符号阴影表示EDE/STE的导数与符号函数的导数之间的误差。在EDE的第一阶段，可以有效地更新所有权重。在第二阶段中，由于梯度误差的减小，0附近的权重被更准确地更新。表2：IR-Net的消融研究。位宽分布是高的，并且在训练开始EDE在这一阶段保持导数与Identity函数相似，以确保零附近的导数不会太大，从而避免严重不稳定的训练。幸运的是，随着二值化引入训练，权重在训练的后期阶段将逐渐接近-1/+1因此，我们可以慢慢地增加导数的值，并近似一个标准的符号函数，以减少梯度失配。可视化结果方法Acc.（%）证明了我们的EDE近似的反向传播符合实际的数据分布，这是提高精度的关键。5.1.3消融性能我们进一步研究了在CIFAR-10上使用IR-Net的不同部分与ResNet-20模型的性能，这有助于理解我们的IR-Net在实践中是如何表2显示了不同设置下的性能。从表中可以看出，单独使用Libra-PB或EDE都可以提高准确率，Libra-PB中的权重标准化也起到了重要作用。此外，这些部分带来的改进可以叠加在一起，这就是为什么我们的方法可以训练高度准确的二值化模型。5.2. 与SOTA方法的比较通过与现有的SOTA方法进行比较，我们进一步对IR-Net进行了全面的5.2.1CIFAR-10表3列出了在CIFAR-10上使用不同方法的性能，包括RAD [13]在ResNet-18上的性能（基于[31]，DoReFa-Net [61]，LQ-Net [59]，DSQ [18] over2019 - 05 - 15 00：00在所有情况下，我们的IR-Net都获得了最佳性能。更重要的是，当使用1位权重和1位激活（1 W/1A）时，无论我们使用原始ResNet结构还是Bi-Real结构，我们的方法都比SOTA方法有了显著的改进例如，在1 W/1A位宽设置下，与 ResNet-20 上的SOTA相比，绝对精度提升高达2.4%，与全精度（FP）对应器件的差距缩小至4.3%。5.2.2ImageNet对于大规模ImageNet数据集，我们研究了IR-Net在ResNet-18和ResNet-34上的性能。表4显示了ResNet- 18和 ResNet-34 上的许多 SOTA 量化方法，包括 BWN[44]，HWGQ [35]，[33]第33话，我是你的朋友。Bi-Real [38]，XNOR++ [6]，BWHN [26]，SQ-BWN和SQ-TWN [1].我们可以观察到，当仅在ResNet-18上量化权重时，使用1位的IR-Net比大多数其他方法表现得更好，甚至超过使用2位权重的TWN。在1 W/1A设置中，香草Labra-PB（W/A）FP32/3290.8二进制1/183.8Libra-PB（无重量标准化）1/184.3Libra-PB（不带移位标尺）1/184.6Libra-PB1/184.9Ede1/185.2IR-Net（Libra-PB EDE）1/186.52258表3：CIFAR-10上SOTA方法的准确度比较表4：在ImageNet上与SOTA方法的准确性比较拓扑方法位宽（W/A）Acc.（%）拓扑方法位宽（W/A）前1名（%）前5名（%）FP32/3293.0FP32/3269.689.2ResNet-18RAD1/190.5ABC-Net1/142.767.6我们的11/191.5XNOR1/151.273.2FP 32/32 91.7DoReFa 1/1 79.3DSQ 1/1 84.1我们的11/185.42ResNet-18我们的21/158.1 80.0ResNet-20我们1/186.5IR-Net 的前 1 精度也明显优于 SOTA 方法（例如，ResNet- 18为58.1% vs. 56.4%）。实验结果表明，我们的IR-Net比现有的方法更具竞争力。5.3. 部署效率表5：ResNet-18与不同位（单线程）的时间成本比较位宽为了进一步验证IR-Net在实际移动设备中的有效性，我们进一步在Raspberry Pi 3B上实现了IR-Net，Raspberry Pi 3B 具有 1.2 GHz 64 位四核 ARM Cortex-A53，并在实践中测试了其实际速度。我们利用ARMNEON上的SIMD指令SSHL来制作推理框架daBNN [60]方法大小（Mb）时间（ms）与我们的IR-Net兼容。我们必须指出，到目前为止，很少有研究报告它们在现实设备中的推理速度，特别是在使用1位二进制化时。在表5中，我们将我们的IR-Net与现有的高性能推理实现（包括NCNN [41]和DSQ[18]）进行了比较。从表中我们可以很容易地发现，IR-Net的推理速度要快得多，IR-Net的模型大小可以大大减少，IR-Net中的位移位尺度几乎不会带来额外的推理时间和存储消耗。6. 结论在本文中，我们提出了IR-Net来保持二进制神经网络中传播的信息，主要包括两种新的技术：Libra-PB用于保持前向传播的多样性和EDE用于减少梯度误差。1具有正常结构的ResNet的结果[22]。2具有双实数结构的ResNet的结果[38]。反向传播Libra-PB从信息熵的角度对权值进行了简单有效的变换，同时减少了权值和激活的信息损失，无需对激活进行额外的这样，二进制神经网络的多样性可以尽可能地保持，同时效率不会受到损害。此外，设计良好的梯度估计器保留了反向传播过程中的梯度信息由于足够的更新能力和准确的梯度，EDE的性能大大优于STE。大量的实验证明，IR-Net始终优于现有的国家的最先进的二进制神经网络。鸣谢本工作得到国家自然科学基金（ 61872021 ，61690202）和北京市新星科技计划（Z191100001119050）的资助。FP32/3291.7DoReFa1/3290.0LQ-Net1/3290.1DSQ1/3290.2我们的11/3290.8FP32/3291.7实验室1/187.7VGG-SmallXNOR1/189.8BNN1/189.9RAD1/190.0我们1/190.4ResNet-34FP32/3269.689.2SQ-BWN1/3258.481.6BWN1/3260.883.0HWGQ1/3261.383.2TWN2/3261.884.2公司简介2/3263.885.7BWHN1/3264.385.9我们的11/3266.586.8FP32/3273.391.3ABC-Net1/152.476.5Bi-Real1/162.283.9我们的21/162.984.1FP32/3273.391.3我们的11/3270.489.5（W/A）FP32/3246.771418.94NCNN8/8–935.51DSQ2/2–551.22我们的（不带移位刻度）1/14.20252.16我们1/14.21261.98BNN+1/153.072.6DoReFa1/253.4–Bi-Real1/156.479.5公司简介1/157.179.92259引用[1] 使用随机量化学习精确的低位深度神经网络BMVC，2017年。7[2] T. Ajanthan，P. K.多卡尼亚河Hartley和P. H. S.乇神经网络量化的近似平均场。在IEEE ICCV，2019。1[3] akamaster 。 pytorch_resnet_cifar10.https://github.com/akamaster/pytorch_resnet_cifar10. 7[4] R. Banner，Y. Nahshan，E. Hoffer和D.苏德里训练后的4位量化卷积网络，用于快速部署 .CoRR ，abs/1810.05723，2018。4[5] Y. Bengio，N.Léonard，和A.考维尔通过条件计算的随机神经元估计或arXiv预印本arXiv：1308.3432，2013。3[6] A. Bulat和G.齐米罗普洛斯Xnor-net++：改进的二进制神经网络。CoRR，abs/1909.13863，2019。7[7] A.布拉特湾Tzimiropoulos，J. Kossai fi和M.惊慌失措用于人体姿态估计和图像识别的二进制网络的改进训练CoRR，abs/1904.05868，2019。2[8] Z. Cai，X. He，J. Sun，and N.瓦斯康塞洛斯通过半波高斯量化进行低精度深度学习。在IEEE CVPR，2017年。2[9] S. 曹湖，加-地马，W。肖氏C.Zhang，Y.柳湖，加-地张丽Nie和Z.杨Seernet：通过低比特量化预测卷积神经网络特征映射稀疏性。在IEEE CVPR，2019。1[10] M. Courbariaux，Y. Bengio和J.大卫。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。在NeurIPS中。2015. 1[11] S. Darabi M.Belbahri ， M.Courbariaux 和 V.P. 妮娅BNN+ ：改进的二进制网络训练。 CoRR ，abs/1812.11800，2018。2[12] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和F. F.李Imagenet：一个大规模的分层图像数据库。在IEEECVPR，2009年。6[13] R. 叮TW. Chin，Z.Liu和D.马库列斯库正则化用于训练二进制深度网络的激活分布。在IEEE CVPR，2019年6月。四、七[14] Z. 咚， Z. 姚明 A. 戈拉米 M. W. 马奥尼，K.库茨Hawq：Hessian aware quantization of neuralnetworks with mixed-precision.在IEEE ICCV，2019。1[15] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn和A. 齐瑟曼。pascal visual object classes挑战。IJCV 1[16] R.娘娘腔。快速R-CNN。InIEEE ICCV，2015. 1[17] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。在IEEECVPR，2014年。1[18] R. 龚，X.Liu，S.姜氏T.李，P.胡，J.Lin，F.Yu和J.燕.可微分软量化：桥接全精度和低位神经网络。在IEEEICCV，2019。七、八[19] J. Gu，J. Zhao，X.江湾，澳-地Zhang，J. Liu，G. Guo，和R. 纪贝叶斯优化的1位cnn。在IEEE ICCV，2019。1[20] S.汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR，2016. 2[21] S. Han，J. Pool，J. Tran和W. J·达利学习有效神经网络的权重和连接神经IPS，2015年。2[22] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE CVPR，2016年。六、八[23] Y. 他，X。zhang和J.太阳用于加速深度神经网络的通道修剪InIEEE ICCV，Oct 2017. 2[24] Z. He和D.粉丝用截断高斯近似同时优化三值神经网络在IEEE CVPR，2019。4[25] L.侯角，澳-地Yao和J. T.郭深度网络的损失感知二值化ICLR，2017年。7[26] Q. Hu、P.Wang和J.Cheng T. 从哈希到cnn：通过哈希训练二进制权重网络。在AAAI，2018。7[27] I.胡巴拉M. Courbariaux，D.苏德里河El-Yaniv，以及Y.本吉奥。二值化神经网络在NeurIPS中。2016. 7[28] S.荣格角，澳-地儿子，S。Lee，J. Son，J. J.汉，Y.夸克，S。J.Hwang和C.崔通过优化量化间隔和任务损失来学习量化深度网络。在IEEE CVPR，2019。1[29]A.克里热夫斯基河Nair和G.辛顿CIFAR-10数据集。在线：http：//www. CS. 多伦多edu/kriz/cifar. html，2014. 6[30] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络进行Imagenet分类。在NeurIPS中。2012. 1[31] 狂流，ypwhs，fducau，bearpaw. pytorch-cifar。https：//github.com/kuangliu/pytorch-cifar。 7[32] F. 拉胡德河 Achanta ， P. Márquez-Neila ， and S.Süsstrunk。自二值化网络。CoRR，abs/1902.00730，2019年。2[33] F. 李湾，澳 - 地 Zhang 和 B. 刘某三重网络 CoRR ，abs/1605.04711，2016。二、七[34] R. Li，Y. Wang，F. Liang，H. Qin，J. Yan，and R.粉丝用于对象检测的全量化网络在IEEE CVPR，2019。

下载后可阅读完整内容，剩余1页未读，立即下载