半二进制分解加速深度神经网络

78 浏览量更新于2023-10-13 收藏 756KB PDF 举报

模式识别

中国科学院大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

通过半二进制分解胡庆浩1、2[0000−0001−9458−0760]、李刚 1、2[0000−0001−7835−4739]、王培松1、2[0000−0002−6384−0280]、张一凡 1、2[0000−0002−9190−3509]、程建 1、 2、3[0000−0003−1289−2758]1模式识别中国科学院自动化研究所，北京{qinghao.hu，gang.li，peisong.wang，yfzhang，jcheng}@ nlpr.ia.ac.cn2中国科学院大学，中国北京3中国北京脑科学与智能技术卓越中心抽象。近年来，二进制权值网络以其计算效率高、参数小等优点受到了广泛的关注。然而，由于它们有限的表示能力，它们仍然遭受大的准确性下降。本文提出了一种新的半二进制分解方法，将一个矩阵分解为两个二进制矩阵和一个对角矩阵。由于二元矩阵的矩阵乘积比二元矩阵具有更多的数值，因此所提出的半二元分解具有更大的表示能力。此外，我们提出了一种交替优化方法来解决半二进制分解问题，同时保持二元约束。在AlexNet、ResNet-18和ResNet-50上进行的大量实验表明，我们的方法比最先进的方法表现更好（top1准确率高出 5% ）。我们还在 FPGA 平台上实现了二进制权重的AlexNet，这表明我们提出的方法可以实现9倍加速，同时显著降低片内存储器和专用乘法器的消耗。关键词：深度神经网络·二进制权重网络·深度网络加速和压缩1介绍自从AlexNet [16]在ILSVRC2012取得成功以来，深度卷积神经网络变得越来越受欢迎在那之后，卷积神经网络在各种计算机视觉任务上表现出显着的改进，例如图像分类[16]，对象检测[24]，图像分割[21]等。然而，深度网络的巨大性能是以大参数大小和高计算复杂度为代价的对于移动电话或移动设备上的应用，为了缓解这些问题，已经提出了许多方法，例如修剪[10，11，19]，低秩分解[6，13，15，17，25，30]和定点2Qinghao Hu，Gang Li，Peisong Wang，Yifan Zhang，and JianCheng量化[8，9，20，22，28]。二进制量化是定点量化的一种特殊情况，它仅通过二进制值来表示深度网络的权重。由于量化权重中仅存在二进制值，因此乘法运算可以用加法运算代替。因此，二进制量化不仅可以实现高压缩比（32倍），而且可以加速深度网络。此外，二进制权重网络在现场可编程门阵列（FPGA）、数字信号处理器（DSP）和深度学习加速器上更有效。tor（DLA）。在这些架构上，二进制权值网络通常可以获得更高的速度，并节省更多的硬件资源。由于二进制量化的吸引人的特性，已经提出了许多二进制权重网络，例如BC [4]，BWN [23]，SQ-BWN [7]等。然而，国家的最先进的二进制权重网络遭受显着的准确性下降，由于其有限的表示能力。BC[4]中的卷积核具有双卷积特征，并且所有特征都这严重降低了卷积核的多样性BWN [23]将每个二进制卷积核乘以不同的比例因子以近似全精度卷积核，然后每个卷积核具有不同的幅度。但是相同卷积核中的参数仍然共享相同的幅度，这限制了卷积核的表示能力为了提高二进制权重网络的表示能力，提出了一种新的半二进制分解方法，将一个矩阵为两个二进制矩阵和一个对角矩阵。此外，我们提出了一种交替优化方法来学习分解因子与二元约束。在ImageNet上的大量实验表明，我们提出的方法优于最先进的算法。我们的主要贡献可以总结如下：– 受二进制矩阵的矩阵乘积比二进制矩阵具有更多数值可能性的启发，提出了一种新的半二进制分解方法来训练二进制权重网络。通过使用建议的半二进制分解，我们的二进制权重网络比最先进的方法具有更多的表示能力。– 由于学习半二进制分解因子是困难的，在这里，我们提出了一种交替优化方法来解决半二进制因子，同时仍然保持二进制约束。– 在ImageNet上进行了大量的实验来评估我们的方法。在AlexNet，ResNet-18和ResNet-50上的实验结果表明，我们提出的方法大大优于最先进的算法。此外，我们在FPGA平台上实现了二进制权值AlexNet，实验结果表明，我们的二进制权值网络可以使用更少的片上存储器和硬件乘法器实现9倍的加速用半二元分解32相关工作近年来，已经提出了许多方法[3]来压缩或加速深度网络。这些方法大多分为三类：基于修剪的方法、基于低秩分解的方法和基于量化的方法。2.1剪枝方法基于剪枝的方法通过删除不重要的连接来压缩深度网络。早期的修剪工作[11，19]使用损失函数的二阶导数来确定哪些连接不重要。最近，Han等人 [10]提出了一种三步方法来压缩深度网络。它们首先修剪那些不重要的连接，然后通过K均值量化剩余的权重，最后使用霍夫曼编码对量化的权重进行编码在推理阶段，需要解码器来重构权重，这使得它们的方法不方便。此外，上述方法很难利用基本线性代数子程序（BLAS），因为他们修剪的权重在一个非结构化的方式。为了解决这个问题，Lebedev et al. [18]提出群体智慧脑损伤。通过施加组稀疏正则化器，以组方式修剪权重因此，卷积可以减少到稀疏稠密矩阵的乘法，并且它们仍然可以使用BLAS库来获得更高的速度。2.2低秩分解方法基于低秩分解的方法[5，6，13]主要使用矩阵或张量分解方法将卷积核分解为几个小矩阵或张量。 Denton 等人提出使用 Singule ValueDecomposition（SVD）来降低计算复杂度[6]。Zhang等人 [30]建议通过低秩矩阵来近似层响应，而不是直接近似权重。此外，他们的方法还采取了非线性layer的resp on ses in account t。 Lebedevetal. [17]使用 CANDE-COMP/PARAFAC （ CP ）分解来近似卷积核。他们只在AlexNet的单层上应用他们的方法。与CP分解类似，Tucker分解也用于加速卷积层[15]。不同的是，Tucker分解可以用来压缩整个网络，而CP分解不能。 Wang等人[25]建议使用块项分解来加速卷积层。块项分解可以看作是CP-分解和Tucker分解之间的折衷 Novikov等人建议使用Tensor-Train格式来压缩深度网络的全连接层。他们的方法可以在VGG16网络上实现高达7倍的4Qinghao Hu，Gang Li，Peisong Wang，Yifan Zhang，and JianCheng2.3基于量化的方法矢量量化在数据压缩方面有着悠久的历史。Gong等人将该技术引入网络压缩。他们[8]提出使用矢量量化来压缩CNN的全连接层。遵循这条路线，Wu等人。 [28] [2]提出了一种基于乘积量化的算法，以同时加快计算速度并减小参数大小。另一种量化方法是低位定点量化。古普塔等人[9]提出经由随机舍入方案而不是确定性舍入方案将权重量化为定点格式。通过使用这种方法，可以用16位定点数量化深度网络，而精度几乎没有下降。Wang等人。 [26]提出了定点因子化网络，将权重分解为两个定点矩阵和一个对角矩阵。作为定点量化的特殊情况，二进制量化旨在将权重转换为二进制值。Courbariaux等人 [4]提出了BinaryConnect来训练二进制权重网络。与[9]一样，他们使用随机二值化方案而不是确定性方案。由于二进制值具有有限的表示能力，Rastegari等人。 [23]提出用二进制内核和缩放因子来近似全精度卷积内核。通过乘以缩放因子，二进制内核具有比直接二进制量化更低的量化损失。 Dong等人[7]提出了一种随机量化方案。在每次迭代中，它们仅以与量化误差成反比的随机概率将一部分参数量化到低比特，其余参数保持全精度不变。Hu等人[12]提出从散列的角度来训练二进制权重网络，该网络使用内积保持散列方法来学习二进制权重。Wang等人 [27]提出了一种两步量化方法，将网络量化问题分解为代码学习和变换函数学习步骤。3我们的方法在本节中，我们提出半二进制分解来增加二进制权重网络的表示能力。然后提出了一种交替优化方法来解决半二进制分解问题。最后，我们分析了所提出的二进制权重网络在推理阶段的时间和空间复杂度。3.1初步给定L层预训练CNN模型，令W∈RT×S为第l层的全精度权重。为了将权重W转换为二进制矩阵B，简单的二进制化方法[4]是：B =sgn（W）（1）用半二元分解5FFi、j其中sgn表示符号函数，并且对于x>0，sgn（x）=1，否则为-1简单的二值化具有有限的表示能力，因为B仅具有二元模式。因此，直接二值化将导致显著的量化损失。Rastegari等人。 [23]提出为每个二进制卷积核Bi∈R1×S乘以一个比例因子αi，目标函数为：minL（Λ，B）=W−ΛB2S.T.B∈{ +1，−1}T×S（2）其中Λ∈RT×T是对角矩阵，α i= Λii是Bi的缩放因子。[23]中的不同卷积核具有不同的幅度，因此它具有更好的表示能力。然而，为每个二进制卷积核乘以缩放因子仍然遭受大的量化损失，因为相同卷积核中的参数具有相同的幅度αi。3.2半二元分解由于当前的二进制量化方法具有有限的表示容量，因此，本发明旨在找到最佳的量化方法，以减少对像素的多样性的依赖。本文提出了一种新的半二进制分解方法，该方法利用两个二进制矩阵与一个对角矩阵的矩阵乘积来逼近一个矩阵，从而使逼近矩阵的多样性高于二进制矩阵。具体地，所提出的半二进制分解可以被公式化为：minL（U， D， V）=W−UDVT2S.T. U ∈{+1，−1}T×KV∈{ +1，−1}S×K（三）其中D∈R，K×K是对角矩阵，K≤min（S，T），U和V是二元矩阵。所提出的半二进制分解非常适合于压缩深度网络，因为D具有较低的计算复杂度，并且U和V仍然是二进制矩阵。此外，通过使用半二进制分解，二进制权重网络的表示能力得到了增强。设W′是W通过半二元分解的近似矩阵，则W′= UDVT =ΣKk=1dkUkVkT，其中dk=Dkk，Uk和Vk是m矩阵xU和的k列V分别。对于W′中的任一参数W′，其大小有2K种可能性而BC [4]和BWN类方法[23][1][7]中的参数分别只有2和T种可能性因此，所提出的半二进制分解方法可以提高表示能力。当量(3)由于二元约束很难解决，这里我们以贪婪的方式学习组件。设W_k是半二元的k项近似分解，则Wk =Σki=1diUiViT。让Rk成为一个独立的对象k− 1 t e rmsofapproximation，其中Rk=W−Wk−1且R1=W。在一个Chstep，6Qinghao Hu，Gang Li，Peisong Wang，Yifan Zhang，and JianChengFKKKK我们通过近似残差矩阵Rk来学习第k项，目标函数被公式化为：minL（Uk，dk，Vk）=Rk−dkUkVkT2S.T.U∈{+1，−1}T×1V∈{+1，−1}S×1（四）要求解方程(4)提出了一种交替优化方法，即迭代地更新一个分解因子，而其他因子固定。用固定的Uk和Vk更新dk：给定固定的Uk和Vk，目标函数可以重新表示为：minL（dk）=−2dkUkTRkVk+T S·d2（五）上述方程的最优解为：1dk=T S UkT RkVk（六）用固定的Vk和dk更新Uk：给定固定的Vk，我们用它的最优解替换dk，然后目标函数转换为：maxL（Uk）=（UkTRkVk）2Uk=（UkTRkVk）2（七）F FS.T.U∈{+1，−1}T×1上述方程的最优解为Uk=sgn（RkVk）（8）用固定的Uk和dk更新Vk：类似于更新Uk，Vk的最优解是：Vk=sgn（RkTUk）（9）到目前为止，我们已经描述了一层半二进制分解的优化算法对于整个网络的量化，我们使用半双精度分解算法来实现网络的量化。该方法不被定义为SBD-Direct，并且在算法1中总结了总体训练算法。3.3面向特征图的半二元因子经由半二进制分解直接分解深度网络的所有层的W具有两个缺点。首先，因为权重在前向传播中乘以输入特征图，所以二进制量化误差将被输入特征图放大。第二，直接对整个网络应用半二进制分解可能导致大的精度下降，因为量化误差在多个层上累积。用半二元分解7l=1l=1l=1l=1l=1l=1l=1FKK算法1：通过SBD-直接训练二进制权重网络输入：预训练的卷积神经网络权重{Wl}L和最大迭代次数输出：学习的二进制分量{U1}L，{Vl}L和{Dl}L对于l=1;l≤L，则对于k=1;k≤ K更新残差矩阵Rk用全一矩阵初始化Vk，同时iter≤Max Iters做用等式更新Uk（八）用等式更新Vk（九）端用等式更新dk（六）结束结束返回{Ul}L，{Vl}L和{D l}L ;为了解决这些问题，这里我们通过在100s上最小化输出来学习半二进制分量。在k个函数的映射上输入h个层的输入，使得Xl∈RS×N。类似地，将所述层的输入输入到k为X ~ 1的量化的网络的一个映射。在前l-1层处的被量化的网络w或k和t已经经由半二进制分解被量化，因此X~l=Ul-1Dl-1（Vl-1）TX~l-1。目标函数用于以下内容：ΣKminL（Ul，Dl，Vl）=WlXl-UlDl（Vl）TX〜l2=Yl-dlUkl（Vkl）TX〜l2FS.T. U ∈{+1，−1}T×KV∈{ +1，−1}S×KKk=1F（十）其中Yl=WlXl是h层的输出。在下面，为了方便起见，省略了上标。求解方程(10)由于二进制的约束是困难的，这里我们以贪婪的方式学习半二进制分量设Y k为输出特征图的k项近似，则Yk=Σki=1diUiViTX~。LetZkbefeaturemap的Z k = Y − Y k−1且Z 1 = W。然后，我们通过近似残差矩阵Zk来学习第k项，目标函数被公式化为：minL（Uk，dk，Vk）=Zk−dkUkVkTX~2S.T. U∈{+1，−1}T×1V∈{+1，−1}S×1（十一）要求解方程(11)提出了一种交替优化方法来迭代更新半二进制分量8Qinghao Hu，Gang Li，Peisong Wang，Yifan Zhang，and JianChengFFFKKK用固定的Uk和Vk更新dk：给定固定的Uk和Vk，目标函数可以被公式化为：minL（dk）=−2dkVkTX~ZkTUk+d2UkVkTX~2（十二）K F最佳解决方案的dk方程。(12)是：VkTXZkTUkdk=UkVkTX~2（十三）用固定的Vk和dk更新Uk：给定Vk固定，我们得到以下通过在dk的最佳解决方案中的子节点来执行的结果（VkTX~ZkTUk）2TT2max L（Uk）=UkVkTX=（VkXZkUk）（十四）因此，上述等式的最优Uk为：Uk=sgn（ZkX〜TVk）（15）用固定的Uk和dk更新Vk：给定Uk和dk固定，我们得到以下目标函数：minL（Vk）=−2T r（VkTq）+αVkTX~2（十六）其中r e q=dkX〜ZkTUk并且dα=d2Uk2。K F优化方程的Vk(16)仍然是困难的，这里我们用离散循环坐标下降法求解Vk具体来说，我们每次求解一行Vk同时修复所有其他行。设v是Vk的第j行和Vk′ 列不包括v的Vk的向量。类似地，我们将q的第j个元素表示为qj，并且令q′为eqexcludingqj。LetxT是m在rixX~和X~ ′在rix处的时间序列X~excludingxT。该方案可如下所述：minL（V）=−2vq+2αV′TX~′xv（17）因此，Vk的第j行可以通过以下方式更新：v=sgn（q−αV′TX<$′x）（18）到目前为止，我们已经给出了通过最小化映射的qu_t_i z_i 〇 n_os来学习半二进制分量的细节，而不是像用半二元分解9l=1l=1l=1l=1l=1l=1l=1算法二：用SBD-FQ训练二进制权值网络输入：预训练的卷积神经网络权重{Wl}L和最大迭代次数输出：学习的二进制分量{U1}L，{Vl}L和{Dl}L对于l=1;l≤L，则对小批量图像进行采样，以生成X图像和Xl图像，使用Xl和Wl对于i=1;i≤N，更新残差矩阵Zk用全一矩阵初始化Vk，同时iter≤Max Iters用等式更新Uk（十五）用等式更新dk（十三）对于j=1;j≤S do更新Vk的第j个(18)结束结束结束结束微调二值化CNN模型返回{Ul}L、{Vl}L 和{Dl}L;3.4微调在对图像的量化损失进行直接分解或最小化之后，我们得到每一层的U、V和D。对于具有大小为c*d*d的T个卷积核的卷积层。在半二进制分解之后，我们将原始层替换为三层：卷积层convv、一个标度层scale d和卷积层convu。层conv v有K个大小为c * d * d的卷积核，层conv u有T个大小为K * 1 * 1的卷积核，层scale d只有K个参数。对于微调阶段，我们采用与[4]类似的方案来保持conv v和conv u中的二进制值。以conv u层为例，我们采用全精度（32位浮点）权重矩阵U f作为U的代理。在微调开始时用U初始化U f。在前向传播中，通过直接将U_f量化为二进制值来更新U，然后将U用于前向计算。在反向传播中，基于U计算梯度全精度U_f用于累加权重U的梯度。3.5复杂性分析在本小节中，我们分析了我们的二进制权重网络在推理阶段的时间和空间复杂度。对于具有大小为cdd的T个内核的卷积层，令H和W为输出特征图的高度和宽度10Qinghao Hu，Gang Li，Peisong Wang，Yifan Zhang，and JianChengβ*（S+T），则S=c*d*d。令Tm是一个乘法运算的时间，并且令Ta是一个加法运算的时间。一般来说，乘法运算比加法运算消耗更多的时间，特别是对于FPGA架构，因此TaTm。由于时间和空间复杂度高度依赖于K，这里我们使用超参数β来控制K的值，即令K= S*T。对于本文中的实验，如果没有指定，则β=1。时间复杂度经过半二进制分解后，层conv v、scale d和conv u的时间复杂度分别为H * W * S * K * T a、H * W * K * T m和H*W*K*T* T a。因此，加速比为：S*T*（Tm+Ta）S*T*（Tm+Ta）β（Tm+Ta）≈=（十九）K（S+T）<$Ta+K<$Tm K（S+T）<$Ta Ta空间复杂度经过半二进制分解后，层conv v、scale d和conv u的空间复杂度分别为S*K、32 K和K*T比特。压缩比为：ST32 32SK（S + T）+K * 32 ≈ K（S + T）= 32 β。（二十）对于β=1，我们的二进制权重网络可以实现≥2倍的加速和32倍的压缩比。在FPGA平台上，我们的二进制权重网络可以实现更高的速度，因为TaTm。表1表明，我们的方法的空间和时间复杂度小于[23][1][7]，几乎等于[4]。表1.最新二进制权值网络方法时间复杂度提速空间复杂度压缩比全精度（Tm+Ta）132*S*T1BinaryConnect [4]S*T *TaTm+ Ta不是S* T32[23] [1][7]STTa+TT m≈Tm+Ta不是S*T+32T≈32我们的（β= 1）S*T*Ta+K*Tm≈Tm+Ta不是S*T+32K≈324实验在本节中，我们首先详细介绍了训练设置，然后在量化损失和分类精度方面比较了不同的方法。在 FPGA 平台上实现了二进制权值AlexNet，最后讨论了不同β对半二进制分解的影响。4.1实验设置我们基于Caffe [14]框架实现了我们的方法，并且实验主要在具有8个Nvidia Titan Xp GPU的GPU服务器上进行。用半二元分解11图1.一、经由Dif的二进制量化损失-图二、AlexNet的Top5准确度方法无需微调的非线性量化方法我们使用三个深度网络在ImageNet2012上评估了我们提出的方法例如，AlexNet、ResNet-18和ResNet-50。在所提出的交替优化方法中，我们将最大迭代次数设置为20次。对于本文中的所有实验与[1，23，31]一样，深度网络中的第一层和最后一层仍然是浮点数格式。在[7，23]之后，在AlexNet中使用了批量归一化层我们对AlexNet进行了20万次迭代的微调，批量大小等于256。我们在开始时将学习率设置为 0.0001，并在 100k ， 150k 和 180k 次迭代后将其除以 10 。对于ResNet-18，学习率从0.0005开始，每20万次迭代除以10我们对ResNet-18进行了650 k次迭代，批量大小等于100。由于微调ResNet-50非常耗时，我们通过使用7个GPU对ResNet-50进行微调，仅进行450 K次迭代，batchsize=140。学习率初始化为0.0001，每200k次迭代除以10。4.2量化损失在这一小节中，我们比较了不同的二进制量化方法的量化损失。量化损失由近似权值和全精度权值之间的残差权值的Frobenius范数定义在这里，我们将所提出的SBD直接与BC [4]和BWN [23]进行比较。图1示出了在A1exNet的C 〇 n v2和C 〇 n v6 lay上的差异的二进制序列。结果表明，该方法具有比BC [4]和BWN [23]更低的量化损失，这得益于半二进制分解的更高表示能力4.3学习方法在前面的小节中，我们已经证明了半二进制分解可以实现比其他二进制量化方法更低的量化损失，但12Qinghao Hu，Gang Li，Peisong Wang，Yifan Zhang，and JianCheng没有讨论哪种方法可以学习更好的半二进制分量。在本小节中，我们比较了学习半二进制分量的不同方法。由于半二进制分解具有与奇异向量分解（SVD）类似的形式，因此获得半二进制分量的一种简单方法是对原始权重矩阵使用SVD之后将左和右奇异向量量化为二进制值我们将该方法称为Binary-SVD。图2显示了AlexNet通过不同方法学习半二进制成分后的前5名准确率在这里，我们逐层二值化AlexNet的权重，即图2的横轴中的conv4意味着conv2、conv3、conv4都被量化为二进制值。图2显示了Binary-SVD在三种方法中表现最差，这意味着简单地将SVD的奇异向量二值化很难实现良好的性能。SBD-Direct在二值化一个或两个层之后仍然保持准确性，但是随着层越多，其表现越差。SBD-FQ允许在您的映射的量化损失下最小化输出，且其甚至对于多个层也4.4关于Network的帐户的比较为了评估我们提出的方法的分类准确性，我们将我们的方法与BC[4]，BWN [23]，SQ-BWN [7]和HWGQ-BWN [1]进行了比较。表.图2示出了AlexNet和ResNet-18在2012年11月28日的图像上的Top1和Top5分类准确度。这清楚地表明，SBD-D和SBD-F输出形成了最先进的方法，在Topl和Top5准确度中具有大的裕度。具体来说，我们的二进制ResNet-18达到了66.2%的top1准确率，比最先进的方法高出5%表2.AlexNet和ResNet-18通过不同方法的分类精度方法AlexNetResNet-18Top1访问前5名访问Top1访问前5名访问全精度58.581.569.389.2BinaryConnect [4]35.461.0--SQ-BWN [7]51.275.158.381.6公司简介52.475.961.383.9BWN [23]56.879.460.883.0SBD-直接（我们的）58.080.364.986.4SBD-FQ（Ours）58.580.666.287.1我们还评估了我们的方法在一个更具挑战性的网络，即。ResNet-50. ResNet-50比AlexNet和ResNet-18更深，并且它具有更多的1× 1卷积核。表3报告了ResNet-50的Top1和Top5准确度。经过微调后，SBD-Direct和SBD-FQ 都比最先进的方法有很大的优势（top1准确率为5%）。从表2和表3中，我们可以发现SBD-FQ实现了比SBD-FQ更高的精度。用半二元分解13BD-直接半二进制分解，其中示出了如何最小化在你的映射的量化上优于直接半二进制分解。但是SBD-Direct比SBD-FQ分解更快，因为它比直接半二进制分解占用更多的时间。表3.ResNet-50通过不同方法的分类精度方法分类精度Top1Top5全精度75.292.2BWN [23]63.985.1SBD-直接（我们的）67.787.8SBD-FQ（Ours） 68.988.74.5FPGA实验为了证明我们提出的方法在CNN硬件加速上的效率，我们进一步在Xilinx Virtex-7 VX 485 T FPGA平台上实现了二进制权重的AlexNet微架构设计基于[29]，这是最先进的CNN加速器。考虑到能量和资源效率，我们将二进制权重AlexNet的激活量化为8位，激活量化后的top1和top5准确率分别为为了公平比较，我们采用相同的平台和工作频率，并将片上计算资源（LUT和FF）的使用限制为与[29]相同的水平。表4显示了我们对二进制权重AlexNet的评估结果显然我们的加速器是8。比浮点运算器快78倍，LUT和FF的使用几乎相同。此外，消费由于权重二进制化和激活的低精度表示，片上存储器和DSP块的数量大幅减少。表4. FPGA实验结果激活重量资源利用延迟提速DSP BramLUTFFZhang等人[29日]32位32位 22401024186251 205704 21.6毫秒1×我们8位1比特0261211554 303642 2.46毫秒8.78×4.6不同β图3示出了在使用所提出的具有不同β值的SBD-直接方法之后AlexNet的前5个准确度。随着β的增大，压缩比增大，但精度降低此外，我们注意到全连接层14Qinghao Hu，Gang Li，Peisong Wang，Yifan Zhang，and JianCheng对β的值不敏感，这意味着我们可以为全连接层选择更大的β以实现更高的压缩比。图三. AlexNet针对不同β的Top5准确度，无需微调5结论在本文中，我们提出了一种新的半二进制量化方法来训练二进制权重网络，我们还提出了一种交替优化方法来解决二进制约束下的半二进制分解因子在ImageNet2012数据集上的大量实验表明，我们的方法优于最先进的方法，具有很大的优势。在FPGA平台上的实验表明，我们提出的二进制权重网络可以实现近9倍的速度提升，使用较少的片上存储器和硬件资源。6确认本工作得到国家自然科学基金项目（No.61332016，No.61572500）、北京市教育委员会科研重点项目（KZ201610005012）、国家自然科学基金项目（No.61332016，No.61572500）的部分资助。中国科学院gic重点研究项目（批准号：XDBS01000000）。引用1. 蔡志，他，X.，孙，J.，Vasconcelos，N.：通过半波高斯量化进行低精度深度学习。 2017 年 IEEE计算机视觉与规划研究会议。 pp.5406-5414IEEECommputerSociety，Honolulu，HI，USA（2017）.https://doi.org/10.1109/CVPR.2017.574用半二元分解152. 郑杰，吴，J.，Leng，C. 王玉， Hu，Q.：量化CNN：加速和压缩卷积网络的统一方法。IEEETransacti onsonNeuralNetorksandLearningSystemsspp.1- 14（2017）。https://doi.org/10.1109/TNNLS.2017.27742883. 郑杰，王，P.，Li，G.，胡QLu，H.：Deep卷积神经网络工作的高效计算的最新进展。FrontiersofITEE19（1），64https://doi.org/10.1631/FITEE.17007894. Courbariaux，M.，Bengio，Y.，David，J.：Binaryconnect：训练深度神经网络-在传播过程中使用二进制权重。在：Cortes，C.，劳伦斯，北达科他州，李D.D.Sugiyama，M.，加内特河（编辑）神经信息处理系统进展28.pp. 3123电影Montreal，Quebec，Cana da（2015）5. Denil，M.，Shakibi，B.，丁湖de Freitas，N.，等：深度学习中的参数In：Burges，C.J.C.，博图湖Ghahramani，Z.，Weinberger，K.Q.（编辑）ADVANEURANPR OCESINS YSYSTESYS26.pp.2148-2156CurranAssociates，Inc.美国内华达州太浩湖（2013）6. Denton，E.L.，Zaremba，W.，Bruna，J.，LeCun，Y.，Fergus，R.：利用卷积网络中的线性结构进行有效评估。In：Ghahramani，Z.，Welling，M.，科尔特斯角劳伦斯，北达科他州，Weinberger，K.Q.（编辑）在新形式的生产系统中取得的进展27。pp. 1269- 1277年。CürranAssociates，Inc.，加拿大魁北克省蒙特利尔7. Dong，Y.，尼河李杰，陈玉，Zhu，J.，Su，H.：使用随机量化学习精确的低位CoRR abs/1708.01001（2017），http://arxiv.org/abs/1708.010018. Gong，Y.，刘，L.，杨，M.，Bourdev，L.：使用矢量量化压缩深度卷积ArXiv预印本arXiv：1412.6115（2014）9. 古普塔，S.，阿格拉瓦尔，A.，Gopalakrishnan，K.，Narayanan，P.：深度学习，数值精度有限。在：Bach，F.，Blei，D.（编辑）第32届机器学习国际会议论文集Proceedings of Machine Learning Researc h，vol.第37页。1737P.M.L.R.，Lille，Frannce（2015）10. 汉，S.，普尔J Tran，J. Dally，W.J.：学习权值和连接以实现高效的神经网络。在：Cortes，C.，劳伦斯，北达科他州，李D.D.Sugiyama，M. ，加内特河（编辑）神经信息处理系统的进展28.pp. 1135 电影Montreal，Quebec，Cana da（2015）11. Hassibi，B.，斯托克，D.G.：用于网络修剪的二阶导数：最佳脑外科医生。在：Hanson，S.J.，Cowan，J.D.，Giles，C.L.（编辑） Advancesin Neu-raIinFormation ProcessSystem5. pp. 164- 171。03TheDog of theWoman（1992）12. 胡Q王，P.，Cheng，J.：从hashing到cnns：通过散列训练二进制权重网络。In：McIlraith，S.A.，Weinberger，K.Q.（编辑）第32届AAAI人工智能会议AAAI Press，New Orleans，Louisiana，USA（2018）13. Jaderberg，M.，Vedaldi，A.，齐瑟曼，A.：用低秩扩展加速卷积神经网络。In：Valstar，M.F.，法语，AP，Pridmore，T.P.（编辑）英国机器视觉会议，BMVC 2014。BMVA Press，Nottingham，UK（2014）14. Jia ，Y.，Shelhamer ，E.，Donahue，J.，Karayev，S.，朗J格尔希克河Guadarrama，S.，达雷尔，T.： Caffe：用于快速特征嵌入的卷积架构。在： Proceedings of the 22Nd ACM International ConferenceonMultimedia. pp.675-678MM’14，A C M，N e w Y o r k，NY，U S A（2014）。https://doi.org/10.1145/2647868.265488916Qinghao Hu，Gang Li，Peisong Wang，Yifan Zhang，and JianCheng15. Kim，Y.，Park，E.，刘S Choi，T.，杨湖，Shin，D.：用于快速和低功耗移动应用的深度卷积神经网络 CoRR abs/1511.06530 （ 2015 ），http://arxiv.org/abs/1511.0653016. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：图像网络分类与Deep的概念在一个网络中的一个网络任务。来吧 ACM60（6），84- 90（2017）。https://doi.org/10.1145/306538617. Lebedev，V.，Ganin，Y.，Rakhuba，M.，Oseledets静脉注射Lempitsky，V.S. ：使用微调的 cp 分解加速卷积神经网络。CoRR abs/1412.6553（2014），http://arxiv.org/abs/1412.655318. Lebedev，V.，Lempitsky，V.S.：使用组智能脑损伤的快速通信。2016年IEEE 计算机视觉和模式识别会议。 pp.2554-2564IEEECommputerSociety，LasVegas，NV，USA（2016）. https://doi.org/10.1109/CVPR.2016.28019. LeCun，Y.，Denker，J.S.，Solla，S.A.：最佳脑损伤。在：Touretzky，D.S. （ed. ）在N个神经元形式中的DVA V AV AVA V NPROCESSIG系统2中。pp. 598美国科罗拉多州丹佛市的Morgan Kaufmann（1989）20. Lin，D. Talathi，S.，Annapureddy，S.：深度卷积网络的不动点量化。In：Balcan，M.F.，Weinberger，K.Q.（编辑）第33届机器学习国际会议论文集。 Proceedings of Machine Learning Resear ch， vol. 第 48页。 2849-2858PMLR，新约克，新约克，美国（2016）21. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。In：IEEE Conference on Computer Vision and Pattern Recognition，CVPR2015，Boston ， MA ， USA ， June7- 12 ， 2015.pp. 3431IEEEComputer Society（2015）.https://doi.org/10.1109/CVPR.2015.729896522. 邱，J.，王杰，Yao，S.，郭，K.，李，B.，Zhou，E.，余，J.，Tang，T.，许、N.，Song，S.，王玉，Yang，H.：深入研究卷积神经网络的嵌入式 FPGA 平台。在： Chen ， D. ，格林， J.W. （编辑） 2016ACM/SIGDA现场可编程门阵列国际研讨会论文集pp.26比35FPGA'16 ， ACM ， NewYork ， NY ， USA （ 2016 ） .https://doi.org/10.1145/2847263.284726523. Rastegari，M.，Ordone

下载后可阅读完整内容，剩余1页未读，立即下载