低成本协作层加速卷积神经网络推理过程的网络结构

14 浏览量更新于2023-10-15 收藏 846KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15840我多即是少：一个更复杂的网络，具有更低的推理复杂性董宣义1人，黄俊石2人，杨毅1人，严水成2人，3人1悉尼科技大学CAI，2360 AI Institute，3新加坡国立大学dongxuanyi888@icloud.com;huangjunshi@360.cnyi. uts.edu.au;yanshuicheng@360.cn摘要本文提出了一种新的通用的网络结构，用于加速卷积神经网络的推理过程核心思想是为每个原始卷积层配备另一个低成本协作层（LCCL），这两个并行层的ReLU输出的逐元素乘法产生逐层输出。组合层潜在地比原始卷积层更具鉴别力，并且其推断更快，原因有两个：1）LCCL特征图的零单元在逐元素乘法之后将保持为零，因此它是softmax完全连接Conv层C输入K内核W协作内核中间结果（ReLU后）输出安全地跳过原始卷积层中相应的高成本卷积的计算;2）如果LCCL被实现为1×1卷积或仅由所有通道共享的单个滤波器，则其速度非常快。CIFAR-10、CIFAR-100和ILSCRC-2012的广泛实验基准测试表明，我们提出的网络结构可以加速推理过程平均32%，而性能下降可以忽略不计。1. 介绍尽管卷积神经网络（CNN）的性能不断提高[1，10，21，24，30，32]，但它们的计算成本仍然巨大。如果没有高效率服务器的支持，很难在现实世界的应用中建立CNN模型。例如，要处理224×224图像，AlexNet[21]需要725 M FLOP和61 M参数，VGG-S[1]需要2640 M FLOP和103 M参数，GoogleNet[32]需要1566 M FLOP和6.9M参数。因此，为了利用深度神经网络在计算能力有限的移动设备上的成功，加速网络推理变得势在必行。这篇文章是董宣喜在360人工智能学院实习时完成的.图1. 基本加速块。图中的橙色面板显示了两种不同类型的低成本协作内核。一′使用1×1卷积，另一个使用共享内核（W=′对于i，j∈[1，T]）。黑色的反应图代表了外-把原始卷积层与内核W，和橙色响应图由低成本协作层生成。紫色单元格表示零元素，其对应位置的计算可以在原始卷积层中跳过我们对来自原始卷积层和低成本层的激活响应映射应用逐元素乘法，以生成此基本加速块的最终结果。在本文中，我们基于观察到许多卷积层的响应图在ReLU[26]激活后通常是稀疏的，研究了CNN模型的加速。因此，我们可以跳过计算ReLU输出中的零单元，而只计算每个响应图中的非零单元的值，而不是完全计算层响应理论上，零单元的位置可以通过较低成本的层来预测。来自该较低成本层的非零单元的值可以通过原始滤波器的响应来协同更新最后，低成本协作层（LCCL）与原始层一起构成了我们提出的低成本协作网络（LCCN）的基本元素。VVV不选项1：1备选方案二：K牛牛车公羊大角羊瞪羚15841为了给每个原始卷积层配备一个LCCL，我们对来自LCCL和原始卷积层的响应图应用逐元素乘法，如图所示。1.一、在训练阶段，该架构可以自然地由现有的随机梯度下降（SGD）算法与反向传播训练。第一′在[36，37]中，作者使用广义奇异向量分解（GSVD）将原始层分解为两个近似层，降低了计算复杂度。固定点。一些流行的加速测试相位计算基于在[4]中，作者用一个动态的我们计算响应图V′在LCCL之后，固定点格式，它在一组状态上取得成功激活层，并使用V最后的反应地图。以指导计算最先进的神经网络Gupta等人[9]使用随机舍入来训练深度网络，具有16位宽的固定-尽管有大量的研究，基于稀疏的框架用于加速网络推理，例如，[7，8，22，23，25]，我们声称LCCN是独一无二的.通常，大多数基于稀疏性的方法[22，25，31]将稀疏性作为正则化器集成到参数的学习中，这通常会损害网络的性能。此外，为了进一步加速性能，一些方法甚至根据预定义的阈值任意地将响应图的值归零。与这些方法相比，我们的LCCN自动设置为零的负值，并精确计算响应图中的正值与LCCL的帮助。这种双流策略达到了显著的加速率，同时保持了与原始网络相当的性能水平。主要贡献概述如下：• 我们提出了一种通用架构来加速CNN，它利用低成本的协作层来加速每个卷积层。• 据我们所知，这是第一个利用低成本层来加速网络的工作。为每个卷积层配备一个协作层与现有的加速算法完全不同。• 实验研究表明，与现有方法相比，LCCN在许多深度神经网络上都有显着改进（例如，在ResNet-110上加速34%）。2. 相关工作低阶。具有基于低秩近似的方法的张量分解通常用于加速深度卷积网络。例如，在[5，18]中，作者利用卷积滤波器之间的冗余Yang等[34]使用自适应快餐变换被用来用一系列简单的矩阵乘法来替换全连接层，而不是原始的密集和大的矩阵乘法。Liu等[25]提出稀疏分解以减少卷积参数中的冗余。点数表示法在[2，3]中，训练了一个标准网络，其二进制权重由1 位表示，以加快网络速度。然后，Rastegari等人[27]进一步探索了二进制网络，并将其扩展为将每层的数据张量二进制化，将速度提高了57倍。产品量化。其他一些研究人员专注于产品量化来压缩和加速CNN模型。[33]的作者提出了一个框架，通过量化网络参数加速测试阶段计算过程，并通过误差校正学习更好的量化。 Han等人[10]建议使用一个prun-ing阶段以减少神经元之间的连接，然后通过权重共享微调网络，将卷积参数的位数从32量化到5。在另一项工作[15]中，作者以极低的精度训练神经网络，并将其扩展到量化的递归神经网络。Zhou等[39]推广了二进制神经网络的方法，允许网络具有任意位宽的权重，激活和梯度。稀疏。一些算法利用CNN架构中卷积核或响应图的稀疏性。在[38]中，许多神经元通过将稀疏约束并入目标函数而被抽取。在[8]中，提出了一种CNN模型来处理空间稀疏的输入，可以利用它来提高评估过程的速度。在[22]中，作者使用组稀疏正则化器以分组方式修剪卷积核在[7]中，他们通过在一些固定的空间位置跳过卷积层的评估来提高卷积层在[23]中，作者提出了一种压缩技术来修剪滤波器，对输出精度的影响很小架构一些研究者通过仔细设计神经网络的结构来提高网络的效率。在[13]中，通过从多个繁琐的模型中提取知识来训练一个简单的模型，这有助于降低计算成本，同时提高精度。罗梅罗等人[28]通过对教师网络的知识提取，扩展了知识提取方法，训练出比教师网络更深但更细的学生网络这样，学生网络使用更少的参数和运行时间，以获得相当大的加速比教师网络相比。15842Iandola等人[16]提出了一种小型DNN架构，′同时，由于V将保持为零后，通过相同的策略，仅使用少50倍的参数和少得多的计算时间，实现与AlexNet相似的性能。3. 低成本协作网络在本节中，我们将介绍我们提出的用于加速深度卷积神经网络的架构。首先，我们介绍在以下部分中使用的基本符号然后，我们展示了加速块的详细公式，并将我们的框架扩展到一般的卷积神经网络。最后，我们讨论元素乘法，V通过跳过零单元的计算，′根据V.显然该策略导致单个卷积层中的速度增加。为了进一步加速整个网络，我们可以为大多数卷积层配备LCCL。3.3.核选择如图中的橙色框所示1、第一种形式′利用1×1×C×T核（k=1）为每个原始ker-NEL以协作地估计最终响应图。的我们的加速架构的计算复杂度。′第二种结构使用k′×k×C×1滤波器（我们仔细3.1. 初步让我们回想一下卷积运算符。为了简单起见，我们讨论的问题没有偏置项。给定一个卷积层，我们假设输入张量U和输出张量V的形状为X×Y×C和X×Y×T，其中X和Y分别是响应图的宽度和高度。C和T表示响应调整参数k原始过滤器来计算最终结果。当与原始卷积层进行比较时，这两个协作层在推理期间使用更少的时间，因此它们理论上能够获得加速。在许多有效的深度学习框架中，如Caffe[19]，卷积运算通过平坦化某些维度的十元数来重新表示为乘法，例如：映射U和V。大小为k×k×C×T的张量W用作该卷积层的权重滤波器Vt（x，y）rep-表示V（x，y，t）的元素。然后，卷积∗∗V = U ×W∗S.T. U ∈RXY×k2C∗∗，W E∈Rk2C×T（四）运算符可以写成：Σk ΣCVt（x，y）=Wt（i，j，c）U（x+i−1，y+i−1，c）（1）i，j=1c =1其中Wt（x，y）是W（x，y，t）的元素。在LCCN中，每个LCCL的输出映射应具有与对应的卷积层相同的大小′矩阵U的每一行都与空间位置相关从张量U变换的输出张量的重整形，W是从权重滤波器W变换的重整形张量。这些有效的实现利用了BLAS库的高效率，例如，GEMM1和GEMV2。由于V中跳过的单元格的每个位置对应于矩阵U中的一行，因此我们可以通过减少乘法函数 LCCL的不同结构这意味着张量V的形状是X×Y×T。模拟′类似地，我们假设V的权重核′是水渍因此，我们认为，需要不同的实现。对于k×k×C×1核，原始卷积中跳过的单元格的位置LCCN的公式可以写为：在不同的信道中，信道层是相同的。在这种情况下-′“kC”这样，我们就可以减少U的大小，′到S′ ×k2C，其中S′为Vt（x，y）=Wt（i，j，c）U（x+i−1，y+i−1，c）（2）V中非零元素的个数. 对于1×1×C×Ti，j=1c =13.2. 整体结构我们的加速块如图所示。1.一、绿色块V表示由原始卷积层和LCCL共同计算的最终响应图。一般来说，它可以表述为： .′如果Vt（x，y）= 0，核，零单元的位置在不同的核中是不同的因此，直接用矩阵-矩阵乘法函数来计算LCCL的结果，即LCCL是不可行的。′V. 在这种情况下，我们必须分离矩阵-矩阵矩阵向量乘法。然而，这种方法很难达到预期的加速效果。1×1×C×T滤波器加速性能不理想的原因是由于多重GEMV的效率较低，以及一些额外的运算Vt（x，y）=′ ′（3）Vt（x，y）×Vt（x，y）如果Vt（x，y）0其中V是来自原始控制器的输出响应图花费更多时间（例如，数据重建）。所以我们实验中选用k×k×C×1结构的LCCL，并保留1×1×C×T的加速度V来自LCCL。在此公式中，将逐元素乘积应用于V′过滤器作为我们未来的工作。和V来计算最终的响应图。由于小′1矩阵-矩阵乘法函数LCCL的大小，V可以忽略。2矩阵-向量乘法函数15843′.′残余块BNReLUBNReLUConvConv带LCCL的残留块ConvBNReLU原始转换层BNReLUConv协作层（+活动）Conv协作层（+活动）图2.LCCL与原始卷积层协作的连接策略上图显示了激活前的残留块[12];下图显示了加速残留块的第一个LCCL在被BN和ReLU激活之前接收输入张量，第二个LCCL在BN和ReLU激活之后接收输入张量。(Best查看原始PDF文件。）3.4. 稀疏性改进根据前面的讨论，模型加速的最简单方法是直接乘以张量′V张量V 然而，这种方法无法实现由于低稀疏性，′率V。为了提高V的稀疏性，ReLU[26]激活是一种简单有效的方法，将负值设置为零。此外，由于正激活的冗余性，我们还可以在LCCL中添加L1这样，我们就得到了一个光滑的L1L2（X）=μπ Xπ+ρ| X|每个V的正则化惩罚：‚表1. 具有相同训练设置的不同激活的LCCL的稀疏性。“WithBN” means we activate the response map“x.y”表示ResNet第x阶段的第y个区块。我们在ResNet- 20模型上为六个卷积层配备了LCCLBN层提高了LCCL的稀疏性，. ΣnǁXǁ=,i=1X2 |为|=我Σni=1 |（五）|(5)通过ReLU激活，从而可以进一步提高我们LCCN的加速率。我们推测BN层′平衡V′减少了冗余然而，在reg中有数千个自由参数，V中的正值通过丢弃一些冗余的AC-极化项和附加损耗的存在使分类性能下降，最近，提出了批量归一化（BN）[17]，通过稳定分布和减少输入数据的内部协变量偏移来提高网络性能并提高训练期间的收敛速度。在这个过程中，我们观察到每个LCCL的稀疏率如表1所示，我们可以发现激励因此，为了提高加速率，我们仔细整合BN层到我们的LCCL。受激活前残差网络[12]的启发，我们采用不同的策略来激活和整合LCCL。通常，该协作层的输入可以在激活之前或激活之后。以预激活剩余网络[12]为例，我们在图的底部说明了“Bef-Aft”连接策略。二、“Bef”表示输入张量来自BN和ReLU激活之前的流的情况。“Aft”层关于BN无BNconv1conv2conv1conv2res-block-1.2百分之三十八点八百分之二十八点八百分之零点零百分之零点零15844输入张量与BN和ReLU激活后的原始卷积层相同的情况根据图1中的二、可以容易地导出“Bef-Bef”、“Aft-Bef”和“Aft-Aft”策略。在我们的实验中，我们发现，由于不同的激活，与相应的卷积层相比，具有“Bef”策略的输入张量在这种策略中，LCCL无法准确预测原始卷积层的零单元。因此，最好使用与原始卷积层相同的输入张量，即。3.5. 计算复杂度现在我们用我们的加速架构来分析测试阶段的数值计算。对于每个卷积层，前向过程主要由两个部分组成，即：低成本协作层和跳过计算卷积层。假设稀疏度（比率′零元素）的响应图V是R。我们形成-详细计算卷积层的计算成本，并将其与配备我们的LCCL的卷积层进行比较。架构FLOPs加速比CNNXY T k2C0基本（1×1内核）（权重共享）XY TC（k′2+k2r）XYTC（1+k2r）XY T k2（1+Cr）1−（k′2/k2+r）1−（1/k2+r）1−（1/C+r）表2.对流层理论数值计算加速如表2所示，加速比高度依赖于r。术语1/C花费的时间很少，因为在大多数CNN模型中输入张量的通道总是很宽，并且它几乎不影响加速性能。实验结果表明，稀疏度r在某些层中达到较高的比率.这两个事实表明，我们可以获得相当大的加速比。详细的统计结果在实验部分中描述。在基于残差的网络中，如果残差块中一层的输出全为零，我们可以跳过后代卷积层的计算，直接预测这个块的结果。这个属性有助于进一步加速剩余网络。4. 实验在本节中，我们在三个基准数据集上进行实验，以验证我们的加速方法的有效性。4.1. 基准数据集和实验设置我们主要根据三个基准评估我们的LCCN分为10个类别，每个类别包含6，000幅图像。该数据集分为50，000张训练图像和10，000张测试图像。CIFAR-100[20]数据集类似于CIFAR-10，不同之处在于它有100个类，每个类有600个图像。每个类包含500个训练图像和 100 个测试图像。对于 CIFAR-10 和CIFAR-100，我们将50 k训练数据集分成45 k/5 k进行验证。ImageNet 2012数据集[29]是一个著名的基准测试，包含128万张1,000类的训练图像。我们使用top-1和top-5错误率对50 k验证图像进行评估。深度残差网络[11]表现出令人印象深刻的性能，具有良好的收敛行为。他们的重要性已经增加，正如正在进行的研究[12，35]所我们主要应用我们的LCCN来提高这些改进的深度残差网络的速度在CIFAR实验中，我们使用默认参数设置[12，35]。然而，很明显，我们的LCCN比原始CNN模型更复杂，这导致需要更多的训练时期才能收敛到稳定的情况。因此，我们增加了训练时间，并执行不同的学习率策略来训练我们的LCCN。我们从0.01开始学习率以预热网络，然后在总迭代的3%之后将其增加到0.1然后在45%、70%和90%迭代时除以10我们根据验证数据从{200，400，600，800，1000}在ILSVRC-12上，我们遵循与[11，12]相同的参数设置，但使用不同的数据论证策略。(1)规模扩大：我们使用比例和纵横比增强[32]而不是[11，12]中使用的比例增强[30]。（2）色彩增强：我们使用来自[14]的摄影失真来改进在[11，12]中使用的标准颜色增强[21]。（3）重量衰减：我们将权重衰减应用于所有权重和偏差。这三个差异应该会稍微提高性能（参考Facebook实现3）。根据我们使用CIFAR的经验，我们将训练周期延长到200，并使用从0.1开始的学习率，然后每66个周期除以10。对于CIFAR实验，我们报告了加速性能和top-1误差，以与原始论文[12，35]中提供的结果进行比较。在ILSVRC- 12上，由于我们使用不同的数据论证策略，我们报告了以与我们相同的方式训练的原始CNN模型的前1个错误，并且我们主要将准确性下降与其他最先进的加速算法进行比较，包括：（1）二进制权重网络（BWN） [27]，将卷积权重二进制化 ;（ 2 ）XNOR- Networks（XNOR）[27]，它将卷积和非卷积都二进制化，函数权重和数据张量;（3）Ef的修剪过滤器CIFAR-10、CIFAR-100 [20]和ILSVRC-12 [29]。的CIFAR-10数据集包含60，000张32×32图像，3https://github.com/facebook/fb.resnet.torch15845图3. ResNet-20中每个协作卷积层的响应映射的稀疏度。我们使用LCCL修改18个卷积层来加速ResNet-20。“x.y”表示第x个广义卷积块中的第y个残差块。“conv1” and “conv2” represent the first and the second collaboration convolutional in the correspondingresidual高效的ConvNets（PFEC）[23]，它修剪了对CNN输出精度影响很小的滤波器。4.2. CIFAR 10和CIFAR 100的实验首先，我们研究了使用核选择和稀疏性改进部分中提出的不同连接策略对性能的影响。我们使用预激活ResNet-20作为我们的基础模型，并将LCCL应用于残留块内的所有卷积层使用相同的训练策略，四种不同连接策略的结果如表3所示。两个协同层与后激活方法显示出最好的性能与相当大的加速比。因为Aft策略接收与相应卷积层相同的输入分布。我们还尝试使用L1L2损失来限制每个LCCL的输出映射.但这将增加数千个需要在L1L2损失函数中优化的额外值在这种情况下，网络很难收敛，性能太差，无法比较。结构Top-1错误提速船尾8.32百分之三十四点九Aft-Bef8.7124.1%贝夫-贝夫11.6239.8%Bef-Aft12.85百分之五十五点四表3.ResNet-20上连接策略的激活前和激活后每个LCCL使用3×3×k内核。此外，我们分析了在LCCL中使用不同内核对性能的影响。有两种形式的LCCL与相应的卷积层协作。一个是大小为1×1×C×T的张量（记为1×1），另一个是大小为k×k×C×1模型1× 1×C×不k×k ×C ×1FLOPs比误差FLOPs比误差ResNet-203.2E7百分之二十点三8.572.6E7百分之三十四点九8.32ResNet-324.7E731.2%9.264.9E7百分之二十八点一7.44ResNet-446.3E734.8%8.576.5E732.5%7.29表4. 两个不同协作层上的top-1错误率比较。(The ‘Ratio’represents the speedup（记为k×k）。如表4所示，与1×1内核相比，k×k内核显示出显著的性能改进，具有类似的加速比这可能是由于k×k核具有比1×1更大的接收场。图中说明了从LCCL生成的每个响应图的稀疏性统计。3.第三章。该LCCN基于ResNet-20，每个残差块配备由1×1×C×T内核配置的LCCL为了获得稳定和鲁棒的结果，我们尽可能多地增加训练时期，并提供所有400个时期的稀疏性变化。前几个协作层显示出很大的加速比，节省了50%以上的计算成本。即使最后几个协作层的行为不如前几个，基于k×k×C×1的方法也能够实现30%以上的速度提升。目前，我们已经证明了使用不同的低成本协作内核和策略训练配备LCCL的CNN模型的可行性。考虑到性能和现实的实现，我们选择了我们的LCCL的重量共享核。这将作为默认值用于所有以下实验。此外，我们在CIFAR-10和CIFAR上实验了更多的CNN模型[12，35]，这些模型由我们的LCCN加速100. 除了使用瓶颈的ResNet-164[12]158463 ×3深度奥里ErrLCCN提速ResNet[12]110164*6.375.466.565.9134.21%27.40%22-84.384.9051.32%28-25.735.8121.40%WRN[35]40-140-26.855.337.655.9839.36%31.01%40-44.975.9554.06%52-16.836.9941.90%表5.CIFAR-10上八种不同CNN模型的前1错误和加速奥里Err表示原始卷积网络的前1个误差1×1相似计算量，我们的LCCL能够超过原来的深度残差网络。例如，在CIFAR-100数据集上，WRN-52-1上的LCCN获得了比原始WRN-40-1更高的精度，而FLOP成本仅增加约2%请注意，我们的加速是数据驱动的，并且可以在“简单”数据上实现更高的加速比在无法实现高精度的情况下，它预测许多零，这会损害网络结构。从理论上讲，如果我们将LCCL设置为身份（密集）网络，则LCCN将达到与原始网络相同的为了提高效率，LCCL的输出需要稀疏，这可能会略微牺牲精度，一些案件。我们还观察到一些其他的残差块3×3，所有其他模型使用基本残差-1× 1肛门阻滞3×3英寸。我们使用LCCL来加速除第一层以外的所有卷积层，第一层将原始图像作为输入张量。第一个卷积层对原始图像进行操作，由于输入通道较小（RGB 3通道），因此花费的时间很少。在瓶颈结构中，很难在所有卷积层加速的情况下达到良好的收敛。具有1×1内核的卷积层主要用于降低维度以消除计算瓶颈，这与我们的LCCL的加速效果重叠这个属性使得具有1×1内核的层对与我们的LCCL的协作更加敏感。因此，我们应用我们的LCCL来修改CIFAR-10上瓶颈残差块中的第一个和第二个卷积层。对于CIFAR-100，我们只在瓶颈残差块中使用3×3内核修改第二卷积层。理论数值计算加速度和精度性能的详细信息见表5和表6。深度奥里ErrLCCN提速ResNet[12]164*24.3324.7421.30%16-424.5324.83百分之十五点一九22-821.2221.30百分之十四点四二WRN[35]40-140-230.8926.0431.3226.9136.28%45.61%40-422.8924.1034.27%52-129.8829.5522.96%表6.CIFAR-100上七种不同CNN模型的前1错误和加速奥里Err表示原始卷积网络的前1个误差实验表明，我们的LCCL在更深的卷积网络上运行良好，例如预激活ResNet-164 [12]或WRN-40-4 [35]。卷积运算例（表6中的WRN-52-1），因为稀疏结构可以降低过拟合的风险。4.3. ILSVRC 12我们在ResNet-18，34上测试了我们的LCCN，并进行了一些结构调整。在ResNet-18上，我们加速了残差块中的所有卷积层。然而，ResNet-34很难在所有卷积层加速的情况下进行优化因此，我们在每个阶段（层2、3、8、9、16、17、28、29）跳过第一残差块原始模型和我们的LCCN在相同设置下的性能见表7。深度Top-1错误Top-5错误提速ResNetLCCNResNetLCCN1830.0233.6710.7613.06百分之三十四点六3426.5827.018.648.81百分之二十四点八表7.ImageNet分类任务中LCCN的 Top-1和Top-5错误我们在ResNet- 18，34 [12]上展示了LCCN的成功，所有这些都获得了有意义的加速，但性能略有下降。深度方法提速Top-1 Acc. 下降前5名Acc. 下降LCCL百分之三十四点六3.652.3018BWN50块0%的百分比8.506.20XNOR1998年百分之三18.1016.0034LCCL百分之二十四点八0.430.17PFEC百分之二十四点二1.06-表8. 与ResNet上其他加速方法的比较。Acc. Drop表示准确度下降。我们将我们的方法与其他最先进的方法进行了比较，如表8所示。正如我们所看到的，类似于其他在基于残差的网络中，因子占据了整个网络的计算开销，其FLOP占90%以上。因此，对于我们的LCCN来说，加速这种卷积主导的网络而不是具有高成本全连接层的网络是有益的在实践中，我们总是能够实现超过30%的计算减少深度残差网络。与15847加速方法，有一定的性能下降。然而，我们的方法实现了更好的精度比其他加速方法。4.4. 理论与现实加速理论加速比和实际加速比之间往往存在很大差距这是由效率的局限性造成的15848BLAS库、IO延迟、缓冲开关或其他一些。因此，我们比较了理论和现实的加速比与我们的LCCN。我们基于开源深度学习框架Caffe[19]测试了现实速度。在我们的实验中，OpenBLAS被用作Caffe中的BLAS库。我们设置CPU模式，并使用一个线程来进行公平的比较。结果示于表9中。模型FLOPs时间（ms）提速CNNLCCLCNNLCCL西奥房ResNet-181.8E91.2E997.177.1百分之三十四点六百分之二十点五ResNet-343.6E92.7E9169.3138.6百分之二十四点八百分之十八点一表9.理论加速比与实际加速比的比较图像LCCL转换图像LCCL转换讨论如表9所示，我们的实际加速比小于理论加速比，这主要是由两个原因造成首先，我们使用数据重构和矩阵-矩阵乘法来实现卷积运算器，如Caffe [19]。由于数据重构运算时间过长，使得LCCL的成本远远高于理论速度。其次，前卷积层通常比后卷积层花费更多的时间，但包含较少的稀疏性，这降低了整个卷积神经网络的整体加速效果。这两个缺陷在理论上是可以解决的，我们将在未来的现实加速。平台在卷积网络中减少矩阵大小的想法原则上也可以应用于GPU，尽管应该对我们的LCCN进行一些修改以更好地利用现有的GPU库。此外，我们的方法是独立于平台，并应工作在FPGA平台与定制。4.5. LCCL可视化这里有一个关于我们LCCL的有趣观察。我们在PASCAL VOC 2007[6]训练数据集上可视化LCCN的结果。我们选择ResNet-50作为竞争对手，并添加了额外的20通道对于我们的LCCN，我们为该竞争对手型号的最后6层配备了我们的LCCL。微调后，从最后一个LCCL和竞争对手模型的相应卷积层生成的特征图如图所示。4.第一章正如我们可以观察到的，我们的LCCL可能有能力突出显示前景对象的字段，并通过协作属性消除背景的影响。例如，在第二个三元组中，车和人在同一响应图中被LCCL同时激活。乍一看，这些突出显示的区域看起来与注意力模型获得的位置相似。但它们在许多方面本质上是不同的，例如，动机、计算操作、反应意义和结构。火车沙发图4. 从生成的特征图（ReLU之后）我们的LCCN的最后一个LCCL和ResNet-50的相应卷积层被可视化，用于测试PASCAL VOC 2007数据集的样本每个三元组表示一个图片及其相应的特征图。LCCL的激活区域似乎比ResNet-50的激活区域高亮更多的前景对象同时，LCCL还可以降低背景面积.5. 结论在本文中，我们提出了一种更复杂的网络结构，但推理复杂度更低，以加速深度卷积神经网络。我们在原有的卷积层上增加了一个低成本的协作层.这种协作结构通过跳过由LCCL预测的零单元的计算来加速测试阶段计算。为了解决在基本LCCN结构上实现加速的困难，我们引入了ReLU和BN来增强稀疏性并保持性能。LCCN的加速是数据依赖的，这比硬加速结构更合理。在实验中，我们在CI-FAR和ILSVRC-12上对各种模型进行了加速，我们的方法在分类准确率只有轻微损失的情况下实现了显著的加速。此外，我们的LCCN可以应用于大多数基于卷积网络的任务（例如，检测、分割和识别）。同时，我们的LCCN能够插入其他一些加速算法（例如，定点或基于修剪的方法），这将进一步增强加速性能。谢谢。Xuanyi Dong和Yi Yang的研究得到了GoogleFaculty Award和Data to Decisions Cooperative ResearchCentre（d2dcrc.com.au）的部分支持。车人船总线电视监视器电视监视器15849引用[1] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。BMVC，2014年。[2] M. Courbariaux和Y.本吉奥。Binarynet：训练深度神经网络，权重和激活限制为+1或-1。arXiv预印本arXiv：1602.02830，2016。[3] M. Courbariaux，Y.Bengio和J.P. 大卫Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。2015年，在NIPS[4] M. Courbariaux，J. P. David和Y.本吉奥。用低精度乘法训练深度神经网络。arXiv预印本arXiv：1412.7024，2014年。[5] E. L. Denton，W. Zaremba，J. Bruna，Y. LeCun和R.费格斯。利用卷积网络中的线性结构进行有效评估。在NIPS，2014。[6] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，2010年。[7] M. Figurnov，D. Vetrov和P.科利。穿孔：通过消除冗余卷积实现加速。ICLR，2016年。[8] B.格雷姆空间稀疏卷积神经网络。arXiv预印本arXiv：1409.6070，2014。[9] S. 古普塔A。Agrawal，K.Gopalakrishnan和P.纳拉亚南深度学习，数值精度有限。ICML，2015。[10] S.汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR，2016.[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[12] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV，2016年。[13] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取知识arXiv预印本arXiv：1503.02531，2015。[14] A. G.霍华德基于深度卷积神经网络的图像分类的一些改进。arXiv预印本arXiv：1312.5402，2013。[15] I.胡巴拉M. Courbariaux，D.苏德里河El-Yaniv，以及Y.本吉奥。量化神经网络：用低精度权重和激活训练神经网络。arXiv预印本arXiv：1609.07061，2016。[16] F. N. Iandola，M. W.莫斯基维茨K.阿什拉夫S.汉，W。J.达利和K.库茨Squeezenet：Alexnet级精度，参数减少50倍， …1MB 型号大小。 arXiv 预印本 arXiv ：1602.07360，2016.[17] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。[18] M. Jaderberg，A. Vedaldi和A.齐瑟曼。加速具有低秩扩展的卷积神经网络。InBMVC，2014.[19] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM MM，2014中。[20] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。2009年[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。[22] 列别捷夫和V. Lempitsky利用群体性脑损伤的快速转换。在CVPR，2016年。[23] H. Li，长穗条锈菌A.卡达夫岛Durdanovic，H. Samet和H. P·格拉夫修剪过滤器以实现高效的卷积。arXiv预印本arXiv：1608.08710，2016。[24] M.林角，澳-地Chen和S.燕.网络中的网络。见ICLR，2014年。[25] B. Liu，M. Wang，H. Foroosh，M. Tappen和M.彭斯基稀疏卷积神经网络。CVPR，2015。[26] G. F.蒙图法尔河，西-地帕斯卡努角Cho和Y.本吉奥。关于深度神经网络线性区域的数量。在NIPS，2014。[27] M. 拉斯泰加里河谷Ordonez，J.Redmon和A.法哈迪。Xnor- net：使用二进制卷积神经网络的Imagenet分类。在ECCV，2016年。[28] A.罗梅罗，北巴拉斯，S。E.卡胡A.查桑角Gatta和Y.本吉奥。Fitnets：薄而深的网的提示。2015年，国际会议。[29] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein等人图像网大规模视觉识别挑战。IJCV，2015年。[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议[31] G. Souli e'，V. Gripon和M. 罗伯特动态压缩深度在ICANN，2016年。[32] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。CVPR，2015。[33] J.Wu，C.冷氏Y.王，英-地Hu和J. Cheng.用于移动设备的量化卷积神经网络在CVPR，2016年。[34]Z. 杨，M.Moczulski，M.Denil，N.de Freitas，A.斯莫拉L. Song和Z。王.油炸面包。在ICCV，2015年。[35]S. Zagoruyko和N.小木广残的关系网。arXiv预印本arXiv：1605.07146，2016。[36] X. Zhang，J.邹建，K. He和J. Sun.加速用于分类和检测的非常深的卷积网络PAMI，2015年。[37] X. Zhang，J. Zou，X. Ming，K. He和J. Sun.非线性卷积网络的有效和精确近似CVPR，2015。[38] H. Zhou，J.M. Alvarez和F.波里克利少即是多：走向紧凑型CNNS。在ECCV。施普林格，2016年。[39] S. Zhou，Y. Wu，Z. Ni、X. Zhou， H. Wen和Y.邹。Dorefa-net：用低位宽梯度训练低位宽卷积神经网络。arXiv预印本arXiv：1606.06160，2016。

下载后可阅读完整内容，剩余1页未读，立即下载