CNN模型简化的宏块缩放算法

171 浏览量更新于2023-10-19 收藏 701KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于CNN模型简化的宏块缩放林宇勋，周春南，爱德华·Y·HTC ResearchHealthcare（DeepQ）{林毅夫，jason.cn周，张毅}@ htc.com摘要在本文中，我们提出了宏块缩放（MBS）算法，它可以应用于各种CNN架构，以减少其模型大小。MBS根据我们提出的有效触发器测量的信息冗余度自适应地减少每个CNN宏块使用ImageNet和CIFAR-10进行的实证研究证明，MBS可以减少一些已经紧凑的CNN模型的模型大小，例如，第25章. 03%进一步减少）和ShuffleNet（20. 74%），甚至是超深的，如ResNet-101（51。67%）和ResNet-1202（72. 71%），精度下降可忽略不计。MBS还以比最先进的基于优化的方法低得多的成本执行更好的约简。MBS1. 介绍CNN模型已被广泛用于基于图像的应用程序，这要归功于AlexNet的突破性性能[15]。然而，非常深且宽的CNN模型由许多参数组成，因此，训练的模型可能需要大量的DRAM和大量的乘法来执行预测。如此高的资源和计算要求导致延迟、热量和功耗问题，这对于诸如移动电话和IoT的边缘设备是次优的[25]。因此，减少CNN模型的大小对于提高资源利用率和节约能源至关重要。最近提出了几种CNN模型简化算法[25]。这些算法可以分为两类：微观级（在滤波器内执行缩减/量化）和宏观级缩减（去除冗余滤波器）。这两个范畴是相辅相成的。(More详情见有关工作部分。本文的研究重点是宏观层面的减排。为了清晰的阐述，我们建立了一个基本概念，即去除冗余过滤器也是称为去除冗余通道，因为每个滤波器在CNN模型中输出相应的通道[10]。宏观层面的降准分为两类：基于优化和基于信道缩放。每个类别都有多种方法和算法。基于优化的类别通常通过用所采用的准则（例如，滤波器权重大小）。删除过滤器（或通道，在第3节中正式定义）将影响前一层和后一层。基于优化的方法的滤波器修剪步骤必须考虑CNN层之间的互连结构。因此，具有更复杂互连结构的 CNN 模型，如 DenseNet [11] 和ShuffleNet [31]，可能会阻止基于优化的方法有效。基于通道缩放的类别使用α标量来减小通道宽度。例如，MobileNet [10]使用相同的α-scaler来修剪所有通道的宽度。将相同的α-scaler应用于所有卷积层而不考虑每个信息密度是一种粗粒度方法。一种为每个卷积层找到最佳α标量的细粒度方法应该是理想的。然而，CNN模型日益复杂的层间连接结构禁止细粒度缩放在计算上是可行的。针对现有模型压缩方法的不足，提出了宏块缩放（MBS）方法.宏块由许多卷积层组成，这些卷积层表现出类似的特性，例如具有相同的分辨率或者是具有定制互连的卷积层的一段。将宏块作为结构抽象为MBS提供了与各种结构的几乎任何CNN模型互操作的灵活性，并且还允许以“更细”粒度的方式执行通道缩放为了量化每个宏块的信息密度，从而确定一个有效的宏块相关标量，MBS使用有效的触发器来测量每个宏块的信息密度。(We将有效触发器定义为激活的非零ReLU输出所需的卷积触发器的数量。实验结果表明，MBS可以实现的降低是91179118p比所有先前方案所实现的更显著我们的贡献可归纳如下：• MBS采用宏块来解决粗粒度和细粒度缩放都不能处理的问题，因此允许通道缩放是每个宏块的。用任何CNN模型形成。• MBS建议使用有效的和高效的测量，有效的触发器，量化信息密度，以决定宏块相关的缩放因子。作为如算法部分所示，MBS的复杂度相对于训练实例的数量乘以参数的数量是线性的，这比基于优化的方法更有效[16，30]。• 对两个代表性数据集和各种知名CNN模型（例如，MobileNet、ShuffleNet、ResNet和DenseNet）表明MBS优于所有国家的最先进的模型减少方法减少的大小，同时保持相同水平的预测精度。由于其简单有效的性质，MBS即使在ImageNet上的ResNet- 101等超深CNN上也仍然有效。67%减少）和ResNet-1202对CIFAR-10（72. 减少71%）。本文件其余部分分为三个主要部分。相关工作部分强调了以前减少CNN模型的一些努力。方法部分解释了我们提出的MBS算法。实验部分显示了在各种CNN模型上应用MBS的令人鼓舞的结果2. 相关工作我们回顾相关的工作分为两部分。我们首先回顾与MBS开始相关的关键CNN属性，然后回顾一些代表性的模型简化方法。2.1. 相关CNN属性有研究工作[4，27，29]集成了初始CNN层的早期停止（或早期退出）机制，以加快推理过程。这种现象表明，CNN模型在早期阶段的结果足以预测具有高置信度的图像标签。这个结果为我们将卷积层分为两种类型提供了支持证据：前卷积层（靠近输入图像）作为基本层，后卷积层（靠近标签输出）作为增强层。早期停止机制促使增强层中的信息密度应该低于基本层中的信息密度，因此，增强层中存在更多的机会来减小模型尺寸。2.2. CNN模型正如在引言中提到的，模型降阶可以分为微观层次和宏观层次的方法。CNN滤波器的二进制近似是微观模型简化的一个重要方向[2，12，17，23]。保持二进制CNN的预测精度是一个具有挑战性的问题[26]。稀疏卷积模块[1，3，13，18，28]或深度压缩[6]通常会引入不规则结构。然而，这些具有不规则结构的微观级模型简化方法通常需要专用硬件来加速[5]。宏观级模型简化方法去除了不相关的滤波器，并保持了CNN的现有结构[7，9，16，20]。这种简化方法的方法通过基于一些采用的标准（例如，滤波器权重幅度或滤波器响应）。[30]的研究工作通过借助特征排序[24]将问题公式化为二进制整数规划来解决滤波器重要性问题，从而实现了最先进的结果。对于n-卷积-对于具有np个参数和N幅训练图像的层模型，获取CNN输出的复杂度为 O（ np×N ）。算法的复杂度为 O（N）。[24]第37段。除了预处理步骤之外，二进制文件-整数规划是一个NP难问题。[30]中未详细说明复杂性通常，np个变量的良好近似解仍然需要高计算复杂性（例如，时间复杂度O（n）（5）线性规划[14]。相比之下，MBS具有较低的复杂度，对于具有n个卷积的CNN，计算信息密度的复杂度为O（np×N），计算缩放因子的复杂度为O（M × n）。层和M个宏块，这将在下一节中详细描述。从某种意义上说，一些属于网络剪枝的模型约简方法与体系结构搜索的主题有关。我们建议的按揭证券化亦属于这类。将网络修剪视为架构搜索只需要一次训练，但搜索空间限于大型网络内的所有子网络[21]。相比之下，全架构搜索（如DARTS [19]）考虑更多选项，例如，激活函数或不同的层顺序，并且通常付出需要更多遍来找到目标架构的代价。因此，在像ImageNet这样的大型数据集上直接应用架构搜索需要相当大的计算成本。3. MBS算法本节介绍我们提出的宏块缩放（MBS）算法，用于减少已经训练的CNN模型。我们首先定义关键术语，包括通道、滤波器、通道缩放、宏块和使用9119RF（c7）= 26RF（c8）= 36RF（c9）= 44[z=32]RF= min {RF（c，j）|RF（c，j）> z} = 36个增强层：C9，C10，C11c0c1C2C3c4c5C6颈7c8c9C10C11宏块m 0特征图大小：32 x32宏块m 1特征图大小：16 x16宏块m 2特征图大小：8 x8图1.一个示例CNN模型包含CIFAR图像的三个CNN宏块（32×32像素）。每个宏块m，i由其输出特征图具有相同大小的卷积层组成（即，相同的宽度和高度）。此外，ksiz ej=3<$j。在MBS。然后，我们解释MBS如何计算信息密度，以及MBS如何使用这些信息来减小模型大小。最后，分析了MBS算法的计算复杂度，并与模型压缩算法进行了比较.让我们使用图像应用程序来解释CNN管道。典型的CNN管道接受N个训练图像作为输入。这N个训练实例具有相同的高度和宽度。为了简化我们的符号，我们假设所有输入im-年龄呈平方形式，分辨率为L×L。CNN模型由多个卷积层组成。卷积层的输入是一组输入张量（或输入激活），每个张量被称为通道[25]。每一层生成输入张量的连续高层抽象，称为输出张量或特征图。更具体地，第j个卷积层c j，j=0，. . . ，n − 1，取s sizej× s sizej× c widthj 输入张量，并产生ssizej+1×ssiz ej+1×cwidth hj+1输出张量，其中s size是输入或输出的空间大小张量，并且C_width是输入/输出通道宽度（即，频道数特别地，s大小0等于L。令k_size_j表示c_j的平方核的空间大小，c_j的所需参数数目可以写为k尺寸j×k尺寸ej×c宽度hj×c宽度hj+1。（一）MBS将卷积层分组为宏块。宏块由卷积层组成，其输出张量（特征图）具有相同的大小。我们使用M来表示CNN模型中宏块的数量图1描绘了一个示例CNN模型，其中M=3。输出张量的大小由步长为2的池化层进行下采样。因此，宏块m，i被定义为：Lmi={cj|吉尔杰山t. ssizej+1=2i}。（二）操作缩放减小通道宽度。直观地说，MBS希望修剪不能为准确预测提供积极贡献的通道例如， Mo-bileNet [10]以恒定比率0<α1缩小所有通道宽度，或者我们称此基线方案为α缩放。MobileNet对所有卷积层使用相同的α值接收字段W idth：RF（ck）图2.基层cj和增强层ck中神经元感受野的示例。然而，一个有效的通道缩放方案应该根据每个卷积层的信息密度来估计其最佳缩放比但是量化和确定每个卷积层的缩放比例会干扰CNN模型的设计为了保留原始CNN模型的设计结构，MBS在宏块级别而不是在卷积层级别执行缩减对于一些具有连接到复杂结构中的卷积层我们的宏块方法，顾名思义，不处理详细的层间连接结构。因此，宏块抽象使得模型简化简单且自适应。3.1. 用感受场表示卷积层有效的CNN模型需要足够数量的卷积层来从输入数据中捕获良好的表示然而，随着卷积层的数量增长超过阈值，在提高预测精度方面的额外益处可能会减少。有人可能会说，前卷积层可以学习低级别的表示，如边缘和轮廓，而后者层的高级语义。正如我们即将展示的那样，后面的层可能覆盖比输入图像更大的感受野，并且它们的学习信息可能不会有助于类别预测。CNN中的有效感受野是输入图像中影响图像的区域。CJCConv. 层er（基层）Conv. 层er（增强层）图像宽度：LAvg. 池化图像Avg. 池化图像高度：L全球集中共用FCSoftmax标签9120ya> 0yb = 0flop（cj）：滤波器c的flop sCJ*pj：p rob.非zero ou tp u ty = R eLU（x）从其他层。宏块可以仅包含基本层，仅包含增强层，或两者的混合。3.2. 基于有效触发器Inp u t TensorConv. 层erActivation O u tp u t T ens or图3. 考虑ReLU输出的非零概率pj的有效触发器计算。神经网络的一个重要特征[22]。图2示出了一个示例，其中前一个卷积层的神经元覆盖输入图像内部的区域，而后一个层的神经元可以覆盖比输入图像更大的区域因此，我们将卷积层分为两种类型，基础层和增强层，定义如下：• 基本卷积层：CNN模型的前卷积层（靠近输入）从训练数据中学习基本表示。虽然代表-在基本层中捕获的语句可能是冗余的，它们是类别预测的基础。• 增强卷积层：后一卷积层可以覆盖比前一卷积层更大的感受野。MBS使用卷积FLOP来估计信息密度。FLOP（在本文的剩余部分中用“flop”表示）是卷积中的乘加运算。ReLU输出零值的频率越高，意味着卷积层包含的信息越少因此，只有那些可以产生非零ReLU输出的触发器才被认为是有效的。卷积层上的神经元覆盖区域，即，输入图像的接收场。有效触发器的物理意义表示输入图像上的有效特征匹配由于有效触发器量化了给定图像的CNN模型的有效特征匹配，因此它在估计信息密度方面起着关键作用。图3示出了卷积层的有效触发器的计算。让ecj 表示层cj的有效触发器，并且pj表示其ReLU输出的非零概率。We可以定义ecj为输入区域1.因此，信道修剪有机会去除冗余信息。ecj =pj xflop（c j）.（四）现在，我们定义函数RF（cj）来计算层cj的接收场大小。为简单起见，假设滤波器cj的感受野区域为RF（cj）× RF（cj）。RF（cj）的可能值集是离散的，这由内核大小和步长的配置决定为了评估宏块mi的信息密度，我们统计从CNN流水线开始到宏块mi结束的总有效触发器。我们可以将有效触发次数的总和写为ΣCNN模型的步骤为了清楚地说明，我们定义了最小感受野边界，E共计（mi）=ecj，cj∈{m0，···，mi}.（五）大于给定值z，如下所示：RF=min{RF（cj）|RF（c，j）>z}。（三）接下来，我们计算基本层中的有效触发器，这些失败发生在感受野内，Σ我们用这个边界来定义来划分基本卷积层-E碱（mi）=ecj，cj∈{RF（cj）≤<$z<$RF}，（6）CNN流水线中的增强卷积层重新访问图1中的宏块。属于宏块m2的卷积层c9是第一增强层，其中其感受野大于感受野边界λz =32 λRF= 36。我们通过测量每个宏块的信息来估计每个宏块m i的信息恢复。由增强层贡献的信息密度比我们可以通过设置来确定CNN的基本层 z的值。如前所述，该地区其中基层具有最大感受野尺寸请原谅我。基于总触发器 Etotal （ mi ）和基本触发器 Ebase（mi），我们将两者之间的差定义为增强触发器，表示为EenchNavisphere（mi），可以写成Etotal（mi）−Ebase（mi）。宏块mi的冗余率ri被定义为增强触发次数超过总触发次数，或者在图像的边界之外和边界处包含较少的使用-E增强（mi）E碱（mi）充分的信息。因此，设置z=L是合理的，可以分离那些对类别预测贡献更大的层ri=E共计=1−（mi）E总.（七）（mi）由于应用于原始输入图像的数据增强和边界修补操作，训练输入图像可能在其边界处包含大量我们基于该导出的冗余ri来估计每个宏块的通道缩放因子mi，这在下一小节中示出。9121m0mM−1MiJMiNJMi1+riE（m）inMim0mk−1nMiMi我算法1宏块缩放输入：Fn（），I0 <$N−1/* 预训练模型，训练图像输出：[c widthc ，· · ·，c width c]/* 紧凑型如果在宏块m_i中没有冗余（即，r i=0），则原始信道宽度mi等于紧凑信道宽度c。因此，通道宽度程序：用于宏块mi的乘数βi为• NZ（）/* 计算非零元素• RF（）/* 计算感受野大小1βi=1 +ri、（9）• flop（）/* 计算FLOP变量：• vI/*Fn（I）的第j个开始1：对于j=0，···，n−1，2：对于i=0，···，N−1，INZ（vIi）其中该估计使得β i> 0。5因为ri1ac-根据Eq。（七）、信道尺度的下界因子β i与Mo bileNet [10]的观察一致，即小于0的缩放因子。5可以引入明显的失真。算法1给出了我们的MBS算法，该算法估计每个宏块mi的缩放因子βi并导出紧凑信道宽度c。MBS算法将具有n个卷积层和N个训练图像的预训练模型Fn（）作为输入。会议-3：pi←jJ4：结束5：pj←1s尺寸j+1×s尺寸j+1×c宽度j+1ΣpIi/* 计算非零输出prob。用于训练的预训练模型Fn（）的求解结果利用图像来估计缩放因子。的从步骤2到步骤4的内循环收集6：ecj←pj×flop（cj）/*E fectiv eflopforeachcj第七章：端8：对于i=0，···，M−1，9：Etotal（mi）←0/*10：Ebase（mi）←0/*11：对于j=0，···，n−1，12：如果cj∈{m0，···，mi}，则ReLU输出pj。内循环之后的步骤（步骤5和6）取N个训练实例的平均值，然后导出每个卷积层cj的有效触发器。宏块处理从步骤8开始。每个宏块的总有效触发器和基本有效触发器分别在步骤9和10MBS算法首先符合13：Etotal（mi）←Etotal（mi）+ecj14：如果结束15：如果cj∈{RF（cj）≤<$z<$RF}，则16：Ebase（mi）←Ebase（mi）+ecj17：如果结束18：结束/* 总ecj/* 基础层ecj每个宏块的总和基本有效触发（步长11至18）。之后，MBS计算宏块mi的冗余率ri（步骤19至24）。在步骤20中，缩放因子βi从冗余比ri导出。在计算出βi之后，MBS在步骤25中估计每个宏块mi的紧凑信道宽度c。19：如果E总（mi）> E碱（mi），则20：ri←1−Ebase（mi）/* 计算冗余总21：βi←122：其他23：βi←124：如果结束25：c宽度c← <$βi×c widthm<$/* 紧凑型26：结束27：return[ c widthc，···， c widthc]端3.3. 信道缩放因子估计我们定义宏块mi的原始通道宽度c_width_mi与缩减过程之后的紧凑通道宽度c_width_c之间的关系，其被描绘为在算法1输出新的一组信道宽度之后，用新的通道设置重新训练CNN，以生成更紧凑的模型F′（）。我们使用新的通道设置重新训练模型而不是进行微调的原因是，使用继承的权重对修改后的模型进行微调并不比从头开始训练它更好，这与[21]中的观察结果一致。在实验部分，我们将通过检验F ′（）相对于Fn（）所实现的性能（预测精度和模型大小缩减）来评估MBS的有效性。预训练模型Fn（）具有n个卷积层，其具有np个参数和N个训练图像。MBS所需的复杂性包括两个部分：非零统计Pj收集（从步骤1到7）和冗余Rj估计（从步骤8到26）。在第一部分中，我们通过推断N个训练图像来收集pj，步骤3中的语句可以被吸收到预训练模型的前向传递中。因此，计算复杂度为O（np×N）。第二部分遍历预训练模型的所有卷积层，以导出宽度mi=（1+ri）×c宽度c .（八）9122紧凑的模型。第二部分9123表1. ResNet在CIFAR-10上的模型降阶结果。模型Acc. 【差】减少ResNet-2091. 百分之八十六-MBS（L）91. 19%[0. 67]29岁百分之六十三ResNet-3292. 百分之二十四-MBS（L）91. 82%[0. 42]四十六岁。百分之八十一ResNet-4492. 百分之八十五-MBS（L）92. 16%[0. 69]五十三03%ResNet-56九十三09%-MBS（L）92. 48%[0. 61]五十九百分之三十ResNet-110九十三百分之五十八-MBS（L）92. 61%[0. 97]66岁。百分之四十七ResNet-120294 04%-MBS（L）九十三06%[0.98]七十二百分之七十一ResNet-110九十三百分之五十八-[16]110-A九十三55%[0.03]二、百分之三十[16]110-B九十三30%[0.28]三十二百分之四十[30] NISP九十三35%[0.23]四十三百分之二十五MBS（3. 4×L）九十三47%[0.第十一节]50块百分之二十九是O（M×n），因为我们已经从第一部分中得到了一个checj第一部分的挂钟时间通常需要50分钟的PC与NVIDIA1080-Ti 的预先训练的 MobileNet 上的ImageNet。请注意，我们只需对每个预训练模型执行一次第一部分。第二部分的挂钟时间可以忽略不计，在同一台PC上的时间不到一秒。4. 实验我们将MBS应用于CIFAR-10和ImageNet上的各种CNN，以评估其在模型降阶中的有效性我们的实验旨在回答三个主要问题：1. 在不显著降低预测准确性的情况下，如何积极地减小CNN模型的大小？（第4节。1 .一、第一章2. MBS能有效地与深度和高度紧凑的CNN模型一起工作吗？（第4节。二、（二）3. MBS能胜过竞争的模型简化方案吗？（第4节。1 .一、2和4. 二、第一章4.1. CIFAR 10数据集CIFAR-10由10类50 k训练图像和10 k测试图像组成. 我们遵循[11]中的训练设置：批量大小为128，权重衰减为10−4，学习率设置为0。1，并分别在总训练时期的50%和75%处除以1091244.1.1ResNet上的准确性和减少权衡我们使用ResNet评估了设置不同感受野大小阈值z对CIFAR-10预测精度的影响。阈值z被设置为z=k×L，其中k的范围为由1. 四比零。6，步长为0。2（从最左边开始）到图4（a）中每条线的最右点）。图4（a）显示了两个结果。x轴表示模型的降阶比，y轴表示模型的预测精度.我们首先观察到，在所有ResNet模型（ResNet-20，32，44，56和110）上，增强层的数量越多（即，MBS采用较小的z值，见每行上从左到右的五个z值其次，正如预期的那样，模型简化和预测准确性之间的权衡在所有ResNet模型中都表现出来。图4（b）为应用程序设计人员提供了一本手册，用于指导选择可以实现设计目标的感受野设置。如果准确性超过模型大小，期望较大的k（即，更少的增强层）。如果模型大小是功率节省和帧速率改进的主要关注点（例如，视频分析要求30fps），则设计者可以选择较小的k。例如，在ResNet- 32上，k的比特率=0。6是200 KB，但是k= 1的比特率。4是300KB。从图中可以看出，ResNet-56似乎比ResNet-110更好，因为在相同的精度要求下，ResNet-56的比特率总是比ResNet-110低得多。4.1.2MBS与其他减免计划表1比较了MBS和一些代表性方法实现的减少。表格的上半部分列出了我们对所有ResNet模型的评估。例如，MBS显著减小了ResNet- 1202的模型大小（72. 71%），精度下降可忽略不计（0。98%）。表格的下半部分将MBS与最近公布的具有最佳缩减比的方法进行了比较。在相同的精度水平下， MBS 达到了最高的压缩比（ 50 。29%）。我们还将MBS与ResNet使用的朴素α-scalingα-缩放将整个模型乘以相同的缩放因子α，而MBS根据每个宏块的信息密度自适应地设置缩放因子。图5绘制了α从0. 六比零。9步长为0。1.一、在具有类似结果模型大小，MBS优于α-缩放在预测，四种型号尺寸的测量精度。4.2. ImageNet数据集ImageNet由1。2800万张训练图像和50k张图像用于1000个类的验证。我们训练了所有模型（除了DenseNet，下面解释）90个epoch，批量大小设置为256。学习率初始设置为9125..精度与CIFAR-10准确度与B 柠檬酸盐（K B）CIFAR-1093.593.5939392.59291.59190.590101520253035404550556065707580减少（%）92.59291.59190.5900 100 200 300 400 500 600 700B 硝酸钾 B）ResNet-20 ResNet-32 ResNet-44(a) 精度与减少（%）ResNet-20 ResNet-32 ResNet-44(b) 精度与比特率（KB）图4.不同感受野设置下模型降阶与精度的权衡。z=k×L的k值范围为1 .一、四比零。6步0。2（a）准确度与模型缩减率（%）和（b）准确度与模型大小（KB）。表2.在ImageNet上使用标准卷积的CNN模型的模型简化结果模型Top-1 [Diff.]前5名[差异]参数（×106）减少配置ResNet-1869岁。百分之七十六89岁。08%11个国家。69-[64，128， 256， 512]MBS（L）69岁。40%[0.36]88岁88%[0.20]9 .第九条。94十四岁百分之九十七[64，128， 256， 453]ResNet-101七十七。百分之三十七九十三百分之五十六44. 55-[64，128， 256， 512]MBS（L）七十六。66%[0. 72]九十三19%[0.37]21岁5351岁百分之六十七[64，128， 174， 337]DenseNet-BC-12174岁百分之六十五92. 百分之十七7 .第一次会议。98-β=[1， 1， 1， 1]MBS（L）74岁35%[0.20]91. 92%[0. 25]六、04二十四岁百分之三十一β=[1，0. 987，0。832，0。八零九]α - s缩放与建议（关于CIFAR - 10的R es N et-110）9493.59392.59291.51.1 1.39参数数量（106）alp h a-s caling Prop os ed图5. x轴表示模型大小，y轴表示预测精度。α缩放设置α值的范围为0。六比零。9，步长为0。1.一、该算法的性能进行了比较与相似的模型大小。0的情况。1并且分别在时期30和60处除以10对于DenseNet，我们用100个epoch训练了它的模型，批量大小为128，并在epoch90处将学习率除以10，如[11]所示。数据扩充遵循PyTorch的Ima-geNet脚本，与ResNet相同[8]。对于具有标准卷积的CNN，权重衰减为10−4ResNet和DenseNet ）。具有深度可分离卷积的 CNN （例如，ShuffleNet和Mo-bileNet）根据ShuffleNet [31]中建议的训练配置将权重衰减设置为4×10−5精度AccuRacK=1.4k=1 2k=1.0k=0。8k=0 6精度k=1.k=1.42k=1.0k=0.8K=0.691264.2.1使用标准卷积表2显示，MBS可以灵活地与不同的CNN设计一起工作，包括非常深入和复杂的CNN模型，如ResNet-101和DenseNet-121。如表1所示，MBS可以在CIFAR-10数据集上使用ResNet的不同深度配置。表2进一步显示了在ImageNet上工作时的一致结果。MBS达到51。ResNet-101的模型减少了67%，同时保持了相同的预测精度。在高度优化的深度模型 DenseNet-121 （ [11] 中定义的DenseNet- BC-121版本）上，其瓶颈模块和过渡层已经高度压缩了50%。MBS还可以实现额外的24. 31%的模型缩减，精度损失可忽略不计。为了与所有先前的作品进行详尽的比较，我们还使用ResNet-34进行了实验。我们在epoch90将学习率除以10，并使用额外的10epoch训练简化的ResNet-34作为简化的微调过程。最先进的方法NISP-34-B在[30]中没有指定其计算复杂度。然而，需要额外的预处理步骤来获得过滤器的重要性.对于具有np个参数和N个训练图像的模型，这些预处理步骤需要时间复杂度为O（n），时间复杂度为O（N）。[24]第37段。表3显示，MBS略微9127表3.ResNet-34在ImageNet上的模型简化结果Top-1 [Diff.]前5名[差异]参数（×106）减少配置ResNet-34（原始）七十三。百分之三十91. 百分之四十二21岁80-[64，128，256， 512][16个]七十二17%[1.第十三章-19号。3010个。百分之八十-[30] NISP-34-A七十二95%[0.三十五]--二十七岁百分之十四-[30] NISP-34-B七十二31%[0.99]--四十三百分之六十八-MBS（0. 8 ×L）七十二31%[0.99]九十87%[0.55]12个。1044. 百分之五十[64，128，192， 359]表4.MobileNet和ShuffleNet在ImageNet上的模型简化结果模型Top-1 [Diff.]前5名[差异]参数（× 106）减少配置ShuffleNet（g= 3）六十五01%八十五百分之八十九1 .一、88-[24、240、 480、 960]建议（L）63岁95%[1. 06]八十五15%[0.74]1 .一、4920块74%[24，240， 444， 792]MobileNet（L=224）七十百分之七十三89岁。百分之五十九4.第一章23-[32，64， 128， 256，512， 1024]建议（L）七十52%[0. 21]89岁。57%[0.02]4.第一章00五、百分之四十三[32，64， 128， 256，512， 958]建议（0。8 ×L）69岁。90%[0.83]89岁。21%[0.38]3 .第三章。50十七岁百分之二十六[32，64， 128， 256，474， 879]MobileNet（L=192）68岁百分之八十八88岁百分之三十四4.第一章23-[32，64， 128， 256，512， 1024]建议（L）68岁98%[-0。第10页]88岁37%[-0。03]3 .第三章。937 .第一次会议。百分之十[32，64， 128， 256，512， 937]建议（0。8 ×L）68岁05%[0. 83]87岁77%[0. 57]3 .第三章。14二十五百分之七十七[32，64， 128， 256，441， 825]MobileNetV2（L=224）七十一百分之八91. 百分之一百3 .第三章。47-β=[1， 1， 1， 1]建议（1。2 ×L）七十81%[0. 99]89岁。89%[1.第十一节]3 .第三章。14二十五03%β=[1，1，0. 9447，0。七九七八]在ResNet- 34上的性能优于NISP-34-B（0. 8%），复杂度仅为O（np×N）。4.2.2使用深度卷积我们将MBS应用于两个具有深度卷积结构的CNN模型深度卷积结构已经显着降低了CNN模型的表4显示MBS 可以进一步减少这些高度紧凑的模型。在ShuffleNet上，MBS将模型大小减少了20。74%，失真可忽略不计。ShuffleNet的深度卷积和独特的洗牌操作将增加基于优化的方法的目标函数制定的难度相反，MBS可以简单地估计每个CNN宏块的通道缩放因子并执行模型简化。我们还评估了MBS与MobileNet在不同的输入图像分辨率。表4显示MBS实现了十七岁26%和25。在L=224和L=192上分别减少77%。请注意，当我们设置z=L时，MobileNet-192的预测精度略有提9128高该结果表明，对于Mo，可能存在较小的zbileNet。因此，我们使用了一个更激进的方法-最先进的紧凑型CNN，MobileNetV22，并实现二十五减少03%，失真可忽略不计。5. 结论我们提出了一种新的方法来估计每个CNN宏块的通道缩放因子。我们提出的MBS算法减少了由信息密度代理引导的模型大小，而不会显着降低类预测精度。MBS是灵活的，因为它可以与各种CNN模型一起工作（例如， ResNet 、 DenseNet 、 Shuf-fleNet 和MobileNet），并且在其与超深和高度紧凑的CNN模型一起工作的能力方面也是可扩展的（例如，ResNet-1202）。MBS优于所有最近提出的方法，以减少模型的大小在低计算复杂度。与可调的感受野参数，一个applica和灰设计师可以确定一个适当的权衡预测精度和模型大小（意味着DRAM的大小和功耗）通过查找一个权衡表类似于图4中所示的表。确认我们要感谢Tzu-Wei Sung在MobileNetV2上进行实验的帮助。z = 0。8× L，达到了25。77%模型尺寸还原此外，我们的方法也适用于2From TensorFlow GitHub。9129引用[1] A. Aghasi、A. Abdi，N. Nguyen和J.龙伯格Net-trim：深度神经网络的凸修剪，具有性能保证。NIPS，第3180-3189页。2017. 2[2] M. Courbariaux，Y.Bengio和J.P. 大卫Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。NIPS，第3123-3131页。2015. 2[3] E. Denton，W.Zaremba ，J.Bruna，Y.LeCun和R.费格斯。利用卷积网络中的线性结构进行有效评估。在NIPS，NIPSCambridge，MA，USA，2014.麻省理工学院出版社. 2[4] M. Figurnov，M. D. Collins，Y.朱湖，加-地张，J. 黄先生，D. Vetrov和R.萨拉赫季诺夫残差网络的空间自适应计算时间在IEEE CVPR，2017年7月2[5] S. 汉， X. Liu ， H. Mao ， J. Pu ， A. 佩德拉姆湾 A.Horowitz和W. J·达利Eie：压缩深度神经网络上的高效推理引擎。ISCA，2016年。2[6] S.汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR，2016. 2[7] B. Hassibi和D. G.鹳鸟用于网络修剪的二阶导数：最佳脑外科医生。NIPS，第164-171页，美国加利福尼亚州旧金山，1993年。摩根·考夫曼出版公司2[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE CVPR，2016年6月。7[9] Y.他，X。zhang和J.太阳用于加速非常深的神经网络的通道修剪。InIEEE ICCV，Oct 2017. 2[10] A. G. Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。 CoRR ，abs/1704.04861，2017。一、三、五[11] G. Huang，Z.柳湖，加-地van der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR，2017年7月。一、六、七[12] I.胡巴拉M. Courbariaux，D.苏德里河El-Yaniv，以及Y. 本吉奥。二值化神经网络NIPS，第41072016. 2[13] M. Jaderberg，A. Vedaldi和A.齐瑟曼。加速具有低秩扩展的卷积神经网络。在BMVC中。BMVA Press，2014.2[14] N. 卡玛卡线性规划的一个新的多项式时间算法。Combinatorica，4（4）：373-395，Dec 1984. 2[15] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，NIPS'12，第1097-1105页，2012中。1[16] H. Li，长穗条锈菌A.卡达夫岛Durdanovic，H. Samet和H. P·格拉夫修剪过滤器以实现高效的卷积。ICLR，2017年。二、六、八[17] X.林角，澳-地Zhao和W.锅精确二进制卷积神经网络。NIPS，第344-352页。2017. 2[18] B. Liu，M. Wang，H. Foroosh，M. Tappen和M.彭斯基稀疏卷积神经网络。在IEEE CVPR，2015年6月。2[19] H. Liu，K. Simonyan和Y.杨飞镖：可区分架构搜索arXiv预印本arXiv：1806.09055，2018.2[20] Z. Liu，J. Li，Z. Shen，G. Huang，S. Yan和C.张某通过网络瘦身学习高效的卷积网络。InIEEE ICCV，Oct2017. 2[21] Z. Liu，M.孙，T.Zhou，G.Huang和T.达雷尔。

下载后可阅读完整内容，剩余1页未读，立即下载