卷积神经网络参数压缩方法及性能分析

191 浏览量更新于2023-10-13 收藏 742KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1××××卷积神经网络压缩Yawei Li1，Sahuary Gu1，Luc Van Gool1，2，Radu Zufte11计算机视觉实验室，苏黎世联邦理工学院，瑞士，2KU鲁汶，比利时{yawei.li，shuhang.gu，vangool，radu.timofte}@ vision.ee.ethz.ch摘要基于卷积神经网络（CNN）的解决方案已经实现了许多计算机视觉任务的最先进性能通常，这些方法的成功伴随着数百万个参数的成本，这是由于堆叠深度卷积层。此外，相当大数量的滤波器也用于单个卷积层，这夸大了当前方法的参数负担。因此，在本文中，我们试图通过学习卷积层中滤波器的基础来减少CNN的参数数量。对于前向传递，学习的基础用于近似原始滤波器，然后用作卷积层的参数。我们验证了我们提出的解决方案，用于图像分类和图像超分辨率基准点的多个CNN架构，并在减少参数和保持准确性方面与现有的最先进技术相媲美。代码可在https://github.com/ofsoundof/learning_filter_basis上获得。1. 介绍最近，基于深度卷积神经网络（CNN）的方法不仅为高级计算机视觉任务（如图像分类[25，44，15，18]，分割[11，35]），和物体检测[11，10，43，42]，但也用于低水平任务，如图像超分辨率（SR）[9，22，33，30，51，32]、去噪[49，50，12]和去毛刺[38，28]。然而，大多数的进步是以牺牲更深层次的体系结构、数百万的优化参数和资源密集型计算为代价的这妨碍了深度神经网络在资源受限环境下的应用，手机为了克服上述问题，一个研究方向是设计高效的架构。例如，与VGG [44]相比，ResNet [15]和*同等贡献DenseNet [18]将其CNN中的参数数量减少了一个数量级，同时实现了相当甚至更准确的图像分类结果。尽管更加紧凑，但在这些网络中仍然存在冗余，使得进一步压缩成为可能同时，网络压缩有望在不损失原始网络准确性的情况下降低模型的复杂性已经提出了许多网络压缩方法。它们主要分为三类，包括网络量化[41，29，7，53]，净工作修剪[13，14，17]和过滤器分解[20，52，46，45，40]。在本文中，我们专注于滤波器分解。滤波器分解通过轻量级卷积和线性投影来近似原始滤波器。当前的方法或者直接在通道式2D w上操作h过滤器[20，46，45]或分解完整的3Dc w h滤波器[52，40]。对于那些在2 D滤波器上工作的人，考虑到核大小通常很小（例如，3）并且引入了几个新参数来表示2D内核，在参数减少方面的压缩比并不令人印象深刻[46，45]。其他滤波器分解方法[52]将3D内核视为一个完整的元素，使得不可能减少输入通道的数量[17]。这阻止了该方法应用于具有少得多的输出通道但具有更多的输入通道的窄网络。例如，在DenseNet-12-40中，只有12个输出通道，这使得分解3D滤波器不经济。上述方法在分解期间折叠或维持3D滤波器，这可以被认为是它们只是两个边界操作点上的粗粒度本文的动机是提供缺失的细粒度操作点，并平衡两个分解卷积之间的参数分布。因此，我们提出了一种新的滤波器基学习方法，绕过了“硬”滤波器分解方法的限制我们沿着输入通道维度分割3D滤波器，并且每个分割被认为是基本元素。我们假设一个卷积层内的那些基本元素的集合可以由线性组合表示56235624×××××××一个国家的基础。我们的目标是把基础和线性结合在一起.在推理过程中，可以组合基以重构原始元素，即，3D分割然后，沿着输入通道维度堆叠分裂此外，如将在论文中解释的，相对于原始3D滤波器的卷积可以被转换为相对于学习基础的卷积因此，我们的方法可以很容易和有效地实现和嵌入到国家的最先进的网络。与以前的工作相比，我们的基学习方法也很容易推广到1- 1卷积，这是至关重要的压缩网络与密集11卷积。本文的贡献有四个方面。（I）我们提出了一种新的基础学习方法，可以减少在放置通道，使其适合窄网络。我们的方法可以应用于具有不同内核大小甚至11卷积的卷积层。（II）我们的方法实现了最先进的压缩性能。在VGG，SRResNet和EDSR上，我们的方法优于最先进的压缩方法，具有较低的分类错误和较少的参数。在ResNet，DenseNet上，我们的压缩模型与最近的最先进的模型具有更少的参数。（III）我们的方法仅通过改变分裂的数量容易地推广到先前的工作，从而导致不同滤波器分解方法的统一公式[20，52，46]。（IV）我们在两个高水平视觉任务上验证了我们的方法，即图像分类和低级视觉任务，即，图像SR。与高级视觉任务（如图像分类）相比，低级图像超分辨率任务更具有挑战性，因为算法需要重新覆盖图像中的每个像素和内容细节然而，以前的工作没有将压缩方法应用于为低级别任务设计的网络。实验结果表明，网络压缩方法同样适用于图像压缩。本文件的提醒部分安排如下。在秒2、我们讨论相关工作。节中3、详细介绍了所提出的用于网络压缩的滤波基学习方法。节中4、说明了如何学习基滤波器和编码系数。节中5、给出了该方法的实现细节，并对实验结果进行了讨论。秒6、总结论文。2. 相关工作网络压缩作为一个研究课题近年来引起了越来越多的关注。这一领域的工作可以可以大致分为三类，即网络修剪、网络量化和滤波器分解。网络修剪：网络修剪尝试修剪网络中不太重要的网络参数。Han等人[13，14]试图学习稀疏的连接并修剪不太重要的连接。他们引入了深度压缩，结合了权重修剪、量化和权重共享以及霍夫曼编码等多种技术来减小神经网络的大小。然而，他们的方法导致不规则的内核形状，使其难以实现，尽管理论加速比令人印象深刻[14]。因此，提出了通道修剪以去除特征图中的冗余通道，这导致规则的内核形状和实现友好的算法[3，54，47]。Wen等人[47]探索了结构化稀疏性，包括深度神经网络中的通道、形状和深度稀疏性。He等人[17]提出了通道修剪来加速深度神经网络。该方法基于LASSO回归，选择代表通道，删除冗余通道.网络量化：网络量化的目的是通过量化权值参数来减小神经网络的模型规模。Han等人[13]演示了如何将权重参数转换为相对较少的共享权重而不损失准确性。Chen等人[5]引入了一个哈希函数，将网络连接分组到哈希桶中，并强制落入相同桶中的连接共享相同的权重。其他作品试图通过引入二进制[41，7，6]和三进制[55]权重来降低参数的精度。滤波器分解：除上述两种方法外，还提出了滤波器分解方法，用参数有效表示近似原滤波器[8，20，26，52，46，40]。早期的低秩近似通过使用SVD [8]或CP分解[26]来应用矩阵分解。Jaderberg等人[20]提出通过2D可分离滤波器的较小基集的线性组合来近似2D滤波器集。Wang等人[46]建立在Jaderberg等人的工作上。并且进一步顺序地重新排列分解的滤波器。在他们的工作中，每个正常卷积被分解成几层深度卷积，然后是11卷积。松和 al. [45]建议使用k-means算法对3 3卷积核。落在同一簇中的核共享相同的权重参数。然而，对于每个3 3核，引入尺度和指数参数来表示核.因此，根据参数数量的压缩比同样的问题也存在[46]。虽然压缩比可以通过[46]达到1/9，但分类精度严重降低。[45]的另一个缺点是它不能应用于现代网络（如 ResNet 和DenseNet）所青睐的11而不是像以前的低秩近似那样在2 D滤波器上工作，Zhanget al. [52]通过将输入通道视为第三维直接处理3D滤波器。然而，他们的方法不能减少输入5625信道×·∈ Y×∈ X××××·· ··· ····频道这禁止了分解方法的应用，具有小输出通道但大输入通道的窄网络在最近的一项工作中，Penget al.[40]提出通过组卷积随后是线性组合（11卷积）来近似正态卷积然而，他们没有将他们的近似方法应用于DenseNet，这在新提出的架构中特别有趣。相比之下，我们提出的基础学习方法可以应用于任何内核大小和任何输入/输出通道大小的卷积。这使得我们的方法可以灵活地压缩不同的现代网络。3D滤波器拆分方式按通道3. 网络压缩的滤波器分解给定输入图像x，监督学习的目的是恢复相应的标签y。对于诸如图像SR之类的低级视觉任务，标签是对应于低分辨率输入图像x的地面实况高分辨率图像。对于高级图像分类，y是图像的类别标签。回归过程可以用一个简单的函数y=fΘ（x），（1）其中y（）表示回归标签，并且fΘ（）是由Θ参数化的神经网络的回归函数。3.1. 用滤波器基分解卷积层我们假设卷积层有c个输入通道和n个输出通道，内核大小为w h。为了减少神经网络中的参数数目，提出了不同的分解方法。Zhang等人假设卷积层的参数可以由低秩矩阵[52]近似，即，WB·A，（2）其中W∈cwh×n=[W1，···，Wn]是图1.不同滤波器分解方法的比较右：3D滤波器的每个通道都被视为基本元素。为每个通道中的n个中间（所提出的）：3D滤波器沿着通道维度被分成s个组，并且每个组被认为是基本滤波器元件。针对所有3D滤波器的所有n×s分裂学习基集。左：3D滤波器被视为一个整体。为3D滤波器学习基集。其中Ai是A的第i列，Bj是第j滤波器基，对于3D滤波器方式的分解和2D通道方式的分解情况，具有维度cwh1或wh1。直接3D逐滤波器分解和逐通道滤波器分解的图示可以在图1的左侧和右侧部分中找到1.一、从滤波器基分解的角度来看，可以采用更灵活的分解策略。在下一节中，我们分析了滤波器基的维数与压缩率之间的关系，并提出了一种用于网络压缩的分裂分解方法。3.2. 不同滤波器基的压缩率如果我们利用m个3D滤波器基作为基本元素（图1：左）来分解卷积层的参数，则参数的压缩率为m·c·w·h+m·nm包含矢量化的3D滤波器，ma的乘法，矩阵B∈cwh×m和矩阵A∈m×n是一个低秩矩阵。=n·c·w·h+，（4）n c·w·hn.除了将卷积层的参数公式化为cwh n矩阵之外，还有其他低秩近似工作[20，46]，其将参数矩阵视为whcn矩阵。这些工作独立地处理3D滤波器中的每个通道。在等式中（2）滤波器的逼近也可以从滤波器基分解的角度进行分析。每个3D其中（n c w h），（m c w h）和（m n）是原始卷积层的参数，滤波器基，和编码系数。在大多数现有的神经网络中，c w h远大于n。第一个是在《易经》中。（4）支配压缩率。对于2D声道分解情况，我们可以类似地得到压缩率，即，滤波器Wi∈cwh×1（或Wi∈wh×1，用于信道方式m·w·h+c·m·n m m分解情况）由一组m个滤波器基{Bj} 的线性组合表示|j=1，···，m}，其中编码系数向量Ai∈m×1：Σm=+。（五）n·c·w·h n·c w·h主要存储预算用于编码系数。为了更好地实现压缩之间的平衡，Wi≈j=1αj，iBj，i = 1，···，n.（三）通过基础和系数，我们将3D滤波器沿着如图1的中间部分所示的通道尺寸.........滤波器5626∈ ℜ∗∗联系我们××·--.Σ×≈≈1S（一）为了表示法的简单性，我们使用相同的表示法来表示原始的非矢量化3D滤波器和基础，即，Wi，Bjc×w×h。因此，输入特征图x与3D内核之间的卷积变为（b）第（1）款ΣmXWi=xj=1αj，iBj= Σmj=1αj，i（x * Bj）.（八）图2.所提出的基础学习方法的说明操作被转换为卷积。与普通卷积不同，我们的方法沿着通道维度分割输入特征图和3D学习了一组用于增强分裂的基础。输入特征图的每个分割都与基进行卷积。最后的1×1卷积生成输出。第二个等式遵循卷积的线性等式（8）将具有3D滤波器 Wi 的卷积运算分解为具有滤波器基{Bj ， j =1，. . . ，m}。线性组合可以可以通过1 ×1卷积来实现。对于更一般的分裂分解情况，我们使用较小的滤波基Bjp×w×h，j=1，. . .，m来重构3D滤波器的每个子部分，即，图1，即，认为c×w×h滤波器由s个较小的p×w×h滤波器组成，c=s·p。因此，n个三维c×w×h滤波器可视为n·sWi=ΣW1，1;. . . ;W i，sΣmΣ、（9）大小为p w h的滤波器。那么问题就变成了学习的基础和表示系数的n·s个较小的过滤器。压缩率变为Wi，g=j=1αj，i，gBj，（10）m·p·w·h+m·n·sm其中Wi，g∈φp×w×h是3D滤波器的分裂，g==+。（六）n·c·w·h n×s p·w·hEqn中的压缩率方程（6）使我们能够利用广义分裂分解公式，1、. . . ，s是拆分索引，[]是堆叠的运算符沿着通道维度的基础。因此，x和Wi之间的卷积变为获得更好的压缩率。具体地说，最佳x100WΣ=[x，···，x]WΣ、···、W相对于滤波器基的大小的压缩率可以可以通过解决以下优化问题来实现伊什什=xgWi，g=xg* Σm αj，i，gBj. mmg=1G=1j=1∗∗s，p =arg min{s，p}. .+n×s p·w·hS.T. c=s·pΣs Σm=αj，i，g.ΣxgBj.（十一）=c·w·h，nn·cw·h.（七）g=1j =1其中{x，g，g=1，. . .，s}在Eqn.（11）是分裂的。我们可以进一步将p量化为最接近的整数迪弗特角对于大多数卷积层，输入通道c和输出通道n是相同的或具有相同的阶数，即，c n.因此，最优群S*w h.也就是说，分裂的最佳配置既不是图1。1：左，也不是图1：右，但它们之间的中间状态。3.3. 使用卷积在这一小节中，我们展示了滤波器分解可以通过前向通中的卷积来实现。该方法通过重新安排滤波器分解的操作，可以减轻计算负担，压缩网络参数。我们从只有一个分裂的情况开始，即，s=1。如在Eqn中。3、利用线性组合的方法，√我i，i，s5627××输入x。如《易经》所言。11.在分裂式decom中，位置的情况下，每个分裂的特征地图，首先卷积与过滤器的基础，然后通过加权求和的卷积结果获得最终的输出。这种对特征图分割的操作可以实现为Pytorch[39]或Tensorflow [1]中的3D卷积，步幅p=c/s，并且没有沿着通道尺寸的填充。但是我们发现3D卷积实现效率不高。以这种方式，它需要121毫秒来运行压缩EDSR模型的一个迭代与批量大小16和补丁大小4848。相反，我们使用共享相同权重参数的s 2D卷积来实现该操作，并且运行时间下降到62 ms。线性组合再次被转换为11卷积。因此，无论有多少分裂，标准卷积都可以分解为关于基和1×1的卷积。以重建3D滤波器Wi=Mj=1 αj，iBj.卷积该实现在图1中示出。二、5628××× ×××××≫·×--F--L−FF2联系我们ǁ −·ǁ·...3.4. 特殊滤波器尺寸的滤波器基分解如上述分析所示，我们的基础学习方法遵循滤波器大小的一般设置，即，n c w h. 这意味着所提出的基础学习方法可以应用于任何卷积滤波器。这里我们强调两种特殊的过滤器尺寸。11卷积：第一个是11卷积，这是现代神经网络的青睐[15，18]。当输入/输出通道相当大时，可考虑的参数和计算由1 - 1卷积消耗。例如，在DenseNet-12-40 architec-...DenseBlock2DenseBlock1DenseBlock36DenseBlock35真[18]，12.1%的参数是在两个大的11个卷积。不幸的是，先前的滤波器分解工作[20，8，46]不能应用于这种卷积。根据我们的公式Eqn.（8）通过Eqn。在等式（11）中，具有大的n和c的11卷积可以被分解成两个更便宜的卷积。c n > m卷积：在某些网络中，如DenseNet，输出通道n远小于输入通道c。在这种情况下，根据Eqn。（4），我们处于这样的两难境地：要么冒着失去太多准确性的风险选择甚至更小的基尺寸m，要么选择与n相当的m，从而导致不经济的压缩。如《易经》所言。通过沿着通道维度分割3D内核，我们可以具有s倍多的滤波器。因此，我们可以优雅地选择一个舒适的基础大小，导致经济的压缩和高精度。4. 学习滤波器基在上一节中，我们已经证明，将滤波器拆分为滤波器基的线性组合可以减少网络的计算负担和参数数量。在本节中，我们将介绍学习滤波器基的学习方法。4.1. 一般滤波器基学习方法为了符号简单的目的，我们仅介绍使用BA来近似滤波器W的简单情况。对于用BA近似W的分裂式情况的训练方法是完全相同的。我们共同最小化逼近误差WB一以及网络目标损耗（y，f（x））。例如，为了压缩具有均方误差（MSE）损失的图像恢复网络，我们的训练目标函数为图3. DenseNet-12-40压缩的基础共享。基集由DenseNet-12中的所有DenseBlocks共享40.共享基础分为36个部分。某个DenseBlock的基是从共享基集中切片的。从较低的DenseBlock开始，每个DenseBlock将来自共享基集的新分裂添加到形成当前块的基础的前一个块的基础因此，DenseBlock的基本通道逐渐增长。在学习了基矩阵和编码矩阵B、A之后，不需要存储原始滤波器。在推断期间，B、A分别用作轻量卷积和11卷积的权重参数。基和编码系数的参数总数比原始滤波器的参数总数少得多，从而实现了参数数目的减少。4.2. 基共享为了进一步压缩网络，我们可以强制几个或所有卷积层共享相同的基集，这取决于我们想要实现的压缩程度权重共享策略可以针对网络进行定制。例如，在ResNet [15] 和以下作品 SR-ResNet [27] 、 EDSR [33]中，在残差块中存在两个卷积。我们可以让两个卷积共享基。在CIFAR 10的ResNet-56架构中，残差块被分成三组，每组有9个残差块和增加的特征图通道。较低残差块组中的通道相对较小（对于第一组和第二组为16和32）。为了实现令人满意的压缩率，我们使同一组内的卷积共享公共基集。此外，在DenseNet中，输入通道以步长逐渐增长12.没有像ResNet中那样的明确符号来指示哪个卷积应该共享基础。在这种情况下，所有¨ ¨ΣL¨卷积层共享相同的基础。用于下¨我的fBl， Al细介绍|Θ（x）<$2+γl=1¨Wl−Bl·Al¨2，（十二）在卷积层中，仅使用基的切片，而仅对于最后一个卷积层使用整个基。DenseNet-12-40的基础共享策略如图1B所示。3 .第三章。其中fB，A| Θ（）表示具有参数B、A的CNN，条件是其他参数Θ是已知的，并且上标l索引L层网络的第l层。总之，我们可以根据目标网络的结构灵活地应用分块、分组或网络基共享。5629真实值：PSNR（dB）因子[46]：34.67 Basis-S（我们的）：34.99 Basis（我们的）：35.10 Baseline：35.27图4. 放大因子×4的鸟类图像的SR结果。网络压缩方法应用于EDSR [33]。度量基线Set14 [48]，B100 [36]，Urban100 [19]，and DIV2Kvalida-设置。亚当优化器[23]用于训练SR网-工程. 我们使用默认的超参数。网络被训练了300个时期。学习率从1×10−4，在200个历元后衰减10。5.1. 超分辨率验证SR网络的压缩结果如表1、表2和表3所示。在表1中，我们探索了不同的-表1.应用拟议基准学习放大因子×4的图像SR的EDSR。报告了五个常用数据集的PSNR（dB） m是基数。一个卷积的分裂数p是4。5.实验结果我们在本节中展示了实验结果，并与图像分类和图像SR的最新方法进行了比较。对于分类，我们将我们的基础学习方法应用于各种网络，包括VGG [44]，ResNet [15]和DenseNet [18]。我们在CIFAR10 [24]数据集上评估了压缩模型的性能。训练和测试子集分别包含50，000和10，000个图像。正如之前的工作[15，18]所做的那样，我们使用训练集的通道平均值和标准差对所有图像进行还应用了标准数据增强.我们使用SGD优化器和0.1的初始学习率训练压缩网络300个历元。在50%和75%的时期之后，学习率衰减10。对于图像SR，我们将我们的方法应用于两个典型的SR网络，即SRResNet [27]和EDSR [33]。SR-ResNet是一个具有1.5M参数的中级网络，而EDSR是一个具有43 M参数但PSNR精度高得多的巨大网络。为了快速训练，我们还压缩了一个更轻版本的EDSR，其中包含8个残差块和残差块中每个卷积的128个通道我们将该网络表示为EDSR-8-128。该网络在包含1，000个2K图像的DIV2K [2我们在五个数据集上测试网络：设置5[4]，输入应用于EDSR的操作点我们在残差块中使用4个分裂进行卷积为了更清楚地比较，我们报告了一个残差块的参数数量和压缩比，因为所有其他块都具有相同的参数。我们保持表2和表3中的设置。默认情况下，每个卷积层使用唯一的基集，即，没有基础共享。在表1和表3中，还示出了相应的基共享结果。在表1中，有几个值得注意的点。首先，采用基共享技术的压缩模型和不采用基共享技术的压缩模型在不同的m值下可以获得几乎相同的PSNR。但是通过基共享，模型大小被进一步压缩。其次，当m=64且使用基共享时，压缩模型仅占原始网络参数的9%。当进一步使用基共享时，实现了令人印象深刻的5.9%的压缩率，而PSNR结果与基线相差不远。第三，最激进的压缩比是1.5%。考虑到EDSR和SR-ResNet中分别有32和16个残差块，该操作点将模型大小从EDSR级别带到SRResNet级别，同时所得模型的PSNR高于SRResNet的PSNR。在表2中，针对SRResNet和EDSR-8-128示出了因子[46]和我们的基础学习方法的结果报告了每种压缩方法的较轻和较重操作点。所提出的方法在两种设置下都优于Factor。为了进一步比较因子和所提出的方法，我们将压缩方法应用如表3所示，压缩模型Basis-S比Factor好得多，同时具有更少的参数。我们的Basis-S的PSNR结果比Ba-基本份额否/是M= 16否/是M= 32否/是M= 64Set532.14 /32.1632.22 /32.2032.33 /32.3032.48产品1428.58 /28.5728.66 /28.6428.72 /28.7328.81B10027.58 /27.5727.62 /27.6127.66 /27.6427.72Urban10026.05 /26.0026.20 /26.2026.38 /26.3826.65DIV2K28.96 /28.9329.06/29.0429.14 /29.1429.25#参数27k /17k53k /35k106k /70k1180kComp.（%）2.3/1.54.5/3.09.0/5.91005630×[27]第二十七话因子-SIC 2因子-SIC 3Basis-64-14（我们的）Basis-32-32（我们的）基线Set531.6831.8631.8431.9032.03峰值信噪比（dB）产品14B10028.3227.3728.3827.4028.3827.3928.4327.4428.5027.52Urban10025.4725.5825.5425.6525.88DIV2K28.5928.6528.6328.6928.85#参数19k28k18k27k74k压缩率（%）25.338.024.336.1100EDSR-8-128 [33]因子-SIC 2因子-SIC 3Basis-128-27（我们的）Basis-128-40（我们的）基线Set531.8231.9631.9532.0332.10峰值信噪比（dB）产品14B10028.4027.4328.4727.4928.4227.4628.4527.5028.5527.55Urban10025.6325.8125.7625.8126.02DIV2K28.7028.8128.7628.8228.93#参数70k105k69k102k295K压缩率（%）23.835.723.434.7100表2.因子[46]和我们用于较轻SR网络SRResNet和EDSR-8-128的基础学习方法的比较放大因子为×4。对于每种方法，报告了两个操作点，包括较轻的操作点和较重的操作点。“SIC*”表示Factor中的SIC层的数量。‘Basis-N-S’ means that the number of basisis S and each basis has N input比较度量[46]第四十六话Basis-S（我们的）基础（我方）基线×2×3×4×2×3×4×2×3×4×2×3×4Set537.9534.3332.0538.0934.4732.2938.1234.5532.3938.1934.6832.48PSNR产品1433.5330.3128.5433.7530.4128.6333.7230.4628.6933.9530.5328.81（dB）B10032.1529.0827.5532.2329.1527.6232.2729.1827.6432.3529.2627.72Urban10031.9928.1025.9832.3828.3926.2532.4628.5126.3632.9728.8126.65DIV2K34.6030.9128.9234.7731.0629.0634.8431.1129.1335.0331.2629.25#参数136k90k164k1180k压缩比（%）11.57.613.9100表3.EDSR的压缩结果[33]。Basis-S对同一残差块内的两个卷积使用基共享87.57表4.我们用于压缩DenseNet-12-40架构[18]的方法的不同操作点'M*'和'T*'分别表示DenseBlock中的基的数量和DenseNet中的过渡块中的分裂。分类错误是CIFAR 10的Top-1错误。姐不同方法压缩的EDSR的超分辨鸟类图像如图所示。4.第一章从我们的压缩模型的图像具有最高的PSNR，它是非常接近的视觉质量的基线，以及。5.2. 图像分类在表4中，我们示出了在DenseNet-12-40架构上应用的所提出的方法的不同操作点。6.5630 40 50 60 70FLOPs（M）图5.我们的方法和KSE [31]在CIFAR 10上对ResNet-56的比较。当基数从24增加到32时，相应的错误率从5.69%下降到5.57%。此外，通过对过渡层中的11卷积应用压缩，我们可以节省用于在网络中相对更重要的DenseBlock的一些参数预算因此，对于KSE基础（我方）前1错误率（%）配置前1位误差（%）#参数Comp.（%）M245.69320k30.8M265.70336k个32.3M325.57383k36.8M36T65.32331k31.8M38T125.56326k个31.3基线5.261041k1005631×模型方法前1位误差（%）/基线#参数压缩率（%）K-means [45]6.24/5.983.27M22.2VGG-16[46]第四十六话团体[40]7.12/5.986.69/5.983.34M3.80M22.725.9基础（我方）6.18/5.983.21M21.8K-means5.44/5.26335k32.2因子6.71/5.26317k个30.4组6.65/5.26337k32.4DenseNet-12-40KSE [31]5.30/5.1939万37.5[34]（70%）5.65/5.19350k33.6简单奇异值分解7.14/5.26360k34.6基础（我方）5.32/5.26331k31.8K-means [45]6.76/6.28190k22.4ResNet-56因子组8.70/6.286.45/6.28212k206k24.924.3KSE7.12/6.97360k42.4基础（我方）6.60/6.28186k21.9表5. VGG [44]，DenseNet [18]和ResNet [15]在CIFAR-10 [24]上训练的压缩结果。为了进行公平的比较，不同方法的模型大小保持在相同的水平。模型方法Top-1错误（%）/基线FLOPs（%）K-means [45]6.24/5.98100VGG[46]第四十六话团体[40]7.12/5.986.69/5.9836.646.1基础（我方）6.23/5.9823.5CaP [37]6.78/6.4950.2电子目录[21]7.00/6.9050.0ResNet56AMC [16]8.10/7.2050.0KSE [31]6.77/6.9748.0基础（我方）6.08/7.0550.0表6.前1名错误与CIFAR 10上VGG-16和ResNet-56的FLOP减少率。对于K-means，报告了作者代码中的实际FLOP参数与“M32”相比，“M36T6”的错误率进一步降低了0.25%。有趣的是，虽然我们的这是因为在过渡块中s=12因此，应该平衡DenseBlock和transition块的压缩程度，以获得压缩比和准确性之间的最佳折衷。VGG- 16、DenseNet-12-40和ResNet-56的不同方法的压缩结果如表5所示。为了公平比较，我们遵循[45]中针对VGG-16的设置。也就是说，在最后一个池化层之后仅附加一个而不是三个全连接层。在VGG-16上，我们的方法显示了最积极的压缩和最低的错误率。对于我们的压缩模型，我们只遭受0.2%的错误率增加，这与Group [40]和Factor的0.71% 1.14%的增加相比非常小。而且我们的型号是最小的。我们的压缩方法和KSE [31]在DenseNet-12上的错误率最低-40. 至于压缩比，虽然Factor略微它的准确性比我们的低，是所有COM中最差的比较方法对于ResNet-56，我们的方法在准确性方面与Group进行了比较，同时参数减少了20 k。表6和图 5比较所提出的方法和现有技术的计算成本。在不同于表5中的那些的操作点处报告结果。对于VGG-16，我们的方法达到了最低的错误率下最严重的FLOPs减少。对于ResNet- 56，所提出的方法在相同的FLOPs减少下明显优于其他方法。图5.我们的方法总是比KSE的错误率低。6. 结论在本文中，我们探讨了如何在现代CNN中学习卷积运算的滤波器基集。我们的方法不受滤波器大小的限制因此，它可以应用于1 1卷积和具有大输入通道和较小输出通道的卷积。我们将我们的基础学习方法应用于图像分类和SR网络。实验验证了我们的基础学习的优势法我们的压缩SRResNet和EDSR优于从以前的过滤器分解方法的模型。对于图像SR网络EDSR，最具侵略性的压缩，我们的方法使模型大小从EDSR级别到SRResNet级别，同时比SRResNet更准确。对VGG-16模型，该方法压缩后的误差率在基线误差的0.2%以内，明显优于其他压缩方法。我们的滤波器基学习方法在ResNet和DenseNet上实现了最先进的性能。致谢：这项工作得到了华为、苏黎世联邦理工学院普通基金和英伟达GPU硬件资助的支持。5632引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。4[2] Eirikur Agustsson和Radu Timofte。NTIRE 2017挑战单幅图像超分辨率：数据集和研究。在Proc. CVPRW，2017年7月。6[3] Jose M Alvarez和Mathieu Salzmann。学习深度网络中的神经元数量。正在进行中。NIPS，第2270-2278页，2016年。2[4] Marco Bevilacqua、Aline Roumy、Christine Guillemot和Marie Line Alberi-Morel。基于非负邻域嵌入的低复杂度单幅图像超分辨率在Proc.BMVC，2012. 6[5] 陈文林、詹姆斯·威尔逊、斯蒂芬·泰里、基利安·温伯格和陈益新。用散列技巧压缩神经网络。在Proc. ICML，第2285-2294页，2015中。2[6] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。在Proc. NIPS，第3123-3131页，2015中。2[7] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络：训练权重和激活被约束为+1或-1的深度神经网络。arXiv预印本arXiv：1602.02830，2016。一、二[8] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构在Proc.NIPS，第1269-1277页，2014中。二、五[9] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。Proc. ECCV，第184-199页。Springer，2014. 1[10] 罗斯·格希克。快速R-CNN。在Proc. ICCV，第1440-1448页，2015中。1[11] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在Proc. CVPR，第5801[12] 古书航、拉杜·提莫夫特、吕克·梵谷。用于快速图像恢复网络的多面元可训练线性单元。arXiv预印本arXiv：1807.11389，2018。1[13] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。一、二[14] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。在Proc. NIPS，第1135-1143页，2015中。一、二[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proc. CVPR，第770-778页，2016年。一、五、六、八[16] Yihui He ，Ji Lin ，Zhijian Liu ，Hanrui Wang， Li-JiaLi，and Song Han. AMC：AutoML用于移动设备上的模型压缩和加速。在Proc. ECCV，第784- 800页，2018年。8[17] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。在Proc. ICCV，第1389-1397页，2017年。一、二[18] Gao Huang，Zhuang Liu，Laurens van der Maaten，andKilian Q Weinberger. 密集连接的卷积网络。在 Proc.CVPR，第2261-2269页，2017年。一、五、六、七、八[19] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.从变换的自我样本的单个图像超分辨率。

下载后可阅读完整内容，剩余1页未读，立即下载