CNN模型压缩的滤波器组合学习方法及适用性研究

57 浏览量更新于2024-01-08 收藏 533KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 7（2021）5www.elsevier.com/locate/icte用于CNN模型压缩的滤波器组合学习Jaemin Jeonga，Ji-Ho Chob，Jeong-Gun Leea，a韩国春川市翰林大学计算机工程系bAIRY3D Inc.，天气-蒙特利尔，加拿大接收日期：2020年11月24日;接受日期：2021年1月4日2021年1月14日在线提供摘要在本文中，我们提出了一种新的方法，用于生成卷积神经网络（CNN）模型的卷积滤波器，作为仅作为输入特征提供的几个基础滤波器的线性组合。在我们的方法中，线性组合的最佳系数被搜索（训练）与给定的输入基滤波器（IBF）重建卷积滤波器参数。因为所有的卷积滤波器可以由IBF的线性组合生成，如果线性组合的系数的数量小于滤波器参数的数量，则可以压缩CNN模型的大小。我们的主要目标是研究用小的通过线性组合的IBF集合。第二个目标是压缩模型，以便在模型分布时能够受益，存储（特别是通过Wi-Fi下载到移动设备c2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：深度学习;模型压缩;滤波器组合1. 介绍近年来，深度学习已被应用于许多现实生活中.最先进的性能来自于由深度神经网络模型的数百万或数十亿个参数定义的学习能力。一般来说，随着模型复杂性的增加，参数的数量以及所需的内存和计算能力也会成比例地增加。另一方面，许多应用程序需要移动边缘设备上的智能。然而，具有少量计算能力和小内存大小的嵌入式边缘设备无法支持如此大的最先进模型。为了解决这个问题，模型压缩方法，如修剪[1-一般来说，由于模型中固有的参数冗余，深度学习模型可以被显著压缩[2]。在本文中，我们提出了一种新的方法来创建卷积滤波器的线性组合联系人：E-SoC实验室/智能计算实验室，计算机工程系，翰林大学，1Hallymdaehakgil，春川，韩国。电子邮件地址：jaemin. hallym.ac.kr（J. Jeong），jiho. airy3d.com（J.-H. Cho），jeonggun. hallym.ac.kr（J. G. Lee）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2021.01.001用于模型压缩的输入基滤波器（IBF）。通过仅存储IBF的系数，当模型需要通过空中（通过无线网络）。我们表明，CNN模型滤波器可以有效地表示为“三个”IBF的线性组合。两个著名的模型， VGG-16 [10] 和 ResNet-18[11]，用于我们的实验。使用CIFAR 10和CIFAR 100数据集，观察到1%在这项工作中，我们展示了表达过滤器的一个小的IBFs集的线性组合然后，我们展示了如何使用所提出的方法压缩深度学习模型，以有效地分发和存储模型。2. 相关工作通常，包括CNN在内的深度神经网络已经被大量的模型参数过度参数化。“过度参数化”意味着可以删除相对不太重要的参数。由于过度参数化可能会导致过度拟合问题，因此在某些情况下，这种模型简化甚至可以提高精度[12]。关于这些问题的研究已经有很多，2405-9595/2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。J. 郑智H. 周和JG. 李ICT Express 7（2021）56×××+i、j× ××× ××⃝图1.一、在云计算环境中有效使用过滤器组合学习的场景。参数约简Han等人重复了修剪所有使用所建议的方法，它们可以修剪高达80%的权重参数He等人使用lasso回归从神经网络中删除冗余通道以优化网络[4]。Li等人使用了一个1-范数度量来评估过滤器的重要性，然后他们删除了不太重要的过滤器[3]。除了修剪之外，Han等人提出了一种使用三级流水线的模型压缩方法，包括修剪、量化和霍夫曼编码[5]。在比修剪和量化更高的级别上，已经尝试通过重构模型架构来更有效地执行卷积运算。Howard等人开发了一种MobileNet架构，Sandler等提出了MobileNetv2，使用Zhang等人提出了ShuffleNet，使用Riga-monti等人提出了一种从CNN的不可分离滤波器近似可分离滤波器的方法[13]。以前的工作已经成功地减少了预训练模型的不必要参数和相应的推理操作的数量。与这些以前的方法，侧重于实时推理，我们的工作重点是压缩与IBF的组合，如图所示。1.一、卷积滤波器的总可学习系数参数的数量可以由“IBF的数量”和“卷积滤波器的数量”的乘积来描述。注意卷积滤波器的大小（即，它被称为3.1. 符号Xi表示第i层的特征图，Fi，j表示第i层的第j个滤波器。I k是一个k阶IBF，其大小为k wk h和第c个通道的第k个IBF的系数对于第i层的第j个滤波器，由ac，k描述。Wi和Hi表示第i个特征图的宽度和高度。Ci表示第i层中的通道数。kw和kh分别表示核的宽度和高度。大多数著名的深度学习模型的卷积核大小为IBF的数量由n表示。当在（i）处导出特征图时，1）第三层与卷积滤波器在第i层中，滤波器所需参数的数量由[ k w]描述。锦洪 C i] Ci+1。由于每个过滤器都由具有n个IBF的线性组合导出，我们可以用n代替kw kh。因此，需要[n Ci]Ci+1个参数来构建卷积滤波器。因此，我们可以获得参数减少率，rrparam，在方程中给出（一）用于有效模型分布和存储的过滤器参数积蓄因此，我们的工作可以与其他工作相结合rr参数=[kw×kh×Ci]×Ci+1[n×C]×Ckw×kh（1） nrameter减少模型，如修剪，这将产生更快，更准确的模型。我3.2. 输入基滤波器i+13. 滤波器组合学习图1显示了如何训练组合系数，一般来说，CNN模型的每一层都可以分为三类[14，15]。第一类包括IBF（标记为“1 图 1）以及如何生成/重建可以检测边缘的层的较浅（第一）部分，以及卷积滤波器使用IBF的线性组合（标记为第二类是用于检测纹理的中间层）。在图4中，①的人。我们没有训练CNN模型的滤波器，而是使用IBF的线性组合来训练系数以生成卷积滤波器。在我们的方法中，我们需要提供一组固定的IBF作为输入。当模型被上传到云环境时，三个组件，（1）IBF，(2)IBF的系数和（3）网络结构/拓扑被传送到云存储器并被分发到边缘节点用于推理。在下载到系统之后，原始模型必须通过线性插值从压缩模型重建。最后，第三类包括识别对象部分的层的更深（最后）部分。在CNN模型中，与层的其他部分相比，检测边缘的层的较浅部分对其准确性更敏感。因此，在这项工作中，层的较浅部分被设置为使用传统的卷积滤波器。在中间和最后一层，卷积滤波器是从IBF生成的，IBF是用一些众所周知的随机分布构建的。在实验的基础上，采用了正态分布的随机滤波器数量=J. 郑智H. 周和JG. 李ICT Express 7（2021）57×=--{}≤≤i、j{∑i、j·×必须预先定义由n表示的IBF，使得我们有一个具有固定数量输入特征的模型。如果n变得等于kw kh，则参数的数量变得大于基本模型。从经验上讲，我们实现了良好的准确性性能，可与观察到传统模型（1%-2%的准确度下降，详细值见图1）。3）当三个IBF用作滤波器生成器（即，n3）时。第4节将详细描述不同IBF组的性能影响。3.3. 滤波器组合在卷积层中，如Eq. （2），通过利用滤波器Fi，j和前一层Xi的特征图的卷积运算来计算特征图Xi+1。X i+1=Xi<$Fi，j其中1≤j≤Ci（2）请注意，符号用于连接操作。如上所述，Fi，j被导出为IBFIk的线性组合，其中1k n。在我们的方法中，我们不像典型方法那样训练CNN的滤波器参数。相反，IBF的组合系数（a，c，k）被训练用于最佳地产生适当的卷积滤波器作为那些IBF的线性组合，如等式（1）所示（三）、图二、边缘检测层中的边缘检测过滤器。图3.第三章。根据CIFAR10的VGG16中IBF数量的准确性。4.1. IBFs选择应选择一组合适的IBF，以生成最佳卷积滤波器作为其线性组合，同时最小化精度下降。根据所选的IBF集合，滤波器生成在精度性能Fi，j=nk=0 Ik×ac，k}其中1≤j≤Ci， 1≤c≤Ci−1（3）对于我们实验中的IBF选择，我们使用两种类型的IBF特性：（1）随机IBF和（2）启发式IBF。• 随机IBF：随机IBF由众所周知的在生成卷积滤波器之后，执行卷积操作。n kw×kh（4）当量（4）是我们的方法可以在模型压缩方面受益的条件。如果方程不满足，我们的方法没有压缩的好处4. 实验在实验中，我们使用 VGG-16 和 ResNet-18 模型。CIFAR-10和CIFAR-100被用作验证我们的方法的数据集。当CIFAR-10用作数据集时，模型VGG-16被稍微修改为仅包括单个全连接（FC）层，而不是原始的三个FC层。在该模型中，卷积使用[3×统计分布：均匀、正态和指数分布。随机IBF用于生成除第一部分滤波器之外的层的中间和最后部分的卷积滤波器。指数分布的使用表明精度降低。另一方面，我们观察到，当“正态分布用于IBF以生成中间部分的卷积滤波器”和“具有正态分布和均匀分布的IBF用于最后部分的卷积滤波器”时，精度性能与原始模型相当启发式过滤器：启发式IBF仅用于层的第一部分。边缘检测滤波器被用作IBF。图2显示了“方法1”和“方法2”中使用的IBF方法1使用Sobel边缘滤波器作为IBF，它比随机IBF具有更好的然而，方法2使用线检测，3×Ci]×Ci+1 .所有IBF的大小也是3×3× n。过滤器作为IBF，并且它没有显示出比随机版本。表1显示了准确度性能如第3.2节所述，VGG-16和ResNet-18中的所有层都分为三个部分（第一，中间，最后）。VGG-16将前2层定义为第一部分，接下来的8层作为中间部分，接下来的3层作为最后部分。ResNet-18由8个基本块和1个卷积层组成。基本块由两个3 3个卷积层，并具有剩余连接。在ResNet-18中，第一个卷积层被定义为第一部分，接下来的6个块作为中间部分，最后2个块作为最后部分。从其中卷积滤波器从IBF生成的模型获得。性能根据所采用的IBF的特性以及IBF被应用于制作实际卷积滤波器的层的部分而变化。4.2. IBF数量除了考虑IBF的特性之外，还仔细选择基滤波器的数量，因为所提出的方法的益处取决于J. 郑智H. 周和JG. 李ICT Express 7（2021）58×表1根据IBF比较准确度和参数数量部分VGG-16ResNet-18第一中间最后准确度（%）参数（M）准确度（%）参数（M）ConvConvConv93.8314.73895.1911.174Conv均匀均匀92.524.94893.643.854ConvExpExp89.514.94890.913.854Conv正常均匀92.864.94893.333.854Conv均匀正常92.544.94893.293.854Conv正常正常92.664.94893.863.854正常正常正常91.364.92193.523.853方法1正常正常92.074.92693.693.853方法2正常正常90.554.92693.443.853表2CIFAR100中前1和前5的准确性模型起源我们前173.5071.81VGG-16前589.5689.67参数（M）34.0224.38前176.4074.52ResNet-18前593.0891.75参数（M）11.224.00图四、第一层和第二层的激活图使用不同的IBFs。如果IBF（n）的个数等于k w，k h，那里在减少参数数量方面没有好处。图3分别显示了根据IBF数量的验证和测试精度。根据IBF的数量的准确度性能从“n =3”的点变成平台使用三个以上的IBF并不一定意味着更高的准确性。综合考虑参数个数与精度之间的权衡，三个IBF可以成为一个合理的选择。此外，我们调查的超参数的影响，如步幅大小和使用偏置的模型精度时，我们使用的滤波器组合压缩卷积滤波器。步长为1并使用偏置可以获得最佳4.3. CIFAR100CIFAR-100数据集中使用的训练配置与CIFAR-10使用的设置相同。的情况下在VGG-16中，第一部分被分配得多一点（前4层）。在ResNet-18的情况下，它与表2所示相同。对于Top 5性能，观察到几乎相同的准确度，但我们观察到Top 1性能下降1%4.4. 可视化我们的研究在选择正确的基础滤波器方面投入了大量的精力。然而，仅通过评估准确性性能来理解所选IBF如何影响CNN是不够的。为了检查不同的IBF集的效果，我们比较了从不同的IBF的应用程序中获得Grad一组输入基础过滤器。CAM [16]用于可视化激活图。然后，我们比较了从传统的边缘检测滤波器（标记为“方法1”）和正态分布滤波器（标记为“正常”）的应用程序产生的激活图图4、使用“方法1”的基础滤波器很好地平滑地激活了边缘，而使用“随机正态分布”的基础滤波器产生了更多的噪声图。通过这种类型的分析，我们部分地了解了所选择的IBF如何影响模型和最终的准确性。5. 讨论和结论我们的工作表明，CNN模型滤波器可以由少量输入基滤波器（IBF）的线性组合表示。我们不需要将卷积滤波器的所有值存储在给定的CNN模型中，而只需要保留线性组合的系数。实验结果表明了该方法的有效性。滤波器参数的数量可以减少，并且在精度损失的情况下压缩到约3倍的存储器大小1%-2%。结果表明，我们的方法可以在云环境中实现更有效的深度学习模型分布和节省。在该模型中，压缩后的模型下载到目标系统进行推理后，需要通过滤波器组合来重建原始模型。然而，在目标系统上重建只需要一次，并且需要很短的时间。J. 郑智H. 周和JG. 李ICT Express 7（2021）59竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认这项工作得到了国家研究基金会的支持，通过基础科学研究计划under Grant 2018R1D1A1B07043399。引用[1] S. Han ， J. Pool ， J. Tran ， W. Dally ， Learning both weightsandconnections for efficient neural network，《神经信息处理系统进展》，2015年。1135-1143。[2] S. Srinivas，R.V. Babu，深度神经网络的无数据参数修剪，2015，arXiv预印本：1507。06149.[3] H. Li，长穗条锈菌A.卡达夫岛，智-地杜尔达诺维奇，H。Samet，H.P. Graf ， Pruning filters for efficient convnets ， 2016 ， arXivpreprint arXiv：1608. 08710.[4] Y.他，X。Zhang，J. Sun，加速超深度神经网络的信道修剪，见：IEEE计算机视觉国际会议论文集，2017，pp.公元1389-1397年。[5] S.汉，H. Mao，W.J. Dally，Deep compression：Compressing deepneural networks with pruning ， trained quantization and huffmancoding，2015，arXiv preprint arXiv：1510. 00149.[6] A.G.霍华德，M。Zhu，B. Chen，中国粘蝇D. Kalenichenko，W.Wang，T. Weyand，M. Andreetto，H. Adam，Mobilenets：Efficientconvolutional neural networks for mobile vision applications，2017，arXiv preprint arXiv：1704. 04861.[7] X. Zhang，X. Zhou，M. Lin，J. Sun，Shufflenet：一种用于移动设备的非常有效的卷积神经网络，在：Proceedings of IEEE计算机视觉和模式识别会议，2018年，第10页。6848-6856[8] M. Sandler，A.霍华德，M。Zhu，中国茶青冈A. Zhmoginov，L. C.Chen，Mo-bilenetv 2：反向残差和线性瓶颈，在：IEEE计算机视觉和模式识别会议论文集，2018年，pp. 4510-4520[9] N. 妈，X。张洪- T. Zheng，J. Sun，Shufflenet v2：Practi-calguidelines for efficient cnn architecture design，in：Proceedings of theEuropean Conference on Computer Vision （ ECCV ）， 2018 ， pp.116-131[10] K. 他，X. 张先生，S. 伦，J.孙先生，深残余图像识别的学习，在：IEEE计算机会议论文集愿景和图案认可， 2016, pp. 770-778[11] K. Simonyan，A. Zisserman，Very deep convolutional networks forlarge-scale image recognition ， 2014 ， arXiv preprint arXiv ： 1409.1556[12] Y.何平、刘平、Z. Wang， Z. Hu，Y. Yang，Filter pruning viageomet-用于深度卷积神经网络加速的ric中值，在：IEEE计算机视觉和模式识别会议论文集，2019年，pp. 4340-4349[13] R. Rigamonti，A. Sironi，V. Lepetit，P. Fua，学习可分离滤波器，在：IEEE计算机视觉和模式识别会议论文集，2013年，pp. 2754-2761。[14] M.D.泽勒河Fergus，可视化和理解卷积网络，在：欧洲计算机视觉会议，施普林格，2014年，pp。818-833[15] D.鲍湾Zhou，中国古柏A. Khosla，A. Oliva，A. Torralba，网络解剖：量化深度视觉表示的可解释性，在：IEEE计算机视觉和模式识别会议论文集，2017年，pp。6541-6549[16] R.R. Selvaraju，M.Cogswell，A.达斯河Vedantam，D.帕里克，D. Batra，Grad-cam：通过基于梯度的本地化从深度网络进行视觉解释，在：IEEE计算机视觉国际会议论文集，2017618-626

下载后可阅读完整内容，剩余1页未读，立即下载