没有合适的资源?快使用搜索试试~ 我知道了~
51202800利用核稀疏性和熵进行可解释CNN压缩李玉超1#,李少辉1#,张宝昌3,李建庄4,杜大卫5,吴永健6,黄飞跃6,冀蓉蓉1,21厦门大学信息科学与工程学院认知科学系福建省智慧城市感知与计算重点实验室2中国深圳鹏程实验室,3中国北京航空航天大学,4华为诺亚xiamenlyc@gmail.com,,shaohuilin007@gmail.combczhang@buaa.edu.cn,huawei.com,doermann@buffalo.edulittlekenwu@tencent.com,rrji@xmu.edu.cn,garyhuang@tencent.com摘要压缩卷积神经网络(CNN)已经受到越来越多的研究关注。然而,大多数现有的CNN压缩方法都没有解释它们的内在结构来区分隐含的冗余。在本文中,我们从一个新的可解释的角度研究CNN压缩的问题在理论框架下揭示了输入特征图与二维核之间的关系,并基于KSE指标进一步进行核聚类,以实现高精度CNN压缩。KSE能够以有效的方式同时压缩每个层,与以前的数据驱动的特征图修剪方法相比,这明显更快。我们全面评估了CIFAR-10,SVHN和ImageNet 2012上的压缩和加速比。我们的方法demonstrates优越的性能增益比以前的。在特别是达到4. 7× FLOPS减少和2. 9×在ResNet-50上进行压缩,仅前5名精度下降的0。在ImageNet 2012上为35%,这大大超过了最先进的方法。1. 介绍深度卷积神经网络(CNN)在各种计算机视觉任务中取得了巨大成功,包括对象分类[5,9,12,34],检测[31,32]和语义分割[2,23]。然而,深度CNN通常需要高计算开销#平等的贡献。*通讯作者。Conv层*=熵二维核函数稀疏性信息丰富度特征图稀疏性图1.研究了输入特征图与其对应的二维核我们引入核稀疏和熵(KSE)来表示输入特征图的稀疏性和信息丰富性。以及大的存储器占用,这使得它们不能直接应用于移动或嵌入式设备。因此,人们对CNN压缩和加速进行了广泛的努力减少CNN冗余的一个有希望的方向是网络修剪[3,4,7,10,20,24,43],它可以应用于CNN的不同元素,例如权重,过滤器和层。早期的网络修剪工作[3,4]主要是独立地去除不太重要的权重连接,同时尽可能少地损失精度。然而,这些非结构化修剪方法需要专门的软件或硬件设计来存储大量索引以实现有效的加速。其中,滤波器剪枝技术受到了越来越多的研究关注,它可以通过直接对冗余滤波器进行剪枝来同时降低计算复杂度和内存开销,并得到了各种现成的深度学习平台的支持。为51202801输入2D2D转换通道输出要素图 滤波器核结果加法特征映射*为输入特征图2D内核2D转换通道输出结果此外特征图*=0.07【】指示器0.07【】0.530.53【】0.970.97核聚类二维核函数KSE原始卷积层压缩卷积层图2.我们方法的框架。卷积运算分为两部分,二维卷积和通道融合(加法). 2D卷积用于从每个输入特征图中提取特征,通道相加用于通过对所有输入特征图上的2D卷积的中间结果进行求和来获得输出特征图。在我们的KSE方法中,我们首先获得对应于输入特征图的2D核,并计算它们的稀疏性和熵作为指标,其进一步用于通过核聚类减少2D核的数量,并生成紧凑的网络。例如,Molchanov等人。[27]基于泰勒展开计算了滤波器对网络损耗的影响。Luo等人。 [24]提出基于贪婪信道选择来移除冗余滤波器。这些方法直接修剪每个卷积层中的滤波器及其对应的输出特征图,这可能导致流行的多分支网络中的维度失配,例如,ResNets [5].例如,通过移除残差映射中的输出特征映射,由于ResNets中的恒等映射和残差映射之间的不同输出维度,“添加”运算符无法实现。相反,几种信道修剪方法[8,22]专注于卷积层中的输入特征映射,当减少网络大小和FLOP1时,不会修改网络架构和运营商。然而,通过直接去除输入特征图,这种方法通常具有有限的压缩和加速,并且具有显著的准确性下降。在本文中,我们从一个新的可解释的角度来研究CNN压缩问题。我们认为,解释内在的网络结构提供了一个新的和基本的手段来发现隐含的网络冗余。正如在网络解释[15,28,46]中所研究的那样,不同层内和跨不同层的各个特征图在网络中扮演不同的角色作为直观的示例,不同层中的特征图可以被视为分层特征,例如,底层的简单结构特征和顶层的语义特征。即使在同一层中,特征图的重要性也各不相同;特征图表示的信息越多,其对于网络就越重要。为此,如果可能的话,解释网络,特别是特征图重要性,可以很好地指导网络元素的量化和/或修剪。我们在这里首次尝试解读网络1FLOPs:浮点运算结构朝着快速和强大的CNN压缩。首先引入特征图的感受野来揭示特征图的稀疏性和信息丰富性,这是评价特征图重要性如图所示。1的基础上,研究了输入特征图与其对应的二维核之间的关系,并在此基础上提出了核稀疏度和熵(KSE)作为一种新的指标,以特征不可知的方式有效地量化输入特征图的重要性。与之前的数据驱动压缩方法[6,7,24]相比,这些方法需要计算与整个训练数据集相对应的所有特征图以获得一般化的结果,因此对于大型数据集来说,计算成本很高,KSE可以以无数据的方式有效地并行处理每一层。最后,我们采用内核聚类来对CNN压缩的内核进行优化,并使用少量的epoch对网络进行微调。我 们 使 用 两 个 广 泛 使 用 的 模 型 ( ResNets 和DenseNets ) 在 三 个 数 据 集 ( CIFAR-10 , SVHN 和ImageNet 2012)上展示了KSE的优势。 Com-除了最先进的方法,KSE实现了卓越的性能。对于ResNet-50,我们得到4。7× FLOPS减少和2. 9倍压缩,只有0. ImageNet上Top-5准确率下降35%。压缩的DenseNets实现比其它紧凑网络好得多的性能(例如,MobileNetV2 和 ShuffleNet V2 ) 和 自 动 搜 索 网 络 ( 例 如 ,MNASNet和PNASNet)。本文的主要贡献有三个方面:• 我们从一个新颖的可解释的角度研究CNN压缩问题,并发现特征图重要性取决于其稀疏性和信息丰富性。• 我们的方法在图。2是特征不可知的,仅需要2D内核来计算输入特征图的重要性,这与现有的稀疏性熵稀疏熵稀疏熵51202802基于直接评估特征图的数据驱动方法[6,7,24]。因此,它可以同时并行有效地处理所有层。• 提出了核聚类来代替常见的核修剪方法[26,38],这导致了更高的压缩比,只有轻微的精度下降。2. 相关工作在本节中,我们简要回顾了用于CNN压缩的网络修剪的相关工作,其去除了冗余部分,可以分为非结构化修剪和结构化修剪。非结构化剪枝是独立地去除不重要的权重。Han等人[3,4]建议修剪具有小绝对值的权重,并以压缩的稀疏行或列格式存储稀疏结构。Yang等人。 [42]提出了一种能量感知修剪方法,通过最小化错误重建来逐层修剪不重要的权重。然而,这些方法都需要一种特殊的网络存储格式,并且只有在特定的软件或硬件中使用特定的稀疏矩阵乘法才能实现加速比。相比之下,结构化修剪直接移除结构化部分(例如,内核、过滤器或层)来同时压缩和加速CNN,并且得到各种现成的深度学习库的良好支持。Li等[14]提出了删除不重要的过滤器的基础上,numer1-范数。 Hu等人 [7]计算每个过滤器的平均零年龄百分比(APoZ),它等于对应于过滤器的输出特征图中零值的百分比。最近,Yoonet al. [43]提出了一种利用网络中特征之间的相似性的组稀疏正则化。He等人[6]提出了一种基于LASSO回归的信道选择算法,该算法利用最小二乘重构对滤波器进行剪枝。因此,Linet al.[19]提出了一种全局的、动态的训练算法来修剪不显著滤波器。虽然[6,7,19,24,43]中的过滤器修剪方法可以减少内存占用,但它们遇到了流行的多分支网络的维度失配问题,例如,ResNets [5].我们的方法不同于上述所有方法,它减少了该方法的优点是减少了与输入特征图相对应的2D内核的冗余,并且不修改卷积层的输出以避免维度失配。几 种 通 道 修 剪 方 法 [8 , 22] 更 适 合 广 泛 使 用 的ResNets和DenseNets。这些方法去除了卷积层中不重要的输入特征图,避免了维数失配.例如,Liuet al. [22]对批量归一化的比例因子进行了归一化,以选择重要的特征图。Huang等人. [8]结合权值修剪和群卷积对网络进行稀疏化。这些FC层对流层-L对流层L'Conv-layer-1图3.网络中三个特征图的感受野的可视化(以输入图像的分辨率信道修剪方法基于需要大量离线训练成本的复杂训练过程来获得稀疏网络。与这些方法不同的是,我们的方法从一个新颖的可解释的角度确定特征图的重要性,并通过其相应的内核计算它们,而无需额外的训练,这在实现CNN压缩方面明显更快。除了网络修剪,我们的工作也涉及到其他一些方法[35,37,40]。Wu等[40]卷积层中的量化滤波器和全连接层中的加权矩阵。然而,它们不考虑输入特征图的不同重要性,而是相同数量的量化质心。Wu等[41]对权值进行k-meansSon等人[35]通过使用少量的空间卷积核以最小化重建误差。然而,它主要用于3×3内核,难以压缩1×1内核。相比之下,我们的KSE方法可以应用于所有层。请注意,我们的方法可以进一步与其他策略集成,以获得更紧凑的网络,例如低秩近似[16,17,18,39]和紧凑archi。建筑设计[25,33]。3. 特征图为了识别网络上特征图的重要性,[1]中的工作使用双线性插值来将特征图缩放到输入图像的分辨率。然后,由顶部分位数水平确定的阈值被用来获得特征图的感受野,其可以被视为二进制掩模。根据这一原则,如图所示。3、对于来自同一卷积层的输入特征映射,我们在原始输入图像上计算它们对应的接收场。这些感受野指示这些特征图中包含的不同信息可视化结果显示在图中3可以解释为特征图重要性的指标,其中左侧的最重要输出热图特征图的感受域输入图像……51202803n=1Wn、cn、cnCC三者之间,而正确的一个是不重要的。为了量化这种解释,我们首先计算原始输入图像的热图,它代表信息分布[45]。我们使用网络中最后一个卷积层的输出特征图,并将它们在通道维度上相加。然后我们缩放ΣCYn=Wn,c<$Xc,(3)c=1其中,X表示卷积运算,Xc和Yc分别是X和Y的通道(特征图)为了简单起见,省略了偏差以便于呈现。将求和特征映射到输入图像的分辨率,双线性插值热图H中的每个像素值Hi,j表示该像素在输入图像中的重要性最后,我们在热图上计算特征图的感受野。 如图3、红色的部分在一个recep-对于输入特征图Xc,我们称集合{Wn,c}N对应的二维核。4.1. 核稀疏度的场可以量化对应特征图的解释。为此,包含在特征图中的信息可以被视为掩模的元素与热图的元素之间的乘积之和:海姆维姆Hi,jMi,j,(1)i=1j =1其中,Him和Wim表示分辨率(高度和我们测量输入特征图的稀疏性(即,I{M=1}),即,它们的范数n的和|W n,c|.虽然这些核不参与生成输入特征图,但输入特征图与其对应的2D核之间的稀疏性是密切相关的。在训练期间,2D内核Wn,c的更新取决于梯度R(Wn,c)和权重衰减R(Wn,c):n、c宽度),并且M是二进制掩码生成器。W(t+1)=W(t)−ηLR(W(t))−由特征图标注。当量1可以重写为:I{M= 1}H,(2)n、cn、c(吨)n、cL(吨)n、cR(W(t))(四)其中I{M=1}是M中元素的个数,=W(t)−η 最大值(t)X(t)−n、c(吨)n、c值1,可以被看作是接受的区域字段,其取决于特征图的稀疏性,并且H是M中对应元素为1的所有条目Hi,j的平均值。 热图表示信息其中L表示损失函数,η是学习率。如果输入特征图X(t)是稀疏的,则内核R(W(t))在输入图像中的分布。 的值越高,W(t+1)<$W(t)−n、c.(五)H元素i、j这个元素包含的n、cn、c(吨)n、ctains。 因此,H可以表示信息丰富度注意|W(t+1)|如果R(W(t))为n,c n,c在feature map中。 当量 2、强调了特征图取决于其稀疏性和信息丰富性。如果我们只使用Eq。为了计算每个特征图的重要性,它遭受了沉重的计算成本,因为我们需要计算关于整个训练数据集的所有特征图以获得比较的广义结果。基于正则化定义,这可能使内核稀疏[44]。因此,对应于稀疏输入特征图的核在训练期间可以是稀疏的。因此,对于第c个输入特征图,我们将其稀疏度定义为:ΣNsc =|Wn,c|.(六)n=14. 该方法为了处理上述问题,我们引入了内核稀疏性和熵(KSE),它作为一个指标,以表示稀疏性和信息丰富性的输入特征映射的特征不可知的方式。它是通用的,可用于压缩完全连接的层,方法是将它们视为1 ×1卷积层。通常,卷积层通过使用滤波器W ∈RN×C ×Kh×Kw将输 入 张 量 X ∈RC×Hin×Win 变 换 为 输 出 张 量 Y∈RN×Hout×Wout。这里,C是输入特征图的数量,N是输入特征图的数量。滤波器的数量,Kh和Kw分别是滤波器的高度和宽度。卷积运算可以用公式表示如下:WWW、W51202804据我们所知,我们是第一个建立输入特征图(而不是输出特征图)和内核之间的稀疏性关系请注意,这种稀疏关系已经在5.2节所示的实验4.2. 核熵对于卷积层,如果来自单个输入特征映射的卷积结果更加多样化,则该特征映射包含更多信息,并且应该在压缩网络中保持在这种情况下,对应的2D核的分布更复杂。因此,我们提出了一个新的概念,称为核熵来衡量输入特征映射的信息丰富度51202805你好n=1i,c我们首先为对应于第c个输入特征图的2D核构造最近邻距离矩阵A c。 对于每行i和列j,如果W i,c和W j ,c“接近”2,即, W j ,c是Wi,c的k个最近邻,则A ci,j =<$W i,c− W j,c<$,否则A ci,j =0。我们设k从经验上讲,这可以达到很好的效果。 然后我们计算每个核的密度度量,位于该内核附近的实例:ΣN工作,通过聚类,我们开发了一种细粒度的压缩方案来减少内核的数量,其中在修剪之后,该数量是0和N之间的整数(但不像前面的方法那样仅为0或N首先,我们决定其对应的第c个输入特征映射所需的内核数量为:0,dm(Wi,c)=j=1Aci,j.(七)qc=N,N2G−vcG +T,则vcG=G,,否则,(十)Wi,c的密度度量越大,密度越小W i,c的值是,即,核远离其它核,并且使用Wi,c的卷积结果变得更加不同。因此,我们定义内核熵来测量2D内核分布的复杂性:其中G控制压缩粒度的级别。更大的G导致更精细的粒度。N是原始2D内核的数量,T是控制压缩和加速比的超参数。ec=− ΣNi=1dm(WDc(i、c)log2dm(WDc(i、c)、(8)其次,为了保证每个输出特征图包含来自大多数输入特征图的信息,我们选择聚类而不是修剪来减少2D核其中dcΣNi=1 dm(Wi,c)的情况。内核越小,内核编号。它可以简单地通过k-均值来实现熵是,二维分布越复杂核的种类越多,核的种类就越多。在这种情况下,由这些核提取的特征具有更大的差异-算法的聚类质心的数量等于qc. 因此,第c个输入特征图生成qc个质心(new 二维核){Bi,c∈R Kh× Kw}qc和索引集.ΣNi=1恩塞 因此,对应的输入特征图pro.In,c∈ {1,2,.,q c}n=1以替换原始的2D ker-向网络提供更多信息。nels{Wn,c∈RKh×Kw}N. 例如,I1,c=2 de-4.3. KSE指标如第3节所述,特征图的重要性取决于两个部分,稀疏性和信息丰富性。基于这一发现,我们首先使用最小-最大归一化sc和ec到[0,1]中,使它们处于相同的尺度。然后,我们结合内核稀疏性和熵来衡量输入特征映射的整体重要性: .S注意,第一个原始内核被分类为第二个clusterB2,c.当qc=0时,第c个输入特征图被认为是不重要的,它及其所有对应的核都被修剪.在qc=N的另一极端情况下,该特征图被认为对于卷积层是最重要的,并且保留其所有对应的内核。在我们的培训过程中有三个步骤。(i)在数据集上预训练网络。(ii)压缩网络(在所有卷积层和全连接层中),使用vc=c、(9)1+αec上面提出的方法,并获得qc,Bi,c我n、c. (三)其中α是控制稀疏性和熵之间平衡的参数,在本工作中设置为1。我们称vc为KSE指标,它衡量输入特征图的可解释性和重要性。我们进一步使用最小-最大归一化来基于一个卷积层中的所有输入特征图将指标重新缩放为[0,1]4.4. 核聚类为了压缩核,先前的通道修剪方法基于通道的重要性将通道分为两类,即,重要或不重要的。因此,对于输入的特征图,其对应的2D核要么全部保留,要么全部删除,这是一种粗压缩。在我们对压缩网络进行微调,时代在微调期间,我们只更新集群质心。在推理中,我们的方法通过共享从输入特征图中提取的2D激活图来加速网络,以降低卷积运算的计算复杂度请注意,这里的激活图(图中的黄色平面)。2)不是输出特征图(图中的橙色平面)。2)的情况。如图2、将卷积运算分为二维卷积和通道融合两部分。在2D卷积中,同时计算来自每个输入特征图的响应以生成2D激活图。第c个输入特征图对应于q个c2D内核,其生成q个c2D激活图Zi,c=Bi,c<$Xc.然后,在通道加法中,我们计算2设W′′和Wj,c 是由W的元素构成的两个向量i,cYn通过求和它们相应的2D激活图:ΣC和Wj,c,尊重iv el y。则Wi,c和Wj,c之间的距离为de-′作为Wi,c之间的距离′和Wj,c.Yn=c=1=51202806ZIn,c,c.(十一)51202807C1.21.01.21.0r=0NCK h K w.0.80.8comp(q KK+Nlog2qc)(十二)0.60.6CHw32C0.40.20.0-0.2-0.20.00.20.40.60.81.01.2核稀疏度0.40.20.0-0.2-0.20.00.20.40.60.81.01.2核熵我们还可以基于以下方式加速压缩网络:卷积结果的共享如第4.4节所述,我们从输入特征图中计算所有中间特征,然后为每个输出特征图添加相应的计算主要是图4.左:输入fea的稀疏性与输入fea的稀疏性之间的关系。convolution操作的消耗。 由此可见,理论真映射及其相应的核稀疏性。右:Re-输入特征图的信息丰富度与其对应的核熵之间的关系。加速比r提交人:acce 每个卷积层都是COM,NCHoutWoutKhKwNC5. 实验拉克斯qcHC出来WoutKhKw=100q。(十三)C我们已经使用Pytorch实现了我们的方法[29]。对三个数据集(CIFAR-10、街景房屋编号(SVHN)和Ima-geNet ILSVRC 2012)进行有效性验证CIFAR-10有来自10个类别的32×32训练集包含50,000张图像,测试集包含10,000个图像。SVHN数据集在训练集中有73,257张32×32彩色数字图像,在测试集中有26,032张图像ImageNet ILSVRC 2012包含128万张用于训练的图像和50,000张用于验证的图像,超过1,000个类。所有网络都使用随机梯度下降(SGD)进行训练,动量设置为0.9。在CIFAR-10和SVHN上,我们分别使用128的minibatch大小训练了200和20个epoch的网络。初始学习率为0.01,并在总时期数的50%处乘以0.1。在ImageNet上,我们训练网络21个epoch,minibatch大小为64,初始我们还可以计算出压缩和加速度全连接层上的比率,将其视为1×1卷积层5.2. 输入特征映射与其对应的核之间的关系我们计算输入特征图的稀疏度I{M= 1}和信息丰富度H,以及它们相应的核稀疏度和熵。关系显示在图4中,特征图是来自CIFAR-10上的ResNet-56的所有特征图的随机子集。我们可以看到,输入特征图的稀疏性和核稀疏性同时增加,而输入特征图的信息丰富度随着核熵的增加而降低。我们可以进一步使用斯皮尔曼相关系数ρ来量化这些关系:学习率是0.001,在第7个时期除以10,14. 因为第一层只有三个输入通道,Σ (xi−x)(yiρ=εi-y),(14)最后一层是ResNet和DenseNet中的分类器,i(xi−x)2i(yi−y)2不压缩网络的第一层和最后一层在我们的方法中,我们使用T来控制压缩和加速比,这决定了压缩后的2D核的数量在实验中,我们在CIFAR-10和SVHN上将ResNet-56,DenseNet-40-12和DenseNet-100-12的T设置为0以实现更好的精度,并将ResNet-50和ImageNet 2012上的所有DenseNet的T设置为1以实现更低的压缩比。5.1.压缩比和加速比在本节中,我们将分析压缩比和加速比。对于卷积层,原始参数的大小为N×C×Kh×Kw,每个权重被假定为需要32位。我们存储qc簇质心,其中每个权重再次需要32位。此外,每个指标每个输入特征图占用log2qc比特。每个质心的大小为Kh×Kw,并且每个输入特征图需要N个索引用于对应。因此,我们可以通过下式计算每层的压缩比r_comp其中x和y分别是随机变量x和y的平均值。图2左侧关系的相关系数。4是0。833,而图中右边的关系式的修正系数。4是-0。八二六这些值证实了第一个正相关性和第二个负相关性。5.3. 与最新技术水平方法的CIFAR-10。我们将我们的方法与ResNet-56上的[6,14]和DenseNet上的[8,22,35]进行了比较。对于ResNet- 56,我们将G设置为两个值(4和5)以压缩网络。对于DenseNet-40-12和DenseNet-BC-100-12,我们将G设置为另外两个值(3和6)。如表1和表2所示,与ResNet-56上的过滤器修剪方法[6,14]和DenseNet上的通道修剪方法[8,22]相比,我们的方法实现了最佳结果此外,我们的方法在DenseNet-BC-100-12上也取得 了 比 其 他 内 核 聚 类 方 法 更 好 的 结 果 [35] 。ComantoSon et al. [ 35]我们的KSE方法不仅可以输入要素图稀疏度输入要素地图信息丰富度Σ51202808模型FLOPs(右)#参数。(rcomp)Top-1Accc %ResNet-56基线125M(1.0×)0.85M(1.0×)93.03ResNet-56-pruned-A [14]ResNet-56-pruned-B [14]112M(1.1×)90M(1.4×)0.77M(1.1×)0.73M(1.2×)93.1093.06ResNet-56-pruned [6]62M(2.0×)-91.80模型FLOPs(右)#参数。(rcomp)Top-1Accc%Top-5Accc%ResNet-50基线4.10B(1.0×)25.56M(1.0×)76.1592.87国内生产总值-0.6[19]1.88B(2.2×)-71.8990.71ResNet-50(2×)[6]2.73B(1.5×)-72.3090.80[24]第二十四话[24]第二十四话1.71B(2.4×)12.38M(2.0×)71.0168.4290.0288.30表1.ResNet-56在CIFAR-10上的结果在所有表格中,数字,M/B表示百万/十亿。表4. ResNet-50在ImageNet 2012上的结果。43274 75 7677前1位的访问率(%)201510574 75 76 77前1位的访问率(%)表2.DenseNet在CIFAR-10上的结果模型FLOPs(右)#参数。(rcomp)Top-1Accc %DenseNet-40基线283M(1.0×)1.04M(1.0×)98.17DenseNet-40(40%)[22]DenseNet-40(60%)[22]185M(1.5×)134M(2.1×)0.65M(1.6×)0.44M(2.4×)98.2198.19KSE(G=4)KSE(G=5)147M(1.9×)130米(2.2倍)0.49M(2.1×)0.42M(2.5×)98.2798.25表3. DenseNet-40-12在SVHN上的结果。压缩3×3卷积层,也压缩1×1卷积层,卷积层以获得更紧凑的网络。SVHN。我们还评估了KSE在SVHN上的DenseNet-40-12上的性能。我们将G设为两个值,4和5. 如表3所示,我们的方法比通道修剪方法实现了更好的性能[22]。比如说,与He等人[22]相比,我们获得了0.06%的Top-1准确度(98.25% vs. 98.19%),具有更高的压缩比和加速比(2. 5 × 2。2×vs.2. 4×和二、1×)。ImageNet 2012.我们将G设置为4和5,并将我们的KSE方法与三种最先进的方法进行比较[6,19,24]。如表4所示,我们的方法实现了最佳性能。Manance,Top-5准确度仅下降0.35%,下降了2倍。9倍压缩和4. 7倍加速。 这些现有技术的方法性能较差,主要是因为它们使用二分法来压缩网络,即, 修剪或保留过滤器/通道,这导致一些重要信息的丢失-在网络中形成。此外,由于具有多分支架构的ResNets上的维度失配问题,像[19,24]这样的过滤器修剪方法不能应用于一些卷积121DenseNet169KSE201失败。(B)121DenseNet169KSE201模型FLOPs(右)#参数。(rcomp)Top-1Accc %DenseNet-40基线283M(1.0×)1.04M(1.0×)94.81DenseNet-40(40%)[22]DenseNet-40(70%)[22]190米(1.5倍)120米(2.4×)0.66M(1.6×)0.35M(3.0×)94.8194.35KSE(G=3)KSE(G=6)170米(1.7×)115米(2.5倍)0.63M(1.7×)0.39M(2.7×)94.8194.70DenseNet-BC-100基线288M(1.0×)0.75M(1.0×)95.45#参数。(男)51202809图5.原始DenseNets和我们的KSE压缩DenseNets之间的参数和FLOPs量比较。对于DenseNet,我们将G设置为4,并使用三种不 同 的 层 数 ( DenseNet-121 , DenseNet-169 和DenseNet-201)对其进行压缩。如图5、经KSE压缩后的网络与原网络,但实现了几乎2倍的参数压缩和加速。最近,许多紧凑型网络[25,33]已被提出用于移动和嵌入式设备。此外,自动搜索算法[21,36]已经被提出来通过强化学习搜索最佳网络架构。我们将KSE压缩的DenseNet-121和DenseNet-169与这些方法进行比较[8,21,25,33,36]。在图6中。‘A’represents 我们使用KSE来压缩DenseNets,从而实现更紧凑的结果。例如,我们在ImageNet 2012上仅用337万个参数就获得了73.03%的Top-1准确率。我们的KSE针对不同的输入特征图使用不同数量的2D内核来进行卷积,与仅使用传统卷积层的复杂自动搜索算法相比,这减少了更多的冗余内核。此外,在MobileNet或ShuffleNet上广泛使用的深度卷积可能会导致显著的信息丢失,因为只有一个2D内核用于从每个特征图中提取特征。5.4. 消融研究KSE的有效使用与G.我们在CIFAR-10上选择ResNet-56和DenseNet-40,在ImageNet 2012上选择ResNet-50和DenseNet-121来评估G。此外,我们还分析了三个不同的指标。5.4.1压缩粒度G在我们的内核聚类中,我们使用G来控制压缩粒度的级别。不同G的结果是51202810DenseNet169-A[33]第二十三话:一个人的世界PNASNet[21]DenseNet121-A[8]第八话[36]第三十六话[25]第二十五话[33]第三十三话稀疏性熵KSEG=2G=3G=4G=5G=675.575.074.574.073.573.072.572.03 4 5 6 7 89#参数。(男)图8. ResNet-50的Block 1-Unit 1-Conv 2层图6.压缩的DenseNets的比较(红色圆圈)我们的KSE和其他紧凑型网络(蓝色圆圈)。5.5. 可视化分析我们可视化输入的特征图和相应的-93.593.092.592.091.50.200.250.300.350.400.450.500.55#参数。(男)93.593.092.592.091.591.090.590.0稀疏性熵KSEG=2G=3G=4G=5G=630 40 50 60 70FLOPs(M)在ResNet-50的Block 1-Unit 1-Conv 2层显示KSE指标值,以揭示它们的连接。如图8、输入图像中包含一只鸟。当该指标的值较小时,其对应的特征图提供的鸟的信息相反,当该值接近1时,特征图具有鸟和背景信息两者因此,我们的KSE方法可以准确地计算出图7.在CIFAR-10上使用ResNet-56进行压缩粒度和指标分析。示于图7.请注意,在这一小节中,只有图中的红色实心圆圈。七是关心。当G=2时,对应于第c个特征图的2 D核被分为两类:qc =0或qc=N,用于修剪或保留所有核。这是一种粗粒度的剪枝方法。随着G的增加,qc达到各种不同的值,这意味着以细粒度的方式压缩2D内核。此外,压缩比和加速比也有所提高。与粗粒度剪枝相比,细粒度剪枝取得了更好的效果。例如,当G=4时,它实现了与G=2相同的压缩比,并且Top-1精度增加了0.52%。5.4.2指标分析本文提出了核稀疏度、核熵和KSE指标三事实上,它们都可以作为判断特征图重要性的指标。接下来,我们在ResNet-56上评估这三个指标,并使用所提出的压缩内核聚类。如图与核稀疏度和核熵指标相比,KSE指标在不同压缩粒度下均能达到最佳效果。这是由于核稀疏度仅表示特征图的感受野的面积,而2D核的密度熵仅表示感受野的位置信息,单独使用它们并不像KSE那样有效地评估特征图的重要性。快速判别特征图,有效判断特征图的重要性。6. 结论在本文中,我们首先从一个新的可解释的角度研究CNN压缩问题,并发现稀疏性和信息丰富性是评估特征图重要性的关键因素。然后,我们提出核稀疏性和熵(KSE),并将它们作为一个指标来衡量这种重要性的特征不可知的方式。最后,我们使用核聚类来减少基于KSE指标的核的数量,并在几个时代。网络压缩使用我们的ap-proach实现更好的结果比国家的最先进的方法。对于未来的工作,我们将探索一个更严格的理论证明与边界/条件来证明特征映射和内核之间的关系。代码可在https://github.com/yuchaoli/KSE上获得。致谢本 工 作 得 到 国 家 重 点 研 发 项 目(No.2017YFC0113000,No.2016YFB1001503)的支持,国 家 自 然 科 学 基 金 项 目 ( 编 号 : U1705262 ,No.61772443,No.61402388,No.61572410),博士创新人才支持项目(BX 201600094)、国家博士后科学基金项目(2017 M612134)、国家语委科研项目(批准号:YB 135 -49)和福建省自然科学基金(No.2017 J 01125和编号2018J01106)。前1位的访问率(%)前1位的访问率(%)前1位的访问率(%)51202811引用[1] David Bau,Bolei Zhou,Aditya Khosla,Aude Oliva,and Antonio Torralba.网络解剖:量化深层视觉表征的可解释性。IEEE计算机视觉和模式识别会议(CVPR),2017年。[2] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积欧洲计算机视觉会议(ECCV),2018年。[3] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。国际学习表征会议(ICLR),2016年。[4] Song Han,Jeff Pool,John Tran,and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统进展(NIPS),2015年。[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议(CVPR),2016年。[6] Yihui He,Xiangyu Zhang,and Jian Sun.用于加速深度神 经 网 络 的 通 道 修 剪 。 国 际 计 算 机 视 觉 会 议(ICCV),2017年。[7] Hengyuan Hu,Rui Peng,Yu-Wing Tai,and Chi-KeungTang.网络修整:数据驱动的神经元修剪方法实现高效的深度架构。arXiv预印本arXiv:1607.03250,2016。[8] Gao Huang,Shichen Liu,Laurens Van der Maaten,andKilian Q Weinberger.Condensenet:一个高效的密集网络,使用学习的群卷积。IEEE计算机视觉和模式识别会议(CVPR),2018年。[9] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。IEEE计算机视觉和模式识别会议(CVPR),2017年。[10] 黄泽浩和王乃艳。深度神经网络的数据驱动稀疏结构选择。欧洲计算机视觉会议(ECCV),2018年。[11] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu、Matthew Tang、Andrew Howard、Hartwig Adam和Dmitry Kalenichenko。神经网络的量化和训练,有效的整数算术推理。IEEE Confer-ence on Computer Visionand Pattern Recognition(CVPR),2017年。[12] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展(NIPS),2012。[13] Vadim Lebedev , Yaroslav Ganin ,Maksim Rakhuba,Ivan Os- eledets,and Victor Lempitsky.使用微调的cp分解 加 速 卷 积 神 经 网 络 。 2014 年 国 际 学 习 表 征 会 议(ICLR)。[14] Hao Li,Asim Kadav,Igor Durdanovic,Hanan Samet,and Hans Peter Graf.修剪过滤器以实现高效的卷积。在-2016年国际学习表征会议(ICLR)。[15] Yixuan Li,Jason Yosinski,Jeff Clune,Hod Lipson,and John E Hopcroft.收敛学习:不同的神经网络学习相同的表征吗?神经信息处理系统进展(NIPS),2015年。[16] 林绍辉,姬蓉蓉,陈超,黄飞跃。Espace:通过消除空间和通道冗余来加速卷积神经网络。在AAAI人工智能会
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功