变分卷积神经网络的通道修剪方法

53 浏览量更新于2023-10-18 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2780变分卷积神经网络剪枝赵成龙1倪冰冰1张健1赵启伟1张文军1田琦21上海交通大学2华为诺亚{cl-zhao，nibingbing，stevenash0822，wwqqzzhi，zhangwenjun}@sjtu.edu.cnhuawei.com tian.qi1@www.example.com摘要我们提出了一种变分贝叶斯方案，用于在通道级修剪卷积神经网络这个想法的动机是基于确定性值的修剪方法本质上是不正确和不稳定的。简单地说，本文引入变分技术来估计信道显著性的离散性，在此基础上，通过一个简单的准则，可以从模型中去除冗余信道优点有两方面：（1）该方法进行了通道修剪，不需要重新训练，提高了计算效率。2)我们的方法被实现为一个独立的模块，称为变分修剪层，它可以直接插入到现成的深度学习包中，而无需任何特殊的网络设计。广泛的实验结果很好地证明了我们方法的有效性：对于CIFAR-10，我们在不同的CNN模型上执行通道去除，减少了74%，这导致了显着的尺寸减小和计算节省。对于ImageNet，ResNet-50中大约40%的通道被删除，而不影响准确性。1. 介绍深度卷积神经网络在计算机视觉领域取得了重大成功，例如对象识别 [13，25，37，44]，语义段-tation [2，28]、对象检测[9，26]和视频分析[45，46]。由于巨大的存储和计算成本，深度模型很难在资源受限的平台上实现，例如，移动和可穿戴设备。为了解决这个问题，已经提出了各种方法来提高CNN模型的效率或将模型压缩成更紧凑的表示。这些方法包括张量因子分解[35，48]，净-*同等贡献†通讯作者修剪前通道显著性修剪后图1. 变分CNN修剪：我们基于通道显著性γ的分布来修剪冗余通道。虚线表示修剪通道，实线表示保留通道。最好的颜色。工作量化[4，40]和权重修剪[11，32]。虽然理论上是合理的，但这些方法通常需要特定的软件或硬件实现，这不可避免地引入额外的开销，即，实际上不适用。其他一些方法[15，30]通过手工制作的方式获得紧凑的模型，这些方法需要人工干预并具有折衷的性能。另一种方法是通道修剪[14，27，29，43]，它可以删除模型中的冗余通道。通道修剪操作完全由现成的深度学习库支持此外，通道修剪显著地减少了存储器占用（即，特征图）。最近的方法[14，29]通过最小化连续层之间的反射误差来去除一层然而，这些方法采用贪婪算法进行信道选择，这是耗时的，因为计算复杂度与模型的层数成线性比例。基于稀疏性的方法[23，43]对一组权重施加Lp范数，用于信道收缩。然而，尽管它们具有良好的性能，但用于通道修剪的方法具有固有的缺点。1)复杂性：这些方法大多需要额外的再训练阶段来恢复性能.甚至有些需要………2781进行多次迭代的交替剪枝和重新训练，这在实践中非常耗时并且不友好2)稳定性：分层交替参数优化方法不可避免地存在不稳定性。也就是说，隐藏层的参数可以在连续迭代期间急剧改变。这导致在优化过程中任意删除一些通道，这是不可解释的。这最终会导致修剪后意外的性能下降。为了解决上述问题，我们在贝叶斯概率学习框架（即，与以前的确定性方法相反），称为变分CNN修剪，以产生紧凑、稳定、可解释和灵活的压缩。为了避免引入额外的参数，所提出的概率修剪框架直接在批量归一化（BN）中对重新定义的缩放因子进行操作。与[27]不同的是，我们扩展了比例因子以包括偏置项，称为通道显著性，并且仍然保持批归一化的线性形式。而不是确定性的值计算，我们把每个通道的显着性作为一个随机变量，并寻求一个适当的概率分布模型。因此，可以基于通道显著性的分布来修剪不重要的层。然而，直接估计这些分布涉及棘手的多维积分贝叶斯方式。因此，我们引入随机变分推断[20]来估计由稀疏先验引起的信道显著性的我们的贝叶斯框架具有以下优点。首先，通过直接对缩放因子（即，，我们的方法也可以表示为变分修剪层），在深度CNN模型学习中没有引入额外的参数，因此我们的方法可以直接插入任何现成的深度学习包，而不需要任何特殊的网络组件设计。第二，该方法进行通道修剪，而不需要重新训练步骤。因此，提高了计算效率。第三，以概率的方式进行公式化，优化过程变得稳定和可解释。在CIFAR- 10上的大量实验表明，我们可以在几乎没有准确性损失的情况下修剪高达74%的通道。在ImageNet上，ResNet-50实现了比基线更好的性能，同时删除了约40%的通道。2. 相关工作张量分解Jaderberg等人。 [19]通过低秩分解获得了CNN的实质性加速。Denil等人[5]通过使用少量权重值来表示每个特征图，从而去除深度学习模型中的冗余参数，这节省了大量的内存和计算消耗。矩阵分解在文献[6]中，引入了组合SVD来近似神经网络中的在[42]中，张量环（TR）分解技术被应用于压缩深层神经网络。然而，这些方法是不切实际的，因为涉及计算昂贵的分解操作。网络量化。Courbariaux等人 [4]提出了一种用二进制值表示网络权值的方法。为了获得计算效率的显着改善，Gupta等人。[10]利用随机舍入以16位宽的固定点表示权重。在[3]中，网络权重被散列到不同的组中.对于每个组，共享权重使用相同的哈希索引保存。为了进一步压缩网络，Tung et al. [40]在单个学习框架中组合权重修剪和量化。Rastegari等人。 [36]提出了XNOR网络，该网络将卷积层上的XNOR和比特计数操作应用于卷积权重。Park等人。 [34]提出了一种基于加权熵量化权重和激活的方法。这些低比特近似方法通常遭受形式精度损失。非结构化修剪。受神经生物学的启发，最优脑损伤[22]和最优脑外科医生[12]提出通过分析损失函数的Hessian来删除网络中的参数以节省存储。然而，这些基于启发式的方法是计算密集型的，并且不能提高运行时间。Han等人 [11]根据幅值判断网络中权重的重要性，并删除值较小的冗余权重。在[39]中提出了一种无数据算法，以消除全连接层中的多余神经元Lebedev等人。 [21]通过分组稀疏操作提高ConvNets的速度。Wang等人。 [41]提出了一种对权重的密度多样性惩罚，以压缩全连接网络。Pavlo等人 [32]基于蛮力搜索删除不重要的内核，并通过微调恢复压缩网络由于权重张量中的不规则稀疏性，这些非结构化修剪方法[22，24，38]需要特殊的软件和结构化修剪。Wen等人。 [43]通过对一组权重施加L1范数来 Li等人[23]提出一种一次性修剪和再训练策略，以压缩多层过滤器。 Liu等人[27]利用批量归一化层[18]的比例因子来去除非有效通道并微调修剪后的模型以恢复可比的准确性。He等人 [14]提出了一种基于LASSO回归和最小二乘重建减少冗余通道的方法。[29 47]将网络修剪转换为优化问题，并通过贪婪算法以逐层方式执行信道选择。所有这些结构化修剪方法都是硬件友好的，即，提振2782网络直接推理。然而，大多数这些prun- ing方法[1，7，16]需要重新训练阶段来恢复可比的精度，这增加了计算复杂性并且对于操作不友好相比之下，我们的方法进行信道修剪，而不需要重新训练阶段，同时保持良好的性能，在压缩和加速比。3. 变分CNN剪枝在本节中，我们提出了一种用于卷积网络中信道修剪的变分贝叶斯方案：变量CNN修剪。首先，我们通过将比例因子扩展到移位项（称为通道显著性）来重新制定批量归一化层。而不是确定性的值，我们估计的信道显着性的分布通过变分推理。为了进一步促进修剪，对信道显著性施加然后，我们通过一个简单的标准修剪冗余通道的通道显著性分布的基础上我们的方法是作为一个变量修剪层，它可以插入到任何现有的框架，而无需特殊的设计。3.1. 批量标准化再访批量归一化（BN）[18]已在当前的卷积神经网络中作为标准层引入，它提高了训练速度并加速了收敛过程。这种出色的性能得益于通过使用小批量统计（即，，σB和μB）。x in和x out分别表示为输入和输出激活图，B表示小批量。BN层执行归一化如下：x（单位：− µB）BN（x）=β;xout=γ·BN（x）+β（1）σ2+ σγ值，但β值很大。修剪这个通道是任意的，因为这个通道的激活不是零，并且仍然对下一层产生影响。2)在训练阶段，隐层参数的值经过多次迭代后发生了剧烈的变化。这意味着价值（例如，比例因子）是动态的。仅通过观察参数值来确定层的影响是不够的。我们认为这是修剪后性能下降的一个重要原因[27]。为了解决这个问题，我们在公式1中重新公式化Batch Normalization层，如下所示：xout=γ·BN（x）+β，（2）其中，ββ=γ·β。（三）我们在保持BN的仿射函数的情况下，将尺度因子γ扩展到移位项β上。在这种情况下，参数γ可以直接用作通道的因子，称为通道显著性，因为每个通道的激活完全取决于γ。我们不是通过γ的值，而是根据γ的分布来修剪不重要的通道，γ的分布是通过变分推理估计的（更多细节见第3.2节）。我们没有在BN层中引入任何参数，并且重新表达的BN层可以插入到任何实验框架中。3.2. 通道显著性的变分推断代替确定性的值，我们修剪通道的通道显著性的分布。显然，这种方法更稳定，解释性更强，因为分布包含了丰富的信息，具有良好的数学性质。因此，我们通过贝叶斯规则来估计信道显著性的分布。更多细节讨论如下：B考虑数据集D={（x，y）}N，x是输入数据我我i =1其中，µB和σB表示平均值和标准差的输入激活数。仿射变换通过线性函数可学习参数应用于归一化激活，即，比例因子γ和移位因子β。批量归一化（BN）被插入卷积层和非线性层之间，构成了现代网络的基本γ和β是模型上的通道参数，具有缩放和平移功能。参数γ可以表示相应信道的有效性系数，不需要引入参数由于该特性，选择参数γ作为指示卷积通道重要性的因子是有意义的[27]。然而，这里忽略了两个重要问题：1) 我们注意到BN中参数γ和β是独立的。因此，忽略移位项的影响，剔除γ值较小的不重要通道是一种不恰当的例如，通道具有零y是对应的标号。我们的目标是学习一个具有条件概率p（y）的参数γ的模型|x，γ）。参数γ是前一节中定义的通道显著性我们利用γ来确定每个通道的影响。在获得γ的先验知识（先验分布）后，利用Bayes规则可以推断出γ的后验分布。然而，计算这样的后验分布-p（γ）离子|D）=p（γ）p（D|γ）/p（D）是困难的，因为p（D）=p（D，γ）dγ是一个计算难处理的积分。信道显著性的分布很难直接得到。因此，一个有效的近似方法，变分干涉，引入到解决这个问题。与MCMC相比，变分推理具有理论性强、计算量小等优点，是一个很好的选择。在变分推理中，我们不直接计算真实的后验分布，而是假设一个参数化分布q φ（γ）来近似p（γ| D）。通过这种方式，The2783φ我DDD将不可解的推理问题转化为易处理的优化问题。我们可以通过最小化qφ（γ）和真实位置之间的距离来前分布p（γ| D）通过Kullback-Leibler发散，即，minφD KL（q φ（γ）||p（γ| D）。最小化KL散度相当于最大化证据下限（ELBO）如下：3.3. 稀疏先验下的KL散度如公式8所示，需要计算后验分布和先验分布之间的KL发散。近似后验的常见选择是完全因子化的高斯分布，公式如下：YCL（φ）=LD（φ）− D KL（q φ（γ）||p（γ）），（4）qφ（γ）=i=1q（γ i），γ i<$N（μ i，σ i）.（九）其中，LD（φ）=Σ（x，y）∈DEq（γ）[logp（y|x，γ）]。（五）我们的目标是用目标函数微调可学习参数φ=（µ，σ）。为了去除信道，近似分布qφ（γ）应该是稀疏的。然后可以容易地确定无效信道。也就是说，我们消除通道的基础上的平均值和方差的差异，目标函数由两项组成：期望对数似然L_D（φ）和KL散度. LD（φ）是旨在最大化模型预测的概率的重构项，例如，最小化预测误差之和。KL发散项是正则化项，其中稀疏先验将被引入作为对信道显著性γ的稀疏诱导惩罚。优化这两项，我们可以同时考虑性能和压缩。这两个术语之间的权衡导致一个紧凑和有效的模型。由于等式5中的期望，梯度可以通道显著性γ的计算。因此，我们引入先验分布如下：YCp（γ）= p（γi），γi<$N（0，σi），（10）i=1我们把均值固定为零。因此，由该稀疏先验引起的信道显著性被鼓励朝向零。然后ELBO中的KL发散可以计算如下：Σ不能直接计算。在[8，20，31]之后，我们引入了重新参数化技巧以获得无偏的差分。D KL（q φ（γ）||p（γ））=D KL（q φ（γ i）||p（γ i））我（十一）Σσ∗σ2+µ21基于小批量的Monte Carlo估计期望对数似然M是小批量大小，N是数据的数量。这样，qφ（γ）可以表示为=logi+σ我我∗i−。2（σi）2 2可微函数γ=f（φ，φ），其中φ∈ N（0，1）.然后，等式5可以重新公式化如下：作出此选择的原因概述如下：1) 所选择的先验分布具有稀疏性，可以促使参数γ趋于零。协议-LD（φ）<$LA（φ）=NMMm=1logp（y im|x im，γ im= f（φ，φ）），（六）因此，我们可以基于γ直接修剪无效层。2) qφ（γ）和p（γ）之间没有分布间隙。当两个分布的期望值μ和方差σ相同时，KL散度为零。这L（φ）<$LA（φ）− D KL（q φ（γ）||p（γ））。（七）这样，我们就可以解决优化问题（Eqn）。（5）以近似的方式。设w为神经网络的权重。该模型可以表示为p（y|x，w，γ），其条件为W.因此，我们仍然可以保留证据下限（ELBO）作为目标函数：L（φ，w）<$LA（φ，w）− D KL（q φ（γ）||p（γ））。（八）优化目标函数是获得信道显著性qφ（γ）和网络的近似分布我2784我性质保证了γ的精确计算3) KL散度D KL（q φ（γ））||p（γ））是易于计算的，因为这两种分布都属于高斯分布。其他稀疏分布，如拉普拉斯分布，分布或对数均匀分布，也可以用作先验分布。然而，由于KL-散度涉及到的积分问题，我们无法得到KL-散度的封闭解。虽然可以使用一些数值估计方法来估计KL项，但这将引入不可避免的误差。假设两个分布的方差相同，等式11可以简化如下：Σ重量w.该模型可以以端到端的方式进行训练ner [33].D KL（q φ（γ）||p（γ））=kµ2我（十二）2785D其中k是系数，与方差成反比。在这种情况下，平均值（即，由于施加了L 2范数，因此鼓励近似分布的μ）较小。因此，我们可以安全地丢弃相应的信道。3.4. 信道上的变分剪枝我们利用上述KL发散度优化ELBO，得到通道显著性分布γ，其中γ<$q（γ|φ=（μ，σ））。然后，我们基于以下标准去除冗余通道。在此基础上，得到了信道显著性γ服从高斯分布。考虑到高斯分布的中心性，样本围绕期望分布。当期望值μ接近于零且方差较小时，变量γ的概率接近于零。基于这一思想，当优化参数小于阈值时，即当参数小于阈值时，消除冗余信道。，（μ，σ）（τ，θ）.<变分构造神经网络剪枝的伪代码在算法1中示出。算法1变分CNN修剪输入：N对数据{（x，y）}N、C通道{γ}C4.1. 实现细节培训战略。对于CIFAR，学习率设置为0.1，并在150和240 epoch分别除以10。我们训练了300个epoch的网络，批量大小为256。对于ImageNet，学习率设置为0.1，在60和90 epoch时除以10。我们用256个批量和120个epoch来训练它们。所有这些网络都是通过随机梯度下降（SGD）优化的，其动量为0.9，权重衰减为10−4。随机翻转和裁剪应用于CIFAR和ImageNet数据集的数据增强。压缩度量通道、参数和FLOP（浮点运算）用于测量网络压缩。通道指示内存占用。啪RAM和FLOP分别表示存储空间和计算成本。在本文中，我们只计算卷积层上的参数和FLOP，因为所提出的方法专注于卷积神经网络的通道级压缩。此外，我们只计算FLOP的乘法运算。修剪细节。所有模型都是从头开始训练的，作为基线。我们根据以下内容修剪不重要的通道：输出：φ，w我我i=1ii=1所提出的信道显著性的分布当爸爸-分布的参数小于阈值时，1：f或epoch=1QtoKdo将从模型中删除响应通道。的2：qφ（γ）=Ci=1 q（γi）阈值τ和θ根据经验设定为0.02和0.01，3：γi<$N（µi，σi）4：L（φ，w）<$LA（φ，w）−D KL（q φ（γ）||p（γ））。5：优化：L（φ，w）6：更新参数7：对于i=1到C，8：如果ui τ，σi θ，则9：修剪i通道10：如果结束11：结束12：结束该算法在BN中实现为一个特殊的层，称为变分修剪层。我们在这里不引入额外的参数，所有的操作都可以集成在这一层。变分修剪层很容易实现为一个单独的模块，可以插入到任何现有的框架。4. 实验在本节中，我们进行了大量的实验，以评估所提出的方法在图像分类任务的性能。三个代表性的网络，包括VGG Net [37]，DenseNet [17]和ResNet [13]，被选择用于压缩。我们报告了CIFAR和ImageNet数据集上的性能，并与最先进的技术进行了比较所有这些实验都证明了我们的方法的有效性分别为。我们将先验和近似后验的方差设置为相同，以简化KL损失，这有利于训练[8]。与现有技术不同，所提出的方法不需要微调来细化修剪后的4.2. 关于CIFAR 10我们的方法的目的是修剪冗余通道，以节省存储空间和计算消耗。我们在CIFAR-10数据集上使用三个经典的深度网络进行实验：VGG、DenseNet和ResNets。通道、参数和FLOP被用来衡量修剪模型的性能。实验结果报告于表1中。VGG Net. 对于 VGG 网，采用 16 层（ 13-Conv +3FC）模型对CIFAR-10数据集进行建模。我们重新移动了62%的通道，同时保持准确率为93.18%，略低于基线。值得注意的是，减少了70%的参数，节省了近40%的计算量这大大方便了VGG模型，对象检测和语义分割的流行骨干，部署在移动设备上。DenseNet。对于DenseNet，我们去除了60%的低效通道，而精度仅下降了1%。这对于消耗大量内存的DenseNet来说是非常有意义的，因为通道的减少将减少内存占用直接。我们还节省了一半以上的存储空间-2786模型精度渠道修剪参数修剪FLOPs修剪VGG-16基地百分之九十三点二五4224-14.71M-313M-VGG-16修剪93.18%1599百分之六十二3.92M73.34%190M39.10%DenseNet-40底座94.11%9360-1.04M-282M-DenseNet-40修剪93.16%3705百分之六十0.42M59.67%156M44.78%ResNet-20基础92.01%1808-0.21M-8.9M-ResNet-20修剪91.66%1114百分之三十八0.17M20.41%7.5M百分之十六点四七ResNet-56基础93.04%4496-0.57M-22.3M-ResNet-56修剪92.26%2469百分之四十五0.46M20.49%17.8M20.30%ResNet-110基础93.21%8528-1.12M-42.4M-ResNet-110修剪92.96%3121百分之六十三0.66M41.27%26.9M36.44%ResNet-164基93.58%12560-1.68M-62.4M-ResNet-164修剪93.16%3238百分之七十四0.73M56.70%31.8M49.08%表1.CIFAR-10上的精确度和剪枝率我们在不同的深度模型上计算修剪的通道，参数和FLOP，并且在没有再训练阶段的情况下报告修剪模型的准确性。我们在实验中从头开始训练这些模型，而不将修剪作为基线。模型精度渠道修剪参数修剪FLOPs修剪VGG-16基地73.26%4224-14.71M-313M-VGG-16修剪73.33%2883百分之三十二9.14M37.87%256M18.05%DenseNet-40底座74.64%9360-1.04M-282M-DenseNet-40修剪72.19%5851百分之三十七0.65M37.73%218M22.67%ResNet-164基75.56%12560-1.68M-62.4M-ResNet-164修剪73.76%6681百分之四十七1.38M17.59%45.4M27.16%表2. CIFAR-100上的精确度和剪枝率。我们在VGG-16，DenseNet-40和ResNet-164上计算修剪的通道，参数和FLOP。通过减少60%的参数和提高COM-通过减少约45%的FLOPs来计算。虽然struc-80DenseNet的结构非常紧凑，我们的方法仍然适用于在通道上修剪我们认为这得益于60提出了变分剪枝方法。40ResNets。对于ResNets，我们采用四种不同的结构CIFAR-10，包括ResNet-20，ResNet-56，ResNet-20110和ResNet-164。 CIFAR-10的ResNet有三个剩余块的阶段，并且每个阶段后面跟着down-0通道参数FLOPs采样层来调整要素地图的比例如表1和图2所示，我们注意到从ResNet-20到ResNet-164，修剪的通道明显增加，减少率从38%提高到74%。该方法在ResNet-164上取得了显著的效果，参数去除率为57%，FLOPs去除率为49%.作为一种常见的选择，我们增加层来提高模型的性能。然而，该操作将同时涉及更多冗余层我们的方法的目的因此，随着层数的增加，我们的方法的效果更加明显。修剪率（%）2787ResNet20 ResNet56 ResNet110图2.在CIFAR-10上执行的ResNets。我们比较了ResNet网络的四个不同层上的通道、参数和FLOP。最好的颜色。4.3. 关于CIFAR 100如表2所示，所提出的方法在CIFAR-100上针对三个深度网络进行了评估，例如：、 VGG-16 、DenseNet-40和ResNet-164。我们注意到，我们的方法在更深的模型上获得了更好的性能。被移除的2788(a) VGG-16（b）DenseNet-40（c）ResNet-20(c)ResNet-56（d）ResNet-110（e）ResNet-164图3.压缩和准确度曲线。我们展示了VGG-16，DenseNet-40和ResNets的压缩过程的细节最好的颜色。模型Top-1 Top-5通道修剪ResNet-50基础百分之七十五点一百分之九十二点八26560-[29]第二十九话百分之七十二点八百分之九十一点一18592百分之三十ResNet-50我们的百分之七十五点二92.1%15920百分之四十表3.ImageNet上的性能和比较训练和50000个图像进行验证。所有这些图像来自1000个不同的类别。为了进一步评估变分修剪对大规模数据集的影响，我们在ResNet-50的ImageNet数据集上执行了我们的方法。从表3中，我们注意到，修剪后的模型在Top-1准确性方面比基线表现得更好，而40%的通道已经被移除。这证明了修剪后的模型是紧凑和有效的，数据集模型精度通道参数CIFAR-100Res 164无 [27] 48.0% 40% 13%Res 164我们的73.7% 47% 17%并且对于减少存储器占用是有意义的。与[29]相比，我们的方法获得了更高的精度，并消除了更多的通道。4.5. 与其他方法的比较如表4所示，我们将所提出的方法与[27]进行了比较，后者利用比例因子的确定性值来去除通道。与此不同的是，我们排除了unim-重要的渠道基础上的分布，并不需要罚款-调整阶段以恢复性能。表4.在CIFAR数据集上与其他方法进行比较。请注意，音符修剪无需微调阶段。通道从VGG-16的32%提高到ResNet-164的47%我们认为深度模型包含更多的冗余通道，并且所提出的方法对这些敏感。删除这些不必要的通道对于节省内存、存储和计算是有用的。4.4. ImageNet上的结果ImageNet数据集是一个大规模的图像识别基准。该数据集包含120万张图像，[27]第二十七话89.5%百分之六十百分之五十四Denset40我们的百分之九十三点一百分之六十百分之五十九CIFAR-10 [27]第二十七话47.7%百分之六十百分之三十四2789为了保持比较公平，我们使用[27]的结果，没有微调阶段。对于ResNet-164，我们超过了[27]几乎两倍的精度，并在CIFAR-10上的参数和FLOP中获得了更高的压缩性能。修剪后，[27]的准确性急剧下降基于确定性值消除不重要的信道会导致性能差由于隐层权重在训练过程中是直接变化的，因此基于确定性值的通道去除是任意的。与此相反，我们的方法是更强大的，并保持压缩后的准确性，这得益于基于分布的修剪。27909593918987图4.ImageNet上的ResNet-5016个残留块和第一卷积层中保留通道的统计最好的颜色。4.6. 分析4.6.1压缩和精度如图3所示，给出了6个网络的精度和压缩压缩比定义如下：8550 55 60 65 70 75压缩率（%）图5.敏感性分析。我们报告了在不同阈值τ下的压缩率和精度。最好的颜色。4.6.3敏感性分析我们选择了5个不同的参数τ值（均值阈值），并在CIFAR-10上使用这些参数进行VGG-16。如图5所示，随着τ的增加，压缩率从51%增加到70%，并且ac-#保留的通道#压缩率=#所有频道（十三）准确率从93.5%下降到89%。这意味着更紧凑的模型将牺牲更多的准确性。当我们注意到，精度在提高，而压缩率在降低。该方法在去除冗余通道的同时提高了精度.我们认为这是从损失中得到的好处（等式8）。也就是说，KL项集中于信道收缩，并且期望对数项更新用于预测的权重。在两个约束项之间的折衷，导致模型是一个紧凑和有效的。4.6.2信道修剪分析如图4所示，我们揭示了ImageNet数据集上ResNet-50的修剪细节。我们将保留的信道计算为16个剩余块和第一卷积层。修剪后的河道主要集中在模型的中段，河道两端几乎没有减少。这是由于最后一个块的通道包含了丰富的语义信息，而语义信息对于图像识别是至关重要的。因此，很难消除这些渠道。层间通道包括更详细的信息。其中一些是低效和冗余的。去除这些通道对模型的性能影响不大。这证明了我们的变分剪枝方法可以确定信道的重要性，即在保留有效信道的同时去除多余信道。该方法的优越性导致了去除大量具有相当基线裕度的通道，并进一步证明了深层模型中某些参数和激活是无效和繁琐的。我们将τ调整到0.02以下，获得了一点精度，但压缩率急剧下降当我们对较小尺寸的模型提高阈值时，性能变得更差。因此，为了实现压缩和准确性之间的权衡，我们根据经验将τ设置为0.02。5. 结论我们提出了一种变分剪枝方法，用于去除卷积神经网络中的不重要通道。我们重新定义 BatchNormalization层以获得一个新的参数，称为通道显着性，它可以用来衡量通道的影响。为了避免确定性的值，我们估计的信道显著性的分布通过贝叶斯规则，然后使用一个简单而有效的该方法不需要重新训练阶段就可以进行信道修剪，并且可以作为独立的模块实现，具有灵活性和可移植性。在 CIFAR 和ImageNet上的大量实验证明了该方法的优异性能。确认本研究得到了国家自然科学基金项目（U1611461，61521062 ）的资助。这项工作得到了 STCSM（18DZ1112300，18DZ2270700）的部分支持。本工作还得到了上海交通大学-BIGO LIVE联合研究基金、上海交通大学- Minivision联合研究基金和中国千人计划的部分支持y=0.025y=0.030y=0.010y=0.015y准确度（%）2791引用[1] Sajid Anwar，Kyuyeon Hwang，and Wonyong Sung.深度卷积神经网络的结构化修剪。ACM Journal on EmergingTechnologies in Computing Systems ， 13 （ 3 ）： 32 ，2017。[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[3] 陈文林、詹姆斯·威尔逊、斯蒂芬·泰里、基利安·温伯格和陈益新。用散列技巧压缩神经网络。国际机器学习会议，第2285-2294页，2015年[4] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络：训练深度神经网络，权重和激活限制为+1或-1。arXiv预印本arXiv：1602.02830，2016。[5] Misha Denil，Babak Shakibi，Laurent Dinh，Nando DeFreitas，et al.深度学习中的参数预测。神经信息处理系统的进展，第2148-2156页，2013年[6] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构神经信息处理系统的进展，第1269-1277页，2014年[7] Abhimanyu Dubey，Moitreya Chatterjee，and NarendraAhuja.基于核集的神经网络压缩。在欧洲计算机视觉会议上，第454-470页[8] PatrickEsse r，EkaterinaSutte r，andBjoürnOmme r. 用于条件外观和形状生成的可变u-网在IEEE计算机视觉和模式识别会议论文集，第8857-8866页[9] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[10] Suyog Gupta、Ankur Agrawal、Kailash Gopalakrishnan和Pritish Narayanan。深度学习，数值精度有限。在International Conference on Machine Learning，第1737-1746页[11] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统的进展，第1135-1143页，2015年[12] Babak Hassibi和David G Stork。用于网络修剪的二阶导数：最佳脑外科医生。神经信息处理系统的进展，第164-171页，1993年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。法律程序IEEE计算机视觉国际会议，第1389-1397页，2017年。[15] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[16] Hengyuan Hu，Rui Peng，Yu-Wing Tai，and Chi-KeungTang.网络修整：面向高效深度架构的数据驱动神经元修剪方法。2016年国际学习表征会议[17] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议论文集-第37卷，第448-456页。JMLR。org，2015.[19] Max Jaderberg Andrea Vedaldi和Andrew Zisserman加速具有低秩扩展的卷积神经网络。英国机器视觉会议论文集。BMVA Press，2014.[20] Diederik P Kingma，Tim Salimans，and Max Welling.变分丢弃和局部重新参数化技巧。神经信息处理系统进展，第2575-2583页，2015年[21] 瓦迪姆·列别捷夫和维克多·伦皮茨基。快速说服我们-ing组明智的脑损伤。 2016年IEEE计算机视觉和模式识别会议，第2554- 2564页。IEEE，2016.[22] Yann LeCun、John S Denker和Sara A Solla。最佳脑损伤。神经信息处理系统进展，第598-605页，1990年[23] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。2017年国际学习代表会议[24] 陈琳、赵忠、吴伟、严俊杰。卷积神经网络的突触强度。神经信息处理系统的进展，第10170- 10179页，2018年[25] Jinxian Liu，Bingbing Ni，Yichao Yan，Peng Zhou，Shuo Cheng，and Jianguo Hu.对可调动人员重新进行身份证明。在CVPR中，第4099-4108页[26] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[27] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。在IEEE计算机视觉国际会议的论文集，第2736-2744页[28] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页2792[29] Jian-Hao Luo，Jianxin Wu，and Weiyao Lin. Thinet：一种用于深度神经网络压缩的过滤器级修剪方法。在IEEE计算机视觉国际会议论文集，第5058-5066页[30] 马宁宁，张翔宇，郑海涛，孙健。Shufflenet v2：高效CNN架构设计实用指南在欧洲计算机视觉会议论文集，第116-131页[31] Dmitry Molchanov，Arsenii Ashukha，and Dmitry Vetrov.变分丢失稀疏深度神经网络。第34届机器学习国际会议论文集-第70卷，第2498-2507页。JML

下载后可阅读完整内容，剩余1页未读，立即下载