动态剪枝方法：解耦任务和修剪损失，简单的超参数选择实现计算预算减少

128 浏览量更新于2023-10-25 收藏 755KB PDF 举报

实验结果

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12454一起发射电线一种自监督掩码预测的动态剪枝方法Sara Elkerdawy1Mostafa Elhoushi2Hong Zhang1Nilanjan Ray11加拿大阿尔伯塔大学，2多伦多异构异构网络实验室，华为{elkerdaw，hzhang，nray 1} @ ualberta.ca摘要动态模型修剪是最近的方向，其允许在部署期间针对每个输入样本推断不同的子网络。然而，当前的动态方法依赖于通过引入稀疏性损失来通过正则化来学习连续通道门控。该公式引入了平衡不同损失（例如任务损失、正则化损失）的复杂性。此外，基于正则化的方法缺乏透明的权衡超参数选择来实现计算预算。我们的贡献是双重的：1）解耦任务和修剪损失。2)简单的超参数选择，在训练前启用FLOP减少估计。灵感来自3.53.02.52.01.51.00.50.025 30 35 40 45 50FLOPs减少（%）神经科学中的赫布理论：我们提出的问题作为一个自我监督的二元分类问题。每个掩码预测器模块被训练以预测当前层中的每个滤波器的对数似然是否属于前k个激活的滤波器。基于使用热图的质量的新颖标准，针对每个输入动态估计值k我们在CIFAR和ImageNet数据集上展示了几种神经架构的实验，例如VGG，ResNet和MobileNet。在CIFAR上，我们达到了类似的准确性，SOTA方法，15%和24%更高的FLOPs减少。同样，在ImageNet中，我们实现了更低的准确率下降，FLOPs减少了13%。1. 介绍卷积神经网络（CNN）在过去十年中表现出前所未有的增长，代表了许多领域的最新技术。然而，CNN需要相当大的计算和内存消耗，这限制了边缘和嵌入式平台上的部署。模型压缩研究取得了许多进展图1.针对ResNet34 ImageNet上的各种动态和静态模型，FLOPs减少与准确度下降。包括手动设计的轻量级模型[16，17]，低位精度[23，47]，架构搜索[4，39]，以及模型修剪[9，21，29，34]。大多数压缩技术对输入数据是不可知的，并针对静态有效模型进行优化最近的努力修剪文献提出，以保持骨干的基线模型作为一个整体，并使用不同的子网络条件下的输入进行推理。这被称为动态修剪，其中基于输入激活不同的路由，与静态修剪相比，这允许更高的自由度和更大的灵活性。当前的动态修剪方法通常引入正则化项以在用于信道门控/掩蔽的连续参数上诱导稀疏性[6，10，40]。其他人采用强化学习中引入的策略梯度[42]来学习不同的路线。这些方法需要在训练中进行仔细调整，以解决诸如调度退火的训练稳定性[40]，有偏训练处理[18]或每层预定义的修剪率[10，25]等问题。此外，如[6]中所述，额外的稀疏性损失会降低任务损失，因为难以平衡任务损失和修剪Net18ResMSFPFPGlorL泰LCCT（我们的）FTW准确度下降（%）12455平面猫青蛙卡车车鹿马鸟狗船1.00.80.60.40.20.0平面猫青蛙卡车车鹿马鸟狗船1.00.80.60.40.20.0每个过滤器的(a) 最后卷积层每个过滤器的(b) 第8层深度卷积层图2.在mobilenetv 1 CIFAR-10中最后一个卷积层和中间层的所有功能的最大激活。子图中的每一行表示一个输入样本。属于同一类别的样品激活同一组过滤器。更好的可视化颜色。损失特别是在高修剪率下，如图1所示。此外，这些动态方法的FLOPs减少依赖于目标稀疏性预设超参数.这种超参数选择缺乏稀疏性超参数和所达到的FLOP之间的透明关系;因此，阻碍了通过多次反复试验来实现目标FLOP减少的实际有效训练。在本文中，我们解决这些问题，制定了一个自我监督的二进制分类任务的问题。我们根据前一层的激活（激发）生成当前层（布线）的二进制掩码我们从神经科学中的赫布理论[31]中汲取灵感，并将其扭曲，我们加强了这种放电-放电关系，而不是像理论中那样研究因果关系图2绘制了最后一个卷积层和MobileNet-V1中间层的每个滤波器（x轴）的最大响应，用于按类别分组的随机输入样本（y轴）。该图显示，属于同一类的样本往往会激活相同的滤波器组合，因此我们只需要处理少数滤波器。值得注意的是，每层的簇数不同。与其他动态修剪方法类似，我们学习用于通道门控的决策头。然而，我们使用每个通道的二元交叉熵损失来学习门控。每一层都预测在给定层的输入激活的情况下最有可能被高度激活的过滤器我们基于每个样本的热图的质量来生成每个层的真实二元掩码。该制剂在两个方面提供了优点。首先，信道选通损耗隐式地符合并适应骨干网第二，可以估计FLOP的减少在训练之前匹配，因为目标掩模由所生成的地面真实掩模控制，该地面真实掩模给出对减少的估计。这简化了控制修剪率的超参数选择。主要贡献概述如下：• 一种新的损失公式，具有自监督的地面真实掩模生成，是随机梯度下降（SGD）友好的，没有梯度加权技巧。• 我们提出了一种新的动态签名的基础上的热图质量没有预定义的修剪率每层。• 简单的超参数选择，在训练前启用FLOP减少估计。这简化了实现具有有界超参数搜索空间的先验预算目标。2. 相关工作静态修剪。静态修剪在离线训练阶段移除权重，并将相同的压缩模型应用于所有样本。非结构化修剪[9，11，30，37]的目标是以最小的贡献去除单个权重。非结构化权重修剪的限制是需要专用硬件和库[37]来实现压缩的加速。结构化修剪是一种更实用的解决方案，其中过滤器或块基于标准进行排名和修剪[7，13，15，27，32，34]。早期的过滤器修剪方法[22，32]需要计算逐层灵敏度分析，以在修剪之前生成模型签名（即每层的过滤器数量）。灵敏度分析在计算上是昂贵的，特别是当输入样本输入样本12456p图3.提出了一个用于训练一层动态路由的管道对于层l，预测头fl（Il; Wpl）采用输入Il，应用全局最大池化（GMP），用Softmax归一化，然后馈送到1 × 1卷积以生成二进制掩码Ml的对数Pl。二进制交叉熵（BCEWithLogits）损失基于从未修剪的特征图O1获得的top-k来惩罚掩模预测。模型变得更深。最近的方法[28，34，41]学习全局重要性度量。Molchanov等人[34]提出了一种网络权重的泰勒近似Liu等[28]和Wenet al. [41]除了任务损失之外，还引入稀疏性损失作为规则化，然后修剪准则小于阈值的过滤器。动态修剪。与静态修剪中的一个模型适合所有部署相比，动态修剪处理每个输入样本的不同路由。类似于静态修剪，方法可以采用不同的粒度来修剪。通道门控网络（CGNet）[18]是一种细粒度方法，可以跳过特征图中的零位置。每个内核处理输入通道的子集。决策门控是通过用复杂的近似不可微函数进行正则化来学习的该算法采用分组卷积和混洗操作来均衡滤波不同特征组的频率更新.最接近我们的工作，我们专注于动态过滤器修剪方法。在神经网络修剪（RNP）[25]中，决策单元被建模为全局递归层，它生成对应于四个预设通道选择组的离散动作。组选择是用强化学习训练的类似地，在BlockDrop [43]中，策略网络被训练为跳过残差网络中的块，而不仅仅是通道。D2NN[26]定义了一个条件分支的变体集，DNN，并使用Q学习来训练分支策略。这些方法通过强化学习来训练它们的策略函数，这可能是一个非常昂贵的优化任务，以及CNN骨干。特征提升和压缩（FBS）[10]方法生成连续的通道显著性，并使用每层预定义的修剪比率来获得离散的二进制门控。 LCS[40]建议从Gumbel分布采样的N个学习通道组中获得离散动作。该算法采用退火温度来稳定训练，并通过梯度归一化技巧在学习到的路径中引入多样性。这些现有的基于正则化的方法需要额外的仔细调整，以稳定由策略梯度引起的训练，或者强制学习不同的路线，以便不转向静态修剪。因此，我们建议将信道选择公式化为自监督的二进制分类，其中可以研究可解释的路由并使用常见的SGD进行简单训练。3. 方法在本节中，我们首先解释动态门控的机制。然后，我们讨论了如何设计决策头和监督损失3.1. 通道门控令Il、Wl分别为卷积层l的输入特征和权重，其中Il∈Rcl−1×wl×hl，12457∈∗∈∗pp. . . . （GMP（O）.对于每个输入示例，k是F.. Σ←←←←p∈∈FΣΣFWLRcl×cl−1×kl×kl，c l是滤波器的数量在层L中。一个典型的CNN块由卷积运算（）、批量归一化（BN）和激活函数（f）组成，例如常用的ReLU。在不失一般性的情况下，我们忽略由于BN包含而引起的偏置项，因此，输出特征图O1可以被写为O1=f（BN（I1W1））。我们预-通过应用具有可学习参数的决策头fl，从输入激活图Il中定义表示高度激活的输出特征图Ol的二进制掩码Ml R c l。Wl. 然后，掩蔽输出I 1 + 1被表示为：Il+1=Ol 对（ fl （ Il;Wp ））进行二值化。Binarize（. ）函数-通过应用全局最大池化（GMP）响应Li保持过滤器，使得分选的NOR的累积质量-malize活化达到r%。在算法1中示出了地面实况生成算法。我们对所有层使用相同的r，然而，每个样本将基于其激活而具有不同的每层平截率。由于目标二进制地面实况是从未屏蔽滤波器的激活生成的，因此可以在训练之前松散地估计FLOP减少以相应地调整r这一优点增加了我们的方法的实用性，该方法不依赖于间接的超参数调整来达到预算目标法是p圆形（Sigmoid（. ））将logits转换为二进制减少FLOPS。值得一提的是，r = 1面具高度激活的输出特征图的预测允许在推断时间内处理滤波器f，其中Ml=1，并且跳过其余部分。我们的决策头每层l具有cl−1×clFLOP成本，这可以忽略不计。3.2. 自监督二进制门控如图3所示，我们提出的方法通过在每个卷积块后插入预测器头来预测下一层的高k激活滤波器，以自我监督的方式学习这种动态路由k值是指示决策头将预测完全停用的特征的特殊情况（例如，最大响应为零）。这使得能够针对高度稀疏的骨干，利用经过理想训练的决策头来维持基线的准确性算法1二进制掩码地面实况生成输入：I1. . . I L，r输出：g二进制地面实况与0作为修剪一曰： gt←ones（L，cl）2：forl←1to Ldo . - 是的根据热图的质量自动计算每个输入。3：acts←GMP（（Ol））4：规范化←行为/行为损失函数通过对特征的范数进行排序，可以获得高度激活特征的真实二进制掩码。总体培训目标是：5：排序，idxSORT（归一化，“6：累计累加和（排序）7：prune idxWHERE（cumulative > r）8：gt[l][prune idx]0第九章：端min{W，Wp}Ltotal=Lent（fn（x;W），yk）+Lpred（{fl（Il;Wpl），gl}L）（一）3.3. 预测头设计预测头设计应在简单的其中，fn是基线模型的主干，Lent是交叉熵任务损失，Lpred是所有层的总预测损失。L.详细地，我们如下定义Lpred：Lpred（{Pl，gl}L）=降低基线网络开销的方法在前向传递中，我们应用GMP，将每层的特征映射I l减少到E lRcl−1 ×1×1。接下来，我们对平坦化的嵌入E1应用1x1卷积以产生掩码的logit。我们使用两种训练模式进行实验：1）解耦，2）联合。在这两种模式中，我们训练骨干权重，L FlBCEWithLogits（Pl，gl）LF（二）的决策者。区别在于我们是否做完全可微的训练（联合）或停止梯度从头部反向传播到主干，反之亦然其中P1是决策头f1（I1;W）的输出l），（解耦）。在联合训练中，决策负责人完全不同，除了在二进制化部分之外，类似的还有：gl是基于所述生成的地面实况掩码top-k 高激活输出 Ol ， BCEWithLogits 是一个Sigmoid，后面跟着二进制交叉熵损失BCE（p，g）=−（glog（p）+（1−g）log（1−p））。激活k的数量我们通过保持热图质量的恒定百分比r来自动计算k。对于每个通道i=1，.，c l我们保持最大值Ous工作[8，33，46]，我们利用直通估计器（STE）绕过不可微函数。要考虑的一个问题是，如[19]中所指出的，网络中不同深度处的多个损耗的损耗干扰损失干扰强调了特征映射可以偏向于实现对局部任务的高准确性，而不是整体架构。与其他依赖于仔细的训练调整来管理不同损失的梯度12458模型动态？Top-1 Acc.（%）红色的拖鞋。（%）基线–93.82-[21]第二十一话N93.0034ThiNet [32]N93.3650CP [15]N93.1850泰勒-50 [34]N92.0051[25]第二十五话Y92.6550FBS [10]Y93.0350LCS [40]Y93.4550FTWT J（r = 0.（92）Y93.5565FTWT D（r = 0. 92）也门93.7356[34]第三十九话N91.5059FTWT D（r = 0.（85）Y93.1973FTWT J（r = 0.第八十八章）Y92.6574基线–93.66–制服[40]N74.3950ThiNet [32]N91.9850ResNet56[第13话]N92.5648LCS [40]Y92.5752FTWT D（r = 0.80）Y92.6366FTWT J（r = 0.第八十八章）Y92.2854基线–90.89–[16]第十六话N89.7942MobileNetV1[16]第十六话N87.5873FTWT D（r = 1. 0个）Y91.0678FTWT J（r = 1. 0个）Y91.2178表1.CIFAR-10的结果红色的拖鞋以百分比表示FLOP的减少我们方法中的r表示算法1中的超参数比。FTWT x中的x指示联合（J）或解耦（D）训练。当从模型的当前状态生成掩码时，我们并行但协作地训练头部和主干地面实况二进制掩码通过更新的骨干权重显式地调整，因此，隐式地符合骨干学习速度。4. 实验和分析我们在CIFAR [20]和ImageNet上评估了我们的方法[5]各种架构上的数据集，如VGG [38]，ResNet [12]和MobileNet [16] 。在所有架构中，在每个 conv-BN-ReLU块之后生成地面真实掩码对于CIFAR基线模型，我们使用 SGD优化器使用 128的批大小训练 200 个epoch。初始学习率（LR）为0。1在时期80、120和150处被除以10。我们使用的动量为0.9，重量衰减为5−4。对于ImageNet，我们使用PyTorch [36]中的预训练模型作为基线。决策头的权重用0训练。1作为初始LR和与骨干相同的LR调度。在实验中我们使用了一台4V 100-GPU的机器。12459≈4.1. CIFAR实验我们遵循动态训练基线中使用的类似训练设置，但我们以1e-2的初始学习率训练所有模型。我们在表1中报告了三次重复实验的平均准确度和CIFAR-10在多种架构上的FLOP降低。我们的方法（FTWT）实现了更高的FLOPs减少类似的top1精度比静态和动态修剪方法。我们在VGG-16和ResNet-56上实现了高达66%的FLOP减少，比动态过滤器修剪方法RNP [25]，FBS [10]，LCS [40]高出15%。联合训练在高r阈值上表现得与解耦训练一样好。然而，与在较低阈值上进行解耦训练相比，准确度下降。这是由于损失之间的冲突增加，可以从VGG上我们进一步实现了73%的FLOPs减少VGG只有0.63%的准确性下降。此外，FTWT在准确性方面优于MobileNet的较小变体3.42%，具有更高的FLOPs减少。我们在图4中可视化了在整个数据集D上激活的过滤器（集群）的唯一组合的数量和每层的修剪率。也就是说，每124602100 1 2 3 4 5 6 7 8 9N团簇十点八80.660.440.220 0.0层ID(a) 每层过滤器（簇）的唯一组数层ID(b) 每层修剪率。图4. MobileNetV1 CIFAR10发行版方法动态？Top-1 Acc.（%）FLOPs红色。（%）基线修剪增量MobileNetV1表2.ImageNet上的结果报告每种方法的基线准确度以及修剪模型的准确度和相对于基线的红色的拖鞋。表示FLOP的百分比减少。负增量表示精度从基线增加。我们方法中的r表示算法1样本i，其产生每层j的二进制掩码Mi，j，每层的唯一簇是Se t（m0，j，...， mi，j，. M|D|，j）。在LCS和RNP中，固定数量的集群被预设为所有层的超参数，我们在图4a中显示了层在不同集群的数量上的不同我们的方法自动调整不同数量的集群每层由于自我监督的掩模生成机制。为了更容易可视化，y轴以对数标度示出。早期层在被激活的过滤器组中具有小的多样性，因此，类似于静态修剪。这是明智的，因为早期的层检测到低级别的功能，对输入的依赖性较小。另一方面，集群的数量随着我们在网络中的深入而增加。值得一提的是，这些不同的聚类是细粒度的，这意味着聚类只能在一个过滤器中有所不同。我们还计算了每层所有集群之间共享的核心过滤器的百分比我们发现，核心过滤器相对于总过滤器的百分比的范围从0.4到1.0不等。这给出了为什么静态修剪方法在大修剪的情况下导致准确性大幅下降的原因。由于可达到的剪枝率受到核过滤器数量的限制，进一步的剪枝将限制模型未来一个有趣的研究问题是，我们是否可以根据核心过滤器比率概念确定模型的可最后，图4b显示了每层的修剪率，正如所预期的那样，后面的层比前面的层修剪得更重群集数（log）01234567891011121314151617181920212223242526剪枝度01234567891011121314151617181920212223242526泰勒[34]N73.3172.830.4822.25LCCL [6]Y73.4272.990.4324.80FTWT（r = 0. 97）Y73.3073.250.0525.86FTWT（r = 0. 95）Y73.3072.790.5137.77ResNet34[第13话]N73.9271.832.0941.10FGM [14]N73.9272.541.3841.10FTWT（r = 0. 93）Y73.3072.171.1347.42ResNet18 [12]N73.3069.763.5450.04FTWT（r = 0.（92）Y73.3071.711.5952.24PFP-B [24]N69.7465.654.0943.12[第13话]N70.2867.103.1841.80ResNet18LCCL [6]Y69.9866.333.6534.60FBS [10]Y70.7068.202.5049.49FTWT（r = 0. 91）Y69.7667.492.2751.56[第16话]N69.7667.002.7642.85FTWT（r=1）Y69.5769.66-0.0941.0712461≈≈随着层变得更宽和更可压缩。我们注意到，沉重的修剪达到85%，在中间层与512个过滤器的层序列。4.2. ImageNet上的实验对于ImageNet，我们训练了90个epoch，初始学习率为10−2，每30个epoch衰减0.1。ImageNet上的实验是在解耦训练模式下完成的。表2显示了每种方法相对于基线的准确度下降，以解释由于增强而导致的训练差异。结果表明，与其他SOTA方法相比，该方法具有更高的FLOPs减少率，精度下降更小。我们在ResNet34上实现了与LCCL相似的精度降低，FLOPs降低了13%。另一方面，在类似的FLOP减少（25），我们有最小的准确性下降（0。05%）。尽管我们在ResNet18上使用FBS实现了类似的精度，但后者需要预定义数量的过滤器来保持每层。另一方面，我们的方法动态地分配每层的修剪比率，这表明我们的热图质量作为标准的有效性。我们还比较了架构的较小变体，如ResNet 18和MobileNet-75。我们的表现优于ResNet 18和MobileNet-在相似的计算预算下，精度为75 ×102%4.3. 消融研究4.3.1数据集偏移在本节中，我们测量路由对数据集偏移的敏感度。在模型修剪文献中，数据集移位下的修剪很少被考虑.我们相信，随着推理复杂性的增加，它的重要性，因此希望开始报告这种比较。我们对VGG 16-bnCIFAR-10进行了实验，所有修剪模型的修剪率都高达受[35]的启发，我们报告了不同类型噪声下的Brier评分[3]，如高斯模糊表3a和加性噪声表3b，基线密集模型作为参考。可以看出，我们的方法比具有较低brier分数的静态Taylor修剪更具弹性。我们还比较静态均匀修剪，我们实现了类似的（有时略低）Brier分数。这显示了我们的模型对数据转移的弹性，即使与不依赖于数据的静态修剪决策相比最后，正如预期的那样，密集模型对噪声的弹性最大。然而，我们的方法总体上仍然显示出公平的质量匹配。我们将这种分布稳定性归因于头部的softmax。 softmax作为一种归一化器，其降低对分布偏移的敏感性。我们比较了我们的方法，在决策头中使用和不使用softmax表3c示出了用于该比较的具有加性和模糊噪声的Brier分数。可以看出，实际上，归一化器稳定了决策掩码输出，特别是在模糊的情况下。4.3.2动态签名和动态路由我们研究解耦的效果，从动态信号性质（即修剪率每层）每个样本的动态路由（即一组过滤器被激活）。我们探讨了动态路由的有效性与一个预定义的签名的所有输入。在这些实验中，使用[34]中提出的泰勒准则作为案例研究来预定义签名。如在先前的设置中，我们选择高度激活的k个特征，其中k由签名定义，而样本不同在于选择了k个滤波器表6示出了在不同修剪比率下的动态路由结果。可以看出，动态路由比静态推理执行得更好CIFAR的训练设置与本文中解释的相同，但是，我们使用finetune设置训练ImageNet模型30个epoch，而不是[29]中区分的90个epoch的训练设置，以加速实验。4.3.3超参数r选择超参数r（即质量比）是基于训练前的简单评估来选择的。W在训练之前通过在训练集上的预训练的冻结密集模型上应用地面实况掩码来估计FLOP（一次通过）。随后，我们在训练开始之前得到不同r值下预期FLOPs减少的估计。这简化了超参数选择，以实现目标FLOP降低。另一方面，稀疏正则化超参数通常通过交叉验证过程进行微调，并且需要多次完整训练的试错来实现目标预算。在训练之前，正则化权重和最终实现的FLOP减少之间没有直接关系我们的方法简化了选择，使其成为一个更实际的选择时，目标预算作为一个先验。表4示出了使用不同阈值r训练之前的估计FLOP以及训练之后实际达到的FLOP减少。减少的差异是由于决策负责人的不准确。尽管如此，估计的FLOP给出了对最终达到的FLOP的良好近似，从而减少了超参数搜索。4.4. 理论加速与实际加速对于所有压缩方法，包括静态和动态修剪，由于I/O延迟和BLAS库等其他因素，FLOP减少和实际加速之间通常存在很大差距。加速是硬件和后端相关的，如以前的作品[1，7，45]所示。我们使用表5所示的单线程在AMD CPU上使用MKL后端测试 PyTorch [36]的实际速度。局限性。我们的实际加速比小于FLOPs减少，这归因于两个因素：1）基于切片的密集权重矩阵的数据传输开销12462σ密集模型FTWT（我们的）泰勒修剪均匀修剪0.50.110.120.200.120.70.160.180.390.190.90.380.390.570.421.090.690.580.660.611.270.740.680.690.71σ密集模型FTWT（我们的）泰勒修剪均匀修剪0.000.110.120.160.120.020.110.120.160.120.050.110.120.170.130.110.130.140.200.150.140.190.210.300.22(a) 高斯模糊噪声。（b）加性高斯噪声。高斯模糊加性噪声FTWT归一化FTWT无标准化FTWT归一化FTWT无标准化0.120.190.120.120.180.480.120.130.390.730.140.150.580.850.210.240.680.900.430.47(c)我们的方法在决策头中使用和不使用softmax归一化。表3.数据集偏移实验：数字代表CIFAR-10 VGG 16的Brier评分模型Est.FLOPs（%）最终FLOPs（%）MobileNet（1. 0个）42.341.07Resnet34（0. 97）23.3225.86Resnet34（0. 95）31.7737.77表4.在不同阈值下训练前估计的FLOP（在括号中指示）与训练后实现的FLOP。模型FLOPs减少率（%）延迟减少率（%）52.1827.17ResNet3437.7725.8619.7811.08表5. ImageNet在AMD Ryzen Threadripper 2970WX CPU上的实际与理论加速比，批量大小为1。在掩码预测上，这可以通过具有有效的就地稀疏推理的后端来减轻。2）速度取决于模型从处理较小输入分辨率的较后层修剪可能无法实现与从较早层修剪一样多的加速。使用诸如 [44] 中提出的交替方向乘法（ADMM）[2]的约束感知优化可以进一步与我们的方法集成以优化延迟而不是FLOP。5. 结论在本文中，我们提出了一种新的公式的动态模型修剪。类似于其他动态修剪表6.具有预定义签名的动态路由与具有静态推理的动态路由的准确性比较.方法，我们为原始卷积层配备了一个廉价的决策头。然而，我们建议在自我监督的范式中训练决策头该头部预测给定层的输入激活的最有可能被高度激活的过滤器使用与任务损失解耦的二进制交叉熵损失来训练掩模，我们使用每个输入样本的热图质量，基于一种新的标准生成掩码地面实况。在我们的实验中，我们展示了CIFAR和ImageNet数据集上各种架构的结果，并且我们的方法在类似的FLOPs减少下优于其他动态和静态修剪方法。确认我们感谢评论者的宝贵反馈。我们还要感谢加拿大计算机公司提供的超级计算机来进行我们的实验.数据集模型FLOPs（%）Top-1静态acc.（%）动态CIFAR-10VGG16-BN508592.0091.1293.8092.75ResNet567091.6192.093072.6573.67CIFAR-100VGG16-BN6568.1772.189358.7460.05ImageNetResNet184564.8965.1112463引用[1] 西蒙娜·比安科，雷米·卡登，路易吉·塞洛纳，保罗·纳波利塔诺。典型深度神经网络架构的基准分析IEEEAccess，6：64270-64277，2018。7[2] 斯蒂芬·博伊德尼尔·帕里克和埃里克·朱通过交替方向乘法器的分布式优化和统计学习。Now Publishers Inc，2011. 8[3] Glenn W Brier et al. Verification of forecasts expressed interms of probability. 每月天气评论，78（1）：1-3，1950。7[4] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并使其专业化以实现高效部署。arXiv预印本arXiv：1908.09791，2019。1[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[6] 董宣义、黄俊石、杨毅、严水城。多即是少：一个更复杂的网络，具有更低的推理复杂性。在IEEE计算机视觉和模式识别会议论文集，第5840- 5848页，2017年。1、6[7] Sara Elkerdawy ， Mostafa Elhoushi ， Abhineet Singh ，Hong Zhang，and Nilanjan Ray.过滤修剪，或层修剪，这是一个问题。2020年亚洲计算机视觉会议论文集。二、七[8] Sara Elkerdawy，Hong Zhang，and Nilanjan Ray.联合端到端过滤器修剪的轻量级单目深度估计模型。在2019年IEEE图像处理国际会议（ICIP）上，第4290IEEE，2019。4[9] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假说：寻找稀疏的、可训练的神经网络。 arXiv 预印本 arXiv ：1803.03635，2018。一、二[10] Xitong Gao ， Yiren Zhao ， Jumukasz Dudziak ， RobertMullins，and Cheng-zhong Xu.动态通道修剪：特征提升和抑制。arXiv预印本arXiv：1810.05331，2018。一二三五六[11] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统进展（NIPS），第1135-1143页，2015年。2[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。五、六[13] 杨和、康国良、董宣义、傅彦伟、杨毅。用于加速深度卷积神经网络的软滤波器修剪arXiv预印本arXiv：1808.06866，2018。二、五、六[14] 杨鹤、刘平、王紫薇、胡芷兰、易阳。用于深度卷积神经网络加速的通过几何中值的滤波器修剪。在IEEE/CVF计算机视觉和模式识别会议论文集，第4340-4349页，2019年。6[15] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。在IEEE计算机视觉国际会议论文集，第1389-1397页，2017年。二、五[16] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。一、五、六[17] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页，2018年。1[18] Weizhe Hua ， Yuan Zhou ， Christopher De Sa ， ZhiruZhang，and G Edward Suh.通道门控神经网络。arXiv预印本arXiv：1805.12549，2018。第1、3条[19] Gao Huang ， Danlu Chen ， Tianhong Li ， Felix Wu ，Laurens van der Maaten，and Kilian Q Weinberger.多尺度密集网络用于资源有效的图像分类。arXiv预印本arXiv：1703.09844，2017。4[20] Alex Krizhevsky，Geoffrey Hinton等人，从微小图像中学习多层特征。2009. 5[21] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv：1608.08710，2016。一、五[22] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。ICLR，2017年。2[23] Yuhang Li，Xin Dong，and Wei Wang.加性二次幂量化：神经网络的有效非均匀离散化arXiv预印本arXiv：1909.13144，2019。1[24] Lucas Liebenwein ， Cenk Baykal ， Harry Lang ， DanFeldman，and Daniela Rus.有效神经网络的可证明过滤器修剪。在第八届国际会议上学习代表，ICLR 2020，亚的斯亚贝巴，埃塞俄比亚，2020年4月26日至30日。OpenReview.net，2020年。6[25] Ji Lin，Yongming Rao，Jiwen Lu，and Jie Zhou. 运行时神经修剪。第31届神经信息处理系统国际会议论文集，第2178-2188页，2017年。一、三、五[26] 刘兰兰和邓佳。动态深度神经网络：通过选择性执行优化精度-效率权衡。在AAAI人工智能会议论文集，第32卷，2018年。3[27] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。在IEEE计算机视觉国际会议的论文集，第2736-2744页，2017年。2[28] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。在IEEE ICCV的Pro-ceedings中，第2736-2744页，2017年。3[29] Zhuang Liu，Mingjie Sun，Tinghui Zhou，Gao Huang，and Trevor Darrell.重新思考网络修剪的价值。arXiv预印本arXiv：1810.05270，2018。1、7[30] 克里斯·路易佐斯，马克斯·威林，迪德里克·P·金马。通过l0正则化学习稀疏神经网络。arXiv预印本arXiv：1712.01312，2017。212464[31] Siegrid Lowel和Wolf Singer通过相关神经元活动选择视觉皮层中的内在水平-水平连接Science，255（5041）：209-212，1992. 2[32] Jian-Hao Luo，Jianxin Wu，and Weiyao Lin. Thinet：一种用于深度神经网络压缩的过滤器级修剪方法。在IEEE计算机视觉国际会议论文集，第5058-5066页二、五[33] Arun Mallya，Dillon Davis，和Svetlana Lazebnik. Piggy-back：通过学习屏蔽权重，使单个网络适应多个任务。在欧洲计算机视觉会议（ECCV）的会议记录中，第67-82页，2018年。4[34] Pavlo Molchanov 、 Arun Mallya 、 Stephen Tyree 、 IuriFro-sio和Jan Kautz。神经网络剪枝的重要性估计。在IEEE/CVF计算机视觉和模式识别集，第11264一、二、三、五、六、七[35] Yaniv Ovadia，Emily Fertig，Jie Ren，Zachary Nado，David Sculley，Sebastian Nowozin，Joshua V Dillon，Balaji Laksh- minarayanan和Jasper Snoe

下载后可阅读完整内容，剩余1页未读，立即下载