神经网络结构修剪：保持可训练性的方法和应用

156 浏览量更新于2023-12-01 收藏 1.02MB PDF 举报

正则化方法

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文保持可训练性的神经结构修剪Huan Wang1， Yun Fu1，21美国东北大学2A创新实验室公司，美国抽象的。最近的一些研究经验发现，微调学习率对神经网络结构化修剪的最终性能至关重要。进一步的研究发现，网络的可训练性被剪枝破坏是造成这一问题的主要原因，因此在进行微调之前，迫切需要恢复网络的可训练性。现有的尝试提出利用权重正交化来实现动态等距以改善可训练性。然而，它们仅适用于线性MLP网络。如何开发保持或恢复可训练性并且可扩展到现代深度网络的过滤器在本文中，我们提出了可训练性保持修剪（TPP），一个基于正则化的结构化修剪方法，可以有效地保持可训练性稀疏化。具体地，TPP正则化卷积核的gram矩阵，以便将修剪的滤波器与保持的滤波器去相关除了卷积层之外，我们还建议正则化BN参数以更好地保持可训练性。经验上，TPP可以与线性MLP网络上的地面真实动态等距恢复方法竞争。在非线性网络（ResNet 56/VGG 19，CIFAR数据集）上，它的性能大大优于其他对应的解决方案。此外，TPP还可以在ImageNet上与现代深度网络（ResNets）有效地合作，与许多性能最佳的过滤器修剪方法相比，提供了令人鼓舞的性能。据我们所知，这是第一种在大规模深度神经网络修剪过程中有效保持可训练性的方法1介绍神经网络剪枝的目的是在不严重损害性能的情况下去除参数。它通常由三个步骤组成[46，12，11]：预训练密集模型;用一些规则修剪不必要的连接或神经元;微调以恢复性能。修剪通常分为两组，非结构化修剪（a.k.a.逐元素修剪（element-wise pruning）和结构化修剪（也称为滤波器修剪或信道修剪）。前者选择标量权重作为基本剪枝元素，后者选择三维滤波器作为基本剪枝元素。一般来说，由于规则稀疏性，结构化修剪更适合于在通用硬件上加速;非结构化修剪导致通讯作者：wang.huan@northeastern.eduarXiv：2207.12534v2 [cs.LG] 2022年8月+v：mala2255获取更多论文×2H. Wang和Y. 傅不规则的稀疏性，在不降低性能的情况下可以是相当大的，但是如果不使用定制的硬件，则难以利用其来加速[9，10]。最近的结构化修剪工作[47，23]显示了一个有趣的现象：在微调过程中，较大的学习率（LR）有助于实现更好的最终性能（例如，，以加速比1.32修剪的ResNet 34可以在ImageNet上提高超过1%的top-1准确度[5]使用微调LR1 e-2vs.1 e-3）。其背后的原因被认为与神经网络的可训练性有关-作品[27，39，56]。他们主要做了两个观察来解释LR效应之谜[56]。（1）权重移除操作立即打破了训练网络的可训练性或动态等距性[48]（可训练性的理想情况）。（2）微调中的SGD优化可以在没有额外明确指导的情况下固有地纠正它;更大的LR有助于更快地（并且可能更好地）恢复它，从而使最终性能更强，特别是当微调时期不足时。虽然这些作品[27，39，56]提供了一个合理的解释，一个更实际的问题是如何恢复兄弟-在修剪过程中保持可训练性（或动态等距）或保持它。在这方面，[56]提出将基于QR分解[53，40]的权重正交化应用于修剪模型。然而，他们的方法仅适用于线性MLP网络。在现代深度卷积神经网络（CNN）中，如何在修剪后保持可训练性仍然是难以捉摸的。在本文中，我们提出了可训练性保持修剪（TPP），一种新的过滤器修剪方法的基础上正则化（见图1的概述），保持可训练性以及在修剪。根据我们的观察，修剪破坏动态等距性的原因在于参数之间的依赖性。因此，我们的方法的主要思想是将修剪的权重与保留的权重去相关，以切断依赖性，因此以下权重删除操作几乎不会损害网络的可训练性具体来说，我们建议正则化权重的gram矩阵：所有表示修剪过滤器之间的相关性的条目（即，不重要的过滤器）和保留的过滤器（即，，重要的过滤器）被鼓励减少，零.这是我们的方法的第一个技术贡献。第二个问题是如何对待其他条目。传统的动态等距智慧建议即使在保持的滤波器之间也是正交的（即，1自相关和0互相关），而我们发现直接转换这里的想法是不必要的甚至是有害的，因为太强的惩罚将约束优化，导致恶化的局部最小值。相反，我们建议不对保持过滤器的相关项施加任何正则化，这将有助于提高我们实验中的性能最后，现代深度模型通常配备了批量归一化（BN）[21]。然而，以前的过滤器修剪论文很少明确考虑BN（除了两个[37，63];我们的工作与他们的区别将在第二节中讨论。3.2）以减轻当其被移除时的副作用，因为其相关联的过滤器被移除。由于它们也是网络中的整个可训练参数的一部分，因此它们的无人值守的移除也将导致严重受损的可训练性（特别是在大稀疏性下）。因此，BN参数（在-+v：mala2255获取更多论文小幅度（不重要的）滤波器及其BN参数：应用TPP正则化方程. (3)，方程式（五）大幅度（重要）滤波器及其BN参数：未正则化过滤器1，4，6过滤器2，3，5，7，8跳过连接BNBN77146641244272111W（i）W（i+1）F（i-1）F（i）F（i+1）F（i+2）4可训练性保持神经结构修剪3残余块Fig. 1. 说明所提出的修剪算法TPP应用于一个典型的残留块。权重参数被分为两组，作为一个典型的修剪算法：重要的（白色）和不重要的（橙色或蓝色），从一开始（在任何训练开始之前）的基础上的L1范数的过滤器。然后，只有不重要的参数才被建议的TPP正则化项强制执行，这是当最终从网络中消除不重要的权重时保持可训练性的关键。值得注意的是，基于正则化的修剪算法的关键部分在于其特定的正则化项，即，，等式（3）和（5），我们将证明这比其他替代方案更有利（见表1）。（第1和第2段）包括尺度和偏置参数）也应当在设计修剪算法时被明确地考虑。因此，我们建议正则化BN的可学习参数，以最大限度地减少其缺失的影响。从经验上讲，所提出的修剪算法很容易在流行的深度学习平台上实现，并且对超参数变化具有鲁棒性。在ResNet50 ImageNet基准测试中，与许多最近的SOTA过滤器修剪算法相比，它提供了令人鼓舞的结果我们在本文中的贡献总结如下：– 我们提出了第一种过滤器修剪方法（可训练性保持修剪），通过自定义的权重矩阵作为正则化目标，可以在现代深度网络的修剪过程中有效地保持可训练性。– 除了权重正则化之外，我们还建议正则化BN参数以抵消它们最终缺失的副作用。这一点被大多数以前的剪枝论文所忽视，而我们证明了保持可训练性是非常重要的，特别是当剪枝率很大时。– 实际上，所提出的方法可扩展到现代大规模深度神经网络（例如，，ResNets）和数据集（例如，ImageNet）。它实现了有前途的修剪性能相比，许多国家的最先进的过滤器修剪方法。+v：mala2255获取更多论文4小时Wang和Y. 傅2相关工作神经网络修剪。根据剪枝引起的稀疏结构，剪枝方法主要分为结构化剪枝（过滤器剪枝或通道剪枝）[30，60，17，16，58]和非结构化剪枝[12，11，25，13，50]。结构化剪枝使剪枝后的稀疏性规则化，易于翻译到商用硬件上的加速。相比之下，非结构化修剪产生不规则的稀疏性，有利于压缩，但难以利用实际加速[60，55]，除非有特殊的硬件支持[9，10]。为了更全面的覆盖面，我们建议调查[52，2，3，6，57]。本文的目标是结构化稀疏（过滤器修剪），因为它更有必要使现代网络（例如，，ResNets [14]）与早期的单分支卷积网络（例如，，VGG [49]）。它已经被广泛观察到[25，12]，也直观地直接，一个简单的修剪方式（例如，随机修剪）的正常大小（即，不是有意地严重过度参数化）网络将导致显著的性能下降。也就是说，我们需要巧妙地选择一些“不重要”的参数来删除，以避免严重的性能下降。这样的一个crite-选择的依据是剪枝准则。在该领域，有两种主要的范式来解决修剪标准问题，可以追溯到20世纪90年代：基于正则化的方法和基于重要性的方法[46]。具体地，基于正则化的方法通过添加与原始目标函数（例如，，[60，24，38，37，63，64，65]）。这个范例可以应用于一个随机的或预先训练的网络。基于重要性的方法通过某些已建立的数学公式（通常基于Tay，或损失目标函数的扩展）（例如，，[25，13，12，11，30，41，42]）。这种范式主要应用于预先训练的网络。尽管存在差异，但值得注意的是，这两种范式并非牢不可破，即。，我们可以开发出利用这两种思想的方法，例如[7，55，58]开发的算法本文也是在这条线上。可训练性、动态等距性和正交性。可训练性描述了神经网络优化的容易程度。动态等距，可训练性的完美情况，首先由[48]引入，指出雅可比矩阵的奇异值接近1。它可以通过以下方式实现（对于线性MLP模型）：初始化时权矩阵的正交性。最近关于这个主题的工作主要集中在如何在训练过程中保持动态等距，而不仅仅是初始化[62，20，1，19，59]。这些方法是独立于修剪而开发的，因此与本工作中提出的方法不直接相关。然而，从这些作品的见解启发我们提出的方法（见第二节）。3.2），在未来可能更多。一些修剪论文研究了网络修剪背景下的网络可训练性问题，例如[27，39，54]。我们的工作与他们的不同之处主要在于，我们专注于修剪预训练模型，而他们则解决初始化时的修剪+v：mala2255获取更多论文可训练性保持神经结构修剪53方法3.1分类：动态等轴测和随机性动态等距的定义是网络的输入-输出雅可比矩阵具有尽可能多的接近1的奇异值（JSV）[48]。有了它，误差信号可以在传播过程中保持其范数，而不会发生严重的放大或衰减，这反过来又有助于（非常深的）网络的收敛对于单个全连通层W，实现动力学等距的充分必要条件是正交性，即，，WTW=I，y=Wx，||= y T y = x T W T W x =||X||，iff.||, iff. WTW=I，（1）I代表单位矩阵通过矩阵正交化技术（如QR分解[53，40]）可以很容易地实现权重矩阵的非线性。对于线性网络，可以实现精确的（即所有雅可比奇异值都是1）动态等距，因为多个线性层本质上减少到单个2d权重矩阵。相比之下，卷积和非线性的情况要复杂得多以前的工作[56]已经表明，仅仅考虑卷积或ReLU [43]使得权重正交化方法在修剪后恢复动态等距方面的效率要低得多，更不用说考虑具有BN [21]和残差[14]的现代深度网络了。本文的主要目的是弥合这一差距。在[48]的开创性工作之后，几篇论文提出在训练过程中保持正交性，而不是在初始化过程中保持正交性。卷积神经网络主要有两组正交化方法：核正交[62，20，19]和正交卷积[59]：KKT=I<$Lorth=KKT−I，核正交性（二更）KKT=I<$Lorth=KKT−I，正交卷积其中，明显地，差异在于权重矩阵K与K. （1）K表示卷积层中的原始权重矩阵卷积层的权值组成一个4d张量RN×C×H×W，其中N表示输出通道数，C表示输入通道数，H和W表示卷积核的高度和宽度然后，K是4d 张量的整形版本： K∈RN×CHW （如果 N< CHW; 否则，K∈RCHW×N）。（2）相反，K∈RNHfoWfo×CHfiWfi表示K的双块Toeplitz（DBT）矩阵表示（Hf o表示输出特征图高度，Hfi表示输入特征图高度）。Wfo和Wfi可以以同样的方式推断宽度）。[59]已经表明，正交卷积比核正交性[62]更有效，因为后者只是前者的必要但不充分条件。在这项工作中，我们将评估这两种方法，看看他们是如何有效地恢复破碎的可训练性。+v：mala2255获取更多论文6小时Wang和Y. 傅目标gram矩阵WWT123N目标gram矩阵WWT123N目标gram矩阵WWT123N(a) 核正交性(b) 核正交剪枝(c) 从保留中图二. 所提出的方案（c）与类似的对应方案（a）和（b）之间的正则化目标比较。绿色部分代表零条目。索引1至N表示滤波器索引。在（b，c）中，滤波器2和N是要去除的不重要的滤波器。（a）纯核正交性（单位矩阵）的正则化目标，不考虑修剪。（b）直接将权重正交性应用于滤波器修剪的正则化目标。（c）TPP中所提出的权重去相关解决方案的正则化目标该方案在保持可训练性的同时，对权值的约束最小，有利于优化3.2可训练性保持修剪（TPP）所提出的方法由两部分组成首先，我们解释了我们如何提出所提出的方案，以及它如何直观地优于直接应用正交正则化方法的直接想法[62，59]。其次，我们建议正则化批量规范化层，因为它们目前普遍用作深度神经网络中的标准组件(1) 可训练性与正交性。从以前的作品[27，39，56]中，我们知道恢复修剪引起的中断的可训练性（或动态等距）是非常重要的。考虑到正交正则化可以实现动态等距，一个非常直接的解决方案是建立在现有的核正交正则化方案上。具体而言，核正交性将权重gram矩阵正则化为接近单位矩阵（参见图2（a））。在我们的例子中，我们的目标是删除一些过滤器，所以自然地，我们可以将权重gram矩阵调整为接近部分单位矩阵，并将修剪过滤器处的对角项归零（见图2）。2（b））。上述方案简单明了。然而，根据我们的经验观察，它并没有处于最佳状态。它对剩余的权重施加了太强的不必要的因此，我们认为，我们建议寻求较弱的约束，而不要求完美的可训练性（即，通过正交性实现的动态等距），但仅是良性状态，其描述了梯度可以有效地流过模型而不被中断的神经网络的状态。可训练性要求雅可比奇异值恰好为1;相反，良性可训练性只要求它们不太大或太小，以便网络可以正常训练。为此，我们建议将保留的过滤器与修剪的过滤器去相关：在目标gram矩阵中，与1111111331…03301010…………+v：mala2255获取更多论文L|| ·||∗LLFJJl=1可训练性保持神经结构修剪7修剪的过滤器为零;所有其他条目保持不变，如图2（c）所示。该方案的优点将得到经验证明（见表1）。4）。具体来说，对于第l层，我们通过它们的L1范数对过滤器进行排序，并选择具有最小L1范数的那些过滤器作为不重要的过滤器（表示为集合Sl）。然后，提出的正则化项是，L 1= 0||WlW T（1 − mmT）||2，如果j ∈ S1，则m j = 0，否则1，（3）其中W表示权重矩阵;1表示满1的矩阵;m是0/1值列掩码向量;m是Hadamard（逐元素）乘积;以及F表示Frobenius范数。(2) BN正则化根据保持可训练性的想法，BN是不可训练的，因为BN层也是可训练的。移除过滤器将改变内部特征分布。如果学习的BN统计数据没有相应地改变，则错误将累积并导致性能恶化（特别是对于深度网络）。考虑以下BN公式[21]，WX−µf = γσ2+其中代表卷积;μ代表运行均值，σ2代表运行方差;σ 2是数值稳定性的一个小数值;两个可学习的参数是γ和β。虽然不重要的权重通过正则化来实现稀疏性，但它们的大小几乎不能精确为零，这使得后续的过滤器删除有偏差。这将修改特征分布并使BN统计不正确。使用这些有偏见的BN统计数据将是不适当的，并损害可训练性。为了减轻BN的这种影响，我们建议将修剪后的特征映射通道的γ和β惩罚期限可以表述为：L2= λγ2+ β2。（五）l=1j∈SlBN正则化的优点将在我们的实验中得到证明（表1）。5）。总而言之，利用所提出的正则化项，总误差函数为λE=Lcls+2（L1+L2），（6）其中Lcls代表原始分类损失。系数λ在训练期间逐渐增长（每Ku 次迭代预定义常数λ，直到上限τ），以确保修剪的参数相当接近于零（受[55，58]的启发）。我们的算法总结在算法1中。讨论先前的工作[37，63]还提出了正则化BN以进行修剪。我们的BN正则化方法与他们的完全不同。（1）就动机或目标而言，[37，63]正则化γ以学习不重要的滤波器，即正则化BN是间接决定哪些滤波器不重要。与此相反，+v：mala2255获取更多论文8小时Wang和Y. 傅算法1可训练性保持剪枝（TPP）1：输入：预训练模型Θ，第1层的逐层修剪比rl，对于l∈{1，2，···，L}。2：输入：正则化上限τ，惩罚系数更新间隔Ku，惩罚粒度Ku。3：初始化：迭代i=0。对于所有滤波器j，λ j = 0。通过L1-范数排序设置修剪的过滤器索引S1。4：当λj≤τ时，对于j∈Sl，5：如果i%Ku= 0，则6：λj=λj+λ j，其中j∈Sl.a更新等式中的正则化系数（6）7：结束，如果8：网络转发，损耗（等式（6）后向随机梯度下降参数更新9：更新迭代：i=i+1。10：结束时11：移除Sl中的滤波器以获得较小的模型Θ’。12：微调Θ′以恢复准确性。图13：输出：微调模型Θ′。在我们的方法中，不重要的滤波器由它们的L1-范数决定。我们采用BN正则化是出于一个完全不同的考虑（二更）在具体技术方面，[37，63]只正则化比例因子γ（因为它足以决定哪些滤波器不重要），而我们正则化两个可学习参数，因为只正则化一个仍然会损害网络的动态等距。此外，我们对不同的参数采用不同的正则化强度（通过重要过滤器与不重要过滤器的组），而[37，63]只是对所有参数简而言之，无论是一般动机还是具体的技术细节，我们提出的BN正则化都与以前的工作不同[37，63]。4实验结果数据集和网络。我们首先在MNIST [26]上使用MLP-7-线性网络进行分析。然后将我们的方法与其他可能的解决方案进行比较在CIFAR 10/100上使用ResNet 56 [14]/VGG 19 [49][22]。接下来，我们使用ResNet34和50[14]在大规模ImageNet数据集[5]上评估我们的算法。最后，我们进行了消融研究，以显示我们的方法中两个主要技术创新的有效性。在ImageNet上，我们将官方的PyTorch [44]预训练模型作为基础模型，以保持与其他方法的可比性。在其他数据集上，我们训练了自己的基础模型，其准确度与原始论文中报道的相当。由于篇幅有限，请参阅我们的补充材料了解具体的培训设置。+v：mala2255获取更多论文1lr=0.001lr=0.01lr =0.001lr =0.0测试准确度（%）测试准确度（%）可训练性保持神经结构修剪92100 20 40 60803.02.52.01.50 20 40 60804320 20 40 60 808092 9260409191200 20 40 6080时代0 20 40 6080时代0 20 40 60 80时代91.36/ 90.54/ 0.004092.79/ 92.77/ 1.000092.82/92.77/3.4875(a)L1[30](b)[56]第56话：我的世界(c)TPP（我们的）图3. 在不同设置下微调期间的平均JSV和测试准确度（网络：MLP-7-Linear，数据集：MNIST）。在每个图下面依次是LR 1 e-2的最佳准确度、LR 1 e-3的最佳准确度和修剪后的平均JSV（即，没有微调）。LR 1 e-2和1e-3是以下两个微调LR schedule的缩写[56]：{0：1 e-2，30：1 e-3，60：1 e-4，epochs：90}，{0：1 e-3，45：1 e-4，epochs：90}。通过5次随机运行计算准确度的平均值。作为参考，未修剪的模型的平均JSV为2.4987，检验精度为92.771.001.001.000.750.750.750.500.500.500.250.250.250.000.000.000.250.250.250.500.500.500.750.750.751.001.000.750.500.250.000.250.500.75一点1.001.000.750.500.250.000.250.500.75一点1.001.000.750.500.250.000.250.500.75一点(a)L1[30]（b）GReg-2 [58]（c）TPP（我们的）见图4。通过不同的方法（w/o finetuning）修剪模型的损失表面可视化。CIFAR10上的ResNet56 修剪比率：0.9（放大以查看详细信息。）比较方法。我们与[56]进行了比较，[56]提出了一种方法Or- thP来恢复用于修剪预训练模型的破碎动态等距。此外，由于保持正交性是关键，并且有许多现有的正交正则化论文[62，59，20，19，59]，因此一个简单的解决方案是将它们与L1范数修剪[30]结合起来，看看它们是否有助于维持或者恢复被破坏的动力学等距。有两种可能的组合方案：1）在应用L1-范数修剪之前应用正交正则化方法，2）在L1-范数修剪之后，即在微调中应用正交正则化方法。选择了两种代表性的正交正则化方法，因为它们被证明是有效的：核正交[62]和卷积正交[59]，因此总共有4种组合： L1+KernOrth [62] ， L1+OrthConv [59] ， KernOrth [62]+L1 ， OrthConv[59]+L1。逐层修剪比率。我们在[30，16，58]之后的方法中采用手动预设的修剪比率，以保持与先前作品的可比性更多-lr =0.001lr=0.01lr =0.001lr =0.01lr =0.001lr =0.011lr =0.001lr =0.09.10.6平均JSV测试准确度（%）平均JSV平均JSV+v：mala2255获取更多论文10小时Wang和Y. 傅表1. ResNet56 + CIFAR10上不同动态等距维护或恢复方法之间的测试准确度（%）比较。“Scratch”代表从头开始训练。每个设置随机运行3次，报告平均（标准）准确度。“KernOrth” means Kernel Orthogonalization [这里评估了两个微调LR时间表：初始LR 1 e-2与1e-3。差异”指LR 1 e-3与LR 1 e-2的精度差距ResNet56 + CIFAR10：基线准确率93.78%，参数：0.85M，FLOP：0.25G修剪比r0.3 0.5 0.7 0.9 0.95稀疏/加速31.14%/1.45× 49.82%/1.99× 70.57%/3.59× 90.39%/11.41×95.19%/19.31×LR1 e-2初始微调划痕93.16（0.16）92.78（0.23）92.11（0.12）88.36（0.20）84.60（0.14）L1[30]93.79（0.06）93.51（0.07）92.26（0.17）86.75（0.31）83.03（0.07）[56]第五十六话：93.69（0.02）93.36（0.19）91.96（0.06）86.01（0.34）82.62（0.05）[62]第62话93.49（0.04）93.30（0.19）91.71（0.14）84.78（0.34）80.87（0.47）[59]第五十九章：你是谁？92.54（0.09）92.41（0.07）91.02（0.16）84.52（0.27）80.23（1.19）[62]第62话93.49（0.07）92.82（0.10）90.54（0.25）85.47（0.20）79.48（0.81）OrthConv [59]+L193.63（0.17）93.28（0.20）92.27（0.13）86.70（0.07）83.21（0.61）TPP（我们的）93.81（0.11）93.46（0.06）92.35（0.12）89.63（0.10）85.86（0.08）LR1 e-3初始微调L1[30]93.43（0.06）93.12（0.10）91.77（0.11）87.57（0.09）83.10（0.12）TPP（我们的）93.54（0.08）93.32（0.11）92.00（0.08）89.09（0.10）85.47（0.22）应计差异（L1）-0.38-0.40-0.50+0.82+0.07应计差异（TPP）-0.27-0.14-0.35-0.54-0.39另外，预先设定剪枝率，可以精确地控制无关因素，排除它们对分析的干扰请参阅补充材料，以了解本工作中采用的所有修剪比例的摘要。比较指标。（1）我们将微调后的最终测试准确率与类似的FLOP预算进行具体来说，我们将两个设置组合在一起：一个相对较大的微调LR（1 e-2）和一个较小的微调LR（1 e-3）。我们引入这些设置是因为之前的工作[47，23，56]表明微调LR对最终性能有很大影响。从这个指标中，我们可以看到不同的方法对微调LR的敏感程度。(2)我们还比较了微调之前4.1分析：MLP 7-线性+MNIST和ResNet 56 + CIFAR 10MLP-7-Linear是一个七层线性MLP。在[56]中采用它进行分析，因为线性MLP是迄今为止唯一可以实现精确动态同构的网络（所有JSV都是1）。他们提出的动态等距恢复方法OrthP [56]被证明可以在线性MLP网络上实现精确等距。由于我们声称我们的方法TPP也可以保持动态等距，可以想象，我们的方法应该起到类似的作用，OrthP修剪。确认因此，我们用我们的方法修剪MLP-7-线性网络（精确如下[56][57][58][59]+v：mala2255获取更多论文保持可训练性的神经结构修剪11表2. 在VGG19 + CIFAR100上不同动态等距维持或恢复方法之间的测试准确度（%）比较。“Scratch”代表从头开始训练。每个设置随机运行3次，报告平均（标准）准确度。“KernOrth” means Kernel Orthogonalization [这里评估了两个微调LR时间表：初始LR 1 e-2与1e-3。差异”指LR 1 e-3与LR 1 e-2的精度差距VGG19 + CIFAR100：基线准确率74.02%，参数：20.08M，FLOP：0.80G修剪比r0.1 0.3 0.5 0.7 0.9稀疏/加速19.24%/1.23× 51.01%/1.97× 74.87%/3.60× 90.98%/8.84× 98.96%/44.22×LR1 e-2初始微调划痕72.84（0.25）71.88（0.14）70.79（0.08）66.51（0.11）54.37（0.40）L1[30]74.01（0.18）73.01（0.22）71.49（0.14）66.05（0.04）51.36（0.11）[56]第五十六话：74.00（0.04）72.30（0.49）68.09（0.24）62.22（0.15）48.07（0.31）[62]第62话73.72（0.26）72.53（0.09）71.23（0.10）65.90（0.14）50.75（0.30）[59]第五十九章：你是谁？73.18（0.10）72.25（0.31）70.82（0.11）64.51（0.43）48.31（0.18）[62]第62话73.73（0.23）72.41（0.12）70.31（0.12）64.10（0.19）50.72（0.87）OrthConv [59]+L173.55（0.18）72.67（0.09）71.24（0.23）65.66（0.10）50.53（0.46）TPP（我们的）74.02（0.24）73.19（0.07）71.61（0.08）67.78（0.31）57.70（0.37）LR1 e-3初始微调L1[30]73.67（0.05）72.04（0.12）70.21（0.02）64.72（0.17）48.43（0.44）TPP（我们的）73.83（0.02）72.29（0.07）71.16（0.12）67.47（0.17）56.73（0.34）应计差异（L1）-0.34-0.97-1.28-1.33-2.93应计差异（TPP）-0.19-0.90-0.45-0.31-0.97TPP可以在线性MLP上执行以及OrthP。使用我们的TPP方法的结果如图3所示。图3（b）是配备了OrthP的一个，它可以精确地恢复动态等距（注意修剪后的平均JSV是1.0000），所以它在这里作为预言机。（1）OrthP将最佳准确度从91.36/90.54提高到92.79/92.77;使用TPP，我们获得92.81/92.77。也就是说，在精度方面，我们的方法是一样好的Oracle计划。（2）注意修剪后的平均JSV-相比之下，TPP达到3.4875，在1.0000的相同数量级，也与OrthP一样好。这些表明，无论是最终的评估指标（测试精度）或可训练性措施（平均JSV），我们的TPP方法可以执行以及地面实况方法OrthP的线性MLP网络。我们进一步检查了早期微调阶段（前10个时期）的测试精度和平均JSV，以比较OrthP和我们的TPP。该研究表明，受损的可训练性主要是微调性能不佳的原因，我们的TPP方法与地面实况可训练性恢复方法OrthP一样有效（详见我们的补充材料）。使用ResNet56+CIFAR10进行损失面分析。我们绘制了不同修剪方法的修剪网络（微调之前）的损失面[31图4表明，我们的方法的损失表面比其他方法更平坦，这意味着损失景观更容易优化。+v：mala2255获取更多论文12小时Wang和Y. 傅表3. ImageNet上的加速比较。浮点数：ResNet34：3.66G，ResNet50：4.09G。这意味着使用了高级训练配方（如余弦LR时间表）;我们将它们挑选出来进行公平比较方法网络基本top-1（%）修剪top-1（%）Top-1丢弃（%）加速L1（pruned-B）[30]73.23 72.17 1.061.32×L1（修剪-B，reimpl.）[56]73.3173.67-0.36 1. 32 ×[42]第四十二话72.830.48 1.29×GReg-2 [58]73.61-0.301.32×TPP（我们的）73.3173.77-0.46 1.32×可证明FP [34]76.1375.210.92 1.43×[36]第三十六话76.20.4 1.37×GReg-1 [58]76.27-0.141.49×TPP（我们的）76.1376.44-0.31 1.49×IncReg [55]75.6072.473.13 2.00×SFP [16]76.1574.611.54 1.72×[35]第35话74.981.17 1.78×[42]第四十二话74.501.68 1.82×[32]第32话74.551.602.33×[66]第66话74.951.06 2.25×CCP-AC [45]76.1575.320.83 2.18×GReg-2 [58]75.360.77 2.31×CC [33]76.1575.590.56 2.12×[36]第三十六话75.41.2 2.00×TPP（我们的）76.1375.600.532.31×LFPC [15]76.1574.461.69 2.55×GReg-2 [58]ResNet5076.1374.931.20 2.56×CC [33]76.1574.541.612.68×TPP（我们的）76.1375.121.012.56×IncReg [55]75.6071.074.53 3.00×[42]第四十二话71.694.49 3.05×GReg-2 [58]73.902.233.06×TPP（我们的）76.1374.511.62 3.06×方法网络前1（%）FLOP（G）[18]第十八话77.4 2[18]第18届世界杯足球赛TPP协定（我们的）ResNet5077.752TPP协定（我们的）76.5214.2ResNet56+CIFAR10 /VGG19+CIFAR100在这里，我们将我们的方法与CIFAR 10/100数据集上的其他合理解决方案[22]进行了比较，这些解决方案具有非线性卷积架构。从Tab中的结果。1、Tab。2、我们有以下观察。(1) OrthP [56]效果不佳这进一步证实了针对线性网络提出的权重正交化方法确实不能推广到非线性卷积网络。(2) 对于KernOrth与OrthConv，结果看起来是混合的-这是合理的，因为OrthConv已经被证明比KernOrth更有效地实施更动态的isome- try [59]，这反过来又可以承受更多来自修剪的损害+v：mala2255获取更多论文××保持可训练性的神经结构修剪13(3) 特别值得注意的是，上述五种方法实际上都没有优于L1范数修剪或简单的划痕训练。这意味着在修剪前加强等距性或修剪后补偿等距性都无助于动态等距性的恢复。与此形成鲜明对比的是，我们提出的TPP方法在不同的修剪比率下始终优于L1范数修剪和scratch（只有一个例外是ResNet56上的修剪比率为0.7，但我们的方法仍然是第二好的，与最好的差距只是边缘：93.46 vs. 93.51）。此外，请注意精度趋势：一般来说，随着更大的prun- ing比率，TPP比L1或Scratch的优势更加明显。这是因为更大的剪枝率意味着动态等距被破坏得更多，我们的方法可以帮助更多，从而获得更多的性能增益。我们将多次看到类似的趋势。(4) 在Tabs。1和2，我们还提出了当初始微调LR为1 e-3时的结果。在[56]中，作者认为，如果可以很好地保持/恢复破坏的动力等距，LR1 e-2和1 e-3之间的最终性能差距将缩小。由于我们声称我们的方法能够保持动态等距，性能差距应该变得更小。这在表中得到了经验TPP与L1的比较）。一般而言，TPP的LR1 e-2和LR1 e-3之间的精度差距小于L1范数剪枝的精度差距.两个例外是ResNet 56- LR1 e-3上的PR0.9/0.95目前，我们对此没有非常具体的解释，但值得注意的是，它没有出现在VGG19上。因此，它可能与剩余架构有关。我们将在未来继续探索这一点。尽管如此，表中的总体情况是，LR1 e-3和1 e-2之间的精度差距在我们的方法中变得更小。这是动态等距被有效保持的标志。4.3ImageNet基准测试我们进一步评估了ImageNet上的TPP [5]，并与许多现有的过滤器修剪算法进行了比较。结果显示在Tab中。3.我们的方法在不同的加速比上都优于其他方法。此外，随着加速比的增加，我们的方法的优势更加明显。例如，TPP在2.31加速跟踪下的前1精度下降方面优于Taylor-FO [ 42 ]1.15%;在3.06加速下，TPP领先Taylor-FO [42]2.87%。这表明TPP对更积极的修剪更稳健。原因很容易看到-更积极的修剪伤害可训练性（或动态等距）更多[ 28，56 ]，我们的方法可以找到更多的用途。我们进一步比较更强大的修剪方法。[18][19][11）在ImageNet上使用ResNet50。因此，我们在这里只与CHEX比较。继CHEX之后，我们采用更先进的训练配方（例如：，cosine LR schedule）参考TIMM [61]。结果在Tab。3表明，我们的方法优于CHEX在不同的FLOP。+v：mala2255获取更多论文14小时Wang和Y. 傅表4. 消融研究（1）：在我们的TPP方法中，两种合理方案“对角”与“去相关”之间的测试准确度（无微调）比较ResNet56 + CIFAR10：基线精度93.78%，参数：0.85M，FLOPs：0.25G修枝率r0.30.50.70.90.95TPP（对角线）92.67（0.29）91.97（0.02）90.21（0.23）23.23（5.19）14.23（1.42）TPP（去相关）92.74（0.16）92.07（0.05）89.95（0.26）30.35（4.69）17.33（0.50）Acc. diff.+0.07+0.10-0.26+7.12+3.10VGG19 + CIFAR100：基线准确度74.02%，参数：20.08米，浮点数：0.80G修枝率r0.10.30.50.70.9TPP（对角线）68.70（0.18）64.55（0.14）55.66（0.73）13.76（0.53）1.00（0.00）TPP（去相关）72.43（

下载后可阅读完整内容，剩余1页未读，立即下载