间隔修剪：改进的信息流和更好的可训练模型

78 浏览量更新于2023-10-25 收藏 12.43MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Interspace Pruning: Using Adaptive Filter Representations to Improve Trainingof Sparse CNNsPaul Wimmer∗†‡§, Jens Mehnert∗§ and Alexandru Condurache∗†∗Automated Driving Research, Robert Bosch GmbH, 70469 Stuttgart, Germany†Institute for Signal Processing, University of L¨ubeck, 23562 L¨ubeck, Germany{paul.wimmer,jensericmarkus.mehnert,alexandrupaul.condurache}@de.bosch.comAbstractUnstructured pruning is well suited to reduce the mem-ory footprint of convolutional neural networks (CNNs), bothat training and inference time. CNNs contain parametersarranged in K × K filters. Standard unstructured prun-ing (SP) reduces the memory footprint of CNNs by settingfilter elements to zero, thereby specifying a fixed subspacethat constrains the filter. Especially if pruning is appliedbefore or during training, this induces a strong bias. Toovercome this, we introduce interspace pruning (IP), a gen-eral tool to improve existing pruning methods. It uses filtersrepresented in a dynamic interspace by linear combinationsof an underlying adaptive filter basis (FB). For IP, FB co-efficients are set to zero while un-pruned coefficients andFBs are trained jointly. In this work, we provide mathe-matical evidence for IP’s superior performance and demon-strate that IP outperforms SP on all tested state-of-the-artunstructured pruning methods. Especially in challengingsituations, like pruning for ImageNet or pruning to highsparsity, IP greatly exceeds SP with equal runtime and pa-rameter costs. Finally, we show that advances of IP are dueto improved trainability and superior generalization ability.1. IntroductionDeep neural networks (DNNs) have shown state-of-the-art (SOTA) performance in many artificial intelligence ap-plications [52, 54, 72, 77, 80]. In order to solve these tasks,large models with up to billions of parameters are required.However, training, transferring, storing and evaluating suchlarge models is costly [61,65]. Pruning [19,20,22,30,34,50]sets parts of the network’s weights to zero. This reduces themodel’s complexity and memory requirements, speeds upinference [4] and may lead to an improved generalizationability [3, 24, 34]. In recent years, training sparse models‡Corresponding author. §Equal contribution.became of interest, providing the benefits of reduced mem-ory requirements and runtime not only for inference but alsofor training [13,14,35,47,49,55,66,71,75].In this work, we mainly focus on methods that pruneindividual parameters before training, while the number ofzeroed coefficients is kept fixed during training. With thisunstructured pruning, a network’s memory footprint can bereduced. To lower the runtime in addition, specialized soft-and hardware is needed [11,18,21,51]. For training sparsenetworks, we distinguish between (i) pruning at initializa-tion (PaI) [9,35,66,71,75] which prunes the network at ini-tialization and fixes zeroed parameters during training, (ii)finding the sparse architecture to be finally trained by iter-ative train-prune-reset cycles, a so called lottery ticket (LT)[14,15], and (iii) dynamic sparse training (DST) [13,39,49]which prunes the network at initialization, but allows thepruning mask to be changed during training.Convolutional neural networks (CNNs) are composed oflayers, each having a certain number of input- and outputchannels. Every combination of input- and output channelis linked by a filter h ∈ RK×K with kernel size K × K.A weight of h is a spatial coefficient hi,j for a spatial co-ordinate (i, j). Filters h can also be modeled in an inter-space, a linear space {�K2n=1 λn · g(n) : λn ∈ R} spannedby a filter basis (FB) F := {g(1), . . . , g(K2)} ⊂ RK×K[12, 69].One possibility for a FB is the standard basisB := {e(n) : n = 1, . . . , K2} which yields the spatial rep-resentations. General interspace representations are moreflexible since bases are not fixed. We represent h in aninterspace in order to learn the FB F spanning this spacealong with the FB coefficients λ, and thereby obtain a betterrepresentation for h. Thus, setting coefficients of flexible,adaptive FBs to zero will improve results compared to prunespatial coefficients.For deep networks, where the layers’ purposes are usu-ally unknown to the experts but learnt during training, webelieve that filters should train their bases along with theircoefficients. A FB F is dynamic, can be shared for any12527==DenseFilter2·Spatial Representation+4·+3·3·+14·Interspace Representation+1·−13·2·+Prune50 %Prune50 %4·+3·1·+2·==PrunedFilter(a)BasisPruned, Randomly Sampled Filters1.000.750.500.250.000.250.500.751.00Layer 3 / VGG16 / SP-SNIP / CIFAR-10 / p=0.99(b)BasisPruned, Randomly Sampled Filters1.000.750.500.250.000.250.500.751.00125280Layer 3 / VGG16 / IP-SNIP / CIFAR-10 / p=0.990(c)0图1. (a)SP和IP的概述。与SP相反，IP在训练稀疏网络后产生空间密集的滤波器。对于SP，间隔中的稀疏性可以用来减少内存需求，并且通过卷积的线性性质，也可以减少计算成本。0K×K滤波器的数量与其FB系数λ一起进行优化。在训练过程中，通过将间隔拟合到稀疏滤波器中，我们克服了对适合描述具有少量非零系数的滤波器的基础的先验知识的缺乏。如果将滤波器修剪为单个FB系数，h = λn ∙g(n)，则它不受限制，因为g(n)可以改变。因此，修剪动态FB的间隔系数保持CNN的灵活性，称为间隔修剪（IP）。一个1-稀疏滤波器h = hin,jn ∙e(n)直接预定义h保持在固定子空间span{e(n)}上。根据标准基B修剪空间系数称为标准修剪（SP）。在训练稀疏CNN时，由于空间稀疏性导致梯度消失的问题经常发生[66, 71,74]。相比之下，IP修剪的网络能够在训练过程中学习空间密集的FB，即使使用稀疏的间隔系数，参见图1。因此，IP导致了改进的信息流和更好的可训练模型。尽管IP产生了密集的空间表示，但是卷积的线性性质可以用来减少具有稀疏间隔系数的CNN的计算量。与SP相比，IP只会增加所需计算的数量的一个小的恒定值。然而，由于IP提供了优越的稀疏模型，IP生成的CNN具有比SP更快的推理速度，同时与密集性能相匹配。此外，通过间隔表示实现的动态性在内存方面是廉价的。一个FB F具有K4个参数，因为它包含K2个大小为K×K的滤波器。一个单独的FB可以为CNN中的所有K×K滤波器共享。也可以使用多个FB，只需稍微增加内存需求。出于成本原因，我们在实验中不使用比CNN层数更多的FB，结果是所有FB的开销最多为密集网络参数的0.01%。尽管与使用空间权重相比，只增加了少量的额外成本，但间隔表示对于稀疏和密集训练的结果显著改善。我们的核心贡献是：0•在间隔中表示和训练卷积滤波器，间隔是由可训练的FB张成的线性空间。0FB与FB系数一起进行优化。0•将修剪的概念应用于具有间隔表示的滤波器，作为改进具有稀疏系数的CNN性能的一般方法。0• IP的改进在定理1中进行了理论证明。•实验证明，在相同的运行时间和内存成本下，IP在SOTA稀疏训练方法和在训练期间或对预训练模型进行修剪的方法上超过了SP。我们证明了IP的优越性是通过改进的可训练性实现的，并且在更低的稀疏度下也由于更好的泛化能力。02. 更广泛的影响0修剪可以降低训练、存储和评估DNN的成本。我们不知道这项工作直接引起的任何负面结果。然而，作为改进修剪的工具，从而降低CNN的成本，IP可以用于任何具有负面道德或社会影响的基于CNN的应用。作为作者，我们与此类应用和在其中使用我们的方法保持距离。正如我们在论文中所展示的，IP在一般情况下改进了非结构化修剪，并不限于特定场景。我们将IP视为一种工具，与SOTASP技术结合使用以进一步降低成本。因此，我们的工作对于使用修剪的每个人都有利，并且通过使用间隔表示进行训练获得的改进的泛化能力，也有利于深度学习。03. 相关工作0相关工作涵盖了通用修剪和训练前修剪以及DST。训练稀疏模型可以从头开始学习非零的滤波器组系数和滤波器组。这些方法自然而然地最能从间隔表示中受益，因此我们的实验在这方面有着很强的重点。0通用修剪。修剪分为结构化修剪和非结构化修剪。结构化修剪删除网络的粗糙结构，如通道或神经元[2, 27,̸125290[38, 67, 73,79]。这样可以得到精简的架构，从而减少计算时间。更细粒度的方法是非结构化修剪，其中单个的空间权重被置零[14, 17, 20, 31, 34, 35, 49]。非结构化修剪比结构化修剪[36,48]具有更好的性能，但需要支持稀疏张量计算的软硬件来实际减少运行时间[21,51]。此外，将稀疏参数存储在诸如压缩稀疏行格式[68]之类的格式中会产生额外的开销。这可能导致稀疏性与实际内存/运行时间成本之间的非线性依赖关系，详见附录C和D.4。0修剪可以在训练的任何时候应用。历史上最早的方法[23,30, 31, 34,50]使用训练好的网络进行修剪和微调的循环。标准通常基于对损失函数的Hessian的昂贵计算。同样，训练系数的大小可以作为迭代修剪准则[17, 22,36]。通过在损失函数中添加稀疏强制正则化，修剪可以动态地集成到训练中[5, 42, 76]。0与我们的工作最接近的是频率[41]和Winograd域[40]中的修剪系数。相反，我们不将表示绑定到固定的基础上，而是让网络自主学习其滤波器组。此外，IP本身不是一种修剪方法，而是在现有方法的基础上添加的，以增强它们的效果。还要提到的是[37]，它是CNN的低秩近似。通过学习3D滤波器的欠完备字典来近似密集的预训练网络。相反，我们表示2D滤波器h ∈RK×K，修剪网络而不是使用低秩近似，并在训练中同时学习滤波器组和系数。0训练前修剪和动态稀疏训练。在[14]中，提出了一种迭代的过程，该过程包括将未修剪的权重训练到收敛，对训练好的权重应用幅度修剪，并将非零权重重置为其初始值。最后，这导致了稀疏的、随机初始化的网络，这些网络是易于训练的-所谓的“中奖彩票”。对于SOTA的CNNs，将未修剪的权重重置为初始化值而不是早期迭代的值可以显著提高性能[15, 59]。通过应用其他准则，如稀疏网络中的信息流[53,66, 71, 75]或非零权重对损失的影响[9, 35, 70,75]，修剪可以成功地应用于初始化而不需要预训练网络。GraSP [71]，SNIP [35]和SynFlow [66]是PaI的SOTA[16]。动态稀疏训练[10, 13, 39,49]在训练过程中调整修剪掩码，以确保稀疏网络同时调整架构以适应不同的条件。SET[49]经常根据幅度修剪网络，并随机激活尽可能多的未训练参数。RigL[13]通过恢复具有最大梯度幅度的权重来改进这一过程。04. 过滤基和间隔修剪0受稀疏字典学习（SDL）（第4.1节）的启发，我们引入了卷积滤波器的间隔表示，并在第4.2节中提出了计算得到的滤波器组卷积。此外，第4.3节讨论了滤波器组共享和滤波器组及其系数的初始化。最后，在第4.4节中正式定义了间隔修剪。04.1. 来自稀疏字典学习的启示0稀疏字典学习[1, 12, 46]同时优化字典F ∈ R m ×m和系数R ∈ R m ×n，通过仅使用s个非零系数来近似目标U ∈ R m ×n。设置剪枝掩码supp R := {(i, j)：Ri,j ≠0}，这定义了一个非凸优化问题。0inf F，R ∥ U - F ∙ R ∥ F s.t. ∥ R ∥ 0 := #supp R ≤ s.(1)0通常，SDL允许F ∈ R m ×M，其中M是任意的。由于FB是基础，我们将F限制为二次型。在我们的上下文中，U对应于卷积层的所有扁平化滤波器，字典F对应于该层的扁平化FBF，R对应于FB系数。对于层h ∈ R cout × cin × K × K0对于关联的FB F = {g(1)，...，g(K2)} � R K×K，我们有m =K2和n = cout ∙cin。标准幅度剪枝是SDL的一种特殊情况，其中F被固定为形成标准基础F = id R m。因此，0min ¯ R ∥ U - ¯ R ∥ F s.t. ∥ ¯ R ∥ 0 ≤ s (2)0通过剪枝来最小化。由于我们训练的是稀疏的、随机初始化的CNN，我们的总体目标不是模仿给定的稠密CNN，而是训练稀疏网络以实现良好的泛化能力。因此，我们仅使用方程（1）和（2）来找到要剪枝的系数的一个合适的子集。与SDL相比，深度学习方法用于进一步优化未剪枝系数，以及在IP的情况下优化FB。在我们的实验评估中，我们还测试了除幅度剪枝之外的其他方法，即方程（1）和（2）。尽管如此，方程（1）和（2）仍然衡量了稀疏层的功能能力，以及稠密层和稀疏层的总体性能的良好指标。大多数SDL算法[1,12, 46]交替优化F和R。而SP-PaI将基础设置为id Rm，并且剪枝掩码supp ¯R也是固定的。这简化了任务，但减少了解空间。IP通过在训练过程中调整基础来克服小的、固定的解空间。对于IP-PaI，剪枝掩码suppR是根据启发式方法确定的，并且也是固定的，这仍然导致次优的架构。正如本文所示，使用昂贵的预训练通过LTs找到更好的剪枝掩码，或者通过DST在训练过程中调整suppR，进一步改善了IP的性能。定理1表明，动态的F比使用标准基础产生更好的近似。因此，0.85050.9924680294SP-Random-PaIIP-Random-PaIDense Baseline0.850.9593.093.193.293.393.493.593.693.793.83.9 IP-SET coarseIP-SET mediumIP-SET fineδ =(nsm)/(m·ns )if s ≡ 0(mod m)0else.(3)22cin2∂L∂λ(α,β)n=�g(n),∂�,λ(α,β)n(7)125300剪枝率0Top-1测试准确率0随机PaI / VGG16 / CIFAR-100(a)0剪枝率0IP-SET / FB共享 / VGG16 / CIFAR-100(b)0图2. 在CIFAR-10上的VGG 16：(a) 随机SP-PaI和随机IP-PaI。(b)IP-SET的粗、中、细FB共享。0剪枝后FB的适应性改善了性能，定理1是IP的理论动机。假设具有cout输出和cin输入通道、核大小K × K和s = (1 - p)∙ cout ∙ cin ∙ K2未剪枝系数的卷积层。对于m = K2 ≥9，如果n = cout ∙ cin ≥ 100且0 < s < cout ∙ cin ∙K2，则方程（3）中的δ在数值上等于零。因此，对于每个非平凡的稀疏度，FB的适应性都会改善结果。即使对于方程（1）的剪枝掩码固定为方程（2）的最小化器的剪枝掩码，即从任意剪枝网络开始并添加自适应FB，结果仍然会改善。定理1的证明在附录J中给出。它利用了方程（1）小于等于方程（2）的事实。只有当方程（2）有一个解，使得每个K×K滤波器要么完全剪枝，要么密集，才有可能相等。对于大型层和非平凡的稀疏度，这几乎是不可能的。如果方程（1）的剪枝掩码进一步不固定，（F，R）可以被选择为使方程（1）始终严格小于方程（2）的解。0定理1. 令0 < s < m ∙ n，m >1且Ui,j�N(0,1)独立同分布。令ε(1)为方程(1)的下确界，ε(2)为由¯R�解决的方程(2)的最小值。则ε(1) < ε(2)，P =1。如果supp R对于方程(1)被固定为supp ¯R�，则ε(1) ≤ε(2)成立，并且在P ≥ 1-δ时严格不等式成立，其中0图2(a)比较了随机PaI的SP和IP，其中VGG 16[63]在CIFAR-10[32]上进行了训练。与SP相比，IP极大地改善了结果。这从实验上表明，当自适应FB的系数被修剪时，稀疏训练的效果要好于空间权重被修剪的效果。即使使用固定的修剪掩码，这一点仍然成立。04.2. 间隔表示和卷积0对于一个卷积层，设cout为其输出通道数，cin为其输入通道数，K×K为其卷积核大小。为了简化公式，我们将公式限制在具有二次核、无填充、1×1步幅和膨胀的2D卷积上。将FB的公式推广到任意卷积是直接的。0描述该层的2D卷积h由c out ∙ c in K ×K的滤波器h(α,β)∈RK×K组成，即h=(h(α,β))α,β∈Rcout×cin×K×K。受第4.1节中的讨论启发，我们现在在由该层的FBF={g(1),...,g(K2)}�RK×K张成的间隔空间中表示所有的h(α,β)。FB系数λ=(λ(α,β)n)α,β,n∈Rc out×cin×K2定义了h(α,β)的间隔空间表示，给出如下：0h(α,β) =0n =1 λ(α,β)n ∙ g(n) . (4)0这是空间表示的基础变换0h(α,β) =0n =1 h(α,β)in,jn ∙ e(n) , e(n) i,j = δi,in ∙ δj,jn. (5)0通常，h(α,β)在空间表示中定义。因此，空间系数存储在h(α,β)∈RK×K中。而FB系数由向量λ(α,β)∈RK2指定。通过线性性，可以计算每个输出通道α∈{1,...,c out}的2DFB卷积(Y(α))α=Y=h�X，其中输入特征图X=(X(β))β∈Rcin×h×w。0Y(α) =0β =1 h(α,β)�X(β) (4)=0n =1 λ(α,β)n (g(n)�X(β)) .0(6) 梯度需要用于训练FB系数λ和FBF。它们的反向传播公式在附录Sec.D.2中推导得出。对于所有的n，α，β都成立。0∂h(α,β)0∂g(n) = �0h(α,β) .04.3. 过滤基础共享和初始化0对于核大小为1×1的情况，FB的表达式在重新缩放后等价于空间表示。因此，我们假设给定一个具有Lc个卷积层和K>1的CNN，并且不将FB的表达式应用于1×1的卷积。在这项工作中，我们测试了三种版本的FB共享。我们的FB共享方案在粒度上有所不同。粗粒度方案将一个全局FBF共享给所有的层l=1,...,Lc。而细粒度方案为每个层l共享一个FBF(l)，因此使用Lc个FBs。中间是总共5个FBs的中等方案。对于ResNets [26]，每个卷积块共享一个FB。对于VGG 16[63]，卷积层{1,2}，{3,4}，{5,6,7}，{8,9,10}和{11,12,13}分别共享一个FB。FB的数量从细粒度到粗粒度递增。网络中FB的总数量J满足J ≤Lc。因此，网络中所有FB的参数数量上界为Lc∙K4。注意，在使用的CNN中，我们假设所有的卷积层都具有相同的参数数量。Y (α) =cin�β=1�n∈supp µ(α,β)λ(α,β)n·�g(n) ⋆ X(β)�.(8)2DConvnα,β,ncin×K24:pruning mask: (µ(α,β)n)α,β,n0, 1 cout×cin×K2n)1{(β,n):µ(α,β)n=1} λ(α,β)n· Z(β)n11:return Y = (Y (α))coutα=1125310在这项工作中，L c ∙ K 4最多占模型中所有参数的0.01％。因此，IP使用我们提出的共享方案的额外参数成本可以忽略不计。每个层所张成的空间的维数对于不同的FB共享方案不会改变，并且等同于使用空间表示。然而，粗粒度共享通过使用和更新相同的间隙将网络中的所有层相关联。对于细粒度共享，每个层都有自己的间隙，更细粒度地进行调整。对于空间表示，基础B是固定的，不会更新，并且不会在权重之间引起相关性。我们发现不同的共享方案对于不同的训练/模型/数据集组合效果最好。图2(b)显示了我们在不同修剪率下的FB共享方案。对于更多的训练参数，粗粒度共享效果最好。通过将所有层通过全局FB相关联，我们假设它对训练有正则化效果，参见第5.4节。细粒度共享使网络更加灵活。因此，在网络无法再对训练数据过拟合的高修剪率下，结果是最好的。在两者之间，中等共享通过结合两者的优点达到最佳结果。在这项工作中，我们对FB和FB系数使用简单的初始化。我们将每个FB初始化为B，并使用kaimingnormal初始化[25]初始化FB系数。这个方案等同于标准CNN的kaimingnormal初始化方法，也适用于密集基线和SP实验。在附录G中，我们提出了更多的间隙初始化方案。04.4. 间隙修剪和成本比较0SP通过将修剪掩码¯ µ ( α,β ) ∈ { 0 , 1 } K × K叠加在滤波器h ( α,β ) ∈ R K × K上进行建模。这导致了稀疏滤波器h ( α,β ) ⊙ ¯ µ ( α,β)，其中Hadamard乘积⊙。在间隙中表示的滤波器具有相对于FB F 的系数λ ( α,β ) ∈ R K2。因此，间隙修剪通过使用修剪掩码µ ( α,β ) ∈ { 0 , 1 }K 2 对FB系数进行屏蔽来定义，即λ ( α,β ) ⊙ µ ( α,β)。结合等式（6），IP实现了卷积的稀疏计算：0SP（p SP ）和IP（p IP ）的修剪率p定义为0D , p IP = 1 − ∥ Λ ∥ 0 + � J j =1 ∥F ( j ) ∥ 0 D . (9)对于SP，Λ ∈ R D 表示网络的参数，而Λ ∈ R D表示除了IP设置中的FB本身之外的所有参数。因此，对于IP和SP，Λ具有完全相同的元素数量。修剪率等式（9）为0算法1 IP的FB 2D卷积02: 滤波器基础：{ g (1) , . . . , g ( K 2 ) } � R K × K05: conv args � 例如 stride , padding , groups , . . .06: def FORWARD PASS ( X ) � 输入 X ∈ R c in × h × w07: 对于所有 β ∈ { 1 , . . . , c in } , n ∈ { 1 , . . . , K 2 } do09: 对于所有 α ∈ { 1 , . . . , c out } do0参数的分数等于零。为了在IP和SP之间进行公平比较，我们将非零参数的数量与标准密集网络中的系数总数进行归一化，即没有FB的密集网络。与卷积和全连接层相比，偏置和批归一化参数的数量很小。此外，在我们的实验中，所有FB的参数总和最多为D的0.01％。因此，我们只修剪全连接层的权重以及卷积层的空间和FB系数。FB，偏置和批归一化参数都是经过训练的。0计算成本比较。正如讨论的那样，使用我们的FB共享方案的IP的参数成本仅比SP略大。通过卷积的线性性质，可以利用interspace中滤波器的稀疏性来减少计算成本，参见公式（8）。在附录D中，计算并比较了IP和SP的计算成本。成本通过卷积层理论上所需的浮点运算（FLOPs）数量来衡量，并且与使用的FB共享方案无关。IP的开销由前向传播和反向传播中的额外成本组成。对于推理，只计算前向传播的额外成本。SP和IP都需要支持稀疏计算的专用软件和硬件才能真正减少运行时间。假设一个具有内核大小为K×K，输入通道数为c in，输出通道数为cout的层。在前向传播中，SP的FLOPs成本是密集层的1-p倍。由于算法1中的第7-8行，IP的开销是K2/c out的常数开销。总体而言，IP的FLOPs成本是密集层的1-p+K2/cout倍。在反向传播中，IP的FLOPs数量在O（cost）∂L。0∂h �� , i.e . 可以与在空间表示中计算层 h的密集梯度的成本相媲美。正如讨论的那样，与相等稀疏度的SP相比，IP在推理中需要更多的计算。然而，由于IP找到了更好的稀疏模型，IP在实时测量中实际上实现了更高的加速，而达到了类似或甚至更好的性能，如图5(a)所示。0.85050.9987890123940.60.856062646668 0.85050.9987890123940.60.856062646668 0.85050.9987890123940.60.856062646668 125320修剪方法。算法1描述了带有IP的稀疏FB2D卷积的伪代码。由于自动微分在现代深度学习框架中是标准的，因此FB卷积的反向传播公式是自动计算的，不包含在算法1中。算法1中的FB可能在多个层之间共享，参见第4.3节。我们在第5节的实验中比较了SP和IP在各种稀疏训练和其他修剪方法上，包括：DST在初始化时随机修剪模型。在训练过程中，根据其大小修剪不重要的系数。在每个层中，通过激活其梯度来重新生长相同数量的参数。SET随机重新生长系数，而RigL重新生长具有较高梯度幅度的系数。修剪掩码每1,500次迭代更新一次，SET为4,000次，RigL为4,000次。余弦调度用于减少修剪/重新生长系数的数量。LT对网络进行预训练，步骤t0 =500。然后，将网络训练到收敛。现在，根据其大小修剪非零系数的20%。CNN的未修剪部分被重置为t0时的值。整个过程总共应用k次，直到达到所需的修剪率p =1-0.8k。最后，从t0开始训练最终的稀疏网络。PaI在初始化时修剪模型，不进行预训练或在训练过程中更改修剪掩码。随机PaI以概率p独立同分布地修剪权重。SNIP训练在训练开始时对损失L产生较大影响的系数。GraSP找到在训练开始时对梯度流最有益的系数。SynFlow保留具有高信息吞吐量的系数，其通过对稀疏网络的总路径范数的影响来衡量。Gradual MagnitudePruning（GMP）[17]从密集系数开始训练。在训练过程中，CNN逐渐根据系数的大小稀疏化。修剪的参数被固定为零，因此永远不会重新生长。Fine-Tuning（FT）[59]使用预训练的网络。修剪具有最小幅度的p∙D系数。稀疏CNN的预训练系数使用密集训练的学习率调度进行微调。所有这些方法都是为SP开发的。然而，在我们的实验中，它们被不加修改地应用于interspace设置。有关更多详细信息，请参见附录F和G。05. 实验和讨论0第5.1节涵盖了实验设置。接下来，第5.2节0比较了IP和SP的三种SOTA的PaI方法[35, 66,71]。在第5.3节中，我们讨论了IP和SP在更复杂的稀疏训练方法（即LTs[15]和DST方法SET[49]和RigL[13]）上的表现。此外，我们还展示了IP在经典的训练期间应用的修剪方法GMP[17]和预训练模型FT[59]上对SP的改进。改进的可训练性和泛化能力。0CIFAR-10上的VGG160修剪率0Top-1测试准确率0(a) SNIP0ImageNet上的ResNet180修剪率0(b) SNIP0修剪率0Top-1测试准确率0(c) GraSP0修剪率0(d) GraSP0修剪率0Top-1测试准确率0(e) SynFlow0修剪率0(f) SynFlow0SP-PaI IP-PaI SP-Random-PaI IP-Random-PaI Dense Baseline0图3.比较SP和IP在PaI方法SNIP、GraSP和SynFlow以及CIFAR-10和ImageNet上的随机PaI的结果。0在第5.4节中展示和讨论了IP相对于SP的改进性。05.1. 实验设置0我们比较了在CIFAR-10上使用VGG 16[63]和在ImageNetILSVRC 2012上使用ResNets18和50[26]的IP和SP。模型使用交叉熵损失进行训练。我们报告了CIFAR-10的五次运行的均值和标准差，以及ImageNet的三次运行的结果。对于系数，我们应用了权重衰减，但对于FBs没有应用。3×3滤波器的系数及其FBs是联合训练的，而1×1滤波器使用固定的FBs F = B。对于ResNet18，我们固定了7×7卷积的FB F = B，而对于ResNet50，我们训练了7×7的FB。对于CIFAR-10实验，我们使用中等的FB共享，对于ResNet50，我们使用精细的共享，对于ImageNet上的ResNet18的所有3×3卷积，我们使用粗糙的共享。对于SP和密集基线，使用了标准CNN。与文献中常见的做法一样，我们报告ImageNet结果是在验证集上得到的。注意，我们使用了相应SP方法的训练计划来训练SP和IP。特别地，FBs是在没有优化的超参数的情况下训练的。因此，它们使用与所有参数相同的学习率。关于超参数、评估和使用的CNN架构的更多细节，请参见附录中的H和I节。0.85050.99012394SP-SETIP-SETDense Baseline0.832 0.914 0.95.982 0.986 0.98893.093.293.493.693.894.0SP-LTIP-LTDense BaselineFigure 3 compares SP and IP for PaI methods SNIP [35],GraSP [71] and SynFlow [66] together with random PaI fora VGG16 on CIFAR-10 and a ResNet18 on ImageNet.The experiments show that pruning FB coefficients in-stead of spatial parameters leads to significant improve-ments in top-1 test accuracy while having the same memorycosts. This holds true f

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

间隔修剪：改进的信息流和更好的可训练模型

浅析龙眼修剪存在的问题以及改进技术.zip

使用模型修剪方法获得基于YOLOv5的紧凑模型Pruned-YOLOv5

python实现决策树修剪

如何对vgg16实现另一种可能是在迁移学习之前，对预训练模型进行裁剪或修剪，只保留前几层的卷积块，然后添加适合新任务的自定义头部。

yolov5s模型剪枝再蒸馏

多路径修剪和循环修剪有什么区别

improved techniques for training gans

人工智能中的循环修剪是什么意思

神经网路的下部修剪是什么意思

除了直接加载整个模型，还有其他方式加载部分模型吗？

ug二次开发修剪刀具路径

互联网公司深度学习模型

n=100，对随机2n个数据点进行支持向量机软间隔训练，写出matlab代码，求b,w使用线性增广拉格朗日法训练模型

YOLOv5剪枝为啥剪枝后，mAP很低

写一个房地产户型模型的制作介绍

yolov8模型减枝与轻量化

yolov5s模型剪枝

最新资源