结构化稀疏卷积：提高效率的压缩方法

122 浏览量更新于2023-10-16 收藏 892KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6503使用结构化稀疏卷积推动效率极限Vinay Kumar Verma1*，Nikhil Mehta1*，Shijing Si3，Ricardo Henao1，Lawrence Carin1，21Duke University2 KAUST Saudi Arabia3 SEF，Shanghai International Studies University摘要权重修剪是压缩深度卷积神经网络最流行的方法之一。最近的研究表明，在随机初始化的深度神经网络中，存在稀疏子网络，其性能可与原始网络相媲美。不幸的是，找到这些子网络涉及训练和修剪的迭代阶段，这可能是计算上昂贵的。我们提出了结构化稀疏卷积（SSC），它利用图像中的固有结构来减少卷积滤波器中的参数。与在初始化时执行修剪的现有方法相比，这导致卷积架构的效率我们表明，SSC是一个推广的常用层（dependently，groupwise和逐点卷积）在“有效的架构”。在著名的CNN模型和数据集上的大量实验表明了该方法的有效性。与CIFAR- 10、CIFAR-100、Tiny-ImageNet和ImageNet分类基准的基线相比，基于SSC的架构实现了最先进的性能。我们的源代码可在https://github.com/vkvermaa/SSC公开获得。1. 介绍已知过参数化深度神经网络（DNN）在测试数据上具有良好的泛化能力然而，过度参数化增加了网络规模，使得DNN资源匮乏，并导致训练和推理时间延长。这阻碍了DNN在低功耗设备上的训练和部署，并限制了DNN在具有严格延迟要求的系统中的应用。已经做出了一些努力来使用模型压缩降低DNN的存储和计算复杂性[19，62，51，45，33，3，34，7，44]。网络剪枝是最流行的模型压缩方法。在网络修剪中，我们通过修剪冗余参数来压缩大型神经网络，同时保持模型性能。修剪方法可以分为两类：非结构化和结构化。非结构化伪*表示相等贡献。对应于vinayugc@gmail.com，nick. duke.edu。ing删除了内核中的冗余连接，导致稀疏张量[27，18，64]。非结构化稀疏性在神经架构中产生零星的连接，导致不规则的内存访问[55]，对硬件平台的加速产生不利影响。另一方面，结构化修剪涉及遵循高级结构（例如，在滤波器级修剪参数[29，34，12]）。通常，结构修剪导致实际加速，因为参数减少而存储器访问保持连续。现有的修剪方法通常涉及三个阶段的流水线：预训练，修剪和微调，其中后两个阶段在多个阶段中进行，直到实现期望的修剪比率。虽然最终的修剪模型导致低推理成本，但实现修剪架构的成本仍然很高。彩票假设（LTH）[15，16]表明，随机初始化的过参数化神经网络包含一个子网络，称为与LTH类似，有令人信服的证据[38，39，14，13，2，1，45]表明超参数化对于高测试精度并不重要，但有助于为网络找到良好的初始化[30，65]。然而，找到这样的子网络的过程涉及迭代修剪[15]，使其计算密集型。如果我们事先知道子网络，我们可以用原始网络的1-10%的参数训练一个更小更有效的模型，减少训练过程中的计算一个开放的研究问题是如何设计一个子网络，而不需要经历昂贵的多阶段训练，修剪和微调过程。最近已经有尝试[27，52]来缓解这个问题，涉及通过解决用于检测和移除unimportant连接的优化问题来在初始化时进行一次性神经网络修剪一旦子网络被识别，模型就被训练而不进行进一步的修剪。这种只修剪一次的过程被称为初始化修剪或前瞻修剪[52]。虽然这些方法可以找到一个近似的中奖彩票，他们有以下限制，阻碍他们的实际应用：（1）初始优化过程仍然需要6504×××L××××××大内存，因为优化过程是在原始的过参数化模型上进行的。（2）所获得的中奖彩票对于其被近似的特定数据集是特定的，即，使用特定数据集修剪的网络可能不会在不同的数据集上最佳地执行（3）这些基于剪枝的方法导致模型中的非结构化稀疏性。由于常见的硬件限制，很难从非结构化压缩中获得实际的加速比。在本文中，我们设计了一种新的结构化稀疏卷积（SSC）滤波器的卷积层，需要显着更少的参数相比，标准卷积。所提出的滤波器利用了图像中的固有空间特性。常用的深度卷积架构与SSC结合使用时，性能优于其他在初始化时进行修剪的最先进方法不像典型的修剪方法，所提出的架构是稀疏的设计，不需要多个阶段的修剪。该架构的稀疏性是数据集不可知的，并且在与现有的在初始化时进行修剪的最先进的方法进行比较时，导致模型的更好的传输能力。我们还表明，该滤波器具有隐式正交性，确保最小的过滤器冗余在每一层。此外，我们还证明了所提出的滤波器可以被视为现有高效卷积滤波器的推广，这些滤波器用于组卷积（GWC）[59]、点卷积（PWC）[48]和深度卷积（DWC）[50]。广泛的实验和消融研究的标准基准描绘所提出的过滤器的功效。此外，我们进一步压缩了现有的高效模型，如MobileNetv2 [40]和ShuffleNetv2[35]，同时实现了与原始模型相当的性能。2. 方法本文提出了结构化稀疏卷积（SSC）滤波器，它由分层的空间稀疏KK和11粒。与具有固定大小的内核的典型CNN滤波器不同，SSC滤波器具有三种类型的内核，如图1所示。内核的异质性被设计成具有不同的感受野，可以覆盖-输入中的不同特征如第2.1节所示考虑模型的层l，输入（hl−1）的大小为il−1×il−1×M，其中il−1对应于-图1.在所提出的SSC滤波器中使用的三个基本组件蓝色块表示零重量位置。红色、橙色和绿色块显示了三种不同类型的内核中的有效重量位置。图2.所提出的卷积层具有N个SSC滤波器。蓝色块表示33和11内核中的零权重位置，而其他颜色显示活动权重。具有K K内核的标准卷积层如下：Fl=i2×N×（K2M），（1）P l = N ×（K 2 M），（2）其中（K2M）表示来自所有M个通道特定内核的总参数的数量。从（1）和（2）可以明显看出，减少（K2M）直接减少了模型的参数数量和计算成本这确实是我们提出的方法（SSC）所实现的奇/偶K K内核：两种类型的K K内核在强制稀疏性的位置方面有所不同考虑S∈RK2是K×K2D核，我们将奇核定义为：.S[i]=0i∈{2p|0<2p0来执行GWC和PWC的合成。类似地，DWC和PWC的合成可以使用p=1和g=M来完成。在表5中，我们示出了上述组合物的结果。3. 相关工作近年来，模型压缩领域取得了巨大的下面，我们重点介绍一些最近提出的用于学习稀疏神经网络的技术。我们将模型压缩和修剪技术分为三类的基础上所涉及的计算成本。训练后修剪（PAT）[47，18，19，15，17，55，60，46，44]是最广泛使用的修剪方法。[19]建议使用迭代阈值化来修剪权重参数。基于知识蒸馏的方法[41，24，8]试图训练一个压缩的学生模型，模仿全尺寸原始模型的行为[23]和[10]提出了权重张量的低秩近似，以减少训练和测试时的内存和时间复杂度当压缩多个层时，这些方法倾向于在预测中累积误差基于PAT的修剪方法通常是昂贵且耗时的，因为它们需要对原始过参数化模型进行预训练动态修剪（DP）[31，54，37，36]涉及同时修剪和训练模型;随着训练的进行，模型大小减小。软过滤器修剪6508(SFP)[22]在每个时期之后修剪过滤器，但在训练模型时更新修剪的过滤器。Deep Rewiring（DeepR）[6]和Dynamic Sparse [37]定期修剪和重新生长架构，但在修剪大型网络时计算成本更高。稀疏动量（SM）[11]也遵循修剪和重新生长的方法，然而，它使用平滑梯度来加速训练。与基于PAT的方法相比，这些方法可以更有效地进行训练，因为使用DP训练的模型会随着训练而缩小。训练前修剪（PBT）是三个类别中最具尽管其重要性，但只有少数尝试探索这种设置。这些方法在训练开始之前找到一个小的子网络，因此需要较少的计算资源和训练时间。虽然已经有一些尝试在训练之前修剪深度神经网络[27，28，52，56，45]，但它们仍然需要通过完整模型进行多次前向/后向传递，以检测网络中不重要的连接。单次网络修剪（SNIP）[27]试图通过解决最小化问题来识别稀疏子网络，该问题在初始化时保留修剪网络的损失[28]从信号传播的角度研究了剪枝问题，并提出使用正交初始化来确保可靠的信号传播。最近，[52]提出了梯度信号保持（GraSP），通过保持梯度流来在初始化时修剪网络。最近提出了空间间修剪（IP）[56]来克服PBT方法中引入的偏差，从而提高了现有非结构化修剪方法（包括SNIP和GraSP）的通用性。尽管这些方法被开发为在初始化时找到子网络，但它们仍然需要使用训练数据集优化原始的过参数化模型，这对于低端设备来说可能是昂贵的。此外，所发现的子网络是特定于特定数据集的，阻碍了跨多个任务的知识SynapticFlow（SynFlow）[49]使用信息吞吐量标准修剪权重以找到稀疏网络。我们提出的方法也属于PBT类别，其中稀疏网络在初始化时被识别。与以前的方法相比，所提出的方法是稀疏的设计，不需要解决优化问题，找到一个特定于任务的子网络。4. 实验我们证明了我们提出的过滤器的有效性和效率首先，我们评估了常用的深度卷积网络（ResNet-32/50和VGG-19 [21，43]）与SSC过滤器在四个分类基准上的性能： CIFAR-10/100 [25] ， Tiny-ImageNet [57] 和ImageNet [9]。我们表明，建议的SSC过滤器实现国家的最先进的精度，大多数设置。我们还将SSC滤波器应用于现有的最先进的“高效”架构：MobileNetV2 [40]和ShuffleNetV2[35]。在第4.2节中，我们证明了这些架构可以通过SSC进一步压缩47-48%，同时在CIFAR-10基准上实现高精度接下来，我们进行实验来分析SSC滤波器的特性。具体而言，我们发现SSC导致显着较低的逐层滤波器相关性，这意味着与使用显式正则化器的替代方法相比，冗余滤波器更少。我们还测试了SSC在使用有限的训练数据进行训练时对过拟合的鲁棒性。最后，我们评估了SSC过滤器在迁移学习中的能力。对于所有实验，我们遵循[52]中使用的训练设置（优化器，学习率，训练时期）。我们在补充材料中包含了所有的超参数。除了上述实验之外，我们还对超参数g和p的选择进行了广泛的消融。通常，设置超参数p和g以在架构中实现期望的稀疏性;我们使用Rp（如13中定义的）作为选择p和g的指导原则。为简洁起见，我们将消融研究和进一步讨论推迟到补充报告中。基线：我们包括一些基线来比较所提出的方法的性能。基线包括在完成训练后修剪架构的方法，例如OBD [20]，MLPrune [63]和LT [15]。我们还考虑进行动态修剪的方法： [37] ， [36]， [37]。从训练前剪枝（PBT）的方法类别中，我们考虑SNIP [27]，GraSP[52]和SynFlow [49]。与我们提出的在初始化高度稀疏架构上训练的方法相比，所有上述基线（除了PBT方法）都具有训练大型超参数化网络虽然我们报告了所有上述基线的性能，但我们的方法只能与SynFlow，SNIP和GraSP进行公平的比较我们还考虑了用IP [56]对PBT方法进行的改进。4.1. 分类基准我们通过训练常用的架构（VGG-19和ResNet-32）来评估CIFAR 10和CI-FAR 100分类基准上的所提出的方法，其中标准卷积滤波器被所提出的SSC滤波器取代我们在表1中报告了使用VGG-19和ResNet-32在三种修剪率下的测试准确率，即90%，95%和98%我们观察到，SSC在12个不同设置中的8个设置中表现优于SNIP和GraSP，特别是当我们使用ResNet32时（在6个设置中的5个设置中表现更好）。请注意，即使在SSC不如SNIP或GraSP的设置中，性能也非常具有此外，在CIFAR-100数据集上98%稀疏度的极端设置中，SSC优于次佳6509表1.在CIFAR-10和CIFAR-100数据集上测试修剪后的VGG 19和ResNet 32的准确性粗体数字是GraSP、SNIP和SSC准确度之间较高的数字数据集CIFAR-10CIFAR-100剪枝度百分之九十百分之九十五百分之九十八百分之九十百分之九十五百分之九十八VGG19（未修剪）94.23--74.16--[26]第二十六话93.74 93.5893.4973.83 71.9867.79[第63话]93.83 93.6993.49七三七九七三零七71.69LT（原始初始化）93.51 92.9292.3472.78 71.4468.95LT（重置为epoch 5）93.82 93.6193.0974.06 72.8770.55DSR [37]93.7593.8693.1372.3171.9870.70[36]第三十六话92.4691.7389.1872.3669.8165.94Deep-R [6]90.8189.5986.7766.8363.4659.58[27]第二十七话[52]第五十二话[49]第四十九话IP-SynFlow[56]93.63±0.06 93.43±0.20 92.05±0.28 72.84±0.22 71.83±0.2358.46± 1.193.30±0.14 93.04±0.18 92.19±0.12 71.95±0.18 71.23±0.1268.90±0.4792.99±0.18 92.23±0.1591.01±0.17-.--.--.-93.17±0.20 92.46±0.1492.11±0.24-.--.--.-93.68±0.11 93.45±0.1791.16±0.20 71.65±0.18 70.71±0.2168.95±0.44ResNet32（未修剪）94.80--74.64--[26]第二十六话94.17 93.2990.3171.96 68.7360.65[第63话]94.21 93.0289.6572.34 67.5859.02LT（原始初始化）92.31 91.0688.7868.99 65.0257.37LT（重置为epoch 5）93.97 92.4689.1871.43 67.2858.95DSR [37]92.9791.6188.4669.6368.2061.24[36]第三十六话92.3090.7688.2969.6667.4162.25Deep-R [6]91.6289.8486.4566.7863.9058.47[27]第二十七话92.59±0.1092.38±0.2193.29± 0.2091.01±0.2191.39±0.2591.66± 0.1387.51±0.3188.81±0.1488.39±0.2468.89±0.4569.24±0.2471.13 ± 0.1265.22±0.6966.50±0.1167.31± 0.1554.81±1.4358.43±0.4363.01± 0.31[52]第五十二话SSC（我们的）表2.在Tiny-ImageNet数据集上测试修剪后的VGG 19和ResNet 32的准确性粗体数字是GraSP和SNIP准确度之间较高的数字网络VGG19ResNet32VGG 19/ResNet 32（未修剪）61.38--62.89--[26]第二十六话61.2160.4954.9858.5556.8051.00[第63话]60.2359.2355.5558.8657.6251.70LT（原始初始化）60.3259.4855.1256.5254.2749.47LT（重置为epoch 5）61.1960.5756.1860.3157.7751.21DSR [37]62.4359.8158.3657.0857.1956.08[36]第三十六话62.4959.4256.2257.0256.9256.18Deep-R [6]55.6452.9349.3253.2952.6252.00[27]第二十七话[52]第五十二话SSC（我们的）61.02±0.4160.76±0.2361.53± 0.2559.27±0.3959.50±0.3359.72± 0.2348.95±1.7357.28±0.3456.81±0.3956.33±0.2457.25±0.1157.92± 0.1655.43±0.1455.53±0.1157.36± 0.1949.57±0.4451.34±0.2953.70± 0.21使用ResNet32的方法具有7.8%的相对改进。Tiny-ImageNet是一个中等规模的数据集，包含来自ImageNet的200个类的图像。同样，我们选择VGG-19和ResNet-32作为具有不同剪枝率的基础架构结果报告于表2中。我们再次观察到，我们的方法在6个设置中的5个设置中优于基线方法SNIP和GraSP。在ResNet-32中95%稀疏度的极端设置中，我们观察到所提出的方法显示出相对于GraSP的4.6%的相对改进（2.36%的绝对改进我们还使用ResNet-50架构对ImageNet数据集进行了大规模实验结果如表3所示。该模型在两个修剪比率下训练：60%和80%。我们使用SNIP，GraSP和我们提出的方法报告前1名和前5名的准确性尽管使用内存密集型的SNIP和GraSP具有额外的优势，剪枝度百分之九十百分之九十五百分之九十八百分之八十五百分之九十百分之九十五6510∈我N2i=1j=1我 J表3.使用ResNet-50架构在Ima-geNet基准上测试准确率，剪枝率为60%和80%。与SSC相比，基线SNIP和GraSP的开销更大然而，SSC的性能优于SNIP和GraSP。修剪率60% 80%精度top-1top-5top-1top5ResNet-50（未修剪）75.7092.81--[27]第二十七话73.9591.9769.6789.24[52]第五十二话74.0291.8672.0690.82SSC（我们的）73.7691.8371.2790.32表4.在ImageNet基准测试中使用ResNet-18架构进行测试，剪枝率为60%和75%。与SSC相比，所有基线都有额外的开销。修剪率60% 75%精度top-1top-5top-1top5ResNet-18（未修剪）69.7789.07--[27]第二十七话66.5687.3264.3385.74[52]第五十二话65.8786.7163.5785.34[49]第四十九话66.9387.5663.8585.61IP-SNIP [56]67.2987.6564.9386.18IP-GraSP [56]66.9287.4864.9486.20IP-SynFlow [56]67.3187.8564.6386.11SSC（我们的）67.5587.8964.8685.834.2. 高效架构我们将所提出的SSC滤波器应用于MobileNetV2 [40]和ShuffleNetV2 [35]模型，这是低端设备的最先进架构。如第2.2节所述，我们用建议的SSC操作替换DWC和PWC操作，使我们能够进一步压缩高效架构[40，35]。我们设置超参数如下：（1）对于所有PWC滤波器，我们固定p=2和g=0。这将标准架构中的PWC参数总数减少了50%。（2）对于DWC滤波器，我们设置p=0和g=M。我们不使用奇/偶内核在SSC过滤器中，因为只有一个单一的内核在DWC过滤器。我们在表5中报告了结果我们认为L1P[29]、Slimming [32]和AutoSlim [61]是基线模型。与所提出的方法不同，所有三个基线都需要一个预训练的模型来修剪模型。尽管相对于SSC具有这一优势，但 SSC 过滤器在 MobileNetV2 和ShuffleNetV2架构的基线上显示出显著的4.3. 参数冗余在2.1节中，我们讨论了SSC滤波器的隐式正交性质。我们比较了使用和不使用SSC过滤器训练的ResNet-32架构每层的平均绝对相关性。两两对应-第i个滤波器和第j个滤波器之间的lation（ρ）可以计算为： ρ （ fi ， fj ） =E[ （ fi−µi ）（ fj−µj ） ]/（σiσj）1/2，其中表5. MobileNet和ShuffleNet架构CIFAR-10基准。注意，基线需要在训练之后修剪，这在计算上比SSC更昂贵。fRK2M表示第i个滤波器中所有参数的一维向量，µi是方法参数（%）加速度（%）f i和σ i=<$K M（f − µ）。我们定义平均绝对值-2我层间相关性：C =1<$N<$N|.|.MobileNetV2ShuffleNetV2[29] 2016年12月31日减肥[32] 43.8 91.5[61]第61话SSC（Ours）未修剪91.0减肥[32] 55.8 89.5SSC（我们的）在图3中，我们报告了每个在CIFAR- 100基准上训练的ResNet-32架构层。我们还比较了使用（14）和（15）中描述的显式正交约束训练标准ResNet-32模型时获得的相关性度量。如图3所示，标准卷积滤波器的相关性度量高于其他方法，这意味着标准ResNet-32架构中的滤波器冗余。我们观察到，对于总共33个层中的31个层，SSC滤波器具有比“foresight对于60%的剪枝率，SSC的前1名准确率仅落后于前5名0.26%和0.14%的绝对差异。这使得基于SSC的深度卷积模型对无法训练大型模型的设备具有吸引力我们还在ResNet18架构上进行了ImageNet实验，结果见表4。尽管在基线方法中使用的额外开销，我们发现SSC是更好的或可比的基线。标准过滤器。与具有显式正则化约束的方法相比，SSC滤波器对于21层具有较低的相关性度量。这表明，与基线相比，基于SSC的ResNet架构可以通过学习不同的过滤器来更有效地利用参数。此外，SSC滤波器避免了欠完备/过完备问题（第2.1节），同时避免了昂贵的计算（14-15）。4.4. 对过拟合众所周知，过度参数化的深度学习模型在低数据状态下会过度拟合如第4.3节所示i=1未修剪94.3我6511×图3.ResNet-32（X轴：层）中建议SSC（10%参数）和基线的滤波器相关性（Y轴）图4.左图：仅使用20%、40%和50%样本时，ResNet-32在CIFAR-10数据集上的准确度右图：稀疏网络转移到不同任务时的准确性。所提出的SSC滤波器可以学习不同的滤波器。在本节中，我们分析了SSC滤波器在训练数据稀缺时的鲁棒性。为了测试SSC滤波器是否对过拟合具有鲁棒性，我们在部分训练数据上训练ResNet-32架构。我们考虑了三种情况，即只使用总训练集的20%、40%和50%的图像来学习模型图4（左）报告了三种场景的性能选择超参数g和p，使得神经网络仅具有标准ResNet-32架构中总参数的10%正如预期的那样，我们观察到，与标准卷积滤波器的模型相比，使用SSC滤波器的模型对过拟合更鲁棒在我们的实验中，我们还观察到，当训练数据减少时，性能的差异变得更加显著。4.5. 迁移学习在本节中，我们将研究稀疏架构在两个不同任务上的推广。回想一下第2节，SSC中的修剪是通过选择超参数g和p来控制的;因此，SSC中获得的稀疏性与训练数据无关。而对于基线方法，稀疏网络是通过对训练数据执行迭代过程来找到的我们将SSC架构的传输能力与最佳性能基线（即，，GraSP）。为了研究跨两个任务的传输能力，我们首先在 CIFAR-100 基准上训练GraSP，以修剪原始架构，然后在Tiny-ImageNet数据集上传输（微调）获得的稀疏网络。类似地，对于所提出的基于SSC的体系结构，我们首先通过在CIFAR-100基准测试中调整超参数g和p来找到稀疏网络，然后使用获得的稀疏网络在Tiny-ImageNet数据集上进行训练。为了保持Tiny-ImageNet任务的复杂性与CIFAR-100相同，我们只使用Tiny-ImageNet数据集中的100个类图4（右）显示了两种方法（GraSP和Ours）在剪枝率为90%和95%时的性能。我们观察到，基于SSC的架构比GraSP表现更好，表现出更好的传输能力。5. 结论我们提出了用于深度卷积神经网络的结构化稀疏卷积（SSC）SSC基于由新颖的奇/偶核和11核组成的有效滤波器。所提出的内核利用输入特征中的空间依赖性来减少浮点运算和初始化后通过一系列实验，我们证明了所提出的SSC在应用于常用深度卷积网络时的有效性。SSC滤波器的一个我们还表明，SSC过滤器推广其他有效的过滤器（GWC，DWC和PWC），并证明SSC过滤器在现有的高效架构，如MobileNet和ShuffleNet上的适用性。虽然这项工作已经证明了在设计稀疏滤波器时无需额外步骤的潜力，但我们提出的滤波器实际加速有限，因为现有的深度学习库不支持对结构化张量的有效操作。然而，一个有效的CUDA实现，将这些操作的结构化稀疏可以很容易地解决这个问题。我们坚信，所提出的方法对于更广泛的社区来说非常有益，可以用一小部分计算资源来训练强大的深度系统无论如何，我们仍然对识别可以推广的良好稀疏模型知之甚少。我们希望这项工作将激励研究界识别出高效的过滤器，这些过滤器可以自然地产生高度稀疏和有效的深度学习模型。6512引用[1] Zeyuan Allen-Zhu，Yuanzhi Li，and Yingyu Liang.超参数化神经网络的学习和泛化，超越两层。神经信息处理系统的进展，第6158-6169页，2019年[2] Zeyuan Allen-Zhu，Yuanzhi Li，and Zhao Song.一种通过过度参数化进行深度学习的收敛理论。在机器学习国际会议上，第242- 249252. PMLR，2019年。[3] Jose M Alvarez和Mathieu Salzmann。深度网络的压缩感知训练神经信息处理系统的进展，第856-867页，2017年[4] Sanjeev Arora，Simon S Du，Wei Hu，Zhiyuan Li，andRu-osong Wang.超参数化双层神经网络的优化和泛化的细粒度分析在第36届机器学习国际会议论文集，第322-332页[5] Nitin Bansal，Xiaohan Chen，and Zhangyang Wang.在训练深度网络时，我们能否从正交正则化中获得更多神经信息处理系统的进展，第4261-4271页，2018年[6] Guillaume Bellec，David Kappel，Wolfgang Maass，andRobert Legenstein.Deep Rewiring：训练非常稀疏的深度网络。在2018年学习代表国际会议[7] Changan Chen ，Frederick Tung ，Naveen Vedula， andGreg Mori. 约束感知深度神经网络压缩。在欧洲计算机视觉会议（ECCV）的会议记录中，第400-415页[8] Yen-Chun Chen，Zhe Gan，Yu Cheng，Jingzhou Liu，and Jingjing Liu.提取bert中学到的知识用于文本生成。在计算语言学协会第58届年会的会议记录中，第7893[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[10] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构进行有效评估。神经信息处理系统的进展，第1269-1277页，2014年[11] Tim Dettmers和Luke Zettlemoyer。从头开始构建稀疏网络：更快的训练而不损失性能。2019年。[1

下载后可阅读完整内容，剩余1页未读，立即下载