稀疏训练中的直通渐变和软渐变是否具备所需内容？

22 浏览量更新于2023-10-16 收藏 938KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3808直通渐变和软渐变是否包含了稀疏训练所需的所有内容？AntoineVanderschueren1UCLouvain，比利时antoine. uclouvain.beChristophe DeVleeschouwer1 UCLouvain，比利时christophe. uclouvain.be摘要在训练神经网络时将权重变为零有助于降低推理时的计算复杂度。为了逐步增加网络中的稀疏率，而不会在训练过程中导致尖锐的权重不连续性，我们的工作结合了软阈值和直通梯度估计来更新原始的，即非阈值化的，零权重版本。我们的方法，命名为ST-3的直通/软阈值/稀疏训练2，获得SoA的结果，无论是在精度/稀疏性和精度/FLOPS权衡，当在一个单一的训练周期逐步增加稀疏率。特别是，尽管其简单，ST-3与采用可再生制剂[42]或生物启发的神经再生原理[25]的最新方法相比是有利的。这表明，有效稀疏化的关键因素主要在于能够赋予权重在零状态下平滑演变的自由，同时逐渐增加稀疏率。1. 介绍最先进的神经网络由几百万个参数组成，每个推理需要几十亿次计算。为了限制这些计算，稀疏网络在过去几年中得到了彻底的研究[43，4，27，41，21，38，3，6，32，22，42，25]，并且重要的是，已经对其有效的硬件实现进行了大量的努力[8，29]。稀疏网络通过将其大部分权重参数设置为零来降低推理复杂性训练稀疏网络的简单方法是基于修剪[43，9，4]，这意味着从网络中删除链接（相当于将其权重设置为零），没有机会重新激活1这项工作的一部分由瓦隆地区项目SmartGate N°1910087和Fondsde la Recherche Scientific- FNRS资助2源代码和权重可在https://github.com/vanderschuea/stthree上获得后来的训练。由于修剪决策通常基于权重大小，因此这种方法会惩罚在训练过程中必须改变符号的权重，因为这些权重在越过零边界时最终会被修剪[33]。相比之下，现代稀疏化方法倾向于出现零权重，而不明确地取消相应的链接，允许权重在活动和非活动状态之间自由切换。第2节对为此目的提出的各种方法进行了调查。我们的工作提出了一种概念上和计算上简单的解决方案，其（令人惊讶地）与这种丰富的现有技术相比非常有利。我们的建议通过将学习限制在单轮梯度下降迭代来减轻训练的计算复杂性。这与迭代后训练修剪解决方案[6，32]形成对比，后者实现了SoA准确性/稀疏性权衡，但由于需要多轮训练来逐步增加修剪率，因此计算成本非常大。由于许多以前的作品建立在一轮训练的基础上，我们的方法采用了动态权重阈值化过程，以逐步增加在训练过程中设置为零的权重的比例，并在各层之间平衡zeroed权重。然而，我们的工作是具体的，因为（i）它在训练过程中不断更新零权重，（ii）它基于软阈值将权重设置为零，而不是在以前的作品中流行的硬阈值。这些特性详述如下。为了连续更新归零权重，我们的方法从量化神经网络（QNN）的训练中获得灵感，其中原始（未量化）权重使用直通估计器（STE）进行更新，以避免由于量化器的阶跃函数而导致梯度变为零[14，23]。我们将同样的原理应用于在网络稀疏化过程中“量化”为零的权重。这意味着原始和非阈值化权重在后向路径中被维持和更新，即使它们的阈值化版本在前向路径中被归零。STE允许梯度和动量将正权重切换到负值（反之亦然），而不会3809在接近零的时候卡在非活动状态。把低量级的权重变为零，从而稀疏化-网络采用软阈值法。这防止了由硬阈值算子引起的前向路径权重值的突然变化，这可能将小的梯度更新变成急剧的权重不连续。这种突然的不连续性会妨碍网络的准确性，特别是在高稀疏率下，它们会导致过早的层塌陷[36]，如图1所示。尽管其简单性，我们的方法超越了最近（通常更复杂）的单训练周期交替实现的准确性/稀疏性权衡。因此，它揭示了训练有效稀疏网络所需的关键因素主要包括：（1）在训练期间，特别是在早期时期，赋予权重在活动和非活动状态之间自由平滑地演变的能力;以及（2）逐渐增加稀疏比而不引起沿训练的权重值的急剧不连续。支持我们方法的另一个令人信服的实验论据在于，当与[6，32]中提出的迭代且因此非常复杂（由于多轮训练周期）的训练后修剪解决方案相结合时，我们的ST-3定义了一种新的SoA准确性/稀疏性权衡。总的来说，由于其有效性，而且计算和概念简单，我们的ST-3提供了一个新的和有价值的基线，以评估未来的稀疏化方法。尽管ST-3的关键成分已经在早期的作品中独立提出（通常是为了实现多周期修剪或量化），但我们的工作是新颖的和原创的，因为它将它们集成到一种特别适合于稀疏网络的单周期训练的方法中。我们的工作也是第一个证明，这些概念上简单的成分是足以达到SoA的性能，当适当的组合。2. 相关作品虽然在考虑特定硬件实现时，以结构化方式将权重归零可能会导致更高的加速，但在给定稀疏度水平下，使用非结构化稀疏度获得的准确度通常更高[24，12，37]，并且在现成硬件上使用非结构化稀疏度可以实现显著的加速[15，31，7，29]。因此，本文主要研究非结构稀疏性.学习稀疏网络的初始方法只是在整个训练周期结束时根据其各自的L1幅度从网络中删除链接[19，9]。然而，与密集网络相比，这是以预测准确性的实质性损失为代价的，包括当剩余的有效权重经历微调步骤时（即，较短的训练周期，具有小的学习速率）。现代方法不考虑明确和突然删除链接。相反，它们是简单的-在多个训练周期结束时进行部分修剪，或设计渐进权重归零的解决方案。在[43]和[17]中研究了逐步增加zeroed权重比的参考方法。全局幅度修剪（GMP）[43]沿着训练逐步修剪链接。一个相关的方法，名为STR，使用软阈值将低于某个阈值的权重设置为零与我们的ST-3相反，只有非零权重才通过梯度更新。以前的一些方法已经揭示了重量的非永久归零。美国[3] 梯度动量来恢复一些归零的权重。GraNet[25]通过生物启发的神经再生原理增强修剪可塑性。ProbMask[42]学习一个概率修剪掩码，通过对Gumbel分布进行采样（多次，每次需要梯度计算）将其转换为二进制掩码，从而使其可通过梯度下降进行训练。我们的ST-3是概念和计算简单，因为它依赖于直通梯度估计不断更新归零的权重。我们的实验还表明，当与软阈值相结合，它达到了更好的精度稀疏性权衡比早期的作品。除了其关于权重归零（软阈值）和归零权重更新（基于直通估计，如训练量化网络时所做的那样[14，23]）的特性外，我们的ST-3还采用了关于其他三个重要设计问题的传统解决方案：权重显著性定义。大多数方法使用梯度幅度[3]，权重幅度[9，43，17]或两者的混合[36]来选择权重，以便在一些初步训练后设置为零。作为替代方案，DNW[38]使用神经结构搜索来发现神经线路，即通道之间的独立关键连接，从而找到完整图的稀疏子网我们的工作采用了主要的趋势，根据它们的大小将权重归零。在层间分布稀疏度。已经有大量文献证明[30，3，20]，当修剪发生在输入附近时，网络预测准确性受到更大影响。然而，在CNN中，从计算的角度来看，修剪第一层更有益，因为它们对应于高分辨率通道。最近提出了两种方法来解决这种权衡。首先，Erdos-Re′nyi-Kernel（ERK）[30，3]提出用逐层因子缩放以便对于具有更多（更少）参数的层引入更高（更小）的稀疏性，例如ResNet-50的第一卷积层保持密集，从而保持准确性。其次，层感知修剪（LAMP）[20]选择全局修剪的权重，但依赖于分配给每个权重的得分，而不是其幅度。此分数是在已排序的3810以及每个层（l）的权重的平坦化阵列（Wl排序）ERK和LAMP都以增加的复杂性（以FLOPS为单位测量）为代价来实现更高的准确性。然而，我们的实验并没有显示出使用这些方法时的因此，除非另有说明，否则在我们的实验中，权重是独立于它们的层来考虑的。如第3节所述，为了处理操作数（FLOPS）增益比准确性更重要的用例，我们建议通过其内核的大小对权重进行归一化，该内核近似于层内核中权重的标准差因此，这种归一化降低了将整个内核设置为零的风险，从而在高稀疏率下保持准确性。在训练过程中控制全局稀疏度。第三个问题是对训练计算成本影响最大的问题。因此，这是我们的论文的核心，它的目标是简单而不惩罚准确性。大多数作者[6，5，32，18]同意这样一个事实：(i)修剪不应该在训练的开始就开始，因为模型在训练的早期阶段经历了大量的变化;以及（ii）稀疏度的增加应该是渐进的，以限制权重更新和权重归零之间的干扰。两种策略共存，逐步增加稀疏率。第一个建议解耦训练迭代和权重归零，以提高训练一致性，从而提高收敛质量。因此，它建立在多个培训周期的基础上，因此本质上更加复杂。在每个完整训练周期结束时，它通过非零权重的恒定分数增加零权重的数量。学习率-以及可选的权重值-被倒回（首字母缩略词LRR用于表示该倒回过程），即，在训练恢复之前，将其重置为前值。这样做，可以获得SoA精度，但训练成本随着稀疏率[6，32]的增加而增加。当采用与LRR相同的训练后稀疏性增加，从而迭代多个训练周期时，我们的方法优于原始LRR方法，并定义了一种新的准确性/稀疏性SoA。第二种策略主要针对低计算负载，因此沿着单个训练周期增加稀疏率。GMP [43]提出了在训练过程中稀疏率的立方增长，并已被ProbMask [42]和GraNet [25]采用。这种增加在一定数量的时期之后开始，并且在损失之前完成，因此梯度变得太小。在单个训练周期中运行的方法中，ProbMask[42]和GraNet[25]达到最高精度。如上所述，[42]将与修剪掩码定义相关的离散优化问题转换为连续概率空间上的约束预期损失最小化问题，该问题使用Gumbel-Softmax技巧解决怎么-在每次训练迭代中多次计算梯度，我们的实验表明[42]中的准确性落后于我们的方法。GraNet[25]和其他类似的方法，如[3，26]，每几千次迭代更新修剪掩码，通过在修剪其他连接时再生连接。这种可塑性可以被视为权重再生的离散近似，当在我们推荐的直通估计器固有的梯度累积之上3. 我们的方法本节介绍ST-3作为稀疏训练的新基线它提供了一个相关的基线候选，因为它很容易实现（参见补充文件），与常规密集训练相比开销很小，并且在默认密集训练参数下表现良好ST-3算法采用权值软阈值法，阈值随训练过程增长，在前向路径上逐步增加稀疏率。为了保持归零权重再次变得重要的机会，类似于量化网络训练所做的事情，它考虑了直通梯度估计器来更新反向路径中保持的每个权重的非阈值版本。通过调整前向路径中的权重来补偿软阈值处理固有的幅度损失，从而提高了训练稳定性。尽管ST-3建立在一组现有的或直接的解决方案（稀疏率的渐进增加与幅度损失补偿，直通估计器，和软阈值），它是新颖的，在这个意义上，没有艰苦的工作结合了所有的ST-3成分在稀疏的训练环境。我们的实验研究表明，包括所有元素的重要性，以保持ST-3 per-tinent。它们都有助于稳定和一致的训练，旨在最大限度地减少权重归零对梯度下降更新的影响。为了控制稀疏率，我们的方法将低于某个自适应阈值的权重设置为零如前所述，稀疏训练中的一个主要要求是，在训练过程中的某个时刻归零的权重（因此，我们的方法保持了一个密集的和不断更新的版本的权重，并行于他们的稀疏阈值版本，被认为是在前向路径，但也反向传播的梯度。在[1，39]之后，考虑直通估计器以将相对于密集权重的梯度定义为相对于阈值算子的输出（即相对于稀疏权重）的梯度的副本。这种区别的原始（更新）3811SteST-3（我们的）WNin∈纪纪Σ∥阈值，然后因子乘以软阈值与第j个输出相关联的0.8矢量定义如下：0.691.41 96.48 98.56 99.41稀疏性N/l纪比例尺l=i图1.稀疏ResNet-20在Cifar-10上的准确性。让-如[36]中已经指出的，具有硬阈值的传统直通估计（STE）在99%稀疏度处失败。取代硬-如果你不知道，我0否则通过软阈值降低梯度失配并缓解问题（91.2%橙色虚线的密集精度）图2. 硬阈值处理（左）引起前向权重更新与在后向路径中接收的梯度之间的差异。软阈值（右）不受这种不一致性的影响，因为它保留了最新和梯度值之间的平滑关系。这可以防止训练过程中出现明显的权重并且阈值化（用于前向和后向路径）权重在量化神经网络的训练中是标准的[14，28]，但在修剪社区中并不常见。轻轻地握着。大多数持续修剪文献利用硬阈值来提高修剪率[9，4，3]。然而，在稀疏训练中，由于在训练期间的某个点处归零的权重（因为它们低于阈值）可能在随后的训练迭代中再次变得这可能导致前向路径中的突然变化，这可能与后向路径中接收到的梯度不一致。图2描绘了修剪阈值与梯度幅度相比较大的情况。在这种情况下，硬阈值处理在前向权重更新中引起严重的不连续性，而软阈值处理保留了该前向权重的平滑和一致的演变图1所示的结果证实了软阈值处理可以实现更稳定的训练，以及更好的训练模型准确性重缩放。对同一输出神经元有贡献的权重被称为同一滤波器的一部分。为了在权重归零的情况下保持神经元的平均绝对幅度，我们建议基于由归零权重引入的损失权重-幅度的比率来按滤波器方式重新缩放形式上，令Wl RNout×Nin表示第l层的稠密权重矩阵（在软阈值处理之前），th表示稀疏性。这与dropout [35]使用的重新缩放类似。稀疏性的增加和分层分配。为了缓解阈值处理引起的不稳定性，并让网络有时间适应前向路径中某些权重的停用，我们在训练过程中逐渐增加稀疏率。为了控制全局稀疏性的增加，采用了[43]中引入的立方体模式。我们的方法的两个变种已经在我们的实验中研究，把全球稀疏率到一个层- erwise稀疏。第一种变体，表示为ST-3，默认采用。它只考虑全局网络权重。因此，没有特别注意层间稀疏性的平衡。它具有简单的优点，我们的实验表明，它导致更好的准确性/稀疏性权衡ERK或LAMP。第二种变体，表示为ST-3σ，设计用于使训练偏向于增加FLOPS增益。这是因为为了节省FLOPS，最好在特征图较大的层中修剪权重，因为大图需要更多的操作。然而，大的特征图通常操纵小的内核（即，由于在普通架构中采用了少量的高分辨率通道），当采用流行的KaimingHe初始化[11]时，其初始化导致大的权重幅度。因此，如实验[3]所示，在全局阈值化之后，具有较大权重的那些内核最终比与较宽层的较小分辨率通道相关联的内核相对较不稀疏。在以前的工作中[6，4，32，20]通常忽略了这一方面，其中仅考虑模型压缩，忽略了受归零权重影响的操作数量。因此，大多数作品[17，42]将推理加速视为副产品，同时仍然仅针对指定的稀疏率进行优化。为了有利于在操纵（少数）高分辨率通道的层中对权重进行归零，并提高与稀疏性相关的计算增益，我们建议在软阈值处理之前，将每个权重乘以其相应内核中这可以被解释为通过单个内核中的标准差来归一化权重，因为已知遵循Kaiming He初始化分布的权重的方差与内核的大小成反比[11]。精度3812图3. （最佳彩色视图）（上）在Cifar 10 w/ ResNet-20上获得的准确度/稀疏度曲线，（下）在Cifar 10 w/ VGG-11和Cifar 100 w/WideResNet-34 x2上获得的准确度/稀疏度曲线。从w/ LRR开始的方法是递归训练的，即曲线上的每个点需要首先计算其左侧的每个点。所有点代表3次运行的平均值（所有方法共有不同的种子X轴以对数标度描绘。4. 实验4.1. 用作基准的我们的方法相比，以前的一组方法是代表的SoA和该领域的最新趋势。我们现在介绍这些方法，并解释它们是如何配置的，以提供公平的比较，并帮助量化我们提出的ST-3带来的实际好处。作为在准确性/稀疏性权衡方面公认的SoA上界，考虑了学习率回退（LRR）递归修剪方法[32]。然而，这种方法有一个明显的缺点，那就是比本文中考虑的其他方法需要通常需要10个连续的训练周期才能达到90%的稀疏度，这实际上无法扩展到更大的数据集。在我们的实验中，LRR也与我们的ST-3结合如下：在ST-3中采用的稀疏率的立方增加被由训练周期之间的LRR实现的稀疏率的增加所取代，学习率倒带。这种混合方法表示为LRR+ST-3。它的训练成本与LRR一样高，但到目前为止导致了最佳的准确性/稀疏性权衡，这证实了直通估计与具有幅度损失补偿的软阈值相结合的好处在采用单个训练周期的方法中，第2节中介绍的GMP [43]、STR [17]和ProbMask [42]方法可能与以下方法最相关：GMP和STR，因为它们分别是概念上简单的基于阈值的修剪和稀疏化方法; ProbMask，因为它对应于一个训练周期方法中的当前SoA（即使它的训练时间是ST-3训练时间的两倍，这是由于Gumbel-Softmax技巧在每个训练步骤中要求的梯度累积）。对于GMP和STR方法，稀疏比的增加遵循与我们的方法所采用的相同的三次多项式函数3），并采用全局阈值，以达到所需的稀疏比，3813ST-33.对于ProbMask，稀疏性增加比率和批量大小与原始论文中相同，因为更改它们会导致准确性显着下降。为了完整起见，还提供了与DNW[38]、 RIGL[3]和GraNet[25]的比较（有关这些方法的介绍，请参见第2节），这些方法由各自的作者推荐实施。4.2. Cifar10和Cifar100第4.1节中介绍的方法已在Cifar-10和Cifar-100上运行[16]。考虑三种不同的网络：ResNet-20 [10]，VGG-11 [34]）（由[27]简化）和WideResNet-34 x2 [40]。类似于相关论文中所做的，一个训练周期由160个时期组成，并且在单个训练周期场景中，稀疏率沿着训练周期的渐进增加在第5个时期开始并且在第80个时期结束。一个训练周期。在图3中，我们的ST-3在使用单个训练周期训练的方法中实现了最佳的准确性/稀疏性权衡，包括与ProbMask[42]4和GraNet[25]相比。STR [17]中采用的软阈值机制使得一些权重可以在非活动状态和活动状态之间移动，与GMP [43]相比，这导致性能显著提高。然而，STR与ST-3相比有所不足。这是因为STR不以任何方式考虑梯度信息，除了存储在优化器中的类似动量的项ST-3通过允许由直通估计器传达的梯度信息的累积来解决这个问题。多个训练周期。LRR所施加的多个训练周期所固有的计算成本使其不切实际。然而，当考虑稀疏网络的训练时，LRR仍然是一个事实上的上限毫无疑问，我们在图3中观察到LRR的性能优于ST-3。更有趣的是，LRR+ST-3 方法甚至更好，定义了一个新的 SoA。LRR+ST-3优于LRR提供了一个额外的线索，即使用直通估计器连续平滑地更新原始（非阈值）版本的zeroed权重，从而在训练稀疏网络时显著提高性能。ST-3和LRR之间的更深入比较表明，ST-3在3均匀化方法配置不会显著影响方法性能（正如我们在第二节中在ImageNet上的结果所证明的那样4.3）Cifar10比Cifar100。我们将这一现象归因于这样一个事实，即与LRR实现的较长训练相关的增加的数据增强对于Cifar 100（每个类只有500个训练图像）比Cifar 10（每个类5000个训练图像）更有利。为了挑战这一假设，我们在ResNet-20上以67.23%的稀疏度阈值训练ST-3，时间是参考周期的4倍。这种更长的训练导致92.38%的测试准确度，这比LRR获得的92.22%更好，其中6倍于参考训练周期的时期数量图3（右上）中还在ResNet-20上探索了数据增强在较长时间训练观察到的性能改善中的作用。LRR如前所述应用，但增强种子在每个训练周期之间重置，确保LRR操作与单周期方法相同的增强样本有了这个额外的约束，我们观察到LRR性能下降到我们的ST-3之一。4.3. ImageNetResNet-50[10]和MobileNetv 1[13]已经在ImageNet[2]上进行了训练，使用相同的标准超参数，epochs数量（=100）和数据增强作为相关工作[3，17，42，25]，导致77.1%的密集为了训练稀疏模型，由于LRR迭代需要过多的训练时间，因此只考虑了稀疏性在第5和第50个时期之间逐渐增加。与ImageNet上ResNet- 50相关作品对应的曲线值直接从各自的论文中复制5。准确性/稀疏性在图4中，ST-3达到了最佳的准确性/稀疏性权衡。最接近的竞争者是GraNet和ProbMask提供的最新结果，但仍然存在一致的差距，在95%的稀疏性下扩大到5%我们的方法在优化稀疏性时毫不含糊地领先。有趣的是，我们的方法的两个变体（即ST-3和ST-3σ）之间的差距是适度的，并且在所有稀疏比中或多或少保持恒定。ST-3优于ST-3 σ，这证实了之前的观察结果，即修剪较早的层比将较晚的层归零对准确性的影响（略微）更大[3]。精度/FLOPSFLOPS是一个广泛的度量，以作为sess计算增益对应于一个理想的sce- nario，其中每一个与零的乘法可以避免。4请注意，与发布的代码中实现的内容相比，在原始论文中，我们的结果是通过在训练集而不是测试集上调整网络的批量归一化移动均值和移动方差来生成的根据测试集进行调整确实提出了一个方法问题。这种差异解释了我们的图与[42]中的图之间的细微差异。5特别地，这意味着ProbMask准确度是在[42]中获得的准确度，即当使用测试样本来定义批量归一化参数时。因此，它们对应于当仅用训练样本定义批量归一化参数时将获得的结果的上限。3814图4.ImageNet w/ResNet-50（上）和MobileNetv 1（下）上的准确度作为全局稀疏度（左）和FLOPS（右）的函数所有图表的x轴均使用对数标尺。在实践中，推理加速被测量为FLOPS减少因子。如图4所示，我们的ST-3σ方法是一种ST-3变体，旨在使各层之间的稀疏度分布偏向于具有更高分辨率的层，显著改善了稀疏度/加速比权衡，使我们的方法在这方面也具有竞争力。4.4. 消融研究图5评估了我们的方法的三个组成部分的重要性，即直通估计（STE），软阈值，和平均幅度损失补偿的权重重新缩放。直通估计和软阈值似乎是我们的方法的成功的主要贡献者。重新缩放因子在某些方面有所帮助，但仅当使用软阈值时。当与纯STE一起使用时，即与硬阈值一起使用时，它往往会放大权重演变中的尖锐不连续性的数量，从而导致严重的惩罚。活动/非活动状态之间的权重切换图6研究了ST-3中的软阈值权重图5.一项研究剖析了稀疏训练过程中直通估计、软阈值和权重重新调整的影响x轴使用对数标尺在训练期间在零值和非零值之间切换。它提出了如何分配的开关计数每重量的四个序列的时期，通过分区的总人数的时期在40个时期的组。为清楚起见，将忽略3815图6.（最佳颜色显示在Cifar-10上以90%稀疏度训练ST-3 160 epoch的ResNet-20的权重在活动和非活动状态之间切换的次数全局稀疏比是固定的（左）或递增的（右）。（不包括切换一次或从不切换的权重）在情节中当绘制这些分布时，使用颜色代码来区分活跃的权重（即，非零）。在左侧，稀疏率从训练开始时就设置为最终值我们观察到，逐步增加稀疏比从根本上改变了权重切换模式。逐步增加稳定的培训，证明了减少量的状态之间的切换，特别是在第二组的时代。它还使状态切换模式更接近于在密集训练中观察到的典型符号切换模式（在训练结束时保持显著的权重的符号在第一个时期中更频繁地改变）。因此，期望稀疏性的逐渐增加，因为它补充了由直通估计和软阈值提供的稳定性。5. 结论在本文中，我们的直接和计算简单的方法，ST-3（σ）的相关性，已被广泛证明。它在训练非常稀疏的网络方面的效率已经在cifar-10（0）和ImageNet上进行了评估，具有各种架构，达到了单周期SoA精度。事实上，我们的简单和相对简单的方法实现了最高的精度与可比的复杂性的方法表明，有效的稀疏化的关键并不存在于一个复杂的配方的优化问题，而是在能力，使权重的自由发展跨越零状态，同时逐步增加稀疏比。引用[1] YoshuaBengio、NicholasLe'onard和AaronC. 考维尔通过用于条件计算的随机神经元估计或传播梯度。CoRR，abs/1308.3432，2013。[2] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[3] 乌特库·埃夫奇，特雷弗·盖尔，雅各布·梅尼克，巴勃罗·塞缪尔·卡斯特罗，埃里希·埃尔森.操纵彩票：让所有的门票赢家。第37届机器学习国际会议，ICML2020，PartF 16814：2923[4] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假设：寻找稀疏的、可训练的神经网络。第七届国际学习表征会议，ICLR 2019，第1-42页[5] Jonathan Frankle ， Ginner Karolina Dziugaite ， DanielRoy和Michael Carbin。在初始化时修剪神经网络：为什么我们错过了目标？ICLR，2021年。[6] Jonathan Frankle，David J Schwab，and Ari S Morcos.神经网络训练的早期阶段。在国际学习代表会议上，第1[7] 特雷弗·盖尔埃里克·埃尔森和莎拉·胡克深度神经网络中的稀疏状态。CoRR，abs/1902.09574，2019。[8] Scott Gray，Alec Radford，and Diederik P Kingma.块稀疏权重的GPU内核。OpenAI[9] Song Han、Jeff Pool、John Tran和William J.Dally 学习权值和连接，以实现高效的神经网络。神经信息处理系统的进展，2015-Janua：1135[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。37（50）：1951[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类水平的性能3816imagenet的分类。CoRR，abs/1502.01852，2015。[12] 杨鹤、刘平、王紫薇、胡芷兰、易阳。通过几何中值进行滤波器修剪，用于深度卷积神经网络加速。Proceedings of the IEEE Computer Society Conference onComputer Vision and Pattern Recognition，2019-June：4335[13] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[14] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。量化神经网络：用低精度权重和激活训练神经网络。2016年。[15] Nal Kalchbrenner，Erich Elsen，Karen Simonyan，SebNoury ， Norman Casagrande ， Edward Lockhart ，FlorianStimber，Aa？ronVanDenOord，SanderDieleman，andKo- ray Kavukcuoglu.高效的神经音频合成。第35届国际机器学习会议，ICML 2018，6：3775[16] 亚历克斯·克里热夫斯基（CIFAR10）从微小图像中学习多层特征。大学科学系多伦多理工大学，第1[17] Aditya Kusupati、Vivek Ramanujan、Raghav Somani、Mitchell Wortsman 、 Prateek Jain 、 Sham Kakade 和 AliFarhadi。可学习稀疏性的软阈值权重重新参数化。第5544-5555页[18] 纪尧姆·勒克莱尔和亚历山大·马德里。深度网络训练的两种方法2020年。[19] Yann LeCun，John S Denker，and Sara A.索拉最佳脑损伤（修剪）。神经信息处理系统进展，第598-605页[20] 李在浩，朴世俊，莫相宇，安成秀，申振宇.层稀疏性用于基于幅度的修剪。CoRR，abs/2010.07611，2020。[21] Namhoon Lee，Thalaiyasingam Ajanthan，and Philip H.S.乇SnIP：基于连接敏感性的单次网络修剪。第七届国际学习表征会议，2019。[22] 李百林，吴博文，苏江，王广润。Ea- gleEye：FastSub-net Evaluation for Efficient Neural Net-work Pruning.计算机科学讲义（包括人工智能和生物信息学讲义的子系列讲义，12347 LNCS：639[23] Fengfu Li ， Bo Zhang ， and Bin Liu. 三重网络。（Nips），2016.[24] Hao Li，Hanan Samet，Asim Kadav，Igor Durdanovic，and Hans Peter Graf.修剪过滤器以实现高效的卷积。第五届国际学习表征会议，ICLR 2017-会议跟踪记录，（2016）：1[25] Shiwei Liu ， Tianlong Chen ， Xiaohan Chen ， ZahraAtash- gahi，Lu Yin，Huanyu Kou，Li Shen，MykolaPechenizkiy，Zhangyang Wang，and Decebal ConstantinMocanu.通过神经再生增强修剪可塑性的稀疏训练（NeurIPS），2021年。[26] Shiwei Liu，Lu Yin，Decebal Constantin Mocanu，andMykola Pechenizkiy.我们真的需要密集的过度参数化吗？稀疏训练中的实时过参数化。国际机器学习会议，第6989-7000页。PMLR，2021年。[27] Zhuang Liu，Mingjie Sun，Tinghui Zhou，Gao Huang，and Trevor Darrell.重新思考网络修剪的价值。第七届国际学习表征会议，ICLR 2019，第1-21页[28] NaveenMellempudi 、 AbhisekKundu 、 DheevatsaMudigere 、 Dipankar Das 、 Bharat Kaul 和 PradeepDubey。具有细粒度量化的三值神经网络。2017年。[29] 阿西特湾Mishra，Jorge Albericio Latorre，Jeff Pool，Darko Stosic，Dusan Stosic，Ganesh Venkatesh，ChongYu，and Paulius Micikevicius.加速稀疏深度神经网络。CoRR，abs/2104.08378，2021。[30] 放大图片作者： Peter Stone ， J.Nguyen ， MadeleineGibescu，and Antonio Liotta.受网络科学启发的具有自适应稀疏连接的人工神经网络的可扩展训练。NatureCommunications，9（1）：1[31] Jongsoo Park ， Hai Li ， Sheng Li ， Wei Wen ， YiranChen，Ping Tak Peter Tang，and Pradeep Dubey.具有直接稀疏卷积和指导修剪的更快cnn。第五届学习表征国际会议， ICLR 2017-Conference Track Proceedings ，2017：1[32] 亚历克斯·伦达乔纳森·弗兰克尔迈克尔·卡宾神经网络预处理中回卷和微调的比较。（2019）：1[33] Victor Sanh、Thomas Wolf和Alexander M.急移动修剪：通过微调自适应稀疏性。Advances in NeuralInformationProcessingSystems，2020-Decem（NeurIPS）：1[34] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。CoRR，2014年。[35] Nitish Srivastava，Geoffrey Hinton，Alex Krizhevsky，Ilya Sutskever，and Ruslan Salakhutdinov. Dropout：一种防止神经网络过度拟合的简单方法。 Journal ofMachine Learning Research，15（56）：1929[36] 作者： Hongori Tanaka ， Daniel Kunin ， Daniel L.K.Yamins和Surya Ganguli。通过迭代保存突触流来修剪没有任何数据的神经网络。神经信息处理系统，2020年12月（NeurIPS），2020年。[37] Huan Wang，Can Qin，Yulun Zhang，and Yun Fu.通过增长正则化进行神经修剪。第1-15页[38] 米切尔·沃茨曼，阿里·法哈迪，穆罕默德·拉斯蒂加里。发现神经线路。神经信息处理系统的进展， 32（NeurIPS），2019。[39] 尹鹏航，吕建成，张帅，Stanley J.奥斯-赫，齐英勇，和杰克辛。理解激活量化神经网络训练中的直通估计器.ICLR，2019。[40] Sergey Zagoruyko和Nikos Komodakis广泛的残余网络。CoRR，abs/1605.07146，2016。[41] Hattie Zhou ， Janice Lan ， Rosanne Liu ， and JasonYosinski. 解构彩票：零、符号和超级面具 .（NeurIPS），2019年。3817[42] 小周，张伟忠，徐航，张彤。全局稀疏约束下神经网络的有效稀疏化。IEEE计算机协会计算机视觉和模式识别会议，第3598-3607页[43] Michael H.Zhu和Suyog Gupta。修剪，还是不修剪：探索修剪模型压缩的功效。第六届学习表征国际会议，ICLR 2018 -研讨会跟踪程序，2018。

下载后可阅读完整内容，剩余1页未读，立即下载