深度SNN剪枝中的彩票假设与早期修剪的结合

73 浏览量更新于2023-12-01 收藏 1017KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文在脉冲神经网络Youngeun Kim、Yuhang Li、Hyoungseob Park、YeshwanthVenkatesha、Ruokai Yin和Priyadarshini Panda耶鲁大学关闭CT，USA{youngeun.kim，yuhang.li，hyoungseob.park，yeshwanth.venkatesha，ruokai.yin，priya.panda} @ yale.edu抽象的。尖峰神经网络（SNN）最近出现了新一代低功耗深度神经网络，适合在低功耗移动/边缘设备上实现。由于这种设备具有有限的存储器存储，近年来已经广泛探索了SNN上的神经修剪现有的SNN剪枝工作大多集中在浅层SNN（2 ~ 6层），而最新的SNN剪枝工作提出了更深层的SNN（≥16层），这与现有的SNN剪枝工作很难兼容为了将修剪技术扩展到深度SNN，我们研究了彩票假设（LTH），该假设指出密集网络包含较小的子网络（即。例如，赢得门票），实现与密集网络相当的性能我们对LTH的研究表明，获奖门票始终存在于各种数据集和架构的深度SNN中，提供高达97%的稀疏性，而不会造成巨大的性能下降。然而，当与SNN的多时间步长相结合时，LTH的迭代搜索过程带来了巨大的训练计算成本为了减轻这种沉重的搜索成本，我们提出了早期（ET）票，我们发现重要的权重连接从一个较小的时间步数。所提出的ET票可以与用于找到获胜票的常见修剪技术（诸如迭代幅度修剪（IMP）和早鸟（EB）票）无缝地组合。我们的实验结果表明，建议的ET票减少了高达38%的搜索时间相比，IMP或EB方法。代码可以在Github上找到。关键词：脉冲神经网络，神经网络修剪，彩票假设，神经形态计算1介绍尖峰神经网络（SNN）[63，11，74，75，37，20，76，34]作为人工神经网络（ANN）的有前途的低功耗替代方案，已经获得了显著的关注。受生物神经元的启发，SNN通过多个时间步长的离散尖峰这种事件驱动的行为arXiv：2207.01382v2 [cs.AI] 2022年7+v：mala2255获取更多论文延迟回退（IMP）IMP+EarlyTime（ET）EarlyBird（EB）EB+EarlyTimeTransfer-Ticket（TT）随机SNIP稀疏度=95.69%0.20.10.0搜索时间（小时）∼2Y. 金，Y。Li，H.帕克河耶什万特河Yin，P.熊猫.90488524800 20406080 100稀疏度（%）0IMP IMP+ET TT EB EB+ET修剪方法(a) 准确度（b）搜寻时间Fig. 1. SNN上各种修剪方法的准确性和搜索时间比较，包括迭代幅度修剪（IMP）[21]，早期（EB）票[80]，早期（ET）票（我们的），从ANN（TT）转移的中奖票，随机修剪和SNIP [41]。我们在CIFAR 10数据集上使用VGG16，并显示了5次随机运行的平均值/标准差。SNN带来了巨大的能量效率，因此它们适合在以异步方式计算尖峰的低功耗神经形态芯片上实现[1，13，23，57]。然而，由于此类设备具有有限的存储器存储，神经修剪可以通过减少权重参数的存储器使用而成为必要的技术之一，从而促进实际部署。相应地，研究者们在SNN的剪枝技术上也取得了一定的进展. Neftci等人[55] Rathiet al. [60]使用预定义阈值来修剪SNN的权重连接。Guo等[25]提出了一种无监督的在线自适应权重修剪算法，该算法随时间动态地移除非关键权重。此外，Shiet al. [65]提出了一种软修剪方法，其中权重连接和修剪掩码都是在训练。最近，Denget al. [14]采用稀疏正则化ADMM优化工具来压缩SNN。Chen等人[9]提出了一种基于梯度的重新布线方法进行修剪，其中权值和连接被联合优化。然而，尽管现有的SNN修剪工作显着提高了权重稀疏性，但它们专注于浅层架构，如2层MLP[55，60，25]或6 - 7卷积层[14，9]。这种修剪技术难以扩展到最近最先进的深度SNN架构，其中参数和网络深度的数量按比例增加[43，44，20，61，83]。在本文中，我们基于最近提出的彩票假说（LTH）[21]探索稀疏深度SNN。他们断言，过度参数化的神经网络包含稀疏的子网络，这些子网络实现了与原始密集网络相似甚至更好的精度。所发现的子网络及其对应的初始化参数被称为中奖票。基于LTH，一系列工作成功地表明了在各种任务中存在中奖票，例如标准识别任务[80，22，24]，再学习[69，81]，自然语言处理[4，7，53]和生成模型[31]。同样，我们的主要研究目标是投资-在深度SNN中门存在中奖彩票，它具有与普通ANN不同类型的神经元动力学。准确度（%）+v：mala2255获取更多论文≥≤≥SNN的彩票假说此外，在SNN上应用LTH提出了实际挑战。一般来说，找到中奖彩票需要迭代幅度修剪（IMP），其中网络通过重复的初始化-训练-修剪操作变得稀疏[21]。这种迭代训练过程对于SNN来说要慢得多，其中多个前馈步骤（即，例如，时间步长）。为了使SNN的LTH更实用，我们探索了几种降低搜索成本的技术。我们首先研究了Early-Bird（EB）ticket现象[80]，该现象表明可以在早期训练阶段发现子网络。我们发现SNN包含跨各种架构和数据集的EB票据。此外，SNN通过多个时间步传递信息，这为计算成本的降低提供了新的维度。针对这种时间特性，我们提出了早期（ET）门票现象：中奖门票可以从较少数量的时间步训练的网络中抽取。因此，在搜索过程中，SNN使用更少的时间步长，这可以显著降低搜索成本。由于ET票是一种临时制作的方法，我们提出的ET票可以与IMP [21]和EB票[80]结合使用此外，我们还探讨了人工神经网络的获奖票是否可以转移到SNN，因为人工神经网络的搜索成本比SNN便宜得多最后，我们研究了SNN的初始化剪枝方法，即。例如，SNIP [41]，它在初始化时从后向梯度中找到中奖在图1中，我们比较了上述修剪方法的准确性和搜索时间。总之，我们通过对两个代表性的深度架构进行广泛的实验来探索SNN的LTH。例如，VGG 16 [67]和ResNet 19 [28]，四个公共数据集，包括 SVHN [56] ， Fashion-MNIST [77] ， CIFAR 10 [36] 和 CIFAR 100[36]。我们的主要意见如下：– 我们确认彩票假说对SNN是有效的。– 我们发现IMP [21]发现了稀疏度高达97%的中奖彩票。然而，IMP需要超过50个小时的GPU才能找到稀疏（95%）SNN。– EB ticket [80]在GPU上在1小时内发现稀疏SNN，与IMP相比，这大大降低了搜索成本不幸的是，它们无法检测到超过90%稀疏的中奖彩票。– 将ET票证应用于IMP和EB可显著缩短搜索时间高达41%，同时在稀疏度小于95%时显示1%的准确度下降– 从人工神经网络获得的中奖票可以在小于90%的稀疏度下转让。然而，在高稀疏水平下，会产生巨大的精度下降（95%），特别是对于复杂的数据集，如CIFAR100。– 由于尖峰神经元的不可微性，初始化时的修剪方法[41]无法发现SNN中的中奖彩票2相关工作2.1尖峰神经网络尖峰神经网络（SNN）以低功耗方式通过网络传输二进制和异步信息[63，11，12，52，64，43，68，78]。主要+v：mala2255获取更多论文4岁。金，Y。Li，H.帕克河耶什万特河Yin，P.熊猫.SNN与标准ANN的区别在于使用Leak-Integrate-and-Fire（LIF）神经元[30]作为非线性激活。LIF神经元在膜电位中积累传入尖峰，并且当神经元具有比激发阈值更高的膜电位时生成输出尖峰。这样的积分和发射被证明带来了不可微的输入输出传递函数，其中标准的反向传播难以应用[54]。最近的SNN工作通过在计算后向梯度时定义LIF神经元的代理函数来规避不可微的反向传播问题[40，39，54，66，74，72，45，32，73]。我们的工作也是基于一个梯度反向传播方法与代理函数（细节提供补充A）。梯度反向传播方法使SNN具有更深的架构。例如，将批量归一化（BN）[29]添加到SNN [38，33，83]中可以提高VGG16和ResNet19等更深层次架构的准确性。此外，Fanget al. [20]重新审视SNN的深层剩余连接，显示通过添加更多层可以实现更高的性能。尽管最近最先进的SNN架构更深入[83，20，15]，尚未探索此类网络的修剪。我们认为，在深度SNN中显示中奖票的存在为资源受限的神经形态芯片和边缘设备带来了实际优势。2.2彩票假说近几十年来，修剪一直在积极探索，它压缩了深度神经网络的巨大模型大小，同时保持了其原始性能[27，26，71，47，42]。按照同样的思路，Frankle Carbin [21]提出了Lot- tery Ticket Hypothesis（LTH），该假设指出，过度参数化的神经网络包含稀疏子网络，其精度与原始密集网络相似甚至更好。他们通过迭代幅度修剪（IMP）搜索中奖彩票。尽管IMP方法[84，2，18，5，46]与现有修剪方法相比提供了更高的性能，但这种迭代训练-修剪-再训练操作需要巨大的训练成本。为了解决这个问题，工作线[50，51，16，7]发现了来自源数据集的可转移中奖彩票的存在，并成功地将其转移到目标数据集，从而消除了搜索成本。此外，Youetal. [80]引入早鸟票假设，其中他们推测可以在早期训练阶段获得中奖票，从而降低训练直到收敛的成本最近，Zhanget al.[82]通过精心选择的训练数据子集（称为修剪感知关键集）发现中奖彩票。为了完全消除训练成本，一些作品[41，70]提出了从初始化网络中搜索算法，该算法在没有训练的情况下找到中奖彩票。不幸的是，这些技术没有显示出与原始IMP方法相当的性能，因此主流LTH利用IMP作为修剪方案[24，82，51]。基于IMP技术，研究人员发现LTH存在于各种应用中，包括视觉识别任务[24]，自然语言处理[4，7，53]，强化学习[69，81]，生成模型[31]，低成本神经网络集成[46]和提高鲁棒性[8]。虽然LTH在人工神经网络领域已经得到了积极的探索值得一提的是，Martinelliet+v：mala2255获取更多论文N期早期修剪Re+ing火车时期2时期1训练N早期时期+T时间步长⊙联系我们∈SNN的彩票假说第三时期2时期1第四修剪重新初始第N训练Nepoch +T timestep训练Nearlyepoch +Tearly timestep（a）迭代幅度修剪（b）早鸟票（c）早时间票图二、迭代幅度修剪（IMP）、早鸟（EB）票以及应用于EB票的建议的早时间（ET）票的概念的图示。我们的ET票通过在搜索过程中使用更少的时间步长来降低中奖票的搜索成本注意，ET可以应用于IMP和EB，这里我们只用EB来说明ET。al. [49]在语音活动检测任务上将LTH应用于两层SNN与以前的工作不同，我们的工作显示了在更深层次的网络（如VGG16和ResNet19）中中奖彩票的存在我们还探讨了Early-Bird ticket [80]，SNIP [41]，ANN中中奖彩票的可转移性，并提出了时间维度上中奖彩票的新概念。3从SNN抽取获胜门票在本节中，我们将详细介绍基于LTH的剪枝方法，并在实验中进行了探索。我们首先介绍LTH [21]和Early-Bird（EB）Ticket [80]。然后，我们提出了早期（ET）门票，我们减少搜索成本的时间维度的SNN。我们在图中说明了每种方法的整体搜索二、3.1彩票假说在LTH [21]中，通过迭代幅度修剪（IMP）发现中奖彩票。LTH的整个剪枝过程要经过K次迭代，目标剪枝率为pK%.考虑一个随机初始化的稠密网络f（x; θ），其中θRn是网络参数的权重。对于第一次迭代，ini-训练初始化网络f（x; θ）直到收敛，然后通过去除p %最低绝对值权重参数生成掩码m10，1 n。给定一个剪枝掩码m1，我们可以通过删除一些连接来定义子网络f（x; θ<$m1）。对于下一次迭代，我们用θ m1重新初始化网络，并在网络训练收敛时修剪p%权重。该修剪过程重复K次迭代。在我们的实验中，我们将p和K设为分别为25%和15此外，Frankleet al. [22]提出了Late Rewinding，它将网络倒回到epoch i的权重，而不是初始化。这使得IMP能够在高性能的情况下以较少的性能下降发现中奖票据。修剪Re+ing火车N期早期第三时期2时期1…+v：mala2255获取更多论文≥6岁。金，Y。Li，H.帕克河耶什万特河Yin，P.熊猫.通过提供更稳定的起始点来实现稀疏性机制。我们发现，在深度SNN中，后期回放显示出比原始IMP更好的性能（参见补充B）。在我们的论文中，我们将LateRewinding应用于IMP进行实验，将网络倒回到epoch 20。3.2早鸟票使用IMP查找彩票会产生巨大的计算成本。为了解决这个问题，你等。[80]提出了一种有效的修剪方法，称为Early-bird（EB）tickets，其中它们显示可以在早期训练时期发现中奖彩票。具体地，在搜索迭代k处，它们获得掩模m，k并且测量当前掩模m，k与时间窗口q，i内的先前掩模之间的掩模差。例如， mk-1，mk-2，.， mk−q。如果最大差异小于hyperparamterτ，则它们停止训练并使用mk作为EB票。由于在SNN中搜索中奖票需要比ANN更长的时间，我们探索了SNN中EB票的存在。在我们的实验中，我们将q和τ设置为5和0。02、分别虽然原来的EB票使用通道修剪，我们使用非结构化的权重修剪找到EB票，以达到类似的稀疏水平与其他修剪方法在我们的实验中使用。3.3早期门票尽管EB彩票大大减少了搜索中奖彩票的时间。对于SNN，一个图像通过多个时间步传递到网络，这为降低计算成本提供了一个新的维度。我们问：我们能从用较短时间步长T ′ T训练的SNN中找到用时间步长T训练的SNN<的重要权重连通性吗？初步实验。为了回答这个问题，我们在两个数据集（CIFAR10和CIFAR100）上对两个代表性的深度架构（VGG16和ResNet19）进行了实验。我们的实验方案如图3.3（左图）所示。我们首先用时间步长T训练网络，直到收敛。之后，我们修剪p%的低量级权重并重新初始化网络。最后，我们以更长的时间步长Tpost> Tpre重新训练修剪后的网络，并测量测试精度。因此，该实验显示了SNN的性能，其中从较低的时间步长获得结构。在我们的实验中，我们设置T pre={2，3，4，5}和T post=5。令人惊讶的是，与未修剪的基线相比，从Tpre3建立的连接可以带来类似甚至更好的准确性，如图3.3所示。请注意，在初步实验中，我们使用基于权重大小的常见训练后修剪[27]。因此，我们可以将早期中奖彩票的存在推断为更复杂的修剪方法，如IMP[21]，它通常比训练后修剪表现出更好的性能。我们称这种中奖票为Early-Time tickets;用训练好的网络从较少的时间步T提前抽取的中奖票，它显示出与原始时间步T的中奖票匹配的性能。+v：mala2255获取更多论文t = 5关于T_pos基线p = 75%p = 90%没有修剪p = 50%KLD （ T2 ，T5）KLD（T3，T5）KLD （ T4 ，T5）{−}Σ不||联系我们SNN的彩票假说实验方案CIFAR10/VGG1693908784CIFAR10/Res1993929170CIFAR100/VGG1668666472CIFAR100/Res197170692 3 4 5902 3 45T_preT_pre2 3 4 568 2 3 4 5T_pre T_pre图三. 早期门票的初步实验。我们在CIFAR10/CIFAR100上对VGG 16/ResNet 19进行了实验。我们报告再训练精度（T后= 5）相对于搜索SNN中的重要连接的时间步长（T前）。1.00.80.60.40.2CIFAR10/VGG161.00.80.60.40.2CIFAR10/Res191.00.80.60.40.2CIFAR100/VGG161.00.80.60.40.2CIFAR100/Res190.0060120180 240 300时代060120 180240 300时代060120 180 240 300时代060120 180 240 300时代图四、Kullback-Leibler（KL）在不同时间步的类预测分布之间的发散。该网络使用原始时间步长T= 5进行训练。我们从不同的时间步测量预测类概率之间的KL分歧。我们使用训练集来计算KL散度。建议的方法。那么，如何实际选择一个时间步长寻找早期门票？其主要思想是测量原始时间步T和较少数量的时间步之间的类预测之间的相似性，并选择显示与目标时间步相似的表示的最小时间步。具体来说，让PT是通过在T个时间步上累积输出值得到的最后一层网络的类概率[39]。在这种情况下，我们的搜索空间可以是S=2，3，...，T1。注意，时间步长1不被考虑，因为它不能使用LIF神经元的时间行为。为了测量类预测P T和P T′之间的统计距离，我们使用Kullback-Leibler（KL）散度：DKL （PT′||PT）=PTXPT′（x）′（x）ln P（x）.（一）当时间步T′越接近原始时间步T，i时，KL散度值越小。例如， D KL（PT−1||P T）≤ D KL（P T−2||P T）≤... ≤D KL（P2||P T）。注意，对于任何t1，..，T，我们通过从1到t时间步累积输出层的激活来计算P t。因此，由于累积，如果时间步长t和t ′之间的时间步长差变得更小，则KL发散DKL（Pt′||P（t）变得更低。然后，我们将所有KL散度值除以D KL（P2PT），将它们重新缩放为[0，1].在图3.3中，我们说明了VGG 16和ResNet 19在CIFAR 10和CIFAR 100上的归一化KL散度，T前修剪重新初始化T柱再培训标准化KLdiv再培训准确率（%）标准化KLdiv标准化KLdiv标准化KLdiv+v：mala2255获取更多论文||←吉隆坡 tT8岁。金，Y。Li，H.帕克河耶什万特河Yin，P.熊猫.算法1早期（ET）票证输入：训练数据D;加权时间间隔搜索方法F（·）- IMP或EB时间间隔输出：修剪SNN修剪1：训练SNN，具有N个时期以获得稳定性2：Memory= []3：对于t←2到T做4：Pt←SNN（t，D）从每个时间步存储类预测5：Memory.append（Pt）6：结束第七章：[DKL（PT−1||PT），.，DKL（P 2 ||[PT）] ←MemoryComputingKL div. 8：对于t←2到T−1，9：D（PP）DKL（Pt||PT）DKL（P2||PT）▷ 正常化10：如果DKL（Pt||PT）<λthenλ选择KLdiv时的时间步长。小于λ11：T早=t12：休息13：如果结束14：结束15：W inningT icket ←F（SNN，Tearly）16 ： SNNpruned←F （ W inningTicket，T）17：returnSNNpruned其中我们发现了两个观测结果：（1）T= 2时的KL散度值比其它时间步的KL散度值大如果类概率的差异很大（即，例如，更大的KL发散），权重连接可能在不同的方向上更新。这支持了我们之前的观察结果，即T= 2时建立的重要连接在T= 5时显示出巨大的性能下降（图2）。3.3）。因此，我们在最小化时间步数的同时提前搜索KL散度小于λ的λ是一个超参数，用于在中奖彩票搜索过程的早期确定T（算法1，第15行）。较高的λ导致较小的T早期，反之亦然（我们在图7（b）中可视化T早期相对于不同λ值的变化）。例如，如果我们设置λ = 0。6、时间步3用于寻找早期票。在我们的实验中，我们发现类似的阈值λ值可以应用于各种数据集。(2)归一化的KL散度在训练时期中显示出相当一致的值。因此，我们可以尽早找到合适的时间步长T，以便在训练阶段的一开始就获得早期门票。早票方法可以无缝地应用于IMP和早鸟票方法。算法1说明了早期票据的整个过程.为了相对于随机初始化的稳定性，我们在训练的N=2个历元（第1行）之后很早就开始搜索我们在补充C中显示了KL发散结果在训练时期的变化。我们首先从不同时间步的KL散度中找到T早期（第2-13行）。之后，我们发现中奖彩票使用IMP或EB票与T 早（行14）。最后，用原始的时间步长T训练获胜的票（第15行）。+v：mala2255获取更多论文延迟倒带（IMP）早鸟随机SNN的彩票假说SVHN/VGG16969492FMNIST/VGG16969492CIFAR10/VGG169085CIFAR100/VGG1670656090020406080100稀疏度（%）SVHN/Res1996949290020406080100稀疏度（%）90020406080100稀疏度（%）FMNIST/Res1996949290020406080100稀疏度（%）020406080100稀疏度（%）CIFAR10/Res19959085020406080100稀疏度（%）55020406080100稀疏度（%）CIFAR100/Res19757065605550020406080100稀疏度（%）图五. 相对于稀疏水平的中奖票的准确性。我们报告5次随机运行的平均值和标准差。表1. 建议的早期票证的效果。我们比较了迭代幅度剪枝（IMP），早鸟（EB）票，早时间（ET）票的精度和搜索时间我们显示了应用ET的搜索速度增益和准确性变化。设置方法精度查询中奖彩票时间（小时）p=68.30%p=89.91%p=95.69%p=98.13%p=68.30%p=89.91%p=95.69%p=98.13%Imp92.6692.5492.3891.8114.9729.8640.8451.99IMP + ET92.4992.0991.5491.1011.1922.0030.1138.26CIFAR10转速/加速度增益-0.17-0.45-0.84-0.71×1。34×1。35×1。35×1。35VGG16EB91.7491.0589.5584.641.960.740.110.09EB + ET91.2790.6688.9584.861.440.550.070.06转速/加速度增益-0.47-0.39-0.60+0.22×1。36×1。34×1。18×1。12Imp93.4793.4993.2292.4321.0142.2058.9173.54IMP + ET93.1092.7292.6891.3613.3526.6237.2746.40CIFAR10转速/加速度增益-0.37-0.77-0.54-1.07×1.57×1.59×1.58×1.58Res19EB91.0090.8489.9085.222.490.870.240.08EB + ET90.8391.2189.6585.451.630.581.700.07转速/加速度增益-0.17+0.37-0.50-1.09×1.52×1.49×1.38×1.16Imp69.0868.9068.0066.0215.0229.9941.0352.05IMP + ET68.2767.9966.5164.4111.2422.4230.5338.32CIFAR100 转速/加速度增益-0.81-0.91-1.49-1.61×1.33×1.34×1.34×1.36VGG16EB67.3565.8261.9052.112.270.990.320.06EB + ET67.2664.1861.8152.771.660.730.240.05转速/加速度增益-0.09-1.64-0.09+0.66×1.36×1.35×1.31×1.12Imp71.6471.3870.4567.3521.2142.2959.1773.52IMP + ET71.0670.4569.2365.4913.5627.0537.8846.65CIFAR100 转速/加速度增益-0.58-0.93-1.22-1.86×1.56×1.56×1.56×1.57ResNet19 EB69.4165.8762.1852.923.081.710.430.09EB + ET68.9865.7662.2051.502.001.120.290.07转速/加速度增益-0.43-0.12+0.02-1.42×1.53×1.52×1.45×1.164实验结果4.1实现细节我们在四个公共数据集上全面评估了各种修剪方法：SVHN [56]，Fashion-MNIST [77]，CIFAR 10 [36]和CIFAR 100 [36]。在我们的工作中，我们专注于修剪深度SNN，因此我们评估了两个代表性架构; VGG 16[67]和ResNet 19 [28]。我们的实现基于Py- Torch [59]。我们使用SGD优化器训练网络，动量为0.9，权重衰减为5e-4。我们的图像增强过程和损失函数遵循之前的SNN工作[15]。我们将训练批量设置为128。基础学习准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）+v：mala2255获取更多论文∼≤×∼×∼≤10Y.金，Y。Li，H. Park，V. Yeshwanth，R. Yin，P. 熊猫.对于具有余弦学习速率调度的所有数据集，速率设置为0.3 [48]。在这里，我们将SVHN、F-MNIST、CIFAR 10、CIFAR 100的总历元数分别设置为150、150、300、300。我们将所有实验的默认时间步长T设置为5因此，我们使用λ = 0。6、提前买票。实验在RTX 2080Ti GPU上进行，并使用PyTorch实现。我们使用SpikingJelly [19]包来实现。4.2SNN中的获胜门票IMP和EB票的性能图 5、我们展示了IMP和EB的获奖门票的表现。随机剪枝的性能也提供了参考。IMP和EB都能成功找到中奖彩票，表现出比随机修剪更好的性能。特别是，IMP在所有配置中发现中奖彩票的稀疏性超过97%。此外，我们观察到中奖票稀疏性受到数据集复杂性的影响。EB ticket可以为相对简单的数据集（如SVHN和Fashion-MINST）找到中奖票（稀疏度>95%）。然而，他们仅限于发现在CIFAR10和CIFAR100上具有95%稀疏性的中奖彩票。我们在补充G中进一步提供了ResNet 34-TinyImageNet和AlexNet-CIFAR 10上的实验票的影响在表 1 中，我们报告了在 CIFAR 10 和 CIFAR 100 数据集（SVHN和Fashion-MNIST结果见补充E）上将ET应用于IMP和EB的准确度和搜索速度增益的变化。虽然IMP在所有稀疏级别上都达到了最高的精度，但它们需要26 73小时搜索中奖彩票98. 13%稀疏度通过将ET应用于IMP，搜索速度提高到1。59而没有巨大的准确性下降（当然，存在准确性-计算成本权衡，因为ET中奖彩票不能与IMP中奖彩票完全匹配）。与IMP相比，EB彩票提供了更少的搜索成本来搜索中奖彩票。将ET与EB票相结合可以带来更快的搜索速度，甚至可以在一个小时内找到一张中奖票（在GPU上）。在EB的高稀疏水平（p = 98. 13%），搜索速度增益从ET高达1。16. 此外，在ResNet19上应用ET比VGG16带来更好的速度增益，因为ResNet19需要来自多个时间步操作的更大的计算图（细节在补充D中）。总的来说，结果支持我们的假设，即SNN的重要权重连接可以从较短的时间步发现。修剪技术的观察我们使用后期回放[22]（IMP）在高稀疏度区域获得稳定的性能（参见第3.1节）。为了分析倒回时期的影响，我们改变了倒回时期，并在图6（a）中报告了四个稀疏水平上的精度。我们观察到，在稀疏度为95的情况下，倒计时不会导致巨大的精度变化。百分之六十九然而，高稀疏水平（98. 13%）显示非平凡的准确性下降1 .一、百分之五在时期260，这需要仔细的倒回时期选择。 Frankle等人[22]还表明，对于浅层和深层使用相同的修剪百分比（即，例如，局部修剪）降低了准确性。而不是本地修剪，他们应用不同的修剪百分比为每一层（即。例如，全局修剪）。我们+v：mala2255获取更多论文稀疏度=98.13%稀疏度=95.69%稀疏度=89.91%稀疏度=68.30%红色ove是盘票EBenWHT_early=3T_early=4T_early=5准确度（%）SNN的彩票假说92908886501001502002509290888602040 6080 10010080604020246810 12倒带时期稀疏度（%）层索引(a)(b)（c）第（1）款图第六章迭代幅度修剪（IMP）。（a）相对于倒带时期的(b)全局剪枝和局部剪枝的性能。(c)通过全局修剪实现不同稀疏级别的逐层稀疏。我们在CIFAR10数据集上使用VGG16进行实验。SVHN93120600406080100F-MNISTCIFAR10CIFAR1000.0 0.51.0929102040 6080 100稀疏度（%）阈值稀疏度（%）(a)(b)（c）第（1）款见图7。Early-Bird（EB）票和Early-Time（ET）票的观测结果。(a)当EB票被发现的时候。（b）T早期相对于KL发散阈值λ的变化（c）从不同的T早期赢得票的性能。我们在CIFAR10数据集上使用VGG16，并显示了5次随机运行的标准差。比较图6（b）中的全局修剪和局部修剪。在SNN中，全局剪枝比局部剪枝具有更好的性能，特别是对于高稀疏度的情况。图6（c）示出了从全局修剪获得的逐层稀疏性。结果表明，深层比浅层具有更高的稀疏性。在图7（a）中，我们还可视化了发现EB票时相对于稀疏水平的时期。EB票据基于当前掩码与来自先前时期的掩码之间的掩码差异来获得修剪掩码。在这里，我们观察到，根据EB票的掩码检测算法，高度稀疏的掩码比较低稀疏性的掩码更早被发现此外，我们进行超参数分析的建议ET票。在图7（b）中，我们示出了T早期相对于用于选择的阈值λ的变化（算法1）。我们搜索λ，间隔为0.1从0到1。较低的λ值表明我们较早地选择了与原始时间步长相似的T，并且带来较少的效率增益。有趣的是，不同数据集的趋势相似，这表明我们的KL分歧是一个一致的指标。图图7（c）示出了来自三个不同的T早的稀疏SNN的准确性（注意，T早= 5是原始IMP）。结果表明，较小的T早期也捕获SNN中的重要连接。全局剪枝局部剪枝rsity=98.13%rsity=89.91%%.3068关于我们RsspaspaspaT_early=5（IMP）T_early=4T_early=3时代准确度（%）准确度（%）稀疏度（%）+v：mala2255获取更多论文12岁。金，Y。Li，H.帕克河耶什万特河Yin，P.熊猫.SVHN/VGG169694FMNIST/VGG169694CIFAR10/VGG16939087CIFAR100/VGG167065605568.3089.9195.6998.13稀疏度（%）SVHN/Res19969468.3089.9195.6998.13稀疏度（%）9268.3089.9195.6998.13稀疏度（%）FMNIST/Res1996949268.3089.9195.6998.13稀疏度（%）68.3089.9195.6998.13稀疏度（%）CIFAR10/Res199693908768.3089.9195.6998.13稀疏度（%）68.3089.9195.69 98.13稀疏度（%）CIFAR100/Res19757065605568.3089.9195.69 98.13稀疏度（%）见图8。ANN中奖票在SNN上的可传递性研究。4.3从ANN转移的获奖门票为了消除搜索成本，已积极探讨中奖彩票的可转让性。一条工作线[50，51，16，7]从源数据集中发现可转移的中奖彩票的存在，并成功地将其转移到目标数据集。从不同的角度来看，从以前的作品，其中福-基于跨数据集配置，我们发现了激活函数不同的ANN和SNN之间的可转换中奖票。在图8中，我们说明了在四个稀疏水平（68.30%，89.91%，95.69%，98.13%）下，ANN上的IMP，SNN上的IMP，转移票的准确性。具体而言，转让票（i. 例如，初始化的权重参数和修剪掩码）由IMP在ANN上发现，并在SNN框架上训练，其中我们改变ReLU神经元到LIF神经元对于相对简单的数据集，如SVHN和F-MNIST，即使在98.13%的稀疏度下，传输的Ticket也显示出不到2%的准确率下降。然而，对于CIFAR10和CIFAR100，转移票据无法检测到中奖票据，并且显示出巨大的性能下降。结果表明，人工神经网络和SNN共享共同的知识，但并不完全相同，这可以由先前的SNN工作[62，17，35]支持，其中预训练的ANN为SNN提供更好的初始化。虽然Transferred Ticket显示出比IMP有限的性能，但从ANN搜索Transferred Ticket需要14个小时才能获得98.13%的稀疏度，这比SNN上的IMP快1.5倍4.4寻找中奖门票从工作线[41，70]通过在初始化时进行搜索过程，有效地降低了中奖彩票的搜索成本。这种技术应该与SNN一起探索，其中对应于多个时间步的多个前馈步骤带来昂贵的搜索成本。为了证明这一点，我们对初始化时的代表性修剪方法SNIP [41]进行了实验。SNIP根据后向梯度的大小计算每个权重连接的重要性在初始化。在图9中，我们说明了ANN和SNN的准确性，VGG 16/CIFAR 10配置上的SNIP。SNN（IMP）et转账打勾人工神经网络（IMP）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）+v：mala2255获取更多论文ANN_SNIP随机SNN_SNIPResNet19VGG16∼SNN的彩票假说表2.IMP 的性能比较[21]与以前的作品。修剪方法架构数据集基线Acc. （%）平均累积（%）稀疏度（%）-0.3850.00Deng等人[14个]7Conv、2FCCIFAR1089.53-2.1675.00-3.8590.00-1.9894.76Bellec等人[3]第一章6Conv、2FCCIFAR1092.84-2.5698.05-3.5398.96-0.3071.59Chen等人[9]第一章6Conv、2FCCIFAR1092.84-0.8194.92-1.4797.65-0.5476.90Chen等人[9]第九章ResNet19CIFAR1093.22-1.3194.25-2.1097.56+0.2876.20SNN上的IMP（我们的）ResNet19CIFAR1093.22+0.2494.29-0.0497.54-1.9877.03Chen等人[9]第九章ResNet19CIFAR10071.34-3.8794.92-4.0397.65+0.1176.20SNN上的IMP（我们的）ResNet19CIFAR10071.34-0.3494.29-2.2997.54我们重新实现ResNet19实验。100908070600 20406080 100稀疏度（%）0.70.60.50.40.30.20.10 20406080 100稀疏度（%）见图9。修剪ANN和修剪SNN与SNIP的性能比较。图10. CIFAR10上稀疏性相关的尖峰数量。令人惊讶的是，SNN在高稀疏度（>80%）下表现出巨大的性能下降，甚至比随机修剪更差。结果表明，基

下载后可阅读完整内容，剩余1页未读，立即下载