可学习的膜时间常数增强SNN的训练算法及最大池化的优势

200 浏览量更新于2023-10-14 收藏 1.32MB PDF 举报

脉冲神经网络

训练算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2661轴突V（t）Soma枝晶后殿W引入可学习的膜时间常数增强脉冲神经网络魏方1，2，于兆飞1，2，3*，陈艳琪1，2，陈艳琪4，黄铁军1，2，3，田永红1，2*1北京大学计算机科学与技术系2鹏程实验室，中国3中国北京大学人工智能研究所4 Centre de Recherche Cerveau et Cognition（CERCO），UMR5549 CNRS - Univ.图卢兹3号酒店，法国{fwei，yuzf12，chyq} @ pku.edu.cn，timothee. cnrs.fr，{tjhuang，yhtian} @ pku.edu.cn摘要脉冲神经网络（Spiking Neural Networks，SNN）由于具有时间信息处理能力、低功耗和高生物学可信度等优点而引起了广泛的研究兴趣。然而，制定高效和高性能的SNNs学习算法仍然具有大多数现有的学习方法学习权重Syn输出尖峰1 10 1 0 1I（t）并且需要手动调整确定单个脉冲神经元的动态的膜相关参数。这些参数通常被选择为对于所有神经元是相同的，这限制了神经元的多样性，并且因此限制了所得SNN的表达性。在本文中，我们从观察到的膜相关参数是不同的大脑区域的启发，并提出了一个训练算法，不仅能够学习突触的权重，但也SNN的膜时间常数。我们表明，将可学习的膜时间常数可以使网络对初始值不太敏感，并可以加快学习。此外，我们重新评估了池化方法在SNN和发现，最大池化不会导致显着的信息损失，并具有低的计算成本和二进制兼容性的优势。我们在传统静态MNIST、Fashion-MNIST、CIFAR-10 数据集和神经形态 N-MNIST 、 CIFAR 10-DVS、DVS 128 Ges- ture数据集上评估了所提出的图像分类任务方法。实验结果表明，该方法在几乎所有数据集上都具有优于现有技术的准确性，使用更少的时间步长。我们的代码可在https://github.com/fangwei123456/Parametric-Leaky-Integrate-and-Fire上获得- 刺突神经元*通讯作者（a）尖峰神经元(b)LIF神经元图1. (a)Leaky Integrate-and-Fire（LIF）神经元具有膜电位V、膜时间常数τ、输入I（t）和突触权重w。（b）当接收到恒定输入时LIF神经元的膜电位V增大或减小τ将在t方向上拉伸v=f（t）曲线，而增大或减小w将在V方向上拉伸v=f（t）曲线1. 介绍尖峰神经网络（SNN）被视为第三代神经网络模型，更接近大脑中的生物神经元[38]。与神经元和突触状态一起，在SNN中也考虑了尖峰定时的重要性。由于SNN具有时间信息处理能力、低功耗[49]和高生物可塑性[16]等独特的特性，近年来越来越引起研究者的极大兴趣。然而，制定SNN的高效且高性能的学习算法仍然具有挑战性。通常，SNN的学习算法可以分为无监督学习、监督学习、基于奖励的学习和人工神经网络（ANN）到SNN的转换方法。无论哪种方式，我们发现大多数现有的学习方法只考虑学习突触相关参数，如突触权重，并将膜相关参数视为2662超参数这些膜相关的参数，如膜时间常数，决定了一个单一的尖峰神经元的动力学，通常被选择为是相同的所有神经元。然而，请注意，跨大脑区域的尖峰神经元存在不同的膜时间常数[39，9，30]，这被证明对于工作记忆的表示和学习的制定是必不可少的[20，53]。因此，简单地忽略SNN中的不同时间常数将限制神经元的异质性，并且因此限制所得SNN的表达性。在本文中，我们提出了一种训练算法，不仅能够学习的突触权重，但也膜的时间常数的SNNs。如示于图1，我们发现，调整突触的重量和膜的时间常数对神经元动力学有不同的影响我们表明，将可学习的膜时间常数是能够提高SNNs的学习。本文的主要贡献可以概括如下：1) 我们提出了基于反向传播的学习算法，使用具有可学习膜参数的尖峰神经元，称为参数泄漏积分和激发（PLIF）尖峰神经元，其更好地表示神经元的异质性，从而增强SNN的表达能力。我们表明，由PLIF神经元制成的SNN对初始值更具鲁棒性，并且可以比由具有固定时间常数的神经元制成的SNN学习得更快2) 我们重新评估了SNN中的池化方法，并否定了以前的结论，即最大池化导致了重大的信息丢失。我们发现，与平均池化相比，最大池化能够更好地保持神经元放电的异步特性，以及降低计算成本。我们的实验表明，最大池的性能是平均池。3) 我们在传统的静态MNIST [32]，Fashion-MNIST[59]，CIFAR-10 [31]数据集上评估了我们的方法，这些数据集广泛用于ANN作为基准，以及神经形态N-MNIST [44]，CIFAR 10-DVS [36]，DVS128 Gesture [1]数据集，这些数据集专注于验证网络的时间信息处理能力。所提出的方法超过了国家的最先进的准确性，几乎所有的测试数据集，使用更少的时间步长。2. 相关作品SNN的无监督学习SNN的无监督学习方法基于生物学上合理的局部学习规则，如Hebbian学习[22]和Spike-Timing-Dependent Plasticity（STDP）[3]。现有的方法利用自组织原理[56，11，29]和基于STDP的期望最大化算法[43，17]。然而，这些方法仅适用于浅SNN，并且性能远低于最先进的ANN结果。SNN的基于奖励的学习SNN的基于奖励的学习通过利用由多巴胺能、5-羟色胺能、胆碱能或肾上腺素能神经元诱导的奖励或惩罚信号来模仿人脑学习的方式[13，6，41]。尽管强化学习中出现了一些方法，如策略梯度[52，28]，时间差学习[46，14]和Q学习[6]，但最近提出了一些基于STDP的启发式现象学模型[15，62]。ANN到SNN转换ANN到SNN转换（ANN2SNN）通过使用每个尖峰神经元的发射率来近似模拟神经元的对应ReLU激活，将经训练的非尖峰ANN转换为SNN[24，7，50]。它可以像ANN [51，10]那样获得接近无损的推理结果，但在准确性和延迟之间存在权衡。为了提高准确性，需要更长的推理延迟[19]。ANN2SNN仅限于速率编码，在时间任务中失去了处理能力.据我们所知，ANN2SNN只适用于静态数据集，而不是神经形态数据集。SNN的监督学习SpikeProp [5]是第一种基于反向传播的SNN监督学习方法，它使用线性近似来克服SNN的不可微阈值触发触发机制。随后的工作包括Tempotron[18]，Re-SuMe [45]和SPAN [40]，但它们只能应用于单层SNN。最近，提出了替代梯度方法，并提供了训练多层SNN的另一种解决方案[35，26，64，57，54，34，27]。它利用替代导数来定义阈值触发击发机制的导数。因此，SNN可以用梯度下降算法作为ANN来优化。Zenke等人[63，42]系统地研究了替代梯度学习的显著鲁棒性，并表明通过替代梯度方法优化的SNNs可以实现与ANN竞争的性能。与ANN2SNN相比，替代梯度方法对模拟时间步长没有限制，因为它不基于速率编码[58，63]。尖峰神经元和层模型在SNN中起着至关重要的作用Cheng等人[8]增加了相邻神经元之间的横向相互作用，获得了更好的准确性和更强的噪声鲁棒性。Zimmer等人[65]首先采用LIF神经元中的可学习时间常数用于语音识别任务。Bellec等人[2]提出了自适应阈值尖峰神经元来增强SNN的计算和学习能力，[61]用可学习的时间常数对其进行了改进。Rathi等人[47]建议使用2663----- ---∞----∞−∞Dtδ（t）dt=1。可学习的膜泄漏和激发阈值来微调从ANN转换的SNN。尽管如此，到目前为止，还没有系统的研究学习膜时间常数对SNNs的影响，这正是本文的目的。Wu等人。[58]发现归一化层对深度SNN也很关键，并提出了神经元归一化（NeuNorm）来平衡每个神经元的发射率，以避免严重的信息丢失。Ledinauskas，E等.[33] 首先建议在深度SNN中使用批量归一化[25]以加快收敛。3. 方法在本节中，我们首先简要回顾一下第二节中的Leaky Integrate-and-Fire模型3.1，并分析突触重量和膜时间常数在Sec.3.2. 参数泄漏积分和火灾模型和网络结构的SNN，然后在第二节中介绍。第3.3节- 二等兵三点五最后，我们描述了尖峰最大池和学习算法的SNNs在秒。第3.6节三点七3.1. 泄漏积分触发模型SNN的基本计算单元是尖峰神经元。神经科学家已经建立了几个尖峰神经元模型来描述生物神经元的输入和输出信号之间的精确关系。Leaky Integrate-and-Fire（LIF）模型[16]是SNN中使用的最简单的尖峰神经元模型LIF神经元的亚阈值动力学被定义为：dV（t）τ=−（V（t）−Vrest）+X（t），（1）其中V（t）表示在时间t处神经元的膜电位，X（t）表示在时间t处对神经元的输入，τ是膜时间常数，并且Vrest是静息电位。当膜电位V（t）在时间tf超过某个阈值V_th时，神经元将引发尖峰，然后膜电位V（t）回到复位值V_reset V_th<。LIF神经元实现了计算成本和生物合理性之间的平衡。我们在本文中设置Vrest=Vreset，并且在本文的其余部分中不会对它们进行区分。3.2. 突触权重与膜时间常数在用于由LIF神经元制成的SNN的大多数先前学习算法中，膜时间常数τ被视为超参数并且在学习之前被选择为对于所有神经元是相同的。SNN的学习仅仅是为了优化突触权重。然而，不能忽视的是，对于给定输入，尖峰神经元的行为不仅取决于连接的突触的权重，而且还取决于由神经元控制的神经元膜时间常数τ。图2.当接收到t=5、80、85、90处的瞬时尖峰时LIF神经元的膜电位V为了比较突触权重和膜时间常数对神经元动力学的影响，我们考虑一个简单的情况，其中LIF神经元z i从突触前神经元z j接收加权输入X（t）=wI（t）（图1）。1（a））。静止电位V_r_est被设定为0。当输入为常数，即I（t）=I时，LIF神经元的膜电位zi随时间的变化被示出在图1（b）（蓝色曲线），这是根据方程计算。（一）.增加或减少w，如w+和w所示曲线，将拉伸v=f（t）曲线V方向。相反，增加或减小τ将在t方向上拉伸v=f（t）曲线，并且将不改变神经元zi的稳态电压，因为V（+）=wI。图2示出了在时间t=5、80、85、90ms处神经元z i对瞬时输入尖峰的响应，即X（t）=w（δ（tδ）+δ（t80）+δ（t85）+δ（t1. 神经元对t = 5时的瞬时输入尖峰的响应表明较小的τ（τ曲线）导致更快地充电到稳态电压和更快地这种敏感性有助于神经元捕捉输入中的即时变化。相比之下，较小的w（w曲线）导致较慢的充电到稳态电压，而不影响衰减速度。当有三个连续的输入尖峰时，具有较小τ（τ曲线）的神经元的膜电位将以更快的速率达到更高的值，这使得它更容易激发。在某种程度上，减小τ的效果类似于增加W。然而，调整τ和w两者可以带来一些优越的附加益处。如上所述，改变τ和w两者可以在t方向和V方向两者上拉伸v=f（t）曲线，即神经元3.3. 参数化泄漏积分触发模型我们提出了参数泄漏积分和消防（PLIF）尖峰神经元模型学习的突触权重和膜时间常数的SNN。PLIF神经元的动力学可以由等式（1）描述。（一）.具有PLIF神经元的SNN遵循三个规则：，1δ（t）表示狄拉克δ函数。如果xi= 0，则δ（t）= 0。2664} ××联系我们k（a）··ττ--t = 0图3.一般离散发放神经元模型。t = 1(1). 膜时间常数τ在训练期间自动优化，而不是在训练之前手动设置为超参数。(2). 膜时间常数τ在膜内共享。t =t = T − 1输入尖峰信号编码器分类器输出在SNN中的相同层中的神经元，这在生物学上是合理的，因为相邻的神经元具有类似的特性。(3). 不同层神经元的膜时间常数τ不同，使神经元的相频反应性也不同。事实上，所提出的规则能够增加神经元的异质性和所得SNN的表达性，同时有效地控制计算成本。对于SNN中PLIF神经元的数值模拟，我们需要考虑在时间上离散的参数动态的版本。具体地，通过包括阈值触发的放电机制和放电后膜电位的重置，我们可以用以下等式描述所有种类的尖峰神经元的动力学：图4.我们的网络的一般公式及其展开公式。Nconv指示存在顺序连接的N个convConv2d尖峰神经元。Ndown和Nfc具有相同的含义。请注意，网络对于PLIF神经元，直接优化等式2中的膜时间常数τ。（5）中的τ在分母中时可能引起数值不稳定。除此之外，Eq。（5），as the discrete version of Eq.只有当时间步长dt小于τ时，即τ >1，才是有效的近似，这被[47，61]忽略。为了避免上述问题，我们重新公式化Eq.（5）具有可训练参数a的以下等式：Ht=f（Vt−1，Xt），（2）H t=V t−1+k（a）（−（V t−1−V reset）+X t）。（六）St=Θ（Ht-Vth），（3）这里k（a）表示钳位函数，并且k（a）∈（0，1），Vt=Ht （1−St）+V复位 St.（四）这就保证了τ=1∈（1，+∞）。在我们的前-为了避免混淆，我们使用Ht和Vt分别表示神经元动力学和时间步长t处的尖峰触发后的Xt表示外部输入，并且Vth表示点火阈值。Stde-k（a）是S形激活函数，即，k（a）=1。1+exp（−a）3.4. LIF和PLIFLIF和PLIF神经元具有与LIF神经元类似的功能。注意到时间t处的输出尖峰，如果存在尖峰，否则为0当量（3）描述了尖峰基因-递归神经网络特别是当V复位 =0，其中Θ（X）是Heaviside阶梯函数，并且由对于X彡0的Θ（X）=1和对于X彡0的Θ（X）=0定义。LIF神经元和PLIF神经元的神经元动力学（等式2）。（5））可以写成：x0。当量（4）示出了在引发尖峰之后膜电位恢复到V复位，这被称为硬尖峰。重置并广泛用于深度SNN [33]。Ht=.1−1Σ1Vt−1+τXt，（7）如图3，方程（2）-（4）建立一个通用模型来描述离散尖峰神经元的动作：充电、发射和复位。具体而言，Eq。（2）描述了神经元动力学，并且不同的尖峰发放神经元模型具有不同的函数f（）。例如，LIF神经元和PLIF神经元的函数f（）为其中积分进度1Xt使LIF和PLIF神经元能够记住当前输入信息，而泄漏进度（11）Vt-1可以被视为从过去获得一些信息。当量（7）显示记忆和遗忘之间的平衡是一致的。由膜时间常数τ控制，其起作用Ht=V t−11+τ（−（Vt−1 -V复位）+X t）。（五）类似于长短期记忆（LSTM）网络中的门的角色[23]。电荷射击复位��简体中文��−1��−1��简体中文× N向下×Nfc× N转换展开× N向下×Nfc× N转换τ2665}{----∗×个Σ不t=0不t=0Ci=0时不t=01ΣT −11ΣC−1（o t，i− y t，i）2. 和预测的标签lp3.5. 网络公式化在本文中，我们提出了一个通用的公式来构建SNN，如图所示。4.第一章SNN包括尖峰信号编码器网络和分类器网络。尖峰脉冲编码器网络由N个下采样模块组成，每个下采样模块包含N个conv重复的Conv 2d-Spiking神经元和池化层。尖峰信号编码器可以从输入中提取特征，并将其转换为不同时间步长的发射尖峰信号分类器网络由Nfc重复的FC尖峰神经元组成。这里Conv2d表示2D卷积层，FC表示全连接层。许多以前的作品[11，34，54，64，8，19]使用泊松编码器将图像转换为尖峰作为输入，而[50]建议这种编码将可变性引入网络的发射t = ti+2t = ti+3(a) 加标最大合并t =ti+1或并削弱其性能。[50][58][59][59][59]put被直接馈送到我们的网络，而不首先被转换为尖峰。在这种情况下，图像尖峰编码由第一Conv 2d-Spiking神经元模块完成，该模块可以被视为可学习的编码器。注意，包括卷积层和完全连接层的突触连接是无状态的，而尖峰神经元层在时间域中具有自连接，如图2所示的展开网络公式4.第一章所有参数在所有时间步共享。3.6. 加标最大值合并池化层被广泛用于减小特征图的大小并在卷积ANN以及SNN中提取紧凑表示。大多数先前的研究[51，8，48]倾向于在SNN中使用平均池化，因为他们发现SNN中的最大池化导致显著的信息丢失。我们认为，最大池是一致的SNN具体来说，在我们的模型中，最大池化层在尖峰神经元层之后（图1B）。4），并且最大池化操作在尖峰上进行。与在平均池化窗口中同等地将信息传输到下一层的所有神经元不同，只有在最大池化窗口中激发尖峰的神经元可以将信息传输到下一层。因此，最大池化层引入赢家通吃机制，允许被激发的神经元与下一层通信，并忽略池化窗口中的其他另一个有吸引力的特性是最大池化层将动态地调节连接（图1B）。（五）。发放尖峰的神经元由于充电需要时间，因此尖峰神经元很难再次放电。然而，如果最大池化窗口中的神经元异步激发，则它们将依次连接到突触后神经元，这使得突触后神经元重新激活。t = tit = ti+1t = ti+2t = ti+3(b) 展开计算图图5.Spike max-pooling动态调节连接(a) 具有尖峰最大池化的三个突触前神经元和一个突触后神经元的示例。在每个时间步，只有发射尖峰的神经元可以连接到突触后神经元。当多于一个神经元在同一时间步长激发时，随机选择可以连接到突触后神经元的神经元。(b) （a）的展开计算图突触前神经元的连续放电更容易被激发。通过最大池化实现的空间域中的赢家通吃机制和时间域中的时变拓扑可以增加SNN在时间任务中的拟合能力，例如对CIFAR 10-DVS数据集进行分类。值得注意的是，最大池化层的输出仍然是二进制的，而平均池化层的输出是浮点的。通过用逻辑AND代替乘法，可以加速尖峰上的矩阵乘法和逐元素乘法运算，这也是SNNs与ANN相比的优势3.7. 培训框架在这里，我们结合神经元模型（图）。3）和网络公式（图。4）驱动SNN的反向传播训练算法将模拟的时间步长表示为T，类数表示为C，输出O=[ot，i]是CT张量。对于具有标签l的给定输入，我们鼓励表示类别l的神经元具有最高兴奋水平，而其他神经元应保持沉默。因此，目标输出由Y=[y t，i]定义，其中对于i = 1，y t，i=1，并且对于i = 1，y t，i=0。损失函数由平均值定义平方误差（MSE）L=MSE（O，Y）=1ΣT−1Lt=被认为是具有最大放电率的神经元的索引l p=argmaxi1T-1o t，i。尖峰tO t1t2神经元分离突触连接突触自连突触时间窗口t = ti2666和Vt，jt，j 不Si不不不不不不不--不重置tHi不不ait−1resett伊萨岛Hi伊萨岛Wi−1=Hi传统静态MNIST、Fashion-+ttt选项卡. 2显示了所提出的方法的准确性t=0不不MNIST、CIFAR-10数据集和神经形态N-MNIST，这里，我们假设ai表示网络中第i层中PLIF神经元的可学习参数在时间步长t处，向量H1和V1表示膜DatasetNconv Ndown Nfc*MNIST 1 2 2CIFAR-10 3 2t t在神经元动力学之后和重置之后的电位，载体CIFAR 10-DVS 1 4 2我我th复位表示阈值和复位电位，DVS128手势1 5 2分别上一层Xi=Wi−1Ii。Si=[si]表示在表1.不同数据集的网络结构。 N转换，N下降和Nfc定义在图1中。4.第一章*MNIST表示MNIST，时尚-t ttt，jMNIST和N-MNIST数据集。时间步长t，其中如果第j个神经元激发尖峰，则si=1，否则s i = 0。从下一层向后的渐变是t。根据图在图3和图4中，我们可以递归地计算梯度：传统静态MNIST、Fashion-MNIST、CIFAR-10数据集和神经形态N-MNIST、CIFAR 10-DVS和DVS 128手势数据集。培训的更多细节可以LLt请参见补充资料。=t+1+（八）HiHi我电话+1HiHiViHi4.1. 网络结构t+1=t+1t（九）不同数据集的SNN的网络结构为Hit=HiViLtSiHi（十）如Tab所示。1.一、我们为所有Conv2d层设置内核大小=3，步幅=1和填充=1CIFAR-10数据集的Conv 2d图层的输出通道为256，所有数据集的输出通道为t t t根据等式（6），Eq.（3）、Eq.（4）我们可以得到我t+1=1k（ai）（11）Vi其他数据集。在每个Conv2d层之后添加批处理归一化（ BN ）层。由于 BN 层的参数可以被吸收在其前Conv2d层[50]中，因此我们可以在SNN中移除BN以进行推断。所有池化图层设置内核大小=2和步幅=2。对于所有网络，ViiiSi的第一图层是不Hi=1−St+（V−H）t（十二）输出功能FC不Si不伊伊第二个FC层的内部要素和外部要素是M·C，其中C是类别数，M是新的。不HiHi=Θ（Ht-Vth）（13）一个种群中的一个种群来代表一个类。脱落层[34] 位于每个FC层之前投票层之后t=k（ai）（14）Xihiii i i i′输出尖峰神经元层用于增强分类鲁棒性投票层通过平均池化来实现，其中内核大小=M并且步幅=M。我们设定t=（−（V−V）+X）k（ai）Hi Vi−1（十五）对于所有数据集，M=10。我们采用平均汇集的方式来实现民主投票，使少数服从多数。使用max-pooling来投票可以Vit−1 Hit−1伊萨岛导致独裁，因为少数人不会参与最后，我们可以得到可学习参数的梯度在计算图中（见图1）。5）并且使用M个神经元来表示一个类将退化为使用一个神经元。T−1iL=Σt=0不（十六）4.2. 与最新技术水平的T−1i（PLIF神经元，τ=2，最大池化）和其他组合LΣ注意iSt 当t≥T时，Vi=0我重置. 我们CIFAR 10-DVS，DVS 128手势数据集。我们设置相同的训练所有数据集的超参数（参见补充-VH∂H2667−1个使用替代函数σ（x）的导数来定义尖峰函数Θ（x）的导数（参见补充）。k（x）是钳位函数。4. 实验我们评估了SNN的性能与PLIF神经元和尖峰最大池的分类任务tary）。如Tab.所示。2，我们在除CIFAR-10之外的所有数据集上实现了最高的准确性。CIFAR-10的精度略低于[19]，后者基于ANN 2SNN转换。然而，它们仅适用于静态图像，因为ANN2SNN不适合神经形态数据集。与它们不同的是，我们的方法也适用于神经形态数据集，并且性能优于基于spike的=V2668(10类）×个1800（测模型方法准确度精度精度精度精度精度[12]加标BP 99.46%--99.39%-96.09%[21]加标BP-98.28%-93.40%ANN2SNN和基于尖峰的BP- -92.64%-[55]净化海港计划-99.1% 52.4%-[4] GCN-99.0% 54.0%-我们的基于峰值的BP 99.72% 94.38% 93.50% 99.61% 74.80% 97.57%表2.在不同的数据集上，所提出的方法和最先进的方法之间的性能比较。以前作品的最高精度以粗体显示。Fashion-MNIST [8] 20 8CIFAR-10 [19] 2048 8PLIF（τ0=16）94.65% 93.23% 70.50% 92.01%LIF（τ=16）94.47% 47.50% 62.40% 76.74%DVS128手势[27]500（训练） 20表3.以前的SOTA工作的时间步长和我们的每个数据集。BP SOTA准确度。选项卡. 3比较了我们的方法和以前的作品在每个数据集上实现最佳性能的时间步长的数量可以发现，所提出的方法比所有其他方法需要更少的时间步长。例如，与ANN2SNN转换[19]相比，我们的方法使用了最多256个更少的推理时间步。因此，我们的方法不仅可以减少内存消耗和训练时间，而且大大提高了推理速度。4.3. 消融研究我们进行了广泛的消融研究，以评估PLIF神经元和四个具有挑战性的数据集的最大池。我们首先研究PLIF神经元的作用。在这个实验中，我们分别用PLIF神经元和LIF神经元训练相同的SNN，并比较测试准确性。如Tab.所示。4、如果PLIF神经元的初始膜时间常数τ0等于LIF神经元的膜时间常数τ，则PLIF神经元的SNN的测试精度总是高于LIF神经元的SNN的测试精度。这是由于不同层的PLIF神经元的膜时间常数在学习后可以不同，这更好地代表了神经元的异质性。图6示出了PLIF与PLIF的测试准确度。训练中的LIF神经元。可以看出，如果膜时间常数的初始值不合理，则具有LIF神经元的SNN的准确性和收敛速度相比之下，PLIF神经元可以学习适当的膜时间常数并实现更好的性能（绿色曲线）。分析初始值对PLIF neu.[47个]MNISTfashion-MNISTCIFAR-10N-MNISTCIFAR10-DVSDVS128手势[24日]ANN2SNN 98.37%-82.95%---[50个]ANN2SNN 99.44%-88.82%---[五十一]ANN2SNN-91.55%---[19个]ANN2SNN-93.63%---[35]第三十五届加标BP 99.31%--98.74%--[五十七]加标BP 99.42%--百分之九十八点七八百分之五十点七-数据集SOTASOTA我们的T神经元fashion-MNISTCIFAR-10CIFAR10-DVSDVS128手势MNIST[64个]4008PLIF（τ0=2）LIF（τ=2）94.38%94.17%93.50%93.03%74.80%73.60%97.57%96.88%N-MNIST[58个]59-6410表4.使用PLIF/LIF的准确性CIFAR10-DVS[58个]230-292202669测试准确度（%）ττ不t−1τ不PLIF，τ0=2 PLIF，τ 0=1694 594合并fashion-MNISTCIFAR-10CIFAR10-DVSDVS128手势94 0九十三5九十三092. 592. 00200400600时代800929040302010一千零200四百六百时代800一千平均94.74%最大值94.38%表5.使用最大池化/平均池化的准确性PLIF神经元对初始值具有鲁棒性。注意，图中的τ（6）7（a）和图中的τ（4）7（b）趋于无穷大。这可能(a) fashion-MNIST(b) CIFAR-10解释如下。膜时间常数τ（4）和τ（6）的两个SNN的PLIF神经元落后具有权重Wfc的第一FC层。我们检查火车-75 100907080六五七零60通过对测井曲线的分析，发现Wfc（τ = τ（4）或τ（6））的分布、均值和方差在几十个历元后收敛（见补充资料）。参考PLIF neu的动力学rons（方程式（5））其中X t= W fc I t且1→ 0，我们可以发现6050H→V+WfcI. 这意味着PLIF神经元55500200四百六百时代八百一千4030电话：+86-021 - 88888888传真：+86-021- 888888888时代1000第一FC层正在学习成为非泄漏积分和激发神经元。(c) CIFAR10-DVS(d) DVS128手势我们进一步研究了最大池的效果。选项卡. 五个图6. PLIF的测试准确度与LIF神经元在训练期间在不同的数据集上。阴影曲线表示原始数据。实线是64历元移动平均线。在四个具有挑战性的数据集上比较了所提出的SNN与最大池化/平均池化的准确性。max-pooling的性能与average- pooling相似，这表明前面的结论τ（0）6420250500750一千τ（4）τ（1）86420250500750一千τ（5）τ（2）42τ（6）0250500750一千τ（3）6420τ（7）250500七百五十1000最大池化导致SNN中的显著信息丢失值得注意的是，最大池化在CIFAR-10、CIFAR 10-DVS和DVS 128手势数据集上获得了略高的准确度，显示出其更好的拟合能力。6420250500750一千时代86420250500七百五十时代1000104020五0025050075010000个时代250500750一千时代在复杂任务中的能力。(a) 在CIFAR-10上训练期间τ（i）的变化105. 结论在这项工作中，我们提出了参数泄漏积分和激发（PLIF）神经元，以将可学习的膜时间参数并入SNN中。我们证明了10τ（0）510τ（3）510τ（1）50 500100010τ（4）50 5001000时代τ（2）50 500100010τ（5）50 5001000时代0 50010000 5001000时代具有PLIF神经元的SNN在静态和神经形态数据集上都优于现有技术的比较方法。此外，我们表明，由PLIF神经元组成的SNN对初始值更鲁棒，并且可以比由LIF神经元组成的SNN学习更快。我们还reevalu- ate的最大池和平均池的SNN的性能，发现以前的工作低估了最大池的我们建议使用最大池(b) 在CIFAR 10-DVS上训练期间τ（i）的变化。图7.不同初始值训练过程中各层细胞膜时间常数的变化τ（i）表示第i个PLIF神经元层的膜时间常数τrons，我们展示了在学习过程中，相对于不同的初始值，在每一层的神经元的膜时间常数的变化。如图7，在训练过程中，各层具有不同初始值的膜时间常数趋于聚集，这表明PLIF，τ0=2PLIF，τ0=16LIF，τ=2LIF，τ=16测试准确度（%）测试准确度（%）测试准确度（%）2670SNN的特点是计算量小，时间拟合能力强，接收尖峰信号并输出尖峰信号，而不是像平均池那样使用浮点数6. 确认本工作得到国家自然科学基金项目（项目编号：62027804、61825101、62088102）的资助。2671引用[1] Arnon Amir ， Brian Taba ， David Berg ， TimothyMelano，Jefrey McKinstry，Carmelo Di Nolfo，TapanNayak，Alexander Andreopoulos，Guillaume Garreau，Marcela Mendoza等人，A low power，fully event-basedgesture recognition system.在IEEE计算机视觉和模式识别会议论文集，第7243-7252页二个[2] Guillaume Bellec，Darjan Salaj，Anand Subramoney，Robert Legenstein，and Wolfgang Maass.尖峰神经元网络中的长短期记忆和学习。神经信息处理系统进展，第787-797页，2018年。二个[3] 毕国强和蒲慕明。培养的海马神经元中的突触修饰：依赖于尖峰时间、突触强度和突触后细胞类型。神经科学杂志，18（24）：10464-10472，1998. 二个[4] Yin Bi ， Aaron Chadha ， Alhabib Abbas ， EirinaBourtsoulatze，and Yiannis Andreopoulos.神经形态视觉传感的基于图形的对象分类。在IEEE计算机视觉国际会议论文集，第491-501页，2019年。七个[5] Sander M Bohte、Joost N Kok和Han La Poutre。脉冲神经元时间编码网络中的误差反向传播神经计算，48（1-4）：17-37，2002. 二个[6] Matthew Botvinick，Jane X.放大图片创作者：John W.米勒和泽布·库尔特-纳尔逊。深度强化学习及其神经科学意义。Neuron，107（4）：603二个[7] Yongqiang Cao，Yang Chen，and Deepak Khosla.用于节能对象识别的尖峰深度卷积神经网络。InternationalJournal of Computer Vision，113（1）：54-66，2015. 二个[8] 向成，郝云哲，徐家明，徐波。LISNN：ImprovingSpiking Neural Networks with Lateral Interactions forRobust Object Recognition. 在 IJCAI ，第 1519- 1525 页中。人工智能组织国际联合会议，2020年7月。二、五、七[9] 古斯塔沃·德科、约瑟芬·克鲁扎特和莫滕·L·克林格尔巴赫。脑歌框架用于发现人类大脑的相关时间尺度。Nature Communications，10（1）：1-13，2019。二个[10] 邓世匡、石谷。传统人工神经网络到脉冲神经网络的最佳转换。2021年，在国际学术会议上发表。二个[11] Peter U Diehl和Matthew Cook。数字识别的无监督学习使用尖峰时间依赖可塑性。计算神经科学前沿，9：99，2015。二、五[12] 方浩文，阿马尔·施雷斯塔，赵紫怡，邱琴茹。在深度尖峰神经网络的时空学习中利用神经元和突触过滤器动力学。arXiv预印本arXiv：2003.02944，2020。七个[13] Nico l asFre´ mauxandWulframGerstne r. 神经调节的尖峰时间依赖性可塑性和三因素学习规则理论Frontiers inNeural Circuits，9：85，2016。二个[14] NicolasFre´maux，HenningSprekeeler，andWulframGerstner. 使用连续时间演员的强化学习-批评家框架与尖峰神经元。 PLoS ComputationalBiology，9（4）：e1003024，2013. 二个[15] Johannes Friedrich，Robert Urbanczik，and Walter Senn.神经元群体学习中的时空信用分配。 PLoSComputational Biology，7（6）：e1002092，2011. 二个[16] Wulfram Gerstner，Werner M Kistler，Richard Naud，and Liam Paninski. 神经元动力学：从单个神经元到网络和认知模型。剑桥大学出版社，2014年。第1、3条[17] 郭尚琪，于兆飞，邓飞，胡晓林，陈锋。脉冲神经网络中的分层贝叶斯推理和学习。IEEE Transactions onCybernetics，49（1）：133-145，2017。二个[18] RobertGu¨ tig和H a imSompolins ky. tempotron：一种学习基于尖峰时间的决策的神经自然神经科学，9（3）：420-428，2006。二个[19] Bing Han，Gopalakrishnan Srinivasan，and Kaushik Roy.RMP-SNN：残余膜电位神经元，用于实现更深的高精度和低延迟尖峰神经网络。在IEEE计算机视觉和模式识别会议论文集，第13558二五六七[20] Michael E Hasselmo和Chantal E Stern。新信息工作记忆的机制。Trends in Cognitive Sciences，10（11）：487-493，2006. 二个[21] Weihua He，YuJie Wu，Lei Deng，Guoqi Li，HaoyuWang ， Yang Tian ， Wei Ding ， Wenhui Wang ， andYuan Xie. 在神经形态可视化数据

下载后可阅读完整内容，剩余1页未读，立即下载