具有尖峰神经元的脑激励多层感知器的优化方法

111 浏览量更新于2023-10-26 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

783具有尖峰神经元的脑激励多层感知器李文硕1，陈汉婷1，2，郭建元1，张紫阳1，王云鹤11华为诺亚2机器感知教育部重点实验室（MoE）北京大学机器智能学院liwenshuo@huawei.com，yunhe.wang @ huawei.com摘要近年来，多层感知器（MLP）成为计算机视觉领域的研究热点。在没有诱导偏差的情况下，MLP在特征提取上表现良好，取得了令人惊讶的结果。然而，由于简单的-它们的结构复杂，性能高度依赖于局部特征的通信机制。为了进一步提高MLP的性能，我们引入了来自脑启发神经网络的信息通信机制。尖峰神经网络（Spiking Neural Network，SNN）是最著名的脑启发式神经网络，在处理稀疏数据方面取得了巨大的成功。SNN中的Leaky Integrate and Fire（LIF）神经元用于不同时间步长之间的通信。在本文中，我们将LIF神经元的机制纳入MLP模型，以实现更好的准确性，而无需额外的FLOP。我们提出了一个全精度的LIF操作，以沟通之间的补丁，包括水平LIF和垂直LIF在不同的方向。我们还建议使用组LIF来提取更好的局部特征。使用LIF模块，我们的SNN-MLP模型在ImageNet数据集上分别实现了81.9%，83.3%和83.5%的top- 1准确率，分别只有4.4G，8.5G和15.2G FLOP，据我们所知，这是最先进的结果。源代码将在 https ：//gitee.com/mindspore/models/tree/master/research/cv/snn mlp上提供。1. 介绍在归纳偏差的帮助下，卷积神经网络（CNN）已成为几种计算机视觉任务中最流行的算法，包括图像分类[19]，语义分割[52]和对象检测[4，18]。与MLP相比，CNN更容易训练，参数更少，但归纳偏差也限制了其学习能力。如今，CNN正面临着来自新型视觉骨干的挑战，如变形金刚和*通讯作者MLP 。 Transformer [47] 最初是在自然语言处理（NLP）领域提出的，研究人员发现自注意机制也适用于计算机视觉任务[11]。MLP在学术界受到广泛关注，研究者发现MLP等简单操作在没有归纳偏差的情况下，MLP在更大的数据集上表现出更好的学习能力。使用Transformer和MLP的关键点是将图像划分为补丁，然后将计算应用目前，研究的热点之一是如何在斑块之间进行通信。置换[22]和移位运算[30，56]是最常见的选择，它们都取得了令人钦佩的结果。在信息通信方面，SNN [34]有成熟的机制来处理它。SNN是一种大脑启发的神经网络，经常用于处理稀疏数据，例如动态视觉传感器（DVS）[28]。SNN的能量效率具有很强的竞争力，但与CNN相比，SNN的准确性有所损失。从CNN/ANN到SNN的转换通常意味着ImageNet上高达10%的准确率下降和高达数百甚至数千的大时间步长。近年来，SNN的研究主要分为两个方向。其中一个展示了如何更有效地将CNN转换为SNN，并且损失更少[40，41]。另一个展示了如何直接训练SNN以达到与CNN相当的准确性[50，59]。现在，最先进的ANN-SNN转换可以适应经典的CNN模型，当时间步长大于 1000 时，准确度仅下降 1%-2%[41]。最先进的SNN训练方法可以在不到10个时间步长的情况下实现5%-8%的准确率下降[50，59]。更多的时间步长意味着更大的延迟，因此 SNN 在ImageNet等通用视觉数据集上的性能仍然不能令人满意。正如我们之前提到的，尖峰神经元用于在不同的时间步长之间进行通信。在本文中，我们引入了大脑启发的尖峰神经元（即本文中的LIF模块）来传达MLP模型中的补丁之间的信息。我们以全精度的方式利用LIF神经元来保持来自输入块的信息。此外，我们提出了水平LIF和784(a)（b）第（1）款图1.（a）FLOPs-Accuracy Pareto frontier。（b）产出-准确性帕累托边界。所提出的SNN-MLP在FLOPs-Accuracy和吞吐量-Accuracy权衡方面在这些MLP中实现了最佳垂直LIF用于不同方向的知识继承，而组LIF用于提取更好的局部特征。分类、分割和检测实验表明，SNN-MLP模型可以达到现有MLP模型的最佳性能。特别是，该模型在ImageNet数据集上分别实现了81.9%，83.3%和83.5%的浮点数-精度帕累托边界如图1所示。2. 相关作品2.1. 尖峰神经网络脉冲神经网络是一种受大脑启发的神经网络。有多种尖峰神经模型，如Leaky Integrate and Fire（LIF）[10]，Hodgkin-Huxley（H-H）[21]和Izhikevich [25]。LIF模型是最常用的，因为它是简单和有效的实现。与CNN不同的是，SNN最初并不是用基于梯度的监督学习设计的。训练SNN的传统方法是尖峰时间依赖可塑性（STDP）[35]，这是一种无监督学习方法。STDP的主要缺点是不能利用全局信息，限制了转换速度。这导致其在大型模型上的应用困难因此，提出了几种基于梯度的SNN训练方法。Wu等人提出了显式迭代LIF神经元[50]，以进行更快更好的训练。Zheng等人。[59]提出了阈值相关的批量归一化，并进一步改进了直接训练过程。基于梯度的训练方法的优点在于，训练好的SNN只需要几个时间步长，比如t=6或者t=10，所以延迟是可接受的。不幸的是，阿尔-虽然已经做了很多努力，但仍然存在很大的问题，直接训练的SNN和CNN之间的准确性差距。获得SNN模型的另一种方法是将经过良好训练的ANN/CNN转换为SNN。这种转换几乎可以保持原始ANN/CNN的准确性。非尖峰ANN/CNN首先正常训练，然后通过计算发射率转换为尖峰神经元[40，41]。最近，有一些工作将转换和训练过程结合起来，例如渐进转换[42]和转换作为初始化[39]。然而，为了补偿从全精度转换到二进制输出时的精度损失，该转换过程总是需要很大的时间步长，因此难以实现令人满意的延迟。此外，转换算法在超深神经网络上的性能较差。为了解决这些问题，Li等人[29]提出了一种校准方法，以在更少的步骤下提高转换SNN的准确度，如T=128或T=256。尽管如此，SNN在深度神经网络Mo-bileNet上的准确率损失了7%，T=128。随着训练或转换技术的发展，神经网络的应用范围也在逐步扩大。一些研究人员一直在探索将SNN应用于各种计算机视觉任务的可能性，包括分割[27，37]和检测[26]。在生物医学领域，SNN在MRI图像分割[1]和ECG分类[54]等任务上受到广泛关注。同时，在SNN的硬件平台上也有很多工作，如TrueNorth [2]和Loihi [9]。虽然人们已经做了很多努力，但SNN的精度仍然不是最先进的。2.2. 变压器和MLPTransformer [47]广泛用于NLP任务，因为它们可以高度并行化。Vision Transformer（ViT）[11]首先将Transformer引入分类任务，并将Transformer编码器应用于extrace特征。变压器很快就被用于各种计算机视觉任务，包括检测[61]和低级视觉任务[3]。DeiT [46]提出在ViT的基础上使用蒸馏来改进训练过程TNT [16]提出通过将Transformers嵌入Transformers来对贴片的内部信息进行建模。轻型变压器也受到关注，如Lite-Transformer [51]和ViT-Lite [17]。最新的研究，如CvT[49]和785（3，224，224）(8n、28/p、28/p）MLP+dwconvVLIFHLIFMLPMLPMLP× ××ppDT××LIF阻滞（n，224/p，224/p）x NLIF模块MLP模块图2.我们提出的SNN-MLP的框架CMT [14]，专注于合并CNN和Transformer，以吸收两种架构的优势。与此同时，研究人员发现，用MLP代替复杂的多头自注意操作会产生很好的效果。在20世纪80年代，MLP曾经风靡一时。现在的MLP与旧的MLP不同，因为它们需要将图像嵌入到补丁中，然后在这些补丁上提取特征。MLP混合器[44]率先声称MLP和变压器一样工作。它们使用置换操作在补丁之间进行通信。MLP的一般结构通常包括两个主要部分，通道混合模块和令牌混合模块（置换、移位等）。以下工作size3p p，其中p表示补丁图像的高度和宽度，然后随后的MLP层将每个补丁嵌入到n维向量中。最后我们得到了一个nHW特征图。特征图被馈送到我们的四阶段LIF块中。一个LIF块包含一个LIF模块和一个MLP模块。在LIF块中，LIF模块负责令牌混合作业，而MLP块负责声道混合作业。如果它是最后三个阶段的最后一个块，则还有一个补丁合并模块，该模块将每个2 2个相邻补丁的特征拆分为四个通道，将它们连接起来，然后使用线性层将通道数量减少到一半。最后，特征的大小地图变成n× H3× W3。然后，分类器生成p×2p ×2正在致力于改进代币混合过程。ViP [22]在H-C和W-C维度上进行排列以提取特征。 S2-MLP [56]、cycle-MLP [7]和AS-MLP [30]使用移位操作来交织来自不同补丁的信息。最近，研究人员提出了更多新的想法来更好地聚合令牌信息，如分层重排[15]和相位感知表示[43]。总之，令牌之间的信息通信机制对MLP模型的性能至关重要。3. 该方法最终特征图的概率向量。SNN-MLP的变体具有不同的嵌入尺寸和块的数量微小型、小型型和基本型的嵌入维数n分别为96、96、128阶段1、2和4的块的数量对于所有变量是2，而阶段3的块的数量对于不同大小是6、18、18。3.2.全精度LIF在这一节中，我们简要介绍了传统的LIF神经元和我们对它的改进。经典的LIF模型的参数可以建模如下3.1. 框架杜o=0，τ=−u+I，uV<（一）在这里，我们首先展示SNN-MLP模型的框架，如图2的左侧所示。每个模块的详细结构将在以下章节中介绍。输入图像X被划分为具有o=1，u=u复位，u≥Vth（2）其中u是膜电位，I是来自上层的输入，τ是时间系数，o是输出，VthMLPMLP贴片嵌入嵌入式大小第1步第2步第3步第4步第1步第2步第1步第2步骤1步骤2贴片H步骤3步骤4贴片W垂直升降水平LIF组水平LIF图3.我们如何将LIF神经元应用于特征图。LIF模块MLP模块面片合并FFN日786ΣJ我j−1n电话+1电话+1电话+1YΣ是这个神经元的点火阈值当激发尖峰时，膜电位u被重置为ureset。联系我们rn已经做出了许多努力来将LIF神经元应用于=t+1=布里尔·（1−o）的情况。（十三）深度神经网络，最成功的尝试是迭代LIF [50].Vthn电话+1Vthn电话+1电话+1nt+1=10WTx，（3）L端=∂L∂rint+1n无无无无无无无∂ynrinut+1=τut（1−ot）+yt+1，（4）电话+1i=t+1t+1j=t+2j−1（十四）n n（5）最后我ot+1 = ut+1> Vth。下标t表示时间步长，上标n表示层索引。元素W、x和y分别表示权重、输入和输出。在这=i=t+13.3. LIF模块L;·我·j=Yt+2 τ（1−o n）。我们希望采用LIF机制作为一种-ken混合法与传统的LIF神经元在时域上的积累不同公式中的t表示补丁的索引，而不是我们设计中的时间步长。由于输入特征是全精度的，因此我们更喜欢全精度的输出，以保留补丁中的信息为了满足我们的需求，我们提出了以下全精度LIF函数：杜o=0，τdt=−u+I，u Vth（6）o=u，u=u复位，u≥Vth（7）我们将输出1替换为u，因此保留了全精度信息。将我们的全精度LIF模型应用于迭代LIF，然后我们得到：算法1SNN-MLP的PyTorch类代码deflif（x，dir=2）：对于范围内的步长（组）：如果dir== 2：u，o，x[：，：，step：：groups，：]=lif（u，o，x[：，：，step：：groups，：]）否则：u，o，x[：，step：：groups]=lif（u，o，x[：，step：：groups]）returnxdef lif_module_forward（x）：x = gelu（norm（mlp（x）x = gelu（norm（dwconv（x）x_v = gelu（mlp（vlif（x）x_h = gelu（mlp（hlif（x）x = mlp（norm（x_v +x_h））returnxdefmlp_module_forward（x）：x = dropout（gelu（mlp（x）））x = gelu（mlp（x））nt+1=10WTx，（8）returnxdefSNN_MLP_forward（x）：un=τun（1−on）+yn、（9）x = patch_embed_forward（x）t+1tt t+1对于范围（4）中的i：nt+1nt+1> Vth，（10）对于range（block_num[i]）中的j：nt+1=max（un，V th）。（十一）x = lif_module_forward（x）x =mlp_module_forward（x）注意，rn是t+1步的最终全精度输出，on只是记录t+1步输出状态的临时变量。系数τ和Vth是可学习的。我们将在4.4节讨论τ和Vth的初始化.由于不同的面片被视为不同的时间步长，我们得到了一个可以在面片之间进n布里尔y厄舒我yO=uR787布里尔（uj−1t−iY行通信的全精度迭代LIF神经元。利用这种显式迭代的LIF神经元，可以用链式法则完成反向传播过程。如果j == 0且 i = 3：x = patch_merging_forward（x）x = classifier（x）returnx最后介绍了我们的LIF模块。我们的LIF模块的结构如图2所示。与AxialShift块不同的是，我们在第一个MLP层之后添加了一个dwconv，并用我们的LIF神经元替换移位操作由于迭代LIF神经元本质上是一种激活，nt−1nt+1n函数，需要在前面添加一个dwconv层L=∂τ布里尔厄舒∂τ（j）迭代的LIF神经元。n电话+1nt+1i=0不j=t+2−i电话+1nj−1下一个问题是确定通信的顺序在不同的补丁之间嵌套遵循以下理念：L=n电话+1nt+1nt−ii=0时（1−on）j=t+2−iτ（1−on））。以前的工作[30]，我们在两个方向上传递信息：垂直和水平。垂直的方式(12)LIF和水平LIF神经元工作如图3所示。O788∈1表1.与最先进的基于Transformer和基于MLP的模型进行比较。Top-1表示Ima-geNet 1 k数据集上的top-1精度。所有模型的输入分辨率为224×224。#参数浮点数前1名（%）[31]第三十一话20M4.5G79.4ResMLP-S24 [45]30M6.0G79.4[46]第四十六话22M4.6G79.8VIP-小型/14 [22]30M-80.5Swin-T [32]29M4.5G81.3AS-MLP-T [30]28M4.4G81.3CvT-13 [49]20M4.5G81.6循环MLP-B2 [7]27M3.9G81.6SNN-MLP-T（我们的）28M4.4G81.9MLP-混合器-B/1659M11.7G76.4[56]第56话51M10.5G80.7CvT-21 [49]32M7.1G82.5[22]第二十二话55M-82.7Swin-S [32]50M8.7G83.0循环MLP-B4 [7]52M10.1G83.0AS-MLP-S [30]50M8.5G83.1SNN-MLP-S（我们的）50M8.5G83.3[56]第56话71M14.0G80.0ResMLP-B24 [45]116M23.0G81.0gMLP-B [31]73M15.8G81.6[46]第四十六话86M17.5G81.8[22]第二十二话88M-83.2循环MLP-B5 [7]76M12.3G83.2Swin-B [32]88M15.4G83.5AS-MLP-B [30]88M15.2G83.3SNN-MLP-B（我们的）88M15.2G83.5特征图的维度是（N，C，H，W），而C是指每个块的嵌入维度，H/W是指块的高度/宽度。中间和右边的子图显示了我们的垂直LIF和水平LIF过程。以VLIF为例，在公式（6）中，第一行被称为yn那么un等于yn，我们得到on，弱相关性。此外，过多的时间步长可能会影响并行计算的效率。为了避免这个问题，我们将特征图分成几组，并将LIF神经元应用于每组。有了LIF神经元群，更紧密的模式可以相互交流图3右侧显示了group=2水平LIF的一个简单示例。第2n列，nN，首先发送到LIFneu- ron。大于Vth的值将被保留，而其他值将被设置为Vth，同时它们的值被累积到下一列中的对应元素。4. 实验我们进行了分类，检测和分割任务的实验所有代码都是用Python-3.6 ， PyTorch-1.7 [36] 和MindSpore-1.5[24]实现的。4.1. 分类我们报告了我们在ImageNet-1 k数据集上的实验结果。ImageNet-1 k包含约128万张训练图像和50 K张验证图像，分为1000个类。这些图像都是具有各种形状的RGB图像。我们遵循一般的输入转换，将短边调整为256，然后裁剪整个图像224×224我们的培训策略遵循Swin Transformer [32]。我们使用AdamW [33]优化器来训练我们的模型300个epoch。初始学习率为0.001，具有余弦分解。前20个时期用于预热训练过程。模型在8个GPU上训练，批量大小为1024。权重衰减设置为0.05。在训练过程中，我们还应用了标签平滑和下降路径技术。我们评估我们的模型（SNN-MLP-T，SNN-MLP-S1 1比较un和Vth。输出rn仅与ImageNet 1 k上的u n和SNN-MLP-B）相关。结果示1 1 1而张量on只是用来确定un被累加到un。第二步，我们进行表1中我们根据模型的参数和FLOP将模型分为三组。对于小模型，1 2对第二行进行同样的操作。唯一的区别是un有来自un的一部分的累积值，参数数小于30M，FLOPS小于6.0G。我们的SNN-MLP-T模型实现了81.9%的top-2 1小于Vth。重复这些步骤，我们得到最终结果。HLIF的处理是相同的，除了累积向量变成列向量。我们的SNN-MLP模型的PyTorch风格代码如算法1所示。在实践中，我们应用GroupNorm如下[30]。3.4.组LIF对于传统SNN，过多的时间步长可能导致性能不佳[20]。在我们的实践中，我们也发现全局LIF有时表现不好，我们认为这可能是由于长距离信息的引入1 准确性，击败其他模型，包括gMLP-S，ResMLP-S24，ViP-Small/14，AS-MLP-T和CycleMLP- B2。对于小型号，参数和FLOP的数量低于60M和12.0G。我们的SNN-MLP-S模型也以83.3%的top-1准确率击败了其他模型对于大型模型，我们的SNN-MLP-B模型达到了83.5%的top- 1准确率。与AS-MLP模型相比，由于我们的框架与AS-MLP模型基本相同，LIF模块引入的额外计算量很少，所以FLOP和参数的数量都是相同的，但精度分别提高了0.6%、0.2%和0.2%。789×××表2. COCO数据集方法骨干APBAPB50APB75APmAPm50APm75#参数浮点数ResNet-50 [19]41.061.744.937.158.440.144M260G小型PVT [32]43.065.346.939.962.542.844M245GSwin-T [32]46.068.250.241.665.144.848M264GAS-MLP-T [30]46.067.550.741.564.644.548M260G掩模SNN-MLP-T46.067.950.941.664.944.748M261GR-CNN [18]ResNet-101 [19]42.863.247.138.560.141.363M336GPVT-中等[32]44.266.048.240.563.143.564M305GSwin-S [32]48.570.253.543.367.346.669M354GAS-MLP-S [30]47.868.952.542.966.446.369M346GSNN-MLP-S48.069.152.642.866.246.369M346G[46]第四十六话48.067.251.741.464.244.380M889GResNet-50 [19]46.364.350.540.161.743.482M739GSwin-T [32]50.569.354.943.766.647.186M745G层叠掩模R-CNN [4]AS-MLP-T [30]SNN-MLP-T50.150.368.868.954.354.643.543.666.366.546.947.186M86M739G739GResNeXt101-32 [53]Swin-S [32]48.151.866.570.452.456.341.644.763.967.945.248.5101M107M819G838GAS-MLP-S [30]51.169.855.644.267.348.1107M824GSNN-MLP-S51.470.055.644.467.348.3107M825G4.2. 检测我们在COCO数据集上评估了我们的模型，该数据集包含118K的训练数据和5K的验证数据。我们使用mmdet-v2.11 [5]框架实现我们的模型，并在两种著名的检测方法上评估我们的骨干：Mask R-CNN [18]和Cascade R-CNN [4]。为了公平地进行比较，我们使用与AS-MLP模型相同的训练策略来训练模型我们使用AdamW优化器，初始学习率为0.0001，批量大小设置为2 8GPU。重量衰减为0.05。我们还应用多尺度训练策略，在480和800之间缩放短边，最多1333缩放长边。为了评估，我们使用单一尺度（800，1333）没有翻转。ImageNet-1 k上的预训练模型用于初始化主干，然后在COCO训练集上训练模型36个epoch（3x时间表）。结果示于表2中。我们的SNN-MLP模型具有与AS-MLP模型几乎相同的#FLOP和#Param。我们的SNN-MLP-T和SNN-MLP-S实现了46.0使用Mask R-CNN方法，APb/ 41.6 APm和47.9 APb/42.7 APm ，使用Cascade Mask R-CNN方法，分别达到50.3 APb/ 43.6 APm和51.4 APb/ 44.4 APm我们可以发现，我们的SNN-MLP骨干取得了更好的结果比AS-MLP模型，也是与最先进的骨干Swin- Transformer。4.3. 语义分割我们在广泛使用的语义分割数据集ADE20K上进行了实验。ADE 20K包含20K训练图像和2K评估图像。我们选择UperNet方法与AS-MLP进行比较，并采用mmseg-v0.11 [8] 框架实现。与 AS-MLP 相同，我们使用AdamW优化器，6e−5初始学习率28个GPU和0.01重量衰减。对于数据aumenta-的作用，我们应用随机调整大小的比例范围（0。五二0）、具有概率0.5的随机翻转、具有最大比率0.75的随机裁剪输入图像最后裁剪为512 512分辨率。在评估时，我们应用多尺度增强，并将比率设置为（0。5，0。75，1。0，1。25，1。五一75）。我们训练模型进行160 K次迭代，ImageNet-1 k预训练模型用于初始化主干。结果示于表3中。我们的SNN-MLP-T、SNN-MLP-S和SNN-MLP-B模型实现了46.5、49.0和49.4的多尺度mIoU，这与AS-MLP模型相当。此外，我们的模型达到45.6，48.1和48.4单规模mIoU，明显优于Swin Transformer主干。4.4. 消融研究在本节中，我们探索超参数的最佳设置，包括LIF神经元组、LIF参数Vth和τ。我们的LIF模块的有效性也进行了评估。所有实验均基于SNN-MLP-T模型。我们训练和评估了四种类型的模型，如图4所示，结果如表5所示。原始AS-MLP-T模型仅实现了81.3%的Top-1准确度，而dwconv+移位模块（图4（b））实现了81.66%。我们可以发现，我们的dwconv和LIF神经元一起达到最好的准确率81.87%，这验证了他们的有效性。显示了不同τ和Vth设置790表3. ADE20K数据集方法骨干Val#参数浮点数ms mIoUss mIoUDANet [12]45.2-69M小行星1119Dlab.V3+[6]44.1-63M1021GACNet [13][55]第五十五话ResNet-101 [19]45.946.0---69M-1249GOCRNet [57]45.3-56M923GUperNet [52]44.9-86M1029GOCRNet [57][第48话]45.7-71M664GDLab.v3+[6][58]第五十八话46.9-66M1051GDLab.v3+[6][58]第五十八话48.4-88M1381GSETR [60]T-大号50.3-308M-[46]第四十六话44.0-52M1099GSwin-T [32]45.844.560M945GSwin-S [32]49.547.681M1038GUperNet [52]Swin-B [32]49.748.1121M1188GAS-MLP-T [30]46.5-60M小行星937GAS-MLP-S [30]49.2-81M1024GAS-MLP-B [30]49.5-121M小行星1166SNN-MLP-T46.545.660M小行星937GUperNet [52]SNN-MLP-S49.048.181M1025GSNN-MLP-B49.448.4121M小行星1167表4.与传统SNN模型的模型方法激活时间步长#paramFLOPs精度ResNet-34 [19]ANN-SNN转换[23]二进制76822M3.7G71.6%ResNet-34 [19][39]第三十九话二进制25022M3.7G百分之六十一点五ResNet-34 [19]STBP-tdBN [59]二进制622M3.7G百分之六十三点七ResNet-34 [19]校准[29]二进制25622M3.7G百分之七十四点六RegNetX-4GF [38]校准[29]二进制25621M4.0G百分之七十七点五SNN-MLP-T-FP32-28M4.4G百分之八十一点九表5. LIF神经元指数德夫孔夫AxialShiftFP LIF精度（一）√√√√√√81.3%[30]（b）第（1）款81.66%（c）第81.56%（1）款（d）其他事项81.87%表6. τ和Vth的烧蚀研究可学习Init前1精度τVth791×√×√√0.250.250.250.250.500.2500.250.581.4980.9881.6881.8781.52在表6中。我们可以看到，可学习的τ和Vth明显优于不可学习的τ和V th。对于可学习值，合理的初始值也会对最终结果产生影响。根据我们的实验结果，初始值0.25对于τ和V，th都优于其他。我们应用0.25/ 0.25到我们所有的分类，检测和分割实验。表7.不同LIF组LIF基团247INF准确度（%）81.6081.8781.6881.53我们还探索了最佳超参数g，它代表LIF神经元的组数我们在几种不同的g下评估结果，结果如表7所示。表中的Inf意味着我们应用全局LIF而不是组LIF。我们可以发现全局LIF的性能明显不如组LIF，并且当g=4时准确度最高。所以我们在所有其他实验中调整g=44.5. 与SNN的在这里，我们还对SNN-MLP模型和传统SNN模型进行了简要比较，如表4所示。正如我们在第2.1节中提到的，基于转换的方法，包括ANN-SNN转换[23]和校准[29]，可以达到可接受的精度，同时需要大的这导致不可接受的延迟。另一种方法是直接训练SNN模型，如STBP系列，它需要更少的时间步长，792MLPVshiftHShiftMLPMLPMLPMLP+dwconvVLIFHLIFMLPMLPMLPMLP+dwconvMLPMLPMLPMLP+dwconvVshift HShiftMLPMLPMLP(a)（b）（c）（d）图4.消融研究中比较的模块。在准确性上得到更差的性能。与传统的SNN方法相比，本文的SNN-MLP模型以使用全精度激活代替二进制激活为代价，在不需要时间步长的情况下，获得了更高的精度。4.6. 各种LIF模表8.各种LIF模块方法添加LIF子GELU子AS精度81.38%81.21%81.87%我们还尝试将LIF神经元与MLP以不同的方式。我们尝试将LIF神经元直接添加到AS-MLP模型的每个阶段的末尾，或者替代MLP模块中的GELU激活。这两种选择都不如我们最终的模型，实际上取代了轴移模块。基于AS-MLP-T模型的对比实验如表8所示。我们可以发现添加LIF神经元和替代GELU 分别仅达到81.38%和81.21%，这远远低于我们最终的选择。4.7. 可视化我们提供了一些可视化结果来帮助理解我们的设计。漏火法实际上去除了一些噪声和不重要的信息，而积分法则做了一些补偿，以避免信息的完全丢失。从图5中，我们可以发现LIF神经元与Ax相比提取更好的纹理特征ialShift模块和AxialShift模块只是使它更像原始图像。5. 结论在本文中，我们将LIF神经元的机制我们提出了一种全精度的LIF操作来实现斑块之间的通信，在该操作中，我们用空间斑块代替时间步长。此外，我们提出了组LIF提取更好的局部特征。在此基础上，设计了水平LIF和垂直LIF模块，分别处理不同方向的特征。我们在不同的计算机视觉任务上评估了我们的方法，包括分类、检测和精液分割。在ImageNet-1 k数据集上，我们的 SNN-MLP 模型在不同尺度下分别达到了81.9%、83.3%和83.5%的top-1准确率，所有这些都高于基础AS-MLP模型。对于检测和语义分割任务，我们分别在COCO和ADE 20 k数据集上进行评估，并且都使用最先进的主干（包括 AS-MLP 和 Swin-Transformer）实现了可比较的结果最后，我们进行了几个消融研究，以显示我们的方法的有效性。在未来，我们将继续探索和提高我们的LIF神经元在各种视觉任务中的效用，包括检测和语义分割。我们也会尝试将LIF神经元与更多的MLP和Transformer骨架结合起来。(a)（b）（c）（d）（e）（f）（g）图5.可视化结果。(a)原始图像。（b）（c）AS-MLP-T模型第1/2区块的特征图。（d）（e）SNN-MLP-T模型的第1/2块（f）（g）AS-MLP-T和SNN-MLP-T的GradCAM结果793引用[1] Mohsen Ahmadi，Abbas Sharifi，Shayan Hassantabar，and Saman Enayati. Qais-dsnn：基于优化量子匹配滤波技术和深度尖峰神经网络的mri图像肿瘤区域分割。国际生物医学研究，2021，2021。2[2] Filipp Akopyan，Jun Sawada，Andrew Cassidy，RodrigoAlvarez-Icaza ， John Arthur ， Paul Merolla ， NabilImam ， Yu- taka Nakamura ， Pallab Datta ， Gi-JoonNam，et al. Truoputh：Design and tool flow of a 65 mw 1million neuron programmable neurosynaptic chip.IEEEtransactionsoncomputer-aideddesignofintegratedcircuits and systems，34（10）：1537-1557，2015。2[3] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在IEEE/CVF计算机视觉和模式识别会议的论文集，第12299-12310页2[4] 陈凯，庞江苗，王佳琪，熊宇，李晓，孙树阳，冯万森，刘紫薇，石建平，欧阳万里，等。混合任务级联实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第4974- 4983页，2019年。1、6[5] 陈凯，王佳琪，庞江苗，曹宇航，等. MMDecision：Open mmlab detection toolbox and benchmark. arXiv预印本arXiv：1906.07155，2019。6[6] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。7[7] 陈守法，谢恩泽，葛崇建，丁良，罗平。Cyclemlp：一种类似 mlp 的密集预测架构 arXiv 预印本 arXiv ：2107.10224，2021。三、五[8] MM分割贡献者。MMSegmentation ： Openmmlab 语义分割工具箱和基准。https：//GitHub.com/open-mmlab/mmsegmentation，2020. 6[9] Mike Davies ， Narayan Srinivasa ， Tsung-Han Lin ，Gautham Chinya，Yongqiang Cao，Sri Harsha Choday，Georgios Di- mou，Prasad Joshi，Nabil Imam，ShwetaJain，et al. Loihi：A neuromorphic manycore processorwith on-chip learning.ICP-Micro，38（1）：82-99，2018。2[10] 彼得·达扬，劳伦斯·F·阿伯特，等人，理论神经科学：神经系统的计算和数学建模 Journal of CognitiveNeuroscience，15（1）：1542[11] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. arXiv预印本arXiv：2010.11929，2020。一、二[12] Jun Fu ， Jing Liu ，

下载后可阅读完整内容，剩余1页未读，立即下载