没有合适的资源?快使用搜索试试~ 我知道了~
783具有尖峰神经元的脑激励多层感知器李文硕1,陈汉婷1,2,郭建元1,张紫阳1,王云鹤11华为诺亚2机器感知教育部重点实验室(MoE)北京大学机器智能学院liwenshuo@huawei.com,yunhe.wang @ huawei.com摘要近年来,多层感知器(MLP)成为计算机视觉领域的研究热点。在没有诱导偏差的情况下,MLP在特征提取上表现良好,取得了令人惊讶的结果。 然而,由于简单的-它们的结构复杂,性能高度依赖于局部特征的通信机制。为了进一步提高MLP的性能,我们引入了来自脑启发神经网络的信息通信机制。尖峰神经网络(Spiking Neural Network,SNN)是最著名的脑启发式神经网络,在处理稀疏数据方面取得了巨大的成功。SNN中的Leaky Integrate and Fire(LIF)神经元用于不同时间步长之间的通信。在本文中,我们将LIF神经元的机制纳入MLP模型,以实现更好的准确性,而无需额外的FLOP。我们提出了一个全精度的LIF操作,以沟通之间的补丁,包括水平LIF和垂直LIF在不同的方向。我们还建议使用组LIF来提取更好的局部特征。使用LIF模块,我们的SNN-MLP模型在ImageNet数据集上分别实现了81.9%,83.3%和83.5%的top- 1准确率,分别只有4.4G,8.5G和15.2G FLOP,据我们所知 , 这 是 最 先 进 的 结 果 。 源 代 码 将 在 https ://gitee.com/mindspore/models/tree/master/research/cv/snn mlp上提供。1. 介绍在归纳偏差的帮助下,卷积神经网络(CNN)已成为几种计算机视觉任务中最流行的算法,包括图像分类[19],语义分割[52]和对象检测[4,18]。与MLP相比,CNN更容易训练,参数更少,但归纳偏差也限制了其学习能力。如今,CNN正面临着来自新型视觉骨干的挑战,如变形金刚和*通讯作者MLP 。 Transformer [47] 最 初 是 在 自 然 语 言 处 理(NLP)领域提出的,研究人员发现自注意机制也适用于计算机视觉任务[11]。MLP在学术界受到广泛关注,研究者发现MLP等简单操作在没有归纳偏差的情况下,MLP在更大的数据集上表现出更好的学习能力。使用Transformer和MLP的关键点是将图像划分为补丁,然后将计算应用目前,研究的热点之一是如何在斑块之间进行通信。置换[22]和移位运算[30,56]是最常见的选择,它们都取得了令人钦佩的结果。在信息通信方面,SNN [34]有成熟的机制来处理它。SNN是一种大脑启发的神经网络,经常用于处理稀疏数据,例如动态视觉传感器(DVS)[28]。SNN的能量效率具有很强的竞争力,但与CNN相比,SNN的准确性有所损失。从CNN/ANN到SNN的转换通常意味着ImageNet上高达10%的准确率下降和高达数百甚至数千的大时间步长。近年来,SNN的研究主要分为两个方向。其中一个展示了如何更有效地将CNN转换为SNN,并且损失更少[40,41]。另一个展示了如何直接训练SNN以达到与CNN相当的准确性[50,59]。现在,最先进的ANN-SNN转换可以适应经典的CNN模型 , 当 时 间 步 长 大 于 1000 时 , 准 确 度 仅 下 降 1%-2%[41]。最先进的SNN训练方法可以在不到10个时间步长的情况下实现5%-8%的准确率下降[50,59]。更多 的 时 间 步 长 意 味 着 更 大 的 延 迟 , 因 此 SNN 在ImageNet等通用视觉数据集上的性能仍然不能令人满意。正如我们之前提到的,尖峰神经元用于在不同的时间步长之间进行通信。在本文中,我们引入了大脑启发的尖峰神经元(即本文中的LIF模块)来传达MLP模型中的补丁之间的信息。我们以全精度的方式利用LIF神经元来保持来自输入块的信息。此外,我们提出了水平LIF和784(a)(b)第(1)款图1.(a)FLOPs-Accuracy Pareto frontier。(b)产出-准确性帕累托边界。所提出的SNN-MLP在FLOPs-Accuracy和吞吐量-Accuracy权衡方面在这些MLP中实现了最佳垂直LIF用于不同方向的知识继承,而组LIF用于提取更好的局部特征。分类、分割和检测实验表明,SNN-MLP模型可以达到现有MLP模型的最佳性能。特别是,该模型在ImageNet数据集上分别实现了81.9%,83.3%和83.5%的浮点数-精度帕累托边界如图1所示。2. 相关作品2.1. 尖峰神经网络脉冲神经网络是一种受大脑启发的神经网络。有多种尖峰神经模型,如Leaky Integrate and Fire(LIF)[10],Hodgkin-Huxley(H-H)[21]和Izhikevich [25]。LIF模型是最常用的,因为它是简单和有效的实现。与CNN不同的是,SNN最初并不是用基于梯度的监督学习设计的。训练SNN的传统方法是尖峰时间依赖可塑性(STDP)[35],这是一种无监督学习方法。STDP的主要缺点是不能利用全局信息,限制了转换速度。这导致其在大型模型上的应用困难因此,提出了几种基于梯度的SNN训练方法。Wu等人提出了显式迭代LIF神经元[50],以进行更快更好的训练。Zheng等人。[59]提出了阈值相关的批量归一化,并进一步改进了直接训练过程。基于梯度的训练方法的优点在于,训练好的SNN只需要几个时间步长,比如t=6或者t=10,所以延迟是可接受的。不幸的是,阿尔-虽然已经做了很多努力,但仍然存在很大的问题,直接训练的SNN和CNN之间的准确性差距。获得SNN模型的另一种方法是将经过良好训练的ANN/CNN转换为SNN。这种转换几乎可以保持原始ANN/CNN的准确性。非尖峰ANN/CNN首先正常训练,然后通过计算发射率转换为尖峰神经元[40,41]。最近,有一些工作将转换和训练过程结合起来,例如渐进转换[42]和转换作为初始化[39]。然而,为了补偿从全精度转换到二进制输出时的精度损失,该转换过程总是需要很大的时间步长,因此难以实现令人满意的延迟。此外,转换算法在超深神经网络上的性能较差。为了解决这些问题,Li等人[29]提出了一种校准方法,以在更少的步骤下提高转换SNN的准确度,如T=128或T=256。尽管如此,SNN在深度神经网络Mo-bileNet上的准确率损失了7%,T=128。随着训练或转换技术的发展,神经网络的应用范围也在逐步扩大。一些研究人员一直在探索将SNN应用于各种计算机视觉任务的可能性,包括分割[27,37]和检测[26]。在生物医学领域,SNN在MRI图像分割[1]和ECG分类[54]等任务上受到广泛关注。同时,在SNN的硬件平台上也有很多工作,如TrueNorth [2]和Loihi [9]。虽然人们已经做了很多努力,但SNN的精度仍然不是最先进的。2.2. 变压器和MLPTransformer [47]广泛用于NLP任务,因为它们可以高度并行化。Vision Transformer(ViT)[11]首先将Transformer引入分类任务,并将Transformer编码器应用于extrace特征。变压器很快就被用于各种计算机视觉任务,包括检测[61]和低级视觉任务[3]。DeiT [46]提出在ViT的基础上使用蒸馏来改进训练过程TNT [16]提出通过将Transformers嵌入Transformers来对贴片的内部信息进行建模。轻型变压器也受到关注,如Lite-Transformer [51]和ViT-Lite [17]。最新的研究,如CvT[49]和785(3,224,224)(8n、28/p、28/p)MLP+dwconvVLIFHLIFMLPMLPMLP× ××ppDT××LIF阻滞(n,224/p,224/p)x NLIF模块MLP模块图2.我们提出的SNN-MLP的框架CMT [14],专注于合并CNN和Transformer,以吸收两种架构的优势。与此同时,研究人员发现,用MLP代替复杂的多头自注意操作会产生很好的效果。 在20世纪80年代,MLP曾经风靡一时。现在的MLP与旧的MLP不同,因为它们需要将图像嵌入到补丁中,然后在这些补丁上提取特征。MLP混合器[44]率先声称MLP和变压器一样工作。它们使用置换操作在补丁之间进行通信。MLP的一般结构通常包括两个主要部分,通道混合模块和令牌混合模块(置换、移位等)。以下工作size3p p,其中p表示补丁图像的高度和宽度,然后随后的MLP层将每个补丁嵌入到n维向量中。最后我们得到了一个nHW特征图。特征图被馈送到我们的四阶段LIF块中。一个LIF块包含一个LIF模块和一个MLP模块。在LIF块中,LIF模块负责令牌混合作业,而MLP块负责声道混合作业。如果它是最后三个阶段的最后一个块,则还有一个补丁合并模块,该模块将每个2 2个相邻补丁的特征拆分为四个通道,将它们连接起来,然后使用线性层将通道数量减少到一半。最后,特征的大小地图变成n× H3× W3。然后,分类器生成p×2p ×2正在致力于改进代币混合过程。ViP [22]在H-C和W-C维度上进行排列以提取特征。 S2-MLP [56]、cycle-MLP [7]和AS-MLP [30]使用移位操作来交织来自不同补丁的信息。最近,研究人员提出了更多新的想法来更好地聚合令牌信息,如分层重排[15]和相位感知表示[43]。总之,令牌之间的信息通信机制对MLP模型的性能至关重要。3. 该方法最终特征图的概率向量。SNN-MLP的变体具有不同的嵌入尺寸和块的数量微小型、小型型和基本型的嵌入维数n分别为96、96、128阶段1、2和4的块的数量对于所有变量是2,而阶段3的块的数量对于不同大小是6、18、18。3.2.全精度LIF在这一节中,我们简要介绍了传统的LIF神经元和我们对它的改进。经典的LIF模型的参数可以建模如下3.1. 框架杜o=0,τ=−u+I,uV<(一)在这里,我们首先展示SNN-MLP模型的框架,如图2的左侧所示。每个模块的详细结构将在以下章节中介绍。输入图像X被划分为具有o=1,u=u复位,u≥Vth(2)其中u是膜电位,I是来自上层的输入,τ是时间系数,o是输出,VthMLPMLP贴片嵌入嵌入式大小第1步第2步第3步第4步第1步第2步第1步第2步骤1步骤2贴片H步骤3步骤4贴片W垂直升降水平LIF组水平LIF图3.我们如何将LIF神经元应用于特征图。LIF模块MLP模块面片合并FFN日786ΣJ我j−1n电话+1电话+1电话+1YΣ是这个神经元的点火阈值当激发尖峰时,膜电位u被重置为ureset。联系我们rn已经做出了许多努力来将LIF神经元应用于=t+1=布里尔·(1−o)的情况。 (十三)深度神经网络,最成功的尝试是迭代LIF [50].Vthn电话+1Vthn电话+1电话+1nt+1=10WTx,(3)L端=∂L∂rint+1n无无无无无无无∂ynrinut+1=τut(1−ot)+yt+1,(4)电话+1i=t+1t+1j=t+2j−1(十四)n n(5)最后我ot+1 = ut+1> Vth。下标t表示时间步长,上标n表示层索引。元素W、x和y分别表示权重、输入和输出。在这=i=t+13.3. LIF模块L;·我·j=Yt+2 τ(1−o n)。我们希望采用LIF机制作为一种-ken混合法与传统的LIF神经元在时域上的积累不同公式中的t表示补丁的索引,而不是我们设计中的时间步长。由于输入特征是全精度的,因此我们更喜欢全精度的输出,以保留补丁中的信息为了满足我们的需求,我们提出了以下全精度LIF函数:杜o=0,τdt=−u+I,u Vth(6)o=u,u=u复位,u≥Vth(7)我们将输出1替换为u,因此保留了全精度信息。将我们的全精度LIF模型应用于迭代LIF,然后我们得到:算法1SNN-MLP的PyTorch类代码deflif(x,dir=2):对于范围内的步长(组):如果dir== 2:u,o,x[:,:,step::groups,:]=lif(u,o,x[:,:,step::groups,:])否则:u,o,x[:,step::groups]=lif(u,o,x[:,step::groups])returnxdef lif_module_forward(x):x = gelu(norm(mlp(x)x = gelu(norm(dwconv(x)x_v = gelu(mlp(vlif(x)x_h = gelu(mlp(hlif(x)x = mlp(norm(x_v +x_h))returnxdefmlp_module_forward(x):x = dropout(gelu(mlp(x)))x = gelu(mlp(x))nt+1=10WTx,(8)returnxdefSNN_MLP_forward(x):un=τun(1−on)+yn、(9)x = patch_embed_forward(x)t+1tt t+1对于范围(4)中的i:nt+1nt+1> Vth,(10)对于range(block_num[i])中的j:nt+1=max(un,V th)。(十一)x = lif_module_forward(x)x =mlp_module_forward(x)注意,rn是t+1步的最终全精度输出,on只是记录t+1步输出状态的临时变量。系数τ和Vth是可学习的。我们将在4.4节讨论τ和Vth的初始化.由于不同的面片被视为不同的时间步长,我们得到了一个可以在面片之间进n布里尔y厄舒我yO=uR787布里尔(uj−1t−iY行通信的全精度迭代LIF神经元。利用这种显式迭代的LIF神经元,可以用链式法则完成反向传播过程。如果j == 0且 i = 3:x = patch_merging_forward(x)x = classifier(x)returnx最后介绍了我们的LIF模块。我们的LIF模块的结构如图2所示。与AxialShift块不同的是,我们在第一个MLP层之后添加了一个dwconv,并用我们的LIF神经元替换移位操作由于迭代LIF神经元本质上是一种激活,nt−1nt+1n函数,需要在前面添加一个dwconv层L=∂τ布里尔厄舒∂τ(j)迭代的LIF神经元。n电话+1nt+1i=0不j=t+2−i电话+1nj−1下一个问题是确定通信的顺序在不同的补丁之间嵌套遵循以下理念:L=n电话+1nt+1nt−ii=0时(1−on)j=t+2−iτ(1−on))。以前的工作[30],我们在两个方向上传递信息:垂直和水平。垂直的方式(12)LIF和水平LIF神经元工作如图3所示。O788∈1表1.与最先进的基于Transformer和基于MLP的模型进行比较。Top-1表示Ima-geNet 1 k数据集上的top-1精度。所有模型的输入分辨率为224×224。#参数浮点数前1名(%)[31]第三十一话20M4.5G79.4ResMLP-S24 [45]30M6.0G79.4[46]第四十六话22M4.6G79.8VIP-小型/14 [22]30M-80.5Swin-T [32]29M4.5G81.3AS-MLP-T [30]28M4.4G81.3CvT-13 [49]20M4.5G81.6循环MLP-B2 [7]27M3.9G81.6SNN-MLP-T(我们的)28M4.4G81.9MLP-混合器-B/1659M11.7G76.4[56]第56话51M10.5G80.7CvT-21 [49]32M7.1G82.5[22]第二十二话55M-82.7Swin-S [32]50M8.7G83.0循环MLP-B4 [7]52M10.1G83.0AS-MLP-S [30]50M8.5G83.1SNN-MLP-S(我们的)50M8.5G83.3[56]第56话71M14.0G80.0ResMLP-B24 [45]116M23.0G81.0gMLP-B [31]73M15.8G81.6[46]第四十六话86M17.5G81.8[22]第二十二话88M-83.2循环MLP-B5 [7]76M12.3G83.2Swin-B [32]88M15.4G83.5AS-MLP-B [30]88M15.2G83.3SNN-MLP-B(我们的)88M15.2G83.5特征图的维度是(N,C,H,W),而C是指每个块的嵌入维度,H/W是指块的高度/宽度。中间和右边的子图显示了我们的垂直LIF和水平LIF过程。以VLIF为例,在公式(6)中,第一行被称为yn那么un等于yn,我们得到on,弱相关性。此外,过多的时间步长可能会影响并行计算的效率。为了避免这个问题,我们将特征图分成几组,并将LIF神经元应用于每组。有了LIF神经元群,更紧密的模式可以相互交流图3右侧显示了group=2水平LIF的一个简单示例。第2n列,nN,首先发送到LIFneu- ron。大于Vth的值将被保留,而其他值将被设置为Vth,同时它们的值被累积到下一列中的对应元素。4. 实验我们进行了分类,检测和分割任务的实验所有代码都 是 用Python-3.6 , PyTorch-1.7 [36] 和MindSpore-1.5[24]实现的。4.1. 分类我们报告了我们在ImageNet-1 k数据集上的实验结果。ImageNet-1 k包含约128万张训练图像和50 K张验证图像,分为1000个类。这些图像都是具有各种形状的RGB图像。我们遵循一般的输入转换,将短边调整为256,然后裁剪整个图像224×224我们的培训策略遵循Swin Transformer [32]。我们使用AdamW [33]优化器来训练我们的模型300个epoch。初始学习率为0.001,具有余弦分解。前20个时期用于预热训练过程。模型在8个GPU上训练,批量大小为1024。权重衰减设置为0.05。在训练过程中,我们还应用了标签平滑和下降路径技术。我们评估我们的模型(SNN-MLP-T,SNN-MLP-S1 1比较un和Vth。 输出rn仅与ImageNet 1 k上的u n和SNN-MLP-B)相关。 结果示1 1 1而张量on只是用来确定un被累加到un。 第二步,我们进行表1中我们根据模型的参数和FLOP将模型分为三组。对于小模型,1 2对第二行进行同样的操作。 唯一的区别是un有来自un的一部分的累积值,参数数小于30M,FLOPS小于6.0G。我们的SNN-MLP-T模型实现了81.9%的top-2 1小于Vth。重复这些步骤,我们得到最终结果。HLIF的处理是相同的,除了累积向量变成列向量。我们的SNN-MLP模型的PyTorch风格代码如算法1所示。在实践中,我们应用GroupNorm如下[30]。3.4.组LIF对于传统SNN,过多的时间步长可能导致性能不佳[20]。在我们的实践中,我们也发现全局LIF有时表现不好,我们认为这可能是由于长距离信息的引入1 准确性,击败其他模型,包括gMLP-S,ResMLP-S24,ViP-Small/14,AS-MLP-T和CycleMLP- B2。对于小型号,参数和FLOP的数量低于60M和12.0G。我们的SNN-MLP-S模型也以83.3%的top-1准确率击败了其他模型对于大型模型,我们的SNN-MLP-B模型达到了83.5%的top- 1准确率。与AS-MLP模型相比,由于我们的框架与AS-MLP模型基本相同,LIF模块引入的额外计算量很少,所以FLOP和参数的数量都是相同的,但精度分别提高了0.6%、0.2%和0.2%。789×××表2. COCO数据集方法骨干APBAPB50APB75APmAPm50APm75#参数浮点数ResNet-50 [19]41.061.744.937.158.440.144M260G小型PVT [32]43.065.346.939.962.542.844M245GSwin-T [32]46.068.250.241.665.144.848M264GAS-MLP-T [30]46.067.550.741.564.644.548M260G掩模SNN-MLP-T46.067.950.941.664.944.748M261GR-CNN [18]ResNet-101 [19]42.863.247.138.560.141.363M336GPVT-中等[32]44.266.048.240.563.143.564M305GSwin-S [32]48.570.253.543.367.346.669M354GAS-MLP-S [30]47.868.952.542.966.446.369M346GSNN-MLP-S48.069.152.642.866.246.369M346G[46]第四十六话48.067.251.741.464.244.380M889GResNet-50 [19]46.364.350.540.161.743.482M739GSwin-T [32]50.569.354.943.766.647.186M745G层叠掩模R-CNN [4]AS-MLP-T [30]SNN-MLP-T50.150.368.868.954.354.643.543.666.366.546.947.186M86M739G739GResNeXt101-32 [53]Swin-S [32]48.151.866.570.452.456.341.644.763.967.945.248.5101M107M819G838GAS-MLP-S [30]51.169.855.644.267.348.1107M824GSNN-MLP-S51.470.055.644.467.348.3107M825G4.2. 检测我们在COCO数据集上评估了我们的模型,该数据集包含118K的训练数据和5K的验证数据。我们使用mmdet-v2.11 [5]框架实现我们的模型,并在两种著名的检测方法上评估我们的骨干:Mask R-CNN [18]和Cascade R-CNN [4]。为了公平地进行比较,我们使用与AS-MLP模型相同的训练策略来训练模型我们使用AdamW优化器,初始学习率为0.0001,批量大小设置为2 8GPU。重量衰减为0.05。我们还应用多尺度训练策略,在480和800之间缩放短边,最多1333缩放长边。为了评估,我们使用单一尺度(800,1333)没有翻转。ImageNet-1 k上的预训练模型用于初始化主干,然后在COCO训练集上训练模型36个epoch(3x时间表)。结果示于表2中。我们的SNN-MLP模型具有与AS-MLP模型几乎相同的#FLOP和#Param。我们的SNN-MLP-T和SNN-MLP-S实现了46.0使用Mask R-CNN方法,APb/ 41.6 APm和47.9 APb/42.7 APm ,使用Cascade Mask R-CNN方法,分别达到50.3 APb/ 43.6 APm和51.4 APb/ 44.4 APm我们可以发现,我们的SNN-MLP骨干取得了更好的结果比AS-MLP模型,也是与最先进的骨干Swin- Transformer。4.3. 语义分割我们在广泛使用的语义分割数据集ADE20K上进行了实验。ADE 20K包含20K训练图像和2K评估图像。我们选择UperNet方法与AS-MLP进行比较,并采用mmseg-v0.11 [8] 框 架 实 现 。 与 AS-MLP 相 同 , 我 们 使 用AdamW优化器,6e−5初始学习率28个GPU和0.01重量衰减。对于数据aumenta-的作用,我们应用随机调整大小的比例范围(0。五二0)、具有概率0.5的随机翻转、具有最大比率0.75的随机裁剪输入图像最后裁剪为512 512分辨率。在评估时,我们应用多尺度增强,并将比率设置为(0。5,0。75,1。0,1。25,1。五一75)。我们训练模型进行160 K次迭代,ImageNet-1 k预训练模型用于初始化主干。结果示于表3中。我们的SNN-MLP-T、SNN-MLP-S和SNN-MLP-B模型实现了46.5、49.0和49.4的多尺度mIoU,这与AS-MLP模型相当。此外,我们的模型达到45.6,48.1和48.4单规模mIoU,明显优于Swin Transformer主干。4.4. 消融研究在本节中,我们探索超参数的最佳设置,包括LIF神经元组、LIF参数Vth和τ。我们的LIF模块的有效性也进行了评估。所有实验均基于SNN-MLP-T模型。我们训练和评估了四种类型的模型,如图4所示,结果如表5所示。原始AS-MLP-T模型仅实现了81.3%的Top-1准确度,而dwconv+移位模块(图4(b))实现了81.66%。我们可以发现,我们的dwconv和LIF神经元一起达到最好的准确率81.87%,这验证了他们的有效性。显示了不同τ和Vth设置790表3. ADE20K数据集方法骨干Val#参数浮点数ms mIoUss mIoUDANet [12]45.2-69M小行星1119Dlab.V3+[6]44.1-63M1021GACNet [13][55]第五十五话ResNet-101 [19]45.946.0---69M-1249GOCRNet [57]45.3-56M923GUperNet [52]44.9-86M1029GOCRNet [57][第48话]45.7-71M664GDLab.v3+[6][58]第五十八话46.9-66M1051GDLab.v3+[6][58]第五十八话48.4-88M1381GSETR [60]T-大号50.3-308M-[46]第四十六话44.0-52M1099GSwin-T [32]45.844.560M945GSwin-S [32]49.547.681M1038GUperNet [52]Swin-B [32]49.748.1121M1188GAS-MLP-T [30]46.5-60M小行星937GAS-MLP-S [30]49.2-81M1024GAS-MLP-B [30]49.5-121M小行星1166SNN-MLP-T46.545.660M小行星937GUperNet [52]SNN-MLP-S49.048.181M1025GSNN-MLP-B49.448.4121M小行星1167表4.与传统SNN模型的模型方法激活时间步长#paramFLOPs精度ResNet-34 [19]ANN-SNN转换[23]二进制76822M3.7G71.6%ResNet-34 [19][39]第三十九话二进制25022M3.7G百分之六十一点五ResNet-34 [19]STBP-tdBN [59]二进制622M3.7G百分之六十三点七ResNet-34 [19]校准[29]二进制25622M3.7G百分之七十四点六RegNetX-4GF [38]校准[29]二进制25621M4.0G百分之七十七点五SNN-MLP-T-FP32-28M4.4G百分之八十一点九表5. LIF神经元指数德夫孔夫AxialShiftFP LIF精度(一)√√√√√√81.3%[30](b)第(1)款81.66%(c)第81.56%(1)款(d)其他事项81.87%表6. τ和Vth的烧蚀研究可学习Init前1精度τVth791×√×√√0.250.250.250.250.500.2500.250.581.4980.9881.6881.8781.52在表6中。我们可以看到,可学习的τ和Vth明显优于不可学习的τ和V th。对于可学习值,合理的初始值也会对最终结果产生影响。根据我们的实验结果,初始值0.25对于τ和V,th都优于其他。我们应用0.25/ 0.25到我们所有的分类,检测和分割实验。表7.不同LIF组LIF基团247INF准确度(%)81.6081.8781.6881.53我们还探索了最佳超参数g,它代表LIF神经元的组数我们在几种不同的g下评估结果,结果如表7所示。表中的Inf意味着我们应用全局LIF而不是组LIF。我们可以发现全局LIF的性能明显不如组LIF,并且当g=4时准确度最高。所以我们在所有其他实验中调整g=44.5. 与SNN的在这里,我们还对SNN-MLP模型和传统SNN模型进行了简要比较,如表4所示。正如我们在第2.1节中提到的,基于转换的方法,包括ANN-SNN转换[23]和校准[29],可以达到可接受的精度,同时需要大的这导致不可接受的延迟。另一种方法是直接训练SNN模型,如STBP系列,它需要更少的时间步长,792MLPVshiftHShiftMLPMLPMLPMLP+dwconvVLIFHLIFMLPMLPMLPMLP+dwconvMLPMLPMLPMLP+dwconvVshift HShiftMLPMLPMLP(a)(b)(c)(d)图4.消融研究中比较的模块。在准确性上得到更差的性能。与传统的SNN方法相比,本文的SNN-MLP模型以使用全精度激活代替二进制激活为代价,在不需要时间步长的情况下,获得了更高的精度。4.6. 各种LIF模表8.各种LIF模块方法添加LIF子GELU子AS精度81.38%81.21%81.87%我们还尝试将LIF神经元与MLP以不同的方式。我们尝试将LIF神经元直接添加到AS-MLP模型的每个阶段的末尾,或者替代MLP模块中的GELU激活。这两种选择都不如我们最终的模型,实际上取代了轴移模块。基于AS-MLP-T模型的对比实验如表8所示。我们可以发现添加LIF神经元和替代GELU 分别仅达到81.38%和81.21%,这远远低于我们最终的选择。4.7. 可视化我们提供了一些可视化结果来帮助理解我们的设计。漏火法实际上去除了一些噪声和不重要的信息,而积分法则做了一些补偿,以避免信息的完全丢失。从图5中,我们可以发现LIF神经元与Ax相比提取更好的纹理特征ialShift模块和AxialShift模块只是使它更像原始图像。5. 结论在本文中,我们将LIF神经元的机制我们提出了一种全精度的LIF操作来实现斑块之间的通信,在该操作中,我们用空间斑块代替时间步长。此外,我们提出了组LIF提取更好的局部特征。在此基础上,设计了水平LIF和垂直LIF模块,分别处理不同方向的特征。我们在不同的计算机视觉任务上评估了我们的方法,包括分类、检测和精液分割。在ImageNet-1 k数据集上,我 们 的 SNN-MLP 模 型 在 不 同 尺 度 下 分 别 达 到 了81.9%、83.3%和83.5%的top-1准确率,所有这些都高于基础AS-MLP模型。对于检测和语义分割任务,我们分别在COCO和ADE 20 k数据集上进行评估,并且都 使 用 最 先 进 的 主 干 ( 包 括 AS-MLP 和 Swin-Transformer)实现了可比较的结果最后,我们进行了几个消融研究,以显示我们的方法的有效性。在未来,我们将继续探索和提高我们的LIF神经元在各种视觉任务中的效用,包括检测和语义分割。我们也会尝试将LIF神经元与更多的MLP和Transformer骨架结合起来。(a)(b)(c)(d)(e)(f)(g)图5.可视化结果。(a)原始图像。(b)(c)AS-MLP-T模型第1/2区块的特征图。(d)(e)SNN-MLP-T模型的第1/2块(f)(g)AS-MLP-T和SNN-MLP-T的GradCAM结果793引用[1] Mohsen Ahmadi,Abbas Sharifi,Shayan Hassantabar,and Saman Enayati. Qais-dsnn:基于优化量子匹配滤波技术和深度尖峰神经网络的mri图像肿瘤区域分割。国际生物医学研究,2021,2021。2[2] Filipp Akopyan,Jun Sawada,Andrew Cassidy,RodrigoAlvarez-Icaza , John Arthur , Paul Merolla , NabilImam , Yu- taka Nakamura , Pallab Datta , Gi-JoonNam,et al. Truoputh:Design and tool flow of a 65 mw 1million neuron programmable neurosynaptic chip.IEEEtransactionsoncomputer-aideddesignofintegratedcircuits and systems,34(10):1537-1557,2015。2[3] Hanting Chen,Yunhe Wang,Tanyu Guo,Chang Xu,Yiping Deng,Zhenhua Liu,Siwei Ma,Chunjing Xu,Chao Xu , and Wen Gao. 预 训 练 的 图 像 处 理Transformer。在IEEE/CVF计算机视觉和模式识别会议的论文集,第12299-12310页2[4] 陈凯,庞江苗,王佳琪,熊宇,李晓,孙树阳,冯万森,刘紫薇,石建平,欧阳万里,等。混合任务级联实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第4974- 4983页,2019年。1、6[5] 陈凯,王佳琪,庞江苗,曹宇航,等. MMDecision:Open mmlab detection toolbox and benchmark. arXiv预印本arXiv:1906.07155,2019。6[6] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页,2018年。7[7] 陈守法,谢恩泽,葛崇建,丁良,罗平。Cyclemlp:一种 类 似 mlp 的 密 集 预 测 架 构 arXiv 预 印 本 arXiv :2107.10224,2021。三、五[8] MM分割贡献者。MMSegmentation : Openmmlab 语 义 分 割 工 具 箱 和 基准。https://GitHub.com/open-mmlab/mmsegmentation,2020. 6[9] Mike Davies , Narayan Srinivasa , Tsung-Han Lin ,Gautham Chinya,Yongqiang Cao,Sri Harsha Choday,Georgios Di- mou,Prasad Joshi,Nabil Imam,ShwetaJain,et al. Loihi:A neuromorphic manycore processorwith on-chip learning.ICP-Micro,38(1):82-99,2018。2[10] 彼得·达扬,劳伦斯·F·阿伯特,等人,理论神经科学:神 经 系 统 的 计 算 和 数 学 建 模 Journal of CognitiveNeuroscience,15(1):1542[11] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. arXiv预印本arXiv:2010.11929,2020。一、二[12] Jun Fu , Jing Liu ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功