基于事件的电位辅助脉冲神经网络视频重建

97 浏览量更新于2023-10-25 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3594××基于事件的电位辅助脉冲神经网络视频重建朱林1，2，王晓2，常毅2，李佳宁1，2，黄铁军1，田永红1，2，王伟北京大学1，鹏程实验室2摘要神经形态视觉传感器是一种新的生物启发的成像范例，报告异步，连续每像素的亮度变化，称为到目前为止，基于事件的图像重建方法是基于人工神经网络（ANN）或手工制作的时空平滑技术。在本文中，我们首先实现了图像重建工作，通过深尖峰神经网络（SNN）架构。作为生物启发的神经网络，SNN以随时间分布的异步二进制尖峰操作提出了一种基于事件的视频重建框架，该框架基于完全脉冲神经网络（EVSNN），利用了泄漏积分激发（LIF）神经元和膜电位（MP）神经元。我们发现，尖峰神经元有潜力存储有用的时间信息（记忆），以完成这种时间依赖的任务。此外，为了更好地利用时间信息，我们提出了一个混合电位辅助框架（PA-EVSNN）使用的膜电位的尖峰神经元。该神经元被称为自适应膜电位（AM-P）神经元，它根据输入尖峰信号自适应地更新膜电位。实验结果表明，我们的模型在IJRR，MVSEC和HQF数据集上实现了与基于ANN的模型相当的性能。EVSNN和PA-EVSNN的能量消耗分别比其ANN结构的代码和预训练模型可在 https ： //sites 获得。google.com/view/evsnn.1. 介绍事件摄像机[2，5]是生物启发的视觉传感器，其在获取视觉信息的方式上构成范式转变。与标准相机相比，事件相机具有高时间分辨率、高动态范围（140dB*通讯作者。与标准摄像机的60 dB），和低功耗。事件摄像机异步工作，记录事件流（t，x，y，p），其中包括时间戳，像素位置和亮度变化的极性。尽管事件数据具有优势，但它对人类视觉和传统计算机视觉并不友好[48，53]。作为一种解决方案，图像重建弥合了人类可视化和事件之间的差距，让我们直观地了解事件编码的丰富信息另一方面，图像是传统的基于帧的计算机视觉的有用表示[42]。从非同步事件中重建图像的方法已经在各种研究中进行了探索。早期的作品试图从基于手工制作的先验的事件中恢复图像的强度[46，47，3，30]。最近，基于深度神经网络的重建模型[52，42，43，48，50，34，55]表现出令人印象深刻的性能。这些事件通常被转换成时间表面、事件图像或体素网格作为卷积神经网络的输入。然而，大型人工神经网络（ANN）可能是内存和计算密集型的[48]，消耗功率并妨碍事件摄像机的低延迟。事实上，稀疏事件数据可以有效地与神经形态硬件结合，用于低功耗尖峰神经网络（SNN）应用[14]。与人工神经网络相比，SNN更具有生物学现实性，其神经元之间通过离散尖峰信号而不是连续值激活进行通信。用SNN和事件相机构建的视觉系统[32，1然而，到目前为止，大部分SNN工作都集中在分类[10，59，62]，光学估计[35，15]，运动分割[33]和角速度回归[11]等问题据我们所知，我们是第一个尝试基于深度SNN架构的图像重建任务。在本文中，我们提出了一种新的基于事件的视频重建框架的基础上完全尖峰神经网络（EVSNN），它利用泄漏集成和发射（LIF）神经元和膜电位（MP）神经元。为了更好地提取时间信息，我们提出了一个混合势辅助框架（PA-EVSNN），3595××××∑∆T|−|−−尖峰神经元的膜电位。本文的主要工作概括如下：1) 我们首先探索了一种基于事件的图像重建的全脉冲神经网络（EVSNN）架构，它利用LIF神经元和MP神经元。这也是第一次尝试为图像重建任务开发深度SNN。2) 我们提出了一种混合电位辅助 SNN （ PA-EVSNN），它使用自适应膜电位（AMP）神经元来改善EVSNN的时间感受野AMP神经元可以根据输入峰电位的变化调整膜时间常数，以适应不同的重建场景。3) 在公共数据集上的实验表明，所提出的模型具有与基于ex-ANN的模型相当的性能，而EVSNN和PA-EVSNN的能量消耗分别比其ANN架构高19.36和7.75。与E2 VID相比，所提出的EVSNN和PA-EVSNN分别实现了24.15和8.76的计算效率改进。2. 相关工作Spiking神经网络的监督学习首先由SpikeProp [4]提出，它采用线性逼近克服了SNN的不可微阈值触发机制，利用反向传播更新权值。出现了一些应用于单层SNN优化的工作，包括Tem- potron [13]，Re-SuMe [37]和SPAN [28]。最近，替代梯度方法为训练多层SNN提供了有效的解决方案[25，18，57，49，24，19]。它利用替代导数来定义阈值触发击发机制的导数。因此，SNN可以像ANN一样通过梯度下降算法进行优化，这使得深度SNN的训练成为可能。到目前为止，大多数基于学习的SNN工作都集中在分类[10，59，62]，优化，cal估计[35，15，15]，运动分割[33]和角速度回归[11]。还有一些未监督的SNN [67，63]提出用于基于尖峰相机的图像重建[66]。其中，[15]和[38]分别利用深度SNN进行光学和深度估计此外，Lee等人 [23]提出了一种用于光学估计的ANN-SNN混合架构，使用SNN作为编码器，ANN作为解码器和残差块。Zhang等人。[61]提出了用于基于事件的合成孔径成像的ANN-SNN混合网络。基于事件的视频重建视频重建是基于事件的视觉领域的一个重要课题。早期的重建工作是基于手工制作的功能，以估计事件的强度，例如。优化[3]、正则化[30]和时间滤波[46，47]。一些工作-图1.框架的事件表示和工作流程. 事件流（红点/蓝点分别表示开/关事件）被分割为多个窗口，并转换为连续的体素网格。每个体素网格包括具有不同信息的N个时间面元。我们的SNN递归使用每个尖峰神经元的当前单通道时间仓和最后一个膜电位来在每个时刻生成新的重建。s [7，20，41]也应用SLAM来估计亮度。最近，深度学习方法在基于事件的视频重建方面表现出令人印象深刻的性能。 Wang 等人。 [52] 利用生成对抗网络（GAN）来重建真实灰度帧的强度。E2 VID模型是基于U-Net [44]模型的。该网络以监督的方式使用从ESIM生成的合成数据集进行训练[40]。Scheerlinck等人。 [48]提出了一个轻量级框架，以实现快速推理速度，而精度只有微小的下降。Stoffregen等人。 [50]建议使用更复杂的合成数据集来训练网络，从而在真实数据集上带来大幅性能提升。Federico等人。 [34]提出了一种新的图像重建自监督学习方法，摆脱了训练数据。 Weng等人 [55]提出了一种用于图像重建的混合CNN-变压器网络。在这项工作中，与上述基于ANN的模型不同，我们首先提出使用节能的深度SNN模型来从事件流重建视频。3. 方法3.1. 输入表示为了用SNN处理异步事件，需要将事件数据转换为包含时间信息的事件表示在这项工作中，我们使用连续体素网格[65]来训练和测试我们的模型，其定义为：E（x，y，t n）=ip imax（0，1tn ti），其中ti=B−1（tit0），ti是归一化的事件时间戳。如图1，事件流可以自适应地划分为体素网格的连续仓3.2. 尖峰发放神经元ANN和SNN可以建模相同类型的网络拓扑，但SNN用尖峰神经元模型代替人工神经元模型。人工神经元模型3596Dt- -·≥××××对输入的加权和进行操作，并通过sigmoid或ReLU非线性传递结果。在SNN中，输入的加权和有助于尖峰神经元的膜电位。如果尖峰神经元的膜电位达到阈值，则神经元将向其后续连接发出尖峰SNN中的信息通过离散的尖峰信号传播，因此尖峰神经元是基本的计算单元。Leaky Integrate-and-Fire（LIF）模型el [12]是SNN中广泛使用的神经元模型，它比Integrate-and-Fire（IF）神经元模型更具生物学现实性。LIF神经元的阈下动力学定义为τdV（t）=（V（t）Vrest）+X（t），其中V（t）表示神经元在时间t的膜电位，X（t）表示神经元的输入，τ是膜时间常数。如果V（t）超过阈值V_th，则尖峰激发。V_rest是激发后的静息电位为了更好地代表-我们将上述方程改写为离散形式：图2. LIF神经元和MP LIF神经元的动力学。对于LIF神经元，如果膜电位达到阈值，则神经元将向其后续连接发出尖峰并重置为静息状态。在每个时间步，MP LIF神经元输出其膜电位作为输入尖峰的加权和。EVSNN。EVSNN是一个完全尖峰神经网络，网络中的突触操作是SNN操作。Vt Vt−11+ τ（−（Vt−1 -V型架）+Xt）（一）PA-EVSNN共享相同的尖峰信号编码器和解码器架构，具有额外的MP神经元以改善St=H（Vt−Vth）其中Vt表示在t时神经元动力学之后的膜电位。S t表示在t处的尖峰输出，H（）表示Heaviside阶跃函数，其被定义为H（x）= 1，对于x0和H（x）= 0对于x0。我们在工作中设置Vrest=Vreset。LIF神经元在积分和放电过程中提取时间信息，但其输出是二进制尖峰信号，只能表示有限的信息。此外，在每个点火过程之后，Mt被重置，因此时间信息也部分丢失。在此基础上，我们介绍了膜电位神经元。膜电位神经元膜电位神经元（MP神经元）是输出膜电位而不是尖峰的非尖峰神经元[51，58]。在我们的图像重建任务中，MP神经元可以提取隐藏在神经元中的更多有用的时间信息MP神经元的动力学与LIF神经元相同。对于MP神经元，Mt等于Vt，因为没有尖峰放电和Vt复位过程。如果我们设置Vrest= 0，则等式1可以写成：1 1性能这两种模型都是完全卷积网络，其架构如图所示。3 .第三章。EVSNN（一个完全尖峰神经网络）我们的EVSNN是U形模型的一个变体[44]。首先，将事件数据转换为事件体素。对于每个时间步长，1W H事件体素被馈送到EVSNN中并被变换为Nc W1的大小H1，之后是N-e个编码器层、N-r个残差块、N-d个解码器层和最终图像预测层。在每个编码器层之后，通道的数量加倍。编码器层、解码器层和残差块中的所有尖峰神经元都是LIF神经元，这使得计算效率成为可能。为了确保一个完整的SNN架构，EVSNN利用级联作为尖峰跳跃连接。在最后的图像预测层，MP LIF神经元被引入到整合所有的尖峰和预测灰度图像。每个网络组件的消融可参见第2节。4.4我们使用Nc=32，Ne=Nd= 3和Nr= 1。EVSNN可以处理现有数据集中的大多数场景，计算效率是ANN结构的19.36Vt=（1−τ）Vt−1+τXtVt=Vt（二）PA-EVSNN（Potential-assisted EVSNN）EVSNN是一种能量消耗非常低的完全SNN。然而，重建性能受到二进制尖峰的限制其中Ot表示神经元在t时的输出。当量2与递归神经网络的功能相似超膜时间常数τ控制着在生成Xt和生成Vt−1之间的平衡。因此，它可以被认为是长短期记忆（LSTM）模块的简单版本[16]。3.3. 提出的SNN模型在本文中，我们提出了两个SNN架构的基于事件的重建，即EVSNN和PA-（例如，图像的灰度不够丰富）。在EVSNN的基础上，我们进一步提出了一种势辅助EVSNN模型。在每个编码器和解码器层中引入MP神经元，以帮助提取隐藏在尖峰中的时间信息。我们还提出了一种自适应膜电位（AMP）神经元，它大大增强了网络的时间感受野。注意，虽然PA-EVSNN的主干是SNN架构，但MP神经元的引入在网络中带来了非二进制尖峰（约8.4%的ANN浮点运算），因此我们认为，3597·××不·×·S·k=0Kk=L0K∑∑图3. 提出的脉冲神经网络结构。EVSNN是一个完全尖峰神经网络，由头，编码器，残差块，解码器和预测层组成。PA-EVSNN以EVSNN为骨干，引入MP神经元进一步提高性能。MP LIF表示具有LIF动力学的MP神经元。由于MP神经元引入了浮点乘法运算，我们将PA-EVSNN看作是一个混合网络。EVSNN和PA-EVSNN的能量消耗比它们的ANN结构的计算效率高19.36和7.75有关网络架构的详细信息，请参阅我们的补充资料根据等式2、理想情况下，当光线变化快时，网络应该选择一个大的τ来记住更多的新信息，同时忘记更多的上次记忆，反之亦然。由于事件度量的是光强的变化，所以平均尖峰放电率在一定程度上反映了场景的全局运动，这对于估计合适的τ是有用的。第1层中每个通道的尖峰放电率可以通过F =AvgPool（S1）来估计，其中AvgPool（）表示平均池化操作，S1是第1层的尖峰张量然后局部运动强度图4. 适应性膜电位（AMP）神经元阻滞。（a）图1A中的AMP神经元阻滞。3.第三章。 (b)AMP LIF神经元的动力学。膜时间常数τ由输入ol−1调节。(c)AMP神经元阻滞的细节。可以通过I = MaxPool（Conv（S1））来估计输入尖峰，其中MaxPool（）表示最大池化操作。最后，膜时间常数通过1侧PA-EVSNN作为混合网络。与现有的人工神经网络模型相比，PA-EVSNN在时间τ=S（线性（[F，I]））（三）能耗（效率提高7.75），同时实现可比的性能。SNN和ANN操作的更详细的分析可以在第2.2节中找到。四点五分。适应性膜电位神经元其中（）表示的乙状激活函数，Linear（）是图1所示的完整连接层。4.第一章损失函数我们使用LPIPS损失和时间一致性损失：Ltotal=LLR+λLLTC，其中LR是LPIPS损失[60]，LTC是时间一致性秒3.2，MP神经元中的膜时间常数τ起着类似于LSTM模块中的门的作用。[10]通过在分类任务中引入可学习的τ，提出了参数化LIF神经元受此启发，我们提出了一种自适应膜电位神经元（AMP神经元）。与参数化LIF神经元从训练数据集学习的固定τ不同，AMP神经元可以根据输入尖峰信号调整τ，以适应不同的重建场景。K K损失[22，43]。3.4. SNN培训详情在训练过程中，我们将损失函数中的L设置为与训练序列长度相同（即，40 - 60），并且L0被设置为2。在每个时间步中，将一个大小为1×H1×W1的事件体素根据等式4、3598不不不不不Vl·不不×不不不=1不不Vl1 ifol =Vl不tVlt tVl图5. 尖峰神经元的反向传播。对于LIF神经元，我们使用ArcTan作为代理函数来计算尖峰函数的导数。对于MP神经元，梯度可以直接由等式（1）计算。4.第一章反向传播的误差通过使用时间反向传播（BPTT）的尖峰神经元层和MP神经元层[56]。在BPTT中，网络对于所有离散时间步都是展开每5个时间步长计算损失，并且权重更新计算为每个时间步长的梯度之和，如下所示：∑L总计n阿托洛vl100个epoch，学习率为0.002。时间一致性损失的权重λ被设置为1。所有神经元的复位值Vreset被设置为0，并且LIF神经元的膜时间常数τ被设置为2。4.2.对公共数据集我们在三个公共数据集IJR上评估我们的模型-[29]，[29]。（43）和[48]，为了确保强度值在类似的范围内，我们对输出和地面实况帧都应用直方图归一化此外，为了使重建的时间戳和地面实况严格一致，我们使用两个相邻帧之间的事件来生成每个重建。我们将我们的模型与四种最先进的方法E2 VID [43]，FireNet [48]，SPADE-E2 VID [6]和E2 VID + [50]进行比较。所有结果均由原始论文中的预训练模型我们使用以下指标将重建图像与地面实况进行比较：均方误差（MSE），结构相似性（SSIM）[54]和感知相似性（LPIPS）[60]。主要定量结果见表1。如果ol=Sl，则 {H′（Vt−Vth）请注意，E2VID+是在一个更具挑战性的syn上训练的thetic数据集，而其他五种方法都是在tt t其中，O1是神经元在时间t的输出，ΔO1表示在时间步长t充电之后尖峰相对于膜电位的导数。自1960年以来，不是一个人-本文采用代理梯度法[31]进行计算。移位的ArcTan函数H1（x）= 1arctan（πx）+1数据与[43]相同综上所述，E2VID+在大多数数据集中表现最好SPADE-E2 VID在MVSEC数据集上表现良好，但在IJRR和HQF数据集上的SSIM和LPIPS低于E2VID。结果表明，EVSNN可以处理这些场景。我们的PA-EVSNN实现了与基于ANN的模型（如E2 VID和π2火网。请参阅我们的补充材料，被用作Heaviside阶跃函数H（）的代理函数。如果神经元是一个尖峰神经元，我们有. 否则，如果神经元是没有尖峰输出的MP神经元，则〇 l=Vl，我们具有类似于ANN激活函数的Vl 〇 l =1。4. 实验4.1.实验装置为了与基于ANN的重建方法进行公平比较，我们使用来自E2VID [43]的完全相同的合成数据该数据集由事件模拟器ESIM生成，由950个训练序列和50个验证序列组成。MS-COCO图像[26]被映射到3D平面，随机6-DOF相机运动用于触发事件。在训练过程中，事件张量的非零事件和图像被随机裁剪到128 128以增强数据。我们的模型是用SpikingJelly [9]实现的，SpikingJelly是一个基于PyTorch [36]的SNN开源深度学习框架。NVIDIA TITAN Xp GPU用于训练我们的模型。我们在训练过程中采用了8和Adam Optimiz-er [21]的批量大小该网络经过训练，定量和定性结果。4.3. 颞叶消融受[43]的启发，我们设计了一个实验来测量SNN和ANN的时间感受野的有效大小7、测试四种不同的设置：ANN w/o recurrent，ANN + LSTM（E2VID），SNN + LIF（EVSNN）和SNN + LIF + AMP LIF。这些网络都基于具有三个编码器的U-Net架构。为了验证发放神经元在时间信息提取中的能力，在初始化阶段（T= 1-50），时间分量的状态（例如，LSTM和尖峰神经元）初始化为零。每一时刻的图像都是通过连续的事件输入来重构的。然后我们人为地在T=50停止事件在T之后的后续迭代= 50时，我们将空事件张量送入网络并重建图像，以测试时间感受场的有效大小。为了更好地分析结果，我们从IJRR数据集的动态6dof中随机抽取了50个事件序列，并将MSE，SSIM，LPIPS的平均值绘制在图中。8.还报道了EVSNN和PA-EVSNN的尖峰放电率。图7和图8所示的结果显示，E2VID、EVSNN、wl =（四）哪里3599图6. 与最先进的基于ANN的方法进行定性比较。我们将我们的SNN模型与四种基于ANN的模型（SPADE-E2 VID，FireNet，E2 VID和E2 VID+）在IJRR（第1-2行），HQF（第3-4行）和MVSEC（第5行）数据集上进行比较。结果表明，所提出的EVSNN和PA-EVSNN对大多数基于人工神经网络的模型进行建模，并且能耗分别比E2 VID低24.15倍和8.76倍（见表7）。更多的定性结果可以在我们的补充材料中找到表1.比较IJRR、HQF和MVSEC数据集。方法IJRR MVSEC HQFMSE↓SSIM↑LPIPS↓MSE↓SSIM↑LPIPS↓MSE↓SSIM↑LPIPS↓E2VID0.0590.6430.3380.1380.3770.6510.0810.5450.406火网0.0600.6020.3400.1050.3610.6000.0650.5420.391SPADE-E2VID0.0630.5720.3650.0950.4430.5560.0800.5120.424E2VID+0.0430.6180.3210.0880.4270.4900.0470.5600.338†EVSNN（Ours）0.0610.5700.3620.1040.3890.5380.0860.4820.433†PA-EVSNN（Ours）0.0460.6260.3670.1070.4030.5660.0610.5320.4161E2VID+是在[50]中提出的模拟数据集上训练的，而其他五个模型都是在[43]的模拟数据集上训练的ANN模型SNN模型。请注意，SNN的能耗远低于ANN，详见表7。并且PA-EVSNN可以在10次迭代中完成初始化随着T的增加，E2 VID、EVSNN和PA-EVSNN的定量结果与此相反，ANN w/o递归的定量分数没有显著变化，因为它没有时间分量。在T=50之后，E2 VID、EVSNN和PA-EVSNN的定量得分在膜电位辅助下，PA-EVSNN的定量评分优于EVSNN。总之，我们的SNN结构具有时间信息提取的能力，尽管它可能比ANN+LSTM弱。4.4. 尖峰神经网络架构我们研究不同的SNN网络架构。所有的实验都是在IJRR数据集上进行的。尖峰神经元在第一次消融研究中，我们探索了不同尖峰神经元对反射性能的影响。我们在EVSNN中测试三种类型的尖峰神经元：IF神经元、LIF神经元和PLIF（参数LIF）神经元。由于IF神经元简单地集成输入，并且缺乏衰减机制，因此其性能比其他两个神经元差。对于另外两个尖峰神经元，膜时间常数控制衰减。如图所示在表2的上部，LIF神经元的表现略好于PLIF神经元。基于EVSNN-LIF架构，我们进一步分析MP神经元的作用。图7和图8表明MP神经元可以改善SNN的重建质量。我们测试了四种类型的MP神经元：MP IF，MPLIF，MP PLIF和AMP LIF。这些神经元是输出膜电位而不是尖峰的非尖峰神经元。PLIF神经元可以基于训练数据集学习固定的然而，从合成数据学习的固定膜时间常数可能不适合复杂场景。如表2的下半部分所示，我们的AMP LIF性能最佳，因为它可以根据输入尖峰自适应地调整衰减速率。尖峰跳跃连接尖峰跳跃连接收集编码器和解码器的尖峰输出。有效的连接操作可以大大提高SNN的基于EVSNN-LIF和PA-EVSNN- AMP LIF结构，我们研究了四种类型的锋电位连接。如表3所示，ADD表现最好，因为它通过添加编码层和解码层的尖峰来保留更多信息然而，它带来了非尖峰输出，例如，两个尖峰的添加将输出2，这破坏了完全SNN结构并增加了额外的功耗。相反，OR、IAND和CONCAT都输出3600----↓ ↑ ↓∈ { }{图7. SNN和ANN的不同时间分量的比较。该图显示了在初始化和结束阶段不同ANN和SNN变体的图像重建。在初始化阶段（T= 1-50），时间分量的状态（例如，LSTM和尖峰神经元）初始化为零，所有模型都被馈送连续事件张量以测试每个时刻的重建。在T = 50之后的后续迭代中，模型被馈送空事件张量以测试时间感受野的有效大小图8. 时间成分的定量分析。该图显示了每次迭代时的MSE、SSIM、LPIPS和尖峰放电率。实验设置与图1相同7，四种ANN和SNN变体（ANN w/o recurrent，ANN + LSTM，SNN + LIF和SNN+ LIF + AMP LIF）。实验结果表明，脉冲神经元可以提高时间信息提取的能力。表2.锋电位神经元和MP神经元的消融研究。型号MSE SSIM LPIPSEVSNN-IF 0.108 0.3410.608EVSNN-PLIF 0.063 0.569 0.367EVSNN-LIF0.061 0.570 0.362PA-EVSNN-MP IF 0.121 0.362 0.741PA-EVSNN-MP LIF 0.056 0.597 0.388PA-EVSNN-MP PLIF 0.053 0.599 0.378PA-EVSNN-AMP LIF0.042 0.632 0.376表3.不同棘波跳跃连接的消融研究型号MSE↓ SSIM↑ LPIPS↓1EVSNN-ADD0.049 0.5860.3502EVSNN-OR 0.063 0.534 0.3953EVSNN-IAND0.0510.5570.3574EVSNN-CONCA T 0.0610.570 0.3621PA-EVSNN-ADD0.041 0.6350.3882PA-EVSNN-OR 0.064 0.591 0.4363PA-EVSNN-IAND 0.055 0.602 0.4104PA-EVSNN-CONCA T0.046 0.6260.367将连接操作定义为g（A l，B l），其中A l0，1和bl0，1分别表示第l个编码器和解码器的尖峰输出。不同的连接可以实现为1ADD：gADD（A1，B1）=A1+B12OR：gOR（Al，BI）= max（Al，BI）3IAND：gIAND（AI，BI）=（1（a）Bl4CONC AT：gCON. （A1，B1）=[A1，B1]刺钉如表3所示，CONCAT表现最好，而IAND也表现良好。虽然CONCAT的参数数量是IAND的两倍，但为了获得更好的性能，我们选择了CONCAT。编码器和残差块的数量最后，我们搜索编码器和残差块的数量。结果示于表4中，例如，EVSNN-e3-res 1表示具有三个编码器和一个残差块的EVSNN。反综合考虑性能和复杂度，我们选择EVSNN-e3-res 1和PA-EVSNN-e3-res 1作为模型。4.5. 能源消耗和限制分析SNN和ANN的能量比较通常，突触操作的数量被用作对神经形态硬件的计算能量进行基准测试的度量[27]。在人工神经网络中，每个操作计算一个点积，涉及一个浮点（FP）乘法和一个FP加法作为乘法累加（MAC）计算。相反，在神经形态硬件上实现的SNN中的计算是事件驱动的。因此，在没有尖峰的情况下，不存在计算并且不消耗有功能量[8]。因此，在SNN中，由于二进制尖峰，每个操作仅是一个FP加法SNN突触操作的低消耗与激活稀疏性相结合提供了计算效率的大幅提高为了比较SNN和ANN架构之间的消耗，应在相同的结构上进行评估[39]。因此，我们计算我们的SNN模型和它们的ANN版本之间的能耗（例如，用ReLU替换尖峰神经元）。在大多数技术中，加法运算比乘法运算便宜得多我们计算的能量成本/操作的人工神经网络和SNN在45纳米CMOS工艺。32位ANN MAC运算的能量消耗比SNN加法运算多5.1（4.6pJ vs. 0.9pJ）[17]。3601↓ ↑ ↓×上3 32×高×宽LIF 0.3580 0.3081∑× × × ××××××××××× ××××××× × ××××表4.不同网络体系结构的比较研究。型号MSE SSIM LPIPSEVSNN-e2-res 10.0600.5690.364EVSNN-e3-res1EVSNN-e4-res1EVSNN-e3-res00.061 0.5690.360EVSNN-e3-res2PA-EVSNN-e2-res1 0.0500.6280.376PA-EVSNN-e3-res10.0460.626 0.367PA-EVSNN-e4-res1 0.048 0.618 0.379PA-EVSNN-e3-res0 0.058 0.599 0.413PA-EVSNN-e3-res2表5. EVSNN和PA-EVSNN的尖峰放电率表6.ANN与SNN计算能量比较EVSNN PA-EVSNN1（a）归一化#OPANN1 12（b）归一化#OPSNN0.2640.2513（c）归一化的#OPMP层00.0844（d）ANN/SNN能源19.367.751#OPANN是如果所有尖峰神经元被ANN激活函数替换（例如，ReLU）。2#OP SNN=峰值速率#OP ANN。3MP层包含FP乘法和加法，因此其消耗被认为与ANN相同。4人工神经网络（SNN）中的每个操作消耗4.6pJ（0.9pJ）。ANN/SNN能量可以通过（a）×4计算。六、（c）×4。6+（1−（c））×（b）×0。9层尖峰神经元向下1 64×H神经元类型峰值发射率EVSNNPA-EVSNN表7.E2VID和我们的模型的能量比较SNNM51G5 G55上2 64×高×宽LIF 0.3338 0.3573总体峰值击发率0.2642 0.2511SNN中的突触操作的数量可以通过将#OPANN1乘以尖峰放电率来计算。例如，尖峰速率为1（每个神经元被激发）意味着ANN和SNN的操作数量相同（尽管ANN中的操作是MAC，而SNN中的操作是加法）。较低的尖峰率表示尖峰事件的稀疏性和较高的能量效率。如表5所示，我们统计了IJRR数据集上比较结果示于表6中。请注意，我们的模型不需要多个时间步长的模拟，这在能源消耗方面带来了很大的优势EVSNN的所有操作均为SNN操作，平均尖峰放电率为26.4%，能耗比 ANN 低 19.36%. 由于 PA-EVSNN 中有 8.4% 的MAC操作，因此尖峰神经元的平均尖峰放电率为25.1%，与其完全ANN版本相比，它的能耗降低了7.75。与E2VID的能耗比较在这里，我们比较了我们的模型与E2VID的能耗。表7报告了输入尺寸为180 240的能量比较 2每个ANN操作消耗4.6 pJ，带来20.07G 4.6pJ =9.232 10−2 J的能量消耗。与LSTM相似，GRU是一个参数较少的递归模块。我们的EVSNN具有16.12G SNN操作，具有 26.4% 的尖峰发射率，成本为 16.12G26.4%0.9pJ= 3.8310−3 J。对于PA-EVSNN，我们将来自MP神经元的1.49G操作视为ANN操作。1在基于人工神经网络的模型中，人工神经网络操作（MAC）的数量由#OP ANN=k w k h定义c在h输出wout其中kw和kh是核大小，cin和cout是输入和通道的数目，hout和wout是输出特征图大小，fin和fout是输入（输出）特征的数目。2能量=#OP ANN4. 6pJ+#OP SNN0. 9pJ峰值速率。注意，#OP SNN必须在二进制尖峰上操作（即，0或1）。1标准化能源11EVSNN和PA-EVSNN的能耗分别为24.15计算效率分别比E2VID高8.76国家。因此， PA-EVSNN 的总能量成本为 1.49G4.6pJ+16.35G25.1% 0.9pJ = 1.055 10−2 J。在总之，EVSNN和PA-EVSNN的能量消耗分别比E2 VID的计算效率高24.15和8.76。限制为了使SNN 训练更快，更稳定，我们在卷积（CONV）层之后添加了批量归一化（BN）。注意BN可以在训练后在CONV层中折叠[45]。然而，国阵并非不偏不倚。如果没有尖峰输入，BN也将产生非零值，这可以激活尖峰神经元。这将增加SNN的尖峰速率，从而增加能量消耗（见图1）。8、无事件输入时尖峰率> 0（T>50））。降低峰值速率可能是未来的方向。5. 结论本文提出了基于SNN结构的基于事件的视频重建我们表明，尖峰神经元具有提取时间信息的能力，SNN可以实现大规模的回归任务，如基于事件的视频重建。与E2 VID相比，所提出的EVSNN和PA-EVSNN具有24.15和24.15的平均长度。8.76这表明SNN在低功耗应用中具有巨大的潜力我们认为，开发节能SNN模型用于大规模回归任务是有希望的。致谢。本工作得到了国家自然科学基金项目的部分资助。62027804号61825101，不。62088102。头部32×H×W LIF 0.2479 0.2444×W LIF 0.2459 0.2308E2VID E2VIDEVSNNPA-EV-LSTM-GRU下2 128×高×宽LIF 0.1352 0.1339段Num.10.71M 9.16 M 4.41M 4.62下3 256×高×宽LIF 0.1174 0.1183峰值速率--0.264 0.2Res1-1 256×H×W LIF 0.1241 0.1098#OPANN20.07G 17.63G 0 1.49分辨率1 -2 256×高×宽LIF 0.1308 0.1200#OPSNN0 0 16.12G 16.3上1 128×高×宽LIF 0.1905 0.1983能量（10−3J）92.3281.103.8310.3602××引用[1] Arnon Amir ， Brian Taba ， David Berg ， TimothyMelano，Jefrey McKinstry，Carmelo Di Nolfo，TapanNayak，Alexander Andreopoulos，Guillaume Garreau，Marcela Mendoza等人，A low power，fully event-basedgesture recognition system.在IEEE计算机视觉和模式识别会议论文集，第7243-7252页1[2] Patrick Lichtsteiner、Christoph Posch和Tobi Delbruck。128 128 120db 15µs延迟异步时间对比度视觉传感器。IEEE Journal of Solid-State Circuits ， 43 （ 2 ）： 566-576，2008. 1[3] Patrick Bardow ， Andrew J Davison ， and StefanLeutenegger.从事件照相机的同时光流和强度估计。在IEEE计算机视觉和模式识别会议论文集，第884-892页，2016年。一、二[4] Sander M Bohte、Joost N Kok和Han La Poutre。脉冲神经元时间编码网络中的误差反向传播神经计算，48（1-4）：17-37，2002. 2[5] Christian Brandli，Raphael Berner，Minhao Yang，Shih-Chii Liu，and Tobi Delbruck.240 180 130db 3µs延迟全局快门时空视觉传感器。IEEE Journal of Solid-StateCircuits，49（10）：2333-2341，2014. 1[6] PabloRodrigoGantierCadena ， YeqiangQian ，Chunxiang Wang，and Ming Yang.黑桃-e2 vid：用于基于事件的视频重建的空间自适应去归一化。 IEEETransactions on Image Processing ， 30 ： 2488-2500 ，2021。5[7] Matthew Cook ， Luca Gugelmann ， Florian Jug ，Christoph Krautz和Angelika Steger。交互式地图用于快速视觉解释。2011年神经网络国际联合会议，第770-776页。IEEE，2011年。2[8] Mike Davies ， Narayan Srinivasa ， Tsung-Han Lin ，Gautham Chinya，Yongqiang Cao，Sri Harsha Choday，Georgios Di- mou，Prasad Joshi，Nabil Imam，ShwetaJain，et al. Loihi：具有片上学习的神经形态众核处理器。ICP-Micro，38（1）：82-99，2018。7[9] Wei Fang ，Yanqi Chen，Jianhao Ding，Ding Chen，Zhaofei Yu，Huihui Zhou，and Yonghong Tian.其他贡献者。spikingjelly，2020年。5[10] WeiFang，ZhaofeiYu，YanqiChen，Timothe'eMasquelier，Tiejun Huang，and Yonghong Tian.增加可学习的膜时间常数以增强尖峰神经网络的学习IEEE/CVF计算机视觉国际会议论文集，第2661-2671页，2021年一、二、四[11] Mathi

下载后可阅读完整内容，剩余1页未读，立即下载