基于仿生神经形态摄像机的高速视频重建

28 浏览量更新于2023-10-13 收藏 2.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2400×NeuSpike-Net：基于仿生神经形态摄像机的高速视频重建朱林1、2李佳宁1、2王晓2黄铁军1田永红1、2、*1北京大学计算机科学与技术系2深圳鹏程实验室{linzhu，lijianing，tjhuang，yhtian} @pku.edu.cnwangxiaocvpr@foxmail.com摘要神经形态视觉传感器是近年来出现的一种新的生物成像通常，存在两种类型的神经形态视觉传感器，即动态视觉传感器（DVS）和尖峰相机。从生物启发采样的角度来看，DVS仅通过模拟视网膜周边来感知运动，而尖峰相机被开发为通过模拟中央凹来感知精细纹理。因此，研究如何将两种神经形态摄像机相结合，重建出类似人眼视觉的高质量图像具有重要意义。在本文中，我们提出了一个NeuSpike-Net学习DVS的高动态范围和高运动灵敏度和尖峰相机的全纹理我们提出了一种新的表示，有效地提取尖峰和事件数据的时间信息。通过引入特征融合模块，实现了两类神经形态数据的互补。在模拟和真实数据集上的实验结果表明，该方法能够有效地结合棘波和事件数据重建高速、高动态范围的图像。1. 介绍近年来，生物启发的视觉传感器在自动驾驶汽车、无人驾驶飞行器和自主移动机器人[23]领域中变得非常有吸引力，这是由于它们相对于传统的基于帧的相机具有显著的优势，例如高动态范围和高时间分辨率[13，24]。一般来说，生物启发视觉采样方式有两种方式：时间对比度采样和积分采样。其中，动态视觉传感器（D-*通讯作者。VS）[9，1]，a.k.a.事件相机是基于时间对比度采样的最广为人知的生物启发视觉传感器，其测量光强度的变化并输出高动态范围事件。从生物学的角度来看，DVS模仿对运动敏感的视网膜的周边[36]然而，从DVS重构纹理是非常困难的为了解决这个问题，随后通过组合DVS和基于帧的有源像素传感器（APS）（例如DAVIS [4]）或添加额外的光测量电路（例如ATIS [30]和CeleX [15]）开发了一些基于事件的传感器。然而，由于两种异构电路之间的采样时间分辨率的差异，存在失配最近，设计了许多算法来使用DVS重建图像[33，31，25，34，38，44，6]。还有一些算法将图像和事件结合起来重建纹理图像[28，29，27，33]，这可以获得比仅使用DVS信号更多的纹理信息。与DVS不同，有许多尖峰图像传感器遵循积分和激发神经元模型的基础[43，19，7，35]。提出了尖峰图像传感器的一些变体，例如异步像素事件三色视觉传感器[22]和近红外尖峰图像传感器[3]。最近，董等。[10，47]提出了一种基于中央凹样采样方法的尖峰相机，其具有高空间分辨率（250 400）和时间分辨率（40，000 Hz）。此外，还有一个便携式spike相机，a.k.a. Vi- dar，采样率为20，000 Hz。对于尖峰相机，尖峰发射频率可用于估计光强度[47]。最近，提出了一种类似中央凹的纹理重建框架来重建图像[49]。此外，开发了一些基于尖峰相机的方法用于尖峰编码[11，48]、色调映射[16]和运动去模糊[45]。在人类视觉系统[36]中，周边视觉和中央凹视觉不是独立的，而是直接连接的[37]。在生物学上，外周和中央凹是互补的。这促使我们探讨一个问题：如何结合两个神经形态摄像机进行重建2401≥图1.我们方法的动机。神经形态照相机的灵感来自视网膜。DVS通过模拟视网膜周边来感知运动，而尖峰相机被开发为通过模拟中央凹来感测精细纹理在这项工作中，我们结合了尖峰和事件数据，以实现有效的信息互补，并得到更好的重建质量。像人类视觉一样高质量视觉图像？事实上，DVS具有高速、高动态范围的感知能力，但难以感知纹理信息。相比之下，尖峰相机具有像常规相机一样的全纹理采样能力，但其动态范围受噪声的影响同时，它的采样能力依赖于场景的高光强。在实际应用中，结合事件数据的高动态范围和锋电位数据的全纹理特性，重建高质量的图像具有重要意义在本文中，我们结合这两种类型的神经形态数据，重建高质量的纹理图像，特别是在复杂的场景，如高速和低光。本文的主要内容如下。1) 我们首先提出了重建网络结合尖峰和事件相机（NeuSpike-Net）。根据神经形态数据的特点，探索了基于学习的联合重建策略，在不同光照强度和运动速度的复杂场景中实现高质量的全纹理重建。2) 我们提出了一个神经形态数据表示提取有用的时间信息隐藏在尖峰和事件数据。借助神经形态数据表示，该网络可以有效地学习的特征的尖峰和事件数据。3) 我们提出了模拟多尺度尖峰数据，它考虑了各种噪声存在于尖峰相机。通过模拟不同的光强度和运动速度来生成用于网络训练和测试的模拟数据集。此外，我们建立了一个混合相机系统来收集真实世界的数据集，以测试模型的有效性2. 我们方法在这一节中，我们分析了视网膜中央凹和周边的相互作用（第2.1节），以及两种类型的神经形态相机的采样原理（第2.2节）。进一步分析了尖峰数据和事件数据之间的关系（第2.3节），并在第2.4节中讨论了尖峰相机的噪声分布。图2. DVS和Spike相机的采样机制。2.1. 人类视网膜在人类视觉系统中，视网膜是接收光线和感知景物的重要部分。视网膜的中心，也就是中央凹用于仔细检查高度详细的对象，并且周边视觉被优化用于感知更粗糙的运动信息[39]。过去十年的研究表明，周边视觉和中央凹视觉在人类视觉中不是独立的，而是直接相连的[37]。人类使用周边视觉来选择感兴趣的区域，并通过扫视眼球运动将其聚焦以进行进一步的检查[41]。事实上，如[37]所述，外围和中央凹输入相互作用并相互影响，以更好地感知场景。有一个整合过程来结合中央凹和周边信息，这有利于感知[37]。最近，神经形态领域的研究人员开发了几种生物启发的视觉传感器来模拟人类视网膜的特性在本文中，受视网膜的感知机制的启发，我们探索如何结合两种生物启发的相机（中央凹状尖峰相机和周边状DVS）来重建高质量的图像（见图1）。2.2. 仿生神经形态相机对于尖峰相机，每个像素独立地累积从模数转换器（ADC）输入的亮度强度，并且如果ADC值超过分派阈值Φ[47]，则生成尖峰：不Idt φ，（1）0∫2402∫e（s）ds≥∫Σ{∈ T|}∫−电话+1其中I是指亮度强度（通常通过电路中的光电流然后重新设置蓄电池，并将其上的所有电荷排出。在不同的像素处，亮度强度的累积速度是不同的。如图2所示，光强度越大，发射尖峰的频率越高对于尖峰相机，像素连续地测量光强度并且发射具有40，000Hz的尖峰序列在某个采样时间，所有像素的状态（动态视觉传感器（DVS）[9，1]跟踪每个像素处的光强度变化，并且每当对数强度变化超过调度阈值θ时触发异步事件（参见图2）：|≥θ。|≥ θ.（二）图3. Spike相机在明暗场景下的噪声分析。上：明亮的场景。下图：黑暗的场景。从ISI分布可以看出，亮场景受到噪声类型1的影响（在2.4节中分析），而暗场景主要受到固定模式噪声的影响。狄拉克δ函数具有以下性质由于每个像素单独地响应于光强度变化，所以DVS不具有固定的采样率。为0，t/=0∞，t=0，其中∫ δ（t）dt = 1.像素（x，y），如果事件发生在时间t，则该事件被表示为四维元组e=（t，x，y，p），其中p表示事件的极性（“+1”表示光强度增加，“-1”表示光强度这种表示称为地址事件表示（AER），是基于事件的传感器使用的标准格式。一般来说，事件摄像机对运动物体有很高的动态感知能力，但Spike相机具有全纹理采样的能力，但其动态范围不如事件相机。因此，本工作探讨如何有效地结合两个摄像头，以实现互补。2.3. 尖峰和事件数据虽然采样机制不同，但尖峰相机和事件相机都记录了光强的变化基于隐藏在数据中的光强度信息，尖峰和事件数据之间的关系是-假设正（事件根据相同的阈值θ被触发，并且θ在t和t+1之间不改变，根据等式（2），我们有如下表达式电话+1log（I t+1）log（I t）= θe（s）ds.（五）不考虑到光强度It+1和It可以由如等式2中所描述的尖峰序列的ISI在等式（3）中，触发阈值θ表示为θ=log（tISI1/tISI2），（6）不其中tISI1和tISI2分别表示尖峰序列中t和t+1因此，在理想条件下，我们可以根据等式（1）获得调度阈值θ。（七）、对于任何时间ti> t，光强度Lti可以通过下式估计：分析来指导我们模型的发展考虑到Eq。（1）可以简化为It φ，对于道钉凸轮例如，在该时段中的像素的平均强度可以是Lti= exp（log（It）+θ我不是e（s）ds）。（七）不估计φI= tISI、（3）但是，尖峰相机和事件相机都存在较大的时间噪声，这对图像重建有很大的影响。我们将在2.4节中对此进行分析。尽管有噪声的影响，Eq.（7）可以帮助我们更好地设计其中Φ表示分派阈值，并且tISI精确地corr。响应于尖峰间期（ISI）。对于事件相机，我们首先将事件序列映射到一个包含统计描述的连续时间函数中具有N个尖峰激发时间的事件序列我不是i=1，2，…N可以用狄拉克δ函数的和来描述e（t）= pi δ（t-ti），（4）我其中pi是指等式（1）中描述的极性。（四）、的.2403我们的网络的尖峰数据和事件数据的表示2.4. 神经形态学数据从神经形态相机的图像重建的性能受到噪声的严重影响。对于事件摄像机，图像质量直接受每个像素变化的调度阈值（由于制造失配）以及动态效应（入射光、时间等）的影响。[12，2]。此外，在低事件阈值、高带宽和低光强条件下，时间噪声变得显著[8]。2404−××2不i=1我我我我表示所生成的纹理图像和地面实况im。图4. 尖峰和事件数据表示。对于尖峰流，我们使用时间ISI图和Nc 1个尖峰平面作为输入的运动路径。同时，根据作为运动路径输入的尖峰平面的时间戳，事件流被转换（8））。我们的锋电位和事件表征可以有效地探索时间信息对于Spike相机，在不存在噪声的情况下，利用该算法可以快速准确地重建纹理图像。尖峰可以自然地输入到网络，其中每个尖峰平面被用作信道。对于尖峰数据的表示，如图4所示，我们建议使用一个ISI通道和N-1个尖峰平面通道作为纹理路径的输入，总共有N个通道。由于异步性质，事件数据在时空域中是离散的当量（7）可以指导我们设计事件数据的表示基于锋电位平面的在我们的工作中，受集成和激发（IF）模型[21]的启发，我们设计了一个事件集成模型，从事件流中提取时间信息并将其转换为2-D特征。膜电位V（t）定义为：TFI方法[47]。然而，时间噪声的存在对图像重建也有很大的影响V（t）=不（1）A +B（0−（t−s）τ）e（s））ds，（8）主要包括以下两种类型：1）对于恒定的光强，由于电路中的读出和复位时间延迟，ISI可能不一致。例如，尖峰序列在某个时间的准确ISI应该是2，但是由于时域中的噪声，读出ISI可能在1和2之间波动。这对高光强下的图像重建尤其有害（见图3）。2)在弱光条件下，1）由于发射的长间隔而变小主要噪声是固定模式噪声（例如，暗电流噪声）。此时，噪声会由于噪声而主动发射尖峰，导致ISI与真实光强不匹配，也限制了最大ISI范围。固定模式噪声的分析可以在我们的补充材料中找到。3. 方法在本节中，我们首先为尖峰和事件数据设计神经形态数据表示（第3.1节）。其原理是提取更多有用的时间信息。在第3.2节中介绍了图像重建网络，并且在第3.3节中详细描述了用于尖峰和事件数据的特征融合模块。最后，在第3.4节中介绍了多尺度神经形态数据模拟方法。3.1. 自适应神经形态数据表示当量（7）表示两种类型的神经形态数据的关系。在随后的光照强度- t时间可以通过初始时间的ISI和事件数据的积分根据尖峰相机的采样原理，ISI表示一个像素到达一次发射的积分时间，它包含了这一时间段内的时间信息另一方面，由于尖峰相机以尖峰平面的形式输出，其中τ是控制衰减速率的时间常数。如图4所示，我们分别计算正事件和负事件的累积，然后将它们加在一起以获得最终的特征图作为运动路径输入。3.2. 网络架构我们的神经网络是一个完全卷积的网络，可以同时容纳事件流和尖峰流。图 5 阐明了网络的架构NeuSpike-Net有两个编码器和一个解码器，因此它是U形模型的变体[32]。首先将事件流和尖峰流转化为Nc的大小WH，并且之后是Nle个编码器层、Nr个残差块、Nd个解码器层和最终图像预测层。在每个编码器层之后，通道的数量在编码器中，有两个输入路径：运动路径和纹理路径。这两条路径具有相同的编码器结构，我们在对称编码器和解码器层之间使用跳过连接。运动路径被设计为从事件数据中提取更有用的特征，因为事件流响应于移动对象。纹理路径捕获隐藏在尖峰流中的纹理信息运动和纹理特征由其他编码器层中的特征融合模块融合（见第3.3节）。预测层执行深度卷积，然后执行S形层以产生图像预测。在我们的模型中，我们使用NC=32，Ne=Nd=3和Nr=2。在我们的网络中，损失函数定义如下：Ltotal=Ll2+λLPL，（9）其中LA是l2损失1<$T<$I<$<$−Ig<$2，I<$和Ig∫2405不ΣΣ⊗·“的一声'M⊕·不M不图5. NeuSpike-Net架构。我们的网络包含两个编码器路径分别对应于事件和尖峰流。这两条路径具有相同的编码器结构，我们在对称编码器和解码器层之间使用跳过连接此外，FFM被应用到融合的尖峰和事件流的特征，在每个编码器层。预测层执行深度卷积，然后执行S形层以产生图像预测。图6. 特征融合模块。为了更好地查看，通过将所有通道相加来获得特征图。特征图基于图10中的驾驶场景。运动路径突出运动和HDR部分，而纹理路径更关注场景的纹理信息。年龄，分别。LPL是感知损失[18]Wi，jHi，j事件数据代表神经元形态数据的时间信息，特征的通道在一定程度上包含了时间信息。因此，将通道注意力应用于纹理和运动特征，以突出两条路径的更有用的时间信息。给定以两条路径Fm∈RC×H×W和Ft∈RC×H×W的中间特征图为输入， FFM 首先推导出一个一维通道注意力图Mc∈RC×1×1'=Mc（Fm）<$Fm和F'=Mc（Ft）<$Ft，（11）其中，表示逐元素乘法，Mc（）表示信道注意模块[42]。通过引入空间注意力，得到最终的融合特征LPL=1（φWi，jH i，jx=1y=1i、j（I*）x为oh-φi，j （Ig）x，y）2，（10）F熔丝=Ms（（F’D））D（F）（12）其中φ i，j是在第i个最大池化层Wi，j之前通过第j个卷积（在激活之后）获得的特征图，并且Hi，j是特征图的维度。3.3. 特征融合模块人类使用周边视觉来选择感兴趣的区域，并将其聚焦以进行进一步的检查[41]。在我们的模型中，运动路径（外围）捕获更多的高动态范围和运动信息，纹理路径（中央凹）保留更详细的纹理信息。受人类视觉的启发，我们提出了一个基于注意力的特征融合模块（FFM）来提取两个编码器路径的更多有用特征。图6示出了FFM的可视化中间特征图由于输入尖峰的每个通道其中表示元素求和，Ms（）表示空间注意力模块[26]，Fd表示解码器的特征图。3.4. 多尺度训练神经形态数据我们的网络需要训练数据，包括事件流，尖峰流和相应的地面真实图像。然而，地面实况图像通常难以获得。因此，我们建议在模拟的多尺度神经形态数据上训练网络1。高帧率视频准备受DVS模拟器V2E [8]的启发，视频首先被转换为亮度1有关模拟数据的更多详细信息，请参阅我们的补充资料FM2406N×∈×时间噪声模拟我们考虑模拟真实尖峰数据中的噪声分布（参见第2.4节）。为了模拟强光下的噪声，我们在初始累加器中加入了一个随机矩阵.为了模拟弱光条件下的固定模式噪声，我们首先生成遵循高斯分布（μ，σ2）的矩阵NRm×n，其中m n表示数据的空间分辨率。则尖峰间隔的长度受以下约束：图7. 不同输入方式的影响。第1列：输入尖峰和事件数据。第2-4列：重建图像Tx，y=.Yx，y如果Yx为oh≤Nx，y，（13）分别来自事件数据、尖峰数据和事件+尖峰数据帧，然后我们采用Super-SLoMo视频插值网络[17]来增加视频的帧速率。我们使用KIT-TI数据集[14]的对象跟踪评估中的视频来生成模拟数据。平均上采样率为750。原始的30FPS视频被上采样到约22，500FPS，这与尖峰相机的采样频率相似。我们使用原始视频中的图像作为地面实况，以确保它们清晰。上采样视频用于根据地面实况图像的时间戳生成尖峰和事件表1.不同事件/尖峰表征的影响表示PSNRSSIMES + SR，不带TISI26.310.8134体素+SR，不带TISI26.740.8159ML + SR，不带TISI27.860.8204IF + SR，不带TISI27.650.8224ES + SR29.350.9129体素+SR29.440.9021ML + SR30.160.9110IF + SR（我们的）30.310.9234表2.不同输入方式的影响模态PSNRSSIM事件12.850.5198尖峰26.840.8389事件+尖峰（我们的）27.400.8510多尺度尖峰和事件数据生成基本尖峰数据的方式非常直观：首先，我们为每个像素设置一个累加器。每个输入图像根据像素灰度值乘以光强度标度而贡献于如果累积值超过发射阈值，则发射尖峰为了更好地模拟真实世界的场景，我们将模拟数据概括为多尺度形式，包括不同的噪声，光照条件和运动速度。通过调节光强度尺度来模拟不同的光条件以控制所生成的尖峰的密度。同时，通过调整每帧的积分时间来模拟不同的运动速度。相应的事件数据由V2E使用相同的上采样帧来生成以模拟不同的运动。此外，对比度阈值被调整以模拟不同的光强度。Nx，y ，如果Yx，y> Nx，y其中Yx，y是pix-el（x，y）处的原始模拟尖峰间隔，T（x，y）表示受约束的尖峰间隔。根据对真实尖峰数据的统计，平均值μ和标准差σ分别设置为180和504. 实验4.1. 培训详细信息我们的网络2在NVIDIA 2080 Ti GPU上训练我们在训练过程中采用8的批量大小和Adam优化器[20]。该网络训练了60个epoch，学习率为10- 4。感知损失的权重λ被设置为0.01。在训练期间，输入图像被随机地水平和垂直翻转（具有0.5的概率）并且被裁剪为400 256。如第3.4节所述，模拟数据（尖峰数据、事件数据和地面实况图像）具有5种不同的光尺度和5种不同的运动速度。我们使用视频“0000”中的所有原始帧来生成训练数据，并且使用视频“0000”-“0019”中的随机帧来生成测试数据。我们总共使用了1，183个数据来训练网络，745个数据来测试性能。4.2. 不同神经形态输入不同的事件/尖峰表示为了评估不同的事件和尖峰表示的效果，我们对模拟数据进行实验。对于事件表示，我们测试了事件堆叠（ES）[40]、体素网格（Vox-el）[46]、Matrix-LSTM（ML）[5]和所提出的表示（Eq.（8））。对于尖峰数据，我们比较两种表示的效果：所提出的无时间ISI的尖峰表示（SR w/o TISI）和具有时间ISI的尖峰流（SR）。ML是一种基于学习的事件数据表示方法，体素网格被广泛应用于DVS重建。如表1中所示的定量结果，IF + SR比其他表示表现得更好，因为它被设计为等式1中描述的采样机制。（7）更适合我们的框架。通过引入所提出的表示，我们的框架有效地探索了事件和尖峰数据的时间2项目页面：https://sites.google.com/view/reti2407LLLL图8. 模拟数据集上的定量结果。上图：模拟弱光场景下的结果。下图：模拟高速场景下的结果。TFP（win=n）意味着重建窗口大小被设置为n个尖峰平面。其他方法使用其默认配置。实验结果表明，该方法在完全消除噪声的同时，能够清晰地重建出汽车和人的图像图9. 真实世界数据集中超高速场景的定量结果。该场景描绘了速度从500到2600RPM的高速风扇，我们将我们的方法与四种方法进行比较：TFP（win=128）、SNM、FireNet和E2VID。基于事件的方法很难在这种场景中重建图像，因为事件太密集。对于基于尖峰的方法，SNM和TFP的结果中存在伪影。表3.模拟数据的定量结果场景方法*全要素生产率（128）*全要素生产率（256）*TFI*SNM†FireNet†E2VID我们的正常PSNRSSIM28.080.703828.810.788727.060.775029.600.841610.910.464012.820.518130.310.9234复杂PSNRSSIM22.700.564822.580.610423.380.706326.440.772211.780.524712.850.519827.400.8510*基于峰值的方法。†基于事件的方法。不同的输入方式为了验证两种神经形态数据的效果，我们对模拟数据中的复杂场景进行了消融实验。我们设计了一个网络，使用我们的框架的纹理路径来重建图像，只使用尖峰数据。同时，基于事件的方法E2VID被用来测试只有事件输入的性能。结果示于表2和图7中。此外，真实数据集上的结果也证明了组合尖峰和事件数据的有效性（参见图10和表5）。基于事件的方法难以估计纹理，而基于尖峰的方法依赖于光强度，因此难以重建H-DR细节。通过结合尖峰和事件数据，可以有效地重建纹理和HDR信息。4.3. 不同网络结构网络结构。我们比较了不同的网络架构，以找到最佳的超参数。表4报告了用元素求和替换FFM（我们的默认架构）的结果。此外，第3-6行显示，我们的模型在3个编码器和2个残差块的情况下性能最佳。损失函数。我们默认使用l2+PL损失，但已经评估了许多替代损失函数。如图所示在表4（行7-9）中，I1+PL具有比我们的默认模型更大的SSIM，但是PSNR更低。其他损失函数在结果中没有显示出优势4.4. 对模拟数据集为了评估所提出的网络，我们在模拟和真实世界的数据集上进行实验。我们将我们的方法与其他八种最先进的方法进行了比较，包括三种基于尖峰的重建方法（TFP [47]，TFI [47]和SNM [49]）和5种事件重建方法。基于重建方法（MF [25]，HF [33]，CF [33]，FireNet[34]，E2VID [31]）。其中，FireNet和E2VID是基于学习的方法，CF使用事件和帧来重建图像。图8示出了包括低光和高光场景的两个典型场景的定性结果实验结果表明，该模型能够有效地处理这些场景。表3示出了我们的方法对正常场景和复杂场景（例如，高速和低光）。结果表明，该方法优于其他方法，尤其是SSIM方法。总之，定性和定量的结果表明，我们的方法可以重建高质量的图像融合尖峰和事件数据。2408图10. 在真实数据中的户外场景的定量结果。场景具有不同的光强度，其可以通过原始尖峰数据的发射密度来估计。上图：高光强下的水箱。中：中等光照强度下的汽车。下图：低光强度下的驾驶场景。我们的方法通过结合事件和尖峰数据执行得更好。表4.不同网络结构和损耗的影响条件PSNRSSIM1. 我们的默认模型2. FFM→元素求和3. 编码器：3 →24. 编码器：3 →45. 残留块：2 → 16. 残留块：2 → 37. 损失：Ll2+LPL-Lll8. 损失：Ll2+LPL→ Ll29. 损失：Ll2+LPL-Lll+LPL30.3129.7430.2629.5929.7929.8029.6829.5728.790.92340.91590.91040.92290.92430.90760.91040.90840.92974.5. 真实世界数据集受[16]的启发，我们构建了一个混合相机系统（见图11），由一个尖峰相机（Vidar），一个事件相机（DAVIS 346）和一个分束器组成两台摄像机可以通过分束器记录同一场景。这个系统的细节可以在我们的补充材料中找到。我们构建了一个真实的数据集，包括15个不同光照条件下的序列，其中包括5个室外场景和10个超高速风扇场景（风扇的速度从500 RPM到2600 RPM）。结果图9示出了超高速场景的结果。在这种情况下，由于事件数据过于密集，基于事件的方法很难重建令人满意的结果。在尖峰数据的帮助下，我们的方法可以在不同的光照强度和运动速度下重建清晰的字母。图10显示了在不同光照条件下的户外场景的结果。与SN-M（spike-based）和CF（event+frame）方法相比，该方法能够清晰地重建HDR场景，同时噪声较小，体现了事件和spike相结合的优势。在“Tank”中对于中低光场景“汽车”和“驾驶”，我们的方法可以利用两种类型的数据的组合来重建更多的HDR细节。定量评价如表5所示。我们使用APS图像作为地面实况图像来评估MSE和SSIM。此外，由于APS不能记录高速场景，我们引入了一个非参考度量2D熵来评估所有的真实世界的数据。请注意，CF使用AP-S帧作为初始状态，因此具有更好的MSE性能表5.真实世界数据的定量结果方法MSESSIM二维熵户外户外高速户外TFI（加标）0.08420.33968.80377.4797SNM（加标）0.07850.43628.85948.5884E2VID（事件）0.10140.41678.48208.9180MF（事件）0.12810.40628.88955.5215HF（事件）0.13470.38458.94597.5335CF（事件+帧）0.05260.47879.755610.5473我们的（尖峰）0.08100.46829.424610.1517我们的（尖峰+事件）0.07410.50469.874710.4897图11. 混合神经形态摄像机系统。和室外场景上的2D熵。我们的方法在所有的定量结果中表现良好（事件的引入大大提高了SSIM）。更多实验结果请参考我们的补充资料。5. 结论在这项工作中，我们建议结合高动态范围的事件数据和完整的纹理采样的尖峰数据，重建高品质的视觉图像，特别是在高速和不同的光照强度的场景。为此，NeuSpike-Net被提出来处理这两种类型的神经形态数据。提出了一种有效的尖峰和事件数据的表示方法来提取时间信息。此外，一个特征融合模块的设计，有效地融合两种类型的神经形态数据。我们的网络由多尺度模拟神经形态数据集训练。为了测试性能，我们还构建了一个混合神经形态相机系统来记录真实世界的数据集。在模拟和真实数据集上的广泛评估表明，所提出的方法比现有的各种基于尖峰和基于事件的方法具有更好的性能致谢。本研究得到了国家自然科学基金委的部分资助。t62027804、合同61825101和合同62088102。2409××引用[1] Patrick Lichtsteiner、Christoph Posch和Tobi Delbruck。128 128 120db 15µs延迟异步时间对比度视觉传感器。IEEE Journal of Solid-State Circuits ， 43 （ 2 ）： 566-576，2008. 第1、3条[2] R Baldwin，Mohammed Almatrafi，Vijayan Asari，andKeigo Hirakawa. 神经形态摄像机的事件概率掩模（epm）和事件去噪卷积神经网络（edncnn）在IEEE计算机视觉和模式识别会议（CVPR）中，第1701-1710页，2020年。3[3] Juan Antonio Lenero Bardallo 、 Jose-Maria Guerrero-Rodriguez 、Ricardo Carmona-Galan 和 Angel Rodriguez-Vazquez。用异步脉冲图像传感器分析和探测火焰。IEEE Sensors Journal，18（16）：6588-6595，2018年8月。1[4] Christian Brandli，Raphael Berner，Minhao Yang，Shih-Chii Liu，and Tobi Delbruck.240 180 130db 3µs延迟全局快门时空视觉传感器。IEEE Journal of Solid-StateCircuits，49（10）：2333-2341，2014. 1[5] Marco Cannici 、 Marco Ciccone 、 Andrea Romanoni 和Matteo Matteucci。异步基于事件数据的可微递归曲面。在欧洲计算机视觉会议（ ECCV ）中，第136Springer，2020年。6[6] Jonghyun Choi，Kuk-Jin Yoon，等.学习从事件中超级重新解决强度图像。在IEEE计算机视觉和模式识别会议（CVPR）中，第2768-2776页1[7] 尤金尼奥·库鲁塞洛，拉尔夫·艾蒂安·卡明斯，和卡瓦贝纳·A·博阿亨。一种生物形态数字图像传感器。IEEEJournal of Solid-State Circuits ， 38 （ 2 ）： 281-294 ，2003. 1[8] Tobi Delbruck、Yuhuang Hu和Zhe He。V2e：从视频帧到逼真的dvs事件相机流，2020年。三、五[9] TobiDelbrück ，BernabeLinares-Barranco，EugenioCulur-ciello，and Christoph Posch.活动驱动、基于事件的视觉传感器。在IEEE International Symposium on Circuits andSystems（ISCAS），第2426-2429页，2010中。第1、3条[10] 董四维，黄铁军，田永红扣球摄像机及其编码方法。在数据压缩会议（DCC）中，第437-437页，2017年。1[11] Siwei Dong，Lin Zhu，Daoyuan Xu，Yonghong Tian，and Tiejun Huang.一种基于棘波间隔的棘波相机编码方法。在数据压缩会议（DCC）中，第568-568页IEEE，2019。1[12] Guillermo Gallego 、Tobi Delbruck、Garrick Orchard、Chiara Bartolozzi 、 Brian Taba 、 Andrea Censi 、 StefanLeutenegger、Andrew Davison、Joerg Conradt、KostasDaniilles和Da- vide Scaramuzza。基于事件的愿景：一个调查。 IEEE Transactions on Pattern Analysis andMachine Intelligence，第1-1页，2020年。3[13] Daniel Gehrig，Henri Rebecq，Guillermo Gallego，andDa- vide Scaramuzza.使用事件和帧的异步光度特征跟踪。在欧洲计算机视觉会议（ECCV），第750-765页，2018年。1[14] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在IEEE计算机视觉和模式识别会议（CVPR），2012年。62410×[15] Menghan Guo，Jing Huang，and Shoushun Chen.现场演示：768 640像素200meps动态视觉传感器。在电路与系统国际研讨会（ISCAS），第1-1页。IEEE，2017年。1[16] Jin Han，Chu Zhou，Peiqi Duan，Yehui Tang，ChangXu，Chao Xu，Tiejun Huang，and Boxin Shi.神经形态学摄像机引导的高动态范围成像。在IEEE计算机视觉和模式识别会议（CVPR），2020年6月。1、8[17] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议（CVPR）中，第90006[18] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议（ECCV）中，第694-711页施普林格，2016年。5[19] Zaven Kalayjian和Andreas G.安德鲁使用赢者通吃仲裁的2d运动信息的异步通信。模拟集成电路与信号处理，13（1）：103-109，1997. 1[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[21] 克里斯托夫·科赫和伊丹·塞格夫。神经元建模方法：从离子到网络。麻省理工学院出版社，1998年。4[22] Juan Antonio Leero-Bardallo，D. H. Bryn，and PhilippH- fliger.生物启发的异步像素事件三色视觉传感器。IEEE Transactions on Biomedical Circuits and Systems，8（3）：345-357，2014年6月。1[23] Martin Litzenberger ， Christoph Posch ， D Bauer ，Ahmed N-abil Belbachir ， P Schon ， B Kohn ， and HGarn.嵌入式视觉系统的实时目标跟踪使用异步瞬态视觉传感器。在数字信号处理研讨会-信号处理教育研讨会，第173-178页1[24] Ana I Maqueda 、 Antonio Loquercio 、 GuillermoGallego、Narciso Garc 'ıa和Davide Scaramuzza。基于事件的视觉与深度学习在自动驾驶汽车转向预测方面的结合。在IEEE计算机视觉和模式识别会议（CVPR）中，第5419-5427页，2018年。1[25] Gottfried Munda ， Christian Reinbacher ， and ThomasPock.使用流形正则化的事件摄像机的实时强度图像重建。 International Journal of Computer Vision ， 126（12）：1381-1393，2018。1、7[26] Ozan Oktay，Jo Schlemper，Loic Le Folgoc，MatthewLee ， Mattias Heinrich ， Kazunari Misawa ， KensakuMori，Steven McDonagh，Nils Y Hammerla，BernhardKainz，et al.Atten- tion u-net：学会在哪里找胰腺了。arXiv预印本arXiv：1804.03999，2018。5[27] Liyuan Pan ， Cedric Scheerlinck ， Xin Yu ， RichardHartley，Miaomiao Liu，and Yuchao Dai.使用事件摄像机以高帧率拍摄模糊帧。在IEEE计算机视觉和模式识别会议（CVPR）中，第6820-6829页，2019年。12411[28] Stefano Pini，Guido Borghi，and Roberto Vezzani. 学习通过事件来查看：从事件和rg- b摄像机合成彩色帧。在计算机视觉，成像和计算机图形理论与应用国际联合会议上，2019年。1[29] Stefano Pini，Guido Borghi，Roberto Vezzani，and RitaCuc- chiara.从强度和事件帧合成视频。在图像分析和处理国际会议上，第31

下载后可阅读完整内容，剩余1页未读，立即下载