没有合适的资源?快使用搜索试试~ 我知道了~
17010事件概率掩码(EPM)和事件去噪卷积神经网络(EDnCNN)用于神经形态相机0R. Wes Baldwin 1,Mohammed Almatra� 2,Vijayan Asari 1和Keigo Hirakawa 101 代顿大学电气工程系,2 麦加大学电气工程系0{baldwinr2,vasari1,khirakawa1}@udayton.edu,mmmatrafi@uqu.edu.sa0摘要0本文提出了一种通过计算在短时间窗口内在每个像素处生成事件的可能性来标记真实神经形态相机传感器数据的新方法,我们称之为“事件概率掩码”或EPM。其应用包括(i)客观评估事件去噪性能,(ii)训练用于去噪的卷积神经网络称为“事件去噪卷积神经网络”(EDnCNN),以及(iii)估计内部神经形态相机参数。我们提供了第一个真实标记的神经形态相机事件数据集(DVSNOISE20)用于去噪。01. 引言0神经形态(即事件驱动)相机提供了克服传统相机限制的硬件解决方案,具有高时间分辨率(>800kHz),低延迟(20µs),宽动态范围(120dB)和低功耗(10−30mW)[28]。这是通过动态视觉传感器(DVS)实现的,它以微秒级报告每个像素的对数强度变化(即事件)。然而,使用神经形态相机的方法的性能会随着噪声的增加而恶化。这一事实已被引用为最近研究中的一个主要挑战[18,20]。在低光条件下噪声是显著的,因为由微弱的强度波动引发的事件占据了场景中可用信号的主导地位。目前,由于DVS电路中噪声的确切分布(取决于环境、场景和传感器)仍然未知,因此没有可靠的方法来评估去噪性能。由于神经形态相机每秒生成数百万个事件,手动标记每个事件是不切实际的。这一点一直阻碍了事件去噪的机器学习方法。我们提出了“事件概率掩码”的概念0图1.提出的EDnCNN去噪应用于DVSNOISE20数据集中的“CheckerFast”序列。DVS点按时间着色并叠加在APS图像上。红色点被EDnCNN分类为噪声。EDnCNN通过学习实际和无噪声DVS事件之间的映射来表征真实世界噪声分布。0(EPM)-一种通过真实神经形态相机硬件获取的事件数据的标签。我们通过将来自主动像素传感器(APS)的强度测量和由惯性测量单元(IMU)捕获的相机运动相结合,推断神经形态相机像素内事件的对数似然概率。我们的贡献包括:0• 事件概率掩码(EPM):用于真实数据的空时神经形态事件概率标签;0• 去噪相对可信度度量(RPMD):用于基准测试DVS去噪的客观度量;0• 事件去噪CNN(EDnCNN):用于去噪的DVS特征提取和二元分类器模型;0• 校准:DVS电路内部阈值的最大似然估计;以及0•数据集(DVSNOISE20):用于基准测试去噪的标记的真实神经形态相机事件。17020图2.EPM是理想化DVS行为的预测-由空间梯度(APS)和速度(IMU)计算得出。RPMD通过将去噪标签与EPM进行比较来基准测试性能,EPM作为不可观察的无噪声DVS事件的代理。02. 背景和相关工作02.1. 神经形态相机0APS成像传感器同步测量光电二极管观察到的强度值以生成帧。虽然APS是一种成熟的技术,能够生成高质量的视频,但是当传感器或目标以高速移动(即模糊)或在高动态范围场景(即饱和)中时,计算机视觉任务(如目标检测、分类和场景分割)变得具有挑战性。高速相机依赖于大容量存储和计算硬件,使其不适用于实时应用或边缘计算。DVS是一种异步读出电路,旨在确定每个像素中的对数强度变化何时超过预定阈值的精确时机。由于其异步性质,DVS事件缺乏帧的概念。相反,每个生成的事件报告行/列像素索引、时间戳和极性。对数强度变化是表示相对强度对比度的量,其动态范围远大于传统APS。典型的事件相机具有最低阈值设置为15-50%的照明变化,其中下限由噪声确定。在这项工作中,我们使用了一种动态主动视觉传感器(DAVIS),它结合了DVS和APS的功能。两个读出电路共享同一个光电二极管,独立运行。一个输出对数强度变化,另一个以每秒40多帧的速度记录线性强度。此外,DAVIS相机还具有IMU,以1kHz范围内的时间戳与APS和DVS传感器同步。参见图3。自引入以来,神经形态相机已被证明在同时定位和建图(SLAM)[37, 46]、光流[2, 8, 48]、深度估计[14,49]、空间应用[15, 17]、触觉感知[33, 39]、自主导航[30,41]和对象分类[4, 6, 10, 21,34]中非常有用。许多方法依赖于手工制作的特征,例如[16,26, 27, 32,44],而其他应用则使用使用模拟数据训练的深度学习架构[38, 42]。0图3.当对数强度J超过预定义阈值ε时,DVS事件被生成。APS帧暴露时间为τ秒,以η秒的速率发生。基于场景内容和相机运动,EPM标签预测在APS曝光期间事件是否会发生(E = 1)或不会发生(E =0)。02.2. 降噪0神经形态相机中主要存在四种类型的随机噪声。首先,即使没有真实的强度变化,也会生成一个事件。这种被称为“背景活动”(BA)的误报严重影响算法的准确性并消耗带宽。其次,尽管存在强度变化,但不会生成事件(即“空洞”或假阴性)。第三,事件到达的时间是随机的。最后,尽管与边缘幅度成比例(例如,高对比度变化产生的事件比低对比度产生的事件更多),但给定幅度的实际事件数量是随机变化的。大多数现有的事件去噪方法都关注于去除BA,例如生物启发式滤波[5]和基于硬件的滤波[24,29]。空间滤波技术利用像素强度变化的空间冗余,因为事件往往对应于移动物体的边缘。因此,事件会因空间隔离[18,19]或通过空间-时间局部平面拟合[7]而被移除。类似地,时间滤波器利用了单个物体边缘产生多个事件的事实,这些事件的数量与边缘幅度成比例。时间滤波器会去除具有时间冗余的事件[3]或不明确的事件。边缘到达通常会产生多个事件。第一个事件被称为“初始事件”(IE),与边缘的准确到达时刻一致。直接跟随IE的事件被称为“尾随事件”(TE),表示边缘幅度。TE在时间上具有更大的不确定性,因为它们在边缘到达后的一段时间内发生。02.3. 神经形态相机模拟0ESIM [36]和PIX2NVS[9]等模拟器可以人工生成与用户指定的输入APS图像或3D场景相对应的合理的神经形态事件。模拟的神经形态事件已成功地用于机器学习方法,执行诸如运动估计[12, 43,45]和事件到视频转换[38]等任务。然而,神经形态相机中噪声的确切概率分布是正在进行的研究的主题,使得准确的模拟具有挑战性。据我们所知,我们不知道任何利用DVS噪声分布的确切和明确特性的先前去噪方法。We describe below a novel methodology of predictingthe behavior of the DVS from APS intensity measurementsand IMU camera motion. We derive the likelihood prob-ability of an event in DVS pixels of a noise-free camera, anotion we refer to as “event probability mask” (EPM). EPMserves as a proxy for ground truth labels. For example, EPMidentifies which of the real-world events generated by actualDVS hardware are corrupted by noise, thereby overcomingthe challenges associated with modeling or simulating thenoise behavior of DVS explicitly (see Section 2.3).M(X, t) :=Pr[H0] = Pr[∃i s.t. ti(X) ∈ [t, t + τ)]. (5)17030DAVIS传感器0EPM0长凳 检查员慢 实验室快 楼梯 玩具 图4.(第一行)DVSNOISE20数据集中的示例。噪声(原始)DVS事件叠加在APS帧上。(第二行)提出的事件概率掩码(EPM)预测无噪声DVS的行为。强度值表示概率0(黑色)-1(白色)。0我们在下面描述了一种新的方法,用于预测DVS从APS强度测量和IMU相机运动中的行为。我们推导出无噪声相机中DVS像素事件的似然概率,这个概念我们称之为“事件概率掩码”(EPM)。EPM作为地面真实标签的代理。例如,EPM确定了由实际DVS硬件生成的真实世界事件中受到噪声污染的事件,从而克服了对DVS噪声行为进行建模或模拟的挑战(见第2.3节)。03. 事件概率掩码03.1. 提出的标注框架0设I:Z2×R→R表示APS视频(信号),其中I(X,t)是像素X∈Z2在时间t∈R处的辐射强度。DVS电路中的对数放大器产生一个对数强度视频J:Z2×R→R,建模为:0J(X, t) := log(aI(X, t) + b), (1)0其中a和b分别是增益和偏移量。在无噪声神经形态相机硬件中,当对数强度超过预定义的阈值ε>0时,DVS报告理想化事件:0ti(X) := arg min t � t > ti-1(X) ��� |J(X, t) - J(X, ti-1(X))| ≥ ε �0pi(X) := sign(J(X, ti(X)) - J(X, ti-1(X))). (2)0理想情况下,来自无噪声神经形态相机硬件的每个报告的事件提供了空间位置X,精确的时间戳ti,使得J(X,t)越过阈值,并且极性pi∈{+1,-1},表示对数像素强度的变化是更亮还是更暗(见图3)。现在假设{ti(X),pi(X)}是从真实的、实际的、有噪声的DVS硬件中获得的一组事件。我们考虑将DVS事件去噪形式化为以下形式的假设检验:�H0: |J(X, ti(X)) - J(X, ti-1(X))| ≥ ε H1: |J(X, ti(X)) -J(X, ti-1(X))| < ε. (3)0也就是说,我们想确定由(ti,pi)描述的事件是否对应于超过阈值ε的对数像素强度的实际时序变化。然而,这种形式化方法有一个主要缺点;对(ti,pi)的假设检验依赖于另一个事件(ti-1,pi-1),这个事件也可能是有噪声的。因此,在这项工作中,我们修改了假设检验如下:�H0: ti(X) ∈ [t, t + τ) for somei H1: ti(X) / ∈ [t, t + τ) for all i, (4)0其中,τ是用户指定的时间间隔(在我们的工作中设置为APS的积分窗口;见下面的定理1)。注意,新的假设检验将(ti, pi)与(ti-1,pi-1)解耦。式(4)中的假设检验也抽象了幅度和时序噪声,同时忠实地建模了BA和holes。将事件概率掩码(EPM)M:Z2×R→[0, 1]定义为零假设的伯努利概率:0直观地说,EPM量化了在时间窗口 [ t, t + τ ) 内观察到事件的可能性。如果在 [ t, t + τ ) 内发生了事件,但M ( X , t i ) ≈ 0,则这是一个不可能的事件,很可能是由噪声引起的。另一方面,如果 M ( X , t i ) ≈1,我们可以高度确信该事件对应于超过 ε的实际时间变化的对数像素强度。从这个意义上说,EPM是软地面实况标签的代理——EPM与实际DVS硬件输出之间的不一致性可以识别出受噪声污染的事件。EPM M : Z 2 × R → [0, 1]可以根据定理1中的APS和IMU测量计算。M(X, t) =� τ|Jt(X,t)|εif |Jt(X, t)| < ετ1else.(6)E(X, t) =�1if ti(X) ∈ [t, t + τ) for some i0if ti(X) /∈ [t, t + τ) for all i.(9)log Pr[E] =(10)�X∈Z2E(X) log M(X) + (1 − E(X)) log(1 − M(X)).Eopt(X) =17040如果 M ( X , t i ) ≈1,则我们可以高度确信该事件对应于超过 ε的实际时间变化。在这个意义上,EPM是软地面实况标签的代理——EPM与实际DVS硬件输出之间的不一致性可以识别出受噪声污染的事件。EPM M : Z 2 × R → [0, 1]可以根据定理1中的APS和IMU测量计算。0定理1 假设 θ ( t ) = ( θ x ( t ) , θ y ( t ) , θ z ( t )) T表示IMU陀螺仪测量到的相机的瞬时三轴角速度。令 A : Z 2× Z → R 表示具有曝光时间 τ的APS测量。假设相机配置具有焦距 f ,主点 c x , c y和倾斜参数 κ。那么0其中 J t ( X , t ) 如 (7) 和 (8) 中所述。0附录A中提供了证明和推导。图4显示了EPM的示例。请注意,此方法需要DAVIS相机内部的两个参数,即阈值 ε > 0和偏移值 O ∈ R。获取这些值的校准过程在第6节中描述。03.2. 限制0EPM计算需要静态场景(即没有移动物体)和仅旋转的相机运动(即没有平移相机运动),以避免遮挡错误。我们通过使用图5所示的相机配置来解决这个问题(有关详细信息,请参见第7.1节)。然而,我们强调,这仅仅是用于基准测试和网络训练(第5.3节)的限制。这些限制在推理中被移除,因为我们的去噪模型在小的空间窗口内对全局和局部像素运动的行为表现相似。我们在第7.3节的实证结果中证实了对这种模型假设的鲁棒性。此外,定理1仅对恒定照明(例如,DVS可以检测到荧光灯闪烁)有效。此外,由于DVS的动态范围远大于APS,因此无法为APS极端位置的像素计算EPM。图4中显示了示例。另一个限制是当相机运动非常缓慢时,M ( X )的值会减小。这是因为事件由DVS不频繁生成,减少了在给定时间窗口 [ t, t + τ )内观察到事件的概率。虽然EPM准确地捕捉到了这一现象(仅受IMU灵敏度的限制),但很难区分噪声事件和由极慢运动生成的事件。0图5. DVSNOISE20采集的相机设置。云台限制相机运动,同时将焦点居中于原点。04. 应用:去噪基准测试0EPM是首个用于对真实神经形态相机数据进行去噪算法定量评估的基准测试工具。给定一组事件( t i , p i ),令 E : Z2 → { 0 , 1 } 表示事件指示器:0如果已知EPM,则可以明确计算事件( t i , p i)的对数概率:0(证明:对于每个像素 X ∈ Z 2 ,log Pr [ E ( X ) = 1] =M ( X ),log Pr [ E ( X ) = 0] = 1 - M ( X)。)这个对数概率可以用来评估实际噪声、实际噪声硬件中存在的噪声水平。另一方面,如果 ( t ′ i , p ′ i )表示事件去噪方法的结果,则相应的对数概率 log Pr [ E ′ ]是去噪性能的客观度量。从噪声事件 ( t i , p i ) 到去噪事件( t ′ i , p ′ i ) 的改进可以通过 log Pr [ E ′ ] - log Pr [ E ]进行量化。因此,去噪方法的目标是产生一组事件 ( t ′ i , p′ i ) 来最大化 log Pr [ E ′]。事实上,最佳可达到的去噪性能的理论界限是可以计算的。它是0max E : Z 2 →{ 0 , 1 }log Pr [ E ] 0X ∈ Z 2 log max( M ( X ) , 1 - M ( X)),(11)0这是通过对 M ( X ) 进行阈值化来实现的。0� 1 if M ( X ) > 0 . 5 0 if M ( X )≤ 0 . 5 . (12)�|Vx(X, t)|00|Vy(X, t)|V (X, t) =�fκcx0fcyfκcx0fcy001xy117050J t ( X ) ≈ - τ � A ( X , t )0A ( X , t ) − O0� V ( X , t ) (7)0� 0� 0 - θ z ( t ) θ y ( t ) θ z ( t0 - θ x ( t ) - θ y ( t ) θ x ( t) 00�0�0�0�0�0− 1 �0�0� (8)0图6. 从事件感兴趣的 m × m 邻域中的 k个最近事件生成多个时间表面。所有表面都被连接并传递给EDnCNN。EDnCNN执行二进制分类以产生去噪标签。0(证明:如果 M ( X ) ≤ 1 - M ( X ),则 M ( X ) ≤0.5。)因此,我们提出了一种用于去噪的客观DVS质量度量,称为“相对可信度度量”(RPMD),定义为0RPMD := 10N log opt ]0Pr [ E ] (13)0其中 N是像素的总数。较低的RPMD值表示更好的去噪性能,0表示最佳可达到的性能。使用RPMD的基准结果如图7和图9所示。05. 应用:事件去噪CNN0神经形态相机的事件去噪是一个二进制分类任务,其目标是确定给定事件是否对应于真实的对数强度变化或噪声。我们提出了EDnCNN,一种使用卷积神经网络的事件去噪方法。EDnCNN旨在执行(4)中的假设检验,其中零假设 H 0表明事件 t i ( X ) 预计由于对数强度的变化而在短时间窗口 [t, t + τ )内由DVS生成。EDnCNN的输入是仅从DVS事件生成的3D向量。训练数据由DVS和相应的EPM标签组成。一旦训练完成,EDnCNN不需要APS、IMU、静止场景或受限制的相机运动。通过在实际硬件上的DVS数据上进行训练,EDnCNN能够学习真实相机在真实环境中的噪声统计。0真实相机在真实环境中学习噪声统计的EDnCNN受益。05.1. 输入:事件特征0从神经形态相机数据中提取特征的方法有很多[3, 10, 13, 21,22, 25, 26, 34,44]。这些方法旨在将成千上万甚至百万事件总结为单个特征,以执行高级任务,如目标跟踪、检测和分类。然而,事件去噪是一个低级的分类任务。去噪需要对像素级信号特征进行推理,而不是对场景内容的高级抽象。例如,孤立事件很可能是由噪声引起的,而空间和时间聚集的事件很可能对应于真实信号[35]。因此,设计用于区分IE、TE和BA的事件去噪需要能够忠实地表示事件的局部时间和空间一致性的特征。在去噪中,我们借鉴了PointConv[47]的思想,这是一种使用3D点云的局部坐标生成非线性特征的方法。与PointConv不同,它设计用于三个连续的空间域,而DVS事件由两个离散的空间维度和一个连续的时间维度表示。我们利用空间维度的离散性,通过将每个像素最近生成的事件的时间信息映射到构建时间表面[26]。这类似于FEAST[1],它从事件感兴趣的时间表面附近的空间邻域提取特征。然而,每个像素最近事件的时间历史被平均成一个单一的表面,模糊了对去噪有用的事件时序的空间一致性。结合PointConv和FEAST的思想,我们提出了在事件感兴趣的空间-时间邻域内编码事件的方法(t i ( X ) , p i ( X))。ED-nCNN的输入是一个特征向量 Q ∈ R m × m × k ×2。这里,m ×m指的是以事件感兴趣的像素为中心的空间邻域的大小。在这个空间邻域内的每个像素,我们希望编码极性为 p i = -1和 p i = 1 的最近发生的 k 个事件(即在 t i ( X )之前的事件)。注意,时间邻域不是通过时间而是通过事件数量进行阈值化。这允许自动适应像素速度,即对应于17060与较慢移动的边缘相比,较快移动的边缘需要更长的时间窗口来进行处理,因为事件报告非常频繁。当接收到事件ti(X),pi(X)时,我们使用事件感兴趣点ti(X)和每个邻域像素的最近事件的时间戳之间的差异构成的m×m相对时间面来填充Q(:,:,:,-1)和Q(:,:,:,+1),分别使用极性-1和+1。我们重复使用第二个最近的事件构建时间面,将其存储到Q(:,:,:,-1)和Q(:,:,:,+1)等,直到每个像素的最近的k个事件被编码到Q中。参见图6。值得一提的是,EDnCNN输入特征的编码非常节省内存。每个时间面的大小与DVS传感器的大小相同,这意味着整体内存需求为M×N×k×2,其中(M,N)∈Z2是DVS传感器的空间分辨率,存储最近的k个事件。在我们的实现中,m设置为25,k设置为2,DAVIS346的分辨率为(M,N)=346×260。05.2. 网络架构0让�Eφ:Z2→{0,1}是EDnCNN二进制分类器的输出,其中网络系数表示为φ。输出�Eφ(X)=1意味着事件(ti,pi)对应于真实事件。测试表明,使用第5.1节中描述的特征可以快速训练浅层网络,这对于高性能推理是理想的。EDnCNN由三个3×3卷积层(采用ReLU、批归一化和dropout)和两个全连接层组成。学习是通过Adam优化器进行的,衰减率为0.1,学习率为1E-4。网络在APS帧曝光期间使用EPM标记的DVS事件进行训练。训练完成后,EDnCNN可以在任何时间对事件进行分类。由于小的局部补丁主要是场景无关的,EDnCNN可以在新场景和环境中表现良好,并且在推理过程中不需要调整或校准。05.3. 训练0我们提出了三种训练EDnCNN的策略,并证明了这些策略在有足够的训练数据量的情况下是统计上等价的。第一种方法旨在通过最大化相关函数来最小化RPMD:0φopt1 = arg max φ0X Pr [Eφ(X)] (14)0= 0X Eφ(X)M(X) + (1 - Eφ(X))(1 - M(X))。0严格来说,(14)与RPMD最小化不等价。最大化logP[�Eφ]意味着将Pr[�Eφ(X)]乘以X∈Z2。然而,(14)等价于0对L1最小化问题的近似:0φopt2 = arg min φ0�0X0最小化(X) -Eφ(X)的L1规划问题:(15)0(证明:选择�Eφ(X)=1的惩罚是(15)中的1-M(X),等价于(14)中的M(X)的奖励。)最后,考虑最小化分类错误:0φopt3 = arg min φ0�0X0���Eopt(X) - �Eφ(X)���,(16)0其中Eopt是理论上最佳的分类器(12)定义的。在有足够的数据的情况下,(16)在统计上等价于(14)和(15)。附录A中提供了证明。06. 应用:校准0从APS和IMU数据计算事件可能性的关键是知道对数对比敏感度ε(2中)。理论上,这个参数值由用户编程的神经形态相机的寄存器控制。实际上,编程的寄存器值改变了DVS传感器的行为,但确切的阈值值仍然未知[12]。同样,DVS(1)和APS中的增益和偏移值a、b、α、β不容易观察到,也难以确定。这是一个问题,因为(8)中的偏移值O是O = β+αb/a(见附录A)。偏移允许将APS的小线性范围映射到DVS的大动态范围。在这项工作中,我们利用EPM来校准原始DVS数据的阈值值ε和偏移值O。回顾(5)和(10),概率量Pr [H0]和log Pr[E]在一定程度上由ε和O参数化。因此,我们将它们更准确地重写为Pr [H0 | ε,O]和log Pr [E |ε,O],然后制定如下的最大似然估计:0(ε, O) = arg max (ε, O) log P [E | ε, O],(17)0其中 E: Z2 → {0, 1}表示未经处理的噪声DVS数据的事件指示器。对于网络推断,不需要解决(17)。这些估计值仅用于计算EPM,以用于基准测试(第4节)和去噪(第5节)。07. 实验07.1. 数据集:DVSNOISE200数据是使用DAVIS346神经形态相机收集的。它具有346×260像素的分辨率,APS和DVS的动态范围分别为56.7和120dB,延迟为20微秒,具有6轴IMU。如第3.2节所讨论的,定理1在没有平移相机运动和移动物体的情况下成立。相机的运动受到万向节的限制(图5),并且IMU在每次采集前进行校准。只选择静止场景,避免APS中的饱和和严重噪声。APS帧速率(41-56 fps;η范围17至24ms)使用每个场景的固定曝光时间(τ范围0.13ms至6ms)进行最大化。由于EPM标记仅在APS曝光时间内有效,基准测试(第4节)和训练EDnCNN(第5.3节)仅限于在此期间发生的事件。但是,可以通过延长采集时间轻松获得大量数据。此外,我们校准了APS固定模式噪声,并补偿了像素增益和偏置的空间非均匀性。我们获得了16个室内和室外的噪声实际数据场景,形成DVSNOISE20。示例如图4所示。每个场景连续捕获3次,持续约16秒,共得到48个序列,具有广泛的运动范围。对于每个序列,完成了第6节中概述的校准过程。内部相机参数的估计是可重复的,并且具有均值/标准偏差比分别为21.44(O),13.58(ε pos)和13.27(εneg)。DVSNOISE20数据集、校准和代码可在以下网址获取:http://issl.udayton.edu。eBikeChkabFaPaversStairsWall100200300Noisy (Raw)FSAEIEIE+TEBAFNNNN2EDnCNNwas restricted by a gimbal (Figure 5), and the IMU was cal-ibrated before each collection. Only stationary scenes wereselected, avoiding saturation and severe noise in the APS.The APS framerate (41-56 fps; η range 17 to 24 ms) wasmaximized using a fixed exposure time (τ range 0.13ms to6ms) per scene. Since EPM labeling is only valid during theAPS exposure time, benchmarking (Section 4) and trainingEDnCNN (Section 5.3) are restricted to events occurringduring this time. However, a large data volume can be ac-quired easily by extending the length of collection. In ad-dition, we calibrated APS fixed pattern noise and compen-sated for the spatial non-uniformity of pixel gain and bias.We obtained 16 indoor and outdoor scenes of noisy, real-world data to form DVSNOISE20. Examples are shown inFigure 4. Each scene was captured three times for ≈16seconds, giving 48 total sequences with a wide range ofmotions. The calibration procedure outlined in Section 6was completed for each sequence. The estimates of internalcamera parameters were repeatable and had mean/standarddeviation ratios of 21.44 (O), 13.58 (εpos), and 13.27(εneg). The DVSNOISE20 dataset, calibration, and codeare available at: http://issl.udayton.edu.17070小巷0大棋盘0砖块0CheckerSlow0会议0LabSlow0足球0玩具0RPMD0图7. 在16个场景中,去噪算法的基准分数。较小的RPMD值表示更好的去噪性能。07.2. 结果0为了确保公平评估,使用DVSNOISE20的留一场景策略训练了EDnCNN。在图7中,通过RPMD评估了EDnCNN的性能。EDnCNN将噪声数据的RPMD性能提高了平均148个点。除了Alley和Wall序列外,去噪的改进在所有场景中都是显著的。这些场景具有高度纹理的场景内容,这是神经形态相机的一个已知挑战,因此代表了我们对任何去噪方法的最坏情况性能的期望。EDnCNN在这两个场景中的RPMD性能与噪声输入相比既不好也不差。EDnCNN与其他最先进的去噪方法进行了基准测试:活动事件的滤波表面(FSAE[32]),起始和尾随事件(IE和0IE+TE [4],背景活动过滤器(BAF[19]),最近邻(NN和NN2[35])。每个场景的RPMD分数如图7所示。FSAE和IE在噪声输入上没有显著改善,但确实减少了总数据量。IE+TE在减少数据量的同时改善了RPMD性能,并在LabFast序列中获得了最高分。BAF、NN和NN2的工作和行为类似,在16个场景中有3个优于EDnCNN。然而,这些方法的性能比EDnCNN更敏感。EDnCNN在16个场景中优于其他去噪方法,在Wilcoxon符号秩检验中具有统计学上显著的p值为0.00248。图8显示了去噪的DVS事件示例(叠加在APS图像上以进行可视化)。从定性上讲,IE+TE、BAF和NN2通过了空间上孤立的事件,使得与EDnCNN相比更难区分边缘形状。EDnCNN删除了与边缘不对应的事件,并与设计的EPM标签强制达成一致(见图4)。07.3. 对假设和数据集的鲁棒性0为了测试鲁棒性,我们还对来自ESIM[36]的模拟DVS数据进行了基准测试。ESIM是一个事件相机模拟器,允许用户指定3D场景、光照和相机运动。在我们的实验中,我们将从虚拟场景中模拟的DVS数据解释为无噪声神经形态相机的输出。然后我们向场景中注入额外的随机事件(即BA噪声)。图9显示了在合成数据上进行RPMD基准测试的结果,作为BA噪声百分比的函数。如预期所示,噪声数据的RPMD性能随着噪声百分比的增加呈线性缩放。由于EDnCNN没有针对无噪声数据进行训练,所以在0%BA噪声水平上,它的性能略低于其他一些方法。相比之下,IE+TE、BAF、NN和NN2在事件计数增加时低估噪声,性能下降。图10显示了具有非旋转相机运动[40]和多个移动物体[31]的示例序列。从定性上看,EDnCNN去噪似乎与IE+TEBAFNN2EDnCNNEDnCNNcameras. We developed EDnCNN, a neural network-basedevent denoising method trained to minimize RPMD. Weshowed that internal camera parameters can be estimatedbased on natural scene output. We collected a new bench-marking dataset for denoising along with the EPM label-ing tools (DVSNOISE20). Quantitative and qualitative as-sessment verified that EDnCNN outperforms prior art. ED-nCNN admits higher contrast sensitivity (i.e. detection ofscene content obscured by noise) and would vastly enhanceneuromorphic vision across a wide variety of applications.17080Benches CheckerSlow LabFast Stairs Toys 图8.来自四种不同算法的DVSNOISE20去噪结果。去噪后的DVS事件(黄色)叠加在APS帧上。0图9.模拟结果:将随机噪声注入模拟数据,以测试每个算法对输入噪声水平的鲁棒性。0图8显示了静止场景性能。关于其他数据集的额外分析和更多示例可以在补充材料和附录A中找到。08. 结论0神经形态相机的对比敏感性主要受到噪声的限制。在本文中,我们提出了五个主要贡献来解决这个问题。我们严格推导了一种在非常短的时间间隔内观察事件的概率(EPM)的方法。我们提出了一种新的基准度量(RPMD),可以对实际神经形态相机进行去噪性能进行定量比较。我们开发了EDnCNN,一种基于神经网络的事件去噪方法,训练目标是最小化RPMD。我们展示了可以基于自然场景输出估计内部相机参数。我们收集了一个新的用于去噪的基准数据集,以及EPM标注工具(DVSNOISE20)。定量和定性评估验证了EDnCNN优于现有技术。EDnCNN具有更高的对比敏感性(即检测到被噪声遮挡的场景内容)并且可以极大地增强神经形态视觉在各种应用中的应用。0有噪声0(a) DVSFLOW16 [40] (b) IROS18 [31] 图10.在已发布的数据集上的EDnCNN结果。(a)DVS光流数据集,相机运动无旋转[40]。(b)极端事件数据集(EED),包含多个物体运动[31]。17090参考文献0[1] Saeed Afshar, Ying Xu, Jonathan Tapson, André vanSchaik, and Gregory Cohen. Event-based feature extractionusing adaptive selection thresholds. arXiv preprintarXiv:1907.07853 , 2019. [2] Mohammed Mutlaq Almatra� andKeigo Hirakawa. Davis camera optical �ow. IEEE Transactionson Computational Imaging , 2019. [3] Ignacio Alzugaray andMargarita Chli. Asynchronous corner detection and trackingfor event cameras in real time. IEEE Robotics and AutomationLetters , 3(4):3177–3184, 2018. [4] R Wes Baldwin,Mohammed Almatra�, Jason R Kaufman, Vijayan Asari, andKeigo Hirakawa. Inceptive event time- surfaces for objectclassi�cation using neuromorphic cam- eras. In InternationalConference on Image Analysis and Recognition , pages395–403. Springer, 2019. [5] Juan Barrios-Avilés, AlfredoRosado-Muñoz, Leandro Medus, Manuel Bataller-Mompeán,and Juan Guerrero- Martínez. Less data same information forevent-based sen- sors: A b
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功