没有合适的资源?快使用搜索试试~ 我知道了~
1事件到视频:将现代计算机视觉引入活动摄像机HenriRene RanftlVladlenKoltunDavide Scaramuzza摘要事件相机是新型传感器,其以异步“事件”而不是强度帧的形式报告亮度变化。与传统相机相比,它们具有显著的优势:高时间分辨率、高动态范围以及无运动模糊。由于事件摄像机的输出从根本上不同于传统摄像机,因此通常认为它们需要开发专门的算法来适应事件的特殊性质。 在这项工作中,我们采取不同的观点,并建议将现有的,成熟的计算机视觉技术应用于从事件数据重建的视频。我们提出了一种新的递归网络来重建视频从事件流,并训练它对大量的模拟事件数据。实验结果表明,该方法在图像质量方面大大优于现有的重建方法(>20%)。我们进一步将现成的计算机视觉算法应用于从对象分类和视觉惯性里程计等任务的事件数据重建的视频,并表明这种策略始终优于专门为事件数据设计的算法。我们相信,我们的方法打开了一扇大门,将事件摄像机的出色性能带到一 个 全 新 的 任 务 范 围 。 实 验 的 视 频 可 在https://youtu.be/IdYrC4cUO0I上获得1. 介绍活动摄像机是生物启发的视觉传感器,其工作原理与传统摄像机截然不同。代替以固定速率捕获强度图像,事件相机在强度发生时异步地测量强度的变化这导致事件流,其编码亮度变化的时间、位置和极性(符号)2)的情况。与传统相机相比,动态视觉传感器(DVS)[24]等活动相机具有出色的他们有一个非常高的动态范围(140分贝对60分贝),不受运动†部门信息学大学苏黎世和Dept.神经信息学,苏黎世大学和苏黎世英特尔实验室图1.我们的网络将时空事件流这使得直接应用现成的计算机视觉算法,如对象分类(第5.1节)和视觉惯性测距法(第5.2节),在每种情况下产生最先进的结果与事件数据。该图显示了我们的方法的实际输出样本,操作来自公开可用数据集的真实事件序列[30]。模糊,并提供延迟低至1微秒的测量。因此,事件摄像机在对传统摄像机具有挑战性的条件下提供了可行的替代或补充传感器。然而,由于事件相机的输出是事件的异步流(与自然图像基本不同的表示),因此现有的计算机视觉技术不能直接应用于该数据。因此,需要专门定制自定义算法以利用事件数据。这种专门的算法在从低级视觉任务(如视觉odom-搜索[18,39,53,38,41]),特征跟踪[20,52,15]和光流[5,3,47,55,46],以高层次的任务,如ob-物体分类[35,21,45]和手势识别[2]。虽然一些工作[9,10,5,29,18,14]专注于通过逐个事件处理数据来利用传感器的低延迟,但通过在处理之前将一组事件映射到类似图像的2D表示中已经取得了重大进展示例是图像平面[39,26,27]以及时间表面[21,45,55,51,55]上的事件的积分。然而,无论是事件图像还是时间表面都不是自然图像,这意味着现有的计算机视觉工具箱中的大部分都最重要的是,深度网络是在真实图像数据上训练的3857E2VID时间X下游应用现成算法视觉-惯性测距法对象分类3858不能直接转移到这些表示中。在本文中,我们建议建立一个桥梁的视觉与事件相机和传统的计算机视觉。具体来说,我们学习如何从事件流中重建自然视频(我们学习事件流和图像流之间的映射(图11)。①的人。这使我们能够将现成的计算机视觉技术应用于活动摄像机。我们的工作与以前的图像重建方法[3,31,43]在两个基本方面不同首先,不是将手工制作的平滑度先验嵌入到我们的重建框架中,而是使用大量模拟事件数据直接从事件中学习视频第二,而不是主要集中在重建的质量,我们建立我们的方法的目标是应用标准的计算机视觉技术的reprojections。为此,我们鼓励重建的图像共享的统计数据的自然图像,通过感知损失,操作的中级图像特征。为了进一步验证我们方法的质量,我们使用我们的重建来解决事件相机的两个常见问题:(i)根据事件流的对象分类,以及(ii)视觉-惯性里程计。我们将现成的计算机视觉算法应用于这两项任务的重建视频,这些算法是为处理传统图像而构建的。我们表明,这种策略优于国家的最先进的方法,已专门设计的事件数据。总的来说,我们的贡献是:• 一种新颖的递归网络架构,用于从事件流中重建视频,在图像质量方面的最新技术水平。• 我们建立的网络可以从模拟事件数据进行训练,并非常好地推广到真实事件。• 我们的方法的两个问题与事件相机的应用:目标分类与视觉惯性事件数据的里程计。我们的方法优于国家的最先进的算法,专为事件数据在这两个应用程序。我们认为,我们的方法最吸引人的特点是它作为传统相机和事件相机之间的桥梁,从而将计算机视觉研究的主流引入事件相机:成熟的算法,现代的深度网络架构,以及从大型自然图像数据集预训练的权重。我们相信,我们的工作将打开大门,利用事件相机的好处-高时间分辨率,高动态范围(图。6),和没有运动模糊(图.9)-更广泛的应用。2. 相关工作事件到视频的重建是事件摄像机文献中的一个热门话题。早期的方法并不重建视频,而是专注于从通过静态场景移动的事件摄像机收集的大量事件中重建单个图像。这些工作揭示了这样一个事实,即每一个事件都提供了一个通过亮度恒定性关系到强度梯度和光流的方程[15]。Cook等人[10]使用生物启发的、相互连接的网络,从执行小旋转的事件摄像机中同时恢复强度Kim等人[17]开发了一种扩展卡尔曼滤波器,用于从旋转事件相机重建2D全景梯度图像(后来通过2D泊松积分升级为全强度帧),后来将其扩展到3D场景和6自由度(6DOF)相机运动[18](尽管仅在静态场景中)。Bardow等人[3]提出通过变分能量最小化框架从事件的滑动窗口同时估计光流和强度他们展示了第一个适用于动态场景的事件视频重构框架然而,他们的能量最小化框架需要多个手工制作的正则化器,这可能导致重构中的细节严重丢失。最近,出现了基于直接事件集成的方法这些方法不依赖于对场景结构或运动动态的任何解释,并且可以以任意高的帧速率自然地重建视频。Munda等人[31]投射强度重建作为定义在由事件时间戳引起的流形上的能量最小化问题他们将直接事件集成与全变分正则化相结合,并在GPU上实现了实时性能。Scheerlinck等[43]提出在积分之前用高通滤波器对事件进行滤波,并证明了与[31]相当的视频重建结果,同时计算效率更高。虽然这些方法目前定义了最先进的技术,但两者都存在直接事件集成所固有的工件。由于对比度阈值(像素的最小亮度变化以显示事件)在图像平面上既不恒定也不均匀,因此重建遭受此外,事件的纯积分原则上只能将强度恢复到未知的初始值。图像I0,这导致年龄Barua等人[4]提出了一种基于学习的方法来重建事件的强度图像他们在模拟数据上使用K-SVD[1]来学习一个字典,该字典将小块集成事件映射到图像梯度,并使用泊松积分来恢复强度图像。在3859eKN−10我我∆T标准k−10k−1我ek−1kN−10杨永N−1t摄像机输出:εk−1εk事件摄像机输出:Ik−2Ik−3Ik−4Ek−1一Ik−1Ik−2AIk−3k图2. 传统相机和事件相机在旋转圆上的黑色圆盘虽然传统相机以固定速率捕获帧,但事件相机以时空中事件的螺旋形式连续传输亮度变化(红色:阳性事件,蓝色:阴性-图3. 概述我们的方法。事件流(在时间轴上被描绘为红/蓝点)被分成窗口εk,每个窗口中具有N个每个窗口被转换成3D事件张量Ek,并与最后K个重建图像一起通过网络以生成新的图像重建Ik。在事件)。图为[29]。与[4]相反,我们不从事件的小窗口重建单独的强度图像,而是使用递归网络从长事件流(几秒)重建时间上一致的视频。而不是将事件补丁映射到图像梯度的字典,我们直接学习逐像素的强度估计。尽管在事件到视频重建方面有大量的工作,但据我们所知,在我们的工作之前,基于重建的进一步下游视觉应用从未被证明过。3. 视频重构方法事件摄像机由独立的像素组成,这些像素响应于时空亮度信号L(x,t)1的变化,并以异步事件流的形式传输变化(图1)。2)的情况。对于理想的传感器,在这个例子中,K= 3,N= 7。εk(见图3)。重建函数由递归卷积神经网络实现。我们以监督的方式训练网络,使用大量的模拟事件序列和相应的地面实况图像。由于我们处理的窗口具有恒定数量的事件,因此输出帧速率与事件速率成正比,使我们的方法完全数据驱动。虽然我们的方法由于在Windows中处理事件而引入了一些延迟,但它仍然抓住了事件相机的主要优势:我们的重建具有高动态范围(图1)。6)和免费的运动模糊,即使在高速(图。第9段)。3.2. 事件表达式为了能够使用CNN处理事件流,我们需要将εk转换为固定大小的10-ei=(ui,ti,pi)在像素ui=(xi,yi)T且排序表示Ek。一个自然的选择是将时空体素网格中的事件[56]。持续时间时间ti,当亮度从最后一个事件开始改变时,像素达到阈值±C,该阈值可以由用户固定然而,实际上C在整个图像平面上既不是恒定的也不是均匀的。相反,它的变化很大,取决于-考虑各种因素,如亮度变化的符号[14],事件率(由于有限的像素带宽)[8]和温度[24]。因此,在实践中,事件不能直接积分以恢复准确的强度图像。3.1. 概述我们的目标是将一系列事件转化成一系列图像{I<$},∈[0,1]W×H.εk中的事件所跨越的ΔT=tk−tk被离散化为B个时间仓。每个事件将其极性P1分配给两个最接近的时空体素,如下所示:ΣE(xl,ym,tn)=pimax(0,1 -1)|tn− t|),(1)xi=xlyi=y m其中t,B−1(ti−t0)是归一化事件时间- tamp。我们使用N= 25,000个事件/窗口和B= 10个时间仓,除非另有说明3.3. 训练数据我们的网络需要训练数据,即,大量为了实现这一点,我们对传入的事件事件的连续(非重叠)时空窗口εk={ei},i∈[0,N-1],每个包含固定数量N的事件。对于每个新事件序列εk,事件序列与相应的地面实况图像序列的关系。形 式上,如果我们让ES={E 0,..., ET-1}是事件张量序列,且IS={I0,.,IT−1} be对应的序列O. f图像,我们需要生成我们通过融合K个前向反射,一个庞大的映射数据集ESParticipiS . 但构造的图像{Ik−K,.,Ik-1}with thenew vents1事件摄像机实际上响应对数亮度变化,即L=logE,其中E是辐照度。不存在具有事件数据和相应的地面实况图像的这种大规模数据集。此外,由传统相机获取的图像将提供较差的基础e杨永3860在事件摄像机擅长的场景中,即高动态范围和高速场景中,出于这些原因,我们建议在合成事件数据上训练网络,并随后在第4节中展示我们的网络推广到真实事件数据。我们使用事件模拟器ESIM [37],它允许可靠地模拟大量事件数据ESIM以高帧率沿摄像机轨迹渲染图像,并在每个像素处插值亮度信号,以近似模拟事件摄像机所需的连续强度信号。 因此,地面实况图像我随时都可以。我们将MS-COCO图像[25]映射到3D平面,并模拟随机触发的事件在这个简单的3D场景中的相机运动的实例使用新的事件序列在精神上更新先前的重建在训练期间,我们将网络展开L个步骤。在测试时,前面的K个重建图像被送入网络(图1)。(3)第三章。我们发现L= 8和K= 3提供了重建质量和训练时间之间的良好权衡。损失:我们使用校准的感知损失(LPIPS)[49],它通过在ImageNet [42]上训练的VGG网络[44]传递重建图像和目标图像,并对跨多个层计算的VGG特征之间的距离进行平均。通过最小化LPIPS,我们的网络有效地学习赋予重建图像自然统计(即。其特征接近于的自然图像)。 总损失Lk计算为:生成的合成事件序列在AP中呈现钟摆 我们通过模拟不同的训练数据来丰富训练数据-Lk=距离Ll=0 dL(Ik−1,Ik−1),其中dL表示LPIPS输入一组正负对比度阈值,模拟场景(根据平均值为0. 18,标准差为0。03;这些参数是根据经验数据选择的)。这阻止了网络学习简单地整合事件,这将在无噪声的模拟数据上工作,但将很差地生成真实事件数据(对于真实事件数据,固定的对比度阈值不成立)。相机传感器尺寸设置为240×180像素(以匹配我们评估中使用的DAVIS240C传感器的分辨率[7])。使用MS-COCO图像可以捕获比任何现有事件摄像机更大的场景变化era dataset.我们生成了1300个序列,每个序列2秒,这导致了大约45分钟的模拟事件数据。注意,模拟序列只包含全局单应运动(即,在模拟序列中没有然而,我们的网络令人惊讶地很好地推广到具有任意运动的场景,如第4节所示。3.4. 网络架构与培训我们递归网络的主要模块是一个UNet [40]架构,类似于Zhu等人介绍的架构。[55]在光流估计的上下文输入十-排序(通过连接Ek,Ikk−K,...,Ik−1),尺寸(B+K)×H×W,通过4个跨步卷积层(每次输出通道的数量加倍),接着是两个残差块[16]和四个上采样转置卷积层。所得激活在深度方向上卷积以获得最终图像重建。在[55]之后,我们在对称卷积层之间使用跳过连接。附录中提供了体系结构的其他细节在该基本模块(图1中标记为“A”)的顶部。3)引入一种递归连接,使强度信息在时间上向前传播;换句话说,网络不需要在每一个时间步从头开始重建新的图像,而只是增加,培训程序:我们将合成序列分为1,270个训练序列和30个验证序列,并使用PyTorch实现我们的网络[34]。我们使用ADAM [19],初始学习率为0。0001,随后以0的因子衰减。每10个时期9个我们使用16的批量大小并训练40个epoch。4. 评价在本节中,我们将介绍有关重建保真度的定量和定性结果,并与最近的方法[3,31,43]进行比较。我们将评估的对合成数据的评价见补充材料。我们使用来自事件相机数据集的事件序列[30]。这些序列是使用在各种环境中移动的DAVIS 240C传感器[7]它包含事件以及20 Hz速率的地面实况灰度帧。我们去除冗余序列(例如,在同一场景中捕获的)和帧质量差的那些,总共留下7个序列,总计1,670个地面实况帧。对于每个序列,我们用我们的方法和每个基线从事件中重建视频对于每个地面真值帧,我们查询具有最接近地面的时间戳的重建图像真值(公差为±1ms)。然后,根据若干质量度量,将每个重建与对应的地面实况帧进行比较在计算误差度量之前,我们均衡每个地面实况帧和重建帧的直方图(这样,强度值位于相同的强度范围内,因此具有可比性)。 注意,相机速度在每个序列中逐渐增加,导致在接近序列结束时地面实况帧上的显著运动模糊;因此,我们排除了这些快速部分,3861(a)场景概述(b)事件(c)高频(d)MR(e)我们的(f)地面实况图4. 我们的方法与MR和HF在[30]序列上的比较。与竞争方法相比,我们的网络可以很好地重建细节(第一行的纹理),同时避免了它们的伪影(例如,第三行中的“出血边缘”)。我们的量化评估。我们还省略了每个序列的前几秒,这为基于事件集成的基线方法留出了足够的时间。请注意,这有利于基线,因为我们的方法几乎立即收敛(在补充材料中分析了初始化阶段)。我们将我们的方法与几种最先进的方法进行比较:[3](我们将其表示为SOFIE,用于“同时光流和强度估计”),[ 43 ](HF,用于“高通滤波器”)和[ 31 ](MR,用于“流形正则化”)。对于HF和MR,我们使用作者提供的代码,并手动调整评估序列的参数,以获得最佳结果。对于HF,我们还将双边滤波器应用于重建图像(滤波器大小d= 5且σ= 25)以去除高频噪声,这改善了HF在所有度量中的结果。对于SOFIE,我们报告定性结果而不是定量结果,因为我们无法使用作者提供的代码在我们的数据集上获得满意的重建。我们报告了三种图像质量指标:均方误差(MSE;越低越好)、结构相似性(SSIM;越高越好)[48],以及校准的感知损失(LPIPS;越低越好[49]。结果和讨论:主要定量结果见表1,并得到图1和图2中定性结果的支持4和5.补充材料中提供了其他结果我们还鼓励读者观看补充视频,它以比静止图像更好的形式传达这些结果。在所有数据集上,我们的重建方法都比最先进的方法有很大的优势,SSIM平均增加了21%,LPIPS减少了23%质量(a) 事件(b)SOFIE(c)HF(d)MR(e)Ours图5.对[3]中介绍的数据集进行定性比较我们的方法产生更清晰和更详细的结果。因此,我们的方法与基线相比非常好地重建了小细节(见图1第一行中的框)。例如,4)。此外,我们的方法不遭受4). 这些伪影是由于(i)不正确地估计对比度阈值和(ii)这些方法只能估计图像强度达到一些未估计值的事实已知的初始强度I0,其重影可以保持可见。我们还将我们的方法与HF ,MR 和SOFIE qual进行了比较。在图5中,使用[3]的作者直接提供的数据集和图像重建进行了验证。再一次,我们的网络生成了更高质量的重建,具有更精细的细节和更少的噪音。最后,我们证明了我们的网络能够利用事件的突出特性在弱光下重建图像(图1)。6)和高速运动期间(图。9),其中常规摄像机失效的两种情形局限性:我们的方法引入了一些延迟,这是因为我们在Windows中处理事件,而不是3862数据集MSE SSIM LPIPSHF MR我们的HF MR我们的HF MR我们的动态6DOF0.100110080 390.四四零。500530 530 43盒子6dof0. 090.070040.450470630510540 36海报6dof0. 060050040.520550680。四四零。50032形状6dof0.110140100340 430.四四零。630六四 0 53办公室之字形0. 090. 060050360430.50054055044滑块深度为0。080 080 06048051061050055042校准0.070060 040.410410520550570 47平均值为0。090. 080 06042046056053055042表1. 与事件相机数据集上最先进的图像重建方法的比较[30]。我们的方法在所有数据集上的表现都优于先前的此类方法,与最佳先前方法(分别为MR [31]和HF [43])相比,结构相似性(SSIM)平均增加21%,感知距离(LPIPS)减少23%。(a) VI传感器(b)事件(c)我们的重建图6. 从安装在夜间行驶的汽车上的事件摄像机进行的高动态范围重建[54]。由于光线不足,传统的相机图像严重退化(a)。相比之下,事件(b)捕获了场景的整个动态范围,我们的方法成功地将其转换为图像(c),恢复了传统帧中丢失的细节。(a)(b)(c)(d)图7.MVSEC数据集[54]中序列的失败案例示例太阳((a)的左上角)产生噪声事件,导致我们的网络产生局部重建错误(b),并在随后的重建(c,d)中被放大。event-per-event [43],范围从1 ms到200 ms,取决于事件速率和N值(详见附录)。此外,在某些情况下(在模拟中未建模的事件中存在极端的电子噪声),我们的方法可能无法正确重建图像的某些部分,并且可能将错误传播到下一次重建(图2)。(七).5. 下游应用在本节中,我们展示了我们的方法作为传统计算机视觉和具有事件相机的视觉之间的桥梁的潜力,用于低级和高级任务。首先,我们专注于从事件中进行对象分类(第5.1节),然后转向相机姿态估计。与事件和惯性测量(第5.2节)。5.1. 对象分类事件数据的模式识别是一个活跃的研究课题。二、虽然一条工作线专注于尖峰神经架构(SNN),以最小延迟(H-FIRST [33])从事件流中识别模式,但传统的机器学习技术与时间表面(HOTS [21])等新型事件表示相结合,迄今为止已经显示出最有希望的结果。最近,HATS [45]解决了从事件流中进行对象分类的问题。他们提出了几个修改HOTS,并取得了很大的改进,分类精度,优于所有以前的方法,由一个大的利润。我们提出了一种基于事件流的对象分类方法。我们不使用手工制作的事件表示,而是直接在从事件重建的图像上训练分类网络。我们将我们的方法与最近的几种方法进行比较:HOTS和最先进的HATS,使用HATS论文中使用的数据集和指标(分类精度)。N-MNIST(Neuromorphic-MNIST)和N-Caltech 101数据集[32]是MNIST [22]和Caltech 101 [12]数据集的基于事件的版本。为了将图像转换为事件序列,将事件摄像机放置在马达上,并在指向MNIST(分别为Caltech101)投影到白墙上的图像时自动移动N-CARS数据集[45]提出了一个二元分类任务:使用100毫秒的事件序列来决定汽车是否可见。图8示出了来自三个数据集中的每一个的样本事件序列。我们的方法对每个数据集遵循相同的方法。首先,对于训练集中的每个事件序列,我们使用我们的网络从2有关工作清单见:https://github.com/uzh-rpg/event-based_vision_resources3863(a) N-MNIST(b)N-CARS(c)N-Caltech101图8. 每个数据集的样本用于评估我们基于事件的对象分类方法(第5.1节)。顶部:事件序列的下图:图像重建。N-MNISTN-CARSN-Caltech101HOTS0.8080.6240.210HATS/线性SVM0.9910.9020.642HATS/ResNet-18N.A.0.9040.700迁移学习(TransferLearning)0.807N.A.0.821我们的(微调)0.9830.9100.866表2. 与最近的方法(包括最先进的HATS [45])相比,分类准确性。事件(Fig.8,底行)。然后,我们使用来自训练集的重建图像训练一个现成的CNN用于对象分类。对于N-MNIST,我们使用一个简单的CNN(补充中的细节)并从头开始训练它。对于N-Caltech 101和N-CARS,我们使用ResNet-18 [16],使用ImageNet [42]上预训练的权重进行初始化,并为手头的数据集微调网络。训练完成后,我们在测试集(从测试集中的事件重建的图像)上评估每个网络,并报告分类精度。此外,我们对N-MNIST和N-Caltech 101数据集进行了迁移学习实验(每个事件序列都有相应的图像):我们在传统的图像数据集上训练CNN,并直接在从事件重建的图像上评估网络,而无需微调。对于基线,我们直接报告[45]中为了尽可能公平地与HATS进行比较,我们还提供了使用ResNet-18网络(而不是最初使用的线性SVM结果如表2所示,其中数据集以从左到右的难度递增顺序呈现。尽管我们的方法很简单,但它优于所有基线,并且随着数据集变得越来越困难,我们的方法和最先进的方法之间的差距也会增加。虽然我们在N-MNIST上的表现略差于HATS(98.3%对99.1%),但这可以归因于 N-MNIST的合成性质,与手工制作的特征表示(如HATS)相比,我们的方法并没有带来实质性的优势请注意,与HATS相反,我们没有执行超参数调优。在N-CARS(自然事件数据的二元分类任务(a) DAVIS框架(b)我们的重建图9。DAVIS帧和重建帧在“动态6dof”序列的高速部分上的比较我们从事件的重建不会受到运动模糊的影响,导致增加的姿态估计精度(表3)。我们的方法表现得更好,尽管改进很小(91%对HATS的90.4%)。然而,N-CARS在精度方面几乎饱和。在N-Caltech 101(最具挑战性的数据集,需要将自然事件数据分类为101个对象类)上,我们的方法真正闪耀,大幅优于HATS(86.6%对70.0%)。这一重大差距可以解释为,我们的方法利用了数十年的计算机视觉研究和数据集。使用我们的事件到视频方法将事件流提升到图像域,使我们能够使用在现有大型标记数据集上预训练的成熟CNN架构,从而保留在大量图像数据上学习的强大分层特征-这对于事件数据是不可能的,因为标记数据集是稀缺的最后,更引人注目的是,我们指出,我们的方法,在纯迁移学习设置(即。将从事件重构的图像馈送到在真实图像数据上训练的网络)比所有其它方法执行得更好,同时不使用来自训练集的事件序列据我们所知,这是首次实现图像数据和事件数据之间的直接迁移学习我们还指出,我们的方法是实时的能力。在N-Caltech 101上,端到端分类所需的时间更少在NVIDIA RTX 2080 Ti GPU上的时间小于10 ms(序列重建:≤8 ms,对象分类:≤2 ms)关于性能的更多细节可以在附录中找到。5.2. 视觉惯性测距视觉惯性测距(VIO)的任务是从一组视觉测量(图像或事件)和来自刚性附接到相机的惯性测量单元(IMU)的惯性测量由于其在增强/虚拟现实和移动机器人中的重要性,VIO在过去十年中得到了广泛的研究,如今已经相对成熟[28,23,6,13,36]。然而,基于传统相机的系统在具有挑战性的条件下失败,例如高速运动或高动态范围环境。最近,这推动了具有事件数据的VIO系统(EVIO)的开发[53,38,41]。3864输入E+IU.SLAME+IU.SLAME+F+IHFE+IMRE+IVINS-MonoF+I形状翻译0.180.320.17失败2.000.93海报翻译0.050.090.060.490.15失败盒子翻译0.150.810.260.700.450.22动态翻译0.080.230.090.580.170.13形状6DOF1.090.090.06失败3.001.99海报六自由度0.120.200.220.450.171.99盒子6dof0.620.410.341.711.170.94动态六自由度0.150.270.11失败0.550.76HDR盒子0.340.440.370.640.660.32是说0.310.320.190.760.920.91中值0.150.270.170.610.550.84表3. 来自[30]的序列的平均翻译误差(以米为单位)。我们的 方 法 优 于 使 用 事 件 和 IMU 的 所 有 其 他 方 法 , 包 括UltimateSLAM ( E+I ) 。 令 人 惊 讶 的 是 , 它 甚 至 与UltimateSLAM(E+F+I)表现相当,而不使用额外的帧。平均翻译误差超过5 m的方法被标记为最先进的EVIO系统UltimateSLAM [41]通过独立地跟踪来自伪图像的视觉特征来操作,所述伪图像从来自常规相机的事件和可选图像重建,并且使用现有的优化后端将轨迹与惯性测量融合[23]。在这里,我们更进一步,直接将现成的VIO系统(特别是VINS-Mono [36],这是最先进的[11])应用于使用我们的方法MR或HF从事件重建的视频,并针对UltimateSLAM进行评估。作为标准[53,38,41],我们使用来自事件相机数据集[30]的序列,其中包含来自DAVIS 240C[7]传感器的事件,帧和IMU测量每个序列是60秒长,并包含数据从手持事件摄像机下,在几个环境中进行各种运动。所有序列都具有极快的运动(角速度高达880/s,线速度高达3。5米/秒),这导致严重的运动模 糊 的 帧 ( 图 。 第 9 段 ) 。 我 们 将 我 们 的 方 法 与UltimateS-LAM的两种操作模式进行比较:仅使用事件和IMU的UltimateSLAM(E+I),以及使用事件、IMU和 附 加 帧 的 UltimateSLAM ( E+F+I ) 。 我 们 在UltimateSLAM作者提供的原始轨迹上运行公开可用的VIO评估工具箱[50],这确保了所有方法估计的轨迹都以完全相同的方式进行评估。为了完整起见,我们还报告了直接在DAVIS传感器的帧上运行VINS-Mono的结果表3列出了所有数据集的每种方法的平均翻译误差(补充资料中列出了其他结果)。首先,我们注意到我们的方法在所有序列上的表现都优于UltimateSLAM(E+I),除了“shapes 6dof”序列。这个序列的特点是几个合成形状,很少的fea-tures(≤10),这会导致VINS-Mono无法正确初始化,从而导致高错误(请注意,这是VINS-Mono,而不是我们的图像重建)。总体而言,我 们 的 方 法 的 中 位 数 误 差 为 0 。 15 米 , 比UltimateSLAM(E+I)(0. 27米),它使用完全相同的数据。事实上,虽然UltimateSLAM(E+I)使用从单个小事件窗口创建的粗糙伪图像,但我们的网络能够重建具有更精细细节和更高时间一致性的- 这两者都导致更好的特征轨迹,并因此导致更好的姿态 估 计 。 更 引 人 注 目 的 是 , 我 们 的 方 法 与UltimateSLAM(E+F+I)相当,而后者需要我们不需要的额外帧。两种方法的中间误差相当(0. 我们是15米对0米。UltimateSLAM(E+F+I)为17 m最后,我们指出,在竞争图像重建(MR和HF)上运行相同的VIO(VINS- Mono)会导致更大的跟踪误差(例如,中值误差是MR的三倍),这进一步突出了我们的图像重建在下游视觉应用中的优越性。我们承认我们的方法没有UltimateSLAM那么快。由于这两种方法之间的主要区别在于它们如何将事件转换为“类似图像”的表示,因此可以通过比较每种方法合成新图像所花费的时间来获得对每帧差距的粗略估计:Ulti-mateSLAM在CPU上大约需要1毫秒,对于我们的方法,在高端GPU上≤4 ms 绝不-更少,我们的活动到视频网络允许利用外-VIO的事件的常设属性,达到甚至更高的精度比国家的最先进的EVIO专为事件数据设计。6. 结论我们提出了一种新的事件到视频重建框架,基于在模拟事件数据上训练的递归卷积网络。除了在真实事件数据上的表现优于最先进的重建方法之外(>20%的改进),我们还展示了我们的方法作为传统相机和事件相机之间的桥梁在两个视觉应用上的适用性对于这些任务中的每一项,我们都将现成的计算机视觉算法应用于我们的网络从事件中重建的视频,并表明结果优于为每种情况下的事件数据量身定制的最先进算法。这验证了我们的方法可以轻松地将数十年的计算机视觉研究应用于事件相机:成熟的算法,现代的深层架构,以及从大型图像数据集预训练的权重。确认这项工作得到了瑞士国家机器人能力研究中心(NCCR)和SNSF-ERC启动补助金的支持。3865引用[1] 迈克尔·阿哈龙,迈克尔·埃拉德和阿尔弗雷德·M·布鲁克斯坦K-SVD:一种为稀疏表示设计过完备字典的算法 。 IEEE Transactions on Signal Processing , 54(11):4311-4322,2006. 2[2] Arnon Amir , Brian Taba , David Berg , TimothyMelano,Jef- frey McKinstry,Carmelo Di Nolfo,TapanNayak,Alexander Andreopoulos,Guillaume Garreau,Marcela Mendoza,Jeff Kusnitz,Michael Debole,SteveEsser , Tobi Delbruck , My- ron Flickner , andDharmendra Modha.低功耗、完全基于事件的手势识别系统。 在IEEE会议计算机。目视模式识别(CVPR),2017. 1[3] 放 大 图 片 作 者 : AndrewJ.Davison 和 StefanLeutenegger。从事件照相机的同时光流和强度估计。在IEEE Conf. Comput. 目 视模 式 识别 ( CVPR) ,2016.一、二、四、五[4] 苏普提克·巴鲁阿,宫谷义孝,阿肖克·维拉伽·凡.从事件摄像机直接进行人脸检测和视频重建。IEEE WinterConf.应用计算目视(WACV),2016. 二、三[5] Ryad Benosman、Charles Clercq、Xavier Lagorce、Sio-Hoi Ieng和Chiara Bartolozzi。基于事件的视觉流。IEEE跨神经网络学习.系统,25(2):407-417,2014. 1[6] M. Bloesch,S. Omari,M. Hutter和R.西格沃特使用基于EKF的直接方法的鲁棒视觉惯性里程计。在IEEE/RSJ Int.确认输入机器人(IROS),2015. 7[7] Christian Brandli,Raphael Berner,Minhao Yang,Shih-Chii Liu,and Tobi Delbruck.240x180 130dB 3us延迟全局快门时空视觉传感器。IEEE J. 固体-State Circuits,49(10):2333-2341,2014. 四、八[8] Christian Brandli Lorenz Muller和Tobi Delbruck使用基于帧和事件的DAVIS传感器进行实时、高速视频解压缩。 在IEEE国际Symp. 电路系统(ISCAS),2014年。3[9] 作 者:Jo? rgConradt , Matthe wCook , RaphaelBerner,PatrickLicht-steiner,Rodney J.道格拉斯和托比·德尔布鲁克一种使用双AER动态视觉传感器的铅笔平衡机器人在IEEE Int. Symp.电路系统(ISCAS),2009年。1[10] Matthew Cook , Luca Gugelmann , Florian Jug ,Christoph Krautz和Angelika Steger。用于快速视觉解释的交互式地图。 在Int. 联合会议神经网络(IJCNN),2011. 一、二[11] 杰弗里·德尔梅里科和大卫·斯卡拉穆扎。 飞行机器人单目视觉-惯性里程计算法的基准比较。IEEE国际会议机器人自动(ICRA),2018. 8[12] 李飞飞,罗伯·费格斯,皮埃特罗·裴罗纳。对象类别的一 次 性 IEEE Transactions on Pattern Analysis andMachine Intelligence,28(4):594-611,2006. 6[13] 克里斯蒂安·福斯特,卢卡·卡隆,弗兰克·德拉特,还有达维德·斯卡拉穆扎.实时视觉-惯性里程计的流形上预积分。IEEE Trans. Robot. ,33(1):1 7[14] 放大图片作者:John E. A. Lund,Elias Mueggler,HenriZeraq,Tobi Delbruck,and Davide Scaramuzza.基于事件的6-DOF摄像机跟踪,3866深度图IEEE传输模式分析机器内部,40(10):2402-2412,2018. 第1、3条[15] Daniel Gehrig,Henri Rebecq,Guillermo Gallego,andDa- vide Scaramuzza.使用事件和帧的异步光度特征跟踪。以Eur.确认补偿目视(ECCV),2018年。一、二[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在IEEE会议Comput.目视模式识别(CVPR),2016. 四、七[17] Hanme Kim、Ankur Handa、Ryad Benosman、Sio-HoiIeng和Andrew J.戴维森同时镶嵌和跟踪与事件摄像机。在英国机械视觉。Conf.(BMVC),2014. 2[18] Hanme Kim、Stefan Leutenegger和Andrew J.戴维森使用事件摄像机进行实时3D重建和6-DoF跟踪。以Eur.确认补偿目视(ECCV),2016. 一、二[19] Diederik P. Kingma和Jimmy L. BA. Ad
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功