事件辅助的直接稀疏里程计：基于事件和帧的6自由度视觉里程计方法

145 浏览量更新于2023-10-25 收藏 14.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

57810事件辅助的直接稀疏里程计0Javier Hidalgo-Carri´o 1 , Guillermo Gallego 2 , Davide Scaramuzza 101苏黎世大学信息学系、苏黎世大学神经信息学系和苏黎世联邦理工学院。2柏林工业大学，爱因斯坦数字未来中心和SCIoI卓越集群，德国。0图1.相机轨迹和估计的3D地图（左）。右上角插图显示滑动窗口地图（灰度点）和当前关键帧地图（伪彩色蓝红点，根据事件极性）。右下角插图显示颜色图像（帧）和实际事件（左）以及由事件生成模型获得的图像（右）。0摘要0我们介绍了EDS，一种使用事件和帧的直接单目视觉里程计。我们的算法利用事件生成模型来在帧之间的盲时间内跟踪相机运动。该方法通过观测到的亮度增量的直接概率方法进行建模。使用少量选择的3D点预测每个像素的亮度增量，并通过亮度增量误差与事件进行比较以估计相机运动。该方法使用光度束调整来恢复半稠密的3D地图。EDS是第一个使用直接方法使用事件和帧执行6自由度VO的方法。通过设计，它克服了间接方法中外观变化的问题。我们的结果优于所有先前基于事件的里程计解决方案。我们还展示了，对于目标误差性能，EDS可以以比最先进的基于帧的VO解决方案更低的帧率工作。这为低功耗的运动跟踪应用打开了大门，其中帧只在需要时被触发，而我们的方法在帧之间跟踪运动。我们向公众发布了代码和数据集。0多媒体材料0代码和数据集可以在以下网址找到：https://rpg.ifi.uzh.ch/eds01. 引言0视觉里程计（VO）是计算机视觉、机器人技术和任何需要空间推理的应用中的重要工具[1-3]。近年来，在这个领域取得了相当大的进展[1,4-6]。然而，VO系统受到其物理设备（传感器、处理器和电源）能力的限制。其中一些限制（例如运动模糊、动态范围）可以通过新颖和/或更强大的传感器（如事件相机）来解决。事件相机[7-9]是一种与传统相机工作方式完全不同的生物启发式传感器。它们不是以固定速率捕捉亮度图像，而是测量异步的、每个像素的亮度变化，称为“事件”。10这种工作原理赋予事件相机突出的特性，如低延迟、高时间分辨率（在微秒级别）和低功耗（毫瓦级别而不是瓦级别）。事件相机在应对具有挑战性的场景中的VO和相关问题方面具有巨大潜力，这已经在[10-21]中进行了研究。有关详细信息，请参阅最近的综述论文[22]。基于事件的VO是一个具有挑战性的问题，在具有不断增加复杂性的场景中逐步解决。使用事件相机工作时会出现两个基本挑战：噪声（由时间戳抖动、像素01请参阅说明性动画：https://youtu.be/LauQ6LWTkxM?t=3057820制造不匹配或非线性电路效应）和数据关联[22,23]，即建立事件之间的对应关系，以确定哪些事件由同一场景点触发。这是因为每个事件携带的信息很少，并且事件传递的时间边缘模式取决于运动。这两个问题使间接方法使用的基于事件的关键点难以稳定地检测和跟踪；因此，使用灰度帧[14]或运动补偿和惯性传感器融合[18]来减轻它们的影响。基于事件的方法可以根据是否利用事件生成模型（EGM）[13, 24]来进行分类，或者不利用[14, 17, 25,26]。EGM说明了当达到预定义对比度阈值时如何创建事件[7,22]。它是亮度“变化”（即事件）和“绝对”亮度之间的光度关系。对基于事件的特征跟踪[23]的实验表明，利用EGM的方法比不利用EGM的方法具有更高的准确性。然而，对于6自由度相机跟踪（即自运动估计），尚未进行此类比较。当前的解决方案[13,17]容易丢失跟踪，要么是因为估计的3D地图的收敛速度慢[13]，要么是因为边缘模式在一个事件包到下一个事件包之间快速变化[17]。也就是说，没有像[23]中的灰度帧那样的长期外观可以依附并提高跟踪的鲁棒性，而我们的方法旨在实现这一点。我们提出通过理解和克服先前方法的缺点来解决基于事件的VO问题。据我们所知，这项工作是第一个使用直接方法使用事件和帧执行6自由度VO的单目方法。我们的贡献在于前端，紧密地使用EGM融合事件和帧的信息（与以前的方法松散耦合[18]相反）。估计的姿态、点和选择的帧被馈送到滑动窗口光度束调整（PBA）后端，该后端最小化亮度误差。这是PBA首次在事件相机VO的背景下使用。在内部，我们采用基于关键帧的方法，像DSO[5]一样在具有高梯度的像素处恢复逆深度。然而，我们的方法只使用事件在帧之间跟踪相机运动。这为帧的“按需”触发打开了大门，从而在系统中节省能量，这是AR/VR应用和功率预算有限的平台中的一个理想特性。我们的贡献总结如下：0•首次提出了一种结合事件和灰度帧的单目6自由度视觉里程计的直接方法，并进行光度束调整。0• 使用稀疏像素集进行相机运动跟踪，最小化归一化亮度变化。0事件帧 D/I EGM 备注0Kim等人[13] � � D � 三个并行的EKFs Rebecq等人[17] � � D � 并行跟踪和建图Kueng等人[14] � � I � 用于视觉里程计的事件特征跟踪 Rosinol等人[18] � � I � 松耦合的前端本工作 � � D � 紧耦合的前端0表1.基于事件的单目6自由度视觉里程计/SLAM方法的比较。列表示输入类型（事件和/或灰度帧），方法类型（直接或间接），以及方法是否利用事件生成模型（EGM）。0投影（逆深度）点。0•在公开可用的数据集上进行了有说服力的评估，超过了以前的解决方案，并进行了敏感性研究以获得关于我们方法的见解。0•一个新的数据集，包含高质量的事件、彩色帧和IMU数据，以促进单目视觉里程计的研究。02. 相关工作0基于事件的视觉里程计方法可以直接或间接地依赖于它们是直接还是间接地处理原始像素信息。间接方法[14,15]，如基于帧的方法，在前端从输入（事件）数据中提取关键点[27,28]，然后将它们传递给后端。直接方法[13,17]试图直接处理所有可用的事件。由于事件对应于像素亮度变化，它们自然地传递了有关场景边缘运动的信息（假设光照恒定）。早期的基于事件的视觉里程计工作[11, 24,29]处理简单的相机运动，如3自由度（平面或旋转），因此没有考虑深度。最一般的自由移动相机（6自由度）的情况最近才被解决[13, 14,17]。在场景纹理方面，高对比度和/或结构化场景在关注更困难的自然3D场景之前已经得到了解决。基于事件的视觉里程计仍处于初级阶段，大部分工作只涉及相机跟踪[12, 16, 20,30-32]，因为它的简单性。表1总结了基于事件的单目6自由度跟踪和建图的相关工作。为什么使用事件的直接方法？特征点方法在标准相机上效果很好[33]，因为特征点成熟且易于检测和跟踪，由于强度噪声较小。然而，直接方法[5]在准确性上超过了特征点方法（它使用了所有可用的数据，甚至包括不符合特征点定义的像素）。在事件相机中，由于事件的“外观”取决于运动（和纹理）[22]，特征点不容易检测和跟踪。有许多基于事件的特征点检测器和/或跟踪器[27, 28, 34,35]，但它们在启用视觉里程计方面的应用很少[14]，因为它们的准确性和稳定性不如所需。另一方面，（i）事件由移动边缘触发（在图像平面上是半稠密的），（ii）半稠密方法是基于事件的3自由度视觉里程计的最新技术[21, 29, 36,37]。所有这些想法表明，直接方法是事件相机的天然选择，并且对于6自由度运动估计也应该很好，正如早期的工作[13,17]所暗示的。结合事件和帧。事件和强度帧是视觉信息的互补来源[38,39]。将它们结合起来已被证明在几个应用中提高了准确性和/或鲁棒性，例如特征点跟踪[23]，自我运动估计[18,32]，深度预测[40]，视频重建[38,41]和视频帧插值[42]。我们还希望在与VO相关的任务中充分利用这两种视觉传感器的优势，如[18,32]所暗示的。与[18]不同，该方法将事件和帧视为不相关的视觉来源（即，在前端没有努力将两个传感器都看到的相同特征融合在一起），我们通过利用EGM [23,43]以原则性的方式在VO前端融合事件和帧。因此，我们的方法更接近于[32]，但地图不是外部给定的，并且在关键帧的稀疏像素集上计算误差。简而言之，正如表1所示，用于解决单目6自由度视觉里程计问题的方法的特征存在差距，而本工作填补了这一差距：通过直接方法在前端融合事件和帧以利用EGM。我们的方法包括一个后端，其中包括适用于前端的光度束调整[5]，与[18]中的基于特征点的后端不同。据我们所知，这条路径尚未被探索过。57830平面），（ii）半稠密方法是基于事件的3自由度视觉里程计的最新技术[21, 29, 36,37]。所有这些想法表明，直接方法是事件相机的天然选择，并且对于6自由度运动估计也应该很好，正如早期的工作[13,17]所暗示的。结合事件和帧。事件和强度帧是视觉信息的互补来源[38,39]。将它们结合起来已被证明在几个应用中提高了准确性和/或鲁棒性，例如特征点跟踪[23]，自我运动估计[18,32]，深度预测[40]，视频重建[38,41]和视频帧插值[42]。我们还希望在与VO相关的任务中充分利用这两种视觉传感器的优势，如[18,32]所暗示的。与[18]不同，该方法将事件和帧视为不相关的视觉来源（即，在前端没有努力将两个传感器都看到的相同特征融合在一起），我们通过利用EGM [23,43]以原则性的方式在VO前端融合事件和帧。因此，我们的方法更接近于[32]，但地图不是外部给定的，并且在关键帧的稀疏像素集上计算误差。简而言之，正如表1所示，用于解决单目6自由度视觉里程计问题的方法的特征存在差距，而本工作填补了这一差距：通过直接方法在前端融合事件和帧以利用EGM。我们的方法包括一个后端，其中包括适用于前端的光度束调整[5]，与[18]中的基于特征点的后端不同。据我们所知，这条路径尚未被探索过。03.使用事件和帧进行直接里程计0本节描述了我们的方法，该方法在图2的块图中进行了总结。首先，我们回顾了事件相机的工作原理和EGM（第3.1节）。然后，我们描述了系统的前端（第3.2节）、后端（第3.3节）和初始化（第3.4节）。03.1.事件生成模型（EGM）0事件相机的工作原理。事件相机的每个像素在检测到该像素的对数亮度L发生指定变化量C（称为对比度敏感度）[7]时，产生一个事件ek = (uk, tk, pk)：0∆L(uk, tk) = L(uk, tk) - L(uk, tk - ∆tk) = pkC, (1)0其中极性pk ∈ {+1,-1}是亮度变化的符号，∆tk是自上次相同像素的事件经过的时间。事件时间戳tk具有微秒级的分辨率。单个像素具有自己的采样率（取决于视觉输入），并且根据场景运动的程度产生事件。事件相机不以恒定的速率输出图像，而是以异步的时空事件流的形式输出。0线性化事件生成模型。在时间间隔T = {tk}Nek=1中，收集一组事件E = {ek}Nek=1的极性，逐像素产生亮度增量图像：0∆L(u) = �0tk ∈ TpkCδ(u - uk), (2)0其中Kronecker δ选择适当的像素。如果事件数Ne跨越一个小的时间间隔∆t= tNe -t1，可以使用泰勒展开来近似增量（1）。进一步地，将亮度恒定性假设代入，得到∆L由在图像平面上以速度v移动的亮度梯度�L引起[23, 43]：0∆L(u) ≈ -�L(u) ∙ ∆u = -�L(u) ∙ v(u)∆t. (3)03.2.前端0在VO前端（图2）中，我们使用（2）从事件（图2的顶部分支）创建伪测量，并使用（3）的右侧从帧ˆL和VO系统的当前状态预测这些伪测量（图2的中间分支）。我们的目标是，粗略地说，估计最能预测测量的VO状态（图3）。这个策略在接下来的小节中描述。事件加权。如[32]所指出的，选择N_e来构建（2）存在一个权衡：较小的N_e不能产生足够的信噪比或现有边缘运动的证据，而较大的N_e会产生累积模糊并破坏事件由相机在单个位置触发的假设。为了解决这个问题，我们选择较大的N_e以获得足够的信噪比，并修改（2）以累积加权极性wkpk ←pk。我们在时间索引k（图2的顶部分支）中使用高斯权重wk。这些权重强调事件窗口的中心部分，从而产生比无加权情况（wk =1）更细的边缘（较少的累积模糊）。使用帧进行事件预测。图2的中间分支计算（3）的右侧，并仅选择场景轮廓上的像素进行事件预测。图2的中间分支中的关键帧包括亮度帧和（半稠密）逆深度图（第3.2.2节）。使用Sobel算子计算关键帧ˆL的对数归一化强度的空间梯度（3）。图像点速度v在（3）中是纯几何的，以相机姿态T、相机的线性和角速度˙T = (V�, ω�)�和相对于相机的三维点的深度du =Z(u)给出[45]：0v(u) = J(u, du)˙T, (4)0其中 J(u, du) 是 2 × 6 特征敏感度矩阵0J(u, du) =0� 0du 0 ux du ux uy - (1 + u2x) uy00 - 1 du uy du 1 + u2y - ux uy - ux0�. (5)57840图2. 所提出的基于事件的直接里程计方法的块图。由摄像机获取的事件和帧，例如DAVIS346[44]，被送入前端，其中使用事件生成模型(EGM)进行融合。前端根据关键帧选择场景边缘上的稀疏点(即事件)。随着摄像机移动，它会生成事件，并根据最后一个关键帧估计摄像机姿态。姿态和关键帧被传递给后端，后端通过光度束调整对姿态和深度估计进行非线性优化。然后将它们反馈给前端，以维持VO系统的良好性能。事件根据极性pk着色为蓝色/红色，表示正/负亮度增量。0将(4)插入(3)得到预测的亮度变化0∆ˆL(u) ≈ -�ˆL(u) ∙ J(u, du)˙T∆t. (6)0姿态T和速度˙T是所有图像像素u共享的全局量。关键帧亮度ˆL和增量时间∆t(由事件时间戳给出)是已知的。如图2的块图所示，深度du是前端的输入，由后端给出。深度估计的初始化在第3.4节中描述。候选点选择。只使用关键帧上最具信息的像素。这样可以集中计算资源同时保持准确性。具体而言，我们选择具有足够强的梯度(即轮廓)的像素。为了在图像平面上有良好的选定像素分布，我们采用平铺方法，将图像分成矩形块(例如11×11块)，并在每个块上选择具有最大亮度梯度的像素的百分比(通常为图像像素的10-15%)。注意，在关键帧上，具有最强梯度的像素与触发事件的像素重叠(因为事件是由移动边缘引起的)。随着摄像机的移动，这两组像素开始分离；然而，通过相机运动(第3.2.1节)和场景深度(第3.2.2节)的估计，我们保持它们对齐，从而保持它们之间的对应关系。03.2.1 相机跟踪0相机跟踪(在图2中前端块的右上方示意)是相对于最后一个0关键帧。我们将事件流分成数据包(即时间窗口)，并使用上述高斯加权生成模型(EGM)创建事件帧(2)。我们将相机跟踪问题视为相机运动参数(6自由度姿态及其速度)的联合优化：0(δT*, ˙T*) = arg min δT, ˙T0∆ˆL0∥∆ˆL∥2 - ∆L0∥∆L∥20γ. (7)0误差是归一化亮度增量(来自事件的∆L和来自关键帧的∆ˆL)之间的Huber范数γ的差异。范数是在稀疏集合上计算的：即关键帧中上述选择的像素。因此，由事件引起的增量被转移到关键帧的图像平面上：(i)首先，我们找到与选择的关键帧像素uf对应的事件图像平面上的位置ue：0ue = π ◦ Te,f π-1 ◦ uf, duf◦, (8)0其中，π − 1：R2×R → R3将关键帧像素反投影，Te,f ∈SE(3)将坐标转换为当前事件相机姿态，π：R3 →R2将点投影到事件相机上；(ii)我们通过亮度增量(2)的三次插值来计算∆L(u e)。在(7)中比较∆L(u e)和∆ˆL(uf)的归一化值。姿态T ∈SE(3)使用3向量和四元数进行参数化。速度˙T使用6向量进行参数化。为了最小化(7)，我们使用Ceres求解器[46]对T进行局部李群参数化。j∈(u)57850与相机跟踪器[32]相比，相机跟踪器将全局光度学3D地图投影到当前事件相机位置上，我们计算误差(7)：(i)在关键帧上（局部深度图），而不是在事件帧上（因为我们缺乏从全局3D地图到EGM中使用的稠密光流），(ii)仅在一组稀疏像素上（而不是整个图像平面）形成局部半稠密地图。前端的输出是当前关键帧（亮度图像和逆深度图）以及每个事件数据包的估计相机运动（相对于关键帧）。这些传递给后端进行进一步的非线性细化（第3.3节）。关键帧选择。当满足以下两个条件之一时，创建关键帧：(i)所选点的数量减少了20-30%（因为它们超出了视野范围），(ii)事件相机相对于关键帧的相对旋转超过给定阈值。03.2.2 映射（深度估计）0创建新关键帧时，使用过去关键帧的逆深度估计来填充新关键帧的逆深度估计。同样，所选像素的集合被传递到新关键帧（类似于(8)）。剩余像素的逆深度值使用最近邻居和k-d树进行初始化。这是简单而有效的。在我们的VO系统中，逆深度估计在后端进行细化。03.3. 后端（非线性细化）0后端（图2中的底部分支）通过光度束调整（PBA）对相机姿态和3D结构进行非线性细化。它最小化目标函数0空0i ∈F0空0空0计算公式 (9)： F ˆ L i ( u ) − F ˆL j ( u ′ ) 除以 γ ( Ω )0其中i ∈F遍历所有关键帧F，u遍历关键帧i中的所有选定像素Pi，j遍历所有可见点u的关键帧，u'是第j个关键帧上与u对应的点。我们使用Huber范数γ来增加鲁棒性，该范数减弱了不良对应，并且通过丢弃异常值（基于异常大的误差）来增加鲁棒性。使用8像素块围绕每个图像点测量误差，并假设块中的所有像素具有相同的深度估计（参考[5]中的残差模式#8）。滑动窗口估计器中保留Nk个关键帧（我们使用7，与[5]中的值相同，因为这是一个很好的准确性和效率的折衷）。后端使用Ceres[46]进行PBA，具有自动微分。我们还将我们的前端与DSO的PBA [5]结合在一起，因为我们的设计是模块化的。03.4. 引导启动0为了初始化系统，我们可以在帧上尝试三种方法：(i)经典的多视图几何，(ii)基于学习的单目深度预测或(iii)DSO的粗略初始化器。第一种方法使用8点算法[47]对前几帧进行处理，直到滑动窗口满（我们跳过帧以增加视差）。一旦初始化成功，帧变为关键帧，我们选择具有大梯度的点，并执行一步PBA来细化地图。如果上述方法失败（即平面场景），我们使用MiDAS[48]进行单幅图像深度预测。最终，DSO的粗略初始化器在初始化时效果最好。预测的深度的大小是任意的，但在单目VO中已知这一点，因为尺度是不可观测的（一个标度自由度[49]）。04. 实验0现在我们评估设计的单目VO方法。首先，我们介绍用于评估的数据集和指标（第4.1节）。其次，我们介绍基准方法（第4.2节）。第三，我们评估该方法的性能，并与最先进的方法进行比较（第4.3节）。最后，我们分析结果对各种扰动和限制的敏感性（第4.4节）。04.1. 数据集和评估指标0我们在标准数据集2[50]上测试以评估所提VO方法的性能。[50]提供的数据是在室内环境中使用手持立体DAVIS240C收集的，并且由具有亚毫米精度的运动捕捉系统提供了地面真实姿态。有关使用我们自制的分光镜收集的序列，请参见补充材料。为了评估完整VO方法的性能，我们使用标准度量指标报告自我运动估计结果：绝对轨迹误差（ATE）和旋转RMSE[51]。我们使用[52]的工具箱评估不同视觉里程计解决方案给出的姿态。单目方法仅使用左相机的数据进行测试。VO方法的跟踪和建图部分是连接的，因此深度估计误差以紧密耦合的方式包含在估计的相机轨迹的准确性中。04.2. 基准方法0我们与其他方法进行比较，表1显示了结果，包括立体事件方法（供参考）以及事件和基于帧的方法[5,33]。用于比较的基于事件的单目方法是EVO和USLAM。•EVO[17]是一种半稠密VO方法，它使用基于事件的空间扫描[53]构建地图，并通过边缘图像对齐跟踪相机运动，创建1k-2k个事件的二进制图像并将其与投影的图像对齐02 RPG立体DAVIS: https://rpg.ifi.uzh.ch/ECCV18 stereo davis.html57860图3.监视器序列的事件帧（2）（左）和EGM帧（6）（右）。这里，正的亮度变化显示为白色，负的亮度变化显示为黑色。灰色表示没有亮度变化。此图包含可以在Acrobat Reader中查看的动画。0点云地图。EVO不利用EGM（3），因为它不使用帧，也不恢复图像亮度。USLAM[18]是一种间接的单目方法，它结合了事件、帧和IMU测量。其前端通过使用IMU的陀螺仪和中位数场景深度将事件转换为帧。然后在事件帧和灰度帧上分别提取和跟踪FAST角点[54]，并将其传递给最先进的基于几何特征的后端[55]。USLAM是我们考虑的唯一带有IMU的方法。IMU在前端用于事件帧的创建，因此无法在不破坏方法（的鲁棒性）的情况下去除它。ORB-SLAM [33]和DSO[5]是最先进的间接和直接基于帧的单目视觉里程计方法。我们还使用不同类型的帧（来自DAVIS或使用E2VID[56]重建的帧）与这些方法进行比较。EDS在前端使用20k个事件进行事件到图像对齐，重叠率为50%，每10k个新事件生成一个新的事件帧并跟踪相机运动。图3显示了可视化效果。这样可以在相机运动时以约60FPS的有效（和自适应）事件帧速率提供，而标准帧以固定速率50ms（即20FPS）给出。04.3. 自我运动估计结果0表2-3和图4报告了我们的方法与数据集[50]上最先进方法的定量和定性比较结果。图4显示了样本估计的深度图和相应的点云（反投影深度图）。我们保留了基准方法（EVO和DSO）的原始深度图可视化。与基于事件的基准方法进行比较。定性上，图4显示EDS在大多数轮廓像素上正确估计深度，在彩色深度图和点云中形成半稠密结构。恢复的3D地图比EVO给出的地图具有更高的细节水平。USLAM生成的地图过于稀疏，无法传达任何视觉洞察。0ESVO [26] USLAM [18] EVO [17] EDS（我们的方法）输入E+EE+F+I E E+F0平移[cm]0箱子2.8 7.7 13.2� 1.1 桌子5.8 9.5 14.2� 2.1 监视器3.2 9.8 5.2 1.50旋转[deg]0箱子7.61 7.18 50.26� 0.99 桌子9.46 8.84 170.36� 1.83监视器7.25 32.46 8.25 1.870表2.与基于事件的6自由度VO方法相比，绝对轨迹误差（RMS）[cm]和旋转误差（RMS）[deg]。输入数据[50]可能是：事件（E），灰度帧（F）或IMU（I）。带�的EVO条目表示该方法在完成序列的最多30％后失败。0ORB-SLAM ORB-SLAM [33] DSO [5] DSO† EDS（我们的方法）输入F+F FF F† E+F0平移[cm]0箱子0.7 2.4 1.1 - 1.1 桌子1.6 3.9 2.0 - 2.1 监视器1.8 3.8 10.0 1.6 1.50旋转[deg]0箱子0.58 0.84 2.12 - 0.99 桌子4.26 2.39 2.14 - 1.83 监视器2.81 2.5263.5 1.80 1.870表3.与基于帧的6自由度VO方法相比，绝对轨迹误差（RMS）[cm]和旋转误差（RMS）[deg]。输入数据可能是：事件（E），灰度帧（F）或使用[56]从事件重建的帧（F†）。DSO†中的连字符表示在初始化后失败，完成不到序列的10％。最佳单目结果以粗体显示。0定量上（表2），EDS优于所有其他单目基线方法，即使不使用惯性测量（已知可以提高鲁棒性和增加VO的准确性[57]）。我们的方法也优于最先进的仅基于事件的立体方法ESVO[26]，尽管我们的方法是单目的，因此不利用立体设置的空间视差。前端（帧和事件之间的紧密融合）和后端的PBA弥补了事件数据中缺乏立体基线的不足。与基于帧的基线方法相比。定性上（图4），DSO产生了用于可视化的膨胀深度图。因此，它们看起来更完整，但也比EDS产生的深度图有更多的异常值。定量上（表3），在平移误差方面，我们的方法始终优于单目ORB-SLAM，并且仅略逊于启用了捆绑调整的立体ORB-SLAM（“F+F”）[33]，后者平均是表现最佳的方法。我们在桌子序列上获得了与DSO类似的结果，由于相机运动更快，因此更准确（ATE1.5cm）。我们还使用E2VID[56]以60FPS在相同的20k事件上运行DSO进行重建帧。结果显示ATE较低57870箱子桌子监视器0EVO[17]0DSO[5]0EDS（我们的方法）0EDS点云0图4.[50]中四个测试序列的定性比较。前三行分别显示每种方法的伪彩色逆深度图。EVO的颜色代码是黄色-近蓝色-远，而DSO和EDS的颜色是红色-近蓝色-远。所有序列中的深度范围为1-7m。EDS重建的3D点云显示在最后一行，灰度值来自关键帧。0对于DSO†，它在低纹理场景（桌子序列）中表现良好。然而，在高纹理序列（箱子和盒子）中，E2VID由于训练模型的限制，难以正确重建帧。我们的发现与EKLT一致（详见[23，表7]）。在旋转误差方面，EDS与基线一致。事件有助于估计相机旋转，尤其是在突然运动时。这就是为什么DSO†能够成功的原因。0在桌子序列中，EDS和DSO产生了最准确的结果。DSO在桌子上的大旋转误差是由于给定相机速度的帧率不足。低帧率实验。增加运动速度会使帧之间距离更远，因此在高速运动时（通常基于帧的方法失败），基于事件的测距法表现出色[16]。因此，接下来，我们逐渐降低帧率，并与表3中的最先进的单目方法进行比较。我们以两种模式运行DSO：（i）启用跟踪恢复的DSO，使用27个不同的小旋转（参见[5]中的第3.1节）；（ii）禁用跟踪恢复的DSO，表示为DSO�。我们还与ORB-SLAM（完整的SLAM系统，为了完整性）和ORB-SLAM�进行比较0（更公平的基准，禁用闭环并且在共视图中具有与我们滑动窗口相同数量的节点，即7个关键帧）。结果的综合可视化如图5所示，其中显示了所有序列的平均ATE在不同的帧率下的情况（包括来自表3的原始帧率）。图表显示，EDS对于帧率的降低几乎是不敏感的，而DSO和DSO�的误差在帧率降低时显著增加。启用跟踪恢复的DSO在10FPS之前成功，但无法在较低的帧率下恢复相机姿态。与DSO�相比，EDS不需要跟踪恢复策略，因为它能够使用事件在任何帧率下连续跟踪，只受计算成本的限制。ORB-SLAM变体产生了非常有竞争力的结果，并且在低帧率下的性能下降比DSO更加平缓。尽管如此，我们的方法仍然优于ORB-SLAM�。因此，在这种情况下，EDS跟踪器比基于帧的最先进里程计方法更加稳健。04.4. 敏感性研究和局限性0深度不准确和C中的噪声是研究的主要内容。EGM中的亮度变化（6）高度依赖于深度点估计。571020FPS2.55.07.510.012.515.017.520.0Absolute Trajectory Error [cm]ORB_SLAM*ORB_SLAMDSO*DSOEDS2.745.488.2310.9713.71Distance traveled (m)020406080100120Translation error (%)2.745.488.2310.9713.71Distance traveled (m)012345Rotation error (deg / m)01%05%10%15%20%30%50%160801001202.745.488.2310.9713.7101234501%05%10%15%20%30%50%0.190.380.570.760.9601020304050600.190.380.570.760.96Distance traveled (m)01020304000%05%10%15%25%0.190.380.570.760.9601020304000%05%10%15%25%57880图5. O-SLAM [33]、ORB-SLAM�（禁用闭环）、DSO[5]、DSO�（禁用恢复跟踪）和EDS（我们的方法）在数据集[50]上的平均绝对轨迹误差（RMS）。对于EDS，每次跟踪到一个事件帧时计算误差（在任何帧率下都相等于帧的方法，只有在接收到帧时才计算误差（即根据帧率）。0深度点估计对于相机跟踪的影响在（5）中有所体现。这使得相机跟踪对于准确的点三角测量比直接图像对齐方法更加敏感。由于制造过程中的噪声，事件也容易受到C中的噪声的影响，这导致光流约束（3）不匹配。我们使用[58]中的模拟器生成具有类似建筑场景（例如中庭[32]）的合成序列，并控制场景和事件相机参数，以了解EDS的优势和局限性。在项研究中，我们使用标准差为中位数场景深度的1-50%的均值高斯噪声扰动了真实的3D地图，中庭序列中的中位数景深度为9.7米[32]。在另一项研究中，对比度敏感度设置µC = 0.5的平均值，并使用标准差σC∈[0.05,0.25]高斯噪声扰动。图6和图7分别显示了这两个敏感性研究导致的深度和对比度误差。正如我们在箱线图中观察到的那样，随着深度噪声的增加性能逐渐降低，而随着对比度噪声的增加，其性能突然下降，当对比度噪声σC >0.15时，无法跟踪相机运动。这种方法的一个局限性可能是事件具有HDR特性，而帧不一定具有，这使得EGM估计变得具有挑战性（参见图3）。更多细节和实验请参阅补充材料。05. 结论0我们提出了第一个使用事件和帧的单目直接6自由度视觉里程计方法。EDS相对于之前的基于事件的方法有几个创新，例如前端中事件和帧的紧密耦合以及后端中的光度束调整。我们努力与多个基于事件和帧的方法进行比较。0行驶距离（米）0平移误差（%）0行驶距离（米）0旋转误差（度/米）0图6. 深度不准确对VO的影响（姿态误差）。0行驶距离（米）0平移误差（%）0旋转误差（度/米）0行驶距离（米）0平移误差（%）0行驶距离（米）0旋转误差（度/米）0图7. 对VO（姿态误差）的对比度C噪声的影响。0基于基线的对比结果表明，EDS优于所有基于事件的方法，并且在10-20FPS的情况下与DSO保持一致。然而，在低帧率场景下，EDS在没有循环闭合的情况下优于DSO和ORB-SLAM，能够在帧之间准确地跟踪事件。敏感性研究表明，EDS对深度噪声和对比度敏感性事件噪声具有鲁棒性。我们将代码和数据集公开发布，希望这项研究能够激发关于低功耗和稳健视觉里程计的新思路，结合事件和帧的优势。0致谢0本工作得到华为苏黎世研究中心、瑞士国家科学基金会通过瑞士国家竞争力研究中心(NCCR)机器人计划的资助，以及欧洲研究理事会(ERC)根据协议号864042(AGILEFLIGHT)的资助。57890参考文献0[1] Cesar Cadena, Luca Carlone, Henry Carrillo, Yasir Latif,Davide Scaramuzza, Jos´e Neira, Ian D. Reid, and John J.Leonard, “同时定位与建图的过去、现在和未来:迈向稳健感知时代,” IEEE Trans. Robot. , vol. 32, no. 6, pp.1309–1332, 2016. 10[2] Andrew J. Davison, “未来地图:空间人工智能系统的计算结构,” arXiv e-prints , Mar. 2018. 10[3] Antonio Loquercio, Elia Kaufmann, Ren´e Ranftl, MatthiasM¨uller, Vladlen Koltun, and Davide Scaramuzza,“在野外学习高速飞行,” Science Robotics , Oct. 2021. 10[4] Ra´ul Mur-Artal, Jos´e M. M. Montiel, and Juan D. Tard´os,“ORB-SLAM: 一种多功能准确的单目SLAM系统,” IEEE Trans.Robot. , vol. 31, no. 5, pp. 1147–1163, 2015. 10[5] Jakob Engel, Vladlen Koltun, and Daniel Cremers,“直接稀疏里程计,” IEEE Trans. Pattern Anal. Mach. Intell. ,vol. 40, pp. 611–625, Mar. 2018. 1 , 2 , 3 , 5 , 6 , 7 , 80[6] Christian Forster, Zichao Zhang, Michael Gassner, ManuelWerlberger, and Davide Scaramuzza, “SVO:半直接视觉里程计用于单目和多摄像头系统,” IEEE Trans. Robot., vol. 33, no. 2, pp. 249–265, 2017. 10[7] Patrick Lichtsteiner, Christoph Posch, and Tobi Delbruck,“一种128×128像素、120dB动态范围、15微秒延迟的异步时间对比视觉传感器,” IEEE J.Solid-State Circuits , vol. 43, no. 2, pp. 566–576, 2008. 1 , 2 , 30[8] Christoph Posch, Daniel Matolin, and RainerWohlgenannt, “一种QVGA143dB动态范围的异步地址事件PWM动态图像传感器，具有无损像素级视频压缩,” in IEEE Intl. Solid-State Circuits Conf.(ISSCC) , pp. 400–401, 2010. 10[9] Christoph Posch, Teresa Serrano-Gotarredona, BernabeLinares-Barranco, and Tobi Delbruck,“视网膜事件感知视觉传感器: 具有脉冲输出的仿生相机,” Proc.IEEE , vol. 102, pp. 1470–1484, Oct. 2014. 10[10] Andrea Censi and Davide Scaramuzza,“低延迟基于事件的视觉里程计,” in IEEE Int. Conf. Robot.Autom. (ICRA) , pp. 703–710, 2014. 10[11] Hanme Kim, Ankur Handa, Ryad Benosman, Sio-Hoi Ieng,and Andrew J. Davison, “同时拼接和跟踪与事件相机,” inBritish Mach. Vis. Conf. (BMVC) , 2014. 1 , 20[12] Elias Mueggler, Basil Huber, and Davide Scaramuzza,“基于事件的高速机动的6自由度姿态跟踪,” in IEEE/RSJ Int.Conf. Intell. Robot. Syst. (IROS) , pp. 2761–2768, 2014. 1 , 20[13] Hanme Kim, Stefan Leutenegger, and Andrew J. Davison,“实时三维重建和六自由度跟踪与事件相机,” in Eur. Conf.Comput. Vis. (ECCV) , pp. 349– 364, 2016. 1 , 2 , 30[14] Beat Kueng, Elias Mueggler, Guillermo Gallego, andDavide Scaramu

下载后可阅读完整内容，剩余1页未读，立即下载