基于信息驱动的RGB-D测距及计算优化

98 浏览量更新于2023-10-23 收藏 13.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

49290基于信息驱动的直接RGB-D测距0alejandro.fontanvillacampa@dlr.de Javier Civera 10jcivera@unizar.es Rudolph Triebel 2 , 30rudolph.triebel@dlr.de01 萨拉戈萨大学 2 德国航空航天中心（DLR） 3 慕尼黑工业大学0摘要0本文提出了一种基于信息论的点选择方法，用于直接RGB-D测距。目标是仅选择最具信息量的测量值，以减少优化问题的计算量，同时对准确度的影响最小。在视觉测距/SLAM中，通常会跟踪数百个点，以在高端台式电脑上实现实时性能。减少它们的计算占用将有助于在小型机器人和AR/VR眼镜等低端平台上实现测距和SLAM的实现。我们的实验结果表明，我们的新颖基于信息的选择准则使我们能够将跟踪点的数量减少一个数量级（仅为24个），同时实现与现有技术相似的准确度（有时超过），同时减少10倍的计算需求。01. 引言0在过去的几年中，我们目睹了视觉测距和同时定位与地图构建（SLAM）在准确性和鲁棒性方面取得了令人瞩目的进展[17, 19, 18, 9,20]。这种性能提升使得视觉测距和SLAM能够应用于增强现实（AR）、虚拟现实（VR）和机器人技术的多个商业产品。尽管取得了各自的成功，但视觉测距和SLAM仍面临着重要挑战。现有技术的高计算需求是其在实际应用中普及的最关键问题之一。将定位和地图构建算法应用于小型机器人/AR/VR平台将对其计算和内存占用施加限制[8]。目前大多数算法需要超出许多现有和可预见平台能力的硬件。0在我们的项目网站上查找更多信息 rmc.dlr.de/rm/en/staff/alejandro.fontanvillacampa/IDNav0图1：上图：我们的RGB-D测距（ID-RGBDO）估计的轨迹和地图，分别跟踪500个图像点（蓝色）和仅跟踪24个最具信息量的点（品红色），实现了可观的计算节省。两者之间的差异几乎不可察觉。下图：500个点情况下（蓝色点）和24个最具信息量点情况下（品红色方块）的示例帧和轨迹。0在本文中，我们旨在在准确度几乎没有损失的情况下大幅减少直接RGB-D测距的计算负荷。为此，我们提出了一种新颖且高效的基于信息的准则，以在局部束调整和姿态跟踪优化中仅保留最具信息量的点。我们实现了一种RGB-D测距（我们称之为ID-RGBDO），并在TUM数据集上评估了我们的方法，证明我们可以实现实质性的49300通过减少跟踪特征的数量而不明显降低准确性，我们实现了跟踪特征数量的减少。我们的方法优于文献中使用的简单选择方法，这些方法主要选择网格上的点以最大化覆盖范围。请参见图1中的两条估计轨迹，一条跟踪24个最具信息量的点，另一条跟踪500个点-这是现有技术中的一个合理数量。请注意，它们几乎具有相同的准确性，但使用24个点的轨迹需要大约10倍的计算量。我们提出的信息准则能够选择少量高度信息量的点，从而实现这一点。02. 相关工作0图形减少是SLAM社区中一个相关的主题，有着相当丰富的文献[12, 1,11]。我们在这里关注使用信息论的主要方法，特别是为视觉SLAM开发的方法。信息首次在基于EKF的单目SLAM中使用[7]，以引导顺序搜索。基于此，[2, 3,10]引入了一种多假设形式，能够稳健地处理模糊情况。[23]中使用信息分析滤波和束调整的优势。据我们所知，我们是第一个在直接测距框架中处理信息的工作。信息驱动的方法也已经在基于激光的SLAM中使用。[13]提出了一种方法，只向位姿图添加非冗余和信息量大的链接，[16]使用互信息从图中删除信息量低的激光扫描。[4]的方法能够基于信息论准则减少位姿和地标。[26,28]使用Kullback-Leibler散度稀疏化SLAM图。03. 符号和基础知识0我们的直接信息驱动里程计在一个滑动窗口的帧中最小化光度重投影误差。我们的公式基于直接捆绑调整和跟踪，与最近的直接视觉里程计和SLAM方法相关，即[9, 6, 15,14]。然而，我们实现了ID-RGBDO以便在评估中具有更高的控制度。请注意，在任何情况下，我们的贡献都可以应用于任何RGB-D里程计系统，并且应该能够获得类似的改进。本节将介绍必要的背景和符号，并详细介绍我们的RGB-D里程计和贡献的具体内容将在第4节（相机姿态跟踪）和第5节（滑动窗口捆绑调整）中详细说明。03.1. 光度模型0点表示。对于一个点p，它的图像坐标表示为p = [pu, pv]�∈ R2，其逆0相机坐标系中的深度为d ∈R。对于其光度外观，我们使用一组在以p为中心的补丁中分布的强度值[9]。关键帧表示。关键帧j由其RGB-D通道、其6自由度相机姿态作为变换矩阵T ∈ SE(3)、两个亮度参数{aj,bj}和一组参考点来定义。李代数姿态增量�xse(3) ∈se(3)，其中� ∙se(3)是从向量到切空间矩阵表示的映射算子[22]，表示为向量x ∈R6。在优化过程中，我们使用左矩阵乘法和指数映射算子exp(∙)来更新变换，即0T(k+1) = exp(�xse(3)) ∙ T(k). (1)0残差函数。图像帧i中图像点pi的光度残差ri是与参考关键帧j中对应点的强度差异相结合，同时结合了仿射亮度变换和鲁棒范数[9]0ri = exp(−aj(Ij(pj)−bj)) − exp(−ai(Ii(pi)−bi))γ. (2)0尽管一些工作使用t分布[14,15]，但我们观察到使用Huber范数（如[9]中所示）和饱和大值（如[5]中所示）可以获得更高的准确性。图像点pi和pj之间存在关联0pi = Π(RΠ−1(pj, dj) + t), (3)0其中Π(P)将相机坐标系中的点P投影到图像平面上；Π-1(p,d)将具有坐标p和逆深度d的图像点反投影。R ∈ SO(3)和t∈R3是关键帧j和帧i之间的相对旋转和平移。优化。我们进行高斯-牛顿优化，可以写成0(JTΣ−1rJ)y = −JTΣ−1rr, (4)0其中矩阵J的行为Jx Jd Jab ∈ Rn×m0包含残差函数（方程（2））对于李代数增量Jx、点逆深度Jd和光度参数Ja,b的导数。对角矩阵Σr ∈ Rn×n包含光度残差的协方差σ2r。残差向量r ∈ Rn0将n个单独的残差堆叠以最小化。y ∈ Rm0表示状态修正，包含姿态、逆深度和光度参数的增量。残差协方差。我们的残差协方差σ2r包括几何和外观的影响。我们建议通过将光度项σ2Φ乘以几何项h(δA)来对其进行建模，该几何项来自于投影围绕3D点的微分区域：�.(6)h(δA) = ech(δA−1)2,(7)2��.(9)H(X) = 12 log((2πe)k|ΣX|).(11)∆H(X, Y) = H(X) − H(Y) = 12 log |ΣX||ΣY | ,(12)I0I1I2I3I4I2I1I0I3I4ΣZ =�ΣxxΣxyΣyxΣyy�,(13)MI(x, y) = 12 log49310σ 2 r = h(δA) ∙ σ 2 Φ. (5)0图2说明了点周围微分区域如何随视点变化。这种变化δA可以被建模为图像点pi在帧i中相对于参考关键帧j中对应点的坐标pj的导数的行列式：0δA = �� ∂ pi ∂ pj0因此，我们将几何权重h(δA)定义为以下函数，对于大的透视畸变惩罚残差协方差。0其中ch是一个常数，用于权衡模型的影响。光度项σ2Φ是从逆深度协方差σ2d的一阶传播计算得到的。0σ2Φ ≈0�� gu ∂p∂d0� 2 + � gv ∂pv∂d0σ2d , (8)0其中强度梯度�gu gv�来自于点p附近强度的一阶泰勒展开。0I ( p + δ p ) ≈ I ( p ) + � gu gv � � δp u δp v0使用基于结构光图案的RGB-D相机的立体模型，并假设焦距f和基线b，逆深度误差协方差σd为[6]：0σd = 0fb σpx , (10)0其中σpx是视差误差。03.2. 信息度量0信息论提供了量化和形式化与信息相关的所有过程的方法。在SLAM的背景下，多元高斯分布的特殊情况是有充分基础的[7,2]。本文提出的信息驱动公式基于以下经典信息度量。k维高斯分布X�Nk(µX,ΣX)的微分熵。它可以看作是未来事件的预期信息内容，给定可能结果的集合及其概率分布[2]。0熵减少，即两个高斯分布之间的相对差异0图2：示意差分2D块δA的投影畸变。0也就是说，通过测量Y而不是X，可以获得更高的精度[23]。条件协方差。假设x∈RN和y∈RM在联合高斯分布Z�N(µZ,ΣZ)中组合，0给定y的条件协方差Σx\y是Σyy在ΣZ中的舒尔补：0Σx\y = Σ�x = Σxx − ΣxyΣ−1yyΣyx . (14)0两个随机变量之间的互信息。它衡量了了解其中一个变量如何减少对另一个变量的不确定性[21]：0| Σ�x | . (15)0在本文中，熵以绝对比特数来衡量（即，log表示以2为底的对数）。04. ID-RGBDO - 跟踪0我们现在将上述思想应用于直接RGB-D姿态跟踪，这些思想在本节中从理论上进行了介绍，并在第6.1节进行了实验评估。04.1. 信息点选择0大多数直接方法要么是密集的，要么是半密集的，旨在尽可能使用多个像素。为了实现实时性能，它们依赖于高端计算平台或使用次优的近似方法。相反，稀疏直接方法通过提取具有显著光度梯度（步骤1）并广泛分布在图像中的点来减少点的数量。Λx = Σ−1x=�p∈P∆pΛx =�p∈PjTx,pσ−2r jx,p,(16)∆p|Λx| = |Λx + jTx,pσ−2r jx,p| − |Λx|= |Λx||I + Λ−1x jTx,pσ−2r jx,p| − |Λx|= |Λx|(1 + σ−2r jx,pΛ−1x jTx,p) − |Λx|= σ−2r jx,pΛadjx jTx,p.(17)f(p ∈ P, z, Λx) = ∆p|Λx| +̸49320（步骤2）。这些启发式方法在各种情况下都能很好地工作，尽管还有一些方面尚未探索：在给定数据的情况下，我们是否达到了最低可能的误差？我们是否使用了冗余信息，从而浪费了计算资源？图像中是否有足够的视觉信息，以使问题始终具有良好的条件？我们的提议是添加一个算法（步骤3），以一种方式选择点，该算法与前两个条件一起，最大化相机姿态的熵。相机姿态熵取决于其协方差矩阵Σx的行列式，如方程（11）所示。每个点p对信息矩阵Λx贡献∆pΛx，可以通过对整个点集P进行雅可比自动乘积求和来获得0其中jx,p是对应于点p的光度残差的雅可比矩阵Jx的行。添加点p还导致信息矩阵行列式的变化∆p | Λ x|，具有非常令人满意的性质1，可以根据雅可比矩阵jx,p的pth行和当前伴随信息矩阵Λadj x来单独表示0基于此，我们的算法工作如下。我们从使用具有区域自适应梯度阈值的网格对高梯度像素进行预过滤开始（如[9]中所述）。我们优先选择属于Canny边缘的点（如[6]中所述），但也保留一些在梯度较弱的区域的点（步骤2）。从这里开始我们遵循算法1。我们为每个自由度（Jx的六列之一）选择具有最大导数的图像点，并使用它们构建一个初始信息矩阵。然后我们迭代选择最大化以下函数的点（步骤3）0cz ( zp − z ) 2 + 1 . (18)0函数中的第一项考虑了上述信息增量。第二项有助于在图像中分布点，以补偿在投影函数中未建模的效果。当0为简单起见，我们应用了Sylvester行列式定理的一个推论 | ( I m + cr ) |= 1 + rc .0算法1 信息点选择。01: 函数 S ELECT I NF . P OINTS ( m, P , J x ) 2: � m =要选择的点的数量 3: � P = 可用点的集合 4: Q ← � � Q =选择的点的集合05: Λ x ← 0 � 初始化信息矩阵 6: 对于 k 从 1 到 DOF 执行 �DOF = 6 7: i ← arg max ( j x,p [ k ])) 8: Λ x ← Λ x +∆ p Λ x ( P [ i ]) 9: Q ← Q ∪ P [ i ] � 添加选择的点 10: P← P − P [ i ]011: 结束循环 � 信息选择 12: z ← 图像边界 13: 当 ( P � = �且 dim ( Q ) < m ) 时执行 14: i ← arg max ( f ( P , z,Λ x )) � 最大信息点 15: Λ x ← Λ x + ∆ p Λ x ( P [ i ])016: Q ← Q ∪ P [ i ] 17: P← P − P [ i ] 18: z ← z− ∆ z 19: 结束循环 20:返回 Q 21: 结束函数0点p的径向坐标zp接近z。z在图像边界初始化，并且每选择一个点，其值减少∆z，直到达到主点。cz模拟了这第二项相对于每个点的信息增量的重要性。04.2. 姿态估计0通过选择的点集，我们旨在找到最小化光度残差向量r（见方程（2））的最接近关键帧和当前帧之间的运动∆x。此优化使用恒定速度模型和多尺度金字塔图像进行初始化，以帮助收敛。在测距和SLAM中广泛使用了运动模型。[15]表明，在直接测距中添加运动先验有助于处理缺乏纹理、运动模糊或动态内容等情况。带有这种先验的运动估计可以写成0( J T x Σ − 1 r J x + Σ − 1 m )∆ x = − J T x Σ − 1 r r +Σ − 1 m ( x t − 1 − x ( k ) t ) , (19) 其中 x t − 1 和 x ( k )t 分别是前一帧和当前帧的相机速度。对角协方差矩阵 Σ m∈ R 6 × 6模拟了运动先验的强度。如[15]所解释的，将高值分配给该协方差矩阵会减少运动先验对图像残差的影响，反之亦然。矩阵的值调整留给H∗∆(x, x0) = 1 − H∗(x)H∗(x0).(20)Keyframe marginalization is essential to keep the op-timization size-bounded, enabling real-time operation [9,18]. The marginalization criteria depend on whether weoptimize a local map or a sliding window of keyframes.For the ﬁrst case, the aim should be detecting and remov-ing redundant keyframes, allowing lifelong operation in thesame environment without unlimited growth of the numberof keyframes unless the visual content of the scene changes[18]. The second technique, adopted by odometries, main-tains a sliding window around the last keyframe, sufﬁcientlyspaced for an accurate optimization of the point depths.Our marginalization belongs to the second group. How-ever, instead of using a heuristically designed function tokeep the keyframes spatially distributed, we use the mutualinformation measurement in order to delete the redundantones.Partial marginalization using the Schur complement.Instead of simply dropping out keyframes and points fromthe optimization, and in order to preserve most of the infor-mation, we substitute the non-linear terms with a linearizedexpression of the photometric error (as in [9, 25, 27]).The state vector update in equation (4) is ﬁrst written inthe following form�HααHαβHβαHββ� �yαyβ�=�bαbβ�,(21)H∗α = Hαα − HαβH−1ββHβα(22)b∗α = bα − HαβH−1ββbβ,(23)δyTαH∗αδyα − δyTαb∗α.(24)αyα+∆yα= r(∆yα)��yα + 12δyTαH∗αδyα − δyTα(b∗α − H∗α∆yα).(25)49330了解代理运动或其他类型传感器的可用性（如IMU）是重要的。与[9]中一样，我们考虑异常值，并丢弃那些光度误差超过分布标准差三倍的点。这减少了遮挡和错误匹配对测距准确性和鲁棒性的影响。05. ID-RGBDO - 滑动窗口优化05.1. 关键帧创建0从图像序列中选择关键帧的策略有几种不同的方法，目的是估计一个局部地图。保守的策略优先使用已经存在的关键帧，只有在没有足够重叠的先前候选关键帧时，系统才假设正在探索新区域并创建新的关键帧[6]。另一种方法是首先初始化大量关键帧，然后在局部映射步骤中剔除和边缘化冗余的关键帧[9,17]。我们使用这种最新的方法，因为它使跟踪对快速运动更加鲁棒，并允许保持与近距离关键帧的滑动窗口优化。关键帧创建主要与视觉变化相关，包括旋转和/或平移或由于光照变化。这个任务通常通过设置以下标准的阈值来解决：1）最大旋转和平移距离，2）最小内点数，3）经过固定数量的跟踪帧或4）由于亮度参数的强烈变化。与[14]类似，我们提出将关键帧创建与相机姿态的熵减 ΔH相关联。与[14]不同的是，我们使用舒尔补在协方差矩阵上独立地获得每个自由度 x ∈ x的熵减。我们将关键帧后的第一帧的熵 H � ( x 0 )设置为参考。这意味着，本质上，我们的系统在至少一个相机自由度的熵减观察到时创建一个新的关键帧。0在这个信息框架中，建立关键帧创建的阈值似乎是自相矛盾的。然而，与其他定义多个和模糊的阈值的系统相比，值得注意的是熵减允许我们使用与跟踪信息相关的单个值。将每个特定自由度的信息进行分解可以增加鲁棒性和准确性，因为聚合信息可能会用一些自由度的较高信息值来补偿其他自由度的低信息值。05.2. 关键帧边缘化0其中α和β是我们想要保留和边缘化的变量块。应用舒尔补可以得到0这再次表示状态向量更新的线性系统，但在这种情况下，变量β被边缘化。因此，我们可以写出关于y的二次函数，可以在所有后续的优化和边缘化操作中添加到光度误差中，以替换相应的非线性项：0r(δyα)��yα = 10需要注意的是，部分边缘化会固定所涉及变量的线性化点，这将要求切线空间在所有后续的优化和边缘化步骤中保持不变。为了减少这个问题，我们每次更新状态时都会像[25]中一样对r(δyα)��yα进行重新线性化，即ψ(Kj) =�i∈KMI(i, j, Σ(i,j)\K−{i,j}),(26)49340与[9]类似，当删除一个关键帧时，我们首先边缘化所有与之相关的点，然后再边缘化关键帧本身。0使用互信息进行冗余检测。与[21]中一样，关键帧相对于其他关键帧的冗余ψ(Kj)可以通过以下方式表示0其中(i,j)的互信息是根据它们相对于其他关键帧的条件协方差矩阵Σ(i,j)\K−{i,j}计算的。当需要时，该度量用于删除信息较少的窗口内关键帧。06. 实验结果0我们的评估使用公共的TUMRGB-D基准[24]。该数据集包含多个室内序列，使用RGB-D相机捕获，并带有地面真实相机姿态注释。具体来说，我们使用除了超出传感器范围的所有静态序列（请参见表1中的序列列表）。本节分为四组实验。第一组评估了第4.1节中引入的信息点选择过程。下一组分析了我们在第5.1节中提出的关键帧创建准则。第三组展示了计算性能的分析。最后，我们将我们的系统与几种最先进的RGB-D里程计和SLAM系统进行了比较。以下图表选择的误差度量是关键帧到帧的平移误差（K2FE），用于评估我们的信息点选择，以及平移漂移的均方根误差（RPE）和绝对轨迹误差（ATEs），用于与最先进的基线进行比较。06.1. 信息点选择0我们在轨迹估计和计算性能方面定量和定性地评估了我们系统的性能。图3显示了我们评估的所有序列（超过20,000帧）中使用24到256个点的平移关键帧到帧误差（K2FE）。所示的四个配置是指点选择的不同替代方案：完全随机（rand），在网格上分布并在强度梯度阈值以上（grid），基于我们的准则最大化姿态的熵（见方程（18））（inf），以及在最后两者之间采用混合方法（inf+grid）。图表显示，我们基于信息的准则，无论是与网格相结合还是单独使用，都导致了最高的准确性。0图3：点信息选择。所有序列中的累积平移关键帧到帧误差（K2FE）。不同的线对应于不同的点选择模式。0图4：准确性 vs熵。左：累积K2FE。从黑色到蓝色的颜色降级表示熵减少更多。右：累积K2FE vs 绝对熵值。0方法和非方法之间的差异导致了最高的准确性。四种替代方案之间的差异随着点数的增加而变小，但基于信息的选择始终会产生更高的准确性。在信息和网格之间的准确性差异对于实时性能来说是可以忽略的，因为基于网格的点预选择比仅基于信息准则选择的速度要快得多。这就是为什么在我们的RGB-D里程计中采用这种混合方法的原因。熵减少与准确性之间的关系如图4所示。简而言之，提高姿态准确性所需的成本（所需的点数）随着熵的绝对值的增加而增加。我们当前研究的一个局限性是，对于不同的序列，熵-准确性曲线的具体形状略有不同。如图5所示，两个熵值相似的序列具有49350RPE（m/s） ATE（m）0[14] [18] † [29] 我们的 [18] † [29] 我们的01 fr1 desk ‡ 0.024 0.051 0.031 0.029 0.065 0.044 0.051 2 fr1 �oor ‡ 0.232 0.038 0.010 0.011 0.0610.021 0.020 3 fr1 plant ‡ 0.025 0.044 0.036 0.024 0.067 0.059 0.039 4 fr1 rpy ‡ 0.032 0.037 0.0340.026 0.066 0.047 0.045 5 fr1 xyz ‡ 0.018 0.014 0.019 0.019 0.009 0.043 0.043 6 fr2 desk - 0.030 0.0080.011 0.213 0.037 0.030 7 fr2 dishes - 0.035 0.012 0.015 0.104 0.033 0.041 8 fr2 rpy - 0.004 0.0040.003 0.004 0.007 0.007 9 fr2 xyz - 0.005 0.004 0.003 0.008 0.008 0.007 10 fr3 cabinet - 0.071 0.0360.058 0.312 0.057 0.063 11 fr3 large cabinet - 0.100 0.167 0.049 0.154 0.317 0.096 12 fr3 long of�cehousehold - 0.019 0.010 0.010 0.276 0.085 0.038 13 fr3 nostr. text. far 0.073 0.121 0.035 0.037 0.1470.026 0.049 14 fr3 nostr. text. near 0.028 0.050 0.043 0.015 0.111 0.090 0.062 15 fr3 str. notext. far0.039 0.013 0.027 0.016 0.008 0.031 0.018 16 fr3 str. notext. near 0.021 0.060 - - 0.091 - - 17 fr3 str.text. far 0.039 0.018 0.013 0.012 0.030 0.013 0.010 18 fr3 str. text. near 0.041 0.017 0.010 0.011 0.0450.025 0.0130表1：最先进基线和ID-RGBDO（我们的）的平移漂移RPE（m/s）和ATE（m）的均方根误差。值得注意的是，ID-RGBDO（我们的）每个关键帧只跟踪24个点。†代表基于ORB-SLAM2的里程计，其中关闭了循环闭合[18]的原始实现。‡代表用于跟踪收敛的特殊初始化。0图5：熵减少。左：平移关键帧到帧误差（K2FE）vs.熵减少。中间：点数vs.熵减少。右：K2FEvs.点数。三种不同颜色代表三个不同的序列。0不同的翻译错误。这些差异可能是由于需要更好的光度模型，例如，具有强烈运动模糊的场景会导致性能不佳。这对于我们当前的选择标准来说并不重要，因为我们使用的是相对熵。然而，未来的工作可以进一步改进，以了解这种影响。06.2. 信息关键帧创建0在这里，我们展示了基于熵的关键帧创建准则的适用性。图6显示了相对熵减少H�∆取得最小误差的值。0图6：关键帧创建。RPE和ATE轨迹误差都受到关键帧创建策略的影响。图中显示了相对熵减少H�∆取得最小误差的值。0通过对相对熵减少H�∆的阈值进行变化，我们对归一化轨迹误差（RPE和ATE）在所有序列上的聚合进行了比较，以创建新的关键帧。较低的值会导致关键帧数量增加，可能增加漂移。增加相对熵减少的阈值会减缓关键帧的创建，减少重叠并增加误差，最终导致跟踪失败。请注意，这种效果在图6的曲线中得到了建模，并且可以用来选择一个合理的阈值。49360图7：跟踪成本。观察它与点数的线性增长，以及使用少量点的便利性。还要注意我们的信息点选择引入的小开销。0图8：束调整成本。注意随着点数的增加，成本的急剧增长，而我们的选择算法在准确性上几乎没有影响。06.3. 计算性能0我们在一台配备有Intel Core i7-7500U 2.70GHz处理器和8GB内存的笔记本电脑上运行所有实验。图7显示了跟踪成本（带有和不带有信息点选择）与图像点数之间的线性关系。与通常跟踪数百个点的做法相比，时间缩短了5倍到10倍，而我们的最小设置只使用了24个点。还要注意，我们的信息点选择算法引入的开销与总跟踪成本相比很小，特别是对于少量点而言。图8显示了我们的直接束调整成本与点数和相机数的关系。对于我们每个关键帧的最小配置，即24个点，成本相对于优化数百个点的常见设置约降低了10倍。06.4. 与最新技术基准的评估0我们将我们的系统与三个不同的基准算法进行比较。首先，与基于几何边缘对齐的最新RGB-D测距算法Canny-VO[29]进行比较。其次，与基于ORB-SLAM2的测距算法进行比较，其中使用了原始的ORB-SLAM2[18]及其闭环检测功能。0并且，第三，与DVO SLAM[14]进行比较，这是一种密集的直接RGB-DSLAM。基于ORB-SLAM2的测距算法的结果来自[29]。表1显示了这三个基准算法和ID-RGBDO的轨迹误差。在我们的ID-RGBDO中，我们每个关键帧使用24个点，并在滑动窗口束调整中使用8个关键帧。对于fr1，由于快速旋转导致这些序列具有较高的运动模糊，我们最初使用更多的点来帮助跟踪收敛，但在束调整中我们仍然使用每个关键帧的24个最具信息量的点和8个关键帧的配置。0请注意，在大部分富有纹理和/或结构的fr2和fr3相机序列中，我们的算法优于三个基准算法。我们的跟踪在序列16中失败，正如所有直接测距算法一样，而基于特征的ORB-SLAM2成功。我们发现，这是由于问题在光度成本函数下不是良好条件的，但如果使用特征，问题的条件足够好。这个结果告诉我们，一个由直接测距和特征组成的混合系统在信息测量管理下可能会有多么有益。07. 结论和未来工作0在本文中，我们提出了一种新的准则来选择在RGB-D测距框架中跟踪最具信息量的点。我们通过实验证明，使用少量非常具有信息量的点和关键帧可以显著降低RGB-D测距的计算成本，同时保持与最新技术相似的准确性。具体来说，我们的实验结果表明，跟踪24个最具信息量的点足以达到与最新技术相当的性能，同时将计算成本降低到10倍。0据我们所知，这是信息论首次应用于直接测距和SLAM方法。我们相信我们的结果将有助于在计算和功耗有限的小型机器人平台和AR/VR眼镜中使用视觉测距和SLAM。0有几个研究方向可以在此工作的基础上进行改进和提高结果。首先，开发概率光度模型可以提高信息度量的准确性。其次，我们认为进一步分析窗口化关键帧优化的信息可能会带来更好的结果。我们计划在不久的将来研究这两个主题。0致谢：本项目得到了西班牙政府（PGC2018-096367-B-I00）和阿拉贡政府（DGA T45 17R/FSE）的资助。49370参考文献0[1] Luca Carlone, Zsolt Kira, Chris Beall, VadimIndelman和Frank Dellaert.在因子图中消除条件独立集合：基于智能因子的统一视角.在2014年IEEE国际机器人与自动化会议上，页码4290-4297.IEEE，2014年。20[2] Margarita Chli和Andrew J Davison. 主动匹配.在欧洲计算机视觉会议上，页码72-85. Springer，2008年。2，30[3] Margarita Chli和Andrew J Davison.用于视觉跟踪的主动匹配.机器人与自主系统，57（12）：1173-1187，2009年。20[4] Siddharth Choudhary, Vadim Indelman, Henrik IChristensen和Frank Dellaert. 基于信息的减少地标的SLAM.在2015年IEEE国际机器人与自动化会议上，页码4620-4627，2015年。20[5] Alejo Concha和Javier Civera.用于RGB直接建图的鲁棒代价函数评估.在2015年欧洲移动机器人会议上，页码1-8. IEEE，2015年。20[6] Alejo Concha和Javier Civera. RGBDTAM:一种成本效益高且准确的RGB-D跟踪和建图系统.在2017年IEEE/RSJ智能机器人与系统国际会议上，页码6756-6763. IEEE，2017年。2，3，4，50[7] Andrew J Davison. 实时视觉的主动搜索.在第十届IEEE国际计算机视觉会议（ICCV'05）第1卷，页码66-73. IEEE，2005年。2，30[8] Andrew J Davison. FutureMapping: 空间AI系统的计算结构.arXiv预印本arXiv:1803.11288，2018年。10[9] Jakob Engel, Vladlen Koltun和Daniel Cremers. 直接稀疏测距.IEEE模式分析与机器智能交易，40（3）：611-625，2017年。1，2，4，5，60[10] Ankur Handa, Margarita Chli, Hauke Strasdat和Andrew JDavison. 可扩展的主动匹配.在2010年IEEE计算机学会计算机视觉与模式识别会议上，页码1546-1553. IEEE，2010年。20[11] Jerry Hsiung, Ming Hsiao, Eric Westman, RafaelValencia和Michael Kaess. 视觉惯性测距中的信息稀疏化.在2018年IEEE/RSJ智能机器人与系统国际会议上，页码1146-1153. IEEE，2018年。20[12] Guoquan Huang, Michael Kaess和John J Leonard.一致的图优化稀疏化.在2013年欧洲移动机器人会议上，页码150-157，2013年。20[13] Viorela Ila, Josep M Porta和Juan Andrade-Cetto.基于信息的紧凑位姿SLAM.IEEE机器人交易，26（1）：78-93，2009年。20[14] Christian Kerl, J¨urgen Sturm, and Daniel Cremers.RGB-D相机的密集视觉SLAM.在2013年IEEE/RSJ智能机器人与系统国际会议上，页码2100-2106. IEEE，2013年。2，5，7，80[15] Christian Kerl, J¨urgen Sturm和Daniel Cremers.RGB-D相机的鲁棒测距估计. 在2013年IEEE In-0[15] Raul Mur-Artal，J. M. M. Montiel和Juan D.Tardos。ORB-SLAM：一种多功能准确的单目SLAM系统。在2013年IEEE国际机器人与自动化大会上，页码3748-3754。IEEE，2013年。2，40[16] Henrik Kretzschmar和CyrillStachniss。基于信息论的激光SLAM位姿图压缩。《国际机器人研究杂志》，31(11)：1219-1230，2012年。20[17] Raul Mur-Artal，J. M. M. Montiel和Juan D.Tardos。ORB-SLAM：一种多功能准确的单目SLAM系统。《IEEE机器人学报》，31(5)：1147-1163，2015年。1，50[18] Raul Mur-Artal和Juan DTard´os。ORB-SLAM2：一种用于单目、立体和RGB-D相机的开源SLAM系统。《IEEE机器人学报》，33(5)：1255-1262，2017年。1，5，7，80[19] Taih´u Pire，Thomas Fischer，Javier Civera，Pablo DeCrist´oforis和Julio JacoboBerlles。用于机器人定位的立体并行跟踪和建图。在2015年IEEE/RSJ国际智能机器人与系统大会（IROS）上，页码1373-1378。IEEE，2015年。10[20] Tong Qin，Peiliang Li和ShaojieShen。VINS-Mono：一种稳健且多功能的单目视觉惯性状态估计器。《IEEE机器人学报》，34(4)：1004-1020，2018年。10[21] Patrik Schmuck和MargaritaChli。关键帧SLAM中的冗余检测。在2019年国际3D视觉会议（3DV）上，页码594-603，2019年。3，60[22] HaukeStrasdat。高效视觉SLAM的局部准确性和全局一致性。博士论文，伦敦帝国理工学院计算系，2012年。20[23] Hauke Strasdat，Jos´e MM Montiel和Andrew JDavison。视觉SLAM：为什么要滤波？《图像与视觉计算》，30(2)：65-77，2012年。2，30[24] J. Sturm，N. Engelhard，F. Endres，W. Burgard和D. Cre-mers。用于评估RGB-DSLAM系统的基准。在智能机器人系统国际会议（I

下载后可阅读完整内容，剩余1页未读，立即下载