直接RGB-DSLAM中的捆绑调整：一个快速且实时的方法

187 浏览量更新于2023-10-18 收藏 864KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

134BAD SLAM：捆绑调整的直接RGB-D SLAMThomasSch oéps1TorstenSattler2MarcPollefe ys1，31苏黎世联邦理工学院计算机科学系2查尔姆斯技术大学3微软摘要同时定位与地图构建（SLAM）系统的一个关键组成部分捆绑调整（BA）是这方面的黄金标准。由于密集RGB-D SLAM中的大量变量，先前的工作集中于近似BA。相比之下，在本文中，我们提出了一种新的，快速的直接BA制定，我们实现了一个实时密集的RGB-D SLAM算法。此外，我们表明，直接RGB-D SLAM系统对卷帘快门，RGB和深度传感器同步以及校准误差非常敏感为了促进直接RGB-D SLAM的最新研究，我们为此任务提出了一种新颖的、校准良好的基准，该基准使用同步的全局快门RGB和深度相机。它包括一个训练集，一个没有公共地面真相的测试集，以及一个在线评估服务。我们观察到，该数据集上的方法的排名变化与现有的方法一致，并且我们提出的算法优于所有其他评估的SLAM方法。我们的基准和我们的开源SLAM算法可在www.eth3d.net上获得1. 介绍SLAM是同时构建场景的3D模型和确定场景中相机的姿态的问题。例如，这可以实现增强现实[32]和自动驾驶汽车的感知[64]。现代SLAM系统由两部分组成[32]：实时跟踪相机姿势的前端，以及联合优化3D地图和先前相机姿势的后端。后端优化的黄金标准是捆绑调整（BA）[62]：优化重建模型和摄像机的所有参数。BA算法广泛用于稀疏特征，[7、44、54]。然而，这些丢弃大部分图像信息。直接[10，45，46，69]方法可以利用所有数据。对于密集重建，这引入了许多需要优化的变量。因此，一个常见的假设是，对于直接和密集方法，完全BA在实时中是不可行的[27]。相反，近似值是图1.场景从我们的基准重建实时与ca。335，000张常见的如姿态图优化[11，30，34，60]或可变形几何[67秒2）的情况。在本文中，我们证明了在密集的RGB-D数据上直接交替BA我们提出了一种新颖的，实用的BA算法，精心设计的实时运行的场景，如图。1.一、在TUM RGB-D基准测试[61]上的实验表明，直接BA优于近似方法。然而，基于特征的ORB-SLAM 2[44]优于所有直接方法。这可能是由卷帘快门[10]、异步RGB和深度帧以及深度失真等效果引起的。我们认为，这些问题在硬件中比在软件中得到更好的解决。例如，处理卷帘快门在计算上是复杂的[53，56]，并引入退化情况[1]。因此，我们介绍了一种新的RGB-DSLAM基准，它是用精确校准的同步全局快门相机记录的在该数据集上，ORB-SLAM 2的表现优于我们的直接 BA 方法，而 DVO-SLAM [30] 的表现与 ORB-SLAM 2相似。我们的基准可以在线获得，并提供公共排行榜，用于训练和测试集。总的来说，我们的贡献是：i）在RGB-D SLAM系统中实施的用于直接BA的新颖快速算法，其优于现有方法。ii）用于RGB-D SLAM以及单目和立体视觉惯性SLAM的良好校准的基准数据集。与以前的数据集相比，我们的数据集使用同步全局快门相机，无需对滚动等效果进行建模135快门我们表明，与现有数据集相比，RGB-D SLAM方法在该数据集上的排名发生了变化iii）我们的基准的排行榜，以及我们的SLAM系统作为开源，可在www.example.com获得www.eth3d.net。2. 相关工作我们工作的主要技术贡献是用于RGB-D数据的实时能力的直接BA策略。因此，本节集中于用于SLAM的优化策略我们还将简要讨论RGB-D SLAM的基准。帧到模型跟踪算法跟踪相机相对于迄今为止构建的3D模型的运动。示例包括基于体素的KinectFusion-style方法[28，45，47]、基于曲面表示的类似方法[29，35，36]以及一些基于关键帧的技术[39然而，相机姿态从未被细化，导致估计轨迹随时间漂移。当检测到循环时，可以显式地进行地图变形。例如，Kintinuous [68]使重建的网格变形以闭合循环类似的方法被[67]和ElasticFusion [69]使用。然而，虽然这种变形可以近似地改善模型，但它没有准确地考虑所有可用的信息。姿态图优化方法[9，11，30，34，60，65]构建了一个简化的相机对之间的相对变换约束图然后，这将用于优化摄影机姿势。这减小了优化问题的大小，但也仅近似BA。基于片段的优化将帧块融合到片段中，然后优化全局（刚性）片段对齐[6，15，27，49]。由于变量数量较少，这使得地图和相机能够有效优化[27]。然而，片段内结构和姿态通常是固定的，即，仅执行近似BA间接（基于特征）BA。通常，SLAM方法仅对关键点的稀疏集合执行间接BA，从而优化重构点的重投影误差。BundleFusion [7]实时执行全局SIFT [38]关键点匹配。直接图像对齐用于小块帧内，并作为整个重建的后处理[16，17]将图像块的直接局部化与优化重投影误差的间接BA相结合。亨利等人[25]使用深度来扩展关键点重投影误差。ORB-SLAM 2也使用了类似的公式[44]。它在现有数据集上的表现明显优于所有当前的直接RGB-D SLAM系统，因为它对未建模的几何失真不太敏感。然而，我们的实验表明，我们的密集BA策略在校准良好的数据上优于ORB-SLAM 2。Direct BA通过最小化光度误差来优化相机和场景参数。[8]第十八话提出了一种基于网格的对象表示的离线算法。这需要频繁地重新划分网格，从而导致高运行时间。在另一个ofline算法中，Goldlučke等。[23]优化（超分辨率）外观和相机校准，同时除了创建位移图之外，保持初始几何形状不变。SDF-2-SDF [59]执行有符号距离函数（SDF）的成对对齐。最后的离线BA步骤细化关键帧姿势和融合的重建SDF。与我们的方法相比，SDF-2-SDF只考虑几何体。然而，离散成体素限制了其精度。Yan等人[70]使用surfels作为地图表示。他们提出了一种类似于直接BA的优化方案，然而，该方案将姿态图优化与一些直接结构和姿态更新相结合。我们的直接BA方法的几何术语类似于多视图ICP[14]。然而，多视图ICP不是将帧匹配到全局重建，而是建立在成对匹配的基础上，需要考虑所有重叠对以使用所有信息。此外，多视图ICP不细化几何形状。Alismailet al.[2]和DSO [10]提出了用于视觉里程计的直接BA方法只有在时间上接近当前帧的几个关键帧和其中可见的3D点被优化。DSO已经扩展了循环闭合处理，但仅使用姿势图优化而不使用BA [20]。作为这些作品的一个关键区别我们的方法是实时运行的，这是通过在优化姿势和几何形状之间进行切换来限制单个优化问题的大小而实现的。对RGB-D SLAM进行基准测试。选项卡. 1显示了我们的新基准与现有数据集的比较。我们的特别突出，在提供真正的RGB-D数据与同步全球快门相机。与其他真实世界的RGB-D数据集相比，我们还提供了完整的IMU数据。此外，据我们所知，我们是第一个真实世界的RGB-D SLAM基准测试，在测试集上有一个公共在线除了RGB-D SLAM，（视觉惯性）单目和立体SLAM方法也可以在我们的基准上进行评估。我们也为这些任务提供在线排行榜。3. 直接RGB-D光束法平差作为常见的SLAM算法，我们的方法consists的前端和后端（c.f。见图2）。前端实时跟踪RGB-D相机的运动。因此，它提供了相机姿态和场景几何形状的初始估计。后端以较低的频率运行[32]，然后细化相机轨迹和几何形状以构建一致的3D地图。核心技术贡献136方法真实数据RGB-D立体声全局快门同步IMU准确的GT几何GT基准TUM RGB-D [61]XX（一）X（二）[57]第五十七话XXXXXXTUM Mono [12]XX-CoRBS [66]XXXX[24]第二十四话XXXX（三）[51]第五十一话X-XXInteriorNet [37]XXXXXXX[21]第二十一话X（四）XXXXX欧洲RoC MAV [3]XXXXXX（五）我们XXXXXX（六）X表1.将选定的现有数据集与我们的新基准进行比较。关于编号条目的说明：（1）加速度计，但没有陀螺仪测量。(2)虽然这个数据集有一个测试集，但它不太适合进行基准测试，因为它显示了与训练集相同的场景，并且没有在线排行榜。(3)在数据集的扩展版本中可用[6]。(4)稀疏测量的旋转激光扫描仪是可用的。(5)对于某些序列，结构基础事实可用。(6)运动捕捉系统用于除了少数训练数据集之外的所有训练数据集，对于这些训练数据集，GT使用运动结构（参见图10）获得。秒（五）。前端后端新KF？是否检测到环路是的没有位姿图优化跟踪wrt。最后KF图像直接BA持续优化：姿势，冲浪，内在离散曲面更新：创建、合并、删除型号（KFs，surfels）输入：RGB-D摄像头图2.方法概述。KF代表关键帧。本文提出了一种新的用于后端的直接RGB-D SLAM的束调整（BA）策略在下文中，我们将详细描述这一策略前端遵循一般惯例，将在第2节中简要讨论。4.第一章我们的BA战略基于一系列关键概念：我们使用基于记录的深度图像的几何约束和光度约束。后者使用梯度，而不是原始像素强度是强大的光度变化。为了实现有效的优化，我们的方法在细化3D地图和摄像机姿态之间交替，以最小化在每个时间点考虑的参数的数量（参见图1）。Alg. ①的人。因此，我们是第一个密集的BA方法，用于RGB-D SLAM，实时运行较小的场景。在下文中，我们首先描述我们的数据表示，然后详细介绍我们优化的成本函数和优化过程本身。3.1. 数据表示我们用密集的面元表示场景几何，并使用关键帧来减少BA的输入数据量。关键帧由RGB-D帧及其6DOF相机姿势定义我们对所有关键帧使用共享的内在校准，其中我们将颜色和深度传感器单独建模为针孔相机。可选地，我们还对深度图像变形进行建模，这对于提高典型消费者深度相机的深度质量很重要[72]。在我们的方法中，面元s是由3D中心点ps、表面法向量ns、半径rs和标量视觉描述符ds定义的定向盘。我们选择surfels作为场景表示，因为它们可以通过BA有效地融合和更新，并且可以快速变形以适应循环在BA期间不需要昂贵的拓扑更新在BA期间，单纯地优化3D冲浪者位置可能会导致问题。RGB-D传感器提供在几何形状变化很小的弱纹理区域中的测量，例如，白墙在这些区域中，无论是光度还是几何描述符都不会约束所有自由度，从而允许某些曲面在曲面内任意移动。为了防止潜在的伪像，孔，我们因此在优化过程中限制surfels的移动。[10]建议在其关键帧中固定冲浪的像素位置，并仅优化其（逆）深度。在实践中，当将该参数化与通常用于RGB-D SLAM的点到平面残差结合使用时，我们遇到了问题[73]。特别是对于轮廓和对象边界，参数化导致与平面相交和几乎平行的视线，这是病态的。相应地，我们观察到优化将一些surfel移动到错误的位置。我们的解决方案是只沿着曲面法线方向移动曲面，并且只使用具有相似法线的测量来优化它们。这提供了合理的优化方向，同时避免了定义不清的残差。由于位置和法线优化交替进行，曲面不限于仅沿其初始法线移动。3.2. 成本函数我们的目标是优化模型的参数定义在第二节。3.1最大化一致性。这些参数是surfel属性、关键帧姿势和可选的相机固有参数，而测量值是存储在关键帧中的（大部分）成本可以按模型的每个元素来衡量（即，Surfel），或输入的（即，像素）。由于一个像素可以对应于多个面元，因此在优化期间非对角Hessian矩阵可能导致出于效率的原因，我们因此在这项工作中使用基于模型的方法。因此，通过将每个surfel投影到关闭[69]。与基于体素的场景表示（例如，[45]），surfels可以很容易地表示薄表面和场景细节的任意规模。与网[8]相比每个关键帧建立与像素测量的对应关系几何和光度残差测量surfel在其相应位置对深度和颜色建模的效果。137Dp¨¨D，kGRKMD，k D，kG sG s180D.GskGS.响应图像位置。优化的目标是最大限度地提高光度和几何一致性。在数学上，我们将成本定义如下。设K是所有关键帧的集合，并且设Sk是在关键帧k∈K中具有对应测量的所有曲面的集合。为了鲁棒地处理离群值，几何和摄影测量残差rgeom和rphoto使用Tukeybiwight和Huber鲁棒损失函数，两个函数的加权参数分别为10此外，通过w_photo=10- 2来对照片度量残差进行加权，以优选深度信息。由此产生的成本函数是几何和光度项之和变化，同时提供广泛的收敛范围并实现有效的优化。我们使用简单的强度梯度的大小，计算在一个几何一致的方式。这种方法在原理上类似于[55]中的姿态精化然而，[55]使用几个点来计算一个残差，这阻止了快速几何优化，因为用于曲面优化的所得Hessian不是对角的。相反，对于一个残差，我们在曲面中心ps和同一曲面圆盘边界上的两个固定点s1，s2的投影处对图像进行采样曲面圆盘半径rs类似于观察曲面的最高分辨率图像的像素采样，c.f。的ra-C（ K，S）=.图基.σ−1rΣgeom（s，k）+（一）更新在SEC。三点三S1和s2被选择为使得k∈K s∈Skw照片 ρHuber .σ−1r照片Σ Σ（s，k）。方向s1−ps和s2−ps是正交的。然后是Gra-计算梯度幅度并与dS进行比较以获得：这里，σD和σp是几何参数和光度测量。它们用于归一化单个残差，我们将在下面进行解释¨。¨rphoto（s，k）=<$I（πI，k（s1））−I（πI，k（ps））I（ πI，k（s2））− I（ πI，k（ps））Σ¨¨-d s. （四）2几何残差。点到面数据关联通常用于RGB-D SLAM[73]，并且已知其对于ICP [5]工作良好。因此，我们类似地定义rgeom这里，πI，k是RGB图像的投影函数，I（·）为双线性插值图像强度。不确定度σp（c.f.当量1）光度测量-.geom（s，k）=TGns<$T（π−1（π<$（Tkp））−Tkp）（2）保险取决于许多因素。其中一些，例如，在捕获过程中反射或照明变化，这里，π<$D，k映射局部坐标系中的3D点将关键帧k的中心移动到相应深度图像像素的中心作为回报，π−1通过其测量的深度d m将深度像素映射到关键帧的局部坐标系中的3D变换Tk将面元s的位置ps和法线ns从全局地图坐标系G映射到关键帧k的局部坐标系。Intu-Eq. 2计算曲面和沿曲面法线方向的测量位置之间的距离。使用其标准偏差的估计值σD对所得残差进行归一化。为了得到这一点，我们应用测量不确定性的不确定性传播对于校准良好的相机，假设测量不确定性纯粹是在深度方向上是合理的许多深度相机在红外图像上使用立体匹配来计算深度图。在这种情况下，深度误差很难用数学建模。为了简单起见，我们因此根据经验将σp设置为1（对于[0，1]中的强度）。表面测量对应估计。当量1将地图中的曲面与关键帧中对应的RGB-D测量值进行比较。我们通过将冲浪中心投影到关键帧中来建立这些为了过滤离群值，我们仅在以下情况下建立面元s与其在关键帧k中的像素投影之间的对应性：i）ps投影到具有深度测量的像素。在实践中，这也丢弃了在非常倾斜的角度处的观察，因为深度相机通常将丢弃那里的测量。ii）测量的深度和投影的面元足够相似相似性是通过优化中深度残差的权重来衡量的，即，我们只建立对应，如果1<$ρTukey（r） >0勒随深度dm二次增长，可以表示为δd2（bf）−1[18]，我们将其用作标准偏差σ dm的模型。这里，b是以米为单位的基线，即对于主动立体而言是照相机-照相机距离，或者对于结构光而言是照相机-投影仪距离。 f是以像素为单位的焦距，δ是以像素为单位的预期立体匹配误差，我们将其设置为0。1.一、应用不确定性传播其中r：=rgeom（s，k）。 iii）surfel法线类似于深度测量深度图像中的边缘）并指向相机。3.3. 优化我们通过优化方程中的成本来执行BA1.一、类似于稀疏SfM [54]，其中附加点是三角形的，(in本例：σ2=（rgeom）2σ2）然后导致：在BA之后，将控制点和现有点合并，我们将D2.dmdm。σ=δ dm。. Tkn<$Tπ（Tkp）.Bf.（三）使成本优化具有几个离散的冲浪更新步骤。否则，更改关键帧姿势可能会导致深度不确定性取决于传感器类型;一个不同的-ENT模型应该用于例如，飞行时间传感器光度残差。对于r照片，我们将surfel的描述符ds与surfel在图像中的投影进行比较描述符应具有抗光度测定的138在场景中没有被冲浪板覆盖的部分。冲浪和关键帧的数量都很快变得很大。因此，使用二阶方法（如高斯-牛顿）联合优化所有参数很快就会变得缓慢，即使使用舒尔补也是如此。我们139GKK D，k因此，使用交替优化，它仍然可以对强连接问题进行竞争[62]。我们的优化方案，在Alg。1，执行多次迭代直到最大值或直到收敛。在每次迭代中，交替的步骤优化了等式中的成本。1、更新浏览器。每个步骤在下面详述。算法1基于Surfel的交替直接BA方案一曰：为所有关键帧创建缺失的曲面2：对于i∈[1，max iteration count]，3：更新曲面法线4：优化冲浪位置和描述符5：如果i = 1，则合并相似的曲面6：优化关键帧姿势7：优化相机内部函数（可选）8：如果没有关键帧移动，则中断第九章：对于在最后循环中移动的所有关键帧，10：合并相似的曲面11：删除离群值曲面;更新冲浪半径冲浪创建。在第一步中，我们尝试为所有关键帧创建新的曲面。我们将关键帧划分为4×4像素单元。如果单元格中没有像素对应于前表面元，则我们随机选择一个深度测量值在单元格中创建一个新的surfel。它的属性是从像素p中计算出来的：ps被设置为TGπ−1（p）。通过深度图像上的中心有限差分来计算。rs定义为最小距离在ps和p的4邻域的3D点之间。ds被初始化为等式中的第一项4.第一章在创建新曲面时，仅考虑所有相邻像素都具有深度测量的像素此外，我们仅使用通过以下异常值过滤器的像素：我们将像素的3D点投影到彼此的关键帧中。我们计算点投影到相应测量的次数nC，以及自由空间违规的次数nV，即，该点位于关键帧深度图前面的频率。如果nC nmin或nV> nC，则像素被认为是离群值。nmin设置为min（3，1+ 100. 2|K|），避免在不完整的冲浪模型上进行优化，而关键帧的数量|K|很小。冲浪正常更新。出于效率原因，我们将曲面法线（主要只影响曲面允许移动的方向）作为辅助变量。我们没有从成本函数中导出更新步骤（这可能需要在rgeom和rphoto之外添加正常残差），而是使用设计为有效的更新：我们对所有相应测量的法线进行平均，然后重新归一化为单位长度。冲浪位置和描述符优化。在更新法线ns之后，通过将高斯-牛顿迭代应用于等式（1）来联合优化曲面位置p s和描述符d s。1.一、我们只允许冲浪者沿着正常的方向移动因此，冲浪位置被参数化为ps+t·ns，并且我们对t进行优化。的联合优化位置和描述符对于改进的收敛速度非常有帮助。由于不同的面元是独立的，这只涉及为每个面元求解一个2×2矩阵。冲浪合并。Surfel创建通常会生成不必要的Surfel，用于噪声测量，这些测量通过其第一位置优化进行降噪因此，在BA方案的第一次迭代中的位置优化之后，我们合并具有相似属性的表面。如果两个曲面s1和s2的法线彼此相差在40mm以内，则合并它们，它们的位置比4·0更接近。8·min（rs1，rs2）。的因子4对应于用于创建冲浪的单元大小，0.8是合并阈值。为了快速找到合并候选者，我们将曲面投影到所有关键帧中，并考虑投影到同一单元格的曲面进行合并。关键帧姿态优化。我们通过将高斯-牛顿方法应用于等式来优化所有关键帧的姿势。1.一、姿态更新在李代数se（3）中被参数化为局部更新。因此，从全局坐标到关键帧k的局部坐标的变换T k被更新为Tg·exp（τk）。局部更新确保旋转更新是明确定义的[13]。由于关键帧是独立的，这导致每个关键帧的标准直接姿态细化（类似于例如，[29、30、41]）。摄像机内部优化。如果RGB-D摄像头没有精确校准，我们可以选择优化摄像头内部函数。我们这样做只是为了评估现有的数据集;我们的新数据集不需要这一步。再次，我们使用高斯-牛顿方法来最小化方程。1，现在优化内部参数，同时固定所有其他参数。我们使用单独的针孔模型的颜色和深度相机，也模型深度变形。我们使用来自[26]的深度偏移模型，其将每个像素（x，y）的真实逆深度dtrue与失真逆深度ddist关联为：dtrue（x，y）=ddist（x，y）+D δ（x，y）·eα0−α1ddist（x，y）. （5）我们去掉α0，因为改变它与相应地改变所有像素的Dδ其余参数为α1和参数图像Dδ。对应于Dδ的Hesian部分是对角矩阵。因此，舒尔补可以用来非常有效地解决这个矩阵，尽管它的大小。我们在图像分辨率的四分之一处估计Dδ，对应于冲浪创建单元大小，并且使用最近邻访问来保持Hesian对角线。这种方法使我们能够快速优化相机的内在特性，特别是深度变形。曲面绘制清理和半径更新。正如稀疏SfM [54]中常见的那样，我们基于用于在surfel创建期间检测离群值的相同标准过滤离群值surfel。此外，每个面元的半径更新为所有其相应测量的最小半径。直观地说，这对应于在计算其描述符时使用观察点的最高分辨率1404. RGB-D SLAM前端本文的主要技术贡献是上一节中提出的密集直接BA方法，它形成了我们的RGB-D SLAM方法的后端。下面介绍我们的前端负责实时相机姿态跟踪和环路闭合检测。预处理。通常，使用双边滤波器来平滑深度图，并且去除大的深度测量。滤镜参数取决于所使用的相机。里程计一旦新的RGB-D帧可用，我们首先通过SE（3）[29，30，41]中的标准直接光度和几何图像为了对光照变化的鲁棒性，我们使用强度梯度而不是像素强度进行跟踪。里程计与BA的互动在这项工作中，我们不解决关键帧选择问题，因此只需选择每10帧作为关键帧。在创建了一个新的关键帧之后，我们在将其传递到BA后端之前，使用轨迹的先前部分测试循环闭合，如下所述。如果在这些迭代完成之前创建了一个新的关键帧，我们将跳过剩余的关键帧以保持实时操作。闭环检测。我们使用基于二进制特征[4]的标准词袋方法[19]来识别与最新关键帧k最相似的关键帧m。我们从得到的关键点匹配中得到关键帧相对姿态的初始估计然后使用直接对准来细化该姿势。我们还使用直接对齐来将关键帧k与关键帧m−1和m+1对齐。如果这些基于阈值他们的平移和角度的差异，我们接受闭环。我们在姿态图优化步骤中使用平均相对姿态来获得对轨迹的初始校正，然后应用我们的BA策略。应该注意的是，作为直接图像对准和直接BA的一般限制，收敛区域很小[50]。因此，例如可以想到的是，在循环检测时的姿态图优化步骤将旧的关键帧推出它们的收敛区域。然而，我们在最终的系统中没有观察到这一点。如果这成为一个问题，我们认为未来的工作可能会尝试将直接BA与收敛良好但不准确的方法结合起来。通过这种方式，它可以保持接近另一种方法的解决方案，因此很可能收敛，同时作为一种改进。5. 基准数据集动机作为录制新RGB的动机-D SLAM基准，我们讨论了流行的TUM RGB-D数据集上的结果[61]。选项卡. 2显示绝对轨迹-fr1/办公桌fr 2/xyz fr 3/办公室平均秩BundleFusion [7]1.6（1）1.1（3）2.2（4）2.7（2）DVO SLAM [30]2.1（5）1.8（6）3.5（8）6.3（6）[69]第六十九话2.0（4）1.1（3）1.7（2）3.0（4）[第68话]3.7（8）2.9（9）3.0（6）7.7（8）MRSMap [60]4.3（9）2.0（7）4.2（9）8.3（9）[44]第44话：我的世界0.4（1）1.0（1）1.0（1）[70]第七十话 1.6-3.1-[9] 2.3（6）0.8（2）3.2（7）5.0（5）[47]第47话：我的世界2.2（8）2.3（5）6.3（6）Ours（fixed intr.）第 3.6节1.22.5-第173章（三）1.1（3）1.7（2）2.7（2）表2.TUM RGB-D数据集上的ATE RMSE结果（单位：cm）（括号中的等级）。我们的平均排名第二，ORB-SLAM2和BundleFusion。其他方法的结果见[7]、[70]和[44]。我们的结果没有内在函数和深度变形优化明显更差，这表明这对这些数据集是必要的。清洁avg. med.asyncavg. med.Rsavg. med.拉克尔斯avg. med.BundleFusion [7]0.34零点二二1.101.141.10一点零二1.48一点四DVO SLAM [30]0.32零点二三2.330.725.10一点三七4.94一点三九[69]第六十九话1.110.901.98一点一七2.70一点七七3.192.52ORB-SLAM 2 [44]0.47零点半0.60零点四3.25一点五七3.49一点五五我们0.15零点零二0.40零点二一0.990.871.010.98表3.每个类别7个合成数据集异步RGB-D帧（RGC）和滚动快门（RS）都使结果恶化。存储误差（ATE）结果（如[61]中所使用的;越小越好），用于一些常用序列上的不同SLAM方法。作为第一个观察，我们可选的内在函数和深度失真优化大大改善了我们在这些数据集上的结果。这表明深度相机的不准确（内部）校准影响SLAM方法，并且应该被校准以获得良好的结果。此外，我们观察到ORB-SLAM 2 [44]作为一种间接方法，在这些数据集上的性能明显优于所有直接方法，包括我们的方法，它与Bundle- Fusion [7]共享第二个平均排名。作为其原因的一部分，[10]表明ORB-SLAM 2受卷帘快门的影响较小，如该数据集中使用的相机所示，而不是直接方法。此外，相机的深度和颜色流不同步。这些效应，连同上面观察到的深度失真，引入进一步的几何失真，这可能强烈影响直接方法。我们的目的是评估以下扭曲的影响。扭曲的影响。虽然相机中的几何失真可能难以精确建模，但我们可以在合成数据集中隔离异步RGB-D帧和滚动快门的影响。我们通过从TUM RGB-D数据集[61]中对场景进行密集的3D重建并使用其原始（连续插值）轨迹进行渲染来创建此类数据集。我们以四种变体呈现每个数据集：一个对于彩色和深度相机的滚动快门，我们使用来自[52]的Kinect v1的估计快门时间（第一次和最后一次扫描线读出之间的时间偏移）：ca。三十5ms用于深度相机和ca. 二十六岁1141图3.来自我们数据集的示例图像（顶部）和深度图（底部），显示了它的一些变化，包括静态场景，移动对象，黑暗，需要光度跟踪的平面场景和户外场景。没有使用白平衡。彩色摄像机的MS。对于异步帧，我们使用最坏的情况，在这个意义上，一个彩色图像是在两个连续的深度图像之间的时间中点渲染。所有其他偏移将产生在时间上更接近的深度/颜色对。结果见表1。3 .第三章。与TUM RGB-D结果相比，我们的方法在这些数据集上的表现优于所有其他方法，这表明需要模拟更多的效果，如深度失真，以获得逼真的结果。然而，我们仍然可以观察到，当未建模时，两种评估的效果都会显著降低SLAM结果。由于在直接SLAM系统中对所有这些效应进行建模是费力的，并且可能导致高运行时间[53，56]和退化[1]，因此我们认为在硬件中更好地解决这些问题。因此，我们使用更好的硬件记录了一个新的RGB-D SLAM基准。我们的基准。为了记录数据，我们安装了同步全局快门相机[22]和华硕Xtion Live Pro，使用Xtion的红外发射器和我们的记录彩色和深度图像在完全相同的时间点，使得不需要时间平滑性假设来使用两者来估计一个相机姿态。例如，[31，33，48，71]，我们使用主动立体声：通过在两个红外摄像机上进行立体深度估计，立体算法同时利用了主动照明和环境红外光。地面真实姿态主要由运动捕获系统记录。一些训练数据集被记录在该系统之外基准摄像机上的运动恢复结构以及钻机上的其他摄像机以及多次覆盖数据集序列的视频给出了这些数据的真实情况。这些数据集被保存在一个单独的类别中，因为它们可能不太准确。我们的SLAM基准测试由61个训练数据集和35个测试数据集组成图3显示了我们数据集中的示例图像。所有序列都显示在补充视频中。目前，在RGB-D SLAM评估中通常的做法是子选择（并且因此潜在地挑选）少量数据集，例如，从TUMRGB-D数据集[61]的训练集（参见例如，[7，58，69]）。由于这些数据集带有真实数据，因此还不清楚这些方法在多大程度上过度拟合它们。通过提供一个具有非公开基础事实的基准和一个在线排行榜（类似于[21]），我们希望改进这一点。与具有典型消费者深度相机的数据集相比，有关数据集记录和校准的更多信息和实验，请参阅补充材料6. 评价测试环境。我们使用了一台配备Intel Core i7 6700K和MSI Geforce GTX 1080 Gaming X 8G的PC。我们的BA方案在GPU上使用CUDA 8.0实现对于定量评估，我们专注于具有SE（3）对齐的绝对射束RMSE（ SE（3）ATE RMSE，C.F. [61]），因为这集中在 SLAM （而不是 Odom-100）性能。补充材料中提供了其他指标的其他结果。SE（3）ATE RMSE的计算方法是首先将估计轨迹与SE（3）中的变换（通过将姿态与相同的时间戳匹配并应用Umeyama方法[63]）的地面实况对齐。然后，计算所有匹配姿态之间的平移差异的RMSE。消融研究。我们评估了我们算法的不同组成部分对最终结果的贡献。5（顶部）。显然，几何残差rgeom有很大的帮助，因为仅使用光度残差rphoto的结果要差得多。此外，图显示BA在仅运行我们方法的前端时明显改善。虽然剩余的差异较小，但可以观察到，使用两种类型的残差（“默认”）比仅使用深度残差执行得此外，我们评估了我们算法的离线（但接近实时）变体，对于该变体，我们从不跳过BA迭代，并在数据集回放完成后执行25次BA迭代。正如预期的那样，这比实时设置的性能稍好最后，我们还评估了一个预处理共轭梯度（PCG）求解器的高斯-牛顿更新方程的地方，我们的交替优化方案。它的性能非常相似，但比alternating优化略差。由于单独的迭代花费更长时间，因此在该变型中跳过更多的BA迭代（参见图1）。秒4）.参数值。我们评估关键帧创建频率图。5（左下角），其中为每个图形说明了每个关键帧的帧数。在该评估中，更频繁地选择关键帧总是比选择更少的关键帧执行得更好，尽管可能减少实时设置中的BA迭代的数量。但是，内存使用量也会随着关键帧的增加而线性增加。用于创建面元的单元格大小如图所示。 5 （右下）。较小的单元尺寸产生更密集的场景重建，从而产生更高的存储器使用。它可以提高精度，因为更多的几何考虑，但也增加了计算需求。这可以减缓BA的根据绘制的结果，在实践中，142Surfel计数40202010000 5 0 5SE3 ATE RMSE [cm] SE3 ATE RMSE [cm]BundleFusionDVO SLAMElasticFusionORB-SLAM2BAD SLAM750 300000500 200000250 1000000 020 40 60 80 100 120 140 160图4.我们的BA方案在ms中对于图1所示的数据集的计算1（不跳过任何BA迭代）。关键帧的数量由于我们每10帧创建一个关键帧，输入频率为27Hz，因此每个关键帧的处理时间为370 ms;如果BA花费更长时间，则在实时模式下跳过迭代surfel计数中的峰值对应于循环闭合。402000 12SE3 ATE RMSE [cm]40200 0 1 2左图图例：仅rgeom仅rphoto默认右图图例仅限前端PCG解算器默认40200 0402000 1 2SE3 ATE RMSE [cm]1 2大多数算法都能很好地解决这一问题，而硬数据集则没有任何算法能很好地解决这一问题。其余的是中等难度。此外，用于训练数据集的秒（五）。我们的方法显著优于其他方法，在中等数据集上产生了优越的结果，在简单的数据集上非常可靠。虽然没有直接算法能够在TUM RGB-D数据集上击败ORB-SLAM 2，但在这里，我们的方法优于它。DVO SLAM执行投注-SE3 ATE RMSE [cm]SE3 ATE RMSE [cm]在训练集上比ORB-SLAM 2更好，但在图5.消融研究（顶行）、关键帧间隔评估（左下）和冲浪稀疏性评估（右下）。在每个图中，对于ATE RMSE（x轴）上的给定阈值，图表显示了来自我们的基准测试的训练数据集的数量，其中评估的变体具有较小的误差。培训考试图6.对我们基准测试的训练和测试数据集进行评估对于ATERMSE（x轴）上的给定阈值，图表显示了该方法具有较小误差的数据集数量。测试集硬数据集为未来的工作提供了开放性挑战。失败的常见原因包括结构不明确的无纹理场景，快速相机运动和移动对象。因此，虽然我们相信我们的算法可以获得非常准确的结果，但在这些情况下，仍然需要使用IMU或更大的视场来增加整个系统的鲁棒性。还应指出，上述评价没有考虑可伸缩性;某些方法不需要GPU。运行时间。图4显示了我们的BA方案的不同部分在我们的基准测试的示例数据集上里程计所用的时间可以忽略不计。关键帧姿势和几何体优化占用的时间最多。BAD SLAMBundleFusionDVO SLAMElasticFusionORB-SLAM2BAD SLAMBundleFusionDVO SLAMElasticFusionORB-SLAM2简单中硬SfM易中硬10个。07 .第一次会议。5五、0二、50的情况。010个。07 .第一次会议。5五、0二、50的情况。07. 结论我们提出了一种新的RGB-D SLAM方法，其具有使用surfels的实时直接BA后端。这允许在全局优化期间使用丰富的信息，从而产生非常准确的轨迹。为了避免未建模的几何失真，我们提出了一个RGB-D SLAM基准测试，图7.在我们的基准测试的训练（顶部）和测试（底部）数据集上完成SE（3）ATE RMSE评估结果，单位为cm。每个列都可视化一个数据集的结果我们展示了每个数据集的三次运行，用于非确定性方法。因此，在2×2和8×8之间改变细胞大小，总体上几乎没有影响。对于较大的单元尺寸，结果降低对拟议基准的评价。我们与源代码可用的最先进的（非惯性）RGB-D SLAM方法进行比较。对于所有方法，参数仅在训练数据集上进行调整。图6示出了累积结果，而图6示出了累积结果。7可视化所有数据集上的单曲面创建几何优化循环中的Surfel合并和列表压缩Surfel删除和半径更新最终surfel合并和列表压缩2 ×24 ×48 ×816 ×1632 ×3264 ×64时间[ms]51015202530#成功运行#成功运行#成功运行#成功运行#成功运行#成功运行面元143个结果。我们将数据集定性地分类为简单，中等或困难：简单的数据集被解决同步全局快门相机。在这个基准上与间接ORB-SLAM 2相比，像我们和DVO SLAM [30[44] 而不是现有的数据集。我们相信这对社区来说非常有趣，因为它表明现有的数据集只给出了SLAM算法性能的部分图片该基准测试还包含硬序列作为（仅视觉）RGB-D SLAM的开放挑战例如，使用剪影或从RGB图像初始化深度测量可能有助于解决这些问题。作为未来的工作，也可以应用标准技术，如窗口BA，以保持更长序列的实时BA。感谢您的支持。 ThomasSchoéps得到了GooglePhD Fellowship的支持。144引用[1

下载后可阅读完整内容，剩余1页未读，立即下载