基于流的SLAM技术及其在虚拟现实智能硬件中的应用

32 浏览量更新于2024-01-24 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：严子科，查宏斌。基于流的SLAM：从几何计算到学习。虚拟现实智能硬件，2019，1（5）：435-460DOI：10.1016/j.vrih.2019.09.001虚拟现实智能硬件2019年第5期·回顾·基于流的SLAM：从几何计算到学习ZikeYAN*，HongbinZHA*北京大学机器感知教育部重点实验室，北京100871* 通讯作者，zike. pku.edu.cn;zha@cis.pku.edu.cn投稿时间：2019年5月30日修订日期：2019年8月14日接受日期：2019年9月2日国家重点研究发展计划（2017YFB1002601）和国家自然科学基金（61632003，61771026）资助。摘要30多年来，同步定位与地图构建（SLAM）一直是机器人和计算机视觉领域的研究热点。随着稳步和渐进的努力，现代SLAM系统允许在现实世界的场景中实现强大的在线应用。我们详细研究了这个强大的感知工具的演变，并注意到有关增量计算和时间指导的见解一直保留着。在这里，我们将这种时间连续性表示为流的基础，并首次提出了一项调查，专门关注基于流的性质，从几何计算到新兴的学习技术。我们首先回顾了几何计算的两个基本阶段，提出了事实上的标准管道和问题的制定，以及利用时间线索。然后总结了最近出现的技术，涵盖了广泛的领域，如学习技术，传感器融合，和连续时间轨迹建模。这项调查旨在引起公众对强大的SLAM系统如何从持续观察自然中受益的关注，以及值得进一步研究以更好地利用时间线索的主题。同时定位与地图构建;视觉里程计;深度学习;流基;传感器融合;增强现实1介绍SLAM问题旨在获得相机的状态以及未知环境的全局一致表示。从这个角度来看，SLAM在难以预定义的场景中具有实际应用。经过30多年的研究，最先进的SLAM算法已经在传感器、计算资源、环境和运动类型等特定条件下实现了稳健的性能，并且通常应用于增强现实、移动机器人和自动驾驶等新兴领域。SLAM和运动恢复结构（SfM）都处理摄像机运动恢复和静态环境建模的联合任务，共享类似的管道，如图1所示。SLAM和SfM最好通过输入数据和实时实现来区分。SLAM处理有序的图像序列，并允许其他互补的传感器信号。连续的数据保证了对未知环境的连续观测。然而，严格的时间要求使得SLAM成为一项任务-www.vr-ih.com虚拟现实智能硬件2019年第5期驱动的问题，追求操作合规性，但不是完美的计算。因此，近似和假设已被简化的问题。图1SfM[1]和SLAM[2]算法的类似流水线。从这个角度来看，我们发现，利用时间的连续性是一个主要特点，最近取得的进展，由社区。虽然SLAM通常被视为SfM的在线版本[3-5]，但这种观点仅捕获了SLAM问题的实时属性。固有的连续运动导致连续的观察，这种连续性带来的优势使得实时实现成为可能。我们在此将SLAM问题的这种连续性质称为流基础。具体来说，该流程的特征如下：（1）时间引导：连续性使得问题具有高度可预测性，这允许引导搜索和良好的初始化。(2)增量计算：可以以增量方式充分利用预先计算的结果，以减少不必要的操作量。(3)局部约束：时间约束不仅建立了相关性，而且包含了更多的局部正则化信息。1.1与其他调查的Durrant-Whyte和Bailey[6 ，7]在研究的早期阶段（1986- 2006）对SLAM问题进行了深入而全面的回顾，当时过滤方法占主导地位。Cadena等人总结了最近的进展。[8]，其中SLAM的历史分为三个阶段：经典时代，算法分析时代和当前的鲁棒感知时代。对更好的场景理解和自调整系统的需求不断增加，推动了广泛的研究方向。因此，目前的审查采用了更具体的视角，例如，问题公式化[9，10]，动态环境[4]，自动驾驶应用[11]，运动插值[12]和视觉-惯性融合[13]。现有的调查提供了一个全面的技术发展的概述，而本文件的重点是基于流量的角度。我们的目标是揭示时间线索在每个时期是如何被利用的，并引起人们对被忽视的话题的思考，这些话题可能会导致剩下的挑战。436ZikeYANetal：基于流的SLAM：基于流的数据处理1.2论文组织本文的其余部分组织如下。第2节和第3节概述了两个主要组成部分的技术发展：数据关联和数学解决方案。学习技术的进展在第4节中介绍。第5节讨论了SLAM的新兴趋势和开放问题，包括传感器融合，连续时间建模和其他未来的潜力。最后评论见第6节。2数据关联数据关联建立未知姿态变量、地图变量和观测之间的联系。由于传感器噪声的影响，数据关联在未知环境中具有内在的模糊性，这种模糊性使得SLAM成为最优估计问题。SLAM问题的在线数据关联允许动态图结构化[10]，其中定位（视觉里程计和重新定位）提供关于帧间共视性或时间连续性的本地节点连接，并且环路闭合检测通过将新观察与先前地标相关联来提供全局图拓扑。一般来说，数据关联包括以下三个步骤：（1）以紧凑的形式表示观测;（2）有效的相似性推理;（3）严格的验证检查。每个子任务的具体要求导致不同的方法的时间信息的使用：视觉里程计符合严格的实时要求，因此主要集中在计算成本。时间线索提供了提高效率的指导。相比之下，环路闭合检测被制定为图像检索任务，其中精度是最高的优先级。从这个角度来看，时间线索通常被视为可靠的约束，以获得更好的鲁棒性。2.1视觉里程计视觉里程计强调连续帧之间的相对运动，从而有利于时间上可跟踪的特征。可跟踪性高度依赖于相似性推理策略，这是主要的计算负担。如图2所示，图像特征的选择决定了重建的三维（3D）地图的表示：特征是由地图上的地标引起的二维（2D）噪声观察，地图保持环境的不变性。图2流行的 SLAM 系统的不同表示。特征可跟踪性决定每个SLAM 系统的性能。图像取自 ORB-SLAM[14] ，StructSLAM[15]，LSD-SLAM[16]和ElasticFusion[17]。现有的SLAM算法通常被分类为稀疏/密集或直接/间接[25]，其中稀疏/密集是指表示选择，直接/间接是指相似性推理策略。考虑到流的基础上，本文将现有的视觉里程计方法分为两类：基于矢量的匹配方法和基于流的跟踪方法。表1中呈现了来自流行SLAM系统的前端的比较。437虚拟现实智能硬件2019年第5期表1关于前端选择的参考[19]第十八话：一个人[16]第十六话：一个人的世界[20]第二十三届中国国际汽车工业展览会ElasticFusion[17]表示Shi-Tomasi 角点 Shi-Tomasi角点FAST要素边缘点结构线ORB特征+线特征[21]Shi-Tomasi角点密集像素匹配补丁描述符（NCC）补丁描述符（ SSD）ORB描述符关于SE3补丁描述符（ZNCC）ORB和LBD[22]描述符KLT跟踪器[24]关于SE3稀疏/密集稀疏半密集稀疏密集直接 /间接间接间接间接直接间接直接基于描述符/基于流基于描述符的基于流的基于描述符的基于流的基于流的2.1.1基于描述符的匹配方法基于描述符的匹配方法依赖于特征描述符来建立对应关系。因此，这种方法属于稀疏和间接类别。通常使用角点[14，26]和线段[15，20]等表示，因为可靠的描述符确保了可扩展性，并且对照明变化，旋转，缩放和透视失真保持不变。然而，标准的基于矢量的匹配本质上是一种穷举搜索策略，这使得问题的计算成本很高。最近的DBoW2[27]保持了具有有希望的效率的直接索引。由于数十年的研究，基于匹配器的匹配方法实现了有希望的性能，允许结合鲁棒的重定位和环路闭合检测模块，而随机样本一致性（RANSAC）[28]通常用于离群值拒绝。然而，依赖于稀疏特征提取可能导致失败时，运动模糊发生或在重复或不足的情况下。由于其连续性，运动模型，e。例如，在一个实施例中，衰减速度模型[19]、恒定运动模型[14]和恒定旋转模型[20]通常用于现代SLAM系统。运动模型提供重新投影的地图的近似位置。这种时间引导通过减小搜索空间来提高效率和准确性。同时，验证检查评估由预测的相机姿势引导的运动估计的收敛。一旦跟踪丢失，系统就回到全局描述符匹配的标准方法，其中系统鲁棒性被小心地保留。2.1.2基于流的跟踪方法基于流的方法通过结合类似于光流估计的思想来执行跟踪而不是匹配[29]。通过光度误差最小化应用翘曲函数。现有方法之间的主要区别在于运动空间：通常，光流在欧几里得空间中表示[30]，而仿射空间中的局部均匀性[23，31]和李代数中的全局均匀性[2，25]也受到鼓励。从相似性推理的角度来看，通过欧几里德空间或仿射空间中的光流估计建立对应关系属于稀疏间接类别，因为这些稀疏感知的对应关系遵循特征提取特征匹配框架。相比之下，李代数通常表示为半稠密[32，33]或稠密[34，35]方式的直接方法，而没有特定的匹配过程。基于流的跟踪方法更好地揭示了SLAM问题背后的流基础：假设两个连续帧之间的位移很小，亮度变化可以用偏导数方程（PDE）表示。这种基于偏微分方程的制定导致一个增量的计算方法，其中的历史估计时间传播。与基于矢量的匹配相比438ZikeYANetal：基于流的SLAM：基于流的数据处理方法，基于流的跟踪方法是高效和可并行的[2，23]。然而，与具有解析解的基于矢量的匹配方法相比，基于流的跟踪方法遭受类似于光流估计的非凸问题。小运动和亮度恒定性假设在现实中很容易被违反。因此，良好的初始化（运动预测）对于基于流的跟踪方法至关重要，以避免在突然运动和照明变化等情况下陷入局部最小值。2.2闭环检测循环闭合检测的目的是找到与当前帧相比最相似的预先访问过的地方。因此，循环关闭状态用作强制全局一致性的因素，并提供真正的未知环境的拓扑结构[8]。通过查准率-查全率曲线评价了闭环检测系统的性能。在实践中，100%的精确度是先决条件，因为误报会灾难性地破坏系统，更高的召回率表明系统在不断变化的环境中更加强大。对于一个实时系统，闭环检测的计算时间是严格限制的，虽然它是在后端执行。如图3所示，循环闭合检测的基本思想是构建一个存储顺序图像的数据库，以便进行有效查找。图3 Glocker等人的标准环检测示例[36]。首先将观察结果编码成紧凑的形式，然后与数据库进行有效的比较，以进行最相似的图像检索。2.2.1标准外观法对于SLAM问题中的环路检测任务，代表性的FAB-MAP[37]和DBoW 2[27]主导该领域。与流行的SfM方法类似，这些算法利用词袋（BoW）模型将特征描述符空间离散化为分层树结构，即词汇表。然后，每种类型的描述符被分类为词汇树上的一个单词。通过这种树结构的数据库，整个图像序列可以量化和存储的复杂性，允许有效的检索。与特征描述符离散化相反，其他方法利用整个图像信息以下采样形式[38]或随机化蕨类植物[36]进行压缩。我们建议读者参考以前的工作[39]，以全面回顾视觉位置识别（图4）。2.2.2助流法对于基于流的SLAM系统，增量更新是一个显著的特征。单词量化是即时构建和存储的，它保留了环境的时空信息。然而，常用的方法[27，37]需要聚类或分类作为词汇构建的预训练过程。这提出了单词量化可能不准确的问题，因为来自查询框架的单词与预定义的和环境相关的词汇表不一致。因此，凝聚聚类策略被用于在线词汇制定[42-45]，其中词袋模型更适合实时状态。与此同时，时间线索到进一步核实检测结果的时间439虚拟现实智能硬件2019年第5期图4流辅助环路闭合检测：（a）在线生成的视觉词（VW）。图片来自Tsintota et al. [40];（b）基于序列的定位。图像取自SeqSLAM[41]。一致性检查通常用于确定是否应该接受循环闭合候选[27]。此外，CAT-SLAM[40]为更好的频率建模连续轨迹，并采用粒子滤波器为度量相似性和外观相似性分配权重; SeqSLAM[41]利用局部序列进行匹配。这种附加的时间约束显著地减轻了由环境变化引起的感知混叠。3联合姿态和地图恢复给定相关联的观测值，SLAM主要处理由噪声和离群值引起的干扰，并且因此通过估计所有相机姿态x1：k的后验概率和给定观测值z1：k和控制信号u1：k的映射m= {l1，P=1：k，m|z1：k，u1：k，x1（1）如图5（a）所示，状态空间随时间连续增长，这可能导致难以处理的实现。因此，（1）的解决方案被分成四种不同的时间信息利用方法以获得更好的计算效率：基于滤波的方法假设马尔可夫过程以边缘化所有先前的状态并以递归方式更新状态;窗口优化边缘化滑动窗口外的状态以保持恒定的时间复杂度，而局部约束在滑动窗口内被强制执行以获得更好的鲁棒性;基于关键帧的优化图5SLAM问题的图形表示。图片改编自Strasdat et al.[5]的文件。440K- 1ZikeYANetal：基于流的SLAM：基于流的数据处理实时进行关键帧插入和剔除，并简单地丢弃未被选择为关键帧的状态;增量优化利用矩阵理论的进步，通过增量更新信息矩阵来执行全局优化。3.1基于过滤的方法基于滤波器的方法保持即时概率分布，因此也被称为在线SLAM。应用贝叶斯定理来确保预测更新方式[7]：预测：更新：Pxk，m|z1：k-1，u1：k，x1=x∑∈x <P xk|xk-1，uxk-1，m|z1：k-1，u1：k-1，x（二）Pxk，m|z1：k，u1：k，x1zk|xk，mP xk，m|z1：k-1，u1：k，x1（3）从时间k-1到时间k的递归状态转换通过运动模型P xk 来实现|xk-1，ukk≠ 和观测模型P（zk|xk，m）。这种预测更新方式揭示了SLAM问题。开创性的MonoSLAM[18，46]使用6自由度（DoF）姿势和3D特征表示，通过扩展卡尔曼滤波器（EKF）进行状态传播。通过线性化两个模型并假设高斯分布，系统在很长一段时间内实现了实时性能。基于预测更新框架，EKF的其他变体被应用于处理非高斯和非线性情况：基于无迹卡尔曼滤波器的方法[47]使用sigma点传播作为非线性解;基于粒子滤波器的方法[48]放弃高斯假设并以非参数方式操作。虽然基于滤波的方法以优雅的增量和概率方式充分尊重时间信息传播，但由于实际操作而出现问题。如图6所示，一方面，由于SLAM的非线性和非高斯特性，任何形式的近似都不可避免地会给系统带来不一致性[50]，这会导致误差累积，从而慢慢破坏系统。另一方面，过去状态的消除导致矩阵填充，并使地标状态迅速变得完全连接。这个问题使得计算成本相对于地标的数量是二次的[5]，并导致严重的规模限制。图6基于滤波的方法的两个常见问题：（a）导致不一致的线性化（图像取自Engel等人，[25]）;（b）导致矩阵填充的状态消除（图像取自Sibley et al.[49]）。在以前的研究中对不一致问题进行了全面审查[51，52]。Huang等人。[53]通过可观测性分析重新审视了这个问题，并引入了第一估计雅可比（FEJ）EKF。FEJ-EKF通过在相同的线性化点处估计雅可比矩阵，保证了线性化误差状态系统和实际SLAM系统之间的可观测子空间维数相同，从而减轻了估计的过度自信。为了降低复杂性，FastSLAM[54]利用SLAM问题中的条件独立性来获得因子分解形式，其中复杂性显著降低。441I = 2j = 1虚拟现实智能硬件2019年第5期通过分解地标和姿态分布来减少。SLAM社区的一个显著发现是信息矩阵的稀疏结构。因此，采用信息滤波器[55]代替雅可比矩阵。这种见解也被基于优化的SLAM所采用，这将在本文后面讨论。另一个趋势是引入子地图[56]，将环境划分为局部组，从而确保有界的大小。虽然基于过滤的方法在理论上适用于连续和增量SLAM系统，但Strasdat等人详细比较了基于过滤和基于优化的方法，并认为基于优化的方法对现代应用更有益[5]。从那以后，基于优化的方法吸引了大多数研究的注意力。然而，最近的进展显示了巨大的潜力：StructSLAM[15]利用具有新颖表示的强大数据关联，在曼哈顿世界场景中实现稳定和准确的结果; Lenac等人实现了李群，同时保持稀疏信息矩阵，实现了与基于图的优化结果相当的结果[57]。由于最近在参数化、传感器、特征和理论工具方面取得的进展，协方差感知和增量更新框架可能会以更强大和自适应的性能复兴。3.2优化方法与重视时间传播的基于过滤的方法相比，基于优化的方法突出了场景图的空间连接性。由于这些方法保留了整个历史状态空间，因此它们被表示为完整的SLAM[58]或平滑和映射（SAM）[59]，并被公式化为最大后验概率（MAP）问题：{x1：k，m}=argmaxPx1kP xi|xi-1，uimP zj|xij，l（四）通过假设高斯分布，（4）可以转化为最小二乘误差最小化问题，条件分布被视为变量之间强制约束的因子。通过高斯-牛顿迭代或Levenberg-Marquardt算法，通过求解一系列线性函数来达到误差函数的最小值：HΔθ =b（5）Dellaert和Kaess研究了SLAM问题的稀疏性，并引入了开创性的平方根SAM（SAM）[59]方法来实现稀疏线性代数，其中矩阵H被分解以实现有效的求逆。最近，开源库（如g2 o[60]和Ceres求解器[61]）已被广泛使用，它们利用稀疏雅可比结构进行有效的批量优化。一个值得注意的问题仍然存在：保留的状态随着时间的推移不断增长，这可能导致计算爆炸。因此，对于处理整个序列的基于优化的SLAM，主要问题在于处理日益增长的数据，这在信息使用和计算速度之间提出了权衡。3.2.1基于关键帧的批量优化如图5（d）所示，基于关键帧的优化方法选择关键帧和映射点，并简单地丢弃剩余的信息，从而避免冗余并保持最佳的紧凑性。通过适者生存策略，矩阵维数显着降低，以确保大规模的实施，并仔细保持矩阵稀疏。两种代表性方法包括PTAM[19]和ORB-SLAM[14]，它们允许具有有希望的鲁棒性的实时实现。442ZikeYANetal：基于流的SLAM：基于流的数据处理基于关键帧的方法更类似于标准SfM算法，并且在运行中执行图修剪，其中图的大小随时间增长，但速度要低得多。帧选择和线程拆分在基于关键帧的优化方法中起着核心作用。这些操作允许在后端中应用精确但计算上昂贵的光束法平差，而不牺牲实时实现。通过精心设计的实现，ORB-SLAM[14，26]在效率，准确性和鲁棒性之间实现了很好的平衡，并作为现代SLAM算法的基准。3.2.2加窗优化如图5（c）所示，加窗优化在一小组时间连续帧上执行局部优化，其中滑动窗口外的状态被边缘化。它也被称为固定滞后平滑。与基于滤波器的方法相比，滑动窗口的固定大小确保了在线和恒定时间优化的有限复杂度，同时保持更多的历史状态作为局部约束。此外，边缘化确保了没有信息丢失的时间传播。如图7所示，窗口优化[62]可以被认为是计算昂贵的批处理优化和基于不太准确的过滤的解决方案之间的折衷。然而，这两种方法都存在类似的问题如前所述，边缘化操作带来了不一致和填补问题。填充可能不会像基于过滤的方法那样使矩阵完全稠密。尽管如此，矩阵的稀疏性肯定会受到影响，这将窗口限制为用于实时实现的小尺寸。与基于滤波的方法类似，线性化点的选择是解决不一致问题的关键。通常，选择先验[25，63]或最佳[64]线性化点以确保在线性化系统和实际系统。3.2.3增量优化图7每种方法的复杂性分析图片来自Sibley et al.49.增量优化利用SLAM问题的增量性质来减轻不必要的计算。由于动态图结构，新的观察结果只具有局部效应，而图的大部分保持不变。从这个角度来看，可以重用预先计算的组件，以仅更新受新度量影响的条目。由于SLAM努力压缩信息以在效率和准确性之间进行权衡，因此由增量优化引起的减少的计算允许全局优化更大的参数空间，其中可以采用更长的序列、更多的映射点和附加变量以获得更好的鲁棒性和全局准确性。iSAM[65]的开创性工作利用增量QR因子分解进行有效的非线性优化。如图8所示，对角线下的新条目通过Givens旋转被置零，并且矩阵的大部分内容保持不变。为了处理填充和非线性问题，变量重新排序和重新线性化以批处理模式周期性地实现，其中稀疏性被小心地保持。AprilSAM[66]通过自适应地在增量更新和批量更新之间进行选择，更进一步。Cholesky因子分解取代了之前的QR因子分解，以减少443虚拟现实智能硬件2019年第5期非零分量然而，这些方法仍然需要定期批量更新。相比之下，iSAM 2[67]引入了增量变量重新排序和流体重新线性化技术。因子图被转移到贝叶斯树，这确保了廉价的推理以及递归变量重新排序。跟踪线性化点的有效性以通知必要的重新线性化。这些方法背后的深刻见解是，信息是向上传播到根的。当新的观测值进入时，新的因子集团下面的子树不受影响。与此相反，SLAM++[68]采用增量协方差恢复法进行预测，提供信息置信度反馈。置信度通过在线图修剪来指导信息和连接因此，消除冗余以确保效率和可扩展性。4基于学习的方法图8 iSAM中勘探任务的信息矩阵更新过程说明[65]。未更改的条目用浅紫色表示，更改的条目用红色表示。深度神经网络最近在计算机视觉社区中越来越受欢迎，表现出卓越的性能。然而，SLAM问题比单个估计问题更系统化。故障安全机制和实时实现的要求使得SLAM问题难以以完全端到端的学习方式设计。在本节中，我们主要将现有的基于学习的方法分为两类：第一类遵循传统的SLAM流水线，利用相关子任务中学习技术的进步来提高SLAM系统的性能;第二种类型以端到端的方式将SLAM问题公式化为回归问题，其中利用神经网络来直接表示SLAM问题的生成模型。4.1传统框架深度学习通常被视为解决视觉问题的强大感知工具。它通常是一种数据驱动的技术，能够从大量数据中获取高级表示[69，70]。与几何计算不同，几何计算是用数学方法来表达问题，神经网络直接从数据中学习生成模型。数据压缩的能力非常适合SLAM问题。现有的方法利用单个原始图像的表达表示与学习技术来增强传统SLAM框架内的某些模块的性能。属于这一类别的方法通常采用学习技术进行数据后处理。期望网络输出与输入的单个图像一起提供更多信息。传统的SLAM框架继承了流基础，而神经网络学习一个固定的生成模型，不涉及时间信息。4.1.1用于SLAM的对于几何计算，利用特征的不变性来实现鲁棒的数据关联。然而，在这方面，444ZikeYANetal：基于流的SLAM：基于流的数据处理对手工特征提取的依赖使得稀疏SLAM在无纹理场景下或当发生运动模糊时易受攻击。寻找一种在不同场景下保持不变、独特、分布良好和足够的特征表示是一个主要问题。GCNv2[72]为3D投影几何设计了一个对应网络。通过度量学习技术训练深度特征以学习显式关键点检测器和描述符。这种轻质结构可以自适应地并入现代ORB-SLAM[26]系统中，并具有容易增强的性能。这表明不变特征学习[73- 76]可以有益于SLAM问题。相比之下，DeTone和Malisiewicz[71]将SLAM问题简化为点跟踪任务，如图9所示。该流水线类似于基于特征匹配的视觉里程计的流水线，因为在两个视图之间估计姿势而不构建全局地图。然而，它引入了深度SLAM可以被公式化为遵循传统管道的一系列端到端网络的可能性。图9深度点跟踪流水线。训练MagicPoint网络以从图像对中提取特征点，并且训练MagicWarp网络以从提取的特征点估计单应性矩阵。图像取自DeTone和Malisiewicz[71]。在所有情况下保持不变性质是不平凡的。最近的趋势是为特定任务找到合适的特征：Jayaraman等人。[77]和Agrawal等人。[78]使用类似的方法来学习专门用于自我中心任务的特征表示; Schmidt和Roth[79]引入了旋转感知描述符。特定任务的不变性被称为等变属性[80]。虽然上述方法专注于识别任务，但等方差特征学习研究特征表示变化与输入图像变换之间的联系，从而更好地表征特定任务的不变性。4.1.2SLAM的高级提示由卷积操作引起的大感受野允许使用学习技术进行高级场景理解[81]。最近的趋势表明，这种高层次的信息在一个单一的图像可以处理的问题，几何计算遭受。一个值得注意的趋势是语义线索的纳入。基于几何的SLAM仅利用光度和几何信息来约束系统，而语义信息包含类别级别的强先验。语义标签可以被视为一种不变属性，用于正则化优化，从而导致更可靠的数据关联[82]，即使在复杂的动态场景中[83]。相比之下，密集映射也受益于额外的语义信息。保持密集的语义图可以更好地理解场景，这对智能机器人交互有意义[84];形状先验有助于重建参数化的细粒度对象表面[85，86]。相反，语义推理也可以受益于SLAM建立的时间相关性[87]。语义推理的应用完全连接了高度感知系统的识别，跟踪和建模方面的进步。445虚拟现实智能硬件2019年第5期存在关于非平凡的单目深度估计的另一趋势。这一任务由于其不适定性而具有内在的模糊性。尽管如此，在引入端到端网络之后[88]，深度单目深度估计解决了单目SLAM的挑战性情况，例如，纯旋转[89]和比例模糊[90]，并允许基于现代稀疏SLAM系统的实时密集映射[91]。CodeSLAM[92]是一种鼓舞人心的方法。通过类似自动编码器的训练获得紧凑形式的深度图。编码的深度确保有效的优化和完整的场景几何，表现出优于现有的基于几何的SLAM系统。4.2基于学习的端到端SLAMSLAM同时执行姿态估计和地图（显式或隐式）恢复。一些方法将SLAM视为端到端姿态回归问题。属于这一类别的方法都不能被视为深度SLAM系统;相反，它们只是迈向深度SLAM的步骤。绝对姿态回归将训练过程视为全局地图建立，但姿态估计是在已知环境中进行的。相对姿态回归不建立明确的全球地图;因此，它仅仅是一个视觉里程计任务，因为全球一致性很难实现。4.2.1标准位姿回归绝对姿态回归是一个视觉定位任务，与SLAM的重定位和环闭合检测子问题高度相关。该任务的目的是在预先训练的环境中回归给定一个图像的绝对相机姿态。一般的流水线类似于传统SLAM框架中的重定位任务：数据首先被编码为深度特征，然后存储在嵌入中。主要的见解是训练网络，而不是构建显式映射，从而保持恒定的大小，而不会受到线性增长问题的影响（表2）。PoseNet[109]首先应用卷积神经网络（CNN）进行6-DoF相机定位，然后是一系列具有不确定性推理[114]和几何约束[115]的扩展。Walch等人更进一步，使用LSTM进行特征选择以进行降维[116]。然而，如图10a所示，Sattle等人最近提出了一个有趣的理论。[112].他们认为，目前的方法可能涉及图像检索，但不准确的姿态估计。因此，需要更多的研究来进一步探索这项任务。图10（a）来自PoseNet[109]（蓝色），MapNet[110]（紫色）和Active Search[111]（青色）的估计绝对姿态的可视化。训练和测试轨迹以红色和绿色显示。图片来自Sattler et al. [112]. (b)无监督相对姿态回归方法[113]更关注视图之间的几何约束。446ZikeYANetal：基于流的SLAM：基于流的数据处理表2代表性相对姿态回归方法监督参考输入数据架构光流的使用新型损失函数无监督SfMLEarner[93]图像三元组CNN平均光流幅值翘曲损失[94]第94话图像对CNN-特征重构损失[95]第九十五话图像对CNN-用于监督的Vid2Depth[96]图像对CNN-3D ICP丢失[第97话]图像对CNN刚性流和剩余流几何一致性检查[98]第98话图像对CNN-沙博尼耶罚分GANVO[99]图像三元组RNN+GAN-GAN损耗监督[101]第103届中国国际汽车工业展览会[104]第105届中国国际汽车工业展览会L-VO[107]VOMachine[108]光流视频视频图像对图像对视频图像对视频CNNRNNRNNCNNRNNCNNRNN光流到姿势FlowNet[102]编码器光流作为监督输出光流作为辅助任务FlowNet编码器2.5D场景流到姿势FlowNet编码器均方根损失均方损失协方差合并-不确定性损失单独的旋转和平移损失二元高斯损失全局和局部损失注：与无监督方法相比，有监督方法有一个明显的趋势，即利用时间信息相比之下，相对姿态回归处理至少两个连续图像的视觉里程计任务。代表性的方法主要集中于设计损失函数，以无监督的方式联合约束深度和姿态估计，如图10b所示。常用的损失包括扭曲损失[93]，3D可微分迭代最近点（ICP）损失[96]，空间和时间一致性检查[95]，特征重建损失[94]和具有Charbonnier罚函数的修改的扭曲损失[98]。GeoNet[97]联合学习深度，相机姿势和光流，表现出在动态场景中应用的潜力。基于几何的方法的约束通常被采用作为自我监督。然而，视觉里程计的连续性并没有被明确揭示。4.2.1基于流的姿态回归与标准姿态回归网络相比，一些方法实现了SLAM问题的连续性，并利用了时间线索。对于绝对姿态回归问题，出现了一个问题：由于相似的纹理或外观变化，单个图像在视觉上是模糊的[39]。利用可用的顺序数据，可以强制执行时间约束以获得更好的鲁棒性：VidLoc[117]利用双向LSTM来获得时空特征，而MapNet[110]通过姿势图优化使用相对姿势约束强制执行时间平滑。时间约束的使用增加了准确性，类似于第2.2节中描述的进步。关于相对姿态回归问题，几种监督方法考虑了视觉里程计任务中固有的连续性质，如表2所示。姿势可以直接从2.5D场景流回归[107]，因为估计的流明确地建立了时间对应。由于计算昂贵的光流估计，FlowNet[102]的编码器用于时空特征提取[101，103，106，108]。这些方法共享类似的视频序列输入和递归神经网络（RNN）架构用于时间信息存储，同时关注不同的视角，例如不确定性推理[103]和特征选择[106]。相比之下，DeMoN[104]和DeepTAM[105]更注重更好的深度恢复。受益于运动立体声约束，447虚拟现实智能硬件2019年第5期这两种方法的深度估计结果在视觉上是吸引人的并且在定量上是有希望的。最近，Xue等人遵循传统的SLAM流水线来利用时间信息进行鲁棒的相对姿态估计[108]。他们引入了一个用于局部地图构建的内存模块和一个用于全局姿态优化的优化模块。受益于所选择的时间信息传播，该方法实现了顶级性能。5最近的趋势和未决问题到目前为止，我们描述了最先进的SLAM算法如何从流基础中受益。在本节中，我们主要讨论SLAM社区的最新趋势和相关领域的其他前沿。此外，我们提出了我们对现有挑战和遗留问题的看法，探索了值得进一步研究的主题，以利用时间连续属性。5.1传感器融合如前所述，良好的运动预测和良好的特征对应对于SLAM问题是必不可少的。视觉信息是模糊的。SLAM的一个关键特性是多传感器融合的可用性[8]。其他传感器的结合，例如，惯性传感器和事件摄像机，可以弥补不足，几乎没有视觉观察。此外，高帧速率确保了良好的线性特性，并且最适合于基于流的SLAM问题。5.1.1惯性传感器视觉惯性融合并不是一个新的课题，因为它已经研究了很长时间[118]。然而，由于低成本、便携性和可靠的短期运动约束，该领域最近吸引了研究关注，其方便地应用于无人驾驶飞行器和手持移动设备。视觉提示和惯性信号是互补的：惯性传感器提供更准确的短期约束，确保可靠的状态传播;视觉提示允许长期校正，从而消除误差积累。值得注意的是，在具有挑战性的情况下，惯性辅助视觉SLAM比传统SLAM更鲁棒，例如，照明变化、低纹理、运动模糊和突然运动。根据实验结果，惯性传感器的参与显着提高了极大地依赖于时间传播的方法的性能。我们建议读者参考以前的工作[13]进行全面评估。Usenko等人[119]提出了将惯性测量单元（IMU）与立体声LSD-SLAM[16]集成以增强性能。在VI-DSO中观察到类似的趋势[120] 有直接的前端。值得注意的是，基于滤波器的VIO方法[121]实现了与基于优化的方法[122]相当的结果。这主要是由于IMU驱动的状态传播产生用于姿势预测的精确运动模型。除了这个流程基础之外，我们还发现了一个有趣的案例：尽管VIORB[123]解决了具有挑战性的V2_03_difficult序列，但与原始ORB[14]相比，性能并不突出。这验证了我们之前的论点，即ORB-SLAM更像是一种在线SfM方法，而不是基于流的SLAM方法。精心设计的系统在大多数情况下确保了全局最优解。尽管如此，惯性传感器提高了鲁棒性并提供了绝对标度。5.1.2活动摄像机事件摄像机捕捉一个异步序列的强度变化与精确的时间戳。这种类型的传感器以其低成本和延迟以及宽动态范围而闻名448ZikeYANetal：基于流的SLAM：基于流的数据处理系统适用于照明和运动方面的极端条件。稀疏和二进制事件信号避免了冗余数据，并允许以低带宽和存储器成本进行非常有效的计算。此外，事件主要发生在图像边缘周围[124]，并且具有高度的运动感知。这些特性使事件摄像机成为当前视觉SLAM系统的完美补充。最近的方法表明，半密集SLAM系统可以通过单事件相机[127，128]或通过结合传统的视觉提示[124，129]来实现。虽然事件摄像机的输出与传统视觉传感器的输出有很大不同，这可能会引发范式转变[8]，但最近的研究表明，受益于高时间分辨率和显著特征，长期特征跟踪[126]，如图11所示，以及序列-基于循环检测[130] 可以执行。所以视觉SLAM社区的最佳传感器仍有待确定。5.2连续时间弹道估计图11 DAVIS产生的事件的长期特征跟踪[125]。图片来自Kueng et al.[126].考虑到运动的连续性，出现了一系列的连续时间轨迹建模方法。连续时间建模允许融合异步传感器，例如惯性传感器[131]或事件相机[132]，以及补偿运动失真的观察结果，例如使用扫描激光测距仪[133]或滚动快门相机[134]获得的观察结果。由于高阶可微表示本质上更具表达性，现有的连续时间轨迹估计方法主要利用时间基函数或非参数高斯过程（GP）表示。5.2.1时间基函数时间基函数的使用通常以批量样条拟合方式执行[135]，因为李代数中的样条与扭矩最小轨迹紧密匹配[136]。与离散时间表示相比，它产生了一个平滑的轨迹，需要更新的状态变量更少。基函数表示的准确性在很大程度上取决于模型选择[137]。关于噪声模型[131]和时间密度[138]的其他问题也得到了解决。虽然它涉及离散时间SLAM方法遇到的实际问题，但尚未给出选择最佳结和基的公平比较。5.2.2高斯过程使用GP建模保持了轨迹分布，因此考虑了不确定性[137]。虽然标准内核使得问题的计算成本很高，但Barfoot等人[139，140]表明，应用线性或非线性时变随机微分方程可以产生精确的稀疏矩阵，从而产生有效的解决方案。从这个角度来看，SLAM问题的稀疏性质以及因子图结构在GP回归中得以保持。这个框架被扩展到增量解[141]和李群参数化[142]。5.3开放题作为一个任务驱动的问题，现代SLAM系统在实际应用中的挑战性场景是449虚拟现实智能硬件2019年第5期被广泛研究，如照明变化，低纹理，和运动异常。在这里，我们强调几个基本方面，我们相信更好地利用时间连续性可能会导致增强的性能。5.3.1可跟踪和结构特征如前所述，由于传感器噪声引起的模糊数据关联是SLAM问题的最关键问题之一，并且特征的可跟踪性显著影响相应算法的性能。现有的逐点特征和描述符是繁琐的，并且丢弃了结构连接。在真实场景中，可以稳定地观察到诸如线和平面的结构特征，并且连续运动导致稳定的特征变化。因此，这些结构特征与其他高级特征的时间可跟踪性值得进一步研究。5.3.2可预测运动模型连续属性使SLAM成为一个完全可预测的问题，其中先验信息可以提供可靠的指导。然而，预测能力没有得到很好的研究。对于数据关联，假设运动模型对于粗略初始化是恒定的;连续时间轨迹建模近似于平滑姿态轨迹。然而，现有的方法更多地关注于用于参数空间缩减或同步的估计轨迹的参数化，而不是预测下一个移动的能力。视觉-惯性融合的最新进展表明，可靠的运动预测（惯性信号的预积分）可以确保收敛，并提高精度和效率。从这个角度来看，合理

下载后可阅读完整内容，剩余1页未读，立即下载