视觉SLAM算法进展：在AR、地图与导航中的应用探索

PDF格式 | 2.03MB | 更新于2025-01-16 | 23 浏览量 | 举报

"视觉SLAM算法及其在AR、地图、定位和寻路中的应用☆ 视觉SLAM（Simultaneous Localization and Mapping，即同时定位与地图构建）算法是计算机视觉领域的一个关键技术，它利用摄像头捕获的图像数据来估计设备在未知环境中的位置，并重建周围环境的结构。在增强现实（AR）中，vSLAM扮演着至关重要的角色，通过精确的定位和环境映射，将虚拟元素无缝融合到真实世界中，为用户创造沉浸式的互动体验。传统的SLAM系统常常依赖于GPS或激光雷达（LIDAR）等传感器，但视觉SLAM的优势在于相机的广泛可用性、成本效益以及丰富的环境信息获取能力。例如，颜色、纹理和外观等信息对于环境理解和场景重建至关重要。随着技术的发展，视觉SLAM已经应用于各种设备，包括人形机器人、无人机、自动驾驶汽车、月球车、水下机器人以及医疗设备如内窥镜。视觉SLAM主要分为三类：单目、立体和RGB-D。单目SLAM仅依赖单个摄像头，而立体SLAM利用两台或更多摄像头来实现三维空间的定位。RGB-D SLAM则结合了彩色图像和深度信息，提供更为准确的三维重建。经典的vSLAM算法包括MonoSLAM、PTAM、PTAM-Dense、DTAM和ORB-SLAM等，但它们大多针对静态环境设计，对动态环境的适应性仍有待提高。动态环境中的移动物体对SLAM系统的性能构成挑战，因为它们可能导致跟踪错误和定位不准。因此，研究者们一直在努力改进SLAM算法，使其能更好地处理动态场景中的运动物体。这涉及到目标检测、运动分割、建图策略等复杂问题的解决，以确保系统鲁棒性和精度。在AR应用中，vSLAM不仅用于定位和映射，还涉及环境理解，例如识别地标、追踪用户视线和手势，以及在实时交互中保持虚拟对象的稳定。在地图制作中，SLAM可以创建高精度的室内地图，这对于导航和寻路系统至关重要，特别是在GPS信号无法覆盖的地方，如大型建筑物内部或地下区域。近年来，随着深度学习技术的发展，视觉SLAM也逐渐融入了机器学习的元素，如使用神经网络进行特征提取和建图优化，以提高性能。同时，硬件的进步，如嵌入式计算平台和高性能摄像头，也为视觉SLAM的实时处理和高效运行提供了更强的支撑。视觉SLAM算法在AR、地图、定位和寻路等领域展现出广阔的应用前景，但同时也面临着动态环境适应、计算效率和实时性等技术挑战。未来的研究将继续聚焦于这些问题的解决，以推动视觉SLAM技术的进一步发展和广泛应用。"

C. Theodorou

等人

阵列

（

2022

）

100222

因为PTAM、DTAM和LSD-SLAM可用于寻路。在可穿戴。

RNA [32]今天，有多种SLAM算法被实现，例如Saez提出的用于6-

DOF姿态估计（PE）的算法。

[33]通过使用RNA相机。视觉里程计（VO）算法[34]和基于熵的成本函

数用于确定相机的自运动（两个相机视图之间的姿态变化）。针对基于

立体视觉的可穿戴RNA位姿估计问题，提出了一种度量拓扑SLAM方法

（SLAM）。当从立体相机图像中提取特征并逐步跟踪时，该区域的局

部拓扑图和地图上的区域之间的全局拓扑关系被更新。立体相机不能提

供关于场景的完整深度信息，尽管这些RNA不能检测物体。可穿戴RNA

[35]依赖于RGB相机深度数据，因为它能够在特征稀疏的环境中提供更

可靠的深度数据。

为了

估计摄像机的姿态，使用了一种由于PL-SLAM

[37]，可以实时估计相机姿态，它将跟踪和映射任务分离到两个单独的

线程中，并在双核计算机上处理它们。最近的SLAM方法对齐整个图

像，而不是匹配特征。然而，这些类型的方法通常不如用于估计姿态的

基于特征的SLAM方法准确。

SLAM

算法

一般来说，Visual SLAM算法有三个基本模块：初始化[38]，跟踪和

映射[39]。初始化包括定义要映射的环境的全局坐标系，以及其部分元

素的重建，其将用作跟踪和映射的开始的参考。这一步对于一些视觉

SLAM应用来说可能是相当具有挑战性的。本文的下一部分分为三类：

基于单眼的、立体聚焦的以及单眼和立体聚焦的vSLAM算法。详细地，

每种算法都描述了它的优点和缺点。

3.1.

基于单眼

单目SLAM是一种类型的SLAM，其专门依赖于由移动相机捕获的单

目图像序列以便执行映射、跟踪和寻路。单目图像序列通常是一组彼此

相似的图像

PTAM

。

手持相机可以在AR环境中通过并行跟踪和映射（PTAM）

在并行线程中，跟踪

和映射是分开处理的。第一个线程尝试跟踪手持设备的不稳定运动，而

另一方面，第二种方法基于先前的帧生成点特征的3D地图。制作了一张

详细的地图，上面有数千个地标。在高帧速率下清晰可见，这种方法

在准确性和鲁棒性方面超越了基于模型的系统。在映射过程中，有两个

不同的阶段[9]。第一阶段涉及用立体技术创建初始地图。在跟踪系统将

关键帧（地图点）添加到地图后，地图绘制线程会细化并扩展图11。

二、

由手持摄像机捕获的视频图像用于

保持

摄像机相对于所构建的地图

的位置的实时估计

。

在估计视频帧之后，可以在其上增强图形。为了计

算最终姿态，系统在每帧中使用相同的过程。运动模型用于在相机每次

检测到新帧时从新帧生成姿态估计

。

帧的先前姿态

的

估计基于图像中的

粗尺度特征的检测来计算最终姿态估计。根据这些粗略匹配，更新相机

姿态，并估计整体姿态

PTAM是有利的，因为它将跟踪和映射分成两个单独的任务并并行处

理它们，从而允许通常与实时操作无关的批优化技术。该地图仅用作跟

踪摄像机的工具，这是PTAM的限制。虚拟实体应该能够与地图的几何

图形进行交互，所以它不应该是静态的

。

PTAM

也缺乏自动遮挡能力，这

意味着它不能在没有外界帮助的情况下跟踪对象.SLAM的另一个局限性

是它不是设计用于闭合大环路的。M-估计是一类广义极值估计，其中目

标函数是样本平均值。非线性最小二乘法和极大似然估计都是M-估计的

特例。跟踪器的M估计器不考虑特征图的不确定性，但这不影响AR应

用。

MonoSLAM

。

移动机器人中第一个成功的 SLAM算法是单目SLAM

（MonoSLAM）。通过在未知环境中沿着单目相机的轨迹快速移动，可

以将自然地标重建为3D地图，并且可以使用稀疏但持久的点来绘制城市

环境。在这种方法中，自然地标的地图是在概率框架中从稀疏但持久的

数据集在线创建的。MonoSLAM的一个基本方面是基于特征的地图，它

是相机图图3显示了E X如何趋向卡尔曼。

过滤器在系统启动时持续更新地图，并持续到操作完成。摄像机的

运动和

Fig. 1.

Visual SLAM

算法的分类。

剩余13页未读，继续阅读

cpongm

粉丝: 6

视觉SLAM算法进展：在AR、地图与导航中的应用探索

视觉SLAM算法：AR应用、挑战与技术进展

视觉SLAM算法在移动机器人中的研究与应用

视觉SLAM算法解析：从基础到应用

本人自己在研究生期间写的一篇小论文，将视觉SLAM算法应用到无人机的控制中，利用视觉SLAM为无人机提供环境感知能力。

论文研究-单目视觉SLAM算法研究 .pdf

视觉SLAM技术在机器人定位与地图构建中的研究

视觉SLAM在移动机器人目标定位中的应用

移动机器人双目视觉SLAM算法研究

GraphSLAM算法在大规模地图构建中的应用

单目视觉SLAM算法研究进展及关键问题

最新资源