单目视觉SLAM技术在增强现实中的应用与进展

需积分: 16 119 浏览量更新于2024-07-17 收藏 845KB PDF 举报

"这篇文章是关于基于单目视觉的同时定位与地图构建(Simultaneous Localization and Mapping, SLAM)方法的综述，主要针对AR技术中的关键基础技术进行深入探讨。文章作者介绍了SLAM的基本原理，并对几种代表性单目视觉SLAM方法进行了详细分析和比较，同时讨论了该领域的研究热点和发展趋势。" SLAM技术是机器人和计算机视觉领域的一个核心问题，它允许机器人在未知环境中自我定位并构建环境的地图。在增强现实（AR）中，SLAM的重要性不言而喻，因为它确保了虚拟对象与真实世界的准确对齐，增强了用户体验。文章首先概述了基于视觉的SLAM基本原理，这通常涉及以下几个步骤：特征检测与匹配、摄像机姿态估计和地图构建。特征检测用于从图像中提取稳定且可识别的点，如SIFT或ORB特征；匹配这些特征使得不同帧之间的关系得以建立；摄像机姿态估计通过解决特征匹配后的几何问题来确定相机的运动；地图构建则将这些信息整合到一个全局模型中，形成环境的3D表示。接下来，文章深入探讨了几种代表性的单目视觉SLAM方法，例如ORB-SLAM、DVO SLAM和PTAM。ORB-SLAM以其鲁棒性和效率而著名，它利用ORB特征进行匹配，结合重定位和循环闭合检测以防止漂移。DVO SLAM专注于实时的运动估计，通过直接线性时间平滑(DLT)最小化像素级光度误差来优化摄像机轨迹。PTAM（Parallel Tracking and Mapping）则是将追踪和映射两个任务分开处理，实现了高精度的同步定位与建图。文章还讨论了近年来的研究热点，如深度学习在特征提取和视觉惯性融合方面的应用，以及SLAM在多传感器集成、大规模环境建图和实时性能优化等方面的发展。随着硬件的进步和算法的创新，SLAM技术正朝着更加精确、鲁棒和实用的方向发展。最后，作者对SLAM未来的发展做了总结和展望，指出持续的挑战包括如何提高在动态和光照变化环境下的鲁棒性、降低计算复杂度以适应资源有限的设备，以及实现更加精确的全局定位和重定位能力。这些挑战为未来的SLAM研究提供了广阔的探索空间。这篇综述为读者提供了一个全面了解单目视觉SLAM技术的窗口，对于理解其原理、方法以及在AR中的应用具有重要的参考价值。

第 6 期刘浩敏, 等: 基于单目视觉的同时定位与地图构建方法综述 857

可利用线性方程的稀疏结构高效求解.

由于 V-SLAM 需要进行图像特征的匹配, 因

此其稳定性严重依赖于场景特征的丰富程度. 例

如, 相机拍摄一面纯色的白墙, 那么仅从图像无法

恢复出相机的运动. 加入其他传感器信息能很大

程度地解决这一问题. 目前最常用的是在 V-S LAM 中

结合 IMU 数据(加速度、角速度). 这样的 SLAM 称

为 VIN(visual-aided inertial navigation)或 VI-SLAM

(visual-inertial SLAM). 将相邻 2 帧

(, )



间的所有

IMU 数据标记为集合



{}

zz

, VI-SLAM 方

法

[11-13]

一般求解优化如下目标函数

argmin ( , )

( , )

ij ij

ii i

fCZ C























(5)

与目标函数(4)相比, VI-SLAM 引入了一个运动方

程, 其中

(,)

CZ 为

作用于

C 后的运动参数,



为运动方程的协方差矩阵. 常见的运动方程有

连续时间系统(Continuous Time System)

[14]

、预积分

(Preintegration)方程

[15]

等. 通常, VI-SLAM 需要求

解每一时刻的运动速度

v 和 IMU 数据的偏移量

b ,

即

(,,,)

iiiii

C  Rpvb.

类似的原理同样可应用于其他传感器数据,

如引入GPS数据

p , 只需在能量函数中再引入一项

argmin ( , )

( , )

ij ij

ii i i i

fCZ C























(6)

这里假设 GPS 观测值符合高斯分布

~(, )

iii

Npp Λ .

2 代表性单目 V-SLAM 系统

目前, 国际上主流的 V-SLAM 方法大致可以

分为 3 类: 基于滤波器、基于关键帧 BA 和基于直

接跟踪的 V-SLAM. 本节通过几个代表性的单目

V-SLAM 系统介绍这些方法, 并分析其优劣.

2.1 基于滤波器的 V-SLAM

基于滤波器的 V-SLAM 的基本思想如下: 将

每一时刻

t 的系统状态用一个高斯概率模型表达,

~(,)

ttt

NxxP,

x 为当前时刻系统状态估计值,

P 为该估计值误差的协方差矩阵. 系统状态由一

个滤波器不断更新. 不同的状态设计和滤波方式

衍生出不同的SLAM系统. 本节介绍 2 款基于滤波

器的 SLAM 系统 MonoSLAM

[16]

和 MSCKF

[17]

MonoSLAM 是由 Davison 等发明的第一个成

功基于单目摄像头的纯视觉 SLAM 系统. MonoSLAM

的状态

x 由 t 时刻的相机运动参数

C 和所有三维

点位置

1 n



X 构成, 每一时刻的相机方位均带有

一个概率偏差(如图 2a 所示); 同样, 每个三维点位

置也带有一个概率偏差, 可以用一个三维椭球表

示, 椭球中心为估计值, 椭球体积表明不确定程度

(如图 2b 所示); 不同场景点之间, 以及场景点和

C 之间均有概率关联. 在此概率模型下, 场景点

投影至图像的形状为一个投影概率椭圆(如图 2c

a. 相机运动模型

b. 场景点概率分布

c. 主动式特征匹配

图 2 MonoSLAM 的相机运动模型和三维点跟踪

[16]

剩余14页未读，继续阅读

huminer

粉丝: 0
资源: 10

单目视觉SLAM技术在增强现实中的应用与进展

复杂环境下的视觉同时定位与地图构建.pdf

计算机视觉单目测距原理实现

基于单目视觉的目标识别与定位研究.pdf

基于slam的三维重建_实时三维重建算法的实现--基于Kinect与单目视觉SLAM的三维重建...

基于单目视觉的深度估计方法

基于单目视觉的三维目标检测

基于单目视觉的slam，开源的框架有哪些

请介绍一种基于单目视觉的室内移动机器人天花板定位方法，并说明如何通过这种方法进行运动估计。

深度学习综述.pdf

单目视觉定位 python

最新资源