动态场景下融合语义的半直接法视觉里程计

需积分: 50 2 下载量 69 浏览量 更新于2024-08-13 收藏 1.15MB PDF 举报
"本文提出了一种适用于动态场景的融合语义的半直接法视觉里程计,旨在解决传统视觉里程计在动态环境中的跟踪问题。该方法由语义分割、位姿跟踪和地图管理三个核心部分构成,利用深度学习的语义分割网络Mask R-CNN进行图像处理,结合语义信息过滤动态特征,通过静态特征进行帧间对齐和匹配实现准确的位姿跟踪。此外,还采用光束平差算法优化局部地图的位姿和3D点。实验结果显示,该方法在TUM RGB-D动态序列集上相比于ORB-SLAM2和OpenVSLAM,跟踪误差显著降低,证明了其在动态环境中的优越性能。" 正文: 在现代机器人和自动驾驶领域,视觉里程计(Visual Odometry, VO)是计算机器人相对于起点位姿的重要技术,它通过连续图像序列估计运动。然而,传统VO方法在处理动态环境时,由于动态物体的存在,往往导致跟踪失效和定位精度下降。为了应对这一挑战,本文提出的“动态场景下结合语义的半直接法视觉里程计”引入了语义信息,提高了在动态环境中的跟踪性能。 1. 语义分割 本方法首先利用深度学习模型Mask R-CNN对每一帧图像进行语义分割,生成语义分割二值图。Mask R-CNN是一种高效的实例分割模型,能同时进行物体检测和像素级语义分割。通过语义分割,可以识别出图像中的静态背景和动态物体,从而过滤掉可能引起跟踪错误的动态特征。 2. 位姿跟踪 在获取语义分割信息后,系统利用静态部分的特征进行帧间对齐和特征匹配。这一步骤避免了动态物体对特征匹配的干扰,提升了匹配的准确性,从而实现更稳定的位姿估计。这种半直接法结合了直接法(基于像素级亮度变化)和间接法(基于特征匹配)的优点,既考虑了全局信息,又注重局部细节。 3. 地图管理 地图管理包括关键帧选择和3D点云更新。关键帧的选择策略有助于保持地图内存的合理使用,同时确保足够的重叠区域以便于回环检测。3D点的深度更新和光束平差算法的应用则进一步优化了局部地图的位姿和3D点,增强了定位的鲁棒性。 实验部分,研究人员在TUM RGB-D的动态序列集上对比了所提方法与ORB-SLAM2和OpenVSLAM的表现。实验结果显示,提出的融合语义的半直接法VO在跟踪误差上有显著降低,分别减少了68%和72%,这表明了该方法在处理动态场景时的优越性能。 本文的工作为动态环境下的视觉里程计提供了一个有效解决方案,通过结合深度学习的语义分割技术和半直接法,实现了更准确的位姿估计。这种方法对于机器人导航、自动驾驶以及增强现实等领域具有重要的应用价值。未来的研究可能会进一步探索如何在更大规模和更复杂的动态环境中提高视觉里程计的稳定性和精度。