利用语义信息提升长期视觉定位的准确性和鲁棒性 - CSDN文库

92 浏览量更新于2024-06-19 收藏 1.91MB PDF 举报

"长期视觉定位的语义一致性评分方法及其在本地化管道中的应用" 本文主要探讨了在视觉定位领域中，如何应对由于环境变化导致的外观差异带来的挑战。作者提出了一个利用语义信息来评价图像对应性的新方法，旨在提高在长期视觉定位中的准确性。传统的基于特征的方法在面对一天中不同时间、季节变换或环境改变时，由于大量错误匹配，可能表现不佳。而文章中的新方法利用查询图像和场景的语义信息，对匹配的对应性进行评分，错误的对应通常会得到较低的语义一致性得分，而正确的对应则得到较高的得分。该方法的具体实施是将语义一致性评分整合到标准的定位管道中。首先，通过局部特征提取从查询图像和3D场景模型中建立2D-3D匹配。接着，应用提出的语义一致性评分来筛选这些匹配，减少错误匹配的影响。通过在加权RANSAC框架内使用这些评分，可以更有效地估计查询图像的相机姿态，并进一步优化结果。这种方法不仅提高了定位性能，而且在两个具有挑战性的长期本地化基准上表现出了显著的改进。视觉定位在多种实际应用中至关重要，如运动恢复结构(SfM)、增强现实、机器人导航，特别是自动驾驶车辆的视觉导航。尽管基于学习的方法已取得进展，但在处理大型场景或保持与传统特征方法相当的精度方面仍面临挑战。因此，基于特征的方法仍然是当前的主流技术。作者指出，传统的基于特征的视觉定位方法在查询图像与数据库图像条件相似时效果良好，但在条件变化较大时会遇到困难。他们的新方法通过引入语义一致性评分，解决了这一问题，增强了系统在各种环境条件下的鲁棒性。这项工作为长期视觉定位提供了一个有效的解决方案，它利用语义信息来增强定位的准确性，特别是在外观变化显著的情况下。这为未来的视觉定位研究开辟了新的方向，强调了语义信息在解决定位难题中的关键作用。

4

C. Toft等

然后用于估计相机姿态。与图像检索方法相比，基于结构的方法

倾向于提供更准确的相机姿势[40]。然而，有必要找到足够的正确

匹配，以不仅估计姿态，而且验证姿态确实是正确的，例如，通

过Inlier计数。如图2和[37]，当查询图像在与数据库图像相比显著

不同的条件下拍摄时，这些条件通常不满足我们的方法扩展了基

于结构的方法，将语义场景理解到姿态估计阶段。

基于结构的视觉定位方法可以根据其处理更复杂场景的效率和能

力进行分类基于优先匹配的方法[12，28，36]通过在找到固定数量的

匹配后终止对应搜索来关注效率为了处理更复杂的环境，鲁棒的基于

结构的方法要么放松匹配标准[8，27，38，47，58]，要么限制搜索空

间[20，27，29，38]。后一种类型的方法使用图像检索[20，38]或共同

可见性信息[27，29]来确定场景的哪些部分在查询图像中可见，从而

可能允许它们消除匹配的歧义。前一种类型通过确定性离群值过滤处

理为此，他们使用几何推理来确定每个匹配与所有其他匹配的一致性

[8，47，58]。特别是当重力方向已知时，这通常是实践中的情况（例

如，通过传感器或消失点），这种方法可以处理99%或更高的离群值

比率[47，58]。我们的方法结合了几何离群值过滤[47，58]与基于场景

语义的推理这使得我们的方法能够更好地处理难以找到正确的2D-3D

匹配的场景。

通过显式特征匹配获得2D-3D对应关系的替代方案是直接学习匹配

函数[6，7，10，33，45，50]。这样的方法经由随机森林或CNN隐式

地表示3D场景结构，该随机森林或CNN预测给定图像块的3D场景坐标

[33]。虽然这些方法可以实现比基于特征的方法更高的姿态准确度

[7]，但它们在处理较大的户外场景时也存在问题，以至于训练可能完

全失败[7，37，42]。

使用语义场景理解作为视觉定位过程的一部分的想法在过去几年中已

经流行起来。一项共同战略是在视觉定位管道的匹配阶段包括语义，

通过检测和匹配对象[3，4，15，35，44，55]或通过增强经典特征描述符

[2，25，46]。后一种类型的方法仍然主要依赖于原始描述符的强度，因

为语义仅提供弱的附加信号。因此，这些方法不能解决找到足够正确对

应的问题，这激励了我们的工作。最近的工作表明，直接学习编码3D场

景几何形状和语义信息的描述符显著提高了匹配性能[42]。然而，这种

方法需要每个查询图像的深度图，例如，从立体声，这是不一定可用的

情况下，我们正在考虑。

下载后可阅读完整内容，剩余16页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 6

大学生入口

最新资源