RelocNet：基于深度学习的相机姿态检索与重定位方法

5 浏览量更新于2024-06-20 收藏 3.45MB PDF 举报

"这篇研究论文探讨了一种基于最近邻匹配和连续度量学习的相机姿态检索方法，结合特征描述符和功能嵌入网络，旨在优化相机姿态表示并提高检索效率。该方法通过学习合适的卷积表示，利用图像对中相机frusta重叠的信息，改进功能嵌入网络。同时，它还包括一个姿态回归器，使用几何度量损失来训练，以精确推断查询图像和最近邻图像之间的相对姿态。实验表明，这种方法在多个实验中优于相关技术，具备良好的概括能力和鲁棒性，适用于大规模应用。文章还对比了传统的基于2D-3D对应关系的几何重定位方法和机器学习方法的优缺点，强调了所提方法在无需深度信息、可转移性以及适应性上的优势。" 在当前的计算机视觉领域，6-DoF相机重定位是一个关键问题，广泛应用于SLAM、增强现实和自主探索等场景。传统的重定位方法依赖于稀疏3D地图和2D-3D对应关系的建立，但这会导致计算复杂度增加，不适用于大规模环境。为了克服这些限制，研究者们开始探索机器学习解决方案，如随机森林RGB-D和神经网络RGB方法。尽管这些方法提高了准确性和适用范围，但它们要么需要深度信息，要么需要对每个新场景进行重新训练，限制了实际应用。该文提出的RelocNet采用神经网络，无需深度信息，且目标是实现可转移性。通过学习相机frusta重叠之间的图像对，RelocNet优化功能嵌入网络，使得相机姿态描述符能有效地反映姿态变化。此外，配合姿态回归器，它能够利用几何度量损失进行微调，从而更精确地估算相对姿态。实验结果显示，这种方法不仅在不同场景下表现出色，而且在性能上超越了现有技术，为相机姿态检索提供了一个高效且通用的框架。这项研究为相机姿态检索带来了创新，通过结合最近邻匹配、连续度量学习和功能嵌入网络，解决了传统方法的局限性，并提升了机器学习方法的泛化能力和实用性。未来的研究可能会进一步探索如何在更多复杂环境下优化这种方法，以及如何将其扩展到其他视觉任务中。

诉Balntas，S.Li和V.普里萨卡

留

推理阶段

图2：（左）

训练阶段

。我们使用一个连体架构来训练全球功能描述器驱动的连

续度量学习损失的基础上相机截头体重叠。这迫使被学习的表示与细粒度相机

姿态检索相关此外，基于被训练以推断两个输入之间的差分姿态的后续层集合

上的损失来学习最终查询姿态。（右）

推理阶段

。给定一个看不见的图像，以

及使用我们优化的截头体特征描述符检索到的它的最近邻居，我们能够基于我

们的差分姿态网络的输出和存储的最近邻居姿态来计算看不见的查询的姿态估

计。

后者使用ImageNet训练的ResNet特征描述符相似性来识别最近的相邻帧。

与这些方法相比，我们使用了一个更简单的几何姿态损失，并引入了一种新

的连续度量学习方法来训练全帧描述符，专门用于面向相机姿态的检索。

方法

在本节中，我们提出了一个完整的概述我们的方法（图。2），包括学习（i）

用于相机姿态相关检索的鲁棒描述符，以及（ii）来自图像对的浅差分姿态回归

器。

3.1

使用相机截头体重叠学习

我们的方法的第一部分涉及学习合适的特征描述符检索最近的邻居是一致的相

机运动。

几种方法使用预训练模型来检索相关图像，因为这些模型是在ImageNet [9]或

Places [48]等大型数据集上训练的，并且能够在倒数第二层中捕获相关图像特

征。不需要付出很大的努力，这样的模型就可以用于其他几种迁移学习场景。然

而，这些特征是为了检测和识别最终目标而训练的，可能与我们的问题没有直接

关系，即。了解相机的运动。最近的工作表明，从对象姿态[3]学习引导的特征可

以导致更成功的对象姿态检索。来解决同样的问题

在相机姿态中，我们使用相机截头体重叠，如下所述

训练阶段

截头体重叠距离

微分位姿损失

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

RelocNet：基于深度学习的相机姿态检索与重定位方法

近似最近邻搜索算法研究与应用

【行为识别】基于正交匹配追踪和最近邻算法实现二维图像人体姿态行为三维重现附matlab代码.zip

论文研究-基于最近邻策略的入侵检测方法研究.pdf

论文研究-基于SURF和快速近似最近邻搜索的图像匹配算法.pdf

基于神经网络和最近邻相似度的实例检索算法.pdf

基于神经网络和最近邻相似度的动臂实例检索.pdf

室内定位算法研究：基于最近邻、改进最近邻和贝叶斯方法

最近邻匹配推动概念设计创新：实例推理方法应用研究

实例学习方法探析：基于距离函数与最近邻

基于最近邻互信息的特征选择技术研究

最新资源