基于最近邻匹配和连续度量学习的相机姿态检索方法的文件研究与实验分析

178 浏览量更新于2023-10-14 收藏 3.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

RelocNet：使用神经网络的Vassileios Balntas1、Shuda Li1和Victor Prisacariu1英国牛津大学主动视觉实验室www.robots.ox.ac.uk/~lav{balntas，shuda，victor}@ robots.ox.ac.uk抽象。我们提出了一种基于最近邻匹配和基于连续度量学习的特征描述符学习合适的卷积表示用于相机姿态检索的方法。我们引入信息从相机frusta重叠之间的图像对，以优化我们的功能嵌入-丁网络。因此，最终相机姿态描述符差异表示相机姿态改变。此外，我们构建了一个姿态回归器，该姿态回归器用几何度量损失来训练，以推断查询和最近邻图像之间的更精细的相对姿态。实验表明，我们的方法是能够概括在一个有意义的方式，并优于相关的方法在几个实验。1介绍鲁棒的6-DoF相机重新定位是许多实际计算机视觉问题的核心组成部分，例如SLAM的闭环[13，37，4]，重用预构建的地图用于增强现实[16]或自主多智能体探索和导航[39]。具体地，给定关于世界的某种类型的先验知识库，重新定位任务旨在估计由世界的先验模型给出的坐标系中的新颖（看不见的）帧的6-DoF姿态传统上，使用从2D点特征和一些视觉跟踪或里程计算法构建的稀疏3D地图来捕获世界为了重新定位，从查询帧中提取另一组特征，并与全局模型进行匹配，建立2D到3D的对应关系。然后通过解决透视n点问题[29，32，47，30]来估计摄像机姿态。虽然这种方法在许多情况下提供了可用的结果，但它遭受指数增长的计算成本，使其不适合大规模应用。最近，机器学习方法（诸如[5]的随机森林RGB-D方法和[25]的神经网络RGB方法）已经被示出为传统几何重新定位流水线提供可行的替代方案，从而在准确度和范围上都有所改善。然而，这也带来了一些负面影响。前一种方法产生了最先进的重新定位结果，但需要深度成像，并且仅被证明在室内有效工作。后一组方法必须针对每个新场景完全且缓慢地重新训练，这意味着学习的内部网络表示是不可转移的，限制了其实际可部署性。我们的方法（图1）利用神经网络处理大规模环境的能力，不需要深度并且旨在可转移，即产生2诉Balntas，S.Li和V.普里萨卡留图1：我们的系统能够从数据库中检索相关项目，其呈现与未见过的查询的高相机截头体重叠。随后，我们可以使用来自存储在数据库中的图像的姿势信息，通过应用由深度神经网络产生的变换来计算先前未见过的查询的姿势。请注意，我们的方法的差分性质使我们的学习表示成功转移到以前看不见的新序列（最好在屏幕上观看）。新的序列和环境的准确结果，即使没有训练他们。受图像检索文献的启发，我们建立了一个完整图像特征的数据库，但是，与以前的作品不同的是，这些特征是专门为相机姿态检索而训练的，而不是整体图像检索。在重新定位时，使用L2距离的简单暴力强制来识别最近的邻居通过以连体方式将查询图像和最近邻特征两者馈送到神经网络来进一步提高准确性，所述神经网络用几何损失训练并且旨在回归两个图像之间的6-DoF简而言之，我们的主要贡献是：– 我们采用了一种基于连续度量学习的方法，利用摄像机截头重叠损失来学习适合于摄像机重新定位的全局图像特征;– 通过将检索结果馈送到回归姿态差异的网络来进一步改进检索结果，该网络直接在姿态齐次矩阵空间中用指数和对数映射层训练，而不需要单独的平移和定向项;– 我们引入了一个新的RGBD数据集，在重新定位中具有准确的地面实况靶向本文件其余部分的结构如下：第2节描述了相关工作。第3节讨论了我们的主要贡献，包括训练和测试方法，第4节显示了我们的定量和定性评价。我们在第5节结束。2相关工作现有的重新定位方法通常可以分为五个主要类别：基于外观相似性的方法、几何方法、霍夫变换方法、随机森林方法和深度学习方法。RelocNet训练特征DBMGT不可见查询预测图像光线投射全局视图最近邻查询特征训练图像RelocNet：使用神经网络的3基于外观相似性的方法依赖于测量图像对之间相似性的方法，例如归一化互相关[15]，随机蕨类[16]和2D特征袋[14]。相似性测量可以识别与查询帧匹配的一个或多个参考图像然后估计姿态例如通过来自多个相邻者的姿态的线性组合，或者简单地通过使用对应于最佳匹配的姿态。然而，如果查询帧是从远离参考数据库中的查看姿势的查看姿势捕获的，则这些方法通常不准确。出于这个原因，基于相似性的方法，如DBoW [14]，通常用作早期预警系统，以触发用于姿态估计的几何方法[37]。我们自己的工作的第一阶段受到这类方法的启发，使用特定于姿势的描述符表示数据库和查询图像。几何重新定位方法[6，21，30]通过解决绝对定向问题[20，1，41，35，31]或透视n点问题[29，32，47]来解决重新定位问题，给定查询框架和全局参考模型之间的一组点对应关系。通常使用2D或3D局部特征匹配来提供对应关系。匹配局部特征可能是有噪声的且不可靠的，因此可以利用成对信息来减少特征匹配模糊性[30]。几何方法简单、准确，并且在查询姿态与参考图像具有大的SE（3）距离时特别有用然而，由于匹配成本（取决于所采用的匹配方案）可以相对于关键点的数量呈指数增长相比之下，我们的方法（i）与训练数据量呈线性关系，因为每个图像都需要构建一个描述符，（ii）与测试数据量呈对数关系，因为数据库搜索通常可以以对数复杂度完成。Hough变换方法[11，2，40]完全依赖于成对的定向关键点之间的成对信息，在表面上密集采样通过Hough空间中的投票来恢复姿势这种方法不依赖于纹理，使得它们在最小纹理对象的对象姿态估计中具有吸引力[40]。然而，针对点对特征在3D模型上密集采样在计算上是昂贵的并且不可扩展的。此外，由于姿态重新定位需要密集的表面模型和深度图两者，因此其不适合于仅视觉传感器。相比之下，我们的方法只需要RGB帧进行训练和测试。基于随机森林的方法[42，17，45]通过回归RGBD查询帧中每个点的相机位置来提供最先进的准确性。最初，这种方法需要对每个新场景进行昂贵的重新训练，但[5]表明这可以限制在随机森林的叶节点上，这允许实时性能。然而，深度信息仍然需要准确的重新定位结果。卷积神经网络方法，从PoseNet [25]开始，从单个RGB图像回归相机姿势随后的工作（i）检查了递归神经网络的使用（即LSTM）将时间信息引入问题[46，7]，以及（ii）用几何损失训练回归[24]。与我们自己的方法最相似的是[44，28]的方法，其中前者假设两个帧被给定，并且联合回归深度和相机姿势，以及4诉Balntas，S.Li和V.普里萨卡留推理阶段图2：（左）训练阶段。我们使用一个连体架构来训练全球功能描述器驱动的连续度量学习损失的基础上相机截头体重叠。这迫使被学习的表示与细粒度相机姿态检索相关此外，基于被训练以推断两个输入之间的差分姿态的后续层集合上的损失来学习最终查询姿态。（右）推理阶段。给定一个看不见的图像，以及使用我们优化的截头体特征描述符检索到的它的最近邻居，我们能够基于我们的差分姿态网络的输出和存储的最近邻居姿态来计算看不见的查询的姿态估计。后者使用ImageNet训练的ResNet特征描述符相似性来识别最近的相邻帧。与这些方法相比，我们使用了一个更简单的几何姿态损失，并引入了一种新的连续度量学习方法来训练全帧描述符，专门用于面向相机姿态的检索。3方法在本节中，我们提出了一个完整的概述我们的方法（图。2），包括学习（i）用于相机姿态相关检索的鲁棒描述符，以及（ii）来自图像对的浅差分姿态回归器。3.1使用相机截头体重叠学习我们的方法的第一部分涉及学习合适的特征描述符检索最近的邻居是一致的相机运动。几种方法使用预训练模型来检索相关图像，因为这些模型是在ImageNet [9]或Places [48]等大型数据集上训练的，并且能够在倒数第二层中捕获相关图像特征。不需要付出很大的努力，这样的模型就可以用于其他几种迁移学习场景。然而，这些特征是为了检测和识别最终目标而训练的，可能与我们的问题没有直接关系，即。了解相机的运动。最近的工作表明，从对象姿态[3]学习引导的特征可以导致更成功的对象姿态检索。来解决同样的问题在相机姿态中，我们使用相机截头体重叠，如下所述训练阶段截头体重叠距离微分位姿损失RelocNet：使用神经网络的5|V|联系我们−算法1：一对相机姿态之间的平截头体重叠距离输入：相对对姿态M∈SE（3）、相机本征K、最大裁剪深度D，采样步长τ1使用K对具有最大剪切距离D的第一平截头体内部的具有尺寸τ的体素的均匀网格V进行采样。2 计算位于第二平截头体内部的体素V+V返回：截锥体重叠距离= 1 − |V+|，其中<$∈ [0，1]为了在我们的网络层中捕获相关特征，我们的主要想法是使用一个几何量，即两个摄像头截头之间的重叠。检索具有高重叠的最近邻将改善基于外观匹配的高精度方法的结果，例如[31]，因为在两个图像中可见一致的特征点集的概率给定一对已知姿态的图像x，y Mx、My和相机内部参数K，可以通过对体素的均匀网格进行采样来有效地计算平截头体的几何形状。基于此，我们根据算法1计算相机平截头体重叠距离ξ因此，我们可以定义基于截头体重叠的损失，如下所示2 2L frustum={||2− ξ}||2−ξ}（一）直观地，这种损失旨在将两个帧之间的相机截头体重叠与它们在学习的嵌入空间中的相应距离相关联。来自随机序列的图像的一些样本对（例如，取自ScanNet数据集[8]），与我们的优化过程中使用的相似，如图所示3.第三章。我们可以观察到，截头体相交比是视觉图像相似性的非常好注意，写在每个图像对下面的数字是截头体重叠比（Iξ），而不是截头体重叠距离（ξ）。结果表明，该方法是可行的。3是用D为4米计算的，这是室内场景的合理选择。D的选择取决于场景的比例，因为摄影机截头体剪裁平面与摄影机到最近对象的距离有关。因此，如果该方法要应用于外部大规模场景，则需要相应地调整该参数3.2姿势回归虽然检索最近的邻居是我们的管道中最重要的一步，但它对于改进邻居给出的估计以改进未知查询姿势的最终推理阶段也至关重要。为了改善从检索到的最近邻居给出的估计，我们在特征网络的顶部添加了一个浅层神经网络，该网络经过训练用于回归两个相邻帧之间的差分相机姿势。相机姿态表示的选择非常重要，但文献没有找到理想的候选者[26]：单位四元数用于[25，24]，轴角表示[44，33]和欧拉角[34，36]。6诉Balntas，S.Li和V.普里萨卡留∈∈∈∈R t0.760.220.120.42图3：我们的平截头体重叠分数的样本，其被反转并用作损失函数以学习用于检索的合适的相机姿态描述符。我们展示了成对的图像，连同它们各自的平截头体重叠分数，以及导致RGB图像观察的场景的3D几何形状的两个视图我们可以观察到，平截头体重叠分数是场景的共同可见性的良好指示符，并且因此是要优化的有意义的目标。在此基础上，我们采用了旋转的矩阵表示，并给出了它的扩展。sintΣo表示[18]类似于SE（3）变换空间具体地，M=01∈SE（3）其中RSO（3）和tR3。我们采用SE（3）矩阵进行不同坐标系之间的转换，也用于测量损失，这表明在训练网络时非常方便。此外，由于我们的网络直接输出相机姿态，因此保证了回归姿态的有效性，这与[24，25]中使用的四元数方法不同，其中通过将四元数q归一化为具有单位范数来强制随机q R 4的有效旋转表示。我们的目标是学习一个差分姿态回归，它能够使用一对特征描述符来回归它们之间的差分相机姿态为此，我们在RelocNet的特征层之上构建姿势回归层，允许在推理期间进行联合正向操作，从而显着减少计算时间。从RelocNet的特征层中提取的D维特征描述符被连接成单个特征向量，并且通过执行从RD到R6的变换的一组完全连接的层被转发。然后，我们可以使用指数映射层将其转换为SE（3）[18]中的元素。给定输入图像q，我们可以将来自全连接层的计算输出表示为γ（φ（q），φ（t））=（ω，u）R6，其中φ（q）和φ（t）是两个特征嵌入，并且（ω，u）是从φ（t）到查询图像的相对运动。我们的下一步是将其转换为有效的SE（3）姿态矩阵，然后在训练过程中使用该矩阵以及等式中引入的损失。10.通过考虑训练过程的最终损失的SE（3）项，可以针对有效相机优化该过程RelocNet：使用神经网络的7R V u01∈∈∈2 sin（θ）不需要对四元数进行在se（3）项之间转换为SE（3）我们利用以下两个专用层：expSE（3）la ye r. 我们实现指数映射层以回归有效的相机姿态矩阵。这接受向量（ω，u）R6，并通过使用从se（3）元素δ到SE（3）元素M的指数映射来输出有效的MSE（3），并且可以如下计算[12]：Σ Σexp（（ω，u））=（二）与θ=√ωω（3）R=I+sin（θ）[ω]+1−cos（θ）[ω]2（四）θ×θ2×V = I +1−cos（θ）[ω]+θ−sin（θ）[ω]2θ2×θ 3×（五）其中[ω]×表示向量ωR3的反对称矩阵生成器[12]。随后，我们能够使用网络的输出γ（q，t）=（ω，u）在这一层中进行前向传递，并按照等式（1）传递它二、logSE（3）层。为了从SE（3）项返回到se（3），我们实现了对数映射层，其定义如下：Σ1998年12月20日（Σ）=（log（R），V−1u）（6）θlog（R）=2sin（θ）（R−RT）（7）如[12]所建议的，当θ为零时，应使用θω的范数低于机器精度。然而，在我们的培训过程中，我们没有观察到受此问题困扰的元素。如先前所讨论的，关于CNN重定位器的最近工作的主要问题之一是需要使用全局世界坐标系作为训练标签。这强烈限制了学习过程，因此需要对系统遇到的每个新序列进行重新训练。为了解决这个问题，我们建议专注于学习一个浅层差分姿态回归器，它返回一个序列的两个任意帧之间的相机运动。此外，通过将训练过程扩展到成对的帧，我们扩展了信息量，因为我们可以使用比使用单个图像训练时更多的训练样本因此，我们将训练过程设计为Siamese卷积回归器[10]。为了训练连体架构，给出一对图像（qL，qR）作为输入，并且网络输出单个估计M~∈SE（3）。直观地说，这个M~表示两个姿态矩阵之间的差分姿态。更正式地说，让MwL表示R V u018诉Balntas，S.Li和V.普里萨卡留M−1MwL。WRWRWRDBDBDBDB×M是图像qL的姿态，并且M是图像qR的姿态，其中两个姿态都表示从相机坐标系到世界的变换将相机从R-L转移的微分变换矩阵由下式给出：WR假设我们在一个mini-batch中有一组K个（一）（一）（一）（一）（一）{qL ，MwL，qR，MwR，MRL，ξLR}i∈[1，K]（8）我们用以下损失来L=αLSE（3）+βL平截头体（9）与LSE（3）=ΣKi=0时||l〇gSE（3）{M〜⑴（M（i）−1MwL）}||1(10)它考虑了下列逆的合成的l〇gSE（3）映射的L1范数预测M和地面真值M（i）−1MwL。直觉告诉我，这将变成0当M（i）−1MwL变为I44时，由于恒等式的对数SE（3）的元素为0。请注意，我们可以扩展上述方法，专注于基于单个图像的回归，其中对于每个训练项{qi，Mi}，我们推断出姿态Mi，并且我们修改损失函数以优化Mi−1Mi。我们提供了一个直观的概述培训阶段的图。2（左）。3.3推理阶段在本节中，我们讨论我们的推理框架，首先使用一个最近邻（NN）进行姿态估计，随后使用多个最近邻。在推断期间，我们假设在数据库q（i）中存在图像池，连同它们对应的姿势M（i），其中i∈[0，Ndb]。令SNN1表示具有未知姿态Mq的查询qq的D维特征空间中的最近邻居的索引。在计算估计值M〜=γ（qq，q（NN 1））之后，我们可以推断出针对通过简单的矩阵乘法确定未知的地面实况姿态Mdb，因为Md=M−1M~ q。我们提供了一个直观的概述图上的推理阶段。 2（右）。我们还简要讨论了一种从多个候选人中推断预测的方法。如图6，对于每个姿势查询，我们可以获得顶部K-NN，并且使用它们中的每一个来使用我们的差分姿势回归器预测查询的不同姿势。我们的目标是将这些矩阵聚合成一个单一的估计M~（e）。如前所述，我们考虑se（3）中姿态矩阵的（ω，u）表示，并计算Σ Σl〇g（M（e））=βkl〇g（M（k））+kl〇g（M（e））βk+k（11）K K−1RelocNet：使用神经网络的9×−→→→其中βk=√2tr−t A=A（||lo g（M（e））−log（M（e））||，t），由ro-2bustHuber误差范数，其中t表示离群值阈值，并且k是对估计M（e）有贡献的最近邻的数量。然后，我们使用迭代重新加权最小二乘法来估计log（M（e））和k个神经网络预测[22，38]的集合中的内点。对于我们的实现，我们使用k = 5和t = 0。五、3.4训练过程我们使用ResNet18 [19]作为特征提取器，并且我们运行我们的实验用于最大裁剪深度D=4m和网格步长0的检索阶段的训练。2m.此外，为了避免序列中的大多数对不是共同可见的事实，我们将对的选择限制在平移距离低于0的情况下。3米，旋转低于30◦。我们附加大小为（ 512 ）的三个全连接层512 ）、（ 512256) 和（2566）以减少连体输出特征层Φ（X）的512维输出φ（y）是R6中的一个有效元。然后将其馈送到expSE（3）层以产生有效的4 × 4姿态矩阵。对于训练，我们使用Adam [27]，学习率为10−4。我们还使用权重衰减，设置为10−5。我们提供了一个一般的视觉概述的培训过程中图。2（左）。为了我们的联合训练损失，我们设置a = 0。1且β = 0。9 .第九条。4结果在本节中，我们简要介绍了用于评估我们的方法的数据集，然后我们提出了实验，表明我们的特征描述符在重新定位方面明显优于以前的工作。此外，我们表明，shal- low差分姿态回归器在转移到新数据集时能够有意义地执行，并且在相同数据集上训练和测试时能够优于其他方法。4.1评价数据集我们使用两个数据集来评估我们的方法，即7scenes[16]和本文稍后介绍的新的训练主要在ScanNet数据集上完成[8]。扫描网 ScanNet数据集[8]由超过1k个序列组成，具有各自的地面真实姿势。我们保留该数据集用于训练，因为不存在用于全局对齐的每个场景的多个序列，使得它们可以用于重新定位目的。此外，数据集的大小使得很容易检查我们的方法的泛化7个场景。7Scenes数据集由7个场景组成，每个场景包含多个序列，这些序列被分成训练集和测试集。我们使用训练集来生成存储特征的数据库，并将测试集中的图像视为未知查询集r10诉Balntas，S.Li和V.普里萨卡留图图4：来自RelocDB数据集的样本序列。RelocDB数据集。虽然7Scenes已经被广泛使用，但它是否比ScanNet和其他适合训练深度网络的数据集小得多。ScanNet旨在解决这个问题，但它不是为重新本地化而设计的。为此，我们引入了一个新的数据集，RelocDB，旨在成为一个有用的资源，在评估检索方法的背景下，相机重新定位。我们使用Google Tango设备收集了500个序列，每个序列分为训练和测试部分。火车和测试集是通过在类似的路径上移动两次来构建的，因此在大小方面非常相似。这些集合与相同的全局坐标框架对齐，因此可以用于重新定位。图4，我们展示了来自RelocDB数据集的一些序列示例。4.2截头体重叠特征描述符下面我们讨论几个实验，证明我们的特征学习方法的检索性能。对于这些情况中的每一种，在ScanNet上训练frusta描述符并在7Scenes序列上进行评估在所有情况下，我们都使用重定位成功率作为性能指标，通过设置截头体重叠阈值，简单地计算从测试集重定位到保存的训练数据集的查询项的百分比。我们比较了从ResNet18[19]，VGG [43]，PoseNet [25]和基于非学习的方法[16]中提取的特征。图5（a）表明训练集的大小对于7个场景中头部序列的学习描述符的良好概括至关重要很明显，用几个序列学习的描述符很快过拟合，不适合检索。在图5（b）中，我们绘制了我们学习的描述符在不同截头体重叠阈值上的性能，其中我们可以观察到我们的方法在所有精度上优于其他方法。还值得注意的是，从倒数第二个PoseNet层提取的特征似乎与重新定位无关，可能是由于它们被训练用于直接回归，更重要的是，它们被过度拟合到每个特定的训练序列。测试用作描述符参考数据库的训练集大小的影响RelocNet：使用神经网络的11在我们的方法的执行中，根据摄像机运动阈值0，通过基于去除冗余项将1000个训练帧转换为更稀疏的关键帧集合，我们逐渐减少了训练集合中的项的数量。1米，10◦。因此，只有当新帧的描述符在两个阈值中呈现比已经存储的所有项更大的值时，图5（c），我们显示了与标准的预训练ImageNet检索方法相比，我们的方法的准确性与检索池大小的结果我们可以观察到，我们的描述符在几个不同的关键帧训练集大小上更相关我们还可以看到，我们的方法能够以更有效的方式处理较小的检索池。在表1中，我们显示了几种相关方法之间的一般比较。正如我们所观察到的，我们的描述符非常强大，可以在两个不同的数据集之间以有意义的方式进行概括。从PoseNet提取的特征的低性能在这里也是显而易见的还值得注意的是，我们的方法可以代替其他方法用于几种流行的重定位器和SLAM系统，例如[38]，其中使用蕨类植物[16]。0.650.60.550.50.450.40.350.3#训练序列105010010010001000010.90.80.70.60.50.40.30.20.4 0.5 0.6 0.70.80.60.550.50.450.4Resnet-Imagenet0 200 400 600 800 1000培训迭代编号（一）截头体重叠阈值（b）第（1）款数据库中的关键帧数量（c）第（1）款图5：（a）训练数据集大小和重定位性能的关系。我们可以观察到，使用更多的训练数据用于与重新定位相关的训练描述符具有明显的优点。（b）与截头体重叠阈值相关的重新定位成功率。我们的RelocNet能够用更多的训练数据胜过预先训练的方法，因为它是用相关的几何损失训练(c)数据库中存储的关键帧数量与重新定位成功率的关系。我们的检索描述符在具有不同数量的存储关键帧的数据集上显示出一致的性能4.3姿势回归实验在表2中，我们示出了所提出的姿势回归方法的结果，与用于重新定位的几种最先进的基于CNN的方法进行了比较。我们将我们的工作与以下方法进行比较：PoseNet [25]使用加权四元数和平移损失，PoseNet的贝叶斯和几何扩展[23，24]使用几何重投影误差进行训练，以及将回归扩展到PosenetResnet-ImagenetResnet-PlacesReloc. 成功率%Reloc. 成功率%Reloc. 成功率%12诉Balntas，S.Li和V.普里萨卡留列车组ResNet18ImageNetResNet18地方VGG11ImageNetVGG19ImageNetPoseNet剑桥土地蕨类-RelocNetScanNetDB序列7scenes头48.6%46.6%百分之三十七点七百分之三十九点八百分之二十九点一30.63% 70.33%火百分之六十七点三73.1%64.9%66.8%33.70%37.03% 79.01%红厨房65.0%62.6%百分之六十四点八61.1%百分之三十点九40.47% 73.42%象棋71.25%69.50%67.90%74.90%18.6%51.73% 78.95%楼梯32.5%百分之五十四点六百分之四十二点七41.0%百分之七点八28.16% 62.77%南瓜73.1%68.8%百分之六十九点二69.8%百分之十二点二52.17% 79.25%办公室69.0%百分之六十九点三64.0%百分之五十七点五百分之十点三47.34%72.41%RelocDB谨慎百分之七十八点一百分之七十八点一72.1%百分之七十点九百分之三十点一百分之六十一点八83.6%书桌59.6%百分之六十一点五59.6%百分之六十一点五百分之三十一点三百分之四十七点三百分之六十八点四讲座百分之六十六点六62.0%55.1%64.3%29.40%40.2%百分之七十点一会议室百分之五十七点二56.7%百分之五十四点三百分之五十三点五百分之十二点八一百分之三十六点四百分之六十二点五海报62.6%百分之六十七点三58.1%62.6%39.94%49.3%74.3%打印机67.0%70.8%百分之六十三点二70.8%27.69%31.0%72.1%表1：使用蛮力方法的最近邻匹配成功率我们示出了当使用0的平截头体重叠阈值时重新定位的成功率。7跨7场景和序列从我们的新的RelocDB。我们可以观察到，我们的特征描述符在重新定位成功率方面明显优于所有其他方法，有很大的优势。使用递归神经网络的时间域[46]。我们可以观察到，即使通过使用在ScanNet上学习的描述符和姿势回归量，我们也能够与在相同序列上训练和测试的方法相提并论这是一个重要的结果，因为它显示了大规模培训重新定位的潜力。此外，我们可以观察到，当我们通过与其他方法相同的序列进行训练和测试来应用我们的重新定位训练框架时，我们能够胜过几种相关方法。4.4融合多个最近邻图6我们显示的结果比较单一的神经网络的性能与融合方法从方程。11.我们可以观察到，在大多数情况下，多个NN的融合稍微提高了性能。改进不显著且一致的事实潜在地归因于从数据集提取最近邻的方式，这可能导致显著相似的对此的一个可能的解决方案是积极地强制执行检索到的最近邻居之间的一些不相似性的概念，因此确保融合对更多样化的提议集进行操作RelocNet：使用神经网络的134.5定性示例在图的顶部两行在图7中，我们示出了使用来自第一最近邻居的预测姿态的全局场景模型的合成视图的示例，而底行示出了来自第14诉Balntas，S.Li和V.普里萨卡留场景PoseNetRelocNet RelocNet（β权重）[25] PoseNet [23] Spatial LSTM [46] Geometric [24] ScanNet 7场景象棋0.32米，6.60◦0.37米，7.24◦0.24米，5.77◦0.13米，4.48◦0.21米，10.9◦0.12米，4.14米火0.47米，14.0米0.43m，13.7◦0.34米，11.9◦0.27m，11.3◦0.32米，11.8◦0.26米，10.4◦头0.30m，12.2◦0.31m，12.0◦0.21米，13.7◦0.17m，13.0◦0.15米，13.4◦0.14米，10.5◦办公室0.48米，7.24米0.48m，8.04◦0.30m，8.08◦0.19米，5.55◦0.31米，10.3◦0.18米，5.32◦南瓜0.49米，8.12◦0.61米，7.08◦0.33米，7.00◦0.26米，4.75◦0.40m，10.9◦0.26米，4.17◦红色厨房0.58米，8.34◦0.58米，7.54◦0.37米，8.83◦0.23m，5.35mm0.33米，10.3米0.23米，5.08◦楼梯0.48米，13.1◦0.48m，13.1◦0.40米，13.7◦0.35m、12.4◦0.33米，11.4◦0.28米，7.53◦表2：7Scenes[42]数据集中的中位定位误差我们可以观察到，即使在不同的数据集上进行训练和测试，我们也可以超越PoseNet的原始版本这表明我们的方法在数据集之间的可转移性方面的潜力。此外，当我们在相同的数据集上训练和测试我们的方法时，我们可以胜过其他方法。最后，还值得注意的是，使用时态信息（LSTM）的性能场景差异训练NNDiff.训练kNN象棋0.12米，4.14米0.12米，3.95◦头0.14米，10.5◦0.13米，10.5◦火0.26米，10.4◦0.25m，10.1◦楼梯0.28米，7.53◦0.27米，7.31米图6：融合多个最近邻的效果我们可以观察到，通过合并来自多个最近邻居的姿势信息，我们能够提高单个最近邻居的性能显示了我们旨在推断其姿态的查询图像。请注意，在本实验中，我们使用了高精度的每个数据库训练的网络变体。从图中，我们可以看到，在大多数情况下，预测的姿势与查询图像（前5列）很好地对齐我们还展示了我们的方法的一些失败案例（最后3列）。失败的情况下，其特征可能是有限的重叠之间的查询和训练帧，这是一个固有的缺点，我们的方法。在图7（底部）中，我们示出了由特征网络选择的最近邻居（红色）的相机姿态的典型情况，以及每个最近邻居（青色）的估计查询姿态请注意，这些结果是使用在非重叠训练集上训练的网络时的样本测试图像此外，我们示出了由蓝色平截头体指示的地面实况查询姿势。令人惊讶的是，我们看到推断的姿势是显著稳定的，即使对于其中最近的邻居是有噪声的（例如，第1列和第2列）。此外，我们可以观察到，在大多数情况下，预测的姿态比最近邻居的检索姿态明显更接近地面最后，我们展示了一个失败的案例（最后一列），其中系统无法恢复，因为最近的邻居布尔是显着远离地面真相，这是可能由于有限的重叠之间的火车和测试姿势。RelocNet：使用神经网络的15图7：（顶部2行）与实际地面实况视图（顶部第2行）（底部）相比，使用我们的预测姿态（顶部第1行）渲染的全局地图的示例我们可以观察到，在大多数情况下，校正后的姿势明显更接近地面实况（蓝色平截头体）。5结论我们已经提出了一种使用截头体重叠来训练网络的方法，该方法能够以高精度检索最近的姿态邻居。我们的实验结果表明，所提出的方法是能够优于以前的作品，并能够概括在一个有意义的方式，新的数据集。最后，我们说明了我们的系统是能够预测相当准确的候选人构成，即使检索到的最近的邻居是嘈杂的。最后，我们介绍了一个新的数据集，专门针对重新定位方法，我们公开。对于未来的工作，我们的目标是研究训练检索网络的更先进的方法，以及融合多个预测姿势的新方法在差分回归阶段也可以取得重大进展，以提高我们的细粒度相机姿态描述符的良好性能。此外，我们的工作的一个有趣的扩展将是解决场景缩放问题，使用场景的一些在线估计，并相应地调整学习方法。致谢我们衷心感谢华为创新研究计划（HIRP）FLAG-SHIP资助和欧盟委员会项目Multiple-actOrs Virtual Empathic CARegiver for the Elder（MoveCare）为作者提供的经济支持。引用1. S. K. Arun，T. S. Huang和S. D.布洛斯坦两个三维点集IEEE Trans.模式分析机器内部（PAMI），9：698 -700，1987中所述。16诉Balntas，S.Li和V.普里萨卡留2. S. H. B、V。Lepetit，N.Rajkumar和K.Konolige 进一步使用点对特征。在欧洲计算机视觉会议（ECCV）的会议记录中，第834-848页，2016年。3. 诉Balntas，A.杜马诺格鲁角Sahin，J.索克河Kouskouridas和T.-K. Kim. 构成用于3D对象姿态估计的引导式RGB-D特征学习。在Intl. Conf. on Computer Vision（ICCV），2017.4. C. 卡德纳湖Carlone，H.Carrillo，Y.拉蒂夫D.Scaramuzza，J.内拉岛D. 里德和J·J·伦纳德。同时定位和标测：现在，未来，和健全的知觉时代. IEEE Trans. onRobotics（ToR），第1-27页5. T. Cavallari，S. Golodetz，N. A. Lord，J. Valentin，L. Di Stefano和P. H.乇On-the-Fly在线相机重新定位的回归森林的适应在IEEE Intl.计算机视觉和模式识别（CVPR），2017年。6. D. Chekhlov，M.Pupilli，W.Mayol和A.卡尔威鲁棒的实时视觉SLAM尺度预测和基于实例的特征描述。在IEEE Intl.计算机视觉和模式识别（CVPR），2007年。7. R. 克拉克，S。Wang，中国山核桃A.Markham，N.Trigoni和H.文6-DoF视频剪辑重新定位。在IEEE Intl.计算机视觉和模式识别（CVPR），2017年。8. A. Dai，A.X. 张，M。Savva，M.Halber，T.Funkhouser和M.尼斯纳ScanNet：丰富-室内场景的注释3D重建。在IEEE Intl.计算机视觉和模式识别（CVPR），2017年。9. J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。在IEEE Intl.计算机视觉与模式识别（CVPR），2009年。10. A.杜马诺格鲁河谷巴尔恩塔斯河Kouskouridas和T. Kim. Siamese回归网络具有用于3D对象姿态估计的高效中级特征提取。arXiv预印本arXiv：1607.02257，2016。11. B. Drost，M.Ulrich，N.Navab和S.伊利克全局建模，局部匹配：高效且鲁棒的3D对象识别。在IEEE Intl. Conf. 计算机视觉和模式识别（CVPR），第998-1005页，2010年。12. E.艾德2D和3D变换的李群。技术报告，卡姆大学-桥，2017年。13. J.恩格尔，T. Schops和D.克莱姆斯LSD-SLAM：大规模直接单目SLAM。在欧洲计算机视觉会议（ECCV）的会议记录中，第114. D. Galvez-Lopez和J.D. Tardos 二进制词包的快速位置识别年龄序列。在IEEE Intl.计算机视觉和模式识别会议（CVPR），第28卷，第1188-1197页，2012年。15. A. 吉和W。马约尔-奎瓦斯使用合成视图的RGBD相机的6D重新定位回归分析英国机器视觉会议（BMVC），2012年。16. B. Glocker，S.Izadi，J.Shotton和A.天啊实时RGB-D相机重新定位。在IEEE/ACM Intl.Symposium on Mixed and Augmented Reality（ISMAR），第21卷，第571-583页，2013年。17. A. Guzman-Rivera，P.科利湾作者：J. Sharp，A. Fitzgibbon和S. 伊扎迪多输出学习相机重新定位。在IEEE Intl.计算机视觉和模式识别（CVPR），2014年。18. A. Handa，M.布洛施河谷Patraucean，S.Stent，J.McCormac和A.戴维森gvnn：神经几何计算机视觉网络库。欧洲计算机视觉研讨会论文集，2016年。19. K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差学习在IEEE Intl.Conf. 计算机视觉和模式识别（CVPR），第770-778页，2016年。RelocNet：使用神经网络的1720. B. K. 号角. 用单位四元数求绝对定向的闭合解Journal of the Optical Society of AmericaA，6：422，1987.21. A. S. Huang，黄背天蛾A.巴克拉奇山口亨利，M. Krainn，D. Maturana，D. Fox和N.罗伊视觉使用RGB-D相机进行自主飞行的里程计和测绘。在Intl.机器人研究研讨会（ISRR），2011年。22. O. Kaühler，V.A. Prisacariu和D.W. Murra y实时大规模密集三维重建与Loop Closure。在欧洲计算机视觉会议（ECCV）的会议记录中，第500-516页。施普林格，2016年。23. A. Kendall和R.西波拉深度学习中的相机重新定位建模不确定性化在IEEE Intl. Conf. on Rob

下载后可阅读完整内容，剩余1页未读，立即下载