基于CNN的绝对相机姿态回归

114 浏览量更新于2023-10-19 收藏 3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3302了解基于CNN的绝对相机姿态回归TorstenSattler1QunjieZhou2MarcPollefe ys3，4LauraLeal-Taixe'21Chalmers技术大学2慕尼黑工业大学3苏黎世联邦理工学院4微软摘要视觉定位是在已知场景中准确估计摄像机姿态的任务。它是计算机视觉和机器人技术中的一个关键问题，其应用包括自动驾驶汽车，运动恢复结构，SLAM和混合现实。传统上，定位问题已经使用3D几何形状来引导。最近，基于卷积神经网络的端到端方法已经变得流行。这些方法学习从输入图像直接回归相机姿态。然而，它们没有达到与基于3D结构的方法相同的姿态精度水平。为了理解这种行为，我们开发了一个相机姿态回归的我们使用我们的模型来预测姿态回归技术的失败案例，并通过实验验证我们的预测。此外，我们使用我们的模型表明，姿态回归是更密切相关的姿态近似通过图像检索比准确的姿态估计通过3D结构。一个关键的结果是，目前的方法并不总是优于手工制作的图像检索基线。这清楚地表明，在姿态回归算法准备好与基于结构的方法竞争之前，需要进行额外的研究。1. 介绍视觉定位算法使得照相机能够确定其绝对姿态，即，它在场景中的位置和方向，是智能系统[24，38]和增强现实应用[15，48]的核心组件。最先进的定位算法遵循基于3D结构的方法[8，10，16，46，59，63，68，69]。他们首先在测试图像中的像素和场景中的3D点之间建立对应关系。这些2D-3D匹配然后用于通过在RANSAC [ 18，22，36，54 ]循环内应用n点姿态（PPENS）求解器[2，31传统上，第一阶段是基于在测试图像中提取的描述符与3D点相关联的描述符的匹配。或者，可以使用机器学习技术直接从图像块回归3D点位置[8，10，16，43，46，47，65]。近年来，视觉定位的绝对姿态回归（APR）方法已经变得流行[11，12、28而不是将机器学习仅用于定位流水线的部分，例如，本地特征[63，79]、离群值过滤[49，70]或场景坐标回归[10，46]，这些方法旨在学习完整的本地化流水线。给定一组训练图像及其对应的姿态，APR技术训练卷积神经网络（CNN）以直接从图像回归APR技术是计算高效的，给定足够强大的GPU，因为只需要通过CNN的单次前向传递。然而，它们也明显不如基于结构的方法准确[10，63，76]。另外，更新地图，当添加新数据时，需要对CNN进行昂贵的重新训练而不是提出一个新的APR变体，本文侧重于了解APR技术及其性能。为此，我们做出以下贡献：i）我们开发了用于绝对姿态回归的理论模型（第二节）。（3）第三章。据我们所知，我们的工作是第一个旨在寻找内部工作，APR技术。基于这个模型，我们表明，APR方法是更密切相关的近似姿态估计通过图像检索（第二节。5）而不是通过3D几何结构进行准确的姿态估计（第5节）。4）. ii）使用我们的理论，我们在理论上和实验中都表明，与基于结构的方法不同，不能保证APR方法超越其训练数据（第二节）。4）. iii）考虑到APR和图像检索之间的密切关系，我们表明当前APR方法在性能上更接近手工制作的检索基线[71]，而不是基于结构的方法。我们表明，没有公布的单一图像姿态回归方法能够始终优于这个基线。因此，本文介绍了一个非常必要的健全性检查，判断姿态回归技术的性能。总之，这项工作填补了理解视觉定位的绝对姿态回归方法的重要空白：它清楚地表明了他们的短距离，并更清楚地将他们定位于其他方法来解决视觉定位问题。总的来说，我们表明，大量的研究仍然是必要的绝对姿态回归技术可以应用于实际应用中，需要准确的姿态估计。3303图1. PoseNet [29，30]和MapNet [11]学习的基础翻译{ c j }的可视化。每个点对应于一个基本平移。基本平移的比例以米为单位。我们展示了一些训练图像的基础翻译组合，MapNet。在Eq. 3对于单个图像，分别是所有图像（在图的右侧），由颜色和点大小指示，暖色和大点用于具有大系数的平移训练和测试轨迹以红色和绿色显示。PoseNet、MapNet和Active Search [59]的测试预测分别以蓝色、紫色和青色显示2. 相关工作基于结构的定位方法依赖于2D像素位置和3D场景坐标之间的2D-3D匹配以用于姿态估计。这些匹配是通过描述符匹配[21，37，39，59，63，68，69，81]或从像素块回归3D坐标[843、46、47、65]。基于描述符的方法处理城市规模[37，39，68，81]并在移动设备上实时运行，vices [6，38，41，48].3D坐标回归方法目前在小尺度下实现了更高的姿态精度，但尚未显示出可扩展到更大的场景[10，69]。图像检索通常用于地点识别[3，5，17，58，71，72，77，80]，即，用于确定场景的哪个最先进的方法使用紧凑的图像级描述符来实现有效和可扩展的检索[3，52，71]。图像检索可以用于视觉定位，通过最相似的检索图像的姿态来近似测试图像的姿态可以通过使用测试图像和检索图像之间的特征匹配来获得更精确的估计，以进行相对姿态估计[13，82，83]。图像检索也被用作基于结构的方法的一部分[14，26，57]。绝对相机位姿回归（四月）方法训练CNN回归输入图像的相机姿态。age [11，28它们都遵循相同的管道：使用基本网络提取特征，VGG [66]或ResNet[25]，然后嵌入到高维空间中这个嵌入-然后使用Ding来回归场景中的相机姿势。现有的方法主要在底层基础架构和用于训练的损失函数方面有所不同，使用位置和方向误差的加权组合[11，30，76]，几何重投影误差[29]，或增加视觉里程限制[11，53，74]。[50，78]用合成数据扩展训练图像集。[12，28]也是估计姿势的不确定性的原因。[11，19，53，74]提出了基于定位图像序列的方法，而不是使用单个图像。最近的结果表明，APR方法的准确性明显低于基于结构的方法[10，46，76]。本文旨在通过建立一个APR的理论模型基于这个模型，我们表明，与基于结构的方法相比，APR方法很难推广到训练数据之外，或者根本不能推广。此外，我们表明，APR技术本质上更密切相关的图像检索比基于结构的方法，目前的APR算法并不一贯优于检索基线。相对相机姿态回归（RPR）方法预测测试图像相对于一个或多个训练图像的姿态，而不是绝对场景坐标[7，35，45，56]。预测再次由经过回归训练的CNN处理。可以使用显式图像检索步骤[7，35]或通过在CNN中隐式表示图像来找到相关的训练图像[56]。APR是一个实例级问题，APR技术需要针对特定场景进行培训。相比之下，RPR是一个更一般的问题，RPR方法可以在多个场景上训练[7，35]。3304J1NJ+αc在本文中，我们使用我们的理论的APR表明，有一个内在的连接到RPR。我们还表明，虽然是性能最好的端到端的本地化方法，目前的 RPR 技术也不considerably优于图像检索基线。3. 绝对位姿回归本节的目的是为PoseNet [28- 30 ]及其变体[ 11，50，76，78 ]等绝对摄像机姿态估计方法我们的理论空间这种嵌入通常对应于姿势回归方法中倒数第二层最后一级执行从嵌入空间到相机姿态空间的线性投影。第三阶段对应于网络中的最后一层（完全连接）。这三个阶段的模型涵盖了迄今为止已经发布的所有类似PoseNet的方法。将前两个阶段视为单个网络，我们可以将训练的视觉定位函数L写为L（I）=b+P·E（F（I））不依赖于特定的网络架构，而是涵盖用于姿态回归的架构家族。基于=b+P·。αI，. -是的-是的，αIβT、（1）这一理论，4比较了绝对姿态回归和基于结构的方法，使用实验来支持我们的模型。秒5然后使用该理论来展示姿势回归和图像检索之间的内在相似性。记法让我是从相机姿势拍摄的图像其中P∈R（3+r）×n是投影矩阵，b∈R3+r是偏置项.L（I）的输出是图像的摄像机姿态的估计pI=（cI，crI）。设Pj∈R3+r是P的第j列. 我们可以将预测的相机姿态表示为P的列的线性组合，pI=（cI，rI）.这里，cI∈R3是相机位置，rI是相机方向。有很多种方法可以代表-ΣnL（I）=b+αIPj= .ΣcI.（二）重新发送方位，例如，作为4D单位四元数[30，76]Jj=1阿尔布尔岛或其对数[11]，或作为表示角度和轴的3D矢量[7，73]。对于我们下面的分析来说，表示的确切选择并不重要而不损失我们进一步将投影矩阵P的第j列Pj分解为平移部分cj∈R3和方向部分rj∈ Rr，使得Pj=（cT，rT）T. 同样我们可以因此，为了一般性，我们简单地将方向表示为aj jr维向量∈Rr. 绝对相机姿势是将偏置项b分解为b=（cT，rT）T，得到：我b b因此表示为R3+r中的点。.Σ。cI=cb乌恩岛j=1jj.（三）绝对姿态回归。给定测试图像I，绝对相机姿态回归的任务是从阿尔布尔岛rb+nj=1 αIrj这张照片是在哪拍的该姿态是相对于给定场景坐标系定义的。为了解决这个问题，绝对相机姿态回归算法学习一个vi-请注意，方程式3还包括单独的嵌入和亲，用于照相机的位置和方向的投影，例如，如[78]。在这种情况下，投影矩阵具有以下形式：假设局部化函数L（I）=p<$I，其中p<$I=（c<$I，crI）是针对图像I预测的相机姿态。在下文中，.P=c1. . .CkΣ0的情况。-是的- 是的0.（四）我们将专注于通过卷积神经网络（CNN）表示函数L的方法[11，28绝对相机姿态回归是一个实例级问题。因此，用于绝对姿态回归的基于CNN的方法使用场景的一组图像作为训练数据，所述一组图像被标记为其相关联的相机姿态。没有姿态标签的附加图像序列也可以用于提供附加约束[11，74]。训练目标是最小化损失L（pI，pI），强制执行预测的姿态p_I类似于地面实况姿态p_I。的精确对我们的分析来说，损失的表述并不重要。0的情况。- 是的- 是的0rk+1 。. . Rn直观的解释。当量绝对姿态回归算法（诸如PoseNet 及其变体）学习基本姿态的集合B={（cj，rj）}，使得所有训练图像的姿态可以被表示为这些基本姿态的线性组合。基本姿态对预测姿态的贡献程度取决于输入图像的外观：第一阶段F（I）提供一组特征响应图。第二级E（F（I））然后生成高维向量α I=（α I，. . .，α I）T.每个条目αI的计算公式如下：1nj绝对姿态回归理论。我们通过CNN将绝对姿态回归分为三个阶段：表示函数F（I）的第一阶段从图像提取一组特征。这个阶段通常使用CNN的完全卷积部分来实现，例如VGG [66]或ResNet [25]。第二阶段计算特征到向量α I=（α I，. . .，α I）T∈Rn将来自第一阶段的特征激活相关联[76]，以及对应于基本姿态（cj，rj）。α I提供了给定输入图像的每个基本姿势的重要性。图1可视化了PoseNet [29，30]和MapNet [11]学习的基本姿势的平移部分{cj}，以及用于单独训练的组合33051在实践中，大多数方法通常计算圆锥组合，因为它们在线性投影之前使用ReLU激活。1N3306图像.从图的标度（以米为单位）可以看出，{cj}对应于具有小幅度的平移集合。从本质上讲，网络通过嵌入中的系数适当地缩放这些平移来学习将这些平移相加为绝对姿势（c.f.当量（3）第三章。因此，我们将{cj}称为基本平移而不是基本位置。请注意，图中的基本平移。1近似位于平面内，因为所有训练姿势都位于平面内。补充视频显示了基础翻译如何随着图像内容的变化而变化。4. 与基于结构的方法的视觉定位算法表示从图像内容到拍摄图像的相机姿态的映射目前定位的金标准是基于结构的方法[8，10，16，46，59，63，68，69]。这些方法建立图像中的2D像素位置与场景中的3D点坐标之间的对应关系然后通过求解Pestrian问题来计算相机姿态，即，通过找到最大化靠近其对应的2D位置投影的3D点的数量的姿态只要有足够多的正确匹配，基于结构的方法就能够估计姿态。与基于结构的方法相比，姿态回归算法不显式地使用关于投影几何的知识。相反，它们从数据中学习从图像内容到相机姿势的映射。基于我们的理论，绝对姿态回归方法具有足够的表达能力，能够在给定足够的训练数据的情况下学习此映射：图像内容的变化导致不同的特征图F（I），这导致嵌入E（F（I））的变化，从而导致不同的姿态（c.f.当量（3）第三章。假设正确的网络架构，损失函数和足够的训练数据，因此应该可以训练APR方法，该方法可以准确估计新视点的相机姿态。在实践中，收集大量的图像，计算训练姿势（例如，通过SfM），以及在大量数据上训练CNN因此，能够使用尽可能少的训练数据准确地预测姿态的方法是优选的。在下文中，我们使用我们的理论模型来预测姿势回归技术在具有有限训练数据的场景中的失败情况。我们通过实验验证了我们的预测。此外，我们表明，基于结构的方法，可以预期，能够处理这些情况。实验装置。对于本节中使用的实际实验，我们记录了新的数据集2。我们故意将训练数据量限制在每个场景的一个或几个场景中，并从不同的视点捕获测试图像训练和测试数据的地面真实姿势是2数据集可在https://github.com/tsattler/understanding_apr查阅。使用SfM获得[62]。我们通过手动测量距离将生成的3D模型缩放到米。对于评估，我们使用PoseNet [29，30]和MapNet [11]。我们使用PoseNet变体，它在训练过程中学习系数加权位置和方向误差[29]。这两种方法都是最先进的绝对姿态回归算法。我们使用主动搜索[59]来获得基于结构的方法的主动搜索使用Root-SIFT [4，40]特征来建立2D-3D匹配。它基于优先匹配，一旦找到200个匹配，就终止对应搜索。通过RANSAC [ 18 ]循环内的P3P求解器[31]估计姿态，然后对姿态进行非线性细化[1]。主动搜索所需的3D模型是通过将每个训练图像与附近的训练图像进行匹配并使用所提供的训练姿势对所得匹配进行三角测量来构建的。在线或平行线上捕获的训练数据。让T={（I，pI=（cI，rI））}是具有它们对应的相机姿态的训练图像的集合。如图所示3、摄像机姿态回归技术将图像的摄像机姿态表示为一组学习的基本姿态的线性组合。考虑一个场景，所有的训练摄像机位置都在一条线上。这表示最基本的数据捕获场景，对于从汽车捕获的数据，例如大规模的San Francisco [17]和RobotCar [42]数据集。在这种情况下，每个相机位置cl对应于线o+ δd上的点。这里，o ∈ R3是直线上的一个点，d ∈ R3是直线的方向，δ ∈ R是比例因子。因此，训练问题的一个可接受的解决方案，尽管不是唯一的解决方案，是将所有的基本平移cj放在线o + δd上。由于直线上的点的任何线性组合都位于直线上，因此该解永远不会推广。图2示出了该场景的两个示例：在第一个中，训练数据是在乘坐自动扶梯向上时捕获的。测试数据是在另一个通道中乘坐自动扶梯向下（再次向上看）时采集的。在第二个例子中，训练数据是在步行到建筑物正面时采集的，而测试数据是从稍远的地方采集的在这两种情况下，MapNet都清楚地将大多数基本平移放置在一条直线上。虽然有一些翻译不在线，这些主要是用来处理相机时代的抖动（c.f。supp.视频）。因此，MapNet将其测试姿势的估计值放置在结果线上或其附近，并且不会推广到不同的视点。这清楚地表明，保证不泛化的训练问题的解决方案不仅具有理论意义，而且可以在实践中观察到。PoseNet估计的基本平移明显更嘈杂，并且并不都位于一条线上。有趣的是，PoseNet仍然将所有测试姿势放在一条线上，通过训练图像。虽然基本姿势因此跨越比线上的位置更大的空间，但PoseNet仍然无法通用化。这是由于映射图像出现故障-3307JJ图2.两种绝对姿态回归技术PoseNet [29，30]和MapNet [11]无法推广的示例场景。对于这两个场景，网络学习（粗略地）沿着一条线插值。因此，测试图像的姿态也沿着这条线放置。请参见图的标题。1，以了解两个场景的颜色编码和基本平移的详细信息。对基本姿势的适当权重的处理，表明存在多个不泛化的解决方案。相比之下，主动搜索可以很好地处理这两种情况（参见图2）。更一般的轨迹。上面的论证利用了基本平移不需要跨越所有可能平移的空间来解释在一条线上拍摄的一组图像。如果训练轨迹更一般，例如，在平面运动的情况下，覆盖平面中的所有方向，该论证不再适用。对于更一般的训练轨迹，通常可以将每个可行的测试姿势表示为基本姿势的线性组合。然而，这只是推广的必要条件，而不是充分条件。从Eq可以看出3.绝对姿态回归技术通过系数αI将基本姿态与图像外观相耦合。考虑由子集定义的场景的部分 P训练图像的T′={I}基本姿态B={（cj，rj）}的相应相关子集B′（P′）为B′ （P′ ）={（cj ，rj ） |e 存在I∈T′， |αⅠ|>0}。（五）推广的一个更强的必要条件是每个这样的B′（P′）的线性跨度包含P′3中所有测试图像的姿态。在下文中，我们表明这在实践中不一定得到保证。图图1和图3示出了具有更一般运动的场景。对于每个场景，我们显示了训练和地面实况测试轨迹，以及PoseNet，MapNet和Active Search估计的测试轨迹。此外，我们还展示了这两个网络使用的基本翻译。由于训练图像是在平面中拍摄的，因此基础平移也位于平面中（直到一些噪声）。可以看出，网络能够概括场景的某些部分，例如，当测试轨迹与训练轨迹相交时，1.一、然而，在其他部分，他们似乎采取了某种形式的最近邻策略：测试姿态被放置在具有相似图像的训练轨迹的部分附近3这个条件是不充分的，因为网络可能无法学习“正确”的嵌入，以将所有测试姿势表示为B ′（P ′）的线性组合。外观. 在这些部分中，相关的基本平移不足以更准确地模拟测试位置。这表明在这些区域中需要更多的训练数据。它还表明，网络不会自动受益于在场景的不相关部分记录更多数据正如可以预期的，当测试图像和训练图像之间存在很少的视觉重叠时，主动搜索失败或产生不准确的姿势估计（参见图 10 ）。图中的示例测试图像。 3（左），其中在训练期间看不到图像中可见的壁）。尽管如此，主动搜索总体上更好地处理视点变化。图4示出了一个更复杂的示例，其中训练数据在多条平行线上捕获，并且应该足以解释测试姿势。在这种情况下，两个网络都能够估计接近这些线的姿势，但不能在它们之间适当地插值，并且不能概括超出它们的姿势。主动搜索主要处理训练图像和测试图像之间的大视角变化。然而，如果变化太大，则无法找到足够的匹配，从而无法估计姿势。对大视角变化更鲁棒的局部特征是一个活跃的研究领域[51，55]，基于结构的方法将自动受益于该领域的进展。使用密集采样的训练数据。在场景的一部分中使用更多数据进行训练应该直观地提高姿态回归技术的预测精度。为了验证这一假设，我们使用合成数据：我们使用多视图立体[64]从Cambridge Landmarks数据集[ 30 ]创建了商店立面场景的3D模型。然后，我们从原始训练和测试图像的姿势以及一组额外的姿势渲染[75这些姿势被放置在包含原始姿势的平面中的规则网格上，姿势之间的间距为我们只创建了距离原始训练姿势最多3米的姿势。每个附加姿势的方向被设置为最近的训练姿势的方向。改变到原始姿势的最大距离和网格间距，从而创建不同数量的训练数据。3308J图3.具有更一般的训练轨迹的示例场景，其中两种绝对姿态回归技术PoseNet [29，30]和MapNet [11]无法推广。请参见图的标题。1有关颜色编码的详细信息。最大距离-1m2m3M间距-1m0.5m0.25m1m0.5m0.25m1m0.5m0.25m#训练图像2035011,3154,5766832,0357,4258062,5319,412PoseNet [29]1.19/6.881.02/6.480.74/7.070.79/5.841.15/8.100.86/6.880.54/5.840.66/6.880.66/6.060.68/5.38[第11话]1.07/4.700.61/3.310.64/2.850.41/2.180.72/3.410.42/2.060.38/2.310.69/3.180.44/2.390.33/1.46[59]第五十九话0.01/0.04DenseVLAD [71]0.98/7.900.79/8.010.74/7.810.63/7.680.72/7.810.61/7.380.57/6.940.66/7.810.60/7.270.51/6.87DenseVLAD+Inter.0.89/5.710.75/5.620.52/6.650.45/6.930.57/5.960.48/6.130.41/6.410.49/6.070.46/6.260.38/6.41表1.通过渲染多视图立体重建获得的合成Shop Facade数据集上的中位位置/方向误差（以米/度为单位）。我们通过在规则网格上捕获的额外图像来增强训练集，改变图像之间的间距。我们只考虑到原始训练姿势的位置的某个最大距离内的额外图像。5. 与图像检索的比较如可见于图如图1和图3（右）所示，绝对姿态回归（APR）技术倾向于在几乎没有训练数据可用的区域中预测接近训练姿态的测试姿态。这种行为类似于图像检索方法。下面，我们将展示这种行为相似性并不是巧合。相反，APR和图像检索之间有很强的联系。我们还表明，APR方法并不总是优于检索基线。图4.见图的标题。1为细节。选项卡. 1比较了PoseNet和MapNet在不同数据量上的训练与仅使用原始训练姿势渲染的主动搜索4。如预期，使用更多与图像检索有关。设I为测试图像，J为训练图像，观察场景的同一部分。我们可以把嵌入α I写为α I= α J+ αI，对于某些集合αI。使用等式因此，我们可以通过下式将针对I估计的姿态（cI，crI）与针对J估计的姿态（cJ，crJ）相关联：训练数据提高了姿态精度。然而，PoseNet而MapNet的性能甚至不能接近主动搜索，.ΣcI.ΣcJ.ΣnΣicj.ΣcJ.Σc/I，J即使是多一个数量级的数据。阿尔布尔岛=100000J+的j=1Nj=1Jirj=100000J+I，J.（六）讨论当只有很少的训练数据可用并且需要处理重要的视点变化时，姿态回归技术不太可能工作得很好这显然限制了它们在实际应用中的相关性。即使有大量的训练数据，姿势回归也无法达到与基于结构的方法相同的性能。这清楚地表明了视觉定位的两种方法之间的基本概念差异我们将这种划分归因于这样一个事实，即后者是基于射影几何定律和场景的基本3D几何学。这反过来又使他们能够更好地处理视点更改。这里，（cI，J，crI，J）是集合的姿态，即，相对于为J预测的姿态来预测I的姿态。当量6突出了绝对姿态回归和图像检索之间的概念相似性标准图像检索方法首先找到与给定测试图像I最相似的训练图像J，其中相似性在一些特征空间中定义，例如词袋（BoW）[67]或VLAD [3，27，71]。然后通过检索图像的姿态来近似测试图像的姿态，即，（cI ，rI ）=（cJ，rJ），不添加偏移。然而，检索方法10还可以估计作为一个精细组合的一个f集合的一个f集合的一个f集合二进制Kai（cJ，rJ），ai= 1，其中i=1Σ33094本实验中使用的所有图像都是3D模型的渲染图。我们使用455×256像素的分辨率作为所有方法的输入前k个检索的训练图像J1，. -是的-是的，Jk. 设d（I）为我在检索过程中使用的图像的描述符权重ai3310可以通过找到最接近测试描述符的训练图像描述符Σkd（I），即，通过最小化||d（I）−ad（J）||亚回归方法能够始终优于检索基线。此外，姿态回归技术在性能上通常更接近于图像检索，而不是i=1ii2反对ai= 1。这种方法已被证明是有效的基于结构的方法。特别是，这些结果验证了在两个BoW表示之间进行线性插值[72]。注意这个插值和Eq. 3，其中使用经训练的基本姿态而不是检索到的图像的姿态。当量6还建立了APR方法和相对姿态回归（RPR）算法之间的关系。RPR方法首先识别与给定测试图像相关的一组训练图像，使用图像检索[7，35]或通过在CNN中编码训练图像[56]。然后，他们通过回归计算从训练图像到测试图像的RPR方法自然受益于计算多个训练图像的偏移量[7]。5.1. 实验比较基线。我们使用DenseVLAD[71]作为图像检索基线。DenseVLAD从图像中密集地提取RootSIFT [4，40]描述符，并将它们汇集到VLAD [27]描述符中。然后，通过PCA进行简化，在不相关的室外数据集上训练[71]，将描述符的维数降低到4096。欧几里德距离用于测量两个Den-seVLAD描述符之间的相似性。我们使用[71]提供的实现，但仅以单个尺度5提取RootSIFT描述符。我们选择了DenseVLAD，因为它使用手工制作的特征表示。同时，即使在具有挑战性的定位任务中，DenseVLAD也表现良好[60，61，71]。DenseVLAD通过最相似的训练图像的姿态来近似测试图像的姿态此外，我们还使用了一个变体，表示为DenseVLAD + Inter。，其使用上述插值方法我们使用所有排名前k的图像进行插值。由于在检索到的最佳图像中可能存在一些离群值，因此插值可能会降低姿态准确度。然而，我们决定尽可能简单地保持这个基线，因此没有实现离群值过滤机制。剑桥地标[30]和7个场景[65]。在第一个实验中，我们将最先进的姿态回归技术与Cam- bridge Landmarks [30]和7 Scene [65]数据集上的两个图像检索基线进行这两个相对小规模的数据集通常用于评估姿态回归方法。我们只比较从单个图像预测相机姿势的方法。选项卡. 图2示出了通过各种方法获得的中值位置和定向误差。从红色标记的结果可以看出，绝对和相对姿态都没有我们的理论分析认为，APR与图像检索比基于结构的方法。在四种性能最佳的姿态回归方法（MapNet [11]，RelocNet [7]，Relative PN [35]，AnchorNet [56]）中，有三种是 RPR 方法（ RelocNet ， Relative PN ，AnchorNet）。AnchorNet最接近基于结构的方法。它使用一种蛮力方法，基本上估计输入图像和每10个训练图像之间的姿势偏移。考虑到相对改进6，AnchorNet通常在每个场景中执行更接近于其他APR或RPR方法，而不是最佳执行的基于结构的方法它也未能优于街道场景上的简单DenseVLAD基线，街道场景是剑桥地标数据集中最大和最复杂的场景[10，50]。AnchorNet在回归CNN中对训练图像进行编码相比之下，Relative PN和RelocNet都执行显式的因此，他们也可以在不相关的场景中进行训练。除了在7个场景（7S）上训练的RelocNet和Relative PN之外，我们还与在其他数据集上训练的变体进行了比较（ScanNet（SN）[20]，University（U）[35]）。如Tab.所示。2，这两种方法目前都不能很好地使用该数据，因为它们不如DenseVLAD（其不需要训练）准确。Cambridge Landmarks和7 Scenes数据集的一个挑战是，训练图像和测试图像之间的姿势存在显着差异。如图所示。4、这对现有的回归技术是一个严峻的挑战在下文中，我们将重点放在训练和测试姿势之间具有较少延迟的场景上，这对于姿势回归技术来说应该容易得多。我们展示了两个这样的数据集上的结果。进一步的实验（在DeepLoc数据集[53]上）可以在supp.材料..TUM LSI [76]. Cambridge Landmarks和7 Scenes数据集中的场景通常纹理非常好。因此，我们可以预期DenseVLAD和Active Search [59]使用的SIFT描述符工作得相当好。相比之下，TUM LSI室内数据集[76]包含大型无纹理墙壁和重复结构。一般来说，我们希望学习方法的性能明显优于基于低级SIFT特征的方法，因为前者可以学习使用更高级的结构。如Tab中所3，在这个更具挑战性的数据集上，DenseVLAD仍然优于姿态RobotCar数据集[42]。LOOP和FULL场景的训练图像[11]对应于1.1 km5在搜索训练图像时，尺度不变性是不可取的从最相似的姿势拍摄。6定义为两种方法的位置/定向误差之比。3311表2. 剑桥地标[30]和7场景[65]数据集上的结果。我们比较了绝对（APR）和相对（RPR）姿态回归方法，图像检索（IR）技术和基于结构（3D）的方法。我们以米/度为单位报告中值位置/定向误差。DenseVLAD + Inter. 分别使用前20个（剑桥地标）前25个（7个场景）检索图像。红色数字显示方法未能优于图像检索（IR）基线。使用密集的采样数据。在Sec。4，我们的最后实验比较了图像检索和APR技术在一个合成场景，其中大量的训练数据是表3.TUM LSI上的中值位置和方向误差数据集[76]。前2个检索到的图像用于插值。available. 如Tab.所示1，当有更多的训练数据可用时，MapNet优于图像检索基线1.00.81.00.8尽管如此，它的性能比基于结构的方法更接近检索基线。0.60.40.20.0转换误差（m）0.60.40.20.0转换误差（m）6. 结论本文导出了绝对位姿回归（APR）算法的理论模型.这是第一次，这个模型使我们能够更好地理解图5.精液（左）RobotCar LOOP和（右）RobotCar FULL的位置误差分布。在较大的数据集上，Den- seVLAD显著优于姿态回归技术。和9.6公里，分别由汽车驾驶通过驱动相同的轨迹来获得测试图像该数据集表示在自动驾驶期间遇到的场景。图5示出了姿态回归和图像检索技术的位置误差的累积分布。正如预期的那样， MapNet+ 和MapNet+PGO在较小的LOOP数据集上的表现优于Den-seVLAD。然而，他们表现形式显着更大的全场景7。尽管MapNet+使用额外的训练序列，MapNet+PGO使用来自多个图像的信息进行预测。姿势回归的这种可扩展性问题与文献中的类似观察结果一致[60，63，69]。7DenseVLAD在FULL场景上的准确度略高于LOOP数据集。我们将此归因于图像质量，因为LOOP场景的测试集包含几个曝光过度的图像。什么是APR方法，什么是APR方法。基于我们的理论，我们预测APR技术不能保证在实际场景中从训练数据中推广。我们还表明，APR是更密切相关的图像检索方法，而不是通过3D几何准确估计相机姿态的方法这些预测已通过大量的实验验证我们的论文的第二个主要结果是表明，姿态回归技术目前正在与近似测试姿态的图像检索方法竞争，而不是与准确计算姿态的方法竞争。更准确地说，我们已经证明，目前没有姿势回归方法始终优于手工检索基线。因此，本文介绍了一个重要的判断姿态回归方法的合理性检查，表明在姿态回归方法变得实际相关之前，还有大量的研究要做鸣谢。这项研究部分由洪堡基金会通过Sofja Kovalevskaya奖资助。PoseNetMapNetLSTM密集密集VLAD[30][11][76][71][72][73][74][75]1.87m、6.14< $1.71m、3.50< $1.31m、2.79< $1.08m、1.82<剑桥地标旧国王店圣玛丽的2.65/8.481.49/3.432.11/8.381.57/3.321.52/6.682.93/6.462.11/8.11街象棋0.32/8.120.14/4.500.37/7.240.13/4.480.24/5.770.20/7.11七个场景消防处0.48/7.680.20/5.770.48/8.040.19/5.550.30/8.080.38/12.3 0.21/13.8 0.28/8.83南瓜0.47/8.420.25/4.820.61/7.080.26/4.750.33/7.000.37/6.94厨房楼梯[30]第三十话1.92/5.402.31/5.38 1.46/8.08PN学习权重[29]0.99/1.062.17/2.941.05/3.9720.7/25.7湾PN [28]geo. PN [29]LSTM PN [76]GPoseNet [12][50]第五十话[44]第四十四话BranchNet [78][第11话][第11话]MapNet+PGO [11]相对PN [35]（U）相对PN [35]（7S）RelocNet [7]（SN）RelocNet [7]（7S）AnchorNet [56][71 ]第71话：我的世界[59]第五十九话[第46话]DSAC++[10]InLoc [69]1.74/4.062.57/5.14 1.25/7.540.88/1.043.20/3.29 0.88/3.780.99/3.651.51/4.291.18/7.441.61/2.292.62/3.891.14/5.731.06/2.811.50/4.03 0.63/5.7320.3/25.50.47/14.4 0.29/12.00.27/11.80.18/12.10.43/13.7 0.31/12.00.27/11.30.17/13.00.34/11.90.21/13.70.59/8.640.47/13.80.24/5.520.37/10.60.58/7.540.48/13.10.23/5.350.35/12.40.37/8.830.40/13.70.35/8.150.37/12.51.07/1.891.94/3.911.49/4.222.00/4.530.15/6.170.18/5.170.08/3.250.10/3.170.09/3.240.31/15.00.13/6.460.27/10.80.19/11.60.34/8.990.20/14.20.27/11.70.18/13.30.20/9.04 0.13/11.10.20/9.29 0.12/8.450.40/19.0 0.24/22.20.26/12.7 0.14/12.30.21/8.480.30/7.050.17/5.150.18/5.380.19/5.420.38/14.10.21/7.350.25/7.010.27/5.100.22/4.020.19/3.920.19/3.960.44/18.20.24/6.350.27/10.20.29/12.50.33/7.400.38/10.30.23/4.930.30/12.10.20/5.010.30/13.40.20/4.940.27/10.60.41/16.5 0.35/23.60.24/8.030.27/11.80.21/10.90.32/11.80.15/13.40.31/10.30.40/10.90.33/10.3 0.33/11.40.57/0.881.21/2.55 0.52/2.272.80/5.724.01/7.13 1.11/7.611.48/4.452.68/4.63 0.90/4.320.42/0.550.44/1.01 0.12/0.400.39/0.360.30/0.41 0.15/0.310.18/0.30.20/0.30.06/0.31.04/2.692.31/8.001.62/6.060.19/0.540.20/0.400.13/0.47.86/24.25.16/23.515.4/25.70.85/0.80.12/4.140.06/3.890.21/12.50.18/10.00.04/1.960.26/10.40.14/10.50.15/10.3 0.

下载后可阅读完整内容，剩余1页未读，立即下载