基于深度学习的相机姿态回归的几何损失函数

165 浏览量更新于2023-10-15 收藏 18.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

159740基于深度学习的相机姿态回归的几何损失函数0Alex Kendall和RobertoCipolla剑桥大学0{ agk34, rc10001 } @cam.ac.uk0摘要0深度学习已经证明对于稳健和实时的单目图像重定位非常有效。特别是PoseNet[22]是一个深度卷积神经网络，它学习从单个图像中回归出6自由度相机姿态。它学习使用高级特征进行定位，并且对于困难的光照、运动模糊和未知的相机内参具有稳健性，而基于点的SIFT注册则失败。然而，它使用了一个天真的损失函数进行训练，其中的超参数需要昂贵的调整。在本文中，我们对这个问题进行了更基本的理论处理。我们探索了一些基于几何和场景重投影误差的新型损失函数来学习相机姿态。此外，我们展示了如何自动学习最佳权重以同时回归位置和方向。通过利用几何学，我们证明了我们的技术在从室内房间到小城市的各种数据集上显著改善了PoseNet的性能。01. 引言0设计一个可靠的大规模定位系统是一个具有挑战性的问题。哺乳动物大脑中的定位系统位于海马体，该发现获得了2014年诺贝尔生理学或医学奖[36,32]。对于计算机视觉来说，这也是一个重要的问题，定位技术对于许多应用非常关键，包括自动驾驶车辆、无人机和增强现实。最先进的定位系统在受控环境中表现非常出色[24, 34, 12, 33,44]。然而，由于无法应对大视角或外观变化，我们尚未看到它们在野外的广泛使用。许多视觉定位系统使用SIFT[30]或ORB[40]等点地标进行定位。这些特征在增量跟踪和估计自我运动方面表现良好[33]。然而，这些点特征无法创建足够稳健的表示来应对具有挑战性的现实场景。例如，点特征06自由度相机姿态0单个RGB输入图像0图1：PoseNet[22]通过基于场景几何的原则性损失函数来学习从单个单目图像中估计相机的六自由度姿态。在本文中，我们展示了如何在没有任何超参数的情况下应用这种损失函数来学习相机姿态。0传统的视觉定位系统往往在不同的天气、光照或环境条件下不够稳健。此外，它们缺乏捕捉全局上下文的能力，并需要对数百个点进行强大的聚合以形成共识来预测姿态[57]。为了解决这个问题，我们引入了PoseNet [22,19]，它使用端到端的深度学习从单个输入图像中预测相机姿态。与SIFT[30]等点特征相比，它表现出更强的深度学习定位能力。PoseNet使用基于外观和形状的整个图像上下文来学习表示。这些特征具有很好的泛化能力，可以在具有挑战性的光照和外观变化下进行定位。它还非常快速，能够在几毫秒内回归相机的姿态。它非常可扩展，因为它不需要大量的地标数据库。相反，它通过像素到与姿态线性相关的高维空间的映射来学习。PoseNet[22]的主要缺点是尽管它具有可扩展性和稳健性，但其度量精度与其他几何方法相比不够准确。59750[44,49]。在本文中，我们认为PoseNet之所以无法取得这样的效果，部分原因是因为它天真地将深度学习模型端到端地应用于学习相机姿态。在这项工作中，我们重新考虑了这个问题，并以几何学为基础。我们希望借鉴多视图几何学[14]几十年的研究成果，提高我们使用深度学习回归相机姿态的能力。本文的主要贡献是使用基于几何形成的损失函数改进PoseNet的性能。仅仅使用监督学习来回归位置和旋转量并不是一件简单的事情。PoseNet需要一个权重因子来平衡这两个属性，但对于这个超参数的选择并不容忍。在第3.3节中，我们探索了一些消除这个超参数或直接从数据中优化它的损失函数。在第3.3.4节中，我们展示了如何使用重投影误差直接从场景几何中进行训练。在第4节中，我们在一系列数据集上展示了我们的系统，从单个室内房间到Dubrovnik城市数据集[26]。我们展示了我们的几何方法可以改善PoseNet在许多不同数据集上的效果，缩小与传统基于SIFT特征的算法之间的差距。对于从50,000平方米到2平方公里的室外场景，我们可以实现几米和几度的重定位精度。在小房间中，我们能够实现0.2-0.4米的精度。02. 相关工作0大规模定位研究可以分为两类：地点识别和度量定位。地点识别将世界离散化为多个地标，并尝试确定给定图像中可见的地点。传统上，这被建模为图像检索问题[6, 9, 53,45]，从而可以使用高效且可扩展的检索方法[35,38]，如词袋（BoW）[47]、VLAD [17,10]和Fisher向量[18]。深度学习模型也被证明对于创建高效的描述符非常有效。许多方法利用分类网络[39, 13, 3,52]，并在定位数据集上进行微调[4]。值得注意的其他工作是PlaNet[55]，它训练了一个分类网络来在全球范围内定位图像。然而，所有这些网络都必须将世界离散化为地点，并且无法产生对6自由度姿态的精细估计。相反，度量定位技术估计相机的度量位置和方向。传统上，这是通过计算查询图像中的2D特征与模型中的3D点之间的2D-3D对应关系来实现的，这些对应关系是通过描述符匹配确定的[7, 28, 27, 42,49]。这假设场景由3D结构运动模型表示。可以非常精确地估计查询图像的完整6自由度姿态[44]。然而，这些0传统方法需要具有大量特征和高效检索方法的3D模型数据库。它们计算成本高，通常不具有良好的可扩展性，并且通常对环境条件的变化不具有鲁棒性[54]。在这项工作中，我们解决了使用深度学习进行度量定位的更具挑战性的问题。PoseNet[22]引入了训练卷积神经网络回归相机姿态的技术。它结合了地点识别和定位方法的优势：它可以在没有良好初始姿态估计的情况下进行全局重定位，并产生连续的度量姿态。与构建地标特征地图（或数据库）不同，神经网络学习的特征的大小不像地图那样需要与场景大小成线性比例的内存。后续工作将PoseNet扩展到使用RGB-D输入[25]，学习相对自我运动[31]，改进特征的上下文[54]，在视频序列中定位[8]以及使用贝叶斯神经网络解释重定位不确定性[19]。此外，[54]还展示了PoseNet在无特征的室内环境中的有效性，他们证明了在相同环境中基于SIFT的运动结构技术的失败。尽管PoseNet具有可扩展性和鲁棒性[22]，但与传统方法[44]相比，它不能产生足够准确的姿态估计。它设计了一个天真的回归损失函数，该函数在训练网络时没有考虑几何形状。这个问题是本文的重点 -我们不想抛弃对多视角几何的几十年研究成果[14]。我们通过对场景几何进行基本处理来提高PoseNet的性能。03. 相机姿态回归模型0在本节中，我们描述了我们训练的卷积神经网络模型的细节，该模型可以直接从单目图像中估计相机姿态。我们的网络输出一个姿态估计值ˆp，该姿态由3D相机位置ˆx和方向ˆq给出。我们使用四元数来表示方向，原因在第3.2节中讨论。姿态p相对于任意全局参考坐标系定义。在实践中，我们将这个全局参考坐标系的中心设置为所有相机姿态的平均位置。我们使用通过运动结构或其他方式（第4.1节）获得的姿态标签p = [x, q]进行监督学习来训练模型。03.1. 架构0我们的姿势回归公式可以应用于通过反向传播训练的任何神经网络。在本文的实验中，我们采用了一个用于分类的最先进的深度神经网络架构GoogLeNet[51]作为开发我们的姿势回归网络的基础。这使我们能够使用预训练的权重，例如从在ImageNet数据集[11]中对图像进行分类训练的模型中。我们观察到，这些预训练特征通过迁移学习[37]对PoseNet进行了正则化和性能改进。尽管如此，为了推广PoseNet，我们可以将其应用于任何为图像分类设计的深度架构，具体步骤如下：1.删除用于分类的最后一个线性回归和softmax层2.添加一个线性回归层。这个全连接层被设计为输出一个七维姿势向量，表示位置（3维）和方向（4维四元数）3. 插入一个归一化层，将四维四元数方向向量归一化为单位长度An important consideration when designing a machinelearning system is the representation space of the output.We can easily learn camera position in Euclidean space[22]. However, learning orientation is more complex. Inthis section we compare a number of different parametri-sations used to express rotational quantities; Euler angles,axis-angle, SO(3) rotation matrices and quaternions [2].We evaluate their efﬁcacy for deep learning.Firstly, Euler angles are easily understandable as an in-terpretable parametrisation of 3-D rotation. However, theyhave two problems. Euler angles wrap around at 2π radi-ans, having multiple values representing the same angle.Therefore they are not injective, which causes them to bechallenging to learn as a uni-modal scalar regression task.Additionally, they do not provide a unique parametrisationfor a given angle and suffer from the well-studied problemof gimbal lock [2]. The axis-angle representation is anotherthree dimensional vector representation. However like Eu-ler angles, it too suffers from a repetition around the 2πradians representation.Rotation matrices are a over-parametrised representationof rotation. For 3-D problems, the set of rotation matricesare 3×3 dimensional members of the special orthogonal Liegroup, SO(3). These matrices have a number of interestingproperties, including orthonormality. However, it is difﬁ-cult to enforce the orthogonality constraint when learning aSO(3) representation through back-propagation.In this work, we chose quaternions as our orientation rep-resentation. Quaternions are favourable because arbitraryfour dimensional values are easily mapped to legitimate ro-tations by normalizing them to unit length. This is a simplerprocess than the orthonormalization required of rotationmatrices. Quaternions are a continuous and smooth repre-sentation of rotation. They lie on the unit manifold, whichis a simple constraint to enforce through back-propagation.Their main downside is that they have two mappings foreach rotation, one on each hemisphere. However, in Sec-tion 3.3.1 we show how to adjust the loss function to com-59760设计机器学习系统时的一个重要考虑因素是输出的表示空间。我们可以很容易地在欧几里德空间中学习相机位置[22]。然而，学习方向更加复杂。在本节中，我们比较了用于表示旋转量的多种不同参数化方法；欧拉角、轴角、SO(3)旋转矩阵和四元数[2]。我们评估了它们在深度学习中的有效性。首先，欧拉角作为3D旋转的可解释参数化方法很容易理解。然而，它们有两个问题。欧拉角在2π弧度处绕回，有多个值表示相同的角度。因此，它们不是单值的，这使得它们作为单模态标量回归任务具有挑战性。此外，它们不能为给定角度提供唯一的参数化，并且受到了已知的万向锁问题的影响[2]。轴角表示是另一种三维向量表示。然而，像欧拉角一样，它也在2π弧度表示上有重复。旋转矩阵是旋转的过度参数化表示。对于3D问题，旋转矩阵集是特殊正交李群SO(3)的3×3维成员。这些矩阵具有许多有趣的性质，包括正交性。然而，通过反向传播学习SO(3)表示时，很难强制执行正交性约束。在这项工作中，我们选择四元数作为我们的方向表示。四元数是有利的，因为任意的四维值可以通过将它们归一化为单位长度轻松映射为合法的旋转。这个过程比旋转矩阵所需的正交化过程更简单。四元数是旋转的连续和平滑表示。它们位于单位流形上，这是一个通过反向传播很容易强制执行的简单约束。它们的主要缺点是每个旋转有两个映射，一个在每个半球上。然而，在第3.3.1节中，我们将展示如何调整损失函数来补偿这一点。03.2. 姿势表示0为此进行补偿。03.3. 损失函数0到目前为止，我们已经描述了姿势表示的结构，我们希望我们的网络能够学习到。接下来，我们讨论如何设计一个有效的损失函数来学习估计相机的六自由度姿态。这是一个特别具有挑战性的目标，因为它涉及到学习两个不同的量 -旋转和平移 -具有不同的单位和尺度。本节定义了一些损失函数，并探讨了它们在相机姿态回归中的有效性。我们从第3.3.2节开始，描述了PoseNet[22]提出的原始加权损失函数。在第3.3.3节中，我们改进了这个损失函数，引入了一种新的损失函数，可以自动学习旋转和平移之间的权重，使用同方差任务不确定性的估计。此外，在第3.3.4节中，我们描述了一种将位置和方向组合为单个标量的损失函数，使用了重投影误差几何。在第4.2节中，我们比较了这些损失函数的性能，并讨论了它们的权衡。03.3.1 学习位置和方向0我们可以通过在欧几里得空间中形成一个平滑、连续和单射的回归损失函数来学习估计相机位置，Lx(I)=∥x−ˆx∥γ，其中范数由γ给出（[22]使用了L2欧几里得范数）。然而，学习相机方向并不那么简单。在第3.2节中，我们描述了一些表示方向的选项。四元数是深度学习中的一个有吸引力的选择，因为它们可以以连续和可微的方式进行表达。旋转的集合存在于四元数空间中的单位球上。我们可以通过将任何四维向量映射到一个有效的四元数旋转，方法是将其归一化为单位长度。[22]演示了如何学习回归四元数值：0Lq(I)=||q−ˆq||0∥ˆq∥0γ(1)0在欧几里得空间中使用距离范数γ不会努力保持q在单位球上。然而，我们发现在训练过程中，q变得足够接近ˆq，以至于球面距离和欧几里得距离之间的区别变得微不足道。为了简化和避免对优化造成不必要的约束，我们选择省略球面约束。四元数的主要问题是它们不是单射的，因为它们有两个唯一值（来自每个半球），它们映射到一个旋转。这是因为四元数q与−q相同。为了解决这个问题，我们将所有四元数约束在一个半球上，以便每个旋转都有一个唯一的值。1282565121,0241.522.53246597703.3.2 同时学习位置和方向0学习相机姿态的挑战在于设计一个能够同时学习位置和方向的损失函数。最初，我们提出了一种将位置和方向组合成一个线性加权和的损失函数的方法[22]，如式（2）所示：0Lβ(I)=Lx(I)+βLq(I) (2)0因为x和q以不同的单位表示，所以使用一个缩放因子β来平衡损失。这个超参数试图使位置和方向误差的期望值大致相等。有趣的是，我们观察到，一个同时训练来回归相机位置和方向的模型比单独训练每个任务的模型表现更好。图2显示，仅有位置或仅有方向信息时，网络无法准确确定表示相机姿态的函数。当用平移和方向标签同时监督时，模型学习到了更好的姿态表示。我们还尝试将网络分支到两个独立的组件来回归位置和方向。然而，我们发现这样做也不太有效，原因类似：将位置和方向分开会使得每个特征缺乏从位置中分离方向或从方向中分离位置所需的信息。然而，这样做的后果是超参数β需要进行重要调整才能得到合理的结果。在损失函数（2）中，必须在方向和平移惩罚之间取得平衡（图2）。它们高度耦合，因为它们是从相同的模型权重回归得到的。我们发现，对于室外场景，β要大一些，因为位置误差往往相对较大。根据这个直觉，可以使用网格搜索来微调β。对于室内场景，它在120到750之间，对于室外场景，它在250到2000之间。在实践中，这是一项昂贵的任务，因为每个实验可能需要数天才能完成。因此，希望找到一种消除这个超参数的损失函数。因此，本节的其余部分将探讨不同的损失函数，旨在自动找到最佳权重。03.3.3 学习最优权重0理想情况下，我们希望一个损失函数能够在不包含任何超参数的情况下最优地学习位置和方向。因此，我们提出了一种新颖的损失函数，能够在位置和方向目标函数之间学习权重。我们使用同方差不确定性来制定它，我们可以使用概率深度学习来学习它。同方差不确定性是一种不依赖于输入数据的不确定性度量，与异方差不确定性相反。0Beta权重β0中位数位置误差（m）0中位数方向误差（◦）0位置0方向0图2：在使用（2）中的损失函数的情况下，对于一个室内场景的单个模型，使用一系列比例因子对位置和方向回归的相对性能进行评估，该场景来自剑桥地标中的国王学院场景，这证明了使用最佳比例因子进行学习可以使网络发现更准确的姿态函数。0它是输入数据的函数[20]。相反，它捕捉任务本身的不确定性。在[21]中，我们展示了如何利用这一见解以概率方式组合不同任务的损失。在这里，我们展示了如何应用这一方法来学习相机的位置和方向（使用拉普拉斯似然）：0Lσ(I) = Lx(I)ˆσ−2x + logˆσ2x + Lq(I)ˆσ−2q + logˆσ2q (3)0我们通过反向传播优化同方差不确定性ˆσ2x，ˆσ2q，通过损失函数。这些不确定性是自由标量值，不是模型输出。它们代表同方差（任务）噪声。该损失由两个组成部分组成；残差回归和不确定性正则化项。我们从损失函数中隐式地学习方差σ2。由于方差较大，它对残差回归项有一种调和效应；较大的方差（或不确定性）导致较小的残差损失。第二个正则化项防止网络预测无限不确定性（因此损失为零）。由于我们预期四元数值要比位置噪声σ2x小得多（它们被约束在单位流形上），它们的噪声σ2q应该比位置噪声σ2x小得多，后者可以达到几米的数量级。由于σ2q应该比σ2x小得多，因此方向回归应该比位置加权高得多-与(2)中的β具有类似的效果。在实践中，我们学习ˆs :=logˆσ2，因为它更稳定[21]：0Lσ(I) = Lx(I)exp(−ˆsx)+ˆsx + Lq(I)exp(−ˆsq)+ˆsq (4)0这比回归方差σ2更稳定，因为该损失避免了除以零的可能性。指数映射还允许我们回归无约束的标量值，其中exp(−si)解析为正域，给出方差的有效值。我们发现这种损失对于我们的初始化选择非常稳健。π(x, q, g) �→�uv�(5)w′�Lg(I) =1|G′|�gi∈G′∥π(x, q, gi) − π(ˆx, ˆq, gi)∥γ(7)59780对于同方差任务不确定性值。只需要一个近似的初始猜测，我们任意使用初始值ˆsx = 0.0，ˆsq =−3.0，对于所有场景。03.3.4 从几何重投影误差中学习0也许更理想的损失是不需要平衡旋转和位置数量的损失。场景几何的重投影误差是一种将旋转和平移自然地结合在单个标量损失中的表示[14]。重投影误差是由场景中的3D点在使用地面真实和预测的相机姿态将其投影到2D图像平面上的残差给出的。因此，它将旋转和平移量转换为图像坐标。这自然地根据场景和相机几何加权平移和旋转量。为了制定这个损失，我们首先定义一个函数π，它将一个3D点g映射到2D图像坐标(u,v)T：0其中 x 和 q 表示相机的位置和方向。这个函数 π定义如下：�0其中 K 是相机的内部标定矩阵，R 是将 q 映射到其 SO (3)旋转矩阵的映射，q 4 × 1 �→ R 3 × 3。我们通过计算预测的相机姿态和地面真实标签之间的重投影误差的范数来制定这个损失函数。我们从场景中所有可见于图像 I 中的三维点集 G 中取子集 G ′ 。最终的损失函数(7) 是所有点 g i ∈ G ′ 的残差的平均值：0其中 ˆx 和 ˆq 是PoseNet预测的相机姿态，x 和 q是地面真实标签，范数 γ在第3.3.5节中讨论。需要注意的是，由于我们使用地面真实和预测的相机姿态来投影三维点，我们可以应用任意的相机模型，只要两个相机使用相同的内部参数。因此，为了简化起见，我们将相机内参矩阵 K 设置为单位矩阵 -不需要相机标定。这个损失函数将旋转和平移量隐式地组合到图像坐标中。在许多应用中，如增强现实，最小化重投影误差通常是这些量之间最理想的平衡。0这种损失的关键优势在于它允许模型根据训练图像中的具体几何形状来调整位置和方向之间的权重。例如，远离的几何形状的训练图像会以不同的方式平衡旋转和平移损失，而靠近相机的几何形状的图像则会以不同的方式平衡旋转和平移损失。0有趣的是，在尝试使用原始加权损失函数 (2)进行实验时，我们观察到超参数 β是场景几何的近似函数。我们观察到它是场景中地标距离和大小的函数。我们的直觉是，β的最佳选择是近似于场景几何的重投影误差。例如，如果场景非常远，那么旋转比平移更重要，反之亦然。对于具有大量地标的复杂场景，这个函数不容易建模。它会随着数据集中的每个训练样本而变化。通过学习重投影误差，我们可以更直接地利用对场景几何的了解来自动推断这个权重。0通过投影模型进行几何投影是一个可微分的操作，涉及矩阵乘法。因此，我们可以使用这个损失函数来通过随机梯度下降训练我们的模型。重要的是要注意，我们不需要知道相机的内部参数来投影这个三维几何体。这是因为我们将相同的投影应用于模型预测和地面真实测量，所以我们可以使用任意值。0需要注意的是，为了进行三维点的重投影，我们需要对场景的几何形状有一定的了解。几何形状通常是已知的；如果我们的数据是通过结构运动、RGBD数据或其他传感数据获得的（参见第4.1节）。只有图像 I中可见的场景中的点被用来计算损失。我们还发现忽略投影到图像边界之外的点对于数值稳定性很重要。03.3.5回归规范0这些损失的一个重要选择是回归规范 ∥ ∥ γ。通常，深度学习模型使用 L 1 = ∥ ∥ 1 或 L 2 = ∥ ∥ 2。我们还可以使用鲁棒范数，如Huber损失[16]和Tukey损失[15]，这些范数已成功应用于深度学习[5]。对于相机姿态回归，我们发现它们会对性能产生负面影响，过度衰减困难样本。我们怀疑对于更嘈杂的数据集，这些鲁棒回归函数可能是有益的。在本文使用的数据集中，我们发现 L 1规范表现最好，因此使用 γ = 1。它不会随着大小的增加而呈二次增加，也不会过度衰减大的残差。59790(a) 7个场景数据集 - 来自小型室内环境中的七个场景的43,000张图像[46]。0(b) 剑桥地标数据集 - 来自英国剑桥周围六个场景的10,000多张图像[22]。0(c) 杜布罗夫尼克6K数据集 - 来自克罗地亚杜布罗夫尼克的各种相机类型的6,000张图像[29]。0图3：从每个数据集中随机选择的示例图像。这展示了各种设置和尺度以及每个数据集中捕捉到的光照、遮挡、动态物体和天气等具有挑战性的环境因素的多样性。0数据集类型尺度影像场景训练图像测试图像 3D点空间区域07个场景[46] 室内房间 RGB-D传感器（Kinect） 7 26,000 17,000 - 4 × 3m 剑桥地标[22] 室外街道手机摄像头 6 8,380 4,841 2,097,191 100 × 500m杜布罗夫尼克6K[26] 室外小镇互联网图像（Flikr） 1 6,044 800 2,106,456 1.5 × 1.5km0表1：本文实验中使用的定位数据集的摘要。这些数据集都是公开可用的。它们展示了我们的方法在室内和室外应用的不同尺度上的性能。04. 实验0为了在多个数据集上训练和评估我们的模型，我们将输入图像进行缩放，使最短边的长度为256。我们对图像进行归一化处理，使输入像素强度范围为-1到1。我们使用TensorFlow中的PoseNet架构进行训练。0Flow [1]。所有模型都使用ADAM[23]进行端到端优化，使用默认参数和学习率为1 × 10 -4。我们训练每个模型直到训练损失收敛。我们在NVIDIATitanX（Pascal）GPU上使用批量大小为64，训练大约需要20k -100k次迭代，或者4小时 - 1天。�59800剑桥地标, 国王学院 [22] 杜布罗夫尼克6K [29]0中位误差准确率中位误差准确率损失函数 x [ m ] q [ ◦ ] < 2 m, 5 ◦ [ % ] x [ m ] q [ ◦ ] < 10 m, 10 ◦ [ % ]0线性求和, β = 500 (2) 1.52 1.19 65.0% 13.1 4.68 30.1% 学习加权与同方差不确定性 (3) 0.99 1.06 85.3% 9.88 4.73 41.7%0重投影损失不收敛0学习加权预训练 → 重投影损失 (7) 0.88 1.04 90.3% 7.90 4.40 48.6%0表2：不同损失函数的比较。我们在每个损失中使用L1距离作为残差。线性求和使用常数缩放参数β[19]将位置和方向损失组合起来，定义如(2)。学习加权是(3)中的损失函数，它通过同方差不确定性学习将位置和方向组合起来。重投影误差通过使用场景几何的重投影误差作为损失（7）隐式地组合旋转和平移。我们发现同方差不确定性能够学习到位置和方向数量之间的有效权重。重投影损失无法从随机初始化中收敛。然而，当用于微调使用(3)预训练的网络时，它能够产生最好的结果。04.1. 数据集0深度学习在大型数据集上表现非常出色。然而，在这些数据集上注释地面真实标签通常是昂贵或非常费力的。我们可以利用运动结构[48]或类似的算法[46]从图像数据[22]中自动生成训练标签（相机姿态）。我们使用三个数据集来评估我们的方法。这些数据集在表1中进行了总结，并在图3中展示了示例图像。我们使用这些数据集来展示我们的方法在各种设置和尺度下的性能。我们努力展示该方法的普适性。剑桥地标[22]提供了用于在室外城市环境中训练和测试姿态回归算法的标记视频数据。它使用智能手机进行收集，并使用运动结构生成姿态标签[56]。数据集中存在大量的城市杂乱，如行人和车辆，并且数据是在不同的时间点从许多不同的位置收集的，代表了不同的光照和天气条件。训练和测试图像来自不同的行走路径，而不是从同一轨迹采样，使得回归变得具有挑战性。7个场景[46]是一个室内数据集，使用Kinect RGB-D传感器进行收集。使用Kinect Fusion[46]计算了地面真实姿态。该数据集包含了围绕办公楼捕捉到的七个场景。每个场景通常由一个单独的房间组成。该数据集最初是为RGB-D重定位而创建的。对于使用类似SIFT的特征进行纯视觉重定位来说，它非常具有挑战性，因为它包含许多模糊的无纹理特征。杜布罗夫尼克6K[26]是一个数据集，包含了6,044个训练图像和800个测试图像，这些图像是从互联网上获取的。它们来自克罗地亚杜布罗夫尼克的旧城，是一个联合国教科文组织世界遗产。这些图像主要由各种相机类型的游客拍摄。该数据集的地面真实姿态是使用运动结构计算的。04.2. 损失函数的比较0在表2中，我们比较了不同损失和回归范数的组合。我们比较了剑桥地标数据集[22]和Dubrovnik6K数据集[26]中的场景结果，该数据集包含了多种相机的图像。我们发现，使用（3）中的损失来建模同方差不确定性能够有效地学习位置和方向之间的权重。它优于损失（2）中使用的常数权重。使用（7）中的投影损失无法从随机初始化中训练模型。我们观察到，当使用任何回归范数时，模型会陷入一个较差的局部最小值。然而，当使用任何其他损失预训练权重时，投影损失能够提高定位性能。例如，我们可以选择使用（3）中的损失表现最佳的模型，并使用投影损失（7）进行微调。我们观察到，这个损失能够有效地收敛。这表明，投影损失对于较大的残差不具有鲁棒性。这是因为如果网络进行了较差的姿态预测，重新投影的点很容易被放置在图像中心较远的位置。因此，我们推荐以下两步训练方案：1.使用（3）中的损失训练模型，学习位置和方向之间的权重。02.如果已知场景几何（例如来自运动结构或RGBD相机数据），则使用（7）中的投影损失微调模型。04.3. 定位准确性基准测试0在表3中，我们展示了我们基于几何的损失函数优于原始PoseNet的朴素损失函数[22]。我们观察到在室内和室外的剑桥地标数据集中都有一致且显著的改进。我们得出结论，通过考虑场景几何可以更有效地同时学习位置和方向。对于7Scenes数据集，改进尤为明显。我们认为这是由于训练数据量显著增加所致。each scene in this dataset, compared with Cambridge Land-marks. We also outperform the improved PoseNet archi-tecture with spatial LSTMs [54].However, this methodis complimentary to the loss functions in this paper, and itwould be interesting to explore the union of these ideas.We observe a difference in relative performance betweenposition and orientation when optimising with respect to re-projection error (7) or homoscedastic uncertainty (3). Over-all, optimising reprojection loss improves rotation accuracy,sometimes at the expense of some positional precision.4.4. Comparison to SIFT-feature approachesTable 3 also compares to a state-of-the-art traditionalSIFT feature based localisation algorithm, Active Search[43].This method outperforms PoseNet, and is effec-tive in feature-rich outdoor environments. However, in the7Scenes dataset this deﬁcit is less pronounced. The indoorscenes contain much fewer point features and there is signif-icantly more training data. As an explanation for the deﬁcitin these results, PoseNet only uses 256 × 256 pixel images,while SIFT based methods require images of a few mega-pixels in size [43]. Additionally, PoseNet is able to localisean image in 5ms, scaling constantly with scene area, whiletraditional SIFT feature approaches require over 100ms,and scale with scene size [43].In Table 4 we compare our approach on the Dubrovnikdataset to other geometric techniques which localise by reg-istering SIFT features [30] to a large 3-D model [26]. Al-though our method improves signiﬁcantly over the originalPoseNet model, it is still yet to reach the ﬁne grained accu-racy of these methods [50, 57, 41, 29]. We hypothesise thatthis is due to a lack of training data, with only 6k imagesacross the town. However, our algorithm is signiﬁcantlyPositionOrientationMethodMean [m]Median [m]Mean [◦]Median [◦]PoseNet (this work)40.07.911.24.4APE [50]-0.56--Voting [57]-1.69--Sattler, et al. [41]14.91.3--P2F [29]18.39.3--Table 4: Localisation results on the Dubrovnik dataset [26],comparing to a number of state-of-the-art point-feature tech-niques. Our method is the ﬁrst deep learning approach to bench-mark on this challenging dataset. We achieve comparable perfor-mance, while our method only requires a 256×256 pixel imageand is much faster to compute.faster than these approaches. Furthermor

下载后可阅读完整内容，剩余1页未读，立即下载