基于HF-Net的大规模鲁棒分层定位

20 浏览量更新于2023-10-18 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12716从粗到精：大规模鲁棒分层定位Paul-Edouard Sarlin1Cesar Cadena1Roland Siegwart1Marcin Dymczyk1，21AutonomousSystemsLab，ETHZürich2Sev ensenseRoboticsAG摘要鲁棒且准确的视觉定位是许多应用的基本能力，例如自动驾驶、移动机器人或增强现实。然而，它仍然是一个具有挑战性的任务，特别是对于大规模的环境和存在显着的外观变化。国家的最先进的方法不仅与这种情况下的斗争，但往往过于资源密集型的某些实时应用程序。在本文中，我们提出了HF-Net，这是一种基于单片CNN的分层定位方法我们利用由粗到精的定位范例：我们首先执行全局检索以获得位置假设，并且仅在稍后匹配那些候选地点内的局部特征。这种分层的方法产生显着的运行时间节省，使我们的系统适合实时操作。通过利用学习的描述符，我们的方法在大的外观变化中实现了显着的定位鲁棒性，并在两个具有挑战性的大规模定位基准11. 介绍相机在现有3D模型内的精确6自由度（DoF）定位是核心计算机视觉功能之一，其解锁了许多最近的应用。这些包括在GPS拒绝环境中的自动驾驶[7，29，31，5]和具有增强现实功能的消费设备[30，22]，其中厘米精度的6-DoF姿态对于分别保证可靠和安全的操作以及完全沉浸式体验至关重要更广泛地说，视觉定位是计算机视觉任务（如运动恢复结构（ SfM ）或SLAM）中的关键视觉定位的应用范围不断扩大，要求无论在室内还是室外都能可靠地运行，而不受天气、光照或季节变化的影响。因此，对这种大的变化的鲁棒性是关键的，以及有限的计算资源。维护一个模型，允许在多个条件下精确定位，1代码可在https://github.com/ethz-asl/hf_net获得查询分层定位3）6自由度稀疏3D模型1）全局匹配（2）局部匹配检索直接匹配查询图1. 分层定位。全局搜索首先检索候选图像，随后使用强大的局部特征匹配以估计准确的6-DoF姿态。这种两步过程在具有挑战性的情况下既有效又稳健。因此，在保持紧凑的同时，位置是极其重要的。在这项工作中，我们调查它是否实际上是可能的鲁棒本地化在大规模变化的环境与移动设备的资源受限。更具体地说，我们的目标是估计查询图像w.r. t的6-DoF姿态给定的3D模型具有最高的可能精度。当前领先的方法主要依赖于使用局部描述符估计查询中的2D关键点和稀疏模型中的3D点之间的对应关系。这种直接匹配要么是稳健的，但在移动[48，51，41]上是棘手的，要么是针对效率进行了优化，但很脆弱[27]。在这两种情况下，经典定位方法的鲁棒性受到手工制作的局部特征的不变性的限制[8，26]。卷积神经网络（CNN）的最新特征以低计算成本表现出无与伦比的鲁棒性[12，13，32]。然而，它们只是最近才被应用于视觉定位问题，而且只是以密集，昂贵的方式。学习的稀疏描述符[12，36]承诺在本地化中仍然存在但未探索的巨大好处。基于图像检索的替代定位方法最近在鲁棒性和效率方面显示出有希望的结果，但在准确性方面没有竞争力。早期已经证明了中间检索步骤的好处[40]，但达不到12717提供城市规模本地化所需的可扩展性。在本文中，我们建议利用最新的进展，学习的功能，桥梁之间的差距，鲁棒性和效率的层次化的本地化范式。类似于人类如何定位，我们采用了一种自然的从粗到细的姿态估计过程，该过程利用了全局描述符和局部特征，并且可以很好地适应大型环境（图1）。我们表明，学习的描述符在具有挑战性的条件下具有无与伦比的鲁棒性，而学习的关键点由于其较高的可重复性而提高了计算和内存方面的效率。为了进一步提高这种方法的效率，我们提出了一种分层特征网络（HF-Net），一种联合估计局部和全局特征的CNN我们展示了如何使用多任务蒸馏，这样的压缩模型可以在一个灵活的方式训练。通过将多个最先进的预测器联合提取到单个模型中，我们获得了一个无与伦比的快速，但稳健和准确的定位。这种异质蒸馏适用于视觉定位之外的需要多模态昂贵预测和计算效率的任务总体而言，我们的贡献如下：– 我们在几个公共基准中为大规模本地化设置了新的最先进的技术，在特别具有挑战性的条件下具有出色的鲁棒性;– 我们介绍了HF-Net，一个单片神经网络，它有效地预测了快速和鲁棒的定位层次特征;– 我们证明了多任务蒸馏的实用性和有效性，以实现运行时的目标与异构预测。2. 相关工作在本节中，我们回顾了与我们方法的不同组成部分相关的其他工作，即：可视化本地化、可伸缩性、特性学习和在资源受限设备上的部署。6-DoF视觉定位方法传统上被分类为基于结构或基于图像。形成器执行查询图像的2D关键点与3D SfM模型中的3D点之间的局部描述符的直接匹配[48，51，41，25，49]。这些方法能够估计准确的姿势，但通常依赖于穷举匹配，因此计算密集。随着模型尺寸的增长和感知混叠的出现，这种匹配变得模糊，削弱了定位的鲁棒性，特别是在强烈的外观变化（如白天-夜晚）下[42]。一些方法直接从单个图像回归姿势[6，20]，但在准确性方面没有竞争力[44]。基于图像的方法与图像相关检索[1，52，53]，并且仅能够提供直到数据库离散化的近似姿态，这对于许多应用来说不够精确[42，49]。然而，它们明显比直接局部匹配更鲁棒，因为它们依赖于全局图像范围的信息。这是以增加计算为代价的，因为最先进的图像检索基于大型深度学习模型。可扩展本地化通常通过使用提取、存储和匹配成本低的功能来处理额外的计算约束[8，24，37]。这些改进了移动设备上的运行时间，但进一步削弱了本地化的鲁棒性，将其操作限制在稳定条件下[27]。分层定位[19，30，40]采用不同的方法，将问题划分为全局粗搜索，然后进行精细姿态估计。最近，[40]提出使用图像检索在地图级别进行搜索，并通过将手工制作的局部特征与检索到的3D点进行匹配来进行定位正如我们在第3节中进一步讨论的那样，其鲁棒性和效率受到底层局部描述符和异构结构的限制学习的本地功能最近已经开发出来，试图取代手工制作的描述符。密集的像素特征自然地从CNN中出现，并提供用于图像匹配[10，13，35，38]和定位[49，42]的强大表示。在有限的计算能力下，匹配密集特征是非常棘手的.由关键点和描述符组成的稀疏学习特征为其手工制作的对应物提供了有吸引力的替代品，并且最近表现出出色的性能[12，36，16]。它们可以很容易地从密集特征中采样，预测速度快，因此适合移动部署。CNN关键点检测也被证明优于经典方法，尽管它们非常难以学习。SuperPoint [12]从自我监督中学习，而DELF [34]采用注意力机制来优化地标识别任务。移动端的深度学习。虽然学习本地化管道的一些构建块可以提高性能和鲁棒性，但在移动设备上部署它们是一项重要的任务。多任务学习的最新进展允许在任务之间有效地共享计算，而无需手动调整[21，9，47]，从而减少了所需的网络大小。蒸馏[18]可以帮助从已经训练过的较大网络训练较小的网络[39，55，56]，但通常不应用于多任务设置。据我们所知，我们的方法是第一个结合上述领域的进步来优化效率和鲁棒性的方法。所提出的方法旨在利用这些算法的协同作用，以提供有竞争力的大规模定位解决方案，并使该技术更接近于实时，在线应用资源受限。12718图2. 使用HF-Net的分层定位比并发方法[41，48]明显简单，但更鲁棒，准确和高效。3. 分层定位我们的目标是最大限度地提高本地化的鲁棒性，同时保留易于处理的计算要求。我们的方法松散地基于分层本地化框架[40]，我们在这里总结。先前的检索。通过使用全局描述符将查询与数据库图像进行匹配来执行地图级的粗搜索。被称为先验帧的k最近邻（NN）表示地图中的候选位置。这种搜索是有效的，因为数据库图像比SfM模型中的点少得多。共视聚类。先前帧基于它们共同观察的3D结构被聚类。这相当于在将数据库图像链接到模型中的3D点的共可见性图中找到连接的组件（称为位置）。局部特征匹配。对于每个地方，我们连续地将查询图像中检测到的2D关键点与该地方中包含的3D点进行匹配，并尝试在RANSAC方案[14]内使用Pestrian [23]几何一致性检查来估计6-DoF姿态。这种局部搜索也是有效的，因为所考虑的3D点的数量在该位置中显著低于在整个模型中。一旦估计出有效姿势，算法就停止。讨论在[40]的工作中，一个大型的最先进的图像检索网络 NetVLAD [1] 被提炼成一个较小的模型MobileNetVLAD（MNV）。这有助于实现给定的运行时约束，同时部分地保留原始模型的精度。然而，局部匹配步骤基于SIFT [26]，其计算昂贵并且生成大量特征，使得该步骤特别昂贵。虽然这种方法在小规模环境中表现出良好的性能，但它不能很好地扩展到更大，更密集的模型。此外，SIFT与最近学习的特征不具有竞争力，特别是在大的照明变化下[16，36，12，32]。最后，A局部和全局描述符的计算的重要部分是冗余的，因为它们都基于图像低级线索。因此，手工制作的特征和CNN图像检索的异质性在计算上是次优的，并且在资源受限的平台上可能是至关重要的4. 该方法现在我们将展示如何解决这些问题，并实现更好的鲁棒性、可扩展性和效率。我们首先使用同构网络结构来激励学习特征的使用，然后在第4.1节中详细介绍架构，并在第4.2节中详细介绍我们的新训练过程。学习到的特性似乎很自然地适合于层次化的本地化框架。最近的方法，如Su- perPoint [12]，在关键点可重复性和描述符匹配方面表现优于流行的基线，如SIFT，这两者对于定位都至关重要。另外，一些学习的特征比SIFT显著稀疏，从而减少了要匹配的关键点的数量并加快了匹配步骤。我们在第5.1节中展示了图像检索和局部特征中最先进的网络的组合自然地实现了最先进的定位。这种方法在极具挑战性的条件下尤其出色，例如夜间查询，以较大的幅度以及较小的3D模型尺寸超过竞争性方法。虽然这种网络的推理比在GPU上计算SIFT要快得多，但它仍然是所提出的定位系统的一个很大的计算瓶颈。为了提高在移动设备上在线定位的能力，我们在这里介绍了一种新的分层特征神经网络，HF-Net，能够有效地进行从粗到精的定位。它可以在一个镜头中检测关键点并计算局部和全局描述符，从而最大限度地共享计算，但保留了更大基线网络的我们在图2中展示了它在分层本地化框架中的应用。4.1. HF网络架构卷积神经网络本质上表现出层次结构。这种模式很好地适应了局部和全局特征的联合预测，并且具有较低的广告运行时成本。HF-Net架构（图3）由单个编码器和三个头组成，预测：i）关键点检测分数，ii）密集局部描述符，以及iii）全局图像范围描述符。这种计算的共享是自然的：在现有技术的图像检索网络中，全局描述符通常是从局部特征图的聚集中计算的，这可能对预测局部特征有用。HF-Net的编码器是一个MobileNet [39]骨干，一个流行的架构，针对移动推理进行了优化。类似于MNV[40]，全局描述符通过以下公式计算：局部特征SfM重构数据库图像SfM模型高频全球指数HF-Net NN搜索全球描述符2D-3D匹配查询图像6-DoF位姿回收的相机在线线下12719输入图像S我ΣSuperPoint解码器关键点评分局部描述符全局描述符共享特征Mobile Net（1）移动网络NetVLAD层仅限培训地方教师模式全球教师模式图3. HF-Net从单个图像生成三个输出：全局描述符、关键点检测分数的映射和密集关键点描述符。所有三个负责人都接受了来自不同教师网络的多任务蒸馏的联合培训一个NetVLAD层[1]在MobileNet的最后一个特征图的顶部。对于局部特征，SuperPoint [12]架构因其效率而吸引人，因为它以固定的非学习方式解码关键点和局部描述符这比应用转置卷积对特征进行上采样要快得多。它预测密集的描述符，这些描述符可以快速进行双线性采样，从而使运行时间独立于检测到的关键点的数量。另一方面，像LF-Net [36]这样的基于块的架构将暹罗网络应用于以所有关键点位置为中心的图像块，导致计算成本降低。数据扩充。不依赖于对应关系的自监督方法（诸如SuperPoint）需要大量的数据增强，这是局部描述符的不变性的关键虽然数据增强通常在局部水平上很好地捕捉真实世界中的变化，但它可能会破坏图像的全局一致性，并使全局描述符的学习非常具有挑战性。多任务蒸馏是我们解决这个数据问题的方案。我们采用蒸馏直接从现成的训练有素的教师模型学习表示。这通过允许使用任意数据集的更简单和更灵活的训练设置缓解了上述问题，因为可以从教师网络的推断获得无限量的标记数据。直接学习预测教师网络的输出还简化了学习任务，允许直接训练较小的学生网络。我们注意到一个有趣的相似之处与SuperPoint，其检测器是通过自举训练，通过不同的训练运行由自己监督。该过程也可以被称为自蒸馏，并且显示蒸馏作为实际训练方案的有效性。局部和全局特征的监督可以源自不同的教师网络，从而导致允许利用最先进的教师的多任务蒸馏训练多任务学习的最新进展[21]使学生能够最佳地复制所有教师t1，2，3，而无需手动调整平衡损失的权重：L= e-w1 ||dg− dg||2+ e−w2 ||dl− dl||2与检测次数成比例。由于其效率和灵活性，我们因此采用超点解码方案的关键点和局部描述符。s t12+ 2e−w3交叉熵（p，ps t22）+w，（1）我局部特征头在比全局头更早的阶段从MobileNet编码器分支出来，因为需要更高的空间分辨率来保留空间区分特征，局部特征处于比图像范围描述符更低的语义水平上[13]。4.2. 训练过程数据稀缺。局部和全局描述符通常使用局部补丁和完整图像的地面真实正和负对来利用度量学习进行训练。这些地面实况对应在训练大型CNN所需的规模下特别难以获得。虽然全局监督自然地从局部对应中出现，但是目前没有这样的数据集同时i）在全局图像级别表现出足够的感知多样性，例如，具有各种条件，例如白天、夜晚、季节，以及ii）包含匹配图像之间的地面真实局部对应。这些对应通常从SfM模型[45，46]计算的密集深度[36]中恢复，这在图像检索所需的规模下难以构建。其中dg和dl是全局和局部描述符，p是关键点得分，w1，2，3是优化变量。更一般地，我们的多任务建模的公式可以应用于需要多个预测同时保持计算效率的任何应用，特别是在收集所有任务的地面实况数据昂贵的设置中。它也可以应用于一些被认为过于计算密集的手工制作的描述符。5. 实验在本节中，我们将对HF-Net的构建模块和整个网络进行实验评估。我们想证明它的适用性，大规模的本地化问题，在具有挑战性的条件下，同时保持计算处理。我们首先在第5.1节中对当前表现最好的经典和基于学习的局部特征检测和描述方法进行我们的目标是解释这些见解如何影响第5.2节中介绍的高频网络的设计选择。然后，我们在第5.3节中评估了我们的方法对大规模本地化基准的挑战[42]，t312720展示了从粗到细定位范例的优势。为了解决我们的实时本地化问题，我们在5.4节中以运行时注意事项作为结束。5.1. 地方特色评价我们通过调查两个数据集HPatches [3]和SfM [36]上不同设置下局部匹配方法的性能来开始我们的评估，这两个数据集在2D和3D场景的图像对之间提供密集的地面真实对应数据集。HPatches [3]包含116个平面场景，包含照明和视点变化，每个场景有5个图像对和地面真值单应性。SfM是由[36]建立的数据集，由[17，50]收集的照片旅游集合组成地面实况对应关系是从密集的每图像深度图和相对6- DoF姿态中获得的，使用COLMAP [45]计算。我们选择10个序列进行评估，并为每个随机采样50个图像对给定的最小重叠。度量尺度不能用SfM重建来恢复，但对于计算定位度量是重要的。因此，我们使用Google地图中测量的度量距离手动标记每个SfM模型指标. 我们在每个数据集的所有对上计算并聚合由[12]定义的成对度量。对于检测器，我们报告的重复性和定位误差的关键点位置。这两者对于视觉定位都很重要，因为它们可以影响内点匹配的数量、匹配的可靠性以及3D模型的质量我们计算描述符之间的最近邻匹配，并报告平均精度和匹配得分。前者反映了该方法拒绝虚假匹配的能力。后者一起评估检测器和描述符的质量。我们还计算姿态估计的召回率，无论是HPatches的单应性3像素和3米。方法. 我们评估了经典的检测器高斯差分（DoG）和Harris [15]以及描述符Root-SIFT [2]。对于基于学习的方法，我们评估了SuperPoint [12]和LF- Net [11]的检测和描述符。我们还评估了密集版本的DOAP [16]和NetVLAD [1]的特征图conv3_3补充材料中提供了更多细节。探测器我们在表1中报告了结果。Harris具有最高的可重复性，但也具有最高的定位误差。相反，DoG的可重复性较低，但误差最低，这可能是由于多尺度检测和像素细化。SuperPoint似乎显示出最佳的权衡可重复性和误差之间。HPatches众议员MLESFM众议员MLE狗0.3070.940.2841.20哈里斯0.5351.140.5101.46SuperPoint0.4951.040.5091.45LF-Net0.4601.130.4541.44表1. 关键点检测器的评估。我们报告了重复性（代表）平均定位误差（MLE）（检测器/描述符）HPatches单应MS地图构成SFMMS地图根SIFT0.6810.3070.6510.7000.1990.236LF-Net0.6290.3050.5720.6760.2210.207SuperPoint0.8100.4410.8460.7940.4180.488Harris /SuperPoint0.6690.4480.7370.6840.4040.397SuperPoint /DOAP---0.8380.4480.554SuperPoint /NetVLAD0.7880.4190.7980.8000.3740.423表2. 评估本地描述符。除了HPatches的单应性正确性和SfM数据集的姿态准确性之外，还报告了匹配分数（MS）和平均平均精度（mAP）描述符。DOAP在SfM数据集上的所有指标上都优于SuperPoint，但无法在HPatches上进行评估，因为它是在此数据集上训练的。NetVLAD在SfM上示出了良好的姿态估计但较差的匹配精度，这在关键点的数量有限或内点比率重要时是不利的，例如对于定位。总的来说，它表明学习的功能优于手工制作的功能。有趣的是，SuperPoint描述符在从Harris检测中提取时表现不佳，尽管后者也是具有高重复性的角点检测器。这暗示了学习的描述符可以与相应的检测高度耦合LF-Net和SIFT，这两种具有亚像素检测和基于块的描述的多尺度方法因此，经过正确监督训练的简单表示可以比复杂且计算量大的架构更有效。我们注意到，SuperPoint需要显著更少的关键点来估计适当的姿势，这对于运行时敏感的应用程序非常有益。5.2. 实现细节受第5.1节中给出的结果的启发，本节简要介绍HF-Net的设计和实现下面，我们将解释我们对蒸馏教师模型、训练数据集的选择以及对基线2D-3D局部匹配的改进。教师模特。我们在5.3节中评估了两个最佳描述符DOAP和SuperPoint对本地化的影响。结果表明，后者对昼夜外观变化更具鲁棒性，因为其训练集包括低光数据。我们最终选择它作为HF-Net描述符头的监督教师网络。全球负责人由NetVLAD监督。12721训练数据。在这项工作中，我们针对白天和夜晚条件下的城市环境。为了最大化学生模型在此数据上的性能，我们选择了适合此分布的训练数据。因此，我们在来自Google Landmarks数据集[34]的185k图像上进行训练，其中包含各种各样的白天城市场景，以及来自Berkeley Deep Drive数据集[54]的夜间和黎明序列的37k图像，由运动模糊的道路场景组成。我们发现在训练数据集中包含夜间图像对于全局检索头到夜间查询的泛化至关重要。例如，只在白天图像上训练的网络很容易将夜间的黑暗天空与白天的黑暗树混淆。我们还使用摄影数据增强进行训练，但使用在干净图像上预测的目标。高效的分层定位。Sarlin等人[40]将局部2D-3D匹配确定为流水线的瓶颈。我们的系统显著提高了他们方法的效率：i）使用修改的比率测试来过滤掉虚假的局部匹配，该比率测试仅适用于如果第一和第二最近邻描述符对应于不同3D点的观测，则与[33]类似，从而在高度共视区域中保留更多匹配。ii）学习的全局和局部描述符被归一化并在GPU上与单个矩阵乘法匹配。补充材料中提供了其他实现细节和超参数5.3. 大规模本地化根据本地评估，我们现在在[42]介绍的三个具有挑战性的大规模基准上评估我们的分层本地化。数据集。每个数据集由一组参考图像构建的稀疏SfM模型组成。亚琛昼夜数据集[43]包含来自欧洲老城区的4，328个白天数据库图像，以及分别在白天和夜间条件下进行的824和98次查询。RobotCar Seasons数据集[28]是一个跨越多个城市街区的长期城市道路数据集。它由20，862张阴天参考图像和11，934张在多种条件下拍摄的查询图像组成，例如太阳，黄昏和夜晚。最后，CMU Seasons数据集[4]在城市和郊区环境中记录了 8.5 km 的过程它包含7,159 幅参考图像和75,335幅查询图像，记录在不同的季节。该数据集的规模明显较低，因为查询是针对每个包含约400个图像的孤立子模型进行本地化的。大规模模型建设。使用RootSIFT使用COLMAP [45，46]构建的SfM模型由数据集作者提供。然而，当使用基于不同特征检测器的方法进行局部化时，这些是不合适的因此，我们建立新的3D模型与苏检测到的关键点perPoint和HF-Net。流程如下：i）我们使用我们的特征和初始滤波比测试来执行参考帧之间的2D-2D匹配;ii）在COLMAP内使用双视图几何结构进一步过滤匹配;iii）使用所提供的地面实况参考姿态对3D点进行三角测量。这些步骤将生成与原始模型具有相同比例和参考系的3D模型模型质量比较。HF-Net Aachen模型包含更少的3D点（685 k对SIFT的1，899 k）和更少的2D关键点（2，576对SIFT的10，230）。然而，匹配的原始2D关键点的比例更大（33.8%对SIFT的18.8%），并且每个3D点平均从更多的参考图像中观察到。因此，将查询关键点与该模型进行匹配更有可能成功，这表明我们的特征网络生成的3D模型更适合本地化。方法. 我们首先根据NetVLAD [1]和SuperPoint [12]提取的学习特征评估我们的分层定位。命名为NV+SP，它使用最强大的预测器。然后，我们评估了一个更有效的定位与全局描述符和局部特征计算的HF网络。我们还考虑了基准测试作者评估的几个本地化基线。主动搜索（AS）[41]和城市规模定位（CSL）[48]都是2D-3D直接匹配方法，在准确性方面代表了当前最先进的技术水平。Den- seVLAD [52]和NetVLAD [1]是图像检索方法，其通过顶部检索到的数据库图像的姿态来近似查询的姿态。最近引入的语义匹配一致性（SMC）[51]依赖于离群值拒绝的语义分割。它假设已知的重力方向和相机高度，并且对于RobotCar数据集，使用地面真实语义标签在评估数据上进行训练。我们引入了一个额外的基线NV+SIFT，它使用RootSIFT作为局部特征执行分层定位，并且是[40]的MNV+SIFT方法的上限。结果我们报告了每个序列在不同位置和方向阈值下的姿势回忆，如基准[42]所定义。表3显示了不同方法的定位结果。三个最具挑战性序列的累积图见图4。使用NV+ SP进行本地化在Aachen数据集上，NV+SP在白天查询上具有竞争力，并且优于夜间查询的所有方法，其中性能下降w.r.t.该时间明显小于直接匹配方法，直接匹配方法的缺点是匹配的模糊度增加。在RobotCar数据集上，它的表现与黄昏序列上的其他方法类似，其中精度趋于饱和。在更具挑战性的序列中，图像检索方法往往比直接匹配方法更好，但远不如12722距离[m]方向。[度]Aach天en晚上黄昏机器人孙车晚上夜雨CM城市U郊区.25/.50/5.02/5/100.5/1.0/5.02/5/10.25/.50/5.02/5/10.25/.50/5.02/5/10.25/.50/5.02/5/10.25/.50/5.02/5/10.25/.50/5.02/5/10.25/.50/5.02/5/10作为57.31996年12月19日至1997年12月31日，19.4/ 30.6 /43.944.7 1999年1月至1999年12月，25.0 1999年1月至1999年1月，0.5//下一页1.1/3.41.4//下一页3.0/5.255.2/ 60.3 /65.120.7/ 25.9 /29.9CSL52.3/ 80.0 /94.324.5 33.7 /49.056.6/ 82.7 /95.928.0/ 47.0 /70.40.2//下一页0.9/5.30.9//下一页4.3/9.136.7/ 42.0 /53.18.6/ 11.7 /21.1DenseVLAD0.0//下一页0.1/22.80.0//下一页2.0/14.310.2 1998年12月38日至1999年12月38日5.7/ 16.3 /80.20.9//下一页3.4/19.91.1//下一页5.5/25.522.2 1998年1月1日至1999年2月31日9.9/ 26.6 /85.2NetVLAD0.0//下一页0.2/18.90.0//下一页2.0/12.27.4 1999年7月至1999年7月，5.7/ 16.5 /86.70.2//下一页1.8/15.50.5//下一页2.7/16.417.4/ 40.3 /93.27.7/ 21.0 /80.5SMC--(53.8（1999年12月31日至1999年12月31日，日内瓦）(46.7（A/64/ 74.6/95.9）(6.2（18.5/44.3）(8.0（2004年12月31日至2005年12月31日）75.0 82.1 /87.844.0 1996年12月31日至1997年6月31日，NV+SIFT82.8/88.1/93.130.6 1999年12月31日至1999年12月31日，55.6/83.5/95 46.3 1999年1月至1999年12月4.1/ 9.1/24.42.3/ 10.2 /20.563.9 1999年1月至1999年12月，28.7加速度：39.0 /82.1NV+SP（我们的）79.7/88.0/93.740.8/56.1/74.554.8/83.0/96.251.7/73.9/92.46.6/17.1/32.25.2/17.0/26.691.7/94.6/97.774.6/81.6/91.4HF-Net（我们的）75.7 1999年1月至1999年12月，40.8/55.1/72.453.9 1995年至1997年，48.5/69.1/85.72.7//下一页6.6/15.84.7/16.8/21.890.4/93.1/96.171.8/78.2/87.1表3. 评估亚琛昼夜，RobotCar季节和CMU季节数据集的本地化。我们报告了在不同距离和方向阈值下的召回率[%]，并突出显示了每种方法的最佳和次佳方法。X+Y表示分层定位，其中X（Y）作为全局（局部）描述符。SMC被排除在RobotCar的比较之外，因为它使用了额外的语义数据。图4.亚琛夜间（左）、RobotCar夜间（中）和CMU郊区（右）数据集的位置误差累积分布。在Aachen上，HF-Net和NV+SP具有相似的性能，并且优于基于全局检索和特征匹配的方法。在RobotCar上，HF+Net的表现比NV+SP差，这表明蒸馏过程的局限性。在CMU上，分层定位显示出比其他方法显著的提高，特别是对于小距离阈值。NV+SP在精细和粗糙精度制度。在困难的CMU数据集上，NV+SP与所有基线（包括最新的SMC）相比实现了出色的鲁棒性。总的来说，NV+SP在CMU数据集以及亚琛和RobotCar数据集的挑战性序列上建立了新的最先进的技术。优良的性能，在精细和粗精度制度表明，我们的方法是更准确，更强大的。与NV+SIFT比较。我们观察到NV+SIFT始终优于AS和CSL，尽管所有方法都基于相同的RootSIFT特征。这表明，我们的分层方法与粗糙的初始先验带来了显着的好处，特别是在具有挑战性的条件下，图像范围的信息有助于消除歧义的匹配。因此，它提供了一个更好的离群值拒绝比复杂的域特定的算法中使用的AS和CSL。NV+SP的优越性突出了SuperPoint等学习功能的简单增益。在最简单的亚琛夜晚和机器人车黄昏序列上，NV+SIFT在精细阈值上的表现略好于NV+SP这可能是由于SuperPoint关键点的定位精度较低，如第5.1节所强调的，因为DoG执行子像素细化。使用HF-Net进行定位。在大多数序列上，HF-Net的表现与其上限NV+SP相似，平均召回率下降2.6%我们展示了定性结果，图5.在RobotCar夜间序列中，HF-Net明显比NV+ SP差。我们将此归因于在模糊的低质量图像上提取的全局描述符的性能不佳。这突出了我们的方法的明显局限性：在大型自相似环境中，HF-Net的模型全局检索的完全失败直接转化为分层定位的失败。距离阈值。NV+SPNV+HF-NetNV+DOAP高频网0.25m79.781.280.075.7天0.5m88.088.288.584.35m93.794.293.390.90.5m40.840.834.740.8晚上1m56.156.152.055.15m74.576.572.472.4表4. Aachen Day-Night数据集的消融研究。我们报告了不同全局描述符（ NetVLAD 和 HF-Net ）和局部特征（SuperPoint，DOAP和HF-Net）的分层定位的召回率[%]。消融研究。在表4中，我们评估了分层定位框架内不同预测因子的影响。比较NV+SP和NV+HF，我们注意到局部 HF-Net 特征的性能优于用于训练它们的SuperPoint模型。这证明了多任务蒸馏的好处，其中来自全局教师的监督信号可以改善中间特征并帮助局部描述符。我们还观察到DOAP的局部化在夜间明显更差，12723图5. 使用HF-Net在亚琛昼夜数据集上成功定位。我们展示了两个查询（左）和检索到的具有最多内点匹配的数据库图像（右）。这可能是由于Su- perPoint基于复杂的增强方案。最后，HF-Net与NV+HF-Net的比较表明，HF-Net全局描述符与原始NetVLAD相比容量有限，并且限制了性能。5.4. 运行时评估由于我们提出的定位解决方案是在考虑计算约束的情况下开发的，因此我们分析了其运行时间，并将其与第5.3节中提供的基线进行了比较。这些是在配备英特尔酷睿i7- 7820 X CPU（3.60GHz）CPU、32 GBRAMNVIDIA GeForce GTX 1080 GPU表5给出了详细的时间安排。数据集方法特征全球科维斯当地PNP总亚琛作为263--112375天NV+SIFTNV+SP92+263九二加二十六7785122092991356148高频网15759945作为263--132395晚上NV+SIFTNV+SP92+263九二加二十六778514921056181655158高频网1575101855机器人汽车作为189--283472黄昏NV+SIFTNV+SP92+189九二加二十六1313312643144575139高频网151313436作为189--10211210晚上NV+SIFTNV+SP92+189九二加二十六131331389 1496 38835176高频网151316 3873表5. 分层本地化的不同步骤的计时[ms]：特征提取，全局搜索，共视聚类，局部匹配，以及使用Pestrian进行姿态估计。SIFT或CNN的特征提取和学习描述符的匹配在GPU上执行，其他操作在CPU上执行。我们用最快的方法来突出每个序列。用高频网定位比AS快10倍，AS是目前最快的方法分层定位。NV+SP和HF-Net的计时表明，我们的粗到细的方法可以很好地扩展到大型环境。全局搜索速度很快，并且仅取决于用于构建模型的图像数量它成功地减少了潜在候选对应的集合这在很大程度上取决于SfM模型NV+SIFT的速度非常慢，因为它的SfM模型密度要大得多，特别是在亚琛。NV+SP显著改善了它，因为更稀疏的SfM模型产生具有更少3D点的聚类。然而，NetVLAD和SuperPoint 的推理占其运行时间的75%，因此，如前所述，是瓶颈。HF-Net以7倍的推理速度缓解了这一问题。现有办法。CSL和SMC没有在表5中列出，因为它们每个查询都需要几十秒，因此比我们最快的方法慢三个数量级。AS在这方面有所改进，但仍然较慢，特别是在成功率较低的情况下，例如在机器人汽车之夜。总的来说，我们的定位系统基于HF-Net可以在非常大规模的环境中以20 FPS的速度运行。它比AS快10倍，专为效率而设计，并且在所有数据集上都更准确。6. 结论在本文中，我们提出了一种方法，视觉定位，这是在同一时间的鲁棒性，准确性，并在实时运行。我们的系统遵循由粗到细的定位模式。首先，它执行全局图像检索，以获得一组数据库图像，随后使用3D SfM模型的共视图将其聚类到位置。然后，我们在候选位置内执行局部2D-3D匹配，以获得相机姿态的准确6-DoF估计。我们的方法的一个版本是基于现有的神经网络的图像检索和特征匹配。它在几个大规模的基准测试中表现出最先进的本地化方法，包括昼夜查询和天气条件和季节的大量外观变化然后，我们通过提出HF-Net来提高其效率，HF-Net是一种新颖的CNN，可以在单次拍摄中计算关键点以及全局和局部描述符。我们证明了多任务蒸馏的有效性，以灵活的方式训练它，同时保持原有的性能。由此产生的定位系统在大规模下以超过20 FPS的速度运行，并在挑战条件下提供无与伦比的鲁棒性。鸣谢。我们感谢评审员的宝贵意见，感谢Torsten Sattler帮助评估本地化，感谢Eduard Trulls为SfM数据集提供支持。12724引用[1] ReljaArandjelovic´ ， PetrGronat ， AkihikoTorii ，TomasPa-jdla，and Josef Sivic.NetVLAD：用于弱监督位置识别的CNN架构。在CVPR，2016年。二三四五六[2] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事CVPR，2012。5[3] Vassileios Balntas ， Karel Lenc ，Andrea Vedaldi， andKrys- tian Mikolajczyk.HPatches：手工制作和学习本地描述符的基准和评估在CVPR，2017年。5[4] Aayush Bansal，Hernan Badino，and Daniel Huber.了解相机配置和环境条件如何影响基于外观的定位。在IEEE Intel- ligent Vehicles（IV）中，2014年。6[5] IoanAndreiBarsan ， ShenlongWang ， AndreiPokrovsky，and Raquel Urtasun.学习使用激光雷达强度图进行定位。在机器人学习会议（CoRL），2018年。1[6] Samarth Brahmbhatt，Jinwei Gu，Kihwan Kim，JamesHays，and Jan

下载后可阅读完整内容，剩余1页未读，立即下载