通过全局实例识别的高效大规模定位

129 浏览量更新于2023-10-25 收藏 19.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1234Query imageSparse 3D mapGlobal instancerecognition 1Recognition-based reference search2Instance-wise detection & matching3Pose estimation 4Instance mask Reference image Query image with mask1234173480通过全局实例识别实现高效的大规模定位0Fei Xue † Ignas Budvytis † Daniel Olmeda Reino ‡ Roberto Cipolla †0†剑桥大学 ‡丰田汽车欧洲0{ fx221, ib255, rc10001 } @cam.ac.uk daniel.olmeda.reino@toyota-europe.com0摘要0分层框架通常被用作大规模视觉定位的标准流程。尽管它们在简单环境中表现出色，但在大规模场景下，尤其是在具有挑战性的条件下，它们仍然存在效率和准确性低的问题。在本文中，我们提出了一种基于建筑物识别的高效准确的大规模定位框架，这些建筑物不仅对粗定位具有区分度，而且对精细定位也具有鲁棒性。具体而言，我们为每个建筑实例分配一个全局ID，并在定位过程中对这些全局实例进行像素级别的识别。对于粗定位，我们采用了一种高效的参考搜索策略，通过观察识别的实例从局部地图中逐步找到候选项，而不是整个数据库。对于精细定位，预测的标签进一步用于实例级别的特征检测和匹配，使我们的模型能够专注于更少但更具鲁棒性的关键点来建立对应关系。在包括Aachen和RobotCar-Seasons的长期大规模定位数据集上的实验证明，我们的方法在效率和准确性方面始终优于先前的方法。01. 引言0视觉定位是各种应用的关键技术，例如自动驾驶和机器人技术。视觉定位算法可以大致分为基于图像[21,64]、基于场景坐标[4-7]和基于结构[37, 40, 47,56]的方法。基于图像的方法只能得到近似的姿态[2, 15, 34,43]，基于场景坐标的模型在大规模场景中表现不佳[23]。基于结构的系统由粗定位（通过图像检索在数据库中找到参考图像[2, 15,58]）和精细定位（通过关键点匹配在查询图像和参考图像之间建立对应关系[10, 27,35]）组成，是实际应用中的首选。在基于结构的系统的流程中，粗定位和精细定位都是0放大0查询图像0稀疏的3D地图0放大01基于识别的参考搜索02基于实例的0检测和匹配03姿态0估计40实例遮罩参考图像0带有遮罩的查询图像0图1.我们框架的概述。对于每个查询图像，我们首先进行像素级别的全局实例识别，然后使用识别实例的区域来找到参考图像，而不是整个数据库。像素级别的识别遮罩还用于实例级别的特征检测和匹配，为精细定位提供鲁棒的对应关系。最后，将查询图像和参考图像之间的2D-2D匹配转换为2D-3D匹配进行姿态估计。0粗定位和精细定位被定义为在给定的数据点集中找到最接近的候选项，例如，粗定位中的图像到图像匹配和精细定位中的点到点匹配。以前的方法[10, 35,37]通过将查询数据与数据库中的其他数据进行穷举比较来进行。然而，这种方法计算速度慢，准确性低，因为存在错误的候选项，尤其是在具有挑战性的条件下，例如光照、季节和天气的变化。一些研究[23, 47,63]利用语义来分别改进粗定位和精细定位。对于粗定位，它们过滤不稳定的对象，如树木[46,63]或将图像从夜晚转换为白天[1]。对于精细定位，还结合了额外的分割网络来拒绝语义不一致的匹配[18, 22, 23, 45,47,56]。尽管它们有着很大的改进，将粗定位和精细定位建模为两个独立的任务，它们忽视了粗定位应该提供具有足够有效信息的参考图像的事实。173490而不是数据库中最相似的图像，更多的方法在精细定位中使用了显式的语义标签[23, 47,56]，但对分割失败不具有鲁棒性。在本文中，我们旨在通过将粗略定位和精细定位建模为一个连贯的过程，设计一种高效准确的大规模定位系统。为此，我们利用建筑物来弥合这两个过程之间的差距。与其他物体（例如树木和汽车）相比，建筑物对外观变化不敏感，能够为精细定位提供稳健的对应关系。此外，建筑物还具有区分性，可以用来表示粗略定位的位置。我们以一种连贯的方式利用建筑物的稳健性和区分性，并提出了一种基于识别的定位系统。具体而言，我们首先为每个建筑实例分配一个全局ID。然后，对于每个图像，我们对全局建筑实例进行像素级识别，然后利用识别结果从观察到识别实例的区域而不是整个地图中找到参考图像。最后，像素级识别掩码进一步用于局部特征检测和匹配，使我们的模型能够提取更少但更稳健的关键点，并在减少的空间中执行实例级匹配以增加内点数。由于建筑物的独特性和对外观变化的鲁棒性，与一般物体相比，我们的模型甚至在挑战性条件下也能识别更多的建筑实例。为了最小化潜在的识别错误的影响，我们采用渐进搜索策略来高效地找到粗略定位的参考点，并采用强大的实例级检测和匹配方法来进行精细定位。我们还将姿态估计过程分为两个步骤，使我们的模型能够以较低的成本探索更多的潜在位置，并在第二步中进行较慢的细化以产生更准确的姿态。图1显示了我们框架的概述。贡献总结如下：0•我们提出了一种基于全局建筑实例识别的新型定位框架，将粗略定位和精细定位建模为一个连贯的过程。0•我们采用渐进的基于识别的参考搜索策略，从局部区域而不是整个数据库中高效地找到候选项。0•我们利用一种强大的实例级检测和匹配技术，在挑战性条件下使用更少的关键点获得更高的准确性。0在长期大规模的Aachen和RobotCar-Seasons数据集[30,41,42]上的结果表明，我们的模型在效率和准确性方面优于先前的方法。本文的其余部分组织如下。在第2节中，我们介绍了关于视觉定位的相关工作。0在第3节中，我们详细描述了我们的框架。我们在第4节进行了广泛的实验。限制和结论分别在第5节和第6节中讨论。02.相关工作0在本节中，我们讨论与视觉定位和实例识别相关的工作。02.1.视觉定位0视觉定位。视觉定位系统可以大致分为三类：基于图像、基于场景坐标和基于结构。基于图像的方法[2, 15,58]通过在数据库中找到与查询图像最相似的图像来估计其姿态。由于数据库中的图像是稀疏的，因此只能得到近似的姿态。基于图像的方法可以通过神经网络直接回归姿态[21,64]，但它们的性能与图像检索方法[43]相近。基于场景坐标的方法[4-7]首先预测3D坐标，然后使用透视n点（PnP）[24]技术估计姿态。它们在小规模场景中表现出色，但在大规模环境中很难得到可比较的结果[23]。基于结构的方法[9,37, 40,51]包括映射和定位过程。在映射过程中，使用运动结构（SfM）技术[44]构建稀疏的3D地图。在定位过程中[37]，首先使用图像检索[2, 15,34]找到参考图像。然后，利用局部关键点建立查询图像和参考图像之间的对应关系，然后将其输入到PnP模块进行姿态估计。基于显式3D地图，基于结构的方法能够在大规模场景中产生更准确的姿态。然而，与数据库中的所有图像进行查询[2, 15, 34, 37]和全面的特征检测和匹配[10, 29,35]的全局参考搜索效率低下。此外，它们在挑战性条件下（例如，昼夜变化和季节变化）下的准确性和鲁棒性较低。这些问题可以通过利用更强大的局部特征[3, 11, 29, 35, 60,61]或匹配网络[13, 14, 25, 36, 38, 49, 65,67]来部分解决，但它们在实际应用中的计算[35,38]和内存[25, 36,49]成本降低了它们的效率。视觉语义定位。解决上述问题的另一种方法是引入高级语义。对于粗略定位，大多数方法通过关注稳定区域[18, 32, 46, 57,63]学习图像级描述，或进行域转换[1,19]。虽然它们取得了更好的性能，但由于使用了全局参考搜索，它们的准确性和效率仍然有限。对于精细定位，通常将额外的分割网络纳入定位流程，为过滤语义不一致的区域提供语义标签。Score mapDescriptorHead of detector Head of descriptor Local feature learning Decoder of recognition SegmentationGlobal instance recognition Global featureHead of global feature Global feature learning��As shown in Fig. 3, our network consists of four modulesresponsible for feature extraction, global instance recogni-tion, global feature learning, and local feature learning, re-spectively. The shared encoder f extracts high-level fea-tures X from the input image I ∈ R3×H×W , as X = f(I).H and W are the height and width of the input image andX = {X1, X2, X3, X4} is a set of predicted multi-scalefeatures with 2×, 4×, 8×, and 16× downsampling.Global instance recognition. We utilize the aggrega-tion component of PSPNet [66] to generate context features,which are used as input of a segmentation head to producepixel-wise classiﬁcation. The whole process is denoted asfseg. To boost the performance on hard cases, we adoptthe cross entropy with online hard example mining (ohem)f ohemce[48] loss between predicted S ∈ RN×H×W=fseg(X) and ground-truth labels Sgt (N is the number ofglobal instances):173500图2.自动生成的全局建筑实例示例。不同的颜色表示不同的全局实例。0匹配[23, 47,56]。尽管这些方法有着令人期待的改进，但在挑战性条件下，它们容易受到分割错误的影响。与这些方法不同的是，对于粗定位，我们基于识别的框架从观察到识别的全局实例区域中找到参考点，使全局搜索变为局部搜索，从而获得更高的效率和准确性，因为搜索空间减少了。对于精细定位，我们的模型通过实例级特征检测和匹配来关注稳健的建筑实例，从而在更少的关键点下获得更好的性能。在检测和匹配过程中，我们考虑了潜在的识别错误，使我们的模型即使在识别失败时也能给出稳健的结果。02.2. 实例识别0最近，地标识别作为地点识别的一个子任务，随着大量方法[52, 53,57]和数据集[62]的提出，变得越来越流行。地标识别[53,57,62]与我们的全局建筑实例识别在两个方面有所不同。首先，地标是在整个建筑物上定义的，而我们的全局建筑实例是在建筑物立面上定义的，以提供更精确的位置，例如，一座建筑物可能有几个立面，表示不同的位置。其次，地标识别是一个图像级别的分类任务，而我们的全局实例识别执行像素级别的识别，为精细定位提供像素级别的标签。一些工作也利用了建筑物的实例[6，07]或一般对象的聚类[26]来执行分层场景坐标回归。尽管在简单和小规模场景中具有令人期待的准确性，但与其他基于场景坐标的方法[4,5]一样，它们在大规模环境中难以给出可比较的准确性，并且无法处理由于挑战性条件引起的分类错误。03. 通过识别进行定位0在本节中，我们详细介绍了全局建筑实例的定义以及我们网络的训练和测试过程。0网络0图像编码器 ��0��0��0��0��0图3.我们网络的架构。我们的网络由一个编码器和三个解码器组成，用于全局实例识别、全局特征学习和局部特征学习。03.1. 全局实例定义0如图3所示，我们的网络由四个模块组成，负责特征提取、全局实例识别、全局特征学习和局部特征学习。共享编码器 f 从输入图像 I ∈ R 3 × H × W中提取高级特征 X = f(I)。H 和 W 是输入图像的高度和宽度，X = {X1, X2,X3, X4}是一组预测的多尺度特征，分别进行了2倍、4倍、8倍和16倍的下采样。全局实例识别。我们利用PSPNet[66]的聚合组件生成上下文特征，这些特征被用作分割头的输入，以产生像素级别的分类。整个过程表示为fseg。为了提高在困难情况下的性能，我们采用了在线困难样本挖掘的交叉熵（ohem）f ohem ce [48]损失，用于预测的 S ∈ R N × H × W =fseg(X) 和地面真实标签 S gt（N 是全局实例的数量）之间的损失：03.2. 网络和训练细节0Lseg = fohemce(fseg(X), Sgt). (1)0全局特征学习。预测的全局实例标签为我们提供了在地图中搜索参考图像的潜在区域，但我们仍然需要一个图像级表示来从观察相同标签的候选图像中找到最合适的参考图像。因此，我们引入了一个额外的池化层fg，将X4特征转换为全局描述xg。由于识别任务的好处，嵌入了实例信息的特征X4可以用于生成全局特征，而无需像VLAD[2, 15,58]那样缓慢且占用内存的层。我们使用fg的输出来通过平均精度（ap）损失[16]优化正样本（具有200多个对应关系）和负样本的排名。为了进一步增强xg的区分能力，我们借鉴了地标分类任务[8]的灵感，并使用额外的全连接层fcls从xg中解码实例信息，以预测现有标签的二进制向量xclsg∈{0, 1}N。综合损失定义如下：…BCE is the binary cross entropy. ycls is the ground-truthbinary indication of existing labels. ωap and ωcls are twoparameters balancing the ap and classiﬁcation losses.Local feature learning. High-resolution feature X2 ∈R128× H4 × W4 is ﬁrst fed into several convolutional layers toget projected features Xlocal ∈ R128× H4 × W4 , which is usedas the input of both the detector head fdet and descriptorfCRHW173510预测的标签0�1�2�0候选实例0��0实例检测和匹配0?0(��, ��)0EPnP0RANSAC0参考搜索0�1数据库0(�, �)0�1按照0EPnP0RANSAC0成功0N0Y0实例匹配和几何一致性检查0置信度图0��…0细化0渐进式参考搜索0共视帧最佳参考0��0�1��0几何验证0��0图4.基于识别的定位流程。我们首先根据它们的置信度选择和排序预测的实例标签。然后，采用渐进式参考搜索技术并结合几何验证来高效地找到准确的粗略位置。最后，通过引入更准确的参考图像执行进一步的姿态细化步骤来改进最初恢复的姿态。预测的实例标签用于特征检测和匹配，以提高对应关系的准确性。0特征X4嵌入了实例信息，可以用于生成全局特征，而无需像VLAD[2, 15,58]那样缓慢且占用内存的层。我们使用fg的输出来通过平均精度（ap）损失[16]优化正样本（具有200多个对应关系）和负样本的排名。为了进一步增强xg的区分能力，我们借鉴了地标分类任务[8]的灵感，并使用额外的全连接层fcls从xg中解码实例信息，以预测现有标签的二进制向量xclsg∈{0,1}N。综合损失定义如下：0Lglobal = ωapap(xg) + ωclsBCE(fcls(xg), ycls). (2)04和描述器头分别进行训练。检测器头使用Superpoint（SPP）[10]预测的置信度图Cspp作为监督信号进行训练。SPP使用具有真实角点的合成几何形状进行训练，因此在检测角点方面表现很好。对于描述符，我们采用三元组损失来最小化和最大化正负样本之间的距离。综合的检测损失Ldet和描述损失Ldesc定义如下：0Llocal = ωdetBCE(C, Cspp)0+ ωdesc1Nl0xltrixl,xplxnl,m). (3)0xl，xpl和xnl是查询样本、正样本和负样本的描述符。Nl是局部特征的数量。tri是带有边距m的三元组损失。ωdet和ωdesc是平衡检测损失和描述损失的两个参数。03.3.基于识别的定位0在图4中，我们详细描述了我们的基于识别的系统在测试时的工作原理。高效的渐进式参考搜索。对于每个查询图像，我们预测每个像素Sij的全局实例标签。考虑到识别的不确定性，对于每个像素，我们保留具有最高置信度的前K个预测，以获得识别掩码M∈NK×H×W。一个简单的策略是从观察M中的所有潜在全局实例标签的图像中找到最接近的参考图像。尽管这在一定程度上通过过滤不相关的区域来减少搜索时间，但仍然耗时且对识别错误敏感。我们不直接从M中提取所有潜在的全局实例，而是利用置信度图P∈RK×H×W，该图告诉我们查询图像观察到的标签的概率，并提出了一种渐进式搜索策略。对于从M中提取的所有潜在实例li，我们首先通过对P中所有对应像素的值进行平均来计算它们的置信度。然后，我们根据它们的置信度从高到低对这些实例进行排序，形成一个列表{li, l2, ...,lNr}（Nr是识别实例的数量）。最后，我们通过比较查询xqg和在局部区域观察到li的候选图像的全局特征之间的L2距离来搜索参考图像。采用几何验证来检查li是否是正确的实例标签。如果此步骤失败，我们尝试下一个识别实例li+1，直到找到正确的实例并输出相应的参考图像。We ﬁrst give details of implementation as well as base-lines and metrics, and datasets used for evaluation. Next,we compare our model with previous state-of-the-art meth-ods on the large-scale localization task in Sec. 4.1 and 4.2.We discuss the running time and ablation study in Sec. 4.3and 4.4, respectively. More implementation details, results,and analysis can be found in the supplementary material.Implementation. We adopt ResNet101 [17] and PSP-Net [66] as the encoder and decoder for recognition, respec-tively. In the training process, ωap, ωcls, ωdet, ωdesc are setto 1.0, 2.0, 1.0, and 1.0. While in the localization process,K, Nr, Np, and η are set to 10, 30, 50, and 20. We use only4,096 kypoints (Nkpt) for all experiments.Baselines and metrics. For coarse localization, we com-pare our system with image retrieval methods [2, 15,34] interms of efﬁciency. For ﬁne localization, we compare it withimage-based [2, 15, 34] (R), classic structure-based [9, 40,51] (C), and semantic-based methods [26, 47, 56, 63] (S).We also compare it with state-of-the-art pipeline HLoc [37]with different local features [10, 11, 28, 33, 35, 50, 61] (H)and those with advanced or dense matching networks [13,31, 38, 39, 49, 59, 67] (M). For ﬁne localization, we adoptthe success ratio with different error thresholds (0.25m/2◦,0.5m/5◦, 5m/10◦), as in [37,41].Datasets. We test our system on public large-scale local-ization datasets including Aachen [42], Aachen v1.1 [42],and RobotCar-Seasons (RoboCS) [30].Aachen contains4,328 reference and 922 (824 day, 98 night) query im-ages captured with handheld cameras around the Aachencity at different seasons with various illumination condi-tions.Aachen v1.1 is extended from Aachen dataset byadding 2,369 reference and 93 night query images. RoboCSdataset was collected by a moving car running around theOxford at different seasons, illumination and weather con-ditions. It has 26,121 reference and 11,934 query imagesrecorded by three mounted cameras (left, right, rear), whileonly the rear camera is used. Since only day images areavailable in the database and extreme changes of season,weather, illumination, and dynamic objects exist in queryimages, these datasets are challenging for both recogni-tion and localization. Moreover, huge variations of view-point in Aachen/Aachen v1.1 dataset and motion blur/over-exposure in RoboCS dataset further increase the difﬁculty.173520age I ref ini 和恢复的姿态 T ini = (R ini, t ini)进一步进行细化。有关更多详细信息，请参见快速两步姿态估计部分。鲁棒的实例级特征检测和匹配。建筑实例上的像素级预测可以进一步用作特征检测和匹配的先验知识。我们采用渐进式检测和匹配策略，充分利用全局实例识别的优势，以抵抗分割错误。给定预测的局部特征得分图C，我们首先选择得分大于阈值λ的关键点，以丢弃局部不可靠的关键点。接下来，从选定的关键点中，我们保留Nkpt个关键点{p1，p2，...，pN kpt}和标签{l p1，lp2，...，l pNkpt}。当识别区域由于视角变化和遮挡而无法提供足够的关键点时，我们还从背景中选择得分最高的关键点，并将它们分配为标签0。在匹配过程中，给定从查询图像和参考图像提取的两组关键点，我们首先独立地对具有相同有效标签的关键点进行实例级匹配，通过减少其他实例的干扰，得到更准确的对应关系。由于实例级匹配是针对具有不同标签的子集分别操作的，因此可以并行执行以加快速度。对于未匹配的关键点和标签为0的关键点，我们还执行穷举匹配以提高对识别错误或遮挡的鲁棒性。在我们的实例级检测和匹配过程中，我们优先使用来自正确识别区域的关键点，使我们的系统能够获得尽可能多的内点，这在只能使用有限数量的关键点时尤为重要。快速两步姿态估计。可以将查询图像和参考图像之间的2D-2D对应转换为查询图像和地图之间的2D-3D匹配，然后将其输入到EPnP+RANSAC[12,24]模块进行姿态估计。与HLoc[37]不同，HLoc在查询图像和所有参考图像之间执行穷举匹配，并将所有匹配作为EPnP+RANSAC的输入进行姿态估计，我们将姿态估计分为两个步骤：几何验证和细化。如在渐进式参考搜索过程中所述，对查询图像和单个参考图像进行的几何验证有助于获得正确的参考图像I ref ini 和初始估计的姿态Tini。由于视图和对应关系的数量有限，姿态T ini不是非常准确。为了得到更精确的姿态估计，我们使用内点3D点来找到具有最多共现匹配项的前N p 个图像{I ref1，...，I ref Np}，其中共现匹配项的重投影误差大于阈值η。两步姿态估计旨在以较低的成本获得更准确的姿态，并且可以灵活地应用于其他框架，如HLoc[37]。0可见点与 I ref ini进行实例级匹配。然后，我们在查询图像和新获得的参考图像集之间进行实例级匹配，以获得更多匹配项。T ini 扮演着一个高级匹配器[25,31, 36, 38, 59]的角色，用于拒绝2D-3D04. 实验04.1. 参考搜索013010 20Number of candidate instances (top@)80859095Success ratio94.4%77.0%97.7%90.6%98.2%94.2%98.5%95.8%Success ratio of daySuccess ratio of nightIR66976697O(n)Ours202650O(NrecNobs)HSIFT [27]72.2 / 78.4 / 81.719.4 / 23.0 / 27.2SPP [10]87.9 / 93.6 / 96.870.2 / 84.8 / 93.7D2Net [11]84.1 / 91.0 / 95.563.4 / 83.8 / 92.1R2D2 [35]88.8 / 95.3 / 97.872.3 / 88.5 / 94.2ASLFeat [29]88.0 / 95.4 / 98.270.7 / 84.3 / 94.2CAPS + SIFT [27,61]82.4 / 91.3 / 95.961.3 / 83.8 / 95.3LISRD + SPP [10,33]73.3 / 86.9 / 97.9LLF + R2D2 [10,50]71.2 / 81.2 / 94.2MSPP + Superglue [10,38]89.8 / 96.1 / 99.477.0 / 90.6 / 100.0Patch2Pix [67]86.4 / 93.0 / 97.572.3 / 88.5 / 97.9LoFTER [49]88.7 / 95.6 / 99.078.5 / 90.6 / 99.0Ours89.1 / 96.1 / 99.377.0 / 90.1 / 99.5RNetvlad [2]0.0 / 0.4 / 25.50.0 / 0.0 / 21.4AP-GEM [34]0.0 / 0.1 / 22.60.0 / 0.0 / 16.3Patch-Netvlad [15]0.0 / 0.1 / 20.00.0 / 0.0 / 21.4CAS [40]85.3 / 92.2 / 97.939.8 / 49.0 / 64.3CSL [51]52.3 / 80.0 / 94.329.6 / 40.8 / 56.1CPF [9]76.7 / 88.6 / 95.833.7 / 48.0 / 62.2SSSM [47]71.8 / 91.5 / 96.858.2 / 76.5 / 90.8VLM [63]62.4 / 71.8 / 79.935.7 / 44.9 / 54.1SMC [56]52.3 / 80.0 / 94.329.6 / 40.8 / 56.1HSC-Net [26]71.1 / 81.9 / 91.740.8 / 56.1 / 76.5HSIFT [27]82.8 / 88.1 / 93.130.6 / 43.9 / 58.2SPP [10]80.5 / 87.4 / 94.242.9 / 62.2 / 76.5D2Net [11]84.8 / 92.6 / 97.584.7 / 90.8 / 96.9R2D2 [35]76.5 / 90.8 / 100.0CAPS + SIFT [27,61]77.6 / 86.7 / 99.0CAPS + SPP [10,61]82.7 / 87.8 / 100.0LISRD + SPP [10,33]78.6 / 86.7 / 98.0LLF + R2D2 [10,50]72.4 / 90.8 / 99.0SOSNet + D2D [54,55]73.5 / 83.7 / 96.9ContextDesc + SIFT [27,28]67.3 / 79.6 / 90.8MASLFeat + OANet [29,65]77.6 / 89.8 / 100.0ENCNet [36]76.5 / 84.7 / 98.0Dual-RCNet [25]79.6 / 88.8 / 100.0PDCNet [59]80.6 / 87.8 / 100.0DGCNet [31]22.9 / 49.8 / 84.714.3 / 37.8 / 79.6Pixloc [39]84.7 / 94.2 / 98.881.6 / 93.9 / 100.0AHM [13]47.8 / 72.2 / 91.330.6 / 53.1 / 78.6S2DNet [14]84.5 / 90.3 / 95.374.5 / 82.7 / 94.9Patch2Pix [67]84.6 / 92.1 / 96.582.7 / 92.9 / 99.0SPP + Superglue [10,38]89.6 / 95.4 / 98.886.7 / 93.9 / 100.0Ours88.3 / 95.6 / 98.884.7 / 93.9 / 100.0Table 2. Results on Aachen dataset. The best and second bestresults are highlighted with bold and red fonts.(S) yield better results for night images, but still worse thanlearned features (H).HLoc [37] with Netvlad [2] for coarse localization andpowerful local features for ﬁne localization currently is thestandard pipeline (H), but our model outperforms all worksin group H. In group M, with advanced and dense matcher,most methods report better accuracy than others groupsand SPP+Superglue achieves the state-of-the-art accuracy.However, due to instance-wise detection and matching aswell as two-step pose estimation, our method gives veryclose results to SPP+Superglue and outperforms all othermethods in groups C, S, H, and M.As most methods in groups H and M only report resultson 98 night query images in Aachen dataset, we also showtheir results on Aachen v1.1 containing more challenging(191) night images. Table 1 demonstrates obvious perfor-mance drop of all methods because of increased test sam-ples. While compared with models in group H, our systemstill gives much better performance especially on night im-ages. Although some works in group M achieve close re-sults to ours by utilizing advanced [38] or dense matchingmodels [49], they sacriﬁce the time [38] or memory [49]efﬁciency, and require additional datasets for training.Results on RoboCS dataset. We further test our ap-173530方法平均搜索帧复杂度白天夜晚0图5. 参考搜索结果。报告了图像检索(IR) [ 2 , 15 , 34]和我们方法在Aachen v1.1数据集[ 42 ]上的

下载后可阅读完整内容，剩余1页未读，立即下载