新户外视觉定位数据集的挑战性

86 浏览量更新于2023-10-14 收藏 3.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9845CrowdDriven：一个新的具有挑战性的户外视觉定位数据集AraJaf arzadeh1ManuelLo´pezAntequera2PauGarg allo2YubinKuang2CarlToft1Fredrik Kahl1Torsten Sattler31查尔姆斯理工大学2Facebook3捷克布拉格理工大学摘要视觉定位是估计在已知场景中拍摄给定图像（或图像序列）的它是广泛的计算机视觉和机器人应用的重要组成部分，从自动驾驶汽车到增强/虚拟现实系统。视觉定位技术应该在广泛的条件下可靠和鲁棒地工作，包括季节、天气、光照和人为变化。最近的基准测试工作通过提供不同条件下的图像来对此进行建模，并且自这些数据集成立以来，社区在这些数据集上取得了快速进展。然而，它们仅限于几个地理区域，并且通常用单个设备记录我们提出了一个新的基准在户外场景中的视觉定位，使用众包的数据，以涵盖广泛的地理区域和相机设备，重点是当前算法的失败情况使用最先进的本地化方法的实验表明，我们的数据集非常具有挑战性，所有评估的方法都在其最困难的部分失败。作为数据集发布的一部分，我们提供了用于生成数据集的工具，从而实现高效和有效的2D对应注释以获得参考姿势。1. 介绍视觉定位是估计拍摄图像的位置和方向的问题，即，它的相机姿势，相对于场景。视觉定位是许多计算机视觉和机器人应用的重要部分，例如自动驾驶汽车、服务机器人（例如园艺机器人）和增强/混合/虚拟现实。大多数视觉定位方法在很大程度上依赖于用于姿态估计的局部描述符，并且找到图像之间的2D-3D但是，在这方面，局部描述符的鉴别能力和它们的不变性之间的折衷限制了它们在变化条件下的性能。另一方面，在实践中，场景中的变化是不可避免的，并且需要视觉定位方法对它们是鲁棒传统上，用于定位的地面实况姿态已经经由运动恢复结构（SfM）获得[35，62，66]。但是，如果-self依赖于局部描述符和匹配。这使得在使用传统特征描述符的特征匹配不起作用的情况下生成本地化基准非常困难，例如，在白天/黑夜和强烈视点变化的情况下。在不断变化的条件下（如亚琛、CMU Seasons和Robotcar [58]），用于本地化的基准数据集依赖于手动注释，以便能够提供地面实况姿态。虽然这些数据集提供了有趣的挑战，但它们大多是在受控条件下捕获的。然而，在诸如自主驾驶、协作AR/MR或众包地图绘制的许多应用在本文中，我们构建了一个数据集，重新审视了在不同环境中可以看到的常见挑战我们首先积极挖掘了一个众包数据库的图像序列，经典的SfM方法失败。为了生成可靠的姿势，我们依赖于人类注释，并创建了40组具有不同视觉变化的图像序列。用于其创建的数据集和工具可在mapillary.com获得。本文的主要贡献如下：（1）挖掘和注释具有挑战性的图像序列以用于基准视觉定位的工作流。我们的方法明确考虑到姿势的不确定性，在注释过程中。(2)CrowdDriven数据集，一个地理上多样化和具有挑战性的数据集，具有可靠的姿势，涵盖照明、天气、季节和视点变化的各种场景。(3)具有最先进的基线的实验显示CrowdDriven提出了现有方法无法处理的挑战。2. 相关工作视觉定位方法旨在估计完整的摄像机姿态，并且可以基于其地图表示进行分类：（1）基于图像的表示将每个图像编码为特征向量[3，17，29，54，72，73]。使用图像检索和数据库图像的已知姿态，测试图像的姿态可以经由顶部检索的数据库图像的姿态[61，83]来近似，或者基于相对姿态[59，85]来精确计算。(2)基于局部特征的表示依赖于经典的或学习的局部特征描述符和多视图遗传算法。9846图1.我们的CrowdDriven数据集的Easy（上），Medium（左）和Hard（右）子集。我们的数据集包括从手动注释的控制点导出的参考姿势，从而能够在极端视点（180◦）变化等新场景中对定位算法进行基准测试。CrowdDriven包括用各种相机捕获的来自全球各地的序列。几何学[43，44，55这些方法构建场景的3D模型，然后基于测试图像中的局部特征与3D模型之间的2D-3D匹配来估计相机姿态[23，32，41]。这些方法，特别是使用学习的特征，构成了在变化条件下视觉定位方面的当前最先进水平[22，30，51，52，63]，并且我们在我们的基准上评估和分析了它们的性能。(3)基于学习的表示通常使用卷积神经网络（CNN）来表示场景。姿态回归技术直接回归给定输入图像的相机姿态[10，38，39，79]。这些方法已被证明没有比图像检索方法更好地执行[61]。基于学习的方法不学习完整的定位流水线，而只学习2D-3D匹配部分[6-虽然这些方法中的大多数都难以处理训练中看不到的条件，[53]概括得很好。虽然定位方法使用度量图，但视觉地点识别方法通常依赖于拓扑场景表示[19，20，27，28，49，50，78]，因此不直接提供相机姿态估计。使用图像检索和相关技术，它们识别测试图像中描绘的位置，其中位置被定义为数据库图像的集合。地点识别可用于通过识别场景的哪些部分在测试图像中可见来引导视觉定位[37，51，60]。关于地点识别技术的概述，我们请读者参考[26，47]。选项卡. 1提供了对通常用于在变化的条件下测量定位和位置识别性能的数据集的概述。可以通过GPS测量相对容易地获得地点识别数据集（例如Nordland[67]、匹兹堡[74]、东京24/7 [72]和Mapillary街道级序列[81相比之下，获得用于定位的6DOF姿态需要相当大的手动努力因为用于自动获得地面实况的经典方法在有挑战性的条件下失败。RIO10 [80]专注于室内场景的变化。长期户外定位数据集，如亚琛昼夜[58，60]，CMU季节[4，58]和RobotCar季节[48，58]仅覆盖少数地理位置并使用少量相机。相比之下，尽管我们的新基准数据集不是最大的，但它具有更多的地理多样性。虽然其他数据集仅使用几台相机捕获，但我们的图像序列是由大量不同类型的相机和摄影师拍摄的。其他定位数据集包括室内7个场景[65]、12个场景[76]和InLoc [70]数据集和InLoc [72]数据集。室外杜布罗夫尼克[43]，罗马[25]，维也纳[37]，旧金山[16，44]和剑桥地标[39]数据集。这些数据集都不是为了测量变化条件对定位性能的影响而设计的[58]。Lyft [40]、Waymo [2]、Aptiv（nuScenes）[11]和百度（Apolloscape）[36]等自动驾驶汽车公司最近数据集的重点是基于有限地理区域中的多模态传感器数据、语义分割和深度估计对2D/3D对象检测进行基准测试一个例外是百度上述数据集的另一个缺点是视点的变化是有限的。查询图像通常是从与参考图像相似的有利位置取得的。我们的数据集包含的图像序列，例如，在相反的方向采取不同的相机。这种情况通常发生在人造环境的多会话或协作捕获期间，其中可以在两个方向上遍历路径。基于当前定位数据集的缺点，我们生成了用于长期视觉定位的多样化数据集（1），其包含不同的具有挑战性的场景，例如白天-夜晚、季节性、日光照明、强烈的视觉定位、视觉定位和视觉定位。9847表1.比较本地化数据集：CrowdDriven在场景类型和观看条件的变化方面是最多样化的（2）具有基于人类注释的可靠的6DOF相机姿态，（3）使用众包数据来模拟真实驾驶情况，（4）具有可靠的相机校准和地理信息。3. 群众驱动：数据集创建历史上，视觉定位算法已经在从互联网照片收集网站（例如Flickr）收集的众包数据集上进行评估。杜布罗夫尼克[43]，罗马[43]和地标1k [44]数据集。这种获取数据集的方式非常适合于使用不同的相机类型和地理位置。然而，由于图像是由著名地标周围的手持相机拍摄的，因此这些数据集不适合测量自动驾驶场景中的视觉定位性能，这是我们的主要关注点（即使我们的数据集的一小部分是由行人和自行车捕获的）。相比之下，最近发布的为这一任务量身定制的数据集，例如RobotCar Seasons [48，58]和（扩展的）CMUSeasons [4，58]数据集仅包含一个或几个较大的位置，仅使用几个相机，并且已由专家拍摄我们的新数据集CrowdDriven旨在覆盖广泛的位置、视觉条件（例如季节、昼夜变化或立面的变化、人的存在/不存在（人为变化））以及照相机类型。3.1. 数据源为了最大限度地提高多样性和地理覆盖范围，我们使用Mapillary，这是一个协作式街道级图像平台，可托管社区成员在公共空间和道路上驾驶或行走时收集的超过10亿张图像。它涵盖了大多数国家的数百个相机型号在不同的时间和天气条件。因此，它的数据非常适合评估类似于自动驾驶场景中所面临的问题，因为大多数图像都是用消费级设备（如智能手机、运动相机和仪表盘摄像头）捕获的。3.2. 序列选择Mapillary中的图像根据摄影师ID和拍摄时间分组为有序序列每个图像为了生成对于当前最先进的定位算法具有挑战性的数据集，我们尝试找到相对于彼此定位的相邻序列对。基于传统SfM算法在联合重建序列对上的成功，我们将每个序列对分类到预先的难度水平。我们首先查询Mapillary数据库以找到覆盖广泛的地理位置和外观的序列对。选择这些对以满足以下标准：1.序列长度在40到60个图像之间。2.最小序列密度为0.2图像/m。3. 最大序列间距离为3m。4.第一章可以使用SfM单独地重建每个序列。请注意，我们故意选择专注于小场景，而不是试图收集更大空间区域的数据。在实践中，使用诸如GPS的姿态先验来限制定位期间的搜索空间。而不是人为地使问题更难忽略这样的pri- ors，我们有兴趣找到现实的困难的例子与小场景。我们的数据集可能没有以前的基准那么大。然而，在以前的基准测试中，很大一部分测试图像可以准确地定位。相反，我们的数据集包含许多非常具有挑战性的情况，目前最先进的方法无法处理。在收集序列对之后，我们对它们中的每一个运行SfM。我们根据SfM的结果和序列的相对方向为每对分配难度等级：其联合重建成功1的序列对被分类为容易的，并且在图1中示出。1（顶部）。如果关节重建失败，我们查看序列的平均视图方向，如果它们具有相似的方向（小于45 ◦差异），则将它们分类为中等（图1-左），如果它们具有不同的方向（大于45◦差异），则将它们分类为困难（图1这一初步分类基于以下观察：具有相似取向的序列很难匹配，这主要是由于外观的变化（例如，照明或季节变化）和现有技术方法1所有图像都包括在重建中，具有足够大数量的分布良好的内点数据集场景T ype#图片 S条件变化顺序6DOF查询姿势#位置城市郊区自然乡间小路室内参考查询天气季节性强观点日/夜内部函数雪雨诺尔兰[67]匹兹堡[74]东京24/7 [72]NCLT [13]CMU扩展赛季[4，58]RobotCar Seasons [48，58]亚琛日-夜[58，60]RIO10 [80]7-场景[31]12-场景[34]剑桥[39]杜布罗夫尼克[43]旧金山[16]罗马[43]维也纳[37]InLoc [70，82]✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓14k254k174k16k24k1k✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓111111117123111153.8M61k20k3k53k26k17k8.4k6k610k15k1k9.9k57k12k922200k17k5.8k4.8k0.8k0.4k1千0.2千0.3k群众驱动✓✓✓✓1.3k1.7k✓✓✓✓✓✓✓✓✓269848如[51相比之下，具有不同视图方向的序列对更难匹配，这是由于大的视点变化和低视觉重叠而增加了场景部分的戏剧性外观变化[63]。作为我们在SEC的实验5显示，这种初步分类与当前最先进的方法在我们的数据集上的表现非常一致。选项卡. 图2显示了群组驱动中序列对的统计信息许多捕获条件是具有挑战性的当前定位算法中包括人群驱动。中等类别由在诸如昼夜变化、雨、雪和影响场景几何体的其他季节变化等条件下显示的不同场景类型组成。硬类别的主要焦点是大的视点变化与照明、季节和天气条件的不太极端的变化的组合。数据集大小。与现有数据集[58，70，80]类似，CrowdDriven仅为每个场景提供在单一条件下拍摄的参考图像和测试图像。2如Tab中所示。1，CrowdDriven包含的图像比大多数这样的数据集少，例如， CMU 和 RobotCarSeasons数据集来自[58]。然而，这并不意味着我们的数据集对于基于学习的方法来说太小，例如相机姿势[10，38，39，79]或场景坐标[6这些方法分别回归来自给定图像的相机姿态和来自图像块的3D点坐标。这两个回归任务都是实例级问题。因此，局部场景部分中的图像的数量对于它们在这些部分中的性能比数据集中的图像的绝对数量更重要。通过添加额外的场景来扩展CrowdDriven的图像绝对数量是很容易的。然而，这样做不太可能改善现有场景中的性能。通过向现有场景添加更多图像来扩展CrowdDriven是困难的，因为这样的图像根本不可用：虽然众包图像捕获允许我们从多个内容的不同场景集合中获得图像，但是无法控制每个场景获取多少数据。尽管如此，每个场景的参考图像的数量对于基于学习的技术应该是足够的。3.3. 参考位姿生成为了使用序列来对视觉定位算法进行基准测试，需要两个处理步骤：1.在公共坐标系中估计所有图像的固有相机校准和参考姿态，使得可以以米为单位测量距离。2.将数据集细分为参考（训练）图像和测试图像。对于（2），我们使用简单的策略：对于每对序列，较大的序列定义参考图像，并且来自较小序列的图像用于测试。2扩展的CMU和RobotCar Seasons提供了在多个条件下拍摄的一组位置的训练图像，这些位置与测试图像中描绘的场景部分不简单数据集是其中两个序列可以通过现成的SfM使用SIFT [46]特征在共同坐标系中重建的那些。我们遵循常见的实践[25，39，44，58]，并使用重建过程中估计的相机姿态和内在因素来定义我们的参考姿态。在序列上运行SfM之后，我们目视检查3D模型。如果两个序列被比对，即，如果不存在重复的3D点，并且相机姿势看起来视觉上正确，则我们基于可用的GPS数据缩放SfM姿势以（近似地）恢复场景的比例对于这一类别，我们期望最先进的定位方法表现良好，因为SIFT特征足够强大以配准序列。我们使用OpenSfM [1]作为SfM管道。使用COLMAP[62]对我们的数据进行的实验显示了类似的结果。选项卡. 2提供了简单类别中的13个序列对的统计数据。可以看出，诸如天气和照明变化的场景的多样性被覆盖在诸如道路、郊区和城市区域的不同环境中。图1（顶部）示出了来自该类别的样本图像。中等和硬数据集是其中SfM由于出现（中等）和/或视点（硬）的大变化而未能配准序列对的那些数据集。因此，中等和硬数据集对于现有的视觉定位算法而言明显更具挑战性因此，这些数据集将是社区最感兴趣的。为了获得参考姿态，我们首先使用SfM单独地重建每个序列，并使用来自Mapillary的已知GPS数据恢复模型的比例。接下来，我们手动注释来自两个序列的图像之间的对应像素位置（图1A和1B）。23）。这些注释定义了每个序列内和序列之间的手动轨迹，我们将其称为控制点（CP）。平均而言，已经为每个数据集（序列对）注释了12个不同的控制点，其中平均在10个图像中观察到每个这样的点。为了比对序列，我们首先通过对2D注释进行三角测量来获得CP在每个重建的参考系中的3D位置。对应的3D点（根据注释）为我们提供了3D-3D匹配，我们使用该匹配来计算初始配准，如相似性变换，将两个重建带入共同的参考系。给定该初始对准，我们对所有相机姿势和本质、从SIFT特征三角测量的3D点以及从注释三角测量的3D点执行捆绑调整[75图2示出了当仅使用GPS约束（中间）和当使用手动注释（右侧）时的对准质量。为了清晰的可视化，我们显示的场景密集的多视图立体点云，虽然注册只使用稀疏点。我们不使用密集的点云进行对准，因为它们不能总是单独从图像中获得，例如，由于9849表2.关于CrowdDriven：场景类型、标识符、控制点（CP）的中值重投影误差、测试和参考图像的数量、参考和测试条件和变化。初步分类：容易：浅灰色;中：灰色;硬：深灰色。图2.左：注释的对应关系;中：场景的初始密集重建;右：配准后具有细化的密集重建道路曲面的边缘将亮显以指示未对齐。如果不存在可能的伪影和误差，则其通常产生对相机姿态和场景的3D结构的高度准确的因此，我们直接信任我们为简单数据集获得的参考对于中等和硬数据集，我们依赖于手动注释的匹配，其易受人为错误的影响，并且可能以次优方式分布在场景中，从而对对齐进行了欠约束。以前构建基准数据集的工作也使用手动注释-图3. 我们的注释UI集成了注释指标，以实现高效的注释和QA：（1）注释CP的重投影误差（黄线）光束法平差产生的偏差，以绿色突出显示（本例为17 cm）。过度（明亮的阳光）或曝光不足（夜晚）或缺乏纹理。而且，它们计算起来很昂贵，并引入了一些缺点，由于错过或改变几何形状（树叶、雪等）而导致的配准失败3.4. 质量控制为了验证参考姿势，我们使用以下标准和工作流程。如果SfM成功了而且没有通知-测量[58，70]通常依赖于目视检查，并且没有严格测量其生成的姿势的不确定性在亚琛昼夜数据集[58，60]的情况下，[86]最近表明，不准确的姿势通过了视觉检查。因此，我们有意识地努力定量地测量我们的姿势的准确性。我们使用两个指标来验证注释是正确和充分的。在已经标注了几个控制点为了检测潜在的问题，我们首先估计每个注释的重投影误差此度量场景类型标识符CP报告错误。POS.标准差（m）#测试图像参考编号图像.参考文献条件测试条件相当大的变化树叶路悉尼马萨诸塞州1 Poing华盛顿墨尔本----------14252010122849562936天，部分阴天，部分阴天，晴朗的天空天，晴朗的天空天，多云天，下雨，天，阴，天，阴照明✓✓勃艮第2图林根马萨诸塞州20.03%（0.21像素）0.07%（0.46像素）0.07%（0.45像素）0.070.130.07501124501735天，晴天，晴天，阴天天，下雨天，晴朗的天空晚上照明，雨照明昼夜✓贝桑 con2贝桑 con4贝桑 con3布列塔尼0.01%（0.07像素）0.02%（0.13像素）0.04%（0.24像素）0.11%（0.69像素）0.060.060.040.195050503150505053天，阴天，晴天天，阴天，阴天，植被，强烈的观点白天，局部多云照明，强视点，照明强观点✓✓✓✓郊区波特兰--2141天，晴朗的天空天，阴照明库里蒂巴--1920天，多云天，阴照明Tsuru--926天，多云天，阴照明克莱蒙费朗--1521天，晴朗天，阴照明萨凡纳--1856天，晴朗的天空天，多云照明下腕足--1732天，多云天，阴雪，季节性的马萨诸塞州30.03%（0.17像素）0.044456天，晴朗的天空晚上昼夜✓斯坎涅0.02%（0.10像素）0.032024天，多云天小视点、照明愤怒20.04%（0.26像素）0.054647天，多云天，晴朗的天空强烈的观点、照明Ile-de-France0.02%（0.13像素）0.045050天，晴朗天，多云强烈的观点、照明奥尔良20.04%（0.22像素）0.053131天，晴朗的天空天，晴朗强烈的观点、照明Pays de la Loire0.05%（0.32像素）0.034258天，多云天，阴强观点✓BrourgesNouvelle-Aquitaine20.05%（0.34像素）0.05%（0.34像素）0.060.0522452346天，部分多云天，晴天，晴朗的天空，照明天，晴天强观点✓城市拜仁慕尼黑----10262226天，阴天，多云天，阴天，阴微照度照明9850识别错误注释的点，例如在注释期间具有相似外观的不同对象之间的错误对应或简单的误点击错误超过一个像素（VGA分辨率）的所有注释都被标记为不正确，必须进行优化。在所有重投影误差足够小之后，我们使用光束法平差[24]计算每个图像的相机位置协方差为了修复规范模糊性，我们修复序列之一的姿态，运行束调整问题，并计算另一序列的姿态的协方差我们重复这一点，同时修复其他序列的姿势。根据协方差，我们计算相机位置3的标准偏差（以米为单位），并在注释时寻找较小的值。此度量用于了解图像的计算位置是否欠约束：所有注释都可以是正确的，具有非常小的再投影误差，但是姿态可能仍然是欠约束的，例如，如果注释仅在远处的点上执行，则会导致大的标准偏差。注释工具。这两个指标与我们已经开发的注释UI集成在一起，并将作为这项工作的一部分发布（c.f。图3）。注释器可以运行束调整并直接在UI中获得反馈，可视化错误注释的点并将其精力集中在注释具有较高位置不确定性的那些帧上，从而简化和加速注释过程。使用我们的工具，序列对重建的手动注释（和QA）平均只需30分钟。在所有位置标准后如果确认偏差小于30cm，我们通过目视检查对齐模型的组合点云来执行最终检查（图2）。2）的情况。选项卡. 图2示出了关于注释过程的一些统计数据，包括注释点的数量、中间重投影误差和中间位置标准。每个数据集的偏差。对于整个中等和硬数据集集，中值注释重投影误差为0.28px，中值位置std.偏差为5.4cm。4. 基线为了表明我们的基准测试为定位算法引入了新的挑战，我们使用一组最先进的我们专注于已被证明在不断变化的条件下工作良好的方法（基于它们在[ 58 ]基准测试中的表现），并提供源代码和训练模型：HLoc[51，52]使用学习的SuperPoint [18]特征和Su-perGlue[52]来建立与SfM模型的2D-3D匹配，然后将其用于相机姿态估计。D2-Net [22]使用单个CNN进行特征检测和描述。构成估计是实施3我们关注的是位置协方差，而不是完整的姿势协方差，因为（1）它更容易理解，（2）位置比方向估计（可以由无穷远的点约束）确定性更低[24]。COLMAP [62].与实时运行（接近）的HLoc相比，D2-Net需要多秒的时间才能完成每个测试图像。矫正SIFT [71]使用深度估计网络[45]来检测图像中的平面区域。将它们变形以重新移动透视，透视缩短导致可以在强视点变化下匹配的特征。S2DHM [30]使用不对称匹配方法：参考图像由对应于SfM模型中的3D点的稀疏特征表示，而测试图像由密集提取的描述符表示。上述基线基于匹配局部特征以建立测试图像与场景的SfM模型之间的2D-3D匹配相比之下，PixLoc[53]不依赖于特征匹配，而是通过最小化特征度量成本函数来细化初始我们不评估相机姿势和场景坐标回归方法。姿态回归器已被证明比其他定位方法[61]明显更不准确，即使在没有改变条件的场景因此，我们认为它们没有理由在我们更具挑战性的基准上表现良好当前场景坐标回归器似乎难以应对训练集和测试集之间的强烈条件变化：在Aachen Day-Night数据集[58，60]上，所有训练图像都是在白天拍摄的，与白天查询相比，ESAC[ 8 ]在夜间测试图像上的表现明显较差，并且比HLoc准确度低很多。CrowdDriven仅为每个场景提供在单一条件下拍摄的参考图像。考虑到训练图像和测试图像之间的强烈条件变化，当前场景坐标回归器不太可能在我们的数据集上表现良好。在我们的实验中，对于给定的测试图像，我们只考虑来自同一场景的参考图像，例如，Boston1，而不是从不同的场景。由于我们的场景相当小（cf选项卡.2），不需要使用地点识别/图像相反，我们将测试图像与场景中的所有参考图像进行彻底匹配。晚餐材料示出了同时估计序列中所有图像的姿态的基于序列的局部化方法的结果[12，41，42，69，77]。虽然这提高了性能，但仍不足以在更具挑战性的场景中获得5. 实验评价本节展示了我们的数据集如何引入大多数基线无法应对的新挑战场景在介绍了我们的评估方法之后，我们分析了不同类型的变化对绩效的影响。评价措施。我们遵循常见的评估协议[25，39，58，70]，并报告中值位置（以米为单位）和方向误差（以度为单位），以及具有与其参考姿势在某些误差范围内不同的姿势的测试图像的年龄百分比。位置误差为9851名称变化refD2-NetS2DHMHLoc校正SIFTPixLocPOS. err腐err局部0.5/1.0/5.0/10.0（m）2/5/10/20（°）POS. err腐err局部0.5/1.0/5.0/10.0（m）2/5/10/20（°）POS. err腐err局部0.5/1.0/5.0/10.0（m）2/5/10/20（°）POS. err腐err局部0.5/1.0/5.0/10.0（m）2/5/10/20（°）POS.err腐err局部0.5/1.0/5.0/10.0（m）2/5/10/20（°）愤怒1愤怒228.0235.51177.43165.56FF97.81174.61171.26153.78FF46.3968.34161.65122.82F0/0/0/6.52191.62437.63148.27132.38FF21.0345.26175.11173.18FF拜仁0.030.0696.15/96.150.090.3080.77/ 80.77/ 80.77/80.770.020.0780.77/ 80.77/ 80.77/80.770.040.1180.77/ 84.62/84.620.090.1261.54/ 61.54/ 65.38/73.08Besanc on281.45160.22F---59.02152.43F128.70121.79F34.30169.03FBesanc on348.16162.30F258.71148.52F71.61162.18F107.51148.63F36.86168.47FBesanc on4117.25151.57F---108.59141.24F287.57134.02F69.80172.84F波士顿128.784.990/ 0/ 4.26/23.40239.57140.05F31.758.470/ 0/ 0/10.64125.13129.79F27.0915.550/ 0/ 0/2.13波士顿26.460.960/ 0/ 24.49/97.96496.1686.710/ 0/ 8.16/16.334.680.820/ 0/ 63.27/95.9287.21150.42F13.267.220/ 0/ 6.12/38.78波士顿36.664.200/ 0/ 29.03/51.61196.98114.24F27.5732.830/ 0/ 12.90/19.35111.70155.53F20.7216.120/ 0/ 0/19.35波士顿412.942.510/ 0/ 20.83/41.67---15.576.190/ 0/ 26.47/38.24---18.905.810/ 0/ 11.76/26.47波士顿518.082.260/ 0/ 11.76/17.6597.7074.400/ 0/ 0/5.8816.594.350/ 0/ 26.47/26.4791.74157.72F13.3612.360/ 0/ 0/26.47布列塔尼14.74147.24F177.38143.03F36.44137.460/ 3.23/ 3.23/3.23305.68121.02F14.96162.08F布鲁赫31.84153.74F---22.24153.54F57.1097.23F14.64177.38F勃艮第24.413.720/ 4.00/ 60/76.0057.7834.59F7.325.360/ 4.00/ 40/58554.19166.83F20.9714.820/ 0/ 0/26点剑桥0.500.8751.52/ 90.91/ 93.94/96.9794.5882.579.09/ 12.12/ 12.12/12.120.370.4369.70/100/10058.58135.562018年12月18日-21日30.0615.240/ 0/ 3.03/6.06克莱蒙费朗0.220.24一百/一百0.250.47一百/一百0.150.27一百/一百0.210.3380/ 93.33/93.330.190.2093.33/93.33库里蒂巴0.030.07一百/一百0.210.3684.21/ 89.47/ 100/1000.040.06一百/一百0.060.0889.47/89.47/89.470.060.0984.21/84.21Ile-de-France58.17159.89F---121.89120.76F325.41159.15F24.99175.11F勒芒53.53160.64F63.90165.43F52.82163.53F249.61138.46F40.68176.24F鲁汶10.85164.76F48.83154.03F12.54173.48F69.29132.33F8.42140.80F马萨诸塞州10.080.06一百/一百0.590.3640/ 72.00/96.000.120.07一百/一百0.160.0696.00/ 96.00/1000.200.1076.00/84.00/84.00马萨诸塞州25.800.240/ 0/ 0/100---18.349.470/ 0/ 0/8.33111.63168.17F6.7010.760/ 0/ 0/66.67马萨诸塞州323.9525.320/ 10.53/ 36.84/42.11498.52123.61F3.915.850/ 25.00/ 52.27/59.09680.80104.46F18.0210.240/ 0/ 4.55/22.73马萨诸塞州41.571.010/ 0/ 97.44/10069.5524.080/ 8.11/ 32.43/32.432.231.140/ 0/ 100/10040.25115.170/ 0/ 0/4点10.385.700/ 0/ 30.77/46.15墨尔本0.070.07一百/一百0.210.2283.33/ 100/ 100/1000.090.16一百/一百0.160.16一百/一百14.070.9316.67/16.67/41.67缪尔豪森0.030.07一百/一百0.320.5380/ 100/ 100/1000.040.07一百/一百0.040.11一百/一百0.040.10一百/一百新阿基坦140.23172.90F328.30150.36F34.02160.82F418.74137.36F44.17170.42F新阿基坦281.48126.82F35.89161.41F67.65147.96F90.10150.32F28.51169.94F奥尔良117.42178.86F256.48149.29F33.42175.46F87.40157.440/ 0/ 3.03/3.0325.87178.74F奥尔良2175.99127.58F---32.95165.35F359.37154.26F15.30177.55FPays de la Loire25.32159.23F52.74156.08F34.11166.72F131.31135.250/ 0/ 0/4.7617.56175.95F波因0.050.07一百/一百0.450.6160/ 85.00/ 100/1000.060.07一百/一百183.4685.1320/ 20/ 20/200.080.0485.00/85.00/85.00波特兰0.130.16一百/一百0.400.4666.67/ 95.24/ 100/1000.110.14一百/一百0.160.1295.24/ 100/1000.130.1685.71/85.71/85.71萨凡纳0.080.05一百/一百0.250.2883.33/ 94.44/ 100/1000.080.05一百/一百0.070.05一百/一百0.090.0894.44/94.44斯坎涅5.142.970/ 0/ 50/85.00392.36120.410/ 0/ 0/5.004.263.700/5/55/90609.69154.13F35.9325.73F下腕足0.540.4647.06/ 70.59/ 88.24/94.126.394.090/ 0/ 41.18/58.820.350.2670.59/ 76.47/ 100/100116.1780.7011.76/ 11.76/ 29.41/35.2966.449.845.88/ 5.88/ 11.76/11.76悉尼0.180.11一百/一百1.390.8235.71/ 85.71/92.860.180.1585.71/ 100/1002.811.860/ 25.00/75.000.180.2064.29/ 71.43/71.43图林根0.570.2645.45/ 90.91/ 100/1000.950.6018.18/ 54.55/ 100/1000.370.2581.82/ 100/100431.41121.14F7.036.510/ 0/ 27.27/63.64Tsuru0.010.04一百/一百0.060.30一百/一百0.030.03一百/一百0.020.04一百/一百0.030.04一百/一百华盛顿1.000.420/ 50/ 100/1003.960.660/ 0/ 100/1001.071.47十/三十/一百/一百0.900.6840/ 50/ 90/1002.461.200/ 0/ 70.00/70.00表3.在CrowdDriven基准测试中的本地化性能我们报告的中位数位置（米）和方向（度）的错误，以及测试图像的位置和方向错误的某些误差范围内定位的百分比。简单、中等和困难数据集分别以浅灰色、标准灰色和深灰色进行颜色编码我们还提供了有关训练序列和测试序列之间变化类型的信息：照明：，阴天：，树叶：，雪：，季节性的：，昼夜：，小视点：，雨：，强视点：、人为的改变：. ’F’ stands for failure to localize any image within the coarsest precisionHLocD2-NetS2DHM整流SIFT简单（100%）简单（100%）困难（0%）中等（0%）中等（4%）中等（0%）中等（0%）图4.选定场景的内点图。没有一个评估的方法是能够鲁棒本地化的介质和硬数据集。对于最佳方法，在中等精度阈值下的局部图像的分数使这一点变得明显，如下面每列所示测量为参考位置和估计位置之间的欧几里得距离。为了测量定向误差，我们计算将估计旋转矩阵Rest与参考旋转Rref对准的最小旋转角α为2cos（|阿尔法|）= trace（RTRest）−1 [33]。”[58]《明史》：“我们使用三个误差界限：高精度（图像定位在其参考姿态的0.5m和2°内）、中等精度（1m，5°）和粗略精度（5m，10°）。此外，我们引入了一个非常粗略的精度制度（10米，20°）。我们还报告了测试之间的条件变化9852和训练图像：（轻微）照明变化（IL.），例如，在多云和晴天之间，植被上的叶子/没有叶子（fo.），地面上有雪 / 无雪（ sn. ），其他季节性变化（ SeasonChange）（夏季/秋季），昼夜变化（ng.），雨/无雨（rn.），小（SM）（五）强大的观点（St. v.），和人造的（例如，汽车的外观/消失）改变。选项卡. 3总结了通过评估基线获得的结果。在下文中，我们将重点分析三种类型的变化：轻微的照明、昼夜和强烈的视点变化，它们是主要的变化类型。轻微的照明变化。如 Tab. 所示。在图 3 中，诸如Muehlhausen 、 Tsuru 、 Poing

下载后可阅读完整内容，剩余1页未读，立即下载