Mapillary街道级序列：用于终身位置识别的数据集

52 浏览量更新于2023-10-23 收藏 2.98MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1Mapillary街道级序列：一个用于终身位置识别的数据集FrederikWarburg<$，SørenHauberg<$，ManuelLo′pez-Antequera，PauGargallo，YubinKuang， and Javier Civera§†Technical University of Denmark，ZHMapillary AB，§Universityof Zaragoza<${frwa，sohau}@ dtu.dk，{manuel，pau，yubin}@ mapillary.com，§jcivera@unizar.es摘要终身位置识别是计算机视觉中一项重要而具有挑战性的任务，在鲁棒局部化和高效的大规模三维重建中具有广泛的应用。目前，由于缺乏大型、多样化、公开可用的数据集，进展受到阻碍。我们的贡献与Mapillary街道级序列（MSLS），一个大型数据集的城市和郊区的地方recog-nation从图像序列。它包含了超过160万张来自Mapillary协作地图平台的图像该数据集比当前的数据源大几个数量级，旨在反映真正的终身学习的多样性。它拥有来自六大洲30个主要城市的图像，数百个不同的相机，以及不同的视角和拍摄时间，跨越了九年的所有季节。所有图像都使用GPS和指南针进行地理定位，并具有道路类型等高级属性。我们提出了一组基准任务，旨在推动国家的最先进的性能，并提供基线研究。我们表明，目前最先进的方法还有很长的路要走，现有数据集缺乏多样性，阻碍了对新环境的推广。数据集并学术研究有基准。11. 介绍视觉位置识别对于增强现实和机器人系统的长期运行至关重要[31]。然而，尽管它的相关性和大量的研究工作，它仍然具有挑战性，在实际环境中，由于在户外场景中的外观变化的广泛阵列，如从我们的数据集中提取的例子在图1中看到。最近关于地点识别的研究表明，深度神经网络学习的特征优于传统的这项工作的主要部分是在弗雷德里克·沃伯格（Frederik Warburg）在Mapillary实习时完成的。1 www. 马皮里。com/datasets/places图1：Mapillary SLS包含来自世界各地30个主要城市的图像;红色代表培训城市，蓝色代表试验城市。查看来自旧金山，特隆赫姆，坎帕拉和东京的四个样本，由于视角，结构，季节，动态和照明而具有挑战性的外观变化。手工制作的功能，特别是对于剧烈的外观变化[5，31，55]。这促使了几个数据集的发布，用于训练，评估和比较深度学习模型。然而，这些数据集至少在三个方面是有限的首先，它们都没有涵盖在现实世界的应用程序中遇到的许多外观变化。其次，它们中的许多都没有足够的规模来训练大型网络。最后，大多数数据集都是在小范围内收集的，缺乏泛化所需的地理多样性本文通过创建一个解决上述所有挑战的数据集，为终身位置识别的进展做出了贡献。我们提出了Mapillary街道级序列（MSLS），迄今为止最大的位置识别数据集，具有最广泛的感知变化和最广泛的地理分布2。 MSLS包括以下外观变化的原因：不同的季节，不断变化的天气条件，在一天的不同时间变化的照明，动态2请参阅随附的视频了解概述和示例图像。26262627外观变化名称环境总长度地理覆盖时间覆盖帧季节性天气观点动态日/夜内部函数结构诺尔兰[36，37]自然+城市728公里182公里1年115K✓✗✗✗✗✗✗[第12话]城市--1年2002年。5M✓✓✗✓✓✗✗KITTI [20]城市+郊区39岁2公里1 .一、7公里3天13K✗✗✓✓✗✗✗埃因舍姆[14]城市+郊区70公里35公里1天10K✗✗✗✓✗✗✗圣圣卢西亚[21]郊区四十七5公里9 .第九条。5公里1天33K✗✗✗✓✗✗✗NCLT [9]校园一百四十八5公里五、5公里15个月。300K✓✗✓✓✗✗✗[32]第三十二话城市+郊区1 .一、000公里10公里1年27K✓✓✓✓✓✗✓VL-CMU[8]城市+郊区128公里8公里1年1. 4K✗✗✓✓✗✗✗[34]第三十四话城市+郊区120公里70公里3年43K✓✓✓✓✗✗✓加登角[41]城市+校园<12公里4公里1周∼600✗✗✓✗✓✗✗[44]第四十四话城市6公里1 .一、5公里-200K✓✓✓✓✓✗✗GSV [56]城市---60K✗✗✗✗✗✗✗匹兹堡250K[51]城市---254K✗✗✓✓✗✗✗东京TM/247[50]城市---174K✓✗✓✓✓✗✓[28]第二十八话花园<100米<100米1年60K✗✗✓✓✗✗✗Mapillary SLS（我们的）城市+郊区11，560公里4，228公里7年1. 68米✓✓✓✓✓✓✓表1：地点识别数据集的总结。地理覆盖范围是指独特的穿越路线的长度。总长度是地理覆盖范围乘以每条路线被穿越的次数时间覆盖范围是从第一次记录路线到最后一次记录的时间跨度诸如移动的行人或汽车之类的对象、诸如道路工程或建筑工程之类的结构修改、照相机本质和视点。我们的数据覆盖六大洲，包括坎帕拉、苏黎世、安曼和曼谷等不同城市。除了数据集之外，我们还做出了一些与实验验证相关的贡献。我们对特别具有挑战性的场景进行基准测试，例如白天/夜晚，季节和时间变化。我们通过提出MultiViewNet的六种变体[16]来模拟序列到序列的位置识别，从而解决了更广泛的问题，而不仅仅限于图像到图像的定位。此外，我们制定了两个新的研究任务：序列到图像和图像到序列识别，并提出了几个特征描述符，将预训练的图像到图像模型扩展到这两个新任务。2. 相关作品地点识别。位置识别包括在注册图像数据库中找到查询图像的最相似位置[31，55]。传统的视觉位置描述符基于使用词袋[45]、Fischer向量[39]或VLAD [25]聚合局部特征其他手工制作的方法利用图像序列中的几何和/或时间一致性[15，17，33]。Torii等人[50]从具有相关深度的全景图像合成视点变化。这些合成图像使位置描述符DenseVLAD [4，26]对视点和白天/夜晚变化更具鲁棒性与其他计算机视觉任务一样，深度特征表现出比手工制作更好的性能[55]。最初，来自现有预训练网络的特征用于单视图位置识别[7，11，46- 48 ]。后期作品证明，如果网络被训练用于位置识别的特定任务，则性能会提高[5，22，30]。最近的成功之一是NetVLAD[5，55]，它使用基础网络（例如，VGG16），然后是作为图像描述符的广义VLAD层（NetVLAD）。其他工作，如R-MAC [49]和Chen et al.[13]，直接从CNN响应图中提取区域以形成位置描述符。最近基于深度学习的方法利用图像或图像序列中的时间、空间和语义信息。Radenovic等人[42]提出了一种从无序图像获得大型3D场景重建的管道，并使用这些3D重建作为地面实况，用于训练具有硬正面和负面挖掘的广义平均（GeM）层。Garg等人 [18]，另一方面，使用单视图深度预测来识别从相反方向重访的地方。此外，解决极端的观点变化，加格等人。 [19]建议语义聚合显着的视觉信息。PointNetVLAD[ 2 ]也使用地点的3D几何形状，它将PointNet和NetVLAD 结合起来，从LiDAR 数据中形成一个全球地点描述符。MultiViewNet[16]研究了不同的池化策略，描述符融合和LSTM来对图像序列中的时间信息进行建模。然而，由于缺乏适当的数据集，这项研究受到阻碍。地点识别数据集。表1总结了一组相关的地点识别数据集。下面我们将重点介绍更多细节，并将我们的贡献与现有数据集进行比较。Nordland[36，37]包含4个182公里长的火车旅程序列，每个季节穿越一次它捕捉季节变化，但包含视点，相机本质，一天中的时间或结构变化的小变化。2628SPED [12]是根据2. 5K静态监控摄像头超过1年。它包含动态、光照、天气和季节变化。然而，它不包括视点变化或自我运动。KITTI[20]，Eynsham[14]和圣卢西亚[21]都是由车载摄像机记录的。在这三种情况下，汽车在几天内在城市环境中行驶，捕捉动态元素和轻微的视角和天气变化，但没有长期变化。还有其他几个面向自动驾驶的数据集是在更长的时间内收集的：NCLT [ 9 ]（在校园环境中记录了15个月的时间），Oxford RobotCar[32]（每周两次穿越相同的10公里路线记录了一年），VL-CMU[8]（由16×8公里的街景视频组成，弗赖堡跨季节（FAS）[34]（由2 × 60公里夏季视频和1× 10公里冬季视频组成，为期三年）。它们都没有地理多样性，它们也不具有照相机固有特性的变化此外，它们的视角、结构和天气变化都很小。[41]这是一部手持iPhone的录音机它包含白天/黑夜和显著的视点变化，但其他外观变化的小表示，并且尺寸较小。SYNTHIA [44]包含沿相同路线的4个合成图像序列。 It includes varying viewpoints, seasonal, weather,dynamic and day/night changes.GSV[56]从Google街景中编译了一个街道级图像数据集。然而，它相对较小，只有60，000张图像。它仅限于美国的几个城市，没有时间变化，它是由静止图像，而不是序列。汉堡250k[51]也是从谷歌街景地图中提取的在匹兹堡（10，586具体地说，使用两个偏航方向和12个俯仰方向）。这些数据集的地理跨度有限，导致与我们相比，独特的地方数量很少东京[50]有两个版本：的东京时间机器数据集（约98K图像）和东京24/7（约75K图像）。东京24/7有明显的昼夜变化。然而，[5]评论说，东京的训练模型数据集显示出过度拟合的迹象，这可能是由于其有限的地理覆盖范围和规模造成的注意，GSV、汉堡250k和东京具有显著的视点变化，但不包括关于图像的观看方向的信息，因此，具有视点重叠的图像的正挖掘不是简单的。在我们的Mapillary SLS中，我们包含了每个图像的查看方向信息（请参阅第3节中的详细信息）。图像检索是一个类似于位置识别的任务，旨在从数据库中找到与查询图像最相似的图像。存在若干图像检索数据集（通常他们在基准终身地方认可的应用。3. Mapillary SLS数据集为了推动终身位置识别的最新技术，需要更大和更多样化的数据集。考虑到这一点，我们创建了一个由1.600万张图片来自Mapillary 3。在本节中，我们将概述数据集的策展过程、特征和统计数据。利用数据集的序列信息我们还提出了两个新的研究基准任务。3.1. 数据监护我们的目标是创建一个用于位置识别的图像数据集，这些图像（1）具有广泛的地理范围，减少对发达国家人口稠密城市的偏见（2）视觉多样，捕捉不同天气，照明和时间下的场景，（3）标记有可靠的几何和顺序信息，使新的研究和实际应用成为可能。3.1.1图像选择地理多样性。为了确保地理多样性，我们从一组候选城市开始进行图像选择。对于每个候选城市，我们创建一个500平方米的单元格大小的规则网格，并独立处理每个单元格对于每个细胞，我们提取一系列的图像序列记录在这个细胞。每个序列包含图像键及其相关的GPS坐标和原始罗盘角度（指示查看方向）。MSLS包含来自6大洲30个城市的数据详见图1和表2。它涵盖了不同的城市和郊区环境，如相应OpenStreetMap（OSM）4道路属性的分布所示（图3）。唯一用户和捕获时间。为了确保每个地理单元内的场景结构、一天中的时间、相机本质和视点的变化，我们只为每个摄影师保留一个序列，并从不同的日子挑选序列一致的观察方向。为了确保观看方向测量对于选择匹配图像是可靠的，我们强制原始罗盘角度（由捕获设备测量）和估计的观看方向运动恢复结构（SfM）5我们只选择其中至少80%的图像3.1.2顺序分析和聚类分析为了最大限度地增加数据集的多样性，我们选择了大量的短序列。序列长度被策展为从Flickr图像创建）和已建立的基准，例如，、Holidays[24]，Oxford5k，Paris6k [40]，Revisited Oxford5kand Paris6k [43]，San Francisco Landmarks [10] and GoogleLand- marks [35，38].它们通常专注于单图像检索，并且具有来自同一个地方的非常大的图像集，这限制了3 www. 马皮里。com4www. openstreetmap. org5估计的观看方向是基于使用默认OpenSfM [1]管道估计相机姿态，相机位置与GPS测量值对齐2629图2：Mapillary SLS对显示日/夜、天气、季节、结构、视点和域变化。大陆帧数#夜帧Geo. 覆盖范围[公里]总覆盖范围[km]#集群欧洲小行星516K1,0981,0522,9858,654亚洲468K9,8209652,7295,483北美小行星431 K3,9681714,6166,504南美洲61K1,1772145991,065澳大利亚200 K02595681,493非洲5 K02863108总1，681K16,0634,22811,56023,307表2：Mapillary SLS的大陆覆盖率。与研究人员目前用于基于序列的位置识别的方法相匹配。给定来自图像选择过程的序列的初始集合，我们生成作为位置识别的候选序列的集群为了避免连续图像之间的距离很大的序列，我们首先将每个原始图像如果在两个连续帧之间存在超过30m，则将序列分成连续帧然后，我们根据它们的距离、观看方向和运动方向6成对匹配这些子序列。这是通过在所有子搜索中完成的序列，并基于它们与所有其他相邻子序列的距离形成候选聚类（子序列对）。为了形成候选聚类，我们使用以下标准：来自子序列A和B的帧被聚类在一起，如果：1）它们的距离小于30 m。（2）差异两个方向之间的距离小于40度。3）The它们的运动方向之间的差异小于40μ m。在实践中，我们使用k-d树来有效地发现这些成对对应。上述标准有时会跳过序列中的中间图像，例如，子序列可能具有图像{1，2，4，5}，因此丢失图像3。为了避免这种效果，我们将所有跳过的图像添加回序列中在将子序列对匹配成潜在的聚类之后，我们修剪它们以获得两个序列重叠的帧，因此可以用于序列到序列的位置识别。由于可能有更多的匹配序列，我们合并所有成对聚类（例如，我们合并集群A，B和6使用GPS测量和序列中连续图像的捕获时间来C如果存在属于聚类AB、AC和BC的图像我们最终得到了具有相同地理覆盖范围和相同移动和观看方向的序列集群。集群中的序列相对较短（5-300帧），提供了一组非常多样化的序列示例用于培训和开发多视角地点描述符。最后，我们过滤得到的聚类，强制执行：1）每个子序列具有5个或更多个帧，用于多视图位置识别模型的适当评估;以及2）每个聚类具有至少两个子序列，以便具有足够数量的正训练和测试样本。图3：Mapillary SLS的OSM道路属性分布3.2. 图像属性对于每幅图像，我们还提供了几个原始元数据，后处理元数据和图像属性，这些都与进一步的研究相关2630元数据. 我们为每个图像提供原始GPS坐标、捕获时间（时间戳）和罗盘角度（对应于绝对方向）。我们还包括UTM坐标和二进制标签，指示汽车控制面板的存在或不存在（使用语义分割网络计算）。白天和黑夜。我们提供了一个属性，指示序列是在白天还是在晚上捕获的我们验证了白天/夜晚属性不能从图像的捕获时间因此，我们实现了一个白天/黑夜分类器的基础上的色调分布的整个图像和天空区域确定使用语义分割。给定每个图像的预测，我们然后在整个序列执行多数投票，以提供一致的白天/夜晚标签。为了获得天空区域，我们使用了Mapillary的API提供的语义分割掩码通过人工检查，我们发现这样的分类器是足够的。定性视图方向。我们还包括相机的朝向：向前，向后或侧向，这是相机相对于其移动的方向道路属性。基于图像的GPS位置，我们还用道路属性（例如，住宅区、高速公路、道路或其他），其从OpenStreetMap7（OSM）获得。3.3. 数据概述在本节中，我们从多样性的角度概述了MapillarySLS数据集在图4a和图4b中，我们展示了数据集覆盖了一天中的所有时间和一年中的所有月份图4c和4d显示，数据集跨越了9年，并且相同的地方已经被重新访问了长达7年的时间差，使MSLS成为终身地点识别时间跨度最大的数据集。图4e和4f显示了相同位置的序列长度和记录数量的巨大变化。为了突出广泛的多样性和挑战，图2显示了我们数据集中的图像样本，其中每列包含一个查询和附近位置的数据库图像在第一列中，查询图像是在白天拍摄的，而数据库图像是在晚上拍摄的第二列显示了一个剧烈的天气变化的例子，以及一个新的道路工程交通标志。第三列显示了坎帕拉的图像;与哥本哈根和旧金山的前两列图像相比，环境发生了巨大变化在最后两列中可以看到海的声音和结构的变化，因为道路左侧的摩天大楼在底部的图像中正在在补充材料中有更多关于查询图像和数据库图像之间各种变化的可视化示例7 https：//wiki。openstreetmap. org(a)（b）每月分配(c)（d）时间差[月](e)每个序列的帧数（f）每个簇的序列数图4：Mapillary SLS中图像序列在日、月、年尺度上的分布、时间变化和序列相关特征。3.4. 数据划分与评估我们将数据集分为一个训练集（大约90%）和一个测试集（剩下的10%），其中包含不连贯的城市集。具体地说，测试集由从迈阿密、雅典、布宜诺斯艾利斯、斯德哥尔摩、班加西和坎帕拉收集的图像组成。我们短语四个地方识别任务相结合的查询和数据库中的单个图像和序列这些任务在下文中将分别被称为im2im、seq2seq、im2seq和seq2im（x2y代表查询x和数据库y）。除了对整个测试集进行评估外，我们还提出了以下三个研究挑战，并为每个挑战提供了一个单独的记分牌：白天/夜晚（模型识别白天和夜晚的位置的能力，反之亦然），季节性（模型识别季节之间的位置的能力，夏季/冬季，反之亦然是最具挑战性的）和新/旧（模型识别几年后的位置的能力）.类似于以前的作品，我们投地方识别作为一个图像检索问题，并使用前5名的召回作为评价指标。对于每个集群，我们选择一个序列作为查询，其余的序列作为数据库。在下面，我们将使用查询示例来描述查询图像或查询序列。查询示例被选为所选查询序列中的中心帧每个查询序列只选择一个2631在评估中每个位置的权重独立于其帧数。我们将地面实况匹配定义为查询图像的半径为25 m内的那些图像，其视角差小于40 °。正确的序列匹配是当查询序列中的任何帧距离数据库序列中的任何帧小于25 这个定义也解释了为什么seq2im比im2seq更难，因为后者的正确匹配区域更大。为了避免过度拟合测试集，我们保留了测试集的元数据，除了序列的顺序测试集被划分为查询集和数据库集以便于评估。测试集在地理上远离训练集，确保没有共享的视觉内容，这对于现有的数据集（ Eisburgh 250 k 和 TokyoTM/Tokyo24/7）来说是一个问题。4. 实验在本节中，我们首先介绍了查询阳性阴性1阴性2阴性3图5：三胞胎与多重阴性。在训练过程中使用我们提出的子缓存方法挖掘硬否定。对于每个查询肯定对，大多数都违反了三元组约束，||q−p||2+m<||q−n||2的2 2基线方法我们在地图上显示实验结果illarySLS数据集在单视图和多视图设置。4.1. 培训对于基线方法，我们使用NetVLAD [5]并遵循类似的训练过程和超参数选择方案。该模型使用三重丢失进行训练[52]，对于三重丢失，呈现硬三重对于学习良好的嵌入至关重要。我们应用了一种简单而有效的子缓存方法，使用恒定的时间和空间，类似于Arandjelovic等人。查询图像和正图像都可以从缓存中采样，底片也可以。重要的是保持子集的大小足够大，以找到足够硬的三元组。在我们的实验中，我们使用了10000个查询图像，并每1000次迭代刷新缓存。我们每个三元组使用5个反例而不是10个[5]，因为这允许我们将批量大小为4的数据放入内存中。4.2. 单视图位置识别在表3中，我们对im 2 im识别最常见的深度模型进行了基准测试，报告了它们在几个具有挑战性的识别案例中的前5名召回率，以及它们在整个测试集上的前1/5/10名召回率。这些具有挑战性的情况包括夏季到冬季（ Su/Wi ），白天到夜晚（ Da/Ni ），旧到新（Ol/Ne），反之亦然。我们将旧图像定义为2011-2016年间拍摄的图像我们的目标是分别评估每种方法在暴露于季节、昼夜和结构变化时的性能我们评估两个早期模型：Amosnet和Hybrid- net [12]以及两个最近的：NetVLAD [5]和GeM（广义平均值）[42]。Amosnet和Hybridnet有一个Caffe-net主干，后面是两个完全连接的层。NetVLAD [5]由一个VGG16核心和一个可训练的VLAD层组成，是几个地点识别数据集的最新技术我们评估了具有VGG 16主干架构的GeM变体，该变体在Flikr（SfM-120 k）的120 k图像的3D重建上进行了训练选择了这里，q、p、n指的是用于查询，积极和消极的图像。m是余量。表3表明，在不同的MSLS上进行培训可以提高整体性能。性能提升主要是由于识别经历了季节和时间变化的地方的能力提高所有模型都特别受到夜间到白天变化的挑战。图6显示了im2im模型与不同距离和候选图像数量的详细比较4.3. 多视图位置识别我们建议重新定义 MultiViewNet [16] 以解决seq2seq，seq2im和seq2im位置识别。据我们所知，没有以前的工作已经解决了这两个后一种情况。我们提出了两种基于NetVLAD的新架构，并在表3中显示了结果。seq2seq. 我们提出了MultiViewNet的六种变体[16]，具体来说，NetVLAD的三种池化技术和GeM的三种池化技术。其动机是适应嵌入，已知工作良好的单视图位置识别。第一种技术，NetVLAD/GeM-MAX，在序列中每个图像的嵌入中执行最大第二个变体NetVLAD/GeM-AVG执行平均池化。最后一种技术，NetVLAD/GeM-CAT，连接嵌入。结果报告于表3中。seq2im。在序列到图像的情况下，我们建议在整个序列中进行多数表决，即。在数据库中选择查询序列中最接近的图像给定一个N帧的查询序列，我们计算每个帧到每个数据库图像的距离。然后，我们查看查询序列中N个帧中每个帧的最近k距离这给出了总共k×N个最接近的数据库图像。然后我们选择最常见的。直觉如果序列中的所有帧都接近数据库2632im2seqseq2imseq2seqim2im模型训练集基地输入大小昏暗苏/威Wi/SuDa/NiNi/DaOl/NeNe/Ol全部（@1/5/10）阿莫斯疾驰CaffeNet227x22725430.170.090.200.090.170.140.06/0.11/0.14混合疾驰CaffeNet227x22725430.130.110.140.110.180.170.08/0.13/0.15NetVLAD250kVGG16480x6405120.430.440.370.090.490.500.28/0.35/0.39创业板SfM-120kVGG16480x64020480.510.480.370.200.550.560.30/0.40/0.44NetVLADMSLsVGG16480x6405120.760.740.490.230.710.750.48/0.58/0.64NetVLAD + MAX250kVGG16480x6405120.400.510.370.090.550.570.23/0.32/0.36NetVLAD+AVG250kVGG16480x6405120.410.390.370.090.540.540.20/0.31/0.34NetVLAD +CAT250kVGG16480x6405120.440.470.370.140.570.560.23/0.33/0.37GeM + MAXSfM-120kVGG16480x64020480.530.540.430.260.670.570.29/0.43/0.48GeM + AVGSfM-120kVGG16480x64020480.600.520.400.140.660.570.29/0.42/0.46GeM + CATSfM-120kVGG16480x64020480.550.460.460.260.650.530.28/0.42/0.46NetVLAD + MAXMSLsVGG16480x6405120.750.790.510.140.800.760.42/0.58/0.63NetVLAD+AVGMSLsVGG16480x6405120.750.780.510.060.780.730.37/0.56/0.60NetVLAD +CATMSLsVGG16480x6405120.840.760.570.200.800.720.41/0.60/0.65NetVLAD + MIN250kVGG16480x6405120.530.530.370.030.600.620.30/0.37/0.40NetVLAD +模式250kVGG16480x6405120.530.510.460.060.610.590.28/0.37/0.41GeM + MINSfM-120kVGG16480x64020480.620.620.370.230.710.670.38/0.47/0.50GeM+模式SfM-120kVGG16480x64020480.590.520.460.260.670.660.32/0.45/0.51NetVLAD + MINMSLsVGG16480x6405120.860.860.540.200.830.810.56/0.68/0.71NetVLAD +模式MSLsVGG16480x6405120.530.510.460.060.610.590.28/0.37/0.41NetVLAD + MIN250kVGG16480x6405120.200.300.290.140.330.280.12/0.20/0.26GeM + MINSfM-120kVGG16480x64020480.240.220.260.310.370.290.13/0.22/0.31NetVLAD + MINMSLsVGG16480x6405120.450.390.310.230.480.370.23/0.34/0.48表3：Mapillary SLS测试集上不同im2im、seq2seq、seq2im和im2seq模型的评价我们报告了几个具有挑战性的识别案例的模型recall@5以及它们的整体recall@1/5/10。为了进行公平的比较，我们比较了具有类似骨干架构的模型。图像，那么我们更有信心这个数据库图像确实接近查询序列。在表 3 中，我们将这种多数表决称为+MODE。我们还测试了在查询序列中的所有图像中选择数据库中最接近的图像，我们将其在表3中称为+MIN 。同样，我们使用 VGG 16 + GeM 和 VGG +NetVLAD嵌入来测试这些方法（见表3）。图6：根据最近邻数（左）和距离阈值（右）调用MSLS上的不同方法。/†分别表示预训练/训练模型。im2seq. 在图像到序列的情况下，我们测试包含具有最近查询的图像的序列的选择。在实践中，我们计算从查询图像到数据库序列中所有帧的距离，并选择包含最近帧的序列。表3显示，与单视图模型相比，这些简单的池化策略并不能大大提高模型性能原因是MSLS序列是以不同的帧速率和用户速度捕获的，这要求模型学习帧之间的时间无关关系。这些复杂关系不能通过简单的汇集策略来捕获这激发了多视图方法的发展和进一步研究，这是由MSLS的发布所容纳的4.4. 进一步分析在本节中，为了更好地理解数据集多样性的强度，我们对识别结果进行了定性和地理分析定性模型比较：在图 7 中，我们对 AmosNet 、HybridNet、VGG 16-GeM和NetVLAD进行了定性评估，这些网络都是在SfM 120 K和Sfburgh 250 k上训练的，NetVLAD在Mapillary SLS上进行了培训请注意，与在其他数据集上训练的模型相比，MSLS数据的多样性如何使NetVLAD对视点和天气变化更具鲁棒性，这些数据集没有像我们的数据集那样封装多样性。地理偏见：最先进的地点识别网络接受发达国家图像的培训图8显示了几个模型在MSLS各个城市的表现，证实了它们的地理偏见。请注意，GeM模型的偏差略小，亚洲城市的表现下降相对较低。这可能与该模型是在Flickr图像上训练的这一事实有关，Flickr图像比其他数据集更加多样化图9显示，通过对AmosNet和NetVLAD的MSLS进行训练，可以减少这种地理偏差。5. 结论和未来工作我们已经提出了Mapillary SLS，一个用于训练和评估位置识别算法的图像序列的大集合2633查询AmosNetHybridNetGeMNetVLAD（Pitt250k）NetVLAD（MSLS）图7：不同预训练网络以及我们在Pitts-burgh 250 k和Mapillary SLS上训练的NetVLAD模型的定性比较。MSLS培训提高了对天气变化和棕榈树等多种植被的鲁棒性。绿色：真阳性;红色：假阳性。方法。数据收集自Mapillary，包含超过1。6百万帧来自30个不同的城市超过6个conti- nents。收集的序列跨越了七年的时间，由于季节，建筑，动态物体，相机，天气和照明，这些地方经历了巨大的感知变化。MSLS包含所有公开可用数据集中最大的地理和时间覆盖范围;并且它是具有最广泛的外观变化和最大数量的图像的数据集之一。所有这些功能使我们的数据集成为训练地点识别算法的可用数据语料库的一个有价值的补充。许多变化模式和相当大的实际城市数据规模使其对深度学习方法和自动驾驶汽车应用特别有吸引力。我们还使用以前最先进的方法在我们的数据集上运行了广泛的基准测试，以说明我们数据集的难度我们还引入了两个新任务：seq2im和im2seq。我们提出了新的技术来解决这些任务，使用模型训练im2im位置识别和评估几个预先训练的模型，以及在MSLS上训练的模型虽然本文的重点是位置识别，但Mapillary SLS也适用于其他计算机视觉任务，如姿势回归[27，54]，图像合成（例如，昼夜转换[3]），图像到GPS [53，57]），变化检测，特征学习，使用OSM的场景分类图8：4个地点识别模型中的地理偏差。y轴显示了前5名的召回率。城市的颜色取决于它们的位置：非洲（橙色），亚洲（红色），南美洲（粉红色），北美（紫色），欧洲（青绿色）。(a)AmosNet（b）AmosNet <$（c）NetVLAD <$（d）NetVLAD <$图 9 ：在 MSLS 上训练并在 MSLS 测试集上评估时，AmosNet和NetVLAD的偏差降低。 /†分别表示预训练/训练模型。道路标签和无监督深度学习[23，29]。鸣谢。该项目的大部分是在Mapillary实习。它获得了欧盟地平线2020研究和创新计划下的欧洲研究理事会（ERC）的资助 SH部分由VILLUMFONDEN的研究资助（15334）支持。我们衷心感谢NVIDIA公司捐赠GPU硬件的支持2634引用[1] OpenSfM。https：//github.com/mapillary/OpenSfM.3[2] M. Angelina Uy和G.李熙PointNetVLAD：基于深点云检索的大规模地点识别。在IEEE计算机视觉和模式识别会议论文集，第44702[3] A. Anoosheh，T. 萨特勒河阿夫特，M. 波勒菲，还有L. 范古尔用于基于检索的定位的夜间到日常图像翻译。2019 年国际机器人与自动化会议（ ICRA ），第5958IEEE，2019。8[4] R. Arandjelovic和A.齐瑟曼。关于VLAD 2013年IEEE计算机视觉和模式识别会议，第1578-1585页，2013年。2[5] R. Arandjelovic，P. Gronat，A. Torii，T. Pajdla和J.西维克NetVLAD：用于弱监督位置识别的CNN架构在IEEE计算机视觉和模式识别会议论文集，第5297-5307页，2016年。一、二、三、六[6] R. Arandjelovic，P. Gronat，A. Torii，T. Pajdla和J.西维克NetVLAD：用于弱监督位置识别的CNN架构。 IEEETransactions on Pattern Analysis Machine Intelligence，40（06）：1437-1451，2018年6月。ISSN 1939-3539。doi：10.1109/TPAMI。2017年。2711011. 6[7] A. Babenko和V.Lempitsky 聚合局部深度特征用于图像检索。2015年IEEE国际计算机视觉会议（ICCV），第1269doi：10. 1109/ICCV。2015年。150. 2[8] H. Badino、D. Huber和T.卡纳德视觉拓扑定位。2011年IEEE智能车辆研讨会（IV），第794-799页，2011年6月。doi：10. 1109/IVS。2011年。5940504. 二、三[9] N. Carlevaris-Bianco，A. K. Ushani和R. M. Eustice密歇根大学北校区长期愿景和激光雷达数据集。InternationalJournal of Robotics Research，35（9）：1023-1035，2015。二、三[10] D. M. Chen，G. Baatz，K. K¨ser，S. S. 蔡河，巴西-地Vedantham，T. Pylvaünaüinen，K.Roimela，X.Chen，J.巴赫湾波莱菲说，B. Girod和R. 谢谢移动设备上的城市规模地标识别。见CVPR 2011 ，第 737doi ： 10. 1109/CVPR 。 2011 年。5995610. 3[11] Z. Chen，O.Lam，A.雅各布森和M。米尔福德基于卷积神经网络的地点识别。CoRR，abs/1411.1509，2014年。网址http：//arxiv. org/abs/1411。1509. 2[12] Z. Chen，中国山核桃A. Jacobson，N. 松德豪夫湾厄普克罗夫特湖刘先生，C. 申岛D. Reid，and M.米尔福德大规模深度学习功能用于视觉位置识别。CoRR，abs/1701.05105，2017。网址http：//arxiv. org/abs/1701。05105. 二、三、六[13] Z. Chen，F.马夫拉岛Sa和M.奇莉只需查看一次，从ConvNet中挖掘独特的地标以进行视觉位置识别。在2017年IEEE/RSJ智能机器人和系统国际会议（IROS）上，第 92017 年。 doi ： 10. 1109/IROS 。 2017 年。8202131. 2[14] M.康明斯高度可扩展的仅外观SLAM-FAB-MAP 2.0。Proc. Robotics：科学与系统（RSS），2009年。二、三[15] M. Cummins和P.纽曼使用FAB-MAP 2.0进行大规模的仅外观SLAM The International Journal of RoboticsResearch，30（9）：1100-1123，2011. 22635[16] J. M. Fa'south，D. 奥利德

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

Mapillary街道级序列：用于终身位置识别的数据集

mapillary_sls:枫叶街道级序列数据集

多元时间序列数据集资料

C3D与I3D行为识别模型对比：时空特征与Kinetics数据集

AT89C51控制数码管显示数字序列：0-9

卷积神经网络与LSTM融合：提升人体行为识别精度

R语言时间序列分析：预测未来数据

深度学习与LSTM结合：提升人体行为识别准确率的新方法

I3D模型与Kinetics数据集：行为识别新进展

机器学习实战：量化交易中的数据获取与时间序列分析

SPSS时间序列分析详解：掌握经济数据预测的关键技术

固定长度DNA序列分类：k-Mer与位置特定位特征结合的应用

深度学习序列到序列学习：LSTM在机器翻译中的应用

深入学习LSTM序列预测：Python实现

Python时间序列分析：情怀与实战

时间序列数据预测：模型与方法探讨

时空序列预测：方法综述与未来发展

深度学习时间序列预测：模型与进展

时间序列分析：平稳性检验与ADF测试

Java序列化：serialVersionUID的作用与使用详解

Python时间序列分析：ARIMA、SARIMA与GARCH

最新资源