地图上同一位置不同时期的图像集，并输出POI的变化作为地图位置列表

157 浏览量更新于2023-10-19 收藏 2.25MB PDF 举报

地图更新

兴趣点检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4086变了吗学习检测兴趣点变化以进行主动地图更新我是说，我是说，我是说。Rezende<$ChanmiYou§ Seong-GyunJeongg§†NAVERLABSEurope§NAVERLABS摘要地图是我们日常生活中越来越重要的工具，但其丰富的语义内容在很大程度上仍然依赖于人工输入。受地理标记街景图像的广泛可用性的启发，我们提出了一个新的任务，旨在使地图更新过程更加主动。我们专注于基于视觉输入自动检测兴趣点（POI）的变化，特别是任何种类的商店或商店面对缺乏适当的基准点，我们构建并发布了一个大型数据集，在两个大型购物中心捕获然后，我们设计了一个通用的方法，比较在同一地点在不同时间捕获的两个图像集，并输出POI的变化作为一个排名的地图位置列表。与徽标或特许经营识别方法相比，我们的系统不依赖于外部特许经营数据库。相反，它受到了最近的深度度量学习方法的启发，这些方法学习适合手头任务的相似性函数我们比较了各种损失函数，以学习与POI变化检测目标相一致的度量，并报告了有希望的结果。1. 介绍地图已经成为我们日常生活中的一个有用的伴侣为了实现地图的可用性，原始地理数据被手动地用相关的语义信息丰富[18，38]。这样，就可以以有效和方便用户的方式查询和探索地图兴趣点（POI），即。人们可能发现有用或感兴趣的良好定位的地标通常构成该语义内容的重要部分。POI可以是各种商店或商店，包括餐馆、咖啡馆、银行等。目前，大多数这些内容都是通过手工收集和输入到地图数据库中的[18，27，41]，但这个过程是繁琐和昂贵的。这是有问题的，因为地图语义内容根据定义是活的此外，在-图1. 建议系统概述。我们检测兴趣点（POI）的变化，作为实现全自动地图更新长期目标的第一步。为此，我们比较了在不同时刻捕获的两组图像。首先形成对应于相同物理位置的图像对，然后使用由深度网络提取的经过专门训练的嵌入进行比较。这种比较只是作为一种内在的-两个归一化嵌入之间的乘积。日期POI信息可能是事故和用户挫折的来源[8，37]。在本文中，我们提出以下问题：利用计算机视觉的最新进展能否减轻地图维护负担？我们注意到，就像人类无意识地建立周围环境的心理地图一样，机器也应该能够执行与语义映射相关的任务。4087(a) POI出现（b）POI替换（c）POI消失（d）无变化图2. 不同情况下POI发生变化。前三列显示我们希望检测的案例。最后一种情况不是POI变化，但由于缺乏清晰可识别的品牌或徽标以及强烈的视点和照明变化而具有挑战性视觉输入的任务。我们朝着全自动地图维护的目标迈出了一步，并解决了基于时空定位场景照片的POI变化检测。该任务更具体地包括每当POI被改变时通知数据库操作员，这发生在新的POI出现、POI被另一个POI替换或POI消失时，参见图2。2. a-c。这意味着比较在不同时刻捕获的两组图像，并且由于几个原因而具有挑战性。首先，比较必须对各种噪声源具有鲁棒性，e.G. 照明、反射、阴影、遮挡和视点变化。图像姿态和缩放可以显着不同的两个捕捉，如图所示。2.d.第二，由于季节变化、特殊销售等，POI外观随时间发生实质性的内在变化。第三，系统被期望产生与最终目标一致的输出，即可能已经改变的地理POI地点的列表，这需要新颖的框架。这篇论文的动机也是最近爆炸性的倡议，以捕捉照片跨越所有领域的现实世界：如今，在线地图服务提供了有关街景的沉浸式体验[3]。鉴于该数据的存在和可用性[4，48]，据我们所知，还没有工作关注地图内容更新的这一重要方面，这有点令人惊讶。这种缺失的一个潜在原因是缺乏适当的基准。虽然新的数据集涉及城市定位[4，5，48]，地点属性[54-标记[7，21，29-作为第一个贡献，我们提供了一个新的和令人兴奋的注释数据集，使这个有趣的任务的研究人员的注意。该数据集由在两个大型购物中心捕获的数千张照片通过专注于室内图像，这是更简单的分析和解析比户外场景，我们将手头的问题与其他范围外的挑战隔离开来。由于变化检测假设时间性，照片被分成两组，在不同的时间戳，相隔几个月捕获。我们还提供每张照片的精确地理定位总的来说，我们的数据集包括578个POI实例和超过33 K的图像，其中包含相对6-DoF相机姿态信息。更重要的是，我们在两个不同的级别注释了POI变化：不仅是在图像层面，而且是在地理层面。我们的第二个贡献是一个新的和通用的方法POI变化检测。我们的系统是基于三个关键阶段：（1）时间上遥远的图像匹配，以形成对，如果他们的姿态重叠;（2）对于每一对，图像进行比较，以检测POI的变化;（3）在整个场地的尺度上聚合成对预测。所提出的系统仅对输入照片的质量、内容和详尽性做出松散的假设值得注意的是，即使在没有清晰可识别的标识或标志的情况下，它也能够检测到变化我们的第三个贡献是图像对比较步骤（上述第二阶段）的几种替代技术的基准这些范围从具有几何验证的关键点匹配到用于度量学习的最先进的深度学习技术，参见图。1.一、最有效的方法是基于三重丢失训练的深度嵌入，取得了令人满意的结果。本文的其余部分组织如下。我们在第2节讨论了相关的工作，并在第 3 节介绍了我们的新数据集MallScape。我们在第4节中描述了POI变化检测的整体方法，并在第5节中对不同的方法和选项进行了基准测试。40882. 相关工作图像中的变化检测一直是多个领域中感兴趣的长期主题[35]，例如医学成像[28]，遥感[11，12]，摄像机监控[15，23，53]或空间图像分析[2，9，22，42]。在医学领域中为了达到这个目的，在不同时刻拍摄的几张图像首先被仔细对齐，然后进行像素比较[28]。类似的问题出现在航空图像[2，9，42]和遥感[11，12]的背景下，其中目标再次是观察预先精确对准的图像之间的特定区域或构造的演变。这些方法依赖于特定的约束和条件，并且不容易推广到其他情况[15]。与我们的问题更接近的是，检测室外城市场景中的结构变化的任务最近已经发展[2，9，16，22，42]。与我们的情况类似，这些方法以地理定位的照片为基础，通常由配备GPS跟踪设备的车载摄像机捕获。通过比较在不同时刻拍摄的同一位置的图片对，他们的目标是预测一个二进制像素掩模，指示结构变化，例如，移位的物体或道路工程。为了成功预测，图像对必须首先使用复杂且容易出错的3D重建技术进行准确的对准过程[2，6]。在这项工作中，我们不对图像的精确对齐进行说明。更重要的是，这些方法对变化的性质是盲目的，并且不清楚它们是否会检测到POI变化，POI变化不一定涉及任何结构变化（例如，见图2.b）。相反，它们会错误地检测到由于定期店面重新布置或圣诞节等特殊事件而最后，这些方法正在优化不适合地图更新目标的像素级度量。我们在整个场馆内的地理范围内检测和汇总POI变化。标志和特许经营检测。另一类工作的重点是识别POI，或者更确切地说，是什么使它们可识别：标志或其品牌的代表性符号。用于标识检测的深度方法[44，45]最近优于以前的手工制作方法[39，40]，并且通过在Flickr和Twitter等社交媒体上获取图像来收集更大的数据集[49]。虽然理论上可以通过跟踪品牌标识或标牌来检测POI的变化，但它受到两个主要问题的影响：（i）这意味着有一个详尽的标识和品牌数据库，而且是最新的，但鉴于每天都有新品牌出现，这是不现实的，(ii)它忽略了这样一个事实，即在实践中，由于遮挡，视角和图像框架的变化，标识和标志，Nage经常不存在（例如，见图2.d）。此外，许多POI不属于任何特许经营权。在这项工作中，我们提出了一个框架，使没有上述两个假设，仍然能够准确地检测POI的变化。图像检索与度量学习。我们的方法的灵感来自图像检索的最新进展。特别是，尽管外观和照明随时间和季节而变化，但识别地点通常被视为图像检索问题[4，5，48]。图像检索旨在定义图像之间的距离度量，以便在给定图像查询的情况下，可以从大型集合中检索到相似的图像[21，29，31]。理想情况下，这个距离度量应该是不变的语义无意义的变化所引起的照明或视点的变化。最近的研究表明，可以使用深度暹罗网络[25]通过监督来学习事实上，深度度量学习已被证明对图像检索[14，34]，人员重新识别[51]，细粒度图像分类[52]，3D对象检索[20]和位置识别[5]非常有效我们遵循这个示例，并使用最小的监督来学习适合POI变化检测的距离度量。更详细地说，深度度量学习包括学习一个嵌入函数，该函数将图像投影到一个空间中，在该空间中，欧几里得距离是它们的语义相似性的精确度量。客观损失函数的许多变体已经被开发出来，例如.对比[17]、双边缘[24]、三重[43]和四重[10]损失。每个都有自己的特异性（参见[25，50]中的评论），但它们的共同目标是在嵌入空间中推开属于不同类别的点，同时吸引具有相同标签的点我们用这些技术中的几种来解决我们的问题。3. MallScape数据集在本节中，我们描述了专门用于POI变化检测任务的新数据集它由在真实购物中心拍摄的室内场景照片组成每个图像都带有由LIDAR获得的精确的6自由度（6- DoF）定位姿势为了观察POI变化的真实范例，已经进行了两个分开几个月的不同的采集数据集可以在[1]下载。收购方案。我们的地图设备扫描场地并拍摄足够密集的照片，以便墙壁的每一部分至少出现在一张特写照片为了确保POI即使在设备非常接近它们的情况下也能很好地被看到，我们安装了摄像头，使得它们稍微向上倾斜。这种延迟获取场景使捕获系统更容易实现，并且在现实中更具可伸缩性。4089表1. MallScape-A和MallScape-B数据集的总结。数据集MallScape-AMallScape-B总地板B1 1F 2F 3F 4FB1-图像数量6965640573639121561753133671POI数量13 106 87 73 2297578变更数量0 6 6 4 06225.54.43.32.21.10.5 0.6 0.7 0.8 0.9 1.0IOU3.02.41.81.20.6100908070600.5 0.6 0.7 0.8 0.9 1.0IOU120967248240123456789 10距离（m）0123456789 10距离（m）(a) MallScape-A（b）MallScape-B(a)MallScape-A（b）MallScape-B图 3.部分楼层地图对应于MallScape-A的第一层（a ）及MallScape-B的零售区（b）。每个POI由不同的颜色表示。条件我们现在描述的两个大型购物中心，已服务于收购活动。MallScape-A是一座五层建筑，包括281个POI，其中总零售面积约为460，000平方米。我们以6个月的时间间隔采集了两次数据，并每隔7米拍摄了360度全景图像然后将图像映射回标准的直线相机镜头，在肖像模式下具有12个等距的水平视点，每个视点分别具有70度和85度的水平和垂直视场。MallScape-B占地约144，000平方米，在一个地下楼层包含297个POI。在相隔3个月的两次会议期间拍摄了大约17K张照片。与MallScape-A数据集不同，我们使用配备鱼眼镜头的标准相机，从而在横向模式下拍摄照片，水平和垂直视野分别为107度和70度。在收集之后，通过半自动方法仔细审查和注释图像我们为数据集提供了每个图像中出现的POI的标签。总体而言，数据集总共包含578个POI和22个POI变化。有关图像数量、POI数量和POI更改数量的详细信息汇总在表1中。楼层地图摘录见图二。3，每种颜色表示不同的POI。在两个不同时刻显示相同POI的一些图像对在图中举例说明五、在所有这些对的相机姿态上计算的统计数据显示在图中。4.第一章在MallScape-A上，两个摄像头之间的平均距离为4米，而两个摄像头之间的平均交叉-联合视觉内容为0。66（这些指标的计算是去-图4.对购物中心MallScape-A和MallScape-B的正图像对的统计。正对，正式定义在方程。（7）是示出相同POI的相同部分的那些。我们提出了几何重叠的直方图（根据方程计算）。（5））和它们的几何距离（以米为单位）。摄像机可以在10米之外，导致显著的视点差异。(a)（b）（c）（d）图5.匹配图像对的示例（每列显示从不同视点和时刻看到的相同位置我们提出的基于深度度量学习的方法可以适应显示单个POI（a），多个POI（b）和根本没有POI（c）的图像。我们在（d）栏中展示了由于广告而引起的戏剧性外观变化的示例4. POI变化检测我们在本节中描述我们想要解决的问题。然后，我们提出了一个通用的度量学习方法来解决这个问题，并讨论了不同的选择训练中心，tral成对图像相似性。4.1. 问题公式化我们感兴趣的是针对特定区域内的每个位置自动确定令Dt表示在时间t1捕获的地理定位图像的数据集，即（见第4.2节）。这表明图像对具有整体上有很大不同的观点1为简单起见，我们假设捕获的不确定性。对数（103）对数（103）对数（103）对数（103）4090ttJ|U（Θ）|Dt={（It，Θt）}，其中It是图像，Θt是其关联。我我我我我6-DoF摄像头我们进一步假设，′第二个数据集Dt在不同的时间t′>t。请注意，我们不对相应的假设进行任何假设Dt之间的图像和姿态之间的关联′Dt前只是两个图像集都是在同一区域中捕获的。我们的第一个目标是学习一个预测两个本地化图像之间相似性的tt t ′t′（Ii，Θi）×（Ij，Θj）›→[0，1]。（一）我们设计的相似度是高的，当两个图像显示相同的POI，否则低。我们将在下一节中探讨实现这一目标的各种方法。最终，我们希望找到目标区域中POI的所有修改或更改，而不管原因如何。形式上，我们的最终目标是用相应的变化可能性对每个潜在的POI位置进行评分。让g：P →[0，1]表示这种POI变化评分函数，其中P →R3表示由纬度、经度和海拔寻址的所有位置的坐标空间。在实践中，我们通过最大化池化（max-pooling）由W（·）输出的成对相似性得分来直接实现g（·）：图6.与简单的光线投射技术相结合的楼层地图的知识允许我们计算从相机姿势Θ可见的壁点U（Θ）。潜在的POI位置p（或者更准确地说，潜在的店面立面），并且它们的并集构成U（Θ）。来自所有视点的可见立面的并集定义了所有潜在POI位置的集合：[P=U（Θi）。（三）我相反地，所有相机姿态的集合看到点p被存储为其可见性集合V（p）={Θi|p∈U（Θi）}。为了简化相似性函数，（1）），我们在─g（p）=1− max.tt t′t′ t手动排除具有不一致姿态的所有图像对：.Θt∈ Vt（p）（Ii，Θi），（Ij，Θj）、（二）′′s（I，I）如果是valid（Θi，Θj），i′ ′（（It，Θt），（It，Θt））=i jt∈ Vt（p）i i jj否则，（四）其中Vt（p）是p的可见性集，即所述一组图像从其可以直接看到位置p的姿态{Θt}i（以及其中s是一个训练的相似度函数，它完全依赖于视觉输入，并在第4.3节中定义。图像对i′（Vt）。换句话说，函数g（p）预测如果没有显示位置的一对图像，则POI更改p具有很高的相似性。通过将g（p）与阈值τ进行比较来做出给定地图点p是否已经经历POI的改变的最终决定。在实践中，我们预先平滑g（·）使用空间半径σ=2米的高斯核，消除噪音。在我们的实验中，我们评估了阈值化后g（·）的准确性以及斑点以g（·）表示（见第5.2节）。如果它是一致的，或有效的，如果这两个图像都足够靠近墙壁，则在远离店面的图像通常信息量很差的情况下，也是如此。首先，两个图像之间的重叠被计算为它们各自的可见性集合的交集：O（Θ，Θ）=|U（Θi）<$U（Θj）|、（五）Ij|U（Θi）<$U（Θj）|然后，计算给定图像的平均距离。根据U（Θ）推算，D（Θ）=1p∈U（Θ）<$p−4.2. 可见性集合和基于姿态的约束上面的公式假设我们可以计算每个图像姿态可见的位置集合我们通过利用指定所有墙的位置的楼层地图M来实现具体来说，我们使用光线投射技术来计算从每个相机姿势。该过程如图所示。六、每条光线从摄像机中心P（Θ）∈R3处开始，穿过摄像机镜头并继续，直到它击中墙壁。该组光线形成宽度对应于照相机视场的锥形区域。每个命中点被标记为Θ4091P（Θ）θ（在实践中，我们使用10米作为距离阈值）。这两个条件实际上消除了许多不相关的对方程。（2）大大加快了推理速度-恩塞4.3. 学习相似度函数度量学习的目标是在一定的监督下学习图像之间的相似性度量。它已成功应用于各种领域，如图像检索[14，32]和人员重新识别[10，51]。在实践中，它通常被表述为学习图像40922嵌入函数f（I）=x∈ X，其中X <$RN是N维的<$2-正规化嵌入空间.相似度s从等式（4）被计算为两个嵌入之间的内积，即，我们有这种损失已被证明更容易训练，因为它只强制执行正（i，j）和负（i，k）相似性的相对排序[25，50]，而以前的公式强制执行绝对相似性阈值。而s（Ii，Ij）= max.Σ0，f（Ii）<$f（Ij）.（六）不保证三元组损失将保持适合于g（·）的全局阈值τ。实际上，我们观察到良好的性能。我们现在可以学习一个嵌入函数，我们对相似性的定义更具体地，令yi={o1. . . omi}和yj={o1. . . 表示在图像Ii和Ij中可见的POI集合。我们将地面实况相似度Y（i，j）定义如下：.训练的过程是重复地对图像的随机对或三元组进行采样（取决于损失），并计算每个图像的损失如果损失为非零，则计算损失梯度并用于更新网络权重。在实践中，我们对积极对和消极对一样多的样本进行采样，以平衡训练。Y（i，j）=1如果O（Θi，Θj）>0. 4和|yiyj|>0，否则，（七）5. 实验结果5.1. 协议和指标I.E. 两个图像不相似，除非它们至少显示一个同一个POI的公共部分。图5示出了匹配的几个示例（即，正）图像对。损失函数我们使用深度网络来学习函数f（·），并使用随机梯度下降进行训练。在每次迭代时，根据协议计算迭代次数，之间的地面实况 Y 和当前的相似性，计算方程。（6），由于适当的损失函数。例如，由Lc表示的对比损失[17，33]将正对（Y（i，j）=1）相互吸引，同时将负对（Y（i，j）=0）分开：Lc（i，j）=Y（i，j）（1−s（Ii，Ij））+（1−Y（i，j））max（0，s（Ii，Ij）−τc），（8）其中τc是负对之间的相似性阈值，低于该阈值，损失没有影响。理想情况下，我们希望通过用τ对g（·）进行阈值化来区分变化和非变化。最直接的方法是惩罚任何偏离这种行为的训练图像这对应于[24]中提出的双边际成对损失Ldm现在，我们将介绍针对我们的问题和数据量身定制的评估指标和实验协议。我们在两个不同的层面进行评估：在图像对上（第4.1节的中间目标）和在地理级别上（我们的最终目标）。地面实况图像对上的相似性度量的质量相对于在等式中定义的地面实况Y（i，j）∈ {0，1}（七）、对于地理级别，我们注释潜在POI位置P的集合（等式10）。（3）如下：属于真实POI变化的每个位置p∈P被标记为正的和负的。是的为了方便起见，我们滥用符号，并在下面将其表示为Y（p）∈ {0，1}。我们现在介绍不同的度量。ROC曲线。检测POI变化可被视为二元分类任务：变化（Y（p）= 1）与无变化（Y（p）= 0）。ROC曲线允许在多个阈值下测量二元分类器的整体性能它是通过计算所有阈值的真阳性率和假阳性率（分别为TPR和FPR）产生的.Ldm（i，j）=Y（i，j）max0，.mΣτ+Σ- s（Ii，Ij）TPR（τ）=pI[g（p）≥τ]Σ， FPR（τ）=[g（p）<τ]Σp.二、mpY（p）p1 −Y（p）+（1−Y（i，j））max0，s（Ii，Ij）−τ−2.（九）我们还报告了曲线下面积（AUC）。我们针对图像对（表示为pROC和pAUC）和地理位置（表示为gROC和 pAUC）计算这些度量。其中m是可调裕度。或者，我们可以使用对比损耗L c，τ c= τ − m。Σ4093最后，另一受欢迎损失是基于对图像三胞胎[43]：Lt（i，j，k）=max（0，m-s（Ii，Ij）+s（Ii，Ik）），其中Y（i，j）= 1且Y（i，k）= 0。（十）gAUC）。平均精密度（AP）。我们的最终目标也可以被公式化为根据POI变化可能性对所有地图位置进行全局排名。我们使用AP来衡量系统的性能。在下文中，针对图像对计算的AP4094训练和测试分割。MallScape由在不同场所捕获的两个子数据集组成。尽管有大量的数据集图像，但POI变化的实例相对较少这可能增加评估度量中的噪声的方差，并对评估产生负面影响。为了使表演更加流畅，我们轮流在一个场地和另一个场地进行训练和测试，最后平均结果：• 分割1：在MallScape-A上训练，在MallScape-B上测试;• 分割2：在MallScape-B上训练，在MallScape-A上测试由于两个场地的风格明显不同，这些分割也确保了良好的性能不是由于训练集过拟合。5.2. 定量结果实现细节我们所有的模型都是由ResNet-101 [19]主干形成的，我们在其上附加了全局广义均值池层[33]。嵌入维数为N= 2048。经过一些实验，我们决定使用0的权重衰减和10- 5的学习率，每2000次迭代减少2我们在训练过程中使用标准数据增强来提高泛化性能[19]。为了提高训练速度和测试性能，我们遵循预训练和硬否定挖掘的标准实践[14，32，34]。我们还针对每个损失分别调整裕度m和阈值τ c参数。结果我们研究了4.3节中给出的不同损失函数的性能。我们还比较了三种基线方法。第一种方法依赖于关键点匹配，然后进行几何验证[26]，以计算来自Eq.（4）使用S形。第二个是基于最先进的标志检测器[46]，能够识别现实世界图像中的352个常见标志。在这种情况下，根据检测到的品牌对图像进行比较。最后，我们还包括从ImageNet [47]上预训练的网络的最后一个卷积层中提取的嵌入的性能。具有所有指标的所有方法的结果见表2。很明显，在ImageNet上训练的现成特征产生了很差的嵌入，突出了学习度量的重要性。类似地，基于SIFT的特征不能分析POI检测任务中涉及的复杂语义变化。相比之下，基于徽标的基线特别关注任务关键的语义方面，然而，它的性能比ImageNet基线差在检查之后，我们发现许多POI图像不包含检测器被训练的任何标识毕竟，这352个已知的标识形成了可能出现在真实POI图像中的所有标识的相当小的一部分。因此，我们认为，如第2节所述，明确识别品牌的方法是相当不切实际的。(a) 分段1（b）分段2图7.所有方法在地理水平（gROC）上两个分割的ROC曲线。不出所料，基于度量学习（ML）的三种方法然而，POI分数（gAP）的排序的质量对于三重损失Lt显著更好。这与之前的发现一致，即三重损失在训练期间通常比成对损失表现得更好[14，50]。有趣的是，我们注意到图像级指标可能与地理指标完全不一致。例如，在第二次分割时，ImageNet特征同时产生了最好的pAP分数和最差的gAP分数。这强调了检测POI变化应该相对于其最终目标（在地理级别）而不是依赖于更简单的图像级别标准（例如，应用于图像对的像素级或图像级度量）。我们还绘制了两种分裂的gROC曲线，见图2。7.第一次会议。值得注意的是，拆分的难度并不是同质的，而且方法在两个拆分上的行为完全不同虽然我们预计双边缘损失在gAUC（一种检测指标）方面表现得更好，但由于与手头的任务完美一致（第4.3节），这仅适用于第一次分割。相比之下，三重态和对比损耗在两种分裂上产生更稳定的性能5.3. 关于地图数据库的定性结果我们提出了在地图级别为图中的每个学习模型生成的POI变化预测的定量结果。8.每一行展示用POI改变的地理可能性扩增的floop地图的一部分，如由来自等式（1）的g（p）（二）、可能性用颜色编码，从绿色（无变化）到红色（变化）。我们还显示了一些图像对对应于固定在地图上的POI。他们中的一些人提出了戏剧性的观点变化，例如。图8. a.在某种程度上，学习的方法最正确地预测了变化的存在，例如。在第一排的情况下。相反，图2第二行的视点差异。8.a超出了模型的容限范围，导致POI变化的错误预测。4095(a)（b）第（1）款图8.我们提出了一些例子的POI变化可能性输出在地理水平根据方程。（二）、这两行分别来自MallScape-A（顶部）和MallScape-B（底部）。我们显示了两个对应的图像对，它们来自固定在部分楼层地图上的位置（a）。变化可能性以颜色编码为变化和未变化。表2.所有方法和所有指标的性能评估（详情见正文）。参数拆分1拆分2总体名称值pAUCPapgAUC间隙pAUCPapgAUC间隙pAUCPapgAUC间隙局部描述符SIFT [26]+RANSAC--0.5330.0800.7310.1010.8230.1010.7950.1670.6780.0910.7630.134标志检测[46]第四十六话：一个人--0.6900.0050.7110.0770.6420.0030.6380.0580.6660.0040.6750.068全球代表性ImageNet [13]--0.9320.3860.7580.2010.9320.2450.8270.3910.9320.3160.7930.296深度度量学习ML+Lc（8）τc0的情况。50.9700.5910.7870.3930.9590.2140.8980.5080.9650.4030.8430.451ML+Ldm（9）m，τ 0的情况。1，0。10.9610.5560.7930.3300.9300.1050.8680.4080.9460.3310.8310.369ML+Lt（10）M0的情况。10.9730.5820.7860.4120.9700.2280.9050.5570.9720.4050.8460.485由于我们的框架允许直接在地理级别上输出结果，因此可视化非常简单和直接。人类操作员可以快速地了解所有POI变化的位置，并相应地更新它们，这可以极大地简化更新过程。最终，如果在相应的POI图像上执行徽标或特许经营识别[44，45，496. 结论我们已经提出了一种基于深度度量学习框架的新颖的通用方法，该方法可以从一组时空局部化的场景照片中检测POI变化。对几种度量学习公式进行了全面的评估和测试，证实了它们对该问题的整体有效性。特别是，从经验的角度来看，三重态损失似乎最适合这个问题。为了实现训练和评估，我们引入了一个专门用于POI变化检测任务的新数据集。它包含数千张图像和数百个POI，使其适合在现实环境中训练深度模型。该数据集不仅可以作为其他对此任务感兴趣的研究人员的基准套件，而且我们相信它还可以帮助进一步开发与自动地图创建和维护相关的新的令人兴奋的任务，这要归功于数据集中包含的丰富信息。我们确实承认，这里提出的办法例如，它不允许我们理解一张照片是否包含多个POI，如果是，它们的边界是什么。然而，自动商店分割是理解每个POI的空间范围并因此将其映射到地理位置的重要里程碑，这肯定有助于更好地检测和本地化POI变化。我们将这些问题留待今后工作解决。致谢本工作部分得到了韩国政府（MSIT）资助的信息通信技术规划（No.R0132-15-1005，在线和离线环境下的内容可视化浏览技术）4096引用[1] http://rebrand.ly/mallscape。 3[2] P. F. Alcantarilla、S. Stent，G.罗斯河Arroyo和R. Gher-ardi。用去卷积网络进行街景变化检测奥顿机器人，42：1301-1322，2016。3[3] D. 安盖洛夫角 Dulong，D. 菲利普角 Frueh，S. 拉丰R. Lyon，A.奥加尔湖Vincent和J.韦弗Google街景：在街头捕捉世界。Computer，43（6）：32-38，June 2010. 2[4] A. T. R. Arandjelovic，J.S. M. Okutomi和T.帕杰拉通过视图合成进行24/7地点识别。在IEEE CVPR，2015年。二、三[5] R. Arandjelovi，P. Gronat，A. Torii，T. Pajdla和J.西维克NetVLAD：用于弱监督位置识别的CNN架构。在IEEE CVPR，2016年。二、三[6] R. 阿罗约山口F. 阿尔坎塔里利亚湖M. Bergasa和E.罗梅拉你能进行终生的视觉拓扑局部化吗？AutonomousRobots，42（3）：665-685，Mar 2018. 3[7] Y. Avritis，Y. Kalantidis，G. Tolias和E.斯皮鲁从社区照片集中重新提取地标和非地标图像。ACM Multimedia，2010年。2[8] J. Baus，K. Cheverst和C.克雷基于地图的移动指南调查，第193-209页。Springer Berlin Heidelberg，2005.1[9] K.- T.陈芳E.王建- T. Lin，F.- H. Chan和M.太阳世界在改变：在街上发现变化。在ACCV研讨会，2016年。3[10] W. Chen，X. Chen，J. Zhang，and K.煌Beyond TripletLoss ： A Deep Quadriplet Network for Person Re-identification.在IEEE CVPR，2017年。三、五[11] R. C. 道特湾L. Saux和A.布奇用于变化检测的全卷积连体网络在IEEE ICIP，2018。3[12] R. C.道特湾L. Saux，A. Boulch和Y.古索高分辨率语义变化检测。arXiv：1810.08452，2018。3[13] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。在IEEE CVPR，2009年。8[14] A. Gordo，J. Alma za'n，J. R ev aud和D. 拉勒斯深度图像检索：学习图像搜索的全局表示。在ECCV，2016年。三、五、七[15] N. Goyette，P. Jodoin，F. Porikli，J. Konrad，and P.伊什瓦Changedetection.net：一个新的变化检测基准数据集。在IEEE CVPR研讨会，2012年。3[16] E. Guo，X. Fu，J. Zhu，M. 邓，Y. 刘，智-地朱和H.李学习衡量变化：用于场景变化检测的全卷积连体度量网络。arXiv：1810.09111，2018。3[17] R. Hadsell，S. Chopra和Y.勒昆通过学习不变映射来降低维数在IEEE CVPR，2006年。三、六[18] M. Haklay和P.韦伯Openstreetmap：用户生成的街道地图。 IEEE Pervasive Computing ， 7 （ 4 ）： 12-18 ，2008。1[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE CVPR，2016年。7[20] X.他，Y. Zhou，Z. Zhou，S. Bai，还有X。柏多视角三维物体检索的三重中心丢失在IEEE CVPR，2018年。3[21] H.杰古湾Douze和C.施密特用于大规模图像搜索的汉明嵌入和弱几何一致性ECCV，2008年。二、三[22] J. 我是科什卡。检测街景图像的变化在ACCV，2012年。3[23] L. A. Lim和H.Y. 凯尔斯学习多尺度特征进行前景分割。arXiv：1808.01477，2018。3[24] J. 林，澳-地Morere，A.韦亚尔湖Duan，H.吴，和V。昌-德拉塞卡。用于图像实例检索的Deephash：获得正则化，深度和微调的权利。InICMR，2017. 三、六[25] T.- Y. 刘某学习为信息检索排序 Found.趋势信息检索，2009年。三、六[26] D. G.洛从尺度不变的关键点中提取独特的图像特征。IJCV，60（2）：91-110，2004. 七、八[27] L. N. Mummidi和J.克鲁姆从用户的地图注释中发现兴趣点GeoJournal，72（3）：215-227，2008. 1[28] A. Naitsat，E. Saucan和Y.泽维一种用于医学图像变化检测的微分几何方法。在ISCBMS，2017年。3[29] H.诺赫A. Araujo，J. Sim，T. Weyand和B.韩具有深层局部特征的大规模图像检索在IEEE CVPR，2017年。二、三[30] J. Philbin，O. Chum，M. Isard，J. Sivic，and A. 齐塞-曼。具有大词汇量和快速空间匹配的对象检索在IEEECVPR，2007年。2[31] J. Philbin，O. Chum，M. Isard，J. Sivic，and A.齐瑟曼。量化损失：改进大规模图像数据库中特定对象的检索。在IEEE CVPR，2008年。二、三[32] F. Raden o vi c'，G. Tolias和O. 好朋友Cnnimageretreivallearns from BoW： Unsupervised fine-tuning with hardexamples.在ECCV，2016年。五、七[33] F. Raden o vi c'，G. Tolias和O. 朱米。微调CNN图像检索，无需人工注释。TPAMI，2018年。六、七[34] F. Radenovi，A. Iscen，G. Tolias，Y. Avritis和O. 好朋友重温牛津和巴黎：大规模图像检索基准测试。在IEEE CVPR，2018年。三、七[35] R. J. Radke，S.安德拉岛O. Al-Kofahi和B.罗伊萨姆图像变化检测算法：系统的调查TIP，2005年。3[36] J. Redmon和A.法哈迪。Yolo9000：更好，更快，更强。在IEEE CVPR，2017年。8[37] K. Rehrl，E.豪斯勒河Steinmann，S.Leitinger，D.Bell和M.韦伯行人导航与增强现实，语音和数字地图：从实地研究评估性能和用户体验的结果，第 3-20 页。Springer Berlin Heidelberg，2012. 1[38] D. Reilly，M.罗杰斯河Argue，M. Nunes和K.墨水笔标记地图：结合纸质地图和电子信息资源。个人无处不在的计算。，10（4）：215-226，2006. 14097[39] J. Revaud，M. Douze和C.施密特基于相关性的突发性标志检索。ACM Multimedia，2012年。3[40] S.龙贝格湖G.普埃约河Lienhart和R.范兹沃尔。真实世界图像中的可扩展徽标识别。InICMR，2011. 3[41] M. Ruta，F. Scioscia，S.耶瓦湾Loseto和E.迪·夏西奥用于移动发现和导航的openstreetmap兴趣点语义标注。在2012年IEEE第一国际移动服务会议上，第331[42] K. Sakurada和T.冈谷基于cnn特征和超像素分割的街道图像对变化检测。在BMVC，2015年。3[43] F. Schroff，D. Kalenichenko和J.菲尔宾Facenet：用于人脸识别和聚类的统一嵌入。在IEEE CVPR，2015年。三、六[44] H. Su，S.龚，X. Zhu等人，Weblogo-2 m：通过网络深度学习进行可扩展的徽标检测。在ICCV研讨会网络规模的视觉和社交媒体，2018年。三

下载后可阅读完整内容，剩余1页未读，立即下载