没有合适的资源?快使用搜索试试~ 我知道了~
12169视点不变稠密匹配视觉地理定位Gabriele Berton1,2,Carlo Masone2,Valerio Paolicelli2和Barbara Caputo1,21Politecnico di Torino2意大利理工[gabriele.berton,barbara.caputo]@ polito.it [carlo.masone,valerio.paolicelli]@iit.it摘要在本文中,我们提出了一种新的方法,图像匹配的基础上密集的本地功能和视觉地理定位。密集的局部特征匹配对光照和遮挡的变化是鲁棒的,但对视点移位不是鲁棒的,视点移位是地理定位的基本方面。我们的方法,称为GeoWarp,直接嵌入不变性的视点转移的过程中提取密集的功能。这是通过一个可训练的模块来实现的,该模块从数据中学习对识别地点的任务有意义的不变性。我们还设计了一个新的自监督损失和两个新的弱监督损失来训练这个模块,只使用未标记的数据和弱标签。GeoWarp作为一种重新排序方法有效地实现,可以轻松地嵌入到现有的可视化地理定位管道中。对标准地理定位基准的实验验证表明,GeoWarp提高了最先进的检索架构的准确性代码和训练模型将在本文通过后发布。1. 介绍视觉地理定位(VG),即,找到拍摄给定照片的位置的任务是许多应用中的基本问题,例如在GPS拒绝环境中的机器人该任务被转换为图像检索问题,其中要本地化的照片(查询)在一些全局图像表示的空间中与标记的数据库相匹配。VG最近的许多文献都集中在改进这些全局表示上,从手工制作的局部特征的聚合[5,20,36]转移到更强大和紧凑的基于CNN的全局描述符[4,24,11]。然而,由于全局描述符对图像中的整个视觉内容进行求和,因此它们对遮挡和混乱缺乏鲁棒性[38],并且可能无法捕获具有小重叠的两个视图的相似性[23]。利用稀疏的局部不变特征建立图像间的直接几何对应关系是一种有效的图1.同一地点的两个不同视图的外观我们的方法将这两个图像扭曲到一个更接近的几何空间,然后使用深度密集的局部特征计算它们的相似性。在一般的视觉匹配任务中解决这个问题的方法。在视觉地理定位中,由于同一地点的不同图像可能彼此具有很强的视觉差异,由于光照或季节变化[28]。在这种情况下,关键点的检测变得不可靠,导致不可重复的局部不变特征[42,40]。最近在视觉地理定位方面的一些研究表明,可以通过完全去除检测步骤并使用局部特征的密集网格来匹配强视觉变化[42]或具有少量纹理[40]的地方然而,通过去除检测步骤获得的鲁棒性是以几何变换的不变性降低为代价的。由于视点移动是视觉地理定位的一个基本问题,我们提出了一种新的稠密匹配方法,称为GeoWarp,这是赋予一些不变性的几何变换。我们的密集匹配是一个可训练的操作,它学习一个不变性,即均值-12170有效的识别地点的任务,在数据驱动的方式(见图1)。①的人。作为依赖于要匹配的两个图像的操作,它不能应用于数据库范围,因为它将必须针对每个查询再次计算。因此,我们首先使用最先进的全局描述符在数据库上执行邻居搜索,然后将我们的新的密集匹配应用于检索结果的短列表上以重新排列它们。在技术层面上,我们的密集匹配围绕着一个新的轻量级扭曲回归模块,该模块可以以自监督的方式进行高效训练,这使得在未标记的数据上训练它成为可能。为了进一步改善结果,我们设计了两个弱监督损失,这使得网络能够获得对常见问题的鲁棒性,例如遮挡和外观变化,只需要每个图像的弱标签贡献:• 我们引入了一种新的密集匹配方法,专为视觉地理定位,有一个内在的invari- ance视点转移。这种密集匹配可以很容易地集成到标准检索管道中,以进行地理定位。• 我们提出了一种新的可训练的成对图像变形方法。该模块使用三个新损失进行训练:一个自监督损失和两个弱监督损失,其允许仅依赖于未标记的数据或利用弱标记,这通常可用于视觉地理定位数据集。• 我们提出了一个广泛的消融,并在几个标准的数据集上展示了视觉地理定位,我们的方法显着提高了各种各样的检索网络的准确性。2. 相关作品局部特征图像检索在历史上已经使用诸如SIFT [26]和SURF [6]等手工技术使用稀疏局部特征进行了这些特征通常被聚合成固定长度的向量,例如视觉词袋[32]或VLAD [2],以确保有效的相似度计算。为了克服与视点变化相关的挑战,稀疏局部特征方法通常依赖于使用RANSAC的空间验证[16]。可选择地,[42]提出使用密集的局部特征,并结合模拟同一场景的多个视图的合成图像虽然大多数基于CNN的方法依赖于全局描述符[4,24,30,33,41,18],但最近的工作[31,11]显示了采用深度局部特征然后进行空间验证的有希望的结果。自深度学习出现以来,图像检索系统主要基于由卷积架构提取的全局特征描述符在这样的系统中,图像被传递到卷积编码器以提取密集的局部特征,然后将其馈送到聚合或池化层,例如NetVLAD [4]或GeM [33]。这种网络是用基于排名的损失进行训练的,用于视觉地理定位[4,24],而分类损失通常用于地标检索的相关任务[33,30,41,18]。重新排序技术重新排序技术通常用于图像检索,以重新评估由检索系统产生的检索一种常见的方法是查询扩展[13,18,1,33],其中第一次搜索的结果被过滤和聚合以执行第二次搜索。查询扩展的替代方案是通过扩散[15,45]给出的,这是一系列方法,旨在利用数据库所有元素之间的上下文相似性更接近我们的方法,其他作品[31,11,40,37]使用全局特征执行第一次检索搜索,然后使用局部特征(空间验证)进行后处理步骤其中,与我们的工作最接近的是[40],与我们的方法一样,它使用相同的编码器来生成最近邻搜索的全局描述符,并提取密集的局部特征进行重新排序。然而,密集的局部特征用于通过RANSAC [16]找到准确的相机姿势,而我们在局部特征提取之前执行学习的成对几何图像变换传统上,通过找到感兴趣的点并从这些点提取局部描述符来计算图像对之间的对应性[6]。最近的工作依赖于从CNN提取的特征,其可以用作第二深度神经网络[9,14,35,22,10,34]或RANSAC算法[40]的输入特别地,[14]提出用单应性稍微扰乱图像的补丁,然后用回归VGG类网络进行预测。[40]和[9]使用局部特征,然后分别使用RANSAC [16]和DSAC[8]来预测给定3D环境内的6DOF相机姿态。[22]使用Siamese CNN来预测两个鸟类图像之间的薄板样条变换,而[35]将该方法扩展到来自鸟类以外的其他类别的两种方法都依赖于具有来自相同类别的前景对象的一对图像,几乎没有遮挡,以估计从一个图像到另一个图像同时保持在consider- erations宝贵的经验教训,从以前的作品中,我们提出了一个成对的变换,旨在morphing两个输入图像。这确保了杂波或不需要的元素被从它们两者中移除,同时被重新配置。12171不GP--GPG∈P∈∈×个PΣPP半身像到几乎没有视觉重叠的图像对。此外,为了确保网络对遮挡和动态对象的鲁棒性,我们提出了两种新的弱监督损失,它们利用了多年来拍摄的同一场景的照片。3. 方法我们考虑在给定地理标记图像的图库=(Ii,Zi)的情况下地理定位不可见的RGB图像Iq的问题,其中Zi是图像Ii的GPS坐标。我们进一步假设具有地理标记图像的训练数据集,其被划分为训练查询和训练图库。我们建议解决的视觉地理定位问题,首先执行一个相似性搜索的基础上的全球描述符,这产生了一组预测.然后,我们使用一种新的密集匹配方法来排序的顶部预测的基础上的相似性度量与密集的本地描述符计算的查询。3.1. 使用全局描述符的作为第一步,我们的方法实现了一个经典的管道的全局图像描述符的基础上检索的地方为了生成全局描述符,我们利用由以下组成的CNN局部特征,在某种程度上,是不变的视点转移(见图2)。2)的情况。为了赋予的特征提取过程与不变性的视点转移,我们提出了一个翘曲回归模块W,需要查询Iq和预测Ip和估计的单应变换的两个图像中的每从图像到单应变换的映射是从数据中学习的,目标是更好地对齐同一场景的两个不同视图,即使它们具有有限的重叠。回归模块将在第2节中详细说明。三点三现在,我们将其映射表示为W(Iq,Ip)= [tq,tp](1)其中tqr8和tpR8是用于变换的估计参数:它们可以被看作是为八点变换[ 19 ]提取单应性矩阵所需的四个点,其余四个点是图像的角点(见图2)。2)的情况。利用估计的参数tq和tp,可以使用公知的八点变换来变换图像Iq和Ip[19]以生成两个波形图像Iq和Ip。以下我们将该变换表示为两个元素:• 卷积编码器E,其获取图像并输出张量f∈Rhf×wf×C。张量f可以是Iq=proj(Iq,tq)Ip=proj(Ip,tp)(二)被解释为稠密的hfwf个C维局部特征描述符的网格,并且我们将网格的空间位置(i,j)处的局部特征表示为f(i,j);• 层 A采 用张 量f 并 通过 聚合 (例 如, NetVLAD[4])或通过池化(例如,GeM [33])。即,给定图像I,其全局描述符是A(E(I))。该网络专门针对使用三重丢失并遵循[4]的协议的位置检索进行训练。在推理时,给定新的查询Iq,我们执行近似-正如我们将在SEC中讨论3.4中,该可学习变换被训练以将相同位置的两个重叠视图带到更近的视角。然而,当两个图像描绘不同场景时,投影的有限效果不影响两个图像的最终接近度。投影的定性结果如图所示3、在补充材料中。最后,我们从扭曲的图像Iq和Ip中提取密集的局部特征,通过相同的编码器E进行训练以产生全局图像表示(第二节)3.1),即,在全局描述符的空间中的图库G上进行最近邻搜索,这产生预测集合P。fq=E(Iq)fp=E(Ip)(三)3.2. 用密集局部描述符我们建议重新排名的预测,通过重新计算它们的相似性查询Iq使用密集的本地功能描述符。尽管稀疏不变局部特征在各种视觉匹配问题中得到了成功的应用,但在视觉地理定位中,由于视觉条件的挑战性,它们的可靠性有限,可能会导致失败使用专门针对位置检索训练的相同编码器E有助于产生对位置具有高度区分性的特征所提出的操作的输出是查询和预测之间的相似性分数,其使用它们的扭曲对应物的局部特征之间的距离,即,wf−1hf−1关键点检测[47]。另一方面,直接匹配密集采样的局部特征已经显示出很大的希望[42,40],代价是有限的不变性。dp= Σi=0fq(i,j)Tj=0点移动。为了克服这一限制,我们使用一种新的可训练匹配操作对预测进行重新排序,该操作以视觉地理定位为目标,学习提取密集的对中的所有预测重复此过程,最后根据产生的分数对这些预测进行排序由(4)。这使得我们重新排序的时间复杂度12172.Σ∈QP年q1年q4p1p4Qp图2.我们的架构在推理时的功能图。翘曲回归模块的标题是从左侧的两个图像(查询和预测)估计两个四边形tq和tp。 然后用单应性对图像进行变形,并在其深度密集的局部特征上计算其相似性。注意,生成非常相似的图像的理想完美扭曲将是适得其反的,因为在远处拍摄的图像(即,在图像的边缘处)。查询否定对)将以类似的特征表示结束。方法O(|P|)的情况。由于需要处理的预测数量通常很少(|P| ≪ |G|)、办法适用于大规模的地理定位问题。vector.形式上,我们将该操作表示为R(c)=[p,. . . ,p,p,. . . ,p]=[t,t] ∈ R163.3. 翘曲回归模块`tqx`tpx(八)(1)中的扭曲回归模块W受到[35]的启发,尽管我们将其限制为单应性。单应性旨在描述投影到不同观看平面上的场景中的共面点的表示之间的关系在视觉地理定位中,平面表面是丰富的,因为建筑物W包括三个步骤(图)。2)的情况。首先,我们使用编码器E从两个图像中提取特征,即,其中pq1,. . . ,pq4是Iq,pp1,. . . ,pp4是I p上的四个点,并且符号[tq,tp]表示两个向量的连接(参见图12)。2)的情况。结合(5)、(7)和(8),翘曲回归(1)总结为:W(Iq,Ip)=RM(E(Iq),E(Ip))= [tq,tp](9)虽然我们的翘曲回归模块W受到[35]的启发,但它引入了一些值得注意的新颖性。第一个差异源于扭曲操作的使用情况fq=E(Iq)fp=E(Ip)(五)虽然[35]回归了通用图像匹配的几何变换如前所述,我们使用相同的...请注意,E有三重目的:它用于全局描述符提取、扭曲模块和最终相似性得分计算(4)。然后,特征被馈送到匹配层M,匹配层M计算来自fq和fp的每对局部特征描述符之间的相关性映射cqpRhf×wf×(hf×wf),即,cqp(i,j,k)=fq(i,j)Tfp(ik,jk)(6)为了简洁起见,我们将匹配操作写为M(fq,fp)=cqp(7)我们注意到该层是可微的且无参数的,并且我们参考[35]以获得进一步的细节。最后,给出相关性映射c_qp作为卷积网络R的输入,该卷积网络被设计为估计两个图像的变换。特别地,网络R估计两个图像中的每一个上的4个点,即,a 16D12173编码器E被训练用于地点检索,这意味着我们不需要训练第二编码器,并且所提取的特征编码用于区分地点的更多区分性信息。第二个也是最重要的区别是[35]中的变换模块被设计为仅估计一个图像的变换,同时保持另一个不变。相反,我们的解决方案考虑了更一般的问题,其中两个图像都可以变换。本着深度学习的精神,我们让模块本身从数据中学习两张图像中的每一张是否应该被转换以及应该转换多少。这确保了更大的灵活性和在所生成的对之间实现更大相似性的可能性这在第2节中给出的实验中得到了定量证明。4,和定性在图。3、在补充材料中第二个差异还意味着训练过程[35]不适用于我们的情况。因此,我们提出了一个新的训练协议,接下来将在第2节中讨论。三点四分。12174--∩∈∈--×个∈122222322422图3.定性结果:第一列表示查询-预测对,第二列示出了使用[ 35 ]对预测的扭曲,第三列示出了使用[ 35 ]对查询的扭曲,最右边的列是我们的成对扭曲。3.4. 训练翘曲回归模块为了以完全监督的方式训练翘曲回归模块W,我们将需要具有训练四元组Ia、Ib、ta、tb的数据集,其中Ia和Ib是从不同视点观看的相同位置的两个图像,并且ta和tb是单应变换的地面实况参数鉴于缺乏这样的数据集,我们提出了一种训练过程,该训练过程结合了新的自监督损失Lss(Sec.3.4.1),以及两个新的弱监督损失Lfw和Lcons(Sec. 3.4.2)。因此,总损失为Ltotal=λssLss+λfwLfw+λconsLcons(10)在继续详述(10)中的项之前,我们指出:ii)编码器E先前被训练用于位置检索,并且其参数在训练W时保持冻结。这第二点还确保了在训练W时,我们可以依赖于针对地理定位任务优化的特征。3.4.1自我监督训练图4.从单个训练图像I(左)自监督生成训练四元组la、lb、ta、tb通过构造,tz是已知的,并且其投影ta和tb也是已知的。到I的角,而更高的值将它们向图像的中心移动。以k= 0为例。8如图所示。4,其他k值的更多示例见补充材料。(11)中的两个约束规定四个点界定具有两个垂直平行边的四边形。这引入了对垂直对齐的图像的偏向,其表示视觉地理定位数据集[2,42,44,12]中的标准29,46,7,27],以及在现实世界应用中(例如,自动驾驶车辆图像和用户生成的照片)。我们应用过程(11)两次以在I上生成两个梯形,我们将其表示为tx=[px1,px2,px3,px4]R8并且ty= [py1,py2,py3,py4]R8。 通过构造交集txty,永远不为空,我们定义tz= [pz1,pz2,pz3,pz4]作为最宽的梯形,在交叉点内有两个垂直边(见图2)。4).然后,我们从I,tx,ty和tz通过单应投影:Ia=proj(I,tx)ta= proj(tz,tx)我们建议生成训练四元组{Ia,Ib,Ta,Tb}Ib=proj(I,ty)tb= proj(tz,ty)(十二)并以自监督的方式在W中训练回归网络让我们考虑具有形状w h的通用训练图像I。我们定义了一个程序来随机采样I上四边形的角点:p=ΣU(0,k)*w,U(0,k)*hΣp=Σw−U(0,k)*w,U(0,k)*hΣp=Σw−U(0,k)*w,h−U(0,k)*hΣ注意,在(12)中,我们使用了(2)中引入的相同符号来表示图像的单应投影和一组四个点的投影。虽然不准确,但这可以防止进一步阻碍符号。最后,我们将自监督翘曲损失定义为LSS=W(Ia,Ib)−[ta,tb]2(13)这种损失引导网络学习估计点数其描述两个输入图像相交的区域p=ΣU(0,k)*w,h−U(0,k)*hΣS.T. p1[0]=p4[0]p2[0]=p3[0]其中U(a,b)是均匀分布,k[0,1]是常数。当k接近0时,这四个点很接近合成的四联体通过在Sec. 3.4.1可以有效地用于训练网络,但是它们不提供在信息中呈现的数据分布的真实表示(十一)3.4.2 弱监督损失12175Σ。不----NN我我 G我 QGQQG2单元W,扭曲它们并提取它们的特征,即,图5.用于训练的数据示例利用自监督生成的图像,我们具有知道交叉部分的基本事实的优势W(Iq,Ig)= [tq,tg]fq=E(proj(Iq,tq))fg=E( proj(Ig,tg))然后,我们将特征损失计算为wf−1hf−1(十六)通过查询预测对的参考时间。 合成IM-Lfw= Σi=0fj=0q(i,j)T(i,j)Σ2(17)从单个图像中提取的年龄包含相同的动态对象(例如车辆和行人)以及相同的纹理(即,相同的天空颜色,相同的植被)。相反,在推断时间看到的查询和预测对是在不同时间拍摄的照片,有时相隔数月或数年。这可能导致推断期间的准确度下降。为了减轻这种不必要的行为,我们建议使用来自训练集的查询和预测对,我们以弱监督的方式进行挖掘(见图2)。(五)。形式上,我们通过采取满足这些约束的所有训练查询对(Iq,zq)和训练图库样本对(Ig,zg)来形成这些对:dgeo(zq,zg)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功