没有合适的资源?快使用搜索试试~ 我知道了~
17010超越交叉视图图像检索:基于卫星图像的高精度车辆定位石玉娇、李宏东澳大利亚国立大学,堪培拉,澳大利亚firstname. anu.edu.au摘要本文通过地面图像与俯视卫星地图的匹配来解决车载摄像机的定位问题。现有方法通常将该问题视为跨视图图像检索,并且使用学习的深度特征来将底层查询图像与分区(例如,一小块)的卫星地图。通过这些方法,定位精度受到卫星地图的分区密度(通常在几十米的量级)的限制。本文从传统的图像检索思想出发,提出了一种能够实现高精度定位的新方法。其关键思想是制定的任务,姿势估计和解决它的神经网络为基础的优化。具体来说,我们设计了一个双分支CNN,分别从地面和卫星图像中提取鲁棒特征。为了弥合巨大的为了最小化投影特征和观测特征之间的差异,我们采用可微Levenberg-Marquardt(LM)模块迭代搜索最佳摄像机位姿。整个管道是可拆卸的,端到端地运行。在标准自主车辆定位数据集上的大量实验证实了该方法的优越性值得注意的是,例如,从40 m × 40 m宽区域内的相机位置的粗略估计开始,我们的方法以80%的可能性在新的KITTI交叉视图数据集上快速地将横向定位误差减小到5m以内。1. 介绍基于图像的相机定位[3,8,14,20,29,36,40,43,58]由于其在各个领域的实际应用,包括自动驾驶,虚拟和增强现实,已经引起了越来越多的关注。最近,这种技术已扩展到横视图(a) 基于跨视角图像检索的定位(b) 建议的交叉视图摄像机姿态优化图1.两种横视摄像机定位方案的比较。(a)传统的基于图像检索的方案首先将大的卫星地图分割成小的图像块并构造参考数据库。给定一个查询图像,他们从数据库中找到最相似的图像。检索到的图像的GPS标签被认为是查询相机的位置。该方法的定位精度受数据库图像样本密度的限制. (b)本文提出了一种新的交叉视图定位方案,将任务描述为摄像机位姿优化。我们尝试性地将卫星深层特征从初始相机姿态估计通过几何投影模块投影到地面然后,一个可微Levernberg-Marquardt优化过程应用到细化相机姿态估计,通过最小化预测和观察到的特征之间的差异设置,即,通过将地面图像与俯视卫星地图匹配以确定地面相机的姿态来进行定位现有的基于学习的图像定位方法将此任务视为图像检索的实例,并通过度量学习解决它[5,17,27,37,46,47,49,51,55,57,60,63,64,67,69]。他们将地面图像与许多候选人进行17011在覆盖感兴趣的地理区域的大卫星地图中的卫星补丁,然后检索最相似的一个。然后将查询相机虽然取得了良好的效果,但其估计精度受到卫星图像采样密度的限制。最近的一项工作[70]进一步讨论了通过使用深度网络回归相对位移来进行位置细化。然而,卫星和地面视图图像之间的显着的域差异,使得它很难获得准确的回归,在交叉视图设置。本文从传统的图像检索思想出发,提出了通过直接的姿态优化来解决跨视点的精确定位问题。具体来说,我们首先使用两个CNN从双视图图像中提取深度特征。期望学习的特征对于查看变化是鲁棒然后,我们设计了一个几何投影模块,该模块基于当前相机姿态估计将卫星特征近似地投影到地面视点,以弥合视图之间的域间隙。最后,可微分Levenberg-Marquardt(LM)算法被嵌入到流水线中以细化姿态。LM优化旨在找到最佳相机姿态,使得源自卫星图像的预测深度特征与从地面视图图像提取的对应深度特征概述请参见图1。我们评估我们的方法在两个标准的基准自动驾驶,即。KITTI [15]和Ford多AV数据集[2]。这两个数据集都包含地面图像,由车载相机与GT姿态,但没有卫星地图。我们补充了相应的高清卫星地图,从谷歌地图下载[1],用于评估所提出的方法。2. 现有技术基于图像的定位基于图像的定位通常被表述为图像检索问题,并通过度量学习技术来解决。它是通过地面到地面(G2G)图像匹配解决的[3,8,9,13,14,20,29,34,36,40,43,58]。由于G2 G图像匹配不能定位其参考对应物不可用的查询图像,因此许多最近的工作诉诸于广泛的卫星图像来构建数据库[5,7,17,27,37,4555、57、60、63、67、69]。这些工作近似查询相机姿态作为前1个检索到的参考图像的姿态。它们在规模上仍然有效,但是以这种方式的姿态估计非常粗略。在这项工作中,我们引入了一种新的方法来提高定位精度。基于3D结构的定位。基于3D结构的定位工作通常采用3D场景模型作为查询相机定位的参考[4,6,10,21,23,24、28、30、39、41、42、52、53、56、66、68]。 其中,租ms,作品[38,61]也使用LM优化相机姿态估计。然而,它们仅被设计用于地对地定位,并且需要知道图像关键点的3D坐标。本文仅以高清晰度卫星影像为参考,解决了在三维场景模型不可用的情况下的地星定位问题。SLAM/VO。同时定位和映射(SLAM)和视觉里程计(VO)技术传统上用于车辆定位[11,16,18,19,30,31、33、35、44、50、59]。它们首先估计连续图像帧之间的相对相机姿态,然后将它们整合用于全局姿态计算。因此,它们遭受误差累积,导致估计漂移。我们提出的方法只依赖于一个单一的帧。因此,它可以补充SLAM/VO方法作为一种新的方式(基于卫星图像)闭环。3. 方法概述给定一个粗略的初始估计地面摄像机的姿态,我们的目标是通过匹配它的同伴卫星地图,以高精度优化这个姿势。而不是公式化的图像检索这个任务,我们提出了一个姿势优化框架如下所述。我们的框架由三个组件组成:(i)用于特征学习的双分支深度网络,(ii)Geome-try投影模块,以及(iii)可微Levenberg- Marquardt(LM)优化器,如图所示。二、3.1. 深度鲁棒特征学习深度神经网络在学习鲁棒特征方面表现出强大的能力,这些特征对视点变化具有弹性,适合视觉定位任务[5,27,37,46,47,51,55,60,63,64]。我们设计了一个双分支神经网络分别从地面和卫星图像中提取深度特征。U-net结构用于学习多尺度特征表示。3.2. 交叉视图特征对齐为了弥补明显的横视域差距,我们设计了一个几何投影模块,该模块基于横视几何将两个视图特征在地面视图域中我们的几何投影模块通过建立近似的几何对应关系和使用两个视图之间的相对相机姿态将卫星视图特征投影到地面视点3.3. 迭代姿态精化我们的目标是找到最佳的地面摄像机姿态,使从卫星域的投影功能是最相似的真实观察到的地面视图功能。到17012拉吉乌SS00l llN次迭代特征提取器F1F2SF3SS卫星图像R0,t0r1,t1R0,t0几何图元投影+r1,t1几何图元投影+r2,t2投影几何+F1s2gF2s2gF3s2gLM优化LM优化阿尔布尔LM阿尔布尔最优化算法特征提取器F1F2GF3GG地景图像图2.概述了所提出的高精度相机姿态优化过程。我们的方法采用了两个分支深网络分别从地面和卫星图像中提取多尺度鲁棒特征接下来,几何投影模块基于初始相机姿态R 0,t 0将卫星特征映射到地面视图域。通过最小化投影的卫星特征Fs2g和观察到的地面视图特征Fg之间的差异,LM优化被用来找到最佳的相机姿态。LM优化以粗略到精细的方式执行。为此,我们开发了一种新的可微LM优化器用于跨视图特征对齐。LM优化器迭代地细化相机姿态以匹配交叉视图特征图。当初始相机姿态与地面实况姿态相差太远时,来自卫星图像的投影内容将与观察到的地面图像显著不同,从而导致局部最小值问题。我们应用一个由粗到细的多尺度LM更新策略来缓解这个问题。粗层次的特征在原始图像中具有更大的感受野相反,更精细尺度的特征具有更大的空间分辨率,并且编码更多的解压缩。基于两个视图图像之间的相对相机姿态的地面视点。我们将世界坐标系设置为初始相机姿态估计,其位置对应于参考卫星图像中心,x轴平行于卫星图像的vs方向,y轴指向下,z轴平行于us方向。通过正投影将世界坐标系中的3D点(x,y,z)[u,v]T= [z+u0,x+v0]T,(1)Ssαs αs其中α为卫星特征图的每像素实字距离,(u0,v0)为卫星特征图中心。跟踪场景信息。因此,它们的信息量更大S以精确地调整姿势。4. 高精度姿态优化在本节中,我们将详细分析所提出的方法。如前所述,我们采用两个分支的CNN从地面提取深层特征,卫星图像,表示为Fl∈RH×W×C和Fl∈从真实摄像机坐标系的转换-世界坐标系的坐标系表示为:[x,y,z]T=R([xc,yc,zc]T+t),(2)其中,R和t是旋转和平移矩阵,req。从3D点到针孔相机图像平面的投影由下式给出:G gG sRHl×Wl×Cl,其中l=1,2,3表示w[ug,vg,1]T=K[xc,yc,zc]T,(3)规模水平。地面和卫星分支共享相同的架构,但不共享权重。通过这种方式,它们可以适应各自的领域。处的特征每个水平都是L2标准化的,以增加其鲁棒性,其中K是摄像机固有的,w是比例因子。从等式(1)(3),我们可以推导出从地面视图像素到卫星像素的映射为:交叉视图匹配2019年10月10日1−1ugs4.1.卫星对地几何投影vsα0wRKvg+ Rt+vs。我们引入了一个几何投影模块,z00 1 10(四)α17013Lish交叉视图几何对应。我们的几何投影模块投影卫星视图功能,当地面视图图像的深度图可用时,即,给定w,卫星对地投影可以17014e= FG22−1T(Rt−R1+tt −t1),(9)s2gGG˜可以很容易地通过Eq。(四)、然而,从单个地面图像估计深度是具有挑战性的。考虑到地面影像与卫星影像的重叠主要在地平面上,我们利用地平面的单应性进行几何投影。换句话说,我们通过设置yc,使所有地视图像素对应于地平面上的点由方程式(3)要查询摄像机到地平面的距离。然后,可以从等式计算w。(三)、在地平面单应性上定义的该投影是只是大致正确。为了处理高于地面的物体并减少投影中的失真,我们投影深度特征而不是RGB像素来测量间隙。这些深层特征对高级语义信息进行编码,因此对对象高度的敏感度低于RGB值。由等式(4)、我们将卫星引导到地面迭代地执行粗到细(C2F)方案,直到其收敛或达到最大迭代5。这种多尺度C2F过程提供了逃离局部最小值的机会,并且更有可能找到全局最优值。我们试图在等式中嵌入置信图(六)、其目的是给予突出的视觉特征更高的权重(例如,角点)以及对无纹理区域的较低权重然而,在我们的实验中,我们没有在不同的测试集上观察到一致的改善。因此,我们目前的方法中没有采用这个想法。4.3.培养目标LM优化在我们的流水线中以可微分的方式实现(在前馈通道内)。网络是端到端训练的我们用GT摄像机作为网络监控,使用双线性插值的几何投影,获取Fl∈RHl×Wl×Cl作为投影的地面视图特征Σ Σ ˆl∗ˆl∗从卫星特征中得到的。tl4.2.多级LM优化其中,R_l和R_t_l是我们的方法在tt第t次迭代和第l级,R和t是GT相机姿态。卫星与地面观测服务由,在训练期间,当由LM优化提供的相机姿态偏离GT值时,误差将L ls2g -F(五)被反向传播到特征提取网络并更新其参数。通过这种方式,我们的网络被训练成目标ive是找到最佳姿态R而其中的学习用于姿势优化有用的交叉视图特征。地面摄像机通过最小化以下损失函数,ξˆ=argmin∥el∥2,(6)5. 卫星增强的KITTI和Ford多AV数据集ξ其中,n·n2是L2范数,n={R,t},nnn对应于它的最优解. 我们解决这个非线性最小二乘问题的Levenberg-Marquardt(LM)优化al-租m [22,32]。对于每个水平l,我们计算一个雅可比矩阵和一个海森矩阵,我们在两个标准的自动驾驶数据集上评估了所提出的方法的可行性,即,KITTI [15]和Ford多AV数据集[2]。两个数据集中使用的相机都是经过固有校准的。基于数据集提供的GPS,我们从Google地图中收集卫星图像[1]。卫星图片下载zoom 18. KITTI卫星图像的每像素分辨率为0。20米100g2019年12月28日而福特多功能自动驾驶汽车的比例为0。22米不J==斯洛普斯H=J∂ξJ,(7)凯蒂KITTI数据集包含由移动车辆从不同轨迹在不同其中ps是卫星特征地图坐标。我们选择使用LevenbergH=H+λI,便于网络训练。λ是在梯度下降(λ= ∞)和高斯牛顿(λ= 0)算法之间插值的折衷参数。或者,马夸特可以使用[32]。更新姿势,其中t索引迭代。LM优化首先应用于粗特征级别,并逐渐传播到更精细的级别。这L=17015次几乎没有任何回顾的轨迹。我们将整个数据集(原始数据)分为三个子集,一个用于训练,两个用于测试,分别表示为Training,Test1和Test2。Training和Test1集来自同一地区,而Test2位于不同地区。Test2用于评估算法的泛化能力。我们使用立体对中的左侧图像作为查询图像。福特多AV数据集。福特多AV数据集由三辆车V1、V2和V3捕获的数据组成。每辆车配备7个摄像头。在这三辆车中,只有V2在两个不同的日期/行驶中从六个轨迹(Log 1和Log 6)捕获图像,即,2017-08- 04和2017-10-26。因此,我们使用左前摄像头,17016查询参照查询参照查询参照图3. 我们的方法在纵向位置优化上的失败案例。 地面视图中显示的场景立面不可见在俯视图中。我们只能确定地面车辆的横向平移沿着高速公路行驶在纵向位置优化上甚至遭受这里,红色箭头表示初始姿态,绿色箭头表示最终预测姿态,蓝色箭头表示GT姿态。洋红色点在优化期间精确定位中间位置。表1.我们的方法和最先进的方法在KITTI数据集上的性能比较Test1Test2横向d= 1d = 3d = 5纵向d= 1d = 3d = 5方位θ= 1θ = 3θ = 5横向d= 1d = 3d = 5纵向d= 1d = 3d = 5方位θ= 1θ = 3θ = 5CVM-NET [17]5.8317.41 28.783.4711.18 18.42---6.9621.55 35.243.5810.45 17.53---CVFT [49]7.7122.37 36.283.8211.48 18.63---7.2022.05 36.213.6311.11 18.46---SAFA [46]9.4929.31 46.444.3512.46 21.10---9.1527.83 44.274.2211.93 19.65---波兰-SAFA [46]9.5730.08 45.834.5613.01 21.12---10.02 29.09 46.193.8211.87 19.84---DSM [47]10.12 30.67 48.244.0812.01 20.143.5813.81 24.44 10.77 31.37 48.243.8711.73 19.503.5314.09 23.95维果[70]18.61 49.06 69.794.2913.01 21.47---17.38 48.20 70.794.0712.52 20.14---我们35.54 70.77 80.365.2215.88 26.13 19.64 51.76 71.72 27.82 59.79 72.895.7516.36 26.48 18.42 49.72 71.00表2.我们的方法和最先进的图像检索方法之间的性能比较福特多AV数据集。Log1Log2横向d= 1d = 3d = 5纵向d= 1d = 3d = 5方位θ= 1θ = 3θ = 5横向d= 1d = 3d = 5纵向d= 1d = 3d = 5方位θ= 1θ = 3θ = 5CVM-NET [17]9.1425.67 41.334.8113.19 21.90---9.8228.60 47.064.2411.83 20.34---CVFT [49]10.57 31.10 51.193.5211.43 20.38---12.21 35.07 57.614.4012.18 21.41---SAFA [46]9.3328.71 47.954.3311.76 20.14---11.22 34.10 53.395.0213.36 22.89---波兰-SAFA [46]9.0528.62 47.104.4312.14 21.10---12.02 35.63 56.214.2912.13 20.28---DSM [47]12.00 35.29 53.674.3312.48 21.433.5213.33 23.678.4524.85 37.643.9412.24 21.412.237.6713.42维果[70]20.33 52.48 70.436.1916.05 25.76---20.87 54.87 75.645.9816.88 27.23---我们46.10 70.38 72.905.2916.38 26.90 44.14 72.67 80.19 31.20 66.46 78.274.8015.27 25.769.7430.83 51.62V2作为我们的查询图像。对于每个轨迹,我们根据不同的驱动器划分评估指标。卫星图像只能提供车辆方位角)参考。因此,本文估计一个3自由度的车辆位姿地面卫星匹配。我们报告车辆驱动方向)和沿着横向方向。这是因为利用卫星地图进行定位时,车辆沿行驶方向定位的不确定性往往比沿横向定位的不确定性更大。例如,当车辆在两侧有高大建筑物的道路上行驶然而,从卫星图像中看不到立面。在高速公路上驾驶是另一种情况,其中模糊性是显著的,因为沿着驾驶方向的场景相比之下,使用道路边界可以更可靠地获得横向车辆位置。此外,农村地区的多车道高速公路也是在卫星地图上总是可见的。当相机的估计平移在其沿着方向的GT平移的dm内时,其被认为是正确的估计。当旋转角的估计值在其GT值的θ内时,估计被认为是正确的。我们分别将d设为1、3和5,将θ设为1π、3π和5π。由于这项工作的重点是自动驾驶,我们没有在其他跨视图数据集上进行测试(例如,[67],[27]和[70]),也因为它们不提供相对于卫星地图的地面视图航向,使得有意义的比较更加困难。6. 实验我们首先将我们的方法与那些细粒度的图像检索方法进行了比较,然后对我们框架中的每个组件进行了实验分析。实作详细数据。实验中使用的卫星图像分辨率为512×512,对应的覆盖范围约为100×100m2。我们假设城市规模的图像检索限制了相机的位置,1701724−l在卫星图像中心周围40m×40 m的区域内在这个区域内,我们进行高精度的姿态搜索。此搜索区域的选择保证了卫星图像可以为查询照相机提供至少30米可视距离参考,例如,当查询摄像机在区域的边界上并且向外看时。地面图像的分辨率为256×1024。的特征级别l对应于关于原始图像分辨率。 我们使用Adam优化器来训练我们的网络,学习率为10−4,β1= 0。9,且β2= 0。999 该网络在RTX3090 GPU上训练了2个epoch,批量大小为3。 我们的方法在Pytorch中完全实现。查询图像的姿势优化运行时间大约为500ms。除非特别说明,否则旋转噪声在整个实验中设置为20ms源代码和数据集可以访 问 网 址 : https://github.com/shiyujiao/HighlyAccurate.git。6.1. 与细粒度图像检索的比较给定查询图像,其从城市规模的数据库中检索的卫星对应物提供该查询图像的粗略位置估计。为了改进这种姿态估计,一种合理的方法可能是将卫星图像进一步分割成小块,并进行细粒度的图像检索。因此,我们首先展示了最先进的跨视图定位算法的性能,通过使用这种细粒度的图像检索相机姿态细化。设置. 在基于图像检索的方法的推理阶段,我们在40m×40 m的搜索区域内均匀采样一个网格,裁剪相应的卫星以网格点为中心的小块来构造细粒度的检索数据库。由于我们的方法搜索了15个可能的解,即, 3个特征级别×5次迭代,在细粒度检索中,网格大小设置为4×4,对比注意,规则离散网格仅ap-进入推理阶段。在训练阶段期间,网格被连续地、随机地和穷举地采样。竞争车型。我们将我们的方法与最先进的CVM-NET[17],CVFT [49],SAFA [46],Polar- SAFA [46],DSM [47]和VIGOR[70]进行比较。在这些方法中,DSM是唯一一种可以估计查询相机的方向的方法,而其他方法仅限于位置估计。只有VIGOR考虑了查询相机位置与其匹配的卫星图像中心之间的空间偏移,并且他们使用两个FC层来回归空间偏移。Toker等人[57]需要为每个数据库卫星图像匹配地面图像来训练它们的生成器,这在我们的细粒度检索设置中不可用因此,我们无法与之进行比较。上述计算模型使用其原始度量学习程序在我们的数据集上进行了重新训练(微调)。结果KITTI和Ford的比较结果(a) KITTI数据集(b) 福特多AV数据集图4.当旋转给定或未知时,我们的方法的性能比较(旋转噪声0vs.20◦)。多AV数据集如表1所示1和Tab。2,分别。对于空间限制,只有福特多AV数据集的前两个日志的结果我们在补充材料中提供了我们方法在剩余原木上的性能。从Tab。1和Tab。2,可以看出,基于纯图像检索的方 法 , 即 , CVM-NET [17] 、 CVFT [49] 、 SAFA [46] 、Polar-SAFA [46]、DSM [47]在基于高精度距离的定位方面表现出非常差的性能。这不仅是因为数据库图像是离散化的,而且还因为卫星图像的细粒度分区非常相似,从而在跨视图图像匹配中引起大的不确定性。由于VIGOR显式地考虑了查询相机中心与其匹配的卫星图像中心之间的相对位移,因此与纯图像检索技术相比,它实现了更好的性能。此外,通过使用所提出的相机姿态优化机制,而不是细粒度的图像检索的性能显着提高可视化。正如预期的那样,所有方法在纵向上的性能都比在横向上的性能差。我们在图3中给出了沿着纵向方向的这种模糊性的一些可视示例。尽管存在这种模糊性,我们的方法仍然能够有效地细化横向图5给出了当场景在不同区域不同时,通过我们的方法的中间姿态已知方向。 通常,查询相机的方位旋转可以容易地从罗盘获得,并且通过SLAM和VO方法的旋转估计精度通常是准确的。因此,我们测试我们的方法时,方向信息给出。图4报告了测试结果。可以看出,我们的方法的性能不断提高。17018图5.优化期间更新姿态的可视化箭头和点的图例与图中的相同3 .第三章。表3.KITTI数据集上不同地面和卫星域对齐方法的性能比较Test1Test2横向d= 1d = 3d = 5纵向d= 1d = 3d = 5方位θ= 1θ = 3θ = 5横向d= 1d = 3d = 5纵向d= 1d = 3d = 5方位θ= 1θ = 3θ = 5G2SPNN20.30 53.25 72.124.9315.08 25.31 21.65 54.44 71.88 17.01 46.12 64.415.1615.18 25.3120.66 51.4570.03H27.72 59.98 71.915.7516.80 26.13 18.13 48.77 69.2625.32 54.63 64.744.9915.61 26.31 17.37 46.57 67.70S2GP极性18.98 45.93 55.795.1414.95 24.99 13.31 39.25 61.20 11.27 40.51 53.624.8714.73 25.19 13.78 39.68 62.03H(我们的)35.54 70.77 80.365.2215.88 26.1319.64 51.76 71.72 27.82 59.79 72.895.7516.36 26.4818.42 49.72 71.006.2. 方法分析6.2.1GP几何投影S2GP与G2SP。与卫星影像相比,地面影像具有更高的景物分辨率.相机姿态的微小变化将在地面视图图像的外观变化相比之下,俯视图中相应的外观变化较小。地面观测对相机姿态变化的这种敏感性是期望的属性。它有助于估计姿态的更高精度。因此,在我们的几 何 投 影 模 块 中 , 我 们 进 行 卫 星 到 地 面 投 影(S2GP),而不是地面到卫星投影(G2SP)。下面,我们比较两种投影方法的性能。由于我们在投影中使用了地平面的单应性,我们在Tab中将它们标记为“H”。3 .第三章。正如预期的那样,S2GP的性能优于G2SP。单应性与极坐标变换。除了谐波分析外,文献中还采用了极坐标变换,桥接跨视图域间隙[46,47,57]。我们打算将我们的方法与S2GP中标记为从选项卡中的结果如图3所示,可以看出极坐标变换比单应性执行得更差。这是可能的,因为极坐标变换仅考虑地面全景,而不是由地面针孔相机捕获的图像。显式几何 投影 Vs.隐式 网络与使用显式几何变换相反,我们还测试了简单的神经网络是否可以学习隐式几何变换。用于相同目的的几何映射,表示为这里,NN消融不能在S2GP方向上进行,因为S2GP是整体到部分的映射,并且在投影中会丢失很多信息。当初始位姿与真实位姿存在显著差异时,初始位姿下的在这种情况下,不可能通过简单的图像/特征级旋转和平移来使合成和真实特征图对齐。假设我们让NN在每次姿态更新时为原始卫星图像重新生成地面特征图。每个LM优化步骤都需要网络参数的Ja- cobian,这需要大量的GPU内存,远远超出了现有12/24 G GPU的容量。相比之下,我们的基于几何的S2GP在LM优化中不涉及任何网络参数,因此是可行的。因此,我们的NN消融在G2SP方向进行。我们采用了一个网络,以地面图像作为输入,并输出一个合成的卫星特征图。之后,LM直接旋转和平移合成特征图,以将其与其真实计数器配准-没有任何NN再生。如选项卡的第一行所示。3、结果不理想。虽然我们对此的反思是,无论何时已知并可以使用关于手头问题的明确和原则几何知识,都应该使用它而不是黑盒神经网络实现。17019表4.在KITTI数据集上使用不同优化器的性能比较测试1测试2横向纵向方位角横向纵向方位角d= 1d = 3d = 5 d= 1d = 3d = 5 θ= 1 θ= 3 θ= 5 d= 1d = 3d = 5 d= 1d = 3d = 5 θ= 1 θ= 3 θ= 5SGD16.8639.6051.154.7215.29 25.3910.0530.3749.8016.0638.4150.295.0015.3425.709.9830.0350.13亚当7.1321.1532.974.9615.1325.63 10.3630.3250.497.3321.3633.525.6415.3826.00 10.2830.8150.91净27.1458.2871.914.5315.1925.3645.5693.1999.7620.2653.9467.425.4015.82 25.5842.0392.3299.81LM(我们的)35.5470.7780.365.2215.8826.1319.6451.7671.72 27.8259.7972.895.7516.3626.4818.4249.7271.006.2.2LM优化的优先级LM对SGD和ADAM。随机梯度下降(SGD)和ADAM是神经网络训练中广泛使用的优化方法。它们也被证明是有效的,在许多最近的基于Nerf的方法,用于场景特定的相机姿态估计[26,62,65]。因此,我们比较了LM算法在本文中采用的一阶SGD和亚当的地面对卫星相机的位姿优化。如Tab.所示4,可以看出LM优化的性能明显优于SGD和ADAM。这是因为自适应二阶LM优化,作为高斯牛顿的变体,基本上保证找到成本函数的至少一个局部最小值。相比之下,SGD遭受通常的标记行为,因此收敛非常缓慢虽然ADAM在神经网络训练方面往往优于SGD,但我们发现,在这种地面对卫星姿态优化中,它在比较优化器中表现最差。LM与基于网络的优化器。 使用网络来模拟优化器也已经在各种任务中进行了研究,例如,光流[54],视图合成[12],和物体姿态估计[25]。因此,我们还比较了基于网络的优化器,在Tab中表示为4.第一章基于网络的优化器由一组卷积层和全连接层组成。我们还使用卷积GRU和LSTM来构建基于网络的优化器,但我们没有发现显著差异。有趣的是,我们发现基于网络的优化器在旋转优化上表现得更好,而在平移优化性能上却不如LM。这可能是因为常规CNN不是固有的旋转不变的。输入信号中的轻微旋转变化将导致CNN特征图的巨大差异。这种放大的变化为基于CNN的优化器提供了更多的力量来搜索更好的旋转。另一方面,CNN是平移不变/等变的。翻译中的微小变化可以被更高级别的CNN特征吸收这些观察结果已经在我们的实验中得到证实,如表1所示。3 .第三章。使用网络进行地面和卫星域映射比几何引导的方法在旋转优化上表现更好,而在平移优化上表现更差。值得进一步探索以更好地结合原则性理论的优点(例如,几何形状和LM优化)与数据驱动的方法。7. 结论本文提出了一种利用地卫交叉视角图像进行相机精确定位的新方法。这种新的方法代表了从传统的智慧的图像检索为基础的定位。关键的挑战在于正确处理交叉视图设置(卫星与地面视图)之间的巨大域差距。为此,我们设计了一个几何投影模块,在地面域中对齐两个视图的功能。采用原则性LM优化算法以端到端的方式渐进地优化相对相机姿态。虽然这项工作的动机是传统的图像检索为基础的定位精度差,我们不打算取代图像检索为基础的定位技术。相反,城市规模的地方检索可以提供查询相机的初始估计然后,我们的方法将此姿势估计细化到更高的精度。我们的地面到卫星的姿态优化方法也可以帮助传统的SLAM和视觉测距方法的相机跟踪作为一种新的机制,特别是,我们注意到,结合我们的方法与VO管道可以解决长期的模糊性问题,实现全面的高精度车辆定位。此外,我们期望当深度信息可用时,例如,由立体图像或激光雷达点提供时,我们的方法的整体性能将进一步提高。这是留给未来的工作。8. 致谢这项研究的部分资金来自ARC-Discovery赠款(DP190102261和DP 220100800),这是百度RAL的礼物,以及福特联盟对HL的赠款第一作者是中国国家留学基金管理委员会(CSC)资助的澳大利亚国立大学博士生。我们感谢所有匿名评论者和AC的建设性建议。17020引用[1] https : //developers.Google.com/maps/documentation/maps-static/overview. 二、四[2] Siddharth Agarwal , Ankit Vora , Gaurav Pandey ,Wayne Williams,Helen Kourous,and James McBride.2020年福特多AV季节数据集。二、四[3] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. Netvlad:用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议论文集,第5297-5307页,2016年。一、二[4] JanBrejcha,MichalLu ka'c,YannickHold-Geo f fr oy,Oliv er Wang和MartinCa d' ık。景观:大规模的户外增强现实,通过使用学习的描述符将照片与地形模型相匹配.在欧洲计算机视觉会议上,第295-312页。Springer,2020年。2[5] Sudong Cai,Yulan Guo,Salman Khan,Jiwei Hu,andGongjian Wen.具有硬样本重加权三重丢失的地空图像地理定位。在IEEE计算机视觉国际会议(ICCV)上,2019年10月。一、二[6] 宋曹和诺亚·斯内弗利。从运动模型中提取结构的最小场景描述。在2014年IEEE计算机视觉和模式识别会议,第461-468页中。2[7] Francesco Castaldo , Amir Zamir , Roland Angst ,Francesco Palmieri,and Silvio Savarese.语义交叉视图匹配。在IEEE计算机视觉研讨会国际会议论文集,第9-17页2[8] 陈泽涛,亚当雅各布森,尼克·欧·桑德霍夫,本·厄普克罗夫特,刘凌桥,沈春华,伊恩·里德,迈克尔·米尔福德。大规模深度学习功能用于视觉位置识别。2017年IEEE机器人与自动化国际会议(ICRA),第3223-3230页。IEEE,2017年。一、二[9] 马克·康明斯和保罗·纽曼。Fab-map:外观空间中的概率 定 位 和 映 射 。 The International Journal of RoboticsResearch,27(6):6472[10] Michael Donoser和Dieter Schmalstieg基于图像定位中的鉴别特征点匹配。IEEE计算机视觉和模式识别会议论文集,第516-523页,2014年。2[11] Ryan C DuToit,Joel A Hesch,Esha D Nerurkar,andSter- gios I Roumeliotis.移动设备上基于地图的一致3d定位2017年IEEE机器人与自动化国际会议(ICRA),第6253-6260页。IEEE,2017年。2[12] 约翰·弗林,迈克尔·布罗克斯顿,保罗·德贝维克,马修·杜瓦尔,格雷厄姆·费弗,瑞安·奥弗贝克,诺亚·斯内弗利和理查德·塔克。Deepview:查看合成与学习梯度下降。在IEEE/CVF计算机视觉和模式识别会议论文集,第2367- 2376页,2019年。8[13] Dori a nGa'l v ez-Lo' pez和JuanDTardos。用于图像序列中快速 位置识别的 二 进 制 字包 IEEE Transactions onRobotics,28(5):1188-1197,2012. 2[14] 葛一笑,王海波,朱峰,赵瑞,李洪生.用于大规模图像定位的自监督细粒度区域相似性。欧洲计算机视觉会议,第369-386页。Springer,2020年。一、二[15] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun. Vision meets robotics:The kitti dataset.The InternationalJournal of Robotics Research , 32(11):1231-1237,2013. 二、四[16] 刘培东,崔兆鹏,马克·波勒-费斯,托尔斯滕·萨特勒。多摄像机视觉定位的高效2 - 3维匹配在2019年国际机器人与自动化会议(ICRA)上,第5972IEEE,2019。2[17] 胡思星,冯梦丹,让M. H. Nguyen和Gim Hee Lee。Cvm-net:用于基于图像的地对空地理定位的跨视图匹配 网 络 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2018年6月。一、二、五、六[18] Sixing Hu and Gim Hee Lee.使用卫星图像的基于图像的地理定位。国际计算机视觉杂志,128(5):1205-1219,2020。2[19] 伊格尔·S·琼斯和斯特凡诺·索亚托。视觉惯性导航,映射和定位:可扩展的实时因果方法。The InternationalJournal of Robotics Research,30(4):407-430,2011.2[20] Hyo Jin Kim,Enrique Dunn,and Jan-Michael Frahm.用于图像地理定位的学习上下文特征重加权。2017年IEEE计算机视觉和模式识别会议(CVPR),第3251-3260页。IEEE,2017年。一、二[21] Viktor
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功