基于交叉视点匹配的联合定位和方位估计

191 浏览量更新于2023-10-25 收藏 3.55MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1我在看哪基于交叉视点匹配的联合定位和方位估计石玉娇，1，2于欣，1，2，3迪伦坎贝尔，1，2李红东1，21澳大利亚国立大学2澳大利亚机器人视觉中心3悉尼科技大学firstname. anu.edu.au摘要交叉视图地理定位是在给定地理标记的天线的大规模数据库（例如，卫星）图像。现有方法通过学习判别特征描述符将任务视为纯位置估计问题，但忽略了方向对齐。众所周知，知道地面和空中图像之间的取向因此，我们设计了一个动态相似匹配网络来估计定位过程中的特别地，我们通过将极坐标变换应用于航拍图像以近似地将图像对准到未知的方位角来解决交叉视图域间隙然后，使用双流卷积网络从地面和极坐标变换的航空图像中学习深度特征。最后，通过计算交叉视图特征之间的相关性来获得方位在标准数据集上的实验表明，该方法显著提高了性能。值得注意的是我们将CVUSA数据集上的前1位置召回率提高了1倍。5倍，对于具有已知方向的Ammas，系数为3。3倍用于方向未知的血管瘤，6倍用于方向未知的180个FoV图像1. 介绍给定地面摄像机拍摄的图像，有理由问：摄像机在哪里，它面向哪个方向？跨视图图像地理定位的目的是通过将查询图像与大的地理标记进行图1.给定一个查询地面图像，我们的目标是恢复其地理位置（纬度和经度）和方向（方位角），通过匹配它对一个大型数据库的地理标记的航空图像。为此，我们首先将极坐标变换应用于航拍图像，以将它们与地面视图图像近似接下来，我们沿着方位角轴（水平方向）计算地面和空中特征之间的距离，以估计地面图像相对于空中图像的定向对准。然后，我们移动和裁剪出相应的空中特征，并计算它们到地面特征的距离，这为位置检索提供了一个相似性度量。覆盖该地区的卫星地图。由于卫星图像的可访问性和覆盖范围的广泛性，地对空图像对齐正成为解决基于图像的地理定位问题的一个有吸引力的提议。然而，由于地面和地面之间的极端视点变化，40644065航空影像挑战概述如下。(1) 视图之间的显著视觉差异，包括场景中物体的外观和投影位置，导致大的域间隙。(2) 当两个图像中的向北方向未知时，图像之间的未知相对取向导致定位模糊并增加搜索空间。(3) 标准相机具有有限的视场（FoV），这降低了用于交叉视图定位的地面视图特征的区分度，因为图像区域仅覆盖局部信息并且可以匹配多个航空数据库图像。现有方法将此任务视为纯位置估计问题，并使用深度度量学习技术来学习用于匹配地面和航空图像的视点不变特征。许多方法需要提供方向，以避免由方向未对准引起的模糊性[15，12，10]。然而，在实践中，该方向并不总是可用于地面图像。为了处理这个问题，一些方法直接学习方向不变特征[18，5，2]，但是它们不能解决地面和空中图像之间的大的主间隙，限制了它们的定位性能。为了减少跨视图域间隙，我们探索地面和空中图像之间的几何对应关系。我们观察到，有两个几何线索是统计上显着的真实地面图像下的等距矩形投影：（i）图像中的水平线（平行于方位轴）具有近似恒定的深度，因此对应于空间图像中的同心圆;以及（ii）图像中的垂直线具有随y坐标增加的深度，因此对应于空间图像中的径向线。更具体地说，如果场景是平坦的，则地面图像中的水平线映射到空中图像中的圆我们利用这些几何线索，通过应用极坐标变换的航空图像，映射同心圆水平线。这减少了投影几何形状的差异，从而减少了磁畴间隙，如图2所示。然后，我们采用双流CNN来学习地面和航空图像之间的特征对应关系。我们提取保留特征之间的空间关系的特征量，这是地理定位的关键线索。然而，当使用空间感知图像特征时，取向未对准导致较差的结果。此外，当有限的FoV成像时，难以匹配特征，因为地面图像仅包含航拍图像的一小部分。因此，我们的直觉是找到方向对齐，从而促进准确的相似性匹配。(a) （b）地面(c)变极天线图2.由于查询地面图像的方向未知和有限的视场，对跨视角图像匹配提出了挑战。在相同位置但具有不同方位角（顶部和中间）捕获的全景中的场景内容被偏移，并且有限FoV图像中的图像内容可以与从相同位置捕获的另一图像完全不同。通过特征相关性确定每个地面图像相对于其空中对应物的方位。在本文中，我们提出了一个动态相似性匹配（DSM）模块来实现这一目标。具体来说，我们计算地面和空中特征之间的相关性，以生成每个角度的相似性得分，由图1中的红色曲线标记。相似性分数max-imum的位置对应于地面图像相对于空间图像的潜在取向。如果地面图像具有有限的FoV，则从空中特征表示中提取适当的局部区域进行定位。通过使用我们的DSM模块，地面和航空图像之间的特征相似性更准确地测量。因此，我们的方法优于国家的最先进的大幅度。我们工作的贡献是：• 第一种基于图像的地理定位方法，用于联合估计查询地面图像的位置和取向1，而不管其视场;• 动态相似性匹配（DSM）模块，用于在考虑地面图像的取向的同时测量图像对的特征相似性，fa-实现精确定位;• 广泛的实验结果表明，我们的方法实现了显着的性能，在各种地理定位场景中对现有技术的改进。2. 相关工作现有的基于交叉视图图像的地理定位旨在通过将地面图像与航空图像的大型数据库进行匹配来估计地面图像的位置（纬度和经度）由于观点的重大变化，当极坐标变换将空间图像投影到在本文中，方位指的是1-DoF方位角。4066图3.所提出方法的流程图首先将极坐标变换应用于航空图像，然后采用双流CNN从地面和极坐标变换的给定所提取的特征体积表示，两者之间的相关性用于估计地面图像相对于空间图像的取向接下来，空中特征被移位和裁剪以获得（潜在地）对应于地面特征的部分然后，所得到的功能的相似性用于位置检索。地面和航空图像，手工制作的特征匹配[3，9，11]成为跨视图地理定位性能的瓶颈。深度卷积神经网络（CNN）已经证明了它们在图像表示方面的强大能力[13]。这促使最近的地理定位工作，以提取特征，从地面和空中图像与CNN。Workman和Jacobs [19]首先将深度特征引入交叉视图匹配任务。他们用AlexNet[7]网络在Imagenet [13]和Places [22]上进行了微调，以提取跨视图图像匹配的深度特征。他们证明，通过最小化匹配的地面和天线对之间的距离来进一步调整天线分支，可以获得更好的定位性能[20]。Vo和Hays [18]研究了一组用于匹配交叉视图图像的CNN架构考虑到地面和航空图像之间的方向不一致，他们提出了一个辅助方向回归块，让网络学习方向感知的特征表示，并在测试阶段使用了多个不同方向的航空图像。为了学习方向不变特征，Huet al. [5]在两分支CNN的顶部嵌入NetVlad层[1]，用于跨视图图像匹配。Cai等人[2]引入轻量级注意力模块对空间和信道特征进行重新加权，以获得更有代表性的描述符，然后提出一种硬样本重新加权三元组损失，以提高网络训练质量他们还使用了一个方向回归块来迫使网络学习方向感知特征。Sun等人[17]采用胶囊网络来编码空间特征表示。尽管这些方法学习了用于定位的方位感知描述符，但它们忽略了地面和航空图像之间的域差异为了弥合地面和航空图像之间的大域差距，翟等。[21]学习了空中和地面特征之间的变换矩阵，用于从空中图像预测地面语义信息。Regmi和Shah [12]使用生成模型从地面图像合成航空图像，然后融合地面图像和合成航空图像的特征作为检索的描述符。Shi等人[15]提出了一种特征传输模块，将地物映射到航空领域，然后进行相似性匹配。Shi等人[14]还使用极坐标变换来首先桥接几何域差异，然后使用空间感知特征聚合模块来选择全局特征描述器表示的显著特征。然而，所有这些方法都要求地面图像是立体的或方向对齐的。最后，Liu Li [10]发现方向为确定地面图像的位置提供了重要线索，因此将地面实况方向明确编码为额外的网络输入。与现有的作品相比，我们的目标是估计地面图像的位置和方向联合，因为探索方向信息可以促进跨视图匹配的两个camas和图像有限的FoV。3. 基于跨视图像匹配的在基于交叉视图图像的地理定位任务中，地面图像由其图像平面垂直于地平面并且y轴平行于重力方向的相机捕获由于这两个图像域之间存在较大的外观变化，因此我们的策略是首先减少视点之间的投影差异，然后4067我我我从这两个域中提取区别性特征。毛皮-（xa，ya）和目标极坐标变换的（xt，yt）是受人类自我定位的启发，我们将物体之间的空间关系作为一个关键线索，我我xa=Sa− Sa（H g-xt）∫cos2π我我、yt，用于推断位置和方向。因此，我们使i2 2HgWGI∫，（一）我们的描述符编码的空间关系之间的ya= SaSa（Hg−xt）+sin2πt I.特征，如图3中的Fg和Fa所示。尽管空间感知特征具有区分性，但它们对方向变化非常敏感。例如，当地面相机的方位角改变时，场景内容将在地面全景中偏移，并且如果相机具有有限的FoV，则图像内容可能完全不同，如图2所示。因此，找到地面图像的方向是至关重要的，使空间感知功能可用。为此，我们提出了一个动态相似性匹配（DSM）模块，如图3所示。利用该模块，我们不仅可以估计地面图像的方向，还可以获得更准确的特征相似性分数，无需考虑方向失准和有限的FoV，从而增强地理定位性能。3.1. 一种桥接畴隙的极坐标变换由于地面图像2使用等矩形投影将360度射线投影到图像平面上，并且与卫星视图图像正交，因此地面图像中的垂直线对应于空中图像中的径向线，并且水平线近似对应于空中图像中的圆，假设沿着线的像素具有类似的深度，这在实践中经常发生。这种布局对应促使我们对航拍图像应用极坐标变换。通过这种方式，这两个域的空间布局可以大致对齐，如图2（b）和图2（c）所示。具体地，极原点被设置为每个空间图像的中心，对应于地理标签位置，并且0°角被选择为向北方向，对应于对准的空间图像的向上方向。此外，我们将极坐标变换后的航空影像的高度限制为与地面影像相同，并确保极坐标变换后的航空影像的每一列所对的角度与地面影像相同。我们在航拍图像中沿径向线应用均匀采样策略，使得航拍图像的最内和最外圆分别映射到变换图像的底部和顶部线。形式上，设Sa×Sa表示空间图像的大小，Hg×Wg表示极坐标变换的目标大小原始航空影像点间的极坐标变换2虽然我们使用全景图像作为示例，但地面和航空图像之间的对应关系也适用于有限FoV的图像。2 2HgWg通过应用极坐标变换，我们粗略地桥接了地面和航空图像之间的投影几何域间隙。这允许CNN专注于学习地面和极坐标变换的航空图像之间的特征对应关系，而不消耗学习这两个域之间的几何关系的3.2. 一种空间感知的特征表示方法沿极坐标变换图像的x轴应用平移偏移等效于旋转空间图像。因此，学习航空图像的旋转等变特征的任务变成了学习平移等变特征，这大大降低了我们网络的学习难度，因为CNN固有地具有平移等变的特性[8]。然而，由于水平方向代表旋转，我们必须确保CNN将变换图像的最左边和最右边的列视为相邻的。因此，我们建议使用循环卷积，沿水平方向进行环绕填充。我们采用VGG16 [16]作为我们的骨干网络。特别是，VGG16的前十层用于从地面和极坐标转换的航空图像中提取由于极坐标变换可能会沿垂直方向引入失真，由于假设水平线具有类似的有限深度，我们修改了随后的三个层，降低了特征图的高度，但保持了它们的宽度。以这种方式，我们提取的特征更能容忍沿垂直方向的失真，同时保留沿水平方向的信息。我们还减少了功能通道数，16通过使用这三个卷积层，并获得大小为4×64×16的特征体积。我们的特征体积表示是一个全局描述符，旨在保留场景的空间布局信息，从而增加用于图像匹配的描述符的区分度。3.3. 动态相似匹配当地面和经极变换的空中特征的定向对准时，可以直接比较它们的特征。然而，地面图像的方向并不总是可用的，并且方向未对准显著增加了地理定位的难度，特别是当地面图像具有有限的FoV时。当人类使用地图来重新定位自己时，他们通过比较来共同确定自己的位置和方向y4068把他们所看到的和他们期望在地图上看到的结合起来。为了让网络模拟这个过程，网络∫,¨α-F−F¨ ¨¨−−F −F“，，¨我们计算地面和空中的相关性沿方位角轴的特征。具体来说，我们使用地面特征作为滑动窗口，并计算L=log1+e¨ga′′F¨g一个“”、（3）在所有可能的方向上地面和空中特征之间的内积设Fa∈RH×Wa×C和Fg∈RH×Wg×C表示空中和地面特征反射率，其中H和C表示高度和通道其中，Wa和Wg分别表示空中和地面特征的宽度，且Wa≥Wg。Fa和Fg之间的相关性表示为：其中，Fg是查询地面要素，Fa′和Fa′表示来自匹配航空要素的裁剪航空要素图像和非匹配的航空图像，并且·F表示Frobenius范数。参数α控制训练过程的收敛速度;根据先例，我们将其设置为10 [5，10，15]。3.5.实现细节中国[Fa<$Fg]（i）=WugFa（h，（i+w）%W a，c）F g（h，w，c），我们使用VGG16中的前十个卷积层，c=1h =1w =1（二）在Imagenet [4]上预训练权重，并随机初始化-将以下三个图层中的参数设置为全局其中F（h，w，c）是索引（h，w，c）处的特征响应，%表示模运算。在相关计算之后，在SIM中的最大值的位置相似度分数是地面图像相对于经极变换的空中图像的估计方位。当地面图像是全景图时，不管方位是否已知，通过计算2（1-max（[Fa<$Fg]（i）），将相关结果中的最大值直接转换为L2距离，其中Fa和Fg是L2归一化的. 当地面图像具有有限的FoV，我们在最大相似性分数的位置处裁剪与地面图像的FoV相然后，我们重新规范化的裁剪的空中特征和计算之间的L2距离的地面和空中特征作为匹配的相似性得分。请注意，如果有多个最大相似度得分，我们随机选择一个，因为这意味着航拍图像具有无法消除歧义的对称性。3.4. 培训DSM在训练过程中，我们的DSM模块适用于所有地面和天线对，无论它们是否匹配。对于匹配对，DSM迫使网络学习用于地面和极坐标变换的航空图像的相似特征嵌入，具有沿水平方向的区别性特征表示（即，方位角）。通过这种方式，DSM能够识别方向失准以及找到最佳特征相似度进行匹配。对于非匹配对，因为当它们对齐时是最具挑战性的情况（即，它们的相似性更大），我们的DSM也被用来找到最可行的方向，为地面图像对齐到一个非匹配的航空一个，我们最小化的最大相似性的非匹配对，使功能更具歧视性。按照传统的交叉视图定位方法[5，10，15]，我们采用加权软边缘三重损失[5]来训练我们的特征描述符提取前七层保持固定，随后的六层被学习。使用学习率为10−5的Adam优化器[6在[18，5，10，15]之后，我们采用了一个穷举的小批量策略[18]，批量大小为B=32，以创建训练三元组。具体地，对于小批次内的每个地面图像，存在一个匹配的空间图像和（B-1）个不匹配的空间图像。因此，我们构造B（B−1）三元组。类似地，对于每个空间图像，在一个空间内存在一个匹配的地面图像和（B-1）个不匹配的地面图像。小批量，因此我们创建另一个B（B−1）三胞胎。因此，我们总共有2个B（B−1）三胞胎4. 实验4.1. 数据集我们在两个标准的交叉视图数据集CVUSA [21]和CVACT [10]上进行了实验。它们都包含35，532个训练场和天线对以及8，884个测试对。根据既定的测试方案[10，15]，我们将CVUSA和CVACT中的测试集分别表示为CVUSA和CVACT_val。CVACT还提供了一个更大的测试集CVACT_test，它包含92802个交叉视图图像对，用于细粒度的城市规模地理定位。请注意，两个数据集中的地面图像都图4显示了来自两个数据集的交叉视图图像对的样本。此外，我们还进行了实验的地面图像与未知的方向和有限的视场我们使用CVUSA和CVACT_val中的图像对，并沿着方位角方向随机旋转地面图像，并根据预定的FoV对其进行裁剪。构建的具有不同FoV的测试集以及我们的源代码可通过https://github.com/shiyujiao/cross_view_localization_DSM.git.4069表1.与CVUSA [21]数据集上现有方法的比较。这里，图4.来自CVUSA（顶部两行）和CVACT（底部两行）数据集的交叉视图图像对左侧为航拍图像，右侧为地面照片。4.2. 评估指标位置估计：按照跨视图图像定位的标准评估程序[18，5，10，15，2，17，12]，我们使用前K召回率作为位置评估指标来检查我们的方法的性能并与最先进的方法进行比较。具体来说，给定一个地面图像，我们检索的前K个航空图像的L2之间的距离的全球描述符。如果其对应的航空图像在前K列表中被检索，则地面图像被视为成功定位。正确定位的地面图像的百分比被记录为在顶部K（r@K）处的召回率。方向估计：只有当地面图像被正确定位时，查询地面图像的预测方向才有意义。因此，我们评估的方位估计精度，我们的DSM只有地面图像已被正确定位的前1重调用。在这个实验中，当地面图像的预测方向与其地面实况方位在其FoV的±10%内，则认为该地面图像的方位估计成功。我们将方位被正确预测的地面图像的百分比记录为方位估计精度（orien_acc）。由于空间图像通常是旋转对称的，因此取向估计可能产生大的误差，例如对于在相反方向上看起来相似的场景，误差为180μ m因此，我们报告鲁棒的中值方向误差，表示为median_error，而不是平均值。4.3. 定位方向对齐的全景图我们首先研究了我们的方法的位置估计性能，并将其与标准CVUSA和CVACT数据集上的最新技术进行比较，其中地面图像是方向对齐的图像。在表1中，我们表2.与CVACT_val上现有方法的比较[10] 通过使用作者提供的代码重新训练现有网络来创建数据集。方法展示我们在CVUSA数据集上的结果，以及其他作品中报告的召回率[10，15，5，12，2]。我们还使用作者提供的源代码在CVACT数据集上重新训练现有网络[5，10，15]CVACT_val的前1、前5、前10和前1%的召回结果见表2，CVUSA和CVACT_val的完整r@K性能曲线分别见图5（a）和图5（b）在这些比较方法中，[20，21，18]是第一个将基于深度的方法应用于交叉视图相关任务的探索者。CVM-NET [5]和Siam-FCANet 34 [2]专注于设计功能强大的特征提取网络。Liu Li [10]将方向信息引入网络，以便于地理定位。然而，它们都忽略了地面和航空图像之间的域差异，从而导致性能较差。Regmi和Shah [12]采用有条件的GAN从地面图像生成航空图像。虽然它有助于弥合跨视图域间隙，但在此过程中也会引入不期望的场景内容Shi等人[15]提出了一个横视特征传输模块（CVFT），以更好地对齐地面和空中特征。然而，网络很难同时学习几何和特征响应对应关系。相反，我们的极坐标变换显着减少了地面和空中图像之间的投影几何差异，从而减轻了网络的负担。从表1和表2中可以清楚地看出，我们的方法明显优于方法CVUSAr@1r@5r@10r@1%Workman等人[20个]–––34.3Zhai等[21日]–––43.2[18]第十八话–––63.7CVM-NET [5]22.4749.9863.1893.62刘丽[10]40.7966.8276.3696.12[12]第十二话48.75–81.2795.98Siam-FCANet34 [2]–––98.3CVFT [15]61.4384.6990.4999.02我们91.9697.5098.5499.67CVACT_valr@1r@5r@10r@1%CVM-NET [5]20.1545.0056.8787.57刘丽[10]46.9668.2875.4892.01CVFT [15]61.0581.3386.5295.93我们82.4992.4493.9997.324070(a) CVUSA（b） CVACT_val（c） CVACT_test图5。在CVUSA、CVACT_val和CVACT_test数据集上不同K值下的召回比较先进的方法。细粒度本地化：我们还将我们的方法与CVACT_test数据集上的最先进方法进行了比较。该数据集提供了密集覆盖城市的细粒度地理标记航空具体地，如果检索到的前K个航空图像中的一个在查询地面图像的地面实况位置的5米内，根据Liu Li [10]的评估协议，我们在图5（c）中绘制了不同K值下正确定位的地面图像（回忆）的百分比。我们的方法在这个极具挑战性的测试集上取得了优于现有技术的结果4.4. 未知方向和有限FoV的在本节中，我们测试了我们的算法和其他方法的性能，包括CVM-NET [5]和CVFT [15]，在更现实的定位场景中，CVUSA和CVACT_val数据集，其中地面图像没有已知的方向并且具有有限的FoV。刘力[10]的方法要求输入方向信息，所以我们不能与此方法进行比较.位置估计：由于现有的方法只被设计用于估计地面图像的位置，我们只评估它们的位置召回性能。为了评估定向失准的影响，FoVs 对定位性能的影响，我们沿着 CVUSA 和CVACT_val数据集的方位角方向随机移动和裁剪地面图像。以这种方式，我们模仿的过程中定位图像有限的FoV和未知的方向。表3中的第一个结果列展示了定位具有未知方向的微扰的性能很明显，我们的方法显着优于所有的比较算法，ob.泰宁A 2. 比CVUSA提高34倍，在r@1方面，CVACT提高了72倍我们还进行与其他方法在FoV分别为180mm（鱼眼相机）、90mm（广角相机）和70mm（普通手机相机）的地面图像上的比较见表3。注意，方向也是未知的。如图6（b）所示，随着地面图像的FoV减小，图像变得不那么有辨别力。这增加了地理定位的难度，特别是当定向未知时。如表3的第二、第三和第四结果列所示，我们的方法受益于其DSM模块，显著减少了由未知方向引起的模糊性，并且更准确地测量特征相似性，实现了比现有技术更好的性能方向估计：如前所述，方位估计的实验是在地面图像上进行的，这些地面图像是根据前1个重新估计的候选者正确定位的。表4中的第一行显示了具有不同FoV的地面图像的方位预测精度。如表中所示，几乎所有具有360μ m和180μ mFoV的地面图像的方向都被正确预测，证明了我们的DSM模块用于估计地面图像方向的有效性还清楚的是，匹配模糊度随着FoV减小而增加。考虑到航拍图像中的场景内容在多个方向上可能非常相似，因此在估计位置正确的同时，方位估计可能不准确例如，站在道路上的人能够定位他们的位置，但是如果沿着道路在两个方向上的视图相似，则将发现难以确定他们的取向我们在档案材料中提供了一个例子因此，即使我们的方法估计方向不准确，它仍然是可能的位置正确使用我们的DSM模块。我们还在表4的第二行中报告了估计和地面实况定向之间的误差的中值（以度为单位）。相对于图像的FoV，估计的误差非常小，因此不会对定位性能产生负面影响。图6显示了估计的4071◦◦表3.定位具有未知方向和不同FoVs的地面图像的召回率比较数据集比较算法◦FoV=360◦FoV=180◦FoV=90◦FoV=70r@1 r@5 r@10 r@1% r@1 r@5 r@10 r@1% r@1 r@5 r@10 r@1% r@1 r@5 r@10 r@1%CVM-NET [5]16.25 38.86 49.41 88.117.38 22.51 32.63 75.38 2.76 10.11 16.74 55.49 2.62 9.30 15.0621.77CVUSACVFT [15]23.38 44.42 55.20 86.648.10 24.25 34.47 75.15 4.80 14.84 23.18 61.23 3.79 12.44 19.33 55.56我们78.11 89.46 98.50 48.53 68.47 75.63 93.02 16.19 31.44 39.85 71.13 8.78 19.90 27.30 61.20CVM-NET [5]13.09 33.85 45.69 81.803.94 13.69 21.23 59.22 1.47 5.70九点六四38.05 1.24 4.98 8.4234.74CVACT_valCVFT [15]26.79 46.89 55.09 81.037.13 18.47 26.83 63.87 1.85 6.28 10.54 39.25 1.49 5.13 8.1934.59我们72.91 85.70 88.88 95.2849.12 67.83 89.9318.11 33.3468.65 8.29 20.72 27.13 57.08FoV= 360，方位角=−32。344◦-33。750磅-61磅。875◦-28 -123。750◦(a) FoV=360ΩFoV= 180mm，方位角= 128。672◦一百二十九375 ◦-129 375磅-146磅。250磅-180磅000◦FoV= 90，Azimuth=−158。906◦-157 50磅-163磅。125磅-28磅125◦39岁375◦FoV= 70，Azimuth=−115。469◦-116 875◦五十七500◦-128 125磅175磅。635◦(a) 查询(b) 顶部-1（c）顶部-2（d）顶部-3（e）顶部-4（b）FoV=70图6.地面图像方位估计的可视化FoV =360和70。在每个子图中，空中图像在左边，地面图像在中间。我们在右列中可视化了极坐标变换的航空特征和曲线中的相关最大值的位置对应于地面图像的取向表4.正确定位地面图像的方向预测性能数据集CVUSACVACT_valFOV◦ ◦ ◦ ◦360 180 90 70◦ ◦ ◦ ◦360 180 90 70定向访问99.41 98.54 76.1599.84 99.10 74.51中位误差2.38 2.38 4.50四点八八1.97 2.89 5.216.22图7给出了一些关于联合位置和方向估计的定性示例补充材料中提供了更多关于方向估计的可视化结果。5. 结论在本文中，我们提出了一个有效的算法，基于图像的地理定位，它可以处理复杂的情况下，既不知道位置，也不知道方向。与现有的许多方法相比，我们的算法恢复的位置和方向的联合横观IM。图7.通过我们的方法在CVUSA数据集上对关节位置和方向估计结果进行可视化。在每个查询图像下呈现FoV和地面实况方位角每个空间图像下的角度是查询图像相对于该空间图像的估计的相对取向。绿色和红色边界表示正确和错误的检索结果，重新排序。年龄匹配我们的框架的关键组成部分包括一个极性变换，使不同的领域更接近和一个新的动态相似性匹配模块（DSM）回归相对方向。得益于这两个项目，我们的网络是能够提取适当的空中特征，如果地面图像是迷失方向，并具有有限的FoV。在跨视角图像匹配中，我们获得了更高的位置召回率，在众多的实际场景中显著提高了最先进的水平。6. 致谢这项研究得到了澳大利亚研究委员会（ARC）机器人视觉卓越中心（CE140100016）、ARC发现中心（DP 190102261）的部分支持。和ARC-LIEF（190100080），以及百度在自动驾驶方面的研究资助。第一作者是中国国家留学基金管理委员会（CSC）资助的澳大利亚国立大学博士生。我们非常感谢NVIDIA公司捐赠的GPU我们感谢所有匿名评论者和AC的建设性意见。4072引用[1] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. Netvlad：用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议论文集，第5297-5307页，2016年。3[2] Sudong Cai，Yulan Guo，Salman Khan，Jiwei Hu，andGongjian Wen.具有硬样本重加权三重丢失的地空图像地理定位。在IEEE计算机视觉国际会议（ICCV）上，2019年10月。二、三、六[3] Francesco Castaldo ， Amir Zamir ， Roland Angst ，Francesco Palmieri，and Silvio Savarese.语义交叉视图匹配。在IEEE计算机视觉研讨会国际会议论文集，第9-17页3[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[5] 胡思星，冯梦丹，让M. H. Nguyen和Gim Hee Lee。Cvm-net：用于基于图像的地对空地理定位的跨视图匹配网络。在 IEEE 计算机视觉和模式识别会议（CVPR），2018年6月。二、三、五、六、七、八[6] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[7] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。3[8] Karel Lenc和Andrea Vedaldi。通过测量它们的等方差和等价性来理解图像IEEE计算机视觉和模式识别会议论文集，第991-999页，2015年。4[9] 林宗义，Serge Belongie和James Hays。交叉视图图像地理定位。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第891-898页3[10] 刘柳和李红东将方向借给神经网络用于跨视图地理定位。在IEEE计算机视觉和模式识别会议（CVPR）中，2019年6月。二三五六七[11] Arsalan Mousavian和Jana Kosecka。基于语义图像的地图地理定位。arXiv预印本arXiv：1609.00278，2016年。3[12] Krishna Regmi和Mubarak Shah地空影像匹配之领域缺口之桥接在IEEE国际计算机视觉会议（ICCV）上，2019年10月。二、三、六[13] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015. 3[14] Yujiao Shi，Liu Liu，Xin Yu，and Hongdong Li.基于图像的跨视图地理空间感知特征聚合本地化神经信息处理系统的进展，第10090-10100页，2019年。3[15] Yujiao Shi ， Xin Yu ， Liu Liu ， Tong Zhang ， andHongdong Li.跨视图图像地理定位的最佳特征传输。arXiv预印本arXiv：1907.05021，2019。二、三、五、六、七、八[16] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 CoRR ， abs/1409.1556 ，2014。4[17] 孙斌，陈晨，朱莹莹，姜建民。Geo- capsnet：基于胶囊网络的航空对地观测图像地理定位。arXiv预印本arXiv：1904.06281，2019。三、六[18] Nam N Vo和James Hays。使用头顶影像定位和定向街景。欧洲计算机视觉会议，第494-509页。施普林格，2016年。二三五六[19] 斯科特·沃克曼和内森·雅各布斯卷积神经网络特征的位置依赖性。在IEEE计算机视觉和模式识别研讨会会议论文集，第70-78页，2015年3[20] 斯科特·沃克曼，理查德·苏文尼尔，内森·雅各布斯。利用航空参考图像进行广域图像地理定位。在IEEE计算机视觉国际会议集，第3961-3969页，2015年。三、六[21] Menghua Zhai ， Zachary Bessinger ， Scott Workman ，and Nathan Jacobs.从航空影像预测地面场景布局。在IEEE计算机视觉和模式识别会议上，第3卷，2017年。三五六[22] Bolei Zhou，Agata Lapedriza，Jianxiong Xiao，AntonioTorralba，and Aude Oliva.使用地点数据库学习用于场景识别的深度特征。神经信息处理系统的进展，第487-495页，2014年。3

下载后可阅读完整内容，剩余1页未读，立即下载