跨视图地理定位的有限FOV图像序列的端到端训练方法

82 浏览量更新于2023-10-16 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2914跨视图图像序列地理定位张晓涵1，Waqas Sultani2，Safwan Wshah11美国佛蒙特大学计算机科学系2巴基斯坦信息技术大学智能机器实验室{Xiaohan.Zhang，Safwan.Wshah}@ uvm.eduwaqas. itu.edu.pk摘要跨视图地理定位旨在通过将查询地面视图图像与来自地理标记的航空图像的参考数据库的图像进行匹配来估计查询地面视图图像的GPS为了解决这个具有挑战性的问题，最近的方法使用全景地面视图图像来增加可见度的范围。尽管有吸引力，但与有限视场（FOV）图像的视频相比，全景图像并不容易获得。在本文中，我们提出了第一个跨视图的地理定位方法，有限的FOV图像的序列上工作。我们的模型是端到端训练的，使用基于注意力的时间特征聚集模块来捕获帧内的时间结构。为了鲁棒地处理不同的序列长度和GPS噪声在推理过程中，我们建议使用一个连续的辍学计划来模拟变长序列。为了在现实环境中评估所提出的方法，我们提出了一个新的大规模数据集，包含与相应的鸟瞰图像的地面视图序列。大量的实验和比较表明，所提出的方法相比，几个有竞争力的基线的优越性1. 介绍跨视图图像地理定位旨在确定地理标记的航空图像（也称为参考图像）数据库中拍摄图像（也称为查询图像）的地理空间位置[39，29，18，42]。从图像中估计地理空间位置具有许多重要的应用，例如自动驾驶[28]，机器人导航[4，17]，增强现实（AR）[9]和无人机（UAV）导航[28]。尽管在这个问题上已经做了大量的研究工作，但图像地理定位仍然远远没有得到解决，并且被认为是最困难的问题之一图1：Mapillary [2]在美国旧金山，用户上传的街景图像的覆盖区域（绿线）在Mapillary（左）和有限FOV图像（右）在计算机视觉领域的任务，由于：1）查询图像和参考图像之间的显著外观差异，2）捕获查询图像和参考图像之间的时间间隙导致不同的照明条件、天气和物体，以及3）捕获地面和空中图像的分辨率差异。最近的跨视图图像地理定位研究已经在大规模数据集上取得了巨大进展[39，20，42]，但它们严重依赖于全景查询图像[39，16，29，25，31，6，20，41，42，38]。即使全景图像提供比普通有限视场（FOV）图像更丰富的上下文信息。实际上，有限FOV图像更常见并且更容易从智能电话、仪表盘摄像机和数码单镜头反光（DSLR）相机捕获。图图1显示了Mapillary [2]上用户上传的美国旧金山街景图像在Mapillary上的覆盖面积与有限FOV图像之间的比较此外，即使是谷歌街景（GSV）这样的地图平台，也只为中国、卡塔尔和巴基斯坦等几个国家的一些历史或旅游景点然而，如Mapillary [2]所示，在大多数地区的190个国家/地区都可以获得有限的FOV街景图像。显然，有限FOV图像比全景图像更受欢迎2915图像.这适用于所有其他国家，尤其是在发展中国家，在大多数情况下，全景图像是不可用的。由于自动驾驶车辆和高级驾驶辅助系统（ADAS）的最新发展，可以从当前车辆中的仪表盘摄像头轻松访问正面街景视频。代替使用不受欢迎的全景图像[30，34，29]，扩展跨视图地理定位算法以在图像序列上工作在现实世界场景中更实用且更可接受。另一方面，当前的跨视图地理定位方法[30，34，29，16，31，42，36]主要处理用于地理定位的单个图像，并且不能直接用于捕获位于FOV帧序列内的时间结构。因此，将跨视角地理定位方法扩展到有限FOV图像序列上称为跨视角图像序列地理定位是一种自然的扩展。本文提出了一种新的跨视图地理定位方法，该方法适用于有限FOV图像序列我们的模型经过端到端的训练，以捕获图像中的时间特征表示，以实现更好的地理定位。虽然我们的模型是训练固定长度的时间序列，它解决了挑战的可变长度序列在推理阶段通过一个新的顺序丢弃计划。据我们所知，我们是第一个提出端到端的跨视图地理定位的图像序列我们将此任务称为交叉视图图像序列地理定位。此外，为了便于将来的跨视图地理定位序列的研究综上所述，我们的主要贡献如下：1) 我们提出了一种新的端到端的方法，跨视图图像序列地理定位，地理定位有限的FOV地面图像及其相应的航空图像的查询序列。2) 我们介绍了第一个大规模的跨视图图像序列地理定位数据集。3) 我们提出了一种新的时间特征聚合技术，该技术从有限FOV图像序列中学习端到端的特征表示，用于序列地理定位。4) 我们提出了一种新的序列丢失方法来预测不同长度的序列上的相干特征。所提出的dropout方法有助于正则化我们的模型，并获得更鲁棒的结果。2. 相关工作跨视图图像地理定位：在深度学习时代之前，跨视图图像地理定位方法是基于手工制作的特征[18，8]，如HoG [10]，GIST [23]，自相似性[27]和颜色。tograms。由于特征的质量，传统方法在匹配精度上很吃力。由于深度学习在许多计算机视觉应用中的复兴，已经提出了几种基于深度学习的地理定位方法[39，19，36]，以从微调的CNN模型中提取特征，以提高跨视图地理定位的准确性。最近，Huet al.[16]提出通过NetVLAD [3]层聚合功能，实现了显着的性能改进。 Shi等人[31]提出了一种用于从鸟瞰图和街景图中对齐特征的特征传输模块。Liu等[20]探索将方向信息融合到模型中以提高性能。随着生成对抗网络（GANs）的发展[14]，Regmiet al. [25]提出了一种基于特征融合训练策略的GAN跨视角图像地理定位方法。Zhu等[42]最近提出了一种新的方法（VIGOR），其不需要地面图像和空中图像之间的一一对应。还值得一提的是，基于地面全景的一些方法[29，30，34]采用极坐标变换，其通过先验几何知识桥接参考图像和查询图像之间的域间隙。通过杠杆老化这种先前的几何性质，Shi等人。[29]提出了空间感知特征聚合（SAFA），其大幅改善了CVUSA [39]和CVACT [20]的结果。[25]如：[34][29]与一个GAN相结合。他们提出的方法在CVUSA [39]和CVACT [20]上取得了最先进的结果。然而，为了执行极坐标变换，假设查询图像在其参考航拍图像的中心处对齐，这在现实世界场景中并不总是得到保证。上述方法依赖于全景地面图像。相比之下，我们的方法使用更容易获得的有限FOV图像。我们注意到，一些以前的作品[30，36，33]研究了使用单个有限FOV图像作为查询的跨视图图像地理定位问题。Tian等人[33]提出了一种基于图形的方法，该方法将地面图像和空中图像中检测到的建筑物进行匹配。这种方法只适用于建筑物密集的大都市地区。由Vo等人提出的DBL [36]专注于对图像中的场景进行地理定位，而不是相机的位置。Shi等人提出的动态相似性匹配。[30]需要极坐标变换的航空图像作为输入。与这些方法相比，我们假设既没有对齐的地面图像，也没有我们的方法只适用于大都市地区。此外，而不是地理定位一个单一的有限的FOV图像，我们的方法地理定位一系列有限的FOV图像。最近，Regmi和Shah [26]提出通过使用地理时间特征学习网络和轨迹平滑来在相同视图设置中地理定位视频序列。2916×ing网络。另一方面，在本文中，我们合并航空图像和地面视频序列，以解决跨视图图像序列的地理定位问题当前的跨视图地理定位方法可以通过如[17]中所提出的逐帧应用它们来平凡地用于序列跨视图地理定位。然而，我们提出了一个端到端的方法，自动处理整个序列的图像和相关的功能与相应的航拍图像，通过建立一个更好的功能表示在时间和空间域。我们将我们的结果与文献中最好的模型进行了比较，这些模型可以应用于我们的数据集，如实验部分所讨论的Transformer/多头注意事项：最近，Vaswani et al. [35]提出了Transformer模块，并证明了它在捕捉时间序列数据中的时间相关性方面的能力。使用Transformer，一些作品[21，5，12]在自然语言处理任务中取得了显着的成果。在计算机视觉中，变换器已用于图像分类[13]，视频分割[37]，对象检测[7]和相同视图视频地理定位[26]。在本文中，我们结合Transformer与跨视图图像序列地理定位，以有效地利用从序列数据的全范围的可见性。我们的实验表明，Transformer可以学习从一系列图像中融合和总结几个特征，并预测鲁棒的结果。3. 数据集3.1. 以前的数据集已经提出了许多数据集用于横视图图像地理定位[39，20，42，36]。 Vo等人[36]提出了一个由100多万对卫星-地面图像组成的大规模交叉视图地理定位数据集。作者收集了来自谷歌地图的航空图像和来自谷歌街景的11个不同美国城市的相应地面图像。Workman等人[39]提出了一个跨视图美国（CVUSA）数据集，包含超过100万个地面图像在整个美国。后来，翟等。[40]通过对44，416幅航空-地面图像进行配对，改进了CVUSA数据集，这已成为该领域最受欢迎的数据集之一。在本文中，我们将此改进版本称为CVUSA。CVACT [20] 遵循与 CVUSA 相同的结构，具有与CVUSA相同的训练样本数量，但测试对多出10倍。最近，Zhuet al. [42]提出VIGOR数据集是从美国四个主要城市随机收集的第一个非一一对应的交叉视图图像地理定位数据集。为了具有用于其中查询和参考图像对不保证总是一致的实际场景的系统。在一张航空影像中，VIGOR完美地对齐，定义了“正”和“半正”的地面影像。注意，当前的交叉视图地理定位数据集不能容易地转换为顺序数据集。据我们所知，不存在提供用于跨视图图像地理定位的连续地面图像及其对应的3.2. 拟议数据集由于现有的跨视图地理定位数据集[36，39，20，42]仅包含离散的地面图像，因此我们收集了一个新的跨视图图像序列地理定位数据集，该数据集包含有限的FOV图像，这些图像更适用于现实世界的系统。表1展示了我们提出的数据集与现有的交叉视图图像地理定位数据集的比较首先，我们解释了我们所遵循的程序来收集地面图像，然后描述了捕捉航空图像的过程。3.2.1地面图像我们的数据是使用Fugro自动道路分析仪（ARAN）1收集的，该分析仪是一种道路数据捕获车辆，能够收集不同的数据模式，如图像、激光雷达和路面激光。ARAN还配备了GPS和惯性测量单元（IMU）传感器，用于提供精确的GPS位置和相机姿态。原始数据集包含超过5000公里的城市和郊区道路，以及美国佛蒙特州双向高速公路。在我们的数据集中，我们只使用了分辨率为1920 - 1080的正面摄像机图像。每个捕获点之间的距离约为8米，摄像机的FOV约为120米。还为每个地面图像提供了GPS位置和摄像机航向（罗盘方向）。为了表示更多的真实场景，我们的数据集包含大约70%的来自郊区的图像和30%的来自城市地区的图像，这些图像可能是从单向或双向驾驶方向收集的。所收集的双向驾驶方向数据的比率为约30%，其中从两个驾驶方向（例如，北到南和南到北）捕获相同的街道图像地面图像的总数为118，549，导致38，863个天线对，如以下部分所述。我们的数据集覆盖了佛蒙特州约500公里的更多信息请参阅补充材料。3.2.2层序形成在获得第3.2.1节所述的原始地面数据后，应将长序列的原始数据1https://www.fugro.com/our-services/asset-完整性/道路工具/设备和软件2917无缝采样序列地面影像取向地面GPS定位城市否是是否是是否相同任意相同任意表1：我们提出的数据集和其他现有的跨视图图像地理定位数据集之间的比较被分割成几个小序列以用于跨视图地理定位。采用了一种简单而有效的贪心算法给定原始地面图像序列数据S = s0，s1，.，其中N是将被分割成序列分割的地面图像的数量。不需要在每个分割中保持相同数量的图像，因为在现实世界场景中，序列中的图像数量可以由于不同的硬件或软件配置而变化。然而，为了执行检索任务，要求任何结果序列的图像必须位于一个单个航空图像内。我们的算法迭代S中的每个图像，将第一个图像表示为s0。然后计算s0和st之间的距离如果距离小于预设的阈值t，则我们步进到下一个图像st+1。否则，[s0，st]是分段序列。然后将s0和st中间的图像设置为下一段的起始点该过程在图1中可视化二、以相同颜色显示的圆按一个顺序分段如果一个圆有多种颜色，则该圆以两个或更多个部分共存我们根据经验选择∆ =50m，以确保任何序列中的图像都落在缩放级别为20的一个航拍图像内。为了使训练过程一致和简单，这将在后面讨论，我们删除了72个包含少于7个图像的序列最终得到38，863个序列，平均每个片段7该序列形成策略保证所形成的序列被单个航空图像覆盖，并且不需要知道原始数据的长度注意，我们的方法在训练期间需要七个帧但是，我们在测试时没有这样的限制在现实世界的场景中，每帧之间的距离可能会有所不同，人们可以简单地使用IMU传感器或视觉里程计[22]等技术来估计帧之间的距离3.2.3航拍图像Google Maps Static API [1]用于获取每个序列的航拍图像。假设单个序列中的地面图像在平面上，我们可以确定图像的几何中心（算术平均位置）图2：地面图像采样策略演示。在该示例中，基于地面图像的位置（彩色圆圈）捕获三个空中图像（黄色、粉色和蓝色框）这些框内的每个圆圈都属于该航拍图像。如果一个圆有多种颜色，则它属于多个序列。图3：来自我们数据集的序列样本。空中图像位于中心，地面图像位于边缘。每个橙色点表示蓝色箭头所指示的一个地面图像的位置。每个点的灰色箭头表示相机的航向方向。对于给定序列的空间图像。以这种方式，航拍图像可以覆盖整个序列。最多5米的随机偏移被应用到每个航空图像以模拟现实世界的场景。这导致地面序列和航空图像之间的一一对应。收集的航空图像总数为38，863张。关注-数据集比较沃[36]CVACT [20][39]第三十九话VIGOR [42]我们航拍图像>1M一百二十八，三百三十四44,41690,61838,863地面图像>1M一百二十八，三百三十四四十四、四一六一百零五、二百一十四一一八，五百四十九2918×∈我∈P∈∈∈我我我i，x使用VIGOR [42]，每个空间图像以20的缩放级别捕获，分辨率为640 640。地面分辨率约为0。图114m显示了我们数据集中的一对地面-航空图像样本。3.第三章。4. 提出方法4.1. 概述给定一系列有限的FOV地面图像，我们的目标是从参考数据库中获取该序列的航拍图像。为了实现这一目标，我们认为地理定位是一个检索任务类似于许多其他以前的作品[29，42，16，36，19，类似于原始的Transformer [35]，在多头自注意层之前，将正弦位置编码E posRT× D添加到所提取的特征嵌入F '，以保留等式1中所示的时间信息的顺序。F′=F′+Epo s.（一）通过将特征嵌入馈送到多头自注意层，每个嵌入向量被投影到三个子空间中，如Q i=FWQ，Ki=FWK ，Vi=FWV，分别表示查询、键、值，并且i是我们将在后面描述的头的索引。注意QD×DKD×DV20、34]。具体地说，我们表示从一个其中Wi∈RD×DN头，Wi∈RN头，且Wi∈地理标记的航空影像为F坐并提取聚合RN头是三个投影矩阵，N头是从地面图像序列的功能作为Fgrd。通过评估Fsat和Fgrd之间的距离，我们可以从航空图像数据库中找到最相似的航空图像。为了从地面图像序列中提取特征，我们引入了一种端-端模型来提取序列时空特征。我们使用VGG16 [32]从每个图像中提取空间特征，然后将这些特征传递给一个新的时间特征聚合模块（TFAM）以捕获时间信息。然后将时空特征聚合成单个特征以供检索。此外，为了推广亲，头的数量。注意力机制可以写为：Qi KThead i=softmax（softD）V i.（二）为了充分探索时间域中的上下文信息，我们使用类似于[35]的方法，并连接多个头部的值，并使用投影矩阵WO∈RNheadD×D将它们投影到输出空间，针对不同的序列长度，提出了一种序列丢弃（SD）方案图4提供F聚合= Concat（头1，头2，...，头N头）W O.（三）拟议办法概述。在接下来的部分中，我们将更详细地描述TFAM，然后在第4.3节中介绍顺序丢弃（SD）方案。最后，在第4.4节中，我们描述了培训目标。4.2. 时间特征聚合模块为了探索序列图像的益处，我们在跨视图序列地理定位中引入TFAM。TFAM的灵感来自于变压器[35]在许多计算机视觉问题中的成功[13，37，26]。多头自注意机制是使transformers能够捕获任意距离处的顺序数据元素之间的相关性的关键部件。类似与Transformer [35]不同，TFAM还采用多头自注意机制从图像序列中捕获上下文信息。考虑一个图像序列为RT×W ×H ×C，其中T，W，H，C分别是序列中的图像数量图像宽度，图像高度和图像通道。我们选择VGG16主干来提取序列中每个图像的嵌入特征，以便与基线方法进行公平的比较[29，42]。通过将每幅图像的特征沿时间轴连接起来得到一个特征向量F′RT× D，其中D是主干特征提取器输出的维数。通过堆叠N个TFAM模块，我们的模型可以提取更精细的特征表示。最后，来自最后一个TFAM的特征，F聚合RT×D具有与嵌入向量F相同的输入形状。然后使用时间轴上的平均池化层对所得特征进行平均，以获得用于检索任务的一维向量，如下所示：F grds=平均池（F合计）。（四）4.3. 自适应序列长度在前一节中介绍的TFAM在具有固定长度T的序列上工作良好。然而，在真实世界设置中的推理期间，由于不同的硬件或软件配置（例如，不同的采样和捕获速率、信号损失等）。为了使TFAM适应不同的序列长度，我们提出了一个连续的辍学（SD）计划，通过修改TFAM算法。在训练期间，生成随机二进制掩码ART并将其馈送到模型中的每个TFAM对于Ax处的每个索引x，如果Ax=0，则意味着Fx中inde xx处的特征是省略否则，TFAM在此功能上正常工作通过将Ki，x设置为索引x处的零向量，索引x的头部i处的关注值表示为2919图4：我们提出的方法的概述，其中包含两个主要部分。地面要素提取分支（构件为深蓝色）和空中要素提取分支（构件为橙色）。地面特征提取分支将图像序列作为输入。航空特征提取以航空图像作为输入。也变成了零矢量。换句话说，所有的查询值都不会与这个fea的键值交互。xx. 因此，嵌入向量Fx在前向传播和后向传播期间，所有其他矢量忽略F的第i_e_x_x为了生成随机掩码A，我们设置丢失特征的最大数量J，其中J T。在每个训练小批次中，我们均匀地采样[0，J]之间的整数e以表示该批次中丢弃的特征的数量为了控制训练期间的丢失率，我们将所有A值初始化为1，并将A中的e个元素随机设置为0。平均池化层（在第4.2节中提到）仅对掩码值为1的聚合特征F的时间维度的索引进行操作。请注意，为了充分利用时间信息，我们的方法在训练期间确实需要固定长度的序列，但是，它在测试期间使用SD来处理可变长度的序列在我们的实验中，我们发现，这种策略不仅有助于TFAM产生一个连贯的表示，但也regularized模型，并取得了更高的性能。4.4. 培养目标在提取空中特征F sat和地面特征F ′之后，使用如4.2中所述的所提出的TFAM进一步细化F ′，并且获得聚合的地面特征F grd。最后，我们部署了一个度量学习目标，使用加权软余量三重损失来训练模型[16]，L=log（1 +eγ（dpos-dneg）），（5）其中γ是控制损失值的尺度的超参数。dneg和dpos是不匹配和匹配的空中-地面对的L2在计算距离之前，我们对Fsat和Fgrd进行L2这个损失函数的目标是将匹配的对推得更近，同时将不匹配的对推得更远。5. 实验实现细节数据集：所提出的方法在PyTorch中实现[24]2。我们使用在ImageNet [11]上预训练的VGG16 [32]作为特征提取器的主干。最后两个完全连接的层被移除用于提取特征。在我们的模型中，我们堆叠了6个TFAM，每个TFAM具有8个头部。我们采用了我们提出的SD方案，在训练期间具有最大数量的丢弃特征J=6。在测试期间，可以通过将A中的对应位置处的值设置为0来丢弃帧。由于我们提出的方法利用序列图像进行训练，我们无法在现有的跨视图地理定位数据集上评估我们的方法相反，我们选择在第3节中描述的数据集上对我们提出的方法进行基准测试。数据集被分成训练集和测试集，分别有31091和7772训练和测试数据集在地理上是分开的，这两个数据集之间没有重叠区域除非另有说明，否则这些设置适用于本节中的所有实验基线研究方法：我们比较我们方法2代码可在https://gitlab.com/vail-uvm/seqgeo2920†R@1R@5R@10R@1%VIGOR [42]0.54%2.52%4.48%18.55%[29]第二十九话0.68%2.92%5.06%21.81%SAFA [29]0.63%2.83%5.03%21.51%我们的，不含SD百分之一点三九6.50%百分之十点四五32.42%我们的w/SD百分之一点八6.45%百分之十点三六34.38%表2：我们的方法与SD和无SD，SAFA和VIGOR方法之间的比较。表示在单中心地面图像上测试作为查询。[29]我们选择 SAFA [29] ，因为它在 CVUSA [39]和CVACT [20]数据集上都取得了非常有竞争力的结果。VIGOR [42]还在一对多检索方法中在他们提出的数据集上取得了出色的性能为了在我们的数据集上采用SAFA [29] ，我们在中心地面图像上训练了 SAFA[29]，其对应的航空图像在我们提出的数据集上具有在其原始论文中报告的配置。因此，为了使比较公平，我们使用CVUSA数据集上的预训练权重初始化SAFA值得注意的是，我们在SAFA [29]中没有应用极性变换来与其他方法进行公平的比较。为了训练VIGOR，我们将中心地面图像设置为“正”样本，而其他的则是“半正”样本，如他们在原始论文中所定义的为了使SAFA和VIGOR能够处理图像序列，我们分别馈送序列中的每个地面图像，并对所有图像的最终特征向量进行平均。评估指标：类似于以前的作品[29，16，20，42]，我们使用top-K（R@K）的召回率来评估性能。给定查询序列，如果地面实况航空图像在前K个最相似的航空图像中排名，则其被认为是5.1. 定量比较我们的主要结果报告在表2中。SAFA（中心）表示SAFA模型仅在中心地面图像上进行了测试。SAFA（序列）是指在对特征进行平均后，在整个地面图像序列上对SAFA模型进行测试。我们还提供了我们的方法没有SD的结果。可以看出，我们的方法比基线方法有很大的优势。我们还观察到，我们的方法在前1%和前1%的召回率中使用SD表现得更好。在前5名和前10名的回忆中，没有SD的模型略好于有SD的模型，但如图1中的回忆与前K图所示，这是一个微小的差距。5.两个随机选择的空中-地面序列对，通过我们的模型训练预测，从我们的测试集SD可视化在图中。6.在图的顶部两行中。6，地面实况图像被成功地预测为最相似的图像。值得图5：我们的方法与基线方法的召回率。结果表明，使用SD和不使用SD训练的两种方法都优于基线方法。图6：两个随机选择的检索结果。顶行以降序方式示出了前5个检索到的航空图像。最下面一行是查询序列。带有蓝色边框的航拍图像是地面实况。注意，第二、第三和第四空间图像与顶部1图像共享它们的大部分外观。在图的底部两行。6，虽然我们的模型一开始就不能预测地面实况，但我们可以看到，在视觉上，top-1预测与地面实况非常相似。5.2. 消融研究为了评估我们提出的模型的有效性，我们进行了消融实验。我们研究了TFAM 模块的有效性、SD和TFAM模块中的股骨头数量，如表3和表4所示。我们观察到，具有6个TFAM的模型，每个多头自注意层具有8个头，并且最多随机丢弃6个图像，在所有配置中取得了最好的结果此外，我们在表5中评估了我们的模型在不同主链下的性能。做一个-2921表3：股骨头和TFAM数量的消融研究。 J固定为6。（a）召回@1（b）召回@5表4：最大屏蔽帧数的消融研究J。该模型固定在6个TFAM上，具有8个头。骨干R@1 R@5 R@10 R@1%VGG 16 [32]1.80% 6.54% 10.36% 34.38%ResNet18 [15]1.58% 5.98% 10.14%ResNet34 [15]1.71% 7.01% 11.67%ResNet50 [15]2.07% 8.12% 13.16% 40.10%表5：所提出的模型的不同主干之间的比较。因此，我们使用ResNet50 [15]的模型可以在R@1%上实现40%。但是为了与基线方法进行公平的比较，我们仍然使用VGG16 [32]作为主干。5.3. 变体序列标签在现实世界的场景中，地面序列可能具有不同数量的图像。考虑到我们的模型已经用SD方案进行了训练，在这个实验中，我们通过修改SD掩码A的值来改变推断时间序列中的地面图像的数量。我们比较了我们的模型和没有SD。为了模拟最糟糕的可能的真实世界场景，我们开始丢弃前6个图像，并且仅留下序列中的最后1个图像，因为最后一个图像与航拍图像具有最小的然后，我们通过分别丢弃前4张图像和前2张图像进行测试。结果表明，该方法是可行的。7表明，在大多数情况下，我们的模型与SD优于没有它训练的模型，这证明SD提高了模型的性能和可变长度序列上的特征一致性。长度在测试阶段，对于使用（红色）SD和不使用（黑色）SD训练的两个模型，使用SD进行模拟结果表明，尽管使用固定长度的序列进行训练，但与没有SD的训练相比，所提出的SD使我们的方法能够预测连贯的特征表示。值得注意的是，即使地面序列在测试期间只有一个图像，我们用SD训练的模型也显著优于SAFA [29]，SAFA [29]是用中心图像作为查询训练的（表2），如图7所示。6. 结论、局限性和未来工作在本文中，我们提出了第一个跨视图的地理定位方法，有限的FOV图像序列上操作。为了聚合时间特征，我们提出了TFAM模块，该模块利用多头自注意机制来融合来自图像序列的信息虽然我们在训练阶段使用了固定长度的序列，但我们使用我们提出的顺序丢弃方法模拟了可变长度的序列，该方法使我们的模型规则化以具有连贯的特征表示。这也有助于我们的模型在测试阶段处理不同长度的地面序列。我们为视觉社区贡献了一个新的大规模跨视图序列地理定位数据集。我们广泛的实验证明了所提出的方法的不同组成部分的有效性，对可变长度输入序列的鲁棒性，以及对几种竞争性跨视图地理定位方法的最新结果。我们提出的方法的一个局限性是地面图像序列的最大长度受到航空图像大小的限制。探索冰毒- 能够地理定位跨越多个航空图像的长序列的ODS是一个未来的研究方向。不HR@1 R@5R@10R@1%000.91% 4.49%7.98%26.69%221.45% 6.22%百分之十点零二31.84%421.40% 6.34%百分之十点三一32.97%R@1 R@5R@10 R@1%J= 11.40% 6.08%9.45% 31.89%J= 31.51% 6.64%10.57% 34.34%(c)召回@10(d)召回@1%J= 5J= 61.63% 6.41%1.80% 6.45%10.49% 34.40%10.36% 34.38%图7：变体序列2922引用[1] 谷歌映射静态API。https：//developers.google.com/maps/documentation/maps-static/overview.[2] 马皮拉里https://www.mapillary.com/app网站。[3] ReljaArandjelovic´ ， PetrGronat ， AkihikoTorii ，TomasPa-jdla，and Josef Sivic.Netvlad：用于弱监督位置识别的CNN架构。IEEE Transactions on Pattern Analysisand Machine Intelligence，40（6）：1437[4] Joydeep Biswas和Manuela Veloso基于深度相机的室内移动机器人定位与导航。在RSS的RGB-D研讨会上，2011年，2011年。[5] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， Jack Clark ，Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。In H. Larochelle，M.兰扎托河哈德塞尔M.F. Balcan 和 H. Lin ， editors ， Advances in NeuralInformation Processing Systems ， Volume 33 ， pages1877-1901. Curran Associates，Inc. 2020年。[6] Sudong Cai，Yulan Guo，Salman Khan，Jiwei Hu，andGongjian Wen.具有硬样本重加权三重丢失的地空图像地理定位。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在Andrea Vedaldi ， Horst Bischof ， Thomas Brox 和 Jan-Michael Frahm编辑，计算机视觉施普林格国际出版社.[8] Francesco Castaldo ， Amir Zamir ， Roland Angst ，Francesco Palmieri，and Silvio Savarese.语义交叉视图匹配。在IEEE国际计算机视觉会议（ICCV）研讨会上，2015年12月。[9] 放大图片作者：Han Pang Chiu，Varun Murali，RyanVillamil ， G. Drew Kessler ， Supun Samarasekera ，Rakesh Kumar.使用语义地理配准的增强现实驾驶。在2018年IEEE虚拟现实和3D用户界面（VR）会议上，第423-430页[10] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在2005年IEEE计算机社会计算机视觉和模式识别会议（CVPRIEEE，2005年。[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[12] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。InProceedings of the2923----2019年计算语言学协会北美分会会议：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼苏达州明尼阿波利斯，2019年6月。计算语言学协会。[13] AlexeyDosovitskiy 、 LucasBeyer 、 AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在学习代表国际会议上，2021年。[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。[16] Sixing Hu ， Mengdan Feng ， Rang MH Nguyen ， andGim Hee Lee.CVM-net：用于基于图像的地对空地理定位的跨视图匹配网络。在IEEE计算机视觉和模式识别会议论文集，第7258-7267页[17] Dong-Ki Kim和Matthew R.Walter. 通过学习嵌入的卫星在2017年IEEE国际机器人与自动化会议（ICRA）上，第2073-2080页[18] 林宗义，Serge Belongie和James Hays。交叉视图图像地理定位。在 IEEE 计算机视觉和模式识别会议（CVPR）的会议记录中，2013年6月。[19] Tsung-Yi Lin ， Yin Cui ， Serge Belongie ， and JamesHays.学习地对空地理定位的深度表示在IEEE计算机视觉和模式识别会议（CVPR）上，2015年6月。[20] 刘柳和李红东。将方向借给神经网络用于跨视图地理定位。在 IEEE/CVF 计算机视觉和模式识别会议（CVPR）上，2019年6月。[21] Yinhan Liu ，Myle Ott， Naman Goyal， Jingfei Du ，Mandar Joshi，Danqi Chen，Omer Levy，Mike Lewis，Luke Zettle-moyer，and Veselin Stoyanov. Ro bert a：一种稳健优化的bert预训练方法，2020年。[22] D a vidNis ter，Ol e gNarodits ky，andJamesBe r gen. 视觉里程计。2004年IEEE计算机协会计算机视觉和模式识别会议论文集，2004年。CVPR 2004。，第1卷，第I-I页。2004年11月[23] 奥德·奥利瓦和安东尼奥·托拉尔巴对场景的形状进行建模：空间包络的整体表示。International Journal ofVomputer Vision，42（3）：145-175，2001.[24] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga ， Alban Desmaison ， Andre

下载后可阅读完整内容，剩余1页未读，立即下载