弥合地面与航空图像匹配的领域差距

126 浏览量更新于2023-10-16 收藏 17.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Estimating the geo-location of an image has been tackledas an image-matching task, where the query image is com-pared against a database of reference images with knownlocations. Traditionally, the matching has been conductedbetween images taken from the same view, primarily street-view [14, 34, 43], which have a high degree of visual sim-ilarity in terms of scene contents. Since these ground levelreference images are typically concentrated around urbanareas with more human accessibility, the applicability of themethod is limited to those regions. With the availability ofaerial images from Google maps, Bing maps, etc. that coverfa’fg4700弥合地面到航空图像匹配的领域差距0Krishna Regmi和MubarakShah，中央佛罗里达大学计算机视觉研究中心0krishna.regmi7@gmail.com, shah@crcv.ucf.edu0摘要0跨视图（例如地面和航空）图像中的视觉实体由于每组图像所捕捉的视点差异而发生了显著的域变化。现有的最先进方法通过学习视图不变的图像描述符来解决这个问题。我们提出了一种利用条件GAN的生成能力来合成地面全景查询的航空表示，并利用它来减小两个视图之间的域差距的新方法。合成图像与参考（目标）图像来自相同的视图，有助于网络保留航空图像中的重要线索，遵循我们的联合特征学习方法。我们将合成航空图像的互补特征与原始地面全景特征融合，以获得强大的查询表示。此外，我们采用多尺度特征聚合，以保留解决这个复杂任务所需的不同尺度的图像表示。实验结果表明，我们提出的方法在具有挑战性的CVUSA数据集上的top-1和top-1%检索准确性方面明显优于最先进的方法。此外，我们还评估了所提方法在我们新收集的具有地理参考信息的城市景观上的泛化能力。01. 引言0合成航空图像（Ia'）+分割图（S g'）0地面全景图（I g）+边缘图0生成器0Ig0I a'0⊕0FC0fg*0f a* I a0特征匹配0权重共享0图1：地面全景查询及其边缘图是输入生成器（X-Fork[31]）网络，用于合成航空图像Ia'及其分割图（上图所示）。然后，我们联合学习图像三元组（Ig，I a'和I a）的特征表示。将I g的特征f g与I a'的特征fa'融合，然后进行全连接操作，以获得强大的查询表示fg*，并与航空特征表示f a*进行匹配（下图所示）。0地球表面密集，研究人员最近探索了跨视图图像匹配的可能性[18, 24,40]，其中查询地面图像与航空图像进行匹配。由于地面和航空图像之间的视点差异，这带来了额外的挑战，两个视图以不同的方式捕捉同一场景。这激发了我们探索将查询街景图像转换为航空视图的可能性，使得转换后的图像具有与其匹配的图像相似的场景表示。生成对抗网络（GANs）[12]在从随机采样的噪声向量[29]或条件变量（如文本[30,46]、图像[19,31]、标签[27]等）中合成逼真图像方面取得了最近的成功，这激发了我们将问题定义为视点转换后的特征匹配。此外，GANs已经被用于域转换问题，如[20,47]，以学习不同域表示之间的映射关系。[31, 32, 9,48]的最新跨视图合成工作取得了成功4710在将航空和街景图像之间进行转换方面存在一定的困难。在本文中，我们解决了以下问题：给定一个地面全景图像，检索匹配的航空图像。为了解决这个问题，我们采取了下一步，从地面全景图像中合成航空图像，并将其用于图像检索。跨视图图像合成问题的复杂性和挑战是众所周知的。因此，不能完全依赖合成的图像来替代查询的地面图像来解决匹配任务。因此，我们提出了一个框架，如图1所示，将合成图像作为辅助信息并将其纳入匹配流程，以弥合航空和地面视图之间的现有领域差距。我们试图学习与其相应的地面图像以及合成的航空图像相似的航空参考图像的表示。由于合成的航空图像是街景（地面）图像的转换表示，我们期望它们包含代表性的特征。通过以这种方式学习表示，合成的航空图像迫使网络最小化航空图像和街景图像特征表示之间的距离。此外，我们假设一些航空图像的特征通过考虑合成的航空图像而不是街景图像来学习会更好。因此，对这些图像三元组（地面，从地面合成的航空图像和相应的真实航空图像）进行联合训练将有助于航空流保留在跨视图训练中可能丢失的重要线索。我们将合成图像的学习互补特征表示与查询图像特征融合，以获得用于图像匹配任务的强大表示。深度神经网络的不同层提取的特征捕捉输入图像的不同语义信息级别。对于比标准分类问题更具挑战性的图像匹配任务，我们利用深度神经网络多个层次的特征的内在多尺度金字塔结构，并将它们聚合起来获得更好的图像表示。总之，本文的贡献如下。我们提出了一种利用使用GANs合成的航空图像提取互补特征进行跨视图图像匹配的新方法。我们将边缘图像与通常使用的语义分割一起用于输入图像，以提供关于对象形状和边界的线索，从而改善跨视图合成。合成的图像弥合了跨视图图像之间的领域差距。使用辅助损失对图像三元组进行联合训练有助于改善网络训练。所提出的特征融合策略展示了以下能力0GANs用于构建训练和互补特征学习。最后，我们展示了在不同分辨率的多个卷积层中聚合特征对于保持复杂的跨视图匹配任务所需的粗到细的潜在表示非常有帮助。我们广泛的实验证明，所提出的联合特征学习方法在CVUSA数据集[45]上优于现有方法，并且通过特征融合，我们在top-1和top-10检索准确性上获得了显著的改进。02. 相关工作02.1. 域转换和GANs0GANs在域转换任务中非常流行。在[19, 47, 20, 41,10]中报告的工作中，学习了两个域之间的图像映射；源域和目标域。Augmented CycleGAN [2]，StarGAN[7]探索了多对多的跨域映射。在[45, 31,11]中探索了跨视图关系，其中航空和地面视图的设置更具挑战性，图像中的对象之间几乎没有语义和视角重叠。最近，跨视图图像合成在这些对比域之间吸引了广泛的兴趣[31,32, 9,48]，这些工作在航空和地面裁剪（单摄像头）图像之间的图像转换方面取得了成功。Zhai等人[45]探索了从航空图像的语义地图预测地面全景图像的可能性。在这里，我们直接将地面全景图像转换为航空视图，并将其用于跨视图图像匹配任务。02.2. 多尺度特征聚合0深度神经网络的不同层次的特征本质上是同一图像的多尺度特征。大量文献已经探索了多尺度特征[17, 28, 33, 26,22]在关键点检测、人体姿态估计、语义分割等应用中的作用。FPN [25]、HyperNet [21]、ION[5]等利用多尺度特征进行目标检测。早期的Hypercolumns[13]是由多层特征创建的，用于目标分割和定位。在这项工作中，我们也聚合了多尺度特征，以高效地获得图像的稳健表示。02.3. 图像地理定位0图像地理定位在计算机视觉领域被视为图像匹配任务[3, 15,42]。早期的地理定位工作[43, 37, 34,44]在相同视图中匹配图像；将查询街景图像与参考街景图像使用手工特征进行比较。IgIa’GeneratorIafgfafa’Auxiliary Lossfgfaweight sharingIgIa’Iafgfafa’fg*fa*FCFC⊕Generatorweight sharing4720手工特征。Hays等人[14]提出了一种从单个图像估计地理位置分布的数据驱动方法。近期的一些工作[24, 35, 18, 39,38]使用手工特征和深度网络探索了交叉视图匹配。Bansal等人[4]探索了立面匹配。Tian等人[36]在斜视图中匹配建筑特征。[18]的最新工作利用NetVLAD[3]获得交叉视图对的视图不变描述符，并将其用于匹配。在这项工作中，我们利用合成的航拍图像作为更好地理解街景图像场景的补充信息，以解决交叉视图匹配任务，而不仅仅学习视图不变特征。03. 方法0我们提出了一种新方法，通过利用GAN合成的航拍图像来弥合街景图像和航拍图像之间的域差异。我们同时学习合成的航拍图像的表示和地面图像以及航拍图像的表示。此外，我们将地面图像的互补表示与其对应的合成航拍图像的表示融合在一起，以学习地面图像的稳健查询表示。此外，我们利用输入图像的边缘图为GAN提供物体形状和边界的概念，促进交叉视图图像合成。本节的其余部分组织如下。在下一小节中，我们简要描述了如何使用GAN进行交叉视图图像合成，接下来是联合特征学习，最后描述特征融合。03.1. 交叉视图图像合成0我们采用[31]中的X-Fork生成器架构来训练用于交叉视图图像合成的GAN。X-Fork是一种多任务学习架构，可以合成交叉视图图像和语义分割图。我们对X-Fork架构进行以下修改。由于我们的输入是全景图（矩形形状），瓶颈处的特征图也是矩形的（1×4）。我们将特征重新调整为正方形（2×2），然后应用多次上卷积操作生成512×512分辨率的航拍图像。接下来，我们利用输入图像的边缘图来描绘图像中的物体。我们使用Canny边缘检测[6]获取输入图像的边缘图。将边缘图与全景图一起堆叠在通道上，创建一个4通道的输入；3个通道用于RGB图像，1个通道用于边缘图。输出是航拍视图中的RGB图像和其分割图。我们在联合特征学习实验中利用合成的航拍图像。0损失0(a) 联合特征学习：该网络的输入是 I g 和 I a，输出是 f g 和 fa。通过在 f a ′ 和 f a 之间使用辅助损失，可以拉近特征 f g 和 f a的距离，减小训练两个流网络在 (I g，I a)对上的域差异。中间的分支（填充青色的虚线框）仅在训练过程中使用。0损失0（b）特征融合。该网络的输入是Ig和Ia，输出是fg�和fa�。fg和fa'被连接起来，并通过全连接层（FC）传递，以获得它们的融合表示fg�。类似地，fa被映射到fa�，这是一个更接近fg�的表示。0图2：我们提出的方法的架构。绿色和蓝色三角形分别是地面和航空图像的编码器，网络层定义在第4.2小节中解释。在训练期间，黄色阴影中显示的网络的参数被冻结。03.2.联合特征学习0我们提出了一种联合学习图像三元组的表示：查询地面全景图Ig，从地面全景图生成的航空图像Ia'和航空图像Ia，以便生成的航空图像表示fa'将图像表示fg和fa更接近。联合特征学习架构如图2a所示。编码器块显示为绿色（地面图像）和蓝色（航空图像）三角形。每个编码器都由深度卷积架构组成，如第4.2小节中所述。我们巧妙地利用了深度神经网络多个层次的特征的固有多尺度金字塔结构。我们考虑最后三个卷积层的特征，conv 6、conv 7和conv8层。这些特征被聚合并经过全连接层，以获得每个视图中图像的特征表示。航空图像和街景图像的编码器不共享权重。由于跨视图图像是捕捉到的4730从不同视角来看，视觉实体展示出剧烈的领域变化。这两个编码器在这些多样化的图像集上操作，因此可以理解为权重共享不是一个好选择。另一方面，Ia'和Ia的编码器共享权重，因为两个图像都代表航空领域。这样，航空编码器学习适用于合成图像Ia'和真实图像Ia的权重。因此，fa'有效地使特征fa更接近fg，并弥合了两个视图之间的领域差距。这是可能的，因为转换后的图像Ia'捕捉到了从Ig中学习比直接从Ig中学习更容易的表示。这种策略在训练时利用了合成图像，但在测试时不需要它们。Ia'和Ia之间的辅助损失影响航空图像编码器通过考虑合成航空图像来学习航空图像的表示。我们使用加权软边距排序损失[18]对这些图像三元组（Ig，Ia'和Ia）进行联合训练，下面将对此进行解释。03.2.1加权软边距三元组损失0考虑地面图像的特征嵌入fg，相应匹配的航空图像的特征fa-pos和一个非匹配的航空图像特征fa-neg。三元组损失[16]旨在将匹配特征fa-pos拉近到fg，同时将fa-neg推开。在这里，如果dp是正样本（fg，fa-pos）之间的欧氏距离，dn是负/非匹配样本（fg，fa-neg）之间的欧氏距离，我们试图最小化dp并最大化dn。三元组损失如下所示：0Ltriplet = max(0, m + dp - dn), (1)0其中，m是一个指定非匹配对之间最小距离的边距。为了避免明确决定三元组损失的边距的必要性，软边距三元组损失很受欢迎，并且可以表示为下面的方程式2：0Lsoft = ln(1 + e^d), (2)0其中d = dp -dn。在我们的工作中，我们使用加权软间隔三元组损失[18]，如方程3所示：0L weighted = ln(1 + eαd). (3)0我们使用α = 10，比α =1收敛更好。我们通过以下辅助损失来结合合成的航拍图像I'a和真实的航拍图像Ia：0使用方程4来计算真实航拍图像Ia和地面图像Ig之间的损失，进行联合特征学习：0L joint = λ1 L weighted (Ig, Ia) + λ2 L weighted (Ia',Ia). (4)0这里，λ1和λ2是(Ig, Ia)和(Ia',Ia)对的损失之间的平衡因子。03.3. 特征融合0在上述方法中，合成的航拍图像仅在训练过程中使用，用于弥合真实航拍图像和地面视图图像之间的领域差距；但在测试过程中被忽略。由于合成图像的特征包含了互补信息，有助于联合特征学习，我们尝试进一步利用它们。我们将地面图像特征fg与合成的航拍图像特征fa'融合，得到查询地面图像的鲁棒表示fg*。融合架构如图2b所示。我们使用训练好的联合特征学习网络作为特征提取器进行特征融合任务。我们首先将地面查询图像的特征与合成的航拍图像的特征进行拼接。拼接后的特征需要经过上游的全连接层进行精炼，以获得查询图像的广义表示fg*。我们通过在下游添加一个全连接层来优化下游特征fa与上游全连接层的精炼特征。因此，我们在下游添加一个全连接层，学习航拍图像的广义表示fa*。在测试过程中，将查询图像Ig的融合特征表示fg*与航拍图像的表示fa*进行比较，进行图像匹配。04. 实验设置0本节介绍我们使用的数据集以及我们在工作中遵循的实验设置。04.1. 数据集0我们在CVUSA数据集[45]上进行实验，以与现有方法进行比较。我们还从奥兰多和匹兹堡的城市地区收集了一个新的数据集OP数据集，并附带地理信息。另一个基准数据集GT-Crossview[38]不包含地面全景图像，因此无法合成有意义的航拍图像。此外，GT-Crossview数据集在训练集中包含对齐的图像对，而在测试集中包含未对齐的图像对且没有方向信息，因此测试情况下合成的航拍图像将与参考数据库中的航拍图像随机定向，因此无法在我们的框架中使用该数据集。4740地面查询合成的航拍图像的前五个匹配结果（从左到右）0图3：CVUSA数据集[45]上的图像检索示例。对于每个查询地面全景图像，显示了合成的航拍图像，然后是由提出的特征融合方法检索到的五个最接近的航拍图像。正确匹配（真实值）的航拍图像显示在绿色框中。第5行和第6行显示了地面真实航拍图像在第二和第四位置被检索到的示例。0CVUSA:CVUSA是一个用于跨视图图像匹配的基准数据集，包括35,532对卫星图像和地面全景图像用于训练，以及8,884对用于测试。航拍图像的分辨率为750×750，地面全景图像的分辨率为224×1232。该数据集的示例图像如图3所示。0奥兰多-匹兹堡（OP）数据集：我们从美国的两个城市奥兰多和匹兹堡收集了带有地理位置的图像对。我们称之为奥兰多-匹兹堡（OP）数据集。该数据集覆盖了这两个城市的城区，与CVUSA数据集中的农村地区完全不同。图6显示了该数据集的一些示例图像。该数据集包含1910个训练对和722个测试对的航拍和全景图像。航拍图像的分辨率为640×640，全景图像的分辨率为416×832。收集此数据集的主要动机是评估所提出方法在城市环境中的泛化能力，并以距离（米）计算匹配准确性；以及公开没有这样的数据集。尽管规模较小，但该数据集对未来在这个方向上的研究应该是有用的。04.2. 实现细节0我们在本节中介绍了我们的跨视图合成网络和所提出的图像匹配网络的实现细节。0跨视图合成网络：跨视图合成网络的生成器，如图1和图2中的Generator所示，具有一个编码器和两个解码器，类似于[31]中的X-Fork架构。编码器的输入是一个4通道图像，包括3个RGB通道和一个边缘图像，堆叠在一起。解码器生成给定输入的跨视图图像及其分割图。网络由卷积、批量归一化和LeakyReLU层的块组成。使用大小为4×4的卷积核和步长为2的卷积进行特征图的下采样，使用上卷积操作进行特征图的上采样。我们在瓶颈处调整特征形状并通过解码器传递。解码器的前六个块共享权重，而最后两个块不共享。判别器网络的架构与[31]中使用的相似。我们使用Torch[8]实现的GAN进行端到端的训练。4750权重使用均值为零，标准差为0.02的随机高斯分布进行初始化。0联合特征学习网络：图2a中联合特征学习网络的每个流（编码器）由七个卷积层组成，每个卷积层后面跟着ReLU激活函数。在最后三个ReLU层之后应用了Dropout。这些Dropout之后的特征被展平，然后连接起来，以获得输入图像的多尺度表示。然后通过一个全连接层进行降维，得到每个输入的1000维特征向量。两个流的基线是从头开始训练的，使用Xavier初始化。联合特征学习网络使用在（Ig，Ia）图像对上训练的两个流网络的权重进行初始化，并且优化损失函数如公式4所示。我们使用λ1 = 10和λ2 =1，更加重视（Ig，Ia）对的损失项，因为它们在图像匹配方面的性能优于（Ia'，Ia），如表1所报告的，并且I'a仅在联合特征学习网络的训练过程中用作辅助信息。0特征融合网络：图2b中的特征融合网络有两个全连接层，一个用于航拍特征分支，一个用于地面特征分支。上层全连接层接收2000维融合特征，并将其转换为1000维特征表示。下层全连接层的输入是fa，将其映射到1000维特征表示。全连接层使用均值为零，标准差为0.005的均匀分布进行随机初始化。0两个流的基线和提出的联合特征学习和特征融合网络是使用Tensorflow [1]实现的，使用Adam优化器（lr = 10^-5）和dropout =0.5。在两个流网络的实验中使用批量大小B =30，联合特征学习网络的实验中使用批量大小B =24。在所有实验中使用加权软间隔三元组损失进行训练。采用穷举式小批量策略[38]来最大化每个批次中的三元组数量。对于批次中的B个图像，对于每个地面图像，我们有1个正对和（B-1）个负对，对于每个航拍图像，我们有（B-1）个负对。因此，对于B个图像，我们有B个正对和2 x B x(B-1)个负对。进一步的训练使用批内难负样本挖掘；通过将每个正对与批次中最负样本（即距离最小）进行训练。代码和数据集公开可用[1]。0总之，首先训练GAN生成地面全景图像Ig的交叉视图图像Ia'，然后在我们的提出的方法中使用合成图像进行联合特征学习。01 https://github.com/kregmi/cross-view-image-matching0表1：基线和提出方法（第一部分）以及CVUSA数据集[45]上的先前方法（第二部分）的Top-1、Top-10和Top-1%召回率的比较。0方法 Top-1 Top-10 Top-1%0两流基线（Ia'，Ia）10.23% 35.10% 72.58%两流基线（Ig，Ia）18.45% 48.98% 82.94%联合特征学习（Ia'，Ia）14.31% 48.75% 86.47%联合特征学习（Ig，Ia）29.75% 66.34% 92.09%特征融合48.75% 81.27% 95.98%0Workman等人[40] - - 34.3% Zhai等人[45] - - 43.2%Vo和Hays[38] - - 63.7% CVM-Net-I[18] 22.53% 63.28%91.4% CVM-Net-II[18] 11.18% 43.51% 87.2%05. 结果0我们对我们提出的方法进行了广泛的分析，证明了合成图像在图像检索中的有效性，以弥合交叉视图图像之间的领域差距。我们还将我们的工作与CVUSA数据集上的最先进方法进行了比较。最后，我们对OP数据集上的地理定位任务进行了评估。05.1. 评估指标0评估基于图像的匹配任务的常见度量标准是计算召回准确性。如果查询街景图像的正确匹配位于最接近的代表性特征的欧氏距离集合内，则匹配成功。我们报告CVUSA数据集上的top-1%准确性，以便与之前的工作进行比较。我们还报告CVUSA数据集上的top-1和top-10召回率。05.2. 我们方法的结果0我们通过在CVUSA数据集[45]上评估我们的模型变体来衡量检索准确性。结果报告在表1（第一部分）中。0基线比较（表1（第一部分）中的第一行和第二行）：使用图像对（Ig，Ia）和（Ia'，Ia）训练的两流网络是基线。我们观察到，合成图像Ia'作为查询的top-1%召回率为72.58%，但略低于Ig作为查询的82.94%。这意味着合成图像从地面全景图像中捕捉到了相当数量的信息，但对于交叉视图图像检索还不完全可靠，我们仍需要考虑真实的地面图像。这为我们提出了联合特征学习的动机。0联合特征学习（表1（第一部分）中的第三行和第四行）：如前所述，对于联合特征学习，我们首先训练GAN生成地面全景图像Ig的交叉视图图像Ia'。然后，我们使用合成图像进行联合特征学习。0.00.20.40.60.81.04760在训练过程中使用了图像三元组（Ig，Ia和Ia'），而在测试过程中只使用了（Ig，Ia）对。我们通过联合特征学习在top-1%检索准确性上相对于两流基线（Ig，Ia）获得了约9%的改进。这个改进表明，合成的航拍图像包含了与地面图像特征互补的特征，有助于网络在联合特征学习过程中学习更好的航拍图像表示。合成的航拍图像作为地面图像和航拍图像之间的辅助信息，在联合特征学习过程中成功地使它们的特征表示更加接近。由于在联合特征学习过程中，对于Ig、Ia和Ia'的特征表示是一起学习的，我们很好奇评估Ia'的特征表示在图像匹配中的表现如何。毫不奇怪，与两流基线（Ia'，Ia）相比，我们在top-1%检索准确性上获得了约14%的改进。这个改进进一步证实了Ig和Ia'的学习特征互补，并且可以融合在一起获得地面图像的稳健描述符。0特征融合：（表1（第一部分）中的第五行）：特征融合方法将合成图像特征与地面图像特征融合，以获得查询的代表性特征。这进一步提高了top-1%准确率的3.89%（比较第四行和第五行）。特征融合的重要性可以通过相对于联合特征学习的top-1检索准确率提高约19%来衡量。这一改进进一步表明合成图像特征与街景图像特征互补，应该被利用来获得更好的跨视图匹配特征。定性结果如图3所示。每行显示查询地面图像和合成航空图像以及五个最接近的图像。05.3. 与现有方法的比较0我们将我们的工作与之前的方法[40, 45, 38,18]在CVUSA数据集[45]上进行比较。我们报告了最先进的CVM-Net[18]和我们方法的top-1、top-10和top1-%准确率。结果如表1（第二部分）所示。我们观察到联合特征学习优于（表1（第一部分）中的第四行）以前的工作，并且通过特征融合进一步提升（表1（第一部分）中的第五行）。我们在top-1%的召回准确率上相对于SOTA CVM-Net[18]实现了整体4.58%的提升。我们在top-1和top-10准确率上相对于CVM-Net-I[18]分别获得了超过26%和18%的显著增长。我们还在图4中绘制了我们方法的top-K召回准确率（K =1到80），并与以前的方法进行了比较。它说明了我们提出的方法的各个版本在所有K值上都优于现有的最先进方法。00 10 20 30 40 50 60 70 80 Top-K0召回率Top-K的准确率0CVM-Net I CVM-Net II两流：（Ia'，Ia）两流：（Ig，Ia）联合特征学习：（Ig，Ia）特征融合0图4：我们方法的不同版本与CVM-Net I和CVM-Net II[18]在CVUSA数据集[45]上的比较。0表2：CVUSA数据集[45]上的消融研究。报告的数字是特征融合网络在指定消融准则下的检索准确率。0消融准则 Top-1 Top-10 Top-1%0单尺度特征 8.01% 32.62% 74.41% 全局平均池化（GAP）16.13% 51.72% 87.68% 权重共享 29.94% 68.24% 93.42%0多尺度特征+无GAP+无权重共享 48.75% 81.27% 95.98%05.4. 消融研究0我们进行以下消融研究，以了解所提出网络中不同选择的影响。在消融实验中，使用联合特征学习和特征融合网络，并使用特定设置：a）单尺度特征-仅匹配最终层特征，b）全局平均池化（GAP）-GAP操作抑制特征图的空间维度，大幅减小特征大小，c）航空图像和地面图像的编码器之间的权重共享。所有这些方法都减少了网络中使用的参数数量。0单尺度 vs.多尺度特征：在这个消融实验中，首先使用单尺度特征的联合特征学习网络进行训练，然后使用特征融合网络进行实验。最终卷积块（conv8）之后的特征被认为是单尺度特征。这些是给定输入图像的代表性特征，并用于匹配。我们在这个消融实验中没有使用全局平均池化和权重共享，以直接比较单尺度和多尺度特征表示。得分报告在表2中（第一部分）0.00.10.20.30.40.5Recall Accuracy at Top-K0.011.0844.33254.9069.322.25161.1712.35 21.19 521.674.44111.399.581246.39424.5330.61%38.36%45.57%47700 20 40 60 80 100 误差阈值（米）0两流特征融合0图5：OP数据集上的地理定位结果与不同的误差阈值。0单尺度和多尺度特征的结果）。结果表明，与仅使用最终的conv 8层特征相比，来自conv 6和conv7的特征在图像匹配中也非常重要。结果证明了聚合多尺度特征对于跨视图匹配任务的重要性。0池化与非池化：我们还在实验中进行了关于使用全局平均池化[23]的消融实验。全局平均池化是一种常用的方法，用于减少特征的空间维度，从而减少网络中的参数数量。我们尝试在将多个尺度的特征进行连接之前使用全局平均池化层。结果报告在表2中（使用GAP的第二行和不使用GAP的第四行，其余架构相同）。我们观察到特征中空间信息的丧失严重影响了检索性能。0权重共享与非权重共享：我们认为从完全不同的视点接收输入图像的两个分支（如航空图像和地面视图图像）不应共享权重。尽管网络将查看相同的场景内容，但它们从两个视图的表示方式差异很大，因此建议网络应根据接收到的输入自由地调整其权重。结果报告在表2中（权重共享的第三行和不共享权重的第四行，其余设置相同）。数字明确表明，不共享权重是一个相当容易的选择，特别是在Top-1准确性方面的差异约为18％。05.5. 跨视图定位0我们使用奥兰多-匹兹堡（OP）数据集进行基于图像的地理定位。我们希望通过将查询图像分配给最接近的航空图像的位置来确定查询图像的GPS位置。如果查询图像在阈值距离内正确地进行地理定位，则认为它被正确地地理定位。0地面查询的前几个匹配（从左到右的前1-前5）0图6：OP数据集上的图像检索示例。正确的航空图像匹配以绿色边框显示。每个航空图像下方的数字显示其与查询地面图像的距离（以米为单位）。0表3：奥兰多-匹兹堡数据集的Top-1检索准确率。0双流（Ig，Ia）联合特征学习特征融合0与其地面真实位置的距离（以米为单位）。与基线相比，我们提出的特征融合方法能够以更高的准确性检索接近其地理位置的图像，这可以归因于其在Top-1召回方面的优越性。OP数据集上的图像检索示例显示在图6中。地面查询图像后面是五个最接近的航空图像。尽管检索到的图像非常相似，但我们能够在Top-1位置检索到正确的匹配。Top-1召回率报告在表3中。结果证实了所提出的方法对OP数据集的城市地区以及CVUSA数据集的农村地区具有普适性。06. 结论0在本文中，我们提出了一种新颖而实用的跨视图图像检索方法，通过将查询图像转换为目标视图以获得更好的场景理解。我们展示了合成的航空图像可以通过联合特征训练无缝地融入跨视图匹配流程，以弥合航空图像和街景图像之间的领域差距。此外，地面图像特征和相应的合成航空图像特征被融合以获得地面图像的稳健描述符。我们在具有挑战性的CVUSA数据集上相对于最先进的方法取得了显著的改进。0致谢。作者要感谢Chen Chen和YonatanTariku进行有益的讨论；Vijay Gu- nasekaran和HassanMaqbool在OP数据集收集中的贡献以及匿名审稿人对批判性反馈的意见。4780参考文献0[1] Martin Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen,Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghe-mawat, Geoffrey Irving, Michael Isard, Manjunath Kudlur, JoshLevenberg, Rajat Monga, Sherry Moore, Derek G. Mur- ray,Benoit Steiner, Paul Tucker, Vijay Vasudevan, Pete War- den,Martin Wicke, Yuan Yu, and Xiaoqiang Zheng. Tensor�ow:一个用于大规模机器学习的系统。在第12届USENIX操作系统设计和实现研讨会（OSDI 16）上，第265-283页，2016年。[2]Amjad Almahairi, Sai Rajeshwar, Alessandro Sordoni, PhilipBachman和AaronCourville。增强的循环GAN：从非配对数据中学习多对多映射。在国际机器学习会议上，第195-204页，2018年。[3] ReljaArandjelovic, Petr Gronat, Akihiko Torii, Tomas Pa- jdla和JosefSivic。Netvlad：用于弱监督地点识别的CNN架构。在IEEE计算机视觉和模式识别会议论文集上，第5297-5307页，2016年。[4]Mayank Bansal, Kostas Daniilidis和HarpreetSawhney。用于地理定位的超宽基线立面匹配。在AndreaFusiello，Vittorio Murino和RitaCucchiara（编辑）的《计算机视觉-ECCV2012.工作坊和演示》中，第175-186页，2012年。SpringerBerlin Heidelberg。[5] Sean Bell，C Lawrence Zitnick，KavitaBala和Ross Gir-shick。内外网：使用跳跃池化和循环神经网络在上下文中检测对象。在IEEE计算机视觉和模式识别会议论文集上，第2874-2883页，2016年。[6] JohnCanny。边缘检测的计算方法。在计算机视觉阅读中，第184-203页。Elsevier，1987年。[7] Yunjey Choi，MinjeChoi，Munyoung Kim，Jung-Woo Ha，Sunghun Kim和JaegulChoo。Stargan：用于多领域图像到图像转换的统一生成对抗网络。在计算机视觉和模式识别（CVPR）IEEE会议上，2018年6月。[8] Ronan Collobert，Koray Kavukcuoglu和Cl´ementFarabet。Torch7：一种类似于MATLAB的机器学习环境。在BigLearn，NIPS Workshop，2011年。[9] Xueqing Deng，YiZhu和ShawnNewsam。从高空图像生成密集的地面视图和图像特征，使用条件生成对抗网络。在第26届ACMSIGSPATIAL国际地理信息系统会议论文集上，SIGSPATIAL'18，第43-52页，2018年。ACM。[10] Mohamed Elfeki，KrishnaRegmi，Shervin Ardeshir和AliBorji。从第三人称到第一人称：合成和检索的数据集和基线。arXiv预印本arXiv:1812.00104，2018年。[11] NehlaGhouaiel和S´ebastienLef`evre。耦合地面全景图像和航空图像进行变化检测。地理空间信息科学，19（3）：222-232，2016年。[12] IanGoodfellow，Jean Pouget-Abadie，Mehdi Mirza，BingXu，David Warde-Farley，Sherjil Ozair，Aaron Courville和0YoshuaBengio。生成对抗网络。在神经信息处理系统进展中，第2672-2680页，2014年。[13] Bharath Hariharan，PabloArbel´aez，Ross Girshick和Ji- tendraMalik。用于对象分割和细粒度定位的超级列。在IEEE计算机视觉和模式识别会议论文集上，第447-456页，2015年。[14] JamesHays和Alexei A.Efros。im2gps：从单个图像估计地理信息。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，2008年。[15] JamesHays和Alexei A.Efros。大规模图像地理定位。在视频和图像的多模式位置估计中，2015年。[16] Alexander Hermans，Lucas Beyer和BastianLeibe。捍卫三元损失用于人物再识别。CoRR，abs/1703.07737，2017年。[17] Sina Honari，Jason Yosinski，PascalVincent和Christo- pherPal。重组网络：学习从粗到细的特征聚合。在IEEE计算机视觉和模式识别会议论文集上，第5743-5752页，2016年。[18] SixingHu，Mengdan Feng，Rang M. H. Nguyen和Gim HeeLee。Cvm-net：用于基于图像的地面到空中地理定位的跨视图匹配网络。在计算机视觉和模式识别（CVPR）IEEE会议上，2018年6月。[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou和Alexei AEfros。带条件对抗网络的图像到图像转换。CVPR，2017年。[20]Taeksoo Kim，Moonsu Cha，Hyunsoo Kim，Jung KwonLee和JiwonKim。学习发现具有生成对抗网络的跨领域关系。在DoinaPrecup和Yee WhyeTeh（编辑）的第34届国际机器学习会议论文集中，Pro- ceedingsof Machine LearningResearch的第70卷，第1857-1865页，

下载后可阅读完整内容，剩余1页未读，立即下载