地理空间注意力的近/遥感方法在俯视图像分割任务中的应用

2 浏览量更新于2023-10-25 收藏 15.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17780重新审视具有地理空间注意力的近/遥感0DZYNE Technologies MRafique0Kitware, Inc. Hu0肯塔基大学 Nathan Jacobs0肯塔基大学0摘要0本研究解决了当辅助地面图像可用时的俯视图像分割任务。最近的研究表明，对这两种模态进行联合推理，通常称为近/遥感，可以显著提高准确性。在这一研究基础上，我们引入了地理空间注意力的概念，这是一种几何感知的注意力机制，明确考虑了地面图像和地理位置之间的地理空间关系。我们提出了一种计算地理空间注意力的方法，该方法结合了几何特征和俯视图像和地面图像的外观。我们引入了一种基于地理空间注意力的新型近/遥感架构，并展示了它在五个分割任务中的应用。结果表明，我们的方法明显优于先前的最先进方法。01. 引言0准确监测地球表面对许多科学领域和整个社会都至关重要。重要的应用包括天气预报、灾害响应、人口密度估计和环境监测。传统上，这些应用依赖于对卫星或机载相机的俯视图像进行遥感方法。计算机视觉技术长期以来一直应用于这类图像以自动化各种任务[14,35,48]，包括最近关于道路检测[33]、土地覆盖估计[39]、交通流量理解[55]和构建动态视觉属性地图[41]的工作。此外，还探索了来自其他来源的图像的使用，例如消费者设备[50]和网络摄像头[17]，用于各种监测应用。例如，地理标记的地面图像，包括消费者照片，已被用于天气监测[50]、估计地理信息属性[23]和表征安全性[1]。同样，网络摄像头图像已被用于植被[44]、积雪[38]和海洋废弃物[20]的监测。这类方法通常被称为“近距离/遥感”[25]或“基于图像的制图”，它使用大规模的地理参考照片集合来推导地理空间信息。这两种策略，遥感和近距离感知，提供了世界的互补视角。俯视图像广泛可用，分辨率越来越高，覆盖范围广。然而，从仅从上方看的角度往往很难表征细粒度的属性[57]。相反，地理标记的地面图像分布稀疏，但捕捉到高分辨率、语义丰富的细节。要将这些稀疏样本转换为密集地图，需要额外的过程，如几何变形或局部加权平均。这意味着仅使用地面图像会导致未成像区域的缺失值或低空间分辨率输出[1]。将这两种模态结合起来，我们称之为近/遥感，已成为一个引人注目的研究领域，解决了仅使用单一模态的方法的缺点。早期的技术主要集中在构建显式的几何模型上[9]。我们的工作与试图提取语义信息的方法更相关，例如Luo等人关于事件识别的工作[31]。还提出了其他方法来考虑如何重新-0图1.我们引入了一种新颖的神经网络架构，在近/遥感设置中使用地理空间注意力。我们的方法在一张俯视图和一组附近的地面全景图像上操作，以“几何感知”的方式从每个地面图像中提取查询位置（方形）的最佳特征。0映射地面图像以匹配俯视图像的方法，例如通过几何变形或局部加权平均。17790最近，已经提出了一种允许结合俯瞰图像和附近地面图像进行一般分割任务的网络架构[5，58]。标准方法是从附近的地面图像中提取图像特征，将它们融合成与从俯瞰图像中提取的特征地理空间对齐的密集特征网格，并将两个特征集合连接起来进行联合推断。尽管与单模态替代方案相比，这种策略显示出了巨大的潜力，但仍然有很大的改进空间。当前方法的一个主要局限性是使用全局图像特征，忽略了重要的几何信息。需要一种新的方法来从每个样本中提取有意义的地理信息特征以适应给定任务。在这项工作中，我们引入了地理空间注意力的概念。与标准的空间注意力模块（例如[52]）不同，它仅在输入特征图上操作以识别显著区域，地理空间注意力还考虑了输入与目标位置之间的地理空间关系，目标是识别有意义的地理信息区域。关键洞察是对于许多任务来说，输入相对于感兴趣位置的位置和方向对于从多个来源最佳融合信息至关重要（图1）。我们提出了一种估计地理空间注意力的方法，除了几何和俯瞰外观之外，还结合了输入图像的语义内容，目标是识别输入的地理信息区域。我们引入了一种新颖的神经网络架构，将地理空间注意力应用于近/远感知设置。我们的方法同时学习从每个图像模态中提取特征，以端到端的方式进行操作。为了支持评估，我们使用两个新的像素级标注任务扩展了现有数据集。广泛的评估证明了我们的方法在五个标注任务中的实用性：土地利用、建筑年龄、建筑功能、土地覆盖和高度。与以前的工作相比，观察到了显著的准确性改进，并使用内部消融研究来突出显示最重要的组成部分。02. 相关工作0许多论文探讨了使用神经网络架构进行遥感图像分割，包括遥感会议上的综述论文[32，60]和计算机视觉会议上解决特定任务的论文[2，10，33，39]。鉴于此，我们将重点关注使用地面图像进行制图应用的工作，融合地面图像和俯瞰图像以及注意力机制。02.1. 图像驱动的制图0大量地理标记的地面图像，来自社交媒体和配备摄像头的车辆，使得构建各种视觉现象的地图成为可能。许多论文探讨了这种方法；我们只强调其中的几篇。Crandall等人[7]是第一批强调地理标记社交媒体图像在理解位置方面潜力的作品之一。Zhou等人[61]和Arietta等人[1]都提出使用这种图像来理解城市地区。同样，Leung和Newsam[26]通过使用地面图像来解决（粗略的）土地覆盖分类任务。仅依赖地面图像的方法的主要局限性在于，它们无法生成高分辨率的输出地图，特别是在远离主要旅游目的地的地区。一些研究[45，62，63]通过使用GIS数据中的建筑物轮廓解决了这个问题。然而，这些方法通常仅限于对象级别的分类，因此对于许多任务来说并不合适。相比之下，我们的方法不需要GIS矢量数据，并使用了更一般的几何融合策略。02.2. 使用地面和高空图像进行制图0将地面和高空图像相结合的技术在改善我们构建细粒度、准确地图的能力方面具有重要的潜力。Lef´evre等人[24]对这一潜力进行了早期的概述，包括对树木检测和分类[51]的早期工作的扩展。M´attyus等人[34]解决了道路地图制作的任务。首个解决一般的近/远分割任务的工作[58]使用了核加权平均方法来融合地面特征向量。我们通过对地面图像特征进行自适应池化来改进这一方法。Hoffmann等人[15]评估了用于粗分类任务的特征融合和决策融合方法，但是依赖于面向建筑物的单个地面图像。我们的工作可以看作是将这种方法从分类扩展到密集分割，从单个到多个地面图像，从硬注意力到软注意力。02.3. 交叉视图定位和合成0与近/远分割任务密切相关的是使用高空参考图像定位地面图像和从高空图像预测地面图像的视觉外观的任务。两者都受益于推理地面和高空视图之间的几何关系。早期的交叉视图地理定位工作集中在任意方向的透视图像上[27, 28, 49,54,56]，但是最近的方法更加强调对地面和高空视图之间的定位。17800C0H0W0距离方向0地面特征图0开销03x3卷积5x5卷积0多尺度01x1卷积0权重0估计0~ C0Frobenius内积0产品0最大平均0图2. 我们的地理空间注意力架构，用于将特征图减少为地理信息丰富的特征向量。0朝向北的街景全景图。这项任务的最佳方法现在明确地整合了地面和高空视角之间的几何关系。Liu和Li[29]为每个输入图像添加了一个方向图。几篇论文已经引入了空间注意力机制：Cai等人[4]使用了CBAM的多尺度变体[52]，Shi等人[43]表明当输入域对齐时，注意力是有帮助的。我们使用这些方法作为实现地理空间注意力的基本构件。在交叉视图合成中，一个关键挑战是预测几何变换。Zhai等人的早期工作[59]使用了一个隐式模型，而最近的工作[30, 42,47]表明更明确的几何模型可以带来改进的结果。02.4. 注意机制0已经引入了各种注意力机制，包括空间变换网络[18]，它基于参数化变换应用硬注意力，以及使用基于学习的软注意力[19]、通道注意力[6]和自注意力[36]的方法。交叉视图匹配的最新工作引入了几何注意力模型[4,43]，但它们专注于单一已知的变换。He等人[13]引入了一种类似于自注意力但包含极线几何的注意力模型。他们展示了它在人体姿势估计[12]中的应用。我们的方法专注于学习相对于地理位置在地面图像中预测注意力，使用几何和图像特征来指导加权。03. 地理空间注意力0我们解决了高空图像分割的任务，包括语义任务，如土地利用分类，以及几何任务，如建筑物高度估计。我们假设我们已经获得了一个地理注册的高空图像，并且为了简单起见，我们将分割结果输出为像素级标记。除了高空图像，我们还提供了一组附近的地面图像，这些图像具有已知的内外标定（地理参考）。关键点0挑战是将所有可用图像的信息结合起来生成准确的分割图。为了解决这个挑战，我们提出了地理空间注意力，一种几何感知的注意力机制，并使用地理空间注意力来融合来自地面图像的信息的神经网络架构。03.1. 定义地理空间注意力0与以前的空间注意力机制类似，地理空间注意力的目标是通过估计每个图像像素的注意力值来识别输入图像或等效的输入特征图的重要区域。地理空间注意力通过将注意力图参数化为目标地理位置来扩展这个想法。由于图像是完全校准的，我们知道相机中心位置，并且每个像素都有一个与之关联的场景坐标中的射线。因此，地理空间注意力将取决于目标位置与相机位置之间的距离，每个像素射线的目标相对方向以及图像特征。我们使用地理空间注意力将特征图减少为特征向量，具体过程如下。给定从地面图像 I i中提取的相机位置 l i 和目标位置 l t 获得的输入特征图 F i∈ R H × W ×C，地理空间注意力推断出一个二维空间注意力图 P i,t ∈ RH ×W。该过程在图2中可视化。类似于Shi等人[43]，我们使用注意力图 P i,t 生成特征向量 K i = { k c }，c = 1, ...,C，如下所示：0k c = � f c , P i,t � F (1)0其中 f c ∈ R H × W 表示 F i 的第 c 个通道，� ., . � F表示Frobenius内积，k c 是第 c个通道的特征输出。得到的特征向量表示与目标位置 l t相关的输入特征图 F i 中的信息。03.2. 推断地理空间注意力0地理空间注意力的关键组成部分是从输入中计算空间注意力图 P i,t。...17810编码器0真实值0损失0特征融合0（在俯瞰图像中的每个位置）0解码器0地理注意力0插值0地理注意力0地理注意力0融合0地面特征图0纬度，经度0图3. 近/远程感知架构概述。0特征图 F i，相机位置 l i 和目标位置 l t的计算表示为应用于输入特征图的增强版本的卷积网络，构造如下。0根据输入和目标位置（l i，lt），我们计算两个几何特征图。第一个是相机位置 l i与目标位置 l t 之间的球面距离 d（米），将其平铺到 H ×W。第二个是每个像素相对于目标位置 l t 的方向θ，表示为 H × W × 3的张量。这通过将最初位于东北天坐标系中的原始像素射线绕天顶方向旋转，使 [0, 1, 0]指向目标位置来计算。我们还构造了两个图像特征图。首先，将目标位置 l t 处的俯瞰图像的特征向量 S(l t) 平铺到 H× W × N。然后，沿着通道维度对输入特征图 F i和平铺的俯瞰特征图分别进行最大池化和平均池化操作，得到两个 H × W × 2 的特征图。0几何特征图和池化图像特征图被连接起来，生成一个 H ×W × 8的张量，我们将其作为输入传递给卷积网络来推断空间注意力。首先，使用两个卷积层，分别为 3 × 3 和 5 ×5，生成中间特征图，类似于Cai等人[4]。这些中间特征图被连接起来，并传递给一个 1 × 1的卷积层，使用sigmoid激活函数，估计空间注意力图 Pi,t。04.近/远程感知的架构0我们提出了一个用于近/远程感知任务的高级神经网络架构。我们的架构如图3所示，主要由三个组件组成。首先，我们从每个图像模态中提取特征（第4.1节）。接下来，我们使用地理空间注意力从附近的地面图像集合生成一个空间一致、密集的地理信息特征网格（第4.2节）。最后，我们将密集的地面特征图与高空图像特征图融合，并将其作为输入传递给生成分割输出的解码器（第4.3节）。所有组件都是可微分的，可以对低级特征提取网络和给定分割任务的注意力模型进行端到端的优化。本节的其余部分描述了高级架构，有关详细信息请参见补充材料。04.1.特征编码器0对于每个输入图像，我们使用卷积特征编码器提取特征图。特征图中的每个输出位置都有一个特征向量和一个几何描述符，这取决于模态。虽然我们提供了特定的特征编码器选择，但我们强调还有许多其他选择可用于满足应用需求（例如，更少的内存、更低的计算复杂度或者潜在的更高的准确性）。17820高空图像为了从高空图像中提取特征图，我们使用EfficientNet-B4[46]编码器。我们使用第二和第三阶段的输出激活。给定尺寸为256×256的输入图像，得到的特征图分别为64×64×32和32×32×56。我们还计算了最终特征图中每个元素的地理位置，得到一个32×32×2的地理位置映射。这些将用作计算地理空间注意力的目标位置。0地面图像为了从地面图像中提取特征图，我们使用在ImageNet上预训练的ResNet-50[11]。我们使用第四阶段的输出激活。在我们的情况下，我们直接在等距投影的全景图上操作，并且从顶部和底部裁剪，大约裁剪40°，以最小化失真。在裁剪和调整全景图大小之后，输入图像的尺寸为128×500。每个图像的结果特征图为8×32×1024。我们添加了一个1×1的卷积层，带有LayerNorm[3]和ReLU激活函数，将通道数减少到128。地面特征图中的每一列都与一个地理方向相关联，其中心列最初对应北方。为了便于地理空间注意力，我们计算每个图像特征位置的像素光线。我们还记录摄像机中心的位置，对于所有特征来说是相同的。04.2.融合地面图像特征0我们使用地理空间注意力构建一个空间一致、密集的地理信息特征网格。该过程将附近地面图像集合的特征结合起来，使用高空图像的32×32地理位置网格作为目标位置。在本节的其余部分中，我们描述了计算与单个目标位置相关的特征向量的方法。对于给定的目标位置，我们首先应用地理空间注意力将单个地面图像特征图减少为特征向量。此外，我们记录每个图像的空间注意力图的总和（即表示总注意力的标量）。然后，我们执行加权平均以结合所有地面图像的特征。此操作的权重通过对记录的总注意力值应用softmax函数来计算，该函数在所有地面图像上进行计算。对于每个目标位置，这个过程是并行进行的，然后将得到的向量连接起来形成一个密集的网格。结果是一个特征图，它代表与高空图像特征图相同的地理范围，但是基于从地面图像中提取的特征。鉴于高空特征图是32×32，每个地面图像特征有128个维度，得到的密集网格是32×32×128。04.3. 分割解码器0我们架构的最后一个组件是生成分割输出的解码器。我们使用U-Net[40]风格的解码器，它期望四个输入特征图。对于前两个特征图，我们使用从高空图像提取的特征图，空间尺寸分别为64×64和32×32。对于最后两个特征图，我们首先将从高空图像和地面图像的密集特征网格提取的特征进行连接，得到一个32×32×184的特征图。这通过两个块传递，每个块都有三个卷积层（Batch-Norm[16]，ReLU），以创建两个额外的特征图，尺寸分别为16×16×160和8×8×448。这两个特征图用作解码器的最后两个输入。解码器有五个上采样块，带有跳跃连接，其输出然后通过最后一个卷积层，激活函数和通道数取决于目标标签。04.4. 实现细节0我们使用Pytorch [37]和Pytorch Lightning[8]实现我们的方法。我们使用Adam[22]进行网络优化，初始学习率设置为1e-4。所有网络都训练25个周期，学习率策略每个周期将学习率衰减γ =0.96。对于分类任务，我们使用交叉熵损失。对于回归任务，我们使用Kendall和Gal [21]的不确定性损失。05. 实验0我们对五个标注任务进行了评估，并发现我们的方法明显优于先前的最先进方法。05.1. 数据集0对于这项工作，我们使用布鲁克林和皇后区数据集[58]。该数据集包含纽约市的非重叠高空图像（约30厘米分辨率），以及从Google街景收集的大型地面全景数据库。我们定义了两个新的每像素标注任务，即估计土地覆盖和估计高度。对于高度，我们使用从2017年纽约市地形和水深测量激光雷达数据中得出的最高命中数字表面模型（DSM）（约30厘米分辨率）。对于土地覆盖，我们使用一个6英寸分辨率、8类土地覆盖数据集，该数据集类似地从2017年的激光雷达捕获中得出。这些数据通过纽约市开放数据门户公开提供。我们将这些数据与布鲁克林和皇后区的高空图像相关联，生成地面真实的每像素标注。包括我们的两个新任务，该数据集共有五个任务：估计土地利用、建筑年龄、建筑功能、土地覆盖。entma-17830表1. 布鲁克林评估结果。0土地利用年龄功能土地覆盖高度mIOU准确率mIOU准确率mIOU准确率mIOU准确率RMSE RMSE log0Workman等人[58] 45.54% 77.40% 23.13% 43.85% 14.59% 44.88% Cao等人[5]48.15% 78.10%0近似49.82% 75.30% 36.68% 56.48% 12.13% 43.81% 38.27% 67.63% 4.440 1.031 远程40.30% 72.98% 16.40% 34.43% 4.50%34.53% 69.48% 86.71% 3.260 0.785 我们的69.24% 86.82% 51.70% 70.34% 27.40% 60.31% 74.59% 88.10% 2.845 0.7470和高度。在所有实验中，我们将每个高空图像的最接近的20个街景全景图包括在内。05.2. 基准线0为了评估我们提出的架构，我们考虑了几种使用我们完整方法组件的基准方法：0•远程：传统的遥感方法，只使用高空图像。我们从完整的方法开始，但省略了地面特征图。0•近似：一种近似感知方法，仅使用地理标记的地面图像。我们从地面特征图开始，使用地理空间注意力（不使用高空图像特征）构建密集特征网格，然后使用类似的U-Net[40]风格解码器（不使用高空图像特征和相关的跳跃连接）生成输出。此外，我们还与Workman等人[58]和Cao等人[5]的先前结果进行比较。这两种方法都采用类似的策略，使用局部加权平均构建密集地面特征图，但在地面特征提取器和分割架构的选择上有一些差异。05.3. 定量结果0对于分类任务，我们报告使用像素准确性和类别平均的区域交并比（mIOU）来衡量结果。对于这两个指标，数值越高越好。对于回归任务，我们报告使用均方根误差（RMSE）和均方根对数误差（RMSElog）来衡量结果。与之前的工作[58]一样，计算这些指标时我们忽略任何标记为未知的地面真实像素。此外，对于建筑物年龄和功能估计任务，我们忽略标记为背景的像素。表1显示了我们方法在所有五个任务上与基线的定量结果。我们的完整方法（ours）明显优于单模态基线（proximate和remote），这些基线是由我们方法的组件构建而成的。同样，我们的方法，即集成地理空间注意力，优于先前方法在各自任务的结果可用的子集上的两种方法。此外，这些结果表明，使用我们的方法集成附近的地面图像甚至可以改善土地覆盖估计等任务。0表2.当将基线[58]的组件升级为类似于我们方法的组件时的性能分析（布鲁克林土地利用估计）。地理空间注意力的引入导致了最大的性能提升。0方法分割架构全景架构 mIOU 准确率0[58] PixelNet VGG-16 45.54% 77.40% [58] LinkNet34VGG-16 47.14% 76.52% [58] LinkNet34 ResNet-5051.59% 78.68% 我们的 LinkNet34 ResNet-50 67.43%86.41% 我们的 EfficientUNet ResNet-50 69.24%86.82%0表3.消融研究突出了地理空间注意力的不同输入特征的重要性（布鲁克林土地利用估计）。0全景图俯视图几何特征 mIOU 准确率0� 53.77% 79.38% � 53.66% 79.50% d 59.41% 82.05%θ 62.04% 83.14% d, θ 68.46% 86.52% � d, θ68.72% 86.58% � d, θ 68.87% 86.74%0� � d, θ 69.24% 86.82%0有益于土地覆盖估计等任务，其中俯视图图像往往足够。图4显示了定性结果。接下来，我们分析性能的多少可以归因于使用地理空间注意力来形成网格。为此，我们将先前的方法[58]更新为使用我们的分割架构和类似的地面特征提取器（ResNet-50，在全局平均池化层之后），同时保留他们用于估计密集特征网格（局部加权平均与自适应核）的策略。表2显示了这个实验的结果。尽管这些升级确实提高了性能，但最大的增益来自于我们的网格构建（最后两行），它使用地理空间注意力从地面图像中提取地理信息特征。最后，我们在表3中进行消融研究，以突出不同输入特征对地理空间注意力的重要性。17840高度土地覆盖年龄土地利用0图4. 定性结果示例：（左）地面真实图像，（右）我们的图像。0强调用于地理空间注意力的不同输入特征的重要性。对于这个实验，我们专注于土地利用任务，并比较在估计空间注意力图时使用不同输入（几何、全景、俯视）的性能。请注意，仅使用全景图的变体本质上是传统的注意力，类似于CBAM[52]。我们的完整方法优于所有基线，几何特征对于实现良好性能至关重要。05.4. 可视化地理空间注意力0地理空间注意力是从地理注册的地面图像中提取有关目标位置信息的一种灵活方法。图5显示了作为我们消融研究的一部分学习到的注意力图的定性示例，表3中的每行注意力图都以颜色编码，对应于三个目标像素和全景图。0在俯瞰图像中，全景图像的位置由绿色点表示。仅全景图像的注意力图相对均匀，不依赖于目标像素的位置。仅几何注意力图朝向目标像素，但缺乏我们的完整注意力图中的细化。例如，右上角的注意力图对道路上直接的无信息像素分配较低的权重。0图6可视化了我们针对多个任务（高度、土地覆盖、建筑年龄）的完整注意力图，用于一个目标像素和三个全景图像。如预期所示，它们显示出高注意力区域通常朝向目标像素。然而，受图像内容的影响，注意力所关注的图像区域会发生变化，而且注意力会根据任务的不同而变化。类似地，如果图像和目标位置之间距离较远，高激活区域会收缩，从而缩小视野。0图7可视化了两个全景图像的总注意力17850全景几何（ d, θ ）我们的方法0图5.可视化作为我们土地利用消融研究的一部分学习到的注意力图，用于一个全景图像。全景图像的位置由绿色点表示。同样，每行的注意力图以颜色编码，对应于三个目标像素之一。列分别对应于表3的第1行、第5行和最后一行。0图6.可视化三个全景图像（列）和一个目标像素的注意力图，用于学习估计高度、土地覆盖和建筑年龄（行）。全景图像的位置在俯瞰图像中以彩色编码的点显示，目标像素以橙色方块显示。虽然注意力图集中在相似的图像区域，但它们明显是任务相关的。0(a) 全景图像位置0(b) 注意力（红色）0(c) 注意力（绿色）0图7.可视化两个全景图像中的总注意力（未显示，但在全景图像中显示为点），其中黄色（蓝色）表示对应全景图像的高（低）注意力。0对应于相应俯瞰图像中的每个位置，每个全景图像的贡献不同，通常在靠近全景图像位置的像素上具有更多的注意力。06. 结论0我们引入了地理空间注意力的概念，提出了一种估计地理空间注意力的方法，并使用它构建了一个近/远程感知的端到端架构。我们的方法能够在俯瞰图像和附近的地面图像之间进行联合推理，并且具有“几何感知”。为了支持评估，我们扩展了现有数据集，包括两个新的逐像素标注任务，即估计高度和土地覆盖。广泛的实验证明，与基线相比，整合地理空间注意力能够在五个不同的任务上实现更好的性能。我们方法的一个主要限制是需要地理参考的地面全景图像。尽管在没有这样的图像时会优雅地失败（转而使用仅俯瞰图像的模型），但如果我们的方法能够包含具有未知方向的图像（例如来自社交媒体的图像）将是理想的。[1] Sean M Arietta, Alexei A Efros, Ravi Ramamoorthi, and ManeeshAgrawala.City forensics: Using visual elements to predict non-visual city attributes. IEEE Transactions on Visualization and Com-puter Graphics, 20(12):2624–2633, 2014. 1, 2[2] Seyed Majid Azimi, Corentin Henry, Lars Sommer, Arne Schumann,and Eleonora Vig. Skyscapes fine-grained semantic understanding ofaerial scenes. In IEEE International Conference on Computer Vision,2019. 2[22] Diederik Kingma and Jimmy Ba. Adam: A method for stochasticoptimization. In International Conference on Learning Representa-tions, 2014. 5[23] Stefan Lee, Haipeng Zhang, and David J Crandall. Predicting geo-informative attributes in large-scale image collections using convolu-tional neural networks. In IEEE Winter Conference on Applicationsof Computer Vision, 2014. 1[24] S. Lef`evre, D. Tuia, J. D. Wegner, T. Produit, and A. S. Nassar. To-ward seamless multiview scene analysis from satellite to street level.Proceedings of the IEEE, 105(10):1884–1899, 2017. 2[25] Daniel Leung and Shawn Newsam. Proximate sensing: Inferringwhat-is-where from georeferenced photo collections. In IEEE Con-ference on Computer Vision and Pattern Recognition, 2010. 1[26] Daniel Leung and Shawn Newsam.Land cover classification us-ing geo-referenced photos.Multimedia Tools and Applications,74(24):11741–11761, 2015. 2[27] Tsung-Yi Lin, Serge Belongie, and James Hays. Cross-view imagegeolocalization. In IEEE Conference on Computer Vision and Pat-tern Recognition, 2013. 2[28] Tsung-Yi Lin, Yin Cui, Serge Belongie, and James Hays. Learningdeep representations for ground-to-aerial geolocalization. In IEEEConference on Computer Vision and Pattern Recognition, 2015. 2[29] Liu Liu and Hongdong Li. Lending orientation to neural networksfor cross-view geo-localization. In IEEE Conference on ComputerVision and Pattern Recognition, 2019. 3[30] Xiaohu Lu, Zuoyue Li, Zhaopeng Cui, Martin R Oswald, Marc Polle-feys, and Rongjun Qin. Geometry-aware satellite-to-ground imagesynthesis for urban areas. In IEEE Conference on Computer Visionand Pattern Recognition, 2020. 3[31] Jiebo Luo, Jie Yu, Dhiraj Joshi, and Wei Hao. Event recognition:viewing the world with a third eye. In ACM International Conferenceon Multimedia, 2008. 1[32] Lei Ma, Yu Liu, Xueliang Zhang, Yuanxin Ye, Gaofei Yin, andBrian Alan Johnson. Deep learning in remote sensing applications:A meta-analysis and review. ISPRS Journal of Photogrammetry andRemote Sensing, 152:166–177, 2019. 2[33] Gell´ert M´attyus, Wenjie Luo, and Raquel Urtasun. Deeproadmapper:Extracting road topology from aerial images. In IEEE InternationalConference on Computer Vision, 2017. 1, 2[34] Gell´ert M´attyus, Shenlong Wang, Sanja Fidler, and Raquel Urtasun.Hd maps: Fine-grained road segmentation by parsing ground andaerial images. In IEEE Conference on Computer Vision and PatternRecognition, 2016. 2[35] Chunhong Pan, Gang Wu, Veronique Prinet, Qing Yang, and SongdeMa. A band-weighted landuse classification method for multispec-tral images. In IEEE Conference on Computer Vision and PatternRecognition, 2005. 1[36] Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Lukasz Kaiser,Noam Shazeer, Alexander Ku, and Dustin Tran. Image transformer.In International Conference on Machine Learning, 2018. 3[37] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, JamesBradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, NataliaGimelshein, Luca Antiga, et al. Pytorch: An imperative style, high-performance deep learning library. In Advances in Neural Informa-tion Processing Systems, 2019. 5[38] C´eline Portenier, Fabia H¨usler, Stefan H¨arer, and Stefan Wunderle.Towards a webcam-based snow cover monitoring network: method-ology and evaluation. The Cryosphere, 14(4):1409–1423, 2020. 117860参考文献0[3] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton.层归一化。arXiv预印本arXiv:1607.06450，2016年。50[4] Sudong Cai, Yulan Guo, Salman Khan, Jiwei Hu, and GongjianWen.使用硬例重加权三元组损失的地面到空中图像地理定位。《计算机视觉国际会议》，2019年。3，40[5] Rui Cao, Jiasong Zhu, Wei Tu, Qingquan Li, Jinzhou Cao, Bozhi Liu,Qian Zhang, and Guoping Qiu.整合航空和街景图像进行城市土地利用分类。《遥感》，10(10):1553，2018年。2，60[6] Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, WeiLiu, and Tat-Seng Chua.Sca-cnn：卷积网络中的空间和通道注意力用于图像字幕。《计算机视觉和模式识别国际会议》，2017年。30[7] David J Crandall, Lars Backstrom, Daniel Huttenlocher, and JonKleinberg. 绘制世界照片。《国际万维网会议》，2009年。20[8] WA Falcon. Pytorch lightning. GitHub.注：https://github.com/PyTorchLightning/pytorch-lightning，3，2019年。50[9] Christian Frueh and Avideh Zakhor.通过合并地面和空中视图构建3D城市模型。《计算机视觉和模式识别国际会议》，2003年。10[10] Ryuhei Hamaguchi and Shuhei Hikosaka.使用尺寸特定检测器的卫星图像建筑物检测。《CVPR研讨会》，2018年。20[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别。《计算机视觉和模式识别国际会议》，2016年。50[12] Yihui He, Rui Yan, Katerina Fragkiadaki, and Shoou-I Yu.用于多视角人体姿态估计的极线变换器。《CVPR研讨会》，2020年。30[13] Yihui He, Rui Yan, Katerina Fragkiadaki, and Shoou-

下载后可阅读完整内容，剩余1页未读，立即下载