航空图像中的自动语义分割研究

141 浏览量更新于2023-10-15 收藏 3.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从航空影像孟华斋ted@cs.uky.edu扎卡里·贝辛格zach@cs.uky.edu斯科特·沃克曼scott@cs.uky.edu内森·雅各布斯jacobs@cs.uky.edu计算机科学，肯塔基摘要我们介绍了一种新的学习策略，从航空图像中提取语义有意义的功能。而不是手动标记的航空图像，我们建议预测（嘈杂）语义特征自动提取的共定位地面图像。我们的网络架构以航拍图像作为输入，使用卷积神经网络提取特征，然后应用自适应变换将这些特征映射到地面视角。我们使用一种端到端的学习方法来最大限度地减少直接从地面图像中提取的语义分割和仅基于航拍图像预测的语义分割之间的差异。我们表明，使用这种策略学习的模型，没有额外的训练，已经能够粗略的航空图像的语义标记。此外，我们证明，通过微调这个模型，我们可以实现更准确的语义分割比两个基线初始化策略。我们使用我们的网络来处理估计地面图像的地理位置和地理方向最后，我们展示了如何从航空图像中提取的功能可以用来幻觉一个似是而非的1. 介绍基于学习的航空图像像素级标注方法不幸的是，创建这样的数据是昂贵的。然而，它的价值是有限的，因为在一个数据集上训练的方法在应用于另一个航空图像源时通常不会表现良好。获取所有模式的足够规模的数据集的困难阻碍了将深度学习技术应用于航空图像的进展。有一些值得注意的例外[22，24]，但这些都使用相当粗粒度的语义类，覆盖了一个小的空间区域，并限于人类注释者能够手动分配标签的模式。我们提出了一种新的策略，以获得语义la-图1. 我们学习直接从同一位置的航空图像预测地面图像分割，从而将语义从地面转移到航空图像域。用于航空图像分割的贝尔。该方法的示意图见图1我们的想法是使用现有的方法进行语义图像分割，这是为地面图像量身定制的，并将这些应用到一个大的地理标记的地面图像数据集。我们使用这些语义标记的图像作为一种形式的弱监督，并试图预测这些语义标签从空中图像集中在地面图像的位置。我们不使用空中和地面视点之间的参数转换。相反，我们使用了一种密集表示法，其精神与塞茨和贝克[27]描述的一般表示法类似，称为过滤流。最近，人们对从航空图像中预测地面图像特征的任务产生了很大的兴趣，867提取物变换标签交叉熵损失传送语义868地面图像地理定位[34]。我们的工作是独一无二的，因为它是第一个试图预测地面图像的密集像素级我们从几个方面证明了这种方法的价值。主要贡献：这项工作的主要贡献是：（1）一种新颖的卷积神经网络（CNN）架构，其将空中图像的外观与相同位置的地面图像的语义布局相关联，(2)展示了我们的训练策略的价值，用于预训练CNN以理解航拍图像，（3）将所提出的技术扩展到地面图像定位，方向估计和合成的任务，以及（4）在大型真实世界数据集上对这些技术中的每一种进行了广泛的评估。这些共同代表了将深度学习技术扩展到航空图像理解领域的重要一步。2. 相关工作学习观点转变许多已经提出了表示两个视点的外观之间的关系的方法。Seitz和Baker [27]使用空变线性滤波器对图像变换进行建模，类似于卷积，但每个像素都不同。它们强调了图像中所有像素的矢量化表示的线性变换是非常普遍的;它可以表示所有标准参数变换，例如相似性、仿射、透视等。最近，Jaderberget al.[13]描述了用于神经网络的端到端可学习模块，空间Transformer，其允许显式空间变换（例如，缩放、裁剪、旋转、非刚性变形）。实际上，包括空间Transformer允许网络从输入中选择感兴趣的区域并将它们转换为规范姿势。同样，等人[35]解决了新颖视图合成的问题。他们观察到不同视图的视觉外观高度相关，并提出了一种用于估计外观流的CNN架构，输入图像中的像素可以用于重建。最近已经提出了几种方法来联合推理共置的空中和地面图像对。 Luo etal. [20]证明了航空图像可以帮助重新识别地理标记地面图像的视觉内容。M a'ttyus等。[21]在单目空中图像和立体地面图像上执行联合推断Wegner等人[31]第31话我的世界给定地平线和摄像机本质，Ghouaiel和Lefe`vre[8]将地理标记的地面-地面矢量变换为将这些图像转换为自上而下的视图，以便能够与航空图像进行比较，从而完成变化探测任务最近关于交叉视图图像地理定位的工作[18，19，33，34]表明，卷积神经网络能够从航空图像中提取特征，这些特征可以与从地面图像中提取的特征相匹配。Vo等人[30]扩展这一工作线，通过应用辅助损失函数来回归地面摄像机相对于航空图像的方位，证明了改进的据我们所知，我们的工作是第一个工作，探索预测的语义布局的地面图像从航空图像。语义分割的航空/卫星图像使用计算机视觉技术进行航空和卫星图像理解有着悠久的传统[11，32，4]。从历史上看，这两个领域是截然不同的。卫星图像的分辨率通常较低，从严格的自上而下的角度看，具有多种光谱波段。航空图像通常分辨率较高，视角更加多样化，但只有RGB和NIR传感器。最近，这两个领域已经融合;我们将使用术语航空图像，因为我们主要使用高分辨率RGB图像。然而，我们的方法可以适用于许多类型的航空和卫星imagery。Kluckner等人[17]使用随机森林来结合颜色和高度信息来解决语义分割的任务。最近的工作探索了CNN在航空图像理解中的应用。Mnih和Hinton提出了一种CNN，用于使用GIS数据作为地面实况来检测航空图像中的道路[22]。他们扩展了他们的方法来处理图像和标签之间的遗漏噪声和配准不良[23]。这些方法需要大量的像素级手动注释或现有的GIS数据。我们的工作是第一个证明的能力，transfer的地面图像到航空图像的密集像素级标签。视觉域自适应域自适应解决了源域和目标域的不对齐[7]。大量的工作已经探索了视觉识别的领域适应[25]。Jhuo等人[14]提出了一种低秩重构方法，其中源特征被变换为中间表示，在该中间表示中，源特征可以由目标样本线性重构。我们的工作是最相似的孙等人。[29]，他们提出了一种用于将场景分类和属性从地面图像转移到航空图像的方法与我们的方法类似，它们学习一个变换矩阵，该矩阵最小化源特征和目标特征之间的距离我们的工作在几个方面有所不同：1）我们不仅在语义维度上而且在空间维度上进行线性变换; 2）我们约束869插值到17 x 17 x通道大小空间图像航空标号VGG16一不12825651264变换矩阵（i，j，y，x）SF1✕1✕2891✕1✕4图2.我们的网络架构的可视化概览。我们使用VGG16架构从航空图像中提取特征，并使用PixelNet方法形成超列。这些特征由三个由1 × 1卷积组成的网络处理：网络A将超列转换为语义特征;网络S从空间图像中提取有用的特征，用于控制变换;网络F定义视点之间的变换。变换T应用于空中语义特征来创建底层语义标签。所述变换矩阵使得所述源特征和所述目标特征的语义含义保持相同，3)我们的变换矩阵是依赖于输入的，以及4）我们以逐端的方式同时学习变换矩阵以及源特征，这简化了训练。3. 交叉视图监督培训我们提出了一种新的训练策略，学习提取有用的功能，从航空图像。其思想是仅使用来自相同位置的对准的航空图像Ia来预测地面图像Ig的语义场景布局Lg该策略在训练时利用现有的地面图像理解方法，但在测试时不需要任何地面图像。我们表示语义场景布局，LG，作为一个像素级的概率分布在类，如道路，植被，和建筑物。我们通过收集地理配准的地面全景图和相同位置的航拍图像来构建训练对，将全景图定向到航拍图像（全景图最初与道路方向对齐），然后使用具有四个语义类的现成方法[2]提取全景图的语义场景布局Lg然后，我们使用端到端的训练策略来学习从航拍图像中提取像素级特征，并将其转换为地面视点。3.1. 网络架构我们提出的网络架构由四个模块组成卷积神经网络（CNN），La=A（ Ia; ΘA）用于从航拍图像中提取语义标签另一CNNS（Ia; ΘS）使用从航拍图像提取的特征来帮助基于航拍图像特征和相应图像中的像素位置来估计变换矩阵M=F（xr，yr，ic，jc，S（Ia; ΘS）; ΘF）最后，我们有一个转换模块，Lg′=T（La，M），它使用估计的转换矩阵M从空中视点转换到地面视点。这些组件有很多选择，本节的其余部分将描述我们为这项研究所做的特定请参见图2以获得架构的可视化概述。航空图像特征提取对于A（Ia; ΘA），我们使用VGG 16 [28]基础架构，并使用PixelNet ap-proach [3]将其转换为像素级标记方法。其核心思想是将基本网络的中间特征图插值到统一的大小，然后沿通道维将它们连接起来形成超列。在我们的实验中，我们形成了超列从VGG 16网络的conv-{12，22，33，43}。超列，现在是256 × 256 × 960，后面是三个1 ×1卷积层，分别有512，512和4个输出通道。前两个1 ×1卷积有ReLU激活，最后一个是线性的。我们指定最终卷积的输出为La=A（Ia; ΘA）。该阶段的输出由网络的最后一级从空中视点转换为地面视点。跨视图语义转换我们表示空中和地面视图之间870YXYXYXGGaa点作为线性操作逐通道地应用于 La 。为了从ha×wa×4空中标记La变换为hg×wg×4地面标记Lg′，我们需要估计一个hg wg×ha wa行随机矩阵M。给定M，转换过程如下：重新塑造天线bel，L，转化为h w×4矩阵l;将其乘以M，a a a a得到lg′;然后将lg′重新整形为地面标签的大小Lg，以形成我们对地面标签的估计Lg′。为了说明场景的预期布局，并处理天空类（从航拍图像中不可见），我们对la，fa的对数进行变换，并添加偏差项b以获得lg′，fg′的对数：fg′=Mfa+b。有许多方法可以表示这种转换矩阵，M，在神经网络中。最简单的方法是图3. 变换矩阵的可视化。（左）变换矩阵M;（右上）变换矩阵的另一种可视化M′M′含有h×w 单元格（正方形热图）。每个单元m′被重新整形为大小h ×w，从对应于位置{（i，j，y，x）|i，j}。我们还提出了航空图像（与m′重叠）和把M看作是可学习变量的矩阵。但这地面图像，以说明如何热点的m'对应于这种方法有两个缺点：（1）变换不依赖于空间图像的内容，以及（2）参数的数量与L a和L g中的像素数量成二次比例。我们将变换矩阵M中的每个元素Mrc表示为神经网络F的输出，该神经网络F以空间图像Ia以及输入和输出特征图中的位置为条件更准确地说，每个元素Mrc=F（xr，yr，ic，jc，S（Ia; ΘS）），其中（ic，jc）∈[0，1]是对应元素的空间图像像素（yr，xr）∈[0，1]是对应元素的底像像素。我们现在定义转换估计神经网络F的架构。位置（r，c）处的变换矩阵的值是通过神经网络F*计算的，随后是softmax函数，以归一化从空间图像采样的所有像素的影响：˜r，c在地面图像上的位置（y，x）其中：Mrc=F（r，c，S（Ia;ΘS））=πc′e~，r，c′图4. 来自我们数据集的对齐的空中/地面图像对的示例。(row 1）在航拍图像中，北方是向上的方向。在地面图像中，北方是中央柱。(row 2-4）Im-Fr，c=F（i，j，y，x，S（Ia;ΘS）），以及i= ωc/ω a/ω a，j = mod（c，ωa）/ω a，y = ωr/ω g/ω g，x =mod（r，ω g）/ω g。基础网络工作F是一个多层感知器，具有ReLU激活函数，将293个元素的向量作为输入。该网络有三层，分别有128、64和1个输出通道（参见图2的下半部分）。朴素的方法可以被认为是这种表示的一种特殊情况，我们忽略了空中图像，并使用行和列的独热编码表示。如上所述，我们表示变换矩阵的方法有两个主要优点：当M较大时参数数量的减少以及适应不同空间图像布局的能力。另一个好处是，如果我们改变用我们的算法估计的年龄相关感受野如下：1）固定地面位置（y，x）（正方形中的位置）;2）选择具有高F_（i，j，y，x，S（Ia;ΘS））的所有（i，j）（轮廓中的位置）价值观空间图像和地面图像之间的对应场以相同的颜色示出。在我们的输入和输出特征图中，很容易创建新的变换矩阵M，而不需要借助于内插。由我们的al-出租m学习的变换矩阵编码航拍图像和地面图像之间的像素对应关系（参见图3）。我们在图4中展示了更多像素对应关系的示例。3.2. 数据集我们从CVUSA数据集收集训练和测试数据集[34]。CVUSA含有约1.5（y，x）（i位置的变换{（i，j，y，x）|（j）重塑eFF871R+G+B来自美国各地的数百万对地理标记的地面和空中图像。我们使用CVUSA的Google街景地图作为我们的地面图像。对于每个全景图，我们还从Microsoft BingMaps下载了同一位置的缩放级别为19的航拍图像。我们过滤掉了没有相应航拍图像的卫星。使用相机我们还垂直裁剪了天空和地面像素，以减少天空和地面像素的部分。我们总共收集了35，532个图像对用于训练，8，884个图像对用于测试。我们数据集中的一些空中/地面图像对的例子如图4所示。3.3. 实现细节我们使用Google的TensorFlow框架实现了所提出的架构我们用Adam优化器训练我们的网络10个时期[16]。我们在所有卷积层和全连接层（输出层除外）中启用批量归一化[12]，衰减0.9，我们的实现可以在[6]中找到。培训程序如下：对于给定的跨视图图像对（Ia，Ig），我们首先计算基础语义像素标签：I g→L g，使用SegNet [2]。然后，我们最小化Lg和T（A（Ia; θA）; ΘT）相对于模型参数θA和ΘT的关系。由此产生的架构需要大量的内存来输出完整的最终特征图，这通常会导致GPU训练的批量非常小。由于PixelNet使用插值来缩放特征图的方法，我们能够执行稀疏训练。我们只提取一个密集的点网格，而不是输出全尺寸的特征图，特征图为17× 17× 4。尽管如此，在测试时，我们可以提供一个航空图像，并生成一个全分辨率，语义上有意义的特征图。4. 评估和应用在本节中，我们将展示我们的网络架构可用于四种不同的任务：1）弱监督语义学习，2）航空图像标记，3）方位回归和地理校准，以及4）交叉视图图像合成。其他定性结果和用于交叉视图图像合成的完整网络结构可以在我们的补充材料中找到。4.1. 弱监督学习我们训练了我们的完整网络架构（使用随机初始化的权重），以使用第3.2节中描述的数据集预测底层语义标签。图5示出了来自在CNN下的空间图像的示例输出La这表明，由此产生的网络图5. 我们的弱监督学习方法在测试图像上的示例输出。对于每个航空图像（顶部），我们显示了由我们的模型推断的像素级标签，该模型仅使用噪声地面图像分割作为标签。我们设想三个类：道路（红色）、植被（绿色）和人工（蓝色）。已经学会了从航空图像中提取语义特征，所有这些都不需要任何人工注释的航空图像。虽然这些结果是令人信服的，他们可以更好地与更高质量的地面图像分割方法。我们使用的方法SegNet[2]主要是在城市场景上训练的，但我们的许多图像来自农村和郊区。最终的结果是，某些类别经常在地面图像中被错误标记，包括污垢和建筑物。此外，由于没有同时捕获航拍图像和航空图像，因此我们无法准确地对瞬态对象（例如车辆和行人）进行建模。所有这些因素使得数据集对训练非常具有挑战性。考虑到这些限制，令人惊讶的是，由此产生的航空图像分割方法工作得如此之好。在下面的部分中，我们将展示使用该网络作为强监督航空图像分割的起点优于两种标准初始化方法。4.2. 培训前的交叉视图我们评估我们提出的技术作为一个预训练策略的任务，航空图像的语义像素标记。从上一节的最佳权重开始，我们使用ISPRS数据集[26]进行微调和评估。该数据集包含在德国Vaihingen上空捕获的33个真正射影像。地面采样距离为9 cm/px，总像元数超过1.68亿。地面真相提供了16张照片;每个像素被分配六个类别中的一个：不透水的表面，建设，低植被，树，汽车，和杂波/背景。图像处理与我们用于预训练的Bing地图图像相比，ISPRS数据集中的图像处于不同的空间尺度，颜色通道代表不同的频带（R通道实际上是近红外通道）。为了确保预训练的网络权重适合新数据集，我们调整了尺度和颜色通道，如下所示。我们首先调整IS-PRS图像的大小，使其相当于Bing地图的缩放级别19.然后，如果R大于，8721我们0.9随机VGG160.80.7图6. ISPRS数据集的一个例子[26]。（左）近红外图像;（中）预处理后的同一图像;（右）图像的地面实况注释。0.4。对于标记为植被的每个像素，我们将R通道强度减半并交换R和G通道。图6所示的结果图像在外观上比原始图像更接近0.60.50.40.30.20.101 2 7 20 54 82我们将16张带注释的图像分为训练（图像5，7，11，13，15，17和21），vali，数据集（图像1和3）和测试（图像23，26，28，30、32、37和40）。从每一组中，我们提取了一组224× 224个子窗口（分别来自训练、验证和测试的82、12和34个子窗口）。然后我们来-使用不同数量的训练图像的性能：1、2、7、20、54和82。我们根据所有像素的平均精度来评估我们忽略杂波/背景像素，因为分配的像素数量较少训练和测试我们使用与第3.1节中定义的空中特征提取器A（Ia; ΘA）相同的架构来在ISPRS上进行语义标注。在训练过程中，我们使用Adam优化器来最小化网络输出和标签之间我们使用批量大小为8，每个图像随机采样1,000个像素进行稀疏训练，并训练网络。我们每1,000次训练迭代运行一次验证集，并保存最佳网络权重以供测试。在测试过程中，我们对图像上的所有像素进行采样以生成密集标签。我们使用VGG 16卷积层的三种不同初始化进行实验，并微调网络的其余层：1）我们的：使用我们的框架预训练的模型进行初始化; 2）随机：使用Xavier初始化[9]初始化; 3）VGG 16：使用ImageNet上预训练的模型进行初始化。由于我们在本实验中使用的VGG16模型是在没有批量归一化的情况下训练的，因此它可能竞争性较小。为了实现公平的比较，我们在这个实验中关闭了批量归一化，并重新训练了15个epoch的网络，以获得预训练的模型。我们的结果（图7）表明，VGG16模型的微调在航空图像标记任务中表现不佳。我们认为，它主要从地面图像中学习的模式可能会阻碍空中图像的模式学习图7.不同初始化方法的性能比较国际摄影测量和遥感学会的分段任务。x轴是训练图像的数量，y轴是平均精度.表1.ISPRS分段任务的每类精度类 Init.训练样本数量agery。我们的方法优于其他两个初始化策略。我们还在表1中给出了每个类别的预测精度。我们强调，我们的方法在建筑，低植被和树木类上做得更好，这些类也可以在预训练注释中找到4.3. 用于地理校准的横视图我们展示了如何地面水平的特征图，我们估计从航空图像可以用来估计地面图像的方向和位置。我们展示了定量结果的方向估计任务和定性结果的同时方向和位置估计。我们使用以下数据集进行所有实验：• CVUSA：我们使用第3.2节中介绍的测试集来创建此数据集;它有两个部分用于方向估计，127205482我们0.670.740.630.640.660.64进出口随机0.700.700.540.620.610.73VGG160.600.550.550.610.700.59我们0.720.760.760.800.750.78Bldg随机0.560.620.630.640.820.71VGG160.780.720.710.690.700.75我们0.370.430.510.650.670.67低随机0.290.290.290.370.670.64VGG160.250.250.290.440.530.57我们0.680.540.710.710.740.74树随机0.420.460.490.560.710.69VGG160.360.440.500.550.650.74我们0.130.460.670.480.480.49车随机0.050.080.100.250.450.57VGG160.050.110.200.200.250.23873图8. Cityscapes数据集（上）和CVUSA（下）上的方向预测的定性结果。Ig、Lg和Lg′垂直堆叠在空间图像的左侧我们在标签上可视化三个类别：道路（红色），植被（绿色）和人造（蓝色）。地面摄像机方位的离散PDF用红色箭头可视化，其长度表示幅度。在CVUSA结果中最后的预测结果是我们的方法的一个典型的失败案例，其中场景从自顶向下的视图是对称的。1400120010008006004002000电话：+86-120-60 60 120 180图9.CVUSA数据集上的方向误差直方图和地理校准。对于方向回归任务，我们将航拍图像旋转到随机角度。对于细粒度地理校准实验，我们围绕随机x，y偏移中心裁剪航拍图像，然后将图像旋转到随机角度。在这两个实验中，地面图像是一样的我们从每个地面图像中裁剪出一个224×448的裁剪图像作为查询图像。• Cityscapes：Cityscapes数据集[5]是最近发布的基准数据集，旨在通过语义像素标签支持城市场景理解任务，ing. 它由来自50个不同城市的立体视频和5，000帧的精细像素级注释和20，000帧的粗略像素级注释组成方位估计对于这项任务，我们假设地面图像的位置和焦距Ig是已知的，但方位是未知的。我们的方法背后的直觉是，地面图像的语义标记将是最相似的航拍图像在实际方向的特征图。对于查询地面图像Ig，第一步是下载相应的航空图像，我a.然后，我们推断查询图像的语义标记Ig→Lg，并使用我们学习的网络Ia→Lg′从航拍图像预测地面图像标记。我们通过计算交叉熵为每个可能的方向在所有可能的方向上以滑动窗口方式在Lg和Lg′之间。我们选择具有最低能量的方向。我们在图8中展示了样本结果，在图9中展示了CVUSA数据集上的方向误差直方图。对于该任务，我们假设我们知道相机的焦距并且对相机位置有粗略的估计（即，在100米以内，ters）。我们从我们粗略估计的区域周围提取256×256的航空图像，并提取相应的地面特征图。我们将我们的定位-每个特征图的信息化过程结果是每个位置的方向分布。图10显示了几个示例结果，包括每个位置最可能的方向，以及最可能的位置和方向对。4.4. 空地图像合成我们提出了一个新的应用程序，通过使用从我们的网络中提取的特征来推断地面图像。我们的网络架构是基于金等人提出的深度，定向生成模型。[15 ]第10段。他们的模型由两部分组成：深度生成器G，其生成试图最小化深度能量模型E的图像。低能量意味着图像是真实的，高能量意味着图像是假的。其架构和训练方法受到生成对抗网络的启发[10]，但它提供了一种基于能量的模型来解决对抗训练的常见不稳定性。874图10. CVUSA上的细粒度地理校准结果。（左）从上到下分别是Ig、Lg和Lg′。我们在标签上可视化三个类：道路（红色）、植被（绿色）和人工（蓝色）。（右）方向流图（红色），其中箭头方向表示该位置的最佳方向，长度表示幅度。我们还分别以蓝色和绿色显示了最佳预测和地面实况截头体。图11. 合成地面视图。每一行示出了航拍图像（左）、其对应的地面全景图（右上）和预测的地面全景图（右下）。我们首先提取一个8× 40× 512的横视特征图f，它已经被学习来关联一个空中和地面图像对。生成器被给定f以及随机噪声z作为输入。生成器输出一个64×320的全景图，Ig，代表预测的地面图像。交叉视图特征、预测全景和地面实况全景Ig被输入到能量模型。批量归一化[12]应用于两个层的每一层模型，除了最后一层。ReLU激活在整个生成器和Leaky ReLU中使用，其中泄漏参数α = 0。2、用于能源模型。模型以交替的方式更新，其中一般-对于能量模型的每次更新，TOR被更新两次。发电机和能量模型都使用Adam优化器进行优化，矩参数β1=0。 5和 β2=0 。 999 我们使用 32的批量进行30 个epochs的训练。本节中使用的架构的完整描述在我们的补充材料中提供。我们的网络生成的示例输出如图11所示。每一行包含一个航拍图像（左），其相应的地面全景（右上），以及我们对地面场景布局的预测该网络已经学习了最常见的特征，例如道路及其方向，以及树木和草地。然而，它很难产生建筑物和天空的幻觉，这可能是由高度可变的外观因素造成我们注意到，合成的地面全景图的分辨率比原始全景图低得多，然而对抗性地生成高分辨率图像是一个活跃的研究领域我们希望在不久的将来，我们将能够以类似的方式使用我们学到的功能此外，对我们的地面图像分割方法进行的重大改进将提供更逼真的预测。5. 结论我们引入了一种新的策略，使用标记的地面图像作为学习理解航空图像的弱监督形式。关键是同时学习从航空图像中提取特征，并学习从航空图像映射到地面图像。我们证明，通过使用这个过程，我们能够自动提取语义上有意义的功能，从航空图像，细化这些获得更准确的像素级标签的航空图像，估计地面图像的位置和方向，并合成新的地面视图。所提出的技术同样适用于其他形式的图像，包括NIR、多光谱和高光谱。对于未来的工作，我们计划探索更丰富的地面图像注释方法，探索什么是可预测的从鸟瞰图地面视图的限制。确认我们衷心感谢 NSF CA-REER 补助金（ IIS-1553116 ）、 Google Faculty Research Award 和 AWSResearch Education补助金的支持。875引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C.西特罗湾S. Corrado，A. Davis，J. Dean，M. Devin等人Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。5[2] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。arXiv预印本arXiv：1511.00561，2015。三、五[3] A. Bansal，X.陈湾，澳-地罗素，A. Gupta和D. RamananPixelnet ： Towards a General Pixel-Level Architecture.arXiv预印本arXiv：1609.06694，2016。3[4] G. Cheng和J.韩光学遥感图像目标检测技术综述CoRR，abs/1603.06201，2016。2[5] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR，2016年。7[6] https://github.com/viibridges/crossnet 网站。5[7] H. Daume III和D.马库斯统计分类器的领域自适应。Journal of Artificial Intelligence Research ， 26 ： 101-126，2006. 2[8] N. Ghouaiel和S. Le fe`vre. 变化探测用地面水平全景和航空图象的耦合地理空间信息科学，19（3）：222-232，2016。2[9] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。2010年国际人工智能和统计会议。6[10] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。7[11] A. Huertas和R.奈瓦提亚在空中探测建筑物。计算机视觉，图形和图像处理，41：131-152，1988。2[12] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。五、八[13] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。2015年，在NIPS中。2[14] 我-- H. Jhuo，D. Liu，L.李和S F.昌具有低秩重建的鲁棒视觉域自适应。CVPR，2012。2[15] T. Kim和Y.本吉奥。具有基于能量的概率估计的深度定向生成模型。arXiv预印本arXiv：1606.03439，2016年。7[16] D. Kingma和J. BA. Adam：一种随机优化方法。2015年，国际会议。5[17] S. Kluckner，T. Mauthner，P. M. Roth和H.比肖夫综合外观和高度信息的航空影像语义分类在ACCV，2009年。2[18] T.- Y. Lin，S. Belongie和J.海斯交叉视图图像地理定位。CVPR，2013。2[19] T.- Y. Lin，Y. Cui，S. Belongie和J.海斯学习地对空地理定位的深度表示。CVPR，2015。2876[20] J. 罗，J.Yu，D.Joshi和W.浩事件识别：用第三只眼睛看世界ACM多媒体会议，2008年。2[21] G. 我也是S. Wang，S. Fidle r和R. 乌塔松高清地图：通过解析地面和空中图像进行细粒度道路分割在CVPR，2016年。2[22] V.Mnih和G. E.辛顿学习在高解析度航空影像中侦测道路。ECCV，2010年。一、二[23] V.Mnih和G. E.辛顿学习从噪声数据中标记航空图像。InICML，2012. 2[24] S. Paisitkriangkrai，J.谢拉山口Janney，V.-D. Hengel等人， EffectiveSemanticPixelLabelingwithConvolutional Net-Works and Conditional RandomFields 。 IEEE/ISPRS Work-shop ： Looking FromAbove：When Earth Observation Meets Vision，2015.1[25] 诉M. 帕特尔河戈帕兰河Li和R.切拉帕视觉主适应：最近进展的综述。 IEEE Signal ProcessingMagazine，32（3）：53-69，2015。2[26] F. Rottensteiner，G. Sohn，M. Gerke和J. D.韦格纳是城市分类和三维建筑重建的试验项目。委员会III-摄影测量计算机视觉和图像分析，工作组III/4-3D场景分析，第1-17页，2013年。五、六[27] S. M. Seitz和S.贝克过滤器流量。ICCV，2009年。一、二[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议。3[29] H.孙习Liu，S. Zhou和H.邹。遥感图像分类中的无监督跨视图语义转换。 IEEE Geoscience and RemoteSensing Letters，13（1）：13-17，2016。2[30] N. N. Vo和J. Hays。使用头顶影像定位和定向街景。在ECCV，2016年。2[31] J. D. Wegner，S. Branson，D. Hall，K. Schindler和P.每一个。利用航空影像与街道影像编目公共对象-城市树木。在CVPR，2016年。2[32] W. Willuhn和F.艾德基于规则的航空影像房屋重建系统。载于1996年国际人口政策审查委员会。2[33] S. Workman和N.雅各布斯卷积神经网络特征的位置依赖性。 IEEE/ISPRS Work-shop ： Looking FromAbove：When Earth Observation Meets Vision，2015.2[34] S.沃克曼河纪念品，N.雅各布斯利用航空参考影像进行广域影像地理定位。在ICCV，2015年。二、四[35] T. Zhou，S.Tulsiani，W.孙，J.Malik和A.A. 埃夫罗斯按外观流查看合成。在ECCV，2016年。2

下载后可阅读完整内容，剩余1页未读，立即下载