没有合适的资源?快使用搜索试试~ 我知道了~
114512倾斜单目图像戈登·克里斯蒂1,罗德里戈·雷内·拉伊·穆尼奥斯·阿布贾德1,凯文·福斯特1, 谢伊·哈格斯特罗姆1格雷戈里·D 2Myron Z. 棕11约翰霍普金斯大学应用物理实验室2约翰霍普金斯大学{gordon.christie,rai.munoz,kevin.foster,shea.hagstrom,myron.brown}@jhuapl.eduhager@cs.jhu.edu摘要物体对于近距离视觉任务,高度和方向已经直接从立体计算的深度导出,并且最近从由深度网络预测的单眼深度导出对于远距离视觉任务,如地球观测,深度不能可靠地估计单目图像。受最近在单目离地高度预测和静态图像光流预测方面的工作的启发,我们开发了一种地心姿态的编码来应对这一挑战,并训练了一个深度网络来密集计算表示,由公开可用的机载激光雷达监督我们利用这些属性来校正倾斜图像并去除观察到的对象视差,以显著提高定位的准确性,并使从非常不同的倾斜视点拍摄的多个图像能够准确对齐。我们证明了我们的方法的价值,通过扩展两个大规模的公共数据集的语义分割倾斜的卫星图像。我们所有的数据和代码都是公开的1。1. 介绍在本文中,我们研究了纠正来自高架摄像机的倾斜单目图像以消除观测对象相对于地面的视差的问题,从而实现对地观测任务的精确对象定位,包括语义映射[6]、地图对齐[32,3]、变化检测[7]和视觉辅助导航[11]。目前,这些任务的最先进的方法集中在近天底图像没有视差的混淆效果,但是,绝大多数的开销图像是倾斜的。为了重新-1https://github.com/pubgeo/monocular-geocentric-pose* 表示相等贡献图1:我们的方法采用单目RGB图像,预测物体高度(米)和地心姿态,并将高度校正为适合通过传统方法进行可靠对准的地理空间精确3D模型。在自然灾害和其他动态世界事件发生时,往往只能及时提供倾斜图像矫正倾斜的单目图像以消除视差的能力将使这些方法在解决现实世界问题方面的效用显著增加为了解决这个非常具有挑战性的问题,我们首先从Gupta等人那里获得灵感。[12]他提出了地心姿态,或地面以上的高度和相对于重力的方向,作为使用RGBD图像对对象检测,分割和定位任务施加真实世界结构的强大表示。手工制作的功能基于114513这个想法甚至在用于室内语义分割的最先进的深度学习方法中具有突出的特征[13,20,14,4,24,18,22,30]。对于近距离视觉任务,高度和方向直接来自立体计算的深度,最近来自深度网络预测的单眼深度[17]。对于像地球观测这样的远程视觉任务,不能用单目图像可靠地估计深度,因此我们进一步从最近的单目离地高度预测[26,21,10,1,2,16,15,33]和最优估计中得到启发。根据静态图像进行校准流预测[23,29,28,9]。我们开发了一种地心姿态的编码,并训练了一个深度网络来密集地计算表示。我们的模型联合学习预测地面以上的高度和密集的流向量,将表面特征映射到地面。图1示出了使用我们的方法来校正从非常不同的倾斜视点拍摄的头顶图像,然后对准校正后的高度图像-这个例子的高度和气流是从激光雷达中得到的,但是我们模型的预测例子在4.3节中给出。虽然我们的实验结果证明了卫星图像,我们相信我们的方法也可以成功地应用于机载相机,甚至地面相机。我们的贡献总结如下:• 我们采用地心姿态作为倾斜单目图像中几何形状的一般表示,并首次报告以下内容:1)一种监督其学习的方法,以及2)一种用于预测而不依赖于深度估计的方法,所述深度估计不能从较长范围的单目图像可靠地确定。• 我们扩展了Urban Semantic 3D(US3D)数据集[2],以包括地心姿势任务的标签,从而实现公共研 究和 方法 的 比较 分析 。 我们 进一 步 扩展 了US3D,以包括来自SpaceNet 4(SN 4)竞赛[31]的具有广泛倾斜视角的其他图像,从而能够对该任务进行更• 我们证明,我们的模型设计为联合学习高度和方向比单独训练每个任务的模型表现更好,并通过共享权重提高效率。我们进一步证明了旋转增强的必要性,以克服由于太阳同步卫星轨道导致的严重有限的视点多样性带来的偏差。• 我们证明了我们的图像校正方法的有效性,以提高交叉联合(IoU)分数与倾斜图像的语义分割• 我们所有的数据和代码都是公开的。2. 相关工作我们的方法从大量利用物体高度和方向的作品中汲取灵感,以改善RGBD图像的语义分割和相关任务。我们在深度网络中对这种表示进行编码的灵感来自于最近在从单个图像预测地面以上高度和从静态图像预测光流方面的进展在介绍我们方法的细节之前,我们回顾一下这些激励工作。2.1. 地心姿势Gupta等人[12]提出了地心姿态-相对于地面的高度和方向-作为对象识别和场景分类的一般特征。Gupta等人[13]进一步提出将水平距离(或深度)、地面以上的高度和相对于重力的方向编码为流行的三通道HHA表示,并证明了对于对象检测、实例分割和语义分割任务的显著性能改进。手工制作的HHA功能甚至在用于室内语义分割[20,14,4,24,18,22,30]以及对象检测[20,25]和语义场景完成[19]的深度学习最先进的方法中也占有突出地位所有这些工作都涉及近距离室内视觉任务,并从深度导出地心姿态,其中地面以上的高度相对于图像中的最低点近似[12]。在我们的工作中,我们学习在复杂的户外环境中直接预测这些属性,基于外观而没有深度,这很难从远距离捕获的图像中可靠地估计。我们还准确地预测从单目图像地面以上的绝对高度。这对于准确地校正图像、去除观察到的物体视差以提高定位的准确性以及使得能够准确地对准从非常不同的倾斜视点拍摄的多个图像是必要的2.2. 单目高度预测用于单眼深度预测的深度学习方法的成功[17]促使最近的工作直接学习从单个图像中的外观预测高度。据我们所知,最早的工作是由Srivastava等人进行的。(2017)提出了一种多任务卷积神经网络(CNN),用于单目航空图像的联合高度估计和语义分割[26]。Mou和Zhu(2018)还提出了一种用于高度估计的CNN,并展示了其在建筑物分割中的应用[21]。这些早期的作品都是使用来自一个城市的一个架空图像拼接来评估的。Ghamisi和Yokoya(2018)提出了一种用于图像到高度转换的连续生成对抗网络(cGAN),并报 告 了 来 自 三 个 城 市 的 单 个 图 像 的 结 果 [10] 。Amirkolaee和Arefi(2019)提出了一种使用地震后激光雷达训练的CNN,并通过比较地震前和地震后的模型预测来证明其用于检测倒塌的建筑物。114514年龄[1]。为了通过更大规模的监督来促进研究,Bosch et al.(2019年)制作了城市语义3D(US3D)数据集,其中包括佛罗里达州杰克逊维尔和内布拉斯加州奥马哈的69张卫星图像,每张图像覆盖约100平方公里[2]。Le Saux等人(2019年)利用该数据集进行了2019年数据融合竞赛,重点关注语义3D重建,包括单视图语义3D的新颖挑战赛道[16]。Kunwar [15]和Zheng等人的成功解决方案。[33]两者都利用语义标签作为高度预测的先验。在这项工作中,我们证明了可比的准确性没有语义先验。我们还通过联合学习预测方向流矢量来提高高度预测精度除了我们的实验之外,我们还利用并扩展了US3D数据集,使用来自2018年SpaceNet 4(SN4)竞赛的公共卫星图像,这些图像跨越了佐治亚州亚特兰大的各种视角[31],我们证明了我们预测地心姿态的方法显着提高了倾斜图像的建筑物分割精度。2.3. 从静态图像预测光流我们学习地心姿态的方法受到最近证明的方法的启发,这些方法可以从静态图像中预测密集的光流场,并从应用于视频的光流方法中进行自我监督。Pintea等人(2014)提出了使用结构化随机森林从静态图像回归密集光流场[23]。Walker(2015)提出了一种用于序数回归的CNN,以更好地在不同的领域中进行推广[29]。Walker等人(2016)提出了一种使用变分自动编码器(VAE)的生成模型,用于从静态图像中学习运动轨迹[28]。Gao等人( 2018)还探索了一种使用cGAN的生成模型,但报告了使用Im 2Flow回归模型进行光流预测和动作识别的最新结果,Im 2Flow回归模型是一种修改的U-Net CNN编码器/解码器,通过最小化像素L2损失和运动内容损失进行训练,运动内容损失来自于一个单独的动作识别网络,该网络将回归网络正则化以产生真实的运动模式。9]。为了学习地心姿态,我们采用了类似的U-Net架构,并通过联合学习来预测高度来展示我们还通过在训练过程中进行旋转增强来突出我们任务的方向偏差。如第3.3节所述,我们使用激光雷达自动生成参考流场进行监督。3. 学习地心姿势3.1. 表示我们的地心姿态的表示编码的地面以上的高度和流矢量,映射到地面的表面特征。卫星推扫式传感器模型,很好地近似局部仿射投影,保持不变性质的平行[5]。我们在用像素级大小和图像级方向表示流场时,利用了这一特性。与[9]类似,我们将方向(θ)表示为二元向量[sin(θ),cos(θ)],表示流向量的水平和垂直分量。我们观察到,每个特征因此,我们在模型中使用高度作为先验来学习幅度。3.2. 模型我们的模型,如图2所示,联合预测图像级的方向,以及密集的地面高度和流矢量的大小。基础架构利用了一个U-Net解码器和一个ResNet 34编码器。在编码器的最后一层,图像级方向被预测为sin(θ)和cos(θ)。解码器的输出用于预测高度,其与解码器输出级联以预测幅度。MSE用于所有输出头(图像级方向,幅度和高度),其中每个损失在训练过程中被同等加权。在测试时,可以通过乘以图像级方向和每像素幅度的预测来计算流矢量我们提出了一个消融研究,其中高度预测从模型中删除,以显示其重要性,学习预测方向和幅度。高度是图像中的对象固有的,其中在不同图像中表示建筑物上的相同物理位置的像素应该具有相同的高度。然而,这些像素的幅值将随着观看几何形状的改变而变化。我们相信高度的内在属性为预测星等提供了有价值的背景。我们还表明,我们的高度预测的准确性与公共挑战数据集的最先进解决方案相当,并注意到我们的网络为多个任务共享权重,使其比为每个任务使用单独的网络更有效。3.3. 监督为了使我们的模型能够进行监督学习,我们已经开发了一个流水线,用于产生非重叠的开销RGB图像块,其中激光雷达衍生的属性投影到每个倾斜图像像素中,如图3所示。我们利用这个管道为我们的任务生成训练和测试数据集,增加了US3D [2]和SN 4 [31]的公共数据。对于每个地理瓦片,我们首先使用相互信息度量将每个头顶图像与激光雷达强度对齐,并更新RPC相机元数据中的图像平移项[5]。为了提高图像匹配的可靠性,我们使用太阳角图像元数据在每个激光雷达强度图像中投射阴影,以匹配阴影。114515平均池图2:这显示了我们完整方法的架构,它使用了带有ResNet 34编码器的U-Net解码器在编码器的最后一层,我们将图像级方向预测为sin(θ)和cos(θ)。在解码器的输出端,我们预测每像素的地平面以上高度值,这些值与解码器的输出连接并用于预测每像素的幅度。MSE损失用于所有输出磁头。在测试时,可以通过将图像级方向预测与每像素幅度相乘来计算流矢量在RGB图像中观察到。所产生的层包括UTM地理坐标、来自数字地形模型(DTM)的地面高度、来自数字表面模型(DSM)的表面高度、从DSM和DTM的差异计算的地面以上高度、为图像匹配产生的阴影掩模以及将表面水平特征像素映射到其地面水平像素坐标的图像流我们的地心姿态表示由地面以上的高度和相对于地面的方向组成,如由密集流矢量定义的。两者都依赖于DTM中的地平面知识对于我们实验中使用的激光雷达数据,DTM层是由专业测量人员通过手动编辑产生的,但是激光雷达中的地面分类自动化方法,甚至是使用卫星图像产生的DSMs也很好[8]。在我们的实验中,我们还使用了来自公共地图数据的语义标签我们使用与激光雷达属性相同的过程将此地图数据投影到每个图像中。层包括每个像素的语义标签和建筑物的地面足迹建筑立面与屋顶分开标记。4. 实验4.1. 数据集对于我们的实验,我们使用第3.3节中描述的方法扩展了两个公开可用的数据集-我们使用每个数据集的全分辨率进行训练。• DFC19。我们使用了来自US3D的2,783张训练图像和50张来自佛罗里达州杰克逊维尔和内布拉斯加州奥马哈的测试图像,用于2019年数据融合竞赛[16]。我们还使用了一个扩展的测试集与300图像图3:每个RGB图像的激光雷达衍生属性包括地面以上高度、地心姿态流矢量和阴影遮罩。地图属性包括语义标签、建筑立面和地面建筑覆盖区。包括对于相同地理瓦片的更多视图多样性每个图像都是2048x2048像素。• ATL-SN 4.如图4所示,我们使用公共未校正源图像生成了亚特兰大的25,500个训练图像和17,554个测试图像,以紧密匹配用于SN 4的校正图像图块。我们使用了7,702张训练图像和310张测试图像,裁剪为1024x1024像素,用于我们的实验。DFC 19和ATL-SN 4数据集中图像的视点多样性和像素分辨率如图5所示。杰克逊维尔和奥马哈的图像被收集起来 由MAXAR++512512瓶颈256256256256256256高度128 128512512512 51264 64256 256 256 2566 6幅度V FLOW6 66 6114516图4:选择ATL-SN 4未校正图像(右)的训练(蓝色)和测试(红色)瓦片,以紧密匹配SpaceNet 4正射校正图像瓦片(左)的分割图片来自Google Earth。图5:方位角、离天底角和分辨率(米)显示了DFC19(上)和ATL-SN 4(下)中杰克逊维尔和奥马哈图像gles. ATL-SN 4图像由MAXAR的WorldView-2卫星在单一轨道期间收集这些数据集一起可以进行全面的评估。4.2. 方法流向量回归对于每个测试集,我们提供了四组结果。这些包括有和没有高度监督训练的模型的组合,以及有和没有训练时间旋转增强的模型的组合。如前所述,由于太阳同步卫星轨道,我们的数据集包含方向偏差。为了使我们的模型可推广到不可见的方向,我们随机执行训练时间翻转和旋转,这可以在训练过程中的不同时期为每个图像引入新的方向地面实况我们的方法描述如下:• 删除高度预测头的FLOW模型,并在没有增强的情况下进行训练。• 流量-H完整的模型在没有增强的情况下训练。• FLOW-一个经过增强训练的FLOW。• FLOW-HAFLOW-H接受强化训练。为了完整起见,我们为我们的预测提供了图像级方向(角度)和像素级幅度(mag)误差,因为它们是在训练过程中单独学习的定向误差以度为单位,而幅度误差以像素为单位。然而,我们注意到,方向和幅度通常不适合这项任务。作为示例,在所有像素幅度为零的最低点图像中,预测取向是无意义的。类似地,在幅度高的高度倾斜图像中,准确地预测取向是极 其 重 要 的 。 因 此 , 我 们 测 量 每 像 素 端 点 误 差(EPE),其测量预测流向量和地面实况流向量的端点之间然而,请注意,当从传感器Meta数据知道方位时,mag误差等于EPE,这有时是卫星图像的情况。因此,当方位已知时,mag误差可以是适当的度量。这些度量是在有和没有测试时旋转的情况下计算的,以显示不包括训练时旋转的模型如何过拟合训练集中的有限方向集我们还计算了每个类别的EPE,以显示se-mantics如何影响性能。使用DFC19中的类别,以及带有阴影遮罩的单独层。建筑物足迹提取这项工作的目标之一是使更准确的自动映射从开销图像。通过我们的流矢量预测,任何分割器或检测器的输出都可以输入到我们的模型中,并转换为地面水平。为了证明我们的模型的准确性,我们使用来自DFC 19和ATL-SN 4测试集的建筑注释和足迹。建筑物注释由图像中的屋顶和立面标签组成,而轮廓线表示从自上而下激光雷达识别的建筑物底部。使用我们预测的流向量,我们将建筑注释扭曲到地面水平,并与地面实况足迹进行比较。我们还展示了反向能力,我们从足迹开始,并使用我们预测的流向量将它们扭曲成建筑注释。这在期望覆 盖 地 图 数 据 的 情 况 下 是 有 用 的 ( 例 如 ,OpenStreetMap)作为初始注释集例如,当一个新的图像被捕获的一个地区积极开发,我们可能希望拉在现有的注释,使注释器不从头开始。我们比较了两个任务中每个任务的三个结果:1)将建筑物注释转换为覆盖区,以及2)将覆盖区转换为建筑物注释。首先,我们测量114517建筑注释和足迹之间的IoU,以了解当我们什么都不做时的准确性。其次,我们使用地面实况流向量将源掩码(建筑注释或足迹)扭曲到目标掩码,以获得IoU的上限,如果我们完美地预测流向量,可以实现什么。请注意,在这种情况下,由于被遮挡的地面像素,我们最后,我们使用我们预测的流向量来测量源掩码的扭曲版本的IoU。4.3. 结果高度预测我们评估了我们当前的方法,该方法采用FLOW-H的高度输出,与最近两个强基线[15,33]相比,用于非常具有挑战性的DFC 19测试集[16],测量高度预测的平均值和均方根(RMS)误差(米),与激光雷达测量的地面以上高度相比。结果示于表1中。这两种基线方法都使用语义类别来锚定高度预测,并且都利用测试时间集合来提高性能。虽然语义锚出现,以提高准确性的类别与低高度的变化,他们没有考虑到在城市场景中观察到的变化。我们的模型在没有语义先验或测试时集成的情况下整体表现更好。图6描述了训练集和测试集的建筑物高度统计数据,其中一些建筑物高度接近200米。对这些罕见的高大物体进行更可靠的预测是一个正在进行的研究课题。高度预测性能的存在下,显着的地形起伏也尚未得到表征。DFC 19和ATL-SN 4数据集中地面地形高度变化的统计数据如图7所示。是说平均建筑物RMSRMS大厦昆瓦尔[15]2.698.339.2619.65Zheng等人[33个]2.948.729.2419.32我们2.987.738.2316.87表1:我们的回归模型产生的身高预测具有比基线模型更低的RMS误差(米),基线模型将身高预测与语义类别锚定。流矢量回归我们在DFC 19测试集上的每个方法的结果(不含测试时间增加)见表2。表3显示了应用于包含旋转增强的测试集的相同方法的结果。每个类别的结果是EPE。导致阴影,这是一个单独的层(即,不作为DFC类别层的一部分被包括)也被包括。表4和表5显示了ATL-SN 4的类似结果,但排除了语义细分,因为相同的人类验证语义标签不适用于该数据集。测试集由原始DFC19和1098765432100 20 40 60 80 100120140160180建筑高度(米)图6:列车和测试集中的高度分布是可比较的,一些建筑物接近200米。1201008060402000 10 20 30 40 50 60 70 80 90100地形高度范围(米)图7:地面地形高度变化统计。ATL-SN 4测试集以及每幅图像的9个额外旋转增强,间隔为36度。关于这些结果,可以得出两个关键的观察结果1)从表3和表5中可以清楚地看出,在没有旋转增强的情况下训练的模型过拟合训练集的取向偏差,并且目前需要训练时间旋转增强来为该任务创建可推广的模型。2)当应用测试时间轮换时,联合学习预测地上高度改善了不出所料,我们观察到地面像素的最低EPE值,以及立面,屋顶和高架道路上的一些最高EPE误差,其中地面真实值最高。我们在图8中定性地显示了训练时间旋转的重要性。在第一列中,没有执行测试时间旋转,我们可以定性地观察到FLOW-H和FLOW-HA之间的相似性能。然而,在第二列中,当我们将图像旋转到最初未在训练集中表示的方向时,我们看到FLOW-H在定性上比FLOW-HA表现得更差。在本节中,我们将演示如何将图像空间中的语义分割转换为地面地图数据,以及如何将地图数据转换为图像。表6和表7显示了火车测杰克逊维尔奥马哈亚特兰大平铺计数Log10像素计数114518方法mag角度EPE地面蔬菜屋顶水高架道路立面阴影流2.7116.113.081.393.685.441.786.867.114.03流量-H2.4016.142.920.923.865.701.546.427.373.98流程-A2.9117.523.241.154.046.171.577.668.324.42FLOW- HA2.6915.093.041.064.065.891.416.897.834.25表2:DFC 19的无测试时间旋转的结果所有数字越低越好每个类别的值都是终点误差(EPE)。该表强调了经过泛化训练的模型比学习训练集的方向偏差的模型表现更差然而,我们注意到,在没有旋转增强和高度监督的情况下训练的模型具有最好的整体EPE。方法mag角度EPE地面蔬菜屋顶水高架道路立面阴影流4.1579.526.112.397.3411.993.0112.6713.807.50流量-H4.0778.155.952.067.2912.182.9412.8213.867.35流程-A3.0217.483.351.184.126.221.568.068.354.51FLOW- HA2.8316.793.211.104.176.101.447.558.084.42表3:DFC 19的测试时间旋转结果。所有数字越低越好。每个类别的值都是终点误差(EPE)。该表强调了训练时间旋转增强目前需要克服太阳同步卫星轨道引起的定向偏差,并在测试时间旋转的情况下表现良好。这些结果还强调,在大多数类别中,高度监督训练提高了整体EPE表现这些改进对于屋顶、高架道路和立面最为显著,准确的流矢量预测在这些方面更为重要。方法mag角度EPE流3.889.644.17流量-H3.787.383.99流程-A5.3715.766.03FLOW- HA4.7916.575.38表4:ATL-SN 4的测试时旋转结果cess as Ours我们的,but with the ground地面truth真相flow流vectors向量.如表6和表7所示,我们的结果比原始构建注释更好地注意,被遮挡的像素阻止GT达到IoU分数1。GT表示利用完美的流矢量预测可以实现与表2类似,我们可以看到,在没有旋转增强但有高度监督的情况下训练的模型,大楼足迹足迹建筑当测试集包含方向偏差时最好。方法mag angle EPE未纠正0.78(92.9%)0.78(90.7%)我们的0.83(98.8%)0.82(95.3%)总吨0.84表5: ATL-SN 4的测试时间旋转结果建筑到足迹足迹到建筑物与表3类似,我们可以看到训练时间旋转和当应用测试时间旋转时,高度监督是重要。分别用于DFC 19和ATL-SN 4的IoU。未校正的是建筑物注释和未变形的覆盖区之间的比较。我们的是比较之间的原始掩模和目标掩模的变形版本同样的Pro-未矫正0.74(89.2%)0.74(86.0%)我们的0.76(91.6%)0.77(89.5%)总吨0.83表7:对于ATL-SN 4,用于将构建注释转换为封装以及反之亦然的IoU和GT百分比。地图对齐将语义标签调整到地面水平简化了对齐地图和倾斜图像的任务流6.0477.318.79表6:用于转化构建的流量-H6.3081.349.04对于DFC 19,将注释与封装外形进行交互。流程-A4.8115.775.39FLOW- HA4.2223.195.15114519是说IoU> 0.5未对齐0.460.40RGB对齐0.660.85FLOW- HA0.690.93FLOW- HA固定角度0.690.94图8:在训练我们的模型时,方向增强有助于减少卫星视角的偏差。高度和流量矢量地面实况以及使用和不使用增强训练的模型的预测显示为来自ATL-SN 4的示例。年 龄 如 图 1 所 示 。 为 了 证 明 这 一 点 , 我 们 应 用MATLAB imregdemons函数(非参数图像配准的有效实现[27])来估计DFC 19测试集中图像对之间的密集位移场我们这样做是为了将RGB图像作为基线对齐,然后对校正后的高度图像进行调整,以证明对齐效果得到了改善。表8显示了校正到地平面的参考建筑物分割标签的平均IoU分数,并与对齐后的参考足迹进行了比较。平均IoU显著提高,IoU大于0.5的图像比例显著提高。5. 讨论在本文中,我们介绍了学习地心姿态的新任务,定义为地面以上物体的高度和表8:用于将每像素建筑物标记变换为其他重叠图像中的足迹的IoU值。在倾斜的单目图像中。虽然我们已经证明了这种表示法在纠正倾斜卫星图像中的地面特征方面的价值,但我们相信,只要稍加修改,我们的方法也可以成功地应用于机载相机,甚至地基相机,以解决广泛的户外测绘、变化检测和视觉辅助导航任务,而这些任务不能假设单一关于地心姿态的大部分先前工作都集中在将其作为用于语义分割的手工制作的特征来利用在这项工作中,我们专注于利用它类似于HHA表示的许多先前工作,我们希望我们的表示也将提供一个有效的先验,用于正则化语义分割预测。虽然我们目前的结果清楚地表明了所提出的方法的有效性,但仍有许多尚未探索。我们期望,更明确地采用直观的线索,如阴影和建筑立面将有助于减少预测误差的高度变化中观察到的城市场景。此外,虽然我们的旋转增强有助于解释卫星图像中的方位偏差,但我们预计,更充分地解释真实几何形状和外观变化将有助于解决当前观察到的故障情况。我们计划在未来的工作中探索这些想法,我们将公开重新租赁我们所有的代码和数据。致谢这项工作得到了情报高级研究项目活动(IARPA)合同号的支持。2017- 17032700004。这项工作得到了国家地理空间情报局(NGA)的进一步支持,并批准公开发布,20-316,分发声明A -批准公开发布;分布是无限的。的美国政府被授权为政府目的复制和分发重印本,尽管上面有任何版权注释。免责声明:本文所载的观点和结论是作者的观点和结论,不应被解释为必然代表IARPA、NGA或美国政府的政策或认可,无论是明示的还是政府的114520引用[1] Hamed Amini Amirkolaee和Hossein Arefi。基于CNN的地震前和地震后高度模型的估计,从单个光学图像识别倒塌建筑物。遥感通讯,2019年。二、三[2] Marc Bosch 、 Kevin Foster 、 Gordon Christie 、 SeanWang、Gregory D Hager和Myron Brown。附带卫星图像的语义立体。在WACV,2019年。二、三、四[3] 陈洪烈,谢伟迪,安德烈·维达尔迪,安德鲁·齐斯瑟曼。 自动 更正 :噪 声几 何注释 的深 度归 纳对 齐。BMVC,2019年。1[4] Yanhua Cheng,Rui Cai ,Zhiwei Li ,Xin Zhao,andKaiqi Huang.用于RGB-D室内语义分割的具有门控融合的局部敏感反卷积网络。在CVPR,2017年。2[5] Carlo de Franchis , Enric Meinhardt-Llopis , JulienMichel,J-M Morel,and Gabriele Facciolo.推扫式影像的立体校正。InICIP,2014. 3[6] Ilke Demir、Krzysztof Koperski、David Lindenbaum、Guan Pang、Jing Huang、Saikat Basu、Forest Hughes、Devis Tuia和Ramesh Raska。DeepGlobe 2018:通过卫星图像解析地球的挑战。在CVPRW,2018年。1[7] Jigar Doshi,Saikat Basu和Guan Pang。从卫星图像到灾害洞察。NeurIPS研讨会,2018年。1[8] 刘云段,马蒂厄Desbrun ,安妮Giraud ,弗雷德里克Trastour,和莱昂内尔Laurore。从卫星数据生成大规模DTM在CVPRW,2019年。4[9] Ruohan Gao , Bo Xiong , and Kristen Grauman.Im2Flow:用于动作识别的静态图像运动幻觉。在CVPR,2018年。二、三[10] 佩德拉姆·加米西和横谷直人。IMG2DSM:使用条件生成对抗网络从单个图像进行高度模拟。IEEE Geoscienceand Remote Sensing Letters,2018。2[11] 亨特·戈福斯和西蒙·露西使用预先存在的卫星图像的GPS拒绝的UAV在ICRA,2019年。1[12] Saurabh Gupta 、 Pablo Arbelaez 和 Jitendra Malik 。 从RGB-D图像中感知组织和识别室内场景。CVPR,2013。一、二[13] Saurabh Gupta , Ross Girshick , Pablo Arbelaez , andJitendra Malik.从RGB-D图像中学习丰富的特征用于对象检测和分割。2014年,在ECCV。2[14] Saurabh Gupta,Judy Hoffman,and Jitendra Malik.用于监督传输的交叉模态蒸馏在CVPR,2016年。2[15] 萨 基 特 · 昆 瓦 用 于 语 义 和 高 度 估 计 的 U-NetEntrancement,在IGARSS,2019年。二、三、六[16] 贝特朗·勒·索克斯、横谷直人、罗尼·汉施、迈伦·布朗和格雷格·海格。2019年数据融合竞赛[技术委员会]。IEEE Geoscience and Remote Sensing Magazine,2019。二三四六[17] 李正奇和诺亚·斯内弗利。MegaDepth:从互联网照片中学习单视图深度预测。在CVPR,2018年。2[18] Di Lin , Guangyong Chen , Daniel Cohen-Or , Pheng-Ann Heng,and Hui Huang.用于RGB-D图像语义分割的级联特征网络。InICCV,2017. 2[19] Shice Liu , Yu Hu , Yiming Zeng , Qiankun Tang ,Beibei Jin,Yinhe Han,and Xiaowei Li.看与想:解开语义场景完成。NeurIPS,2018。2[20] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的全卷积网络。CVPR,2015。2[21] 牟立超和朱小象。 IM 2 HEIGHT:通过完全残差卷积-解卷积网络从单目图像估计高度。arXiv:1802.10249,2018. 2[22] Seong-Jin Park , Ki-Sang Hong , and Seungyong Lee.RDFNet:用于室内语义分割的RGB-D多级剩余特征融合。InICCV,2017. 2[23] Silvia L Pintea , Jan C van Gemert , and Arnold WMSmeulders. 似曾相识。2014年,在ECCV。二、三[24] Xiaojuan Qi,Renjie Liao,Jiaya Jia,Sanja Fidler,andRaquel Urtasun.用于RGBD语义分割的三维图神经网络。InICCV,2017. 2[25] Max Schwarz,Anton Milan,Arul Selvam Periyasamy,and Sven Behnke.用于杂波中自主操作的RGB-D目标检测和语义分割。IJRR,2018年。2[26] Shivangi Srivastava,Michele Volpi,and Devis Tuia.基于cnn的单目航空影像联合高程估计与语义标注。在IGARSS,2017年。2[27] Tom Vercauteren、Xavier Pennec、Aymeric Perchant和Nicholas Ayache。异形恶魔:高效的非参数图像配准。NeuroImage,2009. 8[28] Jacob Walker , Carl Doersch , Abhinav Gupta , andMartial Hebert.不确定的未来:使用变分自动编码器从静态图像进行预测。 在ECCV,2016年。 二、三[29] Jacob Walker Abhinav Gupta和Martial Hebert从静态图像预测稠密光流在ICCV,2015年。二、三[30] Weiyue Wang and Ulrich Neumann.用于RGB-D分割的深度感知CNN。在ECCV,2018。2[31] Nicholas Weir 、David Lindenbaum、Alexei Bastidas、Adam Van Etten、Sean McPherson、Jacob Shermeyer、Varun Kumar和Hanlin Tang。SpaceNet MVOI:a多视图头顶图像数据集。在ICCV,2019年。二、三、四[32] Armand Zampieri,Guillaume Charpiat,Nicolas Girard,and Yuliya Tarabalka.通过多尺度链神经网络的多模态图像对准及其在遥感中的应用.在ECCV,2018。1[33] 卓正,钟燕飞,王君绝。 Pop-Net:用于语义分割和单视图高度估计的编码器-双解码器。在IGARSS,2019年。二、三、六
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功