边界感知的单个高空图像三维建筑重建

149 浏览量更新于2023-10-25 收藏 16.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4410基于边界感知的单个高空图像三维建筑重建0Jisan Mahmud True Price Akash Bapat Jan-Michael Frahm北卡罗来纳大学教堂山分校0{ jisan,jtprice,akash,jmf } @cs.unc.edu0单个高空图像0区域提案网络0边界框和掩模检测0建筑物轮廓提案模块（Mask R-CNN）0修改后的有符号距离函数0像素级高度预测0像素级语义分割0建筑物细化0三维建筑建模0图1：我们方法的概述。给定一个单个高空图像，我们的多任务、多特征深度网络生成2D建筑物轮廓提案、像素级高度图、修改后的有符号距离函数（BPSH）和像素级语义标签。然后使用BPSH对建筑物轮廓进行细化，并将其与高度估计相结合产生3D模型。0摘要0我们提出了一种基于边界感知的多任务深度学习框架，用于从单个高空图像快速建模三维建筑。与大多数现有技术依赖多个图像进行三维场景建模不同，我们通过联合学习建筑物边界的修改后的有符号距离函数（SDF），场景的密集高度图和场景语义来对场景中的建筑物进行建模。为了联合训练这些任务，我们利用像素级语义分割和归一化数字表面地图（nDSM）作为监督，除了标记的建筑物轮廓。在测试时，仅使用输入的高空图像就可以自动对场景中的建筑物进行三维建模。我们通过考虑为其他联合学习任务学到的网络特征来改进建筑物轮廓检测的多特征网络架构，从而提高建筑物建模性能。我们还引入了一种使用学习到的修改后的SDF来稳健地细化特定实例的建筑物轮廓的新机制。我们在多个大规模卫星和航空图像数据集上验证了我们方法的有效性，在三维建筑物重建任务中获得了最先进的性能。01. 引言0自动场景理解和从高空图像中检测长期以来一直是计算机视觉界的关注点[8, 37, 15, 9, 35, 16, 39, 24,53]。从高空图像中识别和建模三维建筑在许多应用中起着重要作用。在像飓风或地震这样的重大灾害之后，从高空图像（如卫星和航空图像以及激光雷达）中自动建模建筑可以提供关键线索，指示对人类定居点的影响，并有助于灾害准备和评估。这种建模还可以促进城市规划和分析、数字地图制作、高空监视以及视频游戏和电影中的城市建模。对于这个任务，卫星和航空成像服务在提供相对高分辨率图像的同时保持相对经济高效的捕捉成本方面具有独特优势。相比之下，虽然航空或卫星激光雷达可以提供高度准确的场景几何信息，但这些扫描往往成本高昂且提供低分辨率几何信息。地面级视图也不够有效：专用摄影只能高效地捕捉到小范围的区域，街景图像不一定能从所有方向捕捉到建筑物，而城市规模的重建则需要对可能数百万张图像进行仔细注册，而这些图像可能仍然无法完全捕捉到稀疏成像区域[19,7]。对于大规模的Our multi-task formulation is inspired by several existingworks, including approaches in different imaging modal-ities, and methods that aim to solve a subset of our fourtasks. Next, we review works related to estimating 3D ge-ometry from overhead images, including single-view meth-ods; multi-task learning for overhead image understanding;and object instance detection from images.4420在场景分析中，卫星和航空成像提供了整体分辨率和空间覆盖的最佳平衡。许多从卫星或航空图像中重建的方法利用了场景多个视图引起的几何约束，并依赖于光度匹配[30, 41,31, 56, 57,27]。这些方法假设图像之间的外观相似性，限制了这些方法使用最好在短时间内（例如几天或几周）拍摄的图像。相比之下，从单个卫星或航空图像中进行重建不需要这个要求。单视图方法可以提供快速的三维重建，同时在数据捕捉方面经济高效。这种方法可以对稀疏成像区域进行建模，对于这些区域可能只有一个视图。此外，获取多视图航空/卫星图像或激光雷达数据通常对于历史遥感数据来说是不可行的[50]，使得单个图像的场景理解和几何建模成为一个重要的问题。已经提出了几种方法来直接从单个卫星图像中进行建筑物检测和高度估计[29, 40,55]。然而，这个任务也带来了一系列挑战。由于图像的地面分辨率相对较低，特别是对于卫星图像而言，没有由多个视图提供的几何和外观匹配约束，建模（甚至检测）单个建筑物变得困难。在俯视视图中，外观线索，例如人行道与建筑物屋顶之间的纹理差异，通常会受到破坏。另一方面，对（低分辨率）俯视外观以及它与语义和地面上方高度的关系的先验知识，可以为解决表面建模中本来是不适定问题提供所需的重要上下文。我们将单视图建筑重建问题分为两个子问题：（1）检测每个建筑物的2D轮廓，（2）建模每个建筑物的高度。为了同时解决这两个子问题，我们提出了一个多任务框架，使用深度神经网络联合学习四个相关任务（图1）：0任务1：以像素级掩模的形式生成2D建筑物实例提议。任务2：从每个建筑物边界预测修改后的有符号距离函数。任务3：从地面预测每个像素的高度（nDSM）。任务4：预测像素级语义场景组成。0我们提出了一种通过学习的2D边界距离推理（任务2）来解决建筑物检测（任务1）中的重叠提议的技术。值得注意的是，我们引入了一种混合边界标签和距离函数的方法，称之为边界接近有符号热图（BPSH），它在任务1中显著提升了建筑物轮廓预测。我们提出在联合公式中学习高度回归（任务3）和语义分割（任务4），这为场景理解提供了额外的上下文。在学习这些任务的同时，我们提出了一种多特征方法，将为任务2-4学习的网络特征与上游网络特征融合，从而改善任务1中获得的实例提议。我们证明了我们的整体四部分公式旨在学习场景的广义特征表示，以及使用学习的边界距离推理的新颖重叠细化技术，在从单个俯视图像中进行3D建筑物建模的任务中具有卓越的性能。0例如，DigitalGlobe的WorldView-3[4]是最先进的成像卫星之一，可以捕捉到分别具有0.31m和1.24m分辨率的全色和多光谱图像。0我们的多任务公式受到几种现有工作的启发，包括不同成像模态的方法，以及旨在解决我们四个任务子集的方法。接下来，我们将回顾与从俯视图像估计3D几何相关的工作，包括单视图方法；用于俯视图像理解的多任务学习；以及从图像中检测对象实例的方法。02. 相关工作02.1. 建筑物和地面表面重建0俯视图像重建的最常见技术是多视图立体匹配[13, 58, 36,52, 54, 60, 48, 18,21]，利用密集的图像对图像外观进行匹配以推断底层场景。在[47]中，Rudner等人使用多分辨率、多光谱图像从洪水前后识别被淹没的建筑物。与这些方法不同，我们针对的是只有单个视图重建是唯一可行的情况。在过去的历史上，从俯视图像中进行单视图建筑物重建的技术利用了远程相机的已知姿态和太阳-地球相对位置的阴影信息。Ok等人[40]使用模糊景观生成方法来建模建筑物与其阴影之间的方向空间关系。他们通过修剪非建筑区域并使用GrabCut分割[46]来检测建筑物轮廓。Izadi和Saeedi[29]使用线条和线条交点等图像基元，并使用图搜索来检查它们的关系以建立屋顶假设。然后，从太阳-地球位置和阴影中推导出高度信息。这些方法在需要精确的太阳-地球相对位置和太阳照明强度的知识方面存在缺陷。许多工作已经将从[17,32]到卫星或航空领域的单目深度估计的深度学习方法进行了扩展，有时还联合学习了辅助任务。Wang和Frahm[55]开发了一个深度框架，通过将单次多框检测器（SSD）[34]架构扩展到3D空间来进行参数化建筑物建模。他们预测2D矩形建筑物底部4430通过在每个默认框上自信地打印并通过预测检测到的建筑物的平均高度和方向来生成3D长方体建筑模型，扩展了SSD框架。然而，这种方法在对非矩形建筑物建模方面有限。Srivastava等人[50]使用编码器-解码器卷积网络从单目卫星图像中联合估计nDSM和语义标签。Mou和Zhu[38]提出了一种类似的具有跳跃连接的架构，直接回归高度。Mou等人[37]提出了一种从航空图像中学习语义分割的空间关系推理方法。他们证明了在网络中建模空间位置和特征图之间的全局关系可以为分割提供有用的特征。02.2. 俯视图像的多任务学习0多任务CNN已经被证明与单任务架构相比，可以提高各种相关任务的性能[43,59]。Dai等人[14]设计了一个多任务网络级联用于实例感知语义分割。Brahmbhatt等人[12]学习卷积特征来预测对象和无定形类别（如地面和水）之间的分割，并在单个阶段利用这些语义分割特征进行目标检测。除了前一小节介绍的多任务地面学习方法外，还有一些方法研究了将建筑物识别与相关任务相结合，用于单视角俯视图像。Bischke等人[10]和Hui等人[28]共同学习二进制实例分割和距离函数，用于从遥感图像中检测建筑物轮廓。他们表明，学习距离表示可以引导网络区分建筑物的内部点和边界。Pandey等人[42]训练一个多任务CNN来识别城市发展的指示因素，并利用这些特征来预测卫星图像上的贫困率。Sun等人[51]采用类似的方法预测道路拓扑、距离函数和二进制掩模。相比之下，我们的方法通过将建筑物轮廓提取建模为实例检测问题，并学习一种新颖的距离函数，结合学习的场景几何和场景语义，为检测任务提供丰富的特征，从而提高了检测性能。02.3. 目标检测0我们的方法使用Mask R-CNN [25, 6,33]根据俯视图像生成一组建筑物轮廓提案。MaskR-CNN首先在图像中提出一组稀疏的类别不可知的对象感兴趣区域（ROIs）。在第二阶段，从每个提出的ROI中提取特征，并预测每个对象的类别、边界框和掩模。0在相关工作中，前身R-CNN[22]使用卷积网络在第二阶段对分类和定位任务进行了公式化，相比之前的方法，精度更高。Faster R-CNN[44]使用学习的子网络对两个阶段进行了公式化，利用了CNN特征图。Mask R-CNN[25]在此基础上增加了一个对象掩模预测分支，用于分类/定位分支的第二阶段。掩模分支为每个对象类别预测一个掩模。它还引入了ROIAlign，以避免从ROIs提取特征时的任何量化效应，从而可以生成像素级准确的掩模。最近，Fu等人[20]证明了目标检测预测可以为语义分割提供良好的特征。03. 我们的方法0给定一张单一的卫星或航拍图像，我们开发了一个多任务、多特征和建筑边界感知的深度学习框架来解决3D建筑模型问题。为了获得最佳性能，我们希望俯视图像是从正上方或靠近正上方的视角拍摄的。正如介绍中所提到的，我们设计了一个深度网络来共同学习四个任务，这些任务在端到端的方式下进行共同训练（图2），共享特征表示作为每个单独任务预测的骨干。我们建议使用任务2-4的特征表示为任务1提供丰富的高级信息，以学习更健壮的初始建筑物轮廓提案。通过设计，所有四个任务相互交织在一起，共同改善建筑物识别的上下文信息。通过在目标检测框架内预测边界、恢复地面和建筑物表面，并识别建筑物像素与树木等周围对象之间的区别，我们的方法可以准确地识别、定位和建模给定图像中的建筑物。我们在下一小节中讨论了前两个任务，然后描述了如何解决剩余的任务。最后，我们提出了我们的多特征学习方法，以及一种使用实例级信息来改进边界预测的技术，这两种方法都可以提高最终的重建效果。03.1.建筑物轮廓检测0我们将建筑物轮廓的估计视为一个2D物体检测问题。这些初始的检测提案（任务1）随后使用我们的网络学习的一种新颖的修改的有符号距离函数（BPSH，任务2）进行了改进。虽然建筑物检测提案的任务是识别建筑物实例，但BPSH学习旨在尖锐地学习实例的边界，特别是对于彼此靠近的建筑物。我们的实验表明，为这些任务学习共享的特征表示可以提高两个任务的性能。2562562562562562562562015105051015202101244401×110FPN新层0BPSH特征0高度特征0语义特征0P20P30P4 P5 P602561×103×303×30P2’02562562561×11×11×10nDSM0标签0BPSH02561×102561×10P2 P30P3’01×10P40P4’01×10P50P5’01×10P60P6’01×10区域提案网络边界框和掩码检测建筑物轮廓提案模块0P2’ P3’ P4’ P5’ P6’0图2：我们最终的多任务、多特征学习框架。来自BPSH预测、nDSM预测和语义分割预测任务的特征被添加到FPN在不同尺度上的特征中，以辅助建筑物轮廓提案。03.1.1建筑物提案生成0我们使用Mask R-CNN [25,6]框架生成初始的建筑提案。与常规的多类别检测不同，我们只对单个类别的对象感兴趣：建筑物。在MaskR-CNN的基础上构建了特征金字塔网络（FPN）[33]，该网络以ResNet-101[26]为主干。FPN使用自顶向下的架构和横向连接，从单尺度输入构建一个网络内的特征金字塔。这样可以在不同尺度上创建具有细节的高级语义特征图，每个特征图用于使用区域提案网络生成一组前景感兴趣区域（ROI）提案。然后提取每个ROI的特征，并用于预测建筑物标签的置信度、边界框和一个（28×28）的建筑物掩码。具有高置信度的生成掩码给我们提供了一个初始的2D建筑物轮廓提案。03.1.2有符号距离函数回归0MaskR-CNN经常为彼此靠近的建筑物生成重叠的建筑实例提案。然而，在实践中，建筑物在近似垂直的航拍图像中很少重叠。为了从重叠的提案中解决真实的建筑提案，一种天真的方法是使用极端的非最大抑制，删除所有与更高置信度的提案重叠的提案。然而，航拍图像的低地面分辨率通常导致较小建筑物的低置信度提案。结果，较大建筑物附近的较小建筑物经常被抑制，大大降低了整体检测召回率。我们的多任务学习框架的任务2解决了这个问题。我们学习回归一个修改的截断有符号0图3：BPSH函数。X轴：距离最近的建筑边界的有符号距离（以像素为单位）。Y轴：BPSH分数。0距离函数 - 边界接近有符号热图（BPSH） -来自单个建筑边界。BPSH类似于场景中建筑边界的传统2D截断有符号距离，只是它明确区分了零级集（图3）。像素p的BPSH在建筑物内部为正，在建筑物外部为负：0BPSH(p) =0如果Db(p)=0，则0；如果Db(p)≠0，则1+min(Db0如果p在内部，则b(p),τ)0如果p在（1）之外，则τ0这里，τ是截断距离，对于我们的所有实验都设置为10像素。Db(p)是到最近的位于建筑物边界上的像素的欧氏距离。行为类似于三值标签函数，还考虑了接近边界的上下文。因此，学习BPSH鼓励网络学习建筑物的轮廓。我们为从FPN的空间最大层（图2中的P2）预测BPSH创建了一个新的子网络。与原始图像尺寸相比，P2的下采样比例为4倍；我们预测的BPSH具有这个尺寸。从P2中，我们提取一个共享的特征表示（请参见补充材料），用于任务2、3和4。最后，通过两个额外的1×1卷积生成BPSH预测。1 −λ,44503.1.3 使用BPSH进行重叠细化0在推理过程中，我们从MaskR-CNN中生成BPSH预测以及建筑物轮廓提议。我们提取BPSH零级集，其中所有像素p满足BPSH(p)∈[−0.5,0.5]。然后，为每个提议计算一个得分Si，该得分是其检测置信度ci与其掩模和BPSH之间的一致性之和：0Si = ci + max0| Mi |0p ∈ Mi | DM(p) − DB(p) |,00�0（2）其中Mi是建筑物标记像素的集合，DM(p)是像素p到掩模的建筑物边界的距离，DB(p)是到BPSH零级集的距离。在我们的实验中，我们使用λ=0.1。根据设计，Si中的边界一致性项促进了正确提出的与其他不正确的较大提议重叠的较小建筑物，因为这些较小的建筑物很可能对BPSH零级集具有更高的一致性。基于这些分数，我们运行非极大值抑制（NMS），删除与其他得分更高的提议重叠的提议。这种NMS保留了具有高预测置信度和更高BPSH一致性的建筑物。然而，虽然NMS可以正确抑制与得分较高的正确提议重叠的低分提议，但可能出现这样的情况：一个不正确的提议与一个得分较低的正确提议重叠，但两者都被NMS移除。因此，在NMS之后，我们添加回不重叠的被抑制提议，其中建筑物轮廓检测器和BPSH都预测出具有高置信度的建筑物（请参见补充材料）。我们发现，这一步极大地提高了我们最终检测的召回率。03.2. 建筑物高度生成0我们解决的第二个子问题是生成每个检测到的建筑物的高度（任务3）。我们的框架从地面预测每个像素的高度，即标准化数字表面模型（nDSM）。nDSM子网络类似于BPSH子网络，并利用在P2层之后应用的三个卷积得到的相同共享特征表示。然后，我们使用两个任务特定的1×1卷积来生成高度预测。03.3. 语义分割0我们为建筑物、地面、水域、高植被和低植被的每个像素进行了语义分割。与之前一样，在共享特征表示上应用两个1×1卷积来生成像素级联合类别概率分布。我们表明，当有语义分割数据可用时，训练语义分割（以及其他三个任务）可以改善建筑物轮廓检测；请参见第5.2节的消融研究。03.4. 多特征学习0在原始的具有FPN后端的MaskR-CNN中，使用从P6到P2的层（图2）生成区域提议，并使用从P5到P2的特征图在不同尺度上生成第二阶段的分类、边界框回归和掩模预测。我们不是直接使用这些层来生成提议，而是将来自其他三个任务的高级特征在最终预测层之前进行组合，并在不同尺度（P2到P6）上进行融合，生成P2'、P3'、P4'、P5'和P6'（图2）。这些增强的层携带了关于场景的丰富上下文信息，以及来自语义分割、nDSM和BPSH预测的特征。区域提议网络和ROI特定网络可以利用这些信息生成更丰富的建筑物提议集。03.5. 实例级推理以改进BPSH0建筑物轮廓预测任务被建模为一个目标实例检测问题，利用实例级推理。另一方面，BPSH寻求以像素级推理方式锐利地学习建筑物边界。为了提升最终的边界预测，我们提出在后处理阶段将两个预测模态融合在一起，明确地将实例级推理引入到学习的BPSH中。我们使用一个小的跳跃连接编码器-解码器网络，它以建筑物轮廓（任务1）的栅格化预测、预测的BPSH（任务2）和原始图像作为输入。网络输出一个通过栅格化掩模的上下文改进的BPSH。我们将最终预测的BPSH应用于重叠细化任务（第3.1.3节），生成我们最终的建筑物预测集。这对最终的准确性有轻微但显著的提升。请注意，这第二个网络是与我们的主要多任务、多特征网络分开训练的。04. 网络训练0我们使用地面真实建筑物掩模、由这些掩模定义的BPSH图、真实的nDSM和真实的语义标签图来训练我们的网络。当nDSM和/或语义标签不可用（即在SpaceNet数据集中），我们只使用建筑物掩模和BPSH图进行训练。接下来我们详细介绍训练的损失函数。整体建筑物估计损失我们的多任务框架以端到端的方式优化我们的四个任务。整体损失函数是各个任务损失函数的组合：0损失 = α1L轮廓 + α2L bpsh + α3L ndsm + α4L sem. (3)0我们使用 (α1, α2, α3, α4) = (1, 2, 3,2.5)，这些值是通过分析训练损失来实验选择的，以近似平衡任务的整体损失贡献。W (1)bpsh(p) = exp�−BPSHgt(p)22σ2bpsh�,(5)W (2)bpsh(p) = exp�unet�.(6)4460建筑物轮廓检测损失L轮廓惩罚了我们初始的2D建筑物轮廓提议的误差。我们使用与Mask R-CNN[25]相同的损失函数，考虑了区域提议损失和ROI特定的分类、回归和掩模预测损失。对于ROI Ri，损失L Ridetection = L Ri cls + L Ri box + L Ri mask。这里，Lcls是建筑物标签的交叉熵分类损失，Lbox使用平滑的L1损失惩罚轴对齐的边界框，Lmask是在(28×28)预测窗口上的平均二元交叉熵损失。后两个损失是为被分配了真实建筑物的候选ROI定义的。最终损失L轮廓结合了Ldetection和区域提议损失[44]。我们使用“近似”联合训练[44]，在计算ROIAlign层的偏导数时忽略了对ROI坐标的梯度。BPSH预测损失Lbpsh在每个输出像素p处鲁棒地惩罚BPSH误差E bpsh(p) =BPSH gt(p) - BPSH pred(p)：0L bpsh = 10p W bpsh ( p ) ∙ SmoothL1 ( E bpsh ( p )) .(4)0这里，N是输出图像中的像素数，Wbpsh是一组每个像素的权重。每个权重是两个不同加权函数的组合：0− ( d 1 ( p ) + d 2 ( p )) 20第一个加权函数更加强调BPSH的零级集。我们在实验中使用σ bpsh = 2。σbpsh的值越高，对零级集的强调越低。第二个加权函数受到U-Net [45]的启发。这里，d 1 ( p)表示到最近地面真值建筑边界的距离（以输入图像的原始分辨率表示，以像素为单位），d 2 ( p)表示到次近建筑边界的边界的距离。我们设置σ unet =5。U-Net加权强调了两个相邻建筑边界之间的像素。最终的BPSH权重为0W bpsh ( p ) = W (1) bpsh ( p ) + α bpsh ∙ W (2) bpsh ( p ) . (7)0根据[45]，我们在实验中设置α bpsh =10。这种加权强制网络以高重要性学习建筑边界，同时强调两个附近建筑之间的像素。我们的BPSH细化网络（第3.5节）也使用这种损失进行训练。nDSM预测损失L ndsm惩罚高度预测误差E ndsm ( p ) = NDSM gt ( p ) − NDSMpred ( p )：0L ndsm = 10p W ndsm ( p ) ∙ L ′ ( E ndsm ( p )) .(8)0W ndsm ( p)通过提高建筑像素的权重来优先预测建筑高度。我们对地面真值建筑像素使用启发式权重5，对其他像素使用权重1。对于L'，我们最初使用BerHu损失[32]进行快速收敛，然后切换到平滑的L1损失进行微调。语义分割损失L sem评估像素级类别预测的平均softmax交叉熵损失。由于不同语义标签的类别不平衡，每个像素的损失都按照该标签在训练集中所有像素中的逆频率进行加权。05. 实验0我们在三个大规模卫星数据集上评估了我们的方法：2019年IEEE GRSS数据融合竞赛数据集（GRSS DFC 2019）[11, 1,49]，包含图像、语义分割和nDSM（92/16个区域的训练/测试拆分），USSOCOM Urban3D数据集[23]，包含图像和nDSM（130/44个区域），以及SpaceNet Buildings Dataset v2[5]，包含建筑轮廓（7128/1254个图像）。我们还在两个包含图像、语义分割和nDSM的航空影像数据集上进行评估：Potsdam [2]（10/7个区域）和Vaihingen[3]（11/5个区域）。关于这些数据集和训练-测试拆分的更详细讨论可以在我们的补充材料中找到。05.1. 评估0表1显示了SpaceNet和GRSS DFC2019数据集的结果，将我们提出的方法与Wang和Frahm[55]，Mou和Zhu[38]以及Srivastava等人[50]的最先进方法进行了比较，每个方法都执行了我们四个网络任务的子集。我们使用GRSSDFC2019数据集来评估高度、2D建筑轮廓和语义标签。我们对SpaceNet数据集进行2D建筑轮廓评估，该数据集没有高度或语义数据。对于2D建筑轮廓评估，我们计算IoU（交并比）阈值为0.5时的F1分数。建筑高度误差使用米为单位的平均绝对误差（MAE）和均方根误差（RMSE）进行评估；此度量不考虑非建筑地面真值像素。除了评估像素级高度回归外，我们还评估中位数建筑高度回归，以考虑航空影像和地面真值标签之间的小误差。语义分割使用建筑、地面和植被的主要类别的F1进行评估。在所有情况下，我们证明了我们提出的学习框架在2D建筑轮廓检测、高度回归和语义分割方面具有更高的准确性，通常比现有技术有着显著的提升。有关不同方法的定性比较，请参见图4和我们的补充材料。Wang和Frahm[55]的方法根据长方体模型预测建筑轮廓和高度。然而，[55]69.981.062.35--[38]-1.052.242.356.62[50]-1.312.642.907.704470SpaceNet GRSS DFC 20190建筑物轮廓建筑物轮廓中位数高度逐像素高度语义分割（F1）0方法 F1 F1 MAE RMSE MAE RMSE 建筑物地面树木0我们的方法 68.87 68.34 1.85 2.79 3.34 5.02 94.2 95.2 81.00Wang＆Frahm [55] 61.60 57.86 1.89 2.94 - - - - -0Mou＆Zhu [38] - - 2.26 3.19 3.62 5.40 - - -0Srivastava等人[50] - - 2.45 3.59 3.74 5.85 76.8 92.6 76.60表1：我们的方法在单视角卫星图像数据集中实现了更高的2D建筑物轮廓检测F1分数，表明其卓越的性能。在中位数和逐像素建筑物高度预测方面，我们也实现了较低的MAE和RMSE，并在语义分割的类别F1分数上显示出卓越的性能。建筑物中位数高度的评估考虑了图像和地面真值标签之间的小误差对齐。0轮廓中位数高度0逐像素高度0方法 F1 MAE RMSE MAE RMSE0我们的方法 82.89 1.05 2.25 2.34 6.150表2：在Urban3D数据集上的结果。我们的方法在建筑物轮廓检测方面取得了最佳性能，并在高度预测方面取得了可比较的性能。0SpaceNet GRSS DFC 20190轮廓 F1 轮廓 F10MRCNN 65.0 63.30+ TSDF 65.6 62.70+ BPSH 66.4 64.30+ 语义分割 - 65.10+ nDSM - 66.90+ 多特征 - 67.50表3：我们的多任务方法的消融结果，每一行都在前一行的基础上添加了一个额外的网络组件。“+ TSDF”是与“+BPSH”进行比较。“MaskR-CNN”的结果不包括重叠细化。0我们发现他们的方法在我们的数据集中泛化能力不强，因为许多建筑物的形状不符合他们的方法所要求的矩形底面，导致检测效果差。为了改进他们的方法的竞争性能，我们去掉了他们的方法中的建筑物方向回归输出。我们还将他们的检测方法改为了使用ROIAlign和FPN的Faster R-CNN[44]，使其具有比SSD[34]更具竞争性的性能。表2和表4分别展示了我们的提出的模型在Urban3D数据集和Potsdam和Vaihingen数据集上与这些方法的性能。在所有情况下，我们都获得了具有更高轮廓检测和高度预测准确性的建筑物重建。我们的辅助任务在Potsdam和Vaihingen数据集上与最先进的语义分割结果相比表现出优越的性能。我们特别展示了F10建筑物检测得分与[55]的对比。3D建模。我们使用提取的建筑物轮廓和每个建筑物的中位数nDSM高度生成3D模型。图4显示了各种输入的模型。更多结果请参见我们的补充材料。05.2.消融分析0为了评估我们框架的整体有效性，我们对我们的网络进行了消融分析，激活不同的子任务。表3显示了这些结果，从基线的MaskR-CNN建筑物检测网络开始，逐步添加BPSH回归、语义分割、高度回归和我们扩展的多特征架构。可以观察到，随着新任务被添加到多任务框架中，最终的建筑物轮廓检测准确性不断提高。我们观察到使用多特征架构的性能最好，这支持了我们的假设，即与不同尺度上的语义分割、高度和BPSH预测相关的特征为建筑物轮廓提案任务提供了更丰富的特征集。表3（第二行）显示了学习截断有符号距离函数（TSDF）而不是BPSH的结果。我们使用了一个截断值为10像素，线性缩放到范围[-1,1]。我们发现当训练了相似数量的epochs时，BPSH的性能优于TSDF。我们假设这是由于BPSH的三值行为：与TSDF相比，错误识别建筑边界的成本更高，因此TSDF网络不倾向于快速收敛以精细定位建筑物轮廓。当训练时间更长时，我们注意到这两种技术之间有类似的性能。更多消融分析请参见补充材料。06. 结论0我们提出了一种多任务、多特征学习公式，用于从单一的俯视图像中进行3D建筑物建模。与现有的基于多任务学习的建筑物轮廓检测公式不同，我们还利用场景几何和语义学习来实现鲁棒性Wang & Frahm [55]57.971.962.88-----Srivastava et al. [50]-2.633.593.64.6793.9387.2776.16Mou et al. [37]-----94.7091.3383.47Wang & Frahm [55]60.701.171.55-----VaihingenMou & Zhu [38]-1.341.801.742.30---Srivastava et al. [50]-1.572.052.022.5995.5688.9888.09Mou et al. [37]-----94.9791.4788.574480建筑物轮廓中位高度像素高度语义分割（F1）0数据集方法 F1 MAE RMSE MAE RMSE 建筑物不透水树木0我们的 71.98 1.86 2.75 2.55 3.73 97.31 92.09 80.360波茨坦 Mou & Zhu [ 38 ] - 2.57 3.48 3.32 4.26 - - -0我们的 72.85 1.10 1.51 1.43 1.93 97.33 92.11 87.560表4：对于波茨坦和Vaihingen航拍数据集，我们的方法在建筑物检测和高度回归方面达到了最先进的性能。我们还证明了我们的方法学习到的辅助语义分割任务在不同的语义对象类别上具有竞争性能，并且在建筑物分割方面具有更高的性能。0Image Wang and Frahm [ 55 ] Srivastava et al . [ 50 ] 我们的Mask Ground-truth Mask 我们的3D模型0图4：[ 55 ]，[ 50 ]和我们方法的建筑物掩模预测的比较。右：我们的3D重建。0检测建筑物轮廓。我们的多特征公式表明，来自这些学习任务的高级特征为检测器提供了丰富的信息，提高了检测性能。我们对BPSH预测的边界感知方法以及我们的重叠和BPSH细化技术也大大提升了性能。从这里介绍的方法中还可以得出几个未来工作的途径。具有三元结构的BPSH在需要准确边界预测的一般应用中具有潜在的用途。我们对重叠细化的方法也可以在其他检测模态中进行扩展。0在不应该重叠的目标之间，例如高空人群计数和聚类对象检测，我们预计混合对象检测和3D重建框架将继续显示相互的好处，特别是对于单视图重建任务。致谢：作者要感谢约翰霍普金斯大学应用物理实验室和IARPA提供本研究中使用的一些数据，以及IEEEGRSS图像分析和数据融合技术委员会组织的数据融合竞赛。DigitalGlobe提供的卫星图像。[21] Cheng-Yang Fu, Wei Liu, Ananth Ranga, Ambrish Tyagi,and Alexander C Berg. DSSD: Deconvolutional single shotdetector. arXiv preprint arXiv:1701.06659, 2017. 24490参考文献0[1] 2019 IEEE GRSS数据融合竞赛。http://www.grss-ieee.org/community/technical-committees/data-fusion . 访问日期：2019-03-15. 60[2] 2D语义标注竞赛 - 波茨坦. http://www2.isprs.org/commissions/comm3/wg4/2d-sem-label-potsdam.html .最后修改日期：2019-10-23，访问日期：2019-10-23. 60[3] 2D语义标注竞赛 - Vaihingen. http://www2.isprs.org/commissions/comm3/wg4/2d-sem-label-vaihingen.html .最后修改日期：2019-10-23，访问日期：2019-10-23. 60[4] DigitalGlobe. https://www.digitalglobe.com .访问日期：2019-03-10. 20[5]SpaceNet在亚马逊网络服务（AWS）上。数据集。spacenet目录。https://spacenetchallenge. github.io/datasets/datasetHomePage.html .最后修改日期：2018-04-30，访问日期：2019-03-15. 60[6] Waleed Abdulla. MaskR-CNN用于Keras和TensorFlow上的目标检测和实例分割。https://github.com/matterport/Mask_RCNN，2017年。 3 , 40[7] Sameer Agarwal, Yasutaka Furukawa, Noah Snavely, IanSi- mon, Brian Curless, Steven M Seitz, and Richard Szeliski.在一天内建造罗马。ACM通信，54（10）：105-112，2011年。 10[8] Seyed Majid Azimi, Corentin Henry, Lars Sommer, ArneSchumann, and Eleonora Vig. Skyscapes对航拍场景的细粒度语义理解。在2019年IEEE国际计算机视觉会议（ICCV）上，2019年10月。 10[9] Favyen Bastani, Songtao He, So�ane Abbar, MohammadAl- izadeh, Hari Balakrishnan, Sanjay Chawla, Sam Madden,and David DeWitt. Roadtracer:从航拍图像中自动提取道路网络。在计算机视觉和模式识别（CVPR）的IEEE会议上，2018年6月。 10[10] Benjamin Bischke, Patrick Helber, Joachim Folz, DamianBorth, and Andreas Dengel.使用深度神经网络进行建筑物轮廓的分割的多任务学习。在2019年IEEE国际图像处理会议（ICIP）上，第1480-1484页。IEEE，2019年。 30[11] Marc Bosch, Kevin Foster, Gordon Christie, Sean Wang, Gregory D.Hager, and Myron Z. Brown.用于偶发卫星图像的语义立体。CoRR，abs/1811.08739，2018年。 60[12] Samarth Brahmbhatt, Henrik I Christensen, and JamesHays. Stuffnet:使用物体改进物体检测。在2017年IEEE冬季计算机视觉应用会议（WACV）上，第934-943页。IEEE，2017年。 30[13] Randi Cabezas, Julian Straub, and John W Fisher.从多模态数据中基于

下载后可阅读完整内容，剩余1页未读，立即下载