单目遥感图像的3D建筑物重建方法与性能的提升

32 浏览量更新于2023-10-14 收藏 33.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

125480单目遥感图像的3D建筑物重建0Weijia Li *1,2 , Lingxuan Meng *2,3 , Jinwang Wang 2,4 , Conghui He 2 , Gui-Song Xia 4 , and Dahua Lin 1,501香港中文大学CUHK-SenseTime联合实验室02商汤研究03中国电子科技大学04武汉大学05上海人工智能实验室0{ wjli,dhlin } @ie.cuhk.edu.hk, xuanxuanling@std.uestc.edu.cn, guisong.xia@whu.edu.cn0摘要0单目遥感图像的3D建筑物重建0与基于LiDAR数据和多视角图像的建筑物重建相比，基于单目遥感图像的建筑物重建是一个重要的研究问题和经济解决方案。然而，一些挑战，如建筑物轮廓和立面的部分不可见性、严重的阴影效果以及大规模区域中建筑物高度的极端变化，限制了现有的基于单目图像的建筑物重建研究的应用场景，即从近似正视图像中建模简单的低层建筑。在本研究中，我们提出了一种新颖的用于单目遥感图像的3D建筑物重建方法，解决了上述困难，为更复杂的场景提供了一个吸引人的解决方案。我们设计了一个名为MTBR-Net的多任务建筑物重建网络，通过四个语义相关和三个偏移相关的任务学习斜视图像的几何属性、3D建筑模型的关键组成部分及其关系。网络输出进一步通过基于先验知识的3D模型优化方法进行集成，产生最终的3D建筑模型。在公共3D重建数据集和一个新发布的数据集上的结果表明，与当前最先进的方法相比，我们的方法将高度估计性能提高了40%以上，分割F1分数提高了2%-4%。01. 引言03D建筑物重建是一项重要而基础的任务。0监测人类聚居地和城市环境、评估灾害、维护地理信息等是一项重要的任务。0* 相等的贡献。0图1.从我们的方法得到的3D建筑物重建结果的示例。紫色、棕色、粉色和绿色分别表示屋顶、占地面积、立面和重叠区域。我们的方法为具有复杂形状和极端高度变化的建筑物生成矢量3D模型。0地理信息等。在过去的几十年中，现有的方法主要基于航空LiDAR数据[31]，由于昂贵的成本、低频率和有限的覆盖范围，这些方法难以应用于大规模区域。对于大规模应用，已经提出了许多从多视角图像中重建建筑物的方法[10]。虽然卫星图像具有更高的采集频率和更大的覆盖范围，但这些方法的应用场景受到了限制。125490在同一区域上获取多个同源图像的要求[20]。相反，基于单目图像的建筑物重建避免了这些限制，并展示了在大规模应用中的巨大潜力，这已成为近年来的重要研究课题。0然而，单目图像的信息有限。0这给3D建筑物重建带来了巨大的挑战。如图1所示，一些关键组成部分，如占地面积和立面，在这些图像上部分不可见。严重的阴影效果也导致了困难。0用于建筑物不同部分的准确分割和重建的技术。此外，在大规模区域中，建筑物的高度变化范围极大。通过深度神经网络直接学习精确的高度值是困难的。这些挑战限制了现有研究在从近似正视图像中重建简单低层建筑方面的应用场景。0作为3D建筑物重建的重要先决条件0在建筑物轮廓提取方面，已经进行了广泛的研究。最近的研究主要基于深度神经网络，如语义分割或实例分割模型[1,22,33]。几项研究设计了多边形建筑物分割方法以产生矢量化的输出[17, 18, 19,35]。现有方法通常在近似纳迪尔图像中提取低层建筑物时取得令人满意的结果，因为轮廓是完全可见的，没有视差效应。然而，当从倾斜图像中提取高层建筑物时，这些方法通常会产生较差的分割边界。0受到单目深度估计进展的启发0为了建筑物高度估计，已经提出了各种基于深度神经网络的方法[11, 16, 22, 25, 29,34]。这些方法主要关注近似纳迪尔图像的高度估计，而这些图像只占遥感图像的一小部分。对于倾斜或非纳迪尔场景，最近的研究[7]提出了一种通过学习建筑物的地心姿态进行单一高度估计的方法，而不是3D建筑物重建。除了这些局限性，上述所有方法都产生栅格输出。进一步的后处理需要将这些输出转换为最终的矢量3D模型，以供实际应用。0在这项工作中，我们提出了一种新颖的3D建筑物重建方法0从单目倾斜遥感图像中进行建筑物重建。我们的方法通过以下方式解决了以前研究的局限性：(1)一个3D建筑物重建网络，通过四个语义相关和三个偏移相关的任务，将不适定问题转化为学习建筑物可见部分及其关系；(2)一种3D模型优化方法，基于建筑物结构的先验知识，进一步集成网络输出，提高高度估计和多边形化。结果表明，我们的方法改善了高度估计0与当前最先进的方法相比，我们的方法将性能提高了40%以上，分割F1得分提高了2% - 4%。0我们的主要贡献总结如下：0• 我们设计了MTBR-Net，一种多任务建筑物重建网络0构建了一个有效学习倾斜图像的几何属性、建筑物的关键元素及其关系的建筑物重建网络，为具有不同高度和复杂形状的建筑物生成3D模型。0• 我们提出了一种3D模型优化方法，通过集成网络输出来提高高度估计和多边形化0基于建筑物结构的先验知识，集成网络输出，进一步提高高度估计的准确性，并生成具有有效形状的矢量3D模型。0• 我们发布了一个新的数据集，用于单目3D建筑物0重建，包括多视角的倾斜图像和超过200,000个注释建筑物的广泛高度范围。02. 相关工作02.1. 从遥感图像中提取建筑物0建筑物提取方法已经得到了广泛的研究0在遥感和计算机视觉领域中，建筑物提取已经得到了广泛的研究。基于深度神经网络的像素级分割方法已经成为建筑物提取的最先进技术[24, 8,22]。多任务学习策略已经在几项研究中使用，通过学习距离变换[1]或从建筑物边界学习修改的有符号距离函数[22]。其他几项研究将主动轮廓模型与深度神经网络相结合，以改善单个建筑物分割的分割边界[6, 23,12]。此外，一些最近的方法产生了更适合实际应用的多边形化建筑物轮廓。几种多边形分割方法被设计用于简化分割图[17,18]，而其他方法使用CNN-RNN架构在每个时间步预测多边形顶点[19]。总的来说，现有的建筑物提取方法将建筑物实例的不同部分视为一个统一的整体。当从倾斜图像中提取高层建筑物时，这些方法通常会产生较差的分割边界，而这在实际场景中占据了相当大的比例。我们的0相反，我们的方法通过多任务网络预测可见组件（例如屋顶、立面和骨架）及其位置关系（偏移），并有效地将这些预测结果整合以生成准确的轮廓多边形。02.2. 建筑高度估计和重建0长期以来，大量的建筑重建方法基于阴影信息、建筑物轮廓的线条和线条交点等，以及卫星的元信息，如0建筑重建方法基于LiDAR数据 [31]和多视角影像0o30o60o90o120o150o180o210o240o270o300o330o125500HR-Net03D重建网络的预测0最终的3D模型0骨架屋顶/立面偏移场A 偏移角度0高度矢量优化0骨架方向0多边形化模板的移动范围0输入图像0偏移场B 轮廓0语义相关任务偏移相关任务03D建筑模型优化0图2.我们提出的方法概述。以单目遥感图像为输入，我们的MTBR-Net输出屋顶/立面分割图、轮廓分割图、骨架分割图、骨架方向预测图、图像级偏移角度和两个像素级偏移场图。四个语义相关任务和三个偏移相关任务的输出进一步整合，进行高度矢量优化和多边形化，生成最终的矢量化3D模型。0倾斜摄影 [10, 3, 28,20]具有数据采集成本高和覆盖范围有限的局限性，并且需要同一区域上的多个同源图像。对于基于单目图像的建筑物重建，传统方法基于建筑物轮廓的阴影信息、线条和线条交点等，以及卫星的元信息，如太阳和地球的相对位置 [15,26]。这些方法通常需要一系列复杂的步骤来从上述信息中重建3D建筑模型。0受单目深度估计的进展启发，0在建筑物单目高度估计方面，一些最近的研究提出了基于深度学习的方法。一些研究提出了用编码器-解码器网络回归高度值的单任务网络 [25]，或者使用生成对抗网络模拟高度图[11]。其他一些研究则设计了一个多任务网络，用于建筑物轮廓提取和高度估计 [29,34]，或者利用语义标签作为高度估计的先验信息[16]。与我们的研究不同，所有这些方法都专注于近似垂直拍摄的高度估计。此外，栅格重建结果需要进一步的后处理过程才能生成最终的3D建筑模型。0对于斜视图像的建筑物高度估计，0Christie等人提出了一种通过学习建筑物的地心姿态进行单目高度估计的方法，即图像级流角和像素级幅度值[27]，前提是同一图像中的建筑物具有相同的偏移角度。该研究仅关注单任务的高度估计，而不是3D重建，并且该前提并不总是适用。相比之下，我们的方法包括图像级偏移角度预测任务和两个像素级偏移场预测任务，以及几个语义相关任务。0以及几个语义相关任务，适用于具有不同偏移角度的图像，并生成矢量化的3D重建结果。02.3. 建筑重建数据集0一些公共数据集提供了轮廓注释和高度注释的同时。0ISPRS Potsdam和Vaihingen [14]以及Urban Semantic 3D(US3D)[2]是近期许多研究中使用的两个流行数据集，其中大部分图像都是近似于垂直拍摄的，屋顶和建筑物轮廓几乎重叠。最近，Christie等人提出了两个新的数据集，即DFC19和ATL-SN4，它们扩展了US3D [2]和SN4[32]数据集，包括了更广泛的斜视角度的图像。尽管提供了各种注释，但大多数注释类型（例如屋顶、立面和高度）都是从点云数据生成的，并且存在大量的碎片和噪声。这些数据集难以用于矢量3D模型重建和实例级性能评估。与上述现有的3D重建数据集不同，本研究提出的数据集提供了每个建筑实例的手动标注的屋顶、立面、轮廓和高度，以完整的形状和矢量格式。该数据集可用于从斜视遥感图像进行矢量3D模型重建和实例级和像素级性能评估。03. 方法0我们提出的方法的总体框架如图2所示。它由两个主要组件组成：（1）一个多任务深度神经网络，通过四0如图2所示，我们提出的方法的总体框架由两个主要组件组成：（1）一个多任务深度神经网络，通过四个语义相关和三个偏移相关任务生成3D建筑重建模型。!"!#!$!%!$: Skeleton Orientation: Offset Vector125510相关和三个偏移相关任务。（2）一个3D模型优化模块，将网络输出集成起来，进一步改善高度估计，并生成具有有效形状的矢量3D模型。以单目遥感图像为输入，设计了基于HR-Net的多任务网络，用于七个相互关联的任务，即用于预测建筑物的可见部分的屋顶/立面分割和骨架分割任务；用于多边形化的骨架方向预测任务；基于我们提出的特征变形模块的底面分割任务；用于预测屋顶和底面之间关系的图像级偏移角度预测和像素级偏移场预测任务。从网络获得的3D重建结果通过基于先验知识的方法进行进一步优化，以改善高度估计，并通过基于骨架方向的多边形化方法生成矢量3D建筑模型。接下来，我们首先介绍这七个任务的定义。然后介绍我们的MTBR-Net的训练和3D模型优化方法。实现细节在本节末尾描述。03.1. MTBR-Net的任务定义03.1.1 语义相关任务0屋顶/立面和底面：语义相关任务旨在生成3D建筑模型的基本组件。我们首先设计了一个用于屋顶和可见立面分割的任务，这些分割在单目遥感图像上具有完整的轮廓。相反，底面轮廓通常部分不可见，但与屋顶轮廓形状相同。在这个前提下，我们的底面分割任务基于使用预测的偏移场对屋顶的特征图进行变形，这将在第3.2节中介绍。建筑骨架：为了学习3D建筑模型的结构，我们定义了四种语义边缘，即（1）屋顶和背景之间的边缘（Ea），（2）屋顶和立面之间的边缘（Eb），（3）立面和背景之间的边缘（Ec），（4）立面和底面之间的边缘（Ed）。这四种边缘构成了斜视图像上建筑物的整个可见骨架。对于一个建筑实例，Eb通常与Ed具有相同的形状，这在3D建筑模型优化过程中作为重要的先验知识。骨架方向：受[18]的启发，我们设计了一个任务来预测建筑骨架的边缘方向，这将用于将栅格分割图转换为矢量3D模型的多边形化阶段。对于骨架上的每个像素，其方向由边缘法线与重力方向之间的角度决定，例如图3中的�。详细定义可以在[18]中找到。0图3.不同类型监督的表示。中间图像显示了左侧遥感图像的偏移场A的注释。在右侧图像中，建筑骨架的四种类型的语义边缘用不同的颜色表示。黑色箭头与重力方向之间的角度定义了骨架方向。红色箭头表示偏移向量。03.1.2 偏移相关任务0偏移相关任务旨在估计每个建筑物的高度。我们将建筑物的相对高度编码为两个有符号值的偏移向量（用Ox和Oy表示），反映了从屋顶到其对应的底面的方向（在图3中用红色箭头表示）。偏移向量将用于网络训练和建筑模型优化阶段中的屋顶到底面的变形，可以根据元信息（图像分辨率和顶角）进一步转换为实际高度[15,26]。通常情况下，单源遥感图像中的建筑物通常具有相同的偏移角度。然而，一些公开可用的图像，如GoogleEarth图像，是由多个具有多个偏移角度的数据源拼接而成的。考虑到这两种情况，我们设计了一种基于图像的偏移角度预测任务和两种基于像素的偏移场预测任务。偏移场A：第一个像素级任务旨在预测屋顶和立面区域的偏移向量，该向量将在网络训练后用于将预测的屋顶段落变形为底面。对于偏移场A，屋顶区域的像素被分配为相同的值，即从屋顶到底面的偏移向量，用Or表示0立面区域内的像素被分配为从当前像素到占地面积轮廓的 ( δ x , δ y ) ，即 E b 到 E d的值从 ( O r0y ) 变化到 (0 , 0)。0背景区域的偏移字段值设置为 (0 ,0)。偏移字段B的可视化示例可以在图3的中间找到。偏移字段B：第二个像素级任务用于预测占地面积区域的偏移向量，在训练阶段用于将屋顶/立面分割的特征映射映射到占地面积。对于偏移字段B，占地面积区域的像素被分配为相应屋顶区域的偏移字段A的值，即 (O r0其他区域的像素被分配为 (0 ,0)。偏移角度：虽然像素级任务对于处理具有多个偏移角度的图像很有效，但是准确预测低层建筑的偏移角度是困难的。通过基于图像的偏移预测来解决这个问题是很容易的。Lseg = � 1NNi=1Cc=1yi,c ⇥ log(p(yi,c))(1)sem =ori + ↵1rf + ↵2foot + ↵3ske(2)Kk=1NXi=1125520从附近的高层建筑中学习。03.2. MTBR-Net的训练0我们的MTBR-Net基于HR-Net架构。0[30]。在整个过程中保持高分辨率表示的能力对于具有相对较低空间分辨率和较大图像尺寸的遥感图像是有益的。在我们的方法中，占地面积分割任务基于屋顶/立面分割的特征映射进行。其他六个任务共享相同的特征表示。每个任务都有一个任务特定的头部，由两个1x1卷积层组成。0基于偏移的特征映射模块用于占地面积分割，不仅加强了语义和偏移相关任务之间的关系约束，还提高了占地面积分割的性能。首先，我们根据偏移字段B对屋顶/立面分割任务的第一个1x1卷积的输出特征映射进行特征映射变换。然后，将变换后的特征映射与偏移字段B的预测图和屋顶/立面分割的特征映射进行连接，构成占地面积分割的特征映射。0屋顶/立面、占地面积、骨架和方向预测任务的损失函数如下所示：0预测任务被制定为像素级分割问题。上述任务的损失函数分别为 L rf ， L foot ， L ske 和 L ori （统一表示为 L seg），根据公式 1 计算，其中 N 表示图像的像素数，C表示类别数，y i,c 和 p ( y i,c ) 分别表示像素 i 属于类别 c的二进制指示器和预测概率。0四个与语义相关的任务的总损失（ L sem ）为0每个任务特定损失的加权和：0对于与偏移相关的任务，我们制定了基于图像的任务特定损失的加权和：0将偏移角度预测作为分类问题来简化训练过程，并将像素级偏移字段预测作为回归问题来获得精确的偏移值。角度预测任务的损失 L ang 通过公式 3 计算，其中 K表示角度类别数，y k 和 p ( y k ) 分别表示类别 k的二进制指示器和预测概率。0Lang = -0yk � log(p(yk)) (3)0两个偏移场回归任务的损失（Lfielda和0Lfieldb，统一表示为Lfield），根据公式4计算端点误差。0Lfield = 10|| ~0i - ~Ogt0i || 2，(4)0其中预测的偏移量~Opred0i = [ Opred0x，i，Opr0y，i ]，0地面真实偏移量~Ogt0i = [ Ogt0x，i，O0y，i ]的总损失0三个偏移相关任务（Loff）的总损失可以计算为：0Loff = Lang + Lfielda + Lfieldb (5)0我们的MTBR-Net的总损失可以总结为：0L = Lsem + Loff (6)03.3. 3D建筑模型的优化0我们设计了一种简单但有效的方法来进一步优化0通过整合MTBR-Net的输出来优化建筑重建结果，该方法由两个主要阶段组成：（1）基于先验知识的模板匹配方法，用于优化每个建筑实例的高度估计结果；（2）基于骨架方向的多边形化方法，将栅格结果转换为具有有效形状的矢量3D建筑模型。0高度向量优化的模板匹配方法0优化基于先验知识，即：（1）屋顶和立面之间的边缘（Eb）通常具有与立面和占地面积之间的边缘（Ed）相同的形状；（2）屋顶通常具有与占地面积相同的轮廓形状。对于屋顶/立面分割图Srf上的每个建筑实例，我们从骨架分割图Sske中提取Eb的模板，从Srf中提取Eb的模板，以及从Srf中提取屋顶段的模板。因此，上述三个模板的目标图像分别是Sske上的Ed，Srf上的Ed和Srf上的占地面积段。0对于每个建筑实例，令~V表示向量0移动模板。向量~V具有固定的移动方向角和移动距离范围。~V的方向角由偏移角度或偏移场A的预测结果确定。具体来说，对于低层建筑实例（偏移长度小于阈值Toff），方向角被赋予图像角度预测结果；否则，它被赋予屋顶区域平均偏移场的角度。~V的移动距离范围由屋顶区域平均偏移场的长度（len）和两个预定义的比例（r1和r2）确定，即[r1�len，r2�len]。我们使用模板与相应目标图像之间的IoU来计算模板匹配分数。向量~V的长度通过网格搜索方法进行优化，间隔为1个像素。对于每个建筑实例，最大化匹配分数（IoU）的向量~V是最终优化的高度向量。多边形化：根据骨架方向预测，栅格屋顶段可以简化为具有有效形状的多边形。对于每个实例，从屋顶轮廓中密集采样的像素构成初始顶点集。对于每个初始顶点，我们计算其方向类别与其邻近顶点之间的绝对差异。如果大于给定阈值（Tori），则选择该顶点为有效顶点并保留；否则，将其从顶点集中删除。剩下的有效顶点构成简化的屋顶多边形，根据高度向量将其扭曲为占地面积。简化的屋顶多边形、占地面积多边形和高度向量组成优化的3D建筑模型。vertex set. For each initial vertex, we calculate the abso-lute difference between its orientation class and its neigh-bour vertex. If it is greater than a given threshold (Tori), thevertex will be selected as valid and remained; otherwise, itwill be removed from the vertex set. The remaining validvertices constitute the simpliﬁed roof polygon, which willbe warped as the footprint based on the height vector. Thesimpliﬁed roof polygon, footprint polygon, and the heightvector comprise the optimized 3D building model.125530图4.我们方法的3D建筑重建结果示例。紫色、棕色、粉色和绿色分别表示屋顶、占地面积、立面和重叠区域。03.4. 实现细节0四个阶段的通道数分别设置为12、24、48和96。输入图像的尺寸为500x500像素。L sem计算的权重（�1、�2和�3）分别设置为3、3和2。偏移角度预测和骨架方向预测的类别数都设置为36，表示角度的bin宽度为10°。对于骨架分割和骨架方向预测任务，前景类型的损失权重比背景更大（两个任务分别为40:1和360:1），以预测更能适应屋顶/立面分割结果的粗边缘。对于高度向量优化，用于确定方向角的阈值T off设置为3个像素。用于确定偏移长度范围（r1和r2）的比例设置为0.7和1.5。在多边形化阶段，方向差异阈值T ori设置为2，表示内角为160°至200°的顶点将被视为简化分割轮廓的无效顶点。04. 实验04.1. 数据集0在本研究中，我们提出了一个新的用于3D建筑重建的数据集0从单目遥感图像中进行建筑物重建0图5.我们数据集中的地面真值（GT）建筑物的示例。标注员需要手动注释屋顶（青色多边形）和偏移向量（红色箭头），生成与相应屋顶形状相同的足迹（绿色多边形）。0该数据集提供了整体注释，并解决了第2.3节中提到的现有公共数据集的限制。该数据集包含多个城市（包括北京、上海、哈尔滨、成都、济南和西安）的斜视遥感图像，这些图像是从不同的数据源（如谷歌地球和微软虚拟地球）收集而来。我们的数据集中注释了超过200,000个建筑物。图4显示了我们方法得到的3D建筑重建结果的一些示例。图5显示了我们数据集中的地面真值（GT）建筑物的示例。0我们的数据集包含2700张训练图像和300张验证图像，整个数据集将在https://liweijia.github.io/project0训练集包含2700张训练图像和300张测试图像，这些图像被裁剪为1024x1024像素。为了更好地评估所提方法在大规模应用中的泛化能力，我们将测试数据集分为域内数据集和域外数据集。域内数据集包含200张位于同一城市但不同区域的图像，与训练数据集相同。域外数据集包含100张位于一个新城市的图像，该城市不包含在训练数据集中。0整个数据集将在https://liweijia.github.io/projects/building_3d/上发布。03D建筑重建的性能0从不同的角度评估了重建结果的性能。在第4.2节中，我们从偏移向量、实际高度和偏移角度三个方面评估了高度估计性能。在第4.3节中，我们评估了建筑物屋顶分割和足迹提取结果。在第4.4节中分析了不同组件的效果。04.2. 高度估计性能0高度估计性能在域内和域外数据集上进行评估0我们提出的数据集和最近发布的DFC19[7]，一个最新的3D重建数据集进行比较。对于我们提出的数据集，我们将我们的方法的相对高度（偏移向量）估计性能与当前最先进的方法[7]进行了比较，其中网络架构从U-Net修改为HR-Net以进行公平比较。表1列出了两种方法得到的EPE值。对于两种方法，像素级的偏移预测通过计算每个屋顶实例的平均偏移转换为实例级结果。我们报告了不同屋顶实例的EPE。on the in-domain and out-domain test datasets. Our methodobtains the highest precision, recall, and F1-score for allcases. For the roof segmentation results, our method im-proves the F1-score of the single-task HR-Net by 4.6%and 10.6%, which indicates that the proposed interrelatedtasks can effectively beneﬁt the roof segmentation resultsvia joint learning. Regarding the footprint extraction per-formance, our method improves the F1-score by 2.5% and4.3% compared with current state-of-the-art [18], which in-dicates the effectiveness of warping the predicted roof in-stances to footprints using offset vectors. For all methods,the performance drop on the out-domain dataset is due tothe change of test city as well as the increasing ratio of veryhigh-rise buildings compared with the in-domain dataset.The runtime of our method is about 2.8 seconds per test im-age on a Titan Xp GPU. Figure 7 provides a qualitative com-parison of the footprint extraction results. Results show thatour method produces polygonal footprints with the mostaccurate boundaries even for high-rise buildings. On theother hand, our method has difﬁculties in accurately recon-structing the extremely adjacent building instances, build-ings without a clear boundary between the roof and the fa-cade, and buildings with non-ﬂat roofs (such as the familyhouses), which should be improved in our future work.125540表1. 在我们提出的数据集上进行建筑物高度估计的比较。我们报告了不同高度范围内屋顶实例的EPE以及所有实例的平均EPE。与[7]相比，我们的方法将高层建筑的EPE减少了5到24个像素。0数据集方法不同高度范围的EPE（以像素为单位）平均值0EPE 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 > 1000In-domain Christie等人[7] 6.22 5.26 7.04 9.01 10.94 12.52 14.89 19.47 24.50 73.07 50.41 6.190我们的方法 4.92 4.24 6.02 5.91 6.87 7.82 8.39 12.45 20.75 61.41 26.69 4.880Out-domain Christie等人[7] 7.99 9.83 9.81 10.41 13.31 16.11 19.41 24.13 21.27 26.17 75.21 12.310我们的方法 6.63 9.96 8.33 8.56 9.32 9.45 12.55 15.75 10.76 11.82 52.52 9.590图6.DFC19（上）和我们的数据集（下）上使用我们的方法和当前最先进方法[7]得到的高度估计结果示例。不同的颜色代表不同的偏移角度。每种颜色的亮度反映了偏移长度。0不同高度范围（偏移向量的像素长度）的EPE以及所有实例的平均EPE。与[7]相比，我们的方法将高层建筑的EPE减少了5到24个像素，表明我们的偏移编码方式和多任务学习策略的优越性和有效性。0对于DFC19，我们报告了所有与建筑物相关的指标。0按照[7]的方法，我们报告了建筑物高度估计的所有指标，包括实际高度的像素级平均绝对误差（MAE）和均方根误差（RMSE），屋顶和门面区域的像素级端点误差（EPE），以及图像级角度预测误差（以度为单位）。如表2所示，我们将我们的方法的结果与[7]中报告的最佳结果以及2019年数据融合大赛[9]中的两个获奖解决方案[16,34]进行了比较。对于我们的方法，我们用[7]中的流向量预测替换了偏移字段A的预测任务，以评估实际高度，并计算了屋顶区域的平均偏移角度以评估图像级指标。结果表明，我们的方法在所有指标上明显优于最先进的方法，将实际高度的RMSE和角度误差降低了40%以上。图6提供了我们的方法和[7]中最先进结果的定性比较。结果表明，我们的方法产生了具有更准确偏移值和建筑物边界的高度估计结果。04.3. 建筑物分割性能0我们进一步评估了屋顶和建筑物轮廓分割的性能。0使用我们提出的数据集进行的实验结果。据我们所知，这是第一个提供手动标注的数据集。0表2.在DFC19数据集上进行建筑物高度估计的比较，包括实际高度的MAE和RMSE（以米为单位），偏移向量的EPE（以像素为单位）和角度误差（以度为单位）。0方法实际高度偏移 EPE 角度误差 MAE RMSE 屋顶门面0Kunwar[16] 8.33 19.65 - - -0Zheng等人[34] 8.72 19.32 - - -0Christie等人[7] 7.73 16.87 5.44 7.11 15.090我们的方法 4.75 9.57 4.67 5.35 8.400屋顶、偏移和建筑物轮廓的注释对于我们的MTBR-Net至关重要。我们比较了分割性能。0我们与Li等人提出的多边形建筑物分割的当前最先进方法以及其他几种竞争的分割方法[21, 13, 4, 5,30]进行了性能比较。我们按照实例级别的精确度、召回率和F1分数（IoU ≥ 0.5）进行计算，按照[18, 8]的方法。0表3列出了屋顶和建筑物轮廓分割的结果。04.4.消融研究0我们提出的方法的主要新颖模块，包括：（1）偏移相关的预测任务；（2）基于偏移的特征变形模块；（3）基于先验知识的三维模型优化模块。+ Optimization68.5851.984.889.59125550表3列出了不同方法在建筑物屋顶和轮廓分割方面的结果，包括精确度、召回率和F1分数（%）。我们的方法将屋顶分割的F1分数分别提高了1.6%和3.0%，将轮廓分割的F1分数分别提高了2.5%和4.3%，与当前最先进的方法[18]相比。0域内数据集（屋顶）域内数据集（轮廓）域外数据集（屋顶）域外数据集（轮廓）方法精确度召回率 F1分数精确度召回率 F1分数精确度召回率 F1分数精确度召回率 F1分数0级联Mask R-CNN [4] 66.68 67.06 66.87 61.27 61.48 61.37 48.39 48.74 48.56 40.73 39.31 40.000Mask R-CNN [13] 67.98 69.35 68.66 63.43 63.85 63.64 59.65 52.09 55.62 50.30 41.29 45.350PANet [21] 68.38 67.98 68.18 64.03 61.91 62.95 62.11 50.46 55.68 52.54 41.03 46.080HR-Net [30] 68.78 66.09 67.41 64.19 64.29 64.24 55.76 46.62 50.78 41.95 35.06 38.200Li等人[18] 71.76 69.25 70.48 65.71 66.37 66.04 60.44 56.40 58.35 49.69 45.77 47.650我们的方法（不带优化）72.72 71.37 72.04 66.85 68.05 67.44 65.20 57.97 61.37 54.34 46.37 50.040我们的方法（带优化）72.72 71.37 72.04 69.47 67.71 68.58 65.20 57.97 61.37 56.45 48.17 51.980图7.不同方法的建筑物轮廓提取结果。黄色、青色和红色多边形分别表示TP、FP和FN。我们的方法产生了更准确的轮廓边界，甚至对于高层建筑也是如此。0偏移相关的预测任务；（2）基于偏移的特征变形模块；（3）基于先验知识的三维模型优化模块。表4列出了在两个测试数据集上连续应用上述模块所获得的结果，包括建筑物轮廓提取的F1分数和高度估计的EPE。基线方法的结果来自[18]。第二行（+偏移字段）显示了偏移字段A预测的高度估计结果以及基于每个建筑物实例的平均偏移值将预测的屋顶实例变形为轮廓的轮廓提取结果。第三行（+特征变形）显示了应用基于偏移的特征变形模块得到的结果，这些结果是从轮廓分割任务计算得到的。最后一行（+优化）显示了应用基于先验知识的三维模型优化方法得到的结果。0表4.在两个测试数据集上进行消融研究的结果，以建筑物轮廓分割F1分数（%）和高度估计EPE（以像素为单位）表示。0结果表明，通过使用偏移场A预测将屋顶扭曲为轮廓，建筑物轮廓提取分数可以提高0.8%。此外，与直接预测轮廓而不进行特征扭曲的基准相比，通过应用特征扭曲模块，F1分数可以提高1.4%和2.4%，表明使用偏移场B预测来扭曲屋顶/立面预测的特征图以进行轮廓分割的有效性。基于先验知识的模型优化方法进一步改善了建筑物高度估计和结果。0域内域外域内域外0+ 偏移场 66.79 48.49 5.26 10.450方法分割F1分数（%）高度估计EPE（#）0+ 优化 68.58 51.98 4.88 9.590基准 66.04 47.65 - -0+ 特征扭曲 67.44 50.04 5.17 10.2105. 结论0在本文中，我们提出了一种新颖的三维建筑物轮廓提取方法，通过有效地使用所有类型的预测，生成具有0模型重建方法，可以从单目遥感图像中准确提取具有准确屋顶、立面、轮廓和高度的矢量三维建筑模型。定性和定量评估证明了我们方法相对于最先进方法的显著优势。消融研究也验证了我们方法不同组成部分的效果。据我们所知，这是第一篇使用深度神经网络从单目遥感图像中产生矢量化的三维建筑模型重建结果的工作。我们相信本文为大规模和复杂应用场景中的三维建筑重建提供了有效的解决方案。在未来的工作中，我们希望探索更有效的策略来改进三维重建结果，例如利用更多关于建筑结构的先验知识，并通过基于建筑物实例的不同组成部分之间关系的添加更多约束来改进多任务学习过程。0致谢。本工作得到香港中文大学感知与交互智能中心的支持，协议TS1712093，香港研究资助局（GRF）（编号14205719）以及基于主题的研究计划的支持。0搜索计划2020/21（编号T41-603/20-R）。Gui-SongXia受到中国国家自然科学基金会的支持，项目编号61922065、61771350、41820104006。[5] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaox-[6] Dominic Cheng, Renjie Liao, Sanja Fidler, and Raquel Urta-[7] Gordon Christie, Rodrigo Rene Rai Munoz Abujder, Kevin[8] Ilke Demir, Krzysztof Koperski, David Lindenbaum, Guan[9] DFC19.DataFusionContest2

下载后可阅读完整内容，剩余1页未读，立即下载