没有合适的资源?快使用搜索试试~ 我知道了~
基于平面正则化的语义感知城市三维Thomas Holzmann,Michael Maurer,Friedrich Fraundorfer,Horst Bischof格拉茨理工大学计算机图形与视觉研究所{lastname} @ icg.tugraz.at抽象。我们提出了一种城市三维重建的方法,它在重建过程中,以产生视觉上有吸引力的三维模型的语义信息和平面先验。 我们引入了一个平面检测算法,使用3D线,检测一个更完整的和更少的虚假的平面集相比,基于点的方法在城市环境中。此外,所提出的归一化的基于可见性的能量公式简化了四面体占用标记算法内的几个能量项的组合,并且因此非常适合于将其与类特定的平滑项组合。 因此,我们产生视觉上吸引人的和详细的建筑物模型(即, 直边和平面)以及周围环境的平滑重建。1介绍如今,3D重建软件是可用的,使用它可以轻松地从图像数据创建准确的3D模型(商业产品以及基于研究社区的方法)。然而,对于某些应用,如建筑业的城市环境的可视化、房地产公司和地图服务,如谷歌地图,需要由平面表面和直线轮廓组成的紧凑且视觉上吸引人的重建这样的重建应该包含很少的噪声,并且不一定包含来自每个场景部分的所有细节我们为视觉上吸引人的城市3D模型定义了以下标准,这些标准通常不会被当前的3D重建方法所解决:– 平面形状先验:当场景中存在平面和近似平面的表面时立面、屋顶),它们也应该被重建为平面表面。– 直线建筑轮廓:建筑物的边缘应该是直的并且由直线表示(即,没有噪声边缘)。– 详细的建筑物和平滑的环境:对于几种应用(例如,房地产公司)详细的建筑重建是必需的,细节应保持,同时定期与平面前。同时,建筑物的周围不一定要用高细节重建,而是用平滑的、视觉上吸引人的表面重建。这些标准不仅定义了视觉上吸引人的重建,而且还使得更容易减少后处理步骤中的数据量(即,位于平面表面上的点可以在不改变表面的情况下减少2T. Holzmann,M.Maurer,F.Fraundorfer,H.Bischof图1.一、所提出的方法的结果与纹理[33]。 可以观察到场景中的平面部分(立面、窗户、屋顶)由平面表面表示,并且两个立面彼此相交的建筑物边缘由直线表示。请注意,模型中的孔是由于纹理化过程中缺少可见性信息造成为了应用这些标准,我们在重建过程中使用语义先验,以不同的方式对待建筑物和周围的场景部分。对于建筑零件,我们将平面先验,以实现平面表面和直线轮廓,同时仍然保持重要的细节。对于非建筑部分,我们施加一个平滑的表面,通过重新估计一个更平滑的3D表示的场景,设置类特定的稀疏化参数和平滑条款。我们使用Delaunay三角剖分将场景划分为体积单元,并执行基于图切割的内部/外部标记。因此,我们计算一个水密多边形网格产生的内部和外部标记的三角形单元格的接口为了减少所需的数据量,可以在不损失精度的情况下在后处理步骤中应用网格简化。我们的主要贡献有三方面:首先,提出了一种利用三维直线检测平面的平面检测算法。与像[29]的基于点的RANSAC方法相比,我们能够检测更多的平面,特别是在城市环境中,城市环境通常包含纹理不良的并且因此稀疏重建的场景部分(例如,白色建筑立面)。其次,我们引入了一个改进的基于可见性的能量项.为了直观地将基于可见性的项与附加能量项组合,归一化能量是必要的。目前使用的制剂(例如,由Labatut et al.[16])缺乏使所产生的能量正常化的可能性。第三,我们将语义先验的重建过程。根据不同的语义类,我们处理的3D数据不同,并设置类特定的形状先验,以获得平面表面和直边的建筑物和周围的平滑重建图1显示了我们方法的纹理结果。2相关工作在过去的几年里,提出了几个作品,重点是创造视觉上吸引人的结果,为城市三维重建。一般来说,他们中的大多数遵循的想法,城市场景可以在很大程度上近似的几何图元,因此,检测到的图元被用来近似的场景或去噪和平滑的3D重建。其他人使用语义信息,以便同时优化重建和语义标记。基于语义的城市三维重建3原始拟合。几种方法尝试拟合图元,然后通过直接使用拟合的图元(例如,[35,24,21,20])或将它们合并到优化框架(例如,[35,24,21,20])中来创建3D场景重构[11,25,17,18]),以便创建紧凑且视觉上吸引人的3D模型。通常,基于RANSAC的基元检测方法(例如,如Schnabel等人所述[29]),但也存在其它方法,尤其是对于平面检测(例如,[4])。然而,所有这些方法都使用点云来拟合图元,因此,如果图元用太少的点表示(经常发生在用基于图像的方法重建的纹理不良的立面处),则所提取的图元集可能是不完整的因此,我们正在使用不同的场景信息(3D线),这是更有可能存在于纹理不良的城市场景。使用场景假设的重建。不同的作品专注于重构具有非常特定场景先验的场景,因此,对于这些特定场景效果很好,但不能推广到其他场景。Li等人[20]使用检测到的平面创建一组轴对齐的框,这些框近似于建筑物的几何形状遵循场景切片的想法(如在[34,26]中针对室内场景提出的),Holzmann et al.[10]提出了一种创建视觉上吸引人的建筑模型的方法。即使这些方法产生良好的正则化模型,它们也限于特定的场景布置(曼哈顿世界假设或可划分为切片的场景 假设主要是平面场景,Monszpart等人。[24]目的是提取平面的规则排列。Nan和Wonka [25]提出了一种方法,在该方法中,它们拟合平面并将所有检测到的平面彼此相交,以生成用于最终重建的一组可能的面。最终的表面是通过使用所有这些面候选者来解决优化问题而生成的即使这些方法不限于Manhat-tan世界假设,它们也被设计用于主要包含平面表面的场景。相比之下,我们的方法有一个特殊的正则化之前的平面表面,但可以处理任意的场景结构。全局优化中的形状先验。在La-batut et al.[17] Lafarge et al.[18,19]图元被合并在场景的四面体表示中,并且可以在Graph Cut优化中进行选择。根据他们的想法,[11]添加了一个改进的平面增强,它不需要场景的密集过采样,并添加了额外的正则化项。所有这些方法都可以重建任意场景,并根据检测到的形状规则化场景部分。然而,错误地正则化的场景部分可能会导致伪影,我们通过使用语义信息并根据语义标签进行不同的正则化来处理伪影。语义重建最近,几种方法将语义信息并入3D重建过程中[7,1,32]:它们将语义信息并入优化框架中,以使用体素网格或四面体表示来解决多标签3D重建问题。通过使用类特定的形状先验,他们同时优化的3D重建和语义标记。与它们相比,我们不同时优化语义和3D重建,而是使用语义信息,以便按照我们定义的标准创建视觉上吸引人的3D模型。4T. Holzmann,M.Maurer,F.Fraundorfer,H.Bischof3基于语义先验的在本节中,我们将概述我们的处理管道,并随后详细描述每个部分。因此,我们从城市场景中提供了美丽的,视觉上吸引人的3D模型,其中建筑物具有平面和直边,同时仍然包含嵌入在平滑环境中的相关细节从一个场景的图像作为输入,我们首先计算相机的姿势使用运动结构,密集的点云使用多视图立体算法和基于线的三维重建。作为进一步的预处理步骤,我们为每个相机计算密集的深度图,并对每个图像进行语义标记。为了生成一个非常平滑的重建周围的建筑物和一个详细的,但基于先验的平滑,我们在语义上标记所有的3D信息,并将不同的建筑物和非建筑类到一个基于Delaunay三角剖分的重建框架。对于建筑物,我们使用所有可用的3D信息(即,3D线和点)。我们通过使用重建的3D线从建筑物中检测场景中的平面,并强制三角剖分以包括所有平面。对于非建筑部分,我们计算一个光滑的泊松表面重建,并使用该表面的采样表示。我们最终的3D重建结果来自3D Delaunay三角剖分,其中通过求解能量最小化问题来标记内部或外部的每个单元使用包括取决于语义标签的能量项的图切割。3.1语义分割语义分割的目标是使3D重建在语义上得到增强,以便能够在整个处理流程中执行自动决策。为了实现这一目标,我们遵循[23]的工作来执行输入图像的逐像素语义分割。为了将标签从2D转换为3D,每个3D点根据其对2D的可见性被反向投影,并且最终多数投票确定3D点的标签。对于输入图像的语义分割,我们使用全卷积神经网络(FCN)[22]来获得逐像素分割。[22]中提出的我们定义了五个输出类,即:街道/人行道、建筑物、植被、天空和杂物。由于我们的中间目标是在语义上增强3D重建,因此我们需要对输入图像进行像素精确分割因此,FCN的32px的感受野和最终的8倍上采样太粗糙而不能实现该目标。我们通过添加表示为递归神经网络(CRFasRNN)的条件随机场来扩展2D分割网络,如[36]所示。条件随机场exploits的FCN的概率,并通过考虑到二进制约束来细化它们这将强制标签更改与边对齐。有了输入图像的逐像素语义分割,我们将此信息推广到3D:假设3D点具有可见性信息,我们将每个点反向投影到每个图像中,并计算基于语义的城市三维重建5通过多数表决的点标签。为了获得3D线的标签,我们用点对每条线进行采样,并如上所述为每个点计算标签。采样点内最频繁的标签定义线标签。3.2基于直线的平面检测在3D中检测平面的非常常见的方法是使用具有点云作为输入的基于RANSAC的算法(例如,[29])。然而,特别是在城市环境中,场景部分,如门面可能是不良的纹理,这些方法失败,由于丢失重建的3D点。相比之下,3D线条更有可能在建筑物立面处被检测到,因为通常存在一些高梯度元素,如窗户或建筑物轮廓因此,我们正在使用这个3D线信息,以提高在城市环境中的平面检测。由于我们的目标是重建一个平滑的建筑物周围,我们只使用标记为建筑物的线,而忽略所有其他线。假设有一个由线段组成的3D重建,我们首先检测已经描述了一个平面假设的线三元组。然后,我们聚类的三元组是共面的,在附近。最后,我们从平面假设中检测出所有的内点线。线路三重检测。由于我们明确地想要对经常具有矩形轮廓的人造场景进行建模,所以我们搜索可以用于描述平面的垂直共面线对。此外,我们只接受彼此之间距离很小的线对。对于共面性和垂直性测试,我们接受α误差= 5度的误差,并且从线段的起点/终点到计算平面假设的法向距离不得大于d内点= 0。十五米两条线段的起点/终点之间的距离不得大于1。5米,我们忽略线段短于0。8米为了执行一个早期的去除虚假的飞机,我们寻找第三个支持线,它必须是共面的线对,并与小的距离对。如果存在第三行,我们只接受行对。注意,线段也可以是若干线三元组的一部分,这对于精确地例如在房子的角落里。线三重聚类。在通过检测线三元组估计平面假设之后,若干假设可以几乎相同。因此,我们聚类表示同一平面表面的线三元组。我们通过首先检查三元组是否几乎共面(即,具有较小α误差的包围角的平面假设的法线,与线三元组的法线距离(即,其段的开始/结束点)到当前平面假设低于d内点)。从这些共面的线三元组,我们贪婪地添加所有的线三元组的一个集群,其中有一个最大的距离的线投影在12米的平面上的前一个线三元组。在对三元组进行聚类之后,对线进行采样,并且使用采样点来使用SVD重新估计平面。内点检测和轮廓估计。最后,我们检测所有内点(即, 在角度α误差和距离d内点方面几乎共面的线段),其在平面上的线投影的距离小于1。2m.6T. Holzmann,M.Maurer,F.Fraundorfer,H.Bischof我们通过计算所有内点段周围的边界框来估计平面的轮廓,并使用SVD重新估计具有所有内点的平面参数。平面滤波和基于平面的去噪。 在估计了平面之后,我们过滤掉包括在另一个平面假设中的平面片段(即,具有相同的平面参数并且包括轮廓)。此外,我们还填充了一个平面,该平面不具有足够的3D数据。例如,点和采样线段,参见第2节。3.3)在d内点正常距离内。由于特定的线段排列,这些最后对输入数据进行去噪处理:通过法向投影将所有与平面法向距离为d的点和线段3.3输入数据细分和处理根据语义标签,我们将场景细分为两个部分,这两个部分将被不同地处理:对于建筑部分,我们保留所有可用的3D信息。对于非建筑部分,我们稀疏化输入数据,计算泊松表面并使用采样的泊松表面,这导致更平滑、视觉上吸引人的重建(例如,植被处的伪峰较少在最后的优化中,细分的部分再次组合,以创建整个场景的重建。由于我们想要具有覆盖所有重要细节的建筑物部分的点云表示,因此我们添加所有输入点,并且另外将来自采样的建筑物线段的点添加到场景(线采样距离0. 05米)。添加采样线点尤其有助于纹理较差的场景部分,其中很少有重建点可用。与建筑物部分相比,我们希望非常平滑地表示建筑物的周围环境因此,我们首先稀疏这些类:对于clutter类,我们只保留每五个点,对于街道/人行道和植被,我们保留每三个点。然后,我们使用这些选择的点计算泊松表面[14]。对于子方程结构,我们不使用原始街道/人行道、植被和杂波点,而是使用计算的泊松表面的这导致在最终重建中场景的该部分的更平滑的表面。3.4基于四面体占位标记的在本节中,我们将描述最终的重建过程。我们解释了四面体细分使用检测到的平面和使用深度图的可见性预测,我们提出了一个归一化的基于可见性的能量项,并定义类相关的能量项。由于我们的方法使用整个场景的四面体表示,因此我们计算所有场景点的Delaunay三角剖分(即,建筑物部分的所有可用点和周围环境的采样泊松表面)。然后,我们使用检测到的平面细分四面体,并通过使用Graph Cuts [2]最小化以下能量来解决能量最小化问题:尽量减少ℓEVis()+EClass(),(1)基于语义的城市三维重建7其中EVis()是基于可见度的能量,EClass()是类别特定的能量项,这将在本节中更详细地解释。最后,我们得到一个内/外标签的每个细胞,从表面网格可以提取。四面体细分即使位于检测到的平面上的许多点被包括在三角测量中,也不能保证整个平面表面被包括为面。因此,按照[11]中描述的方法,我们计算平面和四面体的交点,并将所得的在该细分步骤之后,三角剖分不一定是Delaunay的,而是包含所有检测到的平面表面,其因此可以通过最终优化来选择使用深度图的可见性预测。为了计算基于可见性的能量项,每个3D点的可见性信息的知识(即,相机点对应)是必要的。因此,大多数方法遵循基于可见性的成本计算,类似于Labatut等人。[16]假设已知可见性信息。但是,细分四面体时,将创建没有可见性信息的新点。另外,不能使用没有可见性信息的因此,我们建议使用深度图来计算所有3D点的此信息。假设每个相机都有密集的深度图,我们将每个3D点投影到所有相机中。如果该点在图像边界内并且在相机前面如果深度差足够小(即,小于0。03m),我们假设当前点在该相机中实际上是可见的,并存储该相机点对应关系。改善基于可见度的能源。Labatut等人提出的基于可见度的能量项[16]往往很难归一化,因为能量的大小取决于点云的密度、当前四面体可见的相机的数量以及周围环境的可见性信息。因此,将它与其他能量项结合起来往往是困难的。因此,我们提出了一种改进的能量公式,其在准确性方面稍好一些,并且更重要的是,具有归一化的幅度,利用该归一化的幅度,与附加能量项的更直观的组合是可能的。受[16]和[12]的启发,能量项基于从每个顶点到顶点可见的每个相机的光线投射将一元成本分配给与可见顶点相邻的射线相交的单元(即,在顶点之前和之后),并且成对成本被分配给与射线相交的小平面(见图2)。2)的情况。与[16]相反,我们不仅在一个方向上分配成对项,而且在两个方向上都分配成对项,并且我们还在可见顶点前面添加一元成本。这已经表明,当使用归一化后,显着改善的结果。为了生成标准化的成本项,我们的总体思路如下:当项仍然低并且添加附加信息时,基于可见性的能量应当显著改变,但是当已经有足够的信息可用时,附加可见性信息的影响应当减小。因此,如果一个点被1个或5个摄像机可见,则应该具有显著的效果,但是如果可见度从21个摄像机改变到25个摄像机,则该效果应该减小8T. Holzmann,M.Maurer,F.Fraundorfer,H.Bischof外面3相机外面内部4512图二、基于可见度的能量计算。 我们使用光线投射来计算可见性项:相机位于(c1)中的单元格通过添加无限权重被标记为外部。然后,每个被视线(红色)包围的面(绿色)在两个方向上分配成对成本。最后,在可见顶点(c4)前面的单元格通过添加有限权重被标记为外部,并且在顶点(c5)后面的单元格通过添加有限权重被标记为内部。直接在可见顶点前面和后面的单元格的归一化一元项定义如下:Eunary(t)=(1−e-射线数量limitu)limitu,(2)当确定了该连续性时,可以确定横切该四面体的射线的数量,并且极限u是渐近接近的能量极限。另外,包括相机和无限单元的单元被标记为外部。每个方面的归一化成对项定义如下:-射线数量Epairwise(f)=(1-elimitp)limitp,(3)当确定该累积面时,该累积面是多个分段的,并且极限p定义能量极限。需要设置一元和成对能量的限制另外,需要允许成对项变得更强,否则在孔处或在顶部下方的大刻面处,一元项可能虚假地占主导地位,并且因此可能出现伪影。我们根据经验发现,对于大多数场景,限制u=8和限制p=24的设置是一个很好的选择。这些改进的基于可见度的能量项是非负的和亚模的。输出是具有最大一元和成对项的归一化能量,这对于将其与附加能量项组合是至关重要的,并且因此使得可以更容易地找到场景无关的参数设置。类相关能量项。取决于三角测量中的语义类方面和单元被分配到,添加附加能量项首先,我们通过使用所有对应的顶点计算多数投票来计算每个面和单元的类依赖。然后,场景部分根据其语义标签被分配不同的能量项。分配给建筑物部件的能量项有利于曼哈顿样结构,但同时旨在保留重要的细节,并在[11]中定义:它们由曼哈顿规律性项EMan组成,其有利于具有曼哈顿样表面结构的标签转换(即,具有类似于0度或90度的倍数的包围角的相邻面),以及细节水平项ELoD,其相对于未正则化模型惩罚体积误差因此,ELoD是EMan的对应物,并带回未被平滑的细节基于语义的城市三维重建9由飞机支持。使用这些能量项,我们强烈支持平面和曼哈顿状结构,同时仍然保持足够大的细节。对于非建筑部分,我们的目标是获得尽可能平滑的重建因此,我们只需添加一个面积平滑项E面积,如[16]中定义的。该术语应当去除伪像。因此,类别特定能量定义如下:.E级 ()=αManEMan(人)+αLoDELoD(人)如果建筑物)α面积E面积()else、(四)其中αMan、αLoD和α面积定义平滑量4实验在本节中,我们首先描述实现细节和输入数据。然后,我们评估了平面检测算法,改进的基于可见性的能量和语义先验的效果最后,我们比较结果,从我们的方法与他人,并显示效果的网格简化后处理步骤。实施详情。我们的流水线主要在C++中使用CGAL [3]实现Delaunay三角剖分和泊松网格(用于建筑物的周围环境)。语义分割网络在Caffe框架中实现[13]。对于初始化,我们利用PASCAL-Context网络的权重[27]并基于27个标记的训练图像(16个手动标记,11个来自eTRIMS数据集[15])执行网络的迁移学习,这些图像在尺度(0.8,1.0,1.2),旋转[deg](0,90,180,270)和镜像方面进行了此外,增强图像被裁剪为256× 256px的补丁,以轻松适应GPU内存。总的来说我们得到了在32,016个图像块的训练数据库中。训练本身已经分阶段进行,以连续地用CRFasRNN训练FCN32、FCN16、FCN8和FCN8。每个阶段使用随机梯度下降训练400,000次迭代,动量为0.99,权重衰减为0.0005,每个阶段的学习率分别为1e-9,1e-10, 1e-12和1e-12最终重建的参数设置如下:对于数据集House和Residential Area,参数集为α Man= 1000,α Lod= 500。对于数据集Block Building,参数设置不同,以施加更强的平面先验,因为该数据集在平面表面附近包含更多噪声(αMan= 2500,αLod= 1250)。α面积设定为0。5所有数据集输入数据。我们在三个数据集上进行了评估,其中示例图像在图1中描绘3.第三章。它们中的每一个都由微型飞行器(MAV)获得的图像组成,并由索尼Alpha 6000相机以24.3 MPixel捕获第一个数据集,我们称之为“房子”,包含233张图像,显示了一个家庭房屋和周围环境的场景,主要由草和树组成。第二个数据集,住宅区,包含446张图像,由两个家庭房屋组成(其他房屋没有被图像充分覆盖)。对于这两个数据集,也可用全站仪捕获的地面实况,并且测量地面控制点以将地面实况与基于图像的重建对准。第三个数据集名为Block Building,包含10T. Holzmann,M.Maurer,F.Fraundorfer,H.Bischof住宅小区砌块建筑图3.第三章。 来自评估数据集的示例输入图像。 House数据集由主要被植被包围的家庭房屋组成。住宅区数据集由几个家庭住宅组成,而Block Building数据集由一座主要具有曼哈顿式结构的办公楼组成。图4.第一章 与基于点的平面检测的比较。 在左列中,可以看到3D输入数据(顶部:三维点,底部:3D线段):特别是在前立面处,点云具有非常少的点,而线表示仍然包含一些线(例如,在窗户和建筑物边缘)。在中间列中,示出了与提取的平面相对应的点和线(随机着色)。可以观察到,基于点的方法很好地检测了密集采样表面处的平面,同时丢失了稀疏重构的表面。所提出的基于线的方法也检测到的飞机,只是表示与几个线段。在右列中,可以看到通过在平面表面上的内点数据周围拟合边界框而创建的平面段。在基于点的方法的结果中,虚假的平面段变得可见,而基于线的方法主要包含建筑物的平面232张图片,包括一个曼哈顿式的建筑,主要由粗糙的外墙和窗户组成。由于该数据集没有度量尺度,因此我们手动将其缩放为近似度量。为了计算相机姿态,我们使用了我们自己的运动恢复结构实现。房子的密集点云是使用Sure [28]计算的,由大约。90万积分。使用PMVS2 [5]计算住宅区和街区建筑的密集点云,分别包含3.6M点和1.4M点使用Line3D++ [9]计算3D线重建,使用PlaneSweepLib[8]计算输入深度图。使用直线的平面检测。在这个实验中,我们比较了我们提出的平面检测算法使用线与一个国家的最先进的RANSAC为基础的平面检测算法Schnabel等人提出的。[29]第10段。图4示出了两种方法的检测过程为了比较,我们在CGAL [3]中使用[29]的实现。我们更改了默认参数,以使结果与我们的方法相当:我们将内点距离设置为0。15米Pt.-基于[29]基于行基于语义的城市三维重建11[16]第16话被人利用µ= 0。035,σ = 0。071µ = 0。034,σ = 0。069µ = 0。037,σ = 0。146µ =0。034,σ = 0。135图五、 与[16]中基于可见度的能量相比,建议的基于可见度的能量项的误差(单位:m)。左图:对住宅区数据集的评估。从视觉上看,所提出的能量的结果非常相似,但误差略低(误差定义见第2节)。4)并且被归一化,这对于将其与其他能量结合至关重要。右图:Fountain-P11 [30]数据集的错误可视化。蓝色表示低错误,红色表示高错误。同样在该数据集上,拟定制剂的误差略低(误差定义见[30])。如在基于线的方法中,并将每个平面的最小支撑点减少到0。5%,以生成更多的平面假设。从图1中的结果可以看出。4,[29]由于缺少3D点而错过了重要的立面平面,并检测到几个虚假平面,而我们的方法由于立面上的线结构的可用性而检测到更完整的平面集。对于更多的比较,我们参考补充材料。归一化的基于可见度的能量项在这个实验中,我们表明,所提出的归一化的基于可见性的能量公式稍微改善了重建精度,同时更容易处理与其他能量项的组合我们在住宅区数据集和Fountain-P11[30]数据集上评估了拟议的能量在图5中,可以看到仅使用基于可见度的能量(即,基于可见度的能量)没有附加的能量项)。可以观察到视觉结果是相似的。对于这两个数据集,误差度量非常相似,但对于所提出的归一化的基于可见性的能量公式来说稍好。关于能量公式中改变的各个步骤的更详细的评价,我们请读者参阅补充材料。当查看仅使用基于能量的能量的Residential Area的结果时,可以看到某些表面非常嘈杂。因此,用平面先验规则化一些部分,并对其他部分(如植被)使用平滑表面近似,对于创建视觉上吸引人的模型非常有益。语义先验。在图6中,可以观察到,当不使用语义时(与将一切都视为建筑物相同),建筑物的周围环境是嘈杂的并且在视觉上不那么吸引人。此外,需要使用更多的数据来描述有噪声的网格,而使用语义更稀疏的泊松重建来描述周围环境。此外,当曼哈顿正则性项被应用于任何地方时,可能出现伪像,即使它可能不适合于平滑例如植被结果下面,我们将所提出的算法的重建结果与通用3D重建算法和专门的城市重建算法进行比较。12T. Holzmann,M.Maurer,F.Fraundorfer,H.Bischof没有Sem与Sem的房子没有SemRes.带扫描电镜的区域图六、有/无语义信息计算结果的比较。 如在两个数据集的详细示例中可以看到的,建筑物周围的重建表面在没有语义的情况下更有噪声。由于泊松重建和不同的平滑度项,周围的重建更加平滑并且具有较少的点(即,更少的数据)。此外,在周围环境中移除检测到的平面,因为仅建筑线用于平面检测。由于语义的这些变化有助于视觉上更吸引人的最终重建。点云泊松[14][11]第二十一话图7.第一次会议。 结果和与最先进方法的比较。 从左到右:输入点云,根据输入点云计算的泊松网格[14],Polyfit [25]的结果,Holzmann等人。[11]以及所提出的方法。泊松网格在视觉上看起来很吸引人,但在缺少数据的地方通常会产生圆形边缘和虚假表面(如气泡)。Polyfit无法很好地重建所有建筑物。由于它依赖于从点云检测到的平面,未检测到的表面只是不包括在可能的解决方案集中,并且虚假的平面导致错误的重建结果。Holzmann等人正则化场景的某些部分以及其包含的平面先验。然而,在场景的一些部分处,并非所有平面都被检测到,并且因此,平面表面保持有噪声。此外,由于不可预测的基于可见性的能量项,难以为平滑度项设置正确的权重。因此,场景的某些部分可以非常快速地平滑。所提出的方法创建3D模型,在立面/屋顶的平面表面,同时仍然保持建筑细节,如烟囱和重建周围的光滑表面。结构方法。为了与商业重建管道进行比较,我们建议读者参考补充材料。在图7和图1中,描绘了来自所提出的方法和最先进的重建算法的结果,其中一些算法还尝试遵循视觉上吸引人的3D重建的相同想法Poisson曲面B区房子Res. A.基于语义的城市三维重建13重建产生平滑的表面,这导致圆化的边缘。此外,它不能很好地处理丢失的数据,并产生虚假的工件。Polyfit [25]严重依赖于(基于点的)平面检测结果,并且不能很好地重建非平面部件,因为它仅依赖于检测到的平面,并且仅使用平面表面来创建优化的表面模型。Holzmann等人的方法。[11]将平面先验纳入重建中,因此,旨在遵循视觉上吸引人的3D模型的类似想法。然而,一些平面表面没有被正确地检测到,并且由于基于平滑度的能量的不可预测性,很难正确地设置平滑度能量权重。这可能会导致像平滑的墙壁部分或整个建筑物的文物。由于该方法不具有语义类特定的平滑,因此建筑物的周围环境也根据平面先验被严重地平滑,并且因此,一些部分(例如,植被)被过度平滑,并且可能出现看起来像切片的伪像相比之下,所提出的方法使用更完整的平面集作为形状先验,并仅在建筑物上施加平面表面。由于改进的基于可见度的能量公式,更容易设置正确的平滑度项权重,并且因此更容易避免过度平滑。周围环境的表示是平滑的,但仍然没有过度平滑。在选项卡中。描述了两个数据集相对于地面实况的1个误差度量。可以观察到,所提出的方法的误差度量对于房屋和住宅区数据集都是最好显然,合并在重建过程中的有关地面实况的更多信息,请参阅补充材料。对于这种比较,我们使用以下参数设置:对于泊松表面重建,我们将八叉树深度设置为9。对于Polyfit,我们使用默认参数。我们还尝试改变参数,但结果没有显著改善。对于Holzmann等人[11]我们使用了House和Block B论文中描述的参数设置。. 对于住宅区,我们将αLoD设置为250K。由于所提出的方法的结果网格的大部分的平面性,网格中的面的数量可以显著减少而不需要表1. 与地面实况相比的误差统计。 我们计算了地面实况点到表面重建的最小距离,最大距离为1米。在这两个数据集上,所提出的方法具有最低的误差。Polyfit在这两个数据集上的误差都要高得多,因为它不能很好地重建整个场景,而只是重建建筑物的(部分)。Holzmann等人由于错误平滑的建筑物,“Residential Area”数据集上的错误最高。泊松产生过平滑(即,没有尖锐边缘),但是具有可比较的误差。房子住宅区µ[m]σ[m]µ[m]σ[m]泊松[14]0.1650.2370.1010.157Polyfit [25]0.5150.3520.3040.375Holzmann等人[第十一届]0.1370.2370.4150.385提出0.126 0.233 0.055 0.08614T. Holzmann,M.Maurer,F.Fraundorfer,H.Bischof13#面孔House,r = 0。154保留面积,r = 0。081积木式建筑,r =0。054#faces=698K/107K#faces=4569K/371K#faces=2190K/118K图8. 简化为后处理。 每个子图由所提出的方法的结果网格(左)和由二次边折叠[6]简化的网格组 成 。−以无损方式(右)(即,将边折叠限制为10的二次误差)。下面,减少因素和#因素可用于实现。 由于构建部件的完美平面性,可以在不改变网格的表面的情况下合并面。虽然,非建筑部分保持不变,因为他们不是完美的平面。非常低的折减系数r =#orig(即, 高压缩)可用于所有型号。相比之下,当应用“二次边折叠”时,P 〇 i ss o nmeshesinF ig. 7,则最佳还原系数为0。929(#faces=393 k/365K)。使用VCGlib进行二次边缘塌陷[31]。改变表面。在图8中,描绘了应用二次边缘折叠[6]作为后处理步骤的结果。由于二次边折叠的最大误差被设置为10- 13(即,几乎为零),仅去除平面表面上的边缘。可以观察到,即使网格表面没有改变,数据量也大大减少。假设有一个预先计算的密集点云,3D线模型,深度图和语义标记的图像,我们的方法需要13分钟的房子数据集,60分钟的块建筑和153分钟的住宅区(在英特尔至强E5-2680运行在2.8GHz的40个核心和264 GB RAM)。大部分时间用于单元格切割和可见性项计算。5结论提出了一种城市场景的三维重建方法,并对该方法进行了仿真实验。可以获得建筑物的平面表面和直线轮廓,而建筑物的周围环境由平滑表面表示。我们引入的基于线的平面检测算法检测到一个更完整的平面集相比,基于点的方法,并通过使用语义信息,我们可以规范不同的个别场景部分。我们已经证明,我们可以产生视觉上有吸引力和紧凑的3D重建,同时仍然达到比最先进的方法稍好的精度。鸣谢。这项研究由奥地利科学基金(FWF)资助,项目V-MAV(I-1537 ) 。 我 们 感 谢 教 授 。 来 自 IGMS 、 TU Graz 、 Jesus Pestana 和Christian Mostegel的Werner Lienhart和Slaven Kalenjuk提供了数据集,Martin R.奥斯瓦尔德来讨论。基于语义的城市三维重建15引用1. Blaha,M.,沃格尔角Richard,A.Wegner,J.,辛德勒,K.,Pock,T.:大规模语义三维重建:一种用于多类体标注的自适应多分辨率模型 。 在 : Proceedings IEEE Conference Computer Vision and PatternRecognition(2016)。https://doi.org/10.1109/CVPR.2016.3462. Boykov,Y.,Veksler,O.,Zabih,R.:通过图切割的快速近似能量最小化。IEEE Transactions on Pattern Analysis and Machine Intelligence20(12),12223. CGAL.计算几何算法库:http://www.cgal.org4. Dzitsiuk,M.,Sturm,J.,迈尔河马,L.,Cremers,D.:使用平面先验去噪、稳定和完成3D重建在:机器人与自动化国际会议(2017年5月)5. Furukawa,Y.,Ponce,J.:精确、密集和强大的多视图立体视觉。IEEE Transactions on Pattern Analysis and Machine Intelligence(2010)6. Garland , M.Heckbert , P.S. : 使 用 二 次 误 差 度 量 的 曲 面 简 化 在 :ACMTrans. 在 G 形 ( SIG GRAPH ) 中 。 pp. 209ACMPRSS/AD DISO N-Wesley Publishing Co.,纽约(1997年)7. H a?e,C., Zach,C., C〇hen,A., A ngst,R. Polleefeys,M. :Jont3dscen e rerentr u nc-tion and class segmentation. IEEE计算机视觉与模式识别会议论文集(2013)8. Ha?e,C., Heng,L., 好吧G H、 尺寸,A., Polleefeys,M. :使用平面扫描立体对鱼眼图像进行实时定向匹配。在:3D视觉国际会议(3DV)(2014)9. Hofer,M.,Maurer,M.Bischof,H.:使用线段的有效三维场景抽象。计算机视觉与图像理解(2016),http://dx.doi.org/10.1016/j.cviu.2016.03.01710. Holzmann,T.,Fraundorfer,F.,Bischof,H.:从嘈杂的建筑物重建正则化三维建模。In:Fourth International Conference on 3D Vision,3DV 2016,Stanford,CA,USA,October25-28,2016. pp. 第52811. Holzmann,T.,奥斯瓦尔德,医生Pollefeys,M.,Fraundorfer,F.,Bischof,H.:基于平面的城市三维重建表面规则化第28届英国机器视觉会议第28卷(9 2017)12. 霍普角Klopschitz,M.,Donoser,M.,Bischof,H.:从稀疏运动恢复结构点云中增量式提取表面在:英国机器视觉会议论文集(2013)13. Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,朗J格尔希克河瓜达尔-拉马,S.,达雷尔,T.:Caffe:用于快速特征嵌入的卷积架构ArXiv预印本arXiv:1408.5093(2014)14. Kazhdan,M.,Bolitho,M.,Hoppe,H.:泊松曲面重建在:欧洲-图形研讨会几何处理(2006)15. Korˇc,F., Forrstner,W. :eTRIMSImage数据库用于保存人造场景的图像 。 Tech. Rep. TR-IGG-P-2009-01 ( April 2009 ) , http
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功