没有合适的资源?快使用搜索试试~ 我知道了~
construction in most cases, they have difficulty in handlinglow-textured regions, e.g., floors and walls of indoor scenes,due to the unreliable stereo matching in these regions.To improve the reconstruction of low-textured regions,a typical approach is leveraging the planar prior of man-made scenes, which has long been explored in literature[8,10,11,41,48,51]. A renowned example is the Manhattan-world assumption [8], i.e., the surfaces of man-made scenesshould be aligned with three dominant directions. Theseworks either use plane estimation as a postprocessing stepto inpaint the missing depth values in low-textured regions,or integrate planar constraints in stereo matching or depthoptimization. However, all of them focus on optimizingper-view depth maps instead of the full scene models in 3Dspace. As a result, depth estimation and plane segmentationcould still be inconsistent among views, yielding subopti-mal reconstruction quality as demonstrated by our experi-mental results in Section 5.3.There is a recent trend to represent 3D scenes as im-plicit neural representations [32, 46, 55] and learn the rep-resentations from images with differentiable renderers. Inparticular, [49, 54, 55] use a signed distance field (SDF) torepresent the scene and render it into images based on thesphere tracing or volume rendering. Thanks to the well-defined surfaces of SDFs, they recover high-quality 3D ge-55110基于曼哈顿世界假设的神经3D场景重建0郭浩宇1 � 彭思达1 � 林浩通1 王倩倩20张国锋1 鲍虎军1 周晓伟1 †01 浙江大学 2 康奈尔大学0摘要0本文解决了从多视图图像重建3D室内场景的挑战。许多先前的工作在纹理对象上展示了令人印象深刻的重建结果,但是它们在处理室内场景中常见的低纹理平面区域时仍然存在困难。解决这个问题的方法是将平面约束纳入基于多视图立体匹配方法的深度图估计中,但是每个视图的平面估计和深度优化都缺乏效率和多视图一致性。在这项工作中,我们展示了平面约束可以方便地集成到最近的基于隐式神经表示的重建方法中。具体而言,我们使用MLP网络来表示带符号距离函数作为场景几何。基于曼哈顿世界的假设,我们使用平面约束来规范由2D语义分割网络预测的地板和墙壁区域的几何形状。为了解决不准确的分割问题,我们使用另一个MLP对3D点的语义进行编码,并设计了一种新的损失函数,可以联合优化3D空间中的场景几何和语义。在ScanNet和7-Scenes数据集上的实验证明,所提出的方法在3D重建质量上大大优于先前的方法。代码和补充材料可在https://zju3dv.github.io/manhattan_sdf上获得。01. 引言0从多视图图像重建3D场景是增强现实、机器人和自动驾驶等许多应用的基石。给定输入图像,传统方法[43, 44,58]通常基于多视图立体匹配算法估计每个图像的深度图,然后将估计的深度图融合成3D模型。尽管这些方法在大多数情况下都能成功进行重建,但是它们在处理低纹理区域(例如室内场景的地板和墙壁)时存在困难,这是由于这些区域的立体匹配不可靠。为了改善低纹理区域的重建,一种典型的方法是利用人造场景的平面先验,这在文献[8, 10, 11, 41,48,51]中已经得到了长期的探索。著名的例子是曼哈顿世界假设[8],即人造场景的表面应与三个主导方向对齐。这些工作要么将平面估计用作后处理步骤来填充低纹理区域中缺失的深度值,要么将平面约束整合到立体匹配或深度优化中。然而,所有这些方法都集中在优化每个视图的深度图,而不是在3D空间中优化完整的场景模型。因此,深度估计和平面分割在视图之间仍然可能不一致,导致次优的重建质量,这在我们的实验结果中在第5.3节中得到了证明。最近的趋势是将3D场景表示为隐式神经表示[32, 46, 55]并从图像中学习表示,具有可微分的渲染器。特别是,[49, 54,55]使用带符号距离场(SDF)来表示场景,并基于球追踪或体积渲染将其渲染成图像。由于SDF的表面定义明确,它们可以恢复高质量的3D几何。0来自浙江大学的作者隶属于CAD&CG国家重点实验室和浙江大学-商汤联合3D视觉实验室。� 相等贡献。† 通讯作者:周晓伟。0几何0联合优化0语义分割0图1.核心思想。我们使用隐式神经表示来表示3D场景的几何和语义,基于曼哈顿世界的假设,在3D空间中联合优化几何重建和语义分割。55120从图像中恢复几何结构。然而,这些方法基本上依赖于多视图光度一致性来学习SDF。因此,在低纹理的平面区域中它们仍然表现不佳,如图1所示,因为在低纹理的平面区域中可能有许多合理的解满足光度约束。在这项工作中,我们展示了曼哈顿世界假设[8]可以方便地整合到学习3D室内场景的隐式神经表示中,并显著提高重建质量。与以前的MVS方法不同,隐式神经表示允许在3D空间中同时表示和优化场景几何和语义,从而产生全局一致的重建和分割。具体而言,我们使用一个MLP网络来预测3D空间中任意点的有符号距离、颜色和语义logits。语义logits表示一个点是地板、墙壁还是背景的概率,由一个2D语义分割网络[4]初始化。类似于[54],我们通过基于体积渲染将渲染图像与输入图像进行比较来学习有符号距离和颜色场。对于地板和墙壁上的表面点,我们强制它们的表面法线遵循曼哈顿世界假设。考虑到初始分割可能不准确,我们设计了一个损失函数,同时优化语义logits和SDF。这个损失函数有效地提高了场景重建和语义分割的质量,如图1所示。我们在广泛使用的ScanNet[9]和7-Scenes[45]数据集上评估了我们的方法,这些数据集用于3D室内场景重建。实验证明,所提出的方法在重建质量方面大幅优于现有方法,特别是在平面区域。此外,语义和重建的联合优化提高了初始语义分割的准确性。总之,我们的贡献如下:0•一种将曼哈顿世界约束整合到隐式神经表示优化中的新型场景重建方法。0• 一种优化语义标签和场景几何的新型损失函数。0• 在ScanNet和7-Scenes上与现有方法相比,重建质量显著提高。02. 相关工作0MVS。许多方法采用两阶段的多视图3D重建流程:首先基于MVS为每个图像估计深度图,然后进行深度融合[27,31]以获得最终的重建结果。传统的MVS方法[43,44]能够重建非常精确的0整理3D形状并在许多下游应用中使用,例如新颖视角合成[39,40]。然而,它们往往在无纹理区域上表现不佳。一个主要原因是无纹理区域使得密集特征匹配变得棘手。为了克服这个问题,一些研究利用深度学习技术改进重建流程。例如,[15,52,53]尝试提取图像特征,构建代价体积,并使用3DCNN预测深度图。[7,13]以粗到细的方式构建代价体积,并能够获得高分辨率的结果。另一类方法[11,41,48,51]利用场景先验知识来辅助重建。他们观察到无纹理平面区域可以使用平面先验进行补全。[19,25,56]提出了一种深度-法线一致性损失来改善训练过程。与为每个图像预测深度图不同,我们的方法学习了一个隐式神经表示,可以实现更连贯和准确的重建。0神经场景重建。神经场景重建方法使用神经网络预测3D空间中点的属性。Atlas[30]提出了一个端到端的重建流程,直接从3D特征体积回归截断的有符号距离函数。NeuralRecon[47]通过为每个片段序列重建局部表面来提高重建速度。它们使用离散的体素表示场景,导致内存消耗很高。最近,一些方法[28,29,33,34,46,49,54]使用隐式神经函数表示场景,并能够以低内存消耗产生高分辨率的重建结果。[22,32]提出了一种隐式可微渲染器,可以从2D图像学习3D形状。IDR[55]对视角相关的外观进行建模,可以应用于非兰伯特表面重建。尽管取得了令人印象深刻的性能,但它们需要获得遮罩信息来进行重建。受到NeRF [29],NeuS [49]和VolSDF[54]的成功启发,我们将体积渲染技术应用于IDR,并消除了对遮罩信息的需求。尽管它们在小尺度和丰富纹理的场景重建方面取得了惊人的结果,但我们的实验证明这些方法在大尺度室内场景中的无纹理平面区域上往往产生较差的结果。相反,我们的方法利用语义信息来辅助无纹理平面区域的重建。0语义分割。最近,基于学习的方法在语义分割方面取得了令人瞩目的进展。FCN[24]对整个图像应用全卷积操作,产生像素级的图像语义分割结果。最近的方法[2,6]尝试使用可学习的解码器来聚合高分辨率的特征图,以保留深层中的详细空间信息。另一类方法[4, 5,57]使用扩张卷积来处理大感受野。除了2D分割方法外,许多工作旨在从3D空间实现语义分割。[3,36-38]开发了处理包括点云和体素在内的不同3D数据表示的网络。最近,[59]提出了将NeRF扩展到使用辐射场编码语义的方法。NeRF的内在多视角一致性和平滑性有助于语义,使得标签传播、超分辨率、去噪和其他几个任务成为可能。还有一些工作[14, 18, 20,23]在2D和3D空间中学习语义分割,并利用图像和3D场景之间的投影关系来提高性能。我们的方法从2D分割预测[5]中学习3D语义,并联合优化几何和语义。semantic segmentationgeometryimageinput imageinput semantic segmentation55130渲染0渲染0语义logits0颜色0有符号距离场参数0图像损失(公式5)0几何约束(公式13)0分割损失(公式14)0图2.我们方法的概述。我们使用隐式神经表示学习3D场景的几何、外观和语义。对于图像像素,我们使用可微分体积渲染来渲染其像素颜色和语义概率,这些概率在2D中通过输入图像和语义标签进行监督。为了联合优化几何和语义,我们基于曼哈顿世界假设在平面区域引入几何约束,从而提高重建和分割的准确性。0除了2D分割方法外,许多工作旨在从3D空间实现语义分割。[3,36-38]开发了处理包括点云和体素在内的不同3D数据表示的网络。最近,[59]提出了将NeRF扩展到使用辐射场编码语义的方法。NeRF的内在多视角一致性和平滑性有助于语义,使得标签传播、超分辨率、去噪和其他几个任务成为可能。还有一些工作[14, 18, 20,23]在2D和3D空间中学习语义分割,并利用图像和3D场景之间的投影关系来提高性能。我们的方法从2D分割预测[5]中学习3D语义,并联合优化几何和语义。03. 方法0给定室内场景的多视图图像和相机姿态,我们的目标是重建高质量的场景几何。在本文中,我们提出了一种名为ManhattanSDF的新方法,如图2所示。我们使用有符号距离和颜色场来表示场景的几何和外观,这些场是通过体积渲染技术从图像中学习得到的(第3.1节)。为了提高纹理缺失区域(如墙壁和地板)的重建质量,我们进行语义分割以检测这些区域,并基于曼哈顿世界假设[8]应用几何约束(第3.2节)。为了克服语义分割的不准确性,我们还将语义信息编码到隐式场景表示中,并联合优化场景的几何、外观和语义(第3.3节)。03.1. 从图像中学习场景表示0与MVS方法[44,52]相比,我们将场景建模为隐式神经表示,并通过可微分渲染器从图像中学习。受[49, 54,55]的启发,我们使用有符号的几何和外观来表示场景。0距离和颜色场。具体来说,给定一个3D点x,几何模型将其映射到一个有符号距离d(x),定义如下:0(d(x), z(x)) = Fd(x), (1)0其中 F d 是一个多层感知机(MLP)网络,z(x)是几何特征,如[55]所述。为了近似辐射函数,外观模型以空间点x、视角v、法线n(x)和几何特征z(x)作为输入,并输出颜色c(x),定义如下:0c(x) = Fc(x, v, n(x), z(x)),(2)0我们通过计算点x处的有符号距离d(x)的梯度来获得法线n(x),如[55]所示。根据[49,54],我们采用体积渲染来从图像中学习场景表示网络。具体来说,为了渲染图像像素,我们沿着相机光线r采样N个点{xi}。然后我们预测每个点的有符号距离和颜色。为了应用体积渲染技术,我们将有符号距离d(x)转换为体积密度σ(x):0σ(x) =01 β 1 - 102exp(-d(x))0β if d(x) < 0,012βexp(-d(x))0β if d(x) ≥ 0,(3)0其中β是可学习参数。然后我们使用数值积分[29]累积密度和颜色:0ˆC(r) =0i = 1 Ti(1 - exp(-σiδi))ci,(4)0其中δi = ||xi+1 - xi||2是相邻采样点之间的距离,Ti =exp(-∑i-1j=1σjδj)表示沿光线的累积透射率。Lw(r) =mini∈{−1,0,1} |i − n(xr) · nw| ,(9)Lgeo =�r∈FLf(r) +�r∈WLw(r),(10)s(x) = Fs(x),(11)55140RGB图像(a)(b)(c)(d)0图3.定性消融实验。(a)仅使用图像进行训练。(b)添加Ld。(c)添加Lgeo。(d)用Ljoint替换Lgeo。0在训练过程中,我们使用多视图图像和光度损失来优化场景表示网络:0Limg = ∑0r ∈ R0|ˆC(r) - C(r)|,(5)0其中C(r)是真实像素颜色,R是通过采样像素的相机光线的集合。此外,我们根据[54,55]的建议应用Eikonal损失[12]。0LE = ∑0y ∈ Y (∥�yd(y)∥2 - 1)2,(6)0其中Y表示从随机均匀空间和像素的表面点组合采样的点。我们观察到,仅使用图像从头开始学习场景表示在纹理区域中都很难重建出合理的几何结构,如图3(a)所示。相比之下,尽管基于深度估计的方法[43, 44,58]在低纹理区域往往会给出不完整的重建结果,但它们可以从图像中重建出纹理区域的准确点云。我们提出使用多视图立体方法[43]的深度图来辅助学习场景表示:0Ld = ∑0r ∈ D0|D(r) - D(r)|,(7)0其中D是由[43]估计的具有深度值的图像像素通过的相机光线的集合,ˆD(r)和D(r)分别是渲染和输入的深度值。图3(b)展示了使用深度损失的重建结果示例。尽管深度损失改善了重建质量,但在无纹理区域中,由于输入深度图在这些区域中是不完整的,重建性能仍然有限。03.2.带有平面约束的场景重建0我们观察到,大多数无纹理的平面区域位于地板和墙壁上。根据曼哈顿世界假设[8],室内场景的地板和墙壁通常与三个主要方向对齐。受此启发,我们提出将几何约束应用于地板和墙壁的区域。具体而言,我们首先使用2D语义0使用分割网络[5]获取地板和墙壁的区域。然后,我们应用损失函数来强制平面区域中的表面点共享相同的法线方向。对于地板区域的监督,我们假设地板垂直于z轴,遵循曼哈顿世界的假设。我们为地板像素设计法线损失:Lf(r) = |1 -n(xr) ∙ nf|,(8)0其中 x r 是相机射线 r 的表面交点,n ( x r ) 是在点 x r处计算的有符号距离 d ( x ) 的梯度,n f = � 0 , 0 , 1 �是一个表示地板区域中假设的法线方向的上方单位向量。为了监督墙壁区域,引入了一个可学习的法线 n w。我们设计了一个损失函数,使得墙壁上的表面点的法线方向要么与可学习的法线 n w 平行,要么垂直,定义为:0其中可学习的法线 n w 初始化为 � 1 , 0 , 0 �,并在训练过程中与网络参数一起进行优化。我们将 n w的最后一个元素固定为 0 ,使其垂直于 n f。最后,我们定义法线损失为:0其中 F 和 W 是由语义分割网络 [5]预测为地板和墙壁区域的图像像素的相机射线集合。03.3. 语义和几何的联合优化0将几何约束应用于地板和墙壁区域可以提高重建质量。然而,网络预测的二维语义分割结果在某些图像区域可能是错误的,这导致重建不准确,如图 3 (c)所示。为了解决这个问题,我们提出了在三维空间中同时优化语义标签、场景几何和外观的方法。受 [59]的启发,我们通过额外预测每个三维空间点的语义 logits来增强神经场景表示。我们将 x 的语义 logits 表示为 s ( x )∈ R 3 。语义 logits 的定义如下:0其中 F s 是一个 MLP 网络。通过应用 softmax函数,可以将 logits 转换为点 x属于地板、墙壁和其他区域的概率。类似于图像渲染,我们使用体积渲染技术将语义 logits渲染到二维图像空间中。对于一张图像,ˆS(r) =N�i=1Ti(1 − exp(−σiδi))si,(12)Ljoint =�r∈Fˆpf(r)Lf(r) +�r∈Wˆpw(r)Lw(r).(13)Ls = −�r∈R�k∈{f,w,b}pk(r) log ˆpk(r),(14)55150对于每个像素,其语义 logits 的计算方式为:0其中 s i 是沿着相机射线 r 上采样点 x i 的 logits。我们将logits ˆ S 输入到 softmax 归一化层中,计算多类概率 ˆ p f、ˆ p w 和 ˆ p b,分别表示像素属于地板、墙壁和其他区域的概率。在训练过程中,我们将多类概率整合到第 3.2节中提出的几何损失中。为此,我们将方程(10)中的法线损失改进为联合优化损失,定义为:0该损失函数通过以下方式优化场景表示。以地板区域为例,如果 r 的输入语义标签是正确的,则 L f ( r )应该很容易减小。但是如果输入分割是错误的,则 L f ( r )可能在训练过程中震荡。为了减小 ˆ p f ( r ) L f ( r ),梯度将推动 ˆ p f ( r )变小,从而优化语义标签。需要注意的是,一个微不足道的解决方案是 ˆ p f 和 ˆ p w都消失。为了避免这种情况,我们还使用交叉熵损失对由[5] 估计的输入语义分割结果进行监督:0其中 ˆ p k ( r ) 是类别 k 的渲染概率,p k ( r )是二维语义分割预测。需要注意的是,通过 L s学习三维语义自然利用了多视角一致性,提高了语义场景分割的准确性,如 [59] 所示。04. 实现细节0我们使用PyTorch[35]实现了我们的方法,并使用Detectron2[50]中的DeepLabV3+[5]实现了2D语义分割网络。网络训练在一块NVIDIATITAN XpGPU上进行。在实验中,我们首先将所有相机归一化到一个单位球内,并按照[1]的方法初始化网络参数,使得SDF近似为一个单位球,并且球的表面法线朝向内部。图像的大小调整为640×480,用于2D语义分割和场景重建。我们使用学习率为5e-4的Adam优化器[17],每个场景使用1024条光线的批次进行50k次迭代的网络训练。优化过程大约需要5个小时。我们使用MarchingCubes算法[26]从学习到的有符号距离函数中提取表面网格。05. 实验05.1. 数据集、度量和基准0数据集。我们在ScanNet(V2)[9]和7-Scenes[45]上进行实验。ScanNet是一个包含1613个室内场景和250万视图的RGB-D视频数据集。它带有地面真实相机姿态、表面重建和实例级语义分割的注释。7-Scenes由手持KinectRGB-D相机记录的RGB-D帧组成。它使用KinectFusion获取相机姿态和密集的3D模型。在我们的实验中,我们在ScanNet的训练集上训练2D语义分割网络,并在随机选择的8个场景(4个来自ScanNet的验证集和4个来自7-Scenes)上进行实验。每个场景包含1K-5K个视图。我们均匀采样十分之一的视图进行重建。0度量。对于3D重建,我们使用RGB-D融合结果作为地面真值,并使用[30]中定义的5个标准度量指标评估我们的方法:准确性、完整性、精确度、召回率和F分数。我们按照[47]的方法将F分数作为综合度量。这些度量的定义详见补充材料。对于语义分割,我们评估地板和墙壁的交并比(IoU)。0基准方法。(1)经典MVS方法:COLMAP[43]。我们使用筛选的泊松表面重建(sPSR)[16]从点云中重建网格。(2)带平面拟合的MVS方法:COLMAP*。有几种方法[11,41]在图像空间中分割分段平面分割,并对COLMAP应用平面拟合。由于这些方法没有发布代码,我们使用最先进的分段平面分割方法[21]实现了这个基准,并将其表示为COLMAP*。(3)带平面正则化的MVS方法:ACMP[51]。ACMP利用概率图模型将平面模型嵌入到PatchMatch中,并提出多视图聚合匹配代价来改善平面区域的深度估计。(4)基于体素渲染的最先进方法:NeRF[29],UNISURF [33],NeuS [49]和VolSDF[54]。对于这些方法,我们使用MarchingCubes算法[26]提取网格。由于它们(包括我们的方法)可以重建未观察到的区域,这些区域在评估中将受到惩罚,我们从预测的网格中渲染深度图,并使用TSDF融合[31]进行融合,按照[30]的方法。05.2. 消融研究0我们在ScanNet上进行了消融研究,并展示了我们方法中每个组件的有效性。我们使用四种配置进行训练:(1)VolSDF的原始设置:仅使用图像监督训练网络,(2)VolSDF-D:我们添加深度监督Ld,定义见第3.1节,(3)VolSDF-D-G:除了VolSDF-D,我们还添加55160我们的方法 真值 VolSDF-D-S VolSDF-D-G VolSDF-D VolSDF0图4.ScanNet上的消融研究。与我们的基准方法相比,我们的方法可以产生更加连贯的重建结果。请注意,VolSDF-D-G相比于VolSDF和VolSDF-D可以重建更加平滑和完整的平面。与VolSDF-D-G相比,我们的方法可以在保持平面重建质量的同时,在非平面区域重建更多细节。颜色表示表面法线。放大以查看细节。0准确率 ↓ 完整度 ↓ 精确率 ↑ 召回率 ↑ F-score ↑0VolSDF 0.414 0.120 0.321 0.394 0.346 VolSDF-D0.229 0.099 0.416 0.455 0.431 VolSDF-D-G 0.1330.090 0.447 0.435 0.438 VolSDF-D-S 0.127 0.0810.463 0.487 0.474 我们的方法 0.072 0.068 0.621 0.5860.6020表1.在ScanNet上的消融研究。我们报告了三维重建指标。与我们的基准相比,我们的方法在准确性和完整性方面都有显著改进。0法线损失 在第3.2节中定义的L geo ,(4)VolSDF-D-S:除了VolSDF-D之外,我们在3D空间中学习语义,(5)我们的方法:我们在3D空间中学习语义,并改进法线损失为联合优化损失L joint,在第3.3节中定义。我们在表1中报告定量结果,并在图4中提供定性结果。在表1中比较VolSDF和VolSDF-D显示,来自估计的稀疏深度图的监督可以提供约0.095的精确度改进和0.061的召回改进。图4中的可视化结果显示,无论是平面区域还是非平面区域都有改进,但重建仍然存在噪声和不完整性。这些结果表明,L d可以使网络更好地收敛,但重建结果仍然质量较低。然后,我们研究法线损失如何影响重建性能。表1中的结果显示,VolSDF-D-G提供了0.031的精确度改进,但召回率降低了0.020。如可视化结果所示0图4中,VolSDF-D-G可以相对于VolSDF-D重建出更平滑和更完整的平面,但是非平面区域的一些细节被遗漏了。这些结果表明,L geo可以改善平面区域的重建,但是由于错误分割的误导,非平面区域的性能可能会降低。为了验证在3D空间中学习语义字段的好处,我们比较了VolSDF-D和VolSDF-D-S。表1中的结果显示,VolSDF-D-S提供了0.047的精确度改进和0.032的召回改进。这些结果表明,在3D空间中学习语义也可以辅助重建。为了验证我们提出的联合优化方式的好处,我们比较了VolSDF-D-G和我们的方法。用L geo 替换L joint提供了0.174的精确度改进和0.151的召回改进。图4中的可视化结果显示,虽然我们的方法在平面区域可以保持出色的重建性能,但非平面区域的重建也显著改善。这些结果表明,我们的方法可以实现最一致的重建结果。05.3. 与最先进方法的比较0三维重建。我们在ScanNet和7-Scenes上评估了三维几何度量。平均定量结果如表2所示。请参阅补充材料以获取各个场景的详细结果。在ScanNet上的定性结果如图5所示。通过分析定量和定性结果,我们发现我们的方法55170COLMAP NeuS Gr0COLMAP* ACMP0图5.在ScanNet上的三维重建结果。我们的方法在COLMAP和基于体积渲染的方法上表现出色。此外,与将平面先验应用于MVS的方法相比,我们可以在平面区域特别是平面区域中产生更一致的重建结果。放大以获取详细信息。0方法 ScanNet 7-Scenes0准确率 ↓ 完整度 ↓ 精确率 ↑ 召回率 ↑ F-score ↑ 准确率 ↓ 完整度 ↓ 精确率 ↑ 召回率 ↑ F-score ↑0COLMAP 0.047 0.235 0.711 0.441 0.537 0.069 0.417 0.536 0.202 0.289 COLMAP � 0.396 0.081 0.2710.595 0.368 0.670 0.215 0.116 0.215 0.149 ACMP 0.118 0.081 0.531 0.581 0.555 0.293 0.194 0.350 0.2690.299 NeRF 0.735 0.177 0.131 0.290 0.176 0.573 0.321 0.159 0.085 0.083 UNISURF 0.554 0.164 0.2120.362 0.267 0.407 0.136 0.195 0.301 0.231 NeuS 0.179 0.208 0.313 0.275 0.291 0.151 0.247 0.313 0.2290.262 VolSDF 0.414 0.120 0.321 0.394 0.346 0.285 0.140 0.220 0.285 0.2460我们的方法 0.072 0.068 0.621 0.586 0.602 0.112 0.133 0.351 0.326 0.3360表2.在ScanNet和7-Scenes上的平均3D重建指标。我们将我们的方法与MVS和基于体素渲染的方法进行比较。我们的方法的准确性仅次于COLMAP,完整性与具有平面先验的MVS方法相当。考虑到准确性和完整性,我们的方法实现了最佳的重建性能。0在重建精度和召回率方面,我们的方法明显优于最先进的基于多视图立体视觉(MVS)和基于体素渲染的方法。COLMAP可以在融合阶段过滤掉在多个视图之间不一致的重建点,从而实现极高的精度。然而,这个过程牺牲了召回率。COLMAP �和ACMP可以明显地完成一些缺失区域,并通过应用平面先验获得更高的召回率。0与COLMAP相比,这些基于平面先验的方法不能保证估计的深度图的一致性,导致重建结果存在噪声。NeRF的性能较差,因为体密度表示对几何形状的约束不足。其他基于体素渲染的方法(UNISURF、NeuS和VolSDF)相对于NeRF表现更好,因为占据率和有符号距离函数对表面的约束更好。然而,它们仍然面临困难-IoUfIoUwIoUm55180DeepLabV3+ 我们的方法 真实值0图像0图6.语义分割结果。我们将我们的语义分割结果与DeepLabV3+进行比较。我们用蓝色和红色遮罩地板和墙壁标签的像素。0DeepLabV3+ 0.532 0.475 0.503我们的方法 0.624 0.518 0.5710表3. 语义分割的定量结果。IoU f0和IoU w 分别表示地板和墙壁区域的IoU。IoU m0表示IoU f 和IoU w 的平均值。0在重建准确和完整的几何形状方面。0语义分割。我们将学习到的语义渲染到图像空间,并在ScanNet上评估语义分割指标。我们将我们的方法与DeepLabV3+进行比较,并在表3中报告定量结果。定性结果显示,与DeepLabV3+相比,我们在地板和墙壁区域的指标明显改善。可视化结果显示,DeepLabV3+预测的语义分割结果存在非常明显的噪声,特别是在边界附近。这些噪声在不同视角之间通常是无规律的且不一致的。通过在3D空间学习语义,我们的方法可以自然地结合多视图信息并提高一致性,从而明显减轻噪声。然而,还存在一些无法通过多视图一致性轻松纠正的错误分类像素。以图6的最后一行为例,墙壁底部与墙壁的主体部分颜色不同,因此一些像素被错误地识别为地板。这种现象可能在每个视角中都会发生,并且与不一致的噪声不同。通过优化几何和语义,这些错误分类的像素可以得到纠正。0新视角合成。我们准确的重建结果-0NeRF VolSDF GT Mesh 我们的方法0图7.新视角合成结果。我们选择与训练视角相对较远的新视角进行定性比较。与NeRF和VolSDF相比,我们的方法产生了更好的渲染结果。由于新视角中缺乏地面真实图像,我们在这些视角中渲染了GT网格作为参考。0我们的结果使我们能够在新视角下渲染高质量的图像。为了评估新视角合成,我们选择一些远离训练视角的新视角并渲染图像。定性比较结果如图7所示。更多结果可以在补充材料中找到。06. 结论0本文介绍了一种基于曼哈顿世界假设的室内场景重建方法。关键思想是利用平面区域中的语义信息来指导几何重建。我们的方法通过2D分割结果学习3D语义,并联合优化3D语义和几何以提高对不准确2D分割的鲁棒性。实验证明,所提出的方法能够重建准确完整的平面,并保持非平面区域的细节,且在公共数据集上明显优于现有方法。0局限性。本研究仅考虑了曼哈顿世界的假设。虽然大多数人工场景符合这一假设,但有些情况需要更一般的假设,例如亚特兰大世界的假设[42]。通过修改损失函数中几何约束的表达方式,可以扩展所提出的框架以采用其他假设。0致谢。作者们要感谢中国国家重点研发计划(编号2020AAA0108901)、国家自然科学基金委员会(编号62172364)以及浙江大学-商汤3D视觉联合实验室的支持。[18] Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, BrianBrewington, Thomas Funkhouser, and Caroline Pantofaru.55190参考文献0[1] Matan Atzmon and Yaron Lipman. SAL:从原始数据中学习形状的无符号学习. 在CVPR, 2020. 50[2] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla.SegNet: 用于图像分割的深度卷积编码器-解码器架构. 在T-PAMI,2017. 20[3] Alexandre Boulch, Bertrand Le Saux, and NicolasAudebert. 使用深度分割网络进行非结构化点云语义标记.在3DOR, 2017. 30[4] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. DeepLab:基于深度卷积网络、空洞卷积和全连接CRFs的语义图像分割.在T-PAMI, 2017. 20[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam.带有空洞可分离卷积的编码器-解码器用于语义图像分割. 在ECCV,2018. 2, 3, 4, 50[6] Bowen Cheng, Liang-Chieh Chen, Yunchao Wei, YukunZhu, Zilong Huang, Jinjun Xiong, Thomas S Huang, Wen-Mei Hwu, and Honghui Shi. SPGNet: 语义预测指导场景解析.在ICCV, 2019. 20[7] Shuo Cheng, Zexiang Xu, Shilin Zhu, Zhuwen Li, Li ErranLi, Ravi Ramamoorthi, and Hao Su.使用自适应薄体表示和不确定性感知的深度立体视觉. 在CVPR,2020. 20[8] James M Coughlan and Alan L Yuille.曼哈顿世界:通过贝叶斯推理从单张图像中获得指南针方向.在ICCV, 1999. 1, 2, 3, 40[9] Angela Dai, Angel X Chang, Manolis Savva, Maciej Hal-ber, Thomas Funkhouser, and Matthias Nießner. ScanNet:室内场景的丰富注释的3D重建. 在CVPR, 2017. 2, 50[10] Yasutaka Furukawa, Brian Curless, Steven M Seitz, andRichard Szeliski. 曼哈顿世界立体视觉. 在CVPR, 2009. 10[11] David Gallup, Jan-Michael Frahm, and Marc Pollefeys.用于城市场景重建的分段平面和非平面立体视觉. 在CVPR, 2010. 1,2, 50[12] Amos Gropp, Lior Yariv, Niv Haim, Matan Atzmon, andYaron Lipman. 隐式几何正则化用于学习形状. 在T-PAMI, 2020. 40[13] Xiaodong Gu, Zhiwen Fan, Siyu Zhu, Zuozhuo Dai, Feitong Tan,and Ping Tan. 用于高分辨率多视图立体视觉和立体匹
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功