没有合适的资源?快使用搜索试试~ 我知道了~
Decai Chen1, Peng Zhang1,2, Ingo Feldmann1, Oliver Schreer1, and Peter Eisert1,31Fraunhofer HHI2TU Berlin3HU Berlin43300恢复神经隐式曲面的细节0摘要0最近关于隐式神经表示的研究取得了重要进展。在没有三维监督的情况下,使用体积渲染学习隐式神经曲面在多视图重建中变得越来越受欢迎。然而,由于几何和外观表示的潜在模糊性,准确恢复细节仍然具有挑战性。在本文中,我们提出了一种名为D-NeuS的基于体积渲染的神经隐式曲面重建方法,能够恢复细致的几何细节,通过两个额外的损失函数来提高重建质量。首先,我们鼓励通过alpha合成渲染的表面点具有零有符号距离值,减轻了从SDF转换为体积渲染密度引起的几何偏差。其次,我们对表面点施加多视图特征一致性,该特征由沿射线采样点的SDF零交叉点插值得到。大量的定量和定性结果表明,我们的方法能够重建出具有细节的高精度表面,并且优于现有技术。01. 引言0从校准的多视图图像中进行三维重建是计算机视觉中长期存在的挑战,并且已经研究了几十年。传统方法,如传统的[9,24, 27]和基于学习的多视图立体(MVS)[29, 30, 36, 25,5]通过匹配一组图像中像素或补丁的光度或特征对应关系来产生深度图。然而,传统的MVS流程涉及多个步骤,包括深度图预测、融合到全局空间和表面提取,其中错误和伪影不可避免地累积。受到开创性的NeRF[18]工作的启发,神经隐式曲面重建方法[33, 21, 32,26]最近作为三维几何和01 代码: https://github.com/fraunhoferhhi/D-NeuS .0外观,利用基于坐标的多层感知器(MLP)神经网络来表示底层曲面。这些方法应用可微渲染来通过最小化渲染图像与输入的真实数据之间的差距来共同优化形状和外观场。尽管能够呈现合理的新视角,但这些方法仍然难以恢复高保真度的几何细节。在本文中,我们提出了一种名为D-NeuS的细节恢复神经隐式曲面重建方法,它具有两个约束来指导基于SDF场的体积渲染,从而提高重建质量。如图1所示,我们的方法能够比最先进的方法[26,7]重建出更准确的几何细节。0为了摆脱标准体积渲染方法的几何误差,NeuS[26]应用了一种权重函数,该函数在SDF的一阶近似中是遮挡感知的和无偏的。然而,我们认为在非线性分布的SDF场下,权重函数会导致几何表面点(即SDF零交叉点)与通过alpha合成渲染的表面点之间的偏差。为此,我们提出了一种新的方案来减轻这种偏差。具体而言,我们在体积渲染过程中生成额外的距离图,将距离反投影到三维点,并惩罚几何MLP网络预测的它们的绝对SDF值。通过这样做,我们鼓励体积渲染和底层曲面之间的一致性。0尽管当前的神经隐式曲面网络能够在新视角上呈现出合理的图像,但在MLP中编码高频纹理仍然具有挑战性[7]。为了缓解这个问题,NeuralWarp[7]引入了基于补丁的光度一致性,该一致性在alpha合成之前计算沿射线的所有采样点上。受到MVSDF[37]的启发,我们改为利用卷积神经网络(CNN)的稳健表示性能,仅在沿射线的表面点上采用基于特征的一致性。与[37]中需要通过射线追踪来找到表面点的方法不同,该方法需要递归查询几何网络,因此计算成本高昂,我们只需寻找第一个零交叉点。43310参考图像0NeuS [26]0NeuralWarp [7]0D-NeuS(我们的方法)0我们渲染的图像0图1:来自DTU数据集[12]的表面重建示例。与最先进的方法相比,D-NeuS恢复了更高保真度的表面细节。此外,我们实现了逼真的视角合成。0通过从采样点的SDF值中提取局部可微分线性插值的方法计算表面点的法线。这不需要额外的计算,因为采样点的SDF值已经用于体积渲染。总结一下,我们的工作的主要贡献如下:0•我们对基于体积渲染的神经隐式表面网络中未规范化SDF场导致的几何偏差进行了理论分析,并提出了一种新的约束方法来规范化这种偏差。0•我们应用多视角特征一致性在线性插值的SDF零交叉点上,用于细节精细的局部几何。0• 我们在DTU [12]、BlendedMVS[31]数据集上定性和定量评估了所提出的方法,并展示了其在复杂场景中具有高精度的表面重建能力。02. 相关工作0多视角立体视觉。MVS是一种从重叠图像中恢复密集场景表示的经典方法。传统的MVS方法通常通过归一化互相关(NCC)、平方差(SSD)或绝对差(SAD)来利用RGB图像块的成对匹配成本。近年来,基于PatchMatch的MVS [4] [9, 24,27]由于高度并行和稳健的性能而主导了传统方法。最近,基于深度学习的MVS表现出更好的性能。MVSNet[29]通过从相邻视图中扭曲特征图来构建成本体,并应用3DCNN对成本体进行规范化。为了减少3DCNN的内存消耗,R-MVSNet[30]使用门控循环网络依次规范化2D成本图,而其他方法[6,28, 11, 36]则集成了粗到精的多阶段0逐渐改进3D成本体的策略。PatchmatchNet[25]在可微分的MVS架构中提出了一种迭代的多尺度PatchMatch策略。最近,TransMVSNet[8]引入了Transformer来聚合图像内部和跨图像的远程上下文信息。然而,在低纹理或非Lambertian区域匹配像素仍然具有挑战性,并且错误必然会在后续的点云融合和表面重建中累积。在本工作中,我们利用在基于学习的MVS中普遍使用的多视角特征一致性来约束体积渲染,以实现更准确的表面重建。0隐式表面表示和重建。NeRF[18]通过5D辐射场成功地表示场景,最近引起了计算机视觉和计算机图形学社区的广泛关注。隐式神经表示以可微分的方式利用基于物理的传统体积渲染,实现了无需3D监督的逼真新视角合成。虽然类似NeRF的方法[18, 38,3]实现了令人印象深刻的渲染质量,但其基础几何形状通常具有噪声且不太理想。造成这种情况的原因有两个。首先,几何形状和外观场在可微分渲染中相互纠缠,仅通过从2D图像重建一致性进行学习。其次,通过密度表示几何场很难进行约束和规范化。0为了缓解上述问题,当前的隐式表面重建方法采用表面指示函数,将连续的空间坐标映射到占据率[17, 23, 20,21]和SDF [22, 33, 26, 32],其中Marching cubes[16]通常用于提取任意分辨率的隐式表面。IDR[33]仅在物体表面点上渲染光线的颜色,并应用可微分的光线追踪将梯度反向传播到交点附近的局部区域。MVSDF[37]通过深度图和特征一致性的监督扩展了这个框架,DF+-43320v0v0x0o0特征0cσ0σ0映射函数0体0渲染0RGB0深度0SDF(x)0SDF(x)0颜色损失0几何偏差损失0特征0一致性0损失0CNN CNN CNN0z0图2:所提出方法的概述。我们基于神经隐式表面框架[26],引入了两个额外的约束:几何偏差损失用于规范化基于SDF的体渲染(第3.2节),以及多视图特征一致性损失(第3.3节),以显著提高重建质量。0而RegSDF[35]通过点云和额外的几何正则化引入监督来重建无界或复杂的场景。然而,基于表面渲染的方法在重建具有突变深度变化的复杂对象时存在困难,因此通常需要额外的监督,如对象掩码、深度图或点云。0为了结合基于表面和基于体渲染的技术优势,UNISURF[21]提出了一种粗到细的策略,用于在由占用场表示的表面周围进行点采样。VolSDF[32]使用一种高效的采样算法训练隐式表面模型,该算法受到不透明度近似误差界限的引导。NeuralWarp[7]通过使用单应性将源图像上的补丁变形到参考图像,并通过光度约束改善表面几何形状。由于补丁变形需要可靠的表面法线,NeuralWarp只能作为后处理方法来微调和优化预训练的表面模型。与VolSDF类似,NeuS[26]设计了一种考虑遮挡的转换函数,将有符号距离映射到体渲染的权重,其中包含一个可学习的参数来控制逻辑密度函数的斜率。然而,这个映射函数只在线性分布的规则化SDF场中是无偏的,因此我们提出了一种新的约束来补偿几何偏差。我们基于NeuS[26]构建了我们的框架,但我们相信我们提出的方法可以适应任何基于体渲染的神经隐式表面重建工作。03. 方法0给定一组具有已知内部和外部相机参数的图像,我们的方法的目标是通过隐式神经网络重建高保真度的表面。根据NeuS[26],我们将表面编码为有符号距离场。我们的框架概述如图2所示。我们将在四个部分解释我们的方法:1)首先,我们展示了如何通过体渲染学习基于SDF的神经隐式表面(第3.1节)。2)然后,我们分析了体渲染在非规则化SDF场中的几何偏差,并提出了一种新的约束来减轻这种误差(第3.2节)。3)我们演示了如何在线性插值的SDF零交叉点上应用特征一致性(第3.3节)。4)最后,我们介绍了用于优化的所有损失(第3.4节)。03.1. 基于体渲染的隐式表面重建0在本节中,我们采用NeuS[26]的符号并回顾其基础知识,NeuS是一种使用体渲染的基于SDF的神经表面重建方法,以便我们能够更好地展示第3.2节中的分析结果。与基于密度的几何表示不同,表面 S由一个隐式场表示,其中有符号距离等于零:0S = x ∈ R3 | f(x) = 0. (1)0其中 f 是一个函数 f: R3 → R,将三维点 x ∈ R3映射到其SDF场。除了几何形状外,视角相关的外观场由函数 g: R3 × S2 × S2 × Rm →R3 定义,该函数推导出颜色 c ∈ R3。�,(5)n�i|43330从空间点x、视线方向v ∈S2、由SDF的自动微分计算得到的法线n ∈S2,以及来自几何网络f的特征向量z ∈Rm,如图2所示。多层感知机(MLP)神经网络用于近似f和g。从以o为中心、单位视线方向v的相机沿射线的3D点可以表示为:0x(t) = o + tv | t ≥ 0, (2)0其中t是x和o之间的距离。沿射线的颜色通过体素渲染累积:0C(o, v) = ∫+∞00 ω(t)g(x(t), v, n, z)dt, (3)0其中C(o, v)是与射线相关的像素的渲染颜色,g(x(t), v, n,z)是沿视线v的点x的颜色,ω(t)是体素渲染点的权重:0ω(t) = exp(-σ(t)00 σ(u)du ≤ σ(t), (4)0其中σ(t)是标准体素渲染中使用的点x的密度。渲染一组射线后,将渲染的颜色与输入图像进行比较以进行网络监督。假设有符号距离场在表面点附近是一个线性函数,这是SDF的一阶近似,NeuS[26]从场景的SDF f中提出了一个无偏的不透明密度函数:03.2. 几何偏差约束0dt(f(x(t)))0σ(t) = max0Φs(f(x(t))), 00�0其中Φs(x) = (1 +e^(-sx))^-1是一个sigmoid函数,s^-1是可训练的标准差,当训练收敛时逼近0。图3展示了在不同SDF分布下密度和权重函数的行为,以一个单平面交点的简单情况为例。假设局部表面为平面,接近表面的采样点的理想SDF值沿相机射线是线性的[26],即f(x(t)) =-|cos(θ)|∙(t-t*),其中t*表示从相机中心到SDF零交叉的距离,θ是局部平面的常数角度。基于这个假设,NeuS使用方程4导出无偏的权重分布,如图3a所示。在这种情况下,体素渲染中加权平均对应的点与SDF值为0的位置相同。在其他0(a) 理想SDF0(b) 未经正则化的SDF0图3:在不同SDF分布假设下密度和权重函数的示意图。非线性的SDF值导致几何表面(橙色虚线)和体素渲染表面点(蓝色虚线)之间的偏差。0换句话说,渲染的颜色与底层几何形状一致,因此输入图像的监督可以精确优化表面几何。然而,几何MLP网络不能保证理想的SDF分布,该网络接收3D点x并输出其到最近表面的有符号距离。尽管几何网络的权重被初始化为产生单位球体的近似SDF[2],但基于体素渲染的图像监督本身对底层SDF场没有明确的正则化。图3b示例了相机射线上未经正则化的SDF分布,导致体素渲染积分与SDF隐式表面之间的偏差。结果是,颜色辐射场与几何SDF场之间的不一致导致了不太理想的表面重建。因此,我们提出了一种新的策略,通过约束所述几何偏差来对体素渲染的SDF场进行正则化。回想一下方程2中的沿射线的3D点,我们可以通过离散化体积积分来渲染相机中心与体素渲染的平均点之间的距离trendered:0t渲染 =0ω i t i � n i ω i, (6)0其中n是沿光线的采样点数,ωi表示方程4中权重的离散对应项,ti是从采样点到相机中心的距离。然后,通过反投影可以形成体积渲染的表面点x renderd:0x渲染 = o + t渲染v. (7)0最后,我们构建了一个几何偏差损失:0L偏差 = 10x渲染∈S | f(x渲染) |, (8)ˆx =�x(ˆt) | ˆt = f(x(ts))ts+1 − f(x(ts+1))tsf(x(ts))f(x(ts+1))�.(10)Lfeat. =1NcNvNv�i=1|F0(p0) − Fi(Ki(Riˆx + ti))| ,(11)L = Lcolor + αLeik. + βLbias + γLfeat..(12)Lcolor = 1m�i=1���Ci − ˆCi��� ,(13)43340其中f是几何网络输出SDF值,S是已找到光线-表面交点的x渲染的子集(有关实现细节,请参见第3.3节)。通过惩罚渲染表面点的SDF的绝对值,我们鼓励隐式SDF场与体积渲染的辐射场之间的几何一致性。直观地说,该约束正则化了无偏体积渲染的SDF分布,从而导致更准确的表面重建。值得注意的是,神经隐式表面重建中广泛使用的Eikonal损失[10]通过约束梯度范数来正则化SDF的梯度场。Eikonal损失和我们的几何偏差损失相互支持,增强了重建质量。03.3. 多视图特征一致性0使用多视图光度一致性或特征一致性来引导几何重建在MVS[24, 27, 29, 36]和最近的神经表面重建[37,7]中很受欢迎。通常,光度一致性方法比较RGB图像块之间的光度距离,需要计算单应性的表面法线,而特征一致性方法仅匹配特征图之间的单个像素。大量的结果,例如在Tanks and Temples[1,15]上的基准测试,表明深度特征表示比光度计数部分表现更好。因此,我们应用特征一致性来对重建的物体表面施加多视图几何约束。在神经隐式表面上应用多视图约束的一个关键步骤是以可微分的方式推导出表面点。在基于表面渲染的神经重建[33,37]中,常用可微分的光线追踪来找到相机光线与物体表面的交点。然而,对于优化基于体积渲染的表面重建,应用光线追踪来找到表面点会导致额外的计算,因为它对于颜色渲染是不需要的。相反,NeuralWarp[7]使用alpha合成来近似表面点,即在光线上的每个采样点上计算补丁变换,并通过体积加权平均合并结果。然而,体积渲染的表面点可能对真实表面有偏差,如第3.2节所讨论的。为此,我们利用已经计算出的采样点的SDF值,直接使用线性插值提取零交点。回顾方程2,我们将光线上的一个采样3D点表示为x(t i),其中i = 1, ...,N是索引,N是来自分层采样[26]的采样点数。我们搜索第一个满足该点的SDF值为正,而下一个采样点的SDF值为负的点x(t s)。0点为负。具体而言,我们可以定义s为:0s = arg min i { t i | f ( x ( t i )) > 0 and f ( x ( t i +1 )) < 0 },(9)0其中f是几何网络输出SDF值,x(ti)是物体表面之前的第一个采样点。我们只考虑第一个光线-表面交点,因为其他交点被遮挡。如果没有采样点满足这个要求,我们将跳过对该光线的特征一致性和几何偏差的约束。由于分层采样策略将采样点靠近表面点的重要性放在很高的位置,x(t i)和x(t i+1)之间的距离应该很小。因此,我们可以使用可微分的线性插值来近似SDF为零的表面点:0值得注意的是,IDR [33]在表面渲染模式下采用了类似的射线行进策略,使用递归割线根查找算法,以防球追踪方法不收敛。相比之下,我们使用体积渲染重建表面,并且仅使用割线法的单次迭代直接近似射线-表面交点,这要归功于分层采样策略。在得到表面点ˆx之后,我们比较多个视图中该点的特征。与MVSDF[37]类似,我们使用卷积神经网络(CNN)从RGB图像中提取特征,该网络经过监督式MVS[36]的预训练。然后,我们使用多视图特征一致性损失来约束神经隐式表面重建:0其中 N v 和 N c 分别是相邻源视图和特征通道的数量,F是提取的特征图,p 0 是光线投射通过的像素,{ K i , R i , ti } 是第 i 个源视图的相机参数。03.4. 训练损失0训练神经隐式表面重建网络的整体损失函数定义为以下四个项的加权和:0L color 是从真实输入图像 C中提取的RGB颜色与体积渲染ˆC中的RGB颜色之间的差异:IDR [33]1.631.870.630.481.040.790.771.331.160.760.670.900.420.510.530.90MVSDF [37]0.831.760.880.441.110.900.751.261.021.350.870.840.340.470.460.88NeuS [26]0.830.980.560.371.130.590.601.450.950.780.521.430.360.450.450.77RegSDF [35]0.601.410.640.431.340.620.600.900.921.020.600.600.300.410.390.72COLMAP [24]0.812.050.731.221.791.581.023.051.402.051.001.320.490.781.171.36VolSDF [32]1.141.260.810.491.250.700.721.291.180.700.661.080.420.610.550.86NeuS [26]1.001.370.930.431.100.650.571.481.090.830.521.200.350.490.540.84NeuralWarp [7]0.490.710.380.380.790.810.821.201.060.680.660.740.410.630.510.68Leik. = 1|P|�x∈P(∥∇f(x)∥2 − 1)2,(14)to the output of the 4-th layer. The weights of the geome-try network are initialized to approximate the SDF field of aunit sphere [2]. The radiance network c is an MLP consist-ing of 4 hidden layers MLP with 256 hidden cells. Positionencoding is applied to x with 6 frequencies and v with 4frequencies. For volume rendering, we adopt the hierarchi-cal sampling strategy in NeuS [26], sampling 512 rays foreach iteration, with 64 coarse and 64 fine sampled pointsper ray, and additional 32 points outside the unit sphere fol-lowing NeRF++ [38]. For multi-view features consistency,we compare each reference view with Nv = 2 neighboringsource views using Nc = 32 feature channels.Training details. To train our networks, we adopt Adamoptimizer [14] using the learning rate 5e-4 with warm-upperiod of 5k iterations before decaying by cosine to the min-imal learning rate of 2.5e-5. We initialize the trainable stan-dard deviation for the logistic density distribution for thevolume rendering weight with 0.3. We train our model for300k iterations for 19 hours on a single NVIDIA Titan RTXgraphics card. In terms of inference, rendering an image ofresolution 1200 × 1600 using standard volume renderingtakes approximately 7 minutes. As for the weighting factorsof losses in Eqn. 12, we fix the Eikonal weight α as 0.1 forthe whole training. In addition, inspired by MVSDF [37],we divide the training in three stages. In the first 50k it-erations, we set the geometry bias loss weight β as 0.01.From 50k to 150k iterations, we set β as 0.1 and the featureconsistency loss weight γ as 0.5, while in the remaining it-erations, β and γ are 0.01 and 0.05, respectively. After opti-mization, we apply Marching Cubes [16] to extract a meshfrom the SDF field f in a predefined bounding box with thevolume size of 5123 voxels, which takes about 57 seconds.43350扫描 24 37 40 55 63 65 69 83 97 105 106 110 114 118 122 的意思是0D-NeuS (我们的方法) 0.44 0.79 0.35 0.39 0.88 0.58 0.55 1.35 0.91 0.76 0.40 0.72 0.31 0.39 0.39 0.610表1:DTU数据集上的Chamfer距离的定量结果(数值越小越好)。COLMAP的结果是通过trim=0实现的。表的上半部分是需要额外的场景特定先验输入(如物体掩码、深度图或点云)的神经隐式表面重建方法。每个扫描的最佳得分用粗体标记,第二好的得分用下划线标记。0其中 m 是在一个批次中训练的像素数。根据之前的工作[33,37, 32, 26,7],我们在采样点上添加Eikonal损失[10]来规范几何网络f的SDF场的梯度:0其中 P 是批次中所有采样点的集合,∥∙∥2 是L2范数。04. 实验04.1. 实验设置0数据集。为了在DTU数据集[12]上使用第3.4节中描述的完整损失评估我们的方法,我们按照之前的工作[33, 32, 26,7]选择了相同的15个模型进行比较。每个场景包含49或64张分辨率为1200×1600的图像和相机参数。DTU数据集中的对象具有各种几何形状、外观和材料,包括非Lambertian表面和薄结构。此外,我们还在BlendedMVS数据集[31]上测试了6个具有挑战性的场景。BlendedMVS数据集提供了分辨率为576×768的图像,具有更复杂的背景和从24到143个视图的不同数量。对于DTU数据集,使用Chamfer距离(以毫米为单位)定量评估重建的表面,而在BlendedMVS数据集上展示重建结果的视觉比较。基准。我们将所提出的方法与传统的MVS流程COLMAP[24]和最先进的基于学习的方法进行比较:IDR[33]、MVSDF [37]、VolSDF [32]、NeuS[26]、NeuralWarp [7]。网络架构。与[33,26]类似,我们的几何网络f由一个包含256个隐藏层和一个来自输入的跳跃连接的MLP模型组成。04.2. 比较0ality.43360扫描400扫描630扫描1100参考图像0NeuS [26]0NeuralWarp [7]0D-NeuS(我们的方法)0我们的渲染图像0图4:在DTU数据集上进行表面重建的比较0扫描 24 37 40 55 63 65 69 83 97 105 106 110 114 118 122 的平均值0NeRF [18] 26.24 25.74 26.79 27.57 31.96 31.50 29.58 32.78 28.35 32.08 33.49 31.54 31.00 35.59 35.51 30.65 VolSDF [32] 26.28 25.61 26.55 26.7631.57 31.50 29.38 33.23 28.03 32.13 33.16 31.49 30.33 34.90 34.75 30.38 NeuS [26] 28.20 27.10 28.13 28.80 32.05 33.75 30.96 34.47 29.57 32.9835.07 32.74 31.69 36.97 37.07 31.970D-NeuS(我们的方法)28.98 27.58 28.40 28.87 33.71 33.94 30.94 34.08 30.75 33.73 34.84 32.41 31.42 36.76 37.17 32.220表2:在DTU数据集上以PSNR为指标的定性结果评估渲染质量0石头0玉0参考图像0NeuS [26]0D-NeuS(我们的方法)0图5:在Blend- edMVS数据集上进行表面重建的比较0平均准确度(重建表面采样点云与真实点云之间的平均距离)和完整度(重建表面与真实点云之间的平均距离)0真实点云与重建点云之间的平均距离)。与之前的工作[33,21, 26, 32,7]类似,我们通过扩展50个像素的对象掩码来清除提取的网格。表1显示了我们的方法和基线的平均Chamfer距离。基线的结果来自于它们的原始论文,COLMAP的结果来自于[26]。与之前的工作一样,我们重点比较不需要额外的场景先验知识(包括对象掩码、深度图或点云)的方法。如表1所示,我们的方法明显优于基线,并实现了最低的平均Chamfer距离。图4在DTU[12]数据集上定性比较了我们的方法和基线的重建表面几何。NeuS[26]的表面更加嘈杂和凹凸不平,特别是在平面(扫描40)或光滑区域(扫描63和110);而NeuralWarp则在重建表面边界(扫描40和110)和非兰伯特区域(扫描63)方面存在困难。相比之下,我们的方法更加稳定。43370参考点云0基线0带偏差0带特征0我们的0图6:DTU数据集上消融研究的定性结果。为了更好地说明几何细节,我们可视化了两个具有挑战性区域的表面法线。0D-NeuS对这些具有挑战性的情况具有鲁棒性,可以以高准确度和保真度恢复细几何细节。除了表面几何外,D-NeuS还实现了逼真的图像渲染。如表2所示,我们定量评估了来自我们方法的渲染结果的峰值信噪比(PSNR),优于其他最先进的方法。按照以前的工作,我们只评估IDR[33]提供的对象掩码内像素的PSNR。在BlendedMVS数据集[31]上的定性结果如图5所示。我们的方法对具有挑战性的表面具有鲁棒性,例如Stone中严重遮挡的区域以及Jade中高度复杂的凹洞,而NeuS则难以恢复这些复杂表面的细几何细节。04.3. 消融研究0我们通过对DTU数据集进行消融研究来评估我们方法的不同组成部分。具体而言,我们使用NeuS[26]作为基线,然后逐步结合我们提出的损失。如图6所示,几何偏差损失成功恢复了窗户的细节几何细节,而多视图特征一致性损失则可以处理这些具有挑战性的情况,以高精度和保真度恢复细几何细节。0L颜色 L偏差 L特征 平均Chamfer0基线 � 0.84 W/ 偏差 � � 0.76 W/ 特征 � � 0.63 我们的 � � �0.610表3:DTU数据集上消融研究的定量结果。0视图特征一致性损失忠实地重建了表面边界:屋顶和立面之间的连接部分。表3显示了使用平均Chamfer距离的定量结果。我们的工作的两个贡献都可以改善表面重建,D-NeuS结合了它们的优势以获得最佳性能。05. 讨论0限制。与其他神经隐式表面重建方法类似,训练我们的模型需要几个小时才能完成每个场景。此外,渲染的图像难以恢复输入图像中的高频模式。最后,需要一定数量的密集输入视图才能进行高质量的重建。未来的工作。一个有趣的未来方向是使用多分辨率结构(例如Instant-ngp[19])来表示场景,以实现快速优化和高频局部细节。此外,有望使用学习的图像先验(如[34])或几何先验(如[13])将重建推广到新场景,这也可以从稀疏的视图集合中进行表面重建。结论。我们介绍了D-NeuS,一种基于体积渲染的神经隐式表面重建方法,可以恢复细节级的几何细节。我们分析了SDF场和体积渲染颜色之间几何偏差的原因,并提出了一种新的损失函数来约束这种偏差。此外,我们应用多视图特征一致性来对由采样的SDF值插值得到的表面点进行插值。对不同数据集的大量实验表明,D-NeuS能够以高质量的细节重建表面,并在定性和定量上优于现有技术。0致谢0这项工作部分资助来自H2020欧洲项目Invictus,合同编号为952147,以及由柏林投资银行在ProFIT研究项目KIVI中获得欧洲区域发展基金(EFRE)和柏林政府的财务支持。43380参考文献0[1]坦克和寺庙基准。https://www.tanksandtemples.org/leaderboard/。0[2] Matan Atzmon和Yaron Lipman. Sal:从原始数据中学习形状的符号不可知学习。在计算机视觉和模式识别(CVPR)IEEE会议论文集中,页码2565–2574,2020年。0[3] Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P.Srinivasan和Peter Hedman. Mip-nerf 360: Unboundedanti-aliased neural radiance fields. CVPR,2022年。0[4] Michael Bleyer, Christoph Rhemann和Carsten Rother.Patchmatch stereo-stereo matching with slanted supportwindows. 在Bmvc,卷11,页码1–11,2011年。0[5] Chenjie Cao, Xinlin Ren和Yanwei Fu. Mvsformer: Learningrobust image representations via transformers andtemperature-based depth for multi-view stereo.arXiv预印本arXiv:2208.02541,2022年。0[6] Shuo Cheng, Zexiang Xu, Shilin Zhu, Zhuwen Li, Li ErranLi, Ravi Ramamoorthi和Hao Su. Deep stereo using adaptivethin volume representation with uncertainty awareness.在计算机视觉和模式识别(CVPR)IEEE会议论文集中,页码2524–2534,2020年。0[7] François Darmon, Bénédicte Bascle, Jean-ClémentDevaux, Pascal Monasse和Mathieu Aubry. Improving neuralimplicit surfaces geometry with patch warping.在计算机视觉和模式识别(CVPR)IEEE会议论文集中,页码6260–6269,2022年。0[8] Yikang Ding, Wentao Yuan, Qingtian Zhu, Haotian Zhang,Xiangyue Liu, Yuanjiang Wang和Xiao Liu. Transmvsnet:具有变压器的全局上下文感知多视图立体网络。在计算机视觉和模式识别(CVPR)IEEE会议论文集中,页码8585–8594,2022年。0[9] S. Galliani, K. Lasinger和K. Schindler. Massively parallelmultiview stereopsis by surface normal diffusion.在2015年国际计算机视觉(ICCV)IEEE会议论文集中,页码873–881,2015年。0[10] Amos Gropp, Lior Yariv, Niv Haim, Matan Atzmon和YaronLipman. Implicit geometric regularization for learning shapes.arXiv预印本arXiv:2002.10099,2020年。0[11] X. Gu, Z. Fan, S. Zhu, Z. Dai, F. Tan和P. Tan. Cascade costvolume for high-resolution multi-view stereo and stereomatching.在2020年计算机视觉和模式识别(CVPR)IEEE会议论文集中,页码2492–2501,2020年。0[12] Rasmus Jensen, Anders Dahl, George Vogiatzis, EngilTola和Henrik Aanæs. Large scale multi-view stereopsis evaluation.在2014年计算机视觉和模式识别(CVPR)IEEE会议论文集中,页码406–413,IEEE,2014年。0[13] Mohammad Mahdi Johari, Yann Lepoittevin和FrançoisFleuret. Geonerf: Generalizing nerf with geometry priors.在计算机视觉和模式识别(CVPR)IEEE会议论文集中,页码18365–18375,2022年。0[14] Diederik P Kingma和Jimmy Ba. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014年。0[15] Arno Knapitsch, Jaesik Park, Qian-Yi Zhou和VladlenKoltun. Tanks and temples: Benchmarking large-scal
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功