多视角未校准光度立体和梯度有符号距离场实现高质量的RGB-D重建

128 浏览量更新于2023-10-16 收藏 17.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Lu Sang1,2Bj¨orn H¨afner1,2Xingxing Zuo1,*Daniel Cremers1,2{lu.sang, bjoern.haefner, Xingxing.Zuo, cremers}@tum.de31060通过多视角未校准光度立体和梯度有符号距离场实现高质量的RGB-D重建01 慕尼黑工业大学 2慕尼黑机器学习中心0摘要0许多应用中需要进行精细的重建。然而，大多数现有的RGB-D重建方法依赖于预先计算的准确相机姿态来恢复详细的表面几何，其中表面的表示需要在优化不同量时进行调整。在本文中，我们提出了一种新颖的基于多视角RGB-D的重建方法，通过利用梯度有符号距离场（gradient-SDF）来估计相机姿态、光照、反射率和表面法线。所提出的方法使用特定的物理模型来表述图像渲染过程，并在实际表面上使用其体积表示来优化表面的量，而不是其他方法只在实际表面附近估计表面的量。为了验证我们的方法，我们研究了自然光和点光源应用的两种基于物理的图像形成模型。在合成和真实数据集上的实验结果表明，与现有技术相比，所提出的方法能够更准确地恢复表面的高质量几何，并进一步提高了估计相机姿态的准确性。01. 引言0从2D图像和深度进行详细的表面重建是计算机视觉中一个具有挑战性的课题，近年来受到越来越多的关注。不仅需要重建物体的粗糙形状，还需要恢复表面的丰富纹理和精细几何细节。重建结果可以应用于许多应用中。0* 通讯作者 1 源代码可在 https://github.com/Sangluisme/PSgradientSDF 上获得0输入的RGB0初始重建0初始纹理0估计的反射率0经过细化的重建0经过细化的纹理0图1。第一行：一个示例输入RGB图像[45]和具有放大细节纹理的初始重建。第二行：所提出方法的估计反射率、经过细节纹理放大的重建。我们通过联合估计相机姿态、表面法线、反射率和光照来实现细粒度的3D重建。0例如3D打印[10]、虚拟现实[14]、数字媒体[31]等应用需要恢复一个完整详细的3D模型，必须估计相机姿态和表面的法线和反射率。本文不仅假设已知相机姿态并直接优化表面的量，而是提出通过利用梯度有符号距离场（gradient-SDF）来一起解决表面细化问题、相机姿态、光照和反射率的问题，这是一种体积表示，使我们能够直接在表面上优化表面的量。总之，我们提出了以下主要贡献：0•一种与体积表示兼容的物理真实图像模型的新颖表述，能够在实际表面上进行有效的优化。31070点。0•一个完整的重建流程，具有相机姿态、几何细化、反射率和光照估计的能力。0• 一种能够考虑光照条件的相机姿态细化方法。0•一种在未校准环境中处理自然光和点光源场景的方法，这种方法在实际应用中很方便采用。0此外，对我们的方法在合成和真实数据集上进行了广泛的验证，证明它能够进行高质量的细粒度几何、反射率、光照和相机跟踪重建。02. 背景和相关工作0在恢复3D模型时必须考虑两个关键问题：表面表示的选择以及与其逆渲染技术相关的图像形成模型。表面是一个2D流形，表面表示策略是如何离散化、存储和更新连续表面的。它主要可以分为两类：显式表示和隐式表示。显式表示，例如点云[37]、surfel[36]或网格[21]，存储精确的表面点位置，允许对表面点本身进行操作。另一方面，隐式表示，例如有符号距离函数（SDFs）[27]、体积密度[24]或占用[29]，只存储每个单元的相关属性，例如到表面的距离[25]。不同的表示方法适用于不同的目标。例如，相机跟踪和细化，即束调整，以及图像渲染模型受益于显式表示，因为这些模型是建立在实际表面上的。几何相关的重建方法，例如Kinect-Fusion[25]更喜欢隐式表示，因为可以从中提取出统一且平滑的表面，同时在优化过程中容易允许拓扑变化。因此，许多工作在两种表示之间交替处理不同的参数，例如相机姿态和表面数量[26,17]。对于表面建模，目前有不同的方法用于恢复粗糙的3D模型，例如基于深度融合的方法[25]或基于RGB图像的结构运动技术[34]。然而，重建的3D模型缺乏所需的几何细节。为了进一步恢复细粒度几何，采用了几种策略。例如，通过提高输入的准确性，例如深度质量[32,13]或相机姿态的准确性[36,26]。或者，通过增加所选择表面的分辨率0例如，Lee等人的工作[17]引入了一个附加到每个体素上的纹理映射，并对纹理映射进行细分以获得更高的纹理表示，但几何分辨率没有得到改善。然而，这些方法没有利用RGB图像、光照条件和表面几何之间的基本物理关系。0近年来，光度立体（PhotometricStereo，PS）[41]方法广泛应用于不同的研究领域，例如几何恢复[22, 8, 32]和图像渲染[33,44]。PS模型描述了物理成像过程，反映了表面的辐照度和出射辐射度。辐照度受光照条件的影响，而辐射度通常取决于表面材料和法线。因此，利用图像形成模型来制定渲染方程，可以恢复所需的表面属性，例如表面法线、纹理和材料[4]。然而，使用单个RGB图像恢复所需的量是一个病态问题[7]。为了克服这个病态问题，可以使用多个RGB图像作为输入[12, 22,32]。这些图像可以在相同的视点[28]，但要恢复完整的3D模型，需要来自不同相机位置的图像。使用PS和RGB-D序列恢复完整的3D模型的现有算法[8, 22,46]需要预先计算的相机姿态。这些工作遵循的流程是首先将深度与已知的相机姿态集成到体积立方体中，然后将每个体素重新投影到图像中并最小化PS能量。它们取得了良好的结果；然而，存在两个缺点。首先，如图2所示，它们实际上在体素中心评估所有优化量，而不是在表面点上。即使使用更小的体素尺寸，这个差距可能会减小，但更小的体素尺寸限制了3D模型的大小，或者在需要扩大网格尺寸时引入了沉重的计算开销。大多数工作使用不同的正则化器来减少由此差距引起的人为因素。例如，将体素重新投影到深度图[8,22, 46]以约束体素距离更新，或者约束反射率的总变化[8,22]。第二个缺点是大多数工作依赖于独立的相机跟踪算法来获取真实世界数据集的初始化相机姿态。这些跟踪算法要么使用纯深度信息[25]，要么假设输入RGB图像之间存在一致的光照条件[26, 9,34]。因此，它们不使用颜色信息，或者它们的假设与图像形成模型相矛盾。0值得注意的是，还有另一类方法：神经渲染。神经渲染方法的成功导致了基于学习的图像合成和几何恢复方法的繁荣。一些神经渲染方法也采用了PS方法，但其中大多数方法[43,44]侧重于视图合成而不是几何细化，并且它们的输入仅为具有准确相机姿态的RGB图像。Lin等人的工作[18]使得I(p(x)) ≈�S2+ρ(x, i)L(i, x) max(⟨i, n(x)⟩, 0)di ,(1)I(p(x)) = ρ(x)�S2+L(i, x) max(⟨i, n(x)⟩, 0)di .(2)31080体素中心表面点图2.与在体素表面表示中对体素中心的表面辐照度建模相比（左），所提出的方法通过沿着表面法线方向从体素中心移动到实际表面上（右）更精确地建模场景。0相机姿态的细化，但它并不关注恢复几何细节或估计反射率和照明。最近的RGB-D神经渲染工作[2]不适用于大多数真实世界的数据集，因为它假设单焦距相机模型。据我们所知，只有这两篇论文[42,40]集中于几何恢复和填补体素表示与表面点表示之间的差距，但方式略有不同。他们提出将有符号距离值转换为点的密度，然后沿射线使用累积颜色来恢复良好的3D几何，从而将表面表示为点和体积的组合。然而，他们独立地学习每一帧，而不是像PS方法那样明确地建模照明和表面法线，即使如此，他们也不会细化相机姿态并且训练时间较长。在本文中，我们提出了一种方法，它在一个一致的表面表示和假设中解决了细节丰富的3D重建问题以及相机姿态估计。此外，我们在初始化相机姿态和粗糙表面体积时使用梯度-SDF[38]来估计实际表面上的表面量，并联合优化相机姿态。03. 图像形成模型03.1. 表面反射率0光度立体技术研究了表面上的反射光与环境照明、表面材料和法线的关系，根据物理定律来建模产生的彩色图像。它通过在表面法线周围的上半球S 2 + 上积分来描述表面点x ∈R 3的出射辐射度。与该点在图像上共轭的像素强度与其辐照度成比例。出射方向可以视为相机视角方向。因此，对于图像I，与3D点x ∈ R 3 共轭的像素p ∈ R 2 的颜色为0其中 ρ: R 3 × S 2 × S 2 → R 3是双向反射分布（BRDF）函数，具有3个颜色通道，L: S 2× R 3 → R 3 是来自方向i ∈ S 2 在点x ∈ R 3的入射光辐射度[15]。假设BRDF是常数，即Lambertian表面，（1）可以简化为0给定足够的彩色图像，可以恢复表面法线n和表面反射率ρ。关键挑战是合理地近似整个半球的积分以解决方程。这里我们介绍两个处理两种应用场景的模型：自然照明和点光源照明。0自然光球谐模型A自然光源情况下，例如光源是太阳，或者当光源距离较远时。达到表面的照明方向几乎是平行的，因此可以使用球谐函数很好地建模环境照明。积分部分通过SH基函数的求和来近似[4, 5]。0I(p(x)) ≈ ρ(x)�l, SH(n(x))�,（3）0其中l∈R4是当前视图的4维光照向量，SH(n(x))∈R4是固定n(x)的一阶SH基函数。该模型简单明了，即使使用低阶模型也能达到相对较高的准确性。0除了自然光之外，另一个常见的情况是点光源情况，主要用于小物体重建。物体通常由一个点光源照明，例如靠近物体的LED光源。光照很难被视为一组平行线，因此点光源提供了更多改变物体照明的机会，这更适合处理PS模型的不适定性。一个广泛使用的点光源-光照模型是[19, 23, 30]。0I(p(x)) = Ψsρ(x)(�ns, 0∥ls∥)µsmax(�n0∥ls∥3，（4）0其中Ψs是光源强度，ns是光源的主方向，ls是从光源位置指向表面点的向量。分母项∥ls∥3描述了光强度在到达表面点时的衰减。µs≥0是各向异性参数。通常，在使用点光源模型时，MPLS(x, Xi) = Ψsiρ(x)max(⟨R⊤i n(x), −xi⟩, 0)∥xi∥3,(7)minRi,ti E(Ri, ti) =�kwki dS(Rixk + ti)2 ,(8)31090除了模型高度非线性和非凸之外，还有一个挑战是需要了解或优化许多参数，例如光源位置和主方向。大多数使用点光源模型的工作都需要额外的步骤来校准光源的强度、位置和主方向[20,30]。Logothetis等人的工作[20]设计了一个设备，将LED灯环绕在一个带有中心相机的板上，并开关LED灯以在不同的光照条件下捕获图像。然后他们优化预生成的SDF模型。Qu´eau等人的工作[30]只接受RGB图像作为输入，并联合优化深度和反射率。然而，他们的输出是单个深度图像，需要严格校准的相机姿态和光源。在下一节中，我们将解释我们提出的模型如何在无需繁琐的光照校准的情况下工作，从而使我们的方法在点光源和自然光照设置中完全无需校准。03.2.多视图PS模型0为了恢复完整的3D模型，给定了一系列RGB图像{Ii}i，其中i∈I与相机到世界的姿态对{Ri,ti}i。将3D点x变形到图像Ii中的x i = R � i x −ti，并将其代入（3）和（4）中，我们将多视图模型残差写为0ri = Ii(p(xi)) - ρ(x)M(x, Xi),（5）0M ∙ ( ∙ , ∙)代表两种不同的图像形成模型，Xi是第3.1节中引入的两种图像形成模型中的变量。因此，SH模型为0MSH(x, Xi) = �li, SH(R�in(x))�.（6）0点x及其法线通过相机姿态Ri和ti转换为图像坐标。这里Xi =(Ri, ti,li)。对于点光源模型，我们提出了一个类似于[32]的设置，即在拍摄图像时将LED光源连接到相机上，参见图3。由于相机姿态已知，因此（4）中的光源位置位于相机坐标的原点，并且光源的主方向可以0图3.我们用于记录数据集的简单设置，一个附有LED灯的IntelRealsense D415相机。0被视为z方向，即我们假设我们有一个共位的光-相机设置用于我们的点光源模型。方程（4）中的ls指向从原点到相机坐标下的表面点-xi。如果另外假设一个各向同性光源，即µs =0，则多视图设置下的点光源模型如下所示0其中 X i = ( R i , t i , Ψ s i ).03.3. 几何和相机位姿初始化0几何误差和光度误差是通常在相机跟踪技术中使用的两个误差项。光度误差评估了将一个点投影到另一个RGB图像时的颜色恒定性，而几何误差确定了将点变形到另一个深度帧时的深度位移。较早的表面细化技术[17, 11, 22,8]使用跟踪方法，如[35]或[26,9]，其中适应了光度误差项。因此，在初始化相机位姿时，假设颜色在图像之间是一致的，但在图像形成模型中假设颜色是不同的。为了避免这种不一致性，所提出的方法仅使用深度信息初始化SDF体积和估计的相机位姿，然后考虑光照条件优化相机位姿和表面属性。第 i帧的相机位姿通过将点云与深度 i 中的点 x k 与全局形状 S对齐来优化[9, 38]0其中 w k i = max(min(1 + d k i T , 1) , 0) 是帧 i 上点 k的截断SDF权重，T 是截断距离，d S ( x ) 是点 x 到形状 S的距离。更多细节请参考[9]或补充材料。04. 基于体素的光度建模04.1. 从体素到表面0所提出方法的关键思想是使用隐式表示下的显式表面，即体积立方体。为了在实际表面上执行所有操作，我们必须找到每个体素对应的表面点。为了将表面点表示的优势与体积表示相结合，梯度-SDF [38]为每个体素 v j 存储了带符号距离 ψ j ，以及距离梯度 g j0该体素的距离 ψ j . 它允许我们通过沿着梯度方向 g j移动来轻松计算表面点 x jxj = vj − gjψj .(9)Ii(p(xji)) = Ii(π(R⊤i (vj − ψjgj − ti))) ,(10)min{ρj,ψj}j,{Xi}iE(ρj, ψj, Xi)=�i∈I,j∈Vνji Φ�Iji − ρjM(xj, Xi)�+ λ�j∈V|��∇ψj��2 − 1|2 ,(11)where Φ( ) is a robust M-estimator [30]. We choose CauchyA smaller voxel size is preferable for representing fine-scaled geometry details. However, for the previous SDF-based method [22], the up-sampling is possible by interpo-lating between neighborhood voxels. Several voxels needto be accessed for one subdivision. Our proposed methodcan effectively up-sample and only one voxel is needed for31100体素距离 ψ j ，0然后我们可以精确地在表面点上开发我们的模型。我们将在第5节中展示它不仅在理论上更精确，而且在定量结果上也更好。为了在图像中检索表面点的颜色，我们可以通过将实际表面投影回图像域来实现0其中 π : R 3 → R 2是将3D点映射到RGB图像上的2D像素的投影运算符， x j i是第 i 张图像上投影的第 j 个点。存储的体素梯度 g是表面法线 n ( x ) ，如[38]所述， I i 是第 i张彩色图像。为了恢复表面的反射场（反照率），对于每个体素，我们直接保存表面点的估计反照率，即 ρ j = ρ ( v j− ψ j g j ) 。04.2. 多视角PS能量0我们现在提出了基于多视角体积的光度立体模型。对于一组输入的RGB图像 { I i } i 和一组梯度-SDF体素 { v j } j，通过最小化以下能量函数来恢复高质量的纹理并联合执行相机位姿细化的束调整。0σ 2). 参数 σ = 0.2. ν j i 是图像 i 中第 j个体素的可见性图，我们在相机跟踪阶段存储了它。I j i = Ii (p(x j i)) 如方程(10)所述。M(x j, X i)如(7)和(6)中所述，点 x j 是使用(9)从体素 v j调整的。对于每个体素，优化两个变量 ρ j 和 ψj。两个模型都嵌入了相机姿态，因此也可以通过最小化模型来改进相机姿态。相机姿态和表面几何、反照率和光照的联合优化是一个更好的选择，并且能够得到更好的结果，我们将在第5节中展示。请注意，我们只需要在(11)中对距离梯度使用一个正则化项，以确保距离满足等距方程。正则化项需要注意两个重要的事情。首先，由于没有体素中心到表面的间隙，我们的能量函数是直接而优雅的。与之前的工作[8,22]相反，我们的公式(11)不是经验性的，而是具有物理意义的：0二维流形嵌入三维中，使用有符号距离场(SDF)表示，有符号距离场是可微分的，其梯度满足等距方程[27]在等值面上。正则化项保证更新后的距离仍在距离场内。其次，仅约束距离场本身使能量与深度图像分离。在(11)的图像形成模型优化过程中，我们不需要存储深度图像。请注意，通过优化梯度-SDF体素的距离和表面法线，可以改进几何形状。根据等值面附近的事实，距离梯度和表面法线满足0g j = � 0∥� ψ j ∥. (12)04.3. 体素上采样02) 使用泰勒展开法计算体素尺寸，类似于(9)0v j 1 ... 8 = v j + v s04 s 1 ... 8, (13)0� ψ j 1 ... 8 = ψ j + v s04 (s 1 ... 8) � g j, (14)0其中 s 1 ... 8 = (±1, ±1, ±1) �表示从粗糙体素出发的8个不同方向。因此，子体素的距离使用粗糙体素重新初始化。梯度设置为与粗糙体素相同，因为它将在下一次优化步骤中更新。我们在算法中包含了围绕表面特征的上采样，以实现更高分辨率的重建。04.4. 优化流程0在优化过程中，我们交替更新表面量和相机姿态。使用体素j 的平均强度初始化 {ρ j}j。优化流程如算法1所示。当第k步能量与(k-1)步能量的相对差小于收敛阈值时，满足收敛条件。05. 评估0为了展示所提方法的结果，由于缺乏同时提供相机姿态和表面几何细化估计的方法，我们将评估分为两部分。第一部分是31110Algorithm 1: Optimization Pipeline0输入：{ (ψ j, ρ j) } j, { R i, t i } i, { I i } i0while k < max iter and not converge do0if up-sample then0V ← V up, ψ j ← ψ j upend for (j ∈ V)0ρ j ← min E(ψ j, (k), ρ, R (k) i, t (k) i, l (k) i),for (i ∈ I)0l i ← min E(ψ j, (k), ρ j, (k +1), R (k) i, t (k) i, li), for (j ∈ V)0ψ j ← min E(ψ, ρ j, (k +1), R (k) i, t (k) i, l (k +1)i), ˆ g j ← � ψ j, for (i ∈ I)0R, t i ← min E({ρ, ψ} j, (k +1), R i, t i, l (k +1) i), end0对优化后的相机姿态进行定量评估。我们在TUM RGB-D[39]基准测试上测试了我们的方法，其中提供了真实的相机姿态。我们将优化后的相机姿态与其他三种最先进的跟踪方法[9, 36,38]进行比较。第二部分是对表面优化的评估。我们在合成和真实世界数据集上分别与四种最先进的方法进行比较，包括两种经典方法[22, 8]和两种基于学习的方法[40, 42]。0设置和运行时间我们的数据结构使用C++实现，使用单精度浮点数。所有实验在Intel Xeon CPU @ 3.60GHz上进行，无需GPU。对于表面数量优化和姿态优化，我们使用阻尼高斯牛顿法[6]，λ =0.1。收敛阈值为10^-3。我们在5次迭代后仅启用上采样一次。更多的数学和实验细节在补充材料中说明。我们使用一个附加在Intel Realsense D 415RGB-D相机上的LED灯和手持杆来记录点光源数据集，详见图3。对于合成数据集，我们使用256^3的体素网格，体素大小为2厘米，集成深度图后得到一个初始SDF为512MB。我们仅存储包含表面点的体素进行优化（对于合成的兔子数据集[1]，大约有20k个点）。相机跟踪每帧需要约300毫秒，每个优化迭代需要约8秒。该方法通常在约20次迭代后收敛。05.1. 相机姿态优化0我们使用一阶SH模型与表面几何一起优化姿态，因为数据集满足自然光假设，并与两个基准SLAM方法[9,36]和方法[38]进行比较。0SDF-Fusion[9]0BADSLAM[36]0gradient-SDF[380我们的无姿态优化0我们的（体素）0我们的0fr1/xyz 2.3 1.8 2.0 2.1 2.0 2.0 fr1/plant 4.3 1.9 11.21.5 2.5 2.5 fr3/household 4.0 1.5 1.5 2.8 1.1 0.7fr2/desk - 1.8 1.6 1.1 0.9 0.7 fr2/rpy 2.2 0.9 7.0 1.30.6 0.4 fr2/xyz 1.8 1.3 1.3 1.0 0.9 0.60表1.根均方误差（RMSE）（以厘米为单位）的绝对轨迹误差（ATE）在[39]的序列上与三个基准SLAM方法进行比较。从右侧开始，第三列表示跟踪后的初始相机姿态，第二列显示对体素中心建模和优化时的误差，最后一列显示所提出方法的误差。0优化相机姿态而无需PS损失。当整个序列长度超过300时，我们最多使用300帧来初始化SDF体积，然后使用锐度检测器[3]选择10%作为关键帧进行后续优化。表1显示了所提出方法在跟踪阶段之后进一步改善了相机姿态，并比其他最先进的方法具有更好的准确性。通过引入图像形成模型来优化相机姿态，我们优于[38]。我们直接在体素中心上优化(11)以确认步骤(9)可以得到更准确的结果。失败的情况(fr1/plant)是由于前几帧中缺乏几何信息，导致跟踪和PS优化失败。结果还表明，如果两个选定帧之间的基线较宽，PS方法可以处理。然而，如果基线太大，相机跟踪和PS优化可能会失败。与初始表面相比，改进的表面的可视化也验证了改进，详见图4。与最先进的方法相比，我们获得了更清晰和更清晰的纹理。更多的可视化结果在补充材料中呈现。05.2. 表面几何改进0我们在合成数据集和真实世界数据集上评估了两种提出的图像形成模型（SH模型和点光源（PLS）模型）对表面几何的改进。合成数据包含90个RGB图像和相应的深度图像，这些图像受到类似Kinect的噪声[16]的影响。我们展示了合成数据集上的定量比较和真实世界数据集上的定性评估。更多细节请参考补充材料。Figure 5 shows the 3 stage errors: error of initial pointcloud, i.e., after camera tracking, error after voxel up-sampling and error after the optimization of the energy (11).To eliminate the influence of object size, as small object sizeleads to a small absolute point cloud distance error underthe same voxel grid size, we compute the distance error andobject size ratio as the measurement. The x-axis shows thepoint-to-point distance error dcc w.r.t. the object size, i.e.,0%0.005%0.01%0.015%0.02%0.025%0.03%0%20%40%60%80%100%0%0.005%0.01%0.015%0.02%0.025%0.03%0%20%40%60%80%100%31120BAD SLAM（298帧）0我们的方法（298帧）0图4.使用BAD SLAM [36]（顶部）和我们的方法（底部）对fr1/xyz[39]进行点云重建。所提方法减少了模糊效果，恢复了清晰的纹理。0d max ，其中d max是点云边界框的大小。y轴是点的百分比：误差小于e的点数除以点云的总点数。0SH模型图6显示了在相同体素大小设置下与相关方法[22, 8,42,40]的定量评估。曲线显示了所提方法的表现最佳。图7显示了在真实世界数据集[46]上的重建误差可视化，其中有激光扫描的地面真实值。神经渲染方法volSDF [42]、NeuS[40]在合成数据集上表现良好，但在真实世界数据集上表现不佳；即使在NeuS中启用了掩码设置，在volSDF中启用了复杂背景设置。更多实验请参考补充材料。0SH模型初始点云上采样点云优化后的点云PLS模型初始点云上采样点云优化后的点云0图5.该图显示了所提方法在不同阶段的重建距离误差。优化SH模型后，距离误差小于点云大小的0.010%的百分比从75.45%增加到82.12%；优化PLS模型后，距离误差小于点云大小的0.010%的百分比从73.95%增加到79.27%。0我们的方法（SH） Intrinsic3d[22] [8] NeuS[40] volSDF [42]0图6.在合成数据集上的定量评估。距离误差小于点云大小的0.015%的点的数量百分比为84.32%（[8]），89.50%（volSDF[42]），90.04%（Intrinsic3d [22]），92.09%（NeuS[40]），93.33%（我们的方法）0点光源模型我们没有找到现有的工作能够执行非校准的点光源方法，从而实现完整的3D模型。Logothetis[20]的工作需要特定的设置和校准，但数据和代码不公开。因此，我们只呈现了使用第4节中提到的所提设置记录和优化的数据集的可视化结果。这些序列包含大小为648×480的RGB和深度图像，帧率为15fps。我们直接将这些序列插入到我们的方法中，无需预处理。定量和定性结果显示在图5和图8中。06.消融研究0体素中心 vs.表面点为了验证在表面点上制定图像形成模型在理论上更准确且性能更好，我们还在合成数据上测试了体素中心的制定方法。图9显示，与基于体素中心的方法相比，表面点模型导致更小的距离误差。对于相机位姿优化，所提方法在SH模型上实现了6.3厘米的姿态RMSE，在PLS模型上实现了8.1厘米的姿态RMSE，而基于体素中心的方法分别给出了7.8厘米和15.9厘米。0%0.005%0.01%0.015%0.02%0.025%0.03%0%20%40%60%80%100%tt0%0.005%0.01%0.015%0.02%0.025%0.03%0%20%40%60%80%100%31130RGB图像NeuS [40] volSDF [42] [8]0Intrinsic3d [22] Intrinsic3d误差我们的方法我们的方法误差0图7. 在花瓶数据集[46]上与Intrinsic3d[22]的比较。在误差图中，从黄色到红色的颜色变化表示与真实值的正距离更大，蓝色方向表示负距离。我们的结果和激光扫描的标准差为4.5毫米，而[22]的结果为5.8毫米。0初始重建优化重建0图8.集中在单个物体上的示例重建。该序列包含约200个RGB图像和深度图像，使用图3中的设置记录。0Eikonal约束我们在多视图PS能量中包含Eikonal正则化器（11），以验证正则化器的必要性，不仅从理论上而且从启发式的角度来看。我们用优化算法进行优化。0SH模型表面点体素中心PLS模型表面点体素中心0图9.显示了在体素中心（蓝色）和表面点（红色）上优化的具有特定距离误差范围的点数。对于SH模型和PLS模型，只有少于90.31％和90.87％的点的误差小于物体尺寸的0.015％百分比，而在真实表面点上优化时，这些点增加到近92.72％和93.10％。0SH模型带Eikonal，不带EikonalPLS模型带Eikonal，不带Eikonal0图10.具有正则化器（红色）和没有正则化器（蓝色）的百分比距离误差小于0.010％物体尺寸的点数。SH模型的误差小于74.30％增加到81.97％，PLS模型的误差小于74.77％增加到80.09％。0在自然光和PLS设置中，Eikonal正则化器提高了结果的准确性，如图10所示。07. 结论和未来工作0我们使用梯度-SDF表示在完整的高质量重建流程中进行相机姿态跟踪和三维表面恢复和细化。我们通过在实际物理表面上强制执行PS图像形成模型而不是体素中心，实现了良好的重建质量和准确的姿态跟踪。我们的方法使得在自然光或点光源场景中进行简单实用的密集物体三维重建成为可能，无需预处理或任何其他校准。我们证明了我们的方法在合成和真实数据集上在定量和定性上都取得了优越的结果。然而，该工作的局限性在于，由于缺乏几何和着色信息，它可能无法处理退化表面。在未来，我们计划包括一个可以处理非Lambertian表面的通用图像形成模型。31140参考文献0[1] 斯坦福模型。http:http://graphics.stanford.edu/data/3Dscanrep/。访问日期：2021年09月19日。0[2] Dejan Azinovi´c, Ricardo Martin-Brualla, Dan B Goldman,Matthias Nießner, and Justus Thies.神经RGB-D表面重建。arXiv预印本arXiv:2104.04532, 2021.0[3] Raghav Bansal, Gaurav Raj, and Tanupriya Choudhury.使用Laplacian算子和OpenCV进行模糊图像检测。在2016年国际会议系统建模和研究趋势（SMART）中，第63-67页，2016.0[4] R. Basri and D. Jacobs.具有一般未知照明的光度立体视觉。在2001年IEEE计算机学会计算机视觉和模式识别会议论文集中，第2卷，第II–II页，2001.0[5] R. Basri and D.W. Jacobs.Lambertian反射和线性子空间。《IEEE模式分析与机器智能交易》, 25(2):218–233, 2003.0[6] ˚ Ake Bj¨orck. 最小二乘问题的数值方法。Society forIndustrial and Applied Mathematics, 1996.0[7] M Brahimi, Y Qu´eau, B Haefner, and D Cremers.关于未校准光度立体视觉在一般光照下的良好性质，见《光度三维重建进展》第147-176页。Springer International Publishing,Cham, 2020.0[8] Erik Bylow, Robert Maier, Fredrik Kahl和Carl Olsson.结合深度融合和光度立体以获得精细的3D模型. 《ScandinavianConference on Image Analysis》, pages 261–274. Springer,2019.0[9] Erik Bylow, J¨urgen Sturm, Christian Kerl, FredrikKahl和Daniel Cremers.使用有符号距离函数的实时相机跟踪和3D重建. 《Robotics:Science and Systems》, volume 2, page 2, 2013.0[10] Vinod G Gokhare, DN Raut和DK Shinde.3D打印方面的综述和3D打印中使用的各种过程. 《Int. J. Eng. Res.Technol》, 6(06):953–958, 2017.0[11] Hyunho Ha, Joo Ho Lee, Andreas Meuleman和Min H Kim.Normalfusion: 用于高分辨率RGB-D扫描的实时表面法线获取.《Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition》, pages 15970–15979, 2021.0[12] B. Haefner, Z. Ye, M. Gao, T. Wu, Y. Qu´eau和D. Cremers.变分非标定光度立体在一般光照下. 《International Conferenceon Computer Vision (ICCV)》, Seoul, South Korea, October2019.0[13] Lingzhi He, Hongguang Zhu, Feng Li, Huihui Bai, RunminCong, Chunjie Zhang, Chunyu Lin, Meiqin Liu和Yao Zhao.实现快速准确的现实世界深度超分辨率: 基准数据集和基线.《Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR)》, pages 9229–9238,June 2021.0[14] Jonathan J. Hull, Berna Erol, Jamey Graham, Qifa Ke,Hide- nobu Kishi, Jorge Moraleda和Daniel G. Van Olst.基于纸张的增强现实. 《17th International Conference onArtificial Reality and Telexistence (ICAT 2007)》, pages205–209, 2007.0[15] James T. Kajiya. 渲染方程. 《Proceedings of the 13thAnnual Conference on Computer Graphics and InteractiveTechniques》, SIGGRAPH ’86, page 143–150, New York, NY,USA, 1986. Association for Computing Machinery.0[16] Kourosh Khoshelham和Sander Oude Elberink.Kinect深度数据在室内建图应用中的准确性和分辨率. 《Sensors》,12(2):1437–1454, 2012.0[17] Joo Ho Lee, Hyunho Ha, Yue Dong, Xin Tong和Min HKim. Texturefusion: 高质量纹理获取用于实时RGB-D扫描.《Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition》, pages 1272–1280, 2020.0[18] Chen

下载后可阅读完整内容，剩余1页未读，立即下载