多视点曲面重构的符号距离场优化方法

173 浏览量更新于2023-10-13 收藏 1.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6525学习符号距离场的多视点曲面重构景阳张瑶姚龙泉香港科技大学{jzhangbs，yyaoag，quan} @ cse.ust.hk摘要隐式神经表征的最新工作已经显示出多视图表面重建的有希望的结果。然而，大多数方法仅限于相对简单的几何形状，并且通常需要干净的对象掩模来重建复杂的和凹的对象。在这项工作中，我们引入了一种新的神经表面重建框架，利用立体匹配和特征一致性的知识来优化隐式表面表示。更具体地说，我们应用一个符号距离场（SDF）和表面光场来表示场景的几何形状和外观分别。SDF直接由立体匹配的几何形状监督，并通过优化多视图特征一致性和渲染图像的保真度来细化。我们的方法是能够提高几何估计的鲁棒性和支持重建复杂的场景拓扑结构。在DTU、EPFL和Tanks and Temples数据集上进行了广泛的实验。与以前的国家的最先进的方法相比，我们的方法实现了更好的网格重建，在广阔的开放场景中，没有作为输入的面具。1. 介绍由标定后的多视点图像重建曲面是三维计算机视觉中的关键问题之一。传统上，曲面重建可以分为两个子步骤：1）通过多视图立体（MVS）算法从图像重建深度图和点云[2，8，41，37，44]; 2）通常表示为三角网格的表面通过最大化与点的一致性从密集点提取[20，17，26]。可选地，可以应用表面细化步骤以通过多视图照片一致性恢复几何细节[34，42，5，4，7]。虽然该流水线已被证明是有效的和鲁棒的在各种情况下，重建的几何形状可能是次优的，由于在表示转换从图像到点，然后到网格的累积损失。例如，在点云重建中引入的误差将传递到表面重建，从而导致错误的测量结果。网格渲染图像图1.我们对坦克和寺庙数据集的家庭和马的重建。建议的MVSDF是能够重建正确的网格拓扑结构与精细的细节高度纹理和反射表面。网状拓扑结构，难以恢复。虽然最近基于学习的MVS[15，13，45，32，46]和网格ex-mesh虽然已经提出了牵引[31，28，39，33]方法来独立地提高每个子步骤的重建质量，但是仍然希望以端到端的方式从图像重建最佳表面。或者，最近关于神经表示的工作表明，可以通过隐式表示和可微分渲染直接从图像构建网格表面[30，24，36，25，49，39，29]。场景的表面几何形状和颜色信息通常表示为隐函数，这些隐函数由网络中的多层感知器（MLP）直接建模，并通过可微分渲染进行优化。三角形网格可以通过Marching Cube算法从隐式场中提取[26，28]。与经典的网格化流水线相比，这些方法能够以端到端的方式重建场景几何，并在6526同时还研究与讨论然而，由于所有场景参数同时被联合优化，因此几何形状仅是整个差分渲染流水线的副产品，并且在几何形状和外观中存在模糊性[52]。为了缓解这个问题，隐式可微分渲染器（IDR）[49]应用手动标记的对象掩码作为输入，但它对于大量图像不可行，并且有时对于真实世界的图像输入没有很好的定义。在本文中，我们提出了MVSDF，一种新的神经表面重建框架，结合隐式神经表面估计与最近先进的MVS网络。一方面，我们遵循隐式可微渲染器[49]将表面表示为符号距离场（SDF）的零水平集，并将外观表示为表面光场，它们通过渲染损失进行联合优化。另一方面，我们从基于学习的MVS [46，51，50]中引入深度图像特征和深度图，以辅助隐式SDF估计。SDF由来自MVS网络的推断深度值监督，并且通过最大化SDF的表面点处的多视图特征一致性我们发现，表面拓扑学可以大大改善的指导下，从MVS深度图，我们的方法可以应用于复杂的几何形状，即使没有输入对象掩模。此外，与IDR中的渲染损失相比，多视图特征一致性在可区分的渲染流水线的早期阶段施加光度约束，这显著地提高了几何精度并且有助于在最终重建中保留高保真细节。我们的方法已经在DTU[14]，EPFL[40]和坦克和寺庙[18]数据集。我们比较了我们的方法与经典的网格化管道和最近的差分渲染基于网络的网格再现和视图合成质量。定量和定性的结果表明，我们的方法是能够恢复复杂的几何形状，即使没有对象掩模作为输入。2. 相关作品多视图立体多视图立体[38，10，6]是从重叠图像恢复场景的密集表示的成熟方法。MVS的基本原则是表面点在所有可见视图中应在视觉传统上，MVS评估所有深度假设的图像块的匹配成本，并找到一个最好的描述输入图像。深度假设可以从预定义的相机平截头体[3]均匀采样，或者从相邻像素和相邻视图[21，8，1，9，37，44，19]传播。通常，深度图输出被融合到统一的点云中，并进一步转换为网格表面[20，17，26]。然而，这样的转换可能是有损的.例如，深度图可能被过滤波，使得孔将出现在最终重建中此外，表面细节可能过度-在从点云到网格的转换过程中进行平滑。最近，深度学习技术已经应用于多视图立体[15，13，46，50，51]。在网络中，手工制作的图像特征被转换为深度特征，并且工程成本正则化被学习的正则化取代[32，46，47，12，43]。虽然整体深度质量得到改善，但仍然难以匹配纹理较少或非朗伯区域中的像素在这项工作中，我们的目标是通过隐式函数的插值能力来改善无纹理区域的重建，以及通过显式视图相关外观建模来改善非朗伯区域的重建。隐式神经表面隐式神经表示在3D场景重建中也得到了普及。提出占用字段[28，33]使用每点占用信息对对象表面进行建模，而DeepSDF [31]应用带符号距离字段来描述场景的3D几何形状。这些方法通常以3D点云作为输入，并使用地面真值标签优化相应的隐式场，这可以被视为从密集点云的学习网格重建。移动立方体算法[26]通常用于从神经隐式函数中提取网格表面。与广泛使用的网格表面和离散体相比，隐式神经函数能够用固定大小的多层感知器来建模连续表面，使得用任意拓扑来表示复杂几何形状更加自然和高效。除了MVS之外，基于渲染和视图合成的方法[16]提供了一种通过最小化渲染图像和输入图像之间的差异来估计场景几何形状的替代方案。该几何形状使用诸如密度/透明度字段[39，29，23，27，52]的软表示来表示，或者使用诸如Oc的显式表示来表示。cupancy字段[30]和带符号距离字段[24，25，49]。我们的方法与IDR [49]最相关，IDR[ 49 ]使用SDF和表面光场作为场景表示。这两个隐式网络由渲染损失联合训练，并且图像掩模被应用于受约束的SDF优化。然而，IDR的重建质量高度依赖于输入掩模的准确性，并且不准确的掩模可能导致丢失或额外的网格表面。由于自动对象分割方法[53，35]不可能总是完美的，IDR应用手动标记的掩模来确保重建质量。在这项工作中，我们引入多视图立体和特征一致性作为我们的几何约束，以提高表面质量和放宽图像掩模的要求。6527∇≡i=1i=0时--神经曲面重建多视点立体0可微曲面（0（��中文光线跟踪SDF表面光场{F} =0{D }=1全局采样平面扫描SDF融合距离损耗L特征损失L渲染损失L向后启用仅向前图2. 拟议框架的说明。在网络中，从空间中采样点，并且它们的有符号距离值直接由MVS深度输出来监督（第12节）。3.2）。然后，通过光线跟踪计算表面点，并通过深度特征一致性进行细化（Sec. 3.3）。最后，SDF几何体和表面光场通过渲染损失联合优化（第12节）。3.3）。3. 方法3.1. 几何图形和外观表达在我们的网络中，表面Sθ被显式地建模为SDF的零水平集，SDF在网络中由MLPf我们定义θ为f的可学习参数。MLP将查询位置X作为输入，并输出从查询到最近表面点的距离。Sθ={x∈R3|f（x;θ）=0}（1）受IDR [49]的启发，我们的场景外观由使用具有可学习参数φ的另一个MLPg的表面光场表示。表面光场将查询表面点x、其法向量n和视线v的单位向量作为输入，并输出查询的RGB颜色c。c=g（x，n，v;φ）（2）在绘制过程中，通过球面追踪得到视线与曲面的交点，并计算出点法线作为隐式曲面的解析梯度n=xf（x;θ）。可微曲面求交球面跟踪在网络中不是可微操作。根据以前的工作[30，49]，我们构造了从网络参数到交叉位置的函数的一阶近似。F或当前网络参数θ0，视光线v和该光线上的交点x0，对方程f（x;θ）0进行隐式微分，曲面交点可表示为θ的函数：其中f（x0;θ0）和xf（x0;θ0）是常数。3.2. 几何监督多视图立体算法能够提供高质量深度图作为场景的密集表示。在本节中，我们将描述如何使用MVS深度图来监督SDF优化。多视点深度图估计在我们的网络中MVS模块旨在为所有输入图像生成深度图像特征和合格的深度图。我们应用开源的Vis-MVSNet [51]作为我们的深度生成module.对于参考图像I0及其Nv个相邻源图像{I1}Nv，首先应用标准UNet来提取深度图像特征图F1Nv。然后，所有功能地图将被扭曲到I0的照相机截头体中，并构造3D成本体积C。我们通过3D CNN进一步正则化成本体积，并通过softmax获得深度样本的概率分布。最后，通过取深度期望，从概率体积回归深度D0。此外，对于深度图中的像素p，我们评估其在预测深度值周围的概率和P（p）作为深度置信度的指示符[46]。具有低置信度的像素将被过滤掉以生成干净的深度图。直接SDF监督先前的工作[30]提出通过最小化追踪的深度图和地面实况图之间的差异来训练隐式网络。然而，这种策略只能影响当前表面估计附近的网络输出为了确保SDF在整个空间中被正确地恢复，我们改为随机地x（θ）=x0f（x0;θ）−f（x0;θ0）v（3）xf（x0;θ0）·v从整个空间采样点并计算距离从采样点到MVS深度图的距离。−6528i=0时--Σ|−|Nvk=1k=1∇DΣ|−|（八）1 ΣR----图3.近似符号距离。具体地，给定采样点X和深度图D，我们首先将X投影到位置p处的深度图。然后，我们将MVS深度D（p）在与xD（p）相同的位置反向投影到空间。如图所示。3，从x到MVS表面的符号距离近似为l（x）=sgn[（xD（p）−x）·v]（−nd·v）xD（p）−x（4）其中nd是根据深度计算的法线。此外，如果概率和P（p）小于阈值Tprob，则我们MVS网络通常存在噪声，在最终的网格重建中，表面细节的为此，我们建议在网络训练期间优化特征一致性和特征一致性在传统的MVS或网格重建管道中，密集点云或网格表面通常通过多视图照片一致性优化进行细化[42，5，4，22，47]。表面点的光一致性被定义为匹配成本（例如，ZNCC）在多个视图中。在我们的工作中，请注意，已经在Vis-MVSNet中提取了灵感来自[50]，我们反而最小化多视图深度特征一致性。假设经由视图0中的射线追踪获得表面点X，我们将其在视图0及其邻近视图中的投影表示为PINv。由于这些投影是指空间中的相同3D点，因此它们的深度图像特征应该是一致的。特征损失定义为：NvL（θ）=|F（p）−F（p）|（六）将该像素视为在背景中，并且将从距离计算中排除这FNvNc0 0 i ii=1近似的符号距离可以用于监督SDF训练，并且我们将距离损失LD定义为：其中，Nc是特征通道，Ki（Rix+ti）是X在视图i中的投影，并且[Ki，Ri，ti]对应的相机参数。深L（θ）=1f（x;θ） l（x）|S|x∈S（五）通过双线性插值获得像素pi 处图像特征，表示为 Fi（pi）为了通过特征一致性损失来优化SDF，我们导出了LF（θ）的梯度，其中S是有效样本点的集合。小批量的符号距离融合5是近似的有符号距离l（x）关于网络参数θ，如下：LF（θ）=从单个深度图计算的深度通常不可靠。首先，自由空间中的样本点可以被遮挡在空间中。θi=0时Fi∂θ（七）一个给定的观点其次，当出现非平面表面时，近似的I（x）可能不准确。为了提高I（X）的准确性，我们在训练期间将Nb个视图分组在小批量中，并且I（X）将通过融合来自小批量内的Nb个对于查询点X，我们首先计算其在每个深度图中的近似有符号距离Ik（X）Nb根据lk（x）的符号，我们定义一个点在曲面外，如果离lk（x）Nb的距离至少为正。在确定查询点在内部或外部之后，我们收集具有相同符号的每视图距离，并将最小深度距离作为融合距离l（x）的绝对值。我们发现，这种简单的融合策略可以有效地过滤掉错误的观察从单一的深度图，和融合的l（x）是足够准确的，可以用来指导SDF优化。3.3. 局部几何细化第12节中的几何监督3.2可以正确地重新覆盖曲面拓扑。然而，作为深度图其中Fi/pi是特征图的梯度。最后一项x/θ可由方程的导数计算得出3 .第三章。与下一段中要讨论的渲染损失相比，所提出的特征损失在整个可区分渲染流水线的早期阶段引入了照片一致性约束，这减少了联合优化期间的几何和外观模糊性在烧蚀研究中我们发现LF（θ）可以有效地增加网格重建质量（请参见表1）（3）第三章。渲染图像一致性渲染图像一致性广泛用于最近的可微分渲染流水线[30，29，49]。对于图像中的像素p，我们可以在空间中追踪其表面交点x像素p的渲染颜色c（p）可以通过将x（θ）、xf（x;θ）和v馈送到函数g中而直接从表面光场获取。然后将渲染损失计算为从渲染颜色到输入图像颜色的L1L（θ，φ）=1c（p）I（p）|SI|p∈SI6529--ColmapVis-MVSNetIDR（完美遮罩）MVSDF（Ours）MVSDF（Ours）渲染图4. DTU数据集上的定性结果。我们的方法产生高质量的网格和渲染图像，而不需要作为输入的面具。我们还在空间中随机采样点x−，并将背景指示器设置为0。然后，我们应用二进制交叉熵作为我们的指标损失。LP （ γ ） =Σ−logh （ x+;γ ） +Σ−log （ 1−h（x−;γ））x+x−（九）图5. 表面指示器和补片修剪图示。额外的表面使用基于图切割的算法进行修剪（Sec. 4.1）根据已学习的表面指示器（第3.4，绿色表示精确表面）。其中S1表示其视线可以与空间中的表面相交的图像像素的集合渲染损失可以联合优化几何形状θ和外观Φ。与LF相比，LR更敏感，注意，我们的MVS深度图是使用相应的概率图过滤的，并且我们将不在那些过滤的像素上应用光线因此，MVS深度图中的经滤波区域换句话说，我们可以根据过滤的MVS深度图来识别无效表面区域。3.5. 损失除上述损失外，我们还通过Eikonal损失[11]进一步调节SDF，Eikonal损失将梯度幅度的期望限制为1。2对局部颜色变化敏感，并在LE（θ）=Ex∈R3（xf（x;θ）−1）（十）恢复高保真表面细节。3.4.有效表面指示器最后的损失以上述所有损失的加权和表示。如果输入图像不能完全覆盖感兴趣的对象，则看不见的区域的表面将不被很好地限定，并且将在图像中显示。L=wR LR（θ，φ）+wF LF（θ）+wD LD（θ）+wE LE（θ）+wP LP（γ）（十一）倾向于在背景区域中产生外推表面为了区分这种无效曲面，我们使用另一个指示器函数来标记空间点是否可以从某些输入视图中跟踪。具体地，函数h（x;γ）表示X在有效表面中的指示符期间在每次训练迭代中，成功跟踪的位置{x+}的指示符被设置为1。为了防止h（x;γ）报告16530其中权重w将在网络训练中改变我们的培训过程分为三个阶段：1）在第一阶段中，将w D设置为主导，以便确定初始拓扑;（2）在第二阶段，增加了wF的重要性，以恢复表面中的更精细结构;3)在最后阶段，wD和wF都减小，使得渲染损失可以恢复表面的精细尺度细节。6531∼∈∈∈倒角（mm）PSNRColmap [37]Vis-MVSNet [51]DVR [30]印尼盾[49]MVSDF（我们的）Colmap [37]Vis-MVSNet [51]DVR [30]印尼盾[49]MVSDF（我们的）240.990.984.101.630.8318.4418.3516.2323.2925.02372.352.104.541.871.7614.3714.7113.9321.3619.47400.730.934.240.630.8819.2418.6018.1524.3925.96550.530.462.610.480.4418.2719.0717.1422.9624.14631.561.894.341.041.1119.9217.5517.8423.2222.16651.010.672.810.790.9013.8017.1717.2323.9426.89690.890.672.530.770.7521.2321.8116.3320.3426.38831.141.082.931.331.2622.6723.1118.1021.8725.79970.910.673.031.161.0218.1918.6816.6122.9526.221051.460.953.240.761.3520.4321.6818.3922.7127.291060.790.662.510.670.8720.7321.0317.3922.8127.781101.080.854.800.900.8417.9318.4114.4321.2623.821140.440.303.090.420.3419.0819.4217.0825.3527.791180.680.451.630.510.4722.0523.8519.0823.5428.601220.730.511.580.530.4622.0424.2921.0327.9831.49是说1.020.883.200.900.8819.2319.8517.2623.2025.92表1. DTU数据集上的定量结果。我们的方法实现了Vis-MVSNet[51]的最佳平均倒角距离和Vis-MVSNet [51]的最高平均倒角距离。所有方法的PSNR得分。4. 实验4.1. 执行网络架构SDF是由一个8层MLP实现的，它有512个隐藏单元，中间有一个跳过连接。位置编码[29]应用于输入位置以捕获高频信息。该MLP同时输出距离、表面指示符概率和位置的描述符作为表面光场函数的输入。类似地，表面光场由具有512个隐藏单元的4层MLP实现。该函数将点位置、其描述符、法线和视线作为输入。仅通过位置编码增强观看方向，因为点描述符已经包括丰富的位置信息。在MVS模块中，我们使用一个参考图像和两个源图像（ Nv=2）作为Vis-MVSNet的输入，并且将输出所有图像的深度特征（ Nc=32 ）图和参考深度图。 MVS 模块在BlendedMVS[48]数据集上进行预训练，并且参数在训练期间是固定的。训练对于每个输入场景，网络被端到端训练10800步，批量大小为Nb=8。在每个训练步骤中，从小批量中的8个图像中的每一个中均匀地采样4096个像素以用于跟踪表面相交。此外，从空间中采样相同数量的3D点以计算距离损失和Eikonal损失。为了恢复薄结构的正确拓扑，我们需要在物体表面附近采样更多的点。这可以通过抖动从MVS深度图获得的表面点来实现。在距离融合中，外部判决的最小数目T_out=2。该ini-初始学习率为10- 3，当达到整个训练过程的4/6和5/6时，按比例缩小10如第3.5、损失的权重根据-进入训练阶段。详细设置请参考内存消耗与批量大小、每幅图像的样本数和源图像数有关。对于DTU数据集，我们的训练设置需要20 GBVRAM。整个训练过程需要5.5小时，在NVidia RTXTitan上扫描49张图像。网格提取和修剪在网络训练之后，可以通过MarchingCube算法[26]在预定义的边界框中从SDF中提取网格，体积大小为5123。对于相机轨迹不围绕对象的场景（例如，DTU数据集），外推的表面会出现在背景区域，我们建议过滤这些地区根据表面指标，在第二节中描述。三点四分。我们首先评估每个网格顶点的有效表面指标，并为每个三角形分配一个指标得分作为其三个顶点的平均得分。接下来，我们提出了一种基于图切割的方法来平滑地过滤掉那些离群曲面，而不是删除所有具有低指标分数的三角形。我们在Marching Cube的网格上定义了一个图G=（V，E），其中每个三角形表示一个图节点v V，两个相邻三角形之间的每条边表示一个图边e E。还定义了源节点和宿节点s，t，V。三角形链接到s，如果它们的指标得分大于T trim=0。第94章不然的话相邻的三角形也与权重10链接以促进平滑。在获得所构造的图的最小割之后，移除与t链接的三角形所提出的修剪算法可以有效地过滤掉外推的背景表面，如图所示。五、4.2. DTU数据集我们首先在DTUMVS数据集上评估我们的方法。DTU数据集包含在实验室中捕获的128次扫描对于每次扫描，有49个校准的相机位于围绕捕获对象的上球体的前侧。在本文中，我们评估的表面网格和6532Colmap Vis-MVSNet IDR IDR（无墙）MVSDF（我们的）图6. EPFL数据集上的定性结果。我们的方法是能够生成高质量的网格和渲染结果。倒角（×10−2）PSNRColmapVis-MVSNetIDRMVSDF（我们的）ColmapVis-MVSNetIDRMVSDF（我们的）喷泉-P116.356.1218.42（7.88）6.8420.1724.3324.58（23.43）25.27Herzjesu-P88.997.4732.196.3816.1323.4524.7528.75是说7.676.8025.306.6118.1523.8924.6727.01表2. EPFL数据集上的定量结果。我们的方法实现了最低的平均倒角距离和最好的PSNR分数在所有方法。括号中的值表示排除墙时IDR的结果。使用与[49]中相同的扫描集渲染图像。重建的网格模型通过到地面实况点云的Cham- fer距离来评估，并且渲染的图像使用到输入图像的PSNR分数来评估我们将我们的方法与1）Colmap [37]进行比较，它代表了最先进的传统MVS算法; 2）Vis-MVSNet[51]，其代表最先进的基于学习的算法，以及3）DVR[30]和IDR [49]，其代表最近的基于渲染的表面重建方法。来自Colmap和Vis-MVSNet的深度图被融合到点云中，并通过带有修剪参数 5 的筛选泊松表面重建（sPSR）[17]转换为表面网格。由于Colmap和Vis-MVSNet不估计表面纹理，因此我们遵循[49]在将深度图反向投影到点云时从输入图像分配颜色定量结果见表1。1.一、在所有方法中，该方法获得了最佳的平均倒角距离（0.88）定性结果见图。4.第一章我们的方法和IDR都能够重新覆盖网格表面中的高质量细节。与IDR相比，我们在重建的网格表面有更少的失真。同样值得注意的是，我们的结果是在没有任何手动掩码的情况下重建的。4.3. EPFL数据集我们的方法也评估EPFL数据集。EPFL数据集包含2个户外场景，Fountain-P11和Herzjesu-P8，具有地面真实网格。我们比较了我们的方法与 Colmap ， Vis-MVSNet和IDR。由于Fountain-P11和Herzjesu-P8主要由平面组成，因此基于轮廓的方法不能很好地处理它们到为了公平地比较我们的方法与IDR，对于Fountain-P11，我们还测试了从遮罩中排除墙壁的情况定性结果见图。六、与DTU类似，我们的方法能够产生高质量的网格和渲染。来自IDR的网格包含膨胀的曲面，当墙包含在输入遮罩中时，这种情况更加严重。其原因是遮罩视觉外壳和真实表面之间存在很大的间隙，因此解决方案可能会在这个不受限制的区域中陷入局部最小值。与此相反，在我们的报告中的拓扑是正确的恢复。对于表1中所示的定量结果2、我们的方法取得了最好的平均倒角距离（6.61）和峰值信噪比（27.01）在所有方法中。4.4. 其他定性结果我们还提供了坦克和寺庙中的家庭和马[18]（图1，7）以及BlendedMVS [48]数据集中的两个场景的定性结果（图2）。（八）。对于Horse，由于基础部分是高度无纹理和反射的，因此从Vis-MVSNet估计的点云是不完整的。虽然表面可以在一定程度上内插在网格重建期间，输出网格是颠簸的，渲染的图像是相当嘈杂。相比之下，所提出的方法是能够产生完整的和准确的网格表面与真实感的视图相关的绘制。4.5. 消融研究在本节中，我们将讨论网络中的不同损耗使用DTU数据集测试以下三个设置：1)无功能：通过设置wF=0从网络中移除特征损失; 2）无渲染：移除渲染损失6533Vis-MVSNet点云Vis-MVSNet网格Vis-MVSNet渲染MVSDF（Ours）网格MVSDF（Ours）渲染图7. 坦克和寺庙数据集的定性结果。传统方法在无纹理和反射区域中产生孔。相比之下，我们的端到端系统能够在这些区域重建准确的网格和渲染结果。仅距离无渲染图8. BlendedMVS数据集的定性结果。图中示出了MVSDF重建的两个场景的网格（上）和渲染图像（下）。LDLFLR平均倒角（mm）距离仅C3.56无渲染CC1.75没有特征CC1.06充分CCC0.88表3. DTU数据集上消融研究的定量结果。特征损失和渲染损失都可以提高网格重建质量。通过设置wR=0和3）仅距离：特征损失和渲染损失都被禁用wR=wF=0。不同设置的网格表面结果如图所示。9.第九条。我们发现，功能损失（从距离只有没有渲染）可以成功地细化表面，但仍然是粗糙的相比，完整的设置。渲染损失能够将模型细化到其最精细的细节级别（从仅距离到无特征），但是，它不如特征损失那样鲁棒，并且会导致屋顶区域中的错误表面。定量结果见表1。3 .第三章。特征损失和渲染损失都可以显著提高重建质量，表明所提出的方法的每个组成部分的有效性无功能已满图9. 对训练损失的消融研究。特征损失和渲染损失都能够细化表面几何体。此外，如果应用特征损失，则重建更鲁棒。5. 结论在这项工作中，我们介绍了一种新的神经表面重构框架，结合隐式神经表面估计与最近先进的MVS网络。在我们的网络中，几何形状和外观表示为神经隐函数的MLP。几何图形由MVS深度图直接监督以恢复表面拓扑，并且经由深度特征一致性和渲染图像丢失来局部细化所提出的方法已在不同的数据集上进行了广泛的评估定性和定量的结果表明，我们的方法优于以往的方法在几何精度和渲染保真度方面，证明了所提出的框架的有效性。6. 致谢这项工作得到了香港研究资助局GRF 16206819，16203518，T22-603/15 N和广州奥凯信息技术有限公司的项目GZETDZ 18 EG 05的支持。6534引用[1] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。Patchmatch立体匹配与倾斜的支持窗口。英国机器视觉会议（BMVC），2011年。2[2] NeillDFCampbell，Geor geVogiatzis，CarlosHerna'ndez，and Roberto Cipolla.使用多个假设来改进多视图立体的深度图。欧洲计算机视觉会议（ECCV），2008年。1[3] 罗伯特·T·柯林斯一种真正的多图像匹配的空间扫描方法。计算机视觉与模式识别（CVPR），1996年。2[4] 我是艾尔·德朗和马克·波列夫。用于密集多视图3d建模的光度束调整。在计算机视觉和模式识别（CVPR），2014年。1、4[5] 我是艾尔·德劳诺伊和伊曼纽尔·普拉多斯。用于优化基于三角形网格的曲面的梯度流：应用于处理可见性的三维重建问题。International Journal of Computer Vision，95（2）：100-123，2011。1、4[6] 我是Furuk和CarlosHerna'ndez。多视图立体声：教程。Foundations and Trends® in Computer Graphics andVision，9（1-2）：1-148，2015。2[7] 古川康孝和让·庞塞。用于基于图像的建模的雕刻可视外壳。2006年，欧洲计算机视觉会议（ECCV）。1[8] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis andMachine Intelligence，32（8）：1362一、二[9] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。2015年，国际计算机视觉会议（ICCV）。2[10] Michael Goesele，Brian Curless，and Steven M Seitz. 多视图立体重访。计算机视觉和模式识别（CVPR），2006年。2[11] Amos Gropp、Lior Yariv、Niv Haim、Matan Atzmon和Yaron Lipman。用于学习形状的隐式几何正则化2020年，国际机器学习会议（ICML）。5[12] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在计算机视觉和模式识别（CVPR），2020年。2[13] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在计算机视觉和模式识别（CVPR），2018年。一、二[14] Rasmus Jensen、Anders Dahl、George Vogiatzis、EngilTola和Henrik Aanæs。大比例尺多视立体视觉评价。在计算机视觉和模式识别（CVPR），2014年。2[15] Abhi s hekKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在神经信息处理系统（NIPS），2017年。一、二[16] Hiroharu Kato、Deniz Beker、Mihai Morariu、TakahiroAndo、Toru Matsuoka、Wadim Kehl和Adrien Gaidon。可区分渲染：一个调查。 arXiv 预印本 arXiv ：2006.12057，2020。2[17] Michael Kazhdan和Hugues Hoppe筛选泊松曲面重建。ACM Transactions on Graphics（ToG），32（3）：1-13，2013. 一、二、七[18] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准。ACM Transactions on Graphics （ ToG ）， 36 （ 4 ）：78，2017。二、七[19] Andreas Kuhn，Christian Sormann，Mattia Rossi，OliverErdler，and Friedrich Fraundorfer. Deepc-mvs：用于多视图立体重建的深度置信度预测。2020年国际3D视觉会议（3DV）。2[20] Patrick Labatut、Jean-Philippe Pons和Renaud Keriven。使用兴趣点、Delaunay三角剖分和图切割的大规模场景的高效多视图重建 2007 年国际计算机视觉会议（ICCV）一、二[21] Maxime Lhuillier和Long Quan从未校准图像重建表面的准稠密方法。IEEE Transactions on Pattern Analysis andMachine Intelligence，27（3）：418-433，2005。2[22] 李世伟、萧成玉、田芳、龙泉。有效的多视图表面细化与自适应分辨率控制。欧洲计算机视觉会议（ECCV），2016。4[23] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua，and Christian Theobalt.神经稀疏体素场。在神经信息处理系统（NeurIPS），2020。2[24] Shichen Liu，Shunsuke Saito，Weikai Chen，and Hao Li.学习在没有3d监督的情况下推断隐含表面。在神经信息处理系统（NeurIPS），2019年。一、二[25] Shaohui Liu，Yinda Zhang，Songyou Peng，Boxin Shi，Marc Pollefeys，and Zhaopeng Cui.Dist：使用可微球体跟踪渲染深度隐式符号距离函数。在计算机视觉和模式识别（CVPR），2020年。一、二[26] 威廉·E·洛伦森和哈维·E·克莱恩。移动立方体：一种高分辨率三维表面构造算法。ACM siggraph计算机图形学，21（4）：163-169，1987。一、二、六[27] Ricardo Martin-Brualla 、 Noha Radwan 、 Mehdi SMSajjadi、Jonathan T Barron、Alexey Dosovitskiy和DanielDuck-worth。Nerf在野外：神经辐射场用于非受控的照片收集。在计算机视觉和模式识别（CVPR），2020年。2[28] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks：Learning 3d reconstruction in function space.在计算机视觉和模式识别（CVPR），2019年。一、二[29] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议（ECCV），2020年。一、二、四、六6535[30] Michael Niemeyer、Lars Mescheder、Michael Oechsle和Andreas Geiger。差分体绘制：学习隐式3D表示没有3D监督。在计算机视觉和模式识别（CVPR），2020年。一二三四六七[31] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习连续符号距离函数用于形状表示。在计算机视觉和模式识别（CVPR），2019年。一、二[32] DespoinaPaschalidou ， OsmanUlusoy ， CarolinSchmitt，Luc Van Gool，and Andreas Geiger.Raynet：学习用射线势进行体积三维重建。在计算机视觉和模式识别（CVPR），2018年。一、二[33] PengSongyouPeng ， MichaelNiemeyer ， LarsMescheder，Marc Pollefeys，and Andreas Geiger.卷积占有网络。欧洲计算机视觉会议（ECCV），2020年。一、二[34] Jean-Philippe Pons、Renaud Keriven和Olivier Faugeras。基于全局图像匹配分数的多视点立体重建和场景流估计。 International Journal of Computer Vision ， 72（2）：179-193，2007. 1[35] 秦学斌、张梓晨、黄晨阳、高超、马苏德·德汉和马丁·雅格桑。Basnet：边界感知的显著对象检测.在计算机视觉和模式识别（C

下载后可阅读完整内容，剩余1页未读，立即下载