三角形3D模型与多视图图像的优化方法

152 浏览量更新于2023-10-25 收藏 2.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8280从图像中提取三角形3D模型、材质和光照Jacob Munkberg1乔恩·哈塞尔格伦1沈天长1，2，3Jun Gao高俊1，2，3陈文正1，2，3亚历克斯·埃文斯1Thomas Müller1Sanja Fidler1，2，31NVIDIA2多伦多大学3Vector Institute摘要我们提出了一种有效的联合优化方法拓扑结构，材料和照明从多视图图像观察。与最近的多视图重建方法不同，这些方法通常会产生在神经网络中编码的纠缠3D表示，我们输出具有空间变化材料和环境照明的三角形网格，这些三角形网格可以在任何传统的图形引擎中部署我们利用最近的工作，在微分渲染，坐标为基础的网络compoundrepresent- sent体积纹理，旁边的微分行军四面体，使基于梯度的优化直接在表面网格。最后，我们介绍了一个不同的配方的分裂和近似的环境照明，有效地恢复全频照明。实验表明，我们提取的模型用于先进的场景编辑，材料分解，和高质量的视图插值，所有运行在基于三角形的渲染器（光栅和路径跟踪器）的交互速率。1. 介绍3D内容创建是一项具有挑战性的，主要是手动任务，需要艺术建模技能和技术知识。自动化3D建模的努力可以节省大量的生产成本或允许更快和更多样化的内容创建。摄影测量[48，56]是一种流行的技术，以协助这一过程，其中一个对象的多张照片被转换为3D模型。游戏工作室利用摄影测量技术快速构建高度精细的虚拟景观[21].然而，这是一个多阶段的过程，包括多视图立体[52]来对齐相机并找到对应关系，几何简化，纹理参数化，材料烘焙和美化。这种复杂的流水线具有许多步骤，这些步骤具有冲突的优化目标和在阶段之间传播的错误。艺术家依赖于大量的软件工具和大量的手动调整来达到最终3D模型的理想质量。项目页面：https://nvlabs.github.io/nvdiffrec/参考照片场景编辑布料模拟材质编辑kd/kn/n网格图1.我们重建一个三角形网格与未知的拓扑，空间变化的材料，和照明从一组多视图图像。我们展示了使用现成的建模工具进行场景操作的示例，这些工具由我们重建的3D模型启用。我们的目标是将此过程框定为逆向渲染任务，并联合优化尽可能多的步骤，由重建模型的渲染图像的质量驱动，与捕获的输入图像相比。最近的工作采用神经渲染方法进行3D重建，并提供高质量的新颖视图合成[39]。然而，这些方法通常产生将几何、材料和照明缠绕到神经网络中的表示，并且因此不能容易地支持场景编辑操作。此外，为了在传统的图形引擎中使用它们，需要使用诸如Marching Cubes的方法从网络中提取几何形状，这可能导致较差的表面质量，特别是在低三角形计数时。最近的神经方法可以解开形状，材料和照明[3，68，70]，但牺牲重建质量。此外，在神经网络中编码的材料不能以与传统游戏引擎兼容的形式容易地编辑或提取相比之下，我们重建的3D内容与传统的图形引擎兼容，支持重新照明和场景编辑。在本文中，我们提出了一个高效的逆渲染-8281一种能够从多视图图像中提取未知拓扑的三角形网格的方法，该三角形网格具有空间变化的材料和我们假设物体在一个未知的环境照明条件下被照亮，并且我们有相应的相机姿势和遮罩指示这些图像中的物体，如在过去的工作中[3]。我们的方法学习拓扑结构和顶点位置的表面网格，而不需要任何初始猜测的三维几何。我们的方法的核心是基于可变形四面体网格的可微分表面模型[54]，我们通过一种新的可微分分裂和近似来扩展该模型以支持空间变化的材料和高动态范围（HDR）环境照明。我们优化几何形状，材料和照明（50M+参数）联合使用高度优化的可区分光栅化器与延迟着色[22，30]。生成的3D模型可以在任何支持三角形渲染的设备（包括手机和Web浏览器）上部署，而无需转换，并以交互式速率渲染。实验表明我们提取的模型用于场景编辑（例如，图1）、材质分解和高质量视图插值，所有这些都在基于三角形的渲染器（光栅化器和路径跟踪器）中以交互速率运行2. 相关工作2.1. 多视点三维重建用于多视图3D重建的经典方法或者利用图像间对应性[1，11，12，52]来估计深度图或者使用体素网格来表示形状[10，53]。前一种方法通常将深度图融合到点云中，可选地生成网格[27]。它们严重依赖于匹配的质量，并且在后处理期间很难纠正错误后一种方法估计每个体素的占用率和颜色，并且通常受到立方存储器要求的限制。神经隐式表示利用可微渲染来重建具有来自图像集合的外观的3D几何结构[24，39，43]。[39]然后，ups [15，38，41，42，49，50，60，62，66，69]，使用体积表示，并通过穿过神经编码的5D光场的射线来计算辐射率虽然在新视图合成方面取得了令人印象深刻的结果，但几何质量受到体绘制模糊性的影响[69]。基于表面的渲染方法[43，64]使用隐式微分来获得梯度，直接优化底层表面。Unisurf [47]是一种混合方法，可逐渐缩小采样区域，鼓励体积表示收敛到表面，NeuS [59]提供了从SDF到密度的无偏转换，用于体积渲染。所有方法的共同之处在于它们依赖于光线行进进行渲染，这在训练和推理期间都是计算上昂贵的。虽然隐含曲面可以转换为网格以进行快速推理，这引入了优化过程中未考虑的额外误差[54]。我们优化了显式网格表示的端到端图像损失，通过设计支持形状、材料和照明的内在分解，并利用有效的可微分光栅化[30]。提出了显式表面表示来从图像中估计显式3D网格[7，8，14，23，34，35，54]。大多数方法假设给定的固定网状拓扑[7，8，23，35]，但在最近的工作中得到了改进[14，34，54]。特别是，DMTet [54]使用可微行进四面体层直接优化表面网格。然而，它专注于3D监督的培训在这项工作中，我们将DMTet扩展到2D监督，使用微分渲染来共同优化拓扑结构，材料和照明。2.2. BRDF和照明估计除了几何形状，几种技术估计表面的辐射特性的图像。先前关于BTF和SVBRDF估计的工作依赖于特殊的观察配置、照明模式或复杂的捕获设置[2，5，16最近的方法利用神经网络-工程预测BRDF从图像[13，19，32，33，37，44]。微分渲染方法[7，8，22，35，71]学习预测几何形状，SVBRDF，在某些情况下，通过2D图像丢失来预测照明尽管如此，它们的形状通常是从球体变形的，并且不能表示任意拓扑。神经隐式表示成功地从图像集合中估计照明和BRDF。Bi等人[2]和NeRV [57]对光传输进行建模，以支持高级照明效果，例如，阴影，但是具有非常高的计算成本。与我们的工作最相关的是神经3D重建方法，用于联合估计来自图像的形状，BRDF和照明[3，4，68，70]，同时提供这些项的内在分解使用球面高斯（ NeRD [3] ， PhySG [68] ）或低分辨率 envmap（NeRFactor [70]）的混合来表示照明，在这两种情况下均限于低频照明。相反，我们提出了一种可微的分裂和照明模型，也被并发工作Neural-PIL [4]采用。这些神经隐式方法使用多个MLP来因式分解方法几何因子分解培训推理NeRF [39]NV天秒NGP-NeRF [41]NV分钟MSNeRD [3]NERFactor [70]PhySG [68]NeuS [59]我们NV 10天秒NV 10天秒NS 100天秒NS天秒网格时间ms表1.方法的分类。NV：神经体积，NS：神经表面。因式分解表示该方法是否支持几何、材质和照明的某些分解。8282渲染参考图像图像空间损失渲染Tet-grid神经SDF三角形网格拓扑通过深行军tets神经纹理2D纹理PBR材料可微渲染器梯度可微分裂和环境图2. 概述我们的方法。我们学习拓扑，材质和环境贴图照明联合从2D监督。我们利用可微行进四面体直接优化三角形网格的拓扑结构虽然拓扑结构正在急剧变化，我们学习材料通过体积纹理，有效地编码使用MLP与位置编码。最后，我们介绍了一个可微版本的分裂和近似环境照明。我们的输出表示是一个三角形网格，空间变化的2D纹理和高动态范围的环境地图，可以在标准的游戏引擎中使用未经修改。该系统是端到端训练的，通过图像空间中的损失进行监督，并对所有阶段进行基于梯度的优化Keegan Crane的现场模型表示，导致长的训练和推理时间。此外，这些方法放弃了可用3D建模和渲染工具的庞大生态系统，相比之下，我们的输出直接兼容现有的渲染器和建模工具。我们我们的重建全频率环境照明的方法在3.3节中描述。优化任务令λ表示我们的优化参数（即，SDF值和顶点偏移表示形状、空间变化的材料和光探测参数）。对于给定的相机姿势c，可微分渲染器优化显式曲面网格、BRDF参数，以及存储在HDR探头中的照明，实现更快的训练产生一个图像，（c）。参考图像Iref（一）A速度和更好的分解效果。表1显示了方法的高水平比较。3. 我们的方法We present a method for 3D reconstruction super-vised by multi-view images of an object illuminated un-der one unknown environment lighting condition, togetherwith known camera poses and background segmentationmasks.目标表示由三角形网格，空间变化的材质（存储在2D纹理中）和照明（高动态范围环境探测器）组成。我们精心设计的优化任务显式渲染三角形网格，同时鲁棒地处理任意拓扑。因此，与最近使用神经隐式表面或体积表示的工作不同，我们直接优化目标形状表示。具体地说，我们调整了Deep Marching Tetrahedra [54]（DMTet）以在2D监督的设置中工作，并共同优化形状，材料和照明。在每个优化步骤中，形状表示-在网格上定义的带符号距离场（SDF）的参数，具有相应的每个顶点偏移-使用行进四面体层转换为三角形表面网格。接下来，我们在具有延迟着色的可微分光栅化器中渲染提取的表面网格，并计算与参考图像相比渲染图像上的图像空间中的损失最后，损失梯度被反向传播以更新形状、纹理和照明参数。我们的方法总结在图2中，每个步骤在下面详细描述;第3.1节概述了我们的拓扑优化，第3.2节介绍了空间变化的着色模型，从同一个摄像头看给定损失函数L，我们最小化经验风险[医]阿瓜明I参考（c）、I参考（c）、I参考（1）ϕ使用Adam [28]基于梯度w.r.t.通过可重构绘制获得的优化参数，即λ L/λ L。我们的渲染器使用基于物理的着色，并产生高动态范围的图像。因此，目标函数必须对浮点值的整个范围具有鲁棒性。根据最近在可区分渲染 [22] 中的工作，我们的损失函数是L=Limage+Lmask+λLreg，图像空间损失，Limage（色调映射颜色上的L1范数），掩模损失，Lmask（平方L2）和正则化器Lreg（等式2）以改善几何形状。详情请参阅补充材料假设出于性能原因，我们使用具有延迟阴影的可区分光栅化器[22]，因此反射，折射（例如，玻璃），并且不支持半透明性。在优化过程中，我们只渲染没有阴影的直接照明。我们的着色模型使用了一个dif- fuse朗伯波瓣和一个镜面的、各向同性的微面GGX波瓣，这在现代游戏引擎中是常用的[26，29]。金属和金属材料都支持。我们注意到，我们的方法直接推广到可微路径跟踪器[45，46]，但计算成本显着增加。3.1. 学习拓扑体积和隐式形状表示（例如，SDF）可以通过Marching转换为网格8283Σ̸图3.从一组256个渲染图像（w/mask）中提取三角形网格。我们使用Marching Cubes从NeRF和NeuS中提取网格，目标三角形计数约为50k个三角形，并在我们的流水线中优化示例以获得类似的计数。我们在路径跟踪器中显示提取的网格的渲染，并报告倒角损失。我们注意到，优化表面表示的NeuS显著改善了NeRF在该示例中使用的体积表示。此外，我们对三角形网格的端到端优化在固定三角形计数下改善了视觉质量和倒角损失当急剧增加NeuS网格提取中的三角形计数（从53k到900k三角形）时，质量显著提高，表明NeuS具有高质量的内表面表示。尽管如此，我们的53k三角形网格与高分辨率NeuS输出相当，表明直接优化网格表示的好处。<0��′�� =��′ ∙�� −�� ′∙��−��′=��图4.行进四面体从具有网格顶点vi′=vi+ nvi和标量SDF值si的四面体网格中提取面。对于具有sign（si）sign（sj）的tet，提取面部，并且神经网络。在每个优化步骤中，SDF首先转换为三角形表面网格使用MT，这是可微的w.r.t. SDF并可在DMTet中改变表面拓扑结构[54]。接下来，使用可微分光栅化器渲染前网格以产生输出图像，并且图像空间损失梯度。联系我们面顶点vij是确定的。通过线性插值挖掘。将这些值反向传播到SDF值和偏移（或网络权重）。神经SDF表示可以充当立方体[36]（MC）在后处理步骤中。然而，MC不可避免地施加离散化误差。因此，输出网格质量，特别是在实时渲染中通常使用的中等三角形计数时，通常是不够的。类似地，使用抽取工具简化密集的提取网格可能会在渲染应用中引入错误为了避免这些问题，我们显式渲染三角形网格在优化过程中。我们通过可区分的渲染在2D监督设置中利用DeepMarch- ingTetrahedra [54DMTet是一种混合3D表示，它表示具有在可变形四面体网格的顶点自卫队作为平滑度先验，这在生产成形良好的形状中是有益的。另一方面，直接优化每个顶点属性可以捕获更高频率的细节，并且训练速度更快。在实践中，参数化的最佳选择取决于多视图图像中的几何模糊性。我们在补充材料中提供了详细的分析。为了减少漂浮物和内部几何形状，我们调整SDF值的DMTet类似廖等。[34]。给定二进制交叉熵H、sigmoid函数σ和符号函数sign（x），我们将正则化子定义为转换为三角形网格使用一个可微的行进四面体层（MT），如图4所示。的Lreg=i，j∈SeH（σ（si），sign（sj））+H（σ（sj），sign（si）），（2）损失，在我们的情况下计算的3D模型的渲染，是反向传播到隐式字段，以更新表面拓扑。这允许我们直接优化曲面网格和渲染外观端到端。我们在图3中说明了端到端学习的优势，在那里我们将我们的网格与竞争方法生成的网格进行了比较。虽然NeRF [39]（体积代表）和NeuS [59]（隐式曲面表示）提供高质量的视图插值，在MC步骤中引入的质量损失在低三角形计数时是显著的。给定顶点位置为v的四面体网格，DMTet学习SDF值s和变形矢量Δv。SDF值和变形可以显式存储为每个网格顶点的值，也可以隐式存储[43，47]，其中，我们对四面体网格中的唯一边集合Se求和，其中sign（si）=sign（sj）。直观地说，这减少了符号翻转的数量，简化了表面，惩罚内部几何或浮动。我们在补充材料中取消3.2. 光照模型材质模型我们遵循先前在可重构渲染[22]中的工作，并使用来自迪士尼[6]的基于物理（PBR）的材质模型。这让我们可以轻松地导入游戏资产，并直接在前引擎中渲染我们的优化模型，而该材料模型将漫射项与各向同性镜面GGX波瓣结合[58]。参考图5，扩散波瓣参数参考NeRF（57ktris）NeuS（53ktris）NeuS（900ktris）我们的（53ktris）倒角L1×10−433.49.195.844.658284- --→∫∫·wire/shadedkdknumerals图5.我们表示为一个三角形网格和一组空间变化的材料的3D模型以下的一个标准的PBR模型。参数kd作为四分量纹理提供，其中可选的第四通道α表示透明度。镜面波瓣由GGX正态分布函数的粗糙度值r和金属度因子m描述，金属度因子m通过根据ks计算镜面高光颜色在塑料和金属外观之间插值= （ 1（m）0的情况。04岁以上kd[26].按照标准约定，我们将这些值存储在纹理k=（o，r，m）中，其中o未使用。最后，我们包括一个切线空间法线贴图，n，捕捉高频着色细节。我们正则化材料参数图6.对体积表示进行采样以创建2D纹理会产生纹理接缝（左）。然而，进一步优化（右），快速自动删除接缝。kd，kk k，和n。这导致2D纹理与标准3D工具和游戏引擎兼容。3.3. 基于图像的照明我们采用了基于图像的照明模型，其中场景环境光是由一个高分辨率的立方体地图。根据渲染方程[25]，我们通过以下公式计算方向ωo上的出射辐射率L（ωo）使用平滑度损失[70]，请参考我们的柔软材料了解详细信息。L（ωo）=ΩLi（ωi）f（ωi，ωo）（ωi·n）dωi.（三）表面网格的自动纹理参数化是计算机图形学中的一个研究热点我们优化拓扑结构，这需要不断更新参数化，可能会引入不连续的训练过程。为了在拓扑优化期间稳健地处理纹理，我们利用体积纹理，并使用世界空间位置索引到我们的纹理。这可确保贴图随两个折点这是来自方向ω i的入射辐射率Li（ωi）和BSDF f（ωi，ωo）的乘积的积分。积分域是围绕曲面交点法线n的半球。下面，我们关注出射辐射的镜面反射部分，其中，在我们的情况下，BSDF是Cook-Torrance微面镜面反射着色模型[9]，根据：D G F转换和改变拓扑结构。f（ωi，ωo）=4（ω· n）（ωi、（四）· n）体积纹理的内存占用会增加，这对于我们的目标分辨率来说是无法控制的。因此，我们扩展了 PhySG [68] 的方法，使用多层感知器（MLP）以紧凑的表示方式对所有材料参数进行编码。该表示可以自适应地分配表示表面网格的2D流形附近的细节，表面网格是密集3D体积的一个小子集。更正式地说，我们让位置编码+ MLP表示映射x（kd，kn，n），例如，给定一个世界空间位置x，计算基本颜色kD、镜面参数kD（粗糙度，金属度）和切向空间法线扰动n。我们利用tiny-cuda-nn框架[40]，其为散列网格位置编码[41]和MLP评估提供了有效的内核。一旦拓扑和MLP纹理表示收敛，我们重新参数化模型：我们使用xatlas [65]生成唯一的纹理坐标，并在表面网格上对MLP进行采样以初始化2D纹理，然后继续使用固定拓扑进行优化。参照其中 D 、 G 和 F 分别是代表 GGX [58] 正态分布（NDF）、几何衰减和Frenel项的基于图像的照明的高质量估计可以通过蒙特卡罗积分来获得。对于低噪声水平，需要大的样本计数，这对于交互式应用来说通常太昂贵。因此，球面高斯（SG）和球面谐波（SH）是基于图像的照明的常见近似[3，7，68]。它们允许通过改变SG波瓣（或SH系数）的数量来控制照明频率，并且是低至中频照明的有效表示然而，表示高频和高镜面材料需要许多SG波瓣，这带来高运行时间成本并且损害训练稳定性。相反，我们从实时渲染中汲取灵感，其中分裂和近似[26]是一种流行的、有效的基于全频图像的照明方法。这里，来自等式3的照明积分被近似为：如图6所示，这有效地消除了由（u，v）参数化引入的纹理接缝，并且还可以增加纹理细节，因为我们可以为每个L（ωo）≈n）dωiΩLi（ωi）D（ωi，ωo）（ωin）dωi.Ω（五）O8285·××·原始庭院森林日出日落图7.从NeRFactor数据集重新照明场景的质量，我们的示例使用Blender重新照明，NeRFactor结果使用公共代码生成。第一项表示镜面BSDF与纯白色环境光的积分。它仅取决于参数cosθ=ωin和BSDF的粗糙度r，并且可以预先计算并存储在2D查找纹理中。第二项表示入射辐射率与镜面NDFD的积分。在Karis [26]之后，这项也被预先积分并由过滤的立方体图表示在每个mip级别中，环境贴图针对固定粗糙度值（在较粗糙的mip处增加粗糙度）的D进行拆分和方法因其适度的运行时成本而流行，仅使用两个纹理查找：在方向ω〇上，基于（r，cos θ）和在等级r处的mip金字塔来查询表示第一项的2D查找纹理。这应与评估每个阴影点有数百个波瓣的SG产品一致。此外，它使用标准的GGX参数化，这意味着我们可以用不同类型的光源（点光源、面光源等）重新照亮我们的实验模型。并使用我们的重建材料，在大多数游戏引擎和建模工具中没有修改。我们引入了一个可微版本的分裂和着色模型，通过可微渲染从图像观察学习环境照明。我们让立方体贴图的纹理元素（典型分辨率为6512512）是可训练的参数。基准水平表示最低支持粗糙度值的预集成照明，每个较小的mip水平都是使用Karis [26]的预过滤方法从基准水平为了获得纹理元素梯度，我们使用PyTorch的自动微分来表达照明然而，公式5中的第二项的预滤波必须在每次训练迭代中更新，因此保证了专门的CUDA实现以降低训练成本。该术语可以通过Monte-Carlo积分（BSDF重要性采样）进行估计，也可以通过在从NDF导出的立体角足迹中对环境地图进行为了减少噪声，以引入一些偏差为代价，我们选择了后一种方法。有关实施细节，请参阅我们的补充材料。我们还创建了一个过滤的低分辨率（6×16×16）立方体贴图，表示漫射照明。的我们的成果参考渲染图8.为了突出我们显式表示的好处，我们插入两个重建模型到康奈尔盒。注意，对象准确地与场景照明交互，并且投射阴影（例如，绿墙）。接下来，我们在软体物理模拟中使用我们重建的热狗模型，将红色果冻滴在盘子上。我们在参考3D网格和重建网格上运行整个模拟（21帧），并显示最后一帧。注意，这些应用目前对于神经体积表示是不可行的。过程与滤波的镜面探针相同，共享相同的可训练参数，平均汇集到具有粗糙度r= 1的MIP水平。漫射项的预滤波仅使用余弦项ωin。这两个滤波步骤是完全可微分的，并且在每个训练步骤执行。4. 实验在下文中，我们针对各种应用评估我们的系统。为了强调我们的方法我们还比较了最近支持因子化的神经方法：[3]和NeR因子[70]。虽然不是我们的主要重点，但我们包括视图插值结果，以建立与最先进方法的基线比较。最后，我们比较我们的分裂和近似对球面高斯图像为基础的照明。4.1. 场景编辑和模拟我们的分解场景表示支持高级场景编辑。以前使用基于密度的神经表示的工作只支持基本的重新照明和简单形式的场景编辑[3，68，70]。在图7中，我们比较了使用Blender Cycles路径跟踪器渲染的重建模型的重新照明质量与NeRFactor的结果（通过评估神经网络渲染）。提供了定量总结参考我们NeRFactor软体模拟场景编辑8286↑ ↑↓↑ ↑↓重光照PSNR↑ SSIM↑ LPIPS↓PSNR↑KDSSIM↑ LPIPS↓NeRFactor23.780.9070.11223.110.9170.094我们24.530.9140.08524.750.9240.092表2.NeRFactor合成数据集的质量报告的图像度量是所有4个测试场景的8个确认视图和8个光探头我们还显示指标的kd（dropdo）纹理。在NeRFactor之后，我们注意到材料和照明之间的比例因子是不确定的，因此在测量误差之前通过参考的平均强度来归一化反照率图像在表2中，我们还测量了重建的Mendado纹理的质量。我们注意到，我们的方法产生了更详细的结果，并在所有指标中优于NeRFactor。我们的工件主要来自训练（使用光栅化器）和推理（使用全全局照明）之间的不匹配。在阴影或渗色强烈的区域，我们的材质和几何质量会令人满意。可微分路径跟踪器[46]可能会改善我们管道中的材料分离，但需要更多的计算。我们的表示可以直接部署在大量的三维内容生成工具，可用于三角网格。这极大地促进了场景编辑，这对于神经体积表示仍然非常具有挑战性[70]。我们在图8中展示了高级场景编辑示例，其中我们将来自NeRFactor数据集的重建模型添加到Cornell框中，并在柔体模拟中使用它们请注意，我们的模型接收场景照明，投下准确的阴影，并鲁棒地作为虚拟对象的碰撞器。在图1和补充视频中，我们展示了另一个示例，其中对象从现实世界的照片中重建，然后用作虚拟布料对象的碰撞器然后使用我们提取的环境光渲染组合场景。注意，给定参考照片，虚拟对象的阴影看起来似乎是合理的我们还在同一示例中展示了材料编辑。4.2. 视图插值合成数据集我们在表3中示出了NeRF真实合成图像数据集的结果，并且在图9中示出了MATERIALS场景的视觉示例。每个场景的结果和视觉示例包含在我们的补充材料中，其中我们还包括提取网格上的倒角损失。我们的方法始终与NeRF保持一致，在某些场景中具有更好的质量。基于感知的图像度量（SSIM和LPIPS）的裕度较小。我们推测，基于密度的体积方法可以更有效地最小化PSNR比我们的不透明网格。然而，稍微移动轮廓边缘的效果将不会对感知度量有害。DRUMS和SHIP场景是我们方法的失败案例。我们假设大部分是直接照明，没有信号-方法PSNR SSIM LPIPS PhySG 18.91 0.8470.182尼加拉瓜货币基金组织Mip-NeRF我们的29.05 0.939 0.081表3. NeRF真实合成数据集中八个场景的平均结果。每个场景由100个训练图像和200个测试图像组成，具有掩模和已知的相机姿势。NeRF的结果摘自NeRF论文[39]的表4使用公共源代码重新训练PhySG和Mip-NeRF。我们的着色模型参考图片网孔/kd/km/n浸提探头图9.我们对MATERIALS场景的结果，从NeRF合成数据集的100张图像中重建。方法PSNR SSIM LPIPS NeRF 31.08 0.9560.064NeR因子26.87 0.930 0.099我们的31.65 0.967 0.054表4.查看NeRF合成数据集的NeRFactor变体上的插值误差度量。报告的图像度量是所有四个场景的八个验证图像的算术平均值显著的全局照明效果，并且这些场景包含显著的场景内反射、折射和焦散。有趣的是，虽然材料重建suf-fers，我们仍然注意到高质量的结果，视图插值。考虑到我们分解成明确的形状，材料和照明，我们在新视图合成上的质量略低于专门用于视图插值的方法。为了将其置于上下文中，在表4中，我们将我们的方法与执行类似分解的NeRFactor和我们的方法进行比较。我们观察到4。与NeRF基线相比，NeRFactor的PSNR图像质量降低21dB这与NeRD [ 3 ]是一致的，它不提供源代码，但报告4。在NeRF合成数据集的一个子集上，它们的因子分解表示的质量下降了17相比之下，我们的质量要高得多，仍然提供因子分解表示的灵活性真实世界数据集NeRD [3]提供了一个真实世界照片扫描的小数据集，具有自动生成的（不准确的）覆盖掩模和不同的相机放置。目视和定量结果如图10所示，8287×参考我们的NeRD NeRF峰值信噪比25.7 24.3 24.4峰值信噪比（PSNR）24.9 21.8 19.0图10.重建照片（数据集从NeRD），比较我们的结果与NeRD和NeRF。最右侧两列中的图像由NeRD作者提供。我们在图像指标方面得分更高，最有可能是由于我们的网格表示强制执行不透明的几何形状，其中竞争算法依赖于体积不透明度。尽管相机姿势和遮罩不一致，但我们的结果仍然清晰，而NeRF和NeRD遭受浮动或丢失的几何形状。其中我们已经屏蔽了参考对象的背景。由于数据集的不一致性，NeRF和NeRD都很难找到具有透明“浮动物”和孔的清晰几何边界。相比之下，我们得到了清晰的轮廓和图像质量的显着提升。报告的NeRD结果用于其体积表示。请注意，NeRD可以生成输出网格作为后处理步骤，但质量损失很大（我们的补充材料中包含了视觉比较）。4.3. 球面高斯与分裂和的比较在图11中，我们将第3.3节中的可微分裂和增强照明近似与常用的球面高斯（SG）模型进行了比较。分和在所有频率上更忠实地捕获照明，同时仍然具有较低的运行时成本。在我们的实现中，我们观察到优化时间减少了5与SG相比，128叶。在推理，评估的分裂和近似是非常快的，只需要两个纹理查找。5. 局限性和结论我们的主要限制是简化的着色模型，没有考虑全局照明或阴影。这种选择是为了加速优化，但它是材料提取和重新照明的限制因素。随着可微路径追踪的进展，我们期待着在未来的工作中，这一限制被解除。我们还依赖于alpha蒙板来区分前景和背景.虽然我们的方法似乎对损坏的掩码非常鲁棒，但将此步骤进一步纳入系统将是有益的其他限制包括静态照明参考SG 128 Split SumPSNR|SSIM三十三点七十四|0.968三十六点二十|零零七PSNR|SSIM二十六点三十一分|0.93630.08|0.982图11.使用128个波瓣与128个波瓣的球面高斯近似环境照明拆分和。训练集由256个路径跟踪图像组成，其中使用高分辨率HDR探头对环境照明进行蒙特卡罗我们假设已知的几何形状和优化材料和照明使用相同的设置为两种方法。报告的图像度量是测试集中16个（新）视图的算术平均值注意，分和近似能够捕获高频照明。[67]第67话假设，不优化相机姿势，以及训练期间的高计算资源和内存消耗。除了所有场景重建方法都常见的deepfakes之外，我们不知道也不预见我们方法的邪恶用例。总之，我们展示了与视图合成和材料分解的最新技术水平相当的结果，同时直接优化了显式表示：带有材质和环境照明的三角形网格。通过设计，我们的表现与现代3D引擎和建模工具直接兼容我们执行端到端的优化驱动的渲染模型的外观，而以前的工作往往回避错误的网格提取通过Marching立方体。我们的方法可以应用于PLIED作为一个外观感知转换器从（神经）体积或SDF表示三角形3D模型的材料，补充了许多最近的技术。金属塑料8288引用[1] Sameer Agarwal、Yasutaka Furukawa、Noah Snavely、Ian Si-mon 、 Brian Curless 、 Steven M Seitz 和 RichardSzeliski。罗马在一天之内建成Communications of theACM，54（10）：105-112，2011. 2[2] Sai Bi ， Zexiang Xu ， Pratul Srinivasan ， Ben Milden-hall，Kalyan Sunkavalli，Milos Havas Rupan，YannickHold-Geoffroy ，DavidKriegman ， andRaviRamamoorthi.用于外观采集的神经反射场。arXiv：2008.03824，2020。2[3] 作者： Mark Boss，Raphael Braun， Varun Jampani，Jonathan T.刘策，刘伯龙，刘伯龙.伦施神经反射分解从图像收集。 IEEEInternational Conference on ComputerVision（ICCV），2021年。一、二、五、六、七[4] Mark Boss，Varun Jampani，Raphael Braun，Ce Liu，Jonathan T. Barron和Hendrik P.A.伦施Neural-PIL：用于反射分解的神经预集成照明。神经信息处理系统进展（NeurIPS），2021年。2[5] Mark Boss ， Varun Jampani ， Kihwan Kim ， HendrikLensch，and Jan Kautz.两次空间变化BRDF和形状估计。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的论文集中，第3982- 3991页2[6] 布伦特·伯利。迪士尼的物理阴影在SIG- GRAPH课程中：电影和游戏制作中的实用物理着色，2012年。4[7] Wenzheng Chen，Jun Gao，Huan Ling，Edward Smith，Jaakko Lehtinen，Alec Jacobson，and Sanja Fidler. 学习使用基于插值的差分渲染器预测3D对象。神经信息处理系统进展，2019年。二、五[8] 陈文正、 Joey Litalien 、 Jun Gao 、 Zonan Wang 、Clement Fuji Tsang、Sameh Khalis、Or Litany和SanjaFidler。DIB-R++：学习使用混合微分渲染器预测照明和材料。神经信息处理系统进展（NeurIPS），2021年。2[9] R. L.库克和K. E.托兰斯反射率模型计算机图形学。ACM Transactions on Graphics，1（1）：7-24，1982. 5[10] Jeremy S De Bonet和Paul Viola。Poxels：可能的体素化体积重建。计算机视觉国际会议论文集（ICCV），1999. 2[11] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。IEEE Transactions on pattern analysis and machineintelligence，32（8）：1362-1376，2009. 2[12] 加利亚尼，拉辛格，辛德勒。Gipuma：大规模并行多视图立体重建。PublikationenderDeuts c henGesells chaftfur ？rPho-togrammetrie ， FernerkundungundGeoinformation e. V，25（361-369）：2，2016年。2[13] 段高、小李、岳冬、彼得·皮尔斯、昆旭、辛桐。深度逆渲染用于任意数量的图像的高分辨率SVBRDF估计。ACM Transactions on Graphics，38（4），2019。2[14] Jun Gao，Wenzheng Chen，Tommy Xiang，Clement FujiTsang ， Alec Jacobson ， Morgan McGuire ， and SanjaFidler.学习可变形四面体网格的三维重建。在神经信息处理系统的进展，2020。2[15] Stephan J Garbin，Marek Kowalski，Matthew Johnson，Jamie Shotton，and Julien Valentin.FastNeRF：200FPS的高保真神经arXiv：2103.10380，2021。2[16] 安德鲁·加德纳，克里斯·周，蒂姆·霍金斯，保罗·德贝维克。线性光源反射法。 ACM Transactions onGraphics，22（3）：749-758，2003年。2[17] Abhijeet Ghosh，Tongbo Chen，Pieter Peers，Cyrus A.威尔逊和保罗·德贝维克。从二阶球面梯度照明估计镜面反射粗糙度和各向异性Computer Graphics Forum，28（4）：1161-1170，2009. 2[18] D.瓜内拉湾C. Guarnera、A.戈什角，澳-地Denk和M.格伦罗斯BRDF代表和采集。在第37届欧洲计算机图形协会年会的开幕式上：最新技术水平报告，第625-650页，2016年。2[19] Yu Guo ， Cameron Smith ， Milosˇ Hasˇan ， KalyanSunkavalli，and Shuang Zhao.材料GAN：反射捕获使用生成SVBRDF模型。ACM Transactions on Graphics，39（6），2020. 2[20] M. Haindl 和 J. 菲利普视觉纹理。 Springer-Verlag ，2013。2[21] 安德鲁·斯文伯格·汉密尔顿。摄影测量在Embark，2021。https://medium.com/embarkstudios/photog

下载后可阅读完整内容，剩余1页未读，立即下载