基于PlenOctrees的实时神经辐射场绘制

106 浏览量更新于2023-10-13 收藏 3.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5752×基于PlenOctrees的神经辐射场实时绘制于晓宇1李瑞龙1，2谭修1李浩1，3 黄仁1金泽昂珠11UC Berkeley2 USC Institute for Creative Technologies3 Pinscreen摘要我们介绍了一种方法来实时渲染神经辐射我们的方法可以以超过150 FPS的速度渲染800 - 800幅图像，比传统的NeRFs快3000倍以上。我们这样做，而不牺牲质量，同时保留的能力NeRFs执行自由视点渲染的场景与任意几何形状和视图相关的效果。实时性能是通过将NeRF预先制表到PlenOctree中来实现的。为了保留诸如镜面反射的视角相关效应，我们通过封闭形式的球面基函数来分解具体地说，我们表明，它是可能的训练NeRF预测的球谐表示的辐射，重新移动的观看方向作为输入的神经网络。此外，我们表明，PlenOctrees可以直接优化，以进一步最小化重建损失，这导致相等或更好的质量相比，计算方法。此外，这个八叉树优化步骤可以用来减少训练时间，因为我们不再需要等待NeRF训练完全收敛。我们的实时神经渲染方法可能潜在地支持新的应用，例如6-DOF工业和产品可视化，以及下一代 AR/VR 系统。PlenOctrees也可以在浏览器中渲染;请访问项目页面以获得交互式在线演示以及视频和代码： https ：//alexyu. net/plenoctrees.1. 介绍尽管实时图形取得了进步，但由于优化的3D资产和专用着色器的必要性，具有真正照片级真实感场景和对象的交互式3D内容的产生仍然是耗时且昂贵的。相反，许多图形应用选择基于图像的解决方案。电子商务网站通常使用一组固定的视图来展示其产品; VR体验往往依赖360图1：使用PlenOctrees的实时NeRF。给定一组构成的图像的场景，我们的方法创建一个三维体积模型，可以在实时渲染我们提出了PlenOctrees，这是八叉树，可以捕获视图相关的依赖性的影响，如镜面反射。使用我们的方法进行渲染比NeRF快几个数量级。视频录制以避免真实3D场景的昂贵制作，并且诸如Google街景的地图服务将图像拼接成限于3-DOF的全景视图。神经渲染的最新进展，例如神经体积[23]和神经辐射场（NeRF）[28]，开辟了一条有前途的新途径，可以从一组校准图像中对任意对象和NeRF尤其可以从任何视图以非朗伯效应忠实地渲染详细场景和外观，同时在存储方面提供高度压缩。部分由于这些令人兴奋的特性，最近，基于NeRF的研究出现了爆炸式增长。然而，对于实际应用，运行时性能仍然是NeRF的关键限制：由于极端的采样要求和昂贵的神经网络查询，渲染NeRF是令人痛苦的缓慢。对于illustration，渲染800x800图像大约需要30秒离线模型生成输入图像NeRF-SHPlenOctree实时渲染PlenOctrees演示150 FPS5753图像从NeRF使用高性能GPU，使其不切实际的实时交互式应用程序。在这项工作中，我们提出了一种实时渲染NeRF的方法我们的方法保留NeRF事实上，我们的方法实现了并且在许多情况下超过了原始NeRF制剂的质量，同时提供了显著的加速。我们的模型允许我们渲染一个800x800的图像167.68 FPS，在测试期间不依赖深度神经网络。此外，我们的代表是服从现代网络技术，允许在消费者笔记本电脑上的浏览器中进行交互式渲染Naive NeRF渲染很慢，因为它需要密集的场景的采样，其中每个样本都需要神经网络推理。因为这些查询依赖于观看方向以及空间位置，所以不能天真地缓存所有观看方向的这些颜色值。我们克服了这些挑战，并通过将NeRF预采样到我们称为PlenOc树的列表视图相关体积中来实现实时渲染，该PlenOc树以Adelsen和Bergen的全光函数命名[1]。具体来说，我们使用一个稀疏的基于体素的oc树，树的每一个叶子存储的外观和密度值所需的建模在体积中的一个点的辐射。为了说明非朗伯材料，表现出视图相关的效果，我们建议表示的RGB值在一个位置与球面谐波（SH），一个标准的基础上定义的功能的表面上的球体。球面谐波可以在任意查询查看方向上进行评估，以恢复视图相关颜色。虽然人们可以将现有的NeRF转换成这样的表示通过投影到SH基函数，我们表明，我们实际上可以修改NeRF网络来预测外观明确的球谐函数。具体来说，我们训练了一个网络，该网络为SH函数而不是原始RGB值生成系数，以便预测值稍后可以直接存储在PlenOctree的叶子中。我们还在NeRF训练过程中引入了稀疏先验，以提高八叉树的内存效率，从而使我们能够渲染更高质量的图像。此外，一旦创建了结构，就可以优化PlenOctree中存储的值，因为渲染过程保持可区分。这使得PlenOctree能够获得与NeRF相似或更好的图像质量。我们的管道如图所示。二、此外，我们还演示了我们提出的管道如何用于加速NeRF模型训练，使我们的解决方案比原始NeRF方法更实用。具体来说，我们可以停止训练NeRF模型因此，可以尽早将其转换为PlenOctree，然后可以显著更快地训练PlenOctree，因为它不再涉及任何神经网络。实验结果表明，该方法可以在不损失图像质量的情况下，将基于NeRF的渲染速度提高5个数量级。我们比较我们的方法在标准的基准与场景和物体捕获从360◦视图，并展示了最先进的图像质量和渲染速度水平的性能。我们的交互式查看器可以使操作，如对象插入，可视化辐射分布，分解的SH组件，和切片的场景。我们希望这些实时操作对社区可视化和调试基于NeRF的表示有用。总而言之，我们做出了以下贡献：• 第一种方法实现了具有相似或改进质量的NeRF的实时渲染。• NeRF-SH：一种经过修改的NeRF，它被训练为根据球形基函数输出外观。• PlenOctree，一种源自NeRF的数据结构，能够高效地渲染复杂场景的视图相关• 加速NeRF训练方法使用早期训练终止，然后对PlenOctree值进行直接微调。2. 相关工作新视图合成。合成给定一组照片的场景的新颖视图的任务是用各种方法充分研究的问题。所有方法预测允许从新颖视点渲染的底层几何或基于图像的3D表示。基于网格的方法用表面表示场景，并且已经用于对朗伯（漫射）[54]和非朗伯场景[58，5，3]进行建模。基于网格的表示是紧凑且易于渲染的;然而，优化网格以适应任意拓扑的复杂场景是具有挑战性的。另一方面，基于图像的渲染方法[18，41，58]能够实现简单的捕获以及照片般逼真和快速渲染，然而，通常在视角中受限并且不允许对底层场景进行简单编辑。体绘制是一种经典的技术，在图形界有着悠久的研究历史[7]。基于体积的表示，诸如体素网格[40，17，23，13，15，16，17]。53，42]和多平面图像（MPI）[47，33，62，46，27]是网格表示的流行替代方案，因为它们具有无拓扑性质：因此，基于梯度的优化是直接的，而渲染仍然可以是实时的。然而，这种朴素的体积表示通常是不可能的。5754颜色球谐函数密度∼(a) NeRF-SH训练（b）转换为PlenOctree微调密集样品NeRF-SHPlenOctree图2：方法概述。我们提出了一种快速渲染NeRFs的方法，通过训练修改后的NeRF模型（NeRF-SH）并将其转换为PlenOctree，一种捕获视图相关效果的八叉树。a）NeRF-SH模型使用NeRF [28]中提出的相同优化程序和体绘制方法。然而，代替直接预测RGB颜色c，网络预测球谐系数k。通过对在对应的光线方向（θ，θ）处评估的加权球谐基求和来计算颜色c。球谐函数使表示能够对视图相关外观进行建模。橙色框中的值b）为了构建PlenOctree，我们在目标对象周围的体积中对NeRF-SH模型进行密集采样，并将密度和SH系数制成表格。我们可以直接使用训练图像进一步优化PlenOctree，以提高其质量。内存限制，限制了可以捕获的最大分辨率。体八叉树是用于在这种情况下减少存储器和计算的流行方法。我们建议读者参考本调查[16]，以了解关于oc树体绘制的历史观点。在最近的工作中，八叉树已被用于减少其他3D任务训练期间的内存需求[37，11，50，55]。与此同时，NeX [57]扩展了MPI来编码球面基函数，从而实现实时的视图相关渲染效果。同时，Lombardi etal.[24]建议使用几何图元对数据进行建模，并且[12，9，36]还提取NeRF以实现实时渲染。基于坐标神经网络.最近，基于坐标的神经网络已经成为显式体积表示的流行替代方案，因为它们不限于固定的体素表示。这些方法训练多层感知器（MLP），其输入是坐标，输出是对应于该位置的空间的一些属性。这些网络已被用于预测占用率[26，4，32，38，29，19]，符号距离场[30，10，59，60]和辐射率[28]。基于坐标的神经网络已用于场景表示网络[43]，NeRF [28]和许多NeRF扩展[25，31，39，45]中的视图合成。这些网络代表了一个连续函数，可以以任意精细的分辨率进行采样，而不会增加内存占用。不幸的是，这种紧凑性是以牺牲计算效率为代价的，因为每个样本必须由神经网络处理。因此，这些表示对于实时渲染来说通常是缓慢且不切实际的。NeRF加速。虽然NeRF能够产生高质量的结果，但它们的计算昂贵的渲染导致缓慢的训练和推理。一种速度将NeRF拟合到新场景的过程是并入从类似场景的数据集学习的先验这可以通过调节预测的图像特征[51，61，56]或元学习[49]来实现。为了提高推断速度，神经稀疏体素场（NSVF）[22]学习输入到NeRF类模型中的特征的稀疏体素网格。稀疏体素网格允许渲染器在跟踪光线时跳过空白区域，从而将渲染时间提高10倍。分解辐射场[35]将场景分解为多个较小的网络。AutoInt [21]修改了NeRF的架构，使得推理需要更少的样本，但产生更低的质量结果。这些方法都没有实现实时。同时进行的工作DoNeRF为NeRF添加了一个深度分类器，以大幅提高采样效率，但需要地面实况深度进行训练。虽然不是基于NeRF，最近Takikawaet al.[48]提出了一种用八叉树加速神经SDF渲染方法。请注意，此工作不对外观属性进行建模。相比之下，我们采用的体积表示，可以捕捉逼真的视图相关的外观，同时实现更高的帧速率。3. 预赛3.1.神经辐射场神经辐射场（NeRF）[28]是可以从任意新颖视点渲染的3D表示，同时捕获连续几何形状和视图相关外观。辐射场被编码到多层感知器（MLP）的权重中，该多层感知器可以在从观察方向d=（θ，θ）的位置x=（x，y，z），以恢复对应的密度σ和颜色σ。c=（r，g，b）. 计算像素5755Σ。ΣRℓ∈ℓ×2›→−ℓ：0≤通过将射线R投射到体积中并基于沿射线的密度累积颜色。NeRF通过沿射线取N个点样本来估计累积颜色以执行体绘制：N−1C（r）= Ti1−exp（−σiδi）ci，（1）i=0时微调训练图像上的八叉树，以进一步提高图像质量，请参见图。2，以获得我们的管道的图形说明。转换过程利用NeRF的连续性质来动态地获得八叉树的空间结构。我们表明，即使有部分训练的NeRF，我们的PlenOctree也能够产生具有竞争力受过全面训练的NeRF哪里Ti=exp−i−1j=0σjδj(2)4.1. NeRF-SH：具有球谐函数的自同构一直是一种流行的低维表示方法其中δi是点样本之间的距离。为了训练NeRF网络，预测一批颜色的颜色使用Adam [14]优化与训练图像中的像素相对应的光线，以匹配目标像素颜色：用于球面函数，并已用于建模Lambertian表面[34，2]或甚至光滑表面[44]。在这里，我们探讨它的使用在体积的上下文中。具体地，我们调整NeRF网络f以输出球谐系数k，而不是RGB值。LRGB=Σ¨C（r）−C¨（r）¨2（3）r∈Rf（x）=（k，σ）其中k=（km）m：−≤m≤（4）为了更好地表示场景中的高频细节，对输入进行位置编码，并执行两个阶段的采样，一个粗略，一个精细。我们建议感兴趣的读者参考NeRF论文[28]的详细信息。每kmR3是一组3个系数，对应于RGB组件。在该设置中，可以通过在期望的视角d处查询SH函数Ym：S2→R来确定点X处的视点相关颜色c：c（d;k）=S. ΣmaxΣkmYm（d）Σ（五）局限性。这个建筑的一个显著后果-实际上，沿着射线的每个样本必须被馈送到MLP以获得相应的σi和ci。在NeRF中呈现的示例中，针对每条射线总共采集了192个样本。这是低效的，因为大多数样本对自由空间进行采样，而自由空间对集成颜色没有贡献。要以800 - 800的分辨率渲染单个目标图像，网络必须在超过1亿个输入上运行。因此，使用NVIDIAV100 GPU渲染单个帧需要大约30秒，这对于实时应用来说是不切实际的我们使用稀疏体素八叉树避免了在没有内容的区域中的过多计算。此外，我们预先计算每个体素的值，以便在推断期间不执行网络查询。4. 方法我们提出了一个流水线，使实时渲染的NeRFs。给定一个经过训练的 NeRF ，我们可以将其转换为PlenOctree，这是一种高效的数据结构，能够表示场景中的非朗伯效果具体来说，它是一个八叉树，它在叶子上存储球谐（SH）系数，编码视图相关的辐射。为了使到PlenOctree的转换更直接，我们还提出了NeRF-SH，这是NeRF网络的一个变体，它直接输出SH系数，从而消除了对网络的视图方向输入的需要。利用这种改变，然后可以通过在均匀网格上进行评估然后进行阈值处理来执行转换。我们ℓ ℓ=0m=−其中S：x（1+exp（x））−1是用于归一化颜色的sigmoid函数。换句话说，我们分解具有SH基的视图相关外观，消除了输入到网络的视图方向，并且消除了在转换时对视图方向进行采样的需要。请参阅附录中有关SH的更多技术讨论。通过对网络的一次评估，我们现在可以在推理时从任意视角有效地查询颜色在图7中，可以看到NeRF-SH训练速度类似于NeRF，但略快于NeRF（约10%）。请注意，我们还可以通过在随机方向上对NeRF进行采样并乘以SH分量值以形成内积的Monte Carlo估计值来将训练的NeRF直接投影到每个点处的SH。然而，该采样过程花费几个小时来实现合理的质量，并且施加了大约2dB的质量损失1尽管如此，这种替代方法提供了一种将现有NeRF转换为PlenOctree的途径。除了SH之外，我们还使用球面高斯（SG）[8]进行了实验，这是一种可学习的球面基础，已用于表示全频照明[52，44，20]。我们发现SH在我们的用例中表现更好，并在阑尾中提供消融。1每个点有10000个视角方向样本，耗时约2小时，PSNR为29.21vs. 31.02对于我们的主要方法在优化之前。Σℓ5756i=1Σk=1LL--合成NeRF数据集最佳次佳Tanks and Temples数据集最佳次佳PSNR ↑SSIM ↑LPIPS↓FPS↑PSNR ↑SSIM ↑LPIPS↓FPS↑NeRF（original）31.01 0.947 0.0810.023NeRF（original）25.78 0.864 0.1980.007NeRF31.690.9530.0680.045NeRF27.940.9040.1 6 8 个单位0.013SRN22.260.8460.1700.909SRN24.10 0.847 0.2510.250神经体积26.050.8930.160三千三百三十神经体积23.70 0.834 0.260一千块NSVF三十一点七五0.953零点四七0.815NSVF二十八点四十0.9000.1530.163AutoInt（8节）25.55 0.9110.380NeRF-SH27 82 0.902 0.1670.015NeRF-SH31.57 0.952 0.0630.051来自NeRF-SH的27.34 0.897 0.17042.22微调后来自NeRF-SHPlenOctree的PlenOctree31.02三十一点七一0.9510.9580.0660.053167.68167.68微调后的PlenOctree27.990.9170.131四十二点二二表1：NeRF合成测试场景的定量结果。我们的方法是显着快于所有现有的方法dur- ING推理，同时执行与NSVF，目前国家的最先进的图像质量的方法。我们注意到，NeRF-SH，即经过训练以输出SH的修改后的NeRF模型，与基线NeRF模型的表现类似。NeRF-SH到PlenOctree的八叉树转换（无微调）对图像质量度量产生负面影响。这通过附加的微调步骤来补救。无稀疏性损失有稀疏性损失表2：关于罐和寺庙测试场景的定量结果。我们发现，我们的微调PlenOctree模型是显着比现有的方法更快，同时在图像指标方面表现相当。注意这里的图像是1920×1080与合成数据集中的800×800相比。4.2. PlenOctree：基于八叉树的辐射场一旦我们训练了NeRF-SH模型，我们就可以将其转换为稀疏八叉树表示以进行实时渲染。PlenOctree存储密度和SH系数，模拟每个叶处的视图相关外观。我们在下面描述转换和渲染过程。渲染。为了渲染PlenOctree，对于每条射线，我们首先确定八叉树结构中的射线-体素交叉点。这将在体素边界之间产生一系列长度{δi}N . NeRF图3：稀疏性损失和转换鲁棒性。当在没有稀疏性损失的情况下训练时，NeRF通常可以收敛到未观察到的部分或背景是固体的解决方案。这降低了我们基于八叉树表示的空间分辨率。稀疏先验。在没有任何正则化的情况下，模型可以在未观察到的区域自由生成任意几何形状。虽然这不会直接恶化图像质量，但它会对我们的转换过程产生不利影响，因为额外的几何形状占据了大量的体素空间。为了解决这个问题，我们在NeRF训练期间引入了额外的稀疏性先验。直观地说，这种先验鼓励NeRF在空间和纯色都是可能的解决方案时选择空的空间从形式上讲，K用于为光线指定颜色。这种方法允许在一个步骤中跳过大的体素，同时也不会错过小的体素。在测试时，我们通过在光线具有小于γ = 0的累积透射率Ti时应用早期停止来进一步加速该渲染过程。01.从NeRF-SH转换。转换过程可分为三个步骤。在高层次上，我们评估网格上的网络，只保留密度值，然后通过阈值过滤体素。最后，我们在每个剩余的体素内采样随机点，并将其平均以获得SH系数以存储在八叉树叶子中。详情如下：评价我们首先评估NeRF-SH模型以在均匀间隔的3D网格上获得σ网格将自动缩放以紧密适应场景内容。2过滤。接下来，我们对这个网格进行过滤，得到一个稀疏集1L稀疏度=K|（六）|(6)k=1以足以表示场景的网格点为中心的体素具体来说，我们使用这个体素网格为所有训练视图渲染alpha贴图，同时跟踪这里，σkK是边界框内K个均匀随机点处的评估密度值，并且λ是超参数。最终的训练损失是β稀疏稀疏+RGB，其中β稀疏是一个超参数。图3示出了现有技术的效果。5757- -每个体素处的最大射线权重1 exp（σiδi）。然后，我们消除权重低于阈值τw的体素。八叉树被构造成包含重2通过在更大的网格上预先评估σ并找到σ≥ τa的所有点的边界框。5758×Ground Truth NeRF图4：NeRF合成定性结果。随机抽样的定性比较NeRF和我们提出的方法的重新实现。我们无法找到任何显着的图像质量差异之间的两种方法。尽管如此，我们的方法可以使这些示例图像的渲染速度提高3500倍以上将体素保持为最深层处的叶子，而在其它地方为空。与通过σ进行的单纯阈值化相比0.1 1 10 100图5：各种方法的质量与速度比较。 NeRF合成数据集上的方法比较，其中最期望较高的PSNR和较低的FPS（右上）。我们包括PlenOctree模型的四个变体，它们调整了转换过程的部分，以权衡速度的准确性。关于这些变体的描述，请参见表3（相邻）。注意，时间轴是对数的。在每个点处，该方法消除了不可见的体素。取样. 最后，我们在每个剩余体素中采样一组256个随机点，并将八叉树的相关叶设置为这些值的平均值每个叶现在包含密度σ和RGB颜色通道中的每个的球谐系数整个提取过程大约需要15分钟。34.3. PlenOctree优化由于该体绘制过程相对于树值是完全可微分的，因此我们可以使用具有SGD的NeRF损失（3注意，树结构被固定为在该过程中从 NeRF 获得的树结构。PlenOctree优化以每秒约300万条光线运行，而NeRF训练约为9000条，这使我们能够在相对较短的时间内优化许多时期该过程的分析导数在自定义CUDA内核中实现我们将技术细节推迟到附录中。快速八叉树优化间接地允许我们加速NeRF训练，如图所示。7，因为我们可以在更早的时间停止NeRF-SH训练以构建PlenOctree，质量只有轻微的下降。5. 结果5.1. 实验装置数据集。对于我们的实验，我们使用NeRF-合成[28]数据集和Tanks和Tem的子集。3请注意，采样8个点而不是256个点允许在大约1. 5分钟，质量损失最小。表3：NeRF-合成上的PlenOctree转换消融。示出了用于构建PlenOctree的几种不同方法的NeRF合成场景的平均度量我们的-1.9G：这是我们在表1中报告的高质量模型。Ours-1.4G：这是一个具有更高权重阈值的变体，因此可以对树进行更稀疏的处理。Ours-0.4G：在这里，我们删除了自动边界框缩放步骤，而是使用固定的大边界框，限制分辨率。Ours-0.3G：使用2563网格而不是5123的版本。ples数据集[15]。NeRF合成数据集由8个场景组成，其中每个场景具有中心对象，其中100个面向内的相机随机分布在上半球上。图像是800 800，具有提供的地面实况相机姿态。坦克和寺庙子集来自NSVF [22]，包含5个由环绕场景的面向内的相机捕获的真实物体的场景。我们使用NSVF作者提供的前景遮罩。每个场景包含152-384个图像，尺寸1920×1080。基线。我们实验的主要基线是NeRF [28];我们报告了原始NeRF实现（表示为NeRF（原始））以及Jax [6]中的改进（简称为NeRF）的结果，我们的NeRF-SH代码基于此。除非另有说明，所有NeRF结果和计时均来自后者的实现。我们NeRFNSVFOurs-1.9GOurs-1.4GOurs-0.4GOurs-0.3GAutoInt-24AutoInt-16AutoInt8神经体积SRN模型描述GB↓PSNR↑FPS↑Ours-1.9G完整型号如表1所示1.9331.71168Ours-1.4G较高阈值τw= 0。011.3631.64215Ours-0.4G不带自动Bbox缩放0.4430.70329Ours-0.3G网格大小2560.3029.604105759地面实况NeRF我们的地面实况NeRF我们的图6：坦克和寺庙的定性比较。我们比较NeRF和我们提出的方法。在这个数据集上，我们发现我们的方法更好地恢复了场景中的细节。结果在其他方面是相似的。此外，我们的方法的渲染时间超过3000倍。位置。我们还比较了最近的两篇论文，介绍了NeRF加速度，神经稀疏体素场（NSVF）[22]和AutoInt [21]，以及两种较旧的方法，场景表示网络（SRN）[43]和神经卷[23]。5.2. 质量评价我们评估了我们的方法对先前的工作的合成和真实的数据集上面提到的。结果分别在表1和表2中。请注意，没有一个基线达到实时性能;尽管如此，我们的质量结果在所有情况下都具有竞争力，并且在某些指标方面更好。在图4和图6中，我们示出了定性示例，其证明与NeRF相比，我们的PlenOctree转换不会在感知上恶化渲染的图像;相反，我们观察到PlenOctree优化过程增强了文本等细节。此外，我们注意到，我们对NeRF的修改以预测球面函数系数（NeRF-SH）不会显著改变性能。对于SH，我们分别在合成和Tanks Temples数据集上设置max=3（16个分量）和4（25个分量）我们在两种情况下都使用5123网格大小有关培训详情，请在TeslaV100上测量所有方法的推理时间性能。在这两个数据集上，我们发现PlenOctree推理比NeRF快3000倍以上，比所有其他比较方法快至少30倍PlenOctree执行either最好的，或第二个最好的所有图像质量指标。5.3. 速度权衡分析用于PlenOctree转换和渲染的多个参数可以被调谐以在速度和图像质量之间进行权衡。在图5和表3中，我们比较了PlenOctree的四种变体的图像精度和推理时间that sweep扫this trade-off权衡.5.4. NeRF训练由于我们可以在原始训练数据上有效地微调八叉树，如§4.3中简要讨论的，我们可以选择在将NeRF-SH训练转换为PlenOctree之前提前停止它。事实上，我们已经发现，在微调期间获得的图像质量改进通常可以大于继续训练NeRF-SH等量的时间。因此，在NeRF-SH训练已经收敛并过渡到PlenOctree转换和微调之前停止NeRF-SH训练可以是更有时间效率的。在图7中，我们比较了NeRF和NeRF-SH mod.每个元素被训练200万次迭代到从NeRF-SH检查点提取的PlenOctree模型序列。我们发现，在给定时间限制的情况下，停止NeRF训练并过渡到PlenOctree优化几乎总是可取的。5.5. 实时和浏览器内应用程序互动演示。在我们的桌面查看器中，我们能够对PlenOctree表示执行各种实时场景操作。例如，可以在保持适当遮挡的同时插入网格，切片PlenOctree以可视化横截面，或渲染深度图以验证几何形状。其他功能包括探测在空间中的任何点的辐射分布，并检查-INGSH组件的子集这些示例在图9中示出。实时执行这些操作的能力对于交互式娱乐和调试NeRF相关应用程序都是有益的Web渲染器。我们已经实现了一个基于Web的渲染器，可以在浏览器中交互式查看PlenOctrees。这是通过重写我们的CUDA来实现的5760e）第零SH分量f）较高SH组分2928272625a) 对象插入d）深度240 10 20 30 40 50 60培训时间（小时）图7：间接训练加速。用于拟合合成NeRF船舶场景的训练曲线，迭代次数为200万次。基线NeRF模型和我们的NeRF-SH模型在训练过程中表现相似。我们发现，通过优化从NeRF-SH检查点转换的PlenOctree，我们能够更快地达到类似的质量。PlenOctree转换和微调增加约1小时的训练时间;尽管如此，我们发现需要大约16小时的NeRF训练才能在大约4.5小时后与PlenOctree模型匹配相同的质量。图8：进一步真实场景的定性结果。我们将FastNeRF应用于NeRF-360-real和LLFF数据集。虽然我们的方法不是为无界或面向前方的场景（其中MPI可能更合适）而设计的，但它的表现相当不错。注意，对于面向前的场景，我们在NDC坐标中构造八叉树。基于PlenOctree的渲染器作为WebGL兼容的碎片着色器，并应用压缩来减小文件大小。更多信息请参见附录。6. 讨论我们已经引入了一种新的数据表示 NeRFs 使用PlenOctrees，它使实时渲染能力，任意对象和场景。我们不仅可以将原始NeRF方法的渲染性能加速3000倍以上，而且由于我们的分层数据结构，我们可以产生与NeRF相同或质量更好的由于训练时间对在实践中采用NeRFs构成了另一个障碍（需要1-2天才能完全收敛），我们还表明我们的PlenOctree可以加快NeRF-SH的有效训练时间最后，我们已经实现了一个浏览器查看器的基础上，我们- bGL展示实时和6-DOF渲染能力的NeRFs的消费者笔记本电脑。未来我们的图9：实时交互演示。一组实时操作，可以在我们的交互式查看器中的PlenOctree上执行。此应用程序将向公众发布。这种方法可以实现VR中的虚拟在线商店，其中具有任意复杂性和材料的任何产品都可以实时可视化，同时实现6-DOF观看。局限性和未来的工作。虽然我们实现了最先进的渲染性能和帧速率，但八叉树表示比原始NeRF模型的紧凑表示大得多，并且具有更大的存储器占用空间。完整模型的平均未压缩八叉树大小在合成数据集上为1.93GB，在坦克和寺庙数据集上为3.53 GB。对于在线交付，我们使用约30-120 MB的低分辨率压缩模型;详情请参阅附录。尽管已经有可能以某种形式（图）。8），将我们的方法最佳地应用于无界和前向场景需要进一步的工作，因为数据分布对于无界场景是不同前向场景本质上不支持6-DOF观看，我们建议MPI在这种情况下可能更合适[57]。在未来，我们计划探索我们的方法的扩展，以实现实时6自由度沉浸式观看大规模场景，以及动态场景。我们相信NeRF的实时渲染有可能成为下一代AR/VR技术的新标准，因为逼真的3D内容可以像记录2D视频一样轻松数字化。NeRF-SHPlenOctreec）切片b）LumSphere可视化PSNR5761引用[1] Edward H Adelson，James R Bergen，等.全光功能和早期视力的要素，第2卷。视觉与模型组，媒体实验室，麻省理工学院，1991. 2[2] Ronen Basri和David W Jacobs。朗伯反射率和线性子空间。IEEE模式分析与机器智能学报，25（2）：218-233，2003。4[3] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。SIGGRAPH，第425-432页，2001年。2[4] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR，2019年。3[5] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中建模和渲染建筑：一种基于几何和图像的混合方法。在SIGGRAPH，第11-20页，1996中。2[6] 放大图片作者：Jonathan T. Barron和Pratul P. 斯里尼瓦桑JaxNeRF：NeRF的高效JAX实现，2020。6[7] Robert A Drebin，Loren Carpenter，Pat Hanrahan.体积渲染。ACM SIGGRAPH Computer Graphics，22（4）：65-74，1988. 2[8] 罗纳德·艾尔默·费舍尔。球面上的色散。伦敦皇家学会会刊。系列A. Mathematical and Physical Sciences，217（1130）：295-305，1953. 4[9] Stephan J. Garbin，Marek Kowalski，Matthew Johnson，Jamie Shotton，Julien Valentin. Fastnerf：200fps的高保真神经渲染。arXiv，2021。3[10] Amos Gropp、Lior Yariv、Niv Haim、Matan Atzmon和Yaron Lipman 。用于学习形状的隐式几何正则化ICML，2020年。3[11] ChristianH¨ ne，ShubhamTulsiani，andJitendraMalik. 三维物体重建中的高分辨率在 3DV ，第 412-420 页中。IEEE，2017年。3[12] Peter Hedman，Pratul P.放大图片创作者：Jonathan T.Barron和Paul Debevec。烘焙神经辐射场用于实时视图合成。arXiv，2021。3[13] Abhish e kKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。NIPS，2017年。2[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。4[15] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准。ACM Transactions on Graphics（ToG），36（4）：1-13，2017。6[16] 亚伦·诺尔八叉树体绘制方法综述。GI，theGesellsc haftfur¨rInformatik，page 87，2006.3[17] Kiriakos N Kutulakos和Steven M Seitz。空间雕刻造型理论IJCV，38（3）：199-218，2000. 2[18] Marc Levoy和Pat Hanrahan。光场渲染。在SIGGRAPH，第31-42页，1996年。2[19] Ruilong Li ， Yuliang Xiu ， Shunsuke Saito ， ZengHuang，Kyle Olszewski，and Hao Li.单目实时体积性能捕获。在ECCV中，第49-67页。Springer，2020年。35762[20] Zhengqin Li，Mohammad Shafiei，Ravi Ramamoorthi，Kalyan Sunkavalli，and Manmohan Chandraker.复杂室内场景的逆渲染：形状，空间变化的照明和svbrdf从一个单一的图像。在CVPR中，第2475-2484页，2020年。4[21] David B Lindell，Julien NP Martel，Gordon Wetzstein.Autoint：自动集成快速神经体积渲染。在CVPR，2021年。三、七[22] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua，and Christian Theobalt.神经稀疏体素场。神经IPS，2020年。三六七[23] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz、Andreas Lehrmann和Yaser Sheikh。神经体积：从图像中学习动态可渲染体积。ACMTransactions on Graphics（TOG），38（4）：65：1-65：14，2019。一、二、七[24] Stephen Lombardi、Tomas Simon、Gabriel Schwartz、Michael Zollhoefer、Yaser Sheikh和Jason Saragih。混合体基元以实现高效的神经渲染。在SIGGRAPH，2021年。3[25] 放大图片作者：Noha Radwan，Mehdi S.M. 作者：Jonathan T.巴伦，阿列克谢·多索维斯基，丹尼尔·达克沃斯. NeRF在野外：无约束照片采集的神经辐射场。在CVPR，2021年。3[26] LarsMescheder，MichaelOechsle，MichaelNiemeyer ， Se-bastianNowozin ， andAndreasGeiger.Occupancy networks：Learning 3d reconstructionin function space.在CVPR，2019年。3[27] Ben Mildenhall ， Pratul P Srinivasan ， Rodrigo Ortiz-Cayon，Nima Khademi Kalantari，Ravi Ramamoorthi，Ren Ng，and Abhishek Kar.局部光场融合：实用的视图合成与规

下载后可阅读完整内容，剩余1页未读，立即下载