直接体素网格优化：快速收敛算法

55 浏览量更新于2023-10-25 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5459直接体素网格优化：辐射场重建的超快速收敛算法Cheng Sun郑孙1， 2chengsun@gapp.nthu.edu.twMin Sun1， 3sunmin@ee.nthu.edu.twHwann-Tzong Chen陈焕宗1， 4htchen@cs.nthu.edu.tw摘要我们提出了一种超快速收敛的方法，从一组捕获具有已知姿态的场景该任务通常应用于新视图合成，最近被神经辐射场（NeRF）以其最先进的质量和灵活性进行了然而，NeRF及其变体需要很长的训练时间，单个场景需要数小时到数天相比之下，我们的方法实现了与NeRF相当的质量，并且使用单个GPU在不到 15分钟的时间内从零开始我们采用了一个表示- tation组成的密度体素网格的场景几何和一个特征体素网格与一个浅网络的复杂的视图相关的外观。用显式和离散体积表示建模并不新鲜，但我们提出了两种简单而又不平凡的技术，有助于快速收敛速度和高质量的输出。首先，我们介绍了激活后插值体素密度，这是能够产生尖锐的表面在较低的网格分辨率。第二，直接体素密度优化是很容易次优的几何解决方案，所以我们鲁棒的优化过程中施加几个先验。最后，对五个面向内部的基准测试的评估表明，我们的方法与NeRF的质量相匹配，如果不是超过代码：https：github.com/ sunset1995/DirectVoxGO.1. 介绍仅从作为输入的一组校准图像实现3D对象或场景的自由视点导航是一项迫切的任务。例如，与静态图像演示相比，它使在线产品展示能够提供身临其境的用户体验。最近，神经辐射场（NeRFs）[37]已经成为强大的代表，在这项任务上产生了最先进的质量。1国立清华大学2华硕AICS部门3人工智能技术和所有Vista医疗保健联合研究中心4风神机器人23.64 PSNR。32.72 PSNR。34.22 PSNR。我们的2.33分钟5.07分钟13.72分钟(a) 通过我们的方法在三个训练检查点合成的新视图(b) 不同方法在乐高场景下的训练曲线每种方法的训练时间都是在我们的机器上使用单个NVIDIA RTX 2080 Ti GPU测量的图1. 超快速收敛我们的方法。我们的加速的关键是优化体密度建模在一个密集的体素网格直接。注意，我们的方法既不需要从任何训练的隐式模型（例如，NeRF）也不是跨场景预训练，即，我们的体素网格表示直接且有效地从每个场景的零开始训练。尽管NeRF在表示场景方面是有效的，但众所周知，它受到了需要漫长训练时间和渲染新视图效率低下的阻碍。这使得NeRF对于许多应用场景不可行。几种后续方法[15，18，29，30，42，43，66]在测试阶段显示了FPS的显著加速，其中一些甚至实现了实时渲染。然而，只有少数方法显示出训练时间的加速，并且这些改进与我们的[1，10，31]不可比较，或者导致更差的质量[6，59]。在单个GPU机器上，通常需要对每个场景进行数小时的优化或一天的预训练。为了从一组图像重建体积场景表示，NeRF使用多层感知器（MLP）来隐式地学习从查询的3D点（具有观看方向）到其颜色和密度的映射。然后，可以通过体绘制技术将沿着相机射线的查询属性累积成像素颜色我们的工作灵感来自最近的成功[15，18，66]，它使用经典的体素网格来显式存储场景属性，5460−这使得能够进行实时渲染并显示出良好的质量。然而，他们的方法不能从头开始训练，并且需要从训练的隐式模型转换步骤，这导致训练时间的瓶颈。我们加速的关键是使用密集的体素网格直接建模的3D几何形状（体积密度）。开发- ING一个精心设计的策略，视相关的颜色是不是在本文的主要范围，我们只是使用混合表示（浅MLP的特征网格）的颜色。直接优化密度体素网格导致超快收敛，但易于得到次优解，其中我们的方法在自由空间处分配“云”，并尝试用云拟合光度损失，而不是搜索具有更好的我们对这个问题的解决方法简单而有效。首先，我们初始化密度体素网格，以产生非常接近零的不透明度无处不在，以避免几何解决方案偏向相机的近平面。第二，我们对较少视图可见的体素给出较低的学习率，这可以避免仅用于解释来自少量视图的观察的冗余体素我们表明，所提出的解决方案可以成功地避免次优的几何形状和工作良好的五个数据集。使用体素网格来建模体积密度仍然面临可扩展性方面的挑战。对于简约性，我们的方法自动找到一个BBox紧密包围感兴趣的体积来分配体素网格。此外，我们提出后激活-应用所有的激活函数后，三线性插值的密度体素网格。以前的工作要么内插体素网格激活的不透明度，或使用最近邻插值，这导致在每个网格单元中的平滑表面相反，我们证明了数学和经验，提出后激活可以建模（超越）一个尖锐的线性表面内的一个单一的网格单元。因此，我们可以使用较少的体素，以达到更好的质量-我们的方法与1603密集体素已经在大多数情况下都优于NeRF。总之，我们有两个主要的技术贡献。首先，我们实现了两个先验，以避免直接体素密度优化的次优其次，我们提出了后激活体素网格插值，这使得尖锐的边界建模在较低的网格分辨率。这项工作的主要优点突出如下：• 我们的收敛速度比NeRF快两个数量级，10 20小时到15分钟在我们的机器上与一个单一的NVIDIA RTX 2080 Ti GPU，如图所示1.一、• 我们实现了与NeRF相当的视觉质量，渲染速度大约快45倍• 我们的方法不需要跨场景预训练。• 我们的网格分辨率约为1603，而以前的工作[15，18，66]中的网格分辨率范围为5123到13003，以实现NeRF可比的质量。2. 相关工作新颖视图合成的表示。从新的视角合成一组捕捉场景的图像是一个长期的任务，有着丰富的研究。就是。以前的工作提出了几个场景表示重建的输入图像合成未观察到的观点。Lumigraph [4，16]和光场表示[7，23，24，46]通过插值输入图像直接合成分层深度图像[11，45，47，57]适用于稀疏输入视图，但依赖于牺牲质量的深度图或估计深度。基于网格的表示[8，54，58，63]可以实时运行，但在没有提供模板网格的情况下，很难进行基于梯度的优化最近的方法采用2D/3D卷积神经网络（CNN）来估计前向多平面图像（MPI）[12，26，36，51，56，71]捕获;估计面向内的捕获的体素网格[17，32，48]。我们的方法使用梯度下降来直接优化体素网格，而不依赖于神经网络来预测网格值，并且我们仍然比以前的工作[17，32，48]有很大的优势。神经辐射场。最近，NeRF [37]脱颖而出，成为一种快速进步的新型视图合成的流行方法与传统的显式和离散化体积表示（例如，体素网格和MPI），NeRF使用基于坐标的多层感知器（MLP）作为隐式和连续的体积表示。NeRF实现了吸引人的质量，并具有良好的灵活性，具有许多后续扩展到各种设置，例如，重新照明[2，3，50，70]，变形[13，38自校准[19，27，28，35，61]，元学习[52]，dy-动态场景建模[14，25，33，41，64]，和生成建模[5，22，44]。然而，NeRF具有冗长的训练进度和缓慢的渲染速度的不利限制。在这项工作中，我们主要遵循NeRF混合体积表示。为了将NeRF的隐式表示与传统的网格表示相结合，将基于坐标的MLP扩展为也以网格中的局部特征为条件。最近，混合体素[18，30]和MPI [62]表示在快速渲染速度和结果质量方面表现出了优势。我们使用混合表示模型的视图相关的颜色以及。快速NeRF渲染。NSVF [30]在其混合表示中使用八叉树，以避免在自由空间5461i=1.ΣY--观察象素渲染像素光度损失（等式。（三））积累（等式。（二）后活化（第二节）四、查询查询特征浅MLP3D位置+观察方向(a)体绘制（第二节）第(b)我们的场景表示（第二节）5.2）监督前科…训练观初始化查找紧bbox+跳过可用空间(c)粗几何搜索（第二节）5.1）新观点(d)精细细节重构（第二节）5.2）渲染监督图2. 方法概述。我们首先在Sec中回顾NeRF。3 .第三章。节中4，我们提出了一种新的后激活密度体素网格，以支持在较低的网格分辨率尖锐的表面建模。节中5，我们展示了我们的方法重建的辐射场与超快速收敛，其中我们首先找到一个粗糙的几何在第5。5.1，然后重建的细节和视图相关的影响，在第5.1节。五点二。空间然而，NSVF仍然需要许多培训时间，由于其表示中的深度MLP。最近的方法进一步使用数千个微小的MLP [43]或显式体积表示[15，18，62，66]来实现实时渲染。不幸的是，基于梯度的优化是不直接适用于他们的方法，由于他们的拓扑数据结构或缺乏先验。因此，这些方法[15，18，43，62，66]仍然需要从训练的隐式模型（例如，NeRF）到它们支持实时渲染的最终表示它们的训练时间仍然受到冗长的隐式模型优化的负担。快速NeRF收敛。最近的作品专注于更少的输入视图设置，也带来了更快的收敛作为一个附带好处。这些方法依赖于可推广的预训练[6，59，67]或外部MVS深度信息[10，31]，而我们的方法则不依赖。此外，他们还要求MLP（rgb）来学习c（参见NeRF++[68]以了解有关架构设计的更多在实践中，位置编码应用于x和d，这使得MLP能够从低维输入中学习高频细节[53]。对于输出激活，Sigmoid应用于c;ReLU或Softplus应用于σ（有关输出激活的更多讨论，请参见Mip-NeRF [1为了渲染pixelC（r）的颜色，我们投射光线r从相机中心通过像素;K点然后是在预定义的近平面和远平面之间的r上采样;然后使用K个有序采样点来查询它们的密度和颜色（σ i，ci）K（在NeRF中查询MLP）。最后，根据Max [34]给出的光学模型，将K个查询结果累积为具有体绘制正交的单色几个每个场景的微调小时[10]或无法在完整的输入视图设置中实现NeRF质量[6，59，67]。最重-C（r）=Ki=1 Ti aicii +TK+1cbg，（2a）目前，NeuRay [31]显示NeRF低分辨率设置中的每个场景训练时间在相同的GPU规格下，我们的方法实现了NeRF3. 预赛为了表示新视图合成的 3D 场景，神经辐射场（NeRFs）[37]采用多层感知器（MLP）网络将3D位置x和观看方向d映射到相应的密度σ和视图相关颜色发射c：（σ，e）= MLP（pos）（x），（1a）αi= alpha（σi，δi）= 1−exp（−σi δi），（2b）i−1Ti=（1 −αj），（2c）j=1其中，αi是在点i处终止的概率;Ti是从近平面到点i的累积透射率;δi是到相邻采样点的距离，并且cbg是预定义的背景颜色。给定具有已知姿势的训练图像，NeRF模型通过最小化观察到的像素颜色C（r）和渲染颜色C（r）之间的光度MSE来训练：1Σ¨ˆ¨c=MLP（rgb）（e，d），（1b）其中可学习的MLP参数被省略，以及eL照片=|R|25462r∈R-C（r）−C（r）-2、（3）是一种中间嵌入，其中R是采样的小批次中的射线的集合5463×≈.Σ×∈→...ΣΣΣ...ΣΣΣ图3. 具有后激活的单个网格单元能够建模尖锐的线性表面。左：我们描述了一个2D网格单元的玩具任务，其中网格单元针对其上的线性表面（决策边界）进行了优化。右：每列显示了三种不同方法的示例任务结果示出了具有后激活的单个网格单元（Eq.（6c））足以忠实地相反地，预激活（Eq.（6a））和失活（Eq.（6b））不能完成任务，因为它们只能适应平滑的结果，因此需要更多的网格单元来恢复表面细节。参见数学证明的补充材料。4. 激活后密度体素网格体素网格表示。体素网格表示对感兴趣的模态（例如，密度、颜色或特征）明确地在其网格单元中。这样的显式场景表示对于经由插值查询任何3D位置是有效的：interp（x，V）：R3，RC×Nx×Ny×Nz→RC，（4）其中，x是查询的3D点，V是体素网格，C是模态的维度，Nx·Ny·Nz是总数(a) 网格分辨率（H/5）（W/5）下图像拟合结果的直观比较。第一行是激活前、激活中和激活后的结果。第二行是它们与目标图像的每像素绝对差。(b) 在不同网格步幅下通过预激活、激活中和激活后实现的PSNR。网格步幅s表示网格分辨率为（H/s）（W/s）。黑衣人冲了过去线突出显示步幅为8的激活后。5可以实现与在该示例中具有步幅2图4. 关于图像拟合的玩具示例。目标2D图像是二进制的，以模仿大部分3D空间被占用或空闲的场景。目标是通过低分辨率的2D网格重建目标图像。在每个优化步骤中，通过具有预激活的插值来查询可调2D网格（等式1）。（6a））、失活（Eq.（6b）），或激活后（Eq.（6c））以最小化对目标图像的均方误差。结果表明，即使在低网格分辨率下，后激活也可以产生清晰的边界（图1）。4a），并且在各种网格分辨率下比其他两个好得多（图4b）。这促使我们直接通过体素网格与后激活的3D几何模型。查询的3D点x：α（pre）= interp. x，α。softplus。V（density）密度，（6a）体素的数量如果没有，则应用三线性插值另有规定用于体渲染的密度体素网格密度体素网格，V（密度），是C=1的特殊情况，其存储用于体素渲染的密度值（等式2）。（2）译注。我们使用σ¨R表示在应用密度激活之前的原始体素密度（即，R R≥0的映射）。在这项工作中，我们使用Mip-NeRF [1]中提到的移位softplus作为密度激活：σ=softplus（σ¨）=10g（1+exp（σ¨+b）），（5）其中移位b是超参数。使用softplus代替ReLU对于直接优化体素密度至关重要，因为当体素被错误地设置为负值时，使用ReLU作为密度激活是不可修复的相反，softplus允许我们探索非常接近0的密度。通过后激活实现清晰的决策边界。内插的体素密度由softplus处理（等式2）。（5））和alpha（Eq.（2b））顺序地用于体绘制。我们考虑三种不同的顺序-激活前，激活，和激活后-插入三线性插值和执行激活，给定一个α（in）=alphainterpx，softplusV（密度），（6b）α（后）=alphasoftplusinterpx，V（密度）。（ 6c）函数α的输入δ（等式1）（2b）为简单起见省略。我们表明，后激活，即，在三线性插值之后应用所有非线性激活能够产生具有少得多的网格单元的尖锐表面（判定在图3中，我们使用2D网格单元作为示例，以表明具有后激活的网格单元可以产生尖锐的线性边界，而预激活和未激活只能产生平滑的结果，因此需要更多的单元用于表面细节。在图4中，我们进一步使用二进制图像回归作为玩具示例来比较它们的能力，这也表明后激活可以在网格单元使用中实现更好的效率。5. 快速直接的体素网格优化我们在图2中描述了我们的方法的概述。节中5.1中，我们首先搜索场景的粗略几何形状。节中5.2，然后重建包括视图相关效应的精细细节。在下文中，我们使用上标（c）和（f）来表示粗略和精细阶段中的变量。5464Σ−-≈.Σ.Σ∈∈.[·|XyzXyz 在粗糙阶段。任何3DXyzXyzXyzXyzΣ[]优先级2：基于视图计数的学习率。可能5.1. 粗几何搜索典型地，场景由自由空间（即，联合国内罗毕办事处-在实践中，我们将V（density）（c）中的所有网格值初始化为0并将偏置项设置在等式中。（5）至cubleshoot空间）。受这一事实的启发，我们的目标是在重建图像之前有效地找到感兴趣的粗糙3D区域。b=log. . 1−α（init）（c）1（c） −1、（9）需要更多计算资源的精细细节和依赖于视图的效果因此，我们可以大大减少查询点的数量在每一个射线在后期的罚款阶段。粗略的场景表示。我们使用粗密度体素网格V（density）（c）∈R1×N（c）× N（c）×N（c），其中α（init）（c）是超参数。因此，经校准的透射率Ti衰减1α（init）（c）对于向前追踪体素大小s（c）的距离的射线，为1。推导和证明见补充资料。激活（方程式（6c））来对场景几何形状进行建模。我们只通过V（rgb）（c）∈R3×N（c）× N（c）×N（c）来模拟视点不变的彩色发射点x对于插值是有效的：σ（c）=interpx，V（密度）（c）、（7a）c（c）=interpx，V（rgb）（c），（7b）式中c（c）R3是可变颜色，σ′（c）R是原始体积密度。粗体素分配。我们首先找到一个边界框（BBox），它紧紧地包围着训练视图的摄像机截头（参见图2c中的红色BBox）。我们的体素网格与BBox对齐设L（c），L（c），L（c）在现实中，一些体素对太少的训练视图可见世界捕捉，而我们更喜欢在许多视图中具有一致性的表面，而不是只能解释少数视图的表面在实践中，我们为V（density）（c）中的不同网格点设置不同的学习率。对于每个由j索引的网格点，我们计算点j可见的训练视图的数量nj，然后将其基本学习率缩放nj/nmaxx，其中nmax是所有网格点上的最大视图计数。粗表示的训练目标。通过最小化渲染颜色和观察颜色之间的均方误差来重建场景表示。为了正则化重建，我们主要使用背景熵损失来鼓励累积的α值集中在背景或前景上。请参阅x y z是BBox的长度，并且M（c）是用于粗略阶段中的体素的预期总数体素大小为s（c）=3L（c）·L（c）·L（c）/M（c），因此存在补充材料以了解更多详细信息。5.2. 精细细节重构（密度）（c）N（c）、N（c）、N（c）= B盒每一侧的L（c）/s（c）、L（c）/s（c）、L（c）/s（c）体素。粗阶段点采样。在像素渲染光线上，我们将查询点采样为秒5.1，我们现在可以专注于一个较小的子空间，以重建表面细节和视图相关效果。优化的V（密度）（c）在该阶段被冻结。很好的场景表现。在精细阶段，我们使用x0=o+t（近）d，（8a）一较高分辨率密度体素网格V（密度）（f）∈R1×N（f）×N（f）×N（f）dxyz，具有后激活插值（等式（6c））。xi=x0+i·δ（c）·d、（8b）注意，或者，也可以使用更先进的数据结构[18，30，66]来细化体素网格其中o是相机中心，d是光线投射方向，t（near）是相机近边界，并且δ（c）是可以根据v o x el大小s（c）自适应地选择的步长的超参数。查询inde xi的范围从1到t（far）d2/δ（c），其中t（far）是相机far边界，因此最后采样点停止在远平面附近。优先级1：低密度初始化。在火车的起点-基于当前的V（密度）（c），但我们将其留给未来的工作。为了对视图相关的颜色发射进行建模，我们选择使用显式-隐式混合表示，因为我们在之前的实验中发现，显式表示往往会产生更差的结果，而隐式表示需要更慢的训练速度。我们的混合表示包括i）特征体素网格V（feat）（f）∈RD×N（f）× N（f）×N（f），其中给定优化的粗略几何形状V在5465Θ∈.ΣΘ.Σ∈即，远离相机的点的重要性下降-由于等式中的累积透射率项而加权。（2c）。结果，粗密度体素网格V（密度）（c）可能意外地被捕获到在相机附近平面处具有较高密度的次优“浑浊”几何中因此，我们必须更仔细地初始化V（密度）（c），以确保射线上的所有采样点在开始时对相机可见，即，等式中的累积透射率Tis。（2c）接近1。D是特征空间维度的超参数，以及ii）a由Θ参数化的浅MLP。最后，3D点X和观看方向d的查询通过以下来执行：σ¨（f）=interpx，V（密度）（f）c（f）=MLP（rgb） interp（x，V（feat）（f）），x，d，（10b）其中c（f）R3是视图相关的颜色发射，σ′（f） R是细颗粒阶段的颗粒物密度。Posi对于MLP（rgb），将函数嵌入[37]应用于x，d。5466×[××··XyzXyz已知自由空间和未知空间。查询点如果来自优化的V（密度）（c）的激活后α值小于阈值τ（c），则在已知自由空间中。否则，我们说查询点在未知空间中。精细体素分配。我们密集地查询V（density）（c）以找到一个紧密包围未知空间的BBox，其中L（f），L（f），L（f）是BBox的长度。唯一的超-edMVS[65]是一个合成MVS数据集，具有来自真实图像混合的逼真环境照明我们使用NSVF提供的四个对象的子集。图像分辨率为768576像素，八分之一的图像用于测试。Tanks Temples[21]是一个真实世界的数据集。我们使用NSVF提供的五个场景的子集，每个场景都包含由一个面向内的摄像机环绕拍摄的视图x y z（f）第（1）款现场图像分辨率为1920×1080像素，参数是体素M的预期总数。体素大小s（f）和网格尺寸N（f）、N（f）、N（f）然后可以根据Sec.第5.1条渐进缩放。受NSVF [30]的启发，我们逐步缩放体素网格V（密度）（f）和V（feat）（f）。令pg ckpt为检查点步骤的集合 v 〇 x el 的初始数量被设置为 M（ f ） /2 。|PGCKPT|-是的当到达pg ckpt中的训练步骤时，我们将体素的数量加倍，使得最后一个检查点之后的体素的数量为M（f）;体素大小s（f）和网格尺寸N（f）、N（f）、N（f）相应地更新。缩放场景表示要简单得多在每个检查点，我们通过三线性插值调整体素网格V（密度）（f）和V（特征）（f）的大小精细阶段点采样。点采样策略类似于Eq. （8）做一些修改。我们首先过滤掉不与已知自由空间相交的光线对于每条射线，我们将近边界和远边界t（near）和t（far）调整到射线盒相交的两个端点。如果x0已经在BBox内，我们不调整t（near）跳过可用空间。查询V（密度）（c）（等式2）（7a））比查询V（密度）（f）（等式7）更快。（10a））;查询视图相关的颜色（等式（10 b））;（10b））是最慢的。在训练和测试中，我们通过自由空间跳跃来提高精细阶段的效率。首先，我们通过检查优化的V（密度）（c）（等式2）跳过已知自由空间中的采样点（7a））。其次，我们进一步跳过具有低激活alpha值（阈值为τ（f））通过查询V（密度）（f）（等式（10a））。培训目标为良好表现。我们使用与粗阶段相同的训练损失，但我们使用较小的权重用于正则化损失，因为我们发现经验上它会导致质量稍好。6. 实验6.1. 数据集我们在五个面向内部的数据集上评估了我们的方法Synthetic-NeRF[37]包含八个对象，它们具有由NeRF合成的逼真图像。Synthetic-NSVF[30]包含由NSVF合成的另外八个对象。严格遵循NeRF混合-八分之一的图像用于测试。DeepVoxels[48]数据集包含四个简单的朗伯对象。图像分辨率为512 512，每个场景有479个视图用于训练和1000个视图用于测试。6.2. 实现细节我们通常为所有场景选择相同的超参数。如果没有另外说明，则在粗略和精细阶段中将体素的预期数量设置为M（c ）=1003和M（f ）=1603在粗调阶段，激活的alpha值被初始化为α（init）（c）= 10−6我们使用更高的α（init）（f）= 10−2，因为查询点集中在精细阶段的优化粗略几何上。将点采样步长设置为体素大小的一半，即，δ（c）=0。5s（c）和δ（f）=0。5s（f）。浅MLP层包括具有128个通道的两个隐藏层。我们使用Adam优化器[20]，批量大小为8，192条射线，以优化10k和20k迭代的粗略和精细场景表示。基本学习率为0。对于所有体素网格为1，对于浅MLP为10−3应用指数学习率衰减。有关详细的超参数设置，请参见补充资料。6.3. 比较对合成的新视图进行定量评价。我们首先定量地比较Tab中1.一、PSNR、SSIM [60]和LPIPS [69]被用作评估指标。我们的M（f）=1603体素模型已经优于原始NeRF[37]和改进的JaxNeRF [9]重新实现。除JaxNeRF+ [9]和Mip-NeRF [1]外，我们的结果与最近的大多数方法相当。此外，我们的每个场景优化只需要大约15分钟，而NeRF之后的所有方法都在Tab.每个场景需要几个我们还展示了M（f）=2563体素的模型，这显著改善了我们在所有指标下的结果，并实现了与JaxNeRF+和Mip-NeRF 更具可比性的结果我们推迟了对更简单的DeepVoxels [48]数据集的详细比较，以补充材料，在那里我们达到45。平均PSNR为83，优于NeRF的40。15和IBRNet的42。九十三训练时间比较我们的工作的主要优点是显着提高收敛速度与NeRF可比的质量。在选项卡中。2、我们展示一次培训5467方法合成NeRFPSNR↑ SSIM↑ LPIPS↓合成-NSVFPSNR↑ SSIM↑ LPIPS↓混合MVSPSNR↑ SSIM↑ LPIPS↓坦克和寺庙PSNR ↑ SSIM ↑LPIPS↓SRN [49]22.260.8460.170vgg24.330.8820.141亚历克斯20.510.7700.294亚历克斯24.100.8470.251亚历克斯[32]第三十二话26.050.8930.160vgg25.830.8920.124亚历克斯23.030.7930.243亚历克斯23.700.8340.260亚历克斯NeRF [37]31.010.9470.081vgg30.810.9520.043亚历克斯24.150.8280.192亚历克斯25.780.8640.198alexNeRF改善视觉质量JaxNeRF [9]31.690.9530.068vgg------27.940.9040.168vggJaxNeRF+[9]33.000.9620.038---------Mip-NeRF [1]33.090.9610.043vgg---------NeRF提高了测试时渲染速度（和视觉质量）AutoInt [29]25.550.9110.170---------FastNeRF [15]29.970.9410.053---------SNeRG [18]30.380.9500.050---------KiloNeRF [43]31.000.950.0333.370.970.0227.390.920.0628.410.910.09[66]第六十六话31.710.9580.053vgg------27.990.9170.131vggNSVF [30]31.750.9530.047亚历克斯35.180.9790.015亚历克斯26.890.8980.114亚历克斯28.480.9010.155亚历克斯NeRF提高了收敛速度、测试时渲染速度和视觉质量我们的（M（f）=1603）31.950.9570.053vgg0.035亚历克斯35.080.9750.033vgg0.019亚历克斯28.020.9220.101vgg0.075alex28.410.9110.155vgg0.148alex我们的（M（f）=2563）32.800.9610.045vgg0.027亚历克斯36.210.9800.024vgg0.012亚历克斯28.640.9330.081vgg0.052亚历克斯28.820.9200.138vgg0.124亚历克斯*上标表示LPIPS中使用的预训练模型灰色数字表示代码不可用或具有非常规LPIPS实现。表1. 新视图合成的定量比较。我们的方法在收敛速度方面很出色，与使用其他方法的每个场景数小时或数天相比，每个场景15分钟此外，在所有指标下，我们的渲染质量优于原始NeRF [37]和改进的JaxNeRF [9我们还显示了可比的结果，最近的方法。时间比较我们还在每个报告时间后显示GPU规格，因为它是影响运行时间的主要因素NeRF[37]使用更强大的GPU，每个场景需要1 -2天才能实现31。01的峰值信噪比，而我们的方法达到了优越的31。95和32。80PSNR在约15和22分钟每场景分别。MVSNeRF [6]，IBRNet [59]和NeuRay [31]也显示出比NeRF更少的每个场景训练时间，但运行可推广的跨场景预训练。MVSNeRF [6]在预训练后，也在15分钟内优化了一个场景，但PSNR下降到28。十四岁IBRNet [59]的PSNR比我们的更差，训练时间更长。NeuRay [31]最初报告了低分辨率（NeuRay-Lo）设置的时间，我们从作者那里收到了高分辨率（NeuRay-Hi）设置的训练时间。NeuRay-Hi达到32。42 PSNR，需要23小时的训练，而我们的方法与M（f）=2563体素达到优越的32。22分钟后80英里不幸的是，对于早期停止的NeuRay-Hi仍然需要70分钟的时间来训练，而我们只需要15分钟就可以达到NeRF的质量，并且不依赖于可推广的预训练或外部深度信息。Mip-NeRF [1]具有与NeRF相似的运行时间，但具有更好的PSNR，这也意味着使用更少的训练时间来实现NeRF我们在我们的机器上训练早期停止的Mip-NeRF，并显示平均PSNR和训练†使用外部深度信息。‡在我们的机器上提前停止的复制。表2. 训练时间比较我们采取的训练时间和GPU规格报告在以前的作品直接。V100 GPU比2080Ti GPU运行速度更快，存储空间更大我们的方法实现了良好的PSNR在一个显着减少每个场景的优化时间。时间早期停止的Mip-NeRF达到30。85 PSNR经过6小时的训练，而我们可以达到31。95PSNR仅需15分钟。渲染速度比较。提高测试时渲染速度并不是这项工作的主要重点，但我们仍然实现了NeRF-0的1.45倍加速。64秒，在我们的机器上，每800×800图像29定性比较。图5显示了我们对具有挑战性的部分的渲染方法PSNR↑可泛化预训练每场景优化NeRF [37]31.01没有必要1MVSNeRF [6]27.2130小时（2080Ti）15分钟（2080Ti）IBRNet [59]28.141天（8xV100）6小时（V100）NeuRay [31]†32.422天（2080Ti）23小时（2080Ti）Mip-NeRF [1]‡30.85没有必要6小时（2080Ti）我们的（M（f）=1603）31.95没有必要15分钟（2080Ti）5468结果，并将其与PlenOctrees [ 66 ]提供的结果（优于NeRF）进行了比较5469我们的PlenOctree图5. 对具有挑战性的部分进行定性比较。上图：在ficus场景中，我们没有将阻塞伪影显示为PlenOc树，并且可以更好地恢复花盆中间：我们在船体和索具上产生了较模糊的底部：在真实世界捕获的Ignatius上，我们显示了更好的质量，没有阻塞伪影（左），并更好地恢复了色调（右）。更多可视化信息请参见补充资料6.4. 消融研究我们主要验证的有效性提出的两种技术后激活和强加的先验，使体素网格模型场景几何与NeRF-可比的质量。我们为每个数据集子采样两个场景。有关体素数量、点采样步长、渐进缩放、自由空间跳过、视图相关颜色建模和损失的更多详细信息和其他消融研究，请参见补充材料。激活后的有效性。我们在Sec中显示。4所提出的后激活三线性插值使离散网格能够模拟更尖锐的表面。在选项卡中。3、比较了后激活在场景重构中的有效性我们的网格在精细的阶段，只有1603体素，最近邻插值的结果比三线性插值的质量差与预活化和失活相比，所提出的后活化可以进一步改善结果。我们发现，我们在现实世界中捕获的BlendedMVS和Tanks and Temples数据集中获得的收益较少直观的原因是真实世界的数据引入了更多的不确定性（例如，不一致的照明，SfM误差），这导致多视图不一致和更模糊的表面。因此，对于可以对更尖锐的表面进行建模的场景表示，该优点被削弱。我们推测，解决未来工作中的不确定性可以增加所提出的激活后的增益。所施加的优先权的有效性。如第5.1中，用低密度初始化体素网格以避免次优几何结构是至关重要的。超参数α（init）（c）通过等式2控制初始激活的α值（九）、在选项卡中。4、比较了不同α（init）（c）和基于视图数的学习率下的质量没有低密度的Interp.Syn. NeRF峰值信噪比（PSNR）Syn. NSVF峰值信噪比（PSNR）混合MVS峰值信噪比（PSNR）T T峰值信噪比（PSNR）最近28.61 -2.7728.8632.6632.42-6.22-2.41-2.6625.4927.3927.29-2.48-0.58-0.6826.39-1.2727.44-0.2127.52-0.1330.84 -0.55表示“前三29.91 -1.48在-后31.39-35.08-27.97-27.66-表3.激活后的有效性。使用密度体素网格的几何建模可以通过使用所提出的后激活三线性插值来实现更好的PSNR。a（init）（c）视图。湖Syn. NeRF峰值信噪比（PSNR）Syn. NSVF峰值信噪比（PSNR）混合MVS峰值信噪比（PSNR）T T峰值信噪比（PSNR）- -C键10−3C10−4C10−5C10−610−7C28.8830.9631.2931.4131.4031.36-2.51-0.42-0.09+0.02+0.01-0.0225.1227.2431.0535.0435.0335.03-9.96-7.84-4.03-0.04-0.04-0.0522.1723.1726.0927.3627.3727.73-5.79-4.79-1.88-0.61-0.60-0.2325时33分至2时33分26.04-1.6127.60-0.0527.63-0.0227.59-0.0727.59-0.0610−6C31.39-35.08-27.97-27.66--/J10−3/J10−6/ -10−6/J表4. 所施加的优先权的有效性。我们比较我们的不同设置在粗略的几何搜索。上图：我们显示了它们对精细级重建后的最终PSNR的影响底部：我们通过在卡车场景上进行粗略的几何搜索来可视化分配的体素。总的来说，低密度初始化是必不可少的;使用α（init）（c）= 10−6和基于视图计数的学习率通常可以在粗略阶段实现更清晰的体素分配，并在精细阶段之后实现更好的PSNR。初始化，所有场景的质量严重下降。当α（init）（c）= 10−7时，我们必须训练粗阶段进行更多的迭代。α（init）（c）的有效范围取决于场景。我们发现α（init）（c）= 10−6一般适用于本工作中的所有场景最后，使用基于视图计数的学习率可以进一步改善结果，并在粗略阶段分配无噪声体素。7. 结论我们的方法直接优化体素网格，并通过NeRF在每个场景优化中实现超快收敛然而，我们不处理无界或面向前方的场景，而我们相信我们的方法可以成为在这种情况下快速收敛的垫脚石。我们希望我们的方法可以推动基于NeRF的场景重建及其应用的进展。鸣谢：这项工作部分得到了社会变革管理计划赠款110-2634-F-001-009和110-2622-8-007的支持。10- 台湾TE2我们感谢国家高性能计算中心提供的计算资源和设施。5470引用[1] 乔纳森·T. Barron，Ben Mildenhall，Matthew Tancik，Peter Hedman ， Ricardo Martin-Brualla ， and Pratul P.Srinivasan. Mip-nerf：抗混叠神经辐射场的多尺度表示ICCV，2021。一三四六七[2] Sai Bi ， Zexiang Xu ， Pratul P. Srinivasan ， BenMildenhall，Kalyan Sunkavalli，Milos Hasan，YannickHold-Geoffroy ， DavidJ.Kriegman ， andRaviRamamoorthi.用于外观采集的神经反射场。arxiv CS.CV2106.01970，2020。2[3] 作者： Mark Boss ， Raphael Br

下载后可阅读完整内容，剩余1页未读，立即下载