多尺度表示的Mip-NeRF：减少伪影，提高细节，快7％且体积减半

178 浏览量更新于2023-10-14 收藏 15.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

58550Mip-NeRF：一种用于抗锯齿神经辐射场的多尺度表示0Jonathan T. Barron 1 Ben Mildenhall 1 Matthew Tancik 20Peter Hedman 1 Ricardo Martin-Brualla 1 Pratul P. Srinivasan 101 谷歌 2 加州大学伯克利分校0摘要0神经辐射场（NeRF）使用的渲染过程对每个像素采样一条射线，因此当训练或测试图像以不同的分辨率观察场景内容时，可能会产生过度模糊或伪影的渲染图像。对于NeRF来说，通过对每个像素进行多次射线渲染的超采样直接解决方案是不切实际的，因为渲染每条射线需要查询多层感知器数百次。我们的解决方案称为“mip-NeRF”（类似于“mipmap”），它将NeRF扩展到以连续值尺度表示场景。通过高效地渲染抗锯齿的圆锥体而不是射线，mip-NeRF减少了令人不满意的伪影，并显著提高了NeRF表示细节的能力，同时比NeRF快7％并且体积减半。与NeRF相比，mip-NeRF在与NeRF一起提供的数据集上将平均错误率降低了17％，并且在我们提供的具有挑战性的多尺度数据集上降低了60％。在我们的多尺度数据集上，Mip-NeRF能够与蛮力超采样的NeRF的准确性相匹配，同时快22倍。01. 引言0神经容积表示，如神经辐射场（NeRF）[30]，已成为从图像中学习表示3D对象和场景以渲染逼真新视图的引人注目的策略。尽管NeRF及其变体在各种视图合成任务中展示了令人印象深刻的结果，但NeRF的渲染模型存在缺陷，可能导致过度模糊和伪影。NeRF将传统的离散采样几何替换为连续的容积函数，该函数被参数化为一个多层感知器（MLP），将输入的5D坐标（3D位置和2D视角方向）映射到该位置的场景属性（体积密度和视角相关的辐射）。为了渲染像素的颜色，NeRF通过该像素并穿过其容积表示投射一条射线，并查询0a）NeRF b）Mip-NeRF0图1：NeRF（a）沿着从相机投影中心通过每个像素追踪的射线采样点x，然后使用位置编码（PE）γ对这些点进行编码以产生特征γ（x）。Mip-NeRF（b）相反，考虑由相机像素定义的3D圆锥体。然后，这些圆锥体使用我们的集成位置编码（IPE）进行特征化，该编码通过将圆锥体近似为多元高斯并计算高斯内坐标的位置编码的（闭合形式）积分E[γ（x）]来工作。0在沿着该射线的样本上，对场景属性进行MLP的评估，并将这些值合成为单个颜色。当所有的训练和测试图像都以大致相同的距离观察场景内容时（如NeRF和大多数后续工作所做的那样），这种方法效果很好。然而，在不那么人为的情况下，NeRF的渲染会出现明显的伪影。当训练图像以多个分辨率观察场景内容时，从恢复的NeRF生成的渲染图在近距离视图中过于模糊，并且在远距离视图中包含混叠伪影。一个直接的解决方案是采用离线光线追踪中使用的策略：通过沿着像素的足迹进行多次光线传播来对每个像素进行超采样。但是，对于需要数百次MLP评估才能渲染一条射线并花费数小时重建一个场景的神经容积表示（如NeRF）来说，这是不可行的。在本文中，我们借鉴了计算机图形渲染管线中用于防止伪影的mipmapping方法。mipmap表示一组不同离散降采样尺度上的信号（通常是图像或纹理映射），并根据像素足迹的投影选择要使用的适当尺度来为射线渲染提供信号。0.9540.8630.9620.7510.8350.97658560到由该射线与几何体相交的位置。这种策略被称为预过滤，因为抗锯齿的计算负担从渲染时间（如蛮力超采样解决方案）转移到了预计算阶段 -只需为给定的纹理创建一次mipmap，而不管该纹理被渲染多少次。我们的解决方案称为mip-NeRF（multum inparvoNeRF，即“mipmap”），它将NeRF扩展到同时表示连续尺度的预过滤辐射场。mip-NeRF的输入是一个表示应该集成辐射场的区域的3D高斯。如图1所示，我们可以通过沿锥体的间隔查询mip-NeRF来渲染预过滤像素，使用近似于与像素对应的锥体锥台的高斯。为了编码3D位置及其周围的高斯区域，我们提出了一种新的特征表示：综合位置编码（IPE）。这是NeRF位置编码（PE）的一种推广，允许紧凑地对空间区域进行特征化，而不是对空间中的单个点进行特征化。mip-NeRF在准确性上大大优于NeRF，并且在场景内容以不同分辨率观察的情况下，这种优势更加明显（即相机从场景中移近和移远的设置）。在我们提出的具有挑战性的多分辨率基准测试中，相对于NeRF，mip-NeRF能够平均减少60％的错误率（请参见图2的可视化效果）。mip-NeRF的尺度感知结构还允许我们将NeRF用于分层采样[30]中使用的单独的“粗”和“细”MLP合并为一个MLP。因此，mip-NeRF比NeRF稍快（约7％），并且具有一半的参数。02. 相关工作0我们的工作直接扩展了NeRF[30]，这是一种从观察到的图像中学习3D场景表示以合成新的照片般逼真视图的高度影响力的技术。在这里，我们回顾了计算机图形学和视图合成中使用的3D表示，包括最近引入的连续神经表示，如NeRF，重点是采样和混叠。渲染中的抗锯齿采样和混叠是一直以来在计算机图形学的渲染算法开发中广泛研究的基本问题。减少混叠伪影（“抗锯齿”）通常通过超采样或预过滤来实现。基于超采样的技术[46]在渲染时每个像素投射多条射线，以更接近奈奎斯特频率进行采样。这是一种减少混叠的有效策略，但是它很昂贵，因为运行时间通常与超采样率成线性比例。因此，超采样通常仅在离线渲染环境中使用。与匹配奈奎斯特频率的采样射线相比，预过滤技术[18, 20, 32,49]使用场景内容的低通滤波版本，以减少混叠伪影。这是一种有效的策略，因为预计算阶段只需为给定的纹理创建一次mipmap，而不管该纹理被渲染多少次。我们的解决方案称为mip-NeRF（multum in parvoNeRF，即“mipmap”），它将NeRF扩展到同时表示连续尺度的预过滤辐射场。mip-NeRF的输入是一个表示应该集成辐射场的区域的3D高斯。如图1所示，我们可以通过沿锥体的间隔查询mip-NeRF来渲染预过滤像素，使用近似于与像素对应的锥体锥台的高斯。为了编码3D位置及其周围的高斯区域，我们提出了一种新的特征表示：综合位置编码（IPE）。这是NeRF位置编码（PE）的一种推广，允许紧凑地对空间区域进行特征化，而不是对空间中的单个点进行特征化。mip-NeRF在准确性上大大优于NeRF，并且在场景内容以不同分辨率观察的情况下，这种优势更加明显（即相机从场景中移近和移远的设置）。在我们提出的具有挑战性的多分辨率基准测试中，相对于NeRF，mip-NeRF能够平均减少60％的错误率（请参见图2的可视化效果）。mip-NeRF的尺度感知结构还允许我们将NeRF用于分层采样[30]中使用的单独的“粗”和“细”MLP合并为一个MLP。因此，mip-NeRF比NeRF稍快（约7％），并且具有一半的参数。0全分辨率01/8分辨率0（a）NeRF，单一（b）NeRF，多个（c）Mip-NeRF（d）地面真实0图2：（a，顶部）在全分辨率图像上训练的NeRF能够在新的视图位置产生逼真的渲染，但仅在训练图像的分辨率或尺度上。（a，底部）将相机拉远并放大（或类似地，调整相机内部参数以降低图像分辨率，如此处所做的）会导致渲染出现严重的混叠。（b）在多分辨率图像上训练NeRF会稍微改善这个问题，但会导致不同尺度上质量较差的渲染：全分辨率模糊，低分辨率“锯齿”。（c）在多分辨率图像上训练的Mip-NeRF能够在不同尺度上产生逼真的渲染。相对于地面真实图像（d），每个图像的结构相似性指数（SSIM）嵌入，最高SSIM显示为红色。058570尺度的连续性而不是离散性。Mip-NeRF不像mipmap那样使用多个固定尺度的场景副本来表示场景，而是学习了一个单一的神经场景模型，可以在任意尺度上进行查询。视图合成的场景表示已经提出了各种场景表示方法来实现视图合成的任务：使用场景的观察图像来恢复一种支持从未观察到的相机视点渲染新的逼真图像的表示。当密集地捕获场景的图像时，可以使用光场插值技术[9, 14,22]来渲染新的视图，而无需重建场景的中间表示。在这种设置下，已经对采样和混叠问题进行了深入研究[7]。从稀疏捕获的图像合成新视图的方法通常会重建场景的3D几何形状和外观的显式表示。许多经典的视图合成算法使用基于网格的表示以及漫反射[28]或视角相关[6, 10,48]纹理。基于网格的表示可以高效存储，并且与现有的图形渲染流水线自然兼容。然而，由于不连续性和局部最小值，使用基于梯度的方法来优化网格几何和拓扑通常是困难的。因此，体积表示在视图合成中变得越来越受欢迎。早期的方法直接使用观察到的图像对体素网格进行着色[37]，而更近期的体积方法使用基于梯度的学习来训练深度网络，以预测场景的体素网格表示[12, 25, 29, 38, 41,53]。离散的基于体素的表示对于视图合成是有效的，但在更高分辨率的场景中无法很好地扩展。计算机视觉和图形研究中的一个最新趋势是用基于坐标的神经表示取代这些离散表示，这些表示将3D场景表示为由MLP参数化的连续函数，该函数将3D坐标映射到该位置的场景属性。一些最近的方法使用基于坐标的神经表示来模拟隐式表面的场景[31,50]，但大多数最新的视图合成方法都是基于体积的NeRF表示[30]。NeRF启发了许多后续工作，扩展了其连续的神经体积表示，用于生成建模[8, 36]、动态场景[23,33]、非刚性变形物体[13,34]、具有变化照明和遮挡物的旅游照片设置[26,43]以及用于重新照明的反射建模[2, 3,40]。在基于坐标的神经表示的视图合成背景下，对采样和混叠问题的研究相对较少。用于视图合成的离散表示，如多边形网格和体素网格，可以使用传统的多尺度预过滤方法进行高效渲染，而不会出现混叠。0例如，mipmaps和八叉树。然而，目前基于坐标的神经表示仅能使用超采样进行抗锯齿处理，这加剧了它们已经缓慢的渲染过程。Takikawa等人最近的工作提出了一种基于稀疏体素八叉树的多尺度表示，用于连续神经表示隐式表面，但他们的方法要求场景几何形状事先已知，而不是我们的视图合成设置，其中唯一的输入是观察到的图像。Mip-NeRF解决了这个开放问题，在训练和测试期间实现了高效的抗锯齿图像渲染，以及在训练期间使用多尺度图像。02.1.初步：NeRF0NeRF使用多层感知器（MLP）的权重来表示场景，将其表示为连续的体积领域，这些领域由阻挡和发射光线的粒子组成。NeRF将相机的每个像素渲染如下：从相机的投影中心o沿着方向d发射一条射线r(t)=o+td，使其通过像素。使用一种采样策略（稍后讨论）来确定相机预定义的近平面tn和远平面tf之间的一组排序距离t的向量。对于每个距离tk∈t，我们计算其沿射线的对应3D位置x=r(tk)，然后使用位置编码对每个位置进行变换：0γ(x) = [sin(x), cos(x), ..., sin(2L-1x), cos(2L-1x)]^T. (1)0这只是将3D位置x的每个维度的正弦和余弦连接起来，乘以从1到2L-1的2的幂次，其中L是一个超参数。NeRF的准确性严重依赖于位置编码的使用，因为它允许参数化场景的MLP行为像一个插值函数，其中L确定插值核的带宽（详见Tancik等人[44]）。每个射线位置γ(r(tk))的位置编码作为输入提供给由权重Θ参数化的MLP，该MLP输出密度τ和RGB颜色c：0�tk ∈ t, [τk, ck] = MLP(γ(r(tk)); Θ). (2)0MLP还将视角方向作为输入，为简单起见，此处省略了符号。这些估计的密度和颜色用于使用数值积分来近似体积渲染积分，如Max [27]所述：0C(r; Θ, t) =0Tk(1-exp(-τk(tk+1-tk)))ck,0with Tk = exp(-0k' < k τk'(tk'+1-tk') ≤ , (3)0其中C(r; Θ,t)是像素的最终预测颜色。使用这个参数化为Θ的NeRF进行渲染的过程非常简单：使用一组已知相机姿势的观察图像，通过梯度下降最小化所有输入像素值和所有预测像素值之间的平方差之和。F(x, o, d, ˙r, t0, t1) = 1��t0 < dT(x − o)∥d∥22< t1�∧�dT(x − o)∥d∥2∥x − o∥2>11 + ( ˙r/∥d∥2)2��,(5)γ∗(o, d, ˙r, t0, t1) =�γ(x) F(x, o, d, ˙r, t0, t1) dxF(x, o, d, ˙r, t0, t1) dx.(6)58580通过最小化所有输入像素值和所有预测像素值之间的平方差之和来优化具有已知相机姿势的观察图像。为了提高样本效率，NeRF训练了两个单独的MLP，一个“粗糙”和一个“精细”，其参数分别为Θc和Θf：0min Θc,Θf0r ∈ R0||C�(r) - C(r; Θc, tc)||^2_2 (4)0+ ||C�(r) - C(r; Θf, sort(tc ∪ tf))||^2_20,0其中C�(r)是从输入图像中获取的观察像素颜色，R是所有图像/射线的像素集合。Mildenhall等人通过对64个均匀间隔的随机t值进行分层采样来构建t c。由“粗糙”模型产生的合成权重wk =Tk(1-exp(-τk(tk+1-tk)))被视为描述可见场景内容分布的分段常数概率密度函数（PDF），然后从该PDF中使用逆变换采样绘制128个新的t值来生成t f。这192个t值的并集然后被排序并传递给“精细”MLP以产生最终预测的像素颜色。03. 方法0正如讨论的那样，NeRF的点采样使其容易受到与采样和混叠有关的问题的影响：尽管像素的颜色是像素视锥内所有传入辐射的积分，但NeRF每个像素只投射一条无限窄的射线，导致混叠现象。Mip-NeRF通过从每个像素投射一个圆锥体来改善这个问题。我们将正在投射的圆锥体划分为一系列锥形视锥体（垂直于其轴线切割的圆锥体）。我们不再从空间中的一个无限小点构建位置编码（PE）特征，而是构建每个锥形视锥体所覆盖的体积的综合位置编码（IPE）表示。这些变化使得多层感知机（MLP）能够推理每个锥形视锥体的大小和形状，而不仅仅是其质心。NeRF对尺度不敏感以及Mip-NeRF解决此问题的模糊性在图3中可视化。使用圆锥体视锥和IPE特征还使我们能够将NeRF的两个单独的“粗糙”和“精细”MLP合并为一个多尺度MLP，从而提高训练和评估速度，并减小模型大小50%。03.1. 锥台追踪和位置编码0在这里，我们描述 mip-NeRF的渲染和特征化过程，其中我们从相机的投影中投射一个锥台并对沿着该锥台的锥台进行特征化。与 NeRF 一样，mip-NeRF逐个像素地渲染图像，因此我们可以根据正在渲染的感兴趣像素来描述我们的过程。对于该像素，我们从相机的投影 o 沿通过像素中心的方向 d投射一个锥台。该锥台在图像平面上的截面的方差在 x 和 y方向上与像素的足迹的方差相匹配。在两个 t 值 [ t 0 , t 1 ]之间的锥台锥台内的位置 x 集合（在图1中可视化）为：0图3：NeRF通过沿每个像素的射线提取点采样的位置编码特征（在这里显示为点）来工作。这些点采样的特征忽略了每个射线所观察到的体积的形状和大小，因此在不同尺度下观察相同位置的两个不同相机可能会产生相同的模糊的点采样特征，从而显著降低了NeRF的性能。相比之下，Mip-NeRF投射锥台而不是射线，并明确地对每个采样的锥台体积进行建模（在这里显示为梯形），从而解决了这个模糊性。0锥台的顶点位于 o ，锥台在图像平面上的半径 o + d 的参数化为 ˙ r 。我们将 ˙ r设置为像素在世界坐标中的宽度乘以 2 / √012 ，这样可以得到一个在 x 和 y方向上的方差与像素足迹的方差相匹配的锥台。在两个 t 值[ t 0 , t 1 ] 之间的锥台锥台内的位置 x集合（在图1中可视化）为：0其中 1 {∙} 是一个指示函数：当且仅当 x 在由 ( o , d , ˙r, t 0 , t 1 ) 定义的锥台内时， F( x , ∙ ) = 1。现在，我们必须构建一个在这个锥台内的体积的特征化表示。理想情况下，这个特征化表示应该与 NeRF中使用的位置编码特征具有相似的形式，因为 Mildenhall等人表明这种特征表示对 NeRF的成功至关重要[30]。对于这个问题有许多可行的方法（详见补充材料进行进一步讨论），但我们发现最简单和最有效的解决方案是简单地计算所有位于锥台内的坐标的期望位置编码：0然而，如何高效地计算这样的特征尚不清楚，因为分子中的积分没有µt = tµ +2tµt2δ3t2µ + t2δ,σ2t = t2δ3 − 4t4δ(12t2µ − t2δ)15(3t2µ + t2δ)2 ,σ2r = ˙r2�t2µ4 + 5t2δ12 −4t4δ15(3t2µ + t2δ)�.(7)µ = o + µtd ,Σ = σ2t�ddT�+ σ2r�I − ddT∥d∥22�, (8)P=1 0 0 2 0 02L−1000 1 0 0 2 0 · · ·0 2L−100 0 1 0 0 2002L−1T, γ(x)=�sin(Px)cos(Px)�.µγ = Pµ ,Σγ = PΣPT .(10)Ex∼N (µ,σ2)[sin(x)] = sin(µ) exp�−(1/2)σ2�,(11)Ex∼N (µ,σ2)[cos(x)] = cos(µ) exp�−(1/2)σ2�.(12)=sin(µγ) ◦ exp(−(1/2) diag(Σγ))cos(µγ) ◦ exp(−(1/2) diag(Σγ)) ,(14)diag(Σγ)= diag(Σ), 4 diag(Σ), . . . , 4L−1 diag(Σ)T(15)diag(Σ) = σ2t (d ◦ d) + σ2r�1 − d ◦ d∥d∥22�.(16)58590闭式解。因此，我们用多元高斯函数来近似锥台，这样可以对所需特征进行高效的近似，我们将其称为“综合位置编码”（IPE）。为了用多元高斯函数近似锥台，我们必须计算F( x , ∙ )的均值和协方差。由于每个锥台被假设为圆形，并且由于锥台相对于锥体轴对称，这样的高斯函数可以由三个值（除了o 和 d 之外）完全确定：沿射线的均值距离 µ t，沿射线的方差 σ 2 t ，以及垂直于射线的方差 σ 2 r ：0这些量是相对于中点tµ=(t0+t1)/2和半宽tδ=(t1−t0)/2进行参数化的，这对于数值稳定性至关重要。详细推导请参考补充材料。我们可以将这个高斯从圆锥台的坐标系转换到世界坐标系中：0得到我们最终的多元高斯分布。接下来，我们推导IPE，即按照上述高斯分布分布的位置编码坐标的期望。为了实现这一点，首先将方程1中的PE重写为傅里叶特征[35, 44]：0（9）这种重新参数化使我们能够推导出IPE的闭合形式。利用线性变换的协方差是变量协方差的线性变换的事实（Cov[Ax, By]=ACov[x,y]BT），我们可以确定将圆锥台高斯分布提升到PE基础P后的均值和协方差：0产生IPE特征的最后一步是计算这个提升的多元高斯分布的期望，通过位置的正弦和余弦进行调制。这些期望有简单的闭合形式表达式：0我们可以看到，这个期望的正弦或余弦仅仅是均值的正弦或余弦乘以方差的高斯函数衰减。通过这个，我们可以计算我们最终的IPE特征，即均值和协方差矩阵的对角线的期望正弦和余弦：0γ(µ, Σ) = E x �N ( µ γ , Σ γ ) [ γ ( x )] (13)0其中◦表示逐元素乘法。由于位置编码独立地对每个维度进行编码，因此该期望编码仅依赖于γ(x)的边际分布，并且只需要协方差矩阵的对角线（一个每个维度方差的向量）。由于Σγ由于其相对较大的尺寸而计算代价过高，我们直接计算Σγ的对角线：0这个向量仅依赖于3D位置协方差Σ的对角线，可以计算为：0如果直接计算这些对角线，IPE特征的构建成本与PE特征大致相同。图4展示了IPE和传统PE特征在一个玩具1D域中的差异。IPE特征的行为直观：如果位置编码中的特定频率的周期大于用于构建IPE特征的区间的宽度，则该频率的编码不受影响。但是如果周期小于区间（在这种情况下，该区间上的PE将反复振荡），则该频率的编码会向零缩小。简而言之，IPE保留了在区间上恒定的频率，并“删除”了在区间上变化的频率，而PE保留了所有频率，直到某个手动调整的超参数L。通过以这种方式缩放每个正弦和余弦，IPE特征实际上是平滑编码了空间体积的大小和形状的反混叠位置编码特征。IPE还有效地消除了L作为超参数：可以将其设置为一个极大的值，然后永远不进行调整（见补充材料）。03.2. 架构0除了锥追踪和IPE特征外，mip-NeRF的行为与NeRF类似，如第2.1节所述。对于每个要渲染的像素，不像NeRF中的射线，我们投射一个锥体。我们不是为沿射线采样的t k值采样n个值，而是为t k采样n+1个值，计算跨越每对相邻的采样t k值的区间的IPE特征，如前面所述。这些IPE特征xxNeRFxMip-NeRFx-101minΘλ C∗(r)−C(r; Θ, tc)22+ C∗(r)−C(r; Θ, tf)22w′k = 12(max(wk−1, wk) + max(wk, wk+1)) + α . (18)58600编码0编码样本0样本0图4：NeRF使用的位置编码（PE）和我们的集成位置编码（IPE）的1D可视化示例。因为NeRF沿着每条射线采样点并平等地编码所有频率，高频PE特征会出现混叠，从而导致渲染伪影。通过在每个区间上集成PE特征，当频率的周期相对于被集成区间的大小较小时，IPE特征的高频维度会趋近于零，从而产生抗混叠的特征，隐式地编码了区间的大小（在更高维度中，还编码了区间的形状）。0作为输入传递给MLP，以产生密度τ k 和颜色c k，如方程2所示。mip-NeRF中的渲染遵循方程3。回想一下，NeRF使用分层采样过程，其中有两个不同的MLP，一个“粗”模型和一个“精细”模型（参见方程4）。这在NeRF中是必需的，因为其PE特征意味着其MLP只能学习一个单一尺度的场景模型。但是我们的锥体投射和IPE特征使我们能够将尺度明确地编码到输入特征中，并且从而使MLP能够学习场景的多尺度表示。因此，mip-NeRF使用具有参数Θ的单个MLP，我们在分层采样策略中重复查询该MLP。这有多个好处：模型大小减半，渲染更准确，采样更高效，整个算法变得更简单。我们的优化问题是：0（17）因为我们只有一个MLP，所以“粗”损失必须与“精细”损失平衡，这通过超参数λ来实现（我们在所有实验中将λ设置为0.1）。与Mildenhall等人[30]一样，我们的粗样本t c 是使用分层采样生成的，我们的精细样本t f是使用逆变换采样从结果的alpha合成权重w中采样的。与NeRF不同，mip-NeRF中的精细MLP只接收排序后的64个粗样本和128个精细样本的并集，而我们只是简单地采样128个0从粗模型中采样2个样本和从精细模型中采样128个样本（为了公平比较，总MLP评估数量与NeRF相同）。在采样t f之前，我们稍微修改权重w：0我们使用2点最大滤波器和2点模糊滤波器（“blurpool”[51]）对w进行滤波，从而在w上产生宽而平滑的上包络。在重新归一化为和为1之前，我们在该包络上添加了超参数α，以确保即使在空间的空白区域也会绘制一些样本（我们在所有实验中将α设置为0.01）。Mip-NeRF是在JaxNeRF[11]之上实现的，JaxNeRF是NeRF的JAX[4]重新实现，其准确性和训练速度优于原始的TensorFlow实现。我们遵循NeRF的训练过程：使用批量大小为4096的Adam[19]进行100万次迭代，并且学习率从5∙10-4按对数方式退火到5∙10-6。有关更多详细信息以及JaxNeRF和mip-NeRF之间的一些不会显著影响性能的其他差异，请参见补充材料：锥追踪、IPE和单一多尺度MLP的使用。04. 结果0我们在原始NeRF论文[30]中提供的混合器数据集上评估mip-NeRF，还在该数据集的一个简单的多尺度变体上进行评估，该变体旨在更好地探测多分辨率场景上的准确性，并突出显示NeRF在此类任务上的关键脆弱性。我们报告了NeRF使用的三个误差度量：PSNR、SSIM [45]和LPIPS[52]。为了方便比较，我们还提供了一个“平均”误差度量，总结了这三个度量：MSE = 10 − PSNR /01 −SSIM（根据[5]），以及LPIPS。我们还报告了运行时间（墙上时间的中位数和中位数绝对偏差），以及每个NeRF和mip-NeRF变体的网络参数数量。所有JaxNeRF和mip-NeRF实验都在32核的TPUv2上进行训练[17]。我们构建了我们的多尺度混合器基准测试，因为NeRF使用的原始混合器数据集具有微妙但关键的缺陷：所有相机具有相同的焦距和分辨率，并且与物体的距离相同。因此，这个混合器任务比大多数真实世界的数据集要容易得多，因为相机可能更接近或更远离主体，或者可能进行缩放。这个数据集的限制与NeRF的限制相辅相成：尽管NeRF倾向于产生混叠渲染，但它能够在混合器数据集上产生出色的结果，因为该数据集系统地避免了这种失败模式。0.7090.9100.9310.6630.8630.9590.9710.8810.9400.9790.9890.9780.4480.5620.6960.9060.5250.6330.7940.9180.7850.8370.8610.975PSNRSSIMLPIPS58610地面真实值 NeRF + 区域、中心、其他 Mip-NeRF0图5：mip-NeRF的输出与地面真实值、NeRF和改进版本的NeRF在我们的多尺度混合器数据集中的两个场景的测试集图像上的可视化比较。我们以4个不同尺度的裁剪区域进行可视化，显示为图像金字塔，每个尺度的SSIM显示在右下角，并以红色突出显示每个尺度的最高SSIM。无论是从视觉上还是从定量上，mip-NeRF都明显优于NeRF和其改进版本。更多这样的可视化结果请参见补充材料。0全分辨率 1 / 2 分辨率 1 / 4 分辨率 1 / 8 分辨率全分辨率 1 / 2 分辨率 1 / 4 分辨率 1 / 8 分辨率全分辨率 1 / 2 分辨率 1 / 4 分辨率 1 / 8 分辨率平均 ↓ 时间（小时）＃参数0NeRF（Jax实现）[11, 30] 31.196 30.647 26.252 22.533 0.9498 0.9560 0.9299 0.8709 0.0546 0.0342 0.0428 0.0750 0.0288 3.05 ± 0.04 1,191K NeRF + 区域损失 27.224 29.578 29.445 25.039 0.9113 0.93940.9524 0.9176 0.1041 0.0677 0.0406 0.0469 0.0305 3.03 ± 0.03 1,191K NeRF + 区域、中心像素 29.893 32.118 33.399 29.463 0.9376 0.9590 0.9728 0.9620 0.0747 0.0405 0.0245 0.0398 0.0191 3.02 ± 0.051,191K NeRF + 区域、中心、其他 29.900 32.127 33.404 29.470 0.9378 0.9592 0.9730 0.9622 0.0743 0.0402 0.0243 0.0394 0.0190 2.94 ± 0.02 1,191K0Mip-NeRF 32.629 34.336 35.471 35.602 0.9579 0.9703 0.9786 0.9833 0.0469 0.0260 0.0168 0.0120 0.0114 2.84 ± 0.01 612K Mip-NeRF w/o Misc. 32.610 34.333 35.497 35.638 0.9577 0.9703 0.97870.9834 0.0470 0.0259 0.0167 0.0120 0.0114 2.82 ± 0.03 612K Mip-NeRF w/o Single MLP 32.401 34.131 35.462 35.967 0.9566 0.9693 0.9780 0.9834 0.0479 0.0268 0.0169 0.0116 0.0115 3.40 ± 0.011,191K Mip-NeRF w/o Area Loss 33.059 34.280 33.866 30.714 0.9605 0.9704 0.9747 0.9679 0.0427 0.0256 0.0213 0.0308 0.0139 2.82 ± 0.01 612K Mip-NeRF w/o IPE 29.876 32.160 33.679 29.6470.9384 0.9602 0.9742 0.9633 0.0742 0.0393 0.0226 0.0378 0.0186 2.79 ± 0.01 612K0表1：mip-NeRF及其消融版本与NeRF和多个NeRF变体在我们的多尺度混合器数据集的测试集上的定量比较。详细信息请参见正文。0多尺度混合器数据集我们的多尺度混合器数据集是对NeRF的混合器数据集的简单修改，旨在探索混叠和尺度空间推理。该数据集是通过对混合器数据集中的每个图像进行盒式下采样，因子为2、4和8（并相应修改相机内参），并将原始图像和三个下采样图像合并成一个数据集来构建的。由于投影几何的性质，这类似于重新渲染原始数据集，其中相机到物体的距离增加了2、4和8倍。在对该数据集进行mip-NeRF训练时，我们通过原始图像中每个像素的占地面积来缩放每个像素的损失（1/4图像的损失缩放16倍，等等），以便少量的低分辨率像素与许多高分辨率像素具有可比较的影响力。该任务的平均误差度量使用每个尺度上的每个误差度量的算术平均值。可以在表1中看到mip-NeRF在这个多尺度数据集上的性能。由于NeRF是混合器数据集上的最先进方法（如表2所示），我们仅评估NeRF和几个改进版本的NeRF：0“CenteredPixels”为每个光线的方向添加半个像素偏移，使光线通过每个像素的中心（而不是每个像素的角落，如Mildenhall等人所做的），“Misc”添加了一些微小的改变，稍微提高了训练的稳定性（请参见补充材料）。我们还对mip-NeRF进行了几种消融评估：“w/oMisc”去除了这些微小的改变，“w/o SingleMLP”使用了NeRF的两个MLP训练方案（方程4），“w/oArea Loss”去除了按像素面积缩放的损失，“w/oIPE”使用PE代替IPE，这导致mip-NeRF使用NeRF的光线投射（带有中心像素），而不是我们的锥投射。mip-NeRF在这个任务上将平均误差降低了60％，在所有指标和所有尺度上都大大优于NeRF。“Centering”像素显著提高了NeRF的性能，但还不足以接近mip-NeRF。去除IPE特征会导致mip-NeRF的性能降低到“Centered”NeRF的性能，从而证明锥投射和IPE特征是推动性能的主要因素（尽管面积损失也有很大贡献）。“Single MLP”mip-NeRF消融表现良好，但参数数量是mip-NeRF的两倍，速度几乎比mip-NeRF慢20％（可能是由于该消融需要对t值进行排序和硬件性能差）。0.8090.8590.9230.6740.7140.772NeRF + Area, Center, Misc.29.9032.1333.4029.4731.232.61SS NeRF + Area, Center, Misc.32.2534.2735.9935.7334.5655.52Mip-NeRF32.6034.3035.4135.5534.462.48SS Mip-NeRF32.6034.7836.5936.1635.0352.7558620Ground-Truth NeRF NeRF+Cent,Misc Mip-NeRF0图6：即使在Mildenhall等人的较简单的单尺度Blender数据集上，mip-NeRF在小型或薄型物体（如LEGO卡车的孔（顶部）和船的绳索（底部））上也明显优于NeRF和我们改进的NeRF版本。0PSNR ↑ SSIM ↑ LPIPS ↓ 平均 ↓ 时间（小时）# 参数0SRN [39] 22.26 0.846 0.170 0.0735 - - Neural Volumes [25] 26.05 0.893 0.160 0.0507 - - LLFF [29] 24.880.911 0.114 0.0480 � 0.16 - NSVF [24] 31.74 0.953 0.047 0.0190 - 3.2M - 16M NeRF（TF实现）[30] 31.010.947 0.081 0.0245 > 12 1,191K NeRF（Jax实现）[11, 30] 31.74 0.953 0.050 0.0194 3.05 ± 0.011,191KNeRF + Centered Pixels 32.30 0.957 0.046 0.0178 2.99 ± 0.061,191K NeRF + Center, Misc. 32.28 0.9570.046 0.0178 3.06 ± 0.031,191K0Mip-NeRF 33.09 0.961 0.043 0.0161 2.89 ± 0.00612K mip-NeRF w/o Misc. 33.04 0.960 0.043 0.01622.89 ± 0.01612K mip-NeRF w/o Single MLP 32.71 0.959 0.044 0.0168 3.63 ± 0.021,191K mip-NeRFw/o IPE 32.48 0.958 0.045 0.0173 2.84 ± 0.00612K0表2：将mip-NeRF及其消融与几种基线算法和NeRF的变体在Mildenhall等人的单尺度Blender数据集上进行比较[30]。先前工作中的训练时间（如果有）以灰色表示，因为它们不直接可比。0由于其在“粗”尺度和“细”尺度上的张量大小变化，我们将其放置在这里。Mip-NeRF比NeRF快约7％。有关可视化，请参见图5和补充材料。Blender数据集尽管mip-NeRF旨在解决的采样问题在多尺度Blender数据集中最为突出，但mip-NeRF在Mildenhall等人提出的更简单的单尺度Blender数据集上也优于NeRF，如表2所示。我们对NeRF、NSVF[24]以及先前使用的相同变体和消融进行评估（不包括mip-NeRF在此任务中未使用的“面积损失”）。尽管不如多尺度Blender数据集引人注目，但mip-NeRF能够将平均误差减少约17％，同时速度更快。这种性能改进在挑战性案例中最为明显，例如小型或薄型结构，如图6所示。超采样如介绍中所讨论的，mip-NeRF是一种用于抗锯齿的预过滤方法。另一种方法是超采样，可以通过每个像素投射多个抖动的光线来实现NeRF。由于我们的多尺度数据集由降采样的数据组成0PSNR ↑ 平均时间0全分辨率 1 / 2 分辨率 1 / 4 分辨率 1 / 8 平均分辨率（秒/百万像素）0表3：mip-NeRF和我们改进的NeRF变体的比较，其中两种算法都进行了超采样（“SS”）。mip-NeRF几乎与“SSNeRF”的准确性相匹配，同时速度快22倍。将超采样添加到mip-NeRF会稍微提高其准确性。我们报告了渲染测试集的时间，以每秒像素数标准化（训练时间与表1和表2相同）。0通过使用完整

下载后可阅读完整内容，剩余1页未读，立即下载