无界抗混叠神经辐射场模型用于无限场景的高真实感渲染

99 浏览量更新于2023-10-26 收藏 2.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5470Mip-NeRF 360：无界抗混叠神经辐射场乔纳森·T.巴伦1本米尔登霍尔1多尔韦尔宾1，2普拉图尔P。彼得·赫德曼11谷歌2哈佛大学摘要虽然神经辐射场（NeRF）在物体和小的有界空间区域上已经展示了令人印象深刻的视图合成结果，但是它们在“无界”场景上挣扎，其中相机可以指向任何方向并且内容可以存在于任何距离处。在这种情况下，现有的NeRF类模型通常会产生模糊或低分辨率的渲染（由于附近和远处对象的细节和比例不平衡我们提出了一个扩展的mip-NeRF（一个NeRF的变体，解决采样和混叠），使用非线性场景参数化，在线蒸馏，和一个新的基于失真的正则化，以克服由无界场景的挑战。我们的模型，我们称之为神经辐射场（NeRF）通过在基于坐标的多层感知器（MLP）的权重内编码场景的体积密度和颜色来合成场景的高度真实感渲染这种方法已经实现了逼真视图合成的重大进展[30]。然而，NeRF使用沿着射线的无限小的3D点对MLP的输入进行建模，这在渲染不同分辨率的视图时会导致混叠Mip-NeRF通过扩展NeRF来纠正这个问题，以代替沿着圆锥体的体积截头体[3]。虽然这提高了质量，但NeRF和mip-NeRF在处理无限场景时都很困难，其中相机可能面向任何方向，并且场景内容可能存在于任何距离。在这项工作中，我们提出了一个扩展mip-NeRF我们称之为将NeRF类模型应用于大型无界场景(a)mip-NeRF [3]，SSIM=0.526（b）我们的模型，SSIM=0.804图1. (a)虽然mip-NeRF能够生成对象的精确渲染，但对于无界场景，它通常会生成模糊的背景和低细节前景。(b)我们的模型生成了这些无界场景的详细逼真渲染，这可以从两个模型的渲染图（上图）和深度图（下图）中得到有关其他结果，请参阅补充视频。提出了三个关键问题：1. 参数化。无界360度场景可以占据任意大的欧氏空间区域，但mip-NeRF要求3D场景坐标位于有界域中。2. 效率大而详细的场景需要更多的网络容量，但是在训练期间沿着每条射线密集地查询大的MLP是昂贵的。3. 模棱两可。无界场景的内容可以位于任何距离处，并且将仅通过少量射线观察到，从而加剧了从2D图像重建3D内容的固有模糊性。参数化。由于透视投影，远离相机放置的物体将占据图像平面的一小部分，但是如果放置在附近，则将占据更多的图像并且细节可见。因此，3D场景的理想参数化应该将更多容量分配给附近的内容，而将更少容量分配给远处的内容。在NeRF之外，传统的视图合成方法通过对投影全景中的场景进行参数化来5471×∼ ×∼ ×∼ ×空间[2，4，8，14，21，24，33，42，49]或通过将场景内容嵌入已使用多视图立体恢复的某个代理几何结构[15，23，38]中。NeRF成功的一个方面是它将特定场景类型与其适当的3D参数化配对。最初的NeRF论文[30]集中在具有掩蔽背景的物体的360度捕获和所有图像大致面向相同方向的正面场景上。对于掩蔽对象，NeRF直接在3D欧几里得空间中参数化场景，但对于正面场景，NeRF使用在投影空间中定义的坐标（标准化设备坐标，或通过将无限深的相机截头体扭曲成有界立方体，其中沿z轴的距离对应于视差（反距离），NDC以与透视投影的几何结构一致的方式有效地重新分配NeRF MLP然而，在所有方向上（而不仅仅是在单个方向上）无边界的场景需要不同的参数化。NeRF++ [46]和DONeRF [31]探索了这个想法，前者使用了一个额外的网络来模拟遥远的物体，后者提出了一个空间扭曲过程来将遥远的点缩小到原点。这两种方法的行为与NDC有些类似，但在每个方向上，而不仅仅是沿着z轴。在这项工作中，我们将这个想法扩展到 mip-NeRF，并提出了一种方法，用于将任何平滑参数化的体积（而不是点），也提出了我们自己的参数化无界场景。效率处理无界场景的一个基本挑战是这样的场景通常是大的和详细的。尽管NeRF类模型可以使用令人惊讶的少量权重准确地再现场景的对象或区域，但当面对日益复杂的场景内容时，NeRF MLP的容量会另外，较大的场景需要沿每条射线显著更多的样本，以准确地定位表面。例如，当将NeRF从对象缩放到建筑物时，Martin- Brualla等人。[27]将MLP隐藏单元的数量增加了这种模型容量的增加是昂贵的-NeRF已经需要几个小时来训练，并且将这个时间乘以额外的40对于大多数用途来说是非常缓慢的。NeRF和mip-NeRF使用的从粗到细的重新采样策略加剧了这种训练成本：使用“粗”和“细”射线间隔多次评估这种方法是浪费的，因为场景的“粗糙”渲染对最终图像没有贡献。我们将训练两个MLP，而不是训练在多个尺度上监督的单个NeRF MLP：MLP提案预测体积密度（但不是颜色），这些密度用于重新采样提供给NeRF MLP的新间隔，然后NeRF MLP渲染图像。至关重要的是，建议MLP产生的权重不使用输入图像进行监督，而是使用NeRF MLP生成的直方图权重进行监督这使得我们可以使用一个大的 NeRFMLP，它被评估的次数相对较少，同时使用一个小的建议MLP，它被评估的次数更多。因此，我们的整个模型我们可以把这种方法看作是一种“在线蒸馏”：虽然“蒸馏”通常指的是训练一个小网络来匹配已经训练好的大网络的输出[17]，但在这里，我们通过同时训练两个网络，将NeRF MLP预测的输出结构“在线”地提取到建议的MLP中。NeRV [43]为一个完全不同的任务执行类似的在线蒸馏：训练MLP近似渲染积分，以建模可见性和间接照明。我们的在线蒸馏方法在精神上类似于DONeRF中使用的“采样预言网络”，尽管该方法使用地面实况深度进行监督[31]。TermiN-eRF [36]中使用了一个相关的想法，尽管这种方法只会加快推理速度，实际上会减慢训练速度（NeRF被训练为收敛，然后再训练一个额外的模型）。NeRF在Detail [1]中探索了一个学习的一些作品试图将训练过的NeRF提取或通过分层数据结构（如八叉树[40]或包围体层次结构[39]）加速光线跟踪的想法在渲染文献中得到了很好的探索，尽管这些方法假设场景几何形状的先验知识，因此不会自然地一般化到场景几何形状未知且必须恢复的逆渲染上下文事实上，尽管在优化NeRF类模型的同时构建了八叉树加速结构，但神经稀疏体素场方法并没有显著减少训练时间[25]。模棱两可。虽然传统上使用场景的许多输入图像来优化NeRF，但是重新覆盖从新颖的相机角度产生逼真的合成视图的NeRF的问题仍然从根本上受到约束-无限系列的NeRF可以解释输入图像，但是只有一小部分子集产生新颖视图的可接受的结果。例如，NeRF可以通过简单地重建每个图像来重建所有输入图像。5472ΣLR.Σ.Σ.−Σ。年龄作为一个纹理平面直接在其各自的相机前面。最初的NeRF论文通过在整流器之前将高斯噪声注入NeRF MLP的密度头来正则化模糊场景虽然这通过阻止半透明密度来减少一些已经提出了NeRF的其他正则化器，例如密度上的鲁棒损失[16]或表面上的平滑惩罚[32，48]，但这些解决方案解决了与我们不同的问题（分别是缓慢渲染和非光滑表面）。此外，这些正则化器是为NeRF使用的点样本而设计的，而我们的方法被设计为与沿着每个mip-NeRF射线定义的连续权重一起工作。这三个问题将分别在第2、3和4节中讨论，在回顾mip-NeRF之后。我们将使用一个新的数据集，包括具有挑战性的室内和室外场景，演示我们对先前工作的改进我们敦促读者观看我们的补充视频，因为我们的结果在动画时最受欢迎。其中C（r，t）是最终渲染的像素颜色。通过构造，保证α合成权重w的总和小于或等于1。首先使用均匀间隔的“粗略”距离t c渲染光线，距离tctc<$U[tn，tf]，tc=sort（{tc}）.（五）在训练期间，该采样是随机的，但在评估期间，样本从tn到tf均匀间隔。在MLP生成“粗略”权重w c的向量tf=sort（{tf}）.（六）由于粗权重wc倾向于集中在场景内容周围，因此该策略提高了采样效率。通过经由梯度下降优化MLP参数ΘNeRF来恢复 mip-NeRF，以最小化粗略和精细重建损失的加权1. 分类：mip-NeRF110次侦察（C（r，tc），C（r））+LRecon（C（r，tf），C（r））（7）让我们首先描述一个完全训练的mip-NeRF [3]如何渲染投射到场景中的单个光线的颜色r（t）=r∈R其中是训练数据中的射线集，C（r）是对应于光线r的地面真值颜色取自o+td，其中o和d分别是射线的原点和方向，t表示沿射线的距离。在mip-输入图像，以及LRecon是均方误差在NeRF中，定义距离t的排序向量，并且射线被分成一组区间值Ti=[ti，ti+1）。F或每个区间i，我们计算对应于区间（半径）的截头圆锥体的均值和协方差（μ，μ）=r（Ti其由光线的焦距和图像平面上的像素大小确定2. 场景和光线参数化虽然存在关于无界场景的点的参数化的先前工作，但是这没有提供针对mip-NeRF上下文的解决方案，在该上下文中，我们必须重新参数化高斯。要做到这一点，首先让我们将f（x）定义为某种平滑的坐标变换，.Σ。ΣΣΣL−1Rn → Rn（在我们的例子中，n = 3）。我们可以计算出γ（μ，μ）=sin（2Aµ）exp−22A−1diag（μ）cos（2Aµ）exp−22A−1diag（μ）A=0（一）此函数的近似值：f（x）f（µ）+Jf（µ）（x−µ）（8）这是NeRF相对于近似截头圆锥体的高斯所使用的编码的期望这些特征被用作由权重ΘNeRF参数化的MLP的输入，其输出密度τ和颜色c：<$Ti∈t，（τi，ci）=ML P（γ（r（Ti））;ΘNeR F）.（二）视图方向d也被提供作为MLP的输入，但是为了简单起见，我们省略了这一点。使用这些密度和颜色，我们使用数值求积来近似体积渲染积分[28]：其中Jf（μ）是μ处f的雅可比矩阵。有了这个，我们可以将f应用于（µ，Σ）如下：f（μ，μ）=f（μ），Jf（μ）<$Jf（μ）T（9）这在功能上等同于经典的扩展卡尔曼滤波器[19]，其中f是状态转换模型。我们对f的选择是如下的收缩：.xx≤1C（r，t）=（3）第一章contract（x）=21xXxΣ（105473）我我i此设计与NDC具有相同的动机：wi=.1−e−τi（ti+1−ti）e−i'

下载后可阅读完整内容，剩余1页未读，立即下载