单目视频驱动的非刚性神经辐射场：动态场景重建与创新视角合成

90 浏览量更新于2024-06-20 收藏 2.89MB PDF 举报

非刚性神经辐射场（NR-NeRF）是一种创新的深度学习方法，旨在解决单目视频动态场景的重建和新视点合成问题。它突破了传统的多视图捕捉限制，为用户提供一种利用手持消费级相机捕捉和渲染复杂动态场景的能力，如创造逼真的“子弹时间”视频效果。NR-NeRF的核心概念是将动态场景分解为规则的体积元素和非刚性变形部分，通过光线弯曲模型来表示场景随时间的变化。其工作流程如下： 1. 输入： NR-NeRF接受单眼视频序列作为输入，这些视频记录了动态场景的实时变化。这种方法的目标是克服单眼视频中的严重约束问题，因为它们通常无法提供足够的信息来完整重建场景的时空几何和外观。 2. 技术创新：该方法引入了一个非刚性神经辐射场，它不仅捕捉静态场景的几何结构，还能学习和预测物体的变形路径。这通过光线弯曲的概念实现，使得光线在穿过非刚性变形区域时发生弯曲，模拟出动态场景的真实感。 3. 刚性网络：为了提高稳定性，NR-NeRF还包括一个刚性网络，用于更好地区分场景中的刚性部分，如背景或静止物体，从而避免过度变形。这个网络的引入有助于保持渲染结果的自然和可信。 4. 自动学习：NR-NeRF的训练过程无需显式监督，能够自动学习跨时间和视图的密集对应关系，使得系统能够在没有外部标记的情况下执行复杂的视点变换和运动编辑，如运动夸张，增强了视频编辑的灵活性。 5. 应用前景：该技术的应用前景广泛，不仅限于电影和虚拟现实，也适用于增强现实领域，使得普通用户能够轻松地创作具有专业水准的动态场景视觉效果。 6. 开源承诺：NR-NeRF团队承诺开源他们的代码，以便于学术界和工业界的研究人员进一步探索和改进这一技术。总结来说，非刚性神经辐射场为动态场景处理带来了革命性的进展，它结合了深度学习和光线跟踪技术，使得单目视频成为动态场景重建的强大工具，有望推动视频合成和交互体验的发展。

12962

∈

联系

我们

联系

我们

∫

∪

通过累积的透射率和密度，沿着照相机射线。3D体积

由MLP

（

，

）

（

，

o）参数化，其回归RGB颜色

c（x

，

d）∈[0

，

和

对于方向为

d∈

的射线上的点

x∈

，不透明度o

（x）∈[0

，

1].

考虑

图像 c ≡ i

的

pi x el

（

，

）

。对于针孔

相

机，可以使用

、

和

来计算相关联的光线r

，

（

）

d（

，

），这产生光线原点o

和光线

方向

（

，

）

。然后，我们可以沿着从相机平截

头体的近平面

到远平面

的光线进行积分，以获得

在（

，

）处的最终颜色

：

（

，

）

= V

（

）

（

，

（

））

（

，

（

）

，

（

，

））

，

（

）

或者

在训练时

的输入图像

，我们想要渲染

正则体

积，使得图像被再现。为此，我们需要通过将相机

射线映射到与变形无关的正则体积来取消特定时间

步长

的变形我们首先从输入相机发出为了解释变

形，我们然后弯曲直射线，使得沿着弯曲射线采样并

随后渲染正则体

产生

。我们选择一个非常

不受

限制

的

参数

化的射线弯曲，即

MLP

。

具体来说，我们将光线弯曲实现为光线弯曲网络

（

，

） R

.对于例如位于直线上的点

，网络在由

表示的变形下回归偏移。然后将偏移添加到

，从而弯

曲射线。最后，我们通过新的，弯曲的射线点

其中

（j）

exp

（−

∫

（

，

（s）ds）是累积的-

（c

，

o）

v（x

b（x

，

））。

沿着从

直到

的射线的延迟透射率。在实践中

因此，积分由沿射线的离散样本

来近似。NeRF采用

具有网络权重θ c

的粗体积

v c和具有网络权重θ f的细体

积

。两

个

卷具有相同

的

架构，但不共享权重：

。当渲染光线

时

，

首先

在

沿着光线均匀分布的样

本处访问

这些粗样本用于估计透射率

分布，从中抽取精细样本。然后，在粗和细样本点的

组合集合处评估

我们参考原始文件以了解更多细节。

NR-NeRF的适应。我们假设朗伯材料，从而去除刚性

NeRF的视图相关层，

即，

我们设置c

c（x）。因为每

个图像都对应

在我们的非刚性模型中，体积的不同变形

设置，我们还学习每个时间步长的潜在代码，然后将

其用作对场景变形进行参数化的光线弯曲网络的输入

该网络的权值和潜在码由

和

共享.

3.2.

变形模型

原始的NeRF方法[45]假设刚性并且不能处理非刚性

场景。在NeRF框架中建模变形的一种简单方法是根据

变形来调节体积（

例如，

通过将其调节为时间或变形

潜在代码）。我们在第二节的实验中探讨了后一四点

三。正如我们将要展示的，除了没有提供硬对应之

外，这种天真的方法在重建输入相机路径时只能得到

令人满意的结果，但是对于新颖的视图合成给出了令

人难以置信的结果。相反，我们明确建模的

consideration 的几何形状和外观在整个时间的

disentangled他们从变形。

我们将所有帧的几何形状和外观累积到单个非变形

规范体积中。我们采用一般的空间扭曲（或射线弯

曲）的顶部

注意，v不以l

为

条件，这导致dis-i。

变形（b和

）与几何形状和外观（v）的缠结我们

将直线

的弯曲形式表示

为

（

）

（

）

（

）

，

）

。

刚性网络。然而，我们发现刚性部分

该公式不能充分地约束场景。我们将b（x

，

）

重

新公式化为原始偏移b

’

（x

，

）和刚性掩模

（x）

，

1]的乘积，

即，

b（x

，

）

（x）b

′

（x

，

）

对于刚性对象，我们想要防止变形，因此期望

（ x ）

0 ，而对于非刚性对象，我们想要

（x）

0。这使得b

’

更容易关注场景的非刚性部

分，其随时间变化，因为刚性部分可以被联合训练

的刚性网络

掩盖因为刚性网络不以潜在代码

为条

件，所以它被迫跨时间步长共享关于场景中的区域

的刚性的知识，这也确保了刚性背景的可以在某些

时间步长处未正则化的部分仍然在所有时间步长处

被重构而没有任何变形。

3.3.

损失

在指定架构的情况下，我们接下来联合地优化所有

参数（θ，Φ，1

，

）。我们像往常一样优化网络权

重，但自动解码潜在代码

[76，56]。记法。为了便于

演示，我们考虑单个

时间步长

和带有粗射线的单个直

线射线

点C

{

（

）

}

∈

，对于一个均匀采样

的

[

，

]

和

细

射线点

（

）

∈

对于一

个

集合

重要

性抽样

的

。对于潜码l，弯曲

射线

g iv

（

）

∈

且

（

）

∈

实际

的

训练使用一批

随机选择的射线

训练图像。

重建损失。我们将NeRF的数据项调整为非刚性设置，

如下所示：

静态正则体积来模拟非刚性变形。

数据

（

）

−

（

）

（

∪

）

−

（

）

、

（二）

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

单目视频驱动的非刚性神经辐射场：动态场景重建与创新视角合成

nonrigid_nerf:随附代码“非刚性神经辐射场重建和单眼视频中变形场景的新颖视图合成”的代码的开放源代码存储库

汽车：自主品牌新视点：产品力新旧怎么看？.pdf

汽车：自主品牌新视点：产品力新旧怎么看？.zip

关于重置SOA新视点

IP摄像机引爆行业新视点

新能源汽车的新视点.pdf

信息时代档案管理的新视点.pdf

新视点在线考试系统（适合于各企事业单位与各院校及培训机构使用）

ASP源码—新视点ASP在线考试系统.zip

Relightable神经渲染器：多视图图像的重照明与视图合成新方法

最新资源