基于神经网络的多视点三维视频合成

123 浏览量更新于2023-10-25 收藏 4.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5521∗∈基于神经网络的多视点三维视频合成Tianye Li1，2，米凯拉·斯拉夫切娃2，米凯尔·佐尔霍费尔2西蒙·格林2克里斯托夫·拉斯纳2昌吉尔·金3坦纳·施密特2史蒂文·洛夫格罗夫2迈克尔·戈泽尔2理查德·纽科姆2朝阳吕21南加州大学2现实实验室研究3Meta图1.我们提出了一种新的方法来表示和渲染高质量的3D视频。我们的方法训练一个新的和紧凑的动态神经辐射场（DyNeRF）在一个有效的方式。我们的方法演示了近真实感的动态新颖的视图合成复杂的场景，包括具有挑战性的场景运动和强大的视图相关的影响。我们展示了三个合成的3D视频，并在每个右上角的热图可视化中显示了相关的高质量几何图形请参阅高质量视频和其他信息的补充。摘要我们提出了一种新的3D视频合成方法，能够表示多视图视频记录的动态现实世界的场景在一个紧凑的，但表现力的表示，使高质量的视图合成和运动插值。我们的方法将静态神经辐射场的高质量和紧凑性引入一个新的方向：无模型动态设置。在我们的方法的核心是一个新的时间调节神经辐射场，表示场景动态使用一组紧凑的潜在代码。我们能够显着提高训练速度和感知质量的生成图像的一种新的分层训练方案结合射线重要性采样。我们学习的表示是高度紧凑的，能够表示10秒30 FPS的多视图视频记录的18个摄像机的模型大小只有28MB。我们证明，我们的方法可以呈现高保真广角小说的意见，在超过1K的分辨率，即使是复杂和动态的场景。我们进行了广泛的定性和定量评估，表明我们的方法优于最先进的。项目网址：https://neural-3d-video.github.io/。同等贡献。TL1. 介绍真实感的动态现实世界场景的再现和渲染是极具挑战性的研究课题，但从电影制作到虚拟现实和增强现实，具有许多重要的应用众所周知，动态真实世界场景难以使用经典的基于网格的表示来建模，因为它们通常包含薄结构、半透明对象、镜面反射表面和拓扑，由于多个对象和人的通常复杂的场景运动，拓扑随着时间不断演变。在理论上，6D全光函数P（x，d，t）是用于该渲染问题的合适表示，因为它包括：完全解释了我们的视觉现实，并能够在每一个时刻呈现每一个可能的视图[1]。在这里，XR3是相机在3D空间中的位置，d=（θ，θ）是观察方向，t是时间。因此，完全测量全光函数需要放置全向测量器。在任何可能的时间，在空间的任何位置都有摄像头神经辐射场（NeRF）[38]提供了一种解决这个问题的方法：不是直接编码全光函数，而是将场景的辐射场编码为隐式的基于坐标的函数，可以通过光线投射进行采样以近似全光函数。然而，训练和渲染神经辐射场所需的光线投射涉及hun-5522对每条射线进行MLP评估。虽然这对于场景的静态快照可能是可接受的，但是直接将动态场景重建为每帧神经辐射场的序列将是禁止的，因为存储和训练时间都随时间线性增加。例如，为了表示18台摄像机的10秒，30 FPS多视图视频记录，我们稍后将使用我们的方法进行演示，每帧NeRF将需要大约15000个GPU小时的训练和大约1 GB的存储。更重要的是，这种获得的表征只能将世界再现为一组离散的快照，缺乏任何手段来再现其间的世界。另一方面，神经网络[32]能够处理动态对象，甚至以交互式帧速率渲染。它的局限性是密集的均匀体素网格，由于固有的缺陷，该网格限制了重建场景的分辨率和/或大小。时间复杂度为O（n）在本文中，我们提出了一种新的方法，用于复杂的，动态的真实世界场景的三维视频合成，使高质量的视图合成和运动插值，同时是紧凑的。视频通常由稳定照明下的时不变分量和连续变化的时变分量组成。该动态分量通常在帧之间呈现局部相关的几何变形和外观变化。通过利用这一事实，我们建议重建一个动态神经辐射场的基础上的两个新的贡献。首先，我们将神经辐射场扩展到时空域。我们不是直接使用时间作为输入，而是通过一组紧凑的潜在代码来描述场景运动和外观变化。与更明显的选择额外的“时间坐标”相比它们还允许在时间上平滑插值，从而实现视觉效果，如慢动作或其次，我们提出了新的重要性采样策略的动态辐射场。神经场景表示的基于光线的训练将每个像素视为独立的训练样本，并且需要数千次迭代来遍历从所有视图观察到的所有像素。然而，捕获的动态视频通常在帧之间表现出少量的像素变化。这为通过选择对训练最重要具体来说，在时间维度上，我们在帧中使用粗到细的分层采样来调度训练。在光线/像素维度中，我们的设计倾向于对那些比其他像素更具时变性的像素进行采样。这些策略使我们能够显著缩短长序列的训练时间，同时保留高质量的重建结果。我们使用基于18个GoPro相机的多视图钻机来演示我们展示了多个具有挑战性的动态环境的结果-具有高度复杂的视图依赖和时间依赖效果的演示。与简单的每帧NeRF基线相比，我们表明，通过结合时间和空间重要性采样，我们在训练速度上实现了一个数量级的加速，对于10秒的30 FPS 3D视频，模型的大小小了总之，我们做出了以下贡献：• 我们提出了一种新的动态神经辐射场的时间潜在代码的基础上，实现高质量的三维视频合成的复杂，动态的现实世界的场景。• 我们提出了新的训练策略的基础上分层训练和重要性采样在时空域，这大大提高了训练速度，并导致更长的序列更高的质量的结果。• 我们提供时间同步和校准的多视图视频数据集，涵盖具有挑战性的4D场景，用于研究目的*。2. 相关工作我们的工作涉及到几个研究领域，如静态场景的新视图合成，动态场景的3D视频合成，基于图像的渲染和神经渲染方法。关于神经渲染应用和神经场景表示的详细讨论，我们参考调查[54]和[55]。一种新的静态场景视图合成方法。新的视图合成已经解决了显式重建纹理三维模型的场景和渲染从任意视点。多视图立体[15，49]和视觉外壳重建[13，27]已成功实施。复杂的视图相关效果可以通过光传输采集方法捕获[11，59]。已经提出了基于学习的方法来放松大量的所需视图，并加快几何重建[19，24，61]和外观帽的推理速度。真[5，35]，或组合重建技术[39，62]。新的视图合成也可以通过重用输入图像像素来实现。使用这种方法的早期作品解释了观点[8]。光场/Lumigraph方法[10，18，28，41]对输入图像光线进行重新采样，以生成新视图。这些方法的一个缺点是，它需要密集的采样来高质量地渲染复杂场景。最近，[14，22，37，51，66]学会了使用神经网络从参考视图中融合和重新采样像素。神经辐射场（NeRFs）[38]训练基于MLP的辐射和不透明度场，并实现新颖视图合成的最先进质量。其他方法[36，58]采用显式的基于点的场景表示，结合屏幕空间神经网络进行孔填充。[26]进一步推动这一点，并将场景外观编码为基于可微球体的表示。[50]员工* 网址https://github.com/facebookresearch/Neural_3D_Video5523∈∈∈ ∈∈特征的密集体素网格与用于视图合成的屏幕空间网络相结合。所有这些方法在静态场景的插值视图方面都很出色，但如何将它们扩展到动态设置还不清楚。动态场景的3D视频合成。这类技术支持动态场景的视图合成，也可能支持跨时间的插值。对于视频合成，[23]率先展示了显式合成的可能性，...（x，y，z，x，$）DyNeRF..（r，g，b）它捕捉几何和纹理。[67]提出了一种可以压缩并以交互速率重放的节奏分层表示。重建和动画对于人类特别好地研究[7，20，52]，但是通常基于模型执行和/或仅与高端捕获设置一起工作。[29]通过跟踪和完成捕获时间上一致的[9]提出了一种利用高端硬件捕获和压缩可流式传输的3D视频的系统。最近，基于学习的方法（如[21]）从稀疏相机视图实现了用于人类表演的体积视频捕获。[3]关注更一般的场景。他们将其分解为静态和动态组件，根据估计的粗略深度重新投影信息，并在屏幕空间中使用U-Net[4]使用神经网络进行时空和光照插值。[63]使用基于模型的步骤来将所估计的深度图合并为可以从新颖视图呈现的统一表示神经场景流场[30]结合了静态背景模型。时空神经辐射场[60]采用视频深度估计来监督时空辐射场。[17]最近提出了一种时间调节的辐射场，由其自己的预测流矢量监督。这些作品由于其单视图设置而具有有限的视角，并且需要额外的监督，例如深度或流量。[12，42，45，56]通过扭曲场或速度场显式建模动态场景，以使正则辐射场变形。STaR [64]使用几个严格变换的正则辐射场对刚性移动物体的这些方法无法对拓扑变化等具有挑战性的动态事件进行已经提出了几种辐射场方法来建模数字人[16，31，40，44，46]，但它们不能直接应用于一般的非刚性场景。此外，人们一直在努力改善野外场景的神经辐射场[34]，跨场景泛化。HyperNeRF [43]是一项关于动态新颖视图合成的并行工作，但他们专注于短序列中的单眼视频。神经网络[32]采用体绘制结合视图调节解码器网络来参数化单个对象的动态序列它们的结果在分辨率和场景方面受到限制时间复杂度O（n），时间复杂度O（n）是的[6]为VR应用启用6DoF视频，独立的阿尔法纹理网格，可以在图2.我们学习6D全光函数，我们的新的动态神经辐射场（DyNeRF）的条件的位置，查看方向和一个紧凑的，但表达的时变潜在代码。数百Mb/s的速率。该方法采用具有46个摄像机的捕获设置，并且需要大的训练数据集来构建强场景先验。相比之下，我们寻求一个统一的时空表示，使连续的观点和时间插值，同时能够表示一个完整的多视图视频序列的10秒，在短短的28MB。3. DyNeRF：动态神经辐射场我们解决的问题，重建动态三维场景的时间同步的多视点视频与已知的内部和外部参数。我们旨在从这种多相机记录中重建的表示应该允许我们在任意时间点从广泛的视点渲染逼真的图像。在NeRF [38]的基础上，我们提出了动态神经辐射场（DyNeRF），其直接从多个摄像机捕获的输入视频中优化DyNeRF是一种新型的连续时空神经辐射场表示，可通过在训练期间联合优化的我们的代表压缩了大量的输入视频从多个摄像机到一个紧凑的6D表示，可以在空间和时间上连续查询。学习的嵌入忠实地捕获场景的详细时间变化，例如复杂的光度和拓扑变化，而无需明确的几何跟踪。3.1. 表示表示3D视频的问题包括学习映射3D位置xR3，方向dR2和时间tR，到RGB的辐射率CR3和不透明度σR。基于NeRF [38]，其近似静态的5D全光函数。如果一个场景具有可学习的函数，一个潜在的解决方案是向函数添加时间依赖性：FΘ：（x，d，t）−→（c，σ），（1）.5524∈--Snˆ2¨¨¨exp（− <$σ（r（p），z））dp）。我们应用一个分层的sam-cfL有效=J其由具有可训练权重Θ的多层感知器（MLP）实现。一维时间变量t可以通过位置编码[53]映射到更高维的时间变量。空间，以类似于NeRF如何处理输入x和d的方式。然而，我们根据经验发现，对于这种设计来说，捕捉具有挑战性拓扑变化和时间的复杂动态3D场景是具有挑战性的(a) 时间外观变化(b) 关键帧的重要性时间(c) 完整序列的重要性时间1.00.1依赖的体积效果，如火焰。动态神经辐射场。我们用时变潜码ztRD对动态场景进行建模，如图所示。二、我们学习了一组时间相关的潜在代码，在-由离散时间变量t表示：FΘ：（x，d，zt）−→（c，σ）。（2）隐码提供了动态场景在某一时刻的状态的紧凑表示，它可以处理各种复杂的场景动态，包括变形，拓扑和辐射变化。我们将位置编码[53]应用于输入位置坐标，以将其映射到更高维的向量。然而，没有位置编码被应用于时间相关的潜在代码。在训练之前，在所有帧上独立地随机初始化潜在码zt渲染。我们使用体绘制技术来再现-在给定空间和时间的查询视图的情况下，对辐射场进行给定射线r（s）=o+sd，其中原点o和方向d由指定的相机姿势和本征函数定义，对应于该光线C（r）的像素的渲染颜色是对由累积不透明度加权的辐射的积分[38]：F型C（t）（r）=T（s）σ（r（s），zt）c（r（s），d，zt）ds. （三）Sn图3. 我们高效的培训策略概览。我们首先使用关键帧（b）然后在完整序列（c）上执行分层训练。在这两个阶段，我们应用射线重要性采样技术，以基于测量时间表观变化的权重图（a）关注具有高时变信息的射线。我们使用热图显示了基于全局中值图的采样概率的可视化示例（红色和不透明表示高概率）。3.2. 有效的培训对视频数据进行基于光线投射的神经渲染的另一个挑战每个时期的训练迭代次数与输入多视图视频中的像素总数线性缩放。对于来自18个摄像机的10秒、30FPS、1 MP多视图视频序列，在一个时期中存在约74亿个射线样本，这将花费约半周的时间来使用8个NVIDIA Volta类GPU进行处理。考虑到每条射线都需要重新访问多次才能获得高质量的结果，这种采样过程是基于射线的神经重建方法大规模训练3D视频的最大瓶颈之一。然而，对于自然视频，动态场景的大部分是时不变的或者仅包含动态场景的大部分。在特定时间小的时变辐射变化其中sn和sf表示视觉深度范围和累积不透明度T（s）的边界 =S不采用[38]中的分层抽样策略，在粗层次上进行分层抽样，然后在细层次上进行重要性抽样。损失函数。通过最小化渲染颜色C（r）和地面实况颜色C（r）之间的损失来同时训练网络参数Θ和潜码{zt}，并且在与来自所有训练相机视图R的图像像素相对应的所有射线r上以及贯穿记录的所有时间帧t∈ T对网络参数ΘL=λ-C（t）（r）-C（t）（r）- 。（四）篡改整个视频因此，均匀采样射线导致时不变观测和时变观测之间的不平衡。这意味着它是非常低效的，并且影响重建质量：时不变区域更快地达到高重建质量并且被无用地过采样，而时变区域需要额外的采样，从而增加了训练时间。为了探索3D视频背景下的时间冗余，我们提出了两种策略来加速训练过程（见图3）：（1）分层训练，通过从粗到细的帧选择来优化数据，以及（2）重要性采样，优先选择较高区域周围的射线。时间方差特别是，这些战略形成了一个不同的，Jt∈T，r∈Rj∈{ c，f}通过更加关注用于训练的时间帧集合S和像素集合I中的我们在粗和细两个级别上评估损失表示为C（t）和C（t），类似于Ne RF。We通过随机采样射线数据并优化每条射线的损失，-（t）（r）.（五）批次请注意，我们的动态辐射场是用这个简单的α2损失训练的，没有任何特殊的正则化。这两种策略相结合可以被视为一种自适应采样方法，有助于显著更快地22t∈S，r∈Ij∈{ c，f}5525ST我S{|∈∈T}×训练和提高渲染质量。分层训练。我们不是在所有视频帧上训练DyNeRF，而是首先在关键帧上训练它，我们sam-以固定的时间间隔K等距地提取所有图像，即=tt= nK，nZ+，t.一旦模型与关键帧监督融合，我们用它来初始化-对最终模型进行尺寸化，其具有与完整视频相同的时间由于每个片段内场景的每帧运动（由相邻关键帧划分）是平滑的，因此我们通过在粗嵌入之间进行线性插值来初始化精细级别的潜在嵌入。最后，我们使用所有帧的数据进行联合训练，进一步优化网络权重和潜在嵌入。粗略的关键帧模型已经捕获了视频中时不变信息的近似值。因此，精细的全帧训练只需要学习每帧的时变信息。雷重要性抽样。我们建议根据输入视频中的时间变化，对具有不同重要性的时间射线进行对于每个观测到的射线r，t，我们计算权重ω（t）（r）。在每次训练迭代中，我们随机选择一个时间帧t。我们首先对帧t的所有输入视图中的光线权重进行归一化，然后应用逆变换采样来选择基于这些重量。为了计算每条射线的权重，我们提出了三种基于不同见解的实现。• 全局中值（DyNeRF-ISG）：我们根据每条射线的颜色与其随时间变化的全局中值的残差来计算每条射线的权重。• 时间差（DyNeRF-IST）：我们根据两个连续帧中的色差计算每条光线的权重。• 组合方法（DyNeRF-IS）：结合两楼上的战略我们根据经验观察到，以高学习率训练DyNeRF-ISG导致动态细节的非常快的恢复另一方面，用低学习率训练DyNeRF-IST会产生一个平滑的时间序列，但仍然有些模糊。因此，我们在我们的最终策略DyNeRF-ISG（在后面的章节中称为DyN-eRF）中结合了两种方法的优点，该策略首先通过DyNeRF-ISG获得清晰的细节，然后通过DyNeRF-IST平滑时间运动。我们解释的三个战略的细节在Supp。Mat. 所有重要性采样方法都假定静态相机装备。4. 实验我们展示了我们的方法在各种各样的captured日常事件具有挑战性的场景运动，不同的照明和自投阴影，视图依赖的外观和高度体积的效果。我们进行了-尾部消融研究以及与我们的多视图数据和沉浸式视频数据的各种基线的比较[6]。补充材料。我们强烈建议读者观看我们的补充视频，以更好地判断我们的方法在高分辨率下的照片真实感，这不能很好地用指标来表示。我们在补充视频中演示了在商品VR耳机Quest 2中交互式播放我们的3D视频。我们进一步提供了捕获设置、数据集定义、比较设置、更多消融研究参数选择和失败病例讨论的全面详细信息4.1. 评估设置全光视频数据集。我们使用21个GoPro Black Hero 7摄像头构建了一个移动多视图捕获系统。我们以20282704（2.7K）的分辨率和30 FPS的帧速率捕获视频。多视图输入是时间同步的。我们使用COLMAP [48]获得相机的内部和外部参数。我们使用18个视图进行训练，除了一个观察多个人移动的序列使用14个训练视图之外，所有数据集都使用1个视图进行定性和定量有关捕获设置的更多详细信息，请参阅Supp. Mat.我们捕获的数据证明了视频合成的各种挑战，包括（1）高镜面反射、半透明和透明的对象，（2）具有变化拓扑的场景变化和运动（倾倒的液体），（3）自投射移动阴影，（4）体积效果（火焰），（5）具有强视相关效应的纠缠移动对象（焊枪和平底锅），（6）各种照明条件（白天、夜晚、来自侧面的聚光灯），以及（7）多个人在开放的起居室空间中四处移动，其中通过透明窗户看到室外场景，室内照明相对较暗。我们收集的数据可以提供足够的同步相机视图，用于高质量的4D重建具有挑战性的动态对象和自然日常室内环境中的视图相关效果，据我们所知，这在公共4D数据集中不存在。我们将发布数据集用于研究目的。沉浸式视频数据集。我们还使用直接在鱼眼视频输入上训练的[6基线。我们比较以下基线：• 多视图立体（MVS）：使用商业软件RealityCapture†逐帧渲染重建和纹理化的3D网格。• 局部光场融合（LLFF）[37]：使用预训练模型对LLFF生成的多平面图像进行逐帧渲染。• 神经网络（NV）[32]：一种使用扭曲规范模型的现有技术体积视频渲染方法†https://www.capturingreality.com/‡https://github.com/Fyusion/LLFF5526−×D表1.我们提出的方法与现有方法的基线和在10秒序列上以200K迭代训练的辐射场基线的定量比较方法PSNR ↑MSE ↓DSSIM ↓LPIPS ↓翻转↓MVS19.1213 0.01226神经胶质瘤22.7975 0.005250.06180.29510.2049LLFF23.2388 0.004750.07620.23460.1867NeRF-T28.4487 0.001440.02280.10000.1415DyNeRF†28.4994 0.001430.02310.09850.1455DyNeRF29.5808 0.001100.01970.08320.1347图4. 高品质的新颖的视图视频合成我们的ap-proach动态现实世界的场景。我们在每行的最后一列的颜色空间中可视化归一化深度。我们的代表是紧凑的，但表现力，甚至处理复杂的镜面反射和透明度。我们遵循与原始文件相同的设置• NeRF-T：如等式（1）中所述的时间NeRF基线1.一、• DyNeRF†：没有我们提出的分层训练和重要性采样的DyNeRF消融设置。由于篇幅的限制，我们在Supp中对重要性抽样策略和潜在代码维度进行了更多的消融分析Mat.指标. 我们评估了测试视图上的渲染质量和以下定量指标：（1 ）峰值信噪比（PSNR）;（ 2）均方误差（MSE）;（3）结构相异性指数测量（DSSIM）[47，57];（4）感知质量测量LPIPS [65];（5）感知误差差异FLIP [2];（6）公正-令人不快-差异（JOD）[33]。与参考视频相比，较高的PSNR和分数指示较好的重建质量，并且较高的JOD表示较少的视觉差异。对于所有其他指标，较低的数字表示更好的质量。对于长度小于60帧的任何视频，我们在完整视频上逐帧评估模型。考虑到高分辨率渲染所需的大量数据，我们每10帧评估一次模型，以计算Tab中长度等于或长于300帧的任何视频的逐帧指标。1.一、用于视频度量JOD，这需要一个堆栈的连续视频帧，我们评估了整个序列报告在标签上的模型。二、我们验证了2个视频序列，帧长度为300，PSNR相差最多0的情况。02比较每第10帧评估它们与在所有帧上评估它们。我们在1K分辨率下评估所有模型，报告来自每个评估帧的结果的平均值实施详情。我们在PyTorch中实现了我们的方法。我们使用与NeRF相同的MLP架构[38]除了我们使用512激活前8个MLP层而不是256。我们使用1024维的潜码。在分层训练中，我们首先只对K=30帧的关键帧进行训练。我们采用Adam优化器[25]，参数β1= 0。9和β2=0。999在关键帧训练阶段，我们将学习率设置为5e 4，并进行300K次迭代训练。我们在Supp中包含了重要抽样方案的详细信息Mat.我们将潜在代码学习率设置为比其他网络参数高10 每帧潜在码从 N （ 0 ， 0）开始初始化。 01 ），其中D=1024。整个培训大约需要一周的时间，使用8台NVIDIA V100GPU和24576条光线的总批量大小。4.2. 结果我们在图1和图4中展示了我们在不同序列上的新颖视图渲染结果。我们的方法可以代表，重新发送一个30 FPS的多视图视频长达10秒的长度与高品质。我们重建的模型可以在1K分辨率下实现接近真实感的连续新颖视图在Supp。在视频中，我们通过在两个离散的时间相关的潜在代码之间插入子帧潜在代码来使用内插的潜在代码进行渲染导致两个相邻输入帧之间的动态的平滑且合理的表示请参阅我们的补充视频的3D视频可视化。与基线进行定量比较。选项卡. 1显示了我们的方法与基线的定量比较，使用单帧指标的平均值2示出5527我们的MVS LLFF NV翻转：0.130翻转：0.206翻转：0.186翻转：0.207图5. 我们的最终模型与现有方法的比较，包括多视图立体（MVS），局部光场融合（LLFF）[37]和NeuralVolume（NV）[32]。第一行显示了测试视图上的新视图呈现。第二行将FLIP与地面实况图像进行比较。与其他方法相比，我们的方法可以实现最佳的视觉质量。表 2. 使用感知视频质量度量 Just-Objectionable-Difference（JOD）将我们提出的方法与基线进行定量比较[33]。数字越大（最大值为10）表示与地面实况的视觉差异越小。方法Neuralcadine LLFF NeRF-TDyNeRFJOD↑6.506.48 7.738.07RGB渲染动态区域放大DSSIM FLIP图6.序列的一个图像上DyNeRF变体的定性比较，其平均值报告在表1中。1.一、从左到右，我们展示了每种方法的渲染效果，然后放大到移动的火焰枪上，然后使用viridis色图（深蓝色为0，黄色为1，越低越好）可视化该区域的DSSIM和FLIP。使用感知视频度量与基线进行比较。我们训练所有基于基线的神经辐射场，我们的方法迭代次数相同，以实现公平的通信。型坯与现有的方法MVS、Neu-ralphon和LLFF相比，我们的方法能够捕获和渲染更真实的图像，在所有的定量测量中。与时变NeRF基础相比线NeRF-T和我们的基本DyNeRF模型没有我们提出的训练策略（DyNeRF†），我们的DyNeRF模型变体与我们提出的训练策略训练在所有指标中表现得更好。与基线的定性比较。我们强调了我们的方法与图中基线的视觉比较图5和图6。渲染图像和FLIP错误映射的视觉结果突出了我们的方法在使用指标无法很好量化的照片逼真度方面的优势。在图5中，我们与现有的方法进行了比较。带有纹理的MVS存在重建不完全的问题，特别是对于遮挡边界，如图像边界和窗口区域。烘烤纹理也不能适当地捕获镜面和透明效果，例如，窗户玻璃。LLFF [37]产生具有重影伪影的模糊图像和跨时间的不太一致的新颖视图，特别是对于遮挡边界处的对象和与前景的距离更大的对象，例如，透过演员身后的窗户看到了树木。来自神经网络[32]的结果包含模糊的伪影，并受到不一致的颜色和亮度的影响（可以在补充视频中更好地观察到）。相比之下，我们的方法实现了清晰的图像，不受“云伪影”的阻碍特别是，演员的细节（例如，帽子，手）和重要的细节（例如，火焰火炬，它包括一个高度反射的表面以及体积0.05310.14870.03920.12940.02350.1144DyNeRF†DyNeRFNeRF-T5528图8.使用DyNeRF进行室外重建失败的几个例子。图7.沉浸式视频数据集上的新视图渲染视频的快照[6]。火焰外观）被我们的方法忠实地捕获。此外，MVS和LLFF和NeuralVolume不能像我们的DyNeRF表示那样对场景进行紧凑和连续的时空表示。在图6中，我们比较了动态神经辐射场的各种设置NeRF-T只能捕获模糊的运动表示，这会丢失移动区域中的所有外观细节，并且无法捕获视图相关效果。虽然DyNeRF†具有与NeRF-T相似的定量性能，它显著提高了移动中的视觉质量区域相比，NeRF-T，但仍然努力恢复尖锐的外观细节。DyNeRF与我们提出的训练策略可以恢复尖锐的细节，在移动区域，包括火炬枪和火焰。训练时间比较。我们提出的方法是计算更有效的替代解决方案相比。逐帧训练NeRF模型是唯一可以实现与DyN-eRF相同的真实感的然而，我们发现训练单帧NeRF模型以实现相同的照片真实感需要大约50个GPU小时，总共需要15K GPU小时。30 FPS视频，时长10秒。我们的方法只需要1. 3K GPU小时，将所需计算量降低一个数量级。沉浸式视频数据集的结果[6]。我们进一步证明了我们的DyNeRF模型可以使用相同参数设置和相同训练时间的非前向和球形失真多视图视频创建相当好的3D沉浸式视频。图7显示了从我们的训练模型中渲染的一些新视图。我们将视频结果包含在补充视频中。DyNeRF能够通过紧凑的模型生成整个动态空间与[6]中使用的逐帧多球面图像（MSI）表示相比，DyNeRF将视频表示为一个空间时间模型，其大小更紧凑（对于5s 30 FPS视频为28 MB），并且可以更好地表示场景中的视图相关效应。给定相同的训练时间量，我们还观察到存在一些挑战，特别是给定相同的计算预算和如上所述的快速移动区域中的模糊。我们估计一个epoch的训练时间将需要4周，而我们只训练了所有模型使用所有像素的1/4持续一周。它需要更长的训练时间来获得清晰度，这仍然是我们目前的计算方法的挑战局限性。我们的方法目前面临着一些具有挑战性的情况。（1）具有大而快的运动的高度动态场景如图8，我们观察到在复杂的环境中处理快速运动特别困难，例如户外，后面是森林结构。分层训练期间的自适应采样策略可以在序列的挑战部分或更显式的运动建模期间放置更多关键帧，这有助于进一步改善结果。(2)虽然与基线方法相比，我们已经在训练速度方面取得了显着的改进，但训练仍然需要大量的时间和计算资源。需要找到进一步减少训练时间和加快测试时间（3）超出训练视图的边界的视点我们希望，在未来，我们可以学习强大的场景先验，将能够填补缺失的信息。(4)我们讨论了重要性采样策略及其有效性的假设下，从静态摄像机观察到的视频。我们离开这个策略的研究，从移动摄像机的视频作为未来的工作。我们相信这些当前的限制是后续工作中探索的良好方向，我们的方法是朝着这个方向前进的垫脚石。5. 结论我们提出了一种新的神经3D视频合成方法，它能够以紧凑而富有表现力的表示来表示动态场景的真实世界多视图正如我们已经证明的那样，我们的方法能够在28MB以下的18台摄像机上表示10秒长的多视图记录。我们的无模型表示可以实现高质量的视图合成和运动插值。我们的方法的核心是一种有效的算法来学习动态潜伏条件神经辐射场，显著提高训练速度，导致快速收敛，并实现高质量的结果。我们认为我们的方法是有效训练动态神经辐射场的第一步，并希望它能激发神经场景表示这一令人兴奋的新兴领域的后续工作5529引用[1] Edward H. Adelson和James R.卑尔根全光功能和早期视力的要素。视觉处理的计算模型，第3-20页。麻省理工学院出版社，1991年。1[2] PontusAndersson ， JimNilsson ， TomasA k en ine-Molle ？ r ， MagnusOskarsson ， Kal l eAstr ？ m ，andMarkDFairchild. 翻转：交替图像的差异评估器。计算机图形学与交互式计算机图形学的ACM研究进展技术（HPG 2020），3（2），2020年。6[3] Aayush Bansal 、 Minh Vo 、 Yaser Sheikh 、 DevaRamanan和Srinivasa Narasimhan。来自无约束多视图视频的动态事件的4D可视化。在IEEE/CVF计算机视觉和模式识别会议论文集，第5366-5375页，2020年。3[4] Mojtaba Bemana ， Karol Myszkowski ， Hans-PeterSeidel，and Tobias Ritschel. X场：隐式神经视图、光图像和时间图像插值。 ACM Transactions on Graph-ics（TOG），39（6）：1-15，2020。3[5] Sai Bi ， Zexiang Xu ， Kalyan Sunkavalli ， MilosˇHasˇan，Yan-nick Hold-Geoffroy，David Kriegman，andRavi Ramamoor- thi.深反射体积：来自多视图光度图像的可靠反射。arXiv预印本arXiv：2007.09892，2020。2[6] 迈克尔·布罗克斯顿、约翰·弗林、瑞安·奥弗贝克、丹尼尔·埃里克森、彼得·海德曼、马修·杜瓦尔、杰森·杜尔加里安、杰伊·布施、马特·惠伦和保罗·德贝维克。具有分层网格表示的沉浸式光场视频。ACM Trans-actionson Graphics（TOG），39（4）：86-1，2020。三、五、八[7] Joel Carranza，Christian Theobalt，Marcus A Magnor，and Hans-Peter Seidel.人类演员的自由视点视频。ACMTransactions on Graphics（TOG），22（3）：5693[8] 申昌Eric Chen和Lance Williams。视图插值，lation图像合成。在 Proceedings of the 20th annual conference onComputer graphics and interactive techniques，pages 279-288，1993中。2[9] Alvaro Collet 、 Ming Chuang 、 Pat Sweeney 、 DonGillett 、 Dennis Evseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。 ACM Transactions on Graphics（ToG），34（4）：1-13，2015。3[10] Abe Davis Marc Levoy和Fredo Durand非结构化光场。在Computer Graphics Forum ，第 31 卷，第 305-314 页中Wiley Online Library，2012. 2[11] Paul Debevec 、 Tim Hawkins 、 Chris Tchou 、 Haarm-Pieter Duiker、Westley Sarokin和Mark Sagar。获取人脸的反射场。在Proceedings of the 27th annual conferenceon Computer graphics and interactive techniques，pages145-156，2000中。2[12] Yilun Du ， Yinan Zhang ， Hong-Xing Yu ， Joshua BTenen-baum，and Jiajun Wu.用于4d视图合成和视频处理的神经辐射流。IEEE/CVF计算机视觉国际会议论文集，第14324-14334页，2021年。3[13] Car l osHern a'ndezEstebanandFrancisSchmitt. 剪影以及用于3D对象建模的立体融合。计算机视觉与图像理解，96（3）：367-392，2004。2[14] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。Deepview：使用学习的梯度下降进行视图合成。在IEEE计算机视觉和模式识别会议论文集，第2367- 2376页，2019年。2[15] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。IEEE Transactions on pattern analysis and machineintelligence，32（8）：1362-1376，2009. 2[16] Guy Gafni ， Justus Thies ， Michael Zollhofer ， andMatthias Nießner.用于单目4d面部化身重建的动态神经辐射场。在IEEE/CVF计算机视觉和模式识别会议论文集，第8649-8658页3[17] Chen Gao ，Ayush Saraf ，Johannes Kopf， and Jia-BinHuang. 从动态单目视频合成动态视图。 IEEEInternational Conference on Computer Vision，2021。3[18] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在Proceedings of the 23rdannual conference on Computer graphics and interactivetechniques，pages 43-54，1996中。2[19] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在IEEE/CVF计算机视觉和模式识别会议论文集，第2495-2504页，2020年。2[20] Kaiwen Guo ， Peter Lincoln ， Philip Davidson ， JayBusch ， Xueming Yu ， Matt Whalen ， Geoff Harvey ，SergioOrts-Escherano，RohitPandey，JasonDourgarian ， etal.There-lightables ： Volumetricperformance capture of humans with realistic

下载后可阅读完整内容，剩余1页未读，立即下载