神经辐射流：用于4D视图合成和视频处理的神经隐式表示方法

29 浏览量更新于2023-10-15 收藏 2.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

深度4D视图合成1用于4D视图合成和视频处理的神经辐射流杜一伦MIT CSAIL斯坦福大学于红星斯坦福大学约书亚湾TenenbaumMIT CSAIL，BCS，CBMM斯坦福大学摘要我们提出了一种方法，神经辐射流（NeRFlow），从一组RGB图像学习一个动态场景的4D时空表示。我们的方法的关键是使用神经隐式表示，学习捕捉场景的3D占用，辐射和动态。通过在不同模态之间强制执行一致性，我们的表示能够在不同的动态场景中实现多视图渲染，包括倒水，机器人交互，培训视图/时间戳流和真实图像，优于用于空间-时间视图合成的现有技术的方法我们的方法，即使只提供一个单目的真实视频。我们进一步证明，学习的表示可以作为一个隐式的场景之前，使视频处理任务，如图像超分辨率和去噪，而无需任何额外的监督。1. 介绍我们生活在一个丰富而动态的世界中，由快速改变其外观的场景组成为了准确地对我们周围的世界建模，我们需要一个场景表示，它可以捕获场景的底层照明，物理和3D结构这样的表示有不同的应用：它们可以实现在虚拟现实中的空间和时间的交互式探索，捕捉游戏设计的现实运动，以及机器人感知和周围环境中的导航。传统的方法，例如在最先进的运动捕捉系统中使用的方法，通常专用于特定的现象[1，19]，并且无法处理复杂的遮挡和运动的精细细节。一个核心困难是信息的高分辨率覆盖需要禁止量的存储器。最近的工作已经通过使用神经网络作为场景去噪的参数化来解决代码在https://yilundu.github.io/nerflow/。图1：给定一组从不同位置捕获的训练图像通过使用3D视图和时间戳，NeRFlow学习捕获底层3D结构和动态的时空表示，并且进而实现4D视图合成。尾[41，62，42]。然而，这些场景表示通常需要静态场景和从许多相机捕获的大量图像，这在现实世界场景中通常不可用。在这项工作中，我们的目标是学习一个动态的场景表示，它允许逼真的新的视图合成复杂的动态，观察到只有有限数量的（少至一个）相机与已知的相机参数。关键的挑战是每个时刻的观察是稀疏的，限制了先前的方法[41，62]拟合复杂场景。为了解决这个问题，我们提出了一种新的方法，神经辐射流（NeRFlow），它可以有效地聚合跨时间的部分观察，以学习一个连贯的时空场景表示。我们通过制定辐射流场，鼓励外观，密度和运动的时间一致性来实现这一点。辐射流场由两个连续隐式神经函数表示：用于外观和密度的6D（空间位置x，y，z，时间戳t和观看方向θ，θ）辐射函数，以及用于场景动态的4D（空间-时间位置x，y，z，t）流函数。我们的表示，使两个模块的联合学习，这是至关重要的，在每个时刻只有稀疏的观察具体地，流场提供了空间流场的时间对应性。1432414325这使得在不同时刻捕获的外观和密度信息能够跨时间传播。另一方面，辐射函数描述了场景几何学，其通知流模块关于对象如何移动。我们的模型是完全可微的，因此可以直接使用梯度反向传播进行训练。通过学习3D结构和动力学，我们的模型可以完成4D视图合成（图1）。为了评估我们的方法，我们考虑几个具有挑战性的设置：反映流体动力学的倾倒场景、机器人从近到远行走以呈现具有大遮挡的长距离运动的室内场景、具有透明物体的多个复杂真实场景、以及捕捉人体运动的单目视频。我们的方法产生高质量的4D视图合成，并优于最近的最先进的方法[42]。此外，我们证明了我们的方法可以作为一种动态场景先验，它允许视频去噪和超分辨率，而无需任何额外的监督，优于经典和最先进的内部学习方法。总之，我们的工作有三个贡献。首先，我们提出了一种新的方法，神经辐射流（NeRFlow），学习隐式时空场景表示。它能够跨空间和时间进行新颖的视图合成。第二，我们表明，我们的方法可以是有效的，非常有限的意见，只有一个摄像头。我们通过引入一组时间一致性约束场景外观，密度和运动来实现这一点。最后，表明我们的方法可以作为一个隐式场景先验，优于经典和内部学习方法在超分辨率和图像去噪。2. 相关作品神经场景表征。最近，已经开发了神经连续隐式场[9，34，58，17，77，50，48，40，62]来解决离散化问题和经典3D表示的有限分辨率，例如体素网格[5，39，11，76，56，73，72]，点云[53，13，54，14][2019 -09-18][2019 -09 -18][2019- 09 - 18]Park等人[50]提出了一种神经符号距离函数来表示场景几何。Mescheder等人[40]开发了用于场景重建的神经占据场然而，它们需要地面实况3D监督，这可能很难获得。为了直接从图像中学习神经场景表示，可微分渲染[47，23，36，62]被合并以桥接2D观察和底层3D场景。Sitzmann等人[62]用连续的特征场表示场景，并提出一个神经绘制层，以允许仅用姿态图像进行优化。Niemeyer等人[47]使用隐式微分来桥接2D图像和3D纹理场。在最近的开创性工作中，Mildenhallet al. [41]介绍了一种神经辐射场（NeRF），可以使用仅校准图像.然而，这些作品只考虑静态场景。相比之下，我们的目标是学习时空动态场景表示有限的观察。虽然通过假设在每个时间步长处有大量可用视图来将现有技术扩展到4D是合理的我们的设置在现实世界中的动态事件捕获的意义;它还在汇总不同时间的稀疏、部分观测结果方面提出了巨大挑战。4D重建。关于一般场景的时空4D重建的大多数现有工作需要在每个时刻进行足够的观察[46，44，43，29，66，49]。然而，这些方法需要在每次篡改时进行完整的观察另一个工作线专注于特定类别[4，12，21，27，65，80]，例如具有模板模型的人体和面部，允许较少的观察作为输入。使用模板模型与变形允许领域知识，可以很容易地添加，并保证时间的一致性。因此，该范例被广泛用于特定形状域[24，4，12，21，27，65，80]，例如人脸[4]，身体[27]和手[57]。然而，这些方法在很大程度上取决于模板模型的质量，并且获得超出流行形状域的高质量模板模型可能是与这些方法不同，我们的NeRFlow不做特定领域的假设，并且能够从有限的观察中学习。新颖的视图合成。虽然在空间[41，61，45，25，20，7，16，81，71]或时间（即，视频帧内插）[22，38，3，63]分别被广泛研究，用于动态场景的空间-时间合成被相对较少地探索[82，31]。最近的工作已经通过学习时间扭曲函数[35，42]或逐帧合成新视图[2]将基于深度学习的新视图合成方法扩展到时间域中。Lombardi等人[35]通过神经特征体积对场景进行建模，并通过利用时间特定的扭曲函数对体积进行采样来合成给定时刻的新视图Bemana等人[42]目标在于通过学习智能扭曲函数来进行跨空间和时间的视图内插。然而，基于扭曲的方法受到输入分辨率的限制。我们的工作与他们的不同之处在于，我们学习了一种连续的隐式表示，理论上可以扩展到任意分辨率。深度网络优先。深度网络已被证明表现出拟合自然图像[67，68，32]和时间一致的视频[10]的先验趋势，即使没有在大规模数据集上进行训练。该属性被称为隐式图像/视频先验。类似地，我们的方法可以从非常稀疏的观察中学习神经动态场景表示为了解释这样的样本效率，我们假设我们的学习方法本身可以作为一个14326LLSSSts隐式场景先验”。我们通过拟合噪声和低分辨率观测来验证它，同时显示出良好的去噪和超分辨率结果。虽然我们的发现与Ulyanov等人的观点相似。[67]，先前的趋势来自我们的3D渲染架构。并行工作。与我们的工作同时，几个相关的工作[51，75，30，52，64]也研究了整合时间信息用于稀疏时间步长新颖视图合成。与其他作品分开，我们学习了一个单一的一致的连续的时空辐射场，其被约束以生成跨空间和时间的一致的4D视图合成这使得能够直接通过辐射场跨视点和时间戳两者进行直接渲染。这对于学习离散的时间戳相关变形场的其他方法是不可能的[51，52，64]。类似于我们的方法，[75，30]也学习连续的空间-时间辐射场，但是虽然我们的方法使用神经ODE [8]在连续时间上实施一致性，但是它们仅在观察到的时间戳处实施一致性因此，虽然我们的方法可以渲染中间时间戳，[75]请注意，使用其时空辐射场的插值渲染不够好。此外，我们进一步表明，我们的方法可以适用于视频处理任务。我们证明我们的学识（在-1和1之间编码）和视图方向，并输出发射的颜色和密度，其可以用于通过射线行进和体积渲染形成图像[41]。第二个模块，流场，采用位置和时间的4D输入，并输出其流量或动态。我们在下面详细描述光辉领域。辐射率函数Rθ是6维函数，其将4D位置x=（x，y，z，t）和2D观察方向（θ，θ）作为输入，并且输出发射颜色c=（r，g，b）和体积密度σ，表示对应3D点的颜色和透明度（图2的顶部）。由于密度与视角无关，因此我们预测体积密度σ与视角方向无关。为了更好地聚合跨视图视觉外观信息，我们还将预测的颜色分解为视图不变的漫射部分cdiffuse和视图相关的specular部分cspecular。由于镜面反射通常是稀疏观察到的，因此在训练期间，我们将2正则化损失添加到c镜面反射的幅度。流场进行流函数Fθ表示场景的潜在动态。Fθ将4D位置作为输入x=（x，y，z，t）。输出流场f=（f，f，f）=∫x，y，z，，辐射场可以采用低分辨率或噪声作为输入Xyz普雷特t图像，然后可以被渲染以生成高分辨率或无噪声图像。3. 神经辐射流（NeRFlow）我们的目标是学习一个隐含的神经场景表示对于动态场景，这使得时空小说表示空间中每个点的瞬时运动通过积分，该函数可用于导出任何点的未来位置。特别地，给定连续点（xs，ys，zs，ts），该点在时间戳tg处的未来位置可以通过积分获得为（x，y，z）+ ∫ tg f（x，y，z，t）dt.视图合成，给定每个时刻的图像观察和相关联的姿态的潜在有限集合一个关键的挑战是有效地聚合来自不同时间戳的部分观测，同时实现时空相干性。我们提出了神经辐射流（NeRFlow），它学习场景的外观，密度和运动联合，同时鼓励这些组件的时间一致性。具体地，NeRFlow在内部通过神经辐射场表示场景外观和密度，并且其通过流场表示场景动态。这两个场相互作用以传播在不同时刻观察到的外观、密度和运动信息，这些信息由一组源自基本物理直觉的一致性损失调制我们在图2中显示了NeRFlow的概述。在下文中，我们首先描述辐射和流场。接下来，我们介绍了如何学习这两个领域共同使用时间一致性损失。最后，我们概述了RGB图像的训练监督和整体实现的细节3.1. 辐射和流场NeRFlow由两个独立的模块组成。第一个模块，辐射场，采用位置、时间和辐射场的6D输入3.2. 时间相干学习在整个学习过程中，我们强制辐射和流场的一致性，以便它们相互作用以跨时间聚集和传播部分观察到的信息如图3所示，这种内部学习过程由一组关于场景外观、密度和运动的一致性损失来调节由于我们考虑可能不完全覆盖视角的时间上的稀疏观测，因此我们仅强制漫射颜色cdiffuse（第3.1节）而不是镜面反射颜色的一致性。外观一致性。物体的漫反射率在其四处移动时保持恒定。假设入射辐射在物体表面近似相同[55]，则发射的漫射颜色保持恒定。这种颜色恒定性假设是许多光流算法的基础，并且近似地保持，特别是当运动很小时。在这个假设下，我们开发了外观一致性损失。特别地，给定在时间戳t处的随机采样的3D点x，我们最小化x的颜色与在未来时间戳t处的预测的对应关系x。14327∫x+F（x（t））dt. 这种现象与cy可以是eθ相L−--L−RGRRGGSts--θ角∫辐射场观看方向（，）6D输入输出量：！ C o l or +Density体绘制光线距离图像渲染1流场4D输入！输出：速度一体化1反投影12外观密度2运动223D关键点一致性一致性一致性位置+时间（，）不同时间的通信2图3：在辐射和流场之间强制执行多个图2：NeRFlow由两个独立的模块组成，一个是通过神经渲染训练的辐射场（顶部），另一个是通过3D关键点对应训练的流场（底部）在测试过程中，我们只使用辐射场合成新的图像。训练，使得在较早时间戳处捕获的辐射信息时间戳tc（在[t0. 5，t +0。RGB=cdiffuse（x）cdiffuse（xc），其中流函数Fθ提供点对应，由xc=tc不被视为能够传播颜色信息的一种方式。在较早（或较晚）的时间戳中收集的信息与当前时间戳的信息相比较。颜色表示的这种传播在具有有限动态相机的设置中尤其重要，其中可见帧在时间上彼此完全不相交密度一致性。物体运动时，其坚固性自然保持不变因此，我们还强制执行，跨时间的点的密度也与动力学一致类似于外观一致性，我们将密度一致性定义为密度=σ（x）σ（xc）。我们注意到密度一致性可能特别有用有了这些一致性损失，NeRFlow可以从不同时刻的有限观察中学习时空相干场景表示3.3. 从视觉观察中我们引入了NeRFlow的时间相干我们进一步概述了从现场的视觉观察的培训监督。用于图像监控的体绘制。给定构成的图像（即使用相机矩阵），我们使用体积渲染来训练我们的模型[41]。特别地，令（ci，〇i）表示沿着相机射线r的N个随机样本的颜色和体积密度。我们通过alpha合成获得像素的RGB值：N i−1对于像流体这样的颗粒，如流体流动cr=ΣTiαici，Ti=Y（1−αi）， αi=1−exp（−σiδi），如果没有某种形式的密度一致性，很容易丢失。我们在倾盆大雨场景中的实验显示了这一点的好处i=1RRrR r r r rj=1动作一致性。我们的运动正则化基于两个常见的物理直觉：第一，空的空间看起来是静止的，第二，物体在自然场景中平滑地移动。对于第一个假设，静态的空的空间应该始终没有运动。因此，我们强调低密度区域必须表现出低流量。为了实现这一点，我们沿着相机光线r投射N个查询点，并且选择前K个查询点，使得剩余相机点的透射率大于0.99。然后我们惩罚通过LFlow=Fθ（qk）得到每个查询点的L2幅值。第二个假设可以被解释为所有场景表现出相对低的加速度。此外，移动物体（诸如步行机器人）通常在其表面上和其体内的所有点处操纵类似的流。因此，我们鼓励流函数在空间和时间上都是平滑的，通过以下方式惩罚所有随机采样点x处的流函数的梯度：LAcc=Fθ（x）2。其中δi表示射线上的相邻点之间的采样距离。然后，我们通过L Render = c r −RGB训练辐射率函数，以最小化预测颜色和地面真实 RGB 颜色之间的均方误差（MSE）。光流监控。除了图像监督之外，我们还使用Farnback的方法[ 15 ]提取光流对应然后，我们使用深度图（合成场景的地面实况和真实视频的[37]）和相机姿势获得3D时空关键点对应关系的集合。给定在时间戳ts处观察到的点xs=（xs，ys，zs）与在时间戳tg处观察到的点xg=（xg，yg，zg）之间的3D关键点对应，我们使用Runga-Kutta求解器[8]对来自点xs的流函数应用积分以获得候选关键点。点xc，其中xc=x+tgF（x（t））dt.然后我们训练我们的流函数通过L Corr = x c − x g来最小化预测和真实对应之间的MSE。1114328LL L LL×个×个3.4. 实现细节在训练NeRFlow时，我们首先只使用Render来预热训练。然后，我们使用我们的全损失Render+Corr+α来训练NeRFlowRGB+β密度+流速+Acc，其中α，β= 0。001。我们在辐射函数的输入上利用位置嵌入[41]来实现以下捕获：高频细节。我们省略了流函数中的位置嵌入，以鼓励平滑流预测。有关其他培训详情，请参见附录。4. 实验我们验证了NeRFlow的性能代表-地面实况X-FieldsNeRFlow（我们的）从四个新视图和时间戳[74]第59话，我是你的女人，我是你的男人。图4：“全视图”设置中Gibson的结果。图像从[42，37，78]通过多视图渲染。我们进一步表明，我们的方法推断出高质量的深度和流量图。最后，我们证明了NeRFlow可以作为场景先验，去噪和超分辨率视频。4.1. 4D视图合成12212211数据我们使用三个动态场景的数据集。浇注：浇注场景包含流体动力学[59]。0,0,0(a) 双视图0,0,0(b) 立体视图我们以400 - 400像素渲染图像。我们使用1,000张图像的训练集和100张图像的测试集。吉布森：吉布森的场景有一个机器人走了很长一段距离。我们在iGibson环境[74]上渲染图像，使用RS交互式场景，机器人TurtleBot在地板上线性移动。每个图像以800 - 800像素呈现。我们使用300张图像的训练集大小和100张图像的测试集大小。真实图像：我们的真实图像数据集由两个来源组成第一个是来自 [42] 的两个真实动态场景，名为 Ice 和Vase，其中Ice包含透明对象，Vase是一个复杂的室内场景。第二个是来自[37]和[78]的单眼真实世界视频为了对[42]中的两个真实动态场景进行评估，我们将90%的图像作为训练集，剩余的10%作为测试集，并使用COLMAP [60]来获得所有图像的姿势。指标. 为了衡量我们的方法的性能，我们使用LPIPS[79]，PSNR，SSIM [70]和MSE报告了新的视图合成性能。基线。我们比较了四个基线。第一个是来自Open4D [2]的最近邻基线（使用VGG特征距离）。第二种是最近的最先进的方法，X-Fields [42]，它依赖于扭曲现有的训练图像来合成新的视图。第三个是一个并发的工作，NonRigid NeRF [64]，使用作者提供的代码库。我们还与消融进行了比较。合成图像的结果。在合成图像上，我们在三种不同的设置中进行了系统的分析，用于对不同的方法进行基准测试：1）全视图，其中多视图训练图像在时间上均匀绘制;2）图5：限制视图设置中的摄像头图示。立体视图或双视图，其中训练图像由两个移动相机捕获;3）稀疏时间戳，其中训练图像从场景中的所有时间戳的固定稀疏子集中绘制。‘Full 在Full View设置中，对于Pouring数据集，我们在上半球随机采样相机姿势;对于Gibson数据集，我们从一组面向前方的场景中采样相机。表1和2（全视图）分别包括Pouring和Gibson数据集NeRFlow在所有指标上都优于基线我们发现，在浇注，其中建模流体动力学是困难的，NeRFlow是能够捕捉流体飞溅的模式和动态。在Gibson上，它表现出长距离运动和遮挡（图4），NeRFlow能够处理机器人的遮挡。“立体视图”和“双视图”结果。在“立体视图”设置中，训练图像由两个附近的摄像机捕获，这两个摄像机随时间一起围绕一个圆旋转。在“双视图”设置中，训练图像由两个完全相对的摄像机捕获，这两个摄像机随时间一起围绕一个圆旋转我们在图5中说明了这两种设置。我们测试图像合成从随机视图上的任何位置的圆在任何时间。为了很好地完成这一任务，模型必须学会整合跨不同时间戳捕获的辐射信息。我们在表1和表2（立体视图和双视图）中报告结果我们的模型再次优于所有基线。在这种情况下，我们发现一致性使我们的方法14329模型LPIPS↓ PSNR↑ SSIM↑MSE↓LPIPS↓ PSNR↑ SSIM↑MSE↓LPIPS↓ PSNR↑ SSIM↑MSE↓LPIPS↓ PSNR↑ SSIM↑MSE↓最近邻0.102325.340.98580.00510.208522.890.96670.01380.130525.790.97890.00880.123724.210.98370.0061[42]第四十二话0.099328.830.99380.00190.126121.250.98090.00760.119020.920.97870.00820.104128.650.99330.0021非刚性NeRF [64]0.105731.510.99680.00090.132423.380.98810.00530.105728.120.99530.0015----NeRFlow w/o Consist.0.103536.300.99850.00040.121927.980.99420.00230.102131.800.99820.00060.106833.750.99800.0006NeRFlow（我们的）0.098036.570.99900.00030.117028.290.99580.00200.085135.290.99910.00030.094935.870.99850.0004模型表1：我们的方法与其他方法在Pouring数据集上的新视图合成设置的比较全视图立体视图双视图稀疏时间戳LPIPS↓ PSNR↑ SSIM↑MSE↓LPIPS↓ PSNR↑ SSIM↑MSE↓LPIPS↓ PSNR↑ SSIM↑MSE↓LPIPS↓ PSNR↑ SSIM↑MSE↓最近邻0.194517.190.87280.02190.331415.030.85010.04220.242516.860.88320.02960.208416.900.86980.0250[42]第四十二话0.275321.550.94100.00960.392717.750.92740.01930.258719.130.93700.01420.283921.290.93780.0106非刚性NeRF [64]0.149525.190.96160.00740.316219.430.94010.01320.251420.050.94830.0102----NeRFlow w/o Consist.0.106529.590.98460.00280.280622.470.95970.00700.272922.260.95890.00690.113025.050.97120.0072NeRFlow（我们的）0.098430.220.98490.00290.249623.650.96900.00520.219824.840.97580.00370.107325.220.97170.0070Gr#$n（r$）*+，Fi/01表2：我们的方法与其他人在Gibson数据集上的新颖视图合成设置的比较5763/1$0）1#n89/5：63/1$0）1#n;71/2/3F0#45#r16模型[42]第四十二话LPIPS↓0.2271PSNR↑18.69SSIM↑0.9347MSE↓0.0140模型[42]第四十二话LPIPS↓0.2151PSNR↑ SSIM↑ MSE↓19.92 0.9259 0.0105NeRFlow（我们的）0.203129.040.0012NeRFlow（我们的）0.19720.0013图6：来自X-Fields [42]使用的稀疏图像数据集的Ice（a）和Vase（b）的新视图合成结果我们将在4.2节的消融研究中详细说明。“稀疏时间戳”结果。我们进一步考虑的情况下，从一个固定的，稀疏的子集的所有时间戳的场景中绘制的训练图像特别是，我们在Pouring上每10个时间戳中有1个训练模型，在Gibson上每5个时间戳中有1个训练模型在测试期间，模型需要在任意时间戳渲染。这样的任务测试我们的模型的时间内插能力，用于应用程序，如慢动作生成和帧速率上转换。我们在表1和表2（稀疏时间戳）中报告定量结果。NonRigid NeRF不适用于该设置，因为它学习场景中每个时间戳的每个时间戳潜伏期同样，NeRFlow表现良好，一致性提高了渲染性能。一致性将辐射场约束为相对于时间平滑地改变，使得能够平滑地呈现中间时间戳。由于篇幅所限，定性结果和其他分析见补充材料。真实图像上的结果。我们进一步评估我们的方法对真实图像：我们全视图立体视图双视图稀疏时间戳14330在X场[42]中的图像数据集上执行新视图合成，以及在来自[37，78]的单眼真实视频数据集上执行4D视图合成图6显示了X-Fields数据集上的新视图合成结果我们发现，NeRFlow在真实图像中捕获透明度和各种照明效果，而X-Fields则在重影中挣扎。我们还在图7中显示了来自[37，78]的单目视频数据集的4D视图合成结果。我们在4D视频合成上可视化三组不同的结果：（1）同一时间戳的多个视图;（2）来自同一视图的多个时间戳;（3）随机采样的视图和时间戳。在所有情况下，时间戳和视图的组合都不在训练集中。NeRFlow始终提供更好的结果。注意，对于最左边的视频，由于时间扭曲的优势，X场出现以获得不正确的渲染姿势补充资料中有其他单眼视频结果。4.2. 分析和可视化接下来，我们分析NeRFlow，以可视化其学习的深度和流图，并研究一致性损失如何影响14331（）*+s-（）*+s-（）*+s-（）*+s-×个2*l304le60ews7338es79e 309es37942*l304l e309es3794 s：+938es79e60ew#7;1 9ls794le160ews 7;1309es3794s图像推断深度推断流量图7：来自[78，37]的真实单眼视频上的4D合成（新视图和时间戳）与X场的比较门控动态建模的辐射信息我们通过噪声光流和运动一致性（L流和Lacc）在静态位置强制零场景流。我们现在通过考虑两种变体来消除这种分离的影响：（1）通过去除运动一致性（w/o Motion Consist.）来减少静态分离（2）通过仅对具有低于阈值0.01的流量的点强制一致性来去除图9示出了这些模型的定量结果，除了我们的完整模型和消融模型之外，没有任何一致性。图8：估计深度和流量的可视化（x、y、z分别表示为RGB坐标的流动方向型号全视图立体视图双视图NeRFlow w/o一致性0.3747 0.4433 0.4003NeRFlow（我们的）0.3692 0.2701 0.2675表3：具有或不具有物理约束的NeRFlow的深度估计的评估我们报告MSE误差与地面实况深度。赞扬这种表示的学习和最终结果。我们在Pouring上运行我们的分析，因为它的简单性导致了大多数可解释的结果。深度和流量图的可视化。在图8中，我们可视化推断的深度和流场。我们发现，推断的流场捕获倾倒的动态，包括液体的流动以及杯子的运动。我们在MSE方面定量地比较了表3中具有和不具有所有一致性损失的NeRFlow的深度估计精度通过在时间上强制执行几何恒定性，我们发现我们的一致性损失改善了来自NeRFlow的深度估计，特别是在有限的相机设置中。稠度损失的消融研究我们的一致性损失可以被看作是一种明确地强制分离的方式静态和动态组件。当场景流被预测为接近0时，出现/密度的静态时间一致性被强制执行，而非零场景流比例被强制执行。在“灌注”的“立体视图”设置从质量上讲，一致性可以更有效地跨时间传播信息。它使渲染显示更一致的流体放置。补充材料包括我们的消融的每个变体的附加定性结果，其表明减少静态监督导致静态结构不良，并且去除动态建模导致动态区域的建模不良。4.3. 视频处理给定一组捕捉动态场景的图像，NeR- Flow学习表示底层的3 D结构及其随时间的演变该场景描述可以被视为场景先验。通过在我们的场景描述上利用体积渲染，我们完成了额外的视频处理任务，如视频去噪和超分辨率。数据集。我们评估我们的方法上的视频去噪和图像超分辨率的任务。为了测试去噪，我们在同一场景的1，000个分辨率为400 400的浇注图像上训练我们的模型，在Blender中使用2个光线投射（与第4.1节中使用的128条光线相比）渲染，并使用128个光线投射测试渲染图像和从Blender获得的地面真实图像之间的差异。我们还评估了我们对[37]中的单眼真实视频（Ayush）进行去噪的方法，其中我们损坏了Ne#$lw（）X/$0el1sNe#$lw（）*+s-X/$0el1sNe#$lw（）X/$0el1sNe#$lwX/$0el1sNe#$lwX/$0el1s（）*+s-（）*+s-14332地面实况NeRFloww/o Consist.NeRFlow（我们的）输入非本地BVPNeRFlow（我们的）地面实况从四个新视图和时间戳模型LPIPS↓PSNR↑SSIM↑MSE↓不带光流0.1390 27.81 0.9932 0.0023w/o组成2019年12月31日无运动组成2019年12月31日不含动态建模0.1317 28.09 0.9938 0.0022NeRFlow（满）0.1170 28.29 0.9958 0.0020数据模型LPIPS ↓ PSNR ↑ SSIM ↑ MSE ↓非局部均值[6]0.466224.910.9263 0.0032倒盲视频先验[10] 0.557218.240.8891 0.0151NeRFlow（我们的）0.355628.460.9837 0.0014非本地平均值[6]0.305123.490.9856 0.0046阿尤什[37] 盲视频之前[10] 0.270721.670.9797 0.0070NeRFlow（我们的）0.137227.710.9949 0.0018图9：灌注的立体视图设置一致性正则化确保外推视点中的合理渲染我们还可视化了我们的模型的结果，有或没有一致性正则化。型号LPIPS ↓PSNR ↑SSIM ↑MSE ↓双三次插值0.1427 30.27 0.9961 0.0012[10]第十话0.1870 30.580.99630.0009NeRFlow（我们的）0.0903 30.670.99630.0009表4：NeRFlow、盲视频先验[10]和双三次插值在图像超分辨率任务上的结果具有高斯噪声的输入帧，其标准偏差为25.为了测试超分辨率，我们在同一场景的1,000张分辨率为64×64的浇注图像上训练我们的模型，并测试大小为200×200的图像的渲染。基线。我们与最近的最先进的内部学习方法BlindVideo Prior [10]进行了比较，该方法使用学习过的网络来近似任务映射。在训练期间，我们使用经典算法的输出来监督盲视频先验的去噪和超分辨率：用于去噪的非局部均值[6]和用于超分辨率的双三次插值。我们还直接与这些经典算法进行了比较。视频去噪图10示出了去噪的结果。NeRFlow实现了比基线更真实的图像和更低的重建误差。通过在输入图像上积累辐射信息，我们的表示学习去除大多数图像噪声。在真实的单眼视频上，NeRFlow还获得了比我们的基线（如在LPIPS中）更真实的图像，并且实现了更低的MSE。视频超分辨率。最后，我们使用表4中的基线评估我们的图像超分辨率方法。我们发现，在这种设置中，我们的方法再次实现了比我们的基线（如由LPIPS确定的）更图10：NeRFlow、盲视频先验[10]和非局部均值[6]在去噪任务上的结果。其中盲视频先验实现可比较的图像MSE。当从我们的辐射函数渲染更高分辨率的图像时，NeRFlow中的表示具有跨不同输入图像的累积辐射信息，并且能够渲染更高分辨率的细节，尽管仅在低分辨率图像上训练。补充材料包括定性结果。5. 讨论我们已经提出了NeRFlow，一种学习动态场景的强大的时空表示的方法我们已经表明NeRFlow可以用于从有限的相机（例如，单眼视频）。我们还表明，NeRFlow可以作为一个学习的场景先验，它可以应用于视频处理任务，如视频去噪和超分辨率。局限性：从有限的图像观察表示一个动态的3D场景视图合成提出了很大的挑战，除了信息聚合。我们的方法并没有明确地解决在3D几何和动态区域的模糊性。这种模糊性导致难以对复杂的真实场景进行建模，并且难以随着时间的推移保持静态背景。我们设想解决这两个挑战可以大大改进我们的方法，例如，明确地分离静态背景和动态前景以确定哪些区域应当具有非零流，并且利用密集深度图来解决几何模糊性。鸣谢：杜一伦是由美国国家科学基金会研究生奖学金资助的。这项工作得到ONR MURI N 00014 -18-1-2846、IBM Thomas J. Watson研究中心CW 3031624、三星全球研究拓展（GRO）计划、亚马逊、Autodesk和高通。14333引用[1] Bradley Atcheson、Ivo Ihrke、Wolfgang Heidrich、ArtTevs 、 Derek Bradley 、 Marcus Magnor 和 Hans-PeterSeidel。非稳态气流的时间分辨三维捕获。ACM图形事务（TOG），27（5）：1-9，2008。一个[2] Aayush Bansal 、 Minh Vo 、 Yaser Sheikh 、 DevaRamanan和Srinivasa Narasimhan。来自无约束多视图视频的动态事件的4D可视化。在IEEE/CVF计算机视觉和模式识别会议论文集，第5366-5375页，2020年。二、五[3] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE计算机视觉和模式识别集，第3703二个[4] Amit Bermano 、 Thabo Beeler 、 Yeara Kozlov 、 DerekBradley、Bernd Bickel和Markus Gross。眼睑的详细时空重建。 ACM Transactions on Graphics （ TOG ）， 34（4）：1-11，2015。二个[5] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。用卷积神经网络进行生成和判别体素建模。arXiv预印本arXiv：1608.04236，2016。二个[6] Antoni Buades、Bartomeu Coll和J-M.莫瑞尔一种非局部图像去噪算法。2005年IEEE计算机视觉与模式识别会议（CVPR），2005年。八个[7] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。在Proceedings of the 28th annual conference on Computergraphics and interactive techniques ， pages 425- 432 ，2001中。二个[8] Ricky TQ Chen ， Yulia Rubanova ， Jesse Bettencourt，and David K Duvenaud.神经元常微分方程NeurIPS，2018。三、四[9] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议论文集，第5939-5948页二个[10] Qifeng Chen Chenyang Lei，崖州邢通过深度视频先验的盲视频时间一致性。https://arxiv.org/pdf/2010.11838.pdf，2020年。二、八[11] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。二个[12] Huseyin Coskun，Felix Achilles，Robert DiPietro，NassirNavab，and Federico Tombari.长短期记忆卡尔曼滤波器：用于姿态正则化的递归神经估计器。在IEEE计算机视觉国际会议论文集，第5524-5532页二个[13] Gil Elbaz，Tamar Avraham，and Anath Fischer.使用深度神经网络自动编码器的用于定位的3D点云配准在IEEE计算机视觉和模式识别会议论文集，第4631-4640页二个[14] Haoqiang

下载后可阅读完整内容，剩余1页未读，立即下载