动态场景的深度学习视图合成

161 浏览量更新于2023-10-13 收藏 14.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17490用于动态场景视图合成的Deep 3D Mask Volume0Kai-En Lin 1 Lei Xiao 2 Feng Liu 2 Guowei Yang 1 Ravi Ramamoorthi 101 加利福尼亚大学圣地亚哥分校 2 Facebook现实实验室0摘要0由于深度学习和各种新颖的表示方法，图像视图合成在重建逼真视觉方面取得了巨大成功。沉浸式虚拟体验的下一个关键步骤是动态场景的视图合成。然而，由于缺乏高质量的训练数据集以及动态场景视频的额外时间维度，存在一些挑战。为了解决这个问题，我们引入了一个多视角视频数据集，使用自定义的10摄像机架以120FPS的速度进行捕捉。该数据集包含96个高质量的场景，展示了各种户外场景中的视觉效果和人类互动。我们开发了一种新的算法，Deep 3DMaskVolume，它能够从静态相机捕捉的动态场景的双目视频中稳定地外推视图。我们的算法通过识别3D掩膜体积中容易出错的区域来解决不一致性问题，并用整个视频中观察到的静态背景替换它们。与简单的2D掩膜相比，我们的方法可以在3D空间中进行操作。我们展示了与逐帧静态视图合成方法或使用2D掩膜的方法相比，我们的方法具有更好的时间稳定性。生成的视图合成视频显示出最小的闪烁伪影，并允许更大的平移运动。01. 引言0近年来，视图合成在从图像中创建沉浸式虚拟体验方面取得了令人期待的成果。然而，为了重建与虚拟场景的引人入胜和亲密互动，需要能够融入时间信息的能力。在本文中，我们研究了一种特定的设置，其中输入视频来自静态的双目摄像机，新视图大多是从输入视频中外推出来的，类似于StereoMag[48]中的情况。我们认为这种情况很有用，因为双摄和多摄智能手机正在受到关注，对于3D视频会议、监控或虚拟现实头戴设备的播放也可能很有趣。此外，我们可以从静态摄像机架上获取数据集，如图1所示。虽然我们可以在每个单独的视频帧上应用最先进的图像视图合成算法[48, 41, 28,37]，但结果缺乏时间一致性，并且经常显示出闪烁的伪影。这些问题主要来自于未见区域的预测在时间维度上不一致，导致视频中的某些区域变得不稳定。在本文中，我们通过利用时间上的静态背景信息来解决外推视图时的时间不一致性。为此，我们使用一个3D掩膜体积，它允许在3D空间中进行操作，而不是使用2D掩膜，以推理场景中的移动物体，并在整个视频中重复使用静态背景观察。如图4所示，我们首先通过MPI网络将瞬时和背景输入提升为两组多平面图像（MPI）[48]。然后，我们对相同的输入图像进行变形，创建一个时间平面扫描体积，提供有关场景的3D结构的信息。掩膜网络将该体积转换为3D掩膜体积，使我们能够在两组MPI之间进行混合。最后，混合的MPI体积可以以最小的闪烁伪影渲染新视图。为了训练这个网络，我们还引入了一个新的多视角视频数据集，以解决公开可用数据的缺乏。我们构建了一个由10个运动相机组成的自定义相机架，并使用静态架捕捉高质量的120FPS视频（见图1）。我们的数据集包含96个不同的户外环境和人类互动的动态场景。我们展示了所提出的方法只使用两个输入视图就能生成与之前最先进的方法相比具有时间稳定性的结果。我们的贡献可以总结如下：•一个由96个动态场景组成的多视角视频数据集（第3节）；•一种新颖的3D体积掩膜，能够在3D中将动态对象与静态背景分割开来，产生比最先进的方法更高质量和时间稳定性的结果（第4.2节）。0由于算法在逐帧基础上预测未见区域，所以从未见区域中获取的估计结果在时间维度上不一致，导致视频中的某些区域变得不稳定。在本文中，我们通过利用时间上的静态背景信息来解决外推视图时的时间不一致性。为此，我们使用一个3D掩膜体积，它允许在3D空间中进行操作，而不是使用2D掩膜，以推理场景中的移动物体，并在整个视频中重复使用静态背景观察。如图4所示，我们首先通过MPI网络将瞬时和背景输入提升为两组多平面图像（MPI）[48]。然后，我们对相同的输入图像进行变形，创建一个时间平面扫描体积，提供有关场景的3D结构的信息。掩膜网络将该体积转换为3D掩膜体积，使我们能够在两组MPI之间进行混合。最后，混合的MPI体积可以以最小的闪烁伪影渲染新视图。为了训练这个网络，我们还引入了一个新的多视角视频数据集，以解决公开可用数据的缺乏。我们构建了一个由10个运动相机组成的自定义相机架，并使用静态架捕捉高质量的120FPS视频（见图1）。我们的数据集包含96个不同的户外环境和人类互动的动态场景。我们展示了所提出的方法只使用两个输入视图就能生成与之前最先进的方法相比具有时间稳定性的结果。我们的贡献可以总结如下：•一个由96个动态场景组成的多视角视频数据集（第3节）；•一种新颖的3D体积掩膜，能够在3D中将动态对象与静态背景分割开来，产生比最先进的方法更高质量和时间稳定性的结果（第4.2节）。02. 相关工作0我们的目标是在动态场景中实现时间上稳定的视角合成。我们受到了视角合成和时空综合的几种先前方法的启发。02.1. 视角合成0视角合成是一个复杂的问题，在计算机视觉和图形学中已经成为一个热门的研究领域。早期的工作利用密集采样来进行视角合成。012789345617500输入视图评估0相机40相机50相机0的新视图0基准0真实值0图1.我们的自定义相机架。左上角的图显示了我们在第5节中用于评估的配置。中间显示了来自相机4和相机5的输入立体图像序列。最右列显示了在相机0处渲染的新视图的裁剪。当新视图被平移了较大的距离时，会出现伪影。我们使用传统的MPI方法[28]作为基准算法。请注意，人头上方的区域失真并显示出“卡片堆叠”伪影。这种类型的伪影在动态视频中会闪烁，因为网络在每帧中产生了不连续的不可见区域。0场景中的光场[14，20]。基于图像的渲染技术[7，10]利用场景的代理几何形状生成新的视角渲染。对这个主题的后续扩展引入了对场景结构的更好建模[36]和手工启发式方法[9，33]。随着深度学习的主导地位，基于学习的方法[17，12，19，45，30]显示出了有希望的结果。最近，一类研究工作专注于将新的表示[48，29，28，41，11，18，25，39，31，23]与可微分的渲染流程相结合，以产生高质量的结果。另一个令人兴奋的进展是神经辐射场（NeRF）[29]，它将3D场景结构编码为紧凑的连续5D体积函数。尽管NeRF在视角合成方面显示出有希望的结果，但它必须对给定场景进行过度拟合，并且需要足够的样本（10个或更多），需要耗时的每场景训练。渲染时间可能需要30秒才能生成一张图像，而我们的流程允许在不需要专门优化的情况下在不到2秒的时间内进行推理和渲染，只使用双目输入视图。相反，本文我们专注于一种特定的分层表示，多平面图像（MPI）[42，48，41，28，6]，因为它在各种场景中提供了良好的泛化能力和实时渲染的效率。我们提出的方法直接解决了MPIs中引入的时间不稳定性问题，当不可见区域导致不同的估计时。02.2. 时空综合0时空综合是一个更复杂的问题，因为它不仅涉及到空间中新视点的移动，还包括时间上的差异。一些研究工作涵盖了外观变化，如改变视角时的重新照明[46，45，4，3，27]。然而，这些方法侧重于与静态场景相关的光照变化，将场景中的动态物体视为异常值。另一方面，一些方法直接针对动态场景[6，1，2，47，49]。虽然我们的方法利用了MPIs的相似性-0与Broxton等人[6]类似，他们使用46个相机的密集采样来重建视场的光场，实质上是在相机之间进行插值。我们的方法专注于类似于StereoMag[48]的立体声情况，目标是从双摄像头智能手机等立体输入中进行外推。此外，与基于深度的方法[1，47]不同，我们不需要任何显式深度图来渲染新的视点。由于基于深度的方法经常产生闪烁并需要填充空洞，因此我们使用更适合渲染的表示方法。这些方法没有解决的另一个问题是缺乏通用性。Bansal等人[1]在有限的数据上进行训练，这可能使学习的网络过度拟合到少数场景。此外，虽然Yoon等人[47]使用预训练网络确保在未见场景上的通用性，但仍需要人工生成的前景和背景分割掩码。我们捕捉了各种人际互动的动态场景来训练我们的网络，并确保它在不同的未见场景中具有通用性。此外，我们的网络利用从视频中提取的背景信息，并将其用于在3D空间中直接分割前景和背景，而无需任何人工输入。03. 数据集0高质量的视频数据集对于基于学习的新视角视频合成算法至关重要。理想的数据集应包含多样的场景，以多个同步视角进行捕捉。在这项工作中，我们介绍了一种新颖的多视角视频数据集。我们在第3.1节中讨论了现有数据集与我们数据集的限制。我们在第3.2节中描述了我们的数据捕捉和生成过程。最后，我们在第3.3节中讨论了我们数据集的统计数据和高级属性。03.1. 多视角视频数据集0如表1所示，我们评估了几个对于训练广义视角合成很重要的属性。17510数据集场景计数刚性摄像机大视差视图动态公开备注0真实前视[28] 65 � � 25 � � 松散的网格形成空间[11] 100 � � 16 � � 严格的网格形成沉浸式LF视频[6] 130 � � 46 � � 球形形成动态场景[47] 8 � � 12 � �少量时间帧单张图像LF[21] � 2000 � � 196 � � 小基线光场RealEstate10K[48] � 10000 � � 1 � � 静态场景Open4D[1] 6 � � 15 � �自由视点捕捉MannequinChallenge[22] � 2000 � � 1 � � 大部分静态场景X-Fields[2] 8 � � 5 � � 少量时间帧KITTI[26] 400 � � 2 � �汽车上的双目设置0我们的96 � � 10 � � 公开发布0表1. 不同多视角数据集的比较。0图2.数字时钟和随机移动的QR码模式用于执行同步。我们有两种方法来进行同步：（1）匹配时间戳；（2）对齐所有视图中的QR码位置。我们使用这些方法来确保同步足够准确。0网络。具体而言，刚性摄像机组合是首选，因为它可以提供良好的姿态先验，并确保估计的相机姿态的准确性。相反，像RealForward-Facing[28]和Open4D[1]这样的非结构化捕捉不使用姿态先验，并利用运动结构，这可能会根据场景几何和呈现的纹理产生不同的准确性。此外，刚性摄像机组合允许捕捉具有多个同时摄像机视图的动态场景。基于上述原因，我们的数据集是使用刚性和稳健的自定义摄像机组合进行捕捉的，以提供良好的姿态先验。视图数量也是多视角数据集的重要因素，因为不同的输入和目标摄像机对提供了基线和相机运动的多样性。X-Fields[2]和KITTI[26]提供有限的视图和相机运动，因此对于视频视角合成任务不太有用。我们的数据集以网格形式提供了10个不同的摄像机视图（见图1）。对于我们的双目视角合成任务，我们选择10个视图中的2个视图和其余视图中的1个视图来构建训练对。最重要的特征是具有足够的时间帧和动态运动进行训练。大多数数据集在这一部分失败，因为它们针对的是图像视角合成任务而不是视频任务。尽管Yoon等人提出的Dynamic SceneDataset[47]针对动态场景，但它使用帧跳过来保持显著的运动。因此，数据集中显示的运动不流畅，无法提供足够的训练样本。为了解决这个问题，我们的数据集以120帧/秒的速度捕捉并进行后期同步处理（见第3.2节），使得在不同帧率下进行视角合成和评估变得容易。一个旨在实现视频视角合成目的的数据集。0遮挡类型（a）（b）（c）（d）总视频数0计数 90 96 42 19 960表2.包含每种遮挡类型的视频数量，如第3.3节所述。请注意，大多数场景通常包含多种遮挡类型。0本论文提出的沉浸式光场视频数据集由Broxton等人提出[6]，包含46个相机视角和130个不同的动态场景。然而，完整的数据集对社区不公开。我们的完整数据集可以在http://cseweb.ucsd.edu/%7eviscomp/projects/ICCV21Deep/找到。03.2. 数据集生成0我们的视频数据集是使用一个由10个GoPro Hero 7Black运动相机组成的自定义相机架进行捕捉的，如图1所示。相邻相机之间的水平基线约为10厘米，行之间的垂直距离约为14厘米。我们以120FPS的速度捕捉了96个户外视频，相机架在每个视频中保持静止。由于GoPro相机只允许高帧率捕捉时使用鱼眼模式，我们使用一个17x14的棋盘格模式（方格的边长为40mm）对相机进行校准，并使用OpenCV[5]中实现的针孔相机模型对视频进行去畸变处理。对于相机外参，我们选择所有视图的第一帧作为COLMAP [35,34]的输入，然后进行特征提取、特征匹配和稀疏重建。假设重建的相机姿态在每个视频的整个持续时间内保持不变。此外，为了实现同步，我们在一个高刷新率的屏幕上显示一个带有随机出现的QR码图案的数字时钟（见图2），所有相机都可以同时看到。然后，我们根据数字时钟和QR码图案手动编辑和对齐多视图视频。03.3. 数据集统计0我们的视频大多数长度在1到2分钟之间，所有视频都以120FPS拍摄。我们涵盖了不同的场景，以确保表面反射的多样性足够高。例如，在图3中，我们展示了在我们的数据集中涵盖了不同的建筑物、家具、植被和镜面效果。WalkingJumpingSittingDynamic OcclusionStatic OcclusionTwo Dynamic SubjectsThin StructuresSpecularityWdi→j(Cd, αd),(1)17520图3.数据集中的一些静止帧。我们捕捉了包括行走、奔跑、跳跃和坐下等各种人体动作的动态场景。请注意，相机在整个捕捉过程中保持静止。0我们数据集的另一个重要方面是包含了不同的人体动作，包括较慢的行走、坐下以及较快的奔跑、跳跃和挥手。我们现在讨论四种可能的遮挡交互类型，并在表2中显示它们的出现次数。0(a)静态遮挡物和静态背景。大多数视图合成方法都针对这种情况，因为这是最常见的情况之一。我们将其描述为场景中的静态遮挡物阻挡了相机对背景场景的视线。例如，图3中显示的坐姿场景中的桌子遮挡了后面的区域。只能从直接视线的视图中获取背景信息。因此，在没有场景先验知识的情况下，很难恢复看不见的区域。然而，这些区域的时间一致性很容易实现，因为输入在整个视频中保持相对不变。对于这种情况，消除遮挡区域的幻觉也可以保持不变。0(b)动态遮挡物和静态背景。另一种情况是当一个动态物体在场景中移动时发生。例如，当一个人穿过场景时，相机在视频的某个时刻可以看到人后面的背景。在这种情况下，相对容易获取静态背景信息，因为遮挡物并不在所有视频帧中阻挡视线。通过从视频的多个帧中获得信息，可以准确地渲染动态遮挡物后面的内容。在这种情况下，通过用静态背景替换动态遮挡区域，可以保持时间上的一致性。换句话说，我们可以根据其他视频帧的观察结果进行孔洞填充。与以往的方法相比，我们提出的方法利用这种先验知识生成具有时间稳定性的视图合成结果。0（c）静态遮挡物和动态背景。当物体在静态遮挡物后面移动时，相机无法完全看到它。例如，一个人走在交通标志或墙壁后面。在交通标志的情况下，由于它只是短期遮挡，可以在不同帧之间插值人的外观。然而，在较大的墙壁的情况下，这变得困难，因为推断运动是复杂的，模糊性可能导致不同的结果。通常情况下，如果不假设被遮挡物体以恒定速度移动，准确预测被遮挡物体的轨迹是困难的。为了保持时间一致性，动态物体的运动可能导致新视图预测的不稳定性。我们的方法学习检测动态运动，并将场景的静态部分视为（a），以使闪烁伪影保持在最低水平。04.深度3D掩膜体积0（d）动态遮挡物和动态背景。当遮挡物和背景物体都在移动或背景外观发生变化时，就会出现这种情况。例如，当两个人沿着相机的图像平面相反方向行走时，就会发生这种情况。与（c）类似，被遮挡物体的移动方式仍然模糊不清，难以确定。尽管我们对被遮挡部分没有清楚的概念，但我们仍然可以确保在显示时它是时间稳定的。我们可以将这种情况简化为具有模糊性的（b），其中被遮挡的物体可以在任何地方移动。因此，被遮挡的区域看起来或多或少与静态背景相似。我们的数据集包含各种遮挡交互，并在第5.2节中展示结果，并在图6中进行分析。04.1.多平面图像0我们的目标是在给定立体视频输入的情况下合成具有时间一致性的新视图视频。因此，我们基于多平面图像[48,28]的先前工作构建了我们的算法，并提出了一种新的掩膜体积结构，以充分利用时间背景信息和分层表示。在本节中，我们从第4.1节对多平面图像进行简要回顾。然后我们在第4.2节中描述我们的3D掩膜体积。最后，我们在第4.3节中讨论我们的损失函数设计。有关我们算法流程的概述，请参阅图4。0W d i → j ( C d , α d ) , (1)0我们的方法受到了多平面图像表示的最新进展的启发[43,48]。多平面图像（MPI）是对3D场景的分层表示。它们由D层RGBα图像组成，表示虚拟参考相机视锥的视角。平面根据等间距视差（逆深度）值d0，d1，...，dD-1将视锥划分。MPI的每一层在特定的平面深度d处编码颜色C和透明度信息α。我们将视差d处的MPI层表示为(Cd,αd)的元组。为了构建这样的体积，我们将输入视图变形到参考相机位置以构建平面扫描体积（PSV）。然后，PSV被用作类似于Mildenhall等人使用的3DCNN的输入[28]，并生成相应的MPI体积。为了从相机i渲染新的视点j，MPI层使用平面单应性进行变形，如下所示：��M×P�P�P̸̸̸17530左视图右视图0背景0背景MPI0瞬时MPI0掩膜网络03D掩膜体积0× MPI网络0动态MPI0混合MPI0M0V01 - V -0图4. 我们流程的概述。给定双目输入视频，我们的MPI网络将2D多视图图像提升为两个3DMPI表示；一个编码瞬时信息，另一个编码背景信息。掩码网络生成3D掩码体V以调制MPI并将它们混合在一起，产生最终的输出。更多细节请参见第4.2节。0其中 W是变形运算符。然后，将变形后的MPI与覆盖操作合成。更具体地说，我们通过以下方式计算每个像素的透射率t：从位置(x, y)处的平面d处的α值计算。0t(x, y, d) = α(x, y, d) �0d' > d [1 - α(x, y, d')]。 (2)0每个像素的最终渲染C final 计算如下：0C final(x, y) = �0d C(x, y, d) α(x, y, d) �0d' > d [1 - α(x, y,0(3)这些计算是可并行化的，并且在渲染过程中它们的效率使MPI成为快速视图合成的良好表示。MPI的一个观察结果是体积中看不见的部分通常只是前景物体的重复纹理[41]。当输入相机基线不够大且结果的PSV无法提供有关背景的进一步信息时，就会发生这种情况。此外，这些区域通常在帧之间呈现不同的估计。因此，看不见的区域会产生可见的伪影，尤其在视频视图合成中（见图1）。另一方面，可见部分通常提供时间上稳定的结果，如Broxton等人所示[6]。04.2. 生成3D掩码体0从第4.1节中，我们观察到大多数伪影是由移动物体的不连续引起的。为了解决这个问题，我们试图找到一个3D掩码体，以识别动态组件并相应地消除它们后面的闪烁伪影。更具体地说，给定一对长度为n的立体图像序列，{I L 0, I L 1, ..., I Ln-1}和{I R 0, I R 1, ..., I Rn-1}，我们希望推导出一个3D掩码V(x, y, d)，使得0V(x, y, d) =0� 1，如果I(x, y) ≠ ^I(x, y)，d > D(x, y)0，否则，(4)0其中 I 是瞬时帧，^I 表示背景图像，D是相机观察到的场景视差。在以下讨论中，我们省略帧下标作为瞬时帧的简写。此外，我们将场景的瞬时MPI表示为M(x, y, d)，背景MPI表示为^M(x, y, d)。3D掩码体V(x, y,d)的主要目的是将场景M(x, y,d)分为两部分：静态和动态。MPI的静态部分在整个视频持续时间内不会改变，因此当V(x, y, d) = 0时，M(x, y, d) =^M(x, y,d)。这些部分的合成新视图在时间上是稳定的，不需要进一步修改算法。相反，动态物体（V(x, y, d) =1）可能会以不同的方向移动。给定数学上由M(x, y,d)表示的不连续区域，如果I(x, y) ≠ ^I(x, y)，d > D(x,y)，这些区域通常会随之改变，产生“叠卡”伪影和闪烁，当从另一个角度观看时（见图1）。然而，事实上，这些区域通常与背景^I相似。有了这个知识，静态和动态场景组件之间的明确分离使我们能够识别不连续并通过0M(x, y, d) ←− ^M(x, y, d)，如果I(x, y) ≠ ^I(x, y)，d

下载后可阅读完整内容，剩余1页未读，立即下载