可播放环境：交互式视频生成和时空处理

118 浏览量更新于2023-10-25 收藏 15.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

In this work, we propose a method to construct PEs ofcomplex scenes that supports a large set of interactive ma-nipulations. Trained on a dataset of monocular videos, ourmethod presents six core characteristics listed in Tab. 1 thatenable the creation of such PEs. Our framework allows theuser to interactively generate videos by providing discreteactions ⟨1⟩ and controlling the camera pose ⟨2⟩. Further-35840可播放环境：时空视频处理0University of Trento St´ephane Lathuili`ere †0LTCI, T´el´ecom Paris InstitutPolytechnique de Paris0Aliaksandr Siarohin University of Trento Christian Theobalt †0MPI for Informatics, SIC0Serge0Snap Inc. Vladislav Golyanik0MPI for Informatics, SIC Elisa Ricci †0University of TrentoFondazione Bruno Kessler0摘要0我们提出了可播放环境——一种新的表示方法，用于交互式视频生成和时空处理。在推理时，我们的新框架可以通过提供一系列期望的动作来移动3D对象并生成视频。这些动作是以无监督的方式学习的。可以控制相机以获得所需的视点。我们的方法为每个帧构建一个环境状态，可以通过我们提出的动作模块进行操作，并通过体积渲染解码回图像空间。为了支持对象的多样外观，我们使用基于风格的调制扩展了神经辐射场。我们的方法在一系列需要仅估计的摄像机参数和2D对象位置的各种单目视频集合上进行训练。为了建立一个具有挑战性的基准，我们引入了两个具有显著相机运动的大规模视频数据集。正如我们的实验所证明的那样，可播放环境可以实现几种通过先前的视频合成作品无法实现的创意应用，包括可播放的3D视频生成、风格化和处理。01. 引言0你会改变你看到的最后一场网球比赛中的什么？选手的动作？场地的风格，或者也许是摄像机的轨迹以更戏剧化地观察亮点？为了能够以交互方式实现这些功能，需要重建场地和选手的几何形状和风格。需要理解选手的动作并预测未来动作的结果。为了实现这些功能，需要在3D中重建观察到的环境，并提供简单直观的交互，提供类似于玩视频游戏的体验。我们将这些表示称为可播放环境（PE）。0* 本工作在实习MPI for Informatics期间完成 † 相等的高级贡献 1willi-menapace.github.io/playable-environments-website0控制相机0图1.在给定单个初始帧的情况下，我们的方法创建了可播放的环境，允许用户通过指定离散动作来控制玩家，操作相机轨迹并指示场景中每个对象的风格，从而生成不同的视频。0在这项工作中，我们提出了一种构建复杂场景的可播放环境的方法，支持大量的交互操作。我们的方法在单目视频数据集上进行训练，具有Tab.1中列出的六个核心特征，可以实现这种可播放环境的创建。我们的框架允许用户通过提供离散动作 � 1 � 和控制相机姿态 � 2 � 来交互生成视频。0这样的表示方式可以实现多种创意应用，例如3D和动作感知视频编辑，相机轨迹操作，改变动作序列，代理和风格，或者在观察到的镜头之外延续视频的时间。图1显示了一个可播放的网球比赛环境。在其中，用户可以指定移动玩家的动作，控制视点并改变玩家和场地的风格。该环境可以像视频游戏一样播放，但是使用的是真实物体。35850名称描述0� 1 � 可玩性用户可以通过离散动作控制生成。� 2 � 相机控制相机姿态在测试时明确控制。0� 3 � 多对象每个对象都被明确建模。� 4 � 可变形对象模型处理可变形对象，如人体。� 5 � 外观变化模型处理训练集中外观不恒定的对象。� 6 � 鲁棒性模型对校准和定位误差具有鲁棒性。0表1. 我们可玩环境方法的特点。每一行都用 �∙� 符号在文本中引用。0此外，它可以表示具有多个对象 � 3 �，这些对象具有不同的姿势 � 4 � 和外观 � 5 �，并且对不精确的输入 � 6 �具有鲁棒性。特别是，我们不需要真实的相机内参和外参，但假设可以为每个帧估计它们。我们也不假设需要真实的物体位置，而是依赖于现成的物体检测器[27]在2D中定位代理，例如两个网球选手。不需要其他监督。0可玩环境封装并扩展了几种先前的图像或视频处理方法构建的表示。新颖的视图合成和体积渲染方法支持重新渲染静态场景。然而，虽然一些方法支持移动或关节对象[24，26，34，39]，但对于它们来处理动态环境是具有挑战性的，并且它们不允许用户交互，因此不适合建模引人入胜的环境。视频合成方法通过预测未来帧[15，16，33，35]、动画化[30-32]或播放视频[18]来处理视频，但是用这些方法建模的环境通常缺乏相机控制和多对象支持。因此，这些方法限制了交互性，因为它们没有考虑到环境的三维性质。0我们的方法由两个组件组成。第一个是合成模块。它提取环境的状态——每个对象的位置、风格和非刚性姿态，并将状态渲染回图像空间。最近引入的神经辐射场（NeRFs）[19]因其能够渲染新视图的能力而成为一种有吸引力的工具。在这项工作中，我们引入了一种基于风格的NeRF修改，以支持具有不同外观的对象。此外，我们提出了一种组合的非刚性体积渲染方法，处理场景的刚性部分和非刚性对象。第二个组件是动作模块，它实现了可玩性。它接收环境的两个连续状态，并预测相机方向的动作。我们使用图像空间和状态空间的重建损失以及用于动作一致性的新损失来训练我们的框架。最后，为了0为了改善时间动态性，我们引入了一个在环境状态序列上操作的时间鉴别器。0为了全面评估 � 1 − 6 �，我们引入了两个互补的大规模数据集来训练可玩环境，一个是合成数据集，一个是真实数据集。第一个数据集旨在评估 � 1 − 5 �，特别关注相机控制，得益于合成的真实情况，第二个数据集旨在评估 � 1 − 6 � ，特别关注于 � 4 − 6 �，因为该数据集中存在着高度多样性。我们提出了一种基于现有NeRF和视频生成方法的多个基线的方法进行广泛的评估。这些实验表明，我们的方法能够生成高质量的视频，并在可玩性、相机控制和视频质量方面优于所有基线。0总之，本文的主要贡献如下：一个用于创建引人入胜的可玩环境的新框架，具有表1中的特点，包括处理具有不同视觉风格的可变形对象的新组合NeRF和在我们的NeRF模型的潜在空间中操作的动作模块；两个具有挑战性的大规模数据集，用于训练和评估PE，以刺激未来的研究。02. 相关工作0视频生成在过去几年取得了令人难以置信的进展。视频合成任务有许多不同的形式，主要区别在于用于生成的条件信息的类型。生成过程可以基于先前的帧[5, 16, 17, 35,37]，基于另一个视频[30-32,38]，基于代理的姿势[2]，甚至完全无条件[28,35]。此外，还有几种方法提出将每个单独帧的生成条件化为动作标签[4, 13, 22,23]。然而，所有这些方法都需要动作监督进行训练。0最近在Menapace等人的工作中引入了可播放视频生成（PVG）[18]。与该领域中以前的工作不同，该方法CADDY在训练过程中完全无监督地从原始视频中自动推断动作。这种方法与我们的方法密切相关。然而，CADDY只假设存在一个可控对象，而我们还模拟相机运动、复杂的3D交互并支持各种对象外观。0新视角合成方法传统上利用深度图[3, 25]或多视角几何[14,29,42]来重建底层3D表示，并在对应场景上直接查询这个函数。最近，神经辐射场（NeRF）[19]彻底改变了新视角合成领域。NeRF的主要思想是将场景建模为一个连续的5D函数，通常由MLP表示，并沿着相机射线直接查询这个函数。35860综合0综合0图2.我们框架的概述。编码器E提取场景中每个对象的环境状态。综合模块采用类似NeRF的架构来重建输入帧并允许相机操作。我们引入了动作模块，该模块学习使用离散动作标签编码状态动态。在测试时，用户提供这些学习到的动作标签来控制生成的内容。0相机射线。关于[19]的许多后续工作已经提出。例如，一些工作提出将前景和背景分解[20,40]。其他工作将NeRF[19]推广到动态场景[10, 24, 34,39]。GIRAFFE [21]和GANcraft[7]提出利用在特征空间中渲染的内部表示，然后由标准的2D卷积网络进行解码。然而，这些方法都无法推广到多个单目视频、多个移动和变形对象以及多样化的对象和场景外观。相比之下，我们的方法可以使用这样的数据进行训练。此外，为了丰富可播放环境的互动性，我们的方法可以以无监督的方式控制场景中的对象。03. 方法0我们的框架基于图2所示的编码器-解码器架构，其设计受可播放环境特性�1-6�的驱动。在时间t，编码器网络为场景中的每个对象i输出状态向量sit。为了实现可播放性�1�，我们在瓶颈层中包含一个动作模块，其有两个目标。首先，它以无监督的方式学习离散的动作标签。更具体地说，我们学习将sit转换为sit+1的过渡过程，使用动作标签ait∈{1,...,K}，其中动作的数量K是在训练之前指定的超参数。其次，动作模块在测试时用于根据用户选择的动作来条件化下一帧的生成。最后，解码器网络，即综合模块，负责结合每个对象的状态和相机参数来重建输入帧，以实现相机控制�2�。综合和动作模块分别在两个独立的阶段进行训练，重建作为主要的驱动损失。0为了处理具有多个对象 � 3 �的环境，我们采用编码器-解码器的组合形式：将环境分解为预定义的一组对象。我们区分两种对象类别，即静态对象（例如背景）和可玩对象（例如人物），其中后者是用户可以控制的动态对象。我们将对象 i 的环境状态定义为 s i t =( x i t , w i t , π i t ) ，其中 x i t 是对象在环境中的位置， wi 是样式描述符，π i 是对象姿态。我们引入 w i 和 π i来处理可变形对象 � 4 �，例如人物，并模拟训练集中对象的外观变化 � 5 �。对于每个静态对象，我们假设 x i t是固定且已知的。对于可玩对象 i，给定当前相机参数和其边界框 b i t，我们通过将下边界框边的中点投影到地面平面上来近似 xi t 。然后，我们使用卷积编码器网络 E为每个对象计算样式和姿态描述符。编码器以在每个对象的边界框定义的位置裁剪的图像作为输入，并输出 w i t 和 π it 。在本文的其余部分，我们省略对象索引。0我们引入了一个新颖的合成模块，详细介绍见第3.1节。行动模块在第3.2节中描述。训练过程在第3.3节和第3.4节中给出。03.1. 合成模块0点采样对象10图3. 合成模块由两个步骤组成。首先，使用弯曲网络 B和样式调制生成非刚性神经辐射场的特征图。然后，将特征图输入到卷积网络 F 中。0合成模块的目标是根据相机姿态和状态 s t重建输入图像。我们发现NeRF [ 19]是用于显式相机控制的合理基础架构。因此，我们提出了一种新颖的架构（图3），将非刚性神经辐射场与卷积图像生成器相结合，以解决 � 2 - 6 � 问题。0相机控制 � 2 � 采用NeRF [ 19]作为基础架构。我们的NeRF使用全连接网络 V表示场景，其输入是一个包含3D点位置的单个向量。它输出体积C(r) =� tftne−� ttn σ(r(s))dsσ(r(t))c(r(t))dt.(1)NeRF model outputs a feature map ft corresponding to aninput image patch. We employ a ConvNet F to reconstructit. Due to the ability of ConvNets to model cross-pixel rela-tionships, inaccuracies in the estimation of features causedby input noise can be compensated, reducing the associ-ated blur. Note that F contains upsampling layers. It al-lows an important reduction in the number of rays that areto be sampled by the NeRF model since it outputs a fea-ture map at a lower resolution than the image. Therefore,we reduce memory consumption allowing larger patches tobe rendered. We also ﬁnd it beneﬁcial to use multiple in-put feature maps at different resolutions to capture detailsat different scales (see Sup. Mat. for details).at, vt = A(st, st+1).(4)35870密度 σ 和辐射 c用于输入点位置。通过沿每个像素追踪的相机射线 r采样3D点。每个像素的颜色值通过对射线 r进行积分计算：0与[ 7 , 21]类似，我们的神经辐射场不直接预测颜色值，而是为输入相机姿态生成特征图，而卷积图像生成器负责生成逼真的帧。有关NeRF的更多详细信息，请参阅补充材料和[ 19 ]。0多对象 � 3 �。每个对象使用一个独立的特征字段建模，参数化为对象特定的MLP V 。该字段由体积 β限定，并以相应的对象位置 x t 为中心。给定射线 r，我们根据以下过程计算其特征 f ( r ) 。我们首先将 r与每个边界体积 β相交，计算射线与每个对象的入射和出射位置 x in ， xout 。对于每个对象，我们在 x in 和 x out之间均匀采样给定数量的位置 { x p } N p =1，并获得相应的特征 f p 和不透明度 σ p ，如 f p ， σ p0可变形对象 � 4 �。为了处理可变形对象，例如人物，我们使用非刚性NeRF模型，类似于[ 34]。对于每个可玩对象，我们引入一个参数化为MLP的射线弯曲网络 B 。给定对象姿态描述符 π 和射线 r 上的位置x p ，我们使用弯曲网络回归弯曲射线 ˜ r 上的相应位置 ˜ xp ，如下所示：0˜ x p = x p + B ( x p , π t ) . (2) 然后我们使用 ˜ r上的位置来采样 V 。这样， B将从变形物体的空间到规范空间的变换编码，而 V则编码物体的规范表示。0外观变化 � 5 �。每个物体的外观在数据集中可能有很大的变化。为了使每个物体特定的模型能够表示其物体的所有可能外观，我们提出使用受AdaIN [ 9 ]启发的风格嵌入层，将其嵌入到 V中。假设隐藏特征 h t 在 V 中，风格代码 w t，我们按如下方式调制 h t ： ˜ h t = γ ( w t ) h t + β (w t ) ，(3)0其中 γ 和 β 是可训练的线性层。根据[ 19 ]，我们将 V设计为一个由两个独立分支组成的主干网络，一个用于不透明度预测，一个用于特征预测。我们假设物体的风格应该影响其特征，但不影响其几何形状。因此，我们只在特征预测分支中插入我们的调制层。0图4. 动作模块。给定时间 t 和 t +1 的状态，动作网络 A预测离散动作标签 a t 和动作变异性 v t ，这些由动力学网络 R结合起来，根据旧状态 s t 估计新的环境状态 s t +1 。03.2. 动作模块0动作模块（图4）学习动作空间并实现可玩性 � 1 �。每个可玩物体的动作由一个独立的动作模块建模，包括动作网络和动力学网络。0动作网络。给定两个连续的环境状态 s t 和 s t +1，我们使用动作网络 A来推断输入序列中物体执行的离散动作表示 a t ∈ { 1 , ...,K }。为了解决环境中的非确定性，我们还提取一个描述动作变异性的动作变异嵌入 v t ，描述时间 t 执行的动作 a t的特定变异：0动力学网络。动力学网络的作用是根据当前状态 s t和动作标签 a t 预测下一个状态 s t +1。我们采用一个循环模型 R，实现为LSTM，来建模物体的动力学。下一个状态的预测 ˆs t +1 = (ˆ x t , ˆ w t , ˆ π t ) 给出如下：0ˆ s t +1 = R ( s t , a t , v t ) . (5)在我们的初步实验中，我们观察到当 R 直接回归 ˆ x t +1，如公式（ 5）所示时，模型学习到的动作与当前相机位置无关。这种行为对用户来说是不自然的，因为在视频游戏等应用中，物体的移动通常是相对于相机姿态来表示的。为了避免这种行为，我们要求 R 预测相机坐标系中表示的物体运动 ∆。估计的35880位置由公式 ˆ x t +1 = x t + M ∆ 给出，其中 M是表示相机方向的旋转矩阵。03.3. 合成模块训练0我们通过先训练编码器和合成模块直到收敛，然后再训练动作模块来训练我们的模型。我们使用Johnson等人的感知损失[11]来训练编码器和合成模块，该损失在预训练的VGG网络的特征空间中评估图像重建质量。损失是在真实图像和重建图像块之间计算的。感知损失还通过像素空间中的L2重建损失进行补充。0我们的初步实验表明，训练可能无法正确分离对象的风格和姿势（即w和π）。实际上，通过仅预测具有不同风格的恒定、非变形的表面，可以最小化重建损失。为了避免这个问题，我们观察到相邻帧中对象的姿势可以改变，而风格则不会改变。因此，在将它们馈送到合成模块之前，我们通过在每个序列中沿时间维度对w代码的顺序进行排列来强制更好的分离。03.4. 动作模块训练0在训练的第二阶段，我们使用一系列损失来训练动作模块。每个损失分别计算每个可播放对象，然后取平均以产生最终的优化目标。0重建损失。对于每个可播放对象，我们通过使用编码器E对输入图像进行编码获得的环境状态的输入序列{s t}T t =1进行重建，并对相应的重建序列{ˆ s t}T t =1施加ℓ2重建损失L rec。0动作学习损失。我们使用[18]中的信息论动作学习损失来促进对动作的理解。对于每个可播放对象，动作网络A产生输入st和重建ˆst环境状态的动作概率pt和ˆpt的内部估计。通过强制这两个分布之间的互信息最大化，我们促进动作网络既发现K个动作类别，避免模式崩溃，又为输入和重建序列产生一致的动作估计：Lact = -MI(pt, ˆpt)。0此外，为了改善离散动作和3D运动之间的一致性，我们提出了一种新的损失优化方法，它由[18]中引入的∆均方误差（∆-MSE）的软版本组成。这个度量是基于同样的动作at应该对应于相似的想法。0对象运动∆。假设一个包含J个图像对的批次，我们提取对象运动∆j，其中j∈{1，...，J}，并估计每个动作的平均对象运动：0� k ∈ { 1 , ..., K }，µ k =0� J j = 1 p jk ∆ j � J j = 1p jk，(7)0其中pjk表示图像对j被分配给动作k的概率。然后我们最小化运动∆j与每个动作的平均运动之间的均方距离：0L∆ = 10Var(∆)0J �0j = 10k = 1 p jk ∥ ∆ j - µ k ∥ 22，(8)0其中Var(∆)用作归一化因子。0时间鉴别器。以前的可播放视频生成方法[18]往往会产生场景中可播放对象以不真实的动作移动的序列。我们将这种行为归因于主要训练目标是重建。优化重建损失不会惩罚导致时间上不一致的视频的动作表示。为了解决这个问题，对于每个可播放对象，我们引入了一个时间鉴别器D，它作为一个沿时间维度的一维卷积网络实现。给定一系列环境状态的序列，时间鉴别器被训练为将它们分类为真实的，如果是通过使用E对输入图像进行编码产生的，或者将它们分类为假的，如果是通过动作模块进行重建的。我们使用带有动作模块和时间鉴别器的损失项LG和LD的普通GAN损失来实现我们的对抗训练过程。0总损失。我们对A和R的优化目标是0L = λ rec L rec + λ act L act + λ ∆ L ∆ + λ G LG，(9)其中我们引入了权重参数λ rec，λ act，λ ∆和λG。对于训练D，我们最小化鉴别器的对抗目标L D。0推理。在推理时，我们假设只有序列的第一帧是给定的。我们使用编码器模块提取第一个环境状态ˆ s 1 = s1。在每个时间步t，我们让用户为每个可玩对象指定一个离散动作，并使用动力学网络R以自回归的方式推导出ˆ s t+1。由于动作输入由用户指定，在推理过程中我们不使用动作网络，并始终将vt设置为0。由动力学网络生成的环境状态使用合成模块渲染成图像。04. 实验0数据集。评估�1-6�是具有挑战性的，需要具有摄像机运动�2�、多个可玩对象�1,3�、变形对象�4�和不同外观�5�的视频数据集。因此，我们收集了三个数据集：LPIPS↓ FID↓ FVD↓ ∆-MSE↓ ∆-Acc↑ ADD↓ MDR↓MoCoGAN [35] 0.266132340010126.428.520.2MoCoGAN+0.16656.8 141010328.348.227.0SAVP [16]0.245156327011219.610.719.7SAVP+0.10425.222311633.113.419.2CADDY [18]0.10213.723972.245.58.851.0135890•Minecraft数据集。我们收集了一个持续1小时的合成视频数据集，其中有两个Minecraft[1]玩家进行对战。广角摄像机移动和多样化的、变形的玩家使得可以评估 �1-5�。•Minecraft摄像机数据集。我们收集了Minecraft[1]序列，摄像机在起始位置附近移动。我们将这些帧用作评估摄像机控制的合成真实数据。�2�。•网球数据集。我们收集了一个大规模的数据集，包括43场广播网球比赛的视频，总计12小时，用于评估�1-6�。该数据集具有具有挑战性的球员姿势�5�，网球场和球员的高变异性�4�以及摄像机估计和球员定位的噪声�6�。为了与可玩视频生成方法在其简化假设下进行比较，我们采用了[18]的网球数据集，称为StaticTennis。该数据集的特点是摄像机移动有限，每个视频被裁剪为只显示一个球员，只有一个场地存在，球员具有统一的外观，因此只评估�1,4�。数据集的详细信息请参见Supp.Mat。0评估协议。我们使用类似的评估协议对合成�2-6�和动作模块�1进行单独评估。对于前者，我们通过提取每个帧的环境状态并将原始帧渲染回来来重构每个测试序列。对于动作模块，我们遵循[18]的评估协议。具体而言，我们考虑一个测试序列，并提取第一帧的环境状态，然后使用动作网络提取序列中存在的离散动作，并从第一个环境状态开始重构每个帧。作为视频质量度量�2,4-6�，我们采用LPIPS [41]、FID[8]和FVD[36]计算测试序列和重构序列之间的差异。对于动作空间�1,3�的评估，我们定义∆为两个给定帧之间物体位置的差异，并使用以下度量标准：•∆均方误差（∆-MSE）：从离散动作到∆的回归中的MSE方面的期望误差。对于每个动作，平均∆被用作最佳估计器。该度量标准通过∆的方差进行归一化。•基于∆的动作准确率（∆-Acc）：从∆中回归离散动作的准确率。•平均检测距离（ADD）：测试帧和重构帧中对应物体的边界框中心之间的平均欧氏距离。•缺失检测率（MDR）：在测试序列中存在但在重构序列中没有匹配到的检测的比例。04.1. 可玩视频生成比较0在本节中，我们通过与最先进的方法进行比较来评估我们方法的动作建模能力。0(我们的) 0.089 15.3 237 32.8 68.1 9.47 0.150表 2. 在[ 18 ]的静态网球数据集上与PVG最先进方法的比较。∆ -MSE , ∆ - Acc 以及 MDR以百分比表示，ADD以像素表示。0在可玩视频生成（PVG）[ 18]这个相关问题的艺术中，目标是以无监督的方式学习一组离散的动作标签来调节视频生成。与我们的设置不同，PVG中不需要明确的相机控制。此外，现有的PVG方法假设只有一个用户可控的对象，并且相机运动是有限的。0为了满足这些简化假设，我们采用了[ 18]的静态网球数据集。表 2 显示了结果。我们的方法在∆-MSE和∆-Acc动作质量指标上有显著改进，表明学习到的动作与玩家的运动更相关。此外，降低的LPIPS和MDR指标表明生成重建的质量有所提高，这得到了补充材料中的用户研究的支持。我们在补充材料中报告了定性结果。04.2. 与之前的方法比较0基线。我们建议使用PVG相关问题中最先进方法的最新版本来创建PEs的基线。我们使用以下版本的CADDY [ 18]，这些版本经过修改以适应多个可玩对象和相机运动：(i)动作网络为环境中的每个动态对象产生一个独立的输出；(ii)(i) + 动作和动力学网络以边界框和相机信息为条件；(iii) (ii)+ 输出分辨率增加以匹配我们的方法；(iv) (ii) + L ∆ ；(v)(iii) + L ∆ 。0可玩性评估 � 1 � . 我们在表 3和补充材料中评估了玩家控制能力。在网球数据集中，我们的模型在动作空间指标LPIPS和FVD方面显著优于基线，表明玩家的可控性更好。特别是，较低的MDR指标表明模型在生成玩家方面的能力相对于基线更好。图 5展示了我们方法的定性重建结果。正如MDR和ADD分数所示，模型能够正确合成两个玩家，并且能够仅使用一系列离散动作重建出真实序列的玩家动作。此外，学习到的动作空间的可视化结果如图 6 所示。CADDY [18] (i)0.31361.08770.90142.635.136.90.74730611.795.8CADDY [18] (ii)✓0.35169.2 11090.59259.629.024.80.76232444.792.2CADDY [18] (iii) ✓✓0.21315.47270.69357.518.711.70.66924429.282.0CADDY [18] (iv)✓✓0.44570.3 15680.79762.429.633.00.69931462.089.4CADDY [18] (v)✓✓✓0.53419180830.63373.520.260.30.67933719.193.635900网球《我的世界》相机0辅助决议 L ∆ LPIPS ↓ FID ↓ FVD ↓ ∆ - MSE ↓ ∆ - Acc ↑ ADD ↓ MDR ↓ LPIPS ↓ FID ↓ ADD ↓ MDR ↓0(我们的) 0.181 17.4 485 0.293 95.7 14.0 4.84 0.242 29.2 5.69 8.070表 3.在网球数据集上与基线进行可玩性评估，并在《我的世界》相机数据集上进行相机控制评估。Aux.：使用辅助边界框和相机姿态信息；H.Res.：使用高分辨率模型；L ∆ ：使用 ∆ - MSE 的损失。∆ - MSE , ∆ - Acc 以及 MDR以百分比表示，ADD以像素表示。0图5.我们的方法在Tennis和Minecraft数据集上产生的定性重建结果。在重建的序列中，可玩对象按照真实序列移动，并以逼真的姿势渲染。0表明模型学习了一组不同的离散动作，对应于主要的移动方向。0为了进一步评估动作空间的质量，我们在Tennis数据集上进行了用户研究(见Supp.Mat.)，遵循Menapace等人的协议[18]。为了评估学到的动作的一致性，我们使用Fleiss'kappa度量[6]来衡量用户的一致性。我们的方法达到了0.444的一致性，而最佳基线的一致性为0.353。0相机控制评估 � 2 �。我们评估模型合成新视角的质量。我们选择在MinecraftCamera数据集上进行定量评估，因为存在新视角的真实数据。0图6.我们的方法在Tennis数据集上学到的动作空间。每种颜色代表一个学到的动作，每个箭头显示应用相应动作六次后的效果。地板上的叠加显示了每个动作应用后可能的结束位置的分布。0我们从第一帧开始，使用新视角的相机参数重建每个序列。结果如表3所示。尽管CADDY[18]为辅助边界框和相机姿态输入，但基线方法在合成新视角的场景方面失败了。我们将这种现象归因于缺乏相机的明确模型。相比之下，我们的方法可以成功地从新的相机视角合成场景。0在图7中，我们展示了我们的方法在Tennis数据集上对相机和样式的操纵结果。我们的模型可以合成新视角下的场景，并正确地改变场地和球员的风格，使其与目标图像的风格一致。我们在Supp.Mat.中还提供了其他相机和样式操纵结果。04.3. 消融研究0综合模块消融研究 � 3-6 �。在本节中，我们评估了综合模块中每个提出的架构组件的贡献：Multi使用多对象建模� 3 �，π使用变形建模� 4�，w使用样式调制层进行外观变化(a)0.7353762548109.199.9(b)✓0.595266161745.486.4(c)✓✓0.648301181810.1750.2(d)✓✓∼0.36168.64827.3931.9(e)✓✓✓0.35061.04658.2731.8(f)✓✓✓∼0.34167.4137188.588.835910变量 Multi � 3 � π � 4 � w � 5 � F � 6 � LPIPS ↓ FID ↓ FVD ↓ ADD ↓ MDR0完整 � � � � 0.193 16.5 289 5.45 33.70表4.在Minecraft数据集上的综合模块消融结果。Multi：使用多对象建模，π：使用变形，w：使用样式调制层或直接样式编码(�)，F：使用特征渲染器或简化渲染器(�)。ADD以像素为单位，MDR以%为单位。0原始相机操纵相机0原始样式操纵样式0图7.在Tennis数据集上的相机和样式操纵结果。使用不同的样式为场地和球员渲染原始图像的新相机视角。0� 5 � , F 使用特征渲染器以提高鲁棒性 � 6 �。我们产生以下方法变体：(a)不使用组件；这种方法类似于NeRF [19]；(b) Multi；(c)Multi和π；这种架构类似于NR-NeRF [34] with � 3 � ；(d)Multi，π和w使用连接而不是样式调制层进行注入；(e)Multi，π和w使用样式调制层；(f)Multi，π，w和一个简化的ConvNetF，它从特征图中以单一分辨率渲染完整帧；从架构的角度来看，这种特征渲染策略类似于GIRAFFE [21]的策略。0结果如表4和补充材料所示。(c)和(e)表明，使用样式调制层的变形和样式建模都是准确合成场景所必需的，但由于校准和定位误差，会产生模糊的结果。我们通过引入ConvNet特征渲染器来恢复清晰度，该渲染器通过建模像素间的交叉相关性来减少模糊。用我们的渲染器替换它的结果0变量 Rel. D L∆ Lact LPIPS ↓ FID ↓ FVD ↓ ∆-MSE ↓ ∆-Acc ↑ ADD ↓ MDR ↓0(A) � 0.205 17.0 334 0.903 33.9 18.7 33.0 (B) � � 0.204 17.0 329 0.290 76.018.6 33.50(C) � � � 0.203 16.9 340 0.263 80.0 15.4 34.0 (D) � � � 0.204 17.0 323 0.289 77.017.8 34.3 (E) � � � 0.204 16.9 335 0.276 77.5 17.5 34.00完整 � � � � 0.204 16.8 329 0.271 77.7 17.8 33.90表5.Minecraft数据集上的动作模块消融结果。Rel.：使用相机相对残差∆输出，D：使用时间鉴别器，L∆：使用∆-MSE的损失，Lact：使用信息论动作学习损失。∆-MSE，∆-Acc和MDR以%表示，ADD以像素表示。0将其与(f)的结果进行替换会导致性能下降，因为在渲染完整帧时，由于内存限制而对光线进行过度稀疏采样，从而导致3D一致性伪影，这在动态物体区域尤为明显。0动作模块消融研究。我们现在通过消融以下主要组件来评估动作模块的贡献：Rel.在动力学网络中使用相对于相机的物体运动; D使用时间鉴别器; L∆使用∆-MSE的损失;Lact使用信息论动作学习损失。结果如表5所示。去除时间鉴别器会导致FVD增加。结果的定性分析（见补充材料）显示，不使用D的模型会产生玩家在场景中平移的序列，但无法真实地移动肢体。此外，引入L∆对动作空间指标产生了积极影响。我们还注意到，由于存在L∆，即使在没有Lact的情况下，模型也能学习到一个动作空间。最后，如果在动力学网络中没有相对于相机的物体运动，模型会产生与当前相机方向无关的移动，这是不可取的（第3.2节）。05. 结论和讨论0总之，我们提出了一个新的框架，具有基于NeRF的编码器-解码器架构和用于创建引人注目的可玩环境的动作模块。对两个大规模数据集进行了广泛的实验评估，结果表明我们的方法达到了最先进的性能。我们在补充材料中讨论了该方法的主要局限性和伦理方面。06. 致谢0VG和CT得到了ERC巩固者拨款4DReply（770784）的支持。该项目得到了欧盟H2020项目AI4Media（951911）的支持。35920参考文献0[1] Minecraft。https://www.minecraft.net。访问日期：2021年11月12日。 60[2] Caroline Chan，Shiry Ginosar，Tinghui Zhou和Alexei AEfros。现在每个人都在跳舞。在IEEE国际计算机视觉会议（ICCV）的论文集中，页5933-5942，2019年。 20[3] Gaurav Chaurasia，Sylvain Duchˆene，OlgaSorkine-Hornung和GeorgeDrettakis。深度合成和局部变形以实现可信的基于图像的导航。ACM Transactions on Graphics，2013年。 20[4] Silvia Chiappa，S´ebastien Racani`ere，Daan Wierstra和ShakirMohamed。循环环境模拟器。CoRR，abs/1704.02254，2017年。 20[5] Chelsea Finn, Ian Goodfellow, and Sergey Levine.通过视频预测进行物理交互的无监督学习.在神经信息处理系统（NIPS）的进展中，卷29，页64-72，2016年。 20[6] Joseph L Fleiss. 在许多评审者中测量名义尺度一致性.Psychological bulletin , 76(5)

下载后可阅读完整内容，剩余1页未读，立即下载