重建人体动态模型的神经辐射场方法

80 浏览量更新于2023-10-16 收藏 18.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

143140用于建模动态人体的可动神经辐射场0Sida Peng 1 � Junting Dong 1 � Qianqian Wang 2 Shangzhan Zhang 10Qing Shuai 1 Xiaowei Zhou 1 Hujun Bao 1 †01 浙江大学 2 康奈尔大学0输入：多视角视频0第1帧0第100帧0第200帧0输出：可动的人体模型0重塑的几何形状合成的图像0图1：给定一个表演者的多视角视频，我们的方法重建了一个可动的人体模型，可用于新视角合成和新姿势下的3D形状生成。0摘要0本文解决了从多视角视频中重建可动人体模型的挑战。一些最近的工作提出将非刚性变形场分解为规范神经辐射场和一组将观测空间点映射到规范空间的变形场，从而使它们能够从图像中学习动态场景。然而，它们将变形场表示为平移向量场或SE(3)场，使得优化过程高度不受约束。此外，这些表示不能明确地受输入动作控制。相反，我们引入了神经混合权重场来生成变形场。基于骨骼驱动的变形，混合权重场与3D人体骨骼结合使用，生成观测到规范和规范到观测的对应关系。由于3D人体骨骼更易观察，它们可以对变形场的学习进行正则化。此外，学习到的混合权重场可以与输入的骨骼动作结合使用，生成新的变形场以激活人体模型。实验证明，我们的方法明显优于最近的人体合成方法。代码和补充材料可在https://zju3dv.github.io/animatablenerf/上获得。0� 前两位作者贡献相等。浙江大学的作者隶属于CAD&CG国家重点实验室。†通讯作者：鲍虎军。01. 引言0渲染可动的人物角色具有各种应用，如自由视点视频、远程存在、视频游戏和电影。核心步骤是重建可动的人体模型，在传统流程中往往耗时且昂贵，原因有两个。首先，高质量的人体重建通常依赖于复杂的硬件，如密集的摄像头阵列[56, 16]或深度传感器[10,14]。其次，人体动画需要熟练的艺术家手动创建适合人体模型的骨骼并精心设计蒙皮权重[29]以实现逼真的动画效果，这需要大量的人力。在这项工作中，我们旨在降低人体重建和动画的成本，实现大规模数字人体的创建。具体而言，我们关注从多视角视频中自动重建可动人体的问题，如图1所示。然而，这个问题极其具有挑战性。我们需要回答两个核心问题：如何表示可动人体模型以及如何从视频中学习这种表示？最近，神经辐射场（NeRF）[41]提出了一种可以从图像中高效学习的表示方法，具有可微分渲染器。它将静态的3D场景表示为颜色和密度场，与体积渲染技术特别配合。为了扩展NeRF以处理非刚性变形场景，[46,51]将视频分解为规范NeRF和一组变形场，这些变形场可以在每个视频帧上转换观测空间点143150将帧转换为规范空间。变形场可以表示为平移向量场[51]或SE(3)场[46]。尽管它们可以处理一些动态场景，但由于两个原因，它们不适用于表示可动人体模型。首先，没有运动先验的情况下，联合优化NeRF和平移向量场或SE(3)场是一个极度不受约束的问题[51,30]。其次，它们不能根据输入动作明确地合成新的场景。为了解决这些问题，我们提出了一种新的运动表示，称为神经混合权重场。基于骨骼驱动的变形框架[29]，混合权重场与3D人体骨骼结合起来生成变形场。这种表示有两个优点。首先，由于人体骨骼容易跟踪[22]，因此不需要联合优化，从而对变形场的学习提供了有效的正则化。其次，通过在规范空间学习额外的神经混合权重场，我们可以明确地使用输入动作来激活神经辐射场。我们在捕捉具有同步摄像头的复杂运动的H36M [19]和ZJU-MoCap[49]数据集上评估了我们的方法。在所有视频序列中，我们的方法在新视角合成和新姿势合成方面表现出了最先进的性能。此外，我们的方法能够在规范空间中重建3D人体形状并重新调整几何形状。总之，这项工作具有以下贡献：0•我们引入了一种称为神经混合权重场的新表示方法，可以与NeRF和3D人体骨架结合，从多视角视频中恢复可动画的人体模型。0•我们的方法在H36M和ZJU-MoCap数据集上相对于最近的人体合成方法在新视角合成和新姿势合成方面表现出显著的性能提升。02. 相关工作0人体重建。建模人物角色是传统动画流程的第一步。为了实现高质量的重建，大多数方法依赖于复杂的硬件[10，14，59，11，16]。最近，一些作品[58，44，41，32]尝试使用可微分渲染器从图像中学习3D表示，这减少了输入相机视图的数量，并实现了令人印象深刻的重建结果。然而，当相机视图过于稀疏时，它们在恢复合理的3D人体形状方面存在困难，如[49]所示。[42，54，67，55]不是针对每个场景优化网络参数，而是利用网络从地面真实3D数据中学习人体形状先验知识，使其能够从单个图像中重建人体形状。0人体动画。骨骼动画[29，25]是一种常见的人体模型动画方法。它首先为人体网格创建一个适当比例的骨骼，然后为每个网格顶点分配一个混合权重，描述顶点位置如何随骨骼变形。皮肤多人线性模型（SMPL）[36]从大量的地面真实3D网格中学习骨骼回归器和混合权重。基于SMPL，一些作品[48，24，27，21，13]从稀疏的相机视图中重建出一个动画人体网格。然而，SMPL只描述了裸体人体，因此不能直接用于渲染逼真的图像。为了解决这个问题，[3，2，4]将顶点位移应用于SMPL模型，以捕捉人体的服装和头发。[61]提出了一种2D变形方法，将SMPL模型变形以适应输入图像。最近的基于隐式函数的方法[45，40，9]展示了最先进的重建质量。[18，5]将隐式函数学习与SMPL模型相结合，获得了详细的可动画人体模型。[12]将一组局部隐式函数与人体骨骼结合起来表示动态人体。[64]提出使用线性混合蒙皮算法来为占据网络添加动画效果。然而，这些方法都需要3D地面真实数据的监督。0神经渲染。为了减少对重建质量的要求，一些方法[57，60，34，62，28]通过神经网络改进了渲染流程。基于图像到图像翻译技术的进展[20]，[38，8，39]训练一个网络将2D骨架图像映射到目标渲染结果。虽然这些方法可以在新的人体姿势下合成逼真的图像，但在渲染新视角时存在困难。为了提高新视角合成的性能，[57，60，62，1，50，65，52]将3D表示引入到渲染流程中。[60]建立了神经纹理映射，并使用UV映射在图像空间中获得特征映射，然后使用神经渲染器将其解释为图像。[62，1]从输入图像中重建点云，并为每个点学习一个3D特征。然后，他们将3D特征投影到2D特征图中，并使用网络渲染图像。然而，正如[58]所示，2D卷积网络在渲染视角一致的图像方面存在困难。0为了解决这个问题，[35，44，41，31，33]将特征解释为3D空间中的颜色，然后将其累积到2D图像中。[35]使用3D卷积网络生成离散的RGB-α体积。神经辐射场（NeRF）[41]提出使用颜色和密度场来表示3D场景，在体积渲染方面效果良好，并在新视角合成方面表现出最先进的性能。[49]将NeRF与SMPL模型结合，使其能够处理动态人体，并从非常稀疏的相机视图中合成逼真的新视角。(σi(x), zi(x)) = Fσ(γx(Ti(x))),(1)ci(x) = Fc(zi(x), γd(d), ℓi),(2)v′ =� K�k=1w(v)kGk�v,(3)143160方程 40观察空间0神经混合权重场0神经混合权重场0NeRF0人体骨架视角潜在编码0潜在编码0外观编码0规范空间0图2：我们方法的概述。给定观察空间中帧 i 中的查询点 x ，我们使用一个神经混合权重场来推断其混合权重 w i ( x )，该场受到潜在编码 ψ i 的条件约束。基于混合权重和人体骨架，我们可以使用方程( 4 )得到规范空间中的对应点 x ′。将转换后的点 x ′ ，观察空间视角 d 和外观编码 ℓ i作为输入，模板NeRF模型预测体积密度和颜色。为了使模板NeRF动画化，我们还学习了规范空间中的神经混合场 w can ( x′ ) 。03. 方法0给定一个表演者的多视角视频，我们的任务是重建一个可用于合成表演者在新的人体姿势下的自由视点视频的可动画人体模型。摄像机是同步和校准的。对于每一帧，我们假设3D人体骨架是已知的，可以通过基于标记或无标记的姿势估计系统[ 19 , 22 ]获得。对于每个图像，我们使用[ 15]来提取前景人体掩模，并将背景图像像素的值设置为零。我们的方法概述如图2所示。我们将非刚性变形的人体分解为由神经辐射场（第3.1节）表示的规范人体模型和用于建立观察空间和规范空间之间对应关系的每帧混合权重场（第3.2节）。然后我们讨论如何学习多视角视频的表示（第3.3节）。基于混合权重场，我们能够使规范人体模型动画化（第3.4节）。03.1. 用神经辐射场表示视频0NeRF将静态场景表示为连续的体积表示。对于任何3D点，它将空间位置 x 和视角 d作为输入，通过神经网络输出体积密度 σ 和颜色 c。受到[ 46 , 51]的启发，我们通过引入变形场将NeRF扩展到表示动态人体，如图2所示。具体而言，对于每个视频帧 i ∈ { 1 , ..., N }，我们定义一个变形场 T i，将观察空间点变换到规范空间。给定规范帧密度模型 F σ，因此可以定义帧 i 的密度模型如下：0其中 z i ( x ) 是原始NeRF中的形状特征，而0γ x 是用于空间位置的位置编码[ 41]。当预测颜色时，我们定义每帧的潜在编码 ℓ i 来编码帧 i 中人物外观的状态。类似地，使用规范帧颜色模型 F c ，帧 i 的颜色模型可以定义为：0其中 γ d是用于视角的位置编码。有几种表示变形场的方法，例如平移向量场[ 51 , 30 ]和SE(3)场[ 46 ]。然而，正如[ 46 , 30]中所讨论的，优化辐射场和变形场的问题是一个不适定问题，容易陷入局部最优解。为了克服这个问题，[ 46 , 30]提出了许多正则化技术来促进训练，这使得优化过程变得复杂。此外，他们的表示不能稳健地生成给定新动作序列的新变形场。03.2. 神经混合权重场0考虑到我们的目标是建模动态人体，自然而然地利用人体先验来学习变形场，这有助于解决欠约束问题。具体而言，我们基于3D人体骨架和骨架驱动的变形框架[29]构建变形场。人体骨架定义了 K 个部分，产生 K 个变换矩阵 { G k } ∈SE(3)。详细推导见补充材料。在线性混合蒙皮算法[29]中，规范空间点 v 被转换到观测空间使用0其中 w ( v ) k 是第 k 部分的混合权重。同样，对于观测空间点x ，如果我们知道它的对应的x′ =� K�k=1wo(x)kGk�−1x,(4)wi(x) = norm(F∆w(x, ψi) + ws(x, Si)),(5)143170混合权重，我们可以使用0其中 w o ( x )是在观测空间中定义的混合权重函数。为了获得混合权重场，一个自然的想法是定义一个将3D点映射到混合权重的函数，然后根据方程（1），（2）和（4）得到动态辐射场。然而，我们发现联合学习NeRF和混合权重场仍然是不适定的，并且容易陷入局部最小值。为了解决这个问题，我们利用3D统计人体模型[36，53，47，63]中的人体先验来规范学习到的混合权重。具体而言，对于任何3D点，我们根据人体模型分配一个初始混合权重，然后使用网络学习一个残差向量，从而得到神经混合权重场。在实践中，所有训练视频帧的残差向量场使用单个MLP网络 F ∆ w 实现：( x , ψ i ) → ∆ w i ，其中 ψ i 是每帧学习到的潜在代码，∆ w i 是一个∈ R K 的向量。第 i 帧的神经混合权重场定义为：0其中 w s 是基于统计人体模型 S i计算得到的初始混合权重，我们定义 norm ( w ) = w / � w i。不失一般性，我们采用SMPL[36]作为人体模型，可以通过将SMPL模型拟合到3D人体骨架[22]来获得。注意，这个想法也适用于其他人体模型[53，47，63]。为了计算 w s，我们采用[18，6]中提出的策略。对于任何3D点，我们首先找到SMPL网格上最近的表面点。然后，通过对应网格面上的三个顶点的混合权重进行重心插值来计算目标混合权重。为了使学习到的模板NeRF动画化，我们还学习了一个神经混合权重场 w can 在规范空间中。SMPL混合权重场 w s是使用T-pose的SMPL模型计算的，而 F ∆ w则以附加潜在代码 ψ can为条件。我们利用混合权重之间的内在一致性来优化神经混合权重场 w can，这将在第3.3节中描述。与在观测和规范空间同时学习混合权重场不同，另一种方法是仅在规范空间学习混合权重场，如方程（3）所示，该方程指定了规范到观测的对应关系。然而，“反转”方程（3）以获得渲染所需的观测到规范的对应关系是非常困难的。我们需要首先通过在规范空间密集采样点并评估它们的0混合权重。然后，对于任何观测空间点，我们可以根据预先计算的对应关系插值得到其对应的规范点。这个过程复杂且耗时。此外，由于采样点是离散的，计算得到的对应关系往往粗糙。相比之下，在观测空间学习混合权重使我们能够根据公式（4）轻松获得观测到规范的对应关系。03.3. 训练0基于动态辐射场σ i和ci，我们可以使用体渲染技术[23，41]为每个视频帧i合成特定视点的图像。体渲染的近和远边界是通过计算包围SMPL网格的3D盒子得到的。F σ，F c，F ∆ w，{ ℓ i }和{ ψ i}的参数通过最小化渲染像素颜色˜ C i ( r)和观察到的像素颜色C i ( r )之间的差异来进行联合优化：0L rgb 0r ∈R ∥ ˜ C i ( r ) - C i ( r ) ∥ 2，（6）0其中R是通过图像像素点的射线集合。为了学习规范空间下的神经混合权重场wcan，我们引入了混合权重场之间的一致性损失。如方程（3）和（4）所示，规范空间和观察空间中的两个对应点应具有相同的混合权重。对于第i帧中的观察空间点x，我们使用方程（4）将其映射到规范空间点T i ( x)。混合权重场之间的一致性损失定义为：0L nsf =0x ∈X i ∥ w i ( x ) - w can ( T i ( x )) ∥ 1，（7）0其中X i是在第i帧中3D人体边界框内采样的3D点集。Lrgb和L nsf的系数权重都设置为1。03.4. 动画0图像合成。为了合成表演者在新的人体姿势下的图像，我们同样构建了将3D点转换到规范空间的变形场。给定一个新的人体姿势，我们的方法更新SMPL模型中的姿势参数，并根据新的参数S new计算SMPL混合权重场ws。然后，新的人体姿势的神经混合权重场w new定义为：0w new ( x , ψ new ) = norm ( F ∆ w ( x , ψ new ) + w s ( x , S new )) ，（8）0其中F ∆ w在新的潜在编码ψ new的条件下。根据wnew和方程（4），我们可以生成143180新的人体姿势的变形场T new。通过优化ψnew的参数进行。0L new 0x ∈X new ∥ w new ( x ) - w can ( T new (x )) ∥ 1 ，（9）0其中Xnew是在新的人体姿势下采样的3D点集。请注意，我们在训练过程中固定了wcan的参数。在实践中，我们同时在多个新的人体姿势下训练神经蒙皮场。这是通过将F ∆w条件化于多个潜在编码上实现的。通过变形场Tnew，我们的方法使用方程（1）和（2）生成新的人体姿势下的神经辐射场。03D形状生成。除了在新的人体姿势下合成图像外，我们的方法还可以显式地对重建的人体网格进行动画，类似于传统的动画方法。具体而言，我们首先使用体素大小为5 mm × 5mm × 5mm在规范空间中离散化人体边界框，并计算所有体素的体密度，然后使用MarchingCubes算法[37]提取人体网格。然后，从神经混合权重场wcan中推断出网格顶点的混合权重。最后，给定一个新的人体姿势，我们使用方程（3）将每个顶点进行变换，得到目标姿势下的变形网格。重建结果在补充材料中呈现。04. 实现细节0我们的辐射场F σ和F c的网络与原始的NeRF[41]非常相似。我们只使用单层NeRF，并沿着每条相机射线采样64个点。F ∆ w的网络与F σ几乎相同，只是F ∆w的最后输出层有24个通道。此外，F ∆w对输出应用了exp( ∙)。网络架构的详细信息请参见补充材料。外观编码ℓi和混合权重场编码ψi的维度都为128。训练。我们的方法采用两阶段训练流程。首先，我们联合训练F σ，F c，F ∆ w，{ ℓ i }和{ ψ i}的参数，使用输入视频进行训练。然后，使用方程（9）学习新的人体姿势下的神经混合权重场。训练采用Adam优化器[26]，学习率从5e-4开始，按指数衰减到5e-5。训练在四个2080 TiGPU上进行。对于一个300帧的三视图视频，第一阶段训练需要约200k次迭代收敛（约12小时）。对于200个新的人体姿势，第二阶段训练需要约10k次迭代收敛（约30分钟）。05. 实验05.1. 数据集和评估指标0H36M [ 19]记录了4个摄像机的多视角视频，并使用基于标记的运动捕捉系统收集人体姿势。它包括多个主体进行复杂的动作。我们选择代表性的动作，将视频分为训练和测试帧，并对S1、S5、S6、S7、S8、S9和S11主体进行实验。训练使用三个摄像机，测试使用剩下的一个摄像机。我们使用[ 22]从3D人体姿势中获取SMPL参数，并使用[ 15]对前景人物进行分割。更多的训练和测试数据细节可以在补充材料中找到。ZJU-MoCap [ 49]使用21个摄像机记录多视角视频，并使用无标记的运动捕捉系统收集人体姿势。为了评估，我们选择了四个代表性序列：“Twirl”，“Taichi”，“Warmup”和“Punch1”。训练使用均匀分布的四个摄像机，测试使用剩下的摄像机。我们遵循[ 49 ]中的实验协议。指标。按照典型的协议[ 41]，我们使用峰值信噪比（PSNR）和结构相似性指数（SSIM）这两个指标来评估我们的方法在图像合成上的表现。对于3D重建，由于没有地面真实几何信息，我们只提供定性结果，可以在补充材料中找到。05.2. 图像合成性能0基准方法。我们与最先进的图像合成方法[ 60 , 62 , 49]进行比较，这些方法也利用了SMPL先验知识。1）神经纹理[ 60 ]使用潜在纹理映射渲染粗网格，并使用2DCNN将特征映射解释为目标图像。由于[ 60]没有开源，我们重新实现了它，并将SMPL网格作为输入网格。2）NHR [ 62]从输入点云中提取3D特征，并将其渲染为2D特征图，然后使用2DCNN将其转换为图像。由于从稀疏的相机视图中获取密集的点云很困难，我们将SMPL顶点作为输入点云。3）神经人体[ 49]使用以SMPL顶点为锚点的潜在代码来表示人体，并使用体积渲染来渲染图像。0新视图合成的结果。为了比较，我们合成了训练视频帧的新视图。表1显示了我们的方法与[ 60 , 62]的比较。具体来说，我们的模型在PSNR指标上至少比[ 60 , 62]高出2.07，在SSIM指标上高出0.024。此外，尽管没有专门为新视图合成任务设计，但所提出的方法在表2中与最新的最先进方法[ 49 ]取得了可比较的结果。S120.9821.0822.050.8600.8720.888S519.8720.6423.270.8550.8720.892S620.1820.4021.130.8160.8300.854S720.4720.2922.500.8560.8680.890S816.7719.1322.750.8370.8710.898S922.9623.0424.720.8730.8790.908S1121.7121.9124.550.8590.8710.902143190真实图像神经纹理 NHR 我们的真实图像神经纹理 NHR 我们的0图3：在H36M数据集上进行新视图合成的定性结果。[ 60 , 62]在控制视角方面存在困难，并且似乎过度拟合训练视图。与它们相比，我们的方法能够准确地渲染目标视图。0峰值信噪比（PSNR）结构相似性指数（SSIM）0NT [ 60 ] NHR [ 62 ] 我们的 NT [ 60 ] NHR [ 62 ] 我们的0平均值 20.42 20.93 23.00 0.851 0.866 0.8900表1：在H36M数据集上进行新视图合成的PSNR和SSIM结果（数值越高越好）。“NT”表示神经纹理。0峰值信噪比（PSNR）结构相似性指数（SSIM）0NT [ 60 ] NHR [ 62 ] NB [ 49 ] 我们的 NT [ 60 ] NHR [ 62 ] NB [ 49] 我们的0新视图 22.61 23.25 28.90 27.10 0.899 0.905 0.967 0.949 新姿势 21.55 21.8823.06 23.16 0.860 0.863 0.879 0.8930表2：在ZJU-MoCap数据集上进行新视角合成和新姿势合成的结果，以PSNR和SSIM衡量（数值越高越好）。“NB”表示神经身体。0图3将我们的方法与[60, 62]进行了定性比较。[60,62]都难以控制渲染视角，并倾向于合成训练视角的内容。如图3的第二个人所示，它们渲染了在训练中看到的人体背部。相比之下，我们的方法能够通过明确的3D表示准确地控制视角。0新姿势合成的结果。为了比较，我们从测试摄像机视角合成测试视频帧。表3从PSNR和SSIM指标的角度比较了我们的方法与[60,62]。对于这两个指标，我们的方法表现最好。表2显示，我们的模型在ZJU-MoCap数据集上以新的人体姿势生成图像时也优于[49]。0PSNR SSIM0NT [60] NHR [62] 我们的 NT [60] NHR [62] 我们的0S1 20.09 20.48 21.37 0.837 0.853 0.868 S5 20.03 20.72 22.29 0.8430.860 0.875 S6 20.42 20.47 22.59 0.844 0.856 0.884 S7 20.03 19.6622.22 0.838 0.852 0.878 S8 16.69 18.83 21.78 0.824 0.855 0.882 S922.20 22.18 23.72 0.851 0.860 0.886 S11 21.72 22.12 23.91 0.854 0.8670.8890平均值20.17 20.64 22.55 0.842 0.858 0.8800表3：在H36M数据集上进行新姿势合成的结果，以PSNR和SSIM衡量（数值越高越好）。“NT”表示神经纹理。0定性结果如图4所示。对于复杂的人体姿势，[60, 62,49]会产生模糊和扭曲的渲染结果。相比之下，我们方法合成的图像具有更好的视觉质量。结果表明，与基于CNN的方法相比，我们的模型在图像生成过程中具有更好的可控性。05.3. 消融研究0我们在H36M[19]数据集的一个主体（S9）上进行了新姿势合成性能的消融研究。首先，为了分析学习F∆w的好处，我们将神经混合权重字段与SMPL混合权重字段进行了比较。然后，为了探索人体姿势准确性的影响，我们从预测的人体姿势[7,22]中估计SMPL参数，并对这些参数进行训练。最后，我们探索了我们的方法在不同数量的视频帧和摄像机视角下的性能。消融研究的结果总结在表4、5、6和7中。神经混合权重字段的影响。表4显示了定量比较结果，表明神经混合权重字段的性能优于SMPL混合权重字段。143200Ground Truth 神经纹理 NHR 我们的 Ground Truth NHR 神经身体我们的0图4：在H36M和ZJU-MoCap数据集上进行新姿势合成的定性结果。对于复杂的人体姿势，[60, 62,49]倾向于产生扭曲的渲染结果。相比之下，我们的方法具有更好的泛化能力。0主体正面背面0图5：对主体“S9”和“S6”的重建几何体上残差向量场F∆w的可视化。红色表示大残差。最佳观看效果请使用彩色显示。0PSNR SSIM0神经混合权重字段23.72 0.886SMPL混合权重字段21.65 0.8500表4：在主体“S9”上比较神经混合权重字段和SMPL混合权重字段。0为了更好地展示SMPL混合权重字段的改进，图5在规范空间上可视化了我们重建几何体上的残差向量场F∆w。较大的残差颜色更红。我们可以看到，大残差主要位于颈部、手、胸部和裤子等人体特定细节，这些是SMPL无法描述的。结果表明我们学到的F∆w是可以解释的。人体姿势准确性的影响。表5比较了使用基于标记和无标记系统的人体姿势训练的模型。结果显示，更准确的人体姿势可以产生更好的渲染质量。定性比较见图6。0PSNR SSIM0基于标记的姿势估计 23.72 0.886 无标记的姿势估计22.27 0.8580表5：在主题“S9”上使用基于标记和无标记姿势估计方法训练的模型之间的比较。0帧数 1 100 200 8000PSNR 20.29 23.40 23.69 23.16 SSIM 0.849 0.881 0.8830.8750表6：在H36M数据集的“S9”主题上使用不同数量的视频帧训练的模型的结果。0视频长度的影响。为了比较，我们选择1、100、200和800个视频帧进行训练，并在相同的运动序列上测试模型。表6列出了我们使用不同数量的视频帧训练的模型的定量结果。结果表明，训练视频有助于表示学习，但网络似乎难以适应非常长的视频。经验上，我们发现150�300帧适用于大多数主题。图7呈现了定性比较。0输入视图数量的影响。为了比较，我们选择一个视图进行测试，并选择1、2和3个最近的视图进行训练。表7比较了使用不同数量的输入视图训练的模型的性能。令人惊讶的是，这三个模型具有相似的定量性能。图8进一步比较了这三个模型，显示出在3个视图上训练的模型呈现更多细节。值得注意的是，仅使用一个视图训练的模型已经达到了合理的渲染质量。Ground TruthMarker-lessMarker-basedGround TruthMarker-lessMarker-based143210图6：在无标记和基于标记系统的姿势上训练的模型的定性结果。0真实数据 1帧 100帧 200帧 800帧0图7：在主题“S9”上使用不同数量的视频帧训练的模型的比较。01个视图 2个视图 3个视图0PSNR 23.81 24.16 23.72 SSIM 0.877 0.8800.8860表7：在主题“S9”上使用不同数量的摄像机视图训练的模型的结果。05.4. 运行时间0对于512×512像素的图像，我们的算法在一台配备Intel i73.7GHz CPU和GTX 1080 TiGPU的台式机上渲染一张图像需要1.09秒。具体而言，我们的实现需要0.39秒来预测颜色和密度场，0.63秒来预测混合权重场，以及0.07秒来进行体积渲染。由于沿射线采样的点数仅为64，并且人体的场景边界较小，我们的方法的渲染速度相对较快。06. 限制0将神经辐射场与混合权重场相结合，使我们能够在新视角合成和新姿态合成方面获得令人印象深刻的性能。然而，我们的方法有一些局限性。1）基于骨骼驱动的变形模型[29]无法表达服装的复杂非刚性变形。因此，当重建穿着宽松衣物的表演者时，我们的方法的性能往往会下降。有趣的是，可以通过增加能够模拟局部服装变形的变形图[43]来增强神经辐射场的性能。2）目前，我们的方法需要相当准确的3D人体数据。0真实数据 1个视图 2个视图 3个视图0图8：在主题“S9”上使用不同数量的摄像机视图训练的模型的比较。0骨骼。我们希望在未来能够找到一种在训练过程中改进人体姿势的方法。3）与NeRF相同，我们提出的模型是针对每个场景进行训练的，这需要很长时间来生成可动画的人体模型。将网络推广到不同的视频并减少训练时间留作未来的工作。4）此外，我们的模型的渲染时间有点长。可以使用最近的基于缓存的技术[66, 17]来解决这个问题。07. 结论0我们引入了一种新颖的动态人体表示方法，用于从多视角视频中建模可动人物角色。我们的方法通过变形场将神经辐射场与观测空间点转换为规范空间。变形场基于骨骼驱动变形框架构建，我们学习神经混合权重场以生成观测到规范和规范到观测的对应关系。可动的神经辐射场通过体积渲染和混合权重场之间的一致性在多视角视频上进行学习。训练后，我们的方法可以根据新的动作序列合成表演者的自由视点视频。在H36M和ZJU-MoCap数据集上的实验证明，所提出的模型在新视角和新人体姿势下的图像合成方面达到了最先进的性能。0致谢：浙江大学的作者们要感谢中国国家重点研发计划（编号2020AAA0108901）和国家自然科学基金（编号62172364）的支持。143220参考文献0[1] Kara-Ali Aliev, Artem Sevastopolsky, Maria Kolos, DmitryUlyanov, and Victor Lempitsky. 神经点图形. 在 ECCV , 2020. 20[2] Thiemo Alldieck, Marcus Magnor, Bharat Lal Bhatnagar,Christian Theobalt, and Gerard Pons-Moll.从单个RGB相机学习重建穿着衣物的人物. 在CVPR , 2019. 20[3] Thiemo Alldieck, Marcus Magnor, Weipeng Xu, ChristianTheobalt, and Gerard Pons-Moll. 基于视频的3D人体模型重建.在 CVPR , 2018. 20[4] Thiemo Alldieck, Gerard Pons-Moll, Christian Theobalt,and Marcus Magnor. Tex2shape:从单个图像中获取详细的完整人体几何. 在 ICCV , 2019. 20[5] Bharat Lal Bhatnagar, Cristian Sminchisescu, ChristianTheobalt, and Gerard Pons-Moll.结合隐式函数学习和参数模型进行3D人体重建. 在 ECCV , 2020.20[6] Bharat Lal Bhatnagar, Cristian Sminchisescu, ChristianTheobalt, and Gerard Pons-Moll. Loopreg:自监督学习隐式表面对应、姿势和形状用于3D人体网格配准. 在NeurIPS , 2020. 40[7] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, andYaser Sheikh. Openpose: 实时多人2D姿势估计. PAMI , 2018.60[8] Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei AEfros. Everybody dance now. 在 ICCV , 2019. 20[9] Julian Chibane, Thiemo Alldieck, and Gerard Pons-Moll.隐式函数在特征空间中用于3D形状重建和补全. 在 CVPR , 2020.20[10] Alvaro Collet, Ming Chuang, Pat Sweeney, Don Gillett,Dennis Evseev, David Calabrese, Hugues Hoppe, Adam Kirk,and Steve Sullivan. 高质量可流式自由视点视频. ACM TOG ,2015. 1 , 20[11] Paul Debevec, Tim Hawkins, Chris Tchou, Haarm-PieterDuiker, Westley Sarokin, and Mark Sagar. 获取人脸反射场. 在SIGGRAPH , 2000. 20[12] Boyang Deng, JP Lewis, Timothy Jeruzalski, GerardPons-Moll, Geoffrey Hinton, Mohammad Norouzi, andAndrea Tagliasacchi. NASA: 神经关节形状近似. 在 ECCV , 2020.20[13] Junting Dong, Qing Shuai, Yuanqing Zhang, Xian Liu, Xi-aowei Zhou, and Hujun Bao. 从互联网视频中进行动作捕捉. 在ECCV , 2020. 20[14] Mingsong Dou, Sameh Khamis, Yury Degtyarev, PhilipDavidson, Sean Ryan Fanello, Adarsh Kowdle, Sergio OrtsEscolano, Christoph Rhemann, David Kim, Jonathan Taylor, etal. Fusion4d: 挑战场景的实时表演捕捉. ACM TOG , 2016. 1 , 20[15] Ke Gong, Xiaodan Liang, Yicheng Li, Yimin Chen, MingYang, and Liang Lin.通过部分分组网络进行实例级人体解析。在ECCV，2018年。3，50[16] Kaiwen Guo, Peter Lincoln, Philip Davidson, Jay Busch,Xueming Yu, Matt Whalen, Geoff Harvey, Sergio Orts-Escolano, Rohit Pandey, JasonDourgarian等。可重照性：具有逼真重照的人体体积性能捕捉。ACM TOG，2019年。1，20[17] Peter Hedman, Pratul P. Srinivasan, Ben Mildenhall,Jonathan T. Barron, and Paul Debevec.用于实时视图合成的神经辐射场烘焙。在ICCV，2021年。80[18] Zeng Huang, Yuanlu Xu, Christoph Lassner, Hao Li, andTony Tung.ARCH：穿着衣物的人体可动态重建。在CVPR，2020年。2，40[19] Catalin Ionescu, Dragos Papava, Vlad Olaru, and CristianSminchisescu.Human3.6m：大规模数据集和自然环境中3D人体感知的预测方法。PAMI，2013年。2，3，5，60[20] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros.带有条件对抗网络的图像到图像的转换。在CVPR，2017年。20[21] Wen Jiang, Nikos Kolotouros, Georgios Pavlakos, XiaoweiZhou, and Kostas Daniilidis.从单幅图像中一致地重建多个人体。在CVPR，2020年。20[22] Hanbyul Joo, Tomas Simon, and Yaser Sheikh. Totalcapture：用于跟踪人脸、手和身体的3D变形模型。在CVPR，2018年。2，3，4，5，60[23] James T Kajiya. 渲染方程。在SIGGRAPH，1986年。40[24] Angjoo Kanazawa, Michael J Black, Da

下载后可阅读完整内容，剩余1页未读，立即下载