PINA：从RGB-D视频学习个性化隐式神经化身

97 浏览量更新于2023-10-25 收藏 19.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

204700PINA：从单个RGB-D视频序列中学习个性化的隐式神经化身0董子健�1 郭晨�1 宋杰†1 陈旭1,2 安德烈亚斯∙盖格2,3 奥特马∙希利格斯101 ETH Z¨urich 2 Max Planck Institute for Intelligent Systems,T¨ubingen 3 University of T¨ubingen0图1.我们提出了PINA，一种从RGB-D视频中获取个性化和可动化的神经化身的方法。左：我们的方法仅使用一个序列，通过普通深度传感器捕捉。深度帧噪声较大，仅包含身体的部分视图。中：使用全局优化，我们将这些部分观测融合成一个隐式表面表示，捕捉到几何细节，如宽松的服装。形状是通过仅通过深度观测进行监督的姿势无关的蒙皮场学习的。右：学习到的化身可以通过逼真的关节驱动表面变形进行动画化，并推广到新的未见姿势。0摘要：我们提出了一种新的方法，可以从短的RGB-D序列中学习个性化的隐式神经化身（PINA）。这使得非专业用户可以创建一个详细和个性化的虚拟副本，可以通过逼真的服装变形进行动画化。PINA不需要完整的扫描，也不需要从大量穿着衣物的人体数据集中学习的先验知识。在这种设置下学习完整的化身是具有挑战性的，因为只有少量的深度观测可用，这些观测是嘈杂和不完整的（即每帧只有身体的部分可见性）。我们提出了一种方法，通过姿势条件的隐式表面和变形场在规范空间中学习形状和非刚性变形。这使我们能够将所有部分观测融合成一个一致的规范表示。融合被制定为一个全局优化问题，涉及姿势、形状和蒙皮参数。该方法可以从真实嘈杂的RGB-D序列中学习到各种人和服装风格的神经化身，并且可以在未见过的运动序列中进行动画化。0* 相等贡献 † 通讯作者01. 引言0使沉浸式增强现实/虚拟现实成为现实需要一种无缝创建个性化化身的方法。以远程会议为例：远程参与者需要简单地创建自己的详细扫描，并且系统必须能够以逼真的方式将化身重新定位到新环境和新姿势。这些应用程序提出了几个具有挑战性的约束：i）为了适应未见用户和服装，不应该需要特定的先验知识，如模板网格；ii）所获得的3D表面必须能够通过复杂的身体姿势驱动的逼真表面变形进行动画化；iii）捕捉设置必须不显眼，理想情况下只包括一个消费级传感器（例如Kinect）；iv）该过程必须是自动的，不需要技术专业知识，使传统的蒙皮和动画流程不适用。为了解决这些要求，我们介绍了一种新的方法，可以仅从单目RGB-D视频序列中学习个性化的隐式神经化身（PINA）。现有方法不能完全满足这些条件。大多数最先进的动态人体模型[7, 11,33,34]将人体表示为参数化网格，并通过线性混合蒙皮（LBS）和姿势校正来变形。有时204710学习位移贴图以捕捉紧身服装的细节[11]。然而，网格的固定拓扑和分辨率限制了可以捕捉的服装和动力学类型。为了解决这个问题，一些方法[15,51]提出了学习神经隐式函数来建模静态穿着衣物的人体。此外，还提出了几种从完全密封的网格中学习特定服装的神经化身的方法[13, 16, 24, 32, 47, 53,56]。这些方法要么需要完整的全身扫描，具有准确的表面法线和注册姿势[13, 16, 53,56]，要么依赖于复杂和侵入性的多视角设置[24, 32,47]。从单目RGB-D序列中学习可动化的化身是具有挑战性的，因为原始深度图像噪声较大，且仅包含身体的部分视图（图1，左）。我们方法的核心思想是将部分深度图融合成一个单一的一致表示，并同时学习关节驱动的变形。为此，我们在规范空间中制定了一个隐式有符号距离场（SDF）。为了从姿势观察中学习，需要从变形到规范空间的逆映射。我们遵循SNARF[13]的方法，通过优化来确定规范对应关系。单目RGB-D设置带来的一个关键挑战是从不完整的点云中学习。受到对象的刚性学习SDF[19]的启发，我们提出了一种基于点的监督方案，可以学习到有关关节非刚性形状（即穿着衣物的人体）的信息。将SDF的空间梯度转换为姿势空间，并将其与深度图像的表面法线进行比较，可以学习到几何细节。训练被制定为一个全局优化问题，同时优化规范SDF、蒙皮场和每帧姿势。PINA学习可动化的化身，无需任何额外的监督或从大量穿着衣物的人体数据集中提取的先验知识。在详细的消融实验中，我们阐明了我们方法的关键组成部分。我们在重建和动画任务中与现有方法进行了比较，结果显示我们的方法在多个数据集和设置中表现最佳。最后，我们定性地展示了捕捉和动画不同人体以及各种服装风格的能力。总之，我们的贡献是：•一种将部分RGB-D观测融合成规范的3D人体隐式表示的方法；0• 直接从部分点云和法线学习可动态变形的SDF表示；和0•一个联合优化形状、每帧姿势和蒙皮权重的公式。代码和视频将在项目页面上提供：https://zj-dong.github.io/pina/。02. 相关工作0ularly polygonal meshes) for human body modeling [ 5 ,8 , 25 , 28 , 42 , 46 , 60 ]. These works typically leveragepara- metric models for minimally clothed human bodies[ 9 , 17 , 18 , 29 , 46 , 55 ] (e.g. SMPL [ 33 ]) and use adisplacement layer on top of the minimally clothed bodyto model cloth- ing [ 3 , 4 , 23 , 35 , 39 , 61 ]. Recently,DSFN [ 11 ] proposes to embed MLPs into the canonicalspace of SMPL to model pose-dependent deformations.However, such methods de- pend upon SMPL learnedskinning for deformation and are upper-bounded by theexpressiveness of the template mesh. During animation orreposing, the surface deformations of parametric humanmodels rely on the skinning weights trained fromminimally clothed body scans [ 33 , 35 , 64 ]. Thesemethods suffer from artifacts during reposing as they relyon skinning weights of a naked body for animation whichmay be incorrect for points on the surface of the gar-ment. In contrast, our method represents clothed humansas a flexible implicit neural surface and jointly learnsshape and a neural skinning field from depthobservations. Other methods [ 6 , 20 , 22 , 45 , 54 ]leverage physical simulation to drape garments onto theSMPL model. These approaches are a promising directiontowards more realistic cloths de- formation compared toprevious template-based methods with fixed skinningweights. These methods are orthogo- nal to ours: wefocus on acquiring a surface representation of body andclothing from the raw inputs, without assuming priorknowledge about the subject.0从3D扫描中的隐式人体模型隐式神经表示[14, 37,43]可以更好地处理拓扑变化[10,44]，并已用于重建穿着衣服的人体形状[12, 26, 27, 30, 48,49, 51, 52,59]。通常，它们基于从大规模数据集中学习的先验，从图像[51, 52, 59,66]或点云[15]中恢复着装人体的几何形状。然而，这些重建是静态的，无法重新摆放。后续工作[7,27]试图基于通常输出不真实的动画结果的通用变形场为静态重建赋予人体动作。为了建模姿势相关的服装变形，SCANimate[53]提议以弱监督的方式将扫描转换为规范空间，并在关节角度旋转条件下学习隐式形状模型。后续工作通过位移网络[56]进一步提高了对未见姿势的泛化能力，并加速了训练过程，通过正向变形场[13,65]变形形状，或者利用大规模人体数据集的先验信息[58]。然而，所有这些方法都需要完整和注册的3D人体扫描进行训练，即使有时可以在RGB-D数据上进行微调。相比之下，PINA能够直接从短的单目RGB-D序列中学习个性化的隐式神经化身，而无需大规模的穿着衣服的人体3D扫描数据集或其他先验知识。.........fsdf : R3 × Rnp → R.(1)=xcfsdf(xc, p) = 0(2)nc = ∇xfsdf(xc, p).(3)204720图2.方法概述。给定输入的深度帧和从RGB-D图像推断出的人体姿势初始化，我们首先在变形（姿势）空间中对人体表面上的3D点xd进行采样。通过迭代根查找[13]线性混合蒙皮约束（这里！=表示我们寻找前k个根x1:kc，表示可能的对应关系）和最小化这k个根上的SDF，计算它们对应的规范位置x�c。给定规范位置x�c，我们在规范空间中评估x�c的SDF，将其法线作为有符号距离场的空间梯度，并使用学习的线性混合蒙皮将其映射到变形空间。我们最小化损失L，将这些预测与输入观测进行比较。我们的损失使用代理几何形状对离表面点进行正则化，并使用Eikonal损失学习有效的有符号距离场fsdf。0从RGB-D数据中重建穿衣人体从RGB-D数据中获取3D人体模型的一种直接方法是通过逐帧重建[7,15]。为了实现这一目标，IF-Net[15]学习了一个先验来重建人体的隐式函数，而IP-Net[7]则将这个想法扩展到了SMPL与这个隐式表面的配合上。然而，由于输入的深度观测是部分和嘈杂的，未见区域会出现伪影。实时性能捕捉方法将观测逐渐融合到体积SDF网格中。DynamicFusion[40]将早期的静态场景重建方法[41]扩展到非刚性物体。BodyFusion[62]和DoubleFusion[63]在这个概念的基础上加入了关节运动先验和参数化的身体形状先验。后续工作[10,11,31]利用神经网络来模拟变形或改进形状重建。然而，需要注意的是，这些方法只重建表面，有时还包括姿势，仅用于跟踪目的，但通常不允许获取关键的蒙皮信息，这对于动画至关重要。相比之下，我们的重点不同，我们的目标是获取一个包括表面和蒙皮场的详细化身，以便进行重新定位和动画。03. 方法0我们引入了PINA，一种从单个RGB-D视频中学习个性化神经化身的方法，如图2所示。我们的方法的核心思想是将部分深度图融合成单一、一致的3D人体形状表示，并通过全局优化同时学习关节驱动的变形。我们将穿衣人体的3D表面参数化为姿势条件的隐式有符号距离场（SDF）和0在规范空间中学习的变形场（第3.1节）。这种参数化使得可以融合部分和嘈杂的深度观测。这是通过将规范表面点和空间梯度转换到姿势空间中实现的，通过输入点云及其法线进行监督。训练被制定为全局优化（第3.2节），以联合优化每帧的姿势、形状和蒙皮场，而不需要从大型数据集中提取先验知识。最后，学习到的蒙皮场可以用于表达化身（第3.3节）。03.1. 隐式神经化身0规范表示我们在规范空间中对人体化身进行建模，并使用神经网络f sdf来预测该空间中任意3D点x c的有符号距离值。为了模拟姿势相关的局部非刚性变形，如衣服上的皱纹，我们将人体姿势p作为额外的输入连接起来，并将f sdf 建模为：0姿势参数（p）与SMPL骨架[33]一致定义，np是它们的维度。规范形状S由f sdf 的零级集给出：0除了有符号距离，我们还在规范空间中计算法线。我们经验性地发现，这比在姿势空间中计算法线能更好地解决高频细节。规范空间中点x c的法线是通过该点的有符号距离函数的空间梯度计算得到的（通过反向传播获得）：fw : R3Rnb.(4)xd =nb�i=1wicBi xc(5)nd =nb�i=1wic Ri nc(6)SDF(xd) = minxc∈Xc fsdf(xc)(7)x∗c = arg minxc∈Xcfsdf(xc)(8)L(Θ) =N�i=1Lion(Θ) + λoffLioff(Θ) + λeikLieik(Θ)(9)Lion = λsdf Lisdf + λn Lin= λsdfxi|SDF(xd)| + λnxi∥NC(xd)∥iff204730为了将规范形状变形为新的身体姿势，我们还对变形场进行建模。为了在期望的身体姿势p下使隐式人体形状动画化，我们利用线性混合蒙皮（LBS）。规范空间中每个点的骨骼变形被建模为一组骨骼变换B的加权平均，这些变换是从身体姿势p派生出来的。我们遵循[13]，使用神经网络f w在规范空间中定义蒙皮场，以建模连续的LBS权重场：0这里，n b 表示变换中的关节数量，w c = { w 1 c , ..., w nb c } = f w ( x c ) 表示 x c 的学习到的蒙皮权重。0骨骼变形给定关节 i ∈ { 1 , ..., n b } 的骨骼变换矩阵 B i，规范点 x c 被映射到变形点 x d ，如下所示：0变形点 x d 在姿势空间中的法线可以类似地计算：0其中 R i 是 B i的旋转部分。为了计算变形空间中的有符号距离场 SDF ( xd ) ，我们需要规范对应关系 x � c 。0对于变形点 x d，我们遵循[13]的方法，并通过迭代的根查找算法计算其规范对应集 X c = { x 1 c , ..., x k c } ，其中包含满足式 5 的k 个规范候选点。这里，k是根查找算法的经验定义的超参数（详见补充材料以获取更多细节）。请注意，由于拓扑变化，当从变形点检索规范点时，存在一对多的映射，即同一个点 x d可能对应多个不同的有效 x c。根据Ricci等人的方法[50]，我们通过并集（最小值）操作将这些隐式定义的表面的提议合成为单个SDF：0规范对应 x � c 的计算如下：03.2. 训练过程0在规范空间中定义我们个性化的隐式模型对于整合部分观测非常重要0对于所有深度帧，这是因为它提供了一个共同的参考帧。在这里，我们正式描述这个融合过程。我们联合训练我们的模型，包括身体姿势和3D形状和蒙皮网络的权重。0目标函数给定一个包含 N个输入帧的RGB-D序列，我们最小化以下目标函数：0L i on 表示在第 i 帧上定义的在表面上的损失。L i off表示在表面外的损失，有助于雕刻自由空间，而 L i eik是Eikonal正则化器，确保有效的有符号距离场。Θ是优化参数集，包括形状网络权重 Θ sdf ，蒙皮网络权重 Θw 和每帧的姿势参数 p i 。为了计算 L i on，我们首先将深度图像反投影到三维空间，得到每帧人体表面的部分点云 P i on 。对于 P i on 中的每个点 x d，我们还使用局部邻域中的点的主成分分析来计算其对应的法线 n obs d 。然后，定义 L i on 为0(10) 这里，NC ( x d ) = n obs d ( x d ) - n d ( x d )。我们添加了两个额外的项来规范优化过程。L i off通过随机采样远离身体表面的点 P i off 来补充 L i on。对于 P i off 中的任意点 x d，我们计算该点与估计的身体网格之间的有符号距离 SDFbody ( x d )，这个有符号距离作为伪真值，强制合理的表面外SDF值。L i off 的定义如下：0Lioff =|SDF(xd)-SDFbody(xd)|(11)0Lieik = Exc(∥�fsdf(xc)∥-1)2(12)0根据IGR[19]，我们利用Lieik来强制形状网络fsdf在规范空间中满足Eikonal方程：0初始化我们通过将SMPL模型[33]拟合到RGB-D观察中来初始化身体姿势。这是通过最小化点云到SMPL网格的距离，并同时最小化来自DensePose[21]模型获得的相应表面点与SMPL网格之间的距离来实现的。详细信息请参见补充材料。0实现隐式形状网络和混合蒙皮网络是MLP。我们使用位置编码[38]对查询点xc进行编码，以增加网络的表达能力。我们利用[13]中推导的隐式微分来计算迭代根查找过程中的梯度。InitializationWe initialize body poses by fitting SMPLmodel [33] to RGB-D observations. This is achieved byminimizing the distances from point clouds to the SMPLmesh and jointly minimizing distances between the SMPLmesh and the corresponding surface points obtained from aDensePose [21] model. Please see Supp. Mat. for details.204740优化给定一系列RGB-D视频，我们根据3D姿态估计对每个帧的神经隐式人体模型进行变形，并将其与相应的RGB-D观察进行比较。这使我们能够联合优化每个帧的形状参数Θsdf，Θw和姿态参数pi，并使我们的模型对噪声初始姿态估计具有鲁棒性。我们采用两阶段优化协议以实现更快的收敛和更稳定的训练：首先，我们根据初始化过程中从SMPL网格获得的规范空间预训练形状和蒙皮网络。然后，我们联合优化形状网络、蒙皮网络和姿态，以匹配RGB-D观察。03.3.动画0为了生成动画，我们将变形空间离散化为预定义的分辨率，并通过对应搜索（第3.1节）估计每个网格点xd上的SDF(xd)。然后，我们通过MISE[37]提取网格。04.实验0我们首先对我们的设计选择进行了消融实验。接下来，我们将我们的方法与最先进的方法在重建和动画任务上进行了比较。最后，我们定性地展示了仅通过单目RGB-D视频序列学习的个性化角色。04.1.数据集0我们首先在两个标准数据集上进行实验，将干净的扫描投影到RGB-D图像上，以评估我们在重建和动画方面的性能。为了进一步证明我们的方法对真实世界传感器噪声的鲁棒性，我们收集了一个包含单个Kinect的数据集，其中包含各种具有挑战性的服装风格。0BUFF数据集[64]：该数据集包含纹理的3D扫描序列。根据[11]，我们通过渲染扫描并将其用于我们的重建任务，与地面真实扫描进行比较。0CAPE数据集[34]：该数据集包含穿着不同衣服进行各种动作的人的注册3D网格。它还提供相应的地面真实SMPL参数。根据[53]，我们在CAPE上进行动画实验。为了适应我们的单目深度设置，我们通过渲染网格来获取单视图深度输入。最具挑战性的主题0图3.定性消融（BUFF）。联合优化纠正姿势估计并实现更好的重建质量。0方法IoU↑ C-ℓ2↓ NC↑0我们的方法无姿势优化0.850 1.6 0.8870我们的方法0.879 1.1 0.9270表1.在BUFF上优化姿势的重要性。我们评估了我们的方法在不联合优化姿势和形状的情况下的重建结果。0(blazer)用于评估，其中有10个序列用于训练，3个未见序列用于评估动画性能。请注意，我们的方法需要RGB-D进行初始姿态估计，因为CAPE不提供纹理，我们采用了用于训练的真实姿态（基线方法也是如此）。0真实数据：为了展示我们的方法对嘈杂的真实世界数据的鲁棒性和泛化性，我们使用AzureKinect在30fps下收集了RGB-D序列（每个序列大约2-3分钟）。我们使用RGB图像进行姿势初始化。我们从这些数据中学习角色并使用未见过的姿势来驱动角色 [34, 36, 57]。0评估指标：我们考虑体积IoU，Chamfer距离（厘米）和法线一致性进行评估。04.2. 消融研究0姿势和形状的联合优化：从单目RGB-D视频中得到的初始姿势估计通常存在噪声并可能不准确。为了评估联合优化姿势和形状的重要性，我们将我们的完整模型与没有姿势优化的版本进行了比较。结果：表1显示，姿势和形状的联合优化对于实现高质量的重建和全局准确对齐（Chamfer距离和IoU）至关重要。恢复细节也很重要（法线一致性）。如图3所示，姿势优化可以纠正头部和裤腿上的伪影等不自然重建。0变形模型：角色的变形可以分为依赖姿势的变形和骨骼变形。204750图4.定性消融（CAPE）。在没有将形状网络与姿势进行条件化的情况下，静态网络无法表示依赖姿势的表面细节，包括领口和下摆的变形。此外，缺乏学习到的蒙皮权重会导致表面嘈杂。0方法 IoU ↑ C - ℓ2 ↓ NC ↑0我们的方法（无姿势条件）0.936 0.991 0.884我们的方法（带有SMPL权重）0.945 0.643 0.8870我们的方法（完整）0.955 0.604 0.9120表2.姿势相关变形和学习蒙皮权重在CAPE上的重要性。我们评估了我们的方法在没有姿势条件和由SMPL蒙皮权重驱动的动画结果。0通过学习到的蒙皮场对角色进行骨骼变形，以模拟依赖姿势的变形，如布料皱纹。我们利用姿势条件的形状网络在规范空间中表示SDF。结果：图4显示，没有姿势特征，网络无法表示西装动态变化的表面细节，并默认为平滑的平均值。与我们的完整方法相比，Chamfer距离增加了70%。0为了展示学习到的蒙皮权重的重要性，我们将我们的完整模型与具有固定形状网络（带有SMPL权重）的变体进行了比较。点使用最近的SMPL顶点处的SMPL混合权重进行变形。结果：表2表明我们的方法在所有指标上优于基线。特别是，法线一致性显著提高。这也可以在图4中看出，其中基线（带有SMPL权重）嘈杂并产生伪影。这可以解释为SMPL的蒙皮权重仅在裸体的网格顶点处定义，因此它们无法模拟复杂的变形。04.3.重建比较基准：尽管不是我们的主要目标，我们还将与几种重建方法进行比较，包括IP-Net [7]，CAPE [34]和DSFN[11]。实验在BUFF[64]数据集上进行。RGB-D输入是从一系列注册的3D网格渲染的。IP-Net0方法 IoU ↑ C - ℓ2 ↓ NC ↑0IP-Net [7] 0.783 2.1 0.861 CAPE [34]0.648 2.5 0.844 DSFN [11] 0.832 1.60.9160我们的方法 0.879 1.1 0.9270表3.BUFF上的定量评估。我们为所有方法提供渲染的深度图作为输入。我们的方法在所有指标上始终优于其他所有基准方法（请参见图5进行定性比较）。0依赖于[1,2]中学习到的先验知识。它以每个深度帧的部分3D点云作为输入，并预测人体的隐式表面。然后，将SMPL+D模型注册到重建的表面上。DSFN通过姿势相关的MLP模型对每个顶点进行偏移，以最小化衣着最少的SMPL身体。对于CAPE，我们遵循DSFN[11]中的协议，并根据RGB-D观测优化潜在编码。0结果：表3总结了在BUFF上的重建比较。我们观察到，与当前SOTA方法相比，我们的方法在所有三个指标上都能得到更好的重建结果。图5显示了定性比较。与基于隐式重建的方法（如IP-Net）相比，我们的方法更好地重建了人体特定的细节，并生成了完整的人体。这是因为IP-Net逐帧地重建人体，无法利用序列中的信息。相反，我们的方法通过全局优化来解决这个问题。与具有显式表示的方法（如CAPE和DSFN）相比，我们的方法更好地重建了与最少穿着的人体几何上不同的细节（头发、裤子腿）。我们将这归因于隐式形状表示的灵活性。04.4. 动画比较0基线：我们将CAPE [34]上的动画质量与IP-Net[7]和SCANimate[53]进行比较。IP-Net不能在整个深度序列上本地融合信息（在第4.3节中讨论）。为了公平比较，我们将一个完整的T形姿势扫描作为IP-Net的输入，并预测隐式几何并利用注册的SMPL+D模型将其变形为未见过的姿势。对于SCANimate，我们创建了两个基线。第一个基线（SCANimate3D）是从完整的网格中学习的，并遵循SCANimate的原始设置。请注意，在这个比较中，我们处于不利地位，因为我们只假设单眼深度输入，没有准确的表面法线信息。因此，我们还将其与一个在等效2.5D输入上运行的变体（SCANimate 2.5D）进行比较。SCANimate [53]3D0.9410.5960.906204760图5.BUFF上的定性重建比较。我们的方法在重建细节方面表现更好，与IP-Net相比生成的伪影较少。隐式形状表示使得对复杂几何（头发、裤子后跟）的准确重建比具有显式表示的方法（CAPE和DSFN）更好。0图6.CAPE上的定性动画比较。IP-Net产生了不真实的动画结果，可能是由于过拟合和错误的蒙皮权重造成的。SCANimate的变形场定义在变形空间中，因此限制了其对未见过姿势的泛化能力。这在只使用部分点云作为输入的SCANimate（2.5D）中更加严重。相比之下，我们的方法通过在规范空间中联合优化蒙皮场和形状来自然地解决了这个问题。0结果：表4显示了定量结果。我们的方法优于IP-Net和SCANimate（2.5D），并且与在完整和无噪声的3D网格上训练的SCANimate（3D）取得了可比较的结果。图6显示了当动画化IP-Net时，西装的服装变形是不真实的。这可能是由于对训练数据过拟合造成的。此外，动画是由从穿着最少衣物的人体上学习到的蒙皮权重驱动的。如图6所示，SCANimate对于未见过的姿势也会导致不真实的动画结果。这是因为SCANimate中的变形场取决于变形对象的姿势，这限制了对未见过姿势的泛化能力。此外，我们发现这个问题在具有部分点云的SCANimate（2.5D）中被放大。相比之下，我们的方法通过在规范空间中联合学习蒙皮场和形状很好地解决了这个问题。04.5. 现实世界的性能0为了展示我们的方法在嘈杂的真实数据上的性能，我们在图7中展示了额外的RGB-D序列的结果。更具体地说，我们从一个RGB-D视频中学习了一个神经化身，并使用来自[34,36, 57]的未见过的运动序列驱动动画。0方法输入 IoU ↑ C − ℓ 2 ↓ NC ↑0SCANimate [ 53 ] 2.5D 0 . 665 3 . 704 0 . 785 我们的2.5D 0 . 946 0 . 666 0 . 9060表4. CAPE上的定量评估. 我们的方法在IP-Net和SCANimate(2.5D)上取得了很大的优势，并且与在完整3D网格上训练的SCANimate(3D)相当，后者相对于使用部分2.5D数据作为输入的情况要容易得多.0我们的方法能够重建复杂的服装几何结构，如连帽衫、高领衫和棉袄.此外，我们展示了对新的超出分布的运动序列进行重新姿势的能力，包括跳舞和锻炼.05. 结论0在本文中，我们提出了PINA来学习从嘈杂和部分深度图中重建和动画化个性化的隐式角色. 关键思想是在规范空间中表示隐式形状和姿势相关的变形，从而实现对输入序列的融合.我们提出了一种全局优化方法，能够联合学习绑定场和表面法线在规范表示中的情况.我们的方法学习恢复表面细节，并能够在新的未见过的姿势中为人体角色进行动画化.我们将该方法与明确和神经隐式的最先进基线进行了比较，并展示了在所有指标上我们都超越了所有基线. 目前，我们的204770图7. RGB-D结果. 我们展示了我们方法在真实RGB-D视频中的定性结果. 每个主体的录制时间为2-3分钟(左图).通过联合拟合形状和绑定网络以及姿势的参数，我们从嘈杂的深度序列中学习形状和绑定权重(重建). 我们使用来自[34, 36,57]的未见过的姿势来为学习到的角色进行动画化.0致谢: Zijian Dong受ELLIS的支持. Xu Chen受Max PlanckETH学习系统中心的支持.0该方法没有对角色的外观进行建模.这是未来工作的一个有趣方向.我们在补充材料中讨论了潜在的负面社会影响和局限性.0[1] https://web.twindom.com/ . 6 [2] https://www.treedys.com/ . 6[3] Thiemo Alldieck, Marcus Magnor, Bharat Lal Bhatnagar, ChristianTheobalt, 和 Gerard Pons-Moll. 从单个RGB相机学习在服装中重建人物.在IEEE/CVF计算机视觉与模式识别会议上, 页码1175–1186, 2019年. 2[1] https://web.twindom.com/. 6[2] https://www.treedys.com/. 6[3] Thiemo Alldieck, Marcus Magnor, Bharat Lal Bhatnagar,Christian Theobalt, and Gerard Pons-Moll. Learning to re-construct people in clothing from a single rgb camera. InProceedings of the IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition, pages 1175–1186, 2019. 2204780参考文献0[4] Thiemo Alldieck, Marcus Magnor, Weipeng Xu, ChristianTheobalt, 和 Gerard Pons-Moll. 基于视频的3D人物模型重建.在IEEE计算机视觉与模式识别会议上, 页码8387–8397, 2018年. 20[5] Dragomir Anguelov, Praveen Srinivasan, Daphne Koller,Se- bastian Thrun, Jim Rodgers, 和 James Davis. Scape:人物的形状补全和动画. 在ACM SIGGRAPH 2005论文集上,页码408–416. 2005年. 20[6] Hugo Bertiche, Meysam Madadi, Emilio Tylson, 和 SergioEscalera. Deepsd:用于3D服装动画的自动深度绑定和姿势空间变形.在IEEE/CVF国际计算机视觉会议(ICCV)上, 页码5471–5480,2021年10月. 20[7] Bharat Lal Bhatnagar, Cristian Sminchisescu, ChristianTheobalt, 和 Gerard Pons-Moll.结合隐式函数学习和参数模型进行3D人体重建.在欧洲计算机视觉会议(ECCV)上. Springer, 2020年8月. 1 , 2 ,3 , 6 , 70[8] Bharat Lal Bhatnagar, Garvita Tiwari, Christian Theobalt,and Gerard Pons-Moll. Multi-garment net:从图像中学习为3D人物着装. 在IEEE国际计算机视觉会议(ICCV)上.IEEE, 2019年10月. 20[9] Federica Bogo, Angjoo Kanazawa, Christoph Lassner,Peter Gehler, Javier Romero, 和 Michael J Black. Keep it smpl:从单个图像自动估计3D人体姿势和形状.在欧洲计算机视觉会议上, 页码561–578. Springer, 2016年. 20[10] Aljaz Bozic, Pablo Palafox, Michael Zollhofer, Justus Thies,Angela Dai和Matthias Nießner.用于全局一致非刚性重建的神经变形图.在IEEE/CVF计算机视觉和模式识别会议论文集中, 页1450-1459,2021. 2 , 30[11] Andrei Burov, Matthias Nießner和Justus Thies.用于穿着人体的动态表面函数网络.在国际计算机视觉会议(ICCV)中, 2021. 1 , 2 , 3 , 5 , 60[12] Xu Chen, Tianjian Jiang, Jie Song, Jinlong Yang, Michael JBlack, Andreas Geiger和Otmar Hilliges. gdna:朝向生成细节神经化身. arXiv预印本arXiv:2201.04123, 2022. 20[13] Xu Chen, Yufeng Zheng, Michael J Black, OtmarHilliges和Andreas Geiger. Snarf:可微分的前向蒙皮用于非刚性神经隐式形状的动画.在国际计算机视觉会议(ICCV)中, 2021. 2 , 3 , 4 , 70[14] Zhiqin Chen和Hao Zhang. 学习生成形状建模的隐式场.在IEEE/CVF会议论文集中0计算机视觉和模式识别会议, 页5939-5948, 2019. 20[15] Julian Chibane, Thiemo Alldieck和Gerard Pons-Moll.特征空间中的隐式函数用于3D形状重建和补全.在IEEE计算机视觉和模式识别会议(CVPR)中. IEEE, 2020. 2 , 30[16] Boyang Deng, John P Lewis, Timothy Jeruzalski, GerardPons-Moll, Geoffrey Hinton, Mohammad Norouzi和AndreaTagliasacchi. NASA神经关节形状近似. 在计算机视觉-ECCV 2020:第16届欧洲会议, 格拉斯哥, 英国, 2020年8月23日-28日,论文集第VII卷, 页612-628. Springer, 2020. 20[17] Zijian Dong, Jie Song, Xu Chen, Chen Guo和OtmarHilliges. 多视角图像中的形状感知多人姿势估计.在IEEE/CVF国际计算机视觉会议论文集中, 页11158-11168, 2021.20[18] Qi Fang, Qing Shuai, Junting Dong, Hujun Bao和XiaoweiZhou. 通过观察镜中的人类重建3D人体姿势.在IEEE/CVF计算机视觉和模式识别会议论文集中, 页12814-12823,2021. 20[19] Amos G

下载后可阅读完整内容，剩余1页未读，立即下载