HuMoR：用于鲁棒姿势估计的3D人体运动模型

68 浏览量更新于2023-10-16 收藏 18.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

114880HuMoR：用于鲁棒姿势估计的3D人体运动模型0Davis Rempe 1 Tolga Birdal 1 Aaron Hertzmann 2 Jimei Yang 20Srinath Sridhar 3 Leonidas J. Guibas 101 斯坦福大学 2 Adobe研究 3 布朗大学0图1：概述。HuMoR是一种用于鲁棒估计时间姿势的3D人体运动模型，其形式为条件变分自编码器。（左）所提出的方法可以处理多种输入模态，并设计用于处理部分和噪声观测。（中/右）测试时的优化将3D运动和形状与输入序列拟合，使用HuMoR作为先验；其他输出包括地面和人体与地面的接触（着色为地面平面和接触）。0摘要0我们介绍了HuMoR：一种用于鲁棒估计时间姿势和形状的3D人体运动模型。尽管在从动态观测中估计3D人体运动和形状方面取得了实质性进展，但在存在噪声和遮挡的情况下恢复合理的姿势序列仍然是一个挑战。为此，我们提出了一种表达丰富的生成模型，即条件变分自编码器，它学习了运动序列中每一步姿势变化的分布。此外，我们引入了一种灵活的基于优化的方法，利用HuMoR作为运动先验，从模糊的观测中鲁棒地估计合理的姿势和形状。通过广泛的评估，我们证明我们的模型在训练大型动作捕捉数据集后可以推广到不同的运动和身体形状，并且可以从多种输入模态（包括3D关键点和RGB(-D)视频）重建运动。请参阅项目页面0geometry.stanford.edu/projects/humor。01. 引言0室内场景理解[15]需要准确感知3D人体姿势、形状、动作、接触和交互。以前的大量工作都集中在从视频中估计2D或3D人体姿势[13, 52, 53]、形状[57, 26,67]和动作[37]。由于关节、身体形状和外观变化的空间较大，这些都是具有挑战性的问题。即使是最好的方法也难以准确地捕捉到各种运动的各种输入模态，产生噪声或过度平滑的运动（尤其是在接触地面时，即脚滑动），并且在遮挡（例如，走在沙发后面，如图1所示）时难以处理。我们专注于构建一个能够解决这些挑战的鲁棒人体运动模型的问题。迄今为止，大多数运动模型直接表示可能姿势的序列，例如在PCA空间[55, 77, 70]中或通过未来预测的自回归过程[75,76,61]中。然而，纯粹基于姿势的预测要么使建模环境交互和训练姿势之外的泛化变得困难，要么很快偏离了现实运动的空间。另一方面，显式的物理动力学模型[63, 43, 69, 62,12,11]资源密集且需要对不可观测的物理量有所了解。虽然生成模型可能提供所需的灵活性，但构建一个表达、可推广和鲁棒的逼真3D人体运动模型仍然是一个开放的问题。为了解决这个问题，我们引入了一个学习的、自回归的、生成模型，可以捕捉3D人体动力学的动态。motion, i.e., how pose changes over time. Rather than de-scribing likely poses, the Human Motion Model for RobustEstimation (HuMoR) models a probability distribution ofpossible pose transitions, formulated as a conditional vari-ational autoencoder [72]. Though not explicitly physics-based, its components correspond to a physical model: thelatent space can be interpreted as generalized forces, whichare inputs to a dynamics model with numerical integration(the decoder). Moreover, ground contacts are explicitly pre-dicted and used to constrain pose estimation at test time.After training on the large AMASS motion capturedataset [51], we use HuMoR as a motion prior at test timefor 3D human perception from noisy and partial observa-tions across different input modalities such as RGB(-D)video and 2D or 3D joint sequences, as illustrated in Fig. 1(left). In particular, we introduce a robust test-time opti-mization strategy which interacts with HuMoR to estimatethe parameters of 3D motion, body shape, the ground plane,and contact points as shown in Fig. 1 (middle/right). Thisinteraction happens in two ways: (i) by parameterizing themotion in the latent space of HuMoR, and (ii) using Hu-MoR priors in order to regularize the optimization towardsthe space of plausible motions.Comprehensive evaluations reveal that our method sur-passes the state-of-the-art on a variety of visual inputs interms of accuracy and physical plausibility of motions un-der partial and severe occlusions. We further demonstratethat our motion model generalizes to diverse motions andbody shapes on common generative tasks like sampling andfuture prediction. In a nutshell, our contributions are:114890•HuMoR是一种生成式的3D人体运动先验模型，通过一种新颖的条件变分自编码器实现，能够进行富有表现力和通用的运动重建和生成。0•后续的鲁棒的测试时优化方法使用HuMoR作为强大的运动先验，同时解决姿势、身体形状和地面/接触的问题。0•具备处理各种输入的能力，例如RGB(-D)视频和2D/3D关节位置序列，以产生准确和合理的运动和接触，通过广泛的评估进行验证。0我们的工作更一般地表明，神经网络在动力学问题上可以从模拟传统物理公式的控制结构中受益。02. 相关工作0在恢复3D关节位置[60, 53,52]或参数化的3D姿势和形状（即SMPL[48]）方面已经取得了很大进展。我们主要关注运动和形状估计。0基于学习的估计。深度学习方法已经在从单个图像中回归3D形状和姿态方面取得了成功[39, 34, 58, 25, 24, 87,16]。这导致了直接从RGB视频中预测运动（姿态序列）和形状的发展[35, 89, 68, 74, 18]。最近，VIBE[37]使用对抗训练来鼓励条件循环运动生成器产生合理的输出。MEVA[50]将固定长度的图像序列映射到预训练运动自编码器的潜在空间。这些方法快速且能够为视频生成准确的根相对关节位置，但运动在全局上不一致，并且很难泛化，例如在严重遮挡下。其他作品解决了静态图像上的遮挡问题[7, 90, 64,22,38]。我们的方法通过使用HuMoR在视频和其他模态中产生合理且富有表现力的运动来解决视频和其他模态中的困难遮挡问题。0基于优化的估计。可以直接通过人体模型[20, 4,8]优化以更准确地拟合观测（图像或2D姿势估计器[13]），SMPLify[8]使用SMPL模型[48]将姿势和形状参数拟合到图像中的2D关键点，使用姿势和形状的先验。后来的作品考虑了身体轮廓[41]并使用了学习的变分姿势先验[57]。运动序列的优化已经被多个作品探索[3, 33, 47, 88,83]，这些作品在时间上应用了简单的平滑先验。这些方法在人物完全可见时产生合理的估计，但动力学不真实，例如过于平滑的运动和脚滑。一些作品通过假设场景几何已知来改善形状和姿势估计的人-环境交互和接触约束[28, 47,29]。iMapper[54]根据运动检索从RGB视频中恢复3D关节和原始场景表示，这可能与观测不同。相比之下，我们的方法通过使用产生更自然运动的表达性生成模型来优化姿势和形状，具有更真实的地面接触。0人体运动模型。早期用于姿态跟踪的复杂运动模型采用了多种方法，包括高斯混合模型[32]、周期运动的线性嵌入[55,77, 70]、非线性嵌入[19]和非线性自回归模型[75, 81, 76,61]。这些方法在姿态空间中操作，仅限于特定的运动。基于物理的模型可以更准确地进行泛化[63, 43, 69, 62, 12, 11,86]，同时估计全局姿态和环境交互。然而，通用的基于物理的模型学习起来很困难，在测试时计算量很大，并且通常假设全身可见以检测接触[63, 43,69]。许多运动模型已经被用于计算机动画[10, 40, 66, 42,46, 31, 73]，包括最近的循环和自回归模型[27, 23, 30, 84,44]。这些模型通常专注于一小组角色的视觉保真度。x = [r˙rΦ˙ΦΘJ˙J],(1)pθ(x0, x1, . . . , xT ) = pθ(x0)T�t=1pθ(xt|xt−1) ,(2)pθ(zt|xt−1) = N(zt; µθ(xt−1), σθ(xt−1)) ,(3)xt = xt−1 + ∆θ(zt, xt−1) + η,η ∼ N(0, I).(4)pθ(xt|xt−1) =�ztpθ(zt|xt−1)pθ(xt|zt, xt−1).(5)log pθ(xt|xt−1) ≥ Eqφ[log pθ(xt|zt, xt−1)]− DKL(qφ(zt|xt, xt−1) ∥ pθ(zt|xt−1)).(6)114900和周期运动。有些研究探索了生成更一般的动作和身体形状[91, 59, 1,17]，但是这是在短期未来预测的背景下。HuMoR与Motion VAE[44]最相似，但我们对使其能够推广到未见过的非周期性运动和新颖身体形状做出了重要贡献。03. HuMoR: 3D人体动力学模型0我们的目标是构建一个从真实人体动作中学习到的3D人体运动的表达丰富且具有泛化能力的生成模型，并展示它可以用于姿势和形状的鲁棒测试时间优化（TestOpt）。在本节中，我们首先描述模型HuMoR。状态表示。我们将移动人物的状态表示为一个由根部平移 r ∈ R3、根部方向 Φ ∈R3（以轴角形式表示）、身体姿势关节角度 Θ ∈ R3×21和关节位置 J ∈ R3×22 组成的矩阵 x：0其中 ˙ r、˙ Φ 和 ˙ J 分别表示根部和关节的速度，因此 x ∈R3×69。状态的一部分 (r, Φ, Θ)参数化了SMPL身体模型[48, 65]，它是一个可微分函数M(r, Φ, Θ, β)，将其映射到身体网格顶点 V ∈ R3×6890和关节 J SMPL ∈ R3×22，给定形状参数 β ∈R16。我们的过度参数化允许通过两种方式恢复关节：(i) 从J 显式恢复，(ii) 通过SMPL映射 M(∙)隐式恢复。潜在变量动力学模型。我们感兴趣的是建模时间序列状态的概率：0其中每个状态只依赖于前一个状态，并且 θ是学习的参数。因此，p θ ( x t | x t − 1 )必须捕捉过渡的合理性。我们提出了一个条件变分自编码器（CVAE），将运动 p θ ( x t | x t − 1 )形式化为如图2所示的潜在变量模型。按照原始CVAE的推导[72]，我们的模型包含两个主要组成部分。首先，在给定先前状态 x t − 1 的条件下，可能的潜在变量 z t ∈ R48的分布由一个学习的条件先验描述：0该先验通过神经网络参数化对角协方差的高斯分布。直观地说，潜在变量 z t 表示到 x t 的过渡，因此在给定不同的 x t− 1时应具有不同的分布。例如，一个静止的人有大量可能的下一个状态，而一个在空中的人则几乎是确定性的。0轨迹。学习条件先验显著提高了CVAE泛化到多样化动作的能力，并在训练和TestOpt中实现了经验稳定。其次，在给定 z t 和 x t − 1 的条件下，解码器产生两个输出，∆ θ 和 ct 。状态变化 ∆ θ 通过以下方式定义输出分布 p θ ( x t | z t, x t − 1 )：0我们发现，相对于直接进行下一步预测，加法更新 ∆ θ可以提高预测准确性。人-地接触 c t是指每个8个身体关节（左右脚趾、脚跟、膝盖和手）在时间 t与地面接触的概率。接触不是条件先验的输入，而是解码器的输出。接触使得TestOpt中的环境约束成为可能。因此，过渡的完整概率模型为：0给定初始状态 x 0 ，可以通过交替采样 z t � p θ ( z t | x t− 1 ) 和 x t � p θ ( x t | z t , x t − 1 ) ，从 t = 1 到 T来采样运动序列。该模型类似于传统的随机物理模型。条件先验可以被看作是一个控制器，根据状态 x t − 1产生“力” z t，而解码器则像是在方程（4）中的广义位置和速度的物理动力学模型和欧拉积分器。除了这种很好的物理解释外，我们的模型还受到了MotionVAE（MVAE）[44]的启发，该模型最近在单个字符的运动动画中展示了有希望的结果，也使用了VAE来估计 p θ ( x t| x t − 1 )。然而，我们发现直接应用MVAE来进行估计并不能得到好的结果（第5节）。我们通过额外学习一个条件先验，对状态的变化和接触进行建模，并鼓励关节位置和角度预测之间的一致性（第3.1节）来克服这个问题。Rollout。我们使用我们的模型来定义一个确定性的rollout函数，这对于TestOpt至关重要。给定初始状态 x 0 和一系列的潜在转换 z 1:T ，我们定义一个函数 x T = f ( x 0 , z 1: T )，该函数将运动“参数”（ x 0 , z 1: T）确定地映射到时间 T的结果状态。这是通过自回归rollout来实现的，其中在每个时间步骤上解码和积分 x t = x t − 1 + ∆ θ ( z t , x t −1 ) 。初始状态GMM。我们使用高斯混合模型（GMM）对p θ ( x 0 ) 进行建模，其中包含 K = 12个组件，带有权重 γ i ，使得 p θ ( x 0 ) = � K i =1 γ i N (x 0 ; µ i θ , σ i θ ) 。03.1. 训练0我们使用（ x t − 1 , x t）的配对来训练我们的CVAE。我们考虑通常的变分下界：Figure 2: HuMoR CVAE Architecture. During training, given the previous state xt−1 and ground truth current state xt, themodel reconstructs ˆxt by sampling from the encoder distribution. At test time we can (i) generate the next state from xt−1by sampling from the prior distribution and decoding, (ii) infer a latent transition zt with the encoder, or (iii) evaluate thelikelihood of a given zt with the conditional prior.Lrec + wKLLKL + Lreg(7)Ljoint = ||JSMPLt− ˆJSMPLt||2(8)Lvtx = ||Vt − ˆVt||2Lconsist = ||ˆJt − ˆJSMPLt||2.(9)j ˆcjt||ˆvt||2 with ˆvt ∈ ˆ˙Jtthat joint j is in groundwKL = 4e−4.114910期望项衡量了解码器的重构误差。编码器，即近似后验，用于训练并参数化一个高斯分布 q φ ( z t | x t , x t − 1 ) =N ( z t ; µ φ ( x t , x t − 1 ) , σ φ ( x t , x t − 1 ))。KL散度 D KL ( ∙ ∥ ∙ )使其输出接近先验进行正则化。因此，我们寻找最小化损失函数的参数 ( θ, φ ) ：0在我们的数据集中的所有训练对中，其中 L rec + w KL LKL 是等式（6）中的下界，带有权重 w KL ，而 L reg包含额外的正则化项。对于单个训练对（ x t − 1 , x t），重构损失计算为 L rec = || x t − ˆ x t || 2，其中解码器的输出 ˆ x t = x t − 1 + ∆ θ ( z t , x t − 1) ，其中 z t � q φ ( z t | x t , x t − 1 )。通过使用重参数化技巧[36]通过这个样本进行反向传播。正则化损失包含两个项： L reg = L SMPL + w contactL contact 。SMPL项 L SMPL = L joint + L vtx + Lconsist 使用了带有估计参数和真实形状的身体模型的输出[ ˆ J SMPL t , ˆ V t ] = M (ˆ r t , ˆ Φ t , ˆ Θ t , β ) ：0损失 L consist鼓励回归关节与身体模型的关节保持一致。接触损失 L contact= L BCE + L vel包含两个项。第一个项通过典型的二元交叉熵监督地面接触分使其与接触保持一致。0与接触保持一致 L vel = �0初始状态 GMM 是在与训练 CVAE使用相同的数据集上通过期望最大化单独训练的。实现细节。为了简化学习并提高泛化性能，我们的模型在每个步骤中都在对齐的规范坐标框架中操作。所有网络都是具有ReLU激活函数和组归一化[82]的4或5层MLP。为了解决后验坍塌问题[49, 44, 72]，我们在训练过程中线性地退火 w KL[9]。根据[44]，我们还使用了计划采样[6]，使模型能够容忍自身的错误并实现长期生成。更多细节请参见补充材料。04. 测试时运动优化0接下来，我们将 HuMoR 学习到的运动空间作为先验用于TestOpt，从噪声和部分观测中恢复姿势和形状，同时确保合理性。04.1. 优化变量0给定一系列观测 y 0:T，可以是2D/3D关节、3D点云或3D关键点，我们寻找描述正在观察的基础运动的形状 β 和一系列 SMPL 姿势参数 ( r0:T , Φ 0:T , Θ 0:T ) 。我们通过初始状态 x 0和一系列潜在转换 z 1:T 来参数化优化后的运动，然后在T（和任何中间步骤）通过模型展开使用解码器确定 x T = f( x 0 , z 1:T )。与直接优化 SMPL [3, 8, 33]相比，这种运动表示自然地鼓励合理性，并且变量数量较少。为了获得我们的 CVAE在训练时使用的规范坐标框架与用于优化的观测框架之间的转换，我们minx0,z1:T ,g,β Emot + Edata + Ereg.(10)ECVAE = −λCVAET�t=1log N(zt; µθ(xt−1), σθ(xt−1))Einit = −λinit logK�i=1γiN(x0; µiθ, σiθ).(11)Edata ≜ E3Ddata = λdataT�t=0J�j=1||pjt − yjt||2(12)Edata ≜ E2Ddata = λdataT�t=0J�j=1σjt ρ(Π(pjt) − yjt)(13)Edata ≜ EPC3Ddata= λdataT�t=0Nt�i=1wbs minpt∈Vt ||pt − yit||2 (14)Eskel =T�t=1�λcJ�j=1||pjt − pj,predt||2 + λbB�i=1(lit − lit−1)2�Eenv =T�t=1J�j=1λcvcjt||pjt−pjt−1||2+λchcjt max(|pjz,t|−δ, 0)114920此外，我们还优化场景的地面平面 g ∈ R 3。总之，我们同时优化初始状态 x 0 ，一系列潜在变量 z1:T ，地面 g 和形状 β。我们假设相机是静态的且内参已知。04.2. 目标和优化0优化目标可以被表述为最大后验估计（MAP）（见补充材料），它寻求在我们的生成模型下合理且与观察结果密切匹配的运动：0我们接下来详细介绍每个术语，包括运动先验、数据和正则化能量。在下面的公式中，λ是用来确定每个术语贡献的权重。运动先验 E mot 。该能量度量了潜在转换 z 1:T和初始状态 x 0 在 HuMoR CVAE 和 GMM下的可能性。它是 E mot = E CVAE + E init ，其中0E CVAE 使用学习到的条件先验，E init 使用初始状态GMM。数据项 E data。这个项是我们方法中唯一与模态相关的组成部分，需要不同的输入损失：3D关节、2D关节和3D点云。所有数据损失都基于通过身体模型获得的 SMPL 关节或网格顶点 [ JSMPL t , V t ] = M ( r t , Φ t , Θ t , β ) ，其中当前形状 β与包含在 x t = f ( x 0 , z 1: t ) 中的 SMPL 参数 ( r t , Φ t , Θ t )一起使用，这些参数从规范坐标框架转换为观测（即相机）框架。在最简单的情况下，观测值 y t是3D关节位置（或具有已知对应关系的关键点），我们的能量为0其中p j t ∈ J SMPL t。对于2D关节位置，每个位置都有一个检测置信度σ jt，我们使用重新投影损失0其中ρ是鲁棒的Geman-McClure函数[8,21]，Π是针孔投影。如果有估计的人体分割掩码可用，它将用于忽略虚假的2D关节。0最后，如果yt是从大致遮罩在感兴趣的人周围的深度图中获得的3D点云，我们使用网格顶点来计算0其中wbs是基于Chamfer距离项计算的鲁棒双平方权重[5]。正则化项E reg。额外的正则化包括四个项E reg = E skel + Eenv + E gnd + Eshape。前两个项鼓励CVAE的展开运动在初始状态x0离最优解很远时也能合理，即在优化的早期。骨架一致性项使用解码器在展开过程中直接预测的关节Jt以及SMPL关节：0其中p j t ∈ J SMPL t，p j, pred t ∈ Jt。第二个求和使用每个步骤中从Jt计算的骨长l。第二个正则化项Eenv确保CVAE预测的接触、运动和环境之间的一致性：0其中p j t ∈ J SMPL t，c jt是模型输出的关节j的接触概率。通过加权的接触高度项λch，确保接触关节的z分量在规范化坐标系中与地板的距离不超过δ。最后两个正则化项是关于地面和形状的先验。我们假设地面应该保持接近初始化E gnd = λ gnd || g − ginit || 2。最后，β应该保持接近中性零向量，类似于[28,57]：E shape = λ shape || β ||2。初始化和优化。我们使用E data和Eshape以及两个额外的正则化项来初始化时间上的SMPL参数r 0: T，Φ 0: T，Θ 0: T和形状β。E pose = �0t || z pose t || 2是一个姿势先验，其中z pose t ∈ R32是在VPoser模型[57,28]的潜在空间中表示的身体关节角度。平滑项E smooth = �T t =1 � J j =1 || p j t − p j t − 1 || 2，其中p j t ∈ J SMPLt在时间上平滑3D关节位置。然后，通过CVAE编码器进行推理，计算出初始潜在序列z init 1:T。我们的优化使用PyTorch[56]中的L-BFGS和autograd实现；使用批处理，一个3秒的RGB视频大约需要5.5分钟来拟合。我们在补充材料中提供了更多细节。05.实验结果0我们在(i)生成采样任务和(ii)作为TestOpt中的先验来估计来自3D的运动上评估HuMoRHuMoR0.8821.542.194.9HuMoR (Qual)0.8822.046.3100.0114930未来预测多样性模型接触↑ ADE↓ FDE↓ APD↑0表1：（左）对2s的AMASS序列进行未来预测的准确性。报告接触分类准确性、平均位移误差（cm）和最终位移误差（cm）。（右）通过平均配对距离（cm）测量的5s滚动中的采样多样性。0和RGB(-D)输入。我们建议观看补充视频，以欣赏我们方法的定性改进。更多的数据集和实验细节请参见补充文档。05.1. 数据集0AMASS[51]是一个包含各种动作和身体形状的大型动作捕捉数据库，基于SMPL身体模型。我们对数据集进行了30Hz的子采样，并使用推荐的训练集来训练CVAE和HuMoR中的初始状态GMM。我们在Transitions和HumanEva[71]子集上进行评估（第5.3节和第5.4节）。i3DB[54]包含涉及中度到重度遮挡的人-场景交互的RGB视频。它提供了注释的3D关节位置和用于计算合理性指标的基本3D场景重建。我们运行现成的2D姿势估计[13]、人物分割[14]和平面检测[45]模型，以获得我们优化的输入。PROX[28]包含与室内环境中的人物互动的RGB-D视频。我们使用定性数据的子集，使用拟合到提供的地面真实场景网格的地板平面来评估合理性指标。我们以与i3DB相同的方式获得2D姿势、人物掩码和地平面初始化。05.2. 基线和评估指标0运动先验基线。我们对所提出的CVAE进行了分析，以分析其核心组件：NoDelta直接从解码器预测下一个状态，而不是状态的变化，No Contacts不对地面接触进行分类，NoLSMPL在训练中不使用SMPL正则化，StandardPrior使用N(0,I)而不是我们学习到的条件先验。所有这些一起进行消融实验，恢复了MVAE[44]。运动估计基线。VPoser-t是我们优化的初始化阶段。它使用了VPoser[57]和类似于之前工作[3,33,88]的3D关节平滑。PROX-(RGB/D)[28]是基于优化的方法，分别对RGB和RGB-D视频的每个帧进行操作。两者都假设给定了完整的场景网格。0力接触和穿透约束。VIBE[37]是一种最近学习的方法，用于从视频中恢复形状和姿势。误差指标。3D位置误差是在关节、关键点或网格顶点（Vtx）上测量的，并计算全局平均每点位置误差，除非另有说明。我们分别报告所有（All）、遮挡（Occ）和可见（Vis）观测的位置误差。最后，我们报告HuMoR预测的8个人-地面接触（Contact）的二分类准确性。合理性指标。我们使用其他指标来衡量关节误差无法捕捉到的定性运动特征。平滑性通过平均每个关节加速度（Accel）[35]进行评估。另一个重要的合理性指标是地面穿透[63]。我们使用真实的地面平面来计算足-地板穿透的频率（Freq）：左脚和右脚关节超过阈值的帧的比例。我们在0、3、6、9、12和15cm的阈值下测量频率，并报告平均值。我们还报告平均穿透距离（Dist），其中非穿透帧贡献0的距离，以使不同频率的值可比较。05.3. 生成模型评估0我们首先将HuMoR作为一个独立的生成模型进行评估，并与MVAE进行比较，展示了对未见过的动作和身体的改进泛化能力，针对两个常见任务（见表1）：未来预测和多样性采样。我们使用2s的AMASS序列，并从第一步开始生成。结果显示了HuMoR和修改后的HuMoR（Qual），在每个步骤的展开中使用JSMPL作为输入，而不是J，从而强制保持骨架一致性。这个版本在生成方面产生了更好的结果，但在TestOpt期间使用起来太昂贵。对于预测，我们报告平均位移误差（ADE）和最终位移误差（FDE）[85]，分别测量所有步骤和最后一步的平均关节误差。我们对每个初始状态进行50次2s运动的采样，选择平均位移误差最低的一个作为预测结果。对于多样性，我们采样50个5s运动，并计算平均配对距离（APD），即所有样本之间的平均关节距离。如表1所示，基础的MVAE[44]在训练大型AMASS数据集时无法很好地泛化；我们提出的CVAE改善了样本的准确性和多样性。HuMoR（Qual）降低了预测准确性，但提供了更好的多样性和视觉质量（详见补充材料）。05.4. 从3D观测中估计0接下来，我们展示了当用于拟合3D数据时，HuMoR也具有更好的泛化能力，并且使用运动先验对处理遮挡是至关重要的。我们使用3秒的AMASS序列来展示关键能力：（i）拟合部分数据和（ii）去噪。对于前者，114940位置误差关节网格地面穿透方法输入可见遮挡全部腿部顶点接触加速度频率距离0VPoser-t 遮挡关键点 0.67 20.76 9.22 21.08 7.95 - 5.71 16.77% 2.28 MVAE [ 44 ] 遮挡关键点 2.39 19.15 9.52 16.868.90 - 7.12 3.15% 0.30 HuMoR (我们的方法) 遮挡关键点 1.46 17.40 8.24 15.42 7.56 0.89 5.38 3.31% 0.260VPoser-t 带噪关节 - - 3.67 4.47 4.98 - 4.61 1.35% 0.07 MVAE [ 44 ] 带噪关节 - - 2.68 3.21 4.42 - 6.5 1.75% 0.11HuMoR (我们的方法) 带噪关节 - - 2.27 2.61 3.55 0.97 5.23 1.18% 0.050表2：从3D观测中的运动和形状估计：部分遮挡关键点（顶部）和带噪关节（底部）。位置误差（cm）是相对于输入模态的报告。加速度为m/s^2，穿透距离为cm。0图3：拟合部分3D关键点。HuMoR捕捉到了像跳跃、蹲下和踢腿这样的非周期性动作。0图4：从RGB-D（顶部）的TestOpt与HuMoR输出3D运动、地面平面和接触（底部）。0TestOpt适应了身体上的43个类似于运动捕捉标记的关键点；每个时间步长下低于0.9m的关键点被视为“遮挡”，导致大部分时间步长下腿部不可观测。为了去噪，对3D关节位置观测添加了标准差为4cm的高斯噪声。0表2与VPoser-t和在优化过程中使用MVAE作为运动先验而不是HuMoR进行比较。我们单独报告了腿部关节（脚趾、脚踝和膝盖）的误差，这些关节通常被遮挡。表的右侧报告了合理性指标。HuMoR给出了更准确的姿势，特别是对于遮挡的关键点和腿部关节。它还估计出更平滑的动作，穿透地面的次数更少且更不严重。对于去噪，VPoser-t过度平滑，导致加速度最低但运动最不准确。带有HuMoR的TestOpt给出了固有平滑的结果，同时仍允许必要的大加速度以适应动态观测。值得注意的是，即使在严重噪声下，HuMoR也能以97%的准确率预测人与地面的接触。定性结果显示在图1和图3中。05.5. 从RGB(-D)观测中估计0最后，我们展示了TestOpt与HuMoR可以应用于真实世界的RGB和RGB-D观测，并在位置和合理性指标上优于基线，特别是在部分和噪声数据上。我们使用来自i3DB[54]和PROX[28]的3秒（90帧）片段。表3显示了i3DB上的结果，其中提供了定量的3D关节评估。上半部分与基线估计方法进行比较；下半部分使用了在TestOpt中对HuMoR进行消融而不是完整模型。报告了全局关节位置和根对齐后的每个关节位置的平均误差。0如图3所示，VIBE对可见关节给出了局部准确的预测，但由于遮挡和时间不一致性，导致了较大的全局误差和不真实的加速度（见图5）。VPoser-t对全局误差给出了合理的结果，但在坐姿方面存在频繁的穿透问题（见图5）。在TestOpt中使用MVAE或HuMoR的消融作为运动先验无法有效地推广到真实世界的数据，并且表现比完整模型更差。条件先验和LSMPL的影响最大，即使不使用接触，性能仍优于基线。0表4的上半部分评估了来自PROX的额外RGB结果的合理性，与VIBE和PROX-RGB进行了比较。由于PROX-RGB使用场景网格作为输入以强制环境约束，它是一个非常强大的基线，并且在穿透指标上的表现预计会很好。由于HuMoR只使用粗略的地面平面作为初始化，因此相对增加了穿透频率，但给出了更平滑的动作。0Tab.4的下半部分显示了使用HuMoR拟合RGB-D的PROX数据的结果，该数据在TestOpt中同时使用了2D数据和3D点云数据。这种方法改善了使用PROX-D的性能，稍微优于PROX-D，后者对于2D关节检测和3D点云噪声引起的大误差不够稳健。定性示例见图1和图4。0由于HuMoR的泛化能力，TestOpt在从RGB视频中恢复全身可见的非常动态的动作（例如跳舞）时也很有效（请参见补充材料中的示例）。114950全局关节误差根对齐关节误差地面笔法可见性遮挡所有腿可见性遮挡所有腿加速度频率距离0VIBE [ 37 ] 90.05 192.55 116.46 121.61 12.06 23.78 15.08 21.65 243.36 7.98% 3.01 VPoser-t 28.33 40.97 31.5935.06 12.77 26.48 16.31 25.60 4.46 9.28% 2.42 MVAE [ 44 ] 37.54 50.63 40.91 44.42 16.00 28.32 19.17 26.63 4.967.43% 1.550无Delta 27.55 35.59 29.62 32.14 11.92 23.10 14.80 21.65 3.05 2.84% 0.58 无接触 26.65 39.21 29.89 35.73 12.2423.36 15.11 22.25 2.43 5.59% 1.70 无L SMPL 31.09 43.67 34.33 36.84 12.81 25.47 16.07 23.54 3.21 4.12% 1.31标准先验 77.60 146.76 95.42 99.01 18.67 39.40 24.01 34.02 5.98 8.30% 6.470HuMoR (Ours) 26.00 34.36 28.15 31.26 12.02 21.70 14.51 20.74 2.43 2.12% 0.680表3：在i3DB [ 54]上从RGB视频（即2D关节）中获取的运动和形状。关节误差以cm为单位，加速度以m/s^2为单位。上方显示了运动估计基准的结果，而下方使用了HuMoR在优化过程中的消融结果。0图5：在i3DB [ 54]上拟合RGB视频

下载后可阅读完整内容，剩余1页未读，立即下载