基于单目视频的物理合理的三维人体姿势重建的轨迹优化

15 浏览量更新于2023-10-25 收藏 21.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

131060基于单目视频的三维人体姿势物理重建的轨迹优化0Erik Gärtner 1,2 Mykhaylo Andriluka 1 Hongyi Xu 1 Cristian Sminchisescu 101 Google研究，2 Lund大学0erik.gartner@math.lth.se0{mykhayloa,hongyixu,sminchisescu}@google.com0摘要0我们专注于从单目视频中估计出物理合理的关节人体运动的任务。不考虑物理的现有方法通常会产生时间上不一致的输出和运动伪影，而最先进的基于物理的方法要么只能在受控实验室条件下工作，要么只考虑到仅限于脚的简化身体-地面接触。本文探讨了如何通过直接将完整功能的物理引擎纳入姿势估计过程中来解决这些缺点。在给定一个不受控制的现实世界场景作为输入后，我们的方法估计地面位置和物理身体模型的尺寸。然后通过进行轨迹优化来恢复物理运动。我们的公式的优势在于它可以很容易地推广到可能具有不同地面属性并支持关节身体与场景几何体之间的任何形式的自我接触和接触的各种场景。我们展示了我们的方法在Human3.6M基准测试[13]上与现有基于物理的方法相比取得了竞争性的结果，同时在不经过重新训练的情况下，直接适用于AIST基准测试[36]中的更复杂的动态运动和不受控制的互联网视频。01. 引言0本文中，我们解决了从单目视频中重建出物理合理的关节三维人体运动的挑战，旨在补充最近的方法[15,16,23,42,42,48]在标准关节准确度指标方面取得越来越准确的三维姿势估计结果，但仍然经常产生视觉上不自然的重建结果。我们实现物理合理性的主要机制是将物理定律纳入姿势估计过程中。0图1.我们方法在互联网视频中动态运动的示例结果。请注意，我们的模型可以重建出在与地面的复杂接触情况下的物理合理的关节三维运动：全身接触（顶部行），脚和手（中间行），脚和膝盖接触（底部行）。0在这篇论文中，我们解决了从单目视频中重建出物理合理的关节三维人体运动的挑战，旨在补充最近的方法[15,16,23,42,42,48]在标准关节准确度指标方面取得越来越准确的三维姿势估计结果，但仍然经常产生视觉上不自然的重建结果。我们实现物理合理性的主要机制是将物理定律纳入姿势估计过程中。131070图2.我们方法在软地面场景（顶部）和与椅子的交互（底部）的示例结果。0最近的方法倾向于使用简化的接触模型（仅考虑脚的接触），忽略与地面以外的物体相互作用可能产生的影响，并且不模拟更微妙的物理效应，如滑动和滚动摩擦，或具有不同软度程度的表面。显然，在许多现实场景中，利用更全面的物理模型是必要的。我们利用完整的物理模拟作为构建块，探索基于物理的关节姿态估计。这种方法的优势在于它使我们的方法能够轻松适用于文献中尚未解决的各种运动和场景（见图1和2）。具体而言，与[29-31，43]相比，我们的方法可以重建身体与地面之间的任何类型的接触（见图1）。我们的方法还可以模拟与障碍物和支撑表面（如家具）的相互作用，并允许改变地面的刚度和阻尼以表示特殊情况，如蹦床地板（见图2）。我们依赖于Bullet[7]引擎，该引擎先前用于在[24]中模拟人体运动。然而，我们的实现细节都不是特定于引擎的，因此我们预计随着物理模拟的进一步发展，我们的结果质量可能会继续提高。本文的主要贡献是利用轨迹优化在实验室和现实世界数据上评估基于物理的关节运动估计，使用通用物理引擎作为构建块。我们证明，结合完整的物理引擎和轨迹优化可以达到与最先进方法相当甚至更好的准确性，同时适用于各种场景和运动类型。此外，据我们所知，我们是首次将基于物理的重建应用于复杂的现实世界运动，如图1和2所示。0第二个贡献是生成技术见解，例如通过自动调整3D模型以适应图像中的人物，并使用适当的2D对齐损失，我们可以实现估计的物理运动与2D输入图像的优秀对齐。这与相关工作[29-31,43]通常不报告2D对齐误差并且在定性上可能无法实现物理模型与图像的良好2D对齐形成对比。我们还对残余根力控制[45]的使用进行了理解。这种残余根力被假设为弥合模拟与现实之间的差距并补偿物理模型的不准确性的关键。我们通过实验证明，即使在复杂和动态运动的情况下，使用物理上不现实的残余力控制可能也不是必要的。02. 相关工作0接下来，我们首先讨论不包含物理推理的3D人体姿势估计的最新文献。然后，我们回顾了基于物理的人体建模的相关工作，并将我们的方法与其他基于物理的3D姿势估计方法进行比较。不使用物理的3D姿势估计。最先进的方法在图像中估计2D和3D人体姿势方面非常有效[5, 15,49]，最近的工作已经能够将这一进展扩展到视频中的3D姿势估计[16, 23,42]。驱动这些方法性能的关键因素是能够估计关节3D姿势的数据驱动先验[16,47]，并从大量注释训练图像的数据集中学习复杂的基于CNN的表示[13, 14, 21,37]。因此，这些方法在常见姿势上表现非常好，但在罕见姿势上仍然面临挑战。遮挡、困难的成像条件和动态运动（例如运动员）仍然是一个挑战，因为它们具有高度多样性且难以在训练集中表示。正如[29]所指出的，即使对于常见姿势，最先进的方法仍经常生成容易出现问题的重建结果，如浮动、滑脚和非物理倾斜。我们的目标是通过将物理定律纳入推理过程，补充最先进方法中使用的统计模型，并因此添加一个对任何人体运动普遍适用的组件，而不考虑训练集或测试集的统计数据。与姿势估计的最新进展并行，我们现在拥有准确的统计形状和姿势模型[3, 20,44]。这些身体模型通常是从成千上万个人的扫描中估计得到的，并且可以为给定的姿势生成形状变形。在本文中，我们利用这些改进，使用统计身体形状模型[44]来定义我们的物理模型的尺寸，并根据身体部位的体积导出质量。基于物理的人体运动建模。人体运动建模一直是计算机视觉领域的研究热点。131080图3.概述。给定一个单目视频的人体动作，我们估计一个物理人体模型和运动控制轨迹τ(t)的参数，使得物理模拟的人体动作与视频对齐。我们首先使用一个推理网络从视频帧中预测2D地标li和身体语义分割掩码。从n个种子帧中，我们估计一个时间一致的人体形状β和地面位置Tg。在每帧姿势细化步骤中，这些参数被固定，提供3D运动初始化{θi}给物理优化。动力学阶段创建一个与统计形状模型相对应的物理模型，具有适当的形状和质量。我们的动力学优化考虑了3D运动估计、2D地标和物理约束，从而改进了3D运动估计。详情请参见第3节。0接触模型实时物理实现残余力人体模型现实世界视频0Li等人[19] 身体关节无自定义无固定是 Rempe等人[29] 脚无自定义无固定是 PhysCap[31] 脚是自定义是固定是Shimada等人[30] 脚是自定义是固定是 SimPoE[46] 全身是 MuJoCo[35] 是自适应无 Xie等人[43] 脚无自定义无自适应无 DiffPhy[9] 全身无 TDS[12] 无自适应是0我们的全身无 Bullet[7] 无自适应是0表1.最近基于物理的关节姿势估计方法的比较。"接触模型"指的是考虑了身体与地面之间的接触点，"残余力"指的是物理模型是否允许施加额外的外力来移动人体（参见[45]），"身体模型"指的是方法是否将物理模型调整到视频中的人物，"真实世界视频"指的是方法是否也在真实世界视频上进行了评估，或者仅在实验室条件下的视频上进行了评估。0计算机图形学[2, 17]、机器人学[8]和强化学习[11, 24,40]文献中已经有了一些相关工作。除了少数例外，这些领域中的大多数模型都是使用动作捕捉数据构建和评估的[2]。例如，[26]使用图像作为输入，旨在训练一个能够在各种扰动下执行观察到的动作的模拟角色的运动控制器。该工作侧重于为固定的角色训练运动控制器，而我们的重点是估计图像中观察到的主体的运动。此外，角色的大小、形状和质量与观察到的主体无关。[17]提出了一个直接表示肌肉激活的逼真人体模型，并提出了一种学习其控制策略的方法。[41]为各种角色尺寸生成动作，并学习适应每个尺寸的控制策略。[17,41]和图形学文献中的类似结果并没有在真实图像中观察到的角色上进行演示，并且没有处理联合估计物理运动和应对图像测量的歧义或2D到3D提升过程中的挑战[33]。0基于物理的人体姿势估计在计算机视觉[4, 22,38]中有着悠久的传统。早期的工作，如[38]，已经将物理模拟作为3D姿势跟踪的先验，但只考虑了简单的动作，如行走，并且主要在受控的实验室条件下进行了评估。我们在表1中列出了一些最近的基于物理的关节姿势估计方法的特性。[19]演示了基于物理的人体运动和与各种工具类物体的交互的联合估计。[29]提出了一种简化基于物理推理的公式，仅考虑脚和躯干，并通过逆运动学推断其他身体部位的位置，而[19]同时建模所有身体部位，并包括与物体交互引起的力。[30,31]使用了一种专门的基于物理的公式，通过给定预检测的脚接触和运动学估计来求解地面反作用力。相比之下，我们不假设可以事先检测到接触，而是将其作为物理推断的一部分进行估计。因此，我们不受到像[19,29-31]那样预定义接触类型或准确的先验估计的限制。我们展示了我们在[29,31]上的定量改进，并定性地展示了我们如何能够131090我们的工作在概念上与SimPoE[46]相似，两者都使用物理模拟。与SimPoE不同的是，我们引入了一个完整的流程，适用于真实世界的视频，而SimPoE仅在实验室条件下进行了测试，并且需要校准相机。此外，由于SimPoE依赖于强化学习来训练数据集特定的神经网络模型来控制模拟的身体，因此不清楚SimPoE在真实世界视频中的运动变化上能否很好地推广。SimPoE方法的一个明显优势是在测试时执行速度快，但需要较长的预训练时间。我们的方法与[43]的方法相关，后者通过最小化包含物理约束的目标函数来估计3D人体运动。与[43]相比，[43]的最显著区别是：（1）我们使用了全功能的物理模型，而他们考虑了简化的物理模型；（2）他们的模型考虑了基于物理的损失，但输出不需要对应实际的物理运动；（3）他们没有讨论该方法在真实世界数据上的性能。[43]的优点在于他们定义了一个可微分的模型，可以通过梯度下降进行优化。最后，与同时进行的工作[9]相比，我们通过最小化损失来处理基于物理的人体姿势重建，该损失使用可微分的物理模拟器给出估计的运动学。03. 我们的方法0我们在图3中概述了我们的方法。给定单目视频作为输入，我们首先使用[48]的运动学方法重建初始的关节运动的三维姿势轨迹，并利用它来估计身体形状和地平面相对于相机的位置。随后，我们使用与估计的身体形状匹配的身体尺寸和重量来实例化一个物理人模型。接下来，我们制定一个目标函数，该函数衡量物理模型运动与图像测量之间的相似性，并包含鼓励合理人体姿势和惩罚抖动运动的正则化项。最后，我们通过最小化这个目标函数来重建物理运动，其中关节力矩轨迹是优化变量。为了实现物理运动，我们依赖于Bullet中提供的刚体动力学实现[7]。03.1. 身体模型和控制0我们将人体建模为由关节连接的刚性几何基元。我们的模型由26个胶囊组成，共有16个三维身体关节，总共有48个自由度。我们依靠人体形状的统计模型[44]来实例化我们的模型，以适应各种人体类型。为此，给定表示身体形状的三维网格，0我们通过估计几何基元的尺寸来近似网格，采用[2]的方法。然后，我们根据体积计算每个基元的质量和惯性，并根据统计人体形状数据集CAESAR[27]中的解剖权重分布[28]估计质量。我们没有明确地建模身体肌肉，而是直接在关节处施加力矩来驱动模型。我们将在时间t处施加的力矩表示为τt，时间t处每个关节的角位置和角速度表示为qt和˙qt，时间t处每个关节的三维笛卡尔坐标表示为xt。与[25]类似，我们通过引入一系列控制目标ˆq1:T = {ˆq1, ˆq2, ...,ˆqt}来控制物理模型的运动，通过控制循环来通过控制目标导出力矩。我们的模型中的身体运动由初始身体状态s0 =(q0,˙q0)，指定地平面的世界几何G，每个关节的控制轨迹ˆq1:T以及相应的控制规则来确定。我们假设初始加速度为0。为了实现控制循环，我们依赖于关节岛算法1（AIA）[34]，该算法将运动控制目标作为约束条件引入线性互补问题（LCP）（参见[34]中的(6.3) a, b）。AIA相对于[2, 9,25]中使用的PD控制，能够在100Hz的频率下实现稳定的模拟，而PD控制的频率为1000-2000Hz。03.2. 基于物理的关节运动估计0我们对物理运动估计任务的方法与文献中的其他轨迹和时空优化方法[1, 2,39]基本相似。我们在一系列重叠的时间窗口上进行优化，每个后续窗口的起始状态初始化为前一个窗口中的状态。为了减少搜索空间的维度，我们使用三次B样条插值来表示控制目标ˆq1:T，并在样条系数上进行优化[6]。给定在§3.3中引入的目标函数L，我们通过最小化L相对于控制轨迹ˆq1:T的样条系数来寻找最优运动。我们使用运动学估计的身体关节作为控制轨迹的初始值（见§3.4）。初始状态从相应的运动学估计中初始化。我们使用在运动学运动上计算的有限差分来估计初始速度。与[1,2]一样，我们使用进化优化方法CMA-ES[10]来最小化目标函数，因为我们的模拟环境不支持相对于动力学变量的微分。通常情况下，我们在每个窗口上进行2000次迭代，每次迭代使用100个样本，使用CMA-ES进行优化后观察到收敛。在并行评估100个样本时，推理需要20-30分钟。01“POSITION_CONTROL”模式在Bullet中。1311003.3. 目标函数0我们使用一个由几个组件加权组合的复合目标函数。3D姿势。为了鼓励重建的物理运动接近估计的运动学3D姿势qk1:T，我们使用以下目标函数：0LCOM(ˆq1:T) = �0t (∥ct − ckt∥22 + ∥˙ct −2) (1)0Lpose = �0t0j ∈ J arccos(|�qtj, qktj�|) (2)0其中ct和ckt分别表示重建运动和运动学估计中的质心位置。Lpose衡量观察到的关节角度与其运动学估计之间的角度，求和（2）是在所有身体关节的集合J上进行的，包括定义身体的全局方向的基本关节。2D重投影。为了鼓励3D运动与图像观察的对齐，我们使用一组包括主要身体关节、眼睛、耳朵、鼻子、手指和脚尖的N =28个地标点。设lt表示时间t时人体上的3D地标点的位置，C是将世界点通过透视投影映射到图像中的相机投影矩阵，ldt是CNN检测器检测到的地标点向量，st是相应的检测分数向量。2D地标重投影损失定义如下：0L2d = �0t0ns tn ∥Cltn − ldttn∥2. (3)0有关估计2D关键点的详细信息，请参见第3.4节。正则化。我们将几个正则化器包含到我们的目标函数中。首先，我们使用[47]中引入的人体姿势的归一化流先验，对不自然的姿势进行惩罚。损失函数如下所示：0Lnf = �0t ∥ z(qt)∥2，(4)0其中z(qt)是与身体姿势qt对应的潜在代码。为了防止抖动运动，我们对关节加速度施加总变差损失：0LTV = 10J0�0t0j ∥¨xtj − ¨xt−1,j∥1 (5)0最后，我们包括一个Llim项，对与人类关节限制的偏差施加指数惩罚。物理运动估计中使用的整体目标L由（1-5）的加权和以及Llim项组成。详细信息请参见补充材料。0模型MPJPE-G MPJPE MPJPE-PA0HUND [48] 239 116 72 + S 233 110 71 + SO178 85 62 + SO + G 148 84 63 + SO + T 18685 61 + SO + GT 135 80 580表2.在Human3.6M的验证子集上对HUND的运动学改进的消融实验。+S表示时间一致的身体形状，+O表示额外的非线性优化，+G使用地平面约束，+T表示时间平滑约束。03.4. 运动学3D姿势和形状估计0在本节中，我们将描述从输入视频序列中提取2D和3D证据的方法。0身体形状。在输入序列中，我们首先使用HUND[48]提取每帧的初始运动学估计的3D姿势和形状。作为其优化流程的一部分，HUND还恢复相机内参c并估计2D关键点的位置，我们在（3）中使用这些关键点进行2D重投影目标。HUND设计用于单个图像，因此我们的初始形状和姿势估计在时间上不一致。因此，为了改善运动学3D姿势初始化的质量，我们将HUND扩展到视频中的姿势估计。我们在Human3.6M数据集的20个序列的验证集上评估了本节引入的附加步骤。在我们的适应中，我们不重新训练HUND神经网络预测器，而是直接使用BFGS最小化HUND损失函数。作为第一步，我们在多个视频帧上联合重新估计形状。为了使优化可行，我们首先在n =5个种子帧上联合估计形状和姿势，然后在所有视频帧上重新估计姿势，保持更新的形状固定。种子帧是通过最高的平均2D关键点置信度得分选择的。我们将具有重新估计形状的HUND方法称为HUND+S，将我们随后也重新估计姿势的方法称为HUND+SO。在表2中，我们展示了两种变体的结果。请注意，HUND+SO相对于原始HUND结果有显著改进。0地面平面。我们通过齐次变换 T g定义地面平面的位置，该变换将HUND坐标映射到通过原点的规范坐标系，其法线由“y”轴给出。设 M t 是帧 t上的身体网格上的一部分点。从网格点到地面平面的有符号距离由 D ( M t ) = T g M t e y 给出，其中 e y = [0 , 1 ,0 , 0] T 是齐次坐标中“y”轴的单位向量。为了估计变换 Tg ，我们引入一个目标函数。Lgp(Tg, M) =�t∥ min(δ, Lk(D(Mt)))∥2,(6)Lgp(Tg) =Lgp(Tg, Ml) + Lgp(Tg, Mr)+ 2Lgp(Tg, Mb),(7)Ltemp =�t∥Mt − Mt−1∥2 + ∥θt − θt−1∥2,(8)131110函数0其中 L k ( D t ) 对应于 D t 中最小的 k = 20个有符号距离。该目标函数偏好将身体网格与地面接触，而不偏好特定的接触点。该目标函数还通过将距离截断为δ（在本文的实验中设置为 0.2米）来适应人在空中的情况。我们通过最小化来恢复 T g0其中 M l 、M r 和 M b分别是左脚、右脚和整个身体的网格。这使得地面平面与脚接触，但对于人物跳跃或用其他身体部位接触地面（例如翻筋斗）的情况仍然具有鲁棒性。3D姿势。在最后一步中，我们使用估计的形状和地面平面重新估计所有帧中的姿势，同时添加时间一致性目标。0其中 M t 是身体网格，θ t 是帧 t中的HUND身体姿势向量。为了强制执行地面平面约束，我们使用 (6)，但现在保持 T g固定，并针对身体姿势进行优化。在表2的实验中，我们将使用 (8) 中的时间约束的方法变体称为HUND+SO+T，将同时使用时间和地面平面约束的完整运动学优化方法称为HUND+SO+GT。表2表明，无论是时间约束还是地面真值约束都显著提高了运动学3D姿势估计的准确性。即使如此，我们最佳变体 HUND+SO+GT的结果仍然包含运动抖动和脚滑等伪影，这些伪影在动力模型中得到了大幅减少（见表3）。04. 实验结果0数据集。我们在三个人体运动数据集上评估我们的方法：Human3.6M [13]、HumanEva-I [32]和AIST[36]。此外，我们在我们自己的“野外”互联网视频上进行定性评估。为了在表2和表3中比较不同的方法变体，我们使用由Human3.6M数据集的20个短的100帧序列组成的验证集。我们使用与[43]中提出的主要评估中所提议的相同的完整长度序列子集。我们使用[18]中的AIST数据集的预处理版本，该版本通过多视图重建获得了伪3D人体姿势真值。0图4.在Human3.6M数据集上的定性结果。请注意动力模型（右侧）如何恢复出合理的运动。0在我们的实验中，我们选择了15个视频的子集，其中包含单个主体的多样化舞蹈。在HumanEva-I上的评估中，我们遵循[29]中定义的协议，并使用数据集的验证集中的行走动作，使用第一台摄像机的图像进行评估。在Human3.6M实验中，我们假设已知相机外参数，并为其他数据集估计它们。为了加速Hu-man3.6M的长序列计算（见表4），我们并行计算所有时间窗口，并在后处理中将它们合并在一起。我们报告使用平均全局每关节位置误差（mm）的结果，以及平移对齐（MPJPE）和Procrustes对齐（MPJPE-PA）误差指标。请注意，要在MPJPE-G指标上得分，方法应能够估计关节姿势并正确跟踪人物在世界坐标系中的全局位置。除了标准评估指标外，我们还实现了类似于[29]中引入的脚滑和浮动指标，但是使用阈值而不是通过接触注释来检测接触。最后，我们报告图像对齐（MPJPE-2d）和3D关节速度误差（m/s）。更多细节请参见补充材料。模型组成分析。在表3中，我们展示了我们方法的消融结果。我们完整的动力学模型使用了在第3.4节中介绍的使用HUND+SO+GT获得的运动学输入，并标记为HUND+SO+GT +Dynamics。我们的动力学模型在关节定位指标上表现相当或略好于HUND+SO+GT（例如，MPJPE-G从135mm略微改善到132mm），但大大减少了运动伪影。脚滑帧的百分比从64减少到[18 ,36].131120模型 MPJPE-G MPJPE MPJPE-PA MPJPE-2d 速度脚滑动（%）漂浮（%）0HUND+SO 178 85 62 12 1.3 25 40 HUND+SO + 动力学 167 87 62 12 0.45 7 1 HUND+SO+GT 135 80 58 12 0.58 64 0HUND+SO+GT + 动力学 132 80 57 11 0.27 8 00HUND+SO+GT + 动力学0无2D重投影，（3） 154 104 68 17 0.32 - - 无3D关节，（2） 134 84 60 11 0.27 - - 无COM，（1） 149 81 57 11 0.31 - -无COM和3D关节，（1, 2） 151 85 59 11 0.33 - - 无姿势先验，（4） 138 80 57 11 0.24 - -0表3. 在Human3.6M数据集的20个序列的验证集上进行动力学模型的消融实验。0数据集模型 MPJPE-G MPJPE MPJPE-PA MPJPE-2d 速度脚滑动（%）0Human3.6M0VIBE [16] 208 69 44 16 0.32 270PhysCap [31] - 97 65 - - -0SimPoE [46] - 57 42 - -0Shimada等人[30] - 77 58 - - -0Xie等人[43]（运动学） - 74 - - - -0Xie等人[43]（动力学） - 68 - - - -0我们的结果：HUND+SO+GT 145 83 56 14 0.46 480我们的结果：HUND+SO+GT + 动力学 143 84 56 13 0.24 40HumanEva-I0Rempe等人[29]（运动学） 408 - - - - -0Rempe等人[29]（动力学） 422 - - - - -0我们的结果：HUND+SO+GT 208 90 76 14 0.51 400我们的结果：HUND+SO+GT + 动力学 196 91 74 14 0.27 40AIST 我们的结果：HUND+SO+GT 156 107 67 10 0.59 510我们的结果：HUND+SO+GT + 动力学 154 113 69 13 0.41 40表4. 我们模型与Human3.6M [13]，HumanEva-I [32]和AIST [18, 36]子集上的先前工作的定量结果比较。0并且速度误差从0.58米/秒降低到0.27米/秒。我们还评估了基于简化的运动学变体HUND+SO的动力学模型，该模型在从视频中重新估计姿势时不考虑地平面和时间约束。对于HUND+SO，动力学推理同样显著改善了感知度量。请注意，HUND+SO的输出在25%的帧中存在脚滑动现象，在40%的帧中存在漂浮现象。通过在（6）中添加地平面约束，可以消除HUND+SO+GT中的漂浮伪影，但输出仍然存在脚滑动现象（64%的帧）。动力学推理有助于显著减少HUND+SO和HUND+SO+GT中的这两种伪影。在图4中，我们展示了HUND+SO+GT +动力学的示例输出，并将其与用于初始化的HUND+SO+GT进行了比较。请注意，对于HUND+SO+GT，输出中的人物似乎通过在空中漂浮向前移动，而我们的动力学方法推断出与主体的整体运动一致的合理的3D姿势。在表3的底部，我们报告了我们的完整模型HUND+SO+GT +动力学的结果，同时消融目标函数的组成部分（参见第3.3节）。我们观察到目标函数的所有组成部分都对整体准确性有贡献。最重要的组成部分是2D重投影（参见（3））和COM位置差异（参见（1））。没有这些组成部分，MPJPE-G分别从132毫米增加到154毫米和151毫米。排除3D关节组成部分只会导致轻微损失。0从132到134毫米的准确度。0与最先进技术的比较。在表4中，我们展示了我们的完整模型在Human3.6M，HumanEva-I和AIST数据集上的结果。我们使用作者提供的公开实现与VIBE[16]进行比较，并使用其他方法的评估结果如原始出版物中所报告的。由于VIBE仅生成根相对姿势估计，我们使用类似于PhysCap[31]中提出的技术，通过最小化2D关节重投影误差来估计全局位置和方向。在Human3.6M基准测试中，我们的方法在关节准确性和感知度量方面优于VIBE和我们自己的HUND+SO+GT。与VIBE相比，MPJPE-G从208毫米提高到143毫米，MPJPE-2d从16像素提高到13像素，脚滑动帧的百分比从27%降低到4%。有趣的是，我们的方法在整体物理模型方法中实现了最佳的MPJPE-PA，除了预训练的SimPoE外，但与[30]和[43]的最新工作相比，MPJPE略高（82毫米对于[43]和77毫米对于[30]）。请注意，[43]从更强的运动学基线（74毫米MPJPE）开始，并且其他方法的性能也可能会随着这样更好的运动学初始化而改善。此外，我们的动力学方法在HumanEva-I上改进了[29]的结果，并且与HUND+SO+GT相比，实现了更好的MPJPE-G。在AIST数据集上，动力学同样地...Input imagesKinematicInitializationHUND+SO+GT Physics-basedReconstructionHUND+SO+GT + Dynamics123456789Input imagesKinematicInitializationHUND+SO+GT Physics-basedReconstructionHUND+SO+GT + Dynamics12341Input imagesKinematicInitializationHUND+SO+GT Physics-basedReconstructionHUND+SO+GT + Dynamics1234564131130图5.AIST数据集上的示例结果[36]。在重力存在的情况下，运动学初始化会产生不稳定的姿势（红色圆圈）或时间上不一致的姿势（黄色圆圈）。我们基于物理的方法纠正了这两个错误。0与我们的运动学初始化相比，MPJPE-G、足部滑动和速度方面都有所改善。在真实世界的互联网视频上的结果。我们在AIST数据集[36]上展示了我们方法的示例结果，如图5所示，并在图1、2和6中展示了在真实世界的互联网视频上的结果。为了获得图2中显示的软地板结果，我们手动修改了刚度和阻尼地板参数以模拟蹦床的行为。图2中来自Human3.6M数据集的带椅子的序列（底部）是通过手动向场景中添加椅子生成的，因为我们的方法不会对场景对象进行推理。在图5中，我们定性地比较了我们完整系统的输出与具有物理特性的最佳运动学方法HUND+SO+GT的输出。我们强烈建议读者观看补充材料2中的视频，以欣赏这两种方法之间的差异，并与VIBE[16]进行定性比较。我们观察到，我们的物理方法通常能够纠正HUND+SO+GT产生的不平衡姿势（例如图5中的第二帧）并显著改善重建的时间连贯性。请注意，通常情况下，HUND+SO+GT和我们基于物理的方法都能够与2D观察结果匹配，但基于物理的方法能够更准确地估计3D姿势。例如，在图6的第一个序列中，基于物理的模型推断出使人物能够在后续帧中跳跃的姿势，而HUND+SO+GT将左腿放在一个使跳跃变得不可能的角度上。请注意，基于物理的方法的输出可能与运动学初始化有显著偏差（图6中的第二个示例）。05. 结论0在本文中，我们提出了一种基于物理的方法来进行人体三维关节视频重建。通过密切结合运动学和动力学约束0参见 tiny.cc/traj-opt 。0图6.真实世界视频的示例结果。在顶部行序列中，运动学初始化错误地将左脚放在跳跃之前。我们通过从另一个视角显示场景（红色圆圈）来突出显示这个错误。在底部行的示例中，运动学初始化也无法产生时间上一致的姿势（黄色圆圈）。我们基于物理的推理纠正了这两个错误，并生成了更合理的动作。更多结果请参见tiny.cc/traj-opt。0在一个优化过程中，我们考虑了接触、质量和惯性等因素，并根据身体形状估计的值来改善物理可行性并减少重建伪影，与纯运动学方法相比。我们的工作的主要目标之一是展示将表达力丰富的物理模型纳入3D姿势估计流程的优势。显然，与专门的基于物理的方法（如[31,43]）相比，这样的模型使推理变得更加复杂，但具有更强的能力和更广泛的适用性。伦理考虑。这项工作旨在通过引入物理约束来提高人体姿势重建的质量。我们认为，我们的物理模型的细节水平限制了它在人员识别或监视等任务中的应用。同样的限制也阻止了它在生成深度伪造图像方面的应用，特别是因为该模型缺乏逼真的外观。我们认为我们的模型对各种不同的身体形状和大小都是包容性的并且支持的。虽然我们在论文中没有研究这一点，但我们认为这是重要的未来工作。致谢。我们要感谢ErwinCoumans对项目的帮助，以及支持性的匿名审稿人对他们富有洞察力的评论。131140参考文献0[1] Mazen Al Borno，Martin de Lasa和Aaron Hertzmann.用于复杂接触的全身运动的轨迹优化。在IEEE可视化和计算机图形交易中，第19卷，第1405-14页，2013年8月。40[2] Mazen Al Borno，Ludovic Righetti，Michael J.Black，Scott L. Delp，Eugene Fiume和Javier Romero.基于物理的真实身体形状的鲁棒运动重定目标。在计算机图形学论坛，2018年。3，40[3] Dragomir Anguelov，Praveen Srinivasan，DaphneKoller，Sebastian Thrun，Jim Rodgers和James Davis.Scape：人体形状完成和动画。在ACM SIGGRAPH2005论文集中，第408-416页，2005年。20[4] M. A. Brubaker，L. Sigal和D. J. Fleet.估计接触动力学。在2009年IEEE第12届国际计算机视觉会议上，第2389-2396页，2009年。30[5] Zhe Cao，Gines Hidalgo，Tomas Simon，Shih-En Wei和Yaser Sheikh.OpenPose：使用部分亲和场进行实时多人2D姿势估计。在CVPR，2017年。20[6] Michael F. Cohen.用于动画的交互式时空控制。在SIGGRAPH，1992年。40[7] Erwin Coumans和Yunfei Bai.Pybullet，用于游戏、机器人和机器学习的物理模拟的Python模块。http://pybullet.org，2016-2019年。2，3，40[8] M. Da Silva，Y. Abe和J. Popovi´c.使用短时程模型预测控制的人体运动数据模拟。计算机图形学论坛，27（2）：371-380，2008年。30[9] Erik Gärtner，Mykhaylo Andriluka，ErwinCoumans和Cristian Sminchisescu.可微分的关节3D人体运动重建。在2022年IEEE计算机视觉和模式识别会议上。3，40[10] Nikolaus Hansen.CMA进化策略：一项比较回顾，第75-102页。Springer BerlinHeidelberg，柏林，柏林，2006年。40[11] Nicolas Heess，Dhruva TB，Srinivasan Sriram，JayLemmon，Josh Merel，Greg Wayne，Yuval Tassa，TomErez，Ziyu Wang，S. M. Ali Eslami，Martin A. Riedmiller和DavidSilver.在丰富环境中出现的运动行为。CoRR，abs/1707.02286，2017年。30[12] Eric Heiden，David Millard，Erwin Coumans，YizhouSheng和Gaurav S Sukhatme.NeuralSim：用神经网络增强可微分模拟器。在IEEE国际机器人与自动化会议（ICRA）论文集中，2021年。30[13] Catalin Ionescu，Dragos Papava，Vlad Olaru和CristianSminchisescu.Human3.6m：用于自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions on Pattern Analysis and MachineIntelligence，36（7）：1325-1339，2014年7月。1，2，6，70[14] H. Joo，T. Simon和Y. Sheikh. Totalcapture：用于跟踪面部、手部和身体的3D变形模型。在2018年IEEE/CVF计算机视觉和模式识别会议上，第8320-8329页，2018年。20[15] Angjoo Kanazawa，Michael J Black，David WJacobs和Jitendra Malik.人体形状和姿势的端到端恢复。在CVPR，2018年。1，20[16] Muhammed Kocabas，Nikos Athanasiou和Michael J.Black.Vibe：用于人体姿势和形状估计的视频推断。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。1，2，7，80[17] Seunghwan Lee, Moonseok Park, KyoungminLee和Je-hee Lee. 可扩展的肌肉驱动人体模拟和控制。ACMTransactions on Graphics，38：1-13，2019年7月。30[18] Ruilong Li，Shan Yang，David A. Ross和AngjooKanazawa.通过aist++学习跳舞：音乐条件下的3D舞蹈生成，2021年。6，70[19] Zongmian Li, Jiri Sedlar, Justin Carpentier, Ivan Laptev,Nicolas Mansard, and Josef Sivic.从单目视频中估计人物与物体交互的3D运动和力量。在计算机视觉和模式识别（CVPR）会议上，2019年。30[20] Matthew Loper, Naureen Mah

下载后可阅读完整内容，剩余1页未读，立即下载