基于视频的人体运动估计与合成方法

47 浏览量更新于2023-10-13 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于物理的人体运动估计与视频合成谢凯文1，2，王廷武1，2，乌马尔·伊克巴尔2，郭云荣2，桑娅·费德勒1，2，弗洛里安·什库尔蒂11多伦多大学和Vector Institute，2Nvidiakevincxie@cs.toronto.edu图1：我们提出了一个框架，从视频中的噪声姿态估计来估计物理上正确的运动。这使我们能够直接在视频数据上训练运动合成网络，消除了对先前工作中使用的mocap数据的需要摘要人体运动合成是机器人图形学、游戏和仿真环境中的一个重要问题。现有的方法需要精确的运动捕获数据用于训练，这是昂贵的获得。相反，我们提出了一个框架，用于直接从单目RGB视频训练物理上合理的人体运动的生成模型，这是更广泛的可用性。在我们的方法的核心是一种新的优化配方，纠正不完美的基于图像的姿态估计，通过强制执行物理约束和原因，在一个可微的方式接触。这种优化产生校正的3D姿态和运动，以及它们相应的接触力。结果表明，我们的物理校正的运动显着优于以前的工作姿态估计。然后，我们可以使用这些来训练生成模型以合成未来的运动。与现有的基于运动学和物理学的方法相比，我们在大规模Human3.6m数据集[12]上证明了通过我们的方法实现的定性和定量的显著改进的运动估计、合成质量和物理通过从视频中学习运动合成，我们的方法为大规模，真实和多样化的运动合成铺平了道路1. 介绍给定人体运动的视频，我们如何推断人体结构的3D轨迹，并使用它生成符合物理约束的新的、合理的广告处理这个问题的复杂性为高保真角色动画和由真实世界运动通知的运动合成开辟了一系列这将有利于游戏、自动驾驶汽车测试环境中的行人模拟[55]、基于模型的控制和强化学习的现实长期预测，以及基于物理的视觉跟踪。基于学习的人体运动合成中的绝大多数现有方法[1，59，26，21，22，23，24，25，26，27，28，29，五、在一些实施例中，运动捕获依赖于大规模运动捕获观察，诸如AMASS [32]，其通常获取起来昂贵且耗时，在逻辑上具有挑战性，并且通常限于室内环境中的记录。这些因素形成了阻碍高质量人体运动数据的收集的瓶颈，特别是在场景中存在多个人之间的交互或与多个静止和移动对象的交互的所记录的运动通常也缺乏真实感和多样性，因为它们是通过表演出一组预定义的运动而获得的。除了这个问题之外，在运动捕捉数据上训练的许多时间序列模型做出对运动和接触的物理约束不敏感的预测，这通常导致不准确、不稳定和不可信的运动。在本文中，我们完全放弃依赖于运动捕捉，并旨在训练物理上合理的人体运动合成直接从单目RGB视频。我们提出了一个框架，通过接触不变优化[37，36]强制执行物理约束来细化基于噪声图像的姿势估计，包括计算相关参数。1153211533机智的力量然后，我们使用细化的结果来训练一个时间序列生成模型，该模型综合了未来的运动和接触力。我们的贡献是：• 我们引入了一个光滑的接触损失函数来执行基于物理的姿态估计的细化，避免了单独训练接触检测器或非线性规划求解器的需要。• 我们证明，当视觉姿态估计与我们的基于物理的优化相结合时，即使没有访问运动捕捉数据集，也足以训练接近运动捕捉预测模型质量的运动合成模型。我们在Human3.6m数据集[12]上验证了我们的方法，并且与基于学习的运动预测模型（例如PhysCap[44]，HMR [16]，HMMR [58]和VIBE [18]）的先前工作相比，定性和定量地证明了我们的方法所实现的改进的运动合成质量和物理可行性。2. 相关作品我们在两个轴上组织了关于运动合成的丰富的现有文献：（a）运动学与基于物理的方法，和（b）模仿学习与基于模型的控制和强化学习。表1提供了最相关工作的摘要2.1. 运动合成运动学运动合成模型在不一定满足物理约束的情况下进行预测。这类非参数方法尝试混合运动剪辑并将它们连接成连贯的轨迹。这种类型的工作的例子包括运动匹配[5]和在角色动画中使用运动图[19，42]和运动场[21另一方面，参数运动学方法依赖于由时间序列生成模型（通常是神经网络）做出的姿势预测在训练之后，与非参数方法相比，示例运动不再用于预测为了保持预测运动的一致性，许多论文利用经由递归神经网络（RNN）的运动生成[7，33，54，61，8，47]，时间序列数据的变分自动编码器[26，10，56]，自回归模型[11，46]、变换器[23]，或者通过明确地维护过去运动的存储库。2.2. 基于物理的运动合成基于物理的动画方法进行运动预测，满足身体动力学，并通过物理约束[2]通知，通常包括接触，这输入模态物理功能Dlow [56]mocap合成RFC [57]mocap∼合成MOJO [59]mocap合成[第44话]视频C摆姿势Rempe等人[四十三]视频C摆姿势我们视频C姿势估计，合成表1：不同相关作品的特征比较。RFC使用物理模拟器，但没有使用适当的接触动力学。增加了生成的运动的真实感。半在接触不变优化[37，36]中的最终工作引入了软逆动力学约束，以优化质心轨迹以及接触力，而不需要明确规划接触位置。在[35]和[40]中，表明该框架可以加速，并且也可以用于交互选择目标速度的设置中。除了施加软物理约束外，最近的强化学习控制器已用于具有硬物理约束的运动合成[29，28]。这些方法利用基于模型的采样规划来生成物理上正确的运动，其校正姿态估计误差和模型失配。为动力学和接触注入硬物理约束是仿人机器人轨迹优化的一种富有成效的方法[6]，其通常使用非线性规划求解器和混合整数二次规划。然而，将示例运动和训练数据结合到这些优化框架中是具有挑战性的。生成不同的运动也是如此此外，这些框架的执行时间通常不适合于实时操作。为了平衡动力学的保真度与计算时间的成本，简化的物理模型，如质心动力学模型，或强制执行软动力学约束的模型，已在文献中普遍使用例如，[52，20]使用质心动力学从物理上不正确的运动模板微调字符运动。不假设已知或学习的动力学的无模型强化学习方法由于其在跟踪现实参考运动的高维运动合成中的灵活性、效率而越来越受欢迎。在DeepMimic [41]中，无模型控制器被训练为输出扭矩以跟随参考运动。DeepMimic能够在物理上正确地再现各种各样的动作技能。然而，仅仅再现一个动作就需要几个小时或几天。从那时起，人们一直在努力扩展无模型控制器。在[53，51]中，通过提高神经网络的能力，控制器现在可以掌握大型运动数据集中的所有技能，而不必像DeepMimic那样为每个运动重新训练。11534∈∈∈不τ.Σ∈∈2.3. 基于运动学和物理的位姿估计用于从视频进行3D姿态和形状[60，59]估计的纯运动学方法，例如 HMMR [17] ， VIBE [18] 和 XNect[34]，预测过去和未来的运动，而不结合物理约束。然而，物理约束可以充当正则化器，向估计的3D运动添加时间一致性。运动捕捉和人的视频数据都已被用作姿势估计中的观察，后一种方式导致不适定的问题。例如，PhysCap [44]从视频中实现了物理上可行的3D实时人体运动估计，包括接触建模和位置预测，这导致脚到地板的穿透最小。[43]还对检测后无法更改的硬接触约束进行建模。基于物理的视觉跟踪[50]提供了该领域工作的其他示例，包括在轨迹优化期间将接触[24，4]作为硬约束处理的示例，以及整个网格[30]。我们从这些作品的主要区别是，通过使用我们提出的软接触惩罚，接触事件可以形成动态和柔和的优化过程中。我们的方法不需要单独的接触标记，并且代替具有重新标记接触的离散步骤的复杂交替优化，它利用现成的无约束LBFGS优化器在两个连续的通道中进行优化。3. 方法我们提出的用于从视频学习运动合成的框架的概述可以参见图2。它包括四个步骤：1）给定未标记的视频，我们使用单目姿态估计模型来估计每个视频帧处的2D和3D身体关节的位置[14]。2）然后，我们使用逆运动学[15，22]将每个帧处的3D身体关节转换为参数化身体模型SMPL [31]的相对3）然后，我们使用我们提出的基于物理的优化来细化初始运动估计，这导致整个视频的物理上合理的和时间相干的运动。4）我们用上述步骤处理所有可用的视频，并且随后使用所得到的运动来训练我们的运动合成模型。下面我们详细介绍每一步。3.1. 3D姿态估计给定未标记的RGB视频，我们使用单目姿态估计模型从每个帧估计3D身体姿态。为此，我们选择[14，13]的方法，因为它在绝对相机坐标中提供3D身体姿势姿势运动估计器初始化物理运动优化综合模型3D关键点IKSMPL样条拟合视频序列图2：我们的框架概述。视频序列由每帧CNN姿态估计器处理。3d和2d关键点检测被传递到反向运动学步骤，该反向运动学步骤使用3D关键点形成SMPL身体模型运动的初始估计。然后，我们用我们的物理损失优化这个初始化，并使用产生的运动代替运动捕捉来训练运动合成模型。使用平均骨长度来近似人的尺度，这显然是次优的，并导致物理上不可信的结果，例如，脚穿透地面。由于每个帧的姿态是独立估计的，我们发现，所得到的姿态包含大量的抖动空间以及在规模方面。3.2. 运动表示和初始化3D位置不是用于有效地对空间和时间交互建模的最佳表示。/部分内相关性，因为在相同姿势下人的深度的轻微变化因此，我们使用[22]的使用摆动-扭转分解的分析逆运动学方法与[22]类似，我们使用参数化身体模型SMPL [31]来运动学地表示身体运动。SMPL由取姿态参数θ的线性函数组成R24×3和形状参数βR10作为输入，生成一个包含6890个顶点的铰接三角形网格MR6980×3像在SMPL中一样，我们用指数映射表示来参数化关节旋转[22]的方法使用经训练的模型来预测所有身体关节的扭转分量。在这项工作中，我们最初将扭曲设置为零，并将其作为物理优化的一部分进行优化，我们将在本节稍后进行解释。给定表示为局部旋转θt的所有视频帧t= [0，T]中的3D身体姿势，我们首先通过使用Butterworth低通滤波器平滑运动来去除高频噪声指数映射旋转在2π旋转处受到奇点的影响，因此我们通过分离出全局偏航旋转并用每帧旋转偏移来表示它来建模全局根旋转。特别是1，nates。我们遵循[14]并使用HRNet-w32 [48]作为骨干，并在Humans3.6M [12]，3DPW [49]和MSCOCO [25]数据集上训练它。在每一帧中，它提供3Dθ根=不τ=0∆θroot，yawΣ根，xytposeppeRJ×3和2D poseppe，2dRJ×2，其中3D姿态X被估计到缩放因子。全球1我们对关节旋转应用所有数学运算，包括使用四元数的优化，但为了简洁起见，保留转换。∗θ11535不不不不--不不--不不不不1：T不 1：Tt tt3.3.1物理损失现在，我们详细计算我们的可微物理损失函数，给定的运动和相关的接触力。假设时间上均匀间隔的mo-给出了接触框架{q}和接触力{fc}其中qt和fc表示物体在时间t的广义坐标和整体接触力。损失函数由三个主要部分组成：L（q，fc）=L+L+L物理tt动力学接触渗透（一）表2：直接优化的变量、它们的符号和描述的概述。对于所有依赖于时间的变量，我们实际上是在优化它们各自的样条曲线的参数（包括正切值）。我们也将相同的平滑过程应用于全局根位置proot。收集这些，我们表示广义坐标qt=proot，θt中的整体运动。虽然该运动序列然后可以被直接优化，但是我们进一步用三次样条对运动进行建模，以将我们的运动约束为平滑的并且减少我们的优化变量的具体地，我们使用三次Hermite样条，其中样条的节点位置被初始化为覆盖整个运动的时间上均匀间隔的帧（有效地将其子采样为8倍），并且切线根据Catmull-Rom样条的规则被初始化。为了计算全运动序列，我们简单地在原始运动序列的采样时间查询样条我们还优化了时间∆ti之间的样条节点，但发现其包含有对最终结果的影响微乎其微。3.3. 运动优化在运动优化步骤中，我们通过联合优化身体形状β和全局角色姿势q tt=1：T来细化运动，以匹配姿势估计器检测以及使用平滑接触惩罚的全身物理损失项[38]。注意，我们针对整个序列仅优化一组形状参数β，因为人的身份在序列内不改变这一阶段还优化了相应的地面接触力fc，我们用样条函数对其进行参数化，就像我们对姿势所做的那样在我们的方法中要优化的总损失函数将物理损失与姿态估计损失和平滑正则化相结合。Ltotal=L pose+L physics+L smooth我们在下面详细介绍每个部分我们评估在运动中均匀间隔的离散时间点处的损失，并在整个序列上平均。动力学损失惩罚不可能的力量。刚体动力学满足牛顿-欧拉方程，该方程允许唯一的逆动力学函数将运动映射到将产生它们的所需广义力。fr（q（·））=Mq¨t+Cq¨t+g（2）质量矩阵M、离心力和科里奥利力Cqt和重力g可以使用递归牛顿欧拉算法有效地计算，该算法利用了由运动树引起的稀疏结构，并且我们使用有限差分近似来计算q（t）的时间导数。有关刚体动力学的详细教程，可以参考[27]。使用fr，我们可以通过将其与角色上的实际力进行比较来计算动力学损失。L动力学=W动力学||fr−Bfa−JTfc||2（三）这里，JT将来自接触点的所有接触力映射到整个空间上，并且类似地，B将关节驱动力映射到整个空间上。代替将fa作为另一优化变量，可以通过假设对致动力没有限制来容易地选择Bfa的最优值。实际上，这意味着只有根部（和其他未致动关节）上的残余力将受到惩罚，否则，假设任何额外的加速度是由于致动。关节致动的幅度通过惩罚3d关节位置和旋转的加速度来隐含地限制，稍后描述。类人角色模型近似与框，圆柱体和球体和可微缩放的骨架的函数。我们在补充资料中对此进行了详细说明。在逆动力学损失中准确地考虑了全身惯性，并且不像先前的工作[36]那样使用质心近似。假设接触力仅由脚施加在每脚4个不同的接触点（我们将其称为末端效应器）处，这些接触点位于与脚近似的框的角上，如[44]和[43]中所示，尽管可以容易地将更多的接触位置添加到当前框架中。接触成本惩罚违反Signorini可变βp根不∆θroot，yaw不θ关节不θ根，xy不FC不∆ti描述SMPL模型的体型参数。随着时间的推移，它是静态的。根位置。仅沿z重力方向的增量轴角度旋转每个样条线节点的关节根的轴角局部旋转。根的XY旋转作为非正规化的XY四元数。nc接触部位的按比例接触力到下一个样条线节点的增量时11536∈Σnc.Σ联系方式Lcontact=Σct，iwe||et，i||2+we||埃拉特岛||第二（四）条我这里，e t，iR3是第i个末端执行器位置和接触表面之间的最小位移，并且其时间dR i vet，i也被包括以防止滑动。它们与接触变量ct，i成比例地进行归一化，其中，接触变量ct，i与接触力有关。接触变量表示接触在该时间步长处存在它的范围从0到1，通过接触力大小的软阶跃函数获得：c= 1（tanh（k||F C||−k）+1）（5）为了进行调谐，重要的是在称重L动态和L接触之间具有良好的平衡。除此之外，L物理和L姿态之间的平衡被松散地调整，使得L姿态不会偏离纯运动学优化太多。3.3.3实现细节我们在PyTorch中实现了完整的流水线，并使用LBFGS优化器的现成实现[39]，历史大小为100，基本步长为1.0，Armijo-Wolfe线搜索。优化分2个阶段运行，总共750次迭代。执行运动学优化的前250次迭代，其中唯一的区别是L物理损失禁用，则500次物理优化迭代t，i21t，i2使用L执行物理启用. LBFGS内存为接触变量是接触力的单调递增此外，对于大的fc值，它饱和。这可以被看作是互补条件下的硬阶跃函数的软松弛。直观地，通过使接触力为零和/或接触距离为零来达到最优。在这项工作中不考虑滑动和滚动接触。在没有进一步限制的情况下，接触目标仅在其特别选择施加接触力时惩罚违反Signorini条件。因此，该方法可以在没有接触力的情况下产生穿透物体的运动为了避免这种情况，使用了一个单独的术语来明确惩罚相互渗透：nc在两个阶段之间清除。3.4. 生成模型一旦我们的运动被优化，我们就可以像标准的运动捕捉数据集一样使用它特别是，我们证明了它可以用来训练通常只在mocap数据集上训练的运动合成模型。我们遵循生成式人体运动合成的先前工作，并采用最先进的多样化潜在流（DLow）方法[56]。DLow使用具有GRU编码器、自回归解码器架构的标准递归条件 VAE（CVAE）来预测未来运动，给定过去运动的短片段作为上下文。此外，它还使用了一种学习的事后采样策略，该策略可以优化L渗透=w注射笔max（{dt，i+k_max_in，0}）2（6）我直接针对有限数量的未来运动预测集合的1中最佳准确度和多样性两者DLow将序列作为输入并产生作为输出这里，dt，i是在第i个末端执行器处的接触表面的带符号距离，如果其穿透，则该带符号距离为负。3.3.2姿态估计损失我们使用的姿势拟合损失L姿势在人体形状估计中很常见[3]。每帧评估L 姿态并求和。它根据局部3d关键点偏差、全局相机投影的2d关键点偏差、姿势先验下的运动的对数概率以及SMPL体型与平均体型的偏差来我们还使用运动加速度惩罚来确保我们的运动是平滑的。L=1（w||θ¨||2+w||pé||（2）（7）根相对3D关键点位置和根速度。4. 实验结果在本节中，我们将评估我们的方法并与以前的工作进行比较。我们将评估分为两个阶段。我们首先提供我们的评估设置4.1的实验细节。接下来，我们评估了我们用于姿态估计的物理细化步骤，并与现有技术的基于物理的方法 PhysCap [44] 和姿态估计器 HMR[16]、HMMR [17]和VIBE [18]进行比较。最后，我们证明了使用我们的物理优化修正的好处，在下游性能的运动合成。4.1. 数据集和实验设置光滑n节点θ¨tp¨t我们使用大规模的Human3.6M数据集进行我们的研究。这里p¨t是关节的全局线性加速度我们所有的损失条款都调整了权重，这些权重在补充条款中详细说明，同时还有额外的损失细节。虽然我们的方法对这一点11537评估（补充资料中提供了与[43]关于Hu-manEva [45]的额外比较）。运动记录从4个摄像机和运动捕捉系统被用来产生准确的注释的字符。11538GTGT英尺，z足，xy不HMR [16]HMMR [17个]PhysCap [第四十四届]我们的（亲属）我们（dyn）VIBE*no Procrustes MPJPE（↓）全局根位置（↓）e平滑（↓）σsmooth（↓）78.9204.211.212.779.4231.16.85.997.4182.67.26.973.6148.25.421.0668.185.14.01.365.6---表3：我们的方法的姿态估计准确度和质量度量的比较，具有物理（dyn）和没有物理（kin）以及竞争性姿态估计器基线。所有误差都以毫米为单位。VIBE [18]是一种强大的oracle方法，使用大规模AMASS [32]运动捕捉数据集进行训练。请注意，由于PhysCap [44]和其他基线以25fps运行，因此我们对50fps运动进行下采样以进行直接比较。我们使用受试者9和11，它们形成标准验证集，并使用与PhysCap相同的运动[44]。具体地，这些运动不包括与椅子对象的交互或躺/坐运动。它们是：方向，讨论，问候，摆姿势，购买，拍照，等待，散步，遛狗和一起。4.2. 物理校正的位姿估计通过我们的评估，我们希望回答以下问题：1）我们提出的物理损失是否提高了姿态估计的准确性？、（2）它能改善体质吗？评估指标。我们采用PhysCap [44]中列出的评价指标。按照标准实践，我们测量15个关节简化骨架上的平均每关节位置误差（MPJPE）和平均全局根位置误差。e平滑损失也介绍了在PhysCap，我们也报告。它测量地面实况运动和预测运动之间的3d关键点速度幅度的差异，其示出了运动中存在的抖动量，并且计算如下：Jit=||pt−pt−1||（八）Jit GT=||p GT− p GT||（九）姿态估计的合理性？、和3）我们的方法与其他物理/时间姿态估计相比如何？t t−1e=ΣΣ||p− p||（十）mation方法？由于我们无法访问DeepCap数据集[9]，我们光滑不t形接头t−1在大规模的Human3.6m数据集上评估我们的方法我们将运动分割成均匀的块，使得它们低于2000帧（40秒）。大多数运动可以在一个或两个块中处理，但少数运动需要三个块。优化在3-4分钟内完成，长度为40秒。不利用物理损失的位姿估计器经常违反静态接触的条件我们创建了基于脚关节的方法，直接旨在测量这一点。接触条件违反发生在两种方式，我们设计的指标进行测试。为了评估脚部浮动艺术，我们比较了地面实况上的脚部全局z位置误差（efoot，z）基线。为了解决前2点，我们引入了运动学优化基线，其相当于我们的2、 A=|pfoot，z−pGT|)(11)方法，除了L物理不包括在优化的总损失中（因此端部效应器力也不包括在优化变量中）。为了评估足部滑动伪影，我们比较足部全局xy速度误差（efoot ，vxy）相对于地面实况。ables）。我们还与HMMR [17]进行了比较，HMMR是一种运动学3D网格和来自视频的10 -12 -2013陈晓（||∆tpfoot，xy−∆tpGT||)(12)人类在野外的活动我们进一步与其前身HMR [16]进行比较，HMR在给定单个RGB图像的情况下执行类似的功能，而不是视频。我们的第三个基线是PhysCap[44]，这是一种基于物理的3D姿势预测模型，来自单目视频，包括接触建模并最大限度地减少脚到地板的穿透，与其他类似方法不同。我们还与VIBE [18]进行了比较，VIBE [ 18 ]是一种预测姿势和体型的强大预言机，但已经在大规模AMASS [32]运动捕获数据集上进行了训练与HMR和HMMR类似，VIBE依赖于区分运动捕获运动和预测运动之间的对抗目标。11539结果我们在表3中详述了我们的姿态估计准确度结果。我们的方法在没有procrustes对齐的根对齐平均关节位置误差上大大优于PhysCap [44]事实上，我们的方法接近基于学习的视频姿态估计方法，该方法利用大规模AMASS运动捕获数据集[32]来形成运动先验。我们的运动学运动基线本身与 HMR [16] 和HMMR [17]具有竞争力，证明了基于优化的姿势估计的强大功能。此外，我们大大提高了全球根位置估计方面。我们将此归因于这样一个事实，即我们优化运动和身体形状共同随着我们的11540e英尺，vxy（↓）e英尺，z（↓）我们的（亲属）我们的（dyn）4.6595.72.7118.9表4：具有和不具有物理损失的接触敏感度量、足部切向速度误差（e足部，vxy）和足部全局高度误差（e足部，z）的消融比较。接触感知物理损失。因此，2d关节检测随时间的移动可以帮助估计骨长度，如图3所示，而不是采用初始平均骨长度，而无需进一步细化，如PhysCap [44]中所做的。这表明仅依赖于时间学习的姿态估计器来恢复全局尺度和骨骼长度是次优的。PhysCap没有直接机制来允许这些骨长度相对于接触感知损失进行优化然而，我们有一个单一的可微目标，联合优化的所有变量，包括- ING形状参数。物理损失的增加在MPJPE方面做出了显著的改进，并且在全局根位置和e平滑方面得到了非常大的改进。关节速度误差e平滑的大的改进在补充中包括的两种方法的视频中立即可见对于我们的运动学基线，在没有关于何时形成和断开接触的指导的情况下，角色的脚关节通常可以在接触期间从一侧滑动到另一侧，并且在没有牛顿欧拉方程的强制执行的情况下，角色的根部可以无限制地自由移动，并且通常在快速行走阶段期间从一侧滑动到另一侧。全球根位置误差的差异的主要贡献者是由于深度模糊。然而，运动学基线只能使用身体先验和运动线索形成对深度的粗略近似，我们的物理损失直接强制与地平面接触，大大改善了深度估计。通过表4中概述的我们的自定义度量，我们进一步发现包括物理损失对接触的物理似然性的益处。具体地，物理损失将脚切线速度误差减小超过 40%，并且将高度误差减小80%。定性结果。测量运动捕获的质量是困难的，并且定量度量并不总是描绘全貌。我们包括定性的例子，我们的输出，把合成渲染.我们还展示了图中预测最不准确的框架中的代表性故障案例。五、许多最大的误差情况发生在蹲伏运动附近。在这里，我们主要受到我们的几何特征近似的限制。我们角色的长方体几何体并没有捕获真实的底层脚部几何体。我们的模型不能代表显著的足部屈曲。然而，我们注意到角色姿势仍然是稳定的，并且图3：视频上的优化结果。在这里，我们展示了由我们的框架产生的照片捕捉运动，下面包括来自输入运动的视频帧。图4：姿态估计结果。浅橙色是我们优化的运动初始化，蓝色是我们方法的最终输出，覆盖在红色骨架上，这是地面真实关节。在右边的相机视图中，初始姿势看起来似乎是合理的，但是随着身体形状通过我们的方法进行优化，如左边所示的侧视图所示。图5：失效案例。即使当mocap重建误差相当高时，我们的方法的运动输出在我们的物理损失下仍然评估为一致低，并且在视觉上看起来物理上合理。这些故障情况是从mocap重建方面表现最差的帧中选择的。我们的末端执行器仍然与地面接触。我们还注意到，估计的接触也是现实的。事实上，即使我们不使用接触检测网络，我们仍然能够仅从视频中11541↑ ↓↓输入. 图3定性地展示了典型步行步态期间估计的4.3. 基于视频的在这里，我们展示了我们的组合框架的结果，该框架从视频中训练运动生成模型。通过我们的评估，我们希望回答以下问题：1）当仅用我们的姿势估计生成的数据进行训练时，我们能学习高质量的运动合成模型吗？2）在姿态估计步骤中我们的物理损失有多少改进了下游运动合成模型的性能为了解决这些问题，我们使用3个不同的训练数据集训练相同的 DLow [56DLow （ GT ）是使用实际mocap数据进行训练的oracle模型DLow（PE-dyn）是我们提出的方法，其使用来自前一阶段的物理DLow（PE-kin）是使用来自前一阶段的运动学优化姿态估计结果的基线，并且用于消除使用物理损失的益处我们还包括在没有DLow采样的情况下以不同方式训练的标准VAE的结果我们在3之间保持实验设置相同，唯一的变化因素是输入训练数据。最终，我们在地面实况验证集上评估训练的运动合成模型。由于Human3.6M [12]数据集包含用于每个运动的多视图相机，因此我们仅使用来自第一个相机的视频来生成模拟单目RGB视频设置的数据集。我们遵循与DLow [56]相似的评估方案并与其进行比较。此外，由于我们将姿态估计器限制为Human3.6m的验证集，因此我们仅使用来自两个角色（S9和S11）的运动来训练运动合成模型。因此，我们将来自S9和S11的运动均匀地分成用于运动合成模型的训练和评估集具体地，名为“[Action] 1”的每个运动除此之外，我们使用与DLow [56]中完全相同的实验给定0.5秒的上下文，DLow预测运动的未来2秒。所有的运动- tions采样在原来的50 FPS的mocap。我们使用具有10种输出运动模式的DLow。评估指标。我们报告标准的运动合成中使用的度量。运动合成的两个不同的目标是生成不同的，但准确的运动。在15个关节骨架模型上测量准确度，平均距离误差（ADE）测量在预测的未来运动序列上平均的平均根对准关节位置误差，并且最终距离误差（FDE）是相同的，但是仅在预测的运动的最终帧处测量，其多样性（）ADE（）FDE（）DLow（PE-kin）10.53 0.590 0.698D低（PE-dyn） 10.960.5730.685D低（GT）*12.220.4900.617cVAE（PE-kin）7.4190.6390.756cVAE（PE-dyn）7.4130.6120.738cVAE（GT）*6.8010.56170.706ERD（GT）*00.7220.969表5：具有不同训练数据的运动合成模型之间的运动合成多样性和准确性的比较。请注意，误差是以米为单位测量的，因为我们坚持运动合成工作中的（GT）* 表示该方法是用地面实况mocap数据训练的，而不是从视频估计的，并且应该被理解为oracle基线。PE-dyn使用我们的物理校正姿态估计数据集，而PE-kin正在消除物理校正中的物理损失。强调长期的准确性。这两个指标都是以米为单位的。多样性通过平均成对距离（APD）来测量。给定由运动合成器产生的样本集，这给出了所有运动样本对之间的平均L2距离。结果我们在表5中列出了我们模型的评估。cVAE是形成DLow方法的骨架的VAE正如预期的那样，我们不匹配使用地面实况运动捕获数据的oracle模型但是，我们与这个神谕很有竞争力。使用我们的物理校正输入（PE-dyn）训练的DLow在平均关节距离方面仅差16.9%，最终距离误差差11.0%，平均运动多样性差10.3%。对于DLow模型和cVAE模型两者，将物理损失添加到用于生成训练数据的校正步骤一致地改善了所有评估的度量。定性结果。请参阅补充资料，了解从我们的训练运动模型产生的运动的视频和可视化5. 结论在本文中，我们介绍了一个新的框架，训练运动合成模型，从原始视频姿态估计，而不使用运动捕捉数据。我们的框架通过接触不变优化，包括接触力的计算，通过强制执行物理约束来细化噪声姿态估计。然后，我们训练一个时间序列生成模型的完善的姿势，合成，大小未来的运动和接触力。我们的结果表明，显着的性能提升，通过我们的基于物理的细化姿态估计，和运动合成结果从视频。我们希望，我们的工作将导致更多的可扩展的人体运动合成leverag- ING大型在线视频资源。11542引用[1] Emre Aksan、Manuel Kaufmann和Otmar Hilliges。结构化预测有助于三维人体运动建模。在ICCV，2019年。1[2] Kevin Bergamin，Simon Clavet，Daniel Holden，JamesRichard Forbes。Drecon：数据驱动的基于物理特性的响应控制。ToG，38（6），2019. 2[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。在ECCV，2016年。5[4] M. A. 布鲁贝克湖Sigal和D.J. 舰队估计接触动态。ICCV，2009年。3[5] 西蒙·克拉维特运动匹配与下一代动画之路。GDC会议记录，2016年。一、二[6] E. Daneshmand，M.Khadiv，F.Grimminger和L.里盖蒂用于双足步行控制的具有摆动脚动力学的可变水平MPC。IEEE Robotics and Automation Letters，2021。2[7] 卡特琳娜·弗拉基亚达基，谢尔盖·莱文，潘纳·费尔森，和吉坦德拉·马利克.用于人体动力学的循环网络模型。在ICCV，第4346-4354页，2015中。2[8] P. Ghosh，J. Song，E. Aksan和Otmar Hilliges。学习人体运动模型进行长期预测。3DV，2017.2[9] Marc Habermann ， Weipeng Xu ， Michael Zollhofer ，Gerard Pons-Moll，and Christian Theobalt. Deepcap：使用弱监督的单一人员绩效捕获。在CVPR，2020年。6[10] I. Habibie ， Daniel Holden ， Jonathan Schwarz ， JoeYearsley，and T.小村一种用于人体运动合成的循环变分自编码器。在BMVC，2017年。2[11] GustavEjeHenter 、 SimonAlexanderson 和 JonasBeskow。Moglow：Probabilistic and Controlled MotionSynthesis Using- ing Normalising Flows.ToG，39（6），2020. 2[12] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的3D人体感知TPAMI，36（7）：1325-1339，2014. 一二三八[13] Umar Iqbal，Pavlo Molchanov，Thomas Breuel，JuergenGall，and Jan Kautz.通过2.5D潜在热图回归的手部姿势估计。在ECCV，2018。3[14] Umar Iqbal，Pavlo Molchanov，and Jan Kautz.通过野外多视角图像进行弱监督3d人体姿势学习。在CVPR，2020年。3[15] Umar Iqbal，Kevin Xie，Yunrong Guo，Jan Kautz，andPavlo Molchanov.KAMA：3D关键点感知人体网格关节。在ArXiv，2021年。3[16] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在CVPR，2018年。二、五、六[17] 作者：Jason Y.张，潘纳·费尔森，和吉滕德拉·马利克.从视频中学习三维人体动力学。在CVPR，2019年。三五六[18] Muhammed Kocabas、Nikos Athanasiou和Michael J.黑色.Vibe：用于人体姿势和形状估计的视频推理。在CVPR，2020年。二三五六11543[19] LucasKova r，MichaelGleiche r，andFre'd e'ricPighin. 运动图ToG，21（3）：473-482，2002. 2[20] Taesoo Kwon ， Yoonsang Lee ， and Michiel Van DePanne.快速和灵活的多腿运动使用学习的质心动力学。ToG，39（4）：46-1，2020. 2[21] Yongjoon Lee ， Kevin Wampler ， Gilbert Bernstein ，Jovan Pop o vi c'和ZoranPop o v ic'。用于交互式角色移动的运动场ToG，29（6），2010. 一、二[22] Jiefeng Li ， Chao Xu， Zhicun Chen ， Siyuan Bian ，Lixin Yang，and Cewu Lu.Hybrik：一种用于3D人体姿势和形状估计的混合解析神经逆运动学解决方案在CVPR，2021年。3[23] 李佳曼，尹一航，H. Chu，Y. Zhou，Tingwu Wang，S. Fidler 和 H. 李学习生成不同的舞蹈动作与Transformer。ArXiv，abs/2008.08171，2020。2[24] Zongmian Li ， Jiri Sedlar ， Justin Carpentier ， IvanLaptev，Nicolas Mansard，and Josef J Sivic. 从单目视频估计人-物交互的3d运动和力在CVPR，2019年。3[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV。3[26] Hung Yu Ling ， Fabio Zinno ， George Cheng ， andMichiel Van De Panne.使用运动矢量的角色控制

下载后可阅读完整内容，剩余1页未读，立即下载