捕获框架,更一般的复杂地形,形状变化,以及沿着
基于采样的运动控制的不同行为。然而,在单目运动
捕捉任务中采用基于采样的运动控制面临着几个挑
战。首先,传统的基于采样的方法[33,35]通常跟踪
来自商业运动捕捉系统的准确参考运动,而来自单目
RGB视频的估计运动是有噪声的并且在物理上是不可
信的。不准确的接触导致不自然的姿势,甚至会导致
角色的不平衡状态。其次,它是复杂的,以找到一个
最佳的抽样分布。虽然CMA(协方差自适应)[11]被
证明能够通过黑盒优化[33]调整分布,但它需要评估
大量样本进行分布自适应,这是耗时的。此外,依赖
于来自初始分布的随机样本的自适应强加了运动捕获
的不确定性。
为了克服这些障碍,我们的核心思想是在物理监督
之前训练运动分布。先验知识为基于采样的运动控制
提供了可行的解决方案我们首先引入了一个人-场景交
互约束,以获得一个参考运动与适当的接触采样。与
现有的检测脚-地面接触状态的工作[42,47]不同,我
们提出的交互约束通过SDF调整两个断开网格之间的
距离,强制人体模型接近地面表面。然后,我们尝试
训练编 码器以回 归具有 KL发散( Kullback-Leibler 发
散)和来自CMA的伪地面实况的分布。然而,对于相
同的角色状态和参考位姿,CMA方法得到不同的分
布,从而CMA的随机误差导致网络发散和错误的回
归。因此,我们提出了一种新的双分支解码器来解决
这个障碍。如图3所示,从估计的分布中采样的目标姿
态被馈送到物理分支中以验证有效性。由于模拟器是
不可微的,我们使用输出来监督姿态解码器,并强制
其将目标姿态转换为类似模拟器的动态姿态。此外,
来自参考姿态的重构损失被应用于经解码的姿态以促
进正确的分布编码。当编码器是收敛的,我们用它来
编码分布和采样目标姿态的物理分支捕捉物理上合理
的运动。本工作的主要贡献总结如下。
•
我们提出了一个明确的基于物理 的运动 捕捉框
架,更一般的复杂地形,身体形状的变化,和不
同的行为。
•
我们提出了一种新的双分支解码器,以避免
随机误差,并利用不可微的物理模拟器训练分布
先验。
•
我们提出了一种基于SDF的交互约束,以从复杂
的地形场景中捕获准确的人-场景接触。
2.
相关工作
基于物理的动作捕捉。VideoMocap [53]首先通过联合
优化人体姿势和接触力,在运动捕捉中使用物理约
束,这种方法需要人工干预才能获得满意的结果。在
[53]、[32]和[42,47,64]的基础上,分别进一步考虑
对象交互和运动姿态估计最近,Shimada
等人
。[46]提
出了一种基于神经网络的方法来估计地面反作用力和
关节力,并使用导出的加速度更新角色的位姿。为了
使优化问题易于处理,他们的方法只能采用简单的、
可微的物理模型和有限的约束条件,这导致了很大的
近似误差。为了解决这个问题,一些最新的作品[40,
60,62,63]采用DRL来实现基于不可微模拟器的运动
捕捉。尽管如此,训练一个理想的策略需要复杂的推
理[1,5,31],并且它可能对运动类型和体型变化敏
感[39,60]。Vondrak等人[50]直接使用轮廓来构造字
符-图像一致性以训练状态机控制器。然而,这种方法
只能推广到各种运动,恢复的运动似乎是不自然的。
在这项工作中,我们采用神经运动控制来捕捉运动,
而不是DRL。有了训练好的分布先验,我们的方法对
不同的地形交互、人体形状变化和不同的行为更通用
基于物理的角色控制。基于物理的角色控制是一个长
期存在的问题[28,29,45,49,54,55]。早期的工
作依赖于倒立摆模型[21],被动动力学行走[27]和基于
零力矩点的轨迹生成[12]可以处理简单的运动。为了
解决大自由度(自由度)模型,基于优化的方法[23,
30,48,56]被广泛用于模拟和分析人体运动。然而,
它需要大量的计算工作来处理一个复杂的运动。其他
方法[3,59]近似于实际的人类控制系统,可以产生正
常和病态的行走运动。这些基于控制的方法可以推广
到各种技能[3,33- 35,59 ],但需要一组超参数来调
整所最近的作品采用DRL来控制物理特性[28,39,
58]。这表明,当提供运动捕捉数据作为参考时,DRL
可以实现高质量的运动[39]。课程学习促进DRL,