实时PD控制下的自我姿态估计和预测

58 浏览量更新于2023-10-16 收藏 18.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

motions with egocentric cameras can be the cornerstone ofmany useful applications. In medical monitoring, the in-ferred motions can help physicians remotely diagnose pa-tients’ condition in motor rehabilitation. In virtual or aug-mented reality, anticipating motions can help allocate lim-ited computational resources to provide better responsive-ness. For athletes, the forecasted motions can be integratedinto a coaching system to offer live feedback and reinforcegood movements. In all these applications, human motionsare very complex, as periodical motions (e.g., walking, run-ning) are often mixed with non-periodical motions (e.g.,turning, bending, crouching). It is challenging to estimateand forecast such complex human motions from egocentricvideos due to the multi-modal nature of the data.It has been shown that if the task of pose estimation canbe limited to a single mode of action such as running orwalking, it is possible to estimate a physically-valid posesequence. Recent work by Yuan and Kitani [67] has for-mulated egocentric pose estimation as a Markov decisionprocess (MDP): a humanoid agent driven by a control pol-icy with visual input to generate a pose sequence inside aphysics simulator. They use generative adversarial imitationlearning (GAIL [14]) to solve for the optimal control pol-icy. By design, this approach guarantees that the estimatedpose sequence is physically-valid. However, their methodfocuses on a single action modality (i.e., simple periodi-cal motions including walking and running). The approach1100820实时PD控制下的自我姿态估计和预测0Ye Yuan Kris KitaniCarnegie Mellon University0{ yyuan2, kkitani } @cs.cmu.edu0图1. 提出的方法实时估计佩戴摄像头者的3D姿势（实心）并预测未来姿势（半透明）。0摘要0我们提出使用基于比例-导数（PD）控制的策略，通过强化学习（RL）从自我中心视频中估计和预测3D人体姿势。该方法直接从未分割的自我中心视频和包含各种复杂人体动作（例如蹲下、跳跃、弯曲和运动转换）的运动捕捉数据中学习。我们提出了一种基于视频的循环控制技术，用于预测任意长度的物理有效和稳定的未来动作。我们还引入了基于价值函数的故障安全机制，使我们的方法能够在视频数据上作为单次遍历算法运行。在受控和野外数据的实验中，我们的方法在定量指标和动作的视觉质量方面都优于先前的方法，并且足够稳健，可以直接应用于实际场景。此外，我们的时间分析显示，我们的姿势估计和预测的组合可以以30 FPS的速度运行，适用于实时应用。101. 引言01 项目主页：https://www.ye-yuan.com/ego-pose100830由于数据是多模态的，所以还需要对演示的动作进行仔细的分割，以解决对抗性训练在数据是多模态时的不稳定性问题。为了解决这些问题，我们提出了一种自我姿态估计方法，可以直接从未分割的多模态运动演示中学习运动策略。0与自我中心姿势估计的工作历史不同，以自我中心感知为基础的姿势预测任务之前没有相关工作。现有的不基于自我中心感知的3D姿势预测方法将姿势序列作为输入，并使用循环模型设计输出未来的姿势序列[11, 16, 5,26]。即使使用3D姿势序列作为直接输入，这些方法也往往会产生不现实的动作，因为将预测的姿势反馈到网络中而没有与学习环境进行纠正交互导致的误差累积（协变量漂移[40]）。更重要的是，这些方法通常会生成物理无效的姿势序列，因为它们只被训练来模仿运动的运动学，而忽视了物理定律或执行约束。在这项工作中，我们提出了一种直接将过去自我中心视频的噪声观察作为输入来预测稳定和物理有效的未来人体动作的方法。0我们将自我中心的姿势估计和预测都建模为一个MDP。对于推理任务，人形控制策略以人形当前状态作为输入。此外，整个视频的视觉上下文也作为姿势估计任务的输入。在预测任务中，只使用当前时间步之前观察到的视觉输入。对于策略的动作空间，我们使用比例-微分（PD）控制器[53]的目标关节位置，而不是直接关节力矩。PD控制器类似于阻尼弹簧，计算每个关节应施加的力矩。这种动作设计更能够使人形执行高度动态的动作[36]。由于基于深度强化学习（DeepRL）的运动模仿方法[36, 38]比基于GAIL的方法[67, 33,60]更具鲁棒性，我们利用DeepRL来鼓励控制策略生成与真实动作相匹配的动作。然而，为运动模仿方法设计的奖励函数不适用于我们的任务，因为它们是为从短分段运动剪辑中学习运动而量身定制的，而我们的目标是从未分段的多模态运动数据中学习估计和预测复杂的人体运动。因此，我们提出了一种专门为这种类型数据设计的新奖励函数。对于预测，我们进一步采用衰减奖励函数，以便关注近期的预测帧。由于我们只使用过去的视频帧作为输入，并且在预测过程中视频上下文是固定的，我们使用循环控制策略来更好地编码人体运动的相位。0这项工作中采用的基于控制的方法遇到的一个独特问题是，在物理模拟器中被激活的人形可能会摔倒。具体来说，测试时视觉输入中的极端领域转移可能导致不规则的控制动作。因此，控制动作的不规则性导致人形失去平衡并在物理环境中摔倒，从而阻止该方法提供任何姿势估计。[67]中提出的基于控制的方法通过在测试时作为批处理过程对策略进行微调来防止摔倒。因此，这禁止了它在流式或实时应用中的使用。在没有微调的情况下，他们的方法要求我们将人形状态重置为某个合理的起始状态，以保持产生有意义的姿势估计。然而，什么时候重新估计状态并不清楚。为了解决在测试时人形在物理模拟器中摔倒的问题，我们提出了一种基于值函数估计的故障安全机制，该机制可以提前预测摔倒并在产生错误的姿势估计之前稳定人形。我们在一个大型运动捕捉（MoCap）数据集和一个包含各种人体动作（慢跑、弯腰、蹲下、转身、跳跃、倾斜、运动过渡等）的野外数据集上验证了我们的方法在自我中心的姿势估计和预测方面的有效性。姿势估计的实验结果表明，我们的方法可以直接从未分段的数据中学习，并在定量指标和动作的视觉质量方面优于现有方法。姿势预测的实验结果表明，我们的方法可以生成直观的未来动作，并且与其他基线方法相比更准确。我们的野外实验表明，我们的方法在不需要任何微调的情况下可以很好地适应实际环境。我们的时间分析表明，我们的方法可以以30帧/秒的速度运行，适用于许多实时应用。总之，我们的贡献如下：（1）我们提出了一种基于DeepRL的自我中心姿势估计方法，可以从未分段的MoCap数据中学习，并为复杂的人体运动估计准确且符合物理规律的姿势序列。（2）我们首次解决了自我中心姿势预测问题，并展示了我们的方法可以生成准确且稳定的未来动作。（3）我们提出了一种故障安全机制，可以检测到人形控制策略的不稳定性，从而防止产生错误的姿势估计。（4）我们使用MoCap数据训练的模型在实际环境中具有良好的迁移性，无需任何微调。（5）我们的时间分析表明，我们的姿势估计和预测算法可以实时运行。02. 相关工作03D人体姿势估计。第三人称姿势估计一直是视觉社区研究的课题。100840现有的工作利用人体从摄像机中可见的事实。传统方法通过强先验（如形状模型）解决深度模糊问题。基于深度学习的方法也通过大规模动作捕捉数据集的帮助，成功地直接回归图像到3D关节位置。为了在野外图像中获得更好的性能，已经提出了无监督学习的方法，从没有注释的图像中学习。尽管许多最先进的方法独立地为每个帧预测姿势，但有几个方法利用视频序列来改善时间一致性。有限的研究量研究了自我中心的姿势估计。大多数现有的方法只估计可见身体部位的姿势。其他方法利用16个或更多的身体固定相机通过运动结构推断关节位置。专门设计的头戴装置已用于无标记运动捕捉，其中利用了逼真的合成数据。还提出了基于条件随机场的方法来估计佩戴摄像头的人的全身姿势。与我们最相关的工作是将自我中心的姿势估计作为马尔可夫决策过程来强制执行物理约束并通过对抗性模仿学习来解决。它在简单的周期性人体动作上表现出良好的结果，但无法估计复杂的非周期性动作。此外，他们需要在测试时进行微调以防止人形机器人摔倒。相比之下，我们提出了一种可以从未分割的动作捕捉数据中学习并实时估计各种复杂人体动作的方法，而无需微调。0人体运动预测。已经有很多工作研究了第三人称和第一人称的轨迹预测，但这些工作只预测人的未来位置而不是姿势。还有一些工作专注于在图像空间中预测未来动作。其他方法使用过去的3D人体姿势序列作为输入来预测未来的人体运动。最近，从第三人称静态图像中预测人的未来3D姿势的工作要求人物可见。与以前的工作不同，我们提出了从自我中心视频中预测未来人体运动的方法，其中人物几乎看不见。0从模仿中控制人形机器人。在计算机动画中，使用参考动作的想法已经存在很长时间了。早期的工作将这个想法应用于平面角色的双足运动。基于模型的方法通过跟踪参考动作生成具有3D人形角色的运动。基于采样的控制方法在生成高度动态的人形运动方面也取得了巨大成功。基于深度强化学习的方法利用参考动作来塑造奖励函数。基于0已经提出了基于GAIL的方法来消除手动奖励工程的需要。与我们最相关的工作是DeepMimic及其视频变体。DeepMimic在人类运动技能方面展示了出色的结果，具有手动设计的奖励，并能够组合学习到的技能以实现不同的任务。然而，它只能从分割的动作片段中学习技能，并依赖于运动的相位作为策略的输入。相比之下，我们的方法可以从未分割的动作捕捉数据中学习，并将视觉上下文作为相位变量的自然替代。03. 方法论0我们选择将人体运动建模为受控制理论下的最优控制动力学系统的结果，因为控制理论提供了解释人体运动在物理定律下的数学工具。特别地，我们使用马尔可夫决策过程（MDP）的形式。MDP由状态、动作、转移动力学、奖励函数和折扣因子的元组 M = ( S, A, P, R, γ ) 定义。状态。状态 s t包括人形态 z t 和视觉上下文 φ t 。人形态 z t 包括姿势p t （根部的位置和方向以及关节角度）和速度 v t（根部的线性和角速度以及关节速度）。所有特征都是在与根链接的朝向方向对齐的人形的本地朝向坐标系中计算的。视觉上下文 φ t根据任务的不同（姿势估计或预测）而变化，我们将在第3.1节和第3.2节中讨论。动作。动作 a t指定了除根部以外的人形关节的比例-导数（PD）控制器的目标关节角度。对于关节自由度 i，计算应用的力矩如下所示：0τ i = k i p ( a i t − p i t ) − k i dv i t , (1)0其中 k p 和 k d 是手动指定的增益。我们的策略以30Hz的频率查询，而模拟以450Hz的频率运行，这给予PD控制器15次迭代来尝试达到目标位置。与直接使用关节力矩作为动作相比，这种类型的动作设计增加了人形的高动态运动能力[36]。策略。策略 π θ (a t | s t ) 由具有固定对角协方差矩阵 Σ的高斯分布表示。我们使用具有参数 θ 的神经网络将状态s t 映射到分布的均值 µ t。我们使用一个多层感知机（MLP）作为网络模型，具有两个隐藏层（300，200）和ReLU激活函数。需要注意的是，在测试时，我们总是选择策略的均值动作，以防止由于探索噪声而导致性能下降。rq = exp−2�j∥qjt ⊖ ˆqjt ∥2 .(3)re = exp�−20��e∥et − ˆet∥2��.(4)rp = exp�−300�(ht − ˆht)2 + ∥qrt ⊖ ˆqrt ∥2��.(5)rv = exp�−∥lt − ˆlt∥2 − 0.1∥ωrt − ˆωrt ∥2�.(6)100850图2. 自我姿态估计和预测的概述。策略接收人形态估计的人形状态 z t 或预测的循环状态特征 ν t 和视觉上下文 φ t ，输出动作 a t，通过物理模拟生成下一个人形状态 z t +1 。左图：对于自我姿态估计，视觉上下文 φ t 是通过双向LSTM对整个视频 V 1: T进行CNN特征编码计算得到的。右图：对于自我姿态预测，视觉上下文 φ t 是通过前向LSTM对过去的帧 V − f :0进行计算得到的，并且对于所有的 t 都保持不变。0解决MDP。在每个时间步骤中，处于状态 s t的人形智能体采取从策略 π ( a t | s t ) 中采样的动作 a t，环境通过物理模拟生成下一个状态 s t +1，并根据人形运动与真实值的对齐程度给予智能体奖励 r t。这个过程重复进行，直到触发某个终止条件，例如达到时间限制或人形摔倒。为了解决这个MDP，我们应用策略梯度方法（例如PPO [47]）来获得最优策略 π �，最大化期望折扣回报 E �� T t =1 γ t − 1 r t �。在测试时，从某个初始状态 s 1 开始，我们展开策略 π � 以生成状态序列 s 1: T ，从中提取输出姿势序列 p 1: T。03.1. 自我姿态估计0自我中心姿态估计的目标是使用可穿戴摄像头的视频帧 V1: T 来估计人的姿势序列 p 1: T。为了学习这个任务的人形控制策略 π ( a t | z t , φ t )，我们需要定义计算视觉上下文 φ t 和奖励函数 r t的过程。如图2（左）所示，视觉上下文 φ t 是从视频 V1: T计算得到的。具体来说，我们计算每帧的光流，并通过CNN提取视觉特征 ψ 1: T 。然后，我们将 ψ 1: T输入到一个双向LSTM中生成视觉上下文 φ 1: T，从中获取每帧的上下文 φ t 。对于起始状态 z 1，我们在训练过程中将其设置为地面真实值 ˆ z 1。为了鼓励策略输出的姿势序列 p 1: T 与地面真实值 ˆ p1: T 匹配，我们将奖励函数定义为 r t = w q r q + w e re + w p r p + w v r v ，(2)0其中 w q ， w e ， w p ， w v 是加权因子。姿势奖励 rq 衡量0非根关节的姿势 p t 与地面真实值 ˆ p t之间的差异。我们使用 q j t 和 ˆ q j t 分别表示从 p t 和ˆ p t 计算的关节 j 的局部方向四元数。我们使用 q 1 � q 2表示从 q 2 到 q 1 的相对四元数，并使用 ∥ q ∥ 计算 q 的旋转角度。0末端效应器奖励 r e 评估局部末端效应器向量 e t与地面真实值 ˆ e t 的差异。对于每个末端效应器 e（脚、手、头）， e t被计算为从根部到末端效应器的向量。0根姿势奖励 r p 鼓励人形的根关节具有与地面真实值 ˆ h t和 ˆ q r t 相同的高度 h t 和方向四元数 q r t 。0根速度奖励 r v 惩罚根部的线性速度 l t 和角速度 ω t与地面真实值 ˆ l t 和 ˆ ω t的偏差。可以通过有限差分法计算地面真实速度。0请注意，所有特征都是在局部朝向坐标系内计算的，而不是在世界坐标系内计算的，这对于从未分段的MoCap数据中学习非常重要，原因如下：当模仿未分段的运动演示时，人形将在全局位置和方向上偏离真实运动，因为策略产生的错误会累积；如果特征是在世界坐标系中计算的，它们与真实值的距离会迅速变大，奖励会降至零，不再提供有用的学习信号。使用局部特征确保奖励形状良好，即使存在较大的漂移。为了使用局部特征学习全局运动，例如使用局部特征进行转向，我们使用奖励 r v 鼓励人形的根部具有与真实值相同的线性和角速度。˜rt = βrt ,(7)V(s) = Es1=s, at∼π� T�t=1γt−1rt�.(8)V(s) ≈∞�t=1γt−1¯rs =100860运动演示中，由于策略产生的错误会累积，人形在全局位置和方向上会偏离真实运动，如果特征是在世界坐标系中计算的，它们与真实值的距离会迅速变大，奖励会降至零，不再提供有用的学习信号。使用局部特征确保奖励形状良好，即使存在较大的漂移。为了使用局部特征学习全局运动，例如使用局部特征进行转向，我们使用奖励 r v鼓励人形的根部具有与真实值相同的线性和角速度。0初始状态估计。由于在测试时我们无法获得地面真实的人形起始状态 z 1，因此我们需要学习一个回归器 F ，将视频帧 V 1:T 映射到它们对应的状态序列 z 1:T。 F 使用与自我姿势估计相同的网络架构（图2（左））来计算视觉上下文 φ 1:T。然后我们将 φ 1:T通过具有两个隐藏层（300，200）的多层感知机（MLP）传递，以输出状态。我们使用均方误差（MSE）作为损失函数： L ( ζ ) = 10T � T t =1 ∥F ( V 1: T ) t − z t ∥ 2 ，其中 ζ 是 F的参数。最优 F � 可以通过基于SGD的方法获得。03.2. 自我姿势预测0对于自我中心的姿势预测，我们的目标是使用来自可穿戴摄像头的过去视频帧 V − f :0来预测摄像头佩戴者的未来姿势序列 p 1:T。我们首先定义控制策略 π 中使用的视觉上下文 φ t。如图2（右）所示，该任务的视觉上下文 φ t 是从过去帧 V − f :0 计算得到的，并在策略执行期间对所有时间 t保持不变。我们为每帧计算光流，并使用CNN提取视觉特征 ψ − f :0 。然后我们使用前向LSTM将 ψ − f :0汇总为视觉上下文 φ t 。对于人形起始状态 z 1，我们将其设置为地面真实值 ˆ z 1 ，在测试时由 V − f :0上的自我姿势估计提供。现在我们定义预测任务的奖励函数。由于人体运动的随机性，相同的过去帧可以对应多个未来姿势序列。随着时间步骤 t 的推进，姿势 p t 与过去帧 V− f :0之间的相关性减弱。这促使我们使用一个关注接近起始帧的帧的奖励函数：0其中 β = ( T - t ) / T 是一个线性衰减因子，r t在方程2中定义。与自我姿态估计不同，我们没有每个时间步骤 t作为输入的新视频帧，这可能会导致关于运动阶段的歧义，例如人是否站起来或蹲下。为了更好地编码人体动作的阶段，我们使用一个循环策略 π ( a t | ν t , φ t )，其中 ν t ∈ R128 是一个前向LSTM的输出，编码到目前为止的状态预测z 1:t 。0图3.顶部：不稳定状态的人形机器人倒下到地面，状态的值在倒下期间急剧下降。底部：在第25帧，我们的故障安全机制检测到不稳定性，触发状态重置，并使我们的方法能够继续产生良好的姿势估计。03.3. 故障安全机制0在测试时运行自我姿态估计时，即使控制策略 π通常足够强大以从错误中恢复，由于视觉输入中的极端领域转移引起的不规则动作，人形机器人仍然可能会倒下。当人形机器人倒下时，我们需要将人形机器人的状态重置为状态回归器 F的输出，以保持产生有意义的姿势估计。然而，什么时候进行重置并不清楚。一种简单的解决方案是在人形机器人倒下到地面时重置状态，这将在倒下期间生成一系列错误的姿势估计（图3（顶部））。我们提出了一种故障安全机制，可以在人形机器人开始倒下之前检测到当前状态的不稳定性，从而使我们能够在产生错误估计之前重置状态（图3（底部））。大多数策略梯度方法都具有演员-评论家结构，它们训练策略 π 和估计状态 s 的预期折扣回报的值函数 V：0假设 1 / (1 - γ) � T，并且对于训练良好的策略，r t在时间步骤上变化很小，可以近似值函数为01 - γ * ¯ r s , (9)0其中 ¯ r s 是策略从状态 s开始获得的平均奖励。在我们的实验中，我们发现对于稳定的状态 s（不倒下），其值 V(s) 总是接近于 1 / (1 - γ) * ¯r，方差很小，其中 ¯ r是训练批次中的平均奖励。但是当人形机器人开始倒下时，值会显著下降（图3）。这个发现导致了以下的故障安全机制：在执行人形机器人策略 π 时，我们保持对平均状态值 ¯V 的运行估计，并在发现当前状态的值为100870低于 κ * ¯ V，其中 κ是一个确定该机制对不稳定性敏感程度的系数。我们在实验中将 κ 设置为0.6。04. 实验设置04.1. 数据集0我们用于测试我们的方法的主要数据集是一个带有同步自我中心视频的大型MoCap数据集。它包括五个主体，大约一个小时长。每个主体被要求佩戴一个头戴式GoPro相机，并进行各种复杂的人体动作多次拍摄。这些动作包括行走、慢跑、跳跃、倾斜、转向、弯曲、旋转、蹲下以及这些动作之间的过渡。每个拍摄大约一分钟长，我们不对动作进行分割或标记。为了进一步展示我们的方法的实用性，我们还收集了一个野外数据集，其中有两个新的主体被要求执行与MoCap数据类似的动作。它包含24个视频，每个视频持续约20秒。室内和室外的视频是在不同的地方录制的。由于在真实环境中很难获得地面真实的3D姿势，我们使用第三人称摄像机来捕捉主体的侧面视图，该视图用于基于2D关键点进行评估。04.2. 基准方法0对于自我姿势估计，我们将我们的方法与三个基准方法进行比较:0• VGAIL [ 67 ]:一种基于控制的方法，使用关节力矩作为动作空间，并使用视频条件的GAIL学习控制策略。 • PathPose:一种基于CRF的方法的改编[ 17]。我们不使用静态场景线索，因为训练数据来自MoCap。• PoseReg: 一种使用我们的状态估计器 F直接输出运动学姿势序列的方法。我们将根关节的线性和角速度整合起来生成全局位置和方向。0对于自我姿势预测，之前没有研究尝试从自我中心视频中预测未来的人体姿势，因此我们将我们的方法与使用过去姿势预测未来动作的方法进行比较，测试时由我们的自我姿势估计算法提供:0• ERD [ 11 ]:一种采用编码器-解码器结构的方法，中间使用循环层，并使用当前真实姿势作为输入来预测下一个姿势。训练时使用噪声输入以减轻漂移。 • acLSTM [ 26 ]:一种类似于ERD的方法，采用不同的训练方案以实现更稳定的长期预测:它将预测的姿势的固定长度片段作为输入输入到网络中。04.3. 度量方法0为了评估我们方法的准确性和物理正确性，我们使用以下度量方法:0• 姿势误差 ( E pose ): 一种基于姿势的度量方法，衡量生成的姿势序列 p 1: T与地面真实姿势序列 ˆ p 1: T 之间的欧氏距离。计算公式为 10T � T t =1 || p t − ˆ p t || 2 . • 2D关键点误差 ( E key ):用于我们的野外数据集的一种基于姿势的度量方法。可以计算公式为 1 T J � T t =1 � J j =1|| x j t − ˆ x j t || 2 ，其中 x j t 是我们生成的姿势的第 j 个2D关键点， ˆ x j t是使用OpenPose [ 6]提取的地面真实关键点。我们通过将3D关节投影到一个侧视相机的图像平面上来获取我们生成的姿势的2D关键点。对于生成的和地面真实的关键点，我们将髋关键点设置为原点，并缩放坐标使得肩膀和髋之间的高度等于0.5。 • 速度误差 ( E vel ):一种基于物理的度量方法，衡量生成的速度序列 v 1: T 与地面真实速度序列 ˆ v 1: T之间的欧氏距离。计算公式为 10T � T t =1 || v t − ˆ v t || 2 . v t 和 ˆ v t 可以通过有限差分法计算得出。 • 平均加速度 (A accl ):一种基于物理的度量方法，使用关节加速度的平均大小来衡量生成的姿势序列的平滑程度。计算公式为 10T G � T t =1 || ˙ v t || 1 ，其中 ˙ v t 表示关节加速度， G是驱动自由度的数量。 • 重置次数 ( N reset ):用于基于控制的方法（我们的方法和VGAIL）来衡量机器人不稳定的频率。04.4. 实现细节0模拟和机器人。我们使用MuJoCo [ 55]作为物理模拟器。机器人模型是根据单个主体的BVH文件构建的，并与其他主体共享。机器人由58个自由度和21个刚体组成，具有适当的几何形状。大多数非根关节有三个自由度，膝盖和脚踝只有一个自由度。我们没有给关节添加任何刚度或阻尼，但我们添加了0.01的惯性来稳定模拟。我们使用稳定的PD控制器[ 53 ]来计算关节力矩。增益 k p的范围从50到500，其中腿部和脊柱等关节具有较大的增益，而手臂和头部具有较小的增益。初步实验表明，该方法对于各种增益值范围都具有鲁棒性。 k d 设置为 0 . 1 k p。我们根据增益设置了力矩限制。0网络和训练。对于视频上下文网络，我们使用PWC-Net [52]计算光流，并使用在ImageNet上预训练的ResNet-18[13]生成视觉特征ψt∈R128。为了加速训练，我们预先计算了策略的ψt的ResNet预训练初始状态估计的视觉上下文φt∈R128。对于策略，我们使用在线z-滤波对人形状态zt进行归一化，协方差矩阵Σ的对角元素设置为0.1。在进行姿势估计的训练时，对于每个episode，我们随机采样一个200帧（6.33秒）的数据片段，并在两侧填充10帧的视觉特征ψt以减轻计算φt时的边界效应。在进行姿势预测的训练时，我们采样120帧，并使用前30帧作为上下文来预测未来90帧。如果人形摔倒或达到时间范围，我们终止该episode。对于奖励权重（wq，we，wp，wv），我们将其设置为（0.5，0.3，0.1，0.1）用于估计和（0.3，0.5，0.1，0.1）用于预测。我们使用PPO[47]进行策略优化，剪辑阈值为0.2。折扣因子γ为0.95。我们每次迭代收集50k个时间步长的轨迹。我们使用Adam[20]来优化策略和值函数，学习率分别为5e-5和3e-4。策略通常在3k次迭代后收敛，这需要在GTX1080Ti上大约2天的时间。100880图4. 单个主体自我姿势估计结果。0图5. 单个主体自我姿势预测结果。0状态估计。我们使用BiLSTM（估计）或LSTM（预测）生成视觉上下文φt∈R128。对于策略，我们使用在线z-滤波对人形状态zt进行归一化，协方差矩阵Σ的对角元素设置为0.1。在进行姿势估计的训练时，对于每个episode，我们随机采样一个200帧（6.33秒）的数据片段，并在两侧填充10帧的视觉特征ψt以减轻计算φt时的边界效应。在进行姿势预测的训练时，我们采样120帧，并使用前30帧作为上下文来预测未来90帧。如果人形摔倒或达到时间范围，我们终止该episode。对于奖励权重（wq，we，wp，wv），我们将其设置为（0.5，0.3，0.1，0.1）用于估计和（0.3，0.5，0.1，0.1）用于预测。我们使用PPO[47]进行策略优化，剪辑阈值为0.2。折扣因子γ为0.95。我们每次迭代收集50k个时间步长的轨迹。我们使用Adam[20]来优化策略和值函数，学习率分别为5e-5和3e-4。策略通常在3k次迭代后收敛，这需要在GTX1080Ti上大约2天的时间。05. 结果0为了全面评估性能，我们在三个不同的实验中将我们的方法与其他基线进行了测试。0图6. 野外自我姿势估计结果。0图7. 野外自我姿势预测结果。0设置：（1）MoCap中的单个主体；（2）MoCap中的跨主体；（3）野外中的跨主体。我们进一步进行了广泛的消融研究，以展示我们的方法的每个技术贡献的重要性。最后，我们进行时间分析以验证我们的方法可以实时运行。0主体特定评估。在这种设置下，我们为每个主体训练一个估计模型和一个预测模型。我们使用80-20的训练-测试数据分割。对于预测，我们测试每1秒的窗口来预测接下来3秒的姿势。定量结果如表1所示。对于自我姿势估计，我们的方法在基于姿势的指标（姿势误差）和基于物理的指标（速度误差、加速度、重置次数）方面优于其他基线。我们发现VGAIL[67]通常无法从训练数据中学习到稳定的控制策略，因为频繁摔倒导致了较高的重置次数和较大的加速度。对于自我姿势预测，我们的方法在短时间范围和长时间范围内都比其他方法更准确。我们还在图4和5中呈现了定性结果。我们的方法产生的姿势估计和预测结果比任何其他基线更接近真实值。0跨主体评估。为了进一步测试我们的方法的鲁棒性，我们进行了跨主体实验，其中我们在四个主体上训练我们的模型，并在剩余的主体上进行测试。这是一个具有挑战性的设置，因为不同人对相同动作的风格和速度非常独特。如表1所示，我们的方法在所有指标上再次优于其他基线，并且仅需少量重置即可保持稳定。对于预测，我们还在表3中展示了不同预测时间范围内姿势误差的变化。我们可以看到我们的预测方法在短时间范围（<1秒）内非常准确，甚至在姿势估计方法（表1）上取得了可比较的结果。100890自我姿势估计0单一主体跨主体野外0方法 E姿势 N重置 E速度 A加速度 E姿势 N重置 E速度 A加速度 E关键帧 A加速度0我们的方法 0.640 1.4 4.469 5.002 1.183 4 5.645 5.260 0.099 5.795 VGAIL [67] 0.978 94 6.561 9.631 1.316 418 7.198 8.837 0.1759.278 PathPose [17] 1.035 – 19.135 63.526 1.637 – 32.454 117.499 0.147 125.406 PoseReg 0.833 – 5.450 7.733 1.308 – 6.3348.281 0.109 7.6110E自我-姿势预测0单一主体跨主体野外0方法 E姿势 E姿势（3s） E速度 A加速度 E姿势 E姿势（3s） E速度 A加速度 E关键帧 A加速度0我们的方法 0.833 1.078 5.456 4.759 1.179 1.339 6.045 4.210 0.114 4.515 ERD [11] 0.949 1.266 6.242 5.916 1.374 1.619 7.2386.419 0.137 7.021 acLSTM [26] 0.861 1.232 6.010 5.855 1.314 1.511 7.454 7.123 0.134 8.1770表1. 自我中心姿势估计和预测的定量结果。对于预测，默认情况下，指标在第1秒窗口内计算，除了E姿势（3s）在第3秒窗口内计算。0方法 N重置 E姿势 E速度 A加速度0（a）我们的方法 4 1.183 5.645 5.260 （b）部分奖励 r q + r e 551.211 5.730 5.515 （c）部分奖励 r q 14 1.236 6.468 8.167（d）DeepMimic奖励[36] 52 1.515 7.413 17.504 （e）无故障安全4 1.206 5.693 5.3970表2. 自我姿势估计的消融研究。0野外跨主体。为了展示我们的方法在真实场景中的实用性，我们进一步在Sec.4.1中描述的野外数据集上测试我们的方法。由于缺乏3D真值，我们利用附带的第三人称视频，并计算2D关键点误差作为姿势指标。如表1所示，我们的方法在真实场景中比其他基线更准确和平滑。我们还在图6和7中呈现了定性结果。对于自我姿势估计（图6），我们的方法产生非常准确的姿势，估计的运动相位与地面真实运动同步。对于自我姿势预测（图7），我们的方法生成非常直观的未来运动，例如慢跑的人将继续向前慢跑，蹲下的人将站起来开始行走。0消融分析。我们的消融研究的目标是评估我们的奖励设计和故障安全机制的重要性。我们在跨主体设置下进行这项研究，针对自我姿势估计的任务。从表2中可以看出，使用其他奖励函数会降低所有指标的性能。我们注意到（b）和（c）中的大加速度是由于不稳定控制策略产生的抖动运动。此外，通过将（e）与（a）进行比较，我们可以看到我们的故障安全机制可以改善性能，即使人形机器人很少变得不稳定（仅4次）。0方法 1/3s 2/3s 1s 2s 3s0我们的方法 1.140 1.154 1.179 1.268 1.339 ERD [11] 1.2391.309 1.374 1.521 1.619 acLSTM [26] 1.299 1.297 1.3141.425 1.5110表3. 不同预测时段的跨主体姿势。0ResNet-18和PWCNet2的时间分析。处理时间的细分为：光流5ms，CNN20ms，LSTM + MLP0.2ms，模拟3ms。每步的总时间约为30ms，相当于30FPS。为了实现实时姿势估计，我们使用一个10帧的前瞻视频缓冲区，并且只使用我们的反向LSTM对这10个未来帧进行编码，对应固定的1/3s延迟。对于姿势预测，我们使用多线程，在单独的线程上运行模拟。每0.3秒进行一次预测，预测未来3秒（90步）的运动。为了实现这一点，我们在光流和CNN上使用批处理大小为5（批处理大小为1时，成本分别为14ms和70ms）。06. 结论0我们提出了第一种使用自我中心视频来估计和预测3D人体姿势的方法。通过使用基于PD控制的策略和针对非分割人体运动数据量身定制的奖励函数，我们展示了我们的方法可以对各种复杂的人体动作进行准确的姿势估计和预测。实验和时间分析表明，我们的方法足够稳健，可以直接应用于实际场景并实时运行。0致谢。本工作部分资助来自JSTCREST（JPMJCR14E1）和IARPA（D17PC00340）。02 https://github.com/NVlabs/PWC-Net100900参考文献0[1] Alexandre Alahi，Kratarth Goel，VigneshRamanathan，Alexandre Robicquet，Li Fe

下载后可阅读完整内容，剩余1页未读，立即下载