基于模仿学习的自我姿态估计

147 浏览量更新于2023-10-13 收藏 2.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于模仿学习的叶远【0000 - 0001 - 5316 - 6002】和克里斯·基塔尼【0000 - 0002 - 9389 - 4060】卡内基梅隆大学，匹兹堡PA 15213，美国Abstract. 我是说，我是说。e. 例如，具有单个可穿戴相机的3D图像在活动监测中具有许多潜在的应用。对于这些应用，需要准确和物理上可行的估计，后者经常被现有的工作所忽视。使用时间平滑的传统的基于计算机视觉的方法仅考虑运动的运动学，而不考虑作为运动的动力学基础的物理学，这导致物理上无效的姿态估计。受此启发，我们提出了一种新的基于控制的方法来模拟人体运动的物理模拟和使用模仿学习学习的视频调节控制策略的自我姿态估计。我们的模仿学习- ING框架允许我们执行域自适应，以将我们在模拟数据上训练的策略转移到真实世界的数据。我们的实验与真实的自我中心的视频表明，我们的方法可以估计准确的和物理上合理的3D自我姿态序列，而无需观察到的相机rawer的身体。关键词：第一人称视觉，位姿估计，模仿学习图1.一、我们的3D自我姿态估计结果使用以自我为中心的视频。1介绍我们的任务是使用单个头戴式可穿戴相机来估计相机穿戴者的3D身体姿势序列，使得所估计的运动序列遵守物理学的基本规则（例如：，遵守关节限制，脚接触2Y. Yuan和K. 北谷地面，运动保持动量）。采用单个可穿戴相机来估计相机穿戴者的姿态对于许多应用是有用的。在医学监测中，推断出的姿态序列可以帮助医生诊断在许多时间或恢复期间的患者或一般性活动。对于运动员而言，自我中心姿态估计提供运动反馈，而无需用相机指示环境，这对于像马拉松跑步或越野滑雪的运动而言可能是不切实际的在虚拟现实游戏中，头戴式耳机的姿势可以在虚拟现实环境中实现更好的多玩家游戏体验，而无需额外的在许多应用中，期望精确且物理有效的姿态序列。然而，从以自我为中心的视频中估计物理上有效的3D身体姿势是具有挑战性的。首先，自我中心的相机通常面向前方，并且几乎看不到相机的身体。由于视频仅对关于摄像机视点的位置和方位的信息进行编码，因此3D姿态的估计k不受约束。因此，在具有可弯曲的凸轮的情况下，我们无法获得施加到主体的力，诸如关节扭矩或地面接触力。没有对这些力的观测，是非常困难的以数据驱动的方式使用物理模拟来学习基于相机的运动特征与身体姿势之间的关系。计算机视觉中人体姿态估计的大多数传统方法通过主要关注人体运动的运动学来完全回避物理问题。不幸的是，这有时会导致笨拙的姿势估计，允许身体漂浮在空中或关节弯曲超过物理上可能的范围，这使得难以用于运动分析应用。需要新的技术方法来解决从以自我为中心的视频生成物理有效的3D身体姿势的这些挑战。鉴于这些挑战，我们从传统上用于计算机视觉的基于运动学的表示法彻底背离了在用于来自视频的姿态估计的传统的基于运动学的表示中，一个人类姿态方程被实际地建模为姿态{P1，. . . ，pT}。通常使用时间序列模型（例如，时间序列模型）。、隐马尔可夫模型、线性链CRF、递归神经网络），其中每个姿势p t的估计是关于图像evidence和priorposept-1（或过去的一些有效统计，例如，在RNN的情况下为隐藏层）。虽然仅推理姿势序列的运动学以用于姿势估计通常是足够的，但是当想要评估序列的物理有效性时，理解已经生成每个姿势转变的控制输入换句话说，我们必须明确应用于从pttopt+1 开始移动的扭矩（控制输入）。在基于控制的方法中，人体姿势序列需要由状态和动作（控制输入）{s1，a1，s2，a2，. . . 其中状态st包含人的姿势pt和速度vt两者。基于控制的模型明确地考虑控制输入序列并学习控制策略π（a|s），其将状态映射到用于最优控制的动作。种解释基于模仿学习的三维自我姿态估计3控制输入对于基于物理定律产生状态序列是必要的。基于控制的方法的使用需要访问与真实世界物理或在我们的场景中的物理模拟器的交互。使用物理模拟器学习控制策略提供了两个主要优点。首先，在模拟器中使用的虚拟人形机器人的物理特性，例如关节致动限制和范围限制，用作门控机制来约束学习过程以生成人类可能的动作。第二，模拟环境的物理约束确保仅估计物理上有效的姿势序列，使得脚在接触期间将不会穿透地面或滑动。在机器人模拟器的范围内，控制策略学习的目标是学习虚拟人形策略，该策略将当前状态（姿势和速度，可选地以自我为中心的视频）映射到动作（关节扭矩）。形式上，我们使用马尔可夫决策过程（MDP）作为一个顺序的决策过程帧的MDP的状态是根据关节位置、关节速度和观察到的第一人称POV视频定义的我们的人形模型的状态。作用是由关节致动器施加的关节转移概率是由物理仿真环境提供的仿人动力学。在我们的模仿学习框架中，奖励函数基于生成的姿势与其对应的训练姿势之间的相似性基于此MDP，我们执行模仿学习（IL），以获得一个人形的控制策略，是以自我为中心的视频为条件一旦学习到最优策略，就可以在给定以自我为中心的视频序列的情况下使用该策略来生成物理上接地的姿势序列。使用模仿学习来从自我中心视频估计姿态需要一组由用户体验的视频，其中我们的场景将是标记有3D关节位置和关节扭矩的然而，在没有用诸如外骨骼的其他传感器装备身体的情况下，不容易获得这样的数据[6]。相反，我们提出了一个两步模仿学习过程来学习视频调节人形控制策略的自我姿态估计。在第一步中，遵循Merel等人。 [11]，我们学习了一组仿人控制策略，模仿运动捕捉数据中的不同人类行为，以生成虚拟仿人姿势序列，从中我们可以渲染第一人称POV视频。在第二步骤中，模仿学习再次用于学习将视频特征映射到最佳关节扭矩的以这种方式，我们能够学习视频调节的控制策略，而不需要直接测量来自相机佩戴者的关节扭矩。我们注意到，到目前为止所描述的两阶段模仿学习过程仅依赖于虚拟环境中的模拟，而忽略了虚拟数据和真实数据之间的域差距问题。因此，我们进一步建议在测试时使用真实数据来微调视频调节策略以执行域适应。我们使用回归来估计最佳初始状态，该最佳初始状态最大化了该p〇 l icy的期望值，并且使用 p 〇 l i c y 梯度方法来确定该p 〇 l i c y。我们评估我们的方法对虚拟世界的数据和4Y. Yuan和K. 北谷真实世界的数据，并表明我们的姿态估计技术可以推广到真正的第一人称POV视频数据，尽管在虚拟数据上进行了训练在这项工作中，我们的目标是表明，人类运动估计的决策理论方法提供了一个强大的表示，可以自然地映射人类视觉系统的视觉输入（即。，自我中心的视频）到身体动力学，同时考虑到物理学的作用。为了实现这一目标，我们专注于估计使用头戴式摄像机的人体运动的姿势。据我们所知，这是第一项利用物理基础的模仿学习来使用可穿戴相机生成自我姿势估计的工作。2相关工作第三人称姿态估计。从第三人称图像或视频的姿势估计已经研究了几十年[21，10]。现有的工作利用了第三人称相机可以看到整个人体的事实。相反，我们考虑的情况下，该人是完全看不见的。因此，现有的姿态估计方法不能立即适用于我们的问题设置。其中一些方法使用回归从图像映射到姿势参数[1，24，31，26]，包括最近使用卷积神经网络的DeepPose [31]直接将基于回归的方法应用于以自我为中心的姿态估计是诱人的然而，这样的方法是不充分的，因为自我中心图像仅包含关于相机的位置和取向的信息。即使该方法可以完美地重建相机的运动，底层的人体姿势仍然是欠约束的。在没有作为正则化的先验信息的情况下，将出现不自然的人类姿势。这促使我们对人体进行物理建模和模拟，并将人体动力学用作自然正则化。自我中心姿态估计。有限数量的研究已经研究了从以自我为中心的图像或视频推断人类姿势大多数现有方法仍然假设估计的人体或身体的部分是可见的[8，9，16，2，17]。[25]的“嵌入式”方法排除了可见性假设，并经由来自运动的结构来推断16个或更多个身体安装的相机的3D位置。最近，[7]表明可以使用单个可穿戴相机来估计人体姿势他们从训练数据中构建运动图，并通过求解最佳姿势路径来恢复姿势序列。相比之下，我们明确地建模和模拟人体动力学，并学习视频调节的控制策略。对抗性模仿学习。我们的问题适合一个特定的设置模仿学习，学习者只能访问专家轨迹的样本行为克隆[15]将问题视为监督学习，并直接学习每个时间步从状态到动作的映射，遭受由协变量移位引起的复合误差[18，19]。另一种方法，逆强化学习（IRL）[20，12]，通过将专家轨迹优先于其他轨迹来学习成本函数，从而避免了在拟合单次回归的方法中常见的复合误差问题。基于模仿学习的三维自我姿态估计5c=1时间步长决策。然而，IRL算法运行起来非常昂贵，因为它们需要在内部循环中解决强化学习问题生成对抗模仿学习（GAIL;[4]）扩展了GAN框架来解决这个问题。策略充当生成器以产生样本轨迹和使用鉴别器来区分专家轨迹和生成的轨迹。它使用强化学习算法来优化策略，并且该策略因欺骗鉴别器而得到奖励GAIL的主要好处是，没有明确的手工设计的度量是需要衡量模仿和演示数据之间的相似性学习人类行为。已经存在两种类型的方法用于建模人体运动：一种是纯运动学的，另一种是基于物理控制的。对于前者，大量的研究在没有物理学的情况下从运动捕获数据中建模人类的运动轨迹[29，27，5]。后者在图形社区中已经研究了很长时间，并且与我们的场景更这些方法中的许多是基于模型的，并且需要重要的领域专业知识。随着深度强化学习（Deep RL）的快速发展，令人兴奋的最近工作已经将Deep RL用于2D生物[13]和3D人形[14]的运动最近，从运动捕获数据[11]中进行的对抗性模仿学习已经显示出了漂亮的结果。它们使用上下文变量来学习不同行为（如步行和跑步）的单一策略。作为后续工作，[32]提出通过变分自动编码器（VAE）学习上下文变量图二、概述我们提出的姿态估计管道。3方法为了实现我们的目标，估计一个物理上有效的3D身体姿态序列的个人使用视频采集头戴式摄像机，我们提出了一个两步模仿学习技术，利用运动捕捉数据，一个人形模型和物理模拟器。如图2所示，在我们的第一阶段，我们的使用Cexpertpoliecies{πc}C的线性集来保证dd空间，6Y. Yuan和K. 北谷其中的每一个表示特定类型的人类行为，例如，步行或跑步。在第二阶段中，从C策略中的每一个生成人形的虚拟演示，包括人形的状态和动作序列，以及由人形的摄像机捕获的虚拟自我中心视频序列. 在此基础上，我们再次使用模仿学习来学习视频调节策略，该策略可以将以自我为中心的视频特征直接映射到生成姿势序列的关节力矩。图三.左：人形模型。绿色箭头示出了提供给策略和鉴别器的从根到脚、头和手的3D向量。右图：使用人形模型制作动画的运动捕捉数据中跑步和行走剪辑的选定关键帧。人形模型。通过设计，我们的底层控制策略假设可以在虚拟环境中致动的预定义的人形模型（参见图3）。我们使用的人形模型由31个刚体，56个铰链关节和63个自由度（DoF）。所有铰链接头都可以被致动并且具有扭矩极限和范围极限。接头还具有诸如刚度和阻尼的物理性质。这里需要注意的是，人形机器人的精心设计对于解决从以自我为中心的视频中进行姿势估计的约束不足问题至关重要，因为模型必须与人体足够相似，以便物理模拟与真实的人体运动相匹配。人形控制政策。通常使用马尔可夫决策过程（MDP）来模拟控制对系统动态特性的影响在我们的场景中，给定人形模型，我们可以将人（oid）运动公式化为MDP的输出，其中假设任何给定的3D身体姿势序列由从MDP导出的最优策略生成MDP由元组M=S，A，P，R，γ定义，其中S是状态空间，A是动作（或控制）空间，T是状态转换动态，γ是折扣因子，R是通常在状态和动作空间上定义的奖励或成本函数在我们的公式中，状态s表示人形机器人的状态，并且可选地表示以自我为中心的视频（我们的学习任务的第二步人形机器人的状态z由姿态p和速度v组成。姿态p包含根部的位置和方向以及56个关节角度。速度v由基于模仿学习的三维自我姿态估计7c=1i=1i=1i=1根部的线速度和角速度以及关节速度。该动作由所有致动铰链接头的接头扭矩组成人类活动的动力学不是由P（st+1）决定的|st，at）（i.e. ，然而，控制器或动作会影响姿态转换），这由模拟环境（我们使用MuJoCo模拟器[30]）确定。给定MDP的解是最大化预期收益的最优策略π 我们使用π（a|s）表示策略，当代理处于状态s ∈ S时，该策略输出选择动作a ∈ A的概率。我们使用多元正态分布来对策略π进行建模，其中平均值和对数标准差由神经网络参数化。在我们的最后一个任务中，我们想要学习一个视频调节策略，该策略映射人形状态z和以自我为中心的videoVi：Ttoj〇ntorques，以建立一个人形的三维姿态方程。在下文中，我们描述了用于学习该视频调节策略的两步模仿学习方法3.1阶段1：数据生成而不是直接生成虚拟自我为中心的POV视频使用运动捕捉数据，我们建议首先学习一组专家控制策略模仿人类的行为，从运动捕捉数据，然后使用专家策略为自我为中心的视频生成。这提供了两个优点。首先，运动捕捉数据往往是嘈杂的，我们的人形模型不能完美地匹配真实的人体运动序列。相比之下，从运动捕捉数据中成功学习的专家策略可以生成无噪声且可由我们的人形模型实现的姿势序列。第二，模仿学习过程解决逆动力学问题（即，控制策略π（a|s）是从观察到的状态转换动力学p（s′）学习的|s）），并且该策略提供了用于生成新颖的姿势序列和以自我为中心的视频的联合扭矩，我们稍后将展示学习视频调节策略所需的联合扭矩。我们的第一个选择是一个expertpolices{πpc}C从运动捕捉数据使用生成对抗模仿学习（GAIL）以下Merel等人。[11]第10段。每个专家策略代表特定类型的人类行为。在该阶段，MDP的状态s只是人形z的状态，因为不涉及视频输入。与GAN类似，GAIL的损失函数采用以下形式：（θ，φ）=EzResntedbyyexpertemonstrations{zi}N. 在此，政策如下用于收集样本{zi}M和奖励{ri}M.使用这些样品和奖励，策略梯度方法（例如，，TRPO [22]，PPO [23]）来更新策略，从而降低了损失率。一旦生成器更新完成，我们还需要更新示例以区分生成的示例和专家演示。正如Merel等人所认为的那样。[11]，使用人形机器人的完整状态z表现不佳，因为我们的简化8Y. Yuan和K. 北谷i=1i=1不c=1i=1iˆˆi=1kˆ算法1视频条件生成对抗模仿学习输入：Setofexpertdemonstrations{τi}N输出：学习策略π θ（α）|z，V1：T）随机初始化策略πθ和鉴别器Dφ重复//执行生成器更新k在1。. . N是否Sampleanexperttrajetoryτkfrom{τi}NC〇nditionedonVk，executepol icpoleerner1：Tk计算奖励rk=− log、、、1−Dφ（zk，Vk）-α||pk−pk||2 +β不端t1：Tkt t通过策略梯度方法更新θ（例如TRPO，PPO）使用奖励{rk}//执行鉴别器更新对于1中的j。. . Jdo Σ（φ）=1ΣN1千吨k日志、1−D（zk，Vk，1ΣT日志，，ΣD（z）k，VkN k=1Tt=1φt1：T（）+φ不）KK用梯度法更新φ。（φ）端直到达到最大迭代次数Tkt=11：Tk人形模型不能完美地匹配真实的人。因此，我们仅使用人形机器人的部分状态表示作为策略和策略的状态输入z。我们的具体实施例包括根的线和线上的所有位置与根定向框架、根的向上方向以及从根到每个脚、每个手和头部的3D位移矢量轴对齐，我们还将根坐标中头部的方向添加到GAIL的部分状态中，以Le rannurhedm otions. Afterwetrainexpertpolies{πc}C使用GAIL，experttrajectt或ies{τi}N不同的胡-manbehaviors，whereeeachexperttrajectoryτcontainsastatesequencezi，1：Tianactionsequenceai1：Ti anddavirtualego centricvideosequenceVi. 1：Ti3.2阶段2：自我姿态估计使用experttajectt或ies{τi}N在第一阶段产生的，我们现在可以L earnav i de o-cond i t i nepoliCyπθ（a|z，V1：T），其中我们提供了在算法1中概述的并行遗传算法（VGAIL）。因为我们只关心动议的摄像机，我们从以自我为中心的视频中提取光流，并使节点过载以使用光流，因为V i deom ot i onfeaturesV1：T。在该图中，MDP的状态s是人形机器人的状态z和例如随机流V1：T的组合。VGAILOSBECOMES（θ，φ）=EzΣ日志.ΣΣ1−Dφ（z，V1：T）+EzΣ。logDφ.z，V1：TΣΣΣ.（二）W e us e V？1：在专家演示中，我们将根据每个实例的具体情况来确定策略。在GAIL中，专家演示是一组专家状态{zi}的人力资源和人力资源成本被分散。在VGAIL中，xperttemonstexpertajes{τi}的ex p erte m onstees t es t e e s t es tesexperttrajecttoryτcontaingastateqencesk1：Tk （posespk1：Tk 和速度K基于模仿学习的三维自我姿态估计91：Tkˆˆc=1vk，anactionsequenceak anddavideosequenceVk. 这是两个版本1：Tk1：Tk1：Tk效益首先，由于我们希望策略生成的姿势序列pk以匹配在xxpertpseence中，我们使用xpertpseencepk1：Tk 来增强重新编写了一个附加的分布式组件，||pk−pk||2，其中使用L2。t t规范，以实现位差。因此，我们可以使用该活动队列分析1：Tk使用行为克隆[15]对策略进行预训练，这显著加速了VGAIL的奖励是rk=−log .1−Dφ（zk，VkΣ）−α||pk−pk||2+β，（3）t t1：Tk t t其中，该模拟具有良好的协同效应，并且该模拟是基于一个模拟场景（如果人形物体倒下，则该模拟场景将结束）。在我们的实现中，α和β分别设置为3.0和5.0我们再次使用3.1节中讨论的类人机器人的部分状态作为类人状态z提供给策略和鉴别器。如图4（底部）所示，对于策略和鉴别器网络，我们使用CNN来提取视觉运动特征并将其传递到双向LSTM以处理时间信息，并且遵循LSTM的多层感知器（MLP）输出动作分布（策略）或分类概率（discriminator）。在所述给定的约束条件下，约束概率为πθ（α|z，V1：T）是已知的，给出了具有可选流V1：T和人形机器人的初始状态的相应动作序列，我们在物理模拟器内执行策略πθ，并且总是选择平均动作来生成视频的相应姿势序列。3.3初始状态估计和域自适应直接使用的视频调节的政策对真正的自我中心的视频数据将导致失败的原因有两个。首先，在没有用于可靠地估计人形机器人的初始状态Z1其次，从虚拟世界中的光流（方格地板和天空盒）中学习的视觉特征通常与真实自我中心视频中的环境非常不同，因此该策略无法准确地解释光流。我们提出了两个重要的技术，使姿态估计与现实世界的视频数据。初始状态估计我们建议学习一组状态估计器{fc}C，其中，refc映射一个最优流V1：Ttoitscorrespondingstatesequationz1：Tanddislearnedusingxpertrajectoriegeratedbyexpertpolicyπc。该时间表可以通过fc（V1：T）t来实现。如图4（底部）中的网络图所示，f c被实现。来自光流的视觉运动特征由CNN提取，并在进入多层之前传递到双向LSTM感知器（MLP），其进行状态预测。我们用均方误差作为损失，其形式为l（ψ）=1ΣT||f（V ）−z||2，其中ψ为cTt=1c1：T t tfc的参数我们可以通过基于SGD的方法得到最优的fc的10Y. Yuan和K. 北谷状态估计器用于下面描述的策略微调步骤中的初始状态估计。政策微调。我们的模仿学习框架允许我们对测试数据进行微调（当然不需要任何地面真实姿势数据）。该微调步骤本质上是强化学习步骤，其使概率k适应于虚拟输入V1，同时最大化用于优化训练数据分布的优化。为了利用策略梯度方法来改进和调整策略，我们需要一个奖励函数和一个初始状态估计。我们定义了一个奖励函数，这将有助于确保微调策略生成与训练数据相似的姿势序列给定测试视频的可选流V1：T，fin-tuning重新定义rt=−log（1−Dφ（zt，V1：T））+ξ，（4）其中reξ是一个“living”bom u s（s et to 0. 5在我们的实施例中）。可以使用上述状态估计器通过求解以下优化问题来获得初始状态估计：c*，b*=arg maxEz=f（VΣΣT），aπΣγt rt 、（五）c =1…C，b =1…101C1：TB不θt=1其中c*是最优估计器的索引，并且b*是最优开始帧偏移。该步骤使我们的方法能够通过最大化期望回报来找到最佳初始状态估计fc*和最佳开始帧b*，其中期望回报可以通过从视频调节策略中采样轨迹来估计。然后，我们通过根据初始化的t∈f（V1：T）b*对概率的轨迹进行采样并使用等式4计算重新计算来执行微调。我们采用策略梯度方法（例如、PPO [23]）来使用采样的轨迹和奖励更新策略。4实验装置为了评估我们的方法从以自我为中心的视频中获取具有物理有效性的姿态序列的能力，我们在两个数据集上测试了我们的方法。第一个是使用我们在第3.1节中学习的相同专家策略的合成数据集。合成数据集将允许我们评估3D姿态估计和控制动作的准确性，因为我们可以通过模拟器访问地面实况。第二个数据集由不同人行走和跑步的真实世界第一人称视频我们的目标是通过域适应和真实世界的视频初始姿态估计来显示我们的然而，评估是基于使用第二静态相机的关节位置的2D投影的基线。我们将我们的方法与两个基线进行比较：1. 姿势回归：从视频运动特征到姿态的直接回归。与第3.3节中的初始状态估计类似，姿态回归学习a基于模仿学习的三维自我姿态估计11不动作分布分类概率MLP状态MLP状态状态估计MLPBi-LSTMCNN光流. . .Bi-LSTMCNN光流. . .Bi-LSTMCNN光流. . .策略网络鉴别器网络状态估计网络见图4。上图：人形机器人由于初始状态估计错误而倒下。中：在20次迭代的微调之后，策略可以生成正确的步行估计。底部：策略、鉴别器和状态估计器的网络架构。所有三个网络都采用相同的架构来处理光流：使用具有核大小为4和步幅为4的三个卷积层的CNN，并且其隐藏通道的大小为（32，32，8），并且双向LSTM用于从CNN特征中提取时间信息。对于策略和鉴别器，我们将LSTM输出与人形状态z连接起来，并将其传递给具有隐藏大小（300，300，200，100）的MLP，该MLP输出动作分布（策略）或分类概率（鉴别器）。对于状态估计网络，LSTM输出被传递到具有隐藏大小（300，300，200）的MLP，其输出状态估计。映射从逻辑流程V1：T到存储器恢复到差分方程1：T。两个网络的结构与图4（底部）中的两个网络的结构相同，除了最终输出是姿势而不是状态。2. 路径姿态：Jiang和Grauman [7]提出的方法的改进。该方法将一系列平面单应性映射到姿态，并利用时间条件随机场（CRF）平滑来估计姿态序列。我们不使用静态场景线索作为原始工作，因为我们的训练数据是合成的。这两种基线都不对它们的解施加任何物理约束，而是试图直接估计身体姿势。评估指标。为了评估所有方法的准确性和物理可靠性，我们使用基于姿势和基于物理的指标：1. 姿势错误：基于姿势的度量，测量欧几里得距离是-tw e e e n e rat e dpoΣs es e qu e n ce p1：T和t e ru e p ose e qu e n ce p？1：T。It可以计算为1不t=1 ||二、||2.2. 2D投影误差：用于真实世界数据集的基于姿势的度量，其中人的地面实况3D姿态序列是未知的。我们使用侧视虚拟相机将我们估计的姿势的3D关节位置投影到2D图像平面中。2D投影误差可以计算为12Y. Yuan和K. 北谷不不TG1ΣTΣJ||qj−qj||什么是QJ是我们的关节的TJt=1j=1t t2 t这是一个很好的解决方案，并且qj是一个很好的解决方案。我们使用OpenPose[3]从侧视视频中提取地面实况2D关节位置。为了符合OpenPose，我们只评估12个关节（臀部，膝盖，脚踝，肩膀，肘部和手腕）。对于我们的方法和OpenPose中的2D姿势，我们将它们的臀部中心位置对齐，并缩放2D坐标，使肩膀和臀部之间的距离等于0.5。3. 速度误差：基于物理的度量，用于测量欧几里得距离b e tw e nge n e rat e dv e loΣcityys e qu e n ce v1：Tandtru e v e locityys e qu e n cev1：T. It可以计算为1不t=1 ||二、||2. vtcanbeapproximatedby（pt+1−pt）/husingfinitdifferencemedhehistepiscmedhehistet用同样的方式。4. 平滑度：基于物理的度量，使用关节的平均幅度加速存储，因为它是通用的动态队列的最小值。It可以计算为1不t=1 ||其中G是致动的DoF的数量||1where G is the numberof actuated DoFsand dat can beeap proximatedbyy（vt+1−vt）/h.4.1实施细节动作捕捉数据和模拟。我们使用CMU图形实验室运动捕获数据库来学习专家策略，如第 3.1 节所述人形机器人的构造类似于DeepMind控制套件中的CMU人形模型[28]并对关节刚度、阻尼和扭矩极限进行微调我们从运动捕捉数据的4个片段（0801、0804、0807、0901）中学习4个专家策略，其对应于三种步行风格（慢速、正常、快速）和一种跑步风格物理仿真环境具有6.67ms的仿真时间步长和33.3ms的控制时间步长（在5个仿真步骤之后控制改变）。模仿学习参数。视频调节策略使用行为克隆预先训练100次迭代。在VGAIL中，在每次迭代中，策略生成具有50k时间步的总批量大小的样本轨迹。我们对状态输入进行在线z滤波以进行归一化。每个操作维度的标准差初始化为0.1。奖励被裁剪为最大值10，优势被归一化。对于策略优化，我们使用具有0.2裁剪阈值的邻近策略优化（PPO [23]）。贴现因子γ为1。策略和鉴别器的学习速率分别为5e-5和1 e-5，其中鉴别器在内部循环中更新5次。我们在6000次迭代后终止训练，以防止过度拟合。当微调策略时，我们将批处理大小减少到5k，并且在GTX 1080Ti上每次迭代大约需要2秒。5虚拟世界验证我们首先在使用第3.1节中学习的专家策略生成的测试数据集上评估我们的方法。该数据集由20个轨迹组成，每个轨迹长100个时间步长。该策略针对每个序列进行了20次迭代的微调基于模仿学习的三维自我姿态估计13平滑度速度误差位姿误差我们11.98766.51430.9779位姿回归36.16289.06110.8310路径姿势[7]198.650945.01891.7643平滑度速度误差位姿误差我们11.98766.51430.9779Ours-IE12.24727.53371.2219我们的GTI12.29686.07610.6688平滑度二维投影误差我们11.540.1325位姿回归44.110.1621路径姿势[7]214.210.1738表1.上图：虚拟测试数据集上基于姿势和基于物理的指标的结果中：消融研究。（Ours-GTI）我们的方法与地面实况初始状态。（我们的- IE）我们的方法在微调之前具有估计的初始状态。底部：基于物理和基于姿势的度量在真实世界数据上的结果。图五.真实世界数据集的定性结果。（a）（d）我们的方法（黄框）;（b）（e）位姿回归;（c）（f）路径位姿[7]。黄色和橙色骨骼分别对应于左臂和左腿14Y. Yuan和K. 北谷表1（顶部）示出了我们的方法与两个基线（姿态回归和路径姿态）的比较。我们观察到，我们的方法在基于物理的指标（加速度和速度误差）方面优于基线，并且姿态估计相当准确。消融研究。如表1（中间）所示，初始状态的准确性在我们的方法中起着重要作用。正如预期的那样，我们的方法与地面真实的初始状态是更准确的比估计的初始状态。这是因为有时人形机器人由于初始状态估计中的误差而跌倒，如图4（顶部）所示。我们的微调方法可以调整策略以从初始状态的错误中恢复并生成更准确的姿势序列（参见图4（中间））。6真实世界确认为了了解我们的方法的真正效用，我们必须评估其在真实世界第一人称视频上的性能。在这个实验中，我们将我们虚拟训练的视频条件策略应用于真实视频数据，并表明我们的方法能够估计准确和物理有效的姿势序列。由于我们无法获得记录自我中心视频的人的真实3D姿势，因此我们使用辅助静态相机（第三人称POV）来测量基于关节位置的2D投影的姿势估计的误差。我们评估我们提出的方法12个视频序列组成的3个不同的人进行步行活动和跑步活动，在户外和室内场景。每个以自我为中心的视频长3-7秒，由头戴式GoPro摄像头拍摄。对于每个序列，策略被微调50次迭代。如表1（底部）所示，我们的方法估计更平滑（3.8x，18.5x）的姿态序列，并且在2D投影误差方面也更准确图5显示了我们的方法与两个基线的定性比较。7结论我们提出了一个物理接地的方法，自我姿态估计，学习视频条件的控制策略，以产生的姿态估计在物理模拟。我们评估了我们的方法在模拟数据和现实世界的数据，并表明我们的方法显着优于基线方法在基于物理的指标，也是准确的。我们的实验也证明了我们提出的微调方法的有效性域自适应合成到真实数据。我们相信，我们的工作是第一批开辟新研究方向的工作之一，这些方向考虑了物理学在理解计算机视觉中人类运动方面的作用。谢谢。这项工作部分由JST CREST（JP-MJCR 14 E1）和IARPA（D17 PC 00340）赞助。基于模仿学习的三维自我姿态估计15引用1. Agarwal，A.，Triggs，B.：基于相关向量回归的人体轮廓三维姿态估计计算机视觉与模式识别，2004年。CVPR 2004。 2004年IEEE计算机集成电路会议录。 vol. 第2页。我-我。02The Dog（2004）2. Arikan ， O. ，结果表明， D.一、O'Brien ， J.F.：Motionsythesisfrommannotations.在：ACMTransactionsonGraphics（TOG）。 vol. 第22页。 402-408 ACM（2003）3. Cao，Z.，Simon，T.Wei，S.E.，Sheikh，Y.：利用局部仿射场进行实时多人二维姿态在：CVPR中。卷1，p.2017年74. Ho，J.，Ermon，S.：生成对抗模仿学习。在：神经信息处理系统的进展。pp. 45655. Holden，D.，Komura，T.，Saito，J.：用于字符控制的相位函数神经网络ACM Transactions on Graphics（TOG）36（4），42（2017）6. Hwang，B.，Jeon，D.：一种精确估计人的肌肉力矩的方法，通过力矩序列来实现。Sensors15⑷，83377. 江，H.，Grauman，K.：看不见的姿势：从以自我为中心的视频中估计三维人体姿态。arXiv预印本arXiv：1603.07763（2016）8. Li，C.，Kitani，K.M.：以自我为中心的手部检测的虚拟探针模型推荐。在：IEEE国际计算机视觉会议论文集中。pp. 26249. Li，C.，Kitani，K.M.：以自我为中心的视频中的像素级手部检测。在：Proceedings的IEEE会议上的计算机视觉和模式识别。pp. 第357010. 刘志，Zhu，J.，Bu，J.，Chen，C.：人体姿态估计综述：基于身体部位分析的方法。Journal of Visual Communication and Image Represent32，1011. Merel，J.，Tassa，Y. Srinivasan，S.，美国，Lemmon，J.，王志，韦恩GHeess，N.：通过对抗性模仿从运动捕捉中学习人类行为。arXiv预印本arXiv：1707.02201（2017）12. Ng，A.Y.，拉塞尔，SJ等：逆强化学习算法。In：Icml. pp. 66313. Peng，X.B.，Berseth，G. Van de Panne，M.：使用深度强化学习的地形适应性运动技能。 ACM Transactions on Graphics （ TOG ） 35 （ 4 ）， 81（2016）14. Peng，X.B.，Berseth，G. Yin，K.，Van De Panne，M.：Deeploco：使用分层深度强化学习的动态推理技能。ACM Transactions on Graphics（TOG）36（4），41（2017）15. Pomerleau，D.A.：自主神经网络的有效训练。NeuralC〇mputt〇 n3（1），8816. Ren，X.，Gu，C.：图形-背景分割提高了以自我为中心的视频中的处理对象识别。 In ： Computer Vision and Pattern Recognition （ CVPR ）， 2010IEEEC〇nferenceon. pp. 3137-3144 02The Dog（2010）17. Rogez，G.，Supancic，J.S.，Ramanan，D.：使用以自我为中心的工作空间的第一人称姿势识别。In：Proceedings of the IEEE conference on computervision andpatter nrecognition. pp. 432518. Ross，S.，Bagnell，D.：用于模仿学习的有效约简。第十三届人工智能与统计国际会议论文集。pp. 第66119. Ross，S.，戈登GJ Bagnell，D.：将模仿学习和结构化预测简化为无遗憾在线学习。In：International Conference on Ar-tificialI ntenceee ndStatis ics. pp.62716Y. Yuan和K. 北谷20. Russell ， S. ：不确定环境下的学习代理。 In ： Proceedings oftheeleventhehan nual connferenceo nComputatonallea rng theeory.pp. 101ACM（1998）21. Sarafianos，N. Boteanu，B.，Ionescu，B.，Kakadiaris，I.A.：3D人体姿态估计：文献综述和协变量分析。Computer Vision andImageUnderstanding152，122. Schulman，J.，Levine，S.，Abbeel，P.，Jordan，M.，Moritz，P.：信任区域策略优化。第32届国际机器学习会议论文集（ICML-15）。pp. 188923. Schulman，J.，Wolski，F.，Dhariwal，P. Radford，A.克里莫夫，O.：近似策略优化算法。arXiv预印本arXiv：1707.06347（2017）24. Shakhn

下载后可阅读完整内容，剩余1页未读，立即下载