没有合适的资源?快使用搜索试试~ 我知道了~
6417Neural MoCon:用于物理上合理的人体运动捕捉的神经运动控制王步珍*中国东南大学摘要由于视觉模糊性,单目人体运动捕捉的纯运动学公式通常在物理上是不正确的,生物力学上是不可信的,并且不能重建精确的交互。在这项工作中,我们专注于利用高精度和不可微的物理模拟器,将动态约束的运动捕捉。我们的核心思想是使用真实的物理监督训练的目标姿态分布之前,基于采样的运动控制,以捕捉物理上合理的人体运动。为了获得精确的参考运动与地形的交互采样,我们首先引入了一个基于SDF(有符号距离场)的交互约束,以执行适当的地面接触建模。然后,我们设计了一种新的两分支解码器,以避免来自伪地面实况的随机误差,并使用不可微物理模拟器训练分布最后,我们从当前状态的物理特征与训练的先验和样本满意的目标位姿回归的采样分布,以跟踪估计的参考运动。定性和定量的结果表明,我们可以得到物理上合理的人体运动与复杂的地形相互作用,人体形状的变化,和多样化的生物。更多信息可以在www.yangangwang.com/papers/HBZ-NM-2022-03.html上找到1. 介绍近年来,无标记运动捕捉技术得到了长足的发展,其应用范围从角色动画到人机交互、个人健康和人类行为理解等。大量现有的工作可以从单目运动学上捕捉准确的人体姿势*通讯作者。电子邮箱:yangangwang@seu.edu.cn。这项工作得到了中国国家重点研发计划基金2018YFB1403900、国家自然科学基金(编号:62076061)、“中国科协青年精英资助计划”(编号:YES20200025 ) 和 东 南 大 学 “ 至 善 青 年 学 者 ” 计 划 ( 编 号 :2018YFB1403900)的部分支持。2242021R41083)。图1.我们的方法通过神经运动控制从单目RGB视频中捕获物理上合理的人体通过网络回归的视频和图像[22,25,26,66,67]或优化[6,38,41,51]。然而,由于一系列不满足生物力学和物理可接受性的伪像(例如,抖动和地板穿透)。为了提高运动质量和物理可扩展性,一些工作集中于使用基于物理的约束来捕获人体运动[42,46,47,53,57]将物理定律作为软约束纳入数值优化框架并减少伪影。为了使优化易于处理,他们只能采用简单和可微的物理模型,这可能会导致很高的近似误差。其他方法[40,60,63]利用具有深度强化学习(DRL)的不可微物理模拟器然而,训练一个理想的策略需要复杂的配置[1,5,31],并且它可能对环境变化敏感[39,60]。上述限制使得它们不可行的估计与场景交互的人体姿势然而,运动控制,通常是基于采样的方法[35],在再现高度动态和杂技运动方面取得了令人印象深刻的性能,并且对接触丰富的场景具有鲁棒性,这为基于一般物理的运动捕捉提供了一种方法。在本文中,我们的目标是构建一个基于物理的运动6418捕获框架,更一般的复杂地形,形状变化,以及沿着基于采样的运动控制的不同行为。然而,在单目运动捕捉任务中采用基于采样的运动控制面临着几个挑战。首先,传统的基于采样的方法[33,35]通常跟踪来自商业运动捕捉系统的准确参考运动,而来自单目RGB视频的估计运动是有噪声的并且在物理上是不可信的。不准确的接触导致不自然的姿势,甚至会导致角色的不平衡状态。其次,它是复杂的,以找到一个最佳的抽样分布。虽然CMA(协方差自适应)[11]被证明能够通过黑盒优化[33]调整分布,但它需要评估大量样本进行分布自适应,这是耗时的。此外,依赖于来自初始分布的随机样本的自适应强加了运动捕获的不确定性。为了克服这些障碍,我们的核心思想是在物理监督之前训练运动分布。先验知识为基于采样的运动控制提供了可行的解决方案我们首先引入了一个人-场景交互约束,以获得一个参考运动与适当的接触采样。与现有的检测脚-地面接触状态的工作[42,47]不同,我们提出的交互约束通过SDF调整两个断开网格之间的距离,强制人体模型接近地面表面。然后,我们尝试训练编码器以回归具有KL发散(Kullback-Leibler发散)和来自CMA的伪地面实况的分布。然而,对于相同的角色状态和参考位姿,CMA方法得到不同的分布,从而CMA的随机误差导致网络发散和错误的回归。因此,我们提出了一种新的双分支解码器来解决这个障碍。如图3所示,从估计的分布中采样的目标姿态被馈送到物理分支中以验证有效性。由于模拟器是不可微的,我们使用输出来监督姿态解码器,并强制其将目标姿态转换为类似模拟器的动态姿态。此外,来自参考姿态的重构损失被应用于经解码的姿态以促进正确的分布编码。当编码器是收敛的,我们用它来编码分布和采样目标姿态的物理分支捕捉物理上合理的运动。本工作的主要贡献总结如下。• 我们提出了一个明确的基于物理的运动捕捉框架,更一般的复杂地形,身体形状的变化,和不同的行为。• 我们提出了一种新的双分支解码器,以避免随机误差,并利用不可微的物理模拟器训练分布先验。• 我们提出了一种基于SDF的交互约束,以从复杂的地形场景中捕获准确的人-场景接触。2. 相关工作基于物理的动作捕捉。VideoMocap [53]首先通过联合优化人体姿势和接触力,在运动捕捉中使用物理约束,这种方法需要人工干预才能获得满意的结果。在[53]、[32]和[42,47,64]的基础上,分别进一步考虑对象交互和运动姿态估计最近,Shimada等人。[46]提出了一种基于神经网络的方法来估计地面反作用力和关节力,并使用导出的加速度更新角色的位姿。为了使优化问题易于处理,他们的方法只能采用简单的、可微的物理模型和有限的约束条件,这导致了很大的近似误差。为了解决这个问题,一些最新的作品[40,60,62,63]采用DRL来实现基于不可微模拟器的运动捕捉。尽管如此,训练一个理想的策略需要复杂的推理[1,5,31],并且它可能对运动类型和体型变化敏感[39,60]。Vondrak等人[50]直接使用轮廓来构造字符-图像一致性以训练状态机控制器。然而,这种方法只能推广到各种运动,恢复的运动似乎是不自然的。在这项工作中,我们采用神经运动控制来捕捉运动,而不是DRL。有了训练好的分布先验,我们的方法对不同的地形交互、人体形状变化和不同的行为更通用基于物理的角色控制。基于物理的角色控制是一个长期存在的问题[28,29,45,49,54,55]。早期的工作依赖于倒立摆模型[21],被动动力学行走[27]和基于零力矩点的轨迹生成[12]可以处理简单的运动。为了解决大自由度(自由度)模型,基于优化的方法[23,30,48,56]被广泛用于模拟和分析人体运动。然而,它需要大量的计算工作来处理一个复杂的运动。其他方法[3,59]近似于实际的人类控制系统,可以产生正常和病态的行走运动。这些基于控制的方法可以推广到各种技能[3,33- 35,59 ],但需要一组超参数来调整所最近的作品采用DRL来控制物理特性[28,39,58]。这表明,当提供运动捕捉数据作为参考时,DRL可以实现高质量的运动[39]。课程学习促进DRL,6419图2. 概况. 我们的方法首先从单目RGB视频(a)中估计具有准确的人类场景交互以及人类形状的参考运动。然后,先验回归来自身体特征的状态和参考姿势的分布以采样目标姿势(b)。物理模拟器用于获得每个样本的物理上合理的姿态(c)。具有最低损耗的样本被采用并用于样本评估(d)之后的下一帧。学习更复杂的任务[58]。然而,训练一个最优策略需要大量的低级和高级设计决策,这会强烈影响最终代理的性能我们遵循基于采样的运动控制[33,35]来构建一个通用框架。此外,我们提出了一种基于网络的分布先验,以避免耗时的分布自适应,并提高其方法的稳定性。3D人体与场景交互。通过场景交互对三维人进行建模,将促进对人类行为的计算理解,这对虚拟世界及其相关应用具有先前在场景标记[19],场景合成[8],启示学习[10,24]和对象排列[20]中的工作验证了人类背景有助于场景理解。场景几何的先验知识也可以促进更合理和准确的[13,15,43,44]根据场景几何形状和人体部位之间的关系生成具有交互作用的人体运动。[37]进一步利用这种关系从视频中恢复交互。为了明确使用场景信息来提高姿态精度,[14]在优化中制定了两个约束,[65]还采用了基于优化的方法,并提出了一种平滑之前,以提高运动质量。然而,软约束的数值优化很难避免像穿插,这是主要关注的人的场景重建的伪影。相比之下,我们的方法依赖于物理模拟器[4]来提供硬物理约束。通过基于网络的分布先验,我们的方法可以通过神经运动控制获得精确的地形交互。3. 方法我们提出了一个具有不可微物理模拟器的框架[4],以捕获物理上合理的hu。人的动作。我们首先描述我们的运动学和动力学特征的表示(第二节)。第3.1节)。然后,设计交互约束以获得具有适当接触信息的参考运动(第二节)。3.2)。此外,我们引入了一个分布先验训练与一个新的两个分支结构的神经运动控制(节。3.3)。最后,我们回归一个分布,并采样满意的目标姿态来跟踪估计的参考运动(第二节)。第3.4段)。3.1. 预赛表示.运动学运动用SMPL模型表示[36]。为了在物理模拟器中表示不同的人体形状,我们将物理角色设计为具有与SMPL相同的运动学树根据SMPL参数的估计,可以直接得到角色的骨骼长度和链接形状我们固定一些骨骼关节,使其具有57个自由度。角色的状态表示为s=(q,qstec),其中q和qstec分别是姿态和速度。该模型的细节可在补充材料中找到基于采样的运动控制。我们简要回顾了基于采样的运动控制方法[35],以促进对我们方法的理解。运动姿态qt被用作参考,并且我们希望物理角色经由PD控制(比例导数)动态地跟踪参考姿态。然而,由于运动姿态估计和PD控制器的不准确性采样算法对参考位姿的校正位姿qt进行采样,因此采用目标位姿qt=qt+qt可以补偿差异。样本的质量由损失函数评估。通过选择具有最低损失的样本,我们可以获得物理上合理的运动。更多的细节可以在[35]中找到。6420RT不Σ。Σ2 223.2. 参考运动估计神经运动控制需要参考运动与精确的地面接触来驱动物理角色。为了获得接触信息,以前的工作[47,60]训练网络来估计二进制脚接触状态。然而,没有足够的数据可以用于复杂地形场景中的训练(例如,楼梯和不平坦的地面)。我们通过将基于SDF的交互约束纳入基于优化的框架来解决这个问题具体来说,我们优化了[16]中预先训练的运动先验的潜在代码,以使SMPL模型适合AlphaPose [7]检测到的单视图2D姿势。总体配方为:图3.与传统方法不同(灰色)。我们提出了一个双分支解码器,以避免随机错误从arg min(z,R,T)1:T,βL=L个数据+L个先验+L个场景,(1)CMA-ES方法,并结合实际的物理监测训练分布先验。不可微物理分支模拟其中Zi是每个帧中字符的潜在代码、全局旋转和平移。β是人体形状参数,T是帧长。数据项为:采样结果,并且姿态解码器中间地采用物理信息来优化具有模拟损失和重建损失的先验运动控制 以前的作品[33]使用(μW,λ)-CMA-L数据=Σt=1σtür.吉尔特河-pt¨、(二)ES方法[11]实现分布自适应。然而,自适应算法的耗时和随机误差使得其在运动捕捉中难以发挥作用其中p、σ是2D位姿,并且它们的对应的构象为:dence. j是模型关节位置。我们进一步添加正则化项:不L先验=<$β<$+<$zt<$+<$zt+1−2zt+ zt−1 <$ 。t=1(三)由于深度模糊性,恢复的3D人可以漂浮在空中或穿透地面网格,只有上述约束。利用这样的参考运动,模拟结果是不自然和不正确的。为了从单视图视频中重建更准确的人类场景交互,我们使用[18]生成场景网格的可微分SDF。在优化中,我们按照[14]对预定义脚部关键点的SDF值进行采样,并使用它来构建目标函数:Lscene=ρSDF(λj)λ2,(4)其中λj是k个点的3D位置,SDF是采样操作。我们的优化有四个阶段。由于在前三个阶段中可以获得近似运动,因此我们只在最后一个阶段中应用相互作用项来细化地面接触。为了使我们的方法符合空中运动,我们进一步应用Geman-McClure误差函数ρ[9]来降低远离场景网格的关键点的权重。3.3. 培训前分布找到一个最佳的目标位姿分布是至关重要的用于现实世界的应用。我们建议用基于网络的分布先验来取代这种操作并提高性能。为了训练网络,一个简单的想法是使用CMA结果直接监督分布。给定一对角色状态和参考位姿,我们可以在将数据送入网络之前在线运行CMA或预先用CMA准备伪监督来实际上,这两种策略在实际实施中都是不可行的。对于相同的角色状态和参考姿态,CMA方法获得不同的分布,导致网络发散和错误的回归分别为在线和离线策略。为了解决这个问题,我们提出了一个两个分支的解码器,以帮助训练一个准确的和广义的分布编码器。如图3所示,我们首先在离线CMA的监督下预训练分布式编码器。由于不准确的监督训练的网络参数是不正确的,我们然后引入一个物理分支来验证采样的目标位姿的有效性由于模拟器的不可微性,我们进一步设计了一个姿态解码器,中间采用物理监督来训练分布编码器。具体地,使用具有伪地面真值分布的KL发散来预训练编码器:Lkl=KL(Q(?q?t|st−1,q<$t)<$D(μt,σt)),(5)式中D(μ,σ)为(μW,λ)-CMA-ES法制 备 的 分布,Q(μq)为|s,q=)是估计的距离,以实现物理上合理的运动,用于基于采样的运动估计。为了提高泛化能力,我们采样26421M¨¨22dm−d+js+js-jCoMSIM不¨不té不rec不不¨ 不té2¨¨2- 从所估计的分布校正参考姿态,其被表示为因此,目标姿态为qt=qt+qt。利用实际的物理参数对分布式编码器进行优化通过计算机监控,将采样的目标位姿输入不可微物理模拟器,得到模拟位姿。其中,q_stec和j_stec分别表示角速度和线性速度为了让物理角色保持平衡,我们按照[35]添加一个平衡项来调整CoM(质心):我们设计了一个姿态解码器来模仿物理分支,用模拟的姿势监督它。米2不不m=0��不不2¨ˆ¨L=q−q+j−j,(6)其中,qt,jt和qt,j分别是估计结果和模拟结果的姿态和关节位置。在此外,应用重构损失来实施最优分布编码:L=q−q2+j−j。(七)利用姿态解码器,编码器可以逐渐编码有效分布以在模拟器中采样有效姿态我们还添加了一个正则化项,以确保网络不会轻易过拟合:L reg =1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(八)我们在使用双分支解码器进行训练时减少了KL损失的权重。总损失函数为:Ldist=Lsim+Lrec+λLkl+ Lreg.(九)在我们的实验中,λ为0.2。训练完成后,利用编码器构建神经运动捕捉框架。三点四分。3.4. 运动捕捉与神经运动控制利用训练好的分布先验,通过采样策略跟踪运动学参考运动来捕获人体运动。如图2所示,首先将参考姿态和角色的当前状态馈送到编码目标姿态分布之前。然后,我们采样目标的姿态,并在模拟器中模拟它们。每个样本的质量评估与字符级和图像级的损失函数。具有最低损耗的样本将被用于下一帧。由于参考运动从不均匀的地形是嘈杂的,我们设计了几个损失函数来评估样本质量。首先利用模拟位姿与参考位姿之间的损失来衡量位姿和关节位置的一致性。CoM和M的速度是末端效应器的数量。与DRL不同,我们可以直接使用图像特征来评估样本的质量。通过2D姿态和相应的置信度,图像级损失使我们的方法对遮挡场景更具鲁棒性:Lrep j=σ(jt)− pt。(13)抽样程序的总损失函数为:Lsam=Ltra+Ldyn+Lban+ Lrep j。(十四)最后,在每个帧中具有最低损失的样本由完整的物理上合理的人体运动组成。4. 实验在本节中,我们进行了几个定性和定量的实验,以证明我们的方法的有效性。我们首先在第二节中介绍实现细节和数据集。4.1和SEC。四点二。然后,与最新技术水平的比较见第2节。四点三。最后,在第二节中进行了消融研究。4.4对关键部件进行评价。4.1. 度量使用Procrustes分析(MPJPE-PA)将预测与地面实况严格对齐后的平均每关节位置误差(MPJPE)和MPJPE的共同度量用于评估关节精度。 为了评估物理兼容性,我们使用[47]和[57]中提出的指标来测量运动抖动和脚接触。eS是地面实况运动和预测运动之间的关节速度幅度的差eS及其标准差σS用于评估运动平滑度。ef,z是z轴上的脚部位置误差。我们采用这个指标,Ltra=100-q=2+。(十)评估足部浮动伪影。更多的细节可以在他们的原始文件中找到2Lban=¨、(十二)其中,dm=(jm-j CoM)|z=0,其表示从端部矢量m到CoM的平面矢量。jstecoM是线性的,6422我们发现,字符的动态状态是基于物理的运动捕捉的关键。然后,我们引入动态损失来评估速度一致性:24.2. 数据集Human3.6M[17]是一个大规模数据集,包含360万个3D人体姿势和相应的图像。L达因 =?qstect---“2+”jstec ----斯捷潘té,(11)年龄 根据以前的工作[63],我们训练我们的模型不不6423(a)VIBE(b)幽默(c)DMMR(d)PhysCap(e)SamCon(f)我们2D投影2D侧视图3D姿势3D侧视图2D投影3D姿势2D投影3D姿势图4.与其他方法的定性比较为了公平比较,我们使用具有相应形状变化的字符表示所有结果实验结果表明,该方法可以从单目RGB视频中获得物理上合理和自然的人体运动对5名受试者(S1、S5、S6、S7、S8)进行测试,另1名受试者(S9、S11)以25Hz进行测试。GPA[52]是一个3D人类数据集,具有人类场景交互和地面真实场景几何形状。它利用商业运动捕捉系统来收集数据。序列0,34,52用于测试,其余作为训练数据。与场景几何形状,我们验证了我们的方法在更复杂的地形的性能。3DOH[66]是处理对象的第一个数据集-遮挡人体估计问题,其中包含在遮挡场景中的3D运动我们使用该数据集中的序列13,27,29GTA-IM[2].由于地面实况训练数据有限,我们使用此合成数据集作为额外的人类场景交互案例。从深度图恢复场景网格。我们在这个数据集上进行定性实验。4.3. 与最先进方法的有几种运动学和动力学方法报告了Human3.6M数据集的结果。如图所示表1.与Hu-man 3. 6 M数据集上的最新方法进行比较。我们的方法在物理可扩展性和运动平滑性方面取得了良好的性能。表示基于运动学的方法。在选项卡中。首先,我们在这个数据集上评估了我们的方法,以证明我们的神经运动控制在平地上工作得很好。[16,25,41]是最近的工作,以估计运动SMPL参数。虽然没有考虑人类模型的显式动力学,[16,41]通过VAE学习隐式动力学,并通过使用先验知识提高物理可解释性。Tab中的其他方法。1是基于动力学的方法。具体来说,SamCon [33]是de-方法MPJPEPA-MPJPEeSσSef,z[41]第四十一话97.568.524.225.943.2[16]第十六话96.067.414.412.648.6[25]第二十五话65.941.525.525.734.0[61]第六十一话130.379.2–––[47]第四十七话97.465.17.26.9–SamCon [33]78.463.24.04.320.4[46]第四十六话76.558.24.56.9–Xie等人[五十七]68.1–4.01.318.9SimPoE [63]56.741.6–––我们72.554.63.82.414.46424图5.我们的方法是一般的不同地形的相互作用,人类形状的变化,和不同的行为。结果为Tab。图2和图4表明,我们的基于网络的分布先验可以得到更合适的分布,然后产生自然和精确的运动。在GPA数据集上,我们用复杂地形评估了我们的方法与物体和地形的相互作用给基于运动学的方法带来了很大的困难他们-表2.3DOH和GPA数据集的定量比较我们的方法在复杂的地形场景和遮挡情况下达到了最先进的水平。表示基于运动学的方法。签约动画。我们使用这种方法来跟踪我们的运动学运动,并采用它作为基线比较基于采样的方法。在选项卡中。1,我们发现VIBE实现了最好的性能方面的PA-MPJPE。它依赖于基于GRU的网络来建立不同帧之间的对应关系。然而,直接回归运动SMPL参数会导致最大的平滑度误差,并导致视觉上明显的运动抖动。此外,VIBE在图4中示出了与地面的严重穿透。由于运动捕捉主体和物理特征之间的模型差异,基于动力学的方法的关节位置误差高于基于运动学的方法。SimPoE [63]使用了与人类3.6M受试者形状相似的模型,并获得了与VIBE相当的结果。但是,对于不同的受试者,随着身体比例和形状的变化,这种方法需要重新训练的政策。该方法利用目标姿态因此,我们可以用估计的人体形状来更新物理角色模型的骨骼长度,并直接使用它来从图像中捕获人体运动我们的方法也获得了平滑的运动,并达到了国家的最先进的eS。然后,我们将我们的方法与3DOH数据集上的其他方法进行了比较。对于咬合情况,获得准确的参考运动是棘手的。如图4的第5列所示,对于其他基于物理的方法,不准确的参考运动将导致3D姿态与图像观察之间的大偏差。然而,由于图像级的损失,我们的方法得到了更准确的结果。此外,SamCon还基于采样方法来获取人体运动。的估计姿势漂浮在空中或穿透场景网格的方法(图4)。由于PhysCap使用具有软物理约束的数值优化框架来捕获人体运动,因此结果也显示出物理伪影。GPA数据集的定性和定量结果见图4和表4。2表明神经运动控制更适合于接触丰富的场景。4.4. 消融研究双分支解码器如前所述,在没有两个分支解码器的情况下直接监督分布编码器将导致错误的回归。 在图6和Tab. 3.对两分支译码器前后的分布先验训练结果进行了比较。在没有解码器的情况下,编码器不能回归正确的分布以采样有效的目标位姿,从而导致不满意的模拟位姿。定量结果见表1。3表明,两个分支解码器引起的主要改进,并表明它是我们的方法的最重要的组成部分。分配优先级。我们比较了不同的分布生成方法,以验证我们的分布先验的优越性我们首先将分布编码器替换为具有预定义范围的均匀分布。图6中的结果表明,它不能推广到各种各样的运动类型。如Tab.所示。3.由于CMA方法存在随机误差,因此具有CMA自适应的高斯分布不如分布编码器。相互作用约束。我们进一步进行了几个实验来说明相互作用约束的必要性由于视觉模糊性,很难重建具有复杂地形的准确的人-场景交互(图7)。在选项卡中。3、在GPA数据集上,带交互约束的优化算法得到了更精确的脚位方法MPJPE3DOHPA-MPJPEeSMPJPEGPAPA-MPJPEef,z[16]第十六话102.965.816.2107.087.432.8[25]第二十五话98.161.826.5114.380.636.4[41]第四十一话105.160.621.9117.286.358.7SamCon [33]102.495.49.7104.787.128.36425(a) 不含国际米兰。(b) 带GT参考(c) 运动学(d) 无img丢失(e) 带制服(f) w/ Gau.CMA(h)w/o两个麸皮。(g) 神经MoCon图6.不同组件的消融。(a,d,h)是我们的方法的结果,该方法分别去除了交互约束、图像级损失和两分支解码器。(e,f)用均匀分布和高斯分布代替先验分布。(c)是我们优化的运动学结果,(b)是地面真实参考运动的模拟结果。目前实施的局限性。首先,我们的角色的几何图元之间(a) W/O中间截留弊(b) w/inter. 弊覆盖3D网格接触并且真实的人体使得我们的方法不能重建精确的身体接触(例如,躺在沙发上)。为了解决这个问题,建立一个像[63]这样更精细的角色模型可能是一个可行的方法。其次,不期望的样本的累积误差可能导致无法对长序列进行采样。未来的工作可以在采样中整合长期的时间信息。最后,由于缺乏地面真实地形数据,我们只能在类似的交互上评估我们的方法,比如运动帽的楼梯图7.运动学参考运动的计算方法为-在复杂地形上的交互约束。方法MPJPEGPAPA-MPJPEef,z3DOHMPJPEeS[16]第十六话107.087.432.8102.916.2运动学106.287.227.394.416.5无二分支142.2126.728.4136.813.2带统一分布136.6119.129.6142.110.3不含国际米兰。弊116.4109.424.393.49.4带高斯CMA103.984.423.595.49.8无映像级丢失95.884.421.396.39.7带GT参考93.680.017.389.69.2神经MoCon94.880.321.293.49.2表3.消融研究的定量结果w/o表示移除我们方法中的相应组件。带统一分布和w/Gaussian CMA表示用均匀分布和高斯分布。w/ GT参考使用地面真实参考运动进行神经运动控制。表示基于运动学的方法。此外,不准确的接触严重影响基于采样的运动控制的性能。图6(a)示出了漂浮在空中的参考姿势可以触发不适当的模拟姿势。在有和没有此约束的GPA的方法的结果之间的差距是大于在表3DOH的。3,证明了其在复杂地形下运动捕捉中的重要性。5. 局限性和今后的工作虽然我们的方法可以通过神经运动控制获得物理上合理的人体运动,但仍存在一些问题。真正的任务。因此,构建大规模的人-景交互数据集,用于复杂场景下的人体运动捕捉也是值得的。在 神 经 MoCon 、 基 于 DRL 的 方 法 和 基 于 trans-sampling的运动控制中,DRL可以针对特定任务获得高度准确的结果,而采样控制对于未知场景更通用。神经MoCon介于这两种典型的技术方法之间。结合DRL的准确性和采样控制的泛化能力,可能是未来基于物理的运动捕捉的一个潜在发展方向6. 结论在本文中,我们提出了一个框架来捕捉物理上合理的人体运动与复杂的地形相互作用,人体形状的变化,和不同的行为。我们首先在优化中引入基于SDF的交互约束来估计准确的人-场景接触。然后,设计了一种新的双分支解码器,用于训练具有实际物理监督的分布先验。利用训练后的先验信息和估计的参考运动,利用几个损失函数选择一个满意的样本来组成一个完整的人体运动。该方法比基于DRL的方法具有更好的泛化能力,比传统的基于采样的运动控制方法得到更精确的结果。6426引用[1] MarcinAndrycho wicz , AntonRaichuk , PiotrStan'czyk ,ManuOrsini , SertanGir gin , Rapha eülMarinier ,LeonardHussenot , Matthieu Geist , Olivier Pietquin ,Marcin Michal- ski,et al. What matters for on-policy deepactor-critic methods?一项大规模的研究在ICLR,2020年。一、二[2] Zhe Cao , Hang Gao , Karttikeya Mangalam , Qi-ZhiCai,Minh Vo,and Jitendra Malik.具有场景背景的长期人体运动在ECCV,2020年。6[3] Stelian Coros,Philippe Beaudoin,and Pandelel Van dePanne.广义离散行走控制ACM TOG,29(4):1-9,2010. 2[4] Erwin Coumans和白云飞。Pybullet,一个用于游戏,机器 人 和 机 器 学 习 的 物 理 模 拟 的 Python 模 块 。http://pybullet.org,2016-2021年。3[5] Gabriel Dulac-Arnold , Daniel Mankowitz , and ToddHester. 现 实 世 界 中 强 化 学 习 的 挑 战 。 arXiv 预 印 本arXiv:1904.12901,2019。一、二[6] Taosha Fan,Kalyan Vasudev Alwala,Donglai Xiang,Weipeng Xu , Todd Murphey , and Mustafa Mukadam.3D人体姿态和形状估计的恢复活力优化ICCV,2021。1[7] 方浩树,谢淑琴,戴玉荣,陆策武。区域多人姿态估计。InICCV,2017. 4[8] Matthew Fisher , Manolis Savva , Yangyan Li , PatHanrahan,and Matthias Nießner.以活动为中心的功能性三维场景建模场景合成。ACM TOG,34(6):13[9] 斯图尔特·杰曼。断层图像重建的统计方法。Bull. Int.Stat. Inst,4:5-21,1987. 4[10] Helmut Grabner,Juergen Gall,Luc Van Gool.是什么让椅子成为椅子?CVPR,2011。3[11] 尼古 拉斯 ·汉森 。 cma 演进 策略 :比 较研 究综 述。Towards a new evolutionary computation,pages 75二、四[12] 原 田 健 介 , Shuuji Kajita , Kenji Kaneko 和 HirohisaHirukawa。仿人机器人实时步态规划的解析方法。International Journal of Humanoid Robotics,3(01):1-19,2006. 2[13] Mohamed Hassan,Duygu Ceylan,Ruben Villegas,JunSaito,Jimei Yang,Yi Zhou,and Michael J Black.随机场景感知运动预测。ICCV,2021。3[14] MohamedHassan , VasileiosChoutas , DimitriosTzionas,and Michael J Black.用三维场景约束解决三维人体姿态模糊问题。在ICCV,2019年。三、四[15] Mohamed Hassan 、 Partha Ghosh 、 Joachim Tesch 、Dimitrios Tzionas和Michael J Black。通过学习人机交互填充三维场景。在CVPR,2021年。3[16] 黄步真,袁舒,张天舒,王延刚。动态多人网格恢复从uncalibrated多视角相机。在3DV,2021。四、六、七、八[17] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. Human3.6m:大规模数据集和预测 方 法 , 用 于 自 然 环 境 中 的 3D 人 体 感 知 。 IEEETPAMI,36(7):1325-1339,2014年7月。56427[18] Wen Jiang , Nikos Kolotouros , Georgios Pavlakos ,Xiaowei Zhou,and Kostas Daniilidis.从单个图像相干重建多个人。在CVPR,2020年。4[19] 云江、赫玛·科普拉、阿舒托什·萨克塞纳。把人类当作标记3d场景的隐藏背景CVPR,2013。3[20] Yun Jiang,Marcus Lim,and Ashutosh Saxena.使用人类背景学习3d场景中的物体排列arXiv预印本arXiv:1206.6462,2012年。3[21] Shuuuji Kajita和Kazuo Tani。崎岖地形上动态倒立摆之研究-直线倒立摆模式之推导与应用载于ICRA,1991年。2[22] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik 。 端 到 端 恢 复 人 体 形 状 和 姿 势 。 在CVPR,2018年。1[23] Hyung Joo Kim , Qian Wang , Salam Rahmatalla ,Colby C Swan,Jasbir S Arora,Karim Abdel-Malek,and Jose G As- souline.基于梯度优化的三维人体运动动态规划。生物力学工程杂志,130(3),2008年。2[24] Vladimir G Kim , Siddhartha Chaudhuri , LeonidasGuibas,and Thomas Funkhouser.Shape2pose:以人为中心的形状分析。ACM TOG,33(4):1-12,2014.3[25] Muhammed Kocabas 、 Nikos Athanasiou 和 Michael JBlack。Vibe:用于人体姿势和形状估计的视频推理。在CVPR,2020年。一、六、七[26] Nikos Kolotouros , Georgios Pavlakos , Michael JBlack,and Kostas Daniilidis.学习通过循环中的模型拟合重建3d人体姿势和形状。在ICCV,2019年。1[27] 郭敬明一个简单的双足步行模型预测首选的速度步长关系。J.Biomech.Eng. ,123(3):264-269,2001. 2[28] Kyunho Lee,Sehee Min,Sunmin Lee,and Jehee Lee.学习交互式角色控制的时间关键反应。ACM TOG,40(4):1-11,2021。2[29] Yoonsang Lee,Moon Seok Park,Taesoo Kwon,andJehee Lee. 多肌肉类人机器人的运动控制ACM TOG,33(6):1-11,2014. 2[30] 我是葡萄酒和流行音乐。用于角色动画的物理上合理的模拟在SCA,2012年。2[31] 李玉玺。深度强化学习:概述。arXiv预印本arXiv:1701.07274,2017。一、二[32] Zongmian Li , Jiri Sedlar , Justin Carpentier , IvanLaptev,Nicolas Mansard,and Josef Sivic.从单目视讯估计人-物交互的三维运动在CVPR,2019年。2[33] Libin Liu,KangKang Yin,and Baining Guo.改进基于采样的运动控制。在计算机中。Graph. Forum,第34卷,第415-423页,2015年。二三四六七[34] Liu Liu,KangKang Yin,Zuelvan de Panne,and Bain-ing Guo. Terrain Runner:控制、参数化、合成和规划高度动态的运动。ACM TOG,31(6):154-1,2012.2[35] Libin Liu , KangKang Yin , Michiel van de Panne ,Tianjia Shao,and Weiwei Xu.基于采样的多触点运动控制。在SIGGRAPH,2010. 一、二、三、五6428[36] Matthew Loper 、 Naureen Mahmood 、 Javier Rom
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功