3D场景中的4D人体运动先验学习

11 浏览量更新于2023-10-13 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

113433D场景中4D人体捕捉的运动先验学习张思伟1张燕1费德里卡·博戈2马克·波勒费斯1，2唐思宇11ETHZuürich2 Microsoft{siwei.zhang，yan.zhang，marc.pollefeys，siyu.tang} @febogo@microsoft.com inf.ethz.ch图1：通过利用从大规模mocap数据集AMASS [38]中学习的数据驱动运动先验，我们从单目RGB（D）输入中重建复杂3D场景中的高质量人体运动。与PROX [19]（第一行）相比，我们提出的方法（第二行）稳健地处理遮挡，并实现更准确的运动重建摘要从单目视频中恢复复杂场景中的高质量3D人体运动对于从AR/VR到机器人的许多应用然而，捕捉真实的人-场景交互，同时处理遮挡和部分视图，是具有挑战性的;目前的方法还远未达到令人信服的结果。我们解决这个问题，提出LEMO：学习人类运动先验的4D人体捕捉。通过利用大规模运动捕捉数据集AMASS[38]，我们引入了一种新的运动平滑先验，它大大减少了在序列上恢复的姿势所表现出的抖动。此外，为了处理身体场景交互中经常发生的接触和遮挡，我们设计了一个接触摩擦项和一个通过每实例自监督训练获得的接触感知运动填充器。为了证明所提出的运动先验的有效性，我们将它们结合到一个新的管道中，用于3D场景中的4D人体捕获。通过我们的管道，我们展示了高质量的4D人体捕获，重建平滑运动和物理上合理的身体场景交互。代码和数据可在https：//sanweiliti获得。github.io/LEMO/LEMO.html.1. 介绍恢复日常3D场景中真实的人体运动对于人类行为理解、人-场景交互合成和虚拟化身创建是必不可少的。基于标记的光学运动捕捉系统（mo-cap）具有恢复高精度人体运动的能力。然而，这样的系统需要专业知识和昂贵的设置，使得在他们的日常环境中捕捉人是不切实际的，例如，在人们的起居室、办公室或厨房里录音。最近，PROX [19]已经被提出作为一种轻量级管道，用于从给定预扫描的3D场景几何结构的单目序列中捕获日常的人-场景交互使用价格实惠的商品传感器，如RGB或RGBD相机，可以很容易地扫描场景并记录人类如何移动并与之互动。这表明了一个有前途的设置捕捉大规模的人体运动在日常环境中。然而，如在该作品1中所示，恢复的人的运动表现出严重的滑行和抖动。重建质量远远落后于商业mocap系统所获得的。构建多视图设置或使用附加的可穿戴传感器（例如，惯性测量单元（IMU））可以帮助提高运动重建质量。但是，大多数多视图设置1请在项目页面11344需要在受控环境中仔细校准和同步，并且IMU遭受航向漂移和干扰。此外，由IMU [60]或多视图设置[23]获得的人体运动仍然表现出抖动，并且不如来自mocap系统的运动那么引人注目。为了提高从单目RGBD序列（例如，RGBD序列）重建的人体运动的自然度和准确度。PROX流水线[19]）和缩小单眼RGBD设置和基于标记的mocap系统之间的性能差距，我们认为，利用数据驱动的方法并从高质量的大规模 mocap 数据（例如， AMASS[38]）。为此，我们提出了LEMO（LE arning humanMO priors），其具有两个关键创新：基于标记的运动平滑度先验和接触感知运动填充器，其在自监督模式中按实例进行微调。实验结果表明，LEMO能有效地捕捉人体运动的内在特性，并能对噪声和部分观测进行正则化。结果，重建的人体运动是平滑的、物理上可行的并且对于在日常3D场景中捕获人体运动时不可避免的遮挡是鲁棒的。基于标记的运动平滑先验。由PROX [19]重建的3D人体随着时间的推移具有严重的抖动虽然一些启发式方法，如惩罚关节速度/加速度，可以提高时间平滑度，他们也降低了运动的自然性。如我们的实验中所示，它们可以引入脚底滑冰伪影，并且可能导致无效的身体配置，如关节过伸。为了捕获整体全身动力学，我们使用完全卷积自动编码器以自下而上的方式来聚集局部运动线索，并导出覆盖大的时空感受野的潜在运动模式。然后，我们设计了一个运动平滑度约束，它在这个潜在的空间，而不是直接对身体。为了结合身体形状信息和模型的重要自由度（DoF），例如。关于肢体轴的旋转，如在[71]中，我们通过表面标记而不是身体关节来表示每个帧中的身体。我们在AMASS [38]数据集上学习这种卷积运动平滑如我们的实验所示，所提出的先验不仅显著提高了PROX数据集上的重建质量，而且还提高了基于IMU的3DPW数据集上的运动自然度[60]，表明其有效性和其他运动捕获和重建设置的潜在用途。经由每实例自监督学习的接触感知运动填充器。当捕捉在日常3D环境中移动并与之交互的人类时（例如起居室或办公室），部分身体闭塞几乎是不可避免的。它们对重建算法提出了挑战，导致无效的姿势和脚-地面滑冰假象。通过利用AMASS [38]，我们学习了一种神经模式。所述运动填充器能够在给出部分观察的情况下推断所包括的身体部分的合理运动。我们的网络受到[28]的启发，但超越了以前的工作以联合预测脚接触状态和身体运动。结合由直观物理学激发的接触摩擦项，填充运动是自然的、逼真的并且具有适当的脚-地面相互作用，消除了脚滑行伪影。此外，受[24]的启发，我们提出了一种按实例的网络微调方案。对于包含部分观测值的测试实例（例如在3D场景中，只有上半身运动，因为下半身被沙发遮挡），我们通过最小化在可见身体部位上定义的自监督损失来微调预训练的运动填充网络。通过这种方式，我们有效地将一般运动填充“先验”调整我们进一步仔细地将学习到的运动先验和接触摩擦项组合成用于3D场景中的4D人体捕获的新颖的多阶段优化流水线捐款. 总之，我们的贡献是1）新颖的基于标记的运动平滑先验，其在学习的潜在空间中编码“全身”运动，其可以容易地插入到优化管道中; 2）一种新的接触感知运动填充器，可以通过自监督学习适应每个测试实例; 3）新的优化流水线，其探索用于场景感知人类运动捕捉的学习的运动先验和物理学启发的接触摩擦项。我们广泛地评估所提出的先验和优化管道。结果表明，学习的运动pri- ors和monocular RGBD人体运动捕捉在3D场景中的优化流水线的有效性的广泛适用性2. 相关工作从RGB（D）序列恢复人体运动。人类运动恢复扩展了重建每帧身体3D形状和姿态的问题[2，5，16，17，19，19]。26，32，42，44，53，56，58，66]到帧序列，要求估计之间的时间一致性。许多作品解决了采用基于骨架/关节的身体表示的问题[7，8，11，13，14，29，35，39 -39]。41、45、46、54、63、65、70、73]。使用3D关节而不是表面工作，这些表示不能充分地对身体的3D形状和身体-场景相互作用进行建模。其他工作提出使用参数化的3D人体模型（例如，SMPL [36]）从多视图[12、15、22、25、50、64]获得完整的3D人体网格，或单目RGB（D）序列[10，27，31，34，37，55，67]。Kanazawa等人[27]学习时间上下文表示以预测过去和未来帧中的运动。Kocabas等人[31]使用双向门控递归单元（GRU）11345t=12222--M对每帧图像特征进行时间编码，并将其与对抗鉴别器耦合以区分真实运动和预测运动。Choi等人[10]提出更好地整合过去和未来帧Sun等人[55]引入多级框架以解耦身体骨架和更详细形状和姿势信息。Luo等人[37]提出了一种两步编码方案，其首先通过预训练的运动表示来捕获粗略的然而，这些方法只关注人体运动重建，忽略了人与场景的相互作用。人景互动。Hasler等人[18]通过用多个非同步移动摄像机在3D中重建场景来获得用于身体姿势估计的场景约束。一些作品依赖于物理学启发的误差项（例如接触和碰撞术语[68]）、游戏物理引擎[61]和场景语义标签[51]。与我们相关的是，PROX [19]在非常详细的层面上捕捉人与场景的交互，对SMPL-X身体[44]和3D场景之间的接触和碰撞进行建模。基于这样的接触和碰撞建模，张等人。[69，72]在没有人的场景中以物理上和语义上合理的方式生成人体网格。有过人体运动的前科。在文献[3，4，22，41，43，47，48，52，59]中已经提出了大量用于平滑和自然运动的先验一些先验直接应用于身体关节速度或加速度[4，41]。Akhter等人[3]提出了一种基于离散余弦变换（DCT）的双线性模型沿着这条线，Huang et al.[22]在从多视图输入重建身体运动之前引入DCT。最近的一些工作利用物理模拟来规则化人体运动。Shimada等人[52]假设预定义的虚拟角色作为输入，并通过基于物理的优化将其适配到单目序列。Rempe等人[47]从图像中回归身体关节和脚-地面接触，以进行基于物理学的轨迹优化。Kaufmann等人[28]设计卷积自动编码器以填充未观察到的身体关节的运动并去除噪声。我们和其他人。在我们的工作中，我们设计了一个运动平滑先验和一个运动填充器，并使用它们来重新覆盖RGB（D）视频中的人-场景交互的真实运动。与现有的平滑先验相比，我们的算法使用高质量的AMASS序列进行训练，并在潜在空间中应用平滑正则化。因此，我们可以产生平滑的运动，而不会降低每帧身体姿势的准确性。我们的运动填充器具有与Kaufmann等人类似的架构。[28]，但处理身体标记并预测脚-地面接触状态。由于身体标记更好地约束身体DoF，并且接触状态与身体运动联合学习，因此我们的方法始终优于[28] w.r.t.动议重新和脚滑冰（如第二节所示）4）.与通过从RGB图像检测的2D关节预测接触状态的[47，52]相比，我们共同学习的接触状态与身体动力学更好地耦合。3. 方法3.1. 概述我们提供了一个概述我们的方法图。二、给定捕获在3D场景中移动的对象的RGB-D帧It、Dt、T的序列，我们的目标是重建平滑、物理上可接受且自然的高质量运动为此，我们通过三个阶段进行SMPL-X参数身体模型拟合序列数据SMPL-X。SMPL-X [44]将物体表示为函数b（ç，Ø，✓，ф），其输出是具有Ve-ticesVb R10475 3的三角形网格。SMPL-X参数为全局平移çR3，体型ØR10，身体和手部姿势✓，和表型表达фR10。We用J（Ø）表示3D身体的第i个关节处于中性姿势，并且通过R（J（）i），第i个关节根据姿势和平移摆姿势。多级流水线。考虑到我们任务的复杂性，我们以多阶段的方式解决它，如在以前的工作中所做的那样[6，52]。在阶段1中，我们将SMPL-X参数独立地拟合到这给了我们一个合理的初始化，但不能确保运动平滑，也不能处理身体场景遮挡。我们在第二阶段通过引入光滑度先验和接触摩擦项实现了时间上一致的运动。最后，在第3阶段，我们恢复合理的运动，即使是闭塞的身体部位和减轻脚滑冰与我们的运动填充。3.2. 每帧配件第1阶段采用PROX [19]中提出的方法。给定RGB-D序列，PROX通过最小化目标函数来将SMPL-X分别拟合到每个帧：EPROX （ ç ， Ø ， ✓ ， ф ） =EJ+λDED+Epri 或（ 1）+λcontactEcontact + λcollEcoll.EJ惩罚利用OpenPose [9]从RGB图像估计的2D关节与SMPL-X关节到图像上的2D投影之间的距离。 ED惩罚从深度帧获得的人类点云与从相机可见的SMPL-X表面点之间的3D距离。 E先验结合了一组先验规则化身体姿势，形状和面部表情[44]。 E接触鼓励场景顶点和预定义的一组身体“接触”顶点之间的接触。Ecoll惩罚场景-身体互穿。关于更多细节，我们请读者参考[19]。3.3. 时间平滑运动在第二阶段，我们处理第一阶段的输出。为了获得平滑逼真的运动，我们设计了一个运动控制器。11346∆∆2rec2∆光滑将它们赋给长度为S的向量。然后整个序列S（T-2）电话+1不SSSsS（T-2）∆不图2：我们的多级管道的图示。提供了一个场景网格和RGBD序列与身体遮挡，我们的方法恢复一个现实的全球运动，自然的人与场景的相互作用。每个阶段的标记轨迹（左）和加速度（右）显示在底部，以及AMASS [38]的行走序列（粉红色）。请注意，阶段1的结果显示了较大且不真实的运动加速度（蓝色）。阶段2中恢复的运动（绿色）然而，它也失去了当身体与场景交互时可能发生的真实加速度（加速度图中的峰值）（例如，当身体与场景交互时）。行走时脚与地面接触）。我们从第3阶段（橙色）恢复的运动类似于高质量的AMASS运动w.r.t.轨迹平滑度和加速度模式。平滑先验和物理启发的摩擦项，然后将其用于优化算法。运动平滑优先级。而不是像[4，41，52]中那样明确地在身体关节上强制平滑，我们建议学习平滑运动的潜在空间为此，我们使用AMASS的高质量数据训练自动编码器[38]。我们网络的输入是一组稀疏的体表潜在序列Z=Fs（X∆）=[z1，z2，…，zT-1]。伊什加权第二项的贡献。通过预训练的自动编码器，我们设计了一个平滑损失来随着时间的推移规则化运动具体地，我们采用从阶段1获得的每帧主体，并且将它们的标记关联到速度图Xopt中。我们将这个映射输入Fs，将其编码为Zopt=Fs（Xopt）=如[38，71]中的标记我们用81个标记的位置来表示身体Mat.）。给定一个T帧序列，在每个时间t，我们[zopt，zopt，...， z选择1 2T-1]中。平滑度损失由下式给出T-2把标记位置的时间差和关联-由2D特征图X∆RS（T-1）表示。网络编码器Fs将X转换为它的潜在表示Z。在这里，我们将时间序列X∆视为图像，并执行2D卷积，如[28]所示。我们不对输入进行下采样，因此X∆和Z具有相同的时间分辨率。因此，该网络捕获具有潜在空间中的大感受野的时空相关性，其可以表示重叠的身体部位的运动。解码器Ds具有带有去卷积层的对称架构。更多细节可以在Supp中找到。垫..我们在AMASS数据集上训练我们的自动编码器，损失如下：T-2E（ç，✓，ф）=1X|zopt-zop t|二、（三）与在关节空间局部工作的方法相比，我们的先验可以更好地捕获不同身体部位的运动之间的较长范围的相关性，从而编码全身动态。接触摩擦建模。方程中使用的接触项1仅考虑身体场景接近度，因此不能防止滑冰伪像（例如，当人坐在椅子上时滑动）。为了克服这个问题，我们设计了一个接触项，包括固定摩擦。与使用脚关节[47，52]的方法相比，我们的接触摩擦项基于身体和场景网格，具有更通用的人类场景交互设置，并且还考虑了其他身体部位，如臀肌。L（F，D）=|X- -X|+1X |zt=1- z键|、具体来说，我们预先定义了一组第五C Vb，对应194足和113臀肌（二）其中第一项是重构损耗最小化顶点当接触发生时（即之间的距离场景网格的体顶点小于0.01m），X∆和Xrec之间的差异=Ds（Fs（X∆）），以及Vc中接触顶点的速度vt被正则化：第二项最小化沿场景法线n的分量Vt的一阶导数，t=1∆电话+111347·不2ⓈⓈ2个XBXtan||- σ |1C A.|1CA.·算法一：第2阶段中的平滑运动恢复。结果：相对运动平稳SMPL-X主体参数初始化：从阶段1拟合网格，场景网格，平滑度先验intfindDuplicate（）;对于i= l：N，做Zopt=Fs（Xopt）;这里，我们在局部坐标系中表示标记，如[21，28]中所示：对于每个帧t，标记位置与身体根部的位置相关，身体根部是投影到地面的骨盆。此外，主体全局配置由根的平移速度2表示计算E∆光滑等式（3）;t2R和旋转速度ц2R围绕着上-用等式（1）计算Efric （5）;最小化EPROXM+Esmooth+Efric端图3：我们的运动填充网络的图示。蓝色和绿色分别表示标记局部坐标和脚-地面接触状态黄色，灰色，橙色分别表示根平移速度[t1，t2]和旋转速度ц。注意，掩蔽仅应用于局部运动。动作填充器带全局运动作为输入，并预测局部运动。负的，以防止相互渗透，并且与现场相切的分量Vtan应该小，以防止滑动。形式上，这给我们：vt·n ≥ 0， |vtan|σ fort2 Tf，（4）轴线此外，我们每英尺选择两个标记并检查它们是否在每个帧处与地面接触。如果其速度小于20cm/s且其离地高度小于10 cm，则认为标记与地面接触。最后，我们将运动序列排列成具有4个通道的3D张量YRPT 4。在第一通道Y局部中，每列表示连接该帧的局部身体标记位置和接触标签的向量，并且P是向量维度。最后三个通道Y根由全局轨迹速度的重复条目组成t1，t2和ц，这使得我们能够比[21，28]更紧密地耦合全局和局部运动。在训练过程中，我们设置了一个时空可见性遮罩M0，1PT（1表示可见，否则为0），以破坏锁定运动，其中Ylocal=YlocalM，其中删除元素矩阵乘法。由于大多数（up-在实践中，由于根的身体部分通常是可见的，并且很容易估计根为了生成用于在AMASS上训练的合理遮挡掩模，我们对从PROX数据集[ 19 ]计算的掩模进行采样，在PROX数据集[19请注意，当脚部不可见时，接触标签将被屏蔽。和蒙面人在一起运动Y〜=[Y〜local，Y根]，我们训练填充器自动编码器其中Tf是其中顶点和场景接触的帧的集合，并且σ是作为阈值的小数字。基于此，我们将接触摩擦项公式化为：G通过最小化来重建完整的局部运动：f（G）中的L=h（G（Y~），Y~），（6）Efric（ç，✓，ф）=0t2Tf@vtX·n0|+的|+|vt|≥σ坦特（五）其中h（）是局部标记坐标的L1损失，以及接触标签的二进制交叉熵（BCE）损失。Per-instance self-supervised learning. 为了在测试过程中更好地控制可见的身体部位，我们对每个单独的测试动作序列进行了预训练动作填充器的阶段2装配。我们将Esmooth和Efric与Eq.1，从中我们去除E 接触和ED以获得修改的函数EPROXM。如Alg所示，我们优化了N次迭代的结果目标1.一、3.4. 咬合状态下的运动恢复虽然Alg。1产生平滑运动，它不能恢复遮挡下的真实身体运动，这经常发生在人-场景交互中。因此，我们设计了一个运动填充网络，在AMASS上对其进行训练，并将其作为优化算法的先验。运动填充网络。图3显示了我们的卷积填充网络的概述。与其他运动填充模型不同，例如[28]中，我们的填充器将身体表面标记作为输入，并联合推断运动和接触状态。序列，以适应每个实例之前的学习一般。与[24]不同，我们的微调过程是自我监督的。具体地，给定部分遮挡的测试序列Y和由掩模M描述的遮挡标记，我们通过利用序列中的可见标记经由最小化来微调网络参数。L_f_et_e（G）=h（G（Y~），Y_lo_c_l）M。（七）我们在Sec中显示。4，这种每实例自监督学习有效地提高了可见和不可见身体部位的预测准确性。阶段3拟合（Alg. 2）的情况。给出第二阶段的结果，我们结合全局配置和由微调填充器产生的局部标记，不11348并重建标记。11349·∆不KKKKKJ之前+XXct·d（vt，a），算法2：阶段3中的遮挡运动恢复结果：存在闭塞Init：来自阶段2的结果，场景网格，平滑度先验Fs（·），运动填充器G（·）;步骤1：根据等式1微调G（·）（7）;步骤2：从G（）计算X，C;步骤3：优化循环;对于i= l：N，做Zopt=Fs（Xopt）;计算E平滑与Eq.（3）计算Efric，公式为：（5）;用等式（1）计算E填充（8）;Kinect-One传感器[1]用于以30 fps捕获序列，并提供静态场景的3D重建。SMPL-X参数与每个帧中的RGB-D数据拟合（参见第3.2）重建3D身体。按照AMASS的相同预处理程序，我们修剪序列，重置骨盆坐标，并获得205个片段，每个片段100帧用于评估。3DPW [60]。与PROX一样，我们使用此数据集进行评估。3DPW使SMPL适合IMU和RGB视频，主要是在野外场景中捕获的。虽然提供的端最小化EPROXM+E平滑+Efric+E填充每帧SMPL拟合是准确的，跨帧的运动具有抖动和时间不连续性。如上所述，我们对运动序列进行预处理，并获得100帧的300个剪辑用于评估。由于序列是用全局位置X和脚接触标签C。我们将误差项定义为Ein fill（ç，✓，ф）=|X-Xop t|（1-Mb）（八）K Kt=1k2K其中，X_opt是来自SMPL-X身体的要优化的标记全局位置，Mb是身体的遮挡掩模，并且K是脚部顶点的集合。 F或footvert e xk，ct=1，如果其最近的脚标记接触标签为1，否则为0，vt是帧t处速度的绝对大小。 d（vt，a）对应于|vt-a|如果vt≥ a，否则为0。我们设置移动相机，全局SMPL身体配置没有被准确地重建。因此，对于3DPW，我们测试我们的先验，仅将它们应用于局部运动。也就是说，不同帧中的身体骨盆关节被对齐，并且关节位置相对于每个单独帧的局部坐标系被定义4.2. 运动平滑度先验我们将我们的运动平滑度先验（由“Ours-SP”表示）与三个基于优化的基线进行比较：来自[22]的基于DCT的先验;最小化速度幅度（L2-V）[4，33，57，73];最小化加速度幅度（L2-A）[33，41，52]。对于所有方法，我们将它们与E，E在等式中组合。1并最小化结果目标足部速度阈值a为10 cm/s。4. 实验4.1. 数据集AMASS [38]. AMASS收集了15个高质量的mocap数据集，来自344个主题的11263个动作。对于每个序列，AMASS提供经由MoSh++获得的每帧SMPL-H [49]参数（即，将SMPL-H拟合到mo- cap标记物）。我们将序列降采样到30fps，并将其修剪为120帧的剪辑用于训练。类似于[71]，对于每个剪辑，我们在第一帧中将世界坐标重置为x轴是从左髋到右髋方向的水平分量，y轴指向前方，z轴指向上方。我们排除TCDhandMocap，TotalCapture，SFU，SSM synced，KIT和EKUT，并使用其余的训练我们的运动平滑度和填充模型。我们从训练中排除 TCD handMocap 、TotalCapture、SFU，因为我们使用它们来评估我们的运动填充方法。我们不使用EKUT，KIT和SSM同步，因为它们的帧速率不一致。PROX [19].我们使用这个数据集来测试我们的模型和优化算法在第2阶段和第3阶段。PROX从20个受试者中收集单眼RGB-D序列，这些受试者正在移动并与12个不同的室内场景进行交互一函数以将SMPL-X拟合到数据。具体地，Ours-SP的目标函数由Eq.3 .第三章。我们评估PROX和3DPW上的拟合。4.2.1度量2D关节精度。此度量仅用于PROX。我们通过AmazonMechanical Turk（AMT）在542帧上手动注释2D身体关节。AMT注释采用OpenPose [9] coco-25格式（包括25个身体关节），并转换为SMPL-X身体关节格式进行评估。在[44]之后，由于其定义不明确，将颈部、左侧和右侧髋关节从评价中排除。我们报告了我们的结果和注释之间的2D关节误差（2DJE）的平均L2范数3D精度。此度量仅用于3DPW。接下来[60]，我们报告了平均每个关节位置误差（MPJPE）和每个顶点误差（PVE），其中在我们估计的运动和3DPW提供的运动之间具有对齐的身体骨盆。我们期望一个有效的运动平滑先验可以提高运动时间一致性，同时保持原始的身体配置质量。因此，这两个分数越低越好。然而，对于详尽的评估，3D准确度应当与评估运动平滑度的度量相结合。11350运动平滑度。理想情况下，恢复的运动应该尽可能类似于真实的运动。将其转化为度量，我们使用功率谱KL散度（PSKL）[20]来测量我们的结果与AMASS运动序列之间的分布距离。我们特别表1：PROX上的运动平滑度和填充先验的评估。PSKL-M和PSKL-J分别表示在标记物和关节上计算的PSKL。（P，A）表示PSKL（PROX，AMASS），（A，P）表示相反方向。对于每个指标，最佳结果以粗体显示。评价PSKL w.r.t. 两者加速度分布PROX上的主体标记和SMPL-X关节，以及3DPW上的SMPL关节。由于PSKL不是对称度量，我们报告两个方向的数字。PSKL的值越小，表示性能越好（参见补充说明）。Mat.了解更多详情）。人景互穿。我们通过使用[69，72]中采用的非碰撞分数来评估PROX它测量具有非负场景SDF值的体顶点的数目与体顶点的总数之间的比率，即不与场景网格相互穿透的体顶点的比率。我们报告所有帧上的平均非冲突分数，并将其表示为“NonColl’。值越高，表示越少的人-场景相互渗透。4.2.2结果选项卡. 1和Tab。2分别显示了PROX和3DPW上的运动平滑度评估结果。对于两个数据集，最初提供的运动具有相对于AMASS测量的最大PSKL分数，指示运动不是自然的。与所有基线相比，我们的方法在两个方向上都达到了最低的PSKL分数，这表明它产生了更自然的运动。在PROX上，所有方法都实现了可比较的非冲突分数。我们的方法实现了较低的2D姿态误差相比2DJE#PSKL-M#PSKL-J #NonColl“方法（P，A）（A，P）（P，A）（A，P）PROX [19]20.941.4392.4411.4642.4910.955DCT [22]20.960.8471.0830.9371.1690.955L2-A21.680.4290.3960.4810.4410.955L2-V21.650.5510.5250.5710.5360.954Ours-SP20.640.2490.2560.2720.2750.954我们的-S220.400.2730.2550.2970.2750.977我们的-S320.230.2360.2340.2560.2550.979图4：我们的运动平滑模型潜在序列Z的两个通道（（a）和（b））的图示。在每个子图中，左侧图和右侧图示出了Alg之前和之后的结果。1所示。每个图中的行和列分别表示特征维度和时间表2：我们在3DPW上的运动平滑度评估。PSKL-J表示关节的 PSKL 。 (3D ， A ）表示 PSKL （ 3DPW ，AMASS），并且（A，3D）表示相反方向。对于每个指标，最佳结果以粗体显示。原始PROX数据和基线方法。在3DPW上，我们的方法具有小的MPJPE/PVE，同时报告最好的PSKL分数。这些结果表明，我们的方法可以推广到不同的数据集的全局运动和局部运动。总的来说，我们的方法始终优于其他基线，通过显着提高运动自然度，同时保持每帧姿势的准确性。这是由于我们从丰富多样的AMASS数据中学习我们的平滑先验，并在潜空间中应用正则化。相比之下，基线方法仅鼓励不相交的局部身体部位的运动平滑性，并且因此与高质量AMASS运动具有较大的差距。图4显示了从PROX序列获得的潜在序列的实例。在使用我们的先验进行拟合之后，潜在序列沿着时间轴变得更平滑，并且去除了抖动。4.3. 运动填充先验我们比较了我们提出的运动填充先验（由“我们的IP” 表示）与 Kaufmann 等人的填充器。 [28] 关于AMASS。在这些网络之上，我们还-MPJPE#PVE#PSKL-J#方法（3D，A）（A，3D）3DPW [60]--0.348 0.376DCT [22]0.0050.0070.2420.273L2-A0.0060.0090.1770.204L2-V0.0190.0250.2570.271Ours-SP0.0050.0080.1730.197将SMPL-X参数与填充的标记/关节进行ally拟合，以便进行公平比较。拟合函数为：E_amass=E_3D+E_prior+E_smooth+E_foot，（9）其中E3D是填充标记位置与SMPL-X主体上的对应标记之间的误差，以优化，并且Eprior是主体和手部姿势的先验项对于我们的方法，E英尺是方程中的第二项8. 对于基线方法，我们使用启发式定义E英尺：如果脚标与地面的距离小于10 cm，则发生脚-地面接触（参见附录Mat.）。11351表3：在AMASS之前对运动填充的评价。 MPJPE-L/MMPPE-L表示用于掩蔽的下半身的MPJPE /MMPPE。Finetune表示每实例自监督学习。对于每个指标，最佳结果以粗体显示。我们的vs基线我们从我们的AMASS测试集中随机选择了130个序列，以去除冗余运动和减少计算成本。为了模拟发生在真实的人-场景交互中并且在AMASS中不存在的遮挡，在评估时，对于这两种方法的网络输入，我们屏蔽了属于身体下部的所有标记和所有帧中的接触标签。此外，我们评估- uate提出的运动填充前PROX的2D关节精度，PSKL和非碰撞得分。4.3.1度量3D精度。我们报告的平均位置误差关节（MPJPE），身体标记（MMPPE）和身体顶点（PVE）之间的填充运动和运动AMASS在全球坐标系。我们为全身计算这三个度量，并且还为被掩蔽的身体部位计算MPJPE和MMPPE。脚滑。在[71]之后，我们采用“脚滑比”作为运动自然度的另一种度量。我们通过考虑位于左和右脚跟上的两个标记来计算它。我们将滑冰定义为当两个脚标记的速度超过10 cm/s并且它们离地面的高度低于10 cm时发生。4.3.2结果AMASS的结果见表1。3 .第三章。我们的infiller始终优于所有指标的基线特别是，我们的模型重建更准确的运动与所有三个表示（身体标记，关节和顶点）。此外，我们获得了较小的重建误差的下半部分的身体（MPJPE-L和MMPPE-L）。与用于基线的启发式脚-地面接触规则相比，我们预测的接触标签更有效地减轻了脚滑行，并在优化过程中恢复了脚动力学。这也在消融研究（Ours-IP启发式接触）中得到验证，其中我们用基线中使用的相同启发式接触规则替换预测接触标签。一个可能的原因是我们的模型学习了脚-地面接触和全身运动联合，因此可以更一致地预测两者。此外，消融研究表明，我们的模型性能通过自我监督微调得到持续改善（参见第2 节）。3.4 ），在SMPL-X安装（我们的无选件）之前和之后，适用于整个身体和包含的部分。这表明我们的运动填充器有效地使自身适应测试实例，利用来自输入的未掩蔽身体部分的更多有用信息。Tab中的最后两行。1显示了PROX上的运动填充的结果。与没有运动填充的阶段2（Ours-S2）的结果相比，阶段3（Ours-S3）具有更接近AMASS的加速度和更低的2D接头误差。最后，为了评估我们的流水线阶段，我们交换了阶段2和阶段3，发现当将抖动的PROX数据作为输入时，运动填充器的效果很差（参见Supp.Mat.）。此外，当执行自监督测试微调时，模型过拟合到噪声输入5. 结论在本文中，我们提出了一种新的运动平滑先验和接触感知的运动填充先验从高质量的运动捕捉数据，有效地学习内在的全身动态的平滑运动和恢复身体部位从相机视图闭塞。最重要的是，我们引入了一个新的多阶段优化管道，它结合了运动先验和物理启发的接触摩擦项，并在复杂的3D环境中重建平滑，准确和遮挡鲁棒的全局运动与物理上合理的人-场景交互。然而，目前的方法存在局限性。例如，人体运动植根于物理学。当前的流水线仅结合了直观的物理术语（例如接触、互穿和摩擦）;结合强大的数据驱动的运动先验，采用更多物理启发的运动建模是非常有前途和具有挑战性的研究方向。鸣谢。这项工作得到了微软混合现实&AI苏黎世实验室博士奖学金的支持。我们衷心感谢王少飞和王嘉豪的校对。方法MPJPE编号MMPPE编号VPE编号MPJPE-L编号MMPPE-L编号脚滑#Kaufmann等人[28日]0.0220.0260.0250.0370.0360.237Ours-IP0.0140.0160.0120.0340.0330.182Ours-IP w/o Opt w/o finetune-0.025--0.040-我们的IP，不带选项-0.015--0.036-消融研究我们的IP w/o微调启发式联系0.0200.0240.0210.0400.0380.257我们的IP，不带微调0.0200.0230.0210.0380.0360.178Ours-IP启发式联系0.0140.0170.0130.0360.0350.26511352引用[1] Xbox One的Kinecthttps://en.wikipedia.org/Kinect#Kinect_for_Xbox_One_（2013）. 6[2] Ankur Agarwal和Bill Triggs。恢复3D人体姿势从单目图像。IEEE Transactions on Pattern Analysis andMachine Intelligence，28（1）：44-58，2005. 2[3] Ijaz Akhter，Tomas Simon，Sohaib Khan，IainMatthews，and亚瑟·谢赫双线性时空基模型。ACM Transactions onGraphics（TOG），31（2）：1-12，2012。3[4] Anurag Arnab，Carl Doersch，and Andrew Zisserman.前-在野外利用用于3D人体姿态估计的时间上下文。在IEEE计算机视觉和模式识别会议论文集，第3395-3404页，2019年。三、四、六[5] Al e xandruOBalan和MichaelJBlack。赤裸裸的事实：估计衣服下的身体形状。在欧洲计算机视觉会议上，第15-29页。Springer，2008. 2[6] Federica Bogo、Michael J Black、Matthew Loper和Javier罗梅罗从单目rgb-d序列对运动中的人进行详细的全身重建。在IEEE计算机视觉国际会议论文集，第2300-2308页，2015年。3[7] Magnus Burenius，Josephine Sullivan和Stefan Carlsson。用于多视图铰接姿态估计的3D图示结构在IEEE计算机视觉和模式识别会议论文集，第3618-3625页2[8] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan和Nadia Magnenat Thalmann。利用空间-时间关系通过图形卷积网络进行3d姿态估计。在IEEE计算机视觉国际会议论文集，第2272- 2281页，2019年。2[9] Z. Cao，G.Hidalgo Martinez，T.西蒙，S。Wei和Y.A.酋长Openpose：实时多人2D姿态估计使用部分亲和字段。IEEE Transactions on Pattern Analysis and MachineIntelligence，2019。三、六[10] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.是-用于来自视频的时间上一致的3D人体姿势和形状的第二静态特征arXiv电子印刷品，第arXiv-2011、2020页。二、三[11] Rishabh Dabral ， Anurag Mundhada ， Uday Kusupati ，SafeerAfaque，Abhishek Sharma，and Arjun Jain.从结构和运动学习三维人体姿势。在欧洲计算机视觉会议（ECCV）的会议记录中，第668-683页，2018年。2[12] 董俊廷，帅庆，张元庆，刘贤，奚-aowei Zhou，and Hujun Bao.来自互联网视频的动作捕捉。欧洲计算机视觉会议，第210-227页Springer，2020年。2[13] Ahmed Elhayek ， Edilson de Aguiar ， Arjun Jain ，JonathanTo

下载后可阅读完整内容，剩余1页未读，立即下载