4D人体运动先验：单目视频中的高质量3D捕捉与场景交互

144 浏览量更新于2024-06-20 收藏 1.55MB PDF 举报

"3D场景中的4D人体运动先验学习"是一项重要的研究工作，它关注如何从单目RGB或RGBD视频中恢复在复杂场景中高质量的三维人体运动。这项研究旨在解决现实世界应用中的挑战，如增强现实（AR）/虚拟现实（VR）以及机器人领域中，如何精确捕捉人与环境的交互，尤其是在处理遮挡和部分视图时。现有的方法往往无法提供令人满意的性能。研究者提出了一种名为LEMO（Learning Human Motion Prior for 4D Human Capture）的新方法，它依赖于大规模运动捕捉数据集AMASS[38]来学习数据驱动的运动先验。这个先验通过减少运动序列中的姿势抖动，显著提升了重建效果。为了处理身体与场景之间的交互，包括常见的接触和遮挡问题，研究者设计了一项接触摩擦模型和一个基于实例的自监督训练接触感知运动填充器。这些创新技术共同构成了LEMO的核心组件。 LEMO的目标是构建一个适用于3D场景的4D人体捕捉系统，能够捕获平滑、物理上合理的运动，并在复杂的环境下保持鲁棒性。该系统不仅利用了低成本的传感器，如RGB或RGBD相机，而且通过使用高效的算法，能够在日常环境中实现高质量的人体动作捕捉，无需专业设备或昂贵的设置。这项研究的重要贡献在于提供了一个完整的解决方案，展示了如何将学习到的运动先验与实际的捕捉系统相结合，从而实现高效、准确的人体运动重建。研究者还提供了相关的代码和数据，以便其他研究人员和开发者能够在自己的工作中进一步利用这些成果。这项工作对于推动人机交互技术的发展具有重要意义。"

11345

对每帧图像特征进行时间编码，并将其与对抗鉴别器

耦合以区分真实运动和预测运动。Choi等人[10]提出更

好地整合过去和未来帧Sun等人[55]引入多级框架以解

耦身体骨架和更详细形状和姿势信息。Luo等人[37]提

出了一种两步编码方案，其首先通过预训练的运动表

示来捕获粗略的然而，这些方法只关注人体运动重

建，忽略了人与场景的相互作用。

人景互动。Hasler等人[18]通过用多个非同步移动摄像

机在3D中重建场景来获得用于身体姿势估计的场景约

束。一些作品依赖于物理学启发的误差项（例如接触

和碰撞术语[68]）、游戏物理引擎[61]和场景语义标签

[51]。与我们相关的是，PROX [19]在非常详细的层面

上捕捉人与场景的交互，对SMPL-X身体[44]和3D场景

之间的接触和碰撞进行建模。基于这样的接触和碰撞

建模，张等人。[69，72]在没有人的场景中以物理上

和语义上合理的方式生成人体网格。

有过人体运动的前科。在文献[3，4，22，41，43，

47，48，52，59]中已经提出了大量用于平滑和自然运

动的先验一些先验直接应用于身体关节速度或加速度

[4，41]。Akhter等人[3]提出了一种基于离散余弦变换

（DCT）的双线性模型沿着这条线，Huang et al.[22]在

从多视图输入重建身体运动之前引入DCT。最近的一

些工作利用物理模拟来规则化人体运动。Shimada等人

[52]假设预定义的虚拟角色作为输入，并通过基于物

理的优化将其适配到单目序列。Rempe等人[47]从图像

中回归身体关节和脚-地面接触，以进行基于物理学的

轨迹优化。Kaufmann等人[28]设计卷积自动编码器以

填充未观察到的身体关节的运动并去除噪声。

我们和其他人。在我们的工作中，我们设计了一个运

动平滑先验和一个运动填充器，并使用它们来重新覆

盖RGB（D）视频中的人-场景交互的真实运动。与现

有的平滑先验相比，我们的算法使用高质量的AMASS

序列进行训练，并在潜在空间中应用平滑正则化。因

此，我们可以产生平滑的运动，而不会降低每帧身体

姿势的准确性。我们的运动填充器具有与Kaufmann等

人类似的架构。[28]，但处理身体标记并预测脚-地面

接触状态。由于身体标记更好地约束身体DoF，并且

接触状态与身体运动联合学习，因此我们的方法始终

优于[28] w.r.t.动议重新

和脚滑冰（如第二节所示）4）.与通过从RGB图像检

测的2D关节预测接触状态的[47，52]相比，我们共同

学习的接触状态与身体动力学更好地耦合。

方法

3.1.

概述

我们提供了一个概述我们的方法图。二、给定捕

获在

场景中移动的对象的

RGB-D

帧

、

的序

列，我们的目标是重建平滑、物理上可接受且自然

的高质量运动为此，我们通过三个阶段进行

SMPL-

参数身体模型拟合序列数据

SMPL-X。SMPL-X [44]将物体表示为函数

（

，

✓

，

）

，其输出是具有

Ve-

ticesV

10475 3

的三角

形网格

。SMPL-X参数为全局平移ç R

，体型Ø

，身体和手部姿势

✓

，

和表型表达

。

用

（

）

表示

身体的第

个关节处于中性姿势，并且通过

（

（）

）

，第i个关节根据姿势和平移

摆

姿势。

多级流水线。考虑到我们任务的复杂性，我们以多阶

段的方式解决它，如在以前的工作中所做的那样[6，

52]。在阶段1中，我们将SMPL-X参数独立地拟合到这

给了我们一个合理的初始化，但不能确保运动平滑，

也不能处理身体场景遮挡。我们在第二阶段通过引入

光滑度先验和接触摩擦项实现了时间上一致的运动。

最后，在第3阶段，我们恢复合理的运动，即使是闭塞

的身体部位和减轻脚滑冰与我们的运动填充。

3.2.

每帧配件

第1阶段采用PROX [19]中提出的方法。给定RGB-D

序列，PROX通过最小化目标函数来将SMPL-X分别拟

合到每个帧：

（

，

✓

，

） =

或

（

）

+λ

contact

+ λ

coll

惩罚利用

OpenPose [9]

从

RGB

图像估计的

关节与

SMPL-X

关节到图像上的

投影之间的距离。

惩罚

从深度帧获得的人类点云与从

相机可见的

SMPL-X

表

面点之间的

距离。 E

先验

结合了一组先验规则化

身体

姿势，形状和面部表情

[44]

。

接触

鼓励

场景顶点

和预定义的一组身体“接触”顶点之间的接触。

coll

惩罚

场景-身体互

穿。关于更多细节，我们请读者参考

[19]

。

3.3.

时间平滑运动

在第二阶段，我们处理第一阶段的输出。为了获得

平滑逼真的运动，我们设计了一个运动控制器。

剩余14页未读，继续阅读

cpongm

粉丝: 5

4D人体运动先验：单目视频中的高质量3D捕捉与场景交互

C4D之Xpresso学习笔记

Unity3d &Cinema4D-Essentials

Vector:实现2D，3D和4D向量以及3D和4D矩阵的简单C ++库

Pix4D 4.5.6中文学习版

VS2015_C#_WorleyNoise(2D&3D;&4D;)

VS2015_C#_Simplex噪声_2D&3D;&4D;

2D3D4D_PerlinNoise

动态FAUST：4D人体运动的精准网格对齐与新数据集

使用4D光场梯度恢复3D场景流的方法

Matlab批量转换3D帧为4D图像教程

最新资源