单目三维人体姿态估计：挑战、进展与未来趋势

人体姿态估计

113 浏览量更新于2024-06-17 收藏 918KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

随着计算机视觉技术的发展，单目三维人体姿态估计已经成为一个备受关注的研究领域，特别是在人机交互、机器人技术、视频分析和增强现实等领域。这项研究旨在从RGB图像中恢复人体的姿态，由于其对低成本传感器的需求以及在众多应用中的实用性，吸引了大量科研工作者的投入。尽管已取得显著进展，但该任务仍面临着深度模糊、遮挡、背景干扰以及缺乏训练数据等挑战。文章首先回顾了单目三维人体姿态估计的历史背景，强调了其在计算机视觉中的核心地位。它不仅对于人体检测、跟踪和动作识别至关重要，还为视觉监控、行为分析、自动驾驶等场景提供了关键的几何和运动信息。早期的解决方案依赖于带有标记、深度传感器或IMU的专门硬件，如MoCap系统，但这些方法成本高且限制了运动范围。然而，单目图像方法的兴起源于其普遍可用性和较低的硬件成本。这种方法的魅力在于其无需昂贵的硬件设备，只需普通摄像头即可实现。然而，这也带来了技术上的难题，如如何处理图像中的复杂光照、运动模糊和非刚体变形等问题。文章深入探讨了现有的单目三维人体姿态估计方法，将其归纳为不同的类别，包括但不限于基于深度学习的2D/3D回归、关键点检测、骨架模型和模板匹配等。每种方法都有其优势和局限性，例如深度学习方法通常需要大量标注数据进行训练，而传统的模板匹配方法则可能对光照变化敏感。在评估部分，文章列举了常用的公开数据集，如MPII、Human3.6M、COCO等，以及用于性能比较的评价指标，如PCK、AUC、MPJPE等。通过定量分析，作者揭示了不同方法在特定场景下的表现，帮助读者理解各方法的适用性。最后，文章着重讨论了当前面临的挑战，如光照变化、动态场景中的性能提升、跨模态融合以及对多个人体的估计等。同时，对未来的研究方向提出了开放性问题，包括如何提高鲁棒性、开发更高效的实时算法、以及利用深度学习之外的其他技术来进一步改进精度。这篇综述论文为我们提供了单目三维人体姿态估计的全面视角，涵盖了技术背景、方法概述、数据集分析和未来展望，为该领域的研究者和实践者提供了宝贵的参考资源。

资源详情

资源推荐

虚拟现实智能硬件

2020

年

月第

估计的准确性。相比之下，局部优化方法可以提供非常精确的结果，假设状态向量被初始化为接近

全局最优值，但是它们可能会受到抖动的影响。随机搜索方法具有找到全局解的能力，但状态空

间维数越高，所需的计算资源就越多。潜在空间方法具有简单的结构，因此将这些类型的方法组合

在一起是很自然的。

Gall

等人引入了一个多层框架，结合了随机优化，过滤和局部优化

[52]

。

Andriluka

等人。

[47]

提出了一种三阶段混合方法。前两个阶段基于检测跟踪获得

姿态轨迹，第三阶

段通过分层

GPLVM

恢复

姿态。它们可以在真实的街道条件下跟踪

姿势。

Elhayek

等人

[71]

通过组

合的姿势优化能量，将基于

CNN

的

联合检测与基于高斯和（

SoG

）的生成运动跟踪算法相结合。

3 2D-3D姿态提升

2D-3D

提升的过程是基于两阶段的级联框架的一部分，该框架首先执行

姿态估计以使用

姿态估

计器

[19

，

72]

预测图像中的

关节位置或关键点，然后将这些

关节提升到

空间

[46

，

73]

。关键的想法

是，由于在野外具有

注释的大规模数据集的可用性，可以很容易地执行

姿态估计。

2D-3D

提升

方法通常可跨域推广，受益于最先进的

姿态检测器的可靠性能，并且通常优于直接从图像回归

姿态的方法。表

列出了这类方法。请注意，

MPII

[21]

和

Leeds Sports Pose

（

LSP

）

[74]

数据集仅使用

姿势进行注释，这些姿势通常用于显示大多数作品在真实世界图像上的定性示例。

3.1

基于优化的提升方法

基于优化的提升方法领域的早期工作采用人体关节的带注释的

地标，以通过优化某些成本函数来

恢复

姿态。例如，

Ramakrishna

等人提出了一种基于稀疏表示的方法，用于从单个图像中的注释

地标估计人体

配置

[110]

。他们提出了一种投影匹配追踪算法，通过最小化重新投影误差来重建

姿态和相机设置。

Simo-Serra

等人采用贝叶斯框架将生成模型与区分性

部件检测器集成，并使用

进化算法进行推理

[108]

。

Wang

等人建议通过最小化

关节投影和

检测之间的

范数惩罚来估计

姿态，以减少不准确的

姿态估计的影响

[105

，

115]

。

Ionescu

等人没有使用关节位置或热图作为中间

体，而是使用迭代方案

[107]

基于从身体部位标签计算的描述符预测

姿势。他们提出了二阶池在身体

的层次区域分解上构建一个全局表示。

为了解决交替最小化方案通常对初始化敏感的问题，

Zhou

等人采用了一种增强的形状空间模型，

以在凸公式下给出内在形状变形和外在视点变化的线性表示

[104]

。

Akhter

和

Black

利用关节角度的限制

来避免不可能的姿势

[103]

。

Zhou

等人提出了一种在整个序列上的期望最大化（

）算法，以通过将

基于

CNN

的热图与

人体姿势的稀疏表示相结合来恢复

姿势

[99]

。

等人加强了姿态条件关节速

度和时间相干性约束，并制定了一个目标函数来估计

476

Xiaopeng Ji et al：A survey on monocular 3D human pose estimation

表

基于

2D-3D

姿态提升的方法

作者

Rhodin et al.

[

第

七十五章

]

Pavlakos

等人

[76]

Zhao et al.

[

第七

十七章

]

Wandt

和

Rosenhahn

[78]

Arnab et al.

[79

个

]

Chen

等人

[80

个

]

Véges

等人

[81]

Li et al.

[

第八

十二章

]

Cha

等人

[83]

杨等人。

[84]

Fang et

al.

[

八十五

]

Hossain

和

Little

[86]

方法亮点

关键点轨迹上的扩展时间卷积。利用未标记视频的半监督方法。

扩展

SMPL

与充分阐述的手和一个富有表现力的脸。

使用图形结构数据对任务进行操作，以实现

到

人体姿势回归。

使用对抗训练来学习从

姿态的分布到

姿态的分布的映射。

通过鼓励时间一致性，将光束法平差应用于

SMPL

模型。

使用自一致性方案：生成的

骨架的随机投影被馈送到

姿势训练器，以向

2D-3D

提升网络提供反馈。

一个学习旋转等变隐藏表示的连体架构。

使用混合密度模型生成多个

姿态假设以缓解模糊性问题。

一种基于多部分假设的单图像三维人体姿态估计方法。

合成虚拟候选姿态，保证扩充后的样本集具有更丰富的多样性。

设计一个深度语法网络来显式编码一组关于人类身体配置的知识，包括运动

学，对称性和运动协调。

层规范化

LSTM

单元，具有快捷连接以利用时间信息。

评价数据集

Human3.6M

、

HumanEva-

定制人性化

3.6M

Human3.6M

，

MPI-INF-

3DHP

，

LSP

Human3.6M

，

HumanEva

，

3DPW

Human3.6M

，

MPI-INF-

3DHP

[21]

第二十一话

Human3.6M

，

MPI-INF-

3DHP

，

MPII

Human3.6M

，

HumanEva- I

，

MPII

人

3.6M

，

LSP

Human3.6M

，

HumanEva- I

，

MPII

Human3.6M

，

HumanEva-

2019

年

2019

2018

Zhao

等人

[87]

李等人

[

八十八

]

使用一组完全连接的层来直接恢复深度信息。

基于

姿态来扩展长短期记忆网络以估计深度信息。

人类

3.6M

，

CMU MoCap 2018

人

类

3.6M

，

HumanEva-I

，

2018

Drover

等人

[89]

Wanget al.

[90]

第

话

[91]

Martinez

等人

[

九十二

]

莫雷诺

诺格尔

[93]

Lassner

等人

[94]

Nie et al.

[95

个

国家

]

Lin等人

[97

个国家

]

[98]

第

话

Bogo等人

[28]

Zhou et al.

[99]

Yasin等人

[100

个项目

]

带有对抗训练的随机投

影层，用于从

投影中

对

结构执行先验。

使用

CNN

从图像中学习

人体关节对之间的深度

排名。

关系网络，以捕捉不同

群体配置之间的关系。

不同的身体部位。

在

到

关键点回归中

应用具有剩余连接的两

个全连接层。

在两个欧氏距离矩阵之

间执行

到

距离矩阵

回归。

预测身体的

个节段

和

个标志位置，并

扩展基于

SMPLify

的

优化方法。

LSTM

网络的两级层次结

构：学习深度信息的

passion-LSTM

和利用局

部图像

证据的

patch-

LSTM

。

一个顺

序预测

框架，

以隐式

和全面

的方式

通过多

个重现

阶段细

化预测

的姿

势。

在

中生

成各

种有

效的

人体

剩余32页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

单目三维人体姿态估计：挑战、进展与未来趋势

RGBD 三维人体姿态估计

RGB-D 三维人体姿态估计

三维网格姿态估计技术的现状挑战是什么

视频 检测三维人体姿态

opencv c++ 单目三维重建

人体姿态估计主流技术

单目三维重建c++代码

单目三维目标检测容易受到什么条件影响

多视角3D人体姿态估计方法

单目视觉的三维目标检测算法

什么是人体姿态估计？

单目三维重建python

kinect三维人体建模系统设计研究方法技术路线

用python实现人体姿态估计

现在都有哪些开源的人体姿态估计库

姿态估计综述 自上而下算法

基于openpose的人体姿态估计算法

视频 检测三维人体姿态 算法或模型有几种

单摄像头实现人体三维姿态捕捉

基于OpenSfM的单目三维重建实现详细步骤

最新资源

视频检测三维人体姿态

姿态估计综述自上而下算法

视频检测三维人体姿态算法或模型有几种