3D人体姿态估计新法：结构与运动融合，提升精度并实现大规模弱监督

165 浏览量更新于2024-06-20 收藏 1.52MB PDF 举报

本文主要探讨了一种创新的3D人体姿态估计方法，结合了结构和运动学习的概念，旨在解决单目图像中精确估计3D人体姿态这一具有挑战性的问题。研究者们，来自印度理工学院孟买和Gobasco AI Labs的团队，提出了两个受解剖学启发的损失函数，这些函数被整合到一个弱监督学习框架中，使得模型能够利用大规模的野外2D和室内/合成3D数据进行联合学习。这种方法强调了静态和动态解剖学约束的重要性，以提高估计的精度。文章的核心部分设计了一个时间网络，它利用预测姿势序列中的时间和结构信息来临时协调姿态估计，这有助于提高估计的稳定性和准确性。时间网络的引入有助于处理因时间序列中的前后关联而带来的复杂性，使得算法能够更好地理解和适应动作的变化。实验结果显示，作者的完整流水线在Human3.6M和MPI-INF-3DHP这两个常用的人体姿态估计算法基准上分别实现了11.8%和12%的性能提升，这表明了该方法的有效性和实用性。值得一提的是，该算法能够在商业显卡上以30帧每秒的速度运行，满足了实时应用的需求。此外，文章还通过损失面可视化和敏感性分析，对提出的模型进行了深入剖析，帮助理解其工作原理和可能的优化空间。尽管3D姿态估计面临着缺乏真实世界3D标注数据的挑战，但通过这种方法，研究人员成功地跨越了这一限制，为相关领域的应用开辟了新的可能性。总结来说，这篇论文为3D人体姿态估计提供了一个新颖且有效的解决方案，展示了如何利用多模态数据和时间信息来改善估计精度，并且具有良好的实时性能。这对于推动机器人、人机交互、监控、模拟和虚拟现实等领域的发展具有重要意义。

我

或使用线性模型，而Park et al.[26]使用运动库来找到给定一组2D姿势预测的最

近运动，然后进行迭代微调。运动模型是特定于活动的，而我们的方法是通用

的。最近，Lin et al.[19]使用递归神经网络从其基于ConvNet的架构的中间特征

中学习时间依赖性。在类似的尝试中，Coskun et al.[11]使用LSTM来设计学习人

体运动模型的卡尔曼滤波器。与上述方法相比，我们的时间模型是简单的，但

有效地捕获过去姿势的短期相互作用，并以节奏和解剖学一致的方式预测当前

帧的姿势它是通用的，不需要针对特定活动的设置进行培训。我们表明，它学

习复杂的，非线性的相互联合的依赖性随着时间的推移;例如，它学会基于肘关

节和肩关节的过去运动来细化手腕位置，对于手腕位置，跟踪是最不准确的。

背景和注释

本节介绍本文中使用的符号，并提供有关Zhou等人的弱监督框架的必要细节。

[41]用于从2D和3D数据进行联合学习。

3D人体姿势P

{

，

. . .

，

}由k = 16个身体关节在欧几里得空间中的

位置定义。这些关节位置是相对于根关节定义的，根

被固定为骨盆。到姿态估计系统的输入可以是单个

RGB

图像或

RGB

图像的

连续流

。

. .

，

i−

，

}

第

个关节

为

关节在

欧几里得空间中的坐标，即

（

，

）。在整个

我我我

本文推断的变量用

表示，地面实况用

因此，一个推断

的

关节将被表示为

，地面真实值

被表示

为

。

姿态可以仅用

x，y坐标来表示，并且表示为

pxy

（

，

）;仅深度关节位置表示为

（

）。

的第i

个

训练数据 3D注释数据集由图像

和3D中的对应关节位置

组成

。另一

方面，

数据

仅

具有

关节位置

。手持

这些符号，下面我们描述来自[41]的用于联合学习的弱监督框架

由于缺乏野外3D数据，使用受控或合成3D数据学习的姿态估计系统不能很

好地推广到野外设置。因此，Zhou et al.[41]提出了一种弱监督框架，用于从2D

和3D注释数据中进行联合学习。联合学习利用3D数据进行深度预测，并利用野

外2D数据更好地推广到真实世界场景。该框架的总体示意图如图1B所示1.一、

它建立在用于2D姿态估计的堆叠沙漏架构[25]的基础上，并在其上添加深度回归

子网络

。经训练

后

的

hourglass

在

图像坐标中

输出

关节位置，

使用预测和地面实

况关节位置热图之间的标准欧几里得

损失

，更多细节请参见[25深度回归子网络

是一系列的四个残差模块[12]，后面是一个完全连接的层，它采用了来自堆叠

沙漏

并输出每个关节的深度，即

。使用标准欧几里德损失

（

，

）

用于3D注释的数据样本。另一方面，一个薄弱--监督流于形式

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

3D人体姿态估计新法：结构与运动融合，提升精度并实现大规模弱监督

用于3D对象检测和姿态估计的方法

多视角3D人体姿态估计方法

计算机毕设基于深度学习的人体姿态估计的需求分析

基于深度学习的人体姿态估计python

人体姿态估计是一种计算机视觉技术，旨在从图像或视频中检测和跟踪人体的姿态和动作。人体姿态估计技术可以应用于多个领域，包括体育、医疗、娱乐、安全和人机交互等领域。随着计算机视觉技术的不断发展和应用，

open3d 人体姿态

2000字介绍基于回归和基于检测的方法的单人人体姿态估计

什么是人体姿态估计？

人体姿态估计和动作识别

基于openpose的人体姿态估计算法

最新资源