无监督几何学习：三维人体姿态估计新方法

128 浏览量更新于2024-06-20 收藏 883KB PDF 举报

"基于无监督几何感知的三维人体姿态估计方法" 本文提出了一种创新的三维人体姿态估计方法，该方法特别关注在无监督和半监督环境下的学习，旨在克服深度学习模型对大量标注数据的依赖。传统的三维人体姿态估计往往依赖深度网络，而这些网络的训练需要大量带有3D标注的数据。然而，获取这些标注数据既昂贵又耗时，限制了模型的泛化能力。为了缓解这一问题，研究者设计了一种几何感知的身体表示学习方法，该方法可以从多视图图像中学习，而无需任何注释。他们采用编码器-解码器架构，其中编码器能预测给定另一个视角图像时，从一个视角的图像中恢复图像。这个过程编码了3D几何信息，使得在半监督设置中，模型能够更容易地学习到3D人体姿态的映射。实验结果表明，这种方法在使用相同数量标注数据的情况下，表现优于全监督方法，并且即使在仅使用1%的标注数据时，也优于其他半监督方法。这表明，通过学习几何感知的表示，模型可以有效地从未标注数据中学习，显著提高了学习效率和泛化能力。本文还探讨了现有的弱监督方法，如使用2D姿态标注、多视图图像或无2D注释的多视图几何，这些方法虽然减少了对3D标注的依赖，但仍需一定的3D数据进行训练。相比之下，本文提出的无监督几何感知方法进一步降低了对3D注释的依赖，为三维人体姿态估计开辟了新的可能。论文介绍了单目人体姿态重建的问题，指出当前基于CNN的方法由于网络复杂性的增加，对大规模标注数据的需求成为主要挑战。作者提出的方法不仅适用于特定动作（如行走或跑步），而且能够处理更广泛的体型、外观和姿势，展示了其在减少标注需求方面的广泛适用性。关键词涵盖3D重建、半监督训练、表示学习以及单目人体姿态重建，强调了本文的理论和应用价值。通过这种方法，未来的研究可以进一步探索无监督和半监督学习在三维人体姿态估计领域的潜力，为实际应用提供更加高效和经济的解决方案。

Helge Rhodin，Mathieu Salzmann，Pascal

Fua

另一种编码几何形状的方法依赖于从3D表示生成图像的渲染器

[9，35，16，52]，并且可以用作自动编码器设置中的解码器[1，39]。

对于简单的渲染器，渲染函数甚至可以学习[5，6]并充当编码器。当

放在一起时，这种学习的编码器和解码器已用于无监督学习，无论是

有GAN [3，43，46]还是没有GAN [17]。在[41，40]中，CNN被训练为

在没有监督的情况下映射到球形网格表示。虽然这些方法也有效地学

习基于图像的几何感知表示，但它们仅应用于约束良好的问题，例如

人脸建模。因此，不清楚它们将如何推广到3D人体姿势的更大程度

的可变性。

新颖的视图合成。我们的方法借用的想法，从新颖的视图合成文

学，这是致力于从以前看不见的观点创建逼真的图像的任务最新的技

术依赖于编码器-解码器架构，其中潜在代码被增强了视图变化信

息，例如偏航角，并且解码器学习从新的角度重建编码图像[36，

37]。大的视图变化是困难的。它们是通过依赖于执行增量旋转步骤

的循环网络来实现的光流信息[23，53]和深度图[7]已用于进一步改进

结果。虽然在简单对象上展示了上述然而，这些方法中的大多数使用

附加信息作为输入，例如部分分割[18]和2D姿势[19]。在这里，我们

建立在[4，49]的方法上，这些方法被设计用于处理大的视点变化。我

们在第3节中更详细地描述了这些方法和我们的扩展

无监督的几何感知潜在表示

我们的目标是设计一个潜在的表示L，它编码3D姿态，以及形状和外

观信息，并且可以在没有任何2D或3D姿态注释的情况下学习。为了

实现这一点，我们建议利用从多个同步和校准的相机获取的图像序列

为了有用，在设置和采集过程期间需要小心这样的镜头。然而，与注

释数万个2D或3D姿势所需的工作量相比，所涉及的工作量可以忽略

不计。

为了使L实用，它必须容易解码成其各个分量。为此，我们从图

像中学习身体的3D姿态和几何形状的单独表示

，这是一个很好的方

法，以及身体的形状

。

我们

将它们分别称为

、L

app

和B

让我们假设我们被给定一个集合，

{

（I

，

）

}

，

个图像对

不

t t

无注释，其中

和

上标表示使用

以捕获图像，并且下标

为采集时间。令

是从相机

的坐标系到相

机

的坐标系的旋转矩阵。现在我们转向学习L的各个组成部分

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无监督几何学习：三维人体姿态估计新方法

电信设备-光源方向标定及人体信息三维采集方法与装置.zip

6DOF_PoseEstimation:Kinect2.0实现估算长方体物体三维姿态并实时显示

计算机视觉中头部姿态估计的研究综述Head Pose Estimation in Computer Vision: A Survey（中文）word

GraviCap：无标记三维人体运动与物体轨迹重建

三维计算机视觉技术与算法详解

基于视觉和深度传感器的多模态人体姿态估计

多视图几何与立体视觉：从基础几何到三维重建

基于RGB-D传感器的SLAM应用

RealSense技术在面部姿态识别中的应用

增强现实深度图应用：虚拟与现实无缝结合技术全解

最新资源