深度自动编码器：融合姿态估计与4倍放大人体模型提升

131 浏览量更新于2024-06-20 收藏 1.61MB PDF 举报

深度自动编码器在现代计算机视觉领域中展现出了强大的潜力，尤其是在处理人体姿态估计和身体模型升级这类复杂任务上。本文主要关注于如何通过结合深度学习技术，特别是深度自动编码器，实现从稀疏的宽基线相机视图中准确地推断人体的三维姿势和精细的身体模型。作者Matthew Trumble、Andrew Gilbert、Adrian Hilton和John Collomosse，分别来自萨里大学视觉、语音和信号处理中心以及Adobe Research，共同开展这项创新研究。他们的核心方法是设计一种对称卷积自动编码器，这个编码器具有双重损失函数，一方面强化对骨骼关节位置的编码学习，另一方面致力于捕捉体积体形的深度信息。这种设计允许自动编码器从原始的低分辨率（如32x32x32）的粗略体积数据出发，通过深度学习过程将其提升到更高的分辨率（如128x128x128），同时保持关节位置估计的准确性，甚至达到或超过现有的技术水平。这项工作的重要性在于，它不仅解决了超分辨率（SR）的问题，即从低分辨率图像中生成高分辨率图像，还融合了人体姿态估计（HPE），即从视频帧中精确识别人体的动作和结构。通过这种方式，他们开发的系统能够在实时环境中（25fps）运行，具有广泛的应用前景，例如在体育性能分析或安全监控场景中，对人类行为进行高精度的追踪和理解。研究中所使用的深度自动编码器架构借鉴了2D视觉内容处理中的去噪和放大技术，但特别针对三维人体形状进行了优化，使其能够适应三维卷积层，从而更好地处理PVH（概率视觉外壳）数据。这种技术的突破性成果表明，深度学习不仅能够提升图像质量，还能提供更深层次的人体姿态和形状信息，为后续的人工智能应用开辟了新的可能。本文的工作在计算机视觉领域内开创了一种新的方法，将深度学习与传统的超分辨率和姿态估计技术相结合，极大地提高了从稀疏视角获取人体信息的效率和准确性，为相关领域的研究和实际应用提供了强有力的支持。

M. Trumble，A.Gilbert，A.希尔顿J科洛莫斯

（两个矩阵都是齐次形式）被称为本征函数：相机焦距（

）和光学

中心[

，

]。外部进程（e。G.一个人

C c

跟踪器）被假定为隔离对应于的边界子体积

∈ V

一个人，一个人。

体素网格V

{

，

}

，其中i

，…

其中V表示粗体素

X y z

在第3.2节中作为输入传递到网络的体积。每个体素v

∈V投影到经由针孔

投影以齐次形式导出的每个相机视图

中的坐标（

[

]

，

[

αx

[

]

0 o

−

[

]

是

的

（

一）

0 0 1 0

c i

给定例如通过背景（干净板）减法获得的软遮

片

，体素是给定视

图

中的表演者的一部分的概率为：

（

）=

（

[

]

，

[

]）

。

（

2）给定体素

（

）的总体占用概率为：

p（v

）=

我

（1

（

）

。

（

三）

对于所有体素

∈

，

我们计算

（

）以形成粗略输入PVH。

3.2

双损耗卷积自动编码器

我们

使用一种具有简单的硬件架构（encoder-解码器）的编码器

。网络的目

标是学习深度表示，给定输入张量V

∈

，

以给定的分辨率

（32

）

编码粗

PVH

，

，其中

{

，

}

是一个配置参数，分别确定网

络所需的放大程度（1×

，

2×

，

4×）。粗PVH输入

经由三次插值缩放以

拟合

。我们训练深度表示以解决类似编码的输出张量V。的预测问

题V

（V

），其中

=F（V

）=D（E（V

））（4）

编码器通过一系列3D卷积、最大池化和全连接层产生潜在特征表示

我们强制

（

）=

（

），其中

（

）是对应于输入PVH的骨架姿

态向量;具体地说是

{

，

}

中

26 × 3D

笛卡尔关节坐标的

维矢量

关联。网络的解码器一半反转该过程以输出与输入分辨率匹配但具有

更高保真度内容的张量V

〇

图3说明了我们的架构

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度自动编码器：融合姿态估计与4倍放大人体模型提升

Python-用于人体姿态估计的深度高分辨率表示学习

利用稀疏编码结合深度学习的人体姿态估计.pdf

DCPose:用于人体姿势估计的深度双重连续网络（CVPR2021）

非线性化改进的KP-Detector模型在人体姿态识别中的应用.docx

基于二维图像的三维姿态估计和未来运动预测_3D Pose Estimation and Future Motion Predic

TransPose模型：基于CNN和变压器的人体姿态估计

野外3D人体姿态估计：对抗学习驱动的结构迁移

AlphaPose人体姿态估计在VisualStudio Code的运行验证

无监督几何学习：三维人体姿态估计新方法

时空自编码器与姿势估计时间序列分析教程

最新资源