UniPose：单一框架解决单图和视频人体姿态估计

PDF格式 | 1.25MB | 更新于2025-01-16 | 166 浏览量 | 举报

UniPose是一个创新的深度学习框架，旨在解决单幅图像和视频中的人体姿态估计问题。该工作由Bruno Artacho和Andreas Savakis在罗切斯特理工学院提出，他们的研究旨在提供一种统一的、高效的解决方案，以应对姿态估计中的复杂性和遮挡问题。 UniPose的核心贡献在于其"瀑布" Atrous温泉池（Waterfall WASP）模块，这是一个级联架构的变种，结合了Atrous卷积的逐级过滤效果和空间金字塔池化（ASPP）的多尺度视野，从而实现了更广阔的视野范围，提高了对复杂场景中肢体位置的识别能力。与传统的依赖统计后处理或多阶段流程的方法不同，UniPose在一个单一阶段内就能以高精度估计人体姿态，这显著减少了计算成本并提高了整体性能。它的上下文分割和关节定位能力使得网络能够更好地理解人体结构和周围环境，避免了仅依赖几何或统计模型的局限性。此外，研究人员还扩展了UniPose架构，将其转变为UniPose-LSTM，以便处理连续的多帧视频，从而在时间姿态估计上达到了最先进的水平。 UniPose的特点在于其鲁棒性和通用性，无论是在单张图片还是视频中的单人姿态检测任务中，都能取得最先进的成果。这种单一阶段的架构使得它在实时性和准确性之间找到了良好的平衡，这对于许多实际应用场景，如运动分析、虚拟现实和增强现实等领域具有重要意义。总结来说，UniPose是一个创新的深度学习框架，通过瀑布Atrous温泉池模块、上下文信息的充分利用以及多帧处理能力，成功地统一了单幅图像和视频中的人体姿态估计，为计算机视觉领域带来了新的突破。

7037

图2.用于单帧姿态检测的UniPose架构。尺寸（HxW）的输入彩色图像通过ResNet主干和WASP模块馈送，以降低8倍的分辨率

获得256个特征通道。解码器模块以原始分辨率生成K个热图，每个关节一个热图，并且关节的位置由局部最大运算确定

链式模型[20]利用递归网络来合并时间分量。LSTM

姿势机[30]方法采用了类似的概念，其中LSTM用于增

强网络中的内存。

LSTM的应用并不局限于节奏组件。递归3D姿势序

列机（RSPM）[27]在从2D到3D的回归中使用LSTM，

以在回归期间获得更好的对应性。

2.2.

手势语

尽管在通用姿态估计方法上做出了努力，但目前缺

乏对诸如用于手语的特定应用的研究。Charles等人[11]

在长电视广播视频中签名时的估计该方法依赖于使用

语义分割从背景的初始分离，然后通过随机森林回归

来定位签名者的上肢[6]中的工作使用时间跟踪来检测

相似帧中的部分并估计上身关节。

DeepSign [18]在预训练的CNN上应用迁移学习，用

于手语过程中的联合检测。他们的方法遵循了[50]在

通用姿势图像中所做的工作，并在最终架构中纳入了

特定于应用的迁移学习。

2.3.

Atrous卷积和ASPP

结合CNN层的语义分割和姿态估计方法的一个重要

挑战是由池化引起的分辨率的显著降低全卷积网络

（FCN）[29] [29]通过跨反卷积层部署上采样策略来解

决分辨率降低问题。这些方法试图反转卷积运算，并

将特征图的大小增加回原始图像的尺寸。

语义分割中的一种流行技术是使用扩张或Atrous或

扩张卷积[13]。Atrous卷积的主要目标是增加网络中感

受野的大小，避免下采样，并生成用于处理的多尺度

框架。

在一维卷积的简单情况下，信号的输出定义如下：

[

]

[

]

[

]

（

）

其中r是膨胀率，ω

[

]

是长度为L的滤波器，x

[

]

是输

入，y

[

]

是输出。速率值为1会导致常规卷积运算。

受空间金字塔应用于池化操作[21]的成功的启发，

ASPP 架构被完全整合到 DeepLab [13] 中用于语义分

割。ASPP方法在具有不同速率的四个并行分支中组装

atrous卷积，这些分支通过快速双线性插值与附加因子

8相结合。该配置以原始图像分辨率恢复特征ASPP网

络中的分辨率和FOV的增加对于姿势估计期间的身体

部位的上下文检测可以是有益的。我们通过UniPose框

架中的Waterfall架构以更高效的方式利用这一功能。

UniPose架构

我们提出了UniPose，一个统一的架构，姿态估计，

利用大FOV生成的atrous卷积结合级联卷积的我们的

WASP模块提供了多尺度的表示以及在网络规模缩小

的效率。改进以前的作品，单姿态不需要单独的分支

边界框和联合检测。相反，它执行人类主体及其关节

的边界框的统一

UniPose处理流水线如图2所示。输入图像最初被馈

送到深度CNN，在本例中是ResNet-101，最后的层被

WASP模块替换所得到的特征图由解码器网络处理，

该解码器网络生成K个热图，每个关节一个，具有从

Softmax获得的相应概率分布。然后解码器执行双线性

剩余13页未读，继续阅读

cpongm

粉丝: 6

UniPose：单一框架解决单图和视频人体姿态估计

Python+OpenCV+OpenPose实现人体姿态估计.7z

dehazing:单幅图像去雾

MATLAB图像噪声估计：单幅图像的精确分析

光源引导的深度框架：单幅图像光晕去除新方法

UprightNet：单幅图像室内场景相机定向的深度学习框架

噪声水平估计：单幅图像估计噪声水平-matlab开发

GAN-For-Derain:单幅图像去雨

jflalonde/illuminat​ionSingleImage:单幅图像的光照估计（ICCV'09 和 IJCV'12）-matlab开发

单幅图像三维人体姿态估计：距离矩阵回归新方法

残差引导网络：单幅图像去雨新法

最新资源

jflalonde/illuminationSingleImage:单幅图像的光照估计（ICCV'09 和 IJCV'12）-matlab开发