HRNet：人体姿态估计的高分辨率网络设计

70 浏览量更新于2024-06-20 收藏 1.32MB PDF 举报

"本文探讨了人体姿态估计的高分辨率表示网络设计与应用，主要关注学习可靠的高分辨率表示。提出的方法避免了从低分辨率恢复高分辨率的传统方式，而是始终保持高分辨率表示。文章介绍了网络结构，从高分辨率子网络开始，逐步添加低分辨率子网络，形成多分辨率并行结构，通过多尺度融合提升表示质量。实验结果在COCO关键点检测、MPII人体姿态和PoseTrack数据集上验证了网络的有效性，并提供了开源代码和模型。" 在计算机视觉领域，人体姿态估计是一个核心任务，涉及定位人体各部位的关键点。随着深度学习的发展，尤其是深度卷积神经网络（CNNs）的应用，这一领域的性能显著提升。然而，大部分现有方法依赖于从高到低分辨率的网络结构，然后在后期恢复高分辨率信息，如沙漏网络采用对称的低到高分辨率过程。本文提出了一种名为“高分辨率网络”（HRNet）的新方法，它从一开始就保持高分辨率表示，并在此基础上构建多分辨率子网络。这种网络结构由并行的高到低分辨率子网络组成，它们之间进行多次信息交换，即多尺度融合。这样，每个分辨率表示都能不断从其他表示中获取信息，从而生成更为精确的空间信息丰富的高分辨率关键点热图。具体来说，HRNet首先从一个高分辨率子网络开始，然后逐步引入低分辨率子网络，形成多个阶段。每个阶段的输出都与前一阶段的高分辨率信息融合，确保在整个处理过程中保留高分辨率细节。这种设计使得网络在处理复杂姿态时能更好地捕捉到精细的结构信息，提高了姿态估计的准确性。实验部分，HRNet在标准的人体姿态估计数据集COCO关键点检测和MPII人体姿态上表现出优越的性能，同时在PoseTrack数据集上进行的姿态跟踪任务也证明了其追踪效果。作者通过公开发布的代码和模型，鼓励其他研究人员复现和进一步发展这个框架。 HRNet通过保持高分辨率表示和多尺度融合，解决了传统方法中低分辨率表示丢失细节的问题，为人体姿态估计提供了一种新思路。这一创新方法不仅提升了单一姿态估计的精度，也为多人姿态估计和视频姿态跟踪等复杂任务的解决提供了有力工具。

5695

′

r−

ResNet在[11，70]中采用，并且从低到高的过程只是一

些双线性上采样[11]或转置卷积[70]层。(iii)与扩张卷

积的组合。在[26，50，34]中，在ResNet或VGGNet的

最后两个阶段中采用扩张卷积以消除空间分辨率损

失，随后是一个轻微的低到高过程以进一步提高分辨

率，避免仅使用扩张卷积的昂贵计算成本[11，26，

50]。图2描绘了四个代表性姿态估计网络。

多尺度融合。最直接的方法是将多分辨率图像分别馈

送到多个网络中，并聚合输出响应图[62]。小时-

在许多权重共享的U网中，由跨多分辨率表示的两个

独立的融合过程组成：在第一阶段，信息仅从高分辨

率向低分辨率发送;在第二阶段，信息仅从低分辨率发

送到高分辨率，因此竞争性较低。多尺度densenets [23]

不针对并且不能生成可靠的高分辨率表示。

方法

人体姿态估计，又名关键点检测，旨在检测

个

关

键点或部分的位置（例如，肘、腕等）。最先进的方

法将这个问题转化为估计K

玻璃[39]及其延伸部分[74，30]结合了低水平的

′

大小为W的热图

，

{

，

. . .

，

}

，其中每

个

通过跳过连接将高到低过程中的特征渐进地转换为在

级联金字塔网络[11]中，全局网将从高到低过程中的

低到高级别特征逐渐组合到从低到高过程中，然后细

化网将通过卷积处理的从我们的方法重复多尺度融

合，这部分受到深度融合及其扩展的启发[65，71，

57，77，79]。

中级监督。早期为图像分类[33，59]开发的中间监督

或深度监督也被用于帮助深度网络训练和提高热图估

计质量，例如，[67、39、62、3、11]。沙漏方法[39]

和卷积姿态机方法[67]将中间热图处理为剩余子网络

的输入或输入的一部分。

我们的方法。我们的网络将高到低的子网络并行连

接。它在空间精确热图估计的整个过程中保持高分辨

率表示。它通过反复融合由高到低的子网络产生的表

示来生成可靠的高分辨率表示。我们的方法是不同于

大多数现有的作品，需要一个单独的低到高的上采样

过程和聚合低级别和高级别的表示。我们的方法，不

使用中间热图监督，是优越的关键点检测精度和有效

的计算复杂度和参数。

有相关的多尺度网络用于分类和分割[5，8，72，

78，29，73，53，54，23，80， 53、51、18]。我们

的工作部分受到其中一些的启发[54，23，80，53]，

并且有明显的差异使它们不适用于我们的问题。卷积

神经结构[54]和互连CNN [80]无法产生高质量的分割

结果，因为每个子网络（深度，批量归一化）和多尺

度融合缺乏适当的[18 ]第18话，一个组合

热图

指示第

个

关键点的位置置信度。

我们遵循广泛采用的管道[39，70，11]使用卷积网

络来预测人体关键点，该卷积网络由两个降低分辨率

的步幅卷积组成的主干组成，主体输出具有与其输入

特征图相同分辨率的特征图，以及估计热图的回归

器，其中选择关键点位置并将其转换为全分辨率。我

们专注于主体的设计，并介绍我们的高分辨率网络

（HRNet），如图1所示。

顺序多分辨率子网络。现有的用于姿态估计的网络是

通过串联连接高到低分辨率的子网络来构建的，其中

形成一个级的每个子网络由卷积序列组成，并且存在

跨相邻子网络的下采样层以将分辨率减半。

设

Nsr

为

第

级的子网络，

为分辨率指数（其分辨

率为

第一级子网络

分辨率的

具有S的高到低网络（例

如，

）阶段可以表示为：

N11

→

N22

→

N33

→

N44

。

（一）

并行多分辨率子网络。我们从一个高分辨率的子网络

开始作为第一阶段，逐步增加高分辨率到低分辨率的

子网络，形成新的阶段，并将多分辨率的子网络并行

连接。结果，后一阶段的并行子网络的分辨率由前一

阶段的分辨率和额外的较低的分辨率组成。

包含4个并行子网络的示例网络结构给出如下，

（二）

N11

→

N41

→

N42

→

N43

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

HRNet：人体姿态估计的高分辨率网络设计

deep-high-resolution-net.pytorch：该项目是CVPR2019论文“用于人体姿势估计的深度高分辨率表示学习”的正式实施。

人体姿态检测及数据传输系统设计

详细介绍一下人体姿态估计中高分辨率网络

人体姿态估计是一种计算机视觉技术，旨在从图像或视频中检测和跟踪人体的姿态和动作。人体姿态估计技术可以应用于多个领域，包括体育、医疗、娱乐、安全和人机交互等领域。随着计算机视觉技术的不断发展和应用，

基于opencv的人体姿态估计

你知道关于人体姿态估计有关的开源库？

人体姿态估计python

基于openpose的人体姿态估计算法

RNN 人体姿态估计

人体姿态估计coco

最新资源