姿势建议网络：实时二维多人姿态检测新策略

15 浏览量更新于2024-06-20 收藏 2.23MB PDF 举报

"本文介绍了‘姿势建议网络’，这是一种用于实时检测未知数量的articulated二维姿态的新方法。这种方法是由柯尼卡美能达株式会社的Taiki Kaneko提出的，它在自下而上的姿势检测场景中应用了先进的单次物体检测范例，通过网格图像特征图生成身体部位提议，并通过单镜头CNN直接检测肢体。" 在当前的计算机视觉领域，人体姿态估计是至关重要的任务，尤其在体育分析和人机交互中。姿势估计涉及到定位解剖关键点或部分，可以处理单个或连续图像、使用或不使用深度信息，以及定位2D或3D空间中的部分，并可应用于单人或多人场景。文章重点探讨了从二维静止图像中估计多人二维姿态的问题，特别是当人实例的地面实况位置和比例未知时，需要检测出未知数量的姿势，这就需要实现人体姿态检测。现有的方法通常分为两类：自上而下和自下而上。自上而下的方法在处理多人时，运行时间随着人数增加而增加，不利于实时应用；而自下而上的方法虽然在实时性上有优势，但它们依赖于耗时的部件关联过程，这成为了性能瓶颈。为了克服这些限制，"姿势建议网络"引入了新的策略。该网络利用ResNet-18架构，直接从输入图像中检测部分边界框和肢体，然后通过解析步骤将这些提议转换为个体人的姿态。实验在MPII多人基准测试中显示，这种方法的mAP达到了72.8%，与最先进的自下而上方法相当，同时总运行时间仅为5.6毫秒（180FPS），显著快于现有方法的瓶颈运行时间。这种方法的关键创新在于将逐像素身体部位检测器的运行时复杂性与CNN特征图分辨率分离。通过使用逐网格图像特征图，可以生成区域提议，这些提议随后被用于检测肢体。此外，解析步骤被重新设计以考虑全局上下文，从而提高了准确性和效率。 "姿势建议网络"为实时多人二维姿态检测提供了高效且准确的解决方案，为未来在实时应用如监控、虚拟现实和增强现实等领域的应用奠定了基础。这一技术的引入有望推动计算机视觉领域在人体姿态估计方面的进步。

T. 关井

通过引入空间变换器网络[2，34]或RoIAlign [4]，在人体检测器和姿态估计器之

间建立层。

相反，标准的自下而上的方法[1，6，8，9，11，13]较少依赖于人类检测

器，而是通过找到在一致的几何配置中发生的部件检测的组或对来检测姿势。

因此，它们不受人类探测器局限性的影响。最近的自下而上方法不仅使用CNN

来检测部件，而且还直接从图像中提取部件之间的上下文线索，例如图像条件

成对项[6]，部件亲和场（PAF）[1]和关联嵌入（AE）[9]。

自顶向下和自底向上方法中的最新方法实现了实时性能。零件方案的“基元”

是像素点。然而，我们的方法不同于这样的方法，因为我们的基元是网格式的

边界框检测，其中部分尺度信息被编码。我们的简化网格部分提案允许浅层

CNN直接检测肢体，每个部分提案最多可以用几十个模式表示。专门为这些检

测，贪婪的解析步骤概率重新设计，以编码的全球范围内。因此，我们的方法

不需要耗时的逐像素特征提取或解析步骤，并且其总运行时间因此超过了在最

先进的方法中观察到的瓶颈运行时间。

方法

人体姿态检测通过以下步骤实现。

将输入图像的大小调整为CNN的输入大小。

运行CNN的前向传播，并获得人实例和部位以及肢体检测的RP

对这些RP执行非最大抑制（NMS）。

将合并的RP解析为单个人并生成姿势建议。

图2描述了我们框架的流水线。§3.1描述了在步骤2和3中使用的人实例和部位的

RP检测以及肢体检测。§3.2描述了步骤4。

3.1

PPNs

我们利用YOLO [15，16]，RP框架之一，并将其概念应用于人体姿势检测任

务。PPN由单个CNN构建，并为输入图像上的每个检测目标（人实例或每个部

分）产生固定大小的RP集合。CNN将输入图像划分为H×W网格，每个网格对

应一个图像块，并产生一组RP检测

{

}

∈K

，

对于每个网格单元

∈ G

，

. . .

，

}

。这里

，K

，

. . .

，

}

是检测目标的索引的集合，并且

是部分的数量。表示整个人

实例的类（人实例类）的索引由

中的

0给出。

剩余15页未读，继续阅读

cpongm

粉丝: 6

姿势建议网络：实时二维多人姿态检测新策略

人体姿态检测

HRNet-works：HRNet的实践_人为姿势估算

openpifpaf：在PyTorch中“ PifPaf：用于人体姿势估计的复合字段”的正式实现

HigherHRNet-Human-Pose-Estimation：这是我们CVPR 2020论文“ HigherHRNet：自底向上人体姿势估计的规模感知表示学习”的正式实施（https：arxiv.orgabs1908.10357）

期权matlab代码-GolfSwing:高尔夫挥杆分析模型

实时多人二维姿势估计：基于部分亲和场的高效方法

基于Matlab的GolfSwing：多人姿势实时估计系统

自下而上关键点加权方法：100+人体/物体姿态与细粒度标注超越现有

高效单阶段3D姿势估计：DecoupledRegressionModel (DRM)

MultiPoseNet：自下而上的高效多人姿态估计框架

最新资源