实时多人二维位姿估计：基于部位亲和场的创新方法

需积分: 5 193 浏览量更新于2024-07-15 收藏 1.85MB DOCX 举报

"基于部位亲和场（PAF）的实时多人二维位姿估计技术" 本文主要探讨了在计算机视觉领域中的一种实时多人二维位姿估计方法，该方法使用部位亲和场（PAF）来解决图像中多人姿态的检测问题。PAF是一种非参数表示，用于学习将身体部位与图像中的个体关联起来。这种方法的独特之处在于，它能够编码全局上下文信息，使得在实现实时性能的同时，还能保持高精度，不论图像中人物的数量有多少。在传统的多人位姿估计中，常见的策略是先进行人检测，然后对每个人执行单人姿势估计。这种方法虽然直接利用了成熟的单人姿势估计技术，但存在早期承诺问题，即一旦人检测失败，姿势估计也会随之出错。而且，这种自上而下的方法运行时间与人数成正比，不适用于实时场景。相比之下，自下而上的方法更为理想，因为它对早期错误有更强的容错能力，并有望降低运行时复杂性与人物数量的关联。然而，早期的自下而上方法在实现效率提升的同时，仍需进行全局推理，导致计算成本较高。本文提出的方法采用了一个两分支的神经网络架构，同时学习部位位置和部位间的关联，即PAFs。通过这种方式，模型能够在预测过程中获取全局上下文，而无需进行昂贵的全局推理步骤。在COCO2016关键点挑战赛中，这种方法表现优异，不仅在性能上超越了先前的MPII多人基准的最优结果，而且在效率上也有显著提升。具体到技术细节，Pishchlin等人[22]的工作引入了自下而上的联合标记部件和个体关联，但通过整数线性规划解决完全连通图的问题导致了极高的计算成本。相比之下，Insafutdinov等人[11]采用了基于ResNet的更强大的部位检测器，结合图像相关成对分数，提高了部位检测的准确性，但仍然需要解决复杂度问题。总结而言，基于PAF的实时多人二维位姿估计技术通过创新的网络结构和学习策略，有效地解决了多人姿态估计中的挑战，实现了高精度和实时性，为计算机视觉领域的多人姿态识别提供了新的解决方案。

2.1、同时检测和关联

我们的体系结构，如图 3 所示，同时预测检测置信度图和编码部位到

部位关联的亲和力场。网络分为两个分支：顶部分支(以米色显示)预测置

信度图，底部分支(以蓝色显示)预测亲和场。每个分支都是一个迭代预测

体系结构，遵循了魏等人的观点。[31]其改进了连续阶段的预测，

t∈{1，…，T}，每个阶段都有中级监督。

图 3.双分支多级 CNN 的体系结构。第一个分支中的每个阶段预测置信度

图

，第二个分支中的每个阶段预测 PAFs

。在每个阶段之后，将来自两

个分支的预测与图像特征连接起来用于下一阶段。

图像首先通过卷积网络(由 VGG-19[26]的前 10 层初始化并微调)进行

分析，生成一组输入到每个分支的第一级的特征映射 F。在第一阶段，网

络产生一组检测置信度图

(F)和一组部位亲和度场

(F)，其中

剩余21页未读，继续阅读

l4l

粉丝: 0
资源: 7

实时多人二维位姿估计：基于部位亲和场的创新方法

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields ∗中文版

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields ∗ 源代码

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields中文翻译

realtime multi-person 2d pose estimation using part affinity fields

OpenPose Realtime Multi-Person 2D Pose.pdf

Realtime_Multi-Person_Pose_Estimation-master.zip

Realtime_Multi-Person_Pose_Estimation-master.zip_cvpr_person_pos

pytorch_Realtime_Multi-Person_Pose_Estimation

keras_Realtime_Multi-Person_Pose_Estimation的模型

基于keras_Realtime_Multi-Person_Pose_Estimation进行性能分析-附件资源

最新资源