基于PAF的实时多人姿态估计:克服检测误差

需积分: 25 7 下载量 114 浏览量 更新于2024-09-07 1 收藏 743KB DOCX 举报
该篇论文主要关注在实时多人大姿态估计中的问题,针对传统基于人体检测器的方法存在的定位和识别误差,提出了一种创新的区域多人姿态估计框架。框架的核心组成部分包括对称空间变换网络(Symmetric Spatial Transformer Network, SSTN)、参数化姿态非极大抑制(Parameter Pose Non-Maximum-Suppression, P-NMS)以及姿态引导提议生成器(Pose-Guided Proposal Generator, PPGG)。 SSTN负责处理不精确的人体边界框,它通过空间变换技术对输入图像进行自适应调整,提高姿态估计的鲁棒性。P-NMS则在姿态参数层面进行优化,通过非极大抑制策略筛选出最有可能的关节位置,减少冗余检测带来的影响。 PAF(部分亲和域)是论文的创新点,它是一种2D向量集合,用于编码肢体的位置和方向信息。这些向量与关节置信图一起通过卷积神经网络(CNN)进行联合学习和预测。PAF的使用使得模型能够捕捉到部件之间的关系,即使在密集人群中也能区分个体,并保持实时性能。 算法流程分为三个阶段:首先,通过两个网络分支分别预测关节点和关系向量,生成confidencemap置信度谱和PartAffinityFields。接着,将这些信息与原始图像特征融合,进一步优化关节位置和关系,得到更新后的confidencemap和PartAffinityFields。在最后阶段,通过NMS定位部件并应用条件约束的匹配算法确定个体关系,从而完成多个人的姿态估计。 该方法克服了传统top-down方法在密集场景下的挑战,采用了bottom-up策略结合全局上下文信息,显著提升了在复杂环境下的实时多人大姿态估计的精度和效率。通过使用置信图进行关节检测,确保了在多人情况下峰值的精确性和定位准确性,这对于实际应用中的视频监控、动作识别等领域具有重要意义。