实时多人二维位姿估计:基于部位亲和场的创新方法

需积分: 5 7 下载量 193 浏览量 更新于2024-07-15 收藏 1.85MB DOCX 举报
"基于部位亲和场(PAF)的实时多人二维位姿估计技术" 本文主要探讨了在计算机视觉领域中的一种实时多人二维位姿估计方法,该方法使用部位亲和场(PAF)来解决图像中多人姿态的检测问题。PAF是一种非参数表示,用于学习将身体部位与图像中的个体关联起来。这种方法的独特之处在于,它能够编码全局上下文信息,使得在实现实时性能的同时,还能保持高精度,不论图像中人物的数量有多少。 在传统的多人位姿估计中,常见的策略是先进行人检测,然后对每个人执行单人姿势估计。这种方法虽然直接利用了成熟的单人姿势估计技术,但存在早期承诺问题,即一旦人检测失败,姿势估计也会随之出错。而且,这种自上而下的方法运行时间与人数成正比,不适用于实时场景。 相比之下,自下而上的方法更为理想,因为它对早期错误有更强的容错能力,并有望降低运行时复杂性与人物数量的关联。然而,早期的自下而上方法在实现效率提升的同时,仍需进行全局推理,导致计算成本较高。 本文提出的方法采用了一个两分支的神经网络架构,同时学习部位位置和部位间的关联,即PAFs。通过这种方式,模型能够在预测过程中获取全局上下文,而无需进行昂贵的全局推理步骤。在COCO2016关键点挑战赛中,这种方法表现优异,不仅在性能上超越了先前的MPII多人基准的最优结果,而且在效率上也有显著提升。 具体到技术细节,Pishchlin等人[22]的工作引入了自下而上的联合标记部件和个体关联,但通过整数线性规划解决完全连通图的问题导致了极高的计算成本。相比之下,Insafutdinov等人[11]采用了基于ResNet的更强大的部位检测器,结合图像相关成对分数,提高了部位检测的准确性,但仍然需要解决复杂度问题。 总结而言,基于PAF的实时多人二维位姿估计技术通过创新的网络结构和学习策略,有效地解决了多人姿态估计中的挑战,实现了高精度和实时性,为计算机视觉领域的多人姿态识别提供了新的解决方案。