姿势建议网络:实时二维多人姿态检测新策略

0 下载量 44 浏览量 更新于2024-06-20 收藏 2.23MB PDF 举报
"本文介绍了‘姿势建议网络’,这是一种用于实时检测未知数量的articulated二维姿态的新方法。这种方法是由柯尼卡美能达株式会社的Taiki Kaneko提出的,它在自下而上的姿势检测场景中应用了先进的单次物体检测范例,通过网格图像特征图生成身体部位提议,并通过单镜头CNN直接检测肢体。" 在当前的计算机视觉领域,人体姿态估计是至关重要的任务,尤其在体育分析和人机交互中。姿势估计涉及到定位解剖关键点或部分,可以处理单个或连续图像、使用或不使用深度信息,以及定位2D或3D空间中的部分,并可应用于单人或多人场景。 文章重点探讨了从二维静止图像中估计多人二维姿态的问题,特别是当人实例的地面实况位置和比例未知时,需要检测出未知数量的姿势,这就需要实现人体姿态检测。现有的方法通常分为两类:自上而下和自下而上。自上而下的方法在处理多人时,运行时间随着人数增加而增加,不利于实时应用;而自下而上的方法虽然在实时性上有优势,但它们依赖于耗时的部件关联过程,这成为了性能瓶颈。 为了克服这些限制,"姿势建议网络"引入了新的策略。该网络利用ResNet-18架构,直接从输入图像中检测部分边界框和肢体,然后通过解析步骤将这些提议转换为个体人的姿态。实验在MPII多人基准测试中显示,这种方法的mAP达到了72.8%,与最先进的自下而上方法相当,同时总运行时间仅为5.6毫秒(180FPS),显著快于现有方法的瓶颈运行时间。 这种方法的关键创新在于将逐像素身体部位检测器的运行时复杂性与CNN特征图分辨率分离。通过使用逐网格图像特征图,可以生成区域提议,这些提议随后被用于检测肢体。此外,解析步骤被重新设计以考虑全局上下文,从而提高了准确性和效率。 "姿势建议网络"为实时多人二维姿态检测提供了高效且准确的解决方案,为未来在实时应用如监控、虚拟现实和增强现实等领域的应用奠定了基础。这一技术的引入有望推动计算机视觉领域在人体姿态估计方面的进步。