PersonLab:自底向上的人体姿态估测与实例分割新法

0 下载量 84 浏览量 更新于2024-06-20 收藏 2.81MB PDF 举报
PersonLab是一个创新的深度学习模型,专注于在多人图像中同时实现人体姿势估计和实例分割。该模型由乔治·帕帕纳德罗乌、泰勒·朱、梁池·陈、斯皮罗斯·吉达里斯、乔纳森·汤普森和凯文·墨菲等人在Google Research团队共同开发,他们利用了自下而上的策略,这是一种与传统的自上而下方法(首先检测物体,然后在对象内进行细分)不同的方法。 模型的核心特点是基于部分的建模,它利用卷积神经网络(CNN)的能力来检测关键点并预测它们之间的相对位置。这种设计使得模型能够将关键点有效地组合成人体姿势实例,增强了对复杂姿势的理解和准确度。此外,部分诱导的几何嵌入描述符进一步强化了模型的性能,它将语义级别的像素与相应的实例关联起来,从而提供了实例级别的人体分割,这对于精确识别个体在场景中的位置至关重要。 PersonLab采用了一种完全卷积的架构,使得推理过程高效且与场景中的人数无关,这在实时应用中具有很大的优势。经过在COCO数据集上的训练,单尺度推理时,PersonLab在COCO测试开发集上达到了0.665的关键点平均精度,而多尺度推理则提高了到0.687,这明显优于之前的所有自下而上方法。对于实例分割任务,尤其是人类实例分割,它实现了人类平均精度达到0.417,这是自下而上方法中的一个突破性成就。 PersonLab代表了在多人场景中进行细致视觉理解的重大进展,它的成功在于结合了有效的局部特征处理、实例关联和整体架构设计,为计算机视觉领域的多个任务提供了强有力的支持,包括智能照片编辑、活动识别、虚拟现实和机器人技术等。