MotionBERT:统一学习人体运动表示的深度学习框架

需积分: 2 1 下载量 2 浏览量 更新于2024-06-22 收藏 610KB PDF 举报
"MotionBERT: A Unified Perspective on Learning Human Motion Representations" 文章“MotionBERT: 一个关于学习人类运动表征的统一视角”探讨了如何从大规模和异构的数据资源中学习有效的人体运动表示,以处理多种以人为中心的视频任务。作者提出了一种预训练方法,训练运动编码器来从部分二维观测中恢复潜在的三维运动,从而提取出包含几何、运动学和物理知识的运动特征。这些特征能够方便地迁移到多个下游任务中。 运动编码器采用双流时空变换器(DSTfroster)神经网络实现,能够全面且自适应地捕捉骨骼关节间的长程时空关系,特别适合于从头训练的三维姿态估计。此外,该框架通过微调预训练的运动编码器,并添加简单的回归头(1-2层),在包括三维姿态估计、动作识别等在内的所有下游任务上都达到了最先进的性能,显示出所学习运动表示的通用性。 研究中提到,尽管在骨架关键点估计、动作分类和表面网格重建等任务上取得了进步,但通常这些任务是独立建模的,没有充分利用彼此之间的关联。例如,时空图卷积网络(ST-GCN)被用于三维姿态估计和动作识别,但它们之间的联系尚未得到深入研究。作者指出,理想的表示应能跨任务共享,捕捉到所有相关任务中的共同运动模式。 然而,开发这样的统一表示面临的主要挑战是数据资源的异构性。运动捕捉系统提供了高精度的3D运动数据,但通常局限于特定的室内环境;而动作识别数据集虽然提供了动作的语义注释,但缺乏详细的运动信息。因此,MotionBERT旨在弥合这些数据源之间的差距,创建一个统一的、适用于多种任务的表示方法。 通过MotionBERT,研究者期望能够促进不同以人为中心的视频任务之间的知识迁移,推动人工智能在理解和模拟人类行为方面的进一步发展。代码和模型已发布在https://motionbert.github.io/,供研究者和开发者使用和进一步探索。