基于深度学习的3D骨架序列动作识别新方法

0 下载量 9 浏览量 更新于2025-01-16 收藏 794KB PDF 举报
本文主要探讨了一种新颖的三维动作识别方法,该方法利用骨架序列作为输入。骨架序列,特别是3D坐标中的人体关节运动,是动作识别的重要载体,因为它能够抵抗光照变化和摄像机视角变化,具有高度的鲁棒性。研究者针对这一特性,提出了一个两阶段的处理流程。 首先,将每一个骨架序列分解为三个剪辑,每个剪辑由若干帧构成,这一步旨在提取序列中的时空特征。每个帧不仅包含时间信息,还反映了关节间的特定空间关系。通过这种方式,剪辑不仅展示了动作的连续性,还捕捉到了骨骼结构的关键空间布局。 接着,采用深度卷积神经网络(DCNN)对这些剪辑的帧进行学习,深度神经网络的优势在于能有效地处理长序列数据,尤其是对于具有复杂时空依赖性的动作识别任务。然而,单个LSTM网络在处理长序列时可能存在信息遗忘的问题,因此,研究者引入了多任务学习网络(MTLN),以并行处理所有剪辑的帧,从而更好地融合空间结构信息。 通过这种结合,深度卷积网络和多任务学习网络共同作用,可以捕捉到骨架序列的时空特征,以及不同帧之间的空间关系,从而提高了三维动作识别的准确性和鲁棒性。实验结果显示,与传统方法相比,这种方法在三维动作识别任务上表现出显著的优势。 本文的主要贡献在于提出了一种新颖的骨架序列表示方法和特征学习策略,结合了时空信息的深度学习模型和多任务处理机制,为三维动作识别领域的研究带来了新的突破。这一研究对于提高视频监控、游戏交互和人体行为理解等应用场景中的动作识别性能具有重要意义。