多模态特征融合提升人体行为识别精度

需积分: 0 18 下载量 162 浏览量 更新于2024-08-13 2 收藏 1.06MB PDF 举报
本文主要探讨了一种创新的人体行为识别方法,该方法针对单一行为模态特征难以精确表示复杂动作的问题。论文由上海电力大学计算机科学与技术学院的周雪雪、雷景生和卓佳宁共同研究并提出,他们关注的是如何通过结合RGB特征和3D骨骼特征,提高人体行为识别的准确性。 研究的核心是设计了一种名为C3DP-LA网络的双通道结构。第一个通道(通道1)利用了改进的3D卷积神经网络(3DCNN),其中引入了时空金字塔池化(STPP)来捕捉行为视频中的时空信息,增强特征表达能力。同时,这个通道还集成了一个基于时空注意力机制的长短时记忆网络(LSTM),以更好地处理序列数据,关注关键的时间点和动作细节。 第二个通道则是时空图卷积网络(ST-GCN),它专门处理骨骼数据,通过图结构模型来捕捉肢体间的相互作用和动态变化,进一步补充RGB特征无法捕捉的运动学信息。这种方法强调了不同模态之间的互补性,使得特征更加全面。 论文的关键步骤包括特征提取、融合以及分类。提取的RGB和3D骨骼特征被整合在一起,通过特征融合技术增强整体表示,使之更能反映人体动作的完整性和多样性。最后,融合后的特征通过Softmax分类器进行分类,评估其在公开数据集UCF101和NTU RGB + D上的识别性能。 实验结果表明,相比于现有的行为识别算法,基于多模态特征学习的方法在识别精度上具有显著的优势。这表明,结合RGB视觉信息和骨骼运动信息能够有效提高行为识别的鲁棒性和准确性,对于实际场景如视频监控、健康监测等领域具有潜在的应用价值。 参考文献: 周雪雪, 雷景生, 卓佳宁. 基于多模态特征学习的人体行为识别方法. 计算机系统应用, 2021, 30(4): 146-152. <http://www.c-s-a.org.cn/1003-3254/7875.html> 通过这篇论文,我们可以了解到多模态特征融合在人体行为识别中的重要性,以及如何利用深度学习技术提升识别性能,这对于后续的研究者来说,是一个有价值的技术路线和参考案例。