多尺度卷积神经网络在行为识别中的应用

需积分: 16 1 下载量 192 浏览量 更新于2024-09-07 收藏 583KB PDF 举报
"本文提出了一种基于多尺度卷积算子的卷积神经网络(CNN)行为识别模型,用于同时提取行为序列样本的时间和空间特征。该模型首先将序列中的骨骼向量信息转换为行为矩阵,然后利用扩展为多尺度的卷积算子在CNN中进行特征提取和分类。实验表明,这种方法在MSR-Action3D和HDM05数据集上取得了良好的识别效果。" 正文: 在计算机视觉领域,行为识别(HAR)是关键的研究方向,它在智能监控、机器人视觉和人机交互等多个领域具有重要应用。传统的行为识别主要依赖二维RGB图像,但随着三维体感技术的发展,学者们开始转向三维空间进行行为分析,因为三维数据可以提供更丰富的运动信息。 行为识别,特别是基于骨骼的行为识别,通常被视为时间序列分类问题。早期的方法包括利用先验知识设计的识别模型,如时空金字塔和隐马尔科夫模型。然而,这些方法存在局限性,例如时空金字塔对输入序列长度的限制和上下文信息的有限使用。相比之下,卷积神经网络(CNN)因其在图像处理上的强大能力,逐渐成为行为识别的新选择。 本文提出的多尺度卷积神经网络模型,旨在克服传统方法的局限,通过叠加骨骼向量信息形成行为矩阵,以捕捉时间序列的动态变化。这种矩阵表示允许模型同时考虑时间轴和空间轴上的特征。然后,通过扩展CNN的卷积算子为多尺度形式,模型能够捕获不同邻接关系的骨骼点对行为描述的影响。多尺度卷积允许网络在不同层次和范围上提取特征,增强了对复杂行为模式的识别能力。 实验部分,研究者在MSR-Action3D和HDM05两个标准数据集上验证了所提模型的有效性。这两个数据集包含了各种复杂的人体动作,为模型提供了充分的测试环境。结果显示,提出的多尺度CNN模型在行为识别任务上表现出较高的准确率,证实了其在处理三维行为数据方面的潜力。 该研究通过结合多尺度卷积和CNN,提高了行为识别的效率和准确性,为未来的行为识别研究提供了新的思路。这种方法不仅有助于提升现有系统的表现,也为解决更复杂、更具挑战性的行为识别任务奠定了基础。