时空信息驱动的时序动态图双流网络人体行为识别

6 下载量 13 浏览量 更新于2024-08-27 收藏 3.11MB PDF 举报
本文主要探讨了结合时序动态图和双流卷积网络的人体行为识别方法。在当前的计算机视觉领域,对长时间和空间信息的精确捕捉对于理解复杂的人体动作至关重要。作者针对这一问题,提出了一种创新的算法设计。 首先,文章引入了双向顺序池化算法,用于构建时序动态图。这是一种将三维的视频数据转化为二维结构的技术,通过这种方式,能够捕捉到动作的外观特征(表观信息)以及长时的时空动态变化,这对于识别动作的连贯性和模式至关重要。 接下来,作者提出了一种基于InceptionV3架构的双流卷积网络。这种网络结构包括两个子流:表观流和运动流。表观流处理时序动态图,捕捉动作的整体外观信息;而运动流则处理堆叠的光流帧序列,关注动作的局部运动细节,尤其是短时动态。通过数据增强技术,如旋转、缩放和亮度调整,增强了模型对不同环境和视角下的行为识别能力。此外,模态预训练使得模型在初始阶段就能从大量数据中学习通用特征,而稀疏采样则有助于减少计算量,提高效率。 最后,两种流的输出类别判定分数通过平均池化进行融合,综合考虑了时空维度的信息,提高了整体识别精度。实验结果在UCF101和HMDB51这两个广泛使用的动作识别数据集中得到了验证,相较于传统的双流卷积网络,该方法显著提升了识别率,并展示了良好的鲁棒性和有效性。 总结来说,本文的核心贡献在于设计了一种新颖的人体行为识别框架,它巧妙地结合了时序动态图和双流卷积网络的优势,有效地捕捉了动作的时空特性,从而提高了识别性能。这种方法在实际应用中具有广阔前景,尤其是在监控、体育分析和虚拟现实等领域。