时空压缩激励残差乘法网络提升视频动作识别

0 下载量 118 浏览量 更新于2024-09-03 收藏 850KB PDF 举报
"时空压缩激励残差乘法网络的视频动作识别" 本文主要探讨了在视频动作识别领域中,如何改进双流网络结构以提高识别性能。传统的双流网络包括空间流和时间流,分别处理视频的帧间图像信息和帧间运动信息。然而,这种结构在捕获空间和时间信息方面存在不足,尤其是在浅层网络和一般深度模型中。作者针对这一问题,提出了将压缩激励残差网络应用于空间流和时间流中,以强化对空间和时间信息的学习。 压缩激励残差网络(Squeeze-and-Excitation Residual Network)是一种能够有效提取和利用特征的网络结构,它通过压缩和激励操作来调整通道间的权重,从而增强模型对关键特征的敏感性。在此基础上,作者进一步创新性地引入了恒等映射核作为时间滤波器,这有助于捕捉视频中的长期时间依赖性,这对于理解连续的动作序列至关重要。 为增强空间信息和时间信息之间的交互,作者采用了时空特征相乘融合的方法。这种方法相比简单的相加融合,能更好地保留两种信息的特性,因为乘法操作能够放大重要的特征而忽略不重要的特征。作者还系统研究了不同融合方式、融合次数以及融合位置对识别性能的影响,这些发现有助于优化网络设计。 考虑到单个模型的性能可能有限,作者提出了三种不同的策略来生成多个模型,并结合直接平均和加权平均集成技术,以集成学习的方式进一步提高识别准确率。集成学习是一种常用的技术,它通过结合多个模型的预测结果来减少错误和提高整体性能。 实验在两个标准数据集HMDB51和UCF101上进行,结果显示提出的时空压缩激励残差乘法网络确实提升了动作识别的性能。这证明了该方法的有效性和可行性,对于视频分析和理解领域具有重要的理论和实践价值。 本文提出的时空压缩激励残差乘法网络通过创新的网络结构和融合策略,成功地解决了传统双流网络在处理空间和时间信息时的不足,提高了视频动作识别的准确性和鲁棒性。这一研究成果不仅对于视频分析,也对于更广泛的计算机视觉任务,如物体检测、场景理解等,提供了新的思路和方法。