基于SRU的时空深度特征提取提升视频分类性能

2 下载量 100 浏览量 更新于2024-08-27 收藏 868KB PDF 举报
本文探讨了一种创新的视频特征提取方法,旨在解决现有基于时域金字塔技术在处理视频特征时存在的问题。传统的时域金字塔方法往往忽视了视频帧和视频段之间的时序关联,以及未能充分利用视频时间维度的层次结构信息,导致视频分类性能受限。为解决这些问题,研究者提出了一种基于Self-Attention Recurrent Unit (SRU) 的多层次多粒度时空域深度特征提取策略。 首先,该方法利用卷积神经网络(CNN)对视频进行多层次分析,分别提取低、中、高三层次的帧特征。这样做的目的是捕捉视频的不同抽象级别,从细节到整体,提供丰富的时空信息。通过构建时域金字塔,每一层都包含不同时间尺度的信息,有助于更好地理解和表达视频中的动态变化。 接着,引入级联SRU来强化模型的学习能力。SRU是一种轻量级的循环神经网络单元,它能够有效地捕捉序列数据中的时间依赖性,不同于其他RNN结构,SRU的计算效率更高,避免了梯度消失或爆炸的问题。在这个框架下,视频段的上下文信息得以更准确地建模,从而增强特征表示的精度。 最后,通过聚合这三个层次的时域金字塔,生成视频的多层次多粒度全局特征。这种特征融合方式不仅包含了局部的帧信息,也考虑了全局的时间依赖性,提高了特征的表征能力和鲁棒性。在UCF101和HMDB51两个大规模视频分类数据集上的实验结果显示,相较于DTPP(深度时空金字塔网络)和TLE(时空局部特征提取)等传统方法,基于SRU的时域金字塔构建方法在视频分类任务上表现更为优秀,具有更高的识别准确性和稳定性。 本文提出的方法在保持时域金字塔架构的基础上,通过引入SRU增强了模型对视频时间依赖性和层次结构的捕捉能力,显著提升了视频特征提取的质量和泛化能力,对于提升视频分析系统的性能具有重要意义。