基于SRU的时空深度特征提取提升视频分类性能

18 浏览量更新于2024-08-27 收藏 868KB PDF 举报

本文探讨了一种创新的视频特征提取方法，旨在解决现有基于时域金字塔技术在处理视频特征时存在的问题。传统的时域金字塔方法往往忽视了视频帧和视频段之间的时序关联，以及未能充分利用视频时间维度的层次结构信息，导致视频分类性能受限。为解决这些问题，研究者提出了一种基于Self-Attention Recurrent Unit (SRU) 的多层次多粒度时空域深度特征提取策略。首先，该方法利用卷积神经网络（CNN）对视频进行多层次分析，分别提取低、中、高三层次的帧特征。这样做的目的是捕捉视频的不同抽象级别，从细节到整体，提供丰富的时空信息。通过构建时域金字塔，每一层都包含不同时间尺度的信息，有助于更好地理解和表达视频中的动态变化。接着，引入级联SRU来强化模型的学习能力。SRU是一种轻量级的循环神经网络单元，它能够有效地捕捉序列数据中的时间依赖性，不同于其他RNN结构，SRU的计算效率更高，避免了梯度消失或爆炸的问题。在这个框架下，视频段的上下文信息得以更准确地建模，从而增强特征表示的精度。最后，通过聚合这三个层次的时域金字塔，生成视频的多层次多粒度全局特征。这种特征融合方式不仅包含了局部的帧信息，也考虑了全局的时间依赖性，提高了特征的表征能力和鲁棒性。在UCF101和HMDB51两个大规模视频分类数据集上的实验结果显示，相较于DTPP（深度时空金字塔网络）和TLE（时空局部特征提取）等传统方法，基于SRU的时域金字塔构建方法在视频分类任务上表现更为优秀，具有更高的识别准确性和稳定性。本文提出的方法在保持时域金字塔架构的基础上，通过引入SRU增强了模型对视频时间依赖性和层次结构的捕捉能力，显著提升了视频特征提取的质量和泛化能力，对于提升视频分析系统的性能具有重要意义。

weixin_38636577

粉丝: 4
资源: 935

基于SRU的时空深度特征提取提升视频分类性能

Python-SRU像训练CNN一样快得训练RNN

基于MobileNetV3与ST-SRU的危险驾驶姿态识别.pdf

sailjson.sru

keras-SRU-master_17464789_SRU_sru的情感分类_SRU的keras实现_srulstm_源码.zi

SRU-Maker:一个简单的基于javascript的SKU文件格式生成器

sru-client-js:SRU Javascript 客户端库

ng-sru:实验性 SRU 1.2 客户端作为 AngularJS 服务

nvo_string.sru

SRU和DC数据集分享

n_base64.sru

最新资源