时空压缩激励残差乘法网络提升视频动作识别

118 浏览量更新于2024-09-03 收藏 850KB PDF 举报

"时空压缩激励残差乘法网络的视频动作识别" 本文主要探讨了在视频动作识别领域中，如何改进双流网络结构以提高识别性能。传统的双流网络包括空间流和时间流，分别处理视频的帧间图像信息和帧间运动信息。然而，这种结构在捕获空间和时间信息方面存在不足，尤其是在浅层网络和一般深度模型中。作者针对这一问题，提出了将压缩激励残差网络应用于空间流和时间流中，以强化对空间和时间信息的学习。压缩激励残差网络（Squeeze-and-Excitation Residual Network）是一种能够有效提取和利用特征的网络结构，它通过压缩和激励操作来调整通道间的权重，从而增强模型对关键特征的敏感性。在此基础上，作者进一步创新性地引入了恒等映射核作为时间滤波器，这有助于捕捉视频中的长期时间依赖性，这对于理解连续的动作序列至关重要。为增强空间信息和时间信息之间的交互，作者采用了时空特征相乘融合的方法。这种方法相比简单的相加融合，能更好地保留两种信息的特性，因为乘法操作能够放大重要的特征而忽略不重要的特征。作者还系统研究了不同融合方式、融合次数以及融合位置对识别性能的影响，这些发现有助于优化网络设计。考虑到单个模型的性能可能有限，作者提出了三种不同的策略来生成多个模型，并结合直接平均和加权平均集成技术，以集成学习的方式进一步提高识别准确率。集成学习是一种常用的技术，它通过结合多个模型的预测结果来减少错误和提高整体性能。实验在两个标准数据集HMDB51和UCF101上进行，结果显示提出的时空压缩激励残差乘法网络确实提升了动作识别的性能。这证明了该方法的有效性和可行性，对于视频分析和理解领域具有重要的理论和实践价值。本文提出的时空压缩激励残差乘法网络通过创新的网络结构和融合策略，成功地解决了传统双流网络在处理空间和时间信息时的不足，提高了视频动作识别的准确性和鲁棒性。这一研究成果不仅对于视频分析，也对于更广泛的计算机视觉任务，如物体检测、场景理解等，提供了新的思路和方法。

2019 年 10 月 Journal on Communications October 2019

2019194-1

第 40 卷第 10 期通信学报 Vol.40

No.10

时空压缩激励残差乘法网络的视频动作识别

罗会兰，童康

（江西理工大学信息工程学院，江西赣州 341000）

摘要：针对双流网络结构中浅层网络和一般深度模型学习空间信息和时间信息的不足，提出将压缩激励残差网

络用于空间流和时间流的动作识别，同时将恒等映射核作为时间滤波器注入网络中捕获长期时间依赖性。为了进

一步加强压缩激励残差网络的空间信息和时间信息之间的交互，采用时空特征相乘融合，并研究空间流和时间流

乘法融合方式、次数以及位置对识别性能的影响。鉴于单个模型获得性能的局限性，提出了 3 种不同的策略生成

多个模型，并使用直接平均与加权平均集成以得到最终识别结果。HMDB51 和 UCF101 数据集上的实验结果表明，

所提时空压缩激励残差乘法网络能够有效提升动作识别性能。

关键词：动作识别；时空流；压缩激励残差网络；相乘融合；多模型集成

中图分类号：TP391

文献标识码：A

doi: 10.11959/j.issn.1000−436x.2019194

Spatiotemporal squeeze-and-excitation residual multiplier

network for video action recognition

LUO Huilan, TONG Kang

School of Information Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China

Abstract: Aiming at the shortcomings of shallow networks and general deep models in two-stream network structure,

which could not effectively learn spatial and temporal information, a squeeze-and-excitation residual network was pro-

posed for action recognition with a spatial stream and a temporal stream. Meanwhile, the long-term temporal dependence

was captured by injecting the identity mapping kernel into the network as a temporal filter. Spatiotemporal feature multi-

plication fusion was used to further enhance the interaction between spatial information and temporal information of

squeeze-and-excitation residual networks. Simultaneously, the influence of spatial-temporal stream multiplication fusion

methods, times and locations on the performance of action recognition was studied. Given the limitations of performance

achieved by a single model, three different strategies were proposed to generate multiple models, and the final recognition

result was obtained by integrating these models through averaging and weighted averaging. The experimental results on

the HMDB51 and UCF101 datasets show that the proposed spatiotemporal squeeze-and-excitation residual multiplier

networks can effectively improve the performance of action recognition.

Key words: action recognition, spatiotemporal stream, squeeze-and-excitation residual network, multiplication fusion,

multi-model ensemble

1 引言

视频作为信息的主要载体之一，已越来越多地

被人们共享。如何理解和分析这些海量涌现的视频

数据至关重要。视频中的人体动作识别

[1-4]

一直广受

研究者的青睐，在日常生活安全、视频信息检索、

收稿日期：2019−03−04；修回日期：2019–07–17

基金项目：国家自然科学基金资助项目（No.61862031）；江西省自然科学基金资助项目（No.20171BAB202014）；江西省

赣州市“科技创新人才计划”基金资助项目

Foundation Items: The National Natural Science Foundation of China(No.61862031), Jiangxi Natural Science Founda-

tion(No.20171BAB202014), “Science and Technology Innovation Talent Plan” Project of Ganzhou, Jiangxi Province

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38590775

粉丝: 2
资源: 915

时空压缩激励残差乘法网络提升视频动作识别

一种3D残差神经网络视频行人动作分类改进方法.pdf

基于残差神经网络的说话人识别

深度残差网络怎么改成深度残差收缩网络

残差网络 图像识别 tensorflow

深度残差网络和残差网络

深度残差网络和残差网络的区别

BP神经网络和残差神经网络异同

基于深度学习的第一视角视频动作识别方法有哪些

基于MSA的残差网络语音情感识别

深度残差网络与残差网络一样吗

最新资源

残差网络图像识别 tensorflow