时空金字塔与注意力机制结合的深度人体动作识别

需积分: 10 48 浏览量更新于2024-08-13 3 收藏 1.39MB PDF 举报

"基于改进的深度神经网络的人体动作识别模型" 本文提出了一种创新的深度神经网络模型，专门用于人体动作识别，旨在解决现有方法中存在的输入固定长度视频段和时空信息利用不足的问题。该模型结合了时空金字塔网络（Spatial-Temporal Pyramid Network, STPN）和注意力机制（Attention Mechanism），将3D卷积神经网络（3D-CNN）与长短时记忆网络（LSTM）有效融合，以实现对视频序列的多尺度处理和复杂时空信息的充分利用。首先，模型采用3D-CNN来捕捉视频中的空间和时间特征，通过时空金字塔结构，对不同尺度的动作片段进行分析，增强了模型对不同长度动作的适应性。3D-CNN能够同时考虑空间和时间维度的信息，对于人体动作识别来说，这是非常关键的，因为它允许网络理解动作的动态演变。其次，引入了注意力机制的LSTM层，该机制可以动态地聚焦于视频中的重要帧或区域，忽略不相关的背景信息。LSTM网络在处理序列数据时表现出色，通过学习长期依赖关系，能更好地理解动作的连续性。在输入层，模型使用RGB图像和光流场作为两种主要的输入源，分别代表空间信息和时间信息。RGB图像提供视觉细节，而光流场则揭示了像素级别的运动信息，两者结合有助于模型更全面地捕获动作的动态特性。经过3D-CNN和LSTM的处理后，模型通过融合金字塔池化层的运动和外观特征，生成融合特征，这些特征在融合域内进一步处理。最后，采用决策融合策略来综合多个决策层的输出，从而得出最终的动作识别结果。这种决策融合策略提高了识别的准确性，减少了错误识别的可能性。在UCF101和HMDB51这两个标准动作识别数据集上的实验结果显示，该改进的网络模型取得了94.2%和70.5%的识别准确率，表明其在人体动作识别任务上的表现优于许多传统方法。这表明，结合时空金字塔和注意力机制的深度学习模型在处理视频数据和提取复杂动作特征方面具有显著优势。这项工作是深度学习在人体动作识别领域的创新应用，通过优化网络架构，提升了模型对视频数据的理解和动作识别的精度，为后续的视频分析和理解研究提供了有价值的参考。

　　收稿日期：２０１８０６２１；修回日期：２０１８０８２３　　基金项目：四川省教育厅重点科研资助项目（１７ＺＡ００６４）

　　作者简介：何冰倩（１９９４），女，四川阆中人，硕士，主要研究方向为图形图像处理（ｄａｎｄｅｌｉｏｎｑｉａｎ＠ｆｏｘｍａｉｌ．ｃｏｍ）；魏维（１９７６），男，教授，博士，

主要研究方向为图形图像处理；张斌（１９９２），男，硕士，主要研究方向为图形图像处理；高联欣（１９９４），男，硕士研究生，主要研究方向为图形图像

处理；宋岩贝（１９９４－），男，硕士研究生，主要研究方向为图形图像处理．

基于改进的深度神经网络的人体动作识别模型



何冰倩

ａ

，魏　维

ｂ

，张　斌

ａ

，高联欣

ａ

，宋岩贝

ａ

（成都信息工程大学ａ．计算机学院；ｂ．软件工程学院，成都６１０２２５）

摘　要：针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题，提出一种基于时

空金字塔和注意力机制相结合的深度神经网络模型，将包含时空金字塔的３ＤＣＮＮ和添加时空注意力机制的

ＬＳＴＭ模型相结合，实现了对视频段的多尺度处理和对动作的复杂时空信息的充分利用。以ＲＧＢ图像和光流场

作为空域和时域的输入，以融合金字塔池化层的运动和外观特征后的融合特征作为融合域的输入，最后采用决

策融合策略获得最终动作识别结果。在

ＵＣＦ１０１和ＨＭＤＢ５１数据集上进行实验，分别取得了９４．２％和７０．５％的

识别准确率。实验结果表明，改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确率。

关键词：动作识别；深度学习；时空金字塔；注意力机制；卷积神经网络

中图分类号：ＴＰ３９１．４１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１９）１００５０３１０７０５

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．０６．０３６１

Ｉｍｐｒｏｖｅｄｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｈｕｍａｎａｃｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ

ＨｅＢｉｎｇｑｉａｎ

ａ

，ＷｅｉＷｅｉ

ｂ

，ＺｈａｎｇＢｉｎ

ａ

，ＧａｏＬｉａｎｘｉｎ

ａ

，ＳｏｎｇＹａｎｂｅｉ

ａ

（ａ．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｂ．ＳｃｈｏｏｌｏｆＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ，ＣｈｅｎｇｄｕＵｎｉｖｅｒｓｉｔｙｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，Ｃｈｅｎｇｄｕ６１０２２５，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｉｍｉｎｇａｔｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅｅｘｉｓｔｉｎｇｈｕｍａｎｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎｍｅｔｈｏｄｎｅｅｄｅｄｔｏｉｎｐｕｔａｆｉｘｅｄｌｅｎｇｔｈｖｉｄｅｏｓｅｇ

ｍｅｎｔａｎｄｕｎｄｅｒｕｔｉｌｉｚｅｄｔｈｅｓｐａｔｉｏｔｅｍｐｏｒａｌｉｎｆｏｒｍａｔｉｏｎ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌｂａｓｅｄｏｎｔｈｅｃｏｍｂｉ

ｎａｔｉｏｎｏｆｓｐａｃｅｔｉｍｅｐｙｒａｍｉｄａｎｄａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ．Ｔｈｉｓｉｍｐｒｏｖｅｄａｒｃｈｉｔｅｃｔｕｒｅｃｏｍｂｉｎｅｄ３ＤＣＮＮｉｎｃｌｕｄｉｎｇｓｐａｔｉｏｔｅｍｐｏｒａｌ

ｐｙｒａｍｉｄｓｗｉｔｈＬＳＴＭｍｏｄｅｌｗｉｔｈｓｐａｔｉｏｔｅｍｐｏｒａｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ

，ａｎｄｒｅａｌｉｚｅｄｍｕｌｔｉｓｃａｌｅｐｒｏｃｅｓｓｉｎｇｏｆｖｉｄｅｏｓｅｇｍｅｎｔｓ

ａｎｄｆｕｌｌｕｔｉｌｉｚａｔｉｏｎｏｆｃｏｍｐｌｅｘｓｐａｔｉｏｔｅｍｐｏｒａｌｉｎｆｏｒｍａｔｉｏｎｏｆａｃｔｉｏｎｓ．Ｆｏｒｔｈｅａｒｃｈｉｔｅｃｔｕｒｅ，ｔｈｅｉｎｐｕｔｓｏｆｓｐａｔｉａｌａｎｄｔｅｍｐｏｒａｌ

ｄｏｍａｉｎｗｅｒｅＲＧＢｉｍａｇｅａｎｄｔｈｅｏｐｔｉｃａｌｆｌｏｗ

，ｔｈｅｉｎｐｕｔｏｆｔｈｅｆｕｓｉｏｎｄｏｍａｉｎｗａｓｔｈｅｆｕｓｉｏｎｆｅａｔｕｒｅｏｆｔｈｅｍｏｔｉｏｎａｎｄａｐｐｅａｒ

ａｎｃｅｆｅａｔｕｒｅｓｏｆｔｈｅｐｙｒａｍｉｄｐｏｏｌｉｎｇｌａｙｅｒ．Ｆｉｎａｌｌｙ，ｉｔｕｓｅｄｔｈｅｄｅｃｉｓｉｏｎｆｕｓｉｏｎｓｔｒａｔｅｇｙｔｏｏｂｔａｉｎｔｈｅｆｉｎａｌｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ

ｒｅｓｕｌｔ．ＥｘｐｅｒｉｍｅｎｔｓｗｅｒｅｐｅｒｆｏｒｍｅｄｏｎｔｈｅＵＣＦ１０１ａｎｄＨＭＤＢ５１ｄａｔａｓｅｔｓ，ｉｔａｃｈｉｅｖｅｄ９４．２％ａｎｄ７０．５％ｒｅｃｏｇｎｉｔｉｏｎａｃｃｕ

ｒａｃｙ

，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｉｍｐｒｏｖｅｄｎｅｔｗｏｒｋｍｏｄｅｌａｃｈｉｅｖｅｓｈｉｇｈｒｅｃｏｇｎｉｔｉｏｎａｃｃｕｒａｃｙｉｎｖｉｄｅｏ

ｂａｓｅｄｈｕｍａｎｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎｔａｓｋｓ．

Ｋｅｙｗｏｒｄｓ：ａｃｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ；ｄｅｅｐｌｅａｒｎｉｎｇ；ｓｐａｔｉｏｔｅｍｐｏｒａｌｐｙｒａｍｉｄ；ａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ；ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ

０　引言

人体行为识别在机器人交互、虚拟现实、家庭和公共安全

等领域的广泛应用，使其正逐渐成为计算机视觉最活跃的研究

领域之一。目前的识别算法和模型可以大概分为两类，一类是

基于传统手选特征的识别算法

［１～５］

，一类是基于深度学习的识

别算法和模型

［６～１３］

。其中，基于深度学习的方法在各类具有

挑战性的视频数据集上展现出了优于传统方法的较大优势。

尽管如此，如何准确地区分不同类别的行为动作仍然存在巨大

的挑战性。比如光照或遮挡等视频环境因素、动作类别的类间

和类内差异、视频数据集较少，这些问题都对鲁棒特征提取和

动作分类构成了巨大挑战。为了突破卷积神经网络只应用于

二维图像这一局限并且能够有效地将视频分析中的运动信息

结合起来，文献［１４］提出在ＣＮＮ卷积层中执行三维卷积，从而

捕获空间和时间维度的区分性特征，但是该模型仍然不能充分

利用视频的时空特征。文献［

６］为了更好地利用视频数据中

的时间信息，提出了结合空间域和时间域的双流卷积网络

（ｔｗｏｓｔｒｅａｍｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ），两个卷积网络分别以视频

数据的ＲＧＢ图像和视频帧的光流作为输入，然后提取动作表

示的视频帧时间和空间特征，最后通过融合分类识别。该模型

在一定程度上利用了视频序列的时空特征，但是由于只关注了

当前步骤的卷积映射，可能不足以捕获不同类别动作的复杂时

空线索

［１３］

。目前基于ＣＮＮ的识别模型都仅仅是捕获了短时

间规模的时空特征，无法表示长时间的变化。经过文献［９，１０，

１５，１６］的实验证明，循环神经网络（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ，

ＲＮＮ）能在一定程度上解决这个问题，尤其是对视频序列能够有

效建模的长时短期记忆模型（

ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ，ＬＳＴＭ）

［１７］

。

但是在这些模型中，ＬＳＴＭ的输入是直接从ＣＮＮ的全连接层中

提取的高级特征，而这些特征缺乏时空特征细节。

针对上述问题，本文在时空双流卷积网络识别模型的基础

上，提出了一种结合时空金字塔和注意力机制的深度神经网络

模型（

ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｃｏｍｂｉｎｉｎｇｓｐａｔｉａｌｔｅｍｐｏｒａｌｐｙｒａｍｉｄａｎｄ

ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ，ＳＴＰＰａｎｄａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍｎｅｔｗｏｒｋ）。首

先将视频序列的ＲＧＢ图像和视频帧的光流分别通过３Ｄ卷积

神经网络获取时空卷积特征映射，然后利用时空金字塔池化

（ｓｐａｔｉａｌｔｅｍｐｏｒａｌｐｙｒａｍｉｄｐｏｏｌｉｎｇ，ＳＴＰＰ）来聚合局部时空信息

形成固定长度的特征向量，再通过时空特征融合策略在ＳＴＰＰ

层对时空特征进行有效融合，最后将时空３Ｄ双流网络提取到

的时空特征和融合后的特征分别输入到具有时空注意力机制

的ＬＳＴＭ模型和普通ＬＳＴＭ模型中进行建模，对模型分类结果

第３６卷第１０期

２０１９年１０月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３６Ｎｏ．１０

Ｏｃｔ．２０１９

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38706197

粉丝: 2
资源: 979

时空金字塔与注意力机制结合的深度人体动作识别

基于改进的深度神经网络的人体动作识别模型_作者1

基于卷积神经网络的人体动作识别.pdf

基于深度神经网络的人体动作识别方法.pdf

使用几何深度神经网络识别人体动作的刚性与非刚性变换方法

基于特权信息的深度动作识别的学习和优化

基于李群的深度学习用于动作识别的研究

自适应扫描池：用于视频动作识别的深度卷积神经网络方法

基于分组时空聚合的动作识别模型

基于深度神经网络的表情识别

基于深度学习的军体拳动作识别模型

最新资源