深度学习驱动的人体行为识别技术探析

需积分: 0 107 浏览量更新于2024-08-04 收藏 697KB PDF 举报

"这篇文章是关于基于深度学习的人体行为识别算法的研究综述，作者包括朱煜、赵江坤、王逸宁和郑兵兵。文章发表于2016年6月的《自动化学报》第42卷第6期，讨论了深度学习在人体行为识别领域的应用，特别是卷积神经网络（CNN）、独立子空间分析（ISA）、限制玻尔兹曼机（RBM）和递归神经网络（RNN）等技术。文中还分析了这些模型的性能、进展和优缺点。" 基于深度学习的人体行为识别是智能视频分析的重要组成部分，它涉及到计算机视觉、机器学习等多个领域。传统的行为识别方法通常依赖于时空兴趣点（Spatio-Temporal Interest Points, STIPs），这些方法虽然在一定程度上能捕捉到行为的关键特征，但往往难以处理复杂的动态场景和多变的身体姿态。深度学习，尤其是卷积神经网络（CNN），已经在图像识别领域取得了突破性进展。CNNs通过多层次的特征学习，能够自动从原始视频帧中抽取高级抽象特征，这对于人体行为的理解非常关键。CNNs在处理时空数据时，如通过三维卷积或者将连续的视频帧作为输入，可以有效地捕获行为的时间连续性和空间一致性。独立子空间分析（ISA）是一种非监督学习方法，常用于信号处理和模式识别。在行为识别中，ISA可以帮助发现数据中的潜在结构，从而分离出与特定行为相关的特征。限制玻尔兹曼机（RBM）是生成式模型，特别适合学习高维数据的隐含表示。在行为识别中，RBM可以学习到有效的表示，用于区分不同行为模式。递归神经网络（RNN），特别是长短期记忆网络（LSTM），因其内在的循环结构，非常适合处理时间序列数据，如视频序列。RNN能够捕捉行为的长期依赖关系，对于识别具有复杂时间结构的行为非常有效。文章中作者对这些模型进行了性能评估和对比，总结了它们在行为识别任务上的优缺点。例如，CNNs在特征学习上的优势，但可能需要大量的标注数据；ISA适用于发现数据的内在结构，但可能对噪声敏感；RBM在建模复杂分布方面强大，但训练过程可能较复杂；RNN在处理时间序列时表现出色，但可能存在梯度消失或爆炸的问题。这篇综述提供了对深度学习在人体行为识别领域的全面了解，为未来的研究提供了有价值的参考和指导。尽管每个模型都有其独特的优势和挑战，但深度学习的不断发展为解决行为识别问题提供了新的思路和工具。随着计算能力的增强和数据集的扩大，这一领域的研究将继续深入，有望实现更准确、更鲁棒的行为识别系统。

第 42 卷第 6 期自动化学报 Vol. 42， No. 6

2016 年 6 月 ACTA AUTOMATICA SINICA June， 2016

基于深度学习的人体行为识别算法综述

朱煜

赵江坤

王逸宁

郑兵兵

摘要人体行为识别和深度学习理论是智能视频分析领域的研究热点，近年来得到了学术界及工程界的广泛重视，是智

能视频分析与理解、视频监控、人机交互等诸多领域的理论基础. 近年来，被广泛关注的深度学习算法已经被成功运用于

语音识别、图形识别等各个领域. 深度学习理论在静态图像特征提取上取得了卓著成就，并逐步推广至具有时间序列的视

频行为识别研究中. 本文在回顾了基于时空兴趣点等传统行为识别方法的基础上，对近年来提出的基于不同深度学习框架

的人体行为识别新进展进行了逐一介绍和总结分析; 包括卷积神经网络（Convolution neural network， CNN）、独立子空间

分析（Independent subspace analysis， ISA）、限制玻尔兹曼机（Restricted Boltzmann machine， RBM）以及递归神经网络

（Recurrent neural network， RNN）及其在行为识别中的模型建立，对模型性能、成果进展及各类方法的优缺点进行了分析和

总结.

关键词行为识别，深度学习，卷积神经网络，限制玻尔兹曼机

引用格式朱煜，赵江坤，王逸宁，郑兵兵. 基于深度学习的人体行为识别算法综述. 自动化学报， 2016， 42（6）： 848-857

DOI 10.16383/j.aas.2016.c150710

A Review of Human Action Recognition Based on Deep Learning

ZHU Yu

ZHAO Jiang-Kun

WANG Yi-Ning

ZHENG Bing-Bing

Abstract Human action recognition is an active research topic in intelligent video analysis and is gaining extensive

attention in academic and engineering communities. This technology is an important basis of intelligent video analysis，

video tagging， human computer interaction and many other ﬁelds. The deep learning theory has been made remarkable

achievements on still image feature extraction and gradually extends to the time sequences of human action videos. This

pap er reviews the traditional design of action recognition methods， such as spatial-temporal interest point， introduces

and analyzes diﬀerent human action recognition framework based on deep learning， including convolution neural network

（CNN）， independent subspace analysis （ISA） model， restricted Boltzmann machine （RBM）， and recurrent neural network

（RNN）. Finally， this paper summarizes the advantages and disadvantages of these methods.

Key words Action recognition， deep learning， convolution neural network （CNN）， restricted Boltzmann machine （RBM）

Citation Zhu Yu， Zhao Jiang-Kun， Wang Yi-Ning， Zheng Bing-Bing. A review of human action recognition based on

deep learning. Acta Automatica Sinica， 2016， 42（6）： 848-857

基于机器视觉的人体行为识别是将包含人体动

作的视频添加上动作类型的标签. 近年来，随着视频

采集传感器及信息科学技术的不断发展，这方面的

研究在视频监控、人机接口、基于内容的视频检索

等方面逐渐成为一个具有广泛应用前景的研究课题.

自动化监控对生产生活产生很大的影响，可以应用

在商场、广场以及工业生产的监控中；作为人机交互

的关键技术，可以将其作为智能家居的一部分应用

在家庭中，如监护小孩或者老人的危险行为等；传统

收稿日期 2015-10-31 录用日期 2016-04-18

Manuscript received October 31， 2015； accepted April 18， 2016

国家自然科学基金（61370174， 61271349），中央高校基本科研业务费

专项资金（WH1214015）资助

Supported by National Natural Science Foundation of China

（61370174， 61271349） and the Fundamental Research Funds for

the Central Universities （WH1214015）

本文责任编委柯登峰

Recommended by Associate Editor KE Deng-Feng

1. 华东理工大学信息科学与工程学院上海 200237

1. School of Information Science and Engineering， East China

University of Science and Technology， Shanghai 200237

的视频检索方法都是人工对其进行标定，其中有很

多主观因素，如果能够将人体行为识别方法应用到

该领域，将大大提高建立索引的效率及搜索效果.

人体行为识别工作主要分为两个过程：特征表

征和动作的识别及理解. 图 1 为动作识别的原理框

图. 特征表征是在视频数据中提取能够表征这段视

频关键信息的特征，这个过程在整个识别过程起了

关键的作用，特征的好坏直接会影响到最终的识别

效果. 动作识别及理解阶段是将前一阶段得到的特

征向量作为输入经过机器学习算法进行学习，并将

在测试过程或应用场景中得到的特征向量输入到上

述过程得到的模型中进行类型的识别.

图 1 动作识别原理框图

Fig. 1 The ﬂowchart of action recognition

人体行为识别特征提取方法早期有基于人体几

ChaoXing

下载后可阅读完整内容，剩余9页未读，立即下载

透明流动虚无

粉丝: 39
资源: 306

深度学习驱动的人体行为识别技术探析

基于类内均值的双投影2DPCA人脸识别方法.pdf

数学形态学腐蚀膨胀运算的快速算法.doc )

基于AT89C51单片机的电子表设计说明.doc

数学建模的书籍，给学习着提供参考资料

基于密度分布的肺结节良恶性分类算法及其性能验证

改进的BFS-COP-Kmeans算法：提升聚类准确性

基于流行病理论的无线传感器网络病毒防治模型分析

基于MATLAB打地鼠游戏源码界面版.zip

Android开发：Android Architecture Components教程.pdf

红薯发布文章艾特.zip

最新资源