一种混合深度学习模型用于人体动作识别的研究及应用

194 浏览量更新于2024-01-14 收藏 842KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种新的用于人体动作识别的混合深度学习模型Neziha Jaouedia，Noureddine Boujnahb，Med Salim BouhlelcaNational Engineering School，Avenue Omar Ibn El Khattab Zrig Eddakhlania，Gabes 6072，TunisiabTSSG-Waterford Institute of Technology，West Campus Carriganore Waterford，X91P0H，IrelandcSETIT Higher Institute of Biotechnology，Soukra Road km 4 BP 261，Sfax 3000，Tunisia阿提奇莱因福奥文章历史记录：收到2019年2019年9月4日修订2019年9月8日接受在线预订2019年保留字：深度学习递归神经网络门控递归单元视频分类运动检测A B S T R A C T人类行为一直是社会交往中的一个重要因素。人类活动和行为识别都是分析人类行为的线索。人体动作识别是人机交互、智能视频监控等领域的一个重要挑战，可以提高不同领域的安全性。评估算法依赖于适当的提取和学习数据。深度学习的成功在包括神经网络在内的多种环境中产生了许多令人印象深刻的结果。在这里，具有增加的计算能力的门控递归神经网络的出现被用于序列数据和视频分类。然而，要有一个有效的分类器来分配类别标签，就必须有一个强大的特征向量。特征是每个数据中最重要的信息事实上，特征提取可以影响算法的性能和计算复杂度。提出了一种基于混合深度学习模型的人体动作识别方法.在具有挑战性的UCF Sports、UCF101和KTH数据集上对所提出的方法进行了评估当我们在KTH数据集上测试时，平均获得96.3%©2019作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在过去的几年中，人们对人类动作识别的兴趣越来越大（Yeffet和Wolf，2009; Shu等人，2014; de Oliveira Silva等人，2017年）在现实世界的环境中，它发现在各种领域的应用。 Vera 等人（2011）开发了一种智能人机交互应用程序，使用增强型镜子与观众交谈该应用程序提出了一种基于人体运动捕捉和检测头部运动的虚拟角色。在同一领域，Lopatovska和Arapakis（2011年）提出了一种分析人类表情的应用，并说明了它们在人类信息行为中的作用此外，不断增加的犯罪率和对监控系统的需求促使研究人员开发情报监控应用程序。Ko（2011）在他的论文中提出了一种视觉监控应用程序，用于检测异常人*通讯作者。电子邮件地址：Neziha_jaouedi@yahoo.fr（N.Jaouedi）。沙特国王大学负责同行审查跟踪和监视性能评估（PETS）数据集上实现的行为。Gowsikhaa等人（2012年）发表了一项名为“来自监控视频的自动人类行为分析”的调查，其中他解释了人类活动分析、人类运动和人类跟踪在监控系统中的作用（Dey等人，2016年）。在另一种情况下，Choi et al. （2013）将深度信念网络算法应用于智能家居中的人类行为建模和预测，以提高居民的生活质量。近年来，互联网购物迅速增长。Yi Jin et al.（2016）提出了一项关于购买意愿、网络购物行为、感知有用性和主观规范之间关系的研究。精确的动作识别（Pulgarin-Giraldo等人，2017年）是一个极具挑战性的任务，由于视点变化和杂波背景的变化。因此，我们可以提到，用于人类动作识别的最流行的最先进的方法（Jian等人，2015; Geng和Song ， 2015 a ）使用工程运动（ Wang 等人， 2011; Toshev 和Szegedy，2014）和围绕时空兴趣点计算的纹理描述符（Geng和Song，2015 b）。此外，这些方法中的大多数遵循模式识别的传统范例。这些方法基于两个步骤：从视频帧中评估复杂的手工特征，并根据所获得的特征学习分类器。在现实世界的场景中，很少知道哪些功能是https://doi.org/10.1016/j.jksuci.2019.09.0041319-1578/©2019作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com448N. Jaouedi等人/沙特国王大学学报这对手头的任务非常重要，因为功能的选择高度依赖于问题。特别地，对于人类动作识别，动作类在它们的出现和运动模式方面可能看起来不同（Kale等人， 2016年）。本文阐述了特征对分类和识别人的行为的重要性。然而，这种情况与用于在视频序列中提取复杂特征的技术和算法密切相关。此外，为了更好地对人体动作进行分类，本文提出了一种新的方法，该方法尝试将运动跟踪与人体跟踪相结合，并对视频序列进行空间特征提取。为了具有用于分类的强特征向量，应用了两种技术;高斯混合模型（GMM）和卡尔曼滤波器（KF）方法来检测和提取运动的人，以及门控递归神经网络来收集每帧中的特征并预测人的动作。此外，为了语义上有意义，这些特征应该更好地描述人类的行为.在这个具有挑战性的，我们评估我们的方法上的UCF（中佛罗里达大学）体育动作，UCF 101和KTH人类动作数据集，我们发现在不同的背景下的各种行动。实验结果表明，该方法是一个很有竞争力的算法的人类行为识别问题。此外，本文的结论是，所提出的方法可以用于各种应用。本文的其余部分组织如下。第二部分介绍了本文的相关工作和研究内容，综述了运动检测、目标跟踪和模式识别的研究现状。第三部分提出了使用门控递归神经网络（GRNN），GMM和KF的混合深度学习模型。第四部分介绍了实验结果以及与现有技术的比较。2. 相关作品目前对人体动作识别的研究主要集中在人体检测和运动跟踪方面。已经提出了许多使用背景减除的人体检测高斯模型使用根据其强度、颜色或纹理组成视频帧的像素的统计建模在视频在背景中具有弱运动的情况下，Wren等人（1997）通过高斯分布对背景的每个像素进行建模。Σ-Δ是另一种背景减除方法。该滤波器由McFarlane和Schofield（1995）提出，用于计算视频序列中每个像素的两阶金等人（2005）提出了一种用于多模态前地/背景分割的算法。它们为背景的每个像素构造由几个码字组成的码本。人体检测有许多方法，但没有一种方法比其他方法更成功高斯混合模型（GMM）（Stauffer和Grimson，1999）是噪声背景下最有效的此外，运动跟踪是一个重要的功能。事实上，更好的动作利用是更好的动作识别。因此，一旦物体被检测到，我们就可以跟踪它的路径。运动目标跟踪可以跟踪和显示目标的运动。这种跟踪可以提供重要的数据，如物体的速度和加速度。此外，近年来，在视频序列中的目标跟踪算法方面也有很多工作。光流（Zhang等人，2017 ）和他的改进，光流直方图（ HOF ）和运动边界直方图（ MBH ），是有效的检测和跟踪移动对象。 Wang 和 Schmid（2013）已经说明了HOF和MBH用于使用Hollywood2的人体跟踪的奥林匹克运动，人体运动数据库基准HMDB51和UCF50数据集。尽管光流法有这些优点，但在光照调制和运动目标强度变化的情况下，光流法仍不能跟踪运动目标。卡尔曼滤波（Liu等人，2007;Jang等人，2002年）在灯光变化方面表现良好。事实上，它是非常流行的研究领域的导航和航空，因为它宏伟的估计。从那时起，卡尔曼滤波器是所谓的“线性二次问题”的估计器。线性二次型问题主要研究受白噪声干扰的线性动态系统的瞬时状态估计。此外，卡尔曼跟踪器调整自适应背景模块的学习参数。此外，Rameshbabu等人（2012）成功地应用卡尔曼滤波器来跟踪行走时的人体并检测她的面部。以及 Patel 和 Thakore（ 2013 ）使用卡尔曼滤波器来跟踪使用基于图像的主动识别（CAVIAR）和PETS数据集的上下文感知视觉的监控视频中的室内和室外环境中的任何单个移动对象。最近，深度学习成为最成功的方法。它用于学习特征的层次结构（Geng和Song，2015 a; Xu等人，2010）在包括视频的许多应用中（Shi等人，2011;Idrees等人，2016），图像，语音和信号处理。因此，前馈神经网络模型可以在对象分类中实现最先进的精度，有时超过人类水平的性能。这些模型是由大量的标记数据和包含许多层的神经网络架构训练的。Baccouche等人（2011）和Latah（2017）介绍了用于人类动作识别的多个3D深度学习和3D卷积神经网络。他的方法在KTH数据集上取得了很好的效果。此外，Deldjoo 最近的工作等人（2017）提出了一种用于电影推荐的深度学习，并取得了成功的结果。然而，也发现了一些缺点：跨时间共享参数不足以捕获输入样本之间的所有相关性。此外，局部连通性将输出限制在少量相邻输入样本的函数中。迄今为止，递归神经网络（RNN）在序列标记和预测任务（如手写识别和语言建模）方面取得了巨大成功。因此，在涉及顺序的多个应用中，或时间数据（Veeriah等人，2015），RNN的各种类型的隐藏单元已被用于解决一系列问题，并取得了令人印象深刻的结果。Hochreiter和Schmidhuber（1997）提出的长短期记忆单元（LSTM）与 RNN 一起用于语音识别等多样性任务（ Graves 和 Jaitly ，2014;Chorowski 等人， 2015 ）、视频字幕（ Karpathy 等人，2014;Vinyals等人，2015; Grushin等人，2013）和手写识别。因此，创建了各种 LSTM 网络架构来优化各种应用程序。双向 LSTM（BLSTM）网络已经由Alex Graves（Graves et al.，2009; Eyben等人， 2009 ）用于逐帧音素分类，它还用于对多流框架进行建模（ Wollmer 等人， 2011 ）用于连续会话语音识别。 LSTM 投影（LSTMP）已经由Hasim Sak提出用于大规模声学建模（Sak等人，2014年）。Cho等人（2014）创建了LSTM单元的简化模型，门控递归单元（GRU）。GRU是LSTM的一个轻量级以前的许多工作都证明了GRU与LSTM相比运行时间更短。GRU已经证明了他们在计算机视觉的各种任务中建模长期时间依赖性的能力。最近在（2017）中，Agarap使用了一种结合门控递归单元和支持向量机SVM（SVM）的神经网络架构，用于网络流量数据中的入侵检测本文的贡献在于如何更好地特征向量来最好地分类人类动作。本工作利用GRU的门控网络信号的性能，N. Jaouedi等人/沙特国王大学学报449不¼-c特征提取和视频分类。此外，为了改进特征向量，采用两种方法来确定视频序列中人的运动特征。3. 该方法3.1. 人体运动跟踪为了更好地发挥门控递归神经网络在视频分类中的性能，有必要对特征提取方法进行改进。特征提取的目标是减少要处理的数据的大小和计算时间。我们考虑了GMM和卡尔曼滤波器来围绕视频中的每一帧运动的人。只有绑定框上的数据将被门控递归神经网络使用背景建模是动态场景中运动人体检测的重要步骤.高斯混合模型是从背景中检测人体运动的最有效的方法。GMM是根据混合密度表示的统计模型。它通常用于通过将各种对象特征建模为几个高斯的和来参数化地估计它们高斯分布的特征是方差、均值和振幅。根据最大似然优化这些参数这个过程是通过期望最大化（EM）算法迭代完成的。对于人类检测，每个像素中的所有观测值都由高斯混合模型建模实际上，GMM为每个像素赋予恒定数量的高斯分布，以便估计参考帧。如果存在弱运动（像素值没有变化），则所有高斯分布近似相同的值，因此需要一个分布。在另一种情况下，如果存在一些运动并且像素值改变，则有必要确定高斯的近似数量。卡尔曼滤波是一种线性滤波算法，当观测噪声为高斯加性时，它能在给定一组测量（或观测）的情况下对动态线性系统的状态进行最优估计。它已被广泛用于人类跟踪的基础上GRU将门控递归神经网络简化为两个门，一个复位门和一个更新门。复位门决定如何将新的输入帧与先前的存储器相结合，而更新门则控制从非易失性存储器中保留什么事实上，GRU已经成功地用于顺序数据结构。对动作的活动标签的预测取决于之前注册的动作GRU的递归内存管理允许我们考虑这些顺序依赖关系来建模问题。此外，GRNN网络特别适合于建模时间关系相关且事件之间的时间间隔大小未知的问题。虽然GRU是所提出的人类动作预测模型的中心元素，但是它们可以在图中被组织为三个部分。 1：输入数据，GRU序列建模和预测模块。输入数据接收GMM和卡尔曼滤波器的结果输入数据的大小因视频而异。实际上，大小取决于相机和人之间的距离。然后将这些输入馈送到GRNN隐藏层以提取相关特征。然后，使用预测模块来预测动作。人类行为的预测基于两个主要阶段：训练和测试。训练阶段在步骤1和2中呈现，测试阶段在步骤3中呈现训练门控递归神经网络模型：- 输入小的视频帧只提出了移动的人- 使用任意值初始化学习参数权重和偏差（它们将通过训练进行调整- 使用输入帧Xi及其学习参数值计算GRU的单元状态。- 通过优化函数调整权重权值通过时间的反向传播进行修正，以最小化误差和损失函数。通过以下等式进行调整在两个循环阶段，预测和校正。在predic-阶段，当前状态的估计从上一个时间步长。这种估计也称为先验状态Wt1@E1/4W-c@Wt=100估算它不需要任何测量值。卡尔曼滤波器估计视频中每个帧它给出了一个精确的结果时，应该有Ut1Ut@E@Utð2Þ是移动的人的速度的任何变化它可以利用其中c表示学习速率，@Et和@E是梯度值采用线性模型和高斯噪声得到最佳结果。卡尔曼滤波器是一种递归估计器，对当前状态的估计需要前一状态及其当前观测值。这两项足以估计目前@WE是误差和损失函数。- 保存训练好的GRNN模型。@Ut状态卡尔曼滤波器使用加权平均现象将系统状态预测与新的测量进行平均，以获得更准确的估计值。利用GMM和Kalman方法的主要目的是通过在每帧视频中运动人物的包围盒来减少计算时间和3.2. 用于动作分类的迄今为止，一项关于具有不同类型隐单元的递归神经网络的研究已经说明了它们在视频分类和动作识别的各种应用中的性能。为了减少RNN的变量数和隐层单元的参数，我们在标准RNN的每个节点中加入了一个门控递归单元。本单元用于模拟测试：我们编译使用不同视频获得的模型。我们提出的模型的输出是每个类的概率分布，其中每个类代表一个人的行动。最后，测试视频属于具有最大概率的类别。4. 实验4.1. 数据集和实验装置我们在UCF Sports Action、UCF 101和KTH数据集上进行了实验，以证明我们的动作识别模型的重要特征。UCF Sports1：UCF Sports是最早的动作识别数据集之一它由从各种运动中收集的一组动作组成依赖时间的长期和解决问题的范，梯度。用于视频分类和人体动作识别-1http://crcv.ucf.edu/data/UCF_Sports_Action.php。450N. Jaouedi等人/沙特国王大学学报×××图1.一、人体运动预测模型概述：在运动跟踪中，我们使用了GMM和卡尔曼滤波器：a）在KTH数据集中呈现跑步者的帧b）使用GMM基于背景减除方法的c）基于卡尔曼滤波跟踪方法的人体运动边界框。GRNN模型分为三层（输入层、一个隐藏层和输出层）。该数据集由150个视频组成，分辨率为720 - 480，用于10个人类动作。此数据集的帧数因视频而异。最大为30到130帧在每个视频中。UCF1012：UCF101（Soomro等人， 2012年）是最大的行动数据集，也是行动和规模方面最具挑战性的行动数据集之一。它包含了各种各样的行动与一个大的变化，在相机运动和混乱的背景。该数据集由13，320个视频组成，每个视频最多150帧，分辨率为320 240，101人的行动分为五种类型，人-物体互动，人-人互动，演奏乐器，身体运动和体育运动。为了评估所提出的方法，两种类型被使用的身体运动和体育66个动作。KTH3：KTH是人类行为最常用的公共数据集。它包含6种类型的视频动作和160 120的分辨率（步行，慢跑，跑步，拳击，挥手和拍手）。用于视频分类的帧数大约为每个视频100帧（表1）。4.2. 结果和讨论为了验证我们的方法，实验结果进行了最新版本的Matlab代码在笔记本电脑与英特尔酷睿i7- 8550 U第八代处理器4.0 GHz和8 GB的内存。对于视频分类，数据集被分成四分之三的视频用于训练，四分之一用于测试。该模型分为四个主要步骤：首先，我们实现了GMM和卡尔曼滤波器提取人体运动在KTH数据集的每一帧。这些方法被成功地使用，并且结果在我们的论文（Jaouedi等人，2016年a）。其次，KNN方法与GMM和卡尔曼滤波器一起用于人体动作分类，其中Jaouedi等人的分类率达到71%。（2016 b）。第三，实现了门控递归神经网络模型。为了训练我们的模型，我们在输入中使用了100帧，32个GRU隐藏节点，128个批量大小，30个时期，分类交叉熵作为损失函数，随机梯度下降（Hochreiter和Schmidhuber，1997）作为优化器。在输出层中使用Softmax激活函数，使用KTH数据集的视频分类准确率约为93%。第四，为了进一步提高分类率，使用了来自三个数据集的大约2000个视频：来自KTH数据集的150个视频，来自UCF Sports的150个视频和来自2http://crcv.ucf.edu/data/UCF101.php。3http://www.nada.kth.se/cvap/actions/。表1实验设置。参数值每个输入视频中的最大帧数n = 100用于运动跟踪的输入帧的大小224×224 × 3学习率0.1batch_size 128GRU隐藏节点的数量g = 32最大历元30UCF101数据集。事实上，我们已经使用了混合深度学习和运动跟踪。利用高斯混合模型和卡尔曼滤波对视频序列中的每一帧进行人体跟踪提取，然后利用GRNN模型对这些方法的输出进行特征提取和人体行为预测。对于动作分类，我们将测试视频作为训练的hypride GRNN模型的输入。Softmax方法用于确定训练和验证步骤中的准确度和损失。我们的方法的输出是输入中使用的每个数据集的K类分类率的测量结果使用UCF Sports数据集的10个动作（nbclass = K= 10）、UCF 101数据集的66个动作（nbclass = K = 66）和KTH的6个动作（nbclass = K = 6）。事实上，UCF Sport的验证损失减少了1%（图3），KTH数据集的验证损失减少了0.37%（图2）。此外，对于UCF 101，在某些操作中验证准确度达到97%（图11）。 4）.在实验结果中，我们使用了一些选择的You-Tube视频的鲜花和大海来处理异常，并将系统投入运行，以防止虚假或虚假的人类行为。我们提出的方法在三个数据集中添加了一个新的类（示例对于KTH数据集，K = 7），其中第七类包含无动作或虚假的人类动作。所提出的方法的训练和测试的分类时间不超过40分钟，这比Jian等人（2015）好得多，在他们的方法中，所提出的CNN模型的训练和测试时间约为1小时8分钟。4.3. 与最新技术水平的比较表2显示了在相同的KTH、UCF Sport和UCF 101人类行为数据集上与其他方法的性能比较。事实上，我们基于混合深度学习的方法平均达到了96。百分之三十总的来说，我们的方法给出了与KTH数据集上最好的相关工作可比较的结果：de OliveiraSilva et al. （2017）使用全局轮廓和局部光流进行人类动作识别。所提出的模型实现了95%的准确率，而Latah（2017）利用了支持3D卷积神经网络模型N. Jaouedi等人/沙特国王大学学报451图二、KTH数据集的六个动作的混淆矩阵表示：我们的模型在所有动作中都提供了高性能验证准确率在拳击和拍手动作的98%和挥手动作的94%之间变化图3.第三章。UCF Sport数据集的十个动作的混淆矩阵表示：我们的模型在某些动作中提供了高性能五个动作的验证准确率达到452N. Jaouedi等人/沙特国王大学学报图四、在UCF 101的训练和验证阶段，我们只使用了66个动作。这些结果为某些操作提供了高验证准确度（97%）和0%左右的弱验证。表2我们方法的性能比较第kUCF SportUCF 101方法精度方法精度方法精度Rameshbabu等人，2012百分之九十点二de Oliveira Silva等人，201778.46%Soomro等人，201244.5%Latah，2017百分之九十点三四Yeffet和Wolf，2009年百分之七十九点二Karpathy等人，2014百分之六十五点四Grushin等人，201390.70%Wang等人，2011百分之八十八Idrees等人，2016百分之七十八Shu等人，2014百分之九十二点三我们的方法89.01%我们的方法89.30%耿和宋，2015年百分之九十二点四九(GMM+ KF + GRNN）(GMM+ KF + GRNN）Veeriah等人，2015百分之九十三点九六Baccouche等人，2011百分之九十四点三九Zhang等人，2017百分之九十五Shi等人，2015百分之九十五点六我们的方法（GMM + KF）Jaouedi等人， 2016b71.1%我们的方法（GRNN）百分之八十六我们的方法（GMM + KF + GRNN）百分之九十六点三向量机预测人类行为。该模型的准确率为 90.34% 。此外，与 deOliveira Silva等人（2017）提出的基于双流卷积网络分类器的方法相比，我们的方法在UCF Sport数据集上的准确率为90.01%。这里的准确率不超过78.46%。此外，我们在UCF 101数据集上获得了89.30%的结果，比Idrees等人好得多，2016年，准确率为78%。5. 结论这项工作提出了一种新的方法在人类行为识别领域。该方法基于视频内容分析和特征提取。通过GMM和KF方法对人体运动进行跟踪，得到运动特征。其他特征则是基于视频序列中每帧图像的所有视觉特征，采用具有门控递归单元的递归神经网络模型。这种新方法的主要优点是分析和提取的所有功能，在每一个时间和每一帧的视频。这种混合模型对更好地进行人体动作识别具有重要作用。本文的实验结果表明，我们的新方法，以获得高的分类率的强大性能。实际上，我们提出的方法可以可用于各种应用和领域，如人类活动分析、基于身体运动的医疗应用、使用手势的智能界面等。对于未来的工作，目标是评估我们的方法，以减少视频的时间分类，并改善UCF Sport，UCF 101和更具挑战性的数据集的分类率。利益冲突作者声明不存在利益冲突确认这项工作得到突尼斯高等教育和科学研究部的支持和资助。引用Baccouche，Moez，Mamalet，Franck，Wolf，Christian，Garcia，Christophe，Baskurt，Atilla，2011.用于人类动作识别的顺序深度学习。2011年：国际人类行为理解研讨会。网址：//doi. org/10.1007/978-3-642-25446-8_4。周，K.，van Merienboer，B.，Gulcehre角，Bahdanau，D.，Bougares，F.，例如，2014.使用RNN编码器-解码器学习短语表示用于统计机器翻译。在：自然语言处理中的经验方法的会议记录，10月25日至29日，计算语言学协会，卡塔尔多哈，pp。1724-1735. https://doi.org/10.3115/v1/D14-1179网站。Choi，Sungjoon，Kim，Eunwoo，Songhwai，2013.使用深度学习的智能家居人类行为预测。在：IEEE RO-MAN：第22届IEEE机器人与人类交互通信国际研讨会庆州，韩国，2013年8月26日至29日。 https://doi.org/10.1109/roman.2013。6628440。Chorowski，J.K.，Bahdanau，D.，Serdyuk，D.，周，K.，本焦，Y.，2015年。基于注意力N. Jaouedi等人/沙特国王大学学报453的语音识别模型。Adv. 神经信息过程系统de Oliveira Silva，Vinicius，de Barros Vidal，Flavio，Romariz，AlexandreRicardo Soares，2017.基于双流卷积的人体动作识别454N. Jaouedi等人/沙特国王大学学报网络分类器机器学习与应用国际会议（International Conference on MachineLearning and Applications）https://doi.org/10.1109/icmla.2017.00-64网站。Deldjoo，Yashar，Quadrana，Massimo，Elahi，Mehdi，Cremonesi，Paolo，2017.使用基于MPEG7和深度学习的场景戴伊，N.，戴伊，N.，Ashour，A.，Acharjee，S.，2016.视频处理在监控系统中的应用。IGIGlobal.Eyben，F.，Wollmer，M.，Schuller，B.，格雷夫斯，A.，2009年从语音到字母在：IEEE自动语音识别和理解研讨会论文集，11月13日至12月17日。IEEEXplorePress，Merano，Italy，pp.376-380.https://doi.org/10.1109/ASRU.2009.5373257。耿、池、宋、建新，2015年。基于卷积神经网络和卷积自动编码器的人类动作识别。在：第五届计算机科学与自动化工程国际会议（ ICCSAE2015 ）https://doi.org/10.2991/iccsae-15.2016.173。Geng，C.，宋，J.X.，2015年b。基于卷积神经网络和卷积自动编码器的人类动作识别第五届计算机科学与自动化工程国际会议论文集（SAE' 15）。北京出版社 .https://doi.org/10.2991/iccsae-15.2016.173网站。Gowsikhaa，D.，Abirami，S.，Baskaran河，2012.从监控视频中自动分析人类行为：调查。第内特尔修订版https://doi.org/10.1007/s10462-012-9341-3。格雷夫斯， A. ， Jaitly ， N. ， 2014. 使用递归神经网络进行端到端语音识别。 In ：Proceedings of the 31st International Conferenceon Machine Learning，Jun. 21JMLR.org. 1764- 1772年。格雷夫斯，A.，Liwicki，M.，Fernández，S.，贝尔托拉米河邦克，H.，例如，2009.一种新的用于无约束手写体识别的连接主义系统。 IEEE Trans. 帕特Anal.马赫内特尔31，855-868。https://doi.org/10.1109/TPAMI.2008.137网站。Grushin，A.，德里克，D.M.，詹姆斯，A.R.，Ajay Mishra，2013年。基于长短期记忆的人体动作识别。上一篇：2013年国际联合神经网络会议（IJCNN），2013年，pp。1-8号。Hochreiter， S.，Schmidhuber ，J. ，1997. 长短时记忆。神经元计算9，1735-1780.https://doi.org/10.1162/neco.1997.9.8.1735网站。Idrees，Haroon ，Zamir，Amir R.，Jiang，Yu-Gang，Gorbane，Alex，Laptev，Ivan，Sukthankar，Rahul，Shaha，Mubarak，2016. THUMOS挑战视频“野外”动作识别。Comput.目视图像理解网址：//doi. org/10.1016/j.cviu.2016.10.018.Jang，D.S.，Jang，S.W.，崔，H. I.，2002.基于结构卡尔曼滤波的二维人体跟踪。帕特认出来了。35，2041-2049。https://doi.org/10.1016/S0031-3203（01）00201-1.Jaouedi ， Neziha ， Zaghbani ， Soumaya ， Boujnah ， Noureddine ， Bouhlel ，Mohamed Salim，2016.人体运动检测与跟踪。2016年第九届机器视觉国际会议。https://doi.org/10.1117/12.2268539网站。Jaouedi ， Neziha ， Boujnah ， Noureddine ， Htiwich ， Oumayma ， Bouhlel ，Mohamed Salim，2016.人的动作识别到人的行为分析。电子科学、信息技术和电信国际会议https://doi.org/10.1109/SETIT.2016的网站。7939877。Yang ， Jian Bo ， Nguyen ， Minh Nhut ， San ， Phyo Phyo ， Li ， Xiao Li ，Krishnaswamy，Shonali，2015.用于人类活动识别的多通道时间序列深度卷积神经网络。在：第24届国际人工智能联合会议（IJCAI 2015）的会议记录。3995-4001.Kale，G.V.，帕蒂尔，V.H.，2016.基于视觉的人体运动识别与分析研究。Int. J. 环境压缩内特尔（IJACI）7（2），75-92。卡帕西，A.，托代里奇湾谢蒂，S.，梁振英，苏克欣塔尔河，巴西-地Fei-Fei，L.，2014年。用卷积神经网络进行大规模视频分类。计算机视觉图形学。https://doi.org/10.1109/cvpr.2014.223网站。Kim，H.，Chalidabhongse，T.H.，哈伍德，D.，戴维斯湖，2005.基于码书模型的实时前景-背景分割。实时成像11，172- 185。https://doi.org/10.1016/j.rti.2004.12.004网站。Ko，Teddy，2011.视频监控应用中的行为分析综述视频监控。https://doi.org/10.5772/15302网站。Latah，Majd，2017.使用支持向量机和3D卷积神经网络进行人体动作识别Int. J. Adv.Intelligent Inf. https://doi.org/10.26555/ijain.v3i1.89.Liu，G.，唐，X.，黄，J.，刘杰，Sun，D.，2007.基于分层模型的无迹卡尔曼滤波人体运动跟踪。In：Proceedings of the International Conference on Computer Vision，October14IEEEXplorePress ， RiodeJaneiro ， Brazil ， pp.1-8.https://doi.org/10.1109/ICCV.2007.4408941网站。Lopatovska，Irene，Arapakis，Ioannis，2011.图书情报学、信息检索和人机交互中情感的理论、方法和研究现状信息处理。管理。https://doi.org/10.1016/j的网站。ipm.2010.09.001网站。McFarlane，N.，斯科菲尔德，C.，一九九五年图像中仔猪的分割与跟踪马赫目视Appl·8（3），187-193。帕特尔，H.A.，Thakore，D.G.，2013.使用卡尔曼滤波器的运动目标跟踪。Int J. Comput.Sci.移动计算2，326-332.Pulgarin-Giraldo，J.D. ，Ruales-Torres ，A.A. ，Álvarez-Meza ，上午，Castellanos-Dominguez，G. 2017.相关的运动学特征选择，以支持在MoCap数据中的人类动作识别。国际自然与人工计算相互作用工作会议（International Work-Conference on theInterplay Between Natural and Artificial Computation ）Springer， Cham ，pp.501- 509Rameshbabu，K.，Swarnadurga，J.，Archana，G.，Menaka，K.，2012. 采用卡尔曼滤波的目标跟踪系统。Int J.Adv. Eng. Res. 种马。2，90-94。Sak，H.，老A Beaufays，F.，2014.用于大规模声学建模的长短期记忆递归神经网络结构。在：第15届国际语音通信协会年会，9月。14- 18，Singapore，pp. 338-342. https://www.isca-speech.org/archive/interspeech_2014/i14_0338.html。Shi，Yemin，Zeng，Wei，Huang，Tiejun，Wang，Yaowei，2015.使用深度神经网络学习用于视频中动作识别的深度轨迹描述符IEEE International ConferenceonMultimediaandExpo （ ICME ）， 2015 年，第 100 页。 1-6.https://doi.org/10.1109/icme.2015.7177461网站。Shu，Na，Tang，Q.，刘海华1014.一种模拟视觉皮层尖峰神经网络的生物启发方法用于人类动作识别。国际神经网络联合会议（International Joint Conference on NeuralNetworks，IJCNN）3450-3457苏姆罗，K.，Zamir，A.R.，Shah，M.，2012年。UCF101：来自野外视频的101个人类动作类的数据集arXiv预印本arXiv：1212.0402。Stauffer，C.，格里姆森，W.E.L.，1999.用于实时跟踪的自适应背景混合模型。在：IEEE计算机协会计算机视觉和模式识别会议论文集，6月23日至25日。IEEE XplorePress，FortCollins，CO，USA，pp.246-252https://doi.org/10.1109/CVPR.1999.784637网站。Toshev，A.，Szegedy C.，2014.深度姿势：通过深度神经网络

下载后可阅读完整内容，剩余1页未读，立即下载