深度图的人体活动识别与特征提取研究——基于深度的数据集分类与比较评估

129 浏览量更新于2023-12-09 收藏 3.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectFutureComputing and Informatics Journal 3（2018）51e67http://www.journals.elsevier.com/future-computing-and-informatics-journal/基于深度的人体活动识别：特征提取Heba Hamdy Alia，*，Hossam M.Moftaha，Aliaa A.A.优素福ba埃及开罗Beni-Suef大学b埃及开罗赫勒万大学接收日期2017年9月5日;修订日期2017年11月18日;接受日期2017年11月26日2017年12月21日在线发布摘要基于深度图的人体活动识别是对具有特定活动的深度序列进行分类的过程。在这个问题中，一些应用代表了诸如监控系统、计算机视觉应用和视频检索系统等领域的鲁棒解决方案。由于一个类内的变化，任务是具有挑战性的，并区分各种类和视频记录设置的活动。在这项研究中，我们介绍了一个详细的研究目前的进展，基于深度图的图像表示和特征提取过程。此外，我们还讨论了最先进的数据集和随后的分类过程。此外，对一些比较流行的深度图方法进行的比较研究提供了更详细的信息。所提出的方法进行了评估三个基于深度的数据集“MSR动作3D”，“MSR手势”，和“MSR日常活动3D”。实验结果分别达到100%、95.83%和96.55%。在“RGBD-HuDaAct”数据集上结合深度和颜色特征，获得了89.1%的准确率。Copyright © 2017埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：行为识别;深度;特征提取;视频;人体检测;手势1. 介绍人体活动识别在计算机视觉领域具有重要意义。人类活动识别的目标是从未知视频中自动检查和表征正在进行的活动。从视频中识别人类活动的优势在几个关键应用中是有效的。例如公共场所的自动监控系统[1]，例如地铁站和航空站，需要检测异常和正常活动。人类活动根据其复杂性有不同的种类[2];这些活动分为四种类型：*通讯作者。电子邮件地址：heba.h. fcis.bsu.edu.eg（H.H.Ali），gmail.com（H.M.Moftah）、aliaay@fci.helwan.edu.eg（A.A.A. Youssif）。同行审查，由埃及未来大学计算机和信息技术系负责。“手势”、“动作”、“互动”和“小组活动”。“手势”是身体某个部位的简单运动。例如，“抬起一只手臂，移动一条腿。”动作将是由一个人执行的练习，可以由按时间顺序组织的各种姿势组成，“散步”，“挥手”和“拳击”是“动作”的例子。“互动”是指至少涉及两个人或物体的人类活动。作为示例，“两个人检查手”是两个人之间的交互，而“有人推桌子”是包括一个人和一个物体的最后，监视行为者行为的变化是活动识别中的一个重要过程。该任务负责为活动识别系统获取适用的相关数据以识别活动。两种主要的活动识别方法是https://doi.org/10.1016/j.fcij.2017.11.0022314-7288/Copyright © 2017埃及未来大学计算机与信息技术学院。Elsevier B. V.制作和托管这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。52H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 67“Vision-based摄像头和红外传感器来捕捉活动[3e5]然而，由于真实设置的多面性，在基于视觉的活动识别方面已经做了大量工作[6]。这些方法学经历了与可重用性和可伸缩性相关的问题，例如自然环境中活动的高度变化。“Depth Maps-based深度图给出几何的度量估计，而视觉信息给出对照明不变的投影估计。此外，用于动作识别的深度序列表示具有一些困难。最重要的是，深度图图像可能包含遮挡，这使得全局特征不稳定。此外，与彩色图像相比，深度图像不具有纹理，但是难以应用局部微分算子（如梯度），因为它们在空间和时间情况下通常都太嘈杂。大多数基于视觉的系统都是针对正常的视觉信息开发的。有越来越多的评论研究[7E 9]。图像采集源的种类存在固有的限制。它是微妙的颜色，阴影和照明光的变化，闭塞，和背景杂波。尽管已经付出了很大的努力，但动作识别的准确性仍然是一个具有挑战性的研究点。由于经济上具有成本效益的“Kinect”，深度相机已经得到视觉和机器人领域研究人员的重视。深度相机有两个主要好处。首先，深度传感器提供关于图像的3D结构的信息以恢复姿势并识别活动。其次，深度传感器可以在黑暗中感知这一好处用于动物监测系统。这些优点被用于有趣的研究点，如从深度图中检测人体骨架[10]。从深度图测量的骨架是精确的，并为包括动作和手势识别在内的许多应用带来优势。深度图人类活动识别可以以其最简单的形式被认为是图像表示、特征提取过程和这些活动的识别的序列。本文的组织，我们首先说明相关的工作，并讨论了人类活动识别的关键特征和挑战，因为这些激发了文献中详细介绍的不同方法。我们将在第2节中讨论图像表示和特征提取。许多作品将在第3节中更详细地描述和审查。在第4节中，我们介绍了最知名的数据集。然后，我们讨论最先进方法的障碍，概述未来的方向。2. 特征提取方法在本节中，我们讨论了从深度图序列中提取特征的各种技术。理想情况下，这些应该是一般的外观，背景，视角，和活动执行。与此同时，描述符必须足够慷慨，以考虑到活动的强大特征化。时间顺序在现实生活中的动作表演中很重要。一些图像表示方法明确考虑了时间顺序;其他方法只提取序列中每个图像的图像特征。在这种情况下，需要在识别阶段处理时间变化。2.1. 3D点（BOP）要素兴趣点通过描绘图像的局部部分来提供图像内容表示，从而考虑对杂波、遮挡和类内变化的鲁棒解决方案[11]。从2D图像中提取的“兴趣点”可以用于图像检索和视频分类等应用。提取三维深度图平面投影轮廓上的点是对三维点表示进行采样的最简单方法。然而，关于所利用的投影到投影平面的数量，点的数量仍然可以是显著的。为了解决这个问题;“袋点”的想法[12]已使用。采样任务包括“投影”、“轮廓采样”，以及最后的“检索“与采样的2D点接近的3D点，如图1所示。BOP特征在可扩展的图形模型框架中对活动进行编码[13]。静态姿态表示为动作图中的节点，动作图由采样的3D点的少量排列来描述。三维点（BOP）特征方法的一个局限性是缺少兴趣点之间的空间特征。此外，由于深度图中的噪声和遮挡、来自顶部的轮廓透视图和侧视图，它可能不可靠。考虑到不同人的几何形状和运动变化，很难鲁棒地对兴趣点进行采样。为了解决这些问题，作者在[14]特征表示，定义为“时空发生模式：停止”。深度图序列引入“4D时空网格”。采用饱和度法来提高人体各部位运动轮廓点的作用。在图2所示的空间-时间单元中形成的向前踢深度序列的动作。该序列分为三个部分，每个部分包含大约20个深度帧。不显示空单元格，红色的点是点大于定义的点级别的单元格。“STOP“特征向量是非常稀少的，也就是说，它的大部分数据是零元素。“正交类学习（OCL）”[15]是“主成分分析（PCA）”[16]的修改版本，用于执行降维。针对每个“STOP“特征向量获得OCL。通过PCA-STOP降维生成一个小的特征向量。2.2. 时空长方体描述符从2D图像到3D的兴趣点的扩展是时空兴趣点（STIP）[17]，主要用于动作或活动识别。流行的H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 6753图1.一、从深度图像中代表3D点的采样过程[12]。图二、深度序列“向前踢”动作的时空单元包括[20]和在[11]中提出了过滤方法，以从称为“DSIP“的深度记录中提取“STIP“，其充分抑制了噪声估计。另外，建立了新的“深度立方体相似性特征（DCSF）”来表示DSTIPs周围的局部3D深度立方体，其大小可调。使用K-均值算法对“DCSF”进行聚类产生“立方体码本“，如图1 中的轮廓。 3.另一个描述深度动作分析的描述，[22]称为比较编码描述符（CCD）。小长方体可以从具有中心的深度图的时空生成。参考点（中心）可以是类似地被选择为用于动作表示的时空或显著点的角。长方体采用边长为3的长方体，取决于“CCD”组件的集中程度。将中心值分别与其他26个点的值进行比较，并对差异进行编码。图4示出了“CCD“特征描述符的创建彩色切片显示时间上的深度帧，红色顶点表示参考点。2.3. 随机占用模式（ROP）特征[23]中的作者还研究了由一个深度传感器获取的深度序列他们54H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 67图3. 从深度视频中提取DCSF[11]。图四、引入了ROP特征在较大尺度下提取时对噪声具有较强的鲁棒性同时，由于它们对大部分数据进行编码，这些数据从对提供给动作的那些区域最有区别的区域开始，因此它们对遮挡的意识较低。他们还引入了一种采样方法，以有效的方式表示大空间的样本。稀疏编码[24]被进一步应用于增强所提出的技术。2.4. 深度轮廓剪影的巨大成功提供了人类活动的形状信息。“深度轮廓“展示了除了形状信息之外的可辨别部分，而“二进制轮廓“包含较少的信息，因为其像素强度值分布在人体上，只有形状信息可用，如图6a所示。而图1所示的急流活动样本的深度轮廓图像。 6 b.图7示出了在[25]中开发的用于利用“深度轮廓“来生成特征描述符的方法。主要概念是在深度轮廓上使用“R变换“[26]以获得拒绝时间序列问题的紧凑形状表示。在R变换中，首先对每个深度轮廓进行Radon变换，得到一个二维方向形状特征，然后通过R变换得到一个一维特征轮廓，即平移和缩放不变性。图五、在[23]中提出的占领模式框架。H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 6755图第六章（a）“二进制轮廓”和（b）“深度轮廓”的深度序列图第七章[25]提出的深度轮廓流和变换方法。<最后，PCA用于对不同活动的一组“R变换“轮廓进行降维，然后应用“线性判别分析“[27]来提取更小化和鲁棒的突出活动特征描述符。最后，将特征输入到“隐马尔可夫模型（HMM）”中进行活动分类。“线性判别分析”被修改为获得判别向量，如[28]中的HMM，这是视觉数据最常用的顺序方法。“R变换“从活动组中提取尺度、周期和平移不变特征，也用于 [29] 。作者使用 “ 核判别分析（KDA）”[30]来提高各种动作的高度姿势相似性。KDA通过使用非线性技术，显著增加了对各种行为类别的在[31]中提出的用于动态手势识别的实时系统的示例中。作者开发了两种视觉特征：细胞占用特征和轮廓特征，分别如图8所示。由于两种形状描述子的维数都很大，因此采用PCA进行降维。这种方法基于动作图，它类似于标准的HMM，具有鲁棒性，但通过允许不同手势之间的状态共享，它们需要较少的训练数据。为了处理手的方向，作者已经实现了一种新的方法，手分割和方向归一化。2.5. 曲面法线特征在[32]中引入的另一种基于深度的描述符，作者使用直方图来捕获4D深度体积中的法线表面的分布，以表示深度视频序列，时间和空间坐标。为了获得标记的结构，为深度序列计算“定向4D表面法线直方图（HON4D）“。本文对四维空间正态多面体进行了量化处理，然后，细化量化以变得更具区分性图9概述了与计算HON4D描述符有关的不同步骤。[33]中提出的4d局部空间时间特征用于表示人类活动，而不是仅使用深度图。它们利用了视觉和几何特征组合的加权直线。在这一点上，该方法使用空间和时间窗口将元素及其梯度连接到一个向量中，大约超过105个元素特征。K均值聚类[34]隐含在所有向量上以降低高维数。特征向量是从一个训练子集与600词汇，他们利用六个运动分类。“潜在狄利克雷分配（LDA）”[35]模型用于从输入记录中预测活动;该方法解决了关于六个活动类别的问题，这些活动类别被视为“主题”，从4D特征空间计算的特征被视为“单词”。由于这种抽样方案的效率，它适用于近似估计。一些工作基于[36]中提出的超曲面法线，通过对深度图进行聚类来生成“多法线”，该多法线用于联合表示运动和形状。为了提取空间特征和临时顺序，自适应“时空金字塔“被隐含到深度序列以细分成一组“时空网格“，如图10所示。一种新的方法，将低级别的“多项式”聚集到一个“超正常向量（SNV）”中，该方法被认为是修改的Fisher核描述符[37]。法线的另一种用途是[37]中提出的“多法线“，用于区分人类活动和视频深度序列。它从深度视频中收集局部邻域的超曲面法线，以生成共同表示形状线索和局部运动的“多法线“。“Polynormal“Fisher Vector是使用FisherVector的低级别“polynormal“的聚合。“时空金字塔”将56H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 67图八、特征提取（a）每个细胞的占用区域，用于细胞占用特征，（b）扇形扇区被划分，用于轮廓特征[31]。图第九章HON4D描述符计算步骤[32]。将深度视频分解为一组空间-时间单元，以提取空间信息和时间顺序;来自这些单元的“多正态“Fisher向量被聚合为图1所示的深度图序列的一个特征描述符。十一岁图10. 关节轨迹体积，[36]中提出的2.6. 深度运动图开发的“深度运动图（DMM）“用于捕获组合的时间运动能量。更具体地说，深度图使用“正交笛卡尔平面“进行投影，然后进行归一化。通过计算两个连续帧之间的差异并对每个投影的深度图进行阈值处理，创建二进制深度图。然后对二进制映射求和以获得每个投影视图的“DMM“[39]。然后将“方向一致性直方图（HOG）“[40]应用于每个透视图以提取特征。如图所示，通过将三个方面连接在一起生成的“DMM-HOG“描述符。 12个。提出了一种用于人体动作识别的方法，[41]使用深度图像。通过深度图像平均和深度差图像计算物体的运动。它们利用轮廓包围盒的层次结构从时空深度差图像中提取特征。使用深度图像的运动历史来表示动作的时间特征。作者使用尺度、平移和Hu矩来描述平均深度图像和运动历史图像的特征。然后使用SVM对人体动作进行分类。在[42]中提出的实时动作识别，来自三个投影视图（前、侧和顶）的DMM用于H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 6757见图11。时空的例子[38].图12个。由[39]提出的基于深度运动图的HOG框架。描述运动并使用PCA进行降维，如图13所示。为了识别动作，然后利用使用距离加权的“Tikhonov“矩阵的“12正则化协作表示分类器“。所开发的算法在计算上是有效的，允许它实时运行。以获得紧凑的特征表示。作者扩展了他们的工作[43]，并在[44]中提出了新的方法。图图14显示了两种由特征组成的融合-决策级融合。在特征层，从三个深度运动图中合并LBP特征，得到一个紧凑的特征描述符;在决策层，采用软决策合并规则对分类输出进行聚合。[44]中表示的紧凑且有区别的动作表示。所提出的特征提取和动作分类框架如图所示。 15个。首先58H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 67图十三.实时动作识别[42]。图14个。开发的动作识别方法的流水线[44]。从输入的正视深度图创建侧视深度图以捕获附加信息。然后通过对一系列深度的累加，生成深度运动外观（DMA）和运动历史图像的扩展版本“深度运动历史（DMH）”。“DMH“具有运动顺序的动态信息。最后，“DMA“和“DMH“被合并成一个单一的HOG描述符。线性支持向量机对“HOG“特征向量进行分类，得到测试视频的动作类。现有的基于深度图的方法不考虑身体的动态移动。另一方面，[45]中的方法结合了由运动历史图像的扩展版本提取的外观和时间特征。在[46]中提出了基于深度图识别人类活动的另一个框架。它采用“局部梯度自相关（GLAC）“[47]从深度图图像的DMM中提取平移不变的图像特征。“GLAC”描述符依赖于第二阶梯度。它可以从图像中提取丰富的信息。这项工作基于“极限学习机（ELM）“[46，48]，用于连接DMM的GLAC特征以识别人类行为。ELM是“单隐层前馈神经网络（SLFN）”。它已在不同的应用中得到有效利用[49，50]。虽然使用所有深度图像序列获得的DMM因此，作者引入了一个新的框架[49，51]，基于梯度特征的2D和3D自相关来扩展他们在[46]中的工作。图16总结了所提出的动作识别方法。他们使用另一种特征提取方法，称为“STACOG”功能是3D空间中“GLAC”的采用版本，专为RGB视频开发。最后，一个加权融合的“ GL A C - S T A C O G ” 功能的基础上“ EL M ” ，以识别动作。深度运动图（DMM）已经证明了人类动作识别的可行性;但是，它们失去了时间H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 6759图15.在[45]中提出的框架。图十六岁基于梯度特征的动作识别方法[51]。信息和遭受类内品种所造成的运动速度的品种。为了解决这些困难，对于使用深度图序列的人类动作识别，引入了称为“分层深度运动图（HDMM）“和“卷积神经网络（3ConvNets）“的框架[53]。它们旋转3D点云中的原始深度数据以模仿相机的旋转，以便它可以处理变化情况。接着，为了有效地提取身体形状和运动信息，在多个时间尺度上生成加权的“DMM”，称为“HDMM”。然后，ConvNets的三个通道在“HDMM”上从三个投影正交平面独立地进行训练。最新的人类动作识别描述符在[54]中提出，它被称为自适应层次深度运动图（AH-DMMs）。图17是生成AHDMM的具体示例。AH-DMM是在视频序列的多尺寸时间分层窗口上计算的，因此它们编码了DMM中丢失的更多运动和形状信息的细节。同时，通过使用基于运动能量的分割策略，自适应窗口和步骤的产生，使AH-DMMs的行动速度的变化鲁棒。然后，提取编码AH-DMM的纹理信息的Gabor特征，以进一步提高描述符的区分能力。第三，在通过PCA降低维度之后，最终表示通过l2-正则化CRC分类。与DMM相比，AH-DMM对动作序列的时间信息进行编码，可以包含更多的运动细节和更具鉴别力的形状线索。60H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 67图十七岁从深度序列产生三个级别的AH-DMM的过程[54]。2.7. 深度和颜色特征颜色数据提供动作的视觉外观，而深度数据提供结构信息。在[55]中展示的工作结合了深度和颜色数据。它提供了一个成功的模型，用于跟踪人手和厨房设备之间的关联，例如，与水混合和清洗蔬菜。它研究对象和行动识别使用对象跟踪技术。该框架利用来自彩色和深度图像的“SIFT特征“。这些特征被认为是训练SVM的输入。他们在3D手部轨迹的梯度上使用PCA来提取全局特征。用肤色跟踪手部，局部特征用梯度的词袋表示作者在[56]中也使用了深度和彩色图像，他们使用了各种提取兴趣点的方法，并对其进行了准确性比较。最后，他们的工作表明，当结合从RGB通道提取的兴趣点和深度图特征时，可以获得最好的结果，如图所示。十八岁在[57]中，提出了一个名为“RGBD-HuDaAct”的家庭活动基准数据集和深度传感器。两个国家的最先进的动作识别的图像表示方法相结合。“时空兴趣点（STIP）“彩色图像和“运动历史图像（MHI）“分别从图1所示的彩色图像和深度图像中提取。 19号。自适应学习方法[58]自动提取该方法的概要如图20所示。提出了一种基于图的遗传规划（RGGP）方法，首先随机构造一组原始3D 算子作为组合，然后通过对RGBD视频序列的评估逐代增长。最近的框架结合了[59]中展示的深度和颜色线索以及计算，以分解从与人交互的机器人捕获的RGBD记录。四个独特的描述符，似乎在活动识别任务中的运动表现良好：“3D光流”，“空间和时间感兴趣的点”在RGB数据，“深度数据”和“身体姿势描述符”。通过结合这些特征，旨在生成一种机制，就像人类经历确定的活动一样。然后是H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 6761þ图十八岁结合RGB和深度图描述符的框架[56]。一种特征被创造出来了。SVM分类器旨在有效地结合每一个描述符，在特定的条件下，对另一个描述符给予特权。一种有希望的方法是为不同类型的特征分配不同的权重，这就是“多通道内核”。最近的工作[60，61]已经应用了深度学习的概念。一个广泛的RGB深度动作的规模数据集，超过56000个视频测试[60]。他们的数据集包含60个不同的活动类别。利用递归神经网络对人体各部位的时间特征进行建模，取得了较好的分类效果。3. 实验与讨论在这项研究中，我们的目的是显示不同的特征提取技术之间的比较前景，如表1所示，利用基于深度图的活动识别。这些技术是局部兴趣点，占用模式，深度轮廓，表面法线和深度运动图。3.1. 3D点（BOP）和时空特征“3D点袋”[12] ;为了表示每个姿势在显着状态下的3D结构，它利用少量的3D点，并且使用图形来表征动作中的主要姿势。这种方法的缺点是丢失了兴趣点之间的空间上下文信息。深度长方体相似性特征“DCSF“[11]，其中过滤技术从抑制噪声的深度序列（称为 “DSIP” ）中提取“STIP“。由于深度图像中的噪声和遮挡，从侧视图和俯视图观看轮廓可能不可靠。这使得它很难采样的兴趣点给定的几何形状和运动品种超过不同的人。62H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 67图19号。[57]中DLMC-STIP表示的生成过程。图20. 我们提出的方法的主要流程图[58]。3.2. 随机占用模式（ROP）特征“STOP随机占用模式[23]，其中深度图被随机采样，然后选取通常表征的样本并用作描述符。它还利用稀疏编码方法来编码这些特征。占用特征被用于“动态手势的实时系统“[31]。虽然在手势识别中，轮廓特征通常比细胞占用特征更好地工作，因为关于手形的最有区别性的信息被编码在手的轮廓3.3. 深度轮廓基于深度轮廓的方法[25，26，31];对于二进制人体轮廓，利用低层次的特征。“R-变换形式“在计算和几何不变性方面的复杂性优势是显而易见的。虽然，二进制轮廓只提供了动作的形状信息。首先通过每个深度轮廓的Radon变换计算2D方向形状特征图[25]，然后使用“R变换”计算平移和缩放不变的1D特征轮廓。基于Silhouette的Action Graph [31]提出了一种通过深度相机的实时识别系统。3.4. 曲面法线特征取决于曲面法线的描述符。[32]中表示的定向4D法线的直方图，它描述了基于直方图的深度序列，以捕获表面在“时间，深度和空间坐标“空间中的分布SNV[36]聚类超曲面法线以生成用于联合表示局部运动和形状信息的为了捕捉全球空间和H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 6763×表1特征提取技术的比较。方法基于方法特征表示分类器兴趣点DCSF[13]深度长方体相似性DCSF关节[11]DCSF关节位置特征PCA均值聚类SVMBag of 3D points[12]3D points 2d projection Action graphOccupationalfeatures[23]第二十三话[23]第23话关于占用特征的行动图[31]占据特征PCA动作图轮廓二进制轮廓[25]PCA-R特征LBG算法HMM上的LDA深度轮廓[25]PCA-R特征LBG算法HMM曲面法线HON4D直方图Ddisc[32]密度磁盘HON4D[32]HON4D直方图SVMSNV[36]联合轨迹Fisher核高斯混合模型（GMM）Polynormals[38]PFV Polynormal Fisher矢量高斯混合模型深度运动图'DMMs'[39]第39话DMM-l2-正则化[41]DMM PCA l2-正则化CRC[44]第44话：我的世界[44]第44话：我的世界[45]第45话：我的世界基于DMMs的GLAC[46]DMM GLAC ELM分类器DMM- STACOG分类器GLAC[51] DMM STACOG，GLAC ELM分类器HDMM3CONVNETS[53]DMM采样器HDMM ConvNets-Neural NetworkAH-DMMsGabor[54]DMM Gabor滤波器PCAl2-正则化CRC时间顺序，使用自适应时空金字塔通过细分深度视频来提取时空网格集合。[38]这一点，也是从这个方向出发的。它从深度序列中组装局部相邻超曲面法线，以形成共同表示运动和形状特征的“多法线”。Fisher向量被应用于将低层的“多法线”组合3.5. 深度运动图通过收集投影深度图的运动能量而生成的“深度运动图（DMM）“被用作特征描述器。“DMM“是提供动作的运动属性的编码的2D图像。深度运动图[39，41，44]，其中通过对深度帧的减法结果求和来获取运动图。[41]中的描述符利用“DMM“来捕获活动的运动线索，而“LBP“直方图特征用于实现“DMM”的最小化表示。考虑了特征级和决策级融合方法，其中包括“基于核的极端学习机（KELM）”分类。 “分层深度运动图（HDMM）”[52]给出了几个时间尺度上的加权深度运动图。“AH-DMMs“[53]可以通过保留动作的时间信息来捕获更多运动和形状线索的细节。同时，“AH-DMM”是适应行动速度的变化，使用基于能量的层次结构。然后采用Gabor滤波器对AHDMM的纹理信息进行编码，生成更加紧凑的动作表示。“基于 DM M s 的 GLA C ” [4 6 ] 功能用于从深度图像序列的 DM M s 捕获丰富的表面数据。GLAC特征描述子描述了深度序列的时空运动形态。它同样带来了更多的深度序列的时间特征，它已经失去了在“DMMs”。在[50]中引入了基于“ELM“的加权组合方法，以在对两组特征进行分组时提供更大的适应性。4. 最先进的数据集结果在本节中，描述了用于动作、手势和活动识别的主要基准深度序列数据集。这里包含的所有这些数据集都是不同动作或活动的大型和不同的曲目，可以应用于不同的上下文或情况。4.1. MSR动作3D数据集“MSR Action 3D“数据集[12]是由深度相机获取的深度动作数据集。深度图图像被很好地分割，背景中没有物体，人出现在与相机相同的距离处。它包括二十个动作：“横臂挥”、“高臂挥”、“双手挥”、“手抓”、“锤”、“前冲”、“高抛”、“画x”、“画圈”、“画勾”、“拍手”、“侧拳”、“弯腰”、“侧踢”、“前踢”、“慢跑”、“网球挥杆”、“网球发球”、“高尔夫挥杆”、“接球”和“抛球”。每个动作由10人扮演3次。视频分辨率为640480，帧率为15帧/秒。图21演示了数据集的示例。“Polynormal Fisher Vector”[38]实现了92.73%，结果显示了全局时间背景下的识别优势。依靠节理的进路暴露于节理64H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 67图21岁示例深度帧来自关于严重自闭塞的错误。[14，33]中的方法仍然提高了[12]中的精度，因为云点更稳定，并呈现额外的形状特征。SNV[36]实现了93.09%的准确率，显著优于所有依赖于表面法线的方法。尽管SNV和HON4D方法基于超曲面法线，但SNV 优于 HON4D [32]4.20% 。 “DMM-HOG“[39] 实现了94.6%的准确度，优于所有以前的方法。在基于深度运动图的局部二进制模式中，准确度下降到93%[44]。很容易看出，在[51]中同时使用GLAC和STACOG功能比仅使用[46]最后，深度卷积神经网络[51，52]实现了100%的准确率;它优于所有以前的方法;这主要是因为它可以通过对深度值进行阈值处理来轻松分割主题，生成HDMM而没有太多噪声;预训练模型也可以很好地初始化基于图像的深度神经网络。4.2. MSR手势3D数据集如表2所示。“DMM-GLAC-ELM”[46]也达到了95.5%的高精度。在SNV中，准确度下降至94.74%[36]。PFV优于依赖于Occupational特征的方法[23，31]，[44]1.23%。PFV [38]优于SNV 1.09%。基于PFV和SNV超曲面法线的方法之所以能达到这些结果，是因为“多项式法线 “ 获得了更多有区别的局部运动和形状信息 ; 此外，Fisher向量被用来将低级“多项式法线”连接到表2比较特征提取技术的准确性。DCSF关节[11]× × 88.20%3D点袋[12]74.70% × ×“STOPROPs[23]85.92% 86.80% ×ROPs[23]86.50% × ×ROPs[23]86.20% 88.50%The动作显像管[31]第三十一话× 88.50% ×手势的数据集此数据集包含一组美国手语（American Sign Language，ASL）有十二种不同的手势：“完成”，“绿色”，“牛奶”，“饥饿”，“过去”，“蓝色”，“猪”，“商店”，“在哪里”，“字母j”，“字母z”和“浴室”。图21中展示了一些深度序列示例。请注意，尽管该数据集包括深度和颜色序列，但深度图像仅用作实验的一部分。有10个受试者，每个人将每个动作重复2次， 3次。该数据集共有336个深度序列。自遮挡通常在ASL数据集中很常见。“Polynormal二进制轮廓[25]× × 85.75%深度轮廓[25]× × 96.55%HON4D超声波Ddisc[32]88.89% 92.45% ×HON4D[32]85.85% 87.29% ×SNV[36]93.09% 94.74% 86.25%Polynormales[38]92.73% 95.83%DMM-HOG[39]94.60% × ×DMM-l2-正则化[41]90.50% × ×DMM-LBP-FF[44]91.90% 93.40% ×DMM-LBP-DF[44]93% 94.60%× DMA苯甲酸[45]90.45%×× 基于 DMMS的GLAC [46]90.48%95.50%×DMM- STACOG GLAC[51] 94.87% 98.50% 81.88%[53]100% ×[54]第一届全国人大代表方法“MSR“MSR“MSRDCSF[13]89.30%×83.60%H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 6765“Polynormal Fisher Vector”.据观察，通过使用卷积神经网络[53]，整体识别准确率击败了所有比较方法，导致PFV中的下一个最佳结果95.83%增长了近2.67%[38]。4.3. MSR日常活动3D数据集“MSR日常活动3D“数据集[30，33]是包含日常活动的深度序列数据集。数据集是表面对象，人类出现在相机的不同距离其中最主要的活动是“人-物交互”。有十六种不同的活动：“喝”，“吃”，“看书”，“打手机”，“在纸上写”，“用笔记本电脑”，“振作起来”，“坐着不动”，“扔纸”，“玩游戏”，“躺在沙发上”，“散步”，“弹吉他”，“站起来”和“坐下来”。有十个不同的人，每个人在两种情况下玩两次，“站”和“坐”的位置。该数据集中的活动参与者在空间和缩放方面存在显着差异此外，该数据集中的大多数活动都包括与对象的交互。图 21显示了数据集的示例。深度轮廓[25]的准确性结果显示10个典型家庭活动的平均识别率为96.55%，而使用二进制轮廓，系统仅实现85.75%;二进制轮廓仅提供活动的形状信息。该系统作为智能家居的智能HAR系统应该是有用的。“时空深度长方体相似特征它实现了88.2%的准确性，大于SNV[36]档案86.25%SNV描述符描述了“多法线”中的局部运动和形状特征4.4. RGBD-HuDa act数据集“RGBD-HuDaAct”[57]是由图1所示的“Kinect”捕获的活动的数据集。 22号。该数据库包括12个活动：“站起来”、“坐下来”、“打电话”、“进房间”、“出房间”、“拖地上床”、“起床”、“喝水”、“吃饭”、“穿上夹克”和“脱下夹克”。该数据集被组织成14个日常活动，30个人正在执行。每个活动视频大约是30个 150秒，每个人最多重复4次在这个数据集中有在深度图中，更亮的像素意味着更多的深度值。由于表面反射，一些黑色区域会导致深度测量误差[55]。当收集RGB和深度特征[56]时，比较了提取兴趣点的各种方法性能。同时，将“基于RGB“的兴趣点与“基于深度“的描述符相结合进行提取时，获得了最佳的准确度。准确度比较见表3。它显示了“RGB”和“深度图”描述符的各种组合图22.颜色和深度框架示例[57]。66H.H. Ali等/Future Computing and Informatics Journal 3（2018）51e 67<表3“RGBD-HuDaAct”上的准确度比较。RGB-深度法精度“RGB(IP, HOGHOF), Depth (LDP)”百分之八十九点一“RGB (IP, HOGHOF), Depth (HOGHOF)百分之八十三点三“[Depth (IP), RGB(HOGHOF)], Depth (HOGHOF)百分之八十一点八“DLMC(STIPs)”百分之八十一点五“DLMC（STIPs）“的识别准确率为81.5%。可以看出，“深度（LDP）“的精度高于“深度-（HOGHOF）"。它还表明，“RGB（IP）”的准确性高于 “ 深度（ IP ） ” ，因此“ RG B （ IP ）， RG B （ HO G H O F ）， RG B（ IP ），深度（ LD P ） ” 具有更高的准确性，达到了 89 . 1 % 的准确性。5. 结论最近，深度数据在人类活动识别领域中受到关注。与基于视觉的应用相比，使用基于深度图的应用开发的主要好处是：它对照明变化更鲁棒，特别是在室内情况下，并且它解决了2D传感器的缩放距离，使得创建正在进行的实时系统更简单。研究了深度图活动识别的不同方法。此外，它还重点介绍了作为活动识别一部分的各种图像表示和特征提取技术的详细文献。研究结果已被讨论的特征描述的人类活动识别使用公共数据集。对于动作识别，深度运动图是最有效的特征表示技术。受基于深度图序列的深度分类模型在动作识别中取得的巨大成就的启发，通过旋转和时间缩放，可以人为地扩大训练数据的体积，从而使卷积神经网络受益，并获得比基元训练更好的结果。采用预

下载后可阅读完整内容，剩余1页未读，立即下载