主成分金字塔用于手形识别的算法及其性能比较

42 浏览量更新于2023-12-10 收藏 651KB PDF 举报

主成分分析

神经网络

身份认证购VIP最低享 7 折!

30元优惠券

⃝⃝可在www.sciencedirect.com在线ScienceDirectICT Express 4（2018）63www.elsevier.com/locate/icte主成分金字塔用于手形识别中的Mohamed Farouka， Alstair Sutherlandba埃及亚历克斯阿拉伯科学技术学院计算学院b都柏林城市大学计算机学院，爱尔兰都柏林9接收日期：2018年2月15日;接受日期：2018年2018年5月2日在线发布摘要本文提出了两种算法，使用数据金字塔的手形识别爱尔兰手语。主成分分析（PCA）被用作特征提取和降维方法。原来，问题是非线性的，这是很难PCA提取数据的底层结构。所提出的PCA金字塔提供了非线性PCA的替代方案，因为它们依赖于将空间划分为在每个级别中使用适当的特征空间近似线性的子空间。它们用于加速搜索过程，以近似最近邻搜索问题。第一种算法使用无监督的多维网格将空间聚类成类似对象的单元第二种算法是基于训练一组结构简单的多层神经网络。实验结果给出了衡量的准确性和性能的比较，所提出的算法与穷举搜索的情况。所提出的算法是适用于实时应用的高精度的措施。c2018韩国通信与信息科学研究所（KICS）。Elsevier B.V.的出版服务。这是一个开放获取CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：主成分分析;数据金字塔;多维网格;多层神经网络1. 介绍使用基于外观的方法的手形识别提供了人与计算机之间的自然交互模式。手的形状包含了手势的含义。由于手是一个可变形的物体，这是一个具有挑战性的任务，建立一个识别系统，可以分类相同的手形状在不同的方向或不同的角度的相机[1]。有不同的技术用于构建手势和姿势识别的分类器，PCA是其中之一。在文献[2]中，提出了一种基于Gabor特征的动态手势识别系统，该系统具有高维性，并采用PCA对其进行降维。支持向量机（SVM）*通讯作者。电子邮件地址：mfarouk316@aast.edu（M. 法鲁克），阿利斯泰尔。萨瑟兰@ dcu.ie（A。Sutherland）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2018.04.009用于执行分类过程。在文献[3]中，采用PCA技术从人体轮廓中提取特征，对人体姿态进行分析和分类。该分类基于两个类别，人类站立姿势或人类非站立姿势。SVM用于识别任务。在文献[4]中，我们利用手势的视觉表现来实现一个基于隐马尔可夫模型的人机交互系统。PCA用于从输入序列中进行降维和特征提取。基于示例的方法使用计算机生成的手部图像的大型训练集，其对空间进行密集所有可能的方向和变化的外观可以在很短的时间内创建，并可以根据姿势参数，这是很难真正的签名者做标记。这些方法通过将新图像映射到姿态空间并将其与渲染样本的数据集进行比较来提供用于估计姿态的强大机制在[5]中，一个专门设计的2405-9595/c2018韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。64M. Farouk，A.Sutherland/ICT Express 4（2018）63彩色手套用于系统映射手形的地方到最接近的渲染图像，以应用虚拟现实。在[6]中，107，328个合成图像的大型数据库，对于在不同视点均匀采样的26个形状，用于3D手部姿势估计。这个问题被认为是索引问题，以有效地检索最接近的匹配。在[7]中，提出了一种基于示例的分类器，用于使用150，000幅合成图像进行3D人体姿势估计。散列用于解决最近邻搜索问题。2. 相关工作PCA可以作为一种特征提取和降维方法。然而，它通常只有在嵌入流形是线性的情况下才能很好地工作。利用流形学习技术研究非线性流形是模式识别中的一个重要问题。非线性现象的特征在于原始数据空间中的曲线。非线性主成分分析（NLPCA）是标准PCA的非线性推广。它有助于可视化非线性数据作为数据分析的一个方面，通过使用人工神经网络将数据从原始空间映射到分量空间，该人工神经网络基于学习具有称为瓶颈网络的自关联拓扑的多层感知器[8]。核主成分分析（KPCA）是一种非线性PCA，它是在使用核函数将原始输入映射到高维特征空间后应用线性PCA计算的。高维特征空间中的线性PCA对应于原始输入空间中的非线性PCA [9]。在[10，11]中，数据金字塔用于爱尔兰手语中的手部形状识别，作为一种从粗到细的搜索技术，以提供手部形状和姿势参数的旋转和平移方面的快速估计。图像模糊用于平坦化通过在使用Poser软件合成创建的一组示例图像上应用PCA生成的流形。使空间变平可以减少流形中的非线性，并减少相交的影响并在它们之间重叠这两种算法都是使用手部形状、手臂旋转和平移位置的标记信息的监督学习技术。在[10]中，垂直距离被用来寻找最近的流形在每一个层次结构中。在[11]中，监督多维网格用于根据每个级别的每个姿态参数划分不同的流形。3. 提算法在本文中，我们引入了两个新的数据金字塔，扩展了[10，11]中给出的工作。第一个算法将层次结构扩展到真实的手，并通过使用无监督的多维网格层次结构来减少将它们映射到姿势空间第二种算法提出了一个层次的人工神经网络的手形识别和研究平坦的空间使用图像模糊的前馈反向传播（FFBP）神经网络的学习曲线上的效果。3.1. 基于无监督多维网格的PCA金字塔手形识别该算法提出了一个无监督的多级层次结构，使用多维网格。无监督网格适用于手位姿参数难以标注的情况。多维网格将空间划分为超立方体的单元，其中数据被聚类为类似对象的组。通过对训练图像应用PCA来计算特征空间图1显示了使用真实签名者的爱尔兰手语中的20个形状。通过将手形从垂直位置移动到水平位置来执行手势，记录每个标志视频被转换成每个标志的帧每个图像在每个方向上平移5个像素，形成121个平移。收集序列中的奇数帧用于训练，形成96，800个对象，偶数帧用于测试，表示中间旋转。图像模糊应用于图像上，用于平坦化流形，如在相关工作部分中所讨论的。在层次结构的顶层，所有训练集在应用PCA之后，使用具有最高特征值的特征向量集合将其投影到单个网格中。当网格的大小随着维数的增加而呈指数增长时，使用前几个特征向量。多维网格将空间分成相等的部分.选择一个合适的网格大小是至关重要的，它会影响分组标准。由于在顶层对整个数据集进行PCA计算的计算量很大，因此使用符号“H”的图像每个单元格都可以根据它们之间的相似性来保存具有不同形状，旋转和平移参数的对象如果上层单元格中的对象数量超过阈值，则构造层次结构中的新级别。每一个达到这个阈值的单元格都会在下一个级别中构建一个新的网格。阈值的值通过实验确定为从父网格中的单元继承的对象组计算新的为这些对象计算PCA这个新的PCA空间应该更详细地反映这些特定对象的分布。该过程可以继续构建新的级别，直到当前单元格为空或保持低于预定义阈值的对象数量，从而形成层次结构中的叶节点。图2显示了拟议的金字塔。为了分类的目的，一个新的模式被投影到顶层网格中，根据它所在的单元格，它可以再次投影到下一级的网格中。这个过程从一个层次到另一个层次。新的模式可以通过在其被投影到的单元内的层次结构的底层找到最近的相邻对象来分类。曼哈顿距离被应用于使用足够数量的特征向量来计算距离度量，以便最大化准确度度量。如果新模式被投影到空单元格或单元格中，则可以将回溯步骤应用于分类M. Farouk，A.Sutherland/ICT Express 4（2018）6365Fig. 1. 20个爱尔兰手语由一个真正的签名者。其中对象的数量低于回溯阈值。在这种情况下，该对象被重新投影到父网格中的相应单元中，以找到要分类的最近邻对象。图3示出了3D PCA空间中的三个级别的层级。将训练集投影到顶层特征空间。绿色物体代表网格结构中的一个单元。它们用于在层次结构的下一级中构建PCA空间这三个特征空间说明了数据如何在底层变得更稀疏和更线性。底层的数据是近似线性的，因此线性PCA可以正确地揭示数据的底层结构。3.2. 基于监督人工神经网络的PCA金字塔手形识别第二个建议的金字塔是基于训练一组具有近似线性PCA子空间的人工神经网络。所提出的金字塔根据来自[11]中引入的合成数据集的不同姿态和形状参数以监督的方式组织不同的特征空间，作为基于示例的方法。该算法将文献[10，11]中给出的平坦化流形的思想扩展到ANN图二. PCA金字塔使用无监督网格。图三. 3D PCA空间中训练集的层次结构。其中可以为分类过程找到更多的线性决策边界。可以设计更简单的神经网络架构，并提高训练速度66M. Farouk，A.Sutherland/ICT Express 4（2018）63×见图4。 PCA金字塔使用ANN。过程可以实现。在每一层中，多层神经网络使用FFBP算法进行训练。根据输入PCA空间中接受的特征向量确定输入层的神经元数量大小，以实现尽可能高的精度。输出层的大小由足够数量的神经元确定，以表示不同类的二进制代码该层次如下图所示的三个阶段。四、(1) 阶段1，旋转角度估计在顶层估计签名者手臂的旋转角度，因为它在数据中具有最高的变化。PCA应用于图像上的符号“H”，作为最中心的形状，在不同的旋转，以形成一个旋转流形。在阶段1.A中，用旋转流形训练多层神经网络，所述一个新的模式被映射到该范围内训练样本中最接近的离散旋转角度。在阶段1.B中，实现对较窄范围的旋转角的估计。在来自前一级的估计角度之前和之后应用5度的搜索窗口。神经网络构造的连续角度的每个范围。用于这些较窄范围的旋转歧管用于训练目的。这一级的输出被认为是网络的输出角，该输出角在期望输出和实际输出之间具有最小均方误差。(2) 阶段2，形状分类这20个形状用于在来自训练集的每对连续角度处构造形状流形。使用角度对来减少空间的数量并加快搜索过程。用每个形状流形训练神经网络，其中网络的输出表示二十个形状中的一个。新图案的形状可以在将其投影到相应的特征向量集合中之后进行分类。新模式由覆盖来自阶段1.B的估计角度的神经网络映射。为了微调结果，考虑到在估计角度的任一侧上覆盖2个以上范围的两个以上神经网络，此阶段的输出被视为分类从神经网络的形状，具有最小的期望和实际输出之间的均方误差。(3) 阶段3，平移位置估计在最后阶段，估计的平移位置的一个新的模式是实现。标签是根据最近的对象使用最近的邻居搜索到一对平移流形在估计的旋转和分类的形状。平移流形表示在每个方向上覆盖5个像素的121个平移中的特定旋转处的特定形状。这对流形覆盖了第二阶段获胜神经网络的角度范围。新的模式被投影到每个特征空间。足够数量的特征向量被用来计算曼哈顿距离测量，以达到最高的精度。4. 实验结果所提出的算法进行了检查的准确性和性能。所有实验都是在Intel i5 CPU@2.3 GHz，2.00 GB RAM上使用Matlab在Windows 7操作系统下完成的。所有图像均为250 - 330像素，并在模糊前转换为灰度。使用二维高斯低通滤波器创建模糊图像。表1示出了通过实验的模糊水平的变化。使用30个特征向量来计算用于最近邻搜索的曼哈顿距离。结果是基于[11]创建的111，320个计算机生成图像的数据样本在三个不同的测试集上对所提出的算法的准确性通过将每个图像旋转一个角度来生成第一测试集，该角度是从填充训练图像之间的中间角度的区间[-1，1]上的均匀分布随机生成的第二个测试集是通过添加变形生成的通过将每只手在手腕处旋转一个从间隔[1，5]度的均匀分布中随机生成的角度，将其转换为前一组。第三个测试集是通过将高斯白噪声添加到第二个测试集而生成的。将标准偏差为20且平均值为0的正态分布随机数添加到每个像素。4.1. 第一种算法的实验结果该算法适用于前一节中真实的数据包含噪声和变形，这是由于人类签名者在整个实验中无法保持他的手处于完全相同的姿势。为了分类的目的，在整个层次结构中使用了不同的网格结构使用具有最高特征值的四个特征向量来构建网格。顶层的网格将每个维度划分为四个分区，其中两个分区用于下一个级别。表2显示了为创建新格网级别选择最少数量的对象对精度度量和格网数量的影响使用第一个测试集在每个级别上。增加这个阈值会增加准确性，因为它有助于找到最近的邻居。但在高值时，性能接近穷举搜索。在阈值为600时，M. Farouk，A.Sutherland/ICT Express 4（2018）6367表1模糊的水平。模糊电平B1B2B4B6B8B10大小[6，6][12，12][24，24][36，36][48，48][60，60]方差1020406080100表2阈值对准确性的影响。MinObjs 400MinObjs 600MinObjs 800精度百分之九十五点零九百分之九十八点五百分之九十八点九一二级363329三级1494011表3每个层次的神经网络架构。阶段1.A阶段1.B阶段2输入层4416隐藏层1151525隐藏层27720输出层635图五. 精度与不同数量的特征向量。办妥了一批为了增强结果，如果对象被投影到空单元格或对象数量小于100的单元格，则应用回溯步骤图图5示出了使用不同数目的特征向量对分类过程的影响。在表4中，使用三个合成测试集和真实测试集给出了第一算法对穷举搜索和[10，11]中的算法的准确度和性能，其中每个对象需要0.055 s进行分类，穷举搜索的加速因子为1392。4.2. 第二种算法为了衡量人工神经网络金字塔的准确性和性能，用FFBP表4准确性和性能。见图6。训练错误率与不同模糊水平。算法基于表3所示的架构。为了研究使用图像模糊来降低非线性的效果图6示出了在不同模糊水平下训练相同神经网络架构的1000个历元之后的错误率。很明显，增加模糊级别有助于加快训练过程，因为流形更加线性。然而，在非常高的模糊水平下，随着不同的图像变得更加相似，泛化因子可能会下降。模糊等级6被选择用于训练和测试。在表4中，使用三个合成测试集给出了第二种算法对穷举搜索和[10，11]中算法的准确性和性能结果表明，基于人工神经网络的金字塔可以分类不同的手形与高水平的准确性。然而，它对手部变形和噪声敏感。该算法的实时性为0.062s，穷举搜索加速因子为12355. 讨论和结论所提出的PCA金字塔通过将空间划分为近似线性分区来提供非线性流形学习的替代方案。第一种算法适用于真实的手。第二种算法是使用合成数据的基于实例的方法。减少流形中的非线性有助于构建具有快速训练速率的简单ANN。这两种算法都适用于具有高精度测量的实时应用。拟议的金字塔是平行的性质。利用多核处理器建立流水线流水线阶段的数量等于金字塔中的级别数量。Ex. 搜索[10个国家][第十一届]第一代算法第二代Algo测试组1百分之九十九点九八百分之九十九点零三百分之九十六点九七百分之九十八点九三百分之九十五点三二测试组2百分之九十七点二八百分之九十四点一八92.76%百分之九十四点九六83.94%测试组3百分之九十六点四五百分之九十三点零三91.70%94.20%80.69%真正的手–––百分之九十八点九一–速度（s）76.580.0940.0470.0550.06268M. Farouk，A.Sutherland/ICT Express 4（2018）63加快–815162913921235M. Farouk，A.Sutherland/ICT Express 4（2018）6369利益冲突作者声明，本文中不存在利益冲突引用[1] T. Moeslund，E. Granum，基于计算机视觉的人体运动捕捉的调查，在：Proc.计算机视觉和图像理解，2001，pp. 231-268。[2] D. 黄，W.Hu，S.张，M。Chen，基于Gabor滤波器的手部姿态角度估计用于在变化照明下的手部姿态识别，在：Proc. Expert SystemsWith Applications，2010，pp.6031-6042[3] S. Shahbudin，A. Hussain等人，Analysis of PCA based feature vectorsfor SVM posture classification ， in ： Proc.IEEE 6th InternationalColloquium on Signal Processing and Its Applications，2010，pp. 1比6[4] G. Gastaldi，A. Pareschi等人，基于动态手势的视觉分析的人机通信系统，在： Proc. International Conference on Image Processing ，2005，pp. 397-400[5] R. Wang，J. Pop o v ic′，实时手动跟踪，彩色图像，A CMTrans.Graph。（2009）63-69。[6] V. Athitsos.，S. Scaroff，Estimating 3D Hand Pose from a ClutteredImage，in：Proc. Computer Vision and Pattern Recognition，2003，pp. 424-432[7] G. Shakhnarovich，P. Viola，T. Darrell，Fast pose estimation withparameter-sensitive hashing ， in ： Proc. IEEE Ninth InternationalConference on Computer Vision，2003，pp. 750-757[8] M.肖尔茨，M。Fraunholz，J. Selbig，非线性主成分分析：神经网络模型和应用，Springer Principal manifold for data visualization anddimension reduction，2008，pp. 44[9] B. Schölkopf，A. Smola等人，核主成分分析ICANN计算机科学讲座笔记，1997年，pp。583-558[10] M. Farouk，A.萨瑟兰A。Shokry，一种用于手形识别的多级分层算法，在： Proc.13thInternationalMachineVisionandImageProcessing，2009，pp.105-110[11] M. Farouk，A. 萨瑟兰A。Shokry，Nonlinearity reduction of man-ifolds using Gaussian Blur for handshape recognition based on multi-dimensional grids，in：Proc.2nd International Conference on PatternRecognition Applications and Methods，2013，pp. 303-307

下载后可阅读完整内容，剩余1页未读，立即下载