三维离散印度手语的早期估计模型基于图匹配

196 浏览量更新于2024-01-14 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于图匹配的三维离散印度手语识别早期估计模型E. 基兰·库马尔，P.V.V.Kishore，D.Anil Kumar，M.Teja Kiran Kumar生物力学和视觉计算研究中心，ECE系，Koneru Lakshmaiah教育基金会，Green Fields，Vaddeswaram，Guntur（DT），印度安得拉邦阿提奇莱因福奥文章历史记录：接收日期：2018年2018年5月25日修订2018年6月18日接受2018年6月23日在线提供保留字：3D动作捕捉3D手语3D图形匹配模式分类空间图匹配时间图匹配A B S T R A C T手语的机器翻译是计算机视觉领域的一项重要任务在这项工作中，我们建议使用三维运动捕捉技术的标志捕捉和图形匹配的标志识别。在这项工作中，解决了两个问题的三维符号匹配：（1）如何识别相同的标志与不同数量的运动帧和（2）从一个混乱的非符号手运动的符号提取。这两个问题使得2D或3D手语机器翻译成为一项具有挑战性的任务。我们提出了图匹配与早期估计模型，以解决这些问题，在两个阶段。第一阶段包括用于运动帧提取的图内匹配，其将运动密集帧保留在数据库中并查询3D视频。第二阶段将具有早期估计模型的图间匹配应用于运动提取的查询和数据集3D视频。该模型提高了图匹配算法的速度，在估计一个符号与较少的帧。为了测试图匹配模型，我们用3D动作捕捉技术记录了350个印度手语单词。对于测试，针对所有标志捕获每个标志的4个变化，其中5个不同的签名者处于相同、较慢、较快的手速度和混合混乱的手运动的标志。早期估计图匹配模型的准确性和效率进行了测试，在分类的3D标志与两个诱导的实时约束。除了3D手语数据集，所提出的方法进行了验证，对五个基准数据集和国家的最先进的图匹配方法。©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍运动捕捉技术已经渗透到电影、动画、医学、体育等涉及人体动作的领域，在三维空间中捕捉复杂的人体运动运动捕捉设置是产生3D空间点和时变3D骨架模型以供分析的复杂的最先进技术3D骨架点的3D轨迹和速度描绘了真实世界中人类行为的近乎精确的模型但是捕获过程涉及许多级别的物理和虚拟预处理和后处理方法，以生成可用的数据。*通讯作者。电子邮件地址：kiraneepuri@kluniversity.in（E.基兰·库马尔），kluniversity.in（P.V.V.Kishore），danilmurali@kluniversity.in（D.AnilKumar），mtejakiran@kluniversity.in（M. Teja Kiran Kumar）。沙特国王大学负责同行审查制作和主办：Elsevier手语涉及手和手指的复杂非线性运动，有时使用头部和躯干作为符号的参考。手语的机器翻译在两个方面得到了广泛的研究：（i）仪器和信号处理;（ii）计算机视觉。在第一种方法中，仪器是一对传感器手套，其中手指移动产生用于分类的1D向量。第二种方法是围绕2D相机传感器设计的。我们认为，2D时变方法比1D方法产生更好的处理。手语是一种视觉语言模型，它涉及手语者的手形、手与手之间的运动、头、脸和躯干。这最后一部分是缺失的，基于传感器手套的方法。2D视频方法的问题仍在广泛研究中。我们以前的经验突出了相机传感器分辨率，模糊，照明，背景变化，非对比色，遮挡和运动空虚的问题。基于3D的方法将消除机器手语识别中的大部分在这项工作中，我们将展示使用3D运动捕捉技术来识别印度手语的手势。https://doi.org/10.1016/j.jksuci.2018.06.0081319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comE. Kiran Kumar等人/沙特国王大学学报853图形是表示结构化3D数据的强大工具。然而，从3D数据的图形构建是一个复杂的任务，如人体运动检索的问题。困难在于运动中关节对的空间表征，以形成两个连续运动序列中的顶点和边对的相似性度量。在这项工作中，重点将是从一个数据集的标志与离散查询标志利用上述特征识别标志。离散的3D数据集是用vicon运动捕捉设置记录的，该设置具有8个IR相机和1个RGB视频相机。该三维数据集包含350个离散符号词，每个符号词被记录并命名为离散词符号框架数据集（DDWSF）。每帧符号词用57个空间关节作为顶点和56个关节对作为边的图表示。在阶段1中，在DDWSF中的2个连续数据集帧上应用帧内图匹配算法（GM），其中自动阈值用于提取高运动帧。相同的过程应用于查询符号帧（QSF）以用于运动帧提取。在DDWSF和QSF中，帧内图匹配产生不同数量的运动帧在第二阶段，我们提出了一个早期估计模型（EEM）的符号识别的一个较小的一组帧在QSF和DDWSF。该模型基于QSF和DDWSF之间的图间匹配，基于从数据集中消除非连接符号。在第一次迭代中，对QSF和DDWSF中的一组10个帧进行图形匹配。匹配帧及其索引将被保存。基于以每个图中的顶点和边之间的最小距离的形式的帧之间的匹配相似性来启动决策例程。基于匹配帧的数量和帧的索引顺序来计算关系度量。这保证了帧匹配的顺序，并导致区分密切相关的符号。对于DDWSF中的标志，要保持在比赛中，至少6个连续的帧应该产生完美的匹配。不满足上述条件的DDWSF标志从识别过程中被消除。在下一次迭代中，只有数据集中剩余的符号参与匹配过程。接下来的10个帧经历相同的过程，并且该过程连续，直到我们在DDWSF中具有与QSF稀疏匹配的单个符号。为了验证早期估计模型的结果，最终的空间GM上的剩余的单个DDWSF符号和QSF启动，以确定剩余的符号作为QSF。这个过程是快速和准确的识别3D运动捕捉数据的研究相比，普通的GM发起为了测试所提出的框架，我们设计了4个实验，解决了两个问题，在3D符号匹配相关的签名者的签名速度和识别标志在杂波运动。总共测试了来自5个不同签名者的350个签名。实验结果表明，所提出的GM算法具有较高的识别精度和识别效率结果显示，在所有4个实验模拟期间，不同签名者之间的匹配率为98%，执行速度更快下一节将专门介绍用于SLR和其他应用的3D运动捕捉模型的文献调查。第3节描述了所提出的模型的详细方法，第4节给出了详细分析的实验模拟第5节总结了突出的应用程序的3D动作捕捉模型识别手势的印度手语的工作2. 文献综述在过去的20年里，手语识别（SLR）随着技术的发展从1D、2D模型转变为3D模型。在1D中，SLR基于从手套获取的1D信号（Kushwah等人，2017）并使用信号处理方法进行分类（Kumar等人，2017;Kumar等人，2017年）。最近，研究人员开始使用跳跃运动传感器（Mapari和Kharat，2016）来提取手指运动的1D信号，并使用隐马尔可夫模型来估计手语的相关手势。更快的1D模型在只强调手的情况下产生良好的识别率。但手语涉及头部，躯干和面部表情以及手部动作和形状（Rao和Kishore，2016）。与1D数据手套相比，标志的2D视频数据产生相对更多的信息。从2D捕获，可以探索视觉语言的所有元素，同时限制速度和分类准确性。同样，对于2D SLR，HMM是最广泛研究的具有连续和离散版本的手语的分类器（Belgacem等人，2017年）。关于2D模型的更多研究相关材料和相应的研究挑战可以在（Sun等人，2017;Sandler，2017; Li等人，2016年）。研究人员面临的另一个挑战是将检测到的符号转换为有意义的句子（Sandler，2017）。图 1显示了2D SLR中具有挑战性的问题，例如Fig. 1. 2D处理中的挑战和3D中的消除。854E. Kiran Kumar等人/沙特国王大学学报.Σ........................................................ ΣðÞðÞvvv手跟踪、手和面部上的遮挡、背景照明、改变签名者背景和用于处理的相机传感器动态。3D模型解决了所有的二维问题，并带来了新的挑战，如大数据集，二维-三维集成，符号和非符号区分，三维形状分析和三维点分类。在过去的十年中，随着3D深度传感器（如Microsoft Kinect和RGB-D传感器）的可用性，基于手语识别的技术已经进入了一个新的层面。Kinect传感器捕获3D深度图像，有时与RGB彩色视频数据组合以形成RGB-D视频图像。3D手语（Sun等人，2013; Agarwal和Thakur，2013; Almeida等人，2014; Li等人，2015年）在一定程度上探索了这些传感器在最近的时间。来自Kinect传感器的3D数据由手部轨迹组成（Chai等人，2013）、方向和速度（Geng等人，2014）从一个单一的深度图像。诸如3D身体关节位置的特征（Nai等人，2017）和Fingers土方机距离（FEMD）（Zhang和Kurakin，2017）用于符号分类。使用隐藏马尔可夫模型（HMM）对来自3D手势的特征进行分类（Kumar等人，2017）、深度卷积神经网络（DCNN）（Duan等人，2016）、加权动态时间规整（DTW）（Cheng等人，2016）和欧几里得距离测量（Ansari和Harit，2016）。在Sun等人（2013）中，具有3D Kinect数据的判别式样本编码（DEC）基于从帧级别和单个视频级别的判别中学习的样本对标志视频进行分类。该实验使用了一组2000个美国手语（ASL）视频，这些视频具有颜色，深度和骨架信息等特征。但该模型的难点在于如何从背景杂波中选取典型标志帧。文献指出，Kinect在SLR中的广泛使用在检测体征方面具有良好的准确性。然而，它仍然有问题的闭塞，多目标感知，仍然是签名者相关的。3D运动捕捉技术（3DMocap）（Rucco等人，2017）消除了大多数与捕获相关的问题，例如背景运动、多个移动、照明和遮挡（Guess等人， 2017年）。3D运动捕捉数据分析是目前新兴的研究领域，大多数研究将其用作验证工具而不是分析工具。在过去的几年中，对分析的研究正在加快步伐，3D数据分析是最具挑战性的问题（Yang等人，2017年）。标记之间的轨迹、速度和角度等运动特征用于对人体运动进行分类（Cahill-Rowley和Rose，2017）。该分析使用有限的3D数据集，从生成的大量特征中对少于10个运动进行分类。用于诸如运动、舞蹈和步态的应用的3D人体运动的大型数据集可以在以下文献中找到（Zhang等人，2017年）。对于3D手语，形状、轨迹和角度突然变化，运动中的周期性范围很小。用于识别3D视频序列中的运动的3D运动数据上的几何关系（Han等人，2017; Park等人，二〇一五年;在2D和3D数据序列两者上的分割和运动分割（Huang等人，2010年）。在Borzeshi等人（2011）中，每个帧中的人体运动由图形表示，并在训练和测试数据之间计算匹配相似度。在Ta等人（2010）中，超图匹配算法根据从图中提取的时空特征来识别人体运动。基于图的技术研究使用自适应图核（AGK）在李等人。（2016），Kuhn-Munkres图匹配算法（Xiao等人， 2015）和动态建模（DP）（Celiktutan等人，2015）用于3D人体运动匹配。图形内核已经得到了3D连续数据研究人员的广泛赞赏（Gärtner等人， 2003年）。最后，3D运动检索问题通过如上所述的自适应图匹配来准确地解决。然而，在时间域的问题是解决大多数的研究使用时间金字塔结构。在手语中使用时间金字塔的问题与手语视频的长度有关。QSF中的每个标志视频与DDWSF数据库中的相同标志具有不同的长度。使用固定长度窗口时间金字塔的建设提供了负面的结果为三维SLR。因此，我们设计了一个符号位置识别算法和多帧匹配之间的QSF和DDWSF的运动符号提取和早期的符号估计。与时间金字塔模型和传统的自适应GM模型相比，该模型的符号召回准确率和运算速度都有所提高。此外，以前的模型，如HMM，CNN，DTW和DEC，需要大量的训练与大数据集注册良好的识别率。然而，这项工作中提出的EEMGM模型不需要培训，我们与通用汽车公司的合作使它变得更快。该模型与文献中提出的模型相比，能够获得更高的识别率。3. SLR的3D图形匹配本节详细说明了用于表示3D标志数据的图形的使用。一个全功能的方法进行了讨论，以提高识别算法的速度时，有一个查询和数据集帧之间的不匹配。类似地，突出显示了提取嵌入在杂乱的非符号手部运动3.1. 准备3D符号图图gv;e是三维空间中的一组连通点，vi<$Rxi;yi;zi8i<$1tonv和eij！Rdxij;yij;zij其中v表示由变量i索引的具有nv个顶点的顶点集。边eij是在一对顶点之间测量的一组l1通过ij。的L1距离规范是计算如d x ij;y ij;z ij¼x i-x j;y i-y j ;z i-z j.的3D运动捕捉环境提供了对图论分析的自然倾向具有3D数据的图用2元组gv;e表示。顶点和边的特征由v1/4/2v1;v2;. . ;v n]2Rdv×nv和e1 2;e23;.. . . ;en-1n]2模型但这些模型使用静态数据来寻找标记关节空间数据中的几何关系。但是3D运动捕捉产生时空联合数据（Li等人，2016）进行分析，并需要一个模型来定义帧序列中关节之间的这种关系。Li等人（2016）中的人体运动识别通过表示3D人体来识别联合数据使用无向图gv;e，其中v表示顶点，e表示边两个连续顶点之间的路径。该模型正在探索这项工作的手语识别的3D运动捕捉的标志。计算机视觉研究人员发现了图形在表示图像对象以进行形状匹配方面的有效使用Rde×nv-1。这里，dv和de是图g中的顶点和边的维数。nv给出了一个图表。对于手语表示，我们设计了一个具有57个标记点或关节的3D模型，如图2所示。这57个标记涵盖了手语识别中涉及的98%的动作。每个标记都被标记，表示图上的顶点或节点。边定义为两个相邻标记点之间的l1距离。在所有的3D手语图表示与57个顶点和56条边。在这项工作中，图和子图是对称的，沿着垂直轴在胸部标记的Aggarwal和Xia，2014年）是迄今为止最成功的分析E. Kiran Kumar等人/沙特国王大学学报8551我不>不不不不tD不不不tDQ D11minI1I1i1j1mini1j 1i1j1>：i1j10否则不不>Q Dmv我如果Q¼iD8个证书1 1我1图二. 3D运动捕捉中的签名者表示（模板）。mS¼meQ如果i1jQi1jD8个边缘ð1Þ用于标志的3D自适应图是根据标志上的nv个关节的移动而非线性地自适应的实体，其中t是帧编号。符号被表示为自适应图g上的空间变形的t帧的集合。给予从DDWSF符号数据集和输入查询视频QSF中提取一对自适应符号图SD和SQ，图匹配（GM）问题被定义为每个顶点和边对之间的相似性度量问题我们创建一个数据集符号图DDWSF，S D¼nV D; E D; G D; H Do和一查询签署图QSF作为其中对角线元素表示顶点边缘匹配，非对角线元素表示矩阵mS中的非匹配。然而，存在与用于3D的此模型相关联的实施问题SLR是一个复杂的问题，因为S-D-S-Q中的可变帧和大量的计算时间。所提出的模型有能力解决这些问题，通过使用早期估计模型与图匹配。3.3. 帧内GM运动帧提取图3示出了数据集中的离散标志词“Good”和“Sports”的框架视图阶段图三. 标志3.2.三维符号图匹配856E. Kiran Kumar等人/沙特国王大学学报tD222-Dð¼ÞtrDnvS不T-12我S10D见图4。基于图内匹配模型的运动帧提取。数据集，它转化为3D空间域中的运动分割问题本节描述帧内图形匹配，以提取运动顶点较少变化或静态顶点。这有助于仅保留运动密集型标志帧。图4示出了用于对数据集帧和查询帧进行运动帧提取的帧内GM的流程图。对于数据集中的任何两个连续帧，由QSF，我们提出了一对多的图匹配上提取的三维运动帧。QSF中的一个帧与DDWSF中的符号中的基于匹配分数，最佳匹配帧用于识别。然而，这个过程需要大量的计算时间。为了减少计算量，我们提出了下一节讨论的早期估计模型。图SDSDtD-1、我们计算顶点匹配分数3.4. 基于早期估计模型的InterGM符号识别mvR t-1 ×nv和边缘匹配得分meRt-1 ×nv-1，欧氏距离函数定义为任何手语中的手势都是通过手的形状、相对于头部或躯干的手部动作或双手来识别的。的mv¼ kvt-vt-1k2m e¼ ke-eKð2Þð3Þ3D SLR的目标是将这些分量匹配为从运动捕捉设置获得的3D特征。匹配是在图中表示的移动身体部位的轨迹之间，3D符号数据集SD和查询符号输入SQ。为了有效匹配其中，v t&v t-1和et&ett-1是对应帧t &t 1中的顶点和边。帧内GM的目标是保留具有高运动内容的帧，而不对符号帧进行重新排序例如，在图3（a）中，我们具有表示符号“Good”的t个D226帧内GM通过去除刚性帧并保持高运动帧处于相同的顺序以使符号有意义来优化从tD到t0D的帧的数量。运动帧索引（MFI）tv被定义为：在SQ和SD中的每个符号之间，每个SQ帧与SD中的所有符号中的所有帧匹配。图5示出了用于标志识别的图间匹配的过程。然而，这个过程是计算密集型的。负载使用早期估计模型（EEM）对匹配算法进行简化。EEM首先将整个查询符号分解为10帧集合。SQ中的每个10-集与前10个帧进行图匹配在数据集SD的每个符号中。两个参数控制结果tv¼argmvPmvð4Þ图匹配算法。第一，最大数量的simi-D树t-1其中顶点的顶点运动阈值mv被建模作为较大的帧和两个，这些相似帧在数据集中的顺序。如果这两个参数都在可接受的范围内，则重新训练数据剩余的数据集符号与来自查询的下一组10个帧相匹配mvargmaximumv5sign video.两个规则的类似测试将消除t-1tD与查询符号不同的数据集过程结束，当数据集中只剩下一个符号然而，为了验证类似地，两个连续帧之间的运动帧索引定义为：数据库中的剩余符号与查询符号相同，查询中的所有剩余帧都与单独的数据集匹配teargmePmeð6Þ标志.D树t-1利用边缘运动阈值，meargmaxme该模型在完成符号之前预测查询符号，因此称为早期估计模型（EEM）。两个决策分量的计算如下。最大7使用顶点计算匹配的相似帧的&t-1tDSQSD上的边缘匹配，（一）. 匹配的分数是-当且仅当tvtrols要为下一阶段而T E 为空集D匹配。mS得分越大，下一阶段要匹配的数据集就越大。t0D<$tv\te<$f/g<$8对各个帧的匹配分数进行平均以表示D D发送单独的帧匹配。所提取的运动帧表示具有较少数目的帧的标志，从而减少标志识别期间的计算mt¼1XmS9然而，运动阈值控制运动的数量正确表示符号所需的帧经过多次迭代-SNV1/1的情况下，我们设置的运动阈值中定义的方程。（5）和（7）。运动帧提取在DDWSF和QSF上启动。然而，DDWSF和QSF中的运动帧的数量是不同的，因为它们由不同的测试对象执行。使阶段2识别对DDWSF中的帧数免疫，其中t是帧索引，nv是顶点数具有最小m_t的帧的最大数目被提取为tD¼XtD¼X。10：00-10：001/11/12E. Kiran Kumar等人/沙特国王大学学报857我S×我我1如果0.5tD≤1¼tD2008年1月1日10时20分。. .R/H;D/DC¼XCi12mmR%¼jjLiZij10015.Σ我1/1图五. 符号识别中的图间匹配。其中tD给出0到10之间的数字。值为零表示不匹配，值为十表示完全匹配。阈值设置为0.2，表示QSF和DDWSF符号中的相似帧决策的第二步是确定分布D与Z 1/4小时SQ和预测标签L，使用Godbole和Sarawagi（2004）中的以下度量1XjDjjLiTZij匹配的帧是否在序列中这确保了信号连续性是SLR正确识别符号所必需的第二个决策规则被建模为PH;DjDj1/1jZij13（1XjDjjLiTZijI¼ðÞ101XjDjjLiTZij其中P H D为精度，R H D是recall和R有了认识其中，tD是显示最大值的所有数据集帧索引的集合ð;质量百分比我与查询帧的mum相似性该规则检查匹配后提取的帧编号的连续性。值“C”定义连续帧常数。通过对上述两条规则的多次检验，我们得出tD和C的值为P5。也就是说，至少5帧或更多帧应该匹配，这些帧是连续的，以便数据集符号转移到下一阶段。怎么--然而，增加这个数字将通过牺牲识别的准确性而导致更快的计算。50%的截止值使我们的3D印度手语数据库中的所有符号的计算速度更快，识别率更高。下面的算法将在350个单词的印度手语数据集上进行实验测试。下一节将详细讨论该算法的结果。4. 实验结果与讨论这部分工作报告了印度手语3D数据集的实验结果，并与最先进的GM技术进行了比较，例如时间金字塔图匹配（TPGM）（Hussein等人，2013）、自适应图匹配（AGM）（Yang和Liu，2017）、加权图匹配（ AGM ）（ Xiao 等人， 2014 ）、 3D 关节的直方图（Barnachon等人，2014）、动态时间缠绕（DTW）（Leightley等人，2014）和2D图形匹配（2D-GM）。我们使用三个性能评估器来验证我们的早期估计模型与图匹配（EEMGM）方法的性能。它们是精确-对于一个强有力的假设，H的结果是EEMGM和测试的输入查询符号SQ上的率每个符号使用Matlab“tic”和“toc”函数记录每个实验的计算时间。设计了四个实验来测试所提出的算法的效率和鲁棒性。Exp-1对DDWSF和QSF使用相同的帧速度。在Exp-2和Exp-3中，我们使用以比数据集符号更慢和更快的符号移动捕获的查询视频。实验4试图在一堆杂乱的手部动作中找到这个符号。这四个实验为解决手语机器翻译中的帧率和手杂波两个问题奠定了基础。此外，5组查询签名视频记录使用5个不同的签名者在4个变种，以验证所提出的模型。4.1. 印度手语3D数据集实验是在Koneru Lakshmaiah教育基金会生物力学和视觉计算研究中心创建的3D印度手语数据集上进行的。光学3D运动捕捉技术与8个红外和1个RGB摄像头被设置为捕捉标志。相机的高度、焦距和视角都经过了调整，以尽量减少移动过程中的数据丢失每个光学摄像机以120 fps的速度捕捉标记的移动在ISL的三维运动捕捉过程中面临的最大当手在各个方向移动时，手上的标记很难捕捉3D模板由57个标记组成，分为18个左手标记、18个右手标记、2个肩膀标记、1个胸部标记、2个手臂标记、12个面部标记和4个头部标记。图2中的模板是通过测试不同的标记位置得到的，并且该模型模板为350个符号数据集产生了最佳捕获信息。C11Lð14Þ我0别处第一章1J ji¼ 1ji j858E. Kiran Kumar等人/沙特国王大学学报×××ð Þ2ð¼ Þ××捕获离散单词数据集以将ISL中的3D数据集表示为DDWSF。一个350字的手语数据集（Kishore等人，2018; Kumar等人，2018年）创建并使用印度手语专家进行验证。该数据集是由来自10个不同类别的35个单词分类创建的。它们是，体育，direc- tions，菜肴香料，政府设立，健康，法律，身体部分功能，大陆，国家和家畜。3D标志数据集的特征在于标记在3D空间中的位置每个标记物由x;y;zR1×3矩阵表征。使用运动捕捉技术捕捉的每个3D帧用57 × 3的矩阵表示。对于具有120帧的符号，矩阵大小为57 3 120。实验测试了EEMGM算法在350个单词上的性能，使用方程中定义的三个参数。（13）使用手语专家以常规速度捕获数据集符号。用于测试的查询数据集有5个实例一个符号的四种不同变体这5个实例是使用4个非本地签名者捕获的。每个数据集符号有20个查询符号用于测试。顶点和边的变换G;H1被设置为1。这是由于在符号期间相邻图拓扑中的微小变换。由数据集和查询生成的图是完全不连通的无向图。利用nexus软件对图的顶点和边进行了有效的重构，表示出57个标记点，消除了噪声测量的影响。数据集中使用的每个符号的几个帧如图3（b）所示。在冰岛语中是4.2. 同速QSF第一个实验测试了EEMGM算法在16个查询符号实例上对350字DDWSF的性能，具有大致相同的帧数。GM的第一部分开始从QSF和DDWSF符号中提取运动帧。这里我们使用Eqs。（5）和（7）分别计算图的顶点和边的运动阈值。GM检验QSF和DDWSF中具有相同运动阈值运动阈值在小符号到大符号的范围为1.25-2.65。顶点和边被消隐，以产生最大的效果，在识别运动帧。通过使用运动帧提取，标志'篮球'中的帧的数量从226减少到181。类似地，对于288帧的“目标”标志，帧的数量减少到211。平均而言，在运动帧提取阶段期间帧的数量减少了25%。在运动帧提取之后，我们在Exp-1中的QSF和DDWSF中观察到几乎相等数量的帧。在第二阶段，我们诱导EEMGM算法从数据集中的350个符号中挑选出一类输入查询符号。图6示出了针对一组17个数据集符号和一个查询符号的过程。对查询得出的结论建议尽早签字GM估计模型需要4次迭代。在第4次迭代之后，单独数据集符号中的剩余帧与查询符号帧进行图形匹配以验证类。根据两种判决规则得到的帧间匹配分数，将标志标签以文本形式给出在350个单词的数据集中，提取类别标签的最大迭代次数仅为6次。为了证实这一点，我们用5个不同的签名者测试了结果，结果保持不变。在350个符号的DDWSF数据集中，48个符号进行了6次迭代，24个符号在5次迭代中估计，220个符号进行了4次迭代，58个符号仅进行了3次迭代。早期估计模型图匹配（EEMGM）减少了匹配过程的计算时间约95.85%的17个符号的数据集。这是当比较正常AGM之间的QSF标志和DDWSF标志。如图6所示，在运动提取阶段之后，数据集中有17个3D符号，每个符号平均181帧QSF是一个181帧的3D标志。一个正常的年度股东大会所需的总经理人数是181（181 17）=556937。也就是说，查询中的所有181个帧与17个数据集符号中的所有181个帧匹配。传统GM的计算复杂度为OtQ t D N D。其中t Q和t D是QSF和DDWSF中的帧的总数。其中ND是数据集符号的数量使用EEMGM，第一次迭代使用来自QSF和DDWSF的10个帧进行匹配，得到10×10×17= 1700个GM在第二次迭代中，我们只剩下图六、实验1，使用DDWSF和QSF的相同帧速率进行符号识别E. Kiran Kumar等人/沙特国王大学学报859×××××表1与最先进的动作识别算法相比的性能。方法识别率（%）交叉视图交叉主题Exp-1实验-2实验3Exp-4Exp-1实验-2实验3Exp-4年度股东大会（Yang and Liu，2017）97.4695.2794.7290.2995.0392.5491.9687.31TPGM（Hussein等人， 2013年度）96.6393.5992.5688.5394.2490.8689.885.55二维GM79.4375.3170.5354.9677.0972.5867.7751.98WGM（Xiao等人， 2014年度）94.8692.8989.7586.7692.4390.1686.9983.783D关节的直方图（Barnachon等人， 2014年度）90.4887.8286.4681.9788.0585.0983.778.99DTW（Leightley等人， 2014年度）82.4479.8677.4969.5680.0177.1374.7366.58EEMGM98.7997.6498.3195.8197.3694.9195.5594.83数据集中只有12个符号用于匹配，这导致10 10 12 = 1200 GM。在第3次迭代期间，数量进一步减少到3个DDWSF符号，导致10 10 3 = 300个GM，最后，第4次迭代后的最后阶段在数据集中只剩下一个与QSF中的40帧精确匹配的GM。排除这40个帧，并对QSF和DDWSF中的剩余帧进行图形匹配，得到141 141 =19881 GM。使用该算法的总GM的是23081。使用EEM的GM的计算复杂度为O@100 r N D。其中@是迭代次数，rND是每次迭代后的残差数据集迭代残差数据集的符号在每次迭代后都会发生变化对于17的符号数据集，这将自适应GM或任何其他对于350符号的DDWSF，平均执行时间减少了74.79%。所提出的EEMGM的性能进行了比较，最先进的AGM，TPGM，WGM，直方图的3D关节，DTW和2D-GM在同一个2D视频信号数据集。对于2D GM，我们匹配了具有相同符号签名的帧，这些签名被手动对齐以获得最大性能。识别率计算见图7。在a）实验-1，b）实验-2，c）实验-3，d）实验-4中将EEMGM的精确度-召回率曲线与其他现有技术的算法进行比较。860E. Kiran Kumar等人/沙特国王大学学报从等式在表1中列出了所有上述算法的公式（15）。在交叉视图模式下，拟议的EEMGM的350个标志在印度手语显示了99%的识别所有的标志。周年大会和TPGM的识别率分别为98%和96%。三维关节、DTW和二维GM的直方图显示率分别为91%、83%和82%。穷人表2与最先进的动作识别算法相比的计算时间方法计算时间（毫秒）Exp-1实验-2实验3Exp-4年度股东大会（Yang and Liu，2017）440.03458.62400.58503.46TPGM（Hussein等人， 2013年度）459.33475.65365.91523.82二维GM608.49632.46559.72648.62WGM（Xiao等人， 2014年度）520.49545.85478.49598.783D关节的直方图（Barnachon等人， 2014年度）598.77609.82525.53618.42DTW（Leightley等人， 2014年度）522.41502.41459.67544.83EEMGM274.81295.33231.84317.51见图8。实验2，使用QSF的慢帧速度进行符号识别。图9.第九条。实验3，使用QSF的更快帧速度进行符号识别E. Kiran Kumar等人/沙特国王大学学报8612D-GM中的识别率是由于复杂标志中的遮挡。所表达的结果是针对QSF和DDWSF具有相等数量的帧的实验。当与最先进的方法相比较时，跨学科验证显示出对手语数据的良好识别在图7（a）中示出了所提出的EEMGM以及用于实验-1的其他现有技术算法模型所有基于3D手语数据的GM模型都显示出非常好的召回率，将查询符号与数据符号准确匹配。这些值是从方程计算的。（13）和（14）在查询符号的4个样本上求平均。所提出的方法的计算时间在表2中列出，并且当与其他现有技术的算法相比时，观察到是良好的。4.3. 具有较慢QSF在实验2中，我们测试了所提出的模型上的QSF，这是由5个签名者的手动作比较，比数据集的符号慢。低速标志在QSF中每个标志产生更多的数字帧。数据集以正常速度开发。例如，数据集中的符号“体育”在阶段1之后占据了181帧。然而，在较低的标志速度下，在329帧中捕获了相同的标志“体育”，这比通常的数据库标志长。在阶段1中的运动帧提取之后，在252个帧中占据“运动”标志。对于5个不同的签名者，帧计数有偏差10帧。挑战在于使用相同的数据集和所提出的算法来正确地从DDWSF中提取较慢的QSF符号。阶段1和阶段2中的算法第二阶段的结果如图所示。8.第八条。图中使用的较慢的QSF。 8来自3D标志“体育”。实际捕获结果为329帧。用相位1运动提取算法将其减少到252帧。由于在低速下连续帧中的运动变化较少，因此减少量与Exp - 1相比较大在阶段图10个。混淆矩阵显示的识别率的样本的50个复杂的双手和50个简单的单手的迹象，使用建议的EEMGM。862E. Kiran Kumar等人/沙特国王大学学报表3在不同的3D数据集上对所提出的方法和基线方法进行性能比较方法数据集认可率（%）3D关节直方图（2012）（Xia等人， 2012年）MSR-E3D78.92随机森林（2013）（Zhu等人， 2013年度）UT-Kinect动作87.91多部分姿势袋（2013）（Seidenari等人， 2013年度）佛罗伦萨3D动作82.03Repletlets（2014）（Wang等人， 2014年度）MSR-E3D88.24李群（2014）（Vemulapalli et al.， 2014年度）MSR-E3D89.53李群（2014）（Vemulapalli et al.， 2014年度）佛罗伦萨3D动作90.91运动轨迹（2015）（Devanne等人，（ 2015年）佛罗伦萨3D动作87.06Skeleton shape trajectories（2016）（Amor et al.，（2016年）MSR-E3D90.01HSOM（2016）（Ding等人，（2016年）UT-Kinect动作94.52JSG+ JSGK（2017）（Li and Leung，2017）MSR-E3D92.24Hierarchical RNN（2015）（Du et al.，（2015年）CMU83.13Deep LSTM（2017）（Lee et al.，（2017年）CMU88.40MAN（DenseNet161）（2018）（Xie等人， 2018年）HDM0597.69多任务学习（2017）（Yang et al.，（2017年）UT-Kinect动作99.19MSR 3D99.63佛罗伦萨3D动作95.29Bi-LSTM（2018）（Tanfous等人， 2018年）UT-Kinect动作98.49MSR 3D91.84佛罗伦萨3D动作94.48拟议的EEMGMCMU98.41HDM0595.66MSR 3D96.48UT-Kinect动作96.23佛罗伦萨3D动作95.893D手语97.38而不是查询符号，因此迭代稍微增加。图8显示

下载后可阅读完整内容，剩余1页未读，立即下载