没有合适的资源?快使用搜索试试~ 我知道了~
3D手语识别基于时空图核的生物力学和视觉计算研究
沙特国王大学学报基于时空图核的D. 阿尼尔·库马尔,美国特种部队。Sastry,P.V.V.Kishore,E.Kiran Kumar生物力学和视觉计算研究中心,ECE系,Koneru Lakshmaiah教育基金会,Green Fields,Vaddeswaram,Guntur(DT),印度阿提奇莱因福奥文章历史记录:2018年7月12日收到2018年10月11日修订2018年11月12日接受在线发售2018年保留字:3D手语识别3D关节相对距离宽、窄运动关节重构数据库模型图核匹配A B S T R A C T3D手语识别从捕捉到识别都是一个挑战。3D符号是手和手指相对于面部、头部和躯干的一组时空变化3D运动捕捉技术使我们能够捕捉这些复杂的3D人体运动,保留95%的识别所需的视觉提出了一种双运动算法来识别具有可变运动关节的三维标识。由于关节之间的距离不均匀,关节中的可变运动出现例如,手指运动不同于手部运动。从3D骨骼数据中提取运动特征的常用度量是关节相对距离的相对范围(RRJRD)。然而,关节相对距离的相对范围不能量化用于表征体征的所有相对关节运动,因为用于定义体征的不同身体部位之间的运动范围不同因此,我们提出了一个广泛的RRJRD和狭窄的RRJRD为基础的表征项目的运动功能图。每一个符号都是由一组时空投影到一个构造的符号图上表征的。实验结果表明,与现有的图核方法相比,该方法具有符号不变性和运动不变性,并且速度更快。©2018作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍手语是听障人士的沟通媒介.但是,有时他们应该与对手语不敏感的听力正常的人交流这个问题可以通过人工翻译来解决。在印度,有250多名口译员为10万听力受损的人服务。为了弥补人类解释器的不足,技术可以帮助建立一个机器解释器。一个视频-音频接口,作为机器翻译器取代人类翻译器。然而,设计这样的视频-音频接口在过去三十年的研究中是一个具有挑战性的问题(Zaki和Shaheen,2011)。人类 运动识 别已经 被广泛 研究了 很长一段 时间( Cédras 和Shah,1995)。人体运动识别中使用的传感器大多数从2D彩色视频,Kinect传感器的3D骨架和3D运动捕捉技术。在这项工作中,我们建议使用9摄像头的三维运动捕捉系统,以创建500个印度手语的迹象五个签名者被用于捕获具有2500个签名的数据集,其中1个是本地签名者,4个是非本地签名者。每个符号记录的帧的数量取决于签名者。该算法*通讯作者。电子邮件地址:danilmurali@kluniversity.in(D.A. Kumar),ascssastry@kluni-versity.in ( A.S.C.S.Sastry ) , pvvkishore@kluniversity.in ( P.V.V. Kishore ) ,kiraneepur-i@kluniversity.in(E.K. Kumar)。本文将三维手语识别问题归结为时空图核匹配问题。3D标志视频的3D关节位置和关节间距离特征定义自适应图。标志视频中的宽运动和窄运动被表示为关节相对距离特征的相对范围。将提取的每个3D标志视频中的特征映射到自适应图中,以构造用于匹配的图核在这项工作中,两个新的过程进行了讨论和模拟。第一,代替访问具有所有帧中的所有3D关节的图,我们提出使用帧之间的宽运动描述符相对范围关节相对距离(WRR_RD)来每帧聚类运动关节和非运动关节。第二,集群使用窄RRJRD(NRRJRD)来描述表示手指形状和运动的运动关节(用于手指)。这种方法有效地处理了由单关节引起的一系列运动,以表达一个标志。例如,与人体中的手指相比,手移动得更快。李 等 人 的 作 品 之 间 的 主 要 区 别 。 (2016 ) 和 Liand Leung(2017),本文的工作是在行动模板中。用于人体动作识别的动作模板具有均匀放置在人体骨架上的接缝处的均匀性表示相邻接缝之间的距离几乎相等因此,这些关节在动作序列中的运动可以用单个RRJRD测量来描述然而,手语模板是关节的非均匀分布,如我们在Kumar等人的先前工作中所使用的。https://doi.org/10.1016/j.jksuci.2018.11.0081319-1578/©2018作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com144地方检察Kumar等人/Journal of King Saud University我.Σ(2018年)。与手、胸、面部和头部区域的关节相比,手指关节紧密堆积。此外,在手语中,关节有一系列的运动。例如,与手指相比,手部运动更快。与手指相比,头部运动和面部运动甚至更在整个签名过程中,胸部和肩部标记很少移动。使用单个描述符来描述这些众多的运动会积极地增加误分类率。这项工作解决了这个问题,通过聚类较大的关节运动和较小的关节运动,这是单独处理,在数据库中作出决定这一过程实现了手语识别系统两个相对不同的处理目标1. 该过程独立于签名者或符号帧速率。2. 该数据库被转换为关系数据库,显示了5个标志的查询的接近度这个建议的程序注册零误分类一组2500 3D标志视频500个标志从5个不同的签名。此外,可以通过使用支持向量机(SVM)分类器来学习内核。2. 文献综述在过去的20年里,手语识别(SLR)随着技术的发展从1D、2D模型转变为3D模型。在1D中,SLR基于从手套获取的1D信号(Kushwah等人,2016),其使用信号处理方法分类(Kumar等人,2017年)。最近,研究人员开始使用跳跃运动传感器(Mapari和Kharat,2016)来提取手指运动的1D信号,并使用隐马尔可夫模型来估计手语更快的1D模型在只强调手的情况下产生良好的识别率。但手语涉及头 部 , 躯 干 和 面 部 表 情 以 及 手 部 动 作 和 形 状 ( Rao 和 Kishore ,2017)。与1D数据手套相比,标志的2D视频数据产生相对更多的信息。从2D捕获,可以探索视觉语言的所有元素,同时限制速度和分类准确性。同样,对于2D SLR,HMM是最广泛研究的具有连续和离散版本的手语的分类器(Belgacem等人,2017年)。关于2D模型的更多研究相关材料和相应的研究挑战可以在Sun et al.(2017)中找到。研究人员 面 临 的 另 一 个 挑 战 是 将 检 测 到 的 符 号 转 换 为 有 意 义 的 句 子(Sandler,2017)。参考文献Kumar et al. (2018),2D SLR中具有挑战性的问题,例如手部跟踪,手部和面部的遮挡,背景照明,改变签名者背景和相机传感器动态处理。3D模型解决了所有的二维问题,并带来了新的挑战,如大数据集,二维-三维集成,符号和非符号区分,三维形状分析和三维点分类。在过去的十年中,随着像Microsoft Kinect和RGB-D传感器这样的3D深度传感器的可用性(Pigou等人,2014年)基于手语识别已经采取了额外的维度。另一种称为跳跃运动传感器的传感器最近被研究人员用来描述手语(Hisham和Hamouda,2017)。它捕捉3D轴上的手部运动,并在不接触传感器的情况下显著地表示手部运动。然而,这种模式并不是一个好的工具来捕捉手语的有限表示的迹象,这是复杂的手运动相对于一些其他身体部位。Kinect数据还具有不能正确地对类间手遮挡和自遮挡进行建模的缺点。3D运动捕捉数据分析是目前新兴的研究领域,大多数研究人员将其用作验证工具而不是分析工具。在过去的几年里,对Ana...lytics正在加快步伐并且3D数据分析是最具挑战性的问题(Kumar等人,2018年)。诸如轨迹、速度和标记之间的角度的运动特征用于人类运动的分类(Kumar等人,2018年)。该分析使用有限的3D数据集,从生成的大量特征中对少于10个运动进行分类。用于运动、舞蹈和步态等应用的3D人体运动的大型数据集可以在Zhang等人(2017)列出的工作中找到。对于3D手语,形状、轨迹和角度突然变化,运动中几乎没有周期性的范围。最后,3D运动检索问题通过如上所述的自适应图匹配来准确地解决然而,大多数研究人员使用时间金字塔结构来解决时间域中的问题。在手语中使用时间金字塔的问题与手语视频的长度有关查询中的每个标志视频与数据库中的相同标志具有不同的采用定长窗作为时间金字塔的建模方法,对3D SLR有负面影响。因此,我们设计了顶点和边的乘积核,使得符号与帧数无关,从而提高了符号提取的效率。与时间金字塔模型相比,符号召回准确率有所提高。图1示出了所提出的3D手语识别的流程图。第3节描述了使用WRRJRD将运动分割为运动关节(MJ)和非运动关节(NMJ)的拟议方法。NRRJRD作为一个属性的图形构造运动关节进行了讨论。第4节展示了用于匹配的时空图构造。在第5节中介绍了在mocap数据上捕获的印度手语3D数据集的结果和讨论。3. 所提出的3D ISL匹配算法所提出的模型开发知识的基础上制定的3D mocap数据的图形内核的标志基于从描述3D关节位置和关节之间的距离的属性构造的图来制定图核下面详细介绍了ISL匹配算法的实现方法.3.1. 3D ISL人体模板手语使用人的上半身来表示符号。为了使用运动捕捉技术捕捉3D标志(Kumar等人,2018; Kumar等人, 2018年),我们采用了3D ISL人体模板。首先,我们提出通过计算关节相对距离(JRD)来执行关节运动分割和表示(Li和Leung,2017)。此过程将运动和非运动关节分离到单独的簇中。下一节将详细介绍这一过程。3.2. 宽关节运动分割和表示关节运动分割(JMS)模块在这项工作中,运动关节被定义为手和手指上的关节,在整个视频的标志移动对非移动关节。为了实现JMS,我们在连续帧中测量相似关节之间的运动距离,并使用平均运动阈值(MMT)提取运动关节指标每个关节J用3D坐标关节位置 在每个帧t上的1/4/2xit;yit;zit]2R。在大多数以前的作品中,关节位置相对于平均位置或方差进行归一化。然而,这项工作在识别阶段使用内核匹配模块,该模块建立在地方检察Kumar等人/Journal of King Saud University145我.2我2Fig. 1.所提出的时空图核学习算法的流程图。而不是联合位置本身。成对的关节计算位置L处的两个关节之间的距离。Jtto手朝向其他身体部位的精确运动,这些身体部位由于体内闭塞而难以跟踪(Kumar等人,l Jt第一章1用欧氏距离函数表示其中i是联合索引。2018年)。然而,这种运动表示对于大多数应用来说是常见的在数据库中的迹象,如图2所示。 除了手联合相对距离(JRD)(Li和Leung,2017)测量了一对第i个关节和第i个关节之间的距离,Jt和Jt,运动、符号用手指间运动来识别,我相同的帧T。成对欧氏距离J不第一章1形状.这些手指形状不是图2的一部分,因为它们J.D.Jt-l.JT第二代D由下式给出:8i¼1至 NJ;t¼ 1至Nt1小动作和大动作的对比。手语识别是一个结合了较大的手动作和更小的手指动作。参数的值其中J tNJ-1战斗机N 是实矩阵,其值表示->0在WRRJRD上从NMJ仲裁MJ,在连续的D/D/D 2R2×t符号的Nt个标架中NJ<$NJ-1个关节之间的成对距离。如Li et al. (2016)中,每个JRD的相对范围被考虑用于表征符号中的运动,并且被命名为RRJRD。JRD范围在3D视频的两个连续帧中的相同关节对之间公式化。它表示关节距离相对于平均距离的变化。在黎工作等人(2016)使用RRJRD的值来表示人类动作中的运动。RRJRD给出了相同关节对之间的运动变化,并在3D运动视频中显示了参与运动的关节。对3D符号视频的RR_JRD矩阵的决定导致双联合聚类。一个聚类指向运动关节(MJ),另一个是非运动关节(NMJ)。帧t和t之间的第j关节对的RR_RD被计算为Jt;j-Jt1;j在一个标志中。如果-的值大,则所有窄的手指运动都是无法挽回 同样,对于较小的 -我知道有不需要的运动以及所需的运动。因此,预测的准确价值是一个石化的任务,为每一个三维标志视频.因此,为所有符号选择固定值将降低计算复杂度并增加清晰度。因此,我们采用了双运动测量使用WRRJRD和NRRJRD。总之,WRRJRD测量传达跟踪特性,NRRJRD提供指形特性。3.3. 窄关节运动分割3D签名者关节上的宽RRJRD特征,RJ DDDð2ÞNMJ 在这些设备上操作,使SLR系统能够识别JD其中t是帧指针。RRJRD在3D模型上的投影给出了由符号展示的运动结构。不像先前的工作,其中前50个RRJRD值(Li等人,2016)用于表征人体运动。我们使用所有值来将运动关节与非运动关节分开。使用表达式实现RRJRD值到3D图形模型上的投影。(1)如RJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ<第一章1146地方检察Kumar等人/Journal of King Saud University一个基于MJ和NMJ之间相对性的符号比如说,对于图2中的符号对于“DINER”符号,手指指向面部和头部区域的左侧部分。这些信息对正确识别一个信号是非常重要的WRRJRD特征对与3D标志相关的手指向和跟踪信息进行建模。然而,手指形状取决于相对运动,一个手指与相邻的手指是局部的,相对于窄的运动和大的手的运动是独立的。MJi;jD0其他地方ð3Þ利用运动阈值计算MJ上的窄RRJRD(NRRJRD)确保了手指中仅窄位移,参数->0是将MJ与NMJ 图2. 显示了从以下公式获得的RRJRD值的投影:当量(3)、关于3D签名者图模型。投影显示了从MJ的空间位移RRJRD还提供了面部和头部上MJ相对于NMJ的相对运动。在使用手作为指向面部或身体位置的指针来标识标志时,此属性是必需的该测量给出了预-提取。这种情况下的运动阈值的值小于先前的情况。图3示出了NRRJRD在具有2个签名者的4个不同签名的手指关节图上的投影人们可以很容易地区分的基础上的边缘connec- tions的数量相同的手指节点集的标志。由WRRJRD NRRJRD表示的符号中的宽运动和窄运动足以使符号奇异化以用于分类。该过程的第一步是将3D标志建模为时空图。地方检察Kumar等人/Journal of King Saud University147ð Þ ðÞij;ij;IJ¼ Dij ¼-jþði-jþði-jv 1 ; v 2; v 1;v2。. . ;vnv] 2R2式中,v<$lJ <$$>x;y;z<$8i<$1吨和v0¼l0J01/4x0;y0;z0/8i/4.你...你!图二.显示从2个不同的签名者为4个不同的标志投影到3D标志模型上的RRJRD值。图三. NRRJRD从两个不同的签名者的两个签名的投影。3.4. 时空图构造图gv;e是三维空间中的一组连通点,其中v i<$Rxi;yi;zi<$8i<$1到nv且eij!其中v表示具有n v的顶点集 由变量i索引的顶点。 边缘eij是在一对顶点之间测量的一组l2距离,我J。 l2距离范数计算为3.5. 时空图核构造设gv;e和gv0;e0是两个运动姿态图。图形G和G0被表示为每个姿势中的一组帧的帧的数量和标志的位置可能会有所不同,在每个图中,我们表明,建议的STGK是独立的规模变化的标志。 来自Li et al. (2016),我们定义顶点核D. XyzJqxx2y2zz2。的3Dkvv;v0Rnv×Nt 在图G 0中的两个顶点V和V0&之间,运动捕捉环境提供了对图形理论分析的自然倾向。 具有3D数据的图用2元组gv; e表示。对顶点和边的特征进行了量化lJ l0J02kvv;v0exp-2c2ð4Þ3×nv分别nv1×nv nv-1。Σ我我我v我我我1吨v. nv表示图中的顶点数。参数c是a和e1/2e1 2;e1 3;。. . ;env-1nv] 2R图中顶点的个数148地方检察Kumar等人/Journal of King Saud Universityð Þ¼公司 简介.ΣDe ¼XW bKðiÞð12Þ<。XnoDeDkee;e0exp-D2vveDDWBWBvtQivKvv;v0arg XXkv. vi;v0i2RtQ×tD6e;0Þ ¼ej、0j2RtQ-1×tD-1v;v;eeIvi-Ivi1¼¼1vveQtQvvv>e2ð Þ ⊂ve1Xn高斯核的小常数,c>0。边缘核描述由RRJRD值定义的边缘之间的相似性我们在两条边e之间定义边核ke;e0 R<$NT-1<$×nv <$nv-1<$&图g和g0中的e0为.-R0.J0!framestD i.这里我1到 S在数据库中使用S标志。在两个实例中,在查询符号和每个数据库符号之间构造时空图核(STGK)。一个用于宽手运动匹配,另一个用于窄手指运动和形状匹配。宽顶点核和宽边核分别是1 ×t和1 ×t-1 × t的向量。查询标志2c0其中,e<$RDJ和e0<$R0D J0是两个时空图中的RRJRD。c0>0是距离归一化常数。从RRJRD中提取运动是一个复杂的现象,在符号着陆的情况下语言识别对于Li等人(2016)中讨论的RRJRD中的人体运动提取,只需选择代表运动的前50个RRJRD值。该模型拒绝了连续帧中的小的不需要的和固定的运动关节。然而,手语有两套动作。其中一个较大的手部动作涉及-形成具有所有数据库符号的顶点核和边核核中的值表示查询帧与每个数据库符号中的所有帧之间的相似程度。所提出的内核构建过程必然会消除对帧同步的需要。符号标签提取可以从两个方向进行。 在第一种方法中,我们建议在每个内核上使用最大顺序帧匹配来识别最大相似符号。顺序帧匹配确保帧是有序的,保留了时间信息。从肩膀到手掌的关节,第二,KW2R1×tS1/4ar gKv;v02RtQ×tSð8Þ手指和头。这两种运动都是定义v签名。因此,RRJRD的决策是使用DvDMax在Eq.(三)、大运动阈值标识按顺序与数据集符号,我们将阈值应用于KW2R1×tS 和KW2 R1 ×KWtS-1核提取较大的运动分量,称为WRRJRD,分割运动关节从非运动关节表征手跟踪。因为从与以下相关的阈值化RRJRD中提取窄RRJRD,vDeDWBWb1×t SWW运动关节的手指形状。因此,SLR需要四个½I;K2b] ¼K>0:9×最大值x最大值KÞð9Þv v v v图核匹配来准确地识别标志。两个边缘S具有WRR_JRD和NRR_JRD的核表示为kW_e;e0 和1/2I_w_b;K_b2_b1× k_t-1] 1/4K_w>0:9×maxK_w_k10ee eDe ekN<$e;e0<$各自的ly。类似地,还定义了两个顶点核其中KWb和KWb是大小为tQ×1&作为宽运动关节组和窄运动关节组的kWv;v0和kNv;v0运动关节套件内核度量查询符号和数据库符号之间的相似性。直接使用这些内核来匹配两个相同的t=Q~(-1)× 1。 I V的内容我展示了与数据库框架匹配的查询的索引。用于获取一真积极识别的的查询签个名,玉米粒WW具有可变帧速率的符号由于符号的空间位置和帧的数目而导致误分类。这个问题是成功地解决了多帧匹配的所有路线的图。修改内核以表示帧而不是顶点和边缘。修改后的顶点和边核计算为nvS在查询和以连续顺序索引的数据库符号之间,Kek应该包含90%的最大值。标志SIM-KWb的相似性评分(SS评分),KWb是平均值,计算如下tQSSW¼KWb11¼18tx;y;zi¼1nvnv-1SSW1Q-1战斗机Q-1战斗机e1/1KeeargX2K.eeS7其中,tQ和tS表示查询顶点和边图核上的操作。检查时间顺序从KWb和KWb查询帧顺序,我们应用D和数据库。变量我们从上述两个方程构造4个核KW KN KWKN宽核KWKW用于重构数据库,8>。XtQ nIWF¼1/1veWbo!ð13Þ联系 我们用于符号分类的窄核KNKN以及0其他宽粒例如,符号可以在查询中的第20帧处开始,而不是在数据库符号中的第一帧处这一现象使...表示需要在WF之前在查询Q-1战斗机 IWbi-IWbi11/4!匹配过程形成的核的大小为1×tS。查询符号的此列内核指示Ie¼:e1/1e0其他ð14Þ查询帧和数据集帧,而不管它们在3D视频序列中的位置。WF我WF表示百分比(%)连续帧与数据库信号装置.总之,属性SSW;SSW;IWF和IWF假定3.6. 查询符号识别让的查询签署图被gQ 1/4gQ1;gQ2;gQ3;...... ;gg对于帧tQ。同样,数据库标志也是代表性的,veve查询符号和数据库符号之间的关系的关系用于生成关系数据库,该关系数据库在每次查询输入之后被重构或重新排序。如果两个索引是连续的,则IWbi-IWbi11的值和加法表示为gS<$g0v0;e0gDD2D3ðiÞ;...........;g DtDi最大数量的1产生最终的最大索引,IWF. 该值将显示有最大数量的孔-我ð5Þvv其中,SSW和SSW是宽运动变量的符号相似性分数。8t第1页ve1地方检察Kumar等人/Journal of King Saud University149WWF×vetQve1/1veve我 ve1/1veveveveveeQ-1战斗机eveveveveveve2ve2½veve; veveveN NNF NF NNFhSSWSSNA IWINi我 ve连续的帧的值是否KWi和窄运动KNi两个阶段。经过训练的SVMWb Wbvevev i 1990年至1994年3.7. 关系数据库重构机制还对输入的查询符号进行分类。宽运动核和窄行运动核被表示为ker的线性组合,内尔斯K Wix0K W0Ps xiKWi和KNix1KN0P5x1KN.其中,x和x1是第一和第二中的权重重组机制的宽运动匹配核训练SVM分类器的阶段(Sastry等人, 2017年)。结果在下一节中检查所提出的方法。W W每个数据库符号i上的1/2Kv;Ke]给出属性的组合WWF WWF½SSv;Iv ]和1/ 2S Se;Ie]中。2组中的2个共同属性4. 结果和讨论WWF WWF½SSv;Iv [&1/2S Se;Ie]使用乘法融合融合成单属性向量½S SW×S SW;IWF×IWF] ! ½S SW;IWF]。这些操作会生成一个功能数据库,表示为大小为3×D的½SSvei;Ivei;LDi],其中D是数据库中的标志总数假设说,最大值3D特征数据库中的标签是提取的标志查询。然而,结果并不总是真正的阳性,因为提取是基于符号中的广泛运动而发生的。此外,符号是较宽的手部运动和较小的手指运动的组合。因此,这项工作提出了重组数据库的基础上的关系的数据库与查询符号。前5个相关符号再次用窄RRJRD内核重新分类以提取正确的符号。为了提高识别速度,数据库以降序重新排序,并且仅首选前5个宽动作标志。对于重构的数据库中的这前5个标签,在运动关节M,J,i,j上计算NRR,j,d。在这个阶段,3D图形由与存在于M J_i ; j_i集合中的关节相关的顶点和边组成。计算查询与5个数据库符号这些狭窄手指的运动关节形成作为顶点和边核的KNb;KNb该方法使用STGK匹配识别查询标志在一个巨大的标志数据库。采用VICON的8个红外和1个视频摄像头的3D运动捕捉技术来捕捉标志。设计了具有反射标记的关节模板,其中包含57个关节,代表SLR所需的人体模型。印度手语符号被捕获与5个不同的测试科目。每个签名者总共捕获500个签名。 总数据集大小是2500个3D标志4个不同的签名者不是母语手语使用者,因此同一个签名的签名过程存在一定的差异。每一个3D记录发生在330 fps。来自单个本地签名者的每个3D签名都标记有签名名称,并用作数据库。将数据库转换为所提出的方法正在测试在三个层次的抽象。第一个实验测试所提出的方法在3D运动捕捉手语视频。它测试了所提出的方法qual,使用精度,召回率和识别的一组标志从不同的类别。在这个实验中,所提出的方法的鲁棒性与流行的状态的,艺术3D动作识别方法对我们的3D手语数据集。具有连续的帧索引指示符INbINb。类似的标志KNb和KNb的城市评分是N1XNb第二个实验在公开可用的数据集上测试了我们提出的方法,例如CMU ( CMU , 2013 ) , HDM 05 ( Muller , YYYY ) 和 UTD-MHAD(Chen等人, 2015年,使用它的作品。最后,第三个实验比较了最先进的捕获SSv¼tQ1/1Kv15Q-1战斗机用于3D手语传感器的机制,例如Microsoft Kinect(MK_SLR)和LeapMotion(LM_SLR)传感器,(MC_SLR)手语数据。不锈钢N 1XK铌钛合金16毫米1/14.1. 该方法类似于宽运动识别阶段,按时间顺序的查询帧顺序被计算并保存在INF和INF中。使用多-折叠融合½SS×SS;I×I ] !半不锈钢;I ]中。该数据库由500个印度手语符号类组成。使用4个不同的签名器捕获测试签名,相同的类标签。因此,我们有2000个迹象,以测试veveveve提出的方法。图4示出了图匹配的控制流3.8. 识别标志提取在查询3D标志视频的第一次匹配操作之后,我们具有在3× 5矩阵中的前5个可能匹配的重构数据库, 表 示 为 dFW1/2SSW1/2;IWF 1/2;LDW1/2]8i1/2至5。第二次匹配操作与窄手指运动的重建ing过程。为查询符号和每个数据集符号生成图匹配核,其中查询中的每个帧与数据集中的每个帧形成匹配核。这确保了不受查询中的符号位置和每个符号的帧数的影响。所提出的方法实现了这两个优点。图4显示了使用宽运动内核的查询标志W W W WWFtured数据库产生一个3× 5的特征矩阵,表示为dFN1/2SN1/2;INFN 1/2;LDN 1/2; I NFN 1/2;LD N 1/2。与dFN相比,dFW中的相似性得分彼此非常接近。为了在两个独立的匹配中平衡这些类间的变化,在一些情况下,我们对dFW和dFN应用平均融合。最后一个断言-1/2Kv;Ke]和具有索引1/2Sve;Ive]的相似性得分来识别数据库中的标志前5个标志是基于以下内容提取的:最大分数,并以降序对数据库重新排序。窄指运动现在在内核上检查KNb;KNb老化的数据库功能集为SS Aiveve;I 我的朋友ve;L Di.由从前一阶段提取的运动关节形成窄运动匹配得分SS N I NF被计算以估计-输入的查询的正确标签是最大值SS Ai;I AiL Di。获得的所有值均在与查询符号匹配最后,在宽运动和窄运动中匹配分数的最大[0,1]。veve识别查询符号。例如,在图4中,查询符号是还引入了多核学习来验证从3D 数据产生的基于支持向量机(SVM)的多核学习用于宽运动体育这是一个双手手势,手指合拢。由于闭合的手指指向人体,因此难以使用RGB视频或Kinect深度图视频处理此标志。然而,3D在本节中,方法解释了关系数据库150地方检察Kumar等人/Journal of King Saud University见图4。 所提出的方法显示了从查询标志到最终识别阶段的流程。mocap捕捉到了这个标志,完美地再现了视频序列中完美的手部运动和手指形状。在第一次匹配期间,查询符号“体育”与前5个数据库符号匹配,“运动”(%R = 98.34),“游戏”(%R = 74.89),“花生”(%R = 65.89)、“犯罪”(%R = 51.98)和“战利品”(%R = 49.17)。这些前5个匹配的符号用于窄手指运动或形状的第二匹配。 第二个匹配产生,'运动'(%R = 99.41),最终的相似性得分为第一和第二匹配过程的平均值对于窄手指,第二次匹配中的识别值大大降低在所有2000个测试符号上的准确率、召回率和识别率的平均值分别为0.9721、0.9791、0.9832。 这鼓励我们将所提出的方法与最先进的方法进行测试,例如卷积神经网络(CNN)(Li等人, 2017),宽RRJRD(Li等人,2016)、加权图匹配(WGM)(Xiao等人,2014)、自适应图核(AGK)(Li等人,2016年),本地预留位置的词袋(LPP-BOW)(Fotiadou和Nikolaidou,2014年),直方图(Barnachon等人,2012)和动态时间规整(DTW)(Leightley等人, 2014年)。针对所提出的方法,在我们的3D mocap手语数据上计算上述方法的精确度,召回率和F1分数比较图如图5所示。对于简单的标志,如此外,所提出的方法适用于图5中的符号。只有3组训练数据,CNN接近所提出的方法。优越性所提出的方法的优点在于它能够在形成符号之间比较方法中F1评分较低归因于未考虑运动关节分为宽运动和窄运动的运动分离。表1记录了针对3D手语数据的最先进方法数据集是500个标签的手语,每个符号有5个主题因此,我们有2500个标志。其中,500个被设置为用于训练的数据集符号,剩余的2000个用于使用我们提出的AGM方法进行测试对于SVM训练,3个训练主题,即1500个数据样本用于训练,其余用于测试。在这里,我们进行了交叉主题测试。来自表1的结果示出了CNN(Li等人, 2017)和WGM(Xiao etal., 2014)记录的识别率接近我们的方法。这是因为训练阶段的参与,其中分类器权重基于预定义的成本函数迭代更新对于CNN,我们从RRJRD值生成距离图,用于构建彩色图像,用于训练和测试。单通道CNN架构使用5个conv层和2个全连接层。训练开始时使用500个类的1500个图像,以产生最佳性能。对于所有其他方法,我们使用3D关节位置数据或RRJRD值。对于直方图构造,仅使用运动关节来表示3D符号中的变化关节位置。匹配运动直方图以从数据库中提取地方检察Kumar等人/Journal of King Saud University151图五、比较各种方法与所提出的方法对一组12个符号的3D手语数据该方法在每次查询匹配后将数据库重新组织成一个顺序,显示手语中符号之间的相关程度。4.2. 公开数据库为了验证所提出的方法作为广义核匹配算法,我们应用了不同的公开可用的3D动作mocap数据集,HDM 05(Muller,YYYY),CMU(CMU,2013)和UTD-MHAD(Chen等人,2015年)。从CMU动作集中,我们使用了23个类,1500个动作变化,从HDM05动作mocap数据集有70个类,10个不同的演员,700个动作。用于验证所提出的模型。UTD-MHAD动作数据集(包含27个类,8个受试者,800个动作)用于测试。表2记录了通过各种算法针对三个数据集的骨架数据所提出的方法获得的识别率表2中的结果显示,与这些数据集上的最新方法相比,具有多个匹配内核的所提出的方法执行成比例4.3. 3D手语识别为了检查手语识别数据捕获模型的实用性,我们将我们的3Dmocap SL数据与152地方检察Kumar等人/Journal of King Saud University表1列出各种方法对3D mocap符号数据的平均性能度量表3基于传感器的SLR模型与建议的mocap系统的比较类别精度召回识别传感器算法精度卷积神经网络0.96750.97610.9612微软Kinect(Dong等人,2015; Dong等人,( 2015年)92(Li等人,(2017年)(Pigou等人,2014; Pigou等人, 2014年度)95.68自适应图核(Li等人,(2016年)0.89610.91240.9022Yang等人,2014年(Yang,2014)90.4加权图匹配(Xiao等人,0.92340.91090.9211Costa(Filho等人,2017; Filho等人,(2017年)96.31Leap MotionSensor Demirciolu等人,2016年(Demircioglu等人,(2016年)Hisham等人,2017年(Hisham和Hamouda,2017年)99.0395(Quesada等人,2017; Quesada等人,(2017年)96Microsoft Kinect(Kumar等人,2017年; Kumar等人, 2017年)97.85+ Leap运动传感器(Marin等人,2014; Marin等人, 2014年)91.28表2所提出的方法与公共3D动作数据集的性能。方法HDM05CMUUTD-MHAD分层RNN(Du等人,(2015年)100Deep LSTM(Zhu et al., 2016年)97.2588.4-JDMCNN(Li等人, 2017年)--88.1DPA+直方图(Barnachon等人, 2012年)- 极限学习机(Chen和Kotina,96-99.5(2015年)运动捕捉我们提出的模型98.4关节与具有宽运动关节距离的非运动关节分离,并且该信息用于重构数据库。第二阶段使用窄运动关节距离来分类重构的数据库。最终提取使用来自宽运动和窄运动内核的印度手语的拟议数据集使用了9个摄像头mocap系统捕获的57个关节对5组500个印度手语数据集进行了分类,平均分类准确率为0.9832。SAX(Junejo和Aghbari,2012)-97.4-特征值(Ntouskos等人,(2012年)90-95 90- -95确认LCSS + MIJA + MIBO(Pazhoumand-Dar等人,(2015年)85.12这项工作得到了赞助研究项目的支持建议的方法九十八点七五建议+支持向量机九十六点九八流行的3D捕捉传感器,如微软Kinect,飞跃运动传感器及其组合。这是第一个基于3D动作捕捉的3D印度手语识别的研究以前的作品使用Microsoft Kinect或Leap Motion传感器进行3D手语分类。微软Kinect上的作品基于深度数据以及RGB视频,具有从最小距离到深度CNN的广泛分类器对于大多数分类器模型,识别准确率接近0.92。然而,大多数报告的迹象是简单的运动和单手。目标间的遮挡是一个很难处理的问题,遮挡部分的特征矩阵重建是一个复杂的现象,容易造成误分类。跳跃运动传感器是一种基于3D模型的方法,用于单手或双手的跳跃运动仅产生手语的手指拼写作为手语中的少数符号的此外,手语是用手的动作,头,脸和身体周围的手指形状来在Demircioglu et al. (2016),只有100个这样的静态标志用于手语识别。从我们的模型得到的结果是更好的或与现有的模型。详细比较见表3。5. 结论提出了一种利用三维运动捕捉数据识别印度手语手势的模型针对机器翻译中三维标识语的不同属性,提出了一种双动作识别算法利用三维关节上的相对关节距离的相对范围来提取手的宽运动关节距离和手指的窄运动关节距离空间时态图内核被设计用于在两阶段匹配中将查询符号与数据集符号进行匹配在第一阶段,运动方案,名为“视觉-语言机器口译员培养听力受损和老年人“,来自印度政府科学技术部科学技术司种子司“残疾人和老年人技术干预”方案,文件编号:SEED/TID
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功