没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种从实时视频中消除协同发音的独立于手语者的手语识别:印度场景P.K. Athira,C.J.Saghiagh,A.李集垭印度科泽科德国立卡利卡特技术学院计算机科学与工程系阿提奇莱因福奥文章历史记录:收到2018年2019年3月16日修订2019年5月5日接受在线发售2019年保留字:支持向量机Zernike矩计算机视觉手势识别特征提取共构音消除A B S T R A C T由于印度听力受损和发声残疾人的人口众多,手语翻译系统对于最大限度地减少他们在社会中的孤立变得非常重要。本文提出了一种与手语者无关的基于视觉的手势识别系统,该系统能够识别单手静态和动态手势、双手静态手势以及来自现场视频的印度手语(ISL)的手指拼写单词采用Zernike矩提取关键帧在很大程度上降低了计算速度。提出了一种改进的指法拼音中共构音消除方法。手势识别模块主要包括预处理、特征提取和分类三个步骤在预处理阶段,使用肤色分割从实时视频中提取标志在协同发音消除阶段之后,从手势序列中提取适当的特征向量然后使用支持向量机(SVM)的分类所获得的功能。该系统成功地识别了手指拼写字母赌注,准确率为91%,单手动态单词的准确率为89%。实验结果表明,该系统具有较好的识别率相比,现有的一些方法。©2019作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍手语将自然语言中的字母、数字、单词和句子转换成手势,便于发声残疾人与外界交流。它用手势和面部表情代替声音来传达信息。手语因国家和地区而异印度手语是印度聋人和贫民区使用 在印度,估计有超过200万人是聋人,其中有100万聋人成年人和50多万聋人儿童使用ISL(Neha等人, 2014年)。耳聋和发音障碍给他们在接受教育、工作等方面带来了严重的沟通问题。由于大多数正常人*通讯作者。电子邮件 网址:sruthi_p170043cs@nitc.ac.in(C.J. Szagi)。在CTAN上的elsarticle包中提供了完整的文档模板在贫民窟社区,使用手语的交流始终受到限制。作为人类,他们应该得到过普通生活所需的一切帮助他们的方法之一是利用先进技术来克服他们面临的一些困难。手语通过手势帮助建立人机交互,以机器为中介,促进正常人与重听人之间的所提出的方法的目的是识别动态和手指拼写(李和格林斯潘,2007年)的印度手语的话,使用基于视觉的方法。在训练集的构建中,考虑了均匀背景下捕获的标志,以避免背景中的其他肤色对象,使系统更准确。最初,共同发音阶段(Bhuyan等人,2006 Bhuyan等人, 2005)被检测并使用加速度特征从手势序列中消除。所选择的单词和手指拼写字母表不使用面部线索,因此使用Viola-Jones算法检测并消除面部区域(Kumar等人,2016年)。然后基于肤色的分割(Bhuyan等人, 2014)在所得图像上进行,用于手区域提取。对系统的输入可以是静态姿势或动态姿势。基于手势的类型,提取某些特征。然后使用以下方法对所获得的特征进行分类:https://doi.org/10.1016/j.jksuci.2019.05.0021319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com772P.K. Athira等人 /Journal of King Saud University- Computer and Information Sciences 34(2022)771- 781多类SVM本文的主要贡献如下:一个实时的签名者独立和成本效益的印度手语识别方法单手静态和动态手势以及双手静态手势的识别都是成功的。所提出的系统识别ISL手势从移动摄像头时代的视频没有任何额外的传感器来检测手的区域。一种消除指法拼音中共发音的方法。以下部分显示了关于手势识别或手语识别中现有工作的详细报告其次是所提出的方法和手势识别的各个阶段。在实验结果阶段解释了所提出的方法的可行性和可行性,然后将所提出的方法与现有的方法进行比较。2. 相关工作在手势识别系统中,各种技术被用于捕获手势,包括基于手套的方法和基于视觉的方法。在基于数据手套的方法(Wang和Popovic,2009)中,手套中的传感器可以检测手的运动这种方法在手势识别中具有高准确性,但是它相当昂贵并且对用户不方便。Deora和Bajaj(2012)提出了一种基于仪器手套的方法,该方法可以识别ISL的字母和数字。在该方法中,签名者在采集数据时需要戴上红蓝相间的手套,以便于手部分割。手势识别使用PCA。识别率为94%。但该系统只关注静态手势,无法识别双手重叠的手势。基于视觉的方法提供了更多的用户便利。 基于视觉的方法有两种不同的方法。基于外观的方法和基于三维手模型的方法。基于3D手模型的方法(Cheng等人,2016年;Prisacariu和Reid,2011年)利用身体部位的3D信息。使用该信息,可以获得几个关键参数,如手掌位置、关节角度等。这种方法需要巨大的存储空间来处理大量的特征。它将在更高的计算速度下提供更好的精度。各种方法建议使用深度相机进行数据采集(Suarez和Murphy,2012; Kapuscinski等人,2015年)。深度图像可以使用Kinect、华硕Xtion等进行拍摄,大部分作品都选择Kinect进行数据采集(Kapuscinski et al. 2015; Dong等人,2015年)。Kim等人(2015)提出了使用SVM的基于深度的手语识别。该方法以手指长度、手掌半径和手的方向为特征。并构造这些特征的决策树来识别手势。由于基于手套的局限性,大多数研究工作集中在离散小波变换和隐马尔可夫模型的基于外观的方法(Tripathi等人, 2015)、人工神经网络(Adithya等人,2013; Sharma等人, 2014)、基于指尖的手势识别(Kumar等人,2016 Hussain等人, 2014)、尺度不变特征变换(Patil和Sinha,2017)、Zernike矩(KalpanaSharma和Dutta,2014)、Otiniano-Rodriguez等人,2012)、傅立叶描述 符 ( Nanivadekar 和 Kulkarni , 2014 ) 、 B 样 条 ( Geetha 和Manjusha,2012)、Geetha和Aswathi,2013)等。基于外观的方法的主要优点是处理时间短,并且由于使用了2-D图像特征,因此具有实时基于视觉的方法涉及各种图像处理和模式分类技术的手语识别。Lilha和Shivmurthy(2011)提出了一种通过识别ISL的静态和动态手势的方法。该方法采用方向梯度直方图(HOG)和边缘频率直方图(HOEF)进行特征提取,支持向量机(SVM)进行分类。通过考虑姿势的初始帧或最终帧来识别动态姿势H和J。他们使用HOEF功能实现了98.1%的准确率。但是签名者需要戴上腕带来区分手掌和前臂。Ashok Kumar Sahoo(2014)提出了一种基于视觉的ISL字符识别方法。该系统被设计为只识别孤立的标志。它也可以用于不同背景的公共场所。从手势图像中提取手势的结构特征、局部直方图特征和灰度图像的直接像素值,用于手势识别。提取特征后,利用kNN和神经网络分类器对手势进行他们声称在单手数据集上实现了95%的识别率,在双手数据集上实现了96%的识别率。Sharma等人提出了类似的方法。(2014)使用质心技术和直接像素值来提取特征。Dialdam和Jalal(2013)提出了一种识别双手ISL手势的方法。Hu不变矩和结构形状描述符是使用的特征。多类支持向量机(MSVM)用于训练和识别ISL手势。另一篇论文(Otiniano-Rodriguez等人,2012)是基于手势的Hu和Zernike矩的比较。计算二值化图像的Zernike矩和Hu矩,并使用SVM分类器进行手势识别。该方法主要针对ASL的静态字母,获得了96%的准确率。本文最后指出Zernike矩比Hu矩具有更高的精度。在Kalpana Sharma和Dutta(2014)中,还分析了复杂Zernike矩在ISL字母识别中的能力研究中的确切行为。作者声称,Zernike矩达到10阶就足以识别和重建图像。Kumar等人(2016)提出了一种用于ASL的语音和手势识别的方法。在所提出的方法中,输入是实时视频。然后利用HSV颜色空间进行肤色分割,利用Zernike矩进行静态手势的特征提取,利用曲线特征进行动态手势的特征提取。分类阶段使用多类SVM。该系统使用一个名为Sphnix的标准模块进行语音识别。作者声称静态手势的准确率为93%,动态手势的准确率为100%。Imran等人还提出了一种类似的ASL方法,用于裸手姿势识别,然后根据手部轮廓进行准确的手掌和指尖估计(Chen,2012; Chen,2008)。该方法取得了满意的识别率。这种方法的主要局限性是它只关注ASL字母识别。Bhuyan等人(2008)提出了某些特征来识别动态手势的手势轨迹。使用这些特征集的手势识别的准确率达到95%。Tripathi等人(2015)提出了另一种用于ISL连续手势的方法。在该方法中,使用梯度方法分离连续手势。它计算每个帧的梯度并检查连续帧之间的重叠。一个更有效的手势分割是使用连续动态编程完成的(Li和Greenspan,2007)。他们的准确率达95%。Bhuyan等人(2006)提出了一种新的方法,用于在基于手势的手势识别中识别有意义手势之间的不需要的手势运动。协同发音检测背后的关键思想是,在协同发音阶段,手快速移动,而在手势阶段,手的运动是平滑和缓慢的。该方法采用有限状态机进行识别●●●●P.K. Athira等人/Journal of King Saud University- Computer and Information Sciences 34(2022)771-781773具有有限数量的关键帧和关键帧持续时间的手势分类是通过将输入的手势与FSM的状态进行匹配来完成的通过考虑运动中加速度的变化来检测共发音单手动态手势识别的识别在Jalal(2015)中被考虑。在预处理阶段,使用YCbCr颜色空间进行基于肤色的检测,然后去除人脸区域进行手部分割。该方法以圆形度、扩展凸亏度、手方向和运动检测码为特征,采用多类支持向量机进行分类。识别率为90.4%。Subhash等人(2014)提出了一种类似的方法,但考虑了标志的轨迹而不是运动检测代码,识别率达到95.3%。Zaki等人提出了一种基于视觉的美国手语识别方法。在这项工作中,峰度位置、PCA和运动链码(MCC)分别用作描述关节点、手形、方向和运动的特征(Zaki和Shaheen,2011)。肤色阈值,然后连接组件识别用于人脸,手检测和跟踪(皮肤斑点跟踪)。最终识别步骤使用 HMM分类 器完 成, 在RWTH-BOSTON-104 数据 库上 实现 了10.9%的总体识别错误率。Ibrahim等人提出了一种自动阿拉伯手语识别 系 统 , 该 系 统 使 用 皮肤 斑 点 跟 踪 技 术 来 进 行 手 部 分 割 和 跟 踪(Ibrahim等人,2018年)。该技术利用手的重心、运动速度和方向等几何特征作为特征向量,利用欧氏距离进行识别。该方法在30个孤立词的数据集上进行了评估,获得了97%的识别率Kong等人提出了一种用于美国手语连续视频识别的分割合并方法。在这项工作中,使用网络手套和磁性跟踪器进行数据采集。基于速度和方向角将连续标志视频分割成更小的子单元。然后用贝叶斯网络将这些亚基标记为SIGN或ME(运动感觉)。标记为ME的子单元在存储其位置细节后被丢弃。然后将剩余的SIGN标记的亚基送入两层多条件随机场(CRF)。CRF的第一层是四个线性CRF与独立的手形,运动,方向和位置分类器的组合。第二层结合前一层的输出,并将其输入到半马尔可夫CRF进行符号句识别。准确率为86.6%,召回率为89.8%(Kong和Ranganath,2014)。Elakkiya等人提出了一种新的子单元符号建模方法,该方法解决了手部分割过程中的模糊性,并识别了长视频序列中的发音运动。这项工作使用增强的动态规划与动态时间包装和聚类方法,使用空间和时间的功能。本文采用子单元多流并行隐马尔可夫模型(SMP-HMM)和最小熵聚类方法对长视频序列进行子单元建模,并对插入音运动进行识别。他们声称准确率为98%,平均识别时间为1.25秒(Elakkiya和Selvamani,2018)。Kharate et.al. 提出了一种比较分析,sifiers和特征描述符,如傅立叶描述符,7 Hu矩,形状矩阵和链码。这里分析的静态字母和数字识别的三个分类器是最近均值分类器,K最近邻分类器和朴素贝叶斯分类器(Kharate和Ghotkar,2016)。自拍模式连续ISL视频识别是由Rao等人提出的。它使用基于深度学习的方法来解决问题。他们声称在46个ISL符号上的准确度为92.88%(Rao等人,2018年)。Kumar等人提出了一种基于耦合HMM的方法,该方法使用用于ISL的跳跃运动传感器和Kinect传感器。这可以以90.80%的准确度识别动态孤立的手势(Kumar等人,2017年)。无法获得用于全局参考的ISL数据集。Nandy等人在他们的作 品 Recognition of isolated Indian sign language gesture in realtime(Nandy等人,2010)和&用于人机交互的识别解释印度手语手势(Nandy等人,2010)使用ISL数据集作为参考数据集,该数据集可用于该领域的研究。尽管三维手语识别具有很高的计算量和成本开销,但它具有很高的识别率。这是因为第三维的引入实际上通过提供有关深度的额外信息解决了2D SLR中的许多挑战。它包括由于相机位置、光照变化、背景复杂性、遮挡等引起的问题。Kumar等人提出了一种用于印度SLR的自适应图匹配方法(Kumar等人,2018年)。在这项工作中,无向图被用来表示基于3D位置轨迹的符号。他们为ISL中的大多数印度标志创建了一个3D模板自适应图形匹配以及运动分割实现了标志识别。该方法的性能用HDM05,CMU,3D Sign数据集等各种数据集进行了评估,他们声称准确率为96%及以上。使用自适应内核进行运动波匹配。Kishore等人(2018)也由同一团队Kumar at. el.在这项工作中,首先,每帧分割得到运动关节和非运动关节。在提取运动关节之后,其经历到四个预定类别中的一个的分类。这是第一阶段,它处理手跟踪。阶段2处理的是指内变化的运动波。手指关节相对距离和关节角度的测量被用来提取三维运动子的形状和方向。为了找到查询符号和数据库符号之间的相似性,为每个符号创建三个特征核,手指形状的方向和轨迹。他们声称准确率为98.9%。在上面讨论的两种方法中,数据捕获设置非常复杂,涉及八个IR、一个摄像机和签名者可穿戴反射标记。从文献调查来看,很明显,现有作品以静态姿态为主处理动态手势是非常困难的,因为为了更好的准确性,使用特殊的可穿戴和传感设备,成本和计算开销更大。这就要求有一个快速、低成本、简单、易于普通人使用的ISR系统。该方法试图解决现有方法的一些基于外观的系统在处理时间方面比基于手套的系统和基于3-D手模型的方法更用户友好和高效。因此,我们专注于基于外观的方法,这是一种经济的解决方案,用于移动应用程序,需要更少的存储空间。通过对比现有的方法,我们提出了一个更准确的方法,使用形状描述符和基于轨迹的手势识别,连续和动态的单词与协同发音消除。该系统可以区分每个标志,而不管手的大小和肤色特征。3. 系统概述手势识别系统包括手势到语音的转换。系统的输入是视频,输出将是与手势对应的单词该系统考虑单手动态手势识别和手指拼写手势识别与协同发音消除。每个识别模块包括预处理、特征提取和分类阶段。从每个手势识别模块提取的特征是不同的。手势识别模块的输入可以是动态手势或字母序列在手指拼写字母表或具有ISL单词序列的连续手势的情况下,两个连续手势大多是774P.K. Athira等人 /Journal of King Saud University- Computer and Information Sciences 34(2022)771- 781与一些过渡运动分开,这些过渡运动不应该被认为是被称为共同发音的认可。这些动作需要被发现和消除,以便正确地识别手势手势的开始和结束阶段还包括不需要的移动,因此正确的手势识别是非常必要的。在我们提出的系统中,输入视频在传递到手势识别模块之前进行手势识别和协同发音消除手势识别模块的总体流程图如图1A所示。1.一、4. 该方法如在ISL的分层表示(Ghotkar和Kharate,2014)中,两个基本类别的手势(静态和动态)被认为是输入。动态手势被进一步分类为具有全局运动的手势和具有局部运动的手势。该系统使用外部网络摄像头进行实时视频捕获,以15 fps的帧速率捕获帧。从输入帧的集合中,静态和动态手势通过它们在连续帧中的质心变化来区分。在签名阶段期间,基于连续帧中不存在质心变化来识别静态手势。如果质心在N个帧中没有改变,则其被认为是静态姿势。如果该条件失败,则将其视为动态手势或协同发音区域。使用加速度特征来识别共发音区域。在消除协同发音阶段后,手势序列被分割。 基于分类三种不同的特征提取技术被认为是。运动轨迹(Bhuyan等人,2008)、动态手势的基于形状的识别(具有局部移动)和Zernike矩计算(KalpanaSharma和Dutta,2014Otiniano-Rodriguez等人,2012)在特征提取阶段考虑静态字母表。为了识别动态手势的类别,考虑新的阈值T1。如果平均质心变化小于下阈值T1,则其是具有局部手部移动的手势。否则,它是具有全局手部运动的动态手势。从特征提取阶段获得的特征被传递到SVM分类器用于手势识别。所提出的方法的总体流程图如图所示。 二、4.1. 数据库描述ISL上没有可用的标准数据集因此,创建了一个新的数据集,该数据集包括使用外部网络摄像头收集的字母和动态单词。部分数据集收集自Calicut的Rahmaniya HSS特殊学校。大约900个静态图像和700个视频被认为是用于测试字母和单手动态单词,这些单词是从七个Fig. 1. 手势识别系统流程图。图二. 拟定方法流程图。人在数据集收集期间,用户应至少穿着半袖衣服。签名者和相机之间的距离被调整以获得捕捉动态手势所需的身体的上半部分。适当的照明条件和均匀的背景被认为是更好的结果。考虑到不同年龄组和不同性别的签名者,使该系统对所有人都有用。为了更准确,签名者在不同的位置和方向上多次重复相同的签名。4.2. 图像预处理手部分割使用各种图像处理技术对输入帧的集合进行预处理以用于准确的手部区域提取。为了更好地分割手部,考虑了人脸检测和消除、手部分割、连通域提取和噪声去除等预处理技术。在单手动态手势识别中考虑的ISL字母和词典不涉及面部表情或面部遮挡。因此,使用Viola-Jones人脸检测算法(Yun和Peng,2009)检测并消除人脸区域。输入视频序列由容易受光影响的RGB值组成。为了使它在大多数照明条件下都能发挥作用,然后将该组帧转换到YCbCr颜色空间。YCbCr色彩空间对光线变化不太敏感。从肤色采样结果的各种签名的肤色范围是固定的YCbCr颜色空间,它是用于手分割。结果帧可能包含不相关的肤色区域。框架中的大型连接组件被假定为手M00cM00P.K. Athira等人/Journal of King Saud University- Computer and Information Sciences 34(2022)771-781775地区通过考虑手部区域的最大面积来去除所有不需要的区域4.3. 关注区域提取大多数现有的作品坚持穿着全袖礼服,同时签署作为一种约束(Subhash等人,2014年Jalal,2015年)。轮廓和凸包(Chen,2012)被识别用于质心估计和形状识别。首先,计算0阶和1阶矩以获得质心。0阶和1阶矩定义为(Geetha和Manjusha,2012):M00¼XXIx;y1一些作品(Lilha和Shivmurthy,2011)使用了手腕-xy带以识别手掌区域。这里我们使用ROI算法提取签名者的手掌区域,而不考虑任何袖子类型M10¼XXxIx;yM01¼XXyIx;y2或腕带。该算法仅适用于边界的高度-xy xy箱的高度大于固定高度H。否则,假设其处于完整套筒中。算法1:ROI算法另一件重要的事情是消除颈部区域也拥有肤色。颈部区域通过将面部边界框扩展到特定高度并用黑色图像替换来消除。面部和颈部区域消除确认剩余的最大肤色区域为手部区域。该算法的实现结果如图所示。3.第三章。然后计算质心xc;ycxc¼M10 2001年1月3日算法2:质心计算4.4. 质心估计在图像预处理步骤之后,估计二值图像的质心。最大手牌的最小包围盒矩量法的质心是根据预处理后图像中白像素的个数确定的,具有位置不变性。因此,跟踪包围盒的运动以获得质心。矩的质心映射,1X2ðÞX百万分之四p公司简介抗氧化剂h纳米晶体管快-快!½n-2 kjmj= 2]!1/2n-2 k-jmj= 2]!ðÞ我我AB776P.K. Athira等人 /Journal of King Saud University- Computer and Information Sciences 34(2022)771- 781在基于形状的手势识别期间获得的关键帧如图5所示。通过考虑Zernike矩到5阶得到一个12维矢量,用于形状识别阶段。Zernike矩是使用一组复多项式构造的,复多项式是在单位圆盘(x2+y261)上定义的正交多项式的集合(Kalpana Sharma和Dutta,2014年)。二维Zernike矩Amn具有m阶和角依赖性n被定义为:An1Z1Z2pR r e f r rdrd500其中jp1;定义在单位圆上,Rn m(r)是第n个Zerniker1/4adia-l多项式06jmj6n;n- jmjeven6图3.第三章。1)边界框识别2)肤色检测3)子掩码4)逐位n-jm jR rkn-k!rk¼0见图4。 手势“姓名”的运动轨迹。边界框的坐标用于获得所需的质心。使用算法2计算相对于手的移动的质心。在基于概率的手势识别中,考虑了形成轨迹算法2的实现结果如图所示。 四、4.5. 关键帧提取手势视频的无信息帧可以通过考虑在其手位置或形状上没有显著变化的帧来识别。计算每个帧的质心以识别位置变化。具有手部形状或质心的显著变化的帧被认为是关键帧。关键帧提取只考虑非相邻帧。已经观察到,在静态字母表的输入视频中,质心对于至少N个后续字母跳转其中,仅第N=2帧被认为是关键帧。在动态手势中,两个阈值被固定用于关键帧提取。一个用于具有全局运动的动态手势,另一个用于局部运动。如果连续帧之间的质心变化大于阈值T2,则认为它是关键帧。另一个阈值T3被设置为发现形状的显著变化在具有局部运动的动态手势(基于形状的动态手势识别)中,形状描述符Zernike矩用于找到关键帧。如果相邻帧之间的Zernike矩(ZM)差大于某个值(值设置为50),则将其视为关键帧。使用以下公式计算ZM差异12ZM差异¼jZM-ZMj44.6. 手势识别和协同发音检测在连续手势中,一个手势按顺序跟随另一个手势。在时间序列中通过下一个手势影响一个手势的现象被称为协同发音(Yang等人,2009年)。这是手势定位的目标,即定位手势模式的起点和终点,并将手势分类为预定手势类中的一个(Yang等人, 2009年)。手的移动表示动态手势或协同发音阶段。使用加速度特征识别和消除共发音。与加速度条件一起,如果手势满足动态手势中的帧数目的最小要求,则将其分离为动态块并识别。据观察,手达到最大的加速度,在协同发音阶段,并达到最小的加速度,在手势阶段。实验表明,在两个手势之间,手的加速度增加这种从一个手势到协同发音并返回到下一个手势的加速度梯度的想法用于消除连续手势语句中两个手势之间的4.6.1. 静态手势在手指拼写字母的情况下,解决了两个静态手势之间的协同发音。如果手势在多于N个帧内没有改变,则其指示其是静态手势。该帧计数N在训练会话期间确定。在静态手势期间,手几乎静止N帧,然后以高加速度移动以进行下一静态手势,在此之后,对于下一静态手势,加速度再次下降到几乎为零的值。因此,k¼0图五.基于形状的手势识别中动态手势“否”的关键帧和运行7P.K. Athira等人/Journal of King Saud University- Computer and Information Sciences 34(2022)771-781777在两个长暂停之间出现的两个静态手势被用于实现相同。在连续手势TV的签名期间的结果在图中示出。 六、T和V是静态手势,因此手在至少N个帧中暂停。4.6.2. 静态和动态手势在静态手势之后是动态手势的情况下,签名者在N个帧中保持手处于暂停状态如果计数至少为N,则其指示静态手势存在暂停后,手快速移动到下一个动作的开始如果加速度在运动期间的某个点达到最大值,则这种快速运动被认为是协同关节运动。否则,运动被认为是一个动态的几何。图7示出了在动态手势之后的静态手势的连续手势期间的加速度的曲线图4.6.3. 两个动态手势在仅具有全局运动的相邻手势中,手势序列形成每个动态手势的运动轨迹。在完成一个轨迹后,手暂停并以高加速移动到下一个手势,并再次在下一个轨迹之前暂停。该暂停持续时间将小于静态手势持续时间。通过在第一动态手势之后发现最小加速度,将协同发音阶段与两个动态手势分离。如果下一个移动不满足协同关节运动条件,则其被认为是其间没有协同关节运动区域的下一个动态手势。否则,这是一个共同表达阶段。协同发音消除和手势识别可以使用手势分离算法来完成。算法3:手势分离算法¼778P.K. Athira等人 /Journal of King Saud University- Computer and Information Sciences 34(2022)771- 781见图6。手势电视之间的协同衔接。见图7。 连续手势的加速度图。4.7. 特征提取在单手动态手势(全局手移动)手的形状,手的运动,手的位置,和手的方向被认为是特征。如果存在全局运动,则发现手形成轨迹。 因此,选择基于轨迹的手势识别(Kumar等人,2016年)。在该模块中考虑6维的特征向量。特征向量= [手形、轨迹长度、平均速度、显著曲线的数量、最小点的数量、手掌方向]。手形:计算关键帧的Zernike矩用于形状识别。重要曲线的数量:如果方向变化>45mm,则考虑每个关键帧处的方向变化。轨迹长度:轨迹的总长度通过对关键帧之间的距离求和来计算。整个轨迹上的平均速度:如果方向变化的次数越多,平均速度越低。● 最小值点的数量:与轨迹急剧变化的点处的某个阈值T1相比,手的速度变得非常低。● 手掌方向:它是手掌方向的测量,矩被发现是一个很好的形状描述符,并给出了高精度,甚至在5阶在ISL中,字母J和H是动态的。在基于轨迹的手势识别中,使用6维特征集来识别它们。4.8. 分类该方法着重于预处理和特征提取。下一个重要阶段是分类,其中基于计算的特征将手势正确地分类到对应的手势类中本文采用支持向量机分类器(SVM)进行分类,它通过对训练数据的监督学习来给定一组训练样本,每个样本被标记为属于两个类别之一,SVM训练算法构建一个模型,预测新样本是否属于一个类别或其他类别。 许多研究工作(Jalal,2015年Subhash等人, 2014)表明SVM分类器是更好的手势识别的好选择。建立了三个分类模型,一个是Zernike矩,下一个是基于语义的识别,最后一个是基于形状的识别。测试图像的识别是基于训练集完成的。首先,使用具有径向基函数核的多类C-SVC(Chang和Lin,2011)训练数据集中的图像,其中径向基函数核具有一个对抗所有策略。在测试阶段,当一幅新的图像被给定时,对输入图像进行预处理,然后形成特征向量。通过分类器,识别出最匹配的手势并显示其含义。SVM分类器的训练和分类使用JAVA机器学习库JAVAML(Java-ML,2019)完成5. 实验结果使用YCbCr颜色空间的肤色分割在均匀的背景和适当的光照条件下通过改变数据集的大小来获得手势的性能系统的准确度使用以下公式计算正确分类的手势签约准确度总数:手势X100个 8个使用基于形状的识别过程识别具有局部运动的手势的类型。从实验结果来看,不满足阈值的单词没有位置变化,而只是形状变化。计算了每个帧的Zernike矩。特征向量包括手形、平均速度和手掌方向。特征向量的维数取决于关键帧的数量。在静态字母识别中,考虑了5阶Zernike矩和5阶重复率.所得的12维特征向量用于分类。泽尔尼克的规模在单手动态手势识别中,通过在特征提取阶段仅考虑关键帧来减少处理时间。使用关键帧的数量相对于总帧绘制的图如图8所示。单手动态手势识别的准确率为89%。由于移动,与其他单词相比,手势“右”的准确率较低而不是整个手的运动。所有其他单词在基于语义的识别和基于形状的识别中给出了良好的识别率。图9示出了单手动态单词的识别率。●●●●表1与其他方法的比较。参考文献分割特征向量分类器数据集(类,数据)静态访问动态访问言论02 The Dog(2012)背景减除和连通分量B样条逼近SVM(29,290)≈90–只有静态字母,复杂拟合近似Rekha等人(2011年)YCbCr主曲率二维小波分解多类SVM,动态(23,230),86.377.2小数据集,主曲率特征较少手指计数时间包络DTW(3,60)在动态手势的情况下稳定。Kalpana Sharma和N/AZernike矩SMO(5,720)94.4–仅识别五个静态字母。03 The Fantasy(2014)Bhuyan等人(2008年)N/A轨迹长度,数量:显著曲线,速度,欧氏距离(10,585)–95.8只有动态手势与全球运动,标准差,最小值。只有十个手势的词汇。Lilha和N/A边缘频率直方图SVM(26,1560)98–使用腕带03 The Dog(2011)Bhuyan等人(2014年)YCbCr位置,方向,椭圆的长度最小-CRF(10(500)–90只有单手动态轨迹为基础的运动轨迹标记该方法YCbCrZernike矩曲线特征SVM(24,786),90.189相对较高的静态、动态和(13 165)连续的手势序列。P.K. Athira等人/Journal of King Saud University779见图8。 每个视频提取的关键帧数量。见图9。 单手动态词的识别率。见图10。手指拼写字母的识别率。在连续签名中,考虑24个静态字母和2个动态阿尔法赌注(J,H)使用Zernike矩的识别在静态手势上给出了更好的手势识别率字母表如图所示。 10个。由于某些字母[(M,N),(C,L)]的形状相似性,M和C的识别率较低。该系统对指法拼写图形的识别准确率为91%。在测试数据集上的两个静态手势、静态和动态手势之间以及两个动态手势之间,以100%的准确度进行共发音检测和消除。6.与其他方法该方法采用YCbCr颜色空间进行肤色分割,Viola-Jones方法进行人脸剔除,Zernike矩进行特征提取,多类支持向量机进行分类。所提出的方法具有比较780P.K. Athira等人 /Journal of King Saud University- Computer and Information Sciences 34(2022)771- 781良好的准确性,并且不需要任何腕带来识别手掌区域。文献显示了许多不同的组合的特征集,分割方法和分类器,显示不同的识别率。表1中总结了其中的一些。在表中,使用边缘频率直方图和SVM识别26个英文字母的方法(Lilha和Shivmurthy,2011)显示了98%的准确率,但他们使用腕带来识别手掌区域,并且必须穿至少半袖衣服。类似地,Sharma等人提出了一种使用Zernike矩和序列最小优化器(SMO)识别五个静态符号的方法(Kalpana Sharma和Dutta,2014)。该方法实现了约94.4%的非常好的准确性,但仅针对5个静态符号提出。Bhuyan等人提出了用于涉及全局运动的单手动态手势识别的两种方法(Bhuyan等人,2008 Bhuyan等人,2014年)。在这两种情况下,涉及整个手的运动的十个动态手势是问题的焦点,这是为了人机交互而不是手语识别而提出的。与其他方法的比较是在不同的数据集上进行的从表中可以明显看出,某些方法的较高识别率是因为词汇量小,数据集小或使用腕带。在一般情况下,所提出的方法,它可以处理静态手势,动态手势和协同关节点一起相对较高的识别率是一个改进,许多现有的方法。7. 结论该方法遵循基于视觉的手势识别系统,以识别静态,动态和手指拼写单词的ISL。这种方法是非常经济的,甚至可以实现一个移动摄像头,这使得它非常友好的用户使用由一个普通的男人。关键帧提取模块在这项工作中加快了计算速度,可用于实时ISL识别。两个静态手势之间,静态和动态手势之间,以及两个动态手势之间的协同发音检测使用加速度梯度的方法,并获得100%的准确率与测试数据集。引入基于概率的方法在动态手势识别中取得了显著的效果由于ISL中缺乏可用的数据集,因此创建了一个新实验结果表明,该方法对静态和动态手势、手指拼写单词以及共构音的检测和消除都具有较好的识别精度7.1. 今后工作该方法可以通过考虑在杂乱背景和不同光照条件下捕获的数据集来增强。ISL句子识别仍然是一个很少探索的领域。一个能同时考虑人脸表情和不同上下文的实时ISL句子识别系统将是一个巨大的成就。作为未来的工作,三维手势和非手动标志可以包括,使系统更有用的听力受损的人。确认我们要特别感谢夫人。Nasshitter(教师,Rahmaniya HSS)和Rahmaniya HSS特殊学校的学生关于数据收集。我们特别感谢卡鲁纳特殊学校和国家言语和听力研究所(NISH)的宝贵建议和支持。附录A.补充数据与本文相关的补充数据可在https://doi.org/10.1016/j.jksuci.2019.05.002的在线版本中找到。引用Adithya,V.,Vinod,P.,Gopalakrishnan,U.,2013.基于人工神经网络的印度手语识别方法。信息&通信技术(ICT),2013年IEEE会议。IEEE,pp. 1080- 1085Ashok Kumar Sahoo,K.K.R.,2014.基于视觉的印度手语字符识别。 J. Theor. Appl.INF. Technol. 67(3),770-780。Bhuyan,M.,戈什,D.,Bora,P.,2005.手势中的协同发音检测。在:TENCON 20052005 IEEE Region 10,IEEE,pp. 一比四Bhuyan,M.,戈什,D.,Bora,P.,2006年。 连续手势分割与协同发音侦测。在:计算机视觉,图形和图像处理。施普林格,pp. 564-575。Bhuyan,M.,Bora,P.,戈什,D.,2008.仅具有全局运动的手势的轨迹引导识别。世界科学院Sci. Eng. Technol. 21 ,753-764。Bhuyan,M.K.,地方检察官库马尔MacDorman,K.F.,Iwahori,Y.,2014.一组新的连续手势识别特征。J. Multi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功