阿拉伯语听障手语识别系统研究

181 浏览量更新于2024-01-14 收藏 1.33MB PDF 举报

计算机科学系

手势识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报阿拉伯语手语自动识别系统（ArSLRS）纳达湾IbrahimJ.，Mazen M.Selim，Hala H.扎耶德埃及Benha大学计算机和信息学院计算机科学系阿提奇莱因福奥文章历史记录：2017年6月5日收到2017年9月12日修订2017年9月26日接受在线发布2017年保留字：手势识别阿拉伯语手语识别孤立词识别图像识别A B S T R A C T手语识别系统（SLRS）是人机交互（HCI）的应用领域之一，它将听障人士的手语转换成口头语言的文字或声音。本文提出了一个自动视觉SLRS翻译孤立的阿拉伯文字符号到文本。该系统分为四个主要阶段：手部分割、跟踪、特征提取和分类. 基于肤色的动态肤色检测器用于手部分割。然后，一个建议的皮肤斑点跟踪技术被用来识别和跟踪的手。一个数据集的30个孤立的单词，在日常的学校生活中使用的听障儿童的开发评估所提出的系统，考虑到83%的话有不同的闭塞状态。实验结果表明，该系统具有97%的识别率在签名者无关模式。此外，所提出的遮挡解决技术可以通过精确地指定手和头的位置，在s= 5时提高2.57%，这有助于不同的-在相似的手势之间移动。©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍听力障碍是一个专业术语，指的是一只或两只耳朵部分或完全丧失听力。损伤程度在轻度、中度、重度或重度之间。根据世界卫生组织（WHO）的数据，2017年，世界人口的5%以上-3.6亿人患有致残性听力损失（3.28亿成人和3200万儿童）。在65岁以上的历史时期，大约三分之一的人受到听力损失的影响。大多数残疾性听力损失患者生活在低收入和中等收入国家（Center，2017）。SLRS是人机交互的应用领域之一。SLRS的主要目标是识别听障人士的体征，并将其转换为口头语言的文本或语音，反之亦然。这些系统使用孤立或连续的符号。的执行者*通讯作者：埃及Qalyubia省Benha Mansoura路Benha大学计算机与信息学院计算机科学系，供水和卫生控股公司旁边电子邮件地址： Nada. fci.bu.edu.eg （ N.B. Ibrahim ）， Selimm@bu.edu.eg（M.M.Selim），Hala. fci.bu.edu.eg（H.H. Zayed）。沙特国王大学负责同行审查制作和主办：Elsevier孤立的系统一次仅对一个字母或单词进行签名，而在连续的系统中，表演者对一个或多个完整的句子进行签名。此外，SLRS可以被分类为依赖于签名者或不依赖于签名者。系统在训练和测试阶段都依赖于相同的签名者，这对识别率有积极的影响。另一方面，在签名者独立系统中，歌手在训练阶段进行的测试阶段不被接纳，这增加了适应系统以接受任何签名者的挑战。SLRS的目标可以通过基于传感器或基于图像的系统来实现。基于传感器的系统采用与许多传感器结合的各种机电设备来识别标志，例如：数据手套（ Shukor 等人， 2015 ）、动力手套（Mohandes等人，2004 ）、网络手套（Mohandes，2013）和Dexterous master手套（Hoshino，2006）。 Sadek等人（2017年）设计了一种智能手套，它使用几个传感器，这取决于在执行1300个阿拉伯手语（ArSL）单词时对手部解剖形状的统计分析。这款手套的价格约为65美元，比商业智能手套的价格低5%这种方法的高成本和较低的分类可以通过基于标记或基于视觉的技术来完成。在基于标记的技术中，具有预定义颜色的标记或彩色手套被放置在指尖和手腕上这些https://doi.org/10.1016/j.jksuci.2017.09.0071319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comN.B. Ibrahim等人/Journal of King Saud University471然后使用图像处理方法从2D相机捕获的图像中检测和分割预定义的颜色，但是这些技术也缺乏正态性（ Wang 和 Popovic ， 2009; El-Bendary等人，2010年）。另一方面，基于视觉的技术使用没有任何标记的徒手。这些技术比任何其他类型的SLRS具有高的正态性和更高的迁移率基于视觉的单反相机成本低，因为可以使用一台相机但是这些技术受到照明变化的影响。手与彼此或面部的遮挡是另一个缺点，因为2D图像缺乏有助于解决遮挡的深度信息。这为深度传感器铺平了道路，深度传感器依赖于RGB-D图像技术，提供图像中每个像素的深度，帮助构建场景中对象的3D模型。到目前为止，它仍然是一个开放的研究领域。在大多数研究中，基于视觉的是指基于视觉的视觉系统。关于SLR领域中的相关工作的进一步讨论和详细概述在（ Cooper等人， 2011;Mohandes等人，2014; Rautaray和Agrawal，2015; Agrawal等人，2016年）。本文将重点介绍ArSL。指出了最近的孤立视觉ArSLR系统。Al-Alzanan等人（2009）开发了一个系统，该系统使用离散余弦变换（DCT）提取特征并使用隐马尔可夫模型（HMM）作为识别方法来自动识别30个孤立的ArSL单词。系统在签名人无关离线模式下获得了94.2%的字识别由于DCT的性质，由DCT算法产生的观察特征错误分类相似的手势。此外，该系统不关心解决阻塞问题。为了克服相似手势的错误分类，Al-Ruman等人（2010）开发了一种使用两级HMM分类器方案的系统。该系统通过将被遮挡的对象作为一个对象处理或通过在遮挡之前获取对象的先前特征来克服遮挡状态。在现实情况下，这事实并非如此。用于解决遮挡状态的另一种技术由El-Jaber等人（2010）开发，其中立体视觉被应用于使用其深度信息来估计和分割出签名者它的痛苦，从它的高成本，因为需要一个以上的相机来构建立体视觉。视差图在计算上是昂贵的，因为两个相机和对象之间的距离的任何变化将影响解决对应问题的性能。在Elons等人（2013）中，从来自两个视角的两个2D图像生成手部姿势的3D模型，这两个2D图像被加权并线性组合以产生单个3D特征，试图使用混合脉冲耦合神经网络（PCNN）作为特征生成器技术，然后使用非确定性有限自动机（NFA）对50个孤立的ArsL单词进行分类。然后，使用“最佳匹配”算法来找到手势的最可能含义。识别准确率达到96%。错误分类来自某些手势的NFA可能完全包括在另一手势NFA中的事实。Ahmed和Aly（2014）使用局部二进制模式（LBP）和主成分分析（PCA）的组合来提取特征，这些特征被输入到HMM中以识别23个孤立的ArSL单词的词汇。在识别过程中，任何遮挡状态都被当作一个对象处理，遮挡不被解决，在依赖于签名者的模式下，识别率达到99.97%但是，由于运算符的阈值方案，LBP可能无法在恒定灰度级的区域上正常工作（Ahmed和Aly，2014）。显然，大多数视觉系统都有两个主要问题：混淆运动中的相似手势，以及解决遮挡问题。本文研究的目的是降低相似手势的误分类率，并仅使用一个摄像机解决所有遮挡状态，而无需任何复杂的手势识别。计算视差图。本文提出了一个自动视觉SLRS翻译孤立的阿拉伯文字符号到文本。该系统分为四个主要阶段：手部分割、跟踪、特征提取和分类。手部分割是利用基于面部颜色的动态皮肤检测器来执行的（Ibrahim例如，2012年）。然后，分割的皮肤斑点被用于在头部的帮助下识别和跟踪手部。手的几何特征被用来表示特征向量。最后，采用欧氏距离分类器进行分类.本研究以听障儿童为研究对象，建立了一个由30个孤立词组成的日常生活词汇数据集。实验结果表明，该系统具有97%的识别率。考虑到83%的词主要覆盖了所有的遮挡状态，证明了系统的鲁棒性。接下来的章节安排如下：数据集描述在第2节中说明。所提出的方法，包括一个新的识别和跟踪方法在第3节中描述。结果和评价见第4节。最后，在第5节中给出了结论。2. ArSLRS数据集2008年出版了两版统一的阿拉伯语手语词典。尽管如此，在阿拉伯语手语识别领域，没有共同的数据库可供研究人员使用。因此，每个研究人员都必须建立自己的数据库与合理的大小。使用的数据集是在Benha大学收集的ArSL数据库视频。该数据库由450个彩色ArSL视频组成，以30 fps的速率捕获。这些视频代表了30个阿拉伯语单词，这些单词被选为学校日常常用词。 300个视频用于培训，150个用于测试。为了保证所设计系统的签名者无关性，执行测试片段的签名者与执行训练片段的签名者是不同的。这些视频是在不同的照明、背景和服装下收集的。签名者被要求面对相机，没有方向，然后从沉默状态开始签名，双手放在身体旁边，然后再次结束，一种沉默的状态。考虑到数据库中包含的单词具有多种使用单手或双手相互遮挡或与面部遮挡的情况，以测试系统在解决不同遮挡状态时的有效性。表1中给出了所用词汇及其描述的列表。遮挡列标识所执行的手势具有与其中一只手或双手和面部的遮挡状态。RH和LH列分别显示该标志是用右手还是左手执行的。R-L H列表示手势是用双手完成的。最后一行说明了构建的数据库中遮挡状态的估计百分比。3. 建议的ArSLRS如图1所示，基于视觉的SLRS具有两种模式。第一种模式是从听障者到有声者，将手语的视频以文字或语音的形式翻译成口语。这种模式被称为基于视觉的SLRS。第二种模式是从有声人到听障人，将口头语言录音转换成SL视频。基于视觉的激光测距模式是本文研究的重点。每个阶段都有详细的说明在接下来的部分。472N.B. Ibrahim等人/Journal of King Saud University⁄p表1数据集单词及其描述的列表。字闭塞R-L H LHRHPeace be upon youp p谢谢你p p电话p包括眼睛和嘴的非皮肤非平滑区域的像素的概率来计算像素是皮肤的概率或非皮肤像素。这通过将嘴、眼睛和眉毛检测为皮肤区域而影响了该方法的结果，这是不正确的。在Bilal et al. （2015年），a 1010窗口周围脸部的中心像素用于区分肤色像素，我吃ppels，在大多数情况下是鼻尖。但是，这个地区的suf-睡觉p p喝p p祈祷p p去pp由于照明的影响，可能会给出错误的指示。本文提出了一种基于人脸肤色的动态肤色检测器颜色用于分割手（Ibrahim等，2012年）。YCbCr浴室用品沐浴p p在丢弃亮度通道之后使用P颜色空间。脸明天P今天p p食物p p水p p去爱p p去讨厌p p钱p p你要去哪里p p其中p p为什么是p p多少p是的p p没有p p想要p学校p p老师p p帮助p p生病了p p p朋友p p百分比83% 33% 27% 40%Fig. 1. 基于视觉的SLRS示意图。3.1. 手分割这个术语指的是从整个视频序列的帧中提取手。视频序列可以仅包含签名者的手或整个身体。在第一种情况下，采用背景去除技术或皮肤检测技术来分割手。仅仅在第二种情况下，可以使用背景去除技术，然后进行皮肤检测，或者将皮肤检测技术直接应用于帧。如果手是视频中唯一的移动对象，则应用累积差异图像（AD）来提取手（Assaleh等人， 2010年）。已经出现了许多依赖于面部来检测皮肤区域的皮肤检测器。在Kawulok（2008）中，检测器被应用于第一帧。计算概率分布函数（PDF）直方图箱，并在0.005.为了避免眼睛和嘴巴区域被识别为皮肤，在修剪后将阈值应用于剩余的PDF值利用检测人脸边界矩形长、短轴上的像素点计算动态阈值。将该阈值应用于面部图像以识别皮肤像素。然后，通过增加轴周围的像素来更新阈值，直到95%的面部像素被识别为皮肤。最后，将该阈值应用于整个图像。这种方法是由于其自适应性质，使其适用于不同的种族。此外，使用YCbCr颜色空间大大减少了光照对分割的影响。这个阶段的结果是一个二进制图像，其中手和脸具有白色像素，其他对象具有黑色像素。3.2. 跟踪跟踪被定义为当对象在场景周围移动时估计对象在图像平面中的轨迹的问题（Yilmaz等人，2006年）。已经提出了许多用于跟踪的方法。这些方法中的一些是：用主动相机检测运动（Lee等人，2012）、皮肤斑点跟踪（Zaki和Shaheen，2011）、活动轮廓（Holden等人，2005）、camshift（Li等人，2011）、粒子滤波器（Gianni等人，2007 ）和卡尔曼滤波器（Asaari 和 Suandi ， 2010 ）。 Yang 等人（2011年）、Baskaran和Subban（2014年）对追踪方面的最新进展和趋势进行了审查研究。Dreuw等人（2006）开发了一种动态编程跟踪（DPT）技术，该技术依赖于两条路径来决定手部的正确跟踪路径。前向路径用于计算序列的所有帧的总体得分函数从最后一帧开始的向后路径被应用于计算被跟踪的手的最佳路线。在计算最佳路径时，使用了总体评分函数，该最佳路径相对于特定的评分函数。该技术是一种依赖于模型和独立于签名者的技术。在序列结束时进行跟踪决策提高了DPT算法防止错误局部决策的能力通过将该方法与Viola和Jones跟踪方法（Viola和Jones，2004年）相结合，结果得到改善，在公差= 20时达到0%的跟踪错误率（TER）（SIGNSPEAK，2012年）。只有双路径方法需要大量的计算，评分函数需要一些修改才能得到所需的结果。一种建议的技术，依赖于跟踪皮肤斑点通过使用在两个连续的帧中的皮肤斑点之间的欧几里得距离Viola和Jones方法首先识别头部。然后，通过手的中心与头部的质心之间的距离来识别欧几里德距离用于跟踪头部和手部。当两个或多个跟踪对象指向同一皮肤斑点时，检测到遮挡。遮挡状态的解析取决于计算头部的前一位置和当前位置之间的高度偏差，N.B. Ibrahim等人/Journal of King Saud University473.¼我双手在这种技术中，估计手形变化很小。头和手的先前位置的平移s= 20时的TER为0.08%。该技术是独立于签名者和无模型的技术。该技术使用前向跟踪路径以及关于跟踪对象的先前信息来决定其下一个位置。3.2.1. 头部跟踪头部可以很容易地定位使用级联升压3.2.2. 手部跟踪头部的边界矩形的中心可以用作定义手的参考点设B为皮肤斑点。为了将皮肤斑点识别为右手（RH）或左手（LH），必须如下计算当前头部斑点Hc的中心和皮肤斑点（B）的中心的x坐标之间的差Δ MxλMx1/4xHc-xBx2/4然后，根据以下条件识别皮肤斑点：算法（Viola和Jones，2004），但是在所有帧上应用该算法以检测头部在计算上是非常昂贵的，特别是如果该应用是实时应用的话。因此BRH;Mx>0LH;否则ð3Þ级联提升算法仅应用于第一帧以获得头部的边界矩形。由于在签名过程中头部的位置基本不变，几乎具有相同的位置，因此将欧氏距离应用于前几帧来识别头部皮肤斑点。当出现多个皮肤斑点时，头部被区分为与头部的先前位置具有最小欧几里得距离的皮肤斑点。设Hp1/2xp;yp1是前一个头边界的中心，ing矩形，而Bi1/4xi;yin是当前皮肤斑点的中心，其中i 1/4 f1; 2; 3g。Hp和Bi之间的欧几里得距离由下式给出：右侧和左侧皮肤斑点的识别如图所示。图3.第三章。在定位头和手的第一次出现之后，欧几里得距离被用来跟踪它们，如图所示。四、这将很好地工作，直到发生阻塞遮挡是一个或多个跟踪对象的重叠，其中一个对象可以覆盖部分或全部nHBð1Þ具有最小nHB的皮肤斑点是当前头部（Hc）。如图 2a，头部用实心矩形标记。图在图2b中，先前的头部边界矩形用虚线矩形标记，而新的皮肤斑点用实线矩形标记。计算头部的先前位置的中心与当前皮肤斑点的中心之间的欧几里得距离。具有最小欧几里德距离的斑点被识别并标记为具有实心矩形的新头部，如图所示。 2杯图三.识别右手和左手的第一次出现。图二. 头部追踪。见图4。手跟踪474N.B. Ibrahim等人/Journal of King Saud University.¼.¼另一个物体。遮挡情况下的手部分割是一项具有挑战性的任务。在高速帧记录上获取手势捕获的情况下，估计手形变化本文提出了一种遮挡消解技术这种技术将问题分为两个子问题。第一种是用一只手或两只手闭塞头部，这是一般情况，而第二种是仅在两只手之间闭塞。头部的咬合头部扮演着重要的角色，它被认为是一个参考点，也是一个咬合的指标。如果头部的面积增加了近三分之一，这是一个闭塞状态。如果通过使用Eq. 1标记为与头部和一只或两只手相同的皮肤斑点，则这是一种闭合情况。对象的任何边界矩形具有四个角：右上角（RU）、右下角（RL）、左上角（LU）和左下角（LL），如图5所示。该算法利用角点来确定被遮挡物体的位置。头部和右手之间的遮挡可以通过计算当前皮肤斑点（B）边界矩形和先前右手（PRH）边界矩形的RU角的y坐标（Ry）之间的差来解决（degree）可以计算如下：MyyRUB-yRUPRH然后，如果My P0！将R UPRH移动到R UB并将LLHP移动至LLB< 0分！将RLPRH移动到RLB并将LUHP移动 LUBð5Þ另一方面，对于头部和左手的遮挡，如下计算当前皮肤斑点（B）边界矩形和先前左手（PLH）边界矩形的RU角的y坐标之间的差（y = y）MyRUB-yRUPLH6然后，如果My P0！移动LUPRH到LUB，移动RLHP 到R LB< 0分！将LLPRH移至LLB，并将RUHP 关于R UB见图6。手跟踪ð7Þ头部和左手之间的闭塞情况以及如何解决它在图6中详细示出。在图6a中，头部和左手用实心矩形标记。然后，计算当前皮肤斑点与先前头部和左手之间的欧几里得距离，如图6b所示。这些计算表明头部和左手共享相同的皮肤斑点，如图6c所示。计算出了最大值，图6d指示头部和左手从先前位置到新位置的平移。最后，解决了遮挡，并且新的头部和手的位置在图6e中。最后，通过计算双手和头部图五. 对象边框的角头如果该距离小于预定义的阈值，则如前所述针对双手移除遮挡，同时保持头部位置为其先前位置。另一方面，如果距离大于预定义的阈值，则移除这只手，并使用针对剩余的手和头部的先前方法来解决遮挡。手之间的咬合手的部分咬合是由其面积增加一半表示。如果发生遮挡，则将其视为双手之间的遮挡来解决还有头图7a是在遮挡之前包含头部和双手的帧。在图7b中，手已经移动，并且其区域已经增加了一半以上，这指示遮挡情况。头部面积增加不超过三分之一;因此，闭塞仅发生在双手之间。如图7c所示，头部被识别，并且另一皮肤斑点被识别为手。如图7 d所示，使用等式7 d计算手的Dy。4和方程式六、图7d中的箭头示出了双手的先前边界矩形的移动。右手的RU移动到当前皮肤斑点的RU，而左手的LL移动到当前皮肤斑点的LL。跟踪结果如图所示。 7 e.对于两只手之间的完全遮挡，当两只手的先前位置指向相同的皮肤斑点时，N.B. Ibrahim等人/Journal of King Saud University4751/4fg1111/4吨d st;d st;1;否则ð手、手运动的速度和手的主轴的方向。任何符号的特征向量表示如下：特征向量^fxRH;yRH;vRH;/ RH;xLH;yLH;vLH;/LHg其中x、y、v和f分别是手的重力坐标、手的移动速度和手的主轴的取向3.4. 识别常用的识别技术有：隐马尔可夫模型（HMM）、支持向量机（SVM）、人工神经网络（ ANN）、自适应神经模糊推理系统（ANFIS）和欧氏距离。在这项研究中，数据集不是太大，所以没有使用HMM，ANN，SVM和ANFIS，因为没有合适的数据进行训练。欧几里德距离用于分类，因为它直接比较特征向量。设原始符号的特征向量为vo^fx1;x2;x3;。 . . G并且测试符号的特征向量是vty1;y2;y3;。 . .然后，利用以下等式计算特征向量的欧几里德距离（ED）：ED¼qqx1-y12-y2x3-y32。好吧好吧ﬃ4. 结果和评价ð9Þ见图7。解决两只手之间的部分咬合。最近的一个。如果每个先前的手位置与新的皮肤斑点之间的欧几里得距离大于阈值，则在两只手之间存在完全遮挡。通过将皮肤斑点标记为新位置来解决此遮挡两只手如果其中一只手的欧几里德距离小于阈值，则这只手在场景之外，并且皮肤斑点仅被标记为另一只手。3.3. 手部特征提取下一步是提取手部特征。提取良好的特征导致SLRS性能的显著提高三种情况下，已经遵循评估拟议的系统。首先是了解改变皮肤颜色和光照对正确分割手部的影响所提出的动态中途阈值直方图皮肤检测器在我们先前的工作中进行了评估（Ibrahim等人，2012年）。该评估提出，该检测器将假阳性率（FPR）降低了近一半，同时保持假阴性率（FNR）大致相同。它还减少了像素的数量来处理约52%的整个脸，这大大减少了检测时间。最后，它被推荐用于实时应用，并且由于其自适应动态性质而适用于不同的比赛。另一方面，使用YCbCr颜色空间降低了光照的影响。无论如何，光线必须均匀，脸部和手部的肤色必须相同。第二种情况是调查头部和手部跟踪算法的性能。为了实现这一点，需要一个具有地面实况注释的数据以及一个评估措施。对于图像序列X T1/4 X1;. ; X T和对应的注释对象位置u T1;. . 跟踪误差率（TER）被跟踪的位置的相对数目被定义为其中跟踪器和注释位置之间的欧几里德距离大于或等于容差的帧的相对数目（Dreuw等人，（2006年）：这些特征分为两个域：时间域和空间域结构域（Al-Alzuran等人， 2009年）。时间域有时被称为频域TER1Xuu^关于uv.0; ku-vk

下载后可阅读完整内容，剩余1页未读，立即下载