没有合适的资源?快使用搜索试试~ 我知道了~
⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 7(2021)215www.elsevier.com/locate/icte基于卷积神经网络的实时不丹手语数字识别系统Karma WangchukSahar,Panomkhawn Riyamkol,Rattapoom Waranusast泰国彭世洛那瑞宣大学工程学院电子与计算机工程系接收日期:2020年4月16日;接收日期:2020年8月11日;接受日期:2020年8月24日2020年9月3日网上发售摘要聋人与公众之间的沟通差距是父母和不丹政府关注的问题。聋校敦促人们学习不丹手语(BSL),但学习手语(SL)很困难。本文介绍了BSL数字识别系统,使用卷积神经网络(CNN)和有史以来第一个BSL数据集,其中有20,000个符号图像的10个静态数字从不同的志愿者收集。不同的SL模型进行了评估,并与建议的CNN模型进行了比较。该系统的训练准确率达到97.62%该系统还进行了评估精度,召回率和F1分数。c2021韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:手语; CNN; BSL数据集;增强;计算机视觉1. 介绍人与人之间的沟通是通过手势进行的[1]。人们用手势来表达他们的思想和感情,引起注意,并强调沟通。手势与SL不同。手势取决于用户,可以在说话和交互时随机使用,但SL需要像其他语言一样学习。这使得SL很难被公众学习。然而,计算机视觉和机器学习的积极研究已经给出了解决方案。SL可以被翻译成人类可理解的文本和语音。SL识别系统已经翻译了许多手语,解决了沟通障碍,为聋人提供了新的课堂教学经验[3]。翻译系统是听障人士的生命线。听力障碍是指部分或完全丧失听力的人[4]。其程度从轻微到严重不等,因此,人们听不到。通信∗ 通讯作者。电子邮件地址:karmaw62@nu.ac.th(K.Wangchuk),panomkhawnr@nu.ac.th(P. Riybankol),rattapoomw@nu.ac.th(R.Waranusast)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.08.002这个问题可以通过利用最新技术自动识别SL来解决。SL是一种被反倾销社区用作教学媒介的进行日常活动,如对话,教学和学习,以及社会交往。它使用不同类型的手势和面部表情来传达和说服意义。它允许签名者以非语言的方式交流,以表达他们的思想和情感[5]。言语障碍社区在世界上使用超过120种手语[6],主要的手语是美国手语(ASL),Auslan,俄罗斯手语(RSL)和印度手语(ISL)。多年来,人们已经使用深度学习对流行的手语进行了研究。然而,BSL是未触及和未开发的技术。本研究的主要目的是利用机器学习技术开发一个BSL数字识别系统。本文还介绍了第一个由不同用户从图像和视频帧中创建的BSL数字数据集第二部分是文献综述和相关著作。在第3节中,解释了方法,然后在第4节中进行了实验结果分析。最后,在第5节中给出了结论和未来的工作。2405-9595/2021韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。216K. 旺楚克山口Riyankol和R.Waranusast/ICT Express 7(2021)2152. 相关工作在计算机视觉中,SL是一个非常活跃的研究领域,已经提出了许多新的方法。研究人员使用不同的算法进行SL识别,例如人工神经网络[7],隐马尔可夫模型[8]和使用3D CNN的深度学习[9]。能够从图像中提取特征的人工神经网络被称为CNN [10]。流行的CNN架构是LeNet-5,AlexNet,VGGNet,GoogLeNet和ResNet [11],它们从2010年起赢得了ImageNet大规模视觉识别挑战赛。这些算法取得了较好的效果,在视频跟踪、运动估计、场景重建、目标识别、SL字符和数字识别等方面有着广泛的应用。在最近的一项研究中,提出了具有独立旋转的符号数字识别,使用10层CNN使用残差学习来检测数字[12]。他们收集了700个数字符号,并准备了7000张图像,随机旋转每张图像10次,预测准确率为97.28%。同样,使用CNN识别孟加拉语符号字母和数字,平均预测准确率分别为99.83%和100%[13]。然而,具有抗肿瘤药物的班级的成功率为99.80%。共收集到10个数字的7052个样本图像和35个字符的23864个样本图像。使用反调和均值的形态模式识别操作被纳入卷积层,以生成用于识别数字的增强特征图[14]。在MNIST数字数据集上评估的形态CNN获得了97.13%的较好结果提出了ASL识别系统的最佳方法[6]。他们对手势进行了预处理,计算了预处理图像中该区域的不同属性,并根据计算出的属性,将手势转录成文本。该方法识别了24个美国手语字母和10个数字,成功率分别为93.05%和95%。进行了轮廓支持向量机(SVM)和基于CNN的方法之间的比较研究[15]。他们使用了三种不同的标准数据库-SLD,ASL和ASL-FS在各种条件下,如旋转,缩放与恒定的背景。在基于轮廓的方法中,先求出轮廓,然后绘制出轮廓的凸包基于凸的长度和角度来识别手势。然后使用SVM对手势进行分类。建议的比较分别达到69%和98.31%的准确性。CNN算法在MNIST和CIFAR-10数据集上实现[16]。他们已经评估了这些图像数据集上的算法的性能,用 于 检 测 和 识 别 标 志 。 MNIST 数 据 的 预 测 准 确 率 为99.60%。深度CNN用于更快的收敛和减少过拟合以识别符号数[17]。他们通过引入批归一化和丢弃分别优化了层的收敛性和过拟合的减少。仅使用CNN的预测准确率显示CNN和辍学的组合为97.00%和98.00%。然而,使用图1.一、系 统 概述。CNN、dropout和批量归一化的组合显示了98.50%的成功率。实施主成分分析以学习卷积核作为基于CNN的中文数字手势识别的预训练策略[18]。将数据集分为6类,并检验了该方法对噪声和失真的鲁棒性。99.92%的预测准确率表明,CNN的预训练策略是一种有效的图像识别方法。在这项研究中,CNN被用来从手形图像中提取特征,并使用网络摄像头实时使用训练好的模型对BSL数字进行分类。3. 方法3.1. 系统概述所提出的系统的概述如图所示。该方法分为四个阶段:数据采集、预处理、特征提取和识别。图像和视频帧作为输入提供给系统,输出是以宗卡语和英语文本显示的预测符号数字。图像被增强以向数据集添加变化,并使用CNN训练模型。保存模型并使用OpenCV加载以实时识别数字3.2. 数据采集BSL数据集由图像和视频帧准备。数据集由10个BSL数字(0-9)的20,000张图像组成这些手形手指是从21名泰国学生身上收集的。每个学生每个类别拍摄10张图像并录制视频。这些图像和视频是从不同的位置,角度,以及不同的背景和照明条件下拍摄的。其余图像通过图像增强技术复制K. 旺楚克山口Riyankol和R.Waranusast/ICT Express 7(2021)215217××∑∑××××图二、手 形BSL数字(0 -9 )表示。输入,20,000个大小为64的RGB图像643个像素以32的批量大小进料到模型中。该模型使用两种不同大小的过滤器,两个步幅的最大池,ReLU和softmax激活函数进行训练和测试。该模型使用了ReLU激活函数[23],如等式所示。(一).f(x)=max(0,x)(1)其中,x表示神经元的输入,稀疏case-gorical交叉熵损失函数[24]定义为等式2(二)、M损失=(2)第一次见面i=1内存和计算效率随机优化器(称为ADAM)用于优化模型[25]。在第三个卷积块之后,特征向量被平坦化并传递到完全连接的密集层,以使用softmax激活函数[26]对其中一个数字进行分类,该函数如等式所示(三)、ezj图三. 增强图像的样本:(a)(f)乘以不同像素值的图像,(b)形态梯度变换,(c)礼帽σ(z)j=Kk=1(三)ezk变换,(d)(g)反转图像,(e)浅色添加,(h)中值模糊,(i)饱和度图像,(j)锐化。3.3. 图像预处理在预处理阶段,这些图像使用增强技术[19]进行预处理,通过添加像素和颜色,顶部和黑色帽子,执行形态变换,模糊,饱和和锐化,以增强数据集的变化,如图3所示。对单个图像执行的增强生成了50种不同的图像变体。新的数据集是通过从增强和原始图像集中随机选择每个类别1000个图像来创建的。BSL数据集由每类2000张图像组成。数据集中的任意图像大小不能立即输入卷积神经网络。在模型训练过程中,通过名为TensorFlow的深度学习库读取图像时,图像被重新缩放为64 64 3像素。在训练期间还执行了图像增强,例如宽度和高度移位、旋转和剪切以及水平翻转,这些不是先前图像增强的一部分。3.4. 特征提取使用CNN算法从数字中提取特征。所提出的CNN模型的架构配置类似于VGGNet [20],如图4所示。然而,我们只使用了六个卷积层,到VGGNet,它至少有13层。两个连续的卷积层之后是批量归一化[21],用于更快的训练收敛和25%神经元的dropout[22],以减轻过拟合。作为使用早期停止机制来避免过拟合,并且模型的训练在34个时期后停止。已保存已训练的模型。3.5. 图像识别训练后的模型被加载到笔记本电脑上,使用TensorFlow作为后端,OpenCV读取视频帧,Visual Studio Code和Python分别作为编辑器和编程语言。OpenCV捕获签名者的实时手形视频帧,并将其重新缩放为64 64 3像素。该模型成功地检测和预测符号数字。所提出的系统将BSL数字翻译成Dzongkha和英语文本,如图所示。第七章4. 实验结果分析为了训练模型,使用了Google Colab在线GPU。Colab提供12小时的免费使用GPU 1xTesla K80与2496核心的12GB GDDR5和CPU 1x单核至强处理器@2.5 GHz与45 MB缓存。在将数据集分为80%和20%的训练集和测试集后,使用TensorFlow作为后端训练不同的SL模型,批量大小为32。BSL数字识别系统的性能用表1所示的五个SL模型进行了评估。据观察,类似于VGGNet配置的CNN网络以最少的训练时间实现了97.62%的最高准确率。然而,最小测试和最大训练时间分别用逻辑回归175微秒和SVM模型825 s观察到。图5比较了所提出的CNN模型的准确性和损失。训练准确率和测试准确率逐渐提高,但从15个时期开始停止学习,分别达到99.94%和97.62%。提前停止是用来阻止218K. 旺楚克山口Riyankol和R.Waranusast/ICT Express 7(2021)215图四、提 出 的CNN模型的修改架构。图五. 训练和测试精度:(左)精度与历元,(右)损失与历元。见图6。 混淆矩阵。训练以避免过度拟合。在完成34个纪元后,训练提前结束。训练损失直线下降然而,到0.0021,测试损耗在20个时期之后没有下降,并且以0.1202的恒定速率继续图中的混淆矩阵。图6示出了BSL分类的性能。据观察,错分最多的数字是7,这是8次错分为数字6. 数字4和6是第二高的误分类类别,分别被误分类为6和7。数字6和7分别观察到最高的假阳性和假阴性对于10类数字,数字6被错误预测了19次,数字7被错误拒绝了20次。 的原因表1不同SL模型的精度比较分析模型测试时间(s)准确度(%)精密度(%)召回率(%)F1评分(%)SVM82570.25717070KNN79578.95807979Logistic回归0.00017567.38676767LeNet-545791.07919191(CNN)29497.62989898表2每个数字的精确度、召回率和F1得分列表类精密度(%)召回率(%)F1评分(%)00.990.980.9910.980.980.9820.970.980.9730.970.980.9840.990.970.9850.980.980.9860.950.980.9770.970.950.9680.980.980.9890.970.970.97加权平均值0.980.980.98手指的错误分类是在捕获图像时考虑了相似的形状和不同的视角。以不同的位置和角度收集图像,以提供数据集的变化,然而,具有角度和距离的不同视角产生模糊和相同的形状。在数字二上记录的具有不同旋转的视频,在某些视角下,帧给出数字一的假象。表2显示了每个类的精确率、召回率和F1分数的百分比。据观察,6和7的最低精确度和召回率均为95%。F1分数的最低百分比为7级的96%。然而,加权平均值上升到98%。训练的模型用于使用网络摄像头实时预测BSL符号数字,如图7所示。预测的标志数字在左下角的宗喀巴数字文本中打印。预测数字的验证与输出屏幕右上角打印的英文数字一致。K. 旺楚克山口Riyankol和R.Waranusast/ICT Express 7(2021)215219图第七章 实时预测在Dzongkha和英语。5. 结论本研究的主要目的是使用网络摄影机来即时辨识BSL数字。在这项研究中,BSL数字数据集的创建和评估不同的SL模型。所提出的基于CNN的模型的性能优于这些模型。该模型的训练和测试准确率通过增加数据集中的图像数量和使用VGG16、ResNet和MobileNet等迁移学习,可以分别减少和提高错误分类和测试准确率。在未来,可以研究BSL字母和动态手势识别。CRediT作者贡献声明Karma Wangchuk:概念化,方法论,软件,形式分析,调查,资源,数据管理,写作-初稿,写作-评论编辑,可视化。Panomkhawn Riybankol:概念化,验证,调查,写作-原始草案,写作-审查编辑,监督,项目管理。Waranusast:概念化,验证,调查,写作-原始草稿,写作-审查编辑,项目管理.竞合利益作者声明,他们没有已知的可能影响本文所报告工作引用[1] P. Garg , N. Aggarwal , S. Sofat , 基 于 视 觉 的 手 势 识 别 ,WorldAcad。Sci. Eng. Technol. 49(2009)972[2] M.J. Cheok,Z.奥马尔,M.H. Jaward,手势和手势的评论手语识别技术,Int. J. Mach.学习.赛博恩10(2019)131-153.[3] T.S.哈塞尔布林,C.H.W. Glaser,使用计算机技术帮助有特殊需要的学生,未来的 孩子。(2000)102[4] N.B. Ibrahim,M.M. Selim,H.H.陈文,等,一种自动阿拉伯手语识别系统(ArSLRS),北京大学出版社,2000年,Comput. 信息科学30(2018)470-477。[5] K.班图帕利岛谢,美国手语识别使用深度学习和计算机视觉,在:2018年IEEE大数据国际会议(大数据),2018年,pp。4896-4899[6] S.Shivashankara , S.Srinath , AmericanSignLanguageRecognitionsystem:An Optimal Approach,Int. J. Image Graph。信号处理。10(2018)。[7] P. Kishore,M. Prasad,C.R. 普拉萨德河 Rahul,使用椭圆傅立叶描述符和ANN进行手语识别的4-相机模型,2015年信号处理和通信工程系统国际会议,2015年,第10 3 页。34比38[8] J. Zhang,W.(1986 - 1993)张建,等. Zhou C.,中国青冈C. Xie,J. Pu,H. Li,使用自适应HMM识别中国手语,2016 IEEE国际会议关于多媒体和博览会(ICME),2016年,pp。1比6[9] 北 卡罗 来 纳Camgoz ,S. 哈 德菲 尔 德岛 科勒 河 Bowden ,Usingconvolutional3d neural networks for user-independent continuousgesture recognition , in : 2016 23rd International Conference onPattern Recognition(ICPR),2016,pp. 49比54[10] Y. Chen,H.江角,澳-地Li,X. Jia,P. Ghamisi,基于卷积神经网络的高光谱图像深度特征提取和分类,IEEE Trans. Geosci。远程传感器54(2016)6232-6251。[11] A.汗,A。苏海尔,美国Zahoora,A.S. Qureshi,深度卷积神经网络最近架构的调查,2019,arXiv预印本arXiv:1901。06032.[12] M.A. Kalam,M.N.I.蒙达尔湾Ahmed,手语中的旋转独立数字识别,在:2019年电气,计算机和通信工程国际会议(ECCE),2019年,pp. 1比5。[13] M.S. Islalm,M.M. Rahman,M.H.拉赫曼,M。 阿扎曼河Sassi,M. Aktaruzzaman,使用卷积神经网络识别孟加拉语手语,在:2019年信息学,计算和技术创新与智能国际会议(3ICT),2019年,pp。1比6[14] D. Mellouli ,T.M. Hamdani, J.J. Sanchez-Medina,M.B. Ayed ,A.M. 李文,基于形态学卷积神经网络的数字识别方法,计算机工程学报,2000。学习.系统30(2019)2876-2885。[15] S.R. Kalbhor,A.M. Deshpande,使用机器学习和卷积神经网络的数 字 识 别 , 在 : 2018 年 第 二 届 电 子 和 信 息 学 趋 势 国 际 会 议(ICOEI),2018年,pp. 604-609[16] R. Chauhan,K.K.甘沙拉河Joshi,用于图像检测和识别的卷积神经网络(CNN),在:2018年第一届安全网络计算和通信国际会议(ICSCCC),2018年,pp. 278-282.[17] A.K.Tushar , A.Ashiquzzaman , M.R.Islam , Fasterconvergenceand reduction of overfitting in numerical hand signrecognitionusing DCNN , in : 2017 IEEE Region 10 HumanitarianTechnologyConference(R10-HTC),2017,pp. 638-641[18] Y. Li , Y. Yang , Y. Chen , M. Zhu , A pre-training strategy forconvolutionalneuralnetworkappliedtoChinesedigitalgesturerecognition , in : 2016 8th IEEE International Conference onCommunication SoftwareandNetworks(ICCSN),2016,pp. 620-624[19] L. Perez,J. Wang,使用深度学习的图像分类中数据增强的有效性,2017,arXiv预印本arXiv:1712。04621.[20] K. 西 蒙 尼 扬 A. Zisserman , Very deep convolutional networks forlarge-scale image recognition , 2014 , arXiv preprint arXiv : 1409.1556[21] S.约费角Szegedy,Batch normalization:Accelerating deep networktraining by reducing internal covariate shift , 2015 , arXiv preprintarXiv:1502。03167.[22] N.斯里瓦斯塔瓦湾Hinton,A. 克里热夫斯基岛苏茨克韦尔河Salakhut-dinov,Dropout:一种防止神经网络过拟合的简单方法,J。马赫学习. Res. 15(2014)1929220K. 旺楚克山口Riyankol和R.Waranusast/ICT Express 7(2021)215[23] A.克里热夫斯基岛萨茨克弗,G. E. Hinton,使用深度卷积神经网络的Imagenet分类,在:神经信息处理系统的进展,2012年,pp.1097-1105年。[24] L. Wei,Multi-hot Sparse Categorical Cross-entropy,2018,Avail-able:https://cwiki.一个PACHEorg/confluence/display/MXNET/Multi-hot+Sparse+Categrical+Cross-entropy。[25] D.P.Kingma,J.Ba,Adam:A method for stochastic optimization,2014,arXiv preprint arXiv:1412. 6980.[26] J. Yang,ReLU和Softmax激活函数,2017,可用:https://github。Com/Kulbear/dee ep-learning-nano-fondati o n d a t ion/wiki/ReLU-andd-Softmax-Activation-Fuctions。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功