
可在
www.sciencedirect.com
在线获取
ScienceDirect
ICTExpress 7(2021)215
www.elsevier.com/locate/icte
基于卷积神经网络的实时不丹手语数字识别系统
Karma Wangchuk
Sahar
,Panomkhawn Riyamkol,Rattapoom Waranusast
泰国彭世洛那瑞宣大学工程学院电子与计算机工程系
接收日期:2020年4月16日;接收日期:2020年8月11日;接受日期:2020年8月24日
2020年9月3日网上发售
摘要
聋人与公众之间的沟通差距是父母和不丹政府关注的问题。聋校 敦促人们学习不丹手语(BSL),但学习手语(SL)很困难。
本文介绍了BSL数字识别系统,使用卷积神经网络(CNN)和有史以来第一个BSL数据集,其中有20,000个符号图像的10个静态数字
从不同的志愿者收集。不同的SL模型进行了评估,并与建议的CNN模型进行了比较。该系统的训练准确率达到97.62%该系统还进行
了评估精度,召回率和F1分数。
c
2021
韩国通信和信息科学研究所(
KICS
)。出版社:
Elsevier B.V.
这是一个开放的访问
CC BY-NC-ND
许可证下的文章(
http://creativecommons.org/licenses/by-nc-nd/4.0/
)。
关键词:
手语; CNN; BSL数据集;增强;计算机视觉
1.
介绍
人与人之间的沟通是通过手势进行的[1]。人们用手势
来表达他们的思想和感情,引起注意,并强调沟通。手势
与SL不同。手势取决于用户,可以在说话和交互时随机
使用,但SL需要像其他语言一样学习。这使得SL很难被
公众学习。然而,计算机视觉和机器学习的积极研究已经
给出了解决方案。SL可以被翻译成人类可理解的文本和
语音。SL识别系统已经翻译了许多手语,解决了沟通障
碍,为聋人提供了新的课堂教学经验[3]。翻译系统是听
障人士的生命线。
听力障碍是指部分或完全丧失听力的人[4]。其程度从
轻微到严重不等,因此,人们听不到。通信
∗
通讯作者。
电子邮件地址:
karmaw62@nu.ac.th(K.Wangchuk),
panomkhawnr@nu.ac.th(P. Riybankol),rattapoomw@nu.ac.th
(R.Waranusast)。
同行评审由韩国通信和信息科学研究所(KICS)负责
https://doi.org/10.1016/j.icte.2020.08.002
这个问题可以通过利用最新技术自动识别SL来解决。SL
是一种被反倾销社区用作教学媒介的 进行日常活动,如
对话,教学和学习,以及社会交往。它使用不同类型的手
势和面部表情来传达和说服意义。它允许签名者以非语言
的方式交流,以表达他们的思想和情感[5]。言语障碍社
区在世界上使用超过120种手语[6],主要的手语是美国手
语(ASL),Auslan,俄罗斯手语(RSL)和印度手语
(ISL)。
多年来,人们已经使用深度学习对流行的手语进行了
研究。然而,BSL是未触及和未开发的技术。本研究的主
要目的是利用机器学习技术开发一个BSL数字识别系统。
本文还介绍了第一个由不同用户从图像和视频帧中创建的
BSL数字数据集
第二部分是文献综述和相关著作。在第3节中,解释了
方法,然后在第4节中进行了实验结果分析。最后,在第5
节中给出了结论和未来的工作。
2405-9595
/
2021韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问
CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。