智能手机教中国手语

160 浏览量更新于2024-01-24 收藏 1.25MB PDF 举报

虚拟现实

智能硬件

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

虚拟现实智能硬件2021年第3引文：张艳晓，闵跃聪，陈西林。用智能手机教中国手语。虚拟现实智能硬件，2021，3（3）：248-260DOI：10.1016/j.vrih.2021.05.004·文章·用智能手机教中国手语YanxiaoZHANG1，2，YueconggMIN1，2，XilinCHEN1，2*1. 中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京邮编：1001902. 中国科学院大学，北京100049*通讯作者，xlchen@ict.ac.cn投稿时间：2021年3月8日修订日期：2021年4月30日接受日期：2021年5月18日摘要背景世界范围内有一个庞大的聋哑群体，手语是这个群体的主要交流工具。聋哑人必须能够与有听力的人交流，而有听力的人也需要懂手语，这就产生了对手语教学的巨大需求。尽管已经有大量关于手语的书籍，但仅仅通过阅读来学习手语是低效的，看视频也是如此。为了解决这个问题，我们开发了一个基于智能手机的互动式中国手语教学系统，以促进手语学习。方法该系统为学习者提供了一些学习模式，并使用智能手机的前置摄像头捕捉学习者的动作。目前，该系统提供了一个包含1000个常用词的词汇集，学习者可以通过主观或客观的比较来评估自己的手势动作。在单词识别模式下，用户可以播放词汇表中的任何单词，系统将返回检索到的前三个候选词，从而提醒学习者该符号是什么。结果该系统提供了交互式学习，使用户能够有效地学习手语。该系统采用基于点云识别的算法对用户标志进行评估，每个样本的推理时间约为700 ms，满足实时性要求。结论该交互式学习系统减少了聋哑人与听力正常人之间的交流障碍。关键词计算机辅助学习;手语评估;智能手机平台1引言世界卫生组织（WHO）报告称，全球约有4.66亿人患有致残性听力损失1。这占世界人口的5%以上，其中3400万是儿童。第二次全国残疾人抽样调查显示，中国听力残疾人约为2004万人，占当时总人口的1.53%[1]。在这样一个广泛的社区，手语是一个主要的沟通工具，表达特定的2096-5796/©版权所有2021北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。1电子邮件www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-losswww.vr-ih.comYanxiao ZHANG et al：用智能手机教授中国手语249手势、身体和面部表情的运动、位置和方向的意义。手语是一种成熟的自然语言，有自己的词汇和语法。随着社会的发展，越来越多的人重视学习手语。然而，手语教学面临着一些挑战，例如合格教师的数量，课堂学习期间缺乏互动，以及对每个学生的关注有限[2]。由于智能手机在今天非常流行，这项工作旨在为那些愿意学习手语的人提供一个互动教学系统。在这项研究中，我们设计并实现了一个智能手机上的中国手语教学系统，涵盖了中国手语词汇集与1000个常用词。如图1所示，系统提供多种学习功能：在单词学习模式下，用户可以学习手语单词的描述、草图和演示视频;在学习测试模式下，用户可以通过演示表演和评估进行互动学习;在字典搜索模式下，用户可以搜索文本和符号。与课堂手语学习相比，该系统提供了个性化的一对一学习机会。开发的系统可以是一个有价值的教育工具，校外实践。它也可以成为那些想学习手语和想学习普通话的聋人的学习平台。图1应用程序的主要功能2相关工作2.1计算机视觉辅助技术在过去的几十年里，对辅助技术（AT）的需求大幅增加，这有助于克服个人的功能限制并提高他们的生活质量[3]。Lee和Medioni提出了一种基于视觉的可穿戴RGB-D相机室内导航系统[4]。该系统引导视障用户从一个位置到另一个位置，而无需提前提供地图或GPS信息。Kayukawa等人开发了一种辅助手提箱系统BBeep，以支持盲人在拥挤的环境中行走[5]。一些研究也集中在社会医疗服务系统。Zeng等人开发了一种用于人机交互（HCI）的手势系统，并将其应用于智能轮椅控制[6]。Parmar等人在康复期间使用Kinect设备收集了脑瘫患者的骨骼数据，并评估了他们的运动质量[7]。Feng等人提出了一种基于视觉的跌倒检测方法，250虚拟现实智能硬件2021年第3在家庭护理环境中监测老年人[8]。Martinel等人提出了一种食物识别系统，可以自动识别食物的类型和数量，并估计其卡路里含量[9]。2.2现有的手语教学系统目前，计算机辅助技术应用于手语教学，大大提高了学习效率。还开发了一些手语教学系统。在全面了解手语教学的方式和基本要求的基础上，Zhang设计了一个使用Kinect传感器的手语教学平台[10]。该系统开发了新的手语输入和识别功能，可为当前的手语教学提供支持。佐川和竹内开发了一个日本手语教学系统，以帮助手语研究[11]。该系统包括手语识别和手语生成两个部分，手语识别可以识别输入的日语手语手势并将其翻译成日语，手语生成可以将日语翻译成日语手语并以3DCG（三维计算机图形）动画的形式显示Phan等人设计了一个名为My Interactive Coach（MIC）的手语教学系统。这个系统可以教学习者澳大利亚的标志，让他们练习，记录他们的实践表现，并提供不同形式的视觉反馈，他们如何表现的标志。2.3手语识别手语识别吸引了越来越多的研究人员[13 ， 14]。自2013年以来，一些研究团队基于卷积神经网络（CNN）进行了一系列关于孤立词手语识别的研究。Pigou等人使用CNN提取单帧手势特征，并最终连接三个完全连接的层进行分类[15]。他们的方法在20个意大利手语单词的词汇集上达到了91.7%的准确率。Köpüklü等人将运动信息融合到静态图像中，将融合后的时空特征发送到后续的CNN网络中进行识别[16]。CNN只对单帧图像数据中的特征进行编码。3D-CNN可以同时对滑动视频的时空特征进行建模，以从多帧中捕获运动信息，并实现更全局的意义。3D-CNN首先由Ji等人提出，并用于行为识别[17]。为了实现大规模视频的手势识别，Li等人提出了一种基于RGB-D数据的C3 D模型[18，19]。Huang等人提出了一种基于3D-CNN网络的时空注意机制的手语识别方法，将空间注意力融入网络，关注感兴趣的手部特征，最终使用时间注意机制对重要的手语动作进行分类[20]。与上述两种网络相比，RNN（Rerrent Neural Network）是一种用于处理序列数据的神经网络，它更善于捕捉长期的上下文信息。因此，近年来，越来越多的研究基于使用RNN的手语识别。Cate等人通过使用RNN语音视频特征的顺序建模识别了手语中的95类孤立词[21]。Chai等人在2016年提出了双流递归神经网络（2s-RNN），同年在Chalearn手势识别挑战中排名第一[22]。Bantupalli和Xie提出了一种基于手语识别初始模型的RNN网络[23]。Liao等人将分割的手部特征和原始RGB数据发送到BLSTM中，并实现了手语孤立词的准确识别[24]。251Yanxiao ZHANG et al：用智能手机教授中国手语3系统设计与实现在这项研究中，我们设计并实现了一个智能手机上的中国手语教学互动应用程序。用户可以通过该系统交互式地学习手语和评估他们的手势动作表达。如图2所示，该应用程序的主界面包含三个功能模块。用户可以通过点击上面的单词学习功能进入单词学习界面，有三种学习模式，并从该部分获得学习统计数据。学习单词后，用户可以通过点击界面下半部分的图标来评估学习过程的质量。底部选项卡提供辅助功能，如文本搜索和符号搜索。我们将在下面的章节中解释每个功能模块。图2应用程序的主界面图1显示了所提出的系统的总体架构。我们采用多级界面，使用户能够轻松启动和切换界面。为了更好地反馈学习过程，我们采用手语质量评估方法对用户的手语进行及时评分，并采用手语识别方法在数据库中搜索相关标志，以便理解和比较。在3.4节中介绍了相关算法3.1单词学习该系统包含了《中国手语基本手势》中1000个最常用词的多媒体词汇集[25]。为了更好地组织如此大的词汇量的学习时间表，该应用程序提供了几种学习模式，包括顺序学习，单元学习和随机学习。在顺序学习中，用户可以一步一步地学习手语单词，应用程序将记录学习历史，并从最近一次会话中复习的最后一个单词开始。在单元学习中，我们将1000个符号词分成31个单元，每个单元大约30个词，并将它们分为不同的类别，如称谓和职业。学习者可以选择自己喜欢的单元进行系统学习。相比之下，为了削弱单词之间的联系，避免混淆的发生，我们还提供了随机学习模式，为学习者提供了随机的单词顺序。此外，我们在应用程序的主页上添加了“日常学习”功能。学习者可以设置他们每天学习的单词数量，以便他们可以在个性化的时间表中学习。此外，还可以设置生词的比例，以平衡学习和复习。一旦选择了学习模式，用户就进入单词演示界面。如图3a所示，学习界面从上到下显示演示视频、草图和文本描述。学习者可以获得对这个标志词的全面理解，该应用程序还提供暂停和多种播放速度，使用户能够以他/她喜欢的速度捕捉视频细节。特别是，我们在口语学习中有一个类似于听和重复的功能：和我一起玩，如图3b所示学习者可以通过点击界面上的视频进入此功能252虚拟现实智能硬件2021年第3图3词汇学习界面介绍。应用程序将首先播放演示视频，然后等待3秒后再录制。学习者可以跟随演示视频练习同一个单词。录音后，应用程序将通过手语质量评估算法对学习者的表现进行评级，为学习者提供及时的反馈，以实现更好的学习体验。3.2学习测试除了学习模块，我们还提供考试模块，以便学习者可以评估他们的学习结果。由于手语是一种交流的方式，我们将从两个方面来测试学习者的学习效果：手语单词的识别和手语表演的质量。图4显示了这两个模块。身份模块主要考察学习者对手语的理解。该应用程序将播放一个标志视频，并提供多种选择，学习者需要从三个选项中选择正确的一个如果图4word考试界面介绍。253Yanxiao ZHANG et al：用智能手机教授中国手语学习者做出错误的选择，正确的答案将被显示，学习者将理解他们误解了什么。之后，学习者可以点击“>”按钮生成下一个问题。在Sign模块中，应用程序使用评估算法来评估学习者的行为。学习者需要根据应用程序的提示做出相应的手势动作。之后，应用程序会根据学习者的表现给出分数，学习者可以继续练习以获得更高的分数。3.3词典搜索字典查找模式是辅助教学的功能，方便用户快速查找所需信息。该模块包括两个功能：文本搜索和符号搜索。如图5a所示，文本搜索是从文本到符号词的检索。当用户忘记了某个标志词的动作时，用户可以在界面顶部的搜索框中输入他/她想查询的词，这个应用程序将使用模糊词匹配返回这些词。手势搜索可以识别输入的手势并将其翻译成普通话。当用户看到一个奇怪的标志词时，他/她可以使用这个图5字典的接口如图5 b所示，用户单击BEGIN按钮开始录制视频，并在他/她完成签名动作后再次单击按钮。随后，系统中的识别算法处理所记录的视频。经过很短的等待，应用程序将提供前三名的候选人。3.4识别评价算法我们使用智能手机的前置摄像头来捕获图像，这些图像用于识别和评估学习者的手势动作。首先，从深度视频中提取点云序列并发送到改进的FlickerNet[26]以提取时空特征。然后，我们提出了一个时间序列分割模型，以增强核心手势信息的块预测。最后，所有局部特征h被连接以形成视频特征H。所提出的方法的框架如图6所示。网络中使用的运营商由主流的移动深度学习支持，可以轻松快速地部署。图6我们的方法框架。3.4.1点云形成考虑到智能手机有限的计算能力和无法处理复杂的网络254虚拟现实智能硬件2021年第3在3D卷积等结构中，我们使用点云而不是RGB图像作为输入。深度图像中的每个像素表示与相机的距离和置信水平。当使用手语进行交流时，手主要出现在身体的前面。因此，我们可以通过设置阈值来分离手区域。随后，通过随机采样或最远点采样从手部区域采样N个点（默认为128个图7中示出了这样的示例。3.4.2网络结构图7提取手部点云。网络的输入是一个大小为T×N ×d的点云，其中T是帧数，N是每帧采样的点数，d是每点的通道数。为了简单和高效，我们只使用（x，y，z，t）作为我们的点输入（d= 4）。我们使用FlickerNet的修改版本来提取特征。对于手语视频，我们得到T×N' ×C的特征图，其中N'是下采样后的点的数量，C是点的输出维数。RNN不适合在智能手机上运行，因为它的网络结构相对复杂。每个中国手语单词通常包含两个或三个原子动作。因此，我们可以将手语视频分成几个小片段并分别进行预测。然而，要精确地划分每个原子动作是不现实的。遵循PCB[27]的思想，我们沿着时间维度划分特征以获得p个时间块，如图8所示。对于每一部分，采用平均池化操作得到p个局部特征g，并利用1 × 1卷积对g进行降维，从而提取新的局部特征h。接下来，将每个特征h输入到全连接层中以预测输入的类概率。图8时间序列分割模型的结构（p = 4）。在训练过程中，我们通过最小化p个分类器的交叉熵损失之和来优化网络。在测试阶段，可以连接p个局部特征向量h以形成整个视频的特征向量H。对于手语识别，选择前3个类作为候选。为了实现单词学习和测量学习进度，我们使用质量评估算法。我们的评价标准是标志是否能被正确识别学习者要学会用词，如果255Yanxiao ZHANG et al：用智能手机教授中国手语算法能正确识别，学习者的得分较高。相反，如果算法将其识别为另一个单词，则学习者的得分较低。具体来说，我们使用之前的网络获得每个单词的识别概率。使用softmax函数将这些概率归一化为0-1。选择目标类别的概率被放大100倍，以获得最终的百分比分数。3.4.3部署模型由于这是一个交互式应用程序，具有低延迟的关键要求，因此该应用程序可以在边缘设备上实时运行非常重要。目前主流的深度学习框架都支持移动终端的部署。PyTorch在2019年底发布了PyTorchMobile，它支持从Python到iOS和Android上部署的端到端工作流。用户可以无缝地从培训模型过渡到部署模型，而不需要其他工具。因此，我们使用PyTorch编写此模型并在桌面上进行训练，然后通过调用“torch.jit.trace”方法将其转换为TorchScript文件。最后，将“assert”文件夹中的文件放置在Android上。在Android项目中，PyTorch Android作为gradle依赖添加到build中。向项目倾斜。然后，应用可以读取assert文件夹中的模型。对于智能手机，我们使用HUAWEI Mate20 Pro，因为它配备了3D深度感知摄像头。它使用结构光在70厘米范围内捕获3D数据，以获得深度图像。我们还在华为Mate30 Pro上测试了该应用程序。3.5交互设计为了简洁起见，系统中的大多数按钮都用图标表示，这避免了单词的使用，减少了语言之间的障碍。用户可以点击图标来选择并跳转到所选功能。此外，应用程序还增加了滑动控件，如左滑和右滑，以切换单词（图9a），向上滑动以返回。图9手势控制。当用户录制视频时，与智能手机的最佳距离约为50厘米。在这种情况下，伸手点击屏幕上的按钮并不方便。因此，我们增加了空间手势控制功能，可以帮助用户远距离操作App。该应用程序从HUAWEI Mate20 Pro的前置摄像头捕获深度图像，并通过预设阈值裁剪手部区域，然后在屏幕上绘制一个“红点”以指示手部位置虚拟现实智能硬件2021年第3256在整个深度图像中的区域，如图9b所示。学习者可以通过移动他/她的手来控制“红点”的移动。为了满足日常习惯，左右运动是镜像的。如果“红点”在图标区域停留超过1秒，APP会判定学习者点击了它。这样，学习者就可以在学习过程中切换单词、开始和结束视频录制等，也可以在设置界面中选择是否开启该功能。4实验4.1评价认可本文对从30名聋哑人中收集的中国手语语料进行了全面的研究.对于中国手语中最常见的100个单词，每人表演两次，获得有效视频5892个。我们选取了27个人的数据（共5297个视频）作为训练集，另一个（共595个视频）作为测试集。我们从头开始训练模型200个epoch，小批量大小为32。亚当的动量为0.9，学习率为10- 4，在第100个时期除以10。关于帧数的实验。每个视频的有效帧数在20到70帧之间。为了解决视频长度不一致的问题，我们从深度视频中均匀地采样T帧。随着帧数的增加，识别精度也随之提高。然而，当从16帧增加到32帧时，性能改善不那么明显。实验结果如图10a所示。图10帧数、点数和时序划分的影响。实验上的点数。我们需要从深度图像中提取N个点作为手部点云。点云的数量越多，对手形的描述就越准确，识别性能就越好。实验结果如图10b所示。由于128点和256点具有相似的性能，因此我们使用128点进行后续实验。时间分割数实验。在时域块模型中，视频的特征向量特征根据时间维度被划分为p个局部特征向量。我们进行实验来确定p的值。为了确保它可以被均匀地划分，p的值是16帧视频长度。当p= 1时，它相当于没有阻塞。p= 16表示每个帧是257Yanxiao ZHANG et al：用智能手机教授中国手语单独处理。最终实验结果如图10c所示。当p= 4时，达到最佳效果。为了验证我们模型的通用性，我们在SHREC'17数据集[28]上进行了实验，这是一个公共的动态手势数据集。表1详细介绍了我们与几种最先进方法的性能比较。由于SHREC'17数据集提供了手和手指的骨骼数据，因此大多数以前的工作使用骨骼序列作为输入，提供相对准确的手部姿势结构和关节轨迹。这项工作[29]表明，即使在现实世界中难以获得准确的手部姿势，基于云的方法也可以实现出色的性能。相比之下，本文提出的网络结构更简洁，更容易部署到移动终端。Table1 SHREC'17天内的平均生产率（%）方法模态14个手势28个手势关键帧[28]深度序列82.971.9SoCJ+HoHD+HoWR[30]骨架88.281.9Res-TCN[31]骨架91.187.3STA-Res-TCN骨架93.690.7ST-GCN[32]骨架92.787.7DG-STA[33]骨架94.490.7[29]第二十九话点云95.994.7基线点云91.689.2我们点云96.395.0识别算法在实现的系统中起着重要的作用。通过该算法，不仅可以识别手语，为单词识别模块提供更准确的候选结果，而且在质量评价中得分更准确，为用户提供更有效的反馈。4.2用户研究为了评估该系统的可用性，我们邀请了10名学生，谁没有手语学习经验，参加测试。为了进行比较，我们选择了Android应用程序市场中的两个免费手语应用程序[34，35]加入测试。我们首先向学生介绍了每个应用程序的使用方法和主要功能。每位学生被允许自由使用该软件10分钟，之后他们根据以下五个方面对应用程序进行评级：学习内容的可理解性，学习反馈，学习兴趣，互动体验和系统稳定性。图11显示了与其他两个实验应用程序相比的用户体验的统计图。图中各指标数据为统计后的平均值。每项评分为0 - 5分。项目得分越高，用户体验越好。从图中可以看出，与前两个系统相比，本文提出的系统为用户提供了反馈，促进了更高效的学习。同时，由于我们的系统具有交互式体验，用户感觉更投入。图11用户体验比较。虚拟现实智能硬件2021年第3258与此同时，学生普遍认为该系统可以有效地提高学习效果，使学习手语的过程更加有趣，而不是像阅读书籍那样缺乏吸引力的学习方法。但有一个缺点是，操作有点繁琐，整个过程有时需要比参考书籍更多的时间。5讨论我们开发了一个基于智能手机的具有不同学习模式的中国手语教学系统。该教学系统集成了最新的手语技术，实现了手语识别和质量评估的准确和有效的结果。开发的系统可以帮助用户随时随地通过智能手机学习手语，减少聋人和听力正常者之间的沟通障碍。该系统也可以应用于类似的教学场景，如交通警察的手势。这个系统还有一些可以改进的地方。我们将继续改进功能和交互，使系统不仅可以用于学习孤立的单词，还可以用于学习连续的手语。此外，我们使用识别概率作为手语评估的基础。在今后的研究中可探讨其他评估方法。我们希望将这款APP应用于公益事业，改善残疾人的学习和生活。竞合利益我们声明我们没有利益冲突。引用1龚C，宾C，雷Z.中国残疾预防与对策研究。Procedia-Social and Behavioral Sciences，2010，2（5）：6906DOI：10.1016/j.sbspro.2010.05.0412卢·W中国大学手语教学的研究与建议。长春大学学报，20143Leo M，Medioni G，Trivedi M，Kanade T，Farinella G M.辅助技术的计算机视觉。计算机视觉与图像理解，2017，154：1DOI：10.1016/j.cviu.2016.09.0014李耀辉，梅迪奥尼G.基于RGB-D摄像头的可穿戴式导航系统，适用于视障人士。计算机视觉与图像理解，2016，149：3DOI：10.1016/j.cviu.2016.03.0195[10]杨文，李文. BBeep：为盲人旅行者和附近行人设计的声波防撞系统。在：2019年CHI计算机系统人为因素会议的会议记录。格拉斯哥苏格兰英国，纽约，纽约，美国，ACM，2019，1DOI：10.1145/3290605.33002826曾建华，孙永荣，王芳.一种用于智能人机交互和医疗辅助的自然手势系统。2012年第三届全球智能系统大会。武汉，中国，IEEE，2012，382-385 DOI：10.1109/gcis.2012.607放大图片作者：Morris T.衡量练习的质量。在：2016年第38届IEEE医学和生物学工程学会（EMBC）国际年会。奥兰多，佛罗里达州，美国，IEEE，2016，2241-2244 DOI：10.1109/embc.2016.75911758冯文国，刘荣，朱梅.基于视觉的家庭监控环境中老年人护理的跌倒检测单目照相机信号、图像与视频处理，2014，8（6）：1129DOI：10.1007/s11760-014-0645-4259Yanxiao ZHANG et al：用智能手机教授中国手语9作者：Martin N，Piciarelli C，Micheloni C.一个有监督的极端学习委员会，用于食品识别。计算机视觉与图像理解，2016，148：67DOI：10.1016/j.cviu.2016.01.01210Zhang S.基于Kinect的手语教学系统设计研究。华东师范大学201411佐川H，竹内M.使用手语识别和生成的日语手语教学系统。第十届ACM多媒体国际会议-MULTIMEDIA '02。Juan-les-Pins，France，New York，ACM Press，2002，137DOI：10.1145/641007.64103512放大图片作者：Phan H D. MIC，一个互动手语教学系统。第30届澳大利亚计算机与人类交互会议论文集。墨尔本澳大利亚，纽约，纽约州，美国，ACM，2018，544-547 DOI：10.1145/3292147.329223713IEEE模式分析与机器智能汇刊。IEEE模式分析与机器智能学报，2004，26（5）：0_1DOI：10.1109/tpami.2004.127391014姜晓文，萨塔帕提，杨丽霞，王世华，张永东.人工智能在中国手语识别中的应用综述。阿拉伯科学与工程杂志，2020，45（12）：9859-9894DOI：10.1007/s13369-020-04758-215张晓刚，张晓刚.使用卷积神经网络进行手语识别。欧洲计算机视觉会议。Springer，Cham，2014，572DOI：10.1007/978-3-319-16178-5_4016Köpüklü O，Köse N，Rigoll G.运动融合帧：手势识别的数据级融合策略。2018年IEEE/CVF计算机视觉和模式识别研讨会（CVPRW）。盐湖城，UT，美国，IEEE，2018，2184DOI：10.1109/cvprw.2018.0028417IEEE模式分析与机器智能信息汇刊。IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37（6）：C3DOI：10.1109/tpami.2015.242775318李永南，苗清国，田克，范永永，徐新，李荣，宋建芳。基于C3 D模型融合RGB-D数据的大规模手势识别。2016年第23届模式识别国际会议（ICPR）坎昆，墨西哥，IEEE，2016年，25DOI：10.1109/icpr.2016.789960219李永南，苗清国，田克，范永永，徐新，李荣，宋建芳。基于显著性理论和C3 D模型融合RGB-D数据的大规模手势识别。IEEE Transactions on Circuits and Systems for Video Technology，2018，28（10）：2956-2964DOI：10.1109/tcsvt.2017.274950920Huang J，Zhou W G，Li H Q，Li W P. Attention-based 3D-CNN for large-vocabulary sign language recognition. IEEETransactions on Circuits and Systems for Video Technology，2019，29（9）：2822DOI：10.1109/tcsvt.2018.287074021放大图片作者：Hussain Z.基于时间分类的手语识别。201722柴晓杰，刘志平，尹芳，刘智，陈晓琳.大规模连续手势识别的双流递归神经网络。2016年第23届模式识别国际会议（ICPR）坎昆，墨西哥，IEEE，2016，31–36DOI：10.1109/icpr.2016.789960323Bantupalli K，Xie Y.使用深度学习和计算机视觉的美国手语识别。2018 IEEE International Conference on Big Data（大数据）西雅图，WA，美国，IEEE，2018，4896-4899 DOI：10.1109/bigdata.2018.862214124廖永勤，熊平伟，闵文德，闵文清，陆建华.基于BLSTM-3D残差网络的视频序列动态手语识别。IEEE Access，2019，7：38044DOI：10.1109/access.2019.2904749虚拟现实智能硬件2021年第326025中华人民共和国国家质量监督检验检疫总局。基本的中国手语手势。中国标准出版社，2009年26闵毅，柴翔，赵丽，陈翔. FlickerNet：从稀疏点云进行自适应3D手势识别。英国机器视觉会议。2019年，10527孙英，郑丽，杨英，田勤，王松。超越部分模型：使用细化的部分池（和强大的卷积基线）进行人员检索。欧洲计算机视觉会议论文集。2018年，第480DOI：10.1007/978-3-030-01225-0_3028SunY F，Zheng L，Yang Y，Tian Q，Wang S J. Beyond part models：person retrieval with refined part pooling（anda strong convolutional baseline）.计算机视觉-ECCV 2018，2018，480DOI：10.1007/978-3-030-01225-0_3029[10]李文，李文.使用深度和骨骼数据集的3D手势识别：SHREC'17跟踪。3Dor '17：3D对象检索研讨会论文集。2017，33-38 DOI：10.2312/3dor.2017104930闵永春，张永霞，柴晓娟，陈晓琳。一个高效的PointLSTM，用于基于点云的手势识别。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR）美国华盛顿州西雅图，IEEE，2020，5760DOI：10.1109/cvpr42600.2020.0058031De Smedt Q，Wannous H，Vandeborre J P.基于以太网的动态手势识别。2016年IEEE计算机视觉和模式识别研讨会（CVPRW）。拉斯维加斯，NV，美国，IEEE，2016，1206-1214 DOI：10.1109/cvprw.2016.15332侯继新，王国健，陈晓华，薛建华，朱荣，杨海中.时空注意力res-TCN用于基于手势的动态手势识别。计算机视觉-ECCV 2018研讨会，2019DOI：10.1007/978-3-030-11024-6_1833彭伟，洪晓萍，陈海艳，赵桂英.学习图卷积网络用于通过神经搜索的基于机器人的人类动作识别。AAAI人工智能会议论文集，2020，34（3）：2669-2676 DOI：10.1609/aaai.v34i03.565234陈燕霞，赵玲，彭翔，袁建斌，梅塔克萨斯.基于时空注意力的手势识别动态图的构建. 201935罗依爱手语（版本1.3.5）.202036长沙金博信息技术有限公司Ltd. Keenbow Sign Language（版本1.4）。2020

下载后可阅读完整内容，剩余1页未读，立即下载