使用SURF、SVM和CNN的印度手语识别系统

155 浏览量更新于2023-12-06 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列14（2022）100141使用SURF与SVM和CNN的印度手语识别系统Shagun Katocha，Varsha Singhb，*，Uma Shanker Tiwary ba印度哈米尔普尔国家技术研究所计算机科学b印度信息技术学院信息技术系，印度A R T I C L EI N FO保留字：手势识别印度手语（ISL）视觉词袋（BOVW）SURF功能SVMCNNPyttsX 3Google语音APIA B S T R A C T手势是人与人之间交流的一种有效形式，有许多可能的应用。作为一种自然的互动方式，它们通常被世界各地的语言障碍者用于交流目的。事实上，印度人口中约有1%属于这一类。这就是为什么它会对这些人产生巨大的有益影响的关键原因，纳入一个框架，将理解印度手语。在本文中，我们提出了一种技术，使用视觉词袋模型（BOVW），以识别印度手语字母（A-Z）和数字（0-9）在现场视频流，并输出预测的标签的文本和语音的形式。分割是基于肤色以及背景减法。从图像中提取SURF（加速鲁棒特征）特征，并生成直方图以映射具有相应标签的标志。支持向量机（SVM）和卷积神经网络（CNN）用于分类。一个交互式的图形用户界面（GUI）也被开发，以方便访问。1. 介绍沟通在人类生活中一直扮演着至关重要的角色。与他人互动和表达自己的能力是人类的基本需求。然而，基于我们的成长，教育，社会等，我们的观点和我们与他人沟通的方式可以在很大程度上不同于我们周围的人除此之外，确保我们以我们想要的方式被理解，起着非常重要的作用。尽管如此，正常的人类在相互交流方面并没有太大的困难，并且可以通过语音、手势、肢体语言、阅读、写作来轻松表达自己，其中语音被广泛使用。然而，受语言障碍影响的人只依靠手语，这使得他们更难与大多数人沟通。这意味着需要手语识别器，它可以识别手语并将其转换为口头或书面语言，反之亦然。然而，这样的标识符是有限的、昂贵的并且使用起来麻烦。现在，来自不同国家的研究人员正在研究这些手语识别器，这是自动手语识别系统发展的主要原因。尽管印度是一个多元化的国家，居住在这里的世界其他国家[1延迟的标准化可以归因于这方面的证据。印度手语研究始于1978年。但由于没有标准类型的国际学习语言，其使用仅限于短期课程。此外，大多数聋人学校使用的手势彼此之间差异很大，近5%的聋人参加了这些学校。2003年，ISL标准化并引起了研究人员的注意[4]。印度手语（ISL）涉及静态和动态符号，单手和双手符号，在印度的不同地区，有许多符号用于相同的字母表。因此，很难推行这项计划。此外，没有标准数据集可用。这些都体现了印度手语的复杂性最近，研究人员开始探索这一领域。手语识别主要有两种不同的方法：基于传感器的方法和基于视觉的方法[5]。基于传感器的方法使用手套或其他仪器来识别手指手势并将其转换为等效的电信号以进行符号确定，而网络摄像头用于在基于视觉的方法中捕获视频或图像。由于其没有专门的硬件要求，基于视觉的手势识别提供了自发的优势，并受到签名者的青睐[6]。然而，手部分割是在复杂的背景下进行的，它在身份识别中起着重要的作用。因此，可以克服这个问题的框架是* 通讯作者。电子邮件地址：varshagaur@gmail.com（V.Singh）。https://doi.org/10.1016/j.array.2022.100141接收日期：2021年9月11日;接收日期：2022年1月10日;接受日期：2022年3月29日2022年4月14日在线提供2590-0056/© 2022由Elsevier Inc.发布这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.sciencedirect.com/journal/arrayS. Katoch等人阵列14（2022）1001412建议道。Fig. 1. 拟议方法的流程图。并且被发现优于基于缩合Al-的方法机器学习和深度学习技术的进步为有效、准确、廉价地识别印度手语字母提供了新的方法和算法。这些模型的端到端自动运行克服了传统方法高度主观和不一致的局限性，提高了结果的准确性和效率。在这项工作中，作者提出了一种方法来建立一个大型的，分类和强大的实时字母（A-Z）和数字（0-9）识别系统的印度手语。作者没有使用手套或Kinect等高端技术，而是从图像（通过网络摄像头访问）中识别标志。本文还对所得结果的精度进行了讨论。实时、准确、高效地对手语进行识别是弥补残疾人与听障或言语障碍者之间沟通障碍的重要手段。2. 相关作品根据手语和手势的性质，不同的作者采用了不同的方法。J. Singha等人[7]提出了一种实时识别方法，其中使用Eigen值加权欧几里得距离对符号进行分类。P. Kishore等人[8]提出了一种系统，通过使用人工神经网络（ANN）从边界边缘图中找到活动轮廓来对标志进行分类。另一种方法使用具有LBP函数的Viola Jones算法在实时环境中进行手势识别[9]。它的优点是需要较少的处理能力来检测移动。分割是手工处理中最主要和最重要的步骤之一，一般来说，Otsu算法的准确率相当高[ 10 ]。在尝试[11]中，使用移动块距离参数化方法跳过初始化和分割步骤。使用了高精度的静态符号和33个基本字单元这些工作大多基于模式识别、特征提取等[12]。然而，在大多数情况下，一个单一功能的系统是不够的。因此，引入混合方法来解决这个问题。例如，A. Nandy等人。[13]使用K-最近邻（KNN）和欧几里得距离的混合方法从定向直方图特征中对手势进行分类。这种方法的局限性是在类似手势的情况下性能不佳。K Manjushree等人。[14]使用单手符号分类与定向梯度和特征匹配的直方图。S. Kanade等人。[15]使用PCA特征和SVM设计了一个具有自定义数据集的系统，并获得了良好的准确性。A. Sahoo [16]提出了单手和双手字符符号的ISL识别。吉塔M等人。[17]使用B样条近似来匹配ISL字母数字的静态手势的形状&。在参考文献[18]中，提出了一种使用神经模糊方法和自然语言处理（NLP）技术对单词符号进行分类以显示最终单词的方法。 Q. Chen等人[19]提出了一种方法来识别手势使用haar类特征和AdaBoost算法。他们还描述了随机上下文无关语法，以完全识别手势。PCA与局部坐标系相结合，计算精度高租m [20]。然而，对于实时系统，研究人员需要一种更快的方法来解决这个问题。深度学习技术的进步使得使用各种图像识别模型的图像识别自动化成为可能。例如，卷积神经网络近年来在深度学习领域取得了长足的进步[21，22]。G. Jayadeep等人[23]使用CNN（卷积神经网络）提取图像特征，LSTM（长短期记忆）对这些手势进行分类并将其转换为文本。斌等[24]提出了InceptionV3模型，使用深度传感器来识别静态标志。该方法省去了手势分割和特征提取的步骤在参考文献[25]中，VivekBheda等人提出了一种使用随机梯度下降的小批量监督学习方法的方法，使用深度卷积神经网络对每个数字（0-9）和美国手语字母的图像进行分类研究这些工作，作者的动机是创建一个自定义数据集和一个算法，该算法将完全在该数据集上工作，而不会影响视频检测的准确性。我们决定使用SURF特征，因为它可以减少测量时间并使系统对旋转不变性。本文作者还解决了背景依赖性问题，使系统可以在任何地方使用，而不仅仅是在受控环境中。3. 拟议工作手语识别需要高效和强大的数据来设计一个高度准确的系统，这将有助于实时用户。在这里，作者使用定制的数据集来解决符号检测和分类问题。手语识别的数据流在不同的阶段，即数据集，图像采集，数据预处理，特征提取，标志分类如图所示。1.一、3.1. 数据集集合它是所有领域研究工作中非常重要的一部分，因为它是促进任何机器或深度学习模型开发的基础。然而，它充满了挑战。在数据收集过程中，我们面临的最大挑战是没有可用的印度手语标准数据集。因此，作为该项目的一部分，我们试图手动构建一个数据集，以帮助我们克服这个问题。首先，我们使用网络摄像头拍摄了视频，其中考虑了各种迹象。考虑了来自3个人的26个不同的字母（A-Z）和10个数字符号（0-9）。为了提高图像质量和消除背景噪声，相机是非常关键的。为了在数据集中添加变化，使用两个选项来捕获图像。第一种是默认方法，它在图像上执行皮肤分割，可用于纯色背景。在第二种方法中，我们使用了移动平均值的概念，其中一些初始帧被认为是背景，而初始帧之后的任何新对象被认为是前景，S. Katoch等人阵列14（2022）1001413图二. 岛的迹象。图三. 预处理步骤。从而使提取过程更容易。该数据集是通过考虑这两种方法创建的，以便模型在不同的场景中表现良好。从现场视频中获得的标志被转换成帧，见图4。 SURF特征提取。其进一步使用PI× EL值阈值来提取。所产生的帧具有250*250的分辨率，使得预处理所需的计算能力更少。每个标志文件夹包含每个标志的大约1000个图像。因此，两种图像采集方法的数据集中图像总数为36，000。这些手势包括单手和双手的使用。图像以不同的旋转方式捕获，并以灰度格式存储。jpg扩展名。数据集图像可以在图中看到。 2（见图） 3）。3.2. 预处理在此阶段，图像已准备好进行特征检测和提取。为了保持比例的一致性，所有图像的尺寸保持相同。在默认选项中，捕获的视频帧被转换为HSV颜色空间，用于使用普通背景采集的图像。由于皮肤的色调与背景的色调不同，因此很容易提取。然后将实验阈值应用于计算色调并从图像中过滤出皮肤颜色像素的帧。此外，对图像进行二值化，进行模糊以去除噪声，并且从假设具有最大面积的轮廓表示手的结果中获得最大轮廓。通过应用中值滤波和形态学操作进一步去除误差。在用于具有运行背景的图像的第二种方法中，前30帧被认为是背景，并且对于剩余帧，计算这30帧的相加和与新帧之间的绝对差，这给出了当前帧的前景区域。首先将图像转换为灰度，然后应用高斯滤波器。对于手部分割，通过提取前景中的最大连通区域来创建掩模，假设其为手部。通过应用腐蚀和膨胀等形态学操作进一步去除噪声。在此之后，使用canny函数，其中每个像素Xel的梯度计算图像的边缘强度和方向。与原始图像相比，这导致了强度的偏移，并且容易检测到边缘。来自两个选项的预处理图像被混洗以在数据集中添加变化3.3. 特征提取该阶段涉及构建视觉词袋（Bag of Visual Words，BOVW），其包括特征提取、特征聚类、用于模型的码本构造以及直方图的生成。视觉词袋（BOVW）是一种广泛使用的图像分类模型，其定义来自数据检索和NLP在这种情况下，我们计算每个单词在文本中出现的次数，使用每个单词的频率来获得关键字，并从中产生频率直方图。这种想法的变化是，而不是单词，我们使用图像特征作为单词。构建一个词汇表，S. Katoch等人阵列14（2022）1001414图五. CNN架构。表1类明智的准确性表。标签SVMCNN标签SVMCNN标签SVMCNN（%）（%）（%）（%）（%）（%）0100100C100100O9999199100D100100P100100298100E9697Q10010039698F95100R98984100100G98100S100100510099H100100不991006100100我98100U991007100100J100100V100100898100K100100W99100998100L99100X10099一100100M10099Y99100B100100N99100Z100100见图6。 CNN的准确度图见图7。 CNN的损失图表2准确度表。SVM CNN99.17% 99.64%表3性能指标表。测量SVM CNN精密度99.09 99.57召回99.02 99.57F1得分99.09 99.57S. Katoch等人阵列14（2022）1001415×其中Di=dj，jε1，根据等式（3）完成对最接近的视觉词的描述符。w（d）=argminDist（w，d）（ 3）其中w（di）描绘了分配给第i个描述符的视觉词，并且Dist（w，di）表示视觉词w和描述符di之间的距离。最后一步是生成所有图像的直方图，这是通过计算图像中每个视觉单词的出现频率来完成的。直方图中的箱的计数等于字典中的视觉单词的总数，即k，并且由等式（4）表示。C（Di）{⃒ .）的方式（四）见图8。系统GUI。图像表示为所获得的特征的频率直方图，使用图像描述符和关键点。稍后，另一个可比图像的类别可以从该频率直方图预测。如前所述，构建视觉词袋（BOVW）的第一步是从数据集中的每个图像中提取描述符。描述符是用于在执行中使用的每个兴趣点的64成员向量，其定义兴趣点的邻域内的强度材料的分布。SURF（Speeded UpRobust Features）[27]使用的是局部特征检测器和描述符。我们使用SURF，因为它们对旋转，方差，视点遮挡是鲁棒的，并为操作员提供了快速计算的BOX图像被表示为由SURF给出的一组图像描述符，如等式（1）。Im={d1，d2，d3，其中di是指针的颜色、形状等。并且n表示总的图像描述符。图4示出了当表示符号A的二进制图像被传递到SURF时所提取的SURF特征。特征提取的下一步是对应用SURF后获得的所有特征进行聚类。这样做是为了将相似的特征分组，以便可以使用核心并将它们聚类为字典的视觉关键字。可以使用K-means算法进行聚类，但由于数据量很大，我们使用了小批量K-means。它与K-means相当，但在处理时间和内存使用方面更好。它一次利用小的随机批量的固定大小的数据，从而减少了同时在内存中存储所有数据的需要。在每次迭代中从数据集中获得一个新的随机样本，并用于更新聚类，重复直到收敛。为此，我们将k值设为180。对于码本生成，得到的聚类中心（即，质心）被视为我们的码向量。码本用于量化特征，其中它将特征向量作为输入并将其映射到最近的码向量的索引。词汇的结构可以用发送为：v={w1，w2，w3，其中k是簇的总数，即，一百八十每个映射这里，Di是对应于图像中的特定视觉词wi的所有描述符的集合，并且C（Di）是表示集合Di中的元素的计数的基数。对于图像中的每个视觉单词，重复这一过程以获得最终直方图，然后将其与其各自的标签一起传递给分类器3.4. 分类一旦特征检测和提取过程完成，我们就进入分类阶段。它涉及使用支持向量机（SVM）和卷积神经网络（CNN）进行分类。3.4.1. 支持向量机支持向量机（SVM）是一种有监督的模型，可以解决分类和回归问题的线性和非线性问题。它基于为决策指定边界的决策平面的思想进行操作。对于这种分类，我们使用了具有线性内核的SVM。我们已经通过视觉词的直方图的支持向量机作为特征向量的分类和识别的ISL标志。训练总共使用了28，800张图像。在训练完成之后，在总共具有7236个图像的测试集上检查分类器的性能，并且在诸如准确度、精确度、召回率等的各种参数上评估其性能。3.4.2. 卷积神经网络CNN是受人脑视觉皮层启发的功能提取模型。CNN逐块比较图像，其中过滤器映射在图像的局部补丁上滑动。这样的片段被称为fea- tures，它们通过在相同的位置找到相同的特征来比较两个图像。CNN比其他神经网络有更好的图像识别和分类我们的通用架构是一个相当常见的CNN架构，由多个卷积层和密集层组成。每个CNN有3层深度。该架构从一组2个卷积层开始，这些卷积层具有32个滤波器，窗口大小为3 3，然后是max-池层和丢弃层。然后是另一组2个卷积层，64个过滤器，最大池化层和dropout层。此外，还有另外2个卷积层，其中有64个滤波器和一个最大池化层，最后是一个完全连接的隐藏层，其中有512个ReLU激活函数的神经元和softmax激活函数的输出层。第一个卷积层采用大小为（100，100）的输入图像，而最终输出层由对应于ISL符号的每个类别的36个神经元组成。其架构图如图1所示。五、3.5. 输出符号作为数字向量返回的预测类标签由系统以文本和语音的形式自动翻译=wiS. Katoch等人阵列14（2022）1001416图第九章建议系统的快照。这样做是为了向用户提供更好的沟通和便利。一旦标签被分类器识别，它就被传递给字典作为键，字典返回相应的符号作为值。然后将其显示给用户。对于文本到语音转换，使用python文本到语音模块，PyttsX3。由于它使帧以非常慢的速率处理，从而导致实时视频流中的延迟，因此执行线程处理。因此，可以同时实现符号的预测和文本到语音的翻译。这确保了声音连续播放，没有任何干扰。3.6. 反向识别在手语识别系统为语言障碍者和听力正常者提供双重交流模式[28]。我们已经在我们的系统中实现了这种通信模式。这里，文本（英文字母）作为用户以语音形式的输入给出，其中它被映射到标签上，并且相应的符号（存储在数据库中的图像）按顺序显示给用户。语音识别是使用GoogleSpeech API完成的。4. 实验及结果数据集分为两个集合。训练集由总数据的80%组成，剩余的20%用作测试手段。两种分类器（SVM和CNN）都对图像给出了很高的准确性，但S. Katoch等人阵列14（2022）1001417=1=表4见图10。实时测试总的观察结果是积极的。召回率是正确预测的阳性标签与标签总数的比率。对照表。使用的数据集模型精度单手数据集SVM+ HOG特征97.1%正，而F1分数是精确度和召回率的加权平均值。结果见表3。精度= TP单手+双手数据集与变化支持向量机99.17%CNN 99.64%TP+FP回忆= TPCNN的表现更好，功能更少。该系统被训练识别36个符号（26个字母和10个数字）。目前的结果是有希望的，记住，很少有改进可以提供更好的结果。4.1. SVM性能SVM在测试数据上给出了99.14%的准确率。对字母和数字分类的查准率和查全率的计算结果表明，支持向量机分类的总体准确率为99%。类的准确性可以在表1中看到。4.2. CNN性能使用CNN，我们在最后一个epoch的训练集上观察到94%的整体准确率，而测试准确率大于99%。总epoch为50。我们已经用cetical交叉熵损失函数和softmax函数作为激活函数训练了我们的模型，它在最后一个epoch上给出了0.1748的训练损失和0.0184的测试损失。类的准确性可以在表1中看到。我们实验的准确度曲线如图6所示，而损失曲线如图6所示。第七章4.3. 定量分析4.3.1. 精度准确性是最本质的性能指标，它只是正确预测的观测值与总观测值的比率。就真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）而言，准确度的公式可以写为-准确度TP+TNTP+FP+FN+TN两种分类器的测试准确度的比较在表2中完成。这两个分类器都表现良好的测试数据的准确率大于99%。4.3.2. 性能度量精确度是正确预测的阳性观测值与TP+FNF 评分 2*（召回率 *精度）查全率+查准率4.4. 实时试验为系统设计了交互式GUI（图8）。使用Tkinter的全功能登录和注册系统。用户可以根据使用我们的数据集训练的模型通过点击预测符号按钮来预测符号，或者可以使用创建符号按钮来创建他们的数据库。还提供了语音到符号转换的选项。实时视频测试的屏幕截图如图所示。 9（见图） 10）。在这里，用户被给予两个选项，用于捕获具有普通背景和没有普通背景的标志输入图像。本文提出的基于SURF特征的识别方法具有计算速度快、抗旋转、方向等干扰能力强等优点，是一种与用户无关的模型，在保持摄像机静止的条件下，也能解决背景依赖性问题。然而，在简单的背景下，它可以自由使用。以前的作品要么使用简单的背景，要么在某些受控环境下使用复杂的背景。对于大多数模型，识别准确率接近0.94。然而，报告的大多数体征使用单手或简单的手部运动[29]。我们的模型能够识别双手手势，并将视觉信息机器翻译成文本或语音，准确率高达99%。这是通过帮助研究人员在标准数据集上使用这种方法来消除一些缺点的基本步骤。与Ref相比[14]，其中SVM和HOG特征用于建立了一个仅用单手手势数据的手语识别系统在这里，我们使用了单手和双手自定义数据集，有两种不同的数据收集方式。在使用SVM和CNN进行训练时，我们的模型在表4中的准确性方面表现得更好。5. 结论和今后的工作提出了一种基于SVM和CNN的印度手语符号（A-Z）和（0S. Katoch等人阵列14（2022）1001418我们工作的主要目标是提供一个更实时的识别工具，使系统可以在任何地方使用。它是通过构造一个自定义的数据集，使系统旋转不变，并解决背景依赖性问题。该系统成功地训练了所有36个ISL静态字母和数字，准确率为99%。未来，数据集可以通过添加更多来自不同国家不同语言的标志来扩展，从而实现更有效的实时应用框架。该方法可以扩展为形成简单的单词和表达式的连续和孤立的识别任务。真正的实时应用程序的秘诀是提高响应时间。信用作者声明Shagun Katoch：方法论，软件，调查，数据处理，写作VarshaSingh：概念化，可视化，验证，形式分析，资源，项目管理，写作-审查和编辑。Uma Shanker Tiwary：监督竞合利益作者声明，他们没有已知的可能影响本文所报告工作引用[1] 班图帕利·克什蒂杰，谢英。使用机器学习和计算机视觉的美国手语识别。计算机科学硕士论文2019;21。[2] Shadman Shahriar，Ashraf Siddiquee，Tanveerul Islam，Abesh Ghosh，RajatChakraborty，Asir Intisar Khan，Celia Shahnaz and Shaanxi Anowarul Fattah.使用卷积神经网络和深度学习进行皮肤分割和图像类别分类的实时美国手语识别。在TENCON，IEEE区域10国际会议。[3] Shivashankara S，Srinath S.对识别美国手语的各种技术和结果的比较研究：综述。在：国际科学研究工程技术杂志&（IJSRET）; 2017年。ISSN2278 -0882。6 （9）.[4] ViswanathanDaleesha M，Idicula Sumam Mary. 印度手语识别的最新发展：分析。 Int J Comput Sci Inf Technol 2015;6（1）：289-93.[5] NairAnuja V， Bindu V. 印度手语识别研究综述 Int J ComputAppl 2013;73（22）.[6] 张文辉，王文辉，王文辉. 一个签名者独立的手语识别与协同发音消除从现场视频：印度的情况。 J King Saud UnivComput Inf Sci 2022;34（3）：771-8.[7] SinghaJ，Das K.视频直播中的印度手语识别。Int J ComputAppl 2013;70（19）：17-22.[8] Kishore PVV，Kumar DA.光流手跟踪和主动轮廓手形特征用于人工神经网络连续手语识别。在：IEEE第六届国际会议先进计算; 2016年。[9] Swamy Shanmukha，Chethan MP，Gatwadi Mahantesh.印度手语翻译与android实现。Int J Comput Appl 2014：975-8887.[10] Agrawal SC，Jalal AS，Bhatnagar C，Istanbul.基于特征融合的印度手语识别。2012年。[11] Aviles-ArriagaHH，Sucar-Sucar LE，Mendoza-Duran CE，Pineda-Cortes LA.动态朴素贝叶斯分类器与隐马尔可夫模型在手势识别中的比较。J Appl ResTechnol 2011;9：81-102.[12] RokadeYogeshwar I，et al. Jadav Prashant M. 印度手语识别系统。在：国际工程与技术杂志2017年7月。[13] Nandy Anup，Prasad Jay Shankar，Mondal Soumik，Chakraborty Pavan，NandiGoraChand.实时识别孤立的印度手语手势。在：工商管理和信息处理国际会议;2010年。[14] 曼珠什里·K，迪维亚什里。使用HOG和SVM的印度手语手势识别。国际工程与技术研究杂志2019;6（7）。[15] Kanade Sudhir S，Deshpande Padmanabh D.基于SVM分类器的印度手语识别。国际科学研究与发展杂志2018;2（3）。[16] SahooAshok Kumar Kumar Ravulakollu Kiran. 基于视觉的印度手语字符识别。J Theor Appl Inf Technol 2014;67（3）.[17] Geetha M，Manjusha UC. A vision based Recognition of Indian signlanguageAlphabets and Numerals Using B-Spline Appro ximation国际计算机科学与工程杂志（IJCSE）。 2012年。[18] Bhavsar Hemina，Trivedi Jeegar.基于肤色检测框架、Viola-Jones算法、相关系数技术和基于距离神经模糊分类方法。电子，通信和网络的新兴技术趋势2020;1214：235-43。[19] Chen Q，Georganas ND，Petriu EM.使用Haar类特征和随机上下文无关文法的手势识别。IEEE跨仪器测量2008;57（8）：1562-71。https://doi.org/10.1109/TIM.2008.922070网站。[20] Dan L，OhyaJ.从移动摄像机获取的视频序列中识别多人复杂手势的研究。在：RogowitzBE，PappasTN，编辑。人类视觉和电子成像XV，卷。7527; 2010年。[21] Sahoo Ashok K，Mishra Gouri Sankar，Kumar Ravulakollu Kiran.手语识别：最先进的技术。在：ARPN工程与应用科学杂志;2014年。[22] Bachani Shailesh，Di X it Shubham，Chadha Rohin，Bagul教授Avinash。神经网络手语识别国际工程与技术研究杂志（IRJET）2020;7（4）。[23] Jayadeep G，Vishnupriya NV，Venugopal V，Vishnu S，Geetha M. Mudra：基于卷积神经网络的银行印度手语翻译器。在：第四届智能计算和控制系统国际会议（ICICCS），2020; 2020。p. 1228-32.[24] 谢波，何晓艳，李英. 基于卷积神经网络的RGB-D静态手势识别。J Eng2018;2018（16）：1515-20.[25] Vivek Bheda和N.戴安娜·拉德普尔。使用深度卷积网络进行美国手语手势识别。纽约州立大学布法罗分校计算机科学系语言学[26] SivicJ，Zisserman A. Video Google：一种用于视频中对象匹配的文本检索方法。In：null.IEEE; 2003年。p. 1470[27] Bay Herbert等人，SURF：加速了鲁棒特性。在：欧洲计算机视觉会议（ECCV）;2006。[28] Tripathi Kumud，Baranwal Neha，Nandi GC.连续的印度手语手势识别和句子形成。第十一届国际信息处理多会议（IMCIP）; 2015年。[29] 帕特尔·拉维基于图像的印度手语识别综述。在：国际计算机与通信工程创新研究杂志; 2018年。进一步阅读[30] SinghaJ，Das K.基于karhunen-loeve变换的手势识别。在：移动和嵌入式技术国际会议（MECON）; 2013年。p. 365比71[31] Lal Raheja Jagdish，Mishra Abhijit，Chaudhary Ankit.使用SVM的印度手语识别。 2016年，我的世界[32] 我是卡里什马，辛格·贾拉勒·阿南德.印度手语自动识别系统。高级计算会议（IACC）。 IEEE International; 2013.[33] Manikandan K，Patidar Ayush，Walia Pallav，Roy Aneek Barman.手势检测并转换为语音和文本。在：国际会议上的创新和发现在科学，工程和技术（ICIDSET）;2018年。[34] 马里·迪帕里，林卡·尼廷，马里·萨蒂什。基于SVM分类器的印度手语识别。在：通信和信息处理国际会议（ICCIP）的会议记录; 2019年。[35] Ekbote Juhi，Joshi Mahasweta.使用ANN和SVM分类器的印度手语识别。在：信息，嵌入式和通信系统创新国际会议（ICIIECS）; 2017年。[36] 我是CJ，Lijiya. A. Signet：基于深度学习的印度手语识别系统。2019年国际通信与信号处理会议（ICCSP）。[37] Sarkar Alakesh，Kumar Talukdar Anjan，Kumar Sarma Kandarpa.基于CNN的实时印度手语识别系统。在：计算智能和信息学进展国际会议，ICACII：计算智能和信息学进展; 2019年。p. 71比9[38] 作者：Jayaraju M.使用CNN识别印度手语的静态手势。 AIP会议程序2020;2222（30012）。[39] Bhattacharya Abhruchi，Zope Vidya，Kumbhar Kasturi，Borwankar Padmaja，Mendes Ariscia.使用机器学习对手语手势进行分类。国际计算机与通信工程高级研究杂志2019;8（12）。[40] Tolentino Lean Karlo S，Ronnie O，Juan Serfa，Thio-ac August C，PamahoyMariaAbigail B，Forteza Joni Rose R，Garcia Xavier Jet O.使用深度学习的静态手语识别。International Journal of Machine Learning andComputing 2019;9（6）.[41] 李东旭，罗德里格斯·奥帕佐·克里斯蒂安，于欣，李洪东。视频中的单词级深度手语识别：一个新的大规模数据集和方法比较。在：计算机视觉应用冬季会议;2020年。[42] Kishore PVV，Anil Kumar D，Sastry ASCS，Kiran Kumar E. Motionlets与自适应内核匹配用于3D印度手语识别。IEEE Sensor J 2018;（8）.[43] 乔希·加里马，雷努·维格，辛格·苏克温德。基于DCA的印度手语数据集正交矩单峰特征级融合。IET Comput Vis2018;（5）.[44] Mittal Anshul，Kumar Pradeep，Roy Partha Pratim，RamanBalasubramanian，Chaudhuri Bidyut B.一种改进的LSTM模型，用于使用跳跃运动的连续手语识别。 IEEE传感器J 2019;（16）.[45] De Souza Cesar Roberto，Pizzolato Ednaldo Brigante. 使用支持向量机和隐藏条件随机场进行手语识别：从S. Katoch等人阵列14（2022）1001419用手指拼写自然发音的单词。在：第九届国际会议，机器学习和数据挖掘在模式识别，纽约，美国。会议记录; 2013年。p. 84比98[46] GangradeJayesh，Bharti Jyoti，Mulye Jayit. 通过Kinect传感器使用ORB和视觉词袋识别印度手语。IETEJ Res 2020：1-15.[47] Tolentino Lean Karlo S，Ronnie O，Juan Serfa，Thio-ac August C，PamahoyMariaAbigail B，Forteza Joni Rose R，Garcia Xavier Jet O.使用深度学习的静态手语识别。International Journal of Machine Learning andComputing 2019;9（6）.[48] Uchil AP，Jha S，Sudha BG.基于视觉的深度学习方法用于医疗保健中的动态印度手语识别。In：Smys S，Tavares J，Balas V，Iliyasu A，editors. 计算愿景和生物启发计算。 ICCVBIC2019.智能系统与计算进展，第1108卷。Cham：Springer;2020.[49] Bhagat NK，Vishnusai Y，Rathna GN.使用图像处理和深度学习的印度手语手势识别。在：数字图像计算：技术和应用（DICTA）; 2019。p. 一比八澳大利亚珀斯。[50] Dutta KK，Bellary SAS。机器学习技术用于印度手语识别。在：计算机，电气，电子和通信当前趋势国际会议（CTCEEC）; 2017年。p. 333-6 迈索尔[51] Das A，Gawde S，Suratwala K，Kalbande D.在定制处理的静态手势图像上使用深度学习进行手语识别。2018年智慧城市与新兴技术国际会议（ICSCET）。p.一比六孟买

下载后可阅读完整内容，剩余1页未读，立即下载