印度手语识别技术及深度学习方法研究

169 浏览量更新于2023-12-09 收藏 1.75MB PDF 举报

技术部分

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

图形和视觉计算5（2021）200032技术部分对印度手语识别的PrachiSharma，Radhey Shyam Anand印度理工学院，Roorkee，印度ar t i cl e i nf o文章历史记录：2021年2月9日收到收到修订版，2021年6月12日接受，2021年2021年8月4日网上发售保留字：手语识别深度学习Kinect卷积神经网络a b st ra ct深度学习已经在研究人员中流行了很长一段时间，而且新的深度卷积神经网络也经常出现。然而，由于这些网络依赖于优化超参数的调整，因此在这些网络中选择最佳网络是具有挑战性的，这是一项微不足道的任务。这种情况激发了当前的研究，在该研究中，我们对预训练的深度模型进行了系统的评估和统计分析。这是第一次全面分析预训练的深度模型，基于梯度的优化器和静态印度手语识别的优化超参数。还提出了一个三层CNN模型，并从头开始训练在预训练的模型中，ResNet152V2的表现优于其他模型，在ISL数据集的数字识别准确率为96.2%，字母识别准确率为90.8%。我们的研究结果强化了预训练深度模型的假设，即一般来说，经过充分调整的预训练深度网络可以产生比最先进的机器学习技术更多的结果，而无需训练整个模型，而只需训练几个顶层用于ISL识别。本文还分析了学习率、批量大小和动量等超参数的影响。版权所有©2021作者。爱思唯尔有限公司出版这是CC BY-NC-ND下的开放获取文章许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍Human–computer在技术上。HCI适用于每一个行业，无论是医疗保健、教育、空间、信息技术、非必需消费品还是通信服务。手势识别是人机交互的一部分，有着广泛的应用。手语识别（SLR）是一种手势识别应用程序，可帮助计算机和电话中的系统控制，游戏界面，图像缩放，控制机器人和电视等所有这些应用程序都在图像或视频处理上工作，因此需要大量的视觉计算。聋人社区使用手语作为社区内外的沟通方式。它是一种使用面部，身体和手势的视觉语言，不同于日常交流中的口语。将手语转换成语音或文字必须弥合聋人和听力世界之间的差距。手工制作的功能和机器学习（ML）算法的使用已经广泛，✩这篇文章是由C. 桑铎标题中的第一个单词和专有名词只能大写*通讯作者。电子邮件地址：psharma3@ee.iitr.ac.in（P. Sharma），r. ee.iitr.ac.in（R.S.Anand）。https://doi.org/10.1016/j.gvc.2021.20003220世纪70年代的手势识别，特别是单反[2深度学习（DL）很快就用更高效、自动、耗时更少、性能更好的特征提取和分类技术（如卷积神经网络（CNN））取代了手动特征和ML算法[6研究人员还使用多种数据类型，如RGB [6]，深度[10]和骨架[11]进行手势识别。深度是物体与相机或传感器的距离，骨架数据由人体的各种关节位置组成。2014年，微软推出了基于飞行时间原理的KinectV2 [6，12，13]，它计算来自LED或激光的光信号的往返时间，从而指示深度。该相机可以捕获所有三种数据类型，使其在计算机视觉领域很受欢迎。在有关手语识别的文献中，有许多作品使用了上述数据类型和CNN，因此，它们的性能优于最先进的ML技术。Abiyev等人。[14]使用预先训练深度模型InceptionV3 [15]优于手工制作的特征，其手指拼写识别准确率为99.9%，支持向量机（SVM）作为分类器。Wu等人。[16]使用具有RGB，深度和骨架数据的3D-CNN对 ChaLearnLooking At People数据集的手势进行分类，并优于最先进的ML算法，Jaccard指数得分为0.81. Duan等人。[17]使用了一个双流卷积网络，其中包含空间和时间RGB和深度数据，2666-6294/©2021作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表图形与视觉计算期刊首页：www.elsevier.com/locate/gvcP. Sharma和R.S.Anand图形和视觉计算5（2021）2000322−−在ChaLearn孤立的手势数据集上实现了67.3%的准确率，超过了最先进的ML技术。Liao等人[18]使用双向长短期记忆（LSTM）3D CNN残差网络识别两个中国手语数据集的符号，识别准确率为89.8%和86.9%，高于现有方法（如隐马尔可夫模型（HHT），神经网络和动态时间规整）的准确率ML和DL算法[14]的组合使用的工作也在文献中报道，如Koller等人。[19]将GoogLeNet架构[20]与Hacking [16]相结合，以识别连续的手语，并在三个公共手语数据集上提高单词更强大的手势识别系统结合了多个数据流[13，17，21，22]，如RGB，深度和骨架。Liang等人[23]使用3D-CNN有两个子网络：（i）红外线数据和（ii）轮廓数据作为输入，在博物馆数据集的手语视频上达到了89.2%的准确率，在ChaLearn的数据集上达到了92.4%的准确率Ravi等人[24]开发了一个四流CNN模型，使用四个输入-空间和时间RGB和深度数据，并在3D手语数据集上实现了86.7%的准确率。因此，CNN深度学习模型极大地提高了识别系统的性能，无论是单独使用还是与各种ML技术或多种模态结合使用从头开始训练深度模型需要大量时间和良好的图形处理单元（GPU），如果数据集很大，或者对于需要多次运行模型进行优化或分析的应用程序来说，这是不可行的。迁移学习[25-文献包括并使用CNN模型，这些模型已经在公共对象识别数据集ImageNet [28]上训练过，如AlexNet [29]，GoogleNet [20]等等。使用微调技术的迁移学习是一种计算效率高且耗时少的过程，甚至可以在CPU上运行。Liang等人。[23]使用3D-CNN形成了两个模型，一个模型在ChaLearn手势数据集上从头开始训练，在同一数据集上实现了92.4%的准确度，第二个模型在另一个手势数据集上训练，并在ChaLearn手势数据集上进行了微调，比前一个模型的准确度高出96.3%。Abiyev等人。[14]使用InceptionV3提取特征，并使用SVM对手势进行分类，准确率为99.9%，高于在同一数据集上从头开始训练CNN模型时达到的92.1%的准确率。结果表明，迁移学习可以大大提高任何SLR深度模型的性能。研究人员使用不同的传统和深度学习分类技术探索SLR;然而，他们都没有同时分析这些模型与各种优化算法和与之相关的超参数。许多作品在文献中使用固定的模型[30]和超参数[31]或没有关于所使用的超参数和优化器的信息[32]进行评估。因此，根据文献并据我们所知，文献中没有同时评估深层模型、优化器和超参数的综合分析。受这一研究空白的启发，所提出的工作讨论了四个预训练模型的评估结果，五个基于梯度的优化器及其相关的优化超参数，如学习率，批量大小和动量。还提出了一个从头开始训练的三层CNN模型，其性能优于本文中用于ISL识别的其他模型。因此，这种比较分析为选择具有正确优化器及其超参数的合适深度模型提供了见解，以增强模型本文分为几个部分：第一部分介绍了深度学习和迁移学习在SLR中的应用。第2节介绍了使用各种优化器和超参数对CNN深度模型本文中使用的CNN架构、优化超参数和算法分别在第3、4和5第6节讨论了评价指标、数据集及其预处理，以分析第7节中的结果。第8节详细讨论了实验结果，最后第9节给出了结论。2. 拟议的比较分析本节讨论了用于评估深度模型、优化器和超参数的拟议方法。在性能评估之前，首先对深度数据进行深度阈值处理，从数据中提取手。其次，对分割后的手的二值图像进行转换为深度模型添加彩色图像，最后，增加数据以避免过度拟合。根据ImageNet [28]挑战中的性能，从文献中选择了四个预训练模型，即 InceptionV3 、ResNet152V2、InceptionResNetV2和ReXNet101。还设计了一个定制的三层CNN模型，从头开始训练，然后与上面提到的预训练的深度模型进行比较。本文使用了五种基于梯度的优化器：随机梯度下降（SGD），自适应梯度（AdaGrad），自适应增量（AdaDelta），均方根传播（RMSProp）和自适应矩估计（Adam）及其超参数，如学习率，批量大小和动量。这项工作的目的是评估最新的深度模型，优化器和超参数的印度标志。因此，选择公开可用数据集的两个子集，数字和字母，用于综合分析。首先，使用具有9个类的Numerals子集来调整超参数，然后将其应用于Alphabets子集（24个类），以使用在同一数据集的不同子集上调整的超参数来评估子集上的深度模型的性能。评估模型、优化器和超参数的过程遵循下面给出的步骤。步骤1：此步骤使用相对较小的架构-InceptionV 3，通过固定其他超参数和优化器来调整数据集的Numerals步骤2：InceptionV3再次用于调整每个优化器的学习率和动量（SGD），方法是使用步骤1中获得的值固定批量大小并使用Numerals子集。步骤3：此步骤使用从步骤1和2中选择的超级参数设置来评估优化器。选择在数字子集上具有最低损失和最高识别准确度的优化器来进一步评估深度模型第4步：最后，最后一步使用步骤1、2和3中选择的超参数和优化器对数据集的数字和字母进行因此，最后，在ISL数据集的两个子集上给出最高识别性能的CNN模型被认为是最适合于静态ISL识别的应用。3. CNN模型本文中的工作利用了对预训练的深度模型的微调，其中一系列扁平层、密集层和丢弃层（图2）。1）替换这些模型的最后一层，并冻结剩余层以在ISL数据集上训练本节深入讨论了预训练深度模型的架构以及用于印度标志特征提取和分类的三层CNN模型。P. Sharma和R.S.Anand图形和视觉计算5（2021）2000323×−−−−表1预训练深度模型的架构和性能细节模型参数（M）层大小（MB）前1名损失前2名损失[第15话]23.8489221.25.6ResNet152V2 [33]60.415223219.384.49[34]第三十四话55.816421519.94.9[35]第三十五话−−10163819.14.4Fig. 1. 预训练（顶部）和拟议的三层CNN深度模型中的层。3.1. 提出的CNN模型提出了一个定制的三层CNN模型，它由前两个CNN层之后的最大池化层和用于正则化的dropout层组成，以及最后一个CNN层之后的dropout层、平坦层和密集层，如图所示。1.一、该模型从头开始在ISL数据集上进行训练，将其识别性能与利用微调技术进行训练的预训练深度模型进行比较3.2. InceptionV3在inception模型出现之前，增加层数和连接到这些层的神经元数量以使模型突出是改进神经网络的唯一解决方案大型模型存在计算复杂度高、训练数据有限导致的过拟合和梯度变化消失快等问题。Inception模型的第一个版本InceptionV1 [20]试图通过增加模型的宽度而不是深度来解决这些问题，该模型包含多个大小的卷积滤波器，以从图像中获取局部和全局信息。此外，在两个初始化softmax层中的模块防止模型中间的消失梯度问题。因此，InceptionV1的目标是在效率和计算复杂度之间取得平衡，以改进初始模型。与之前的版本相比，InceptionV2 [15（1）将大的卷积分解为较小的卷积;（2）将卷积分解为非对称卷积;（3）扩展滤波器组以使模型更宽，从而减少其表示瓶颈;（4）通过并行池化、卷积然后级联来减小网格大小InceptionV3 [15]与InceptionV2类似，但增加了以下内容：（1）因式分解7 × 7卷积（2）使用RMSProp作为优化器（3）由辅助分类器(4)引入标签平滑正则化以使模型对类不太自信，从而防止过拟合问题。本文选择InceptionV3是因为它的流行性，因为它是2015年ImageNet数据集上图像分类竞赛中错误率最低的亚军。3.3. ResNet152V2He et al. [36]在2015年引入了深度残差神经网络（Resnets），并提出了堆叠残差块而不是普通网络来解决消失梯度问题。代替在涉及线性算子和非线性激活的普通网络中遵循主路径一条捷径，直接将输入激活添加到最后一层在在第二个版本ResNetV2[33]中，作者在2016年在Resnet架构中建立了一个直接路径，用于将信息从输入传播到输出。与ResNetV1不同的是，ResNetV2是一个完整的预激活架构，它在权重层之前采用批归一化（BN）和ReLU层作为预激活。ResNetV2在各种数据集上的性能得到了显着改善，如论文[33]所示，因此，这项工作选择了它的一个变体，ResNet152V2由152层组成，用于印度标志识别的性能3.4. InceptionResNetV2InceptionResNetV2 [34]类似于InceptionV4 [34]，除了剩余连接的额外优势。像inceptions（>30）这样的多层深度网络通常会遇到消失梯度问题。因此，用残差连接替换初始模型中的滤波器级联证明有助于提高模型的收敛速度 Szegedy等人[34]分析了初始网络的两种情况-残差（InceptionResNetV 2）和非残差（InceptionV 4），并报告说InceptionResNetV 2在收敛速度，分类准确性和损失方面略优于InceptionV 4。这是选择InceptionReNetV2进行本工作评估的原因。表1给出了ImageNet数据集上网络架构和性能的详细信息P. Sharma和R.S.Anand图形和视觉计算5（2021）2000324n−−- -3.5. ResNeXt101ResNeXt是resnet的变体之一，在论文[35]中引入，其中聚合一组变换的构建块以相同的拓扑重复这里，“X”代表“下一个”维度称为重复一组聚合变换，即沿着这个新的维度扩展“神经元网络”。当量（1）将这些聚合变换表示为-C5.1. 随机梯度下降SGD [38，39]是一种优化器，可以快速加速收敛到所需目标的过程。SGD不是使用所有训练样本通过普通梯度下降法[40]计算梯度，而是使用训练集中的一小批样本来计算梯度。该过程降低了计算复杂度，而与训练数据的大小无关。计算每个点SGD中的迭代在等式中示出。（2）作为-F（x）=∑i=1Ti（x）（1）1=n·∑i=1θL（x（i），y（i），θt）（2）其中Ti（x）是一个任意函数，它将x投影到一个低维中，然后对其进行变换。ResNeXt 在 ImageNet-2k 验证集上的表现优于其他模型，如InceptionV 3，V4和InceptionResNetV 2，如论文[35]中所实验的。这就是为什么本文使用ResNeXt101用于SLR。4. 超参数网络的超参数控制整个训练过程，有两种类型：模型和优化。模型超参数定义了网络的结构，优化超参数决定了训练过程本文分析了不同预训练深度模型的各种优化超参数。优化超参数-批量大小和学习率将在下面讨论。批量大小：批量大小是每次向网络提供的输入训练样本的数量它决定了资源的利用率和网络的速度。有三种类型的训练：批量，随机和小批量。在批量训练中，整个训练集立即进入训练，即。批量大小等于训练样本的总数。不过，它耗时较少，但占用内存太多，可能会卡住在局部最小值。随机训练每次发送一个训练样本到训练中，即批量大小等于1，非常耗时，但保证达到全局最小值。小批量训练，其中批量大小大于1，收敛速度快，内存需求少，如果选择的批量大小不是太大。提出的工作使用小批量训练来解决批量和随机训练方法的问题。选择用于调整的批量大小的范围是从23（8）到27（128），因为这是文献中最常用的范围学习率：学习率是一个超参数，然后，使用以下更新规则（等式2）更新模型的权重（3））：θt+1=θt−η·g（3）其中θ是可以改变以获得最小损耗的参数。η是决定参数相对于梯度的变化程度的学习率。然而，SGD具有以下问题：（1）当梯度相当小时变得非常慢，（2）在每次迭代时具有梯度相关的更新规则，以及（3）由于噪声梯度而频繁地遵循错误的梯度。优化超参数momentum和NAG的调整解决了上述问题。动量（M）和Nesterov加速梯度（NAG）：由Polyak [42]开发的动量方法[41]通过在每次迭代时考虑先前的梯度来加速梯度下降，从而更新等式中给出的更新规则。（4）及（5）。vt+1=α·vt−η·g（4）θt+1=θt+vt+1（5）其中v是速度项，其确定参数应改变的速度和α是一个衰减超参数，它决定了累积梯度衰减的速度。动量平滑了不必要的梯度振荡，同时达到所需的输出。但是，如果动量值很高，并且在不知不觉中跳过了所需的目标点，则会产生不好的结果。NAG [43动量法与NAG法的区别仅在于梯度部分的计算，而更新规则保持不变。如在Eq。（5）动量法中的梯度计算只考虑了海流参数θ，而NAG中的速度Vt为模型收敛到所需点的速度和精度。对于训练，学习率可以是恒定值应用于θ以计算中间参数θ由方程式（6）以下─如图所示过程，或者它可以使用各种衰减方案自动衰减。这项工作遵循每个模型在整个训练过程中的恒定学习率，根据Shivaprasad等人调查的文献，最常用的范围从1e1到1e5。[37 ]第37段。本文还调整了另外两个超参数，即动量和Nesterov加速度梯度（NAG），这两个超参数在第5.1节中讨论，因为它们属于SGD优化器，帮助其梯度快速准确地达到目标。5. 优化算法本文中使用的基于梯度的优化器将在以下小节中详细讨论：θt=θt+α·vt（6）在梯度计算之后，θm将取代等式中给出的更新规则中的θ。（五）、因此，NAG充当动量法的校正因子。 SGD优化器中使用的动量值为0.0（无动量）、0.5（轻微动量）和0.9（高动量），有和没有NAG，因为它的值范围从0到1。InceptionV3模型在ISL数据集的数字上为SGD优化器调整动量和NAG5.2. 自适应梯度（AdaGrad）SGD优化器使用一个程序化的方案来应用学习率，而不知道数据集AdaGrad算法[46]使用之前的GP. Sharma和R.S.Anand图形和视觉计算5（2021）2000325−[客户端]=−−不12ˆˆ不[]+RMS[ g]t、θt、M迭代来收集数据的几何形状的知识，并以信息丰富的方式将其合并用于基于梯度的学习。在该算法中，如果特征如果特征出现的频率较低，则学习率较高。SGD为所有人进行更新参数更新δθ的指数衰减平均值Eδθ2t等[δθ2]t+θ参数θ，因为对于每个参数θi，学习率η在AdaGrad中，当量（15）也可以写成-RMS[δθ]t−1每个参数θi在每个时间步长或迭代[47]，如从方程观察到的。（7）作为-δθt= −RMS[g]t·gt（16）gti=J（θti）（7）方程（16）现在没有学习率η，AdaGrad其中gt，i是目标函数在时间步长t处的梯度w.r.t参数θi。在每个时间步长处的每个θi的SGD更新规则在等式中给出（8）类似于Eq。（5）作为-θt+1，i=θt，i+η·gt，i（8）然而，在Eq。在公式（8）中，学习率必须在每次迭代时针对每个参数θi进行更新，这是基于AdaGrad优化器为θi因此，Eq. （8）可以写成Eq。（9）−5.4. 均方根传播RMSProp [49]几乎类似于AdaDelta对AdaGrad的第一个问题给出的解决方案，如等式所示。（十四）、AdaDelta和RMSProp这两种算法是由两个不同的研究人员同时独立开发的。GeoffHinton在2012年首次讨论了RMSProp，并指出γ的0.9值（等式1）。（13））和0.001值的学习率η（方程。（14）是最合适的。θt+1，i=θt，i+Gη+·gt，i（九）5.5. 自适应矩估计（Adam）t， ii其中Gt，ii是对角矩阵，其中每个对角元素i， i是直到时间步长t的梯度w.r.tθi的平方和。是平滑项，以防止除以零，通常是1e 8的顺序。由于方程的分母中平方梯度的聚集，学习率在训练过程结束时变得无限小（9）使模型难以学习新知识。另一个名为AdaDelta的优化器解决了这个问题，并在下面的小节中进行了解释。5.3. AdaDelta单调递减的学习率和对人的需求Adam [50]是两个优化算法RMSProp和SGD与动量的组合。它还利用AdaGrad和RMSProp来处理稀疏梯度和在线设置。Adam存储第二原始矩估计，比如vt，类似于RMSProp和AdaDelta，以及第一矩估计，比如mt，类似于动量，因此被称为自适应矩估计。一阶和二阶矩估计[47]是过去和过去的梯度的平方。mt=β1·mt−1+（1−β1）·gt（17）通常选择全局学习率是两个缺点vt=β2·vt−1+（1−β1）·g2（十八）AdaDelta 负责 AdaGrad 优化器。为了解决第一个问题，AdaDelta [48]实现了平方梯度的指数衰减平均值的聚合。下面给出的从（10）到（14）的一系列方程[47]示出了上述聚集的式中给出了δθt形式的SGD更新规则（10）和（11）为-δθt= −η·gt，i（10）θt+1=θt+δθt（11）δθt的值（等式（12）在AdaDelta的情况下，写作-根据Adam当衰减率β1和β2接近零时，学习过程变得更慢。为了解决这个问题，使用偏差校正的估计mt和vt来更新等式2中给出的权重。（19）和（20）。mt=mt/（1−βt）（19）vt=vt/（1−βt）（20）ηδθt= −ΔE[g2]+g·gt（十二）这些偏差校正项现在用于计算亚当更新规则（等式10）。（21））类似于RMSProp和AdaDelta。其中，E[g2]t是过去平方梯度的移动平均值-η（二十一）在每个时间步长t处的ents和电流梯度。它被定义由方程式（13）作为θt+1=θt−v+·E[g2]t=γE[g2]t−1+（1−γ）g2（十三）Kingma和Ba [50]建议使用β1、β2和β 3的默认值。分别为0.9、0.999和10 −8。在这里，γ是一个衰减常数，类似于动量。由方程式式（12）中，Eg2t _（？）是梯度的均方根误差准则.因此，Eq.（12）可以δθt= −·g t（15）不不P. Sharma和R.S.Anand图形和视觉计算5（2021）2000326改写为Eq。（14）如下图所示ηδθt=−RMS[g]t·gt（14）为了解决手动设置全局学习率的第二个问题，等式中的学习率η（14）被替换为6. 数据集描述和预处理本文研究了由Ansari和Harit [51]开发的公共静态ISL数据集，该数据集由140个印度符号组成，包括字母，数字，技术词汇以及与物体，情境，动作和人相关的词汇。该数据集涉及18名用户重复一个特定的印度标志两次，但在18名用户中，P. Sharma和R.S.Anand图形和视觉计算5（2021）2000327- − −=∑召回·精确查全率+查准率F1−分数= 2·（二图二.I S L 数据集中的数字和字母（1 − 9，A − Y，J和Z除外）。图三. 数据集处理如（a）、（b）和（c）所示。数据集增强显示在（d）模糊（概率= 0.1），（e）旋转（概率= 0.5，最大值）。权利和左度数= 25），（f）随机噪声（概率= 0.5）和（g）垂直翻转（概率=0.3）。专注于单个提示-深度，用于手部分割，因此仅考虑来自数据集的深度数据。深度值2047被分配给数据集中的像素，如果它超出了Kinect从深度图像中分割手使用与美国SLR上的论文[10从深度图像中分割手掌和手指的步骤如图所示。四、然后将分割的手的二进制图像转换为彩色图像，并将其输入到预先训练的深度模型中。本文旨在评估静态印度符号的优化器、预训练的深度模型和优化超参数;因此，评估仅使用ISL数据集的两个子集数字（19)字母表（A）Y排除（1）而不是整个数据集。数字（9）和字母（24）的每个类别由大约30个样本深度图像组成，使得数字总共有269个图像，字母总共有716个图像。这两个子集只包括单手印度的迹象，图。图2显示了两个子集的类的一些示例图像。字母表是相当复杂的比数字，因为前者包括许多类似的形状的标志（如图所示）。2）比后者有更多的类。两个子集之间的这些差异有助于对分类模型进行更稳健的评估。深度模型需要许多训练样本来训练已经训练好的模型的顶层，或者从头开始训练。因此，ISL数据集操作的细节，如旋转，模糊，水平翻转和添加随机噪声到ISL数据集的原始图像的数据增强如图所示。3.第三章。7. 评估指标以下各小节描述了用于综合分析的绩效7.1. 准确度、精确度、召回率和F1分数对于平衡数据集上的监督分类问题（本文中的SLR），准确性，假阴性（FN）和假阳性（FP）等指标对于两个或多个模型之间的鲁棒性能比较变得非常重要。这些度量在等式中数学定义（23）和（25）作为-精度TP+ TN，（22）TPT+PTN+FP+FN精度=TP+FP（23）回忆=TP，（24）TP（+FN）旋转的手在一个标准的方向，圆拟合找到手腕点，从左下到右：分为四个象限的图像，增加半径直到它在第三和第四象限中与手部区域相交，手腕点，连接手腕点，并移除前臂。有15个用户在线。 Ansari和Harit使用微软的KinectV2相机在一个统一的背景中捕获了ISL数据集的RGB和深度数据，该背景只允许一个用户在同一时间在帧中。Ansari和Harit也没有限制用户在签名期间佩戴任何可穿戴设备，并假设手是距离相机最近的物体这项工作其中TP =真阳性，TN =真阴性7.2. 分类交叉熵损失交叉熵损失是二进制分类问题的损失，定义在方程中。（26）作为C交叉熵（CE）损失= −ti·logf（si）（26）我其中s是C中每个类i的CNN得分，f（si）表示激活：sigmoid或softmax，t是地面真值。的见图4。手掌和手指分割程序。从左上到右：深度图像，使用深度阈值分割手部区域，高斯模糊以找到具有最大像素密度的点，形成手部区域的轴P. Sharma和R.S.Anand图形和视觉计算5（2021）2000328∑iCsje=（）下一页J−=：−×−−−−- -CVNi=1µ没有动量值-0。五，零。6和NAG，在ISL数据集的Numerals子集上使用InceptionV3不过，通过经验-图五、使用 I n c e p t i o n V 3 模型进行批量数值的性能比较。（a）验证损失演变，和（b）训练时间。两个以上类别的分类使用分类CE损失，其是softmax激活和CE损失的组合。Softmax激活函数在等式中给出（27）作为f（s）esi（27）J其中sj是C中每个类i的得分的净值。这个等式表明，类si的softmax激活取决于s中的所有CNN分数。分类CE 损失可以通过结合6.1 CPU和GPU的计算能力和内存限制分别为268 MB和10 GB。8.1~8.5小节讨论了实验结果，8.6小节将本工作的结果与最先进的方法进行了比较。8.1. 批量的影响本小节通过固定其他超参数（如学习），分析批量大小对InceptionV3在ISL数据集的Numerals子集上的识别性能的影响等式（26）和（27）在方程。（28）分类交叉熵（CCE）损失= −logesp∑Cesj（二十八）速率1e 5与Adam优化器一起使用。实验结果表明，批量大小为8时，对数字子集的识别率最高，为83.8%.这一结果表明，选择较小的批量大小是一个有价值的启发，其中sp是正类的CNN得分，因为标签是独热的，所以目标向量t tp仅表示目标向量的一个非零元素。7.3. 变异系数（CV）CV是一种统计方法，用于计算和比较数据样本在不同数据集中围绕平均值的散布或方差，即使平均值彼此非常不同。本文使用CV来比较深度模型、优化器和超参数的不同组合的性能稳定性，方法是计算它们在整个时期的训练和验证损失演化在数学上，它被写为如下式所示（29）[52]。良好的优化。然而，在整个训练过程中，收敛速度和验证损失值的频繁变化最终损失值，如图所示。五、由于小批量中的噪声梯度，批量8的性能优于其他批量，这防止了模型被困在尖锐的极小化器中，并鼓励其朝着更平坦的极小化器前进[53]。这就是小批量如何帮助模型顺利达到全局最小值后续优化深度模型和调整其他超参数的实验使用批量大小8进行训练过程。8.2. SGD优化器超参数的调整这项工作分析了SGD优化器1∑N=（xi−µ）2学习率范围- 1 e−1 ：1 e−1 ：1e−5，且（二其中，分子是标准差，N=数据样本数，xi=数据集中第i个位置的数据样本，µ=平均值8. 实验详细信息和结果实验将每个扩充组的数字和字母按75%~ 25%的比例分成训练集和验证集。用户的印度标志的样本图像被放置在验证集或训练集中，但不是同时放置在两者中。输入图像综合分析的实验遵循第2节中所解释的步骤，首先，调整批量大小，然后优化模型并调整数字上的超参数，最后，评估优化的深度模型对ISL数据集的数字和字母的识别性能。这项工作不包括模型停止学习任何具有非常高误差值的新知识用于实现综合分析的硬件是Nvidia GeForceGTX 1080Ti，结果表明，SGD与动量和NAG显示出良好的效果对于学习率1e 4和1e 5，当SGD使用动量0. 5而不使用NAG时，在学习率1e3的情况下使用M=0.9的SGD和使用学习率1e 4的NAG也获得了几乎相似的81.8%的识别准确率。图6表明，当SGD仅使用动量和高于1e的学习率时，低于1e 3的学习率会降低模型的性能3站该模型的学习与动量和NAG。对于较低的学习率，动量和NAG通过帮助它通过正确的路径来加速训练过程，从而快速到达收敛点。对于更高的学习率，动量和NAG没有多大帮助，因为高学习率本身加快了收敛过程，但通常是在错误的路径上。这些见解也反映在实验结果中。表2显示了使用SGD（有和没有动量和NAG）的所有学习率的验证集中的指标，如丢失率、召回率、精度、f1分数、CV和错误百分比SGD使用选定的超参数P. Sharma和R.S.Anand图形和视觉计算5（2021）2000329−−- -- -- ：−−-啊：- − −- − −−- -−- -- -图第六章SGD 优化器的学习率，动量和NAG的调整。（a）表2用于调整SGD Optimizer超参数的评估指标1e−3，0.5（×）1e− 5，0.9（）注：LR是学习率，M是动量，N是NAG。8.3. 自适应优化器自适应优化器的比较评估和调整使用InceptionV 3模型，批量大小为8，学习率为-1e11e1 1e5，如第8.2节和数据集的Numerals图图7（a，b）显示了AdaDelta在各种学习率下对ISL数据集的数字的性能结果。学习率1e 1遭受具有频繁起伏的增加的验证损失演变，即，高CVV，因为高学习率试图更快地收敛，并在达到所需的全局最小值之前陷入局部最小值。低学习率1 e4和1 e5收敛非常缓慢，如从图7（a）.实验结果表明，学习率 1e 2比其他学习率值表现更好在AdaGrad中，如果初始梯度很大，则学习率会变低（公式10）。（9）），这使得模型很难学习第5.2节中给出的新知识。根据实验，该模型停止学习与学习率1e1和1e2和学习率1e3实现相对更好的识别性能相比，其他学习率。然而，收敛速度对于所有剩余的学习速率变得太慢，表明没有学习新知识，因此，如从图7（b）所观察到的，它似乎几乎饱和。Adam的实验结果表明，该模型在学习率为1e 1，1e 2和1e 3时停止学习。出学习率1 e4和1 e5、1 e4需要更多时间训练并且具有更频繁的验证丢失变化，即，高CVV如图7（c）所示，比1e5大。因此，学习率1e 5比Adam优化器的其他学习率给出更好的结果。对于RMSProp，模型以学习率1 e 1、1 e 2和1 e 3停止学习，5、性能更好比1e 4类似于亚当的数字子集。RMSProp在不同学习率下的验证损失演化如图所示。 7（d）.因此，基于实验结果，AdaDelta使用学习率1e 2、AdaGrad 1e3、Adam 1e 5和RMSProp 1e 5在下一小节中进一步评估优化器。通常，较低的学习率比较高的学习率表现得更好。在本文中的几乎所有情况下，模型要么停止在1e 3以上的高级学习上工作，要么给出低识别性能，而剩余的学习率则相反然而，在剩下的学习率中，有些学习率在当前应用程序中工作得很好，而有些学习率则不工作的原因是基于试验和错误。8.4. 调优优化器本小节比较了调优的优化器，虽然实验结果表明Adam比其他优化器需要更多的时间来SGD的性能非常接近Adam，并且具有最快的训练过程。AdaDelta、AdaGrad和RMSProp在识别性能方面紧随Adam和SGD之后，RMSProp在Adam之后的训练时间第二长的情况下LR，M（N）列车损失列车用无级变速器（CVT）Val损失确认的CV（CVV）列车接入（%）Val行政费用（%）精度召回f1得分Val误差（%）1e− 2，0.0（×）1e− 4，0.9（）0.120.050.060.200.730.940.330.600.810.570.591.050.240.330.320.2195.998.198.193.377.282.581.865.60.790.830.820.680.770.820.820.660.770.830.820.6622.717.718.234.3P. Sharma和R.S.Anand图形和视觉计算5（2021）20003210图第七章自适应优化器学习率的调整。（a）表3用于调优优化器比较的评估指标优化器列车损失列车用无级变速器（CVT）Val损失验证的CV（CVV）列车接入（%）Val行政费用（%）精度召回f1得分Val误差（%）列车时间（s）SGD0.050.940.570.3398.182.50.830.820.8317.7246AdaGrad0.113.470.761.7596.574.90.760.750.7524.8288AdaDelta0.070.870.810.2497.981.80.820.820.8218.3380RMSProp0.200.441.760.0895.874.00.760.740.7425.8456亚当0.041.070.600.3198.583.80.840.830.8316.4470表4CNN模型的评估指标。深度模型火车CV列车ValCV值火车Val精度召回f1-Val火车损失（CVT）损失（CVV）行政费用（%）行政费用（%）评分误差（%）时间（秒）标记InceptionV30.041.600.600.5098.583.80.840.830.8316.4470ResNet152V20.011.530.210.3599.996.20.960.960.964.1665InceptionResNetV20.022.670.190.3399.594.40.950.940.955.6501ResNeXt1010.020.310.370.3599.491.50.920.920.928.71215CNN0.010.500.011.9399.899.81.001.001.000.2226字母InceptionV30.141.131.210.3295.571.10.720.710.7128.8801ResNet152V20.021.010.580.2299.590.80.910.910.919.21536In

下载后可阅读完整内容，剩余1页未读，立即下载