没有合适的资源?快使用搜索试试~ 我知道了~
阵列16(2022)100251一种改进的基于关键点和手部包围盒的Tuan Linh Danga,Sy Dat Trana,Thuy Hang Nguyena,Suntae Kimb,Nicolas Monetba河内科技大学信息和通信技术学院,1 Dai Co Viet road,Hai Ba Trung district,Hanoi,VietnambAvatar,NAVER CLOVA,Buljeong-ro,Bundang-gu,Seongnam-si,韩国A R T I C L E I N F O保留字:人力资源网手势识别CNN双流水线架构A B S T R A C T手势识别是人机交互中的一个重要问题。手势识别的一种形式是静态手势。本研究开发了一个静态手势识别系统,三个模块:特征提取模块,处理模块和分类模块。特征提取模块使用自顶向下的方法进行人体姿态估计,不仅提取关键点,而且还包括身体和手边界框。在处理模块中,其输出经过归一化和处理后,将被用作分类模块的输入,在分类模块中,我们提出了一种称为双流水线结构的架构。在本模块中,我们还使用不同的方法来找到最适合此任务的方法。实验在三个数据集上进行,分别是HANDS、OUHANDS和SHAPE。结果表明,提出的具有250万个参数的双管道架构在三个数据集上获得了94%,98%和94%的准确率。此外,拥有22万个参数的轻量级版本也实现了91%、94%和96%的准确率。1. 介绍手势识别是计算机视觉的一个中心领域,来发展机器和人类之间的互动。它是非语言交流.手势包括面部运动、手部运动和身体运动。手势识别(HGR)是人类手势识别的一个子领域,专注于人手与机器的交互HGR系统旨在为用户提供方便、快速和节省成本。有了HGR,人类可以毫不费力地只用手或手指操作复杂的机器,而无需长距离的身体接触此外,HGR还有许多其他应用,如手语[1],机器人控制[2]和游戏界面[3]。HGR有两种形式,包括动态手势和静态手势。动态HGR旨在通过视频识别动作,静态HGR试图识别图像中的手势。并不是所有的手势识别问题都需要用动态手势来解决,因为一些手势可以使用静态图像来识别。此外,动态HGR可能不被实现在诸如移动设备之类的资源受限设备中。这就是为什么相机应用程序的大多数效果都使用静态手势的原因。例如,静态手势可以帮助人们控制相机拍照,或者与手机相比,在屏幕上没有任何物理触摸的情况下,在远处听音乐时帮助播放下一首歌。此外,静态HGR可以部署到边缘设备,而不需要GPU或CPU等强大的硬件。另一个展示静态HGR有用性的例子是一个便携式和轻量级的人机界面,可以帮助听力残疾人。 因此,本研究的重点是解决静态HGR任务。在过去的几年里,已经开发了姿态估计,这是一项寻找手[4]、脸[5]、头[6]和整个身体[7]的关节的任务。这些关节可以用足够重要的信息来重现人类的手势或动作。因此,可以使用关节来识别手势。此外,一些研究集中在更轻量级和更高精度的姿态估计版本。因此,在手势识别任务中使用姿态估计来处理数据吸引了许多研究者。我们提出的系统使用姿态估计来处理数据。处理后的数据,关键点,被用作手势识别的不同架构的输入类型。这种方法可以解决以往研究的局限性。姿态估计可以在复杂的背景和恶劣的条件下给出良好的结果,例如不同的光照条件和相机与手之间的距离。从而提高了识别效果.另一方面,用户不需要在身体上佩戴任何传感器或设备。该手稿还提出了一种双管道架构,∗ 通讯作者。电子邮件地址:linhdt@soict.hust.edu.vn(T.L. Dang)。https://doi.org/10.1016/j.array.2022.100251接收日期:2022年2月14日;接收日期:2022年6月30日;接受日期:2022年9月21日2022年9月29日网上发售2590-0056/© 2022作者。爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)的开放获取文章。可在ScienceDirect上获得目录列表阵列期刊主页:www.elsevier.com/locate/array朗格Dang等人阵列16(2022)1002512Fig. 1. 系统概述。手和身体边界框的关键点和图像的特征。实验在三个数据集上进行,[10][11][12][13][14][15][16][17][18][19][1这些数据集包含距离相机很远和很近的手,具有各种背景和照明条件,以研究不同的情况。我们对这份手稿的主要贡献可以列举如下。• 提出了一种双流水线结构,可以学习从图像和关键点组合的特征进行预测。• 在一些数据集上进行实验,以找到解决HGR问题的最佳方法。本文的内容如下。相关工作见第2节。第3节详细介绍了我们提出的架构。实验结果在第4节中展示。最后,第五部分对本文进行了总结。2. 相关工作2.1. 手势识别先前的研究提出了一种使用皮肤检测器的实时手势识别系统[11]。然而,该系统在困难条件下识别人手时可能会遇到困难,例如当背景颜色看起来与肤色相似时。另一项研究还介绍了一种使用多尺度颜色特征的HGR系统。实验结果表明,在颜色空间进行特征检测,提高了系统的性能。该系统以实时方法实现[12]。不过,限制在于,系统只有在没有出现的情况下才能实时使用任何其他肤色的物体的图像此外,分割也被用于两级卷积神经网络(CNN)架构,通过在分类之前学习RGB图像和分割图的特征来提高识别性能在人类遗传资源中[13]。在这种架构中,第一阶段识别包含手的图像区域,第二阶段对手势进行分类。虽然该方法较传统的分割方法有了一定的提高,但准确率仍然不高。其他作者已经将来自点云的视图投影用于HGR [14]。本研究首先使用深度传感器捕获点云。之后,使用CNN架构来提取特征。最后一步是利用支持向量机作为手势识别的分类器。最近,随着智能可穿戴设备的发展,解决这个问题的另一种方法是使用传感器来捕获手部坐标,然后使用机器学习模型来基于从这些坐标转换的机器信号对手势进行分类[15]。然而,这可能不是一种方便的方法,因为许多用户不想在他们的身体上佩戴许多传感器或可穿戴设备。2.2. 背景2.2.1. 人力资源网姿态估计的应用可以在跟踪人类姿态[16]、人类手语识别[1]或人类动作识别[17]中看到。最近,HRNet [18]是在检测人体关键点的姿态估计任务中实现高精度的网络之一。HRNet有三个不同的版本,分别称为HRNetV1,HRNetV2和HRNetV1p [19],分别用于人体姿态估计、语义分割和对象检测。HRNet的特殊之处在于它可以在处理阶段保持高分辨率的表示。通过连接高分辨率到低分辨率的卷积流并在不同分辨率之间重复交换信息,结果在空间上更加准确。COCO数据集上的姿态估计结果表明,HRNet的结果明显优于其他[18]。此外,目标检测是应用HRNet提取关键点之前的姿态估计步骤之一。HRNet的作者在这一步中使用了MMDetection[20]该工具支持流行 的 和 当 代 的 检 测 框 架 , 如 Mask R-CNN , Faster R-CNN 和RetinaNet。2.2.2. MobileNetV2MobileNetV2是一个轻量级的神经网络架构,专为移动和资源受限的环境而设计。这种架构是基于一个倒置的残差结构。此外,在中间膨胀层中存在深度方向的回旋.具有线性瓶颈的反向残差是MobileNetV2的一个值得注意的层,它被认为是在资源受限的设备上开发机器学习应用程序的最流行的架构之一,可以降低内存成本和推理时间,同时仍然保持良好的性能。Mo-bileNetV 2已用于解决诸如面部属性检测[21]、手势识别[22]或掩码检测[23]等问题。2.2.3. 全连接神经网络(FCN)FCN由几个连续的全连接层组成,其中来自该层的所有节点连接到下一层中的所有节点。通常,FCN用于学习卷积层输出的非线性高级特征。与CNN类似,FCN有一个输入层,隐藏层和输出层。一些作者甚至证明了FCN可以转换为具有与使用矩阵乘法的卷积神经网络相同的计算[24]。3. 该方法我们的系统的概述如图所示。该系统由特征提取模块、处理模块和分类模块三个主要模块组成。特征提取模块使用MMDetection [20]来根据数据集的特征检测手或身体边界框。 如果数据集包含全身图像,则提取身体边界框。另一方面,从仅有手的数据集中提取手的边界框。之后,检测到的边界框将被转发到HRNet [18],一个基于CNN的模型,以确定在处理模块中归一化的关键点。此外,对于全身数据集,在处理模块中从最远的关键点到左侧、最远的关键点到右侧、最远的关键点到顶部和最远的关键点到底部评估手部边界框。 在分类模块中识别手势,该分类模块使用关键点和手部边界框作为输入。每个模块的详细信息见第3.1朗格Dang等人阵列16(2022)1002513���∑���图二. 关键点。3.1. 特征提取模块特征提取模块采用MMDetection [20]来解图三. WH手边界框。见图4。 HBB水平堆叠。3.2. 处理模块关键点归一化-所有提取的关键点都归一化为[25]因为人体在不同帧中的比例不同,它们将处于与原始关键点相似的分布中但是取值范围为(-1,1)。首先,关键点的中心被计算为���������������������=∑������在包含整个或上半身人体图像的数据集(WH数据集)上检测整个身体边界框。 另一方面,在数据集上仅检测手部边界框���������������������=���=1������=1(一)与密切的手和没有人体的图像(OH数据集)。提取的边界框与深度高 分 辨 率 网 络 [18] 一 起 使 用 , 特 别 是 输 入 大 小 为 384 × 288 的HRNet_w48,6360万个参数,以确定整个身体上的关键点其中,(,)是所有关键点的中心坐标,���������������������n是使用的关键点的数量。其次,将关键点的坐标(,)归一化为:������������������−���������������������WH数据集和OH数据集上的仅手关键点���=(二)使用来自COCO Whole-body数据集的全身关键点[7],HRNet为我们提供了133个关键点,包括左手的21个关键点,右手的21个关键点,面部的68个关键点,身体的17个关键点和脚的6个关键点。然而,我们提出的系统只使用了42个手部关键点和鼻子上的1个面部关键点提示,因为我们发现其他关键点不会带来有关手势的重要信息。此外,一些数据集上的手势也对脸和手之间的相对位置感兴趣,例如触摸脸颊和触摸头部手势。 因此,我们使用鼻子关键点来确定头部位置,以在具有整个或半个人体数据的大多数HGR任务中推广。这些关键点如图所示 。二、根据OH数据集上的单手或双手,使用21或42个提取的关键点。 图 2说明了这些要点。���������������������������=���其中l是用于将每个坐标的值归一化到范围(− 1,1)的量。对于WH数据集,l计算为Eq. (3)而l被计算为等式(Eq.)。(4)OH数据集。������������������������������������������=+���������(���������(���2,������,���∈{3.. 22}),���������(���23,������,���∈{24..(3)第一章��� =������������������(������������2,������,���∈{3.. 22})),���������(���������(���23,������,���∈{24.. 43})(4)其中���������(������,������)是两个关键点之间的欧几里得距离������还有一个���朗格Dang等人阵列16(2022)1002514表1示出了在上述等式中使用的符号的解释。朗格Dang等人阵列16(2022)1002515表1符号的解释符号说明(,)所有关键点的中心坐标(,)关键点的坐标������������������������������������n关键点数量dis(,)两个关键点和之间的欧氏距离���������������用于将每个坐标的值归一化到范围(− 1,1)的归一化量图五. 经过微调的MobileNetV2。3.3.2. 方法2:全连接神经网络方法(FC)手边界框(BB)- HBB也被用作我们提出的架构的输入。如前所述,使用自顶向下方法进行姿态估计需要边界框作为关键点提取的输入在OH数据集上,所有图像都包含没有身体的人手,因此仅识别HBB以提取手部关键点。HBB的尺寸将保持不变,而不会在四个方面扩大,因为相机和手之间的距离很短。在这种情况下,检测到的另一方面,所有图像 由于WH数据集包含了人体的整体,因此采用人体包围盒来提取人体的关键点。然而,也可以通过使用手上的四个点P1、P2、P3和P4来获得WH数据集的HBB,其中P1是向左最远的点,P2是向右最远的点,P3是顶部最远的点,P4是底部最远的点。在这种情况下,每个数据集的WH手边界框在四个侧面上扩展10%或20%,以限制手的损失部分。一个概述的WH手边界框显示在图。 3.收集的关键点和HBB将用于训练模型为了得到认可3.3. 分类模块3.3.1. 方法1:微调MobileNetV2 + ImageNet预训练方法这种方法只使用HBB图像作为微调MobileNetV2的输入。如果在一个图像中检测到两个手边界框,则这两个边界框将被调整大小为112× 224,然后如图4所示水平堆叠以具有大小224 × 224。否则,如果图像中仅存在一个手部边界框,则将检测到的HBB的大小调整为224× 224。用于训练HBB的MobileNetV2的架构是定制的。两个完全连接的层取代了最后一个分类器模块(Head),将输出单元从前一层减少到256,并从256减少到对应于每个数据集的输出单元的数量最后,增加一个Softmax分类器进行多类分类。在第一个全连接层之后应用dropout层以减少过拟合。此外,该模型通过在三个数据集上微调ImageNet预训练模型来训练所提出的架构如图所示。五、关键点可以包含关于手势的最必要的信息。因此,关键点被馈送到完全连接的神经网络以识别手势。如图6所示,这种方法使用全连接层,第一层中有Sigmoid激活函数因为,根据我们的实验,Sigmoid激活比其他激活提供更好的结果。此外,还增加了丢弃层以减少过拟合。Softmax激活函数用于最后一层进行多类分类。因子N意味着FC具有由全连接层、激活层和丢弃层组成的一些串行块N的值在不同的数据集上会发生变化。FC输入的形状等于每个样本使用的关键点数量3.3.3. 双管道方法姿态估计的使用可以用于手势识别。然而,关键点不足以在更困难的条件下识别手势。为了克服这个问题,本文提出了一个双管道网络来结合关键点和HBB图像的特征。网络的概述如图所示。第七章可以看出,在该架构中存在两个并行管道,称为关键点管道和手部边界框管道(HB管道)。提取的关键点和HBB都被用作该架构的输入这种方法有两种不同的方法,分别称为方法3:MobileNetV2 + FC。 关键点流水线类似于第3.3.2节中的FC,但是基于我们在该架构中使用不同激活函数的实验结果,Sigmoid激活函数被ReLU函数取代。同时,使用预先训练的MobileNetV2和ImageNet从HBB中提取特征在HB管道中。我们的MobileNetV2架构类似于第3.3.1节,但修改后的头中的全连接层的单元被更改为更适合每个数据集。此外,MobileNetV2的Softmax分类器被ReLU激活取代。这两个管道的输出连接在一起,以从关键点和手部边界框预测手势。方法4:卷积神经网络(CNN)+ FC。这种架构类似于方法3中的架构,但传统的卷积神经网络取代了MobileNetV2,以减少HB管道中的参数数量在这个CNN架构中使用了三个卷积块,每个块的滤波器数量分别为16、32和64。这些块的内核大小为5 × 5或7 × 7,以适应每个数据集。所有块已朗格Dang等人阵列16(2022)1002516见图6。 全连接神经网络的结构。见图7。 双流水线神经网络的结构。图八、 CNN + FC双管道结构。朗格Dang等人阵列16(2022)1002517图第九章 测试集和验证集中使用的图像示例。批处理归一化以提高收敛速度。应用值为0.2、0.3和0.5的删除对于HB流水线的输入,所有图像尺寸从224 × 224减小到128 × 128。关键点流水线和两个流水线的输出之间的级联输出被馈送到Softmax分类器中以预测手势。该架构的概述如图所示。 八、4. 实验4.1. 数据集4.1.1. 手势数据集据我们所知,目前很少有关于静态人类手势的数据集。例如,FreiHAND数据集[26]或Rendered Hand-pose数据集[27]是手部数据集,但它们专注于手部姿势估计,因此每个图像中没有特定的手势因此,它们很难训练手势识别。在这项研究中,我们在三个数据集上评估了我们的方法:HANDS [8],OUHANDS [9]和SHAPE数据集。其中,HANDS和SHAPE是WH数据集,OUHANDS是我们在3.1节中提到的OH数据集HANDS是一个用于人机交互的数据集,包含深度和RGB帧以及全身或半身。一共有十五个静态双手手势。有五个主题,包括三个男性和两个女性,每个主题2400 RGB帧,这个数据集总共有12000帧,这些帧是在不同的背景下收集的SHAPE是一个静态手势的数据集,有二十个主题,包括十个男性主题和十个女性主题。所有的人都在不同的背景下用半身或全身做32个手势。有超过30000个图像与前,上,左,右相机角度每个主题。OUHANDS是一个用于手部检测和手部姿势识别的数据集,每个人有10个手势,总共有3000张图像。 这些图像是在不同的背景、主题和光照条件下收集的。所有的手都位于摄像机附近。在这项研究中,我们还希望通过评估这个数据集来比较我们的方法与其他方法,因为它也在以前的研究中进行了研究4.1.2. 数据准备如上所述,我们用三个数据集评估了我们的方法,包括HANDS,SHAPE和OUHANDS。对于原始作者明确划分为较小集合进行训练,验证和测试的数据集,我们将使用这些集合,而无需任何进一步修改,以将我们的结果与使用类似数据集的其他研究进行比较。此外,对于未被原始作者划分的数据集,我们使用K-fold验证方法对其进行评估由于HANDS没有被原始作者划分,因此本研究使用K-Fold验证方法来验证该数据集。这个数据集有五个主题;我们每次使用四个主题进行训练,另一个用于验证。 因此,每次训练和验证集中的图像数量分别为9600和2400。SHAPE数据集由其作者划分。在这种情况下,25678张图像被用于训练集,3621张图像被认为是验证集,8006张图像被保留用于测试集。具有8006个图像的测试集再次被分成两个较小的集,称为具有2855个图像的测试随机集和具有5151个图像的测试最终集OUHANDS数据集也被原始作者分为三组。有1600张图像用于训练,400张用于验证,1000张用于测试。该测试集也被其他研究使用,用来与我们提出的架构进行比较图9显示了测试和验证集中使用的数据示例4.2. 实验装置我们在这项研究中使用了Pytorch框架。如第3.2节所述,我们用几种架构训练数据。根据我们的实验,Adam优化算法[28]给出了比其他算法更好的结果。因此,我们采用Adam算法来优化交叉熵损失,这是我们对所有数据集进行实验的成本函数。对于HANDS、SHAPE和OUHANDS数据集,我们分别使用表2-4所示的超参数值:批量大小、学习率、epoch数和图像大小。我们的实验研究了每个学习率,以确定每个方法和数据集的最合适值。此外,Epochs超参数是我们看到模型收敛的epochs数量。我们的DataLoader示例和四种架构,朗格Dang等人阵列16(2022)1002518图10. 每个数据集的训练过程(损失和准确性与时间)。每个图同时显示了四种方法的所有四个过程表2手超参数。方法2(财务委员会)32方法3(MobileNetV2 + FC)32 0.0001 60 224 ×224 86方法4(CNN + FC)32 0.001 60 128 ×128 86表3SHAPE超参数。方法2(FC)32方法3(MobileNetV2 + FC)32 0.001 30 224 ×224 86方法4(CNN + FC)32 0.01 50 128 ×128 86训练SHAPE数据集可在https://github.com/cvhust/Keypoints_CoEx上获得。建议的网络在Nvidia GTX 1080 Ti 11 GB Turbo上训练,双CPU XeonX5650具有12个核心和24个线程,以及标准版本的GoogleColab4.3. 识别实验表5我们还在图中展示了我们在三个数据集上的训练过程。10.表5显示方法1和方法3在HANDS上给出了最佳识别结果方法4获得了良好的结果,方法批量初始学习率历元图像尺寸关键点大小方法1(MobileNetV2)320.000130224 × 224–方法批量初始学习率历元图像尺寸关键点大小方法1(MobileNetV2)320.000130224 × 224–朗格Dang等人阵列16(2022)1002519表4OUHAND超参数。方法2(财务委员会)32 0.01 60方法3(MobileNetV2 + FC)16 0.01 100 224 ×224 42方法4(CNN + FC)16 0.01 100 128 ×128 42表5手识别结果。SHAPE识别结果。方法2 0.94 0.94 0.94 0.94 0.94 0.94 0.03������������������������无菌包装盒方法3 0.97 0.98 0.96 0.98 0.96 0.98 2.58������������������������方法3方法4 0.95 0.96 0.94 0.96 0.94 0.95 0.23������������������������方法4表7OUHANDS的识别结果和比较。方法测试精度测验回忆测试精度参数浮点 操作 每秒方法10.940.940.952.56313.61方法2 0.93 0.93 0.93������������������������ 0.01方法2方法3 0.94 0.93 0.94 2.57������������������������方法3方法4 0.94 0.94 0.94 0.22������������������������方法4HGR-Net [13] 0.88 0.88 0.89[29] 2016年10月15日参数数量比方法3少约十倍。在这种情况下,仅使用关键点流水线的方法2的识别结果给出了不太好的结果。然而,当结合关键点流水线和边界框图像流水线(方法3和方法4)时,模型的性能得到了显着提高。表6表明,方法3在两种情况下都具有最佳结果。测试集。其他人也达到了很高的精度。表7显示了我们的识别结果,并将其与OUHANDS测试集上的其他一些架构进行了比较。前四行显示了我们的识别结果。最后两行是之前研究的准确性,包括HGR-Net [13]和Fit-Hand [29]。这表明我们的系统优于以前的研究。上述结果表明,我们的双流水线架构与自上而下的姿态估计方法在HGR任务中达到了稳定的高结果,无论相机和人手之间的距离是长是短,或者不同的光照条件和背景。原因是我们的架构可以学习从手部边界框图像和关键点中执行信息,然后将它们结合起来更好地预测手势。当提取的关键点或手边界框图像在困难条件下不足以用于手势识别时,该方法可以是有用的。此外,在双流水线架构中的参数的数量不是太大。此外,简单的FC架构也可以达到高准确度,因为提取的关键点对于分类来说是足够信息的,因此仅具有全连接层的FC可以仅从关键点的坐标很好地学习以给出预测。可以得出结论,对于高精度要求,所提出的双流水线架构是合适的选择。 另一方面,FC architec- ture是一个合适的选择,可能会有良好的结果与轻量级的要求。所提出的方法在大多数情况下给出了良好的结果。然而,在某些困难的情况下,它仍然可以混淆。性能所提出的模型的性能取决于关键点和检测到的手部边界框。 虽然在两个流中的一个流给出不良结果的情况下模型仍然可以预测手势,但是预测的性能和确定性仍然受到影响。图图11示出了可能降低所提出的方法的性能的数据及其可视化关键点的一些示例。具体来说,在某些情况下,如果图像太暗,人手离相机很远,或者手指部分被遮挡的手部姿势,则提取的关键点往往不准确。 这种情况导致一些手势的关键点与其他手势相似,并且识别结果可能会混淆。这些图像类型可以被看作是图像:图中的I1、I2、I3和I4。十一岁另一种情况也可以减少该模型的识别性能是当姿势动作太相似时,尽管它们的标签不同。因此,在某些摄像机角度下,这些动作很难区分。这种图像类型可以被视为图像:图中的I5和I6。 十一岁实验结果表明,本文提出的系统能够很好地处理不同的数据集.此外,该系统的处理时间较短。在GPU Nvidia GTX 1080上,预处理图像并识别其手势的总时间约为0.22(s)。方法1的批量大小为32的训练速度,方法2、方法3和方法4分别为约98(s/epoch)、6(s/epoch)、98(s/epoch)和16(s/epoch),其中s/epoch是每个epoch的秒。此外,在四种方法的训练过程中,同一批32的空间复杂度分别约为1GB、0.8GB、3.5GB和3.5GB。5. 结论这篇手稿提出了四个分类架构的静态手势识别与自顶向下的姿态估计,使用HRNet的数据处理。这项研究还建议了关键点是方法批量初始学习率历元图像尺寸关键点大小方法1(MobileNetV2)320.000180224 × 224–方法测试精度测试精度测验回忆参数浮点 操作 每秒方法10.980.970.982.56313.62方法2方法30.890.980.870.970.880.980.022.710.02313.46方法40.910.900.900.2295.93表6方法测试精度测验回忆测试精度参数FLOPs试验-最终试验-随机试验-最终试验-随机试验-最终试验-随机方法10.95 0.960.95 0.960.96 0.962.56313.62朗格Dang等人阵列16(2022)10025110图十一岁图像的例子,可以降低所提出的方法的性能。需要和如何规范他们为这项任务。在四种体系结构中,双流水线体系结构可以学习从手部边界框和关键点组合的特征。实验在三个名为HANDS,SHAPE和OUHANDS的数据集上进行,这些数据集包含各种条件下的图像,包括背景,光照条件,距离,人类性别和年龄,以研究不同的解决方案。我们在这些数据集上的实验表明,所提出的架构可以获得较高的准确率与手势识别任务。据我们所知,我们的结果是迄今为止在HANDS,OUHANDS和SHAPE数据集上的最佳结果。在我们未来的工作中,我们希望将我们的方法与由下而上的姿态估计(HigherHRNet)[30]处理的数据一起使用,以进一步改进结果。此外,还需要研究更多的轻量级模型,以便在实时应用和移动设备中使用该系统,收集更多的数据来训练更好的模型,并在手部边界框管道中使用其他模型CRediT作者贡献声明团灵党:概念化,方法论,验证,形式分析,调查,资源,写作– review Sy Dat Tran:方法论,软件,形式分析,调查,数据管理,写作Thuy Hang Nguyen:软件,数据管理,写作-原始草稿,可视化。Suntae Kim:概念化,方法论,验证,监督,项目管理。尼古拉斯·莫奈:概念化,方法论,写作竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢这项工作得到了河内科技大学和Naver公司的合作支持。引用[1]IsaacsJ,Foo S.美国手语识别中的手势估计。2004年,第36届东南部系统理论研讨会。的诉讼。IEEE; 2004,p. 132比6[2]Phyo AS,Fukuda H,Lam A,Kobayashi Y,Kuno Y.基于呼叫手势的人机交互系统。在:智能计算国际会议。Springer; 2019,p. 43比52[3]Alhaj M.与3D虚拟环境的手势交互。Res Bull Jordan ACM2011;2(3):86-94.[4]葛丽,蔡燕,翁建,袁建.手部点网:基于点集的三维手部姿态估计. 在:IEEE计算机视觉和模式识别会议论文集。2018,p. 8417-26[5]洪C,余J,张J,金X,李K-H.多任务流形深度学习的多模态人脸姿态估计。IEEE Trans Ind Inf 2018;15(7):3952[6]Murphy-Chutorian E,Trivedi MM.计算机视觉中的头部姿态估计:调查。IEEETrans Pattern Anal Mach Intell 2008;31(4):607[7]靳S,徐丽,徐军,王春,刘伟,钱春,等。野外人体全身姿态估计。在:欧洲计算机视觉会议。Springer;2020,p. 196-214[8]Nuzzi C,Pasinetti S,Pagani R,Coffetti G,Sansoni G. HANDS:RGB-D数据集用于人机交互的静态手势数据摘要2021;35:106791。[9]Matilainen M,Sangi P,HolappaJ,Silvén O. OUHANDS数据库,用于手部检测和姿势识别。2016第六届图像处理理论、工具与应用国际会议。IEEE; 2016,p.一比五[10] SHAPE数据集。 2021年,https://users.soict.hust.edu.vn/linhdt/dataset/。[11] Pansare JR,Gawande SH,Ingle M.复杂背景下美国手语的实时静态手势识别。2012年。[12] 放大图片作者:J.基于多尺度颜色特征、层次模型和粒子滤波的手势识别。在:第五届IEEE国际会议自动人脸姿态识别的程序。IEEE; 2002,p. 423-8[13] Dadashzadeh A,Targhi AT,Tahmasbi M,Mirmehdi M. HGR-net:一个用于手势分割和识别的融合网络。IET Comput Vis2019;13(8):700-7.[14] 梁C,宋Y,张Y.基于点云视图投影的手势识别。2016年IEEE图像处理国际会议。IEEE;2016,p. 4413-7[15] Moin A , Zhou A , Rahimi A , Menon A , Benatti S , Alexandrov G , et al. Awearablebiosensing system with in-sensor adaptive machine learning for handgesturerecognition. Nat Electron2021;4(1):54-63.[16] 宁G,刘平,范X,张C.一种自顶向下的人体姿态估计和跟踪方法。在:欧洲计算机视觉会议(ECCV)研讨会的会议记录。2018年[17] 刘伟宗,皮卡德D,塔比亚H.使用多任务深度学习进行2D/3D姿态估计和动作识别。在:IEEE计算机视觉和模式识别会议论文集。2018,p. 5137-46[18] Sun K , Xiao B , Liu D , WangJ. Deep high-resolution representation learningforhuman pose estimation.在:IEEE/CVF计算机视觉和模式识别会议论文集。2019年,p. 5693-703[19] WangJ , Sun K , Cheng T , Jiang B , Deng C , Zhao Y , et al. Deep high-resolutionrepresentation learning for visual recognition. IEEE跨模式肛门马赫Intell 2020.[20] Chen K,WangJ, PangJ, Cao Y,Xiong Y,Li X,et al. Mmdetection:Openmmlab detection toolbox and benchmark.2019 年 , arXiv 预 印 本 arXiv :1906.07155。[21] Saxen F , Werner P , Handrich S , Othman E , Dinges L , Al-Hamadi A.使 用mobilenetv 2和nasnet-mobile进行人脸属性检测。2019年第11届图像与信号处理与分析国际研讨会。IEEE; 2019,p.176比80[22] [10]杨文,李文.基于MobileNetV2的人机交互视觉手势识别。2021年IEEE第45届计算机、软件和应用年会。IEEE; 2021,p. 1667 -74年。[23] Sagayam KM等人,使用opencv和MobileNetV2的基于CNN的掩码检测系统。2021第三届信号处理与通信国际会议IEEE; 2021,p. 115-9[24] Ma W , LuJ. 全 连 接 层 和 卷 积 层 的 等 价 性 。 2017 年 , arXiv 预 印 本 arXiv :1712.01252。[25] Pismenskova M,Balabaeva O,Voronin V,Fedosov V.使用人体骨架的二维姿势的分类。MATECWebConf2017;132:05016.http://dx.doi.org/10.1051/matecconf/201713205016网站。[26] [10]杨杰,李晓. Freihand:一个用于从单个rgb图像无标记捕获手部姿势和形状的数据集。 在:IEEE/CVF计算机视觉国际会议论文集。2019年,p. 813-22朗格Dang等人阵列16(2022)10025110[27] 作者:J. J.学习从单一rgb图像估计3d手部姿势。在:IEEE计算机视觉国际会议论文集。2017年,p. 4903-11[28] Kingma DP,BaJ. Adam:一种随机优化方法。2014年,arXiv预印本arXiv:1412.6980。[29] Verma M,Gupta A,et al. One for all:An end-to-end compact solution for handgesture recognition. 2021年,arXiv预印本arXiv:2105.07143。[30] 程B,肖B,王军,施宏,黄TS,张林。Higherhrnet:自底向上人体姿势估计的尺度感知表示学习。在:IEEE/CVF计算机视觉和模式识别会议论文集。2020年,p. 5386 -95
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功