音韵学手语数据集的构建与特征识别

14 浏览量更新于2023-12-01 收藏 501KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文WLASL-LEX：一个识别美国手语语音特征的数据集Federico Tavella和 Viktor Schlegel和 Marta RomeoAphrodite Galata和 Angelo Cangelosi{name.surname}@ manchester. ac. uk曼彻斯特大学计算机科学系摘要手语处理（SLP）涉及手语的自动化处理，手语是聋人和听力受损者的主要交流方式SLP具有许多不同的任务，从符号识别到翻译和手语的产生，但迄今为止它一直被NLP社区所忽视在本文中，我们提请注意的任务建模的音韵学的手语。我们利用现有的资源，构建了一个大规模的美国手语符号数据集，注释了六个不同的语音属性。然后，我们进行了广泛的实证研究，以调查数据驱动的端到端和基于特征的方法是否可以优化，以自动识别这些属性。我们发现，尽管任务存在固有的挑战，但基于图的神经网络在从原始视频中提取的骨架特征上运行，能够在不同程度上成功完成任务最重要的是，我们表明，这种性能，即使在训练过程中未观察到的迹象。1介绍世界上大约有200种语言是手语，而不是口语，具有自己的词汇和语法结构。例如，美国手语（ASL）不仅仅是将英语翻译成符号，而且与英国手语（BSL）无关。与纯文本NLP相比，它们的非文本性质给自动处理带来了许多挑战。对手语处理（SLP）的研究包括手语检测，即识别是否执行以及执行哪种签名语言（Moryossef et al. ，2020年）和符号语言识别（SLR）（Koller，2020年），即在孤立或连续语音中识别符号。其他任务涉及从签名到口语（或书面）的翻译（Camgoz et al. 、标签：Stacked主要位置：头部次要位置：嘴部运动：前后选定手指：索引标牌类型：对称神经网络分类器图一：我们用相应的语音信息和说话者的骨架特征来注释ASL标志视频，并训练神经网络来识别前者和后者。2018）语言或从文本中产生符号（Rastgoo etal. ，2021年）。随着最近基于深度学习的方法在计算机视觉（CV）中的成功，以及CV视角相关的动作和手势识别任务的进步（Asadi-Aghbolaghi et al. ，2017），SLP在CV社区中获得了更多的关注（ Zheng et al. ， 2017年）。由于任务的复杂性，最近的一些方法，各种SLP任务隐含地依赖于语音特征（Tornay，2021; Metaxaset al. ，2018; Gebre et al. ，2013;Tavella et al. ，2021年）。然而，令人惊讶的是，很少有工作已经进行了明确建模的语音符号的语言。这为从计算语言学的角度研究手语提供了一个及时的机会（Yin et al. ，2021年）。在手语的背景下，语音学通常区分手动特征，如手和手指的用法、位置和运动手语音系学是一个成熟的领域，有着完善的理论框架（ Liddell 和 Johnson ， 1989; Fenlon et al. ，2017;Sandler，2012）。这些语音特征或音素是从可能配置的固定库存中提取的，这些配置通常比手语的词汇量小得多（ Borg 和Camilleri，2020）。例如，可以使用arXiv：2203.06096v1 [cs.CL] 2022年3月+v：mala2277获取更多论文因为解剖学上的限制而做手势因此，不同的符号共享语音特性，并且可以使用性能良好的分类器来预测在训练期间看不到的符号的这些特性这可能甚至在不同的语言中也适用，因为虽然不同的语言可能规定不同的音素组合，但也存在显著的重叠（Tornay et al. ，2020）。最后，这些音系特征在确定符号时具有很强的区分力。例如，在ASL-Lex（Caselli et al. ，2017），一个词汇，也捕捉语音信息，作者报告说，超过50%的994个描述的符号有一个独特的组合只有六个语音属性，超过80%的符号共享他们的组合与最多两个其他符号。依靠这些来自ASL-Lex等资源的音系信息，可以唯一地确定许多符号这意味着性能良好的分类器可以利用这些信息来预测信号，而无需在训练过程中遇到它们。这是当前数据驱动的SLR方法在设计上缺乏的能力（Koller，2020）。因此，在组合中，成熟的语音识别方法可以促进手语资源的开发，例如通过基于其语音特性为新手语提供首遍银注释。这对于记录低资源符号语言以及快速开发大规模数据集以及充分利用数据驱动的CV方法都是一项为了推动这一方向的研究，我们扩展了Tavella等人的初步工作。（2021）并引入了语音属性识别（PPR）的任务更具体地说，在这篇论文中，我们贡献了（ i ）WLASLLex2001，一个大规模的自动构建的PPR数据集，（ii）数据集质量的分析，以及（iii）基于不同深度学习的基线性能的实证研究。2方法我们解决PPR作为一个分类问题的基础上，从视频中提取的人说话，ING SL的功能。虽然手动注释方法被广泛采用，但这些方法非常耗时，并且需要专业知识。相反，我们依赖于自动化的数据集构造。在高水平上，我们交叉引用一个大规模的ASL SLR数据集与ASLLexicon和注释视频的标志与其相应的音韵属性。然后，我们通过利用来自计算机视觉社区的预训练深度模型来提取骨骼特征（Rong etal. ，2021; Wang et al. ，2019）。最后，我们训练了几个深度模型来将它们分类为语音类。2.1数据集构建如前所述，ASL-Lex（Caselli et al. ，2017年）包含美国手语的语音特征，例如执行手势的位置，手的动作以及涉及的手和手指的数量。后一个属性由3个精通ASL的人编码。在我们的工作中，我们感兴趣的是从人们说美国手语的视频中识别语音属性。因此，我们的目标是构建一个适合监督学习的数据集，其中包含标有六个语音属性的视频。具体来说，我们选择具有最强区分能力的手动属性来根据其配置确定符号（Caselli et al. ，2017年）：(i) 屈曲：在信号开始时优势手的选定手指的孔径(ii) 主要位置：体征开始时支配手的一般位置(iii) 次要位置：体征开始时支配手的特定位置(iv) 运动：标志的第一运动路径，(v) 选定的手指：正在移动或在该移动期间前景化的手指，以及(vi) 符号类型：根据Battison（1978）的手的对称性。所有属性的详细描述见附录。ASL-Lex的局限性之一是样本数量少，缺乏多样性：它的第一次迭代（ASL-Lex 1.0）包含不到1000个视频，所有视频都由同一个人签名虽然这些视频足以用于教育目的，但对于开发能够捕获ASL说话者的多样性的鲁棒分类器来说，这些视频的适用性有限（Yinet al. ，2021年）。为此，我们从WLASL（Li et al. ，2020年）（单词级别-ASL），一个+v：mala2277获取更多论文最大的可用SL数据集，具有超过100人演示的2000多个注释，总共超过20000个视频。每个签名由至少3个不同的签名者执行，这意味着与仅由一个用户执行一个注释相比具有更大的可变性通过基于相应的注释交叉引用ASL-Lex和WLASL 2000，我们可以增加可用于训练模型的样本数量。最后，为了利用在结构化输入上操作的最先进的SLR架构，我们用其提取的代表扬声器关节为此，我们使用两个预训练模型，FrankMocap （ Rong et al. ， 2021 ）和 HRNet（Wang et al. ，2019）。虽然这些跟踪算法遵循不同的范例，前者基于预测的人体模型提取3D坐标，后者直接从视频中预测关键点作为坐标，但它们产生类似的输出。一个重要的区别是，当 FrankMocap 估计 3D 关键点时，HRNet输出2D关键点以及相关的预测置信度得分。我们使用这些不同的模型来探索不同的跟踪算法是否会我们选择上半身的特征的子集，即：鼻子、眼睛、肩膀、肘部、手腕、拇指和手指的第一个/最后一个指关节这些手动特征被确定为在执行手语识别时信息量最大（Jiang et al. ，2021b）。我们的最终数据集， WLASL-Lex 2001（WLASL 2000 + ASL-Lex 1.0），由10017个视频组成，对应于800个注释，3D骨架（来自FrankMocap的x，y，z和来自HRNet的x，y和分数）标记有它们的语音属性。该数据集的一个特征是它遵循长尾分布。由于语言的性质，一些语音属性比其他属性更常见，这意味着一些类别比其他类别更有代表性一方面，我们模型的训练设置应该考虑到这一因素，但另一方面，训练语音类而不是注释的优点是不同的注释可以共享语音类。2.2模型为了估计数据集的复杂性，我们使用多数类基线和多层感知器（MLP）作为基本的深度模型。我们毛皮-他们使用长短期记忆（LSTM）和门控递归单元（GRU）作为能够捕获视频的时间分量的作为用于执行SLR的最先进的SLP架构，我们使用 I3 D 3D 卷积神经网络（ Carreira 和Zisserman ， 2017; Li 等人， 2017 年）。，2020），以及时空图卷积网络（STGCN）（Jiang et al. ，2021 b），其从所提取的关键点捕获空间和时间分量。2.3实验装置对于每个语音属性，我们分别生成数据集分割和训练专用模型虽然多类多标签方法可以通过依赖不同属性的潜在相互依赖性获得更高的分数，但我们选择孤立地对属性进行建模，以解开影响每个属性可学习性的因素。从现在开始，当我们提到数据集时，我们指的是WLASL-Lex 2001数据集的一个实例，其中标签是单个音位类的值我们之所以做出这种区分，是因为我们产生了六个不同的训练、验证和测试分割（比例为70：15：15），它们根据相应的音位属性（音素）进行分层。通过这样做，我们确保（a）所有分裂包含分类目标的所有可能的标签（即音位属性）和（b）遵循相同的分布。由于我们的视频来源于WLASL，我们有多个视频代表每个光泽，因此，随机分割我们的数据将导致测试集中的光泽可能也出现在训练集中，由不同的说话人签名。因此，为了研究模型在多大程度上可以预测看不见的注释的属性，我们还在光泽度级别（光泽度）上产生标签分层分割，使得验证和测试集中的注释视频不会出现在训练数据中，反之亦然。因此，总而言之，音素设置中的实验旨在评估识别在训练数据中已经遇到的但由测试集中的不同扬声器执行的符号的音位特性的能力。相反，在光泽设置实验的目的是评估的能力，以识别在训练过程标志的语音特性。我们使用在Kinetics-400上预先训练的I3 D模型（Carreira和Zisserman，2017）+v：mala2277获取更多论文光泽音素FLEXIONMAJLOCATIONMINLOCATIONMOVEMENTFINGERSSIGNTYPE一一一一一一一一一一一一基线50块344. 1 ± 2。550块3 ±2。5四十九0 ±2。550块3 ±2。562岁3 ±2。443. 4 ± 2。5十一岁1三十四4七十。3 ±2。3五十七8 ±2。5七十五。8± 2。264岁6 ±2。483. 2 ±1。9七十。5 ±2。320. 0三十三951. 6 ± 2。5三十四3 ±2。464岁3 ±2。430. 3 ± 2。374岁5 ±2。2五十三0 ±2。53. 1三十五5三十四5 ±2。4三十四3 ±2。4三十五1 ±2。4三十五4 ±2。463岁6 ±2。4四十五7 ±2。5十六岁7四十八。259. 4 ± 2。543. 4 ± 2。571岁。0 ±2。3四十六5 ±2。5七十三。8± 2。263岁1 ±2。4十一岁139岁。3七十三。9± 2。267岁。0 ±2。478岁7 ±2。1七十。9 ±2。384. 5 ±1。8七十三。0± 2。220MLPH十一岁164岁028岁2十八岁7二十五052. 6MLPF十一岁1四十六8第九章1十八岁712个。942岁8RNNH30. 072. 4四十六0第二十九章。5四十六558. 8RNNF十一岁154号2四、0十八岁112个。4四十六8STGCNH四十五078岁663岁558. 2五十六069岁6公司简介20. 862岁1四十037岁832岁8五十三13DCNN四十六5 ±2。513岁264岁3 ±2。4五十五242岁3 ±2。5十八岁632岁9 ±2。420. 8四十七5 ±2。514个。569岁5 ±2。344. 8基线五十三144. 6 ± 2。552. 8 ± 2。539岁。6 ±2。5五十三0 ±2。5四十九1 ±2。539岁。0 ±2。5十一岁1三十五768岁。1 ±2。3五十六6 ±2。572. 8 ± 2。264岁1 ±2。4七十七。3± 2。166岁7 ±2。320. 042岁0四十七3 ±2。538岁3 ±2。4四十九3 ±2。544. 4 ± 2。4五十五1 ±2。4四十五1 ±2。4五、0三十五228岁4 ±2。237岁1 ±2。432岁2 ±2。3三十六。7± 2。452. 5 ±2。543. 1 ± 2。5十六岁7四十七4五十六2 ±2。539岁。3 ±2。5六十7 ±2。527岁3 ±2。365岁7 ±2。4六十0 ±2。512个。538岁3七十五。3± 2。268岁。4 ±2。4七十五。4± 2。272. 0 ± 2。376岁6 ±2。171岁。3 ±2。320. 0MLPH15个。5五十六619号。719号。822号。950块7MLPF十一岁142岁910. 721岁712个。541岁2RNNH十八岁067岁。326岁324岁932岁5五十三5RNNF十一岁152. 6十七岁820. 112个。7四十六9STGCNH21岁6七十。032岁7四十六5三十四454号4公司简介14个。4六十121岁1三十四9第二十九章。2四十七53DCNN四十六0 ±2。512个。864岁9 ± 2。452. 010. 8 ± 1。5 13岁6 32岁0 ± 2。319号。3四十五9 ±2。514个。771岁。6 ±2。3四十六3表1：准确度（A. ）和每类平均准确率（A）的各种模型的测试集上的六个任务。对于准确性，我们将误差幅度报告为α = 0时的置信区间。05使用渐近正态近似。我们忽略了平衡精度的误差幅度，因为类的数量少导致样本量小附录中报告了其他业绩计量并根据我们数据库中的原始视频进行微调。其他模型使用关键点作为输入从头开始训练。我们将所有输入的长度固定为150帧，较长的序列被截断，而较短的序列被循环以达到固定的长度。我们根据验证集上的性能选择性能最好的模型有关型号选择的更多详细信息，请参阅附录。我们测量了准确性，以调查模型的一般表现如何，以及类平衡的准确性，以考虑到它们能够模拟不同类别的语音特性。3结果和讨论表1的上半部分显示了Phoneme设置的六个数据集分割的结果，其中测试数据中的注释也可能出现在训练数据中简单的MLP架构的性能不佳表明，这些任务实际上是具有由于其简单性，它几乎无法达到某些属性的基线（运动和屈曲分别为34%和35%以及44%和50%特别地，基于FrankMocap（MLPF）输出的MLP分类相反，使用HRNet输出的STGCN（STGCNH）在所有六个任务上都优于其他模型。在某些情况下，例如在预测运动或屈曲时，它是唯一显著超过大多数类别基线的模型。这种卓越的性能是前-+v：mala2277获取更多论文预期，因为在HRNet提取的关键点上操作的STGCN的这种特定组合已被证明是WLASL2000数据集上SLR每平方的最大贡献者（Jiang etal. ，2021a）。在结构化输入上运行的模型通常优于3DCNN，这证明了骨架特征提供的附加信息的实用性结果还表明，使用HRNet骨架输出的模型这种性能上的差异建议进行更严格的研究，以调查不同特征提取方法的影响，作为未来可能的研究方向。表1的下半部分显示了预测看不见的注释（注释）的语音特性的模型的性能。所有任务和所有模型的性能都会恶化，这表明它们的成功部分来自于利用训练和测试数据中出现的注释之间然而，最好的模型，STGCNH，执行到音素分裂，与六个任务中的五个下降不到10个精度点通常，群众来源（Polonio et al. ，2018年）或自动构建的数据集（如我们的数据集）具有性能上限，这可能是由于不正确分配的地面真值标签或输入数据的低质量（Chen etal. ，2016; Schlegel et al. ，2020）。为了研究前者，我们测量了所有模型错误分类的视频+v：mala2277获取更多论文±±使用Fleiss直觉上，如果模型一致同意与地面实况不同的标签，地面实况标签可能是错误的。我们发现，在六个任务的平均值，协议是negligible：0。09 0. 06和0。110。09分别用于Phoneme和Gloss分裂类似地，对于后者，如果所有模型始终未能为给定视频分配任何正确的标签（例如，所有模型在运动和弯曲的测试集中出现的视频上都出错），这可能暗示输入的质量低，使得不可能正确地预测任何事情我们发现WLASL-LEX2001的情况并非如此，因为出现在不同任务的测试集中的视频往往具有较低的互误分类率：1%和0。7%的视频出现在两个和三个任务的测试集中，被所有模型错误分类为音素分裂的所有相关对于光泽度分割，两个和三个任务的数值分别为3%和0%总之，这些观察表明，本文中提出的模型是不可能达到WLASL-Lex 2001和更先进的方法可以获得更高的精度分数的性能上限4结论本文讨论了语音属性识别（PPR）的任务.我们自动构建了一个具有六个音系特性的任务数据集我们发现，有改进的潜力，我们提出的数据驱动的基线方法。追求这一方向的研究者可以专注于去噪性能更好的模型，例如通过依赖于联合学习所有属性，因为不同属性的标签可以相互依赖。另一种可能的途径是研究使用PRR通过将其分解为多个音素来执行连续手语语音的标记化的可行性，这被认为是SLP的最大挑战之一（Yin et al. ，2021年）。确认作者要感谢曼彻斯特大学使用计算共享设施。这项工作得到了UKRI TAS信任节点、美国空军项目THRIVE++和H2020项目TRAINCREASE、eLADDA和PERSEO的部分支持引用Maryam Asadi-Aghbolaghi 、Albert Clapes 、MarcoBellantonio、Hugo Jair Escalante、Victor Ponce-Lopez、Xavier Baro、 Isabelle Guyon 、ShohrehKasaei和Sergio Escalera。2017. A Survey on DeepLearningBasedApproachesforActionandGestureRecognition in Image Sequences. 会议记录-第12届IEEE自动人脸和手势识别国际会议，FG 2017 -第一届手势理解和生成自适应镜头学习国际研讨会，ASL 4GUP 2017，野外生物识别，Bwild 2017，Heteroge，第476Robbin Battison 1978.美国手语中的词汇借用马克·博格和肯尼斯·卡米莱里。2020. 基于深度学习的手语识别的语音意义子单元。计算机科学讲义（包括人工智能和生物信息学讲义子系列），12536 LNCS：199Necati Cihan Camgoz ， Simon Hadfield ， OscarKoller ， Hermann Ney ， and Richard Bowden.2018. 神经手语翻译。João Carreira和Andrew Zisserman2017年。你好，动作识别？新模型和动力学数据集。2017年IEEE计算机视觉和模式识别会议（CVPR），第4724- 4733页。内奥米·K放大图片作者：J.科恩-戈德堡和凯伦·艾莫瑞 2017. 美国手语词汇数据库 . BehaviorResearch Methods，49（2）：784Danqi Chen，Jason Bolton和Christopher D.曼宁。2016. CNN/Daily Mail阅读理解任务的彻底检查。在Proceedings of the 54th Annual Meeting ofthe As-sociationforComputational Linguistics（Volume 1：Long Papers），Volume 4，pages2358-计算语言学协会。J Fenlon，Kearsy A Corpus和Diane Brentari。2017年。手语语音学。在《语音学理论手册》中。Binyam Gebrekidan Gebre，Peter Wittenburg ，andTom Heskes.2013. 自动手语识别。2013 IEEE图像处理国际会议，ICIP 2013 -会议记录，第2626- 2630页。姜松尧，孙斌，王立辰，白跃，李鲲鹏，傅云.2021年a. 手语识别通过语音感知多模型增强。姜松尧，孙斌，王立辰，白跃，李鲲鹏，傅云.2021b的最后一页。骨架感知的多模态手语识别。IEEE计算机+v：mala2277获取更多论文计算机视觉和模式识别研讨会，第3408奥斯卡·科勒2020年。手语识别现状的定量调查。李东旭，克里斯蒂安·罗德里格斯，于欣，李宏东。2020.视频中的单词级深度手语识别：一个新的大规模数据集和方法比较。在IEEE计算机视觉应用冬季会议上，第1459斯科特·K作者声明：Robert E.约翰逊1989. 美国手语：语音基础. 手语研究，1064（1）：195B.W.马修斯1975. t4噬菌体溶菌酶二级结构的预测与观察比较。 Biochimica et Bioprophilica Acta（BBA）- Protein Structure，405（2）：442Dimitris Metaxas，Mark Dilsizian，and Carol Neidle.2018.使用基于模型的机器学习和语言注释语料库的可扩展ASL符号识别。Amit Moryossef，Ioannis Tsochantarabe，Roee Aha-roni ， Sarah Ebling ， and Srini Narayanan.2020年。基于人体姿态估计的。计算机科学讲义（包括人工智能和生物信息学讲义子系列），12536 LNCS：237-248。Davide Polonio，Federico Tavella，Marco Zanella，and Armir Bujari. 2018. Ghio-ca：一个用于自动图像分类的 Android 应用程序。在 Smart Ob-Observer and Technologies for Social Good ，第248- 257页Springer International Publishing.Razieh Rastgoo ， Kourosh Kiani ， and SergioEscalera. 2021. 手语识别：一个深入的调查。专家系统与应用，164：113794。Yu Rong，Takaaki Shiratori，and Hanbyul Joo. 2021.Frankmocap：通过回归和集成的单目3D全身姿势估计系统。 IEEEInternational Conference onComputer Vision Workshops计算机视觉研讨会温迪·桑德勒2012. 手语的语音组织。Language andLinguistics Com-pass，6（3）：162Viktor Schlegel ， Marco Valentino ， André AndreFreitas ， Goran Nenadic ， and Riza Batista-Navarro. 2020. 机器阅读理解黄金标准评估框架。第12届语言资源与评估会议论文集，第5359-5369页，法国马赛。欧洲语言资源协会。费德里科·塔维拉，阿芙罗狄蒂·加拉塔，安杰洛·坎杰洛西. 2021. 美国手语中的语音识别。桑德琳·托尔奈2021. 基于可解释音系学的手语识别与评估方法。博士论文，洛桑，EPFL。SandrineTornay ， MarziehRazavi 和 MathewMagimai。多斯 2020. 朝向多语言手语识别。在ICASSP 2020- 2020 IEEE国际声学、语音和信号处理会议（ICASSP），第6304-6308页。美国电气与电子工程师协会。Jingdong Wang，Ke Sun，Tianheng Cheng，BoruiJiang，Chaorui Deng，Yang Zhao，Dong Liu，Yadong Mu ， Mingkui Tan ， Xinggang Wang ，Wenyu Liu，and Bin Xiao.2019. 用于视觉识别的深度高分辨率表示学习。TPAMI。Kayo Yin ， Amit Moryossef ， Julie Hochgesang ，Yoav Goldberg，and Malihe Alikhani. 2021. 自然语言处理中的第7347Lihong Zheng，Bin Liang，and Ailian Jiang. 2017.深度学习在手语识别中。DICTA 2017 - 2017数字图像计算国际，2017年12月：1+v：mala2277获取更多论文A超参数优化表2包含了我们在每个不同模型的实验中探索的所有超参数。最好的模型是使马太相关系数最大化的模型B种子依赖表3示出了通过从不同的随机种子训练5个模型测量的每个模型关于机会性能差异可以忽略不计，这表明模型训练在很大程度上是稳定的。MCC=T P·TN−FP·FN（T P+FP）（T P+FN）（T N+FP）（TN+FN）模型精度其中TP、TN、FP、FN为真/假阳性/阴性。对于STGCN，我们使用Jiang等人选择的超参数。（2021a），因为对我们数据的初始实验显示最多2%的准确度差异，这在不确定性估计范围内。为了找到其他模型的最佳超参数，我们在预定义的集合上执行贝叶斯优化。我们在所有六个任务的验证集上最大化马修斯相关系数（MCC）（Matthews，1975）我们选择MCC是因为它在整体和类级别的准确性之间提供了一个很好的权衡，这是由于我们的数据集中固有的不平衡所必需的。模型参数层数隐藏尺寸MLP74. 39± 0。3579. baby baby 12± 0。4684. hello 12± 0。2969.第六十九章23± 0。93表3：使用HRNet输出训练的所有架构的准确度的平均值和标准偏差，在SIGNTYPE测试集上测量，并在5个不同的随机种子上取平均值。3D CNN的结果从验证集获得。C音系类描述表4至表9详细描述了根据ASL-Lex（Caselli etal. ，2017年）。基数是在WLASL-Lex上计算的，这就是为什么ASL-Lex中的一些类没有被表示的原因（即，基数等于0）。MLP辍学率调度程序步长D附加结果表10示出了几种不同的伽马RNN层数ferent metrics.特别是，我们报告微观和宏观精度/召回和马修斯相关性RNNRNN隐维系数这些指标有助于提供更好的联合国-RNN辍学学习率组数块大小，因此，我们需要了解分类结果，因为与准确性相比，它们STGCN3DCNN窗口大小调度器步长丢弃预热时期辍学学习率伽玛调度程序步长窗口大小表2：每个不同模型+v：mala2277获取更多论文值定义基数国际难民保护联盟食指、中指、无名指、小指4824IMR食指、中指、无名指95MRP中指、无名指、小指28im食指、中指1296IP食指，小指51先生中指，无名指0MP中指，小指0Rp戒指，小指0我食指2547M中指259R无名指0ppinky407拇指拇指510表4：所选手指的值和相对定义值定义基数头在头部或头部3137臂在手臂219身体在躯干上或附近产生标志1019手在非惯用手上或附近产生的符号2194中性在身体的另一个位置没有产生信号3448其他在身体上的另一个未指明的位置产生体征0表5：主要地点的数值和相对定义值定义基数1完全打开：所选手指的关节没有弯曲50372弯曲（闭合）：非基础关节弯曲6933平开式：底座关节屈曲小于90度9094平闭：基底关节弯曲等于或大于90度5075弯型开放：基底和非基底关节屈曲，无接触11306弯曲闭合：基底关节和非基底关节弯曲接触6427完全闭合：底座和非底座关节完全弯曲795堆叠堆叠：所选手指的重叠不同123越过越过181表6：屈曲值和相对定义+v：mala2277获取更多论文值定义基数头罩标志产生在头顶20额头标志产生于前额246眼睛在眼睛616脸颊鼻子标志是在脸颊或鼻子上产生的511上唇标志产生于上唇53嘴口部产生标志431下巴标志产生于下巴717下颏标志产生于下巴74UpperArm在上臂产生体征39肘前迹象是产生在肘部的弯曲0肘背在弯头外侧产生标记13前臂背部在前臂外侧产生信号32前臂前部在前臂内侧产生的信号10前臂尺骨在前臂尺侧产生的迹象56腕背标志产生于书写体的背面23腕前在手腕前部产生标志0脖子在脖子68肩膀标志产生于肩部101锁骨在锁骨上产生了信号419TorsoTop符号产生于躯干的上三分之0躯干中符号产生于躯干的中间三分之一0躯干底部符号产生于躯干的下三分之19腰符号产生于腰部34臀部标志产生于臀部59棕榈在非惯用手的手掌上产生符号925FingerFront在非优势手的手指前部产生符号99PalmBack在非惯用手的手掌背面产生符号218FingerBack在非惯用手的手指背面产生符号186手指径向在非优势手的桡侧产生符号410尺指在非优势手的尺侧产生信号40指尖在非惯用手的指尖产生符号158鞋跟在非惯用手的脚跟上产生符号88其他体征产生于身体上的非特定位置707中性在身体上或身体附近不产生体征3390表7：次要位置的值和相对定义+v：mala2277获取更多论文值定义基数单手签名只招一只手3939对称标志招募双手双手的语音规范是相同的3358双手的运动是对称的或交替的标志招募双手不对称只有惯用手移动相同的手形手的位置和方向可能不同，938但手形的其他规格是相同的非优势手必须是一个未标记的手形（B A S1C O 5）标志招募双手不对称只有惯用手移动不同的手形手的位置和方向可能不同，1639其他的手形规格也不一样非优势手必须是一个未标记的手形（B A S1C O 5）其他符号违反了Battison表8：符号类型的值和相关定义值定义基数直优势手通过xyz空间的直线运动1938弯曲优势手通过xyz空间的单弧运动手可能会或可能不会接触多个位置1255BackAndForth一个以上的直线或曲线运动的序列3549圆形优势手在空间中的圆周运动旋转本身并不构成圆周运动1129没有一整个符号（或第一自由语素）没有路径移动1748其他符号有另一个未指定的路径移动398表9：移动的值和相对定义+v：mala2277获取更多论文FLEXIONRµMAJ位置M在 L位置运动手指RµSIGNTYPEPµ50块344. 150块3四十九050块362岁443. 4四十六5五十三0344. 652. 839岁。6五十三0四十九139岁。0四十六0PM五、5924岁5五、632岁1五、6五十五423岁6十七岁8五、89十八岁6五、919号。8五、9二十五615个。112个。0RMMCC0。014个。60。9二十五40。043. 915个。3五、40。0八、3Pµ三十四4七十。3五十七8七十五。863岁983. 2七十。564岁3三十五6968岁。1五十六772. 864岁1七十七。366岁765岁0PMRµ三十四4七十。3五十七8七十五。863岁983. 2七十。564岁3三十五6968岁。1五十六772. 864岁1七十七。366岁765岁0RMMCC0。058. 941岁266岁450块176岁858. 950块30。0五十五539岁。562岁450块568岁。6五十三951. 8Pµ三十三8751. 6三十四364岁330. 374岁5五十三042岁342岁03四十七338岁3四十九344. 4五十五1四十五110. 8PMRµ三十三8751. 6三十四364岁330. 374岁5五十三042岁342岁03四十七338岁3四十九344. 4五十五1四十五1RMMCC0。041岁6十七岁9五十七4四、969岁843. 8第二十九章。10。032岁5十八岁1三十六。727岁943. 431岁1第九章5Pµ三十五46三十四5三十四3三十五1三十五463岁6四十五732岁9三十五2128岁437岁132岁2三十六。752. 543. 132岁0PMRµ三十五46三十四5三十四3三十五1三十五463岁6四十五732岁9三十五2128岁437岁132岁2三十六。752. 543. 132岁0RMMCC0。013岁9五、715个。9五、252. 728岁6第七章50。0四、912个。5十一岁310. 038岁0二十五8第六章0Pµ四十八。1759. 543. 471岁。0四十六5七十三。863岁1四十七5四十七38五十六239岁。3六十727岁365岁7六十0四十五9PM五、35第二十九章。6十七岁5五十三3第九章271岁。739岁。0十七岁8五、9221岁410.4三十六。910.637岁232岁515个。1RMMCC0。037岁7四、6五十六6八、561岁。144. 314个。60。032岁00。4四十33. 0四十七839岁。410. 7Pµ39岁。32七十三。967岁。178岁7七十。984. 5七十三。069岁538岁28七十五。368岁。4七十五。472. 076岁671岁。371岁。6PMRµ39岁。32七十三。967岁。178岁7七十。984. 5七十三。069岁538岁28七十五。368岁。4七十五。472. 076岁671岁。371岁。6RMMCC0。062岁552. 769岁458. 3七十七。761岁。1五十五60。064岁354号364岁6六十466岁258. 558. 7基线MLPHMLPFRNNHRNNFGTNHGTNF3DCNN基线MLPHMLPFRNNHRNNFGTNHGTNF3DCNN50块344. 150块3四十九050块362岁443. 4四十六5五十三0344. 652. 839岁。6五十三0四十九139岁。0四十六0十一岁1120. 7十一岁130. 0十一岁1四十五020. 813岁2十一岁1115个。5十一岁1十八岁0十一岁121岁614个。412个。8第六章8865岁852.3七十五。2五十六7八十。666岁4五十七2第七章1462岁0四十六268岁。0五十七372.163岁2五十七520.064岁0四十六872.452.278岁662岁1五十五220.0五十六642岁967岁。352.6七十。0六十152.01 .一、0637岁313岁954号3四、766岁743.922号。8二、1十六岁8十一岁719号。615个。1二十五115个。712个。03.1228岁2第九章1四十六0四、063岁5四十0十八岁6五、013岁1第七章9十七岁512个。323岁313岁2五、9128岁013岁130.121岁462岁1四十823岁4五、8720.415个。9二十五7十一岁2四十九4三十六。0十八岁7十六岁6726岁9十八岁7第二十九章。5十八岁158. 237

下载后可阅读完整内容，剩余1页未读，立即下载