SignBERT：自监督学习的手语识别模型

26 浏览量更新于2023-10-15 收藏 935KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11087............嵌入层......嵌入层SignBERT：手语识别HuHezhen1，WeichaoZhao1*，WengangZhou1，2†，YuechenWang1，HouqiangLi1，2†1中国科学技术大学电子信息系统系GIPAS中国科学院重点实验室2合肥综合性国家科学中心{alexhu，saruka，wyc9725} @ mail.ustc.edu.cn，{zhwg，lihq} @ustc.edu.cn摘要手势在手语中起着重要的作用。当前基于深度学习的手语识别（SLR）方法可能由于有限的手语数据源而遭受不充分的可解释性和过拟合。在本文中，我们介绍了第一个自监督预训练SignBERT与合并手优先SLR。Sign- BERT将手部姿势视为视觉令牌，其源自现成的姿势提取器。视觉令牌然后嵌入手势状态，时间和手的手征信息。为了充分利用可用的标志数据源，SignBERT首先通过掩蔽和重建视觉标志来执行自我监督的预训练。联合几个面具建模策略，我们试图将手之前的模型感知的方法，以更好地模型的层次背景下的手序列。然后，随着预测头的添加，SignBERT被微调以执行下游SLR任务。为了验证我们的方法在SLR上的有效性，我们在四个公共基准数据集上进行了广泛的实验，即， NMFs-CSL 、 SLR500 、 MSASL 和WLASL。实验结果证明了自监督学习和输入先验知识的有效性。此外，我们在所有基准测试中都实现了最先进的性能，并取得了显着的进步。1. 介绍手语作为一种视觉语言，是聋人群体的主要为了方便聋人和听力正常人之间的交流，手语识别得到了广泛的研究，并产生了广泛的社会影响。孤立SLR是视觉手语研究的一项基础性任务。它的目的是识别手语在词的水平，是一个具有挑战性的细粒度分类问题。*与第一作者同等贡献。†通讯作者：周文刚和李厚强。苹果0.07记得0.86吗...笑0.01侦察兵侦察兵预测...手型识别解码器...Transformer编码器......预测头......Transformer编码器........................面罩面具下游任务微调自我监督的预培训图1.我们的框架的概述，其中包含自我监督的预训练和下游任务微调。手势在手语的表达中起着主导作用。它占据了一个相对较小的区域，具有动态背景，表现出类似的外观，并遇到关节之间的自遮挡。这一事实导致了手表征学习的困难。当前基于深度学习的方法[5，28，23]从裁剪的RGB手部序列自适应地学习特征表示。考虑到手的高度铰接的特性，一些方法将它们表示为用于识别的稀疏姿态[1，34，24]。姿态是一种紧凑的语义表示，对外观变化具有鲁棒性，并带来潜在的计算效率。然而，手姿态通常是从现成的提取器中提取的，其遭受故障检测。因此，基于姿势的方法的性能大大落后于基于RGB的对比器。此外，上述方法都遵循数据驱动的范例，并且由于有限的符号数据源而可能遭受不充分的可解释性和过拟合。同时，预训练的有效性已被验证的计算机视觉（CV）和自然语言处理（NLP）。NLP的最新进展主要来自大型文本语料库上的自监督预训练策略[43，14，56]。其中，BERT [14]由于其简单性和优越的性能而成为最受欢迎的方法之一它的成功很大程度上归功于-11088完整的基于注意力的Transformer主干[53]，以及精心设计的预训练策略，用于对文本序列中固有的上下文进行建模。为了解决上述问题，我们开发了一种自监督的预训练框架，其中结合了模型感知的手部先验，即SignBERT，如图1所示。考虑到手势表示的紧凑性和表现力，我们将手势视为一种视觉知识。每个手令牌嵌入有手势状态、时间和手手性信息，并且双手都参与作为输入。SignBERT首先对大量的手部姿势数据进行自我监督的预训练，这些数据是使用现成的提取器从手语数据源导出的。具体来说，受BERT [14]的启发，我们通过掩蔽和重建视觉令牌来在编码器-解码器主干上预训练我们的框架。我们设计了几个掩码建模策略来加强网络捕获层次化上下文信息。为了更好地捕获上下文并简化优化，解码器在模型感知方法中引入手先验。对于下游隔离的SLR，预先训练的编码器用添加的预测头进行微调以执行识别。我们的贡献总结如下，• 据我们所知，我们提出了第一个模型感知的预训练框架的手语识别，即SignBERT。它对大量的手部姿势数据执行自监督学习，以在下游任务上获得更好的性能。• 为了更好地利用符号数据源中包含的分层上下文信息，我们设计了掩码建模策略，并在自监督预训练过程中引入模型感知的• 我们进行了大量的实验，以验证我们的框架的可行性和其有效性的下游SLR任务。我们的方法在四个流行的基准上实现了最先进的性能，即，NMFs-CSL、SLR500、MSASL和WLASL。2. 相关工作在本节中，我们将简要回顾相关的主题，包括手语识别，预训练策略和手部建模技术。2.1. 手语识别关于手语识别的先前工作[27]通常基于输入模态分为两类，即、基于RGB（使用RGB视频）和基于姿态（使用姿态序列）的方法。基于RGB的方法。由于CNN具有强大的表示能力，SLR中的许多工作都采用它作为骨干[10，29，24，59]。Necati等人 [6]介绍了一种由2D-CNN组成的网络，用于空间表示和用于通过监督学习建模时间依赖的Transformer一些其他作品[22，24，33，34，1]利用3D-CNN对时空信息进行建模。基于姿势的方法。作为紧凑和语义感知的数据，姿势序列由CNN [32，7，1]或RNN [15，37，45]处理。考虑到其结构良好的性质，越来越多的作品将其表示为图，并采用图卷积网络（GCN）对其表示进行建模[15，45，51]。 Yan等 [55]首先提出了一种用于动作识别时空GCN。这些基于GCN的方法显示出效率和有前途的性能。还存在将Transformer与SLR [51]的预训练相结合的工作2.2. 培训前策略预训练是NLP和CV中的一种常见策略，可产生更通用的特征表示，并可减轻目标任务的过拟合。在NLP任务中，早期的工作集中在改进单词嵌入[40，26]。随着Transformer [53]的进步，许多作品提出预训练通用特征表示[14，43，56]。其中，BERT方法由于其简单性和优越的性能而成为最受欢迎的方法之一。具体而言，BERT预训练采用两个任务，即：掩蔽语言建模（MLM）和下一句预测（NSP）。在MLM中，BERT尝试基于来自未掩蔽上下文词的线索来预测掩蔽词。在NSP中，它定义了一个二元分类问题，试图预测两个输入句子是否是连续的。在CV同行中，通常会在ImageNet [13]，Kinetics [8]或大型Web源[16]上为下游任务预训练主干。此外，前-ist工程试图利用BERT的想法CV任务[48，47，35，60，9]。在手语方面，Albanie et al. [1]建议在大型注释数据集上进行预训练，并直接在小规模数据集上进行微调。Li等人。 [33]通过将带字幕的新闻标志视频的知识转移到识别模型中来丰富识别模型。据我们所知，不存在专注于SLR的自我监督预训练的工作。2.3. 手造型技术已经有许多工作使用各种技术来建模手，包括高斯求和[46]，形状图元[38，41]和球形网格[50]。为了更精确地建模手部形状，一些作品[2，52]提出利用具有线性混合蒙皮（LBS）的三角网格[31]。最近，MANO[44]已成为最受欢迎的模型，并获得了成功的应用[18，3，19，20]。作为一种统计模型，MANO是从大量高质量的手部扫描中学习的。考虑到其在低维形状和姿态空间中表示手部几何变化的能力，我们采用它作为姿态解码器中的约束来导入手部先验。110891个2个~架构细节二维姿势序列侦察兵侦察兵手手性嵌入。+++时间嵌入。...+++手势状态嵌入。+++...++++++...++++++...+++二维姿势序列图2.我们的SignBERT框架的插图，其中包含用于下游手语识别的自我监督预训练和微调。将预先提取的双手的2D手部姿势序列馈送到框架中。每个手姿势被视为一个视觉令牌，嵌入手势状态，时间和手手性信息。在自我监督的预训练中，我们设计了几个面具建模策略，并在更好地利用分层上下文表示之前结合模型感知的手。对于下游SLR任务，预训练的Transformer编码器与预测头进行微调以执行识别。3. 我们的方法概况. 如图2所示，SignBERT包含两个阶段，即：预训练用于在标志视频中建模上下文，并为下游SLR任务进行微调。手的姿态，作为视觉令牌，嵌入了他们的姿态状态，时间和手的手性信息。由于手语是由两只手完成的，我们共同将它们输入我们的框架。在预训练期间，整个框架通过掩蔽和重建视觉标记在自我监督的范例中工作。与掩码建模策略一起，解码器结合了手先验，以更好地捕获两只手的分层上下文和在符号期间的时间依赖性。当将SignBERT应用于下游识别任务时，手动模型感知的解码器被预测头替换，预测头通过相应的视频标签在监督范例中学习在下文中，我们将首先详细说明我们框架的每个组件。然后，我们将分别描述所提出的预训练和微调过程。3.1. 框架架构每个帧中的手部姿势被视为视觉令牌。对于每个视觉令牌，其输入表示通过对对应的手势状态、时间和手手性嵌入求和来手势状态嵌入由于手部姿势具有良好的结构，关节之间具有物理连接，因此我们将其组织为空间图。在这项工作中，我们采用了[4，55]中的基于光谱的GCN，并进行了一些修改。给定表示帧t处的2D位置（x和y坐标）的2D手姿势Jt，分别由节点V和边E集合定义无向空间图节点集包括所有对应的手部关节，而边集包含物理和对称连接。首先将手部姿势序列逐帧馈送到若干图卷积层然后，基于邻居执行图池化以生成帧级语义表示fp，t。时间嵌入时间信息在视频级SLR中很重要。由于自我注意不考虑顺序信息，我们通过利用[53]中的位置编码策略添加时间顺序信息。特别地，对于同一只手，我们为不同的时刻添加不同的时间嵌入。同时，由于两只手同时传达的意义，在签署时，我们添加相同的时间嵌入相同的时刻，不管手的手性。手征性嵌入考虑到手语的意义是通过双手来传达的，我们引入了两个特殊的令牌来表示每个帧的手手性，即，“L”和“R”分别表示左手和右手。特别地，它由具有与手势状态和时间嵌入相同维度的WordPiece嵌入[54]来实现值得注意的是，属于同一只手的所有帧包含相同的手征嵌入。Transformer编码器。给定表示手势状态、时间索引和手手性的上述嵌入，我们将它们求和并将其馈送到遵循原始架构[53]的Transformer编码器中，其包括：……手势状态提取器...…...手势状态提取器.....................掩模掩模自我监督的预培训下游任务微调......手型识别解码器…Transformer编码器...LL...LRR......R......手型识别解码器…............马诺......帧21联合掩模建模策略相机投影1个2个苹果记忆…0.070.860.01预测预测头…Transformer编码器...LL...LRR......R1个2个1个2个不不不不............潜在语义提取器11090Q·~·····t=1∈∈∈∈∈∈··2个D~SR 3DO具有多头注意模块和前馈网络平面。投影的2D手部姿势导出如下，工作编码器输出FN，其保持相同的大小对于输入，计算如下，J~ =cY（cJ~）+c，（5）F0={fp+fo+fh}，Fi=L（M（Fi−1）+Fi−1），Fi=L（C（F~i）+F~i），（一）其中（）表示正投影。预测头。由于判别线索可能只包含在某些帧中，我们利用一个简单的注意机制，nism加权功能的时间。然后对加权特征求和以执行最终分类。其中i表示Transformer编码器的第i层，并且我们总共利用N层。L（）、M（）和C（）分别表示层归一化、多头自注意和前馈网络。表示第i层中的手模型感知解码器。在我们的自监督预训练范例中，框架需要重构被掩蔽的输入序列，其中手部模型感知解码器将特征转换为姿势序列。具体地，全连接层D（）首先从由变换器编码器生成的表示中提取描述手状态和相机参数的潜在语义嵌入，其公式化如下：Fla={θ，β，cr，co，cs}T=D（FN），（2）其中θR25和βR10是以下MANO的姿态和形状嵌入，而crR3×3，coR2和csR是弱透视相机参数，分别指示旋转、平移和缩放。然后MANO [44]在模型感知方法中导入手部先验，并将潜在语义嵌入解码为手部表示。MANO模型是一个完全可微的模型，它提供了从低维姿态θ和形状β空间到Nv= 778个顶点、Nf=1538个面的手网格MRNv × 3的映射。为了产生物理上合理的网格，姿态和形状被约束在从大量手部扫描数据学习的PCA空间解码过程公式化如下，M（β，θ）=W（T（β，θ），J（β），θ，W），（3）T（β，θ）=T¯+BS（β）+BP（θ），（4）其中W是混合权重的集合。BS（）和BP（）分别表示形状和姿态混合函数。首先基于姿势和形状校正混合形状对手模板T′进行姿势和蒙皮，即， B P（θ）和B S（β），然后通过使用线性蒙皮函数W（·）[25]围绕关节J（β）旋转每个部件来生成网格。此外，我们能够从网格中提取稀疏的3D关节.与常用手保持一致注释格式，我们进一步添加5个额外的顶点，索引为333，443，555，678和734作为指尖，导致总共21个3D关节。基于预测的相机参数，将预测的3D关节投影到2D关节。3.2. 培训前SignBERT在本节中，我们详细说明了大量的标志数据源上的SignBERT预训练范式，以分层地利用语义上下文。与原始BERT在离散词空间上的预训练不同，我们的目标是在连续手部姿势空间上进行预训练。实质上，分类问题转化为回归，这对手部姿势序列的重建提出了新的挑战为了解决这个问题，我们将手部姿势视为视觉给定一个包含双手的手牌序列，我们首先随机选择50%的令牌。与BERT类似，如果选择了令牌，则我们以相等的概率随机执行三个操作之一，即，掩码联合建模、掩码帧建模和身份建模。掩蔽联合建模。由于目前的姿态检测器可能包含一些关节上的故障检测，我们将蒙面联合建模，以模仿通常的故障情况。在所选令牌中，我们随机选择从1到M的m个关节。对于这些选择的关节，我们以相等的概率执行两个操作，即，零掩蔽（用零掩蔽关节的坐标）或随机空间干扰。该建模尝试将我们的框架嵌入从剩余的手关节推断手势状态的能力，从而在关节级别捕获上下文。遮罩框架建模。掩蔽框架建模是在更全面的视图上执行的。对于选定的令牌，所有关节都被零掩蔽。该框架被强制执行以通过来自另一只手或不同时间点的剩余姿势令牌的观察来重构该令牌。以这种方式，捕获每只手中的时间上下文和手之间的相互身份建模。身份建模将未更改的令牌馈送到框架中。该操作对于框架学习那些未掩蔽的令牌上的标识映射是必不可少的。3.3. 预训练中的目标函数所提出的三种策略允许网络最大化联合概率分布的似然性以重建手部姿势序列。以这种方式，捕获序列中包含的上下文。在预训练期间，仅输出对应于所选标记的输出。11091L·L1（222包括在以下损失计算中，其中λ表示加权因子。易混淆词610个，正常词457个。分别有25，608和6，402个样本用于训练和测试。SLR500是另一个CSL数据集，其中包含500个日常单词和125，000个记录样本手再造损失结果rec。由于手部姿态检测50个签名者具体来说是9万和3.5万样本分别用于训练和测试。J2D作为伪标签，我们忽略预测置信度低于ε的关节，并利用剩余的关节由该损失项的计算中的置信度加权。Lrec=Σ1（c（t，j）>=Σ）c（t，j）¨J~2D（t，j）−J2D（t，j）¨，t，jMSASL是一个美国手语数据集（ASL），包含1,000个词汇量，总共有25,513个样本，分别用于训练、验证和测试此外，前100个和前200个最频繁的词被选择作为其两个子集，称为MSASL100。MSASL200。WLASL是另一个ASL数据集，具有2，000个单词和21，083个样本的词汇。类似于其中1（）表示指示符函数，并且c（t，j）表示注意到在时间t处具有关节j的J2D的置信度。正则化损失寄存器为了确保手部模型正常工作，添加正则化损失。很简单-通过约束MANO输入的幅度和导数来分割，MANO输入负责生成合理的网格并保持签名者身份不变。正则化损失计算如下，Lreg=Σ（θt2+wββt2+wδβt−βt−12），（八）不其中wβ和wδ表示加权因子。3.4. 微调SignBERT在预训练SignBERT之后，针对下游SLR任务对其进行手模型感知解码器被预测头替换输入的手部姿态序列是完全无掩模的，并且我们使用交叉熵损失来监督预测头的输出。考虑到单凭手势序列不足以表达手语的全部含义，有必要将基于手势的识别结果与全帧的识别结果进行融合。全帧可以由全RGB数据或全关键点表示。在我们的工作中，我们使用了简单的晚融合策略，直接总结他们的预测结果。此外，为了清楚起见，在每个数据集中标记用于融合在下文中，我们将我们的仅具有手的方法、手和全RGB数据的融合、手和全关键点的融合分别称为我们的（H）、我们的（H + R）和我们的（H + P）4. 实验4.1. 数据集和评估数据集。我们在四个公共手语数据集上评估了我们提出的方法，包括 NMFs-CSL [21] ， SLR 500 [22] ，MSASL [24]和WLASL [34]。NMFs-CSL是最具挑战性的中文手语（CSL）数据集，这是由于细粒度线索导致总共有1067个MSASL，它发布WLASL100和WLASL300作为其子集。MSASL和WLASL都是从网络视频中收集的，由于不受约束的现实记录条件和每个单词的样本有限，同时，由于STB [58]和HANDS17 [57]提供了2D手关节注释，我们利用它们来验证我们提出的框架的可行性。STB是一个真实世界的手部姿态估计数据集，包含18，000个样本。Zimmermann et al.视频级手部姿势估计数据集，包含来自99个视频序列的总共292，820帧在这个数据集中，我们将每个序列中的前70%和后30%的帧分别进行训练和测试。评价对于下游隔离SLR任务，我们利用准确度度量，即，每类（P-C）和每实例（P-I）度量，其分别表示每个类和每个实例上的平均准确度。我们报告了MSASL和WLASL在每个实例和每个类下的Top-1和Top-5准确度。由于NMFs-CSL和SLR 500包含每个类的相同数量的样本，因此我们仅报告[21，22]之后的每个实例的准确性。对于STB和HANDS17，我们报告了正确关键点百分比（PCK）得分和PCK上的曲线下面积（AUC），范围从20到40个像素，这是广泛使用的评估姿势估计准确性的标准。具体地，如果候选关键点落在地面实况周围的给定半径的圆（2D）内，则PCK将候选关键点定义为正确的，其中距离以像素表示。4.2. 实现细节在我们的实验中，所有模型都由PyTorch [39]实现，并在NVIDIA RTX 3090上进行训练。由于在手语数据集中没有姿势注释可用，因此我们使用MMPose [11]来高效地提取133个完整的2D关键点，即体关节23个，面关节68个，手关节42个。提取的手和肩关节被进一步用于裁剪左手和右手姿势并重新缩放256 ×256两只手都被送入框架中。[61]，我们将该数据集分为15，000个训练样本和3，000个测试样本进行单帧验证。HANDS17是11092MP@20输入AUC输出P@20 AUC388.8191.0299.9099.54582.2685.6599.8999.53776.1980.9199.8599.53970.8576.6399.8199.501166.2972.8599.7999.44表1. STB数据集上的框架级框架可行性。‘P@20’我们仅利用掩蔽关节建模，并且M表示掩蔽关节的数量，范围从1到M。GT2D在2D2D输出外网格时间戳表2.HANDS17上的视频级框架可行性 ‘Joint’图3.HANDS17上框架可行性的可视化我们从一个视频中选择6个连续帧。四行分别表示地面实况（GT）姿态序列、在GT上执行掩蔽之后的输入序列、重构序列和网格序列的中间结果。值得注意的是，第二行中的两个空白表示这些姿势都被掩蔽。公式化输入。还可以观察到输出序列的PCK和AUC性能更高该框架使用Adam优化器进行训练。权重衰减和动量分别设置为0.0001和0.9。我们从0.001的初始学习率开始，每20个epoch将其降低0.1倍。在所有实验中，超参数ε、λ、wβ和wδ分别设置为0.5、0.01、10.0和100.0。在预训练阶段，我们包括来自所有四个上述手语数据集的训练数据。对于下游任务，我们分别在训练和测试期间使用随机和中心采样在时间上提取32帧4.3. 消融研究在本节中，我们首先验证我们的框架的可行性。然后，我们进行消融研究，以证明我们框架中主要组件的有效性。框架的可行性。我们验证了我们的框架上的数据集的可行性与手部姿势注释可用。如表1所示，我们首先在STB数据集上的单帧设置下验证重建能力。具体地，单个帧被馈送到框架中。我们仅执行掩蔽关节建模，其中M表示掩蔽关节的数量范围从1到M，结果平均数量为M/2。随着M的逐渐增加，重建关节的PCK和AUC度量始终高于输入的PCK和AUC度量。它表明，我们的框架是能够通过观察部分关节幻觉整个手的姿势。根据表2，在HANDS17数据集上测试了视频级设置下的框架可行性我们利用原始姿势序列上的所有掩蔽策略这验证了框架对不准确的手部关节序列进行重构的能力。另外，我们在图3中可视化手部姿势重建。由于我们专注于下游识别任务的性能，因此我们对MSASL及其子集进行了广泛的实验，以证明掩蔽策略，模型感知解码器，Transformer层N和预训练数据规模的有效性。我们报告每个实例和每个类的Top-1准确性作为性能指标。掩蔽策略的有效性。如表4所示，第一行表示基线方法，即，我们的框架是在视频标签监督下直接训练的，而值得一提的是，与此基线相比，我们设计的预训练带来了显着的性能提升，每个实例的Top-1准确率分别提高了13.08%，12.95%和联合级和帧级掩蔽策略都有利于框架捕获不同层次的上下文，从而带来性能的提高。当两个掩模基板-GIES都被利用，它达到了最佳性能。模型感知解码器的有效性。如表5所示，我们比较了不同姿态解码器对SLR的影响。前两行表示利用完全连接的我们的解码器在模型感知的方法中工作，以在预训练期间导入手先验，这简化了优化并为下游隔离SLR带来性能改进此外，模型感知解码器具有额外的益处，其将2D手部姿势序列扩展到3D平面。Transformer层数N的有效性。从表6中可以看出，当Transformer层数增加时，精度也会增加。当N=3时达到峰值。的掩模联接框架输入P@20 AUC输出P@20 AUC✓86.3889.0295.1395.49✓80.8580.8595.3395.57✓✓81.4382.3295.1495.4811093方法Top-1总前2名Top-5Top-1困惑前2名Top-5Top-1正常前2名Top-5基于姿势ST-GCN [55]59.974.786.842.262.379.483.491.396.7我们的（H）67.086.895.346.478.292.194.598.199.6我们的（H +P）74.993.298.258.688.696.996.799.399.9基于rgb3D-R50 [42]62.173.282.943.157.972.487.493.497.0DNF [12]55.869.582.433.151.971.486.393.197.0I3D [8]64.477.988.047.365.781.887.194.397.3TSM [36]64.579.588.742.966.081.093.397.599.0慢节奏[17]66.377.886.647.063.777.492.096.798.9GLE-Net [21]69.079.988.150.666.779.693.697.699.3我们的（H +R）78.492.097.364.386.595.497.499.399.9表3.NMFs-CSL数据集的准确度比较[55]和[42]分别表示姿势和RGB基线掩模联接框架100P-I P-C200P-I P-C1000P-I P-C✓63.0172.6662.7272.7557.6968.5157.5669.7241.8548.8738.3045.39✓74.77 75.48 68.65 69.20 49.02 46.0276.09 76.65 70.64 70.92 49.54 46.39✓✓表4.掩蔽策略对MSASL数据集的有效性第一行表示基线，即，我们的框架是在没有预训练的情况下训练的。‘Joint’and ‘Frame’ denote the masked joint modeling and maskedframe modeling,解码器100P-I P-C200P-I P-C1000P-I P-C单层FC73.0572.6267.5568.2147.9445.07双层光纤通信74.2474.2168.2969.1248.0345.25我们76.0976.6570.6470.9249.5446.39表5.模型感知解码器在MSASL数据集上的有效性。我们将我们的与不同的姿势解码器进行比较。N100P-I P-C200P-I P-C1000P-I P-C274.1174.6167.7067.9248.2345.17376.0976.6570.6470.9249.5446.39475.6975.5170.2070.6647.3644.04574.9075.6868.1468.4047.2944.42表 6. MSASL 数据集上Transformer 层N 的有效性。N 表示Transformer编码器中的层数。BERT和我们的模型中的最佳层的差异可能是由于符号姿势和NLP域之间的不同特性以及过拟合问题。除非另有说明，我们在所有实验中使用N=3训练前数据量表的有效性。如表7所示，随着预训练数据量的比率增加，下游SLR任务的性能在准确性度量上逐渐增加这表明SignBERT可以受益于更大的预训练数据集。表7.MSASL数据集上预训练数据比例的有效性4.4. 与最先进方法的我们比较我们的方法与以前的国家的最先进的方法在四个基准数据集。为了清楚起见，先前的方法通过它们的输入模态来分组，即，基于姿态和基于RGB的方法。对NMFs-CSL的评价。如表3所示，我们与利用姿态和RGB序列作为输入的方法[55，42，12，8，36，17，21]进行比较。 GLE-Net [21]是最具挑战性的方法，它增强了来自全局和局部视图的区分线索。值得注意的是，我们的方法与纯粹使用的手姿势实现了可比的性能与他们中的大多数我们的（H + R）优于所有以前的方法，具有显着的利润率。对SLR500的评价。如表10所示，STIP [30]和GMM-HMM [49]是基于手工特征的传统方法。GLE-Net [21]仍然实现了最佳性能。值得注意的是，我们的方法实现了最好的perfor-曼斯，达到97。6%的top-1准确度。MSASL的评价 MSASL带来新挑战由于不受约束的记录设置。如表8所示，与RGB基线[24]相比，ST-GCN [55]显示出较差的性能。这可能是由于手势视频中包含部分遮挡的上半身、运动模糊和噪声背景的姿态检测失败造成的。Albanie等人。 [1]和Li等人。 [33]都使用更多的外部RGB符号数据来提高MSASL或其子集的性能。值得注意的是，我们的方法比100P-I P-C200P-I P-C1000P-I P-C0%的百分比63.0162.7257.6957.5641.8538.30百分之二十五73.1872.8367.9169.3046.1843.9711094方法MSASL100MSASL200MSASL1000每实例前5名按类前5名每实例前5名按类前5名每实例前5名按类前5名基于姿势ST-GCN [55]59.8482.0360.7982.9652.9176.6754.2077.6236.0359.9232.3257.15我们的（H）76.0992.8776.6593.0670.6489.5570.9290.0049.5474.1146.3972.65我们的（H +P）81.3793.6682.3193.7677.3491.1078.0291.4859.8081.8657.0680.94基于rgbI3D [24]--81.7695.16--81.9793.79--57.6981.05TCK [33]83.0493.4683.9193.5280.3191.8281.1492.24----BSL [1]--------64.7185.5961.5584.43我们的（H +R）89.5697.3689.9697.5186.9896.3987.6296.4371.2489.1267.9688.40表8.MSASL数据集的准确度比较[55]和[24]分别表示姿势和RGB基线方法WLASL100WLASL300WLASL2000每实例前5名按类前5名每实例前5名按类前5名每实例前5名按类前5名基于姿势ST-GCN [55]50.7879.0751.6279.4744.4673.0545.2973.1634.4066.5732.5365.45POSE-TGCN [34]55.4378.68--38.3267.51--23.6551.75--PSLR [51]60.1583.98--42.1871.71------我们的（H）76.3691.0977.6891.6762.7285.1863.4385.7139.4073.3536.7472.38我们的（H + P）79.0793.8080.0594.1770.3688.9271.1789.3647.4683.3245.1782.32基于rgbI3D [34]65.8984.1167.0184.5856.1479.9456.2478.3832.4857.31--TCK [33]77.5291.0877.5591.4268.5689.5268.7589.41----BSL [1]--------46.8279.3644.7278.47我们的（H + R）82.5694.9683.3095.0074.4091.3275.2791.7254.6987.4952.0886.93表9.WLASL数据集的准确度比较ST-GCN [55]和I3 D [34]分别表示姿态和RGB基线5. 结论在本文中，我们介绍了第一个自监督预训练SLR框架与模型感知的手之前，即SignBERT。我们涉及双手，并将手部姿势视为视觉令牌。视觉符号在输入框架之前嵌入手势状态、时间和手的手征信息。我们首先通过掩蔽和重建手部令牌来对大量手部姿势进行自监督预训练在预训练期间，我们的框架由Transformer表10.SLR500数据集的准确度比较[55]和[42]分别表示姿势和RGB基线。当与基于姿势和基于RGB的方法相比时，实现了显著的性能改进。对WLASL的评价与MSASL相比，WLASL包含的样本更少，词汇量是MSASL的两倍。可以观察到，我们的（H + P）仅利用姿势作为输入模态，甚至优于最具挑战性的基于RGB的方法[1]。此外，我们的（H + R）比最好的竞争对手还高出7. 在WLASL 2000上，每个实例的top-1精度提高了87%结合手先验和自我监督的预训练，我们的方法是更有效的基准下，有限的样本。编码器和手模型感知解码器。结合解码器的手先验信息，我们精心设计了几种掩蔽策略，以更好地捕获层次化的上下文信息。然后，我们的预训练框架被微调以执行识别。我们在四个流行的基准数据集上进行了广泛的实验。实验结果表明，我们的方法的有效性，实现了新的国家的最先进的性能在所有基准标记具有显着的利润率。鸣谢。这项工作部分由中国国家自然科学基金根据合同U20A20183，61632019和62021001支持，部分由中国科学院青年创新促进会根据基金2018497支持。该系统还得到了中国科学技术大学信息科学与技术研究所MCC实验室搭建的GPU集群的支持。方法精度基于姿势ST-GCN [55]90.0我们的（H）94.5我们的（H + P）96.6基于rgb科技革新政策[30]61.8GMM-HMM [49]56.33D-R50 [42]95.1GLE-Net [21]96.8我们的（H + R）97.611095引用[1] SamuelAlbanie、Gu¨lVarol、LilianeMomeni、TriantafyllosAfouras 、 Joon Son Chung 、 Neil Fox 和Andrew Zisserman。BSL-1 k：使用口型提示扩展共同表达的手语在ECCV中，第35-53页[2] LucaBallan，AparnaTaneja，JürgenGall，LucVanGool，andMarc Pollefeys.运动捕捉的手在行动中使用区分显着点。在ECCV，第640-653页[3] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3D手的形状和姿势从图像在野外。在CVPR中，第10843-10852页[4] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan，and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3D姿态估计在ICCV，第2272-2281页，2019年。[5] Necati Cihan Camgoz，Simon Hadfield，Oscar Koller和Richard Bowden。SubUNets：端到端手形和连续手语识别。在ICCV，第3075[6] Necati Cihan Camgoz，Oscar Koller，Simon Hadfield和Richard Bowden。手语变形金刚：联合端到端手语识别和翻译。在CVPR中，第10023-10033页[7] 曹聪奇，蓝翠玲，张一凡，曾文军，卢汉庆，张燕宁.使用门控卷积神经网络的基于骨架的动作识别。TCSVT，29（11）：3247[8] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和Kinetics数据集。在CVPR中，第6299-6308页[9] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。在ICML，第1691-1703页[10] 郑家亮，杨朝阳，陈奇峰，戴玉荣.用于连续手语识别的全卷积网络。在ECCV，第697-714页[11] MMPose贡献者。OpenMMLab姿态估计工具箱和基准测试。https://github.com/open-mmlab/mmpose，2020。[12] Runpeng Cui，Hu Liu，and Changshui Zhang.通过迭代训练进行连续手语识别的深度神经框架。TMM，21（7）：1880[13] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，第248-255页[14] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。参见NA

下载后可阅读完整内容，剩余1页未读，立即下载