多模态手势识别中的自适应跨模态加权方法

195 浏览量更新于2024-01-24 收藏 1MB PDF 举报

手势识别

虚拟现实

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：周本佳，万军，梁艳艳，郭国栋。多模态手势识别的自适应交叉融合学习。虚拟现实智能硬件，2021，3（3）：235-247DOI：10.1016/j.vrih.2021.05.003虚拟现实智能硬件2021年第3·文章·多模态手势识别的自适应交叉融合学习本吉阿祖霍乌1，朱瓦南2*，颜安丽安G1，郭国栋GO31. 澳门科技大学，澳门9990782. 中国科学院自动化研究所模式识别国家重点实验室，北京1001903. 百度研究院，北京100193，深度学习技术及应用国家工程实验室，北京邮编：100193*通讯作者jun. ia.ac.cn投稿时间：2020年10月10日修订日期：2020年11月26日接受日期：2020年12月12日国家自然科学基金项目（61961160704，61876179）;遗传学发展重点项目（ASW17C001）;Macau科学技术发展基金（0010/2019/AFJ，0025/2019/AKP）。抽象背景手势识别由于其广泛的潜在应用而引起了人们的极大关注。虽然多模态手势识别近年来取得了显著的进展，但一种流行的方法仍然是在每个分支的末尾简单地融合预测分数，这往往忽略了早期阶段不同模态之间的互补特征，并且没有将互补特征融合成更具区分力的特征。方法提出一种自适应跨模态加权（ACmW）方法，利用RGB-D数据中的互补特征进行分类。该方案通过结合不同数据流的特征来学习不同模态之间的关系。所提出的ACmW模块包含两个关键功能：（1）通过自适应一维卷积融合来自多个流的互补特征;以及（2）在时间维度上对多个流互补特征的相关性进行建模。通过这两个功能模块的有效结合，ACmW可以自动分析不同流中互补特征之间的关系，并在时空维度上进行融合。结果大量的实验验证了该方法的有效性，并表明该方法在IsoGD 和NVGesture上的性能优于现有方法。关键词手势识别;多模态融合; RGB-D1引言手势识别由于其广泛的应用[1- 4]，如人机交互[5]和视频监控，在研究和工业界都引起了越来越多的关注。由于互补特征学习可以从不同方面的不同数据模态中受益，因此多特征学习可以在不同方面中受益2096-5796/©版权所有2021北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2021年第3已经提出了模态手势识别技术[6- 9]。例如，可以容易地区分前景（即，面部、手和手臂），而RGB数据可以提供更高的纹理/颜色外观模态。然而，多模态手势识别的一个问题是如何有效地融合从不同数据模态提取的特征表示，这对于手势识别来说不是一个简单的任务。针对多模态手势识别，有效融合从这些数据中学习的互补特征有利于手势识别。之前的融合方法试图直接对最终Softmax评分进行相加、相乘或平均[6，8，10- 12]。然而，手势识别通常集中在关于手/手臂运动的细微变化的信息上，这些信息通常可以在中间阶段被捕获。这些方法相当于使用融合机进行全局表示，并且不考虑中间阶段手部/手臂运动的细微变化。因此，不同模态数据的结果可以在网络中融合，而不是单独训练或组合为后期融合。受上述观察的启发，为了利用不同模态数据之间的时空相关性，我们提出了一个自适应跨模态加权（ACmW）模块，该模块在整个网络的不同阶段使用。与一次性融合策略[10 ， 13 ， 14]不同，受FishNet[15]的消息传递机制的启发，我们使用ACmW模块生成不同模态的“时空相关消息”，并将其与原始数据流相结合进行后续特征学习。这种策略可以避免在早期阶段丢失单一模态数据的细节。我们的ACmW模块可以接受两个不同大小的输入，输出的大小与原始特征图相同。通过这种设计，它可以嵌入到任何网络架构中。该网络可以是端到端可训练的，并专注于手势相关的功能，即使是多模态输入。我们的贡献可概括如下：(1) 我们提出了一个自适应融合模块ACmW。与之前的离线多模态融合方案[6，16]不同，ACmW使网络能够以端到端的方式训练不同的数据模态。它还通过生成“时空相关性消息”并将它们从不同的流中组合而不是简单地后期融合不同数据的分数来(2) 大量的实验证明，我们的设计的集成，最终可以提高手势识别的性能。实验结果表明，该方法能够在良好的性能和较低的计算负担之间取得平衡，并且在两个大规模基准手势数据集IsoGD和NVGesture上的性能优于目前的顶级技术。本文的其余部分组织如下。第2节介绍了相关工作。第3节介绍了拟议的ACmW模块。第4节提供了我们实验的细节，包括ACmW模块在两个基准手势数据集上的性能评估，将结果与其他最先进的方法进行比较。在本节的最后，我们可视化神经激活。最后，我们在第5节中提出一些结论性意见。2相关工作在本节中，我们首先介绍多模态手势识别的最新发展。然后，列举了特征融合策略的一些最新进展。2.1基于多模态方法的对于手势识别，最具挑战性的任务是允许网络自适应地关注手和手臂的运动，而不受背景噪声的影响。以前的研究利用手工特征[17- 20]和深度神经网络提取特征[21- 29]进行手势识别。236BenjiaZHOUetal：Adaptivecros onleronarmulti-mdalgesturere ecgnionin nn同时，随着近年来RGB-D传感器的发布，同时捕获的RGB和深度数据很容易获得，这促进了多模态手势识别技术的发展。Miao等人提出了一种基于ResC3D网络的多模态手势识别方法，以克服手势无关因素的障碍[6]。Tran等人提出了一种多模态连续手势识别方法，该方法由两个模块组成：分割和识别[30] 。除了基于卷积神经网络（ CNN ）的方法之外， Zhu 等人还利用 LSTM 变体AttenConvLSTM[31]和PreRNN[32]进行RGB-D手势识别。所有这些方法首先在不同的数据模式上训练网络的不同分支，然后结合他们预测的Softmax分数。这些方法的优点是融合分数中的误差来自不同的分支;因此，它们不会相互影响，并且不会导致误差的进一步积累。正如Roitberg等人[8]所提到的，这种方法的缺点是它忽略了许多对分类性能有重大影响的中间表示。因此，一种多模态特征的融合策略引起了研究者的关注。2.2多模态融合策略多模态数据的利用可以在许多以前的研究中找到。决策级融合和特征级融合是多模态手势识别中的两种常用策略。决策级融合[14，33- 35]技术很容易实现，但只涉及大多数，其他类型的数据无法帮助最终识别。图像级融合[6，8- 10，16，36，37]包含所有特征的足够信息，并且由于其统一的维度而避免了复杂的配准预处理。在这些方法中，Roitberg等人[8]的融合策略与我们自己的最相似。然而，我们设计了一种更全面的融合方案，而不是直接使用卷积层进行融合，该方案可以对不同数据模态之间的时间相关性进行建模，并在早期阶段融合提取的多流特征，从而增强时空表示。具体来说，不同模态的特征首先被展开为一维向量，然后我们使用不同的卷积层内核，它可以为每种数据模态学习更自适应的融合特征。然后，网络可以根据当前数据流的属性利用数据的其他模态的互补时空信息，而不是简单地向其添加混合特征。同时，受Hu等人进行的研究的启发。[38]，提出了基于通道的注意力机制，我们在时间序列中对多流特征的相关性进行建模，以增强时间表示，从而实现多流特征的融合。更多详情请参见第3节。3方法在本节中，我们首先在第3.1节中阐述所提出的ACmW模块的结构。然后，我们将在3.2节中介绍ACmW模块的实现。最后，第3.3节提供了ACmW网络架构的详细信息。3.1自适应跨模态融合方案如前所述，不同形式的数据可以相互补充。为了提高识别精度，应充分利用和结合不同模态数据的优点，精心设计综合方案。如图1所示，ACmW模块将RGB和深度分支的特征作为输入，并进行自适应卷积以导出两组加权特征图，而不是简单地混合输入以生成一个融合数据。这保证了融合过程可以用于学习多模态的互补特征237虚拟现实智能硬件2021年第3图1 ACmW模块的结构在这里，x表示元素乘积，x表示元素和，特征图的不同颜色表示不同的权重值。我们采用了两种融合策略的多个特征流。第一次是基于时间的融合（左部分），它主要通过在其空间维度（C × H × W）上聚合特征图来产生时间描述符，以通过线性层学习时间序列上的多流特征的相关性。第二次是基于空间的融合（右部分），主要使用自适应卷积层（具有内核和步长为1的3D卷积）产生更具代表性的特征。将这两种融合策略相结合，可以充分利用高层特征的语义信息和低层特征的细粒度信息。从低级视觉特征到高级语义特征。ACmW主要包括两个子结构：空间特征融合机制和基于时间序列的自适应融合机制。对于空间特征融合机制，如等式1中所描述，RGB和深度特征两者最初被展开。展开处理是通过将特征拉伸成一维向量来实现的，这使得融合效率更高。zi=CFmapxi，yii，W，（1）其中xi和yi分别指示RGB和深度分支的特定阶段i的特征图。有趣的是，管理员可以处理未完成的过程，并确定并发操作。稍后，如等式2中所描述，经展开特征在经展开维度中通过函数F（f）级联且被连接到具有两个卷积核的卷积核。核的数目与数据类型的数目不一致。自适应卷积通过与W的权重进行1 × 1 × 1卷积来实现。接下来，我们可以获得两个加权特征，具有与原始的，通过功能展开：x'i=F，yi '=Fi，（2）其中x ′i和y ′i表示融合的特征图。对于基于时间序列的自适应融合机制，受先前研究[39]的启发，我们对时间序列而不是通道进行建模，以学习多模态特征的相关性。具体地，RGB和深度特征图都使用变换函数Ftr被映射到时间维度中的一维向量，其在等式3中被公式化。十月 =F trz i，伊吉 =F trz i.（三）然后通过列连接它们，即zi= [ [xi]，[yi] ]。如等式4所述，在通过全连接（FC）层以获得与单分支输入的时间维度具有相同形状的权重向量之后，我们最终将该权重向量扩展到与原始输入特征相同的维度数。此外，采用元素级积来增强多模态特征的时间表示，以实现多流特征在时间维度上的深度融合。通过增强时间表示和融合空间信息，ACmW模块可以有效地聚合时空特征。238我我我我我我我我BenjiaZHOUetal：Adaptivecros onleronarmulti-mdalgesturere ecgnionin nnLi=Eσ （ g （ z<$i ， W ）） =EσW2δW1z <$i ，（4）其中δ表示ReLU函数，σ表示sigmoid函数。另外，W1∈R（r×C）×C和W2∈RC×C，其中r是矩阵的个数，E（r）表示矩阵的幂级数和幂函数.为了保留原始数据模态的相同信息，使用加权结果和原始特征。xo=Ex'L+x，yo=Ey'L+y，（5）其中，x0和y0表示ACmW模块的输出，并且x 0表示逐元素乘积。我我由于自适应卷积的参数是由网络自身学习的，因此特征的融合可以是自适应的。同时，由于ACmW模块不直接导出一个融合输出流，因此每个分支仍然可以学习对应数据的相同特征，并且可以从低级别到高级别特征利用不同数据的互补性。3.2ACmW的实现如图2所示，这两个分支采用相同的基础主干，例如C3 D和3D ResNet-50（Res 3D）。我们在网络的不同阶段融合多流特征。同时，为了避免丢失原始特征信息，利用逐元素求和运算将原始特征与融合特征进行合并。此外，对于最终的预测，我们没有丢弃单个分支的预测分数，而是将其与融合层的分数完全结合起来，这显著提高了多分支网络的性能。对于C3D网络结构，我们提取每个分支的池化层后的两个特征流，并将其输入ACmW模块进行融合。图2多流分类模型概述。ACmW模块从早期到后期嵌入在两个网络分支（RGB和深度）之间以进行特征融合，其中，Rk表示元素和。RGB分支携带关于视频中的场景和对象的视觉信息，以及深度分支显著消除了背景噪声。融合后的特征被作为下一层的后续输入。因此，总共有五个ACmW模块以级联方式嵌入C3D中。对于Res3D网络，ACmW模块被嵌入在每个残差块之后用于特征融合，因此总共四个ACmW模块以级联方式嵌入在Res3D中。3.3ACmW网络架构在本节中，我们提出的ACmW模块的细节。以C3D为主干，如表1所示，我们给出了特征的大小，每秒浮点运算（FLOPs）和每个阶段的以阶段1为例，我们首先进行基于时间的融合，239虚拟现实智能硬件2021年第3表1 ACmW网络架构的详细信息。在这里，我们利用C3D作为骨干来分析的细节， ACmW特色流融合输出大小FLOPs参数数量C3dACmWC3dACmWN× 64 × 32 × 56 × 56电话：+86-21 - 88888888传真：+86-21 - 88888888电话：+86-21 - 88888888传真：+86-21 - 88888888N× 512 × 4 × 7 × 7总---308.7GB204.9 MB79.0 MB4.1kb的将多流特征驱动为N× 1 × 32 × 1 × 1的向量，然后将其扩展为N× 64 × 32 × 56 × 56的形状，以匹配基于空间的特征。对于基于空间的融合，我们首先将特征拉伸成形状为N× 1 × 6422528的一维向量（在每个通道中，我们将尺寸为32 × 56 × 56的特征拉伸成尺寸为1 × 100352的一维向量，然后将64通道特征连接在一起成为尺寸为1 × 64225284的一维特征）。这一步骤使融合更有效。然后，展开的特征在展开维度上连接，其形状为N× 2 × 6422528，然后被发送到具有两个卷积核的自适应卷积层。接下来，我们获得两个加权特征。通过特征展开部分，这两个特征被重塑为与原始相同的尺寸（N× 64 × 32 × 56 × 56）。此外，ACmW的总FLOP和参数约为204.9 M和4.1 K，而单个C3D网络分支约为308.7 G和79.0 M，这清楚地表明它是一个非常轻量级的网络。4实验在本节中，我们首先介绍第4.1节中的基准数据集的细节，这些数据集用于评估我们的方法。然后，在第4.2节中给出了实验设置的实现细节。最后，我们通过将ACmW模块嵌入到第4.3节中两个基准数据集的不同主干中，彻底评估了ACmW模块的影响。4.1数据集我们在两个RGB-D手势数据集上评估了我们的方法：Chalearn IsoGD数据集[40]和NVGesture数据集[7]。如图3所示，NVGesture包括受约束的驾驶手势，而IsoGD包含多种类型的手势，例如，手印和潜水手势，这是在一个不受约束的设置。Chalearn IsoGD数据集。Chalearn IsoGD数据集由Wan等人提出。[40]。它包含47933个RGB-D手势视频，分为249种手势，由21个人完成。了数据集240Stage1Stage2RGB特性+深度特征RGB特征时空⊙空间N× 64 × 32 × 56 × 56N× 64 × 32 × 56 × 56电话：+86-21 - 88888888传真：+86-21 - 888888888.6 GB88.9 GB154.2 MB38.5 MB5.3 KB221.6 KB3.1kb的772.0 B阶段3+深度特征RGB特征时间⊙空间电话：+86-21 - 88888888传真：+86-21 - 88888888电话：+86-21 - 88888888传真：+86-21 - 88888888133.3 GB9.6 MB2.7 MB196.0 B第四阶段第五阶+深度特征RGB特征+深度特征RGB特征时间⊙时空⊙空间电话：+86-21 - 88888888传真：+86-21 - 88888888N× 512 × 4 × 7 × 7N× 512 × 4 × 7 × 7N× 512 × 1 × 4 × 466.6 GB11.1 GB2.4 MB196.6 KB10.6 MB14.2 MB52.0 B7.0 BBenjiaZHOUetal：Adaptivecros onleronarmulti-mdalgesturere ecgnionin nn图3来自不同基准数据集的一些示例图像：（a），（b）来自ChaLearn IsoGD数据集的RGB帧和相应的深度帧。(c)（d）来自NVGesture数据集的RGB帧和对应的深度帧。三个子集，即：e. 训练集、验证集和测试集，分别包含35878、5784和6271个样本。排除三个子集中的样品。它还被用作两轮Chalearn大型孤立手势识别挑战赛的基准。NVGesture数据集。NVGesture[7]专注于非接触式驾驶员控制。它包含1532个动态手势，分为25类，涉及RGB和深度视频以及一对立体IR流。该数据集以7： 3的比例分为训练和测试子集，即1050个样本用于训练，482个样本用于测试。与Molchanov等人的工作不同。[7]使用所有模态来获得结果，因为我们考虑RGB-D手势识别，所以我们只使用RGB-D数据进行实验。4.2实验装置我们的实验都是在RTX 2080 Ti GPU上使用Pytorch[41]进行的。在训练阶段，输入帧在空间上被调整为256 × 256，然后随机裁剪为224 × 224，而在推理阶段，它们在中心被裁剪。我们在视频中随机采样32帧，用32个样本的小批量训练网络，并利用SGD优化器，权重衰减为0.0005，动量为0.9。初始学习率为0.01，当验证集的准确率没有每三个时期提高时，初始学习率降低了十倍。在学习率变得小于le-5之后停止训练阶段。4.3消融研究选定的骨干网络是C3 D[37]和3D ResNet-50[42]。所有骨干网络都在20BN Jester V1数据集1上进行了预训练。ACmW模块对C3D网络的影响。在这些实验中，我们使用C3D作为主干来研究ACmW模块的影响。C3D可以同时对外观和运动信息进行建模，比2D ConvNets更适合时空特征学习。训练过程分为两个阶段：（1）在RGB和深度数据集上训练两个C3D网络分支，以及（2）如图2所示的训练首先，ACmW模块嵌入在RGB和深度之间第1页https://20bn.com/datasets/jester241虚拟现实智能硬件2021年第3网络以级联方式分支。然后，使用第一阶段训练的权重微调RGB和深度分支。最后，我们使用小的学习率（在本实验中为0.001）和Adam优化器来训练整个网络。经过几个（大约7到10个）时期后，网络收敛。此外，为了减少基于先前研究的参数数量[43]，我们最终使用1 × 1 × 1卷积层而不是全连接层来预测最终分类概率。图4显示了IsoGD和NVGesture数据集上不同融合结果的准确性。值得注意的是，与ACmW和其他常见融合方案的性能相比，分数融合和元素乘融合，我们的融合策略显着提高了识别精度。图4 ACmW模块对3D ResNet-50的影响。(a)NVGesture测试集的融合结果;（b）IsoGD验证集的融合结果。不同融合结果的准确度如表2所示。最后一级融合采用评分融合方法，仅根据不同模态预测的最大概率进行决策。逐元素乘法融合涉及将不同模态中的预测概率值相乘以获得新的概率分布。这两种融合方法不能充分利用不同数据模态的优势，也没有考虑基于视频的分类任务中时间序列的相关性。因此，它们显然无法在任何单一数据模式的表现上获得高分。通过比较，ACmW可以在整个网络中扩展空间和时间上的互补性，这有助于不同模态的特征集中在手势上。因此，它可以实现最佳性能。具体而言，这两个基准数据集上的性能可以比分数融合高约1%，表2 C3D网络上不同融合结果的比较。对于IsoGD数据集，由于大多数方法的结果都来自验证子集，因此我们也使用该子集进行了实验，以进行公平的比较数据集RGB深度融合策略分数融合乘法融合ACmWIsoGD53.18%54.22%58.10%57.42%百分之五十九点九七NVGesture78.54%百分之八十点八三82.16%81.33%83.96%242比乘性融合高2%。BenjiaZHOUetal：Adaptivecros onleronarmulti-mdalgesturere ecgnionin nnACmW模块对3D ResNet-50网络的影响。在这个实验中，我们使用3D ResNet-50作为主干来研究ACmW模块的影响。与C3 D类似，3D ResNet-50也使用3D卷积内核来提取时空表示。然而，Res3D在大型数据集上的性能优于C3D等网络。训练过程与C3 D相同，而在3D ResNet-50中，ACmW模块嵌入在每个残差块之后，并将最后一个残差块之后融合的特征输入到1 × 1 × 1卷积中，以进行最终的融合得分预测。图5显示了双分支3D ResNet-50网络中嵌入的ACmW模块的性能改进。与其他融合策略相比，ACmW在这两个数据集上有明显的改善。表3更清楚地证明了这一点，其中IsoGD和NVGesture数据集的性能比分数融合高约1%，比乘法融合高约2%。图5 ACmW模块对3D ResNet-50的影响。(a)NVGesture测试集的融合结果;（b）IsoGD验证集的融合结果。表33D ResNet-50网络数据集RGB深度融合策略分数融合乘法融合ACmWIsoGD47.12%49.39%54.12%53.45%56.23%NVGesture75.83%77.29%79.67%76.97%81.32%4.4与最先进方法的在研究了第4.3节中描述的组件之后，我们在两个基准数据集上评估了ACmW模块的性能。我们的方法进行了比较，最近的国家的最先进的方法IsoGD和NVGesture数据集。对于IsoGD数据集，由于大多数方法都在验证子集上发布结果，因此我们也进行了公平比较的实验。如表4和表5所示，现有的基于视频的分类任务采用[34]3DCNN首先分别学习基于RGB和基于深度的网络分支，然后通过组合它们的预测结果给出最终的分类结果虽然这243虚拟现实智能硬件2021年第3平均融合方法可以提高最终分类器的性能，表4与IsoGD数据集融合多流特征以获得更语义化的表示具有挑战性。我们的ACmW模块是一个基于中间融合的策略，它主要是将不同的模态数据转换为高维特征表示，然后，融合它们。该方法的主要优点是融合位置可以灵活选择。通过这种融合策略，方法[49]第四十九话：一个人的世界ACmW（我们的）模态RGB-DRGB-D准确度（%）54.1455.2959.97在IsoGD数据集上提高约5%，在NVGesture数据集上提高约0.1%。表5与NVGesture数据集4.5特征可视化神经激活如图6所示。从图6中可以看出，所提出的ACmW[51]第51话：我的世界ACmW（我们的）模态RGB-DRGB-DRGB-D准确度（%）36.9083.8283.96模块可以有效地融合时空表示，以驱动模型更专注于手臂和手的运动。显然，我们可以看到ACmW对特征图的外观有显著影响。结合RGB和深度模态的优点，指示运动路径的上下文信息。ACmW模块不仅标记与手势相关的区域，例如表演者的手臂，而且还区分视频序列的不同位置处的运动范围。它有效地避免了噪声对特征的影响，这是在没有注意力机制的情况下呈现的，特别是当发生剧烈运动时，例如手臂的抬起或放下。因此，我们的ACmW模块可以更好地引导网络专注于手和手臂，并提供更准确的预测。图6 IsoGD验证集上嵌入ACmW模块的双流C3D网络的特征可视化。5结论在这项研究中，我们开发了一个ACmW计划，通过网络利用RGB-D数据的互补性特征。ACmW模块的主要功能是探索多流特征在时间维度上的相关性，并融合多流特征的空间表示。通过这两个功能的有效结合，来自不同数据模态的多流特征在时间和空间维度上被深度融合大量的实验表明，244[44]第四十四话RGB-D44.80Pyramidal C3DRGB-D45.022SCVN+3DDSN[46]RGB-D49.1732-[47]第四十七话RGB-D49.20BenjiaZHOUetal：Adaptivecros onleronarmulti-mdalgesturere ecgnionin nn我们的方法的有效性。未来的发展方向包括探索ACmW模块在两个以上特征流上的融合性能，并证明ACmW模块在2D卷积网络中的适用性。竞合利益我们声明我们没有利益冲突。引用1刘翔，石宏良，洪晓萍，陈海艳，陶东春，赵桂英.通过隐藏状态探索的3D骨骼姿态识别。IEEE图像处理学报，2020，29：4583DOI：10.1109/tip.2020.29740612刘X，赵G.基于时间扭曲不变黎曼轨迹的3D骨骼姿态识别。IEEE Transactions on Multimedia，2020，99：1DOI：10.1109/TMM.2020.30037833Rautaray S S，Agrawal A.人机交互中基于视觉的手势识别：综述。人工智能评论，2015，43（1）：1DOI：10.1007/s10462-012-9356-94Weissmann J，Salomon R.使用数据手套和神经网络的虚拟现实应用的手势识别。在：IJCNN. IEEE，1999年5孙勇，徐春，李国芳，徐文芳，孔继永，姜东，陶波，陈德生。基于非冗余肌电信号的智能人机交互。亚历山大工程杂志，2020，59（3）：1149DOI：10.1016/j.aej.2020.01.0156苗青，李英，欧阳伟，马智，曹旭。基于ResC3D网络的多模态手势识别。2017 IEEE International Conference onComputer Vision Workshop（ICCVW）IEEE，20177Molchanov P，Yang X，Gupta S，Kim K，Kautz J.使用循环3D卷积神经网络进行动态手势的在线检测和分类。2016年IEEE计算机视觉与模式识别会议（CVPR）IEEE，20168[10]杨文辉，李文辉.多模态手势识别的深度融合策略分析。在：CVPR研讨会。20199王培春，李文清，奥贡博纳P，万J，埃斯卡雷拉S.基于RGB-D的深度学习人体运动识别：一项调查。计算机视觉与图像理解，2018，171：118DOI：10.1016/j.cviu.2018.04.00710Li Y，Miao Q，Tian K，Fan Y，Xu X，Li R，Song J.基于C3 D模型的融合RGB-D数据的大规模手势识别。In：ICPR. IEEE，201611Neverova N，Wolf C，Taylor G，Nebout F. ModDrop：自适应多模态手势识别。IEEE Transactions on PatternAnalysis and Machine Intelligence，2016，38（8）：1692DOI：10.1109/tpami.2015.246154412Pitsikalis V，Katsamanis A，Theodorakis S，Maragos P.通过多个假设重新评分进行多模式手势识别。在：手势识别. Springer International Publishing，2017，467DOI：10.1007/978-3-319-57021-1_1613Wang P，Li W，Liu S，Gao Z，Tang C，Ogunbona P.使用卷积神经网络进行大规模孤立手势识别。In：ICPR.IEEE，201614Zhu G M，Zhang L，Shen P Y，Song J. Multimodal gesture recognition using 3D convolution and convolutionalLSTM. IEEE Access，2017，5：4517DOI：10.1109/access.2017.268418615孙S，庞J，施J，易S，欧阳W. Fishnet：一个用于图像、区域和像素级预测的通用主干。在：NIPS。201816杨文，李文.手势识别：专注于手。在：2018年IEEE/CVF会议上245虚拟现实智能硬件2021年第3计算机视觉与模式识别2018年IEEE年会17Malgireddy M R，Inwogu I，Govindaraju V.用于分类，检测和定位视频序列中活动的时间贝叶斯模型。在：计算机视觉模式识别研讨会. IEEE，2012年18万军，郭国东，李树忠.从RGB-D数据中探索高效的本地特征，用于一次性学习手势识别。IEEE Transactions onPattern Analysis and Machine Intelligence，2016，38（8）：1626-1639 DOI：10.1109/tpami.2015.251347919万军，阮庆庆，李文，安国英，赵仁忠. 3D SMoSIFT：用于RGB-D视频活动识别的三维稀疏运动尺度不变特征变换。电子成像杂志，2014，23（2）：023017 DOI：10.1117/1.jei.23.2.02301720王军，阮庆庆，李伟，邓松.使用特征包从RGB-D数据进行一次性学习手势识别。在：手势识别. SpringerInternational Publishing，2017，329DOI：10.1007/978-3-319-57021-1_1121纪晓萍，程建，陶冬萍，吴晓艳，冯伟.空间拉普拉斯和时间能量金字塔表示用于使用深度序列的人类动作识别。基于知识的系统，2017，122：64-74 DOI：10.1016/j.knosys.2017.01.03522庄丽，刘智，柴翔，陈翔.面向手的时空特征连续手势识别。在IEEE计算机视觉研讨会国际会议上。IEEE计算机协会，2017年23Simonyan K，Zisserman A.双流卷积网络用于视频动作识别。在：NIPS。201424王平，李伟，万军，奥贡博纳，刘晓.用于RGB-D动作识别的深度聚合网络的协同训练。在：AAAI。201825张磊，朱刚，梅玲，沈萍，沙赫·萨阿阿，本那蒙·M.用于手势识别的卷积lstm中的注意力。在：NIPS。201826段宏军，孙英，程文涛，姜东，云建涛，刘英，刘英斌，周德伦.基于多模态特征权重的手势识别。并发与计算：实践与经验，2020DOI：10.1002/cpe.599127何燕，李国芳，廖永军，孙燕，孔建英，蒋国忠，蒋东，陶波，徐松，刘华华.基于改进的局部稀疏表示分类算法的手势识别。集群计算，2019，22（S5）：10935-10946 DOI：10.1007/s10586-017-1237-128姜东，郑正杰，李国锋，孙英，孔继扬，蒋国智，熊洪刚，陶波，徐松，于红，刘洪红，鞠正杰。基于双目视觉的手势识别。集群计算，2019，22（S6）：13261DOI：10.1007/s10586-018-1844-529姜东，李国锋，孙燕，孔继英，陶波。基于卷积神经网络和ASL数据库的手势识别。多媒体工具与应用，2019，78（21）：29953DOI：10.1007/s11042-018-6748-030[10]杨文，李文.使用3D卷积网络学习时空特征。In：ICCV. 201531朱国明，张良，林永.用于手势识别的卷积LSTM中的冗余和注意力。IEEE Transactions on Neural Networks andLearning Systems，201932Yang X，Molchanov P，Kautz J. Making convolutional networks recurrent for visual sequence learning.在：CVPR。201833王宏，王平，宋忠，李伟.使用异构网络的大规模多模态手势识别。在：ICCV研讨会。201734张磊，朱刚，沈萍，宋杰，沙赫萨，本那蒙.使用3DCNN和卷积LSTM学习时空特征进行手势识别。In：ICCV.201735Zhu G，Zhang L，Mei L，Shao J，Song J，Shen P.使用金字塔3D卷积网络进行大规模孤立手势识别。In：ICPR.IEEE，201636Li Y，Miao Q，Tian K，Fan Y，Xu X，Li R，Song J.基于显著性理论和C3 D模型的融合RGB-D数据的大规模手势识别。TCSVT，2018，28（10）：295637吴晓梅，王晓梅，王晓梅.运动融合帧：手势识别的数据级融合策略。IEEE计算机视觉与模式识别研讨会论文集。2018246BenjiaZHOUetal：Adaptivecros onleronarmulti-mdalgesturere ecgnionin nn38胡军，沈林，孙刚.压缩-激励网络。在：CVPR。2018年IEEE年会39胡天刚，林永永，徐培昌.学习自适应隐藏层用于移动手势识别。在：AAAI。201840王军，赵勇，周胜，古永，埃斯卡莱拉，李世智。Chalearn正在研究用于手势识别的RGB-D隔离和连续数据集。在：CVPR研讨会。2016412005年10月27日，中国人民解放军总参谋长办公室副主任，中国人民解放军总参谋长办公室副主任，中国人民解放军总参谋长办公室副主任，中国人民解放军总参谋长办公室副主任。pytorch中的自动微分。在：NIPS 2017研讨会Autodiff提交. 201742李永南，苗清国，田克，范永永，徐新，马志新，宋建芳。基于光流和C3 D模型融合RGB-D数据的大规模手势识别。模式识别信函，2019，119：187-194 DOI：10.1016/j.patrec.2017.12.00343Carreira J，Zisserman A.你说的是行动识别吗新模型和动力学数据集。在：CVPR。IEEE，201744王平，李伟，万军，奥贡博纳，刘晓.用于RGB-D动作识别的深度聚合网络的协同训练。在：AAAI。201845Zhu G，Zhang L，Mei L，Shao J，Song J，Shen P.使用金字塔3D卷积网络进行大规模孤立手势识别。模式识别（ICPR）2016第23届国际会议。IEEE，201646段建良，万军，周松，郭晓英，李树忠.多模态孤立手势识别的统一框架。ACM Transactions on MultimediaComputing，Communications，and Applications，2018，14（1s）：1-16DOI：10.1145/313134347Li Y，Miao Q，Tian K，Fan Y，Xu X，Li R，Song J.基于C3 D模型的融合RGB-D数据的大规模手势识别。2016年第23届模式识别国际会议（ICPR）。201648胡天刚，林永永，徐培昌.学习自适应隐藏层用于移动手势识别。在：AAAI。201849张磊，朱刚，沈萍，宋杰，沙赫.本那蒙使用3DCNN和卷积LSTM学习时空特征进行手势识别。In：ICCV. 201750放大图片作者：John M.汽车接口的实时手势识别：基于多模态视觉的方法和评估。IEEE Transactions onIntelligent Transportation Systems，2014，15（6）：2368-2377 DOI：10.1109/tits.2014.233733151Carreira J，Zisserman A.你说的是行动识别吗新模型和动力学数据集。在：CVPR。IEEE，2017247

下载后可阅读完整内容，剩余1页未读，立即下载