没有合适的资源?快使用搜索试试~ 我知道了~
3304××LD-ConGR:一个用于长距离连续手势识别的刘丹1张立波1,2*吴彦君1,21中国科学院软件研究所,北京2中国科学院杭州高等研究院,杭州{刘丹,李波,严军}@ iscas.ac.cn摘要手势识别在自然人机交互和手语识别中起着重要的作用。 现有的手势识别研究仅限于近距离交互,如车辆手势控制和面对面交流。为了将手势识别应用于会议、智能家居等远距离交互场景,建立了大规模的RGB-D视频数据集LD-ConGR与现有手势数据集的区别在于其长距离手势收集、细粒度注释和高视频质量。具体地,1)由LD-ConGR提供的最远手势是在距离相机4m处捕获的,而现有手势数据集收集距离相机1 m内的手势; 2)除了手势类别之外,手势的时间分割和手的位置也在LD-ConGR中注释; 3)视频以高分辨率(1280 720用于彩色流和640576为深度流)和高帧速率(30fps)。在LD-ConGR的基础上,进行了一系列的实验研究,实验结果表明,提出的手势区域估计和关键帧采样策略能够有效地处理长距离手势识别和手势持续时间的本文所提供的数据集和实验结果有望推 动 远 距 离 手 势 识 别 的 研 究 。 该 数 据 集 可 在https://github.com/Diananini/LD-ConGR-CVPR 2022上获得。1. 介绍手势是一种重要的信息传递方式。我们用手势来辅助语言表达,*通讯作者(libo@iscas.ac.cn)。本工作得到了中国科学院前沿科学重点研究项目(批准号:ZDBS-LY-JSC 038)的资助。张立波获CAAI-Huawei MindSpore开放基金和中国科学院青年创新促进会资助(2020111)。杰斯特NVIDIA手势自我手势ChaLearn ConGDIPN手LD-ConGR(我们的)图1.来自手势数据集的示例帧。每个帧的左上角标记从中采样的数据集。我们的数据集LD-ConGR中的手势是在长距离处收集的,并且识别起来更具挑战性。与聋人交流、指挥交通等等。更进一步说,手势帮助我们更自然、更方便地与机器进行交互2)在医院、会议、智能家居等场景中,人们更喜欢手势、语音等非接触式交互方式3)手势交互更加用户友好,降低了使用智能设备的障碍。 手势识别有许多数据集[1,12,15,21,27]和相关研究[2,3,10,16,18,28这些数据集集中于与可穿戴设备的交互(例如,EgoGesture [27])、与车辆的交互(例如,NVIDIA手势[15])、手语和象征性手势(例如,ChaLearnConGD [21]),或与计算机的交互(例如,Jester [12]和IPN Hand3305××[1])。如我们所见,现有的数据集都是面向近距离手势交互的,并且收集距离受试者非常近的手势然而,在诸如会议和家庭自动化的许多场景中,用户远离要控制的机器。此外,由于早期数据采集传感器的限制,现有的数据集无法满足远距离手势识别对视频质量的高要求。本文针对长距离连续手势识别,建立了一个大规模的高质量RGB-D视频数据集LD-ConGR。首先,LD-ConGR引起了人们对长距离手势交互的关注。与现有的记录距离相机1米以内的手势的数据集不同,我们在长距离(1米和4米之间)捕捉手势图1示出了从不同的GES采样的示例帧真实数据集。可以看出,LD-ConGR中的手势是以大视场捕获的,并且手很小并且难以识别,这对手势识别提出了新的挑战。其次,LD-ConGR提供了连续手势识别的细粒度注释连续手势识别不仅需要对手势进行分类,还需要检测视频中手势的特定持续时间。在LD-ConGR中,每个视频包含多个手势,并且所有手势都手动标记有类别以及视频中的开始帧和结束帧。值得注意的是,我们还在每帧中注释最后,在LD-ConGR中收集的视频具有高质量。Kinect V41配备了先进的深度传感器,用于收集高质量的RGB-D视频数据。颜色和深度流以30fps同步捕获,分辨率分别为1280 - 720和640 - 570。基于提出的LD-ConGR数据集,我们进行了一系列的实验探索。实现了基于3D ResNeXt [ 23 ]的基线模型,并实现了85。RGB数据的准确率为33%为了更好地利用深度信息,我们从[9]和[10]的思想中学习建立多模态手势识别模型ResNeXt-MMTM。准确度达到89。为了处理长距离手势识别,我们估计手势的可能出现的区域的基础上的手的位置和进行识别的估计手势区域。该策略将精度提高了9. 33%,7。RGB数据和RGB-D数据分别为67%。此外,我们观察到手势持续时间的巨大差异给识别带来了很大的困难.鉴于此,我们尝试基于帧间差异提取视频的关键帧,以去除长时间手势的冗余帧。实验结果表明,关键帧采样策略降低了手势速度和持续时间的影响,1https://azure.microsoft.com/en-us/services/kinect-dk以较少的帧实现高速、准确的识别本文的主要贡献如下:1)提出了一个新的大规模RGB-D视频数据集LD-ConGR,这是第一个用于长距离连续手势识别的数据集LD-ConGR使用手势类别、时间分割(视频中手势的开始帧和结束帧)和手部位置进行精细注释。该数据集将向公众开放。2)本文介绍了LD-ConGR上的基线方法和最新的手势识别方法,为后续研究提供参考。3)针对LD-ConGR提出的两个主要挑战:长距离识别和手势持续时间的不确定性,我们探索了可能的解决方案并提供更多的研究方向。2. 相关工作2.1. 手势识别数据集现有的手势识别数据集是在靠近做出手势的主体的地方收集的,因为它们是为近距离人机交互或手语理解而建立的。EgoGesture [27]专注于与可穿戴设备的手势交互。它是用安装在受试者头部的Intel Re-alSenseSR 300 RGB-D相机收集的。在Jester [12]和IPN Hand [1]数据集中,要求子用户使用自己的个人电脑或笔记本电脑记录手势。他们坐在电脑摄像头前,模拟用手势操作电脑. NVIDIA Gesture [15]旨在通过手势来操纵汽车。NVIDIA Ges- ture [15]中的手势记录在汽车模拟器中。打手势的手直接在收集器SoftKinetic DS325传感器的前面至于ChaLearn ConGD [21],受试者站在距离Kinect V1摄像头1米以内的地方可以看出,这些数据集中的手势手非常靠近相机,这意味着手势是突出的并且容易识别(参见图1)。然而,在许多应用场景中,有必要从远距离与机器进行交互。例如,在会议中,与会者希望远程控制交互式会议板以播放幻灯片和翻页。在家庭自动化中,我们乐于使用手势来调节灯光、电视音量和电影播放进度。为了填补长距离手势交互数据的空缺,本文发布了一个大规模的RGB-D视频数据集LD-ConGR。要求受试者在每个场景中的6个记录点处进行手势,这些记录点均匀分布在距离相机1m至4m这使得我们的数据集包含各种手势距离和复杂的背景。它为手势交互提供了更真实、更全面的数据。另一个问题是注释的粒度。 对于GES-3306××在真实的识别数据集上,手势的类别是最粗粒度的标注,而更细的标注需要标记手势在视频中的开始和结束除了EgoGesture数据集[27]之外,上述所有其他数据集都提供了手势的精确时间段。值得注意的是,我们提出的数据集LD-ConGR进一步注释了每帧中手的位置,这可以帮助在长距离手势识别中快速定位手势的关键区域。2.2. 手势识别方法根据手势的时间边界是否被指出,手势识别可分为孤立手势识别和连续手势识别。孤立手势识别是指对包含单个手势的给定序列连续手势识别是指检测每个手势实例的开始和结束,并识别给定视频序列的类别,该视频序列可能包含不止一个手势。连续手势识别的一般方法。滑动窗口是处理连续手势识别的常用策略[2,10,15]。该方法的基本思想通过累积平均或其他策略融合窗口的预测结果,连续手势识别中不可避免的问题是非手势段的检测和处理。现有的方法大致可分为两类。一种是单独处理非手势剪辑[1,10]。这种方法首先训练一个轻量级的二进制分类器来检测手势是否出现。如果在视频剪辑中存在手势,则对其执行多类分类另一种是添加一个额外的无手势类,并将其与手势类一起处理[3,15]。换句话说,它直接预测视频剪辑属于所有手势类和不属于手势类的概率。与第一类方法相比,第二类方法可以进行端到端的优化,因此我们按照第二类方法处理非手势片段。动态手势的特征提取。对于动态手势的特征提取,需要同时考虑空间和现有的方法大多使用卷积神经网络(CNN)来提取空间特征。对于时间特征的表示,有三种主要方法:第一种是基于光流[4,16,18],运动矢量[25]等,第二种是使用递归神经网络(RNN)学习时间特征[3,8,15,17,26],最后一种是基于3D控制。卷积[4,10,14,20,28],其在三维(两个空间维度和一个时间维度)维数)来同时提取空间特征和时间特征。在本文中,我们采用3D ResNeXt [23],一种3D CNN架构,作为基线模型。手势识别中的多模态学习。多模态数据可以反映上下文的不同方面。从多模态数据中学习和融合相关特征多模态数据融合可以在数据级、特征级或决策级实现数据级融合尝试在将多模态数据馈送到识别模型之前将其融合。[11]通过将从先前帧计算的光流图作为额外通道附加到RGB帧来融合光流和颜色模态。特征级融合首先提取不同模态数据的特征,然后设计算法融合这些特征进行预测。[13]分析来自不同模态的特征之间的成对相关性以融合特征。[9]提出了一种多模态传输模块(MMTM),它可以应用于特征层次结构的任何级别它能够融合具有不同空间维度的模态通过将MMTM加入到网络的多个层中,分层渐进融合[6]基于注意机制对不同模态的特征进行融合,融合过程中考虑了数据的时序性。这确保了多模态特征在时间维度上对齐。 至于决策级融合,它为每个数据模态分别设计网络结构,然后对从不同数据模态获得的预测得分进行平均[4]或加权平均[16]作为最终结果。决策级融合的可用信息仅限于网络的顶层输出,非常抽象和紧凑,因此其带来的性能改善不如特征级融合。鉴于上述分析,我们在MMTM的基础上,在特征层上整合RGB和深度模态的信息。3. LD-ConGR数据集LD-ConGR数据集是为长距离手势识别任务开发的。它包含10个手势类,其中三个是静态手势,七个是动态手势。这些手势的标准做法如图所示。二、可以看出,手势的设计涉及到各种各样的手LD-ConGR共收集了542个视频和44,887个手势实例这些视频是从5个不同场景的30个子场景中收集的,并使用KinectV4以第三视角捕捉每个视频包含一个颜色流和一个深度流。两个流以30fps同步记录。颜色流和深度流的分辨率分别为1280 720和640 576。被摄体与相机的距离在1米到4米之间,保证了远距离特性3307××棕榈拳头右拇指向上向下向上移动左右捏单击图2. LD-ConGR数据集的十个手势类,包括三个静态手势(“手掌”,“拳头”,“捏”)和七个动态手势(“向右移动”,“拇指向上”,“向下”,“向上”,“向左”,“向右”,“点击”)。每一列都显示了上面提到的手势的标准做法。红色箭头指示手移动的方向。手势的数据集。我们为视频中的每个手势实例标记类别以及开始和结束帧。此外,每个帧中的手的位置用边界框标记,这有利于长距离手势识别。在下面的小节中,我们将介绍数据集的收集和标注,报告数据统计,并将LD-ConGR数据集与其他手势识别数据集进行对比分析。3.1. 数据收集和注释收藏. 我们使用Kinect V4来收集RGB-D视频数据。Kinect V4被称为Kinect for Azure,于2019年发布我们同步记录的颜色和深度流的分辨率为1280 720和640 576分辨率和30fps的帧速率视频录制安排在5个不同设计和家具的会议室每个场景设置6个记录点,记录点到摄像机的距离在1米到4米之间(详见补充资料)。共有30名受试者参与数据收集,并被随机分配到5个场景中记录手势。在记录之前,所有的受试者都被展示了标准的手势,并进一步检查所记录的视频是否正确。受试者被要求连续地执行手势,并且允许在两个手势实例之间有短暂的休息。这些数据只允许用于学术研究,我们将为签署数据使用协议的申请人提供严格的访问权限。告知受试者数据的使用情况并签署知情同意书。注释。我们为视频中的每个手势实例帧以30fps从视频中提取用于手势注释。由于颜色和深度视频流是同步的,因此仅颜色流需要被标记,而注释需要课程时间表1.拟议的LD-ConGR数据集的统计数据。手势持续时间以帧为单位进行测量。可以相应地获得深度视频。此外,每个帧中的手的位置用边界框注释。在远距离手势识别中,手部区域占帧的比例很小。因此,手的定位有助于摆脱冗余背景信息的干扰,专注于手势本身。与手势标注不同,手部位置标注以15fps进行。由于在高帧率下,相邻帧之间的手的位置变化很小,因此在低帧率下标记手的位置可以节省大量的时间和人力。3.2. 数据统计LD-ConGR数据集包含10个不同手势类的44,887个手势实例。 该方法将数据集按子空间随机分为训练集和测试集.训练集包括从23个受试者中收集的总共34,315个另外7名被试所做的手势,总共10572个手势,被收集作为测试集。每个手势类的实例数显示在Tab中。1.一、有更多的2)这些棕榈也被计算在内。至于手势持续时间,测量帧,分析和详细的统计,包括平均值,标准偏差,最大值和最小值,报告在表。1.一、可以看出,手势的持续时间在同一手势类内和不同手势类之间都有很大的波动在整个数据集中,最长手势和最短手势之间的持续时间差异可以达到88帧(92vs.4).即使对于相同手势类的实例,最大持续时间差也是82总火车测试Avg. STD. 最大分钟棕榈15,315 11,672 3,643 10.96 4.20544拳头2,6892,05963016.38 4.60375拇指2,6892,05963036.56 7.607210右移2,6892,06262738.52 8.29788向下2,6862,05563127.32 7.09627向上2,6792,04963027.39 7.138511左2,6842,05363126.27 6.409210权2,6902,06063025.58 6.33548捏2,6862,05663016.28 4.75605单击8,0806,1901,890 11.88 3.48335总44,887 34,315 10,572 18.70 10.809243308∼××××××数据集类 视频距离标签分辨率帧率/fps猫隔离区Loc.RGB深度小丑[12]27148,092148,0921米长×100- 12<[15]第十五话251,5321,532<1米长✓320 ×240 320×24030[27]第二十七话832,08124,161<1米长✓640 ×480 640×48030[21]第二十一话24922,53547,933<1米长✓320 ×240 320×24010IPN手[1]132004,218<1米长✓640 ×480- 三十LD-ConGR(我们的)1054244,8871m² 4m²✓ ✓ 1280 ×720 640×57630表2.我们的数据集LD-ConGR和流行的手势识别数据集的比较。‘Distance’ means subject distance, 相机和拍摄对象之间的距离。这里的标签包括手势类别(“猫”),时间分割(“Seg.”),和手的位置帧第10段)。手势持续时间的巨大差异有两个主要一个是不同的人以不同的速度做手势,另一个是不同类别的手势需要不同的时间。手势持续时间的巨大差异和不确定性也给手势识别带来了巨大的挑战。我们将在SEC中分析和探索可能的解决方案。四点三。3.3. 比较分析在选项卡中。2,我们将我们的数据集LD-ConGR与公开可用的手势识别数据集进行比较,包括Jester[12] , NVIDIA Gesture [15] , EgoGesture [27] ,ChaLearn ConGD [21]和IPN Hand [1]。下面我们将从主题距离,标签和视频质量三个方面进行详细的比较和解释我们的数据集的优势。目标距离在所有这些数据集中,只有我们的数据集LD-ConGR是建立用于长距离手势识别。如图1所示,在先前公布的数据集中,在拍摄期间,受试者非常接近相机。记录(1米以内)。因此,视频中的手是突出的,手势的细节是清晰和明显的。很容易正确识别这些手势。然而,在许多需要长距离手势交互的场景在诸如会议和电影观看的场景中,即使当对象远离相机时,也有必要准确地识别手势我们的数据集就是为了解决这个问题而构建的。在我们的设置中,当执行手势时,主体距离相机1米4米。据我们所知,LD-ConGR数据集是第一个针对长距离手势识别的数据集。Label. Jester数据集[12]被收集用于手势分类,并且仅提供手势类别注释。除了类别信息之外,NVIDIAGesture [15] , EgoGesture [27] , ChaLearn ConGD[21],IPN Hand [21]和我们的数据集LD-ConGR还为每个手势提供了特定的时间分割,即,视频中手势的开始帧和结束帧。这对于连续手势检测非常重要,而连续手势检测无需不仅对手势进行分类,而且还确定手势的开始和结束。此外,我们在每个视频帧中注释手的位置。LD-ConGR是第一个提供这种细粒度注释的几何识别数据集我们希望手部位置的精确标注能够为远距离手势识别带来更多的帮助。质量. 我们数据集中收集的视频质量很高。正如我们在Tab中看到的。2,我们的数据集提供了高清RGB视频数据(1280 720),而其他手势数据集的最高分辨率只有640 480。此外,深度流(与颜色流同步捕获)在我们的数据集中可用,分辨率(640 576)高于 NVIDIA Gesture ( 320 240 ) 、 EgoGesture ( 640480)和ChaLearn ConGD(320 240)。此外,以高帧速率(30fps)捕获颜色和深度流。4. 实验研究在本节中,我们将首先介绍LD-ConGR数据集的基线方法,然后讨论数据集提出的两个重要问题:长距离手势识别和手势持续时间的巨大不确定性。最后,我们评估了LD-ConGR数据集上手势和动作识别领域的最先进方法。4.1. 基线法我们基于ResNeXt-101 [23]构建了一个基线模型,并进行实验以探索不同输入方式的识别性能。在我们的实验中,ResNeXt-101网络用于在单一模态(RGB或深度)上进行手势识别。对于多模态手势识别,我们从[9]的思想中学习设计了一个多模态融合模型ResNeXt-MMTM 。 ResNeXt-MMTM 的 结 构 如 图 3 所 示 。ResNeXt-MMTM为每个模态维护一个ResNeXt-101网络,并通过多模态传输模块(MMTMs)在多个层融合不同模态的特征[9]。MMTM学习多模态嵌入并使用3309∅∅Σv| |Σ×v×CRGB流深度流其中,Gv,c和Pv,c是属于视频v,representation的地面实况和预测中的姿势c的所有帧的集合。当Gv,c=或Pv,c=时,Jv,c被设置为0。 视频v的Jaccard指数被定义为所有地面实况手势类别C上的Jaccard指数的平均值:J=1J|C|c∈Cv,c.(二)模型性能通过所有测试视频的平均Jaccard指数进行评估:J=1J,(3)|V|v∈V其中,V是测试视频集合,并且V是指集合中的视频的数量。当类不平衡时,J不能准确地反映模型的性能。在这种情况下,每个类别的平均Jaccard指数可用于进一步评估模型:J=1J|V|v∈Vv,c.(四)图 3. RGB-D 基 线 模 型 ResNeXt-MMTM 的 架 构 。 采 用 3DResNeXt-101 [23] 从 RGB 和 深 度 流 中 提 取 特 征 , 并 通 过MMTMs[9]在四个级别融合两种模态的特征。重新校准每种模态的特征。在我们的设计中,从RGB和 深 度 流 中 提 取 的 特 征 在 每 个 ResNeXt 块 之 后 由MMTM混合。从全连接层输出的特征向量通过逐元素相加进行积分,然后传递到softmax层以获得最终的预测结果。评估指标。在LD- ConGR数据集上研究了孤立手势识别和连续手势识别.对于孤立手势识别任务,采用准确度来评估模型,而对于连续手势识别任务,采用平均Jaccard指数[21Jaccard指数是地面实况姿势段和预测姿势段的重叠帧与总帧的比率。对于视频v和手势类c,Jaccard指数可以计算为:训练和测试。在训练阶段,首先将手势片段随机裁剪或循环填充到32帧的固定长度,然后对空间维度上的所有帧应用多尺度随机裁剪,以获得112 112个区域。在我们的实验中,弹性失真被用于进一步的数据增强。在孤立手势识别的测试阶段,采用中心裁剪或循环填充来生成具有32帧长度的手势剪辑,并且帧在被馈送到模型之前在空间维度上被缩放到112 112。手势的开始和结束在孤立的手势识别中是已知的,并且仅需要对手势段进行对于连续手势识别,当手势出现在视频中时,模型不会被告知。这里采用滑动窗口方法来处理这个问题。我们使用一个32帧的窗口以一定的步幅(在我们的实验中为2帧)在视频序列上滑动每个窗口剪辑都与孤立的手势识别一样进行预处理,然后发送到模型以确定手势类(包括无手势类)。初始手势设置为无手势。当预测的手势与两个连续窗口的先前手势不一致时,认为出现了新手势,并且窗口的第一帧和最后一帧的索引分别被记录为新手势的开始和结束。当预测的手势与先前窗口一致时,手势的结束被更新为当前窗口的最后帧的索引。结果 报告了基线方法的 结果Jv,c =Gv,c<$Pv,c,(1)Gv,c在选项卡中。3 .第三章。在RGB模态上训练的基本ResNeXt-101模型达到85。33%的准确率和0。31平均值Softmax平均池化平均池化ResNeXt Block4MMTM4ResNeXt Block4ResNeXt Block3MMTM3ResNeXt Block3ResNeXt Block2MMTM2ResNeXt Block2ResNeXt区块1MMTM1ResNeXt区块1最大池化最大池化Conv1Conv1手势分类FCFC3310类别准确度/%平均Jaccard指数输入模态原战略区域区域键16帧RGB 82.16 92.0293.26表4.有和没有手势区域估计和关键帧采样策略的准确性。表3.基线方法的结果。Jaccard指数应该注意的是,当结合颜色和深度信息进行识别时,准确度和平均Jaccard指数增加了4。33%(85. 33%,89岁。66%,0。03(0. 31对0的情况。34)分别与仅使用RGB模态进行比较。结果表明,包含在RGB流的手的细节是必要的长距离手势识别,和深度模态可以提供额外的信息,以协助识别。4.2. 远距离手势识别在远距离手势识别中,手部区域在图片中所占比例很低,模型可用于捕捉和识别手势的特征非常有限。我们尝试使用手的位置来估计手势可能发生的区域,然后在估计的区域中执行手势检测和识别。由LD-ConGR数据集提供的手位置注释可以辅助训练过程,并且可以被开发用于训练手检测器以在测试阶段估计手势使用第一跟踪手位置R手=(x,y,w,h)来预测手势区域,其中x、y是手边界框R手的中心坐标,并且w、h是R手的宽度和高度。手势区域Rges是以(x,y)为中心的扩展矩形区域:Rges=(x,y,rw× w,rh× h).(五)rw>1和rh>1是宽度和高度的延伸率。由于LD-ConGR中的10个手势类具有大的水平移动和小的垂直移动(参见图2),因此在我们的实验中rw和rh分别被设置为5和4。在补充材料中说明了使用手势区域估计进行训练和预测的具体过程手势区域估计策略去除了空间维度中的大部分冗余信息,放大手势细节,这可以帮助模型更快地学习手势特征。此外,它可以定位和识别手势的情况下,多个手势发生在同一时间。为了验证这种策略的效果,我们进行了实验,不同的输入长度和数据模态。没有和有手势区域估计的测试结果在选项卡的“原始”和“区域”列中示出4分别。当输入帧长为16帧时,精度提高了9.86%(92. 02%,82岁16%)的RGB数据和7。75%(93.75%,86岁。00%)的RGB-D数据。在32帧长输入下,精度提高了9. 33%(94. 66%, 八十五33%)的RGB数据和7。67%(97. 33%,89岁。66%)的RGB-D数据。实验结果表明,手势区域估计是一种较好的远距离手势识别策略。4.3. 手势持续时间手势持续时间的不确定性给手势识别带来了很大的3.2.对于长持续时间手势,需要使用大窗口来捕获长期时间依赖性,而对于短持续时间手势,小窗口是足够的。此外,在实时连续手势检测中,不知道手势将持续多长时间,并且设置适当的预测窗口大小是棘手的。大的窗口会增加计算量,降低推理速度.另一方面,可能涉及太多的干扰因素,诸如相邻手势和非手势片段。小窗口可能无法捕捉手势的关键信息,导致错误判断。为了解决这个问题,我们尝试提取视频的关键帧,并对关键帧进行手势识别。关键帧的作用有三个方面:1)由于视频是以高帧率记录的,因此相邻帧之间存在大量相似信息。对关键帧进行采样可以去除冗余帧并减少计算负担。2)不同的人以不同的速度做出手势,这使得手势的时间特征可变且难以学习。使用关键帧可以减少不同手势速度的影响。3)关键帧减少了识别手势所需的帧的数量在RGBRGB-DRGBRGB-D棕榈84.9090.940.020.01拳头76.3581.900.110.11拇指95.0899.210.330.57右移98.4199.360.610.65向下98.8998.890.540.54向上93.9796.030.340.38左91.2897.620.520.51权91.9097.780.500.50捏38.8946.190.020.01单击85.4587.300.110.09总85.3389.660.310.34RGB-D86.0093.7594.6832帧RGB85.3394.6694.62RGB-D89.6697.3397.453311∼班级平均数持续时间标准最大持续时间持续时间表5.统计关键帧采样前后的手势持续时间。换句话说,仅仅一个小的窗口就可以实现高的识别精度。此外,小窗口保证了快速的预测速度。根据帧间差异提取手势的关键帧帧差计算仅限于以手为中心的矩形区域。宽度是手宽的五倍,高度是手高的四倍,与“手势区域”的大小一致(参见等式10)。(5))。原始手势帧和关键帧的统计信息显示在选项卡中。五、可以看出,关键帧采样去除了大约一半数量的帧(18. 70对9.第九条。平均60),并降低了在geture持续时间(10。80对4.第一章95的标准偏差)。最长的手势从92帧减少到41帧。我们将关键帧采样策略添加到第二节中介绍的模型中。四点二。测试结果列在选项卡的“Region Key”列中4.第一章可以看出,16帧输入,精度提高1. 24%和0。RGB数据和RGB-D数据分别为93%。对于32帧输入,没有显著的性能改进,因为大窗口已经为识别提供了足够的长期在原始数据上,与大窗口相比,小窗口在速度上具有优势,但在精度上没有优势。相比之下,对于关键帧,小输入窗口可以存储长期信息以获得高识别精度,同时保持速度优势。4.4. 最先进的评估我们评估了最先进的手势和动作识别方法的建议LD-ConGR数据集。结果见表。六、考虑到从头开始预训练这些模型可能导致次优性能,使用公开的预训练模型。避免模型输入预训练Acc./%C3 D [19] 32-帧-88.32I3D [4] 32帧Kinetics400 [4] 90.11SlowFast [5] 64帧Kinetics400 [4] 93.51TSN [22] 8-seg Kinetics 400 [4] 86.80[24]第24届中国国际汽车工业展览会[12]第12话:我的世界表6. LD-ConGR的RGB模式的代表性方法的结果不同的多模态数据处理方法的影响,比较是基于RGB模态。C3D [19],I3D [4],SlowFast [5]和我们的方法基于3D CNN,实验中时间维度的输入大小列在“输入”列中与通过3D卷积同时提取空间和时间特征的基于3DCNN的方法不同,TSN [22]和TPN-TSM [24]分别对空间和时间信息进行建模。他们对视频进行分段,并从每个分段中抽取一帧然后使用2D CNN从采样帧中提取空间特征,并且时间特征由TSN [22]中的光流表示,或者从TPN-TSM [24]中的时间上下文中学习。结果表明,TSN [22]和TPN-TSM [24]的性能不如 LD-ConGR数据集上基于3D CNN的方法的性能好这主要是因为具有长持续时间的手势可能在分割和随机采样中丢失关键帧3D CNN在提取时空特征方面表现出很强的能力。 值得注意的是,我们的模型达到了94。66%的准确率(高于所有其他方法),证明了其优越性。5. 结论本 文 提 出 了 一 个 大 的 RGB-D 视 频 数 据 集 LD-ConGR,这是第一个针对长距离连续手势识别的数据集。LD-ConGR包含高质量的视频数据和细粒度的注释,包括手势类别、时间分割和手部位置。与现有的手势数据集相比,LD- ConGR在长距离(1米4米)下捕捉手势,手势持续时间变化范围较广(从4帧到92帧)。针对长距离手势识别和手势持续时间的不确定性,提出了手势区域估计和关键帧采样两种策略。我们相信我们的数据集和实验研究可以启发许多领域的研究,包括但不限于手势识别,动作识别和人机交互。原关键原关键原关键棕榈10.966.854.202.745424拳头16.388.864.603.033719拇指36.5616.597.605.067237右移38.5215.828.295.157841向下27.3213.027.094.766231向上27.3912.927.134.638532左26.2712.506.404.599235权25.5810.786.334.475429捏16.288.904.753.306023单击11.886.783.482.233320总18.709.6010.804.9592413312引用[1] 纪伯伦·贝尼特斯-加西亚,赫苏斯·奥利瓦雷斯-梅尔卡多,加布里埃尔 ·桑切斯-佩雷斯和柳井敬二。Ipnhand:一个视频数据集和实时连续手势识别的基准在ICPR中,第4340-4347页。IEEE,2021。一、二、三、五[2] Necati Cihan Camgoz,Simon Hadfield,Oscar Koller和Richard Bowden。使用卷积3d神经网络进行与用户无关的连续手势识别。载于ICPR,第49-54页。IEEE,2016.第1、3条[3] Congqi Cao,Yifan Zhang,Yi Wu,Hanqing Lu,andJian Cheng.使用具有时空变换器模块的循环3d卷积神经网络进行自我中心手势识别。在ICCV,第3783-3791页,2017年。第1、3条[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页三、八[5] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,第6202-6211页,2019年。8[6] Harshala Gammulle,Simon Denman,Sridha Sridharan,and Clinton Fookes. TMMF:单阶段连续手势识别的时间多模态融合。 IEEE Trans. 图像处理。,30:7689-7701,2021. 3[7] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,Moritz Mueller-Freitag,et al. The在ICCV,第5842-5850页,2017年。8[8] Jie Huang , Wengang Zhou , Qilin Zhang , HouqiangLi,and Weiping Li.基于视频的无时间分割手语识别。在AAAI,2018。3[9] Hamid Reza Vaezi Joze , Amirreza Shaban , Michael LIuz-zolino,和Kazuhito Koishida.多模态传输模块的cnn融合。在CVPR中,第13289二三五六[10] OkanK? pu? klu? ,AhmetGunduz,NeslihanK?ose,andGerhardRigoll.使用卷积神经网络的实时手势检测和分类。在IEEE国际会议上Au-Face Gesture ,第1-8页。IEEE,2019。第1、3条[11] Okan Kopuklu、Neslihan Kose和Gerhard Rigoll。运动融合帧:用于手势识别的数据级融合策略在CVPRW,第2103-2111页,2018年。3[12] Joanna Materzynska 、 Guillaume Berger 、 Ingo Bax 和Roland Memisevic。Jester数据集:人类手势的大规模视频数据集。在ICCVW,第0-0页,2019年。一、二、五、八[13] Qiguang Miao , Yunan Li , Wanli Ouyang , ZhenxinMa , Xin Xu , Weikang Shi , and Xiaoxun Cao. 基 于resc3d网络的多模态手势识别。在ICCVW,第3047-3055页,2017年。3[14] Pavlo Molchanov , Shalini Gupta , Kihwan Kim 和 JanKautz。用3d卷积神经网络进行手势识别。在CVPRW,第1-7页,2015年。3[15] Pavlo Molchanov , Xiaodong Yang , Shalini Gupta ,Kihwan Kim,Stephen Tyree,and Jan Kautz.在线检测与3313基于递归3D卷积神经网络的动态手势分类在CVPR中,第4207-4215页,2016年。一、二、三、五[16] Pradyumna Narayana , Ross Beveridge 和 Bruce ADraper。手势识别:专注于手。在CVPR中,第5235-5244页,2018年。第1、3条[17] 鲍文施,奥罗拉马丁内斯德尔里奥,乔纳森基恩,黛安布伦塔里,格雷格沙赫纳罗维奇,和卡伦利维斯库。用迭代的视觉注意力在野外进行手指拼写识别在ICCV,第5400-5409页,2019年。3[18] Karen Simonyan和Andrew Zisserman双流卷积网络用于 视 频 中 的 动 作 识 别 。 arXiv 预 印 本 arXiv :1406.2199,2014。第1、3条[19] Du Tran , Lubomir Bourdev , Rob Fergus , LorenzoTorre- sani,and Manohar Paluri.用3d卷积网络学习时空特征。在ICCV,第44898[20] Du Tran , Heng Wang , Lorenzo Torresani , JamieRay,Yann LeCun,and M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功