没有合适的资源?快使用搜索试试~ 我知道了~
3288一种用于三维动作识别的骨架序列表示方法柯秋红1,穆罕默德·本那蒙1,安森健1,费道斯·索赫尔2,法里德·布赛义德11西澳大利亚大学2默多克大学qiuhong.ke邮件research.uwa.edu.au{mohammed.bennamoun,senjian.an,farid.boussaid}@uwa.edu.auf.murdoch.edu.au摘要本文提出了一种基于骨架序列的三维动作识别新方法(即,人体骨骼关节的3D轨迹该方法首先将每个骨架序列转换为三个剪辑,每个剪辑由几个帧组成,用于使用深度神经网络进行时空特征学习每个剪辑都是从骨架序列的圆柱坐标的一个通道生成的。所生成的剪辑的每个帧表示整个骨架序列的时间信息,并且并入关节之间的一个特定空间关系整个剪辑包括具有不同空间关系的多个帧,其提供了人体骨骼的有用空间结构信息我们建议使用深度卷积神经网络从生成的剪辑的帧中学习骨架序列的长期时间信息,然后使用多任务学习网络(MTLN)并行联合处理生成的剪辑的所有帧,以合并空间结构信息用于动作识别。实验结果清楚地表明了所提出的新的表示和特征学习方法的有效性的三维动作识别。1. 介绍3D骨架数据记录了人体骨骼关节的轨迹,对照明变化具有鲁棒性,并且不受摄像机视图的影响[14]。随着高精度和经济实惠的设备的普及,基于3D骨架序列的动作识别已经吸引了越来越多的关注[49,42,6,37,54,26,22,46,19]。在本文中,我们专注于基于人脸的3D动作识别。为了识别视频动作,需要利用序列的时间信息来理解人类姿势的动态[29,9,44,8,20]。小骷髅数据,人体骨架的空间结构也是动作识别的重要线索[54]。每个骨架序列仅提供人体骨架关节的轨迹。关节的时间序列可用于具有长短期记忆(LSTM)神经元的递归神经网络(RNN)[11,12],以探索用于动作识别的骨架序列的空间结构和时间结构[6,41,54,37,26]。尽管LSTM网络旨在探索长期的时间依赖性问题,但LSTM仍然很难记住具有许多时间步长的整个序列的信息[48,13]。此外,构建深度LSTM来提取高级特征也很困难[35,30]。卷积神经网络(CNN)[24]如今在图像分类方面取得了巨大的成功[2,3,23,38,39,50,21]。然而,对于视频动作识别,它缺乏对整个视频的长期时间依赖性进行建模的能力[45]。在本文中,而不是直接探索长期的时间信息的骨架序列,我们首先表示的骨架序列作为剪辑组成的只有几个帧。 利用生成的剪辑,可以通过使用深度CNN来处理生成的剪辑的帧图像来有效地学习骨架序列的长期时间结构。此外,可以从整个剪辑中利用人体骨架的空间结构信息。更具体地说,对于每个骨架序列,我们生成对应于骨架序列的圆柱坐标的三个通道的三个剪辑。每个片段由四个帧组成,这些帧是通过计算关节与四个参考关节的相对位置生成的。剪辑的每个帧描述整个骨架序列的时间信息,并且包括关节之间的一个特定空间关系。整个剪辑聚集了具有不同空间关系的多个帧,提供了骨骼关节的空间结构的重要信息。3289由于骨架序列的时间信息被合并在所生成的剪辑的帧中,因此可以通过从所生成的剪辑的帧中提取特征来学习骨架序列的长期时间结构。更具体地,将所生成的剪辑的每个帧馈送到深度CNN以提取CNN特征。然后,在同一时间步(见图1)的三个剪辑的三个CNN特征被连接到一个特征向量中。因此,从所有的时间步长中提取四个特征向量。每个特征向量表示骨架序列的时间信息和关节之间的一个特定空间关系。不同时间步长的特征向量表示不同的空间关系,它们之间具有内在联系。本文提出利用不同特征向量之间的内在关系,使用多任务学习网络(MTLN)进行动作识别多任务学习旨在通过联合训练多个相关任务并利用它们的内在关系来提高泛化性能[1]。在所提出的MTLN中,每个特征向量的分类被视为一个单独的任务,MTLN联合学习多个分类器,每个分类器来自一个特征向量,并输出多个预测,每个预测对应于一个任务。同一骨架序列的所有特征向量具有与骨架序列相同的标签。在训练过程中,每个任务的损失值都是使用自己的类分数单独计算的。然后将所有任务的损失值相加以定义网络的总损失,然后使用该总损失来学习网络参数。在测试过程中,所有任务的类得分被平均以形成动作类的最终预测。多任务学习通过权重共享同时解决多个任务,可以提高单个任务的性能[1]。本文的主要贡献概括如下。 (1)我们建议将每个骨架se-序列到新的表示,即, 三个夹子,通过使用深度CNN从帧图像中学习分层特征,对骨架序列进行全局长期时间建模。(2)引入一个MTLN来处理生成的视频片段中所有帧的CNN特征,从而学习骨架序列的空间结构和时间信息。MTLN通过利用生成的剪辑的不同帧之间的内在关系来提高性能。我们的实验结果表明,MTLN的性能优于合并或合并帧的特征(见第4.3节)。(3)所提出的方法在三个骨架数据集上实现了最先进的性能,包括大规模NTURGB+D数据集[37]。2. 相关作品在本节中,我们将介绍基于手势的动作识别方法的相关文献,精心制作的功能或使用深度学习网络。在[17]中,一个简单的例子是: 在分级时间级上计算关节位置的轨迹的CE,以对骨架序列建模。在[43]中,计算每个关节与其他关节的成对相对位置以表示骨架序列的每个在[51]中,关节的成对相对位置也用于表征骨骼序列的然后将主成分分析(PCA)应用于归一化特征以计算作为表示的特征联合在[49]中,计算3D关节位置的直方图以表示骨架序列的每个帧,并且使用Hysteresis来建模时间动态。在[42]中,不同身体部位之间的旋转和平移被用作表示,骨架序列被建模为李群中的曲线时间动态模型与FTP。深度学习方法在[6]中,骨骼关节被分为五组,对应于五个身体部位。它们被送入五个LSTM进行特征融合和分类。在[54]中,骨架关节在每个时隙被馈送到深度LSTM,以学习骨架关节的固有同现特征。在[37]中,身体部位的长期上下文表示是用一个部位感知的LSTM学习的。在[26]中,骨架序列的空间和时间信息都是用时空LSTM学习的。还提出了一个信任门,以消除噪音的关节。该方法在NTU RGB+D数据集上实现了最先进的性能[37]。3. 该方法所提出的方法的总体架构如图1所示。 该方法首先生成骨架序列的剪辑。任意长度的骨架序列被转换成三个片段,每个片段由几个灰度图像组成。然后将生成的剪辑馈送到深度CNN模型以提取CNN特征,这些特征在MTLN中用于动作识别。3.1. 剪辑生成与由多帧图像组成的RGB视频相比,骨架序列仅提供3D坐标的轮廓本文提出将原始骨架序列转换为片段集合,每个片段由多个图像组成,从而允许使用深度神经网络进行空间时间特征学习直观地,可以将图像序列的每个帧的内容表示为图像以生成视频。然而,如果骨架序列具有多帧,则该方法将导致长视频,其时间动态性将难以学习。此外,生成3290(a)(b)(c)(d)(e)(f)(g)图1. 所提出方法的架构。给定骨架序列(a),生成对应于圆柱坐标的三个通道的三个剪辑(b)。深度CNN模型(c)和时间平均池化(TMP)层(d)用于从剪辑的每个帧提取紧凑表示(详细信息参见图3)。在同一时间步长处的三个剪辑的输出CNN表示被级联,从而产生四个特征向量(e)。每个特征向量表示骨骼序列的时间信息和骨骼关节的特定空间关系所提出的MTLN(f)包括全连接(FC)层、整流线性单元(ReLU)、另一个FC层和Softmax层,其并行地联合处理四个特征向量,并输出四组类得分(g),每组对应于使用一个特征向量的一个分类任务。在训练期间,四个任务的损失值被求和以定义用于更新网络参数的网络的损失值为了测试,四个任务的类得分被平均以生成动作类的最终预测。由于骨架关节的数量很少,视频也将非常稀疏为了克服这个问题,我们建议在一帧图像中表示骨架序列的时间动态,然后使用多帧来合并关节之间的不同空间关系。该方法的优点在于,对于任何长度的任何骨架序列,所生成的剪辑包含相同数量的帧,并且可以利用所生成的剪辑中的帧图像的强大CNN表示来有效地捕获原始骨架序列的长期时间信息如图2所示,对于骨架序列,首先通过连接每个身体部位的关节将每个帧的关节布置为链考虑到关节之间的相对位置提供比它们的绝对位置更有用的信息(例如,在“推”时手与肩膀的相对位置这四个关节被选为参考关节,因为它们在大多数动作中是稳定的。因此,它们可以反映其他关节的运动虽然脊柱的底部也很稳定,靠近左右臀部。因此,为了避免信息冗余,将其丢弃。通过组合所有帧的相对关节,生成4个尺寸为(m-1)×t的2D阵列(m是每个帧中的骨架关节的数量,t是骨架序列的帧的数量)。2D阵列中关节的相对位置最初用3D笛卡尔坐标描述。考虑到圆柱坐标更适合于分析人体利用枢轴关节运动来执行动作时的运动,在所提出的骨架序列表示中将3D笛卡尔坐标转换为圆柱在[47]中,圆柱坐标已被用于提取用于动作识别的视图不变运动特征。通过使用线性变换在0到255之间缩放坐标值,将对应于3D圆柱坐标的相同通道的四个2D阵列变换为四个灰度图像。然后用四个灰度图像构造剪辑。因此,从四个2D阵列的3D坐标的三个通道生成三个剪辑。3.2. 剪辑学习生成的剪辑的每个帧描述骨架序列的所有帧的节奏动态,CNNCNNCNNCNNCNNCNNCNNCNNCNNCNNCNNCNNMTLNReLU足球俱乐部Softmax足球会...TMPTMPTMPTMPTMPTMPTMPTMPTMPTMPTMPTMP3291不11 1不52811_51 51_8_2_52 5_2_8639不1 8_2 8_741011 141111_211_1215不13161_112_1111_142_141512.....................联合.........16_16_16_联合512T_142_14...............16_16岁_11岁16岁_11岁_16_14岁(a)(b)(c)(d)图3.CNN特征图的时间均值池化(a)生成的剪辑的输入帧,对于该输入帧,行对应于骨架序列的不同帧,列对应于从关节生成的不同向量。(b)第(1)款输出conv5_1层的特征图。 尺寸为14×14×512 要素地图的每次激活(以红色显示)都是一个要素对应于原始图像的局部区域(用图2.剪辑生成骨架序列。每个框架的骨架关节首先通过连接每个身体部分的关节(即,1-2-3-...-第16段)。四个参考关节显示为绿色(即,左肩5、右肩8、左髋11和右髋14)然后分别用于计算其它关节的相对位置,以结合关节之间的因此,通过组合骨架序列的所有帧的相对位置来获得四个2D阵列每个关节在二维阵列中的相对位置用柱坐标描述。将对应于坐标的同一通道的四个2D阵列变换为四个灰度图像并作为剪辑。因此,从四个2D阵列的柱坐标的三个通道生成三个剪辑在圆柱坐标的一个通道中骨骼关节之间的特定空间关系生成的剪辑的不同帧描述了不同的空间关系,它们之间存在内在的联系。首先利用深度CNN从生成的剪辑的每个帧中提取紧凑表示,以利用骨架序列的长期时间信息。然后利用多任务学习并行处理生成的剪辑的所有帧的CNN特征,从而利用它们的内在关系来学习用于3D动作识别的空间3.2.1CNN特征映射的时间池化为了学习生成的剪辑的特征,首先采用深度CNN来提取剪辑的每帧的紧凑表示由于每个帧描述骨架序列的时间动态,因此每个帧的空间不变CNN特征可以表示骨架序列的鲁棒时间信息。给定生成的剪辑,使用预训练的VGG19[38]模型提取每帧的CNN特征预训练的CNN模型被用作特征提取器,因为使用ImageNet[34]预训练的模型提取的CNN特征非常强大,红色方块)。(c)骨架序列的所有关节的时间特征,通过将均值池应用于行(时间)维度中的每个特征图来获得。(d)输出特征,这是通过连接(c)中的所有特征图来实现的。已成功应用于多个跨域应用程序[5,10,33,15]。此外,目前的骨架数据集要么太小,要么太嘈杂,无法适当地训练深度网络。虽然生成的剪辑的帧不是自然图像,但它们仍然可以被馈送到用ImageNet[34]预训练的CNN模型中进行特征提取。自然图像与生成框架的相似之处在于它们都是具有一定特征的矩阵在大型图像数据集上训练的CNN模型可以用作特征提取器,以提取矩阵中模式的表示。学习的表征是通用的,可以从原始任务转移到新任务[52,27]。预训练的VGG19[38]模型包含5组卷积层conv1,conv2,.,conv5.每个集合包括具有相同内核大小的2或4个卷积层的堆栈。网络中共有16个卷积层和3个全连接层。虽然深度神经网络能够学习可用于其他新领域的强大和通用特征,但从不同层提取的特征具有不同的可移植性。特别是,早期层中的特征更通用,而在后期层中,特征更特定于任务,这在很大程度上依赖于原始类和数据集。因此,较晚层的特征不像较早层的特征那样适合转移到其他域[52,27]。因此,本文采用了一种紧凑的表示,这是来自卷积层的激活,以利用骨架序列的时间信息。卷积层中的特征映射已成功应用于动作识别和图像检索[31,32]。具体地,丢弃网络的最后3个卷积层和全连接层三个剪辑的每帧图像被缩放为224 ×224,55881614帧...........................帧3292i、j然后被复制三次,以形成彩色图像,从而可以将其馈送到网络。卷积层conv5_1的输出被用作输入帧的表示,其是大小为14×14×512的3D张量,即,512张14×14的特征图。所生成的帧的行对应于骨架序列的不同帧。因此,所生成的图像的行特征的动态表示骨架序列的时间演化同时,被求和以生成用于学习网络参数的网络的最终损耗。在测试过程中,所有任务的类得分被平均以形成动作类的最终预测。第k个任务(k = 1,···,4)的损失值由等式2给出。Σmexpzkik(zk,y)=yiconv5_1层中的每个特征图的激活是对应于conv5_1层中的局部区域的局部特征。i=1Σexpzkjj=1(二)原始输入图像[31]。因此,可以从特征图的行特征中提取序列的时间信息更具体地说,特征图是亲-Σm=yii=1.日志.Σmj=1ΣexpzkjΣ-zki用核大小为14×1的时间均值池处理,即,在时间或行维度上应用池化,从而从骨架序列的所有时间阶段生成紧凑的让行动-在第k个特征图的第i行和第j列处的vation是xk。在时间均值池化之后,其中zk是从第k个输入特征生成的馈送到Softmax层的向量,m是动作类的数量,yi是类i的地面实况标签。网络的最终损耗值计算为四个单独损耗的总和,如下面的等式3所示:kthfeaturemapisgiv enby:4yk= Σ Σyk,···,yk,···,ykL(Z,y)=(3)函数表达式:1yk=1 Σ14J14max(0,xk)(一)其中Z=[z1,···,z4]。k=1i=1i、j4. 实验和分析所有特征图(512)的输出被级联形成一个7168D(14×512= 7168)的特征向量,该特征向量表示骨架序列在柱坐标的一个通道中的时间动态。3.2.2多任务学习网络(MTLN)如图1(e)所示,在同一时间步长的三个剪辑的三个7168D特征被连接以形成特征向量,总共生成四个特征向量。每个特征向量表示骨架序列的时间动态,并且包括三个圆柱坐标之一中的关节之间的一个特定空间关系。这四个特征向量彼此之间具有内在的然后提出了一个MTLN联合处理的四个特征向量,利用其内在的关系,行动识别。每个特征向量的分类被视为一个单独的任务,具有相同的分类标签的骨架序列。该网络的架构如图1(f)所示。它包括两个完全连接(FC)层和一个Softmax层。在两个FC层之间有一个整流线性单元(ReLU)[28],以引入额外的非线性。给定四个特征作为输入,MTLN生成四个帧级预测,每个预测对应于一个任务。在训练过程中,每个任务的类得分用于计算损失值。然后所有任务的损失值在三个骨架动作数据集上测试了所提出的方法:NTU RGB+D数据集[37],SBU kinect交互数据集[53]和CMU数据集[4]。提出的方法Clips + CNN的主要思想+ MTLN是1)从骨架序列生成三个剪辑(每个剪辑由四个帧组成),2)使用CNN来学习骨架的全局长期时间信息t 〇 n序列,以及3)使用MTLN来联合训练剪辑的四个帧的CNN特征,以并入用于动作识别的空间结构信息。我们还进行了以下基线测试,以证明所提出方法的优势:坐标+ FTP在该基线中,傅立叶时间金字塔(FTP)[43]被应用于骨架序列的3D坐标,以提取用于动作识别的时间特征。该基线用于显示使用CNN对骨架序列进行长期时间建模Frames + CNN在此基线中,单个帧的CNN特征而不是整个生成的剪辑用于动作识别。换句话说,图1(e)中所示的只有一个特征向量用于训练神经网络进行分类。因此,网络的损耗值由等式2给出。提供了四个特征的平均精度此基线用于显示以下方面的好处:3293使用整个生成的剪辑来合并空间结构信息以用于动作识别。剪辑+ CNN +级联在此基线中,在执行动作识别之前,将生成的剪辑的所有帧的CNN特征级联。换句话说,图1(e)中所示的四个特征向量被连接起来,然后馈送到神经网络进行分类。此基线用于显示使用MTLN并行处理整个剪辑的功能的好处。Clips + CNN + Pooling在此基线中,在执行动作识别之前,将最大池化应用于生成剪辑的所有帧的CNN特征。 与夹子+ CNN +级联,这个基线也被用来显示使用MTLN的好处。4.1. 数据集NTU RGB+D数据集[37]据我们所知,该数据集是迄今为止最大的基于人脸的动作数据集,拥有超过56000个序列和400万帧。有60类由40个不同主体执行的动作,包括单人日常动作(例如,鼓掌、阅读、写作)和两人互动(例如,握手、拥抱、指点)。这些动作由三个摄像机捕捉,它们被放置在不同的位置和视点。该数据集共有80个视图。在这个数据集中,每个骨架有25个关节。提供了接头的3D坐标。由于大视角、类内和序列长度变化,数据集非常具有挑战性。SBU Kinect交互数据集[53]该数据集使用MicrosoftKinect传感器收集。它包含282个骨架序列和6822帧。在这个数据集中,每个帧包含两个人进行交互。这些互动包括接近、离开、踢、打、推、拥抱、握手和交换。每个骨架有15个关节。该数据集具有挑战性,因为关节坐标显示出低精度[53]。CMU数据集[4]这个数据集包含2235个序列和大约100万帧。对于每个骨骼,提供31个关节的3D坐标。该数据集被分为45类[54]。所有的动作都是由一个人完成的。由于大的序列长度变化和类内多样性,该数据集非常具有4.2. 实现细节对于所有数据集,剪辑是用原始骨架序列的所有帧生成的,而没有任何预处理,例如归一化、时间下采样或噪声过滤。所提出的方法使用MatConvNet工具箱实现[40]。第一FC层的隐藏单元的数目被设置为512。对于第二个FC层(即,输出层),单元的数量与每个数据集中动作类的数量相同该网络采用随机梯度下降算法进行训练.学习率设置为0.001,批量大小设置为100。训练在35个epoch之后停止。所提出的方法在每个数据集上的性能与使用相同测试协议的现有方法进行4.3. 结果NTU RGB+D数据集与[37]中一样,对该数据集的评估采用两种标准协议进行,即,跨学科评价和跨视角评价。在跨学科评估中,20个学科的序列用于训练,来自其他20个学科的数据用于测试。在交叉视图评估中,由两个相机捕获的序列结果示于表1中。可以看出,所提出的方法在跨学科和跨视图协议中的性能明显优于其他方法。经交叉实验验证,该方法的准确率为79.57%。与之前的最先进方法(ST-LSTM + Trust Gate[26])相比,性能提高了10.37%。当使用交叉视图协议进行测试时,准确率从77.7%提高到84.83%。该方法的改进性能是由于新的剪辑表示和特征学习方法。如表1所示,Frames + CNN在两个测试协议中分别 实 现 了 约 75.73% 和 79.62% 的 准 确 度 。 性 能 比Coordinates + FTP好得多。与使用FTP和原生3D坐标提取骨架序列的时间特征相比,使用CNN从生成的帧中学习骨架序列的时间信息对噪声和时间变化具有更强的鲁棒性,这是由于卷积和池化算子,从而导致更好的性能。从表1中还可以看出,Frames + CNN的性能也优于之前的最先进方法。它清楚地显示了所提出的剪辑表示的CNN特征的有效性。通过用CNN和MTLN学习 整 个 剪 辑 来 改 进 性 能 ( 即 , Clips + CNN +MTLN)。两种测试方案的性能分别提高了4%和5%。还可以看出,所提出的MTLN(即,剪辑+CNN+ MTLN)比特征连接(即,剪辑+ CNN +连接)和池化(即,Clips + CNN + pooling)。帧+ CNN,剪辑+CNN+连接和剪辑+ CNN +池化可以被视为一个单任务的方法,而使用MTLN并行处理多个帧的生成剪辑利用其内在的关系,并纳入空间结构信息,这提高了性能的单,3294表1.NTU RGB+D数据集上的性能方法精度跨学科交叉视图李群[42]百分之五十点一52.8%[7]第七届全国人大代表百分之三十八点六41.4%[16]第十六话百分之六十点二65.2%层次RNN[6]59.1%64.0%深度RNN[37]百分之五十九点三64.1%深度LSTM[37]百分之六十点七百分之六十七点三Part-aware LSTM[37]百分之六十二点九百分之七十点三ST-LSTM[26]65.2%76.1%ST-LSTM +信任门[26]百分之六十九点二百分之七十七点七坐标+FTP61.06%74.64%帧+CNN75.73%79.62%剪辑+ CNN +拼接77.05%81.11%剪辑+ CNN +池化76.37%80.46%剪辑+ CNN + MTLN79.57%84.83%动作识别任务方法。SBU Kinect交互数据集与[53]中一样,该数据集的评估是5重交叉验证,提供了训练/测试分割。骨架序列的每个帧包含两个独立的人体骨架。在这种情况下,两个骨架被认为是两个数据样本,并且对于两个骨架分别进行剪辑生成和特征提取对于测试,通过对两个样本的分类得分进行平均来获得动作的预测。考虑到该数据集中的样本数量太少,因此进行数据扩充以增加样本数量。更具体地说,将生成的剪辑的每个帧图像的大小调整为250×250,然后从原始图像中裁剪大小为224×224的随机补丁,用于使用CNN进行特征学习。对于该数据集,裁剪20个子图像,并且将总数据样本扩展到11320。所提出的方法与其他方法的比较如表2所示。 与NTU RGB+D数据集类似,CNN特征在学习时间信息方面的表现优于FTP。可以看出,当使用单个帧的CNN特征时,准确率为90.88%,与Deep LSTM + Co-occurrence方法[54]相似。当使用拼接和池化方法合并整个剪辑的CNN特征时,性能提高了约2%。当使用MTLN学习整个剪辑时,性能提高到93.57%。它清楚地显示了使用MTLN来学习CNN特征整个片段的好处由于该数据集的关节位置不是非常准确[53],因此包括HBRNN [6]和共生LSTM [54]在内的现有方法通过使用Svaitzky-Golay滤波器[36]平滑每个关节的位置来去除关节噪声。 在[26]中,引入了信任门来去除噪声。3295表2.SBU kinect交互数据集上的性能方法精度[53]第五十三话百分之四十九点七[18]第十八话86.9%魅力[25]百分之八十三点九层次RNN[6]百分之八十点三五深度LSTM[54]86.03%深度LSTM +共现[54]90.41%ST-LSTM[26]88.6%ST-LSTM +信任门[26]百分之九十三点三坐标+FTP百分之七十九点七五帧+CNN90.88%剪辑+ CNN +拼接92.86%剪辑+ CNN +池化92.26%剪辑+ CNN + MTLN93.57%表3. CMU数据集上的性能。方法精度CMU子集层次RNN[6]深度LSTM[54]深度LSTM +共现[54]83.13%86.00%88.40%75.02%79.53%81.04%坐标+FTP83.44%73.61%帧+CNN91.53%85.36%剪辑+ CNN +拼接百分之九十点九七85.76%剪辑+ CNN +池化90.66%85.56%剪辑+ CNN+ MTLN93.22%88.30%这将准确率从88.6%提高到93.3%。我们的方法不执行任何预处理来处理有噪声的关节,但仍然比其他所有方法表现得更好。它清楚地表明,由于深度网络的卷积和池化运算符,从生成的剪辑中学习到的特征CMU数据集与[54]中一样,对于该数据集,对具有2235个序列的整个数据集和664个序列的选定子集进行评价。该子集包括8类动作,即,篮球,侧手翻,侧手翻,跳,捡,跑,坐,走回来。对于整个数据集,测试方案是4重交叉验证,对于子集,使用3重交叉验证进行评估。不同折叠的训练/测试分割由[54]提供。与SBU kinect交互数据集类似,也对CMU数据集进行对于整个数据集,每帧图像用于生成5个以上的图像,并且总数据样本被扩展到11175,并且对于子集,总样本被扩展到13280,这是原始数量的20倍。结果示于表3中。可以看出,所提出的方法的性能是远远优于以前的国家的最先进的方法的子集和整个集合。当对子集进行测试3296提出的方法约为93.22%,比以前的方法好约5%[54]。整个数据集的性能从81.04%提高到88.3%。4.4. 讨论三个灰色夹子还是一个彩色夹子?如图1所示,生成的三个剪辑的帧是灰色图像,每个帧仅对应于柱坐标的一个通道。每个帧被复制三次,以形成用于CNN特征学习的彩色图像。三个通道的输出CNN特征连接在一个特征向量中,用于动作识别。一个简单的替代方案是生成一个具有三个通道的圆柱坐标的彩色剪辑,然后从彩色帧中提取单个CNN特征用于动作识别。在CMU数据集上进行测试时这可能是由于三个生成的通道的关系不同于自然彩色图像的RGB通道的关系。RGB通道按顺序排列,3D坐标和RGB通道之间没有匹配顺序帧越多,性能越好? 本文仅使用四个参考关节来生成剪辑,每个剪辑有四个帧。当选择6个以上的关节来生成更多的帧时,即,头部、左手、右手、左脚、右脚和臀部,性能没有提高。在CMU数据上测试时,性能为86.01%,比所提出的方法差约2%。这是由于其他关节不如所选的四个关节稳定,这可能会引入噪声。笛卡尔坐标或圆柱形坐标nates?如第3.1节所述,参考关节和其他关节之间的矢量的3D笛卡尔坐标被转换为圆柱坐标以生成剪辑。 我们发现,当使用原始-最终笛卡尔坐标的剪辑生成和动作识别,性能下降。在CMU数据集上测试时,准确率为86.21%,比所提出的方法差约2%。 圆柱坐标比笛卡尔坐标更有用,以分析运动,因为每个人体骨架利用枢轴关节运动来执行动作。如第3.2.1节所述,采用预训练CNN模型的conv5_1层中的特征图作为每个输入图像的表示。我们发现,使用早期层中的功能会降低性能。当使用conv4_1层的特征时,CMU数据集上的准确率为84.59%,比所提出的方法差约4%。这可能是由于早期层中的特征不够深,无法捕获显著的信息。输入图像的图像。我们还发现,在后面的层中使用这些功能会使性能变差。当使用fc6层的特征时,CMU数据集上的准确率为83.52%,比所提出的方法差约5%。这是因为后面的层中的特征更加特定于任务,这在很大程度上依赖于原始类和数据集。因此,较晚层的特征不像较早层的特征那样适合转移到其他域[52,27]。5. 结论在本文中,我们提出了将一个视频序列转换为三个视频片段,以进行鲁棒的特征学习和动作识别。我们建议使用预先训练的CNN模型,然后使用时间池化层来提取每帧的紧凑表示。在同一时间步的三个剪辑的CNN特征被连接在单个特征向量中,该特征向量描述了整个骨架序列的时间信息和关节之间的一个特定空间关系。然后,我们提出了一个MTLN联合学习的特征向量在所有的时间步并行,利用其内在的关系,提高了性能的动作识别。我们在NTU RGB+D数据集、SBU Kinect交互数据集和CMU数据集上对所提出的方法进行了测试。实验结果表明了所提出的新的表示和特征学习方法的有效性。6. 确认这 项 工 作 得 到 了 澳 大 利 亚 研 究 委 员 会 拨 款DP150100294、DP150104251和DE120102960的部分支持。本文使用了新加坡南洋理工大学ROSE实验室提供的NTU RGB+D动作识别数据集引用[1] R. 卡 鲁 阿 纳 多 任 务 学 习 。 学 习 , 第 95-133 页 。Springer,1998年。[2] K. Chatfield,K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节:深入研究卷积网。arXiv预印本arXiv:1405.3531,2014。[3] D.西里根岛Meier和J.施密特胡博用于图像分类的多列深度神经网络。在Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on,第3642-3649页中。IEEE,2012。[4] CMU。CMU图形实验室动作捕捉数据库。 在http://mocap.cs.cmu.edu/网站。2013年。[5] J. Donahue,Y. Jia,O. Vinyals,J. Hoffman,N. 张先生,E. tzeng和T.达雷尔。Decaf:用于通用视觉识别的深度卷积激活功能国际机器学习会议(ICML),第647-655页,2014年3297[6] Y.杜,W. Wang和L.王.基于骨架的动作识别的层次递归神 经 网 络 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第1110-1118页[7] G.埃万格尔湾Singh和R.霍罗德骨骼四头肌:使用关节四 元 组 的 人 类 动 作 识 别 。 在 国 际 模 式 识 别 会 议(ICPR)中,第4513[8] B. Fernando,E. Gavves,J. M.奥拉马斯A. Ghodrati,以及T. Tuytelaars为动作识别建模视频演变。在IEEE计算机视觉和模式识别会议论文集,第5378-5387页[9] A. Gaidon,Z. Harchaoui和C.施密特动作的时间局部化 。 IEEE transactions on pattern analysis and machineintelligence,35(11):2782[10] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议(CVPR),第580-587页[11] A. Graves.神经网络。在使用递归神经网络的监督序列标记中,第15-35页。Springer,2012.[12] A.格雷夫斯,A. R. Mohamed和G.辛顿使用深度递归神经网络进行语音识别。在IEEE声学、语音和信号处理国际会议上,第6645-6649页。IEEE,2013。[13] J. Gu,G. Wang和T.尘循环公路网络与语言cnn的图像字幕。arXiv预印本arXiv:1612.07086,2016年。[14] F.汉湾Reily,W. Hoff和H.张某基于3D骨架数据的人的时空表示:综述arXiv预印本arXiv:1601.01006,2016.[15] X.汉,T.梁,Y.贾河,巴西-地Sukthankar和A. C.伯格。Matchnet:统一特征和度量学习用于基于补丁的匹配。在IEEE计算机视觉和模式识别会议(CVPR),第3279-3286页[16] J. - F.胡伟S. Zheng,J. Lai,and J.张某联合学习用于RGB-D活动识别的异构特征。在IEEE计算机视觉和模式识别会议中,第5344-5352页[17] M. E. 侯赛因M.托尔基湾A. Gowayyed和M.艾尔萨班基于三维关节位置协方差描述子时间层次的人体动作识别。在IJCAI,第13卷,第2466-2472页[18] Y. Ji,G. Ye和H.程交互式人体部位对比度挖掘用于人机交互识别。在IEEE多媒体和博览会研讨会国际会议(ICMEW),第1-6页。IEEE,2014。[19] Q. Ke、S.一个,M。贝纳蒙F. Sohel和F.布赛德骷髅网 : 三 维 动 作 识 别 的 深 层 特 征 挖 掘 。 IEEE SignalProcessing Letters,2017。[20] Q. 克,M.Bennamoun,S.An,F.Boussaid和F.Sohel 利用深层时间特征预测人与人之间的相互作用.在欧洲计算机视觉研讨会上,第403施普林格,2016年。[21] Q. Ke和Y.李旋转是形状识别中的一个麻烦在IEEE计算机视觉和模式识别会议论文集,第4146-4153页[22] P. Koniusz,A. Cherian和F.波里克利基于核线性化的张量表示在三维骨架动作识别中的应用。arXiv预印本arXiv:1604.00239,2016。[23] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097[24] Y. LeCun,Y. Bengio等人图像、语音和时间序列的卷积网络。脑理论和神经网络手册,3361(10):1995,1995。[25] W. 利湖,澳-地温,M.Choo Chuah和S.吕分类盲人类动作 识 别 : 一 个 实 用 的 识 别 系 统 。 IEEEInternationalConference on Computer Vision(ICCV),第4444-4452页[26] J. Liu,A. Shahroudy,D. Xu和G.王.具有信任门的时空LSTM用于3D人类动作识别。欧洲计算机视觉会议(ECCV),第816-833页。施普林格,2016年。[27] M. Long和J. Wang。使用深度适应网络学习可转移特征。CoRR,abs/1502.02791,1:2,2015。[28] V. Nair和G. E.辛顿校正线性单元改进了受限玻尔兹曼机。国际机器学习会议(ICML),第807-814页,2010年[29] J. C.尼布尔斯角W. Chen和L.飞飞为活动分类建立可分解运动段的时间结构模型。欧洲计算机视觉会议,第392-405页。施普林格,2010年。[30] R.帕斯卡努角古尔塞尔角Cho和Y.本吉奥。如何构建深度 递 归神 经 网 络 。arXiv预 印 本arXiv : 1312.6026,2013。[31] X. Peng和C.施密特用于动作识别的cnn特征图编码。2015年。[32] F. Raden o vi c',G. Tolias和O. 好朋友 Cnn图像检索eval从bow学习到:无监督的微调与硬的例子。arXiv预印本arXiv:1604.02426,2016。[33] A. S. Razavian,H.阿兹普尔J. Sullivan和S.卡尔-儿子。CNN特色现成:一个令人震惊的认可基线在IEEE计算机视觉和模式识别研讨会(CVPRW)上,第806-813页[34] O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A.卡帕西A.科斯拉,M。Bernstein 等 人 图 像 网 大 规 模 视 觉 识 别 挑 战 。International Journal of Computer Vision,115(3):211[35] T. N.塞纳特岛Vinyals,A. Senior和H.萨克卷积,长短期记忆,完全连接的深层神经网络。在声学,语音和信号处理(ICASSP),2015年IEEE国际会议上
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功