没有合适的资源?快使用搜索试试~ 我知道了~
1112SGN(我们的)VA-LSTM[57][23]第二十三话[40]第一届中国国际航空航天博览会[AGC-LSTM(joint)[39]VA-CNN[58]SGN(我们的)语义引导神经网络在基于骨架的人体动作识别中的应用张鹏飞1人,蓝翠玲2人,曾文军2人,邢俊良3人,薛建如1人,郑南宁11中国陕西西安交通大学2中国北京微软亚洲研究院3中国科学院自动化研究所模式识别国家重点实验室,北京zpengfei@stu.xjtu.edu.cn,{culan,wezeng} @microsoft.com,jlxing@nlpr.ia.ac.cn,{jrxue,nnzheng} @ mail.xjtu.edu.cn摘要由于人体骨架数据的易获取性,基于骨骼的人体动作识别引起了人们极大的兴趣。近年来,有一种趋势是使用非常深的前馈神经网络来建模关节的三维坐标,而不考虑计算效率。在本文中,我们提出了一个简单而有效的语义引导神经网络(SGN)的骨骼为基础的动作识别。我们显式地将关节的高级语义(关节类型和帧索引)引入到网络中,以增强特征表示能力。此外,我们通过两个模块,即,关节级模块,用于对同一帧中的关节的相关性进行建模;以及帧级模块,用于通过将同一帧中的关节作为一个整体来对帧的依赖性进行建模。建议建立一个强有力的基线,以便利对这一领域的研究SGN的模型尺寸比大多数大型工程小一个数量级,在NTU60、NTU120和SYSU数据集上实现了最先进的性能。1. 介绍人类动作识别具有广泛的应用场景,例如人机交互和视频检索[35,50,1]。 近年来,基于动作识别[56,7,36,58]正在吸引越来越多的兴趣。骨架是一种结构良好的数据,其中人体的每个关节由关节类型、帧索引和3D位置标识。使用骨架进行动作识别有几个优点。首先,骨架是人体的高层次表示,其中提取了从生物学上讲,即使没有外观信息,人类也能够通过仅观察关节的运动来识别动作类别[17]。秒-这项工作是在P.Zhang是MSRA的实习生†通讯作者。88868482800 5 10 15 20 25参数(M)图1:NTU 60(CS设置)上不同方法在精度和参数数量方面的比较所提出的SGN模型实现了最佳的性能与一个数量级较小的模型大小。其次,成本有效的深度相机[61]和姿态估计技术[38,4,43]的进步使得骨架的访问更加容易。第三,与RGB视频相比,骨架表示对视点和外观的变化具有很好的鲁棒性.第四,它也是计算效率,因为低维表示。此外,基于骨架的动作识别也是对基于RGB的动作识别的补充[42]。在这项工作中,我们专注于基于骨架的动作识别。对于基于骨架的动作识别,深度学习被广泛用于建模骨架序列的时空演化[11,47]。已经利用了各种网络结构,诸如递归神经网络(RNN)[7,63,36,41,57,40]、卷积神经网络[7,63,36,41,57,40]、卷积神经网络[7,63,36,41,57,40]、卷积神经网络[7,63,36,41,57,40]、卷积神经网络[7,63,41,57,40]、卷积神经网络[7,63,41,57,40]、卷积神经网络[7,63,41,57,40]、卷积神经网络[7,63,41,57,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,41,(CNN)[18,58,30,51]和图卷积网络(GCN)[54,40,44]。在早期,RNN/LSTM是最受欢迎的网络,用准确度(%)1113于开发短期和长期的时间动态。 最近,有一种趋势1114图2:提出的端到端语义引导神经网络(SGN)的框架。它由一个关节级模块和一个框架级模块组成。在DR中,我们通过融合关节的位置和速度信息来学习关节的动力学表示两种类型的语义,即,关节类型和帧索引分别被合并到关节级模块和帧级模块中。为了在关节级模块中对关节的依赖关系进行建模,我们使用三个GCN层。为了模拟帧的依赖关系,我们使用两个CNN层。使用前馈(即,,非递归)卷积神经网络用于建模语音,语言[34,10,53,48]和骨架[18,58,30,51]中的序列,由于其优越的性能。大多数基于机器学习的方法将关节的坐标组织到2D地图,并调整映射到一个尺寸(例如,224×224)适合CNN的输入(例如,ResNet50 [12])。其行/列对应于不同类型的关节/帧索引。在这些方法中[18,58,30,51],长期依赖性和语义信息预计将被深度网络的大感受野捕获这似乎是残酷的,通常会导致高模型复杂性。直观性、语义信息,即关节类型和帧索引对动作识别非常重要。语义与动态(即,3D坐标)揭示了人体关节的空间和时间配置/结构。我们知道,两个坐标相同但语义不同的关节将传递非常不同的信息。例如,对于头部上方的关节,如果该关节是手关节,则动作可能是举手;如果是脚关节,则动作可能是踢腿。此外,时间信息对动作识别也很重要以坐下和站起来这两个动作为例,它们只是在帧的出现顺序上有所不同。然而,大多数方法[11,47]都忽略了语义信息的重要性,并对其进行了充分的探索.为了解决当前方法的上述局限性,我们提出了一种语义引导神经网络(SGN),它明确地利用语义和动态来实现高效的基于语义的动作识别。图2示出了总体框架。我们建立了一个层次化的网络,依次探索关节级和帧级的依赖关系的骨架序列。为了更好地进行联合级相关性建模,除了动力学之外,ICS中,我们将联合类型的语义(e. 例如,在一个实施例中,为了更好的帧级相关建模,我们将时态帧索引的语义纳入网络。 特别地,我们对同一帧内的关节的所有特征执行空间最大池化(SMP)操作以获得帧级特征表示。结合嵌入的帧索引信息,使用两个时间卷积神经网络层来学习用于分类的特征表示。此外,我们开发了一个强大的基线,这是高性能和效率.由于语义信息的有效探索,层次化建模和强大的基线,我们提出的SGN实现了最先进的性能与少得多的参数。我们总结了我们的三个主要贡献如下:• 我们建议显式地探索联合语义(帧索引和联合类型),以实现高效的基于图像的动作识别。以前的作品忽略了重要的-语义和依赖于深度网络具有高复杂性的动作识别。• 我们提出了一个语义引导的神经网络(SGN),以利用空间和时间的相关性,在联合水平和帧级分层。• 我们开发了一个轻量级的强大的基线,这是比大多数以前的方法更强大。我们希望强基线将有助于基于骨架的动作识别的研究。通过上述技术贡献,我们获得了一个高性能的基于机器人的动作识别模型,具有较高的计算效率。广泛的消融研究证明了所提出的模型设计的有效性。三大基准FC层接头类型:头,...,脚θ:1×1φ:1××G帧索引:1、2、. 、T公司简介博士速度位置T×J×C1CT×J ×2C1GCNGCNGCNT×J×C3+SMP CNNT×1×C3CNNTMP1× 1×C4类标签关节级模块帧级模块SMP 空间最大池化Cn:尺寸T:帧编号J:关节数×矩阵乘法C级联 +SumDR动态表示TMP 时间最大池化…1115不不不数据集进行基于动作的动作识别,所提出的模型一致地实现了优于许多竞争算法的性能,同时具有比许多算法更小的模型大小的数量级(见图11)。1)。2. 相关工作近年来,基于手势的动作识别引起了越来越多的关注最近的作品使用神经网络[11]已经显著优于使用手工制作的特征的传统 基于递归神经网络。递归神经网络,如LSTM [14]和GRU[5],通常用于对骨架序列的时间动态进行建模[7,36,63,41,57,59,60]。帧中所有关节的3D坐标以某种顺序连接为时隙的输入向量它们没有明确地告诉网络哪些维度属于哪个关节。其他一些基于RNN的工作倾向于在RNN中设计特殊的结构,使其能够感知空间结构信息。Shahroudy等人将LSTM的细胞分为五个子细胞,对应于五个身体部位,躯干,两个手臂和两条腿,恢复[36]。 Liu等人 提出了一个时空LSTM模型,以利用时间和空间域中关节的上下文依赖性[27],其中它们在每个步骤中提供不同类型的关节。在某种程度上,它们区分了不同的关节。基于卷积神经网络。近年来,在语音、语言序列建模领域,卷积神经网络在准确性和并行性方面都显示出其优越性[34,10,53,48,45]。相同的是真的,基于动作识别[6,22,18,3]。这些基于CNN的工作将骨架序列转换为某种目标大小的骨架图,然后使用流行的网络,如ResNet [12],来探索空间和时间动态。一些作品通过将关节坐标(x,y,z)视为像素的R,G和B通道来将骨架序列转换为图像Ke等人将骨架序列变换为四个2D阵列,其由四个所选参考关节之间的相对位置表示(即,左/右肩,左/右髋)和其他关节[18]。骨架是具有明确的高级语义的良好结构化数据,即,帧索引和节点类型。然而,CNN的内核/滤波器是平移不变的[32],因此不能直接从这样的输入骨架图中感知语义。CNN预计将通过深度网络的大接收域来感知这种语义,这不是很有效。基于图卷积网络。图卷积网络[21]已被证明对处理结构化数据有效,也被用于建模结构化骨架数据。 Yan等 提出了一个空间和时间图卷积网络[54]。它们将每个关节视为图形的一个节点 边缘的存在表示-连接关系由人基于先验知识预先定义。为了增强预定义的图,Tang等人定义了物理断开和连接的关节对的边 , 以 便 更 好 地 构 建 图 [44]。 提 出 了 SR-TSL 模 型[40],以使用数据驱动的方法而不是利用人类定义来学习每个帧内的五个人体部位的图形边缘。双流GCN模型[37]基于非局部块学习内容自适应然而,信息语义没有被用于学习图的边缘和消息传递的GCN,这使得网络的效率较低。语义信息的显式探索。语义的外显探索已经在其他领域得到利用,机器翻译[45]和图像识别[62]。Ashish等人明确地对序列中标记的位置进行编码,以便在机器翻译任务中利用序列的顺序[45]。Zheng等人将组索引编码到卷积信道表示中以保留组顺序的信息[62]。然而,对于基于动作的识别,关节类型和帧索引语义被忽视,即使这样的信息是非常重要的。在我们的工作中,我们建议显式编码的联合类型和帧索引,以保持空间和时间的身体结构的重要信息。作为探索这一语义学的初步尝试,我们希望它能激发社会上更多的研究和探索。3. 语义引导神经网络对于骨架序列,我们通过其语义(关节类型和帧索引)识别关节如果没有语义,骨架数据将失去重要的时空结构。然而,以前基于CNN的作品[18,6,58]通常通过将它们隐式地隐藏在2D骨架图中(例如,行对应于不同类型的关节,列对应于帧索引)。我们提出了一个语义引导神经网络(SGN)的骨架为基础的动作识别,并显示了整体端到端框架图。2.它由一个关节级模块和一个框架级模块组成。我们在下面的小节中描述框架的细节。具体地,对于骨架序列,我们将所有关节表示为集合S ={X k|t = 1,2,. - 是的- 是的 ,T; k = 1,2,. - 是的- 是的 ,J},其中Xk表示在时间t处的类型k的关节。 T表示骨架序列的帧数,J表示帧中人体关节的总数。对于在时间t的类型k的给定关节Xk,其可以通过其动力学和语义来识别。动力学与关节的3D位置相关。语义意指帧索引t和关节类型k。1116不不不KK3.1. 动力学表示对于给定的关节Xk,我们用三维坐标位置pt,k=(xt,k,yt,k,zt,k)T∈R3类似于[49,48,37],在同一帧t中从第i个关节到第j个关节的边权重通过它们在嵌入空间中的相似性/亲和性建模为速度vt,k=pt,k-pt-1,k。 我们...将位置和速度编码/嵌入到相同的高维空间,i。例如,pt,k和vt,k,尊重ively,并融合St(i,j)=θ(zt我)Tφ(zt,j)、(3)将它们相加,zt,k=p<$t,k+v<$t,k∈RC1,(1)其中C1是联合表示的维度以位置的嵌入为例,我们使用两个完全连接(FC)层将位置pt,k编码为p≠t,k=σ(W2(σ(W1pt,k+b1))+b2),(2)其中W1∈RC1×3和W2∈RC1×C1是权重矩阵,b1和b2是偏置向量,σ表示ReLU激活函数[33]。 同样,我们得到嵌入式-ding for veolocity asvt,k.其中θ和φ表示两个变换函数,每个由FC层实现,即,θ(x)=W3x+b3∈RC2φ(x)=W4x+b4∈RC2.在(3)的基础上,通过计算同一框架中所有关节对的仿射度,得到邻接矩阵St∈J×J。在St的每一行上执行使用SoftMax作为[45,48]的归一化,使得连接到目标节点的所有边缘值的总和为1。我们称之为-广义邻接矩阵。采用残差图卷积层实现节点间的消息传递,Yt=Gt Zt Wy,Z′=Y(四)+ Z W,3.2. 联合级模块我们设计了一个关节级模块来利用同一帧中关节的相关性。我们采用图卷积网络(GCN)来探索结构骨架数据的相关性。一些先前的基于GCN的方法将关节作为节点,并且它们基于先验知识[54]预定义图形连接(边)或学习内容自适应图形[37]。我们还学习内容自适应图,但不同的是,我们将联合类型的语义纳入GCN层,以实现更有效的学习。我们从两个方面充分利用GCN层的语义来增强GCN层的功能首先,我们使用关节类型的语义和动力学来学习帧内节点(不同关节)之间的图连接。联合类型信息有助于学习合适的相邻矩阵(即。例如,在连接权重方面的关节之间的关系)。以两个源关节(脚和手)和一个目标关节头为例,直观地说,脚到头的连接重量值应该不同tttz其中Wy和Wz是变换矩阵。权重矩阵被共享用于不同的时间帧。Z′是输出。注意,可以堆叠多个残差图卷积层以使得能够在具有相同邻接矩阵Gt的节点之间进行进一步的消息传递。3.3. 帧级模块我们设计了一个帧级模块来利用跨帧的映射。为了使网络知道帧的顺序,我们加入了帧索引的语义,以提高一个帧的表示能力。用一个独热向量ft∈Rdf表示标架指数x。类似于Equ中的位置编码。(2)在此基础上,得到了f∈RC3时的框架索引的嵌入.我们表示对应于联合类型的联合表示k在帧t处具有帧索引和学习特征为z′=z′+ f∈RC3,其中t,kt,kt从价值从手到头,即使当动态脚和手是一样的。其次,作为关节信息的一部分,关节类型的语义参与GCN层中的消息传递过程。我们用一个独热向量jk∈Rdj表示第k个关节的类型(也称为类型k),其中kth维为1,其他维均为零。类似于Equ中的位置编码(2)得到了当j∈ RC1时第k个联合类型的嵌入.给定骨架框架的J个关节,我们构建一个J节点。我们将框架t上关节类型k的关节表示为zt,k=[zt,k,j<$]∈R2C1. 框架t的所有节点都是则表示为Zt=(zt,1;···; zt,J)∈RJ×2C1.zt,k = Zt(k,:).为了合并帧中所有关节的信息,我们应用一个空间MaxPooling层来跨关节聚合它们。因此,序列的特征维数为T×1×C3。应用两个CNN层。第一个CNN层是时间卷积层,用于对depen进行建模框架的变化。第二个CNN层用于增强学习特征的表示能力,方法是将其映射到核大小为1.在两层CNN之后,我们应用一个时间最大池层来聚合所有帧的信息,并获得C4维的序列级特征表示。然后是Softmax的全连接层来执行分类。11174. 实验4.1. 数据集NTU60 RGB+D数据集(NTU60 )[36] 。该数据集由Kinect相机收集,用于3D动作识别,具有56,880个骨架序列。它包含由40个不同主题执行的60个动作类。每个人体骨骼由25个具有3D坐标(J=25)的关节表示。 对于交叉受试者(CS)设置[36],40名受试者中有一半用于培训,其余用于测试。对于交叉视图(CV)设置[36],三个摄像机中的两个摄像机捕获的序列用于训练,另一个摄像机捕获的序列用于测试。在[36]之后,我们随机选择10%的训练序列用于CS和CV设置的验证。NTU120 RGB+D数据集(NTU120)[25]。该数据集是NTU60的扩展它是用于3D动作识别的最大RGB+D数据集它包含120个动作类由106个不同的人类主体执行。对于交叉受试者(C-Subject)设置,106名受试者中的一半用于培训,其余用于测试。对于交叉设置(C-Setup)设置,一半的设置用于训练,其余的用于测试。SYSU 3D人机交互数据集(SYSU)[15]。它包含480个骨架序列的12个动作,由40个不同的主体执行。每个人体骨骼有20个关节(J=20)。我们使用与[15]相同的评估方案对于交叉受试者(CS)设置,一半的受试者用于培训,其余的用于测试。对于同一主题(SS)设置,每个活动的一半样本用于训练,其余用于测试。我们使用30倍交叉验证并显示每个设置的平均准确度[15]。4.2. 实现细节网络设置。为了获得动态表示(DR),每个FC层的神经元数量设置为64(即,例如,C1=64)。 请注意,FC层的权重不共享位置和速度。为了对关节类型进行编码,两个FC层的神经元的数量都被设置为64。为了对帧索引进行编码,两个FC层的神经元的数量分别被设置为64和256,并且C3=256。 对于(3)中的变换函数,每个FC层的神经元的数目被设置为256,即。例如,C2=256。对于联合级模块,我们将三个GCN层的神经元数量分别设置为128、256和256。对于fame-level模块,我们沿着时间维度将第一CNN层的神经元数量设置为256,内核大小为3,并且将第二CNN层的神 经 元 数 量 设 置 为 512 , 内 核 大 小 为 1 ( i. 例 如 ,C4=512)。在每个GCN或CNN层之后,使用批量归一化[16]和ReLU非线性激活函数。训练所有的实验都是在Pytorch平台上进行的,使用一块P100 GPU卡。我们使用Adam [20]优化器,初始学习率为0.001。学习速率分别在第60个时期、第90个时期和第110个时期衰减10倍。训练在第120个历元时完成. 我们使用0.0001的权重衰减。NTU60、NTU120和SYSU数据集的批量大小分别设置为64、64和16。标签平滑[13]用于所有实验,我们将平滑因子设置为0.1。分类的交叉熵损失用于训练网络。数据处理.与[57]类似,基于第一帧的序列级平移被执行为不变的到最初的位置。如果一个帧包含两个人,我们通过使每个帧包含一个人体骨架来将帧分割成两个帧。在训练过程中,根据[27],我们将整个骨架序列平均分割为20个片段,并从每个片段中随机选择一帧,以获得20帧的新序列。在测试过程中,类似于[2],我们以类似的方式随机创建5个新序列,并使用平均得分来预测类别。在训练过程中,我们通过在序列级随机旋转3D骨架到一定程度来执行数据论证,以抵抗视图变化。对于NTU 60(CS设置)、NTU 120和SYSU数据集,我们运行-对于一个序列,domly选择[−17°,17°]之间的三个度数(分别围绕X、Y、Z轴)。考虑到NTU 60(CV设置)的大视图变化,我们在[-30° C,30° C]之间随机选择三个角度。4.3. 消融研究4.3.1语义开发的有效性语义包含骨架序列的重要结构信息,对于基于骨架的动作识别具有重要意义。为了证明利用语义的有效性,通过引用我们的框架(见图1)。2)建立了八个神经网络,并在NTU60数据集上进行了各种实验。表1显示了比较。在下文中,JT表示联合类型的语义,FI表示帧索引的语义,G表示图(邻接矩阵)的学习,P表示使得能够进行消息传递的图卷积运算。T-Conv表示时间卷积层,即,帧级模块的第一CNN层。在联合级(JL)模块和帧级(FL)模块中分别使用三个GCN层和两个CNN层。w和w/o分别表示开发联合类型的有效性。 我们研究了四个设计的模型(表1中的第1行到第4行),以验证联合类型在联合级模块(JL)上的有效性,并且所有四个模型都不包括时态索引的语义我们在这里解释一个模型,其他三个模型可以以类似的方式理解1118表1:在NTU 60数据集上在联合级模块(JL)和帧级模块(FL)中利用语义的有效性,以准确度(%)计。JT表示关节类型,FI表示帧索引。方法参数数(M)CSCVJL(G w/o JT P w/o JT)FL0.6286.992.8JL(G w JT P w/o JT)FL0.6687.593.7JL(G w/o JT P w JT)FL0.6488.694.1JL(G w JT P w JT)FL0.6788.794.1JL FL(不带T-Conv)不带FI0.5486.892.8JL FL(不带T-Conv),带FI0.5687.893.7JL FL(带T-Conv),不带FI0.6788.794.1JL FL(带T-Conv)带FI0.6989.094.5JT P w/o JT)FL例如,G w/o JT),并且不参与用于消息传递(P)的图卷积运算(即,例如,P w/oJT)。我们有以下三个主要观察1) 对于骨架序列图的学习,通过引入关节类型的语义,然而,如果模型不知道关节的类型,即使它们的语义不同,它也联合类型的语义有利于学习图的边。2) 联合类型信息对于GCN层中的消息传递是有益的。“JL(G w/o JT分别用于CS和CV设置。原因是GCN本身不知道关节的顺序(类型),这使得难以学习具有高结构信息的骨架数据的特征。例如,即使在消息传递期间两个关节的3D坐标相同,从脚关节和腕关节贡献给目标关节的信息也应该不同引入关节类型信息使GCN更有效。3) 与“JL(G w/o JT P w JT)FL”相比,将联合类型的语义同时用于学习图和消息传递(“JL(G w JT P wJT)FL”)不会带来进一步的对于等式中的消息传递,Yt=Gt Zt W。(4),反向传播到Gt的梯度也会受到包含节理的Zt的影响类型信息。实际上,Gt隐式地知道联合类型信息,即使我们在相似性/亲和性学习中不包括联合类型信息。开发框架索引的有效性。 我们研究了两个模型(表1中的第5行和第6行),以研究当时间卷积通过设置其内核大小为1。“JL 这两个模型都包含了关节类型的语义。此外,我们研究了两个模型(表1中的第7行和第8行),以研究使用内核大小为3的时间卷积时帧索引的影响“JL 两种模型都包含了关节类型的语义。我们在这里有两个主要的观察1) 当时间卷积被禁用时(即,例如,滤波器内核大小为1而不是3),帧索引信息2) 帧索引有助于时间卷积。 帧索引的语义的益处小于没有时间卷积的那些模型(滤波器核大小为1)。主要原因是时间卷积层使网络能够通过较大的核大小在一定程度上知道骨架序列的帧顺序。然而,我们采用方案总之,关节类型信息的显式建模有利于相邻矩阵的学习和GCN层中的消息传递帧索引信息使模型能够有效地利用序列顺序的信息。4.3.2层次模型我们分层模型的关节的关节级模块和帧级模块中的相关性为了证明其有效性,我们将SGN与两个不同的模型进行了比较,结果见表2。“SGN w G-GCN” denotes a non-hierarchical schemewhere 例如,关节类型和帧索引)和GCN层中的动力学(位置和速度)。我们不是为每个帧构建一个图,而是构建一个全局自适应图,其中包含所有帧中的所有关节,并在所有这些关节之间进行消息传递我们有以下两点观察。1) 用GCN模拟同一框架节点间的相关性比模拟节点间的相关性更有效1119表2:我们的分层模型在NTU 60数据集上的准确性(%)的有效性。表3:一些技术对NTU 60数据集的影响,包括准确度(%)和参数数量。方法参数数(M)CSCV方法参数数(M)CSCVSGN w G-GCN0.6887.393.3基线0.6179.281.4SGN,不含SMP0.6988.393.9+ DA0.6180.687.1SGN0.6989.094.5+速度0.6285.391.4+ MaxPooling0.6286.992.8所有框架的所有接头。对于CS和CV设置,“SGN w/oSMP”分别优于“SGN w G-GCN”1.0%和0.6%。学习全局内容自适应图更加复杂和困难。2) “SGN”通过MaxPooing(SMP)聚合帧中所有关节的信息起到提取帧的代表性判别信息(具有大激活值)的作用。此外,空间MaxPooling层减少了随后的计算负担。4.3.3强基线以前的工作通常采用重网络来建模低维骨架序列[40,39,37,58]。我们利用了一些在以前的工作中被证明非常有效的技术,并建立了一个轻量级的强大基线,它已经实现了与大多数其他最先进的方法相当的性能[40,57,54,8]。我们希望这可以作为未来基于机器人的动作识别领域研究的一个强有力的基线。在本节中,并非所有模型都使用语义。我们首先建立一个基本的基线(“基线”)与总体管道类似,在图。2.有三个区别。1)未利用速度、关节类型和帧索引2)数据增强(DA)(见数据处理)在训练过 程 中 不 采 用 3 ) 使 用 AveragePool- ing 代 替Maxpooling,如[54,37]。表3显示了我们采用的构建强基线的技术的影响。我们有以下三点看法。1)数据扩充显著提高了CV设置的性能。通过对观察到的视图的增强,可以在训练期间“看到”一些2)两个流网络(使用位置和速度)[40]已被证明是有效的,但两个单独的网络使参数数量增加了一倍。我们在早期阶段(输入)融合了两种类型的信息,它显著地提高了性能,只有微不足道的额外参数(即。例如,0.01M)。3)MaxPooling比AveragePooling更强大。原因是MaxPooling就像一个注意力模块,它驱动学习和选择区分特征。(a) 鼓掌(b)踢(c)敬礼图3:空间最大池化层对三个动作的响应的可视化,鼓掌踢腿敬礼SMP选择的前5个关节用较大的蓝色圆圈绘制。4.3.4SMP可视化空间最大池化(SMP)起着与注意力机制类似的作用我们可视化选定的关节SMP为三个行动,鼓掌、踢腿和敬礼。3.第三章。响应的维度为256,每个维度对应于一个选定的关节。我们计算SMP选择每个关节选择的前五个关节由蓝色大圆圈显示,其余关节由蓝色小圆圈显示我们观察到,不同的动作对应于不同的信息关节。左脚对踢腿很重要。敬礼时只有左手有很大的价值,而鼓掌时左右手都必不可少。这与人类的认知是一致的4.3.5SGN的复杂性我们讨论了SGN的复杂性,通过比较它与八个国家的最先进的方法为基础的动作识别。如图1,VA-RNN[58]的参数个数最少,但精度最差。VA-CNN[58]和2s-AGCN[37]实现了良好的准确性,但参数数量太大。与基于RNN、基于GCN和基于CNN的方法相比,我们提出的SGN以更少的参数实现了略好的性能,这使得SGN对于许多计算能力有限的实际应用具有吸引力。1120表4:NTU 60与CS和CV设置在准确度(%)方面的性能比较。方法年CSCVHBRNN-L [7]201559.164.0Part-Aware LSTM [36]201662.970.3ST-LSTM+信任门[27]201669.277.7STA-LSTM [41]201773.481.2GCA-LSTM [29]201774.482.8Clips+CNN+MTLN [18]201779.684.8VA-LSTM [57]201779.487.6[59]第五十九话201880.788.4ST-GCN [54]201881.588.3DPRL+GCNN [44]201883.589.8SR-TSL [40]201884.892.4[23]第二十三话201886.591.1AGC-LSTM(joint)[39]201987.593.5[24]第二十四话201986.894.2GCN [8]201987.594.32s-AGCN [37]201988.595.1[58]第五十八话201988.794.3SGN,不含Sem。-86.992.8SGN-89.094.5表5:NTU 120与C-受试者和C-设置设置在准确度(%)方面的性能比较方法年C-主题C-SetupPart-Aware LSTM [36]201625.526.3ST-LSTM+信任门[27]201655.757.9GCA-LSTM [29]201758.359.2Clips+CNN+MTLN [18]201758.457.9[28]第二十八话201761.263.3[19]第十九话201862.261.8[31]第31话201864.666.9SGN,不含Sem。-77.479.2SGN-79.281.54.4. 与最新技术我们分别在表4、表5和表6中的NTU 60、NTU 120和SYSU数据集上将所提出的SGN与其他最先进的方法进行了比较。“SGN w/o Sem.”表示我们的强基线,而不使用语义。如表4所示,引入语义(Sem. )分别为CS和CV设置带来了2.1%和1.7%的准确度性能提升。“ElAtt-GRU”[59]和“Clips+CNN+MTLN”[18]分别是基于RNN和基于CNN的方法的两种代表性方法。SGN在CS设置的准确性方面分别优于它们8.3%和9.4%为了更好地探索骨骼的结构信息表6:SYSU在准确度(%)方面的性能比较。* 表示模型使用在NTU 60上预先训练的参数。方法年份VA-LSTM [57]201777.576.9ST-LSTM [26]201876.5-GCN [8]201977.9-双流GCA-LSTM [28]201778.6-SR-TSL [40]201881.980.7[59]第五十九话:201885.785.7SGN-83.081.6SGN*-90.689.3一些方法[54,40]将CNN和GCN混合在一起,或者将LSTM和GCN混合在一起。我们提出的SGN在CS设置的准确性方面也优于[54]和[40] 5.5%和4.2%。与[37]和[58]相比,所提出的SGN实现了具有竞争力的性能,但参数数量只有它们的10%,1.一、如表5和表6所示,所提出的SGN在NTU 120和SYSU上实现了最佳精度。NTU120数据集是一个新发布的数据集,我们将其与[25]中报道的结果进行了比较。语义学(SEM. )分别为C-Subject和C-Setup 设置带来1.8%和2.3%的精度增益。5. 结论在这项工作中,我们提出了一个简单而有效的端到端的语义引导的神经网络的高性能的基于语义的人类识别。我们明确地介绍了高层语义,关节类型和帧索引,作为网络输入的一部分为了对关节的相关性进行建模,我们提出了用于捕获同一帧中的关节的相关性的关节级模块和用于对帧的依赖性进行建模的帧级模块,其中同一帧中的所有关节被视为一个整体。语义有助于提高GCN和CNN两者的能力。此外,我们已经开发了一个强有力的基线,这是优于大多数以前的方法。我们提出的模型在三个基准数据集上取得了最先进的结果,模型大小比一些经典的工作确认本工作得到国家自然科学基金(批准号:61751308和61773311)。1121引用[1] Jake K Aggarwal和Michael S Ryoo。人类活动分析综述.ACM Computing Surveys,2011.[2] Fabien Baradel , Christian Wolf , Julien Mille , andGraham W Taylor.一瞥云彩:从非结构化特征点识别人体活动。在CVPR,2018年。[3] 曹聪奇,蓝翠玲,张一凡,曾文军,卢汉庆,张燕宁.使用 门控 卷积 神经 网络 的基于 骨架 的动 作识 别。TCSVT,29(11):3247[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR,2017年。[5] KyunghyunCho,BartVanMerrieenboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv,2014.[6] 雍都、云浮、梁王。基于卷积神经网络的骨架动作识别。ACPR,2015年。[7] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络CVPR,2015。[8] 高翔,胡伟,唐嘉祥,刘嘉颖,郭宗明.通过稀疏图回归优化的基于动作的动作识别。在ACMMM,2019。[9] 吉列尔莫·加西亚·埃尔南多和金泰均过渡林:学习用于动作识别和检测的有区别的时间转换。在CVPR,2017年。[10] Jonas Gehring , Michael Auli, David Grangier , DenisYarats,and Yann N Dauphin.卷积序列到序列学习。ICML,2017。[11] 非寒、布莱恩·雷利、威廉·霍夫、张昊。基于三维骨架数据的人的时空表示:审查. CVIU,2017年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[13] 何通,张志,张航,张中岳,谢军元,李慕.使用卷积神经网络进行图像分类的技巧包。在CVPR,2019年。[14] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,1997年。[15] 胡建方,郑伟世,赖建煌,张建国。联合学习rgb-d活动识别的异构特征。CVPR,2015。[16] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv,2015.[17] 贡纳·约翰森生物运动的视觉感知及其分析模型。感知心理物理学,1973年。[18] Qiuhong Ke , Mohammed Bennamoun , Senjian An ,Ferdous Sohel,and Farid Boussaid.一种新的三维动作识别骨架序列表示方法在CVPR,2017年。[19] Qiuhong Ke , Mohammed Bennamoun , Senjian An ,Ferdous Sohel,and Farid Boussaid.基于骨架的3d动作识别的学习剪辑表示TIP,2018年。[20] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv,2014.[21] Thomas N Kipf 和 Max Welling 图 卷 积 网 络 的 半 监 督arXiv,2016.[22] Chao Li,Qiaoyong Zhong,Di Xie,and Shiliang Pu.基于骨架的动作识别与卷积神经网络。在ICMEW,2017年。[23] Chao Li,Qiaoyong Zhong,Di Xie,and Shiliang Pu.从骨架数据中学习共现特征用于分层聚合的动作识别和检测。在IJCAI,2018。[24] Maosen Li,Siheng Chen,Xu Chen,Ya Zhang,YafengWang,and Qi Tian.用于基于骨架的动作识别的动作结构图卷积网络。在CVPR,2019年。[25] Jun Liu,Amir Shahroudy,Mauricio Lisboa Perez,GangWang , Ling-Yu Duan , and Alex Kot Chichung.Nturgb+ d 120:一个大规模的三维人体活动的基准了解。TPAMI,2019。[26] Jun Liu,Amir Shahroudy,Dong Xu,Alex C Kot,andGang Wang.基于信任门时空lstm网络的骨架动作识别TPAMI,2018年。[27] Jun Liu,Amir Shahroudy,Dong Xu,and Gang Wang.具有信任门的时空lstm用于三维人体动作识别。在ECCV,2016年。[28] J
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功