没有合适的资源?快使用搜索试试~ 我知道了~
基于骨架的空间推理和时间堆栈学习司晨阳1、3[0000−0002−3354−1968]、荆亚 1、3[0000−0002−4179−8210]、王伟 1、3[0000−0002−5750−6980]、王良 1、 2、3[0000−0001−5224−8647]、谭铁牛 1、 2、3[0000−0003−4054−5649]1智能感知与计算研究中心(CRIPAC),模式识别国家重点实验室(NLPR)2中国科学院自动化研究所脑科学与智能技术卓越中心(CEBSIT)3中国科学院大学(UCAS){chenyang.si,ya.jing}@ cripac.ia.ac.cn,{wangwei,wangliang,tnt}@nlpr.ia.ac.cn抽象。基于骨架的动作识别技术近年来取得了很大的进展,但仍存在许多问题。例如,大多数先前的方法所捕获的骨架序列的表示缺乏空间结构信息和详细的时间动力学特征。本文提出了一种新的基于骨架的动作识别模型SR-TSL,该模型由空间推理网络SRN和时间堆栈学习网络TSLN组成SRN可以通过残差图神经网络捕获每帧内的高级空间结构信息,而TSLN可以通过多个跳剪LSTM的组合来建模骨架序列的详细在训练过程中,我们提出了一个基于剪辑的增量损失来优化模型。我们在SYSU 3D人机交互数据集和NTU RGB+D数据集上进行了大量的实验,并验证了我们模型的每个网络的有效性比较结果表明,我们的方法取得了更好的结果比国家的最先进的方法。关键词:基于骨架的动作识别·空间推理·临时堆栈学习·基于剪辑的增量损失1介绍人体动作识别是计算机视觉研究中的一个重要而富有挑战性的问题它在智能视频监控、体育赛事分析、视频检索等方面有着重要的应用。人类动作识别还可以帮助机器人更好地理解人类行为,因此机器人可以更好地与人互动[21,30,1]。通讯作者:铎王2司晨阳、雅静、王伟、王良、谭铁牛近来,存在许多识别人类动作的方法,其输入数据类型可以大致分为两类:RGB视频[25]和3D骨架序列[4]。对于RGB视频,通常应用空间然而,空间外观仅包含2D信息,难以捕获所有的运动信息,并且光流通常需要很高的计算成本。与RGB视频相比,Johansson等人[11]已经解释了3D骨架序列可以有效地表示人类动作的动态。此外,骨架序列可以通过Microsoft Kinect [33]和高级人体姿势估计算法[3]获得。近年来,基于人脸识别的人体动作识别受到越来越多的关注[2,4,26]。在本文中,我们专注于从三维骨架序列中识别人体动作。对于序列数据,递归神经网络(RNN)在学习时间依赖性方面具有很强的能力。已经有很多工作成功地将RNN应用于基于骨架的动作识别。提出了分层RNN [4]来从骨架序列中学习运动表示。Shahroudy等人[24]引入了一个部件感知的LSTM网络,以进一步提高LSTM框架的性能。为了对区分性特征进行建模,提出了一种基于LSTM的时空注意力模型[26],以关注区分性关节并对不同的帧给予不同的注意力尽管性能有了很大的提高,但仍存在两个亟待解决的问题。首先,人类的行为是在与身体的每个部分协调的情况下完成的。例如,走路需要双腿行走,也需要手臂的摆动来协调身体平衡。如果直接将所有身体关节的连接输入到网络中,则很难捕获每个帧内的高级空间结构信息。第二,这些方法利用RNN直接对骨架序列的整体时间动态进行最终RNN的隐藏表示用于识别动作。对于长期序列,最后隐藏的表示不能完全包含序列的详细时间动态。在本文中,我们提出了一种新的模型与空间推理和temporal堆栈学习(SR-TSL)的这个任务,它可以有效地解决上述挑战。图1示出了我们的模型的整体流水线,其包含空间推理网络(SRN)和时间堆栈学习网络(TSLN)。首先,我们提出了一个空间推理网络,以捕捉每个帧内的高层次的空间结构特征。身体可以分解成不同的部分,例如两条胳膊,两条腿和一个躯干每个部分的关节的连接被转换成具有线性层的单个空间特征身体部位的这些个体空间特征被馈送到残差图神经网络(RGNN)中以捕获不同身体部位之间的高级结构特征,其中每个节点对应于身体部位。其次,我们提出了一个时间堆栈学习网络来模拟序列的详细时间动态对于长期序列,它被划分为多个剪辑。每个的短期时间信息基于骨架的动作识别3图1.一、我们的模型包含一个空间推理网络和一个时间堆栈学习网络的整体管道在空间推理网络中,残差图神经网络(RGNN)用于捕获不同身体部位之间的高级空间结构时间堆栈学习网络可以为骨架序列建模详细的时间动态在训练过程中,利用基于裁剪的增量损失(CIloss)对剪辑被建模为具有在跳过剪辑L-STM层中的剪辑之间共享的LSTM层。当将剪辑馈送到共享LSTM中时,共享LSTM的初始隐藏是用所有先前剪辑的最终隐藏状态的总和来初始化的,其可以继承先前的动态以维持剪辑之间的依赖性。S.我们提出了一个基于剪辑的增量损失,以进一步提高堆栈学习的能力。因此,我们的模型也可以有效地解决长期序列优化问题。实验结果表明,该算法加快了模型的收敛速度,提高了模型的性能。本文的主要贡献概括如下:1. 我们提出了一个空间推理网络的每个骨架框架,它可以有效地捕捉高层次的空间结构信息之间的不同的身体部位,使用残差图神经网络。2. 我们提出了一个时间堆栈学习网络,通过多个跳跃剪辑LSTM的组合来模拟骨架序列的详细时间动态3. 提出的基于裁剪的增量损失进一步提高了时间栈的学习能力,可以有效地加快收敛速度,明显提高性能。4. 我们的方法在SYSU 3D人机交互数据集和NTU RGB+D数据集上获得了最先进的结果。2相关工作在本节中,我们简要回顾了与所提出的方法密切相关的现有文献。4司晨阳、雅静、王伟、王良、谭铁牛基于骨架的动作识别已经有大量的工作提出了基于骨架的动作识别,可以分为两类。第一类是专注于设计手工特征来表示骨骼运动的信息Wang等人[29]利用称为局部占用模式的新特征,其可以被视为关节的深度外观,并提出actionlet集成模型来表示每个动作。Hussein等人[10]使用随时间的骨架关节位置的协方差矩阵作为序列的判别描述符。Vemulapalli等人[27]利用旋转和平移来表示李群中身体部位的3D几何关系第二类是使用深度神经网络来识别人类动作。[12,13]利用卷积神经网络(CNN)进行基于骨架的动作识别。最近,大多数方法利用递归神经网络(RNNs)来完成这项任务。Du等[4]首先提出了一种用于基于骨架的动作识别的端到端分层RNNZhu等人[34]设计一个具有正则化方案的完全连接的深度LSTM网络,以学习骨骼关节的同现特征。一种端到端的时空注意模型[26]学习选择性地集中在输入的每个帧内的骨架的有区别的关节上不同的框架。Zhang等人[32]利用具有LSTM架构的视图自适应模型在[28]中,提出了一种双流RNN架构,用于对时间动态和空间配置进行建模,以实现基于动作的动作识别与我们最相似的工作是[16],它提出 了 一 种 用 于 基 于 混 沌 的 动 作 识 别 的 集 成 时 间 滑 动 LSTM ( TS-LSTM)网络他们利用多项时间滑动LSTM网络的集合来捕获短期,中期,长期的时间依赖性,甚至空间骨架姿势依赖性。在本文中,我们设计了一个空间推理网络和时间堆栈学习网络,它可以捕获高层次的空间结构信息和详细的骨架序列的时间动态,分别。图神经网络近年来,越来越多的研究工作将图神经网络(GNNs)应用到图结构数据中,图结构数据可以分为两大类。第一类是将卷积神经网络(CNN)应用到图上,改进了传统的图上卷积[6,5]利用依赖于图拉普拉斯算子的谱域中的CNN。[15,20]直接在图节点及其邻居上应用卷积,其在空间域上构造图滤波器Yan等[31]是第一个将图卷积神经网络应用于基于动作识别的人。第二类是利用递归神经网络对图的每个节点进行训练。[23]建议循环更新图的每个节点Li等人[17]提出了一种基于图神经网络的情景识别模型,该模型可以使用定义在图上的神经网络有效地捕获角色之间的联合依赖关系Qi等人[22]使用3D图形神经网络进行RGBD语义分割。在本文中,一个resid-基于骨架的动作识别5我利用人工图神经网络对人体不同部位之间的高层空间结构信息进行建模。3概述在本节中,我们简要回顾了图神经网络(GNNs)、回流神经网络(RNN)和长短期记忆(LSTM),它们在我们的框架中使用。3.1图神经网络图神经网络(GNN)在[23]中被引入作为递归神经网络的推广,其可以处理更一般的一类图。GNN可以被定义为有序对G={V,E},其中V是节点的集合,并且E是边的集合在时间步长t处,第i个(i∈{1,… |V|})nodeist,and theouttputtist. nodeΩvst的值和我我节点V的邻居。对于GNN,每个节点v∈V的输入向量基于以下信息包含在节点v的邻域中,并且每个节点的隐藏状态是循环更新的。在时间步t,节点的接收消息与其邻居的隐藏状态然后接收到的消息和先前状态ST-1被用来更新隐藏状态ST。最后我我输出Ot用St计算。定义时间步t处的GNN公式我如下所示我mt=fm()下一页{st−1|i∈{1,., |Ωv|}(一)我 t=f(iit t−1)Is mi,si(二)ot=fo(吨)si(3)其中mt是邻居Ωv发送到节点我我vi,fm是计算传入消息的函数,fs是函数它表示节点的状态,f0是产生输出的函数与RNN类似,这些函数是学习的神经网络,并在不同的时间步长之间共享。3.2RNN和LSTM递归神经网络(RNN)是通过节点网络中的循环来捕获序列依赖关系的强大模型,适用于序列任务。然而,标准的RNN用于长时间序列时存在梯度消失和梯度爆炸两个难题。长短期记忆(LSTM)的高级RNN架构由Hochreiter等人提出。[7]的文件。LSTM神经元包含一个输入门、一个遗忘门、一个输出门和一个细胞,这可以促进学习长期依赖关系的能力6司晨阳、雅静、王伟、王良、谭铁牛KKK4模型架构在本文中,我们提出了一个有效的基于骨架的动作识别模型,它包含一个空间推理网络和一个时间堆栈学习网络。我们的模型的整体流水线如图所示1.一、在本节中,我们将详细介绍这些网络。4.1空间推理网络人体在动作识别任务中所涉及的丰富的固有结构,促使我们设计一种称为空间推理网络的有效架构来建模每个帧内的高级空间结构信息根据常识,人体可以分解为K个部分,例如,两个手臂,两条腿和一个躯干(如图所示)。2(a)),其表达人体构造的知识。对于空间结构,空间推理网络通过两个步骤对坐标向量进行编码(见图11)。1)捕获骨架结构关系的高级空间特征。首先,初步编码过程将每个部分的坐标向量映射到单独的部分特征ek,k ∈ {1,…K},其具有在不同身体部位之间共享的线性层。其次,所有的部分特征e,k被送入建议的残差图神经网络(RGNN),以模拟这些身体部位之间的结构关系。图2(b)示出了具有三个节点的RGNN。对于RGNN,存在对应于人体部位的K个节点在时间步t,每个节点具有关系特征向量rt∈Rt,其中Rt={rt,…rT}。和rt表示部件k的空间结构关系1千k与其他部分。我们用单个零件特征ek初始化rt,例如r0=ek。我们用mt表示从节点k接收到的节点k的消息克伊克i,其中i ∈ {1,… K}。此外,接收到的消息m_t(a)(b)第(1)款图二、残差图神经网络(RGNN)的结构(a)示出了五个人体姿势部分和对应的RGNN。(b)显示了具有三个节点基于骨架的动作识别7K我我KK不在时间步长t,来自所有邻居的节点k Ωvk定义如下:∑mt=蒂克i∈Ωvk∑=i∈ΩvkWmst−1+bm(四)其中st−1是节点i在时间步t−1的状态,并且将使用权重Wm和偏置bm的共享线性层来计算所有节点的消息。在聚合消息之后,节点隐藏状态的更新函数可以定义如下:st=f(rt−1,mt,st−1)(5)klstmkkk其中flstm(·)不确定LSTM单元函数。我们将计算相关信息表示法在时间步长t,经由:t=t−1+t(六)kkk等式6的残差设计旨在基于各个零件特征添加每个零件之间的关系特征,使得表示包含两个特征的融合。在RGNN更新T次之后,我们提取节点级输出作为空间结构关系每一帧内的每一部分。最后帧人体的高级空间结构信息Q可以被计算如下:T( T T T)R= concat[r1,r2,...,[rk],k∈K(7)q=fr()下一页r(8)其中r(·)是线性的。4.2时态堆栈学习网络为了进一步利用各种动作的区别特征,所提出的时间堆栈学习网络进一步专注于建模详细的时间动态。对于一个骨架序列,它具有丰富而详细的时间动态在短期的剪辑。为了捕获详细的时间信息,可以将长期序列分解成多个连续剪辑。在骨架序列中,它由N个帧组成。该序列以d帧的间隔被分成M个剪辑。高级空间结构特征{Q1,Q2,…可以从空间推理网络中提取骨架序列的Q_M }。Qm={qmd+1,qmd+2,… q(m+1)d}是f∈u的集合,而dqnde不是骨架框架n的高层空间结构特征,n∈ {1,…,N}个。我们提出的时间堆栈学习网络是一个双流网络:位置网和速度网(见图1)。①的人。这两个网络拥有M8司晨阳、雅静、王伟、王良、谭铁牛不不相同的架构,由三个跳跃剪辑LSTM层组成(如图所示)。(3)第三章。位置网络的输入是高级空间结构特征{Q1,Q2,… QM}。速度网络的输入是时间差{V1,V2,….,其中Vm={vmd+1,vmd+2,..., v(m +1)d}。 vn= qn-qn-1表示骨架帧n的高级空间特征的时间差。跳过剪辑LSTM层在跳过剪辑LSTM层中,有一个在连续剪辑之间共享的LSTM层(见图2)。(3)第三章。对于位置网络,剪辑m中的连续骨架帧的空间特征将被馈送到共享LSTM中,以捕获第一个跳过剪辑LSTM层中的短期时间动态:′hm=fLST M(Qm)()下一页= fLST M {qmd+1,qmd+2,…q(m+1)d}(九)′当m是用于该循环的已分块LST M的已分块状态时,fLSTM(·)表示skip-clip LSTM层中的共享LSTM。请注意,第一个跳跃剪辑LSTM层和其他层之间的LSTM单元的输入是不同的(见图11)。(3)第三章。为了获得两个相邻帧之间的更多依赖性,用于l(l≥2)层的LSTM单元的输入xl在时间步长t,定义如下:L(l−1l− 1)xt=concat t−1,t(十)其中hl−1是时间步长t时l−1个LSTM层的隐藏状态。然后,可以如下计算剪辑动态的表示:′Hm=Hm−1+hm∑m=i=1′hi(11)图3.第三章。三个跳跃剪辑LSTM层的架构基于骨架的动作识别9MMMMMMmimimiM其中Hm−1和Hm分别表示剪辑m−1和m的表示表示Hm用于聚合第m个剪辑和所有先前剪辑的所有详细时间动态以表示长期序列。当将剪辑m馈送到共享的LSTM层时,我们初始化初始的隐藏状态h0与Hm−1共享的LSTM,使得h0=Hm−1,其中可以继承先前的动态以学习第m个剪辑的短期动态以保持剪辑之间的依赖性跳过剪辑LSTM层可以基于先前剪辑的时间信息来捕获短期剪辑m越大,Hm包含的时间动态信息越丰富。学习分类器最后,使用两个线性层来计算C类的得分:Om=Fo(Hm)(12)其中〇m是片段m的得分,并且〇m=(〇m1,〇m2,…表示两个线性层。并且输出被馈送到softmax分类器以预测第i类的概率:俄俄美ymi=∑Cj=1,i = 1,… C(13)eomj其中,最重要的是,它的可行性在于,它可以按照要求提供。并且dym=(ym1,..., ymC)d e nt e terobilityv ec torofc lipm.我们提出的时间堆栈学习网络是一个双流网络,因此三种模式的剪辑动态表示(Hp、Hv和HS)将是嗯嗯抓了HPHv表示从所述图像中提取的动态表示。分别是剪辑m的位置和速度而Hs是Hp的和和Hv. 可以从以下公式中获得prbilityvectors(yp,yvandys)M网络嗯嗯为了优化模型,我们提出了骨架序列的基于剪辑的增量Lp=−Lv=−Ls=−∑Mm=1∑Mm=1∑Mm=1m∑CMi=1m∑CMi=1m∑CMi=1yilogypyilogyvyilogys(十四)(十五)(十六)其中y =(yi,… yC)表示groundtruth标签。时间越丰富-形成的剪辑包含,更大的系数m是. 的基于夹具增量损失将提高对长期骨架序列的详细时间动态建模的能力。最后,我们模型的训练损失10司晨阳、雅静、王伟、王良、谭铁牛MM定义如下:L=Lp+Lv+Ls(17)由于skip-clip LSTM的机制(参见等式11),表示Hs剪辑M的所有细节的时间动态聚合的con-m。来自位置序列和速度序列的连续剪辑。处于测试process,weeonly yuseprobi lityvectorys来预测骨架的类别顺序5实验为了验证我们提出的基于骨架的动作识别模型的有效性,我们对NTURGB+D数据集[24]和SYSU 3D人机交互数据集[8]进行了广泛的实验我们还分析了我们的模型与几个变量的性能。5.1数据集和实验设置NTU RGB+D数据集(NTU)这是Microsoft Kinect v2收集的当前最大的带有关节注释的动作识别数据集。它有56880个视频样本,总共包含60个动作类这些动作由40个不同的主体执行 它是用三个摄像机在不同的水平视图中同时记录的。 关节注释由25个主要身体关节的3D位置组成。[24]定义了该数据集的两个标准评估协议:跨学科和跨视图。对于跨受试者评价,将40名受试者分成训练组和测试组。每组由20名受试者组成对于交叉视图评估,相机2和3的所有样本用于训练,而相机1的样本用于测试。SYSU 3D人机交互数据集(SYSU)该数据集包含12个动作类中的480个视频样本这些动作由40名受试者执行在3D骨架序列中,每个对象有20个关节。该数据集有两个标准评价方案[8]。在第一设置(设置-1)中,对于每个活动类,一半的样本用于训练,其余的用于测试。在第二设置(设置-2)中,一半的受试者用于训练模型,其余的用于测试。对于每个设置,有30倍交叉验证。实验设置在我们所有的实验中,我们将RGNN的隐藏状态维度设置为256。对于NTU数据集,人体被分解成K= 8个部分:两个手臂、两只手、两条腿、一个躯干和一个头部。对于SYSU数据集,有K= 5个部分:两个手臂,两条腿和一个躯干。我们为两个数据集设置骨架序列的长度N= 100。跳跃剪辑LSTM层中的LSTM单元的神经元大小是512。以0.0001开始的NTU数据集和SYSU数据集的批量大小分别为64和10。使用ADAM优化器优化网络[14]。利用概率为0.5的丢弃来减轻训练期间的过拟合。基于骨架的动作识别11表1. NTU RGB+D数据集与跨主题和跨视图设置的准确度比较结果(%)方法跨学科交叉视图[4]第四季第4集59.164.0Part-aware LSTM [24](2016)62.970.3Trust Gate ST-LSTM [18](2016)69.277.7Two-stream RNN [28](2017)71.379.5STA-LSTM [26](2017)73.481.2Ensemble TS-LSTM [16](2017)74.681.3[19]第19话我的世界76.082.6VA-LSTM [32](2017)79.487.6ST-GCN [31](2018)81.588.3SR-TSL(我们的)84.892.45.2实验结果我们在表1和表22.这些基于骨架的动作识别方法可以分为两类:基于CNN的方法[19,31]和基于LSTM的方法[32,16,26]。如表1所示,我们可以看到,我们提出的模型在当前最大的NTU数据集上实现了84.8%和92.4%我们的性能显著优于最先进的基于CNN的方法[31],对于跨学科评估和跨视图评估分别约为3.3%和4.1%我们的模型属于基于LSTM的方法。与VA-LSTM [32]相比,VA-LSTM是目前最好的基于LSTM的动作识别方法Ensemble TS-LSTM [16]是与我们最相似的工作与[16]相比,我们的模型在跨学科评估和跨视图评估中的结果分别优于10.2%和11.1%如表2所示,我们提出的模型在SYSU数据集上实现了80.7%和81.9%的最佳性能,对于设置-1和设置-2,分别显著优于最先进的方法[32]约3.8%和4.4%。表2. SYSU数据集的比较结果,准确度(%)方法设置-1设置-2[2016年9月9日]-54.2[8]第一季第8集75.576.9VA-LSTM [32](2017)76.977.5SR-TSL(我们的)80.781.912司晨阳、雅静、王伟、王良、谭铁牛方法NTU跨学科SYSU交叉视图设置-1设置-2表3. NTU和SYSU数据集的准确度(%)比较结果。我们比较了几个变体和我们提出的模型的性能,以验证我们的模型FC + LSTM77.084.739.940.7SRN + LSTM78.787.342.144.4FC + TSLN83.891.677.377.4SR-TSL(位置)78.888.277.176.9SR-TSL(速度)82.290.671.771.8SR-TSL(我们的)84.892.480.781.95.3模型分析我们分析了所提出的模型,通过比较它与几个基线。比较结果表明了该模 型的有效 性。拟 议模式中 有两个 关键要素 :空间 推理网络(SRN)和时间堆栈学习网络(TSLN)。为了分析每个组件的作用在NTU数据集上评估每个变体。FC+LSTM对于该模型,每个身体部位的坐标向量用线性层编码,并且三个LSTM层用于对序列动态进行建模。它也是一个双流网络,从位置和速度学习时间SRN+LSTM与FC+LSTM相比,该模型使用空间推理网络来捕获每个帧内骨架序列的高级空间结构特征。FC+TSLN与 FC+LSTM 相比 ,时间堆 栈学习网 络取代 了三个LSTM层来学习骨架序列的详细序列动态SR-TSL(位置)与我们提出的模型相比,该模型的时间堆栈学习网络只包含位置网络。SR-TSL(Velocity)与我们提出的模型相比,该模型的时间堆栈学习网络只包含速度网络。SR-TSL这是我们提出的模型。表3示出了在NTU和SYSU数据集上的变体和我们提出的模型的比较结果我们可以观察到,我们的模型可以明显提高两个数据集上的性能。并且表3中示出的提高的性能说明空间推理网络和时间栈学习网络对于基于骨架的动作识别是有效的,尤其是时间栈学习网络。此外,时间堆栈学习网络的双流结构是有效的学习的时间动力学的速度序列和位置序列。图4显示了在学习阶段,NTU RGB+D数据集测试集上的基线和我们的模型的准确性。我们可以看到我们提出的模型可以加快基于骨架的动作识别13(a) 跨主题(b)跨视图见图4。在学习阶段,基线和我们的模型在NTU RG- B+D数据集(a)示出了跨对象评估的比较结果,并且(b)是跨视图评估收敛性好,性能明显提高 我们还在图中显示了时间堆栈学习的过程。5.随着m的增加,越富-在序列的表示中包含时间信息。并且该网络可以考虑更多的时间动态细节来识别人的动作,从而提高准确率。上述结果表明,所提出的SR-TSL可以有效地加快收敛速度,明显改善性能。我们还讨论了两个重要超参数的影响:RGNN的时间步长T和剪辑的长度d。比较结果示于表4和表5中。对于时间步长T,我们可以发现,当增加T时,性能增加少量,并且很快饱和。我们认为,少量的身体部位之间的高层次的空间结构特征可以快速学习。对于夹子的长度d,随着d.性能显著提高,然后饱和。的原因图五、NTU RGB+D数据集测试集上增加剪辑的准确性14司晨阳、雅静、王伟、王良、谭铁牛表4. NTU的比较结果见表5。NTU数据集上的比较结果,准确度(%)。我们比较了几个数据集的准确性(%)。 我们比较了具有不同时间步长性能的几个RGNN模型的eral模型,以显示在每个步骤中实现的具有不同剪辑长度d的改进RGNNTSLN跨主题交叉视图D= 2跨主题交叉视图81.6 90.6T=184.192.0D=484.191.4T=284.492.2D=684.592.4T=384.592.4D=884.592.3T=484.792.3D=1084.892.1T=584.892.3D=1584.792.2T=684.792.2D=2084.492.1饱和的一个重要特征是学习短期动态不需要太多帧。上述实验结果表明,我们提出的模型是有效的基于骨架的动作识别。6结论在本文中,我们提出了一种新的模型,空间推理和时间堆栈学习的长期骨架为基础的动作识别,取得了更好的效果比国家的最先进的方法。空间推理网络可以捕获每个帧内的高级空间结构信息,而时间堆栈学习网络可以对骨架序列的详细时间动态进行我们还提出了一种基于裁剪的增量损失,以进一步提高堆栈学习的能力,这为解决长期序列优化提供了一种通过在目前最大的NTU RGB+D数据集和SYSU数据集上的大量实验,验证了该模型在基于骨架的动作识别中的有效性。在未来,我们将进一步分析错误样本以改进模型,并考虑更多的上下文信息,如交互,以帮助动作识别。确认本工作得到国家重点研究发展计划(2016YFB1001000)、国家自然科学基金(61525306,61633021,61721004,61420106015,61572504)、国家自 然 科 学 基 金 ( 61525306 , 61633021 , 61721004 , 61420106015 ,61572504 ) 、 国 家自 然 科 学 基金 ( 61525306 , 61633021 ,61721004 ,61420106015,61572504)、国家自然科学基金(61525306,61633021,61721004,61420106015,61572504)、国家自然科学基金(61525中国国家电网公司基于骨架的动作识别15引用1. Aggarwal , J.K. Ryoo , M.S. : 人 类 活 动 分 析 : 审 查 . ACM 计 算 调 查(2011)2. Aggarwal,J.K.夏,L.:从3D数据识别人类活动:审查. Pattern RecognitionLetters(2014)3. Cao,Z.,Simon,T.Wei,S.E.,Sheikh,Y.:利用局部仿射场进行实时多人二维姿态在:CVPR(2017)4. 杜,Y.,王伟,Wang,L.:基于骨架的动作识别的层次递归神经网络。参见:CVPR(2015)5. Duvenaud,D.K.,Maclaurin,D.,Iparraguirre,J.,邦巴雷尔河Hirzel,T.,Aspuru-Guzik,A.,Adams,R.P.:用于学习分子指纹的图上卷积网络。In:NIPS(2015)6. Henaff,M.,Bruna,J.,LeCun,Y.:图结构数据上的深度卷积网络arXiv预印本arXiv:1506.05163(2015)7. Hochreiter,S.,Schmidhuber,J.:长短期记忆。03 The Dog(1997)8. 胡J.F. Zheng,W.S.,Lai,J.,Zhang,J.:联合学习rgb-d活动识别的异构特征。参见:CVPR(2015)9. 胡J.F.Zheng,W.S.,马,L.,Wang,G.,Lai,J.:通过软回归进行实时rgb-d活性In:ECCV(2016)10. Hussein,M.E.,Torki,M.,Gowayyed,M.A.El-Saban,M.:在3d关节位置上使用协方差描述符的时间层次的人类动作识别03 The Dog(2013)11. Johansson,G.:生物运动的视觉感知及其分析模型。03 The Dog(1973)12. Ke,Q. Bennamoun,M.,An,S.,Sohel,F.,Boussaid,F.:一种新的三维动作识别骨架序列表示方法。在:CVPR(2017)13. Kim T.S. Reiter,A.:用时间卷积网络进行可解释的三维人体动作分析。在:CVPR研讨会(2017)14. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法。载于:ICLR(2015)15. LeCun,J.B.W.Z.A.S.Y.:图上的谱网络和局部连通网络。载于:ICLR(2014)16. 李岛Kim,D.,康,S.,Lee,S.:使用时间滑动lstm网络进行基于骨架的动作识别的集成深度学习In:ICCV(2017)17. Li,R.,Tapaswi,M.,廖河,巴西-地贾,J.,Urtasun河Fidler,S.:基于图神经网络的态势识别。In:ICCV(2017)18. 刘杰,Shahroudy,A.,徐,D.,王G:具有信任门的时空lstm用于三维人体动作识别。In:ECCV(2016)19. 刘,M.,刘洪,Chen,C.:增强的骨架可视化视图不变的人类动作识别。模式识别(2017)20. Niepert,M.,Ahmed,M.,Kutzkov,K.:学习图的卷积神经网络。In:ICML(2016)21. Poppe,R.:基于视觉的人体动作识别研究综述。图像和视觉计算(2010)22. Qi,X.,廖河,巴西-地贾,J.,Fidler,S.,乌尔塔松河:用于RGBD语义分割的3D图神经网络In:ICCV(2017)23. Scarselli,F.,Gori,M.,蔡文聪Hagenbuchner,M.,Monfardini,G.:图神经网络模型。IEEE Transactions on Neural Networks(2009)16司晨阳、雅静、王伟、王良、谭铁牛24. Shahroudy,A.,刘杰,Ng,T. T.,王G:Ntu rgb+d:用于3d人类活动分析的大规模数据集。见:CVPR(2016)25. 西蒙尼扬,K.,齐瑟曼,A.:双流卷积网络用于视频中的动作识别。在:NIPS(2014)26. Song,S.,兰角邢杰,Zeng,W.,Liu,J.:一个端到端的时空注意力模型,用于从骨架数据识别人类动作在:AAAI(2017)27. 维穆拉帕利河Arrate,F.,切拉帕河:用李群中的点表示3d骨架的在:CVPR(2014)28. 王,H.,Wang,L.:使用双流递归神经网络建模动作的时间动态和空间配置在:CVPR(2017)29. 王杰,刘志,吴,Y.,Yuan,J.:挖掘actionlet合奏与深度相机的动作在:CVPR(2012)30. Weinland,D.龙法德河Boyer,E.:基于视觉的动作表示、分割和识别方法综述计算机视觉与图像理解(2011)31. Yan,S.,Xiong,Y.,Lin,D.唐晓鸥:用于基于骨架的动作识别的时空图卷积网络。In:AAAI(2018)32. 张,P.,兰角邢杰,Zeng,W.,Xue,J.,Zheng,N.:查看自适应递归神经网络,用于从骨架数据进行高性能人体动作识别。In:ICCV(2017)33. 张志:微软Kinect传感器及其效果。IEEE多媒体(2012)34. 朱伟,兰角邢杰,Zeng,W.,李,Y.,Shen,L.,谢X:使用正则化深度lstm网络的共现特征学习用于基于骨架的动作识别。在:AAAI(2016)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功