没有合适的资源?快使用搜索试试~ 我知道了~
基于骨架的动作识别中的通道拓扑细化方法
13359基于骨架的动作识别陈宇新1,2,张子琪1,2,袁春峰1*,李冰1,邓颖4,胡伟明1,31中国科学2中国科学院大学人工智能学院3中科院脑科学与智能技术4南昌航空大学chenyuxin2019@ia.ac.cn,{ziqi.zhang,cfyuan,bli,wmhu} @ nlpr.ia.ac.cn摘要图卷积网络(GCN)在基于骨架的动作识别中得到了在GCN中,图的拓扑结构支配着特征聚合,因此是提取代表性特征的关键。在这项工作中,我们提出了一种新的通道拓扑细化图卷积(CTR-GC)动态学习不同的拓扑结构,并有效地聚合关节特征在不同的通道,基于骨架的动作识别。所提出的CTR-GC通过学习共享拓扑作为所有通道的通用先验并利用每个通道的通道特定相关性对其进行细化来对通道拓扑进行我们的改进方法引入了一些额外的参数,并显着降低了建模的难度通道明智的拓扑结构。此外,通过将图卷积转化为统一的形式,我们发现CTR-GC放松了图卷积的严格约束,从而导致更强的表示能力。将CTR-GC与temporal建模模块相结合,我们开发了一个功能强大的图 形卷 积 网 络 CTR-GCN , 它在 NTU RGB+D ,NTURGB+D 120和NW-UCLA数据集上的表现明显优于最先进的方法。11. 介绍人体动作识别是一项重要的任务,具有从人机交互到视频监控的各种应用。近年来,基于骨架的人体动作识别由于深度传感器的发展及其对复杂背景的鲁棒性而受到广泛关注。*通讯作者。1https://github.com/Uason-Chen/CTR-GCN。图1.通道拓扑细化。不同颜色的线对应于不同通道中的拓扑结构,并且线的粗细指示关节之间的相关强度。早期的基于深度学习的方法将人体关节视为一组独立特征,并将其组织成特征序列或伪图像,将其馈送到RNN或CNN中以预测动作标签。然而,这些方法忽略了关节间的内在联系,而关节间的内在联系揭示了人体的拓扑结构,是人体骨骼的重要信息。Yan等人[32]首先用图形对人体关节之间的相关性进行建模,并应用GCN以及时间卷积来提取运动特征。然而,他们采用的手动定义的拓扑结构难以实现非自然连接关节之间的关系建模,并限制了GCN的表示能力为了提高GCN的能力,最近的方法[24,35,34]通过注意力或其他机制自适应地学习人类骨骼的拓扑结构它们对所有通道使用拓扑,这迫使GCN在不同通道中聚合具有相同拓扑的特征,从而限制了特征提取的灵活性由于不同的通道表示不同类型的运动特征,并且不同运动特征下的关节之间的相关性并不总是相同的,Cheng等人[3]为通道组设置单独的参数化拓扑。然而,不同组的拓扑结构13360是独立学习的,并且当设置通道级参数化拓扑时,模型变得太重,这增加了优化的难度并且阻碍了通道级拓扑的有效建模。此外,参数化拓扑对于所有样本保持相同,这不能对样本相关性进行建模。在本文中,我们提出了一个通道式拓扑细化图卷积模型通道式拓扑动态和有效的。CTR-GC不是独立地学习不同通道的拓扑,而是具体地,CTR-GC同时学习共享拓扑和通道特定共享拓扑是参数化的邻接矩阵,其用作所有通道的拓扑先验,并提供顶点之间的通用相关性。针对每个样本动态地推断通道特定的相关性,并且它们捕获每个通道内的顶点通过利用特定于通道的相关性来细化共享拓扑,CTR-GC获得通道拓扑(如图1所示)。我们的改进方法避免了建模的拓扑结构的每个通道独立,并引入了一些额外的参数,拉姆,这显着降低了难度modeling通道明智的拓扑结构。此外,通过将四类图卷积转化为统一的形式,我们验证了所提出的CTR-GC本质上放松了对其他图卷积的严格约束,提高了表示能力.结合CTR-GC与时间建模模块,我们构建了一个强大的图卷积网络命名为CTR-GCN的骨架为基础的动作识别。在NTU RGB+D、NTURGB+ D120和NW-UCLA上的大量实验结果表明:(1)CTR-GC在参数和计算量上明显优于其他用于骨架动作识别的图卷积;(2)我们的CTR-GCN在所有三个数据集上都超过了最先进的方法。我们的贡献总结如下:• 我们提出了一个通道的拓扑细化图卷积,动态建模通道的拓扑在细化的方法,导致灵活和有效的相关建模。• 我们在数学上统一了现有的基于骨架的动作识别中的图卷积的形式,并发现CTR-GC放松了其他图卷积的约束,提供了更强大的图建模能力。• 大量的实验结果突出了通道式拓扑结构和细化方法的优点。所提出的CTR-GCN优于状态-最先进的方法显着对三个基于骨架的动作识别基准。2. 相关工作2.1. 图卷积网络卷积神经网络(CNN)在处理图像等欧氏数据方面取得了显著的成果。为了处理像图这样的非欧几里得数据,人们对开发图卷积网络(GCN)越来越感兴趣。GCN通常被分类为光谱方法和空间方法。谱方法在谱域上进行卷积[1,5,11]。然而,它们依赖于与图结构相关的拉普拉斯特征基,因此只能应用于具有相同结构的图。空间方法直接在图上定义卷积[7,21,29]。空间方法的挑战之一是处理不同大小的邻域。在不同的GCN变体中,由Kipf等人提出的GCN。[11]由于其简单性而广泛适用于各种任务。[11]中的特征更新规则由两个步骤组成(1) 将特征转换为高级表示;以及(2) 根据图形拓扑聚合特征。我们的工作采用相同的特征更新规则。2.2. 基于GCN的骨架动作识别GCN已成功用于基于骨架的动作识别[20,24,32,34,36,27],其中大多数遵循[11]的特征更新规则。由于拓扑(即顶点连接关系)在GCN中的重要性,许多基于GCN的方法都集中在拓扑建模上。根据拓扑结构的不同,基于GCN的方法可以分类如下:(1)根据推理过程中拓扑结构是否动态调整,GCN方法可分为静态方法和动态方法。(2)根据不同信道间是否共享拓扑结构,基于GCN的方法可以分为拓扑共享方法和拓扑非共享方法。静态/动态方法。对于静态方法,GCN的拓扑结构在推理期间保持固定。Yan等人[32]提出了一种ST-GCN,它根据人体结构预定义拓扑,并且在训练和测试阶段拓扑都是固定的。Liu等[20]和Huanget al.[9]将多尺度图拓扑引入GCN,以实现多范围联合关系建模。对于动态方法,GCN的拓扑在推断期间被动态地推断。Li等[15]提出了一个A-links推理模块来捕获动作特定的相关性。Shi等人[24]和Zhanget al. [35]用自我注意机制增强拓扑学习,其模拟给定相应特征的两个关节之间的相关性 这些方法推断两个关节13361∈E∈∈N{|}XGV E X VΣ图2.所提出的逐通道拓扑细化图卷积的框架。通道式拓扑建模利用推断的通道特定相关性来细化可训练共享拓扑。特征变换的目的是将输入特征变换为高级表示。最后,输出特征通过逐通道聚合获得。具有地方特色。Ye等人[34]提出了一种动态GCN,其中所有关节的上下文特征被合并以学习任何关节对之间的相关性与静态方法相比,动态方法由于具有动态拓扑结构而具有更强的泛化能力。拓扑共享/拓扑非共享方法。对于拓扑共享方法,静态或动态拓扑在所有通道中共享。这些方法迫使GCN聚合具有相同拓扑结构的不同通道中的特征,从而限制了模型性能的上限。大多数基于GCN的方法遵循拓扑共享的方式,包括上述静态方法[9,20,32]和动态方法[15,24,34,35]。拓扑非共享方法在不同的信道或信道组中使用不同的拓扑,这自然克服了拓扑共享方法的局限性。Cheng等人[3]提出了一种DC-GCN,它为不同的信道组设置了单独的参数化拓扑。然而,DC-GCN面临的优化困难时,设置通道的拓扑结构时,过多的参数所造成的。据我们所知,在基于骨架的动作识别中很少探索拓扑非共享图卷积,并且这项工作是第一次对动态通道拓扑进行建模。注意,我们的方法也属于动态方法,因为拓扑是在推理过程中动态推断的3. 方法在本节中,我们首先定义相关的符号并计算传统的图卷积。然后,我们详细阐述了我们的通道拓扑细化图卷积(CTR-GC)和数学分析的表示能力的CTR-GC和其他图卷积。最后,我们介绍了我们的CTR-GCN的结构。3.1. 预赛符号。人体骨架被表示为以关节为顶点、以骨骼为边的图。 该图表示为 =(,,),其中=v1,v2,…vN是N个顶点的集合。 是边集,它表示为一个邻接矩阵ARN×N,其元素aij反映了vi和vj之间的相关强度. v i的邻域表示为(vi)=vjaij= 0。是N个顶点的特征集,其表示为矩阵XRN ×C,并且vi 的特征表示为x i R C。拓扑共享图卷积。 正常拓扑共享图卷积利用权重W进行特征变换,并通过a ij聚合v i的相邻顶点的表示,以更新其表示zi,其公式为zi=aijxjW(1)vj∈N(vi)对于静态方法,ij被手动定义或设置为可训练参数。对于动态方法,ij通常由模型根据输入样本生成。3.2. 通道级拓扑精化图卷积我们的CTR-GC的一般框架示于图2中。该方法首先将输入特征转换为高层次特征,然后动态推断通道拓扑结构,以获取不同类型运动特征下输入样本关节间的成对相关性具体来说,我们的CTR-GC包含三个部分:(1)该方法包括:(1)由变换函数T(·)完成的特征变换;(2)由相关建模函数M(·)和细化函数R(·)组成的通道拓扑建模;(3)由聚集函数A(·)完成的通道聚集。输入13362∈∈.Σ∈T·̸∈×个~∈∈M·M·~||||∈∈.Σ·M·~∈{· ··}特征XRN×C,输出ZCTR-GC的RN×C′表示为Z=A T(X),R(M(X),A),⑵其中ARN×N是可学习的共享拓扑。接下来,我们对这三个部分进行了详细的介绍。特征变换。 如图2中的橙色块所示,特征转换旨在通过()将输入特征转换为高级表示。 我们在这里采用简单的线性变换作为拓扑共享图卷积,其公式为X〜=T(X)=XW,(3)Q不被强制为对称,即,qij=qji,这增加了相关建模的灵活性。实际上,通道式拓扑R通过用通道特定相关性Q细化共享拓扑A来获得RN×N×C′:R=R(Q,A)=A+α·Q,(7)其中α是用于调整细化强度的可训练标量加法以广播方式进行,其中A被添加到αQ的每个通道。通道级聚合。给定细化的信道拓扑R和高电平特征X~,CTR-GCag。其中XC×C′∈RN×C′是变换后的特征,W∈以通道方式聚合特征。 具体地说,CTR-GC为每个通道构建通道图,其中R是权重矩阵。注意其他变换-也可以使用,例如,多层感知器通道拓扑建模。通道拓扑建模如图2中的蓝色方框所示。邻接矩阵用作所有通道的共享拓扑,并通过反向传播学习。此外,我们学习通道特定的相关性QRN×N×C′ 对C′通道中顶点之间的特定关系进行建模。 然后用Q对共享拓扑A进行精化,得到通道拓扑RRN×N×C′.具体地,我们首先采用相关性建模函数()来对顶点之间的信道相关性进行建模。 为了降低计算成本,我们在将输入特征发送到()之前利用线性变换和ψ来降低特征维度。给定一对顶点(vi,vj)和它们对应的特征(xi,xj),我们设计了两个简单而有效的相关建模函数。 第一相关建模函数M1(·)被公式化为M1(ψ(xi),(xj))=σ(ψ(xi)−(xj)),(4)其中σ()是激活函数。1()本质上计算ψ(xi)和ψ(xi)之间沿信道维度的距离,并利用这些距离的非线性变换作为vi和vj之间的信道特定拓扑关系。第二相关建模函数M2(·)被公式化为M2(ψ(xi),(xi))= MLP(ψ(xi))||(xj)),(5)相应的精化拓扑Rc∈RN×N,特征x~:,c∈RN×1,其中Rc 和 x~ : , c 分 别 来 自 Rc 和 X ( c ) 的 第 c 个 通 道1、 ,C′)。 每一个通道图都反映了某一类型下的顶点关系的运动特征。因此,在每个通道图上执行特征聚合,并且通过连接所有通道图的输出特征来获得最终输出Z,其被公式化为Z=A(X,R)=[R1x~:,1||R2x~:,2||··· ·||其中是级联运算。在整个过程期间,信道特定相关性Q的推断依赖于如公式6所示。因此,建议的CTR-GC是一个动态的图形卷积,它自适应地随着不同的输入样本。3.3. 图的卷积我们通过将不同的图卷积重新表达为统一的形式来分析它们的表示能力,并将它们与CNN中采用的动态卷积[2,33我们首先回顾动态卷积,它增强了具有动态权重的vanilla卷积在动态卷积中,中心像素pi的每个相邻像素pj在卷积核中都有相应的权值,权值可以根据不同的输入样本动态调整,这使得动态卷积具有很强的表示能力。动态卷积可以其中是级联操作,MLP是多层感知器。我们利用MLP在这里由于其强大的拟合配制成zk=ΣxkWk,(9)能力。基于相关建模函数,信道-i j jpj∈N(pi)其中k指示输入样本的索引。xk和zk是利用线性变换ξ提高信道维数,得到特定的相关系数QRN×N×C′p输入特征Jj和的输出特征我的pi,其被公式化为qij= ξ。Mψ(xi),(xj)Σ,i,j∈{1,2,···,N},(6)其中qijRC’是Q中的向量,并且反映Vi和Vi之间的13363J信道特定拓扑关系。注意第k个样本。Wk是动态权重。由于图的不规则结构,很难建立相邻顶点和权重之间的对应关系。因此,图卷积(GC)将卷积权值降级为邻接权值(即,拓扑)和在邻域中共享的权重。然而,分享13364IJ⊙Jij1IJCIJΣΣz=J我Jvj∈N(vi)JIJIJvvp我IJJJIJzi=aijxjW=xj(ai jW),(11)IJJ我J我IJijijijij邻域中的权重限制了GC的表示能力。为了分析不同GC和动态卷积之间的表示能力的差距,我们将邻接权重和在邻域中共享的权重集成到广义权重矩阵Ek中。也就是说,我们制定zk=ΣxkEk形式的所有GC,其中Ek为表1.对不同类别图卷积的和相应的实例。 数字1-5对应于五广义权重我们将GC分为四类如前所述。静态拓扑共享GC。在静态拓扑中-共享约束红色、绿色和蓝色分别表示相对高、中和低限制强度。在GC中,拓扑对于不同的样本保持固定并且跨所有通道共享,其可以被公式化为其中是逐元素乘法,pij通道拓扑关系∈RC′是zk=ΣaxkW=Σxk(aW),(10)vj∈N(vi)vj∈N(vi)国际司法委员会其中是静态拓扑共享GC的广义权重。从等式9和10可以看出,动态卷积和静态拓扑共享GC之间的差异在于它们的(广义)权重。具体地,动态卷积的权重Wk为详情请参阅补充资料。)从在等式13中,我们观察到这种GC的广义权重由于静态拓扑而遭受约束1,但将约束2放松为以下约束:约束4:不同的对应列Ek和对于每个j和k,单独的,而广义权重Kij2 通过不同的缩放因子而不同。的静态拓扑共享GC受到以下约束:约束条件1:Ek1和Ek2必须相同。约束2:Ek和Ek相差一个比例因子。动态拓扑-非共享GC。静态拓扑-非共享GC和动态拓扑-非共享GC之间的唯一区别是动态拓扑-非共享GC动态地推断非共享拓扑,因此注意ij1ij2动态拓扑-非共享GC可以公式化为k1、k2是不同样本索引,j1、j2是不同的相邻顶点索引。 这些约束zk=Σxk。[rkw:,1,···,rk′w:,C′]Σ,(14)导致静态拓扑共享GC和动态卷积在表示能力上存在差距。注意I jvj∈N(vi)ij1IJC我们专注于以vi为根的邻域,而不其中rk是第k个样本为简单起见,考虑Vi动态拓扑共享GC。与静态拓扑共享GC相比,动态GC动态地推断拓扑,从而具有更好的泛化能力。动态拓扑共享GC的公式为kΣkkΣkkv∈N(v)v∈N(v)第c个通道中的Vi、Vi之间的关系。 显然动态拓扑-非共享图卷积的广义权重放松约束1和2。具体地说,它将约束2松弛为约束4,并将约束1松弛为以下约束:约束5:Ek 1和Ek 2的不同对应列Ek2因不同的比例因子而不同。其中k是Vi,并且取决于输入样本。可以看出,动态拓扑共享GC的广义权重仍然受到约束2的影响,但将约束1放宽为以下约束:约束3:Ek1、Ek2相差一个比例因子。静态拓扑-非共享GC。 这种GC针对不同的信道(组)利用不同的拓扑。这里我们只分析具有通道式拓扑的静态GC,因为它是静态拓扑的最一般形式-非共享GC,并且可以退化为其他形式,例如,静态分组拓扑GC。具体配方为我们归纳出不同类别的图卷积以及它们在表1中的约束。可以看出,动态拓扑-非共享GC是约束最少的我们的CTR-GC属于动态拓扑-非共享GC,并且等式8可以被重新公式化为等式14,表明理论上CTR-GC具有比先前的图卷积更强的表示能力[3,24,32,34]。具体的重新配方见补充材料。3.4. 模型架构在CTR-GC的基础上,我们构造了一个功能强大的基于骨架动作的Kivj∈N(vi)=vj∈N(vi)pij⊙(xkW)(12)xk.[pij1w:,1,···,pijC′w:,C′]Σ,(13)E是pij的第c个元素。w:,c是W的第c列。(为了清楚起见,我们省略了等式12和13的推导。的拓扑非共享动态1约束二、三、四5例如✗✗✓✓✓✓✓✓✓✓ST-GC[32]✗✓AGC [24]、Dy-GC[34]✓✗气相色谱法[3]✓✓CTR-GC(我们的)13365识 别 . 我 们将每个关节的邻域设置为整个人体骨架图,这在以前的工作中被证明是更有效的[4 , 24] 。整个网络由十个基本块组成,后面是一个全局平均池和一个softmax分类器来预测动作13366∈∈×个M·×个图3. (a)我们的CTR-GCN的基本块。(b)具有相关建模函数M1(·)或M2(·)的CTR-GC。标签10个块的通道数为64- 64 - 64-64-128 - 128 - 128-256 -256-256。时间维度在第5和第8块通过跨越时间卷积减半。我们的CTR-GCN的基本块如图3(a)所示。每个块主要由空间建模模块、时间建模模块和残差连接组成空间建模。在空间建模模块中,我们使用三个CTR-GC并行提取人体关节之间的相关性,并总结其结果作为输出。为了清楚起见,示出了具有CTR-GC的实例。1()如图-图3(b). 我们的CTR-GC被设计为提取具有输入特征XRN×C的图的特征。采用CTR-GC到一个骨架图序列SRT×N×C,我们沿时间维度汇集S,并使用汇集的特征来推断通道拓扑。具体地,CTR-GC首先利用具有缩减率r的Φ和Φ来提取紧凑表示。然后使用时间池来聚集时间特征。之后,CTR-GC按照等式4进行成对减法和激活。激活的通道维度然后用ξ提升以获得通道特定的相关性,其用于细化共享拓扑A以获得通道拓扑。最后,在每个骨架图中进行通道方式聚合(通过批量矩阵乘法实现)以获得输出表示S0。时间建模。为了对具有不同持续时间的动作进行建模,我们设计了一个多尺度时间建模模块[20]。主要区别是我们使用较少的分支,因为太多的分支会减慢推理速度。如图3(a)所示,该模块包含四个分支,每个分支包含11个卷积以减少信道维度。前三个分支包含具有不同扩张的两个时间卷积和分别跟随11个卷积的一个四个分支的结果被连接以获得输出。4. 实验4.1. 数据集NTU RGB+D NTU RGB+D [22]是包含56,880个骨架动作序列的大规模人类动作识别数据集。动作样本由40名志愿者执行,并被分类为60类。每个样本包含一个动作,并保证最多有2个subjects,这是由三个微软Kinect v2摄像头从不同的视图捕捉并发。本数据集的作者推荐了两个基准:(1)交叉受试者(X-sub):训练数据来自20个受试者,并且测试数据来自其他20个受试者。(2)交叉视图(X视图):训练数据来自相机视图2和3,测试数据来自相机视图1。120. biggest biggest NTU RGB+D 120 [17]是目前最大的用于人类动作识别的3D关节注释数据集,它扩展了NTU RGB+D,增加了57,367个骨架序列,超过60个额外的动作类。总计113,945个样本超过120个类别,由106名志愿者执行,用三个相机视图捕获。该数据集包含32个设置,每个设置表示特定的位置和背景。本数据集的作者推荐了两个基准:(1)交叉学科(X-sub):训练数据来自53个受试者,测试数据来自其他53个受试者。(2)交叉设置(X设置):训练数据来自具有偶数设置ID的样本,并且测试数据来自具有奇数设置ID的样本。西北加州大学洛杉矶分校 Northwestern-UCLA数据集[31]由三个Kinect相机同时从多个视点捕获。它包含1494个视频剪辑,涵盖10个动作类别。每个动作由10个不同的受试者执行。我们遵循[31]中的相同评估协议:来自前两个相机的训练数据,以及来自另一个相机的测试数据。4.2. 实现细节所有实验都在一个RTX 2080 TI GPU上进行,使用PyTorch深度学习框架。我们的模型是用SGD训练的,动量为0.9,重量衰减为0.0004。训练时期被设置为65,并且在前5个时期中使用预热策略[8],以使训练过程更加稳定。学习速率被设置为0.1,并且在时期35和55以因子0.1对于NTU RGB+D和NTU RGB+D 120,批量大小为64,每个样本大小调整为64帧,我们采用[35]中的数据预处理。对于Northwestern-UCLA,批量为16,我们采用[4]中的数据预处理。4.3. 消融研究在本节中,我们分析了所提出的逐通道拓扑细化图卷积及其在NTU RGB+ D120数据集的X-sub基准上的13367非共享动态M拓扑方法参数FLOPs累积(%)✗ ✗ST-GC [32] 1.22M ˜1.65G 83.4表2.当逐渐添加CTR-GC和从 CTR-GCN中去除A或Q时的准确度的比较✗✓自动增益控制[24]1.55M约2.11G83.9✗✓Dy-GC [34]1.73M约1.66G83.9✓✗气相色谱法[3]1.51M约1.65G84.2✓✗DC-GC*[3]3.37M约1.65G84.0✓✓CTR-GC1.46M约1.97G84.9表4. CTR-GC与其他图卷积的比较。前两列显示了图卷积的类别明智的拓扑细化是一个通用的想法,是兼容的具有许多不同的相关建模函数(M+1替换M中的减法11、添加)。(2)比较─1表3.不同设置下CTR-GC验证准确度的比较CTR-GC的有效性。我们采用ST-GCN [32]作为基线,它属于静态拓扑共享图卷积,拓扑是不可训练的。我们进一步在ST-GCN中添加残余连接作为我们的基本块,并且用第3.4节中描述的时间建模模块替换其时间卷积以进行公平比较。实验结果如表2所示。首先,我们在基线中逐渐用CTR-GC代替GC(如图3(b)所示,r=8)。我们观察到,当所有GC被CTR-GC(CTR-GCN)取代时,准确度稳定增加并且准确度大幅提高,这验证了CTR-GC的有效性。然后,我们通过从CTR-GCN中移除共享拓扑A和通道特定相关性Q中的任一个来分别验证它们的效果CTR-GCN w/o Q跨不同通道共享可训练拓扑。我们观察到,它的性能下降1.2%相比,CTR-GCN,表示建模通 道 拓 扑 的 重 要 性 CTR-GCN w/o A 的 性 能 下 降 了0.9%,证实了很配置探索。我们探讨了CTR-GC的不同结构,包括相关建模函数的选择,ψ和ψ的降低率r,相关建模函数的激活函数σ如表3所示,我们观察到所有配置下的模型都优于基线,证实了CTR-GC的稳健性。(1)比较模型A、B和C,我们发现具有不同相关性建模函数的模型都取得了良好的性能,这表明信道对模型B、D和E,我们发现r = 4、8的模型(模型B、D)获得更好的结果,而r=8的模型(模型B)在参数较少的情况下表现稍好。具有r = 16的模型E执行得更差,因为在相关建模函数中使用的通道太少,这不是足以有效地对信道特定相关性进行建模。(3)比较模型B、F和G,Sigmoid和ReLU的表现比Tanh差,我们认为Sigmoid和ReLU的非负输出值限制了相关性建模的灵活性。考虑到性能和效率,我们选择模型B作为我们的最终模型。4.4. 与其他GC的为了验证我们的CTR-GC的有效性,我们将CTR-GC的性能、参数和计算成本与表4中的其他图卷积进行了比较。具体来说,我们保留了基线模型的主干,仅替换图卷积以进行公平比较。注意,DC-GC将通道分成16个组,并为每个组设置可训练邻接矩阵,而DC-GC*为每个通道设置可训练邻接矩阵。从表4中,我们观察到(1)总体上,拓扑非共享方法比拓扑共享方法获得更好的性能,并且动态方法比静态方法表现得更好,这表明建模非共享拓扑和动态拓扑的重要性;(2)与DC-GC相比,DC-GC* 的性能较差,但参数较多,这说明仅用参数化邻接矩阵来建模通道拓扑是不可行的;(3)CTR-GC比DC-GC* 的性能高0.9%,证明我们的改进方法对建模通道拓扑是有效的。此外,我们的CTR-GC引入了一些额外的参数和计算成本相比,与其他图卷积。4.5. 学习拓扑的可视化我们在图4中说明了动作示例“在键盘上键入”的共享拓扑和细化的通道拓扑接近0的值指示关节之间的弱关系,反之亦然。我们观察到(1)共享拓扑不同于细化的通道方式方法参数累积(%)基线1.22M 83.4+2 CTR-GC1.26M84.2 ↑0. 8+5 CTR-GC1.35M84.7 ↑1. 3CTR-GCN,不含Q1.22M83.7 ↑0. 3CTR-GCN w/o A1.46M84.0 ↑0. 6方法Mr标准差参数累积(%)基线-1.21M83.4一+M8Tanh1.46M84.9↑1. 5BM18Tanh1.46M84.9↑1. 5CM28Tanh1.48M84.8 ↑1. 4DEM1M1416TanhTanh1.69M84.8 ↑1. 41.34M84.5 ↑1. 1FM18Sig1.46M84.6 ↑1. 2GM18ReLU1.46M84.8 ↑1. 413368方法图4.(a)共享拓扑。(b)和(c)不同信道的细化的NTU-RGB+D 120X-子(%)X-集(%)ST-LSTM[1]55.757.9GCA-LSTM[19]61.263.3RotClips+MTCNN[10]62.261.8SGN[35]79.281.52s-AGCN[24]82.984.9Shift-GCN[4]85.987.6DC-GCN+ADG86.588.1MS-G3D[20]86.988.4PA-ResGCN-B19 [26]87.388.3动态GCN [34]87.388.6CTR-GCN(仅骨)85.787.5CTR-GCN(关节+骨)88.790.1CTR-GCN88.990.6表5.与NTU RGB+D 120数据集上最先进方法的分类准确性比较。拓扑,表明我们的方法可以有效地细化共享拓扑。(2)细化的通道拓扑是不同的,表明我们的方法可以根据不同通道的特定运动特征来学习单独的拓扑(3)一些相关性在所有通道中始终是强的,这表明这些联合对通常是强相关的,例如,左肘和左手尖之间的相关性(绿色框中的蓝色方块),以及左手尖和左手腕之间的相关性(绿色框中的红色方块)。这4.6. 与最新技术水平的许多现有技术的方法采用多流融合框架。我们采用与[4,34]相同的框架进行公平比较。具体地说,我们融合了四个模态的结果,关节、骨骼、关节运动和骨骼运动。我 们 将 我 们 的 模 型 与 NTU RGB+D 120 、 NTURGB+D和NW-UCLA上分别在表5、6和7中。 在三个数据集上,我们的方法在几乎所有的评估基准下都优于所有现有的方法。在NTU-RGB+D 120上,我们的关节-骨融合模型达到了最先进的性能,我们的CTR-GCN在两个基准上分别比当前最先进的动态GCN [34值得注意的是,我们的方法是第一个NTU-RGB+DX-Sub(%)X-View(%)Ind-RNN[16]81.888.0HCN[14]86.591.1ST-GCN[32]81.588.32s-AGCN[24]88.595.1SGN[35]89.094.5AGC-LSTM[25]89.295.0DGNN[23]89.996.1Shift-GCN[4]90.796.5DC-GCN+ADG90.896.6PA-ResGCN-B19 [26]90.996.0DDGCN[12]91.197.1动态GCN[34]91.596.0MS-G3D[20]91.596.2CTR-GCN92.496.8表6.与NTU RGB+D数据集上最先进方法的分类准确性比较。方法西北-UCLA表7.在Northwestern-UCLA数据集上与最先进方法的分类准确性比较。动态建模通道拓扑,这在基于骨架的动作识别中非常有效。5. 结论在这项工作中,我们提出了一种新的通道拓扑细化图卷积(CTR-GC)的骨架为基础的动作识别。CTR-GC以细化的方式学习通道拓扑,这显示了强大的相关建模能力。数学分析和实验结果都表明,CTR-GC比其他图卷积具有更强的表示能力在三个数据集上,所提出的CTR-GCN优于现有技术的方法。鸣 谢 本 工 作 得 到 国 家 重 点 研 发 计 划( No.2018YFC0823003 ) 、 北 京 市 自 然 科 学 基 金(No.L182058)、国家自然科学基金(No.61972397,62036011,61721004)、中国科学院前沿科学重点研究计划(No.QYZDJ-SSW-JSC 040)、国家自然科学基金(No.U2033210)的资助。方法前1名(%)李群[28]74.2[30]第三十话76.0HBRNN-L[6]78.5Ensemble TS-LSTM[1]89.2AGC-LSTM[25]93.3Shift-GCN[4]94.6DC-GCN+ADG95.3CTR-GCN96.513369引用[1] Joan Bruna , Wojciech Zaremba , Arthur Szlam , andYann Le- Cun.图上的谱网络和局部连通网络。arXiv预印本arXiv:1312.6203,2013。二个[2] Yinpeng Chen,Xiyang Dai,Mengchen Liu,DongdongChen,Lu Yuan,and Zicheng Liu.动态卷积:注意卷积核。在IEEE/CVF计算机视觉和模式识别会议论文集,第11030-11039页,2020年。四个[3] Ke Cheng,Yifan Zhang,Congqi Cao,Lei Shi,JianCheng,and Hanqing Lu.基于骨架的动作识别中gcn与dropgraph 模 块 的 解 耦 。 欧 洲 计 算 机 视 觉 会 议(ECCV),2020年。一三五七八[4] Ke Cheng,Yifan Zhang,Xiangyu He,Weihan Chen,Jian Cheng,and Hanqing Lu.基于骨架的动作识别与移位图卷积网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第183-192页,2020年。五六八[5] MichaeülDefferrard,XavierBresson,andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展,第3844-3852页,2016年。二个[6] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集,第1110-1118页,2015年。八个[7] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre 、 Raf aelBombarell 、 Timoth yHirzel 、 Ala´nAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络神经信息处理系统的进展,第2224-2232页,2015年。二个[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。六个[9] Zhen Huang,Xu Shen,Xinmei Tian ,Houqiang Li,Jian-qiang Huang,and Xian-Sheng Hua.用于基于骨架的动作识别的时空接收图卷积网络。第28届ACM国际多媒体会议论文集,第2122-2130页,2020年。二、三[10] Qiuhong Ke , Mohammed Bennamoun , Senjian An ,Ferdous Sohel,and Farid Boussaid.基于骨架的3d动作识别 的 学 习 剪 辑 表 示 IEEE Transactions on ImageProcessing,27(6):2842-2855,2018。八个[11] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv:1609.02907,2016。二个[12] Matthew Korban和Xin Li。Ddgcn:一个用于动作识别的动态有向图卷积网络。在欧洲计算机视觉会议上,第761Springer,2020年。八个[13] Inwoong Lee 、 Doyoung Kim 、 Seoungyoon Kang 和Sanghoon Lee。使用时间滑动lstm网络进行基于骨架的动作识别的集成深度学习。在IEEE计算机视觉国际会议论文集,第1012-1020页,2017年。八个[14] Chao Li,Qiaoyong Zhong,Di Xie,and Shiliang Pu.从骨架数据中学习共现特征用于分层聚合的动作识别和检测。arXiv预印本arXiv:1804.06055,2018。八个[15] Maosen Li,Siheng Chen,Xu Chen,Ya Zhang,YafengWang,and Qi Tian.用于基于骨架的动作识别的动作结构图卷积网络。在IEEE/CVF计算机视觉和模式识别会议上,第3595-3603页,2019年。二、三[16] Shuai Li , Wanqing Li , Chris Cook , Ce Zhu , andYanbo Gao.独立递归神经网络(indrnn):建立更长更深的RNN。在IEEE计算机视觉和模式识别会议论文集,第5457-5466页,2018年。八个[17] Jun Liu,Amir Shahroudy,Mauricio Lisboa Perez,GangWang , Ling-Yu Duan , and Alex Kot Chichung.Nturgb+ d 120:一个大规模的三维人体活动的基准了解。IEEE Transactions on Pattern Analysis and MachineIntelligence,2019。六个[18] Jun Liu,Amir Shahroudy,Dong Xu,and Gang Wang.具有信任门的时空lstm用于三维人体动作识别。欧洲计算机视觉会议,第816-833页。施普林格,2016年。八个[19] Jun Liu , Gang Wang , Ling-Yu Duan , KamilaAbdiyeva,and Alex C Kot.基于骨架的全局上下文感知注意力lstm网络的人体动作识别。IEEE Trans- actionson Image Processing,27(4):1586-1599,2017。8[20] Ziyu Liu,Hongwen Zhang,Zhenghao Chen,ZhiyongWang,and Wanli Ouyang.基于骨架的动作识别的解缠和统一图卷积。在IEEE/CVF计算机视觉和模式识别会议论文集,第143-152页,2020年二三六八[21] Mathias Niepert , Mohamed Ahmed ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功