基于骨架的动作识别中的图卷积分解与统一时空建模

193 浏览量更新于2023-10-24 收藏 808KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

143基于骨架的动作识别中的图卷积分解与统一刘子宇1，3，张宏文2，陈正浩1，王志勇1，欧阳万里1，31悉尼大学2中国科学院大学CASIA3悉尼大学SenseTime计算机视觉研究组，澳大利亚{zliu6676@uni.，zhenghao.chen@，zhiyong.wang@，wanli. zhang @} sydney.edu.au，hongwen. cripac.ia.ac.cn摘要时空图已被广泛用于基于混沌的动作识别算法，以模拟人类的动作动力学。为了从这些图中捕获鲁棒的运动然而，现有的方法在实现（1）unbi-（一）空间信息流时间信息流（b）第（1）款时空信息流（c）第（1）款解纠缠多尺度聚集基于多尺度算子的长距离联合关系建模;（2）无障碍的跨时空信息流，用于捕获复杂的时空依赖性。在这项工作中，我们提出了（1）一个简单的方法来解开多尺度图卷积和（2）一个统一的时空图卷积算子命名为G3D。所提出的多尺度聚合方案将节点在不同邻域中的重要性区分开来，以实现有效的远程建模。建议的G3D模块利用密集的跨时空边缘作为跳过连接，用于跨时空图的直接信息传播。通过结合这些建议，我们开发了一个名为MS-G3D的功能强大的特征提取器，基于此，我们的模型1在三个大规模数据集上的性能优于以前的最先进方法：NTU RGB+D 60、NTU RGB+D120和动力学骨架400。1. 介绍人体动作识别是一项重要的任务，具有许多现实世界的应用。特别是，基于骨架的人类动作识别涉及从人体的骨架表示而不是原始RGB视频预测动作，并且在最近的工作中看到的显着结果[50，33，32，34，21，20，54，35]已经证明了其优点。与RGB表示相反，骨架数据仅包含人体关键关节的2D [50，15]或3D[31，25]位置，提供高度抽象的信息，1代码可在github.com/kenziyuliu/ms-g3d图1：（a）骨架图序列的分解空间和时间建模导致间接信息流。（b）在这项工作中，我们建议用统一的时空图卷积来捕获跨时空相关性。(c)在不同的时空邻域（不同距离的黄色、蓝色、红色，为了清晰起见，部分着色）解开节点特征对于时空域中的有效多尺度学习至关重要没有环境噪声（例如，背景杂波、照明条件、衣服），从而允许动作识别算法集中于动作的鲁棒特征。早期的基于机器人的动作识别方法将人类关节视为一组独立的特征，并且它们通过手工制作[42，43]或学习[31，6，48，54]这些特征的聚合来建模空间和时间关节相关性。然而，这些方法忽略了人体关节之间的固有关系，这些关系最好用以关节为节点的人体骨架图及其自然连接（即，出于这个原因，最近的方法[50，19，34，35，32]用骨架时空图对动作的关节运动模式进行建模，骨架时空图是在不同时间步长处的一系列不相交且同构的骨架图，其携带空间和时间维度中的信息。为了从骨架图中进行鲁棒的动作识别，理想的算法应该超越局部关节连接性，并提取多尺度结构特征和长期依赖性，因为结构上分开的关节也可以具有强相关性。许多现有的方法通过执行图卷积来实现这一点144[17]用骨架邻接矩阵的高阶多项式：直观地，幂邻接矩阵捕获每对节点之间的遍历的数量，其中遍历的长度与幂相同;邻接多项式因此通过使远距离的邻居可达而增加了图卷积的感受域。然而，这种公式遭受有偏的加权问题，其中无向图上的循环行走的存在意味着边缘权重将偏向于更接近的节点对进一步的节点。在骨架图上，这意味着较高的多项式阶数在捕获来自远处关节的信息时仅略微有效，因为聚合特征将由来自局部身体部位的关节主导。这是限制现有多尺度聚合器的可扩展性的关键缺点。鲁棒算法的另一个理想特性是能够利用复杂的跨时空联合关系进行动作识别。然而，为此，大多数现有方法[50，33，19，32，21，34，18]部署交织仅空间和仅时间的模块（图1）。1（a）），类似于分解的3D卷积[30，39]。一种典型的方法是首先使用图卷积来提取每个时间步的空间关系，然后使用递归[19，34，18]或1D卷积[50，33，21，32]层来建模时间动态。虽然这种分解允许有效的长距离建模，但它阻碍了跨时空的直接信息流以捕获复杂的区域时空联合依赖性。例如，动作这些用于进行预测的强有力的线索可能无法通过因子分解建模有效地捕捉到在这项工作中，我们从两个方面解决上述限制。首先，我们提出了一种新的多尺度聚合方案，该方案通过消除更远和更近邻域之间的冗余依赖关系来解决有偏加权问题，从而在多尺度聚合下解开它们的特征（如图所2）。这导致更强大的多尺度算子，可以建模关节的关系，而不管它们之间的距离。其次，我们提出了G3D，一个新的统一的时空图卷积模块，直接跨时空联合依赖模型。G3 D通过引入跨“3D”空间-时间域的图形边缘作为无障碍信息流的跳过连接来实现这一点（图1）。1（b）），基本上促进了时空特征学习。值得注意的是，我们提出的解纠缠聚集方案通过时空中的多尺度反应增强了G3D（图1）。1（c）），而不受有偏加权问题的影响由此产生的功能强大的特征提取器，命名为MS-G3D形成了我们最终模型架构的构建块，在三个大规模骨架动作数据集上表现优于最先进的方法：NTURGB+D 120 [25] ， NTU RGB+D 60 [31] 和 KineticsSkeleton 400 [15]。本文的主要贡献概括如下：(i) 我们提出了一个解纠缠的多尺度聚合方案，该方案消除了来自不同邻域的节点特征之间的冗余依赖关系，这使得强大的多尺度聚合器能够有效地捕获人体骨架上的图范围的联合关系。(ii) 我们提出了一个统一的时空图卷积（G3D）运营商，促进直接信息流跨时空有效的特征学习。(iii) 将解纠缠聚合方案与G3 D集成，给出了一个功能强大的特征提取器（MS-G3 D），具有跨空间和时间维度的多尺度感受域时空特征的直接多尺度聚合进一步提高了模型性能。2. 相关工作2.1. 图上的神经网络建筑。为了从任意结构的图中提取特征，已经开发并广泛探索了图神经网络（GNN）[5，17，3，2，10，40，49，1、7、11、22]。最近提出的GNN可以广泛地分类为频谱GNNs [3，11，22，13，17]和spa-[17，49，10，51，41，1，45].谱GNN将输入图形信号与图形傅立叶域中的一组学习滤波器进行卷积。然而，它们是有限的由于特征分解的要求和固定邻接的假设，在计算效率和推广到新的图方面。相比之下，空间GNN通常通过以下方式为每个节点执行逐层更新：（1）使用邻域函数（例如，相邻节点）;（2）用聚合函数合并来自所选邻居和其自身的特征（例如，均值合并）;以及（3）将激活的变换应用于合并的特征（例如，MLP [49]）。在不同的GNN变体中，图卷积网络（GCN）[17]首先被引入作为局部谱卷积的一阶近似，但其作为平均邻域聚合器[49，46]的简单性迅速导致了许多后续的空间GNN架构[49，1，45，7]和涉及图结构数据的各种应用[44，47，52，5 0，33，34，21]以将其视为空间GNN基线。这项工作适应了逐层更新规则在GCN。多尺度图卷积。还提出了多尺度空间GNN来捕获来自非局部邻居的特征。[1，19，21，45，24]使用图邻接矩阵的高阶多项式来聚合fea。145i、j不不22不规范11比GR-GCN中的稀疏化的、一刀切的图更好不^D−1AD−1（l不.ΣΘΣ^^来自远程邻居节点的消息。截断块Krylov网络[29]类似地将邻接矩阵提升到更高的幂，并通过来自不同隐藏层的密集特征级联来获得多尺度信息。LanczosNet [24]部署了邻接矩阵的低秩近似，以加快大型图上的幂运算。如第1节所述，我们认为，由于加权偏差，邻接供电可能对长距离建模产生不利影响，我们提出的模块旨在通过解开的多尺度聚合器来解决这一问题。2.2. 基于骨架的动作识别基于骨架的动作识别的早期方法[42，6，31，36，43，48，54]通过构建时空图并直接用GNN建模空间关系，最近的方法[50，19，8，21，8，33，32，34，18]已经看到了显着的性能提升，表明语义人类骨架用于动作预测的必要性。图卷积的早期应用是ST-GCN [50]，其中空间图卷积以及交织时间卷积用于时空建模。李等的同时工作。[19]礼物类似的方法，但它引入了多尺度模块通过提高骨架邻接到更高的权力。三个框架的真实背景（3）G3 D可以同时利用不同的窗口大小和扩张从多个时间上下文学习，这在GR-GCN中没有解决3. MS-G3D3.1. 预赛符号。人类骨架图被表示为G=（V，E），其中V={v1，.，v N}是表示关节的N个节点的集合，E是表示骨骼的边集合，由邻接矩阵A ∈ R N×N构成，其中如果边从v i指向v j，则初始Ai，j= 1，否则为0。A是对称的，因为G是无向的。作为图序列的动作有一个节点特征集X ={xt，n∈ RC|t，n ∈Z，1 ≤t ≤ T，1 ≤ n ≤ N}表示为特征张量X∈R T×N×C，其中x t，n=Xt，n：是节点v n在时间t在总共T个帧上的C维特征向量。因此，输入动作在结构上由A充分描述，在特征上由X充分描述，其中Xt∈ R N×C是时间t处的节点特征。Θ（l ）∈R Cl×Cl+1表示网络第l层的可学习权矩阵。图卷积网络（GCN）。在由特征X和图结构A定义的骨架输入上，GCN的逐层更新规则可以应用于时间t处的特征，如下：X（1+ 1）=σ。D<$−1A<$D<$−1X（l）θ（l）<$，（1）AS-GCN [21]也使用邻接供电进行多尺度建模，但它还生成人体姿势以增强空间图卷积。时空图路由（STGR）网络[18]使用逐帧注意和全局自注意机制向骨架图添加额外的边类似地，2s-AGCN [33]引入了具有自我注意力的图自适应性以及自由学习的图残差掩码。它还使用具有骨架骨骼功能的双流增强功能来提高性能。DGNN [32]同样利用骨骼特征，但它通过交替空间聚合方案同时更新关节和骨骼特征。请注意，这些方法主要关注空间建模;相反，其中A=A+I是带有自环以保持单位特征的s-子图，D是A的对角度矩阵，σ（·）是作用函数. 术语2 2X可以直观地解释为来自直接邻域的近似空间平均特征聚合，随后是激活的线性层。3.2. 解纠缠多尺度聚集偏置权重问题。在Eq. 1，现有方法[21]采用邻接矩阵的高阶多项式来在时间t聚集多尺度结构信息，如：我们提出了一个统一的方法来捕捉复杂的联合相关直接跨越时空。另一个相关的工作是GR-GCN [8]，它在骨架图序列上合并每三个帧，并添加X（l+1）=σK一k=0kX（l）（l）t（k）、（二）相邻帧之间的稀疏边缘。虽然GR-GCN也部署了跨时空边缘，但我们的G3 D模块有几个重要的区别：（1）G3 D中的跨时空边缘遵循语义人类骨架，其中，K控制要聚合的尺度数。在这里，A是A的标准化形式，例如， [19]使用对称规范化图Laplacian A = L=I-D2AD 2;[21]使用随机-walk归一化邻接yA^=−1˜−1 ˜ ˜−1从GCN。很容易看出，=给出了自然是一个更可解释和更强大的代表，DA;更一般地，可以使用A^=D公元2年底层图形也更容易计算。（二）GR-GCN只有在相邻的这使它无法在有限的节奏之外进行推理在vi和vj之间行走的长度为k的次数，因此（l）项A^kX执行加权特征平均，根据行走的次数。但很显然一个kj，i146.Σ。Σ（k）（k）（τ）A（τ）=n∈RτN×τN。（五）Ktivity (which is [A˜ (τ)]i,i for all i) to the temporal domain.˜（τ）˜2˜˜（τ）2（τ）（τ）.Σ0003535135112424246一个17岁的孩子近6A1026A1037进一步0003535135112424246第101章一个6A组（2）76A组图2：有偏加权问题和建议的非纠缠聚合方案的说明。颜色越深表示中心节点的权重越高（红色）。左上：距离较近的节点从邻接权中获得更高的权重，这使得长距离建模效率较低，特别是当聚合多个尺度时。左下角：我们提出的解纠缠聚合模型在每个邻域的联合关系，同时保持身份特征。右：可视化相应的邻接矩阵。为了视觉清晰起见，省略了节点自循环到较近节点的可能长度为k的遍历比到实际k跳邻居的可能长度为k的遍历多得多。这会导致偏向局部区域以及具有更高度数的节点GCN中的节点自循环允许更多可能的循环（因为行走总是可以在自循环上循环），从而放大了偏差。见图2例为插图。在骨架图上的多尺度聚合下，聚合的特征将因此由来自局部身体部位的信号主导，使得捕获具有更高多项式阶数的长距离联合依赖性是无效的在Eq. 4解决了有偏加权的问题，通过消除冗余的依赖关系，遥远的邻居的加权较近的邻居。因此，具有较大k的附加尺度在多尺度算子下以加性方式聚合，使得具有大k值的长期建模保持有效。由此产生的k-邻接矩阵也比它们的取幂对应矩阵更稀疏（见图1）。（2）更有效的表达。3.3. G3D：统一时空建模现有的大多数工作将骨架动作视为一系列不相交的图，其中特征是通过仅空间（例如，GCN）和仅时间（例如，TCN）模块。我们认为，这种因式分解的制定是捕捉复杂的时空联合关系的有效性较低。显然，如果一对节点之间存在强连接，则在逐层传播期间，这对节点应包含彼此的显著部分然而，当信号通过一系列局部聚合器（GCN和TCN类似）跨时空传播时，它们被削弱，因为冗余信息从越来越大的时空感受野聚合。如果观察到GCN不执行加权聚合来区分每个邻居，则问题更加明显。跨时空跳跃连接针对以上解除邻里关系。为了解决上述问题，我们首先将k- 邻接矩阵A（k）定义为：如果d（vi，vj）=k，问题，我们提出了一个更合理的方法，让跨时空跳跃连接，其容易与时空图中的跨时空边缘进行让我们首先考虑大小为τ的滑动时间窗口[A（k）]i，j=1如果i=j，否则，（三）在输入图序列上，在每一步中，得到时空子图G（τ）=（V（τ），E（τ）），其中V（τ）=V1，... 是所有节点集在τ其中d（vi，vj）给出了最短距离，在V1和Vj 之间跳频。因此，一个k（k）是以下的推广：窗户上的框架定义了初始边集E（τ）通过将A*平铺成块邻接矩阵A*，其中一个更远的社区，与一个更远的社区，（一）=A和A（0）=I.A.···一个（τ）在当前关节和它的k跳邻居之间，以及用于在没有k跳邻居可用时保持每个关节的身份信息。如果N很小，则可以容易地计算Δk（k），例如，使用图形幂的差异作为A（k）=I+ Ak≥1− Ak−1≥1。代以A···A直观地，每个子矩阵[A（τ）]i，j=A表示Vi中的每个节点通过外推逐帧空间连接而连接到其自身及其在帧jA（k）在等式中2、我们在：-一个2因此，G（τ）与自身X（l+1）=σK D~2AD−1X（l）Θ（l）Σ，（4）以及其跨所有τ帧的1跳空间邻居我们用同样的滑动方法，可以很容易地得到X（τ）∈RT×τN×C不k=0-1− 1（k）（k）(k)不（k）窗口在X上用零填充来构造T窗口。使用等式1，我们因此达到一个统一的时空其中D2AD DD（k）2是归一化的[17]k-邻接。第t个时间窗口的图卷积算子与之前的情况不同，可能的长度k主要取决于k-1步的长度[X(l+1)] =σ。D−1AD−1[X（l）(l)ΣA10A10A10第101章一第102章一个第103章一个在Eq. 1，在A_n（k）中包含自环对于学习关系是至关重要的，. -是的-是的.不]tΘ.（六）147（·）（k）扩大窗户上述窗户结构的另一个重要方面是框架不需要相邻。通过每d个帧挑选一个帧，可以构造具有τ个帧和膨胀率d的膨胀以及重用相同的时空结构Aτ（τ）。模拟类似地，我们可以获得节点特征X （τ ， d ）∈RT×τN×C（如果省略，d=1六、扩张窗口允许更大的时间感受野，而不会增加A（τ）的大小，类似于扩张卷积[53]如何保持恒定的复杂性。多尺度G3D。我们还可以整合所提出的解纠缠多尺度聚集方案（等式10）。（4）直接在时空域中进行多尺度推理因此，我们从等式2导出MS-G3 D模块。6为：（1）G3D途径首先构建时空窗口，在它们上执行解纠缠的多尺度图卷积，然后用完全连接的层将它们折叠额外的虚线G3D途径（图。 3（b））表明模型可以同时从具有不同τ和d的多个时空上下文中学习;（2）因子分解路径通过长距离、仅空间和仅时间模块增强了G3 D路径：第一层是能够用最大K对整个骨架图进行建模的多尺度图卷积层;然后是两个多尺度速度卷积层。用于捕获扩展的时间上下文的卷积层（下面讨论）。来自所有路径的输出被聚合为STGC块输出，其具有96，192，（1+1）（τ）]t=σ.ΣKD~k=012（τ，k）A（τ，k）D12（τ，k）（l）（τ）]tΘΣ（l）（k）、（7）和384个特征通道。批量归一化[14]和ReLU被添加在每个层的末尾，除了最后一层。所有其中A~（τ，k）D.（τ，k）定义类似于A（k）和除了第一个之外，STGC块对时间二进制数据进行下采样使用步长2时间卷积和滑动窗口进行Mension请尊重我。值得注意的是，我们提出的聚合方案补充了这个统一的运营商，因为G3 D讨论我们对G3D进行了更深入的分析，如下所示。(1)它类似于经典的3D卷积块[38]，其时空感受野由τ，d和Δτ定义。（2）不像三维坐标系，G3 D来自Θ（·）的计数器计数与τ无关，或|E（τ）|，使得它通常不太倾向于过拟合大τ。(3)G3 D中密集的跨时空连接需要一个交易-在τ上关闭，因为τ的较大值以更通用的特征为代价带来更大的时间接收场，邻近地区此外，较大的τ意味着二次较大的Δτ（τ），从而意味着具有多尺度聚合的更多操作。另一方面，D以时间分辨率（较低的帧速率）为代价带来较大的时间覆盖因此，τ和d必须仔细平衡。(4)G3D模块设计用于捕获复杂的区域时空，而不是远程依赖性，否则通过多尺度时间建模。G3D所用的时空窗G（τ）是一个封闭的结构，这意味着G3D必须伴随着速度。用于跨窗口信息交换的ral模块许多现有的工作[50，18，33，32，21]在整个架构中使用具有固定内核大小kt×1的时间卷积来执行时间建模。作为多尺度空间聚合的自然扩展，我们增强了vanilla具有多尺度学习的时间卷积层，如图所示。3（c）款。为了降低由于额外分支而导致的计算成本，我们部署了瓶颈设计[37]，将内核大小固定为3×1，并使用不同的膨胀率[53]而不是更大的内核更大的感受野。我们也可以使用剩余连接[12]来促进训练。自适应图形。为了提高执行齐次邻域平均的图卷积层的灵活性，我们添加了一个简单的可学习的，非卷积的，受[33，32]的启发，应变图剩余掩码A被用于每个A_k（k）和A_k（τ，k），以动态地加强、削弱、添加或移除边缘。例如，Eq.4更新为分解模块因此，我们观察到最佳性能（1+1）.K−1res-一个（l）Σ（l）当G3D模块增加远程时，模块化，我们将在下一节中讨论。Xt=σD~k=02（A（k）+A（k））D2XΘ（k）t（k）.（八）3.4. 模型架构整体架构。最终的模型架构如图所示。3.第三章。在高层次上，它包含一个堆栈的 r 个时空图卷积（STGC）块来从骨架序列中提取特征，然后是全局平均池化层和softmax分类器。每个STGC块部署两种类型的路径，以同时捕获复杂的区域时空联合对应。res用零附近的随机值初始化，并且对于每个k和τ是不同的，允许每个多尺度上下文（空间或空间-时间）选择最适合的掩码。还应注意，由于Ares针对所有可能的动作进行了优化，这些动作可能具有用于特征传播的不同的最佳边缘集，因此预期其给出较小的边缘校正，并且当图形结构具有重大缺陷时可能不足。特别是，Ares仅部分缓解了有偏加权问题（见4.3节）。−−[X[X148R“Hand(a) 完整架构(b) STGC块(d) MS-G3D(e) MS-GCN-解开图3：（将组件与颜色匹配）架构概述。 “TCN”, “GCN”, prefix “MS-”, and suffix “-D” denotes temporal and r个STGC块中的每一个(b)部署了一个多途径的设计，同时捕捉远程和区域的时空依赖性。虚线模块，包括额外的G3 D通路，1×1卷积和跨越时间卷积，是模型性能/复杂性权衡的情况关节-骨双流融合。受[33，32，34]中的双流方法以及可视化骨骼和关节可以帮助人类识别骨骼动作的直觉的启发，我们使用双流框架，其中使用骨骼特征初始化为远离身体中心的相邻关节的向量差异来训练具有相同架构的单独将来自关节/骨骼模型的softmax分数相加以获得最终预测分数。由于骨架图是树，我们在身体中心添加零骨骼向量以从N个关节获得N个骨骼，并将A用于连接定义。4. 实验4.1. 数据集NTU RGB+D 60和NTU RGB+D 120。NTU RGB+D60 [31]是一个大规模的动作识别数据集，包含从40个不同的主题和3个不同的相机视角捕获的超过60个动作类的56，578个骨架序列。每个骨架图包含N=25个身体关节作为节点，它们在空间中的3D位置作为初始特征。每一帧动作包含1到2个主体。作者建议在两种设置下报告分类准确度：（1）交叉主题（X-Sub），其中40个主题被分成训练和测试组，分别产生40，091和16，487个训练和测试示例。（2）交叉视图（X-View），其中从相机1收集的所有18，932个NTURGB+D 120 [25]扩展了NTU RGB+D 60，在60个额外的动作类中增加了57，367个电子吨序列，从106个不同的子类别中捕获了120个类中的113，945个样本32种不同的摄像头。作者现在建议将交叉视图设置替换为交叉设置（X-Set）设置，其中从一半相机设置中收集的54，468个样本在交叉受试者中，来自53个受试者的选定组的63，026个样本用于训练，其余50，919个样本用于测试。400. 第 400 章Kinetics Skeleton 400 数据集改编自Kinetics 400视频数据集[15]，使用OpenPose [4]姿势估计工具箱。它包含超过400个类的240，436个训练和19，796个测试骨架序列，其中每个骨架图包含18个身体关节，以及它们的2D空间坐标和来自OpenPose的预测置信度得分作为初始关节特征[50]。在每个时间步，骨架的数量上限为2，并且丢弃具有较低总体置信度分数的骨架。按照[15，50]的惯例，报告Top-1和Top-5精度。4.2. 实现细节除非另有说明，否则所有模型都具有r=3，并且使用SGD进行训练，动量为0.9，批量大小为32（每个工人16个），初始学习率为0.05（可以随着批量大小线性扩展[9]），用于50，60和65个epoch，步长为LR在历元{30，40}，{30，50}，NTU RGB+D 60、120和Kinetics Skeleton 400分别为{45，55}最终权重衰减设置为0.0005模型，并在组件研究期间进行相应调整所有骨架序列通过重放动作填充到T=300帧。对输入进行预处理，然后进行归一化和翻译[33，32]。没有数据增加用于公平的性能比较。MS-TCNConv1×1Conv1×1Conv3×1Conv3×1膨胀=1膨胀=2Conv 1×1步幅=2Add+剩余路径MS-G3D中文（简体）��：（c）MS-MS-GCN-D��（c）：��（c）：��...��（c）：��：K+添加n（k）：n-邻接模板：特定于比例的掩GraphConv（k）+KGraphConv中文（简体）0输入输入MS-TCN��：Add+因子化途径G3d途径骨架图邻接图：节点功能图：帧数节点数量数量：通道数MS-TCNMS-GCNMS-TCN（stride=2Conv1×1Conv1×1==MS-G3D MS-G3D尺寸：mm（l）×mm ×mm（l）输入STGCBlock（第3.4节）膨胀=3膨胀=4MaxPool3×1Conv3×1Conv3×1Conv 1×1Conv 1×1Conv1×1Conv1×1折叠窗口整形+FCMS-GCNGraphConv中文（简体）1滑动时间窗大小=，膨胀=（stride=2）Concat...电话：021 -88888888传真：021-88888888��STGC...STGC全局平均池化1494.3. 成分研究我们分析了最终架构中的各个组件及其除非另有说明，否则性能报告为仅使用联合数据在NTU RGB+D60的跨受试者设置上的分类准确度。解纠缠多尺度聚合。我们首先证明我们提出的解开多尺度聚合方案，通过验证其有效性与不同数量的规模在稀疏和密集的图形。在表1中，我们使用STGC块的各个途径来这样做（图1）。3（b）），分别称为“GCN”和“G3 D”，后缀“-E”和“-D”表示邻接供电和解纠缠聚合。这里，最大K=12是来自NTU RGB+D 60的骨架图的直径，并且对于G3D模块，我们设置τ=5。保持一致，也不-˜−1 ˜ ˜−1方法量表数量表1：具有不同K的STGC块的各个途径上的多尺度聚集的准确度（ % ）。 “Mask” refers to the residual 如果 K>1 ，则GCN/G3 D为多尺度（MS-）。malization, we set A^ = D2 AD2 in Eq. 2个用于GCN-EG3D-E。我们首先观察到解纠缠公式-在K=4时，与简单邻接供电相比，可以带来多达1.4%的增益，这支持了相邻解纠缠的必要性。在这种情况下，残差掩模Ares部分校正了加权不平衡，将最大差距缩小到0.4%。然而，同样的一组实验--在G3D途径上的部分，其中窗口图G（τ）比空间图G更密集，示出G3 D-E和G3 D-D之间更宽的精度差距，指示更严重的有偏加权问题特别地，即使添加了残余掩模，我们也可以在K=12处看到0.8%的每单位间隙。这些结果验证了所提出的非纠缠聚合方案的多尺度学习的有效性;它不仅可以提高不同数量级的性能，2个MS-G3 D通道†τ=（3，3），d=（1，2）2个MS-G3 D通道†τ=（3，5），d=（1，1）89.33.2M 89.4在空间域，但更多的是在时空域，它补充了拟议的G3D模块。一般来说，空间GCN比空间-时间G3 D模块从大K中受益更多;对于最终架构，我们分别根据经验为MS-GCN和MS-G3 D块设置K∈ {12，5}G3D的有效性为了验证G3D模块捕获复杂时空特征的有效性，我们使用其各个组件逐步构建模型，并在表2中显示其性能。We use the joint stream from 2s-AGCN[33] as the baseline for con- trolled experiments, and forfaircomparison,wereplaceditsregulartemporalconvolutional layers with MS-TCNlayers and obtained animprovement with less parameters.首先，我们观察到，由于MS-GCN中强大的解缠结聚集，单独的因子化途径可以超过基线。然而，如果我们简单地将因子化途径扩大到更大的容量（更深和更宽），或者复制因子化途径以从不同的特征子空间学习并模仿STGC块中的多途径设计，我们观察到的增益有限。相比之下，当表2：各种设置下的模型准确度 MS-GCN和MS-G3 D分别使用K ∈ {12，5}。 †输出通道在折叠窗口层加倍（图1）。3（d），Cmid到Cout），而不是在图卷积（Cin到Cmid）处，以保持类似的预算。G3D图形连接参数访问（%）(a) 网格状2.7M 88.7(b) 网格状+密集自边2.7M 88.6（等式。5）跨时空边缘2.7M 89.1表3：比较图形连接设置（τ=3，d=2）。添加G3D途径后，我们观察到使用相似或更少参数的一致性更好的结果，验证了G3D探索G3D 表2还比较了各种G3D设置，包括不同的τ、d值和STGC组织块中G3D通路的数量我们模型配置Params累积（%）基线（Js-AGCN [33]）3.5M86.0基线+MS-TCN1.6M86.7仅MS-GCN（因子化途径）1.4M87.8为2. 5×容量3.5M88.5双通道2.8M88.6MS-GCN（因子化途径）使用MS-G3 D（τ=3，d=1）2.7M89.0使用MS-G3 D（τ=3，d=2）2.7M89.1使用MS-G3 D（τ=3，d=3）2.7M89.1K= 1K= 4K= 8K=12GCN-E85.185.686.586.6GCN-D85.187.086.986.8GCN-E +口罩86.187.087.587.7GCN-D+口罩86.186.987.987.8G3D-E85.185.585.485.5G3D-D85.186.486.586.4G3 D-E+面罩86.687.086.586.2G3 D-D+面罩86.687.487.187.0150方法NTU RGB+ D120表4：与NTU RGB+D 120骨架数据集上的最新方法的分类准确性比较。NTU RGB+D 60当τ=（3，5）时，在时间分辨率不变的情况下，我们得到了最好的结果。跨时空连接。为了证明对于G（τ）中的交叉时空边缘，定义在等式5而不是简单的、网格状的时间自边缘（在其上G3D还适用），我们在表3中对比了不同的连接方案，同时修复了架构的其他部分。前两个设置是指修改块邻接矩阵A（τ）使得：（1）主对角线上的块A是保持不变，超对角线/次对角线上的块被设置为I，其余的设置为0;（2）除了A的主对角线之外的所有块都设置为I。直觉ively，第一个产生方法X-Sub（%）X-View（%）图，第二个包括额外的密集自边缘，IndRNN [23] 81.8 88.0HCN [20] 86.5 91.1ST-GR [18] 86.9 92.3AS-GCN [21] 86.8 94.22s-AGCN [33]AGC-LSTM [34] 89.2 95.0DGNN [32] 89.9 96.1GCN [8] 87.5 94.3MS-G3 D Net（仅关节）89.4 95.0MS-G3 D Net（仅骨）90.1 95.3MS-G3D Net 91.5 96.2表5：NTU RGB+D 60 Skeleton数据集上与最先进方法的分类准确性比较。Kinetics Skeleton 400τ帧。显然，虽然所有设置都允许统一的空间-时间图卷积、作为跳跃连接的跨时空边缘对于有效的信息流是必不可少的。关节-骨双流融合。我们在表5中的NTU RGB+D 60数据集上在关节-骨骼融合框架下验证了我们的方法。与[33]类似，当关节和骨骼特征融合时，我们获得了最佳性能，表明我们的方法对其他输入模态的通用性。4.4. 与最新技术我们比较我们的完整模型（图。3（a））与表4、5和6中的现有技术相比。表4比较了非图[26，27，16，28]和基于图形的方法[33]。表5比较了非图形方法[23，20]、具有空间边缘的基于图形的方法[18，21，33，34，32]和具有空间边缘的基于图形的方法。方法前1名（%）前5名（%）时间边缘[8]。表6比较了单流[50，21]和多流[18，33，32]方法。三个大-ST-GCN [50] 30.7 52.8AS-GCN [21] 34.8 56.5ST-GR [18] 56.12s-AGCN [33]DGNN [32] 59.6MS-G3D Net 38.0 60.9表6：与Kinetics Skeleton 400数据集上最先进方法的分类准确度比较。首先观察到所有配置都始终优于基线，确认MS-G3 D作为鲁棒特征提取器的稳定性。我们还看到，τ=5给出了稍微更好的结果，但是增益在τ=7处减小，因为聚集的特征由于过大的局部空间-时间邻域而变得过于通用，从而抵消了较大时间覆盖的益处膨胀率d具有不同的影响：（1）当τ =3，d=1表现不佳d∈ {2，3}，证明需要更大的时间上下文;(2)更大的d具有边际效益，因为其更大的时间覆盖率-偏移以时间分辨率为代价（因此粗化了骨架运动）。因此，我们观察到更好的结果时，两个G3D途径与d=（1，2）相结合，并作为前，规模的数据集，我们的方法优于所有现有的方法在所有评估设置。值得注意的是，我们的方法是第一个应用多途径设计来学习长距离的空间和时间依赖性和复杂的区域时空相关性的骨架序列，结果验证了我们的方法的有效性。5. 结论在这项工作中，我们提出了两种方法来提高基于骨架的动作识别：图卷积的解纠缠多尺度聚合方案，其去除不同邻域之间的冗余依赖性，以及G3D，统一的时空图卷积算子，其直接从骨架图序列建模时空依赖性。通过耦合这些方法，我们得到MS-G3 D，一个强大的特征提取器，捕捉多尺度的时空特征预分解建模忽略。通过对三个大规模数据集的实验，我们表明我们的模型比现有的方法有相当大的优势。致谢：这项工作得到了澳大利亚研究委员会资助DP200103223的支持。ZL感谢曹伟庆设计人物。X-Sub（%）X-变形（%）ST-LSTM [26]55.757.9GCA-LSTM [27]61.263.3[16]第十六话62.261.8[28]第二十八话64.666.92s-AGCN [33]82.984.9MS-G3 D网络86.988.4151引用[1] Sami Abu-El-Haija ， Bryan Perozzi ， Amol Kapoor ，NazaninAlipourfard， KristinaLerman，HrayrHarutyunyan，GregVerSteeg，andAramGalstyan.MixHop：通过稀疏邻域混合的高阶图卷积架构在Kamalika Chaudhuri和Ruslan Salakhutdinov编辑的《第36届国际机器学习会议论文集》，《机器学习研究论文集》第97卷，第21-29页美国，2019年6月9日至15日。PMLR。2[2] 詹姆斯·阿特伍德和唐·陶斯利扩散卷积神经网络。神经信息处理系统的进展，第1993-2001页，2016年。2[3] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络。arXiv预印本arXiv：1312.6203，2013。2[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。2017年IEEE计算机视觉和模式识别会议（CVPR），2017年7月。6[5] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展，第3844-3852页，2016年。2[6] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集，第1110-1118页，2015年。第1、3条[7] Hongyang Gao和Shuiwang Ji。图u网。在第36届机器学习国际会议，ICML 2019，2019年6月 9日至15日，加利福尼亚州长滩美国，第2083-2092页，2019年。2[8] 高翔，胡伟，唐嘉祥，刘嘉颖，郭宗明.通过稀疏图回归优化的基于动作的动作识别。在第27届ACM国际多媒体会议论文集，MMACM。三、八[9] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangq

下载后可阅读完整内容，剩余1页未读，立即下载