基于骨架的有向图神经网络用于动作识别

122 浏览量更新于2023-10-19 收藏 857KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7912基于骨架的有向图神经网络石磊1，2张一凡1，2*程建1，2，3卢汉青1，21中国科学2中国科学3中科院脑科学与智能技术{雷.石，张艺发，程建，卢华琪}@ nlpr.ia.ac.cn摘要骨架数据由于能够适应动态环境和复杂背景而被广泛应用于动作识别任务中。在现有的方法中，骨骼数据中的关节和骨骼信息都被证明对动作识别任务有很大的帮助。然而，如何合并这两种类型的数据，以最好地利用关节和骨骼之间的关系仍然是一个有待解决的问题。在这项工作中，我们表示的骨架数据作为一个有向无环图（DAG）的基础上，在自然人体的关节和骨骼设计了一种新的有向图神经网络，用于提取关节、骨骼及其相互关系的信息，并根据提取的特征进行预测。此外，为了更好地适应动作识别任务，本文还根据训练过程对图的拓扑结构进行了自适应调整，使其更适合动作识别任务。此外，骨架序列的运动信息被利用，并与空间信息相结合，以进一步提高在双流框架的性能。我们的最终模型在两个大规模数据集上进行了测试，NTU-RGBD和Atrieton-Kinetics，并超过了最先进的性能。1. 介绍动作识别在视频监控和人机交互中起着至关重要的作用，已被广泛研究，但尚未完全解决[27，31，36，5，32，38]。与传统的RGB图像或视频识别方法相比，基于骨架的动作识别方法由于其对人体尺度、运动速度、摄像机视点和背景干扰等变化的鲁棒性而受到越来越多的骨架数据将人体表示为*通讯作者主要身体关节的坐标序列，其可以容易地被深度传感器捕获（例如，动力学）或姿态估计算法[4，10]。基于骨架的动作识别的传统方法主要集中在设计手工制作的特征来表示骨架[30，8]。随着基于深度学习的方法的发展，数据驱动的方法已经成为主流[7，25，20，28，37，18，19，14，13，21、17、16、34、29、3]。基于深度学习的方法中最广泛使用的模型是递归神经网络（RNN）、卷积神经网络（CNN）和图卷积网络（GCN），其中关节的坐标分别表示为向量序列、伪图像和图。最近，表示骨骼的方向和长度的骨骼信息已被证明是基于骨骼的动作识别的良好模态[26，18]。该信息是直观的，因为人类自然地根据人体中骨骼的方向和位置而不是关节的位置来评估动作此外，研究还证明了关节信息和骨骼信息是互补的，将它们结合起来可以进一步提高识别性能。对于自然人体，关节和骨骼是强耦合的，并且每个关节（骨骼）的位置实际上由它们连接的骨骼（关节）确定。例如，肘关节的位置取决于上臂骨骼的位置，上臂骨骼的位置同时也决定了前臂骨骼的位置。现有的基于图的方法通常将骨骼表示为无向图，并使用两个单独的网络对骨骼和关节进行建模，这不能充分利用关节和骨骼之间的这些依赖关系。为了解决这个问题，我们将骨骼表示为一个以关节为顶点、骨骼为边的有向无环图，其中关节和骨骼之间的依赖关系设计了一种新的有向图神经网络（DGNN）来对所构造的有向图进行建模，从而实现了信息的传播。7913信息，并更新每层中它们的相关信息。最终提取的特征不仅包含了每个关节和骨骼的信息，而且还包含了它们之间的依赖关系，这有助于动作识别。另一个问题是原始骨架是根据人体的结构手工设计的，这对于动作识别任务可能不是最佳的。例如，双手在诸如鼓掌和拥抱的一些动作类中具有强依赖性，但这种连接在基于人体结构构造的图中不存在我们通过应用自适应图而不是受[26]启发的固定图来解决这个问题，这意味着图的拓扑结构是参数化的，并且在学习过程中得到优化。由于在学习的图中没有约束，[26]中描述的方法添加了一个固定的手动设置的图来稳定训练过程，这同时在某种程度上失去了灵活性在这项工作中，我们提出了一个简单而有效的方法，既保证了训练过程的稳定性，又避免了失去灵活性，这带来了不可表的改进。基于双流的架构是一种广泛使用的基于RGB的动作识别方法，它提取视频的光流场来对帧之间的时间依赖性进行建模[27，31]。这种方法是有效的，因为某些类强烈依赖于动作的顺序信息，例如受此方法的启发，我们从关节和骨骼中提取运动信息，以帮助识别。提出了一种双流框架来融合空间流和运动流的结果，以进一步提高性能。最终模型在两个大规模数据集上进行评估，用于基于骨架的动作识别任务，即，NTU- RGBD和伊顿动力学，并超过国家的最先进的性能。我们工作的主要贡献可包括如下：（1）据我们所知，这是第一个将骨骼数据表示为有向无环图来建模关节和骨骼之间的依赖关系的工作。设计了一种新的有向图神经网络，专门提取这些依赖关系，用于最终的动作识别任务。(2)一个自适应学习的图形结构，这是训练和更新的模型参数在训练过程中，被用来更好地适应动作识别任务。(3)提取连续帧间的运动信息进行时间信息建模。空间和运动信息都被馈送到最终识别任务的双流框架中。(4)在两个基于骨架的动作识别的大规模数据集上，我们的模型以显著的优势超过了最先进的性能。2. 相关工作2.1. 基于骨架的动作识别传统的基于手势的动作识别方法通常使用手工制作的特征来表示人体，这在设计过程中带来了挑战，并导致性能不令人满意[30，8]。最近，基于深度学习的方法已被证明优于传统方法。基于深度学习的方法主要有三个框架：基于序列的方法、基于图像的方法和基于图形的方法。基于序列的方法将骨架数据表示为基于设计的遍历策略的关节序列，然后使用基于RNN的架构[25，20，28，37，18，3]对其进行建模。另一个框架，涉及基于图像的方法，将骨架数据表示为伪图像，以实现在图像分类领域成功应用的CNN [6，14，21，16]。基于图形的方法不是将骨架数据表示为序列或伪图像，而是将数据建模为以关节为顶点，以骨骼为边的图形[34，29，26]。与基于序列的方法和基于图像的方法相比，基于图的方法更直观，因为人体自然地被组织为图而不是序列或图像。2.2. 图网络图是一种比图像和序列更通用的数据结构，不能直接由传统的深度学习模块（如CNN和RNN）建模。直接在图上操作和解决基于图的问题的方法已经被广泛探索了几年[15，9，33，24，1，11，2]。例如，Kipf等人[15]提出了一种无监督的神经关系推理模型，可以从物理模拟的观测数据中推断相互作用并学习Gilmer等人[9]提出了一种解决化学预测问题的消息传递网络，它可以直接从分子图中提取特征，并且对图同构具有不变性Wang等人。[33]将视频表示为时空区域图，以模拟人与物体之间的时间动态和关系，然后可以用于理解人类行为。3. 方法通常，原始骨架数据是帧序列，每个帧包含一组关节坐标。给定骨骼序列，我们首先根据关节的2D或3D坐标提取骨骼信息。然后，在每一帧中的关节和骨骼（空间信息）表示为有向无环图内的顶点和边，其被馈送到有向图神经网络（DGNN）中以提取用于动作识别的特征。7914+ 我最后，运动信息，这是表示与用于空间信息相同的图结构，提取和合并的两个流框架中的空间信息，以进一步提高性能。3.1. 骨信息先前的工作已经表明了将关节信息和骨骼信息结合在一起对于基于骨骼的动作识别的重要性[26，18]。骨被表示为两个连接关节之间的坐标差以3D骨架数据为例：原始数据中的关节表示为具有三个元素的向量，即，它的x坐标，y坐标和z坐标。给定两个关节v1=（x1，y1，z1）和v2=（x2，y2，z2），从v1链接到v2的骨骼被公式化为两个关节向量的差，即， ev1，v2 =（x1− x2，y1−y2，z1−z2）.3.2. 图构建34 175862910131114121534 1758269101311141215图1.骨架数据的图形构造说明。蓝色圆圈表示根顶点。它的输入边和输出边的数目是变化的。我们使用E−和E+来表示传入的集合我我传统的方法总是将骨架数据建模为要由RNN或CNN处理的向量序列或伪图像。但是，这些表示忽略了关节和骨骼之间的运动学依赖关系。在人体解析中，骨架数据总是根据人体的物理结构建模为基于树的图形结构[39，35]在这项工作中，我们表示的骨架数据作为一个有向无环图（DAG）的关节作为顶点和骨骼的边缘。每条边的方向这里，根顶点被定义为骨架的重心图1示出了骨架及其对应的有向图表示的示例这种表示是直观的，因为人体自然是一个关节系统。远离人体中心的关节总是由靠近中心的相邻关节物理控制。例如，手腕位置由肘部的位置和前臂的形状确定通过这种方式，我们将前臂表示为从肘部指向手腕的有向边。形式上，对于每个顶点vi，我们定义指向它的边为传入边e-，从它发出的边为传出边ei。类似地，对于有向边ej，我们定义它是从源ver-texvs到目标顶点vt。如果vi是目标（源）边和顶点Vi的出边集。以这种方式，基于三角形的框架可以被公式化为有向图G=（V，E），其中V是顶点（关节）的集合，并且E是有向边（骨骼）的集合。基于信标的视频是可以公式化为S={G1，G2，· · ·，GT}的帧序列，其中T表示视频的长度。3.3. 有向图神经网络由于我们已经将骨架数据表示为有向图，现在的问题在于如何提取图中包含的信息用于动作分类，特别是如何利用图中关节和骨骼在这项工作中，我们提出了一个有向图神经网络（DGNN）来解决这个问题。网络包含多个层，每个层都被馈送有包含顶点和边的属性的图，并且输出具有更新的属性的相同图。这里，属性表示被编码为向量的顶点和边的属性在每一层中，顶点和边的属性根据其相邻的边和顶点进行更新。在底层上，每个顶点或边只能从其相邻的边或顶点接收属性。这些层中的模型旨在更新属性时提取顶点和边的局部信息。例如，该模型可以提取关节的角度信息，这只需要一个关节及其两个连接的骨骼的信息。对J Jej的顶点，则ej是vi的传入（传出）边，反之亦然。例如，如图2（a）所示，v1和v2分别是e1的源顶点和目标顶点。e1是v2的输入边。e2和e3是v2的输出边。请注意，每条边只有一个源顶点和一个目标顶点。对于一个顶点，如何-顶层、来自彼此相距较远的关节和骨骼的消息可以累积在一起。因此，所提取的信息对于识别任务来说是更全局和语义的。这个概念类似于卷积神经网络的原理，即，层次代表性和局部性。与CNN相比，DGNN7915我我J+我我11223341223��′2��′11��′��′2(a) 原始图(b) 顶点更新(c) 边更新图2.（a）是原始图形。（b）表示顶点更新的过程，其中顶点本身的属性（v2）以及它的传入边（e1）和传出边（e2和e3）的属性被组合以获得更新的顶点（v2′）。(c)给出了边更新的过程，将边本身的属性（e1）、源顶点的属性（v1′）和目标顶点的属性（v2′）结合起来，得到更新边（e1′）.蓝色圆圈表示正在更新的边（或顶点）。橙色圆圈和红色圆圈分别表示更新中涉及的源顶点（或传入边）和目标顶点（或传出边）。是专为有向无环图，可以建模的骨架数据的树为基础的结构。这种设计也类似于先前基于骨架的动作识别的作品中的然而，我们的方法不需要手动设计的分割策略的过程，并取得了更好的性能比这些方法。3.3.1有向图网络块有向图网络（DGN）块是基本块其中[·]表示级联操作。 v′和e′分别是v和e的更新版本。该过程包括四个步骤：1. 对于每个顶点vi，所有指向它的边都由传入的聚合函数g e-处理，该函数返回聚合结果e<$-。2. 与步骤1类似，所有从vi发出的边都由输出聚合函数g e+处理，该函数返回聚合结果e′+。3. v、e<$−和e<$+连接并输入到vertex-中。我我我有向图神经网络;它包含两个更新，ing函数hv和he，以及两个聚合函数，−ge和ge。更新函数用于更新顶点和边的属性基于它们连接的边和顶点。聚集函数用于聚集连接到一个顶点的多个传入（传出）边这是因为连接到每个顶点的传入（传出）边的数量是变化的，而参数的数量是固定的。因为这些边没有明显的顺序，所以聚集函数应该对其输入的排列是不变的，并且可以采用可变数量的参数，例如平均池化、最大池化和逐元素求和。该过程的形式如下：update函数hv，返回v′作为v i的更新版本。4. 对于每个边ej，其源顶点、目标顶点和它自身被连接并由边更新函数he处理。函数返回e′，它是边ej的最新版本。该过程还可以概括为顶点更新过程，随后是边缘更新过程，如图1B所示。二、通过大量的实验，我们选择了平均池作为传入边缘和传出边缘的聚合函数，并选择单个全连接层作为本工作中的更新函数。e<$−=ge−−（Ei）3.3.2DGN块e+=ge+（E+）i i（1）当实现DGN块时，顶点的输入数据实际上形成C×T×N张量f，其中Cv′=hv（[v，e<$−，e<$+]）vviij je′=he（[ e， vs′，vt′]）是通道的数量，T是跳转N表示骨架jjj jv7916eeeVVgraph.类似地，边的数据形成C×T×Ne张量fe，其中Ne是图中边的数量。用这种形式的输入数据实现DGN块并不令人满意。根据上一节，实现DGN块的关键是找到每个顶点的传入边和传出边（即，E−和E+），以及方程中的更新函数1.一、与传统的卷积层类似，我们在每个DGN块之后添加BN层和ReLU层。3.3.3自适应DGN块我我找到每条边的源顶点和目标顶点（即，vs和vt）。为此，我们使用关联矩阵DGN块的输入图形是手动设计的，根据人体的自然结构我们建议-图表。给定一个有向图，有Nv个顶点，N e条边，则A的关联矩阵是Nv× Ne矩阵，其元素（Aij，i = 1，···，Nv; j = 1，···，Ne）表示对应的顶点（vj）与边（ei）之间的关系. 具体地说，如果vi是ej的源顶点，则A ij=−1。如果vi是e j的目标顶点，则A ij=1。如果vi和ej之间没有联系，则A ij= 0。为了分离源顶点和目标顶点，我们使用As表示源顶点的关联矩阵，该关联矩阵仅包含A中小于0的元素的绝对值。类似地，我们将A t定义为目标顶点的关联矩阵，其仅包含A中大于0的元素。例如，Eq.图2示出了关联矩阵及其对应的A s，图1（a）中所示图形的t。⊺−1 1 0 0注意，此配置可能不适合动作识别任务。例如，左手和右手之间没有联系;然而，对于许多动作，例如鼓掌和拥抱，两只手之间的关系对于识别是重要的。为了给图构造更多的灵活性，常规方法旨在通过在训练过程中学习图结构的拓扑来构造自适应图。例如，Yan etal.[34]在原始邻接矩阵上应用注意力图，以向不同的边分配不同的重要性级别。如果我们使用Ao表示原始邻接矩阵，则通过A=PAo计算新邻接矩阵A，其中P的元素被初始化为1并且在训练过程中被更新。然而，乘法运算不能改变原始邻接矩阵中为0的元素，这意味着这种方法可以A=As=00−1 100−1 0 1⊺1 0 0 00 1 0 0（二）仅更改现有边的重要性，不能添加新的边，例如，两只手之间的边缘。与ST-GCN不同，Shi et al.[26]直接设置邻接权作为网络的参数。为了稳定训练过程，他们设置A=Ao+P，其中P具有相同的大小At=00 1 0 0⊺0 1 0 00 0 1 00 0 0 1初始化为0，初始化为0。以这种方式，如果需要，可以在学习过程中通过参数P然而，由于Ao是不可修改的，我们不能删除我们不想要的边，这也减少了其中，f表示矩阵的转置运算。给定输入张量和关联矩阵，我们现在可以过滤所需的边和顶点，并通过矩阵乘法执行聚集功能。例如，给定fv和As，我们首先将fv整形为CT×Nv矩阵;然后，fv和As的乘积可以提供CT×Ne张量。根据矩阵乘法的定义请注意，本工作中使用的聚合函数是平均池化操作，关联矩阵需要要正常化。详细地说，我们定义A=AΛ−1为A的正规化向量，其中Λ是对角矩阵且Λii=jAij+1。对于以零为单位的视差来说，这是一个很小的数字。经过这些修改，Eq。1转化为f′=H（[f，fA<$s<$，fA<$t<$]）模式的灵活性但是，如果我们去掉Ao，不加任何限制地直接学习图结构将降低性能。在这项工作中，我们发现[26]中有或没有Ao的情况之间的差异主要在于训练过程的开始（注意，这里A表示关联矩阵，而不是以前工作中的邻接矩阵这个结果是直观的，因为在训练过程的开始有更多的不确定性;因此，具有较少限制但大量参数的模型容易收敛到局部最优。添加一个具有固定拓扑结构的图，相当于根据人体的先验知识对模型进行正则化，可以帮助模型收敛到全局最优。基于这一观察，我们提出了一个简单而有效的策略来解决这个问题。我们直接将A设置为模型的参数，但在最初的几个训练时期将其vv v ee（三）f′=H（[f，fAs，fAt]）其中H表示单层全连接层，即，在早期阶段修复图结构可以缓解训练并在之后将其解除固定可以为图构造提供更多的79174321951062117128252322241171318 1419152016141516017125364811791210133.3.4时态信息建模通常，动作被记录为一系列基于骨架的帧.上面介绍的DGN块只能处理单个帧的空间信息;因此，我们现在进入骨架序列内伪3D CNN [23]在基于RGB的动作识别领域显示出其优越性，它用2D卷积对空间信息进行建模，然后用1D卷积对时间信息进行建模。伪3D CNN通过将时空维度解耦，可以更经济有效地对时空信息进行建模。受此方法的启发，在更新每个DGN块中的关节和骨骼的空间信息之后，我们沿着时间维度应用1D卷积来对时间信息进行建模。这很容易实现，因为所有帧中的相同关节或骨骼可以自然地组织为1D序列。与DGN块类似，每个1D卷积层后面都有BN层和ReLU层，以形成时间卷积块（TCN）。有向图神经网络（DGNN）的总体结构有9个单元，每个单元包含一个DGN块和一个TCN块。单元的输出通道为64、64、64、128、128、128、256、256和256。全局平均池化层和softmax层被添加到最后，用于类预测。3.3.5双流框架诸如“站起来”与“坐下”的一些动作传统的基于RGB的动作识别方法通常使用光流场来描述视频的运动信息[27，31，5]，其计算连续帧之间的像素运动信息在这些方法的启发下，我们提取了关节的运动和骨骼的变形来帮助识别。由于骨架数据被表示为关节的坐标，关节的运动很容易被计算为沿时间维度的坐标差类似地，骨骼的变形被表示为连续帧中相同骨骼的矢量的差形式上，关节v在时间t的运动计算为mvt=vt+1−vt。骨骼变形的定义类似于met = et+1−et。与空间信息建模一样，运动信息被公式化为有向无环图序列Sm={Gm，Gm，···，Gm}，其中Gm=（Vm，E m），Vm=4. 实验为了验证我们的方法，我们对两个基于机器人的动作识别数据集进行了广泛的实验：NTU-RGBD [25]和骨架动力学[34]。这两个数据集已被广泛用于以前的工作，基于骨架的动作识别。我们在NTU-RGBD数据集上进行了消融研究，以验证所提出的模型组件的有效性，因为它小于Eteton-Kinetics 。最后，在 NTU-RGBD数据集和Skeleton-Kinetics数据集上对模型进行评估，以与最先进的方法进行比较。4.1. 数据集图3.NTU-RGBD数据集（左）和Matereton-Kinetics数据集（右）中的人体骨骼图插图NTU-RGBD：NTU-RGBD是目前使用最广泛的基于动作识别的数据集;它包含56，000个视频，每个视频包含一个动作。包括单人动作在内，共有60个类别，例如：饮用水，以及两个人的动作，例如，踢别人。该数据集包含4种不同的数据模式：RGB视频、深度图序列、3D骨架数据和红外视频。在这里，我们只使用骨架数据。这些数据由MicrosoftKinect V2以30 fps捕获。这些动作由40名年龄从10岁到35岁的志愿者执行每一个动作都有三个摄像头，设置在相同的高度，但从不同的水平角度瞄准：−45Ω，0Ω，45Ω。相机可以提供25个3D关节位置，如图3（左）所示我们遵循描述数据集的原始论文[25]的惯例，其中推荐了两个基准：1）。交叉主题（CS）：训练集和验证集中的人员1 2T{mv}j=0，···，N并且Em={me}i=0，···，N。然后是不同的. 训练集包含40，320个视频，jvie运动图被送入另一个DGNN，行动标签的措辞两个网络最后通过将softmax层的输出分数相加来验证集包含16，560个视频。 2）.横观（CV）：在训练集和验证集中使用的相机的水平角度是不同的。训练集（0◦，45◦）7918包含37，920个视频，验证集（-45）包含18，960个视频。在两个基准测试中都报告了Top-1精度。骨架-动力学：原始的DeepMind Kinetics人类动作数据集[12]不包含骨架数据，而是包含从YouTube检索的大约30万个视频片段。有400个人类动作类，每个动作至少有400个视频剪辑。每个片段持续大约10秒。动作涵盖了大量的类，重点是人类的行动。 Skeleton-Kinetics [34]中的骨架数据是使用OpenPose [4]工具箱提取的所有视频的大小调整为340 ×256的分辨率，并转换为30 fps的帧速率。Open-pose工具箱可以预测每个人的18个关节，如图3所示。工具箱提供图像坐标系中预测关节的2D坐标（X，Y）及其相应的置信度得分C. Yan等[34]用（X，Y，C）的元组表示每个关节;我们遵循这种方法以能够比较结果。如果存在两个以上的人，则忽略具有较低置信度的人。释放的数据垫每剪辑300帧。前1名和前5名的认可准确度报告为建议。该数据集分为训练集和验证集，分别包含240000个剪辑和20000个剪辑。4.2. 培训详情所有模型都使用相同的批量大小（32），学习时间表（SGD，初始学习率为0.1，在epoch 60和90中减少10）和Pytorch [22]框架训练epoch（120）此外，我们对NTU-RGBD数据集进行了一些预处理Kinect的身体跟踪器容易检测到2个以上的身体，其中一些是物体。为了过滤错误的物体，我们首先将每个物体的能量定义为骨架在每个通道上的标准偏差的总和然后，我们在每个样本中根据它们的身体能量选择两个身体。随后，将每个样本归一化并转换为中心视角，这与之前使用的方法相同[25]。4.3. 消融研究在本节中，我们将检查所提出的DGN块、自适应图策略和双流框架的有效性以识别精度作为评价指标。(a)DGN块首先，我们评估应用DGN块结合骨信息和关节信息的必要性。表1显示了结果。我们使用ST-GCN [34]作为基线方法。由于学习进度的调整，通过对实验数据的预处理，识别正确率（92.7%）比原论文的结果（88.7%）有了很大的提高。2s-ST-GCN表示关节信息和骨骼信息分别用两个ST-GCN建模，并通过添加softmax层的预测得分来融合该方法比仅使用关节信息获得了更好的性能，这表明了使用骨骼信息的重要我们还测试了添加一个完全连接的层或基于池的方法来融合softmax分数，这与直接添加它们1 s-ST-GCN表示关节信息和骨骼信息沿着信道维度连接并被馈送到ST-GCN中，其每层中的信道数量是原始数量的两倍获得了比2s-ST-GCN更好的性能，这可能是因为由级联引起的两种模态的信息然后，我们测试我们的DGNN模型在相同的条件下。由于ST-GCN中的图结构乘以掩码，因此我们也固定DGNN的图结构，并使用掩码与关联矩阵相乘以进行公平比较。所得模型称为掩蔽DGNN。最后的结果表明，我们的掩蔽DGNN模型取得了更好的性能比1 s-ST-GCN。因此，我们的融合策略的优越性，充分利用了图结构的骨骼和关节和骨骼之间的依赖关系，是验证。方法精度ST-GCN92.72s-ST-GCN93.41s-ST-GCN93.7屏蔽DGNN95.0表1. ST-GCN和掩蔽的DGNN的识别准确率（%）的比较。(b)自适应DGN块我们测试了四种策略来使图自适应：（1）类似于ST-GCN，我们将掩码P乘以原始关联矩阵A，其被设置为模型参数并被初始化为1（在表2中标记为PA）;（2）我们将P设置为剩余连接，其被初始化为0并被添加到A（标记为P+A）;（3）我们直接将关联矩阵设置为参数P，初始化为A（记为P0）;（4）与（3）类似，将关联矩阵设置为模型的参数，初始化为A，但在前10个时期固定（记为P10）。我们还测试了没有自适应图策略的性能（标记为A）。表2示出了结果;发现P10策略提供最佳性能。这支持我们的设计策略，如第3.3.3节所述。7919方法一PAP+A均p0P10精度94.495.095.395.295.5表2.不同自适应图策略的识别准确率（%）的比较(c)双流框架为了测试使用运动信息的必要性，我们将分别使用空间信息和运动信息的性能与在NTU-RGBD数据集和Skeleton-Kinetics数据集中融合两个流的性能进行比较，如表3所示。我们发现，融合的空间信息和运动信息，提高了性能的所有基准，这验证了所提出的方法的优越性。方法NTU（cv）NTU（cs）SK（t1）SK（t5）空间95.589.236.158.7运动93.886.831.854.8融合96.189.936.959.6表3.比较了空间信息、运动信息和两种模式融合的识别准确率（%）。SK表示骨架动力学数据集; t1和t5分别表示top-1和top-5精度。4.4. 与最先进方法的为了显示我们的方法的优越性和通用性，该模型与国家的最先进的方法使用 NTU-RGBD 数据集和Skeleton-Kinetics数据集进行比较我们将这些方法分为四类，包括手工-基于特征的方法，基于RNN的方法，基于CNN的方法和基于GCN的方法，并在结果表中用水平线使用NTU-RGBD数据集，我们的模型在交叉视图（CV）和交叉子（CS）基准上进行了测试，如表4所示。基于深度学习的方法的性能通常优于基于手工特征的方法，基于CNN的方法通常优于基于RNN的方法。我们的模型优于这些方法具有很大的利润率，这验证了我们的模型的优势，基于骨架的动作识别。由于从YouTube收集的视频的多样性，因此与NTU-RGBD数据集相比，Neteton-Kinetics数据集更大且更具挑战性。我们在表5中报告了前1和前5的识别准确率。结果与NTU-RGBD上的实验相同，其中我们的模型显示出最佳性能。这样的结果证实了我们的模型的大规模数据集的通用性能力。表4.在NTU-RGBD数据集上与最先进方法的识别准确率（%）比较。方法Top-1（%）Top-5（%）特征编码[8] 14.9 25.8深度LSTM [25] 16.4 35.3TCN [14] 20.3 40.0ST-GCN [34] 30.7 52.8DGNN（我们的）36.9 59.6表5.识别准确度（%）与最新技术水平的方法在Specton-Kinetics数据集上的比较。5. 结论在这项工作中，我们将关节和骨骼信息表示为有向无环图，并设计了一个定制的新型有向图神经网络（DGNN），以基于所构建的图来预测此外，我们使图形结构自适应，以更好地适应多层体系结构和识别任务。此外，提取连续帧间的运动信息来建模骨架序列的时间信息，并在双流框架中融合空间和运动信息。最终模型在两个大规模数据集上超过了当前最先进的性能：NTU-RGBD和Eschereton-Kinetics。未来的工作可能会集中在如何利用骨架数据和RGB数据在一起。此外，探索建议如何结合问题的姿势估计与基于骨架的动作识别在一个统一的架构。这项工作得到了以下方面的部分支持：国家自然科学基金项目61572500、61876182、61872364，国家电网公司科技攻关项目。方法CSCV李群[30]50.182.8HBRNN [7]59.164.0深度LSTM [25]60.767.3ST-LSTM [20]69.277.7STA-LSTM [28]73.481.2VA-LSTM [37]79.287.7ARRN-LSTM [18]80.788.8TCN [14]74.383.1Clips+CNN+MTLN [13]79.684.8CNN [21]80.087.23scale ResNet152 [6]85.092.3ST-GCN [34]81.588.3[29]第二十九话83.589.8DGNN（我们的）89.996.17920引用[1] Peter Battaglia ， Razvan Pascanu ， Matthew Lai ， andDanilo Jimenez Rezende.交互网络，用于学习物体，关系和物理。神经信息处理系统的进展，第4502-4510页，2016年。2[2] Peter W.杰西卡？巴塔利亚哈姆里克、维克多·巴普斯特、阿尔瓦罗·桑切斯-冈萨雷斯、维尼修斯·赞巴迪、马特乌什·马林诺夫斯基、安德烈·塔切蒂、大卫·拉波索、亚当·桑托罗和瑞安·福克纳。关系归纳偏差、深度学习和图网络。arXiv预印本arXiv：1806.01261，2018。2[3] C.曹氏C.兰岛，澳-地Zhang，W. Zeng，H. Lu和Y.张某基于骨架的动作识别与门控卷积神经网络。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，第1-1页，2018年。一、二[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。1、7[5] Joao Carreira和Andrew Zisserman。什么是行动识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，2017年7月。1、6[6] Y. 杜，Y.Fu和L.王. 基于卷积神经网络的骨架动作2015年第三届IAPR亚洲模式识别会议（ACPR），第579二、四[7] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集，第1110-1118页，2015年。1、8[8] 放大图片作者：Basura Fernando，Efstratios Gavves，Jose M.奥拉马斯阿米尔·古德拉蒂和蒂娜·图伊特拉尔斯用于动作识别的视频演化建模。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition，第5378-5387页一、二、八[9] 放大图片作者：Justin Gilmer.帕特里克·舍恩霍尔茨Riley、Oriol Vinyals和George E.达尔量子化学的神经信息传递。CoRR，2017年。2[10] 何凯明，乔治亚·吉克萨里，彼得·多尔，罗斯·吉尔希克.面具R-CNN。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。1[11] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。2[12] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan ，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，以及其他人。Kinetics Human Action Video Dataset。arXiv预印本arXiv：1705.06950，2017。7[13] 柯秋红，穆罕默德·本那蒙，森健·安，费尔杜斯·艾哈迈德·索赫尔，法里德·布萨德。一种新的用于三维动作识别的骨架序列表示2017年IEEE计算机视觉和模式识别会议，第4570-4579页，2017年。1、8[14] 金泰秀和奥斯汀·瑞特。用时间卷积网络进行可解释的三维人体活动分析在计算机视觉和模式识别研讨会（CVPRW），2017年IEEE会议，第1623-1631页一、二、八[15] Thomas Kipf、Ethan Fetaya、Kuan-Chieh Wang、MaxWelling和Richard Zemel。交互系统的神经关系推理。在2018年的国际机器学习会议（ICML）上2[16] Bo Li，Yuchao Dai，Xuelian Cheng，Huahui Chen，YiLin，and Mingyi He.基于骨架的动作识别，使用双尺度不变图像映射和多尺度深度CNN。在多媒体博览会研讨会（ICMEW），2017年IEEE国际会议上，第601IEEE，2017年。一、二、四、八[17] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.基于骨架的动作识别与卷积神经网络。在多媒体博览会研讨会（ICMEW），2017年IEEE国际会议上，第597-600页IEEE，2017年。1[18] 林莉，吴铮，张兆祥，黄燕，王亮。动作识别的基于语义的关系建模。arXiv：1805.02556 [cs]，2018年。一二三八[19] Shuai Li ， Wanqing Li ， Chris Cook ， Ce Zhu ， andYanbo Gao.独立递归神经网络（indrnn）：构建更长更深的RNN。在IEEE计算机视觉和模式识别会议论文集，第5457-5466页1[20] Jun Liu，Amir Shahroudy，Dong Xu，and Gang Wang.具有信任门的时空LSTM用于3D人类动作识别。在Computer Vision ECCV 2016，第9907卷，第816-833页中。Springer International Publishing- ing，Cham，2016.一、二、八[21] 刘梦媛，刘红，陈晨。增强的骨架-吨可视化视图不变的人类行动识别。Pattern Recognition，68：346-362，2017. 一、二、八[22] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动微分。在NIPS-W，2017年。7[23] 赵凡秋，姚婷，陶梅。利用伪三维残差网络学习时空表示。在IEEE国际计算机视觉会议（ICCV），2017年10月。6[24] 亚当·桑托罗，大卫·拉波索，大卫·G·巴雷特，马特乌什·马林诺夫斯基，拉兹万·帕斯卡努，彼得·巴塔利亚和蒂姆·莉莉--垃圾。一个简单的神经网络模块的关系推理。在重症盖永V. Luxburg，S. Bengio，H.瓦拉赫河Fergus，S. Vishwanathan和R. Garnett，编辑，神经信息处理系统进展30，第4974- 4983页。Curran Associates，Inc. 2017. 2[25] Amir Shahroudy，Jun Liu，Tian-Tsong Ng，and GangWang.NTU RGB+D：用于3D人体活动分析的大规模数据集在IEEE计算机视觉和模式识别会议（CVPR），2016。一、二、四、六、七、八[26] 石磊，张一凡，程健，卢汉青。非局部图卷积网络用于基于神经网络的动作识别。arXiv：1805.07694 [cs]，May 2018. 一、二、三、五7921[27] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在Advances in neural informationprocessing systems，第568一、二、六[28] Sijie Song，Cuiling Lan，Junliang Xing，Wenjun Zeng，and Jiaying Liu.一个端到端的时空注意力模型，用于从骨架数据中识别人体动作。在AAAI，第1卷，第

下载后可阅读完整内容，剩余1页未读，立即下载