骨架的双流自适应图卷积网络在动作识别中的研究

116 浏览量更新于2023-10-17 收藏 904KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12026基于骨架的动作识别的双流自适应图卷积网络石磊1，2张一凡1，2*程建1，2，3卢汉青1，21中国科学2中国科学3中科院脑科学与智能技术{雷.石，张艺发，程建，卢华琪}@ nlpr.ia.ac.cn摘要在基于人体骨架的动作识别中，将人体骨架建模为时空图的图卷积网络（GCN）取得了显著的性能。然而，在现有的基于GCN的方法中，图的拓扑是手动设置的，并且其在所有层和输入样本上是这对于动作识别任务中的分层GCN和不同样本此外，骨骼数据的二阶信息（骨骼的长度和方向），这是自然的更多的信息和判别力的动作识别，很少在现有的方法中研究在这项工作中，我们提出了一种新的双流自适应图卷积网络（2s-AGCN）的骨架为基础的动作识别。在我们的模型中，图的拓扑结构可以通过BP算法以端到端的方式统一或单独学习这种数据驱动的方法增加了模型构造图的灵活性此外，本文提出了一种两流框架来同时对一阶和二阶信息进行建模，从而显著提高了识别精度。在两个大规模数据集 NTU-RGBD 和Kinetics-Skeleton上的大量实验表明，我们的模型的性能超过了最先进的水平。1. 介绍基于骨架数据的动作识别方法由于其对动态环境和复杂背景的强适应性而受到广泛的研究和关注[31，8，6，27，22，29，33、19、20、21、14、13、23、18、17、32、30、34]。常规*通讯作者基于深度学习的方法手动地将所述音调构造为关节坐标向量的序列[6，27，22，29，33，19，20]或作为伪图像[21，14，13，23，18，17]，其被馈送到RNN或CNN中以生成预测。然而，将骨架数据表示为向量序列或2D网格不能完全表达相关关节之间的依赖性。骨架自然地构造为非欧几里德空间中的图，其中关节作为顶点，并且它们在人体中的自然连接作为边。以往的方法不能充分利用骨架数据的图形结构，也难以推广到任意形状的骨架。最近，将卷积从图像推广到图形的图形卷积网络（GCN）已成功应用于许多应用[16，7，25，1，9，24，15]。对于基于骨架的动作识别任务，Yan et al.[32]首先应用GCN对骨架数据进行建模。他们基于人体关节的自然连接构造空间图，并在连续帧中的相应关节之间添加时间边缘提出了一种基于距离的然而，ST-GCN中的图构造过程存在三个缺点[32]：（1）ST-GCN中采用的骨架图是预先定义的，并且仅表示人体的物理结构。因此，它不能保证是最佳的动作识别任务。例如，两只手之间的关系对于识别诸如“拍手”和“阅读”之类的类很重要然而，ST-GCN难以捕获两只手之间的依赖性，因为它们在预定义的基于人体的图中彼此远离。（2）GCN的结构是层次化的，不同层次包含多层次的语义信息。然而，图ap的拓扑12027ST-GCN中的语义模型是固定的，缺乏灵活性和对包含在所有层中的多级语义信息建模的能力;（3）一个固定的图结构对于不同动作类的所有样本可能不是最优的。对于“擦脸”“摸头”这样的课来说这一事实表明，图结构应该是数据相关的，然而，这在ST-GCN中不支持。针对上述问题，本文提出了一种新的自适应图它参数化两种类型的图，其结构与模型的卷积参数一起训练和更新。一种类型是全局图，它表示所有数据的公共模式。另一种类型是indi- vidual图，它表示每个数据的唯一模式。这两类图都是针对不同层次分别进行优化的，能更好地拟合模型的层次结构。这种数据驱动的方法增加了模型构建的灵活性，并带来了更大的通用性，以适应各种数据样本。ST-GCN的另一个值得注意的问题是，附加到每个顶点的特征向量只包含关节的2D或3D坐标，这可以被视为骨架数据的一阶信息然而，二阶信息，这代表的骨骼的特征，两个关节，没有被利用。通常，骨骼的长度和方向对于动作识别来说自然更具信息性和区分性。为了利用骨骼数据的二阶信息，骨骼的长度和方向被公式化为从其源关节指向其目标关节的向量。类似于一阶信息，向量被馈入自适应图卷积网络以预测动作标签。此外，提出了一种双流框架，融合一阶和二阶信息，以进一步提高性能。为了验证所提出的模型，即双流自适应图卷积网络（2s-AGCN）的优越性，在两个大规模数据集上进行了大量的实验：NTU-RGBD [27]和动力学-骨架[12]。我们的模型在两个数据集上都达到了最先进的性能。我们的工作的主要贡献在于三个方面：(1)提出了一种自适应图卷积网络，以端到端的方式自适应地学习不同GCN层和骨架样本的图的拓扑结构，从而更好地适应动作识别任务和GCN的层次结构. (2)骨架数据的二阶信息显式地表示为：对于识别性能。(3)在两个大规模的数据集上进行基于动作识别，所提出的2s-AGCN超过了最先进的一个显着的Margin。该代码将被释放为未来的工作，并促进通信1。2. 相关工作2.1. 基于骨架的动作识别传统的基于机器人的动作识别方法通常设计手工制作的特征来模拟人体[31，8]。然而，这些基于手工特征的方法的性能是勉强令人满意的，因为它不能考虑所有的因素在同一时间。随着深度学习的发展，数据驱动的方法已经成为主流方法，其中使用最广泛的模型是RNN和CNN。基于RNN的方法通常将骨架数据建模为一系列坐标向量，每个坐标向量表示人体关节[6，27，22，29，33，19，20，3]。基于CNN的方法基于手动设计的变换规则将电子数据建模为伪图像[21，14，13，23，18，17]。基于CNN的方法通常比基于RNN的方法更受欢迎，因为CNN具有更好的并行性并且比RNN更容易训练。然而，RNN和CNN都未能完全表示骨架数据的结构，因为骨架数据自然地以图形的形式嵌入，而不是以图形的形式嵌入。矢量序列或2D网格。最近，Yan等。[32]提出了一种时空图卷积网络（ST-GCN）来直接将骨架数据建模为图结构。该方法不需要手工设计部件分配或遍历规则，从而获得了比以往方法更好的性能。2.2. 图卷积神经网络关于图卷积已经有很多工作，构造GCN的原理主要遵循两个流：空间透视和光谱透视[28，2，11，25，1，16，7，5，9，24，15]。空间透视方法直接对图形顶点及其邻居执行卷积滤波器，这些顶点及其邻居基于手动设计的规则被提取和归一化[7，25，9，24，15]。与空间透视方法不同，光谱透视方法利用图拉普拉斯矩阵的特征值和特征向量。这些方法在图形傅立叶变换[28]的帮助下在频域中执行图形卷积，其不需要在每个卷积步骤[2，11，16，5]从图形中提取局部连接区域。这项工作遵循空间透视方法。使用一阶信息来计算并与一阶信息组合，双流框架，带来显著的改进1https://github.com/lshiwjx/2s-AGCN12028= Λ− <$AΛ−，其中A<$KKKKKJ3. 图卷积网络3.1. 图构建一帧中的原始骨架数据总是作为矢量序列提供。每个矢量表示对应人体关节的2D或3D坐标。一个完整的行动包含多个帧不同的长度为不同的样本。我们采用一个时空图来建模这些关节之间的结构化信息沿空间和时间维度。图的结构遵循ST-GCN的工作[32]。图中左侧的草图。1给出了一个构建的时空骨架图的例子，其中关节表示为顶点，它们在人体中的自然连接表示为空间边缘（图中的橙色线）。1，左）。对于时间维度，两个相邻帧之间的对应关节与时间边缘（图1中的蓝线）连接。1，左）。每个关节的坐标向量被设置为相应顶点的属性。卷积的权向量的数目是固定的，而Bi中的顶点的数目是变化的。为了用唯一的权重向量映射每个顶点，在ST-GCN [32]中专门设计了映射函数li图中的右草图1显示了这种策略，其中×代表重心-骨架的完整性。 Bi是曲线包围的面积。在详细地，该策略根据经验将内核大小设置为3，并且自然地将Bi分成3个子集：Si1是顶点本身（图中的红色圆圈）。 1，右）; Si2是向心子集，包含离重心较近的相邻顶点（绿色圆圈）; Si3是离心子集，包含离重心较远的相邻顶点。从重心（蓝色圆圈）。Zij表示包含vj的Sik的基数。它旨在平衡每个子集的贡献。3.3. 执行空间维中的图卷积的实现具体地说，网络的特征映射实际上是一个C×T×N张量，其中N表示顶点数，T表示时间长度，C表示通道数。到实施ST-GCN，等式1转化为Kvfout=Wk（finAk）<$Mk（2）K其中Kv表示空间维度的核大小。使用上面设计的分区策略，将Kv设置为3。1 1阿K2K2k类似于N×N图1.（a）ST-GCN中使用的时空图说明。（b）绘制地图战略的不同的颜色表示不同的子集。邻接c y矩阵，其元素A<$ij表示顶点v j是否在顶点vi的子集S ik中。用于提取连通向量在特定子集中从fin中导出，相应的权重vectorr。Λii=（A<$ij）+α，3.2.图卷积给定上面定义的图，在图上应用多层空间时间图卷积运算全局平均池层和softmax分类器，然后预测动作类别的基础上提取的特征。在空间维度上，顶点vi上的图卷积运算公式化为[32]：归一化对角矩阵 α被设置为0。001避免空行。Wk是1 ×1卷积运算的Cout×Cin×1 ×1权重向量，其表示等式1中的加权函数w1.一、Mk是一个N×N的注意力图，表示每个顶点的重要性表示点积。对于时间维度，由于每个顶点的相邻节点的数量固定为2（两个连续帧中的对应节点），因此可以直接执行与经典卷积操作类似的图卷积fout（vi）=Σvj∈Bi1Zijfin（vj）·w（li（vj））（1）状态。具体来说，我们对上面计算的输出特征图执行Kt×1卷积，其中Kt是时间维度的内核大小。其中f表示特征图，v表示图的顶点Bi表示vi的卷积的采样区域，其被定义为1-距离相邻顶点（vj）的目标顶点（vi）。W是类似于原始卷积运算的加权函数，其基于给定输入提供权重向量注意4. 双流自适应图卷积网络在本节中，我们将详细介绍我们提出的双流自适应图卷积网络（2s-AGCN）的组件。12029K不θk4.1. 自适应图卷积层上述骨架数据的时空图卷积是基于预定义的图来计算的，这可能不是最佳选择，如在第2节中所解释的。1.一、为了解决这个问题，我们提出了一个自适应图卷积层。它使图的拓扑结构与网络的其他参数一起以端到端的学习方式进行优化。该图对于不同的层和样本是唯一的同时，将其设计为残差分支，保证了原模型的稳定性具体地，根据Eq. 图的拓扑结构实际上是由邻接矩阵和掩码决定的，即，Ak和Mk分别。Ak确定两个顶点之间是否存在连接，Mk确定连接的强度。来制作图形结构自适应，我们改变Eq。2转换为以下形式：Kvf输出=Wkfin（Ak+Bk+Ck）（3）K图2.自适应图卷积层的图示在每一层中总共有三种类型的图，即，阿k，BK和CK。橙色框表示参数为learn-主要区别在于图，它分为三个部分：Ak，Bk和Ck。第一部分（Ak）与等式（1）中的原始规范化的N×N邻接矩阵Ak二、它代表了人体的物理结构。第二部分（Bk）也是一个N×N邻接矩阵。与Ak相反，Bk的元素是参数-与训练过程中的其他参数一起进行优化。对Bk的值没有约束，这意味着图完全根据训练数据学习。通过这种数据驱动的方式，模型可以学习完全针对识别任务的图形，并且对于不同层中包含的不同信息更加个性化注意，矩阵中的元素可以是任意值。它不仅表明了两个节点之间是否存在连接，而且还表明了连接的强度。它可以起到由Mk在Eq中执行的注意机制的相同作用。2然而，原始注意力矩阵Mk与Ak相乘，这意味着如果Ak中的一个元素为0，它将总是0，而不管Mk的值。因此，它不能生成原始物理图中不存在的新连接。从这个角度来看，Bk比Mk更灵活。第三部分（Ck）是一个数据依赖图，它为每个样本学习一个唯一的图以确定是否两个顶点之间存在连接以及连接的强度，我们应用归一化嵌入高斯函数来计算两个顶点的相似度：eθ（vi）φ（vj）有能力（1×1）表示卷积的核大小。Kv表示子集的数量。表示逐元素求和。表示矩阵乘法。剩余方框（虚线）仅当Cin与Cout不相同时才需要。其中N是顶点的总数我们使用点积来度量嵌入空间中两个顶点的相似性。具体地，给定输入特征图f，其大小为Cin×T×N，我们首先使用两个嵌入函数将其嵌入到Ce×T×Nθ和φ。在这里，通过大量的实验，我们选择一个1×1卷积层作为嵌入函数。两个嵌入式功能映射被重新排列和整形为N×CeT矩阵和CeT×N矩阵。然后将它们相乘以获得N×N相似度矩阵Ck，其元素Cij表示顶点vi和顶点vj的相似度。矩阵的值被归一化为0−1，用作两个顶点的软边。由于归一化高斯为配备softmax操作，我们可以计算Ck基于等式4如下：Ck=softmax（finTWTφkfin）（5）其中Wθ和Wφ分别是嵌入函数θ和φ而不是直接用Bk或Ck替换原始的A k，我们将它们添加到它。B k的值以及θ和φ的参数被初始化为0。这样，既可以增强模型的灵活性，又不会降低原有的性能性能f（vi，vj）=Nj=1（四）eθ（vi）Tφ（vj）自适应图卷积的整体架构，f= 3��×�� ×��×��×��中国（1 ×1）��×��×��×�� ×��f电子邮件（1 × 1）电子邮件（1 × 1）电子邮件（1 × 1）12030离子层如图所示二、除了Ak，Bk和上面介绍的Ck，卷积的核大小（Kv）为B2、B3BN64，64，1B5、B6128，128，1B8、B9256，256，1Softmax设置与以前相同，即，3. wk是等式中引入的加权函数。1，其参数为等式中的Wk3 .第三章。类似于[10]，为每个层添加了一个剩余连接，这允许该层插入到任何现有模型中，而不会破坏其初始行为。如果输入通道数与输出通道数不同，nels，1×1卷积（图中虚线橙色框）。2）被插入残差路径以变换输入以匹配通道维度中的输出。B13,64,1B464,128,2B7128,256,2间隙4.2. 自适应图卷积块时间维度的卷积与ST-GCN相同，即，在C×T×N特征图上执行Kt×1空间GCN和时间GCN之后都是批归一化（BN）层以及ReLU层。如图在图3中，一个基本块是一个空间GCN（Convs）、一个时间GCN（Convt）和丢弃率设置为0.5的附加丢弃层的组合。为了稳定训练，为每个块添加残差连接。剩余连接ConvsBN辍学率 BN Relu图3.自适应图卷积块的图示。Convs表示空间GCN，并且Convt表示时间GCN，两者之后都是BN层和ReLU层。此外，为每个块添加残余连接。4.3. 自适应图卷积网络自适应图卷积网络（AGCN）是这些基本块的堆栈，如图所示。4.第一章总共有9块。每个块的输出通道的数量是64、64、64、128、128、128、256、256和258。256 在开始处添加数据BN层以归一化输入数据。最后执行全局平均池化层，以将不同样本的特征图池化到一样的尺寸。最终输出被发送到softmax分类器以获得预测。4.4. 双流网络如在第二节介绍。1，二阶信息，即，骨骼信息对于基于骨架的动作识别也很重要，但在以前的工作中被忽略了图4.图为AGCN。共有9个区块（B1-B 9）。每个块的三个数字分别表示输入通道的数量、输出通道的数量和步幅。GAP表示全局平均池化层。在本文中，我们提出明确建模的二阶信息，即骨骼信息，与双流框架，以提高识别。特别地，由于每个骨骼与两个关节绑定，因此我们定义靠近骨架重心的关节为源关节，远离重心的关节为目标关节。每个骨骼被表示为从其源关节指向其目标关节的向量，该向量不仅包含长度信息，而且还包含方向信息。例如，给定一个骨骼，其源关节v1=（x1，y1，z1），其目标关节v2=（x 1，y 1，z1）（x2 ，y2，z2 ），则骨骼的向量计算为ev1 ， v2=（x2−x1，y2−y1，z2−z1）。由于骨架数据的图形没有循环，可以为骨骼分配唯一的目标关节。关节数比骨骼数多一个，因为中心关节未指定给任何骨骼。为了简化网络的设计，我们将一个值为0的空骨骼添加到中心关节。以这种方式，骨骼的图形和网络都可以被设计为与关节的图形和网络相同，因为每个骨骼可以与唯一的关节绑定。我们使用J-stream和B-stream分别表示关节和骨骼的网络。总体架构（2s-AGCN）如图所示。五、给定一个样本，首先根据关节数据计算骨骼数据。然后，将关节数据和骨骼数据分别馈送到J流和B流中。最后，将两个流的softmax得分相加以获得融合得分并预测动作标签。5. 实验为了与ST-GCN进行头对头比较，我们的实验在相同的两个大规模动作识别数据集上进行：NTU-RGBD[27]和Kinetics- Skeleton [12，32]。首先，由于NTU-RGBD数据集是120311415160171253648 1179 121013439215106211725128 23242211713181419 152016⨁J-StreamB-Stream预测图5.2s-AGCN的整体架构的图示将两个流的得分相加以获得最终预测。小于Kinetics-Skeleton数据集，我们对其执行exhaustive消融研究，以检查基于识别性能的所提出的模型组件的贡献。然后，在两个数据集上对最终模型进行评估以验证通用性，并与其他最先进的方法进行比较。两个数据集中关节及其自然连接的定义如图所示。六、图6.左侧草图显示了Kinetics- Skeleton数据集的关节标签，右侧草图显示了NTU-RGBD数据集的关节标签。5.1. 数据集NTU-RGBD：NTU-RGBD [27]是目前最大和最广泛使用的室内捕捉动作识别数据集，包含60个动作类别中的56，000个动作片段。这些剪辑由40名志愿者执行，年龄从10岁到35岁不等。每一个动作都是由3个摄像头在同一高度，但从不同的角度拍摄的-输入水平角度：−45Ω，0Ω，45Ω。此数据集提供Kinect深度检测到的每帧的3D关节位置传感器.有25个关节为每个主题的克塞顿序列，而每个视频有不超过2个子克塞顿。该数据集的原始论文[27]推荐了两个基准：①的人。交叉受试者（X-Sub）：中的数据集该基准被分成训练集（40，320个视频）和验证集（16，560个视频），其中两个子集中的演员是不同的。2）.横向视图（X-视图）：该基准中的训练集包含由摄像机2和3捕获的37，920个视频，并且验证集包含由摄像机1捕获的18，960个视频。我们遵循这一惯例，并报告了两个基准测试的前1名准确度。动力学-骨架：Kinetics [12]是一个大规模的人类动作数据集，包含400个类中的300，000个视频剪辑。视频剪辑来自YouTube视频，种类繁多。它只提供没有骨架数据的原始视频剪辑。 [32] 使用公开可用的OpenPose工具箱[4]估计剪辑每帧上18个关节的位置。基于平均关节置信度为多人剪辑选择两个我们使用他们发布的数据（动力学骨架）来评估我们的模型。数据集分为训练集（240，000个剪辑）和验证集（20，000个剪辑）。按照[32]中的评估方法，我们在训练集上训练模型，并在验证集上报告前1和前5个准确度5.2. 培训详情所有实验都在PyTorch深度学习框架上进行[26]。随机梯度下降（SGD）与Nesterov动量（0。9）作为优化策略。批量为64。交叉熵被选择为反向传播梯度的损失函数。权重衰减设置为0。0001对于NTU-RGBD数据集，数据集的每个样本中最多有两个人。如果样本中的主体数量小于2，我们用0.每个样本中的最大帧数为300。对于少于300帧的样本，我们重复这些样本，直到达到300帧。学习率设置为0。1并且在第30个历元和第40个历元处除以10的训练过程在第50个时期结束。对于Kinetics-Skeleton数据集，输入的大小12032NS相应的自适应邻接矩阵学习我们的他模型很明显，图的学习结构是e更灵活，不受物理连接的限制，人体的器官。n-tenndh.o-rknT-e-edchn-Kinetics的张量设置与[32]相同，其中包含150帧，每帧中有2个身体。我们执行与[32]中相同的数据增强方法。详细地说，我们从输入骨架序列中随机选择150帧，并通过随机选择的旋转和平移稍微干扰关节坐标。学习ra也被设置为0。在第45个纪元和第55个纪元被10训练过程在第65个epoc5.3. 消融研究我们在本节中使用NTU-RGBD数据集的X-View基准测试来检查双流自适应图卷积网络（2s-AGCN）中所提出的组件的有效性。SGCN在NTU-RGBD数据集上的原始性能为88。百分之三。通过使用优化的学习率调度器和专门设计的数据预处理方法，算法性能提高到92。7%，以此作为实验的基线。详细情况见补充材料。5.3.1自适应图卷积块。如第4.1节中所介绍的，自适应图卷积块中存在3种类型的图，即，A、B和C。我们手动删除其中一个图形，并在Tab中显示其1.一、该表表明，自适应学习图有利于动作识别，删除三个图中的任何一个都会损害性能。将所有三个图加在一起，模型获得最佳性能。我们还测试了原始ST-GCN中使用的M的重要性结果表明，给定每一个连接，权参数是重要的，这也证明了自适应图结构的重要性。方法准确度（%）ST-GCN92.7ST-GCN不带M 91.1AGCN wo/A 93.4AGCN wo/B 93.3AGCN wo/C 93.4AGCN 93.7图8是一个样品的不同层的骨架图的可视化（从左到右是图8中的第3层、第5层和第7层）。4，分别）。骨架是根据人体的物理联系绘制的。每个圆圈代表一个关节，其大小代表当前关节与我们模型的学习自适应图中的第25个结果表明，传统的人体物理连接并不是动作识别任务的最佳选择，不同层次需要具有不同拓扑结构的图。第三层的骨架图更关注物理图中相邻的关节。该结果是直观的，因为较低层仅包含低层特征，而不能观察到全局对于第5层，同一条臂上更多的关节是强连接的.对于第七层，左手和右手表现出更强的联系，尽管它们在人体的物理结构中彼此相距很远。我们认为，更高的层包含更高层次的信息。因此，图与最终分类任务更相关。表1.在添加有或没有A、B和C的自适应图卷积块时的验证精度比较。wo/X表示删除X模块。5.3.2学习图形的可视化图7显示了我们的模型为第二个子集学习的邻接矩阵的示例。矩阵中每个元素的灰度表示连接的强度左边是ST-GCN中采用的第二子集的原始邻接矩阵，右边是图8. 不同层的图形可视化。图9示出了与图1类似的可视化。8，但对于不同的样品。提取学习的邻接矩阵00551010151520200510152005101520图7.学习邻接矩阵的示例。左边的马-NTU-RGBD数据集中第二个子集的原始邻接矩阵。右矩阵是我们模型学习的相应自适应邻接矩阵的一个例子。12033从模型中第5层的第二个子集（图4）.它表明，我们的模型对不同的样本学习的图结构也是不同的，即使是对于相同的卷积子集和相同的层。验证了我们的观点，即不同的样本需要不同的图的拓扑结构，数据驱动的图结构比固定的图结构更好。图9.不同样品的图形可视化5.3.3双流框架方法X-Sub（%）X-View（%）李群[31] 50.1 82.8[6]第六届中国国际纺织品展览会深度LSTM [27] 60.7 67.3ST-LSTM [22] 69.2 77.7STA-LSTM [29] 73.4 81.2[33] LSTM的最新版本ARRN-LSTM [19] 80.7 88.8Ind-RNN [20] 81.8 88.0双流3DCNN [21] 66.8 72.6TCN [14] 74.3 83.1Clips+CNN+MTLN [13] 79.6 84.8综合CNN [23] 80.0 87.2CNN+Motion+Trans [18] 83.2 89.33scale ResNet152 [17] 85.0 92.3表3.在NTU-RGBD数据集上与最先进方法的验证准确度比较另一个重要的改进是利用第二-订单信息。在这里，我们比较了单独使用每种类型的输入数据的性能，如表中的Js-AGCN和Bs-AGCN所示2，以及如第4.4节所述将它们组合时的性能，如表2中的2s-AGCN所示。二、显然，双流方法优于单流方法。方法准确度（%）Js-AGCN93.7Bs-AGCN93.22s-AGCN95.1表2.不同输入方式的验证精度比较5.4. 与最新技术我们在NTU-RGBD数据集和Kinetics-Skeleton数据集上将最终模型与最先进的基于动作的动作识别方法进行了比较。这两项比较的结果分别见表3和表4。用于比较的方法包括基于手工特征的方法[31，8]，基于RNN的方法[6，27，22，29，33，19，20]，基于CNN的方法[6，27，22，29，33，19，20方法[21，14，13，23，18，17]和基于GCN的方法[32，30]。我们的模型在两个数据集上都达到了最先进的性能，并且有很大的差距，这验证了我们的模型的优越性。5.5. 结论在这项工作中，我们提出了一种新的自适应图卷积神经网络（2s-AGCN）的基于卷积神经网络的AC。方法Top-1（%）Top-5（%）功能编码[八]《中国日报》14.925.8深度LSTM [27]16.435.3TCN [14]20.340.0ST-GCN [32]30.752.8Js-AGCN（我们的）35.157.1Bs-AGCN（我们的）33.355.72s-AGCN（我们的）36.158.7表4.在Kinetics-Skeleton数据集上与最先进方法的验证准确性比较动作识别它将骨架数据的图结构参数化，并将其嵌入到网络中，与模型共同学习和更新。这种数据驱动的方法增加了图卷积网络的灵活性，更适合于动作识别任务。此外，传统的方法往往忽略或低估骨架数据的二阶信息的重要性，即，骨骼信息。在这项工作中，我们提出了一个双流框架，明确采用这种类型的信息，这进一步提高了性能。最终模型在两个大规模动作识别数据集NTU-RGBD和Kinetics上进行了评估，并且在这两个数据集上都达到了最先进的性能这项工作得到了以下方面的部分支持：国家自然科学基金项目61572500、61876182、61872364，国家电网公司科技攻关项目。ST-GCN [32]81.588.3DPRL+GCNN [30]83.589.82s-AGCN（我们的）88.595.112034引用[1] 詹姆斯·阿特伍德和唐·陶斯利扩散卷积神经网络。神经信息处理系统的进展，第1993-2001页，2016年。一、二[2] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络见ICLR，2014年。2[3] C.曹氏C.兰岛，澳-地Zhang，W. Zeng，H. Lu和Y.张某基于骨架的动作识别与门控卷积神经网络。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，第1-1页，2018年。2[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。6[5] 米哈尔·德弗拉德，泽维尔·布列松，皮埃尔·范德根斯特.具有快速局部谱滤波的图上卷积神经网络。In D. D.李，M。Sugiyama，U.卢克斯堡岛Guyon和R. Garnett，editors ， Advances in Neural Information ProcessingSystems 29，pages 3844Curran Associates，Inc. 2016. 2[6] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集，第1110-1118页，2015年。一、二、八[7] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre、Rafael Bombarell、Timothy Hirzel、AlanAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络。In C. Cortes，N. D. Lawrence，D. D.李，M。Sugiyama和R. Garnett，editors，Advances in NeuralInformation Processing Systems 28 ， pages 2224CurranAssociates，Inc. 2015. 一、二[8] 放大图片作者：Basura Fernando，Efstratios Gavves，Jose M.奥拉马斯阿米尔·古德拉蒂和蒂娜·图伊特拉尔斯用于动作识别的视频演化建模。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition，第5378-5387页一、二、八[9] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。在神经信息处理系统的进展，第1025-1035页，2017年。一、二[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，2016年6月。5[11] Mikael Henaff，Joan Bruna，and Yann LeCun.图结构数据上的深度卷积网络。 arXiv 预印本 arXiv ：1506.05163，2015。2[12] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan ，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，以及其他人。Kinetics Human Action Video Dataset。arXiv预印本arXiv：1705.06950，2017。二、五、六[13] 柯秋红，穆罕默德·本那蒙，森健·安，费尔杜斯·艾哈迈德·索赫尔，法里德·布萨德。一种新的用于三维动作识别的骨架序列表示2017年IEEE计算机视觉和模式识别会议，第4570-4579页，2017年。一、二、八[14] 金泰秀和奥斯汀·瑞特。用时间卷积网络进行可解释的三维人体活动分析在计算机视觉和模式识别研讨会（CVPRW），2017年IEEE会议，第1623-1631页一、二、八[15] Thomas Kipf、Ethan Fetaya、Kuan-Chieh Wang、MaxWelling和Richard Zemel。交互系统的神经关系推理。在2018年的国际机器学习会议（ICML）上一、二[16] 托马斯·N Kipf和Max Welling。图卷积网络的半监督分类arXiv预印本arXiv：1609.02907，Sept. 2016. 一、二[17] Bo Li，Yuchao Dai，Xuelian Cheng，Huahui Chen，YiLin，and Mingyi He.基于骨架的动作识别，使用双尺度不变图像映射和多尺度深度CNN。在多媒体博览会研讨会（ICMEW），2017年IEEE国际会议上，第601IEEE，2017年。一、二、八[18] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.基于骨架的动作识别与卷积神经网络。在多媒体博览会研讨会（ICMEW），2017年IEEE国际会议上，第597-600页IEEE，2017年。一、二、八[19] 林莉，吴铮，张兆祥，黄燕，王亮。动作识别的基于语义的关系建模。arXiv：1805.02556 [cs]，2018年。一、二、八[20] Shuai Li ， Wanqing Li ， Chris Cook ， Ce Zhu ， andYanbo Gao.独立递归神经网络（indrnn）：构建更长更深的RNN。在IEEE计算机视觉和模式识别会议论文集，第5457-5466页一、二、八[21] 刘红，涂隽慧，刘梦圆。双流3D卷积神经网络用于基于动作的动作识别。arXiv：1705.08106 [cs]，May 2017.一、二、八[22] Jun Liu，Amir Shahroudy，Dong Xu，and Gang Wang.具有信任门的时空LSTM用于3D人类动作识别。在Computer Vision ECCV 2016，第9907卷，第816-833页中。Springer International Publishing- ing，Cham，2016.一、二、八[23] 刘梦媛，刘红，陈晨。增强的骨架-吨可视化视图不变的人类行动识别。Pattern Recognition，68：346-362，2017. 一、二、八[24] Federico Monti ， Davide Boscaini ， Jonathan Masci ，Emanuele Rodola，Jan Svoboda，and Michael M.布朗斯坦使用混合模型CNN对图形和流形进行几何深度学习。在Proc. CVPR，第1卷，第3页，2017年。一、二[25] Mathias Niepert ， Mohamed Ahmed ， and KonstantinKutzkov. 学习图的卷积神经网络在机器学习国际会议上，2014-2023页，2016年。一、二[26] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动微分。在NIPS-W，2017年。6[27] Amir Shahroudy，Jun Liu，Tian-Tsong Ng，and GangWang.NTU RGB+D：用于3D人体活动分析的大规模数据集在IEEE计算机视觉和模式识别会议（CVPR），2016。一、二、五、六、八12035[28] David I Shuman ， Sunil K Narang ， Pascal Frossard ，Antonio Ortega，and Pierre Vandergheynst.图形信号处理的新兴领域：将高维数据分析扩展到网络和其他不规则域。IEEE Signal Processing Magazine，30（3）：83-98，2013. 2[29] Sijie Song，Cuiling Lan，Junliang Xing，Wenjun Zeng，and Jiaying Liu.一个端到端的时空注意力模型，用于从骨架数据中识别人体动作。在AAAI，第1卷，第4263-4270页，2017年。一、二、八[30] Yansong Tang，Yi Tian，Jiwen Lu，Peiyang Li，and JieZhou.用于基于骨架的动作识别的深度渐进强化学习。在IEEE计算机视觉和模式识别会议（CVPR），2018。1、8[31] RavitejaVemulapalli ， FelipeArrate ， andRamaChellappa.以谎言群中的点表示三维骨骼来识别人类行为。在IEEE计算机视觉和模式识别会议集，第588一、二、八[32] 严思杰，熊元军，林大华时空图卷积网络用于基于骨架的动作识别。在AAAI，2018。一二三五六七八[33] Pengfei Zhang ， Cuiling Lan ， Junliang Xing ， WenjunZeng，Jianru Xue，and Nanning

下载后可阅读完整内容，剩余1页未读，立即下载