基于移位图卷积网络的动作识别成就与计算复杂度降低的关键

172 浏览量更新于2023-10-25 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

183基于移位图卷积网络的动作识别1,21，2*1,21,21,2,31,2柯城，张一凡，何，陈维汉，程健公司简介1中国科学院自动化研究所NLPR2中国科学院大学人工智能学院3中科院脑科学与智能技术{chengke2017，chenweihan2018}@ ia.ac.cn，{yfzhang，xiangyu.he，jcheng，luhq}@nlpr.ia.ac.cn摘要基于骨架数据的动作识别是计算机视觉领域的近年来，图卷积网络（GCN）将人体骨架建模为时空图，取得了令人瞩目的成就。然而，GCN的计算复杂度基于的方法非常繁重，通常一个动作示例超过15最近的作品甚至达到了100 GFLOPs。另一个缺点是空间图和时间图的感受野都是不灵活的。尽管有些作品增强了空间的表现力，图通过引入增量自适应模块，其性能仍然受到常规GCN结构的限制。在本文中，我们提出了一种新的移位图卷积网络（Shift-GCN），以克服这两个缺点。我们的Shift-GCN由新颖的移位图操作和轻量级的逐点卷积组成，而在三个数据集上进行基于统计的动作识别，所提出的Shift-GCN明显超过了最先进的方法，计算复杂性降低10倍1. 介绍在计算机视觉领域，基于机器人的人体动作识别由于其对动态环境和复杂背景的鲁棒性而受到广泛关注[2，12，14，16，20，21，23早期的方法[2，3，27]简单地使用关节坐标来形成特征向量，很少探索身体关节之间的随着深度学习的发展，研究人员手动将骨架数据构造为伪图像[5，7，10，14]或坐标序列向量[2，16，19，35，36]，其被馈送到CNN或RNN中*通讯作者。图1. GFLOPs与NTU RGB+D X-sub任务的精度。以生成预测。最近，Yan等。[34]提出了ST-GCN模型的骨架数据与图形卷积网络（GCN），其中包括空间图形卷积和时间图形卷积。提出了许多ST-GCN的变体[9，12，20-然而，这些基于GCN的方法存在两个缺点。(1)计算复杂度太高。例如，ST-GCN [34]对于一个动作样本花费16.2 GFLOPs 1。最近的一些作品甚至达到了1000GFLOPs [20]，这是由于引入了增量模块，多流融合策略（2）空间图和时间图的感受野都虽然[20，21]使得空间相邻矩阵可学习，但我们的实验表明，它们的表达能力仍然受到规则的空间GCN结构的限制。在本文中，我们提出了移位图卷积网络（Shift-GCN）来解决这两个缺点。我们的Shift-GCN受到移位CNN的启发[4，32，37]，其使用轻量级移位操作作为2D卷积的替代方案，并且可以通过简单地改变移位距离来调整感受野提出的Shift-GCN包括空间移位图卷积和时间移位图卷积。对于空间骨架图，我们提出了一种空间移位图操作，将信息从相邻节点移位到当前节点，而不是使用具有不同相邻矩阵的三个GCN来获得足够的感受野[9，12，20-1GFLOPs：千兆浮点数操作184pJp11卷积节点通过将空间移位图操作与逐点卷积交织，信息在空间维度和信道维度上混合。具体地说，我们提出了两种空间移位图运算：局部移位图运算和非局部移位图运算。对于局部移位图操作，用身体物理结构指定感受野。在这种情况下，不同的节点具有不同数量的邻居，因此分别为每个节点设计局部移位图操作。然而，局部移位图运算有两个短周期：（1）感受野是启发式的预定义和局部化的，这不适合建模骨骼之间的多样关系。(2)由于对不同节点的移位操作不同，有些信息直接针对这两个缺点，我们提出了一种非局部移位图操作，使每个节点的感受广泛的消融研究表明，我们的非局部移位图卷积优于规则空间图卷积，即使规则空间图卷积的相邻矩阵是可学习的[20，21]。对于时间骨架图，它是通过连接时间维度上的连续帧来构造的. 代替使用常规的1D时间卷积[9，12，20，21，34]，我们提出了两种时间移位图操作：朴素时间移位图操作和自适应时间移位图操作。朴素时间移位图操作的感受野是手动设置的，这对于时间建模不是最佳的：(1)不同的层可能需要不同的时间感受野[11，33，38]。(2)不同的数据集可能需要不同的时间感受野[11]。这两个问题也存在于常规的1D时间卷积中，其内核大小是手动设置的。我们的自适应时间移位图operation- tion解决这两个问题，通过自适应调整感受广泛的消融研究表明，我们的自适应时间移位图卷积优于具有高效率的规则时间卷积ing.我们的自适应时间移位图操作可以自适应地调整感受野，并且比常规时间模型具有更小的计算复杂度。(3)在三个数据集上进行基于动作的动作识别，提出的Shift-GCN超过了最先进的方法，计算成本降低了10倍代码将在 https://github.com/kchengiva/Shift-GCN上提供。2. 预赛在本节中，我们简要概述了基于GCN的骨架动作识别模型和CNN中的移位模块2.1. 基于GCN的骨架动作识别图卷积网络（GCN）已被完全采用来建模骨架数据[9，12，20在这些方法中，骨架数据被表示为具有N个关节和T个帧的时空图G=（V，E）人体动作的骨架坐标可以表示为X∈RN×T×d，其中d是关节坐标的维数。基于GCN的模型包含两个部分：空间图形卷积和时间图形卷积。对于空间图卷积，关节的相邻集被定义为相邻矩阵A∈ {0，1}N×N。为了说明图卷积的空间位置，相邻矩阵通常被划分为3个分区：1）centripetal组，其中包含相邻节点，更接近骨架中心; 2）节点本身; 3）否则离心群。对于单个标架，设F ∈ RN×C′F′∈RN×C表示输入输出特征re，其中，C和C′是输入和输出要素维度图卷积计算为：F′=A<$pFWp，（1）p∈P其中P={ root，centralphatic，centralphic}表示空间分区，A<$=Λ− AΛ−∈RN×N2 2PPPp是归一化为了验证我们提出的模型的优越性，即，时空移位图卷积网络（Shift-GCN），在三个数据集上进行了广泛的实验： NTU RGB+D [19] 、 NTU-120RGB+D [15]和[29]第二十九话我们在所有三个数据集上都明显超过了最先进的方法，计算成本降低了10倍以上。GFLOPs与NTU RGB+D的精度图如图所示。1.一、本文的主要工作如下：（1）提出了两种空间移位图操作，用于空间骨架图建模。我们的非本地空间移位图操作是计算效率高，并实现了强大的性能。(2)我们提出了两种时态骨架图模型的时态移位图操作邻接矩阵和Λii=<$（Aij）+ α. α设定为0.001以避免空行。Wp∈R1×1×C×C是每个划分组的1 ×1对于时间维度，由于时间图是通过连接连续的帧来构建，大多数基于GCN的模型[9，20，21，31，34]使用时间维度上的常规1D卷积作为时间图卷积。内核大小表示为kt，通常设置为9。然而，这些基于GCN的模型有两个缺点：（1）计算成本太高。例如，ST-GCN [34]对于一个动作样本花费16.2 GFLOPs，包括空间图卷积上的4.0 GFLOPs和时间图卷积上的12.2 GFLOPs一些-ST-GCN的10美分变体甚至重到100GFLOP′185KFKF′图2.正则卷积（a），CNN中的移位卷积（b）和空间GCN中的正则卷积（c）的图。我们的空间移位图卷积被图示为（d）。[20 ]第20段。(2)空间图和时间图的感受野都是预先定义的。虽然一些作品[20，21]使相邻矩阵可学习，但我们的实验表明，其表达能力仍然受到规则GCN结构的限制。2.2. 移动CNN设F∈RDF×DF×C表示输入特征，其中D F是特征图大小，C是通道大小。如图2（a）中，正则卷积核是一个张量K∈RDK×DK×C×C，其中D是核的大小. 的常规卷积的浮点数为D2×D2×C×C′。移位卷积[32]是CNN中正则卷积的有效替代方案。如图2（b），移位卷积由两个操作组成：（1）在不同方向上移位不同通道;（2）应用逐点通过卷积来交换信息。移位卷积的浮点数为D2×C×C′。移位卷积的另一个优点是感受野的灵活性。移位卷积可以通过简单地增加移位距离来扩大其感受野，而不是使用更大的卷积核和增加计算成本。使每个通道的移位值被解。表示为一系列向量Si，i=1，2，...，C，其中Si=（xi，yi）表示2D移位向量。移位卷积的感受野可以表示为一个并集在相反方向上的每个移位向量：R={−S1}<${−S2}<$··<${−SC}（2）例如，如果xi∈ {−1，0，1}，yi∈ {−1，0，1}，则感受野扩大到3×3。3. 移位图卷积网络基于上述讨论，我们将轻量级移位操作引入到基于GCN的重型动作识别模型中。在本节中，我们提出了移位图卷积网络，它包含空间移位图卷积和时间移位图卷积。3.1. 空间移位图卷积将CNN的移位操作引入GCN具有挑战性，因为图特征不像图像特征映射那样有序。在本小节中，我们首先讨论从CNN到空间GCN的类比。基于这些分析，我们提出了空间骨架图的空间移位图卷积从CNN到GCNCNN中的常规卷积核可以被视为几个逐点卷积核的融合，其中每个核在指定位置上操作，如图所示。2（a）不同的颜色。例如，3×3卷积核是9个逐点卷积核的融合，其中每个逐点卷积核在、类似地，空间GCN中的常规卷积核是3个逐点卷积核的融合，并且每个核在指定的空间分区上操作，如图所示。2、不同的颜色。如在第二节介绍。2.1中，空间分区由3个不同的相邻矩阵指定，它们分别表示“向心”、“根”、“离心”。CNN中的移位卷积包含移位运算和逐点卷积核，其中接收卷积核是186˜n+1个vvv字段由移位操作指定，如图所示。第2段（b）分段。因此，移位图卷积应该包含移位图操作和逐点卷积，如图所示。第2段（d）分段。移位图操作的主要思想是将相邻节点的特征移位到当前卷积节点。具体来说，我们提出了两种移位图卷积：局部移位图卷积和非局部移位图卷积。局部移位图卷积对于局部移位图卷积，用人体的物理结构来指定感受野在该设置中，在身体物理图的相邻节点之间进行移位图操作由于身体关节之间的连接不像CNN特征那样有序，因此不同的节点具有不同数量的邻居。设v表示节点，BV ={B1，B2，· · ·，Bn}表示其邻居图3.空间移位图运算的过程。(a)节点3中的最后四分之一信道在移位操作期间被直接放弃这是因为不同的节点有不同数量的邻居。(2)最近重新-v v v节点，其中n表示的邻居节点的数量v. 我们将节点v的通道平均分为n+1个隔板。我们让第一个分区保持v的特征.其他n个分区从B1，B2，···，Bn搜索表明，仅考虑局部连接对于骨架动作识别不是最佳的[12，20，21，31]。比如，两只手的关系很重要为了识别诸如“鼓掌”和“阅读”的动作v v v分别设F ∈ RN×C表示单帧的特征，F ∈ RN×C表示相应的移位特征。我们在F的每个节点上进行移位运算。F<$v=F（v，：c）<$F（B1，c：2c）<$F（B2，2c：3c）<$··<$F（Bn，nc：）（三）但两只手在身体结构上彼此远离。我们提出了一个简单的解决方案来解决这两个缺点：使每个节点的感受野覆盖整个骨架图。我们称之为非局部移位图运算。非局部移位图操作在图1中示出3（b）款。其中c = C，F的索引采用Python表示法，表示通道级连接。为了说明局部移位图运算的直观性，我们使用7个节点和20个通道的微小图形特征作为实例，如图2所示。第3（a）段。我们使用节点1和节点2作为两个例子。对于节点1，它只有一个邻居节点，因此它的信道被划分为两个分区。第一个分区保留了节点1的特征，而第二个分区从节点2移动。对于另一个示例，节点2具有三个邻居节点，因此其信道被划分为四个分区。第一个分区保留了节点2的特征，而其他三个分区从节点1、节点3、节点4移位。换档操作后的特性如图所示第3（a）段。在移位特征中，每个节点从其感受野获取信息。将局部移位图运算与逐点卷积相结合，得到局部移位图卷积。非局部移位图卷积局部移位图卷积有两个缺点：（1）有些信息没有被利用。对于图中的示例。3给定一个空间骨架特征图F ∈RN×C，第i个通道的移动距离为imodN。移出的通道用于填充相应的空白空间。的节点1和节点2移位操作被示为示例。非局部平移后的特征看起来像一个螺旋，使得每个节点都从所有其他节点获得信息，如图所示。3（b）款。将非局部移位图运算与逐点卷积相结合，得到非局部移位图卷积。在非局部移位图卷积中，不同节点之间的连接强度是相同的。但人类骨骼的重要性是不同的。因此，我们引入了一种自适应非局部移位机制。我们计算移位特征和可学习掩码之间的元素乘积：FM=FMask=F（tanh（M）+1）（4）正则空间图卷积的FLOP为3×（NCC′+N2C′）。移位空间图的FLOPs进化约为NCC′，是NCC ′的3倍以上打火机与仅使用三个相邻矩阵来建模骨架关系的常规图卷积相比，我们的187非局部移位操作可以跨不同通道中的不同骨架对各种关系进行实验在SEC。4.2.1表明，我们的非局部移位GCN比常规GCN实现了更好的性能，即使常规GCN中的相邻矩阵被设置为可学习[21]。3.2. 时间移位图卷积在制定了用于对每个骨架帧进行建模的轻量级空间移位图卷积之后，我们现在设计轻量级时间移位图卷积来对骨架序列进行建模朴素时间移位图卷积图的时间方面通过在时间维度上连接连续帧来构造因此，CNN中的移位运算可以直接扩展到时域[13]。我们将通道平均分为2个u+1分区，每个分区有一个项目，-u，-u+1，···，0，···，u−1，ure-的点移动距离分别为。移出的通道被截断，并且空信道用零填充。在移位操作之后，每个帧从其相邻帧获得信息。通过将这种时间移位操作与时间逐点卷积相结合，我们得到了朴素的时间移位图卷积。通常，基于GCN的动作识别中规则时间卷积的内核大小为9 [9，20，21，34]。与常规时间卷积相比，朴素时间移位图卷积的计算成本低9倍自适应时间移位图卷积虽然朴素时间移位图卷积是轻量级的，但是其超参数u的设置是手动的。这导致两个缺点：（1）最近的研究[11，33，38]表明，在视频分类任务中，不同的层需要不同的时间感受野。对u的所有可能组合的穷举搜索是难以处理的。(2)不同的数据集可能需要不同的时间接收域[11]，这限制了朴素时间移位图卷积的泛化能力。这两个缺点也存在于常规时间卷积中，其内核大小是手动设置的。我们提出了一种自适应时间移位图卷积来解决这两个缺点。给定骨架序列特征F∈RN×T×C，每个通道具有可学习的时间移位参数Si，i=1，2，···，C.我们放松时间转移参数从整数约束到实数。非-可以通过线性插值来计算整数移位：F（ v ， t， i）=（1−λ） ·F（ v ， t+Si， i）+λ·F（ v ，t+Si+1，i）（5）其中λ = S i− <$S i <$。这个操作是可微的，可以通过反向传播进行训练通过将此操作与逐点卷积相结合，我们得到自适应时间移位卷积自适应时间移位操作是轻量级的，具有C额外参数和2个NCT额外FLOP。与逐点卷积相比，该计算量是可忽略的。自适应时间移位图卷积的有效性和效率在第二节中得到了证明。第4.2.2条。3.3. 时空移动GCN为了与最先进的方法进行头对头比较[9，12，20，21，31，34]，我们使用相同的骨干（ST-GCN [34]）来构建我们的时空移位GCN。ST-GCN主干由一个输入块和9个残差块组成，其中每个块包含规则的空间卷积和规则的时间卷积。我们用我们的空间移位操作和空间逐点卷积代替常规空间卷积。我们用我们的时间移位操作和时间逐点卷积代替常规时间卷积。有两种将移位操作与逐点卷积相结合的模式：Shift-Conv和Shift-Conv- Shift，如图所示。4.第一章 Shift-Conv-Shift模式具有更大的感受野，通常可以获得更好的性能，曼斯。我们在消融研究中验证了这一现象图4.结合移位运算和逐点卷积的两种模式.4. 实验在本节中，我们首先进行详尽的消融研究，以验证我们提出的空间移位图操作和时间移位图操作的有效性和效率然后，我们比较我们的时空移位GCN与其他国家的最先进的方法在三个数据集。4.1. 数据集和实验设置。NTU RGB+DNTU RGB+D [19]，包含56，880骨架动作序列，是最广泛使用的数据集用于评估基于机器人的动作识别模型。动作样本由40名志愿者完成，并被分类为60类。每个样本包含一个动作，并保证最多有2个主题，这是由三个微软Kinectv2相机从不同的观点同时捕获。该数据集的作者推荐了两个基准：（1）跨学科（X-sub）工作台-188标记：训练数据来自20个受试者，测试数据来自其他20个受试者。(2)交叉视图（X视图）基准：训练数据来自摄像机视图2和3，测试数据来自摄像机视图1。NTU-120 RGB+D. NTU-120 RGB+D [15]是目前最大的具有用于人类动作识别的3D关节注释的数据集。该数据集包含120个动作类中的114，480个动作样本。样品由106个体积和三个摄像机视图捕获。这个数据集包含32个设置，每个设置表示一个特定的位置和背景.本数据集的作者推荐了两个基准：（1）跨学科（X-sub）基准：一百零六名学员分为训练及测试两组。每组包含53名受试者。(2)交叉设置（X-setup）基准：训练数据来自具有偶数设置ID的样本，并且测试数据来自具有奇数设置ID的样本。西北加州大学洛杉矶分校Northwestern-UCLA数据集[29]由三个Kinect摄像头捕获。它包含1494个视频剪辑，涵盖10个类别。每个动作由10名演员表演。我们采用与[29]相同的评估协议：我们使用前两个相机的样本作为训练数据，另一个相机的样本作为测试数据。实验设置。我们使用具有Nesterov momentum（0.9）的SGD来训练模型140个epoch。学习速率被设置为0.1，并在时期60、80和100处除以10。对于自适应时间移位操作，移位参数以-1和1之间的均匀分布初始化。对于NTU RGB+D和NTU-120 RGB+D，批量大小为 64 ，我们采用 [21] 中的数据预处理。对于Northwestern-UCLA，批量为16，我们采用[22]中的数据预处理。消融研究中的所有实验都使用上述设置，包括我们提出的方法和常规GCN方法。4.2. 消融研究4.2.1空间移位图卷积在本小节中，我们首先展示了空间移位图操作可以显着提高逐点卷积基线的性能。然后，我们证明了空间移位图卷积优于常规空间GCN的计算成本降低了3倍以上。改善空间逐点基线。为了验证空间移位图运算能有效地扩大空间，通过使用简单的逐点卷积替换ST-GCN中的常规空间卷积，我们构建了一个轻量级的空间逐点基线我们的空间移位GCN和这个逐点基线之间的唯一区别是插入了空间移位操作。如表1所示，利用我们的移位图操作，可以显著改善空间逐点基线。具体而言，我们的非局部移位操作可以在NTU RGB+D X视图任务上将基线提高3.6%。模型换档模式前1空间逐点-90.9局部移位Shift+Conv93.5Shift+Conv+Shift93.9Shift+Conv94.0非局部移位Shift+Conv+Shift94.2Shift+Mask+Conv+Shift94.5表1.空间逐点卷积和我们的空间移位图卷积之间的比较。空间移位图卷积的变体。如表1所示，非局部移位图操作比局部移位图操作更有效。这一现象表明，非局部感受野在基于视觉的动作识别中起着重要作用。对于局部移位和非局部移位模型，Shift-Conv-Shift模式优于Shift-Conv模式。这是因为Shift-Conv- Shift模式具有更大的感受野。通过在移位特征上引入可学习掩码，进一步提高了性能。与常规空间GCN的比较。在表2中，我们比较了我们的空间移位GCN与三种常规空间GCN的有效性和效率：a）ST-GCN[34]，其中相邻矩阵被固定为预定义的人类图，b）自适应GCN [21]，其中相邻矩阵是可学习的，c）自适应非局部GCN [21]，其中相邻矩阵由非局部注意力模块预测。表2中的所有模型都使用相同的时间模型，因此我们可以重点评估不同空间模型的有效性和效率。模型空间浮点数（G）前1ST-GCN [34]4.093.4自适应GCN [21]4.093.9[21]第二十一话5.794.2ST-GCN（1 A）1.392.1自适应GCN（1 A）1.392.9本地移位GCN1.193.9非局部移位GCN1.194.5表2.正则空间GCN与我们的空间移位图GCN之间的比较。如表2所示，我们的局部移位GCN优于ST-GCN [34];我们的非局部移位GCN优于所有三种常规GCN。更重要的是，我们的移位图卷积比常规GCN更有效。Com-与ST-GCN [34]和自适应GCN [21]相比，我们的移位GCN为3。6倍更轻。与引入非局部注意模块的自适应非局部GCN [21]相比，我们的移位GCN为5。2倍更轻。在表2中，我们还构建了一个轻量级版本的常规GCN，仅使用一个adja-以“一A”字为后缀的三分矩阵这一现象表明，189空间GCN需要多个相邻矩阵来模拟骨架之间的不同关系，导致计算成本高。我们的非局部移位卷积可以通过轻量级的逐点卷积来建模不同骨架和不同通道之间的各种关系，这是更有效和高效的。4.2.2时间移位图卷积在本小节中，我们将空间模型固定为ST-GCN的常规空间卷积[34]，并评估不同时间模型的有效性和效率。模型换档模式前1时间逐点-79.2正则卷积（kt=3）-93.4正则卷积（kt=5）-93.6正则卷积（kt=7）-93.7正则卷积（kt=9）-93.4正则卷积（kt=11）-93.4u=193.2Shift+Convu=2u=393.293.4朴素移位u=493.493.0u=1Shift+Conv+Shiftu=2u=393.093.6u=493.3自适应调档Shift+Conv94.0Shift+Conv+Shift94.2表3.时间逐点卷积、常规时间卷积、朴素时间移位卷积和自适应时间移位卷积之间的比较。时域移位卷积的计算量比常规时域卷积的计算量小kt×10，其中kt是常规时域卷积的核大小。改进时间逐点基线。通过用时间逐点卷积替换ST-GCN [34]的常规时间卷积，我们构建了时间逐点基线。我们的时间移位图卷积和这个基线之间的唯一区别是插入我们的时间移位操作。如表3所示，使用我们的时间移位图操作，逐点基线可以得到显著改善。具体而言，我们的自适应时间移位操作可以在NTURGB+D X视图任务上将基线提高15.0%。自适应时间移位的优越性。我们com-cumming三种不同的时间模型：a）规则的时间卷积; b）朴素时间移位操作;（c）adap-有效的时间移位操作。规则时间卷积和朴素时间移位操作的感受野都是手工设置的，而我们提出的自适应时间移位操作可以自适应地调整感受野在表3中，我们进行了详尽的搜索，以获得最佳的感受野。规则的时间卷积和朴素的时间移位操作。我们的自适应时间移位操作不需要麻烦的穷举搜索，并优于其他两种方法的最佳结果。适应性时间转移的可视化。我们可视化了分别在NTU RGB+D和Northwestern-UCLA上训练的自适应时间偏移参数。ST-GCN [34]中有10个时间块，每个块都被我们的Shift-Conv-Shift模块替换，因此模型中有20个自适应时间移位操作。我们将学习到的移位参数从底层（输入层）可视化到顶层（输出层）。如图5.顶层的移位参数往往大于底层的移位参数，这意味着顶层需要更大的时间感受野，而底层则倾向于学习空间关系。请注意，在视频分类领域，[33]中进行了详尽的搜索，以找到哪个层应该使用时间卷积，并且他们的结论是在顶层应用时间卷积更有效。我们的自适应时间移位操作学习适当的时间感受野的每一层与启发式设计或手动穷举搜索。自适应时间移位操作的另一个优点是提高了模型在不同数据集上的泛化能力如图5、在NW-UCLA数据集上训练的移位参数往往小于NTU RGB+D数据集。这是合理的，因为NTU RGB+D中的动作样本的平均帧数（71.4帧）大约是NW-UCLA的两倍（39.4帧）。图5.自适应时间偏移的可视化4.2.3时空移动GCN空间移位图卷积和时间移位图卷积都比正则图卷积有效我们进行时空移位图卷积，进一步提高性能和效率。如表4所示，时空移位GCN出-在1处执行ST-GCN [34]7%，6。计算成本降低5倍190空间模型时间模型FLOPs（G）前1常规S-GCN常规T-GCN16.293.4移位S-GCN常规T-GCN13.394.5常规S-GCN移位T-GCN5.494.2移位S-GCN移位T-GCN2.595.1表4.时空转移的有效性和效率图卷积精度在NTU RGB+D X-view任务上4.3. 与最新技术许多最先进的方法利用多流融合策略。为了进行公平的比较，我们采用与[20]相同的多流融合策略，该策略使用4个流。第一个流使用原始骨架坐标作为输入，称为“关节流”，第二个流使用空间坐标的微分作为输入，称为“骨流”;第三和第四流使用时间维度上的差异作为输入，分别称为“关节运动流”和“骨骼运动流”。将多个流的softmax得分相加以获得融合得分。我们的时空偏移GCN（Shift-GCN）有三种设置：1-流，其仅使用联合流; 2-流，其同时使用关节流和骨流;4-stream，使用所有4个stream。为了验证我们的方法的优越性和通用性，移位GCN与三个数据集上的最先进方法一致：NTU RGB+D数据集[19]、Northwestern-UCLA数据集[29]和最近提出的NTU-120 RGB+D数据集[15]，分别见表5、表6和表7。我们展示了在NTURGB+D X-sub任务上实现高于85%的方法的计算复杂度2在NTU RGB+D上，1 s-Shift-GCN实现了比2s-AS-GCN更高的精度[12]，其中10. 计算成本降低8倍; 2s-Shift-GCN与现有技术的方法4s-Directed-GNN [20]相当，具有25。4倍更少的计算成本; 4s-Shift-GCN明显超过了所有最先进的方法12。计算量比4s-Directed-GNN少7倍[20]。在西北-UCLA数据集上，our 2s-Shift-GCN outperforms the current state-of-the-art2s-AGC-LSTM [22] at 0. 9%，33。计算复杂度降低0倍。在NTU-120 RGB+D数据集上，我们显然超过了之前报道的所有性能。5. 结论在这项工作中，我们提出了一种新的移位图卷积网络（Shift-GCN）的基于动作识别，它是由空间移位图卷积和时间移位图卷积。我们的非局部空间移位图卷积明显优于常规图卷积，计算成本少得多（2）计算复杂度在一些文献中没有明确讨论;我们根据他们的描述来估计他们详情见补充材料。表5. NTU RGB+D数据集上Top-1准确度（%）与最新方法的比较。方法Top-1FLOPs（G）李群[26]74.2-[28]第二十八话76.0-HBRNN-L [2]78.5-Ensemble TS-LSTM89.2-2s AGC-LSTM [22]93.3 10.91 s Shift-GCN（我们的）92.50.22s Shift-GCN（我们的）94.20.34s Shift-GCN（我们的）94.60.7表6.与Northwesten-UCLA数据集上最先进方法的准确度（%）比较方法X-sub X设置FLOPs（G）Part-Aware LSTM [19]25.526.3-ST-LSTM [16]55.757.9-多CNN + RotClips [6]62.261.8-SkeMotion [17]67.766.9-TSRJI [1]67.962.8-1 s Shift-GCN（我们的） 80.983.22.52s Shift-GCN（我们的）85.386.65.04s Shift-GCN（我们的）85.987.610.0表7. NTU-120 RGB+D数据集上的Top-1准确度（%）与最新方法的比较。我们的自适应时间移位图卷积可以自适应地调整感受野，并且具有很高的效率。在三个数据集上，基于Shift-GCN的动作识别明显超过了当前的状态，最先进的方法，计算成本降低10倍鸣谢：本工作得到国家电网公司科技项目（ No.5200-方法X视图 X-subFLOPs（G）李群[26]52.850.1-HBRNN [2]64.059.1-Deep-LSTM [19]67.360.7-VA-LSTM [35]87.779.2-TCN [7]83.174.3-CNN [18]87.280.0-3scale ResNet 152 [9]90.984.6-ST-GCN [34]88.381.5-Motif+VTDB [31]90.284.2-2s AS-GCN [12]94.286.827.0[21]第二十一话95.188.535.82s AGC-LSTM [22]95.089.254.4[20]第二十话96.189.9126.81 s Shift-GCN（我们的）95.187.82.52s Shift-GCN（我们的）96.089.75.0191201916261 A-0-0-00）的支持。192引用[1] CarlosCaetano、FrancoisBre´mond和WilliamRobsonSchwartz。基于树结构和参考关节的三维动作识别骨架图像表示 arXiv 预印本 arXiv ：1909.05704，2019。[2] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集，第1110-1118页[3] Basura Fernando，Efstratios Gavves，Jose M Oramas，Amir Ghodrati，and Tinne Tuytelaars.用于动作识别的视频演化建模。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第5378-5387页[4] 全允浩和金俊模。用卷积解构法构造快速网络。神经信息处理系统的进展，第5951-5961页，2018年。[5] Qiuhong Ke ， Mohammed Bennamoun ， Senjian An ，Ferdous Sohel，and Farid Boussaid.一种新的用于三维动作识别的骨架序列表示方法。在IEEE计算机视觉和模式识别会议论文集，第3288-3297页[6] Qiuhong Ke ， Mohammed Bennamoun ， Senjian An ，Ferdous Sohel，and Farid Boussaid.基于骨架的3d动作识别的学习剪辑表示 IEEE Transactions on ImageProcessing，27（6）：2842[7] 金泰秀和奥斯汀·瑞特。用时间卷积网络进行可解释的三维人体活动分析。2017年IEEE计算机视觉和模式识别研讨会（CVPRW），第1623-1631页IEEE，2017年。[8] Inwoong Lee 、 Doyoung Kim 、 Seoungyoon Kang 和Sanghoon Lee。使用时间滑动lstm网络进行基于骨架的动作识别的集成深度学习。在IEEE计算机视觉国际会议论文集，第1012-1020页[9] Bin Li，Xi Li，Zhongfei Zhang，and Fei Wu.时空图路由用于基于信标的动作识别。2019年。[10] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.基于骨架的动作识别与卷积神经网络。2017年IEEE多媒体博览会研讨会国际会议（ICMEW），第597-600页。IEEE，2017年。[11] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.协同时空特征学习在视频动作识别中的应用。在IEEE计算机视觉和模式识别会议论文集，第7872-7881页[12] Maosen Li，Siheng Chen，Xu Chen，Ya Zhang，YafengWang，and Qi Tian.用于基于骨架的动作识别的动作结构图卷积网络在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[13] 纪林、闯乾、宋涵。Tsm：用于高效视频理解的时间移位模块。在IEEE计算机视觉国际会议论文集，第7083-7093页[14] 刘红，涂隽慧，刘梦圆。基于骨架动作识别的双流3d卷积神经网络。 arXiv 预印本 arXiv ： 1705.08106 ，2017。[15] Jun Liu ， Amir Shahroudy ， Mauricio Perez ， GangWang，Ling-Yu Duan，and Alex C.科特NTU RGB+D120 ： 3d 人类活动理解的大规模基准。 CoRR ，abs/1905.04757，2019。[16] Jun Liu，Amir Shahroudy，Dong Xu，and Gang Wang.具有信任门的时空lstm用于三维人体动作识别。欧洲计算机视觉会议，第816-833页。施普林格，2016年。[17] Jun Liu ，Gang Wang，Ping Hu，Ling-Yu Duan，andAlex C Kot.用于3d动作识别的全局上下文感知注意lstm网络。在IEEE计算机视觉和模式识别会议论文集，第1647- 1656页[18] 刘梦媛，刘红，陈晨。增强的骨架-吨可视化视图不变的人类行动识别。Pattern Recognition，68：346[19] Amir Shahroudy，Jun Liu，Tian-Tsong Ng，and GangWang.Ntu rgb+ d：用于3D人类活动分析的大规模数据集在IEEE计算机视觉和模式识别会议论文集，第1010-1019页[20] 石磊，张一凡，程健，卢汉青。基于骨架的有向图神经网络动作识别在IEEE计算机视觉和模式识别会议论文集，第7912-7921页，2019年。[21] 石磊，张一凡，程健，卢汉青。基于骨架动作识别的双流自适应图卷积网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月[22] 司晨阳、陈文涛、王伟、王良、谭铁牛。基于骨架动作识别的注意力增强图卷积在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[23] 司晨阳、雅静、王伟、王良、谭铁牛。具有空间推理和时间堆栈学习的基于骨架的动作识别。在欧洲计算机视觉会议（ECCV）的会议中，第103[24] Sijie Song，Cuiling Lan，Junliang Xing，Wenjun Zeng，and Jiaying Liu.一个端到端的时空注意力模型，用于从骨架数据识别人类动作。2017年第三十一届AAAI人工智能会议[25] Yansong Tang，Yi Tian，Jiwen Lu，Peiyang Li，and JieZhou.基于骨架的动作识别的深度渐进强化学习。在IEEE计算机视觉和模式识别会议论文集，第5323- 5332页[26] Vivek Veeriah，Naifan Zhuang，and Guo-Jun Qi.用于动作识别的差分递归神经网络。在IEEE计算机视觉国际会议的论文集，第4041-4049页[27] RavitejaVemulapalli ， FelipeArrate ， andRamaChellappa. 通过将3D骨架表示为193李群中的点在2

下载后可阅读完整内容，剩余1页未读，立即下载