自适应关节数和模型大小的高效骨架动作识别

178 浏览量更新于2023-10-13 收藏 965KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13413AdaSGN：自适应关节数和模型大小以实现高效的基于骨架的动作识别石磊1，2，3张一凡1，3*程建1，3卢汉清1，31中国科学院自动化研究所NLPR AIRIA2美团3中国北京中国科学院大学人工智能学院shilei53@meituan.com，{yfzhang，jcheng，luhq} @ nlpr.ia.ac.cn摘要现有的基于模型的动作识别方法主要关注于提高识别精度，而很少考虑模型的效率近年来，有一些工作试图通过设计轻量级模块来加快然而，除了模型大小之外，计算所涉及的数据量也是影响运行的重要因素919089888786850 0.1 0.2 0.3 0.4 0.5GFLOPs/A2.55.07.5 10速度，特别是对于其中大部分关节是冗余的或无信息的骨架数据，以识别特定骨架。此外，以往的工作通常采用一个固定大小的模型为所有的样本，而不管识别的难度，这浪费了计算简单的样本。为了解决这些局限性，本文提出了一种新的方法，此外，它还可以自适应地选择最佳的模型大小为每个样本，以实现更好的平衡之间的准确性和效率。我们在三个具有挑战性的数据集上进行了广泛的实验，即NTU-60，NTU-120和SHREC，以验证所提出的方法的优越性，其中AdaSGN实现了相当的，甚至更高的性能与低得多的GFLOPs相比，基线方法。1. 介绍动作识别是一个热门的研究课题，由于其广泛的应用场景，如人机交互和视频监控[2，29，7，25]。最近，与使用RGB序列进行输入的传统方法不同，利用骨骼数据进行动作识别已经引起了越来越多的关注[38，4，27，19]。从生物学上讲，人类能够识别*通讯作者图1.GFLOPs与NTU-60（CS）数据集上的最新方法的准确性即使没有外观信息，也可以通过仅观察关节的运动来确定动作类别[10]。骨架是仅由人体关键关节的2D/3D位置组成的数据模态。与RGB数据相比，它具有数据量小、语义信息层次高、对复杂环境鲁棒性强等优点。在早期阶段，基于骨架的动作识别方法主要集中在设计各种手工制作的特征[33]。随着深度学习的成功，已经提出了各种深度网络用于基于骨架的动作识别[39，14，12，1，38，27]。然而，最先进的深度网络的计算复杂度太重，其中大多数高于15 GFLOP[3]。例如，代表性的基于GCN的工作，即，ST-GCN[38]，一个动作样本的成本为16.2 GFLOPs在实际应用场景中，速度是一个重要因素。因此，如何加快现有方法的速度是一个值得研究的课题。最近，一些工作提出通过设计轻量级模型来加速骨架建模，例如Shift-GCN [3]和SGN [40]。然而，除了模型大小之外，计算所涉及的数据量也是影响运行时间的重要因素，这在以前的工作中很少考虑特别是对准确度（%）[40]第四十话Shift-GCN [3]13414为了识别特定动作，骨架序列中的许多关节实际上是冗余的。例如，为了识别动作“向右滑动”，全局运动信息是关键因素，这意味着中心点的轨迹对于识别是足够有区别的。因此，对于各种样本，不必总是使用所有关节进行计算。此外，对于特定的动作序列，存在多个阶段，例如开始阶段、过程阶段和结束阶段[41]。一些阶段总是无信息的，例如，开始和结束，这不应该与所有的关节详尽地分析此外，识别的难度因不同的动作而异以前的工作employ一个固定大小的模型，所有的样本，这浪费了简单的样本的计算。例如，很明显，区分“行走”与“行走”是不可能的。“说谎”比区分“梳头”与“梳头”更容易。“刷牙”，因此，与其使用相同的模型，不如将大模型应用于硬样本，而将小模型应用于易样本。为了解决这些限制，我们提出了一种新的 ap-proach，称为自适应SGN（AdaSGN），高效的基于骨架的动作识别。SGN [40]已经是用于基于骨架的动作识别的非常轻量级（仅0.7M）的模型与SGN相比，我们的AdaSGN可以进一步减少一半以上的GFLOPs，具有更高的性能。详细地说，AdaSGN学习策略网络来自适应地选择最优联合数目和最优模型大小，以控制准确性和效率之间的权衡。策略网络被设计成一个轻量级模块，并以节点数最少为特征进行计算，几乎不增加计算成本。它根据输入样本输出策略，以动态地决定每个骨架应使用由于决策是离散分布的，并且决策过程是不可微的，因此我们采用直通（ST）Gumbel估计器[9]来反向传播梯度。因此，所提出的方法是完全可区分的框架，并且可以以端到端的方式进行训练训练损失是效率损失和准确性损失的组合，其中可以调整这两项的比例以控制准确性-效率权衡。为了验证所提出的方法的优越性，进行了广泛的实验上的三个流行的数据集，即，NTU-60，NTU-120和SHREC，其中我们的方法实现了相当的，甚至更高的性能与低得多的GFLOPs。例如，我们在CS/CV基准测试中仅使用 39.6%/31.3% 的 GFLOP 就实现了+0.5%/+0.4%的准确度改进。NTU-60数据集的基准。我们的贡献可以总结如下：（1）我们提出了一种新的方法，可以自适应地选择最佳的关节数和最佳的模型大小，以有效的骨骼建模。(2)我们设计了一个轻量级的策略网络，并使用ST Gumbel估计器对其进行训练，以使其高效。(3)我们在三个基准数据集上进行了广泛的实验，以证明我们的方法优于最先进的方法。代码已发布1。2. 相关工作2.1. 基于骨架的动作识别基于骨骼的动作识别的早期方法侧重于设计各种手工制作的功能[33]。随着深度学习在计算机视觉领域的成功，数据驱动的方法已经成为主流，大致可以分为三种：基于RNN的方法[39，14，31，30]，基于CNN的方法[ 39，14，31，30 ]，基于神经网络的方法[39，14，31，30 ]。ods [12，18，1]和基于GCN的方法[38，32，27，26]。最近，基于GCN的方法已经显示出显着的性能提升相比，其他方法，表明语义人体骨架的动作识别的必要性。ST-GCN [38]是第一个使用GCN进行基于手势的动作识别的工作，它根据预定义的人体图聚合之后，Shiet al.[27]提出一种自适应图卷积网络，以利用自注意机制来适应图构建过程。他们还引入了双流框架来使用关节信息和骨骼信息。 Peng等人[22]转向神经架构搜索（NAS），以自动设计用于基于骨架的动作识别的GCN。 Liu等人。[19]解开了不同邻域中节点的重要性，以实现有效的远程建模。它们还利用相邻帧的特征来捕获复杂的时空依赖性。然而，这些工作没有考虑实际应用的重要因素，即，模型的速度。相比之下，我们的方法同时考虑了准确性和效率，可以自适应地调整他们的权衡需求。2.2. 高效的基于骨架的动作识别最近，有一些作品试图设计基于骨架的动作识别的有效模型[3，40]。Cheng等人[3]（ShiftGCN）引入了两种空间移位图操作来代替繁重的正则图卷积，效率更高，性能更强。他们还提出了两种时间移位图操作，以用更少的时间来NTU-60数据集与基线方法比较。图-图1示出了GFLOPs与CS上的精度图1https://github.com/lshiwjx/AdaSGN13415t=0联系我们X×∈∈计算复杂度Zhang等人[40]（SGN）提出明确地利用高级信息，即，关节类型和帧索引，以增强特征代表性。图卷积运算可以被公式化为Yt=AtXtW（1）怨恨能力因此，他们可以使用更小的模型其中A∈RN ×N是归一化邻接矩阵，以实现与前相比相当的性能VIOUS作品这些方法主要集中在设计不其表示图形拓扑。 W ∈ RCin×Coutde-轻型模块。相比之下，我们提出的方法不仅减少了模型的参数，而且减少了正在处理的数据量，这是比以前的作品更2.3. 基于RGB的高效动作识别对于有效的基于RGB的动作识别，主要存在两种方法流。一个流是设计轻量或轻型GFLOPs模块[23，37，15，6]。例如，用2+1D卷积运算[23]代替3D卷积，或者用时间移位运算[15]代替时间另一个流是基于关键帧的方法，其选择少量的帧而不是所有序列进行识别，以降低整体计算成本[42，36，11，35，20]。例如，Wu等人[36]建议基于当前帧自适应地决定他们使用递归模型的策略网络，并使用再增强学习方法来训练它。Wu等人。[34]提出了一个多智能体强化学习框架，其中每个智能体根据策略网络发出的移动指令对一个帧进行采样。Korbar等人[11]引入轻量级“剪辑采样”模型来识别长视频的最显著的时间剪辑。Meng等人。[20]提出自适应地选择具有最佳分辨率的帧。他们还使用策略网络的递归模型，但使用Gumbel-Softmax技巧[9]对其进行训练，其方差较虽然我们的方法的灵感来自基于关键帧的方法，它是专门为骨骼数据，它可以自适应地选择不仅是关键的骨架（帧），但也为每个人体骨骼的最佳模型大小和最佳关节数。3. 方法3.1. 预赛符号。骨架格式的人类动作表示为骨架序列，其表示为=XtT−1。XtRN ×C是在时间t时N个人体关键关节的2D/3D坐标。T是序列的长度。C表示坐标尺寸。如果有多个人，则分别处理他们，并对分类得分进行平均[38，27]。GCN. 图卷积网络（GCN）已广泛用于基于骨架的动作识别[38，26]。注意卷积权重。XtRN ×Cin和YtRN×Cout表示输入和输出。一个GCN层由一个图卷积操作、一个BN操作[8]和一个ReLu激活函数[21]组成。可以堆叠多个GCN层以使得能够在具有相同邻接矩阵的节点之间进一步传递为了使图拓扑更灵活，可以自适应地学习At以形成自适应GCN层[26]，如下所示：At=SoftMax（θ（Xt）<$（Xt）T）（2）其中θ和表示两个线性变换函数，例如，两个1-D卷积层，其内核大小为1。SGN 语义引导神经网络（SGN）[40]是一种轻量级的基于GCN的模型，用于有效的基于骨架的动作识别，它被用作本文的基线方法。如图2（左）所示，SGN由多个空间模块（SM）和一个时间模块（TM）组成。SM（蓝色块）由三个堆叠的自适应GCN层组成，具有上一节中引入的相同相邻矩阵，然后是空间最大池化层，用于将联合特征聚合到一个特征向量中。所有SM的参数是共享的。它们被设计用于开发关节的帧内相关性。TM（绿色块）被设计用于利用跨帧的相关性。它首先将SM的输出特征连接成一个T C矩阵。然后，附加两个时间卷积层（沿着时间维度的卷积）以对时间依赖性进行建模。在TM之后，特征图被全局平均并被馈送到用于分类的全连接层中。与我们的工作无关的更多细节，如语义嵌入，可以参考原始论文[40]。3.2. AdaSGN管道概述。给定一个骨架序列，我们的目标是为每个骨架选择最佳的关节数和最佳的网络大小，以有效地提取特征和预测动作。在这项工作中，我们使用SGN[40]作为基线模型，因为它已经非常有效，可以更好地展示所提出方法的有效性。对于SGN，大部分的计算成本来自SM，所以我们修改SM的大小来控制整个模型的计算图2（右）示出了被称为自适应SGN（AdaSGN）的所提出的方法的概述。首先13416i=0时--i=0时--X{∈}不×……��0×��11 ×��3��0×��1��0×��11 ×��3TM……1 ×��3……��0×��1��L −��L−��…��−�� −��…��−��…��L−1×��…1 ×��2政策网络= 1= 0……= 1��1 ×��1 ��= 01 ×��3TM��0×��11 ×��31 ×��3自拍(a) SGN自拍(b) AdaSGN图2. SGN和建议的AdaSGN的管道。SM和TM表示SGN的空间模块和时间模块。C表示信道号。对于AdaSGN，我们假设有K个关节数的选择和L个SM大小的选择。首先，通过变换矩阵ML-1将原始输入骨架聚合成具有最小关节数（NL-1）的骨架，其被馈送到最小SM（即，SMK-1）来提取策略特征。这些策略特征被馈送到策略网络（橙色框）中以输出动作（num和mod）来决定每个骨架的最佳关节数量和SM大小。然后，每个骨架被转换成具有最佳关节数的骨架，并与最佳尺寸SM建模，以提取分类特征。最后，所有骨架的分类特征被送入时间网络和分类器，以预测最终的动作标签。原始输入骨架被转换成最小关节数格式，其被馈送到最小SM中以提取策略特征。这些策略特征被馈送到一个轻量级的策略网络中，以输出动作来决定后续步骤中每个骨架的最佳关节数量和最佳SM大小。请注意，此步骤将带来几乎K个不同大小的SM，按降序排列，记为SM iK−1。SM0是SGN中的原始SM。为了将具有N0个关节的原始骨架转换为具有Ni个关节的骨架，我们设计了一系列转换矩阵{Mi∈RNi×N0}为与后者相比没有额外的计算成本XNi=MiXN0（三）t t由于模块重量轻，接头少number.然后，根据策略网络的决策，将每个骨架转换为具有最优关节数的骨架，并使用最优尺寸的SM建模，提取分类特征。最后，将所有骨架的分类特征馈送到时间网络中以聚合时间相关性，其输出由分类器用于预测最终动作标签。骨骼变形。骨架序列表示为 =XtRN ×C ，其中每个帧由N个关节组成。AdaSGN自适应地选择不同的联合数和模型大小来实现效率。对于不同的关节数，我们定义一个降序的关节数序列为NiL−1。N0=N是接头的最大数量。针对不同的型号尺寸，我们设计其中XNi表示具有Ni个关节的骨架Xt这些变换矩阵的设计原理是将语义相邻的关节（例如，手和手腕）并平均它们的坐标。然而，很难确保手工制作的转换矩阵的最优性。因此，我们建议将这些转换矩阵设置为模型参数，并让模型自适应地学习它们。为了在开始阶段稳定训练，我们手动初始化这些矩阵，并在前几个训练阶段固定它们政策网络。通过不同的模型和不同的关节数的组合，每个骨骼有不同GFLOP的总共KL选择，这制定了我们的动作空间。我们首先使用最小数量的关节，即，NL−1，以及最小的SM，即SMK−1，13417∼- -LLDF进线列车X∇∇不不不t=0j=0t，j不不（X，y）不不EFFT−1提取每个骨架的策略特征Fpol=SMK−1（ML−1XN0）（4）减少计算成本（如图2中的红色分叉）。分类特征被输入TM，分类器G得到最终输出为所有帧的策略特征被级联为T×CY =SoftMax（g（TM（{Fcls}T−1）（9）矩阵，其被馈送到策略网络f中以输出动作概率P∈RT ×（KL）为P=SoftMax（f（Concat（{Fpol}T−1）（5）在这里，我们尝试了不同的 f模块，例如LSTM，Transformer和时间卷积。使用时间卷积（沿时间维度的卷积）t t=0其中g由一个全局最大池化层和一个全连接层组成。3.3. 损失函数总损失函数由两项组成：一项是准确性损失（Lacc），另一项是效率损失（Leff），如下所示：因为它的表现最好给定概率，我们可以得到离散的动作L=L ACC+αL EFF（十）a到arg max。然而，直接执行arg max是不可微的。在这里，我们使用直通（ST）Gumbel估计器[9]来解决这个问题。具体地说，在前向过程中，我们使用Gumbel-Max根据动作概率对at= arg max（logPt，i+Gt，i）（6）我其中Gt，i=log（logUt，i）是标准Gumbel分布。Ut，i是从均匀i.i.d 分布采样的，即，Ut ， iUniform （0，1）。因为arg_max是不可微的，所以为了将梯度反向传播到策略网络，连续的Gumbel-SoftMax被用于在反向传播过程中松弛Gumbel-Max，如exp（l〇gPt，i+Gt，i）/τ其中α用于控制准确度和效率之间的权衡。L_acc是标准交叉熵损失，如L=E（X，y）D（−ylog（F（X; θ）（11）其中（，y）是训练骨架序列和关联的独热动作标签。表示模型，并且Θ表示模型参数。train表示训练数据。ACC只影响模型的分类质量eff控制模型的计算成本。由于我们根据策略网络的选择使用不同大小的网络和不同数量的节点，我们计算了所有这些选择的GFLOPs，并使用平均GFLOPs作为损失项，以鼓励更少的计算a~t= ΣKLexp（logP+G）/τ（七）行动通过表示a=one hot（a）作为one-hot动作vec-tor，我们治疗，即，1ΣL=EDtrain（GFLOPSF（a））（12）a~t作为at的连续近似θa~t≈θa=0。 τ是温度参数r。F或较小的温度下，Gumbel-SoftMax的样品接近到一热，即，它与Gumbel-Max更相似，但梯度的方差很大。在大的温度下，Gumbel-SoftMax算法得到的样本梯度方差较小，但在正演过程中比Gumbel-Max算法更平滑，更有偏差。在实践中，为了平衡方差和偏差之间的权衡，我们将τ初始化为一个高值，并在训练过程中逐渐将其退火到一个小值，如[9]所示。分类在获得每个骨架的动作at之后，我们将其拆分为模型动作amod和关节t=0其中GFLOPsF是所有操作选项的预构建GFLOPs查找表。4. 实验4.1. 数据集我们对NTU-60 [24]、NTU-120 [17]和SHREC [5]进行了广泛的实验。 NTU-60推荐两个基准：交叉主题（CS）和交叉视图（CV）。NTU-120推荐两个基准：交叉学科（CS）和交叉设置（CE）。SHREC推荐两个基准：14个手势（14G）和28个手势（28G）。去-number行动num不modnum这些数据集的尾部在补充材料中提供t，j13418×不不不at，其中at= atL + at。然后我们通过以下方式计算每个骨架的分类特征材料。CLSN04.2。实施细节Ft=SMamod（ManumXt）（8）如果一个numtt=L−1和amod=K−1，我们直接使用由于篇幅所限，完整的培训计划及架构细节载于该策略的特征在于F_pol，而不是再次计算它来补充材料。我们选择三个（L= 3）关节数13419×联系我们--（Ni=1、9、25对于NTU-60/120和Ni=一、十一、二十二对于SHREC）和两种（K=2）模型尺寸（SM 0和SM1）。因此，总共有六个选择，即，的t=0、1、2、3、4、5，用于策略网络。在训练时，我们首先预训练具有不同数量关节的单个模型我们在表1中显示了NTU-60上六种选择的GFLOP和准确度。* 表示将如等式（1）中引入的变换矩阵相加。3 .第三章。与原始SGN相比，自适应学习变换矩阵（SGN*）在CS和CV基准上带来一致的改进这意味着最好适当地调整原始输入骨架。此外，使用较少的关节（9或1）降低了模型的GFLOPs，但也导致精度下降表 1.NTU-60 上不同关节数的单个模型的识别准确率和GFLOPS* 表示将关节的数量自适应地变换为目标数量。方法接头数量CS（%）CV（%）GFLOPS同步电机12587.192.90.078SM1 *2587.993.30.078SM1 *986.792.30.033SM1 *163.674.10.009SM02588.494.10.160SM0 *2588.994.50.160SM0 *987.292.90.062SM0 *164.974.70.013在预训练单个模型之后，我们首先加载用于AdaSGN的这些单个模型的变换矩阵和SM的预训练参数然后，使用与单个模型相同的训练方案对其进行训练。对于策略网络，Gumbel-SoftMax的τ被初始化为5并且线性减小（0. 096.每一个时代在前5个时期内，α从0逐渐增加到目标值。这是因为我们希望模型能够在开始训练阶段更加关注准确性。表2显示了NTU-60数据集上预训练的重要性。当不使用预训练模型时，我们设置α=4（即，“w/o预训练”）。为了保持相同的GFLOPS进行公平比较，当使用预训练模型时，我们设置α=4和α=1（即，“w/ pretrain”）分别用于CS基准和 CV 基准。它表明使用预训练模型可以在相同GFLOPs的情况下带来超过2%4.3. ACC（%）和效率之间的权衡通过调整α，我们可以控制精度和效率之间的权衡我们在表3中显示了不同α的准确度、GFLOPS和动作选择百分比。B和S分别表示使用大SM（SM0）和小SM（SM1）。随着α的增加，GFLOPS表2. 在NTU-60上，采用不同的训练方案对Ada-Ske的识别率（ % ）和 GFLOPS 进行了测试。 “w/o” and “w/” denote“without” andCS CV战略ACC（%） GFLOPS ACC（%）GFLOPS无预训练87.0 0.07 92.2零点一带预训练89.1 0.07零点一降低，并且准确度首先增加然后降低。这是因为骨架数据中的大部分关节都是冗余的，适当减少关节点可以降低噪声，使模型更加关注重要特征。当α=0时，只有精度损失起作用，因此AdaSGN仅使用最大的模型（SM0）和所有关节（25）。当增大α时，针对不同的样本和帧选择不同的关节数和不同的模型，以平衡精度和效率。对于CS benchmark，当α=4时，算法在精度和效率之间取得了较好的平衡。达到0。3%的精度提高，只有43。8%GFLOPS，与α=0相比。对于CV基准，当设置α=0时。5，则获得0。2%的精度提高，仅62。与α=0相比，GFLOPS为5%。此外，我们测试了另外两个策略，即，“rand”和“fuse”。“rand”表示随机选择动作，其中每个动作选择的概率为16.7%。它以中等GFLOPs实现最低性能与α=4设置相比，它需要几乎相同的GFLOPs(0.06 vs. 0.07），但它达到的精度要（85。6%对89。CS和91. 2%vs. 94. 6%（CV）。“fuse” denotes directly fusing the scores of all the其中每个动作选择的概率是100%。它需要更多的GFLOPs，因为它计算所有的模型。与α=4相比，它只带来0。2%/0。3%的CS/CV基准改进，但它需要4. 6倍GFLOPs。这两个比较证实了针对不同样本和帧自适应地选择合适动作的必要性。为了更好地可视化，我们在图3中绘制了NTU-60的准确性-效率权衡。使用该曲线，我们可以根据需求更好地设置好的α。我们还绘制了补充材料中NTU-120和SHREC的类似曲线，其显示了一致的结果。4.4. 与SOTA的我们将所提出的AdaSGN与NTU-60/120和SHREC数据集上的其他现有技术方法进行比较，如表4和表6所示。原始SGN随机选择5个序列并平均得分以获得预测。它被表示为“SGN”。我们使用一个序列来实现它以进行公平比较，并将其表示为13420表3. 使用不同权重（α）对NTU-60进行有效损失的Ada-Ske动作的识别准确率（%）、GFLOPS和百分比（%）。“S”和“B”分别表示S-SGCN和SM 0。1、9和25是关节数。“rand” denotes randomlyCS CVα作用（%）作用（%）CV CS第96959493929100.029089888786850.040.060.08 0.10 0.12 0.14 0.16 0.18GFLOPs/A同样的方式。NTU-60的结果示于表4中。第一组方法，即，ST-GCN [38]、ASGCN [13]等，只考虑性能;因此它们使用大量的计算预算。第二组方法，即，ShiftGCN [3]和SGN [40]是为两种情况设计的图3. GFLOPs与NTU-60数据集上AdaSGN的准确性。表4.与NTU-60的最新技术水平进行比较方法CSCVACC（%）GFLOPSACC（%）GFLOPSST-GCN [38]81.516.388.316.3AGCN [27]88.535.895.135.8MS-G3D [19]91.548.896.248.8[28]第二十八话91.555.696.455.6ShiftGCN [3]90.710.096.510.0SGN [40]89.00.8094.50.801s-SGN [40]88.40.1694.10.161s-AdaSGN89.10.0794.60.073s-SGN [40]90.00.4894.90.483s-AdaSGN90.50.1995.30.15“1s-SGN”。由于详细地说，我们分别使用“关节”、“骨骼”和“速度”训练三个模型，准确性和效率。他们实现略低的准确性，但更快的速度。我们的方法（AdaSGN）是基于SGN的。与1s-SGN相比，1 s-AdaSGN（α=4）具有更高的精度（ +0. 7%/+0 。在 CS/CV 基准测试中， GFLOPS（43.8%/43.8%）的一半以下。类似地，3s-AdaSGN也带来+0。5%/+0的情况。4%的改进，GFLOPS减少了近三分之一(39.6%/31.3%）。较DSTA-Net [28]实现了最高的准确度，我们的方法速度快200倍，准确度仅下降1%。我们还绘制了图1的散点图，直观地显示了我们的方法的优越性。我们还将我们的方法与NTU-120上的最新技术进行了比较，NTU-120与NTU-60和SHREC相比更大，更具挑战性，SHREC用于基于骨架的手势识别。如表5和表6所示，这两个数据集显示出与NTU-60一致的结果，这进一步验证了我们的方法的有效性和普遍性。4.5. 定性结果图4显示了NTU-60数据集的一些定性示例我们从每个骨架序列中均匀地抽取5个骨架，并将它们显示在三维坐标系中.注意，人体关节的坐标通过自适应学习变换ma变换。CSCV准确度（%）ACC（%）GFLOPsS-1 B-1S-9B-9B-25ACC（%）GFLOPsS-1 B-1S-9B-9B-250.088.80.160.01 0.01 0.000.010.01 99.9694.60.160.01 0.01 0.01 0.010.01 99.950.188.90.120.08 0.05 33.96 0.060.12 65.7294.70.160.02 0.01 0.01 0.010.01 99.940.588.90.1024.55 0.12 16.28 0.090.07 58.9094.80.1040.68 0.01 0.01 0.010.01 59.291.088.90.1041.04 0.01 0.010.010.01 58.9194.70.1042.75 0.03 0.68 0.030.02 56.492.089.00.0944.70 0.02 0.020.020.02 55.2394.70.0944.18 0.05 0.01 7.770.00 47.984.089.10.0748.36 0.01 0.01 16.47 0.01 35.1494.60.0752.98 4.07 0.03 0.020.02 42.898.087.20.0452.76 0.01 0.01 47.21 0.010.0093.00.0548.16 1.17 0.02 50.65 0.000.0110.086.90.0356.73 0.01 0.01 43.25 0.010.0092.80.0452.09 1.40 0.01 46.49 0.010.0020.085.90.0273.27 0.03 0.00 26.68 0.000.0091.60.0377.40 3.41 0.00 14.45 0.004.74兰德85.60.0616.7 16.7 16.716.716.716.791.20.0616.7 16.7 16.7 16.716.716.7保险丝89.30.32100100 10010010010094.90.32100100 100 100 10010013421帧1帧5帧10帧15帧20(a) 下降(b) 梳头图4. NTU-60的定性示例。每个样本有20帧，我们平均显示其中5帧。将无信息骨架转换为具有较少点的骨架，而其他信息骨架保持原始点编号。表5.与NTU-120的最新技术水平进行比较方法表6.与SHREC的最新技术进行比较14G28G方法ACC（%）GFLOPSACC（%）GFLOPSST-GCN [38]92.77.287.77.2HPEV [16]94.91.4692.31.46[28]第二十八话97.014.493.914.41s-SGN [40]94.80.1592.30.151s-AdaSGN94.90.0592.30.053s-SGN [40]96.30.4593.80.453s-AdaSGN96.30.2194.00.23特里克斯它们与摄影机坐标系中的原始关节略有不同。它显示了策略网络针对不同的样本和不同的骨架选择不同数量的关节。例如，NTU中骨架序列的第一骨架是总是动作独立的准备阶段;因此策略网络跳过这些骨架。对于动作因此，策略网络将关节的一部分（9关节）用于以后的骨架。但是对于动作因此，策略网络为以后的骨架保持原始的关节数补充材料中提供了更多定性结果。5. 结论在本文中，我们提出了一种新的方法，称为AdaSGN，有效的基于骨架的动作识别。它可以自适应地选择最佳的关节数和最佳的模型大小为每个骨架之间的平衡精度和效率。为了验证所提出的方法的优越性，在三个具有挑战性的数据集上进行了大量的实验，其中我们的方法在准确性和GFLOPs的显著节省方面实现了一致的改进。未来的工作可以探索如何自适应地选择特定的关节，而不是关节的数量，这应该是更灵活的各种样品。另外，如何实现模型尺寸和关节数的无级调节，避免人工设置候选人，也是值得探讨的问题。致谢这项工作得到了战略优先级的部分支持-中国科学院城市研究计划（XDA 27040300）、国家自然科学基金 61876182 、江苏省前沿技术基础研究项目 BK20192004、中国科学院重点项目（ZDRW-XH-2021-3）、国家自然科学基金61906195。CSCEACC（%）GFLOPSACC（%）GFLOPSAGCN [27]82.935.884.935.8MS-G3D [19]86.948.888.448.8[28]第二十八话86.655.689.055.6ShiftGCN [3]85.910.087.610.0SGN [40]79.20.8081.50.801s-SGN [40]82.10.1682.20.161s-AdaSGN83.30.0883.60.083s-SGN [40]85.50.4886.30.483s-AdaSGN85.90.2186.80.2613422引用[1] C.曹氏C.兰岛，澳-地Zhang，W. Zeng，H. Lu和Y.张某基于骨架的动作识别与门控卷积神经网络。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，第3247一、二[2] Joao Carreira和Andrew Zisserman。什么是行动识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议中，第6299-6308页1[3] Ke Cheng，Yifan Zhang，Xiangyu He，Weihan Chen，Jian Cheng，and Hanqing Lu.用移位图卷积网络实现基于以太网的动作建模。第183- 192页一、二、七、八[4] Sangwoo Cho，Muhammad Hasan Maqbool，Fei Liu，and Hassan Foroosh.自注意力网络用于基于神经网络的人体动作识别。在2020年IEEE Winter Conference onApplications of Computer Vision（WACV），第624-633页，美国科罗拉多州斯诺马斯村，3月20日。2020.美国电气与电子工程师协会。1[5] Quentin De Smedt 、 Hazem Wannous 、 Jean-PhilippeVandeborre 、 Joris Guerry 、 Bertrand Le Saux 和 DavidFilliat。SHREC'17赛道：使用深度和骨骼数据集的3D手势识别。在重症Pratikakis，F. Dupont和M. Ovsjanikov ，编辑， Eurographics Workshop on 3DOb-ject Retrieval，第1-6页，2017。5[6] 克里斯托夫·费希滕霍夫。X3D：扩展架构以实现高效的视频识别。第203-213页，2020。3[7] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在IEEE计算机视觉国际会议论文集，第6202-6211页，2019年。1[8] Sergey Ioffe和Christian Szegedy。批次归一化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（ICML），第448-456页，2015年。3[9] Eric Jang ，Shixiang Gu ， and Ben Poole. 使用 Gumbel-Softmax进行分类复测。arXiv：1611.01144 [cs，stat]，2017年8月。arXiv：1611.01144。二三五[10] 贡纳·约翰森生物运动的视觉感知及其分析模型。感知心理物理学，1973年。1[11] Bruno Korbar，Du Tran，and Lorenzo Torresani. SCSam-pler ： Sampling Salient Clips From Video for EfficientAction Recognition.第6232-6242页，2019年。3[12] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.基于卷积神经网络的动作识别在IEEE多媒体博览会研讨会国际会议中，第597-600页一、二[13] Maosen Li，Siheng Chen，Xu Chen，Ya Zhang，YafengWang，and Qi Tian.基于骨架的动作识别的动作结构图第3595-3603页，2019年。7[14] Shuai Li ， Wanqing Li ， Chris Cook ， Ce Zhu ， andYanbo Gao.独立递归神经网络（indrnn）：构建更长更深的RNN。在IEEE Conference on Com-计算机视觉和模式识别（CVPR），第5457- 5466页，2018年。一、二[15] 纪林、闯乾、宋涵。TSM：Tem-用于高效视频理解的poral移位模块。arXiv：1811.08383 [cs]，2019年8月。arXiv：1811.08383。3[16] Jianbo Liu ， Yongcheng Liu ， Ying Wang ， VeroniquePrinet，Shiming Xiang，and Chunhong Pan.用于基于骨架的手势识别的解耦表示学习第5751-5760页，2020年。8[17] Jun Liu ， Amir Shahroudy ， Mauricio Perez ， GangWang，Ling-Yu Duan，and Alex C.科特NTU RGB+D120 ： 3D 人类活动理解的大规模基准。 IEEETransactionsonPatternAnalysisandMachineIntelligence，第1-1页，2019年。5[18] 刘梦媛，刘红，陈晨。增强的骨架-吨可视化

下载后可阅读完整内容，剩余1页未读，立即下载