多尺度残差图卷积网络（MSR-GCN）用于人体运动预测

91 浏览量更新于2023-10-15 收藏 1.42MB PDF 举报

华南理工大学

中山大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11467MSR-GCN：用于人体运动预测的华南理工大学计算机科学与工程学院2美国JD Finance America Corporation3中山大学计算机科学与工程学院摘要人体运动预测是一个具有挑战性的任务，由于未来的姿态的随机性和非周期性。最近，图卷积网络已被证明是非常有效的学习姿态关节之间的动态关系，这是有助于姿态预测。另一方面，可以递归地抽象人类姿势以获得多个尺度下的姿势集合随着抽象层次的增加，姿态的运动变得更加稳定，这也有利于姿态预测在本文中，我们提出了一种新的多尺度残差图卷积网络（MSR-GCN）的人体姿势预测任务的端到端的方式GCN用于从细到粗尺度提取特征，然后从粗到细尺度。然后将每个尺度下提取的对所有预测的姿势施加中间监督，这迫使网络学习更多的代表性特征。我们提出的方法在两个标准的基准数据集上进行了评估，即Human3.6M数据集和CMU Mocap数据集。实验结果表明，我们的方法优于国家的最先进的approaches。代码和预训练模型可在https://github.com/Droliven/MSRGCN上获得。1. 介绍人体运动预测在人机交互、自动驾驶、视频补全等诸多领域中起着至关重要的作用。简单的周期性运动模式可以通过传统的方法来处理，如隐马尔可夫模型[3]，线性动力系统[36]，限制玻尔兹曼机[43]，高斯过程潜在*通讯作者：nieyongwei@scut.edu.cn图1.通过将紧密接近的关节分组在一起并且用单个关节替换该组，可以逐步抽象人类姿势以获得从精细到粗略尺度的一系列姿势变量模型[45]和随机森林[24]，而更复杂的运动对于这些方法来说是难以处理的。最新的然而，考虑到人体运动的随机性和周期性，在给定任意姿态的情况下，如何准确地预测人体未来的长期运动仍然是一个具有挑战性的任务。主要的困难是如何建立人体姿态的时空依赖关系模型。卷积神经网络（CNN）[49，28]，递归神经网络（RNN） [934，41，42，37，11，5，2]，和生成对抗网-GANs（GANs）[53，10，21，12，6，44，23]，已经被用于解决具有挑战性的任务。然而，他们忽略了身体关节之间的内部框架运动学依赖性。虽然它们在某些情况下取得了成功，但预测精度取决于卷积滤波器的大小和逐帧预测的稳定性。如今，图卷积网络（GCN）已广泛用于各个领域以及人体运动预测任务[33，27，7，25，29，52，39]，其对于非网格图结构数据特别是基于骨架的3D人体姿势序列非常有效最近，Maoet al.[33]联合建模空间结构11468通过离散余弦变换（DCT），GCN具有可学习的连接性和时间信息，以预测人体运动。Li等[27]提出了一种在编码器-解码器框架内的动态多尺度图神经网络虽然这两项工作在基准数据集上表现出有希望的结果，但仍有空间要探索更高质量的人体运动预测。在本文中，我们提出了一种多尺度残差图卷积网络（MSR-GCN），如图3所示，用于3D人体运动预测。通过将人类姿势视为其顶点是姿势关节的全连接图，我们采用图卷积网络来动态地学习所有关节对之间的关系，而不管它们之间的物理距离如何。但是GCN单独不能捕获人类姿势的层次结构[33]。也就是说，如图1所示，可以通过将非常接近的关节分组在一起并仅通过一个关节表示该组来提取人类姿势，从而产生较粗糙的姿势。由于一组关节通常来自相同的身体部位，因此以这种方式逐渐提取身体部位可以显著地稳定身体的运动模式。我们发现，在粗糙水平的运动是更稳定的姿态预测是更容易的。首先在最粗的层次上预测姿态，然后逐渐向更细的层次上预测，这是有希望的。基于上述分析，我们通过设计具有多尺度架构的多个GCN来补偿GCN具有建模人类姿势的层次和上下文信息的能力。一组GCN形成下行路径以从精细到粗略尺度提取特征，随后是另一组GCN，其沿着上行路径反向地提取多尺度特征。基于这些特征，我们预测在所有尺度下的姿势，并对更具代表性的特征施加中间监督。我们还添加了输入和输出姿势之间的残差连接，如[33]所建议的，使整个框架直接学习残差而不是目标姿势。注意Liet al.[27]也观察到了人类姿态的这种自然相比之下，我们的方法中的编码器和解码器以配备有中间损耗的类似U-网的多尺度方式组织，与[27]中的多尺度策略不同。简而言之，我们的主要技术贡献如下：• 我们提出了一种新的多尺度残差图卷积网络的人体姿势预测在端到端的方式，它由多个GCN组织在一个多尺度架构。• 设计良好的升降GCN块可以以精细到粗略和粗略到精细的方式提取特征。• 在每个尺度上施加的中间监督强制学习更多的代表性特征，有利于高质量的未来预测。2. 相关工作人体运动预测已经提出了许多基于深度学习的方法来处理人体运动预测。现有的基于CNN的作品如[49，28]将姿态序列视为二维矩阵，其中一个轴是空间轴，另一个轴指示时间轴，然后时空卷积滤波器可以用于姿态数据，就像对图像所做的那样。然而，姿态数据本质上与图像非常不同，缺少对相同滤波器给出高响应的重复元素，因此降低了卷积的有效性。虽然基于RNN的方法如[9，34，41，42，37，11，5，2]在处理与时间相关的任务方面具有优势，但由于逐帧预测方式，经常发生不连续性和误差累积问题此外，RNN模型的训练很容易崩溃，梯度爆炸或消失。更重要的生成式对抗网络[53，10，21，12，6，44，23]被认为是生成其模式与训练数据相似的现实数据。然而，他们是脆弱的，需要熟练的训练。像[4，1]这样的基于变换器的网络被认为能够直接捕获长距离时间依赖性，但通常具有相当高的计算成本。图卷积网络（GCN）适用于具有非网格和图结构数据的任务，例如生物基因、点云、人类社会网络[48]以及针对人类骨骼的图形结构性质的人类运动预测。它们已经成功地应用于许多应用，如视觉识别[16，13，15，14，16]。30，32，31，17]，对象检测[46，19]，动作定位-运动[50，20]、轨迹预测[38]和图像字幕[8]。特别是，由于图形卷积更倾向于捕捉空间信息，Siet al.[40]将其与LSTM相结合，以增强其建模人类骨骼关节之间的时间依赖关系的能力。[33，26，7]的工作允许图卷积网络学习任何一对人体关节之间的关系。Mao等人[33]设计一个完全连接的GCN，以自适应地学习运动预测任务所必需的连接性，并应用离散余弦变换（DCT）来处理时间信息。Cui等[7]增强人体关节在全连通图的所有边之间的自然连通性的作用。Li等[27]第二十七话11469∈∈·×个∈网络具有多尺度图计算单元，其中特征在单个单独尺度下提取，然后跨尺度融合。不同的是，我们使用不同尺度的GCN来分别提取这些尺度的特征。3. 方法人体姿态预测是一个任务，以产生未来的姿态序列给定当前观察到的帧。假设输入全局剩余连接目标历史姿势是X1：Th=[X1，…XTh] ∈RJ×D ×Th启动GCN残留GCN结束GCN其中Xt描绘在时间t处在D维空间中具有J个关节（这里D是3）的单个3D人体姿势。类似地，具有Tf帧的未来姿态序列被定义为XTh+1：Th+Tf。我们需要一个模特F_p_edic_t（·）来预测未来未知的姿态序列XTh+1：Th+Tf 给定X1：近似地面的h图2.用于姿态预测的基本GCN模型包括开始GCN、6个残余GCN和结束GCN。起始GCN将输入从姿态空间映射到特征空间，残余GCN用于提取特征空间中的特征，并且最后，结束GCN将特征映射回姿态。在输入和输出姿势之间添加残余连接，使得truthXTh+1：Th+Tf尽可能我们完成这个任务整个网络学习残差而不是直接学习目标姿势通过提出称为MSR-GCN的新颖的多尺度残差图卷积网络，如图3所示。在下文中，首先介绍用于姿态预测的基本GCN模型，然后示出用于获得优异预测精度的多尺度架构。3.1. 基本GCN首先，我们重新制定我们的预测目标，通过重新安排的输入和输出的姿态序列。相反WlRFlXFl+1可训练参数，图卷积层的输出为：H1+ 1=σ（A1H1W1），（1）其中Hl+1Rk×Fl+1，σ（）是作用函数。为了将输入姿态序列映射到目标姿态序列，我们设计了一个起始GCN、一个结束GCN和6个基于X最后姿势1：Th，我们复制剩余GCN，其架构如图-ure2.起始GCN具有2个图卷积层，亲-X Th，T f次，得到长度为T=T h+T f的序列。然后，我们使用该序列作为输入来预测未来的姿态序列，该姿态序列包括X（ 1：Th ）和X（ Th+1：Th+Tf）。根据[33]，这个预测任务可以转换为计算X？1：T和地面真实值X1：T之间的残差向量，我们也发现这对提高预测精度非常有效。对于姿态预测，已经证明对姿态的空间结构建模非常有用[33，7]。这是由于人体关节之间的空间依赖性表现出内在的和一致的特性，在整个动作期间，这是非常重要的人体姿态预测。可以利用的依赖性不限于具有诸如肘和腕之间的运动学链接的关节，而是任何一对关节都可以相互影响。例如，当一个人走路时，手会周期性地振动，因此探索两只手的依赖性以进行预测是至关重要的 GCN [22]擅长通过将姿势视为具有K个节点的全连接图来发现这些关系，其中K= JD、邻接矩阵ARK×K表示边由GCN学习。GCN通常由顺序堆叠在一起的一组图形卷积层组成。设H_l ∈ R_K × F_l是一个卷积图的输入，则H_l∈ R_K × F_l是一个卷积图的输入。定义层，Al∈RK×K为邻接矩阵，将输入的位姿序列从空间RK× T到RK× F，F=256。以下是6个残差GCN，每个包含2个图卷积层，它们接受空间RK×F中的特征，并在同一空间中输出特征。最后，也包含2个图卷积层的端GCN将空间RK×F中的特征投影到空间RK×T中的目标姿态序列。整个网络通过添加全局跳过连接来学习输入和目标姿势序列之间的残差向量，如图2所示。注意，除了用于数据表示变换的离散余弦变换（DCT）和逆DCT之外，具有基本GCN的上述姿态预测网络类似于[33]中提出的方法。在本文中，我们放弃了DCT变换，因为直接计算填充的输入姿势和目标姿势之间的全局残差而在下文中，我们示出了如何通过利用人体姿势的多尺度属性来进一步改进图2中的基本架构[27]。3.2. 多尺度残差GCN直观地，可以逐步简化人类姿势以获得一组精细到粗略的姿势。随着粗尺度的增大，姿态的运动变得更加平稳。×611470×个上采样层下采样层逐元素添加GCN块下降路径上升路径×3×3×3×3×3×3图3.所提出的MSR-GCN的架构包括一个起始GCN、四个下行GCN（D0、D1、D2、D3）、四个上行GCN（A0、A1、A2、A3）和四个结束GCN（E0、E1、E2、E3）。开始GCN将尺度0处的黑色姿势作为输入。然后依次堆叠下降和上升GCN以提取每个尺度的特征两次。每个尺度的组合特征最终被馈送到对应的端GCN中以用于解码。在每个端GCN之后添加残差连接，其将地面真实姿态添加到每个GCN的输出，使得网络学习残差而不是直接学习目标姿态。ble，这通常意味着在该尺度下的姿态预测比更精细的尺度更容易。这促使我们提出一种多尺度残差图卷积网络（MSR-GCN），在该网络中，我们首先在最粗的一层进行预测，然后逐步向上进行预测。如图3所示，我们的MSR-GCN由四种GCN组成：一个起始GCN、一组下行和上行GCN块、以及一组结束或解码GCN。在介绍MSR-GCN之前，让我们描述一下如何抽象人体姿势。如图1最左边的图片所示，最好的姿势有22个关节。我们递归地提取最好的图1的第二行中的子图（从左到右）描绘了如何在更精细的级别组合关节，而第一行中的子图相应地示出了在下一级别处获得的姿态。请注意，我们也尝试了其他分组方式，但发现该方案在最粗糙的水平上产生最稳定的运动（参见第4.4节中的比较）。开始GCN由2个卷积层组成，将输入姿势映射到特征空间中。姿态空间是如上所定义的RK×T，特征空间是RK×F，其中F=256。我们使用最精细尺度的姿势序列作为起始GCN的输入，而其他尺度的姿势序列仅用于结束GCN以计算残差。下降和上升GCN块。由于我们已经在四个级别上抽象了人体姿势，因此我们使用四个下降和四个上升的GCN块，即D0，D1，D2，D3和A3，A2，A1，A0，在四个尺度上提取特征。这些块中的每一个循环残余GCN 6次，并且每个GCN具有2个图卷积层。八个GCN块顺序堆叠在一起。沿着整个下降和上升路径，特征维度F总是保持为256，但是姿态维度K在相邻的下降或上升块之间改变。例如，D0在空间RK0×F中提取特征，其中 K0=223=66，而 K1=36 ， K2=21和K3=12D1，D2和D3的数据我们使用下采样层将D0输出的特征转换到RK1×F的空间中。下降的块逐渐降低姿势维度然后通过具有上采样层的上升块逐渐增加。我们将由下行GCN块和对应的上行GCN块提取的特征连接在一起，并将它们传递到端GCN以进行解码。端GCN用于解码由降序块和升序块提取的级联特征以形成姿势。与开始GCN一样，结束GCN也由2个图卷积层组成。但是，我们设计了4个端GCN，即E0，E1，E2，E3，而不是只有一个起始GCN。启动GCND0下来…向下D3目标E0...E2E3输入0级秤2规模3A0起来...A2起来A3114712J×Tj，tj，t∈分别以四个不同尺度解码组合特征。中间监督通过计算L2分布-如果预测的姿态序列是X（1：T并且对应的地面实况是X1：T，则MPJPE损失是解码的姿态和它们在Tj所有的尺度都用来训练整个网络，这是一个在许多作品中普遍采用的策略[47，51]。Ab-LMPJPE=1ΣΣp−p，（2）t=1j =1实验结果表明，在中间监督下，因此，可以获得更好的预测精度，我们推测这是由于它有助于在较粗的级别中提取更多“E0”的输出残余连接。除了在下行和上行GCN中的剩余连接之外，我们在每个端GCN之后添加也就是说，我们将输入姿势序列（在不同尺度下）添加到结束GCN的输出以这种方式，MSR-GCN学习所有级别处的输入与地面实况之间的残差向量。3.3. 实现细节我们选择Adam作为优化器，初始学习速率为2 e-4，每两个epoch衰减0.98，并在NVIDIA RTX 3090GPU卡上训练网络。4. 实验为了验证MSR-GCN的有效性，我们在两个标准的基准运动捕捉数据集上运行本文首先介绍了两个数据集、评价指标和对比基线，然后给出了实验结果和消融分析。4.1. 数据集设置H3.6M数据集[18]由七个主题S1，S5，S6，S7，S8，S9和S11组成，每个主题包含15个动作类别。我们将原始数据从指数映射（expmap）格式转换到3D关节坐标空间，沿时间轴将原始姿势序列下采样2，并从单个姿势的原始32个关节中选择22与[34，27，33]一样，我们分别使用S5和S11的数据我们在下行和上行部分使用四个音阶，分别包含22、12、7和4个CMU Mocap数据集是另一种常用的人体姿势预测数据集，包括8个动作类别。一个姿势在原始数据集中有38个身体关节，我们选择其中的25个，并抽象为12，7和4个关节。其他细节类似于H3.6M。4.2. 比较设置指标. 毫米级平均每关节位置误差（MPJPE）是最广泛使用的评价指标。假设-其中p≡j，tR3表示帧t中的预测的第j个关节位置，并且Pj，t是对应的地面实况。基线。我们将我们的方法与三个最先进的基线进行比较，即，表示为残差sup。[34]，DMGNN [27]和Traj-GCN [33]。[34]基于RNN，其余两个基于GCN。具体来说，[27]构建了一个动态多尺度图卷积神经网络，[33]将原始数据从3D坐标空间转换到频率空间。随机试验批次与完整测试集。所有比较的三个作品[34，27，33]都在每个动作类别的大小为8的一个随机选择的单批数据我们认为，这样少的测试数据是不够的，以准确地评估性能的比较approaches。”[35]这一点也引起了人们的质疑。为了解决这个问题，我们修改了他们公布的代码，并重新训练网络使用整个测试数据集在三维坐标空间来评估MPJPE。在补充材料中也可以找到具有与先前工作相同的评价方式的实验统一输入和输出长度。 [34，27]的方法需要50个历史观察姿势来预测25个未来姿势，而[33]仅通过10个姿势预测25个未来姿势。本文的所有实验都遵循[33]的方法。4.3. 结果为了验证MSR-GCN的预测性能，我们示出了MSR-GCN对于400 ms短期（即，200 ms）的定量和定性结果。，10帧）和1000ms长期（即，，25帧）的预测H3.6M和CMU Mocap，并比较MSR-GCN与国家的最先进的方法。关于H3.6M的结果。短期和长期预测结果的定量比较分别列于表1和表2中。显然，这三种基于GCN的方法比基于RNN的方法Residual sup要好得多。[34]，这验证了GCN用于人体运动预测的有效性。在三种基于GCN的方法中，Traj-GCN优于DMGNN，而MSR-GCN总体上优于Traj-GCN。为了进行更直观的比较，我们在图4中绘制了不同预测时间所有类型动作的平均预测误差，这清楚地表明MSR-GCN优于所比较的三种方法。图5示出了针对不同方法的预测姿态的示例在这个例子中，随着预测时间的增加，MSR-GCN的结果变得比其他的更好。11472表1.对H3.6M的15个作用类别的短期预测与平均值的比较最佳结果以粗体突出显示场景步行吃吸烟讨论毫秒80160320400801603204008016032040080160320400残留物补充[34个]29.3650.8276.0381.5116.8430.6056.9268.6522.9642.6470.1482.6832.9461.1890.9296.19DMGNN [27]17.3230.6754.5665.2010.9621.3936.1843.888.9717.6232.0540.3017.3334.7861.0369.80Traj-GCN [33]12.2923.0339.7746.128.3616.9033.1940.707.9416.2431.9038.9012.5027.4058.5171.68MSR-GCN12.1622.6538.6445.248.3917.0533.0340.438.0216.2731.3238.1511.9826.7657.0869.74场景方向问候打电话构成毫秒80160320400801603204008016032040080160320400残留物补充[34个]35.3657.2776.3087.6734.4663.36124.60142.5037.9669.32115.00126.7336.1069.12130.46157.08DMGNN [27]13.1424.6264.6881.8623.3050.32107.30132.1012.4725.7748.0858.2915.2729.2771.5496.65Traj-GCN [33]8.9719.8743.3553.7418.6538.6877.7493.3910.2421.0242.5452.3013.6629.8966.6284.05MSR-GCN8.6119.6543.2853.8216.4836.9577.3293.3810.1020.7441.5151.2612.7929.3866.9585.01场景购买坐坐下拍照毫秒80160320400801603204008016032040080160320400残留物补充[34个]36.3360.3086.5395.9242.5581.40134.70151.7847.2885.95145.75168.8626.1047.6181.4094.73DMGNN [27]21.3538.7175.6792.7411.9225.1144.5950.2014.9532.8877.0693.0013.6128.9545.9958.76Traj-GCN [33]15.6032.7865.7279.2510.6221.9046.3357.9116.1431.1261.4775.469.8820.8944.9556.58MSR-GCN14.7532.3966.1379.6410.5321.9946.2657.8016.1031.6362.4576.849.8921.0144.5656.30场景等待步行狗一起走平均毫秒80160320400801603204008016032040080160320400残留物补充[34个]30.6257.82106.22121.4564.18102.10141.07164.3526.7950.0780.1692.2334.6661.97101.08115.49DMGNN [27]12.2024.1759.6277.5447.0993.33160.13171.2014.3426.6750.0863.2216.9533.6265.9079.65Traj-GCN [33]11.4323.9950.0661.4823.3946.1783.4795.9610.4721.0438.4745.1912.6826.0652.2763.51MSR-GCN10.6823.0648.2559.2320.6542.8880.3593.3110.5620.9237.4043.8512.1125.5651.6462.93表2.对H3.6M的5个作用类别的长期预测与平均值的比较最佳结果以粗体突出显示场景步行吃吸烟讨论方向平均毫秒560100056010005601000560100056010005601000残留物补充[34个]81.73100.6879.87100.2094.83137.44121.30161.70110.05152.4897.56130.50DMGNN [27]73.3695.8258.1186.6650.8572.1581.90138.32110.06115.7574.85101.74Traj-GCN [33]54.0559.7553.3977.7550.7472.6291.61121.5371.01101.7964.1686.69MSR-GCN52.7263.0452.5477.1149.4571.6488.59117.5971.18100.5962.8986.0018016014012010080604020080ms160ms320ms400ms560ms1000ms图4. H3.6M数据集上不同预报时间所有行动类别的平均预测误差比较。CMU Mocap的结果。对CMU Mocap数据集进行相同的比较，如表3和表4所示。MSR-GCN在所有短期预测时间内获得最佳平均性能。对于长期预测，即，MSR-GCN在预测帧长达1000 ms的情况下，对于其他动作，我们的方法的预测误差总是第二好的，非常接近最好的。性能增益分析和推理。以上结果表明，MSR-GCN优于所比较的方法。在这里，我们将详细解释性能提升的原因和图5.不同方法在H3.6M数据集的样本上的预测姿态的可视化。首先，在实验中，我们发现推断输入和目标姿态之间的残差比预测目标姿态容易得多表5中的CMU数据集上的平均误差示出全局残差（GR）导致Traj-GCN和我们的方法（MSR-GCN）两者的显著性能增益。尽管如此，我们没有GR仍然明显优于其他基线没有GR（Traj-GCN w/o残差和DMGNN），显示了我们的模型设计的意义其次，我们将我们的方法与Traj-GCN，Traj-GCNw/o DCT以及CMU数据集上的MSR-GCN-1 L方法的单尺度版本进行比较。如表6所示，DCT带来的性能增益为0.55，而DCT带来的性能增益为0.55。MSR-GCNTraj-GCNDMGNN残留物补充3D误差11473表3.比较CMU Mocap数据集的8个动作类别的短期预测最佳结果以粗体突出显示场景篮球篮球信号指挥交通跳毫秒80160320400801603204008016032040080160320400残留物补充[34个]15.4526.8843.5149.2320.1732.9842.7544.6520.5240.5875.3890.3626.8548.0793.50108.90DMGNN [27]15.5728.7259.0173.055.039.2820.2126.2310.2120.9041.5552.2831.9754.3296.66119.92Traj-GCN [33]11.6821.2640.9950.783.336.2513.5817.986.9213.6930.3039.9717.1832.3760.1272.55MSR-GCN10.2818.9437.6847.033.035.6812.3516.265.9212.0928.3638.0414.9928.6655.8669.05场景运行足球步行冲洗窗毫秒80160320400801603204008016032040080160320400残留物补充[34个]25.7648.9188.19100.8017.7531.3052.5561.4044.3576.66126.83151.4322.8444.7186.78104.68DMGNN [27]17.4226.8238.2740.0814.8625.2952.2165.429.5715.5326.0330.377.9314.6833.3444.24Traj-GCN [33]14.5324.2037.4441.1013.3324.0043.7753.206.6210.7417.4020.355.9611.6224.7731.63MSR-GCN12.8420.4230.5834.4210.9219.5037.0546.386.3110.3017.6421.125.4911.0725.0532.51表4.比较CMU Mocap数据集8个动作类别在1000ms的长期预测。场景篮子下锡格迪尔特拉跳残留物补充[34个]72.8360.57153.12162.84DMGNN [27]138.6252.04111.23224.63Traj-GCN [33]97.9954.00114.16127.41MSR-GCN86.9647.91111.04124.79场景运行足球步行沃什温残留物补充[34个]158.19107.37194.33202.73DMGNN [27]46.40111.9067.0182.84Traj-GCN [33]51.73108.2634.4166.95MSR-GCN48.0399.3239.7071.30表5.全局残差对CMU Mocap数据集的影响DMGNN [27]Traj-GCN [33] w/o GRTraj-GCN [33]我们的（不含GR）我们53.0549.8239.7546.9237.28表6. CMU数据集上MSR-GCN的多尺度架构与Traj-GCN [33]的DCT组件之间的比较。Traj-GCN [33] w/o DCTTraj-GCN [33]MSR-GCN-1LMSR-GCN40.3039.7540.4337.282.051.541.030.52规模分组方式，CMU Mocap数据集上进行了研究，以提供更深入的了解我们的具体地，我们修改MSR-GCN以获得其五个消融变体：（1）MSR-GCN w/o inter-loss：没有中间监督损失的MSR-GCN，（2）MSR-GCN-3L：具有三个姿态尺度的MSR-GCN（注意，原始MSR-GCN具有四个尺度），（3）和⑷ MSR-GCN-2L，以及分别具有两个尺度和一个尺度的MSR-GCN-1L，(5)MSR-FCL：用剩余全连接层替换剩余GCN。多尺度架构的影响。为了研究所提出的架构的多尺度机制的有效性，我们进行实验上的三个尺度，两个尺度和一个尺度的变种MSR-GCN。比较结果示于表7中。请参见对应于MSR-GCN、MSR-GCN-3L、MSR-GCN-2L和MSR-GCN-1 L的行。在大多数情况下，MSR-GCN 是最好的，其次是 MSR-GCN-3L， MSR-GCN-2L和MSR-GCN-1 L。作为示例，对于跑步动作，在时间320ms处的四个变量的预测误差分别为30.58、35.87、38.95和39.06。这些实验证明了我们的多尺度体系结构的有效性。0.00.51中间监督的作用。中间损耗的影响进行了分析，通过删除“图6.关节Traj-GCN [33]在H36M（左）和CMU（右）上。我们的多尺度策略的平均值为3.15，显示了我们的多尺度体系结构的有效性。第三，我们针对每个关节检查MSR-GCN相对于Traj-GCN的性能增益，发现对于肢体的关节实现了更大的性能增益，如图6所示，其中更深的红色意味着更高的性能增益。由于肢体上的关节通常具有较高的运动频率，该图表明我们的方法可以更好地处理高频运动。更多的分析可以在补充材料中找到4.4. 消融研究研究了模型中的几个关键因素，如规模层次数、中间监督损失、剩余GCNs和多个中间监督损失等对模型的影响。第二、第三和第四量表的“GCN”来自MSR-GCN。请参见表7中对应于MSR-GCN和MSR-GCN w/o互损的两行以比较两种变体。在大多数情况下，MSR-GCN比MSR-GCN更好，没有内部损失，这证明了中间监督的必要性。虽然在“走”和“跳”上发生了一些例外残留 GCN 的影响。我们用包括残余全连接层（FCL）的普通网络替换所有残余GCN以分析残余GCN的影响。请参见对应于表7的MSR-GCN和MSR-FCL的行。实验结果表明，MSR-GCN是优于MSR-FCL的大幅度。这有力地验证了GCN对于高质量姿态预测的重要性。不同多尺度分组方式的效果。在0.13-0.03-0.150.17-0.201.54-0.181.061.14零点九五-0.78-0.160.821.310.59-0.161.940.401.820.602.261.221.421.280.991.240.363.810.682.232.881.610.232.582.761.74 一点2.352.480.88一点三九5.015.055.225.765.545.8811474表7.消融研究的规模水平的数量，中间损失，残余GCN与。剩余的全连接层和不同的分组方式。结果在CMU Mocap数据集上获得平均而言，我们模型的所有设计都有助于其准确性。运行足球S1S2S3S4内部损耗GCBFCL801603204001000801603204001000MSR-GCNMSR-GCN w/o inter-loss MSR-GCN-3L✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓48.0351.6549.6010.9211.0311.0219.5019.8119.8437.0538.9338.4946.3848.8448.2699.32101.36107.17公司简介✓✓✓14.3023.3738.9545.1173.2610.9319.6238.4448.30106.35✓MSR-GCN-1L✓✓14.2424.2139.0643.6074.5211.5521.3743.2655.00123.69✓✓MSR-FCL✓✓✓✓✓13.3324.2943.5850.0161.9012.1622.8346.4959.04132.47步行跳S1S2S3S4内部损耗GCBFCL801603204001000801603204001000MSR-GCNMSR-GCN w/o inter-loss MSR-GCN-3L✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓39.7034.6742.7214.9914.6514.9828.6628.2228.8955.8656.4357.6969.0570.0771.60124.79125.69128.62公司简介✓✓✓7.8713.4123.1627.6352.3115.2129.6759.8574.31128.10✓MSR-GCN-1L✓✓6.7311.0917.9420.9537.2115.4929.7358.9473.10131.72✓✓MSR-FCL✓✓✓✓✓7.1912.5823.1528.0052.7715.1429.8961.3176.49139.01表8.CMU数据集上不同分组方式的平均误差比较分组25-12-7-425-10-5-3指定（默认）随机1无规的2随机3指定Avg.错误↓37.2841.1545.7747.0440.99100908070605040302010080ms160ms320Ms400ms560ms1000ms图8. CMU Mocap数据集样本上不同消融变体的预测位姿的可视化。和多尺度体系结构。图7.不同消融变量在不同预报时间对CMU各种作用的平均误差比较默认情况下，我们以图1中所示的H3.6M骨架的方式对人体关节进行分组CMU的默认分组在表8中，我们使用CMU上的不同分组策略测试了我们的方法的性能，包括25-10-5-3，这意味着最精细尺度骨架有25个关节，最粗糙尺度有3个关节（请参考手动指定关节组的补充材料），以及默认25-12-7-4的三个随机分组。如图所示，我们的默认分组产生更好的平均结果。图7和图8中示出了更多的可视化。在图7中，我们显示了CMU数据集上不同预测时间处不同消融变体的各种动作的平均预测误差。可以看出，MSR-GCN总是比其变体更好在图8中，我们显示了不同消融变量的预测姿态的示例，其清楚地表明MSR-GCN比MSR-GCN-2L、MSR-GCN-1 L和MSR-FCL好得多，验证了GCN的两个构建块的必要性5. 结论在本文中，我们建立了一个多尺度残差图卷积网络，以有效地预测未来的人体运动从观察到的历史。损耗被添加到所有秤中以提供中间监督。我们使用一个短的观察历史的姿态序列的10帧作为输入预测25帧在未来。我们在整个测试数据集上测试并比较了所提出的方法与以前的最先进的方法。我们的方法优于国家的最先进的方法在两个标准的基准数据集。我们将在未来进一步探索多尺度分组方式确认本研究得到国家自然科学基金部分资助（62072191、61802453、61972160），部分由广东省自然科学基金资助（ 2019A1515010860 ，2021A1515012301），部分由中央大学基础研究基金（D2190670）资助。MSR-GCNMSR-GCN w/o inter-lossMSR-GCN-3LMSR-GCN-1LMSR-FCL3D误差11475引用[1] Emre Aksan，Peng Cao，Manuel Kaufmann，and OtmarHilliges. 一种用于三维人体运动预测的时空Transformer。arXiv电子印刷品，第arXiv-2004页，2020年。二个[2] Amal Fahad Al-aqel和Murtaza Ali Khan。用于人体运动预测的注意力在2020年第三届计算机应用信息安全上，第1-6页。IEEE，2020年。一、二[3] 马修·布兰德和亚伦·赫茨曼时尚机器。在Proceedings ofthe 27th Annual Conference on Computer Graphics andInteractive Techniques，pages 1831[4] Yujun Cai，Lin Huang，Yiwei Wang，Tat-Jen Cham，Jianfei Cai，Junsong Yuan，Jun Liu，Xu Yang，YihengZhu，Xiao-hui Shen，et al.学习渐进式联合传播用于人体运动预测。欧洲计算机视觉会议论文集，第226-242页。Springer，2020年。二个[5] 陈文松，田志强，杨武。 Gas-gcn：用于基于骨架的动作识别的门控

下载后可阅读完整内容，剩余1页未读，立即下载