动态多尺度图神经网络预测三维人体运动

175 浏览量更新于2023-10-25 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

214基于动态多尺度图神经网络的三维人体运动预测李茂森1，陈思恒2，赵阳恒1，张雅1，王伟1，田琦1上海交通大学2三菱电机研究所{李茂森，赵阳恒，张雅，王艳峰}@ sjtu.edu.cn，schen@merl.com，wywqtian@gmail.com摘要我们提出了一种新的动态多尺度图神经网络（DMGNN）来预测三维人体运动。DMGNN的核心思想是使用多尺度图来全面建模人体的内部关系，以进行运动特征学习。这种多尺度图在训练期间是自适应的，并且在网络层之间是动态的在此基础上，我们提出了一个多尺度图计算单元（MGCU），用于提取各个尺度上的特征，并进行跨尺度的特征融合。整个模型是动作类别不可知的，并遵循编码器-解码器框架。编码器由一系列MGCU组成，以学习运动特征。解码器使用所提出的基于图的门递归单元来生成未来姿态。大量的实验表明，所提出的DMGNN优于国家的最先进的方法，在短期和长期的预测数据集上的人类3.6M和CMU Mocap。我们进一步研究了学习的多尺度图的可解释性。代码可以从 https ： //github 下载。com/limaosen0/DMGNN。1. 介绍基于三维人体骨架的运动预测是根据人体骨架的过去运动来预测未来的姿态。运动预测有助于机器理解人类行为，吸引了相当大的关注[9，20，32，5，12，2]。相关技术可以广泛应用于许多计算机视觉和机器人领域，例如人机交互[24，23，17，13]，自动驾驶[6]和行人跟踪[1，15，3]。许多方法，包括传统的基于状态的方法[25，44，38，37，36]和基于深度网络的方法，臭氧消耗物质[9、32、10、7、12、14、11、33、43]，图1.两个学到的多尺度图'摆姿势'。我们表现出强烈的关系与躯干在单一尺度和跨尺度。两个多尺度图是动态的，从一个MGCU到另一个，分别捕获本地和远程关系。实现有前景的运动预测。然而，大多数方法没有明确地利用不同身体部件之间的关系或约束最近的一项工作[31]为成对关系建模建立了跨身体关节的图;然而，这样的图仍然不足以反映身体关节的功能组。另一项工作[43]构建了预定义的结构来聚合身体关节特征以代表固定的身体部位，而模型仅考虑身体物理约束，而不利用运动协调和关系。例如，“行走”的动作为了对更全面的关系建模，我们提出了一种新的人体表示：一个多尺度图，其节点是不同尺度上的体组件，边是组件之间的成对关系。要在多个比例下对实体建模，多比例图由两种类型的子图组成：单尺度图，以相同的尺度连接身体组件，以及交叉尺度图，215图2. DMGNN的架构，其使用用于运动预测的编码器-解码器框架。在编码器中，级联多尺度图计算块（MGCU）利用动态多尺度图来提取时空特征。在解码器中，我们提出了一个基于图的GRU（G-GRU）来预测姿势。连接两个鳞片上的身体成分;见图1单尺度图一起提供身体骨架的金字塔表示。每个跨尺度图是一个二分图，将一个单标度图连接到另一个单标度图。例如，粗尺度图中的“手臂”节点可以连接到细尺度图中的“手”和“肘”节点。该多尺度图由预定义的物理连接初始化，并在训练中自适应地调整为运动敏感的。总体而言，这种多尺度表示提供了一个新的潜力模型的身体关系。基于多尺度图，我们提出了一种新的模型，称为动态多尺度图神经网络（DMGNN），它是动作类别不可知的，并遵循编码器-解码器框架来学习运动表示进行预测。编码器包含多尺度图计算单元（MGCU）的级联，其中每个计算单元与多尺度图相关联。一个MGCU包括两个关键组件：单尺度图卷积块（SS-GCB），利用单尺度图来精确各个尺度的特征，以及跨尺度融合块（CS-FB），推断跨尺度图以将特征从一个尺度转换到另一个尺度并实现跨尺度融合。多尺度图具有自适应和可训练的内建拓扑结构;它也是动态的，因为拓扑从一个MGCU到另一个MGCU改变;参见图1中的学习动态多尺度图。值得注意的是，CS-FB中的跨尺度图是针对输入运动自适应地构建的，并且反映用于类别不可知预测的有区别的运动模式。对于解码器，我们采用基于图的门控回流单元（G-GRU）来顺序地产生给定最后估计的姿势的预测。G-GRU利用可训练图来进一步增强状态传播。我们还使用残差连接来稳定预测。为了学习更丰富的运动动力学，我们引入差分算子来提取多个阶的运动差异作为位置、速度和加速度的DMGNN的架构如图2所示。man 3.6M [19]和CMU Mocap1。实验结果表明，我们的模型优于大多数国家的最先进的作品，无论是短期和长期的预测的有效性和效率。本文的主要贡献如下：• 我们提出了动态多尺度图神经网络（DMGNN）来提取多尺度的深度特征，实现有效的运动预测;• 我们提出两个关键组成部分：多尺度图计算单元，其利用多尺度图跨多个尺度提取和融合特征，以及基于图形的GRU，以增强姿态生成的状态传播;以及• 我们进行了大量的实验，以表明所提出的DMGNN优于大多数国家的最先进的方法进行短期和长期的运动预测上两个大数据集我们进一步可视化学习的图形，以实现可解释性和推理。2. 相关工作人体运动预测：为了预测运动，一些传统的方法，例如，隐马尔可夫模型[25]、高斯过程[44]和随机森林[25]。最近，深度网络扮演着越来越重要的角色：一些基于递归网络的模型逐步生成未来姿态[9，20，32，41，45，11，30，12，28];一些前馈网络[26，31]试图减少误差累积以实现稳定预测;也提出了模仿学习算法[42]。然而，这些方法很少考虑到各种尺度上的足够多的关系，这些关系为人类的理解提供了全面的信息。在这项工作中，我们建立动态多尺度图，以捕捉丰富的多尺度关系，并提取灵活的语义运动预测。图深度学习：图表示与非网格结构关联的数据，保留了依赖关系在内部节点之间[46，40，39]。许多研究聚焦为了验证我们的DMGNN的优越性，广泛的前-实验在两个大规模数据集上进行：Hu-1http://mocap.cs.cmu.edu/216^ ^您的位置：图3.人体3.6M上的三个身体秤。在s1中，我们考虑了20个具有非零指数映射的关节[18];在s2和s3中，我们分别考虑了10个和5个部分。关于图表示学习和相关应用[29，8，22，16，46，35]。基于固定的图结构，以前的工作根据图谱域[8，22]或图顶点域[16]探索了传播节点特征。几个基于图的模型已被用于基于图像的动作识别[46，27，34]，运动预测[31]和3D姿态估计[47];与任何以前的工作不同，我们的模型考虑了多尺度图和相应的操作。3. 问题公式化假设历史3D基于姿态的姿势是X−T：0 = [X（−Th），. . .，X（0）]∈RM×（Th+1）×Dx且图4. MGCU使用单尺度图卷积块（SS-CB）和跨尺度融合块（CS-FB）。两种类型的构建块：单尺度图卷积块和跨尺度融合块，单尺度图卷积块利用单尺度图来提取每个尺度的特征，跨尺度融合块利用跨尺度图来将特征从一个尺度转换到另一个尺度，并实现跨尺度的有效融合;参见图4。我们现在详细介绍每个块。单尺度图形卷积块（SS-GCB）。为了提取每个尺度的时空特征，我们提出了一个单尺度图卷积块（SS-GCB）。设单尺度图在尺度s上的可训练邻接矩阵为As∈RMs×Ms，其中Ms为体的个数，件.一个s首先由一个骨架图其节点是身体组件，而边是物理的连接，对物理约束的先验进行建模;H未来的姿势是X1：Tf=[X（1），. -是的-是的，X（Tf）]∈RM×Tf×Dx，请参见图3。在训练过程中，A中的每个元素是adap-其中X（t）∈RM×Dx，具有M个关节，Dx=3个特征维度，描绘了在时间t的3D姿态。运动预测的目标是根据过去的观测结果生成未来的姿态在数学上，我们需要提出一个模型Fpre d（·）来预测X1：Tf=Fpre d（X−Th：0），其中X1：Tf是接近目标X1：Tf的预测运动。为了利用丰富的身体关系，我们将身体表示为被调整以捕捉灵活的身体关系。基于单尺度图，SS-GCB通过两个步骤有效地提取深度特征：1）图卷积提取人体各部位的空间特征;（2）a时间卷积从运动序列中提取时间特征。设尺度s处的输入特征为Xs∈R Ms×Dx，空间图卷积公式化为：′X= ReLU（A X W+X U）∈RMs×D，（1）跨多尺度身体组件的多尺度图。那个-s，spSsssS理论上，我们可以使用任意数量的尺度。基于其中W，U，E ∈R′x是可训练的参数。在人性方面，我们特别采用三个尺度：身体-联合尺度、低级部分尺度和高级部分尺度。为了初始化多尺度人体图，我们根据人体先验知识将空间上邻近的关节合并到较粗的尺度上;请参见图3。利用多尺度图，我们提出了动态多尺度图神经网络（DMGNN），以端到端的方式预测未来的姿态。4. 关键部件为了构建我们的动态多尺度图神经网络（DMGNN），我们考虑三个基本组件：多尺度图计算单元（MGCU）、基于图的GRU（G-GRU）和差分算子。4.1. 多尺度图计算单元MGCU的功能是基于多尺度图在多个尺度上提取和融合特征，该多尺度图是自适应和单独训练的一个MGCU包括通过（1），我们从相关的身体成分中提取空间特征。每个SS-GCB中的A都为了捕获随时间的运动，我们然后在特征上开发时间卷积序列的不同SS-GCB中的单尺度图是动态的，表现出灵活的关系。请注意，在各种尺度下提取的特征具有不同的维度，并反映具有不同感受野的信息。跨尺度融合块（CS-FB）。为了实现跨尺度的信息扩散，我们提出了一个跨尺度融合块（CS-FB），它使用跨尺度图来转换从一个尺度到另一个尺度。交叉尺度图是将一个单尺度图中的节点与另一个单尺度图中的节点相对应的二分图。例如，低级部位尺度s2中的“手臂”节点的特征可以潜在地指导身体关节尺度s1中的“手”节点的特征学习。我们的目标是从数据中自适应地推断在这里，我们提出了从s1到s2的CS-FB作为一个例子。XD×Dx217s，k2222s11xX ←A X W+X∈RMs D，图5.交叉标度图的推理。我们首先推导出具有邻接矩阵s2中下一个MGCU的CB。反过来，我们可以用类似的操作定义从s2到s1的融合。4.2. 基于图形的GRU基于图的GRU（G-GRU）的功能是在图的引导下学习和更新隐藏状态。关键是使用可训练图来正则化状态，这些状态用于生成未来的姿势。设AH∈ RM×M是内建图的邻接矩阵，它是ini-G-1的初始状态为H（0）∈RM×Dh，阿一阿二∈[0，1]Ms2 ×Ms1来模拟跨尺度关系。GRU在时间t >0时，G-GRU采用两个输入：初始设第i个关节和第k个关节沿时间的特征状态，H（t），以及在线的基于3D信标的信息，Ts×D′Ts×D′（吨）M×d（吨）（吨）be（Xs1）：，i，：∈R1x和（Xs2）：，k，：∈R2x我们I∈R. 然后，G-GRU（I，H ）工作，将它们向量化为ps1，i= vec（convs1，τ（（Xs1）：，i，：;μ）），ps，k= vec（convs，τ（（Xs）：，k，：;μ））以利用时间r（t）=σ（rin（I（t））+rhid （AHH（t）WH））的情况下，信息，其中τ和μ表示时间卷积核大小和步幅。我们通过以下公式推导出第i个关节和第k个部分之间的边权重（As1s2）k，i：Ms1u（t）=σ（uin（I（t））+uhid（AH H（t）WH）），c（t）=tanh（cin（I（t））+r（t）chid（AHH（t）WH）），H（t+1）=u（t）<$H（t）+（1−u（t））<$c（t），rs1，i = ∑fs1（[ps1，i，ps1，j−ps1，i]）（2a）j=1其中rin（·），rhid（·），uin（·），uhid（·），cin（·）和chid（·）是可训练线性映射;W H表示可训练的hs1，i =gs1（[ps1，i，rs1，i]）（2b）MS2权重对于每个G-GRU单元，它应用一个图形卷积，信息传播的隐态解，rs2，k = ∑fs2（[ps2，k，ps2，j−ps2，k]）（2c）j=1产生下一帧的状态。4.3. 差分算子hs2，k =gs2（[ps2，k，rs2，k]）（2d）（As1s2）k，i= softmax（h）hs1，i）∈[0，1]，（2e）运动状态如速度和加速度携带重要的动力。为了使用它们，我们提出了一个不同的-其中fs1（ ·）、gs1（ ·）、fs2（ ·）和gs2（ ·）表示MLP;tmax（·）的s是沿着内积矩阵的r a w的softmax算子，[·，·]是级联。（2a）和（2c）将所有组分的相对特征聚集到第i个和第k个分量在两个尺度上，然后通过（2b）和（2d）更新;和（2 e）通过内积和softmax获得相邻矩阵，从而我们模拟了从S1中的物体到S2中的每个分量的归一化效应。这种设计背后的直觉是利用全局相对信息来增强身体部件特征，并且我们使用两个增强特征的内积来获得边缘权重。图5说明了As1s2的推论。值得注意的是，与在推理期间的固定单尺度图不同，跨尺度图是有效地在线推理的并且适应于运动特征，这是灵活的以捕获针对各个输入的不同模式接下来，我们使用As1s2将关节特征融合到部分尺度。给定某个时间戳X∈R Ms×D′处的联合特征，部分尺度特征被更新为×′s 2s1 s2s 1F，s 1s 22x218使用ence算子计算输入序列的高阶差分，引导模型学习更丰富的动力学。在时间t，0阶差为<$0X（t）= X（t）∈ R M×Dx，姿态的β阶差（β> 0）为<$βX（ t ）=<$β−1X（ t ）−<$β− 1X（t−1）。我们在计算差异后使用零填充来处理绑定-各种条件。总的来说，差分运算符的工作原理如下：dif fβ（X（t））=[X0X（t）···XβX（t）].这里我们考虑β= 2。这三个要素反映了位置、速度和加速度。5. DMGNN框架在这里，我们提出了我们的DMGNN的架构，其中包含一个多尺度的基于图的编码器和一个经常性的基于图的解码器的运动预测。5.1. 编码器从观察到的运动捕捉语义，编码器的目的是提供解码器的运动状态预测。在编码器中，对于每个运动样本，我们首先将其中W∈RD′×D′是可训练的。因此，每个机构-将其0，1，2阶差连接起来作为输入。我们X xF，s1S2中的部分自适应地从s1中对应的关节。熔化的Xs2被送入SS-通过对S1中的关节簇进行平均来初始化3个身体尺度，在较粗尺度上空间对应的分量。为219¨s1s 2s3例如，我们将s 1中的两个“右手”关节平均为s 2中的“右臂”部分。然后，我们使用级联的MGCU提取时空特征。注意，与每个MGCU相关联的多尺度图是单独训练的，因此图拓扑可以从一个MGCU动态地改变到另一个。为了最终将三个尺度结合起来用于综合语义，对输出特征进行加权求和。由于身体成分的数量在不同尺度上是不同的，我们广播较粗的成分，以匹配它们的空间对应接头. 设三个尺度的广播输出特征为H，H，H ∈RT′×M×Dh，求和特征为H=Hs1+λ（Hs2+Hs3），（3）其中λ是平衡不同尺度的超参数。接下来，我们使用时间平均池化来去除H的时间维度，并获得H ∈ RM×Dh，其聚合历史信息作为解码器的初始状态。5.2. 解码器解码器的目标是顺序地预测未来的姿势。解码器的核心是提出的基于图的GRU（G-GRU），它进一步传播运动状态的序列回归。我们首先使用差分算子提取三阶差分作为运动先验，然后将它们送入G-GRU以更新隐藏状态。接下来，我们使用输出函数生成未来的姿势位移。最后，我们将位移添加到输入姿势以预测下一帧。在帧t处，解码器工作为6. 实验6.1. 数据集和实验设置人3.6m（H3.6M）。H3.6M数据集[19]有7个子进程执行15个不同的操作类别。每个受试者有32个关节，我们将关节位置转换为指数映射，并仅使用具有非零值的关节（剩余20沿着时间轴，我们将所有序列下采样2。遵循先前的范例[32]，模型在6个受试者上进行训练，并在第5个受试者的特定剪辑上进行测试。CMU运动捕捉（CMU Mocap）。CMU Mocap由5个一般动作类组成：“人类互动”、“与环境互动”、“运动”、“物理活动运动”和“情境运动”，其中每个受试者有38个关节，我们用非零指数图保留26个与[ 26 ]保持一致，我们选择8个详细操作：“篮球”，“篮球信号”，“指挥交通”，“跳跃”，“跑步”，“足球”，“步行”和“洗窗户”。我们使用与H3.6M相同的方法评估我们的模型。模型配置。我们在RTX-2080 Ti GPU上用Py-Torch1.0我们为两个数据集设置了3个尺度，其中包含身体关节，10和5个我们使用4个级联的MGCU，其特征维数分别为32，64，128和256。在前两个MGCU中，我们使用SS-GCB和CS-FB来提取时空特征和融合跨尺度特征;在最后两个MGCU中，我们仅使用SS-GCB。在解码器中，G-GRU的维数为256，并且我们使用两层X^（t+1）=X^（t）+fpred（G-GRU）（diff2（X^（t））），H（t），用于姿势输出的MLP。在训练中，我们将批处理大小设置为32，并将梯度裁剪为最大值为0的2-范数。5;我们使用Adam优化器[21]，学习率为0。0001所有的其中fpred（·）表示输出函数，的MLP。初始状态H（0）=H，这是编码器的最终输出。5.3.损失函数为了训练我们的DMGNN，我们考虑101损失。让Tf×M×Dx用验证集选择超参数。基线方法。我们比较了建议的DMGNN与许多最近的作品，其中学习运动模式的姿势向量，例如。准备[32]，CSM [26]， TP-RNN [7]， AGED [12]和 Imit-L[42]，或分离的主体，例如，[14]和Traj-GCN [31]。我们复制，Res-sup.，CSM和Traj-GCN基于其发布的第n个预测样本是（X^1：Tf）n∈R和代码. 我们还采用了一个朴素的基线，ZeroV [32]，对应的地面真值是（X1：Tf）n。对于N个训练样本，损失函数为N将所有预测设置为在t= 0时最后观察到的姿势。6.2. 与最新技术水平方法的1Lpred=N∑（Xn=11：Tf）n— (X^ 1：Tf）n-1，为了验证所提出的DMGNN，我们展示了短期和长期运动哪里||1表示1范数。||1denotes the ℓ1norm. 101损失gi为具有小损失的接头提供足够的梯度，以促进更精确的预测;101损失也为具有大损失的接头提供稳定的梯度，从而缓解梯度爆炸。在我们的实验中，101损失导致比102损失更精确的预测。建议的DMGNN中的所有权重都是使用随机梯度下降进行端到端训练的[4]。人类3.6M（H3.6M）和CMU Mocap的预测我们定量地评估各种方法之间的平均角误差（MAE）的运动和地面真理之间的角度空间。我们还说明了定性评价的预测样本。短期运动预测。短期运动预测的目标是在500毫秒内预测未来的姿态220表1.对H3.6M的4个典型活动进行短期预报，比较了不同预报方法的平均角误差。我们还提出了不同的DMGNN变体，包括在SS-GCB中使用固定图（固定A），在GRU中没有图（没有G-GRU），以及只有一个尺度（单一）。完全DMGNN在大多数时间戳上优于其他方法。运动步行吃吸烟讨论毫秒80160320400801603204008016032040080160320400ZeroV [32]0.390.680.991.150.270.480.730.860.260.480.970.950.310.670.941.04准备[32个]0.270.460.670.750.230.370.590.730.320.591.011.100.300.670.981.06[26]第二十六话0.330.540.680.730.220.360.580.710.260.490.960.920.320.670.941.01TP-RNN [7]0.250.410.580.650.200.330.530.670.260.470.880.900.300.660.961.04年龄[12]0.210.350.550.640.180.280.500.630.270.430.810.830.260.560.770.84[第14话]0.310.500.690.760.200.310.530.690.250.500.930.890.300.640.890.98咪唑-L [42]0.210.340.530.590.170.300.520.650.230.440.870.850.230.560.820.91[31]第三十一话0.180.320.490.560.170.310.520.620.220.410.840.790.200.510.790.86DMGNN（固定As）0.200.350.540.630.200.340.530.660.230.410.860.830.260.650.921.02DMGNN（无G-GRU）0.220.330.530.610.190.320.530.660.230.420.870.820.270.650.900.98DMGNN（S= 1）0.200.330.540.600.180.310.520.620.220.410.830.800.250.640.951.00DMGNN0.180.310.490.580.170.300.490.590.210.390.810.770.260.650.920.99表2.H3.6M的其他11个动作的短期运动预测的不同方法的MAE运动方向问候打电话构成购买坐毫秒80160 320 40080160 320 40080160 320 40080160 320 40080160 320 40080160 320 400免费WiFi[32]0.41 0.64 0.80 0.920.57 0.83 1.45 1.600.59 1.06 1.45 1.600.45 0.85 1.34 1.560.58 0.79 1.08 1.150.41 0.68 1.12 1.33[26]第二十六话0.39 0.60 0.80 0.910.51 0.82 1.21 1.380.59 1.13 1.51 1.650.29 0.60 1.12 1.370.63 0.91 1.19 1.290.39 0.61 1.02 1.18[31]第三十一话0.26 0.45 0.70 0.790.35 0.610.960.531.02 1.32 1.450.23 0.54 1.26 1.380.42 0.66 1.04 1.120.29 0.45 0.820.97DMGNN0.25 0.44 0.65 0.710.360.94 1.120.52 0.97 1.29 1.430.20 0.46 1.06 1.340.41 0.61 1.051.140.26 0.42 0.76 0.97运动坐下来拍照等待遛狗走在一起平均毫秒80160 320 40080160 320 40080160 320 40080160 320 40080160 320 40080160 320 400准备[32个]0.47 0.88 1.37 1.540.28 0.57 0.90 1.020.32 0.63 1.07 1.260.52 0.89 1.25 1.400.27 0.53 0.74 0.790.40 0.69 1.04 1.18[26]第二十六话0.41 0.78 1.16 1.310.23 0.49 0.88 1.060.30 0.62 1.09 1.300.59 1.00 1.32 1.440.27 0.52 0.71 0.740.38 0.68 1.01 1.13[31]第三十一话0.30 0.63 0.89 1.010.150.36 0.590.23 0.50 0.92 1.150.46 0.801.12 1.300.150.350.520.270.53 0.85 0.96DMGNN0.32 0.65 0.93 1.050.15 0.34 0.58 0.710.22 0.88 1.100.42 0.721.160.15 0.33 0.50 0.570.27 0.52 0.83 0.95表3.不同方法对H3.6M数据集4种运动步行吃吸烟讨论平均毫秒5601k5601k5601k5601k5601kZeroV [32]1.35 1.32 1.04 1.38 1.02 1.69 1.41 1.96 1.21 1.59准备[32个]0.93 1.03 0.95 1.08 1.25 1.50 1.43 1.69 1.14 1.33[26]第二十六话0.98 0.92 1.01 1.24 0.97 1.62 1.56 1.86 1.13 1.41年龄[12]0.78 0.91 0.86 0.93 1.06 1.21 1.25 1.30 0.99 1.09[第14话]0.94 0.92 0.97 1.23 0.99 1.59 1.51 1.82 1.10 1.39咪唑-L [42]0.67 0.69 0.79 1.13 0.95 1.63 1.34 1.81 0.94 1.32[31]第三十一话0.65 0.67 0.76 1.12 0.87 1.57 1.33 1.70 0.90 1.27DMGNN0.66 0.75 0.74 1.14 0.83 1.52 1.33 1.45 0.89 1.21种子我们将DMGNN与H3.6M数据集上400毫秒内预测姿势我们首先测试4个代表性动作：表1显示DMGNN和一些基线的MAE。我们还介绍了DMGNN的几种变体的性能：我们在SS-GCB中使用固定体图（固定A），没有图的普通GRU（没有G-GRU）;或仅关节尺度（S= 1）体。我们看到，i）完整的DMGNN在所有变量中获得了最精确的预测; ii）与基线相比，DMGNN在“吃”和“吸烟”方面的预测MAE最低，并在“散步”和“讨论”方面获得了竞争性结果。表2将拟议的DMGNN与H3.6M中其余11项行动的一些最新基线进行了比较。我们看到DMGNN在大多数动作中实现了最佳性能（对于平均MAE也是如此）。长期运动预测。长期运动预测的目标是预测超过500毫秒的姿势，这是具有挑战性的，由于动作的变化和非线性运动。表3列出了H3.6M数据集上用于预测4个动作的各种模型的MAE以及我们看到，DMGNN在560 ms的动作我们还训练DMGNN对CMU Mocap数据集中的8类动作进行短期和表4显示了未来1000 ms内的MAE我们看到，DMGNN显着优于国家的最先进的方法上的行动预测样品可视化。我们将DMGNN的合成样本与Res-sup的合成样本进行比较，在H3.6M上的CSM和Traj-GCN。图6示出了在1000 ms内以80 ms的帧间隔“拍照”的未来姿态与基线相比，我们看到DMGNN准确合理地完成了动作，提供了更好的预测。准备在最后观察到的姿势和第一个预测姿势之间有很大的不连续性（红框）; CSM和Traj-GCN在第280 ms后有较大误差（蓝框）;三个基线在长期内会产生较大的姿势误差（黄色框）。我们展示了更多的预测221表4.我们的模型与CMU Mocap数据集的8个动作的最新方法之间的MAE比较我们评估了模型，并提出了短期和长期预测时间戳的MAE。运动篮球篮球信号指挥交通跳毫秒801603204001000801603204001000801603204001000801603204001000准备[32个]0.490.771.261.451.770.420.761.331.542.170.310.580.941.102.060.570.861.762.032.42[26]第二十六话0.360.621.071.171.950.330.621.051.231.980.260.580.911.042.080.380.601.361.582.05[31]第三十一话0.330.520.891.061.710.110.200.410.531.000.150.320.520.602.000.310.491.231.391.80DMGNN0.300.460.891.111.660.100.170.310.411.260.150.300.570.721.980.370.651.491.711.79运动运行足球步行洗窗毫秒801603204001000801603204001000801603204001000801603204001000准备[32个]0.320.480.650.741.000.290.500.870.981.730.350.450.590.640.880.310.470.740.931.37[26]第二十六话0.280.430.540.570.690.280.480.790.901.580.350.440.460.510.770.300.470.791.001.39[31]第三十一话0.330.550.730.740.950.180.290.610.711.400.330.450.490.530.610.220.330.570.751.20DMGNN0.190.310.470.490.640.220.320.790.911.540.300.340.380.430.600.200.270.620.811.09表6.不同时间戳下不同尺度的DMGNN短期预测的平均MAE。节点数MsMaes鳞片2010532801603204001✓0.290.550.871.00一、二✓✓0.270.530.850.97一、二、三✓✓✓0.270.520.830.95第1、 3条✓✓0.280.530.840.92一、二、三、四✓✓✓✓0.280.540.870.981、 4✓✓0.280.540.860.97一、二、三、五✓✓✓✓0.280.550.860.99一、五✓✓0.290.550.871.00图6.对H3.6M的"拍照"行为进行短期和长期预报的定性比较。表5. DMGCNN与H3.6M数据集上的最新模型之间的平均时间成本比较。模型时间开销（ms）微差4001000TP-RNN [7]48.96127.41[第14话]33.2998.17[31]第三十一话71.43144.93DMGNN29.1886.04图片和视频在附录中。有效性和效率测试。我们比较了DMGNN的运行时间成本的几个最新的模型。表5显示了H3.6M数据集上短期和长期运动预测的不同方法的运行时间我们看到，与其他竞争对手相比，DMGNN实现了最短的运行时间，同时生成未来的姿势超过400或1000 ms [32，26，31]。DMGNN只需要29岁18ms，在400 ms内生成运动，这表明具有多尺度图的DMGNN具有高效的操作。6.3. 消融研究我们现在研究DMGNN的一些关键要素多尺度效应。为了验证所提出的多尺度表示，我们采用DMGNN中的各种尺度进行基于3D卷积的运动预测。除了我们模型中的三个尺度外，我们还引入了另外两个尺度：s4，它表示一个身体，Ms 4 = 3个部分：左肢体、右肢体和躯干; s5，它包含Ms 5 = 2个部分：上半身和下半身;请参阅阑尾表6列出了各种规模的MAE。我们看到，当我们结合s1，s2和s3，最低预测-准备CSMTraj-GCNDMGNNGT0 40 200400800时间222表7.具有不同MGCU数量的DMGNN的MAE和运行时间用于H3.6M的短期和长期预测。不同时间戳的MAE（ms）运行时间（ms）MGCU801603204005601000400100010.300.560.871.021.251.5227.4283.0120.290.530.850.991.201.5227.8983.9530.270.540.830.951.181.4928.3484.8940.270.520.830.951.161.4829.1886.0450.280.550.830.961.171.5130.3788.3960.290.540.840.981.191.5431.5591.15表8.在H3.6M上，具有不同数量的CS-FB和特征聚合器的DMGNN的平均MAE超过400 ms。400 msCS-FB编号1230没有相对0.6230.6220.6180.630相对0.6180.6130.616错误的实现。值得注意的是，使用两个尺度（s1，s2或s1，s3）明显优于只使用s1;但涉及太抽象的尺度（s4或s5）往往会损害预测。MGCU数量的影响。为了验证编码器中多个MGCU的效果，我们将MGCU的数量从1调整到6，并显示了H3.6M上短期和长期预测的预测误差和运行时间成本，如表7所示。我们看到，当我们采用1到4个MGCU时，预测MAE下降，时间成本不断上升;当我们使用5或6个MG-CU时，预测误差稳定地较低，但时间成本上升较高。因此，我们选择使用 4 个MGCU，从而实现精确的预测和高运行效率。CS-FB的影响。在这里，我们评估1）在CS-FB中的跨尺度图推理期间使用相对特征的有效性;2）在一个223表9.不同运动差异顺序的平均MAE不同时间戳的MAE（ms）差序80160320400β= 00.340.600.861.01β= 0， 10.280.540.830.97β= 0、 1、 20.270.520.830.95图7.用于短期运动预测的具有不同最终融合系数λ的DMGNN变体的平均MAE4个MGCU的序列。对于0CS-FB，模型仅在编码器末端融合所有刻度。表8呈现了在H3.6M上跨400 ms 我们看到，1）使用相对特征导致较低的MAE，验证了这种增强特征的有效性; 2）2个CS-FB导致最佳预测性能。直觉是0或1个CS-FB融合不充分，3个CS-FB倾向于融合冗余信息以混淆模型。最终融合中λ的影响。最终融合（3）中的超参数λ平衡了联合尺度和更抽象尺度之间的影响。图7示出了用于H3.6M的短期预测的具有不同身体尺度和CS-FB我们看到，当我们使用3个尺度，2个分层CS-FB和λ= 0时，性能达到最佳。6，即使它对λ的变化是鲁棒的。高阶运动差异的影响。我们研究了各种顺序的运动差异馈入我们的模型的编码器和解码器的影响。我们评估DMGNN与组合的0，1，2阶的姿态差异。表9显示了DMGNN的MAE，其中各种输入差异用于短期运动预测。我们看到，建议DMGNN获得最低的MAE时，它采用0，1，2阶的运动差异。这表明高阶差分显著提高了预测性能。6.4. 范畴不可知性分析在这里，我们验证了DMGNN可以学习判别运动特征，用于类别不可知的预测。我们首先将学习到的不同动作的跨尺度图可视化，以测试区分能力。图8示出了在“行走”和“方向”上的两个CS-FB中的图图8.针对两个动作，在两个CS-FB上学习的动态跨尺度图：H3.6M中的“行走”和“方向”。表10.在H3.6M上比较了DMGNN和其他方法在跨尺度图和运动特征上的分类精度方法关于CS-FB1关于CS-FB2对H准备[32个]TP-RNN [七]《中国日报》精度百分之二十八点六40.1%百分之四十五点七百分之二十二点六百分之二十四点四在H3.6M中，对于每一个动作，我们表现出一些强有力的关系，从详细的规模，在粗尺度的右臂。我们看到，i）对于每个动作，CS-FB捕获人体的不同范围：第一个CS-FB中的图形集中在附近的身体组成部分;第二个CS-FB捕获更多的全局和动作相关的效果;即，手和脚在行走期间影响手臂;以及ii）跨尺度图对于各种动作是不同的，特别是在第二CS-FB中，捕获不同的模式。接下来，我们对中间表示进行动作分类，以测试区分能力。我们孤立地训练一个两层MLP来分类每个动态跨尺度图。我们还对DMGNN、Res-sup等编码器的输出进行了TP-RNN（类感知）和

下载后可阅读完整内容，剩余1页未读，立即下载