三维人体运动的预测方法：基于图网络和对抗学习的深度生成模型

67 浏览量更新于2023-10-23 收藏 2.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6519三维人体运动预测中国南京科技大学，南京，中国网址：cuiqiongjie@njust.edu.cn，sunhuaijiang@njust.edu.cn，网址：www.example.com，yangfei92516@163.com摘要3D人体运动预测，即，从给定的历史姿态预测未来序列是动作分析、人机交互、机器智能的基本任务。最近，最先进的方法假设整个人体运动序列涉及由每个关节对之间的链接形成的全连接图。尽管已经取得了令人鼓舞的性能，但由于忽视了人体关节的自然连接的固有和有意义的特征，可能会产生意想不到的而且，这种复杂的拓扑结构大大增加了训练难度。为了解决这些问题，我们提出了一个基于图网络和对抗学习的深度生成模型。具体地说，该姿态被表示为一种新的动态图，其中关节对的自然连通性被显式地利用，并且几何分离关节的链接也可以值得注意的是，在所提出的模型中，自然连接强度是自适应学习的，而在以前的计划中，它是恒定的。我们的方法在两个表示上进行评估（即，基于角度、基于位置）从各种大规模3D骨架基准（例如，H3.6M，CMU，3DPWMoCap）。大量的实验表明，我们的方法实现了显着的improvements对现有的基线在准确性和可视化。代码将在https：//github上提供。com/cuiqiongjie/LDRGCN.1. 介绍基于3D骨架数据的人体运动预测致力于从历史姿势预测未来序列[24，15]。由于在机器智能、自动驾驶汽车、人机交互，特别是需要与人类交互的应用中的潜力，它已被广泛研究并引起了相当大的关注[14，7，24，25，21]。传统方法通常采用RNN来对人体运动序列进行建模[11，18，10]。怎么-*通讯作者图1. 示例结果。从上到下，我们展示了ConvSeqSeq，FC-GCN，FC-GCN 3D，Ours和Ours 3D的结果。红色的矩形代表一组对比的姿势。在短期预测中，我们的方法的预测与地面实况无法区分，即使对于较长范围的预测，结果在语义上仍然是等价的。然而，RNN逐帧计算时间上下文，这可能导致梯度消失或爆炸，带来众所周知的训练困难。相应地，如在先前的工作[21，14]中所描述的，递归模型不可避免地涉及误差累积和向平均姿态的收敛。另一方面，CNN也被引入以进一步提取多尺度空间相关性，并取得了显着的性能[21]。然而，骨架序列本质上是一种非欧几里德数据，而CNN理论上只适用于标准的2D网格表示。最近，图卷积网络（GCN），常规CNN的一般形式具有改进的通用性和高可解释性，已经受到越来越多的关注并广泛应用于许多应用中[6，20，33]。研究人员还试图利用GCN来有效地提取用于预测人体运动的上下文信息[23]。他们认为，整个骨架序列作为一个隐含的和不受限制的图，并采用GCN学习这些链接之间的所有关节对的序列虽然这种全连接图模型（FC-GCN）已经取得了令人印象深刻的结果，但它不能排除...6520利用人体骨骼结构。人体的层次结构表征了人体关节的拓扑关系，反映了人体关节的固有特性和强依赖性。忽略这种有意义的连接性相当于粗略地将3D骨架数据视为一般格式，从而产生不真实的预测。为了应对上述挑战，我们提出了一种新的图生成模型，以有效地预测未来的姿势从给定的历史运动。具体来说，我们构建了两个参数化图来学习3D骨架序列中关节之间的动态关系：一个是连接图，它明确地利用了人体骨骼的自然运动学链接。由于人体关节信息的异质性，与以往工作中的固定强度不同，我们创新地参数化邻接矩阵Ap来学习这些不同的模式。注意，对于A p，只有物理连接部分之间的关系是可学习的，而其他分离关节的权重总是固定的;另一个是全局图Q。除了自然连接，几何上不相邻的接头可能是相互关联的。例如，在跑步过程中，左手的运动总是显示出与右手的强相关性，而不是与连接到右手的左肩关节的强相关性。我们通过一个可学习的全局图来解决这个问题，以便在优化过程中学习这些隐式连接。然后，部分约束的AP帮助灵活的Q稳定训练过程，Q帮助AP捕获隐式关系。此外，受文献[14]的启发，我们进一步引入了一种图分类器来区分由输入序列和预测序列拼接而成的长序列或原始实验经验表明，对抗正则化确实保留了细节信息并促进了预测可视化。本文的主要贡献总结如下：（1）我们将相邻矩阵参数化为连接图，以学习自然连接的权重，而不是固定连接的权重，并提出一个可学习的全局图来捕获隐式关系，如图2所示。这种数据驱动的方法增加了图形构造的灵活性，使其更具体、更适用于人体运动结构。(2)引入图对抗算法进一步增强预测的可视化。(3)在各种大规模基准的两个骨架表示上（即，H3.6M[17]、CMU [1]和3DPW[28] MoCap数据集），大量的实验表明，我们的模型在几乎所有场景中的可视化和精度方面都超过了最先进的方法2. 相关工作人体运动预测典型的方法将人体运动预测公式化为序列到序列图2. 左：人体骨架。中图：连接图，蓝线表示自然连接的可学习优势右：全局图，灰线为右膝关节的隐式关系。（seq2seq）学习问题[11，24，27]。具体来说，RNN被提出来捕捉人体运动的时间信息，取得了令人鼓舞的结果[4，25]。Fragkiadaki等人[11]提出两种解决办法： 3层长短期记忆（ LSTM）网络（即， LSTM-3LR）和编码器-递归-解码器（即，ERD），其中LSTM用于提取长期依赖关系。同时，开发了一种结构RNN [18]来对3D骨架序列的时空结构进行语义建模。上述两种方法是动作特定的模型，并且经常观察到输入序列的预测的第一帧和最后一帧之间的显著Martinez等人[24]将残差学习引入递归模型以产生平滑预测。Tang等人[27]建议使用注意力机制来捕获长期的节奏依赖性，以有效地对人体运动进行建模。怎么-永远。基于RNN的模型经常陷入收敛到静态平均姿势的批评问题。最近，研究人员提出了RNN的各种变体，历史运动递归模型[22]，Verso-Time Label Noise-RNN [12]和三棱柱RNN [8]。不幸的是，由于RNN是逐步计算时间上下文的，因此仍然不可避免地导致错误累积。目前，生成对抗网络（GAN）已经表现出令人印象深刻的性能[2，13，21，30]。Li等[21]提出了一种卷积神经网络来模拟人体运动序列并生成逼真的预测姿势。Gui等人 [14]提出了一种新的框架，称为adversar-geometry aware encoder-decoder（AGED），其中，所述编码器区分观察到的帧和预测或地面实况的级联。图卷积网络。作为CNN的推广，GCN自然适用于具有特定图结构的数据，例如，点云[30]，社交网络[32]和3D骨架数据[26，23，12]。Yan等人[31]结构在基本骨架上定义的时空图和用于动作识别的时间上连续的姿势。该策略利用了人体关节之间的强自然依赖性;但是，它降低了灵活性。Shi等人[26]通过参数化6521˜一图3. 建议模型的图示。每个GCN层之后是时间卷积以形成GCN块，以提取GCN块。时空层次相关。在每个块中，实线和虚线分别表示可学习的自然连接和隐式关系，其中不同的灰度深度表示不同的权重。最终模型由9个剩余GCN块组成，以学习3D骨架序列的动态关系。然后，将对历史姿势的观察馈送到网络中以预测具有端到端方式的未来序列。请注意，符号+是剩余学习或跳过连接。无限制矩阵，以自适应地学习隐式连接，除了自然连接。对于人体运动预测，Maoet al.[23]建议整个运动序列作为一个无约束的拓扑结构，呈现令人印象深刻的结果。然而，这样的构造相当于粗略地将运动序列视为没有人类关节的有意义的自然连接的一般数据，并且无约束的学习可能导致不稳定的训练。代替上述解决方案，我们将邻接矩阵设置为模型参数，其中自然连接部分的权重在完整训练中是可学习的，而其他部分则固定为0。部分约束的邻接矩阵保证了灵活性和充分利用人体骨骼的内在关系此外，受[26]的启发，除了自然连接之外，我们还参数化全局图以学习关节的隐式连接性。通过上述图的构造，我们的模型可以学习3D骨架序列的动态关系，从而产生高保真的预测。预测和地面事实之间的差异。3.1. 学习动态关系3D骨架数据，从MoCap设备逐帧记录特定关节的运动信息，其本质上是一种序列数据，自然适合于回流神经网络（RNN）。然而，由于提取空间信息的能力有限以及不可避免的误差积累，RNN变体通常会产生不切实际的预测。此外，传统的CNN也忽略了人体关节的运动学依赖性。图上的卷积因此，本文提出了一种新的动态GCN模型，用于自动学习MoCap序列以便有效地预测未来的姿势。具体地说，我们提出了一个无向图的姿态G=（V，E），其中V是顶点集，即，关节组，男人的身体 E ={e ij> 0 |i，j ∈ 1，2，.，N}是边集，v i和v j是自然连接的。然后，运动序列被公式化为M ={G1，G2，.， GT}的T帧。GCN的典型操作形式表示为：3. 该方法在前人工作的基础上[14，21，9]，本文，F（1+ 1）=g（F（l），A）=σ[A<$F（l）W（l）]，A=D1 12AAD2，（1）从运动捕获（MoCap）技术获得3D骨架样本。运动序列由一系列连续的帧（姿态）组成，其中每个帧记录每个帧的角度或位置信息。其中F（l）∈RN，Sl和F（l+1）∈RN，Sl+1分别是第l层的输入和输出张量. W∈R Sl，Sl+1是可学习的权矩阵，σ是激活函数（例如，ReLU）。D∈RN，N是对角次矩阵，其中D∈ i，i=关节假设观测到的运动序列是公式-Σji，j . 其中A是邻接矩阵，I是表示为X1：T={x1，x2，...，xt，…，其中1≤t≤T，并且来自X的每个xt∈R3N表示在时间步长t处的姿态，其中N是关节数r。然后，我们表示Y={n=T+1，n=T+2，...， ·yT+ yt}是具有t个帧的预测，并且Y={y+1，yT+2，.，yT+t}是对应的未来运动的地面实况我们的目标是学习一个最优生成器P_n，它可以准确地将历史姿态X映射到未来序列Y。为此，我们建议学习骨架序列的动态关系，以最小化单位矩阵请注意，在以前的工作[20，31，12]，邻接矩阵的权重与优化过程一致地固定，即，A∈{ei，j= 1}.随着网络层次结构的加深，这种恒定表示也可以部分地对高级特征进行建模。然而，这种策略并不是最佳的表达方式。直觉，所有的与顶点Vi相连的关节对Vi的运动模式的贡献是不相等的。例如，在行走过程中，肩关节比肩关节更依赖于躯干。−6522pppp肘关节连通图为了解决这个问题，我们创新性地开发了一个由邻接矩阵参数化的连接图，形式为Ap∈RN，N，它表示自然链接的可学习连接强度，人类骨骼与先前工作[31，12]中邻接矩阵的固定权重不同，我们认为人类骨骼中自然连接的相互依赖性是可训练的，而不是恒定的，然后我们学习自适应地调整这些自然关系的权重在优化过程中，第l层的A（l）∈RN，N逐渐达到最优解，并自动得到物理连接的关节对之间的相对重要性，其操作可简化为：F（1+ 1）=g（F（1））=σ[（A（1）<$M）F（1）W（1）]，（2）其中Ap是N×N可学习的连接矩阵，F（l+1）∈RN×Sl+1和F（l）∈RN×Sl是第l层的输入和输出.M∈RN，N是固定的掩码矩阵，符号表示元素乘积。对于二元M，对于部分约束的Ap={eij}，在整个训练过程中，只有互连顶点优化，而单独的部分固定为0。换句话说，引入Ap以学习人体骨骼的自然与常数邻接矩阵不同，参数化Ap可以自适应地处理关节之间的连接关系，如图2的中间所示。此外，具有固定拓扑结构的可学习的事实意味着基于先验知识正则化所提出的模型，这可以帮助模型更快地收敛到注意，可训练的Ap仍然由原始邻接矩阵A初始化。F（1+ 1）=g（F（1））=σ[（A（1）<$M+Q（1））F（1）W（1）]，（3）其中A（l），Q（l）∈RN×N是第l层的最优矩阵，通过训练过程共同学习骨架序列的动态关系。这种结构带来了几个显著优势：(1) 可学习Ap自适应地提取人体关节自然连接的异构信息;(2) 无约束Q提高灵活性;(3) 部分限制的Ap保证了Q的稳定训练;(4) Q作为Ap的补充，学习底层拓扑;(5) Ap和Q合作有效地学习骨架序列的动态关系。使用卷积的时间建模典型的方法[24，4，27]是使用RNN对人体运动的时间信息进行建模。然而，基于RNN的模型不可避免地积累误差并增加计算量。复杂性与RNN相反，TCN（即，1D卷积）是一种前馈操作，证明了在参数数量、并行性、准确性和模型复杂性方面的优势，用于建模时间模式[3，31]。因此，我们采用TCN沿时间维的人的运动提取时间相关性。3.2. 优化由于基于位置和基于角度的骨架序列的不同特点，我们引入了以下损失函数，以获得更好的可视化和预测姿态的准确性。内容损失，以确保预测序列尽可能与实验样品的全局信息一致，即，1个T+1个T全局图。到目前为止，所构造的图仍然是从人的运动学结构手工设计的，Lcon=∆ti=T+1j=1 yi，j−、（四）男人的身体即使自适应地计算自然连接的权重，该配置也可能无法对人体骨架的空间特性进行适当建模。例如，在跑步中，左腿和右腿总是相互支撑，但它们之间没有物理由于节点关系的分离，Ap对这些有价值的信息建模的能力较低。为了应对这些挑战，我们进一步提出了一个其中yi，j和yi，j是第i帧的第j个关节，用于地面分别是真理和预言 d，N是人体关节的数量和预测长度。注意，对于3Dk eleton序列的两种表示，yi，j和kyi，j分别是角度或位置信息。还引入了Gram矩阵损失，以保持预测模式和原始姿态之间的一致性，并避免收敛到平均姿态，即，1T+t−1用于捕获隐含但关键结构fea的全局图-L=¨H(˜yi,˜yi+1)−H(yi,yi+1)¨、（五）超越自然联系的联系。特别是，我们克劳特¨ ¨i=T+1t2参数化矩阵Q∈RN，N从具有相同大小的Ap的零矩阵初始化，以自适应地学习非-人类所有关节之间的关系。与Ap相比，Q是灵活的，没有任何约束，这意味着它随着训练过程逐渐达到最优。除了自然关系外，全局Q还可以学习分布在训练样本中的有用的隐式连接权重。最后，所提出的模型的更新公式表示为：其中gram矩阵定义为H（α，β）为[α：β][α：β]T，[：]表示连接。骨骼长度损失，强制每个生成姿势的骨骼长度接近地面实况。此外，对于骨骼序列的3D坐标，固定的骨骼长度可以迫使预测的关节位置位于具有其父关节作为原点，骨骼长度作为半径。这大大减少了联合移动的搜索空间，有利于网络的快速收敛。对于第i个姿势的第j个关节的骨长度li，j，26523L图4. 定性比较。短期预测（400ms）显示在（a）遛狗，（b）问候，以及（c）吸烟的长期预测（1000ms）。在每个子图中，第一行是地面实况;第二，第三和第五是ConvSeq 2Seq [21]，FC-GCN [23]和我们基于角度的模型的结果;第四部分是基于三维坐标的FC-GCN模型和我们的模型的预测。在每一行中，前3个动画是观察到的姿势，并且预测帧是预测帧，其中每个动画的间隔是40ms。红色的长方形是对比的框架，圆圈是不合理的部分。从结果中，我们观察到，所提出的模型在所有情况下产生更逼真的可视化。对于对应的预测部分，该损失表示为：以下是L骨=1个T+N¨迪i，j --¨¨i，j.（六）降低损失是用来优化所提出的模型，ti=T+tj=12在关节角度表示上，即，最近，GAN [13，2]已经引入GCN的变化，并在许多应用中取得了显着的性能[30，5，32]。从这些工作的动机，我们为我们的生成器P开发了对抗学习，以进一步增强预测可视化。特别是，以下各项-根据WGAN-GP [16，4]的形式主义，我们设计了一个带有梯度惩罚的图PDD，它共享P=arg min maxλconLcon+λgramLgram+LP+LD，（9）P D∈D其中λ con= 0。01，λ gram= 0。001是平衡每个损失项重要性的超参数;基于位置的骨架序列的最终损失。其中最佳λ con=0。01，λ bone= 0。0005，我们提出了三维坐标骨架序列的最终损失函数，即，生成器架构，但具有更少的层。然后P= arg min maxλconLcon+λL+LP+LD（10）对抗性损失可以表示为：P D∈D骨骨LD=D （ [X ：P （X ） ]）−D （ [X ：Y]）+λ（ xD （x）<$2−1）2，（7）LP=−D（[X：P（X）]），（8）其中（<$$>x<$D（x<$）<$2−1）2是梯度惩罚项，x<$=<$（[X：Y]）+（1−<$）（[X：P（X）]）是具有均匀分布的随机样本 ”[14]《明史》：“以礼为礼。引入子来区分从历史序列和预测或地面真值连接的长序列，从而获得更好的结果。在所有实验中，我们设定λ= 5。在本文中，我们利用两个最终的损失函数，分别基于角度和基于位置的人体运动表示：3.3. 执行作为主要组件，每个块由一个拟议的GCN层和一个TCN层组成，丢包率为0的情况。3 .第三章。此外，每一层之后是一个批量归一化，和ReLU激活函数，如图所示3. 我们还在每个块中添加了一个剩余连接，以稳定训练过程。然后，最终模型由9个残余动态GCN块组成。由于更深层的表示更抽象，我们逐渐增加GCN层中输出通道的数量，即，六十四六十四128，128，128，256，256，256.跳过连接被添加到输入和输出层。我们用k∈1实现了TCNΣ65242走路吃饭吸烟讨论方向毫秒801603204001000801603204001000801603204001000801603204001000801603204001000残留物补充[24日]0.28 0.49 0.72 0.811.140.23 0.39 0.62 0.761.340.33 0.61 1.05 1.151.83 0.31 0.68 1.01 1.091.790.26 0.47 0.72 0.841.46ConvSeqSeq[21]0.33 0.54 0.68 0.730.920.22 0.36 0.58 0.711.240.26 0.49 0.96 0.921.62 0.32 0.67 0.94 1.011.860.39 0.60 0.80 0.911.45[14]第十四话0.28 0.42 0.66 0.730.730.22 0.35 0.61 0.740.740.30 0.55 0.98 0.980.990.30 0.63 0.97 1.061.060.26 0.46 0.71 0.811.32[14]第十四话0.22 0.36 0.55 0.670.910.17 0.28 0.51 0.640.930.27 0.43 0.82 0.841.21 0.27 0.56 0.76 0.831.300.23 0.39 0.63 0.691.21[23]第二十三话0.18 0.31 0.49 0.560.790.16 0.29 0.50 0.621.050.22 0.41 0.86 0.801.13 0.20 0.51 0.77 0.850.850.26 0.45 0.71 0.791.07我们0.16 0.29 0.46 0.570.710.16 0.27 0.49 0.640.970.20 0.38 0.79 0.821.08 0.19 0.45 0.72 0.810.840.29 0.43 0.59 0.680.95打招呼打电话摆姿势买东西坐毫秒801603204001000801603204001000801603204001000801603204001000801603204001000残留物补充[24日]0.75 1.17 1.74 1.831.930.23 0.43 0.69 0.821.730.36 0.71 1.22 1.482.43 0.51 0.97 1.07 1.162.300.41 1.05 1.49 1.632.14ConvSeqSeq[21]0.51 0.82 1.21 1.381.720.59 1.13 1.51 1.651.810.29 0.60 1.12 1.372.65 0.63 0.91 1.19 1.292.520.39 0.61 1.02 1.182.67[14]第十四话0.61 0.95 1.44 1.611.810.23 0.42 0.61 0.791.770.34 0.70 1.19 1.402.01 0.46 0.89 1.06 1.111.890.46 0.87 1.23 1.512.11[14]第十四话0.56 0.81 1.30 1.462.120.19 0.34 0.50 0.681.410.31 0.58 1.12 1.341.78 0.46 0.78 1.01 1.071.770.41 0.76 1.05 1.191.72[23]第二十三话0.36 0.60 0.95 1.131.430.53 1.02 1.35 1.482.080.19 0.44 1.01 1.241.54 0.43 0.65 1.05 1.131.730.29 0.45 0.80 0.971.47我们0.35 0.56 0.87 0.981.330.43 0.54 0.63 0.781.330.15 0.44 0.91 1.071.340.43 0.57 0.88 1.081.490.27 0.43 0.69 1.011.38坐下来拍照等待遛狗一起散步毫秒801603204001000801603204001000801603204001000801603204001000801603204001000残留物补充[24日]0.39 0.81 1.40 1.622.720.24 0.51 0.90 1.051.510.28 0.53 1.02 1.142.34 0.56 0.91 1.26 1.401.860.31 0.58 0.87 0.911.42ConvSeqSeq[21]0.41 0.78 1.16 1.312.060.23 0.49 0.88 1.061.400.30 0.62 1.09 1.302.50 0.59 1.00 1.32 1.441.920.27 0.52 0.71 0.741.28[14]第十四话0.38 0.77 1.18 1.411.880.24 0.52 0.92 1.011.220.31 0.64 1.08 1.121.91 0.51 0.87 1.21 1.331.510.29 0.51 0.72 0.751.08[14]第十四话0.33 0.62 0.98 1.101.980.23 0.48 0.81 0.951.650.24 0.50 1.02 1.131.65 0.50 0.81 1.15 1.271.610.23 0.41 0.56 0.621.47[23]第二十三话0.30 0.61 0.90 1.001.450.14 0.34 0.58 0.701.350.23 0.50 0.91 1.141.23 0.46 0.79 1.12 1.291.310.15 0.34 0.52 0.571.41我们0.29 0.62 0.87 0.931.420.13 0.33 0.54 0.711.200.21 0.48 0.84 1.151.210.45 0.68 0.93 1.141.380.15 0.33 0.49 0.541.38表1. H3.6M数据集短期和长期预测的角度误差比较。最好的结果用粗体突出显示，第二个用下划线突出显示。滤波器大小，其中时间维度为k= 9。识别器具有类似的六层结构。多层感知器底层的单元数设置为512、246、64、1。请注意，受AGED [14]的启发，我们引入了对抗序列来区分批量大小设置为32。我们利用Adam [19]来训练我们的模型，学习率初始化为0.001，每个时期衰减0.98。3DPW MoCap [29]是最近发布的大规模动作分析数据集，其中包含51k个室内或室外姿势。为了进行公平的比较，我们采用了官方训练集、测试集和验证集的划分方案。所有序列的帧速率为30fps。4.2. 评价标准和基线标准：根据[21，24]中先前的标准评估方法，我们报告了地面实况和预测之间的角度误差的比较结果，即，4. 实验11T+tN-是的E=y.— y4.1. 数据集和预处理角度Ni=T+1j=1 . i、ji，j. 、（11）我们使用几个动作分析基准来验证所提出的模型的有效性：[17]这是一个最大的，也是一个最大的。其中，i，j 是第j个关节的第i帧中的预测角度并且yi，j是对应的地面真值。此外，我们还使用平均每关节位置误差（MPJPE）[17，23]以毫米为单位评估3D误差，即，人体运动分析数据集。涉及15复杂的动作场景，包括周期性的（例如，步行）.1E3D=1T+tN¨¨p— p~¨（12）或非周期性的（例如，吃，吸烟），由七个AC-Ni=T+1j=1i、ji，j2tors.与[21，23]中的数据预处理解决方案一致，我们已经删除了全局平移和旋转以及恒定关节。最后，每个姿势被表示为17个关节的骨架。在训练过程中，我们将所有序列下采样到每秒25帧（fps），并将其重新表示为指数映射。此外，骨架序列归一化减去整体数据集的平均姿态，然后除以标准差。在以前的工作[18，21，14]的基础上，我们使用主题-5（S5）来测试我们的模型，S11是验证集，其余五个主题是训练样本。CMU MoCap [1].我们还在CMU MoCap数据集上发表了实验结果。与文献[24，21，23]一样，我们选取了8个动作作为样本，行走奔跑，擦窗。我们在他们发布的代码中使用了相同的训练/测试其他预处理策略与H3.6M相同。其中pi，j和pi，j是地面实况的位置，预测，可以通过转换预测的角度到3D空间，或者直接在骨架序列的3D坐标上训练。基线：为了评估所提出的模型的有效性，五种最新的方法被用作竞争方法，包括递归模型（残差补充）。[24]第二十四话前向模型（ConvSeqSeq）[21]，基于GAN的（AGEDw/或w/o adv）[14]和图形方法（FC-GCN）[23]。除了评估角度误差之外，我们还研究了基线方法的3D误差，该基线方法利用[23]中的策略另一方面，我们将基于位置的运动序列作为基线和我们的方法的输入和输出，统计三维误差的比较结果。4.3. 结果继以前的工作[24，25，4，27]，在本文中，我们专注于未来400ms的高精度预测6525走路吃饭吸烟讨论方向毫秒80160320400100080160 320 400 100080160320400100080160320400100080160 3204001000ConvSeq2Seq [21]21.8 37.5 55.963.092.1 13.3 24.5 48.6 60.0 87.7 15.4 25.5 39.344.567.5 23.6 43.6 68.474.9 134.4 26.7 43.3 59.0 72.4 132.2[21]第二十一话17.1 31.2 53.861.589.2 13.7 25.9 52.5 63.3 74.4 11.1 21.0 33.438.352.2 18.9 39.3 67.775.7 123.9 22.0 37.2 59.6 73.4 118.3[23]第二十三话11.1 19.0 32.039.153.79.2 19.5 40.3 48.9 62.59.2 16.6 26.129.047.3 11.3 23.7 41.946.681.4 11.2 23.2 52.7 64.192.5[23]第二十三话8.9 15.7 29.233.450.98.8 18.9 39.4 47.2 57.17.8 14.9 25.328.744.39.8 22.1 39.644.178.5 12.6 24.4 48.2 58.489.1我们9.7 17.7 28.332.251.3 10.2 17.4 38.7 49.3 56.68.9 14.1 25.926.741.47.6 23.4 36.639.969.5 10.4 24.1 44.7 51.378.8我们的3D8.9 14.9 25.429.945.87.6 15.9 37.2 41.7 53.88.1 13.4 24.824.943.19.4 20.3 35.241.267.4 13.1 23.7 44.5 50.978.3打招呼打电话摆姿势买东西坐毫秒80160320400100080160 320 400 100080160320400100080160320400100080160 3204001000ConvSeq2Seq [21]30.4 58.6 110.0 122.8 198.9 22.4 38.4 65.0 75.4 133.2 22.4 42.1 87.3 106.1 187.3 28.4 53.8 82.193.1 142.4 24.7 50.0 88.6 100.4 182.3[21]第二十一话24.5 46.2 90.0 103.1 191.2 17.2 29.7 53.4 61.3 127.5 16.1 35.6 86.2 105.6 163.9 29.4 54.9 82.293.0 139.3 19.8 42.4 77.0 88.4 132.5[23]第二十三话14.2 27.7 67.182.9 153.4 13.5 22.5 45.2 52.4 117.9 11.1 27.1 69.486.2 142.1 20.4 42.8 69.178.3 128.6 11.7 27.0 55.9 66.9 130.2[23]第二十三话14.5 30.5 74.289.0 148.4 11.5 20.2 37.9 43.2 94.39.4 23.9 66.282.9 143.5 19.6 38.5 64.472.2 127.2 10.7 24.6 50.6 62.0 119.8我们13.4 31.2 69.386.1 133.2 11.7 18.3 32.8 44.1 87.98.6 19.2 59.484.2 141.7 18.2 39.1 63.275.2 121.4 9.8 25.2 48.9 59.4 104.9我们的3D9.6 27.9 66.378.8129.7 10.4 14.3 33.1 39.7 85.88.7 21.1 58.381.9 133.7 16.2 36.1 62.876.2 112.6 9.2 23.1 47.2 57.7 106.5坐下来拍照等待遛狗一起散步毫秒80160320400100080160 320 400 100080160320400100080160320400100080160 3204001000ConvSeq2Seq [21]23.9 39.9 74.689.8 189.3 18.4 32.1 60.3 72.5 156.4 24.9 50.2 101.6 120.0 221.5 56.4 94.9 136.1 156.3 234.1 21.1 38.5 61.0 70.4 156.3[21]第二十一话17.1 34.9 66.377.7 177.5 14.0 27.2 53.8 66.2 151.2 17.9 36.5 74.990.7 205.8 40.6 74.7 116.6 138.7 210.2 15.0 29.9 54.3 65.8 149.8[23]第二十三话11.5 25.4 53.965.6 156.2 8.3 15.8 38.5 49.1 124.4 12.1 27.5 67.385.6 178.4 35.8 63.6 106.7 126.8 198.3 11.7 23.5 46.0 53.5 113.8[23]第二十三话11.4 27.6 56.467.6 163.9 6.8 15.2 38.2 49.6 125.7 9.5 22.0 57.573.9 157.2 32.2 58.0 102.2 122.7 185.4 8.9 18.4 35.3 44.3 102.4我们10.8 24.2 49.761.4 146.1 6.5 14.3 32.3 46.7 117.9 9.1 21.5 50.968.7 144.2 26.5 54.3 94.7 119.2 168.3 10.3 20.6 34.9 45.398.7我们的3D9.3 21.4 46.359.3144.6 7.1 13.8 29.6 44.2 116.4 9.2 17.6 47.271.6 127.3 25.3 56.6 87.999.4 143.2 8.2 18.1 31.2 39.479.2表2. H3.6M数据集上的3D误差比较。对于每种方法，我们使用两种评估策略：1）对基于角度的样本进行训练/测试，然后将预测的角度转移到3D位置; 2）直接在三维坐标序列上训练/测试。对于短期预测（即，10帧），以及用于长期预测的1000毫秒（即，25帧）。我们在三个基准上评估角度误差和3D误差。H3.6M：我们首先在H3.6M数据集上呈现定性比较结果，如图4所示。对于每个子图-从上到下，我们展示了ConvSeqSeq，FC-GCN，FC-GCN 3D，Ours和Ours 3D的基础事实和预测请注意，FC-GCN 3D和Ours 3D是在基于3D位置的骨架序列上训练的，而其他的则是基于角度的。图4（a）和图4（b）示出了“遛狗”和“问候”活动中的短期预测的可视化红色矩形表示不同方法的结果之间存在明显对比的动画，红色圆圈或椭圆表示不合理的部分。我们观察到，我们的方法在长期和短期预测方面都优于竞争性此外，在几乎所有的情况下，我们的方法的预测比基线更接近地面实况。这一结果证明了我们的方法的优越性。我们还进一步评估了预处理之间的角度误差措辞和地面实况表1显示了长期和短期预测的定量比较。我们观察到，在几乎所有情况下，通过我们的方法获得的角度err或小于基线方法在人物动画中，这种微小的误差很难被人眼检测到另一方面，基于RNN的残差超验。而AGED由于不可避免的误差积累问题和预测范围的扩大，逐渐获得较大的误差。基于对抗学习的ConvSeq2Seq取得了稍好的性能，但2D卷积本质上不适合非欧几里德人体运动的3D骨架。FC- GCN和我们的方法是前馈的，可以捕获骨架序列的连接关系。GCN忽略了有意义的自然联系，将人体运动视为一般数据。我们的方法不仅可以显式地学习自然连接的权重，而且还可以动态地捕获骨架序列的隐式依赖关系，从而获得稍好的性能。基于角度的姿态表示具有二义性，因为具有相同角度误差的姿态可能在3D空间中产生差异。而且，欧拉角无法避免万向节锁定的问题。因此，为了全面验证我们的模型，我们还使用以下策略来呈现预测的3D误差：首先，将预测的角度转换为基于3D位置的表示;其次，我们直接在3D骨架序列上进行训练和测试。例如，在表2中，我们将FC-GCN的预测角度转换到3D空间，然后报告3D误差，而FC-GCN 3D直接将序列的3D坐标而不是角度作为网络的输入和输出。我们观察到我们的方法始终超过基线（即，ConvSeq 2Seq，FC-GCN）在从预测角度到相应的基于位置的结果的转换下。当3D骨架序列直接用于训练和测试竞争方法时（即，ConvSeq 2Seq 3D，FC-GCN 3D）和Ours 3D，所提出的模型也获得了现实的推广。CMU和3DPW MoCap：与上述实验策略类似，我们还在CMU和3DPW数据集上分别以角度和3D位置作为训练样本研究了我们的方法，如表3、表4和表5所示。实验结果表明，该模型在短期和长期的预测大大超过基线这些结果再次证实了我们的模型用于人体运动预测的有效性培训细节与现状的比较[23]. 此前，FC-GCN取得了最先进的成果。然而，FC-GCN是一个巨大的和不受约束的拓扑结构，它忽略

下载后可阅读完整内容，剩余1页未读，立即下载