时空可分图卷积网络的姿态预测

163 浏览量更新于2023-10-13 收藏 710KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11209基于时空可分图卷积网络的姿态预测Theodoros So Fianos†，Alessio Sampieri†，Luca Franco and FabioGalasso Sapienza意大利罗马大学摘要人体姿态预测是一项复杂的结构化数据序列建模任务，由于其众多的潜在应用，其受到越来越多的关注。研究主要针对时间维的时间序列和人体关节与运动树或图形。这已经将两个方面解耦并且利用了来自相关领域的进展，但是它也限制了对人类姿势的复杂结构关节时空动力学的理解。在这里，我们提出了一种新的时空可分离图卷积网络（STS-GCN）的姿态预测。STS-GCN首次仅使用图卷积网络（GCN）对人体姿势动态进行建模，包括单图框架内的时间演变和空间联合交互，这允许运动和空间相关性的串扰。同时，STS- GCN是第一个时空可分的GCN：时空图连通性被分解为空间和时间因子这限制了空间-时间串扰，同时实现了完全的联合-联合和时间-时间相关。两个亲和度矩阵都是端到端学习的，这导致连接基本上偏离标准运动树和线性时间序列。在对三个复杂的，最近的和大规模的基准测试，Human3.6M [24]，AMASS [34]和3DPW [48]的实验评估中，STS-GCN的表现优于最先进的技术，在最困难的长期预测中，平均超过32%，而只需要1.7%的参数。我们定性地解释了结果，并通过因子联合联合和时间-时间学习图连接来说明图的相互作用。我们的源代码可在以下位置获得：https://github.com/FraLuca/STSGCN1. 介绍未来人体姿态预测是对联合时空†表示同等贡献图1：拟议管道概述。给定观察到的3D姿态的序列，新颖的STS-GCN编码时空身体动力学。编码表示用于通过时域卷积网络（TCN）来预测未来姿态。STS-GCN允许关节的空间和时间相互作用，参见。维特鲁威人身上的绿橙色链接和连接时间关节的蓝色虚线，两者都是学习的。但它的瓶颈，他们的串扰的一个新的GCN设计与分解的空间-时间邻接矩阵。（矢量图：请放大。）人体的动力学。由于其在自动驾驶[38]，医疗保健[44]，远程操作[39]和协作机器人[28，45]中的多种应用，这已经受到越来越多的关注，其中例如。预测人类的运动可以避免碰撞，并帮助机器人规划未来。到目前为止，研究已经解决了建模空间和时间在不同的框架。时间通常用时间维度上的卷积[10]，递归神经网络（RNN [35，36，49，11]，GRU [53，1]和LSTM[52]）或Transformer Net-works [9]进行建模。空间和关节的相互作用最近被图形卷积网络（GCN）[35]建模，主要是沿着kine连接身体关节Layer1STS-GCN层r2层 r3第4层输入姿势历史未来预测姿势TCNX4解码器编码器11210matic树该独立方法避免了在空间和时间维度上联合模型的复杂性（其性质不同），并利用了相关领域的进展。然而，这也限制了对复杂人体动力学的理解。在这里，我们提出了一种新的时空可分离图卷积网络（STS-GCN）预测人体运动。STS-GCN利用联合空间-时间GCN对空间联合-联合和时间-时间相关性进行编码[27]。单图框架有利于身体关节相互作用及其时间运动模式的串扰。进一步为了更好的性能，使用仅GCN模型导致相当少的参数。据我们所知，STS-GCN是第一个时空可分的GCN。我们通过将图的邻接矩阵Ast分解为As At来实现这一点。我们的直觉是，对空间关节和时间帧的串扰进行瓶颈这与最近的工作[29，5]有很大的不同，最近的工作[29，5]将图形交互与通道卷积分离，因此是深度可分离的。两种可分离的设计仍然有利于减少模型参数。图1示出了我们的模型的编码器-解码器设计。在通过STS-GCN进行身体运动编码之后，未来的姿势坐标用几个简单的卷积层来预测，通常称为时间卷积网络（TCN）[16，4，33]，鲁棒且训练快速。图注1的分解的A s A t图邻接矩阵的学习。这导致更好的性能，它允许我们解释联合联合和时间-时间在-相互作用，正如我们在图中进一步说明3、在SEC4.第一章在对Human3.6M [ 24 ]，AMASS [ 34 ]和3DPW [ 48 ]的现代，具有挑战性和大规模数据集的广泛实验中，我们证明了STS-GCN优于最先进的技术。值得注意的是，STS-GCN在所有三个数据集上的表现优于当前最佳技术[35]超过32%，平均而言，在最困难的长期预测中，仅采用其参数的1.7%。我们将主要贡献总结如下：• 我们提出了第一个时空可分图卷积网络，它首先分解图的邻接矩阵，而不是深度[29，5];• 我们的时空人体表示是第一个专门使用GCN的，它仅采用当前最佳竞争技术的1.7%参数[35];• 在最具挑战性的长期预测中，我们在Hu-man 3. 6M [24]、AMASS [34]和3DPW [48]上的最新技术水平平均提高了32%以上• 学习联合-联合和时间-时间图边缘权重，这允许解释它们的相互作用。2. 相关工作人体姿势预测是一个长期存在的问题[10]。我们讨论了相关的工作，区分时间方面的序列建模和空间表示。最后，我们涉及可分离卷积网络。时间建模人类姿势预测中的最新工作利用了循环神经网络（RNN）[15，25，37，11，35，36，49]以及诸如门控循环单元（GRU）[53，1]和长短期记忆网络[52]的循环变量。这些技术是灵活的，但它们在长期预测方面存在问题，例如训练效率低下和长期记忆不良[6，30，36，35]。研究人员试图解决这个问题例如，通过生成对抗网络[18]和模仿学习[41，49]进行训练。新兴趋势采用了（自我）关注模型时间[35，9]，这也适用于模型空间关系[41，9]。最先进的性能也可以通过时间维度上的卷积层[8，30，36，19，21，10]来实现，这被称为时间卷积网络（TCN）[16，4，33]。在这里，我们采用TCN的未来帧预测，由于其性能和鲁棒性，但我们编码的空间-时间的身体动态只有GCN。身体关节的表示几乎所有文献都采用3D坐标或角度。[37]已经注意到，对坐标的残差进行编码，因此速度可能是有益的。[36，35]采用了离散余弦变换（DCT），因此频率，这极大地支持了周期性运动。在这里，我们使用3D坐标和角度进行实验，但这些表示与我们的模型兼容。人体姿势的表示图是表示身体的自然选择。这些大多是手工设计的，主要利用运动树的自然结构[25，8，51]，并通过图形卷积网络（GCN）[27]进行编码。[51]学习图的邻接矩阵，仍然限制到运动树的连通性。最近，研究探索了连接在一起的所有关节并学习了图形边缘[36，35]。我们还让训练学习数据驱动的图连接和边权重（见图1）。3、第二。4个例子）。可分离卷积可分离卷积[40，13，22]通过1x1卷积滤波器解耦处理交叉通道相关性，并通过通道空间卷积解耦处理空间相关性。这些是深度可分离的卷积，基于交叉通道和空间相关性充分解耦的假设，因此最好不要联合映射它们[13]。据我们所知，只有[29]和[5]将此概念应用于GCN，但他们在空间[29]或频谱域[5]中为不同通道设计了不同的图边权重。相比之下，我们的STS-GCN是第一个GCN设计，它通过分解时空邻接矩阵来分离图形连接本身。在[13]的精神，11211XX∈∈∈ E∈∈ VH∈G V E×∈××× ×∈我们的假设是时空串扰是有限的，并且使它们解耦更有效和高效。3. STS-GCN所提出的模型通过对在给定输入帧中观察到的身体关节的坐标进行编码来进行，然后利用时空表示来预测未来的关节坐标。编码由所提出的STS-GCN图建模，其考虑身体关节随时间的相互作用，从而限制时空相互作用。解码未来的坐标与TCN建模。在本节中，我们将进一步深入了解STS-GCN模型。3.1. 问题形式化我们观察一个人的身体姿势，由T帧的V关节的3D坐标或角度给出。然后，我们预测接下来的K个未来帧的V个我们通过3D向量Xv，k表示关节，表示在时间k处的关节v。人类姿势的运动历史由张量in=[X1，X2…X T]，我们从3D坐标或关节X iR3× V的角度矩阵中构造出来，对于帧i=1...... T. 目标是预测未来的K个姿势out=[X T+1，X T+2…X T+K]。运动历史张量被编码到图中，该图对所有观察帧中所有身体关节的相互作用进行我们定义编码图=（，），其中TV节点i是所有观察到的时间帧上的所有身体关节。边（i，j）由时空邻接矩阵A stRVTX VT表示，其在所有时间关联所有关节的相互作用。3.2. GCN背景关节跨时间的时空依赖性可以方便地由GCN（基于图的神经网络模型f（Xin; A，W））编码。图卷积层l的输入是张量（l）RC （l）×V×T，其对T帧中观察到的V关节进行编码。 C（l）是隐藏表示的输入维度H（l）。对于第一层，它是H（1）=Xin和C（1）=3。图卷积层1输出H（1+ 1）∈RC （l+1）×V×T，由以下公式给出H（l+1）=σ（Ast−（l）H（l）W（l））（1）其中Ast-（l）∈ RVT × VT是层l的时空邻接矩阵，W（l）RC（l）×C（l+1）是可训练的图1是层1的图卷积权重，其将每个图节点从C（1）维度投影到C（1+ 1）维度，并且σ是激活函数，诸如ReLU、PReLU或tanh。两个值得注意的图形表示值得一提，ING为他们的鲁棒性和性能。[51]将图形编码约束到联合-联合关系，从而约束到仅沿着运动学树，并且通过内核T_T11的卷积层来处理时间-时间关系，将T个帧映射到T个通道。[35]也采用了仅空间邻接矩阵A s，但完全连接。在这两种情况下，邻接矩阵都是可训练的。3.3. 空时可分GCN所提出的STS-GCN的动机来自时间演化和空间关节的相互作用，以及来自关节-关节和时间-时间的相互作用是特权的信念。人体姿势动态取决于3种类型的交互：I. joint-joint;二. 时间-时间;以及iii. 联合时间STS-GCN允许所有3种类型的交互，但它限制了联合时间串扰。通过在单个时空编码GCN内关联3种类型的关系来对关节随时间的相互作用进行建模。通过将空时邻接矩阵分解为空间邻接矩阵和时间邻接矩阵的乘积来实现空时串扰的Ast=As At。因此，可分离的空时图卷积层l被写为如下H（l+1）=σ（As−（l）At−（l）H（l）W（l））（2）其中与Eq. （1）适用，除了我们下面解释的第l层的因子化的A s-（l）A t-（l）。邻接矩阵As负责关节-关节相互作用。它的维数为A sRV×V，并且它通过每个时刻的可训练V V矩阵（有T个这样的矩阵）来建模完全的关节-关节关系。类似地，At负责时间-时间关系。它具有维度AtRT×T，并且它为V个关节中的每个关节定义了完整且可训练的时间-时间TT关系矩阵。请注意，方程式2表示单个GCN层，编码身体动态的时空相互作用。分解的空间-时间矩阵瓶颈的空间-时间串扰，它减少了模型参数，并产生了相当大的增加，在预测性能，如我们所示，在第2节。4.第一章总的来说，图形编码采用具有残余连接PReLU激活功能的四个这样的GCN层，参见图1。四是实施细节。还要注意，STS-GCN是唯一的人类姿势预测图编码，其专门使用GCN。这与其他竞争技术形成对比，主要是使用递归神经网络[35，36，49，11，53，1，52]编码时间，或者使用具有跨时间维度内核的卷积层[51，10]。这也是参数效率的关键要素（参见第4.）3.4. 关于STS-GCN的在这里，我们首先将STS-GCN与自我注意机制联系起来，然后我们评论STS-GCN与最近关于签名和定向GCN的工作。11212KVMWKVMH∈ H ∈ΣA（AH）=AΣ（AAvmc不∈∈步行吃吸烟讨论msec80160320400801603204008016032040080160320400ConvSeq2Seq [30]17.733.556.363.611.022.440.748.411.622.841.348.917.134.564.877.6LTD-10-10 [36]11.121.437.342.97.014.829.837.37.515.530.737.510.824.052.765.8DCT-RNN-GCN [35]10.019.534.239.86.414.028.736.27.014.929.936.410.223.452.165.4我们10.716.929.132.96.811.322.625.47.211.622.325.89.816.833.440.2方向问候打电话构成购买坐msec801603204008016032040080160320400801603204008016032040080160320400ConvSeq2Seq [30]13.529.057.669.722.045.082.096.013.526.649.959.916.936.775.792.920.341.876.589.913.527.052.063.1LTD-10-10 [36]8.018.843.754.914.831.465.379.79.319.139.849.710.925.159.175.913.930.362.275.99.820.544.255.9DCT-RNN-GCN [35]7.418.544.556.513.730.163.878.18.618.339.049.210.224.258.575.813.029.260.473.99.320.144.356.0我们7.413.529.234.712.421.842.149.28.213.726.930.99.918.038.245.611.921.342.048.79.115.129.935.0坐下来以照片等待遛狗W烯王一起平均msec801603204008016032040080160320400801603204008016032040080160320400ConvSeq2Seq [30]20.740.670.482.712.726.052.163.614.629.758.169.727.753.690.7103.315.330.453.161.216.633.361.472.7LTD-10-10 [36]15.631.459.171.78.918.941.051.79.219.543.354.420.940.773.686.69.619.436.544.011.223.447.958.9DCT-RNN-GCN [35]14.930.759.172.08.318.440.751.58.719.243.454.920.140.373.386.38.918.435.141.910.422.647.158.3我们14.423.741.947.98.214.229.733.68.614.729.635.217.629.452.659.68.614.326.530.510.117.133.138.3表1：用于在Human3.6M上的3D关节位置的短期预测的MPJPE误差，单位为mm。我们的模型远远优于最先进的模型。对于周期性动作的非常短期预测，裕度较小，例如2-4帧（80-160毫秒）用于行走和进食。对于长期和非周期性动作的更具挑战性的情况，裕度较大，例如10帧（400毫秒）时的“摆位”高达40%。参见第4.2讨论可分离图卷积和自我注意力最近的大多数姿势预测工作都利用了自我注意力爱因斯坦求和得到：对帧[35，9]的关系和/或关节[9]的关系进行编码。在这里，我们将拟议的STS-GCN与Σ。ΣQt测试VCMΣVvmc=ΣAQK−tVvmc（5）m c m自我注意机制[35，9]。最后我们把这些联系起来图注意力网络（GAT）[47]。让我们首先重写Eq的GCN层的一部分。1，省略层1的指示、投影矩阵W和非线性度σ以更好地清楚表示：比较等式的右项 5与分离时间GCN（在等式（1）中的括号内的项）。4），我们注意到[ 35 ]的方法，用GCN和注意力的不同机制来模拟空间和时间，也可以解释为可分离的时空GCN。主要的区别是，AQK−t是in的乘积的函数AstH=AstHVMC（3）这两种表示向量都来自于。通过对比，我们的时间邻接矩阵At学习特定的VM用索引明确地指示了Ast的维度RVT× VT和RC×V × T，即将空间关节索引为v，w = 1，...， V和m，k= 1，.，T.现在让我们重写STS的相应部分Eq.的GCN层图2是利用Einstein求和的图，再次省略投影矩阵W和非线性σ以使符号清楚：相对时移的成对相互作用。当将所提出的STS-GCN与最近的GAT [ 47 ]进行比较时，类似的论点适用。我们定量评估了wrt [35]的差异，并在Sec中对邻接矩阵进行消融研究。 4.第一章现在让我们考虑邻接矩阵Ast及其分解项As和At是可训练参数。邻接矩阵类似s t sWkvvtkvmMswkvvHKVC（四）由[ 35 ]和[ 51 ]训练，[35]考虑完全连接的矩阵，[51]定义特定的可学习参数（在[51]中表示为M）以乘以手动构造的其中，如上所述，我们已经指示了A sRV× V（对于T次中的每一次）和A t的索引RT× T（对于V个关节中的每一个）作为v，w=1，...，V，并且当m，k = 1，...， T代表时代。现在让我们转向目前最好的姿势技巧预测[35]。他们同时采用GCN来模拟节理的空间相互作用，这与方程中的最右边项相一致。4.第一章然而，他们的时间建模与我们的不同，因为他们采用了注意力公式σ（QK）V。写它图（基于运动树和顺序时间连接）。当对时空身体动力学进行编码时，可训练参数产生更好的性能并且匹配直觉，即它们学习特定关节之间以及在某些相对时间偏移处的相互作用。可训练的参数导致有符号和有向的GCN（参见图1和图2）。3为例）。这两个方面最近都进行了调查[7，50]。特别是，最近的工作[43，31，3]认为，有向图编码更丰富的信息，从他们的邻居，而不是限于KVCK11213ΣΣ∈∈ΣΣ∈距离范围。类似地，来自[14]的最近工作证明了签名GCN的优越性能。在[7，50]的分类之后，提出的STS-GCN和[35，51]的GCN是空间GCN。这是由于它们的非对称和可能不适定的符号拉普拉斯矩阵，它们不具有正交特征分解，并且不容易通过谱域构造来解释[7]。我们认为这是未来研究的一个有趣的方向，最近的工作只解决了部分问题[46]。3.5. 解码未来坐标给定编码的观察到的身体动态，将来身体关节的3D坐标或角度的估计被委托给应用于时间维度的卷积层。这些将观察到的帧映射到未来视野，并通过多层架构来细化估计。总之，这些层构成解码器，其通常被称为时间卷积网络（TCN）[16，4，33]。虽然还有其他几个序列建模选项，包括 LSTM [20] ， GRU [12] 和 TransformerNetworks [17]，但在这里，我们采用TCN以实现其简单性和鲁棒性，进一步提高性能[30]。3.6. 培训所提出的架构是端到端的超级训练。监督由测量误差的损失提供，根据平均每关节位置误差（MPJPE）[24，36]和平均角度误差（MAE）[37，30，18，49，35]。基于MPJPE的损失为：4.1. 数据集和指标Human3.6M [24]该数据集广泛用于人体姿势预测，并且很大，由360万个3D人体姿势和相应的图像组成。它由7个演员组成，执行15个不同的动作（例如，散步、吃饭、打电话）。演员被表示为32个关节的骨架。关节的方向被表示为指数图，从该指数图可以计算3D坐标[42，15]。对于每个姿势，我们考虑所提供的32个关节中的22个关节用于估计MPJPE，并且考虑16个关节用于MAE。根据当前文献[36，35，37]，我们使用受试者11（S11）进行验证，受试者5（S5）进行测试，其余所有受试者进行培训。AMASS [34]最近提出了将运动捕捉存档为表面形状（AMASS）数据集，以收集18个现有的mocap数据集。在[35]之后，我们从其中选择13个，并将8个用于训练，4个用于验证，1（BMLrub）作为测试集。然后，我们使用SMPL [32]参数化来基于形状向量导出人体姿势的表示，该形状向量定义了人体骨骼及其关节旋转角度。我们获得人体姿势在3D应用正向运动学。总体而言，AMASS由40名执行行走动作的人类受试者组成。每个人体姿势由52个关节表示，包括22个身体关节和30个手关节。在这里，我们只考虑预测身体关节，并从这4个静态关节中丢弃，从而得到18个关节的人体姿势。对于[24]，这些序列也被下采样到25fps。3DPW [48]野外3D姿势数据集[48]由移动手机摄像头获取的视频序列组成。3DPW包括室内和室外动作。总的来说，它包含以30Hz捕获的51，000帧，分为60个视频T+K VLMPJPE1=V（T+K）||xˆvkk=1v=1— xvk||2（六）序列的我们使用这个数据集来测试我们训练AMASS的模型的泛化。根据基准测试协议，我们采用其中，表示帧k的关节v的预测坐标地面真相基于MAE的损失由下式给出：T+K VMPJPE和MAE错误度量（参见第3.6）。第一个量化了3D坐标预测的误差，单位为mm。第二个测量角度误差，单位为度。我们遵循[36]的协议并使用欧拉角计算MAE。LMAE1=V（T+K）|xˆvkk=1v=1— xvk|(7)由于这种表示，MAE遭受固有的模糊性，而MPJPE更有效[9，2]，所以大多数情况下，MPJPE是有效的。其中xvkR3表示帧k中的关节v的指数映射表示中的预测关节角度，并且xvk∈R3是其基础事实。4. 实验评价我们在三个最近的大规模和挑战性基准（Human3.6M [24]，AMASS [34]和3DPW [48]）上对所提出的模型进行了实验评估。此外，我们进行消融研究，定性评估模型，并说明什么空间，从数据训练时间图G在这里收养。实现细节图编码由下式给出STS-GCN的4层，其仅在通道C（1）的数量上不同：从3（输入3D坐标x、y、z或角度）到64，然后是32、64，最后是3（参见图1）。秒3.3），通过投影矩阵W（1）。在每一层，我们采用批量归一化[23]和残差连接。我们的代码使用Pytorch，并使用ADAM [26]作为优化器。学习率被设置为0.01，并以0.1的因子衰减在20号之后每5个时期。批量为256。在Human3.6M上，在NVIDIA RTX 2060 GPU上训练30个epoch需要20分钟。11214步行吃吸烟讨论msec5607208801000560720880100056072088010005607208801000ConvSeq2Seq [30]72.277.280.982.361.372.881.887.160.069.477.281.798.1112.9123.0129.3LTD-50-25 [36]50.754.457.460.351.562.671.375.850.559.367.172.188.9103.9113.6118.5LTD-10-25 [36]51.856.258.960.950.061.169.674.151.360.868.773.687.6103.2113.1118.6LTD-10-10 [36]53.159.966.270.751.162.572.978.649.459.266.971.888.1104.4115.5121.6DCT-RNN-GCN [35]47.452.155.558.150.061.470.675.547.556.664.469.586.6102.2113.2119.8我们40.645.048.051.833.940.246.252.433.639.645.450.053.463.672.378.8方向问候打电话构成购买坐msec560720880100056072088010005607208801000560720880100056072088010005607208801000ConvSeq2Seq [30]86.699.8109.9115.8116.9130.7142.7147.377.192.1105.5114.0122.5148.8171.8187.4111.3129.1143.1151.582.498.8112.4120.7LTD-50-25 [36]74.288.199.4105.5104.8119.7132.1136.868.883.696.8105.1110.2137.8160.8174.899.2114.9127.1134.979.296.2110.3118.7LTD-10-25 [36]76.191.0102.8108.8104.3120.9134.6140.268.784.097.2105.1109.9136.8158.3171.799.4114.9127.9135.978.595.7110.0118.8LTD-10-10 [36]72.286.798.5105.8103.7120.6134.7140.967.883.096.4105.1107.6136.1159.5175.098.3115.1130.1139.376.493.1106.9115.7DCT-RNN-GCN [35]73.988.2100.1106.5101.9118.4132.7138.867.482.996.5105.0107.6136.8161.4178.295.6110.9125.0134.276.493.1107.0115.9我们47.656.564.571.064.876.385.591.641.851.159.366.164.379.394.5106.463.774.986.293.547.757.067.475.2坐下来以照片等待遛狗步行一起平均msec560720880100056072088010005607208801000560720880100056072088010005607208801000ConvSeq2Seq [30]106.5125.1139.8150.384.4102.4117.7128.187.3100.3110.7117.7122.4133.8151.1162.472.077.782.987.490.7104.7116.7124.2LTD-50-25 [36]100.2118.2133.1143.875.393.5108.4118.877.290.6101.1108.3107.8120.3136.3146.456.060.363.165.779.693.6105.2112.4LTD-10-25 [36]99.5118.5133.6144.176.895.3110.3120.275.188.799.5106.9105.8118.7132.8142.258.063.667.069.679.594.0105.6112.7LTD-10-10 [36]96.2115.2130.8142.272.590.9105.9116.373.488.299.8107.5109.7122.8139.0150.155.761.366.469.878.393.3106.0114.0DCT-RNN-GCN [35]97.0116.1132.1143.672.190.1105.5115.974.589.0100.3108.2108.2120.6135.9146.952.757.862.064.977.391.8104.1112.1我们63.373.986.294.347.057.467.276.947.356.866.172.074.785.796.2102.638.944.048.251.150.860.168.975.6表2：用于在Human3.6M上长期预测3D关节位置的MPJPE误差（mm）。我们的模型在每个时间预测范围和每个动作上都比最先进的模型有很大的优势。对于非周期性动作的长期预测（22-25帧，880-1000毫秒）的最具挑战性的情况，如坐（36%），打电话（43%）和摆姿势（40%），获得了与当前最佳[35]相比的最大改进14-25帧（560-1000毫秒）预测的平均改善为34%。参见第4.2讨论4.2. 与最新技术水平的我们定量评估我们提出的模型对国家的最先进的短期（500毫秒）和长期（>500毫秒）的预测。我们在比较中包括：ConvSeq 2Seq [30]，其采用卷积层，分别编码长期和短期历史; LTD-X-Y [36]，其在GCN之前用DCT对序列频率进行编码（X和Y代表观察到的和预测的帧的数量）; BC-WGAIL-div [49]，采用强化学习;最后是DCT-RNN-GCN [35]，目前表现最好的，它用RNN和运动注意力扩展了LTD-X-Y。所有的算法作为输入10帧（400毫秒），与有限责任公司，我们也报告的情况下除外输入帧的数量更大。然后，算法在短期情况下预测接下来的2至10帧（80-400毫秒）的未来姿态，并且在长期情况下预测14-25帧（560-1000毫秒）的未来姿态。Human3.6M：3D关节位置让我们考虑表格1和2分别用于短期和长期预测的测试。在两个表中的所有时间范围内，我们的模型都优于所有竞争技术，只有120个实验中的3个例外（步行，饮食和方向的2帧预测），其中它在边际误差范围内。考虑到表1中的平均误差，我们的模型相对于当前最佳[35]的改进范围从2个时间范围内的3%到34%的改进对于10帧的更有挑战性的情况。请注意，在10帧范围内，在诸如步行的周期性动作的情况下改善较少（17%），但对于诸如摆姿势的非周期性动作改善较大（40%）。我们认为这是因为[ 35 ]的DCT编码。我们在表2中说明了更长期的预测范围。我们在560毫秒（14帧）的预测比[ 35 ]的预测准确27 mm，而在1秒（25帧）时，我们的模型达到了37 mm的改进。在14-25帧的平均预测中，我们的模型比目前最好的模型[35]高出34%。平均msec801603204005607208801000LTD-10-25 [36]0.340.570.931.061.271.441.571.66LTD-10-10 [36]0.320.550.911.041.261.441.591.68BC-WGAIL-div [49]0.310.570.901.021.23--1.65DCT-RNN-GCN [35]0.310.550.901.041.251.421.561.65我们0.240.390.590.660.790.921.001.09表3：Human3.6M的所有动作的平均MAE预测误差。我们的模型在最先进的水平上持续改进。Human3.6M：关节角度平均角度误差见表3。我们的模型胜过目前最好的[35]从长远来看，会有更大的改善。对于2帧，性能提高23%，对于25个未来帧，性能提高34%。同样在AMASS的情况下，在表4中，对于3D坐标的短期和长期预测，我们的模型在最长时间11215GGAMASS-BMLrubmsec801602404005607208801000convSeq2Seq [30]20.639.659.767.679.087.091.593.5LTD-10-10 [36]10.319.336.644.661.575.986.291.2LTD-10-25 [36]11.020.737.845.357.265.771.375.2DCT-RNN-GCN [35]11.320.735.742.051.758.663.467.2我们10.012.521.824.531.938.142.745.53DPWmsec801602404005607208801000convSeq2Seq [30]18.832.952.058.869.477.083.687.8LTD-10-10 [36]12.022.038.946.259.169.176.581.1LTD-10-25 [36]12.623.239.746.657.965.871.575.5DCT-RNN-GCN [35]12.623.139.045.456.063.669.773.7我们8.612.821.024.530.435.739.642.3步行讨论摆姿势图2：行走、讨论和摆姿势动作的长期预测样本（25帧，1秒）。(One对于后两个示出了每三个帧）。紫色/绿色的肢体是身体的左/右侧。灰色/黑色图示表示观察到的地面实况（GT）骨架。预测准确匹配GT。在讨论中的人的左手和摆姿势的非周期性运动中可能会观察到错误，摆姿势是在训练数据集中以不同方式执行的动作。放大查看详细信息。表 4 ： AMASS 的 BMLrub 测试序列上的平均 MPJPE（mm）。对于25帧（1000毫秒）预测，我们的模型比目前最好的[35水平（25帧，1000毫秒）。3DPW在表5中，我们通过在AMASS上训练和在3DPW上测试来测试我们的模型的通用性。结果大大超出了最先进的水平。对于2帧预测，我们减少了32%的错误，相比，第二个最好的。对于4帧以上的任何其他时间范围，我们将误差减少至少43%。表6（最右边的列）比较了我们的模型的参数数量与[35 ]第35段。我们的使用了一小部分参数，57。5千对3千。4M，仅为1. 7%。定性评价我们在图2中提供了对Human3.6M的样本预测（紫色/绿色），对照地面实况序列（灰色/黑色）。所有预测都是长期的（25帧），但我们每三帧只显示一帧用于讨论和摆姿势，以便将插图排成一行。结果与表2的长期误差统计一致。预测步行是准确的，在5.2厘米的精度平均在25帧（1秒）和图片匹配表5：以mm为单位的平均MPJPE，测试在AMASS上训练的模型在3DPW上的泛化性。我们的模型得分显著超出最先进水平，即它在4-25帧（160-1000毫秒）上优于[ 35 ]至少43%。地面真相这显示了我们的模型如何很好地学习周期性运动。预测的未来姿态对于讨论也是相对准确的，其中平均误差为7.9cm（参见图1）。竞争算法接近12cm）。在这种情况下，我们的模型很好地预测了讨论者的大部分静态姿势，但在挥动左手时误差较大。最后，我们的模型在摆姿势上产生了更大的误差（平均10.6厘米），因为这是一个更具挑战性的非周期性动作，不同的人以不同的方式执行。4.3. 消融研究表6示出了我们提出的STS-GCN编码技术的以下消融变体：这代表空间和时间的独立GCN，具有独立的邻接矩阵和投影矩阵，由激活函数交织在一起。该变量表现不佳，我们提出的模型，这证实了11216GGGG−−平均msec801602404005607208801000参数DCT-RNN-GCN [35]10.422.647.158.377.391.8104.1112.13.4M不同的Gs，Gt28.911.911.310.126.419.419.417.140.234.134.733.148.740.840.5三十八点三58.753.152.550.866.965.662.160.175.275.169.268.979.982.576.975.659.8k222.9k36.4k57.5k全Gst可分Gs−tshared可分离Gs−t（建议）表6：在Human3.6M上以mm为单位的平均MPJPE误差，比较我们的模型的消融变体。详细讨论见4.3。我们还在这里报告了所有技术的参数数量，以及当前最佳算法的参数数量[35]。我们提出的可分离的s− t只有[ 35 ]的1.7%的参数。单个图ST内时空交互的重要性。有趣的是，短距离的误差（近3倍）比长距离的误差（+6%）大得多。我们认为长期相关性可能有助于该变量。全（不可分）图st该变体采用全时空邻接矩阵A st。我们观察到与不同图类似的趋势，即短期预测的性能较差，误差增加较大（+18%），但长期预测的性能较好（+9%）。值得注意的是，全图模型需

下载后可阅读完整内容，剩余1页未读，立即下载