没有合适的资源?快使用搜索试试~ 我知道了~
6437--逐步生成更好的初始猜测,以实现高质量的人体运动预测华南理工大学计算机科学与工程学院,2美国Meta Reality Labs3中山大学计算机科学与工程学院摘要本文提出了一种高质量的人体运动预测方法,准确地预测未来的人体姿势给定的观察。我们的方法是基于观察,一个好的“初始猜测”的未来姿态是非常有帮助的,在提高预测精度。这促使我们提出了一种新的两阶段预测框架,包括一个初始预测网络,它只计算好的猜测,然后是一个正式的预测网络,它根据猜测预测目标未来的姿态12010080604020080 160 320初始化-400 560 720 880 1000时间(ms)(一)中介目标更重要的是,我们进一步扩展了这个想法,多阶段预测框架,其中每个阶段预测下一阶段的初始猜测,这带来更多输入预测网络初始猜(b)第(1)款输出性能增益为了完成每个阶段的预测任务,我们提出了一个由空间密集图卷积网络(S-DGCN)和时间密集图卷积网络(T-DGCN)组成的网络。交替执行这两个网络有助于在整个姿势序列的全局感受场中提取时空特征。所有上述设计选择一起合作使我们的方法大大优于以前的方法:6%-7%,CMU-MoCap为5%-10%,3DPW为13%-16%。代码可在https://github.com/705062791/PGBIG上获得。1. 介绍人体运动预测(HMP)是一个基础研究课题,它使许多其他应用受益,如智能安全,自动驾驶,人机交互等。早期的工作采用非线性马尔可夫模型[24]、高斯过程动力学模型[46]和限制玻尔兹曼机[43]来解决这个问题,而最近大量的方法基于深度模型。*通讯作者:nieyongwei@scut.edu.cn图1. (a)玩具实验给定10个姿势,我们预测25个姿势。帧速率为25fps,25个姿势持续1000ms。 我们使用LTD [33]作为基线,其使用最后观察到的姿势作为初始猜测。在测试时,LTD的平均预测误差为68.08. 我们进行了另外5个实验,以Mean-x作为初始猜测来训练和测试也就是说,Mean-x被复制并附加到过去的姿势,其中随着x的增加,平均预测误差显著降低,这意味着当用作初始猜测时,最后观察到的姿势,并且x越大越好。图中的曲线绘制了每个预测时间的预测误差(b)我们的两阶段预测框架,包括初始预测网络和正式预测网络。初始预测网络由中间目标监督。学习已经出现,显示出显著的优点。由于姿势序列的顺序性质,HMP 主要是用递归神经网络(RNN)来解决[5,6,13 然而,基于RNN的AP-通常会产生不连续性问题,误差积累,这可能是由于RNN的训练困难。有几个工程,采用康-有限公司(68.08)平均值-5(54.37)平均值-10(44.58)平均值-15(37.16)平均值-20(32.07)平均值-25(29.76)形式预测网络3D误差6438卷积神经网络(CNN)来解决HMP问题[3,8,26,39]。他们将姿态序列视为图像,并将2D卷积应用于姿态序列,但姿态本质上不是限制2D卷积有效性的常规数据。近年来,大量的工作表明,图卷积网络(GCN)非常适合于HMP [2,7,9,10,23,25,27他们对待一个胡-人通过将每个关节视为图的节点并在任何一对关节之间构造边来构成图。然后,GCN用于学习关节之间的空间关系,这有利于姿势预测。我们观察到,从LTD的开创性工作开始[33],所有最近的基于GCN的方法[9,10,32,40]共享以下预处理步骤:(1)它们复制最后观察到的姿态与未来姿态序列的长度一样多,并且将复制的姿态附加到观察到的序列以形成扩展的输入序列。(2) 类似地,将地面实况未来姿态附加到观察到的姿态以获得扩展的地面实况输出序列。他们提出的网络用于从扩展的输入序列预测到扩展的输出序列,而不是从原始观察到的姿势到未来的姿势。消融比较表明,扩展序列之间的预测比原始序列之间的预测更容易,前者的预测精度明显优于后者。 Dang等人[10]将此归因于扩展输入与输出之间的全局剩余联系,而本文则从另一个角度来解释这一现象:最后观察到的姿态提供了目标未来姿态的“初始猜测”。从最初的猜测,网络只需要稍微移动,以便它可以到达目标位置。然而,我们认为,最后观察到的姿势不是最好的初始猜测。例如,图1中的玩具实验(a) 表明未来姿态的平均姿态优于作为初始猜测的最后观察到的姿态。问题是我们并不真正知道未来姿态的平均姿态。因此,如图1(b)所示,使用未来姿势的平均值作为中间目标,我们建议首先预测未来姿势的平均值,然后通过将预测的平均值视为初始猜测来预测最终目标未来姿势。虽然预测的平均值在用作初始猜测时不如地面实况平均值好,但它优于最后观察到的姿势。此外,为了获得更高的精度,我们将两阶段预测策略扩展到多阶段版本。为此,我们反复平滑地面实况输出序列,获得一组不同平滑级别的序列。通过将这些平滑结果视为多个阶段的中间目标,我们的多阶段预测框架逐步预测下一阶段的更好的初始猜测,直到获得最终目标姿势序列。任何现有的人类运动预测模型[26,33,34]可以用来完成我们每个阶段的预测任务。其中,我们选择GCN作为构建模块来构建我们的多阶段框架。现有的基于GCN的方法[9,10,33]仅采用GCN来提取空间特征。我们提出用GCN来处理空间和时间特征。具体地,我们提出了S-DGCN和T-DGCN。S-DGCN将每个姿势视为全连接图,并编码人类姿势中的全局空间依赖性,而T-DGCN将每个关节轨迹视为全连接图,并编码运动轨迹中的全局时间依赖性。S-DGCN和T-DGCN一起提取全局时空特征,这进一步提高了我们的预测精度。总之,本文的主要贡献有三个方面:• 我们提出了一种新的多阶段人体运动预测框架,利用地面真实目标序列的递归平滑结果作为中间目标,通过该框架,我们逐步改进最终目标未来姿态的初始猜测,以获得更好的预测精度。• 我们提出了一种基于S-DGCN和T-DGCN的网络,该网络有效地提取全局时空特征,以完成每个阶段的预测任务。• 我们进行了大量的实验表明,我们的方法优于以前的方法大幅度的三个公共数据集。2. 相关工作由于人体运动数据的序列化性质,大多数以前的工作采用RNN作为骨干[5,6,13例如,ERD [13]通过在LSTM [ 19 ]的递归层之前放置一个编码器,在其后放置一个解码器来改进递归层。Jain等人[22]根据人体姿态的时空结构对RNN进行组织,提出了Structural-RNN。Martinez等人[34]使用序列到序列架构,通常用于语言处理以预测人体运动。RNN很难训练,不能有效地捕捉关节之间的空间关系,通常会产生不连续性和误差积累的问题。为了提高提取人体姿态空间特征的能力,Shuet al.[39]用非线性联合共同注意机制补偿RNN。[3,26,30]的作品为此目的使用CNN,但CNN不能直接对任何一对关节之间的相互作用进行建模。将人体姿势视为图形,最近的工作已经普遍采用GCN用于人体运动预测[2,7,9,10,12,23,25,27Aksan等人[2]没有使用GCN,但他们采用了一个非常相似的想法,6439y×m× nGCBGCLGCLGCLGCBGCLGCL编码器副本解码器填充输入S1:ThPTh阶段-1t期S^11:LS^t1:LS^T1:L输出1×1转换1×1转换T期特征图下一阶段的初步猜测时间级联GCL······1:L1:L联系我们HTh+1:LHHTh+1:Lh hh···光滑光滑S11:LSt1:LST1:L中级目标中级目标地面实况S-DGCNT-DGCNBNTanh辍学图2.概述我们的多阶段人类运动预测框架包含T阶段。 每一级都将观测序列S1:Th和初始猜测作为输入。对于第一阶段,初始猜测由最后观察到的姿势组成。对于所有其他阶段,初始猜测是前一阶段输出的未来部分。最后一个阶段由地面实况指导,而所有其他阶段由地面实况的相应递归平滑结果引导。所有阶段使用相同的编码器-复制-解码器预测网络。更多详情请参阅正文。许多小网络在相邻关节之间交换特征。[23,27,28]的作品在编码器[27,28]中使用GCN进行特征编码,或者在解码器[23]中使用GCN进行更好的解码。[9,10,32,33]的工作完全基于GCN。Mao等人[33]将姿势视为全连接图,并使用GCN来发现任何一对关节之间的关系。在时间域中,它们通过离散余弦变换系数表示关节轨迹。Dang等人[10]扩展[33]到跨人类姿势的抽象层次的多尺度版本。我们还使用GCN作为基本构建块,但提出了提取全局时空特征的S-DGCN和T-DGCN,优于仅提取空间特征的[10,32,33]。最近,So Fianoset al.[40]提出了一种也可以通过GCN提取时空特征的方法。不同之处在于,我们仅通过两个GCN实现了这一点,而[40]使用了更多的GCN。并且STh+1:Th+Tf是长度T f的未来姿态序列。而不是直接从S1映射:Th 到STh+1:Th+Tf,我们遵循[10,32,33]以重复最后观察到的姿势PTh,Tf次并将它们附加到S1:Th,获得填充的输入序列[S1:Th;PTh,,PTh],其中L = T h+ T f。 然后,我们的目标变成找到 从填 充序列 到其地 面真 值S1 的 映 射 : L=[S1 :Th;STh+1:Th+Tf]。3.1. 多阶段渐进预测框架为了上述目的,我们设计了如图2所示的多阶段渐进式预测框架(图1(b)所示的两阶段框架是多阶段框架的特殊情况),其包含T个阶段,分别由Φ1、Φ2、ΦT这些阶段逐步执行以下子任务:Transformer [11,44]也被用于解决人体运动预测问题[1,4]。类似于GCN,Transformer的自注意机制可以计算ˆ11:L西=Φ1([S1:T;PT,···,PT]),=Φi([S1:T;Si−1]), i=2,3,· · ·, T ,(一)关节的成对关系。在本文中,我们选择GCN作为构建块。我们表明,我们提出的方法优于现有的基于变压器的方法在运行时间和准确性方面。3. 方法设S1:Th表示长度为T h的观察到的姿态序列,其中Pi是在时间i的姿态,其中,是阶段i的输出。 每个阶段的输入由两部分组成:观测到的姿态S1:Th和初始猜测。对于第一阶段,初始猜测是PT,,P.T. F或阶段i,初始猜测为Si−1这是前一阶段输出的未来部分回想一下,对于如图1(b)所示的两阶段预测框架,未来姿态的平均姿态被用作中间目标,而对于多阶段预测框架,S-DGCNT-DGCN空间S64401:LJ{1}|}}{1}|联系我们|∈∈∈∈∈∈∈∈1:L∈1:L1:L1:L1:L1:LJ,并且每1:L1:L1:L1:L∈阶段框架,我们诉诸平滑ST(=S1:L)re-粗略地得到ST−1,ST−2,···,S1,并使用它们作为相应阶段网络ΦT,ΦT-1,···,Φ1的中间目标,以引导ST,ST−1,· · ·,S1(按相反顺序),分别为。的所采用的平滑算法是下面介绍的累积平均平滑(AAS)。设每个姿势有M个关节,每个关节是D维空间中的一个点.对于姿态序列ST,我们图3. AAS和高斯滤波器对递归平滑效果的比较。在每幅图中,左边显示的是有M × D个轨迹:{T |j ∈ [1,M × D]}1:L高斯滤波器,右显示AAS的结果。灰色曲线指示-描绘出一个历史轨迹,黑色是真实的未来轨迹Tj是由相同的坐标跨越所有姿态:Tj=xii[1,L]. 由于所有轨迹都是通过相同的方法平滑的,因此我们在下文中省略下标j而不失一般性。注意轨迹包含两部分:历史部分x ii[ 1,T h]和未来的部分x ii[Th+1,Th+Tf].我们只需要平滑未来的部分,保持历史的部分不变。AAS算法定义为:我轨迹,从深蓝到浅蓝的曲线是递归平滑的结果。左图显示,AAS保持了历史曲线和平滑曲线之间的连续性,而高斯滤波器没有。右图表明,AAS比高斯滤波器具有在关节之间。在S-DGCN和T-DGCN的基础上,构建了一个编码-复制-解码预测网络。在下文中,我们将一一介绍.S-DGCN 通过致密GCN,即。DGCN,我们的意思是亲-x<$i=1i−Thk=Th+1xk,i∈[Th+1,Th+Tf ]中。(二)cessed图是完全连通的。S-DGCN定义了应用于姿势的空间密集图卷积,也就是说,曲线上一个点的平滑值是曲线上所有先前点的平均值。我们递归地将AAS应用于 ST,得到 ST−1,ST−2,···,S1。图形卷积由姿态序列的所有姿态共享。 设XRL× M× F 是姿势序列,其中L是序列的长度,M是关节的数量,表示姿态,F表示关节的特征数量图3显示了AAS的结果,并将其与高斯滤波器(标准正态分布),滤波窗口大小为21。在每组曲线中,灰色曲线表示历史轨迹,黑色是未来的地面实况轨迹,虚线是通过填充最后观测数据获得的。从深蓝色到浅蓝色是递归平滑的结果。与高斯滤波器相比,原子吸收光谱法有两个优点。(1)AAS保持了历史和未来轨迹之间的连续性,而高斯滤波器在连接处产生跳跃。(2)AAS比高斯滤波器具有更强的平滑能力。可以看出,原子吸收光谱法的测定结果均匀稳定地接近虚线.虚线是AAS最平滑曲线的一个很好的猜测。同时,AAS的每一条曲线都是对前一平滑水平下曲线的一个很好的猜测。从这一点来看,AAS非常适合于制备我们的多阶段框架的中间靶标。相比之下,高斯滤波器的结果集中在一起,它们都远离虚线。3.2. 包括S-DGCN和T-DGCN的编码在本节中,我们将介绍在每个阶段完成预测任务的网络,其概述如图2左下角所示。我们的网络完全基于GCN。具体地说,我们提出了S-DGCN和T-DGCN,提取全球空间和时间的相互作用定义可学习邻接矩阵AsRM×M,其元素测量姿势的关节对之间的关系,S-DGCN计算:X′=S-DGCN(X)=As XWs,(3)其中W sRF × F '表示S-DGCN的可学习参数,X′RL×M × F'是S-DGCN的输出。T-DGCN T-DGCN定义应用于联合轨迹的时间图卷积,并且所有轨迹共享图卷积。我们首先转置X′的前两个维度以获得Y RM× L × F′。定义可学习的邻接矩阵A tRL× L,测量轨迹的关节对之间的权重,T-DGCN计算:Y′=T-DGCN(Y)=At YWt,(4)其中W tRF'× F'是T-DGCN的可学习参数,Y'RM× L× F'. 最 后 , 我 们 将 前 两 个 维 度 转 置回 去 , 使Y ′RL× M × F '。GCL 。 如 图 2 的 右 下 角 所 示 , 我 们 将 图 卷 积 层(GCL)定义为一个依次执行S-DGCN、T-DGCN、批量归一化[20]、tanh和dropout [41]的单元。GCL可以在整个姿态序列的全局感受域上提取空间-时间特征。编码器。如图2所示,编码器是包含GCL和多个跳高斯连续性光滑AAS平滑能力低距离大高斯高AAS6441Graph Convolutional的残差块。6442××Σi=1块(GCB)。第一个GCL将输入从RL×M ×D的姿态空间投影到RL×M ×F的特征空间。在本文中,我们设置F = 16。每个GCB是包含两个GCL的残余它们总是在特征空间中工作。为了为编码器添加全局残差连接,我们采用具有16个内核的11卷积层,其将输入映射到RL×M ×F的空间中,然后将其添加到GCB的输出收到编码器输出RL×M ×F空间中的特征图。我们将其复制并沿轨迹方向将复制的特征图附加到原始特征图上,得到大小为R2L×M ×F的特征图,并将其作为解码器的输入。我们在实践中发现,“复制”的有效性译码器解码器是包含多个GCB和一对S-DGCN和T-DGCN的残余块。GCB在F = 16的特征空间中工作,而最终的S-DGCN和T-DGCN将特征投影回姿势空间。由于解码器的输入长度为2L,因此所有T-DGCN的邻接矩阵At,包括GCB中的那些,大小为R2L×2L。为了为解码器添加残差连接,将具有3个内核的11卷积层应用于解码器的输入。The result of the decoder isof length 2L, while we just re- tain the front L poses asthe final result.3.3. 损失函数也被排除在外。在[10,33]之后,我们保留25个关节,并丢弃其他关节。训练和测试数据集的划分也与[10,33]相同。3DPW[45]是一个具有挑战性的数据集,包含从室内和室外场景捕获的人体运动。该数据集中的姿势在3D空间中表示。每个姿势包含26个关节,其中23个关节被使用(其他3个是冗余的)。4.2.比较设置评估指标。我们在坐标和角度表示上进行训练和测试。由于篇幅的限制,本文仅展示三维坐标测量的结果。角度的结果可以在柔性材料中找到。我们使用平均每关节位置误差(MPJPE)作为我们的评估度量3D误差,并使用平均角度误差(MAE)的角度误差。测试范围。我们注意到,[28,33,34]的工作随机地每个动作取8个样本进行测试,Maoet al.[32]每个动作随机抽取256个样本,Danget al. [10]取所有样品进行试验。我们遵循Danget al。[10]在本文的整个测试数据集上进行测试。随机8和256试验组的比较结果见补充材料。输入和输出序列的列表。在[10]之后,对于Hu-man3.6M和CMU-MoCap,输入长度分别为10,输出为25。在[33]之后,对于3DPW,输入为10个姿势,输出为30个姿势实现细节我们的多阶段框架包含T=4个阶段。在每个编码器-复制-解码器预测网络,编码器包含1个GCB和去我们在所有输出上应用L1损失:L=TS102.ˆi1:L编码器包含2个GCB。该框架共包含12个GCB。我们雇用亚当作为解决者。学习率1:L4. 实验4.1. 数据集Human3.6M1[21]有15种类型的动作,由7个参与者(S1,S5,S6,S7,S8,S9和S11)执行。每个姿势具有指数映射格式的32个关节。我们将它们转换为3D坐标和角度表示,并丢弃10个冗余关节。不包括姿势的全局旋转和平移。帧率从50fps降采样到25fps。S5和S11分别用于测试和验证,其余用于培训。CMU-MoCap有8个人类行为类别。每个姿态包含指数映射格式的38个关节,这些关节也被转换为3D坐标和角度表示。姿势的全局旋转和平移为初始值为0.005,然后乘以0。96、每一个时代该模型训练了50个epoch,batchsize为16。我们使用的设备是NVIDIA RTX 2060 GPU和AMD Ryzen 5 3600 CPU。更多实施细节,请参考补充资料。4.3. 与以往方法的我们比较我们的方法与Res.辅助核算[34],DMGNN[28],LTD [33]和MSR [10]在这三个数据集上。Res. Sup.是一种早期的基于RNN的方法。DMGNN使用GCN提取特征,使用RNN进行解码。LTD完全依赖于GCN,在频域进行预测。MSR is a recent method executing LTD in amul- tiscale fashion.所有这些方法都是公开发布代码的最先进的方法。为了公平比较,我们使用他们的预训练模型或使用默认超参数重新训练模型。1作者马铁铮、聂永伟在许可证上签字,本文介绍了所有的实验结果。Meta无法访问Human3.6M数据集。2我们严格遵守协议,所有数据集仅用于非商业研究目的。公司简介−6443LTDMSR我们误差表1.人类3.6M短期预测的比较给出了80ms、160ms、320ms、400ms时的仿真结果最好的结果用粗体突出显示,第二好的结果用下划线标记。场景步行吃吸烟讨论毫秒80ms160Ms320Ms400ms80ms160Ms320Ms400ms80ms160Ms320Ms400ms80ms160Ms320Ms400msRes. 辅助核算29.450.876.081.516.830.656.968.723.042.670.182.732.961.290.996.2DMGNN17.330.754.665.211.021.436.243.99.017.632.140.317.334.861.069.8公司12.323.039.846.18.416.933.240.77.916.231.938.912.527.458.571.7MSR12.222.738.645.28.417.133.040.48.016.331.338.212.026.857.169.7我们10.219.834.540.37.015.130.638.16.614.128.234.710.023.853.666.7场景方向问候打电话构成毫秒80ms160Ms320Ms400ms80ms160Ms320Ms400ms80ms160Ms320Ms400ms80ms160Ms320Ms400msRes. 辅助核算35.457.376.387.734.563.4124.6142.538.069.3115.0126.736.169.1130.5157.1DMGNN13.124.664.781.923.350.3107.3132.112.525.848.158.315.329.371.596.7公司9.019.943.453.718.738.777.793.410.221.042.552.313.729.966.684.1MSR8.619.743.353.816.537.077.393.410.120.741.551.312.829.467.085.0我们7.217.640.951.515.234.171.687.18.318.338.748.410.725.760.076.6场景购买坐坐下拍照毫秒80ms160Ms320Ms400ms80ms160Ms320Ms400ms80ms160Ms320Ms400ms80ms160Ms320Ms400msRes. 辅助核算36.360.386.595.942.681.4134.7151.847.386.0145.8168.926.147.681.494.7DMGNN21.438.775.792.711.925.144.650.215.032.977.193.013.629.046.058.8公司15.632.865.779.310.621.946.357.916.131.161.575.59.920.945.056.6MSR14.832.466.179.610.522.046.357.816.131.662.576.89.921.044.656.3我们12.528.760.173.38.819.242.453.813.927.957.471.58.418.942.053.3场景等待步行狗一起走平均毫秒80ms160Ms320Ms400ms80ms160Ms320Ms400ms80ms160Ms320Ms400ms80ms160Ms320Ms400msRes. 辅助核算30.657.8106.2121.564.2102.1141.1164.426.850.180.292.234.762.0101.1115.5DMGNN12.224.259.677.547.193.3160.1171.214.326.750.163.217.033.665.979.7公司11.424.050.161.523.446.283.596.010.521.038.545.212.726.152.363.5MSR10.723.148.359.220.742.980.493.310.620.937.443.912.125.651.662.9我们8.920.143.654.318.839.373.786.48.718.634.441.010.322.747.458.5表2.人类3.6M长期预测的比较显示了未来560 ms和1000 ms时的结果场景步行吃吸烟讨论方向问候打电话构成毫秒560ms1000ms560ms1000ms560ms1000ms560ms1000ms560ms1000ms560ms1000ms560ms1000ms560ms1000msRes. 辅助核算81.7100.779.9100.294.8137.4121.3161.7110.1152.5156.1166.5141.2131.5194.7240.2DMGNN73.495.858.186.750.972.281.9138.3110.1115.8152.5157.778.998.6163.9310.1公司54.159.853.477.850.772.691.6121.571.0101.8115.4148.869.2103.1114.5173.0MSR52.763.052.577.149.571.688.6117.671.2100.6116.3147.268.3104.4116.3174.3我们48.156.451.176.046.569.587.1118.269.3100.4110.2143.565.9102.7106.1164.8场景购买坐坐下拍照等待步行狗一起走平均毫秒560ms1000ms560ms1000ms560ms1000ms560ms1000ms560ms1000ms560ms1000ms560ms1000ms560ms1000msRes. 辅助核算122.7160.3167.4201.5205.3277.6117.0143.2146.2196.2191.3209.0107.6131.197.6130.5DMGNN118.6153.860.1104.9122.1168.891.6120.7106.0136.7194.0182.383.4115.9103.0137.2公司102.0143.578.3119.7100.0150.277.4119.879.4108.1111.9148.955.065.681.6114.3MSR101.6139.278.2120.0102.8155.577.9121.976.3106.3111.9148.252.965.981.1114.2我们95.3133.374.4116.196.7147.874.3118.672.2103.4104.7139.851.964.376.9110.302-10-2- 2三四岁四六-5-8-6Ours vs LTD Ours vs MSR(a)(b)(c)第(1)款图4.优势分析(Human3.6M)。(a)我们的方法的优势在400 ms时最为显著。(b)我们的方法的优点是最有意义的“走狗”的行动(c)说明了每个接头的优点颜色越深,我们方法的优势就越大Human3.6M. 表1给出了我们的方法与上述四种方法对Hu-man 3.6M的短期预报(小于400 ms)的定量比较。表2给出了在Hu-man 3.6M上的长期预报(大于400ms但小于1000 ms)的比较。在大多数情况下,我们的结果优于那些比较的方法。我们展示并比较了-不同方法的统计结果见图4。在图4(a)和(b)中,我们将LTD作为基线,并从LTD的预测误差中减去MSR和我们的方法的预测误差。在(a)中,绘制了在每个未来时间戳处关于LTD的相对平均预测误差。可以看出,MSR优于LTD,而我们的方法比MSR好得多。我们的优势是最重要的,LTDMSR我们误差6444表3.CMU-MoCap:平均预测误差的比较GTOursMSRLTD表4.3DPW:平均预测误差的比较DMGNNRes. 辅助核算40 200 440 840时间(ms)图5.不同方法对Human3.6M样品的预测姿态的可视化表5.时间和模式大小比较。方法培训(每批)检测(每批)模型大小[28]第二十八话473ms85ms46.90M[33]第三十三话114毫秒30ms2.55MMSR [10]191毫秒57ms6.30M我们145毫秒43ms1.74M400毫秒。在(b)中,针对每个动作类别绘制了相对于LTD的相对平均预测误差。与LTD和MSR相比,本方法的优势较大,尤其是对“遛狗”行为的优势最为显著。在(c)中,我们绘制了我们的方法相对于LTD和MSR的每个关节的优势。颜色越深,优势越高。可以看出,我们的方法在肢体上实现了更高的性能增益,特别是在手和脚上。在图5中,我们示出了不同方法的预测姿态的示例随着预测时间的增加,该方法的预测效果越来越好。CMU-MoCap和3DPW。表3和表4分别显示了CMU-MoCap和3DPW的比较。由于空间限制,我们只显示每个时间戳的平均预测误差。补充材料中提供了更详细的表格。在两个数据集上,我们的方法也优于比较的方法。特别是对于具有挑战性的数据集3DPW,我们的优势非常明显。时间和模型大小比较。如表5所示,我们的模型尺寸小于LTD(两个模型都有12个GCN块),因为我们使用的潜在特征尺寸小于LTD(16vs. 256)。由于中间损耗和AAS的额外计算,我们的模型比LTD稍慢,但比所有其他方法都快。4.4. 消融分析我们进行消融研究,以深入分析我们的方法。所有实验结果都是在Hu-man 3.6M上得到的。架构几种设计选择有助于我们的方法的有效性:(1)多阶段学习框架,(2)中间监督,(2)编码器-复制-解码器预测网络,以及(4)“复制”算子。表6示出了完整模型的不同变体上的消融实验。 完整模型有4个阶段,每个阶段包含3个GCB。总共有12个GCB。平均预测误差为65.02。 (1)为了显示“多阶段”的有效性,我们测试了以下情况:T=1,即,只有一个编码器-复制-解码器网络,然而它具有12个GCB,其中6个GCB在编码器中,6个在解码器中。预测误差变为67.48,这是一个非常大的性能下降。 (2)我们使用T= 4级,但删除了中间输出的损失。预测误差为67.07,说明中间监督的必要性. (3)在第三个实验中,我们使用地面真值(GT)来监督所有的中间输出,这产生了平均66.11的预测误差。(4)我们使用LTD [33]而不是建议的编码器-复制-解码器网络来完成每个阶段的任务。预测误差从65.02增加到67.15。(5)我们用ST-GCN替代S-DGCN和T-DGCN [47]。预测误差从65.02急剧增加到67.97。(6)最后,我们删除了Encoder-Copy-Decoder网络中间的“Copy”运算符,同时预测误差从65.02略微增加到65.99。阶段数。在图6(a)中,我们在T附近从1到6进行消融。对于不同的T,相应的框架都包含12个GCB,均匀分布在每个阶段网络中。例如,如果T=3,则在每个级网络中将存在4个GCB。实验表明,当T=4时,系统的性能最好。“复制”的方向和数量 在默认设置中-在Encoder-Copy-Decoder网络中,我们只复制一次编码器的输出,然后沿着时间方向粘贴它。在表7中,我们对复制次数和粘贴方向进行了消融研究。可见,抄一次、三次总比不抄好。但是复制三次并不能带来更多的-毫秒80ms160Ms320Ms400ms560ms1000msRes. 辅助核算24.043.074.587.2105.5136.3DMGNN13.624.147.058.877.4112.6公司9.317.133.040.955.886.2MSR8.115.230.638.653.783.0我们7.614.32936.650.980.1毫秒200ms400ms600ms800ms1000msRes. 辅助核算113.9173.1191.9201.1210.7DMGNN37.367.894.5109.7123.6公司35.667.890.6106.9117.8MSR37.871.393.9110.8121.5我们29.358.379.894.4104.164451:L表6.建筑上的烧蚀由于篇幅所限,有关实验的详细描述,请参阅正文80ms160Ms320Ms400ms560ms720ms880ms1000ms平均单阶段预测11.9524.4749.6960.9479.5693.93105.86113.4167.48无中间损耗11.4224.0249.7360.9479.4993.45105.12112.4267.07由GT全程监督11.0423.4948.8359.8978.1392.20103.87111.4666.11用LTD取代Encoder-Copy-Decoder [33]11.1124.0149.4860.6779.3493.91105.55113.1067.15用ST-GCN取代S-DGCN、T-DGCN [47]11.8425.7851.8762.7380.2393.61105.00112.7267.97没有10.5323.2548.8959.9978.1692.34103.70111.0465.99完整模型10.3322.7447.4558.4676.9191.20102.77110.3165.02表7.“复制”时间和尺寸上的消融拷贝次数误差模型大小复制尺寸误差模型大小无拷贝65.99 1.06百万复制入通道65.75 1.67百万复制一次(我们的)65.021.74百万空间复制65.21 1.69百万抄三遍65.35 3.28百万在时态中复制(我们的)65.021.74百万表8.高斯滤波器与累加滤波器67.56766.56665.5651 2 3 4 56级数(一)0-1-2-3-4-5-6801603204005607208801000时间(ms)(b)平均平滑(AAS)。80ms 160ms 320ms 400ms 560ms 1000ms平均高斯-1512.024.449.860.978.7111.066.6高斯-2111.523.748.860.078.5112.266.5AAS10.322.747.458.576.9110.365.0比复制一次更容易。沿着空间维度复制一次,通道维度和时间维度都比不复制好,而沿着时间维度复制产生最佳结果。AASvs.高斯滤波器。在表8中,我们比较了累积平均平滑(AAS)和高斯滤波器。 “Gaussian-为x.可以看出,AAS的性能优于两种高斯滤波器。AASvs.意思回想一下,对于我们的两阶段框架,即如图1(b)所示,我们可以使用Mean-x作为中间目标。 对于同一个框架,我们也可以使用SL−1作为中间目标。我们称这两个方案为当T=2可以看出,“Our multi-stage full model” when4.5. 局限性和未来工作我们的方法有两个限制:(1)LTD [ 33 ]的平均预测值为68.08。我们的是65.02相比之下,我们还有很大的空间来减少绝对预测误差。在未来,人们可以研究更有效的中间目标。(2)我们的方法需要一组姿势作为输入,而在实际应用中的姿势可能会被遮挡。如何处理图6. (a)消融的级数。当T = 4时获得最佳结果。(b)使用平均值和AAS作为中间目标之间的比较 [33]这是一个基础。我们减去LTD的预测误差从那些比较模型。“Our不完整的观察值得进一步研究。5. 结论我们提出了一个多阶段的人体运动预测框架。该框架有效性的关键在于我们将原本困难的预测任务分解为许多子任务,并确保每个子任务足够简单。我们通过将目标姿态序列的递归平滑版本作为子任务的预测目标来实现这一点。采用累积平均平滑策略,保证了最平滑的中间目标逼近最后一次观测数据,并且当前阶段的中间目标是对下一阶段的较好猜测。此外,我们提出了一种新的编码-复制-解码预测网络,其中的S-DGCN和T-DGCN可以有效地提取时空特征,同时“复制”算子进一步增强了解码器的性能。我们已经进行了大量的实验和分析,证明了我们的方法的有效性和优势。确认这项研究是由教授赞助。聂永伟教授和李桂清国家自然 科 学 基 金广 东 省 自 然 科 学 基 金(2019A1515010860,2021A1515012301)。1 阶段2 阶段3 阶段4 阶段6个阶段LTD我们的多级当T=2(-3.120)我们的两阶段平均值为-5(-2.865)我们的多阶段完整模型(-3.903)我们
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功