没有合适的资源?快使用搜索试试~ 我知道了~
人体运动预测的新方法及其在长期运动轨迹建模中的应用
432112116一种用于人体运动预测Anand Gopalakrishnan1,Ankur Mali1,Dan Kifer1,C.作者:Alexander G.宾夕法尼亚州立大学,University Park,PA,168011罗切斯特理工学院,罗切斯特,纽约,146232{aug440,aam35,duk17,clg20}@ psu.edu1,ago@cs.rit.edu2摘要我们提出了新的神经时间模型预测和合成人体运动,实现国家的最先进的长期运动轨迹建模,同时与以前的工作在短期预测和需要显着减少计算的竞争力。我们建议的系统的主要方面包括:1)一种新颖的两级处理架构,其有助于生成计划的预测,2)一组简单的易于计算的特征,其整合了衍生信息,以及3)一种新颖的多目标损失函数,其帮助模型从简单的下一步预测缓慢地进展到多步闭环预测的更困难的任务。我们的研究结果表明,这些创新改进了长期运动轨迹的建模。最后,我们提出了一种新的度量,称为归一化功率谱相似性(NPSS),以评估运动合成模型的长期预测能力,补充流行的均方误差(MSE)随时间的欧拉关节角度的测量。我们进行了用户研究,以确定是否建议NPSS与人类的长期运动的评价更强烈地比MSE,并发现它确实。我们在以下位置发布本文的代码和其他结果(可视化):https://github.com/cr7anand/neural时间模型1. 介绍我们解决的问题,建立预测模型的人体运动,使用运动捕捉数据。特别是,我们探索的模型,可以成功地用于预测的3D姿态的一个小的,初始的历史(一组启动帧)条件下的人类主体。目前的工作集中在两个独立但互补的分任务上:1)短期运动预测,其通常通过在短时间范围内测量均方误差(MSE)来定量地评估,以及2)长期运动预测,其通过对样本的手动、视觉检查来定性地评估,以便评估在长时间跨度内人类运动的合理轨迹。短期模型在运动跟踪的应用中是有用的,而长期模型作为计算机图形学的运动生成工具是有用的[24,16,12]。在这些子任务中成功的模型对于人类步态分析、人类运动的运动学研究以及人机交互应用也是有价值的[2,25]。解决运动预测中的上述两个子问题是具有挑战性的,因为输入数据的高维性以及仅从观察捕获人体运动中固有的非线性动力学和随机性的困难。此外,与其他物体的运动形成强烈对比的是,人体运动取决于主体传统上,模型是在专家系统的框架内构建的,并使用强大的简化假设,例如将底层过程视为马尔可夫和平滑或使用低维嵌入[29,19]。这些方法往往导致不太令人满意的业绩。随着人工神经网络[15]在从计算机视觉[13]到机器翻译[1]和语言建模[18]的应用领域中的现代成功,许多当前的运动模型越来越多地基于神经架构。在本文中,我们使用以下策略来解决上述两个子问题。首先,我们用运动导数信息增强关节角度特征向量,通常输入预测神经这可以使用有限差分近似来容易地计算,并且自然地包含(时间上)局部信息,该局部信息对于生成平滑和一致的运动序列是至关重要的。此外,我们的研究结果表明,在开环中训练递归神经网络(RNN)的流行方法,即,其中在每个时间步t处馈入基本事实输入数据以预测t+1处的输出,当将这些模型用于闭环测试场景时是不够的,即,其中在时间步t的模型输出本身被用作在时间步t+1的模型的输入。在闭环发电的情况下,由于漂移和累积,该模型无法在长时间范围432112117下一步的错误。为了弥补这一点,我们引入了一个简单的,新颖的多目标损失函数,该函数平衡了有效的下一步预测与生成良好的长期闭环预测的目标,我们发现这大大减少了模型漂移。我们提出的神经架构,它利用了一种新颖的,可微分的向后规划机制,计算成本更低,远比竞争对手简单。最后,我们提出了一种新的度量标准,我们称之为归一化功率谱相似性(NPSS),以解决缺乏有效的定量方法来评估长期的运动合成。NPSS是指通过解决MSE的一些缺点来补充MSE,以用作长期合成的定量评估指标,包括:a)预测序列中的频移,例如,与地面实况相比,以更快或更慢的速率行走将受到MSE的严重惩罚,尽管在质量上是相似的,以及b)预测序列中的相移,例如,如果模型错过/跳过了几个运动帧,则所得到的预测运动序列将被相移,但是MSE将严重地惩罚它,尽管与地面实况(ground-truth)在质量上相似。我们的测量解释了这些问题,因为它被设计为捕获地面实况帧的功率谱和模型的预测关节角度的差异这项工作的主要贡献包括:1)一种新的两阶段处理架构,2)用对运动域有用的易于计算的特征来增强输入空间,3)开发一种新的损失函数,该损失函数可以帮助引导模型生成长期运动轨迹,以及4)一种用于长期人体运动质量评估的称为NPSS的新的评估度量,我们将通过人类用户研究来验证。2. 相关工作运动合成的研究有着悠久的历史,多年来提出了许多模型直到最近,神经结构才走到这一领域的最前沿,迅速取代了经典的统计学习方法和手工制作的方法。[4]提出了两个体系结构:1)LSTM-3LR和2)ERD(编码器-递归解码器)。LSTM-3LR由3层1000个LSTM单元组成,而ERD模型使用2层1000个LSTM单元和非线性多层前馈网络进行编码和解码。然而,作者观察到,在推理过程中,模型会迅速发散并产生不真实的运动。他们通过在训练过程中逐渐向输入中添加噪声来缓解这一问题,这有助于在更长的时间范围内 产 生 合 理 的 运 动 。 [10] 提 出 了 结 构 化 RNN(SRNN),它采用手动设计的时空图并将其转换为多层RNN架构,其中身体RNN被分配用于建模特定的身体部位,边缘RNN用于建模交互,身体各部分之间。这项工作还使用了噪声消除技术,以减轻漂移[4]。他们表明,他们的网络在短期运动预测和长期定性运动方面都优于以前的方法。最近,[17]提出了简单但难以击败的短期运动预测基线以及具有1024个门控递归单元(GRU)单元和线性输出解码器的1层seq2seq模型[26],用于短期和长期运动预测。此外,他们使用采样损失作为噪声调度的更简单的替代方案来训练他们的长期模型最近,[5]提出了一种模型,该模型将去噪自动编码器和LSTM-3LR网络耦合在一起,以减轻长期运动合成的漂移。然而,他们的方法的一个缺点是,自动编码器和LSTM-3LR网络首先独立地进行预训练,然后进行微调。3. 神经运动合成器在本节中,我们将描述我们的运动合成神经系统,它集成了一个新的架构与一个新的损失函数和有用的,易于计算的功能。由于我们的重点是一个具体的问题,即,运动合成,我们将首先详细说明我们将测试我们的模型的基准。3.1. 数据和预处理与之前关于人体运动合成的工作保持一致[4,10],我们使用人类360万(h3.6m)数据集[9],这是目前最大的公开可用的运动捕捉(mocap)数据库。h3.6m数据集由执行15个不同动作的7个参与者组成。以前的工作[4,10,17]特别关注这15个类别中的4个,例如,步行、进食、吸烟和讨论。为了创建测试集,我们遵循先前的工作,从受试者#5中提取每个动作类型的8个运动序列,产生与[4,10]中使用的完全相同的32个测试序列。然后将受试者#5的剩余序列放入用于调整超参数的验证子集中。然后将其他六个受试者的数据我们进一步采用了先前在[4,10]中使用的姿势表示和评估姿态表示为每个关节的指数图为了评估我们的模型,我们测量预测和地面实况之间的欧氏距离在欧拉角空间在不同的时间片沿预测序列。3.2. 架构我们提出的人体运动预测和合成的架构是所谓的Verso-Time Label Noise- RNN模型(VTLN-RNN),它由一个顶层432112118JTJt−1JTJ和底层RNN。结合起来,这两个RNN的参数比之前的运动深度学习运动合成模型少。顶级RNN旨在作为一个受[8]工作启发的可学习噪声过程,它从采样的初始隐藏状态(zφ)开始在时间上向后运行,并以动作标签的独热编码为条件。该噪声处理用于生成K个“引导向量”的序列我们要预测的未来帧,或预测范围)与[3]中描述的相同,除了我们注意到它的非状态输入是动作标签(其在序列的长度上保持固定)。然而,Body-GRU的单元更新方程如下:rj=σ。[Wrxt]j+[Urht−1]j+[Vrp t]j( 1)zj=σ。[Wzxt]j+[Uzht−1]j+[Vzpt]j<$( 2) h<$t=Φ 。[Wx]+[U ( r ) xh) ]+[Vp](三)随后将由较低级别的RNN使用的ht=z ht−1+(1−t(四)较低级别的RNN,或身体RNN,在时间上向前运行,jjjz j)h j.在每个时间步处将关节角度矢量xt以及相应的引导矢量pt作为输入,以生成时间步t +1的MOCAP角度的预测。本质上,运行VTLN-RNN需要使用顶级噪声处理RNN来生成引导向量,然后使用Body-RNN来整合自下而上的mo- cap输入向量和自上而下的引导向量,以计算最终隐藏状态ht和下一步骤预测xt。展开的模型如图1所示。 损失是使用Body-RNN的预测输出和相应的地面实况mocap向量计算的。为了对顶级噪声过程的初始隐藏状态进行采样,我们首先将其构造为像多变量高斯分布一样工作,从重新参数化技巧[11]和自适应噪声方案在[8]中提出。顶层噪声过程 的初始状态zφ计算 为zφ=µ+,其中N(0,I),µ是随机变量的均值,是它的协方差,特别是对角协方差。μ和μ是与神经网络的其余部分一起学习的参数在训练期间使用反向传播梯度的权重。隐藏状态的这种公式化允许设计者从简单的基本分布输入样本,例如,标准高斯,而不是必须手动调整噪声参数,例如其方差。图1. VTLN-RNN架构在本文中,我们使用门控递归单元(GRU)[3]实 例 化 VTLN-RNN 的 顶 层和 底 层 RNN , 因 为与LSTM相比,VTLN-RNN的简单性,竞争力和易于训练。顶层GRU的单元更新方程仍然是VTLN-RNN结构背后的动机是将运动合成问题分层分解为两级过程,就像在基于神经的对话建模中成功完成的那样[23,22]。顶层RNN将大致勾勒出底层RNN将采取的路线轨迹,进一步取决于实际数据和自身的内部状态。然而,与作为推理的分层神经对话模型不同,我们的顶层过程在数据本身的相反(时间)方向上运行反了考虑到展开计算图中的梯度流,我们选择这样做。如果顶层进程在时间t=K开始,向后工作到时间t=1,顶级模型将更加依赖于信息,来自未来(或来自序列中更晚的位置)的信息,并且该信息将被编码在与特定动作类型/标签相关的突触权重中。当顶层过程用于生成引导向量序列时,它创建虽然很难证明顶层RNN真的此外,与[4,10,17]相比,我们用于短期和长期运动预测的模型具有显著更少的参数,并且在长期运动预测上实现了如表7所示的最新结果,并且与[17]在短期运动预测上的最新结果具有竞争力,如表6所示。模型参数数量ERD [4]14,842,054LSTM-3LR [4]20,282,054[第10话]18,368,534MBR-long [17]3,425,334GRU-d(我们的)2,735,670VGRU-d(我们的)3,413,047表1:模型参数数量。432112119Hn不不^^^O^′C3.3. 披露衍生工具信息运动导数包含用于对局部(近过去)运动信息进行建模的关键特征信息。这些特征计算起来很便宜,并且不需要任何额外的模型参数。受此启发,我们使用有限向后差分近似通过a提取运动导数,计算如下:从一步预测的简单任务开始的多步迭代预测。实现这一目标的一种直观方法是逐步使RNN从一步预测的简单任务(在每个时间步提供基础事实)发展到多步迭代预测的最终目标定义一个复合损失函数,其中包含用于测量一步预测和多步迭代预测损失的单独项,并对这些项进行加权,将确保n[f](x)=Σi=0(−1)n.nΣ我f(x−ih)(5)在训练周期的过程中,网络缓慢地从只能提前一步预测适应到能够进行多步迭代预测。这在-其中i表示我们想要近似的导数的阶数,直到n,h是非零间距常数。学费形成如下定义的多目标损失函数的基础,我们提取n={1,2,3}的运动导数,h=1使用上面的等式,并将这些向量附加到L(y^,y)=1<$(y^t-yt)2+λ′(y^t1−yt1)2(6)关节角度向量。我们的递归模型的线性解码器只输出下一个时间步长的关节角度。持续时间Tt=0Tt1=0使用闭环,迭代多步预测,我们计算其中yt=t时的地面实况输出,yt=模型输出,这些动态的运动导数开环模式在t,ycOt1 =闭环中的模型输出3.4. 促进闭环预测为序列预测任务训练RNN的标准方法是在训练期间的每个时间步提供地面实况输入。然后,在测试时,模型模式在t1。开环模式是指在每个时间步将地面实况输入馈送到RNN以产生输出,而闭环模式是指在t将模型自己的输出作为t + 1的输入馈送到RNN对于每个输入数据序列,这种丢失要求我们运行两次前向传递,即,i)在开环模式下计算yt,以及ii)t处的措辞被输入,将其视为地面实况输入,当在t+1进行预测时。我们称之为封闭式-计算yctO在闭环模式下。 我们逐渐增加循环(或迭代)预测。然而,这种方法的一个关键问题是,模型无法从累积的错误中恢复,并且RNN预测会随着时间的推移而显著下降。 这是由于它在训练期间接收的输入中的显著失配(即,地面实况输入)和测试时间(即,它自己的来自先前时间步的噪声预测)。这导致合成的长期运动轨迹快速地从多个可行的运动轨迹发散。如前所述,[4]和[10]通过在训练期间向输入注入逐渐增加的高斯噪声来缓解这个问题。[17]在训练过程中,使用了抽样损失,模型输出被反馈到自身。Forcing教授[14]通过使用对抗训练机制来解决这个问题,以确保RNN的隐藏状态在训练和测试期间被限制为相似。然而,这种方法在计算上是昂贵的,需要仔细的超参数调整,并遭受通常在生成对抗网络的训练中遇到的稳定性问题。最近,[31]表明他们的方法或自动调节,通过在训练期间在地面真实样本和模型自身输出之间交替,帮助RNN模型产生良好的我们从多任务和课程学习的角度来看待在考试时使用RNN进行多步迭代预测的问题我们最终要求RNN在以下硬任务上实现良好的性能:λ在训练周期开始时使用步骤时间表开始时为零值。因此,随着网络学会了更好地进行一步预测,该时间表逐渐对通过进行闭环预测而贡献的损失项赋予了更大的重要性。从我们的长期运动合成实验,我们表明,我们的多目标损失函数优于噪声调度[4,10],自动调节[31]和采样损失。[17]第10段。3.5. 一个互补的长时运动度量使用均方误差(MSE)作为模型的评估指标已成为短期运动预测和长期运动合成任务的标准实践[4,10,17]在短期运动预测中,评估度量需要捕获各种模型在短期范围(即0-500毫秒)内能够多好地模拟地面实况数据,因为这些模型用于运动跟踪应用。然而,在长期运动合成任务中,需要评估模型在给定一些种子运动帧的情况下在长期范围内产生合理的未来运动的程度。由于人体运动在长时间范围内具有内在的随机性,因此模型可能会显着偏离地面实况轨迹,并且尽管产生了质量良好的人体运动,但具有较大的MSE。这个问题在以前的工作中已经注意到[4,10,17]。432112120Σ有各种各样的原因。举例来说:如果预测对应于以较慢的速度行走,则关节角度将不对准(频移),并且MSE com.因为,规范Xi,j[ f]规范Yi,j[ f]会随着时间的推移而发散在短期内,联合Xi,j [f]=F Xi,j[f];Yi,j[f]=Yi,j(七)[f]角度可能仍然足够相似,MSE意味着-emdi,j=<$Xnorm[f]−Ynorm[f])<$1(8)完全捕捉相似性,但从长远来看,他们将-i、ji、j会有很大的不同类似地,如果与地面实况序列相比添加或移除(相移)几个额外因此,如在那里,L1是L1范数。最后,我们使用在(8)中计算的一维EMD距离的所有i和j上的功率加权平均,如下所示,以前的工作[4,10,17],使用MSE作为评估满足-i双范数RIC不适合长期任务。但没有此前曾试图提出另一个问题,NPSS=吉吉pi,jpi,j=Xi,j [f]F(九)用于评价长期运动合成的模型在本文中,我们提出了这样一个指标,支持用户研究,基于以下直觉。 我们可以说,任何行动的本质,如走路,吃饭,跑步等。可以通过在执行该动作时身体的关节角度的频率信号来捕获。对于以较慢的步速行走的示例,功率谱(从离散傅立叶变换获得)将在稍微较低的频率处示出尖峰,并且几个帧的添加或移除将显示为频域中的相移。慢/快或相移行走的示例涉及周期性子动作,而类似于讨论的周期性动作将在频域中示出更均匀的功率扩展(这指示动作中缺乏周期性,这也被功率谱拾取)。与MSE相比,测量地面实况序列与相同运动类型的相应生成序列之间的功率谱相似性将解释这些现象,并与样本的视觉质量(参见第4.2节中的用户研究结果基于内容的图像检索领域已经使用EMD [21,6]来使用图像颜色直方图之间的EMD距离来量化图像的视觉相似性。利用上述示例的直观性,并受到这一成功的启发,我们提出了一种基于EMD的功率谱度量,克服了MSE作为长期任务评估度量的许多缺点。对于测试集中的给定动作类,设有k个长度为T的序列,每个时间步的关节角输出向量为D维。 我们将xi,j[t]定义为第i个序列的第j个特征维度在时间t处的地面真值,并且yi ,j[t]为相应的模型预测。同样,令Xi,j[f]和Yi,j[f]是Xi,j[t]和Yi,j[t]的离散傅里叶变换系数(每个特征维度j的序列i)的平方幅度谱。 首先,我们将X i,j[f]和Y i,j[f]归一化为f其中pi,j=第j序列中第i个特征的总功率来得到给定操作类的序列评估集的标量评估度量我们将我们的度量称为归一化功率谱相似性(NPSS)。另一种解释是,我们可以将长期运动合成视为生成建模任务。通过这种解释,评估度量必须捕获地面实况和预测运动样本的分布的差异。NPSS捕获地面实况和预测序列的联合角度的功率谱中的分布差异。因此,它更好地装备,以模拟运动轨迹的视觉质量的差异。4. 实验4.1. 训练设置对于我们的短期模型VGRU-r1(MA),我们使用我们提出的多目标成本对所有动作类进行训练,计算32个样本的小批量梯度(将梯度范数裁剪为5),并在初 始 学 习 率 λ = 0 的 情 况 下 优 化 100 , 000 次 迭 代RMSprop [28]的参数。0001和衰减0。每5000次迭代8次,直到60,000次迭代。概率为0.3的Drop-out [30,20]仅应用于Body-RNN,它被进一步修改为使用将输入单元连接到输出单元的跳过连接,如[17]所示。该模型被赋予50个种子帧,并负责预测接下来的10个后续帧(400毫秒)。当为此训练时,VTLN-RNN向后展开,而Body-RNN向前展开,在时间上超过60步。(Note:MA代表多动作,SA代表单动作。)对于我们的长期模型,其在单作用数据上进行训练,使用RMSprop(λ= 0. 0002,衰减0。6每2000itera-次)超过10,000次迭代,小批量为32,us-再次,我们提出的成本函数。模型在50个种子帧中被馈送,并预测接下来的100帧(4秒),这意味着VTLN-RNN向后展开,而Body-RNN向前150步。Body-RNN的输入向量由附加的关节角度组成F432112121运动导数。VGRU-d是指我们提出的VTLN-RNN架构,其中VTLN-RNN和Body- RNN都只包含512个GRU单元的单层。GRU-d是指2层GRU模型(每层512个单元)。VGRU-d和GRU-d模型都使用我们提出的损失进行训练VGRU-ac是指我们的VTLN-RNN架构,使用自动调节训练[31],使用推荐长度5作为基线。对于所有模型(短期和长期),超参数在单独的验证集上进行了调整。预测运动轨迹与地面真相,根据谁拥有更好的“运动质量”。用户被告知,短语“运动质量”指的是到整体骨架姿态的相似性/接近性(即,整体姿势)和整个序列上的关节运动动力学,而不是简单的时间上的点对点匹配,并基于该标准做出他们的决定。请参阅补充材料,以获取用户调查视频的示例屏幕截图对 于 4 个 行 动 类 别 ( 即 步 行 、 吃 饭 、 吸 烟 和 讨论),我们展示了20个地面实况的视频序列,并进行了A与B的比较(参考地面-真值600400200Julietta-长期NPSS = 1.255600400200VTLN-GR U -acNPSS =0.933600400200GRU-dNPSS =0.711600400200VTLN-GRU-dNPSS = 0.477600400200以补充示例用户研究屏幕截图)。视频样本是均匀随机选择的(没有重复)。0zz0z0z0z0放置)从所有可能的,成对的组合,400200− 200− 200− 400− 600−200− 400−600−400−200−200−200− 400− 600−400−200− 200− 200−400−600− 400−200−200−200−400−600−400−200−2006个模型。然后我们为一个动作选择了一个测试序列地面-真 值600400200− 200600400200−200Julietta-长期NPSS = 1.255600400200− 200VTLN-GRU -acNPSS =0.933600400200−200GRU-dNPSS =0.711600400200−200VTLN-GRU-dNPSS = 0.477类,通过均匀随机采样与替换,并提出了地面实况运动序列和先前挑选的配对模型预测该序列。这0zz0z0z0z0400−400−400− 600−400−600− 400− 400−400−600−400−400− 400−600− 400− 400−400− 600−400−400重复该过程以生成20个视频(即,20个问题)2000− 200− 2000200− 2000200−2000200−2000200− 2000200− 2000200−2000200−2000200−2000200地面-真值600400200600400200Julietta-长期NPSS = 1.255600400200VTLN-GR U -acNPSS =0.933600400200GRU-dNPSS =0.711600400200VTLN-GRU-dNPSS =0.477四个行动中的每一个这项研究涉及20名参与者的4个行动类调查。0zz0z0z0z0现在,对于两个评估指标(即,MSE和NPSS)400200− 200− 200− 400− 600−200− 400−600−400−200−200−200− 400− 600−400−200− 200− 200−400−600− 400−200−200−200−400−600−400−200−200我们得出用户研究中使用的模型的排名为地面-真 值600400200− 200600400200−200Julietta-长期NPSS = 1.255600400200− 200VTLN-GRU -acNPSS =0.933600400200−200GRU-dNPSS =0.711600400200−200VTLN-GRU-dNPSS = 0.477MSE度量排名,我们计算长期窗口的所有时间片上的MSE之和(即,80、160、320、400、560、1000毫秒,这与先前的0zz0z0z0z0400−400−400− 600−400−600− 400− 400−400−600−400−400− 400−600− 400− 400−400− 600−400−400工作[10])。 对于NPSS,我们使用表4中的结果来计算-2000− 200− 2000200− 2000200−2000200−2000200− 2000200− 2000200−2000200−2000200−2000200地面-真 值600400200− 200600400200−200Julietta-长期NPSS = 1.255600400200− 200VTLN-GRU -acNPSS =0.933600400200−200GRU-dNPSS =0.711600400200−200VTLN-GRU-dNPSS = 0.477对所有4个动作的模型进行排序。然后,我们使用这些排名(MSE和NPSS)为每个行动类对用户调查中的每个问题进行预测作为0zz0z0z0z0400− 400−400− 600−400−600− 400−400− 400− 600−400−400−400−600− 400− 400− 400− 600−400−400如表3所示,我们计算同意的概率2000− 200− 2000200− 2000200−2000200−2000200− 2000200− 2000200−2000200−2000200−2000200图2.测试序列上行走活动的长期运动合成。快照沿着预测时间轴在160、560、1000、2000和4000毫秒(从上到下)处示出。我们看到GRU-d和VTLN-GRU-d在质量上比MBR-long和VTLN-GRU-ac更接近地面实况序列。4.2. 用户研究:长期运动合成我们进行了一项用户研究,以了解人类对长期运动的判断如何与MSE以及我们提出的NPSS相关。一个理想的定量评价指标,长期的人类运动将是一个强烈同意人类的判断。为了进行这项研究,我们考虑了表4中的 6 种 模 型 ( 即 VGRU-r1 ( SA ) 、 MBR- 不 支 持(SA)、MBR-长、VGRU-ac、GRU-d和VGRU-d)。在每次试验中,向用户呈现地面实况运动的视频和来自针对给定测试集动作序列随机选择的一对模型(从上面的列表中)的相应模型预测(模型的排序是随机的,其中身份对用户隐藏)。用户被要求比较模型对于MSE和NPSS,与用户的意见和分歧。度量步行吃吸烟讨论MSE排名1. VGRU-r1(SA)2. MBR-unsup(南非)3. VGRU-d4. MBR-长5. VGRU-ac6. GRU-d1. VGRU-r1(SA)2. VGRU-d3. MBR-unsup(南非)4. VGRU-ac5. GRU-d6. MBR-长1. VGRU-r1(SA)2. MBR-unsup(南非)3. VGRU-d4. VGRU-ac5. GRU-d6. MBR-长1. VGRU-r1(SA)2. VGRU-d3. GRU-d4. VGRU-ac5. MBR-unsup(南非)6. MBR-长NPSS排名1. VGRU-d2. GRU-d3. VGRU-ac4. VGRU-r1(SA)5. MBR-长6. MBR-unsup(南非)1. GRU-d2. VGRU-ac3. VGRU-d(SA)4. VGRU-r1(SA)5. MBR-unsup(南非)6. MBR-长1. VGRU-d2. GRU-d(SA)3. VGRU-ac4. VGRU-r1(SA)5. MBR-unsup(南非)6. MBR-长1. VGRU-ac2. GRU-d3. VGRU-d4. MBR-unsup(南非)5. MBR-长6. VGRU-r1(SA)表2:长期运动模型MSE NPSS排名。MSENPSS同意0.4875(39/80)0.8125(65/80)不同意0.5125(41/80)0.1875(15/80)表3:MSE NPSS的用户同意率在所有行动中以大多数用户投票作为基础事实。a/b =用户回答与metric的回答600− 600−600−600−600−600−600−600−6000−200−6000200−40002000200−40002000200−40002000200− 40002000200−400600− 600−600−600−600−600−600−600−600−600600− 600−600−600−600−600−600−600−600−6000−2000200−40002000200−40002000200−40002000200− 40002000200−400600− 600−600−600−600−600−600−600−600−600600− 600−600−600−600−600−600−600−600−600432112122一致的432112123此外,我们进行了二项测试的比例,以测试声称,NPSS同意更好地与用户的判断比MSE。在这个测试中,p1被定义为在随机样本上,NPSS与人类排序/选择一致的概率,而p2是MSE与人类排序/选择一致的概率。设原假设为H0:p1≤p2,备择假设为是HA:p1> p2,并试图测试零对备选假设 科学研究通常设定了p值的统计学显著性阈值为-低0。01(较小的p值将更好地支持NPSS是更好的度量的说法,确认p1在统计学上大于p2)。我们得到的值明显低于这个阈值,即,p值为1。7 ×10- 5。5. 结果和讨论鉴于我们的用户研究的结果,我们认为,NPSS应该是首选(比MSE)测量模型生成质量在长序列(预测在较长的视野)。 然而,为了全面评估运动合成模型,我们建议在评估模型进行短期和长期预测的能力时,将NPSS与MSE结合使用。NPSS的用户研究结果是有希望的,但是,需要进行进一步的研究来进一步验证和加强我们的发现。为 了 与 之 前 的 工 作 兼 容 , 表 7 比 较 了 欧 拉 角 的MSE,在测试序列的特定时间片测量,与竞争方法,如LSTM- 3LR和ERD [4],SRNN [10]和MBR-长[17]。尽管我们的短期模型VGRU-r1(SA)在1秒标记之前显示出最佳性能(最低MSE),但[10,17]已经注意到并且通过我们的用户研究结果进一步证实,MSE不适合长期运动合成任务。表4显示了在测试集上评估的模型的NPSS度量结果。模型步行吃吸烟讨论VGRU-r1(SA)(我们的)1.2171.3121.7364.884南非(南非)[17]1.8091.4812.7942.258MBR-long [17]1.4991.6214.7412.882VGRU-ac1.0320.8421.4261.651GRU-d(我们的)0.9310.8361.2741.688VGRU-d(我们的)0.8870.8461.2351.777表5:3个不同时间尺度下的NPSS,即1)短期:0-1秒2)中期:1-2秒3)长期:测试集上的2-4秒窗口预测与长期模型相比,UEs(直到1秒,如表7所示)在NPSS方面获得更差的分数。这一结果与这些模型产生的样本的视觉质量一致,并说明了NPSS如何比MSE更好地捕捉样本质量的差异。基于NPSS指标,VGRU-d和GRU-d产生更好的长期运动轨迹,在所有4个动作类别中均优于MBR-长和VGRU-ac。为了辨别短期和长期模型的优点和缺点,我们在3个不同的时间尺度上计算了测试序列的NPSS度量,即,1)短期:0-1 s,2)中期:1- 2s,3)长期:表5所示测试序列的预测时间轴上的2-4 s。观察短期模型(双线上方)VGRU-r1(SA)和MBR-unsup(SA)在短期时间尺度内与长期模型(双线下方)的表现具有竞争力。在中期预测hori- zon中,短期模型比长期模型的退化略多,正如mea中的小差距所证明的那样。表4:测试集NPSS评分(越低越好)。 双线上方:短期 模 型 , 即 , MBR-unsup ( SA ) , MBR-unsup 。(MA)[17](重新训练的单动作),和我们的,采样的长 期 持 续 时 间 。 线 下 : 长 期 模 型 , 即 , MBR- 长( SA ) [17] , 和 我 们 的 , 如 GRU-d , VGRU-d ,VGRU-ac。我们可以看到,短期模型VGRU-r1(SA)和MBR-unsup(SA)尽管具有最低的MSE值,确定NPSS值。然而,在长期预测范围内(2-4 s),短期模型相对于长期模型显著退化。NPSS值的较大差距证明了这一点。GRU-d和VGRU-d模型在所有操作和时间范围内表现最佳,有效地优于MBR-长期和VGRU-ac。最后,表6示出了针对测试集序列上的多动作数据的短期运动预测实验的MSE结果。零速度是一个简单的,但难以击败的基线,在[17]中介绍,它使用前一帧作为模型短期步行吃吸烟讨论VGRU-r1(SA)(我们的)0.1200.0910.0520.258南非(南非)[17]0.2380.2490.1830.416MBR-long [17]0.1610.2140.2650.703VGRU-ac0.1180.1130.0750.256GRU-d(我们的)0.1270.0950.1260.185VGRU-d(我们的)0.1170.1210.0840.194中期VGRU-r1(我们的)(SA)0.1940.0930.0790.375南非(南非)[17]0.2060.1780.2370.439MBR-long [17]0.2370.1600.4050.477VGRU-ac0.1880.1030.0970.298GRU-d(我们的)0.1700.0960.0830.258VGRU-d(我们的)0.1790.0800.0670.331长期VGRU-r1(SA)(我们的)0.5440.7640.9482.72南非(南非)[17]0.8840.6841.0770.943MBR-long [17]0.5490.7541.4031.245VGRU-ac0.4600.4591.0510.811GRU-d(我们的)0.4060.3320.7230.785432112124走路吃饭抽烟讨论毫秒80160320400801603204008016032040080160320400零速度[17] 0.39 0.68 0.99 1.150.73 0.860.26 0.480.970.31 0.67 0.94MBR-unsup(MA)[17]0.27 0.47 0.70 0.780.71 0.870.33 0.61 1.04 1.190.31 0.69 1.03MBR-sup(MA)0.28 0.49 0.72 0.810.62 0.760.33 0.61 1.050.310.68VGRU-r1(MA)(我们的)0.340.47 0.64 0.720.27 0.40 0.640.360.610.850.46 0.820.95±1e-3± 1e-3±2e-3 ± 2e-3±2e-3± 1e-3±2e-3 ± 2e-3±6e-4± 1e-3±1e-3 ± 1e-3±2e-3± 1e-3±3e-3 ± 5e-3表6:短期结果:用于短期运动预测的测试序列上的MSE。所有模型都是在多个动作上训练的。VGRU-r1(MA)是指我们的VTLN-RNN,具有1层(512 GRU单元)和1层512 GRU单元的Body-RNN,其中Body-RNN具有剩余的输入到输出连接,如[17]所示对于VGRU-r1模型,我们计算30次试验的平均值步行吃吸烟讨论模型80 160 320 400 560100080 160 320 400 560100080 160 320 400 560100080 160 320 400 5601000南非(南非)[17]0.370.6550.9871.0951.286 1.4760.4110.7811.3751.6301.926 2.1060.4720.8911.4971.7262.077 2.5810.7011.3262.1342.4332.996 2.950VGRU-r1(SA)(我们的)0.4100.5700.8070.8681.0261.2310.285 0.4410.6680.8290.995一千五百三十一0.378 零点六五六 0.9160.994 一点一四七 一千八百三十七0.504九点零九 一千零七十四 一千二百八十二 一千六百五十
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功