没有合适的资源?快使用搜索试试~ 我知道了~
随机人体运动预测:基于弱监督动作迁移学习的方法
8151基于弱监督动作迁移学习的随机人体运动预测卫茂1 刘苗苗1, Mathieu Salzmann马蒂厄·萨尔茨曼2,31澳大利亚国立大学; EPFL实验室2个;3 ClearSpace,瑞士{wei.mao,miaomiao.liu} @ anu.edu.au,mathieu. epfl.ch饮料通行证图1. 随机人体运动预测。给定一个过去的运动(粉色)和一系列未来的动作标签,我们的模型会生成特定于动作的未来姿势(黄色)。我们展示了为相同的历史和操作生成的两个不同的未来。我们的模型允许这些预测具有不同的长度。运动被下采样到相同的帧速率以用于可视化。摘要我们介绍了动作驱动的随机人体运动预测的任务,其目的是预测多个plausi- ble未来的动作序列的动作标签和一个短的运动历史。这与现有的作品不同,现有的作品预测的运动要么不尊重任何特定的动作类别,要么遵循一个单一的动作标签。特别是,完成这项任务需要应对两个挑战:不同动作之间的过渡必须平滑;预测运动的长度取决于动作序列,并且在样本之间显著变化。由于我们无法实际期望训练数据覆盖足够多样化的动作转换和运动长度,因此我们提出了一种有效的训练策略,该策略包括将来自不同动作的多个运动相结合,并引入弱形式的监督以鼓励平滑转换。然后,我们设计了一个基于VAE的模型条件上观察到的运动和动作标签序列,使我们能够生成多个合理的未来运动的不同长度。我们说明了我们的方法的通用性,探索其使用两种不同的时间编码模型,即RNN和变压器。我们的方法优于基线模型,该模型是通过采用最先进的单动作条件运动生成方法和随机人体运动预测方法构建的,我们的新任务行动驱动的随机运动预测。我们的代码可在https://github.com/wei- mao-2019/WAT上找到。1. 介绍人体运动建模在人机交互[26],虚拟/增强现实(AR/VR)[46]和动画[49]中有广泛的应用。多年来,它一直是一个活跃的研究问题[8]。特别是,最近,在给定观察到的过去运动序列的情况下,在预测未来运动方面取得了很大进展[5,56]。宣传这一点可能会对自主系统产生重大影响然而,除了少数早期预测单个动作类别的运动的方法[13,21],最近的方法[36,56]主要集中在动作不可知论的预测。因此,它们不能被自主系统用来生成由动作标签序列编码的特定潜在未来场景,例如评估人在人行道上的后果-步行到十字路口、等待绿灯和过马路,或者相反地在街上跑步并停在汽车前面。相比之下,最近关于人体运动合成的工作可以生成特定于动作的序列[17,42]。然而,这些方法既不杠杆-8152老化过去的运动观察,也不合成不同动作之间的转换因此,在这项工作中,我们引入了动作驱动的随机人体运动预测的任务,其目的是预测一组未来的运动给定的一系列动作标签和过去的运动观察。这项任务的关键挑战之一来自于人类可以执行具有各种动作转换的动作的事实。例如,当一个人走到一张桌子上,他们可以拿一杯饮料,或坐在椅子上,或把东西放在桌子上,或执行上述任何组合。因此,构建一个涵盖如此巨大的可能动作转换空间的数据集几乎是不可能的,这使得训练该任务的模型变得非常复杂事实上,据我们所知,几乎所有的人类运动数据集都包含描述单个动作的序列。虽然最近的BABEL数据集[43]构成了每个序列多个动作的唯一例外,但它只包含一小部分动作转换,正如我们的实验所证明的那样,这不足以学习推广到任意的动作转换。为了解决人类动作转换的多样性与有限的数据,我们开发了一个弱监督的训练策略,只依赖于运动平滑先验。具体来说,我们通过组合来自不同动作类别的历史和未来运动来生成多动作序列,并通过简单地鼓励预测的运动在时间上平滑来解释两个动作之间的过渡期间缺乏监督。正如我们的实验所示,这样一个简单的先验足以模拟自然的动作转换。我们任务的第二个主要挑战来自于人体运动的随机性:有几种方法来执行一个动作序列是同样合理的。为了处理这种随机性,我们设计了一个基于可变自动编码器(VAE)[24]的模型,根据观察到的过去运动和动作标签序列调节VAE。我们证明了这个模型的通用性,利用它与两种不同的时间编码架构,一个基于RNN的和一个基于Transformer的。此外,为了反映某些动作序列需要比其他动作序列更多的时间来执行的事实,我们引入了一个简单而有效的策略,基于预测方差来产生不同长度的多动作运动这与预测固定长度运动的大多数运动预测文献相反,并且,如图所示。1,使我们能够生成现实的,不同的未来运动描绘给定的行动,以不同的长度。我们相信,我们的方法也可以有益于其他任务,例如,可变长度的音乐生成。因此,我们的贡献可以总结如下:(i)我们引入了一个新的任务,动作驱动的随机人体运动预测,它弥合了运动合成和随机人体运动预测之间的差距;(ii)我们提出了一种弱监督的训练策略来学习动作转换,而不需要不真实的注释数据量;(3)我们提出了一种简单而有效的方法来预测不同长度的运动。我们在3个人体运动建模基准点上的实验证明了我们的方法的有效性,通过扩展最先进的动作条件运动合成方法和随机人体运动预测方法构建的基线模型超出了我们的新任务。2. 相关工作人体运动预测大多数人体运动预测工作[4,9,10,13,15,16,21,29,36-因为预测人类在很短的未来的运动(<0。5s)。这些方法的主要区别在于它们的时间编码策略,使用递归架构[13,15,16,21,38,41,52]或前馈模型。els [4,9,10,29,36,37].然而,它们中的大多数并不旨在产生具有相同过去序列的运动,这些运动尊重任何给定的动作标签。唯一的例外,包括行动的信息是早期的作品[13,15,16,21,38]。然而,这样的信息仅用于帮助预测与历史运动相同的动作的未来运动。相比之下,我们试图预测不同和多个动作类别的未来运动。因为,给定一个动作标签序列,我们的目标是预测多个看似合理的运动,这与各种人类运动预测更密切相关[5,6,18,27,32、51、54、56]。为了捕获未来运动的分布,这些方法通常依赖于深度生成模型,例如VAE [24]和生成对抗网络(GAN)[14]。 在最近的研究中,[ 5 ]的工作通过扰动随机变量来防止VAE忽略随机变量; DLow [56]专注于从预训练的生成模型中学习各种未来预测的采样过程。虽然这些模型确实产生了不同的和合理的未来运动,这些生成的运动不遵循任何明确的语义类别。因此,它们不能被用来帮助自主系统评估根据人类行为定义的不同场景。相比之下,我们的目标是使用语义信息来控制预测的未来运动类型,即,一系列动作标签。因此,我们设计了一个基于VAE的模型和一个弱监督的训练策略,让我们为相同的过去运动和一系列动作标签产生不同的合理的未来运动人体运动合成与运动预测不同,人体运动合成的目标是在没有任何历史观测的情况下生成逼真的人体运动。虽然早期的作品[39,48]集中在简单的,循环运动,例如,使用主成分分析[39]或高斯过程潜变量模型[48],最近的基于深度学习的方法[2,17,28,308153Q$µKL(·k·)pµmσˆp✓XY采样||||||22·||·我NN12N我···∈∈我们的模型遵循ACTOR [42]的方法,仅预测姿势参数。 形状参数用于可视化XY仅给定由one-hot vec表示的动作标签和表示的N个过去人类姿势的序列由X=[x,x,· · ·,x]∈RK×N,其中x∈RK是X第i帧中的姿势,我们的目标是预测未来图2. 概述我们的方法。更复杂的动作。在这种情况下,几项工作已经提出将生成的运动调节在一些辅助信号上,例如音频/音乐[28,30,31,45]或特克斯。实际描述[2,32]。与我们最密切相关的方法是[17,42],其目的是生成特定于动作的人体运动。 特别是,[17]引入了一个以动作标签为条件的帧级基于VAE的模型,[42]和一个具有序列级潜在嵌入的基于trans-former [50然而,这些模型只能产生描述个体动作的运动。原则上,给定覆盖所有可能的动作转换的监督数据,它们可以被训练成生成更复杂的动作。然而,实际上不可能获得这样的数据.我们通过设计一个弱监督的训练策略来克服这个问题,这个策略让我们可以利用有限的单一动作序列。可变长度运动预测。尽管已经对机器翻译生成可变长度序列进行了充分研究[50],但在人类运动预测/合成中很少考虑。然而,如在[1]中研究的,在从视频数据预测未来动作的语义和持续时间的上下文中,不同动作类别或甚至相同动作的实例在长度上显著变化。我们的方法产生一个可变长度的未来运动给定的动作标签和过去的运动。虽然[42]也生成可变长度的运动,但这些长度必须手动设置。相比之下,我们通过学习运动长度的分布来自动找到适当的持续时间。无条件视频生成。与我们最密切相关的工作是PSGAN[55],其目的是在给定一个输入图像和目标动作标签的情况下预测未来的2D人类姿势。 然而,对于仅一个输入图像,PSGAN无法预测动作转换。 其他行动-运动Y=[y=1,y=2,,yT]RK×T,y=iRK,给定操作标签的代表。学会预测如下面更详细地讨论的,我们将使用数据训练我们的模型,其中X和对应的地面真实未来运动Y描绘不同的动作。这最终将允许我们通过递归地将先前的预测视为历史信息来预测3.1. 随机驱动的运动预测为了预测动作驱动的未来运动,我们设计了一个基于条件VAE(CVAE)的模型[24],其目标是对条件分布p(Y X,a)进行建模。具体地说,如图2、我们首先对岗位进行建模-通过神经网络,编码器,其中z是潜在随机变量,并且编码器,注意编码器的参数。根据潜在变量z,CVAE的目标是使用另一个神经网络(解码器)重建未来运动Y,表示为作为pθ(Yz,X,a),参数为 θ。条件分布p(YX,a)的证据下界(ELBO)可以写成logp ( Y|X , a ) ≥Eq<$ ( z|Y , X , a ) [logp θ(Y|z,X,a)]−KL(q(z|Y,X,a)p(z|第十条(a))、(1)其中,p∈(z X,a)是潜在变量z的先验分布,由具有参数λ的神经网络建模,KL()是两个分布之间的KL散度。训练CVAE然后旨在通过最大化ELBO来最大化对数概率logp(Y X,a)实际上,ELBO中的KL散度项可以是计算为,LKL=KL(N(μ,diag(σ))<$N(μ,diag(σ)条件生成方法包括[53]和[22]。=1Σ2.日志σ2σσ2+(µi+我-i)2 -1Σ、(二)然而,这些工作的目的是生成人脸图像条件,2i=1iσˆ2在情绪上,下一个游戏屏幕键盘动作,分别,这两个根本不同,从我们的任务。3. 我们的方法现在让我们介绍我们的方法,以行动驱动的随机人体运动预测。为了在3D中表示人类,我们采用SMPL模型[34],该模型根据形状和姿势参数化3D人类网格既然我们D8154⊙ N哪里(μ,diag(σ2))和(2)是一种“以物易物”的行为。先验分布和先验分布,其均值和标准偏差分别由编码器q和先验网络p产生,D是z的维数。在训练期间,随机变量z被采样从 后 验 分 布 通 过 重 新 参 数 化 技 巧 [24] , 即 , z=0σ+µ,其中(0,1)。 给定z、过去的姿势X和动作标签a,解码器pθ的目标是重建真实的未来运动。 这让8155MLP2···≤∈2···×→不我我20我们利用一个简单的时间平滑先验,2L我2Σ≤∈···LXYYµGRUCMLPYCCCGRUCµˆσˆ采样GRU细胞XX(a) 基于RNN的模型(b)基于Transformer的模型图3. 网络结构。 我们探索使用两种不同的时间编码结构来构建我们的VAE:RNN和Transformers。我们将ELBO的第一项(的负值)表示为重建损失1TLrec=y−y,(3)i=1训练数据有关计算k的详细信息,请参阅补充材料。为了考虑到转换序列内的姿态(即T帧的姿态)是未知的这一事实,其中Y=[y=1,y=2,.,y[T]是由解码器估计的未来运动。注意,在训练期间,采样z涉及依赖于地面实况运动Y的编码器q*。由于在测试时,地面真实的未来运动是未知的,我们从先验分布中抽取随机变量。3.2. 弱监督转换学习自然的人类运动涉及不同动作类别之间的转换。因此,生成这些过渡的能力对于人体运动建模方法的成功和真实性至关重要。然而,获取覆盖所有可能的动作转变的训练数据实际上是难以处理的,并且因此现有的人类运动数据集通常仅包含描绘个体动作的运动从X到Y′的过渡应该形成一个平滑序列的直觉。受[3,20,37]的启发,我们利用离散余弦变换(DCT)来定义我们的平滑先验,利用平滑变换的洞察力用低频DCT基可以准确地表示出投影。更精确地,令Y=[y=1,y=2,,y<$T0+T]表示模型的预测值。我们首先连接历史的最后L个姿态和预测的前L个姿态,以形成长度为2L的序列,由下式表示:Z=[xN−L+1,xN−L+2,···,xN,y<$1,y<$2 ,···,y<$L],其中LN和ZRK×2L。然后,我们用前M个DCT基将该序列近似为Z=ZDDT,其中DR2L×M编码低频DCT基,M2升。Giv enZandit sapproximationZ,我们定义我们的时间平滑性先验作为损失2L没有任何过渡。 却能有效地撬起-老化这些数据来学习动作转换,我们创建合成Lsmooth=1z-z2,(4)通过将来自一个动作类别的历史动作与来自另一个动作类别的未来动作相结合来实现动作。由于这些合成运动仍然不包含现实的过渡,我们其中zi和zi是Zi和Zi中的第i个姿态,关于iv el y。因为我们只有最后T预测帧,我们将重建损失重新定义为不引入弱监督训练策略来学习生成合理的转换。更具体地说,给定历史运动X=rec=1y不 i=1T0 +i − yi<$2。(五)[x1,x2,· · ·,xN]从一个动作,我们取运动Y′=[y1′,y2′,,yT′]是X在T0帧之后的延续。然而,帧的数量T0和这些帧中的姿态都是未知的,并且不能假设T0对于任何一对历史和未来运动都是恒定的。 为了解决这个问题,我们定义T0为一个函数-X的最后一个姿态和Y′的第一个姿态的关系,即,T0=f(xN,y1′),其中f:RKRKN. 在实践中,我们发现一个简单的线性函数就足够了,因此写为T0=k,其中k>0是从线性投影YTransformer EncµµˆσˆCTransformer DecTransformer Enc线性投影X采样i=1我8156注意,我们的公式仍然允许我们通过简单地将相应的T0设置为零来利用Y′和X总而言之,我们表示我们完全的培训损失为L=λrecL rec+λ smoothL smooth+L KL,(6)其中λrec和λmax是设置不同项的相对影响的超参数。3.3. 变长运动预测在自然语言处理8157···2Σ∥Σ−∈···−Σ关于我们(NLP)[50],其中标准策略包括预测特定的停止令牌。在这里,我们不是预测停止令牌,这对于人体运动是不明确的,而是简单地鼓励模型在训练期间到达运动结束后生成静态姿势(地面实况运动的最后姿势)。具体地说,我们让模型生成P个额外的帧,导致未来的序列T0+T+P帧(Y=[y≠1,y≠2,,y=T+T0+P])。那我们用最后的地面实况来未来的姿势将其与其他帧的正常监督相结合产生更新的重建损失1名T+PLrec=y−y, (7)历史人体运动与其最后的姿势,形成一个较长的序列,然后将填充序列输入到基于变换器的解码器,输出未来的运动。为了引入动作信息和潜在随机码作为条件,我们进一步使用[58]中提出的伪自我注意策略。4. 实验4.1. 数据集我们在三个不同的数据集上评估我们的方法这些数据集中的每个运动序列都使用单个动作标签进行注释,BABEL除外[43]。一些信息,T+Pi=1T0+i i2每个数据集在表1中提供。我们还评估了数据集HumanAct12 [17]。结果是在柔软的-在测试过程中,由于我们不知道预处理的长度,在未来,当最后Q个连续帧的方差低于阈值时,我们停止预测。具体来说,对于预测的未来运动Y,我们计算,对于从第i个开始的Q个材料。数据集动态镜头列车试验运输 行动I+Qv=1yiQ jj= II+Q1QK2K=I、(8)表1. 数据集的详细信息。 We list the range of motion lengthin frames, the number of training/testing samples, the number of其中,i[1,2,,Tmax Q],并且Tmax是模型可以预测的最大帧数。如果vi<δ,我们在帧i3.4.网络结构为了展示我们方法的通用性,我们使用两种不同的时间编码结构,即递归神经网络(RNN)和变换器[50]。对于我们基于RNN的模型,如图3(a)所示,我们构建使用门控递归单元(GRU)的编码器qθ、先验pθ和解码器pθ具体地,编码器q首先使用GRU来编码历史人类姿势X和历史人类姿势X。未来人体运动Y的时间特征。这些时间特征与从全连接层获得的动作令牌连接在一起,然后被馈送到全连接网络中,该网络预测后验分布的参数(平均值μ和标准差σ先验网络以类似的方式产生先验分布的参数(平均值μm和标准差σm)给定从后验(在训练期间)或先验(在测试期间)采样的潜在代码z、历史运动X的时间特征和动作标签a,解码器再次使用GRU以自回归方式预测未来姿态。我们在 图中展示了 我们基于 transformer的模型3(b)款。对于编码器和先验网络,我们采用与[42]相同的策略,这是受到NLP中的BERT [11]和计算机视觉中的ViT [12]的启发。特别是,我们附加两个额外的令牌获得的动作标签a aggre门的时间信息来预测参数的后验和先验分布。对于解码器,我们具有动作转换和动作在每个数据集。GRAB[7,47]由10个主体与51个不同的对象交互组成,执行29个不同的动作。由于对于大多数动作,样本的数量对于训练来说太小,所以我们选择具有最多运动样本的四个动作类别通过,举起,检查和饮用。我们使用8名受试者(S1-S6、S9、S10)进行培训,剩余2名受试者(S7、S8)进行测试。在所有情况下,我们都删除了全局平移。原始帧速率为120 Hz。为了进一步扩大数据集的大小,我们将序列下采样到15-30Hz。我们的模型经过训练,可以观察25帧来预测未来。观测帧和未来帧来自相同或不同的运动。NTURGB-D[33,44](NTU).我们使用[17]的13个动作的子集,其中噪声SMPL参数由VIBE [25]估计。对于GRAB,我们删除了全局transla- tion。虽然[17]使用所有数据进行训练,但我们将数据集分为受试者的训练和测试。我们的模型被训练来观察10个过去的帧。BABEL[43]是AMASS数据集[35]的一个子集,具有每帧动作注释。由于在一个运动序列中有多个动作标签,我们将数据集分为两部分:单动作序列和描述两个动作之间的转换的序列。我们将所有运动序列降采样到30 Hz。对于单动作运动,我们首先将长动作分成几个短动作。每个短动作执行一个动作。和去除硒-时间太短(1秒)。<我们还消除了样本太少(60)或与其他动作重叠的动作标签,例如< 脚的运动序列一些-GRAB [7,47]100-501114931904[33,44]35-2013399361013巴贝尔[43]30-300964334772584208158·∈∈K{Y}∈KS( S−1)i=1j= i+1Tmaxk=1KKS( S−1)i=1j= i+1Ti,jk=1KK我 不k=1K时间与踢腿重叠。这给我们留下了20个动作标签。我们用包含这20个动作的转换序列来补充这些数据。在训练过程中,我们的模型观察10个过去的帧来预测未来。4.2. 评价指标和基线指标. 我们遵循与人体运动合成/预测类似的评估协议[17,42,56],并采用以下指标来评估我们的方法。(1) 为了衡量生成的序列和地面实况运动之间的分布相似性,我们采用了Fre' chet起始距离(FID)[19]。FID= µgen− µgtµ2其中地面实况动作标记为2,并且yk是对应的地面实况。与多样性类似,我们报告DTW后ADE(ADEw)。基线。由于没有先前的工作来解决我们介绍的任务,我们采用了最先进的动作特定的人体运动合成方法,Action 2Motion [17],ACTOR [42]和随机人体运动预测方法,DLow [56],以适应我们的任务。Action2Motion [17]依赖于具有GRU的逐帧运动VAE来编码时间信息。我们调整他们的VAE,以便采取历史姿势的时间特征作为编码和解码的额外输入该时态特征是从基于GRU的时态+Tr(氯代)公司简介-2(2004年)GenΣgt(1/2),(9)数据编码模块同样,我们修改ACTOR [42]的变压器解码器,以使其符合历史记录。其中μ·RF和μ·RF×F是从预先训练的动作识别模型获得的感知特征的均值和协方差矩阵,F是感知特征的维度。动作识别模型的细节包含在补充材料中。Tr()计算矩阵的迹。(2) 为了评估运动真实性,我们使用与上述相同的预训练动作识别模型来报告所生成运动的动作识别准确性。(3) 为了评估每个动作的多样性,我们测量从相同的历史运动和动作标签1生成的多个未来运动之间的成对距离。具体地,y,gi表示一组未来运动{Yi}S表示“前典型的运动。此外,我们调整DLow [56]中的VAE以将动作标签作为输入。实作详细数据。我们在Pytorch [40]中实现了我们的模型,并使用ADAM [23]优化器对它们进行了500个epoch的训练。我们对不同的模型使用不同的超参数特别是,对于基于RNN的模型,BABEL上的初始学习率为0.001,所有其他数据集上的初始学习率为0.002。我们将BABEL数据集的损失权重(λrec,λsmooth)设置为(50.0,10.0),将所有其他数据集的损失权重设置为(100.0,100.0)对于基于transformer的模型,初始学习率在BABEL上为0.0001,在所有其他数据集上为0.0005。BABEL数据集的损失权重(λrec,λsmooth)设置为(100.0,10.0),所有其他数据集的损失权重设置为(1000.0,100.0)根据我们的模型,多样性计算为i=1补充材料中有更多的细节。Div=2小时S1其中Tmax是我们的模型可以预测的最大帧数,yi表示运动Yi的第k帧。为了计算上述多样性,我们假设该模型在所有情况下生成最大数量的未来帧。为了进一步评估可变长度未来运动的多样性,我们在执行动态时间规整(DTW)[57]后计算每个动作的平均多样性。定量结果。在表2中,我们将我们的结果与GRAB、NTU RGB-D和BABEL的基线结果进行了比较。给定一个过去的运动,所有模型都预测以任何给定动作标签为条件的多个未来运动。我们的方法基于RNN或Transformers,在几乎所有指标上都超过了基线。一般来说,基于RNN的模型比基于Transformer的模型性能更好。我们预计这是由于数据集太i=1表示可变长度预测的集合DTW小到可以从头开始训练基于transformer的模型。然后在时间上将一对运动对齐为Yi,Yj=DTW(Yi,Yj),其中Yi和YjRK×Ti,j h表示相同数量的帧(Ti ,j)。然后,我们计算DTW后的多样性,Divw=2小时S1 (十一)在表3中,我们比较了我们的结果与基线的预测精度(ADE,ADEw)。在这里,对于每个过去的运动,每个模型使用地面实况动作标签预测多个未来运动。然后根据未来运动计算预测精度(ADE产生最小误差。 因为我们的模型(4) 为了衡量预测的准确性,我们采用了Av-平均位移误差(ADE)计算如下:不仅预测地面实况的未来,使用不同的操作标签,可能会牺牲一些准确性ADE=min1<$T<$y<$i−yk<$2,(12)其中,T是地面实况未来运动的长度,y是由模型生成的第i个样本的第k1注意,我们只报告每个动作的多样性,因为不同动作的运动本质上是多样的。和BABEL。在训练过程中,我们的模型只需要一个动作标签2因为我们只有地面实况动作标签的地面实况未来运动。4.3. 结果当评估的地面真相的未来只,如对南大8159拾取投掷图4. NTU RGB-D的结果。给定相同的历史(粉红色),我们的模型可以生成不同动作的未来运动(黄色),例如, 此外,它还可以生成描绘多个动作序列的动作(底部)。方法加计↑FIDtr↓FIDte↓Divw↑Div↑[第17话]Dlow [56]演员[42]七十6±1。3八十22±6。六四四十七81±1。090的情况。50±0。000的情况。76±0。0167岁6±0。7127 49±6。9022.71±2。790的情况。74±0。010的情况。92±0。0183岁0±0。362. 68±1。26一百一十四85±3。461 .一、06±0. 001.一、04± 0. 00表3. 预测精度的结果我们的模型可以用GT动作标签的一些性能来换取预测不同动作标签的未来运动的能力。预测步骤Dlow [56]演员[42]我们的(RNN)我们的(Tran.)49.60。4二十二岁54±0。27表2. 定量结果。 我们报告的行动承认-训练精度(Acc),FID到训练数据(FIDtr)和测试分裂(FIDte),以及之前(Div)和之后的多样性D.W.(W分区). [17]第17话,我是一个很好的朋友。[56 ]第56话我的责任以及运动历史作为输入。在测试过程中,为了预测任意长度的动作标签序列的未来运动,我们遵循递归策略。我们评估这5动作序列的情况下。具体来说,我们随机采样了5个动作标签的序列,以自回归方式生成未来的对应于每个动作标签。表4所示的结果表明我们的模型保持稳定。请注意,NTU上的第1步和第2步之间的性能差距可能是由于我们的模型是用抖动的“地面实况”NTU运动历史进行训练的定性结果。在图1中,我们显示了在相同的过去运动和相同的动作序列下,我们的模型在GRAB上生成的不同的未来。NTU RGB-D数据集的其他定性结果见图13。4.第一章给定相同的历史姿势,我们的模型可以生成不同动作的未来和多个动作的序列补充材料中提供了更多结果。轨迹平滑。我们还比较了不同模型产生的误差。第五条(a)款。[17]第17话:你的心在哪里表4. 使用动作标签序列进行预测的结果。我们的模型在每个预测步骤都实现了稳定的性能。抖动,特别是在历史运动和预测运动之间的过渡期间(如红色圆圈所突出显示)。原因在于,M2Motion采用逐帧随机码,从而使得解码器的输入在帧之间显著变化。请注意,这种抖动使我们的方差为基础的停止标准inappli-电缆到E2 Motion。因此,我们测试了不同的停止ping策略,在补充材料中详细说明,并报告了最佳结果。当比较我们的两个模型时,我们发现基于RNN的模型比基于Transformer的模型产生更平滑的未来运动。4.4. 消融研究为了更深入地理解我们的模型,我们评估了它的两个主要组成部分的影响,即,鼓励模型预测序列结束时的静态姿势,我们称之为“填充”,以及弱监督动作转换学习(“weakly-sup”)。结果示于表5中。一般来说,我们的(RNN)我们的(Tran.)[第17话]Dlow [56]演员[42]我们的92.6±0。6八十五5± 1。266岁。3± 0。2七十6±0。266岁。3± 0。176.0±0。244.59± 1。39四十八583. 05一百四十四98±2。44151. 11±1。25355 69±5。74三十八岁。03±1。49二十五72± 2。16一百一十三61±0。84一百五十七54±1。62193 58±2。91111.01±1。28一百一十四62±0。931.10±0. 011.37± 0.011 .一、05±0. 011.一、08± 0. 010的情况。75±0。011.一、19± 0。010的情况。97±0。001.一、21± 0。001.84±0. 00二、07± 0. 001 .一、25± 0。00抢NTU巴贝尔方法[第17话]Dlow [56]ADEw↓ADE↓ADE w↓ADE↓ADE w↓ADE↓1 .一、92±0。03二、28±0。030.78±0. 011.11±0. 011 .一、25±0。021.一、27± 0。011 .一、78± 0。031 .一、96± 0。030的情况。95± 0。011 .演员[42]二、41±0。02二、57±0。021 .一、26±0。011 .一、49±0。01二、19±0。02二、29± 0。02我们的1 .一、73± 0。021.93±0. 030的情况。89±0。011 .一、20±0。011 .一、31±0。001.一、47± 0。01我们的1.69±0. 021.93±0. 030的情况。84±0。011 .一、23±0。011 .一、24±0。011.一、40± 0。02FIDte↓FIDtr↓44. 59± 1。39三十八岁。03± 1。4974. 85± 138491. 65± 7。 2111136±243611730± 13991 .一、10± 0。01131± 0。01133± 0。01132±Div↑1. 37±0。01160±0。01162±0。021. 61±0。031. 64±0。02Divw↑加计↑七十六。0± 0。2619± 0。七六一。4± 0.7606± 0。6601± 0。6FIDte↓FIDtr↓七十二18±0。93219 08±13。6824821± 1365111. 01±1。28243 57 ±7。11286 82 ±10。15334 42 ±167133494±4。53240个。40± 1143316号87±Divw↑1 .一、25± 0。001. 22± 0。021. 23± 0。01122±0。021. 21±0。01Div↑2. 20±0。002. 16±0。042. 18±0。012. 17±0。04 2. 15±0。02加计↑四十九6± 0。 454. 4± 1。0538± 1。0550± 1。6544±1。7FIDte↓FIDtr↓二十二岁54± 0。二十七二十七75± 1。0527. 98±0。5428. 10± 0。5228. 27± 0。42二十二岁39± 0。三十六二十七。97± 0。9928. 06± 0.602832± 0。6528. 55± 0。511 .一、35± 0。001. 32± 0。021. 31± 0。01129±Div↑1. 74±0。001. 71±0。021. 69±0。01167±0。01168±0。02Divw↑巴贝尔抢NTU抢BABEL NTU12个。7± 0。2二十七岁99± 0。45二十四岁18± 0。590的情况。65±0。000的情况。90±0。00第一月23日月4月5四十9±0。229岁34±0。10三十31±0。162.94± 0. 002.71± 0. 0092. 6 ±0。694 3± 0。631岁45± 6。73九十三4±0. 931岁53± 6。36九十三5±0。6三十八岁。92± 6。3192. 6± 1。0四十三14±1025±二十二岁39± 0。361 .一、35± 0。001 .一、74± 0。0039岁5 ±0。320.02±0。2419.41± 0.351 .一、39± 0。001 .一、82± 0。018160我们的(RNN)我们的(trans.)帧frame(a) 2.2运动与我们的(b)我们的w/padding vs.无填充图5. 运动轨迹(a)我们模型的轨迹比m2motion的轨迹更平滑[17]。(b)我们的模型中没有“填充”的轨迹监督策略(由于BABEL中有限的地面真值转换并不能覆盖所有可能的情况,因此将它们用作监督是无效的。具体地,如表1所示,仅存在大约2500个地面实况转换序列,描述了170种类型的转换。相比之下,我们的弱监督策略利用了几乎100,000个伪转换,覆盖了所有380种可能的类型。这进一步证明了我们的弱监督动作转换学习策略的重要性。5. 结论在本文中,我们介绍了行动驱动的随机人体运动预测的任务,其目的是预测未来的轨迹,一个给定的行动类别。以来表5. 消融研究为可变长度预测(padding)和弱监督动作转换学习(weakly-sup)生成额外的静态帧。请注意,如果没有方法w/o bothw/gt-transiw/ weakly-supw/ bothw/o bothw/gt-transiw/ weakly-supw/ both表6.关于训练与地面实况转换的消融研究V.S.我们的弱监督动作转换学习。对于两种时间编码结构,两种分量在所有数据集上都实现了最佳性能。虽然没有填充的模型的数值结果接近于有填充的模型,但我们观察到这些模型生成的轨迹偶尔不稳定(基于RNN的模型)或不收敛到静态姿势(基于变换器的模型),如图所示5(b)。如果没有我们的弱监督过渡学习,模型通常无法产生不同的未来运动,并且基于Transformer的模型遭受模式崩溃。最后,我们比较了使用地面实况转换(“gt-transi”)的性能期望人体运动数据集包括所有可能的动作转换是不现实的,我们已经引入了弱监督训练过程来从仅具有单个动作标签的数据集学习那些转换。此外,我们还引入了基于方差的策略来产生可变长度的运动。我们目前的模型只能生成在训练集中观察到的动作的运动,因此不允许我们在测试时探索新的动作我们将在今后的工作中设法解决这个问题。负面社会影响我们工作的一个局限性来自于我们的模型不能预测全局平移。人体运动包括局部运动和全局平移。然而,没有场景上下文,我们不能确保有效的全局翻译。例如,将我们的方法应用于真实场景的潜在风险是,在不考虑场景上下文的情况下,预测的 我们建议验证我们的模型w.r.t.在将它们应用于机器人/代理之前,确认这项研究得到了澳大利亚研究委员会DECRA奖学金(DE180100628)和ARC发现基金(DP200102274)的部分支持。作者要感谢NVIDIA捐赠的GPU(TitanV)。方法无填充无弱支撑w/ bothw/o填充w/o weakly-supw/ both无填充w/o weakly-supw/ both无填充无弱支撑w/ bothw/o填充w/o weakly-supw/ bothw/o填充w/o weakly-supw/两者加计↑88岁4±0. 674岁2±0。892.6±0。6八十4±0. 5四十八7± 0。885.5±1。2七十1±0。2七十三。6±0。376.0±0。269岁。1± 0。1六十四7± 0。271.3± 0.2四十六岁。3±FIDtr↓32.74± 0.95九十三84± 1。2944. 59± 1。3946.38± 1。45184 86±3。48四十八583. 05119 25±0。95一百零七88 ±2。2472.18± 0.93101 22±1。65216 56±2。96FIDte↓四十五61± 1。6211.42± 1。26三十八岁。03±1。4944. 63± 1。1923.03± 1。29二十五72± 2。16215 69±2。43一百一十四00±0。71111.01±1。28118. 44±2。07264. 92±6。27114.62 ±0.93Divw↑Div↑1.14±0. 011 .一、35± 0。010的情况。20±0。000 的情况。29± 0。001 .一、10± 0。011.37±0. 011.23±0. 011.12± 0.000的情况。01±0. 000 的情况。01± 0. 001 .一、05±0. 011 .一、08± 0. 011.34±0. 001 .一、82± 0。010的情况。53±0。000 的情况。89± 0。011 .一、25± 0。002.20±0. 001 .一、21±0。001 .一、62± 0。000的情况。02±0. 000 的情况。02± 0. 001.25±0. 002.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功