没有合适的资源?快使用搜索试试~ 我知道了~
13309用于多种人体运动预测卫茂1 刘苗苗1, Mathieu Salzmann马蒂厄·萨尔茨曼2,31澳大利亚国立大学; EPFL实验室2个;3 ClearSpace,瑞士{wei.mao,miaomiao.liu}@ anu.edu.au,mathieu. epfl.ch多样运动预测可控运动预测0s t 0s t图1:多样且可控的运动预测。给定一个过去的人类运动,如蓝色和红色骨架所示,我们的模型可以预测未来的各种运动,如红色框所示它还允许我们产生具有相同下半身运动但不同上半身运动的未来运动,即,以执行可控运动预测,如蓝色框中所示摘要随机运动预测的最新进展,在给定单个过去姿势序列的情况下,预测多个可能的未来人体运动已经导致产生真正不同的未来运动,并且甚至提供对某些身体部位的运动的然而,为了实现这一点,现有技术的方法需要学习用于多样性的若干映射和用于可控运动预测的专用模型。在本文中,我们介绍了一个统一的深度生成网络,用于多样和可控的运动预测。为此,我们利用现实主义的人类运动由有效姿势的平滑序列组成的直觉,并且在给定有限数据的情况下,学习姿势先验比运动先验更容易处理。 我们在那里- 预先设计一个生成器,该生成器顺序地预测不同身体部位的运动,并且引入基于姿态先验的归一化流以及关节角度损失,以实现运动真实感。我们在两个标准基准数据集Human3.6M和HumanEva-I上的实验表明,我们的方法在样本多样性和准确性方面优于最先进的基线该代码可在https://github.com/wei-mao-2019/gsps上获得1. 介绍从历史姿势序列预测未来人类运动在自动驾驶[41]、游戏行业中的动画创作[50]和人类机器人交互[32]中具有广泛的应用大多数现有的工作集中在决定性预测,即只预测最有可能的未来序列[16,40,34,38,37]。然而,未来的人类运动自然是多样的,特别是在长期范围内(>Is)。大多数的尝试,以产生不同的未来的mo-预测利用变分自动编码器(VAE)来对多模态数据分布进行建模[51,54,4]。这些基于VAE的模型被训练以最大化运动可能性。因此,正如[55]中所讨论的,由于训练数据不能覆盖所有可能的不同运动,因此测试时采样往往集中在主要的数据分布模式上,忽略次要的数据分布模式,从而限制了输出的多样性。为了解决这一问题,袁等人。[55]提出学习多个映射函数,其产生明确鼓励多样化的多个预测。虽然该框架确实产生高多样性,但它需要并行训练若干映射,并且将这种映射的训练与其用于预测的VAE的训练此外,虽然该方法被示出适用于可控运动预测,但是这样做需要训练专用模型并且不能保证运动的受控部分,例如,下半身,当身体其余部分变化时,在不同的预测中真正固定到相同的运动。在本文中,我们介绍了一个端到端的可训练的方法,不同的运动预测,不需要学习几个映射,以实现多样性。我们的框架产生完全可控的运动预测;可以严格地固定人体的一个部分的运动,并且仅对另一部分产生不同的预测。为此,我们依赖于观察到的不同的未来运动是由有效的人类构成的组织在平滑序列。因此,与其学习-13310G(1)G(2)ConcatConcatz(1)N(0,I)z(2)N(0,I)GConcatzN(0,I)(a)(b)第(1)款图2:我们的生成器(a)与标准生成器(b)。(a)我们按顺序预测不同身体部位的运动(b)第(1)款现有的方法直接产生整个运动。对于难以获得足够多样化的训练数据的运动先验/分布,我们提出学习姿态先验并对预测的姿态施加硬约束,以形成平滑序列并满足人体运动学约束。具体来说,我们将我们的姿势先验建模为归一化流[45,15],这允许我们准确计算数据对数似然,并通过在训练期间最大化样本对之间的距离来进一步促进多样性。为了实现可控的运动预测,如图1所示在图2(a)中,我们以顺序方式生成感兴趣的不同身体部位的未来运动我们的设计允许我们产生共享相同部分身体运动的不同未来运动,例如,相同的腿部运动但是不同的上身运动。这是通过固定一些身体部位的潜在代码而改变其他身体部位的潜在代码来实现的。与[55]相比,我们的方法允许我们训练一个单一的模型,实现不可控和可控的运动预测。我们的贡献可归纳如下:(i)我们开发了一个统一的框架,实现多样化和基于部分的可控人体运动预测,使用预先排序的部分序列;(ii)我们提出了一个姿势先验和关节角度约束,以规范我们的generator的训练,并鼓励它产生平滑的姿势序列。这种策略克服了其他基于VAE的方法学习不同运动分布的困难。我们在标准人体运动预测基准上的实验表明,我们的方法在样本多样性和准确性方面优于最先进的方法2. 相关工作人体运动预测人类运动预测的早期尝试[9,46,49,53]依赖于非深度学习方法,例如隐马尔可夫模型[9]和高斯过程潜变量模型[53]。尽管它们在建模简单的周期性运动方面取得了成功,但更复杂的运动通常可以通过深度神经网络更好地处理。工程.基于深度学习的方法可以大致分为确定性方法和随机性方法。确定性模型专注于预测最有可能的人类未来运动序列,给出历史观察结果[16,27,10,40,44,19,34,3,38,52,18,37,11,39]。受RNN用于序列建模的成功的启发[48,31],许多这样的方法采用递归架构[16,27,40,44,19,18]。然而,最近已经证明前馈模型可以有效地调节人体运动学结构和长期运动历史[34,38,3,10]。 在任何情况下,虽然确定性人体运动预测模型已经取得了有希望的结果,特别是 对于短期预测(<0. 5s),他们挣扎-与长期视野(>1秒)的预测。 这是因为人的运动是固有的随机过程,其中一个观察到的运动可以导致多个可能的未来运动。解决这个问题一直是随机运动预测方法的焦点。现有的主要基于深度生成模型[51,35,6,22,33,54,4,55],例如变分自编码器(VAE)[29]和生成对抗网络(GAN)[17]。在基于VAE的上下文中,Yan等人 [54]提出联合学习用于运动重构的特征嵌入和用于对运动模式转换建模的特征变换; Ali- Akbarian等。 [4]引入了随机变量的扰动策略,以防止生成器忽略它。在这两种情况下,一旦生成器被训练,通过向其馈送随机采样的潜在代码来获得可能的未来运动。然而,如[55]中所述,这种基于似然性的采样策略集中于数据分布的主要模式,而忽略次要模式。为了解决这个问题,Yuanet al.[55]介绍了一种可学习的采样策略,该策略配备有先验明确鼓励从预先训练的生成器获得的未来预测的多样性。尽管它们的性能很好,但它们的未来预测受到使用预训练生成器的限制。作为基于VAE的模型的替代方案,基于GAN的方法[35,6,22,33]与鉴别器联合训练生成器。虽然原则上,人们也可以在这些方法中采用多样性促进先验,但在实践中,所产生的附加约束使固有困难的训练过程进一步复杂化[5]。因此,现有的基于GAN的方法往往产生有限的多样性。在这里,而不是使用鉴别器来正则化生成过程,我们采用基于归一化流的姿势先验,考虑到训练数据可以更容易地覆盖姿势的多样性而不是运动的多样性,并鼓励所得姿势是有效的并形成平滑序列。3D人体姿势先验。在3D人体姿势估计文献中,许多作品[8,43,57]已经尝试学习3D姿势先验以避免无效的人体姿势。这样的前科13311...图3:我们的方法概述。 给定过去运动X,我们首先采样K个潜在码{z(1)}K并且将它们进行i i=1到未来的下半身运动{Y(1)}K . 对于每个这样的未来运动Y(1),我们再次采样K个潜在码{z(2)}K至i i=1i i i =1生成将来的上身运动{Y(2)}K.i,j j=1包括高斯混合模型[8]和VAE [43]。然而,如[57]中所讨论的,这些先验仅近似姿态对数似然,并且可能导致 不 稳 定 性 [57] 。 为 了 评 估 精 确 的 对 数 似 然 性 ,Zanfiret al.[57]因此提出了一种基于归一化流的姿态先验。规范化流(NF)[45,15]最近在密度估计中变得流行,因为它们允许计算精确的对数似然。在这里,我们使用预先训练的NF模型来评估生成的未来姿势的对数似然性,并通过最大化对数似然性,鼓励生成器生成逼真的姿势。关节角度约束。关节角度限制已经被探索用于人类姿势估计的任务[21,12,1,13]。特别地,Akhteret al.[1]介绍了从运动捕捉数据集学习的姿势相关关节限制函数。然而,它们的函数是不可微的,这使得它不适合深度神经网络。我们的角度损失与[13]相似。然而,与Dabralet al. [13]他们只考虑手臂和腿上的角度约束,包括手动定义的有效角度范围,我们包括不同身体部位/关节之间的所有角度,并利用训练数据来确定有效角度范围。可控运动预测。据我们所知,Dlow [55]构成了可控运动预测的唯一尝试,例如,固定的下半身运动,但不同的上半身运动。这是通过训练一个专用模型来实现的,该模型不同于不可控模型,但仍然不能保证对应该进行相同运动的身体部位的绝对控制。相比之下,我们开发了一个统一的模型,可以实现可控和不可控的不同的运动预测,同时保证受控部分真正遵循一个固定的运动。在计算机图形学中也研究了可控运动预测/生成,特别是用于虚拟字符控制[24,23,36]。这些工作集中于为特定目标生成人体运动,例如遵循给定路径或执行预定义的操作。特别是[36]依赖于运动VAE来捕获运动动态并搜索通过采样策略实现期望任务的运动,同时既不考虑运动多样性也不考虑详细的身体运动。相比之下,我们的工作旨在预测不同的未来运动和控制身体部位的详细运动。3. 我们的方法现在让我们介绍我们的方法,以多样化和可控的运动预测。我们代表一个人类的姿势x∈R_D作为单个帧中的3D关节坐标的级联。 给定H个帧的过去运动序列X=[X1,X2,· · ·,XH]T,我们的目 标 是 预 测 表 示 可 能 的 未 来 运 动 的 姿 势 集 合Y=[XH+1,XH+2,· · ·,XH+T]T在这方面,我们依靠一个深层次的...这是一个迭代模型,我们设计该迭代模型以产生多样性并允许可控的运动预测,如下所述。3.1. 多种运动预测在本节中,我们首先简要回顾了深度生成模型在人体运动预测背景下的使用,然后介绍了我们针对不同预测的解决方案。深度生成模型。令p(Y|X)表示数据未来运动的分布Y∈ Y,其中Y是集合所有可能的未来运动,以过去的运动X∈ X为条件,其中X包含所有可能的运动历史。通过引入一个隐变量z∈ Z,∫数据分布可以重新参数化为p (Y|X)= p (Y|X,z)p(z)dz,其中p(z)是高斯分布。然后,可以通过对潜在变量z进行采样并使用确定性生成器函数G将其映射到Y来实现生成未来运动Y:Z X X-Y。形式上,这表示为zp(z),( 1)Y=G(z,X),(2CConcatG(2)IDCTz(2Y(2)一,一ConcatG(1)一,一IDCTCz(1Y(1)1ConcatG(2)IDCT1Cz(2Y(2)1,KDCT1,KCz(1)KY (一)ConcatG (二)IDCTXzY(2)G(1)IDCT(二)K,1K,1ConcatCY(2)ConcatG(2)K,KIDCTz(2)K,K.........13312)13313j=1..p=1x(a)(b)第(1)款图4:角度限制示例。我们考虑左图中红色和蓝色箭头之间的角度,并在右图中显示它们的分布我们根据最小和最大角度定义有效范围(a)头部和身体之间的角度;(b)左肩和右肩之间的角度。其中生成器G通常被实现为深度神经网络。为了训练这样的生成器,基于VAE的Ld=2ΣK ΣKK(K−1)Ye−α,(5)方法[54,4]通常依赖于最大化运动似然性的证据下限(ELBO),即,最小化数据重建误差和KL散度。然而,这并不鼓励跨不同随机采样向量z的多样性;相反,它集中于最大化训练运动的可能性,并且测试时间多样性因此受到训练运动的多样性的限制。为了克服这一点,我们建议显式生成Kj=1k=j+1其中α是归一化因子。然而,这种多样性损失的一个缺点是,它可能导致模型产生不切实际的和物理无效的运动,特别是如果PK高于,这使得一些运动不规则。克服这一点的最直接然而,这将需要不切实际的大量的未来运动{Yj}K对于训练期间的每个样本,训练数据相反,我们利用观察结果并明确地促进其多样性。 因为我们瞄准了为了多样性,我们不能鼓励所有生成的运动与地面实况匹配。因此,我们重新定义重构误差,使得它们中的至少一个接近地面实况。这就产生了损失自然运动是由有效的人体姿势组成的并因此引入下面讨论的姿态先验和角度损失摆个Prior的姿势 我们使用normaliz- ing流[45,15],这是一个可逆变换,它Lr=minYj-Y2,(3)旨在将未知数据分布转换为具有易处理的密度函数的分布,例如,高斯其中j∈ {1,2,...,K}索引一个样本的生成的运动。然而,这种损失仅对K个生成的运动中的一个施加约束。为了更好地约束其他人,我们利用直觉,虽然数据集对于每个过去的运动只包含一个地面真实的未来运动,但七个分布换句话说,我们通过学习双射和可微函数f(·)来对3D人体姿势分布p(x)进行建模,该函数将姿势样本xp(x)映射到一个帐篷表示h = f(x)遵循标准高斯分布,即,hN(0,I).根据标准化流动文献[45,15],该都需要我们来计算利霍岛d的Σp。使x为每个序列具有相似的过去运动。过去的每一个月-因此,我们用简单的方法搜索训练样本。.p(x)= g(h)。det无所谓. 、(6)x基于距离阈值来跟踪过去的运动,并且他们未来的运动作为伪地面实况。令{Yp}P表示所得到的伪地面实况。然后,我们定义了多模态重构误差1ΣP其中g(h)= N(h|0,I)和det(f)是f(·)的雅可比矩阵的行列式。实际上,函数f是通过深度网络建模的。考虑到模型大小和推理效率,我们选择了一个只有3个全连接层的简单网络,它Lmm=Pp=1minYj−Yp2,(4)J与最近的标准化流文献[15,28,42,25]中的更大架构形成鲜明对比。为了-其中j∈ {1,2,...,K}。它鼓励我们的发电机用至少一个采样的伪地面实况覆盖每个伪议案为了进一步明确地鼓励跨生成运动的多样性,在[55]之后,我们使用多样性促进损失确保f(·)是不可变的,我们通过QR分解并使用单调激活来计算每层的权重功能协调发展的补充材料中提供了有关正火流程架构的更多详细信息。给定有效人类姿势的数据集D,我们通过最大化样本的对数似然来学习函数f13314..ˆj=1JJJJinD.这可以写成 Σf*=arg maxflogp(x)(7)x∈D离散余弦变换(DCT),如[38]中所建议的。特别地,使用减少数量的低频DCT分量保证了所得到的轨迹是平滑的= argmaxfΣx∈D..logg(h)+log.det.Σ。无所谓. .(八)x如图五、C1+C2++cM给定训练函数f,然后我们定义损失函数以鼓励我们的生成器产生有效的姿势。具体地说,我们将其写为生成的人类姿势的负对数似然,其产生图5:平滑轨迹可以由预定义DCT基的线性组合紧凑地表示[2]。具体地,给定过去的运动序列X,我们首先将最后的姿势复制T次以生成时间序列X。Lnf=−logp(x).(九).序列X~的长度为H+T,其中T是序列X~的长度.=− log g(h)−log。det. f. 、(10)未来的序列来预测。 然后我们计算DCT系数.x其中h=f(x)且g(h)=N(h|0,1)。关节角度损失。除了我们学习的姿势先验之外,我们还利用了人类运动受到以下限制的事实:人体的生理结构,例如,一个人不能完全向后转动他们的头。在我们的上下文中,这意味着一些身体部位之间的角度被限制在一定范围内。这里,我们不用手动编码这些不同的范围,我们通过分析有效的人类姿势数据集D来发现它们。为此,如图所示4、我们先计算单位长度向量,其表示身体部位的取向或肢体的方向。身体部位方向是由3个关节限定的平面的法线。例如,躯干平面,如图中蓝色所示。如图4(a)所示,由左肩和右肩以及骨盆限定。 肢体方向由肢体的2个关节定义。然后,我们针对D中的每个姿势计算这些向量之间的角度,并基于最小和最大这样的角度来定义有效范围。我们在补充材料中列出了所有角度及其有效范围。令{a,j}L表示L个预定义角度,并且la和u,j分别是角度a,j的下限和上限。给定一个人类姿势,我们将j的关节角度损失写为(aj(xˆ)−la)2,ifajla该序列C的系数为C=X~T,( 12)其中T ∈ R(H+T)×M,T的每一列表示预定义的DCT基;X~∈RD×(H+T),X ~的每一行是关节坐标的轨迹; C∈ RD×M,C的每一行表示轨迹的前M ≤ H + T个DCT系数。然后,我们使我们的生成器预测未来运动C的DCT系数与过去运动C的DCT系数。给定预测的系数,我们通过逆DCT恢复未来的运动为Y=CTT,( 13)其中C∈RD×M和Y∈RD×(H+T)。在[38]中,我们的生成器还输出过去的运动以鼓励跨从过去的姿势到未来的姿势的转换是平滑的。更多详情请参见补充材料。3.2. 可控运动预测上面讨论的多样运动预测框架不提供对所生成的运动的任何控制。对于可控运动预测,我们的目标是预测未来序列,其对于身体的部分共享相同的运动相同的腿部运动但不同的上身运动。为此,我们建议对序列LAJ =(aj(x)−ua)2,如果aj>uaj0,否则(十一)条件分布具体地,假设人体运动被分割成N个不同的身体部位运动,即,Y=[Y(1),Y(2),· · ·,Y(N)],其中aj(x())是从姿态x(计算的角度值。We那么cΣ在我们最终的角度损失中结合不同的角度其中Y(i)∈RT×Di定义了第i个物体的运动部分,例如,左腿。 那么,未来的身体运动分布-La=Lj=1 Laj。分布p(Y|X)可以表示为预测平滑轨迹。 在随机运动预测文献,人类运动通常是代表-由3D关节坐标序列表示利用这样的表示,如上所述,鼓励所生成的姿势是为了增强时间平滑性,我们因此采用基于13315i=1p(Y|X)=p(Y⑴|X)p(Y⑵|X,Y⑴)· · ·p(Y(N)|X,{Y(i)}N−1)。(十四)N个条件分布中的每一个描述给定先前身体部位的运动的特定身体部位的运动。与上面讨论的标准深层生成模型类似,我们将每个条件分布建模为z(i)p(i)(z),(15)13316i=1--i=J+1{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}·,kj,kk=1ΣΣHumanEva-I [47]APD↑ADE↓FDE↓MMADE↓MMFDE↓APD↑ADE↓FDE↓MMADE↓MMFDE↓ERD [16]00.7220.9690.7760.99500.3820.4610.5210.595acLSTM [58]00.7891.1260.8491.13900.4290.5410.5300.608[51]第五十一话6.7230.4610.5600.5220.5692.3080.2690.2960.3840.375MT-VAE[54]0.4030.4570.5950.7160.8830.0210.3450.4030.5180.577HP-GAN [6]7.2140.8580.8670.8470.8581.1390.7720.7490.7760.769BoM [7]6.2650.4480.5330.5140.5442.8460.2710.2790.3730.351GMVAE [14]6.7690.4610.5550.5240.5662.4430.3050.3450.4080.410DeLiGAN [20]6.5090.4830.5340.5200.5452.1770.3060.3220.3850.371DSF [56]9.3300.4930.5920.5500.5994.5380.2730.2900.3640.340Dlow [55]11.7410.4250.5180.4950.5314.8550.2510.2680.3620.339我们14.7570.3890.4960.4760.5255.8250.2330.2440.3430.331表1:Human3.6M和HumanEva-I的定量结果我们的模型在所有指标上始终优于其他模型(一)(一)(一)(j) i−1A∈RD×D表示一个全连通图,其中学习Y=G(z,X,{Yj=1),(16)能够连接和WR|F| ×个|F′|其中i ∈ {1,2,...,N},并且p(i)(z)是标准高斯分布N(0,1)。换句话说,为了计算未来运动,我们对不同的随机变量{z(i)}N进行采样,并且顺序地对它们进行解码以获得未来运动。身体的每一部分。通过固定一些随机变量∈是一个矩阵的火车-有能力的重量。我们的网络架构的详细信息如下在补充材料中提供。4. 实验z(i)Ji=1同时改变其他{z(i)}N,我们的模型4.1. 数据集可以为身体部位{Y(i)}同时为另一个产生不同的运动在[55]之后,我们在2个运动上评估我们的方法i=1身体部位{Y(一)Ni=J+1捕获数据集,Human3.6M [26]和HumanEva-I [47],请注意,我们的生成器设计使我们能够同时实现多样和可控的运动预测。在训练期间,对于第i个身体部位的每个过去运动,我们生成第(i+1)个身体部位的K个运动,从而在给定一个过去运动的情况下导致KN个未来运动。例如,如图1所示。3、我们采样K条不同的腿运动{Y(1)}K,并且对于每个腿部运动Y(1),我们生成并采用与[55]中相同的培训和测试设置两个数据集。Human3.6M由执行15个动作的7个受试者组成。我们使用5名受试者(S1、S5、S6、S7、S8)进行培训,剩余2名受试者(S9、S11)进行测试。我们使用原始的帧速率(50赫兹)和17个关节的骨架。我们移除全局平移。我们的模型被训练观察25jj=1j个过去帧(0.5s),并预测100个未来帧(2s)。erateK不同的上身运动{Y(2)}K. 在这HumanEva-I由执行5个动作的3个受试者组成,然后,我们将我们的多样性促进损失重写为每个身体部位的损失,导致由以60Hz捕获的视频描绘。一个人是由一个15关节的骨架来代表的。我们采用正式的培训/测试Ldi=2ΣK ΣKK(K−1)Y- -一种·,j·,keα(i),(17)分裂[47]并删除全局平移。给定15个过去帧(0.25s),该j=1k=j+1其中i∈ {1,2,...,N}是身体部位的索引,并且Y(i)是第i个身体部位1的第k个未来运动。最后的训练损失可以表示为ΣNL=λL +λL+λL+λL+λL,(十八)4.2. 指标、基线实施指标. 我们遵循与[55]中相同的评估方案来测量多样性和准确性。(1)为了测量预测多样性,我们使用平均成对距离2K KNF nf a ai=1DiDiRR mm mm(APD)定义为K(K−1)i=1j=i+1Yi−Yj2。(二)其中N是身体部位的数量。在实践中,受[38]的启发,我们定义了每个属-(一)为了测量整个序列的重建精度序列,我们使用平均位移误差(ADE)计算为1minYi−Y2。(3)为了测量重新-托尔G作为图卷积网络(GCN)[30]Ti具有若干图形卷积层。给定一个特征图F∈ RD×|F|每个这样的层计算变换后的FEA。最后一个未来姿势的构造精度,我们使用最终位移误差(FDE)定义为minYi[T]−真映射F′ ∈RD×|F′|作为F′ = tanh(AFW),其中Y[T]13317j,k我2. 我 们进一步报告(4)的多模态版本1请注意,为了简单起见,我们消除了先前身体部位的样本索引。例如,第二身体部分的第k个未来运动应该其中j ∈ {1,2,...,K}是第一身体部位的样本索引。ADE(MMADE),类似于Lmm,和(5)多模态FDE版本(MMFDE)。基线。我们比较了我们的方法与3种类型的基线。(1)确定性运动预测方法,包括:13318DLow我们历史GT10个样本的结束位置人3.6M HumanEva-I图6:不同运动预测的结果。我们用红色和蓝色的骨架显示过去的运动,用绿色和紫色的骨架显示未来的姿势。10个样本的结束位置(第1行)0秒0秒Dlow我们的图7:在Human3.6M上的姿势的可视化。在第一行中,我们显示了10个样本的结束姿势。下面,我们展示了对应于由洋红色和蓝色虚线框突出显示的两个样本的不同帧。强调的红框,DLow [55]产生无效姿势。这是因为它缺乏姿势级别和运动学先验。DLow我们人3.6M HumanEva-I图8:可控运动预测。我们的方法可以生成未来的运动与相同的下半身运动,但不同的上半身的。[26]第四十七话:我的世界下↓上↑下↓上↑BoM [7] w/ Eq. 十四个04.40801.319D低[55]-对照1.07112.7410.9374.671D低[55],带RS0.7807.2800.5711.821我们013.15005.096表2:用于可控运动预测的APD。从第一行到最后一行,我们显示了BoM [7]与我们的条件公式(等式1)的结果。14)、可控版本的DLow [55]、具有拒绝采样(RS)的可控版本的DLow [55]和我们的模型。我们在下半身和上半身的表现都超过了DLow [55请注意,DLow [55]在这里使用了不同的模型,而我们的结果是使用与表1相同的模型获得的。ingERD [16]和acLSTM[58];(2)没有多样性促进技术的随机运动预测方法,包括基于CVAE的方法,Pose-Knows[51]和MT-VAE[54],以及基于CGAN的方法,HP-GAN[6];(3)多种运动预测方法,包括BoM[7],[2019 - 05- 14][2019 - 05 - 15][2019 - 05][所有基线的结果直接来自[55]。实施. 我们将生成器G(i)的隐藏大小设置为256,将随机变量z(i)的维数设置为64。的可控版本进行比较DLow [55],我们将人体姿势分为2部分:下半身和上半身(N=2)。我们还在补充材料中提供了N >2的定性结果。样本的数量K被设置为10。因此,在训练期间,我们预测10个未来的下半身运动,并且对于每个运动,我们生成10个上半身运动。对于Human3.6M,使用批量大小为16的500个epoch训练模型,每个epoch有5000个训练示例。将不同损失项(λ nf,λ a,λ d1,λ d2,λ r,λ mm)和归一化因子(α1,α2)的权重设置为(0. 01,100,8,25,2,1)和(100,300)。对于HumanEva-I,使用批量大小为16的500个epoch训练模型,每个epoch有2000个训练示例。给出了不同损失项(λnf,λa,λd1,λd2,λr,λmm)的权重和正态分布10个样本的结束位置历史GT历史10个样本的结束位置历史10个样本的结束位置13319LNFLaLdLrLmmAPD ↑ADE ↓[26]第二十六话FDE ↓MMADE↓MMFDE↓NLL ↓APD ↑ADE ↓呼玛FDE ↓nEva-I [47]MMADE↓MMFDE↓NLL ↓✓✓✓✓15.2570.3890.4970.4770.527251.1907.5740.2450.2930.4160.430363.838✓✓✓✓19.6080.3970.5340.5060.57597.7746.5690.2350.2760.4060.410119.673✓✓✓✓6.3180.3700.4880.4780.52964.7312.0480.2140.2590.3840.39875.375✓✓✓✓20.0300.4790.5620.5130.56989.7266.7780.5670.6250.6060.633109.777✓✓✓✓18.0790.3940.5380.5200.58791.9776.4740.2340.2830.4150.421113.630✓✓✓✓✓14.7570.3890.4960.4760.52574.8725.8260.2330.2440.3430.331103.306表3:对Human3.6M和HumanEva-I的消融研究将调整因子(α1,α2)设置为(0. 01、100、5、10、2、1)和(15,50)。补充材料中提供了其他实施细节。4.3. 结果多样的运动预测。在表1中,我们将我们的结果与Human3.6M和HumanEva的基线进行了比较。I.对于所有随机运动预测基线,在每个测试序列的50个未来运动上计算结果。我们的方法在所有指标上始终优于所有基线。通常,随机运动预测方法在准确性上优于确定性方法(ADE、FDE、MMADE、MMFDE)。原因在于,对于多模态数据集,确定性预测模型倾向于预测平均模式,这导致更高的误差。对于随机运动预测,在样本分集(APD)和准确度之间存在折衷。可以在牺牲精度方面的一些性能的同时实现高分集,例如,DSF[56],反之亦然,例如,BoM [7]。现在让我们关注构成现有技术的DLow [55]。虽然,其可学习的采样策略很好地平衡了多样性和准确性,导致比其他基线更好的结果,但我们的方法在两个 数 据 集 的 所 有 指 标 上 都 优 于 它 。 请 注 意 , 在Human3.6M上,我们的方法实现了8%的低重建误差(ADE)和25%的高样本多样性(APD)。图中的定性比较。6进一步的证据表明,我们的预测更接近GT和更多样化。我们在图中进一步提供了详细的比较。7,这表明DLow [55]仍然产生一些无效的姿势,用红色框突出显示。这可能是由于其缺乏姿势级先验而导致的。可控运动预测。我们还将我们的方法与表2中的用于可控运动预测的DLow进行比较。这里,预测模型旨在预测具有相同的下半身运动但不同的上半身运动的未来运动。我们的方法给出了一个完整的控制下半身与上半身的更高的多样性相比之下,DLow [55]不能保证不同样本的下半身运动完全相同。尽管拒绝采样2有助于实现对下半身运动(第三行)的更好控制,但上半身运动的多样性也下降。在图8中,我们将我们的结果与2对于每个测试序列,我们采样了1000个未来运动,并选择了50个下半身运动最接近目标运动的运动。[55]这进一步支持了我们的结论。此外,DLow [55]需要用于可控运动预测的不同模型,而我们的方法产生能够联合地实现多样且可控的运动预测的统一模型我们进一步调整我们的条件公式(等式10)。14)到最近的基线之一(BoM [7])。表2中的结果证实其也适用于其他发电机。4.4. 消融研究在表3中,我们评估了不同损失项的影响通常,在分集损耗Ld和其他损耗之间存在折衷。在没有多样性损失的情况下,该模型以多样性为代价产生最佳ADE。通过con-相反,去除任何其他损耗项导致更高的分集,但牺牲了相应准确度度量的性能。注意,在表3中,我们还报告了从我们的姿势获得的姿势的负对数似然(NLL在证明其质量之前。虽然,在没有姿态先验损失Lnf(第一行)的情况下,我们可以实现更高的多样性和几乎相同的准确性,但是这种多样性增益伴随着姿态质量(NNL)的显著降低。换句话说,虽然一些样本是准确的,但许多其他样本是不现实的。定性比较见补充资料。5. 结论在本文中,我们介绍了一个端到端的可训练的方法,为不同的和可控的运动预测。为了克服降低样本多样性的似然采样问题,我们已经开发了基于归一化流的姿势先验以及联合角度损失,以鼓励产生逼真的姿势,同时加强时间平滑性。为了实现可控的运动预测,我们设计了我们的发电机解码的不同- ENT身体部位的运动顺序我们的实验证明了我们方法的有效性我们当前的模型假定身体部位的预定义序列,因此不允许在测试时控制任意部位。我们将在未来集中解决这一问题。确认这项研究得到了澳大利亚研究委员会DECRA奖学金(DE180100628)和ARC发现基金(DP200102274)的部分支持。作者要感谢NVIDIA捐赠的GPU(TitanV)。13320引用[1] Ijaz Akhter和Michael J Black。三维人体姿态重建的姿态条件关节角度限制在CVPR中,第1446-1455页三个[2] Ijaz Akhter 、 Yaser Sheikh 、 Sohaib Khan 和 TakeoKanade。轨迹空间中运动的非刚性结构。在Advances inneural information processing systems,第41- 48页,2009中。五个[3] Emre Aksan、Manuel Kaufmann和Otmar Hilliges。结构化预测有助于三维人体运动建模。在ICCV,第7144-7153页二个[4] Sadegh Aliakbarian 、 Fatemeh Sadat Saleh 、 MathieuSalzmann、Lars Petersson和Stephen Gould。一种用于不同人体运动预测的随机在CVPR中,第5223-5232页,2020年。一、二、四[5] 我的天Arj o vs k y和L e'onBottou。这是训练生成对抗网络的原则性方法。在ICLR,2017。二个[6] Emad Barsoum , John Kender , and Zicheng Liu. Hp-gan:通过gan进行概率3d人体运动预测。在CVPRW,第1418-1427页,2018年。二六七[7] Apratim Bhattacharyya,Bernt Schiele,and Mario Fritz.基于“多个最佳”样本目标的精确和多样的序列采样在CVPR中,第8485-8493页,2018年。六七八[8] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl:由单一影像自动估计三维人体位姿与形状。参见ECCV,第561施普林格,2016年。二、三[9] 马修·布兰德和亚伦·赫茨曼时尚机器。第27届计算机图形和交互技术年会论文集,第183-192页。ACM出版社/Addison-Wesley出版公司2000. 二个[10] 放大图片作者:Michael J.布莱克,丹妮卡·克拉吉奇,海德维格·谢尔斯特罗姆.用于人体运动预测和分类的深度表示学习。在CVPR,2017年7月。二个[11] Yujun Cai,Lin Huang,Yiwei Wang,Tat-Jen Cham,Jianfei Cai,Junsong Yuan,Jun Liu,Xu Yang,YihengZhu,Xiaohui Shen,et al.用于人类运动预测的学习渐进式联合传播。参见ECCV,第226-242页。Springer,2020年。二个[12] 陈继旭,聂思齐,季强。无数据先验模型在上半身姿态估 计 与 跟 踪 中 的 应 用 。 IEEE Transactions on ImageProcessing,22(12):4627-4639,2013. 三个[13] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。参见ECCV,第668- 683页,2018年。三个[14] NatDilokthanakul 、 PedroAMMediano 、 MartaGarnelo 、 Matthew CH Lee 、 Hugh Salimbeni 、 KaiArulkumaran和Murray Shanahan。使用高斯混合变分自编 码 器 的 深 度 无 监 督 聚 类 。 arXiv 预 印 本 arXiv :1611.02648,2016。六、七[15] Laurent Dinh,Jascha Sohl-Dic
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功