没有合适的资源?快使用搜索试试~ 我知道了~
对抗性几何感知的人体运动预测
对抗性几何感知的人体运动预测Guiang-Yan Gui*,Yu-Xiong Wang*,Xiaodan Liang,and Jose 'M.F. Moura卡内基梅隆大学{lgui,yuxiongw,xiaodan1,moura}@ andrew.cmu.edu抽象。我们探索了一种方法来预测人体运动在几毫秒给定的输入三维骨架序列的基础上,经常性的编码器-解码器框架。当前的方法遭受预测不连续性的问题,并且由于误差累积而可能无法预测较长时间水平区域中的类人运动。我们解决这些关键问题,通过合并,ING本地几何结构约束和正则化预测plau-sible时间平滑性和连续性从全球的角度来看。具体来说,而不是使用传统的欧几里德损失,我们提出了一种新的帧明智的测地线损失作为几何意义,更精确的距离测量。此外,受对抗性训练机制的启发,我们提出了一种新的学习过程,通过引入两个全局递归鉴别器来同时验证预测的序列级plausi- bility及其与输入序列的一致性。一个无条件的,保真度鉴别器和一个有条件的,连续性鉴别器与预测器一起以对抗的方式联合训练。我们所得到的对抗性几何感知编码器-解码器(AGED)模型在短期和长期预测中,在高度基准化的H3.6M数据集上显著优于基于最先进深度学习的方法。关键词:人体运动预测·对抗学习·测地线损失1介绍考虑以下场景:机器人在我们的日常生活中工作并与人类互动,例如在社交过程中握手或在协助手术时向外科医生提供工具。在无缝交互中,机器人应该不仅识别而且预测人类的动作,例如准确预测肢体的姿势和位置,以便它可以适当和迅速地这种预测人类在不久的将来如何移动或动作的能力通常在人类运动预测中解决[12,24,31,8,13,4,16,17]。除了上述人机交互和协作的场景[28],人类运动预测在计算机视觉和机器人视觉的各种任务中也具有巨大的应用潜力,例如动作预测[27,20],计算机图形的运动生成[29]以及自动驾驶系统中的主动决策[35]。建模运动动力学:由于人类有意识运动的不确定性,预测不同动作的人体运动具有挑战性,但尚未得到充分探索*表示平等捐款。2Guiang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,Jose 'M.F.Moura……………………地面实况:基于抽样的损失[31]:残留物补充【31】:年龄(我们的):调节处理顺序种子预测时间行走图1:人体运动预测任务。上图:条件序列和预测序列的地面实况。中间两个:最先进的预测结果(基于采样的损耗和残差估计)。[31])。下图:我们的预测。地面实况和输入序列以黑色显示。给定中间的黑色种子运动帧,预测以颜色示出。如在矩形中突出显示的,对于基于采样的损失,种子运动帧和第一预测帧之间存在严重的不连续性(第2行);预测比我们的预测(第三行,左)更远离地面实况,并且对于残差sup,误差在长时间范围(第三行,右)中累积。我们的单一模型始终优于基线,并产生低误差,平滑和人性化的预测。最佳的彩色观看与缩放。以及建模长期运动动力学的困难。最先进的基于深度学习的方法通常将任务制定为序列到序列问题,并通过使用递归神经网络(RNN)来捕获序列数据中的底层时间依赖性来解决它[31]。尽管他们在探索不同类型的编码器-解码器架构(例如,例如,在一个实施例中,编码器-递归-解码器(ERD)[12]和残差[31]架构),它们只能很好地预测周期性动作(例如。例如,在一个实施例中,行走)并且在较长时间的非周期性动作上表现出不令人满意的性能(例如,例如,在一个实施例中,如图1所示,由于预测序列和输入序列之间的误差累积和严重的运动跳跃,因此,在一些实施例中,预测序列和输入序列之间的运动跳跃(如图1所示)是不可能的。其中一个主要原因是,以前的工作只考虑了帧的正确性的基础上的欧几里德度量在每个循环的训练步骤,而忽略了关键的几何结构的运动帧和序列级的运动保真度和连续性从全局的角度来看。类人运动预测:在这项工作中,我们的目标是解决类似人类的运动预测,使预测的序列更合理,时间上与过去的序列一致。通过利用局部逐帧几何结构和解决全局序列级保真度和连续性,我们提出了一种新的模型这显著地提高了短期3D人体运动预测的性能,并且生成逼真的周期性和非周期性长期运动。帧级的几何结构感知损失函数:虽然运动帧被表示为关节角度之间的3D旋转,但是当回归预测帧时,通常使用标准欧几里得距离作为损失函数在编码器-解码器训练期间与地面实况相关联。欧几里德损失未能利用3D旋转的固有几何结构,使得预测不准确,甚至冻结到长期预测的一些平均姿势[24,32]。我们的关键见解是三维旋转的矩阵表示属于特殊正交群对抗性几何感知的人体运动预测3SO(3)[43],具有黎曼流形结构的代数群。这种流形结构允许我们定义一个测地线距离,这是两个旋转之间的最短路径。因此,我们在预测运动和地面实况运动之间引入了一种新的测地线损失这种几何上更有意义的损失导致更精确的距离测量,并且在计算上是便宜的。序列级的对抗训练:为了实现类人运动预测,模型应该能够验证其整个生成的序列。不幸的是,在当前的预测框架中缺少这样的机制本着生成对抗网络(GAN)的精神,我们引入了两个全局判别器来验证预测,同时将我们的预测器作为生成器,并以对抗的方式联合训练它们为了处理序列数据,我们将鉴别器设计为递归网络。第一无条件保真度鉴别器将预测序列与地面实况序列区分开。第二个条件,连续序列区分从输入序列和预测或地面实况序列连接的长序列。直观地,逼真度鉴别器旨在检查所生成的运动序列是否像人并且总体上是合理的,并且连续性鉴别器负责检查预测的运动序列是否与输入序列一致而在它们之间没有明显的不连续性。我们的贡献是三方面的。(1)我们通过对帧级几何结构和序列级保真度和时间序列建模来解决类人运动预测问题。连续性(2)我们提出了一种新的测地线损失,并证明它更适合于评估三维运动作为回归损失,并且计算成本低。(3)我们引入了两个互补的经常性的鉴别器量身定制的运动预测任务,这是联合训练的几何感知编码器-解码器预测器在对抗的方式。 我们的完整模 型,我们称之 为对抗性几 何感知编码器 -解码器(AGED),当在高度基准化的大规模运动捕捉(mocap)H3.6M数据集上进行评估时,显著超过了最先进的基于深度我们的方法也是通用的,并且可以潜在地并入到任何基于编码器-解码器的预测框架中。2相关工作人体运动预测:人体运动预测通常通过状态空间模型来解决。传统的方法集中在双线性时空基模型[1]、隐马尔可夫模型[7]、高斯过程潜变量模型[53,50],线性动态模型[38]和受限玻尔兹曼机[48,47,45,49]。最近,在深度学习架构和大规模公共数据集的推动下,已经提出了各种基于深度学习的方法[12,24,31,8,13,4,16],这些方法显着提高了对各种动作的预测性能用于运动预测的RNN:除了在机器翻译[26],图像标题[58]和时间序列预测[57,52]方面的成功外,RNN [44,55,54]已成为人类运动预测的广泛使用的框架。Fragkiadaki等人[12]提出了一个3层长短期记忆(LSTM-3LR)网络和一个编码器-递归解码器(ERD)模型,它们使用课程学习来共同学习4Guiang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,Jose 'M.F.Moura姿态数据和时间动态的表示Jain等人[24]通过用时空图对人类活动进行建模,将这两种方法设计动作特定的模型,并将训练过程限制在mocap数据集的子集上。最近的一些工作探讨了一般动作类的运动预测。Ghosh等人[13]提出了一个DAE-LSTM模型,该模型将LSTM-3LR与dropout自动编码器相结合,以对时间和空间结构进行建模。Martinez等人[31]通过使用独热向量来合并动作类信息,开发简单的残差编码器-解码器和多动作体系结构残差连接利用一阶运动导数来减少预测序列和输入序列之间的运动跳跃,但其效果仍然不令人满意。此外,在预测的序列中观察到错误累积,因为RNN无法从自己的错误中恢复[5]。一些工作[12,24]通过在训练期间向输入添加噪声的噪声调度方案[6]缓解了这个问题;尽管如此,这个方案使预测不连续,并且使超参数难以调整。虽然我们的方法是在确定性运动预测中开发的,但它可以潜在地扩展到概率预测[38,53,4]。预测任务中的损失函数:通常使用的欧几里得损失(i. 例如,在预测任务中的102损失和较小程度的101损失)[24,31]可能导致模型在两个可能的未来[32]之间平均,从而导致模糊的视频预测[34]或不切实际的平均运动预测[24],当预测未来时越来越差提出了图像梯度差异损失来解决像素级视频预测的这个问题[32],这在我们的任务中不适用。在这里,通过考虑运动帧的固有几何结构,我们采用更有效的测地线度量[21,18]来测量3D旋转误差。GANs:GANs [14,2]在各种生成任务中表现出令人印象深刻的性能[10,40,60,32,51,30,41,56]。我们没有探索GANs中的不同目标我们的模型在三个方面与标准GAN不同。(1)体系结构:GANs中的鉴别器主要是卷积或全连接网络[32,59,23,4];相比之下,我们的生成器和鉴别器都具有RNN结构,以便处理序列。(2)训练过程:同时使用两个鉴别器来分别解决保真度和连续性挑战(3)损失函数:我们将测地线(回归)损失与GAN对抗损失相结合从更广泛的角度来看,我们的方法可以被视为对预测的运动施加(但尚未明确执行)某些正则化,这与经典的平滑,过滤和预测技术[11]松散相关,但更可训练和适应真实的人类运动统计。3对抗性几何感知编解码器模型图2示出了我们用于人体运动预测的对抗性几何感知编码器-解码器(AGED)模型的框架。编码器和解码器构成预测器,其被训练以最小化预测的未来序列与地面实况序列之间的距离。标准欧氏距离通常用作回归损失函数。然而,它使预测的骨架非对抗性几何感知的人体运动预测5^连续性实数或假的鉴别器?预测器编码器预测解码器调节运动测地线损耗真实富达或假的鉴别器?鉴别器GroundTruth种子运动(a) 总体AGED模型架构房还是假的(b) 预测器结构隐藏表示(c) 鉴别器结构图2:我们的对抗性几何感知编码器-解码器(AGED)模型的概述。蓝色-红色骨架表示输入序列和地面实况,绿色-紫色骨架表示预测。输入序列被馈送到序列到序列编码器-解码器网络中以产生输出序列(图1)。(b))。 我们提出了一种帧式测地线损失作为更精确的距离测量,以将预测序列回归到地面实况(图2)。(a))。我们还引入了两个全局递归鉴别器(无条件的保真度鉴别器和有条件的连续性鉴别器)来验证预测的序列级似然性及其与输入序列的一致性(图2)。(c))。通过以对抗方式联合优化几何感知预测器和两个鉴别器,我们生成最终预测。平滑和不连续用于短期预测,而冻结到某个平均姿态用于长期预测。为了解决这些限制,我们在局部帧和全局序列级别引入了对抗性问题表述。我们将人体运动表示为序列数据。给定一个运动序列,我们预测未来可能的短期和长期运动也就是说,我们的目标是找到从输入序列到输出序列的映射P长度为η的输入序列被表示为X ={X1,X2,… xn},其中xi ∈ RK(i∈ [1,n])是由一组3D身体关节角度及其指数映射表示[33]组成的mocap向量,并且K是关节角度的数量。与[48]一致12,31],我们标准化的输入,并专注于关节之间的相对旋转,因为它们包含的行动的信息我们预测未来的运动序列作为输出,表示为X^={x^n+1,x^n+2,…x^n+m},其中XKj∈R(j∈[n+1,n+m])是在第j个时间步长处的预测mocap向量的m个时间步的基础真值被给出为Xgt ={xn+1,xn+2,…xn+m}。3.1几何感知编码器-解码器预测器学习预测器,i。例如,从输入到输出序列的映射P被转换为基于编码器-解码器网络ar来解决序列到序列问题编码器解码器线性线性GRUGRUGRU GRU GRU GRU线性线性线性线性隐藏表示GRUGRUGRU线性S形线性线性线性6Guiang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,Jose 'M.F.Moura^ ^您的位置:^^JJJJ2chitecture [46,31].编码器从输入序列中学习隐藏表示然后将隐藏表示和种子运动帧馈送到解码器中以产生输出序列。诸如注意机制[3]和双向编码器[42]的其他修改也可以被并入到该通用架构中。我们使用与[31]中类似的网络架构用于我们的预测器P,其在运动预测上实现了最先进的性能。编码器和解码器由门控递归单元(GRU)[9]单元组成,而不是LSTM [19]或其他RNN变体。我们使用残差连接来对运动速度进行建模,而不是使用绝对角度进行操作,因为残差连接已被证明可以提高预测平滑度[31]。输入序列的每一帧,与一个指示当前输入的动作类的独热向量连接,被馈送到编码器中。解码器将其自身的输出作为下一个时步输入。测地线损耗:在局部帧级别,我们引入测地线损失来逐帧地将预测序列回归到地面实况序列。考虑到运动帧被表示为所有关节角度的3D旋转,我们感兴趣的是测量两个3D旋转之间的距离。广泛的测量是欧几里得距离[12,24,31]。然而,3D旋转的关键几何结构被忽略,导致不准确的预测[24,32]。为了解决这样的问题,我们引入了更精确的距离测量,并相应地定义了新的损失。对于绕旋转轴u=(u1,u2,u3)T的欧拉角θ=(α,β,γ)的旋转,相应的旋转矩阵定义为R=[θ·u]×,其中·和×分别表示内积和外积这样的3D旋转矩阵形成正交矩阵的特殊正交群SO(3),其中决定因素1[43]。SO(3)是一个李群,一个具有黎曼流形结构的代数群.引入测地线距离来量化两个旋转之间的相似性是很自然的,测地线距离是流形上它们之间的最短路径。SO(3)中的测地距离可以用两个旋转矩阵之间的夹角来定义具体地,给定两个旋转矩阵R和R,乘积RRT是R和R之间的差角的旋转矩阵。该角度可以使用SO(3)[43]中的对数映射为logRRT= A arcsin。2012年12月,(1)A其中A=(a1,a2,a3)T,并且由.R^RT−RR^TΣ0−a3a22=a 30 −a1.(二)−a2 a10R1和R2之间的测地距离被定义为dG.R^,RΣ=¨log.R^RTΣ¨。(三)基于该测地距离,我们现在定义预测X1和地面实况Xg1之间的测地损失L geo。我们首先将第j帧中的第k个关节的指数映射表示x^k,xk转换为欧拉格式θ^k,θk[43],相对于对抗性几何感知的人体运动预测7^^^ ^您的位置:JJJJj=n+1k=1并计算它们对应的旋转矩阵R^k,Rk,其中k∈[1,K/3],K/3为关节的数量(因为每个关节具有3D关节角度),并且j∈[n+1,n+m]。通过对预测帧和地面实况帧之间的测地距离求和,我们得到以下形式的测地损失:j=n+mk=K/3Lgeo(P)= Σ ΣdG.R^k,RkΣ。(四)方程的梯度(4)可以使用在软件包中实现的自动梯度计算来计算,例如PyTorch [36]给定前向函数。注意,还有其他距离度量也可以在SO(3)中定义,包括使用四元数表示的距离度量[21,18]。关于计算距离,基于四元数的度量在功能上等同于我们的度量[21,18]。关于优化和计算梯度,如在我们的情况下,我们目前的实验观察表明,基于四元数的度量导致更差的结果,可能是由于在优化期间需要四元数的重正化[39,15]。3.2保真度和连续性鉴别器序列到序列预测器架构探索人类运动的时间信息,并产生粗略合理的运动。然而,如图1所示对于长期预测,由于误差累积,预测的运动往往不太现实。在[31]中也观察到了这种现象。这部分是因为单独使用逐帧回归损失不能从全局角度检查整个预测序列的保真度。受GANs [14,2]中的对抗训练机制的启发,我们通过引入两个序列级鉴别器来解决这个问题。标准GAN框架由(1)捕获数据分布的生成器和(2)估计样本是真实的或生成的概率的鉴别器组成。生成器被训练为生成样本以欺骗鉴别器,并且鉴别器被训练为将生成样本与真实样本区分开。因此,在我们的模型中,我们将编码器-解码器预测器视为生成器,并引入两个鉴别器。一个无条件的,保真度的fidelity的fidelity的f区分“短”序列X和X gt。一个有条件的连续性鉴别器Dc 区分“长”序列{ X,X }和{ X,X gt }。它们的输出他们的输入是“真实的”而不是“虚假的”的概率。直观地,保真度鉴别器评估预测序列的平滑程度和人性化程度,并且连续性鉴别器检查预测序列的运动是否与输入序列一致。然后通过评估X欺骗Df的程度以及级联序列{X,X}欺骗Dc的程度来判断预测器P的质量。更正式地说,在[14]之后,我们解决了极大极小优化问题:arg min maxLf (P,Df)+Lc(P,Dc),(5)P Df, DcAdvAdv8Guiang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,Jose 'M.F.Moura哪里FAdv(P,Df)=EXgt[log(Df(Xgt))]+EX[log(1-Df(P(X)],(6)CAdv(P,D,c)=E{X,X>}[log(Dc({X,Xgt}))]+EX[log(1- Dc({X,P(X)}))],(7)并且分布E(·)在训练运动序列上。与以前的工作[32,59,4]不同,我们将鉴别器设计为递归网络来处理序列数据。每个鉴别器由GRU单元组成,以提取其输入序列的隐藏表示。接下来是一个具有sigmoid激活的全连接层,以输出输入序列为实数的概率。因此,我们的整个模型由一个预测器和两个鉴别器组成,扩展了具有循环结构的GAN中的生成器和鉴别器。请注意,我们的从这个意义上说,GAN生成器从噪声空间映射到数据空间,而我们的预测器从过去的序列映射到未来的序列。在训练期间,两个鉴别器被联合学习。3.3联合损失函数与对抗训练我们整合测地(回归)损失和两个对抗损失,并通过联合优化以下极大极小目标函数来获得最佳预测器P *= arg min max λ。Lf(P,Df)+Lc(P,Dc)Σ+Lgeo(P),(8)P Df, DcAdvAdv其中λ是平衡两种类型的损失的权衡超参数。预测器P试图最小化目标,对抗旨在最大化目标的对抗性鉴别器Df和Dc。与最近的工作[37,23]一致,我们的回归损失和GAN对抗损失的组合提供了一些互补的好处。一方面,GAN倾向于学习更好的表示,并试图使预测看起来真实,这是使用标准手工制作的指标难以实现另一方面,众所周知,GAN很难训练,并且很容易陷入局部最小值(即,局部最小值)。例如,不学习分布)。相比之下,回归损失负责捕获整体运动几何结构并明确地将预测与地面实况对齐。实施详情。我们使用与[31]中类似的预测器架构,以获得其最先进的性能。编码器和解码器由单个GRU单元[9]组成,隐藏大小分别为1,024与[31]一致,我们发现GRU在计算上更便宜,并且单个GRU单元优于多个GRU单元。此外,与[12,24]中的更深模型相比,它更容易训练并避免过拟合我们使用K维输入/输出关节角度与1,024维GRU隐藏状态之间的线性映射。我们的两个鉴别器具有相同的架构。对于每一个,我们也使用单个GRU单元。注意,被评估的序列的帧被顺序地馈送到对应的鉴别器中,使得其参数的数量不受序列长度的影响。我们的整个模型LL对抗性几何感知的人体运动预测9与使用普通预测器的基线模型的推理时间相同[31]。式中的超参数λ(8)设为0。6交叉验证。 我们发现,其值范围从0. 45比0 75. 我们使用学习率0的情况。005和批量大小16,我们将梯度裁剪到最大2范数5。我们使用PyTorch[36]来训练我们的模型并运行50个epoch。在NVIDIA Titan GPU上,每次迭代的前向处理和反向传播需要35毫秒4实验在本节中,我们将探索使用我们的对抗几何感知编码器-解码器(AGED)模型在高度基准化的运动捕获(mocap)数据集上进行人体运动预测[22]。与最近的工作[31]一致,我们主要关注短期预测(500ms)。<我们从数据集、基线和评估协议的描述开始。通过广泛的评估,我们表明,我们的方法实现了国家的最先进的短期预测性能的定量和定性。然后,我们提供烧蚀研究,验证不同的损失和模块是互补的时间相干和平滑的预测。最后,我们研究了我们在长期预测(>500ms)中的方法,并展示了与基线相比更人性化的预测结果。数据集:我们专注于人类3.6M(H3.6M)数据集[22],这是一个大规模的公开数据集,包括3。600万个3D MOCAP数据。这是人体运动分析中重要且广泛使用的H3.6M包括七名演员表演15种不同的活动,如散步,吸烟,参与讨论和拍照。我们遵循[12,24,31]中的标准实验设置:我们将H3.6M降采样两次,在六个受试者上训练,并在五个受试者上测试。对于短期预测,我们被给予50个MOCAP帧(总共2秒)并且预测未来的10个帧(总共400ms对于长期预测,我们给出相同的50个mocap帧,并预测未来的25帧(总共1秒)或甚至更多(总共4秒基线:我们与最近基于深度RNN的方法进行比较:(1)LSTM- 3LR和ERD[12],(2)SRNN [24],(3)DAE-LSTM [13]和(4)残差sup。和基于采样的损失[31]。在[31]之后,我们还考虑了零速度基线,该基线不断预测最后观察到的帧。如[31]所示,这是一个简单但强大的基线:这些基于学习的方法中没有一种在数量上始终优于零速度,特别是在短期预测场景中。评价方案:我们根据三个指标评估我们的方法,并显示定量和定性比较:– (定量平均角度误差)为了公平比较,我们使用与[12,24,31]中相同的误差测量来评估受试者五的性能,其是角度空间中预测帧和地面实况帧之间的平均均方误差(MSE)我们排除了整个身体的平移和旋转,因为这些信息独立于动作本身。– (人类评估)我们还进行了双盲用户研究,以评估作为对用户的响应的预测的合理性我们从H3.6M上的15个活动中的每一个中随机抽取两个输入序列,得到30个输入序列。我们使用我们的模型,以及基于采样的损失和剩余sup。[31]第31话10Guiang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,Jose 'M.F.Moura表1:我们的AGED模型和用于H3.6M数据集的4个代表性活动的短期运动预测的最先进方法之间的平均角度误差的定量比较。我们的模型变体包括仅具有测地线损失的AGED、具有两个判别器(对抗损失和常规欧几里得损失)的AGED我们的AGED始终优于现有的基于深度学习的方法。虽然零速度基线在80毫秒预测吸烟方面的性能稍好,但我们的基线在所有其他情况步行吃吸烟讨论毫秒80160320400801603204008016032040080160320400零速度[31]0的情况。390的情况。680的情况。991 .一、150的情况。270的情况。480的情况。730的情况。860的情况。260的情况。480的情况。970的情况。950的情况。310的情况。670的情况。941 .一、04ERD [12]1 .一、301 .一、561 .一、84-1 .一、661 .一、93二、28-二、34二、743 .第三章。73-二、67二、973 .第三章。23-LSTM-3LR [2]1 .一、181 .一、501 .一、67-1 .一、361 .一、79二、29-二、05二、343 .第三章。10-二、25二、33二、45-[31]1 .一、081 .一、341 .一、60-1 .一、351 .一、71二、12-1 .一、90二、30二、90-1 .一、67二、03二、20-DAE-LSTM [1]1 .一、001 .一、111 .一、39-1 .一、311 .一、491 .一、86-0的情况。921 .一、031 .一、15-1 .一、111 .一、201 .一、38-基于抽样的损失[31]0的情况。920的情况。981 .一、021 .一、200的情况。980的情况。991 .一、181 .一、311 .一、381 .一、391 .一、561 .一、651 .一、781 .一、801 .一、831 .一、90残留物补充[三十一]0的情况。280的情况。490的情况。720的情况。810的情况。230的情况。390的情况。620的情况。760的情况。330的情况。611 .一、051 .一、150的情况。310的情况。681 .一、011 .一、09AGED w/ geo(我们的) 0的情况。280的情况。420的情况。660的情况。730的情况。220的情况。350的情况。610的情况。740的情况。300的情况。550的情况。980的情况。990的情况。300的情况。630的情况。971 .一、06老龄化,含adv+euc(我们的)0的情况。270的情况。420的情况。620的情况。710的情况。220的情况。320的情况。530的情况。670的情况。280的情况。470的情况。900的情况。860的情况。280的情况。600的情况。780的情况。87AGED w/ adv+geo(我们的)0的情况。220的情况。360的情况。550的情况。670的情况。170的情况。280的情况。510的情况。640的情况。270的情况。430的情况。820的情况。840的情况。270的情况。560的情况。760的情况。83执行基线,如下所示)以生成短期和长期预测。因此,我们总共有120个短期运动视频和120个长期视频,包括短期和长期地面实况视频。我们设计成对评估,25名评委被要求观看随机选择的成对视频,然后选择被认为更真实合理的一对。– (定性可视化)在[12,24,13,31]之后,我们逐帧可视化一些对于运动更确定的短期预测,我们使用所有三个度量进行评估对于更难以定量评估并且可能不是唯一的长期预测[31],我们主要关注用户研究和可视化,并显示一些定量比较以供参考。4.1短期运动预测小于500ms的预测通常被认为是短期预测。在这个时间范围内,运动更加确定并且受到物理学的约束,因此我们专注于测量相对于地面实况的预测误差,遵循[12,24,31]。在这些实验中,训练网络以最小化400ms内的损失。与最先进的深度学习基线的比较:表1显示了在4个代表性活动上与全套深度学习基线的定量比较,包括步行,吸烟,吃饭和讨论。表2比较了我们的方法与最佳执行的残差sup。其余11项活动的基线。与残余sup.它使用了一个类似的预测器网络,但是对抗性几何感知的人体运动预测11损失,我们的测地线损失产生更精确的预测。我们的鉴别器进一步大大提高了性能,验证了整个预测序列的高水平保真度检查对于平滑和相干运动预测是必不可少的他们的12Guiang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,Jose 'M.F.Moura表2:针对H3.6M数据集的剩余11个活动的短期运动预测,我们的AGED模型与顶部执行基线之间的平均角度误差的定量比较。我们的AGED模型在几乎所有场景中的表现始终优于这些基线直接 离子迎接ingPhoningPosingPurchasesSitting毫秒80160 320 40080160 320 40080160 320 40080160 320 40080160 320 40080160 320 400零速度[31]0的情况。390的情况。590的情况。790的情况。890的情况。540的情况。891 .一、301 .一、490的情况。641 .一、211 .一、651 .一、830的情况。280的情况。571 .一、131 .一、370的情况。620的情况。881 .一、191 .一、270的情况。401 .一、631 .一、021 .一、18残留物补充[三十一]0的情况。260的情况。470的情况。720的情况。840的情况。751 .一、171 .一、741 .一、830的情况。230的情况。430的情况。690的情况。820的情况。360的情况。711 .一、221 .一、480的情况。510的情况。971 .一、071 .一、160的情况。411 .一、051 .一、491 .一、63AGED w/ geo(我们的)0的情况。260的情况。460的情况。710的情况。810的情况。610的情况。951 .一、441 .一、610的情况。230的情况。420的情况。610的情况。790的情况。340的情况。701 .一、191 .一、400的情况。460的情况。891 .一、061 .一、110的情况。460的情况。871 .一、231 .一、51老龄化,含adv+euc(我们的)0的情况。260的情况。420的情况。660的情况。730的情况。580的情况。881 .一、311 .一、490的情况。210的情况。370的情况。510的情况。690的情况。340的情况。621 .一、151 .一、390的情况。490的情况。831 .一、051 .一、120的情况。440的情况。771 .一、081 .一、21AGED w/ adv+geo(我们的)0的情况。230的情况。390的情况。630的情况。690的情况。560的情况。811 .一、301 .一、460的情况。190的情况。340的情况。500的情况。680的情况。310的情况。581 .一、121 .一、340的情况。460的情况。781 .一、011 .一、070的情况。410的情况。761 .一、051 .一、19坐下来拍照等待遛狗走在一起平均毫秒80160 320 40080160 320 40080160 320 40080160 320 40080160 320 40080160 320 400零速度[31]0的情况。390的情况。741 .一、071 .一、190的情况。250的情况。510的情况。790的情况。920的情况。340的情况。671 .一、221 .一、470的情况。600的情况。981 .一、361 .一、500的情况。330的情况。660的情况。940的情况。990的情况。400的情况。711 .一、071 .一、21残留物补充[三十一]0的情况。390的情况。811 .一、401 .一、620的情况。240的情况。510的情况。901 .一、050的情况。280的情况。531 .一、021 .一、140的情况。560的情况。911 .一、261 .一、400的情况。310的情况。580的情况。870的情况。910的情况。360的情况。671 .一、021 .一、15AGED w/ geo(我们的)0的情况。380的情况。771 .一、181 .一、410的情况。240的情况。520的情况。921 .一、010的情况。310的情况。641 .一、081 .一、120的情况。510的情况。871 .一、211 .一、330的情况。290的情况。510的情况。720的情况。750的情况。320的情况。620的情况。961 .一、07老龄化,含adv+euc(我们的)0的情况。340的情况。671 .一、011 .一、110的情况。240的情况。490的情况。840的情况。970的情况。260的情况。541 .一、051 .一、280的情况。550的情况。841 .一、161 .一、300的情况。240的情况。440的情况。600的情况。640的情况。330的情况。580的情况。881 .一、00AGED w/ adv+geo(我们的)0的情况。330的情况。620的情况。981 .一、100的情况。230的情况。480的情况。810的情况。950的情况。240的情况。501 .一、021 .一、130的情况。500的情况。811 .一、151 .一、270的情况。230的情况。410的情况。560的情况。620的情况。310的情况。540的情况。850的情况。97……………………0吃400ms0路线400ms图3:短期运动预测可视化。从上到下:groundtruth,基于采样的损失[31],残差sup。[31]我们的年龄。如矩形中突出显示的,输入和第一个预测帧(第2行)之间存在不连续性;预测比我们的(第3行)更远离地面实况。我们的AGED产生更低的误差、更少的跳跃和更平滑的预测。最佳的彩色观看与缩放。组合实现了最佳性能,并使我们的AGED模型在所有场景始终优于现有的基于深度学习的方法。与零速度基线的比较:表1和表2还总结了与零速度方法的比较。虽然零速度不会产生有趣的运动,但现有的基于深度学习的方法很难在短期预测中定量地胜过它,主要是在复杂的动作上(e. 例如,在一个实施例中,吸烟)和高度非周期性的动作(e. 例如,在一个实施例中,这与[31]中的观察结果一致。我们的AGED模型显示了一些有希望的进展。(1)对于复杂的运动预测,零速度优于其他基线,而由于我们的对抗性鉴别器,我们的AGED优于零速度。这种类型的动作由上身的小移动组成,这是难以建模的,因为基于学习的基线仅验证逐帧预测并且忽略它们的节奏依赖性。相比之下,我们的AGED,配备了一个保真度鉴别器和连续性鉴别器,能够检查全局如何顺利和人性化的整个生成的序列,导致显着的性能提高。(2)对于高度非周期性的运动预测,因为这些动作非常难以建模,所以零速度优于所有学习方法。对抗性几何感知的人体运动预测13定性可视化:图3可视化了运动预测结果。我们与残留的营养素比较,如表1和表2所示的最佳表现基线14Guiang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,Jose 'M.F.Moura表3:短期和长期预测视频的人类投票结果每个数字表示我们的预测或地面实况从一对预测中选择为更现实和合理的百分比第一行显示了我们的预测相对于地面实况和基线预测的百分比作为参考,第二行显示了地面实况的百分比。我们的AGED预测与地面实况相当,并且显著优于基线模型短期长期模型对我们 GroundTruth基于采样损失[31]残余辅助核算[三十一]我们GroundTruth基于采样损失[31]残余辅助核算[三十一]我们的与n/a五十三百分之三九十八占6%69岁。占6%n/a四十八占7%83岁百分之五九十三百分之一Groundtruth与四十六岁。占7%n/a九十九。占7%75. 占7%51岁百分之三n/a83岁占7%94 百分之九表4:用于短期预测的消融分析为了完整性,表1中包括了一些结果我们比较我们的测地线损失与传统的欧氏损失作为预测回归损失,并评估不同的鉴别器及其组合的影响我们的全AGED模型实现了最佳性能,显示了不同组件的互补性毫秒步行吃吸烟讨论注册损失阿利迪斯孔迪斯80160320400801603204008016032040080160320400n/aCC1 .一、351 .一、331 .一、311 .一、551 .一、291 .一、221 .一、381 .一、411 .一、391 .一、511 .一、531 .一、691 .一、371 .一、221 .一、151 .一、51EUC0的情况。280的情况。490的情况。720的情况。810的情况。230的情况。390的情况。620的情况。760的情况。330的情况。611 .一、051 .一、150的情况。310的情况。681 .一、011 .一、09EUCC0的情况。270的情况。430的情况。660的情况。740的情况。230的情况。350的情况。580的情况。710的情况。280的情况。520的情况。940的情况。900的情况。420的情况。620的情况。870的情况。93EUCC0的情况。260的情况。420的情况。630的情况。710的情况。220的情况。340的情况。540的情况。680的情况。280的情况。480的情况。920的情况。910的情况。390
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功