没有合适的资源?快使用搜索试试~ 我知道了~
MT-VAE:学习运动变换以生成多模态人体动力学Xinchen Yan1阿卡什 Rastogi1鲁本 Villegas1KalyanSunkavalli2Eli Shechtman2SunilHadap2Ersin Yumer3Honglak Lee1,41密歇根大学安娜堡分校2Adobe研究3Argo AI4谷歌大脑抽象。长期的人体运动可以表示为一系列的运动模式-运动序列,捕捉短期的时间动态-与它们之间的过渡。我们利用这种结构,并提出了一种新的运动变换变分自动编码器(MT-VAE)的学习运动序列生成。我们的模型联合学习运动模式的特征嵌入(运动序列可以从其重建)和表示一个运动模式到下一个运动模式的过渡的特征变换。我们的模型是能够产生多个不同的和合理的运动序列在未来从相同的输入。我们将我们的方法应用于面部和全身运动,并展示了基于模拟的运动传输和视频合成等应用程序。1介绍对人体运动的动力学建模-面部和全身运动-是这是计算机视觉、图形学和机器智能中的一个基本问题,其应用范围包括虚拟角色[1,2]、基于视频的动画和编辑[3,4,5]以及人机接口[6]。 人体运动被认为是高度结构化的,并且可以被建模为我们称为运动模式的原子单元序列。运动模式捕捉人类动作的短期时间动态(例如,微笑或行走),包括其相关的风格属性(例如,微笑有多宽在长期内,人类动作序列可以被分割成一系列运动模式,在它们之间具有过渡(例如,从中性表情到微笑到大笑的转变)。这种结构是众所周知的(称为基本运动[7]或行走循环),并广泛用于计算机动画。本文利用这种结构来学习生成人体运动序列,即,给定一个短的人类动作序列(当前运动模式),我们想要合成前进的动作(未来运动模式)。我们假设(1)每个运动模式可以被表示为低维特征向量,以及(2)运动模式之间的转换可以被建模为这些特征的变换如图所示*部分工作在Adobe Research实习期间完成2X. Yan等运动编码(“重建”)配有培训特征B*运动解码特征B潜在空间转换(差异)A→ B配有潜空间采样运动序列Az~N(0,I)编码测试特征A(“世代”)抽样变换特征B*向量解码生成多个运动序列运动序列A运动序列B运动序列B*图1:顶部:学习使用运动变换VAE生成运动序列。底部:从变换空间生成多个未来运动序列。在图1中,我们提出了一种称为运动变换变分自动编码器(MT-VAE)的新模型,用于学习运动序列生成。我们的MT-VAE使用LSTM编码器-解码器来实现,该LSTM编码器-解码器将每个短子序列嵌入到可以解码以重建运动的特征向量我们进一步假设,当前模式和未来模式之间的转换可以通过一定的变换来捕获。在本文中,我们证明了建议的MT-VAE学习的运动特征表示在无监督的方式。人体运动的挑战在于其固有地是多模态的,即,相同的初始运动模式可以转变为不同的运动模式(例如,微笑可以转变为皱眉、或者向左看时的微笑、或者更宽的微笑等)。确定性模型将不能学习这些变化,并且可能崩溃为单模分布。我们的MT-VAE支持特征变换的随机采样,以从单个输入生成多个看似合理的输出运动模式这允许我们对训练集中可能罕见(或可能不存在)的转换进行建模。我们展示了我们的面部和整个人体运动的方法。在这两个领域中,我们进行了广泛的消融研究,并与以前的工作进行了比较,表明我们的生成结果更合理(即,更好地保持人体动力学的结构)和多样性(即,探索多个运动模式)。我们进一步展示了像1)基于模拟的运动传递(例如,将微笑的动作从一个姿势转移到另一个姿势)和2)将来的视频合成(即,在给定具有人类运动的输入帧的情况下生成多个可能的未来视频我们的主要贡献概述如下:– 我们提出了一个生成的运动模型,包括一个序列级的运动特征嵌入和特征变换,并表明它可以在一个无监督的方式进行训练。学习运动变换以生成多模态人体动力学3– 我们表明,随机采样的变换空间是能够产生未来的运动动力学是多样的和似是而非的。– 我们展示了应用程序的学习模型,以具有挑战性的任务,如运动传输和未来的视频合成的面部和人体运动。2相关工作几十年来,理解和建模人体运动动力学一直是一个长期存在的问题[8,9,10]。由于视频数据的高维性,早期的工作主要集中在学习视频事件和动作识别的分层时空表示[11,12,13]。近年来,使用深度神经网络预测和合成运动动力学已成为热门的研究课题。Walker等人[14],Fischer et al.[15]学习将来从单个图像合成密集流。Walker等人[16]通过使用变分自动编码器对流量不确定性进行建模,扩展了确定性预测框架。Chao等人。[17]提出了一种递归神经网络,用于从具有3D网络内投影层的单个观察中生成3D人体关节的运动。更进一步,Villegas et al.[18],Walker等人[19]探索的层次结构(例如,2D人体关节),用于未来使用递归神经网络进行运动预测。Li等人。[20]提出了一个自动条件递归框架,以生成随时间变化的长期人体运动动态。除了人体运动,人脸合成和编辑是视觉和图形学中另一个有趣的话题。已经基于3D可变形面部表示[24]开发了 用 于 在 视 频 中 再 现 和 内 插 面 部 序 列 的 方 法 [3 , 21 , 22 , 23]。 最 近 ,Suwajanakorn等人[5]介绍了一种语音驱动的面部合成系统,该系统通过递归神经网络学习生成嘴唇运动。除了流表示,运动合成已被探索在更广泛的背景下,即,视频生成。例如,在将来从单个或多个视频帧合成视频序列作为初始化。早期的作品采用基于补丁的方法,使用均方均方损失[25]或感知损失[26]进行短期视频生成。 给定一个原子动作作为附加条件,扩展了动作条件(即,旋转、位置等)架构,从而在视频生成中实现更好的语义控制[27,28,29,30]。由于整体视频帧预测的困难,在[31,32,33,34,35,36]中探索了将视频因素分解为运动和内容的想法。视频生成也已经采用在所生成的帧中的每个像素的可能像素值上输出多项式分布向量的架构[37]。特征转换的概念也被用于其他任务。Mikolov等人[38]展示了以无监督方式从语言数据中学习的词向量的合成加法属性; Kulkarni等[39],Reed et al.[40]建议,可以通过从并行配对图像数据中学习,经由重建或预测任务来实现加性变换。在视频领域,Wang et al.[41]研究了用于语义人类动作分类的变换感知表示; Zhou等人[42]研究了给定附加类别标签的延时视频生成。多模态条件生成最近已被探索用于图像[43,44],草图[45],自然语言[46,47]和视频预测[48,49]。如所指出4X. Yan等B在先前的工作中,由于以下原因,学习生成多样的和合理的视觉数据是非常有挑战性的:首先,在没有一对多对的情况下可能发生模式崩溃收集存在一对多对的序列数据是不平凡的。其次,当生成模型基于递归神经网络时,可能发生后验崩溃。3问题表述和方法我们首先概述一下我们的问题。给出一个T个观测序列SA=[x1,x2,···,xT],其中xt∈RD是表示时间t的观测的D维向量.这些观察对移动对象的结构进行编码,并且可以以不同的方式表示,例如,作为关键点位置或形状姿态参数。这些观察结果的变化编码了我们在建模中感兴趣的运动我们将整个序列称为运动模式。给定运动模式SA∈RT×D,我们的目标是建立一个能够预测未来的运动模式,SB=[y1,y2,···,yT],其中yt∈RD表示预测的第t步在将来,即,y1=xT+1。我们首先讨论了两个可能用于此任务的基线模型(3.1节),然后介绍了我们的方法(第3.2节)。3.1预赛用于序列生成的预测LSTM 图2(a)示出了作为运动预测任务的基线的简单编码器-解码器LSTM [50,25]。在时间t,编码器LSTM将运动xt作为输入并更新其内部表示。在经历整个运动模式SA之后,它输出固定长度的特征eA∈RNe作为中间表示。我们初始化解码器LSTM的内部表示,计算特征eA。在解码阶段的时间t,解码器LSTM预测运动yt。这样,解码器LSTM逐渐预测整个运动模式*=[y1,y2,· · ·,yT]在未来T步内。我们将编码器LSTM表示为函数f:RT×D→ RNe,解码器LSTM为函数g:RNe → RT×D。 作为设计选择,我们用额外的输入xT初始化解码器LSTM,以实现更平滑的预测。用于序列生成的香草VAE 由于确定性LSTM模型未能反映人体运动的多模态性质,因此我们考虑统计模型pθ(SB|SA),由θ参数化。给定观察到的序列SA,模型估计可能的未来序列SB的概率,而不是单个结果。要对多-模态(即,SA可以转变到不同的SB未来序列SB如下生成:1. 样本潜在变量zN(0,I);2. 给定SA和z,生成长度为T的序列:SBpθ(SB|z,SA);S学习运动变换以生成多模态人体动力学5eAe*Bz~W(u,2)*s(x)的方式解码器LSTM编码器LSTMeA状态s(x1:T)y1y2yT编码器LSTMeB(c)我们的MT-VAE12不12z~W(u,2)e*B编码器LSTMX1X2XTes(x)的方式1:eeeφφyyyX1X2XTX1X2XTe* e*e*BBBy*y* y*12不1:Ty*y* y*12不(a) 预测LSTMe* e*e*(concat)生成的序列S* = [y*,y*,…y*]X X x y y yBBBX1X2XTB12T编码器eALSTMeAe* =*+e*** *BBBy*y* y*状态s(x1:T)=eB-eAeAAeA编码器LSTM12不y1y2yT编码器*s(x1:T)- -* *12不状态s(x )的方式LSTMeBz~W(u,2)生成的序列S* = [y*,y*,…y*]1:T(b) 香草VAE(d)我们的MT-VAE(add)B12T图2:用于运动序列生成的不同模型的图示。s(x1:T)指示编码器LSTM在时间T处的隐藏状态。根据VAE [51,43,52,53,16,33,19]的工作,目标是最大化条件对数概率log pθ(SB)的变分下限|SA):LVAE= −KL(qφ(z|SB、SA)||pθ(z))+Eq(z|SΣ、SA)Σlog pθ(SB|SA,z)(一)由方程式1,qφ(z|SB,SA)被称为辅助后验,它近似真实后验pθ(z|SB、SA)。具体地,假设先验pθ(z)为N(0,I)。后验qφ(z|SB,SA)是分别具有均值和方差μ φ和σ 2的多变量高斯分布。直观地,等式中的第一项。1正则化辅助后验qφ(z|SB,SA)的先验pθ(z)。第二项logpθ(SB|SA,z)可以被认为是自动编码损失,其中我们将qφ(z)称为|SB,SA)作为编码器或识别模型,以及pθ(SB|z,SA)作为解码器或生成模型。如图2(b)所示,vanilla VAE模型采用了类似的LSTM编码器和用于序列处理的解码器。与预测LSTM模型相比,vanilla VAE解码器考虑运动特征eA和潜在变量z两者。理想地,这允许通过从潜在空间绘制不同的样本来生成不同的运动序列。然而,潜在变量z在该普通VAE模型中的语义角色不是直接的,并且可能不能有效地在特定运动模式中或在模式改变期间的动态)。3.2潜空间中的运动-运动变换为了进一步提高运动序列生成超越香草VAE,我们建议明确执行的潜在空间中的运动模式的结构我们假设(1) 每个运动模式可以被表示为低维特征向量,以及(2)运动模式之间的转换可以被建模为这些特征的变换我们的设计也得到了分层运动建模和预测的早期研究的支持[8,54,55]。eA编码器LSTM解码器LSTM解码器LSTM解码器LSTMBAB6X. Yan等BBBB我们提出了具有四个组件的运动变换VAE(或MT-VAE)(图2(c))1. LSTM编码器f:RT×D→RNe分别通过eA=f(SA)和eB=f(SB)将输入序列映射为运动特征2. 潜在编码器he-z:R2×Ne-RNz通过连接运动特征eA和eB来计算潜在空间z=he-z([eA,eB])中的变换。这里,Nz表示潜在空间维度。3. 潜在解码器hz→e:RNz+Ne →RNe 合成运动特征从潜在变换z和当前运动特征eA通过e* 得到=hz→e([z,eA]).4. LSTM解码器g:RNe→RT×D合成给定运动的未来序列功能:S*=g(e*)。B B与预测LSTM类似,我们使用LSTM编码器/解码器将运动模式映射到特征空间。MT-VAE进一步将这些特征映射到潜在变换中,并对这些变换进行随机采样。正如我们所证明的,这种变化使模型更具表现力,并导致更合理的结果。最后在在MT-VAE的序列解码阶段,我们将合成的运动特征e*馈送为输入到解码器LSTM,内部状态使用相同的运动特征初始化*有一个额外的输入xt。3.3潜空间中的加法变换虽然MT-VAE明确地对潜在空间中的运动变换进行建模,但是该空间可能是不受约束的,因为变换是根据我们的潜在编码器he-z中的运动特征eA和eB的向量关联来计算的。为了更好地正则化变换空间,我们提出了MT-VAE的加性变体,如图2(d)所示。 为了区分这两个变体,我们分别将之前的模型称为MT-VAE(concat)和这个模型称为MT-VAE(add)。我们的模型受到最近成功的深度类比制作方法的启发[40,31],其中两个示例之间的关系(或变换)可以表示为嵌入空间中的差异。在该模型中,我们严格约束潜在编码和解码步骤如下:1. 我们的潜在编码器hT→z:RNe→RNz通过T=eB−eA计算两个运动特征eA和eB之间的差异;然后通过z=hT→z(T)将差异特征T映射到潜在空间中的变换。2. 我们的潜在解码器hz→T:RNz+Ne→RNe重构差异特征T*由潜变量z和当前运动特征eA通过T*=hz→T(z,eA)。3. 最后,我们应用一个简单的加法交互来重建运动特征,通过*=eA+T*;在第一步中,我们使用hT→z从eA和eB(而不是在级联向量上应用线性层)。直观地,期望潜在代码捕获从当前运动到未来运动的模式转变,而不是两个模式的级联第二步,我们重建ee学习运动变换以生成多模态人体动力学7周期一一eeA=eB-eAz* ~W(u,2)eAz~W(0,I)ez* ~W(u,2)z~W(0,I)循环一致性循环一致性*e**e* =*+eB一eBhe→z*hz→eBeBhT→zeA*hz→T(a) MT-VAE中的周期一致性(concat)(b)MT-VAE中的周期一致性(添加)图3:MT-VAE变化中的周期一致性的图示通过hz→T(z,eA)从潜在变量的变换,其中z从识别模型获得。在该设计中,特征差异取决于潜在变换z和当前运动特征eA两者。或者,我们可以通过从运动特征eA中移除输入来使我们的潜在解码器hz-T与上下文无关。这样,潜在解码器应该仅从潜在空间中对运动差异进行幻觉。我们在第4.1节中提供了该消融研究。除了架构方面的正则化之外,我们在训练模型时还引入了两个额外的周期一致性。如前所述,我们的训练目标L_VAE在等式2中。1由每帧的KL项和重构项组成KL术语reg-将潜在空间极化,而重建项确保数据可以由我们的生成模型解释。然而,我们在特征空间中没有直接的正则化。因此,我们引入一个周期一致性损失方程。2(对于MT-VAE(concat))和Eq.3(对于MT-VAE(添加))。图3详细说明了循环一致性L浓度= ||z*− z||其中z*= he→z([eA,hz→e(z,eA)])且z N(0,I) (2)加法周期 为||z*− z||其中z*= hT→z(hz→T(z,eA))且z N(0,I)(3)在我们的初步实验中,我们还研究了在训练过程中具有更大周期(涉及实际运动序列)的一致性损失,但我们发现它在我们的设置中作为正则化项无效。我们假设梯度的消失或爆炸会使周期一致性目标的有效性降低,这是训练递归神经网络时的一个已知问题。运动连贯性。具体到我们的运动生成任务,我们引入了一个运动相干损失方程。4,其鼓励在预测的前K个步骤中的速度的平滑过渡我们定义速度v1=y1−xT,当k≥2时,vk=yk−yk−1。直观地,这种损失防止所生成的序列偏离从先前采样的未来序列太远1ΣKL运动=||其中g(e z)= [ y *,· · ·,y *]且z N(0,I)(4)||, whereg(ez)=[y∗,···, y∗] and z ∼ N (0, I)(4)Ktt=1B1TL8X. Yan等最后,我们总结了我们的整体损失方程。其中λcycle和λmotion分别是用于周期一致性和运动一致性的两个平衡超参数L_MT-VAE=L_VAE+λ循环L循环+λ运动L运动(5)4实验数据集。对涉及两个代表性人体运动建模任务的数据集进行评估:Affect-in-the-wild(Aff-Wild)[56]用于面部运动,Human3.6M [57]用于全身运动。为了更好地集中于面部运动建模(例如,表情和头部运动),我们利用了3D变形面部模型[58,24](例如,面部身份、面部表情和姿势)。我们使用预训练的3DMM-CNN[59]模型将198-dim身份系数,29-dim表达系数和6-dim姿势参数拟合到每个帧,然后是基于优化的面部拟合算法[60]Human3.6M是一个大型数据库,包含由11个专业演员在室内环境中捕获的800多个人体运动序列(总共360万帧)对于在Human3.6M上的实验我们使用了32个关键点的原始2D轨迹,并将数据进一步归一化为范围[-1,1]内的坐标。建筑设计。我们的MT-VAE模型由四个部分组成:序列编码器网络、序列解码器网络、潜在编码器网络和潜在解码器网络。我们使用长短期记忆单元(LSTM)构建序列编码器和解码器[50]。 我们对两个网络都使用了具有1,024个隐藏单元的1层LSTM。给定从我们的序列编码器网络中提取的过去和未来的运动特征,我们在我们的潜在编码网络中构建三个具有跳过连接的全连接层。我们为我们的潜在解码器网络采用了类似的架构(三个具有跳过连接的全连接层)。由于篇幅所限,具体实施详见补充文件。另外,请访问网站以获得更多的可视化:https://goo.gl/2Q69Ym。4.1多模态运动生成我们评估我们的模型的能力,以产生不同的和合理的未来的运动模式,一个给定的序列上的Aff-Wild和Human3.6M测试集。给定序列SA作为初始化,我们使用我们提出的采样和生成过程在未来生成多个运动轨迹。对于预测LSTM模型,我们只对未来的一个运动轨迹进行采样,因为预测的未来是确定的。定量评价。 我们使用最小平方误差度量和条件对数似然度量定量评估我们的模型和基线,这些度量已用于评估条件生成模型[43,16,53,48]。如Eq. 6.重建最小平方误差(或R-MSE)测量当从识别模型采样潜变量时最接近地面实况的重建的平方误差。这是在给定当前和当前重建质量的情况下重建质量的度量。学习运动变换以生成多模态人体动力学9B表1:多模态运动生成的定量评估。我们比较两个简单的数据驱动的基线进行定量比较:最后一步运动,递归地应用从观察到的最后一步的运动(仅速度);序列运动,递归地添加从观察到的帧的平均序列速度(a) Aff-Wild的面部表情系数结果方法/指标R-MSE↓ (×10−1)S-MSE↓ (×10−1) 试验CLL ↑(×103)火车测试火车测试最后一步运动--63.8 ±1.31 74.7 ±5.590.719 ±0.077序列运动--18.4 ±0.25 19.1 ±1.021.335 ±0.057预测LSTM[18]--1.53 ±0.01 3.03 ±0.062.232 ±0.003香草VAE[48]0.32 ±0.00 1.28 ±0.020.79 ±0.00 1.79 ±0.032.749 ±0.012我们的MT-VAE(concat)0.22 ±0.00 0.73 ±0.011.04 ±0.00 1.76 ±0.032.817 ±0.023我们的MT-VAE(添加)0.20 ±0.00 0.47 ±0.011.02 ±0.00 1.54 ±0.043.147 ±0.018(b) 使用2D关节的Human3.6M的结果。方法/指标R-MSE↓S-MSE↓试验CLL ↑(×104)火车测试火车测试最后一步运动--35.2 ±0.4932.1 ±0.800.390 ±0.004序列运动--37.8 ±0.4935.2 ±0.730.406 ±0.003预测LSTM[18]--1.69 ±0.0211.2 ±0.170.602 ±0.002香草VAE[48]0.36 ±0.001.05 ±0.023.18 ±0.023.88 ±0.050.993 ±0.011我们的MT-VAE(concat)0.36 ±0.000.97 ±0.022.26 ±0.032.84 ±0.051.033 ±0.010我们的MT-VAE(添加)0.25 ±0.000.75 ±0.012.37 ±0.022.87 ±0.051.141 ±0.009未来的序列。如Eq. 7、采样最小平方误差(或S-MSE)测量当从先验采样潜变量时最接近地面实况的样本的平方误差。这是我们的样本与参考未来序列的接近程度的度量。R-MSE=min1≤k≤K SB− S*(z(k))|SA、SB)。(六)S-MSE=minS −S*(z(k)2(k)p(z).(七)) ,其中zBBθ1≤k≤K在生成多样性和质量方面,给定足够数量的样本,预期良好的生成模型实现低R-MSE和S-MSE值。注意,后验崩溃问题通常以低S-MSE但高R-MSE为特征,因为从识别模型采样的潜在z此外,我们通过Parzen窗口估计(具有基于验证集确定的带宽)测量我们的模型下的地面实况序列的测试条件对数似然我们认为Parzen窗口估计对于我们的设置是一种合理的方法对于每个示例,我们使用50个样本来计算R-MSE度量,并且使用500个样本来计算S-MSE和条件对数似然度量。在Aff-Wild上,我们评估了32步表达系数的模型。10X. Yan等diction(29× 32 = 928维)。在Human3.6M上,我们评估了64步2D关节预测(总共64×64 = 4096维)的模型。请注意,这些测量是近似的,因为我们不评估模型的性能,每个子序列(例如,基本上,每一帧都可以用作起点)。相反,我们在Aff-Wild数据集上每16帧重复一次评估,在Human3.6M数据集上每100帧重复一次如表1所示,简单地重复从最后一步速度计算的运动或对观察到的序列求平均的数据驱动方法在两个数据集上表现相比之下,与简单的数据驱动方法相比,预测LSTM[18]基线大大降低了S-MSE度量,这是由于深度序列编码器和解码器架构在建模更复杂的运动动态时。在所有三个模型使用潜变量,我们的MT-VAE(添加)模型实现最好的定量性能。与采用矢量拼接的MT-VAE(concat)相比,我们的加性版本在相似的采样误差下实现了更低的重建误差。这表明MT-VAE(add)模型能够进一步正则化运动变换的学习。定性结果。我们在图4中提供了不同模型之间的定性并排比较。对于Aff-Wild,我们使用生成的表情姿势参数以及原始身份参数来渲染3D面部模型。对于Hu-man 3. 6 M,我们直接可视化生成的2D关键点。如所生成的序列中所示,我们的MT-VAE模型能够在未来生成多个不同的和合理的序列。相比之下,VanillaVAE生成的序列不太真实。例如,给定一个坐下来的运动(图中左下部分)4)作为初始化,香草模型不能预测运动趋势(坐下),同时产生一些伪像(例如,在未来的预测中的比例变化)还要注意,MT-VAE产生从最后观察到的帧到第一生成的帧的更自然的过渡(参见面部运动示例中的嘴部形状和全身示例中的两条腿之间的距离)。这表明,与其他基线相比,MT-VAE学习运动序列的更鲁棒和结构保留的表示。众包人类评估。我们通过Amazon Mechanical Turk(AMT)对来自Hu- man3.6M数据集的50个视频(每个视频10个Turkers)进行了众包人类评估。该评估向人类评估者呈现过去的动作和针对每种方法生成的未来动作,并要求该人选择(1)最现实和(2)最多样化的结果。在这次评估中,我们还增加了与最近发表的关于随机视频预测的工作[49]的比较,我们将其称为SVG。表2显示了为每项任务选择每种方法的用户百分比。预测LSTM产生最真实但最不多样化的结果; Babaeizadeh et al.[48]产生最多样化但最不真实的结果;我们的MT-VAE模型(我们在这里使用添加剂变体)在真实性和多样性之间实现了良好的平衡消融研究。我们在Human3.6M上分析了我们的MT-VAE(add)模型的变化。如我们在表3中看到的,去除周期一致性或运动相干性导致重建性能的下降。这表明,周期一致性和运动相干性鼓励运动特征保持运动结构,从而更好地识别运动特征。学习运动变换以生成多模态人体动力学11图4:多模式序列生成。给定输入序列(绿色边界),我们生成未来序列(红色边界)。我们预测32帧给定8帧的面部运动,和64帧给定16帧的人体运动。给定初始帧作为条件,我们演示(从上到下)地面真值序列,预测LSTM,VanillaVAE和我们的MT-VAE模型。总的来说,我们的模型产生(1)多样化和结构化的运动模式,以及(2)从观察到的最后一帧到生成的第一帧的更自然的过渡(参见从观察到的最后一帧到生成的第一帧的微妙的嘴形状和比例变化)。t i =1t i =4t i =8to=1to=4to=8to=16to=32t i =1t i =4t i =8to=1to=4to=8to=16to=32观测序列未来序列观测序列未来序列t i =1t i =8t i =16to=1to=4to=16to=32to=64t i =1t i =8t i =16to=1to=4to=16to=32 to=64观察到的序列未来序列观察到的序列未来序列香草VAEMT-VAE(添加)Pred LSTM参考MT-VAE(添加)香草VAEPred LSTM参考12X. Yan等DD表2:对Human3.6M的众包人类评价* 我们没有将预测LSTM包括在多样性评估中,因为它可以进行确定性预测。度量香草VAE[48]SVG[49]我们的MT-VAE(添加)Pred LSTM[18]现实主义(%)19.223.826.430.6多样性(%)51.622.326.10的情况。0∗表3:MT-VAE(添加)模型不同变体的消融研究:我们评估了没有运动一致性目标,没有周期一致性目标,以及上下文无关的潜在解码器的模型。方法/指标R-MSE(试验)↓S-MSE(试验)↓试验CLL ↑(×104)MT-VAE(添加)0.75 ±0.012.87 ±0.051.141 ±0.009MT-VAE(添加),无运动相干性1.01 ±0.022.93 ±0.041.012 ±0.014MT-VAE(添加),无周期一致性1.18 ±0.032.71 ±0.050.927 ±0.019MT-VAE(add)上下文无关解码器0.31 ±0.054.05 ±0.051.299 ±0.007本质上是歧视性的我们还评估了MT-VAE(add)模型的上下文无关版本,其中变换向量T不以输入特征eA为条件。该版本产生差的S-MSE值,因为对于加性潜在解码器来说,仅从潜在变量z中对变换向量T* 进行超分辨率处理是具有挑战性的。4.2基于模拟的运动传递我们评估我们的模型上的一个额外的任务,通过类比转移。在这个类比实验中,我们给出了三个运动序列A、B(这是A的后续运动)和C(这是不同的运动序列)。目标是识别从A到B的转换并将其转移到C。该实验可以证明我们学习的潜在空间是否对跨运动序列的模式转换进行建模。此外,该任务具有许多图形应用程序,如传输表情及其风格,视频配音,步态风格传输和视频驱动动画[22]。在这个实验中,我们比较了预测LSTM,Vanilla VAE和我们的MT-VAE变体。对于随机模型,我们通过潜在编码器从运动序列A和B计算潜在变量z,即,z=hT→z(eB-eA),然后使用运动序列C为e* =hz→T(z,eC)。对于预测LSTM模型,我们直接在特征空间e*=eB−eA+eC中进行类比,因为在那个模型中没有潜在空间的概念如图5所示,我们的MT-VAE模型能够将从A到B的转换学习到的转换与序列C中的结构相结合。其他基线在调整从A到B的模式转换或保留C中的结构基于模拟的运动转移任务比运动生成明显更具挑战性,因为三个参考运动序列A、B和C的组合可能永远不会出现在训练数据中然而,我们的模型能够合成逼真的运动。请注意,运动模式可能不明确对应于语义运动,因为我们以无监督的方式学习运动变换学习运动变换以生成多模态人体动力学13tA=1tA=4tA=8tB=1tB=4tB=8tB=12tB=16tA=1tA=4tA=8tB=1tB=4tB=8tB=12tB=16参考序列A参考序列BtC=1tC=4tC=8tD=1tD=4tD=8tD=12tD=16参考序列A参考序列BtC=1tC=4tC=8tD=1tD=4tD=8tD=12tD=16参考序列C输出序列D(A:B::C:?)参考序列C输出序列D(A:B::C:?)tA=1tA=8tA=16tB=1tB=8tB=16tB=24tB=32参考序列A参考序列BtC=1tC=8tC=16tD=1tD=8tD=16tD=24tD=32t A =1tA=8tA=16tB=1tB=8tB=16tB=24tB=32参考序列A参考序列BtC=1tC=8tC=16tD=1tD=8tD=16tD=24tD=32参考序列C输出序列D(A:B::C:?)参考序列C输出序列D(A:B::C:?)图5:基于模拟的运动转移。给定来自测试集的三个运动序列A、B和C,目标是提取从A到B的运动模式转换,然后将其应用于动画从序列C开始的未来为了公平比较,我们在评估期间将编码器高斯分布参数σ设置4.3面向多模式层次视频生成的作为一个应用程序,我们展示了我们的多模态运动生成框架可以直接用于生成多样化和现实的像素级视频帧的未来。我们训练了关键点调节的图像生成模型[18],其采用先前图像帧A和预测的运动结构B(例如,渲染的面部或人体关节)作为输入,并通过组合从A适配的图像内容但具有从B适配的运动来使图像C超分辨率在图6中,我们示出了通过预测LSTM以确定性方式生成的视频的比较(即,单个未来),并且以由预测的运动序列驱动的随机方式(即,多个期货)从我们的MT-VAE(添加)模型。我们使用我们生成的运动序列进行视频生成实验的Aff-Wild(观察到8个输入帧)和Human3.6M(观察到16个输入帧)。MT-VAE香草(添加)(concat)VAEMT-VAE MT-VAE Vanilla(add)(concat)PredLSTMPredLSTMPredLSTMPredLSTMMT-VAE香草(添加)(concat)VAE香草VAEMT-VAE(添加)(concat)14X. Yan等图6:多模式分层视频生成。顶行:来自8个观察帧的面部视频生成底部行:人类视频生成来自16个观察到的帧。5结论我们在这项工作中的目标是学习人类运动的条件生成模型在一般情况下,这是一个极具挑战性的问题,可能需要大量的训练数据来生成逼真的结果。我们的工作表明,这可以通过对问题实施强有力的结构来实现最小的监督。特别是,我们长期的人体动态建模为一组运动模式之间的过渡,并构建了一个新的网络架构,强烈正则化这个空间,并允许随机采样。我们已经证明,这个相同的想法可以用于对面部和全身运动两者进行建模,而与所使用的表示无关(即,形状参数、关键点)。鸣谢。我们感谢Zhixin Shu和Haoxiang Li在人脸跟踪和拟合代码库方面的帮助。我们感谢Yuting Zhang、Seunhoon Hong和La- janugen Logeswaran提供的有益意见和讨论。这项工作得到了Adobe Research Fellowship to X的部分Yan,Adobe的礼物,ONR N 00014 -13- 1-0762和NSF CAREER IIS-1453651。t i =1t i =4t i =8to=1to=4to=8to=16to=32t i =1t i =4t i =8to=1to=4to=8to=16to=32t i =1t i =8t i =16to=1to=4to=16to=32to=64t i =1t i =8t i =16to=1to=4to=16to=32 to=64观察到的序列未来序列观察到的序列未来序列PredLSTMPredLSTM参考MT-VAE(添加)MT-VAE(添加)参考学习运动变换以生成多模态人体动力学15引用1. de Aguiar,E.,斯托尔角Theobalt,C.艾哈迈德,N.,Seidel,H.P.,Thrun,S.:从稀疏多视图视频中捕获性能ACM Trans.Graph. 27(3)(2008年8月)98:12. Beeler,T.,Hahn,F.,Bradley,D.Bickel,B.,Beardsley,P.,Gotsman,C.Sumner,R.W.,格罗斯,M.:使用锚帧的高质量被动面部性能捕获。ACM事务处理图表30(4)(2011年7月)75:13. 杨,F.,王杰,Shechtman,E.,Bourdev,L.Metaxas,D.:3D感知的表达式流面元传递ACM Transactions on Graphics(TOG)第30卷ACM(2011)604. Suwajanakorn,S.,Seitz,S.M.,Kemelmacher-Shlizerman,I.:是什么让汤姆汉克斯看起来像汤姆汉克斯。在:IEEE计算机视觉国际会议论文集。(2015)39525. Suwajanakorn,S.,Seitz,S.M.,Kemelmacher-Shlizerman,I.:合成奥巴马:从音频中学习对口型ACM Transactions on Graphics(TOG)36(4)(2017)956. Sermanet,P.,林奇角徐,J.,Levine,S.:时间对比网络:自监督从多视角观察中学习。arXiv预印本arXiv:1704.06888(2017)7. 罗斯角Guenter,B.,Bodenheimer,B.,Cohen,M.F.:使用时空约束的运动过渡的有效生成在:SIGGRAPH. (1996年)8. Bregler,C.:学习和识别视频序列中的人体动态。计算机视觉与模式识别,1997年。诉讼程序1997年IEEE计算机协会会议,IEEE(1997)5689. 埃夫罗斯,匿名戒酒会Berg,A.C.,Mori,G.,Malik,J.:远距离识别动作In:null,IEEE(2003)72610. 戈雷利克湖空白,M.,Shechtman,E.,Irani,M.,Basri,R.:作为时空形状的动作。IEEE Transactions on Pattern Analysis and Machine Intelligence29(12)(2007)224711. 拉普捷夫岛: 关于时空兴趣点。 国际计算机视觉杂志64(2-3)(2005)10712. 王,H., Kl a¨ se r,A., 施密德角Liu,C.L.: 通过密集轨迹识别动作。在:计算机视觉和模式识别(CVPR),2011 IEEE会议,IEEE(2011)316913. 王杰,刘志,吴,Y.,Yuan,J.:挖掘actionlet集成用于深度相机的动作识别。In:Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on,IEEE(2012)129014. Walker,J. ,Gupta ,A. ,Hebert,M.:从静态图像进行密集光流预测。In :Computer Vision(ICCV)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功