没有合适的资源?快使用搜索试试~ 我知道了~
930人体上半身的物理合理动画黄子源 * 国立台湾大学Zhengping Zhou*斯坦福大学国立台湾大学斯坦福大学C.斯坦福大学摘要我们提出了一种新的方法来生成可控的,动态响应,和真实感的人的动画。给定一个人的图像,我们的系统允许用户使用图像空间中的交互来生成物理上合理的上身动画(PUBA),例如将他们的手拖到各个位置。我们制定了强化学习问题来训练预测人图像上的关键点关节扭矩),以及输出最佳动作以控制人实现期望目标的策略。动态模型利用了3D仿真的表现力和2D视频的视觉真实感PUBA生成2D关键点序列,实现任务目标,同时响应有力的扰动。关键点序列然后由姿势到图像生成器转换以产生最终的照片级真实感视频。1. 介绍基于物理的3D角色动画提供了强大的工具来使用物理力创建可控和可交互的人类代理。这些技术可以在没有任何训练数据的情况下产生基于物理定律的完全新颖的运动相比之下,数据驱动的基于图像的运动合成方法在合成真实感视频中是有效的,但是它们不能基于与代理的无预谋的物理交互来创建新颖的运动。我们能否将基于物理的3D动画的表现力与2D视频提供的丰富外观结合起来,使智能体在物理上可控制,可交互,并且具有照片般的真实感?我们提出了一种新的方法,分裂的2D和3D表示之间的差异,我们的动态模型上运行的2D状态和3D动作。我们将状态表示为2D关键点,以避免3D和2D表示之间的转换,因为我们的最终产品是2D图像。另一方面,在一项研究中,* 表示相等的贡献。我们选择将动作表示为3D关节力矩,因为它们包含更多的信息来尊重人类运动学和动力学约束。使用这种混合表示,我们训练策略来控制照片中的人的上半身,以实现所需的任务。将策略与动态模型相结合,我们的系统可以通过将她的手拖到任意2D位置或用任意力推动人来制作人的动画。照片中的人将遵循用户我们的系统,命名为物理上合理的上半身模拟(PUBA),包括两个模块:运动合成和真实感绘制。我们将运动合成转化为一个强化学习问题,并将2D状态和3D动作混合表示。具体来说,我们将2D状态定义为图像中人的一组关键点,将3D动作定义为应用于人的关节的扭矩向量。我们首先训练一个过渡函数,该函数在3D扭矩矢量的影响下从当前2D关键点预测下一个2D关键点。随后,我们训练一个策略,该策略将2D关键点作为输入,并输出一个3D扭矩向量,以最大化定义任务的长期奖励。一旦策略和转换函数被训练,我们就可以生成2D关键点序列,这些关键点序列在响应用户施加的强有力的扰动的同时实现任务然后,通过姿势到图像生成器将关键点序列转换为逼真的图像[5]。PUBA有两个主要优势:首先,运动合成模块和真实感渲染模块是解耦的,可以单独训练,允许它从未配对的3D mocap数据和2D图像中学习;其次,策略和动力学模型完全在2D关键点上操作,绕过了单目3D姿态重建的需要。我们的系统设计避免了当预测的3D姿势不能与输入图像重叠时的失败情况,并消除了对复杂的基于物理的动画管道的依赖。2. 相关作品图像动画。大量的研究旨在为源图像中的一类或特定对象931∈输入图像t=10t=20t=30t=40t=50图1:给定一个人的图像(第一列),我们的系统允许用户在图像空间中使用直观的2D交互来制作人的动画顶部:用户为手腕指定两个目标位置(显示为红点)。底部:用户指定手部要跟踪的所需轨迹(显示为红色曲线)。在t=20时,用户创建一个力矢量,将人推向左侧(如红色箭头所示)。通过跟踪驾驶视频的运动,基于周期一致性[2]、光流估计[28]或无监督检测的2D关键点的仿射变换[29]一个特殊的工作线集中在人体姿势转移,其中的中心目标是合成一个人在新的姿势。代表性的作品包括使用从姿势到图像的直接映射的2D方法[5],估计的身体部位空间变换[1,25],注意力图[36],模态基础[7],以及颜色和姿势的解纠缠[8],以及利用密集姿势[22],参数身体模型[17]重建的3D方法,或个人特定纹理的3D角色模型[16]。这些方法的一个关键限制是必须提供完整的参考运动。相比之下,我们的方法允许用户通过指定一个简洁的目标来生成动画,例如合成的运动可以通过物理力进一步编辑,从而生成物理上合理的行为,例如人“在突然被推到一边时运动预测与 基于参考运动来合成运动的工作相反,另一种研究集中于仅基于过去或未来的观察来预测运动,其中预测的运动可以被表示为RGB视频[21],或者基于参数化身体表面模型[19]和单目3D身体姿势和形状的现有技术被表示为3D身体网格序列[ 33,13重建[3,12,14,27,32,31]。对于未来的预测,通常采用自回归模型,将最后一步的输出作为输入,例如Struct V-RNN [21]或因果模型[33]。自回归模型也已被证明可有效地从头开始合成长期3D运动,例如acLSTM模型 [15]。由于合成的运动是基于过去的预测或纯粹从零开始生成的,它们几乎是可控的并且仅适用于高度特定和可预测的运动,例如运动或武术。然而,我们借用自回归预测的想法,我们的动力学模型,这是由每步转矩输入控制。基于物理模拟的角色动画。在“运动可控性”的范围内,物理模拟角色动画处于“最可控”的极端,而运动预测处于另一极端。为了合成真实地对扰动做出反应的运动为了将类似水平的可控性和物理现实主义带入2D像素空间,我们借用了基于深度强化学习(DRL)的动画系统的想法[23,24],该系统为用户指定的目标学习策略。关键区别在于,我们的策略采用基于2D关键点的观测,而它们完全在3D中操作,并且需要基于角度的联合观测,这通常难以从单个视图中推断出来3. 方法给定照片I0中的人物,我们的PUBA系统使用户能够使用直观的2D交互来制作人物的动画,例如在人物的不同部位拖动或推动,并创建照片级逼真的视频I1:T。我们将照片中的人视为在2D状态空间和3D动作空间的混合表示中操作的强化学习代理代理的任务是实现用户指定的目标位置,并动态响应用户施加的扰动。我们的系统由三个组件组成(图2):• 动态模型st+1=t(s0,a0:t),• agoal-conditioned polic y atπ(·|st,g),以及• 姿态到图像生成器It=I t(xt)。2D姿势,xR2n由人的身体上的n个标志点定义,例如肩膀和肘部。的状态932科技目标I 0s0a0级的1的x(1,x,T)政策π(at|(st,g)动态模型st+1=n(st,a0:t)姿态图像生成器It=m(xt)△△∈△∈DDD--∈----△--在t+ 1时的姿态为xt+1=x0+t+1△xt′,则一一st+1力扰动I1:T图2:我们的系统概述。sR4n是2D姿态及其在前一时间步处与2D姿态的偏移的级联,st=(xt,xt)。动作被定义为3D扭矩矢量,其中m是代理3D代理的致动自由度(DOF)的数量最后,我们的策略还以指定身体部位的2D目标位置g为3.1. 动态模型在给定初始状态s0和控制序列a0:t的情况下,动态模型经过训练以模拟状态序列s1:t+1(图3)。具体来说,在时间t,网络预测一个序列△x1:t+1,并在t中对它们进行分级,以获得2D′t=1图3:动态模型。 从初始2D关键点坐标x0和偏移x0 开 始,GRU模型在每一步t处取一个扭矩at作为输入,并且预测每一步的2D关键点偏移xt。FC h、FC a、FC dx是具有tanh激活的全连接层。图4:左:我们的3D人体代理上每个关节的位置和自由度。右图:动态模型的训练数据。来自mocap数据集的示例运动序列以黑色显示箱. 增强的姿势显示在红框中。与△xt+1级联构成下一个状态st+1=(xt+1,△xt+1)。训练数据。训练动态模型需要覆盖状态和动作的联合空间的大量训练数据。我们使用来自Human 3.6M[11]的运动捕捉数据集,并使用一组合成的人体运动来增强它。我们构建了一个表示为铰接刚体系统的3D人类代理来处理mocap数据(图4左图)。我们首先应用逆运动学从原始mocap数据获得关节配置q1:T,其中qRm包含人类代理的致动自由度。 为了推导出关节力矩a0:T,我们从q的轨迹计算逆动力学,以及通过有限差分近似的q stec和q?的轨迹。为了获得2D关键点x<$0:T,我们简单地通过正向运动学计算3D标志点,并将它们投影到2D图像空间。我们使用两种不同的方法来创建增强的人体运动数据集(图4)。首先,由于策略训练过程通常涉及将探索噪声添加到动作中以提高策略的鲁棒性,因此我们通过扰动每步扭矩来从MOCAP数据集计算的关节扭矩第二,我们随机生成人体运动范围内的3D点作为指定身体部位的目标点(例如,手腕),并使用反向运动学来产生用于训练的额外的伸展运动。使用这两种方法进行数据增强,我们可以生成尽可能多的训练数据。我们将330,000帧添加到原始数据集中,原始数据集包含141,021帧。使用这种增强数据集训练的动态模型在训练期间被策略查询时表现得更可靠,如第4节中的各种场景中所定量显示的那样。模型架构。我们使用门控递归单元(GRU)[6]网络来模拟人体运动中的时间依赖性。隐式地对演变的运动学状态进行建模的隐藏状态通过将s0=(x0,x0)作为输入的全连接层来初始化,并且根据输入扭矩at在每一步进行更新。我们将矩阵乘法运算符表示为向量,级联运算符为[·],GR U单元更新规则如GR U(·):t.tanh(Wh<$[x0,△x0]+bh),t= 0;a0:T,通过逆动力学计算,噪声采样从零中心高斯分布,然后为-h=GRU(ht−1,tanh(Wat+b)),t >0。(一)Ward模拟以获得新状态。标准偏差的标准差的一半每步关键点偏移输出△xt(归一化为[-1,1])然后基于隐藏状态ht被预测为933联系我们Σ--|RL颈形电话+1Ctrl∥ ∥D目标RRLL- -△xt= tanh(W△xht+b△x)。学习我们从训练数据集中采样所有可能的长度为T的轨迹 每个轨迹τ用x<$0:T和a1:T标注。损失函数被定义为2D关键点坐标和2D关键点偏移的均方误差(MSE)之和测试政策。 一旦策略被训练,我们就可以使用它来生成2D姿态序列,这些序列可以到达或跟踪任意目标/目标轨迹,同时响应用户施加的有力扰动。用户指定的扰动被解释为在时间间隔内施加在特定关节上的扭矩然后将扭矩添加到策略模型的输出中。=τ∈D不t=1(xt−x<$t<$2+△xt−△x<$2)。(二)3.3.照片级逼真渲染3.2. 目标制约政策我们现在可以学习一个策略,该策略在学习的动态模型的动态下实现给定的任务。 我们制定了一个马尔可夫决策过程,并解决了一个目标条件的政策,π(atst,g)。 除了当前状态st之外,策略还将任务定义的目标向量g作为输入。例如,到达任务将目标向量定义为gt=[xtxR,xtx<$L],其中x<$R和x<$L分别是右手腕和左手腕要到达的2D目标位置。奖励功能。 强化学习的目标是解决一个最大化长期回报的策略。我们的奖励函数由以下四项组成:r=wtaskr task+w uprightr upright+w campusr campus+w aliveralive,(3)其中w是权重。在这四个术语中,r任务鼓励策略最小化对任务目标的偏离。例如,到达任务将被定义为从输入图像I0开始,我们首先使用最先进的2D姿态检测器[4]提取初始2D姿态x0然后,我们使用策略π和动态模型π来为给定的控制任务产生一系列2D姿态x1:T然后,可以从2D姿势逐帧合成照片级真实感视频:I t=f(xt),t=1:T,其中f是将2D姿势映射到源人物的对应图像的生成器网络。为了获得最佳的照片真实感,我们采用了Everybody Dance Now [5]中提出的方法来构建视频,并使用源人物执行随机姿势的额外视频对其进行训练1。我们的运动合成模块适用于其他姿势到图像生成器,例如ADGAN [20]。尽管Everybody DanceNow [5]生成的视频在时间上更连贯,但ADGAN能够从DeepFashion数据集[18]生成各种人类受试者的结果。更多结果可参见第4节。注意,视频训练数据可以完全独立于mocap训练集中的3D姿态。本文主要r t= −。xt+1−gt+1rupright通过惩罚颈部和头部的位置低于默认姿势中的位置来鼓励智能体保持直立的躯干:人类3.6M数据集[11],并记录我们自己的视频数据。4. 实验不直立=−(max(0,xt+1−h颈部)+max(0,x头部-yh头)), (五)本节介绍实验设置,通过定量指标和用户研究将我们的方法与基线进行其中hneck和hhead是默认姿势中颈部和头部的高度rctrl鼓励最小的动作,这会导致更平滑的运动:r(t)= at.最后,我还活着使策略不能超出映像边界或跌倒:并为消融研究和应用提供结果。4.1. 实验装置动作合成。为了训练动态模型和控制策略,我们采用来自公开可用的Human 3.6M数据集[11]r活着=1,x(t)和颈部和头部的高度高于固定阈值;(六)根据要求。我们目前专注于上身运动;因此,我们只包括最小的下半身动作的动作类:方向,讨论,问候,摆姿势,000,否则。培训政策。我们使用邻近策略优化(PPO)[26]来训练具有固定水平T=50的MLP策略πθ。在每集开始时,初始2D姿态和目标被独立地随机采样拍照。对于本文中的所有实验,以50 FPS合成T=50步的运动在运动合成之后,我们应用窗口大小为11的平均平滑来提高视觉质量。我们使用具有预定义的内在函数的透视相机来获得2D关键点坐标在前视图中。从我们用来训练动态模型的训练数据集中在每个时间步长t,我们将当前2D姿态xt裁剪到有效范围内。此范围由中的2D姿势边界确定每当策略达到使r存活=0的无效状态时,事件终止。1请注意,如果我们不太关心生成视频的质量,则可以省略此额外的视频输入。在这种情况下,姿态转移方法(例如,[1]可以使用。这将需要更少的输入,但也会在生成的视频中产生更多的伪影。R−直接使用来自公共MOCAP数据库的MOCAP数据934×方法真实性精度PUBA(我们的)与Ground truth 28% 36%方法实在论 精密扰动PUBA(我们的)与Hao等[9]第一章百分之八十八百分之七十九PUBA(我们的)与Hao等[9] 85%百分之七十四百分之七十五PUBA(我们的)与3D模拟仿真百分之六十百分之六十一PUBA(我们的)与3D模拟65%百分之七十四百分之六十四(a) 对跟踪和到达任务的用户评估(b)对具有扰动的表1:用户研究结果这些矩阵包含了用户在第一列中更喜欢我们的方法的百分比(%)以下各列分别是用户对视频真实性、跟踪精度和从扰动力中恢复的能力的评估。(a)跟踪和到达视频的用户评估。(b)在运动过程中对骨盆施加外力的跟踪视频的用户评估。真实感渲染。为了训练Everybody Dance Now [5]的生成器,目标人物需要在大致朝向前视图的摄像机前执行随机的上身运动。在实践中,我们发现6在记录开始时,期望人以T姿势开始,使得可以计算4-DoF线性变换以将照片视图中的2D姿势归一化到与运动合成模块相同的姿势空间中。视频以分辨率256 256,50 FPS合成。为了进行比较,我们使用[5]作为生成器,同时使用ADGAN [20]在DeepFashion上预训练用于某些应用程序。基线。我们考虑两个基线。首先,Hao等人[9]提出了一种视频生成模型,该模型允许对生成的视频的运动进行详细给定图像和由用户指定的稀疏流向量,模型可以生成沿着流向量扭曲输入帧的密集流图我们使用地面实况轨迹作为他们模型的输入流向量,并将他们的合成视频与我们的视频进行比较。我们还考虑了3D模拟基线。给定一个人的输入图像和用户指定的2D目标点,我们首先使用HMR [12]预测输入图像中人的3DCOCO关节。然后,我们运行逆运动学(IK),根据预测的身体关节,让3D人形机器人模仿初始姿势。同时,我们将用户指定的2D目标点映射到3D空间。我们将3D目标点的深度固定为人类手腕的初始深度。通过上述设置,我们使用IK让3D人形跟踪3D目标点。最后,我们将计算的3D关节重新投影回2D,并使用真实感渲染来合成视频。评估指标。我们在Amazon Mechanical Turk上进行了一项人类偏好研究,以比较我们的结果和基线方法的视觉质量。此外,我们使用两个指标逐帧比较合成视频的质量:PSNR和LPIPS [34]。这两个度量有助于估计地面实况和生成的图像之间的相似性然而,我们发现,PSNR可能会偏离人类的喜好,因为合理的人类运动的多样性。4.2. 结果对于定量比较,我们考虑三个任务:• 跟踪:给定一个人的RGB图像和左手腕和右手腕的期望轨迹,生成跟踪轨迹的人的视频;• 到达:类似于跟踪,但提供手腕的固定目标位置,而不是完整的轨迹;• 扰动恢复:在这种情况下,人突然受到脉冲扭矩的扰动(例如,将人推到左边),同时遵循策略以实现目标。预期的输出是一段视频,视频中的人试图从干扰中恢复过来,完成最初的任务。对于Hao等人,[9],我们在人的骨盆上放置一个额外的流动矢量来表示脉冲扭矩。对于3D仿真,我们使用逆动力学来计算3D人形机器人的内力,并在一定时间间隔内在上躯干上施加外力。对于每对RGB图像和轨迹,我们使用我们的方法和两种基线方法生成三个视频,并使用用户研究和评估指标进行比较人类偏好研究。我们使用MTurk进行用户研究。我们与参与者沟通,并征得他们的同意,使用他们的回应。对于每个示例,该研究向参与者呈现了一对视频,由我们的模型和基线生成,与目标点/轨迹叠加。参与者被要求回答以下两个问题:(1)哪一个视频看起来更真实?(2)哪个视频更好地跟踪目标点/轨迹回答问题没有时间限制对于跟踪和到达,我们将一个人做一些上身运动的40个视频作为地面实况,并提取2D手腕关键点坐标作为我们和基线方法的目标轨迹输入。此外,我们还进行了地面实况和我们的结果之间的成对比较表1(a)显示了每个问题100在现实主义方面,我们的PUBA系统优于基线,28%的参与者甚至认为我们的结果更现实935LLLPIPS ↓FVD ↓FID↓Hao等[9] 0.134 2197.59 330.963D模拟0.164 1092.60 148.51PUBA(我们的)0.121 947.23 130.07表2:我们的方法和基线的评估。方法w/o扰动w/扰动L1L2L1L2[24] 26.41 20.66 31.73 25.1三维模拟21.35 19.08 27.93 22.13PUBA(我们)18.79 15.05 23.47 18.91表3:与物理模拟方法的比较。我们比较了无扰动和有扰动情况下不同方法生成的关键点的准确性输入t=20t=40t=50图5:在扰动任务上与其他方法的定性比较我们的方法可以从扰动中恢复更好地跟踪轨迹。SfV [24]需要整个地面实况视频作为训练的输入更多详情请参见第4.2而不是地面真相请注意,一个完美的方法预计会在50%的时间内混淆人们,因此28%的偏好率是令人鼓舞的。对于扰动恢复任务,还有一个额外的问题:在哪个视频中,人能更好地从突然的脉冲扭矩中恢复过来请注意,扰动任务没有基础表1(b)报告了我们的方法相对于基线的用户满意度。我们的方法在各个方面都优于基线。这并不令人惊讶,因为我们的方法利用了关于人类动力学的知识,而[9]试图对通用视频进行建模。虽然三维仿真利用物理引擎生成合理的结果,但重建的初始位姿包含不可避免的误差。如果初始姿态错误,3D模拟最终会生成一系列具有更多错误的姿态。在视觉上,我们可以观察到初始姿势和手腕轨迹的不对准,如图5所示。此外,[5]容易受到身体错位的影响,因此通过3D基线生成的人不如我们的方法那么清晰。逐帧评估。为了进行定量评估,我们使用一组十个视频作为地面实况,并评估所生成的视频的保真度。表2报告了所有方法的平均LPIPS [35]、FID [10]和FVD[30LPIPS和FID通常捕获两个图像之间的相似性,并且FVD考虑生成视频的时间相干性。我们的方法在所有指标上都优于基线,这与用户研究的结果一致。图6:根据两次消融评价动态模型:(1)无数据增强和(2)单步预测。x轴:步长,y轴:每步平均关键点L2误差。最好用彩色观看。其他比较。除了3D模拟,我们还将我们的模型与更复杂的3D方法SfV进行了比较[24]。给定录制的人类视频,SfV使物理模拟的3D角色能够模仿视频中的运动。请注意,我们不将SfV视为基线,因为SfV将整个地面实况视频作为输入,并且需要为每个视频训练RL模型以获得最佳性能,而我们的方法仅需要第一帧和手腕运动作为输入,并且对所有视频使用相同的学习模型。在推断运动之后,3D仿真,SfV和我们的方法使用相同的真实感生成器生成所需的视频。因此,我们可以使用生成的2D关键点的准确度来比较生成的运动的保真度。表3报告了从Human 3.6M数据集[11]投影的2D关键点与通过不同方法生成的关键点之间的距离1和2我们的方法在这两个指标上都优于比较的3D方法。虽然SfV可以很好地模仿目标运动,跟踪精度比我们的方法差。我们还在类人机器人上添加了外力,看看3D方法如何抵抗扰动。我们进行HMMR [13]来预测地面实况视频的3D运动,并使用PD控制器通过正向模拟来跟踪地面实况运动。在扰动过程中,我们沿着人形机器人的骨盆施加一个力。PD控制器Hao等[9]第俄罗斯联3D模拟仿真我们936输入t=25t=50图7:我们的方法跟踪两个不同的用户绘制的轨迹的结果。最左边:输入图像和两个输入手腕轨迹(绿色);其余列显示叠加在合成帧顶部的合成手腕位置的轨迹(红色)上图:Chan等人制作的视频。[5];底部:由Men等人生成的视频。[20 ]第20段。最好用彩色观看。输入t=10t=20图8:我们的方法达到用户指定的两个不同目标手腕位置的结果在输入图像中,目标手腕位置用绿色圆圈标记;我们显示了t=10和t=20时的合成帧,演示了受试者如何到达目标。上图:Chan等人制作的视频 [5];底部:由Men等人生成的视频。[20 ]第20段。最好用彩色观看。会迫使智能体回到扰动后的轨道表3示出了地面实况关键点与通过具有扰动的不同方法生成的关键点之间的结果我们的方法生成更准确的姿态,因为3D模拟不能很好地从扰动中恢复,并且SfV在扰动后无法精确地跟踪轨迹。图5直观地比较了它们4.3. 消融研究我们比较了两个消融的动态模型(1) 无数据增强:动态模型仅在mocap数据集中提供的力上进行训练,没有数据增强。输入t=20t=50图9:人在跟踪用户指定的轨迹时从推中恢复。目标轨迹以(绿色)显示,合成手腕位置的轨迹以(红色)显示在t=20时,对腰部施加脉冲扭矩,这导致人旋转。最好用彩色观看。输入t=10t=20图10:力控制。从t=10到t=20,手臂被动地响应重力下降。(2)单步预测:RNN被替换为MLP,该MLP接受来自上一步的2D姿态和2D偏移,并预测下一步的2D偏移。我们在三个设置上评估模型(1)合成:如第4.1节所述的增强数据。这测试了动态模型在面对高度扰动的扭矩时的泛化能力,类似于政策培训的情况(2) mocap:原始mocap数据,测试导致常规运动的扭矩性能;(3)空闲:从运动捕捉数据的姿态开始,但是在每一步施加零扭矩。这测试的行为时,人是由重力驱动每50步绘制一次评估轨迹图6显示了结果。我们的动态模型在所有三种设置上都实现了最低的预测误差。结果表明,扩大力的覆盖范围和包含历史信息都提高了模型的鲁棒性。4.4. 应用互动照片。用户可以在图像上绘制轨迹或指定点作为人的手腕的目标虽然只提供手腕的目标,但我们的跟踪策略能够为整个上身生成自然的图7显示了跟踪任务的结果,图8演示了到达任务。用户还可以推动图像中的人,并且看到人对推动做出响应并从扰动中恢复图9示出了在遵循本发明的实施例的同时,人被围绕腰部区域的突然推压所干扰的示例。937输入t=10t=20图11:重定向。顶部:源主题的输入图像底部:指定重定目标姿势的输入图像。输入t=25t=50图12:全身追踪任务的结果。最左侧的图像显示了输入关键点和四个用户指定的手腕和脚踝轨迹(绿色)。其他图像显示了合成的手腕和脚踝位置(红色)的轨迹覆盖在合成帧的顶部。最好用彩色观看。跟踪政策。脉冲从t=20施加到t=30。强制控制。在这个场景中没有指定目标,因此这个人被动地对重力和外力做出反应。图10显示,这个人逐渐放下她,由于重力的作用生成的运动与我们的物理直觉一致。更多的结果可以在补充材料中找到。重新定位。我们还可以通过将源2D姿势序列与目标生成器的比例和骨盆位置对齐,将一个主体的运动重定向到具有不同外观的其他主体全身控制。我们已经在一个小型的全身数据集上测试了我们的方法,方法是固定骨盆并释放其他关节。初步结果在定性上类似于仅限上层的模型(图12);然而,需要进一步调整奖励函数权重以实现类似的定量结果。进一步的评估和优化将留在未来的研究。5. 讨论我们提出了一种新的系统,PUBA,它允许用户生成逼真的和物理上合理的人类动物。通过使用直观的2D交互来控制图像中的人来生成信息。实验表明,我们的框架是高度灵活的,并产生更引人注目的动画相比,基线。重要的是,我们发现2D关键点已经提供了丰富的信息,并且可以通过3D扭矩直接有效地控制,从而消除了解决具有挑战性的3D姿态重建问题的需要。我们的方法不需要将3D mocap数据与2D图像对齐,大大简化了数据采集过程,并能够合成不同人的运动和外观。我们还表明,基于物理的角色动画可以成为一种有效的工具来合成训练数据,从而提高学习性能。我们的工作有局限性。当输入的状态-动作对与训练数据中的状态-动作对相差很大时,动态模型是不准确的。当手臂移动到训练数据稀疏的位置时,我们观察到一些骨骼拉伸伪影。数据扩充确实有帮助,但它有点依赖于任务。当训练不同类别的运动时,例如跳舞,策略可能仍然会访问动态模型表现不佳的状态-动作空间中的区域,从而导致次优的跳舞策略。训练一个处理图像空间中的平衡和与环境的物理交互的策略提出了许多有趣的研究挑战和应用。在我们的研究中,我们收集了两个人类亚组的视频,并使用了来自DeepFashion数据集的数据[18]。我们的研究被我们的机构视为IRB豁免,因为我们仅使用人类受试者数据作为注释,而不研究人类受试者本身。DeepFash-ion于2016年发布,被广泛使用,引用超过1,000次; DeepFashion的IRB批准情况,包括是否需要IRB,我们不清楚。我们选择使用该数据集,因为它被现有方法用于最先进的图像生成结果,这对于我们实验中的公平比较至关重要我们的研究具有许多潜在的积极社会影响,未来将应用于时尚行业,舞蹈,电脑游戏以及个人和家庭娱乐,个性化,物理上合理的化身。它还可用于残疾人康复的辅助技术,以及听力受损者的自动手语另一方面,像所有其他视觉内容生成方法一样,我们的方法可能会被恶意用户利用来生成虚假信息。因此,我们敦促我们的模型的用户意识到道德和社会问题,并以良好的意图应用它们。我们将使用水印等技术来识别和标记系统生成的视觉内容。致谢。这项工作得到了丰田研究所(TRI)、斯坦福大学以人为本的人工智能研究所(HAI)、三星和亚马逊的部分支持。938引用[1] Guha Balakrishnan,Amy Zhao,Adrian V Dalca,FredoDu- rand,and John Guttag.合成人类在看不见的姿势的图像。在IEEE计算机视觉和模式识别集,第8340[2] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh。再生甘:无监督视频重定向。在欧洲计算机视觉会议论文集,第119-135页[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl:由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议论文集,第561-578页。施普林格,2016年。[4] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。IEEE Transactions on Pattern Analysis and MachineIntelligence,43(1):172[5] Caroline Chan , Shiry Ginosar , Tinghui Zhou , andAlexei A Efros.大家跳舞吧在IEEE/CVF计算机视觉国际会议论文集,第5933-5942页[6] Junyoung Chung,Caglar Gulcehre,Kyunghyun Cho,and Yoshua Bengio.门控递归神经网络在序列建模中的实证评估在NIPS 2014深度学习研讨会,2014年月,2014年。[7] Abe Davis,Justin G Chen,and Frédo Durand.视频中对象的合理操作的图像空间模态基。ACM Transactions onGraphics,34(6):1[8] 帕特里克·埃塞尔叶卡捷琳娜·萨特和比约恩·奥默用于条件外观和形状生成的变分u-网在IEEE计算机视觉和模式识别会议论文集,第8857-8866页[9] 郝泽坤,黄勋,和Serge Belongie。具有稀疏轨迹的可控视频生成。 在IEEE计算机视觉和模式识别会议论文集,2018。[10] Martin Heusel,Hubert Ramsauer,Thomas Unterthiner,Bern-hard Nessler,and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展,30,2017。[11] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. 人类3。6m:大规模数据集和预测方 法 , 用 于 自 然 环 境 中 的 三 维 人 体 感 知 。 IEEEtransactionsonPatternAnalysisandMachineIntelligence,36(7):1325[12] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集,第7122-7131页[13] 作者:Jason Y.张,潘纳·费尔森,和吉滕德拉·马利克.从视频中学习三维人体动力学。在IEEE/CVF计算机视觉和模式识别会议论文集,2019年。[14] Nikos Kolotouros,Georgios Pavlakos,Michael J Black,and Kostas Daniilidis.学习通过循环中的模型拟合重建3d人体姿势和形状。在IEEE/CVF计算机视觉国际会议论文集,第2252-2261页[15] 李子墨、易舟、萧双九、冲和、曾晃、李浩。用于扩展的复杂人体运动合成的自动调节递归网络。arXiv预印本arXiv:1707.05363,2017。[16] Lingjie Liu , Weipeng Xu , Michael Zollhoefer ,Hyeongwoo Kim,Florian Bernard,Marc Habermann,Wenping Wang,and Christian Theobalt.人类演员视频的神经渲染和重演。ACM Transactions on Graphics,38(5):1[17] Wen Liu , Zhixin Piao , Jie Min , Wenhan Luo , LinMa,and Shenghua Gao.液体翘曲GaN:一个统一的框架,人体运动模仿,外观转移和新的看法合成。在IEEE计算机视觉国际会议论文集,第5904-5913页[18] Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,andXiaoou Tang. Deepfashion:通过丰富的注释实现强大的服装识别在IEEE计算机视觉和模式识别会议论文集,第1096-1104页[19] Matthew Loper 、 Naureen Mahmood 、 Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl:一个有皮肤的多 人线 性模 型。 ACM transactions on graphics ,34(6):1[20] Yifang Men ,Yiming Mao ,Yunning Jiang ,Wei-YingMa,and Zhouhui Lian.基于属性分解的可控人物图像合成。在IEEE计算机视觉和模式识别会议集,2020年。[21] Matthias Minderer,Chen Sun,Ruben Villegas,ForresterCole,Kevin P Murphy,and Honglak Lee.从视频中无监督学习对象结构和动态在神经信息处理系统的进展,第92[22] Natalia Neverova,Riza Alp Guler,and Iasonas Kokkinos.密集姿势转移。在欧洲计算机视觉会议论文集,第123-138页[23] Xue Bin Peng , Pieter Abbeel , Sergey Levine , andMichiel van de Panne. Deepmimic:示例引导的基于物理的角色技能的深度强化学习。ACM Trans-actions onGraphics,37(4):1[24] Xue Bin Peng,Angjoo Kanazawa,Jitendra Malik,PieterAbbeel,and Sergey Levine. Sfv:从视频中强化学习身体技能ACM Transactions On Graphics,37(6):1[25] Yurui Ren ,Xiaoming Yu ,Junming Chen , Thomas HLi,and Ge Li.用于人物图像生成的深度图像空间变换。在IEEE/CVF计算机视觉和模式识别集,第7690[26] John Schulman,Filip Wolski,Prafulla Dhariwal,AlecRad-ford,and Oleg Klimov.邻近策略优化算法。arXiv预印本arXiv:1707.06347,2017。[27] Soshi Shimada,Vladislav Golyanik,Weipeng Xu,andChris-tian Theobalt.Physcap:物理上合理的单眼3D939实 时 动 作 捕 捉 ACM Transactions on Graphics , 39(6):1[28] Aliaksandr Siarohin 、 Stéphane Lathuilière 、 SergeyTulyakov、Elisa Ricci和Nicu Sebe。 通过深度运动转移对任意对象进行动画处理。在IEEE/CVF计算机视觉和模式识别会议论文集,第2377-2386页[29] Aliaksandr Siarohin 、 Stéphane Lathuilière 、 SergeyTulyakov、Elisa Ricci和Nicu Sebe。图像动画的一阶运动模型神经信息处理系统的进展,第32卷,第7137-7147页,2019年[30] Thomas Unterthiner , Sjoerd van Steenkiste , KarolKurach , Raphael Marinier , Marcin Michalski , andSylvain Gelly.为了准确的视频生成模型:新的度量&挑战。arXiv预印本arXiv:1812.01717,2018。[31] Kevin Xie,Tingw
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功