不监督视频运动重定向的轻量级方法：TransMoMo

62 浏览量更新于2023-10-23 收藏 2.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5306TransMoMo：不变性驱动的无监督视频运动重定向杨卓谦1朱文涛2吴文艳（Wayne）3吴陈谦4周强3周博磊5陈变来61卡内基梅隆大学机器人研究所2北京大学3清华大学4商汤科技5香港中文大学6南洋理工大学zhuoqiay@cs.cmu.eduwtzhu@pku.edu.cnwwy15@mails.tsinghua.edu.cnqianchen@sensetime.comzhouqiang@tsinghua.edu.cnbzhou@ie.cuhk.edu.hkccloy@ntu.edu.sg图1：运动重定向。来自源视频（第一行）的移动被转移到目标外观（第二行）。摘要我们提出了一个轻量级的视频运动重定向AP-能够将源视频中人物的运动逼真地转移到目标人物的另一个视频中的方法TransMoMo（图1）。在不使用任何成对数据进行监督的情况下，所提出的方法可以通过利用包括运动、结构和视角的三个正交变化因素的不变性来以无监督的方式进行训练。具体而言，通过基于不变性仔细推导的损失函数，我们训练自动编码器来在给定源和目标视频剪辑的情况下解开这些因素的潜在表示。这允许我们选择性地将从源视频中提取的运动无缝地传输到目标视频，而不管源和目标之间的结构和视角差异配对数据的宽松假设允许我们的方法在大量视频上进行训练，而无需手动注释源-目标配对，从而提高了对视频中大的结构变化和极端运动的鲁棒性。我们证明了我们的方法优于最先进的方法，如NKN [39]，EDN [7]和LCM [3]。代码、模型和数据在我们的项目页面上公开。1*同等缴款。1https://yzhq97.github.io/transmomo1. 介绍让让David Bowie《Let一个业余舞者能立即学会如何像专业舞者一样跳不同风格的舞吗？探戈，锁定，萨尔萨，和康巴？虽然这在现实中几乎是不可能的，但现在可以通过运动重定向来虚拟地实现这一点-将以专业舞者为特征的源视频的运动转移到他/她自己的目标视频。运动重定向是计算机视觉和图形学中的一个新兴话题，大多数现有方法[39，27，29]通过高质量3D姿态估计或重建[10]实现运动重定向。这些方法要么需要复杂且昂贵的优化，要么在给定包含复杂运动的无约束视频的情况下容易出错。最近，还做出了一些努力来在2D空间中重定位运动[3，7，23]。基于图像的方法[15，5]在条件人物生成方面获得了令人信服的结果。然而，这些方法往往忽略了视频的时间相干性，从而产生闪烁效果.基于视频的方法[42，7，3]显示了最先进的结果。然而，在这方面，5307对两个个体之间的差异考虑不足[42，7]或对合成数据的训练限制[3]使得它们的结果在遇到网络视频中的大结构变化或极端运动时急剧恶化。在这项研究中，我们的目标是通过一个端到端的可学习的框架在2D空间中解决视频运动重定向，通过-通过需要明确估计的3D人体姿势。尽管最近在生成框架和运动合成方面取得了进展，但由于以下问题，在2D空间中学习运动重定向仍然具有挑战性：1）考虑到源视频和目标视频之间的大的结构和视角变化，难以在像素级学习直接的人到人映射。传统的图像到图像转换方法倾向于在极端条件下产生不自然的运动或在看不见的例子上失败; 2）没有执行相同运动的两个不同子帧的对应图像对可用于监督这种转换的学习; 3）人体运动具有高度的关节性和复杂性，因此进行运动建模和传递具有挑战性。为了解决第一个挑战，而不是在像素级执行直接的视频到视频转换，我们将转换过程分解为三个步骤，如图所示。2，即，骨架提取，运动重定向上的视频和视频渲染。分解允许我们专注于使用骨架序列作为输入和输出空间的运动重定向的核心问题为了应对第二和第三个挑战，我们利用三个因素的不变性：运动、结构和视角。这些变化因素被强制为彼此独立，当其他因素变化时保持不变。具体地，1）尽管有结构和视角扰动，运动应该是不变的，2）尽管有视角扰动，一个骨架序列的结构应该在时间上一致并且不变，以及3）尽管有结构扰动，一个骨架序列的视角不变性属性允许我们导出一组纯粹无监督的损失函数来训练自动编码器，用于将骨架序列解开成运动、结构和视角的给出解纠缠表示，人们可以容易地混合来自不同骨架序列的运动和结构的潜在代码用于运动重定向。以不同的视角作为解码条件，可以在新的视角下产生重定向运动由于运动重定向是在2D骨架空间上执行的，因此可以将其视为一个轻量级的即插即用模块，它是对现有骨架提取的补充[6，4，33，46]，视频到视频渲染方法[7，42，41]。有几项现有的研究设计用于视频中的一般表示解纠缠[20，38，13]。虽然这些方法在CON上显示出令人印象深刻的结果紧张的场景由于人体的高度非线性和复杂的运动学结构，使得人体关节运动的建模比较困难。相反，我们的方法是专门为人类视频中的表示解纠缠而设计的。我们将我们的贡献总结如下：1）提出了一种新的基于2D骨架空间的运动重定向网络，该网络可以用未标记的Web数据进行端到端的训练。2)我们引入了新的损失函数的基础上invari-ance赋予拟议的网络与disentangle表示在一个纯粹的无监督的方式的能力3）大量的实验证明了我们的方法优于其他最先进的方法[7，3，39]的有效性，特别是在运动复杂的野外场景下2. 相关工作视频运动重定向。Hodgins和Pollard [19]提出了一种控制系统参数缩放算法，以使模拟运动适应新角色。Lee和Shin [26]将问题分解为帧间约束和帧内关系，并分别用逆运动学问题和B样条曲线建模。Choi和Ko [11]提出了一种基于反向速率控制的实时方法，该方法计算关节角度的变化。Tak和Ko [36]提出了一种每帧过滤器框架，以生成物理上合理的运动序列。最近，Ville- gaset al.[39]设计了一个带有Forward Kinetics层的递归神经网络然而，上述方法的待动画化的目标通常是铰接的虚拟角色，并且它们的结果关键地取决于3D姿态估计的精度。最近，Abermanet al. [3]提出在2D空间中重定向运动。然而，由于它们的训练依赖于合成配对数据，因此在无约束的情况下，性能可能会下降。相反，我们的方法可以在纯未标记的Web数据上进行训练，这使得该方法对于具有挑战性的野外运动传输任务具有鲁棒性。存在解决视频运动重定向问题的一些尝试。Liu等[27]设计了一种新颖的GAN [16]架构，具有精心设计的网络和更好的调节输入。然而，该方法依赖于目标人的3D重建Aberman等人[2]建议在两个分支框架中解决视频驱动的性能Chan等人[7]提出了一种简单而有效的方法来获得时间相干的视频结果。Wang等人[42]取得了与Chan等人类似的结果。具有更复杂的形状表示和时间建模。然而，当两个个体之间发生大的变化时，所有这些方法的性能都会急剧下降，而没有考虑[2，41，42]或简单的重新缩放[7]来解决身体问题5308−45°编码源视频源骨架震源参数0°解码编码已验证参数45°目标视频目标骨架目标参数重定向骨架重定向视频结构运动视角的结构运动视角的结构运动视角的骨架提取视频渲染运动重定向网络图2：运动重定向流水线我们的方法分三个阶段实现运动重定向。 1. 骨骼提取：2D身体关节使用现成的模型从源和目标视频中提取。2. 运动重定向网络：我们的模型分解关节序列并重组元素以生成新的关节序列，可以在任何期望的视角下查看。3.视频到视频渲染：使用输出关节序列渲染重定向视频，并使用可用的图像到图像转换方法。变化.无监督表示解纠缠。那里是一个庞大的文献[25，28，21，34，45，44]解开变异的因素。双线性模型[37]是一种早期的方法，用于分离人脸图像和各种字体文本的内容和风格最近，InfoGAN [9]学习了一种基于生成对抗网络（GAN）的具有解纠缠因子的生成模型。β-VAE [18]和DIP- VAE [24]建立在变分自动编码器（VAE）的基础上，以无监督的方式解开可解释的因素。其他方法探索用于从视频学习解纠缠表示的一般方法。Whitney等[43]使用门控原理来鼓励潜在表征的每个维度捕捉不同的变化模式。Villegas等人[40]使用无监督的方法将视频分解为内容和动作。Den- ton等[13]提出利用视频的时间相干性和新颖的对抗性损失来学习分解表示。MoCoGAN [38]采用无监督对抗训练来学习运动和内容的分离。Hsieh等人[20]提出了一个自动编码器框架，它结合了结构化的概率模型和深度网络来进行解纠缠。然而，这些方法的性能在人类视频上并不令人满意，因为它们不是专门为高度铰接和复杂的对象的解纠缠而设计的人的生成。各种机器学习算法已被用于生成逼真的人物图像。生成过程可以有条件地由关键点[5，30]和样式代码[31，15，12]指导。我们的方法是对基于图像的人物生成方法的补充，并且可以进一步提高它们的时间相干性，因为它仅在2D骨架空间上执行运动重定向3. 方法如示于图2、将翻译过程分解为三个步骤，即：骨架提取、运动重定向和视频渲染。在我们的框架中，运动重定向是我们引入核心贡献的最重要的组成部分（即，不变性驱动的解纠缠）。骨架提取和图像到视频渲染是可替换的，因此可以受益于2D关键点估计[4，6，46]和图像到图像转换[22，42，41]的最新进展。运动重定向网络将2D关节输入序列分解为表示演员的运动的运动代码、表示演员的身体形状的结构代码和表示相机角度的视角代码解码器采用潜码的任意组合并产生重建的3D关节序列，该序列自动将视图与运动和结构分离。为了将运动从源视频传输到目标视频，我们首先使用现成的2D关键点检测器从视频中提取关节序列。通过结合从源序列编码的运动代码和从目标序列编码的结构代码，我们的模型然后产生一个传输的3D联合序列。然后将传输的序列以任何期望的视角投影回2D。最后，我们将2D联合序列逐帧转换为像素级表示，即，标记映射。这些标签映射被馈送到预先训练的图像到图像生成器中以渲染传输的视频。3.1. 运动重定向网络在这里，我们详细介绍了输入序列x ∈ R T×2N的编码器和解码器，其中T是序列的长度，N是身体关节的数量。运动编码器使用一维的几个层53092图3：肢体缩放过程。我们展示了从根关节（骨盆）开始的关节序列x上的逐步肢体缩放过程。在每一步中，缩放的肢体都以红色高亮显示。该示例使用相同的因子γi= 2缩放所有肢体，但是缩放因子在训练时随机生成。用于提取运动信息的空间时间卷积：em（x）=m∈RM×Cm，其中M是编码后的序列长度，Cm是信道数。注意，运动码m在长度上是可变的，以便保留时间信息。The structure encoder has a similar network structureEs(x) = s ∈ RM×Cs , with the difference that the finalstructure code is obtained after a temporal max pooling:图4：旋转作为视图扰动。该图示出了获取输入的2D序列x、使用我们的运动重定位网络重建3D序列X、并投影到它回到2D，旋转作为视角扰动。如图3所示。它是以这样一种方式完成的，即所创建的序列实际上是由不同的演员执行的相同动作肢体的长度在所有帧中以相同的比例延伸/缩短，因此肢体缩放不会在运动和身体结构之间引入模糊性。具体地，通过逐帧地应用肢体缩放函数来创建肢体缩放序列x'。E<$s（x）=<$s=maxpool（s），因此<$s∈Rs。Ef fec-′或者，获得结构代码的过程可以被解释为在滑动窗口中执行多个体型估计：E s（x）=[s1，s2，.，[1]，然后对估计进行汇总。假设观点也是静止（即，所有的时间变化都是由演员的动作引起的），视觉码E<$v（x）=v<$∈RCv的获得方法与我们获得结构码的方法相同。frame：Xt = δ（Xt; γ，γ g），其中Xt是输入序列中的第t帧，δ是肢体缩放函数，γ =[γ1，γ2，. ]是局部缩放因子，γg是全局缩放因子。托尔将人体骨骼建模为树，将关节建模为节点，将骨盆关节定义为根。对于序列中的每个帧，从根开始，我们递归地移动关节及其所有从属关节（子节点），通过距离（γi−1）L（t）确定肢体的方向，其中L（t）为解码器将运动、身体和视图代码作为i i输入并通过卷积层重构出与编码器对称的三维连续序列G（m，<$s，v<$）=X∈RT×3N。我们的脑脊髓炎是一个暂时的骗局-类似于我们的运动编码器的渐进网络D（x）∈RM.第t帧中肢体的原始长度在应用了所有局部比例因子之后，将全局比例因子γg直接乘以所有关节坐标。3D旋转作为视图扰动。设φ为旋转投影函数，即对于3D坐标p =[x y z]T：3.2. 不变性驱动的退纠缠运动，结构和视图的解纠缠是利用这些因素φ（p，θ;n）=ΣR11（n，θ）R12（n，θ）R13（n，θ）R21（n，θ）R22（n，θ）R~（23）（n，θ）Σx阿夫里z其他两个人的变化我们设计了损失项来限制增加扰动时的变化，而整个网络试图从分解的特征中重建联合序列。通过肢体缩放添加结构扰动，即手动缩短或延长肢体的长度。通过旋转重建的3D序列并将其投影回2D来引入视图扰动由于运动本身随时间变化，因此不需要明确地添加运动扰动。我们首先描述的方式扰动添加，然后详细R（n，θ）∈SO3是用Rodrigues旋转公式得到的旋转矩阵，n是表示旋转轴的单位向量。实际上，n是身体的估计垂直方向。它是我们计算出来的-四点：左肩、右肩、左骨盆和右骨盆。注意φ（p，θ）关于p是可微的。如图4中，我们从重建的3D序列X**创建几个旋转序列：损失术语的定义源自三个不一致，即，运动、结构和视角不变性。作为结构扰动的肢标度。为了一个-x（k）=φ（X，kK+ 1π），k = 1，2，.，K设二维序列x∈RT×2N，通过延长或缩短分支，K是投影数。本章后面将描述强制解除纠缠的损失项.XtX1四肢刮除过程。t1时间X t四肢刮除过程。x′2不= 1、2、. -是的- 是的、Max池Max池（��）（Max池̂��（��（最大值（mm）池̂��̂ （）53101221122t1.Σt2得双曲余切值.m s v03.2.2结构不变性身体结构应该在时间和不变视角扰动下保持一致。三重丢失。增加三重态损失是为了利用体结构的时不变性质，从而更好地实施解纠缠。回想一下，身体编码器产生多个身体结构估计Es（x）=[第1条，第2条，...，sM]，E s（x′）=[s′，s′，. s′]求平均值前1 2M他们三重损失被设计成映射来自相同的序列到一个小的邻域，同时使来自不同序列的估计疏远。让我们定义一个单独的三重损失项：图5：交叉重建过程。该图示出了使用2D输入序列xτ（st，st，s′）=max 0，s（st，s′）−s（st，st）+m，和它的边标度变量x′。3.2.1运动不变性（四）其中，s（·，·）表示余弦相似性函数，并且m=0的情况。2是我们的底线。结构不变性的总三重态损失定义为：运动应该是不变的，尽管结构和视图-角扰动为此，我们设计了以下损失条款。交叉重建损失。回想一下，我们使用肢体缩放来获得由以下人员执行的相同运动的数据：Ltrip s=其中t11ΣΣ2Mt1， t2t2.τ（st1，st2′）+τ（s′′Σt2t2）、（五）“different” actors 我们交叉重建两个序列，如图所示。五、交叉重构涉及编码、交换和解码，即：旋转不变性损失。这个信号是为了确保结构码对旋转是不变的：1克朗。.L=. E<$（x）−E<$（x）<$（k）。（六）′Σ′¯ ¯ Σ投资KC。Ss）的情况。、x=φG（Em（x），Es（x），Ev（x）），0si=1x′′=φ G（E（x），E′（x′），E′（x′）），n，其中x∈（k）是第k个旋转变量。其中x′是x的肢体缩放版本。由于x和x′有相同的运动，我们期望x′与x相同，x′′与x相同。因此，交叉重建损耗被定义为：3.2.3视角不变性一个骨架序列的视角应该是一致的，通过时间不变，尽管结构扰动。Lcrs=12新台币.1|x−x′|+的2Σ1|x′−x′′|2.（一）三重丢失。类似地，三重丢失被设计为将来自相同序列的视图估计映射到小邻域，同时疏远来自旋转序列的估计。结构不变性损失这个信号是为了确保继续使用等式（1）中的三元组项的定义。第四章：运动代码对于结构变化是不变的。X1ΣΣ（k）（k）Σ（k）和x'具有相同的运动，但不同的身体结构，因此我们期望运动编码器具有相同的L跳闸=2MK k，t1，t2τ（vt1，vt2，vt2）+τ（vt1，vt2，vt2），（七）（s）inv m1= MCm |Em(x)−Em （x′）|-是的（二）其中v（k）=E<$v（x<$（k）），t1/=t2。结构不变性损失这个信号是为了确保视图代码对结构变化是不变的：1 .一、 "。旋转不变性损失。同样，为了确保Linv v=v. E v（x）−E v（x）. 、（8）运动代码对于旋转是不变的，我们添加：其中x′是x的肢体缩放版本。（v）inv mMax池Max池̂ ′（̂′肢体规模��′Max池��′（′̂ ′′̂′′Max池��′得双曲余切值.得双曲余切值.LLC=5311）的情况。、1KMCK. ..mk=1m（x）−Em.（x）（k）.（三）3.2.4培训正规化上述定义的损失术语旨在强制执行disen-其中x∈（k）是第k个旋转变量。纠缠除此之外，还需要一些基本的损失术语EΣ5312..for this representation表征learning学习process处理.重建损失。重建数据是自动编码器的基本功能。回想一下，我们的解码器输出重建的3D序列。我们的重建损失最大限度地减少了真实数据和3D重建投影回2D之间的差异L=1。.（九）rec2新台币。x−φ（X，0）. 、即我们期待X与输入x相同，直接从X坐标中取出z坐标。对抗性损失。从关节序列中无监督地恢复三维运动是通过对抗训练来实现的。旋转重建的3D关节序列并被投影回2D，并且使用一个阈值来测量投影的2D序列和真实的2D序列之间的域差异。利用对抗性学习从2D坐标重新覆盖静态3D人体姿势的可行性已经在几项工作中得到验证[35，14，8，32]。我们需要重建的三维序列在我们旋转它并将其投影回2D后因此，对抗性损失被定义为。图6：运动重定向结果。从上到下：输入源帧，提取源骨架，变换骨架，生成帧。Ladv=1ΣKExpx[logD（x）+1log（1−D（x（k）]4.2. 表示解纠缠K22k=13.2.5全损（十）我们在野外的无约束视频上训练模型我们测试了运动retargeting- geting，新颖的看法合成和潜在的空间插值所提出的运动重定向网络可以训练端到端，上面定义的损失项的加权和：L=λrecLrec+λcrsLcrs+λadvLadv+λtrip（Ltrip s+Ltrip v）以证明拟议管道的有效性。运动重定向。我们从源骨架序列中提取所需的运动，然后将运动重定向到目标人。互联网上的视频+λinv（s）inv m（v）inv m+Linv s +Linvv）在图1所示的车身结构中，六、比如说，Spider--男人的腿很长，而孩子的腿很短我们4. 实验4.1. 设置实作详细数据。我们在合成Mixamo数据集[1]上执行所提出的训练管道，以进行定量误差测量和公平比较。对于野外训练，我们从在线视频中收集了一个名为Solo- Dancer的运动数据集。对于视频到视频渲染，我们记录了5个目标视频，并使用[7]中提出的合成流水线。所有运动重定向方法都共享训练的生成器。评估指标。我们对骨架和视频的运动重定向质量进行了评估，因为骨架上的重定向结果将在很大程度上影响生成视频的质量对于骨架关键点，我们使用均方误差（MSE）作为度量标准对Mixamo的保留测试集（具有可用的地面真实值）进行评估。对于生成的视频，我们使用FID评分[17]和用户研究来评估帧的质量。无论源和目标之间的结构间隙有多大，该方法都能够精确地生成具有与目标人相同的身体结构的骨架序列，同时保留来自源人的运动小说视角合成。我们可以在3D空间中显式地操纵解码骨架的视图，在将其投影到2D之前旋转它。我们在图中显示了一个例子。7 .第一次会议。这使我们能够在任何期望的视角看到运动传输的视频潜空间插值。所学习的潜在表征在插值时是有意义的，如图所示。8.运动和身体结构都平滑地变化之间的视频，证明了我们的模型在捕捉一个合理的覆盖面的歧管的有效性。4.3. 与最新技术水平方法的比较我们比较了我们的方法与以下方法（包括一个直观的方法和三个国家的最先进的方法）的运动重定向结果定量和（L+L15313图7：新视图合成结果。第一行显示生成的骨架的连续旋转，第二行显示相应的渲染结果。图8：潜在空间插值结果。线性插值测试身体结构（水平轴）和运动（垂直轴）。表1：定量结果。MSE和MAE是在Mixamo上测量的关节位置误差，以原始比例报告。数据FID测量渲染图像的质量。用户评估源视频和生成视频之间的一致性。我们分别报告了喜欢我们的模型和我们的野外训练模型的用户百分比。方法MSEMaeFID用户User（wild）LN0.08860.161648.3781.7%百分之八十二点九NKN [39]0.01980.078167.3284.5%86.3%EDN [7]0.11860.202240.56百分之七十五点二百分之七十七点一LCM [3]0.01510.074937.1568.5%71.6%我们0.01310.067331.26--野生（Wild）0.01210.062731.29--定性地。1)肢体规格化是一种直观的方法，可计算每个肢体的比例因子并应用局部规格化。2)神经运动学网络（NKN）[39]使用检测到的3D关键点进行无监督运动重定向。3)Everybody Dance Now（EDN）[7]在所有关键点上应用全局线性变换。4)学习不可知运动（LCM）[3]以完全监督的方式在2D空间执行解纠缠为了比较的公平性，我们在统一的Mixamo数据集上训练和测试所有模型，但请注意，我们的模型使用较少的信息进行训练，既不使用3D信息[39]，也不使用运动和运动之间的配对[3]。此外，我们只使用野外数据训练一个单独的模型。所有的方法都用上述的评价指标进行了评价。我们的方法优于所有的比较方法在数值关节位置误差和生成的图像质量。EDN和LN是基于规则的朴素方法，前者不估计身体结构，后者在演员不直接面对镜头时必然失败。尽管NKN能够在合成数据集上以很小的误差传递运动，但由于3D姿态估计的不可靠性，它在野外数据上受到影响LCM是用有限的特征集训练的，因此其泛化能力有限.相比之下，我们的方法使用肢体缩放来增强训练数据，在连续空间中探索所有可能的身体结构值得注意的是，我们的方法可以在以前的方法无法实现的任意Web数据上进行训练。事实上，该模型是在野外数据上训练的（即，Solo-Dancer Dataset）实现了最低的误差（表1），证明了在野外数据上训练的好处。对于复杂的运动，如图1所示。10，从野生数据学习的模型表现更好，因为野生数据具有更大的运动多样性。这些结果显示了我们的方法在从无限真实世界数据中学习方面的优越性，而监督方法依赖于难以扩展的严格总之，我们将我们的方法的优越性能归因于以下原因：1）我们的解纠缠直接在2D空间中执行，这避免了从野外视频中检测3D关键点的不精确过程。2)我们的显式不变性驱动损失项最大限度地利用了训练数据中包含的信息，与隐式无监督方法相比，数据效率大大提高[39]。3)我们的肢体缩放机制提高了模型4）与Mixamo [1]等合成数据集中的有限运动相比，野外视频提供了无限的运动来源5314来源目标我们的LCM NKN EDN LN图9：与最先进方法的定性比较。右侧的每列表示一种运动重定目标方法。来源Ours Ours（野生）模型是通过消除对抗性损失来创建的。去除交叉重建损失对我们模型的2D重定向性能具有最不利的影响，MSE加倍证明了这一点。消除三重态损失MSE增加了约16%。虽然去除对抗性损失不会显著影响我们模型的2D重定向性能，但旋转序列在没有它的情况下看起来不那么自然。5. 结论图10：我们在野外训练的模型的结果。分别在Mixamo和Solo-Dancer上对用我们的方法训练的模型进行了定性比较。第一列给出了两个往复运动源，其他列给出了相应的结果。表2：消融研究结果。方法无crs无跳闸不带副词我们的（满）MSE0.03920.01540.01360.0131Mae0.12590.07080.06820.06734.4. 消融研究我们训练一些消融模型来研究单个损失项的影响结果示于表2中。我们设计了三种烧蚀模型。通过消除交叉重建损失建立了w/o crsW/O跳闸模型是通过消除三重态损失而建立的。W/O ADV在这项工作中，我们提出了一种新的视频运动重定位方法，在该方法中，运动可以成功地转移的情况下，大的变化的身体结构之间存在的源和目标人。所提出的运动重定向网络仅在2D骨架输入上运行，使其成为轻量级和即插即用的模块，这是对现有骨架提取和骨架到视频渲染方法的补充。利用时间序列中的三个固有的方差特性，所提出的网络可以端到端地使用未标记的Web数据进行训练我们的实验证明了我们的方法和不变性驱动的约束的有效性有前途的结果。谢谢。这项工作得到了SenseTime-NTU协作项目、新加坡 MoE AcRF Tier 1 （ 2018-T1-002-056 ）、 NTUSUG和NTU的NAP。我们要感谢周廷辉、吴润迪和林宽义，感谢他们富有洞察力的讨论和他们的支持。5315引用[1] 米萨莫https://www.mixamo.com/网站。六、七[2] KfirAberman ， MingyiShi ， JingLiao ， DaniLischinski，Bao-quan Chen，and Daniel Cohen-Or.基于深度视频的表演克隆。Comput. Graph. Forum，38：219-233，2019. 2[3] Kfir Aberman ，Rundi Wu ， Dani Lischinski ，BaoquanChen，and Daniel Cohen-Or.在2d中学习用于运动重定向的与角色无关的运动。ACM事务处理图表，38（4）：75：1-75：14，2019. 一、二、七[4] RızaAlpGuéler，Na taliaN ev er ov a，andIasonasKokkinos. 密度：野外密集的人体姿势估计。在CVPR中，第7297-7306页，2018年。二、三[5] 放大图片作者：GuhaBalakrishnan，AmyZhao，AdrianV.Dalca、Fre´doDu-rand和John V.Guttag. 合成人类在看不见的姿势的图像在CVPR，2018年。第1、3条[6] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部件亲和场进行实时多人2D姿态估计。在arXiv预印本arXiv：1812.08008，2018。二、三[7] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A.埃夫罗斯大家跳舞吧在ICCV，2019年。一、二、六、七[8] Ching-Hang Chen ， Ambrish Tyagi ， Amit Agrawal ，Dylan Drover，Stefan Stojanov，and James M Rehg.具有几何自监督的非监督3d姿态估计。在CVPR中，第5714-5724页，2019年。6[9] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。InNeurIPS，2016. 3[10] Xipeng Chen ， Kwan-Yee Lin ， Wentao Liu ， ChenQian，and Liang Lin.用于3d人体姿态估计的几何感知表示的弱监督发现在CVPR，2019年。1[11] Kwang-Jin Choi和Hyeong-Seok Ko。在线运动恢复。视觉化与计算机动画杂志，11：223-235，2000。2[12] 作者：王晓松，王晓松.Siddharth，and Philip H.S. 乇自然图像中人的条件深层生成模型。在WACV，第1449-1458页，2019年。3[13] 艾米莉湖丹顿和维格纳什·比罗德卡从视频中分离表示的无监督学习。NeurIPS，2017。二、三[14] Dylan Drover 、 Ching-Hang Chen 、 Amit Agrawal 、Ambrish Tyagi和Cong Dauchoc Huynh。3d姿势可以从2d投影中学习参见ECCV，第0-0页，2018年。6[15] Patr i ckEsse r，EkaterinaSutte r，andBjo nOmme r. 用于条件外观和形状生成的可变u-网在CVPR，2018年。第1、3条[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。2[17] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。65316[18] Irina Higgins、Loic Matthey、Arka Pal、ChristopherBurgess、Xavier Glorot、Matthew Botvinick、ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉概念。在ICLR，2017。3[19] 杰西卡·K Hodgins和Nancy S.波拉德为新角色调整模拟行为。在SIGGRAPH，1997中。2[20] Jun-Ting Hsieh，Bingbin Liu ，De-An Huang，Fei-Fei Li，and Juan Carlos Niebles.学习分解和解开视频预测的表示。NeurIPS，2018。二、三[21] Xun Huang，Ming-Yu Liu，Serge Belongie，and JanKautz.多模态无监督图像到图像翻译。在ECCV，2018。3[22] Phillip Isola ， Jun-Yan Zhu ， Tinghui Zhou ， andAlexei A Efros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。3[23] 朱东奎金多妍金俊模生成融合图像：一个人的身份和另一个人的形状。在CVPR，2018年。1[24] Abhishek Kumar ， Prasanna Sattigeri ， and AvinashBalakr- ishnan. 从未标记观测解纠缠潜在概念的变分推断在ICLR，2018年。3[25] Hsin-Ying Lee ， Hung-Yu Tseng ， Jia-Bin Huang ，Ma- neesh Kumar Singh，and Ming-Hsuan Yang.通过解缠表征实现多样化的在ECCV，2018。3[26] Jehee Lee和Sung Yong Shin。类人图形交互式运动编辑的层次化方法。在SIG中-GRAPH，1999年。2[27] Lingjie Liu ， Weipeng Xu ， Michael Zollhoefer ，HyeongwooKim，FlorianBernard，MarcHabermann，Wenping Wang，and Christian Theobalt.人类演员视频的神经渲染和重演。arXiv预印本，arXiv：1809.03658，2018。一、二[28] Ming-Yu Liu ， Xun Huang ， Arun Mallya ， TeroKarras，Timo Aila，Jaakko Lehtinen，and Jan Kautz.几个镜头的不精确的图像到图像的翻译。在ICCV，2019年。3[29] 刘文，马志新朴，闵杰，高胜华。液体翘曲GaN：一个统一的框架，人体运动模仿，外观转移和新的看法合成。在ICCV，2019年。1[30] 马丽倩、徐佳、孙倩茹、 Bernt Schiele 、 TinneTuyte- laars和Luc Van Gool。姿势引导的人物图像生成。NeurIPS，2017。3[31] Liqian Ma，Qianru Sun，Stamatios Georgoulis，LucVan Gool，Bernt Schiele，and Mario Fritz.分解的人物形象生成。在CVPR，2018年。3[32] Dario Pavllo ， Christoph Feichtenhofer ， DavidGrangier，and Michael Auli.利用时间卷积和半监督训练的视频中的3D人体姿态估计。在CVPR中，第7753-7762页，2019年。6[33] Xi Peng ， Zhiqiang Tang ， Fei Yang ， Rogerio SFeris，and Dimitris Metaxas.共同优化数据扩充和网络培训：人体姿态估计中的对抗性数据增强。在CVPR，2018年。2[34] ShengjuQian ， Kwan-YeeLin ， WayneWu ，Yangxiaokang Liu ， Quan Wang ， Fumin Shen ， ChenQian，and Ran He.5317做个鬼脸：走向任意高保真人脸操作。在ICCV，2019年。3[35] 瓦伦·罗摩克里希纳，卡纳德武夫，和亚瑟·谢赫。从二维图像界标重建三维人体姿态。ECCV，第573-586页，2012年。6[36] Seyoon Tak和Hyeong-Seok Ko。基于物理的运动重定向过滤器。ACM Trans.Graph. ，24：982[37] 约书亚湾作者声明：William T.弗里曼。用双线性模型分离风格和内容神经计算，12：1247-1283，2000。3[38] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. Mocogan：分解运动和内容以生成视频。在CVPR，2018年。二、三[39] Ruben Villegas ， Jimei Yang ， Duygu Ceylan ， andHonglak Lee.神经运动学网络用于无监督运动恢复。在CVPR，2018年。一、二、七[40] Ruben Villegas，Jimei Yang，Seunhoon Hong，XunyuLin，and Honglak Lee.用于自然视频序列预测的分解运动和内容。在ICLR，2017。3[41] Ting-Chun Wang，Ming-Yu Liu，Andrew Tao，GuilinLiu，Jan Kautz，and Bryan Catanzaro.少镜头视频到视频合成。NeurIPS，2019。二、三[42] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。NeurIPS，2018。一、二、三[43] William

下载后可阅读完整内容，剩余1页未读，立即下载