姿势引导的人体视频生成

195 浏览量更新于2023-10-13 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

姿势引导的人体视频生成杨策源1、王哲2、朱新革1、黄晨3、石建平2、林大华11香港中文大学-商汤科技联合实验室，香港特别行政区香港中文大学2商汤科技研究院，中国3卡内基梅隆大学yangceyuan@sensetime.com抽象。由于生成对抗网络的出现，视频合成有了非凡的突破。然而，现有的方法缺乏适当的表示来显式地控制视频中的动态。另一方面，人体姿势可以内在地和可解释地表示运动模式，并且无论外观如何都施加几何约束。在本文中，我们提出了一种姿势指导的方法来合成人类视频在一个解开的方式：合理的运动预测和连贯的外观生成。在第一阶段中，姿势序列生成对抗网络（PSGAN）以对抗方式学习以产生以类别标签为条件的姿势序列。在第二阶段中，语义一致生成对抗网络（SCGAN）从姿势生成视频帧，同时保留输入图像中的连贯外观。通过在高特征水平下强制所生成的姿势和地面实况姿势之间的语义一致性，我们的SCGAN对噪声或异常姿势是鲁棒的。在人体动作和人脸数据集上的大量实验表明，该方法优于其他国家的最先进的。关键词：人体视频生成，姿态合成，生成对抗网络1介绍随着深度卷积网络的出现，大量的通用已经提出了一些模型来合成图像，例如变分自动编码器[1]和生成对抗网络[2]。同时，视频生成器和视频处理器也已经发现了大量的算法。其中，人体视频的生成任务近年来引起子越来越多的关注。一个原因是人类视频合成允许许多以人为中心的应用，如化身动画。另一方面，人类视频/帧的生成可以充当数据增强方法，其在很大程度上减轻了人工注释的负担。这将加快动作识别等广泛的视频理解任务的开发。人类视频生成本身是一个不平凡的问题。与静态图像合成不同，人类视频生成任务不仅需要考虑2C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植物化学家，1989 - 1995. Lin等人时间平滑性约束，而且还有人体运动的不确定性。因此，一个适当的表示人体姿势和它的动态起着重要的作用，在所考虑的问题。最近的作品试图模拟视频动态独立于外观。例如，在[7]中，每个帧被分解为固定部分和随时间变化的分量。冯-德里克等. [8]使用双流生成模型将前景场景动态与背景分开。 Saito等 [9]生成了一组潜变量（每个潜变量对应于一个图像帧），并学会将它们转换为视频。 Tulyakov等人[10]从随机向量序列生成视频帧序列，每个随机向量由内容部分和运动部分组成。所有这些方法都显示了运动动力学和外观的单独建模的前景然而，在这些方法中不能明确地控制运动。运动代码通常从随机的潜在空间中采样，对目标运动模式没有物理意义。在这里，我们认为，对于人类视频生成，有效地建模人体动态和控制运动显式，运动表示应该是可执行的和可访问的。在由动作记录图[11- 14]所示的情况下，人体骨架是有利的，因为它们表征几何身体配置，而不管外观差异如何，并且它们的动态可还值得注意的是，人类骨架可以通过许多最先进的人类姿态估计器（例如，人体姿态估计器）容易地获得。 [15]）。因此，我们提出了一种姿势指导的方法来合成人体视频。该方法包括两个阶段：合理的运动预测和连贯的外观生成，分别产生的姿态动力学和相应的人的外观。在第一阶段中，人体姿势被用来模拟各种运动模式。提出了姿势序列生成对抗网络在第二阶段中，提出了语义一致的生成对抗网络（SCGAN）以在给定第一阶段中生成的姿势序列和输入图像的情况下生成视频帧。同时，生成的和地面实况姿态之间的语义一致性也在高特征级别上被强制执行，以减轻一些噪声或异常姿态的影响实验将显示我们的方法在生成各种各样的人类动作和面部表情视频时的有效性和鲁棒性。图1示出了总体框架。我们总结的主要贡献如下：• 我们提出了一种基于人体姿态的合理运动预测的姿态序列生成对抗网络（PSGAN），它使我们能够明确地对人体运动的动力学进行建模• 设计了语义一致的生成对抗网络（SCGAN）以在给定所生成的姿态和输入图像的情况下利用用于处理异常姿态的有效机制来合成相干视频帧。• 对人体动作和面部表情的定性和定量结果数据集显示了所提出的方法优于现有技术。受控实验也显示了我们操纵人的动作和外表的灵活性。守则将公开提供。姿势引导的人体视频生成3普劳斯姿势提取公司简第一运动预测姿势序列异源产生视频帧输入图像阶段二Fig. 1. 我们方法的框架。在第一阶段中，我们提取输入图像的相应姿态，并将姿态馈送到我们的PSGAN中以生成姿态序列。在第二阶段，SCGAN在给定生成的姿势和输入图像的情况下合成照片级真实感视频帧2相关工作深度生成模型已被广泛研究以合成自然图像，通常使用变分自动编码器（VAE）[1]和生成广告网络（GANs）[2]。许多后续工作旨在改进GAN的训练[2]，从而提高生成的图像质量。[16]的作者指出，数据分布的不确定性可能导致模型崩溃，并提出使用卷积网络来稳定训练。[17，18]中的工作也处理了GAN训练不稳定性的问题。另一个方向是探索以有条件的方式生成图像。[19]中的先驱工作提出了一种条件GAN来生成由类别标签或属性控制的图像。最近，Maet al. [20]提出了一种姿势引导的人物生成网络，以合成任意新姿势的人物图像。 StackGAN [21]能够从一些文本描述中生成照片般逼真的图像。在[22- 24]中的工作实现了学习以无监督的方式从一个域到另一个域的任意移动StarGAN [25]甚至允许仅使用单个模型在多个域之间执行图像到图像的转换我们提出的PSGAN和SCGAN也被设计为有条件的，给定动作标签生成人类姿势序列，然后给定姿势序列和输入图像生成视频帧。我们的两个条件模型能够一次生成连续的人体视频，而不仅仅是静态图像。SCGAN还可以通过学习语义姿势表示来减轻异常姿势的影响视频生成的任务本质上是一个更具挑战性的比图像合成任务，由于前景动态建模和时间平滑约束的要求。在过去的几年里，它是姿势引导4C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植物化学家，1989 - 1995. Lin等人随着对功能强大的GPU的访问和深度卷积网络的出现，视频编码和视频编解码[3- 6 ]也获得了更大的内存作为示例，在[8]中提出了一种具有时空卷积架构的GAN模型，以对视频中的前景场景动态进行建模。Tulyakov等人。 [10]还分解了视频生成的运动和内容。在[26]中，通过双重学习机制使未来帧预测与视频中的像素流一致。其他作品将递归网络引入视频生成（例如[27，28]）。与这些工作一致，我们的方法分别使用PSGAN和SCGAN分别对运动和外观进行建模。这使我们能够控制的运动模式明确和可解释的，据我们所知，这是人类视频生成的第一次尝试。3方法3.1框架概述给定人体或面部的输入图像和目标动作类（例如，、Skip、TaiChi、Jump），我们的目标是合成属于目标类别并且从输入图像开始的人类动作或面部表情的视频。我们希望显式地控制所生成的视频中的运动模式，同时保持与输入的外观一致性。在这里，我们建议以一种解脱的方式生成人类视频：合理的运动预测和连贯的外观生成。图1说明了我们的方法的总体框架类似于动作再现技术[11 - 14 ]，我们使用人类姿态或人类姿势来表示运动动力学。我们的方法包括两个阶段。在第一阶段，我们从输入图像中提取的姿态和姿态序列GAN（PSGAN）被提出来生成一个时间上平滑的姿态序列的条件下的输入图像和目标动作类。在第二阶段，我们专注于外观建模，并提出了一个语义一致的GAN（SCGAN），以产生现实和连贯的视频帧的条件下，从阶段一的输入图像和姿势序列。通过在高级表示空间中保持生成的姿势和地面实况姿势之间的语义一致性来减轻噪声/异常姿势详情将在以下章节中详细阐述。3.2似然运动预测在第一阶段中，从输入图像中提取的人体姿态与目标动作标签被馈送到我们的PSGAN中以生成姿势序列。显然，这是一个病态的一对多问题，具有无限的可能性。我们的PSGAN从训练集中的示例姿势序列中学习，以模仿看似合理的运动模式。因此，我们的学习目标是丰富的运动模式的建模，而不是精确的姿势坐标。姿势引导的人体视频生成5编码器目标操作标签解码器残余块输入姿势姿势序列图二. 我们的姿势序列GAN（PSGAN）的网络架构。PSGAN将输入的姿态和目标动作标签作为输入，并以编码器-解码器的方式合成姿态序列。在最后一个残差块（红色）之后，特征图被扩展了一个时间维度，然后被馈送到由一系列分数步长时空卷积层组成的解码器姿势提取。为了从输入图像中提取初始姿态，采用[15]中的最新姿态估计器来产生18个关键点的坐标姿势由18个热图而不是关键点的坐标向量编码每个热图在对应关键点周围的4像素半径内填充1，在因此，姿势实际上表示为C= 18通道张量。以这种方式，不需要学习如何将关键点映射到身体部位位置。姿势序列GAN。给定初始姿势和目标动作标签，我们的PSGAN旨在一次合成有意义的姿势序列如图 2 、 PSGAN 采用编解码器架构。C×W×H大小的姿势首先通过几个卷积层进行编码目标动作标签也以η维独热向量的形式输入，其中η表示动作类型的数量。在几个残差块之后，两个信号被嵌入到潜在空间中的公共特征图中。这些特征图最终将以扩展的时间维度通过解码器。输出是通过一系列分数步幅时空卷积层的C×T×W×H大小的张量，其中T表示序列中的时间步长数。为了更好地进行时间建模，LSTM模块[29]也集成到我们的网络中。总之，我们定义了一个生成器G，它将一个输入位置，用于在大容量活动表上设置一个相等的Pconditiioned阿岛e. ，G（p，a）⇒P. 我们在具有鉴别器D作为PatchGAN [ 30 ]的广告组合中创建了G，PatchGAN [ 30]将来自地面实况的局部块分类并将生成的姿势分类为真实或虚假。LSTM嵌入。如上所述，解码器输出C×T×W×H张量。它可以被视为大小为C×W×H的T张量，所有这些张量都被馈送到一个单层LSTM模块中进行时间姿态建模。我们的实验将证明LSTM模块稳定了训练并提高了生成的姿势序列的质量。6C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植物化学家，1989 - 1995. Lin等人目标函数如在[2]中，我们的PSGAN的目标函数可以用公式表示如下：其中LDDAdvGAdvLG=EP[logD（P）]+Ep，a[log（1-D（G（p，a）]，（1）=Ep，a[log（D（G（p，a）]，（2）表示鉴别器D的对抗损失项，并且adv adv生成器G。鉴别器D旨在区分生成的姿态序列G（p，a）和地面实况P。此外，我们发现添加重建损失项可以稳定训练过程。重建损失如下：Lrec= λ rec||（P − G（p，a））⊙（αM +1）||第一条、第三条其中M表示关键点热图中的每一者的掩模，⊙表示逐像素乘法且λrec是此L1损失的权重。掩码M的引入是由于每个关键点的热图稀疏性和不平衡性，这使得学习变得困难。我们使用地面实况P作为掩模M来掩蔽每个关键点周围的小区域以用于损失计算。注意，当比例因子α= 0时，该损失项被减少为未加权的L1损失。异常姿势。图3示出了一些不好的姿态生成结果，其中一些不好的姿态生成结果是不好的。关键点看起来比地面实况（a）更大/更小（b），或者一些关键点由于它们的弱响应而看起来缺失（c）。我们称这种情况为异常姿势。然而，对于人类来说，异常姿势可能在第一视角看起来很奇怪，但在“真实”姿势是的情况下，将不得不从随机的图像中恢复。这就要求我们的网络能够把握人体姿势的语义含义，并减轻微小数值差异的影响。(a)(b)（c）第（1）款图3.第三章。异常姿势的示例（a-c）分别示出地面实况姿态、具有较大/较小关键点响应的生成姿态以及具有缺失关键点的生成姿态LL姿势引导的人体视频生成7Concat共享权重我不我我编码解码ˆTTT|GenD1真假ItIDwh icPt/P0tiitiPIt|GTD2真假了图 4.第一章N t w o rk a r c h i t e u r S C G AN在e s e n d s t a g e中生成，其中P t i，P t i，I t i re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re我们的生成器具有编码器-解码器架构，并生成以人体姿势P和输入图像It0为条件的视频帧。鉴别器D1和D2旨在区分所生成的图像是否是真实的，而D旨在辨别帧是从哪个姿势生成的3.3连贯外观生成在第二阶段中，我们的目标是合成相干的视频帧的输入图像，以及从第一阶段的姿态序列的条件。由于噪声或异常姿态将影响该阶段中的图像生成，因此从姿态输入直接生成图像的那些方法（例如[20]）可能不稳定甚至失败。因此，我们提出了一个语义一致的 GAN（SCGAN）在高特征级别上在生成的姿势和地面实况之间施加语义一致性通过仅在高特征级别施加一致性，SCGAN可以对有噪声的姿态输入是鲁棒的。条件生成。我们的条件图像生成过程实际上类似于最近的工作[20]，可以生成由姿势控制的人物图像然而，我们与这项工作有一个主要的区别：在[20]中，图像是通过先合成一个粗略的图像，然后再对其进行细化，在两个阶段中生成的;而我们的SCGAN在一个步骤中生成结果，一次针对所有视频帧。具体地，给定在时间t0处的输入图像It0和在时间t2处的目标姿态Pt1。timeti，ourrgeneratorG（It0，Pti）⇒ItisupposedtogenerateimageItitokeep在It0中相同的外观，但是在新的姿态Pti上。我们设计了鉴别器D再次区分真假图像，提高图像生成质量。语义一致性。如前所述，来自第一个图像的噪声或异常姿态预检测P将影响第二个图像中的图像质量。不幸的是，地面实况姿态Pti在针对Pti的推断期间不存在。Pˆ8C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植物化学家，1989 - 1995. Lin等人姿势正确的目的-它只适用于训练。因此，有必要教导训练以在地面实况姿态的指导下正确处理异常姿态，以便推广到测试场景。通过对这些异常姿态的热图的观察，我们发现它们通常是由于对应的关键点响应的小差异事实上，不需要通过PSGAN推动姿势生成精度的极限，因为小的误差不应该影响人们如何全局地解释姿势。考虑到姿态预测差异在输入层或低级特征层处不可避免地有噪声，我们提出在高级特征层处强制执行异常姿态与地面实况之间的语义一致性。图4显示了我们的语义一致GAN，它封装了这个想法。我们在两个姿势编码器网络的最后一个卷积层（黄色块）中共享权重，旨在在高级特征空间中施加语义一致性。此外，我们从预测姿态和地面实况姿态两者生成视频帧以获得对姿态噪声的容限 - 新的鉴别器D，其用于区分所生成的视频帧以哪个姿态为条件。我们进一步利用L1重建损失来稳定训练过程。全目标函数。如图4，我们的最终目标是从两个姿势流生成视频帧，并以对抗的方式保持它们的语义一致性。具体地，G1生成图像I ti|在时间t i生成，条件是输入信息It0 以及由P S G AN提供的Ptiger。 G2通用电气|以相同的方式，但是使用地面实况姿态来生成图像。G1（It0，Pti）⇒Iti|n（4）G2（I t0，P ti）⇒ I ti|gt.（五）存在如下定义的三个鉴别器：D1和D2旨在分别在使用预测姿态和地面实况姿态时区分真实图像和伪造图像;D旨在判断所生成的图像以哪个姿态然后，我们可以轻松地获得模型训练的完整目标函数，如下所示：LDwhich= E[l〇 g（Dwhich（Iti）]|gt））]+ E[l〇 g（1-Dwhich（Iti|ge n））]，（6）LD1= E[l〇 g（D1（Iti））]+ E[l〇 g（1-D1（Iti））]|ge n））]、（7）LD2= E[l〇 g（D2（Iti））]+ E[l〇 g（1-D2（Iti））]|g（t））]，⑶LG1= E[l〇 g（D1（It i）|ge n））]+ E[l〇 g（Dwhich（Iti）]|ge n））]、（9）LG2= E[l〇 g（D2（Iti）]|g（t））]。（十）由于地面实况姿态引导图像I ti|gt对于D是实数，D的梯度在等式2中没有传播回G2。（十）、姿势引导的人体视频生成93.4实现细节对于我们的详细网络架构，所有生成器（G，G1，G2）应用4个卷积层，其中内核大小为4，步长为2，用于下采样。在第一阶段的解码步骤中，采用步长为2的转置卷积层进行上采样，而在第二阶段中，正常卷积层与内插操作一起代替转置卷积层图中红色块的特征图。2扩展了一个时间维（C × W × H <$C × 1 × W × H），用于PSGAN的解码器. 鉴别器（D，D1，D2，Dwhich）是PatchGAN [30]，用于分类局部图像块是真实的还是假的。此外，ReLU [31]作为每层之后的激活函数，并且在所有网络中使用实例归一化[32利用几个残差块[33]来联合编码级联特征对于最后一层，我们应用tanh激活函数。此外，我们在PSGAN中使用标准GRU，而没有进一步研究LSTM的不同结构如何改进姿势序列生成。我们使用PyTorch实现所有模型，并使用ADAM [34]优化器，学习率为0。001在所有实验中第一阶段的批量为64，第二阶段为128。所有重建损失权重根据经验设置为10。方程中的比例因子α（3）从0到100中选择，这只影响收敛速度。我们根据经验将人类动作和面部表情数据集的比例因子分别设置为10和PSGAN被训练以生成姿势序列。在第二阶段中，利用生成的姿态和地面实况姿态来训练SCGAN以学习噪声姿态的鲁棒处理。仅将生成的姿态馈送到SCGAN中以进行推断。4实验在本节中，我们将展示人类动作和面部数据集上的视频生成结果定性和定量的比较，以显示我们的优势，比其他基线和国家的最先进的。此外，我们亦邀请了50名志愿者进行用户研究，以支持我们的改进。我们的两代阶段（姿势和视频）的消融研究进一步包括显示其疗效。4.1数据集我们的实验不仅在人类动作数据集上进行，而且在面部表情数据集上进行，其中面部标志作为姿势来指导面部表情视频的生成因此，我们收集了人类动作数据集和人类面部数据集，如下所述对于所有实验，RGB图像被缩放到128× 128像素，而姿势图像被缩放到64 ×64像素。• 人类动作数据集来自UCF101 [35]和Weizmann动作数据库[36]，包括90人执行22个动作的198848个视频帧。通过[15]中的方法提取具有18个关键点的人体姿势。10C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植物化学家，1989 - 1995. Lin等人（一）（b）第（1）款（c）第（1）款（e）图五、由我们的PSGAN生成的具有Happy类标签的示例姿势序列(a) 、惊奇（b）、波浪（c）和太极（d）• 人类面部数据集来自CK+数据集[37]。我们考虑6个面部表情：愤怒，厌恶，恐惧，高兴，悲伤和惊讶，对应于60人和60000帧。面部姿势用68个关键点注释。4.2姿态生成的评估定性评价。如第3.3节所述，我们的PSGAN专注于生成各种姿势运动。对于定性比较，我们遵循[15]中的后处理步骤来定位每个姿势热图中的最大响应区域。注意，这样的姿势处理仅用于可视化目的。图图5示出了针对人脸和身体两者生成的姿态序列的一些示例我们可以看到，姿势序列在每个动作场景下以平滑和典型的方式变化。定量比较。回想一下，我们最终的视频生成器可以容忍第一阶段中的微小姿势差异因此，我们通过计算生成的姿势和地面真实姿势之间的平均成对L2距离而不是欧几里得范数来衡量生成的姿势序列的质量距离越小表示姿势质量越好。我们比较了三种PSGAN变体：1）使用L1范数损失而不是对抗性损失训练的PSGAN，2）在没有LSTM模块的情况下训练的PSGAN，以及3）具有GRU模块的完整PSGAN模型。表1表明，用对抗性损失训练我们的姿势生成器比用简单的L1范数损失训练我们的姿势生成器更好。同样重要的是GRU或LSTM模块的时间建模，其提高了姿势序列的质量。用户研究。表2包括我们的三个PSGAN变体在人类行为数据集上的用户研究结果。对于每个变体，我们生成25个姿势序列，其中20个动作和32个时间步长所有生成的姿势序列以随机顺序显示给50个用户。然后要求用户根据基线的质量从1到4（最好到最差）对基线进行排名。的等级分布姿势引导的人体视频生成11表1. 姿态生成基线表2. 人体动作数据集平均L2行动面部暴露职级分布1 2 3 4地面实况00地面实况0.38 0.36 0.12 0.14PSGAN-L10.01240.0078PSGAN-L10.09 0.08 0.32 0.51PSGAN w/oLSTM0.00720.0062PSGAN w/o LSTM 0.21 0.16 0.43 0.20PSGAN0.00640.0051PSGAN0.32 0.40 0.13 0.15计算每个基线用于比较。如表2所示，我们的全PS- GAN模型排名靠前的机会最高。而PSGAN w/o LSTM和PSGAN-Ll的变体倾向于排名较低，再次指示时间和对抗姿态建模的重要性。4.3视频生成定性比较。给定在第一阶段中生成的姿态序列和输入图像，我们的SCGAN负责生成照片级逼真的视频帧。我们主要将我们的方法与最先进的视频生成方法VGAN [8]和MoCoGAN [10]进行比较。它们在相同的人类动作和面部数据集上进行训练，并将超参数调整到最佳性能。例如动作和面部表情类Wave、Taichi和Superised的视觉结果如图所示。六、很明显，我们的方法比VGAN和MoCoGAN生成更清晰，更逼真的视频帧。对于简单的动作波，我们的方法表现得更好或同样好的强大的竞争对手。对于具有复杂运动模式的困难动作太极，我们的优势是显而易见的-姿势动态被准确地捕获并呈现为视觉上令人愉悦的图像。这证实了我们的姿势引导视频生成的必要性，其受益于显式姿势运动建模，而不是在VGAN和MoCoGAN中使用噪声向量。我们的补充材料提供了更多的视觉效果。定量比较。表. 3显示了不同方法的初始得分[38]（IS）（及其方差）的测量值较大的IS值指示较好的性能。这样的定量结果与我们的视觉评估一致，其中我们的方法远远优于其他方法。表3.视频生成的IS比较-表4。视频类用户研究侵蚀基线IS行动面部体验VGAN[8]2.73 ±0.211.68±0.17MoCoGAN [10] 4.02 ±0.271.83±0.08我们的5.70±0.19 1.92 ± 0.12观测基线赢率动作面部体验我们的/MCGAN [10] 0.83/0.170.86/0.14我们的/VGAN [8] 0.88/0.120.93/0.0712C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植物化学家，1989 - 1995. Lin等人VGAN [8]MoCoGAN [10]我们见图6。生成的视频帧，例如动作和面部表情类Wave，Taichi和Superised由VGAN [8]，MoCoGAN [10]和我们的方法用户研究。我们进一步进行了用户研究，其中每种方法生成50个视频进行比较。结果以随机顺序成对地提供给用户然后要求用户从配对的方法中选择获胜者（看起来更真实），我们计算每个方法的获胜百分比表4表明，大多数情况下，用户会选择我们的方法作为MoCoGAN和VGAN的赢家。受控生成结果。图7通过受控测试验证了我们的显式姿态建模能力和良好的泛化能力：生成具有固定人类外观的不同动作视频，以及针对不同人类生成具有固定动作的视频。成功的人的行动（a-c）和面部表情（d-f）的情况下，单独建模的姿势和外观的好处姿势引导的人体视频生成13（一）(b)(c)(d)(e)(f)见图7。具有姿势和外观的受控视频生成：同一个人的不同姿势（a-b为身体，d-e为面部），以及不同人的相同姿势（b-c为身体，e-f为面部）4.4消融研究我们的人类视频生成器的一个主要特征是它依赖于生成的姿势Pti。这是因为在执行过程中，没有任何其他内容会导致执行失败。仅在训练时，我们使用可用的P ti来加强与hrespectogeratedppti的语义一致性。为了提高语义一致性约束的有效性，我们比较了以下几种训练方案– 静态发生器：通过重复第一帧的视频生成– S CGAN-gen：vid eogenerat i on guid dbygeneratedpptionly.– SCGAN-gt：仅由地面实况姿态Pti引导的视频生成– S CGAN：V i deogenerat i on gui dbybothPtianddPtiasshowninF i g. 4.第一章静态生成器的基线简单地通过重复第一帧来构建视频，因此不涉及预测。它在这里充当性能下限。有时它的性能在那些短视频或变化不大的视频中可能不会太差（在这些情况下生成静态视频不会受到严重表5. SSIM和LPIPS的培训方案SSIM/LPIPS行动面部暴露静态0.66/0.0630.77/0.025SCGAN-gen0.73/0.0830.89/0.038SCGAN-gt0.89/0.0400.92/0.024SCGAN0.87/0.0410.91/0.02614C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植物化学家，1989 - 1995. Lin等人面部结果行动结果（一）（b）第（1）款见图8。SCGAN（a）和SCGAN-gen（b）在面部表情和人类动作数据集图图8直观地比较了SCGAN-gen和SCGAN的基线完整的SCGAN模型可以生成更清晰和更逼真的结果，特别是在嘴部（面部表情）和腰部（人体动作）区域。这表明了在所生成的姿势和地面实况姿势之间强制执行语义一致性的功效。仅使用所生成的姿势可能是有噪声的，并且因此妨碍最终视频质量。我们还通过计算SSIM（结构相似性指数度量）[39]和LPIPS（学习感知图像块相似性）得分[40]来评估性能。SSIM分数关注生成的图像和地面实况之间的结构相似性，而LPIPS分数更关心感知相似性。较高的SSIM分数和较小的LPIPS分数指示较好的性能。表5示出了SCGAN在数量上确实优于SCGAN-gen，并且使用地面实况姿态接近SCGAN-gt。语义一致性约束在这种改进中起着关键作用，因为它可以减轻异常姿势在姿势引导图像生成过程中的影响。与静态视频生成器相比，我们的方法通过生成各种运动模式来表现出色。5结论和未来工作本文提出了一种新的方法来生成人类的视频在一个解开的方式。我们展示了人体姿势在这一任务中的重要作用，并提出了一种姿势引导的方法，分两个阶段生成逼真的人体视频。在人体动作和人脸数据集上的定量和定性结果证明了我们的方法的优越性，这也被证明是能够明确地操纵人体目前，我们的方法仅限于裁剪的人类或人脸图像，因为检测器丢失。在未来，我们将集成检测器作为自动预处理步骤，这将使多人视频生成成为可能。谢谢。此工作部分由商汤科技集团的大数据协作研究资助（香港中文大学协议编号：TS1610626）。姿势引导的人体视频生成15引用1. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。 ICLR（2014）1、32. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS。（2014）1、3、63. Srivastava，N.，Mansimov，E.，Salakhudinov，R.：使用lstms的视频表示的无监督学习。在：ICML。（2015）1、44. Finn，C.，古德费洛岛Levine，S.：通过视频预测进行物理交互的无监督学习。在：NIPS。（2016）1，45. Mathieu，M.，库普利角LeCun，Y.：超越均方误差的深度多尺度视频预测。ICLR（2016）1，46. 哦J郭，X.，李，H.，Lewis，R.L.，Singh，S.：在Atari游戏中使用深度网络进行有条件视频在：NIPS。（2015）1、47. Denton，E.L.，等：从视频中分离表示的无监督学习。在：NIPS。（2017年）28. 冯德里克角Pirsiavash，H.，Torralba，A.：生成具有场景动态的视频。在：NIPS。（2016）2、4、11、129. Saito，M.，Matsumoto，E.，Saito，S.：具有奇异值裁剪的时间生成对抗网。In：ICCV.（2017年）210. Tulyakov，S.，Liu，M.Y.杨，X.，Kautz，J.：Mocogan：分解运动和内容以生成视频。arXiv预印本arXiv：1707.04993（2017）2，4，11，1211. H odgins，J. K.， O'Brien，J. F.、 Tumblin，J. ：使用不同的几何模型对人体进行修复。 IEEE Transactions on Visualization and Computer Graphics（1998）2，412. Yan，S.，Xiong，Y.，Lin，D.：用于基于骨架的动作识别的时空图卷积网络。AAAI（2018）2，413. 杜，Y.，王伟，Wang，L.：基于骨架的动作识别的层次递归神经网络。在：CVPR中。（2015年）2、414. 维穆拉帕利河Arrate，F.，切拉帕河：用李群中的点表示3d骨架的人体动作识别。在：CVPR中。（2014年）2、415. Cao，Z.，Simon，T.Wei，S.E.，Sheikh，Y.：利用局部仿射场进行实时多人二维姿态在：CVPR中。（2017）2，5，9，1016. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习。ICLR（2015）317. Arjovsky ， M. ， Chintala ， S. ， Bottou ， L. ： Wasserstein gan arXiv 预印本arXiv：1701.07875（2017）318. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.C.：改进的瓦瑟斯坦甘斯训练。在：NIPS。（2017年）319. Mirza，M.，Osindero，S.：条件生成对抗网。arXiv预印本arXiv：1411.1784（2014）320. 马，L.，Jia，X.，太阳，Q.，Schiele，B.，Tuytelaars，T.，Van Gool，L.：姿势引导人物图像生成。在：NIPS。（2017）3，721. 张洪，徐，T.，Li，H.，Zhang，S.，（1991），中国农业科学院，黄，X.，王，X.，Metaxas，D.：Stack- gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成。In：ICCV.（2017年）322. Zhu，J.Y.，Park，T. Isola，P.，Efros，A.A.：使用周期一致对抗网络的不成对图像到图像翻译。ICCV（2017）323. Yi，Z.，张洪，Tan，P.，龚，M.：Dualgan：图像到图像翻译的无监督双重学习。ICCV（2017）316C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植物化学家，1989 - 1995. Lin等人24. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现跨域关系与生成对抗网络。arXiv预印本arXiv：1703.05192（2017）325. 崔，Y.，Choi，M.，Kim，M.，J.W. Kim，S.，Choo，J.：Stargan：用于多域图像到图像翻译的统一生成对抗网络。CVPR（2018）326. 梁湘，李湖戴，W. Xing，E.P.：用于未来流嵌入式视频预测的双运动gan。ICCV（2017）427. Fragkiadaki，K.，Levine，S.，Felsen，P. Malik，J.：人类动力学的循环网络模型。In：ICCV，IEEE（2015）428. Zhou，Y.，（1996年），中国科学院，Berg，T.L.：从延时视频中学习时间变换In：ECCV，Springer（2016）429. Hochreiter，S.，Schmidhuber，J.：长短期记忆。03 The Dog（1997）30. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。CVPR（2017）5，931. Nair，V.，Hinton，G.E.：整流线性单元改进受限玻尔兹曼机。在：ICML。（2010年）932. TDmitry Ulyanov，Andrea Vedaldi，V.L.：实例规范化：快速风格化缺少的成分。arXiv预印本arXiv：1607.08022（2016）933. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：CVPR中。（2016年）934. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法ICLR（2014）935. Soomro，K.，Zamir，A.R.，Shah，M.：Ucf101：来自野外视频的101个人类动作类的数据集arXiv预印本arXiv：1212.0402（2012）936. 空白，M.，戈雷利克湖Shechtman，E.，Irani，M.，Basri，R.：作为时空形状的动作。In：ICCV，IEEE（2005）937. Lucey，P.，科恩，J.F.，Kanade，T.，Saragih，J.，Ambadar，Z.，马修斯，I.：扩展的cohn-kanade数据集（ck+）：一个完整的行动单位和情绪表达的数据集.在：计算机视觉和模式识别研讨会（CVPRW），2010年IEEE计算机学会会议，IEEE（2010）1038. Salimans，T.古德费洛岛Zaremba，W.，Cheung，V. Radford，A. Chen，X.：改进的gans训练技术。在：NIPS。（2016年）1139. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评估：从错误可见性到结构相似性。IEEE TIP（2004）1440. 张，R. Isola，P.，埃夫罗斯，匿名戒酒会Shechtman，E.，Wang，O.：深度特征作为感知度量的不合理有效性。CVPR（2018）14

下载后可阅读完整内容，剩余1页未读，立即下载