深度学习生成人体动作视频

146 浏览量更新于2023-10-13 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

人体动作序列蔡浩业1，3[0000−0001−7041−563X]、白春燕 1，4[0000−0001−5431−795X]、戴宇荣2[0000−0002−3148−0380]和邓志强1[0000−0001−6495−3685]1香港科技大学，清水湾，香港{hcaiaa，cbai} @ connect.ust.hkcktang@cs.ust.hk2腾讯优图，深圳，中国yuwingtai@tencent.com3Stanford University，Stanford，CA 94305，USA4卡内基梅隆大学，匹兹堡，PA15213，美国项目页面：https://iamacewhite.github.io/supp抽象。当前的视频生成/预测/完成结果是有限的，由于在这三个问题中固有的严重不适定性在本文中，我们专注于人类动作视频，并提出了一个通用的，两阶段的深度框架来生成人类动作视频，没有约束或任意数量的约束，它统一解决了三个问题：视频生成给定没有输入帧，视频预测给定的前几个帧，和视频完成给定的第一个和最后一个帧。为了从头开始解决视频生成问题，我们构建了一个两阶段框架，首先训练一个深度生成模型，该模型从随机噪声中生成人体姿势序列，然后训练一个骨架到图像网络，以根据生成的人体姿势序列合成人体动作视频为了解决视频预测和完成问题，我们利用我们的训练模型并对潜在空间进行优化，以生成最适合给定输入帧约束的视频与我们的新方法，我们回避了原来的不适定的问题，并产生第一次高质量的视频生成/预测/完成的结果，更长的持续时间。我们提出了定量和定性的评价，以表明我们的方法优于国家的最先进的方法在所有三个任务。关键词：视频生成·生成模型1介绍在本文中，我们提出了一个通用的，两阶段的深度框架，用于人类视频生成（即直接从潜在向量生成视频剪辑）、预测（即，预测短剪辑或单个帧的未来帧），以及完成（即，完成给定开始和结束的中间内容同等贡献。2H. Cai*，C.Bai*，Y.-W. Tai和C.K. 唐图1.一、（a）视频生成，（b）预测和（c）使用我们的一般两阶段深度框架完成人类动作（d）在所有情况下，在第一阶段中生成完整的人体图二.真实世界的例子。我们使用第一列中的参考图像（任意不相关的动作）来生成方向/问候动作。第1和第2行：UCF-101结果。第三行：阿甘正传结果。在补充材料中查看完整视频其中每个问题以前都是作为单独的问题来解决的（图1）。①的人。以前的视频生成利用了最先进的深度卷积神经网络（CNN），如[35]，已经证明了这个问题的重大困难，他们的第一个结果仍然远远不够逼真。以视频预测[37，34]的形式的当前最后，虽然存在关于图像完成的深度学习工作[45]，但没有已知的关于视频完成的代表性深度学习工作。为了更好地解决一般的视频合成问题，我们需要了解像素如何变化以生成完整的时间对象动作。如[37，34]中所观察到的，在像素级上移动对象的帧之间的精确移动具有更高水平的不确定性，通过利用移动对象的底层结构对不确定性进行建模，该问题更易于处理因此，我们利用这个想法并对人类动作视频进行我们的实验，这是各种计算机视觉应用中研究得很好且有用的一类视频，并且在这种情况下，底层结构的自然选择是人类姿势（或骨架）。因此，我们将视频生成任务分为人体姿态序列生成深度视频生成、预测和完成3(pose空间），随后从所生成的人类姿势序列生成图像（像素空间）然后，对于预测和完成问题，我们可以通过将它们视为受约束的生成来使用相同的模型来解决它们。具体来说，我们用于视频生成的一般深度框架有两个阶段：首先，一个新的条件生成对抗网络（GAN），用于生成执行给定类别动作的可接受姿势序列;其次，一个具有特征匹配损失的监督重建网络，用于将姿势序列转移到像素空间。我们的一般视频生成框架可以专用于视频预测/完成（即，视频预测/完成）。约束生成），以生成最接近给定输入约束的视频结果。因此，我们的方法可以从头开始生成视频，或者在给定动作类的情况下完成/预测具有任意数量的输入帧我们提供了大量的定性和定量的实验结果来证明，我们的模型是能够产生和完成自然的人体运动视频. 我们还在真实世界的视频上测试了我们的模型（图1）。2）的情况。2相关工作我们在这里回顾最近的代表性国家的最先进的作品与本文有关视频预测/生成在视频预测中，已经进行了研究，以在姿势空间中对不确定的人体运动进行建模[37，34]。还尝试学习深度特征表示[19，36，16，43]。对于视频生成，已经完成了直接在像素空间中生成视频[35，18]或从字幕[18]生成的工作虽然这些工作揭示了如何对视频中的不确定时间信息进行建模，但结果并不理想。我们提出的方法实现了更高的质量，更重要的是，旨在更高的目标：在同一框架内的视频完成，预测和生成图像/视频完成很多工作都集中在生成模型的图像完成[45]，但是尽管深度学习的视频完成很重要，但仍然没有被探索[13，42]。如果要完成的时间距离较小，例如，[23]则可以执行视频帧内插以填充中间帧。然而，我们正在处理一个不同的问题，其中输入帧彼此相距很远。这种不确定性的建模增加了这项任务的难度在我们的论文中，我们的目标是执行视频完成的输入帧的约束下，通过优化的潜在空间。已经进行了各种研究努力[4，33，41，6，22]以产生最先进的人体姿势估计结果，为我们提供可靠的人体姿势提取器。在我们的论文中，我们利用[22，4]的可靠人体姿势估计结果作为我们完成流水线的输入。我们的工作基于生成对抗网络（GAN）。Goodfellow等人[10]首先提出了GAN，它可以隐式地生成任何概率分布。然后提出了条件GAN[20]，以实现约束下的生成。随后的工作包括卷积神经网络的使用[26]，训练稳定性的改进 [28] ，随后是 WGAN [1]和改进的 WGAN[11]，这进一步使GAN可靠。在我们4H. Cai*，C.Bai*，Y.-W. Tai和C.K. 唐图三.我们的两阶段视频生成概述。在第一阶段中，我们从随机噪声中通过G生成骨架运动序列，而在第二阶段中，我们使用我们的图像到图像TransformerF将骨架序列变换到图像空间本文首先训练条件WGAN生成单帧人体姿态，然后训练条件序列GAN生成特征向量序列，最后输出人体动作序列。优化输入数据为了专门用于视频预测和完成，我们将其建模为受约束的视频生成，并更新输入潜在向量以找到最匹配输入帧的运动序列最近，对图像修复[45]执行输入数据的反向传播，以生成损坏图像的最佳匹配 Zhu等人[48]利用这种方法来实现生成视觉操作。 Google DeepDream [21]还使用了对潜在流形的优化来生成梦幻般的图像。早先，类似的方法已经被用于执行纹理合成和风格转移[8，9，15]。我们的两阶段模型涉及第二阶段，该第二阶段将人类姿势转换为像素级图像，这已经通过各种深度学习方法进行了尝试最近的工作[44，17，37，34，46]利用GAN或多阶段方法来完成这项任务。我们提出了一个简单而有效的监督学习框架，可与最先进的框架相媲美3方法我们提出了一个通用的生成模型，统一解决视频生成，预测和人类运动的完成问题。模型本身最初是为视频生成而设计的，即，从随机噪声中生成人体动作我们将生成过程分为两个阶段：首先，我们从随机噪声中生成人体骨架序列，然后我们将骨架图像转换为真实的像素级图像（图1）。（3）第三章。在第3.1节中，我们将详细说明我们用来生成人体骨骼运动序列的模型和方法，在第3.2节中，我们将提出我们的新方法来解决骨骼到图像的转换问题。最后，在第3.3节中，我们将展示我们可以在不修改的情况下专门化该模型，以通过将其视为受约束的视频生成来完成深度视频生成、预测和完成5见图4。我们的两步生成管道的图示。在步骤一（左）中，G0采用随机噪声向量并输出所生成的姿态向量。然后，D0区分真实姿态向量和伪姿态向量。G0和D0的两个输入都与条件类向量连接。在步骤二（右）中，GP S取以第一帧的潜在向量和类向量为条件的随机噪声z，并且生成潜在向量的序列，该潜在向量的序列可以经由G 0被变换为姿态向量。然后DP S将真实/假帧作为输入以确定P（Real）3.1一般生成模型我们提出了一个两步生成模型，从随机噪声中生成人体骨骼运动序列。设J是人体骨骼的关节数，并且我们通过其在图像空间中的（x，y）位置来表示每个关节。我们将骨架运动序列V公式化为总共跨越T个连续帧的人类骨架的集合，即，V∈RT×2J，当Vt∈R2J上有一个顶点时，t∈{1···T}是一个包含所有（x，y）节点位置的向量.我们的目标是学习一个函数G：Rn→RT×2J，它将一个n维噪声向量映射到一个联合位置向量序列。为了找到这种映射，我们的实验表明，人类姿势约束太复杂，无法通过直接GAN方法训练的端到端模型捕获[10]。因此，我们切换到我们的新颖的两步策略，其中我们首先训练SinglePoseGene ratorG0：Rm→R2J，其中将m维潜在向量映射到单帧姿势向量，然后训练姿势序列生成器GPS：Rn→ RT×m，其将输入随机噪声映射到潜在向量序列，后者可以通过我们的单姿势生成器以逐帧的方式转换为人类姿势向量序列。图4示出了整个流水线和每个步骤的结果采用这种两步方法的优点是，通过训练单帧生成器，我们对每一帧都强制执行人体姿势约束，与端到端训练相比，这减轻了难度，从而使模型能够生成更长的时间6H. Cai*，C.Bai*，Y.-W. Tai和C.K. 唐了图五、两个时间段的时间间隔。已确定的历史记录编号分别示出了步骤一（在左侧）和步骤二（在右侧）这里代表元素加法，代表LSTM单元序列的此外，为了生成不同类型的运动，我们采用条件GAN [20]方法并将指示运动类别的独热类别向量连接到我们的生成器的输入。在第一步中，我们使用改进的WGAN [11]方法和梯度惩罚进行对抗训练。我们为具有相似结构的生成器和评论器构建了一个我们的生成器G0以m维特征向量z0作为输入，并与一个非线性特征向量作为svect或c连接，输出一个posevect或G0（z0|c）. Our_critic_D0将真实姿势向量x〇或与c级联的生成的姿势向量x 〇作为输入，从而产生评论家分数。详细的架构配置如图所示。5，并在补充材料中详细说明。因此，WGAN的目标是：minmaxEcpc[Ex0ppose[D0（x0|c）]−Ez0pz0[D0（G0（z0|c）、|c）]]（1）的g0 D0∈D其中，D是1-Lipschitz函数的集合，p。是不同类别的分布，p_pose是真实姿态数据的分布，并且p_z。是均匀噪声分布。姿势序列生成器在第二步中，我们使用普通GAN [10]方法来训练我们的姿势序列生成器，因为在我们的实验中，普通GAN在这个特定任务中的表现优于WGAN。生成器GPS生成一系列潜在向量，然后将这些潜在向量馈送到SinglePoseGenratoreultinginaposevectorsV的方程，来自随机噪声向量z以z0和c为条件。注意，z〇是描述所生成的姿势的初始条件的随机噪声向量。在我们的实现中，我们通过生成两个连续帧之间的移位来生成潜在向量序列，即，网络的输出是s0，s1，... sT−2其中zt+1=st+zt对于所有t∈{0... T-2}，zt是第t帧的特征向量（z0由噪声分布给出）。深度视频生成、预测和完成70见图6。左：将目标姿势转换为真实图像。右图：骨架到图像网络。图像大小和特征尺寸如图所示注意，输入具有18个通道，其由参考图像的3个RGB通道和15个联合热图组成对于鉴别器，我们采用双向LSTM结构，其输入的ea chtimestp t是conse cutiveframes∆Vt=Vt+1−VtconditiondonVtandc。图中显示了该结构的详细说明。五、用于该步骤中的训练的目标函数是：最小最大Ec pc [EV p视频[log DPS（V |c）]+公司简介Ez0pz，zpz[lo g（1−DPS（GPS（z0|z，c）|（c））]]（二）其中，P。是不同类别的分布，P_video是真实视频序列数据的分布，P_z_o是均匀噪声分布，并且P_z是高斯噪声分布。我们还在生成的潜在向量移位上添加L2正则化项以实现时间平滑。3.2骨架到图像的转换在该阶段中，我们训练骨架到图像变换以将姿态空间转换为图像空间。通常，给定一个输入向量 x∈R2J和一幅图像y0∈Rw×h×3，其中h和w是图像的宽度和高度，我们需要将x变换为一幅像素级图像y ∈Rw× h×3. 为了使输入的维度良好对齐，我们首先将姿态向量x转换为mapsS=（S1，S2，.， Sj），其中在映射Sj∈Rw×h，j∈{1…是特定关节出现在每个像素位置处的概率的2D表示具体地，令 lj∈R2，（ lj=（x2j，x2j+1））是关节的2D位置。J. 在热图Sj中的位置p∈R2处的值然后被定义为，p−ljSj（p）=exp（−2）（3）σ2其中σ包含变化。我们的目标是在F：Rw×h×J→Rw×h×3上学习一个函数，该函数将联合热图转换为像素级人体图像，条件是输入参考图像。我们在这里训练一个有监督的网络。为了学习我们的函数F，我们采用类似于U-Net的网络[27，17]（即，具有如图所示的跳过连接的卷积自动编码器8H. Cai*，C.Bai*，Y.-W. Tai和C.K. 唐在图6中），其将一组联合热图S和参考图像y〇作为输入，并将一个human_imagey〇作为输出。对于编码部分，我们使用足够深的卷积网络，使得最终的感受野覆盖整个图像。对于解码器部分，我们使用对称结构来逐步生成图像。为了避免在转置卷积层中继承棋盘伪影，已经有几篇论文提出了包括子像素卷积、调整大小和卷积等的解决方案[24，29，7]。在我们的情况下，我们应用最近邻上采样，然后在解码器中应用卷积层为了训练我们的骨架到图像网络，我们通过二进制交叉熵损失将输出图像与相应的地面真实图像进行比较。我们计算每个像素处的强度值的二进制交叉熵损失，即1ΣLbce=−k（1−y）lo g（1−F（x|y0））+y10g（F（x|y0））（4）其中y是地面实况图像，X是像素，并且k是像素的数量我们的实验表明，仅使用二进制交叉熵损失往往会产生模糊的结果。因此，为了加强所产生的图像中的细节，我们进一步采用特征匹配损失（在一些论文中也称为感知损失），如[5，14]中所建议的。我们在预先训练的视觉感知网络中匹配激活，该网络分别应用于地面实况图像和生成的图像。网络中的不同层代表不同的抽象级别，为更逼真的图像提供全面的指导。具体地，假设Φ是视觉感知网络（VGG-19 [30]），并且Φ1是第1层中的激活。我们的特征匹配损失定义为，ΣL2=λlΦl（F（x|y0））−Φl（y）1（5）L其中λ1是第1层的权重，其被手动设置以平衡每个层的权重。在V GG -19 [ 30]中，对于Φ1，我们使用‘cov 12’、‘cov 22’、‘cov 32’、‘cov42’和‘cov 52’。因此，我们的骨架到图像网络的总体损失被定义为L=L1+λL2（6）其中λ表示特征匹配损失的正则化因子。3.3预测与完井为了统一解决视频完成和视频预测，我们将它们建模为受约束的视频生成，这是准备由一般生成模型定义的。我们对潜在空间进行优化以实现我们的目标。为了简单起见，优化是在生成的姿势序列上进行的，并且我们可以使用完成的姿势序列通过我们的图像到图像Transformer转换为完整的视频我们利用最先进的人体姿态估计器，如[22]以获得姿态序列。深度视频生成、预测和完成9见图7。我们的完井/预测管道。(a)初始化：我们从潜在空间中随机采样，并将L1误差与约束帧进行比较。虚线框显示所选的最佳初始化（b）我们从初始化开始运行BFGS优化算法，然后最终混合约束和生成的结果为了填充视频的缺失帧，我们的方法利用用全长人体姿势序列训练的生成器G。学习的潜在空间z在表示p个数据时是有效的。我们通过找到最佳匹配输入帧的机器人上的最佳视频矢量来执行视频完成。如示于图7，我们可以使用训练的生成模型G生成缺失的内容。约束可以是任意数量的帧。目标功能：我们把这个问题看作是一个优化问题。设I∈Rt×2J是输入矩阵，且z不是G的线性空间。我们通过以下方式找到最佳组合：z=argmin{Lc（z|I）+α×Lp（z）}，（7）z其中Lc表示受约束帧与对应的生成帧之间的上下文L1损失，并且Lp表示生成帧的感知损失，即，e. “real n es”的位置序列。αd不是感知损失的一个重要因素Lc和Lp定义如下：ΣLc（z |I）=i∈I|（八）|(8)Lp（z）=− log（D（G（z）（9）其中I是约束帧的集合，z是潜在向量，i表示索引I中的帧;i可以是服从给定约束的任意数。通过optimizingEq. （7），我们得到了一个充分条件G（z（）∈RT×2J，其中在输入矩阵处具有“封闭性”.两步优化：为了优化Eq. (7)，我们采用图7所示的两步法。为了解决这种高度非凸的潜在空间的优化，我们首先从潜在空间中随机采样，并比较Eq.（7）找到最佳初始化，即z0。10H. Cai*，C.Bai*，Y.-W. Tai和C.K. 唐如[48]中所提出的，以初始化z 0为起点，我们在（n + m）维空间上应用有限Broyden-Fletcher-Goldfarb-Shanno优化（L-BFGS-B）[3]以找到最优的复杂度。VideoBle nding：实际上，G（z）s应该是这样的。然而，由于我们的方法不能保证与输入完美对齐，因此观察到来自输入约束的slig h t s i f t和失真。为了解决这个问题，我们使用泊松混合[25]来使我们的最终姿势序列与输入约束一致。关键的改进是在G（z）的方向上保持运动平滑性，同时移动所生成的帧以匹配G（z）的输入控制台测试。我们的最终解决方案，x可以通过以下方式获得x=argmintx−tG（z）2，s. t. xi=Iifori∈Rt×2J（10）X2其中，Rint是时间维度上的梯度算子。这种混合保留了视频的自然性，同时更好地与输入帧约束对齐。视频预测视频预测可以在相同的一般框架下解决（与图1中7），因为它基本上可以被解释为具有作为约束的前几个帧的视频实际上，Ie IeRt×2Jbecc cedie d iefestete t e为了实现这一目标，我们将视频预测建模为以前几帧为约束的视频生成。换句话说，我们使用上述输入执行与前一部分相同的步骤，以获得完整的视频序列。4实验4.1数据集我们主要在Human3.6m数据集上评估我们的模型[12]。该数据集提供地面真实2D人体姿势。在我们的实验中，为了减少冗余帧并鼓励更大的运动变化，我们将视频帧子采样到16fps。这些活动包括“D i rection”、“Gr ee t i n g”、“Sitting i n g”、“Sitting i n g D o w n”、“W al k i n g”等，所有这些活动都不会增加人力资本。对于我们的骨架序列生成任务，我们随机选择5个受试者作为训练集，并保留2个受试者作为测试集。对于我们的骨架到图像的转换任务，我们对待未选择的动作类作为训练集，我们选择的5个动作类作为测试集。由于我们主要关注的是人体运动，因此我们减去所有的背景，并仅为该数据集生成前景人物。为了在具有背景的真实世界设置下测试我们的方法，我们进一步在UCF-101 [32]训练集上训练我们的网络，并使用UCF-101 [32]测试集以及Forrest Gump（1995）的真实世界电影片段测试深度视频生成、预测和完成114.2评价合成视频的质量评价是视频生成中的一个难题，对于视频预测和完成，可以通过峰值信噪比（PSNR）和结构相似性指数（SSIM）[40]来测量与地面实况帧的差异，但是我们认为，由于视频往往具有多个可能的未来，因此不建议将预测结果与一个地面实况进行比较。此外，它们不测量时间平滑度和人类相似性。为了评估结果的视觉质量，我们测量生成的视频是否足够逼真，以便预先训练的识别网络可以识别生成的视频中的对象和动作该方法本质上类似于[37，28]中的 Inception Score，[37，28]中的对象检测评估。[39][47]中的语义解释。虽然Inception Score有其局限性[2]，但它仍然是视频生成的最佳系统度量。当前最先进的视频动作识别模型是Yan等人提出的双流网络。[31]并由Wang等人[38]进行了改进我们采用[38]并在我们的数据集上对其进行微调，并评估以下两个分数，分别测量生成的图像帧和视频序列的视觉质量视频评估分数的一个标准是它们应该反映视频是否包含沿着序列的自然图像。因此，我们基于RGB流[38]的输出分类结果来计算初始分数[28]，用于作为评估度量生成的每个帧整个视频的平均得分应反映整体图像质量。此外，我们还显示了在每个时间步获得的初始得分，这为我们提供了视频质量如何随时间变化的详细快照。如[37]中所提出的，我们基于来自我们的双流动作分类器的融合分类结果来评估初始得分[28]。通过考虑整个视频中的运动流因此，这样的分数可以给出完整视频序列的总体质量4.3基线我们提出了几种基线方法，以提供我们的结果与以前的方法的结果进行比较对于视频生成，我们的基线是Video-GAN（VGAN）[35]。该方法训练在像素空间中生成视频的GAN。这是第一次使用深度学习方法生成视频的成功尝试。对于视频预测，第一个基线是PredNet[16]，这是视频预测中的最新结果之一第二个基线是由Mathieu等人提出的多尺度GAN（MS-GAN）。[19]第10段。这种方法已经在包括人类动作视频的各种视频预测任务中取得了成功。第三基线是Po-seVAE，在[37]中提出的顺序模型，其利用姿态表示并产生了最先进的结果。12H. Cai*，C.Bai*，Y.-W. Tai和C.K. 唐图8. 定性比较。每个图像对列对应于生成方法（第一列是真实数据），并且列分别以生成、预测和完成的顺序被分组在一起。每行对应一个动作类，从上到下依次为：方向、问候、坐下、坐下、行走。对于每种方法，我们显示第10帧和第40帧。对于我们的方法，我们还显示了生成的姿势结果对于视频完成，我们的基线是条件视频GAN（cond-VGAN）[35]。该模型可以预测下一帧的输入，如在文件中，因此，我们通过改变其输入的第一个和最后一个帧，使其适应视频完成5结果对于视频生成，我们从随机噪声向量生成视频，其尺寸与所提出的模型一致对于视频预测，我们馈送前4帧作为输入，即基线基于输入的4帧进行预测，并且我们的模型以前4帧作为约束来生成视频。对于视频完成，我们将第一帧和最后一帧固定为约束。为了计算所提出的指标，我们为每种方法随机生成320个50帧视频样本（除了Video-GAN方法[35]，其由架构固定为仅生成32帧）。5.1定性结果在图8中，我们显示了我们的模型在Human3.6m数据集[12]上的定性结果，并与其他最先进的方法进行了比较。由于结果是视频，我们强烈建议读者查看我们的补充材料。基线方法都是在我们的Human3.6m数据集上进行微调/重新训练的[12]。我们将显示每个选定类的生成结果由于页面限制，我们只显示结果视频中的开始和中间帧。通过检查的结果，我们发现，我们的模型是能够产生合理的人体运动视频具有高的视觉质量。在图像质量方面，我们发现我们的模型生成了最引人注目的人类图像，而其他模型往往会生成嘈杂（特别是Video-GAN）和模糊的结果深度视频生成、预测和完成13见图9。UCF-101的真实结果。对于每个任务，我们为JumpingJack（第一行）和太极（第二行）动作显示8帧生成的视频（a）从随机噪声产生，（b）在给定前四个帧的情况下产生（我们仅在第一列中示出第一帧），以及（c）在给定第一帧和最后一帧的情况下产生在补充材料由于其结构上的限制。通过检查视频序列（在补充材料中提供），我们发现我们的模型可以生成自然和可解释的人体运动。一个关键的区别是，我们能够产生大规模和详细的运动。另一个重要的观察结果是，我们的结果相对于传统方法具有较高的质量，而其他质量（尤其是预测模型）往往会随着时间的推移图9我们示出了来自UCF-101[32]的真实世界视频场景上的所有三个任务的定性结果，以确定我们的模型在如结果所示，我们成功地生成了具有高视觉质量和可解释性的视频。此外，我们还测试了我们的模型在现实世界的电影片段，从著名的阿甘场景，如图所示二、我们生成一个导演的行动进行的小男孩使用运行的场景作为参考。5.2定量结果表1表1表2表1表2表3表4表1表4表4表5表6表7表7表8表8表9表9 虽然地面实况（真实）视频在这两种类型中具有最大的初始得分，这与我们的直觉相匹配，但我们生成的视频在所有竞争方法中具有最高的得分。这表明，我们的模型生成的视频具有有意义的视觉特征，更接近真实的视频在图像和14H. Cai*，C.Bai*，Y.-W. Tai和C.K. 唐表1.帧和视频起始分数（IS）方法[35]第三十五话PoseVAE [37][19]第19话我的世界cond-VGAN我们的帧-IS4.第一章53 ± 0。011 53 ± 0。04 3. 99±0。021 .一、91 ± 0。01二、60 ± 0。041 .一、48 ± 0。013 .第三章。87 ±0 . 01，P <0.05。02二、35 ± 0。023 .第三章。91 ±0。02视频IS4.第一章63 ± 0。09 1. 40 ± 0。十六三99 ±0。18二、17 ± 0。11二、94 ± 0。151 .一、88 ± 0。104.第一章09 ±0. 15二、00 ± 0。064.第一章10 ±0。0754.54逐帧视频生成IS54.54逐帧视频完成IS4.543.5逐帧视频预测逐帧预测PSNR380.9逐帧视频预测3.532.521.510.50010203040帧数3.532.521.510.50010203040帧数32.521.510.50010203040帧数363432010203040帧数0.80.70.60.5010203040帧数图10个。左三个数字：生成、完成和预测的逐帧初始分数。右图：逐帧PSNR和SSIM预测视频（时间）域，因此进一步指示我们的视频更现实。我们还观察到其他方法的得分比我们的低得多，VGAN [35]和MS-GAN [19]甚至比PredNet [16]更差。所有的统计数据都与我们的定性结果一致。图图10（左侧三个图）示出了逐帧初始得分的比较我们发现，地面实况视频在所有时间步长保持最高分数，并且我们的结果具有相当高的分数，最接近地面实况质量。更重要的观察结果是，对于比较的预测模型PredNet [16]和MS-GAN [19]，分数往往随时间下降，表明图像质量随着时间的推移而恶化虽然PoseVAE [37]没有下降，但它的整体图像质量比我们的要低得多该观察结果与我们的定性评价一致我们还显示在图。图10（右侧两个图）是逐帧PSNR和SSIM（尽管这些未被包含）。我们的方法在更长的时间跨度上仍然优于其他方法这进一步说明了我们对当前最先进技术的改进6结论我们提出了一个通用的生成模型，解决了视频生成，预测和完成统一的问题通过利用人体姿态作为中间步骤与我们的新的生成策略，我们能够生成大规模的人体运动视频具有较长的持续时间。然后，我们能够解决后两个问题的约束生成使用我们的模型。我们发现，我们的模型可以生成合理的人类动作视频从头开始和约束下，这超过了目前的方法在定量和视觉上。鸣谢本研究部分由腾讯优图提供支持视频-GANReal我们视频-GANReal我们MS-GANPredNetPose-VAE我们的真实PredNetPose-VAE我们的MS-GANPredNetPose-VAE我们的MS-GAN逐帧地逐帧地逐帧地峰值信噪比结构相似度指数深度视频生成、预测和完成15引用1. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein GAN ArXiv电子版（2017年1月）2. Barratt ，S. ，Sharma ，R.：关于Inception 评分的注释。 arXiv预印本arXiv：1801.01973（2018）3. 伯德，R.H.，卢，P.，Nocedal，J.，Zhu，C.：一种有界约束条件下的有限记忆算法。S1AMJ〇urnal〇 nScienti cC〇mputing16（5），11904. Cao，Z.，Simon，T.Wei，S.E.，Sheikh，Y.：利用局部仿射场进行实时多人二维姿态在：CVPR（2017）5. 陈昆，Koltun，V.：使用级联细化网络的摄影图像合成。arXiv预印本arXiv：1707.09405（2017）6. 陈玉，Shen，C.，魏，X.，刘，L.，Yang，J.：对抗性posenet：一种用于人体姿态估计的结构感知卷积网络。CoRR abs/1705.00389（2017），http://arxiv.org/abs/1705.003897. 董，C.，Loy，C.C.，他，K.，唐X：使用深度卷积网络的图像超分辨率。IEEE transactions on pattern analysis and machine intelligence38（2），2958. 加蒂斯湖Ecker，A.S. Bethge，M.：利用卷积神经网络进行纹理合成。In：AvancesinNeur alInpr o c e s i n g S y s i n g Pr o c e s i n g S ysi ngP r oc e s i n gSys i n g S i n gi pp. 2629. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：使用卷积神经网络的图像风格转换。在：IEEE计算机视觉和图像处理会议论文集中。pp. 241410. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，C〇urville，A.， Bengio，Y. ：Genertiveadve rsarialnets. ^^2672http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf11. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.C.：改进的瓦瑟斯坦甘斯训练。CoRR abs/1704.00028（2017），http://arxiv.org/abs/1704.0002812. 约内斯库角Papava，D.，Olaru，V.，Sminchisescu，C.：Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。IEEETransactionPater nAnalysisandMachineIntell i gence36（7），1325- 1339（2014年7月13. 贾，J.，Tai Y.W. Wu，T. P.，Tang，C.K.：使用循环运动的可变照明下的视频修复IEEE Transactions on Pattern Analysis and MachineIntelligence28（5），83214. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和更新的感知损失。 In：EuropeanConferenceonCom up uterVison。pp. 694-711 Springer（2016）15. Li，C.，Wand，M.：结合马尔可夫随机场和卷积神经网络的图像合成。在：ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition中。pp. 247916. Lotter，W.，Kreiman，G. Cox，D.：用于视频预测和无监督学习的深度预测编码网络。arXiv预印本arXiv：1605.08104（2016）17. 马，L.，Jia，X.，太阳，Q.，Schiele，B.，Tuytelaars，T.，Van Gool，L.：姿势引导人物图像生成。arXiv预印本arXiv：1705.09368（2017）18. Marwah，T.，Mittal，G. Balasubramanian，V.N.：使用字幕的注意语义视频生成2017年IEEE计算机视觉国际会议（ICCV）。pp. 1435IEEE（2017）16H. Cai*，C.Bai*，Y.-W. Tai和C.K. 唐19. Mathieu，M.，库普利角 LeCun，Y.：超越均方误差的深度多尺度视频预测。CoRR abs/1511.05440（2015），http://arxiv.org/abs/1511.0544020. Mirza，M.，Osindero，S.：条件生成对抗网。arXiv预印本ArXiv：1411.1784（2014）21. Mordvintsev，A.，Olah，C.，Tyka，M.：猜想主义：更深入地研究神经网络。Google Research Blog. 2015年6月20日、14日（2015年）22. Newell，A.，杨，K.，Deng，J.：堆叠的沙漏网络，用于人体姿势-这是一个很大的问题。 In：EuropeanConferenceonCom up uterVison。pp.483-499 02TheDog（2016）23. 尼克劳斯，S.，迈湖Liu，F.：基于自适应可分离的视频帧内插卷积arXiv预印本arXiv：1708.01692（2017）24. Odena，A.，Dumoulin，V.，Olah，C.：反卷积和棋盘式伪影。Distill 1（10），e3（2016）25. P'er ez，P.，去吧，M Blak e，A. ：P〇 iss〇nimage diting。In：ACMTransacti onso ng raphics（TOG）. v ol. 第22页。 313 - 318 ACM（2003）26. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434（2015）27. 罗内伯格O.，菲舍尔，P.，布洛克斯T.：U-net：卷积网络用于生物医学图像分割。 CoRR abs/1505.04597 （ 2015 ），http://arxiv.org/abs/1505.0459728. Salimans，T.古德费洛岛Zaremba，W.，Cheung，V.Radford，A.陈先生，X.，Chen，X.：改进的gans训练技术。在：Lee，D.D.，Sugiyama，M.，Luxburg，U.V.，居永岛加内特河（编辑）Advances in NeuralInfor-ma-tionProocessingSystem29 ， pp.2234-2242CurrranAssociates ， Inc.（ 2016），http://papers.nips.cc/paper/6125-improved-techniques-for-training-gans.pdf29. Shi，W.， Caballero，J.， Husza'r，F.， Totz，J.， Aitken，A. P. 比什霍普，R.，如你所愿，D、Wang，Z.：使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在： ProceedingsoftheIEEEConferenceonC 〇mputerVisisinandPattermRec 〇 gnitin中。pp. 187430. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模计算

下载后可阅读完整内容，剩余1页未读，立即下载