图像动画深度学习框架的研究与应用

126 浏览量更新于2023-10-20 收藏 883KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43212377通过深度运动传输AliaksandrSiarohin1，Ste′ phaneLathuilie` re1，Ser ge yTulyakov2，ElisaRicci1，3和NicuSebe1，41DISI，意大利特伦托大学，2Snap Inc.，加利福尼亚州圣莫尼卡3布鲁诺·凯斯勒基金会（FBK），意大利4华为技术爱尔兰，爱尔兰{aliaksandr.siarohin，stephane.lathuilire，e.ricci，niculae.sebe}@ unitn.it，stulyakov@snap.com摘要本文介绍了一种新的图像动画深度学习框架。给定具有目标对象的输入图像和描绘移动对象的驱动视频序列，我们的框架生成其中目标对象根据驱动序列被动画化的视频。这是通过将外观和运动信息解耦的深层架构来实现的。我们的框架由三个主要模块组成：（i）关键点检测器，其未经监督训练以提取对象关键点;（ii）密集运动预测网络，其用于从稀疏关键点生成密集热图，以便更好地编码运动信息;以及（iii）运动传输网络，其使用来自输入图像的运动热图和外观信息来合成输出帧。我们证明了我们的方法在几个基准数据集上的有效性，跨越了各种各样的对象应用程序，并表明我们的方法优于最先进的图像动画和视频生成方法。我们的源代码是公开的1。1. 介绍本文介绍了一种运动驱动的图像动画的框架，通过结合从源图像中获得的外观信息（例如，描绘某个人的面部或身体轮廓）和从驱动视频中提取的运动模式（例如，编码另一个人的面部表情或身体动作）来自动生成视频。图中给出了几个例子1.一、从静态图像生成高质量视频是具有挑战性的，因为它需要学习对象的适当表示，诸如面部或人体的3D模型该任务还需要从驾驶视频中准确地提取运动模式并将其映射到对象表示上。大多数方法都是对象特定的，使用计算机图形学的技术[7，38].这些方法还使用显式对象表示，1https://github.com/AliaksandrSiarohin/monkey-net图1：我们的深度运动传输方法可以根据驾驶视频的运动来制作任意对象的动画。例如3D变形模型[5]，以便于动画，因此只考虑面部。在过去的几年里，研究人员已经开发了自动合成和增强视觉数据的方法从生成对抗网络（GAN）[16]和变分自编码器（VAE）衍生的几种方法[24]已经提出了生成图像和视频[19，32，30，39，29，37，36，33]。这些方法使用额外的信息，如条件标签（例如，表示面部表情、身体姿势）[45，31，15，35]。更具体地说，它们纯粹是数据驱动的，利用大量的训练数据来学习视觉输入的潜在表示以进行合成。注意到这些技术的重大进展，最近的研究已经开始探索使用深度生成模型进行图像动画和视频重定向[46，9，4，43，3]。这些工作表明，深度模型可以有效地在视频中的人类主体之间转移运动模式[4]，或者将面部表情从一个人转移到另一个人[46]。然而，这些方法具有局限性：例如，它们依赖于预先训练的模型来提取需要昂贵的地面实况数据注释的对象表示[9，43，3]。此外，这些作品没有解决任意对象的动画问题：相反，考虑到-43212378使用单个对象类别[46]或学习将视频从一个特定域转换到另一个[4，22]。本文通过介绍一种新颖的深度学习框架来解决其中的一些局限性，该框架用于使用驾驶视频制作静态图像的动画。受[46]的启发，我们提出以自我监督的方式学习对象类别的潜在表示，利用大量的视频序列。我们的工作和[46]之间有两个关键区别首先，我们的方法不是为特定的对象类别而设计的，而是有效地在animating任意对象。其次，我们引入了一种新的策略来建模和传输运动信息，使用一组以无监督方式学习的稀疏运动特定关键点我们的直觉是，只有相关的运动模式（来自驾驶视频）必须被转移的对象animation，而其他信息不应被使用。我们将所提出的深度框架称为Monkey-Net，因为它通过考虑MOviNg关键点来实现运动传输。我们通过对之前用于视频生成的三个公开数据集进行广泛的实验评估来证明我们框架的有效性：太极[39]，BAIR机器人推[11]和UvA-NEMO Smile [10]数据集。如我们的实验所示，我们的图像动画方法产生高质量的视频为广泛的对象。此外，我们的定量结果清楚地表明，我们的方法优于最先进的图像到视频翻译任务的方法。2. 相关工作深度视频生成。早期基于深度学习的视频生成方法提出了通过使用时空网络合成Vondrick等人 [42]介绍了VGAN，这是一种3D卷积GAN，它同时生成目标视频的所有帧。类似地，Saito等人 [30]提出了TGAN，这是一种基于GAN的模型，能够同时生成多个帧然而，这些方法输出的视觉质量通常很差。最近的视频生成方法在对抗训练框架内使用递归神经网络。例如，Wang等人。 [45]介绍了条件多模网络（ CMM-Net ），这是一种采用条件长短期记忆（LSTM）网络和VAE来生成人脸视频的深度架构。Tulyakov等人。 [39]提出了MoCoGAN，这是一种基于循环神经网络的深度架构，该神经网络使用对抗学习方案进行训练这些方法可以将包括分类标签或静态图像的一致性信息作为输入，并且因此产生期望动作的高质量视频帧。视频生成与[34，26，13，40，48]中解决的未来帧预测问题密切相关。给定视频序列，这些方法旨在合成表示给定视频的相干延续的图像序列。早期的方法[34，26，23]试图直接预测未来帧中的原始像素值其他方法[13，40，2]提出学习将给定帧中的像素映射到未来帧的变换。最近，Villegas et al. [41]介绍了由两个阶段组成的分层视频预测模型：它首先使用LSTM预测一组地标的运动，然后从地标生成图像。我们的方法是密切相关的，这些以前的作品，因为我们也旨在生成视频序列，通过使用深度学习架构。然而，我们面临着一项更具挑战性的任务：图像动画需要分离和建模运动和内容信息，以及重新组合它们。对象动画。近年来，图像动画和视频重定向问题引起了计算机视觉、计算机图形学和多媒体领域研究人员的传统的方法[7，38]是为特定的领域设计的，因为它们只对面部，人体轮廓等进行操作。在这种情况下，需要感兴趣对象的外显表示来生成对应于某个人的外观但具有另一个人的面部表情的动画面部例如，3D变形模型[5]传统上用于面部动画[49]。虽然特别准确，但这些方法是高度领域特定的，并且它们的性能在具有挑战性的情况下（例如在存在遮挡的情况下）急剧下降。来自驾驶视频的图像动画可以被解释为将运动信息从一个域传输到另一个域的问题Bansal等人。 [4]提出了Recycle- GAN，这是一种通过合并时空线索来扩展条件GAN的方法，以便在给定另一个域中的视频的情况下在一个域然而，他们的方法只学习了两个特定领域之间的关联类似地，Chan等人 [9]解决了运动转移的问题，将其投射到每帧图像到图像的平移框架中。他们还建议纳入时空约束。在[43]中也证明了考虑视频合成的时间动力学的重要性。Wiles等人 [46]介绍了X2Face，这是一种深度架构，给定人脸的输入图像，根据从另一张脸或另一种模态（如音频）导出的运动模式对其进行修改他们证明了纯粹的数据驱动的基于深度学习的方法在以下方面是有效的43232379KK模拟人脸的静止图像，而不需要明确的3D表示。在这项工作中，我们设计了一个用于动画静态图像的自监督深度网络，它对于生成任意对象是有效的。3. 猴子网Monkey-Net的架构如图所示二、我们现在详细描述它。3.1. 概述和动机这项工作的目的是动画的基础上的一个类似的对象在驾驶视频的运动对象。我们的框架分为三个主要模块（图1）。2）。第一个网络名为Keypoint Detector，将源图像和驾驶视频中的一帧作为输入，并自动提取稀疏关键点。然后，该模块的输出被馈送到密集运动预测网络，该网络将稀疏关键点转换为运动热图。第三个模块，运动传递网络，接收源图像和密集运动热图作为输入，并重组它们产生目标帧。输出视频是逐帧生成的，如图所示。2. a. 在时间t，Monkey-Net使用源图像和来自驾驶视频的第t为了训练Monkey-Net，只需要一个由感兴趣对象的视频组成的数据集。不需要特定的标签，如关键点注释。学习过程是完全自我监督的。因此，在测试时，为了生成视频序列，生成器仅需要来自驱动序列的静态输入图像和运动描述符。受最近关于用于学习图像表示的无监督地标发现的研究的启发[20，47]，我们将学习运动表示的问题制定为无监督运动特定关键点检测任务。事实上，关键点位置之间x（x′）和x.这样做的动机是双重的。首先，这迫使关键点检测器预测不仅捕获对象结构而且捕获其运动的关键点位置为此，所学习的关键点必须尤其位于具有高运动概率的对象部分上例如，考虑到人体，重要的是获得四肢上的关键点（如脚或手），以便正确地描述身体运动，因为这些身体部位往往移动最多。其次，遵循条件图像生成中的常见规则，生成器G被实现为由卷积块组成的编码器-解码器[19]。然而，标准卷积编码器-解码器并没有被设计成处理输入和输出图像之间的大的像素到像素的不对准[31，3，14]。为此，我们在生成器G内引入变形模块，其采用估计的光流F，以便将编码器特征与x′对准。3.2. 无监督关键点检测在本节中，我们将详细介绍用于无监督关键点检测的结构。首先，我们采用标准的U-Net架构，从输入图像中估计K个热图Hk∈[0，1]H×W，每个k个点一个。我们为解码器的最后一层使用softmax激活，以便获得可以被解释为每个关键点的检测置信度图的热图这里使用编码器-解码器架构，因为它已经显示出关键点定位的良好性能[6，27]。为了对关键点位置置信度进行建模，我们在每个检测置信度图上拟合高斯。通过高斯而不是直接使用完整热图Hk来对地标位置进行建模充当瓶颈层，并且因此允许模型以间接方式学习地标。路上了根据下式估计预期关键点坐标hk∈R及其协方差hk：两个帧可以被看作是紧凑的运动表示。通过这种方式，我们的模型通过根据从图像中提取的地标修改输入图像来生成视频。hk= Σp∈UHk[p]p;k=Σp∈UHk[p]（p-hk）（p-hk）（一）驱动帧。在推理时使用Monkey-Net的详细信息见第2节。三点六Monkey-Net架构如图所示2. b.设x和x′∈ X是从同一视频中提取的大小为H×W的两个帧H×W格记为U。受[20]的启发，我们根据以下公式联合学习关键点检测器和生成器网络G-起下目标：G应该能够从关键点位置<$（x）∈ U，<$（x′）∈ U和x重建x′。在这个公式中，x和x′之间的运动隐含地是模型化为了处理大的运动，我们的目标是学习描述运动的关键点以及对象的几何形状。使用关键点协方差背后的直觉是，它们不仅可以捕获关键点的位置，还可以捕获其方向。再次考虑人类身体的例子：在腿的情况下，协方差可以捕获它们的取向。最后，我们对关键点进行编码，作为热图Hi∈[0，1]H×W的三个解，使得它们可以用作生成器和运动网络的输入工程.实际上，使用热图表示而不是直接考虑2D坐标hk的优点在于热图与卷积神经网络的使用兼容形式上，我们使用以下类高斯函数：为此，我们添加了第三个网络M，它从λ（x）估计x′和x之间的光流F∈RH×W×2，p∈ U，Hk（p）=1个expα.Σ−（p-hk）−1（p-hk）（二）43242380KRrR-图2：图像动画的运动传输框架的示意图。测试时间（图）（a）），模型生成具有源图像的对象外观但具有来自驾驶视频的运动的视频。Monkey-Net（图）（b））由三个网络组成：运动特定的关键点检测器M1、运动预测网络M和图像生成器G。G从关键点位置（x）和（x′）重建图像x′。G使用M计算的光流来处理x和x′之间的未对准。该模型是学习与自我监督学习计划。其中α是归一化常数。此过程独立地应用于x和x′，从而产生两组 K 个关键点热图 H={Hk}k=1. K 和H′={H′}k=1. K.3.3. 带变形模块的发电机网络在本节中，我们将详细介绍如何从x，（x）=H和（x′）=H′重建目标帧x′。首先，我们采用标准卷积编码器，由一系列卷积和平均池化层组成，以便对x中的对象外观进行编码。让表示编码器网络的第r块的输出（1≤r≤R）。这种发电机网络的架构也是基于U-Net架构[28]以便在所生成的图像中获得更好的细节。受[31]的启发，其中表明标准U形网无法处理输入和输出图像之间的大像素到像素的未对准，我们建议使用变形模块来将编码器的特征与输出图像对齐。与[31]为每个人体部位定义仿射变换以计算特征变形相反，我们提出了一个可用于任何对象的变形模块我们尤其提出采用光流F来将特征λr与x′对准。变形采用扭曲函数fw（·，·），其根据F对特征图进行扭曲：n′=fw（n，F）（3）这种扭曲操作是使用双线性采样器实现的，从而产生完全可微的模型。请注意，在计算等式2时，F通过最近邻插值被下采样到H r× W r。（三）、然而，由于双线性采样层的小接收场，en-仅经由变形模块对运动进行编码导致图3：采用部件的示意图基于稀疏表示的光流估计模型。根据第一帧的外观和关键点运动，网络M预测每个关键点和残余运动的掩模（详见文本）。优化问题为了方便网络培训-因此，我们建议将编码为热图Hstec=H′-H的k个点位置的差输入解码器。实际上，通过向解码器r提供H变换，应用于G输出（见第3.5）直接传播到关键点检测器，而不经过M。此外，热图差异表示的优点是它对关键点的位置和与F类似，我们计算R张量H_stecr由下采样H_stectoH_r×W_r表示。两个十-子Hstecr和H′沿通道轴连接，然后被解码器视为跳跃连接张量。3.4. 从稀疏关键点到密集光流在本节中，我们详细介绍如何估计光流F。仅从几个关键点的位移和第一帧的出现来预测密集光流的任务是具有挑战性的。为了方便43242381ganKKk k kkganG′′2网络的任务，我们采用了零件库的提法。我们假设每个关键点都位于局部刚性的对象部分上因此，计算光流的任务变得更简单，因为现在，在于估计掩模Mk∈RH×W，该掩模将对象分割成与每个关键点对应的刚性部分。一光流的第一粗略估计可以由下式给出K+1Lgan（G）=E（x，x′）∈X2[（D（x∈H）−1）]（5）其中，n表示沿着信道轴的级联注意，在等式（5）中，对G、M和k的训练参数的依赖性通过xk′ 隐式地出现。请注意，我们将关键点位置H′提供给帮助它专注于运动部件而不是背景。但是，在更新生成器时，我们不会通过H′来传播丢失梯度，以避免F粗=k=1Mkρ（hk）（4）生成器倾向于通过生成无意义的关键点其中ρ（·）∈RH×W×2是通过重复输入向量H×W次返回张量的算子。此外，我们采用一个特定的掩模MK+1没有变形（对应于ρ（[0，0]））来捕获静态背景。GAN损失与特征匹配损失相结合，该特征匹配损失鼓励输出图像x′和x′具有相似的特征表示。用于计算这种损失的特征表示是CXD的中间层。特征匹配损失由下式给出除了掩模Mk之外，运动网络M还Σ′′′ ′Σ预测残差运动F残差。该残余运动场的目的是通过以下方式来细化粗略估计：Lrec=E（x，x′）Di（x（H））（六）预测不能由基于部件的方法建模的非刚性运动最终估计的光流为：F=F粗+F残差。关于运动网络的输入，M取两个张量，Hstec和x对应于其中Di表示识别器D的第i层特征提取器. D0表示输入电压。特征匹配损失的主要优点是，与其他感知损失不同，[31，21]，它不需要使用外部预训练网络。最后总损耗通过组合等式2获得（6）和（5），稀疏运动和外观。但是，我们可以...服务，类似于发电机网络，M可能遭受Ltot=λrecLrec+LG. 在我们所有的实验中，我们选择从输入x和输出F之间的不对准。事实上，F与x′对齐。为了处理这个问题，我们根据每个关键点ρ（hk）的运动场使用扭曲算子fw，例如xk=fw（x，ρ（hk））。该解决方案提供了与F局部对齐的图像xk，的邻域H′。最后，我们连接H′−H，{xk}k=1.. K和x沿着通道轴，λrec= 10以下[44]。更多关于我们的信息-补充材料A中显示了这些信息。3.6.生成过程在测试时，我们的网络接收驾驶视频和源图像。为了生成第t帧，重新估计源图像中的关键点位置h模拟一个标准的U-Net网络与关键点类似类似地，我们估计关键点位置h1和ht，从K K和生成器网络，使用U-Net架构的动机是需要细粒度的细节。3.5. 网络训练我们建议以端到端的方式训练整个网络如SEC中所述。3.1，我们的损失确保了x′是从<$（x）∈U，<$（x′）∈U驾驶视频的第一帧和第t帧。不是从关键点的绝对位置生成视频，而是根据视频中的关键点之间的相对差异来转移源图像关键点生成的帧中的关键点由下式给出：hs′=hs+（ht−h1）（7）和x. 随着图像生成的最新进展，关键点hs′和hs被编码成热图我们将对抗性和特征匹配损失k k在[44]中提出，为了学习重建x′。更准确地说，我们使用一个网络D，它将H′与真实图像x′或生成图像x′ 连接起来作为输入。我们采用最小二乘GAN公式[25]，导致用于训练滤波器和发电机的两个以下损失：LD（D）=Ex′∈X[（D（x′<$H′）−1）2]使用从驱动估计的协方差矩阵，视频，如SEC所述。3.2.最后，将热图提供给密集运动和生成器网络，以与源图像结合在一起（参见Secs. 3.3和3.4）。重要的是，传递相对运动的一个限制是它不能应用于任意源图像。实际上，如果驱动视频对象不与源图像对象粗略对准，则等式（7）可能导致绝对关键点位置，这对于所考虑′′ 2+E（x，x′）∈X2[D（x<$（2004年）]如补充材料C.1所示。43242382L1太极(AKD、MKR）AEDL1尼莫AKDAEDBairL1X2Face0.068(4.50（35.7%）0.270.0220.470.1400.069我们0.050（2.53，17.4%）0.210.0170.370.0720.025表1：视频重建比较4. 实验在本节中，我们对三个问题进行了深入的评估，在三个非常不同的数据集上进行了测试，并采用了各种各样的指标。数据集。UvA-Nemo数据集[10]是由1240个视频组成的面部动态分析数据集。我们遵循与[45]相同的预处理。具体来说，在将每个帧重新调整为64×64像素之前，使用OpenFace库[1]每个视频从中性表情开始，持续32帧。与[45]一样，我们使用1110个视频进行培训，124个视频进行评估。太极数据集[39]由从YouTube下载的4500个太极视频片段组成。我们使用[39]中预处理的数据。特别地，帧被重新调整为64×64像素。这些视频被分成3288和822个视频，分别用于训练和测试。视频长度从32帧到100帧不等。BAIR机器人推动数据集[11]包含由Sawyer机器人臂在桌子上推动各种物体收集的视频它包含40960个培训和256个测试视频。每个视频是64×64像素，有30帧。评价方案。评价图像模拟方法的结果是一项困难的任务，因为地面实况模拟不可用。此外，据我们所知，X2Face [46]是之前唯一一种用于数据驱动的无模型图像动画的方法。对于这两个原因，我们评估我们的方法也对两个密切相关的任务。如[46]中所提出的，我们首先在视频重建任务上评估Monkey-Net。这包括从运动和内容解耦的表示中重构输入视频此任务是图像动画的在我们的情况下，我们将每个帧的前关键点其次，我们评估了我们的方法上的问题，图像到视频的翻译。在[42]中介绍，这个问题包括从第一帧生成视频。由于我们的模型不是直接为这个任务设计的，我们训练了一个小的递归神经网络，它从第一帧中的关键点坐标预测其他32帧的关键点坐标序列更多详细信息可参见补充材料A。最后，我们评估我们的模型上的图像动画。在所有实验中，我们使用K=10。指标. 在我们的实验中，我们采用了几个指标，以便提供与其它方法的深入比较。我们采用以下指标。• L1。在其中地面实况视频可用的视频重建任务的情况下，我们比较地面实况和地面实况的像素值之间的平均L1距离生成视频帧。• AKD 对于太极和Nemo数据集，我们采用外部关键点检测器来评估所生成的视频的运动与地面实况视频运动相匹配。对于太极数据集，我们采用[8]中的人体姿势估计器。对于Nemo数据集，我们使用[6]的面部标志检测器。我们为地面实况和生成的视频的每一帧计算这些关键点。从这些外部计算的关键点，我们推导出平均关键点距离（AKD），即，地面实况的检测到的关键点与生成的视频之间的平均距离。• MKR。在太极数据集的情况下，人体姿态估计器还为每个关键点返回一个二进制标签，指示是否成功检测到关键点。因此，我们还报告了缺失关键点率（MKR），即在地面实况帧中检测到但在生成的帧中未检测到此度量评估每个视频帧的外观质量。• AED。我们计算基于特征的度量，[12]这是一种计算平均欧几里得距离的方法。在一个实施例中，所述方法包括在地面实况的特征表示与所生成的视频帧之间进行特征嵌入被选择为使得度量评估身份被保留得有多好。更确切地说，我们使用一个经过面部识别训练的网络[1]用于Nemo，并使用一个经过训练的网络用于Tai-Chi的人员re-id [17]。• FID 的在处理图像到视频的转换时，我们使用Frechet Inception Dis完成了评估[18]（FID），以评估单个帧的质量。此外，我们还对图像到视频转换和图像动画任务进行了用户研究（参见第二节）。4.3）。4.1. 消融研究在本节中，我们提出了一项消融研究，以实证方式衡量我们建议的每个部分对性能的影响首先，我们描述了通过“截除”第二节中描述的模型的关键部分而获得的方法。3.1：(i)无F- 不使用密集光流网络M;（ii）无F粗略-在光流网络M中，我们不使用基于部分的方法;（iii）无F残差-在光流网络M中，我们不使用F残差;（iv）无F残差-我们不估计关键点中的协方差矩阵检测器k，并且方差被设置为k= 0。01如[20];(v)源图像不被提供给运动网络M，43242383太极太极L1(AKD、MKR）AEDFIDAEDMKR没有F无F残留0.0570.051(3.11（23.8%）(2.81（18.0%）0.240.22MoCoGAN [39]我们54.8319.750.270.17百分之四十六点二30.3%无x0.051（2.71，19.3%）0.21完整0.050（2.53，17.4%）0.21表2：视频重建消融研究太极拳。实数x′没有F没有F粗充分图4：太极拳视频重建的定性消融评价。M仅根据关键点位置差来估计密集光流;（六）完整表示完整的模型，如描述在第二节。3 .第三章。在选项卡中。2、定量评价。我们首先观察到，我们的完整模型在没有变形的情况下优于基线方法。根据所有指标观察到这一趋势。这示出了根据估计的运动来使特征图第此外，我们注意到，无F粗糙和无F残差都比使用全光流网络时表现更差这说明单独的F粗略和F残差不能准确地估计密集运动一个可能的解释是，F粗不能估计非刚性运动和F残差，另一方面，在预测的光流在存在大的运动。质量-结果如图所示4、证实这一分析。此外，我们观察到协方差矩阵时，性能下降的静态对角矩阵取代。这显示了在处理具有复杂和大运动的视频时编码更多信息的好处，如太极数据集的情况。最后，我们观察到，如果不向变形网络M提供外观，则视频重构性能略低。4.2. 与以往作品的比较视频重建。首先，我们将我们的结果与X2Face模型[46]进行比较，该模型与我们的模型密切相关表3：图像到视频转换比较。提议注意，可以进行这种比较，因为我们采用类似尺寸的图像和运动表示。在我们的情况下，每个视频帧是从源图像和10个地标重建的，每个地标由5个数字表示（两个用于位置，三个用于对称协方差矩阵），导致维度50的运动表示。对于X2face，运动被编码为维度为128的驱动矢量。定量比较报告见表1。1.一、我们的方法优于X2face，根据所有的指标和所有的评估数据集。这证实了通过运动特定关键点编码运动导致紧凑但丰富的表示。图像到视频翻译：在选项卡中。3我们比较了最先进的图像到视频转换方法：两种无监督方法MoCoGAN [39]和SV 2 P [2]，以及基于关键点的CMM-Net [45]。CMM-Net只在Nemo上进行评估，因为它需要面部标志.我们报告了Bair数据集上的SV2P结果，如[2]所示。我们可以观察到，我们的方法在所有指标上都明显优于三种方法补充材料C.3中的定性评价证实了这一定量评价在MoCo-GAN的情况下，我们观察到AED评分远高于其他两种方法。由于AED测量了身份的保存情况，因此这些结果证实，尽管MoCoGAN生成的视频很真实，但身份和个人特定的细节并没有得到很好的保存。一种可能的解释是MoCoGAN基于向量中的特征嵌入，其不捕获空间信息以及关键点。[45]中的方法最初产生逼真的视频并保留了识别性，但性能较低可以通过在存在大运动的情况下出现视觉伪影来解释（有关视觉示例，请参见补充材料C.3相反，我们的方法既保留了人的身份，即使在大的空间变形下也表现良好图像动画。在图5中，我们将我们的方法与Nemo数据集上的X2Face[46]进行了我们注意到我们的方法无F粗糙0.052(2.75（19.7%）0.22不，0.054(2.86，20.6%）0.23尼莫BairFIDAEDFIDMoCoGAN [39]51.500.33MoCoGAN [39]244.00CMM-Net [45]27.270.13SV2P [2]57.90我们11.970.12我们23.2043242384行车录像行车录像行车录像来源Source图像图像行车录像行车录像行车录像来源Source图像图像图5：Nemo数据集上图像动画的定性结果：X2face（第2行）与我们的方法（第3行）。图6：太极数据集上图像动画的定性结果：X2face（第2行）与我们的方法（第3行）Tocol：我们随机选择50对视频，其中第一帧中的对象具有相似的姿势。向用户显示三个视频：一是行车视频（参考）表4：图像动画的用户研究结果。我们的方法优于X2face的次数比例[46]。尽管XFace模型是专门为人脸设计的，但它在三个随机选择的样本上生成更逼真的微笑。此外，在绝对位置上转移相对运动的好处可以在图中清楚地观察到。5（第2栏）。当绝对- 当传输了lute位置时，源图像继承了来自驾驶视频的面部比例，从而导致具有较大脸颊的面部。在图6中，我们将我们的方法与太极数据集上的X2Face进行了比较。X2Face [46]未能独立考虑每个身体部位，因此，以其质心与驾驶视频中的质心匹配的方式扭曲身体相反，我们的方法成功地生成了与驾驶视频相匹配的合理运动序列。关于Bair数据集，示例视频显示在补充材料C.3.结果与其他两个数据集上获得的结果一致。4.3.用户评价为了进一步巩固定量和定性评估，我们使用AmazonMechanical Turk对图像到视频转换（请参阅补充材料C.3）和图像动画问题进行了用户研究。对于图像动画问题，我们的模型再次与X2 face [46]进行比较，根据以下亲-和2个视频从我们的方法和X2Face。向用户提供以下说明：选择与参考视频中的动画更好对应的视频。我们从10个不同的用户那里收集了每个视频的注释4.第一章我们生成的视频在所有数据集中几乎超过80%的时间都比X2Face视频更受欢迎。同样，我们观察到，对我们的方法的偏好在对应于大运动模式的两个数据集上更高。5. 结论我们介绍了一种用于图像动画的新型深度学习方法通过使用运动特定的关键点，预先学习的自我监督方法，我们的模型可以根据驾驶视频给出的运动来动画任意对象的图像。我们的实验，同时考虑自动计算的指标和人类的判断，表明所提出的方法优于以前的无监督图像动画的工作。此外，我们表明，我们的方法可以进行图像到视频的翻译，几乎没有调整。在未来的工作中，我们计划扩展我们的框架来处理多个对象，并研究其他运动嵌入策略。致谢这项工作是在FBK和UNITN之间的“视觉和学习联合实验室”下进行的太极尼莫·拜尔85.0% 79.2% 90.8%43242385引用[1] Brandon Amos ， Bartosz Ludwiczuk ， and MahadevSatya- narayanan. Openface：一种通用的人脸识别。2016.[2] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。在ICLR，2017。[3] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag.合成人类在看不见的姿势的图像。在CVPR，2018年。[4] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh 。再生甘：无监督视频重定向。在 ECCV，2018。[5] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型SIGGRAPH，1999年。[6] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。InICCV，2017.[7] 陈操、启明侯、昆州。位移动态表情回归实时面部跟踪和动画。TOG，2014年。[8] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。[9] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家跳舞吧在ECCV，2018。[10] HamdiDibekli ogZaglu，AlbertAliSalah，andTheoG ev ers.你真的在自发的微笑与假装的享受的微笑。ECCV，2012年。[11] Frederik Ebert，Chelsea Finn，Alex X Lee，and SergeyLevine.具有时间跳跃连接的自我监督视觉规划。在CoRL，2017年。[12] Patr i ckEsse r，EkaterinaSutte r，andBjo nOmme r. 用于条件外观和形状生成的可变u-网在CVPR，2018年。[13] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。在NIPS，2016年。[14] 雅罗斯拉夫·甘宁，丹尼尔·科诺年科，戴安娜·桑加图利娜，维克多·伦皮茨基。Deepwarp：用于凝视操作的真实感图像重新合成。在ECCV，2016年。[15] Zhenglin Geng，Chen Cao，and Sergey Tulyakov. 3d引导的精细面部操作。在CVPR，2019年。[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[17] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护，进行人员重新鉴定。 arXiv：1703.07737，2017。[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS。[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。[20] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。通过条件图像生成的对象地标的无监督学习在NIPS，2018年。[21] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。[22] 朱东奎金多妍金俊模生成融合图像：一个人的身份和另一个人的形状。在CVPR，2018年。[23] Nal Kalchbrenner 、 Aaron van den Oord 、 KarenSimonyan、Ivo Danihelka、Oriol Vinyals、Alex Graves和Koray Kavukcuoglu。视频像素网络。InICML，2016.[24] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。[25] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在ICCV。[26] Junhyuk Oh，Xiaoxiao Guo，Honglak Lee，Richard LLewis，and Satinder Singh.Atari游戏中使用深度网络的动作条件视频预测。2015年，在NIPS[27] 约瑟夫·P·罗宾逊，李运成，张宁，傅云，等。拉普拉斯地标定位。arXiv：1903.11633，2019。[28] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在MICCAI。施普林格，2015年。[29] SubhankarRoy，Env erSangineto，NicuSebe，andBe gu？mDemir.基于语义融合gans的半监督卫星图像分类。在ICIP，2018。[30] Masaki Saito、Eiichi Matsumoto和Shunta Saito。具有奇异值裁剪的时间生成对抗网。InICCV，2017.[31] Aliaks andrSiarohin，Env erSangineto，Ste' phaneLathuilie`re和Nicu Sebe。用于基于姿势的人类图像生成的可变形gans。在CVPR，2018年。[32] Aliaksandr Siarohin、Enver Sangineto和Nicu Sebe。GAN的白化和着色变换2019年，在ICLR[33] Aliaksandr Siarohin，Gloria Zen，Nicu Sebe，and ElisaRicci.通过生成baidu风格增强感知属性。在ACCV，2018年。[34] NitishSrivastava，ElmanMansimov，andRuslanSalakhudi-nov.使用lstms的视频表示的无监督学习。ICML，2015。[35] 唐昊，王伟，丹虚，严妍，Nicu Sebe。用于野外手势到手势翻译的手势。在ACM MM，2018年。[36] Hao Tang，Dan Xu，Nicu Sebe，Yanzhi Wang，Jason J.高素，还有颜颜。多通道注意力选择与cas-caded语义指导跨视图图像翻译。在CVPR，2019年。[37] 唐昊，丹虚，王伟，严妍，尼库·塞贝。用于多域图像到图像翻译的双生成器生成对抗网络。在ACCV，2019年。[38] Justus Thies ， Michael Zollhofer ， Marc Stamminger ，Chris- tian Theobalt，and Matthias Nießner. Fa

下载后可阅读完整内容，剩余1页未读，立即下载