ReenactGAN:基于学习的人脸再现框架的研究

42 浏览量更新于2023-10-13 收藏 2.82MB PDF 举报

人脸生成

人脸对齐

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ReenactGAN：通过边界转移学习再现韦恩·吴1 [0000 - 0002 - 1364 - 8151]、张云轩1 [0000 - 0002 - 2609 - 344X]、程立1[0000 - 0002 - 0892 - 4705]、陈谦1[0000 - 0002 - 8761 - 5563]、陈昌来2[0000 - 0001- 5345 - 1591]1商汤研究2南洋理工大学{wuwenyan，zhangyunxuan，chengli，qianchen}@ sensetime.comccloy@ntu.edu.sg抽象。我们提出了一种新的基于学习的人脸识别框架。被称为ReenactGAN的所提出的方法能够从一个特定的视频对象输入中，对模糊函数进行遍历和扩展。在像素空间中的直接转移的情况下，这可能导致结构伪影，我们首先将源面部映射到边界潜在空间上。一种方法是将我们的面部的骨吸收到面部的骨中，然后将其吸收到面部的骨中。最后，使用场景编码来生成再现的目标面部。由于有效和可靠的基于边界的转移，我们的方法可以执行照片般真实的人脸再现。此外，ReenactGAN的吸引力在于整个重演过程是纯粹的前馈，因此重演过程可以实时运行（在一个 GTX 1080 GPU 上为 30FPS）。数据集和模型可在我们的项目页面上公开获取†。关键词：人脸再现，人脸生成，人脸对齐，GAN1介绍Facereenactmet a mt 全息照相技术具有广泛的应用，包括电影制作、视频会议和增强现实（例如，虚拟YouTuber）。由于近年来RGB-D和RGB相机上的3D面部模型拟合[2，9]和地标检测[6，19，39，50-大多数现有的方法表示人脸作为一个预定义的参数3D模型。这些方法通常涉及跟踪和优化以适应特定的环境。*同等缴款。这项工作是在SenseTime Research实习期间完成的。†项目页面：https://wywu.github.io/projects/ReenactGAN/ReenactGAN.htmlWayne Wu等人2源视频到面部姿势和表情参数空间的限制性集合中一般来说，基于优化的方法可以更好地处理背景区域，相比，基于前馈的方法，只能支持像素生成周围的脸。然而，预定义的参数化3D模型很难捕捉人脸的所有细微运动此外，这些工作需要大量的努力和复杂的参数拟合的精细设计。考虑到这些方法的算法复杂性，其中很少有开源的。基于生成对抗网络（GAN）的方法的出现例如，Pix2Pix [15]和CycleGAN [57]提供了一种吸引人且简洁的面部重现替代方案。尽管如此，尽管GAN在许多图像到图像传输应用中取得了成功[27，15，57]，但训练一种纯粹的基于学习的方法来进行面部重现并不是微不足道的：（1）面部图像是在非常不同的姿势，表情和照明条件下捕获的因此，学习基于有限样本但覆盖所有方差的直接面对面映射是困难的。如图1所示，诸如CycleGAN的传统的最先进的GAN将在诸如大姿态的极端条件下生成(2)没有成对数据可用，因为我们很难匹配给定任意一组源和目标视频的不同表达。(3)我们希望执行多对一映射，即在给定任何源面的情况下，仅使用单个模型来重现特定目标。这种情况违反了CycleGAN的假设，因为不存在逆映射（一对多）。为了解决前两个挑战，我们需要定义一个空间或介质，该空间或介质允许面部运动和视觉的有效和鲁棒的传递。来源（输入）具体目标1（拟议）具体目标2（拟议）目标2（CycleGAN）图1.一、所提出的ReenactGAN能够通过从一个特定的视频中提取运动和面部表现来操纵视频中的目标面部与CycleGAN [57]相比，ReenactGAN可以舒适地支持大面部运动的再现CycleGAN无法传输最后三列中所示的不可见数据ReenactGAN：通过边界转移学习再现人脸3表情受以前的面部模型拟合方法的启发，我们建议使用面部轮廓或边界作为一个紧凑的介质来捕捉面部几何变化。具体地说，我们将源人脸映射到一个潜在的边界空间，我们希望面部运动和表情忠实地保持。然后，我们调整空间以适应特定的目标人物并解码外观。引入人脸边界作为潜在空间有利于人脸的再现。首先，人脸图像和人脸边界空间之间的映射涉及到人脸对齐问题。由于现代面部标志检测方法[61，50，19，6]，可以在大姿态，不同表情和极端照明条件下准确和鲁棒地获得面部边界。这是在直接基于原始像素的映射中不可用的独特优点。其次，简化了不成对数据的多样性表达的传递大规模人脸对齐训练集的可用性提供了由人脸图像和相应边界组成的高质量配对训练数据。没有配对数据的学习只发生在定义明确的边界空间中，而输入面部编码和目标面部解码过程可以充分利用成对面部对齐数据的力量我们的最后一个挑战是解决多对一映射问题。我们通过制定一个基于GAN的Transformer来适应输入面的边界空间到目标面来解决这个问题为了确保变换的质量使用特定于目标的Transformer，我们可以根据来自任意来源的图像或视频来重现目标面部。总的来说，拟议的ReenactGAN取决于三个组件：（1）编码器，用于将输入面部编码到潜在边界空间中，（2）目标特定Transformer，用于使任意源边界空间适应于特定目标的源边界空间，以及（3）目标特定解码器，用于将潜在空间解码为目标面部。ReenactGAN很容易重新实现和分发，因为框架中的每个组件都是一个前馈网络，唯一的训练材料是源-目标视频和面部对齐训练集。我们将我们的贡献总结如下：– 我们不需要任何本地的人工智能空间来进行人工智能操作。我们发现，面部边界保持足够的几何信息以再现具有原始像素的面部，但与直接映射原始像素相比，面部边界具有相对独立的特征。重要的是，边界空间对于具有挑战性的姿势、表情和光照条件更加鲁棒。– 基于边界潜在空间的概念，我们提出了一个新的基于学习的人脸再现框架.所有组件均为前馈。与传统的基于模型的方法相比，所提出的ReenactGAN更容易训练和实现。– 我们在潜在空间中引入特定于目标的变换器以实现多对一的人脸重现，否则使用传统的基于GAN的图像到图像传输方法是不可能的。Wayne Wu等人42相关工作Face Reenacctmen tt：大多数x is t i s t i e t i et tiet i e t t i et i e ti t i e t i e t it i e t ie 这三个方面的特点是：（1）功能，例如：跟踪面部模板[41]，使用光流作为外观和速度测量来匹配数据库中的面部[22]，或者采用RGB [4]或RGB-D相机[34]来捕获面部运动。面部标志检测方法[51，5]的最新进展使我们能够有效地跟踪输入的面部特征眼睛和动作。（2）一旦捕捉到面部运动，许多研究将随后在参数空间或模型中拟合运动，包括头部姿势[41，44]、眼睛注视[36，44]或3D模型基础上的PCA系数[35]，甚至详细的3D面部网格[48]。(3)一旦模型被拟合，下一步就是重新渲染一个新的视频。加里多等人[8]直接从目标视频中检索与源视频相似的姿态，并通过变形渲染新视频在[35]中采用了类似的策略来优化内口生成过程。基于检索的方法可以说是计算效率低[35，40]。最近，CycleGAN提供了一个新的可行的解决方案，人脸重现。据我们所知，尽管文献中没有发表的同行评审论文，但在社区中发布或展示了一些有趣的工作[53，16，47]。与CycleGAN只能处理单个源人员和一个目标相比生成对抗网络（GAN）和CycleGAN：生成对抗网络（GAN）[10]已被广泛用于图像生成，包括面部图像。通过采用对抗性损失，可以将低维噪声向量输入[10]，时尚设计编码[59]，不现实的渲染面部图像[28]或文本描述[54]映射到真实图像。Zhu等[57]已经表明，通过添加循环一致性损失，CycleGAN在学习两个域之间的转换函数方面取得了令人印象深刻的结果。最近，Muelleret al.[27]利用几何一致性损失来保留基于CycleGAN的手部姿势我们的方法是不同的，直接采取图像到图像的几何潜空间上的翻译，而不是添加一个辅助的几何约束。Xu等[53]应用CycleGAN来学习特定人对之间的转换。他们在不同的面部组件上添加了特定的鉴别器，以增强每个局部部分的性能。与[53]相比，我们的ReenactGAN首先将所有人脸映射到边界潜在空间中，然后将其解码到每个特定的人。利用所提出的目标特定Transformer，每个解码器可以基于自适应的边界空间将任意人再现到特定目标，从而高效且方便地实现多对一的再现引入边界空间也提高了面部动作的一致性和极端姿态的鲁棒性。3通过边界转移的拟议的框架ReenactGAN如图2所示。ReenactGAN可以分为三个组件：边界编码器、目标特定的ReenactGAN：通过边界转移学习再现人脸5图二. ReenactGAN的框架：有三个主要组成部分，都是前馈网络。在测试阶段中，编码器Φ将图像X编码到图像空间中。形成的图形是一个面向该区域的边界。一个解码器解码器多对一Transformer和目标特定解码器。每个组件都是一个前馈网络。在测试阶段，查询面将被向前传递通过每个组件。本节的其余部分将组织如下：Sec.3.1呈现了编码器、解码器和联合重构损失;3.2描述边界潜层;第3.3节解释了特定于目标的多对一Transformer的细节。3.1编码器和解码器我们的目标是找到一个函数对：编码器Φ：X-B和目标特定解码器ΦT：B-X，其中X表示原始像素空间处的面，并且B表示边界空间。编码器将面x∈X映射到潜在空间中b∈B。特定于目标的解码器将潜在边界b解码回特定于目标的fact∈T∈X。我们设计了我们的编码和解码流程，使用最先进的Pix2Pix方法[15]来合成照片级逼真的面部。具体来说，我们采用了在发电任务中广泛使用的组合损失[30，21，45]：L（ψ·φ，θ）=LGAN（ψ·φ，θ）+L1（ψ·φ）+Lfeat（ψ·φ）. （一）在不失一般性的情况下，我们将ψT表示为ψ。第一项L_GAN是对抗性损失，其采用鉴别器θ来区分真实样本t和重构样本Φ·Φ（t）。第二项L1是在los s上的L1重构。作为L2分布的第二层特性与VGG-16 [31]网络的第二层特性和第三层特性相同。这三种损失的组合被广泛用于图像重建以生成锐利和逼真的编码器φ解码器ψ堆1堆2U-Net凯瑟琳Transformer堆1堆2马云Conv+BN+ReLU残差单元沙漏堆1堆2在野外下采样ReLU+Deconv+BN去卷积+BN+ReLUTransformerΡ............Wayne Wu等人6i=1ℬÆÆBB图三.编码和解码过程的说明：我们首先将所有面部编码到潜在边界空间B中。然后对于每个目标T，我们有一个特定的解码器ψT来解码对应的面t∈T B的潜在边界。产出值得注意的是，我们的目标特定的解码器BNT不强制地将B解码回全面部空间X。相反，可以实现每个目标特定解码器对每个目标特定解码器的面部子集合T进行高质量的这个概念如图3所示。为了实现该目标，我们收集了大部分的面{t1 ，. . 、.、tN}∈T来训练器T。编码器Φ是共享的，并且所有{Φ·}和Φ是联合训练的。在Eqn中的损失。(1)有效地训练一对ψ，φ，这允许我们将人脸图像映射到潜在空间B中，反之亦然。我们的下一个挑战是弥合源边界空间和目标边界空间之间的差距。我们将在下一节中讨论这些挑战和我们的解决方案。3.2边界潜空间回想一下Eqn。(1)仅便于像素空间X和潜在空间B之间的映射。在本节中，我们讨论如何设计潜在空间B。我们希望潜在空间能满足两个性质。第一，B对面部表情敏感，对身份不敏感特别地，假设具有不同身份但相同表情的两个面x1、x2，它们应该被映射到边界空间B中的附近位置。其次，B应该包含丰富的结构信息，以支持外观的解码过程。为此，我们将潜在空间设计为K个边界热图的堆栈，{Mi}K 其中的每一个表示特定面部的轮廓，上左眼睑和鼻梁。每个热图都保持足够的空间分辨率64×64，以保留人脸的结构信息。图3中显示了一些热图（投影到单个地图进行可视化）如可以观察到的，边界热图是吸引人的，因为它们不受背景杂波、照明和面部纹理的影响。与原始像素空间相比，具有相同表情的面部在该边界空间中自然更接近在编码器φ和解码器φ之间，我们在编码器输出φ（x）和φ（x）之间添加L1损失，ReenactGAN：通过边界转移学习再现人脸7输入边界pix2pix（）一（）（）B（）（）C(a)（b）第（1）款见图4。(a)有边界和无边界特征空间的人脸重建。从左到右：1。原始图像输入; 2.用于潜在监督的边界图3. Pix2Pix的恢复与所述多个绑定和阵列空间一起恢复; 4. 具有边界潜空间的递归结果。（b）面对重新制定而无边界限制。我们将对他们的债券进行加密。这里，对于特定目标，在边界上没有进行适配，因此如果面部边界与解码器不匹配，则可以看到失败。其相关联的地面实况边界热图{Mi}。我们通过利用现有的面部标志数据集来准备地面实况边界热图[50，20]。具体地，每个面部图像用表示为S的一组P个界标来定义。首先内插对应于第i个面部部分的界标子集（由SiS表示）以得到密集边界线。然后，我们将线上的点设置为1，其他点设置为0。注意，这种形式的稀疏二进制热图将导致问题，因为回归到边界处的单个值点是困难的并且是高度非线性的。我们通过在边界上应用高斯平滑来解决这个问题，以便可以在位于边界位置附近的置信度图上进行回归。在图4（a）中，我们比较了使用边界潜在空间的人脸重建质量不使用潜在空间的重建等同于Pix2Pix [15]。从第三和第四列可以看出图4（b）示出了应用特定于目标的解码器的一些初步结果，诸如Emmanuel Macron（A）的Φ当两个面共享相似形状时，A和B的情况下，重新制定是满意的。然而，当面部形状不同时，解码器将在解码引起伪像Wayne Wu等人8输入∈Β转化i（）瑞尔Y∈ia) b）对抗性损失c）形状PCA空间和形状约束损失了图五、损失的处理：（a）损失的处理。我们强制所有的变换满足循环一致性规则。（b）对于每个人，我们也有一个判别器Ci来预测边界图是否属于他/她。c）我们将每个Transformer的输入和输出约束为在PCA子空间中接近。在其生成的图像中。这种观察激发了对边界Transformer的需求，我们将在下一节中讨论。我们希望指出，面部边界绝不是作为潜在空间的唯一我们相信，任何能够忠实地表现面部表情和动作，但又近乎不可知的媒介都可以在这里使用。这里选择面部边界，因为我们可以访问公共的大规模地标数据集，以限制空间的学习。其他介质，如面部表情空间和密集注释的坐标[12，11]，如果大数据集可用于约束空间的学习，则也3.3边界Transformer如图4（b）所示，当源和目标的面部形状之间存在大的结构间隙时，在其他人的边界热图上应用目标特定解码器可能导致严重的伪影。我们通过目标特定的变压器ρT来解决这个问题。ρT的设计目的是消除空间中任意一个平面与边界空间之间的间隙，形式上，它将φ（X）映射到φ（T）。该Transformer的学习可以在CycleGAN框架[57]中公式化，因为φ（X）和φ（T）是不成对的（它们是从不同人的视频中获得的）。然而，如图3所示，T仅是X的子集，找到从Φ（T）到Φ（X）的逆映射是有问题的，因为可能存在从任意人到一个人的映射，但是逆是多值函数，其不能通过前馈网络容易地求解回想一下，ρT将全集B约简为子集BT。如果只考虑一个ρT，则它的逆是多值的，不可能建立圈相合性。然而，如果我们同时考虑多个目标变压器并且改进[57]的循环，则我们可以解决问题。假设我们有几个目标的几个训练数据，{T1，. . . ，TN}，其中Ti≠X。对于B，我们不将边界空间φ（Ti）中的一个面积的面积定义我们希望培养出一系列的变形金刚，可以我我PC2PC1PC3ReenactGAN：通过边界转移学习再现人脸9将B变换为每个Bi。如图5所示，训练变压器的损失由三项组成：L（{p·}，{C·}）=L循环+LGAN+L形状，（2）其中{p·}是变换器的集合，{C·}是对抗学习概念中对应的判别器的集合。第一项是限制循环一致性的损失我们特别设bi∈Bi，我们对任意Transformerρj进行采样，其中j i. 与此在ρj（bi）与Bj相等且ρi·ρj（bi）相等的情况下，我们可以使用该算法来进行精细计算到B岛损失可以写成Lcycle=Ei=/j[ρi·ρj（bi）−bi]。（三）第二项定义了普通GAN损失。我们为每一个目标人物训练了一个CQCi鉴别器的职责是从各种形式的概率中鉴别出一个量的相对概率。这些丢失被发现了ΣLGAN（{ρ·}，{C·}）=（E bi∈Bi log C i（b i）+E b′ ∈B log（1 − C i·ρ i（b）.（四）我第三项是形状约束损失，其鼓励变换边界更好地跟随其源。损耗定义在Transformer的输入和输出之间。具体来说，我们首先使用一个完全连接的层来将形状潜在b映射到一个向量。然后，我们通过PCA压缩向量，并且仅保留捕获头部的粗略运动的前M个系数。我们将该线性过程表示为函数R，并将形状约束损失定义为L形= Eb∈B，i∈1，…，N[R（b）− R·ρ i（b）]。（五）4实验我们从两个方面来评价人脸再现：（1）图像质量4.1，我们在第二节中报告了一项用户研究。4.2. (2)面部动作一致性四点三。秒4.4最后提供了 Transformer 损耗的烧蚀研究 CelebrityVideoDataset ： F 或{T1，. . . ，TN}，我们从YouTube上收集了五位名人，即唐纳德·特朗普、埃马纽埃尔·平均时长为30分钟。这些名人具有相当不同的面部特征，因此视频非常适合于鲁棒性评估。使用半自动方法用98个标志来注释所有200K个面部，其中每个面部由最先进的面部标志检测方法注释[50]，然后进行额外的手动校正。名人视频数据集（CelebV）可在我们的项目页面上找到。边界估计数据集：我们结合两个人脸对齐数据集来生成边界热图的地面实况。第一个是WFLW [50]10Wayne Wu等。数据集，它提供了10000张照片，每张照片上有98个带注释的地标WFLW数据集使我们能够生成14个轮廓，包括鼻梁，右上眉，左上眉等。第二个数据集是Helen [20]，我们使用Helen [20]的注释协议用于鼻子边界。这两种类型的协议被融合，然后被用于生成边界热图的真实情况，如第2节中所讨论的。3.2.最后，获得15个真实边界热图用于编码器的训练。预处理：人脸由Faster R-CNN [29]检测，由KCF跟踪器[13]跟踪。DeepFace [33]从训练集中删除不相关的人的面孔每个面部都被归一化为具有刚性变换的平均形状，并被裁剪为256×256。培训详情：编码器在WFLW数据集的7500个面孔上进行训练，然后在CelebV数据集上进行微调，而Transformer和Decoder都只在CelebV数据集上进行训练。由于篇幅有限，我们将在补充材料中报告4.1与最新技术水平的定性比较我们将ReenactGAN与两种最先进的方法进行比较。(1)CycleGAN：由于没有普遍接受的基于CycleGAN的人脸重现实现，我们基于[57]实现了自己的实现。(2)[35] Face2Face不是开源的。因此，我们试图从其发布的YouTube演示中裁剪图像/视频，从而限制了比较。图6将我们的方法与两种最先进的方法进行了比较。这三种方法都适用于正面人脸。相比之下，所提出的方法在轮廓面部上工作良好（图6（a）），同时在将看不见的人的表情转移到目标方面更有效观察到，香草CycleGAN在毛发生成方面表现不佳我们相信这个问题可以通过增加鉴别器的功率来解决[53]。我们的方法不受同样的问题，通过编码到边界潜在空间，头发信息将首先被排除，然后由解码器渲染。另一方面，与仅改变外观的Face2Face相比内脸，我们的模型可以额外跟踪来自源视频的全局头部姿势（图6（c））。4.2人脸再现质量的用户研究我们对几个问题感到好奇：图像是否具有音质、清晰度和清晰度？图像是否包含奇怪的人工纹理？图像的表情看起来真实吗？我们还对另一个问题感兴趣：在CycleGAN[57]的测试过程中，该模型已经被所有人看到。它对看不见的野生数据有多好？为了回答这些问题，我们进行了用户研究，而不是采用一般的图像质量评估方法[46，23，24]或感知损失[58]进行评估，因为人类观察对于感知现实主义的验证更直接和合理我们要求30名志愿者比较ReenactGAN：通过边界转移学习再现人脸11输入CycleGAN提出(a) 正面输入与极端姿势输入输入CycleGAN提出(b) 对可见数据与野生输入输入Face2face提出(c) 关于Face2Face见图6。与最新技术水平的定性比较：我们将ReenactGAN与基于GAN的方法CycleGAN[57]和基于模型的方法Face2Face [35]进行了比较。在第二种情况下，我们尝试了模型从未见过的野生输入Vanilla CycleGAN失败了，因为它只学习了一个源人和一个目标之间的转换。12Wayne Wu等。7看到野生看到野生重建地面实况w/拟议w/拟议无变压器无变压器CycleGANT∙（）T∙∙（Y）T∙T∙（Y）T∙（Y）T∙（��Y）见图7。用户研究：我们比较了真实视频和6组不同的生成结果之间的质量。然后，我们通过TrueSkill计算他们的质量分数，并将统计数据可视化。生成的两张照片。具体来说，我们遵循[15，55]中提出的方案，其中每次比较限于10秒。经过多次比较，我们通过TrueSkill算法[14]（Elo-Rating的离线生成）确定每个面部的得分为了避免由照片内容（例如，人们可能认为照片更有吸引力以具有更好的质量，或者可能认为正面的脸质量较低），我们准备我们的比较以具有相同的姿势和相似的表情。我们在七个不同的设置中测量质量：（1）地面真实，a.k.at∈ T;（2）地面真值的重建结果，ψT·φ（t）;（3）使用ReenactGAN的可见数据，ψT·ρT·φ（t′），其中t′∈ T′/= T;（4）使用ReenactGAN的不可见数据，ψT·ρT·φ（x′），其中x′∈XTest，并且x′不属于任何训练的目标身份;（5）没有Transformer的可见数据，ψT·φ（t′）;（6）没有变换器的不可见数据ψT·φ（x′）;（7）使用CycleGAN的可见数据。我们为这项用户研究准备了180组结果对于每组，我们首先在目标集中选择一张脸。然后，我们从输入集和源训练集中检索最相似的姿势，并使用不同的模型生成六个结果。在每组中，评价了完整的C2=21比较。然后我们使用TrueSkill [14]算法来计算每个图像的分数从图7中可以明显看出，所提出的方法在该用户研究中优于CycleGAN。Transformer在重演中起着至关重要的作用不可见的野生数据将导致性能下降，但ReenactGAN可以很好地应对这一挑战。有趣的是，我们发现，RQT·φ会修复被遮挡的面部部分，因此志愿者有时会标记重建结果，使其具有比地面真实更好的质量。4.3面部动作一致性除了图像质量，我们提出了一个有趣的方法来衡量面部再现方法在转移面部表情的有效性。我们借用面部动作单位（AU）的概念[17，1，37，42，56，43，38，49]。我们特别ReenactGAN：通过边界转移学习再现人脸13Face2FaceAU4下眉器AU9鼻皱器AU17颏部提升器b) AU与源的见图 8 。面部动作一致性：（ a ）我们使用面部动作检测器来获得ReenactGAN和Face2Face的响应[35]。我们的方法是更准确地在trrrningg的tennte n g的我们的motint h.（b）在我们的结果和源之间的节点的响应的相关性方面，ReenactGAN表现出相对于源的显著更高的相关性源视频。在DISFA [26]数据集上训练动作单元检测器，该数据集提供了12种面部动作单元。我们使用98个面部标志作为输入，为每个动作单元训练MLP。我们只使用面部标志作为输入的原因是为了防止在这个相对较小的数据集上过度拟合。DISFA [26]上的5倍交叉验证准确度平均为55.2%，与最先进的方法（58.4% [49]，随机猜测为8.3%）具有竞争力为了与Face2Face[35]进行比较，我们首先收集其演示视频‡作为输入，然后将其重新输入到Trump。我们将我们的面部AU检测器应用于输入视频和两个在图8（a）中，我们示出了三个AU随时间的响应比较前两行，所提出的方法表现出更同步的响应与源输入，并产生更高的AU分数。我们还计算了图8（b）中输入和每个输出之间的三个ReenactGAN记录了相对于基线的显著更高的相关性。完整的比较将在补充材料中介绍。4.4边界Transformer的烧蚀研究节中3.2我们提到，通过仅组成编码器和目标特定解码器，只要它们的面部形状一致，就可以将源面部粗略地再现到目标。图9（a）提供了关于具有和不具有Transformer的结果的更详细的定性比较。在没有Transformer的情况下，解码器有时生成模糊的（行2、4）结果或具有严重纹理伪影的图像（行3）。在另一个实验中，我们研究了损失函数中的每个项的作用（等式11）。（2）译注。图9（b）示出了当我们顺序地将损耗项添加到Transformer损耗时，给定源的面边界的粘附通过添加形状‡h tt ps：//www. 你是我的。cm/wa t ch？v=ohmajJTcpNk丰颊器源提出Face2facea）AU响应与时间唇部拉伸器R2= 84.7%R2= 92.5%R2= 73.9%R2= 78.1%R2= 79.8%R2= 30.8%AU 6AU 17AU 2014Wayne Wu等。不带变压器的电源w/反式(a) Transformer与无Transformer源L甘+L形+L循环(b) Transformer损耗见图9。边界Transformer烧蚀研究：（a）比较有和没有Transformer的ReenactGAN的结果。（b）将不同损耗项添加到等式11中的Transformer损耗的效果（二）、因此，该方法通过单独应用GAN损耗来形成对源的位置的限制。通过添加循环损耗，我们可以进一步细化结果。对最后两行的仔细检查揭示了循环损失有助于改善眼睛和嘴区域的生成。5结论与讨论我们提出了一种基于学习的方法，ReenactGAN，用于照片级真实感人脸重现。我们的方法是新颖的，因为我们采取了一个完全不同的ap-proach源人转移到目标。具体来说，我们通过引入边界潜在空间来桥接源域和目标域大量的定性和定量实验表明，该边界空间能有效地再现表情准确、质量良好的人脸。多对一Transformer还有效地扩展了解码器的能力。经过训练的模型可以轻松地处理来自未见过的人的面部一些改进是可行的和明显的：1）我们可以引入面部成分鉴别器来增强面部特征上的遗传。2）我们可以将多个解码器合并到一个网络中3)这将是有趣的，研究基于学习的人脸和非人（动物或卡通人物）之间的重演谢谢。我们要感谢Kwan-Yee Lin的深刻讨论，以及Tong Li，Yue He和Lichen Zhou的特殊支持。这项工作得到了SenseTime Research的支持。ReenactGAN：通过边界转移学习再现人脸15引用1. Bartlett，M.S.，Littlewort，G.，弗兰克，M.G.，Lainscsek，C.，法赛尔，IR Movellan，J.R.：自发表情中面部动作的自动识别。JournalofMultimedia1（6），222. Cao，C.，Weng，Y.，林，S.，Zhou，K.：用于实时面部动画的3d形状回归。ACM Transactions on Graphics（TOG）32（4），41（2013）3. Cheng，Y.T.，Tzeng，V.，梁玉，王正正陈斌Chuang，Y.Y.，Ouhy- oung，M.：视频中基于三维模型的人脸替换。ACM（2009）4. Dale ， K. ， Sunkavalli ， K. ，约翰逊 M.K.Vlasic ， D.Matusik ， W. ，Pfister，H.：视频面部表情。ACMTransacti o nso nGra pi cs（TOG）30（6），15. Deng，J.，Trigeorgis，G.，Zhou，Y.，（1996年），中国科学院，Zafeiriou，S.：联合多视图面对齐在野外arXiv：1708.06023（2017）6. 董X Yan，Y.，欧阳，W. Yang，Y.：用于人脸标志点检测的风格聚合网络。来源：CVPR（2018）7. 埃克曼，P.，Friesen，W.，Hager，J.：面部动作编码系统（FACS）：手动。02 The Dog of the Woman（2002）8. Garrido，P.瓦尔加湖，Rehmsen，O.，Thormahlen，T.，Perez，P.，Theobalt，C.：自动面部重现。在：CVPR（2014）9. Garrido，P.瓦尔加湖，Sarmadi，H.，斯坦纳岛Varanasi，K. Perez，P.，Theobalt，C.：Vdub：修改演员的面部视频以进行合理的视觉对准，以进行配音。 In：ComputterGraphicsForum. vol. 第34页。 193- 204. WileyOnline Library（2015）10. Goodfellow，I.J.Pougetabadie，J.，Mirza，M.，徐，B.，Wardefarley，D.Ozair，S.，C〇urville，A.， Bengio，Y. ：一般情况下，驱动器是一个很好的工具。NIPS3，267211. 居尔河一、Neveverova ， N.Kokkinos ， I.： Densepose ：Densehummanposestimationin the wild.来源：CVPR（2018）12. 居尔河一、 Trigeorgis，G. Antonakos，E.， Snape，P.， Zafeiriou，S.，Kokkinos，I.：Densereg：完全卷积的密集形状回归。在：CVPR（2017）13. Henriques，J.F.，卡塞洛河Martins，P.巴蒂斯塔，J.：核化相关滤波器的高速跟踪。IEEE Transactions on Pattern Analysis and MachineIntelligence（ΤΡΑΜ Ι）37（3），58314. 赫布里希河，Minka，T.，Graepel，T.：TrueskillTM：贝叶斯技能评级系统。03 The Dog（2006）15. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。CVPR（2017）16. Jin X齐，Y.，Wu，S.：Cyclegan对峙arXiv：1712.03451（2017）17. Kapoor，A.，皮卡德，R.W.：学习环境中的多模态情感识别。In：MM（2005）18. Kim，H.， Garrido，P.， Te wari，A.， Xu，W.，这是J 我是M P'erez，P.，Ri chardt，C.， Zollhofer，M.， C. ：Deepvideoportraits. In：SIGGRAPH（2018）19. 库马尔，A.，切拉帕河：在树枝状cnn中解开3d姿态用于非约束的2d面部对准。来源：CVPR（2018）20. Le，V. Brandt，J.，林芝，Bourdev，L.D. Huang，T.S.：交互式面部特征定位。In：ECCV（2012）21. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Cunningham，A.Acosta，A.Aitken，A.P.，Tejani，A.，托茨，J.，王志，Shi，W.：使用生成对抗网络的照片级真实感单幅图像超分辨率。在：CVPR（2017）16Wayne Wu等。22. Li，K.，徐，F.，王杰，Dai，Q.，Liu，Y.：视频中面部表情合成的数据驱动方法。在：CVPR（2012）23. 林凯英王G：幻觉-iqa：通过对抗学习的无参考图像质量评估。来源：CVPR（2018）24. 林凯英王G：用于盲图像质量评估的自监督深度多项选择学习网络。在：BMVC（2018）25. Mahoor，M.H.，Cadavid，S.，Messinger，D.S.，科恩，J.F.：一种用于自动测量非姿势面部动作单元的强度的框架。在：CVPR（2009）26. Mavadati，S.M.，Mahoor，M.H.，Bartlett，K.，Trinh，P.，科恩，J.F.：DISFA ：自发面部动作强度数据库。 IEEE Transactions on AffectiveComput-ing（TAC）4（2），15127. Mueller，F. Bernard，F. Sotnychenko，O.，Mehta，D.，Sridhar，S.，Casas，D. Theobalt，C.：Ganerated手实时3D手跟踪从单眼RGB。来源：CVPR（2018）28. Nguyen，A.，Yosinski，J.，Bengio，Y.，Dosovitskiy，A.，Clune，J.：即插&即用生成网络：潜在空间中图像的条件迭代生成arXiv：1612.00005（2016）29. Ren，S.，他，K.，Girshick，R.B.，孙杰：更快的R-CNN：实现区域建议网络的实时对象检测。In：NIPS（2015）30. Sajjadi，M.S.M.，Scholkopf，B.，Hirsch，M.：增强网：通过自动纹理合成实现单张图像的超分辨率. In：ICCV（2017）31. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。第abs/1409.1556（2014）32. Suwajanakorn，S.，Seitz，S.M.，Kemelmacher-Shlizerman，I.：是什么让汤姆汉克斯看起来像汤姆汉克斯。In：ICCV（2015）33. Taigman，Y.，杨，M.，Ranzato，M.，沃尔夫湖：Deepface：缩小与人脸验证中人类水平性能的差距在：CVPR（2014）34. 这是J Zollhofer，M.，我是M Valgaerts，L.， Stamminger，M.， B. C.：实时表情转移，用于面部再现。ACM Transactions onGraphics（TOG）34（6），183- 1（2015）35. 这是J Zollhofer，M.， Stamminger，M.， C.，我是M. ：Face2face：实时人脸捕捉和rgb视频重现。见：CVPR（2016）36. 这是J Zollhofer，M.， Stamminger，M.， C.，我是M. ：Facevr：虚拟现实中的实时面部再现和眼睛注视控制。CoRR abs/1610.03151（2016）37. 唐，Y.，廖文，Ji，Q.：利用动作单元的动态和语义关系进行人脸动作单元识别。IEEE Transactions on Pattern Analysis andMac hi neIntel i ge nce（TPAMI）29（10），168338. Tran，D.L.，Walecki河Rudovic，O.，Eleftheriadis，S.，Schuller，B.W.，潘蒂奇，M.：Deepcoder：用于自

下载后可阅读完整内容，剩余1页未读，立即下载