面部动画生成：基于动作单元条件的单图像GAN方法

167 浏览量更新于2023-10-13 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Ganimation：从单个图像实现放大图片作者：Albert Pumarola1，Antonio Agudo1，AleixM. Martinez2，Alberto Sanfeliu1，Francesc Moreno-Noguer11InstitteRoboticainfmatica intrial， CS IC-UP C，08028，Ba rcelona，Spain2俄亥俄州立大学，哥伦布，OH 43210，美国抽象。生成对抗网络（GANs）的最新进展在面部表情合成任务方面取得了令人印象深刻的结果。最简单的全过程是一个GAN，该GAN的生成过程涉及特定领域的图像，即共享相同表情的人的一组图像。虽然有效，但这种方法只能生成由数据集的内容确定的离散数量的表达式。为了解决这一限制，在本文中，我们介绍了一种新的GAN空调计划的基础上行动单位（AU）的注释，它描述了在一个连续的流形的解剖面部运动定义的人类表达。我们的方法允许控制每个AU的激活的幅度，并结合其中的几个。此外，我们提出了一种完全无监督的策略来训练模型，只需要用激活的AU注释的图像，并利用注意力机制，使我们的网络对不断变化的背景和光照条件具有鲁棒性。广泛的评估表明，我们的方法超越了竞争条件生成器，无论是在能力，以合成更广泛的表达统治的解剖学上可行的肌肉运动，在处理图像的能力在野外。关键词：GANs，人脸动画，动作单元条件。1介绍能够从单个图像中自动动画化面部表情将为不同领域中的许多新的令人兴奋的应用打开大门，包括电影业、摄影技术、时尚和电子商务业务，仅举几例。随着生成和对抗网络变得越来越普遍，这项任务已经取得了重大进展，例如StarGAN [4]，它不仅能够合成新颖的表情，还能够改变面部的其他属性，例如年龄，头发颜色或性别。尽管具有一般性，但StarGAN只能在由数据集的注释粒度定义的离散数量的属性中改变面部例如，对于面部表情合成任务，2Pumarola等人Fig. 1. 从单个图像的面部动画。我们提出了一种解剖学上的一致性的方法，不限于一个离散的表达，并可以动画一个给定的图像，并在一个连续体中呈现新的表达在这些示例中，我们仅给出最左边的输入图像Iyr（由绿色正方形突出显示），参数α控制微笑表情中涉及的目标动作单元的激活程度此外，我们的系统可以处理具有非自然照明条件的图像，例如底行中的示例。[4]是在RaFD [16]数据集上训练的，该数据集只有8个用于表情的二进制标签，即悲伤，中性，愤怒，轻蔑，厌恶，惊讶，恐惧和快乐。然而，面部表情是面部肌肉的组合和协调动作的结果，不能被分类为离散和少量的类。Ekman和Friesen [6]开发了面部动作编码系统（FACS），用于根据所谓的动作单位（AU）描述面部表情，这些动作单位在解剖学上与特定面部肌肉的收缩相关虽然动作单位的数量相对较少（发现30个AU与特定面部肌肉的收缩在解剖学上相关），但已观察到超过7，000种不同的AU组合[30]。例如，恐惧的面部表情通常是通过激活产生的：内眉提升器（AU1），外眉提升器（AU2），眉下（AU4），上眼睑提升器（AU5），眼睑收紧器（AU7），嘴唇拉伸器（AU20）和下巴下垂（AU26）[5]。根据每个AU的大小，表情将在更大或更小的程度上传递恐惧的情绪Ganimation：从单个图像实现解剖感知面部动画3在本文中，我们旨在构建具有FACS表现力水平的合成面部动画模型，并且能够在连续域中生成解剖学感知的表达，而无需获得任何面部标志[36]。为此，我们利用了最近的EmotioNet数据集[3]，该数据集由100万张面部表情图像（我们使用了其中的200，000张）组成，这些图像在野外用离散的AU激活进行了注释1。我们构建了一个GAN架构，它不是像[4]中那样以特定域的图像为条件，而是以指示每个动作单元的存在/不存在和大小的一维向量为条件。我们以无监督的方式训练这个架构，只需要激活AU的图像为了避免需要同一个人在不同表情下的成对训练图像，我们将问题分为两个主要阶段。首先，我们考虑一个AU条件的双向对抗架构，给定一张训练照片，最初在所需的表达下呈现一个新的图像然后将该合成图像渲染回原始姿态，因此可以直接与输入图像进行比较。我们将最近的损失，以评估所生成的图像的真实感。此外，我们的系统还超越了最先进的技术，因为它可以在不断变化的背景和照明条件下处理图像我们通过一个关注层来实现这一点，该关注层仅将网络的动作集中在与传达新颖表达相关的图像因此，我们建立了一个解剖学上连贯的面部表情合成方法，能够在连续域中渲染图像，并且可以处理具有复杂背景和光照条件的野外正如我们将在结果部分所示，它与其他条件GANs方案相比，无论是在结果的视觉质量还是生成的可能性方面都是有利的图1示出了我们获得的结果的一些示例，其中给定一个输入图像，我们逐渐改变用于产生微笑的AU的激活的幅度。2相关工作生成对抗网络。GAN是一类基于博弈论的强大生成模型。典型的GAN优化包括同时训练生成器网络以产生真实的假样本，以及训练辨别器网络以区分真实和假数据。这个想法被所谓的对抗性损失所嵌入。最近的工作[1，9]已经显示出依赖于连续的地球移动器距离度量的改进的稳定性，我们将在本文中使用该度量来训练我们的模型。GAN已被证明可以产生具有高细节水平的非常逼真的图像，并已成功用于图像转换[38，10，13]，面部生成[12，28]，超分辨率成像[34，18]，室内场景建模[12，33]和人体姿势编辑[27]。条件GAN。一个活跃的研究领域是设计将条件和约束纳入生成过程的GAN模型。先前研究1使用[ 2 ]重新注释数据集以获得连续激活注释。4Pumarola等人已经探索了结合几个条件，如文本描述[29，39，37]和类信息[24，23]。对于这项工作特别感兴趣的是那些探索基于图像的调节的方法，如图像超分辨率[18]，未来帧预测[22]，图像修补[25]，图像到图像转换[10]和多目标域转移[4]。不成对的图像到图像转换。与我们的框架一样，一些工作也解决了使用未配对训练数据的问题第一次尝试[21]依赖于马尔可夫随机场先验，用于基于贝叶斯的生成模型，使用来自各个域中的边缘分布的其他人探索了用变分自动编码器策略增强GANS [21，15]。后来，一些作品[25，19]已经利用了驱动系统产生变换风格的映射而不改变原始输入图像内容的想法我们的方法与利用循环一致性来保留输入和映射图像之间的关键属性的那些工作更相关，例如CycleGAN[38]，DiscoGAN [13]和StarGAN [4]。人脸图像处理。人脸生成和编辑是计算机视觉和生成模型中的一个研究课题。大多数作品都解决了属性编辑的任务[17，26，31]，试图修改属性类别，如添加眼镜，改变头发颜色，性别交换和老化。与我们最相关的作品是那些合成面部表情的作品。早期的方法使用质量和弹簧模型来解决这个问题，以物理上近似皮肤和肌肉运动[7]。这种方法的问题是难以生成看起来自然的面部表情，因为存在难以用简单的弹簧模型渲染的许多微妙的皮肤运动。另一种研究依赖于2D和3D变形[35]，但在区域边界周围产生强烈的伪影，并且无法对照明变化进行最近的作品[4，24，20]训练了能够在野外处理图像的高度复杂的卷积网络。然而，这些方法已经以离散的情绪类别（例如，情感类别）为条件。快乐、中性和悲伤）。相反，我们的模型恢复了对皮肤和肌肉建模的想法，但我们将其集成到现代深度学习机器中。更具体地说，我们学习了一个GAN模型，条件是肌肉运动的连续嵌入，允许生成大范围的解剖学上可能的面部表情以及视频序列中的平滑面部运动过渡。3问题公式化让我们将输入RGB图像定义为Iyr∈RH×W×3，在任意面部表情下捕获。每个手势表达借助于一组Nactionunitsyr=（yi，. . . ，yN）n，其中，第n个动作单元的幅度不等于0和1之间的归一化值以模化第n个动作单元的幅度。值得指出的是，由于这种连续表示，自然插值-可以在不同的表情之间进行表情变换，从而允许渲染各种逼真且平滑的面部表情。Ganimation：从单个图像实现解剖感知面部动画5G图二. 概述我们的方法来生成照片般逼真的条件图像。建议的架构由两个主要模块组成：生成器G，用于回归注意力和颜色掩模;以及评论器D，用于评估在其相位相关性D中生成的图像，以及用于评估在其相位相关性D中生成的图像和在其相位相关性D中生成的图像。没有一个任务系统不需要监督，即，没有具有不同表情的同一个人的图像对，也没有目标图像Iyg被假定为已知的。我们的目标是学习映射M以将Iyr转换成以动作单元目标yg为条件的输出图像Iyg，即，我们试图估计映射M：（Iyr，yg）→Iyg。为此，我们建议在无监督的情况下训练M方式，使用M个训练三元组{Im，ym，ym}M，其中目标向量yrrgm=1ym是随机生成的。重要的是，我们既不需要同一个人在不同表情下的图像对，也不需要期望的目标图像Iyg。4我们的方法本节描述了我们的新方法来生成照片般逼真的条件图像，如图所示2，由两个主要模块组成一方面，生成元G（I yr|yg）被训练以逼真地变换面部表情在图像I中yr到期望的yg。注意，G被应用了两次，第一次是映射输入我的年龄 →Iyg，并且thenrenderitb c kIyg →yr. 在另一方面，我们使用基于WGAN-GP [9]的评论家D（Iyg）来评估所生成的图像的质量以及其表达。4.1网络架构生成器. 设G为生成器块。由于它将被双向地应用以将任一输入图像映射到期望的表达，反之亦然）。在下面的讨论中，我们使用下标O和F来指示原点和终点。给定图像Iyo∈RH×W×3和N-向量yf编码所需的表达式，我们将生成器的输入形成为一个级联（Iyo，yo）∈RH×W×（N+3），其中yo已表示为N个大小为H×W的数组。我们系统的一个关键要素是让G只关注那些区域负责合成新的表达并保持6Pumarola等人oo我图3.第三章。注意力生成器。给定输入图像和目标表情，生成器在整个图像上回归注意掩模A和RGB颜色变换C注意力遮罩定义每像素强度，指定原始图像的每个像素在最终渲染图像中的贡献程度图像的其余元素，如头发、眼镜、帽子或珠宝，不受影响。为了这个目的，我们已经嵌入了一个注意机制的发电机。具体地说，我们的生成器不是回归完整的图像，而是输出两个掩码，一个颜色掩码C和注意力掩码A。最终图像可以获得为：Iyf=A·C+（1−A）·Iyo，（ 1）其中A=GA（Iy|y（f）∈{0，. . . ，1}H×W和C=GC （Iy|yf）∈RH×W×3. 掩模A指示C的每个像素对输出图像I yf的贡献程度。以这种方式，生成器不需要渲染静态元素，并且可以排他地聚焦于定义面部移动的像素，从而导致更清晰、更逼真的合成图像。该过程描述在图1中。3.第三章。有条件的批评家这是一个经过训练的网络，用于评估生成的图像的照片真实性和所需的表达实现。D（I）的结构类似于从输入映射的PatchGan [10]网络的结构图像I转换为矩阵YI∈RH/26×W/26，其中Y[i，j]表示概率重叠片ij的值为实数。另外，为了评估它的条件，在上面其中，我们添加了一个辅助回归头，用于估计AU激活y=（y1，. . . ，y（N）在图像中。4.2学习模型我们定义的损失函数包含四个项，即图像对抗损失[1]与Gulrajani等人提出的修改。[9]将生成图像的分布推到训练图像的分布;注意力损失，以驱动注意力掩模平滑并防止它们饱和;条件表达式损失，其将所生成的图像的表达式调节为与期望的图像的表达式相似;以及有利于保持人物纹理同一性的同一性损失。Ganimation：从单个图像实现解剖感知面部动画7我yoOOOO我yoO2OO2图像对抗性损失。为了学习生成器G的参数，我们使用WGAN-GP [9]提出的标准GAN算法[8]的修改。具体地，原始GAN公式是基于Jensen-Shannon（JS）散度损失函数，并且旨在最大化正确分类真实图像和渲染图像的概率，同时生成器试图干扰鉴别器。这种损失相对于发生器参数可能是不连续的，并且可能局部饱和，导致鉴别器中的梯度消失这在WGAN [1]中通过用连续的地球移动器距离代替JS来解决。为了保持Lipschitz约束，WGAN-GP [9]提出为评论家网络添加梯度惩罚，该梯度惩罚被计算为相对于评论家输入的梯度的范数形式上，设I yo为具有初始条件y o的输入图像，yf为期望的最终条件，Po为输入图像的数据分布，并且P ~为随机插值分布。然后，我们使用的临界损失LI（G，DI，I y〇，yf）为：EIP[DI（G（Iy|yf））]−EIP[DI（Iy）]+λgpEI~Σ（~DI（I~）2−1）2Σ，其中λgp是惩罚系数。注意力丧失。当训练模型时，我们没有注意力掩模A的地面实况符号。类似地，对于颜色掩模C，它们是从评论器模块的结果梯度和评论器模块的其余部分学习的。损失然而，注意力掩模可以容易地饱和到1，这使得Iy〇=G（Iy〇|yf），则是，则不是。为了保留这个问题，我们用12-权重惩罚来正则化掩码此外，为了在组合来自输入图像的像素和颜色变换C时实施平滑的空间颜色变换，我们在A上执行总变差正则化。因此，注意力损失L_A（G，I_y_o，y_f）可以被定义为：λTVEIPoHΣ，WΣi、j（Ai+1，j−Ai，j）2+（Ai，j+1−Ai，j）2Σ+EIPo[2016 -02 -22]第二章：一个人的世界其中A=GA（Iyo|y（f）和Ai，j是A的ei，j，y。 λΤν是一种性能。条件表达式丢失。在减少图像对抗性损失的同时生成器还必须减少由D之上的AU回归头产生的误差。通过这种方式，G不仅学习渲染真实的样本，而且还学习满足由yf编码的目标面部表情。该损失由两个分量定义：具有用于优化G的假图像的AU回归损失，以及用于学习D之上的回归头的真实图像的AU回归损失。该损失Ly（G，Dy，I yo，yo，yf）被计算为：EI PΣDy（G（Iy|yf））]−yf2Σ+EIPΣ（三）身份丢失。利用先前定义的损失，强制生成器生成照片级逼真的面部变换。但是，没有脚踏实地的监督，就没有约束来保证在双方的投入上都有面子yo我~Oyoyoyo8Pumarola等人O并且输出图像对应于同一个人。使用循环一致性损失[38]，我们通过惩罚原始图像Iyo及其重建之间的差异来迫使生成器保持每个个体的身份：Lidt（G，Iyo，yo，yf）=EIyPo[G（G（Iyo|yf）|yo）−Iyo1]。（四）为了产生逼真的图像，发生器对低频和高频都进行建模是至关重要的我们基于PatchGan的评论家DI已经通过将我们的注意力限制在局部图像补丁中的结构来强制执行为了也捕获低频，使用11范数就足够了。在初步实验中，我们还尝试用更复杂的感知[11]损失代替l1-norm，尽管我们没有观察到性能的改善。全赔。为了生成目标图像Iyg，我们通过线性组合所有先前的部分损失来构建损失函数LL=LI（G，DI，Iyr，yg）+λyLy（G，Dy，Iyr，yr，yg）（5）+λA。LA（G，Iyg，yr）+LA（G，Iyr，yg）Σ+λidtLidt（G，Iyr，yr，yg），其中λA、λy和λidt是控制每个损失项的相对重要性最后，我们可以定义如下的minimax问题：G= arg min maxL，（6）G D∈D其中G从数据分布中抽取样本。此外，我们约束我们的candidD位于D，这表示1-Lipschitz函数的集合。5实现细节我们的发电机建立在约翰逊等人的网络的变化。 [11]由[38]提出，因为它被证明可以实现图像到图像映射的令人印象深刻的结果。我们稍微修改了一下，用两个并行的卷积层代替最后一个卷积层，一个用于回归颜色掩码C，另一个用于定义注意力掩码A。我们还观察到，通过实例规范化来改变生成器中的批规范化可以提高训练稳定性。对于批评者，我们采用了[10]的PatchGan架构，但删除了特征归一化。否则，当计算梯度惩罚时，评论家梯度的范数将相对于整个批次而不是相对于每个输入独立地该模型在EmotioNet数据集上训练[3]。我们使用200，000个样本（超过100万）的子集来减少训练时间。我们使用Adam [14]，学习率为0.0001，beta1 0.5，beta2 0.999，批量大小为25。我们训练30个epoch，并在最后10个epoch中将速率线性衰减到零评论家网络的每5个优化步骤，我们执行生成器的单个优化步骤方程中损失项的权重系数（5）被设置为λgp= 10，λA= 0。1,λTV= 0。0001，λy= 4000，λidt= 10。为了提高稳定性，我们尝试更新评论家在[32]中提出的生成器的不同更新中使用具有生成图像的缓冲区，但我们没有观察到性能改善。模型将两个选项设置为使用单个GeF或CeR进行检索GTX 1080 Ti GPU。Ganimation：从单个图像实现解剖感知面部动画9图4.第一章单AU版本。特定AU在强度增加的水平（从0.33到1）下被激活第一行对应于AU的零强度应用，其在所有情况下正确地产生原始图像。6实验评价本节对我们的系统进行了全面的评估。我们首先测试主要组件，即单个和多个AU编辑。然后，我们将我们的模型与当前的竞争技术进行比较，在离散情感编辑的任务中，并展示了我们的模型最后，我们讨论了模型值得注意的是，在一些实验中，输入面没有被裁剪。在这种情况下，我们首先使用检测器2来定位和裁剪面部，用等式（1）将表情变换应用于该区域。（1），最后将生成的人脸放回其在图像中的原始位置。注意力机制保证了变形的裁剪面部和原始图像之间的平滑过渡。正如我们将在后面看到的，这三个步骤的结果是与以前的型号相比，更高分辨率的图像补充材料可在www.example.com上找到http://www.albertpumarola.com/research/GANimation/。6.1单行动单位版我们首先评估我们的模型图4示出了用四个强度水平（0、0.33、0.66、1）单独变换的9个AU的子集。对于0强度的情况，期望不改变对应的AU。该模型适当地处理这种情况，并为每种情况生成输入图像的相同副本。应用身份变换的能力对于确保不引入不期望的面部移动是必不可少的2我们使用www.example.com上的人脸检测器https://github.com/ageitgey/face_recognition。10Pumarola等人图五. 注意力模型。中间注意力掩模A（第一行）和颜色掩模C（第二行）的细节。底行图像是合成的表达。注意力掩模A的较暗区域示出了与每个特定AU更相关的图像的那些区域保留原始图像中较亮的区域对于非零情况，可以观察到每个AU是如何逐渐加重的。注意在强度0和1下生成的图像之间的差异该模型令人信服地呈现复杂的面部运动，在大多数情况下是难以区分的真实图像。还值得一提的是，面部肌肉群的独立性被生成器适当地学习相对于眼睛和面部上半部分的AU（AU 1、2、4、5、45）不影响嘴部的肌肉。等效地，与嘴相关的变换（AU 10、12、15、25）不影响眼睛或眉毛肌肉。图5显示，对于相同的实验，产生最终结果Iyg的注意力A和颜色C掩模。请注意模型如何学会将其以无监督的方式将注意力（较暗的区域）转移到相应的AU以这种方式，它使颜色掩模不必精确地回归每个像素值。只有与表情变化相关的像素被仔细估计，其余的只是噪声。例如，注意力明显地排除背景像素，从而允许从原始图像直接复制它们。这是以后能够在野外处理图像的关键因素（参见第6节）。（五）。6.2多个AU接下来，我们将突破模型的极限，并在编辑多个AU时对其进行评估。此外，我们还评估了它在两个表达式之间插值的能力。该实验的结果如图所示1，第一列是具有表达式yr的原始图像，并且最右边的列是以目标表达式yg为条件的合成生成的图像。其余列是通过对以原始值和目标表达式：αyg+（1 −α）yr。结果显示出非常显著的平滑一致的跨帧转换。我们故意-选择具有挑战性的样本，以显示对光照条件的鲁棒性，甚至在化身的情况下，对模型先前未看到的非真实世界数据分布的鲁棒性。这些结果是令人鼓舞的，以进一步扩展该模型的视频生成在未来的作品。Ganimation：从单个图像实现解剖感知面部动画11见图6。与最新技术水平的定性比较。面部表情合成结果：DIAT [20]，CycleGAN [28]，IcGAN [26]和StarGAN [4];以及我们的。在所有情况下，我们表示输入图像和七种不同的面部表情。可以看出，我们的解决方案在视觉精度和空间分辨率之间产生了最佳权衡StarGAN的一些结果，目前最好的方法，显示出一定程度的模糊。先前模型的图像取自[4]。6.3离散情感编辑我们将以我们的方式，与基线DIAT [20]，CycleGAN [28]，IcGAN [26]和StarGAN [4]进行比较。为了进行公平的比较，我们采用了最近的工作StarGAN训练的这些方法的结果，用于渲染离散情感类别（例如，幸福，悲伤和恐惧）在RaFD数据集[16]。由于DIAT [20]和CycleGAN [28]不允许条件反射，因此它们针对每一对可能的源/目标情绪进行接下来我们简要讨论每种方法的主要方面DIAT [20].给定输入图像x∈X和参考图像y∈Y，DIAT学习GAN模型来渲染图像x中的域Y的属性，同时保存了这个人它是用经典的对抗性损失来训练的以及循环损失x−GY→X（GX→Y（x））1，以保持该人的身份。CycleGAN[28].与DIAT [20]类似，CycleGAN也学习两个域X→Y和Y→X之间的映射。为了训练域转移，它使用了一个正则化项，表示为循环一致性损失，它结合了两个循环：x−GY→X（GX→Y（x））1和y−GX→Y（GY→X（y））1。IcGAN [26].给定输入图像，IcGAN使用预先训练的编码器-解码器将图像编码为与表达向量y级联的潜在表示，然后重建原始图像。它可以通过以下方式在通过解码器之前用期望的表达式替换y12Pumarola等人见图7。对人脸表情分布空间进行采样。作为通过向量y_g应用我们的AU参数化的结果，我们可以从相同的源图像I_y_r合成各种各样的照片级真实感图像。StarGAN [4]. 循环损失的扩展，用于在具有不同数据域的多个数据集之间同时训练。它使用掩码向量来忽略未指定的标签，并仅在已知的地面实况标签上进行优化。当同时使用多个数据集进行训练时，它会产生更真实的结果。我们的模型在两个主要方面不同于这些方法。首先，我们不以离散的情感类别为模型的条件，但我们学习了解剖学上可行的扭曲的基础，允许生成连续的表达。其次，注意力掩模的使用允许仅在裁剪的面部上应用变换，并且将其放回到原始图像上而不产生任何伪影。如图6，除了估计比其他方法更具视觉吸引力的图像外，这导致图像具有更高的空间分辨率。6.4高表达变异性给定单个图像，我们接下来使用我们的模型来产生广泛的解剖学上可行的面部表情，同时保存人在图7中，所有面部都是在左上角用仅由14个AU定义的期望面部配置调节输入图像的结果注意，仅用14个AU就可以合成的解剖学上可行的表达的大的可变性。6.5在野外如前所述，在图。注意力机制不仅学习聚焦于面部的特定区域，而且允许合并原始和生成的图像背景。这使得我们的方法可以很容易地应用到野外的图像，同时仍然获得高分辨率的图像。对于这些图像，我们遵循Ganimation：从单个图像实现解剖感知面部动画13见图8。野外图像的定性评价。顶部：我们表示来自电影“C a r i b b e a n的P i r a t e s”的图像（左）以及通过我们的方法（右）获得的图像底部：以类似的方式，我们使用来自序列“图像”的图像帧（左）来合成具有不同分辨率的五个新图像检测和裁剪方案，我们之前描述过图8显示了这些具有挑战性的图像的两个请注意注意，注意力遮罩如何允许整个帧和生成的面部之间的平滑和不明显的合并。6.6挑战模型接下来，我们将突破网络的极限，并讨论模型的局限性。我们将成功案例分为六类，并在图中进行了总结。九号顶。前两个例子（顶行）对应于人形雕塑和非现实主义绘画。在这两种情况下，生成器都能够保持原始图像的艺术效果。此外，注意力遮罩如何忽略人工制品，如被眼镜遮挡的像素第三示例示出了对整个面部的非均匀纹理的鲁棒性观察到模型没有尝试通过添加/移除胡须的头发来均匀化纹理中右类别涉及具有非真实纹理的拟人化面部。至于头像图像，网络能够在不影响其纹理的情况下扭曲面部。下一个类别与非标准照明/颜色有关，对于这些非标准照明/颜色，模型已经在图1中示出为鲁棒的。1.一、最后一个也是最令人惊讶的类别是面部素描（右下）。虽然所生成的脸遭受一些文物，它仍然是令人印象深刻的方法是如何仍然能够找到足够的功能，在脸上的表情从担心到兴奋。第二种情况示出了非先前看到的遮挡的失败，我们还对图中的故障情况进行了分类。9-bottom，所有这些都推测是由于训练数据不足。第一种情况是与极端输入表达式时注意力机制中的错误有关。注意没有充分地加权引起透明的颜色变换该模型在处理非人类的拟人化分布时也失败了，最后，我们测试了处理动物时的模型行为，并观察了人脸特征等伪影14Pumarola等人见图9。成功与失败案例在所有情况下，我们分别表示源图像Iyr、目标图像Iyg以及颜色和注意力掩模C和A。上图：一些极端情况下的成功案例。下图：几个失败案例。7结论我们已经提出了一种新的GAN模型，用于在野外进行人脸动画，可以以完全无监督的方式进行训练它推进了目前的作品，到目前为止，只解决了离散情感类别编辑和肖像图像的问题。我们的模型编码解剖学上一致的面部变形参数化的AU。调节这些AU上的GAN模型允许生成器通过简单的插值来呈现宽范围的表达式此外，我们在网络中嵌入了一个注意力模型，该模型允许只关注与每个特定表情相关的图像区域通过这样做，我们可以很容易地处理图像在野外，分散背景和照明文物。我们已经详尽地评估了模型的能力和限制，在AprictioNet [3]和RaFD [16]数据集以及电影中的图像。结果是非常有希望的，并显示不同的表达式之间的平滑过渡这打开了将我们的方法应用于视频序列的可能性，我们计划在未来这样做致谢：这项工作得到了西班牙外交部的部分支持经济和竞争力的项目HuMoUR TIN 2017 -90086-R，ColRobTransp DPI 2016 -78957和Mar 'ıa deMaeztu卓越印章MDM-2016-0656;欧盟项目AEROARMS ICT-2014-1-644271;和由国家卫生研究院的Grant R 01-DC-014498。我们还要感谢Nvidia在GPU赠款计划下的硬件捐赠Ganimation：从单个图像实现解剖感知面部动画15引用1. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein GAN arXiv预印本arXiv：1701.07875（2017）2. B.A. A. A. B. A. A. A. B. Mahmud，M. Robinson，P. ：用于自动动作单元检测的交叉数据集和特定于个人的标准化。电影FG（2015）3. 贝尼特斯-基罗斯，C.F.，斯里尼瓦桑河马丁内斯上午等：Emotionet：一种精确、实时的算法，用于自动注释野外一百万个面部表情。见：CVPR（2016）4. 崔，Y.，Choi，M.，Kim，M.，J.W. Kim，S.，Choo，J.：Stargan：用于多域图像到图像翻译的统一生成对抗网络。CVPR（2018）5. Du，S.，Tao，Y.，Martinez，A.M.：复杂的面部表情。美国国家科学院院士。2013年第22355号（2014年）6. 埃克曼，P.，弗里森，W.：面部动作编码系统：一种测量面部运动的技术。咨询心理学家出版社（1978）7. Fischler ，文学硕士， Elschlager ， R.A. ：图形的表示与匹配。IEEETransacti o nso nCom p uter s22（1），678. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair ， S. ， Courville ， A. Bengio ， Y. ：生成性对抗网。在： NIPS（2014）9. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.C.：改进了Wasserstein GAN的训练。In：NIPS（2017）10. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：CVPR（2017）11. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV（2016）12. Karras，T.，Aila，T. Laine，S.，Lehtinen，J.：GAN的逐步增长，以提高质量，稳定性和变化。In：ICLR（2018）13. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现跨域关系与生成对抗网络。在：ICML（2017）14. Kingma，D.Ba，J.：亚当：随机优化的一种方法载于：ICLR（2015）15. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。载于：ICLR（2014）16. Langner，O.，多奇河Bijlstra，G. Wigboldus，D.H.，Hawk，S.T.，VanKnip-penberg ， A. ： Radboud 人脸数据库的展示与验证 Cognitionandemotion24（8），137717. Larsen，A.B.L.，Sønderby，S.K.，Larochelle，H. Winther，O.：使用学习的相似性度量对像素之外的像素进行自动编码。In：ICML（2016）18. L edig ， C. ，这是 LHusza'r ， F. ， Caballero ， J. ， Cunningham ， A.Acosta，A. Aitken，A. Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片级真实感单幅图像超分辨率。在：CVPR（2017）19. Li，C.，Wand，M.：基于马尔可夫生成对抗网络的预计算实时纹理合成In：ECCV（2016）20. Li，M.，左，W.，张德：面部属性的深度身份感知转移。arXiv预印本arXiv：1610.05586（2016）21. Liu，M.Y. Breuel，T.，Kautz，J.：无监督图像到图像翻译网络。In：NIPS（2017）22. Mathieu，M.，库普利角LeCun，Y.：超越均方误差的深度多尺度视频预测。In：ICLR（2016）23. Mirza ， M. ， Osindero ， S. ：条件生成对抗网。 ArXiv 预印本 arXiv ：1411.1784（2014）16Pumarola等人24. Odena，A.，Olah，C.，Shlens，J.：使用辅助分类器GAN的条件图像合成在：ICML（2017）25. Pathak，D.，Krahenbuhl，P. Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过图像修复进行特征学习。见：CVPR（2016）26. P e rnau，G.， Vande Wei jer，J.， Raducanu，B. A'lvarez，J. M. ：我发现了一个问题用于图像编辑的GAN。arXiv预印本arXiv：1611.06355（2016）27. Pumarola，A. Agudo，A.，Sanfeliu，A.，Moreno-Noguer，F.：任意姿态的无监督人物图像合成。来源：CVPR（2018）28. Radford，A.梅斯湖Chintala，S.：使用周期一致对抗网络的不成对图像到图像翻译。In：ICLR（2016）29. Reed，S.，Akata，Z.，Yan，X.，洛格斯瓦兰湖Schiele，B.，李H：生成对抗文本到图像合成。In：ICML（2016）30. Scherer，K.R.：情绪作为一个过程：功能，起源和调节。SocialSciencein formal21，55531. Shen，W.，Liu，R.：学习人脸属性操作的残差图像。在：CVPR（2017）32. Shrivastava，A.，Pfister，T.，Tuzel，O.，Susskind，J.，王伟，Webb，R.：通过对抗训练从模拟和无监督图像中学习。在：CVPR（2017）33. 王，X.，Gupta，A.：使用风格和结构对抗网络的生成图像建模In：ECCV（2016）34. 王志，Liu，D.，中国科学院，杨杰，汉，W.，黄T：基于稀疏先验的图像超分辨率深度网络In：ICCV（2015）35. 余，H.，Garrod，O.G.，Schyns，P.G.：感知驱动的面部表情合成。第36集9.1 The Dog（2012）36. Zafeiriou，S.，Trigeorgis，G.，Chrysos，G.，Deng，J.，Shen，J.：门坡面部地标定位挑战：迈向解决方案的一步在：CVPRW（2017）37. 张洪，徐，T.，Li，H.，Zhang，S.，（1991），中国农业科学院，黄，X.，王，X.，Metaxas，D.：Stack- gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成。In：ICCV（2017）38. Zhu，J.Y.，Park，T. Isola，P.，Efros，A.A.：使用周期一致对抗网络的不成对图像到图像翻译。In：ICCV（2017）39. Zhu，S.，Fidler，S.，Urtasun河Lin，D. Loy，C.C.：做你自己的Prada：具有结构连贯性的时尚综合。In：ICCV（2017）

下载后可阅读完整内容，剩余1页未读，立即下载