高保真面部操纵的新方法：基于AF-VAE的人脸操作

86 浏览量更新于2023-10-16 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10033制作一张脸：走向任意高保真面部操纵钱胜菊1林冠怡5吴伟恩2，5刘杨小康3王泉5沈福民3陈倩5何冉41香港中文大学2清华大学3电子科技大学4NLPR、CASIA5商汤科技研究模型的输入人脸操作结果图1：通过转移从CelebA数据集学习的知识，在野外样本上进行面部操作的结果。第一列示出了输入图像，并且所述映射器是以目标表情/旋转边界图作为条件由AF-VAE生成的图像请注意，该模型使用来自YouTube的256×256分辨率的电影剪辑帧进行了微调所有生成的姿势都是以前看不到的摘要最近的研究表明，随着GANs和VAE范式的发展，人脸操作任务取得了显着的成功，但输出有时限于低分辨率和缺乏多样性。在这项工作中，我们提出了加性焦点变分自动编码器（AF-VAE），一种新的方法，可以任意操纵高分辨率的人脸图像使用一个简单而有效的模型，只有弱监督的重建和KL发散损失。首先，在结构隐层空间，这赋予更好的解纠缠和提高多模态表示与外部存储器。其次，为了提高合成结果的感知质量，在架构设计中的两个简单的策略进一步定制和讨论的人类视觉系统（HVS）的行为，允许精细控制模型的复杂性和样本质量。人的意见研究和新的国家的最先进的初始Score（IS）/Fre'echet初始距离（FID）证明了我们的方法优于现有的算法，推进的fidelity和极端的脸操纵任务。1在SenseTime Research实习期间完成的工作。100341. 介绍从单个图像自动操纵面部表情和头部姿势是一个具有挑战性的开放式条件生成任务。真实感人脸操作在电影制作、人脸分析、摄影技术等领域有着广泛的应用随着生成模型的蓬勃发展，近年来，这项任务的状态在努力生成多样化和照片般逼真的结果的最前沿取得了显着进展。然而，由于缺乏成对训练数据的不适定性，生成模型学习内在面部属性的紧凑表示以合成具有高保真度或大面部表情/姿势的当前最先进的面部操作方法[32，22，9，37]主要受益于生成对抗网络（GAN）的进步。为了解决上述两个瓶颈，大量算法集中于对损失项或生成器架构的复杂修改，并注入不同的面部属性信息[54，37，22，48，50，34，49，27]。其他工作侧重于特定任务培训过程的设计[54，16，48，55，7，2，28，29]。然而，由于这些方法的不稳定的训练过程和环境约束，在极端的面部几何变形和复杂的不受控制的数据集上成功地生成合理的样本仍然是这些方法难以实现的目标目前RaFD [26]中最先进的[32]面部表情合成实现了34的Fre'chet初始距离（FID）[15]，仍然存在即使在受控环境中，也与真实数据存在很大差距是的。在这项工作中，我们着手缩小保真度的差距，和极端之间的面部表情/旋转，所述面部表情/旋转由当前技术水平和真实世界的面部图像生成，具有简单而有效的框架。我们探索了用于面部操作任务的条件变分自动编码器（C-VAE）形式主义[21，41]。利用C-VAE良好的多样性和稳定的训练机制，采用C-VAE是直观的尽管如此，将“香草”C-VAE定制然而，如图所示。2（b），一个复杂的潜在表示，需要描述的因素，如年龄，肤色，亮度，和姿态将打破高斯假设，由于其不足。（2）面部表情比其他来源（如风景，数字和动物）更精细因此，VAE的特性和通用结构不能满足在高分辨率图像上保持人脸细节的要求。针对这一问题，本文提出了一种新的加性聚焦变分自动编码器框架（AF-VAE）通过应用一个轻量级的几何指导，摘要将人脸的外观和结构从潜在空间中分离出来，将潜在代码分解为姿态不变的外观表示和结构表示，从而在地形下保留了外观和结构信息。为了解决人脸模型的多样性问题，在该框架中引入了一种新的加性记忆模块，该模块将非监督聚类机制与结构化潜在空间中的高斯混合先验连接起来，从而赋予了多模型人脸表情/旋转生成的能力.为了进一步提高合成结果的感知质量，我们还发现了两种简单而有效的模型设计策略，并根据人类视觉系统（HVS）的行为对它们进行了经验描述。利用这种实证分析的观点，我们证明了这些策略的简单注入可以很容易地提高合成结果的感知质量。我们的模型可以稳定地操纵照片般逼真的面部表情，在不受控制的设置下，以256×256分辨率进行面旋转。所提出的AM-VAE改善了artFre'chetInceptionDistance （ FID ）和 InceptionScore（IS）在未控制的CelebA上[26]从71. 3和1. 065至三十六82和2。十五岁我们与当前最先进的人脸操作算法[9，32，37，46]，并表明我们的方法在定量和定性评估方面优于这些方法。广泛的自我评价实验进一步证明了所提出的组件的有效性。2. 相关工作面部操纵。在人脸图像操作的文献中，除了经典的质量弹簧模型和2D/3D变形方法[42，43，44]之外，最近，通过利用生成对抗网络（GAN）[32，22，9，37，53，51]的功能来获得照片般逼真的合成结果，已经取得了重大进展。为了提高GAN的鲁棒性和多样性，在各个方面进行了调整。例如，StarGAN [9]利用循环一致性来保留源图像和目标图像之间的关键属性GANimation [32]更进一步，利用更密集的AU先验向量通过改变每个AU的大小来增加多样性生成器架构中的注意力机制也被用来掩盖不相关的面部区域，强制网络只合成区域内纹理。FaceID-GAN [37]引入了一个三人对抗方案，并利用3DMM [3]更好地保护面部属性。CAPG-GAN [16]训练一个耦合代理识别器来约束姿势和面部结构的分布。由于GAN面临着脆弱的训练过程和采样多样性的挑战，一些工作利用变分自动编码器（VAE）范式及其变体10035探索在潜在空间中解开内在的面部特征。例如，神经面部编辑[40]和变形自动编码器[39]利用图形渲染元素，如UV贴图，阴影和阴影来解耦潜在表示。然而，这些基于VAE的方法的主要缺点是由注入的逐元素发散测量和不完善的网络结构引起的模糊的合成结果CVAE-GAN [1]将VAE和GAN结合到一个具有非对称训练损失和细粒度类别标签的框架中。这些方法都是通过流形遍历来编辑结果，缺乏用户对面部表情进行任意操作的接口。值得注意的是，VAE的容量约束也在其他任务中讨论，如图像标题，表示z = φ app （ x ， c ）和有理结构表示 y=μ str（c）。以这种方式，条件变分自动编码器（C-VAE）可以通过最大化条件数据对数似然p（x）的下限而被定制为其将z与y分离的能力的基线|y），即，l ogp（x|y）≥Eq[l ogp（x|z ，y）]-DKL[q（z|x，y），p（z|y）]，（一）其中q（z|x，y）是后验p（z）的近似分布|y）。特别地，q（z|x，y）和p（x|z，y）分别是编码器和解码器。该模型通常经过训练具有以下随机目标：1XN在[45，33]中，提出了加性高斯编码空间以提供更多样化和更莫-L（x，φ，φ）=-Ni=1logp（xi|zi，yi）+（2）在这些工作的激励下，我们开发了AF-VAE，它可以通过提供一个条件几何相关的附加记忆先验以及两个轻量级的网络设计策略来弥补VAE的缺点。高保真图像合成。近年来，生成具有精细细节和真实感纹理的高分辨率样本已成为图像合成任务的一个趋势。比如说，pix2pixHD [47]在pix2pix [20]的基础上引入了一个由粗到精的生成器，一个多尺度的消隐和一个特征匹配损失。该算法可以将人脸边缘转换为1024×1024分辨率下的真实感人脸图像。虽然它需要成对的训练数据，因此不能可以推广到任意边。[8]利用渐进式GAN在离散独热属性的控制下生成512到512个面部图像IntroVAE [17]提出以内省的方式联合训练其推理和生成器，实现1024×1024的重建分辨率。BigGAN [4]修改了一个正则化方案和一个相同的正则化方案。将技术应用于类条件GAN，以在ImageNet上实现512分辨率。虽然所有这些框架都只能进行不受控制的生成或离散属性编辑，但我们的框架专注于在不利用配对训练数据的情况下挑战高保真3. 方法在本节中，我们将探索操纵面部表情/旋转和扩大模式训练的方法，以获得详细架构设计的好处。我们首先在这里澄清我们的符号给定一张来自数据集X，我们的任务的目标是学习映射G，以将X转换为输出图像X，条件是获得面部结构信息c。内在的挑战是-这项任务的背后是在高保真设置和戏剧性的结构变化下保持面部外观。在这种情况下，我们将映射G解耦为φapp和μstr，它们有望学习姿态不变的外观DKL[qφ（z|x，y），p（z|y）]，s. t.8izi<$qφ（z|x，y）其中，编码器和解码器的参数φ和φqφ（z|x，y）通常被限制为N（0，I）上的分布，如[21]所示。但在问题的提法之下，有三个问题需要讨论：（1）如何准确地解开潜在空间，以保证z与y之前的结构互补，除了外观什么都没有？（2）KL发散项有助于学习的潜在空间的结构接近先验p（z|y）/N（0，I）。这种选择是否满足编码器（3）是否有知觉质量的同步-只有重建和KL发散损失的结果看起来对观众有吸引力？我们关注这些选择在面处理上的最优性，并在以下部分中探索更好的解决方案。我们的框架概述如图所示。第2段（a）分段。3.1. 几何引导解纠缠为了对人脸图像进行任意的处理，需要在c++中提供足够的几何信息.操作条件的典型选择包括面部标志、3DMM参数和掩模。在Pix2pixHD [47]中使用的稀疏地标信息的基础上，我们使用[52]中的离线插值过程来获得边界图。该离线过程被公式化为c=Fω（x）。然后，潜在结构表示y可以通过用编码器Eμ对c进行编码来获得。在没有任何语义假设的情况下，框架只能确保从x提取的潜在代码z对于结构y是不变的。为此，我们利用提取的地理信息来明确地解开潜在空间。具体地，y与推断的外观表示z连接。然后，级联表示被转发到解码器Dk。之间的跳过连接10036图2：（a）我们的框架（b）5000个面部结构表示的2D和3D投影。每个颜色表示一个聚类，我们的方法更直观的说明是将每个聚类映射到高斯先验，扩展了由单个先验约束的C-VAE的容量。进一步引入Eμ和Dμ以潜在地确保从先验（即，解码器D（n）。因此，鼓励z编码更多关于外观而不是结构的信息，否则，惩罚可能性p（x|y，z）将导致大的重构误差。3.2. 加法存储器编码潜表象的多样性和丰富性。由于外部存储器包含大的几何变化，一般的想法是建立潜在的表示能力，利用明确和简洁的空间语义，由协调中心提供的技术合作理事会指导通过对p（z）进行建模，|y）作为高斯混合，对于每个具有权重w k，平均值μ k和标准差σ k的聚类k，我们有：XK虽然明确的几何引导解纠缠有助于保留面部结构和结构化潜在的ap，p（z|y）=k=1w kN（z|2μ k，σkI）。（三）尽管人脸表示对于地貌是不变的，但是仍然难以满足精细人脸操作的要求。如图8，极端表达或野生环境下的图谱合成结果很容易崩溃为“平均面”现象。名词C-VAE公式被限制为得出先验p（z|y）从一个简单的结构，通常是零均值单位方差高斯。然而，年龄、年龄等因素然而，由于利用GMM先验优化等式2不是直接可处理的，因此需要在训练中近似KL发散，根据它们的概率从聚类之一采样z因此，该操作无法对包含多于一个面部几何特征的目标进行建模，一边笑一边侧着脸。因此，我们在我们的框架之前引入一个加法焦点，公式为：丛、亮度和姿态构成了复杂的分布，这打破了通常的假设。因此，一些特殊的面部特征可能会变得p（z|y）= N（z|XKk=12wk μk，σI）（4）在训练过程中的分布的“liers为此，现有结构的更好选择是哪里 σ 2I 是一协方差矩阵σ 2=PKw2σ2。在公式后面，我们假设这张脸-k=1K K探索一个体面的外观代表。直观地，从简单分布的组合中提取复杂先验将增加潜在码Z的多样性，并且同时使得能够计算闭合形式。因此，我们鼓励外观表示z具有由K个聚类组成的多模态结构，每个聚类对应于一个语义特征。在实践中，我们通过对所有数据进行K-均值聚类来构建存储库，年龄包含多个结构特征，权重为wk。该值对应于与每个焦点的相似性测量，其由归一化余弦距离定义。聚类的均值μ在单位球上随机初始化。KL项可以在q（z）上计算|x，y）=N（z|μ（x，y），σ 2（x，y）I），可以推导为：σ1XK21训练集的边界每个集群中心都被称为焦点，通常指的是一个独特的字符，DKL=log（φ）+2σ2Eqφ[（z-k=1wk μk）] -2笑或侧脸等特征这样，每σσ2+（μ hi-PKw μ）21用于训练的边界图将具有k维焦点索引功能：w（b）=（w1（b），w2（b），·· ·，wk（b）），表示其与每个焦点的相似性度量。= log（σφ）+φpk=1 kK- -一种2σ22（五）在训练中使用焦点索引特征以提高通过将上述KL项组合到等式2中，我们获得σ10037最终损失函数来训练生成器。3.3. 质量感知合成给定源图像x和tar_get_boundary_b，我们能够通过所提出的AF-V AE来操纵x的面部表情和头部姿态。对于翼P[6，11]，我们使用特征匹配损失Lrec=kx-xk1+lλlkl（x）-将L1（x）k作为L1/L2损失的重建i，克服了L1/L2损失的模糊结果然而，从表3中可以看出，结果仍远未达到令人满意的程度。有许多因素可能会导致合成图像中的伪影并导致感知质量失真，例如损失、不稳定的训练过程和网络体系结构。直觉上，可以通过引入辅助目标函数[13，30]或设计复杂的注意力机制来捕获更好的全局结构[32]来缓解问题。然而，我们转向两个轻量级的网络结构的设计，通过观察和HVS基础的第一次。我们在每个上采样层中使用子像素卷积[38]，而不是使用去卷积操作来执行如图3、棋盘式伪影明显减少。然而，有趣的是，从AF-VAE模型产生的重建结果具有/不具有亚像素在它们的直方图上产生相似的分布，并且它们的熵的差异很小（7。6405没有子像素，7. 6794，具有子像素，以及7。8267为源图像）。这意味着亚像素基本上不过滤伪影，而是将它们分散到图像的部分中。然而，HVS根据图像的区域不均匀地处理伪影信号。位于低频或边缘区域的伪影被强调，而位于高频区域的伪影往往被掩盖，如感知度量学习任务中所示[31，24，25，56]。因此，我们可以得出一个合理的解释亚像素卷积的改善感知测量。另一种技术是我们利用权重归一化（WN）[36]进行模型训练。在基于 GAN 的方法中，习惯性地将BatchNorm（BN）[19]替换为WN或其变体，以稳定训练的训练。相反，我们调整这种策略的编码器和解码器的AF-VAE。与没有WN的训练迭代相比，使用权重归一化训练的模型详细分析和损失曲线图见附录。这种现象类似于GAN。然而，可以从图中看到。WN有助于增加复杂数据集中生成图像的多样性，使合成结果更适合人类观察，从而提高感知质量。表3表明，WN合成结果的感知质量比BN和无BN模型好得多，使57。占7%图3：直方图w/wo pixel-shuffle（更好的放大）。和43. IS和FID分别提升6%4. 实验我们的框架提供了一种灵活的方式来操纵输入的人脸图像到一个任意的表达和构成下的边界地图的控制。在本节中，我们将与第4.1节中的最新方法进行定性和定量比较。然后，我们进行自我评估，以分析第4.2节中模型的关键组成部分。最后，我们将在第4.3节讨论我们方法的局限性。所有实验都是使用训练阶段从未见过的图像输出的模型进行的实施详情。在训练之前，所有图像都将对齐并裁剪为256×256分辨率。每个图像的面部标志都是使用一个开源的预-训练模型然后，对特征点进行插值，得到人脸边界图。对于聚类，我们选择k= 8作为聚类数，并选择K-means作为聚类算法来获得边界的聚类。详情请参阅附录。数据集。我们主要在 RaFD [23] 、 MultiPIE [12] 和CelebA [26]数据集上进行实验，这些数据集涵盖室内和野外环境。本文还引入了一个三维合成人脸数据集来进一步评估所提出的方法在人脸纹理细节上的性能，光照、肤色和皱纹。我们使用手和猫作为非人类数据集。分别通过预先训练好的手检测器和人的标记来获得手和猫数据集的界标对于每个数据集，90%的身份用于训练。剩下的10%被送入模型进行测试。由于篇幅限制，其他数据集的其他定量和定性结果见附录。基线。我们将我们的模型与三种最先进的基于GAN的算法进行比较：[9]，Ganimation [32]，and pix2pixHD[47].为了进行公平的比较，我们使用作者提供的实现来训练这些模型，并采用公开的预训练模型来获得条件输入，例如用于训练和测试模型的动作单元（AU）或地标。10038输入愤怒轻蔑dispensing恐惧快乐悲伤惊讶图4：与三种最先进算法的比较。(Zoom更好的细节。左三张图片为输入人脸，右三条直线分别为三种算法的生成结果StarGAN [9]和GANimation [32]是目前最好的大姿势下的方法最好放大看细节。我们报告了TS（TrueSkill）[14]和FR（愚弄率，生成的图像成功愚弄用户的估计概率），使用每个算法从25名参与者收集的数据。每个参与者被要求完成50个试验。图5：3D合成人脸数据集上的人脸旋转结果。有6个块，左上方的块代表5个目标边界图。对于每个块，左上方带有红色框的面是输入图像，其余5个是与第一块中的5个边界图相对应的合成结果。每个光源都有不同的纹理和照明。最好放大看细节。输入面旋转结果图6：MultiPIE [12]数据集上的面部旋转结果。性能指标。为了定量比较，我们评估了三个方面，即。综合效果的真实性、感性和多样性。对于感知质量和多样性的测量，我们使用Fre'chetInceptionDistance（FID，值越低表示质量越好）[15]和Inception Score（IS，值越高表示质量越好）[35]度量。为了逼真，我们使用Amazon Mechanical Turk（AMT）将我们的方法与现有方法的视觉保真度进行4.1. 与现有工作的比较4.1.1定性比较面部表情编辑。我们在Rafd上对7种典型表情进行了人脸操作，并与StarGAN、GANimation和pix2pix进行了比较。如图4、以往的引导方法在处理“厌恶”、“恐惧”等夸张表达时，分辨率为256 × 256，是脆弱的。相反，我们的方法可以摆脱模糊的文物，以及保持-由于精细解开的潜在空间和质量细化图式，值得注意的是，我们的结果远远好于所有基于GAN的基线，特别是在嘴和眼睛的细节纹理方面，这带来了更高的感知质量。定量评价在第二节。4.1.2进一步证明了这一点。面旋转。我们验证了我们的模型的能力，面对旋转任务与任意取向的姿态。请注意，在我们的设置中不需要任何配对的训练样本和首先，我们在3D合成人脸数据集上进行定性实验通过对三维路标图进行新的表达并将其重新投影到不同的二维视图中，得到不同方向的行驶路标图如图5、包括肤色、纹理、光线等因素都能很好的保存。这一现象验证了解缠机制在模型中的有效性。接下来，我们在真实数据集上评估其有效性。我们GANimationStarGAN10039模型FID是真实数据0.0001.383[47]第四十七话75.3760.875StarGAN [9]56.9371.036GANimation[32]34.3601.112我们25.0691.237模型愚弄率（%）TrueSkillStarGAN [9]3% ±0. 百分之四十八岁1±0。9[47]第四十七话4.第一章8%±0. 百分之九N/AGANimation [32]7 .第一次会议。0% ±1。百分之二二十四岁4±0. 8表1：采用FID和IS指标对RaFD数据集进行的与最新技术水平的定量比较。表2：用户研究评价，与最新技术水平比较如图6，即使在90○下，我们的模型仍然可以以简单的弱监督方式生成高保真度和照片般逼真的结果。（一）（b）第（1）款（c）第（1）款（d）其他事项图7：在Hands和Cats数据集上的实验。(a)显示手操作结果。左边是源手。在右侧，第一行表示目标手部骨架，接下来的两行分别表示生成的样本。（b）（c）（d）是三只猫的模拟结果。每行显示一个源猫图像和6个操作结果。4.1.2定量比较首先，我们评估生成的图像的感知质量和多样性如表1所示，我们的方法在两种测量上都比当前最先进的方法有很大的我们的FID和IS分别比以前的领先方法好1.3倍和1.1然后，我们使用Amazon Mechanical Turk（AMT）来比较我们的方法与前向方法的感知视觉现实。表2报告了AMT虚拟现实任务的结果。我们发现，我们的方法可以欺骗partici- pants显着优于其他方法。此外，对于TrueSkill，我们的模型更有可能获得用户4.2. 消融研究我们进行烧蚀研究，分析所提出的方法中的各个组件的贡献表3：CelebA的消融研究。输入目标边界我们的wo GMM Ours wo SubOurs wo WNOurs图8：RafD、MultiPIE和CelebA数据集的消融研究。定性消融。如图8、没有GMM和KL，无法生成具有张口、转身等大空间运动的目标。如果没有像素混洗，生成的面上会出现伪影。如果没有WN，视觉质量将受到限制。定量消融。我们根据FID和IS方法生成的样品的质量对每个变体进行如表3所示，引入的GMM、像素重排和权重归一化带来了很大的改善，FID和IS评分。从上述观察结果推断，每个组件在我们的方法中具有不同的作用删除其中任何一个都会导致性能下降。插值结果。为了验证我们的模型学习到的特征分布是密集和清晰的，生成的图像中的外观和结构都应该随着潜在向量的变化而连续变化活泼地我们的模型在图中展示了照片般逼真的结果。9通过不同样本之间的插值，表明它具有很好的泛化能力和鲁棒性，而不是简单地记忆训练数据。身份保护问题。身份保持是人脸生成领域的一个长期挑战。以前的主要方法[2，37]通常通过前-用身份分类器对网络进行分类，以限制合成人脸的多样性。为了研究不同因素对人脸身份识别的影响，我们在RafD、3D合成、模型FID是真实数据0.0002.662Ours w/o KL56.2751.863我们的，不含GMM62.6571.792我们的，不含PS71.3091.065Ours w/o WN65.3091.36510040图9：CelebA的插值结果。左上和右下是两幅真实图像，每一行和每一条线分别表示对潜在外观和结构向量的Face和PredictionNet数据集，如图所示。10个。我们发现，当从源图像修改地标时（图1） 10（a）），或使用与其他人相似的面部轮廓的边界（图10）。 10（b））作为条件边界图，该模型可以合成具有良好身份保护和高保真度的人脸。相反，当条件边界图的面部轮廓与源图像明显不同时（图11）。10（c）），合成结果的同一性趋于多样化。这些观察还表明，面部身份信息主要在结构空间中编码，如[5，10]所示。图10：三个实验设置的同一性保留评价。这样一个给定的边界，结果图像很可能只是变形这些属性与我们的目标外观，如图中右下部分所示11个国家。通过简单地变形结构，目标结果是不自然的，失去了身份。4.3. 局限性和失败案例我们在图中显示了四种类型的故障情况11个，全部源结果边界参考源结果边界参考其中有代表性的案例挑战了我们模型的极限。具体而言，第一种情况（左上角）与罕见数据有关。由于在我们的训练样本中很少看到蛋糕，因此模型可能无法保持样本的语义，并且往往是模糊的。类似的问题发生在右上图中，其中源图像中的一些源部分被遮挡。当源图像被遮挡时，我们的模型容易混淆，并且由于模型设计中的强结构一致性，可能会简单地将遮挡从源移动。我们的模型不能很好地处理的另一个具有挑战性的情况是特殊风格。如图在图11左下角，当涉及来自人脸的边界时，来自源样式的特征可能丢失。由于估计的地标可能与一些属性（例如性别和头部姿势）强烈相关，因此简单地施加图11：失败案例。所有四个故障案例均选自CelebA和QuestionNet数据集。我们在左边表示源图像，后面是操作结果及其边界引用。5. 结论在本文中，我们提出了一个加性焦点变分自动编码器（AF-VAE）框架的人脸操作，这是能够建模复杂的相互作用之间的面部结构和外观。基于HVS设计的轻型该方法在生成质量和对极端操作环境的适应性方面都对现有人脸合成方法进行了改进，并且结构简单，训练过程稳定。我们希望我们的工作能在这个方向上照亮更多的道路。10041引用[1] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua.CVAE-GAN：通过非对称训练生成细粒度图像。InICCV，2017. 3[2] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua. 面向开集身份保持的人脸合成。在CVPR，2018年。二、七[3] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。第26届计算机图形学与交互技术年会集，1999年。2[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。3[5] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。IEEE Trans.Vis. Comput. Graph. ，20（3）：413-425，2014. 8[6] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成。InICCV，2017. 5[7] Ying-Cong Chen，Huijia Lin，Michelle Shu，Ruiyu Li，Xin Tao ，Xiaoyong Shen， Yanang Ye ，and Jiaya Jia.Facelet-银行快速人像处理。在CVPR，2018年。2[8] 陈泽源，聂绍良，吴天富，克里斯托弗G.希利通过完全端到端渐进生成对抗网络实现具有多个可控属性的高分辨率人脸补全。 arXiv 预印本 arXiv ： 1801.07632 ，2018。3[9] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。二五六七[10] Jiankang Deng，Shiyang Cheng，Niannan Xue，YuxiangZhou，and Stefanos Zafeiriou. UV-gan：对抗面部uv图完成用于姿势不变人脸识别。在CVPR，2018年。8[11] Patr i ckEsse r，EkaterinaSutte r，andBjo nOmme r. 用于条件外观和形状生成的可变u-网在CVPR，2018年。5[12] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade和Simon Baker。多派图像和视觉计算，2010年。五、六[13] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在NIPS，2017年。5[14] 拉尔夫·赫布里希汤姆·明卡和索尔·格雷佩尔。真技能：一个婴儿技能等级系统。NIPS，2007年。6[15] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS，2017年。二、六[16] 胡一波，吴翔，冰玉，何冉，孙振安。姿势引导的真实感人脸旋转。在CVPR，2018年。二、六[17] Huaibo Huang，Zhihang Li，Ran He，Zhenan Sun，andTieniu Tan. Introduction：用于摄影图像合成的内观变分自动编码器. arXiv预印本arXiv：1807.06358，2018。3[18] 睿煌、张舒、李天宇、冉河。超越面旋转：全局和局部感知甘为真实感和身份保持正面视图合成。InICCV，2017.6[19] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。5[20] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。3[21] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。二、三[22] Jean Kossaifi 、 Linh Tran 、 Yannis Panagakis 和 MajaPantic。Gagan：几何感知生成对抗网络。在CVPR，2018年。2[23] Oliver Langner、Ron Dotsch、Gijsbert Bijlstra、DanielHJ Wigboldus、Skyler T Hawk和AD Van Knippenberg。Radboud人脸数据库的实现与验证。认知与情感，2010年。5[24] Kwan-Yee Lin和Guanxiang Wang。幻觉iqa：通过对抗学习进行无参考图像质量评估。在CVPR，2018年。5[25] Xialei Liu ， Joost van de Weijer ， and Andrew D.Bagdanov Rankiqa：无参考图像质量评估的排名学习。InICCV，2017. 5[26] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在ICCV，2015年。二、五[27] 吕永义、戴玉荣和唐志强。使用条件Cyclegan的属性引导的人脸生成在ECCV，2018。2[28] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。在NIPS，2017年。2[29] Liqian Ma，Qianru Sun，Stamatios Georgoulis，Luc VanGool，Bernt Schiele，and Mario Fritz.解纠缠的个人图像生成。在CVPR，2018年。2[30] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。InICCV，2017. 5[31] 大磐、平使、明侯、则丰应、思哲夫、元章。用于图像质量评价的盲预测相似质量图。在CVPR，2018年。5[32] 放大图片作者： Albert Pumarola ， Antonio Agudo ，Aleix M. Martinez ， Alberto Sanfeliu ， and FrancescMoreno-Noguer. Ganimation：从单个图像中获得解剖感知面部动画在ECCV，2018。二五六七[33] Shengju Qian ， Wayne Wu ， Yangxiaokang Liu ， BeierZhu，and Fumin Shen.扩展了cnc的人脸合成和建模能力。在NeurIPS研讨会，2018年。3[34] Fengchun Qiao，Naiming Yao，Zirui Jiao，Zhihao Li，Hui Chen，and Hongan Wang.用于面部表情合成的几何对比生成对抗网络。arXiv预印本arXiv：1802.01822，2018。210042[35] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。在NIPS，2016年。6[36] Tim Salimans和Diederik P Kingma。体重标准化：一个简单的重新参数化，以加速深度神经网络的训练。在NIPS，2016年。5[37] 沈玉军，罗平，严俊杰，王晓刚，唐晓鸥.Faceid-gan：学习对称的三人游戏gan，用于保持身份的面部合成。在CVPR，2018年。二、七[38] WenzheShi，JoseCaballero，FerencHusza'r，JohannesTotz ， Andrew P Aitken ，Rob Bishop，DanielRueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR，2016年。5[39] ZhixinShu ， MihirSahasrab udhe ， RizaAlpGuüler ，DimitrisSamaras，Nikos Paragios，and Iasonas Kokkinos.变形自动编码器：形状和外观的无监督解开。在ECCV，2018。3[40] Zhixin Shu ， Ersin Yumer ， Sunil Hadap ， KalyanSunkavalli，Eli Shechtman，and Dimitris Samaras.具有内在图像解缠的神经人脸编辑。在CVPR，2017年。3[41] Kihyuk Sohn，Honglak Lee，and Xinchen Yan.使用深度条件生成模型学习结构化输出表示。2015年，在NIPS中。2[42] Justus Thies ， Michael Zollhofer ， Marc Stamminger ，Chris- tian Theobalt，and Matthias Nießner. Face2face：实时人脸捕捉和rgb视频重现。在CVPR，2016年。2[43] Luan Tran和Xiaoming Liu。非线性三维人脸变形模型。在CVPR，2018年。2[44] Luan Tran和Xiaoming Liu。从野外图像中学习三维人脸变形模型。arXiv预印本arXiv：1808.09560，2018。2[45] Liwei Wang，Alexander Schwing，and Svetlana Lazebnik.使用具有加性高斯编码空间的变分自动编码器进行多样且准确的图像描述。在NIPS，2017年。3[46] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。在NIPS，2018年。2[47] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在CVPR，2018年。三、五、七[48] Wei Wang ，Xavier Alameda-Pineda ， Dan Xu ，PascalFua，Elisa Ricci，and Nicu Sebe.每个微笑都是独一无二的：地标引导的多元微笑一代。在CVPR，2

下载后可阅读完整内容，剩余1页未读，立即下载