基于半监督对抗学习的3D变形模型新身份人脸图像生成

77 浏览量更新于2023-10-13 收藏 1.45MB PDF 举报

图像生成

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于半监督对抗学习的3D变形模型新身份人脸图像生成Baris Gecer1、Binod Bhattarai1、Josef Kittler2和Tae-Kyun Kim11英国伦敦帝国理工学院电气与电子工程系{b.gecer，b.bhattarai，tk.kim}@ imperial.ac.ukhttps://labicvl.github.io/2英国萨里大学视觉、语音和信号处理中心j.kittler@ surrey.ac.ukhttps://www.surrey.ac.uk/centre-vision-speech-signal-processing抽象。我们提出了一种新的端到端的半监督对抗框架，以生成具有各种表情，姿势和照明条件的新身份的逼真面部图像，这些图像由从3D变形模型中采样的合成图像调节。以前的对抗性风格转移方法要么用大量配对数据来监督网络，要么以无监督的方式训练高度欠约束的双向生成网络。我们提出了一个半监督对抗学习框架，通过少量成对的真实和合成图像以及大量未配对的数据来约束双向网络还提出了一种基于集合的损失，以保持生成的图像的identity相干性。定性结果表明，生成的新身份的人脸图像包含姿态，光照和表情的多样性。它们还受到合成输入图像的高度约束，同时增加了光度并保留了身份信息。我们将所提出的方法生成的人脸图像与真实数据集相结合，以训练人脸识别算法，并在两个具有挑战性的数据集上定量评估模型：LFW和IJB-A。我们的框架生成的图像始终提高了使用Oxford VGG Face数据集训练的深度人脸识别网络的性能，并实现了与最先进技术相当的结果。1介绍近年来，深度学习在几个计算机视觉任务[41，22，17，18，13，14，66]的性能方面表现出了很大的改进，包括人脸识别[37，47，63，34，62]。这主要归功于大规模数据集的可用性。然而，性能往往受到训练样本的数量和变化的限制。更大更宽的数据集可以提高模型的泛化和整体性能[47，1]。为每个特定的计算机视觉任务收集和注释训练示例的过程是费力且不平凡的。为了克服这一挑战，可以利用附加的合成训练示例以及有限的真实训练示例来训练模型。最近的一些工作，如3D人脸重建[42]，凝视2B. 盖策湾巴特拉伊Kittler和T.K.金图1：我们的方法旨在通过3DMM合成由给定合成图像它通过以无监督的方式在两个生成器网络之间引入额外的对抗游戏来正则化循环一致性[71]因此，欠约束循环损失的监督，有正确的匹配两个域之间我们还鼓励生成器通过预训练的分类网络通过基于集合的监督来保持面部身份估计[69，61]、人体姿势、形状和运动估计[58]等。使用从3D模型生成的额外合成图像来训练深度网络。人们可以使用3D变形模型（3DMM）[3]通过操纵识别、表情、照明和姿态参数来生成合成面部图像然而，由此产生的图像不够逼真，不适合野外人脸识别任务。这是因为真实人脸的扫描信息被3DMM压缩了，并且建模光照和表面的因此，使用从3DMM模型获得的合成数据的主要挑战是合成图像和真实图像的性质和质量的差异，这造成了域适应的问题[38]。最近，对抗性训练方法[48，51，12]已经变得流行，以减轻这些挑战。生成对抗网络（GAN），由Goodfellow等人提出。[20]及其变体[39，28，2，15]在生成逼真的图像方面非常成功。然而，在实践中，GAN很可能陷入模式崩溃的大规模图像生成。它们也不能产生3D相干和全局一致的图像[20]。为了克服这些缺点，我们提出了一个半监督对抗学习框架来合成真实感人脸图像的新身份表现出广泛的数据变化提供的3DMM。我们解决这些缺点，激发与从3DMM采样的合成图像的生成器网络，并将它们转换到逼真的域使用对抗训练作为桥梁。与大多数现有的用噪声向量激励其生成器的作品不同[39，2]，我们通过合成人脸图像来馈送我们的生成器网络这种强约束自然有助于避免模式崩溃问题，这是当前GAN方法面临的主要挑战之一。图1示出了所提出的方法的总体概述。我们将在第二节中更详细地讨论所提出的方法。3 .第三章。在本文中，我们解决的挑战，生成逼真的人脸图像从3DMM渲染的脸的不同身份的任意姿势，表情和光照。我们把这个问题表述为一个域适应问题，即对准基于半监督对抗学习的3DMM新ID人脸图像生成33DMM将人脸域渲染为真实人脸域。与我们最接近的以前的作品之一[26]解决了具有经典条件GAN的一对域之间的风格转换问题该方法的主要瓶颈是它需要大量的成对的例子，这是很难收集的。循环GAN [71]是另一种最近的方法，与我们的工作最接近，它提出了一种用于无监督图像到图像翻译的双向GAN框架。然而，只要保持两个映射网络的传递性，他们的方法中提出的循环一致性损失是满意的。因此，所得到的映射不能保证产生预期的变换。为了克服这些方法的缺点[26，71]，我们建议使用少量的配对数据来训练逆映射网络作为匹配感知网络。在所提出的方法中，逆映射网络扮演的角色的发生器和鉴别器。据我们所知，这是针对具有如此有限的配对数据的应用程序的对抗性半监督风格翻译的第一次尝试。在合成人脸图像中添加真实感并保留其身份信息是一个具有挑战性的问题。虽然合成输入图像，3DMM渲染的脸，包含不同的脸身份，他们之间的区别消失的结果，固有的非线性变换引起的激励现实主义。为了解决这个问题，以前的工作要么采用单独的预训练网络[65]，要么将身份标签（id）[55]嵌入到鉴别器中。与现有的作品不同，这些作品专注于生成现有身份的新图像，我们感兴趣的是生成新身份的多重图像。因此，这些技术并不直接适用于我们的问题。为了解决这一挑战，我们建议使用基于集合的中心[59]并在预训练的人脸嵌入网络之上推送损失函数[19]这将跟踪所生成的图像的嵌入的变化的平均值，该平均值期望相同的身份（即，质心）。以这种方式，在生成器网络un-likesoftmax层的训练期间，身份保留变得适应于变化的特征空间，该生成器网络un-like softmax层在生成有意义的图像之前在训练开始时非常快速地收敛。我们的贡献可归纳如下：– 我们提出了一种新的端到端对抗训练框架，以生成由具有身份，姿态，照明和表达多样性的合成3DMM图像约束的新身份的光物理面部图像。所得到的合成面部图像在视觉上是合理的，并且可以用于增强面部识别作为附加训练数据或任何其他图形目的。– 我们提出了一种新的半监督对抗风格转移方法，该方法将逆映射网络训练为具有成对合成真实图像的鉴别器– 我们采用了一种新的基于集合的损失函数来保持GAN训练过程中未知身份之间的一致性2相关作品在本节中，我们讨论与所提出的方法密切相关的现有技术4B. 盖策湾巴特拉伊Kittler和T.K.金域适配。如引言中所述，我们从3DMM渲染的面部生成照片真实感面部图像的问题可以被视为域适应问题。一种直接的自适应方法是通过简单地添加损失来通过二阶矩[52]或对抗损失[56，57，16]测量失配，从而在特征级最近，由于Kullback-Leibler散度[21，20，39]的实际突破，像素级域自适应变得流行，即优化的GAN一个通过最小最大博弈的生成和判别网络。它已被应用于广泛的问题，包括时尚服装[31]，个人特定的化身创建[60]，文本到图像合成[67]，面部正面化[65]和视网膜图像合成[12]。像素域自适应可以以监督的方式简单地通过调节鉴别器网络[26]来完成，或者当存在来自两个域的足够配对数据时，直接用预期输出调节生成器[9请注意，收集大量成对的训练示例是昂贵的，并且通常需要专业知识。[40]提出了一种具有匹配感知识别器的文本到图像合成GAN。他们优化他们的鉴别器的图像-文本匹配，除了需要现实主义的信息提供额外的不匹配的文本-图像对。对于配对数据不可用的情况，许多方法适应无监督学习，例如在生成器网络的输入和输出之间施加像素级一致性[6，48]，由两个域共享的编码器架构[7]和自适应实例归一化[24]。一种有趣的方法是在具有两个不同的生成器和鉴别器网络的域之间进行双向转换。它们将两个映射约束为彼此的逆，其中ResNet [71]或编码器-解码器网络[33]作为生成器。合成训练数据生成。使用合成数据作为额外的训练数据被证明是有帮助的，即使它们是许多应用中的图形渲染图像，例如3D面部重建[42]，凝视估计[69，61]，人体姿势，形状和运动估计[58]。尽管几乎无限数量的合成图像的可用性，这些方法是有限的，由于域的差异，在野外的图像。许多现有的作品利用对抗域自适应将图像转换为真实感域，以便它们作为训练数据更有用[70]生成许多未标记的样本，以半监督的方式改进人的重新识别。 RenderGAN [51]提出了一种复杂的方法来细化标记蜜蜂的图形渲染WaterGAN [32]通过明确建模相机参数和环境效果来合成逼真的水下图像，以用作颜色校正任务的训练数据一些研究通过3D模型对现有图像进行变形，以增强不同的数据集[36]，而无需对抗性学习。最近的一项工作simGAN [48]生成了逼真的合成数据，以改善眼睛注视和手部姿势估计。它优化了生成器网络的输入和输出之间的像素级对应关系这实际上是一种有限的解决方案，因为像素一致性损失促使生成的图像与合成输入图像相似，并且它部分地与合成输入图像相矛盾。基于半监督对抗学习的3DMM新ID人脸图像生成5对抗性的现实主义损失。相反，我们采用了一个类似于cycleGAN [71]的逆转换网络，并增加了一个成对的监督，以保持初始条件，而不会损害现实主义。该网络还表现为用真实配对数据训练的直接映射网络的鉴别器，以避免可能的有偏翻译。身份保护。为了保留合成图像的身份/类别，最近的一些作品，如[10，55]，将分类/身份信息作为额外的任务保存在识别器网络中其他一些人建议采用一个单独的分类网络，该网络通常是预先训练的[35，65]。在这两种情况下，类别/身份是预先已知的，并且在数量上是固定的。因此，通过用真实数据训练分类器来将这种监督包括在GAN框架中是微不足道的。然而，这种设置在我们的情况下是不可行的，因为要生成的新身份的图像不可用于预训练分类网络。为了解决现有方法的限制，保留身份/类别信息的合成图像，我们采用了不同的基于集合的监督方法的组合，未知的身份是不同的预训练的嵌入空间。我们通过中心损失的动量质心更新规则[59]跟踪相同id特征的移动平均值，并通过磁体损失的简化变体[43]惩罚远距离相同id样本和近距离不同id样本，而没有其复杂的采样过程，并且每个身份只有一个集群（进一步讨论请参见第3.33对抗性身份生成在本节中，我们将详细描述所提出的方法。图1显示了我们的方法的示意图具体地说，合成图像集x∈ S由图形引擎针对随机采样的3DMM及其身份、姿态和照明参数α形成。生成的图像通过网络G被转换到更真实的域G（x），并通过网络G’映射回其合成域（G’（G（x）以保留x。G和G′网络的对抗性合成域和实域变换由鉴别器网络DR和DS监督。G和G′之间的附加对抗博弈分别作为生成器和鉴别器在训练期间，由3DMM生成的身份在预训练的嵌入网络C上以基于集合的损失被保留。在下面的小节中，我们将进一步描述这些组件，即：域适配、实合成对鉴别器和身份保存。3.1无监督域自适应给定一个3D变形模型（3DMM）[3]，我们合成了从其主成分分析（PCA）系数空间采样的新身份的人脸图像，dom的表情，灯光和姿势的变化类似于[71]，合成输入图像（x∈S）通过残差网络（G：S→R）映射到真实感域，并通过3DMM拟合网络（G′：R→S）映射回合成域，以6B. 盖策湾巴特拉伊Kittler和T.K.金不不不仅完成向前循环3.为了保持循环一致性，生成的图像G′（G（x））通过像素级L1损失被鼓励与输入xLcyc=Ex∈ SG′（G（x）） −x1（1）为了鼓励所得到的图像G（x）和G’（G（x））分别具有与真实域和合成域类似的分布，这些细化器网络由具有相应域的图像的鉴别器网络DR和DS鉴别器网络形成为边界平衡GAN（BEGAN）架构[2]中的自动编码器，其中生成器和鉴别器网络通过以下对抗训练公式进行训练：LG=Ex∈S <$G（x）−DR（G（x））<$1（2）LG′=Ex∈S<$G′（G（x））−DS（G′（G（x）<$1 （3）LDR =Ex∈S，y∈Ry−DR（y）1−kDRLG（4）LDS =Ex∈Sx−DS（x）1−kDSLG′（5）其中对于每个训练步骤t和生成器网络（GforkDR，G’forkDS）t t我们用kD=kD+0更新平衡项。001（0. 5LD− LG）。按照建议t t−1在[2]中，这一术语有助于在发电机的利益和鉴别器和稳定训练。3.2对抗配对循环一致性损失保证了函数G和G ′的双射传递性，这意味着生成的图像G（x）∈R<$$>应该被转换回x∈S<$$>。传统网络是高度欠约束的，它们可以自由地进行任何非预期的只要满足循环一致性，就可以改变。因此，在没有附加监督的情况下，不能保证实现从域S到R和R到S的保持面部图像的形状、纹理、表情、姿态和照明属性的正确映射。这个问题通常通过在网络的输入和输出之间引入pix el-1ev el惩罚来解决[71，48]，这对于域适应来说是次优的，因为它鼓励停留在相同的域中。为了克服这个问题，我们提出了一个额外的成对对抗损失，它为G′网络分配了一个额外的角色，作为成对鉴别器来监督G网络。给定一组成对的合成图像和真实图像（P_S，P_R），通过BEGAN如下计算鉴别器损失：LDP =Es∈PS ，r∈PRs−G′（r）而G′网络本身是一个生成器网络（G′：R→S），具有一个单独的我们使用它作为第三个配对的监督G，真实图像和合成图像的成对对应的分布的手段因此3我们根据经验发现，当任务是从人工图像映射到真实图像时，去除向后循环损失可以提高性能，如[71]的表4所示。基于半监督对抗学习的3DMM新ID人脸图像生成7(a) DC-GAN[39]（b）BEGAN [2]（c）Ours（d）GAN-CLS [40]图2：我们的配对方法与相关工作的比较。(a)在transmartGAN方法中，图像处理模块通过分类网络对齐真实图像和合成图像的分布。(b)BEGAN[2]和许多其他人表明，重建误差分布的对齐提供了更稳定的训练。(c)我们建议利用这种自动编码器的方法来调整对的分布，以鼓励生成的图像被转换到现实的域与真实和合成对之间的游戏。(d)我们的方法的替代方案是将错误标记的图像引入到鉴别器中，以教导[40]提出的用于文本到图像合成的成对匹配。当循环损失优化双对象对应时，我们期望得到的成对（x∈S，G（x）∈R）具有与成对训练数据（s∈ PS，r∈ PR）相似的相关分布。图2示出了其与先前相关技术的关系以及与作为具有用于文本的配对输入的匹配感知鉴别器的替代方案的比较。图像合成，如[40]所建议的。请注意，如何利用BEGAN自动编码器架构来将合成图像和真实图像对的分布与合成图像和生成图像对齐。或者，可以将G'网络预训练为3DMM拟合网络，如[54，49，53，11]所示。然而，我们从头开始训练它，以平衡生成器（G）和成对生成器（G′）之间的对抗性零和游戏。否则，梯度将消失，因为欺骗鉴别器不会成功。此外，这些网络仅提供拟合的3DMM参数，然后需要通过可微分张量运算将其渲染成3DMM图像。8B. 盖策湾巴特拉伊Kittler和T.K.金M−1图3：训练期间3个身份的9个图像（每行）的质量红色图显示了迭代过程中提出的身份保留损失。注意面部细节的变化，这是基于集合的身份保持的主要动机3.3身份保护虽然身份信息由3DMM以形状和纹理参数提供，但是其可能由于非线性变换而在一定程度上丢失。一些研究[65，55]通过使用已知受试者的身份标签作为额外的监督来解决这个问题，无论是使用预先训练的分类网络还是在识别网络内。然而，我们打算生成从3DMM参数空间采样的新身份的图像，并且它们的真实感图像根本还不存在。此外，同时训练新的softmax层和框架的其余部分会变成鸡生蛋的问题，并导致训练失败。为了在不断变化的图像空间中保持身份，我们建议在预训练的人脸嵌入网络上采用基于集合的方法。我们引入了拉取相同ID样本以及从嵌入空间中的不同身份推送接近样本的想法，以便收集相同ID图像并与其他身份区分开来，而不管训练期间图像的质量如何。在预先训练的网络C的嵌入层，生成器网络（G）由针对给定小批量（M）定义的中心[59]和推动损失[19]（其也是磁体损失[43]公式的简化版本）的组合来监督：ΣMexp（1C（G（x））−c2−η）Σ2σ2ix2LC=Ex∈S，ix∈N+−对数exp（1<$C（G（x））−c<$2）（7）xj/=ix2σ2j2其中i，x表示由3DMM采样提供的x的身份标记，并且c，j表示身份j的平均嵌入。保证金项η被设置为1，并且方差<$M<$C（G（x））−ci<$2由σ =xx计算二、而在训练过程中，图像质量得到了改善，即更好的照片真实感，它们在嵌入空间上的投影在移动。为了适应这些变化，我们用β = 0的动量更新身份质心（c j）。95当新的图像的IDj变为可用。在[59]之后，对于给定的x，一个恒等质心的计算公式为ct+1=ct−βδ（ix=j）（ct−C（G（x），其中j j j如果满足条件，则δ（条件）=1，如果不满足，则δ（条件）=0质心（c，j）被初始化为零，并且在几次迭代之后，它们收敛到嵌入cen。ters，然后继续更新以适应G.图3示出了在训练迭代上的3个身份的9个图像的质量。请注意，在与在下图中的图像会聚之后的图像的差异基于半监督对抗学习的3DMM新ID人脸图像生成9在训练开始时，由Softmax层产生，该Softmax层未能在稍后的迭代中监督即将到来的图像。完整目标总的来说，框架通过以下更新同时进行优化θG= arg minLG+λcycLcyc+λCLC（8）θGθG′=argminLG′+λcycLcyc+λDPLDP（9）θG′θDR，θDS=argminLDR+LDS（10）θDR，θDS其中λ参数平衡不同模块的贡献。下一节将讨论这些参数的选择。4实现细节网络架构：对于生成器网络（G和G’），我们使用了[27]中的浅为了充分利用3DMM图像，我们还在网络G中增加了跳过连接。我们还在前向传递中的每个块之后添加dropout层，保持率为0.9，以引入一些可能由不受控制的环境变化引起的噪声。我们构造了鉴别器网络（DR和DS）作为训练好的自编码器通过边界平衡对抗学习与Wasserstein距离，如[2]所提出的。分类网络C是一个浅层FaceNet架构[47]，更具体地说，我们使用输入大小为96×96的NN4网络，其中我们随机裁剪、旋转和翻转所生成的大小为108 ×108的图像G（x）。数据：我们的框架需要大量真实和合成的人脸图像。对于真实的人脸图像，我们使用CASIA-Web Face Dataset [64]，该数据集由10，000个人的1，500，000张人脸图像组成该方法将G′网络训练为具有小成对的真实图像和合成图像的数量。为此，我们使用300 W- 3D [46，45，4]和AFLW 2000 -3D数据集的组合作为我们的配对训练集[72]，其由5 K真实图像及其相应的3DMM参数注释组成。我们根据这些参数绘制合成图像，并将它们与匹配的真实图像配对。与完全监督变换GAN（即GAN）使用的数据集相比，该数据集相对较小。[ 26 ]使用的Amazon Handbag数据集包含137K包图像）。我们随机抽取新身份的人脸图像作为我们的合成数据集，使用大规模人脸模型（LSFM）[5]进行形状，巴塞尔人脸模型[25]用于纹理，人脸仓库模型[8]用于表达。虽然新身份的形状和纹理参数是从原始模型的高斯分布中采样的，但表情、光照和姿态参数是以与300-3D [46，45，4]和AFLW 2000 -3D [72]的合成样本所有图像都是由MTCNN [68]对齐，并将中心裁剪为108×108像素的大小。10B. 盖策湾巴特拉伊Kittler和T.K.金图4：来自GANFaces数据集的随机样本。每一行属于同一标识。注意姿势、表情和灯光的变化。培训详情：我们从头开始训练我们框架的所有组件，除了分类网络C，它是通过使用Oxford VGG Face Dataset [37]的子集进行预训练的。整个框架需要大约70个小时才能在Nvidia GTX 1080TI GPU上收敛，迭代次数为248K，批量大小为16。我们从一个使用ADAM求解器[29]的学习率为8×10−5，并在第128K次，第192K次，第224K次，第240K次，第244K次，第246K次和第247K次迭代后减半。如Eqn.λ是控制每个优化的贡献的平衡因子我们设置λ cyc = 0。5，λDP=0。5，λ C=0。以实现真实性、循环一致性、身份保存和通过配对数据的监督我们还按照[ 71 ]的建议添加身份损失（Lid=x−G（x）），以使用平衡项λ id= 0来正则化训练。1.一、在训练过程中，我们跟踪网络参数的移动平均值以生成图像。5结果和讨论在本节中，我们展示了所提出的框架所获得的定性和定量结果。我们还讨论并显示了每个模块的贡献（即Lcyc，DP，C），并在补充材料中进行消融研究。在实验中，我们生成了10，000个不同身份的500，000和5，000，000张图像，这些图像在表情、照明和姿势上都有变化。我们将这个合成数据集命名为GANFaces4（即GANFaces-500K，GANFaces-5M）。4数据集、训练代码、预训练模型和人脸识别实验可以在https://github.com/barisgecer/facegan上查看。基于半监督对抗学习的3DMM新ID人脸图像生成11(a)3DMM输入（b）simGAN [[6]（c）CycleGAN [[71]（d）Reconstruction Err.图5：与（a）输入3DMM图像、（b）simGAN设置结果[6]、（c）cycleGAN设置结果[71]和（d）额外重建损失结果的比较图对应于图的左半部分4，且每一行属于同一标识。5.1定性评价请参见图4对于来自数据集的随机样本。图5比较了我们的结果（图的左半部分）。4）具有3DMM输入，具有simGAN [6]和cycleGAN [71]设置的结果，以及我们的设置，其中添加了G网络内配对数据的重建损失。当我们比较图1的前4列时，我们观察到良好的对应性图4至图5（a）在身份、姿势、表情和照明方面的对比。与我们的相比（图）4），[6]遭受身份特异性面部特征的损失（图.5（b）），而[71]生成的图像视觉上不太愉快（图。5（c））。在我们的框架中使用额外的重建损失来用配对数据训练G网络，结果如图所示。第5段（d）分段。我们通过该步骤获得了不太清晰的图像，这可能是因为直接重建损失对对抗平衡的影响的严重性。所提出的框架的优越性也通过表中所示的定量实验来证实。1.一、本文的主要目标之一是根据合成输入图像的属性生成人脸图像。造型、表情、灯光和姿势。我们可以从图中看到。6，我们的模型是能够生成真实感图像保留的属性条件的合成输入图像。在图中，顶行示出了输入合成面部上的姿势和表情的变化，并且左列示出了不同身份的输入合成面部。其余的是由我们的模型生成的图像，条件是来自顶行和左列的相应属性。我们可以清楚地看到，条件属性保留在我们的模型生成的我们还可以观察到，细粒度的属性，如下巴，鼻子和眼睛的形状也保留在我们的模型生成的图像在极端姿势的情况下，由我们的模型生成的图像的质量变得不那么清晰，因为我们用于学习鉴别器网络DR的参数的CASIA-WebFace数据集缺乏足够数量的具有极端姿势的示例。5.2增加的现实主义和身份保护为了证明合成图像可以有效地转换到真实的区域，并保持身份，我们在GAN-Faces数据集上进行了人脸验证实验。我们采用预先训练好的人脸识别CNN网络，即FaceNet12B. 盖策湾巴特拉伊Kittler和T.K.金图6：通过所提出的方法生成的图像，其由垂直轴中的身份变化、左块和右块中的归一化和张开的嘴表达以及水平轴中的姿势变化来此图中的图像不包括在训练中NN 4架构[47]在CASIA-WebFace [64]上训练，以计算人脸图像的特征。网络在LFW上的验证性能为%95。6准确度和%95。51-EER，这表明该模型对于野外人脸验证进行了很好的优化。我们从GANFaces中创建了1000个相似（属于同一身份）和1000个不相似（属于不同身份）的人脸图像对类似地，我们还从VGG面部数据集[37]和合成3DMM渲染面部数据集生成了相同数量的相似和不相似面部图像对。图7示出了在三个数据集的嵌入空间中测量的相似和不相似图像之间的欧几里得距离的直方图。从其分布与3DMM合成数据集分布的比较中可以看出GANFaces的真实性和身份的保留。随着图像变得更加逼真，它们在预训练的嵌入空间中变得更好地可分离。我们还观察到GANFaces的正负对的分离比VGG面孔对的分离更好VGG没有实现比GANFaces更好的分离的可能原因是原始研究中指出的嘈杂的面部标签[37]。5.3使用GANFaces数据集进行我们用真实的人脸数据集来增强GANFaces。VGG Faces [37]训练了VGG 19 [50]网络，并在两个具有挑战性的数据集上测试了其性能：LFW [23]和IJB-A [30]。我们限制自己从有限访问到完全访问真实人脸数据集，并在真实和GANFaces的不同组合上训练深度网络在[36]之后，我们使用[50]预先训练的VGGNet，其中19层在ImageNet数据集[44]上训练，并将这些参数作为初始参数。我们使用Oxford VGG Face数据集的不同部分训练网络[37]，并使用GANFaces数据集进行增强我们移除深度VGGNet的最后一层，并添加两个soft-max层基于半监督对抗学习的3DMM新ID人脸图像生成133DMM正对3DMM负对GANFaces正对GANFaces负对150成对距离150成对距离150成对距离10010010050 50 500电话：+86-0512 - 8888888传真：+86-0512-88888888欧氏距离0电话：+86-0512 - 8888888传真：+86-0512-88888888欧氏距离0电话：+86-0512 - 8888888传真：+86-0512 - 88888888欧氏距离图图7：来自三个不同数据集（GANFaces、3DMM合成图像、Oxford VGG）的1000个阳性对和1000个阴性对的距离，这些数据集嵌入在用CASIA Face数据集训练的NN4网络上前一层，每个数据集一个。对于soft-max层，学习率设置为0.1，对于使用ADAM优化器的预训练层，学习率设置为0.01。此外，我们将GANFaces soft-max的梯度我们以指数级降低学习率，并训练80，000次迭代，所有模型都收敛良好而不会过度拟合。对于给定的108×108的输入大小，我们随机裁剪和翻转96×96个补丁，在GTX 1080TI GPU上的整体训练大约需要9个小时。我们用VGG Face数据集的%20，%50和%100训练了6个模型，有和没有GANFaces-500 K的增强参见图8、我们评估模型的LFW和IJB-A数据集上的元素和基准分数与此数据集的addition，即使图像分辨率是低的改善。GANFaces-500 K的贡献与VGG数据集中包含的图像数量成反比，这表明更多的合成图像可能会进一步改善结果。我们将由完整VGG数据集和GANFaces训练的最佳模型与表1中的其他最先进方法进行了比较。尽管分辨率较低，但GANFaces能够将我们的基线提高到与最先进的数字相当的水平。请注意，生成方法，如[36，65]，做生成（即姿态增强和方法房 Synth 测试时间合成图像尺寸应计（%）100% -EERFaceNet [47]200M-没有220×22098.87-VGG Face [37]2.6M-没有224×22498.9599.13Masi等人[36个]四十九万五千2.4M是的224×22498.0698.00Yin等[第六十五章]四十九万五千四十九万五千是的100×10096.42-VGG +重建。呃。1.8M 500K没有96×9694.794.8VGG + simGAN [48]1.8M 500K没有96×9694.794.8VGG + cycleGAN [71]1.8M 500K没有96×9694.594.7VGG（% 100）1.8M-没有96×9694.894.6VGG（%100）+GANFaces-500K1.8M 500K没有96×9694.995.1VGG（%100）+GANFaces-500万1.8M5M没有96×9695.295.1表1：与LFW性能的最新研究的比较VGG阳性对VGG阴性对频率频率频率14B. 盖策湾巴特拉伊Kittler和T.K.金2.521.510.500.940.920.90.880.86LFW评分0.650.60.550.50.450.40.35IJB-A评分0.350.30.250.20.150.120 50100VGG数据集20 50100VGG数据集20 50 100VGG数据集图8：面部识别基准实验。（左）实验中使用的两个数据集的图像数量。VGG数据集中的图像总数为 1.8M ，因为在具有（实线）和不具有（虚线）GANFaces-500 K数据集的LFW数据集上的URL（中间）性能中删除了一些图像。（右）使用（实线）和不使用（虚线）GANFaces-500 K数据集的IJB-A验证任务的真阳性率归一化），而我们仅使用给定的测试图像。再加上低分辨率的优势，这使得我们的模型在测试时更有效6结论本文提出了一种新的端到端的半监督对抗训练框架，以生成具有广泛的姿态，表情和照明的新身份的逼真的脸大量的定性和定量实验表明，生成的图像具有真实感和身份保持性。我们生成了一个更接近真实感领域的人脸图像合成数据集，并将其与真实人脸图像数据集相结合，以训练人脸识别CNN，并提高了识别和验证任务的性能。在未来，我们计划为数千个新身份生成数百万张高分辨率图像，以促进最先进的人脸识别技术。建议的框架有助于避免一些常见的GAN问题，如模式崩溃和3D相干性。它展示了如何利用3DMM或任何其他显式模型生成的数据来改进和控制GAN的行为确认这项工作得到了EPSRC计划赠款“FACER 2 VM”（EP/N 007743/1）的支持。我们要感谢微软研究院对微软Azure研究奖的支持。Baris Gecer由土耳其国家教育部资助。这项研究的道德动机是提高人脸识别，以帮助预测人类面部早期可见的遗传疾病。10 6合并时数据集的分布VGGGANFacesVGG+GANF Acc.VGG+GANF 1-EERVGG Acc.VGG 1-EERVGG+GANF IJB-A@FAR=1e-2VGG IJB-A@FAR=1e-2VGG+GANF IJB-A@FAR=1e-3VGG IJB-A @FAR=1e-3数量的图像FAR= 1 e-2时的真阳性率基于半监督对抗学习的3DMM新ID人脸图像生成15引用1. A. 班萨尔角卡斯蒂略河Ranjan和R.切拉帕基于cnn的人脸验证的注意事项ICCVW，2017年。12. D. Berthelot，T.Schumm和L.梅斯开始：边界均衡生成对抗网络. arXiv预印本arXiv：1703.10717，2017. 二六七九3. V. Blanz和T.维特三维人脸合成的可变形模型。在第26届计算机图形和交互技术年会的会议记录中，第187194. ACM出版社/Addison-Wesley出版公司1999. 二、五4. J. Booth、E. Antonakos，S. Ploumpis，G. Trigeorgis，Y. Panagakis和S. Zafeiriou. 3d脸变形模型CVPR，2017年。九、十5. J. Booth，A.Roussos，S.Zafeiriou，A.Ponniah和D.达纳韦一个三维可变形模型从一万张面孔中学习。在CVPR，2016年。96. K. Bousmalis，N.Silberman，D.Dohan，D.Erhan和D.克里希南无监督像素级域适应与生成对抗网络。CVPR，2017年。四、十一7. K. Bousmalis，G. Trigeorgis，N. Silberman，D. Krishnan和D.二汉域分离网络. 在NIPS，2016年。48. C. Cao，Y. Weng、黄毛菊S. Zhou，Y. Tong和K.舟Facewarehouse：用于视觉计算的三维面部表情数据库。IEEE Transactions on Visualization and Computer Graphics，20（3）：413-425，2014。99. Q. Chen和V. Koltun. 使用级联细化网络的摄影图像合成。ICCV，2017年。410. X. Chen，Y.段河，巴西-地Houthooft，J.舒尔曼岛Sutskever和P.阿比尔Infogan：通过信息最大化生成对抗网络进行可解释表示学习。在NIPS，2016年。511. F. Cole，D.贝朗杰D. Krishnan，A.萨尔纳岛Mosseri和W. T.弗里曼。合成从面部身份特征归一化面部。在CVPR，2017年。712. P. 科斯塔A。加尔德兰M.I. 我是你MD. Abra` mof f，M.Niemeijer、A.M. Mendonc a，以及A. 坎皮略对抗性视网膜图像合成。arXiv预印本arXiv：1701.08974，2017。二、四13. C.东角，澳-地C. Loy，K.他，还有X。唐使用深度卷积的网络. TPAMI，38（2）：295-307，2016. 114.A. 多索维茨基山口Fischer、E.Ilg，P.豪塞尔角哈兹尔巴斯河谷Golkov，P.范·德·斯马格特D. Cremers和T.布洛克斯 Flownet：使用卷积网络学习光流。在ICCV，2015年。115. 迪穆兰岛贝尔加齐湾Poole，A.Lamb，M.阿尔约夫斯基岛马斯特罗彼得罗，还有A. 考维尔逆向学习推理。arXiv预印本arXiv：1606.00704，2016。216. Y. Ganin， E.乌斯蒂诺娃 Ajakan ， P. Germain ，H. Larochelle，F. 拉维奥莱特 MMarchand和V。Lempitsky神经网络的领域对抗训练。Journal of Machine LearningResearch，17（59）：1-35，2016。417. B. 盖奇河乳腺癌的全切片组织病理学检测与分型使用深度卷积网络。博士论文，Bilkent大学，2016年。118. B. Gecer，S.Aksoy、E.梅尔坎湖G. Shapiro、D.L. Weaver和J.G. 埃尔莫使用深度卷积网络在全载玻片乳腺组织病理学图像中检测和分类癌症模式识别，2018年。119. B. Gecer，V.Balntas和T.-K. Kim. 学习人脸的深度卷积嵌入使用基于样本和集合的联合监督的表示。在ICCVW，2017年。三、八20. I.古德费罗Nips 2016教程：生成对抗网络。NIPS，2016年。二、四21. I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成性对抗网。在NIPS，2014。422. K. 他，G.Gki oxari，P.Dolla'r和R.娘娘腔。面具r-cnn。InICCV，2017.116B. 盖策湾巴特拉伊Kittler和T.K.金23. G. B. Huang，M. Ramesh，T. Berg和E.学习米勒。在野外贴上标签的脸：研究无约束环境下人脸识别的

下载后可阅读完整内容，剩余1页未读，立即下载