DR-GAN：基于非纠缠表示学习的姿态不变人脸识别方法

58 浏览量更新于2023-10-16 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于非纠缠表示学习GAN的姿态不变人脸识别美国密歇根州立大学计算机科学与工程系，密歇根州东兰辛，邮编48824{transluan，yinxi1，liuxm} @ msu.edu摘要人脸图像之间的姿态差异是人脸识别的关键问题之用于姿态不变人脸识别的传统方法要么在非正面人脸图像上执行人脸正面化，要么从非正面人脸图像学习姿态不变表示我们认为，这是更可取的，以执行这两项任务联合，使他们能够利用对方。为此，本文提出了一种新的方法--噪声姿势代码纠缠表示学习生成对抗网络（DR-GAN）具有三个不同的新颖性。首先，生成器的编码器-解码器结构允许DR-GAN学习生成和判别表示，以及图像合成。第二，通过提供给解码器的姿势代码和鉴别器中的姿势估计，该表示与诸如姿势的其他面部变化明确地分离。第三，DR-GAN可以将一个或多个图像作为输入，并生成一个统一的表示以及任意数量的合成图像。对受控和野生数据库的定量和定性评估表明DR-GAN优于最先进的技术。1. 介绍人脸识别是计算机视觉领域最近，基于深度学习的方法取得了很大进展[28，33]。例如，Schroff等人报道了抑制人类性能。[33]在LFW数据库中，主要由近正面的面孔组成。然而，姿势不变人脸识别（PIFR）远未解决[2，8，21，22]。最近的一项研究[34]表明，大多数算法的性能从正面到正面人脸验证下降超过10%，而人类的性能只略有下降。这表明姿态变化仍然是人脸识别中的一个重大挑战，值得进一步研究。现有的PIFR方法可以分为两类。首先，一些工作采用面部正面化[11，14，31，40，43，45]来合成正面面部，其中传统的面部识别方法是适用的。有能力让-图1：使用一个或多个人脸图像作为输入，DR-GAN可以产生一个既有区别性又有生成性的身份表示，即，该表示展示了优越的PIFR性能，并且可以在由姿势代码指定的目标姿势处合成保持身份的面部还原真实的正面面孔，亦有助执法人员辨认疑犯。其次，其他工作集中在通过一个联合模型[28，33]或多个姿势特定模型[7，25]直接从非正面面部学习区分特征相比之下，我们提出了一个新的框架，采取最好的两个世界-同时学习姿态不变的身份表示和合成的脸与任意姿态。如图1.提出了一种用于PIFR的解纠缠表示学习-生成对抗网络（DR-GAN）。GAN [9]可以通过生成器G和BND之间的两人游戏生成类似于数据分布的样本。尽管有许多有前途的发展[5，23，26]，图像合成仍然是GAN的主要目标。受此目标的激励，以及学习PIFR的身份表示的愿望，我们用编码器-解码器结构构造G（图11）。第2段（d）分段）。编码器Genc的输入是任何姿态的面部图像，解码器Gdec的输出是目标姿态的合成面部，并且学习的表示桥接Genc和Gdec。虽然G充当面部旋转器，但D被训练成不仅区分真实与真实。合成图像，而且还可以预测人脸的身份和姿势。在附加分类的情况下，D努力使旋转的面部与输入真实面部具有相同的身份，这对G具有两个影响：1415身份表示DR-GAN………1416脸看起来更像是身份方面的输入主体2) 习得的表征更具包容性或生成性来合成一张保持身份的脸在传统的GAN中，G采用随机噪声向量来合成图像。相比之下，我们的G将人脸图像、姿态代码c和随机噪声向量z作为输入，目标是生成一张与目标姿态相同的人脸，可以欺骗D。具体来说，Genc学习从输入图像到特征表示的映射。然后，将该表示与姿态码和噪声向量级联以馈送到Gdec用于面部旋转。噪声对除身份或姿势之外的面部外观变化进行建模。DR-GAN可以学习一种分离的身份表示，这种身份表示对姿态和其他变化是排他性的或不变的，这对于PIFR是理想的。现有的大多数人脸识别算法只取一张图像进行测试。在实践中，有一组测试图像可用的场景[16]。在这种情况下，先前的工作在特征水平[3]或距离度量水平[36]中融合结果与以往的工作不同，我们的融合是在一个统一的框架内进行的。具体来说，Genc被训练为将多个图像作为输入，并为每个图像生成身份表示和系数使用动态学习的系数，所有图像的表示被组合为一个表示。在测试过程中，Genc会拍摄任意数量的图像，并生成一个单一的身份表示。gdec使用此表示和姿势代码以指定姿势合成面部本文做出了以下贡献。1)我们通过一个编码器-解码器结构的生成器提出了DR-GAN，该生成器可以以任意姿态（甚至是极端轮廓）对人脸进行正面化或旋转。2)我们的表示学习通过G中的姿势编码和D中的姿势估计明确地从姿势变化中解脱出来。3) 我们提出了一种新的方案，自适应融合多个面孔到一个单一的表示的基础上学习coeffi- cients。该方法满足了监控人脸快照的识别需求，并实现了两个人脸集的匹配。4)我们在Multi-PIE [10]，CFP [34]和IJB-A [16]数据库上实现了最先进的人脸识别性能2. 先前工作生成对抗性网络（GAN）Goodfellow等人[9]引入GAN通过对抗过程学习生成模型。在最小最大两人游戏中，生成器和代理都可以改进自己。GAN已用于图像合成[6，30]，图像超分辨率[19，41]等。最近的工作集中在对z的约束或利用边信息进行更好的合成。例如，在一个示例中，Mirza和Osindero [26]将类标签馈送给 G 和 D ，以生成以类标签为条件的图像。Springenberg [35]将GAN推广到学习判别分类器，其中D被训练为不不仅可以区分真假，还可以对图像进行分类。在InfoGAN [5]中，G通过使用额外的潜在代码将信息正则化应用于优化过程。相比之下，本文提出了一种新的DR-GAN的人脸表示学习，除了图像合成。节中3.4，我们将深入讨论我们与传统GAN中最相关工作的差异由于自遮挡，从轮廓面部生成正面面部非常具有挑战性。现有的人脸正面化方法可以分为三类：基于3D的方法[11，20，43]，统计方法[31]和深度学习方法[14 ， 38 ， 40 ， 42 ， 45] 。例如，在一个示例中，Hassner等人[11]使用平均3D人脸模型来生成任何主体的正面人脸，这被证明是有效和高效的。在[31]中，通过求解受约束的低秩最小化问题，将统计模型用于联合正视图重建和标志定位。对于深度学习方法，Kan et al.[14]提出SPAE通过自动编码器将非正面人脸图像逐步旋转到正面人脸。Yang等人。[38]将递归动作单元应用于一组隐藏单元，以固定的偏航角递增所有先前的工作都只在正面的野生面孔[11，43]或大姿势控制面孔[40，45]附近进行正面化。相反，我们可以从一个大姿态的野生人脸合成任意姿态的人脸。我们使用对抗损失来提高合成图像的质量，并在身份分类中保持身份。表征学习为学习一个好的表征设计适当的目标是一个开放的问题[1]。 [24]中的工作是第一个使用编码器-解码器结构进行表示学习的工作之一，然而，这并没有明确地解开。DR-GAN类似于DC-IGN [17] -一种然而，DC-IGN通过提供具有固定的一个属性的批量训练样本来实现解纠缠，这可能不适用于非结构化的野外数据。先前的工作还探索了PIFR的联合表示学习和面部旋转，其中[40，45]与我们的工作最相关。在[45]中，作者提出了多视图感知器[45]，可以通过使用不同的神经元处理它们并最大化数据对数似然来解开身份和视图表示。Yim等人。[40]使用多任务CNN将具有任何姿势和照明的面部旋转到目标姿势，并且输入的基于L2损失的重建是第二个任务。这两项工作都生成多视图图像并提取身份表示。DR-GAN在两个方面与[40，45]不同首先，我们显式地分解，通过使用姿势代码的身份表示。其次，我们采用对抗损失来获得高质量的合成，这会驱动更好的表示学习。最后，它们都不像我们一样适用于野外的面孔。1417噪声X^N+1个c = 1id = 1pose = 1噪声类X^X真/假Xc = K+1C = Kf（x）z真/假(a) 条件GAN（b）半监督GAN（c）对抗自动编码器（d）DR-GAN图2：以前的GAN架构和我们提出的DR-GAN的比较。3. 该方法DR-GAN有两种变体：将一个图像作为输入的基本模型，称为单图像DR-GAN，以及利用每个对象的多个图像的扩展模型，称为多图像DR-GAN。3.1. 生成对抗网络生成对抗网络（GAN）由一个生成器G和一个节点D组成，它们在一个两人极大极小博弈中竞争. D试图将真实图像x与合成图像G（z）区分开来，G试图合成能够欺骗D的逼真图像。具体地，D和G用价值函数V（D，G）进行博弈：最小值最大值V（D，G）=Expd（x）[logD（x）]+G DEz <$pz（z）[log（1−D（G（z）]。（一）文[9]证明了当合成样本的分布pg与训练样本的分布pd相同时，这种极大极小对策具有全局最优解。在温和条件下（例如，G和D有足够的容量），则pg收敛于pd。在实践中，G最好最大化log（D（G（z）而不是最小化log（1 −D（G（z）[9].因此，G和D被训练成或者优化以下目标：maxVD（D，G）=Expd（x）[logD（x）]+第二，在人脸识别中，人脸的外观通常存在令人分心的变化。因此，由编码器学习的表示可能包括有损侧变化。例如，在一个示例中，编码器将生成对于具有0°和90°偏航的同一对象的两个面部的不同身份表示。为了解决这个问题，除了类似于半监督GAN的类别标签[35]之外，我们还采用了姿态和照明等辅助信息来明确地解开这些变化，这反过来又有助于来学习一种区别性的表示法。3.2.1问题公式化给定具有标签y={y d，y p}的面部图像x，其中y d表示身份的标签，y p表示姿态，我们的学习问题的目标是双重的：（1）学习用于PIFR的姿态不变的身份表示，以及2）合成具有相同身份yd但由姿态代码c指定的不同姿态的面部图像xd。我们的方法是训练一个以原始图像x和姿态码c为条件的DR-GAN，其架构如图2所示第2段（d）分段。与传统GAN中的CNN不同，我们的D是一个多任务CNN，由两部分组成：D=[D d，D p]。Dd∈RNd+1用于身份分类，其中Nd为训练集中的主题总数，并且额外的维度用于伪类。Dp∈RNp，p具有N的D姿态分类作为离散的Ezpz（z）[log（1−D（G（z）]，（2）maxVG（D，G）=Ezp（z）[10 g（D（G（z））].（三）摆姿势给定真实人脸图像x，D旨在估计其身份和姿态;当给定来自Gz生成器x=G（x，c，z），D尝试使用以下目标将x分类为3.2. 单图像DR-GANMaxV （D，G）=E[logDd（x）+logDp（x）]+单图像DR-GAN有两个与众不同的新奇之处DD与之前的GAN相比。首先，它通过使用编码器-解码器来学习人脸图像x，ypd（x，y）Ex，y <$pd（x， y），z <$pz（z），c<$pc（c）yd[log（Dddyp（G（x，c，z））]，（4）结构化生成器，其中表示是en-其中Dd和Dp是Dd和Dp中的第i个元素。的我我xx^姿态f（x）噪声Xpose = Nppose = 2id = Nd +1id = NdX类p（z）1418编码器的输出和解码器的输入。既然代表-tation是解码器的输入，用于合成同一主题的各种面部，它是生成表示。第一项是最大化x被分类的概率真实的身份和姿势第二项是最大化X射线被分类为fak e类的概率。………1419ydyti=1nyt1nyd1n表1：DR-GAN的网络结构。蓝色文本代表额外的元素来学习多图像DR-GAN中的系数ωX1Genc和D Gdec图层过滤器/步幅输出大小图层过滤器/步幅输出大小Conv11Conv123 ×3/13 ×3/196× 96× 3296× 96× 64FCFCv52FCv513 ×3/13 ×3/16× 6× 3206× 6× 160x26× 6× 256Conv213 ×3/248× 48× 64FCv433 ×3/212× 12× 256Conv223 ×3/148× 48× 64FCv423 ×3/112× 12× 128Conv233 ×3/148× 48× 128FCv413 ×3/112× 12× 192Conv313 ×3/224× 24× 128FCv333 ×3/224× 24× 192XnConv323 ×3/124× 24× 96FCv323 ×3/124× 24× 96Conv333 ×3/124× 24× 192FCv313 ×3/124× 24× 128Conv413 × 3/212×12 × 192FCv233×3/2 48×48×128Conv423 × 3/112×12 × 128FCv223×3/1 48×48 ×64Conv433 × 3/112×12 × 256FCv213×3/1 48×48 ×64Conv513 × 3/26×6 × 256FCv133×3/2 96×96 ×64Conv523 × 3/16×6 × 160FCv123×3/1 96×96 ×32Conv533×3/1 6×6×（320 +1）FCv113×3/1 96×96 ×1平均池6×6/1 1×1×（320+ 1）FC（仅D）Nd+Np+1同时，G由编码器G enc和解码器G dec组成。 G enc旨在从人脸图像x中学习身份表示：f（x）=G enc（x）。Gdec的目的是合成一个具有单位元yd的面像x∈=Gdec（f（x），c，z）以及由c指定的目标姿态，其中z∈RNz是对除身份或姿态之外的其他方差进行建模的姿态码c ∈ RNp是具有目标姿态y t为1的独热向量。G的目标是欺骗D将x分类为输入x和目标姿态的同一性，目标如下图3：多图像DR-GAN中的发生器。从图像集我们可以通过动态学习系数将特征融合到单个表示中，并以任何姿势合成图像具有姿态代码C和随机噪声Z。一系列分数步长卷积（FConv）[29]将（320+N p+N z）-dim级联向量转换为合成图像x=G（x，c，z），其大小与x相同。 G被训练以最大化Eqn。当合成因子x被馈送到D并且梯度被反向传播以更新G时，3.3. 多图像DR-GAN单图像DR-GAN通过处理一个单个图像x来提取身份表示并执行面部旋转。然而，我们经常在训练和测试中为每个受试者提供多个图像。为了利用它们，我们提出了多图像DR-GAN，可以使两者maxVGG（D，G）=Ex，y ≠pd（x， y），z <$pz（z），c<$pc（c）[log（Dd（G（x，c，z）+培训和测试阶段。为了训练，它可以学习从多个图像中获得更好的身份表示，log（DP（G（x，c，z）]。（五）G和D在交替训练中相互促进。D在区分真实与真实方面更强大。为了减少伪图像和分类姿态，G努力将身份保持面部与目标姿态合成以与D竞争，具有三个好处。第一，学习型代表--表示f（x）将保留更多的区别性身份信息。第二，D中的姿势分类指导旋转面的姿势更加精确。第三，将单独的姿势代码输入到G、G是被训练来是相辅相成的。为了测试，它可以使模板到模板匹配，这解决了现实世界的监控应用中的关键需求。多图像DR-GAN与单图像DR-GAN具有相同的D，但G不同，如图所示。3.第三章。除了提取f（x）之外，Genc还估计每个图像的置信系数ω，其预测学习表示的质量。对于n个输入图像{xi}n，融合表示是所有表示的加权平均Pnωf（x）十二月使姿态变化与f（x）纠缠，即，f（x）应该编码尽可能多的身份信息，但要尽可能少。f（x1，x2，…xn）=iP=1我i=1ωiI.（六）尽可能提供信息因此，f（x）不仅对图像合成是生成的，而且对PIFR也是判别的3.2.2网络结构给出了单图像DR-GAN的网络结构融合的表示与c和z连接并馈送到Gdec以生成新图像，该新图像预期具有与所有输入图像相同的身份。因此，学习G的目标总共有2（n+1）项：XnMaxV （D，G）=[E[log（Dd（G（x，c，z）+在选项卡中。1.一、对于G，我们采用CASIA-Net [39]ENC其中，Gi=1xi，yi∈pd（x，y），z <$pz（z），c<$pc（c）ydi批归一化（BN）和指数线性单位（ELU）log（DP （G（x，c，z））]]+在每个卷积层之后应用。D被训练以优化Eqn。4通过添加一个完全连接的层，ytiExi， yipd（x，y），z <$pz（z），c<$pc（c）[log(D d（G（x，.，x， c，z）+1f（x1）2f（x1，x2，f（x2nf（xn…G1420softmax loss for（Nd+1）身份和（NP）姿态分类-log（D p（G（x，...，x，c，z））]。（七）阳离子。G包括Genc和Gdec，它们由待学习的单位表示f（x）∈R320桥接，这是我们网络中的AvgPool输出。f（x）是连续的系数ωi被学习，使得具有更高的质量对融合表示贡献更大。在这里，质量可以被视为PIFR1421性能，而不是低水平的图像质量。人脸质量预测是一个经典的话题，许多先前的工作试图从后者估计前者[27，37]。我们的系数学习本质上是质量预测，与以前的工作相比，从新的角度。也就是说，在没有显式监督的情况下，它由D通过解码图像G dec（f（x1，.，xn），c，z），并且是在表征学习的上下文中学习的，作为表征学习的副产品注意，联合训练每个对象的多个图像导致一个而不是多个生成器，即，图3中的所有G_enc共享相同的参数。这使得它灵活地采取任意数量的图像在测试过程中的代表性学习通过方程。6、面对旋转虽然图中的网络。2（d）用于训练，我们的测试网络简化了很多：仅使用Genc来提取表示;Genc和Gdec都用于面旋转。在网络结构上，多镜像DR-GAN只对单镜像网络做了很小的修改。具体地，在G_enc结束时，我们向AvgPool之前的层再添加一个卷积通道，以估计系数ω。我们应用Sigmoid激活来将ω约束在[0，1]的范围内。在训练中，尽管不必要-sary，我们保持每个主题的输入图像数量n，同样为了图像采样和网络训练的方便。为了模拟输入图像数量的变化，我们使用了一个简单但有效的技巧：对系数ω应用Dropout。因此，在训练过程中，网络接受从1到n的任意数量的输入。3.4. 与先前GAN的比较我们将DR-GAN与三种最相关的GAN变体进行比较，如图2所示。条件GAN条件GAN [18，26]通过将标签馈送到G和D来扩展GAN，以生成以标签为条件的图像，该标签可以是类标签，模态信息或甚至用于修补的部分数据。它已被用来生成MNIST数字条件的类标签和学习多模态模型。在条件GAN中，D被训练来将具有不匹配条件的真实图像在DR-GAN中，D基于标签将真实图像分类到相应的类别。半监督GANSpringenberg [35]将GAN推广到学习判别分类器，其中D不仅被训练用于区分真实和虚假图像，还将真实图像分类为K类。 D输出具有用于真/假决策的最后维度的（K+1）-dim向量。训练后的D用于图像分类。DR-GAN对D的损失与[35]相似，但有两个附加值。首先，我们用一个编码器-解码器结构来扩展G。其次，我们在训练D时对姿势进行了额外的边信息分类。对抗自动编码器（AAE）在AAE [23]中，G是自动编码器的编码器。AAE有两个目标，以便将自动编码器转换为生成模型：非盟-toencoder对输入图像进行重构，编码器生成的隐向量通过训练D匹配任意先验分布.DR-GAN在两个方面与AAE不同。首先，[23]中的自动编码器被训练为学习类似于强加的先验分布的潜在表示，而我们的编码器-解码器学习区分性标识表示。其次，AAE中的D被训练来区分真实/虚假分布，而我们的D被训练来分类真实/虚假图像、图像的身份和姿态。4. 实验结果DR-GAN的目标是表征学习和人脸合成。对于前者，我们定量评估的人脸识别性能使用解纠缠的表示作为身份特征与余弦距离metric，为控制和在野外设置。对于后者，我们展示了面部额化的定性结果。4.1. 实验设置数据库Multi-PIE [10]是用于在受控设置中评估姿势、照明和表情变化下的人脸识别按照[45]中的设置，我们使用了337名中性表达的受试者，9名姿态在±60°范围内，照明20次。第一批200人其中137人用于培训，其余137人用于测试。对于测试，每个受试者一张正面和中性白蛋白的图像照明是画廊，其他的是探针。对于多PIE实验，我们添加了一个额外的照明代码类似的姿势代码解开照明。因此，我们有Nd=200，NP=9，Nil=20。对于野外环境，我们在Multi-PIE上训练，CASIA-WebFace [39]，CFP [34]和IJB- A [16]上的测试。CASIA-WebFace包括10，575名受试者的494，414张近正面面孔。我们将整个Multi-PIE（4个会话，13个姿势，6个表情和337个主题的20个照明）添加到训练集中，以提供更多的姿势变化。CFP由500名受试者组成，每个受试者有10个正面图像和4个侧面图像。评估协议包括额-额（FF）和额-侧面（FP）人脸验证，每个验证有10个文件夹，其中包含350个相同的人对和350个不同的人对。作为另一个大型的姿态数据库，IJB-A拥有500个主题的5，396张图像和20，412个视频帧。它定义了模板到模板的人脸识别，其中每个模板都有一个或多个图像。我们从训练中剔除了CASIA-Webface和IJB-A之间的27个重叠被试。我们有Nd=10，885，NP=13。对于这两种设置，我们设置Nz=50在 [39] 之后，我们将所有人脸图像对齐到大小为100×100的规范视图。我们从对齐的100×100张人脸图像中随机抽取96×96个区域进行数据增强。图像强度线性缩放到[-1，1]的范围。为了给CASIA-WebFace提供姿态标签yp，我们应用3D人脸对齐[12，13]1422i=1表2：CFP上的性能比较。方法额-额正面轮廓Sengupta等人[34个]九十六。40±0。6984. 91 ±1。82Sankarana等人[32个]九十六。93±0。6189岁。17 ±2。35Chen等人[4]美国九十八67 ±0。3691. 97 ±1。70人类九十六。24±0。6794 57 ±1。10DR-GAN：合成九十七08 ±0.6291. 02 ±1。59DR-GAN：n=1九十七13 ±0。68九十82 ±0。28DR-GAN：n=4九十七86 ±0。7592. 93 ±1。39DR-GAN：n=6九十七84 ±0。79九十三41 ±1。17将每张脸归类为13种姿势之一。我们的实现是从DC-GAN的公开实现中广泛修改的我们遵循[29]中的优化批量大小设置为64。所有权重均从标准差为0的零中心正态分布初始化。02. Adam optimizer [15]的学习率为0。0002和动量0。五、在传统的GAN中，Goodfellow et al.[9]建议在优化D的k个（通常k= 1）步骤和优化G的一个步骤之间交替。这有助于D保持接近最优的解决方案，只要G变化缓慢。然而，在DR-GAN中，由于类标签，D具有强大的监督。因此，在稍后的迭代中，当D接近最优解时，我们比D更频繁地更新G，例如，4步优化G，1步优化D。4.2. 表示学习我们评估了每个受试者的训练图像数量（n）对人脸识别性能的影响。具体来说，使用相同的训练集，我们训练了n = 1，4，6的三个模型，其中n= 1表示单图像DR-GAN，n >1表示多图像DR-GAN。各模型在CFP上使用f（x）的测试性能见表1。二、我们观察到多图像DR-GAN相对于单图像DR-GAN的优势，这归因于学习G enc时的更多约束，从而导致更好的表示。然而，由于有限的计算能力，我们不继续增加n在本文的其余部分中，除非指定，否则我们使用n= 6的多图像我们还评估了每个受试者的测试图像数量（nt）对Multi-PIE人脸识别性能的影响。我们模仿IJB-A生成图像集作为探头集，而图库集保持不变，每个受试者一个图像。具体来说，从多PIE探针组中，我们选择一个子具有大姿态（30°到60°）的图像的部分P 0，其用于形成5个不同的探针集合{Pi}5，其中n t的范围从1到5。首先，我们从P0中随机选择每个主题的一张图像，以形成P1。其次，在P1的基础上，我们通过从P0添加每个主题的一个随机图像来构造P2。我们用类似的方法构造P3，P4，P5.我们比较了模型和决策表3：Multi-PIE上三种方法的识别率。◦Zhu等人[第四十四届]94 3九十7八十7六十四1四十五9七十二9Zhu等人[45个] 九十五792. 883岁7七十二9六十岁。179岁。3Yim等人[第四十届]九十九。5九十五088岁579岁。961岁983岁3使用L2损失九十五1九十882岁7七十二7五十七978岁3DR-GAN九十七094 0九十1 86岁。283岁289岁。2度量：（i）具有nt个表示的平均余弦距离的单图像DR-GAN，（ii）具有nt个表示的平均余弦距离的多图像DR-GAN，以及（iii）具有融合表示的余弦距离的多图像DR-GAN。如Tab.所示3，比较（ii）和（iii），使用由网络学习的系数进行表示融合优于传统的分数平均。有一个持续的改善-000元。百分之五虽然从（i）到（ii）有一些改进，但裕度随着nt的增加而减小。我们将我们的方法与Multi-PIE、CFP和IJB-A上最先进的人脸识别方法进行了比较。表4显示了与具有相同设置的方法相比，Multi-PIE上的面部识别性能。我们的方法显示出显着的改善大姿态的脸。不同姿势的识别率的变化远小于基线，这表明我们学习的表示对姿势变化更鲁棒。表2显示了CFP的比较。结果表明，人脸识别的平均准确率与标准差均在10倍以上.我们在正面-正面验证上实现了相当的性能，1. 4%的正面轮廓验证改进。表5显示了两种人脸识别的性能对IJB-A进行验证。DR-GAN实现了与最先进方法相当的性能。此外，建议的融合方案通过学习系数优于平均余弦距离的表示。这些野外结果显示了DR-GAN对PIFR的强大功能。4.3. 人脸合成对抗性损失与L2损失之前关于面部旋转的工作[38，40，44]通常使用L2损失来学习两个视图之间的映射。为了将L2损失与我们的对抗损失进行比较，我们训练了一个模型，其中G由具有目标视图的地面真实面孔上的L2损失监督为了公平比较，培训过程保持不变如图4、DR-GAN可以产生更真实的nt12345单个图像（平均值）84. 691. 894 1九十五3九十五8多图像（平均）八十五992. 494 5九十五5九十五9多图像（熔丝）八十五992. 8九十五1九十六。0九十六。5142315 4560表5：IJB-A的性能比较。验证识别方法@FAR=。01@FAR=. 001@一品@五品[16]第二十三话6±0。910个。4±1。4二十四岁6±1。一百三十七5±0。8[16]第四十六章：一个女人6±1。419号。8±0。844.3±2。1595±2。0[36]第72话. 9±3。551岁0±6。182岁2±2。3 93。1 ±1。4[25]第二十五话3±1。8552±3。277 1±1。688 7 ±0。9[3]第七十八章. 7± 4。3-85 2±1。893. 7±1。0DR-GAN（平均值） 75. 5±2。851岁8±6。884. 3±1。393。2 ±0。877 .第77章大结局4±2。7五十三9±4。385. 5±1。5947 ±1。1输入0个字符 30个字符L2DR-GANGTL2DR-GANGT图4：Multi-PIE上人脸合成的视觉比较。对于每个输入图像，我们比较了L2损失（顶部），对抗性损失（中间）和它们的地面真实（底部）的合成图像。在所有视图中与地面实况面相似的实体面。同时，L2损失合成的图像不能保持高频成分，图像模糊.实际上，L2损失对每个像素都是平等对待的，这就导致了区分信息的损失。这种较差的合成也反映在表1中较低的PIFR性能4.第一章变量的插值取两幅不同对象的图像x 1，x 2，从Genc中提取特征f（x 1）和f（x 2）。 f（x 1）和f（x 2）之间的插值可以生成许多表示，这些表示可以馈送到G dec以合成人脸图像。图图5（a）中，顶行显示了从有胡子和眼镜的男性对象到没有这些形容词的女性对象的过渡。与[29]类似，这些平滑的语义变化表明模型已经学习了图像合成的基本身份表示。在训练过程中，我们使用一个独热向量c来指定合成图像的离散在测试过程中，我们还可以在两个相邻的姿势代码之间进行插值，以生成具有连续姿势的人脸图像与图51424(b) 这导致从一个视图到训练集看不到的我们还插值噪声z。我们在z=−1和z=1（全为1的向量）合成正面人脸，并在两个z之间插入。给定固定的单位表示和姿态码，合成图像是保持身份的正面人脸。为了更好的可视化，我们展示了不同的-图像的存在w.r.t.由z=−1生成的图像。与图在图5（c）中，z对不太显著的面部变化进行建模。面部旋转我们的生成器被训练成面部旋转器。多PIE上的面旋转如图所示4和图五、图6显示了CFP上的面部额化。给定一个大的输入图像构成甚至极端的轮廓，DR-GAN可以生成一个逼真的正面脸，这是非常相似的真实正面脸。据我们所知，这是第一个能够在野外人脸图像中正面化轮廓视图的工作。图7示出了具有各种数量的输入图像的IJB-A上的面部旋转。在面部旋转期间，身份被保留并且姿态视图被精确地改变为目标姿态，这指示所学习的表示在很大程度上与其他变化分离，并且姿态代码完全确定合成姿态。我们想强调的是，当输入图像在姿势、表情、光照和分辨率方面具有多样性和大的变化时，将多个野外人脸图像融合成单个正面人脸图像是极其困难的我们认为，这是第一次在具有挑战性的数据库（如IJB-A）上展示这种引信能力。代表与合成图像 DR-GAN可以模拟-提取表示，并生成正面面对同一主题-这两个都是有用的PIFR。通过余弦距离度量直接使用表示。合成图像可以被馈送到预训练的人脸识别模型，其架构类似于CASIA-Net [39]，以提取PIFR的身份特征性能比较报告见表1。二、看来，这种代表性更有效。然而，合成图像在视觉上是吸引人的，并且在执法实践中可能是有前途的，特别是考虑到它们显著的PIFR性能。5. 结论本文提出了用于姿态不变人脸识别和人脸合成的DR-GAN。我们扩展了GAN的一些独特的新颖性，包括编码器-解码器结构的生成器，姿态码，姿态分类的判别器，和一个集成的多图像融合方案。我们在-致敬卓越的PIFR性能和面对合成能力的歧视性，但生成表示，在发电机学习。我们学习的表示是有区别的，因为其他变化已经被姿势代码和照明代码解释性地解开，并且是生成的，因为其解码的（合成的）图像仍然被分类为原始身份。142515（一）（b）第（1）款输入0304560(c)图5：（a）通过在两张脸（最左边和最右边）的身份表示之间进行插值来合成图像。（b）虽然在训练中只有离散姿态可用，但DR-GAN可以通过插入连续姿态代码来合成新姿态，如第3行上方所示。(c)输入图像，z=−1的旋转图像，以及它与z=1的旋转图像之间的9个图像的差。图6：CFP上的面部额化。从上到下：输入图像，我们的正面化的脸，真实的正面脸。我们只期望额化面孔在身份上与真实面孔相似，而不是在所有面部属性上。这是非常具有挑战性的面旋转，由于在野外的变化和极端的轮廓视图。图像边界中的伪影是由于预处理中的图像外推输入图像−30<$−15<$0<$15<$30<$正面图7：IJB-A上的多图像面部旋转。对于每个受试者，我们显示1-6个输入图像，5个姿势的合成图像和一个真实的正面脸。除了CFP中的配置文件视图之外，此任务还有更多挑战：1）输入的图像质量低; 2）在一个集合中的大的变化，例如姿势、分辨率和表情。DR-GAN似乎也能超分辨人脸和中性表情。1426引用[1] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新的视角。TPAMI，2013年。2[2] X.柴山，加-地Shan，X. Chen和W.高.局部线性回归用于姿态不变人脸识别。TIP，2007年。1[3] J. - C. Chen，V. M.帕特尔和R。切拉帕使用深度CNN特征进行无约束人脸验证。InWACV，2016. 二、七[4] J. - C. Chen，J. Zheng，V. M.帕特尔和R。切拉帕Fisher矢量编码的深度卷积特征用于非约束人脸验证。在ICIP，2016年。6[5] X. Chen ，Y. 段河，巴西 - 地Houthooft ， J. 舒尔曼岛Sutskever和P.阿比尔InfoGAN：通过信息最大化生成对抗网络进行可解释表示学习。在NIPS，2016年。一、二[6] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。2015年，在NIPS中。2[7] C. Ding和D.涛. 通过多模态深度人脸表示的鲁棒人脸识别TMM，2015. 1[8] C. Ding和D.涛.姿态不变人脸识别综述. TIST，2016. 1[9] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。一、二、三、六[10] R.格罗斯岛Matthews，J. Cohn，T. Kanade和S. 贝克多个PIE。IVC，2010年。二、五[11] T. Hassner，S. Harel、E. Paz和R.恩巴无约束图像中的有效人脸正面化。CVPR，2015。一、二[12] A. Jourabloo和X.刘某姿态不变的3D面对齐。在ICCV，2015年。5[13] A. Jourabloo和X.刘某通过基于CNN的密集3D模型拟合进行大姿态人脸对齐。在CVPR，2016年。5[14] M. Kan，S.山，H. Chang和X.尘堆叠渐进式自动编码器（SPAE），用于跨姿势的人脸识别。CVPR，2014。一、二[15] D. Kingma和J. BA. Adam：一种随机优化方法。ICLR，2015年。6[16] B. F. 克拉尔湾克莱因，E.Taborsky，A.Blanton，J.切尼K. Allen，P. Grother，A.是的，M。Burge和A. K.贾恩。推动无约束人脸检测和识别的前沿：IARPA Janus基准A. CVPR，2015。二、五、七[17] T. D. Kulkarni、W.F. Whitney，P.Kohli和J.特南鲍姆深度卷积逆图形网络。2015年，在NIPS2[18] H. 郭和 B.- T. 张某制约生成对抗网络的方法。在NIPSW，2016年。5[19] C. 莱迪格湖Theis，F. Husz a'r，J. Caballero，A. Cunning-ham，A.阿科斯塔A.艾特肯A. Tejani，J. Totz，Z. Wang和S.文哲使用生成对抗网络的照片真实感单图像超分辨率。CVPR，2017年。2[20] S. Li，X. Liu，X.柴，H. Zhang，S. Lao和S.山.基于形变位移场的图像匹配跨姿态人脸识别。ECCV，2012年。21427[21] X. Liu和T.尘使用几何学辅助概率建模的姿态鲁棒人脸识别。在CVPR，2005年。1[22] X. Liu，J. Rittscher，and T.尘人脸识别的最佳姿势。CVPR，2006。1[23] A. 马赫扎尼J.Shlens，N.杰特利和我古德费罗对抗性自动编码器。国际妇女权利研究中心，2015年。一、五[24] R. MarcJ. 黄玉-L. Boureau和Y.乐存。不变特征层次的无监督学习及其在对象识别中的应用。CVPR，2007。2[25] I. Masi，S.Rawls，G.Medion

下载后可阅读完整内容，剩余1页未读，立即下载