归一化人脸的特征生成方法

32 浏览量更新于2023-10-16 收藏 13.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

137030从面部身份特征合成归一化人脸0Forrester Cole 1 David Belanger 1 , 2 Dilip Krishnan 1 Aaron Sarna 1 Inbar Mosseri 1 William T. Freeman 1 , 301 Google, Inc. 2 麻省大学阿默斯特分校 3 MIT CSAIL0{ fcole, dbelanger, dilipkay, sarna, inbarm, wfreeman } @google.com0摘要0我们提出了一种方法，通过学习从面部识别网络提取的特征生成面部标志点和纹理，从而合成一个人的面部的正面、中性表情图像。与以前的生成方法不同，我们的编码特征向量在光照、姿势和面部表情方面基本不变。利用这种不变性，我们只使用正面、中性表情的照片来训练我们的解码器网络。由于这些照片对齐良好，我们可以将它们分解为一组稀疏的标志点和对齐的纹理映射。然后，解码器独立地预测标志点和纹理，并使用可微分的图像变形操作将它们组合起来。生成的图像可以用于许多应用，如分析面部属性、曝光和白平衡调整，或创建3D头像。01. 引言0计算机视觉领域的最新研究已经产生了深度神经网络，在面部识别方面非常有效，可以在数百万个身份上实现高准确率[3]。这些网络将输入照片嵌入到高维特征空间中，同一个人的照片映射到附近的点。FaceNet等网络产生的特征向量在姿势、光照和表情变化方面非常一致。然而，与神经网络一样，这些特征对人类的解释是模糊的。没有明显的方法可以逆向嵌入并从给定的特征向量生成一张脸的图像。我们提出了一种从面部身份特征映射回面部图像的方法。这个问题是非常不确定的：输出图像的维度比FaceNet特征向量多150倍。我们的关键思想是利用面部身份特征对姿势、光照和表情的不变性，将问题设定为从特征向量到均匀照明、正面、中性表情的人脸图像的映射，我们称之为归一化人脸图像。0� � � 1024-D特征 1024-D特征 1024-D特征 � � �0图1。输入照片（顶部）使用面部识别网络[1]编码成1024-D特征向量，然后使用我们的解码器网络解码成一张脸的图像（中间）。编码器网络对姿势、光照和表情的不变性使得解码器能够生成归一化的人脸图像。生成的图像可以轻松适应3D模型[2]（底部）。我们的方法甚至可以从黑白照片和人脸绘画中产生合理的重建图像。0直观地，从身份到归一化人脸图像的映射几乎是一对一的，因此我们可以训练一个解码器网络来学习它（图1）。我们在精心构建的特征和归一化人脸图像对上训练解码器网络。我们最好的结果使用FaceNet特征，但该方法也可以使用公开可用的VGG-Face网络生成的特征产生类似的结果[4]。由于面部身份特征非常可靠，训练的解码器网络对遮挡、光照和姿势变化等各种干扰因素具有鲁棒性。37040甚至可以成功处理单色照片或绘画。网络的鲁棒性使其与直接将输入图像通过变形到正面姿势的相关方法[5,6]有所区别，后者无法补偿遮挡或光照变化。生成的归一化人脸的一致性使得它具有多种应用。例如，合成面部的中性表情和面部标志点位置使得将3D可塑模型[2]适配到创建虚拟现实头像（第7.3节）变得容易。还可以通过将输入照片的颜色转换为预测面部的颜色（第7.4节）来实现自动颜色校正和白平衡。最后，我们的方法可以用作可视化面部识别系统可靠捕捉哪些特征的探索性工具。类似于Lanitis等人的主动形状模型[7]，我们的解码器网络明确地将面部的几何形状与纹理分离。在我们的情况下，解码器产生注册纹理图像和面部标志点的位置作为中间激活。基于标志点，通过纹理变形获得最终的图像。在开发我们的模型时，我们解决了一些技术挑战。首先，端到端学习要求变形操作是可微分的。我们采用了一种基于样条插值的高效、易于实现的方法。这使得我们可以计算输入和输出图像之间的FaceNet相似度作为训练目标，有助于保留感知相关的细节。其次，很难获得大量的正面、中性表情的训练数据。为此，我们采用了一种数据增强方案，利用纹理-形状分解，通过与最近邻插值来随机变形训练图像。增强的训练集只需要使用1K个独特的输入图像就可以拟合高质量的神经网络模型。本文介绍的技术，如几何和纹理的分解、数据增强和可微分的变形，适用于除了面部归一化之外的其他领域。02. 背景和相关工作02.1. 反转深度神经网络特征0对于理解深度网络预测的兴趣导致了几种从特定特征向量创建图像的方法。一种方法是通过梯度下降直接优化图像像素[8 , 9 , 10 , 11 ]，生成类似于“DeepDream”[ 12]的图像。由于像素空间相对于特征空间非常大，优化需要使用诸如总变差[ 10 ]或高斯模糊[ 11]等重正则化项。得到的图像很有趣，但不太真实。第二种方法更相关，它训练了一个前馈网络来反向生成给定的嵌入[13 , 14 ]。0图2.从左到右：输入训练图像，检测到的面部标志点，以及将输入图像扭曲到平均面部几何形状的结果。0正向网络用于反向生成给定的嵌入[ 13 , 14]。Dosovitskiy和Brox[ 14]将这个问题提出为给定特征向量生成最可能的图像。相比之下，我们的方法使用了更严格的标准，即图像必须是标准化的人脸。也许最相关的先前工作是Zhmoginov和Sandler[15]，它使用迭代和前馈方法来反转Facenet嵌入以恢复人脸图像。虽然他们不需要训练数据，但我们的方法产生了更好的细节。02.2. 人脸的主动外观模型0Cootes等人的主动外观模型[ 16 ]及其由Blanz和Vetter[ 2]扩展到3D的模型提供了用于操作和生成人脸图像的参数模型。该模型通过将人脸分解为两个组成部分：纹理T和面部标志几何L，来适应有限的数据。在图2（中间），检测到一组标志点L（例如鼻尖）。在图2（右侧），图像被扭曲，使其标志点位于训练数据集的平均标志点位置¯L。扭曲操作使纹理对齐，例如，每个训练图像中的左瞳孔位于相同的像素坐标上。在[ 16 , 2]中，作者对纹理和几何分别拟合了主成分分析（PCA）模型。这些模型可以使用比原始图像上的PCA模型少得多的数据可靠地拟合。一个人脸由标志点和纹理的主成分系数描述。为了重建人脸，将系数解投影以获得重建的标志点和纹理，然后将纹理扭曲到标志点上。有各种各样的扭曲技术。例如，Blanz和Vetter[ 2]为L和¯L都定义了三角剖分，并对L中的每个三角形应用仿射变换，将其映射到¯L中的相应三角形。在第4节中，我们使用基于样条插值的替代方法。02.3. FaceNet0FaceNet [ 1]将野外拍摄的人脸图像映射为128维特征。其架构类似于流行的Inception模型[ 17]。FaceNet使用三元组损失进行训练：A人的两张图片的嵌入应该比一张图片的嵌入更相似。37050人A的两张图片和人B的一张图片的嵌入之间的损失鼓励模型捕捉与其身份有关的人脸方面，如几何形状，并忽略与图像捕获瞬间有关的变化因素，如光照、表情、姿势等。FaceNet在一个非常大的数据集上进行训练，该数据集编码了各种各样的人脸信息。最近，使用公开可用的数据训练的模型已经接近或超过了FaceNet的性能[ 4]。我们的方法对输入特征的来源不加区分，并且从VGG-Face网络的特征和FaceNet的特征中产生类似的结果（图8）。我们既使用FaceNet作为预训练输入特征的来源，也使用FaceNet作为训练损失的来源：输入图像和生成的图像应具有相似的FaceNet嵌入。通过预训练网络定义的损失函数可能与感知差异更相关，而不是像素级差异[ 18 , 19 ]。02.4.人脸正面化0先前的人脸正面化工作采用非参数方法对野外拍摄的人脸图像进行注册和归一化[20, 21, 22, 23, 6,5]。在输入图像上检测到关键点，并将其与参考的3D或2D模型上的点对齐。然后，使用非线性变形将图像粘贴到参考模型上。最后，渲染的正面图像可以输入在正面图像上训练的下游模型。该方法基本上是无参数的，不需要标记的训练数据，但不能归一化由于光照、表情或遮挡引起的变化（图8）。02.5.使用神经网络生成人脸0无监督学习生成图像模型是一个活跃的研究领域，许多论文在celebA数据集[24]上评估面部图像[24, 25, 26,27]。在这些方法中，生成的图像比我们的图像更小且通常质量较低。与我们的系统相比，对比这些方法是具有挑战性的，因为它们是独立采样的，而我们是根据输入图像条件生成图像。因此，我们不能仅通过记忆某些原型来获得高质量的图像。03.自编码器模型0我们假设有一组正面、中性表情的训练图像。作为预处理，我们使用现成的关键点检测工具和第4节中的变形技术将每个图像分解为纹理T和一组地标L。在测试时，考虑到野外拍摄的图像，光照、姿态等方面的变化更大。对于这些图像，应用我们的训练预处理流程来获取L和T是不合适的。相反，我们使用一个深度架构来0直接从图像到L和T的估计进行映射。我们的网络的整体架构如图3所示。03.1.编码器0我们的编码器接受输入图像I并返回一个f维特征向量F。我们需要仔细选择编码器，使其对图像域的偏移具有鲁棒性。为此，我们使用预训练的FaceNet模型[1]，并且不更新其参数。我们的假设是FaceNet可以将与主体身份无关的面部图像变化归一化。因此，受控训练图像的嵌入被映射到与野外采集图像相同的空间。这使得我们只需在受控图像上进行训练。我们使用的不是最终的FaceNet输出，而是最低层次的非空间变化层：NN2架构的1024维“avgpool”层。我们在这一层之上训练一个从1024到f维的全连接层。当使用VGG-Face特征时，我们使用4096维的“fc7”层。03.2.解码器0我们可以直接使用深度网络将F映射到输出图像。这需要同时建模面部的几何和纹理变化。与Lanitis等人[7]一样，我们发现分别生成地标L和纹理T，并使用变形渲染最终结果更加有效。我们使用一个浅层多层感知器对F应用ReLU非线性函数来生成L。为了生成纹理图像，我们使用一个深度卷积神经网络。首先，我们使用一个全连接层将F映射到56×56×256的局部特征。然后，我们使用一组堆叠的转置卷积[28]，通过ReLU分隔，卷积核宽度为5，步幅为2，将其上采样到224×224×32的局部特征。第i个转置卷积后的通道数为256/2^i。最后，我们应用一个1×1卷积得到224×224×3的RGB值。由于我们生成的是注册的纹理图像，使用全连接网络而不是深度卷积神经网络是合理的。这样可以直接使用线性变换将F映射到224×224×3的像素值。尽管CNN具有空间平铺的特性，但这些模型的参数数量大致相同。我们在第7.2节中对这些方法的输出进行对比。解码器使用第4节中描述的可微分变形技术将纹理和地标结合起来。通过这种方式，从输入图像到生成图像的整个映射可以进行端到端的训练。03.3. 训练损失0我们的损失函数是图4中所示项的总和。首先，我们分别使用均方误差和均值绝对误差来惩罚我们预测的地标和纹理的误差。s(x, y) =n37060图3.模型架构：我们首先使用FaceNet[1]（具有固定权重）加上一个额外的多层感知器（MLP）层，即具有ReLU非线性的全连接层，将图像编码为一个小的特征向量。然后，我们使用深度卷积网络（CNN）分别生成纹理图和地标位置向量，然后使用可微分变形将它们组合起来得到最终渲染的图像。0分别惩罚重建图像的误差。这比惩罚最终渲染图像的重建误差更有效。例如，假设模型正确预测了眼睛的颜色，但是眼睛的位置不正确。惩罚输出图像的重建误差可能会使眼睛的颜色与脸颊的颜色相似。然而，通过分别惩罚地标和纹理，模型将不会为颜色预测付出代价，只会惩罚预测的眼睛位置。接下来，我们通过惩罚输入图像和输出图像的FaceNet嵌入的不相似度，来奖励生成图像和输入图像之间的感知相似性。我们使用具有固定参数的FaceNet网络计算两个图像的128维嵌入，并惩罚它们的负余弦相似度。使用FaceNet损失进行训练会增加相当大的计算成本：如果没有FaceNet损失，我们在训练过程中不需要执行可微分变形。此外，在生成的图像上评估FaceNet也是昂贵的。有关FaceNet损失对训练的影响的讨论，请参见第7.2节。0图4.训练计算图：每条虚线连接两个在损失函数中进行比较的项。纹理使用均值绝对误差进行比较，地标使用均方误差进行比较，FaceNet嵌入使用负余弦相似度进行比较。04. 可微分图像变形0设 I 0 为一张2D图像。设 L = {(x1, y1), ..., (xn, yn)}为一组2D地标点，D = {(dx1, dy1), ..., (dxn, dyn)}为每个控制点的位移向量。在可变形模型中，I 0是纹理图像 T ，D = L - L¯是地标相对于平均几何形状的位移。我们希望将 I 0变形为一个新的图像 I 1，使得满足两个属性：（a）地标点按照它们的位移进行了移动，即 I 1 [xi, yi] = I 0 [xi + dxi, yi + dyi]，（b）变形是连续的，并且任意阶的流场导数是可控的。此外，我们要求 I 1 是 I 0 、 D 和 L的可微函数。我们以2D图像的形式描述我们的方法，但它自然地推广到更高维度。0图5.图像变形：左图：起始地标位置，中左图：期望的最终位置，包括零位移边界条件，中右图：通过样条插值得到的密集流场，右图：将流场应用于图像。0图5描述了我们的变形过程。首先，我们使用样条插值从控制点处定义的稀疏位移构建一个密集的流场。然后，我们将流场应用于 I 0 以获得 I 1。第二步使用简单的双线性插值，这是可微分的。下一节将描述第一步。04.1. 可微分样条插值0插值是独立进行水平和垂直位移的。对于每个维度，我们在L 中的每个2D控制点 p 处定义一个标量 g p，并寻求产生一个密集的2D标量值网格。除了面部地标点，我们还在图像边界处包括额外的点，其中我们强制零位移。我们使用多项式插值[29]，插值函数具有以下形式0i =1 w i φ k ( ∥ ( x, y ) − ( x i , y i ) ∥ ) + v 1 x0(1) 这里，φ k 是一组径向基函数。常见的选择是 φ 1 ( r )= r 和 φ 2 ( r ) = r 2 log( r)（流行的薄板样条函数）。在我们的实验中，我们选择 k =1，因为线性插值对超调比薄板样条函数更鲁棒，并且线性化伪影在最终纹理中很难检测到。多项式插值选择参数 wi、a、b、c，使得 s 在distsij = ∥Pi − Pj∥A = φk(dists)B =(3)37070控制点，并使其最小化某种曲率定义 [29]。算法 1显示了在训练数据上估计插值参数并在一组查询点上评估插值函数的组合过程。最优参数可以通过线性代数或坐标逐元素非线性操作来获得闭合形式。因此，由于 ( 1 ) 是 x、y的可微函数，整个插值过程是可微的。0算法 1：可微样条插值0输入：点集 P = { ( x 1 , y 1 ) , . . . , ( x n , y n )}，函数值集 G = { g 1 , . . . , g n }，径向基函数 φk，查询点集 Q = { ( x 1 , y 1 ) , . . . , ( x m , y m ) }输出：使用在 P 上拟合的参数评估 ( 1 ) 的结果 F。0� 1 . . . 1 x 1 . . . x n y 1 .. y n0�0�0� v0� = � A B �0B 00� \ � 0� % 解线性方程组0返回 � n i =1 w i φ k ( ∥ ( x, y ) − ( x i , y i ) ∥ ) + v 1 x+ v 2 y + v 3 在 Q 中的每个 ( x, y ) 点上的值。05. 使用随机变形进行数据增强0训练我们的模型需要一个大而多样的数据库，其中包含均匀照明、正面、中性表情的照片。收集这种类型的照片是困难的，公开可用的数据库太小，无法训练解码器网络（参见图9）。因此，我们构建了一小组高质量的照片，然后使用基于变形的数据增强方法。05.1. 生成随机面部变形0由于面部是正面且表情相似的，我们可以通过变形生成合理的新面部。给定一个种子面部 A，我们首先通过随机选择 A的 k = 200个最近邻之一来选择目标面部。我们通过以下方式测量面部A 和 B 之间的距离：0d ( A, B ) = λ ∥ L A − L B ∥ + ∥ T A − T B ∥ , (2)0其中 L 是标记点的矩阵，T 是纹理映射的矩阵，λ = 10.0是我们的实验中的参数。给定 A 和随机的邻居B，我们分别线性插值它们的标记点和纹理，插值权重从 [0,1] 均匀地随机选择。0图 6.使用面部变形和渐变域合成进行数据增强。左列包含个体的平均图像。其余列包含与训练集中其他个体的随机变形。05.2. 渐变域合成0变形倾向于保留面部内部的细节，其中标记点是准确的，但无法捕捉头发和背景的细节。为了使增强的图像更加逼真，我们使用渐变域编辑技术 [30]将变形的面部粘贴到原始背景上。给定变形面部图像 T f和目标背景图像 T b，我们构建了关于输出纹理 T o的梯度和颜色的约束条件：0∂ ∂x To ∂0∂x Tf ◦ M + ∂0∂x Tb ◦ (1 - M)0∂ ∂y To ∂0∂y Tf ◦ M + ∂0∂y Tb ◦ (1 - M)0T o ◦ M = Tf ◦ M，0其中◦表示逐元素乘积，混合掩模M由全局平均地标的凸包定义，并通过高斯模糊进行软化。方程3构成了一个超约束的线性系统，我们以最小二乘的方式求解。最终结果通过将To扭曲到变形地标上形成（图6）。06. 训练数据06.1. 收集照片0有各种大型公开数据库的照片可在网上获得。我们选择用于训练VGG-Face网络[4]的数据集，因为它的规模和对面部识别的重视。它包含260万张照片，但其中很少有符合我们要求的正面、中性姿态和足够质量的照片。我们使用GoogleCloud VisionAPI[1]来去除单色和模糊的图片，具有高情绪分数或戴眼镜的脸部，以及倾斜或01 cloud.google.com/vision37080输入图像的平均值0图7.对同一人的图像进行平均以产生一致的光照。示例输入照片（左三列）在光照和颜色上有很大的变化。平均化倾向于产生一个均匀照明但仍然有细节的结果（右列）。0大于5°的俯仰角。剩下的图片被对齐以消除任何滚动变换，缩放以保持55像素的眼间距，并裁剪为224×224。经过过滤，我们得到了大约12,000张图片（原始集合的<0.5%）。06.2. 平均以减少光照变化0为了进一步消除光照变化，我们通过变形对每个个体的所有图片进行平均。经过质量过滤，我们得到了约1000个具有3张或更多图片的唯一身份。给定个体Ij的一组图片，我们使用Kazemi和Sullivan[31]的方法提取每张图片的面部地标Lj，然后对这些地标进行平均以形成Lµ。每张图片Ij被扭曲到平均地标Lµ，然后像素值被平均以形成个体的平均图片Iµ。如图7所示，这个操作倾向于产生类似于具有柔和均匀光照的照片。这1000张图片构成了基础训练集。训练图片中的背景变化很大，导致我们的结果中有噪点背景。通过手动去除背景，可能可以得到更干净的结果。07. 实验0在我们的实验中，我们主要关注野外标记人脸（LabeledFaces in theWild）[32]数据集，因为它的身份与VGG人脸数据集互斥。我们还包括了一些来自其他来源的示例，如一幅画作，以展示该方法的范围。除非另有说明，结果是使用第3节中的架构生成的，其中地标损失的权重为1，FaceNet损失的权重为10，纹理损失的权重为100。我们的数据增强产生了100万张图片。该模型使用TensorFlow[33]实现，并使用Adam优化器[34]进行训练。07.1. 模型鲁棒性0图8展示了我们的模型对于遮挡、姿态和光照等干扰因素的鲁棒性。我们使用了LFW数据集[32]中的两个身份，并为每个身份选择了四张图片（顶行）。我们的模型在训练时的结果如下所示：0在FaceNet“avgpool-0”和VGG-Face“fc7”特征上的结果如中间行所示。FaceNet特征的结果在不同姿态和光照下特别稳定，但VGG-Face特征也是可比较的。太阳镜和头饰等严重遮挡不会对输出质量产生显著影响。该模型甚至可以处理绘画作品，如图1（右）和图13（右上）。为了比较，我们还包括了基于图像扭曲的最先进的正面化方法（Hassner等人[5]）。与我们的方法相比，图像扭曲不能去除遮挡、处理极端姿态、中和某些表情或校正光照的变化。07.2. 设计决策的影响0在图9中，我们将我们的系统的输出与两种变体进行对比：一个没有数据增强训练的模型和一个使用数据增强，但使用全连接网络来预测纹理的模型。没有数据增强的训练会产生更多的伪影，因为过拟合。全连接解码器生成的图像非常通用，因为虽然它为每个像素都有单独的参数，但其容量有限，因为没有协调多个尺度输出的机制。图10显示了解耦纹理和关键点预测的好处。与具有相同解码器容量的常规CNN相比，我们的方法重现了更细节的细节。性能的提高源于Lanitis等人的主要观察结果：将输入图像变形到全局平均关键点（图2）可以对齐训练集中的眼睛和嘴唇等特征，使解码器以更高的保真度适应面部图像。图11比较了使用和不使用FaceNet损失训练的模型的输出。差异微小但可见，并具有改善恢复图像的感知效果。使用FaceNet损失训练的改进也可以通过评估测试输出上的FaceNet来衡量。图12显示了LFW图像的嵌入与其对应的合成结果之间的L2距离分布，对于使用和不使用FaceNet损失训练的模型。Schroff等人认为，如果两个FaceNet嵌入的L2距离小于1.242，则编码了相同的人。所有合成图像都通过了使用FaceNet损失的这个测试，但是如果没有，大约有2％的图像会被FaceNet错误地识别为不同的人。07.3. 3D模型拟合0标准化人脸的关键点和纹理可以用于拟合3D可变模型（图13）。将可变模型拟合到非约束的人脸图像需要解决一个困难的反渲染问题[2]，但是将其拟合到标准化的人脸图像则更加简单。[5]Figure 12. Histograms of FaceNet L2 error between input andsynthesized images on LFW. Blue: with FaceNet loss (Sec. 3.3).Green: without FaceNet loss. The 1.242 threshold was used bySchroff et al. [1] to cluster identities. Without the FaceNet loss,about 2% of the synthesized images would not be considered thesame identity as the input image.37090输入0FN0VGG0图8.LFW数据集中人脸标准化[32]。从上到下：输入照片，使用FaceNet特征的我们的方法的结果，使用VGG-Face特征的我们的方法的结果，Hassner等人的结果[5]。补充材料中有其他结果。0不使用数据增强的CNN FC使用数据增强的CNN使用数据增强的CNN0图9.我们系统的各种配置的输出：只使用1K原始图像训练的CNN纹理解码器，全连接解码器和使用Sec.5数据增强技术训练的1M图像的CNN。0输入普通CNN我们的方法0图10.测试数据上的解码器架构比较。“普通CNN”不解耦纹理和关键点，而我们的方法解耦。解码器容量和训练方案相同。0详细信息请参见补充材料第2节。0该过程产生了一个对齐良好的3D人脸网格，可以直接用作VR头像，或者可以作为进一步处理的初始化，例如在视频中跟踪面部几何形状的方法[35，36]。重建形状的保真度受可变模型范围的限制，可能可以通过使用更多样化的模型（如最近的LSFM [37]）来改善。0使用FaceNet损失和不使用FaceNet损失的输入FNL2误差：0.42 FN L2误差：0.80图11.使用FaceNet嵌入的损失项和不使用损失项的结果。FaceNet损失鼓励细微但重要的保真度改进，特别是在眼睛和眉毛周围。结果是输入和合成图像的嵌入之间的误差较小。07.4. 自动照片调整0Figure 12. FaceNetL2误差的直方图，输入和合成图像之间在LFW上的。蓝色：使用FaceNet损失（第3.3节）。绿色：没有FaceNet损失。Schroff等人[1]使用1.242阈值对身份进行聚类。没有FaceNet损失，大约有2%的合成图像将不被视为与输入图像相同的身份。Barron [38]Barron [38]37100Figure 13.我们模型输出在3D人脸上的映射。小图：输入和拟合的3D模型。大图：合成的2D图像。照片由Wired.com提供，CC BY-NC 2.0（图像已裁剪）。0由于归一化的人脸图像提供了人脸的“真实”图像，因此可以轻松地应用于自动调整照片的曝光和白平衡（图14）。我们采用以下简单算法：给定一个对齐的输入照片P和相应的归一化人脸图像N，从P和N的中心提取一个框（在我们的实验中，中心的100×100像素）08. 结论和未来工作0我们引入了一个神经网络，将野外拍摄的人脸图像映射到捕捉个体相似性的正面中性表情图像。该网络对输入的变化具有鲁棒性，例如光照、姿势和表情，这些对于之前的人脸正面化方法来说是问题。该方法提供了多种下游机会，包括自动白平衡图像和创建自定义3D头像。样条插值在计算机图形学中被广泛使用，但我们不知道有哪些工作在网络内部使用可微分模块进行插值。我们鼓励进一步应用这种技术。我们希望提高图像的质量。噪点估计是由于过度拟合图像的背景，模糊可能是由于使用像素级平方误差。理想情况下，我们将使用广泛的训练图像选择，并通过将第3.3节的FaceNet损失与对抗性损失[39]相结合，完全避免像素级损失。0输入图像0我们的方法0输入图像0我们的方法0Figure 14.使用归一化人脸的颜色自动调整曝光和白平衡的示例图像。在每组图像（2组3行）中，第一行是输入图像；第二行是我们方法的输出，第三行是Barron [ 38]的输出，这是一种最先进的白平衡方法。我们模型中皮肤色调的隐式编码对曝光和白平衡恢复至关重要。0多种下游机会，包括自动白平衡图像和创建自定义3D头像。样条插值在计算机图形学中被广泛使用，但我们不知道有哪些工作在网络内部使用可微分模块进行插值。我们鼓励进一步应用这种技术。我们希望提高图像的质量。噪点估计是由于过度拟合图像的背景，模糊可能是由于使用像素级平方误差。理想情况下，我们将使用广泛的训练图像选择，并通过将第3.3节的FaceNet损失与对抗性损失[39]相结合，完全避免像素级损失。37110参考文献0[1] F. Schroff, D. Kalenichenko, and J. Philbin, “FaceNet:用于人脸识别和聚类的统一嵌入”，在计算机视觉和模式识别IEEE会议论文集中，2015年，第815-823页。 1 , 2 , 3 , 4 , 6 , 70[2] V. Blanz and T. Vetter,“用于合成3D人脸的可变模型”，在计算机图形学和交互技术年会论文集中，1999年，第187-194页。 1 , 2 , 60[3] I. Kemelmacher-Shlizerman，S. M. Seitz，D. Miller和E.Brossard，“百万人脸的大规模识别基准”，CoRR，vol.abs/1512.00596，2015年。[在线].可用：http://arxiv.org/abs/1512.00596 10[4] O. M. Parkhi，A. Vedaldi和A.Zisserman，“深度人脸识别”，在英国机器视觉会议上，第1卷，第3期，2015年，第6页。1, 3, 50[5] T. Hassner，S. Harel，E. Paz和R.Enbar，“非约束图像中的有效面部正面化”，在2015年IEEE计算机视觉和模式识别会议上，第4295-4304页。2, 3, 6, 70[6] Y. Taigman，M. Yang，M. Ranzato和L.Wolf，“DeepFace：在人脸验证中缩小与人类水平性能的差距”，在2014年IEEE计算机视觉和模式识别会议上，第1701-1708页。2, 30[7] A. Lanitis，C. J. Taylor和T. F.Cootes，“一种统一的面部图像编码和解释方法”，在第五届国际计算机视觉会议上。IEEE，1995年，第368-373页。2, 3, 60[8] D. Erhan，Y. Bengio，A. Courville和P.Vincent，“可视化深度网络的更高层特征”，蒙特利尔大学，技术报告1341，2009年6月，也在2009年ICML学习特征层次结构研讨会上展示，加拿大蒙特利尔。20[9] K. Simonyan，A. Vedaldi和A.Zisserman，“深入卷积网络：可视化图像分类模型和显著性图”，CoRR，vol.abs/1312.6034，2013年。[在线].可用：http://arxiv.org/abs/1312.6034 20[10] A. Mahendran和A.Vedaldi，“通过反转来理解深度图像表示”，CoRR，vol.abs/1412.0035，2014年。[在线].可用：http://arxiv.org/abs/1412.0035 20[11] J. Yosinski，J. Clune，A. M. Nguyen，T. Fuchs和H.Lipson，“通过深度可视化理解神经网络”，CoRR，vol.abs/1506.06579，2015年。[在线].可用：http://arxiv.org/abs/1506.06579 20[12] A. Mordvintsev，C. Olah和M.Tyka。（2015年6月）Inceptionism：深入研究神经网络。20[13] M. D. Zeiler和R. Fergus，“可视化和理解卷积网络”，CoRR，vol.abs/1311.2901，2013年。[在线].可用：http://arxiv.org/abs/1311.2901 20[14] A. Dosovitskiy和T.Brox，“通过卷积网络反转视觉表示”，arXiv预印本arXiv:1506.02753，2015年。20[15] A. Zhmoginov和M.Sandler，“通过卷积神经网络反转面部嵌入”，arXiv预印本arXiv:1606.04189，2016年。20[16] T. F. Cootes，G. J. Edwards和C. J.Taylor，“主动外观模型”，在IEEE模式分析与机器智能交易上。Springer，1998年，第484-498页。20[17] C. Szegedy，W. Liu，Y. Jia，P. Sermanet，S. Reed，D.Anguelov，D. Erhan，V. Vanhoucke和A.Rabinovich，“通过卷积深入研究”，在2015年IEEE计算机视觉和模式识别会议上，第1-9页。20[18] A. Dosovitskiy和T.Brox，“基于深度网络的感知相似度度量生成图像”，CoRR，vol.abs/1602.02644，2016年。[在线].可用：http://arxiv.org/abs/1602.02644 30[19] J. Johnson，A. Alahi和L.Fei-Fei，“用于实时风格转换和超分辨率的感知损失”，在2016年欧洲计算机视觉会议上。30[20] A. Asthana，M. J. Jones，T. K. Marks，K. H. Tieu，R.Goecke等，“通过学习的2D变形进行姿势归一化的完全自动人脸识别”，在BMVC上。Citeseer，2011年，第1-11页。30[21] A. Asthana, T. K. Marks, M. J. Jones, K. H. Tieu和M. Ro-hith，“通过3D姿势归一化实现完全自动的姿势不变人脸识别”，在2011年国际计算机视觉会议上。IEEE，2011年，第937-944页。30[22] D. Yi, Z. Lei, and S. Z. Li, “面部识别的姿态鲁棒性研究,” inIEEE计算机视觉与模式识别会议 , 2013. 30[23] D. Yi, Z. Lei, and S. Li, “面部识别的姿态鲁棒性研究,” inIEEE计算机视觉与模式识别会议论文集 , 2013, pp. 3539–3545. 30[24] Z. Liu, P. Luo, X. Wang, and X. Tang,“野外环境中的深度学习人脸属性,” in国际计算机视觉会议论文集 , 2015. 30[25] A. B. L. Larsen, S. K. Sønderby, and O. Winther,“使用学习到的相似度度量进行超越像素的自编码,” arXiv预印本arXiv:1512.09300 , 2015. 30[26] J. Zhao, M. Mathieu, and Y. LeCun,“基于能量的生成对抗网络,” arXiv预印本 arXiv:1609.03126 ,2016. 337120[27] L. Dinh, J. Sohl-Dickstein, and S. Bengio, “使用RealNVP进行密度估计,” arXiv预印本 arXiv:1605.08803 , 2016. 30[28] V. Dumoulin and F. Visin, “深度学习中的卷积算术指南,”arXiv预印本 arXiv:1603.07285 , 2016. 30[29] A. Iske,《散乱数据建模中的多分辨率方法》, ser. LectureNotes in Computational Science and Engineering. SpringerBerlin Heidelberg, 2012. [Online]. Available:https://books.google.com/books?id= CqP-sgEACAAJ 4 , 50[30] P. P´erez, M. Gangnet, and A. Blake, “泊松图像编辑,” inACM SIGGRAPH 2003论文集 , ser. SIGGRAPH ’03, 2003, pp.313–318. 50[31] V. Kazemi and J. Sullivan,“用回归树集合进行1毫秒人脸对齐,” in2014年IEEE计算机视觉与模式识别会议论文集 , ser. CVPR ’14.IEEE Computer Society, 2014, pp. 1867–1874. 60[32] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller,“野外环境中的人脸识别数据库,” 麻省大学阿默斯特分校,技术报告 07-49, 2007年10月. 6 , 70[33] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C.Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat,I. J. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R.J´ozefowicz, L. Kaiser, M. Kudlur

下载后可阅读完整内容，剩余1页未读，立即下载