人脸逼真补全算法

4 浏览量更新于2023-10-15 收藏 1.07MB PDF 举报

深度生成模型

神经网络训练

身份认证购VIP最低享 7 折!

30元优惠券

1生成面补全李怡君1，刘思飞1，杨继美2，杨明轩11美国加州大学默塞德分校2Adobe Research{yli62，sliu32，mhyang}@ ucmerced.edujimyang@adobe.com摘要在本文中，我们提出了一个有效的人脸完成算法，使用深度生成模型。与充分研究的背景完成不同，面部完成任务更具挑战性，因为它通常需要为缺失的关键成分（例如，眼睛和嘴），其包含大的外观变化。与现有的非参数算法，搜索补丁合成，我们的算法直接生成内容的缺失区域的神经网络的基础上。该模型使用反射损失，两个对抗损失和语义解析损失的组合进行训练，这确保了像素的忠实性和局部-全局内容的一致性。通过大量的实验结果，定性和定量地证明了该模型能够处理任意形状的大面积缺失像素，并生成逼真的人脸补全结果。1. 介绍图像补全作为一种常见的图像编辑操作，其目的是用合成的内容填充图像中缺失或被遮蔽的区域。生成的内容可以与原始内容一样准确，或者简单地很好地适合上下文，使得完成的图像看起来在视觉上是真实的。大多数现有的补全算法[2，10]依赖于低级线索来从同一图像的已知区域中搜索补丁，并合成与匹配补丁相似的本地内容。这些方法从根本上都局限于从已知区域复制现有的模式和结构。复制和粘贴策略对于后台完成（例如，草、天空和山），方法是去除前景物体，并从背景中用类似的图案填充未知区域。然而，可以在相同图像中发现类似图案的假设对于填充对象图像的缺失部分（例如，脸）。许多对象部分包含独特的模式，这些模式无法与其他模式匹配。(a)(b)（c）第（1）款图1.面完成结果。在每一行中从左到右：(a)原始图像（128× 128像素）。(b)屏蔽输入(c)完成结果由我们的方法。在顶行中，面被一个正方形遮盖。在最下面一行中，我们展示了一个真实的例子，其中嘴巴区域被麦克风遮挡。输入图像中的补丁，如图1（b）所示。另一种方法是使用外部数据库作为参考[9]。虽然可以找到类似的补丁或图像，但涉及语义表示的对象的独特模式没有很好地建模，因为已知区域的低级[2]和中级[10]视觉线索都不足以推断缺失区域中的语义有效内容。在本文中，我们提出了一个有效的对象完成算法使用深度生成模型。输入首先在随机选择的正方形区域上用噪声像素掩蔽，然后馈送到自动编码器[25]。当编码器将掩蔽的输入映射到隐藏的表示时，解码器生成填充的图像作为其输出。我们通过引入两个对抗性损失来规范生成模型的训练过程[8]：缺失区域的局部损失，以确保生成的内容在语义上是一致的，以及整个图像的全局损失，以呈现更逼真和视觉上令人愉悦的结果。此外，我们还提出了一个人脸解析网络[14，22，13]作为一个额外的损失，以规范生成过程并强制执行与上下文更合理和一致的结果这种生成模型允许快速前馈图像完成，而不需要外部数据库作为参考。对于混凝土-39113912ness，我们将所提出的对象完成算法应用于人脸图像。总结了本文的主要工作如下首先，我们提出了一个深度生成完成模型，该模型由一个编码-解码生成器和两个对抗鉴别器组成，用于从随机噪声中合成丢失的内容。其次，我们解决了具有挑战性的人脸完成任务，并表明所提出的模型能够生成语义有效的模式的基础上学习表示这个对象类。第三，我们证明了语义分析在生成中的有效性，这使得完成结果看起来更合理，并与周围的上下文一致。2. 相关工作图像完成。已经在许多上下文中研究了图像补全，例如，修复、纹理合成和稀疏信号恢复。由于彻底的文献综述超出了本文的范围，我们讨论了最具代表性的方法，把我们的工作在适当的背景下。早期修复方法[4]利用扩散方程来迭代地将低级特征从已知区域传播到沿着掩模边界的未知区域。虽然它在修复方面表现良好，但它仅限于处理小而均匀的区域。另一种方法已经开发出来，通过引入纹理合成来进一步改善修复结果[5]。在[29]中，学习补丁先验来恢复具有丢失像素的图像最近Ren et al.[20]学习卷积网络进行修复。一种有效的非参数纹理合成的块匹配算法[2]显着提高了图像完成的性能虽然它在可以找到相似的补丁时表现良好，但当源图像不包含足够量的数据来填充未知区域时，它可能会失败我们注意到这通常发生在对象完成中，因为每个部分可能是唯一的，并且无法找到缺失区域的合理补丁。尽管这个问题可以通过使用外部数据库来缓解[9]，但随之而来的问题是需要学习一个特定对象类的高级表示以进行补丁匹配。Wright等人[27]将图像完成作为从输入恢复稀疏信号的任务。通过求解一个稀疏线性系统，可以从一些损坏的输入恢复图像。然而，该算法要求图像是高度结构化的（即，假设数据点位于低维子空间中），例如，对齐良好的面部图像。相比之下，我们的算法是能够执行对象完成没有严格的限制。图像生成。 Vincent等[24]第二十四话自动编码器学习从损坏的输入中重建干净的信号在 [7] 中，Dosovitskiy等人证明了可以通过反转深度来重建对象图像，卷积网络特征（例如，VGG [21]）通过解码器网络。Kingma等人[11]提出了变分自动编码器（VAE），其通过在潜在单元上施加先验来正则化编码器，使得可以通过从潜在单元采样或内插潜在单元来生成图像然而，由VAE生成的图像通常是模糊的，这是由于其基于逐像素高斯似然的训练目标。Larsen等人[12]通过添加一个用于对抗训练的判别器来改进VAE，该判别器源于生成对抗网络（GAN）[8]，并证明可以生成更真实的图像。与这项工作最接近的是Deepak等人提出的方法。[17]该方法应用自动编码器并将学习视觉表示与图像完成集成。然而，这种方法更强调对表示的无监督从本质上讲，这是一个先有鸡还是先有蛋的问题。尽管在对象检测方面取得了令人鼓舞的结果，但仍然不完全清楚图像完成是否可以为学习高级特征提供足够的监督信号。另一方面，语义标签或分割可能有助于改善完成结果，特别是在某个对象类别上。为了实现高质量的图像完成，我们建议使用一个额外的语义解析网络来规范生成网络。我们的模型处理严重的图像损坏（大区域丢失像素），并开发了一个组合的重建，对抗和解析损失的脸完成。3. 该算法在本节中，我们将描述所提出的对象完成模型。给定一个掩蔽图像，我们的目标是合成与整个对象语义一致且视觉上真实的缺失内容图2显示了由一个生成器、两个鉴别器和一个解析网络组成的拟议网络。3.1. 发生器生成器G被设计为一个自动编码器，用于在输入图像中缺失区域的情况下构建新内容。被屏蔽（或损坏）的输入，以及填充的噪声，首先通过编码器映射到隐藏的表示。与直接从噪声向量开始的原始GAN模型[8]不同，从编码器获得的隐藏表示捕获未知和已知区域之间的更多变化和关系，然后将其馈送到解码器以生成内容。我们使用VGG-19 [ 21 ]网络的“conv 1”到“pool 3”的架构解码器与具有非池化层的编码器是对称的。3913FC足球俱编码器（卷积+合解码器（conv+unpoolin解析网络（固定）全局鉴别器真/假？成组句法分析真/假？当地的图2. 网络架构。它由一个发生器，两个鉴别器和一个解析网络组成。生成器将掩蔽图像作为输入并输出所生成的图像。我们用原始像素替换生成图像的非掩码区域中的像素。学习两个判别器，分别对掩模和整个生成图像中的合成内容进行真假判别。解析网络是一个预训练的模型，保持固定，以进一步确保新生成的内容更具照片真实感，并鼓励新旧像素之间的一致性。请注意，测试期间仅需要发生器。3.2. 鉴别器生成器可以被训练为以小的重建误差填充被掩蔽的区域或丢失的像素。然而，它不能确保填充区域在视觉上是真实的和连贯的。如图3（c）所示，生成的像素非常模糊，仅捕获缺失面部组件的粗略形状。为了鼓励更多的照片逼真的结果，我们采用了一个CNOD，作为一个二元分类器，以区分真正的和假的图像。该方法的目标是帮助提高合成结果的质量，从而使经过训练的辨别者不会被不切实际的图像所欺骗。我们首先提出了一个局部D的缺失区域，它决定了是否在缺失区域的合成内容是真实的或没有。与图3（c）相比，具有局部D的网络（如图3（d）所示）开始帮助生成具有更清晰边界的缺失内容的细节。它鼓励生成的对象部分在语义上是有效的。但是，它的局限性也很明显，由于地方。首先，局部丢失既不能正则化人脸的全局结构，也不能保证被掩盖区域内外的统计一致性。其次，虽然生成的新像素以其周围的上下文为条件，但由于解码器的解池结构，在反向传播期间，局部D几乎不能在掩蔽区域之外产生直接影响。因此，沿区域边界的像素值的不一致性是明显的。因此，我们引入另一个全局D来确定整个图像的忠实性其基本思想是，新生成的内容不仅应该是真实的，而且还应该与周围的上下文一致。从图3（e）中可以看出，具有额外全局D的网络极大地解决了不一致问题，并进一步使生成的内容更加真实。我们注意到，两个鉴别器的结构类似于[19]。3.3. 语义正则化有了一个生成器和两个判别器，我们的模型可以被视为原始GAN [8]模型的变体，它以上下文为条件（例如，非掩模区域）。然而，作为瓶颈，GAN模型倾向于生成独立的面部组件，这些组件在面部表情和部件形状方面可能不适合原始主体，如图3（e）所示。上面的一个是大眼睛怪异和底部的一个包含两个不对称的眼睛。此外，我们发现，全球D是不是有效的，以确保在生成的图像中的细节的一致性例如，如果只有一只眼睛被掩蔽，则生成的眼睛与另一只未掩蔽的眼睛不能很好地拟合。我们在图4（c）中展示了另外两个示例，其中生成的眼睛与未掩蔽的眼睛明显不对称，尽管生成的眼睛本身已经是真实的。这两种情况都表明，需要更多的正则化，以鼓励生成的脸有类似的高层次分布与真实的脸。因此，我们引入了一个语义解析网络，以进一步提高生成的内容和现有像素的和谐。解析网络是一个自动编码器，与语义分割方法[28]有一些相似之处。将生成图像的解析结果因此，生成器被迫学习在哪里生成具有更自然形状和大小的特征。在图3（e）-（f）和图4（c）-（d）中，我们显示了没有和有smenatic正则化的模型之间生成的图像3.4. 目标函数我们首先引入重建损失Lr到gener- ator，这是网络输出和原始图像之间的L2仅使用Lr，生成的内容往往是模糊和平滑的，如图3（c）所示。原因在于，由于L2损失惩罚异常值，3914(a) 原始图像 (b)屏蔽输入（c）M1（d）M2（e）M3（f）M4（g）M5图 3. 在我们的模型的不同设置下的完成结果。 (c)M1 ： Lr. (d)M2 ： Lr+La1 。(e)M3 ： Lr+La1+La2 。(f)M_4 ：LR+La_1+La_2+Lp。（f）中的结果显示了最真实和最合理的完整内容。它可以通过后处理技术进一步改进，例如（g）M5：M4+泊松混合[18]，以消除沿掩模边界的细微色差。其中λ1、λ2和λ3是平衡不同损耗的影响的权重。3.5. 训练神经网络(a)原始（b）掩码输入（c）w/o解析 (d)w/解析图4. 分析正则化前后模型结果的比较。并且鼓励网络平滑各种假设以避免大的惩罚。通过使用两个鉴别器，我们采用对抗性损失，这反映了生成器如何最大限度地欺骗鉴别器以及鉴别器如何区分真假。它被定义为为了有效地训练我们的网络，我们使用课程策略[3]，逐渐增加难度和网络规模。培训过程分三个阶段进行。首先，我们使用重建损失来训练网络以获得模糊内容。其次，我们用局部对抗损失来微调全局对抗损失和语义正则化在最后阶段被合并，如图3所示。每个阶段都为下一阶段的改进做好准备，从而大大提高了网络训练的效率和效果例如，在图3中，重建阶段（c）恢复丢失眼睛的粗略形状，尽管内容是模糊的。然后，局部对抗阶段（d）生成更多细节以使眼睛区域在视觉上真实，并且全局对抗阶段（e）细化整个图像以确保外观围绕掩模的边界。Lai= minmaxExBracket（x）[logD（x）]语义正则化（f）最终进一步加强了更多G D数据（一）组件之间的一致性，并让生成的重新-+Ez<$pz（z）[log（1− D（G（z）]，其中pdata（x）和pz（z）表示噪声变量z和实际数据x的分布。这两个判别网络{a1，a2}具有相同的损失函数定义.唯一的区别是，局部反向传播仅为缺失区域提供训练信号（损失梯度），而全局反向传播跨越整个图像的损失梯度。在解析网络中，损失Lp是简单的逐像素softmax损失[16，28]。总损失函数定义为：L=Lr+λ1La1+λ2La2+λ3Lp，（2）更接近真实的脸。当使用对抗性损失进行训练时，我们使用类似于[19]的方法，特别是为了避免在训练过程开始时的竞争力太强的情况4. 实验结果我们进行了大量的实验，以证明我们的模型合成人脸图像上的缺失内容的能力超参数（例如，学习率），如[26]中所建议的那样设置为了平衡不同损耗的影响，我们使用λ 1=300，λ2=300和λ3=0。005在实验中3915图5. 我们在Helen测试数据集（顶部）和CelebA测试数据集（底部）上的解析结果示例。在每个面板中，面部图像（左）中的所有像素都被分类为以不同颜色显示的11个标签之一（右）。4.1. 数据集我们使用CelebA [15]数据集来学习和评估我们的模型。它由202，599张人脸图像组成，每张人脸图像都经过裁剪，通过两只眼睛的位置粗略对齐，并重新缩放为128×128×3像素。我们遵循标准分割，162，770张图像用于训练，19，867张用于验证，19，962张用于测试。我们将训练的面具大小设置为64×64，以确保至少有一个重要的面部成分丢失。如果掩码仅覆盖具有小掩码大小的平滑区域，则它不会驱动模型学习语义表示。为了避免过度拟合，我们进行数据增强，包括翻转，移位，旋转（+/- 15度）和缩放。在训练过程中，掩模的大小是固定的，但位置是随机选择的。因此，模型被迫以整体的方式学习整个对象，而不仅仅是某个部分。4.2. 面部解析由于CelebA [15]数据集中的人脸图像没有片段标签，我们使用Helen人脸数据集[13]来训练人脸解析网络进行正则化。Helen数据集由2，330个图像组成，并且每个面部具有覆盖面部的每个主要组成部分的11个分段标签（例如，[22]眼睛，眼睛，眼睛。我们首先粗略地裁剪每个图像中的人脸，大小为128×128，然后将其送入解析网络，以预测每个像素的标签。我们的解析网络与语义分割方法[ 28 ]有一些相似之处，我们主要修改了它的最后一层，有11个输出。我们使用标准的训练/测试分割并获得解析模型，与最先进的基于多目标的模型[14]相比，该解析模型在Helen测试数据集上的整体面部组件上实现了0.851的f分数，相应的f分数为0.854。该模型可以通过更仔细的超参数调整来进一步改进，但目前足以提高面部完成的质量。Helen测试图像上的几个解析结果如图5所示。一旦解析网络被训练，它就保持固定在我们的世代框架我们首先在CelebA训练集上使用网络来获得原始未蒙面人脸的解析结果作为地面真实，并比较在训练过程中对生成的面部进行解析。解析损失最终被反向传播到生成器以正则化面完成。我们在图5中展示了CelebA数据集上的一些解析结果。所提出的语义正则化可以被视为测量特征空间中的距离，其中可以实现对局部图像统计的敏感性[6]。4.3. 面完井定性结果。图6显示了我们在CelebA测试数据集上的人脸补全结果。在每个测试图像中，掩模覆盖至少一个关键面部部件。每个面板的第三列显示我们的完成结果是视觉上真实和令人愉快的。请注意，在测试过程中，掩模不需要限制为64×64正方形掩模，但建议总掩模像素数不超过64×64像素。我们展示了典型的例子，一个大的面具覆盖至少两个面部组件（例如，眼睛、嘴巴、眉毛、头发、鼻子）。我们特别提出了更多的结果，眼睛区域，因为他们可以更好地反映如何现实的新生成的脸，与所提出的算法。总体而言，该算法可以成功地完成具有侧面视图中的面部的图像，或者被具有不同形状和大小的掩模部分/完全破坏的图像。我们在第三行中呈现了几个示例，其中真实遮挡（例如，戴眼镜的人）。由于有时图像中的一个区域是否被遮挡是主观的，我们为用户提供了这个选项，通过绘制蒙版来分配遮挡区域。结果清楚地表明，我们的模型能够恢复部分掩盖的眼镜，或删除整个眼镜或只是框架填充在现实的眼睛和眉毛。在最后一行中，我们展示了多个随机绘制的遮罩的示例，这些遮罩更接近于现实世界的应用场景。图7呈现了不同关键部分（例如，眼睛、鼻子和嘴）被掩蔽。它表明，我们的完成结果是一致的和现实的面具形状和位置无关。定量结果。除了视觉结果外，我们还使用CelebA测试数据集（19，962张图像）的三个指标进行定量评估。第一个是峰值信噪比（PSNR），它直接测量像素值的差异。第二个是结构相似性指数（SSIM），估计两幅图像之间的最后，我们使用OpenFace工具箱[1]测量的身份距离来确定两张脸的高级语义相似性。这三个度量是在通过不同方法获得的完成结果与原始人脸图像之间计算的。结果见表1-3。具体而言，步骤-3916图6. CelebA [15]测试数据集上的人脸完成结果。在每个面板中，从左到右：原始图像，屏蔽输入，我们的完成结果。(a)O1(b)O2(c)O3(d)O4(e)O5（f）O6图8. 用不同的面具O 1-O 6模拟真实场景中发生的面部遮挡从左到右：左半边，右半边，两只眼睛，左眼，右眼，下半边。图7. 面零件完成。在每个面板中，左侧：屏蔽输入，右侧：我们的完成结果。从每个表的第2列到第5列显示了每个组件的明智贡献，其中M1-M5对应于图3中我们自己的模型的五个不同设置，O 1-O 6是用于评估的六个不同掩模，如图8所示。然后，我们将我们的模型与 ContextEncoder [17]（CE）进行比较。由于CE模型最初没有针对人脸进行训练，因此我们在CelebA数据集上重新训练CE模型以进行公平比较。由于评估的掩码O 1-O 6不在图像中心，我们使用其代码的inpaintRandom版本，并在每个图像中掩码25%的像素。最后，我们还将输出的非遮罩区域替换为原始像素。在第5列和第6列，我们的模型（M4）与CE的比较表明，我们的模型（M4）模型通常比CE模型执行得更好，特别是在大掩模上（例如，O1-O3、O6）。在最后一列中，我们证明了泊松混合[18]可以进一步提高性能。注意，当仅使用重建损失（M1）时，我们获得相对较高的PSNR和SSIM值，但这并不意味着更好的定性结果，如图3（c）所示。这两个指标只支持平滑和模糊的结果。我们注意到模型M1表现不佳，它几乎不能恢复任何东西，并且不可能很好地保持身份，如表3所示。虽然在训练过程中掩码大小固定为64×64，但我们测试了不同的大小，范围从16到80，步长为8，以评估我们模型的泛化能力图9显示了定量结果。所提出的模型的性能随着掩模尺寸的增加而逐渐下降，这是预期的，因为掩模尺寸越大，像素值的不确定性但一般来说，我们的模型表现良好，较小的掩模尺寸（小于64）。我们观察到中等大小附近的局部最小值（例如，32）。这是因为中等大小的掩模最有可能仅遮挡部件的一部分（例如，半个眼睛）。在实验中发现，生成部件的一部分比合成新的像素更困难，3917表1.在六个不同的掩模O 1-O 6上的SSIM方面的定量评估值越高越好。M1M2M3M4CEM5O10.7980.7530.7820.8040.7720.824O20.8050.7630.7870.8080.7740.826O30.7230.6750.7080.7310.7190.759O40.7470.7010.7410.7590.7540.789O50.7510.7060.7320.7550.7570.784O60.8070.7640.8080.8240.8180.841表2.在六个不同掩模O 1-O 6下的PSNR方面的定量评估值越高越好。M1M2M3M4CEM5O118.917.818.919.418.620.0O218.717.918.719.318.419.8O317.917.217.718.317.918.8O418.617.718.519.119.019.7O518.717.618.418.919.119.5O618.817.319.019.719.320.2表3. 在六个不同掩模O 1-O 6处的身份距离方面的定量评估。值越低越好。M1M2M3M4CEM5O10.7630.7750.6940.6020.7010.534O21.051.020.8940.8380.9080.752O30.7810.6930.6740.5710.5610.549O40.3100.3070.2650.2380.2360.212O50.3440.3210.2970.2560.2510.231O60.7320.7140.5930.5760.5850.541整个组成部分。不同大小掩蔽的定性结果见图6。在潜在的空间中穿梭。缺失区域虽然在语义上受到图像中剩余像素的约束，但可以适应不同的合理外观，如图10所示。我们观察到，当掩模填充不同的噪声时，所有生成的内容在语义上是真实的和一致的，但它们的外观不同。这与上下文编码器[17]不同，其中掩码填充零值，因此模型仅呈现单个完成结果。应该注意的是，在不同的输入噪声下，我们生成的内容的变化不太可能像原始GAN [8，19]模型中的变化那么大，该模型能够生成完全不同的人脸。这主要是由于来自上下文的约束（即，非掩模区域）。例如，在图10的第二行中，只有一个眉毛被遮盖，所生成的眉毛被限制为具有与另一个眉毛相似的形状和大小以及合理的位置。因此，生成的眉毛的外观上的变化主要反映在一些细节上，例如眉毛的阴影图9. 对我们的最终完井模型（M5）的不同正方形掩模尺寸的评价。该曲线显示了CelebA测试数据集中所有人脸图像的平均性能。图10. 不同噪声输入下的完井结果。生成的内容在语义上都是合理的，但具有不同的外观。检查眼睛的形状（顶部）和眉毛的右侧此外，这种差异还反映在色调和色调上。请注意，由于受到上下文的限制，外观上的变化不太可能太多样化。4.4. 人脸识别表3中的身份距离部分地揭示了网络保持身份信息的能力。为了测试在多大程度上可以保留其不同的例子的人脸身份，我们评估我们的完成结果在人脸识别的任务。请注意，此任务模拟了遮挡人脸识别，这仍然是计算机视觉中的一个开放问题。给定一个探针脸示例，识别的目标是从图库集合中找到属于同一身份的示例我们将CelebA [15]测试数据集随机分为图库和探针集，以确保每个身份在每个集合中具有大致相同数量的图像。最后，我们分别获得了大约10，000幅图像的图库和探测集，覆盖了大约1，000个身份。我们为每个探针图像应用六种掩蔽类型（O 1-O6），如图8所示。探针图像是由生成器恢复的新面。这六种掩蔽类型在一定程度上模拟了真实场景中可能发生的遮挡。例如，遮盖两只眼睛主要是指3918(a) Top1（b）Top3（c）Top5图11.在遮蔽（或遮挡）人脸上的识别精度比较。给定一个掩码的探测脸，我们首先完成它，然后使用它在图库中搜索相同身份的例子。我们报告的Top1，Top3和Top5识别精度的三种不同的完成方法。使用原始未屏蔽探头面（蓝色）的准确度被视为比较的标准。对被眼镜遮挡和遮盖下半脸的情况配合戴围巾。每个完整的探针图像都与图库中的图像进行匹配，并且可以分析排名最高的匹配以测量识别性能。我们使用OpenFace [1]工具箱基于身份距离找到前K个最近匹配，并在图11中报告所有探针图像上的平均前K个识别准确度。我们用探针图像的四种变化进行实验：原始模型、通过简单地填充随机噪声、通过我们的基于重建的模型M1和通过我们的最终模型M5完成的模型。以原始探测面的识别性能为上界。图11显示，使用我们的模型M5（绿色）的完整探测器实现了最接近上限（蓝色）的性能。尽管我们基于M5的识别的性能与上限之间仍然存在很大的差距，特别是当掩码很大时（例如，O1，O2），与噪声填充或重建损失（LR）相比，该算法在完成效果上有明显的改善。我们认为保持身份的完成是一个有趣的方向追求。4.5. 限制虽然我们的模型能够生成语义上合理和视觉上令人愉快的内容，但它有一些局限性。CelebA数据集中的人脸被粗略地裁剪和对齐[15]。我们实现了各种数据增强来提高学习的鲁棒性，但发现我们的模型仍然不能很好地处理一些未对齐的人脸。我们在图12的第一行中显示了一个失败案例。不愉快的合成内容表明，该网络不能识别的位置/方向的脸及其相应的组件。这个问题可以通过3D数据增强来缓解此外，我们的模型没有充分利用相邻像素之间的空间相关性，如图2所示。图12. 模型限制。上图：我们的模型无法为未对齐的脸生成眼睛。底部：仍然很难生成具有正确属性的语义部分（例如，红色唇膏）。图12的行。所提出的模型无法恢复嘴唇的正确颜色，嘴唇最初是用红色唇膏涂的。在我们未来的工作中，我们计划研究像素级递归神经网络（PixelRNN [23]）的使用来解决这个问题。5. 结论在这项工作中，我们提出了一个深度生成网络来完成人脸。该网络基于GAN，以自动编码器作为生成器，两个对抗损失函数（局部和全局）和语义正则化作为判别器。该模型可以成功地从随机噪声中为缺失的面部关键部分合成大小语义上有效且视觉上合理的内容。定性和定量实验都表明，我们的模型生成高感知质量的完成结果，并且非常灵活地处理各种掩蔽或遮挡（例如，不同的位置、大小、形状）。谢谢。这项工作得到了NSF CAREER Grant #1149783的部分支持，该基金来自Adobe和Nvidia。3919引用[1] B. 阿莫斯湾Ludwiczuk和M.Satyanarayanan Openface：一个通用的人脸识别库，具有移动应用程序。技术报告，CMU-CS-16-118，CMU计算机科学学院五、八[2] C. Barnes ， E. Shechtman ， A. Finkelstein 和 D. 戈德曼Patchmatch：A randomized correspondence algorithm forstructure image editing. ACM Transactions on Graphics，28（3）：24，2009. 一、二[3] Y. Bengio，J. Collobert和J.韦斯顿当前学习。InICML，2009. 4[4] M. Bertalmio，G.萨皮罗河谷Caselles和C.巴列斯特图像修复。SIGGRAPH，2000年。2[5] M.贝尔塔米奥湖Vese，G. Sapiro和S.奥舍同时进行结构和纹理图像修复。TIP，12（8）：882 2[6] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有感知相似性度量的图像。在NIPS，2016年。5[7] A. Dosovitskiy和T.布洛克斯使用卷积网络反转视觉表示在CVPR，2016年。2[8] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。一、二、三、七[9] J. Hays和A.A. 埃夫罗斯使用数百万的phoraphs完成场景ACM Transactions on Graphics ， 26 （ 3 ）： 4 ， 2007.一、二[10] J. - B. Huang，S.B. Kang，N.Ahuja和J.科普夫利用平面结构制导实现图像的自动完成。ACM Transactions onGraphics，33（4）：129，2014。1[11] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[12] A. Larsen，S. Sønderby和O.温瑟使用学习到的相似性度量来对后面的像素进行InICML，2016.2[13] 诉Le，J.勃兰特林湖，澳-地Bourdev和T.S. 煌交互式面部特征定位。ECCV，2012年。一、五[14] S. Liu，J. Yang，C. Huang和M.- H.杨用于人脸标记的多目标卷积学习CVPR，2015。一、五[15] Z. Liu，P. Luo，X. Wang和X.唐在野外深度学习人脸属性。在ICCV，2015年。五六七八[16] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。4[17] D. Pathak，P. Kr aühenbuühl，J. 多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。二六七[18] P. 我是佩雷斯先生。Gangnet和A. Bla k e. 泊松图像编辑。SIGGRAPH，2003年。四、六[19] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。三、四、七[20] J. S. 伦湖，澳-地徐，智-地Yan和W.太阳Shepard卷积神经网络2015年，在NIPS中。2[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。2[22] B. M. 史密斯湖，澳-地张，J.勃兰特Lin和J.杨基于示例的人脸解析。CVPR，2013。一、五[23] A. Van den Oord，N.Nal Kalchbrenner和K.Kavukcuoglu像素递归神经网络。InICML，2016. 8[24] P. Vincent，H. Larochelle，Y. Bengio和P A.曼扎戈尔用去噪自动编码器提取和合成鲁棒特征InICML，2008. 2[25] P. Vincent，H.拉罗谢尔岛Lajoie，Y. Bengio和P A.曼扎戈尔堆叠去噪自动编码器：使用局部去噪标准在深度网络中学习有用的表示。JMLR，11：3371-3408，2010. 1[26] X. Wang和A.古普塔。使用风格和结构对抗网络的生成图像建模。arXiv预印本arXiv：1603.05631，2016年。4[27] J. Wright，A. Y. Yang，杨树A.加内什，S。S. Sastry和Y. MA. 基于稀疏表示的鲁棒人脸识别。PAMI，31（2）：210-227，2009. 2[28] J. 扬湾，澳-地Price，S.科恩，H.李和MH. 杨使用全卷积编码器-解码器网络的对象轮廓检测在CVPR，2016年。三、四、五[29] D. Zoran和Y.韦斯从自然图像块的学习模型到整体图像恢复。在ICCV，第479-486页，2011年。2

下载后可阅读完整内容，剩余1页未读，立即下载