2021年CAD图形专题：FaceShapeGene实现灵活人脸图像编辑

99 浏览量更新于2023-12-09 收藏 2.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

图形和视觉计算4（2021）2000232021年CAD图形专题FaceShapeGene：一种用于灵活人脸图像编辑徐森哲a，b，黄浩志c，张方略d，张松海a，张伟a中国清华大学b中国北京雁栖湖数学科学与应用研究所c腾讯人工智能实验室，中国新西兰惠灵顿维多利亚大学Ar ticlei n f o ab st ract文章历史记录：收到2021年2021年4月20日修订2021年4月20日接受2021年5月1日网上发售保留字：面部图像编辑面部形态如果我有和我最喜欢的明星一样的鼻子形状，我看起来会怎样？现有的人脸图像处理方法一般集中在修改预定义的人脸属性、编辑表情和改变图像风格等方面，用户不能自由地控制特定语义人脸部位的形状。面部图像。面部部分形状由其几何形状描述，并且需要通过连续生成几何参数来控制。因此，现有的方法，离散标记的属性是不适用于这项任务。在本文中，我们提出了一种新的方法来学习解纠缠的形状表示的人脸图像，即FaceShapeGene，它编码的形状信息的语义面部部分到单独的块在潜在的空间。它允许用户自由地重组来自其他人的面部图像的部分潜在块，以将指定的面部图像部分形状，就像基因编辑。几个任务的实验结果表明，所提出的FaceShapeGene表示正确地解开不同的语义部分的形状特征。与现有方法的比较表明了该方法在人脸部分编辑任务上的优越性版权所有© 2021作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）1. 介绍由于面子在社会交往中起着至关重要的作用，在过去的二十年中，人脸图像处理迅速增加。随着深度学习的快速发展，深度生成模型已经成为图像生成和合成领域的领先技术，包括生成对抗网络（GAN）[1-其中，GAN受到研究人员的最大关注，并涉及许多变体，这些变体可以实现各种人脸生成应用。除了基于潜在向量随机合成逼真的人脸图像[1-现有的方法已经被提出来生成逼真的人脸图像。将标签映射或草图转换为相应的人脸图像可以用公式表示为图像到图像的转换问题[16-∗通讯作者。电子邮件地址：zsh@tsinghua.edu.cn（S.-Z. Xu）.用于生成具有不同结构的人脸图像。通过使用辅助分类损失进行训练，图像到图像转换技术也可以应用于操纵由面部图像的标签描述的一个或多个预定义属性[19，20]，例如性别，年龄，表情和头发颜色。GANimation[21]可以通过训练以肌肉运动的连续嵌入为条件的GAN模型来生成任意面部表情。另一种保留身份的面部编辑方法专注于合成新视图[22，23]。然而，面部零件的几何形状不能用离散的标签来描述，这使得将上述技术转移到面部零件的形状编辑中变得困难。为了更直观地编辑人脸，需要学习每个语义因素的隐式表示。然而，通过上述方法学习的表示通常被分散地编码在潜在代码中，并且难以彼此分离。为了分离高维数据中分裂潜在变异源的独立语义因素，提出了非纠缠表示的概念其思想是将每个语义因素的表示限制在高维空间的固定区域中，从而消除潜在空间中因素之间的耦合，其中直观的编辑不同。https://doi.org/10.1016/j.gvc.2021.2000232666-6294/© 2021作者。爱思唯尔有限公司出版这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表图形与视觉计算期刊首页：www.elsevier.com/locate/gvcS.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）2000232Fig. 1. 使用FaceShapeGene进行部分面部编辑。左边两列是输入的人脸图像.右边的两列显示了Face-ShapeGene生成的人脸图像。行A到D是分别交换眉毛、眼睛、鼻子和嘴巴的结果。可以在潜在向量级别上实现输入属性。现有的解开方法[24-然而，这些因素不能用来描述特定面部部位的形状我们的面部形状是从我们的父母继承的。在生物学上，特征是由相应的基因控制的，反过来，理论上特征可以通过交换基因来操纵，这意味着在基因空间中潜在的解纠缠表征。受此启发，如果我们将潜在空间视为染色体，如果我们能够对形状进行编码，则将有利于人脸编辑把面部的各个部分分割成不同的块通过不同块的组合来重构人脸，使对图像人脸部分的操作类似于基因编辑。在本文中，我们实现了我们的新方法，即FaceShapeGene，它支持可伸缩的面部形状操作，通过学习从人脸图像中解开的形状表示。我们的框架包括一个解纠缠编码器和一个全面的解码器来重建整个脸。解纠缠编码器将输入的人脸图像编码到潜在空间中，在潜在空间中，人脸部分解码器将这些潜在特征解码为完整的面部图像，每个面部部分的形状由潜在向量中的对应块表示。图1中示出了一个示例。除了整体解码器，我们的框架还包含一些辅助的部分解码器。每个辅助部分式解码器学习从相关块解码对应的面部部分的形状。它们还有助于改善潜在空间的解纠缠。我们选择的面部部位包括眉毛、眼睛、鼻子和嘴巴。其余区域（包括头发、上半身和后面的背景）存储在一个基本区块中，该区块不用于交换。我们工作的主要贡献可以概括为：• 提出了一种高效的人脸图像去纠缠表示框架FaceShapeGene，直接在高维潜空间中获得人脸部位几何形状的去纠缠表示.• 我们使用FaceShapeGene提供一种新颖的类似基因编辑的面部部件操作工具，该工具支持多个灵活的编辑操作，例如同时交换多个指定的面部部件形状和在两个个体之间插入面部部件形状。• 我们提出了一个有效的自洽学习方案，使我们的深度模型能够提取解纠缠特征。2. 相关工作2.1. 一般图像到图像翻译图像到图像翻译是将图像从一个可能的域转换到另一个可能的域的问题。Isola等人。[16]提出Pix2Pix，为基于条件对抗网络的一般图像到图像转换提供监督解决方案[27]。因此，通过引入循环一致性约束，提出了一些无监督方法[17，28]上述方法做了一个简单的假设，即图像到图像的转换是学习确定性的一对一映射的问题。然而，在大多数图像到图像的翻译任务中存在一对多或多对多的映射。MUNIT[29]和DRIT[30]等方法试图通过将图像的潜在表示分解为域不变内容代码和域特定样式代码来解决多模态图像到图像翻译问题，从而大大减少模式崩溃并产生多种多模态翻译结果。还有一些方法旨在在监督设置[18]或无监督设置[6]下以更高的分辨率执行图像到图像的转换。在这些方法中，所有语义因素都被分散编码在潜在代码中，并且不支持潜在级别的人工编辑。2.2.用于面部编辑的人脸图像是最常见的图像类型之一，大量的GAN专注于人脸图像编辑。他们中的许多人专注于转换面部图像的预定义面部属性。Zhao等人提出了ModularGAN[20]，通过串联堆叠多个两域模型来同时编辑多个面部属性。 Choi 等人提出了StarGAN[19]，以在单个模型中集成多个两域面部属性转换。它将额外的属性标签通道连接到输入图像以指定目标域。AttGAN[31]、Fader- Net[32]和STGAN[33]将这些属性标签移动到潜在代码。AttGAN[31]和FaderNet[32]学习去除潜码中包含的属性信息，并附加指定的属性标签以指示解码器在所需的域中获得图像。代替属性状态标签，STGAN[33]使用属性状态差异作为潜在空间中的导向器，并在其网络中引入跳跃连接。其他一些方法考虑从其他方面修改人脸图像，例如表情或视点。GANimation[21]利用面部动作编码系统（FACS）来描述用于表情编辑任务的肌肉运动的连续嵌入。 Shen等人。[23]提出了一种三人GAN，用于从任意视点生成人脸，同时保留身份。Gu et al.[34] 提出了mask-guided conditional GAN来从给定的masks合成面部图像，这支持许多高级面部编辑任务。还有一些基于GAN的方法使用图像先验来重建和编辑人脸图像。mGANprior[35]提出使用具有预训练GAN模型的多个潜在代码来提高图像重建质量。Zhu等人。[36]提出了一种域内GAN反转方法来重建图像，同时保持反转代码在语义上对编辑有意义。Pan等人[37]提出了一种深度生成先验，以更好地恢复S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）2000233D图二. 我们系统的整体管道。训练解纠缠编码器以提取所提出的FaceShapeGene表示，其将将整个面部分为五个语义部分。用户可以从多张面孔中重组FaceShapeGene在此基础上，整个解码器根据重组后的FaceShapeGene生成一个重新混合的人脸图像。此外，我们在FaceShapeGene中包含一个基本块来存储面部以外的图像内容。利用先验知识中蕴含的丰富知识来弥补图像的缺失信息。然而，几乎没有方法支持基于输入面部图像直接操纵指定面部部位的形状[38]，尽管面部部位包含重要的肖像局部特征。2.3.人脸图像的非纠缠学习学习如何理清人脸图像潜在表征中的特定语义因素对于人脸图像编辑是非常有用的。通过对语义潜块的交换或修改，可以准确、灵活地交换或改变人脸图像的语义特征。有很多研究都在研究这个问题。Liu等人[39]将自动编码器分为身份提取和身份消解两个分支，可以解开人脸图像的身份信息，支持身份不变的人脸编辑。GeneGAN[24]可以学习具有相反属性的两个未配对图像集之间的差异到投影的潜在子空间中，并且可以通过交换子空间来执行属性的细粒度控制。这些方法只关注表示的某一方面，而其他方法旨在同时传递多个特定属性。DNA-GAN[25]试图以监督的方式学习人脸图像的类似DNA的潜在表示，其中每个潜在空间都代表变化的一个因素。 ELE-GANT[26]还以非纠缠方式对潜在空间中的所有指定属性进行编码，这使得能够同时将操作参数从一个图像传输到另一个图像。In-terFaceGAN[40]探索了具有子空间投影的预训练GAN的各种语义之间的解纠缠，并可用于面部图像操作。然而，上述方法只能对由离散标签描述的非几何特征执行解纠缠学习，而不能学习诸如面部部分形状的几何特征的解纠缠表示3. 我们的方法我们提出了FaceShapeGene，一个解开的形状表示，有利于灵活的面部编辑工具的发展。总体框架如图2所示。我们首先使用去纠缠编码器将输入的人脸图像编码为它们的去纠缠特征表示（FaceShapeGenes），其中每个面部部分的几何形状以及外观分别编码到不同的块中。然后，用户被允许自由地重新组合来自其他图像的面部部分块，以改变图三. 解纠缠编码器和辅助解码器。解纠缠编码器GE将输入编码到潜在空间。训练一组单独的辅助逐部分解码器G i以提取逐部分形状特征y i以及来自对应块fi的第i个面部部分的部分式外观特征xi。所有部分块连接在一起以形成FaceShapeGenef。最后，训练整体解码器GD以将f解码为整体面部标签图y和原始图像x。面部特定部位的形状。一旦编辑完成，整个解码器解释编辑的FaceShapeGene以生成最终的面部图像，其中每个面部部分的形状由FaceShapeGene表示。在下面的小节中，我们首先介绍我们的框架的组成部分和我们设计的动机，然后介绍我们的培训计划。3.1. 解开编码器和辅助解码器我们使用解纠缠编码器 G E 将输入面部图像 x 编码到FaceShapeGene中。我们的FaceShapeGene专注于四个主要的面部部位，即眉毛，眼睛，鼻子和嘴巴。第i个面部部分的信息被编码到FaceShapeGenef中的面部部分块fi中，其可以与其他面部图像交换以进行编辑。如图3所示。由于人脸部分块只包含了相应人脸部分的信息，我们将人脸的头发、上身和背景等互补区域编码到一个特殊的块中，称为基块fbase，以防止它们被丢弃。S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）2000234D2D我我我D1DDD1DISL我x为ohL2我2D包含外观信息+DI（GD（GE（x））4， 5， 6）−1<$2，（4）部分EDL我L1L1VGGVGGGANGANDIS（G，Gi）=EGD GE x− y，x·M.MiDISL我x为ohL2我2ΣD LDΣD LI22编码时。注意，基本块fbase不能用于交换。学习面部部分形状的分解表示是[44][45][46][47][48]LVGG（GE，Gi）=Ex，y∈φ（Gi（GE（x）−φ（yi，xi）∈，（2）这是具有挑战性的，因为几何形状不能像其他语义因子那样由一维标签或回归标量来描述。相反，我们使用标签映射来表示面部的形状，并训练解码器从其中φ表示由预保持的VGG19网络提取的特征[46]。在我们的实验中，我们使用conv1-1，conv2-2，conv3- 2，conv4-4和conv5-4层来提取特征。VGG损失鼓励学习形状与地面实况形状相似那块我们设置一个辅助解码器Gi对于每个面部部分更准确地说。块fi，以从中学习对应的面部部分为了使FaceShapeGenef能够重建完整的图像，每个面部部分块fi还必须包含对抗性损失除了上面的两个外观损失，我们还利用对抗性损失来监督结果。我们采用两种不同的判别准则D_1和D_2分别判别L I- 所述标签图和所述部分图像的对应面部质量的逐像素外观信息部分也。如果面部大块如果我不收取任何费用，社会部分外观信息，该外观信息将L（Di，Di）= E ΣǁDi(yi)−1ǁ2+ǁDi(xi)−1ǁ2被包括在由重构+f_D（G（GE（x））1， 2， 3）f_D+f_D（G（G E（x））4，5，6）f_D（3）f_D（G（GE（x））1，2，3）f_D（G（G E（x））4， 5，6）f_D（G E（x））1，2，3）f_D（G E（x）4，5， 6）f_D（G E（x）4，5，6）f_D（G E（G E（xi i2i i2L D约束由于像素方面的外观信息也在-包括面部的轮廓形状，2I D2不能保证在f1中被独立编码，这使得解缠表示不精确。所以辅助解码器Gi也应该迫使块f我LGAN（GE，Gi）=Ex，y<$Di（Gi（GE（x））1， 2， 3）−1<$2我我2通过学习将其解码为相应的面部部分xi的轮廓形状和yi相同，但是学习输出分为标签映射通道（通道1、2和3）和部分图像通道（通道4、5和6），用于分离显示。同时恢复标签映射yi和部分外观xi犯罪我们在Di中使用LSGAN[47]和PatchGAN[16]Di可以减少训练的难度。为了使这两个输出具有统一的形式，我们使用与部分图像具有相同形式的标签映射，这是一个三通道RGB颜色映射，每个面部部分由唯一的颜色表示。对于基块f基，我们还设置了一个辅助解码器G基，它只还原标签图稳定的训练。LGAN确保生成的部分标签映射和部分图像保持在正确的域中，在生成的结果中带来更多的保真度。用于训练局部面部解析器（GE，Gi）的完整目标函数是：D基地L（G，Gi，Di，Di）= λ L + λL+ λ（L+ L）.存在.由于用于监督每个块的数据是对应的面部部分，其不包含其他部分的信息，因此根据我们的实验，在对一个编码块的内容感知L1损失L1损失已被广泛用于有效地重建图像的低频。一般L1损失考虑减少输出和（五）在每次迭代中，索引i点到的对应的面部或基块。当i指向基本块时，忽略分支中的计算部分图像。我们通过交替地更新局部面部解析器（GE，Gi）和局部Di和Di来最小化损失：最小值最小值iL部分（GE，G，D，D）。地面实况然而，由于面部部位只占一小部分，部分的图像，一般L1损失将相当小，甚至GE、GDDL，DID L I当部件内容没有被正确地重构时。因此，我们需要使L1损失项对面部区域比其他位置给予更高的关注。为此，我们支持-3.2.整体解码器上述辅助逐部分解码器Gi只专注于解码-造成内容感知的L1损失，其被公式化为：生成局部部分，但不能为（i）EDx为oh（））（i）（ i））完整的面部图像。我们训练一个整体解码器GD来翻译FaceShapeGenes到面部图像。在使GD能够去-编码一个编辑过的FaceShapeGene，我们首先需要确保它的能力从原始FaceShape重建原始图像x<$（Gi（GE（x））−（yi，xi））·（1−Mi）<$吉恩·f 类似于辅助逐部分解码器Gi，GD也具有+的版本。（1−Mi）、（1）两个分支，其中一个是预测另一个用于重构像素的颜色。标签图重建仅用于辅助训练我们使用Mi来表示面部部分形状yi，其通过二进制化从yi计算。我们的内容感知L1损失标准化了内容区域和非内容区域过程我们也使用L1和对抗性损失来监督GD：RVGG感知丧失面积，使他们平等地考虑，无论其相对大小。我们制定我们的整体本地人脸解析任务作为一个回归-LL1（GD）=Ex，y[<$GD（GE（x））−（y，x）<$1]，（6）而不是一个密集的分类问题，因为如果我们将标签图视为分类标签，并像场景解析任务[41-相反，将任务制定为回归问题并使用RVGG （GD）=Ex，y[<$φ（GD（GE（x）−φ（y，x）<$1]，（7）Lr（D，D）=ED（y）−1我们的内容感知的母语损失可以缓解上述类的不平衡L我DLy，因为基础块的地面实况部分图像不1LL1S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）2000235D2我DE四、五、六2+DL（GD（GE（x））1，2，3）2+DI（GD（GE（x））4，5，6）2，（8）频率，以便使第i个面部的解析结果Gi损失。VGG感知损失是一种感知重建RGAN （GD）=Ex，y<$$>DL（GD（GE（x））1， 2， 3）−1<$2部分更接近地面真相的形状，我们采用VGG模型，+D（G（G（x）−1，（9）2L问题.VGG感知损失由于L1损失更注重低位S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）2000236remixDD（G（f）−1）2D+DI（GD（fr）4， 5， 6−1）2，（12）由于xA和yA在最后一个小节中用于训练，这里RDBBB1DISR2222L （G）=EG（G（f））−f，（13）22L= −+见图4。框架的混合和循环约束。解缠结编码器G E从受体x A和供体x B中提取两个FaceShapeGenesf A和f B。将fA的某个基因（如鼻子）替换为fB的某个基因，就得到了重新混合的FaceShape基因fr。再混合图像x r以及相关联的标签映射y r由总解码器GD解码。将xr反馈给G E得到fcycle。 f循环需要与fr一致。并且来自两个方向的重新交换的特征应当重构输入x A，xB.损失函数具有与（GE，Gi）的损失相同的形式。我们采用两个总体判别器DL和DI来判别质量的整体标签地图和图像输出的GD。充分训练GD的目标函数是：LGAN（GD）=Efr2LDr1、2、32ΣL（G，D，D）=λrLr+λrLr+λr（Lr+Lr）。我们使用xB和yB作为正样本来训练DI和DL，整体D L IL1L1VGGVGGGANGANDIS（十）增加样本的多样性。循环约束混音约束仅保证其以对抗方式求解：argminGD minDL，DILoverall（GD，DL，DI）。GD 和 DL 、 DI 交替更新。这使得整个解码器 GD 具有“ 阅读”FaceShape基因的能力3.3.混音和循环限制有了上述组件，我们能够执行人脸分析和重建原始人脸图像。我们引入了一种新的学习方案，使该模型能够生成一个新的人脸图像，包含不同的人脸图像的面部部位的形状特征。我们的方法如图4所示，输入图像xA被视为受体，参考图像xB充当供体。对于X受体和供体x，我们使用解纠缠编码器一再混合图像xr可以落入正常面部图像的右分布，但是不能保证再混合图像xr具有交换的面部部分。这是通过使用我们的循环约束来实现的。在循环约束下，我们将x r反馈到解纠缠编码器GE，并得到重新编码的潜在码f cycle=G E（x r）。首先，f循环需要与解码前的潜码保持一致，以加强la与la之间的一一对应，帐篷代码和图像：2LCDfrEDr 4，5，6r其次，当第f个周期被馈送到逐部分解码器Gi时，应该获得xB的第i个面部部分。这确保了xr不会复制xA：LPC（ GD ） =EfGi （ GE （ GD （ fr ） 4 ， 5 ， 6 ）） − （ yi ， xi ），（ 14）接下来，我们重新交换循环特征f从两个方向，GE提取两个FaceShape基因fA和fB。通过替换某个fA的基因（即特定面部部分的块）与fB的基因，我们获得重新混合的FaceShapeGenefr。然后，整体解码器GD将fr解码为再混合的整体面部图像Xr以及相关联的再混合的整体标签图yr。同样的操作可以应用于其他面部部位。然而，学习生成对应于任意再混合的FaceShapeGene的再混合的面部图像Xr是不平凡的，因为整个解码器GD还没有看到任何再混合的形状表示。考虑到xr不存在基础事实，在重新混合的形状表示上对GD进行监督训练是不可行的。因此，我们引入了一种循环训练策略来进行无监督的G D训练。在下面的描述中，我们周期分别重建输入xA和xB。当f循环的第i部分与f A的第i部分交换回来时（表示为fAr），模型应恢复受体x A。同样，当f周期的部分i以外的部分与fB的部分交换回来（表示为fBr），解码图像应该能够恢复施主xB：Lcycle（GD）=EfAr，fBr[<$GD（fAr）−（yA，xA）<$1+<$GD（fBr）−（yB，xB）<$1]，（15）因此，混音和循环约束的完整目标函数是：Lrc（GD，DL，DI）=λLCLLC+λPCLPC+λcycleL cycle假设fr是通过将fA的第i个块替换为remixremixremixfB的。首先，一旦生成了混音图像x r和混音标签映射y r，我们需要确保它们落入x和y的分布相同。幸运的是，在最后一步中，我们有经过训练的总体BIDI和DL，可以重用以评估生成的图像和标签图。我们优化xr，yr欺骗DI和DL：remix（DL，DI）EfDL（yB）12DI（xB）12+DL（GD（fr）1，2，3）+DI（GD（fr）4，5，6），（11）S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）2000237D- -+λGAN（LGAN +LDIS ）的。（十六）再混合和循环约束重用逐部分解码器G1和整体鉴别器D1和D1，从而确保当通过交换潜在块来操纵面部部分时G1和D13.4.总体目标最后，我们的完整目标函数是：L total =Lpart+L overall + Lrc。（十七）S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）2000238图五. 不同的嘴混音结果为给定的脸。我们的方法可以为给定的图像生成不同的结果。我们固定受体xA，并显示不同供体xB的结果。4. 实验数据集需要具有对应的像素级标签的面部图像数据集用于训练。我们构建了一个包含17，975张人脸图像的人脸解析数据集，并使用真实标签映射来训练和测试我们的网络。该数据集将向公众开放。其他公共人脸解析数据集，如最近提出的CelebAMask-HQ[48]也适用于训练。只要标记了所关注面部的同类标签图，结果不会有重大差异。我们数据集的面部图像是从CelebA[49]中随机选择的。对于每张图像，我们招募人员手动绘制像素级标签地图，为每个面部部位区域分配唯一的标签。我们标记了头发、眉毛、眼睛、鼻子、上唇、下唇、牙齿、面部皮肤、身体皮肤、衣服和背景的区域。我们将所有图像及其标签映射分为三部分：14，403张图像用于训练-ing，1781个图像用于验证，1791个图像用于测试。在训练过程中，所有图像和标签映射的大小都调整为256×256。我们调整了建议的架构约翰逊等人[44]建立了我们的网络。我们的解纠缠编码器由3个卷积层，8个残差块[50]组成。我们的辅助部分解码器和整体解码器都包括2个残差块，2个转置卷积层，以及在末端的一个附加卷积层亚当求解器[51]，学习率为0.0002，（β1，β2）=（0. 五，零。999.第999章通过了所有组件都经过20万次迭代的训练。在每次训练迭代中，我们只选择一个面部部分进行交换，并且以循环方式选择所有面部部分。在进行对抗训练时，我们采用了Gulrajani等人提出的梯度惩罚项[4]一个更稳定的系统，见图6。部分特征插值。通过对嘴型块的插值，使两个个体的不同嘴型逐渐向相同的嘴型移动聚散我们将批量大小设置为1，并且λL1=λr=5。0，λVGG=RVGG =10。0，其他λ = 1。0在我们的实验中见图7。同时交换多个部件。左边两列是输入，右边两列显示结果。A组交换眉毛和眼睛。组B交换眉毛和鼻子。C组交换眼睛和嘴巴。D组交换鼻子4.1. 面的部分形状编辑在本节中，我们将展示一些部分明智的形状编辑结果使用我们提出的系统。首先，如图所示。 5、我们的和嘴。L1λS.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）2000239见图8。为一对特定的人交换不同的面部部位。我们展示了大量不同的面部部位交换相同给定对的结果。我们交换眉毛3方法可以容易地生成具有给定图像的各种编辑结果。我们可以将面部部分形状从许多不同的参考面xB转移到输入面xA，同时保持xA的同一性。为了更好地可视化，我们使用嘴部作为示例。通过对特定面部部分的局部形状特征进行插值，我们可以将目标面部部分的形状从原始形状逐渐改变为目标形状，如图6所示。这表明我们的FaceShapeGene位于连续流形上，其中相似的形状具有相似的特征。请注意，在整个插值过程中，其他部分的形状特征保持不变，这表明我们的方法成功地解开了不同面部部位的形状特征。我们还展示了一些在图 2 中两张固定的脸之间交换眉毛、眼睛、鼻子和嘴巴的例子。八、4.2.多部件交换我们的方法不仅可以一次交换一个零件，而且还支持一次交换多个零件。图 7 示出了结果。这意味着我们的FaceShapeGene可以为潜在空间中的不同面部部位提取独立因素，以便它们可以自由重组。4.3.与现有方法的比较我们将我们的方法与ELEGANT[26]进行了比较，ELEGANT是一种最先进的面部解开学习方法。由于它只能改变预定义的属性，因此我们使用与面部部位形状最相关的四个属性重新训练ELEGANT，即Bushy_Eyebrows，Narrow_Eyes，Pointy_Nose和Mouth_Slightly_Open。我们预计S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）20002310见图9。与优雅相比。从左上到右下依次是：交换眉毛、交换眼睛、交换鼻子、交换嘴巴。对于每个面部部分，我们显示两组结果。第一列为受体，应戴在第二列供者面部。第三列是ELEGANT的结果，而最后一列是列是我们的结果。表1FID评分结果。表2用户研究结果。方法眉毛眼睛鼻子嘴部分优雅最佳我们最好的Can’t我们21.27821.57921.66222.014眉毛11.4%百分之八十五点七2.86%优雅14.58415.79510.1409.810眼睛8.57%87.1%4.28%鼻子百分之七点一四87.1%5.71%嘴1.42%百分之九十四点三4.28%交换包含这些属性的ELEGANT块也会影响零件形状。我们训练了200，000次迭代，这与我们的相同图9显示了定量结果。由于ELEGANT专注于属性的学习，当某些部分很小时，ELE- GANT无法有效地学习它们的变化。在我们的方法中，内容感知的L1损失使我们的模型能够学习面部部分的变化，即使面积很小。此外，ELEGANT缺乏有效捕捉形状变化的能力，因为它在训练过程中没有学习几何信息。相反，使用标签映射和混音和循环约束的监督，我们的方法能够编码和解释面部部分形状的几何信息。我们使用Fréchet起始距离（FID）[52]对这些方法进行定量比较。FID测量两个图像分布之间的间隙。FID越小，两个分布越接近。对于每一类输出，我们使用完整测试集上的输入自然图像计算其FID。FID结果如表1所示。可以看出，我们的结果比ELEGANT具有更大但更平衡的FID分数，表明我们的解纠缠表示的成功。结果当编辑不同的面部部分时，我们的方法令人惊讶地平衡，这意味着这些部分在潜在空间中完全解耦。因此，无论交换哪个块，都不会影响结果的质量。请注意，我们的大部分潜在空间用于表示面部部分，因此其他部分的颜色信息只能被压缩为基本块的一部分，该基本块要小得多以存储所有颜色信息。这可能会导致一些颜色一致性问题。所以为了为了在解缠和外观质量之间取得平衡，我们的网络牺牲了一些背景颜色的重建精度，这导致了更大的分布距离。我们还进行了一项用户研究，以定性评估我们的方法的面部部分编辑效果。我们从我们的测试集中随机选择了20个测试用例，用于交换四个面部部分，眉毛，眼睛，鼻子和嘴巴。我们只为每个测试用例交换了一个面部部分，并为四个面部部分中的每一个随机选择了5个测试用例。对于每个测试用例，从我们测试集中的其他图像中随机挑选供体图像。我们分别使用ELEGANT和我们的方法将输入图像的选定面部部分形状改变为供体的形状。我们向参与者展示了原始受体，ELEGANT的结果和我们对每个病例的结果，并要求参与者选择与给定供体图像最相似的指定面部部位。当向参与者展示时，ELEGANT的结果和我们的结果的顺序是随机的。我们共招募了28名用户，并收集了他们的意见。结果见表2。我们注意到，大多数人认为我们的方法成功地将供体的面部转移从受试者的意见，我们可以得出结论，我们的方法可以产生一个更可识别的面部部分编辑结果比优雅。我们还注意到，我们的方法在所有面部部位中的嘴部替换上取得了最好的性能。这可能是因为嘴比我们使用的其他三个面部部位占据了更多的像素，使特征更容易学习。S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）20002311GANGAN见图10。消融研究的可视化结果。4.4.消融研究我们进行了一项消融研究，以验证损失是否有效，在解开表示学习和检查我们的辅助部分明智的解码器的作用。具体来说，我们分别移除了辅助部分解码器、循环一致性损失LLC和混音约束Lremix，并重新训练了相同迭代次数的模型。消融研究结果如图所示。 10.在移除辅助的部分解码器之后，我们的框架失去了通过面部部分来解开潜在空间的能力。这表明部分解码子任务是将每个面部部分分离成潜在块的关键。在消除了循环一致性损失LLC后，在解码和重编码过程中，不存在从图 10我们可以看到，一些小的面部部位的交换失败了，面部部位周围出现了明显的伪影。结果表明，在不损失循环一致性的情况下，潜码的解纠缠容易受到循环训练过程的干扰，不利于解纠缠表示的学习.在移除混音约束L_remix之后，用于再混合潜在码的整个解码器不能保持与自然图像相同的分布。从结果可以看出，图像颜色的丰富度降低。虽然潜在代码的解开是有效的，但生成部分的逼真度降低，并且在修改的面部部分的一些周围区域中出现了明显的伪像。4.5.限制我们的方法有一些局限性。当用小的面部部分替换大的面部部分时，一些伪影有时可能出现在面部部分周围，诸如图5的最后一行和图7的最后两行中的一些情况。这是因为当更换一个大的部分，一小部分额外区域的产生实际上等同于执行图像修补操作。我们的网络并不是专门为这个目标而训练的，因为我们框架的训练目标主要是实现无纠缠的表示。因此，当要修复的区域较大时，更容易引入伪像。由于部分解码器可以分辨出改变，这可以通过训练额外的修补子网络来修复丢失的区域来解决。但这超出了我们方法的范围，可以成为我们未来工作的一部分5. 结论在本文中，我们提出了FaceShapeGene，一种方法，用于解开面部部分形状表示。它分别对每个面部部位的形状信息进行编码。我们的模型包括一个解纠缠编码器，一个整体的解码器，和几个辅助部分明智的解码器的解纠缠块学习的每个面部部分。提出了一种循环训练策略和混音循环约束，以无监督的方式训练模型，从而保证了模型生成具有重构解纠缠潜在特征的真实感人脸图像的能力。利用我们的FaceShapeGene，用户可以自由地将输入人脸的面部部分替换为参考图像中的指定面部部分，这可以大大增加人脸图像编辑的灵活性。确认作者要感谢所有的评论家的深思熟虑的意见。本课题得到了国家重点技术&研发计划（项目编号2017 YFB 1002604）、国家自然科学基金（项目编号61772298、61832016）、北京高等学校工程技术研究中心研究基金、清华-腾讯互联网创新技术联合实验室的资助。竞争利益声明作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作补充材料与本文相关的补充资料可以在 doi：10.1016/j.gvc.2021.200023S.- Z. 徐，H-Z. Huang，F.-L. Zhang等人图形和视觉计算4（2021）20002312引用[1] Goodfellow I，Pouget-Abadie J，Mirza M，Xu B，Warde-Farley D，Ozair S，等人生成对抗网。In ：NeurIPS; 2014.[2] 作者：Berthelot D，Schumm T. Began：boundary equilibrium generative ad-versarial networks，arXiv preprint arXiv：1703.10717.[3] Arjovsky M，Chintala S，Bottou L. Wasserstein生成对抗网络In：ICML;2017.[4] Gulrajani I，Ahmed F，Arjovsky M，Dumoulin V，Courville AC.改进瓦瑟斯坦甘斯的训练。In：NeurIPS; 2017.[5] Karras T，Aila T，Laine S，Lehtinen J.用于改善质量，稳定性和变化的干的渐进生长。In：ICLR; 2018.[6] 李明，黄华，马林，刘伟，张涛，江永。无监督图像到图像的翻译与堆叠周期一致的对抗网络。In：ECCV;2018.[7] 作者：J.自动编码变分贝叶斯，arXiv预印本arXiv：1312.6114。[8] Rezegli DJ，Mohamed S，Wierstra D.深度生成模型中的随机反向传播和近似推理。In：ICML; 2014.[9] 放大图片Larsen ABL，Sønderby SK，Larochelle H，Winther O.使用学习的相似性度量自动编码像素以外的内容。In：ICML; 2016.[10] Higgins I，Matthey L，B.A. A，Burgess C，Glorot X，Botvinick M，et al. beta-boundary：Learning basic visual concepts with a constrained variational framework.In：ICLR;2017.[11] Mescheder L，Nowozin S，Geiger A.对抗变分贝叶斯：统一变分自动编码器和生成对抗网络。In：ICML; 20

下载后可阅读完整内容，剩余1页未读，立即下载