解开寿命人脸合成：模型设计和效果优于替代方法

52 浏览量更新于2023-10-15 收藏 23.44MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

(0-2)(3-6)(7-9)(15-19)(30-39)(50-69)key face characteristics including shape, texture and iden-tity so that the unique shape and texture age transforma-tions can be modeled effectively. This is achieved by ex-tracting shape, texture and identity features separately froman encoder. Critically, two transformation modules, oneconditional convolution based and the other channel atten-tion based, are designed for modeling the nonlinear shapeand texture feature transformations respectively.This isto accommodate their rather distinct aging processes andensure that our synthesized images are both age-sensitiveand identity preserving. Extensive experiments show thatour LFS model is clearly superior to the state-of-the-art al-ternatives. Codes and demo are available on our projectwebsite: https://senhe.github.io/projects/iccv_2021_lifespan_face.38770解开寿命人脸合成0Sen He 1,2*，Wentong Liao 3*，Michael Ying Yang 4，Yi-Zhe Song 1,2，Bodo Rosenhahn 3，Tao Xiang 1,201 CVSSP，萨里大学，2 iFlyTek-Surrey人工智能联合研究中心，3TNT，汉诺威莱布尼茨大学，4 SUG，特文特大学0参考年龄组50年龄组00年龄组10年龄组20年龄组30年龄组40年龄组50我们的0LATS0InGan0图1：使用我们的寿命人脸合成模型和两种最先进的替代方法生成的面部图像示例。InGAN[43]生成有效的纹理变换，但在形状变换和身份保护方面失败。LATS[24]在形状变换和身份保护方面有所改进，但在重构方面表现不佳（与参考图像相同年龄组5中重新生成的图像看起来非常不同）。相比之下，我们的模型克服了所有这些限制，产生了最具可信度的衰老效果，同时保持身份。0摘要0寿命人脸合成（LFS）模型旨在根据仅有的一张快照生成一个人一生中的一系列逼真的面部图像。给定目标年龄代码，生成的面部图像预期具有年龄敏感性，反映出形状和纹理的生物合理变换，同时保持身份。这是极具挑战性的，因为面部的形状和纹理特征在年龄上经历了分离且高度非线性的变换。最近的LFS模型基于生成对抗网络（GANs），通过对潜在面部表示应用年龄代码条件变换。它们极大地受益于GANs的最新进展。然而，如果不明确将潜在表示分解为纹理、形状和身份因素，它们在对纹理和形状进行非线性变换并保持身份方面基本上是有限的。在这项工作中，提出了一种新颖的LFS模型，以解开包括形状、纹理和身份在内的关键面部特征，从而能够有效地建模独特的形状和纹理年龄变换。这是通过从编码器中分别提取形状、纹理和身份特征来实现的。关键是，设计了两个转换模块，一个基于条件卷积，另一个基于通道注意力，用于分别对非线性形状和纹理特征变换进行建模。这是为了适应它们相当不同的衰老过程，并确保我们合成的图像既具有年龄敏感性又保持身份。大量实验证明我们的LFS模型明显优于最先进的替代方法。代码和演示可在我们的项目网站上找到：https://senhe.github.io/projects/iccv_2021_lifespan_face。0* 平等贡献01. 引言038780生命只给了一个快照。这是一个有趣的问题，但也有许多应用，例如跨年龄人脸识别[25]和寻找失踪儿童[36]。因此，它最近引起了很大的关注[38, 37, 7, 31, 43,24]。寿命人脸合成（LFS）是一个具有挑战性的人脸属性编辑问题。与其他人脸属性编辑作品[9, 21,40]不同，其中许多属性（如眼镜、发型和微笑）是通过单一模型进行操作的，LFS仅关注一个属性，即年龄。然而，年龄编辑可以说是所有属性中最难的任务。因此，通常单独研究。这是因为衰老是一个极其复杂的面部转换过程。特别是，在一个人的一生中，面部在形状和纹理上都经历了变化[20]。此外，这些变化随时间的推移是非线性的，并且对于形状和纹理而言是不同的：一个面部的外观变化首先由于头骨骨骼的生长而由婴儿变为年轻成年人的形状变形主导；当成年人变老时，这些变化主要采取纹理变换的形式，例如胡须和头发的颜色、皱纹。因此，理想的LFS模型必须满足三个要求[7, 31, 43,24]：（1）年龄敏感，通过生物合理的形状和纹理变换反映出来：给定一个参考面部图像和一个随机的目标年龄，生成的面部图像应与参考面部图像相比具有有效的形状变形和纹理变换。特别是，上述高度非线性的变换需要得到尊重。（2）保持身份：无论目标和参考之间的年龄差距有多大，生成的图像必须描绘同一个人。（3）可重构：当目标年龄与参考面部图像的年龄相同时，生成的面部图像应尽可能与参考图像相似。然而，尽管过去二十年来研究人员做出了最大的努力，但现有的LFS模型都无法满足这三个要求。在深度学习时代之前，LFS模型要么是基于“原型”[35, 34,14]，为不同年龄组建模平均年龄外观，要么是基于“物理”[33,34]，明确建模潜在的生物衰老机制。前者忽略了个性化信息。而后者需要同一人的图像跨越整个生命周期，这在实际中是不可行的。最近的方法[36, 22, 1, 42, 38, 37, 7, 31, 43,24]受益于深度生成对抗网络（GANs）[5,2]的进展。使用这些方法，一个包含形状、纹理和身份信息的潜在面部表示在输入图像生成器之前在目标年龄上进行转换。由于GANs（如Style-GAN [12,13]）的最新突破，这些模型现在可以生成极高质量的面部图像。但是如图1所示，它们仍然在三个要求中的一个或多个方面失败。0这是因为这些模型都不能有效地将人脸表示解开为形状、纹理和身份相关的部分。这种解开对于LFS来说至关重要，因为如果没有解开，就不可能对这些不同的表示应用不同的年龄条件操作，以模拟形状和纹理外观的非线性变换，同时保持身份不变。因此，很难避免不必要的编辑。例如，身份可以改变，如图1中的第一行所示。此外，可能会发生一些不兼容的转换，导致生成图像中出现不现实的效果（中间行示例中的第2个年龄组开始出现眼镜）。在本文中，我们首次提出了一种LFS模型，明确地将学习到的潜在人脸表示解开为形状、纹理和身份。我们的模型是一个具有编码器-解码器架构的条件GAN。首先，提取共享CNN编码器不同层的特征，并将其分别输入到不同的特征提取模块中。其次，为了模拟与年龄相关的形状和纹理上的不同非线性变换，我们开发了两个新的特征变换模块，用于形状和纹理。它们分别基于条件卷积和通道注意力，以反映形状和纹理上固有的不同衰老效应。最后但并非最不重要的是，为了促进形状和纹理的解开，我们引入了一个基于形状的正则化损失，其基本思想是当成年人变老时，形状变化很小[30]。如图1所示，我们的解开LFS模型可以有效地克服现有竞争对手的局限性，并同时满足所有三个要求。本文的贡献如下：（1）我们首次在一个端到端训练的寿命人脸合成（LFS）模型中明确地建模了人脸的形状、纹理和身份特征。（2）为了模拟形状和纹理上的单独非线性衰老过程，我们提出了基于条件卷积和通道注意力的单独形状和纹理变换模块，以及一个形状正则化损失来促进解开。（3）进行了大量实验证明我们的模型比现有的替代方案要优秀得多。02. 相关工作0生成对抗网络生成对抗网络（GANs）[5]被大多数最新的图像生成和操作方法使用。自从最初的GANs[5]以来，GANs的发展主要可以分为两组。一组试图更好地衡量生成图像与原始图像之间的分布差异[2]。另一组则专注于架构设计，其从最初的zi = 1i + n,(1)38790从全连接网络到多尺度卷积架构[11]。最新的架构是style-GAN架构[12,13]，其中随机噪声首先投影到潜在空间，然后用于卷积调制。style-GAN架构也被采用在最近的最先进的寿命人脸合成模型[31, 24, 43]以及本文提出的模型中。0人脸操作人脸操作旨在通过改变某些属性（例如年龄、微笑和姿势）来编辑参考人脸图像。期望操作后的图像包含所需的属性变化，同时保持其他属性和身份不变。最近，人脸操作得到了密集研究[9, 21, 40, 31, 8, 17,43]。AttGAN[9]使用属性分类约束来规范操作后的图像。STGAN[21]在保持其他因素不变的同时选择性地转移所需的属性。[31]在style-GAN[12,13]的潜在空间中学习每个属性的方向，然后相应地操作参考图像的确切潜在代码[43]。需要注意的是，一些通用的人脸操作模型确实支持年龄编辑。然而，它们只能将人脸图像操作为更年轻或更年长（即二进制操作），这比LFS更容易。0寿命人脸合成（LFS）是最具挑战性的人脸处理任务。经典的“原型”方法[35，34，14]将连续的年龄划分为几个离散的年龄簇，然后计算每个簇中的平均脸作为参考。相反，“物理”方法以参数化方式建模每个衰老因素的变化。[18]探索了不同的参数模型（线性、二次和三次）用于衰老函数。[32]使用连接图来建模衰老过程。这两组方法都是基于手动设计的规则，无法近似复杂且非线性的衰老过程。此外，它们通常需要不同年龄的同一个人的图像，这非常难以收集。最近的方法使用条件GAN进行图像生成。Yang等人提出了金字塔判别器来惩罚衰老过程中的不同因素。IP-GAN使用在ImageNet上预训练的AlexNet来增强衰老过程中的身份保护。S2GAN为不同年龄组学习不同的转换基础。LATS采用style-GAN架构，其中输入是编码的参考图像，样式代码是嵌入的年龄表示。所有这些方法都在参考图像的纠缠潜在表示上应用年龄条件转换。因此，它们在建模形状和纹理在不同年龄段的不同非线性变换方面固有地受到限制。这种限制激发了提出的解缠寿命人脸合成方法。0人脸解缠存在许多现有的努力，将人脸解缠为不同的潜在因素，例如身份、姿势、形状和纹理。Peng等人提出通过重构将人脸解缠为身份和姿势。Shen等人提出通过监督投影将学习的潜在空间解缠为不同的属性。Nitzan等人通过潜在空间映射解缠身份信息。在这项工作中，我们提出将人脸解缠为两个与衰老相关的因素，即形状和纹理，以及与年龄无关的因素，即身份。与现有的人脸解缠工作相比，关键的创新点是设计了两个单独的转换模块，用于捕捉形状和纹理上的不同衰老效应，并引入了形状正则化损失。这对于有效的年龄敏感解缠至关重要。0寿命人脸合成的数据集很难收集，因为理想情况下，它应该包含从婴儿到退休年龄的同一个人的人脸图像。大多数现有的数据集缺少0到10岁年龄段的人脸图像。例如，流行的MORPH数据集[28]只有16到77岁的年龄范围。唯一覆盖整个范围的数据集是最近重新注释的FFHQ数据集[24]，其中包含从0到70岁的年龄。因此，本研究使用该数据集。总体而言，现有的寿命人脸合成数据集相对较小，无法进行细粒度的年龄合成。03. 方法03.1. 问题定义0由于数据集的限制，我们遵循[24]将年龄范围划分为6个离散组（0到5）。每个组都有一个年龄代码 z i ∈ R | 6 N |，计算如下：0其中 1 i 包含从 iN 到 ( i + 1) N的元素上的所有1，其他位置为零， n ∈ R | 6 N |是高斯噪声。给定来自第 r 个年龄组的参考人脸图像 I r ∈ R H × W × 3 和目标年龄代码 z t 用于第 t个年龄组，寿命人脸合成模型 F的目标是生成目标人脸图像 I t ，其中 I t = F ( I r , z t )。生成的人脸图像应该与参考图像具有相同的身份，但根据目标年龄展现出年龄敏感的纹理和形状变化。离散的寿命人脸合成通过遍历所有年龄组的年龄代码来完成。为了以更细粒度的方式合成人脸，可以通过在相邻两个年龄组的年龄代码之间进行线性插值来获得相应的年龄代码。如图2所示，我们的模型由五个部分组成，编码器（E），形状转换模块（S t ），纹理转换模块（T t ），年龄嵌入模块（AE），生成器（G）和判别器（D）。下面将详细介绍每个部分。𝓔𝒜ℰℒ𝑎𝑑𝑣ℒ𝑐𝑦𝑐ℒ𝑖𝑑𝓕𝒮𝑡𝒯ℐ𝒟ℛs𝒫𝑡𝒫𝑠𝓖𝓓Previous methods [37, 43, 24] extract entangled repre-sentation of face image and transform it according to thetarget age.Without factorizing the latent representationinto shape, texture and identity relevant factors, it is im-possible to model the transformations on shape and textureseparately whilst preserving identity. Latent representationdisentanglement is thus the key to effect LFS meeting allthree requirements. To that end, we use our encoder (E) toextract 3 distinct sets of features, i.e., shape (fs), texture(ft) and identity (fid). Inspired by the neural style transferworks [4, 10] which suggest that structure information canbe extracted from the middle layers of a CNN and textureinformation from the deeper layers, we also propose to ex-tract these three features from different layers of the encoderCNN ( ).fs = Rs(Em(Ir)),ft = T (Ed(Ir)),where T is a convolutional projection module that extractsthe texture information and pools it into a vector. In thefid = ID(Ed(Ir)).(4)fs(zt) = St(fs, zt)= conv(fs, M(ws, Ps(AE(zt))),(5)ft(zt) = Tt(ft, zt) = ft ◦ Pt(AE(zt)),(6)38800输入图像年龄15-190目标图像年龄50-69纹理特征0变换后的形状特征0目标年龄（50-69）代码0潜在年龄代码0变换后的纹理特征0回收目标年龄（15-19）代码0回收图像年龄15-190输入0目标0的�0形状特征0特征图0变换后的特征图0特征向量0变换后的特征向量0CNN块0形状变换0纹理变换0全连接层0池化0潜在年龄代码0图2：我们模型的示意图。参考图像的潜在表示被解缠为与形状和纹理相关的特征，然后通过分别的变换模块进行变换，条件是目标年龄。变换后的形状和纹理特征然后被输入到一个用于生成目标图像的style-GAN生成器中。03.2. 特征提取0从我们的编码器（Em）的中间部分提取出形状特征（大小为4×C）：0其中 R s是一个残差块[6]，用于从CNN的中间部分提取原始特征的形状信息。纹理和身份特征都是从我们的编码器（Ed）的最后一层提取的。具体来说，纹理特征（f t ∈ R|C|）的计算方式如下：0通过另一个卷积投影模块（ID）和一个下采样层提取出纹理特征（大小为8×2C）：03.3. 形状和纹理变换0特征提取后，我们以不同的方式对年龄条件下的形状和纹理进行建模。对于形状变换，我们使用条件卷积，其中卷积滤波器由目标年龄信息调制：0其中 w s 是滤波器权重，A E ( z t ) ∈ R |C|将目标年龄代码编码为潜在空间，用于卷积调制（M），而P s是一个线性投影层。通过我们的公式，目标年龄信息将调制滤波器的权重，从而隐式地改变形状信息。采用条件卷积是因为随着年龄的增长，形状变换往往是全局和渐进的；年龄代码条件的卷积滤波器非常适合捕捉这种变换。此外，它也足够灵活，可以学习在哪个年龄组形状变化变得最小。对于纹理变换，我们使用年龄条件的通道注意力，定义如下：0其中 ◦ 表示逐元素乘法，P t是一个线性投影层。这是由于年龄引起的纹理变化的性质决定的。特别是，如[31, 43]所示，面部特征f t的不同元素代表不同的属性，例如头发颜色和皱纹。这些属性在各个年龄段都存在，但强度不同。通过年龄条件的通道注意力，不同的衰老属性可以很容易地被放大或抑制。例如，38810注意力模块将学习到，年轻年龄需要抑制皱纹，而老年年龄需要放大皱纹。然后，转换后的形状和纹理信息被馈送到基于Style-GAN [13]的生成器G中，用于生成目标图像：0It = G(fs(zt), ft(zt)). (7)03.4. 形状正则化0受到之前的研究发现[20]的启发，成年人脸的形状通常保持不变，我们提出了一种形状正则化方法来强制执行这一观察结果。这种正则化间接地确保提取的特征fs确实与形状相关，并且与纹理特征ft相分离，后者在成年人变老时发生了显著变化。具体而言，将成年组r（例如40岁）中的参考脸部图像Ire转换为更年长的年龄组te（例如60岁），转换后的脸部图像Ite应具有相同的形状信息：0Ls = ∥Rs(Em(Ire)) − Rs(Em(Ite))∥2, (8)0其中Ls衡量形状差异并将被最小化。03.5. 目标0我们的模型训练中有5个学习目标。为了确保身份保持不变，使用身份损失Lid计算参考图像和生成的目标图像之间的身份信息：0Lid = ∥ID(Ed(Ir)) − ID(Ed(It))∥2. (9)0同时，应用循环一致性损失以增强身份保持不变性：0Lcyc = ∥Ir − F(It, zr)∥2. (10)0为了保持模型的重构能力，当目标年龄与参考年龄相同时，使用重构损失：0Lr = ∥Ir − G(fs(zr), ft(zr))∥2. (11)0此外，使用条件对抗损失来提高生成图像的真实性：0Ladv = EIr_im�pr_data(Ir_im)[log(D(Ir_im|z))]0+ E Ig_im�pg_data(Ig_im)[1 −log(D(Ig_im|z))]. (12)0所有的训练目标被求和在一起：0L = λadvLadv + λrLr + λcycLcyc + λidLid + λsLs, (13)0其中，λadv、λr、λcyc、λid和λs分别表示平衡5个目标的超参数。04. 实验数据集我们在当前最大的人脸年龄数据集FFHQ数据集[12]上训练我们的模型，该数据集包含了所有年龄组的年龄注释。由于注释中存在标签噪声，原始数据集的70000张图像被修剪为28701张图像[24]。修剪后的数据集中有14232张男性训练图像和198张测试图像，以及14066张女性训练图像和205张测试图像。按照标准，我们分别训练男性模型和女性模型。训练数据集将年龄分为6个离散的年龄组（0-2岁，3-6岁，7-9岁，15-19岁，30-39岁，50-59岁）。最后两个年龄组用于应用形状正则化（第8式）。根据[24]，使用在CelebAMask-HQ[19]上训练的现成人脸解析模型[3]将输入图像中的非人脸区域进行遮蔽。实现细节我们的模型使用PyTorch实现。每个输入图像被调整为与[24]中相同的大小256×256。鉴于我们可用的硬件（一块Nvidia RTX 2080-TiGPU），我们将批量大小设置为2。年龄代码的长度设置为300（N = 50）。潜在空间维度C =256。编码器E的前两个块中各有两个池化层。生成器G的后两个块中各有两个上采样层。所有参数都使用Adam优化器[15]进行训练。初始学习率设置为0.001，并在第50和100个时期衰减0.1。整个模型训练了300个时期。模型训练中使用了EMA[39]。评估指标我们自动和手动（用户研究）评估我们的模型。在自动评估中，我们使用现成的VGG-face[26]来评估模型的身份保持能力。我们还使用LPIPS[41]来评估模型在同一年龄组中的参考图像和重新生成图像之间的重构能力。对于手动评估，我们在Amazon MechanicalTurk（AMT）上进行感知研究，以比较不同模型生成的寿命人脸图像的质量。给定一个参考图像，使用不同模型生成的图像从6个角度进行评估，即身份保持、形状变换、纹理变换、重构、年龄误差和年龄准确性。对于身份保持，AMT工作者被要求判断生成的图像在参考图像中保留了多少身份。对于形状和纹理变换，他们评分变换的可信度。对于重构，要求一个工作者评分在同一年龄组中生成的图像与参考图像的相似程度。对于这4个指标，评分分为5个级别（1-5，分数越高越好）。对于年龄误差和年龄准确性，每个工作者被要求评估生成的图像是否属于目标年龄组，并估计与该组的年龄差异。每个AMT工作者被随机分配30个参考图像。10个工作者参与了所有6个指标的评估。(0-2)(3-6)(7-9)(15-19)(30-39)(50-69)(0-2)(3-6)(7-9)(15-19)(30-39)(50-69)(50-69)(30-39)(30-39)(30-39)(15-19)(30-39)38820参考年龄组00年龄组10年龄组20年龄组30年龄组40年龄组50参考0LATS0InGan0LATS0InGan0LATS0InGan0年龄组50年龄组40年龄组40年龄组40年龄组30年龄组40图3：定性结果，将我们的模型与最新的先进模型InGan [ 43 ]和LATS [ 24 ]进行比较0方法身份保护 ↑0形状转换 ↑0纹理转换 ↑ 重构 ↑ 年龄误差 ↓0年龄准确性 ↑0IPGAN [ 37 ] 3.92 ± 0.17 2.38 ± 0.42 2.50 ± 0.12 3.93 ± 0.01 11.33 ± 0.89 27.0% InGAN [ 43 ] 2.74 ± 0.172.51 ± 0.22 2.37 ± 0.16 3.56 ± 0.35 8.64 ± 2.80 39.4% LATS [ 24 ] 3.18 ± 0.13 2.89 ± 0.44 3.22 ± 0.17 3.49± 0.25 5.67 ± 3.61 60.0% 我们的 3.07 ± 0.19 3.18 ± 0.35 3.30 ± 0.21 4.07 ± 0.27 3.53 ± 2.81 65.6%0表1：不同对比模型的用户研究结果0基准我们将我们的模型与两个最先进的寿命人脸合成模型进行比较，即LATS [ 24 ]和InGAN [ 43]，它们都使用与我们相同的基于style-GAN的生成器。在InGAN中合成寿命人脸时，根据参考图像的年龄调整老化参数。我们还与IPGAN [ 37]进行比较，它使用标准的卷积神经网络作为生成器，重点关注身份保护。04.1. 主要结果0用户研究和自动评估的结果分别在表 1 和表 2中显示。可以看出，我们的模型在所有评估指标上都取得了显著更好的整体性能。值得注意的是，IPGAN [ 37 ]0非常好的身份保护，但在主要任务上完全失败，即生成与年龄相关的生物合理的形状和纹理转换。因此，它的重构结果在两个表格中都非常强大。然而，这是因为它几乎不改变面部，无论目标年龄是什么。LATS [ 24 ]在纹理转换方面表现良好，但在重构方面较差，并且比我们的模型的年龄准确性要低得多。需要注意的是，对于LFS，身份保护目标通常与形状和纹理转换的目标相矛盾。表 1显示我们模型的身份保护略低于LATS，但这通过其他5个指标的更优越性能得到了更多的补偿。从图 3的定性比较中可以看出，我们的模型𝓖 𝒇𝒔(𝒛𝒕), 𝒇𝒕𝓖 𝒇𝒔(𝒛𝒕), 𝒇𝒕(𝒛𝒕)𝓖 𝒇𝒔(𝒛𝒕), 𝒇𝒕𝓖 𝒇𝒔(𝒛𝒕), 𝒇𝒕(𝒛𝒕)𝓖 𝒇𝒔(𝒛𝒕), 𝒇𝒕𝓖 𝒇𝒔(𝒛𝒕), 𝒇𝒕(𝒛𝒕)𝓖 𝒇𝒔(𝒛𝒕), 𝒇𝒕𝓖 𝒇𝒔(𝒛𝒕), 𝒇𝒕(𝒛𝒕)38830年龄组0 年龄组1 年龄组2 年龄组3 年龄组4 年龄组5 参考0图像0年龄组20年龄组20年龄组20年龄组30图4：验证我们模型中形状和纹理特征的解耦。在每个示例的第一行中，参考图像的纹理信息被固定。只有形状信息被转换以合成不同年龄组的面部图像。在每个示例的第二行中，添加纹理转换以对比其对形状的老化效果。0方法 ID（↑） Reconfig（↓）0IPGAN [37] 99.18% 0.03 ± 0.01InGAN [43] 92.35% 0.17 ± 0.09 LATS[24] 96.68% 0.11 ± 0.03 我们的方法96.47% 0.07 ± 0.020表2：身份保持（ID）和重构（Reconfig）的自动评估。0可以合成具有（1）年轻组中更明显的形状变形和年龄较大组中更好的纹理转换，（2）更好的重构，以及（3）更逼真的图像（例如婴儿的脸和眼镜）。04.2.消融研究0解缠表示我们的主要思想是学习解缠表示。我们的模型学会了吗？在本节中，我们从两个角度定性检查。0我们首先生成仅通过转换f_s而保持f_t固定的寿命人脸图像，即 I_t = G(f_s(z_t),f_t)。然后，我们转换f_s和f_t以对比它们的功能，即 I_t =G(f_s(z_t),f_t(z_t))。结果如图4所示。可以看到，f_s的转换导致生成的人脸出现了明显的形状变形。然而，它对生成的人脸的纹理几乎没有影响。一旦添加了f_t的转换，我们可以看到从年轻到老年（年龄组4到5）的纹理变化显著。有趣的是，添加的f_t对生成图像的形状几乎没有影响。因此，这些结果验证了f_s和f_t分别学习了形状和纹理信息的设计。更重要的是，形状变换在年轻组（年龄组0到3）中确实更为显著，而添加的纹理变换主要影响纹理。EntangledDisentangledAge group 0Age group 1Age group 2Age group 3Age group 4Age group 5ReferenceAge group 4Age group 5EntangledDisentangledW/O 𝓛𝒔W/ 𝓛𝒔W/O 𝓛𝒔W/ 𝓛𝒔Age group 2Age group 2𝑓!𝑓"𝑓"𝑓!38840图5：纠缠和解缠寿命人脸合成的定性比较。每个示例中，上排是纠缠模型，下排是解缠模型。红色虚线框表示生成的图像与参考图像处于同一年龄组。0图6：有无形状正则化（L_s）的模型的定性比较。0在年龄较大组（年龄组4到5）中纹理变化更为显著。换句话说，我们的提出的形状和纹理转换学习到了非线性的衰老过程。0解缠与纠缠表示解缠对于寿命人脸合成有多重要？为了回答这个问题，我们使用模型中相同的编码器提取参考图像的纠缠特征表示f_en。然后，我们使用相同的生成器生成目标图像，以目标年龄为条件，即 I_t = G(f_en,AE(z_t))。从图5中可以清楚地看出，解缠表示提供了（1）更好的图像质量，（2）年轻组中更明显的形状变形，（3）年龄较大组的更好纹理转换，以及（4）更好的重构。0形状正则化的有效性为了验证公式（8）中形状正则化的有效性，我们训练了一个没有形状正则化的模型。为了比较，我们仅通过转换f_s生成寿命人脸图像。从图6中可以看出，没有形状正则化时，仍然存在年龄较大组之间的显著纹理变换（皱纹），尽管只有f_s被转换而f_t被固定。相反，通过形状正则化，f_s的转换几乎对生成的图像的形状没有影响。0图7：纹理交换。在这个例子中，参考图像的形状信息（f_s）固定，而纹理信息（f_t）与另一张图像进行交换。0在年长群体中，纹理的多样性较小。这表明我们的形状正则化有助于清除fs中的纹理信息，从而改善形状和纹理的解缠。0限制在对解缠表示f s和ft在控制衰老效果方面的消融研究之外，我们进一步检查了它们的局限性。进行了纹理交换实验，我们使用一张图像的fs和来自另一张图像的交换ft来生成一张新图像。从图7的结果中可以看出，ft似乎被肤色所主导，这是一个定义年龄无关纹理特征的关键。至于与年龄相关的纹理特征，例如皱纹，在ft中并没有直接解缠。然而，从图4中可以看出，ft的转换可以放大或抑制皱纹。05. 结论0在本文中，我们提出了一种基于潜在表示解缠的新型寿命人脸合成模型。与之前学习纠缠的人脸表示方法不同，我们的方法将人脸表示解缠为形状和纹理。我们提出了基于年龄的卷积和通道注意力来分别进行形状和纹理的转换，以反映形状和纹理上的不同衰老效应。大量的实验和评估结果显示了我们的方法相对于之前最先进的模型的优越性。0致谢0这项工作得到了德国联邦教育与研究部（BMBF）的支持，项目名称为LeibnizKILabor（资助号：01DD20003），数字创新中心（ZDIN）和德国研究基金会（DFG）在德国卓越战略下的卓越集群PhoenixD（EXC 2122）.[11] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.Progressive growing of gans for improved quality, stability,and variation. In ICLR, 2018. 35[31] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Inter-preting the latent space of gans for semantic face editing. InCVPR, 2020. 2, 3, 4[33] Jinli Suo, Song-Chun Zhu, Shiguang Shan, and Xilin Chen.A compositional and dynamic model for face aging. TPAMI,32(3), 2009. 2[35] Bernard Tiddeman, Michael Burt, and David Perrett. Pro-totyping and transforming facial textures for perception re-search. CGA, 21(5), 2001. 2, 338850参考文献0[1] Grigory Antipov, Moez Baccouche, and Jean-LucDugelay. 条件生成对抗网络进行面部老化. In ICIP , 2017. 20[2] Martin Arjovsky, Soumith Chintala, and L´eon Bottou.Wasserstein生成对抗网络. In ICML , 2017. 20[3] Liang-Chieh Chen, George Papandreou, Florian Schroff,and Hartwig Adam. 重新思考用于语义图像分割的扩张卷积.arXiv预印本arXiv:1706.05587 , 2017. 50[4] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.艺术风格的神经算法. In NeurIPS , 2015. 40[5] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络. In NeurIPS , 2014. 20[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别. In CVPR , 2016. 40[7] Zhenliang He, Meina Kan, Shiguang Shan, and Xilin Chen.S2gan: 跨年龄共享衰老因素并在个体之间共享衰老趋势. In ICCV, 2019. 2 , 30[8] Zhenliang He, Meina Kan, Jichao Zhang, and ShiguangShan. Pa-gan: 渐进式注意力生成对抗网络用于面部属性编辑.arXiv预印本arXiv:2007.05892 , 2020. 30[9] Zhenliang He, Wangmeng Zuo, Meina Kan, Shiguang Shan,and Xilin Chen. Attgan: 仅通过改变您想要的内容进行面部属性编辑.TIP , 28(11), 2019. 2 , 30[10] Justin Johnson, Alexandre Alahi, and Li Fei-Fei.用于实时风格转换和超分辨率的感知损失. In ECCV , 2016. 40[12] Tero Karras, Samuli Laine, and Timo Aila.基于风格的生成器架构用于生成对抗网络. In CVPR , 2019. 2 , 3 ,50[13] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila.分析和改进StyleGAN的图像质量. In CVPR , 2020. 2 , 3 , 50[14] Ira Kemelmacher-Shlizerman, Supasorn Suwajanakorn,and Steven M Seitz. 考虑光照的年龄进展. In CVPR , 2014. 2 , 30[15] Diederik P Kingma and Jimmy Ba. Adam:一种随机优化方法. In ICLR , 2015. 50[16] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.使用深度卷积神经网络的ImageNet分类. In NeurIPS , 2012. 30[17] Jeong-gi Kwak, David K Han, and Hanseok Ko. Cafe-gan:基于互补注意力特征的任意人脸属性编辑. In ECCV , 2020. 30[18] Andreas Lanitis, Christopher J. Taylor, and Timothy FCootes. 实现对人脸图像上的衰老效果的自动模拟. TPA

下载后可阅读完整内容，剩余1页未读，立即下载