没有合适的资源?快使用搜索试试~ 我知道了~
5549MaskGAN:面向多样化和交互式面部图像操作李承汉1刘紫薇2吴凌云1罗平31商汤科技2香港中文大学3香港大学微笑转移风格副本(a)目标图像(b)源图像(c)对掩模的修改(d)结果(a) 目标图像(b) 源图像(c) 修改掩码(d)结果图1:给定目标图像(a),允许用户根据源图像(b)修改(c)中目标图像的掩码,以便我们可以获得操作结果(d)。左边显示了从“中性”到“微笑”的说明性示例,而右边显示了风格副本,摘要近年来,人脸图像处理技术取得了很大的然而,以前的方法要么在预定义的一组面部属性上操作,要么留给用户很少的自由来交互地操纵图像。为了克服这些缺点,我们提出了一个新的框架,称为MaskGAN,使多样化和交互式的人脸操纵。我们的关键见解是,语义面具作为一个合适的中间表示灵活的面部操纵保真度保持。MaskGAN有两个主要组件:1)密集映射网络(DMN)和2)行为模拟训练(EBST)具体地,DMN学习自由形式的用户修改的掩模与目标图像之间的风格映射,从而实现多样化的生成结果。EBST对源掩码上的用户编辑对象进行建模,使整个框架对各种操纵输入更加鲁棒。 具体来说,它引入了双重编辑一致性作为辅助监督信号。为了便于广泛的研究,我们构建了一个大规模的高分辨率的人脸数据集与细粒度的面具注释命名为CelebAMask-HQ。MaskGAN在两个具有挑战性的任务上进行了全面评估:属性转移和样式复制,表现出优于其他国家的最先进的方法的性能。代码、模型和数据集可在https://github.com/switchablenorms/CelebAMask-HQ上获得。1. 介绍人脸图像处理是计算机视觉和计算机图形学中的一个重要研究课题,它可以实现人脸表情和风格的自动化。发型、肤色)转移。此任务可大致分为两种类型:语义级操作[2,24,29,19,22]和几何级操作[40,38,41,44]。然而,这些方法要么在预定义的属性集上操作,要么留给用户很少的自由来交互地操纵面部图像。为了克服上述缺点,我们提出了一个新的框架,称为MaskGAN,其目的是实现多样化和交互式的人脸操作。我们的关键见解是,语义面具作为一个合适的中间表示灵活的面部操纵保真度保持。MaskGAN不是直接在像素空间中变换图像,而是在遍历掩码流形时学习面部操作过程[25],从而在面部成分、形状和姿势方面产生更多样化的结果。MaskGAN的另一个优点是它为用户提供了一种直观的方式来指定形状,位置和面部组件类别以进行交互式编辑。MaskGAN有两个主要组件,包括1)密集映射网络和2)编辑行为模拟5550(. 。 )(. 。 )-是的7由方程式8例VGG丢失。9(. - 是的 )(. - 是VGG损失(. 。 )-是的7由方程式8例VGG丢失。9图2:整体培训管道。编辑行为模拟训练可分为两个阶段。在加载Dense Mapping Network和MaskVAE的预训练模型后,我们迭代更新这两个阶段,直到模型收敛。训练前者学习语义掩码和渲染图像之间的映射,而后者学习在操纵掩码时对用户编辑行为进行建模。具体地,密集映射网络由图像生成主干和空间感知风格编码器组成。空间感知风格编码器将目标图像及其对应的语义标签掩码两者作为输入;它为图像生成主干产生空间感知样式特征。在接收到具有用户修改的源通过这种方式,我们的密集映射网络能够学习用户修改的蒙版和目标图像之间的细粒度样式映射编辑行为模拟训练是一种在源掩码上对用户编辑行为进行建模的训练策略,它引入了双重编辑一致性作为辅助监督信号。其训练管道包括获得的密集映射网络、预训练的MaskVAE和alpha混合器子网络。其核心思想是,两个局部扰动输入掩码(通过遍历MaskVAE学习的掩码流形)混合在一起的生成结果应该保留主体具体地,具有编码器-解码器架构的MaskVAE负责对几何结构先验的流形进行建模。阿尔法混合器子网络学习执行阿尔法混合[30]作为图像合成,这有助于保持操纵一致性。经过编辑行为模拟训练后,稠密映射网络对推理过程中用户输入掩码的各种变化具有更强的鲁棒性。MaskGAN在属性转移和样式复制两个任务上进行了全面评估,与其他最先进的方法相比,表现出优越的性能。为了方便大规模的研究,我们构造一个具有细粒度掩码标签的大规模高分辨率人脸数 据 集 , 名 为 CelebAMask-HQ 。 具 体 来 说 ,CelebAMask-HQ由超过30,000张512×512分辨率的人脸图像组成,其中每张图像都用19个面部组件类别的语义掩码进行注释,例如,眼睛区域,鼻子区域,嘴巴区域。总而言之,我们的贡献有三个方面:1)我们提出了MaskGAN,用于多样化和交互式的面部操作。在MaskGAN框架内,进一步提出了密集映射网络,为用户提供一种交互式的方式来操纵人脸使用其语义标签掩码。2)提出了一种新的训练策略--编辑行为模拟训练(EditingBehaviorSimulatedTraining ) ,增 强 了DenseMapping Network对用户输入模板形状变化的鲁棒性。3)我们贡献了CelebAMAsk-HQ,一个带有掩码注释的大规模高分辨率人脸我们相信这个面向几何的数据集将为人脸编辑和操作社区开辟新的研究方向。2. 相关工作生成对抗网络。GAN [7]通常由相互竞争的生成器和鉴别器组成。由于GAN可以生成逼真的图像,因此它在图像到图像翻译[14,45,24,36,28],图像转换等任务上具有广泛的应用。修复[23,42,43,15]和虚拟试穿[39,9,3,35]。语义级面部操作。深度语义级人脸编辑已经研究了几年。 包括[2,24,29,19,22,21]在内的许多工作取得了令人印象深刻的结果。IcGAN [29]引入了一个编码器来学习条件GAN的逆映射。DIAT [22]利用对抗损失来转移属性,并学习混合预测人脸和原始人脸。[19]第十九话5551老化对抗训练以从潜在空间中解开属性相关特征。StarGAN [2]被提出使用以目标域标签为条件的单个网络来执行多域图像翻译。然而,这些方法不能通过样本生成图像。几何级别的面部操纵。 最近的一些研究[40,38,41,8]开始讨论在实例级别从样本转移面部属性的可能性。例如,ELEGANT [38]被提议用于交换通过交换两个面孔的潜在代码,在两个面孔之间进行属性转换。然而,ELEGANT [38]不能传递属性(例如,“微笑”)从样本准确地。对于基于3D的人脸操作,虽然基于3D的方法[1,27,6]在正常姿势上取得了有希望的结果,但它们通常在计算上是昂贵的,并且它们的性能可能会随着大的和极端的姿势而降低。3. 我们的方法总体框架。我们的目标是使用MaskGAN实现结构条件人脸操作,给定目标图像It∈RH×W×3,目标图像的语义标签掩码Mt∈RH×W×C和源语义标签掩码Msrc∈RH×W×C(用户修改掩码).当用户操作Msrc的结构时,我们的模型可以合成一个被操作的面I出∈RH×W×3,其中C是语义标签的类别数培训管道。如图2、MaskGAN由三个关键要素组成:Dense Mapping Network(DMN)、MaskVAE和AlphaBlender,它们通过编辑行为模拟训练(EBST)进行训练。DMN(参见第3.1)为用户提供了一个面向语义标签掩码的操作界面,可以学习It和Msrc之间的风格映射。MaskVAE负责对结构先验的流形进行建模(参见第3.2)。Alpha Blender负责保持操作一致性(参见第3.2)。为了使DMN在推理时间内对用户定义的掩码Msrc的变化更鲁棒,我们提出了一种称为EBST的新训练策略(参见第2节)3.2),其可以在Msrc上对用户编辑行为进行建模。这种训练方法需要一个训练良好的DMN,一个训练到低重建误差的MaskVAEE图3:密集映射网络的架构,由空间感知风格编码器和图像生成骨干组成。3、与训练阶段不同,我们简单地将图像生成主干的输入替换为Msrc,其中Msrc可以由用户定义。3.1. 密集映射网络密集映射网络采用Pix2PixHD的架构作为骨干,我们扩展它与外部编码器Enc风格,将接收It和Mt作为输入。详细的架构如图所示。3 .第三章。空间感知样式编码器。我们提出了一个空间感知的风格编码器网络Enc风格,它同时接收风格信息It及其相应的空间信息Mt为了融合这两个领域,我们在SFT-GAN中利用空间特征变换(SFT)[37]。SFT层学习映射函数M:M →(γ,β),其中仿射变换参数(γ,β)通过先验条件M(γ,β)=M(γ,β)获得。在获得γ和β之后,SFT层都对特征图F执行按特征和按空间的调制,作为SFT(F|γ,β)=γ<$F+β其中F的维数与γ和β相同,并且<$是指逐元素乘积。在这里,我们从Mt的特征得到先验条件,特征图F从It.因此,我们可以将空间信息Mt以样式信息It为条件,并如下生成xi,yixi,yi=Encstyle(It,Mt),(1)和一个从零开始训练的阿尔法搅拌机培训ii管道可以分为两个阶段。在训练阶段,我们用Mt代替Msrc作为输入。在阶段I中,我们首先用Mt和It更新 在阶段II中,我们使用MaskVAE来生成两个新的掩模M_inter和M_outer,其与M_t相差很小,并且生成两个面I_inter和I_outer。然后,Alpha Blender将这两个面混合为I混合,以保持操纵的一致性。EBST后,DMN其中xi、yi是包含空间感知样式信息的仿射参数。为了将空间感知样式信息传递到目标掩码输入,我们在DMN中 的 残 差 块 zi 上 利 用 自 适 应 实 例 归 一 化 [12](AdaIN)。AdaIN操作是一种最先进的风格转换方法,定义为:zi−µ(zi)在推理阶段对Msrc的变化具有更强的鲁棒性目标函数的详细信息见1)xi=xi(σ(zi))+yi,(2)秒三点三推理管道。 我们只需要DMN测试。图它类似于实例规范化[34],但用条件样式⨀+ConvB/(/)平均池化ConvConvConvConvSFT转换转换ConvConvConvConvSFTConv转换转换ConvConvConv5552=λ算法1编辑行为模拟训练模型:预训练的GA,EncVAE,DecVAE模型输入:It,Mt,Mref输出:I输出,I混合1:当迭代不收敛时,2:C. 胡斯 一 米卡尼巴奇 的 N掩模 和 伊马加 对Mt,M ref,It,i = 1,...,N.我我我图4:两个蒙版之间的线性插值样本(红色块和橙色块之间)。MaskVAE可以对蒙版进行平滑过渡。信息.第三章:zt=EncVAE(Mt)第四章:zref=EncVAE(Mref)第五章:z内部,z外部zt±zref−ztλinter第六章:M _inter =Dec_VAE(z_inter)7:M_outer=Dec_VAE(z_outer)8:用等式69:用等式(1)更新GB(It,Mt,Minter,Mouter)610:结束时DMN是定义为GA的生成器,其中Iout=GA(Encstyle(It,Mt),Mt)).空间感知风格Autoencoder [18],学习a编码器,DMN学习It和I t之间的样式映射。Msrc根据由Mt提供的空间信息来计算M src。MaskVAE由两部分组成:(i)L重建,其中因此,样式(例如发型和皮肤风格)被转换到Msrc上的相应位置,使得DMN可以合成最终的经操纵的面Iout。3.2. 编辑行为模拟训练编辑行为模拟训练可以在训练时对用户在Msrc上的编辑行为进行建模这种训练方法需要一个训练良好的密 集 映 射 网 络 GA , 一 个 训 练 到 低 重 建 误 差 的MaskVAE,控制逐像素语义标签差异,(ii)LKL,其控制潜在空间中的平滑度。总体目标是最小化以下损失函数:LMaskV AE =L重建+λKLLKL,(3)其中λKL设置为1e−5,通过交叉验证获得。编码器网络EncVAE(Mt)输出潜在向量的均值μ和协方差σ我们使用KL散度损失来最小化先验P(z)和学习分布之间的差距,即和一个从零开始训练的阿尔法搅拌机MaskVAE由EncVAE和DecVAE组成,负责对结构先验流形进行建模。阿尔法LKL=1(µµT+2Jj−1(exp(σ)−σ−1)),(4)混合器B负责保持操作一致性。我们将GB定义为利用MaskVAE,DMN和Alpha Blender的另一个生成器,其中GBB ( GA ( It , Mt , Minter ) , GA ( It , Mt ,Mouter)). 过-所有训练流水线如图所示。详细算法见Algo. 1.一、我们的培训流程可以分为两个阶段。首先,我们需要加载GA,EncVAE和DecVAE的预训练模型。在阶段I中,我们更新GA 一次。在第二阶段,给定Mt,我们通过在隐空间上添加两个方向相反的平行向量,从原始掩码中进行小结构插值和外推,得到两个新的掩码Minter和Mouter。面具 这些矢量由± zref −zt获得,其中z ref除其他是随机选择掩模M_ref的潜在表示,且λ_inter被设置为2。5、适当搅拌。在DMN 生成两张人脸后,Alpha Blender学习将两张图像混合到目标图像中,同时保持与原始图像的一致性然后,我们迭代地更新GA和GB(图2中的第一阶段和第二阶段),直到模型收敛。EBST之后,DMN将更多在推理时间内对用户修改的掩码的变化具有鲁棒性MaskVAE的结构先验。与变分其中表示向量σ的第j个元素。然后,我们可以在训练阶段通过z=µ+rexp(σ)对潜在向量进行采样,其中rN(0,I)是一个随机向量,而r表示逐元素乘法。解码器网络DecVAE(z)输出重构语义标签并计算逐像素交叉熵损失,如下所示:L重构= −Ez<$P(z)[log(P(M t|z))]。(五)图 4 示 出 了 两 个 掩 码 之 间 的 线 性 插 值 的 样 本MaskVAE可以在掩模上执行平滑过渡,EBST依赖于平滑的潜在空间来操作。Alpha Blender的操作一致性。为了保持Iblend和It之间操作的一致性,我们实现了用于图像合成的alphablending [30]通过基于深度神经网络的Alpha BlenderB,它用两个输入图像学习Alpha混合权重α:我想 我在外面 阿斯α =B(I内部,I外部)。后学习适当的α ,Alpha Blender 根据Iblend=α×Iinter+(1−α)×Iouter混合Iinter和Iouter。如图2的第二阶段所 示 , Alpha Blender 与 两 个 份 额 加 权 的 DenseMapping联合优化5553网络.模型组被定义为GB。5554优雅优雅 *StarGANStarGAN*源ImageTargeImage OurSPADE *Pix2Pi xHD-硬盘图6:放大样式复制的性能。[28]第二十八话图5:放大特定属性的性能:面部属性转移的微笑。 * 表示模型由大小为256× 256的图像训练。SPADE [28]和Pix 2 PixHD-m [36]都不能保留属性(例如,胡子)正确。此外,ELEGANT [38]在使用嘴巴非常张开。此外,StarGAN [2]在大图像上训练时性能有限(例如,512 ×512)。3.3. 多目标学习用于学习G A和G B两者的目标函数由三个部分组成:(i)L adv,这是条件对抗损失,使生成的图像更逼真,并根据一致性掩码M t校正生成结构,(ii)L feat,鼓励生成器在多个尺度上产生自然统计,(iii)L adept,在ImageNet训练的VGG-19[33]中,从感知上提高内容生成从低频到高频细节的深度特征[4]中。 为了提高高分辨率图像的合成质量,我们利用多尺度缩放[36]来增加感受野并减少生成图像中出现的重复图案。我们使用了两个鉴别器,这两个鉴别器指的是具有相同网络结构的D1,2,在两个不同的尺度上操作总体目标是最小化以下损失函数。LGA,GB=Ladv(G,D1, 2)而Pix 2 PixHD-m [36]无法保留属性-浓妆和胡须准确表1:与现有数据集的数据集统计比较。CelebAMask-HQ在图像数量和类别注释方面具有优越的规模。海伦[20]CelebAMask-HQ图片数量2.33K30K掩模尺寸400 ×600512 ×512类别数11194. CelebAMask-HQ数据集我们构建了一个名为CelebAMask-HQ的大规模人脸语义标签数据集,该数据集根据CelebA-HQ [17]进行标记,其中包含来自CelebA [26]的30,000张高分辨率人脸图像。它有几个吸引人的特性:• 全面的注释。CelebAMask-HQ是精确手工标注的,大小为512× 512,19个类别,包括所有面部组件,如“皮肤”、“鼻子”、"眼睛“、”眉毛“、”耳朵“、”嘴“、”嘴唇“、”头发“、”帽子“、"眼镜”、“耳环”、"项链“、”脖子“和”衣服“等附件• 标签大小选择。CelebA-HQ [ 17 ]中的图像大小为1024 ×1024。然而,我们选择512 × 512的尺寸,因为标签的成本将是+λfeatLfeat(G,D1, 2)(六)对于1024× 1024的面部标记来说,这是相当高的。此外,我们认为,+λ肽L·埃普普 (G),我们可以很容易地将标签从512× 512扩展到1024× 1024,通过最近邻插值,其中,λfeat和λept设置为10,通过交叉验证。Ladv是条件对抗损失,定义如下:L adv= E[log(D1,2(I t,M t))]+ E[1 − log(D1,2(I out,M t)]。(七)Lfeat是特征匹配损失[36],它计算真实图像和生成图像之间的L1距离,来自科尔比的中间特征ΣL= E<$D(i)(I t,M t)−D(i)(I out,Mt)<$。( 八)引入明显的伪像。• 质量控制在手动标记之后,我们对每个分割掩模进行质量控制检查此外,我们要求注释者使用几轮迭代。• 非模态处理。对于遮挡处理,如果面部组件被部分遮挡,我们要求注释者通过人工标注组件的遮挡部分推断另一方面,我们跳过了注释壮举i=1一、二一,二,一对于那些完全封闭的组件。[16]这是一个很好的例子。L1真实图像和使用从固定的VGG-19 [33]模型的中间特征,表1比较了CelebAMask-HQ与Helen数据集的数据集统计数据[20]。L=Σ i=1[<$φ(i)(It)−φ(i)(Iout)<$1]。 (九)Mi目标图像我SPADE*Pix2PixHD-1000图像来源155555. 实验我们通过在不同的基准上显示定量和视觉质量来全面评估我们的方法5556表2:几何级面部属性转移的评估。与其他方法定量比较的具体属性-微笑。* 表示模型由大小为256× 256的图像训练。†表示使用编辑行为模拟训练对模型进行训练。StarGAN和ELEGANT具有更好的FID分数,但属性分类准确性较低。Pix 2 PixHD-m获得了最好的分类精度,但FID得分高于其他人。虽然MaskGAN不能达到最好的FID分数,但它具有相对较高的分类准确率和分割准确率。度量属性cls。准确度(%)细分(%)FID评分人类评估(%)StarGAN*[2]92.5-40.61-StarGAN [2]88.0-30.177[38]第三十八话72.8-55.43-优雅[38]66.5-35.8934[36]第三十六话78.593.8254.6813[28]第二十八话73.894.1156.215MaskGAN72.393.2346.67-MaskGAN†77.393.8646.8441GT92.392.11--Geomet ry-leve lmanipulatio n(带源信息)Semantic-leve lmanipulaatio n目标图片源图片我们的SPADE*Pix2Pi xHD-mELEGANTELEGANTStarGANStarGAN*图7:与其他方法对特定属性的视觉比较:面部属性转移的微笑。* 表示模型由大小为256× 256的图像训练。 前两列是目标和源对。中间五列显示几何级别操作的结果(our MaskGAN,SPADE [28],Pix 2 PixHD-m [36]和ELEGANT [38]),其利用源图像作为范例。最后两列显示了基于语义级操作的结果(例如,StarGAN [2])。StarGAN在微笑区域失败。ELEGANT具有合理的结果,但有时不能准确地从源图像转移微笑。Pix 2 PixHD-m的感知质量比其他产品低。SPADE的属性保持能力很差。我们的MaskGAN具有合理的视觉质量和相对更好的几何级微笑转移能力。5.1. 数据集CelebA-HQ [17]是一个高质量的面部图像数据集,由从CelebA数据集[26]中挑选的30000张图像组成。这些图像经过质量改进处理,尺 寸 为 1024×1024 我 们 将 所 有 图 像 的 大 小 调 整 为512×512。CelebAMask-HQ. 在CelebA-HQ的基础上,我们提出了一个新的数据集CelebAMask-HQ,它包含30000个语义分割标签,大小为512× 512。数据集中的每个标签有19个类。5.2. 实现细节网络架构。密集映射网络中的图像生成主干遵循Pix2PixHD[36]有4个残余块。Alpha Blender也遵循Pix2PixHD的设计,但仅下采样3次并使用3个残差块。MaskVAE的架构类似于UNet [31],没有跳过连接。DMN中的空间感知样式编码器不使用任何实例规范化[34]层,这将删除样式信息,mation DMN、Alpha Blender和Discriminator中的所有其他卷积层后面都是IN层。MaskVAE在所有层中使用批量归一化[13]。比较方法。我们选择最先进的星-[28]第二届中国国际汽车工业展览会[2018- 03 - 26]作为我们的基准。StarGAN执行语义级面部属性操作。ELEGANT执行几何级面部属性操作. Pix2PixHD从语义掩码执行照片级逼真的图像合成。我们简单地移除用于在密集映射网络的空间感知样式编码器中接收Mt的分支作为称为Pix 2 PixHD-m的基线。SPADE对自然图像进行结构条件图像处理.5.3. 评估指标语义级评估。为了评估一种目标属性的处理方法,我们检查了合成图像的分类精度。我们通过使用ResNet-18 [10]架构在CelebA数据集上训练了特定属性的二进制面部属性分类器。几何级评估。 衡量…的5557表3:几何级样式副本的评估。与其他方法的定量比较。†表示使用编辑行为模拟训练对模型进行训练。 * 表示模型由大小为256× 256的图像训练。 属性分类精度中的属性类型(从左至右)右边是男性,浓妆,没有胡子。MaskGAN具有比Pix 2 PixHD-m相对更高的属性分类精度。编辑行为模拟训练进一步提高了属性保持能力的鲁棒性,使MaskGAN<$具有比MaskGAN更高的属性分类准确率和人类评价得分。度量属性cls。准确度(%)细分(%)FID评分人类评估(%)[36]第三十六话56.6 55.1 78.991.4639.6518[28]第二十八话54.5 51.0 71.994.6046.1710MaskGAN68.1 72.1 88.492.3437.5528MaskGAN†71.7 73.3 89.592.3137.1444GT96.1 88.5 95.192.71--目标图像1目标图像2目标图像3目标图像4源图像我们SPADE*Pix 2 PixHD-游戏我们SPADE*Pix 2 PixHD-游戏我们SPADE*Pix 2 PixHD-游戏我们SPADE*Pix 2 PixHD-游戏图8:与其他方法在样式复制上的视觉比较。* 表示模型由大小为256× 256的图像训练。所有列显示了针对四个不同目标图像的所提出的方法SPADE [28]和Pix 2 PixHD-m [36]的结果。MaskGAN比SPADE和Pix 2 PixHD-m显示出更好的风格转换能力,如化妆和性别。SPADE在分割结果上获得了更好的准确性。在掩码条件图像生成中,我们将具有U-Net [31]架构的预训练人脸解析模型应用于生成的图像,并在像素精度方面测量输入布局与预测解析结果之间的一致性。分布层评估。 到测量的为了评估不同模型生成图像的质量,我们使用Fre'chet初始距离[11](FID)来衡量生成图像的质量和多样性。人类感知评估。我们进行了用户调查,以评估感知生成质量。 给定 目标图像(以及样式复制实验中的源图像),用户需要基于两个标准选择最佳生成的图像:1)属性和样式的传递质量这些选项是由不同方法生成的随机混合图像。身份保护评估。为了进一步评估身份保持能力,我们通过ArcFace进行了额外的人脸验证实验[5](LFW上的99.52%)。在实验设置中,我们从CelebA-HQ的测试集中选择了400对人脸,每对包含一个修改过的人脸(微笑)和一个未修改过的人脸。此外,在测试阶段,每个人的脸被调整大小,112 ×1125.4. 与先前工程的比较是相对于.包括语义级评价、几何级评价和分布式评价三个方面我们将我们的方法表示为MaskGAN和MaskGAN†以供参考,其中†表示模型配备了编辑行为模拟训练。对于修改后的Pix 2 PixHD [36],我们将其命名为Pix 2 PixHD-m以供参考。属性转移评价。我们选择微笑比较哪一个是最具挑战性的属性类型转移在以前的作品。更具体地说,微笑会影响面部的整体表情,并且微笑具有很大的几何变化。为了生成用户修改的掩码作为输入,我们使用HopeNet [32]对测试集进行头部姿势估计。 利用滚转、俯仰和偏航的角度信息,我们从测试集中选择了400个具有相似姿态的源和目标对。然后,我们直接将嘴部、上唇和下唇的掩模从目标掩模替换为源掩模。图7、图5和表2显示了MaskGAN和现有技术的视觉结果 和 定 量 结 果 为 了 进 行 公 平 比 较 , StarGAN* 和ELEGANT* 均值模型用大小为256× 256的图像训练。StarGAN具有最好的分类准确性和FID分数,但在微笑的区域,因为StarGAN的性能可能会受到训练数据大小的影响5558表4:同一性保持评价。与其他方法的定量比较。* 表示模型由大小为256× 256的图像训练。MaskGAN优于其他最先进的掩模到图像方法来保持身份。(a) 目标图像(b) 面罩上的修改(c) 结果(a) 目标图像(b) 面罩上的修改(c) 结果网络设计。ELEGANT算法虽然具有较好的效果,但由于其在潜空间中交换了源图像的属性,有时不能准确地从源图像中转移微笑。SPADE的分割精度最高,但重建能力较差。只要目标图像没有空间信息,就可以使用用户定义的掩码学习更好的映射。MaskGAN具有合理的视觉质量和相对较高的分类精度和分割精度。对风格复制的评价。 为了说明我们模型的鲁棒性,我们在一个更困难的任务上测试MaskGAN:几何图形级别样式副本。样式复制也可以视为将一个面结构操作到另一个面。我们从测试集中选择了1000个目标图像,并以不同的顺序从目标图像中选择在这种情况下,大约一半的配对是不同的图8、图6和表3显示了MaskGAN和现有技术的视觉结果和定量结果。从视觉结果和属性分类准确度(从左到右:男性,浓妆,没有胡子),SPADE通过使用空间自适应归一化获得了最好的分割精度,但它不能保持属性(例如,性和胡须)。MaskGAN比SPADE和Pix 2 PixHD-m显示出更好的风格传递能力,因为它将空间信息引入风格特征,并在训练期间通过双重编辑一致性模拟用户编辑行为保持同一性的评价。如表4所示的实验结果,我们的MaskGAN优于用于身份保持的其他最先进的掩模到图像方法。实际上,我们已经探索了增加面部识别损失。然而,性能增益有限。因此,我们在最终框架中删除了损失。5.5. 消融研究在消融研究中,我们考虑模型的两种变体:(i)MaskGAN和(ii)MaskGAN †。密集映射网络。在图5中,我们观察到Pix 2 PixHD-m受到用户修改的掩码中包含的先验信息的影响。例如,如果用户将面具修改为女性,而目标图像看起来像男性,则预测图像倾向于化妆且没有胡须的女性。此外,Pix 2 PixHD- m无法将样式从目标图像过渡到图9:交互式面部编辑的视觉结果。第一行显示了添加眼镜等附件的示例。第二行显示编辑脸部和鼻子形状的示例。第三行显示添加头发的红色块显示了一个失败的情况下,头发颜色的强度下降时,添加头发到短发的女人。用户修改面具准确。通过空间感知风格编码器,MaskGAN不仅可以防止用户修改的掩模中的先验知识影响生成的结果,而且还可以准确地传输目标图像的风格。编辑行为模拟训练。 表2和表3表明,在训练中模拟编辑行为可以防止推理阶段的内容生成受到用户修改的掩码上的结构变化的影响它提高了属性保持能力的鲁棒性,使MaskGAN表现出更好的评价分数。5.6. 交互式人脸编辑我们的MaskGAN允许用户通过语义掩模接口在几何级别交互式编辑面部组件的形状,位置和类别。交互式面部编辑结果如图所示。8. 第一行显示了添加眼镜、耳环和帽子等附件的示例。第二行显示编辑脸部形状和鼻子形状的示例。第三行显示添加头发的示例。更多的结果在补充材料中。6. 结论在这项工作中,我们提出了一个新的面向几何的人脸操作框架MaskGAN,它有两个精心设计的组件:1)密集映射网络和2)编辑行为模拟训练。我们的关键见解是,语义面具作为一个合适的中间表示灵活的面部操纵保真度保持。MaskGAN在两个具有挑战性的任务上进行了全面评估:属性转移和样式复制,表现出优于其他国家的最先进的方法的性能。我们进一步贡献了一个大规模的高分辨率的人脸数据集与细粒度的面具-符号,命名为CelebAMask-HQ。未来的工作包括将MaskGAN与图像完成技术相结合,以进一步保留区域上的细节而无需编辑。谢谢。这项工作得到了香港大学基础研究种子基金、创业基金和商汤科技研究捐赠的部分支持。度量人脸验证准确率(%)[36]第三十六话58.46[28]第二十八话70.77MaskGAN†76.415559引用[1] 曹 晨 、 翁 彦 林 、 周 顺 、 童 一 英 、 周 坤 。Facewarehouse:用于视觉计算的三维面部表情数据库 。 IEEE Transactions on Visualization and ComputerGraphics,20(3):413[2] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年。[3] Chao-Te Chou,Cheng-Han Lee,Kaipeng Zhang,Hu-Cheng Lee,and Winston H Hsu.Pivtons:具有条件图像完成的姿势不变虚拟试穿鞋。亚洲计算机视觉会议,第654-668页。Springer,2018.[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[5] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集,第4690- 4699页[6] 耿嘉豪,邵天嘉,郑友谊,翁彦林,周坤。用于单张照片面部动画的翘曲引导gans。SIGGRAPH Asia 2018技术论文,第231页。ACM,2018。[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[8] 顾书阳、包建民、浩阳、董晨、方文、卢远。面罩引导的肖像编辑与条件gans。在CVPR,2019年。[9] Xintong Han,Zuxuan Wu,Zhe Wu,Ruichi Yu,andLarry S Davis.Viton:一个基于图像的虚拟试穿网络。在IEEE计算机视觉和模式识别会议论文集,第7543-7552页[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。 甘斯训练师两时间尺度更新规则收敛到局部纳什均衡。在NIPS,2017年。[12] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。InICCV,2017.[13] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。[14] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。[15] 赵英珠和朴钟佑Sc-fegan:面部编辑生成对抗网络与用户在IEEE计算机视觉国际会议论文集,第1745-1753页[16] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。[17] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。[18] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。[19] Guillaume Lample,Neil Zeghidour,Nicolas Usunier,Antoine Bordes,Ludovic Denoyer,et al.衰减器网络:通过滑动属性操作图像。在NIPS,2017年。[20] Vuong Le , Jonathan Brandt , Zhe Lin , LubomirBourdev,and Thomas S Huang.交互式面部特征定位。ECCV,2012年。[21] Cheng-Han Lee,Kaipeng Zhang,Hu-Cheng Lee,Chia-Wen Cheng,and Winston Hsu.用于人脸幻觉的属性增强在IEEE计算机视觉和模式识别研讨会会议论文集,第721-729页[22] Mu Li,Wangmeng Zuo,and David Zhang.面部属性的深度身份感知转移。arXiv预印本arXiv:1610.05586,2016.[23] Guilin Liu,Fitsum A Reda,Kevin J Shih,Ting-ChunWang,Andrew Tao,and Bryan Catanzaro.使用部分卷积的 不规 则孔 图像 修复 。在欧洲 计算 机视 觉会 议(ECCV)的会议记录中,第85-100页[24] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。在NIPS,2017年。[25] Ziwei Liu,Xiaoxiao Li,Ping Luo,C
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功