没有合适的资源?快使用搜索试试~ 我知道了~
基于CLIP模型的发型编辑框架
+color ref+++color ref++cent years, with the development of deep learning, manyconditional GAN-based hair editing methods [26, 40, 50]can produce satisfactory editing results.Most of thesemethods use well-drawn sketches [20,40,50] or masks [26,40] as the input of image-to-image translation networks toproduce the manipulated results.However, we think that these interaction types are notintuitive or user-friendly enough. For example, in order toedit the hairstyle of one image, users often need to spendseveral minutes to draw a good sketch, which greatly limitsthe large-scale, automated use of these methods. We there-fore wonder “Can we provide another more intuitive andconvenient interaction way, just like human communicationbehaviors?”. And the language (or“text”) naturally meetsour requirements.Benefiting from the development of cross-modal visionand language representations [28, 37, 38], text-guided im-age manipulation has become possible.Recently, Style-CLIP [31] has achieved amazing image manipulation re-sults by leveraging the powerful image text representationcapabilities of CLIP [32]. CLIP has an image encoder anda text encoder, by joint training on 400 million image textpairs, they can measure the semantic similarity between aninput image and a text description. Based on this observa-tion, StyleCLIP proposes to use them as the loss supervisionto make the manipulated results match the text condition.Although StyleCLIP inherently supports text descriptionbased hair editing, they are not exactly suitable for our task.It suffers from the following drawbacks: 1) For each spe-180720HairCLIP: 通过文本和参考图像设计您的发型0魏天一 1 , 陈东东 2, † , 周文博 1 , 廖静 3 , 谭振涛 1 , 袁璐 2 , 张伟明 1 , 于能海 101 中国科学技术大学 2 微软云人工智能 3 香港城市大学0{ bestwty@mail., welbeckz@, tzt@mail., zhangwm@, ynh@ } ustc.edu.cn0cddlyf@gmail.com , jingliao@cityu.edu.hk , luyuan@microsoft.com0“棕色头发”0“编发发型”0“金色头发”+0“发髻发型”0输入图像0“粉色头发”0风格参考0“像素剪发”0颜色参考 风格参考0“灰色头发”0“犹太卷发”0“齐刘海发型”0输入图像0“紫色头发”0风格参考0“鸟巢发型”0颜色参考 风格参考0图1. 我们的框架支持单独或联合编辑发型和颜色,条件可以是图像或文本。0摘要0发型编辑是计算机视觉和图形学中一个有趣且具有挑战性的问题。许多现有方法需要精绘的草图或蒙版作为编辑的条件输入,然而这些交互既不直观也不高效。为了使用户摆脱繁琐的交互过程,本文提出了一种新的发型编辑交互模式,它使用户能够根据提供的文本或参考图像单独或联合地操作发型属性。为此,我们将图像和文本条件编码为共享的嵌入空间,并利用对比式语言-图像预训练(CLIP)模型的强大图像文本表示能力提出了一个统一的发型编辑框架。通过精心设计的网络结构和损失函数,我们的框架可以以解耦的方式进行高质量的发型编辑。大量实验证明了我们的方法在操作准确性、编辑结果的视觉逼真度和无关属性保留方面的优越性。01. 引言0†陈东东是通讯作者。我们的代码可在https://github.com/wty-ustc/HairCLIP找到Generative Adversarial Networks. Since being proposedby Goodfellow et al. [11], GANs have made great progressin terms of loss functions [3, 4], network structure design[12,35,39], and training strategies [13,42]. As a representa-tive GAN in the field of image synthesis, StyleGAN [23,24]can synthesize very high-fidelity human faces with realisticfacial details and hair. As the typical unconditional GANs,StyleGAN itself is difficult to achieve controllable imagesynthesis effects. But fortunately, its latent space demon-strates promising disentanglement properties [8,10,18,36],and many works utilize StyleGAN to perform image ma-nipulation tasks [2,29,31,45,48]. In this paper, we convertthe unconditional StyleGAN into our conditional hair edit-ing network with the help of CLIP’s powerful image textrepresentation capability. Moreover, we unify the text andreference image condition in one framework and achievedisentangled editing effects.Image-based Hair Manipulation. As an important part ofthe human face, hair has attracted many works dedicated tohair modeling [5,6,15] and synthesis [21,26,47,52]. Someworks [26, 52] use mask which explicitly decouples facialattributes including hair as the conditional input for image-to-image translation networks to accomplish hair manipula-tion. There are also several works [40,50] that use sketchesas input to depict the structure and shape of the desiredhairstyle.However, such interactions are still relativelycostly for users. To enable easier interaction, MichiGAN[40] supports hair transfer by extracting the orientation mapof one hairstyle reference image as well as the appearancefrom another hair color reference image. However, Michi-GAN is easy to fail for arbitrary shape changes duringhair transfer. Recently, LOHO [34] performs a two-stageoptimization in the W+ space and noise space of Style-GANv2 [24] to complete the hair transfer for a given refer-ence image. However, the area optimized by this method islimited to the foreground, which requires blending the re-constructed foreground with the original background andoften brings obvious artifacts.Besides, it is very time-consuming, e.g., several minutes to optimize an image.Text-based Hair Manipulation. Along with the boomingdevelopment of cross-modal visual and language represen-tations [28, 37, 38, 51], especially the powerful CLIP [32],180730具体的头发编辑描述,需要训练一个单独的映射器,这在实际应用中不够灵活;2)缺乏量身定制的网络结构和损失设计,使得该方法在发型、发色和其他无关属性的解缠方面表现不佳;3)在实际应用中,有些发型或颜色很难用文本来描述。这时,用户可能更愿意使用参考图像,但StyleCLIP不支持基于参考图像的头发编辑。为了克服上述限制,我们提出了一个头发编辑框架,同时支持不同的文本或参考图像作为发型/颜色条件在一个模型中。一般来说,我们遵循StyleCLIP,并利用在大规模人脸数据集上预训练的StyleGAN[24]作为生成器,关键是学习一个映射器网络,将输入条件映射为相应的潜在代码变化。但与StyleCLIP不同的是,我们探索了CLIP的潜力,超越了衡量图像文本相似性的范畴,同时引入了一些新设计:1)共享条件嵌入。为了将文本和图像条件统一到相同的领域中,我们利用CLIP的文本编码器和图像编码器分别提取它们的嵌入作为映射器网络的条件。2)解耦信息注入。我们明确分离发型和发色信息,并将它们分别输入到对应的子发型映射器中,以实现解耦的头发编辑;3)调制模块。我们设计了一个条件调制模块,实现对输入条件对潜在代码的直接控制,提高了我们方法的操作能力。由于我们的目标是在文本或参考图像条件下实现基于头发的编辑,同时确保其他无关属性保持不变,我们引入了三种类型的损失:1)文本操作损失用于保证编辑结果与给定的文本描述之间的相似性;2)图像操作损失用于指导从参考图像到目标图像的发型或发色转移;3)属性保持损失用于在编辑前后保持无关属性(例如身份和背景)不变。定量和定性比较以及用户研究证明了我们方法在操作准确性、操作保真度和无关属性保持方面的优越性。图1展示了一些示例编辑结果。我们还进行了大量消融分析,并对我们的网络结构和损失函数的设计进行了充分的验证。总结起来,我们的贡献有三个方面:0•我们推动了交互式头发编辑的前沿,即在一个框架中统一文本和参考图像条件。它支持在一个单一模型中使用广泛的文本和图像条件,而无需训练许多独立的模型,这在以前从未实现过。0以前没有实现过。0•为了以解耦的方式执行各种发型和发色操作,我们提出了一些针对我们任务的新的网络结构设计和损失函数。0•我们进行了大量实验和分析,展示了我们方法的更好操作质量以及每个新设计的必要性。02. 相关工作3. Proposed Method3.1. Overview3.2. HairCLIP180740最近的一些工作[7, 19, 31, 44,49]开始研究基于文本的操作。然而,目前还没有专门针对发型编辑的现有方法。其中最相关的方法是StyleCLIP[31]和TediGAN[49]。但是StyleCLIP需要为每个特定的发型编辑描述训练一个单独的映射网络,这对于实际应用来说不够灵活。对于TediGAN,它提出了两种方法:TediGAN-A将文本和图像分别编码到StyleGAN的潜在空间中,并通过样式混合完成操作,这种方法的解耦性较差,很难完成发型编辑;TediGAN-B使用CLIP进行优化操作,以提供文本-图像相似性,但是由于缺乏从大规模数据集中学习到的知识,该过程不稳定且耗时。与现有方法不同,本文提出了第一个能够同时处理文本和图像条件的统一框架。这提供了一种更直观、更便捷的交互模式,并在一个单一模型中实现了多样的文本和图像条件。此外,由于针对此任务进行了新的设计,我们的方法在发型编辑质量上也表现出更好的效果。0想象我们在理发店里,如果有人想设计发型,常见的交互方式是命名所需的发型或向发型师提供相应的图片。受此启发,我们认为赋予AI算法这种直观高效的交互模式是非常必要的。由于StyleGAN [23,24]具有出色的图像合成质量,以及CLIP[32]具有优秀的图像/文本表示能力,我们终于能够设计出这样一个统一的发型编辑框架来实现这个目标。在深入了解框架细节之前,我们先简要介绍StyleGAN和CLIP。StyleGAN[23,24]能够使用渐进式上采样网络从噪声中合成高分辨率、高保真度的逼真图像。其合成过程涉及多个潜在空间。Z ∈ R512是StyleGAN的原始噪声空间。随机采样的噪声向量z ∈Z经过8个全连接层转换为W ∈ R512潜在空间。一些研究[8, 10, 18,36]表明,在训练过程中,StyleGAN能够自发地在其W空间中编码丰富的语义信息,因此W具有良好的语义解耦特性。此外,一些最近的StyleGAN反演工作[1, 33,48]将W空间扩展为W+空间以获得更好的重建效果。对于一个具有18层的StyleGAN,它由18个不同的512维向量[w1,..., w18],wi ∈ W级联定义。CLIP[32]是一个从互联网上收集的4亿个图像-文本对预训练的多模态模型。它包括一个图像编码器和一个文本编码器,用于将图像和文本分别编码为512维嵌入向量。它采用了典型的对比学习框架,通过最小化正确图像文本对的编码向量之间的余弦距离,最大化错误对的余弦距离,可以很好地衡量图像和文本之间的语义相似性,从而学习一个共享的图像-文本嵌入空间。0将图像和文本编码为512维嵌入向量。它采用了典型的对比学习框架,通过最小化正确图像文本对的编码向量之间的余弦距离,最大化错误对的余弦距离,可以很好地衡量图像和文本之间的语义相似性,从而学习一个共享的图像-文本嵌入空间。0受到开创性的StyleCLIP[31]工作的启发,我们利用预训练的StyleGAN的强大合成能力,旨在学习一个额外的映射网络来实现发型编辑功能。具体而言,给定要编辑的真实图像,我们首先使用StyleGAN反演方法“e4e”[43]获取其在W+空间中的潜在代码w,然后使用映射网络根据w和编辑条件(包括发型条件es和发色条件ec)预测潜在代码的变化∆w。最后,修改后的潜在代码w' = w +∆w将被反馈到预训练的StyleGAN中,以获得目标编辑结果。整体流程如图2所示,下面将详细介绍每个组件。共享条件嵌入。为了在一个框架下统一文本和图像领域的条件,我们自然选择将它们表示为嵌入在CLIP的联合潜在空间中。对于用户提供的文本发型提示和文本发色提示,我们使用CLIP的文本编码器将它们编码为512维条件嵌入,分别表示为ets和etc。类似地,发型参考图像和发色参考图像由CLIP的图像编码器编码,并分别表示为eIrs和eIrc。由于CLIP在大规模图像-文本对上进行了良好的训练,ets、etc、eIrs、eIrc都位于共享的潜在空间中,因此可以被输入到一个映射网络中并灵活切换。解耦信息注入。正如许多研究[23,49]所示,StyleGAN的不同层对应于生成图像中不同语义层次的信息,前面的层对应于更高语义层次的信息。我们采用StyleCLIP[31]的方法,采用三个具有相同网络结构的子发型映射器Mc、Mm、Mf,分别负责预测与潜在代码w = (wc, wm,wf)的不同部分(粗、中、细)对应的发型编辑的∆w。具体而言,wc、wm、wf分别对应于高语义层次、中等语义层次和低语义层次。注意到StyleGAN中的这种语义分层现象,我们提出了解耦信息注入,旨在提高网络对发型和发色编辑的解耦能力。具体而言,我们使用发型信息es的嵌入ets ∈{ets, eIrs}从𝑤𝑐𝑤𝑚𝑤𝑓or𝑒𝑠𝐼𝑟 or 𝑒𝑠𝑡𝑒𝑐𝐼𝑟 𝑜𝑟 𝑒𝑐𝑡∆𝑤𝑐∆𝑤𝑚∆𝑤𝑓180750发型条件0CLIP图像编码器0StyleGAN反演编码器0参考图像��0输入图像0�0∆�0编辑后的图像0CLIP文本0编码器0发色条件0文本提示�0�c0��0��0�′0StyleGAN0��/��/��的结构0调0lu0fc0leaky-relu0…�0�0∆�0调制0调制模块的结构0“碗状发型”0�0�����0��(�)0��(�)0��0�'0图2.我们框架的概述,这里我们以发型描述文本和发色参考图像作为条件输入的示例。我们根据给定的参考图像和文本实现相应的发型编辑,其中图像、文本由CLIP的图像编码器、文本编码器编码为512维向量,作为发型映射器的条件输入。只有三个子发型映射器是可训练的,其中M c和M m采用发型条件输入es,M f采用发色条件输入ec。0M c和M m的条件输入为CLIP的文本编码,Mf的条件输入为CLIP的发色信息嵌入ec∈{etc,eIrc}。这是基于以下经验观察:发型通常对应于StyleGAN中的中高级语义信息,而发色对应于低级语义信息。因此,发型映射器M可以表示为:0M(w, es, ec) = (M c(wc, es), M m(wm, es), M f(wf, ec))。(1)调制模块。如图2所示,每个子发型映射器网络都遵循简单的设计,由五个块组成,每个块由一个全连接(fc)层、一个新设计的调制模块和一个非线性激活层(leakyrelu)组成。调制模块不仅仅是将条件嵌入与输入潜码简单地连接起来,而是使用条件嵌入e调制前面的fc层的中间输出x。在数学上,它遵循以下公式:0x' = (1 + fγ(e))x - µx0σx + fβ(e),(2)0其中µx和σx分别表示x的均值和标准差。fγ和fβ采用简单的全连接网络实现(两个全连接层,一个中间层归一化和leakyrelu层)。这个设计受到了最近条件图像转换工作的启发[16, 30,41]。在测试过程中,如果没有为发型或发色提供条件输入,则相应子发型映射器中的所有调制模块将被实现为恒等函数,即es=0或ec=0。这样,我们可以灵活地支持用户仅编辑发型、仅编辑发色或同时编辑发型和发色。03.3.损失函数0我们的目标是根据条件输入以解耦的方式操纵头发,同时要求其他无关属性(例如背景、身份)得到很好的保留。因此,我们专门设计了三种类型的损失函数来训练映射网络:文本操纵损失、图像操纵损失和属性保留损失。文本操纵损失。为了根据发型或颜色的文本提示执行相应的头发操纵,我们设计了文本操纵损失Lt,其使用CLIP的帮助如下:0Lt = Lclipst + Lclipct. (3)0对于发型文本操作损失,我们在CLIP的潜空间中测量操作后的图像与给定文本之间的余弦距离:0Lclipst = 1 - cos(Ei(G(w + M(w, ets, ec))), ets), (4)0其中,cos(∙)表示余弦相似度,Ei表示CLIP的图像编码器,G表示预训练的StyleGAN生成器,ets=Et(st)表示给定发型描述文本st的嵌入,由CLIP的文本编码器Et进行编码,ec∈{etc, eIrc, 0}。类似地,颜色文本操作损失定义如下:0Lclipct = 1 - cos(Ei(G(w + M(w, es, etc))), etc), (5)0其中,etc表示给定颜色描述文本的嵌入,由CLIP的文本编码器进行编码,es∈{ets, eIrs,0}。图像操作损失。给定一个参考图像,我们希望操作后的图像具有相同的发型。180760与参考图像相似。然而,描述两个发型之间的相似性是一项具有挑战性的任务。再次利用CLIP的强大潜力,我们分别使用CLIP的图像编码器对它们进行编码,以在CLIP的潜空间中测量它们的相似性:0Lsi = 1 - cos(Ei(xM * Ph(xM)), Ei(x * Ph(x))), (6)0其中,操作后的图像xM = G(w + M(w, eIrs, ec)), eIrs =Ei(x * Ph(x)), ec∈{etc, eIrc,0},P表示预训练的面部解析网络[27],Ph(xM)表示xM的头发区域的掩码,x表示给定的参考图像。由于我们提出的监督,我们的方法可以为参考图像和输入图像严重不对齐的情况产生合理的编辑结果,这是其他发型转换方法目前无法实现的。此外,对于基于参考图像的发色操作,我们计算了参考图像和操作后图像之间头发区域的平均颜色差异作为损失:0Lci = ||avg(xM * Ph(xM)) - avg(x * Ph(x))||1, (7)0其中,xM = G(w + M(w, es, eIrc)), eIrc = Ei(x * Ph(x)),es∈{ets, eIrs, 0}。总之,图像操作损失Li定义为:0Li = λsiLsi + λciLci, (8)0其中,λsi,λci默认设置为5,0.02。属性保留损失。为了确保发型编辑前后的身份一致性,应用身份损失如下:0Lid = 1 - cos(R(G(w + M(w, es, ec))), R(G(w))), (9)0其中,es∈{ets, eIrs, 0},ec∈{etc, eIrc,0},R是预训练的用于人脸识别的ArcFace[9]网络,G(w)表示重建的真实图像。此外,为了在仅操作发型时保持发色,我们以与Lci相同的方式设计了Lsmc:0其中,Lsmc = ||avg(xM * Ph(xM)) - avg(xw *Ph(xw))||1,(10)其中,xM = G(w + M(w, es, ec)),es∈{ets, eIrs},ec=0,xw =G(w)。经验上,我们发现只改变颜色时可以很好地保留发型,因此我们不添加相应的保留损失。此外,我们借助面部解析网络[27]引入了背景损失:0Lbg = ||(xM - xw) * (Pnh(xM) ∩ Pnh(xw))||2, (11)0其中,xM表示xM的非头发区域的掩码。通过这种方式,我们大大确保了非相关属性区域的保留。0保持不变。为了达到相同的目的,利用潜空间中操作步骤的L2范数:0Lnorm = ||M(w, es, ec)||2. (12)0整体属性保留损失Lap定义为:0Lap = λidLid + λsmcLsmc + λbgLbg +λnormLnorm,(13)其中λid,λsmc,λbg,λnorm默认设置为0.3,0.02,1,0.8。最后,整体损失函数定义为:0L = λtLt + λiLi + λapLap,(14)0其中λt,λi,λap默认设置为2,1,1。04. 实验0实现细节。我们在CelebA-HQ数据集[22]上训练和评估我们的发型映射器。由于我们使用e4e[43]作为我们的反转编码器,我们遵循其对训练集和测试集的划分。我们使用在FFHQ数据集[23]上预训练的StyleGAN2[24]作为我们的生成器。对于文本输入,我们收集了44个发型文本描述和12个发色文本描述;CelebA-HQ数据集用于提供发型或发色的参考图像,并且我们还使用我们的文本引导发型编辑方法生成了几个编辑后的图像,以增加参考图像集的多样性。在训练过程中,发型映射器被随机指定为仅编辑发型、仅编辑发色或同时编辑发型和发色,具体取决于提供的条件输入。条件输入随机设置为文本或参考图像。关于训练策略,基本学习率为0.0005,批大小为1。训练迭代次数为500,000,使用Adam[25]优化器,其中β1和β2分别设置为0.9和0.999。对于所有比较方法,我们使用官方的训练代码或预训练模型。为了定量评估无关属性的保留情况,使用了四个指标:IDS表示编辑前后的身份相似度,由Curricularface[17]计算得出。PSNR和SSIM在编辑前后的非发区域交集区域计算。ACD表示发区域的平均颜色差异。04.1. 定量和定性比较0与基于文本驱动的图像操作方法的比较。我们将我们的方法与当前最先进的基于文本驱动的图像操作方法TediGAN[49]和StyleCLIP[31]在十个文本描述上进行比较。根据TediGAN的官方建议,将其优化迭代次数设置为200。视觉比较结果如图3所示。TediGAN在所有与发型编辑相关的任务中均失败,只有发色编辑勉强成功,但结果仍然不理想。180770输入图像 我们的方法 StyleCLIP [31] TediGAN [49] 输入图像 我们的方法 StyleCLIP [31] TediGAN [49]0非洲发型0绿色头发0齐耳短发0金色头发0碗状发型0编织棕色0鹰嘴发型0平头黄色0紫色头发0永久灰色0图3. 与StyleCLIP [31]和TediGAN[49]的视觉比较。每行最左侧列列出了相应的简化文本描述(编辑发型、发色或两者)。所有输入图像都是真实图像的反转。我们的方法在完成指定的发型编辑时展示了更好的视觉逼真度和无关属性保留能力。0结果仍然不理想。这一现象与StyleCLIP的发现一致:使用CLIP相似性损失的优化方法由于缺乏从大型数据集中学到的知识而非常不稳定。StyleCLIP为每个描述训练了一个单独的映射器,因此在仅编辑发型的任务上展示了更强的操作能力,但过度的操作能力反而影响了图像的逼真度(例如非洲发型)。由于我们的共享条件嵌入,我们的方法通过完全学习多个发型编辑描述输入之间的平衡,找到了操作程度和逼真度之间的平衡。在同时编辑发型和发色的任务上,我们的方法展示了更好的操作能力。这是由于所提出的解耦信息注入和调制模块,而StyleCLIP将此信息保留在一个描述中,使其解耦程度较差,难以同时执行发型和发色编辑任务。此外,得益于属性保留损失,我们的方法展示了更好的无关属性保留(例如鹰嘴发型、紫色头发)。在表1中,我们给出了关于这些方面的无关属性保留的平均定量比较结果。0方法 IDS PSNR SSIM0我们的方法 0.83 27.8 0.92 StyleCLIP [ 31 ]0.79 23.2 0.87 TediGAN [ 49 ] 0.17 24.10.790表 1.关于无关属性保留的定量比较。我们的方法展现出最佳的无关属性保留能力。0十个文本描述。定量结果与视觉比较得出相同的结论。我们在这里不比较TediGAN中使用的FID [ 14],因为它不能反映操作能力。关于FID指标的更多定量结果和分析见补充材料。与发型转移方法的比较。给定一个发型参考图像和一个发色参考图像,发型转移的目的是将它们对应的发型和发色属性转移到输入图像中。我们在图 4中将我们的方法与当前最先进的LOHO [ 34 ]和MichiGAN [40]进行比较。这两种方法都通过在空间域中直接复制来执行发型转移,以生成更准确的细节。180780输入 HRI CRI 我们 LOHO MichiGAN0图 4. 我们的方法与LOHO [ 34 ]和MichiGAN [ 40]在发型转移上的比较。HRI表示发型参考图像,CRI表示发色参考图像。0头发结构,虽然在某些情况下边界区域存在明显的伪影(请参见第一行的结果)。然而,如最后两行所示,它们对发型参考图像的姿势敏感,并且在发型参考图像和输入图像之间的发型和姿势没有很好对齐时,无法完成合理的发型转移。与这两种方法不同,我们在训练过程中将相似性的度量空间转换为CLIP的潜在空间,并使用来自CLIP的参考图像的头发区域的嵌入作为条件输入。因此,我们的方法为不对齐的发型转移提供了解决方案,并显示出与其他现有方法相比的优越性。用户研究。为了进一步评估不同方法在两种类型的发型编辑任务中的操作能力和视觉逼真度,我们招募了 20名参与者进行用户研究。对于基于文本驱动的图像操作方法,我们每次随机提供 20组结果,每组结果来自三种方法中的两种,这些方法是从十个发型编辑描述中随机选择的。对于发型转移方法,参与者还提供了 20组结果,其中一半是对齐的发型转移案例,另一半是非对齐的。参与者被要求为每个任务中的三种方法按照操作准确性和视觉逼真度进行排名,其中 1 表示最好,3表示最差。平均排名值列在表 2中,我们的方法在两个指标上均优于竞争方法。04.2. 消融分析0为了验证我们提出的网络结构和损失函数的有效性,我们交替地去除其中一个关键组件,重新训练我们方法的变种,保持除选定组件外的所有组件不变。属性保留损失的重要性。为了验证属性保留损失中的每个组件的作用,我们随机选择了 4 ,400张图像进行定性和定量消融研究,仅限于编辑任务。0基于文本驱动的方法 发型转移方法0我们的方法 Metrics Ours StyleCLIP TediGAN Ours LOHOMichiGAN 准确率 1.39 1.66 2.95 1.79 2.26 1.95 真实性 1.421.63 2.95 1.09 2.48 2.430表 2.基于文本驱动的图像操作方法和发型转移方法的用户研究。Acc.表示给定条件输入的操作准确性,Real.表示操作图像的视觉逼真度。表中的数字是平均排名,数字越低越好。0方法 IDS PSNR SSIM ACD0我们的方法 0.85 27.0 0.91 0.020无 L bg 0.82 19.9 0.82 0.02 无 L id 0.25 22.80.80 0.03 无 L s mc 0.82 26.6 0.90 0.09 无 Lnorm 0.75 24.9 0.87 0.030表 3. 属性保持损失的定量消融。0输入 我们的方法无 L bg 无 L id 无 L s mc 无 L norm0图 5. 属性保持损失的效果。文本描述为“向后梳理的发型”。0发型。从表 3 和图 5 可以得出一致的结论:L bg 、L id和L norm 都有助于保持不相关属性,而L s mc在仅编辑发型时有助于保持发色不变。网络结构设计的优越性。我们将我们的模型与三个变体进行比较。(a)用普通的层归一化层替换调制模块,然后将条件输入与潜码连接起来并将它们输入到网络中。(b)用发色嵌入替换粗、中级子发映射器的条件输入,用发型嵌入替换细子发映射器的条件输入。(c)用发色嵌入替换中级子发映射器的条件输入,其余部分保持不变。如图 6所示,只有我们的模型完成了发型和发色的操作。(a)的不满意结果证明了我们的调制模块能够更好地将条件信息融合到潜空间中并提高操作能力。(b) 和(c)证实了我们的分离的基于语义匹配的信息注入的正确性。发型插值。给定两个编辑后的潜码 W A ,W B ∈ W +,我们可以实现细粒度的发型编辑。180790输入图像 我们的方法 (a) (b) (c)0图 6.我们的方法与变体之间的视觉比较。文本条件为“永久发型和红色头发”。(a) 将条件输入与潜码连接起来。(b)用发色嵌入替换粗、中级子发映射器的条件输入,用发型嵌入替换细子发映射器的条件输入。(c)用发色嵌入替换中级子发映射器的条件输入,其余部分保持不变。0黄色 粉色0卷曲短蘑菇紫银0图 7. 发型插值结果。通过逐渐增加混合参数 λ 从 0 增加到 1,我们可以在细粒度级别上进行发型编辑,例如从黄色头发到粉色头发,从卷曲发型到齐耳发型。0通过插值进行编辑。具体来说,我们通过线性加权将两个潜码组合起来生成中间的潜码 W I = λW B + (1 − λ ) W A。最后,生成对应于中间潜码的图像。通过逐渐增加混合参数 λ 从 0 增加到 1,我们可以在细粒度级别上进行头发编辑,如图 7所示。泛化能力。在图 8中,我们展示了我们的方法对未见过的文本描述的泛化能力。由于我们的共享条件嵌入策略,我们的方法在仅使用有限数量的头发编辑描述进行训练后具有一定的外推能力,可以为从未出现在训练描述中的文本提供合理的编辑结果。跨模态条件输入。我们的方法支持分别从图像和文本领域进行条件输入,这在当前现有的头发编辑方法中是不可行的,结果如图 1 所示。更多结果将在补充材料中给出。05. 限制和负面影响0由于我们的编辑是在预训练StyleGAN的潜空间中完成的,因此我们无法完成对“的编辑0输入图像 卷曲短蘑菇紫银0图8.对未见过的描述的泛化能力。尽管从未在“卷曲短发”,“蘑菇发型”,“紫色头发”和“银色头发”的描述中进行过训练,我们的方法仍然可以产生合理的操作结果。0一些罕见的发型描述或不属于StyleGAN领域的参考图像。但是,通过将相应的图像添加到StyleGAN预训练中,这个问题可能会得到解决。对于发型转换,我们使用CLIP潜在空间中参考图像的嵌入作为我们的头发映射器的条件,有时会丢失细粒度结构,因此无法实现结构细节的完美转换。这些经过编辑的头发图像可能被用于传播恶意信息,可以通过使用GAN生成的图像检测器[46]来避免。06. 结论0在本文中,我们提出了一种新的头发编辑交互模式,将文本和图像领域的条件输入统一到一个框架中。在我们的框架中,用户可以单独或联合提供文本描述和参考图像来完成头发编辑。这种多模态交互极大地增加了头发编辑的灵活性,并减少了用户的交互成本。通过最大化CLIP的巨大潜力,定制的网络结构设计和损失函数,我们的框架以解耦的方式支持高质量的头发编辑。广泛的定性和定量比较和用户研究证明了我们的方法在操纵能力、无关属性保留和图像逼真度方面相对于竞争方法的优越性。致谢:本工作得到了NSFC的部分支持,合同号U2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功