细粒度对话编辑：连续、自然的面部编辑

50 浏览量更新于2023-09-26 收藏 2.74MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13799你好，她笑得再灿烂一点怎么样？是的，而且刘海可以更长。把编辑并检查刘海是否覆盖眉毛也许你想尝试编辑眼镜代替？对话编辑：通过对话框进行细粒度面部编辑蒋玉明1 * 黄子琪1 * 潘新港2 陈昌来1刘子伟1 *1南洋理工大学S-Lab2香港中文大学{yuming002，hu0007qi，ccloy，ziwei.liu} @ ntu.edu.sgpx117@ie.cuhk.edu.hk图1：对话编辑的示例。用户提供面部图像和编辑请求。然后，我们的系统相应地编辑图像，并提供有意义的语言反馈，例如澄清或替代编辑建议。在编辑期间，系统能够在细粒度尺度上控制属性改变的程度，并且迭代地检查当前编辑步骤是否满足用户摘要人脸编辑是视觉和图形学中的一项重要任务，有着广泛的应用。然而，现有的作品不能提供连续和细粒度的编辑模式（例如，将微微微笑的脸编辑为大笑的脸），与用户进行自然交互。在这项工作中，我们提出了谈话编辑，一个交互式的面部编辑框架，执行细粒度的属性操作，通过用户和系统之间的对话。我们的主要见解是在GAN潜在空间中建模一个连续的1）与将编辑视为遍历潜在空间中的直线的先前工作不同，这里的细粒度编辑被公式化为找到尊重语义场上2）每个步骤处的曲率是位置特定的并且由输入图像以及用户的语言请求确定3）为了使用户参与有意义的对话，我们的系统通过考虑用户请求和语义场的当前状态来生成语言反馈。我们还贡献了CelebA-Dialog，一个可视化语言的fa-cial编辑数据集，以促进大规模的研究。具体地，每个图像具有手动注释的细粒度属性注释以及自然语言中的基于模板的文本描述。广泛的定量和*同等缴款。定性实验证明了我们的框架在以下方面的优越性：1）细粒度编辑的平滑性，2）身份/属性保存，以及3）视觉照片真实感和对话流畅性。值得注意的是，用户研究验证了我们的整个系统始终受到约80%的参与者的喜爱。我们的项目页面是 https ： www.mmlab-ntu.com/project/talkedit/。1. 介绍面部编辑的目标是使用户能够以他们期望的方式操纵面部图像。由于GANs等深度生成模型的进步[10，29，3，15，16，18]，近年来面部编辑技术发展迅速，尤其是在图像保真度方面。虽然已经有几次尝试来提高面部编辑质量，但是它们通常缺乏与用户的交互或者要求用户遵循一些固定的控制模式。例如，图像到图像翻译模型[53，7，12，21，26]仅在几个离散和固定状态之间翻译面部其他面部编辑方法为用户提供一些控件，例如指示图像布局的语义图[22]，演示目标样式的参考图像[14，25，24]以及描述期望效果的句子[5，51，30，54，46]。然而，用户必须遵循固定的模式，这对大多数用户来说太苛刻和不灵活。此外，唯一现在的笑容是不是很美13800系统提供的反馈是编辑的图像本身。在交互的灵活性方面，我们认为自然语言是用户的一个很好的选择语言不是不仅表达方便，信息丰富，而且是一个自然的系统给出反馈的最终形式。因此，在这项工作中，我们第一次尝试对一个基于对话框的fac- cial编辑框架，即谈话编辑，其中编辑是通过从用户的请求和从系统的反馈轮轮进行。在这样的交互式场景中，用户在编辑开始时可能在他们的头脑中没有明确的目标，并且想法可能在编辑期间改变，比如将过度大笑的因此，编辑系统应该能够执行连续和细粒度的属性操纵。虽然一些方法[37，38，42，39，11]可以通过移位预训练的GAN [ 16，18，15，3 ]的潜在代码在一定程度上执行连续编辑，但它们通常做出两个假设：1）属性变化是通过沿潜在空间中的直线遍历来实现的;（2）不同的身份具有相同的潜向。然而，这些假设忽略了GAN的潜在空间的非线性性质，在实践中可能导致几个缺点：1）编辑过程中身份漂移; 2）当编辑感兴趣的属性时，其他不相关的属性也将被改变; 3）如果潜在代码沿着直线走得太远，则会出现伪像。为了解决这些挑战，我们提出学习向量场，该向量场描述GAN的潜在空间中的属性变化的位置特定的方向和沿着弯曲轨迹遍历考虑了潜在空间中的属性过渡的非线性，从而实现更细粒度和准确的面部编辑。此外，不同身份的属性变化在这种情况下，将更好地保留经编辑的面部图像的身份。在实践中，语义场被实现为映射网络，并且用细粒度标签进行训练以更好地利用其位置特定的属性，这比由二进制标签监督的现有方法更有表现力。上述语义场编辑策略很容易嵌入到我们的对话系统，构成整个对话编辑框架。具体地，通过语言编码器对用户在编辑之后，系统将以先前的编辑为条件给出反馈，以检查进一步的改进或提供其他编辑建议。用户可以响应系统反馈以进行进一步的编辑动作，并且该基于对话的编辑迭代将继续，直到用户对编辑的结果满意为止。为了促进语义场和基于对话的编辑的学习，我们贡献了一个名为CelebA-Dialog的大规模视觉语言数据集。与只有二进制属性标签的先前数据集不同，我们用细粒度的属性标签在CelebA中注释图像。伴随着每张图像，还有一个用户请求样本和几个描述这些细粒度面部属性的标题。综上所述，我们的主要贡献包括：1）我们建议通过对话框执行细粒度的面部编辑，这是用户更容易的交互方式。2）为了实现更连续和细粒度的面部编辑，我们提出对特定于位置的语义场进行建模。3）与其他同行相比，我们实现了更好的结果，具有更好的身份保留和更平滑的4）我们贡献了一个大规模的视觉语言数据集CelebA-Dialog，包含细粒度的属性标签和文本描述。2. 相关工作语义面部编辑。已经提出了几种方法用于编辑特定属性，例如年龄进展[49，44]，头发合成[31，47]和微笑生成[43]。与这些依赖于面部先验（如地标）的特定属性的方法不同，我们的方法能够在不使用面部先验的情况下操纵多个语义属性图像到图像转换方法[53，7，12，21，26]在面部编辑方面显示出令人印象深刻的结果。然而，它们不足以执行连续编辑，因为图像在两个离散域之间翻译。最近，由于GAN模型（如StyleGAN [17，19]）的进步，基于潜在空间的操作方法[52，4]引起了越来越多的关注这些方法通常在预训练的GAN的潜在空间中发现语义上有意义的方向，使得沿着这些方向移动潜在代码可以在图像空间中实现期望的编辑有监督的方法使用属性标签找到编辑感兴趣属性的方向[37，38，55]，而无监督的方法利用预训练的GAN学习的语义来发现最重要和可区分的方向 [42 ， 11 ， 39] 。InterFaceGAN [37，38]在潜在空间中找到超平面以将语义分离成二进制状态，然后使用超平面的法向量作为编辑方向。最近的一项工作[55]学习了由二进制属性标签监督的变换一些方法[13，1]考虑了潜在空间的非线性特性。与现有的方法不同，我们在细粒度标签监督的潜在空间中学习特定于位置的字段，以实现精确的细粒度编辑并保留面部身份。基于语言的图像编辑。自然语言的灵活性吸引了研究人员提出了一系列文本到图像生成[50，34，48，46]和MAG-BERTM。nipulation [5，51，30，54，46]方法。比如说，138010度：男人看起来很严肃，没有程度1：女人微笑与角落程度2：女人微笑着度3：男人的整张脸都是度4：图片中的女人有一个度5：图像中的年轻人是他脸上露出笑容。嘴巴向上翘。一些牙齿出现了。因幸福而微笑脸上挂着灿烂的笑容开心地笑着细粒度标签分发图2：CelebA-Dialog数据集的图示。我们展示了微笑属性的示例图像和注释。其次是图像的属性程度和相应的文字描述。我们还展示了微笑属性的细粒度标签分布。给定一个输入图像，TediGAN [46]生成一个以文本描述为条件的新一些其他方法[40，6，20，2，9，27，23]允许用户以请求的形式给出请求。自然语言的形式，但不提供有意义的反馈、澄清、建议或交互。聊天-画家[36]合成一个图像的条件下完成的对话框，但不能与用户交谈轮轮编辑图像。与简单地“听”用户编辑的现有系统不同3. CelebA-Dialog数据集在基于对话框的面部编辑场景中，需要多为此，编辑系统应当能够生成连续且细粒度的面部编辑结果，其包含将源图像转换为目标图像的中间状态然而，对于大多数面部属性，二元标签不足以精确地表达属性程度。因此，仅用二进制标签训练的方法不能执行自然的细粒度面部编辑。具体地说，当属性度变大时，它们不能产生合理的结果。因此，细粒度面部属性标签对于提供用于细粒度面部编辑的监督是至关重要的。此外，系统还应了解编辑图像的属性程度，以便为用户提供准确的反馈或建议，这也需要细粒度的标签进行训练。出于这些动机，我们贡献了一个大规模的视觉语言人脸数据集名为CelebA-Dialog。CelebA- Dialog数据集具有以下属性：1）用丰富的细粒度标签来注释面部图像，所述细粒度标签根据其语义将一个属性分类为多个程度; 2）伴随每个图像，有描述属性的标题和用户请求样本。CelebA-Dialog数据集构建如下：数据源CelebA数据集[28]是一个众所周知的大规模人脸属性数据集，它包含202，599个非对称人脸。年龄对于每个图像，有四十个二进制属性符号。由于CelebA数据集的大规模性和多样性，我们选择为CelebA数据集的图像标注细粒度标签在40个二进制属性中，我们选择了5个属性，其程度不能用二进制标签详尽地表示选定的五个属性是刘海、眼镜、胡须、微笑和年轻（年龄）.细粒度注释。对于刘海，我们根据前额暴露的比例对度数进行分类。共有6个细粒度标签：100% 80% 60%40%、20%和0%。眼镜的细粒度标签根据眼镜框架的厚度和眼镜的类型（普通/太阳镜）进行注释。胡须的注释是根据胡须的粗细来标注的。微笑的衡量标准是露出牙齿和张开嘴巴的比例。至于年龄，我们大致将年龄分为六类：低于15、15-30、30-40、40-50、50-60和高于60。图2，我们提供了关于微笑属性的细粒度注释的示例有关每个属性的细粒度标签的更详细定义和示例，请参阅补充文件。文本描述。对于每一个图像，我们提供了细粒度的文本描述，这些描述是通过一个模板池生成的。每个图像的标题包含一个描述所有五个属性的标题和每个属性的五个单独的标题图中给出了一些标题示例二、此外，对于每一幅图像，我们还提供了一个编辑请求样本的条件下的标题。例如，一张看起来严肃的脸可能会被请求添加微笑。4. 我们的方法对话编辑系统的流水线如图所示。3 .第三章。整个系统由三个主要部分组成：用户请求理解、语义场操作和系统反馈。整个系统的初始输入是图像I和用户首先采用语言编码器E来将用户请求解释成编辑编码er，从而指示感兴趣的属性、改变方向等。然后，编辑编码e，r和对应的潜在码z被馈送到“语义场 ”F中，以找到对应的向量 f ， z 来改变 “ 语义场”F。度4百分之5阶百分之3阶百分0度百分度为2的百分之1阶百分13802∈›→›→∈∫·图3：对话编辑管道概述。在轮次t中，我们从上一轮接收输入图像It及其对应的潜码zt。然后，语言编码器E从用户请求rt中提取编辑编码er，并将er馈送到语义场F以指导编辑过程。通过将场向量f = F（zt）添加到zt来沿着场线迭代地移动潜在代码z t，并且使用预训练的预测器来检查是否达到目标程度。最后，在一轮结束时将输出编辑后的图像It+1。基于编辑编码er，T a lk模块给出语言反馈，诸如澄清和替代编辑建议。具体属性度。在一轮编辑之后，系统将返回编辑的图像I’并向用户提供合理的反馈编辑将继续，直到用户对编辑结果满意为止。4.1. 用户请求理解给定用户er=E（r）（1）编辑编码er与对话和编辑历史以及语义场的当前状态一起将决定并指示语义场是否在当前一轮对话中执行编辑。编辑编码er包含以下信息：1）请求类型，2）感兴趣的属性，3）编辑方向，以及4）程度的改变。将用户我们使用基于模板的方法来生成这三种类型的用户请求，然后训练语言编码器。4.2. 面向人脸编辑给定输入图像IR3×H ×W和预训练的GAN生成器G，类似于先前的基于潜在空间的操纵方法[37，38，55，32]，我们需要首先反转对应的潜在代码z∈Rd，使得I=载体应该是位置特异性，即，矢量不仅对于不同的身份是受此启发，我们提出将潜在空间建模为一个连续的向每个潜在代码分配向量的向量字段。连续语义场的定义。对于潜在空间中的潜在代码z，假设其对应的图像I具有针对某个属性的得分s通过找到一个合适的向量fz，然后将该向量加到z上，属性得分s将变为s′。直观地，增加潜在代码z的属性得分的向量fz是s相对于z的梯度。在数学上，属性得分是标量场，表示为S：RdR.属性得分场S相对于潜在代码的梯度是向量场，我们称之为语义场F：RdRd可以定义如下：F= S。（二）对于特定的潜在代码z，其语义场向量fz的方向是属性得分s增加最快的方向。在潜在空间中，如果我们想要改变潜在代码z的属性得分s，我们所需要的只是沿着语义场中的潜在方向移动z由于语义场的位置特定属性，将属性得分从sa改变到Sb的轨迹是弯曲的。属性得分变化公式如下：个zlbsa+fzdz=sb，（3）个zlaG（z），然后求某个向量fzRD哪个可以改变属性的程度。请注意，对所有面采用相同的向量容易在编辑期间发生身份更改，因为不同的面可能具有不同的fz。因此其中za是初始潜在代码，zb是终点。由于语义场是连续的和位置特定的，通过沿着语义场线遍历潜在空间可以容易地实现连续的面部编辑。上轮系统输出下轮语言编码器E编辑编码谈谈..............................用户请求反馈试验It#$用户请求rt+1语义场F预测输出功率潜码Z测试...FzYtGP..................ItIY不It#$太棒了我们能看看她60岁？好了搞定了。刘海是你喜欢的长度吗？现在笑容好多了。我也想看看我的朋友长什么样遮住眉毛的刘海FCFCFCFC13803目标属性y一块钱GP............两块钱$$+1$KLid+ L盘语义场F...ΣΣΣ联系我们·前向传递反向传播①、现有方法第二章我们的方法L预测①②预测输出功率不......我(a) 语义场训练方案(b) 潜空间中的语义场图4：（a）语义场的训练方案。采用预测损失、身份保持损失和鉴别损失来保证语义场的位置特定性。（2）潜空间语义场的阐释。不同的颜色表示具有不同属性得分的潜在空间区域两个有色区域之间的边界是等势子空间。现有方法由轨迹1表示，其中潜在代码在整个编辑过程中沿着固定方向移位。我们的方法由轨迹2表示，其中潜在代码沿着位置特定的方向移动语义场的离散化。虽然属性k C现实世界中的分数场和语义场都是连续的，在实际应用中，需要对连续场进行离散化处理，以逼近现实世界中的连续场。因此，Eq.（3）可以表示为：NLpred=−yi，c log（pi，c），（6）i=1c =0其中C表示细粒度类的数量，yi，c是关于目标类的二进制指示符，并且pi，c是预测器P的softmax输出，即，p=P（I′）。sa+fzii=1·∆zi =s b.（四）由于语义场的位置特定属性允许不同的身份具有不同的向量，因此我们进一步引入身份保持损失[45，41]以更好地保持语义场F被实现为映射网络。对于潜码z，我们可以通过fz=F（z）得到其对应的语义场向量。然后，通过以下方式实现潜码移位的一个步骤z′=z+αfz=z+αF（z），（5）其中α是步长，在本工作中设置为α= 1由于假设fz改变属性度，因此编辑后的图像I′=G（z′）应该具有与原始图像I=G（z）不同的属性得分。在编辑期间，我们重复Eq.（5）直到达到期望的属性得分如示于图4.为了训练映射网络，使其具有语义场的性质，采用预训练的细粒度属性预测器P来监督语义场的学习。预测器有两个主要功能：一是推动输出向量以正确的方向改变感兴趣的属性，另一个是保持其他不相关的属性不变。假设我们总共有k个属性原始图像的细粒度属性可以表示为（a1，a2，…ai，...，a，k），其中a为0，1，…C是表示属性程度的离散类标签。当我们为第i个属性训练语义场时，编辑后的图像I’的目标属性标签y应该是（a1，a2，...，a i+1，… a k）。利用目标属性标签，我们可以使用交叉熵损失来优化期望的语义场，则预测器损失Lpred为表示如下：当沿着语义场移动潜在代码时的面部身份具体而言，我们采用现成的人脸识别模型来提取有区别的特征，并且在编辑期间提取的特征应该尽可能接近。身份保持损失L_id定义如下：Lid=Face（I′）−Face（I）1，（7）其中Face（）是预训练的人脸识别模型[8]。此外，为了避免编辑图像中的不切实际的伪影，我们可以进一步利用预训练的鉴别器D与面部生成器耦合如下：L圆盘= −D（I′）。（八）总而言之，我们使用以下损失函数来监督语义场的学习：Ltotal=λpredLpred+λidLid+λdiscLdisc，（9）其中λpred、λid和λdisc分别是预测器损失、身份保持损失和鉴别器损失的权重4.3. 系统反馈系统Talk模块提供如下自然语言反馈feedbackt=T alk（feedbackt−1，r，s，er，h），（10）FCFCFCFCz我Fz′G13804其中r是用户请求，s是当前系统状态，er是编辑编码，h是编辑历史。13805×个接口GAN多类SVM享受编辑过程我们(a) 刘海（b）胡子（c）微笑图5：定性比较。我们将我们的方法与InterfaceGAN，Multiclass SVM和Enjoy Your Editing进行了比较。我们的编辑结果更加真实。此外，我们的方法是不太可能改变的身份和其他属性。系统提供的反馈来自以下三个类别之一：1）检查编辑图像的属性程度是否满足用户的期望，2）提供替代的编辑建议或选项，以及3）请求进一步的用户指令。5. 实验评价数据集。我们通过从在CelebA数据集上预训练的StyleGAN中采样潜在代码来合成评估数据集[28]。使用潜在代码，我们然后生成相应的图像。与其他基于潜在空间的操作方法相比，我们直接使用潜在代码进行编辑，避免了GAN反演方法引入的错误。考虑到计算资源，我们比较我们的方法与基线128 - 128图像。评估指标。我们评估了面部编辑方法在身份和属性保存方面的性能以及编辑图像的照片真实感。为了评估身份保留，我们使用FaceNet [35]提取编辑前后图像的特征，并计算其欧氏距离。至于不相关属性保留，我们使用重新训练的属性预测器来输出指示预测的属性是否与其地面实况标签一致的交叉熵得分。除了上述指标外，我们还进行了用户研究。两组编辑结果（一组是我们的结果，另一组是另一种方法）提供给参与者。参与者应该比较两组编辑图像，然后选择更适合以下每个问题的组：1）哪一组图像在视觉上更真实？2）哪一组图像具有更多的连续变化？3）编辑后，哪一组图像更好地保留了身份？5.1. 比较方法接口GAN。InterfaceGAN [38]使用单个方向来执行连续编辑。通过计算二进制SVM边界的法向量来获得方向多类SVM 我们进一步提出了一个扩展版本的InterfaceGAN，命名为多类SVM，其中细粒度的标签用于获得多个SVM边界。在编辑过程中，方向将不断切换。享受你的编辑。享受编辑[55]学习映射网络以生成特定于身份的方向，并且在编辑一个身份期间保持固定。5.2. 定量评价身份/属性保留。为了公平地比较连续编辑结果与现有的方法，我们产生我们的结果纯粹基于语义场操纵和语言是不涉及的。我们计算基线方法的编辑结果的身份保留和属性保留分数表1示出了定量比较结果。我们的方法实现了最好的身份和属性保存分数。消融研究。语义场的位置特定属性具有以下两个指示：1）编辑一个身份的轨迹可以是曲线而不是直线;2）编辑轨迹对个体身份是唯一与InterfaceGAN和EnjoyYour Editing相比的优势验证了曲线轨迹对于连续编辑至关重要，我们将在第5.4节中提供进一步的分析。与多类SVM相比，我们的结果证实了不同身份的不同方向的必要性。13806×个×个×个表1：定量比较。我们报告身份/属性保存指标。较低的同一性得分（较小的特征距离）意味着同一性被更好地保留，并且较低的属性得分（较小的交叉熵）意味着不相关的属性被较少地改变。我们的方法在身份和属性保存方面具有优越的性能。方法刘海眼镜胡子微笑年轻接口GAN0.7621 /0.74910.7831 /1.19041.0213 /1.64580.9158 /0.90300.7850 /1.4169多类SVM0.7262 /0.53870.6967 /0.90461.1098 /1.73610.7959 /0.86760.7610 /1.3866享受编辑过程0.6693 /0.49670.7341 /0.98130.8696 /0.79060.6639 /0.50920.7089 /0.5734对话编辑（我们的）0.6047 /0.36600.6229/0.77200.8324 /0.68910.6434 /0.50280.6309 /0.4814对话编辑（我们的）*0.5276/0.29020.6670 /0.63450.7634/0.54250.4580/0.35730.6234/0.2731用户：您好！我系统：好的，已经系统：OK done。系统：好的，已经系统：好了我想看看如果我的脸上长满了短胡子会是什么样子。完了胡子现在正合适用户：是的！现在我看起来很严肃。也许你可以试着微笑一下。编辑并检查图像是否满足用户请求你现在想要的是微笑吗？用户：不够。让我笑得更开心这样我们可以看到我的牙齿。完了你想尝试添加或玩刘海吗用户：不是真的。我希望我的脸上有一个非常灿烂的笑容。编辑并检查图像是否满足用户请求完了你还有什么想尝试的吗？用户：就是这样非常感谢您图6：基于对话框的面部编辑的结果。整个过程由用户和系统之间的对话驱动。5.3. 定性评价视觉照片写实主义。定性比较见图。五、我们的方法显示的结果在W+空间上编辑。我们所提出的方法是不太可能生成- ate文物相比，以前的方法。此外，当编辑的属性达到更高的程度，我们的方法仍然可以产生合理的编辑结果，而保持不变的身份用户研究。我们进行了一项用户研究，用户被问到上述问题，他们需要选择更好的图像。共有27名参与者参与，他们需要比较25组图像。在用户研究中，我们将不同属性的编辑结果混合在一起用户研究的结果如图所示。9（a）。结果表明，大多数用户更喜欢我们提出的方法，在图像的真实感，编辑平滑，和身份保护。对话流畅性。在图6中，我们示出了一个对话框示例，其中系统被要求为图片中的年轻人添加胡子。在将胡须添加到期望的胡须中之后，系统然后继续根据用户的要求编辑微笑。系统在整个对话过程中能够流畅地与用户对话。为了进一步评估对话的流畅性，我们邀请了七位参与者来比较六对对话。在每对对话中，一个由系统生成，另一个由人修改。参与者需要决定哪一个更自然，或者它们是否无法区分。*W+空间的编辑。其他人在Z空间上编辑。结果示于图第9（b）段。超过一半的参与者认为系统反馈是自然和流畅的。5.4. 进一步分析高分辨率面部编辑。由于我们的编辑方法是基于潜在空间操作的方法，因此只要预训练的GAN可用，它就可以扩展到具有任何分辨率的图像。除了编辑结果128128图像显示在前面的部分，我们也提供了一些10241024分辨率编辑结果图。7.第一次会议。语义场的区位属性在遍历语义场时，改变属性度的轨迹由每一步的曲率决定，因此它是弯曲的。为了进一步验证这一假设，我们随机抽取100个潜码，然后连续添加眼镜对应的1024 1024图像。对于每个编辑方向，我们计算其与初始方向的余弦相似度。平均余弦相似度对属性类变化的关系如图所示。10个。我们观察到，余弦相似性趋于减少的属性类的变化增加。它证实了编辑方向可以根据其当前位置不断变化，因此特定于位置的属性对于连续编辑和身份保持至关重要。真实图像编辑。图8，我们展示了一个真实图像编辑结果的例子首先利用Pan等人提出的反演方法对图像进行反演。[33 ]第33段。反转过程将微调StyleGAN的权重，我们观察到训练的语义场仍然有效。13807(a) 刘海（b）眼镜(c)胡子（d）微笑图7：高分辨率图像编辑。我们的方法可以推广到1024 × 1024的图像。实像逆像添加刘海添加微笑图8：真实图像编辑。给定一幅真实图像，我们首先对图像进行逆运算，并在潜空间中找到其对应的潜码。我们先加上刘海，然后再加上微笑。百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十编辑方向10.80.6光真实性平滑性身份保护内部接口GAN我们与我们的多类SVM与享受您的编辑(a)编辑质量的用户研究（b）对话流畅性图9：用户研究。（a）与现有方法相比，支持我们结果我们的结果0.40.200 1 2 3 4 5细粒度属性类更改这是大多数参与者的首选。(b)超过一半的参与者认为系统反馈是自然的。6. 结论本文提出了一个基于对话框的细粒度字体编辑系统Talk-to-Edit。期望的面部编辑由用户的语言请求驱动通过使用语义场对GAN潜在空间的非线性特性进行建模，我们所提出的方法能够提供更连续和细粒度的编辑结果。我们还贡献了一个名为CelebA-Dialog的大规模视觉语言面部属性数据集，我们相信这将有利于细粒度和语言驱动的面部编辑任务。在今后的工作中，可以进一步提高真实人脸图像编辑的性能。图10：余弦相似性。我们计算初始方向和后续步骤方向之间的平均余弦相似度。随着属性类的改变，余弦相似性减小，这指示大多数面部图像的编辑轨迹是弯曲的。通过结合更鲁棒的GAN反演方法并添加更强的身份保持正则化来证明我们还希望通过杠杆老化高级预训练语言模型来处理更复杂的文本请求谢谢。本研究得到了NTU NAP的支持系统不可区分28.57%38.10%人类33.33%13808引用[1] Rameen Abdal，Peihao Zhu，Niloy J Mitra，and PeterWonka.Styleflow：使用条件连续规范化流对stylegan生成的图像进行属性条件探索。ACM Transactions onGraphics（TOG），40（3）：1-21，2021。二个[2] Ryan Y Benmalek ， Claire Cardie ， Serge Belongie ，Xiadong He，and Jianfeng Gao.神经画家：多圈图像生成。arXiv预印本arXiv：1806.06183，2018。三个[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。一、二[4] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。使用内省对抗网络进行神经照片编辑。arXiv预印本arXiv：1609.07093，2016。二个[5] Jianbo Chen ， Yelong Shen ， Jianfeng Gao ， JingjingLiu，and Xiaodong Liu.基于语言的图像编辑与循环注意模型。在CVPR中，第8721-8729页，2018年。一、二[6] Yu Cheng ， Zhe Gan ， Yitong Li ， Jingjing Liu ， andJianfeng Gao.用于交互式图像编辑的顺序注意gan。在ACM MM，第4383-4391页，2020年。三个[7] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR中，第8789-8797页，2018年。一、二[8] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在CVPR中，第4690-4699页，2019年。五个[9] 傅祖瑞、王新、斯科特·格拉夫顿、米格尔·埃克斯特因和王扬。Sscr：通过自我监督反事实推理进行基于迭代语言的图像编辑。arXiv预印本arXiv：2009.09566，2020。三个[10] Ian J Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成对抗网络。arXiv预印本arXiv：1406.2661，2014。一个[11] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：Discovering interpretable gancontrol.arXiv预印本arXiv：2004.02546，2020。二个[12] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR中，第1125-1134页，2017年。一、二[13] Ali Jahanian，Lucy Chai和Phillip Isola。关于生成式对抗网络的 “ 引导能力 ” 。 arXiv 预印本 arXiv ：1907.07171，2019。二个[14] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。参见ECCV，第694-711页。施普林格，2016年。一个[15] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。一、二[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR中，第4401-4410页，2019年。一、二[17] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR中，第4401-4410页，2019年。二个13809[18] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量。在CVPR中，第8110-8119页，2020年。一、二[19] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量。在CVPR中，第8110-8119页，2020年。二个[20] Jin-Hwa Kim ， Nikita Kitaev ， Xinlei Chen ， MarcusRohrbach，Byoung-Tak Zhang，Yuandong Tian，DhruvBatra，and Devi Parikh.Codraw：协作绘图作为目标驱动沟通的测试平台。arXiv预印本arXiv：1712.05558，2017。三个[21] Taeksoo Kim 、 Moonsu Cha 、 Hyunsoo Kim 、 JungKwon Lee和Jiwon Kim。学习发现跨域关系与生成对抗网络。在ICML，第1857PMLR，2017年。一、二[22] Cheng-Han Lee ， Ziwei Liu ， Lingyun Wu ， and PingLuo. Maskgan ： Towards diverse and interactive facialimage manipulation.在CVPR中，第5549-5558页，2020年。一个[23] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.Manigan：文本引导的图像处理。在CVPR，第7880-7889页，2020年。三个[24] Xinyang Li ， Shengchuan Zhang ， Jie Hu ， LiujuanCao，Xi-aopeng Hong，Xudong Mao，Feiyue Huang，Yongjian Wu，and Rongrong Ji.通过分层风格解纠缠的图像到图像转换。arXiv预印本arXiv：2103.01456，2021。一个[25] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。arXiv预印本arXiv：1705.08086，2017. 一个[26] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督的图像到图像翻译网络。 arXiv 预印本 arXiv ：1703.00848，2017. 一、二[27] Yahui Liu，Marco De Nadai，Deng Cai，Huayang Li，Xavier Alameda-Pineda，Nicu Sebe，and Bruno Lepri.描述要更改的内容：文本引导的无监督图像到图像翻译方法。在ACM MM，第1357-1365页，2020年。3[28] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在ICCV，第3730-3738页，2015中。三、六[29] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。一个[30] Seonghyeon Nam，Yunji Kim和Seon Joo Kim。文本自适应生成对抗网络：用自然语言处理图像。arXiv预印本arXiv：1810.11919，2018。一、二[31] Kyle Olszewski ， Duygu Ceylan ， Jun Xing ， JoseEchevarria，Zhili Chen，Weikai Chen，and Hao Li.使用生成模型进行直观的交互式胡须和头发合成。在CVPR，第7446-7456页，2020年。二个[32] Pan Xingang，Bo Dai，Ziwei Liu，Chen Change Loy，and Ping Luo. 2d gans知道3d形状吗？从2D图像GAN进行无监督的3D形状重建。ICLR，2021年。四个[33] Xingang Pan，Xiaohang Zhan ，Bo Dai，Dahua Lin ，Chen Change Loy，and Ping Luo.开发深埋地下-13810tive Prior适用于多功能图像恢复和操作。参见ECCV，第262-277页。Springer，2020年。七个[34] Scott Reed ， Zeynep Akata ， Xinchen Yan ， LajanugenLo- geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。在ICML，第1060PMLR，2016. 二个[35] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用

下载后可阅读完整内容，剩余1页未读，立即下载