StyleCLIP：基于文本的风格生成网络

23 浏览量更新于2023-10-13 收藏 4.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2085StyleCLIP：文本驱动的StyleGAN图像处理Or Patashnik†*Zongze Wu‡ †Eli Shechtman§Daniel Cohen-Or†Dani Lischinski‡‡耶路撒冷希伯来大学†特拉维夫大学§Adobe Research“Emma图1.使用StyleCLIP的文本驱动操作示例。顶行：输入图像;底行：我们操纵的结果用于驱动每个操作的文本提示出现在每列下。摘要受到StyleGAN在各种领域中生成高度现实主义图像的能力的启发，最近的许多工作都集中在理解如何使用StyleGAN的潜在空间来操纵生成的和真实的图像。然而，发现语义上有意义的潜在操纵通常涉及对许多自由度的艰苦的人工检查，或者针对每个期望的操纵的图像的注释集合。在这项工作中，我们探索利用最近推出的对比语言图像预训练（CLIP）模型的力量，以便开发一个基于文本的界面，用于StyleGAN图像操作，不需要这样的手动工作。我们首先介绍了一种优化方案，该方案利用基于CLIP的损失来响应于用户提供的文本提示来修改输入潜在向量。接下来，我们描述了一个潜在的映射- per，它推断了文本引导的潜在操作步骤，用于一个给定的输入图像，允许更快和更稳定的基于文本的操作。最后，我们提出了一种方法，用于将文本提示映射到StyleGAN样式空间中的输入不可知方向广泛的结果和比较证明了我们的应用程序蟑螂。*按字母顺序排列，贡献相等代码和视频可在https://github.com/orpatashnik/StyleCLIP1. 介绍生成对抗网络（GANs）[18]已经彻底改变了图像合成，最近的基于风格的生成模型[24，25，22]拥有一些迄今为止最真实的此外，StyleGAN的学习中间潜在空间已被证明具有解纠缠特性[9，48，19，53，58]，这使得能够利用预训练模型对合成图像以及真实图像执行各种各样的利用StyleGAN的表达能力需要为用户开发简单直观的界面，以便轻松实现其意图。现有的方法用于seman- TIC控制发现或者涉及人工检查（例如，[19，48，58]）、大量注释数据或预先训练的分类器[49，1]。此外，后续操作通常通过使用参数模型（例如StyleRig [53]中的3DMM或StyleFlow [1]中的训练归一化流）沿潜在空间之一中的方向移动来执行具体的编辑，如虚拟试穿[27]和老化[2]也被探索。因此，现有控件仅允许沿着预设语义方向进行图像操纵每当期望附加的未映射的方向时，需要进一步的手动努力和/或大量注释数据2086在这项工作中，我们探索利用最近引入的对比语言图像预训练（CLIP）模型的力量，以实现直观的基于文本的语义图像操作，既不限于预设的操作方向，也不需要额外的手动努力，以发现新的控件。CLIP模型是在从Web上收集的4亿个图像-文本对上进行预训练的，由于自然语言能够表达更广泛的视觉概念，因此将CLIP与StyleGAN的生成能力相结合，为图像处理开辟了迷人的途径。图1显示了使用我们的方法产生的独特操作的几个示例。具体来说，在本文中，我们研究了三种结合CLIP与StyleGAN的技术：1. 文本引导的潜在优化，其中CLIP模型用作损耗网络[20]。这是最通用的方法，但它需要几分钟的优化才能对图像进行操作。2. 潜在残差映射器，针对特定文本提示进行训练。给定潜在空间中的起始点（待操纵的输入图像），映射器产生潜在空间中的3. 一种用于将文本提示映射到StyleGAN的样式空间中的输入不可知（全局）方向的方法本文的结果和补充材料证明了对人脸、动物、汽车和教堂图像的广泛的语义操纵。这些操作范围从抽象到具体，从广泛到细粒度。它们中的许多尚未被任何先前的StyleGAN操纵作品所证明，并且所有这些都很容易使用预训练的StyleGAN和CLIP模型的组合来获得。2. 相关工作2.1. 视觉和语言联合表示多个作品学习跨模态视觉和语言（VL）表示[12，47，52，3530、51、29、7、32]，用于各种任务，诸如基于语言的图像检索、图像字幕和视觉问题回答。在BERT [13]在各种语言任务中取得成功之后，最近的VL方法通常使用Trans-former [55]来学习联合表示。基于对比语言图像预训练（CLIP）[42]的最新模型学习了多模态嵌入空间，该空间可用于估计给定文本和图像之间的语义相似性。CLIP是在4亿个文本图像对上训练的，这些文本图像对是从互联网上各种公开可用的来源收集的通过以下方式学习的表征CLIP已经被证明是非常强大的，能够在各种数据集上实现最先进的零拍摄图像分类。我们建议读者参考OpenAI[17]对CLIP进行了广泛的阐述和讨论文本引导的图像生成和操作Reed等人的开创性工作。[45]通过训练条件GAN [36]来接近文本引导的图像生成，条件GAN由从预训练的编码器获得的文本嵌入来Zhang等人[62，63]通过使用多尺度GANs提高了图像质量。AttnGAN [60]在文本和图像特征之间引入了注意力机制。在其他作品中使用了额外的监督[45，31，26]，以进一步改善图像质量。一些研究集中在文本引导的图像处理。一些方法[14，39，33]使用基于GAN的编码器-解码器架构来理清输入图像和文本描述的语义。ManiGAN [28]介绍了一种新颖的文本-图像组合模块，可生成高质量的图像。在上述工作的基础上，我们提出了一个单一的框架，该框架将StyleGAN生成的高质量图像与CLIP学习的丰富的多领域语义相结合。最近，DALL·E [43，44]是GPT-3 [6]的120亿参数版本，在16位精度下需要超过24 GB的GPU内存，在生成和应用文本引导的图像变换方面显示了多种相比之下，我们的方法是部署在一个单一的商品GPU。最近，TediGAN [59]和Paint by Word [4]也将GAN与CLIP配对，用于文本引导的图像生成和操作。通过训练编码器将文本映射到 StyleGAN 潜在空间中，TediGAN可以生成对应于给定文本的图像。为了执行文本引导的图像操作，TediGAN将图像和文本都编码到潜在空间中在第7节中，我们证明了使用我们的方法实现的操作更好地反映了驾驶文本的语义。几个并行项目使用CLIP通过优化来指导文本到图像的生成，Deep Daze [38]优化了神经隐式表示网络，而[37，41，10，16]优化了BigGAN [5]，Style-GAN [25]或VQGAN [15]的潜在空间。虽然文本到图像的生成是一个有趣的和具有挑战性的问题，我们相信，我们提供的图像处理能力构成了一个更有用的工具，为典型的工作流程的创意艺术家。2.2. 潜空间图像处理许多作品探索如何利用预训练生成器的潜在空间进行图像操作[9，53，58]。具体而言，StyleGAN中的中间潜在空间2087SSS∈ WWW⟨··⟩WWWSWW已经显示出能够实现许多解开的和有意义的图像操作。一些方法学习以端到端的方式执行图像操作，通过训练将给定图像编码为操作图像的潜在表示的网络[40，46，2，3]。其他方法旨在找到潜在路径，使得沿着它们遍历导致期望的操纵。此类方法可分为：（i）使用图像注释来找到有意义的潜在路径的方法[48，1]，以及（ii）在没有监督的情况下找到有意义的方向并且需要对每个方向进行手动注释的方法[19，50，56，57]。虽然大多数作品在或+空间中执行图像操作，但Wuet al.[58]建议使用StyleSpace，并表明它比和+更好地解缠。我们的潜在优化器和映射器在+空间，而输入不可知的方向，我们去-tect进来了。在这三种情况下，操作都直接来自文本输入，我们唯一的监督来源是一个预先训练的CLIP模型。由于CLIP是在数亿个文本图像对上训练的，我们的方法是通用的，可以在众多领域中使用，而不需要域或操作特定的数据注释。3. StyleCLIP文本驱动操作在这项工作中，我们探索了三种文本驱动的图像操作方法，所有这些方法都将StyleGAN的生成能力与CLIP学习的丰富的联合视觉语言表示相结合。我们从第4节开始，使用一个简单的潜在优化方案，其中给定的潜码的图像在风格-表示“前Proc.火车时间推断。时间输入图像依赖潜空间优化器--98秒是的W+映射器-1075毫秒是的W+全局目录4h-72毫秒没有S表1.我们结合StyleGAN和CLIP的三种方法。优化器和映射器推断出的潜在步骤取决于输入图像，但每个文本提示只执行一次训练。全局方向方法需要一次预处理，之后可以将其应用于不同的（图像、文本提示）对。时间为单个NVIDIAGTX 1080Ti GPU。表1总结了上述三种方法之间的差异，而视觉结果和比较在以下部分中呈现。我们还尝试了直接在潜在空间中进行优化和映射。我们的结果（在补充材料中）表明，优化会产生更多的解开编辑，但是，实现全局更改更难。对于我们的潜在映射器方法，我们发现在S中操作没有优势。4. 潜在优化利用CLIP来引导图像操作的简单方法是通过直接潜在代码优化。具体地，给定源潜在代码ws+和自然语言中的指令或文本提示t，我们解决以下优化问题：arg minDCLIP（G（w），t）+λL2w−ws2+λIDLID（w），GANw∈W+（一）放入CLIP空间。针对每个（源图像、文本提示）对执行优化。因此，虽然该方法是通用的，但执行单个操作需要几分钟在第5节中描述了更稳定的方法，其中映射网络被训练以在单个前向传递中推断潜在空间中的操纵步骤。培训需要几个小时，但每个文本提示只能完成一次。操作步骤的方向可以根据+中的起始位置而变化，该起始位置对应于输入图像，因此我们将此映射器称为局部映射器。我们的实验与本地映射器显示，操纵方向往往是彼此相似的，尽管不同的起点。而且，由于操纵步骤是以+执行的，因此难以以解缠的方式实现细粒度的视觉效果。因此，在第6节中，我们探索第三种文本驱动的操纵方案，其将给定的文本提示转换为输入不可知的（即，潜在空间中的全局）映射方向。方向在StyleGAN的样式空间中计算其中G是预训练的StyleGAN1生成器，DCLIP是其两个参数的CLIP嵌入之间的余弦距离与输入图像的相似性由潜在空间中的L2距离和身份损失控制[46]：LID（w）= 1− ﹥R（G（ws）），R（G（w））﹥，（2）其中R是用于人脸识别的预训练ArcFace [11]网络，并且计算其参数之间的余弦相似度。我们通过梯度下降来解决这个优化问题，通过预训练和固定的StyleGAN生成器G和CLIP图像编码器反向传播（1在图2中，我们提供了使用这种优化方法在200-300次迭代后获得的几个编辑。输入图像由e4e反转[54]。注意，可以通过指示真实或虚构的个人（碧昂斯、特朗普、埃尔莎）来显式地（胡须、金发）或隐式地控制视觉特征。λL2和λID的值取决于所需编辑的性质。的更改到当朝向另一个标识移位时，λID被设置为较低值。[58]这是一个更好的选择，更好的选择，更好的选择。gled视觉操作，相比W+。1我们在所有实验中使用StyleGAN2 [25]。2088L输入输入（0.008，0.005）“A womanwithout“A blonde“Elsa fromFrozen”“Donald同时保留输入图像的其它视觉属性。CLIP损失 CLIP（w）引导映射器最小化CLIP潜在空间中的余弦距离：LCLIP（w）=DCLIP（G（w+Mt（w）），t），⑷其中G再次表示预训练的StyleGAN生成器。为了保持原始输入图像的视觉属性，我们最小化潜在空间中的操作步骤的L2最后，对于需要身份保留的编辑，我们使用等式中定义的身份丢失。（二）、我们的总损失函数是这些损失的加权组合：L（w）= LCLIP（w）+ λ L2<$M t（w）<$2+λIDLID（w）。（五）如前所述，当编辑预期改变标识时，图2.通过潜在优化获得的真实名人肖像的编辑。每次编辑的驱动文本提示和（λL2，λID）参数显示在相应的结果下。5. 潜在映射器上述潜在优化是通用的，因为它对每个（源图像、文本提示）对执行专用优化。缺点是，编辑单个图像需要几分钟的优化，并且该方法对其参数的值有些敏感。下面，我们描述一个更有效的过程，其中，针对特定的文本提示t训练映射网络，以推断W+空间中的操作步骤 Mt（w），对于任何给定的潜像嵌入w∈W+。架构我们的文本引导地图的架构在图3中描绘。已经表明，不同的StyleGAN层负责生成的图像中不同级别的细节[24]。因此，委员会认为，通常将层分成三组（粗、中和细），并向每组馈送（扩展的）潜在向量的不同部分。我们相应地设计了我们的地图，有三个完全连接的网络，每个组/部分一个。这些网络中的每一个的体系结构与StyleGAN映射网络的体系结构相同，但是具有更少的层（在我们的实现中为4层而不是8层）。将输入图像的潜码表示为w=（ wc ， wm ，wf），映射器由下式定义：Mt（w）=（M c（wc），M m（wm），Mf（wf））。（三）我们不使用身份丢失。本文中的例子中我们使用的参数值是λL2= 0。8，λID= 0。1，除了图9中的在图4中，我们提供了几个发型编辑示例，其中每列使用了不同的映射器。在所有这些示例中，映射器成功地保留了身份和与头发无关的大多数其他视觉属性。请注意，所得到的头发外观适合于个人;这在“卷发”和“短发发型”编辑中特别明显应当注意，文本提示一次不限于单个属性。图5示出了头发属性的四种不同组合，直/卷曲和短/长，每种组合产生预期的结果。这种程度的控制还没有证明任何以前的方法，我们由于潜在映射器为每个输入图像推断定制的操纵步骤，因此检查潜在空间中的步骤的方向在不同输入上变化的程度是有趣的为了测试这一点，我们首先使用e4 e [54]反转CelebA-HQ [34，21]的测试集。接下来，我们将反转的潜在代码馈送到几个经过训练的映射器中，并计算所有操作方向对之间的余弦相似性。每个映射器的余弦相似性的平均值和标准偏差见表2。该表示出，即使映射器推断出适于输入图像的操纵步骤，但实际上，对于给定文本提示，这些步骤的余弦相似性很高，这意味着它们的方向并不像人们可能期望的那样不同。t t t注意，可以选择仅训练三个映射器的子集。在某些情况下，保留某些属性级别并保持相应条目中的样式代码固定是有用的。损失我们的映射器被训练来操纵图像的期望属性，如文本提示t所指示的，6. 全球方向虽然潜在的映射器允许快速的推理时间，我们发现，它有时落在短时，需要一个细粒度的此外，正如我们所看到的，对于给定的文本提示，不同操作步骤的方向往往是相似的。受这些观察结果的启发，在本节中，我们提出了一种映射方法2089S不∈ S我我SStyleGAN��简体中文Δ��ℒ2ℒ��ℒ��L�� "��",⋅图3.我们的文本引导映射器的体系结构（在本例中使用文本提示“grey hair”）。源图像（左）被反转成潜码w。训练三个单独的映射函数以生成残差（蓝色），这些残差被添加到w以产生目标代码，预训练的StyleGAN（绿色）从中生成图像（右），通过CLIP和身份损失进行评估莫霍克Afro剪短卷曲碧昂斯Taylor Swift惊讶紫发是说0.820.840.820.840.830.770.790.73STD0.0960.0850.0950.0880.0810.1070.8930.145表2.从使用不同文本提示训练的映射器获得的操作方向之间的平均余弦相似性输入图4.发型编辑使用我们的映射器时，训练Mc和只有Mm。驾驶文本提示显示在每列下方。所有输入图像都是真实图像的反转。令s表示样式代码，并且G（s）表示对应的生成图像。给定指示期望属性的文本提示，我们寻求操纵方向Δs，使得G（s+αΔs）产生图像，其中该属性被引入或放大，而不显著影响其他属性。操作强度由α控制。我们的高层思想是首先使用CLIP文本编码器在CLIP的联合语言-图像嵌入- ding中获得向量∆t，然后将此向量映射到操作方向我进去了。使用即时工程从自然语言获得稳定的Δ t，如下所述。然后通过评估每个风格通道与目标属性的相关性来确定相应的方向Δ s。更正式地说，用CLIP的联合嵌入空间中的图像嵌入的流形和其文本嵌入的流形表示。我们区分这两个流形，因为它们之间没有一对一的映射：一幅图像可能包含大量的视觉属性，这些视觉属性很难用单个文本句子来全面描述;相反，一个给定的句子可能描述许多不同的图像。在CLIP训练期间，所有嵌入都被归一化为单位范数，因此只有嵌入的方向包含语义信息，而范数可以被忽略。因此，在CLIP空间的良好训练区域中，我们期望T和I流形上的方向对应于相同的语义。“StraightTIC改变为大致共线（即，具有大余弦相似性），并且在归一化之后几乎相同。图5.使用单个映射器控制多个属性每个映射器的驱动文本在每列下方指示在StyleGAN的样式空间中，将文本提示转换为单一的全局方向给定一对图像G（s）和G（s+αs），我们分别用i和i+ αi表示它们的嵌入因此，CLIP空间中的两个图像之间的差由Δi给出。给定编码为∆t的自然语言指令，并假设∆t和∆i之间共线性，我们可以通过评估S中每个通道与方向∆i的相关性来确定操纵方向∆s。2090联系我们不联系我们−∈ S±SW从自然语言到∆t为了减少文本嵌入噪声，Radfordetal.[42] 利用一种称为提示工程的技术例如，对于ImageNet zero-shot分类，使用80个不同句子模板的库，诸如在推理时，目标类被自动地替换到这些模板中以构建具有相似语义的句子库，然后对其嵌入进行平均。该过程将零炮分类精度提高了额外的3。5%以上，使用单一的文本提示。类似地，我们还采用提示工程（使用相同的ImageNet提示库）来计算中的稳定方向。具体来说，我们的方法应该提供目标属性的文本描述和相应的中性类。例如，当操纵汽车的图像时，目标属性可以被指定为“跑车”，在这种情况下，对应的中性类可以是“汽车”。然后应用提示工程来产生目标和中性类的平均嵌入，并且两个嵌入之间的归一化差被用作目标方向Δt。接下来，我们的目标是构建一个风格空间操作方向∆s，该方向将产生一个α=−6α=−2原始值α= 2α= 6图6.针对不同的操作强度和解缠结阈值，由提示“灰毛”驱动的图像操作。沿着∆s方向移动，导致头发颜色变得更灰色，而在∆ s方向上的步骤产生更深的头发。随着强度α的增加，这种效应变得更强。当解缠结阈值β高时，仅头发颜色受到影响，并且当β降低时，诸如皱纹和面部形状的附加相关属性也受到影响。优选地，如图6所示。据我们所知，以这种方式控制解缠程度的能力是我们的方法所独有的。总之，给定CLIP空间中的目标方向Δi，我们设置. ∆i c·∆iif |∆i c·∆i|≥ β改变∆i，与目标方向∆t共线。为此，我们需要评估每个渠道的相关性∆s=0否则（7）c到CLIP的联合嵌入空间中的给定方向∆i。我们生成一个样式代码集合s，并通过添加一个负值和一个正值来只扰动每个样式代码的c通道。用Δi c表示所得到的图像对之间的CLIP空间方向，通道c与目标操纵的相关性被估计为Δi c到Δi上的平均投影：R c（∆i）=Es∈S{∆i c·∆i}（6）在实践中，我们使用100个图像对来估计均值。我们生成的图像对由G（s α∆sc）给出，其中∆sc是零向量，除了其c坐标，其被设置为通道的标准偏差。扰动的幅度被设置为α= 5。在估计了每个通道的相关性Rc之后，我们忽略Rc低于阈值β的通道。该参数可用于控制操纵中的解缠结程度：使用更高的阈值导致更多的解纠缠操纵，但同时操纵的视觉效果降低。由于诸如年龄的各种高级属性涉及若干较低级属性（例如，白发、皱纹和肤色）的组合，因此多个通道是相关的，并且在这种情况下，降低阈值可以是不必要的。图7和图8示出了沿着文本驱动如上所述在面部、汽车和狗的图像上确定的操纵方向。图7中的操作使用在FFHQ上预训练的StyleGAN2执行[24]。输入是真实图像，使用e4e编码器嵌入+空间[54]。该图演示了18个属性的文本驱动操作，包括复杂的概念，如面部表情和发型。图8中的操作使用在LSUN汽车上预训练的StyleGAN 2 [61]（在真实图像上）和在AFHQ狗上预训练的StyleGAN 2-ada [23]生成的图像上[8]。7. 比较和评价现在我们来比较前面几节中介绍和分析的三种方法，以及我们操纵的所有真实图像都使用e4e编码器进行反转[54]。文本驱动的图像操作方法：我们首先在图9中比较几种文本驱动的面部图像操作方法。我们比较了我们的潜在映射方法（第5节），我们的全局方向方法（第6节）和TediGAN [59]。对于TediGAN，我们使用作者β = 0。11β = 0。14β = 0。162091WW输入淡褐色化妆卷发直发鲍勃削减高顶褪色流苏头发输入皱纹悲伤愤怒惊讶胡子秃头白发黑发图7.沿着全球文本驱动的操作方向进行各种编辑，在名人肖像上展示。使用在FFHQ上预训练的StyleGAN2进行编辑[24]。输入是真实图像，使用e4e编码器嵌入+空间[54]。文本提示中使用的目标属性在每一列的上方指示。输入吉普运动从六十年代经典输入快乐的大眼睛金毛斗牛犬图8.沿全局文本驱动操作方向进行的各种编辑左：使用StyleGAN2在LSUN汽车上预训练[61]。右：使用StyleGAN 2-ada [23]在AFHQ狗上预训练[8]。文本提示中使用的目标属性在每一列的上方指示与他们的论文中提出的方法有些不同。我们不包括第4节中提出的优化方法的结果，因为其对超参数的敏感性使其耗时，因此不可扩展。我们使用三种属性进行比较，从复杂的，但具体的（例如，复杂的虽然全局潜在方向能够捕获主要视觉属性，但这些属性不是特朗普特有的，它无法捕获特定的身份。相比之下，潜在映射器更成功。The“鹰发型”是一个不太复杂的属性，因为它只涉及头发，而且它不是那么具体。因此，我们的方法都能够产生令人满意的操作。由于CLIP空间中的方向是平均方向，因此由全局方向生成的操纵稍微不那么明显。最后，对于“没有褶皱”提示，全局方向成功地去除了褶皱，同时保持其他属性大部分不受影响，而map- per失败。我们把这归因于+不太被解开。我们在另一组属性（“奥巴马”、“愤怒”、“胡子”）上观察到类似的行为。我们的结论是，对于复杂和特定的属性（特别是那些涉及身份），映射器能够产生更好的操纵。对于更简单和/或更常见的属性，全局2092输入TediGAN全局映射器输入TediGAN全局映射器输入TediGAN全局映射器特朗普莫霍克没有皱纹图9. 我们比较了三种方法，利用StyleGAN和CLIP使用三种不同的属性。方向就足够了，同时提供更清晰的操纵。我们注意到，TediGAN产生的结果在图9所示的所有三个操作中都失败了。其他StyleGAN操作方法：在图10中，我们展示了我们的全局方向方法和几种最先进的StyleGAN图像操作方法之间的比较：[19] GANSpace，InterFaceGAN [49]和StyleSpace [58]。该比较仅检查所有比较的方法都能够操纵的属性（性别、白发和口红），并且因此它不包括由我们的方法实现的许多新颖操纵。因为所有这些都是公共属性，所以我们在这个比较中不包括我们的映射器。继Wuet al. [58]中，选择操作步长强度，使得其引起对应分类器（在CelebA上预训练）的 logit值的相同量的变化可以看出，在GANSpace [19]中，操纵与肤色和照明纠缠在一起，而在InterFace-GAN [49]中，身份可能会发生显著变化（当操纵口红时）。我们的操作与StyleSpace [58]非常相似，它只改变目标属性，而所有其他属性保持不变。在补充材料中，我们还显示了与StyleFLow [ 1 ]的比较，StyleFLow [1]是一种最先进的非线性方法。我们的方法产生类似的质量的结果，尽管事实上，StyleFlow同时使用几个属性分类器和回归（从微软的脸API），因此可以操纵一组有限的属性。相比之下，我们的方法不需要额外的监督。局限性。我们的方法依赖于预训练的Style- GAN生成器和CLIP模型来进行联合语言视觉嵌入。因此，不能期望将图像操纵到它们位于预训练的生成器的域之外的点（或者保持在域内，但是在生成器不太好覆盖的区域中类似地，不能期望映射到未被图像很好地填充的CLIP空间的区域中的文本提示产生忠实地反映提示的语义的视觉操纵。我们还观察到，剧烈的操纵-原创GANSpace InterFaceGAN StyleSpace我们的图10.与根据预训练的属性分类器使用相同量的操作的最新方法的比较。视觉上多样化的数据集中的选择是难以实现的。例如，虽然老虎很容易转化为狮子（见图1），但我们在将老虎转化为狼时却不太成功，如补充材料所示。8. 结论我们介绍了三种新颖的图像处理方法，它们结合了StyleGAN强大的生成能力和CLIP非凡的视觉概念编码能力。我们已经表明，这些技术使各种各样的独特的图像操作，其中一些是不可能实现的现有方法，依赖于注释数据。我们还表明，CLIP提供细粒度的编辑控件，如指定所需的发型，而我们的方法是能够控制的manipulation强度和程度的解开。总之，我们相信文本驱动的操作是一个强大的图像编辑工具，其能力和重要性只会继续增长。致谢我们感谢匿名评论者的评论。这项工作得到了Adobe和以色列科学基金会（grant no. 2492/20）。口红白发性别2093引用[1] Rameen Abdal 、 Peihao Zhu 、 Niloy Mitra 和 PeterWonka 。 StyleFlow ：使用条件连续归一化流对StyleGAN 生成的图像进行属性条件探索。 CoRR，abs/2008.02401，2020。[2] Yuval Alaluf，Or Patashnik，and Daniel Cohen-Or.只是风格问题：使用基于样式的回归模型的年龄转换。CoRR，abs/2102.02754，2021。[3] Yuval Alaluf ， Or Patashnik ， and Daniel Cohen-Or.Restyle ： A residual based stylegan encoder via iterativerefinement，2021.[4] David Bau 、Alex Andonian 、 Audrey Cui、YeonHwanPark、Ali Jahanian、Aude Oliva和Antonio Torralba。用词作画CoRR，abs/2103.10951，2021。[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练arXiv预印本arXiv：1809.11096，2018。[6] T. 布朗湾放大图片创作者： John W.[11] 作者： J.Kaplan，Prafulla Dhariwal，Arvind Neelakantan，PranavShyam ， Girish Sastry ， Amanda Askell ， SandhiniAgarwal，ArielHerbert-V oss，G. Kr üger，T. 亨尼根河Child ，Aditya Ramesh ，D. 放大图片创作者：JeffreyWu，Clemens Winter，Christopher Hesse，Mark Chen，E.放大图片创作者：John W.放大图片创作者：John W.Radford，Ilya Sutskever，and Dario Amodei.语言模型是很少机会的学习者。arXiv，abs/2005.14165，2020。[7] 陈艳春，李林杰，于立成，A. E.放大图片作者：Kholy ， Faisal Ahmed ， Zhe Gan ， Y. Cheng ， andJingjing Liu. Uniter：Uni- versal image-text representationlearning.在ECCV，2020年。[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.StarGAN v2 ：多领域的多样化图像合成在 Proc.CVPR，第8188-8197页[9] EdoCollins，RajaBala，BobPrice和SabineSu¨ sstrunk。编辑风格：揭示GANs的本地语义。arXiv预印本arXiv：2004.14367，2020。[10] 凯瑟琳克劳森VQGAN-CLIP。https：//github.com/nerdyrodent/VQGAN-CLIP，2021.[11] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在 Proc.CVPR，第4690-4699页[12] Karan Desai和J.约翰逊VirTex：从文本注释中学习视觉表示。ArXiv，abs/2006.06666，2020。[13] J. Devlin，Ming-Wei Chang，Kenton Lee，and KristinaToutanova. BERT：用于语言理解的深度双向变换器的预训练。在NAACL-HLT，2019年。[14] H. Dong，Simiao Yu，Chao Wu，and Y.小郭。通过对抗学习进行语义Proc. ICCV，第5707[15] Patr i ckEsse r，RobinRombach，andB joürnOmme r. 用于高分辨率图像合成的T am-ing变压器。在Proc. CVPR，第12873-12883页[16] 费德里科马里奥？加拉托洛Cimino和Gigliola Vaglini。通过CLIP引导的生成潜在空间搜索从字幕生成图像，反之亦然。arXiv预印本arXiv：2102.01645，2021。2094[17] 加布里埃尔·吴、尼克·卡马拉塔、切尔西·沃斯、单·卡特、迈克尔·彼得罗夫、路德维希·舒伯特、亚历克·雷德福和克里斯·奥拉。人工神经网络中的多模态神经元。 Dis- till ， https ： //distill.pub/2021/multimodal-neurons/，2021.[18] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[19] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.GANSpace ：发现可解释的 GAN 控件。arXiv预印本arXiv：2004.02546，2020。[20] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在Proc. ECCV，2016中。[21] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GAN的逐步增长，以提高质量，稳定性和变化。arXiv：1710.10196，2017.[22] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式在Proc. NeurIPS，2020中。[23] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成对抗网络。arXiv预印本arXiv：2006.06676，2020。[24] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在Proc. CVPR，第4401-4410页[25] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量在proc CVPR，第8110- 8119页，2020年。[26] J. Y.放大图片创作者：H. Lee和Yinfei Yang。基于细粒度用户注意力的文本到图像生成 arXiv ，abs/2011.03775，2020。[27] Kathleen M Lewis 、 Srivatsan Varadharajan 和 IraKemelmacher-Shlizerman。VOGUE：通过StyleGAN插值优化进行试穿。arXiv：2101.02285，2021。[28] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.ManiGAN：文本引导图像操作。在Proc. CVPR，第7880-7889页[29] Gen Li、N. Duan，Yuejian Fang，Daxin Jiang，and M.舟Unicode-VL：通过跨模态预训练的视觉和语言通用编码器。在Proc.AAAI，2020中。[30] 刘念，李晓，马可，大印， C. 谢和张凯威VisualBERT：视觉和语言的简单而高性能的CoRR，abs/1908.03557，2019。[31] Wenbo Li ， Pengchuan Zhang ， Lei Zhang ， QuiyuanHuang，X.他，Siwei Lyu和Jianfeng Gao。通过对抗训练实现对象驱动的文本到图像合成。Proc. CVPR，第12166-12174页[32] Xiujun Li，Xi Yin，C. Li，X.胡鹏川，张磊，王龙光， H. Hu ， Li Dong ， Furu Wei ， Yejin Choi ， andJianfeng Gao.Oscar：面向视觉语言任务的对象语义对齐预训练。在ECCV，2020年。[33] 刘亚辉，Marco De Nadai，Deng Cai，Huayang Li ，Xavier Alameda-Pineda，N. Sebe和Bruno Lepri。描述2095改变什么：文本引导的无监督图像到图像翻译方法。2020年第28届ACM国际多媒体会议[34] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang. Deep learning face attributes in the wild，2015年。[35] 卢佳森、Dhruv Batra、D.帕里克和斯特凡·李Vilbert：视觉和语言任务的预训练任务不可知的视觉语言表示。NeurIPS，2019。[36] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv：1411.1784，2014。[37] 瑞安默多克和菲尔王.大睡https：//github.com/lucidrains/big-sleep，2021.[38] 瑞安默多克和菲尔王.深度眩晕。https：//github.com/lucidrains/deep-daze，2021.[39] Seonghye

下载后可阅读完整内容，剩余1页未读，立即下载