统一编辑空间的开放域图像颜色编辑

161 浏览量更新于2023-10-25 收藏 21.22MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Jing Shi1Ning Xu2Haitian Zheng1Alex Smith2Jiebo Luo1Chenliang Xu1(a)(b)(c)(d)(e)e6_proxy_before-0.38_060c42bc-fb20-4b45-a0b0-dd677c01bdb5_proxy_beforehttps://jshi31.github.io/SpaceEdit197300SpaceEdit：学习开放域图像颜色编辑的统一编辑空间01 罗切斯特大学 2 Adobe研究0“阴沉”0“日落”0“极光”0输入0“白色叶子”0“蓝色叶子”0“黄色叶子”0多模态图像编辑示例对转移0检索到的输入对0聚类：暗角0图1。我们提出了一种新的图像编辑范式，使用统一模型来处理各种开放域图像编辑任务：(a)多模态图像编辑，(b)语言引导图像编辑，(c)基于示例的图像编辑，(d)编辑风格检索，(e)编辑风格聚类。图(c)-(e)以半编辑前半编辑后的形式进行可视化。0摘要0最近，大规模预训练模型（例如BERT、StyleGAN、CLIP）在其领域内的各种下游任务中展示了很强的知识迁移和泛化能力。受到这些工作的启发，本文提出了一个统一的模型，用于开放域图像编辑，重点是调整开放域图像的颜色和色调，同时保持其原始内容和结构。我们的模型学习了一个更语义化、直观和易于操作的统一编辑空间，而不是许多现有照片编辑软件中使用的操作空间（例如对比度、亮度、颜色曲线）。我们的模型属于图像到图像的转换框架，包括图像编码器和解码器，并且通过对编辑前后的图像对进行训练以生成多模态输出。我们展示了通过将图像对反转为“学习到的编辑空间”的潜在代码，我们的模型可以用于各种下游编辑任务，如语言引导的图像编辑、个性化编辑、编辑风格聚类、检索等。我们在实验中广泛研究了编辑空间的独特属性，并展示了在上述任务上的优越性能1。0图像编辑在各种场景中已经显示出广泛的应用，包括图像修饰[12, 40]、风格转换[48, 49]、语言引导的图像编辑[18,23, 26,39]、图像协调[11]、上色[51]等。然而，当前的研究景观独立地研究了这些任务，使用了小而多样的数据集，强调了每个任务所需的图像编辑的共性。01. 引言0https://jshi31.github.io/SpaceEdit01 代码和补充材料可以在项目页面找到2https://lightroom.adobe.com/learn/discover197310任务。因此，对于一个特定任务的定制方法很难扩展到其他相关任务，并且在特定数据集上训练的定制模型很难推广到域外样本。最近，针对视觉[5, 8]和视觉+语言[27,34]的通用预训练架构将相关任务的不同模型结构统一为共同的模型。这些统一的模型首先在一些预训练数据集上进行训练，然后在特定数据集上进行微调，或者直接以零样本的方式应用于不同的下游任务。许多研究已经证明了预训练模型的泛化和知识迁移能力对其成功至关重要。这里有一个自然的问题，我们是否可以利用统一的预训练任务或网络架构来应用于图像编辑的范围？一个相关的工作是StyleGAN[19]，它被训练用于生成面部、猫和汽车等封闭域类别的逼真图像。此后，一系列的操作工作[6, 35, 36, 42, 45,46]通过将给定图像反转到其潜在空间，然后操作潜在代码生成新图像，同时保持生成器不变。尽管StyleGAN在封闭域图像编辑方面取得了成功，但尚未证明其能够生成包含各种对象和复杂场景的开放域用户照片，因此其泛化能力和应用场景受到了影响。在本文中，我们对开放域图像编辑问题的一个特定领域感兴趣，即在保持原始内容、结构和纹理的同时，对给定照片应用一些艺术风格以实现不同的外观。虽然不能涵盖所有的编辑场景，但我们的问题的应用已经对许多照片编辑软件和摄影师非常有用和广泛。事实上，许多商业照片编辑软件如AdobeLightroom提供了一些预定义的全局和局部编辑操作（例如对比度、亮度、颜色曲线）来解决这个问题。然而，它们的编辑界面对于许多用户，特别是初学者来说并不直观或方便，我们希望通过我们新提出的编辑框架来缓解这个问题。为了实现我们的目标，我们提出了一个对许多编辑下游任务有用的预训练任务。预训练任务旨在将给定的未编辑图像转换为由一些随机噪声向量控制的艺术编辑风格的编辑后图像。为了学习预训练任务，我们首先从LightroomDiscover网站收集了一个新的大规模数据集，其中包含60k对编辑前后的照片。然后，我们提出了一个新的编码器-解码器网络结构，将StyleGAN作为解码器附加到图像编码器上。StyleGAN的调制模块和映射网络是继承的，因此采样不同的潜在代码可以生成多模态输出。0在训练生成器之后，我们进一步分析了新的潜在空间W的属性，其含义与StyleGAN的W空间完全不同。具体而言，StyleGAN的W空间包含了生成图像的完整内容信息，而我们的W空间仅捕捉了各种编辑风格，这些风格与图像内容无关。因此，我们使用最近的方法SeFa[37]来分析潜在语义方向，并使用一些GAN反演方法[20]从一对前后图像中反演潜在代码。我们发现我们的W空间具有与原始StyleGAN相似的可控性和语义解缠性，并且我们的W空间强调编辑风格的语义。我们还验证了我们反演的潜在代码对于生成和识别（例如聚类、检索）任务的有用性。鉴于我们的编辑空间W的独特属性，我们将我们预训练的生成器应用于几个开放领域的图像编辑任务。首先，我们探索了语言引导图像编辑（LGIE）[18,39]的任务，该任务旨在编辑图像以匹配给定的编辑请求。现有方法必须在有限的数据集上使用复杂的像素级损失来训练其完整模型，因此面临着过拟合问题，因为语言和图像空间庞大。相比之下，我们提出了一个简单的编码器，将输入图像和文本特征映射到512维的编辑空间，然后借助我们预训练的生成器生成输出图像。实验结果验证了我们预训练模型在这个下游任务中的优势。其次，受最近的styleCLIP[32]的启发，我们进一步将我们的生成器与CLIP[34]结合起来进行零样式自由形式的LGIE。我们的方法不仅能够生成语义编辑风格，如“日落”，“阴郁”，还能够将对象的颜色更改为不同的颜色，如图1所示。最后但并非最不重要的是，由于W空间中每个前后图像对的潜在代码对应于某种编辑风格，我们可以将一个图像对的编辑风格转移到其他图像上，实现个性化编辑。此外，我们可以在用户编辑示例的大型数据库上检索类似的编辑风格，以进行个人风格推荐。总之，我们的贡献有三个方面。首先，我们提出了一个新的预训练任务和网络架构，有利于开放领域图像颜色和色调编辑的各种相关任务。其次，我们证明了预训练模型的W空间对应于各种编辑风格。这样的嵌入对于生成和识别任务都是有用的。最后，我们在各种下游任务中展示了我们预训练模型的更好性能，包括多模态图像编辑和语言引导图像编辑基准。02. 相关工作0利用GAN潜在空间进行图像编辑。已经提出了许多方法来发现语义!#197320GAN的潜在空间用于监督方式[10, 24, 36]、自监督方式[17,33]和无监督方式[6, 37, 42, 43,45]进行图像编辑。然而，所有上述方法都专注于无条件GAN，而我们的方法依赖于条件GAN。虽然遍历无条件GAN的潜在空间可以实现在封闭域图像（如人脸）中的图像编辑，但其无法生成真实世界的图像（例如多个对象和复杂场景），限制了它们的泛化和应用。此外，由于它们的隐藏空间需要保留生成输出的所有信息，因此对于照片的保真度[1,35]来说，开放域图像的反演[55]通常是有所妥协的。相比之下，我们提出的模型的编辑空间没有这样的限制。此外，由于编辑空间中每个反演的潜在代码对应于某种编辑风格，我们可以直接对它们进行聚类，以找到代表性的语义，这是以前的方法没有研究的。0多模态图像编辑。我们的预训练是一个多模态图像编辑任务，需要在给定输入图像的情况下，通过一些随机向量来控制多样化的输出。一些工作通过使用从生成的图像到输入噪声的逆映射[56]、图像内容和风格的解耦[15,22]，或者通过显式地使用基于距离的损失项[25,28]来实现多模态多样性。然而，多样性的实现会降低图像质量。受最近的多模态图像修复调制方法[54]的启发，我们提出了一个类似的网络架构，专门用于开放域图像编辑。不同之处在于我们的调制层不使用输入图像的特征，这导致了更好的保真度和多样性。0语言引导的图像编辑。语言是一种灵活且用户友好的控制图像编辑的方式。[4, 9, 18, 38,39]收集成对的数据（即输入图像、语言请求、目标图像）进行监督训练。然而，语言注释是昂贵的，有限的数据规模会限制它们的泛化能力。其他工作[7, 23, 29, 30,50]只使用图像标题对进行训练，但限制于特定领域的图像，如鸟类和花卉。最近，一些尝试通过使用最先进的图像-文本匹配模型CLIP [34]通过修改预训练的StyleGAN[19]的潜在空间来实现零样本开放词汇的图像编辑[2, 32,46]。因此，StyleGAN预训练的数据域将限制编辑的域。虽然[26]通过重构训练生成器，因此可以适用于任何开放图像域，但生成质量无法保证。相比之下，我们方法的编辑质量由我们学习到的独特编辑空间的特性保证。我们针对监督和零样本语言引导的图像编辑提出了不同的方法。它们每个都比其他方法都取得了更好的编辑结果。0编辑空间0噪声04x4特征0映射0输入图像输出图像0编码器解码器（StyleGAN）0图2. 预训练任务中我们生成器的结构。蓝色箭头表示跳跃连接。03. 作为预训练的多模态图像编辑0对于预训练任务，我们的目标是学习一个能够控制各种编辑风格的图像条件生成器，其潜在空间应该是语义的、解耦的，并且完整，以便于各种下游编辑任务的使用。我们选择多模态图像编辑作为预训练任务，因为它鼓励产生具有不同编辑风格的多样化输出。我们提出了一个图像到图像的翻译框架，它由一个图像编码器和一个图像解码器组成，其中包含一些随机噪声 z ∈ Z作为额外的输入来控制不同的编辑风格。由于StyleGAN2[1]在生成任务中展现了其潜在空间的良好解耦性，我们采用其架构作为我们的解码器，其中噪声输入 z首先被映射到一个中间潜在代码 w ∈W，然后进一步用于调制不同层的卷积核，如图2所示。图像编码器的作用是将输入图像编码为不同层次的特征，最低的4x4特征图被用来替换StyleGAN2的原始常量输入。除了直接将编码器和解码器对接，我们还通过跳跃连接将它们在编码器到解码器的不同分辨率的特征图上拼接在一起，以保留细节。详细结构请参考附录A。更正式地说，设源（之前）图像为 I in，目标（之后）图像为 I tgt，生成器为G，判别器为 D，输出图像为 I out = G(I in, w)，其中 w =Mapping(z)。我们的生成器使用常规的条件判别器损失 Ladv 进行训练。0L adv = − E I in，I tgt [log(D(I in，I tgt))]0− E I in，I out [log(1 − D(I in，I out))]。（1）0请注意，我们避免了直接像素监督，如L1损失[16]，以鼓励生成多样性，如[54]所建议。我们训练的生成器的一些定性输出结果在图3中可视化。我们的生成器不仅能够生成多样化的输出211182049xy.jpg']39 ['ce7cdf8f-2c11-4ba0-80e8-0f6d022ca63c_proxy.jpg']197330输入！！！"！#！$0图3.由不同z控制的多模态图像编辑结果，每个z都描绘了一种独特的编辑风格。0输入0目标反转0图4.条件GAN反转的可视化。0给定单个图像上的不同噪声输入，我们的生成器不仅能够产生一致的编辑风格，还能够在不同图像上给定相同噪声输入，表明学习到的编辑空间与图像内容之间的独立性。04.编辑空间分析04.1.编辑空间反转0与StyleGAN类似，我们的生成器的W空间比输入Z空间更具解缰性。因此，我们依赖于W空间作为编辑任务的编辑空间。第一个问题是任何源图像和目标图像对的风格嵌入是否可以反转为编辑空间，这衡量了W空间的完整性和上限编辑能力。为了回答这个问题，我们提出了一个条件GAN反转问题：找到一个w，可以将源图像I in转换为目标图像Itgt。我们改编了一种现有的无条件GAN反转方法[55]来解决这个问题，如公式（2）所示。0w，n = arg min w，n L LPIPS(I tgt，G(I in，w，n)) +0（2）其中w和n分别是解码器不同层的反转潜在编码和随机噪声输入。LLPIPS是LPIPS感知损失[52]，L n是噪声正则化项。0" = 0.5 " = −0.250输入目标" = 1.250图5.从左到右，编辑风格的强度增加。λn是噪声正则化项的平衡权重[20]。我们在图4中展示了一些随机选择的反转结果。显然，我们的编辑空间W可以表示多样的编辑风格，如剧烈的颜色操作、上色和局部编辑，这对于各种下游任务都是有用的。除了定性结果，我们还在表1中展示了训练和测试数据集上的重建误差的定量结果。0反转训练测试0Init 24.88 24.93 w4.43 4.43 w 0 1.861.860表1. Init, w,w0分别测量源图像与目标图像、反转图像与目标图像、源图像与重建源图像之间的平均像素绝0通过反转的w，我们的生成器几乎可以完美地重建目标图像，仅有可忽略的4个像素误差，表明我们学习到的编辑空间的完整性。04.2. 插值0条件GAN反转的一个特殊情况是找到一个潜在编码w0，可以重建源图像本身。这样的潜在编码在编辑方面具有一定的语义意义，因为它代表了源图像的不变状态。我们可以通过在公式（2）中将I tgt项替换为Iin来找到其嵌入。在测试数据集上的重建误差小于2个像素差异，如表1所示。借助w0的帮助，我们可以使用它们的线性插值来控制任意编辑风格w的强度，即w' = (1 - α)w0 +αw，其中α是控制编辑强度的因子。图5中展示了一些示例。04.3. 其他属性0我们进一步展示了 W空间的编辑能力和识别能力。对于编辑能力，如图3所示，每个 w都显示出不同图像的一致风格，使得可以将从一个图像对中反转的 w转移到其他图像以实现类似的编辑风格，表明其具有转移性属性，如图12所示，详见第6.3.2节。对于识别能力，我们证明了表示相似编辑风格的潜在代码ℒ!(&!"#, &#$#)!&$%(&'(&&&)&arg minw − ⟨fv(G(I, w)), ft(r)⟩−λ ⟨fv(G(I, w)), fv(I)⟩ ,(3)3589197340“黑暗的日落”0连接0图像编码器0编码器MLP0图6.有监督LGIE的结构。只有灰色阴影模块被训练，而生成器被冻结。在 W空间中，通过研究检索和聚类性能，分布紧密，显示潜在代码具有用于识别编辑风格的内在能力。05. 语言引导的图像编辑0为了展示我们预训练网络在下游任务上的优势，我们首先通过利用我们的预训练模型展示了语言引导的图像编辑（LGIE）。其他下游任务在第6.3节中进行了说明。给定一张图像 I和一个语言编辑请求 r，LGIE旨在生成一个遵循编辑请求的新图像。语言是一种方便的方式，可以将用户的编辑意图纳入其中，这比现有的基于操作的编辑界面更直观和方便。给定我们的预训练生成器，我们通过找到文本输入和我们的低维编辑空间之间的映射来解决LGIE任务，这是与之前的工作[2, 4, 7, 9, 18, 23, 26,29, 30, 38, 39,50]相比的不同框架。接下来，我们将介绍我们针对有监督LGIE和零样本LGIE的方法。有监督LGIE。有监督LGIE直接从由输入图像、目标图像和语言请求组成的数据三元组中学习从语言到 W空间的映射。模型的结构如图6所示，图像和文本特征通过串联进行合并，然后通过多层感知器（MLP）预测一个潜在代码 w 。给定 w，生成器作为渲染器生成具有指定风格的输出图像。训练由输出图像和目标图像之间的L1损失驱动，写作 L1 ( I out , Itgt ) 。生成器 G被冻结，而其他参数被训练。我们的新型学习框架可能对其他具有配对监督的图像编辑任务有潜在的用途，例如有监督的图像协调，这将留待未来研究。零样本LGIE。受到StyleCLIP[32]的启发，我们提出使用预训练的图像-文本CLIP模型[34]通过优化直接找到给定编辑请求 r 的潜在代码 w。具体来说，给定CLIP视觉编码器 f v 和文本编码器 f t，通过优化来优化潜在代码 w 。0输入0地面0真实值0BicycleGANDivCo我们的BicycleGANDivCo我们的0输入0地面0真实值0图7. 与其他方法相比的多模态图像编辑性能0其中 �∙ , ∙� 表示余弦相似度，λ是一个平衡权重。它的第一项强制生成的图像与请求之间的CLIP相似性。第二项驱使生成的图像与原始图像的相似性。由于CLIP模型在数十亿个图像-文本对上进行了训练，因此对于开放词汇的请求，这种方法是通用的。此外，为了实现精确的局部编辑，我们的方法可以接受额外的二进制掩码 M作为输入，以指示编辑的前景和背景。给定一个编辑请求，我们可以简单地将公式（3）中的项 G ( I, w ) 替换为 M ⊙G ( I, w ) + (1 − M ) ⊙ I ，其中 ⊙ 是哈达玛积。06. 实验0我们在本节中评估了预训练任务、W属性和下游任务。由于篇幅限制，我们将实现细节放在附录B中。06.1. 多模态图像编辑0数据集。我们使用从Adobe Discover网站收集的AdobeDiscover数据集，其中Lightroom用户上传了他们编辑过的图像以及编辑操作。这个配对的数据集包含了各种编辑风格的开放域图像，重点是对颜色和色调进行修饰，而不改变图像内容、几何形状或纹理。由于活跃用户众多，我们总共收集了62416对图像的前后配对，其中49932/6242/6242用于训练/验证/测试。评估指标。Fr´echet InceptionDistance（FID）[ 14]用于衡量生成图像集与真实图像集之间的质量和多样性。FIDLPIPS197350BiCycleGAN [ 56 ] 12.2837 0.0857DivCo [ 25 ] 9.9586 0.1705 我们的方法5.1755 0.19450我们的方法（浅层） 6.0958 0.1581我们的方法（共模态） [ 54 ] 5.6355 0.14790表2. Discover数据集上多模态图像编辑的定量结果。0通过从Inception网络[ 41]计算的特征来比较生成图像集与真实图像集的质量和多样性。LPIPS [ 53]通过计算图像对的平均特征距离来衡量图像集的多样性，遵循[ 55]的方法。我们为一个输入生成10个随机输出来计算LPIPS。比较方法。BiCycleGAN [ 56]学习从输出图像到输入噪声的映射，以鼓励多样性。DivCo[ 25]遵循BiCycleGAN的结构，但添加了对比损失以鼓励更好的多样性。结果分析。根据FID，我们的算法明显优于BiCycleGAN和DivCo，主要是由于StyleGAN-like结构的好处。正如[ 54 ]所示，基于调制的条件生成器在没有[ 25 , 56]中使用的显式多样性约束的情况下，对输入噪声具有内在的随机性。图7中的定性比较显示，我们的模型可以创建更多样化的编辑风格，而BiCycleGAN和DivCo只能生成具有不同程度的单一编辑风格的图像。此外，我们在图3中对不同图像采样相同的z，显示相同的z（w）对所有图像具有全局一致性。网络结构的消融研究。首先，由于第6.2节的研究表明，我们的编辑空间对解码器的高分辨率层起到了最大的影响，我们删除了编码器和解码器的更深层，并只保留对w敏感的层，以减小模型大小。我们将这样的设置称为我们的方法（浅层），其在表2中的性能比标准设置差。因此，这证明了网络的深度对于编辑性能仍然至关重要。此外，我们的标准网络仅由噪声输入调制，而它也可以通过从输入图像提取的特征进行共调制，类似于[ 54]的结构。因此，我们将这种设置与我们的方法（共模态）进行比较。然而，共调制的性能下降。一个可能的原因是图像调制特征带来了一些受输入约束的信息，这会损害编辑质量和随机性。06.2. 潜在空间分析0我们通过以下实验分析了编辑空间W的语义。语义解缠。鉴于[ 6 , 37 ,0暗0明亮柔和0锐利0寒冷0温暖0图8.使用SeFa进行无监督潜在方向发现的可视化。中间列是输入图像，每一行是在w0上通过一个SeFa主方向的遍历。0复古0蓝色复古黑白清晰0图9.使用w对数据集进行聚类。对于每个图像，左半部分是之前的图像，右半部分是之后的图像。042, 43,45]解决无监督的GAN潜在语义发现，我们采用了简化版的语义分解（SeFa）[37]。图8中展示了一些发现的主要语义方向，显示出编辑空间W可以被分解。w的逐层效果。与StyleGAN类似，我们的w适用于解码器的不同层。因此，我们使用SeFa进一步分析其逐层语义。我们发现，编辑仅由高分辨率层上的w引起，而低分辨率层上w的效果不明显。具体来说，对于256 x256分辨率输入，w对解码器的前14层中的前6层最有效。这是合理的，因为我们的模型专注于颜色操作，通常通过StyleGAN的顶层控制[47]。然而，我们无法在顶层之间明显区分语义差异，如附录C所示，这可能是因为颜色调整已经位于一个细粒度的子空间中。检索能力。接下来，我们评估编辑空间W中不同编辑风格的分布。我们使用余弦距离在数据库中进行k最近邻（KNN）搜索，使用倒排w。给定一对之前和之后的图像作为查询，检索到的KNN图像对具有相似的编辑风格，如图1所示（更多详细信息请参见附录D.1）。检索结果说明，W空间中的相似性衡量了编辑风格的相似性。聚类能力。受检索结果的启发，它揭示了另一种潜在语义发现的简单方法-在W空间中进行聚类，并将每个聚类中心视为一个编辑风格。我们使用余弦距离的K均值算法进行聚类。为了评估聚类性能，理想情况下，我们需要为每个编辑对注释样式类别。然而，由于数据集中的编辑风格多样且组合，预定义的样式标签列表可能是短视的。因此，我们改为注释一个描述编辑的完整句子，允许包含新样式。然后，我们创建一个包括常见样式和标记句子中提到的新样式的样式标签列表。接下来，我们通过纯度评估聚类性能，纯度是衡量聚类是否包含单一类别的程度的指标。由于标准纯度仅考虑具有单一类别标签的数据样本，而我们的样本（图像对）具有多个样式标签。因此，我们在附录H中自定义了纯度的计算方法。为了比较，由于Adobediscover数据集还包含地面真实的Lr操作参数，我们将我们的编辑空间与Lr操作空间进行比较。表3中的结果表明，我们的编辑空间比Lr操作空间具有更好的语义表示风格的能力。此外，我们比较了默认的余弦距离和欧氏距离，并发现余弦距离更好。图9显示了一些聚类的代表性标签。由于空间限制，标签列表和注释过程的详细信息在附录G和F中。197360Lr操作 W（我们的方法） W（欧氏距离）0纯度↑4.25 12.76 11.300表3.Discover数据集上的定量聚类结果。Euc表示使用欧氏距离进行聚类。0L1↓ SSIM↑ FID↓ σ×102↑0输入0.1190 0.7992 12.3714 - T2ONet [39] 0.07840.8459 6.7571 0.7190 EDNet [18] - - 9.9500 -我们的方法0.0731 0.8721 5.9791 0.68090我们的方法无可视化0.0795 0.8596 6.9757 0.62810表4.MA5k-Req测试集上的定量结果。σ×102表示图像方差乘以100倍。0使用余弦距离倒排w。给定一对之前和之后的图像作为查询，检索到的KNN图像对具有相似的编辑风格，如图1所示（更多详细信息请参见附录D.1）。检索结果说明，W空间中的相似性衡量了编辑风格的相似性。聚类能力。受检索结果的启发，它揭示了另一种潜在语义发现的简单方法-在W空间中进行聚类，并将每个聚类中心视为一个编辑风格。我们使用余弦距离的K均值算法进行聚类。为了评估聚类性能，理想情况下，我们需要为每个编辑对注释样式类别。然而，由于数据集中的编辑风格多样且组合，预定义的样式标签列表可能是短视的。因此，我们改为注释一个描述编辑的完整句子，允许包含新样式。然后，我们创建一个包括常见样式和标记句子中提到的新样式的样式标签列表。接下来，我们通过纯度评估聚类性能，纯度是衡量聚类是否包含单一类别的程度的指标。由于标准纯度仅考虑具有单一类别标签的数据样本，而我们的样本（图像对）具有多个样式标签。因此，我们在附录H中自定义了纯度的计算方法。为了比较，由于Adobediscover数据集还包含地面真实的Lr操作参数，我们将我们的编辑空间与Lr操作空间进行比较。表3中的结果表明，我们的编辑空间比Lr操作空间具有更好的语义表示风格的能力。此外，我们比较了默认的余弦距离和欧氏距离，并发现余弦距离更好。图9显示了一些聚类的代表性标签。由于空间限制，标签列表和注释过程的详细信息在附录G和F中。06.3. 下游任务06.3.1 语言引导的图像编辑0实验设置。对于有监督的LGIE，我们遵循[39]在MA5K-Req[39]上的实验设置。0黄色衬衫蓝色衬衫绿色衬衫0电影风格0高对比度0分割色调0梵高的向日葵（三次运行）0图10.由CLIP优化的开放词汇、开放图像、语言引导的图像编辑样本。最后一行显示了带有蒙版输入的局部编辑。0数据集。评估指标为L1、SSIM、FID和图像方差σ。由于空间限制，我们将详细的描述和更多的比较方法放在AppxE.1中。我们展示了两种SOTA比较方法T2ONet[39]和ED-Net[18]，它们都设计用于全局图像编辑，以及输入和输出图像之间的基本评估，表示为输入。对于零样本LGIE，由于它适用于开放域图像和开放词汇的请求，我们将给定示例上的定性性能与另外两种SOTA方法OpenEdit[26]和StyleCLIP[32]进行了比较。OpenEdit对图像和请求都没有限制，而StyleCLIP只能用于封闭域图像。结果分析。对于有监督的LGIE，性能如表5所示，显示我们的方法在编辑质量和可比方差方面达到最佳水平，与T2ONet相当。由于预训练生成器的强大编辑能力，LGIE任务变得更容易，因为模型只需要预测一个512维的潜在代码，而不是整个图像空间。此外，我们研究了仅使用语言输入是否足以预测潜在代码。我们将没有图像输入的设置表示为ours w/oviz，如表5所示，结果不如标准设置，因此表明视觉输入的重要性。对于零样本LGIE，我们首先在图1和10中展示了我们的结果，表明我们的模型可以实现具有高级语义（极光）、编辑术语（分割色调）、颜色处理（绿色衬衫）甚至一些纹理变化（梵高绘画）的编辑。此外，与SOTA的比较如图11所示。StyleCLIP在这些情况下完全失败，因为它不能用于开放域图像。197370OpenEditStyleCLIP我们的输入0复古风格0火星0蓝天，红楼，晴天0红花，绿叶0图11.由CLIP优化的开放词汇、开放图像、语言引导的图像编辑样本，并与其他方法进行比较。0由于其生成器在人脸数据集上进行了预训练，因此OpenEdit会弹出人脸图像的记忆。尽管OpenEdit可以接受开放域图像，但其编辑效果不好，输出图像包含明显的伪影。相比之下，我们的方法可以很好地处理这些情况。尽管不完美，我们的模型有潜力实现灰度图像上色，而其他方法则无法实现。06.3.2 个性化编辑和推荐0给定一个用户编辑的前后图像对作为示例，我们的模型可以实现个性化编辑和编辑风格推荐。对于个性化编辑，我们研究了基于示例的图像编辑（EBIE），即根据用户首选示例的编辑风格编辑输入图像。这个任务可以通过W空间的可转移性属性（第4.3节）自然地解决，无需训练。当存在多个具有一致风格的示例时，我们可以通过对所有示例的潜在代码进行平均来找到一个共同的编辑方向。我们将我们的方法与Lr预设进行比较，Lr预设是一组Lr操作，也可以应用于其他图像以实现类似的编辑效果。比较的可视化结果如图12所示，表明我们的转换结果是合理的，并且在视觉上与Lightroom预设相当。然而，预设方法必须知道示例图像的确切预设参数，而我们的方法不受此约束，因此更通用。此外，与照片逼真的风格转移[49]不同，参考图像的颜色和纹理不会发生变化。0源目标输入0Lr预设0我们的0图12.基于示例的图像编辑的可视化。虚线左边是示例，右边是转换后的编辑。0直接将相对编辑风格转移到源图像，我们的EBIE试图转移相对编辑风格。以图12的第一行为例，我们的方法转移了“变亮”效果而不是绿色到其他图像。编辑风格推荐是为给定的图像对推荐具有相似编辑风格的图像对。如果用户想要看到相同编辑风格的多个照片示例以进行专业学习，这个任务对摄影教育是有益的。这样的任务可以通过W空间中的检索能力来处理，如6.2节所示。可视化结果在附录D.1中显示。07. 结论和讨论0本文介绍了一种新的图像编辑范式：学习一个预训练的I2I生成器，具有可以作为统一接口来连接多个下游任务的编辑空间。我们发现编辑空间在颜色编辑方面具有良好的解缰和完整性，可以用于编辑和识别。下游任务的实验证明了我们预训练模型的优势。局限性。我们的方法依赖于AdobeDiscover数据集，因此不能期望对图像内容（例如几何变化）或纹理进行操作（尽管我们已经展示了一些特定的纹理变化，但它们并不是通用的）。对于LGIE，如果将文本请求映射到图像不太丰富的CLIP空间，就无法保证忠实的图像操作。潜在的负面影响。我们的模型可能被恶意使用来生成伪造的照片以伪造犯罪证据，例如，将白天变成夜晚。因此，我们保留用户的身份和编辑历史以监控滥用。致谢。这项工作得到了国家科学基金会(NSF)在授予号码1909912下的部分支持，并获得了Adobe研究礼物的支持。本文仅反映作者的意见和结论，而不反映资助机构的意见。197380参考文献0[1] Rameen Abdal, Yipeng Qin和Peter Wonka.Image2stylegan++：如何编辑嵌入图像？在CVPR，2020年。 30[2] David Bau, Alex Andonian, Audrey Cui, YeonHwan Park,Ali Jahanian, Aude Oliva和Antonio Torralba. 用文字绘画.arXiv预印本arXiv:2103.10951，2021年。 3，50[3] Vladimir Bychkovsky, Sylvain Paris, Eric Chan和Fr´edo Durand.学习具有输入/输出图像对数据库的全局调整。在CVPR，2011年。 120[4] Jianbo Chen, Yelong Shen, Jianfeng Gao, JingjingLiu和Xiaodong Liu. 基于语言的图像编辑与循环注意模型.在IEEE计算机视觉和模式识别会议论文集中，页码8721-8729，2018年。 3，50[5] Xinlei Chen和Kaiming He.探索简单的孪生表示学习。在CVPR，2021年。 20[6] Edo Collins, Raja Bala, Bob Price和Sabine Susstrunk.风格编辑：揭示GAN的局部语义. 在CVPR，2020年。 2，3，60[7] Hao Dong, Simiao Yu, Chao Wu和Yike Guo.通过对抗学习进行语义图像合成。在ICCV，2017年。 3，5，120[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl-vain Gelly, et al.一张图片等于16x16个单词：用于大规模图像识别的Transformer.arXiv预印本arXiv:2010.11929，2020年。 20[9] Alaaeldin El-Nouby, Shikhar Sharma, Hannes Schulz,Devon Hjelm, Layla El Asri, Samira Ebrahimi Kahou, YoshuaBengio和Graham W Taylor.告诉、绘制和重复：基于持续语言指令生成和修改图像。在ICCV，2019年。 3，5，120[10] Lore Goetschalckx, Alex Andonian, Aude Oliva, andPhillip Isola. Ganalyze: 朝认知图像属性的视觉定义迈进.在ICCV中, 2019年3月0[11] Zonghui Guo, Dongsheng Guo, Haiyong Zheng, ZhaoruiGu, Bing Zheng, and Junyu Dong.基于Transformer的图像和谐化. 在ICCV中, 2021年1月0[12] Jingwen He, Yihao Liu, Yu Qiao, and Chao Dong.用于高效全局图像修饰的条件顺序调制. 在ECCV中, 2020年1月0[13] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别. 在CVPR中, 2016年11月0[14] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡.在NeurIPS中, 2017年5月0[15] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz.多模态无监督图像到图像转换. 在ECCV中, 2018年3月0[16] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros. 条件对抗网络的图像到图像转换. 在CVPR中,2017年3月12日0[17] Ali Jahanian, Lucy Chai, and Phillip Isola.关于生成对抗网络的“可操纵性”. 在ICLR中, 2020年3月0[18] Wentao Jiang, Ning Xu, Jiayun Wang, Chen Gao, Jing Shi,Zhe Lin, and Si Liu.通过跨模态循环机制进行语言引导的全局图像编辑. 在ICCV中,2021年1月2日3日5日7日12日0[19] Tero Karras, Samuli Laine, and Timo Aila.一种基于风格的生成对抗网络生成器架构. 在CVPR中,2019年2月3日0[20] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila.分析和改进StyleGAN的图像质量. 在CVPR中, 2020年2月4日11日0[21] Diederik P Kingma and Jimmy Ba. Adam:一种用于随机优化的方法. arXiv预印本arXiv:1412.6980,2014年11月0[22] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, ManeeshSingh, and Ming-Hsuan Yang.多样化图像到图像的转换通过解缠表示. 在ECCV中, 2018年3月0[23] Bowen Li, Xiaojuan

下载后可阅读完整内容，剩余1页未读，立即下载