灵活的语义图像转换方法

132 浏览量更新于2023-10-25 收藏 22.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1182700FlexIT：面向灵活的语义图像转换0Guillaume Couairon MetaAI，巴黎索邦大学0gcouairon@fb.com0Asya GrechkaMeero，巴黎索邦大学0asya.grechka@meero.com0Jakob VerbeekMeta AI0jjverbeek@fb.com0Holger SchwenkMeta AI0schwenk@fb.com0Matthieu CordValeo，巴黎索邦大学0matthieu.cord@lip6.fr0老虎0→ 白狼0标准雪纳瑞 →约克夏梗0黑色 →红色0玻璃0→ 水壶0塑料袋 →背包0猪耳朵0→ 丝绸钱包0图1. FlexIT转换示例。从上到下：输入图像，转换后的图像和文本查询。0摘要0深度生成模型，如GAN，在图像合成方面取得了显著的进展，能够在结构化领域（如人脸）生成接近照片真实的图像。基于这一成功，最近的图像编辑工作通过将图像投影到GAN潜在空间并操作潜在向量来进行。然而，这些方法的局限性在于只能转换狭窄领域的图像，并且只能进行有限数量的编辑操作。我们提出了一种新颖的方法FlexIT，它可以接受任何输入图像和用户定义的文本指令进行编辑。我们的方法实现了灵活和自然的编辑，推动了语义图像转换的极限。首先，FlexIT将输入图像和文本组合成CLIP多模态嵌入空间中的单个目标点。通过自动编码器的潜在空间，我们迭代地将输入图像转化为目标点，通过各种新颖的正则化项确保一致性和质量。我们提出了一个语义图像转换的评估协议，并在ImageNet上进行了全面评估。代码将在https://github.com/facebookresearch/SemanticImageTranslation/上提供。01. 引言0古语有云：“你不能把猪耳朵变成丝绸钱包。”但是你真的不能吗？真正灵活和强大的语义图像编辑是难以捉摸的，目前的工作在可能的输入图像和编辑操作方面受到限制。深度生成图像模型的研究在近年来取得了显著进展，特别是GAN在人脸和动物脸部[26]或以物体为中心的图像[4]等领域生成了接近照片真实的样本。此外，最近的“基于风格”的GAN，如StyleGAN[27-29]，具有令人印象深刻的解缠的潜在空间，通过在图像空间中两个潜在向量之间执行复制粘贴操作可以转移相应的风格。因此，人们已经付出了大量的研究努力，以利用预训练的GAN进行语义图像编辑。通过特定的潜在空间操作，可以以逼真的方式识别和编辑高级属性，如年龄或性别[1,22, 41,57]。然而，这些方法存在一些注意事项。首先，与生成的潜在空间不同，表示真实图像的推断潜在代码对潜在编辑操作反应不佳[19]。尽管最近的方法[19, 45,55]改善了可编辑性，但输入图像仍然受限于生成网络的分布。此外，编辑操作也受到限制。2182710仅限于通过预训练的分类器[1, 41,57]或通过半自动方式[22,48]在潜在空间中识别的语义，这些语义是GAN在训练时特定领域上的，例如人脸的年龄或明显性别。通过训练GAN直接修改图像，即图像到图像的转换，可以获得与输入图像相关的某种灵活性。这些方法学习两个域之间的转换，使用配对数据[23, 38, 49]或非配对数据[6,56]。然而，这些模型只学习了单一的转换或其组合[50]，特定于训练数据，限制了其适用范围。我们通过一个统一的框架来解决这些挑战，该框架基于用户定义的文本查询（S→T），如猫→狗，修改输入图像。对于这个语义图像转换任务，目标是在满足请求的同时进行最小的图像修改。我们利用CLIP[40]，它将文本和图像表示组合在一个强大的多模态嵌入空间中。该空间用于根据用户输入的嵌入定义我们的目标点。我们使用特定的策略执行每个图像的优化过程，以确保图像质量和与转换查询的相关性。我们的方法只需要固定的预训练组件，因此可以直接使用，无需任何训练。图像在自动编码器的潜在空间中进行优化，而不是GAN，这极大地扩大了可能的输入图像范围。这允许进行真正灵活的图像编辑；正如图1所示，甚至可以将猪耳朵变成丝绸钱包。我们还提出了一个用于语义图像转换任务的定量评估协议。评估基于三个标准：（i）转换后的图像应正确对应于文本查询，（ii）输出图像应看起来自然，（iii）与文本查询无关的视觉元素应保持不变。我们在ImageNet上对我们的模型进行了全面评估，并在定量和定性上证明了我们的方法相对于基线的优越性，拓宽了基于文本驱动的图像编辑的视野。02. 相关工作0图像编辑。深度生成网络（如GAN）催生了许多图像编辑应用，包括摄影修饰[42]、图像修复[52]、物体插入[17]、领域转换[53, 56]、上色[23]、超分辨率[25,35]等等。自动用户驱动的图像编辑旨在为用户提供修改图像的控制权，通过调整分割掩码[37]、场景图[10]或类别标签[5]。允许用户提供非结构化的自由文本查询更具挑战性。接近我们的目标，ManiGAN[36]旨在通过训练来执行基于文本的编辑。0一种基于图像的文本描述来细化图像细节的模型。他们的定量评估协议使用COCO数据集上的转换查询，考虑随机不对齐的（图像，标题）对，可能导致不一致的转换查询。我们精心设计了我们的评估协议，以避免这种情况。0图像潜空间。虽然GAN作为生成模型非常有效，但是给定图像的潜变量的推理在原则上是难以处理的。尽管已经提出了联合学习推理网络的方法，例如[11,14]，但是GAN的模式寻求训练动力学不适合超出训练分布的良好重建性能（甚至在训练分布内，如果模式被丢弃）。另一方面，变分自编码器[33]通过构造提供了一个推理网络，并且它们基于似然的训练目标确保了准确的重建。离散化潜空间的矢量量化变分自编码器（VQ-VAE）[2,47]被发现既具有良好的重建性能，又具有引人注目的样本。特别是，VQ-GAN [15,51]通过包含对抗性损失项来训练自编码器，进一步改善了重建效果。在我们的工作中，我们采用了VQ-GAN自编码器，并在其潜空间中编辑图像。0潜空间操作。引入了“基于样式”的GAN，如StyleGAN[27-29]显著改善了潜空间的解缠，导致了对其解释和操作的研究激增。通过使用辅助分类器，一种简单的方法是在潜空间中找到分离二进制属性的线性边界[18, 41,57]，这允许通过在正交潜空间方向上“行走”来编辑属性。StyleFlow[1]提出了一种非线性方法，通过使用归一化流来学习潜空间的变换。其他方法[22,48]在没有预训练分类器的情况下以无监督的方式找到变换，需要手动标记过程来解释和注释“发现”的变换。相对于这样的受限的可能编辑维度集合，我们的目标是描述由自由文本描述的更一般的变换。0与CLIP的语义对齐。为了对齐图像和文本，CLIP[40]学习了将两种模态映射到共享潜空间的编码器，以便可以轻松地进行比较和组合。视觉编码器基于ResNets[20]和Vision Transformers[13]。CLIP在400M个网络爬取的图像/文本对上进行训练，使用简单的对比InfoNCE损失[46]，可以为图像合成和编辑提供强大的可微信号，与扩散模型[32]和基于Bézier曲线笔画的生成器[16]结合使用。CLIP还成功地与VQGAN结合使用，生成新的艺术图像[8]或执行语义风格转换[30]。与我们类似，StyleCLIP [39]基于Lperc(z) = dLP IP S(D(z), I0).(3)Llatent(z) =�i∥zi − zi0∥2.(4)Ltotal(z) = Lemb(z) + λpLperc(z) + λzLlatent(z). (5)3182720潜变量0图像编码器0嵌入损失0图像查询 I 00源文本 S0目标文本 T0猫0老虎0多模态编码器0图像解码器0多模态目标点0感知损失0转换查询02：优化循环01：初始化0通过优化0梯度下降0潜在损失0图2. FlexIT优化框架：涉及多模态潜在空间的组件以绿色标出；涉及图像潜在空间的组件以黄色标出；涉及LPIPS距离的组件以粉色标出。给定一个转换查询(I0, S,T)，我们首先计算多模态嵌入空间中的目标点P，并将I0编码到图像潜在空间以获得z0。然后，在固定步数的情况下，我们更新潜在变量z（初始化为z0），使其更接近目标点P。我们添加了两个正则化项：输入图像和输出图像之间的LPIPS感知距离，以及z与z0之间的潜在距离。所有网络都被冻结，只有z被更新。0通过在CLIP的潜在空间中对齐文本查询。然而，它依赖于StyleGAN2的潜在空间来优化图像，这需要针对每个应用领域训练单独的生成和潜在空间推理模型。03. 用于语义编辑的FlexIT框架0我们的图像转换方法的概述如图2所示。它依赖于三个预训练组件。首先，我们在潜在空间中编辑输入图像，要求能够对各种图像进行编码，并以最小的失真解码回RGB图像。我们选择了VQGAN自编码器[15]来实现这个目的。其次，我们将文本查询和输入图像嵌入到多模态嵌入空间中，以定义修改后图像的优化目标。我们使用CLIP[40]的多模态嵌入空间。最后，为了确保修改后的图像与输入图像相似，我们使用LPIPS感知距离[54]来控制其与输入图像的距离，该距离是使用VGG[43]骨干计算的。优化方案。FlexIT方法的核心思想是在潜在空间中编辑输入图像，以多模态嵌入空间中定义的高级语义目标为指导。设E为图像编码器，D为图像解码器，(Ct,Ci)为文本和图像的多模态编码器。给定输入图像I0和文本转换S→T，我们首先通过计算初始潜在图像表示z0 =E(I0)和目标多模态点P来初始化FlexIT，如下所示：0P = Ct(T) + λICi(I0) - λSCt(S). (1)0我们选择使用多模态嵌入空间，因为它允许以有意义的方式将文本和图像模态组合在一起：由文本嵌入定义的语义转换可以通过线性操作应用于图像[24]。在这种情况下，我们的目标点P可以被看作是一个图像嵌入，它已经通过文本嵌入在语义上进行了修改，通过删除源类别。0通过减去信息（−λSET(S)）并添加目标类信息（+Et(T)），我们不知道图像和文本嵌入的最佳线性组合是什么，因此我们将λI和λS视为参数，并在开发集上进行验证。为了找到一个输出图像，当在多模态嵌入空间中编码时，尽可能接近目标点，我们优化嵌入损失：0Lemb(z) = ∥Ci(D(z)) - P∥22. (2)0我们在嵌入损失中添加了两个正则化项，以鼓励只有与转换查询相关的内容发生变化。如果没有正则化，优化方案可以改变图像的任何部分，如果这有助于更接近多模态目标点，我们发现这会产生不自然的伪影。与输入图像I0的距离由LPIPS距离控制：0为了强制保持在我们的图像解码器能够很好解码的潜空间的部分，我们使用了一个关于初始潜代码 z 0的正则化项。我们在潜代码的每个空间位置 i 上使用了 ℓ 2范数，并将这些范数在空间位置上求和以获得损失：0这个 ℓ 2 , 1 损失鼓励稀疏的 z i变化，即限制空间位置的变化，这与我们将输入图像的局部部分转换的目标一致。最后，注意到方程（1）中的 λ I也作为正则化参数，通过鼓励输入图像和输出图像在多模态嵌入空间中接近来起到作用。我们优化的总损失可以写成：4182730增强拼接0在嵌入中进行编码0空间0CLIP0ViT-B/320CLIPRN500CLIP0RN50x40图3。我们鲁棒的基于CLIP的图像编码器的架构，通过连接三个不同的编码器组合而成。0初始化后，通过梯度下降以固定的学习率 µ 更新潜变量 z，进行固定步数 N的优化，同时保持所有网络权重不变。按照快速梯度方法[12]的实现，我们在更新之前对梯度进行归一化。0图像优化空间。到多模态目标点的距离是可微的损失，可以通过梯度下降进行优化。一种直接的方法是在像素空间中执行梯度下降。然而，这种类型的图像表示缺乏对低级图像统计的先验知识。通过优化潜变量，而不是像素，可以通过基于神经网络的解码器获得图像。选择像VQGAN这样的自动编码器，让我们能够（i）利用解码器的低级先验知识，从而引导优化问题朝着至少具有低级一致性的图像；（ii）在其潜空间中对图像进行编码和解码，几乎没有失真。VQGAN潜空间中的空间维度允许独立地编辑图像的特定部分，而GAN通常依赖于更全局的潜变量。尽管GAN生成具有更强先验的逼真图像，但在两个方面上优化它们的潜空间存在问题：首先，GAN在狭窄分布（如人脸）上效果很好，但在训练在更广泛分布上时效果不佳；其次，即使使用在ImageNet等广泛分布上训练的GAN，使用其潜空间忠实地重构图像也很困难。我们在第4.3节中报告了在原始像素和GAN潜空间上进行优化的实验。0实现细节。在FlexIT中，我们运行 N = 160步的优化循环，发现这足以转换大多数图像。我们使用分辨率为288来使用VQGAN对图像进行编码，它将图像压缩到具有维度（256，18，18）的潜空间中。我们利用各种预训练的CLIP模型，并通过连接将它们的嵌入组合起来，如上所述。0如图3所示。默认情况下，我们使用三个具有不同ResNet和ViT架构的图像嵌入网络，实现了互补的归纳偏差。要使用单个CLIP网络对图像进行编码，我们对输入图像的多个增强版本的嵌入进行平均（默认为8个）。我们经验证实，每个网络使用多个增强版本可以稳定优化的早期阶段。对于正则化系数，我们使用λz = 0.05，λp = 0.15，λS = 0.4，λI =0.2作为默认值。这些系数是使用我们基于ImageNet的开发集设置的，并且对所有实验都是固定的。这些实现选择在第4.4节中进行了分析。04. 实验0下面，我们首先详细描述我们的评估协议。然后，我们呈现定性和定量结果，以及对我们方法的各个组成部分进行深入分析。04.1. 评估协议0评估数据集。我们没有找到一个令人满意的评估框架来研究语义图像转换的问题：现有的数据集和度量方法侧重于狭窄的图像领域或随机的文本转换查询[36,39]。为了克服这个问题，我们决定建立在ImageNet数据集[9]的基础上，因为它具有多样性和大量的类别：通过定义哪些类别标签可以相互转换（如猫→老虎），我们可以构建一组合理的以对象为中心的转换查询。我们从273个ImageNet标签中手动选择了一个子集，并根据它们的语义相似性将其分成47个簇。例如，有一个包含各种蔬菜的簇。有关子集选择和分组的详细信息请参见附录。我们只考虑S→T的转换，其中S和T属于同一个簇，以避免不相关对象之间的无意义转换，例如笔记本电脑→蝴蝶。对于每个目标标签T，我们通过在同一簇中随机抽样另外八个类别{Si}，并从ImageNet验证集中随机选择每个Si的一张图像来构建八个转换查询。这总共给出了2184个转换查询，我们将其分为开发集和测试集，两者大小相等。我们使用开发集来调整我们方法的各种超参数，并在测试集上报告评估指标。0度量标准。我们通过图像分类器的准确性来评估转换的成功程度，这是可能的，因为我们使用ImageNet类标签作为转换目标。我们使用DeiT[44]分类器，其ImageNet验证准确率为85.2%。如果在转换后的图像中，类别T在273个选定类别中具有最高的概率，我们认为转换成功。5182740输入图像0输出图像0数据集图像0西兰花 →0意大利细面条南瓜0虎甲虫 → 瓢虫文本查询0钢鼓 →马林巴0(a) (b) (c) (d) (e) (f) (g) (h)0图4.使用FlexIT在ImageNet图像上的转换示例。从上到下：输入图像、输出图像以及目标类别的数据集图像。列（a）-（e）显示成功转换的示例。列（f）显示了一个有趣的行为，即在图像中添加了另一个对象以增加更多的上下文（一个人手中的乒乓球拍）。最后两列显示了最常见的失败模式：只有输入对象的一部分被转换（g），或者输入对象中应该改变的部分没有改变：在列（h）中，转换后的图像仍然具有西兰花的形状和绿色部分，而不是橙色和圆形的意大利细面条南瓜。0为了评估转换图像的自然度，我们使用Fr´echetInception距离（FID）[21]。为了避免使用少量样本估计特征分布时的数值不稳定性，我们使用“简化的FID”（SFID）[31]，它不考虑特征协方差矩阵中的非对角线项。除了SFID之外，我们还使用了类别条件的SFID分数（CS-FID），它是分别计算每个目标类别的SFID分数的平均值。由于我们对许多类别使用了少量示例来计算这些分数，CSFID分数在我们的数据集上具有高偏差、低方差的特点[7]，我们发现它是可靠且稳定的。CSFID度量是图像质量和转换准确性的度量，因为它衡量了转换图像与训练集中目标类别的参考图像之间的特征分布距离。编辑不应该改变与文本中定义的转换无关的图像部分，例如背景。我们使用LPIPS感知距离[54]来衡量与输入图像的偏差。它是深度图像特征的加权ℓ2距离，并且已经证明与人类感知相似性具有良好的相关性。在训练过程中，我们使用基于VGG特征的LPIPS距离，以减少基于AlexNet特征的LPIPS评估中的偏差。LPIPS距离无法区分与文本查询相关的编辑和不相关的编辑；我们也不知道图像与其最接近的成功转换之间的最小LPIPS距离。尽管如此，我们认为它应该尽可能低。01 在[3]中称为类内FID。0我们在附录中提供了我们在实验中使用的度量的更多细节。04.2. 结果0FlexIT变换在ImageNet图像上的定性结果显示在图4中，包括成功的变换以及几个失败案例。为了展示我们方法的普适性，我们还在图5中展示了StanfordCars数据集[34]中图像的颜色变换示例。语义图像转换本质上是在准确性、CSFID和SFID等度量上具有最相关和自然的输出图像之间的权衡，同时尽可能接近输入图像（通过LPIPS度量）。我们考虑两个极端配置作为基线，只优化这两个标准之一：（i）COPY基线，只是简单地复制输入图像而没有任何修改；（ii）RETRIEVE基线，输出一个随机的验证图像，标记为目标类别T。我们添加了ENCODE基线，只是将输入图像通过VQGAN自动编码器传递。我们还评估了文献中最相关的基于文本驱动的图像转换算法StyleCLIP[39]。我们考虑了与我们方法最相似的版本，该版本使用经过ImageNet训练的StyleGAN2嵌入图像，并在CLIP潜空间中迭代更新StyleGAN2潜在表示以最大化与给定文本的相似性。我们还在ImageNet上训练了ManiGAN[36]。02我们使用了https://github.com/justinpinkney/awesome-pretrained-stylegan2上公开可用的模型，并训练了我们自己的e4e编码器[45]将图像嵌入到这个潜空间中。0501000%50%100%202530354045607080901001108326416083216016032641608321606182750黄色 → 橙色灰色 → 蓝色红色 → 橙色灰色 → 黄色红色 → 灰色0图5.Cars数据集上的示例变换：输入图像（第一行），FlexIT结果（第二行），基于在LSUNCars数据集上预训练的StyleGAN2骨干的StyleCLIP结果（最后一行）。尽管基于GAN的图像具有更好的细节，如车轮，但它们与输入图像相距较远。0LPIPS ↓ 准确率% ↑ CSFID ↓ SFID ↓0C OPY 0.0 0.45 106.0 0.2 E NCODE 17.5 1.6 107.5 3.0 RETRIEVE 72.4 90.6 27.2 0.2 ManiGAN [36] 21.7 2.0 123.817.0 StyleCLIP [39] 33.4 8.0 146.6 35.8FlexIT（我们的方法）24.7 51.3 57.9 6.80表1. FlexIT和基线在ImageNet图像上的评估。0使用作者提供的实现进行了实验。结果在表1中报告。如预期，复制基线在LPIPS和SFID上是理想的，但无法适应变换目标T，因此在准确性和CSFID上失败。出于同样的原因，自动编码基线在准确性和CSFID上也失败了，但展示了在LPIPS和SFID上使用VQGAN潜空间的非平凡影响。RETRIEVE基线为准确性、CSFID和SFID提供了理想的度量，因为它返回目标类别的自然图像。然而，它在LPIPS上失败，因为输出图像与输入图像无关。我们的FlexIT方法将低LPIPS（24.7 vs . ENCODE的17.5）与51.3％的准确率和57.9的CSFID相结合，更接近R ETRIEVE的CSFID（27.2）而不是ENCODE的CSFID（107.5）。StyleCLIP的得分较低，具有较高的SFID和CSFID得分，这是预期的，因为StyleCLIP被设计为在GAN表现出色的地方工作。我们使用的在ImageNet上训练的StyleGAN2模型对类别信息不敏感，无法为所有ImageNet类别合成逼真的图像。ManiGAN在训练时对于颜色变换请求的狭窄领域效果良好，但我们发现它在ImageNet上训练时无法产生令人信服的编辑。为了提供哪些变换效果良好，哪些变换效果较差的见解，我们将我们的47个ImageNet聚类分为13个更大的组（详见附录）并报告了结果。0CSFID0真0车辆昆虫海洋生物爬行动物可食用0音0容0设备对象0失败率0图 6. 组内 CSFID和失败率（1-准确率），两个指标都越低越好。深色：使用 RETRIEVE 基线获得的最佳值；中等色：使用 FlexIT获得的分数；浅色：使用 C OPY 基线获得的值。0平均 LPIPS 距离0CSFID0不使用 LPIPS（λp= 0.15）0潜在空间（λz = 0.05）0CLIP（λI = 0.2）0全部0图 7. CSFID 在不使用正则化、使用单独的 LPIPS、潜在空间和 CLIP正则化器以及使用所有正则化项时的结果。每条曲线对应于在开发集上进行的 160 步优化。0图 6 中每个组的平均 CSFID和失败率（1-准确率）得分。对于自然对象之间的转换通常比人造对象之间的转换更成功。我们认为这主要是因为后者在形状和上下文上呈现出更多样化，导致更难的转换。04.3. 割舍研究0正则化项。在图 7 中，我们展示了 CSFID在优化步骤中的演变情况，其中我们考虑了我们的方法不使用正则化、每个正则化方案单独使用以及所有正则化项（默认配置）。与不使用正则化相比，LPIPS正则化显著改善了优化路径上的 CSFID分数，同时也如预期地减少了 LPIPS。CLIP正则化器具有类似的效果，但能够进一步减小 CSFID，而LPIPS距离与我们的方法不使用任何正则化相比仅略有减少。这两个正则化器是互补的：LPIPS 损失减小了图像偏差40506070809010010203040506060801001201408321608321608321608 321607182760输入图像0无0正则化0仅 LPIPS正则化0主要方法0图 8. 不同正则化项的示例转换。从上到下的文本查询: 罗威纳犬 →德国牧羊犬，电吉他 → 班卓琴，红狼 → 灰狐。0ViT RN ViT + RN0ViT0+ 2 RN02 ViT +3 RN0CSFID0无增强1 增强 8增强 32增强0图 9. 不同 CLIP 网络组合和数据增强选项的CSFID。默认设置：ViT+2RN。0对于局部特征，CLIP损失提供了语义指导，有助于重建可识别的对象。使用所有正则化项可以在低 LPIPS 下获得最低的 CSFID分数。相应的定性示例如图 8 所示。0CLIP 嵌入模块。我们研究了不同的 CLIP 图像编码器选择对CSFID 分数的影响。我们的默认配置涉及两个基于 ResNet的网络和一个基于 ViT 的网络来将图像嵌入到 CLIP空间中。我们尝试了单个 ViT 或 ResNet，ViT 与单个ResNet 的组合，以及使用所有可用的预训练 CLIP网络，包括 ViT-B/16、ViT-B/32、ResNet50、ResNet50× 4 和 ResNet50 × 16，详见[40]中的模块详情。对于每个CLIP 网络配置，我们尝试不使用数据增强或使用 d ∈ {1, 8,32}个增强。我们应用基本的几何增强，这些增强通常用于训练图像分类网络。0平均 LPIPS 距离0CSFID0VQGANICGAN像素StyleGAN20图10.在不同的潜在空间或原始像素上进行迭代优化时的CSFID和LPIPS分数比较。0工作（附录中有更多细节）。每个 N 个 CLIP网络中的 N个优化步骤中，每个网络都会看到不同的数据增强，从而导致输入图像的 d × N个网络 ×N个步骤的增强总数。从图9的结果中，我们可以看到，虽然ViT和ResNet嵌入网络导致了类似的结果，但它们是互补的，将它们结合起来会有显著的改进。添加额外的网络会进一步改进结果。其次，使用数据增强非常有益，对于所有网络配置，可以将CSFID减少10个或更多点。使用多个增强并不能显著改善结果：每个网络在每个优化步骤中使用不同的增强即可。在我们的其他实验中，我们将三个最小（也是最快）的CLIP网络作为默认设置。0图像优化空间。我们将在VQGAN潜在空间中进行优化的选择与使用StyleGAN2 [29]和IC-GAN[5]的潜在空间以及直接在像素空间中进行优化进行了比较。IC-GAN[5]生成与输入图像类似的图像，并使用潜在变量来允许其输出的可变性。由于IC-GAN不能直接推断给定图像的潜在变量，我们从潜在先验中取1,000个样本，并保留使得与输入图像的LPIPS距离最小的样本。我们发现，从这一点开始进一步减少与输入图像的LPIPS不是有效的。对于StyleGAN2[29]，我们使用在ImageNet上预训练的相同网络，就像我们在StyleCLIP中使用的那样。为了将评估图像嵌入到这个潜在空间中，我们首先使用e4e编码器[45]对向量进行初始预测，然后执行额外的1,000个优化步骤以更好地适应输入图像，按照[28]中描述的GAN反演过程进行。图10中的结果显示，使用VQGAN潜在空间可以在迭代过程中大幅降低CSFID分数，而仅略微增加LPIPS分数。使用原始像素空间无法有效降低CSFID。IC-GAN具有相对较好的图像合成能力，但很难在其潜在空间中忠实地编码图像，导致LPIPS分数高于50。2223242526272854565860626466λp = 0.10.2λS = 00.5λS = 0.8λI = 0λI = 0.1λI = 0.4λz = 0λz = 0.1λpλSλIλz23242526272829405060λp = 0.05λp = 0.1λp = 0.2λS = 0λS = 0.2λS = 0.5λI = 0λI = 0.1λI = 0.4λz = 0λz = 0.1λpλSλIλz8182770平均LPIPS距离0CSFID0平均LPIPS距离0准确性0图11.超参数对CSFID和准确性的影响；默认设置由黑点表示，所有线都交叉于此点。0GAN2潜在空间（W+）更大，使生成的图像更接近输入图像；然而，其CSFID分数与其他方法不竞争。04.4. 超参数研究0在图11中，我们说明了超参数对LPIPS、CSFID和准确性指标的影响。对于三个正则化参数λ p，λ z，λI，我们观察到（i）随着正则化的加强，与输入图像的LPIPS距离较小，符合预期；（ii）较少的正则化允许更多的图像修改，产生更好的准确性分数，如底部面板所示；（iii）当我们单独变化每个超参数时，CSFID分数存在全局最小值（顶部面板）。正则化约束确实有助于防止插入不自然的视觉伪影；然而，过多的正则化会惩罚我们的算法，因为输出图像的分布接近输入分布，从而远离目标分布。参数λS，类似于正则化参数，有一个最小化CSFID的最优值。给优化算法一个提示，指示应该改变哪些语义内容是有益的，但是过于关注这个目标会降低图像的真实性。对于我们的主要实验，我们设置了超参数0为了最小化开发集上的CSFID分数。鉴于CSFID分数的凸形状，这是一个自然的选择，而优化准确性将消除正则化器，这对图像质量是不利的。05. 结论0贡献。我们提出了一种新颖的语义图像翻译方法FlexIT。通过依赖于自动编码器的潜在空间，而不是专门的GAN潜在空间，它可以处理各种各样的图像。使用通用的预训练多模态嵌入空间提供了灵活性，使FlexIT能够处理无需训练的自由文本转换查询。我们还提出了一个基于ImageNet的语义图像翻译评估协议，用于对我们的方法及其组件进行全面评估。0局限性。我们的方法在语义翻译方面最适用于输入图像提供指导的情况，但在从头开始合成逼真的新对象方面存在困难。此外，虽然我们研究了改变场景中主要对象的类别或颜色的转换，但其他感兴趣的转换可能考虑改变主体的动作（人行走vs奔跑），改变对象属性，添加或删除对象，或考虑需要在图像中进行非平凡基础的更复杂的文本描述（“将停在自行车旁边的汽车的颜色改变为红色”）。重要的是，朝着这个方向的进展将需要确定正确的数据和评估指标。0更广泛的影响。由于我们的算法依赖于CLIP进行编辑，因此可能会继承其偏见。CLIP的作者已经证明他们的模型存在公平性问题，例如将人脸错误分类为非人类或与犯罪相关的类别，并产生性别偏见的关联。如果出现类似医生→新闻播报员的提示转换，我们的编辑方法可能会反映出这些偏见，尽管我们尚未观察到实验证据。在编辑之前和之后，通过使用CLIP提示添加约束来控制偏见可能是一种潜在的偏见缓解策略。我们的模型为基于深度生成模型的图像编辑和合成工具提供了新的功能。与任何生成图像模型一样，我们的方法生成的合成图像可能会被用于意想不到的方式，产生不良影响。然而，我们相信在这个领域的开放出版研究有助于对这些技术有一个良好的理解，并可以帮助社区努力开发检测不真实内容的方法。0致谢。本工作部分得到ANR资助的VISADEEP项目（ANR-20-CHIA-0022）的支持。[35] Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero,Andrew Cunningham, Alejandro Acosta, Andrew Aitken,9182780参考文献0[1] Rameen Abdal, Peihao Zhu, Niloy Mitra, and PeterWonka. Styleflow:使用条件连续归一化流对StyleGAN生成的图像进行属性条件探索.ACM Trans. Graph.，2021年. 1，20[2] Oriol Vinyals Ali Razavi, Aaron van den Oord.使用VQ-VAE-2生成多样化高保真度图像. 在NeurIPS，2019年. 20[3] Yaniv Benny, Tomer Galanti, Sagie Benaim, and Lior Wolf.用于条件图像生成的评估指标. IJCV，129:1712–1731，2021年.50[4] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于高保真度自然图像合成. 在ICLR，2019年. 10[5] Arantxa Casanova, Marl`ene Careil, Jakob Verbeek,Michal Drozdzal, and Adriana Romero-Soriano.实例条件GAN. 在NeurIPS，2021年. 2，70[6] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-WooHa. StarGAN v2: 多领域多样化图像合成. 在CVPR，2020年. 20[7] Min Jin Chong and David Forsyth.有效无偏的FID和Inception Score及其获取方法.在CVPR，2020年. 50[8] Katherine Crowson. VQGAN+CLIP.https://colab.research.google.com/github/justinjohn0306/VQGAN-CLIP/blob/main/VQGAN%2BCLIP(Updated).ipynb，2021年. 20[9] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li和L. Fei-Fei.ImageNet: 一个大规模的分层图像数据库. 在CVPR，2009年. 40[10] Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab,Gregory D Hager, Federico Tombari和Christian Rupprecht.使用场景图进行语义图像操作. 在CVPR，2020年. 20[11] J. Donahue, P. Kr¨ahenb¨uhl和T. Darrell. 对抗特征学习.在ICLR，2017年. 20[12] Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su,Jun Zhu, Xiaolin Hu和Jianguo Li. 动量增强对抗攻击.在CVPR，2018年. 40[13] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly等. 一幅图像相当于16x16个单词:用于大规模图像识别的Transformer. 在ICLR，2020年. 20[14] V. Dumoulin, I. Belghazi, B. Poole, A. Lamb, M. Arjovsky,O. Mastropietro和A. Courville. 对抗学习推理. 在ICLR，2017年.20[15] Patrick Esser, Robin Rombach和Bjorn Ommer.驯服高分辨率图像合成的Transformer. 在CVPR，2021年. 2, 30[16] Kevin Frans, L. B. Soros和Olaf Witkowski. CLIPDraw:通过语言-图像编码器探索文本到绘图的合成.arXiv预印本，arXiv:2106.14843，2021年. 20[17] O. Gafni和L. Wolf. 希望你在这里: 上下文感知的人类生成.在CVPR，2020年. 20[18] Lore Goetschalckx, Alex Andonian, Aude Oliva和PhillipIsola. GANalyze: 用于认知图像属性的视觉定义.arXiv预印本，arXiv:1906.10112，2019年. 20[19] Asya Grechka, Matthieu Cord和Jean-Francois Goudou.MAGECally反转图像以进行逼真的编辑. 在BMVC，2021年. 10[20] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差学习用于图像识别. 在CVPR，2016年. 20[21] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler和Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡.在NeurIPS，2017年. 50[22] Erik H¨ark¨onen, Aaron Hertzmann, JaakkoLehtinen和Sylvain Paris. GANSpace: 发

下载后可阅读完整内容，剩余1页未读，立即下载