基于混合扩散的自然图像编辑

63 浏览量更新于2023-10-25 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18208基于混合扩散的文本驱动自然图像编辑Omri Avrahami1Dani Lischinski1Ohad Fried21耶路撒冷希伯来大学2赖克曼大学摘要自然语言为图像编辑提供了高度直观的界面。在本文中，我们介绍了第一个解决方案执行本地（基于区域的）编辑通用自然图像，基于自然语言描述的ROI掩模。我们通过利用和组合预训练的语言图像模型（CLIP）来实现我们的目标，以将编辑转向用户提供的文本提示，并使用去噪扩散概率模型（DDPM）来生成自然的结果。为了将编辑过的区域与图像中未更改的部分无缝融合，我们在空间上进行混合输入+掩码输入+掩码没有提示“big“white“big“bowl of“New York输入图像的噪声版本，其中局部文本引导扩散潜在地处于噪声水平的级数此外，我们表明，增加增广的扩散过程减轻对抗性的结果。我们比较了几个基线和相关的方法，定性和定量，并表明我们的方法优于这些解决方案的整体现实主义，能力，以保持背景和匹配的文本。最后，我们展示了几个文本驱动的编辑应用程序，包括向图像添加新对象，删除/替换/更改现有对象，背景替换和图像外推。1. 介绍有人说“一张图片胜过千言万语”，但最近的研究表明，只有几个字往往足以描述一个。利用视觉语言模型和数据驱动图像生成方面的巨大进步的最新工作已经证明，用于图像创建和操作的基于文本的界面现在终于可以实现[12，23，29，30，38，39，41，47，51，57]。文本驱动图像处理中最令人印象深刻的结果利用了现代GAN的强大生成能力 [6，19，25然而，基于GAN的方法通常限于来自GAN被训练的受限域的图像。此外，为了操纵真实图像，它们必须首先被反转到GAN的潜在空间中。虽然最近出现了许多GAN反演技术[1-图1. 文本驱动的对象/背景替换：给定输入图像和蒙版，我们根据指导文本提示修改蒙版区域，而不影响未蒙版区域。反相图像的精度和可编辑性[48]。将图像操作限制在图像中的特定区域是现有方法的另一个挑战[4]。在这项工作中，我们提出了第一种基于区域的通用现实世界的自然图像编辑方法，使用自然语言文本指导1。具体而言，我们的目标是文本驱动的方法，其（1）可以对真实图像而不是生成的图像进行操作，（2）不限于特定的域，例如人脸或卧室，（3）仅修改用户指定的区域，同时保留图像的其余部分，（4）产生全局一致（无缝）编辑结果，以及（5）由于任务的一对多性质，能够为相同的输入生成多个结果图1中示出了这种编辑的几个示例。上述要求苛刻的图像编辑场景在深度学习时代并未受到太多关注。事实上，最密切相关的工作是经典的方法，如无缝克隆[14，37]和图像完成[21]，其中没有一个是文本驱动的。一个更近的相关工作是零镜头语义图像绘画[4]，其中任意简单的文本描述可以在图像内的期望位置上。然而，该方法不对真实图像进行操作（要求1），不保留图像的背景（要求2），不保留图像的背景（要求3）。1代码可在：https：//omriavrahami. com/ blended-diffusion-page/18209|项3），并且不为相同的输入生成多个输出（要求5）。.q（xt|x t−1）.为了实现我们的目标，我们利用两个现成的预训练模型：去噪扩散概率模型（DDPM）[11，24，35]和对比图像预训练（CLIP）[40]。DDPM是一类概率生成器，…x0xt−1p&（x t−1|x t）xt xT最近被证明超过最先进GAN的图像生成质量的迭代模型[11]。我们使用DPPM作为我们的生成支柱，以确保外观自然的结果。CLIP模型在从互联网收集的4亿对（图像，文本）数据集上进行对比训练，以学习图像和文本的丰富共享嵌入空间。我们使用CLIP来指导操作以匹配用户提供的文本提示。我们发现，一个简单的DDPM和CLIP的组合来执行文本驱动的本地编辑无法保留图像的背景，在许多情况下，导致一个不自然的结果。相反，我们提出了一种新的方法来利用扩散过程，其中混合CLIP引导的扩散潜伏与适当的噪声版本的输入图像，在每个扩散步骤。我们表明，这个计划产生自然的外观结果，是一致的输入的未改变的部分。我们进一步表明，在扩散过程的每一步使用扩展增强减少对抗的结果。我们的方法利用预训练的DDPM和CLIP模型，而不需要额外的训练。综上所述，我们的主要贡献是：（1）我们提出了第一个通用的基于区域的图像编辑的解决方案，使用自然语言指导，适用于真实的，多样化的图像。（2）我们的背景保存技术保证未改变的区域被完美地保存。(3)我们证明了一个简单的增强技术显着降低了对抗性结果的风险，允许我们使用基于梯度的扩散指导。2. 相关工作文本到图像合成。最近，我们见证了文本到图像生成的重大进展。最初的基于RNN的工作[32]很快被生成对抗方法所取代，例如Reed等人的开创性工作。后者通过多阶段架构[54，55]和注意力机制[53]进一步改进。DALL-E [41]引入了一种无GAN的两阶段方法：首先，训练离散VAE [42，49]以减少Transformer的上下文。接下来，自回归地训练Transformer [50]以对文本和图像令牌上的联合分布进行建模最近的几个项目[8，9，33]利用预训练的生成模型[6，11，13]，使用预训练的CLIP模型[40]将生成的结果导向所需的目标描述。这些方法主要用于从文本描述中创建抽象艺术品，缺乏编辑真实图像的部分而保留其余部分的能力。图2. 去噪扩散。从样本x0开始，向前马尔可夫噪声过程通过逐渐添加高斯噪声q（xtxt-1）产生一系列噪声图像，直到获得近似各向同性的高斯噪声样本xT。反向过程通过使用学习的后验pθ（xt−1 ）重复去噪将高斯噪声样本x T转换为x 0|xt）。虽然文本到图像是一个具有挑战性和有趣的任务，在这项工作中，我们专注于文本驱动的图像操作，编辑仅限于用户指定的区域。文本驱动的图像处理。最近的一些作品利用CLIP来操纵真实图像。Style- CLIP [36]使用预训练的StyleGAN2 [27]和CLIP模型根据文本提示修改图像。为了操纵真实图像（而不是生成的图像），它们必须首先被编码到潜在空间[48]。这种方法不能处理通用的真实图像，并且仅限于高质量生成器可用的域。此外，StyleCLIP以全局方式对图像进行操作，而不提供对哪些区域应该更改的空间控制。与我们更密切相关的是Bau等人的工作[4]，其中任意简单的文本描述可以归因于图像中的期望位置。他们基于GAN的方法有几个局限性：（1）尽管他们试图保留背景，但它仍然可能会改变，如图5所示;（2）他们的解决方案主要在卧室的有限领域中展示，主要用于颜色和纹理编辑任务。显示了一些一般图像的示例，但结果不太自然或缺乏背景保护（见图5）。(3)他们的模型只能在生成的图像上操作，并且不适用于开箱即用的任意自然图像。GAN反演技术[1-与我们的工作同时，Liu等人。[31]和Kim等人。[28]提出了利用扩散模型来执行全局文本引导图像操作的方法。此外，GLIDE [34]是一项并行工作，利用扩散模型进行文本到图像合成，以及使用文本指导进行局部图像编辑。为了做到这一点，他们为这些任务训练一个指定的扩散模型。3. 扩散概率模型去噪扩散概率模型（DDPMs）学习逆参数化马尔可夫图像去噪过程。前向马尔可夫噪声过程逆过程18210∼^^与te xt描述d一致，而完整的t=1-^不s=0||√.^0从各向同性高斯噪声样本开始，他们将其转换为训练分布的样本，通过迭代扩散过程逐渐去除噪声（图1）。2）。DDPM最近被证明可以生成高质量的图像[11，24，35]。下面，我们提供了DDPM的简要概述，更多详细信息请参见[24，35，45]。我们遵循[35]中的公式和符号。给定数据分布x0q（x0），前向噪声是处理过程产生一系列潜伏期x1，...，x T通过在时间t处添加具有方差β t∈（0，1）的高斯噪声：不的[24]，就FID分数[22]而言，通过调整网络架构并通过使用在噪声图像上预训练更多详情请参见补充文件和原始文件[11]。4. 方法给定图像x、引导文本提示d和标记图像中的感兴趣区域的二进制掩码m，我们的目标是产生修改后的图像x，s. t。内容xm尽可能地靠近源头，q（x1，...，XT|x0）=Yq（xt|xt−1）q（xt|xt−1）=N（1−βtxt−1，βtI）（一）年龄，即，x（1m）x（1m），其中是逐元素乘法。此外，x的两个区域之间的过渡理想地应该看起来是无缝的。在第4.1节中，我们首先采用DDPM方法当T足够大时，最后一个潜变量xT几乎是各向同性高斯分布。前向噪声处理的一个重要性质是，任何步骤xt可以直接从x0采样，而不需要生成中间步骤，q（xt|x0）=N（α<$tx0，（1−α<$t）I）（2）xt=α<$tx0+1−α<$，如上所述，通过添加由掩蔽的CLIP损失和背景保留项组成的引导损失来所得到的方法仍然不能满足我们的要求，我们继续在第4.2节中提出一种新的文本驱动的混合扩散方法，该方法保证了背景保留并提高了编辑结果的一致性。第4.2.2节介绍了一种增强技术，我们使用它来避免对抗性结果。其中，αt=1−βt，α<$t=Qtαs。要从分布q（x0）中提取新样本，马尔可夫过程是反向的。也就是说，从高斯噪声样本xT<$N（0，I）开始，通过对后验q（xt−1xt）进行采样来生成反向序列，后验q也被证明是高斯分布[16，45]。然而，q（x t−1x t）是未知的，因为它取决于未知的数据分布q（x0）。为了近似这个函数，训练一个深度神经网络p θ，以预测给定x t作为输入的x t− 1的均值和协方差。然后4.1. 局部CLIP引导扩散Dhariwal和Nichol [11]使用在噪声图像上预训练的分类器类似地，预训练的CLIP模型可以用于引导朝向目标提示的扩散。由于CLIP是在干净的图像上训练的（并且在有噪声的图像上重新训练它是不切实际的），因此我们需要一种在去噪扩散期间从每个有噪声的潜在xt估计干净图像x0xt-1可以从由这些参数定义的正态分布采样过程回想一下，该过程在每一步都估计噪声θ（xt，t），加到x0上得到xt。因此，x0可以通过等式（2）从θ（xt，t）获得p θ（xt−1|xt）=N（μθ（xt，t），μθ（xt，t））。（三）而不是直接推断μθ（xt，t），Ho等人[24]Xtx^0=α<$√1−α<$t <$θ（xt，t）阿泰（五）建议预测添加到x0，以便根据等式（2）获得xt然后现在，基于CLIP的损失D夹可以被定义为可以使用贝叶斯定理导出μθ（xt，t）不不文本提示的CLIP嵌入与估计的干净图像的嵌入之间的余弦距离x：1μθ（xt，t）=μαβtxt−1−α<$θ（xt，t）（四）DCLIP（x，d，m）=Dc（CLIPimg（xm），CLIPtxt（d））更多详情请参见[24]。Ho等人。[24]保持θ（xt，t）恒定，但后来证明[35]通过神经网络学习它更好内插的上限和下限之间的固定协方差何等人提出的。Dhariwal和Nichol [11]表明，扩散模型可以实现优于不−Σ18211^D当前最先进的生成模型的图像样本质量。他们改进了结果（六）其中Dc表示余弦距离。了类似的方法在CLIP引导扩散[8]中使用，其中xt和x0的线性组合用于为扩散提供全局引导。通过仅考虑输入掩码下CLIP通过这种方式，我们有效地将CLIP引导的扩散[8]适应于局部（基于区域的）编辑设置。18212^dN−^dN−-√阿泰-√阿泰1← ⊙ ⊙−DDD^D^2000年8月，L←DCLIP（x^0，aug，d，m）+λDbg（x，x^0，aug，m）DCLIP（x^0，aug，d，m）中文（简体）Ni=1算法1局部CLIP引导扩散，给定扩散模型（μθ（xt），μθ（xt））和CLIP模型输入：源图像x，目标文本描述d，输入掩码m，扩散步长k，背景保留系数λ输出：在区域m内与输入图像x不同的编辑图像x根据本说明书，xk（α<$kx0，（1α<$k）I）对于所有从k到1的t，µ，←µθ（xt），θ（xt）算法2文本驱动混合扩散：给定扩散模型（μθ（xt），μθ（xt））和CLIP模型输入：源图像x，目标文本描述d，输入掩码m，扩散步骤k，扩展增强的数量N输出：在区域m内与输入图像x不同的编辑图像x根据本说明书，xk（α<$kx0，（1α<$k）I）对于所有从k到0的t，µ，←µθ（xt），θ（xt）x^0←xt<$1−α<$t<$θ（xt，t）阿泰x^0←xt<$1−α<$t<$θ（xt，t）阿泰0，8月扩展增强（x0，N）x0，aug←EextendingA ugmentations（x^0，N）x^←^^xt−1<$N（µ+<$$>x^0L，<$）xfgN（µ+text，）结束返回x0xbg<$N（α<$tx0，（1−α<$t）I）xt−1xfgm+xbg（1 m）端returnx−1...输入+掩码λ= 100λ= 1000λ= 10000图3. 局部CLIP引导扩散中λ的影响。给定一个带有蒙版的输入图像，并提示输入输出地面（和背景保护是不完美的）。使用中间值（ λ=1000），模型改变前景，同时类似于原始背景（缩放以获得更多细节）。上述过程从各向同性高斯噪声开始并且没有背景约束。因此，尽管CLIP在掩蔽区域内进行评估，但它会影响整个图像。为了将周围区域转向输入图像，背景保留损失bg添加了用于引导掩模外部的扩散的：Dbg（x1，x2，m）=d（x1 <$（1−m），x2<$（1−m））1（7）d （ x1 ， x2 ） = （ MSE （ x1 ， x2 ）+LPIPS（x1，x2））2其中，MSE是图像之间像素差异的L2范数，LPIPS是学习感知图像块相似性度量[56]。因此，扩散引导损失被设置为加权和CLIP（x0，d，m）+λbg（x，x0，m），并且在算法1中总结了所得方法。在实践中，我们发现上述两个指导术语之间存在固有的权衡，如图3所示。请注意，即使在中间情况下，λ=1000时，结果远非完美：背景仅大致保留，前景受到严重限制。我们将在下一节中解决这个问题。4.2. 文本驱动的混合扩散前向噪声处理隐式地定义了图像流形的进展，其中每个流形包括…x−1“greenflame”夹扩散“green夹扩散“greenXtq（xt|x）xt−1，fgxt−1xt−2，fg掩模图像xt−1，bgxt−2，bg18213⊙^最明显的问题是，将这两个图像组合在一起，图4. 文本驱动的混合扩散。给定输入图像x，输入掩码M和文本提示D，我们利用扩散过程来局部地和相干地编辑图像。我们使用输入掩码m表示两个图像的逐元素混合。噪声图像。反向的去噪扩散过程的每一步为了创建一个无缝的结果，其中被掩蔽的区域符合指导提示，而图像的其余部分与原始输入相同，我们在空间上将由CLIP引导过程逐步生成的每个噪声图像与输入图像的相应噪声版本我们的关键见解是，虽然在每个步骤中，混合两个噪声图像的结果该过程在图4中描绘并且在算法2中总结。4.2.1背景保持混合保留背景的一种简单方法是让CLIP引导的扩散过程生成没有任何背景约束的图像x（通过在算法1中设置λ = 0）。接下来，将生成的背景替换为从输入图像中获取的原始背景：x m + x（1 − m）。的这种方式无法产生连贯、无缝的结果。参见补充说明。在他们的开创性工作中，伯特和阿德尔森[7]表明18214⊙ ⊙−^0DD通过分别混合两个图像的拉普拉斯金字塔的每一级，可以平滑地混合两个图像。受此技术的启发，我们建议沿扩散过程在不同的噪声水平我们的关键假设是，在扩散过程中的每一步，一个嘈杂的潜在的投影到一个流形的自然图像噪声到一定程度。虽然混合两个噪声图像（来自相同级别）产生可能位于流形外部的结果，但是下一扩散步骤将结果投影到下一级别流形上，从而改善不相干性。因此，在每个阶段，从潜在的x t开始，我们执行一个单一的CLIP引导的扩散步骤，该步骤在取决于文本提示的方向上对潜在的进行去噪，产生表示为x t-1，fg的潜在。此外，我们使用等式（2）从输入图像获得背景xt-1 ，bg的噪声版本现在使用掩码混合两个潜伏期：x t−1=x t−1，fgm+xt−1，bg（一）m），并且重复该过程（参见图4和算法2）。在最后一步中，将掩模外部的整个区域替换为来自输入图像的对应区域，从而严格保留背景。4.2.2扩展增强对抗性示例[20，46]是一种众所周知的现象，可能会在直接优化图像的像素值时发生。例如，一个分类器可以很容易地被愚弄，通过稍微改变图像的梯度方向来错误地对图像进行分类。添加这种对抗性噪声将不会被人类感知，但分类将是错误的。类似地，通过CLIP引导的扩散的像素值的逐渐变化可能导致减少CLIP损失，而不会在图像中创建期望的高级语义变化。我们发现这种现象在实践中经常Bau等人[4]也遇到了这个问题，并使用基于进化策略的非梯度方法解决了这个问题。我们假设，通过对每个扩散步骤估计的中间结果执行几次增强这样，为了“欺骗”CLIP，操作必须在所有增强上都这样做，这在图像中没有高级别的变化的情况下事实上，我们发现一个简单的增强技术缓解了这个问题：给定当前估计结果x，而不是直接采用CLIP损失的梯度，我们相对于这个图像的几个投影变换副本来然后将这些梯度一起平均。我们将这种策略称为“扩展增强”。在第5.2节中研究了这些增强的影响。我们以及本文中所有比较的局部CLIP GD基线（算法1）4.2.3结果排名算法2可以为相同的输入生成多个输出;这是一个理想的特性，因为我们的任务本质上是一对多的与[41，42]类似，我们发现生成多个预测，对它们进行排名并选择得分较高的预测是对于排名，我们利用CLIP模型，在最终结果上使用来自等式（6）的相同CLIP，而没有扩展增强。5. 结果我们首先将我们的方法与以前的方法和基线进行定性和定量比较。接下来，我们将展示使用扩展增强的效果。最后，我们展示了几个应用程序启用我们的方法。5.1. 比较在图5中，我们将通过我们的方法执行的文本驱动编辑与使用（1）PaintBy- Word[4]执行的编辑进行比较;（2）局部CLIP引导的扩散，如算法1中所述，λ=1000;以及（3）VQGAN-CLIP + Paint By Word [4，9]。对于后者，我们调整VQGAN-CLIP [9]以使用来自等式（6）的相同CLIP损失来此外，我们发现可以通过仅优化与编辑区域对应的VQGAN [13]潜在空间的一部分来改善结果，类似于Bau等人的过程。因为VQGAN包含了一个预训练的解码器，我们可以很容易地在真实图像上使用这种方法。我们将此方法命名为PaintByWord++。自Bau et al.[4]目前还没有，我们使用他们论文中包含的例子进行比较。请注意，由于PaintByWord仅在GAN生成的图像上运行，因此此比较中的所有输入图像为了在位置上获得更好的结果，Bau等人[4]使用了两种不同的模型：一种是在MIT Places [58]上训练的，另一种是在ImageNet [10]上训练的。相比之下，我们的方法可以在真实图像上操作，并使用在ImageNet上训练的单个DPPM模型。图5所示的结果表明，尽管PaintByWord和其他两个基线都鼓励背景保留，但背景并不总是保留的，并且在几乎所有情况下都会发生一些全局变化。此外，在每一行（1）-（3）中，存在一些看起来不现实的结果。相比之下，我们的方法完美地保留了背景，并且编辑看起来与周围背景自然且一致。为了获得定量的结果，我们进行了初步的用户研究，比较不同的重新，18215“A photo图5. 使用Paint By Word [4]中的示例进行比较。我们使用GAN生成的输入图像，以及Bau等人[ 4 ]提供的用户提供的掩码和文本提示，以及他们的结果（1）。在接下来的两行中，我们显示了另外两个基线的结果：（2）Local CLIP GD [8]和（3）PaintByWord++[4，9]。我们的结果（底行）展示了更真实的对象。此外，我们的方法完美地保留了输入图像的背景区域，而其他方法改变了它。方法现实主义↑背景↑文字匹配↑[4]第四章：31± 1。383. 25± 1。333. 14 ±1。31[8]第八届全国人大常委会委员长会议50± 1。193. 11± 1。243. 86 ±1。32[4，9]第四章：一个人的世界94± 1。363. 37±1。303. 01 ±1。38我们的3号。93± 1。084. 73± 0。61463± 0。77表1. 用户研究结果：向参与者提供图5所示的输入和结果，并要求参与者根据以下标准在1-5的Likert量表上对每个结果进行评分：总体结果真实性、背景保留以及文本提示与结果之间的对应性。显示了每种方法和标准的平均值和标准差。结果见图5。参与者被要求对每个结果的真实性，背景保护和对应的文本提示。表1显示，我们的方法在所有这些方面都优于三个基线。详情请参阅补充资料。在图6中，我们进一步将我们的方法与局部CLIP引导扩散和PaintByWord++进行了比较，这次使用真实图像作为输入。结果再次证明了基线方法保留背景的能力，并且表现出编辑区域和背景之间缺乏一致性。它的周围环境，与我们的方法的结果相反。5.2. 延长性增强体为了评估第4.2.2节所述的扩展增强技术的重要性，我们从我们的方法中完全禁用扩展增强（Al-出租m2）。图7展示了增强的重要性：在两次运行中使用相同的随机种子，一次使用增强，另一次不使用增强。我们可以看到，使用增强生成的图像在视觉上更可信，并且比没有增强生成的图像更连贯5.3. 应用我们的方法是适用于通用的现实世界的图像，并可用于各种应用。下面我们演示几个。文本驱动的对象编辑：我们能够添加，删除或更改图像中的任何现有对象。图8演示了向图像添加新对象的能力。注意，该方法能够生成各种各样的合理结果。而不是完全替换一个对象，我们（三（二（一输入+掩码18216“pink黄色条纹图6.与真实图像上基线的比较与（1）局部CLIP引导扩散[8]和（2）PaintByWord++[4，9]的比较与我们的方法的结果相比，这两种基线都不能保留背景，并且产生不太自然/连贯的结果输入+掩码（1）（2）图7. 扩展增强消融：使用相同的随机种子和输入，我们比较了生成的结果（1）没有扩展增强和（2）有扩展增强。增强使所产生的图像与背景更加自然和连贯。更多示例请参见补充材料。如图8的底行所示，在文本提示的引导下，仅可以替换它的一部分。图1演示了删除对象或用新对象替换对象的能力。移除是通过不提供任何文本提示来实现的，并且它等同于传统的图像修补，其中不涉及文本或其他指导。背景替换：不是编辑前置对象，还可以使用文本指导替换背景，如图1所示。补充结果中包含前景和背景编辑的其他示例。涂鸦引导编辑：由于扩散模型的噪声过程，另一幅图像或用户提供的涂鸦-输入+掩码结果1结果2结果3图8. 多个结果：给定相同的指导文本（顶行：可以作为指导。例如，用户可以在背景图像上涂写粗略的形状，提供掩模（覆盖涂写）以指示允许改变的区域，以及文本提示。我们的方法将把涂鸦转换成自然对象，同时尝试匹配提示符，如图9所示。文本引导的图像外推是由文本描述引导的将图像扩展到其边界之外的能力。所产生的变化是渐进的。图10演示了这种能力：用户提供了一个图像和两个文本提示，每个提示用于在一个方向上外推图像。生成的图像可以是任意宽的（并混合多个提示）。补充材料中提供了更多细节。（二（一输入+掩码我们“huge“香肠”18217(a)源图像(b)外推结果原始图像输入涂鸦结果1结果2图9. Scribble-guided editing：用户可以随意画出想要插入的对象的大致形状，标记编辑区域，并提供一个指导性文本--该模型使用涂鸦作为一般的请注意，涂鸦图案也可以改变。图10. 文本引导的图像外推：用户提供输入图像和两个文本描述：“地狱”和“天堂”。模型使用“hell”提示将图像外推到左侧6. 局限性和未来工作我们的工作的主要限制是它的推理时间。由于DDPM的顺序性质，在补充说明中描述的现代GPU上生成单个图像大约需要30秒。此外，我们生成几个样本并选择排名最高的样本，如第4.2.3节所述。这限制了我们的方法对于实时应用和弱终端用户设备（例如移动设备）的适用性。为了解决这个问题，需要进一步研究加速扩散采样。此外，第4.2.3节中给出的排名方法并不完美，因为它只考虑了编辑区域，而没有考虑图像的整个上下文。因此，仅包含所需对象的一部分的不良结果仍然可以获得高分，如图11（1）所示。一个更好的排名系统将使我们的方法产生更引人注目和连贯的结果。此外，由于我们的模型是基于CLIP的，它继承了它的弱点和偏见。研究表明[18] CLIP容易受到排版攻击-利用模型强大阅读文本的能力，他们发现即使是手写文本的照片也经常可以欺骗模型。图11（2）表明，即使在生成图像时也会发生这种现象进一步研究的一个途径是训练CLIP版本，它对高斯噪声不可知。这可以通过训练CLIP的版本来完成，CLIP的版本获得有噪图像、噪声水平和描述文本作为输入，并且使用：输入+掩码（1）（2）（3）图11. 失败案例：给定源图像、掩码和描述的失败案例示例“橡胶玩具”：（1）部分对象-仅按编辑区域排名可能会导致部分对象获得高分，（2）印刷偏差-模型可以生成带有单词“rubber”的符号对比损失训练期间的噪声处理应与等式（2）中相同。研究的另一个途径是将我们的问题扩展到其他模式，例如用于3D对象或视频的通用文本编辑器7. 社会影响照片处理几乎与照片创作过程本身一样古老[15]。这种操纵可以用于艺术，娱乐，美学，讲故事和其他合法用例，但同时也可以用于通过照片撒谎，欺凌，骚扰，勒索，并可能产生心理后果[17]。事实上，我们的方法可以用于上述所有的。例如，它可能被滥用来增加假新闻的可信度，这在当前的媒体环境中是它还可能削弱对照片证据的信任，并允许真实事件和真实证据被视为虚假[5]。虽然我们的工作并没有实现专业图像编辑器无法实现的任何功能，但它确实增加了操作过程的易用性，从而允许技术能力有限的用户操作照片。我们对我们的研究充满热情，不仅是因为合法的用例，还因为我们相信这样的研究必须在学术界公开进行，而不是保密。我们将为学术界提供我们的代码，我们正在积极致力于完成这项工作：图像和视频取证方法。8. 结论我们介绍了一种新颖的解决方案，文本驱动的编辑自然图像的问题，并证明了其优越性的基线。我们相信，使用自由文本编辑自然图像是一种高度直观的交互，这将进一步发展到一个水平，使其成为每个内容创作者武库中不可或缺的工具。致谢本工作得到了Lighttricks有限公司和以色列科学基金会的部分支持（赠款编号2492/20和1574/21）。18218引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.如何将图像嵌入到StyleGAN潜在空间？在IEEE/CVF计算机视觉集，第4432一、二[2] Rameen Abdal，Yipeng Qin，and Peter Wonka. Im-age2stylegan ++：如何编辑嵌入的图像？在IEEE/CVF计算机视觉和模式识别会议的论文集，第8296-8305页一、二[3] Yuval Alaluf ， Or Patashnik ， and Daniel Cohen-Or.Restyle：通过迭代细化的基于残差的StyleGAN编码器IEEE/CVF计算机视觉国际会议论文集，第6711-6720页，2021年。一、二[4] David Bau 、Alex Andonian 、 Audrey Cui、YeonHwanPark、Ali Jahanian、Aude Oliva和Antonio Torralba。用词作画arXiv预印本arXiv：2103.10951，2021。一、二、五、六、七[5] 亚伦·布莱克据报道，特朗普暗示“进入好莱坞”的录像带是假新闻。https：//www.washingtonpost.com/news/the-fix/wp/2017/11/27/trump-is-reported-saying-the-access-hollywood-tape-was-fake-news-he-should-talk-to-2016-trump/. 访问时间：2021-11-15。8[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练arXiv预印本arXiv：1809.11096，2018。一、二[7] Peter J Burt和Edward H Adelson。拉普拉斯金字塔作为一个紧凑的图像代码。在计算机视觉阅读，第671-679页。爱思唯尔，1987年。4[8] 凯瑟琳 · 克劳森。夹引导扩散 HQ 256x256 。https://colab.research.google.com/drive/12a_cnfi2_gwwAuN3VvMTwVMz9TfqctNj. 二三六七[9] 凯瑟琳·克劳森。VQGAN+CLIP。h t t p s ：/ / colab.research.Google.com/drive/1L8oL-vLJXVcRzCFbPwOoMkPKJ8-aYdPN. 二五六七[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[11] Prafulla Dhariwal和Alexander Nichol。扩散模型在图像合成中优于gans。神经信息处理系统的进展，34，2021。二、三[12] 丁明，杨卓义，洪文义，郑文迪，周昌，尹大，林俊阳，邹旭，周少，杨红霞，等。 Cogview ：通过transformers 掌握文本到图像的 arXiv 预印本 arXiv ：2105.13290，2021。1[13] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在IEEE/CVF计算机视觉和模式识别会议上，第12873-12883页，2021年。二、五[14] Zeev Farbman 、 Gil Hoffer 、 Yaron Lipman 、 DanielCohen-Or和Dani Lischinski。用于即时图像克隆的坐标。ACM事务处理图表，28（3），2009年7月。1[15] 哈尼·法里德数字医疗：我们能相信照片吗？2009. 818219[16] 费勒。随机过程理论，特别是应用。在第一次伯克利数学统计和概率研讨会上，第403-432页，1949年。3[17] 奥哈德·弗里德，詹妮弗·雅各布斯，亚当·芬克尔斯坦，还有马尼什·阿格拉瓦拉.编辑自我形象。第63卷，第702020年。计算机协会8[18] 加布里埃尔·吴、尼克·卡马拉塔、切尔西·沃斯、单·卡特、迈克尔·彼得罗夫、路德维希·舒伯特、亚历克·雷德福和克里斯·奥拉。人工神经网络中的多模态神经元。截止到2021年。https://distill.pub/2021/multimodal-neurons. 8[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。1[20] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。5[21] James Hays和Alexei A.埃夫罗斯使用数百万张照片完成场景。ACM事务处理图表，26（3）：42007年7月。1[22] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统的进展，30，2017。3[23] Tobias Hinz，Stefan Heinrich，and Stefan Wermter.生成式文本到图像合成的语义对象精度arXiv预印本arXiv：1910.13321，2019。1[24] Jonathan Ho，Ajay Jain，and Pieter Abbeel.去噪扩散概率模型。在NeurIPS，2020年。二、三[25] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无干扰生成对抗网络。 arXiv 预印本 arXiv ：2106.12423，2021。1[26] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页，2019年。1[27] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第8110-8119页，2020年。一、二[28] 金广贤和叶正哲Diffusionclip：使用扩散模型的文本引导图像操作. arXiv预印本arXiv：2110.02711，2021。2[29] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.可控的文本到图像生成。arXiv预印本arXiv：1909.07083，2019。1[30] Wenbo Li ， Pengchuan Zhang ， Lei Zhang ， QiuyuanHuang，Xiaodong He，Siwei Lyu，and Jianfeng Gao.通过对抗训练实现对象驱动的文本到图像合成。在IEEE/CVF计算机视觉和模式识别会议上，第12174-12182页，2019年。118220[31] Xihui Liu ， Dong Huk Park ， Samaneh Azadi ， GongZhang ， Arman Chopikyan ， Yuxiao Hu ， HumphreyShi，Anna Rohrbach，and Trevor Darrell.更多免费控制！具有语义扩散指导图像合成。arXiv预印本arXiv：2112.05744，2021。2[32] Elman Mansimov ， Emilio Parisotto ， Jimmy Ba ， andRuslan Salakhutdinov. 从字幕生成图像与 atten- tion 。CoRR，abs/1511.02793，2016。2[33] 瑞恩 · 默多克的大睡眠：BigGANxCLIP 。https：//colab.research.Google.com/github/levindabhi/CLIP-Notebooks/blob/main/The_Big_Sleep_BigGANxCLIP.ipynb. 2[34] Alex Nichol、Prafulla Dhariwal、Aditya Ramesh、PranavShyam、Pamela Mishkin、Bob Mc

下载后可阅读完整内容，剩余1页未读，立即下载