灵活语义扩散指导下的图像合成模型

52 浏览量更新于2023-10-16 收藏 2.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1更多免费控制语义扩散指导下的图像合成Xihui Liu1，4*Dong Huk Park1Samaneh Azadi1Gong Zhang2，3Arman Chopikyan2Yuxiao Hu2Humphrey Shi2，3Anna Rohrbach1Trevor Darrell11UC Berkeley2 Picsart AI Research（PAIR）3俄勒冈大学4香港大学（a）具有语言引导的（b）具有图像引导的图像合成一个微笑着的女人，直，金发戴着太阳镜。图像引导生成的图像(c) 语言和图像引导的图像合成语言指导+图像指导生成的图像一个女人的照片+卷发。图1：我们将灵活的语义指导纳入图像合成的扩散模型。我们的方法允许通过语言、图像或多模态指导进行细粒度控制。它可以应用于没有成对的图像-文本数据的数据集。摘要可控图像合成模型允许基于文本指令或来自参考图像的指导来创建不同的图像。最近，去噪扩散概率模型已被证明比现有方法生成更真实的图像，并已成功地证明在无条件和类条件设置。我们调查细粒度，连续控制这个模型类，并引入一个新的统一框架的语义扩散指导，它允许语言或图像指导，或两者兼而有之。使用图像-文本或图像匹配分数的梯度将指导注入到预训练的无条件扩散模型中，而无需重新训练扩散模型。我们将在一个统一的框架中探索基于CLIP的语言我们的文本引导合成方法可以应用于没有相关文本注释的数据集。我们在FFHQ和LSUN数据集上进行了实验，并在细粒度文本引导的IM上显示了结果。*这项工作是在刘希慧（Xihui Liu）在加州大学伯克利分校（UCBerkeley）做博士后时完成的年龄合成、与风格或内容参考图像相关的图像合成、以及具有文本和图像指导的示例。11. 介绍图像合成近年来取得了很大的进展[24，5，37，42，10]。除了生成高质量的照片级真实感图像的目标之外，在辅助用户进行艺术创作和设计时，对所生成的图像进行细粒度以前的作品已经通过添加不同的条件探索了可控图像合成，包括语言[57，54，42]，属性[59，46，53]，场景图[9]和用户草图或涂鸦[4]。具体来说，如图1-（a）所示，文本到图像合成的目的是通过将文本嵌入作为条件信息添加到图像生成网络来基于文本指令生成图像。然而，大多数以前的文本到图像合成方法需要图像-字幕对进行训练，并且可以1项目页面xh-liu.github.io/sdg/289290不泛化到没有文本注释的数据集。除了文本指令之外，用户可能想要用参考图像来引导图像生成模型例如，在一个示例中，用户可能想要生成在外观方面看起来类似于猫的给定照片的猫图像。该信息无法通过语言轻松描述，但可以通过参考图像提供，如图1-（b）所示。此外，用户可能想要提供语言和图像引导两者例如，用户可能寻求生成看起来类似于具有红头发的当前的图像调节合成技术要么仅将参考图像的“风格”转移到目标图像[21，3]，要么仅限于具有明确定义的结构的域，例如，人或动物的脸[21，53]。它们不能基于单个参考图像生成具有各种姿态、结构和布局的不同图像。我们提出了语义扩散指导（SDG），一个统一的框架，文本引导和图像引导的合成，克服了这些限制。我们的模型基于去噪扩散概率模型（DDPM）[19]，该模型从噪声图生成图像，并迭代去除噪声以接近自然图像的数据分布。我们通过使用引导函数来引导无条件扩散模型的采样过程，从而注入语义输入。这使得在扩散模型中更可控的生成，并为我们提供了一个统一的语言和图像指导。具体来说，我们的语言指导是基于CLIP [41]对噪声图像进行微调至于图像引导，根据我们在图像中寻找的信息，我们定义了两个选项：内容和风格引导。指导模块的灵活性使我们能够将语言或图像指导单独或同时注入任何无条件扩散模型，而无需重新训练。我们提出了一个自我监督的计划，微调CLIP图像编码器没有文本注释，从我们获得的指导模型，以最小的成本。我们的统一框架是灵活的，并允许在图像合成中进行细粒度的语义控制，如图1所示。我们证明了我们的模型可以处理：（1）在没有语言注释的情况下对任何数据集进行细粒度文本查询的文本引导的图像合成;（2）具有来自输入图像的内容或样式控制的图像引导的图像合成，其生成具有不同姿态、结构和布局的各种图像;（3）用于具有语言和图像输入的图像合成的多模式引导。我们灵活的指导网络可以注入到现成的无条件扩散模型中，而无需重新训练扩散模型。我们进一步提出了一个自我监督的高效微调计划的CLIP制导模型，它不需要文本注释。我们在FFHQ [12]和LSUN [56]数据集上进行了实验以验证我们所产生的图像的质量、多样性和可控性，并展示我们所提出的语义扩散指导的各种应用2. 相关工作由GAN-INT- CLS [44]和GAWWN [45]开创的文本引导合成，条件生成对抗网络（GANs）[15]一直是基于文本的主要框架。图像合成姐已经研究了各种方法，导致编辑质量和正确性的显著改善[55，60，51，27，11，61，33，35，17，28，7，23，40]。最近的工作DALL-E [42]通过利用网络规模的数据显示了变压器[52]和离散VAE [43]的有希望的结果。并行工作GLIDE [36]适用于大型扩散模型的无分类器指导和文本指导图像合成的大规模训练。尽管有很大的进步，但现有方法需要成对的图像-文本注释，这将应用限制于某些数据集或需要大量数据和计算资源用于训练。我们提出的框架是能够生成图像的多个域给出详细的文本提示，既不需要从这些域的图像-文本配对数据，也不需要大量的计算来训练文本引导的图像合成模型。图像引导合成图像引导合成的目的是生成不同的图像的约束，他们都应该类似于一个给定的参考图像的内容或风格。许多风格转换作品都属于这一类，其中输入图像的内容必须保留，而参考图像的风格被转换[13，29，16，14，26，20，31，30，38，1]，但他们努力生成不同的图像。一些作品研究由参考图像的内容引导的图像合成。ILVR [8]提出了一种将图像引导迭代注入扩散模型的方法，但它显示出生成图像的有限结构多样性。Instance-Conditioned GAN [6]使用给定参考的最近邻图像进行对抗训练，以生成结构多样但语义相关的然而，它需要用实例条件技术训练GAN模型。我们的方法展示了更好的可控性，因为提出了不同类型的图像引导，其中用户可以通过使用不同类型和尺度的引导来决定保留多少语义、结构或样式信息，同时不需要重新训练无条件扩散模型。扩散模型扩散模型是一种新型的生成模型，由正向过程（信号到噪声）和反向过程（噪声到信号）组成。去噪扩散概率模型（DDPM）[47，19]是一种潜变量模型，其中去噪自动编码器将高斯噪声逐渐转换为信号。基于分数的生成模型[48，49，50]训练神经网络以291∼Y--s=1θθθ|N|不 0不0不-Q通过Langevin动力学预测用于抽取样本的得分函数。与GAN相比，扩散模型具有相当或更高的图像质量，同时表现出更好的模式覆盖率和训练稳定性。它们还被探索用于条件生成，例如类条件生成、图像引导合成和超分辨率[50，10，8，34]。并行工作[2]探索了具有扩散模型的文本引导图像编辑。Dhariwal等人[10]提出的分类指导类条件的图像合成与扩散模型。基于[10]中提出的引导算法，我们进一步探索扩散模型是否可以由文本或图像或两者来语义引导以合成图像。CLIP引导一代和Manipulation CLIP [41]是一个强大的视觉语言联合嵌入模型，在大规模图像和文本上训练。它的表示已被证明是强大和通用的，足以在不同的数据集上执行零镜头分类和各种视觉语言任务。StyleCLIP [39]和StyleGAN-NADA [12]已经证明，CLIP能够实现文本引导的图像操作和图像生成的域适应，而无需特定于域的图像-文本对。DiffusionCLIP[25]使用CLIP进行基于语言的图像编辑，而BlendedDiffusion [2]探索了使用CLIP进行遮罩引导的图像编辑。然而，应用到图像合成还没有被探索。我们的工作研究文本和/或图像引导合成...图2：我们的方法基于DDPM模型，该模型通过在每个时间步迭代去除噪声来从噪声图生成图像。我们通过语义扩散指导（SDG）与语言和/或参考图像来控制扩散生成过程。SDG在生成过程的每一步都我们仅在图中的一个时间步处3.1. 用于可控图像合成的引导扩散模型扩散模型定义了一个马尔可夫链，其中随机噪声逐渐添加到数据中，称为正向过程。形式上，给定从真实数据分布x0q（x）采样的数据点，前向过程在T个时间步上顺序地向样本添加高斯噪声：q（xt|xt−1）=N（xt;β1−βtxt−1，βtI）使用CLIP和无条件DDPM。3. 语义扩散引导不q（x1：T|x0）= q（xt|xt−1），t=1（一）我们提出了语义扩散指导（SDG），这是一个统一的框架，将不同形式的指导纳入一个预先训练的无条件扩散模型。SDG其中βt=1：T表示控制噪声步长的恒定或学习方差调度。前向过程的一个性质是我们可以从x0中以封闭形式采样x t：可以利用语言指导，图像指导，以及两者，使得能够进行可控的图像合成。导者，导者。q（x|x）=α<$x+1−α<$，N（0，1）（2）规则可以被注入到任何现成的无条件扩散模型中，而无需重新训练或微调它。我们只需要在具有不同噪声水平的图像上微调指导网络，这是我们实现中的CLIP [41]模型。我们提出了一种自监督微调方案，该方案是有效的，并且不需要配对的语言数据来微调CLIP图像编码器。在第3.1节中，我们回顾了扩散模型的预备知识，并介绍了我们的方法注入可控图像合成的指导。在第3.2节中，我们描述了使无条件扩散模型能够执行文本到图像合成的语言指导。在第3.3节中，我们提出了两种类型的图像引导，它们分别将参考图像的内容和风格信息在第3.5节中，我们解释了如何微调CLIP网络，而不需要目标域中的文本注释。其中α t= 1β t和α t=tα s。生成式建模是通过学习向后过程来完成的，其中向前过程通过参数化的对角高斯转换来反转：p θ（xt−1|xt）=N（xt−1;μθ（xt），σ2（xt）I）（3）为了简洁起见，我们选择符号p θ（x t−1x t）=（μθ，σ2I）。为了学习向后过程，神经网络被训练以预测μ θ和σ2。上面的公式解释了无条件向后过程pθ（xt−1xt）;有了额外的引导信号y，采样分布变为：p θ，（xt−1|xt，y）=Zpθ（xt−1|xt）p（y|xt−1），（4）其中Z是归一化常数。”[10]这句话的意思是：“新的指导方针是可以实现的。SDG...SDG戴墨镜292θ|N不F不Cj HjWj我不 J我不 J 2近似为具有移动均值的高斯分布p θ（xt−1|xt）p（y|xt−1）=N（μ+μg，μ），（5）3.3.图像引导有时，一个图像可以传达不同的信息其中，µ=µθ，=σ2I，g=xt−1 logp（y|xt−1）。用语言来表达。例如，用户可能希望为了生成一张看起来与另一只猫相似的猫的照片在[10]中探索了类引导合成，其中y是离散的类标签，并且p ∈（y|xt−1）是x t−1属于y类的概率。在这里，我们将y推广到语言，图像或多模态guid的连续嵌入ance. 下面，我们介绍一下引导功能F（x t，y，t）= log p（y x t）对于不同的制导类型。图2和算法1总结了所提出的语义扩散引导。注意，算法1中存在用于语义引导的附加缩放因子s，用户控制的超参数确定引导的强度。我们将在第4节讨论其影响。或者想要生成梵高的画作“星夜”风格的卧室照片他们可能还希望在给定表情符号或绘画的情况下生成逼真的图像。因此，我们提出了一种方法，图像引导扩散，有效地控制内容或风格的信息，根据一个图像。我们提出了两种类型的图像引导，即图像内容引导和图像风格引导。图像内容指导旨在基于参考控制所生成的图像的内容，具有或不具有结构约束，并且被公式化为图像特征嵌入的余弦相似性。设x′0表示算法一：语义扩散引导输入：制导y，比例因子s已知：扩散模型（µθ，σθ），指导函数F（xt，y，t）xT←从N（0，I）采样对于t=T，···1doµ，←µθ，σ2I无噪声参考图像。我们根据等式2扰动x ′0以得到x ′t。然后，在时间步长t处的引导信号是，F（xt，x′t，t）=EI′（xt，t）·EI′（x′t，t）.（七）与语言指导类似，我们使用一个图像编码器来定义图像指导，xt−1θ←样本来自函数并提取主要捕获高级语义的嵌入。使用IM的一个有趣特性-（µ+sxtF（xt，y，t），端返回x03.2.语言指导语言是用户可以控制生成模型的最直观的方式之一为了将语言信息结合到图像合成过程中，我们使用视觉语义嵌入模型进行图像-文本对齐。具体来说，给定图像x和文本提示l，该模型将它们嵌入到联合嵌入空间us中。用于引导的年龄编码器的一个优点是，可以控制从参考图像中保留多少结构信息，例如姿态和视点。例如，等式7中使用的嵌入不具有空间维度，导致采样在姿态和布局上具有很大变化。然而，通过利用空间特征图和在对应的空间位置中的特征之间强制对准，我们可以引导所生成的图像额外地与参考图像共享类似的结构，如下所述。F（x，x′，t）=−1||E′（x，t）−E′（x′，t）||2J分别对图像编码器E1和文本编码器E1进行编码，（八）活泼地嵌入EI（x）和EL（l）之间的相似性被计算为余弦距离，并且我们利用它来制定语言指导函数。然而，等式5中的用于后向处理和引导的模型这意味着图像编码器E1需要将时间步长t并入作为输入，并且还需要在不同时间步长处对噪声图像进行进一步训练。我们表示其中EI′j∈RCj×Hj×Wj 表示图像编码器E1’的第j层的空间特征图。图像风格指导允许从参考图像中转移风格存在图像。其被类似地公式化，除了中间特征图的格拉姆矩阵之间的对齐被强制执行：F（xt，x′t，t）=−||G′I（xt，t）j−G′I（x′t，t）j||第二条，第（九）项这种用于噪声图像的时间相关的图像编码器如EI′。J293不我不L最后，语言指导函数可以定义为：F（x，l，t）=E′（x，t）·E（l），（6）其中G′I（）j是第j层fea的格拉姆矩阵[22]其中E′表示在具有附加时间步长输入的噪声图像上训练的图像编码器。在第3.5节中，我们详细介绍了如何调整CLIP模型[41]，使其在最小架构变化的情况下变得依赖于时间，并提出了一种用于噪声图像的自监督微调策略。3.4. 多模态制导在某些应用场景中，图像和语言可能包含互补信息，同时允许图像和语言引导提供了进一步的图像编码器EI′的真实映射。294˜˜˜×˜0˜我不是i=1--表1：我们提出的SDG的定量评估以及与之前在FFHQ数据集上使用图像指导和文本指导的工作的比较。对于FID，越低越好。对于其他分数，越高越好。质量多样性正确性（检索评价）FID LPIPS Top 1Top 5 Top 10 Top 20影像引导ILVR（N=32）[8]17.152016年12月31日SDG14.370.5830.520 0.742 0.8160.906文本指导StyleGAN+CLIP57.450.5780.749 0.934 0.9740.996SDG28.380.6100.553 0.795 0.8780.947用户控制的灵活性我们的管道可以很容易地通过两个指导函数的加权和来合并两者，并将其缩放因子作为权重。F 0（x t，y，t）= s1F 1（x t，y，t）+s2F 2（xt，y，t）。（十）通过调整每个模态的加权因子，用户可以在语言和图像引导之间取得平衡。3.5. 无文本注释CLIP [41]是一个强大的视觉和语言模型，在大规模图像-文本数据上训练。我们利用它的语义知识来实现扩散模型的可控综合作为一个指导功能，CLIP预计将处理噪声图像xt在任何时间步长t。我们对CLIP图像编码器E1进行较小的架构改变，以通过将批归一化层转换为自适应批归一化层来接受附加输入t，其中尺度和偏置项的预测以t为条件。我们将这种修改的CLIP图像编码器表示为EI。EI的参数由预训练的CLIP模型EI，除了参数对于自适应批量归一化层。为了微调EI，我们提出了一种自监督的方法，在该方法中，我们强制从干净和有噪声的图像中提取的特征之间进行对齐形式上，给定一批N对干净图像和噪声图像，其中t i是针对第i个图像采样的时间步长，其控制噪声的大小。4. 实验4.1. 数据集和实施详细信息我们对FFHQ [24]和LSUN [56]猫、马和卧室子集进行实验。FFHQ 数据集包含70 ，000 张人脸图像。LSUN包含300万张卧室图像，200万张马图像和170万张猫图像。我们使用[10， 8]中的无条件DDPM和finetune CLIP [41] RestNet 50 16模型对每个数据集上的噪声图像进行处理，初始学习率为10−4，权重衰减为10−3，批量大小为256。当将图像与我们的SDG进行合成时，比例因子是一个超级参数，我们可以针对每个指导手动调整，这将在第2节中讨论。4.3.默认缩放因子对于图像引导为100，对于语言引导为120。4.2. 定量评价由于我们的SDG是第一种将文本引导和图像引导统一起来进行图像合成的方法，因此之前没有关于图像和语言引导的图像合成的工作。因此，我们分别评估语言引导的图像合成和图像引导的图像合成，以便与以前的工作进行我们评估了FFHQ数据集上的语言引导生成。为此，我们根据CelebA- Attributes [32]中的性别和面部属性的组合定义了400条文本指令。例如，“一张戴眼镜的微笑男子的照片”。我们为每个文本查询生成25个图像，总共生成10，000个图像。我们将我们的语言引导生成与StyleGAN+CLIP2进行了比较，后者使用CLIP [41] 损失来优化 StyleGAN [24] 的随机初始化StyleGAN+CLIP移除GAN反转模块[24]这是一种语言，它可以被应用到语言中。对于噪声量，我们用EI和EI，re-random对x 0和xti进行编码。我们依靠CLIP最大化N个正对的余弦相似性，同时最小化剩余负对的相似性。我们确定了EI的参数，并利用对比目标对EI的参数进行了微调。通过我们的微调CLIP模型，扩散模型可以由用户提供的图像或语言信息指导。此外，CLIP模型以自我监督的方式进行微调，而不需要目标数据集的任何语言数据。基于图像合成。由于我们的模型不需要文本注释的训练，我们的文本引导的图像合成实验进行只有图像的数据集没有配对的文本注释。因此，我们的方法不能直接与其他基于文本的图像合成方法进行比较，这些方法必须在文本图像配对数据集上进行训练。为了评估图像引导的图像合成，我们随机2https://colab.research.google.com/drive/1br7GP_D6XCgulxPTAFhwGaV-ijFe084X295×表2：我们提出的图像引导SDG的消融研究。“SDG”后面括号中的数字表示比例因子。对于FID，越低越好。对于其他分数，越高越好。质量多样性正确性（检索评价）FIDLPIPS前1前5前10前20LSUN可持续发展目标（100）16.020.6170.1780.4430.5920.766猫可持续发展目标（200）16.230.5650.2780.5330.7380.880LSUN可持续发展目标（100）10.300.5970.1650.4180.5680.704马可持续发展目标（200）11.220.5850.2980.6090.7380.863LSUN可持续发展目标（100）5.180.6330.3640.7450.8660.942卧室可持续发展目标（200）5.190.5500.4450.8050.9000.951表3：在FFHQ数据集上使用语言指导对我们提出的SDG进行的消融研究。“SDG”后面括号中的数字是比例因子。对于FID，越低越好。对于其他指标，越高越好。质量多样性正确性（检索准确性）FID LPIPS前1名前5名前10名前20可持续发展目标（120）19.600.6500.2480.5260.6540.795FFHQSDG（160）22.630.6440.2630.5480.6790.801可持续发展目标（320）28.380.6100.5530.7950.8780.947从每个数据集中选择10，000个图像作为指导，并基于指导图像合成新图像。我们将我们的图像引导结果与ILVR进行比较[8]。我们提出了定量结果，并与表1中的先前工作进行了比较，评估指标如下用于图像质量评价的FID。我们报告了对每个数据集的10，000张图像计算的FID评分[18]，以评估生成图像的质量。较低的FID指示较好的生成质量。我们的SDG在图像引导合成和语言引导合成方面都优于同类方法。用于多样性评估的LPIPS。我们计算了由相同图像引导或相同文本引导生成的配对图像之间的LPIPS评分[58]，如表1所示。较高的LPIPS指示更多的多样性。与以前的工作ILVR [8]和StyleGAN+CLIP相比，我们的模型生成了更多样化的图像。ILVR生成的图像遵循相同的结构和布局，但细节有所不同。虽然我们的方法能够生成具有不同姿势、结构和布局的各种图像，如图6（a）所示。由StyleGAN+CLIP生成的图像也遭受低多样性，如图6（b）所示。StyleGAN+CLIP的高FID分数也是因为生成的图像多样性低。检索准确度，以评价与指南的一致性。我们使用文本到图像检索或图像检索的原始CLIP ResNet 50 16模型没有微调，以评估如何以及生成的图像匹配的指导。对于文本引导生成的图像，我们从训练集中随机选择99幅真实图像作为阴性图像，并评估文本到图像的检索性能。类似地，对于与参考图像合成的图像，我们使用参考图像来检索生成的296从99个随机选择的真实图像3. Style-GAN +CLIP具有非常高的检索性能，因为StyleGAN模型的潜在代码被直接优化以最小化由用于检索的CLIP模型计算的CLIP得分。因此，StyleGAN+CLIP的高检索性能是以低代多样性为代价的，如高FID和低LPIPS分数所示4.3. 消融研究如第3.1节和算法1所示，比例因子s是控制引导强度的用户可控超参数。我们在表2和表3中探讨了比例因子的影响。附录中给出了不同比例因子影响的直观示例。我们观察到语义的正确性和生成的图像的多样性之间的权衡。随着比例因子变大，引导信号对生成结果具有更多的而较大的缩放因子也会导致生成图像的多样性较低用户可以调整缩放因子来控制他们期望生成的图像的多样性。4.4. 定性结果文本引导和图像引导的合成结果我们的模型将语言和图像引导结合在一个统一的框架中，并且易于适应各种应用。在图3中，我们显示了图像内容指导的合成结果（公式7）。通过图像引导扩散，该模型能够合成与引导图像语义相匹配的具有不同结构的新图像。图4显示了语言引导的扩散重新3所选的负像与我们用于合成图像的引导图像不相交297指导生成的图像指导生成的图像图3：LSUN和FFHQ数据集上图像内容指导的图像合成结果。给定引导图像，该模型能够生成具有不同姿态、布局和结构的语义相似的图像。一个微笑的女人，棕色卷发，涂着口红。一张戴帽子的女人的照片一只惊讶的白猫看着相机的照片一个人骑马的照片。一张棕色的马在草地上行走的照片一间卧室，有一个木制的壁橱，墙上有一幅画。图4：LSUN和FFHQ数据集上的图像合成结果以及语言指导我们的模型能够根据细粒度的语言指令生成结果，我们的模型能够处理复杂和细粒度的描述，如或者“一间有木制壁橱和墙上挂着画的卧室”我们还可以联合使用语言和图像指导，如图5所示图像和语言指导提供了互补的信息，我们的语义扩散指导能够生成与两者一致的图像。例如，我们可以生成类似于引导卧室图像但具有窗户的卧室，或者根据引导图像但具有语言引导定义的新属性（例如，“smiling” or “shorthair” or与先前工作的比较由于没有先前的工作将文本和图像引导结合在同一统一框架中，我们将我们的方法与先前的文本引导和图像引导的合成工作进行比较。在图像引导合成中，与我们的工作最相关的是ILVR [8]。6（a），我们的模型可以生成不同姿态和结构的图像，而ILVR只能生成相同姿态和结构的图像。我们将我们的语言引导图像合成与StyleGAN+CLIP进行了比较，图6（b）.虽然StyleGAN+CLIP能够生成高质量的图像，但其结果缺乏多样性，而我们的模型能够根据语言指令生成高质量和其他应用在图7（a，b）中，我们展示了样式（等式9）和结构保留（等式8）图像引导的结果。在风格指导下，在LSUN卧室上训练的模型能够合成看不见的风格的卧室。利用结构保留内容引导，合成图像保留来自参考图像的结构、姿态和布局。图7（c）示出了该模型能够将域外图像作为引导，并且合成在语义上类似于引导卡通图像的照片逼真图像。5. 结论与讨论我们提出了语义扩散指导（SDG），一个统一的框架，基于扩散的图像合成与语言，图像，或多模态的指导。灵活的引导模块允许我们注入各种类型的guid-298引导生成的图像指导生成的图像一个微笑的女人一个短+头发的女人一个骑马的人草地上的马一间卧室+一张照片+与windows两只猫图5：图像和语言指导的图像合成结果。图像和语言指导提供了互补的信息，我们的模型生成的图像与这两种指导来源相匹配。（b）语言指导：一张戴眼镜男子的照片。(a) 图像引导由我们的方法由我们的方法由ILVR生成由StyleGAN+CLIP优化生成图6：与以前工作的比较。(a)将图像引导的图像合成与ILVR进行了比较，（b）将文本引导的图像合成与StyleGAN+CLIP进行了比较。(a) 风格指导（c）域外指导图像(b) 结构保持导引图7：SDG的不同应用。(a)风格导向合成。(b)当用户不想生成不同的结构时，结构保留合成。(c)使用域外图像制导合成照片级真实感图像。进入任何现成的无条件扩散模型，而无需重新训练或微调扩散模型。我们进一步提出了一个自我监督的高效微调计划的CLIP指导模型，不需要文本注释。然而，图像生成具有与有益应用一样多的误用我们应该意识到潜在的负面社会影响，如果图像合成用于生成假图像以误导人。确认这项工作得到了国防部的部分支持，包括DARPA+++299引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄2风格：如何将图像嵌入到潜空间中？在IEEE/CVF计算机视觉国际会议论文集，第4432-4441页[2] Omri Avrahami，Dani Lischinski和Ohad Fried。用于自然图像的文本驱动编辑的混合扩散。arXiv预印本arXiv：2111.14818，2021。[3] Samaneh Azadi ， Matthew Fisher ， Vladimir G Kim ，Zhaowen Wang，Eli Shechtman，and Trevor Darrell.多内容甘为少数拍摄字体风格转移。在IEEE计算机视觉和模式识别会议论文集，第7564-7573页[4] David Bau，Hendrik Strobelt，William Peebles，JonasWulff，Bolei Zhou，Jun-Yan Zhu，and Antonio Torralba.语义- tic照片处理与生成图像之前。ACM Transactionson Graphics（TOG），38（4）：59，2019。[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[6] ArantxaCasanov a ， Marle` neCareil ， Jak obVerbeek ，MichalDrozdzal，and Adriana Romero-Soriano.实例条件化的甘。arXiv预印本arXiv：2109.05070，2021。[7] Jianbo Chen ， Yelong Shen ， Jianfeng Gao ， JingjingLiu，and Xiaodong Liu.基于语言的图像编辑与循环注意模型。在IEEE计算机视觉和模式识别会议论文集，第8721- 8729页[8] Jooyoung Choi 、 Sungwon Kim 、 Yonghyun Jeong 、Youngjune Gwon和Sungroh Yoon。Ilvr：用于去噪扩散概率模型的条件化方法。 arXiv 预印本 arXiv ：2108.02938，2021。[9] Helisa Dhamo ， Azade Farshad ， Iro Laina ， NassirNavab ， Gregory D Hager ， Federico Tombari ， andChristian Rupprecht.使用场景图的语义图像操作。在IEEE/CVF计算机视觉和模式识别会议论文集，第5213-5222页[10] 普拉富拉·达里瓦尔和亚历克斯·尼科尔。扩散模型在图像合成中优于gans。arXiv预印本arXiv：2105.05233，2021。[11] 董浩、司淼宇、吴超、郭一珂。通过对抗学习进行语义图像合成。在IEEE计算机视觉国际会议论文集，第5706-5714页[12] Rinon Gal ， Or Patashnik ， Haggai Maron ， GalChechik，and Daniel Cohen-Or. Stylegan-nada：图像生成器的剪辑引导的主适应。 arXiv 预印本 arXiv ：2108.00946，2021。[13] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页[14] Leon A Gatys，Alexander S Ecker，Matthias Bethge，Aaron Hertzmann，and Eli Shechtman.神经风格迁移中知觉因素的控制在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第3985-3993页[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。[16] 顾沭阳、陈聪良、景辽、卢远。复杂的风格转换和深层的功能重组。在IEEE计算机视觉和模式识别会议论文集，第8222-8231页，2018年[17] Meh m etGuünel，ErkutErdem，andAykutErdem. 语言引导的时尚图像处理与功能明智的转换。arXiv预印本arXiv：1808.04000，2018。[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年[19] Jonathan Ho，Ajay Jain，and Pieter Abbeel.去噪扩散概率模型。arXiv预印本arXiv：2006.11239，2020。[20] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年[21] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页[22] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[23] KJ Joseph ， Arghya Ruman ， Sailaja Rajanala ， andVineeth N Bal- asubramanian.C4synth：交叉字幕循环一致的文本到图像合成。2019年IEEE计算机视觉应用冬季会议（WACV），第358-366页。IEEE，2019。[24] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页[25] 金广贤和叶正哲扩散剪辑：使用扩散模型的文本引导图像处理。arXiv预印本arXiv：2110.02711，2021。[26] NicholasKolkinJasonSalavon和GregoryShakhnarovich。通过松弛的最优传输和自相似性实现风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集，第10051-10060页[27] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.可控的文本到图像生成。arXiv预印本arXiv：1909.07083，2019。[28] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.Manigan ：文本引导的图像处理。在IEEE/CVF计算机视觉和模式识别会议的论文集，第7880-7889页[29] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络进行图像合成。300在IEEE计算机视觉和模式识别会议论文集，第2479-2486页[30] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习线性变换以实现快速图像和视频风格转换。在IEEE/CVF计算机视觉和模式识别会议论文集，第3809-3817页[31] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。arXiv预印本arXiv：1705.08086，2017.[32] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在2015年12月的国际计算机视觉会议（ICCV）的会议记录中[33] Xiaofeng Mao ， Yuefeng Chen ， Yuhong Li ， TaoXiong，Yuan He，and Hui Xue.使用条件生成对抗网络进行基于语言的图像编辑的双线性表示在ICASSP 2019-2019 IEEE声学、语音和信号处理国际会议（ICASSP）中，第2047-2051页。IEEE，2019。[34] 孟晨林，宋扬，宋佳明，吴佳军，朱军燕，和StefanoErmon. SDedit：图像合成和编辑与随机微分方程。arXiv预印本arXiv：2108.01073，2021。[35] Seonghyeon Nam，Yunji Kim和Seon Joo Kim。文本自适应生成对抗网络：用自然语言处理图像。arXiv预印本arXiv：1810.11919，2018。[36] Alex Nichol、Prafulla Dhariwal、Aditya Ramesh、PranavShy

下载后可阅读完整内容，剩余1页未读，立即下载