基于扩散的文本到图像生成的任意样式引导

109 浏览量更新于2023-10-16 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4461用于增强的基于扩散的文本到图像生成的任意样式引导潘志宏，周欣，田昊百度研究（美国）zhihongpan,zhouxin16,tianhao@baidu.com摘要基于扩散的文本到图像生成模型，如GLIDE 和DALLE-2，最近获得了广泛的成功，因为它们在将复杂的文本输入转换为高质量和广泛多样性的图像方面具有卓越的性能。特别是，他们被证明是非常强大的创造各种格式和风格的图形艺术虽然当前的模型支持指定油画或铅笔画等样式格式，但很难指定颜色分布和笔触等细粒度样式特征，因为它们是基于给定文本输入从条件分布中随机选取的。在这里，我们提出了一种新的风格指导方法，以支持生成图像使用任意风格指导的参考图像。该生成方法不需要单独的样式转移模型来生成期望的样式，同时保持由文本输入控制的所生成的内容中的图像质量另外，可以在没有风格参考的情况下应用引导方法，表示为自风格引导，以生成更多样化风格的图像。实验结果表明，该方法在各种图像艺术形式、图像内容类型和扩散模型下都具有较好的鲁棒性和有效性1. 介绍近年来，各种类型的深层生成模型在内容生成和艺术创作中得到了广泛的应用。其中，基于生成对抗网络（GAN）[14]的模型是最成功的模型，因为它们能够以快速采样速度创建高质量内容[7，54，22，21]。但在多样性、训练稳定性等方面也有其局限性。最近，去噪扩散模型[49，16，50]因其在生成保真度和多样性方面具有高质量的图像方面的优势而越来越受欢迎。除了图像生成之外，扩散模型还在其他数据形式（如3D点）中显示出重要的应用图1：以“哈士奇的一幅油画”为提示，比较三种采样方法（每种四个样本）：1）无引导生成产生相似的风格;（2）以梵高的《星夜》为例，进行风格引导的生成;3)自我风格指导展示了不同风格的样本1.云[32]，音频[23]和视频[18]。对于最流行的图像生成任务，它已被用于广泛的应用，包括图像到图像转换[45，1]，图像超分辨率[47，56]，图像编辑[33]和图像修复[31，44]。它还推动了基于扩散的文本到图像模型的突破性发展[43，34，40，46]，这些模型能够根据给定的文本描述创建逼真的图像，甚至是长而复杂的图像。由这些模型生成的内容的主要类型是具有与对应的文本输入匹配的内容的图形艺术作品。虽然详细的内容描述可以很容易地由大型语言和多模态模型支持，但艺术风格的文本描述目前仅限于艺术形式（油画、铅笔画）、艺术家（梵高、毕加索）或简单的主观词等1所有示例均来自OpenAIhttps://github.com/openai/glide-text2im4462|0（明亮，色彩鲜艳）。像颜色分布或笔触特征的详细描述还不支持。此外，对于在大量未经策划的文本-图像对上训练的模型，任何文本输入的样式的概率分布偏向于反映训练数据中的相应偏差的特定子集例如，在图1的第一行中生成的结果。1集中在黑色和白色的颜色分布上，这是与关键词husky相关的偏见。我们的工作的一个主要目标是减轻这些限制，在风格规范和多样性，在推理时使用风格引导的生成，而不需要重新训练的文本到图像的扩散模型。从技术上讲，扩散模型在使用迭代过程生成逼真和多样化的图像方面非常强大：给定噪声输入xt，根据以下分布估计和采样噪声较小的输出xt−1更多样化的随机创建的样式。对风格引导函数进行了优化，使噪声输入的影响最小化，引导效率最大化。结果表明，监督和自我风格指导是有效的生成所需风格的图像，同时保持高的相关性，evance生成的图像相对于文本输入。我们进行了大量的实验，以证明风格指导在广泛的潜在应用中的有效性，包括：1）生成特定风格的图像; 2）从一组文本输入中生成样本以创建一系列相同风格的艺术品; 3）从具有增强的风格多样性的一个文本输入生成。2. 相关作品2.1. 去噪扩散模型xt−1<$N（µ，）µ，=µθ（xt，t），θ（xt，t）（一）最新的去噪扩散模型受到非平衡热力学的启发[49]。他们定义了一个扩散步骤的马尔可夫链来慢慢地添加随机噪声其中µθ和θ是训练的扩散模型，预测xt−1的均值和方差。从随机噪声xT开始，当去噪步骤迭代T次时，生成的图像表示为x0。虽然这种重复过程是耗时的，但是它允许辅助信息y的有效融合，以使用连续指导将采样过程转向更期望的结果，如xt−1<$N（µ+g（x t|（2）其中g（xt y）是引导函数。在分类器引导方法[5]的示例中，使用分类器的梯度来引导采样过程，这改善了从特定类别y生成图像的条件。在这里，我们提出了第一个已知的方法来使用风格参考图像y作为文本到图像生成的指导。由于xt是有噪声的，所以从无噪声的y直接制导会受到噪声的干扰。对于分类器制导，研究表明，在噪声数据上对分类器进行再训练可以有效地提高制导质量。在这项工作中，我们建议将指导从嘈杂的图像xt从而将难以处理的真实数据分布转化为易于处理的高斯分布。然后，模型学习逆扩散过程，从随机采样的高斯噪声中构建所需的数据样本。Ho等人[16]提出了一种去噪扩散概率模型（DDPM），将逆扩散过程解释为大量连续的去噪步骤。对于每个去噪步骤，中间输出被建模为以输入为条件的高斯分布，并且其均值可以在适当训练后在推理时被或者，Songet al. [51 52]使用随机微分方程对反向扩散过程进行建模，并开发了基于分数的生成模型，以使用数据分布的估计梯度经由朗之万动力学产生样本。后来提出了许多方法[35，50，30]，以使用更少的去噪步骤，而不会显着降低图像质量。虽然重复的去噪步骤会导致采样时间变慢，但它可以灵活地指导采样过程，以提高图像生成质量。Dhari-wal等。[5]提出了一种分类器引导方法。xt这是从xt直接估计x0。它的工作根据一个梯度，对估计的平均值进行相对不需要任何再培训。如图2的第二行1、以梵高我们还提出了不使用样式引用的自样式引导方法。如下面一行所示，与顶部的无引导样式相比，它生成的样式范围要广得多。总之，我们提出了一种创新的风格引导生成方法，可以增强现有的文本到图像的扩散模型，以生成特定的艺术风格或从用噪声图像再训练的分类器计算的梯度。后来，Ho等人[17]发明了一种无分类器的引导方法，该方法使用随机掩蔽的类标签来训练条件模型除了类标签外，其他辅助数据也可以作为推理时间的指导。Choi等人[3]提出使用低分辨率图像作为指导来修改生成过程，以迭代地将采样器拉向参考图像。我们提出的方法是我们第一次知道，使用图像风格相关的功能作为推理时间的指导。4463|Q∼- -0N∼|不不不不2.2. 文本到图像生成近年来，基于GAN的深度学习模型已成功用于各种生成任务[7，54，22]，包括文本到图像生成[42，58，57，38，53，9]。最近，自回归（AR）模型在图像生成中也显示出有希望的结果[37，2，8]。对于文本到图像的生成，已经提出了各种框架，包括DALL- E[41]，CogView [6]和M6 [28]，以使用大型Transformer结构来建模文本和图像标记的联合分布。虽然它们大大提高了文本到图像生成的质量，但它们仍然受到AR模型的弱点的限制，包括单向偏差和累积预测误差。最近，扩散模型已经显示出推动无条件图像生成极限的能力。因此，基于扩散的文本到图像生成一直是学术界和工业界的研究热点。Radford等人[39]首先引入CLIP来学习文本和图像之间的联合表示，联合训练图像编码器和字幕编码器，以最大化文本-图像对之间的点积值。由于CLIP提供了图像和标题之间的相似性得分，因此它已被用于引导早期的生成模型，如GAN，以匹配用户定义的文本标题[11，12]。它也被应用于无条件扩散模型[4]作为采样指导，显示出令人印象深刻的文本到图像生成能力。或者，Nicholet al. [34]使用文本-图像对训练了一个连续扩散模型（GLIDE）训练以使用组合的缩放适应内容和风格损失来生成风格转移的输出。后来，Parket al.[36]采用注意机制来匹配内容和风格图像的局部特征。[29]提出了将浅特征和深特征两者考虑用于注意力应用。或者Liet al. [26]用递归应用的白化和颜色变换（WCT）在内容图像和样式图像的特征之间替换自适应归一化，而Li等人.[25]提出了基于任意对内容和样式图像来学习线性变换矩阵。最近，提出了新的样式传输方法[24，10]，以使用文本输入来定义样式，以代替样式参考图像。虽然这些方法可以应用到文本到图像生成模型后的图像生成，我们提出的方法是第一个已知的，我们可以生成任意艺术风格的图像在一个生成过程中，同时保持文本和图像对之间的匹配质量。3. 该方法3.1. 扩散模型背景在这里，我们采用Sohl等人介绍的去噪扩散模型。[49]后来被Ho等人改进和验证。[16]在最近的DDPM工作中。对于从分布q（x0）采样的图像x0，潜在变量x1，.，xT可以通过使用逐渐添加的高斯噪声扩散样本其中，文本在使用Transformer嵌入后，用作条件输入。后来，Rameshet al. [40]亲q（x|X）=N（x;β1−β x，β I）。（三）假设使用预训练的CLIP图像嵌入作为条件图像生成模型的输入对于文本到图像生成，还训练扩散先验以从输入文本CLIP嵌入生成图像嵌入。最近，Sahariaet al.[46]发现，在纯文本语料库上预训练的大型语言模型的文本嵌入可以作为非常有效的条件，对于每个反向去噪步骤，当在每个步骤t添加的噪声βt的幅度足够小时，后验q（xt-1xt）可以通过对角高斯充分近似。此外，如果整个链中添加的总噪声的幅度1−α<$T足够大，则xT很好地近似为N（0，I）。这里α<$T定义为：文本到图像合成。不t=1（1−βt）。基于这些近似，扩散2.3.任意样式传输神经风格转移（NST）是指一种方法，它转换数字图像以保留其内容，同时采用另一图像的视觉风格Gatys 等人[13]将图像的风格定义为多级特征相关（即，Gram矩阵）的训练图像分类神经网络和应用风格转移作为一个迭代优化问题，以平衡内容相似性和风格亲和力。为了避免学习每一种新的风格，开发了更多的方法[20，26，25，36，29]来训练一个可以将图像转换为任何艺术风格的模型。Huang等人. [20]首先提出通过自适应实例归一化（AdaIN）来调整内容特征的信道统计，使得一个特征解码器可以模型pθ（xt−1|xt）设计为匹配真实后验：pθ（xt−1|xt）=N（μθ（xt，t），μθ（xt，t））。（四）从噪声x T（0，I）开始，学习后验可以用于采样x t，t=T1，T2，. 逐步地，最终得到采样图像x0p θ（x0）。如DDPM中所示，重新加权的变分下限（VLB）被用作扩散模型优化的有效代理目标然后，可以训练扩散模型λ θ，以使用合成样本Xt来预测添加的噪声。q（x tx0），其中已知高斯噪声加到x0。然后，可以使用简单标准均方误差（MSE）损失：Lsimple=E t，x，n||−||二、（五）t−1t−14464∇0|0θ不1 −β不1−α¯θ不类标签，估计的平均值通过添加0θ.不这相当于扩散模型，因为μθ（xt，t）可以推导为µ（x，t）=x−（x，t）（6）1βt不不这是因为其目的是最小化风格差异，而不是在类别指导的情况下添加分类器指导以最大化类别概率。目前尚不清楚ex-campaign风格的特征函数f是否对噪声图像具有鲁棒性。我们提出两种制导技术，即制导1和制导2而将θ设定为常数。它也等同于先前的基于去噪分数匹配的模型[51，52]，其中以上所述，都是为了缓解这种不确定性。指南1. 在其他作品中，扰动梯度是cal-得分函数xt等人logp（x t）θ（x t，t）. 后来尼科尔通过将噪声图像与参考图像进行比较类标签或文本，它是从无噪声图像训练的。. [35]提出了一种学习θ的策略，该策略使模型能够以较少的扩散步骤产生高质量的样本。OpenAI的文本到图像模型GLIDE [34]采用了这种学习的θ技术，本工作中使用的模型用于实验。在后续工作中，Dhariwalet al. [5]发现，即使对于类条件扩散模型，随机生成的样本也可以在推理时通过分类器指导进一步改进对于扩散模型，因此，用噪声图像重新训练相关联的分类器或CLIP模型然而，在风格引导的情况下，在图像噪声和某些风格特征之间存在重叠。为了避免这种混淆和额外的训练，这里我们提出了一种替代的指导方法，通过比较“无噪声”x t和参考y来计算扰动梯度。xt=（xt− <$1−α<$t<$θ（xt，t））/α<$t0平均值μ（x，t|y）和方差ψ（x，t|y）其中y是θ不（十）Xtθ t θ tµ（x，t）=µ（x，t）−s（x，t）。f（xt）−f（y）.目标的对数概率logp（y xt）分类器预测的y类由此产生的新扰动平均值µm（x，t|y）是由指南2.由于噪声估计不可能一步到位，因此xt仅在理论上是无噪声的，我们有经验表明，增加指导性更有效。µθ（xt，t|y）=µθ（xt，t|y）+s<$θ（xt，t|y）xtlogp（y|（7）当噪声水平较低时，因此，s在这里被设置为自适应变量，其中系数s被称为指导尺度。更大的S导致更高的样本质量但更少的多样性。对于像GLIDE这样的图像到文本模型，可以通过用CLIP模型替换分类器来应用类似的指导技术。在这种情况下，在反向过程期间估计的平均值被成对的图像和文本嵌入的点积的梯度扰动µθ（xt，t|c）=µθ（xt，t|c）+s<$θ（xt，t|c）n×t（f（xt）·g（c））（8）其中c代表文本输入。虽然[4]表明预训练的CLIP模型可以用于指导扩散模型而无需重新调整，但最好在有噪声的图像上重新训练CLIP，以在反向过程中获得正确的梯度虽然我们提出的风格指导受到这两种指导技术的启发，但它在两个主要方面与它们不同：不需要使用噪声图像进行再训练（指南1）和我们的指导尺度自适应（指南2）。3.2. 监督式风格指导风格引导扩散的动机是生成具有期望风格的图像。按照类筛选器和CLIP指导的例子，我们可以设计一个简单的样式指导方法，µθ（xt，t）=µθ（xt，t）−s·θ（xt，t）xt|f（xt）−f（y）|（九）其中f是风格特征函数，y是风格参考图像。需要减去样式距离，因为4465√s=s0/其中s0是表示为基本尺度的常数。3.3. 风格特征对于用于指导反向扩散过程的样式特征，我们采用AdaIN [19]中使用的实例归一化（IN）统计学，因为它比原始Gramm矩阵特征更干净对于图像x，其样式特征f（x）被定义为：f（x）={λ i η（λ i（x）），λ i σ（λ i（x））|i ∈ [1，4]}（12）其中，λi表示VGG-19中的层，η和σ分别表示平均值和标准差，λi是层i的权重。我们使用relu 1 1，relu 2 1，relu 3 1，relu 4 1层进行风格特征计算，并使用相同的权重进行风格损失评估。但是对于风格引导，根据经验选择每个层的最佳权重以获得最佳引导效果。此外，虽然标准MSE损失被用作结果评估中的风格损失，但发现平均绝对误差（MAE）损失在用于计算风格指导期间的扰动梯度时更有效。3.4. 自我风格指导在现有的文本到图像生成模型中，由于样本是随机生成的，因此通常需要多个样本44660不×0t00以实现高图像质量和文本-图像相关性。由于已经需要从一个文本输入批量生成，我们提出了一个自风格引导方法，以在批量中采样更多样化的风格，打破了与给定类型的对象相关联的偏见风格的限制，如图所示。1早些时候它遵循与受监督的风格指导原则相同的风格指导原则，但不需要风格参考，因此是自我指导。在数学上，制导修正定义为：µθ（xt，t）+s·θ（xt，t）<$xνf（xt）（13）其中νf表示风格特征f的方差。在这里，我们将其表示为对比自我指导，因为它的目的是在不使用样式引用的情况下增加批处理中的样式对比或者，对于艺术作品创作，通常需要使用相同的艺术风格设计一系列作品，例如邮票或海报。对于这个应用程序，我们提出了一个同步的自我指导方法，从一组文本输入中生成多个图像，在一个共享的风格，同样没有使用的风格参考。为了增加该方法中的风格多样性，首先针对一组图像x提出混合风格特征，定义为fm（x）={λiη（λi（xri）），λiσ（λi（xri））|i∈[1，4]}（14）其中ri是在每次采样期间将来自层i的特征与一个图像xri相然后，同义的自我指导被应用为µθ（xt，t）−s·θ（xt，t）x|f（xt）−fm（xt）|. （十五）注意，fm（xt）是动态样式参考，其在每个去噪步骤t处改变，使得能够根据从多个图像混合的动态特征的迭代采样来创建更多样化的样式4. 实验除非另有说明，本研究中的所有实验都使用OpenAI的GLIDE模型1进行虽然我们的方法适用于不同的版本，我们评估我们的方法的基础上，公共过滤版本的图像大小256 256.因此，结果只能与该模型生成的图像在保真度和文本-图像相似性方面进行比较。此外，由于没有使用与我们生成的集合相同的内容和样式分布，需要地面真实参考的图像质量度量（如FID [15]）不适用。另一方面，CLIP评分在此适用。它被定义为CLIP文本嵌入和图像嵌入之间的相关性，可以用来评估文本和图像相似性的风格指导下。此外，与其他模型不同，此处使用的GLIDE版本不使用CLIP指南进行生成，避免对CLIP分数度量的公平性的影响。这里用于测试的特定CLIP模型是ViT-B/32。为了研究使用风格参考图像的监督风格指导的性能对于文本输入，我们将它们组织在5个不同的内容类别中，包括狗，花，世界奇观，美国地标和公园等一般地方。对于每个类别，有6个特定的输入。对狗来说，它们是特里弗/狮子狗/小猎犬/吉娃娃这些选择是为了示范如何运用同一艺术风格，创作一组内容相近的作品，就像设计一套邮票或海报一样。4.1. 监督式风格指导如图2、我们提出的风格引导方法能够为一系列主题生成图像，同时从参考图像中遵循任意风格。对于前四行中的引导样本，每组图像都是使用左侧的样式引用和右侧的文本输入集生成的每个集合在一个采样过程中生成，而不是从多个采样过程中选择。对于第三行中的具有挑战性的情况，其中风格参考仅由简单的颜色笔画组成而没有语义信息，我们的风格指导方法在创建相关内容时仍然有效，例如以白宫为例的中心的独特建筑图案。对于第四个示例，还包括来自两步生成方法的附加结果，在非引导样本之后应用NST，用于比较。两种风格转换方法 Gatys [13]和AdaIN [20]应用于未引导的样本，使用与它们上面的引导样本相同的风格参考。实验结果表明，一步风格引导的结果与风格参考具有较高的一致性，而两步风格引导的结果存在一些残留的颜色伪影，如第一幅Gatys图像中的背景模糊。这三种方法的定量评估包括在图中。3.第三章。4.2. 风格引导优化为了最大限度地提高风格引导的效率，研究了风格特征和引导方法的多重设置.首先，风格损失和CLIP得分之间的权衡研究通过改变基本的指导规模s0，使用所有12个风格的图像和5类文本输入。如图当引导尺度减小时，自然会导致较高的风格损失，从而导致较高的CLIP分数，以获得更好的文本-图像相似性。然而，当引导尺度增加时，当CLIP分数连续减小时，风格损失先减小，但在s0=1000附近达到最小值后增加。这一反向趋势在性质上类似于44670一幅玫瑰、兰花的油画郁金香;牡丹;百合花长城大金字塔的吉萨;泰姬陵;马丘比丘;斗兽场，罗马; ChichenItza，墨西哥自由女神像金门大桥;拉什莫尔山（美国）国家纪念碑白宫;拱门;太空针柯基犬;哈士奇;黄金回收;狮子狗;小猎犬;吉娃娃使用Gatys进行非引导采样后的风格转移[13]使用 AdaIN 进行非引导采样后的风格转移[20]图2：从监督样式指导生成的可视化示例，具有不同的样式和各种图像生成文本输入（左侧的样式参考）。包括两步生成的结果以供比较图3：具有不同s0值的监督式风格指导的权衡曲线两个步骤的结果，从风格转移applied到无指导的样品包括比较。大的学习速率，因为引导尺度控制梯度引导的步长。两步法的结果，在非指导抽样后应用风格转移，是也包括在图。三是比较。 AdaIN [20] uses一步解码过程应用任意风格转移，因此可以理解，它具有比Gatys [13]更高的风格损失，Gatys [13]应用迭代学习过程来变换图像。我们的风格指导也在反向去噪过程中迭代地应用，在这方面类似于Gatys。由于对于给定的文本输入没有内容图像的单个图像引用，因此样式引导的生成能够实现比Gatys更低的样式损失，因为它可以在给定样式引导的情况下相应地调整其内容。其次，进行消融研究，比较不同的设置研究有效的风格指导。对于最佳设置，与使用x t相比，在x t和无噪声参考y之间进行梯度计算，MAE用于计算样式特征距离，使用自适应引导尺度代替恒定尺度，并且针对不同样式特征层使用最佳变化权重。如表1所示，第一行显示了最佳设置的CLIP得分和风格损失的结果为风格损失↓2.7AdaIN2.31.91.51.1Gatys4000.71400500s00.326.51200100090027.580070028.560029.530.5CLIP评分↑44680金门大桥的油画样式图像#0：最佳#1：（xt，y）#2：固定比例#3：等权重#4：MSE图4：不同样式指导设置的视觉示例，展示了与最佳#0相比，替代设置中样式丢失或文本图像相似性的退化。非指导采样：一幅快乐的柯基犬的油画;金毛寻回犬狮子狗;小猎犬;吉娃娃自我风格指导：一幅快乐的柯基犬的油画;金毛寻回犬狮子狗;小猎犬;吉娃娃用蜡笔画的大象;老虎狮子，熊猫，长颈鹿一幅苹果树的油画;集市鹦鹉;帆船; F1赛车;寿司盘图5：同义自我指导的视觉示例：创建一组具有一个共享样式的图像。它可以产生不同的风格，同时保持内容的保真度，以适应文本输入的变化，如快乐的表情和蜡笔画。表1：样式引导设置的消融研究。红色突出显示次优设置和导致的性能下降。CLIP评分，由图中无法识别的物体证明。4（#1）。对于恒定的指导量表，CLIP得分与适应性得分相当，但风格损失增加000#4（xt，y）公司简介25.730.48其它设置在下面的行中，最佳设置的一个方面被改变。对于每一组设置，相应地调整基本尺度s0以获得其自身的最佳总体性能。它显示在表1和图。4.最优设置在风格保真度和文本图像相似度方面具有最佳的整体质量。当用于风格引导的扰动梯度如在先前的引导方法中所使用的那样从xt计算时，它具有显著较低的帐篷不匹配的文字输入，如在金门大桥绘画图。4.第一章4.3. 自我风格指导一个全面的实验进行了证明自我风格指导的能力。对于同步自引导，如图5所示，在生成一组图像时将其与非引导采样进行比较，对于每组样本，将其组织在行中。无引导采样能够生成逼真的图像，每个图像的风格设置编号引导对风格距离自适应尺度变化的权重剪辑a分数↑a型损失↓显著同样，用相等的权重替换自定义的变化权重会导致更差的性能#0A（xt，y）Mae✓✓27.450.58在风格损失，表现为不受欢迎的蓝色背景#1（xt，y）Mae✓✓24.390.59图4（#3）.用于比较样式的距离度量#2（xt，y）Mae✗✓27.640.82的xt和y，MSE的结果略低于风格损失比044698××0一个美丽的画的石英晶体在宁静的风景;一个炼金术店的质朴的内部;一幅美丽的亚特兰蒂斯城地图;中国古村落图6：使用同义自我引导从Disco Diffusion [4]生成的视觉示例图7：对比自我指导的视觉示例，展示了创建的风格的更大变化。一种类型的物体倾向于偏向于它的自然外观，比如黑白哈士奇。相比之下，自引导样本在文本到图像的相似性方面相似，如忠实地呈现快乐的表情，并且有充满活力和多样的风格。它还显示了对文本输入中定义的不同对象类型和基本样式如最后一个例子所示，将同义自我引导应用于一组混合的对象可能会创建全新的样式，比如根据对象类型显示为苹果、云或羽毛的相同圆形图案对比风格指导的例子包括在图。7，其中对内容的额外约束也被应用于关注风格上的增加的差异。最后，Fig。6显示自风格引导也适用于其他模型，如Disco Diffusion [4]，从一组混合的文本输入中生成逼真的高分辨率（512 448，由于文件大小限制，大小调整为256 224）图像，共享相同的创建风格。使用相同的测试集，在监督风格指导，我们比较了自风格引导抽样与无指导的文本图像相似性和风格多样性。对于文本-图像相似性，无引导、对比自我引导和同义自我引导的CLIP平均得分分别此外，对于同义指导，每个生成的批次中的平均样式损失仅为0.27，这使得它成为生成一组具有几乎相同样式的图像的绝佳工具对于风格多样性，如图中使用t-SNE [55]所示。8、与非引导抽样相比，对比自我引导能够增加风格的变异，但在某些区域仍然具有密集分布。相比之下，synony- mous自我指导在大范围内具有接近均匀的分布，表明所提出的混合风格参考有助于从训练数据集中不常见的风格生成模型样本。图8：使用t-SNE [55]在压缩的二维空间中绘制的来自“哈士奇的油画”的1200个样本的非引导采样和自我风格引导之间的风格多样性比较5. 结论在本文中，我们提出了一个简单而有效的风格指导方法，它有助于基于扩散的文本到图像生成模型，以生成所需的艺术风格的图像。它仅适用于推理，而不需要改变扩散模型的其他方面。提出了将引导校正应用于“无噪声”x t而不是噪声x t以及自适应引导尺度和风格特征权重等关键创新，对于有监督的风格引导，它能够在一个步骤中使用参考图像的风格特征来生成图像，与在无引导采样之后使用附加的神经风格转移相比，实现更低的风格损失。对于没有参考的自我风格引导，它不仅生成具有高文本-图像相似度的真实图像，而且比无引导采样创建更多样化的风格。对于同义的自我指导，它在一个过程中从一组文本输入中采样生成多个图像，并以共享的风格创建。对于对比自我引导，它增加了从相同文本输入生成的样本的风格多样性。所提出的方法进行了验证，使用一套全面的文本输入，参考样式，引导选项和扩散模型。2015年的AdaIN [20]工作被用作主要基线，因为最近的工作集中在模型创新上，这在没有模型改变和额外训练的情况下不适用于我们的方法对于可应用的样式特性，它们大多采用AdaIN中使用的样式特性，但略有变化。未来发展的一个有趣方向是应用更高级的风格功能，如上下文感知功能[27]。8非制导第八章对比自我66指导44同义自我6指导42220-8-6-4-202468-8-6-40-202468-8-6-40-202468-2-2-2-4-4-4-6-6-6-8-8-84470引用[1] Omri Avrahami，Dani Lischinski和Ohad Fried。用于自然图像的文本驱动编辑的混合扩散。在IEEE/CVF计算机视觉和模式识别会议的论文集，第18208-18218页[2] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练在机器学习国际会议上，第1691-1703页[3] Jooyoung Choi 、 Sungwon Kim 、 Yonghyun Jeong 、Youngjune Gwon和Sungroh Yoon。ILVR：去噪扩散概率模型的条件化方法。2021年IEEE/CVF计算机视觉国际会议（ICCV），第14347-14356页IEEE，2021。[4] Katherine Crowson，Maxwell Ingham，Adam Lounge和Alex Spirin. 迪斯科扩散。 https://github.com/alembics/disco-diffusion，2022.[5] Prafulla Dhariwal和Alexander Nichol。扩散模型在图像合成方面击败了GANs。神经信息处理系统进展，34：8780[6] 丁明，杨卓义，洪文义，郑文迪，周昌，尹大，林俊阳，邹旭，周少，杨红霞，等。CogView：通过转换器掌握文本到图像的生成。神经信息处理系统进展，34：19822[7] 克里斯·多纳休朱利安·麦考利和米勒·帕克特广告音频合成。arXiv预印本arXiv：1802.04208，2018。[8] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在IEEE/CVF计算机视觉和模式识别会议的Pro-ceedings中，第12873-12883页[9] Stanis la vFrolov，TobiasHinz，FedericoRaue，J oérnHees和Andreas Dengel。对抗性文本到图像合成：重新审视。神经网络，144：187[10] 傅祖瑞、王欣、王扬。语言驱动的艺术风格转换。欧洲计算机视觉会议（ECCV），2022年。[11] Rinon Gal ， Or Patashnik ， Haggai Maron ， GalChechik，and Daniel Cohen-Or. StyleGAN-NADA：图像生成器的CLIP 引导的域适应。arXiv预印本arXiv：2108.00946，2021。[12] Federico A Galatolo，Mario GCA Cimino，and GigliolaVaglini.通过CLIP引导的生成潜在空间搜索从字幕生成图像，反之亦然。arXiv预印本arXiv：2102.01645，2021。[13] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[15] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。GANs训练者两时间尺度更新规则收敛到局部Nash平衡。神经信息处理系统的进展，30，2017。[16] Jonathan Ho，Ajay Jain，and Pieter Abbeel.去噪扩散概率模型。神经信息处理系统进展，33：6840[17] Jonathan Ho和Tim Salimans。无分类器扩散指导。在NeurIPS 2021年关于深度生成模型和下游应用的研讨会上，2021年。[18] Jonathan Ho ， Tim Salimans ， Alexey A Gritsenko ，William Chan，Mohammad Norouzi，and David J Fleet.视频扩散模型。ICLR研讨会关于高度结构化数据的深度生成，2022。[19] Gao Huang，Zhuang Liu，Laurens van der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，2017年。[20] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年[21] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无别名生成对抗网络。神经信息处理系统的进展，34：852[22] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页[23] Zhifeng Kong，Wei Ping，Jiaji Huang，Kexin Zhao，and Bryan Catanzaro. Diffwave：音频合成的通用扩散模型。2021年，在国际学术会议上发表[24] 权智贤和叶钟哲CLIPstyler：使用单一文本条件的图像样式传输。 In Proceedings of IEEE/CVF计算机视觉和模式识别会议，第18062-18071页，2022年。[25] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习线性变换以实现快速图像和视频风格转换。在IEEE/CVF计算机视觉和模式识别会议论文集，第3809-3817页[26] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。神经信息处理系统的进展，30，2017。[27] 廖义生和黄春荣。语义上下文感知的图像风格传递.IEEE Transactions on Image Processing，31：1911[28] 林俊阳，门瑞，杨安，周昌，丁明，张义昌，王鹏，王昂，江乐，贾先艳，等。M6：中国多模式预训练机。arXiv预印本arXiv：2103.00823，2021。[29] Songhua Liu ， Tianwei Lin ， Dongliang He ， Fu Li ，Meiling Wang，Xin Li，Zhengxing Sun，Qian Li，andErrui Ding. AdaAttN：重温任意神经风格迁移中的注意机制。在IEEE/CVF计算机视觉国际会议论文集，第6649-6658页4471[30] 程璐、周宇浩、樊宝、陈建飞、李崇轩、朱俊。DPM-solver：一个快速的扩散概率模型采样的ode求解器，大约10步。arXiv预印本arXiv：2206.00927，2022。[31] Andreas Lugmayr，Martin Danelljan，Andres Romero，Fisher Yu，Radu Timofte，and Luc Van Gool.RePaint：使用去噪扩散概率模型进行修复。在IEEE/CVF计算机视觉和模式识别会议论文集，第11461-11471页，2022年[32] 罗世通和胡伟。三维点云生成的扩散概率模型在IEEE/CVF计算机视觉和模式识别会议论文集，第2837-2845页[33] 孟晨林，宋扬，宋佳明，吴佳军，朱军燕，和StefanoErmon. SDedit：图像合成和编辑与随机微分方程。arXiv预印本arXiv：2108.01073，2021。[34] Alex Nichol、Prafulla Dhariwal、Aditya Ramesh、PranavShyam、Pamela Mishkin、Bob McGrew、Ilya Sutskever和 Mark Chen 。 GLIDE ： Towards photorealistic imagegener- ation and editing with text-guided diffusion models.arXiv预印本arXiv：2112.10741，2022。[35] Alexander Quinn Nichol和Prafulla Dhariwal。改进的去噪扩散概率模型。在国际机器学习会议上，第8162-8171页[36] Dae Young Park和Kwang Hee Lee风格-注意网络的任意风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集，第5880-5888页[37] Niki Parmar，Ashish Vaswani，Jakob Uszkoreit，LukaszKaiser，Noam Shazeer，Alexander Ku，and Dustin Tran.图像Transformer。在机器学习国际

下载后可阅读完整内容，剩余1页未读，立即下载