使用潜在扩散模型合成高分辨率图像

7 浏览量更新于2023-10-25 收藏 13.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Inputours (f = 4)PSNR: 27.4 R-FID: 0.58DALL-E (f = 8)PSNR: 22.8 R-FID: 32.01VQGAN (f = 16)PSNR: 19.9 R-FID: 4.98106840使用潜在扩散模型进行高分辨率图像合成0Robin Rombach 1 � Andreas Blattmann 1 � Dominik Lorenz 1 Patrick Esser0Bj¨orn Ommer 101 Ludwig0Runway ML https://github.com/CompVis/latent-diffusion0摘要0通过将图像形成过程分解为一系列的去噪自动编码器的应用，扩散模型（DMs）在图像数据及其它领域上实现了最先进的合成结果。此外，它们的公式还允许通过引导机制来控制图像生成过程而无需重新训练。然而，由于这些模型通常直接在像素空间中操作，强大的DMs的优化通常需要消耗数百个GPU天，并且由于顺序评估，推理也是昂贵的。为了在有限的计算资源上进行DM训练，同时保持其质量和灵活性，我们将它们应用于强大的预训练自动编码器的潜在空间中。与以前的工作相比，对这种表示进行扩散模型的训练首次实现了在复杂度减少和细节保留之间达到近乎最优的点，极大地提高了视觉保真度。通过在模型架构中引入交叉注意力层，我们将扩散模型转变为强大而灵活的生成器，用于文本或边界框等一般条件输入的生成，并以卷积方式实现高分辨率合成。我们的潜在扩散模型（LDMs）在图像修复和类条件图像合成方面取得了新的最先进分数，并在包括非条件图像生成、文本到图像合成和超分辨率等各种任务上具有极具竞争力的性能，同时与基于像素的DMs相比显著降低了计算要求。01.引言图像合成是计算机视觉领域中最近发展最引人注目的领域之一，但也是计算需求最大的领域之一。特别是复杂自然场景的高分辨率合成目前主要由扩展基于似然的模型来实现，这些模型可能在自回归（AR）变换器中包含数十亿个参数[64, 65]。相比之下，GANs的有希望的结果[3, 26,39]主要局限于具有相对有限变异性的数据，因为它们的对抗学习过程不容易扩展到建模复杂的多模态分布。最近，扩散模型[79]，它们是由一系列去噪自动编码器构建的，已经显示出令人印象深刻的效果0* 前两位作者对这项工作做出了相同的贡献。0图1.通过较少的激进下采样来提高可达到的质量上限。由于扩散模型对空间数据具有良好的归纳偏差，我们不需要在潜在空间中进行相关生成模型的大量空间下采样，而是可以通过适当的自动编码模型大大减少数据的维度，详见第3节。图像来自DIV2K[1]验证集，评估尺寸为512x512像素。我们用f表示空间下采样因子。重构FID [28]和PSNR是在ImageNet-val[12]上计算的；详见表8。0图像合成[29, 82]及其它领域[7, 44, 47,56]的结果，并且定义了类条件图像合成[15,30]和超分辨率[70]的最新技术。此外，即使是非条件DMs也可以轻松应用于修复和上色[82]或基于笔画的合成[52]等任务，与其他类型的生成模型[19, 45,67]相比。作为基于似然的模型，它们不会出现GANs的模式崩溃和训练不稳定问题，并且通过大量利用参数共享，它们可以模拟高度复杂的自然图像分布，而无需像AR模型[65]那样涉及数十亿个参数。民主化高分辨率图像合成DMs属于基于似然的模型类别，其模式覆盖行为使其容易在建模数据的不可感知细节上消耗过多的容量（因此计算资源）[16,71]。尽管重新加权的变分目标[29]旨在通过对初始去噪步骤进行欠采样来解决这个问题，但DMs仍然需要大量的计算资源，因为训练和评估这样的模型需要在RGB图像的高维空间中进行重复的函数评估（和梯度计算）。例如，训练最强大的DMs通常需要数百个GPU天（例如，在[15]中需要150-1000个V100天），并且在输入空间的噪声版本上进行重复评估也会使推理变得昂贵。106850因此，生成50k个样本需要大约5天的时间[15]在单个A100GPU上。这对于研究界和一般用户来说有两个后果：首先，训练这样的模型需要大量的计算资源，这些资源只有少数人可以使用，并且会产生巨大的碳足迹[63,83]。其次，评估已经训练好的模型也需要耗费时间和内存，因为同一模型架构必须按顺序运行大量步骤(例如，在[15]中为25-1000步)。为了增加这个强大模型类的可访问性并同时减少其显著的资源消耗，需要一种方法来减少训练和采样的计算复杂性。减少DMs的计算需求而不影响其性能，因此是提高其可访问性的关键。0转向潜在空间我们的方法始于对像素空间中已经训练的扩散模型的分析：图2显示了训练模型的速率失真权衡。与任何基于似然的模型一样，学习可以粗略地分为两个阶段：首先是感知压缩阶段，它去除高频细节，但仍然学习很少的语义变化。在第二阶段，实际的生成模型学习数据的语义和概念组合(语义压缩)。因此，我们首先要找到一个在计算上更合适的空间，该空间在感知上等效，我们将在其中训练高分辨率图像合成的扩散模型。按照常见做法[11, 23, 64, 65,93]，我们将训练分为两个不同的阶段：首先，我们训练一个自编码器，它提供了一个低维(因此高效)的表示空间，该空间在感知上等效于数据空间。重要的是，与之前的工作[23,64]不同，我们不需要依赖于过度的空间压缩，因为我们在学习的潜在空间中训练DMs，该空间在空间维度上具有更好的缩放特性。降低的复杂性还可以通过单个网络传递从潜在空间生成图像。我们将得到的模型类称为潜在扩散模型(LDMs)。这种方法的一个显著优点是，我们只需要训练通用的自编码器阶段一次，因此可以将其重复使用于多个DM训练或探索可能完全不同的任务[78]。这使得可以高效地探索大量的扩散模型，用于各种图像到图像和文本到图像的任务。对于后者，我们设计了一种将变压器连接到DM的UNet主干[69]的架构，并实现任意类型的基于标记的条件机制，详见第3.3节。总之，我们的工作做出了以下贡献：(i)与纯变压器模型方法[23,64]相比，我们的方法对于更高维度的数据具有更好的扩展性，因此可以在提供比之前更忠实和详细的重建的压缩级别上工作(见图1)，并且可以高效地0图2.说明感知和语义压缩：数字图像的大部分位对应于不可感知的细节。虽然DMs允许通过最小化负责的损失项来抑制这些语义上无意义的信息，但梯度(在训练过程中)和神经网络主干(训练和推理)仍然需要对所有像素进行评估，导致多余的计算和不必要的昂贵的优化和推理。我们提出潜在扩散模型(LDMs)作为一种有效的生成模型和一个单独的轻微压缩阶段，只消除不可感知的细节。数据和图像来自[29]。0应用于高分辨率合成百万像素图像。(ii)在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上，我们取得了竞争性的性能，同时显著降低了计算成本。与基于像素的扩散方法相比，我们还显著降低了推理成本。(iii)我们发现，与之前的工作[90]同时学习编码器/解码器架构和基于分数的先验相比，我们的方法不需要精细权衡重建和生成能力。这确保了极其忠实的重建，并且对潜在空间的正则化要求非常少。(iv)我们发现，对于像超分辨率、修复和语义合成这样的密集条件任务，我们的模型可以以卷积方式应用，并渲染大尺寸、一致的约1024 2像素的图像。(v)此外，我们设计了一种基于交叉注意力的通用条件机制，实现多模态训练。我们将其用于训练类别条件、文本到图像和布局到图像的模型。(vi)最后，我们在https://github.com/CompVis/latent-diffusion上发布了预训练的潜在扩散和自编码模型，这些模型除了用于DMs的训练之外，还可以在各种任务中重复使用[78]。02.相关工作图像合成的生成模型图像的高维特性给生成建模带来了独特的挑战。生成对抗网络（GAN）[26]允许高效采样具有良好感知质量的高分辨率图像[3, 41]，但存在困难。106860优化困难[2, 27,53]，难以捕捉完整的数据分布[54]。相比之下，基于似然的方法强调良好的密度估计，使优化更加稳定。变分自编码器（VAE）[45]和流模型[18,19]能够高效合成高分辨率图像[9, 43,89]，但样本质量不及GAN。而自回归模型（ARM）[6, 10,91,92]在密度估计方面表现出色，但计算复杂的架构[94]和顺序采样过程限制了其适用于低分辨率图像。由于基于像素的图像表示包含几乎不可察觉的高频细节[16,71]，最大似然训练在对其建模时消耗了不成比例的容量，导致训练时间长。为了扩展到更高分辨率，一些两阶段方法[23, 65, 97,99]使用ARM对压缩的潜在图像空间进行建模，而不是原始像素。0最近，扩散概率模型（DM）[79]在密度估计[44]和样本质量[15]方面取得了最先进的结果。这些模型的生成能力源于当它们的底层神经骨干实现为UNet[15, 29, 69,82]时，与图像类似数据的归纳偏见自然契合。当使用加权目标[29]进行训练时，通常可以实现最佳的合成质量。然而，在像素空间中评估和优化这些模型的缺点是推理速度较低和训练成本非常高。前者可以通过先进的采样策略[46, 73,81]和分层方法[30,90]部分解决，但在高分辨率图像数据上进行训练始终需要计算昂贵的梯度。我们的提出的LDMs解决了这两个缺点，它们在较低维度的压缩潜在空间上工作，使训练计算成本更低，并且几乎不降低合成质量（见图1）。虽然存在一些共同学习编码/解码模型和基于评分的先验的方法[90]，但它们仍然需要在重建和生成能力之间进行困难的加权，并且被我们的方法（第4节）超越。0两阶段图像合成为了克服单个生成方法的不足，许多研究[11, 23, 65, 68, 97,99]已经将不同方法的优势结合起来，通过两阶段方法构建更高效和性能更好的模型。VQ-VAEs [65,97]使用自回归模型在离散化潜在空间上学习表达丰富的先验。[64]将这种方法扩展到文本到图像生成，通过学习在离散化图像和文本表示上的联合分布。更一般地，[68]使用有条件可逆网络在不同领域的潜在空间之间提供通用转换。与VQ-VAEs不同，VQGANs [23,99]采用第一阶段的对抗和感知目标，将自回归变换器扩展到更大的图像。然而，可行的ARM训练所需的高压缩率引入了数十亿个可训练参数[23,64]，限制了这种方法的整体性能。0更少的压缩会导致高计算成本[23,64]。我们的工作避免了这种权衡，因为我们提出的LDMs由于其卷积骨干，对更高维度的潜在空间缩放更加平缓。因此，我们可以自由选择适当的压缩水平，既能学习强大的第一阶段，又不会将太多的感知压缩留给生成扩散模型，同时保证高保真度的重构（见图1）。虽然存在一些共同学习编码/解码模型和基于评分的先验的方法[90]，但它们仍然需要在重建和生成能力之间进行困难的加权，并且被我们的方法（第4节）超越。03.方法为了降低训练扩散模型以实现高分辨率图像合成的计算需求，我们观察到，尽管扩散模型通过对相应的损失项进行欠采样来忽略感知上不相关的细节[29]，但它们仍然需要在像素空间中进行昂贵的函数评估，这导致计算时间和能源资源的巨大需求。我们提出通过显式分离压缩学习阶段和生成学习阶段来避免这个缺点（见图2）。为了实现这一点，我们利用一个自编码模型，该模型学习到一个与图像空间在感知上等价但计算复杂度显著降低的空间。这种方法具有几个优点：（i）通过离开高维图像空间，我们获得了在低维空间上执行采样的计算上更高效的DMs。（ii）我们利用了DMs从其UNet架构[69]继承的归纳偏差，使其对具有空间结构的数据特别有效，因此减轻了先前方法[23，64]所需的激进的、降低质量的压缩级别。（iii）最后，我们获得了通用的压缩模型，其潜在空间可以用于训练多个生成模型，并且还可以用于其他下游应用，如单图像CLIP引导合成[25]。03.1.感知图像压缩我们的感知压缩模型基于先前的工作[23]，由感知损失[102]和基于块的[32]对抗目标[20，23，99]的组合训练的自编码器组成。这确保重建受限于图像流形，通过强制局部真实性避免了仅依赖像素空间损失（如L2或L1目标）引入的模糊。更准确地说，给定RGB空间中的图像x ∈RH×W×3，编码器E将x编码为潜在表示z =E(x)，解码器D从潜在空间重建图像，给出˜x = D(z) =D(E(x))，其中3.3. Conditioning MechanismsSimilar to other types of generative models [55, 80],diffusion models are in principle capable of modelingconditional distributions of the form p(z|y).This canbe implemented with a conditional denoising autoencoderǫθ(zt, t, y) and paves the way to controlling the synthesisprocess through inputs y such as text [66], semantic maps[32,59] or other image-to-image translation tasks [33].In the context of image synthesis, however, combiningthe generative power of DMs with other types of condition-ings beyond class-labels [15] or blurred variants of the inputimage [70] is so far an under-explored area of research.We turn DMs into more ﬂexible conditional image gener-ators by augmenting their underlying UNet backbone withthe cross-attention mechanism [94], which is effective forlearning attention-based models of various input modali-ties [34,35]. To pre-process y from various modalities (suchas language prompts) we introduce a domain speciﬁc en-coder τθ that projects y to an intermediate representationτθ(y) ∈ RM×dτ , which is then mapped to the intermediatelayers of the UNet via a cross-attention layer implementingAttention(Q, K, V ) = softmax�T106870z ∈ Rh×w×c。重要的是，编码器通过因子f = H/h =W/w对图像进行下采样，并且我们研究了不同的下采样因子f = 2m，其中m ∈N。为了避免高方差的潜在空间，我们尝试了两种不同类型的正则化。第一种变体KL-reg.对学习到的潜在空间施加了轻微的KL惩罚，类似于VAE[45，67]，而VQ-reg.在解码器中使用了矢量量化层[93]。这个模型可以解释为VQGAN[23]，但量化层被解码器吸收。由于我们后续的DM是设计用于处理我们学到的潜在空间z =E(x)的二维结构，我们可以使用相对较轻的压缩率并实现非常好的重建。这与之前的工作[23，64]形成对比，之前的工作依赖于学习空间z的任意1D排序，以自回归方式建模其分布，从而忽略了z的许多固有结构。因此，我们的压缩模型更好地保留了x的细节（见表8）。完整的目标和训练细节可以在补充材料中找到。03.2. 潜在扩散模型0扩散模型[79]是一种概率模型，旨在通过逐渐去噪一个正态分布的变量来学习数据分布p(x)，这对应于学习长度为T的固定马尔可夫链的逆过程。对于图像合成，最成功的模型[15，29，70]依赖于p(x)上的变分下界的加权变体，这反映了去噪评分匹配[82]。这些模型可以解释为一系列等权重的去噪自编码器εθ(xt, t); t =1...T，它们被训练成预测其输入xt的去噪变体，其中xt是输入x的噪声版本。相应的目标可以简化为（第A节）0LDM = E x, ε � N(0, 1), t � ∥ε − εθ(xt, t)∥22�, (1)0其中t均匀采样自{1, ...,T}。通过我们训练的感知压缩模型E和D，我们现在可以访问一个高频、不可察觉细节被抽象化的高效低维潜空间。与高维像素空间相比，这个空间更适合基于似然的生成模型，因为它们现在可以（i）专注于数据的重要语义位和（ii）在一个低维、计算效率更高的空间中进行训练。与以往依赖于自回归、基于注意力的变压器模型在高度压缩的离散潜空间中的工作不同[23, 64,99]，我们可以利用我们的模型提供的图像特定归纳偏差。这包括利用二维卷积层构建底层UNet的能力，以及进一步聚焦于0语义地图0潜空间条件化0文本0扩散过程0去噪步骤切换跳跃连接0表示0像素空间0图像0去噪U-Net0连接0图3.我们通过连接或更一般的交叉注意机制来对LDM进行条件化。详见第3.3节。0在感知上最相关的位上使用重新加权的界限作为目标函数，现在的形式为0LDM := E(x), ε � N(0, 1), t � ∥ε − εθ(zt, t)∥22�. (2)0我们模型的神经骨干εθ(◦,t)是一个时间条件的UNet[69]。由于正向过程是固定的，在训练过程中可以有效地从E获取zt，并且可以通过D的单次传递将p(z)的样本解码到图像空间。0√0d0� ∙ V，其中0Q = W(i)Q ∙ ϕi(zt), K = W(i)K ∙ τθ(y), V = W(i)V ∙ τθ(y).0这里，ϕi(zt) ∈RN×diε表示UNet的中间表示（扁平化），实现了εθ和W(i)V∈ Rd×diε，W(i)Q ∈ Rd×dτ和W(i)K ∈Rd×dτ是可学习的投影矩阵[35,94]。有关可视化描述，请参见图3。106880CelebAHQ FFHQ LSUN-Churches LSUN-Beds ImageNet0图4. CelebAHQ [38]、FFHQ [40]、LSUN-Churches [98]、LSUN-Bedrooms [98]和类别条件的ImageNet[12]上训练的LDM的样本，每个样本分辨率为256×256。放大后效果更佳。更多样本请参见补充材料。0基于图像条件对，我们通过以下方式学习条件LDM：0LDM := E(x), y, ε � N(0, 1), t � ∥ε − εθ(zt, t, τθ(y))∥22�, (3)0其中τθ和εθ都通过方程3进行联合优化。这种条件化机制是灵活的，因为τθ可以使用特定于域的专家进行参数化，例如（未屏蔽的）变压器[94]，当y是文本提示时（见第4.3.1节）。04.实验LDM提供了一种灵活且计算可行的基于扩散的图像合成方法，还包括各种图像模态的高分辨率生成，我们在下面通过实验证明。然而，我们首先分析了我们的模型在训练和推断中与基于像素的扩散模型相比的优势。有趣的是，我们发现在VQ正则化的潜空间中训练的LDM比连续对应模型的重建能力稍逊，但样本质量更好，详见表8。因此，除非另有说明，我们在本文的其余部分中评估VQ正则化的LDM。关于第一阶段正则化方案对LDM训练的影响以及其对高于256×256分辨率的泛化能力的视觉比较，请参见附录C.1。此外，在D.2中，我们列出了本节中所有结果的体系结构、实现、训练和评估的详细信息。04.1. 关于感知压缩的权衡0本节分析了我们的LDMs在不同下采样因子f ∈ { 1 , 2 , 4 , 8, 16 , 32}（简称LDM-f，其中LDM-1对应于基于像素的DMs）下的行为。为了获得可比较的测试场景，我们将计算资源固定为一块NVIDIAA100，并对本节中的所有实验进行相同步数和相同参数数量的模型训练。表8显示了本节中比较的LDMs所使用的第一阶段模型的超参数和重建性能。图5显示了在ImageNet数据集上进行了2M步类条件训练的样本质量与训练进展的关系。0图5.分析在ImageNet数据集上进行了2M步训练的类条件LDMs在不同下采样因子f下的训练情况。基于像素的LDM-1需要比具有较大下采样因子（LDM- { 4-16 }）的模型更长的训练时间。像LDM-32这样过多的感知压缩会限制整体样本质量。所有模型都在一块NVIDIAA100上以相同的计算预算进行训练。结果使用100个DDIM步骤[81 ]和κ = 0获得。0图6.推理速度与样本质量的比较：在CelebA-HQ（左）和ImageNet（右）数据集上比较具有不同压缩量的LDMs。不同的标记表示使用DDIM采样器的{ 10 , 20 , 50 , 100 , 200}个采样步骤，沿着每条线从右到左计数。虚线显示了200个步骤的FID得分，表明LDM- { 4-8 }相对于具有不同压缩比的模型具有较强的性能。FID得分基于5000个样本评估。所有模型在A100上进行了500k（CelebA）/2M（ImageNet）步的训练。0从图中我们可以看出，i)较小的下采样因子LDM- { 1,2 }会导致训练进展缓慢，而ii)过大的f值会导致在相对较少的训练步骤后停滞不前的保真度。通过重新分析上述分析（图1和2），我们将这归因于i)将大部分感知压缩留给扩散模型和ii)过强的第一阶段压缩导致信息丢失，从而限制了可达到的质量。LDM- { 4-16 } 在效率和感知保真度之间取得了良好的平衡，这在FID [ 28]得分上得到了体现。在经过2M步训练后，基于像素的扩散（LDM-1）与LDM-8之间存在着38的显著FID差距。在图6中，我们比较了在CelebA-HQ [ 38]和ImageNet上训练的模型在不同去噪步骤数下的采样速度，并将其与FID得分进行绘制。LDM- { 4-8 }在感知和概念压缩比例不合适的模型上表现更好。特别是与基于像素的LDM-1相比，它们在同时显著提高样本吞吐量的同时实现了更低的FID得分。对于像ImageNet这样的复杂数据集，需要减少压缩率以避免降低质量。总结来说，我们观察到LDM-4和-8处于实现高质量合成结果的最佳行为区间。CelebA-HQ 256 × 256FFHQ 256 × 256MethodFID ↓Prec. ↑Recall ↑MethodFID ↓Prec. ↑Recall ↑DC-VAE [61]15.8--ImageBART [21]9.57--VQGAN+T. [23] (k=400)10.2--U-Net GAN (+aug) [75]10.9 (7.6)--PGGAN [38]8.0--UDM [42]5.54--LSGM [90]7.22--StyleGAN [40]4.160.710.46UDM [42]7.16--ProjectedGAN [74]3.080.650.46LDM-4 (ours, 500-s†)5.110.720.49LDM-4 (ours, 200-s)4.980.730.50LSUN-Churches 256 × 256LSUN-Bedrooms 256 × 256MethodFID ↓Prec. ↑Recall ↑MethodFID ↓Prec. ↑Recall ↑DDPM [29]7.89--ImageBART [21]5.51--ImageBART [21]7.32--DDPM [29]4.9--PGGAN [38]6.42--UDM [42]4.57--StyleGAN [40]4.21--StyleGAN [40]2.350.590.48StyleGAN2 [41]3.86--ADM [15]1.900.660.51ProjectedGAN [74]1.590.610.44ProjectedGAN [74]1.520.610.34LDM-8∗ (ours, 200-s)4.020.640.52LDM-4 (ours, 200-s)2.950.660.48DALL-E† [64]CogView† [17]Laﬁte† [105]LDM-KL-8LDM-KL-8-G∗FID ↓27.5027.1026.9423.3512.61IS ↑17.9018.2026.0219.93±0.3526.62±0.38Table 2.Evaluation of text-conditional image synthesis onthe MS-COCO [50] dataset: Our model outperforms autoregres-sive [17, 64] and GAN-based [105] methods by a signiﬁcantmargin when using 250 DDIM [81] steps .†: Numbers takenfrom [105]. ∗: Classiﬁer-free guidance [31], scale 1.5.“A street sign that reads’Latent Diffusion’“An oil paintingof a space shuttle”106890表1. 无条件图像合成的评估指标。CelebA-HQ的结果来自[ 42 , 61, 96 ]，FFHQ的结果来自[ 41 , 42 ]。† : N -s表示使用DDIM [ 81]采样器的 N 个采样步骤。� :在KL正则化的潜在空间中训练。附录中可以找到其他结果。0表2. 在MS-COCO [ 50]数据集上对文本条件图像合成进行评估：当使用250个DDIM [ 81 ]步骤时，我们的模型在自回归[ 17 , 64]和基于GAN的[ 105 ]方法上取得了显著的优势。† :数字取自[ 105 ]。� : 无分类器指导[ 31 ]，缩放1.5。0文本条件图像合成04.2. 使用潜在扩散生成图像我们在CelebA-HQ [ 38]、FFHQ [ 40 ]、LSUN-Churches和-Bedrooms [ 98]数据集上训练了256×256像素的无条件图像模型，并使用FID [ 28 ]和Precision-and-Recall [ 49]评估了i)样本质量和ii)数据流形的覆盖性。表1总结了我们的结果。在CelebA-HQ上，我们报告了一个新的FID最佳结果为5.11，超过了先前基于似然的模型和GANs的表现。我们还超过了LSGM [ 90]，其中潜在扩散模型与第一阶段一起训练。相反，我们在固定空间中训练扩散模型，并避免了在重建质量与学习潜在空间先验之间权衡的困难，参见图1-2。我们在除了LSUN-Bedrooms数据集之外的所有数据集上都超过了先前的基于扩散的方法，其中我们的得分接近。0图7.上：我们在COCO[4]上进行布局到图像合成的LDM样本。定量评估请参见补充材料。下：我们的文本到图像LDM模型对用户定义的文本提示的样本，该模型在LAION-400M [76]上进行训练。0与ADM[15]相比，尽管使用了一半的参数并且需要4倍少的训练资源（见附录D.3.5），但LDM在Precision和Recall方面始终优于基于GAN的方法，从而证实了其基于模态覆盖似然的训练目标相对于对抗性方法的优势。在图4中，我们还展示了每个数据集上的定性结果。04.3.条件潜在扩散04.3.1 LDM的Transformer编码器通过引入基于交叉注意力的条件到LDM中，我们为扩散模型开辟了各种以前未开发的条件模态。对于文本到图像建模，我们训练了一个1.45B参数的模型，该模型以LAION-400M上的语言提示为条件进行训练。我们使用BERT-tokenizer[14]，并将τθ实现为一个transformer[94]，以推断出一个潜在的代码，该代码通过交叉注意力（第3.3节）映射到UNet中。这种领域特定专家的组合用于学习语言表示和视觉合成，得到了一个强大的模型，可以很好地推广到复杂的用户定义的文本提示，参见图7和14。为了定量分析，我们遵循之前的工作，在MS-COCO[50]验证集上评估了文本到图像生成，我们的模型在强大的AR [17,64]和基于GAN的[105]方法上有所改进，参见表2。我们注意到，应用无分类器的扩散引导[31]极大地提高了样本质量。为了进一步分析基于交叉注意力的条件机制的灵活性，我们还训练了模型，以基于OpenImages[48]的语义布局合成图像，并在COCO[4]上进行微调，参见图7。有关定量评估和实现细节，请参见第C.4节。最后，按照之前的工作[3, 15, 21,23]，我们评估了我们表现最佳的条件ImageNet模型。MethodFID↓IS↑Precision↑Recall↑NparamsBigGan-deep [3]6.95203.6±2.60.870.28340M-ADM [15]10.94100.980.690.63554M250 DDIM stepsADM-G [15]4.59186.70.820.52608M250 DDIM stepsLDM-4 (ours)10.56103.49±1.240.710.62400M250 DDIM stepsLDM-4-G (ours)3.60247.67±5.590.870.48400M250 steps, classiﬁer-free guidance [31], scale 1.5Figure 8.A LDM trained on 2562 resolution can generalize tolarger resolution (here: 512×1024) for spatially conditioned taskssuch as semantic synthesis of landscape images. See Sec. 4.3.2.4.4. Super-Resolution with Latent DiffusionLDMs can be efﬁciently trained for super-resolution bydiretly conditioning on low-resolution images via concate-bicubicLDM-SRSR3Figure 9. ImageNet 64→256 super-resolution on ImageNet-Val.LDM-SR has advantages at rendering realistic textures but SR3can synthesize more coherent ﬁne structures. See appendix foradditional samples and cropouts. SR3 results from [70].nation (cf. Sec. 3.3). In a ﬁrst experiment, we follow SR3[70] and ﬁx the image degradation to a bicubic interpola-tion with 4×-downsampling and train on ImageNet follow-ing SR3’s data processing pipeline. We use the f = 4 au-toencoding model pretrained on OpenImages (VQ-reg., cf.Tab. 8) and concatenate the low-resolution conditioning yand the inputs to the UNet, i.e. τθ is the identity. Our qual-itative and quantitative results (see Fig. 9 and Tab. 4) showcompetitive performance and LDM-SR outperforms SR3in FID while SR3 has a better IS. A simple image regres-sion model achieves the highest PSNR and SSIM scores;however these metrics do not align well with human per-ception [102] and favor blurriness over imperfectly alignedhigh frequency details [70].Further, we conduct a userstudy comparing the pixel-baseline with LDM-SR. We fol-low SR3 [70] where human subjects were shown a low-resimage in between two high-res images and asked for prefer-ence. The results in Tab. 5 afﬁrm the good performance ofLDM-SR. PSNR and SSIM can be pushed by using a post-hoc guiding mechanism [15] and we implement this image-based guider via a perceptual loss, see Sec. C.7. Since thebicubic degradation process does not generalize well to im-ages which do not follow this pre-processing, we also traina generic model, LDM-BSR, by using more diverse degra-dation. The results are shown in Sec. C.7.1.MethodFID ↓IS ↑PSNR ↑SSIM ↑NparamsThroughput∗ [ sampless]Image Regression [70]15.2121.127.90.801625MN/ASR3 [70]5.2180.126.40.762625MN/ALDM-4 (ours, 100 steps)2.8†/4.8‡166.324.4±3.80.69±0.14169M4.62LDM-4 (ours, big, 100 steps)2.4†/4.3‡174.924.7±4.10.71±0.15552M4.5LDM-4 (ours, 50 steps, guiding)4.4†/6.4‡153.725.8±3.70.74±0.12184M0.38Table 4. ×4 upscaling results on ImageNet-Val. (2562); †: FIDfeatures computed on validation split, ‡: FID features computedon train split; ∗: Assessed on a NVIDIA A1004.5

下载后可阅读完整内容，剩余1页未读，立即下载