使用扩散模型生成高保真度低密度区域图像

17 浏览量更新于2023-10-25 收藏 13.94MB PDF 举报

扩散模型

生成模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

114920使用扩散模型从低密度区域生成高保真度数据0Vikash Sehwag† Caner Hazirbas‡ Albert Gordo‡ Firat Ozgenel‡ Cristian Canton Ferrer†0†普林斯顿大学，‡Meta AI0vvikash@princeton.edu，{hazirbas，agordo，firatozgenel，ccanton}@fb.com0（i）高密度0（ii）低密度0（a）真实图像（b）BigGAN-deep（c）DDPM（d）DDPM（我们的方法）0图1.真实与合成数据。我们将不同生成模型生成的合成图像与数据流形的低密度（1.a.i）和高密度（1.a.ii）邻域中的真实图像进行比较。在1.b中，我们展示了从BigGAN[4]均匀采样的图像，在1.c中，我们展示了使用扩散模型（DDPM [10,17]）的传统均匀采样过程生成的图像。虽然扩散模型的多样性要远远超过GANs，但从它们中均匀采样很少生成低密度邻域的样本。（1.d）我们的框架引导扩散模型的采样过程进入低密度区域，并从这些区域生成新颖的高保真度实例。10摘要0我们的工作重点是解决常见图像数据集中低密度区域样本不足的问题。我们利用基于扩散过程的生成模型从低密度区域合成新颖的图像。我们观察到，从扩散模型均匀采样主要来自数据流形的高密度区域。因此，我们修改采样过程，将其引导到低密度区域，同时保持合成数据的保真度。我们经过严格的验证，证明我们的过程成功地从低密度区域生成了新颖的高保真度样本。我们进一步检查生成的样本，并展示模型没有记忆低密度数据，而是学会了从低密度区域生成新颖的样本。01 ImageNet [8,29]没有明确的人类类别，尽管某些图像中可能存在人类。因此，生成模型可能会生成包含人类的合成图像。我们进一步进行了严格的分析，以验证网络是否从训练样本中记忆了任何这样的信息。01.引言0大多数常见的图像数据集具有长尾样本密度分布[2]，其中大多数样本位于数据流形的高密度邻域。低密度区域的样本通常包含新颖的属性（图1a），并且比高密度样本具有更高的熵[1]。然而，由于它们的较低似然性，即使是少量这样的样本的筛选也需要专门的努力[16]。我们的目标是利用生成模型从低密度邻域生成合成图像。这个任务的一个自然要求是模型应该在低密度区域进行泛化。虽然生成对抗网络（GANs）在生成高保真度样本方面表现出色，但它们的覆盖率较差，因此难以从低密度区域生成高保真度样本[4]（图1b）。相比之下，自回归模型具有较高的覆盖率，但是02我们将每个类别的样本密度的长尾分布称为长尾。它与类别之间的长尾分布不同[24]，即某些类别比其他类别严重低表示。114930无法生成高保真图像[7]。我们使用扩散模型，因为它们能够同时实现高保真度和高分布覆盖率[17,26]。在训练扩散模型时，目标是近似数据分布，而数据分布通常是长尾的。我们观察到，从扩散模型均匀采样的实例的密度分布与真实数据非常相似。因此，从这些模型中均匀采样会生成一个模拟真实数据密度分布的长尾密度分布，即它以比低密度区域更高的概率从高密度区域生成样本（图1c）。为了缓解这个问题，我们首先修改采样过程，引入一个额外的引导信号，将其引导到低密度邻域。然而，在这个信号的较高幅度下，生成过程会偏离流形，从而生成低保真度的样本。我们通过引入第二个引导信号来解决这个挑战，该信号鼓励扩散模型生成接近真实数据流形的样本。由于低密度区域只有非常有限数量的训练样本可用，因此自然而然地会问扩散模型是否在低密度区域进行泛化，还是仅仅记忆训练数据。毕竟，最近的研究揭示了语言生成模型中的这种记忆现象[5,6]。我们进行了广泛的分析，证明扩散模型没有显示出记忆低密度邻域训练样本的迹象，并且确实学会在这些区域内插值。我们做出以下关键贡献。0•我们提出了一种改进的扩散模型采样过程，可以从训练数据流形的低密度邻域生成样本。0•我们使用三种不同的邻域密度指标验证了我们方法的成功，并与扩散模型中的基线采样过程进行了广泛比较。0•我们展示了我们的采样过程成功地从低密度区域生成了新颖的样本，这些样本不仅仅是记忆训练样本。我们的采样过程还揭示了尽管从低密度区域只有有限数量的训练图像可用，扩散模型仍然成功地在低密度区域进行了泛化。02. 相关工作0基于扩散的概率模型[10, 17, 26]及其密切相关的变体[38,39]是通过学习正向扩散过程的逆过程来学习数据分布的基于似然的模型。根据最新的ad-0在先进的扩散模型中，通过创新的架构[10,17]、简化的训练目标[17]和级联扩散过程[10, 18,26]等因素的成功，扩散模型在图像保真度和多样性等各种指标上优于其他类别的生成模型，如生成对抗网络（GANs）、VQ-VAE[28]和自回归模型[7]。由于扩散模型需要迭代去噪操作，因此从扩散模型中采样速度较慢。通过开发快速采样技术来减少这种开销是一个非常研究的课题。与此方向无关，我们的兴趣在于从低密度邻域中采样数据。我们进一步展示了我们的采样方法可以与快速采样技术轻松集成。为了测量样本周围的邻域密度，我们使用预训练分类器在嵌入空间中对训练数据进行高斯建模。在嵌入空间中建模图像是一种常见的方法，特别是由于它们与人类感知的一致性，在许多视觉应用中，如异常检测[32]和实例选择[9]。在生成模型中，鉴于模型学习的分布，以前已经尝试从目标数据分布中进行采样。鉴别器拒绝采样（DRS）及其后续工作[2,11]考虑使用生成对抗网络（GAN）中的鉴别器进行拒绝采样。类似地，Razavi等人[28]利用预训练分类器拒绝具有低置信度的样本。最常见的目标是过滤掉低保真度的样本，从而提高合成数据的质量。相反，我们的目标是从数据流形的低密度区域生成高保真度的样本。这些样本在均匀采样下很少由模型生成，因此使用基于简单分类器的拒绝采样方法会导致高成本开销。相反，我们选择修改扩散模型的生成过程，以引导其进入数据流形的低密度邻域。与我们最相关的工作是Li等人[23]的工作，他们平滑了BigGAN模型的类别嵌入以生成多样化的图像。相比之下，我们专注于基于扩散的生成模型。我们还在附录A.6中展示了他们的方法在扩散模型中的局限性。03. 从扩散模型中进行低密度采样0在本节中，我们首先概述了扩散式生成模型中的采样过程。接下来，我们描述了我们在低密度采样过程中的修改。pθ(x0) = p(xT )T�t=1pθ(xt−1|xt)(1)xt−1 = µθ(xt, t) + Σθ(xt, t)z,z ∼ N(0, I)(2)Given a data distribution q(x), low-density regions orneighborhoods are part of the data manifold that have sig-nificantly lower sample density than the others. To developtechniques to sample from these regions, the first step is tocharacterize them.Limitation of likelihood estimates from the diffusionmodel.A natural choice to characterize manifold den-sity is to use the likelihood estimate from the diffusionmodel itself (Equation 1). After all, we expect the likeli-hood of getting a sample from high-density regions beinghigher than the low-density regions. However, due to itsintractability for diffusion-based models, the likelihood es-timates from the model are only an approximation of exactlikelihood [17, 36]. We find that these likelihood estimatesare not a reliable predictor of manifold density as they failto align with multiple commonly used metrics or with hu-man judgment (Appendix A.2). This trend aligns with aH(x, y) = 12�(f(x) − µy)T Σ−1y (f(x) − µy)+ ln(det(Σy)) + k ln(2π)�(3)Lg1(xi, yi) = logexp(H(xi, yi)/τ)�Cj=1 exp(H(xj, j)/τ)(4)xt−1 = µθ(xt, t) + Σθ(xt, t) z+ α Σθ(xt, t)∗Lg1(xt−1, y)(5)1149403.1. 扩散模型概述0去噪扩散概率模型（DDPM）[17]通过学习正向扩散过程的逆过程（生成过程）来建模数据分布。正向过程通常是具有高斯转移的马尔可夫链，即 q ( x t | x t − 1 ) := N ( x t ; √1 − β t x t − 1 , β t I ) 。给定大量的时间步长（ T），这个扩散过程足够破坏输入样本（ x 0）中的信息，使得 p ( x T ) := N ( x t ; 0 , I )。逆过程或生成过程也被假设为具有高斯转移的马尔可夫过程，它在每个时间步骤上学习逆映射，即 p ( x t − 1 | x t )，通常用深度神经网络进行建模，由参数 θ参数化，该网络学习高斯转移，使得 p θ ( x t − 1 | x t ) := N ( x t − 1 ; µ θ ( x t , t ) , Σ θ ( x t , t )) 。0该模型通过最大化训练数据上的负对数似然的变分下界来进行训练。为了从扩散模型中采样合成数据，我们首先从正态分布中采样一个潜变量 x T � N ( 0 , I )，然后使用以下逆过程的迭代去噪过程。0我们将这种方法称为基线采样过程。03.2. 从数据流形的低密度区域生成合成图像0在本节中，我们介绍了使用基于扩散模型生成数据流形低密度区域样本的方法。03.2.1 识别数据流形上的低密度区域0自回归模型中的类似似然估计的局限性[25]。我们将注意力转向判别模型，因为众所周知它们可以学习与图像的人类感知相一致的有意义的嵌入。我们通过估计嵌入空间中数据的似然性来衡量流形密度。令 ( g ◦ f )( . )为一个判别模型，其中 f 提取输入图像的嵌入， g是头分类器，通常是一个线性模型。我们使用高斯模型对每个类别的嵌入进行建模，并估计给定图像 ( x i ) 和类别标签y i 的对数似然。我们将负对数似然称为困难度分数（ H）。0µ y 和 Σ y 分别是类别 y 的嵌入样本均值和样本协方差， k 是嵌入空间的维度。我们在附录 A.3中提供了进一步的分析，以证明流形密度的降低导致困难度分数的增加。为了从低密度区域采样，我们的方法是引导扩散模型生成具有高困难度分数的样本，即等同于在正确类别中获得低似然性。我们最大化以下对比引导损失来完成这个任务。0其中 τ 是温度， C是类别总数。这种引导损失函数的形式化与输出 softmax概率的交叉熵损失非常相似，即 ( g ◦ f )( . )。因此，我们还考虑了一个等效的损失函数，其中我们最小化正确类别的输出 softmax概率，而不是困难度得分。在采样过程中引入引导损失。下一步是通过最小化每个时间步的生成样本的对数似然来引导采样过程到低密度区域。我们修改采样过程如下所示。0其中 z � N ( 0 , I ) ， � � 表示归一化梯度， α是一个缩放超参数。我们通过归一化梯度来解开缩放超参数α 的选择与扩散过程时间步长 t 的关系（附录 A.4）。这种采样过程的表述与 Dhariwal 等人 [ 10 ]类似，不同之处在于我们的损失函数旨在引导到低密度区域，并且我们使用了归一化梯度。Lg2(xi) = −logexp(H′(xi, 1)/τ)�1j=0 exp(H′(xj, j)/τ)(6)xt−1 = µθ(xt, t) + Σθ(xt, t) z+ α Σθ(xt, t) ∇∗Lg1(xt−1, y)+ β Σθ(xt, t) ∇∗Lg2(xt−1)(7)1149503.2.2 在最小化似然时保持保真度0我们发现方程 5 中的采样过程在较小的 α值下非常成功。然而，在较高的 α值下，引导项会主导高斯过渡项，使采样过程偏离数据流形，从而生成质量很低的图像（如图 2所示）。这种效果在模型分布通常不是数据分布的良好近似，特别是由于低密度区域中只有很少数量的训练样本可用的原因，会被加剧。0图 2. 说明小的 α值成功地将采样过程引导到数据流形上的低密度区域（较浅的颜色）。然而，在较大的 α值下，使用来自二元鉴别器的额外引导（通过使用非零的 β）（方程 7 ）有助于保持接近数据流形。我们在图 3中提供了一个演示。0我们在采样过程中加入了另一个项，使其保持接近数据流形。具体而言，我们训练了一个二元鉴别器，其困难度得分为H ′，用于区分合成样本和真实样本。在采样过程中，我们通过最大化以下损失值来强制合成图像保持接近真实数据流形。0这里的类别零和一分别代表合成和真实图像。在低密度区域，模型分布很可能是真实数据分布的一个较差近似，这个目标强制扩散模型生成最接近真实数据流形的样本。我们的最终采样过程如下所示。0其中 z � N ( 0 , I ) ， � � 表示归一化梯度， α 和 β是缩放超参数。为了进一步展示 α 和 β的综合效果，我们在图 3中通过对这两个超参数进行网格搜索提供了合成图像。我们还在算法 1 中详细介绍了我们的最终方法。0算法 1: 从低密度区域采样。0输入：类别标签(y)，α，β函数：Normalize(u)：返回u / ∥u∥ x T �N(0, I) for i ← T to 1 do0if t > 1 then0z � N(0, I), s ← I else0z ← 0, s ← 0 end u 1 = α Σθ(xt, t) Normalize � �Lg1(xt−1, y) �0u 2 = β Σθ(xt, t) Normalize � � Lg2(xt−1) �0xt−1 = µθ(xt, t) + Σθ(xt, t) z + s(u1 + u2) end return x004. 实验结果0实验设置。我们使用基于U-Net的扩散模型[10]的自适应组归一化架构。我们考虑U-Net的编码器作为分类器架构。分类器和扩散模型都以扩散过程的时间步作为条件。我们考虑扩散过程的 T =1000。在采样时，我们使用250个时间步，因为它可以加快采样过程而几乎不会影响图像质量。我们考虑两个常用的图像数据集：CIFAR-10 [22]和ImageNet[8]。在训练二元鉴别器 H'时，我们首先均匀采样合成图像，数量等于训练数据集的大小，即 50K。0β0α0图3. 控制硬度和保真度。增加 α (y轴) 和 β (x轴)对合成图像的影响。增加 α 强制模型从低密度区域采样，而 β强制采样过程保持接近真实数据流形。 β的显著影响包括改善前景语义以正确表示类别并保留背景信息。0.00.10.251.00.000.0070.0150.00.250.50.751.02.0606570114960对CIFAR-10数据集采样50K张合成图像，对ImageNet数据集采样1.2M张合成图像。我们对 α 和 β 在 0.01 到 1.0之间进行超参数搜索。在大多数分析中，我们对ImageNet采样50K张合成图像，对CIFAR-10数据集采样10K张合成图像，即每个数据集的验证集大小。我们在附录 A.1中提供了额外的实验细节。在采样时，我们优化嵌入空间中U-Net编码器模型的似然估计，即硬度分数。为了衡量对其他表示空间的泛化能力，我们考虑多个其他模型来计算采样后的硬度分数。我们在主文中使用ResNet-50模型呈现结果，其余结果在附录 B.1 中呈现。04.1. 使用提出的 α - β 引导采样过程生成合成数据0验证超参数 α 和 β的效果。我们的采样过程设计成可以通过增加 α从低密度区域采样图像，并通过增加 β提高这些图像的保真度。我们的第一个目标是验证这两个超参数的预期效果。在使用 β = 0 的情况下，我们首先将 α的值从 0 增加到1.0，并测量每个值下采样图像的硬度分数（图4a）。我们的结果表明，增加 α会将硬度分数分布向右移动，即采样到的图像具有更低的估计似然性的概率更高。接下来，我们将 α 固定为 0.5，并将β从零增加到两个。我们使用精度[30]来衡量合成图像的保真度。它广义地衡量了真实图像的分数或等效地说，合成数据在训练数据分布的支持下的覆盖率。我们的结果表明，增加β确实改善了生成的合成图像的逼真度（图4b）。最后，我们分析参数 α 和 β 的联合效应。我们对 α 和 β进行网格搜索，并为每对值生成图像。为了避免随机性的影响，我们在采样过程的所有运行中使用相同的种子。我们在图3中呈现采样的图像。这些可视化结果验证了我们的论点，即仅仅增加 α到非常高的值会降低图像的保真度。这是因为较高的 α值鼓励采样低似然性的图像。然而，模型可以满足这个条件。0100 150 200 250 300 硬度分数0密度0(a) α增加了硬度分数。0精确度0(b) β提高了保真度0图4. 验证超参数的效果。定量结果验证了超参数α和β的期望效果。0通过简单生成质量较差的图像来限制采样过程。增加β可以解决这个问题，特别是在α的较高值上，它可以恢复图像的关键属性，从而将其有效地靠近数据流形。我们发现α和β之间的1：1比例在样本硬度和保真度之间取得了适度的平衡，并在后续实验中使用α = β =0.5。比较我们的采样过程与基线采样过程。我们在图5、6中比较了基线和我们的采样方法生成的合成图像。我们对两个采样过程使用了相同的实验设置，包括随机数生成器的种子，因此只有引导项会影响最终的图像。由于扩散模型在前景对象语义和背景上引入了显著的变化以满足硬度和保真度的约束，我们的方法生成的图像在视觉上与基线方法是可区分的。我们在附录B.3中提供了额外的可视化结果。04.2. 邻域密度的定量比较0为了验证我们的采样过程确实从低密度区域生成数据，我们定量比较了不同基线下合成图像附近的流形密度。用于测量附近密度的度量标准。我们首先使用硬度分数作为验证度量标准，因为我们在采样过程中最大化了它。然而，我们的采样过程可能在不实际将采样过程移动到低密度区域的情况下最大化硬度分数。因此，我们考虑了另外两个度量标准，即平均最近邻（AvgkNN）和局部离群因子（LOF）[3]，以进一步验证我们方法的成功性。AvgkNN使用与最近邻的接近程度来测量密度。我们选择了五个最近邻，这是一个常见的选择[9]。相比之下，局部离群因子改进了最近邻距离度量，将给定样本周围的密度与其邻居周围的密度进行比较。局部离群因子的较高值表明样本位于比其邻居更低密度的区域。我们在ImageNet数据集上预训练的ResNet50网络的特征空间中计算所有距离。我们在附录B.1中对特征提取器的选择进行了分析，并展示了我们的结论在这个选择下不会改变。对于这个分析，我们使用了来自第4.1节推荐的α和β的值生成了50K个合成图像。我们将我们的方法与三个基线进行比较：1）BigGAN-deep2）来自ImageNet验证集的真实图像和3）使用DDPM模型的基线采样生成的合成图像。我们在图7中呈现了我们的结果。这三个度量标准都验证了我们方法的成功性。在这三个度量标准下，我们的采样过程具有更高的114970(a) 水塔0(b) 学术袍0(c) 虎甲虫0图5.比较来自提议和基线采样过程的样本。我们在ImageNet数据集上比较了我们提议的采样方法（顶部）和基线采样过程（底部）生成的合成图像。我们对两种随机采样过程使用相同的随机种子。因此，两种方法中每对图像的生成都始于相同的潜在向量，唯一的区别是我们的方法中额外的引导项。0(a) 汽车0(b) 卡车0图6. 在CIFAR-10数据集上的比较。我们在CIFAR-10数据集上比较了基线采样过程（左）和我们提议的采样方法（右）生成的合成图像。我们对两个过程使用了相同的随机数生成器种子。0生成合成图像的低密度邻域的概率。它还验证了真实数据中样本密度本身遵循长尾分布的说法，并且扩散模型的基线采样过程与这种分布非常接近。相比之下，BigGAN样本主要来自低密度区域。在这三个度量中，我们的方法与基线方法在AvgkNN距离上的差异最显著。当在指导损失函数的选择上进行消融实验时，我们发现在足够的超参数消融下，可以在嵌入空间中优化似然或在logit层之后的softmax概率时获得等效结果（附录A.5）。0计算成本的等效降低。假设0我们希望从低密度邻域中采样图像，即每个合成样本的难度分数大于一个阈值。一种朴素的基于拒绝采样的方法是随机均匀采样图像，并拒绝不满足条件的图像。然而，由于0表1.采样成本的降低。比较我们的方法与均匀采样的样本生成时间。每个条目表示在单个A100GPU上生成相应难度分数范围的5K个256×256分辨率合成图像所需的时间（以天为单位）。0分数范围 200 - 240 240 - 280 280 - 3200基线 1.99 5.74 16.79 我们的方法 1.88（×1.1）2.03（×2.8）2.78（×6.0）0.0000.0050.0100.015BigGANRealDDPM (baseline)DDPM (ours)0123510BigGANRealDDPM (baseline)DDPM (ours)114980150 200 250 300 难度分数0密度0(a) 难度分数00.00 0.25 0.50 0.75 1.00平均kNN距离0密度0BigGAN真实数据0DDPM（基线）DDPM（我们的方法）0(b) 平均kNN距离00.9 1.0 1.1 1.2 LOF0密度0(c) 局部离群因子0图7.邻域密度比较。我们使用三种不同的度量方法来衡量给定一组实例的邻域密度。这三种度量方法都有一个共同的趋势：基线采样生成的合成样本具有与真实数据类似的密度分布，而我们的采样过程以更高的概率从低密度邻域生成样本。0由于样本密度的长尾特性，低密度区域的样本可能性很低，因此我们需要拒绝许多样本来筛选出所需的样本。由于采样过程的迭代性质，从扩散模型生成合成数据的计算成本很高，因此拒绝采样是一种计算成本非常高的方法（表1）。我们的方法不依赖于拒绝采样，因此比前一种方法快2-6倍（表1）。05. 我们的采样过程是否生成了来自训练数据的记忆化样本？0由于我们的长尾数据集中低密度区域的样本数量有限，生成模型可能会记住这些样本，并且无法从这些区域生成新的样本。因此，我们进行了严格的分析，以确定我们的采样过程是否利用了扩散模型中可能发生的任何记忆化现象。0图8.低密度合成数据是否被记忆？特征空间中最小欧氏距离的合成图像和真实图像对。在每对中，左边的图像对应合成图像，右边的图像对应真实图像。这些示例的搜索空间包括50K个合成图像和1.2M个真实图像的所有对。虽然合成图像与最近的真实图像共享多个属性，但它们与真实图像并不完全相同。0图9.低密度合成数据是否新颖？对于每个合成图像，我们分析了来自真实数据的五个最近邻的类别标签。虽然每个合成图像都具有高保真度并正确地表示了类别，但它在特征空间中通常更接近其他类别的样本。即使类别标签不同，合成图像与最接近的真实样本之间也存在显著差异。0分析最近邻距离。我们认为，如果训练数据被记忆化，合成图像将与训练数据非常相似。我们通过在经过良好训练的图像分类器的嵌入空间中使用欧氏距离来衡量这种相似性。因此，如果一个合成图像仅仅是从训练数据中记忆化而来，它与真实数据的最近邻距离将非常小。我们使用我们的采样方法采样了50K个图像，并测量它们与ImageNet数据集的1.2M真实图像训练集中的最近邻距离。我们将这些值与验证集中真实数据的最近邻距离进行比较。如果我们的方法记忆了训练样本，其最近邻距离应该远小于真实样本。然而，平均距离为114990对于我们的样本，其最近邻距离为0.42，远高于真实样本的0.29。这支持了我们的假设，即我们的采样过程不仅仅是生成记忆的训练样本。分析合成-真实数据对以寻找记忆化迹象。超越分布统计的比较，我们现在分析个别样本以寻找记忆化的迹象。特别是，我们的目标是手动分析合成图像及其最接近的邻居，以寻找记忆化的迹象。更进一步，我们希望分析那些最有可能被记忆化的对，即与真实数据最接近的合成样本。在所有60B对（50K×1.2M）的合成和真实图像中，我们手动分析了最小配对距离的前500对。我们观察到，尽管这些对中的图像共享多个属性，如对象形状、纹理和身份，但它们并没有被记忆化。相反，它们是真实图像的某种语义变体，突显了扩散模型学习了数据流形而不是记忆这些样本。我们在图8中展示了前12对样本，其余样本在附录B.2中。从低密度区域生成新颖样本。为了验证我们的采样过程确实从低密度区域生成了新颖图像，我们还考虑了其在真实数据中最近邻的类别标签。在多种情况下，我们发现最近邻与合成样本的类别标签不同。我们在图9中提供了一些这样的例子。这种现象可能是由于低密度区域中嵌入提取器学到的表示不好，主要是由于这些区域中训练样本的稀缺性引起的。06. 讨论0我们提出了扩散式生成模型中采样过程的改进版本，该版本使得从数据流形的低密度邻域中进行采样成为可能。我们通过在每个时间步骤使用两个额外的分类器来引导采样过程来实现这一点。我们的采样过程成功地从低密度区域生成了新颖的样本。我们的工作还发现了扩散模型的另一个引人注目的优势。尽管在低密度区域只使用了少量样本进行训练，但扩散模型在这些区域内成功地进行了插值，即不会记忆这些区域的训练数据。我们通过将基线和我们的采样过程的样本进行对比分析了我们引导损失的影响（图5，6）。这些结果表明，生成模型根据引导损失目标利用了新颖的变换。我们进一步通过逐渐增加α的值（保持所有其他参数不变）来分析这种效果（图10）。α的较高值会迫使模型生成低可能性的样本。我们发现网络有时会利用诸如光度变化、缩放、视角和背景切换等变换来减少生成的样本的可能性。0图10. 渐进采样. 我们逐渐增加α在采样过程的不同运行中.它突出了引导损失如何逐步将合成图像移动到低密度区域.0扩散模型中的采样过程迭代进行数百步以生成单个样本.这个挑战通常使用快速采样过程来解决,这种过程在样本质量和速度之间进行权衡[19, 37].为了证明我们的方法也可以与快速采样技术集成,我们将我们修改后的采样过程与Song等人的快速采样方法集成.我们发现基线和我们的方法在保真度和采样步骤之间没有明显不同的权衡(附录A.7). 在非常少的采样步骤(例如十步)下,两种方法都难以生成高质量的图像. 然而,随着时间步数的增加, 基线和我们的方法的保真度迅速提高.07. 限制和更广泛的影响0我们通过在图像分类器的特征空间中导航数据流形来引导采样过程.虽然深度神经网络中的特征空间的接近性与人类感知一致[45], 但深度神经网络也被广泛认为对某些属性存在偏见,例如纹理[12]和背景[34, 44].我们的采样过程可以利用这些偏见, 例如简单地去除背景,以在特征空间中引起似然性的大幅变化.我们还进行了一项调查,以研究记忆化的迹象以及我们的采样过程是否在利用它们.虽然我们在ImageNet数据集上没有观察到任何记忆化,但扩散模型可能会在比ImageNet更复杂和非策划的数据集上记忆样本. 在这种记忆化事件中,我们的采样过程可能会利用它.深度神经网络通常难以推广到来自分布的新颖和罕见样本[16, 20].我们相信我们的工作可以进一步帮助改善这些网络的分布鲁棒性.我们的采样过程还揭示了扩散模型成功地推广到数据流形的低密度区域,这进一步加强了这些模型在表示学习中的潜力[13, 33].115000参考文献0[1] Chirag Agarwal, Daniel D’souza, 和 Sara Hooker.使用梯度方差估计示例难度.0[2] Samaneh Azadi, Catherine Olsson, Trevor Darrell,Ian Goodfellow, 和 Augustus Odena. 判别器拒绝采样.在国际学习表示会议上 , 2018. 20[3] Markus M Breunig, Hans-Peter Kriegel, RaymondT Ng, 和 JÈorg Sander. Lof: 识别基于密度的局部异常值.在2000年ACM SIGMOD国际数据管理会议论文集 ,页码93±104, 2000. 50[4] Andrew Brock, Jeff Donahue, 和 Karen Simonyan.大规模GAN训练用于高保真度自然图像合成.在国际学习表示会议上 , 2019. 10[5] Nicholas Carlini, Chang Liu, Â Ulfar Erlingsson,Jernej Kos, 和 Dawn Song. 秘密共享者:评估和测试神经网络中的意外记忆.在第28届{USENIX}安全研讨会({USENIX} Security 19) ,页码267±284, 2019. 20[6] Nicholas Carlini, Florian Tram`er, Eric Wallace,Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee,Adam Roberts, Tom Brown, Dawn Song, Â Ulfar Er-lingsson, Alina Oprea, 和 Colin Raffel.从大型语言模型中提取训练数据.在第30届USENIX安全研讨会(USENIX Security 21) ,0[7] Rewon Child, Scott Gray, Alec Radford, and IlyaSutskever. 使用稀疏变压器生成长序列.arXiv预印本arXiv:1904.10509 , 2019. 20[8] Jia Deng，Wei Dong，Richard Socher，Li-JiaLi，Kai Li和LiFei-Fei。ImageNet：一个大规模的分层图像数据库。在20[9] Terrance DeVries，Michal Drozdzal和Graham WTaylor。GAN的实例选择。神经信息处理系统会议和研讨会，33：13285±13296，2020年。2，50[10] Prafulla Dhariwal和AlexNichol。扩散模型在图像合成方面胜过GAN。神经信息处理系统会议和研讨会，2021年。1，2，3，4，11，130[11] Xin Ding，Z Jane Wang和William JWelch。子采样生成对抗网络：在特征空间中使用软加损失进行密度比估计。IEEE信号处理交易，2020年。20[12] Robert Geirhos，Patricia Rubisch，ClaudioMichaelis，Matthias Bethge，Felix A. Wichmann和WielandBrendel。ImageNet训练的CNN对纹理有偏见；增加形状偏见可以提高准确性和0鲁棒性。在2019年国际学习表示会议上。80[13] Sven Gowal，Sylvestre-Alvise Rebuffi，OliviaWiles，Florian Stimberg，Dan Andrei Calian和TimothyMann。使用生成数据改善鲁棒性。arXiv预印本arXiv:2110.0[14] Matej GrciÂc，Ivan GrubiˇsiÂc和SiniˇsaˇSegviÂc。密集连接的归一化流。神经信息处理系统进展，34，2021年。110[15] Dan Hendrycks，Steven Basart，Norman Mu，SauravKadavath，Frank Wang，Evan Dorundo，RahulDesai，Tyler Zhu，Samyak Parajuli，Mike Guo，DawnSong，Jacob Steinhardt和JustinGilmer。鲁棒性的多个面孔：对超出分布的泛化的批判性分析。ICCV，2021年。110[16] Dan Hendrycks，Kevin Zhao，StevenBasart，Jacob Steinhardt和DawnSong。自然对抗示例。在2021年IEEE/CVF计算机视觉和模0[17] Jonathan Ho，Ajay Jain和PieterAbbeel。去噪扩散概率模型。在2020年神经信息处理系统会议和研讨会上。1，2，30[18] Jonathan Ho，Chitwan Saharia，WilliamChan，David J Fleet，Mohammad Norouzi和TimSalimans。级联扩散模型用于高保真度图像生成。arXiv预0[19] Alexia Jolicoeur-Martineau，Ke Li，RÂemiPichÂe-Taillefer，Tal Kachman和IoannisMitliagkas。使用基于分数的模型快速生成数据。arXiv预印0[20] Pang Wei Koh，Shiori Sagawa，Sang MichaelXie，Marvin Zhang，Akshay Balsubramani，WeihuaHu，Michihiro Yasunaga，Richard LanasPhillips，Irena Gao，TonyLee等。Wilds：野外分布转变的基准。在2021年国际机器学习会议上，第5637-5664页。PMLR，80[21] Zhifeng Kong和WeiPing。快速采样扩散概率模型。arXiv预印本arXiv:2106.000[22] Alex Krizhevsky.从微小图像中学习多层特征。多伦多大学技术报告，2009年0[23] Qi Li，Long Mai，Michael A Alcorn和AnhNguyen。通过微调它们的类嵌入来改进和重新使用大型预训练GAN的经济有效方法。在2020年亚洲计算机视觉会议上的论文集，2，130[24]刘子威，苗仲琦，詹晓航，王佳韵，龚博青，于斯黛拉。开放世界中的大规模长尾识别。在2019年IEEE/CVF计算机视觉和模式识别会议上。1115010[25] Eric Nalisnick，Akihiro Matsukawa，Yee WhyeTeh，Dilan Gorur和BalajiLakshminarayanan。深度生成模型知道它们不知道的东西吗？在2018年国际学习表示会议上，3，110[26] Alexander Quinn Nichol和PrafullaDhariwal。改进的去噪扩散概率模型。在《机器学习国际会议》中，2021年。20[27] Adam Paszke，Sam Gross，FranciscoMassa，Adam Lerer，James Bradbury，GregoryChanan，Trevor Killeen，Zeming

下载后可阅读完整内容，剩余1页未读，立即下载