感知优先的扩散模型训练

152 浏览量更新于2023-10-26 收藏 17.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Jooyoung Choi1Jungbeom Lee1Chaehun Shin1Sungwon Kim131,2,1. Introduction∗Correspondence to: Sungroh Yoon (sryoon@snu.ac.kr)tents of an image with various levels of noise. A model istrained by optimizing the sum of denoising score match-ing losses [43] for various noise levels [39], which aimsto learn the recovery of clean images from corrupted im-ages. Instead of using a simple sum of losses, Ho etal. [14] observed that their empirically obtained weightedsum of losses was more beneficial to sample quality. Theirweighted objective is the current de facto standard objec-tive for training diffusion models [8, 25, 27, 32, 40]. How-ever, surprisingly, it remains unknown why this performswell or whether it is optimal for sample quality. To the bestof our knowledge, the design of a better weighting schemeto achieve better sample quality has not yet been explored.Given the success of diffusion models with the standardweighted objective, we aim to amplify this benefit by ex-ploring a more appropriate weighting scheme for the ob-jective function. However, designing a weighting scheme isdifficult owing to two factors. First, there are thousands ofnoise levels; therefore, an exhaustive grid search is impos-sible. Second, it is not clear what information the modellearns at each noise level during training, therefore hard todetermine the priority of each level.In this paper, we first investigate what a diffusion modellearns at each noise level. Our key intuition is that the diffu-sion model learns rich visual concepts by solving pretexttasks for each level, which is to recover the image fromcorrupted images. At the noise level where the images areslightly corrupted, images are already available for percep-tually rich content and thus, recovering images does notrequire prior knowledge of image contexts. For example,the model can recover noisy pixels from neighboring cleanpixels. Therefore, the model learns imperceptible details,rather than high-level contexts. In contrast, when imagesare highly corrupted so that the contents are unrecogniz-able, the model learns perceptually recognizable contents tosolve the given pretext task. Our observations motivate us topropose P2 (perception prioritized) weighting, which aimsto prioritize solving the pretext task of more important noiselevels. We assign higher weights to the loss at levels where114720感知优先的扩散模型训练01 数据科学与人工智能实验室，首尔国立大学 2 人工智能与信息学研究所，首尔国立大学3 LG人工智能研究0摘要0扩散模型通过优化相应损失项的加权和（即去噪分数匹配损失）来学习恢复带有不同噪声级别的噪声数据。在本文中，我们展示了恢复受特定噪声级别损坏的数据为模型学习丰富的视觉概念提供了适当的借口任务。我们提出在训练过程中优先考虑这些噪声级别，通过重新设计目标函数的加权方案。我们展示了我们对加权方案的简单重新设计显著提高了扩散模型的性能，无论数据集、架构和采样策略如何。0扩散模型[14,36]是一类最近的生成模型，已经取得了卓越的图像生成性能。扩散模型的研究进展迅速，因为它们为图像合成提供了几个理想的属性，包括稳定的训练、易于模型扩展和良好的分布覆盖[27]。从Ho等人[14]开始，最近的研究[8, 27,40]表明，扩散模型可以通过依赖额外的努力，如分类器引导[8]和级联模型[32]，在类条件设置下生成与生成对抗网络（GANs）[12]生成的高保真度图像相媲美的图像。然而，单个模型的无条件生成仍有很大的改进空间，并且尚未探索各种高分辨率数据集（例如FFHQ[20]，MetFaces [18]）的性能，这些数据集是其他生成模型家族[3, 11, 20, 22,41]主要竞争的对象。从可追踪的噪声分布开始，扩散模型通过逐步去除噪声来生成图像。为了实现这一点，模型学习了预定义扩散过程的逆过程，该过程按顺序用各种噪声破坏图像的内容。模型通过优化各种噪声级别[39]的去噪分数匹配损失[43]的和来进行训练，旨在从损坏的图像中学习恢复清晰图像。Ho等人[14]观察到，他们经验得到的损失加权和对样本质量更有益处。他们的加权目标是训练扩散模型的当前事实标准目标[8, 25, 27, 32,40]。然而，令人惊讶的是，目前尚不清楚为什么这样做效果好，以及它是否对样本质量最优。据我们所知，尚未探索过更好的加权方案设计以实现更好的样本质量。鉴于扩散模型在标准加权目标上取得的成功，我们的目标是通过探索更适合目标函数的加权方案来放大这一效果。然而，设计加权方案很困难，有两个因素。首先，有成千上万个噪声级别，因此不可能进行详尽的网格搜索。其次，在训练过程中，模型在每个噪声级别学习到了什么信息并不清楚，因此很难确定每个级别的优先级。在本文中，我们首先研究了扩散模型在每个噪声级别上学到了什么。我们的关键直觉是，扩散模型通过解决每个级别的借口任务（即从损坏的图像中恢复图像）来学习丰富的视觉概念。在图像轻微损坏的噪声级别上，图像已经可用于感知丰富的内容，因此恢复图像不需要对图像上下文的先验知识。例如，模型可以从相邻的清晰像素中恢复噪声像素。因此，模型学习了不可察觉的细节，而不是高级上下文。相反，当图像被高度损坏以至于内容无法识别时，模型学习了感知上可识别的内容来解决给定的借口任务。我们的观察结果激发我们提出了P2（感知优先）加权方案，旨在优先解决更重要噪声级别的借口任务。我们在这些级别的损失上分配更高的权重，其中q(xt|xt−1) = N(xt;1 − βtxt−1, βtI).(1)xt = √αtx0 +√1αtϵ,(2)xt−1 =1√1 − βt(xt −βt√1 − αtϵθ(xt, t)) + σtz,(3)SNR(t) = αt/(1 − αt),(4)114730模型学习感知丰富的内容，同时对模型学习不可感知的细节给予最小的权重。为了验证所提出的P2加权的有效性，我们首先比较了使用先前标准加权方案和P2加权在各种数据集上训练的扩散模型。使用我们的目标训练的模型始终比先前的标准目标优越很多。此外，我们展示了使用我们的目标训练的扩散模型在CelebA-HQ [ 17 ]和Oxford-flowers [ 28]数据集上实现了最先进的性能，在FFHQ [ 20]上与各种类型的生成模型（包括生成对抗网络（GANs）[12]）实现了可比较的性能。我们进一步分析了P2加权对各种模型配置和采样步骤的有效性。我们的主要贡献如下：0•我们引入了一种简单而有效的训练目标加权方案，以鼓励模型学习丰富的视觉概念。0•我们研究了扩散模型如何从每个噪声水平中学习视觉概念。0•我们展示了扩散模型在各种数据集、模型配置和采样步骤上的一致改进。02. 背景02.1. 定义0扩散模型 [ 14 , 36 ] 将复杂的数据分布 p data ( x )转化为简单的噪声分布 N (0 , I )，并学习从噪声中恢复数据。扩散模型的扩散过程逐渐用预定义的噪声尺度 0 < β 1 , β 2 , ..., β T < 1 损坏数据 x 0，时间步骤 t 索引。损坏的数据 x 1 ，...，x T 从数据 x 0 �p data ( x ) 中采样，采用高斯转换定义扩散过程：0噪声数据 x t 可以直接从 x 0 中采样：0其中 ϵ � N (0 , I ) 且 α t := � t s =1 (1 − β s )。我们注意到数据 x 0 ，噪声数据 x 1 ，...，x T 和噪声 ϵ具有相同的维度。为了确保 p ( x T ) � N (0 , I )和扩散过程的可逆性 [ 36 ]，应该将 β t设置为较小的值，将 α T设置为接近零的值。为此，Ho等人 [ 14 ]和Dhariwal等人 [8 ]使用线性噪声计划，其中 β t 从 β 1 线性增加到 β T。Nichol等人 [ 27 ]使用余弦计划，其中 α t类似于余弦函数。扩散模型使用学习的去噪过程 p θ ( x t −1 | x t ) 生成数据 x 0 ，该过程可以逆转扩散过程0从方程（1）的噪声 x T � N (0 , I ) 开始，我们通过迭代减去噪声预测器ϵ θ 预测的噪声来定义扩散过程：0其中 σ 2 t 是去噪过程的方差，z � N (0 , I ) 。Ho等人 [ 14]将 β t 用作 σ 2 t 。最近的工作Kingma等人 [ 23]以信噪比（SNR）的形式简化了扩散模型的噪声计划。损坏数据 x t的SNR是从方程（2）的均值和方差的平方的比率，可以写成：0因此，噪声数据 x t 的方差可以用SNR表示： α t = 1 −1 / (1 + SNR ( t )) 。我们要注意SNR( t)是一个单调递减的函数。02.2. 训练目标0扩散模型是一种变分自编码器（VAE）；其中编码器被定义为一个固定的扩散过程，而不是一个可学习的神经网络，解码器被定义为一个可学习的去噪过程，用于生成数据。与VAE类似，我们可以通过优化变分下界（VLB）来训练扩散模型，该下界是去噪评分匹配损失的总和 [ 43 ]： L vlb = �0t L t，其中每个损失项的权重是均匀的。对于每个步骤t，去噪评分匹配损失 L t是两个高斯分布之间的距离，可以用噪声预测器 ϵ θ重新表达为：0L t = D KL (q (x t-1 | x t, x 0) || p θ (x t-1 | x t))0= E x 0,ϵ [ β t0(1 - β t)(1 - α t) || ϵ - ϵ θ (x t, t) || 2 ]。(5)0直观地说，我们训练一个神经网络 ϵ θ 来预测给定时间步长t 的噪声 ϵ，该噪声被添加到噪声图像 x t中。Ho等人[14]经验性地观察到以下简化目标对于样本质量更有益：0L simple = 0t E x 0,ϵ [ || ϵ - ϵ θ (x t, t) || 2 ]。(6)0t λ t L t，其中权重方案 λ t = (1 - β t)(1 - α t)/βt。在连续时间设置中，这个方案可以用SNR来表示：0λ t = -1 / log-SNR' (t) = -SNR (t) / SNR' (t)，(7)0dt。详细推导请参见附录。Ho等人[14]使用固定的方差 σt，而Nichol等人[27]建议使用混合目标函数 L hybird = L simple + cLvlb，其中 c = 1 e - 3。他们观察到学习 σ t可以减少采样步骤，同时保持生成性能。我们继承了他们的混合目标函数以实现高效采样，并修改了 L simple 以提高性能。We use FID [13] and KID [2] for quantitative evalua-tions. FID is well-known to be analogous to human percep-tion [13] and well-used as a default metric [8, 11, 18, 20, 30]for measuring generation performances. KID is a well-usedmetric to measure performance on small datasets [18, 19,30]. However, since both metrics are sensitive to the prepro-cessing [30], we use a correctly implemented library [30].We compute FID and KID between the generated samplesand the entire training set. We measured final scores with50k samples and conducted ablation studies with 10k sam-ples for efficiency, following [8]. We denote them as FID-50k and FID-10k respectively.114740图1.扩散过程中的信息消除。（左）受损图像的感知距离与信噪比（SNR）的函数关系。距离是在两个受损图像之间测量的，这两个图像要么是从同一图像损坏得到的（蓝色），要么是从不同图像损坏得到的（橙色）。我们使用CelebA-HQ中的200个随机三元组来计算平均距离。当SNR的幅度在10^-2到10^0之间时，感知上可识别的内容被移除。（右）扩散过程的示意图。0我们使用FID [13]和KID[2]进行定量评估。FID被广泛认为类似于人类感知[13]，并且被用作默认指标[8, 11, 18,20, 30]来衡量生成性能。KID是用于衡量小数据集性能的常用指标[18, 19,30]。然而，由于这两个指标对预处理非常敏感[30]，我们使用正确实现的库[30]。我们计算生成样本与整个训练集之间的FID和KID。我们使用50k个样本进行最终评分，并使用10k个样本进行消融研究，遵循[8]的方法。我们分别将它们表示为FID-50k和FID-10k。02.3. 评估指标03. 方法0我们首先在第3.1节中研究模型在每个扩散步骤中学到了什么。然后，在第3.2节中提出了我们的权重方案。在第3.3节中，我们讨论了我们的权重方案的有效性。03.1. 从噪声数据中恢复信号的学习0扩散模型通过在每个噪声水平上解决预文本任务来学习视觉概念，即从受损信号中恢复信号。更具体地说，模型预测了噪声图像 x t 的噪声成分 ϵ，其中时间步长 t是噪声水平的索引。而扩散模型的输出是噪声，其他生成模型（VAE、GAN）直接输出图像。由于噪声不包含任何内容或信号，很难理解噪声预测对于学习丰富的视觉概念的贡献。扩散模型的这种特性引发了以下问题。0问题：模型在训练的每个步骤中学习了哪些信息？0研究扩散过程。我们首先研究预定义的扩散过程，以探索模型可以从每个噪声水平中学到什么。假设我们有两个不同的干净图像 x 0，x' 0 和三个噪声图像 x tA，x tB � q (x t | x0)，x' t � q (x t | x' 0)，其中 q是扩散过程。在图1（左）中，我们测量两种情况下的感知距离（LPIPS [46]）：x tA 和 x tB之间的距离（蓝线），它们共享相同的 x 0，以及 x tA 和 x't 之间的距离（橙线），它们是从不同的图像 x 0 和 x' 0合成的。我们将这两种情况的距离表示为信噪比（SNR）的函数，该信噪比在第4式中引入，用于描述每个步骤的噪声水平。简要回顾一下，如图1（右）所示，SNR通过扩散过程降低，通过去噪过程增加。0扩散过程的早期步骤具有较大的SNR，这表示噪声非常小；因此，噪声图像xt保留了大量来自干净图像x0的内容。因此，在早期步骤中，xtA和xtB在感知上是相似的，而xtA和x′t在感知上是不同的，如图1（左）中的大SNR侧所示。模型可以在不理解整体上下文的情况下恢复信号，因为感知丰富的信号已经在图像中准备好了。因此，当SNR较大时，模型只会通过解决恢复任务来学习不可感知的细节。0相反，后期步骤的SNR较小，表示足够大的噪声以去除x0的内容。因此，两种情况的距离开始收敛到一个常数值，因为噪声图像变得难以识别高级内容。这在图1（左）的小SNR侧中显示出来。在这里，模型需要先验知识来恢复信号，因为噪声图像缺乏可识别的内容。我们认为，当SNR较小时，模型将通过解决恢复任务来学习感知丰富的内容。114750图2.随机重建。（左）重建示意图，其中样本是从完整的采样链中获得的。（右）在底部是输入图像x0的SNR上，用输入图像x0重建的ˆx0。第1、2列的样本只与输入共享粗略属性（例如全局颜色结构）。第3、4列与输入共享感知上有区别的内容。第5列与输入几乎相同，这表明当SNR较大时，模型学习了不可感知的细节。0研究训练模型。我们希望通过一个训练好的模型来验证上述讨论。给定输入图像x0，我们首先使用扩散过程q(xt|x0)将其扰动为xt，并使用学习的去噪过程pθ(ˆx0|xt)对其进行重建，如图2（左）所示。当t很小时，重建的ˆx0将与输入x0非常相似，因为扩散过程移除了少量信号，而当t较大时，ˆx0将与x0共享较少的内容。在图2（右）中，我们比较了不同t下的x0和ˆx0，以显示每个步骤对样本的贡献。第一列和第二列的样本只与右侧输入的粗略特征（例如全局颜色方案）共享，而第三列和第四列的样本共享感知上有区别的内容。这表明当步骤t的SNR小于10^-2时，模型学习粗略特征，当SNR在10^-2到10^0之间时，模型学习内容。当SNR大于10^0时（第五列），重建与输入在感知上是相同的，这表明模型学习了不可感知的细节，这些细节对感知上可识别的内容没有贡献。根据以上观察，我们假设扩散模型在小SNR（0-10^-2）的步骤上学习粗略特征（例如全局颜色结构），在中等SNR（10^-2-10^0）的步骤上学习感知丰富的内容，并在大SNR（10^0-10^4）的步骤上去除剩余噪声。根据我们的假设，我们将噪声水平分为三个阶段，称为粗略、内容和清理阶段。03.2. 感知优先加权0在前一节中，我们探讨了扩散模型在每个步骤中从SNR的角度学到了什么。我们讨论了模型在三组噪声水平上学习粗略特征（例如全局颜色结构）、感知丰富的内容和清理剩余噪声。我们指出模型在清理阶段学习了不可感知的细节。0上阶段。在本节中，我们介绍了感知优先（P2）加权，这是一种新的训练目标加权方案，旨在优先学习更重要的噪声水平。我们选择对不必要的清理阶段分配最小的权重，从而相对较高地分配给其余部分。特别是，我们的目标是强调在内容阶段的训练，以鼓励模型学习感知丰富的上下文。为此，我们构建了以下加权方案：0λ′t=λt0(k+SNR(t))γ, (8)0其中λt是先前的标准加权方案（公式（7）），γ是一个超参数，控制对学习不可感知的细节的关注程度。k是一个超参数，防止极小SNR的权重爆炸，并确定加权方案的锐度。虽然有多种设计可能，但我们表明即使是最简单的选择（P2）也优于标准方案λt。我们的方法适用于现有的扩散模型，通过替换�0tλ′tLt。实际上，我们的加权方案λ′t是Ho等人[14]的广泛使用的加权方案λt（公式（7））的推广，其中当γ=0时，λ′t等于λt。我们在此称λt为基线。03.3. P2加权的有效性0先前的工作[14,27]经验性地表明基线目标�0tλtLtoffers a better inductive bias for sample quality0tLt，训练过程中不施加任何归纳偏差。图3展示了线性[14]和余弦[27]噪声调度的λ′t和λt，这些在第2.1节中解释，表明两种加权方案都最关注内容阶段，最不关注清理阶段。基线的成功114760图3.加权方案。（左）线性和余弦噪声调度的信噪比（SNR）参考值。（中）我们的P2加权和基线余弦调度的权重。（右）P2加权和基线线性调度的权重。与基线相比，P2加权抑制了大SNR的权重，其中模型学习了不可感知的细节。0图4.在FFHQ上通过训练的FID-10k的比较。P2加权始终提高线性和余弦调度的性能。训练进度是模型看到的图像数量。样本是使用250个步骤生成的。0加权与我们先前的假设一致，即模型通过在内容阶段解决预训练任务来学习感知丰富的内容。然而，尽管基线目标取得了成功，我们认为基线目标仍然过分关注学习不可感知的细节，阻碍了学习感知丰富的内容。图3显示我们的λ't进一步抑制了清理阶段的权重，相对提升了粗糙和内容阶段的权重。为了可视化权重的相对变化，我们展示了归一化的加权方案。图4支持我们的方法，因为使用我们的加权方案（γ =1）训练的扩散模型在线性和余弦调度的整个训练过程中击败了基线。图4的另一个显著结果是，余弦调度相对于线性调度的差距很大，尽管我们的加权方案改善了FID。0有很大的差距。公式（5）表明加权方案与噪声调度密切相关。如图3所示，与线性调度相比，余弦调度为内容阶段分配了较小的权重。我们想指出的是，设计加权方案和噪声调度是相关但不等价的，因为噪声调度影响权重和均方误差项。总之，我们的P2加权为学习丰富的视觉概念提供了良好的归纳偏差，通过提升粗糙和内容阶段的权重，抑制清理阶段的权重。03.4. 实施0我们将k设置为1以便于部署，因为1 / (1 + SNR(t)) = 1 -αt，如第2.1节所讨论的。我们将γ设置为0.5和1。我们经验性地观察到，γ大于2会在样本中产生噪声伪影，因为它几乎将清理阶段的权重设为零。我们将T设置为1000用于所有实验。我们在ADM[8]的基础上实现了所提出的方法，该方法提供了精心设计的架构和高效的采样。我们在实验中使用了ADM的轻量级版本。更多细节请参见附录。我们的代码和模型将可用。04. 实验0我们首先展示了我们的新训练目标相对于基线目标的有效性（第4.1节）。然后，我们与各种类型的生成模型的先前文献进行比较（第4.2节）。最后，我们进行分析研究以进一步支持我们的方法（第4.3节）。图5显示了我们的模型生成的样本。04.1. 与基线的比较0定量比较。我们使用基线和我们的加权方案优化训练目标，在FFHQ [20]、AFHQ-dog [7]、MetFaces [18]和CUB[44]数据集上训练扩散模型。这些数据集包含了约70k、50k、1k和12k张图像。114770图5. 我们在几个数据集（FFHQ、CelebA-HQ、MetFaces、AFHQ-Dogs、Oxford Flowers、CUBBird）上训练的模型生成的样本，分辨率为256×256。更多样本请参见附录。0FID-50k ↓ KID-50k ↓0数据集步骤基线我们的方法基线我们的方法0FFHQ 1000 7.86 6.92 3.85 3.460CUB 1000 9.60 6.95 3.49 2.380AFHQ-D 1000 12.47 11.55 4.79 4.100Flowers 250 20.01 17.29 16.8 14.8 MetFaces250 44.34 36.80 22.1 17.60表1.定量比较。使用我们的加权方案训练的扩散模型在各个数据集和采样步骤上都取得了一致的改进，无论是在FID还是KID方面（×10^3）。0分别约为70k、50k、1k和12k张图像。我们将数据调整为256×256像素的大小，并进行居中裁剪，这是ADM[8]进行的预处理步骤。表1显示了结果。我们的方法在FID和KID方面始终表现出优越的性能。结果表明，我们的加权方案为训练扩散模型提供了良好的归纳偏差，无论数据集如何。我们的方法在MetFaces上的性能尤为突出，该数据集只包含1k张图像。因此，我们认为在使用有限数据进行训练时，将模型容量浪费在学习难以察觉的细节上是非常有害的。定性比较。我们观察到，使用基线目标训练的扩散模型很可能会出现颜色偏移伪影，如图6所示。我们认为，基线训练目标不必要地关注难以察觉的细节，因此无法学习全局颜色。0相反，我们的目标鼓励模型在数据集中学习全局和整体概念。04.2. 与先前文献的比较0我们将使用我们的方法训练的扩散模型与现有模型在FFHQ[20]、Oxford flowers [28]和CelebA-HQ[17]数据集上进行比较，如表2所示。我们对所有数据集使用256×256的分辨率。我们在OxfordFlowers和CelebA-HQ数据集上实现了最先进的FID。虽然我们的模型是使用T =1000进行训练的，但我们已经在减少的采样步骤（分别为250和500步）上实现了最先进的结果。在FFHQ上，我们的结果优于大多数模型，除了StyleGAN2[21]，其架构经过精心设计以适应FFHQ。我们注意到我们的方法使扩散模型更接近最先进的水平，通过扩展模型架构和采样步骤将进一步提高性能。04.3. 分析0在本节中，我们分析了我们的加权方案是否对模型配置、采样步骤数量和采样计划具有鲁棒性。模型配置是否重要？之前的实验是使用我们的默认模型进行公平比较的。在这里，我们展示了P2加权在各种配置下都是有效的。表3显示了我们的方法在各种配置下始终优于基线的性能。我们对以下变化进行了研究：将BigGAN[3]的残差块替换为Ho等人[14]的残差块，去除16×16处的自注意力，使用两个BigGAN[3]的残差块，以及使用学习率为2.5×10^-5训练我们的默认模型。我们的默认模型包含一个BigGAN [3]的残差块。114780图6.定性比较。训练期间生成的未经筛选的样本。顶部显示的训练图像数量。我们观察到，在训练的早期阶段（FFHQ）或收敛时（MetFaces），基准模型存在颜色偏移问题。基准加权方案无法关注全局一致性，并浪费模型容量在难以察觉的细节上。0数据集方法类型 FID ↓0FFHQ0BigGAN ICLR'19 [3] GAN 12.4 UNet GANCVPR'20 [34] GAN 10.9 StyleGAN2CVPR'20 [21] GAN 3.73 NVAE NeurIPS'20[41] VAE 26.02 VDVAE ICLR'21 [5] VAE33.5 VQGAN CVPR'21 [11] GAN+AR 9.6D2C NeurIPS'21 [35] Diff 13.04 基准(500步) Diff 8.41 P2 (500步) Diff 6.97 P2(1000步) Diff 6.920OxfordFlower0PGGAN ICLR'18 [17] GAN 64.40StyleGAN1 CVPR'19 [20] GAN 64.70MSG-GAN CVPR'20 [16] GAN 19.600基准 (250步) Diff 20.01 P2 (250步) Diff17.290CelebA-HQ0PGGAN ICLR'18 [17] GAN 8.03 GLOWNeurIPS'18 [22] Flow 68.93 ALAE CVPR'20[31] GAN 19.21 NVAE NeurIPS'20 [41] VAE29.76 VAEBM ICLR'21 [45] VAE+EM 20.38VQGAN CVPR'21 [11] GAN+AR 10.70LSGM NeurIPS'21 [42] VAE+Diff 7.220P2 (500步) Diff 6.910表2. 与先前文献的比较。FFHQ的结果来自[11, 30, 35]，OxfordFlower的结果来自[16]，CelebA-HQ的结果来自[42]。除了GAN，我们取得了更好的结果。0并且使用学习率2×10^-5进行训练。我们的加权方案始终通过较大的边际改进FID和KID，在各种模型配置下都表现出色。我们的方法在去除自注意力的情况下（(c)），特别有效，表明P2鼓励学习全局依赖性。0采样步骤重要吗？我们按照以前研究的惯例，在1000个扩散步骤上训练了我们的模型。然而，生成一张高分辨率图像需要超过10分钟。0FID-10k ↓ KID-10k ↓0基准 Ours 基准 Ours0(a) 46.80 41.93 (-4.87) 22.6 20.5 (-2.1)0(b) 47.62 47.37 (-0.25) 23.4 22.7 (-0.7)0(c) 49.56 43.09 (-6.47) 24.3 20.6 (-3.7)0(d) 45.45 42.06 (-3.39) 21.1 18.9 (-2.2)0(e) 46.34 39.51 (-6.83) 23.0 17.4 (-5.6)0表3. 各种模型配置的比较。 (a) 我们的默认配置 (b) 没有BigGAN块(c) 仅在瓶颈处使用自注意力 (8×8分辨率) (d) 两个残差块 (e)学习率2.5e-5。模型在MetFaces数据集上训练了800k张图像。使用250步生成样本。0使用现代GPU生成一张高分辨率图像需要很长时间。Nichol等人[27]表明，即使减少采样步骤，他们的采样策略仍能保持性能。他们还观察到，在使用50个或更少的采样步骤时，使用DDIM[37]采样器是有效的。图7显示了在FFHQ上训练的模型的FID分数与各种采样步骤的比较。使用我们的加权方案训练的模型始终比基准模型表现出色。值得注意的是，我们的加权方案在所需采样步骤数量减半的情况下始终实现更好的性能。为什么不安排采样步骤？除了在各种采样步骤上的持续改进外，我们还在表4中对采样步骤进行了扫描。扫描采样计划略微改善了FID和KID，但没有达到我们的改进效果。与安排采样步骤相比，我们的方法更加有效，因为我们改进了模型训练，从而使所有步骤的预测都受益。05. 相关工作05.1. 基于扩散的生成模型0扩散模型[8, 14, 27, 36]和基于分数的模型[39,40]是最近的两个生成模型家族。130-60-6010.625.1460-130-6012.237.54500 uniform9.744.48114790图7.减少采样步骤。采样步骤的FID函数。无论采样步骤如何，我们的方法都优于基线。生成的样本遵循[27]和DDIM[37]。模型在FFHQ数据集上训练。0方法时间表 FID-10k ↓ KID-10k ↓0基线0我们的 250 uniform 8.92 4.240表4.采样时间表。时间表以整数序列表示，这些整数是分配给扩散过程的步骤数的三分之一。130-60-60表示在 t = 0附近消耗更多的步骤。修改采样时间表可以稍微提高性能，但不超过我们的改进。0生成数据的这两个家族可以用学习去噪过程的随机可微分方程（SDE）表示。Song等人[40]表明，这两个家族都可以用随机可微分方程（SDE）表示，而不同的噪声时间表则与加权方案相关（公式（5））。最近的研究[8, 32,40]在样本质量方面取得了显著的改进。然而，它们依赖于复杂的架构、长时间的训练和采样步骤[40]、分类器指导[8]和多个模型的级联[32]。相比之下，我们通过简单地重新设计训练目标而改善了性能，而不需要进行繁重的计算和额外的模型。除了在图像领域取得成功之外，扩散模型还在语音合成[4, 25]方面显示出有效性。05.2. 扩散模型的优势0扩散模型相对于其他生成模型具有几个优势。首先，它们的样本质量优于基于似然的方法，如自回归模型。0扩散模型[29, 33]、流模型[9,10]和变分自动编码器（VAEs）[24]是最近的生成模型家族之一。其次，由于稳定的训练，将扩散模型应用于新领域和数据集比生成对抗网络（GANs）[12]更容易，后者依赖于不稳定的对抗性训练。此外，预训练的扩散模型非常容易应用于下游图像合成任务。最近的研究[6,26]表明，预训练的扩散模型可以轻松适应图像翻译和图像编辑。与基于GAN的方法[1, 15,47]相比，它们在不需要任务特定的训练和损失函数的情况下，将单个扩散模型适应于各种任务。它们还表明，在这些任务中，扩散模型允许随机（一对多）生成，而GAN-based方法则产生确定性（一对一）的生成结果。05.3. 重新设计训练目标0最近的研究[23, 38,42]引入了新的训练目标，以实现最先进的似然性。然而，他们的目标在样本质量下降和训练不稳定性方面存在问题，因此依赖于重要性采样[38,42]或复杂的参数化[23]。由于似然性关注细粒度的细节，他们的目标阻碍了对图像的全局一致性和高级概念的理解。因此，[42]在似然性训练和FID训练中使用了不同的加权方案。我们的P2加权为感知丰富的内容提供了良好的归纳偏差，使模型能够在稳定的训练中实现改进的样本质量。06. 结论0我们提出了感知优先加权，这是一种用于扩散模型训练目标的新加权方案。我们研究了模型在训练过程中在每个噪声水平下如何学习视觉概念，并将扩散步骤分为三组。我们证明，即使是最简单的选择（P2）也可以改善跨数据集、模型配置和采样步骤的扩散模型。设计更复杂的加权方案可能进一步提高性能，这是我们留给未来工作的。我们相信我们的方法将为提升扩散模型的性能开辟新的机会。0致谢：本工作得到了韩国政府（MSIT）信息和通信技术规划与评估研究所（IITP）资助的研究计划[NO.2021-0-01343，人工智能研究生院计划（首尔国立大学）]，LG AIResearch，Samsung SDS，AIRS Company in HyundaiMotor和Kia通过HMC/KIA-SNU AI ConsortiumFund以及首尔国立大学2022年的BK21 FOUR计划。114800参考文献0[1] Rameen Abdal，Yipeng Qin和Pe

下载后可阅读完整内容，剩余1页未读，立即下载