基于离散扩散的全局上下文矢量量化图像生成模型

148 浏览量更新于2023-10-26 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11502基于离散扩散的全局上下文矢量量化图像生成模型胡明辉1王玉洁2詹达仁1杨剑飞1P.N.Suganthan11南洋理工大学2商汤研究{e200008，yang0478} @ e.ntu.edu.sg{ astjcham，epnsugan} @ntu.edu.sgwangyujie@sensetime.com摘要将矢量量化变分自动编码器（VQ-VAE）与自回归模型相结合然而，自回归模型在采样阶段将严格遵循渐进扫描顺序这使得现有的VQ系列模型很难摆脱缺乏全局信息的陷阱。连续域中的去噪扩散概率模型（DDPM）已经显示出捕获全局上下文的能力，同时生成高质量的图像。在离散状态空间中，一些工作已经展示了执行文本生成和低分辨率图像生成的潜力结果表明，在VQ-VAE提供的内容丰富的离散视觉码本的帮助下，离散扩散模型也可以生成具有全局背景的高保真图像，弥补了经典自回归模型在像素空间上同时，将离散VAE与扩散模型相结合，解决了传统自回归模型体积过大，以及扩散模型在生成图像时采样时间过长的结果发现，生成的图像的质量是严重依赖于离散的视觉码书。大量的实验表明，所提出的矢量量化离散扩散模型（VQ-DDM）是能够实现相当的性能与低复杂度的顶级方法它还表现出突出的优势，其他矢量量化的自回归模型的图像修复任务，而无需额外的培训。1. 介绍矢量量化变分自动编码器（VQ-VAE）[34]是一种流行的方法，用于将图像压缩为离散表示以生成。典型地，在通过卷积网络进行压缩和离散化表示之后，使用图1. FID与操作和参数。斑点的大小与网络参数的数量成比例，X轴表示对数尺度上的FLOP，Y轴是FID分数。在离散潜在空间中建模和采样，包括PixelCNN系列[5，22，35]，变压器系列[4，24]等。然而，除了模型参数数量庞大的缺点之外，由于严格遵守逐行扫描顺序[3，15]而导致的感应偏差，这些自回归模型只能基于观察到的像素（目标像素的左上角）进行预测如果条件信息位于自回归序列的末端，模型很难获得相关信息。最近的替代生成模型是去噪扩散模型，它可以有效地缓解全局信息的缺乏[10，29]，还可以在文本[1，12]，图像[6，28，33]和语音生成[19]任务中实现相当或最先进的性能扩散模型是经过训练的参数化马尔可夫链，可以在有限的步骤集合典型地，马尔可夫链以连续状态空间中的各向同性高斯分布开始在逆过程中，由于当前步骤基于链中的前一步骤的全局信息，因此，11503Y√YΣΣΣΣs=0∼Q赋予扩散模型捕捉全局信息的能力。然而，扩散模型具有不可忽略的缺点，因为生成图像所涉及的时间和计算工作量是巨大的。主要原因是，逆向过程通常包含数千个步骤。虽然我们在训练时不需要遍历所有步骤，但在生成样本时仍然需要所有这些步骤，这与GAN甚至自回归模型相比要慢得多一些最近的工作[21，30]已经尝试通过减少采样步骤来解决这些问题，但是计算成本仍然很高，因为逆过程的每个步骤都生成全分辨率图像。在这项工作中，我们提出了矢量量化的离散扩散模型（VQ-DDM），一个通用的框架，图像生成的离散变分自动编码器和离散扩散模型。VQ-DDM包括两个阶段：（1）学习一个丰富而有效的图像离散表示，（2）通过离散扩散模型拟合这种潜在视觉代码的先验分布VQ-DDM大大减少了计算资源和生成高分辨率图像所需的时间2. 预赛2.1. 连续状态空间给定来自数据分布q（x0）的数据x0，扩散模型由两个过程组成：扩散过程和逆过程[10，29]。扩散过程通过固定的马尔可夫链在T步上逐渐将数据x0破坏为xT，该马尔可夫链根据方差表β1：T∈（0，1]T如下逐渐将高斯噪声引入数据：不q（x1：T|x0）=q（xt|xt−1），（1）t=1q（xt|xt−1）=N（xt;1−βtxt−1，βtI）。（二）在适当的步长T 和适当的方差表β 的情况下， p（xT）成为各向同性的高斯分布。反向过程被定义为以θ为参数的马尔可夫链，用于从噪声中恢复数据：不使用离散方案进行老化。然后通过拟合a，解决了自回归模型普遍存在的缺乏全局内容和参数过多的隐变量先验使用离散扩散模型。Fi-pθ（x0：T）=p（xT）pθ（xt=1t−1|xt),(3)最后，由于码本的偏差会限制生成质量，而模型的大小也取决于类别的数量，因此我们提出了一种重建和微调（ReFiT）策略来构造具有更高利用率的码本，这也将减少我们模型中的参数数量。总括而言，我们的主要贡献包括以下各项p θ（xt−1|xt）=N（xt−1;μθ（xt，t），μθ（xt，t））。（四）训练的目标是通过优化变分下限（VLB）来找到最佳θ以拟合数据分布q（x0）[18]Eq（x0）[logpθ（x0）]• VQ-DDM用离散扩散模型拟合离散潜在码的先验。扩散模型的使用=Eq（x0）logE q（x1：T|x0）pθ（x0：T）q（x1：T|x0）（五）允许生成模型考虑全局信息，而不是仅关注部分可见的上下文，以避免顺序偏差。≥Eq（x0：T）logpθ（x0：T）=：Lq（x1：T|x0）vlb.• 我们提出了一种RefiT方法来提高视觉码本中潜在表示的利用率，这可以将VQ-GAN的代码使用率从31. 85%到97。07%，而重建图像与原始训练图像之间的FID从10个。十八比五CelebA-HQ256 ×256上的64。• VQ-DDM在参数数量和生成速度方面都非常高效。如图1所示，仅使用120 M参数，它的性能优于具有约10 B参数的VQ-VAE-2，并且在图像生成任务中，在图像质量方面与具有1B参数的也是10图像生成速度比其他扩散模型快100倍[10，30]。Ho等人[10]揭示了变分下界由方程式 5可以用封闭形式的表达式来计算，而不是Monte Carlo估计，因为扩散过程后验和边际是高斯的，这允许在任意步长t对x t进行采样，αt=1−βt，α<$t=不αs且β<$t=1−α<$t−1：1−α¯tq（xt|x0）=N（xt|α<$tx0，（1−α<$t）I），（611504Σ）Lvlb=E q（x0） [DK L（q（xT|x0）||p（xT））−logp θ（x0|x1）不+DK L（q（xt−1|xt，x0）||p θ（xt−1|xt））]。t=2（七）115050ΣΣ··θ不.不图2. VQ-DDM流水线包括两个阶段：（1）通过离散VAE将图像压缩成离散变量。(2)通过扩散模型拟合离散编码的先验分布。扩散图中的黑色方块表示当基础分布没有信息时的状态，但在相反的过程中变得越来越具体。图像底部的条形图表示特定离散变量被采样的概率。因此，反向过程可以通过神经网络来参数化，可以定义为：d是高维输入数据x∈Rc × H × W压缩后每个潜变量的维数转化为潜在的向量h∈Rh×w×d，z是量化的h，µ（x，t）=x−（x，t），（8）1βtθ不它用最近邻的向量h∈hθ t<$αtt1−α¯t博尔 zk∈Z. 解码器i、jD被训练来重建θ（xt，t）= exp（θ（xt，t）logβt+（1 −（x，t））logβ）。（九）来自量化编码zq的数据：z=量化（h）：= arg mink||Hi、j-z k||、（十二）使用VLB损失的修改变体作为简单的损失函数将在固定θ的情况下提供更好的结果[10]：Lsimple=Et，x，n||−||2，（ 10），这是一个重新加权的版本，类似于在由t [ 31 ]索引的多个噪声尺度上的去噪得分匹配。Nichol等人[21]在简单损耗的基础上增加了一个Lvlb，用于指导学习的μθ（xt，t），同时保持μθ（xt，t）仍然是总损耗的主要分量x=D（z）=D（Quan ntise（E（x）.（13）由于Quantise（）具有不可微的运算，arg min，直通梯度估计器用于将重构误差从解码器反向传播到编码器整个模型可以通过最小化以下函数以端到端的方式进行训练：L=||x−x||2个以上||s g[E（x）]−z||s g [ z ] −E（x）||，（14）||,(14)L混动 =L简单+λL VLB.（十一）其中sg[ ]表示停止梯度，并且广义上，术语是重构损失、码本损失和提交。2.2. 图像的离散表示van den Oord等[34]提出了一种离散变分自编码器，它以类别分布作为潜在先验，能够通过编码器将图像映射成离散潜在变量序列，并根据这些变量通过解码器重建图像。11506∈形式上，给定码本Z RK×d，其中K表示-表示码本中潜变量的容量，损失，分别。VQ-GAN [8]以多种方式扩展了VQ-VAE [34]它将原始VQ-VAE的L1或L2损失替换为感知损失[40]，并添加额外的阈值以区分真实和生成的补丁[41]。离散变分自动编码器的码书更新本质上是一个字典学习过程。其目标是使用L2损失来缩小代码Zt∈RKt×d和编码器输出h∈Rh×w ×d之间的差距[34]，11507不Σ不|不|−−t−1∈·s=0α<$=， f（t）=cosf（0）1 +s ×2是的归一化版k=1θ（zt，z0），并且我们使用k=1不 t−1不不 t−1不Q其中，在所有扩散步骤中，Kt是常数。换句话说，码本训练类似于k均值聚类，其中聚类中心是离散的潜在码。然而，由于码本空间的体积是无维的，并且每次迭代都更新h，因此离散码Z我们使用与[12，21]相同的余弦噪声时间表，因为我们的离散模型也是建立在具有小16 16分辨率的潜在代码上的。在数学上，它可以在α的情况下表示为：通常不能足够快地跟随编码器训练只有少数代码在训练期间得到更新，大多数不-f（t）. t/T +sπΣ2初始化后使用3. 方法我们的目标是利用强大的生成能力-通过应用贝叶斯q（zt−1|zt，z0）为： .zlogit sQz0Q<$t−1的扩散模型，以执行高保真度的图像具有少量参数的生成任务我们q（zt−1|zt，z0）=Catzt;t tz0Q<$tzlogitsK（二十）所提出的方法VQ-DDM能够以相对较少的参数和FLOP生成高保真度图像，如图2所概括的。我们的解决方案首先通过离散VAE将图像压缩成离散变量，然后通过扩散构造一个强大的模型来模型在扩散训练中，颜色较深的部分= Cat（zt;θ（zt，z0）/θk（zt，k，z0，k）），k=1θ（zt，z0）=[αtzlogits+（1−αt）/K][α<$t−1z0+（1−α<$t−1）/K]。（二十一）图 2表示由均匀重采样引入的噪声。普林。当最后时刻到来时，值得注意的是，θ（zt，z0）/θKθk（zt，k，z0，k）已经完全变成了噪音在采样阶段，潜码是从一个统一的编码器中提取的-N[θ（zt，z0）]表示θ（zt，z0）/Kθ k（z t，k，z0，k）be-该方法首先对原始数据进行预处理，然后对预处理后的数据进行逆T步重采样，得到目标潜在码。甚至，目标潜在代码被推入解码器以生成图像。3.1. 离散扩散模型Hoogeboom等人 [12]用神经网络μ（zt，t）从z t预测z 0，而不是直接预测p θ（zt−1zt）。因此，逆过程可以通过来自q（zt−1 ）的概率向量来参数化 |zt，z<$0）。一般来说，逆过程p θ（zt−1|zt）可以表示为：假设离散化是用 K 个类别完成的，即 z t∈{1，. . .，K}，其中one-hot向量表示由zt∈ {0，1}K给出。相应的概率为-p θ（z0|z1）=Cat（z0|z<$0），p θ（zt−1|zt）=Cat（zt|N[θ（zt，z<$0）]）。（二十二）用zlogits表示logits。我们将离散扩散过程公式化为q（zt|zt−1）=Cat（zt;zlogit sQt），（15）其中Cat（xp）是以p为参数的分类分布，而Qt是过程转移矩阵。在我们的方法中，Qt=（1βt）I+βt/K，这意味着zt具有1βt概率，以保持状态从最后一个时间步和βt从均匀分类分布中重新采样的机会。形式上，它可以写成logit sq（z|z）=Cat（z;（1−β）z+β/K）。（十六）受[13，20]的启发，我们使用神经网络μ（Zt，t）来学习和预测a噪声nt，并获得z的logits=0。值得注意的是，神经网络µ（）基于ZtNh×w，其中所有离散表示zt的图像进行组合。最终噪声先验ZT是无信息的，并且在推断期间可以从每个轴分离地采样。然而，相反的过程是联合通知，并朝着高度耦合的Z0。我们不为zt定义特定的关节先验，而是将关节关系编码到学习的反向过程中。这在连续域扩散中隐式地完成Aszt−1是基于整个先前的表示zt，相反在时间表下从z0得到zt是很简单的βt，其中αt=1−βt，α<$t = tαs：q（zt|z0）=Cat（zt;α<$tz0+（1−α<$t）/K）（17）不.（十九）低11508×不 0不 0不不S不 0N[θ（zt，z<$0）]过程可以在捕获全局信息的同时直接对整个离散代码映射进行采样。所使用的损失函数是来自Eq.7，其中T >2的KL散度之和由下式给出：KL（q（zt−1|zt，z0）||p θ（zt−1|zt））=或q（z|z）=Cat（z;zQ<$）;Q<$=YQ.（十八）s=0<$N[θ（z，z）] × log N[θ（zt，z0）]。（二十三）K11509×∈||−||∈×--×× × ××∼∼3.2. 重建和微调战略我们的离散扩散模型是基于离散VAE码本Z的潜在表示然而，具有丰富内容的码本通常很大，有些甚至达到K=16384。这使得我们的离散扩散模型非常难以操作，因为离散扩散模型的转移矩阵对于类的数量K具有二次增长水平，例如。O（K2T）[1].为了减少用于我们的扩散模型的类别，我们提出了一种重建和微调（ReFit）策略，以减少码本Z的大小K，并基于通过直通方法训练的良好训练的离散VAE来提高反射性能。从等式14，我们可以发现第二项和第三项都与码本有关，但只有第二项参与了码本的更新。sg[E（x）]z 显示只有几个选定的代码，相同的数字，因为来自E（x）的特征参与每次迭代的更新。大多数代码在初始化之后不被更新或使用，并且码本的更新可能陷入局部最优。为了避免码本容量的浪费，我们引入了一种重新构建和微调的策略。利用训练好的编码器重构码书，使得码书中的所有码都有被选择的机会。这将极大地增加码本的使用。假设我们期望基于具有编码器Es和解码器Ds 的经训练的离散VAE来获得具有码本的离散VAE，该码本具有Zt。我们首先将每个图像xRc×H ×W编码为潜在特征h，或者松散地说，每个图像给我们h w个具有d维的特征。接下来，我们从训练图像中发现的整个特征集中均匀地采样P个特征，其中P是采样数，并且远远大于期望的码本容量Kt。这确保了重建码本由有效的潜在码组成。由于码本训练的过程基本上是寻找聚类中心的过程，因此我们直接在采样的P个特征上使用AFK-MC2[2]的k均值，并利用中心来重建码本Zt。然后，我们用重建Zt替换原始码本，并在经过良好训练的离散VAE之上对其进行微调。4. 实验和分析4.1. 数据集和实施详细信息我们在CelebA-HQ[14]和LSUN-Church[39]数据集上展示了所提出的VQ-DDM的有效性，并在CelebA-HQ和ImageNet数据集上验证了所提出的重建和微调策略。数据集的详细信息见附录。离散VAE遵循相同的训练策略如VQ-GAN [8]。所有训练图像都经过处理，256×256，压缩比设置为16，这意味着潜在向量zR1×16×16。当进行重建和微调时，LSUN和CelebA的采样数P设置为20k。对于内容更丰富的情况，我们为ImageNet尝试了更大的P值50k。在实际实验中，我们从全部训练数据中均匀抽取P幅替换图像，得到相应的潜在特征。对于每个特征图，我们在特征图大小16 16上进行另一次均匀采样，以获得所需的特征。在微调阶段，我们冻结编码器，并将解码器的学习率设置为1e-6，将解码器的学习率设置为2e-6，每批8个实例关于扩散模型，用于估计nt的网络具有与[10]相同的结构，这是具有自注意力的U- Net [26][36]。附录中提供了超参数的详细设置。我们在实验中设置时间步长T=4000，噪声方案与[21]4.2. 码本质量大的码本显著地增加了DDM的成本。为了将成本降低到可接受的范围，我们提出了一种重采样和微调策略来压缩码书的大小，同时保持质量。为了证明所提出的策略的有效性，我们将我们的方法的码本使用和重构图像的 FID 与 VQ-GAN [8] ， VQ-VAE-2 [25] 和DALL- E [24]进行了比较。在这个实验中，我们压缩了来自3256256比11616个不同的密码图书容量K=512，1024。我们还提出了一个衡量码本使用率的指标，即测试集或训练集中出现的离散特征数除以码本容量。定量比较结果如表1所示，而重建图像如图1和图2所示。3&4. 第一章将码本容量从 1024 减少到 512 仅带来 0 。CelebA下降1例，ImageNet中的1。如图4所示，ReFiT策略后的重建图像（c，d）颜色更丰富，表达更逼真比VQ-GAN（b）的重建更好。与其他方法相比，我们的方法的码本使用率有了显着提高，比第二好的方法高出近3倍。在相同的压缩比下，我们的方法在码本Z的容量K对于容量为16384的VQ-GAN，尽管它只有976个有效代码，这小于我们的Re-FiT方法中P=20k时的1024，但它在重建图像中实现了比验证图像更低的FID。一个可能的原因是P的值不够大，不足以覆盖在重新构建阶段期间的一些不常见的特征组合。如表1中的结果，在我们将采样数P从20k增加到100k之后，我们观察到，11510↓∼∼××不联系我们不不×C，其中CCat（K，1/K）是样本×模型潜在大小 Z FID的容量使用CelebAImageNetCelebAImageNetVQ-VAE-2级联512 65%--10DALL-E 32x32 8192---32.01VQ-GAN 16x16 16384 - 5.96%-4.98VQ-GAN 16x16 1024 31.85% 33.67% 10.18 7.94我们的（P=100k）16 x16 1024 - 100%-4.98我们的（P=20k）16x16 1024 97.07% 100% 5.59 5.99我们的（P=20k）16x16 512 93.06% 100% 5.64 6.951所有方法都是直接训练的，除了DALL-E和Gumbel-Softmax [24]。第256章.报告的FID在30k重建数据与训练数据之间。3报告的FID在50k重建数据与验证数据表1. CelebA-HQ和ImageNet增加P值获得更高的性能。4.3. 生成质量4.4. 图像修复自回归模型最近在图像修复任务中表现出卓越的性能[4，8]。然而，这种方法的一个局限性是，如果在自回归序列的末尾找到重要的上下文，模型将无法正确地完成图像。如第3.1、扩散模型将直接对全潜码图进行采样，采样步骤基于前一步的全离散图。因此，它可以显着改善修复，因为它不依赖于上下文排序。我们在离散的潜在空间中执行掩模扩散和逆过程在将掩码图像x0<$q（x0）编码为离散表示z0<$q（z0）之后，我们用t步将z0融合到z<$t <$q（zt|z0）。最后一步对于掩码zm，可以证明为zm=（1−m）×我们评估了VQ-DDM在CelebA-HQ256 256上无条件图像生成的性能。具体来说，我们评估了我们的方法在FID方面的性能，并将其与各种基于似然的方法进行了比较，包括 GLOW [16] ， NVAE [32] ， VAEBM[38]，DC-VAE [23]，VQ-GAN [8]和似然-T Tz轴 +m从均匀分类分布和m 0，1K是掩码，m = 0意味着上下文被屏蔽，m = 1意味着给定信息。在反向过程中，zT−1可以从p θ（zT−1）采样|zm）att=T，否则，zt−1<$p θ（zt−1|zm），以及掩蔽的自由方法，例如，PGGAN [14]. 我们还进行了前-在LSUN教堂的实验。zmt−1 =（1−m）×zt−1+m×zt−1。在CelebA-HQ实验中，离散扩散模型用K=512和K=1024个码本记录进行训练。我们还报告了从T = 2到T = 4000的不同FID以及图中相应的时间消耗六、关于生成速度，在NVIDIA 2080Ti GPU上使用DDPM以1000步生成50k256 256图像花费了大约1000小时，使用DDIM以100小时生成256图像。100步[30]，我们的VQ-DDM有1000步，大约需要10个小时表2显示了VQ-DDM以及其他已建立模型的主要结果。虽然VQ-DDM也是一种基于似然的方法，但训练阶段依赖于离散隐变量的负对数似然（NLL），因此我们不比较我们的方法与其他方法之间的NLL训练NLL约为1。258，测试NLL为1。286，而FID是13。二、图7a示出了来自在CelebA-HQ上训练的VQ-DDM的生成样品。对于LSUN-Church，码本容量K被设置为1024，而其他参数被设置为完全相同。训练NLL为1。803，测试NLL为1。756，而生成的图像和训练集之间的FID为16。9 .第九条。一些样品如图所示。7b.在利用ReFiT之后，模型的生成质量显著提高，这意味着合适的码本可以对后续的生成阶段产生显著影响。在一定范围内，码本容量越大，性能越好。然而，过多的码本条目将导致模型崩溃[12]。我们比较了我们的方法和另一种利用带有滑动注意力窗口的Transformer作为自回归生成模型的方法[8]。图8中示出了完成，在第一行中，输入图像的上部62.5%（潜在空间中的256个中的160个）被掩蔽并且下部37.5%（256个中的96个）被保留，并且在第二行中，仅右下角中的图像信息的四分之一被保留作为输入。我们还尝试了在一个任意的位置掩蔽。在第三行，我们遮住了中间部分，只留下中间的四分之一部分。由于反向扩散过程捕获了全局关系，因此我们的模型的图像完成性能要好得多。我们的方法可以根据任意上下文进行一致的修复，而trans-former的修复部分缺乏一致性。同样值得注意的是，我们的模型在解决图像修复任务时不需要额外的训练。5. 相关工作5.1. 矢量量化变分自编码器VQ-VAE [34]引领了图像离散表示的趋势。通常的做法是使用自回归模型对离散表示进行建模，例如Pix-elCNN [5，35]，transformers [8，24，24]等。一些作品试图使用轻度非自回归方法拟合离散潜变量的先验分布，如EM方法[27]和具有自组织映射的马尔可夫链[9]，但他们正在努力拟合大规模数据。Ho等人”[10]这是一个比喻。11511××图3.基于VQ-GAN和ReFiT的ImageNet重建图像384×384方法基于可能FID ↓ParamsFLOPsGLOW [16]60.9220米540 G[32]第三十二话40.31·26g185 G我们的（K=1024w/oReFiT）22.6117海里 1·06GVAEBM [38]20.4127海里 8.22 G我们的（K=512w/ReFiT）18.8117海里 1·04gDC-VAE [23]15.8--(a)源(b)VQ-GAN（c）RefiT K=1024(d)参考值K=512我们的（K=1024w/ReFiT）13.2117海里 1·06GDDIM（T=100）[30]10.9114米124克图4.来自VQ-GAN和RefiT的 CelebA HQ256 256图5.取样过程中的步骤和相应的FID。在1个NVIDIA 2080 TiGPU图6.用VQ-DDM采集5万个潜码，用VQ-DDM和DDPMELS可以被认为是沿着时间维度的自回归模型，但实际上，它是沿着像素维度的非自回归模型并行工作[7]遵循一个类似的管道，该管道使用离散潜变量的扩散模型，但该工作使用多个短马尔可夫链的并行建模来实现去噪。VQ-GAN + Transformer [8] 10.2 802 M 102 Ga无可能性[14]第14届中国国际石油天然气博览会VQ-GAN是自回归模型，表中的数字是生成全尺寸潜在特征图所需的计算。在256个索引中生成一个离散索引所需的FLOP为0.399 G。表2. CelebA HQ256 256数据集上的FID。表中的所有FLOP仅考虑一个256×256图像的生成阶段或推理阶段。5.2. 扩散模型Sohl-Dickstein等人[29]提出了一种简单的离散扩散模型，将目标分布扩散为独立的二项分布。最近，Hoogeboom et al.[12]将离散模型从二项式扩展到多项式。此外，Austinet al. [1]提出了一种广义离散扩散结构，为扩散过渡过程提供了在连续状态空间中，最近出现了一些超越图像生成领域最先进水平的扩散模型。”[10]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎。[6]使称为ADM的扩散模型能够生成超越BigGAN的图像，BigGAN是以前最强大的生成模型之一。在CDM [11]中，作者在扩散模型上执行级联流水线，以生成具有超高保真度的图像，并在条件ImageNet生成方面达到最先进水平。此外，最近有几部作品，11512(a)来自在CelebA HQ上训练的VQ-DDM模型的样本（256×256）FID = 13。2(b)来自在LSUN-Church上训练的VQ-DDM模型的样本（256×256）。F I D = 16。9图7.来自VQ-DDM模型的样本。图8.用任意掩码完成。尝试使用扩散模型来模拟VAE的潜变量[17，37]，同时揭示了上述几种扩散模型之间的联系。6. 结论本文介绍了一种具有两级流水线的高保真图像生成模型VQ-DDM在第一阶段中，我们用充分利用的内容丰富的码本训练离散VAE。在这种有效码书的帮助下，可以在第二阶段通过具有相对较小参数的离散扩散模型来生成高质量的图像。同时，由于采用了离散扩散模型，采样过程能够捕捉全局信息，不影响图像修复通过给定上下文和掩码的位置。同时，与其他扩散模型相比，我们的方法进一步缩小了与GAN在生成速度上的差距。我们相信VQ-DDM也可以用于音频，视频和多模式生成。限制对于一个完整的扩散，我们需要大量的步骤，这将导致一个非常波动的训练过程，并限制图像生成质量。因此，当暴露于大规模和复杂的数据集时，我们的模型可能会表现不佳11513引用[1] 雅各布·奥斯汀，丹尼尔·约翰逊，乔纳森·何，丹尼·塔罗和莉安·范登伯格.离散状态空间中的结构化去噪扩散模型。arXiv预印本arXiv：2107.03006，2021。一、五、七[2] Olivier Bachem ， Mario Lucic ， Hamed Hassani ， andAndreas Krause.快速和可证明的良好的k均值搜索。神经信息处理系统的进展，29：55-63，2016。5[3] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer。循环神经网络序列预测的计划采样。arXiv预印本arXiv：1506.03099，2015。1[4] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。《国际机器学习会议》，第 1691-1703 页。PMLR，2020年。1、6[5] Xi Chen ， Nikhil Mishra ， Mostafa Rohaninejad ， andPieter Abbeel. Pixelsnail：一种改进的自回归生成模型。国际机器学习会议，第864-872页。PMLR，2018。1、6[6] 普拉富拉·达里瓦尔和亚历克斯·尼科尔。扩散模型在图像合成中优于gans。arXiv电子印刷品，第arXiv-2105页，2021年。1、7[7] Patrick Esser，Robin Rombach，Andreas Blattmann，andBjo？rnOmme r. Imagebart：双向自回归图像合成的多项扩散.arXiv预印本arXiv：2108.08827，2021。7[8] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在IEEE/CVF计算机视觉和模式识别会议上，第12873-12883页，2021年。三五六七[9] VincentFortuin，MatthiasHüser，FrancescoLocatello，Hei k oStrathmann，andGunnarRütsch. SOM-VAE：时间序列上的可解释离散arXiv预印本arXiv：1806.02199，2018。6[10] Jonathan Ho，Ajay Jain，and Pieter Abbeel.去噪扩散概率模型。arXiv预印本arxiv：2006.11239，2020。一二三五六[11] Jonathan Ho，Chitwan Saharia，William Chan，David JFleet，Mohammad Norouzi，and Tim Salimans.用于高保真图像生成的级联arXiv预印本arXiv：2106.15282，2021。7[12] Hoogeboom，Didrik Nielsen，Priyank Jaini，Patrick Forre'和MaxWelling。Ar gmaxflowsandmultinomialdif-fusion：Towards non-autoregressive language models.arXiv预印本arXiv：2102.05379，2021。一、四、六、七[13] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax 进行分类重新参数化。arXiv预印本arXiv：1611.01144，2016。4[14] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。五、六、七[15] Salman Khan 、 Muzammal Naseer 、 Munawar Hayat 、Syed Waqas Zamir、Fahad Shahbaz Khan和MubarakShah.变形金刚的愿景：一项调查。arXiv预印本arXiv：2101.01169，2021。1[16] Diederik P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。arXiv预印本arXiv：1807.03039，2018。六、七[17] Diederik P Kingma ， Tim Salimans ， Ben Poole ， andJonathan Ho. 变分扩散模型 arXiv 预印本 arXiv ：2107.00630，2021。8[18] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[19] Zhifeng Kong，Wei Ping，Jiaji Huang，Kexin Zhao，and Bryan Catanzaro. Diffwave：音频合成的通用扩散模型。在2020年国际学习代表会议上。1[20] Chris J Maddison，Andriy Mnih，and Yee Whye Teh.具体分布：离散随机变量的连续松弛。arXiv预印本arXiv：1611.00712，2016。4[21] Alex Nichol和Prafulla Dhariwal 改进的去噪扩散概率模型。arXiv预印本arXiv：2102.09672，2021。二三四五[22] Aaron van den Oord、Nal Kalchbrenner、Oriol Vinyals、Lasse Espeholt、Alex Graves和Koray Kavukcuoglu。用pixelcnn 解码器生成图像。 arXiv 预印本 arXiv ：1606.05328，2016年。1[23] Gaurav Parmar ， Dacheng Li ， Kwonjoon Lee ， andZhuowen Tu.双对比生成自动编码器。在IEEE/CVF计算机视觉和模式识别会议上，第823-832页，2021年。六、七[24] Aditya Ramesh 、 Mikhail Pavlov 、 Gabriel Goh 、 ScottGray、Chelsea Voss、Alec Radford、Mark Chen和IlyaSutskever 。零拍摄文本到图像生成。 arXiv 预印本arXiv：2102.12092，2021。一、五、六[25] Ali Razavi，Aaron van den Oord和Oriol Vinyals。用vq-fm-2生成多种高保真图像。神经信息处理系统的进展，第14866- 14876页，2019年。5[26] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。5[27] Aurko Roy Ashish Vaswani Arvind Neelakantan 和 NikiParmar矢量量化自动编码器的理论与实验arXiv预印本arXiv：1805.11063，2018。6[28] Abhishek Sinha ， Jiaming Song ， Chenlin Meng ， andStefano Ermon. D2c：用于少数拍摄连续性生成的扩散去噪模型。arXiv预印本arXiv：2106.06819，2021。1[29] JaschaSohl-Dickstein，EricWeiss，NiruMaheswaranathan，and Surya Ganguli.使用非平衡热力学的深度无监督学习。在 International Conference onMachine Learning中，第2256PMLR，2015.一、二、七[30] Jiaming Song，Chenlin Meng，and Stefano Ermon.扩散隐式模型的非线性化。在2020年国际学习代表会议上。二六七11514[31] 杨松和Stefano Ermon。通过估计数据分布的梯度进行在第33届神经信息处理系统年会论文集，2019年。3[32] Arash Vahdat和Jan Kautz。Nvae：一个深度层次变分自动编码器。arXiv预印本arXiv：2007.03898，2020。六、七[33] Arash Vahdat Karsten Kreis和Jan Kautz。潜在空间中基于分数的生成建模。神经信息处理系统的进展，34，2021。1[34] AaronvandenOord 、 OriolVinyals 和 KorayKavukcuoglu。神经离散表示学习。第31届神经信息处理系统国际会议论文集，第6309-6318页，2017年。一、三、六[35] AaronVanOord、NalKalchbrenner和KorayKavukcuoglu。像素递归神经网络。国际机器学习会议，第1747-1756页。PMLR，2016. 1、6[36] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， Jako

下载后可阅读完整内容，剩余1页未读，立即下载