扩散自动编码器：学习有意义且可解码的图像表示

14 浏览量更新于2023-10-25 收藏 16.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

106190扩散自动编码器：朝向有意义且可解码的表示0Konpat Preechakul Nattanat Chatthee Suttisak Wizadwongsa Supasorn SuwajanakornVISTEC，泰国0真实图像真实图像0年轻人老年人0真实图像卷发真实图像微笑0图1.对真实图像进行属性操作和插值。扩散自动编码器可以将任何图像编码为捕捉语义和随机变化的两部分潜码，并允许进行简单的线性操作进行插值或修改，然后解码为各种下游任务的高度逼真的输出。0摘要0扩散概率模型（DPMs）在图像生成方面取得了与GANs相媲美的卓越质量。但与GANs不同，DPMs使用一组缺乏语义含义且不能用作其他任务有用表示的潜变量。本文探讨了使用DPMs进行表示学习的可能性，并试图通过自动编码来提取输入图像的有意义且可解码的表示。我们的关键思想是使用可学习的编码器来发现高级语义，并使用DPM作为解码器来建模剩余的随机变化。我们的方法可以将任何图像编码为两部分潜码，其中第一部分是语义上有意义且线性的，第二部分捕捉随机细节，从而实现近乎精确的重构。这种能力使得我们能够处理目前GAN方法难以处理的具有挑战性的应用，例如对真实图像进行属性操作。我们还展示了这种两级编码如何提高去噪效率并自然地促进各种下游任务，包括少样本条件采样。请访问我们的页面：https://Diff-AE.github.io/01. 引言0基于扩散的DPM [ 22 , 46 ]和基于分数的[ 49]生成模型最近在合成逼真且高分辨率的图像方面取得了成功，与GANs [ 11 , 15 , 23]的图像相媲美。这两个模型密切相关。0在实践中，优化类似的目标。在图像领域，已经出现了许多应用，例如图像操作、翻译、超分辨率[ 8 , 32 , 35 , 43]，在语音和文本领域[ 5 , 6 ]，或3D点云[ 34]。最近的研究在理论和实践上进一步改进了DPMs [ 25 , 29, 31]。然而，在本文中，我们质疑DPMs是否能够作为良好的表示学习器。具体而言，我们试图提取包含高级语义且允许对图像进行近乎精确重构的图像的有意义且可解码的表示。我们的探索重点是扩散模型，但这些贡献也适用于基于分数的模型。0通过自动编码器学习表示的一种方法是使用某种特定类型的DPM [ 47 ]作为编码器-解码器，通过将任何输入图像 x 0反向运行生成过程，将其转换为空间潜变量 xT。然而，生成的潜变量缺乏高级语义和其他理想的属性，例如解缠绕性、紧凑性或在潜空间中执行有意义的线性插值的能力。或者，可以使用训练好的GAN通过所谓的GAN反演[ 28 , 58]来提取表示，该方法优化潜码以重现给定的输入。尽管生成的潜码具有丰富的语义，但该技术在忠实地重构输入图像方面存在困难。为了克服这些挑战，我们提出了一种基于扩散的自动编码器，利用强大的DPM进行可解码表示学习。�� 106200找到一种有意义且可解码的表示需要捕捉高级语义和低级随机变化。我们的关键思想是通过利用可学习的编码器发现高级语义，并利用DPM进行解码和建模随机变化来学习这两个级别的表示。具体而言，我们使用我们的条件变体Denoising Diffusion Implicit Model (DDIM) [ 47]作为解码器，并将潜码分为两个子码。第一个“语义”子码是紧凑的，并通过CNN编码器推断出来，而第二个“随机”子码是通过反转我们的DDIM变体的生成过程在语义子码的条件下推断出来的。与其他DPMs不同，DDIM修改了前向过程以使其非马尔可夫，同时保留了DPMs的训练目标。这种修改允许确定性地将图像编码为其对应的初始噪声，表示我们的随机子码。这个框架的含义是双重的。首先，通过将DDIM条件化为目标输出的语义信息，去噪变得更容易和更快。其次，这种设计产生了一种线性、语义有意义且可解码的表示，这是DPMs潜变量的一种新属性。这一关键属性使得能够利用DPMs进行许多任务，包括对真实图像进行插值和属性操作。与在真实图像上操作之前依赖于容易出错的反演的GANs不同，我们的方法不需要优化来对输入进行编码，并且能够保留原始细节的高质量输出。尽管是一个自动编码器，通常不用于无条件生成，但我们的框架可以通过将另一个DPM拟合到语义子码分布来生成图像样本。与纯粹的DPM相比，这种组合在无条件生成方面实现了有竞争力的FID分数。此外，从我们的紧凑且有意义的潜空间中进行采样的能力还可以实现少样本条件生成（即生成与少数示例具有相似语义的图像）。与其他基于DPM的少样本设置技术相比，我们的方法仅使用少数标记示例即可产生令人信服的结果，而无需使用先前工作中使用的额外对比学习 [ 45 ]。02. 背景0基于扩散的模型（DPMs）和基于分数的生成模型属于一类通过学习不同噪声水平的去噪过程来建模目标分布的生成模型。一个成功的过程可以将来自先验N（0，I）的任意高斯噪声映射到经过T次去噪后的干净图像样本。何等人[22]提出了学习函数ϵθ（xt，t），它接受噪声图像xt并预测其噪声0使用UNet[40]。模型使用损失函数∥ϵθ（xt，t）−ϵ∥进行训练，其中ϵ是添加到x0以产生xt的实际噪声。这个公式是边缘对数似然的变分下界的简化、重新加权版本，已经在社区中被广泛使用[11，29，36，47]。更正式地说，我们在时间t（从T开始）定义了一个高斯扩散过程，它会逐渐向输入图像x0添加噪声，即q（xt | xt−1）=N（√1−βtxt−1，βtI），其中βt是代表噪声水平的超参数。使用高斯扩散，时间t时图像x0的带噪版本是另一个高斯分布q（xt | x0）= N（√αtx0，（1−αt）I），其中αt =�ts=1（1−βs）。我们对学习这个过程的逆过程即分布p（xt−1 | xt）感兴趣。除非t−1和t之间的间隔非常小（T =∞），否则这个概率函数可能是一个复杂的函数[46]。在这种情况下，p（xt−1 |xt）可以建模为N（µθ（xt，t），σt）[22]。有很多方法可以对这个分布进行建模，其中之一就是前面提到的ϵθ（xt，t）。实际上，T =∞的假设从来没有得到满足；因此，DPM只是近似。作为潜变量模型，DPM可以通过其正向过程自然地产生潜变量x1:T；然而，这些变量是随机的，只表示一系列通过高斯噪声引起的图像退化，并不包含太多语义信息。Song等人[47]提出了另一种称为去噪扩散隐式模型（DDIM）的DPM，它具有以下确定性生成过程：0xt−1 = √αt−1�xt−√1−αtϵtθ（xt）√αt0� +√1−αt−1ϵtθ（xt）0（1）和以下新颖的推断分布：0q（xt−1 | xt，x0）= N � √αt−1x0 +√1−αt−1xt−√αtxt√1−αt，0 �0（2），同时保持原始DDPM边缘分布q（xt | x0）=N（√αtx0，（1−αt）I）。通过这样做，DDIM与DDPM共享目标和解决方案，只是在样本生成方式上有所不同。使用DDIM，可以以确定性方式向后运行生成过程，获得噪声图xT，它表示给定图像x0的潜变量或编码。在这个背景下，DDIM可以被看作是一个图像解码器，将潜在代码xT解码回输入图像。这个过程可以产生非常准确的重建；然而，xT仍然不包含高级语义，这与预期的有意义的表示不符。我们在图4c中展示了两个潜变量xT之间的插值不对应于结果图像中的语义平滑变化。这些图像只共享整体构图和背景颜色，但不像任何一个人的身份。这个::Tfθ(xt, t, zsem) =1√αt1 − αtϵθ(xt, t, zsem)(5)Lsimple =Ex0,ϵt ∥ϵθ(xt, t, zsem) − ϵt∥22(6)AdaGN(h, t, zsem) = zs(tsGroupNorm(h) + tb)(7)3.2. Semantic encoder106210语义编码器0图像0潜在DDIM0图像0编码器路径（语义）0图像（重建）解码器路径0（可选）0对于无条件采样0编码器路径（随机）0条件DDIM0随机编码器 + 解码器0图像0图像0图2.我们扩散自编码器的概述。自编码器包括一个“语义”编码器，将输入图像映射到语义子代码 (x 0 → zsem)，以及一个条件DDIM，既充当“随机”编码器 (x 0 → x T)又充当解码器 ((z sem, x T) → x 0)。在这里，z sem捕捉高层语义，而 x T捕捉低层的随机变化，它们可以被解码回原始图像并具有高保真度。为了从这个自编码器中采样，我们拟合一个潜在的DDIM到 zsem 的分布，并采样 (z sem, x T � N (0, I)) 进行解码。0也许可以理解为 x T 受到 x 0的像素值的影响很大，这是由于边缘 q (x T | x 0) = N (√ αT x 0, (1 − α T) I)的隐式线性偏差。这激发了一些方法，通过引入新的机制来使DPM的潜在变量更有意义，这将在本文中提出。03. 扩散自编码器0为了追求有意义的潜在代码，我们设计了一个条件DDIM图像解码器 p (x t − 1 | x t, z sem)，它以额外的潜在变量 zsem 为条件，并且一个语义编码器 z sem = Enc φ (x 0)学习将输入图像 x 0 映射到一个语义上有意义的 zsem。在这里，条件DDIM解码器以潜在变量 z = (z sem, xT) 作为输入，其中包括高层的“语义”子代码 z sem和通过DDIM的生成过程推断出的低层的“随机”子代码 xT。在这个框架中，DDIM既充当解码器又充当随机编码器。概述如图2所示。与其他使用空间条件变量（例如2D潜在图）的条件DPM不同，我们的 z sem是一个非空间向量，维度为 d =512，类似于StyleGAN中的样式向量，它允许我们编码不特定于任何空间区域的全局语义。我们的目标之一是学习一个语义丰富的潜在空间，可以进行平滑插值，类似于GAN学习到的空间，同时保持扩散模型在重构能力方面的优势。03.1. 基于扩散的解码器0我们的条件DDIM解码器接收 z = (z sem, x T)作为输入，生成输出图像。该解码器是一个条件DDIM，模拟了 p θ (x t − 1 | x t, z sem) 以匹配推理分布 q (x t − 1 |x t, x 0)在方程式2中定义的逆过程，具有以下逆（生成）过程：0p θ (x 0: T | z sem) = p (x T)0t =1 p θ (x t − 1 | x t, z sem)0� N (f θ (x 1, 1, z sem), 0) if t = 1 q (x t − 1 | x t, f θ (x t, t,z sem)) otherwise (4)根据Song等人的研究[47]，我们将方程式4中的 f θ参数化为一个噪声预测网络 ϵ θ (x t, t, z sem)：0� x t − √0该网络是Dhariwal等人最近的DPM的UNet的修改版本。训练是通过优化 θ 和 φ 相对于 L simple [22]损失函数来完成的。0T �0其中 ϵ t ∈ R 3 × h × w � N (0, I)，x t = √ α t x 0 + √ 1 −α t ϵ t，T被设置为一个较大的数，例如1,000。注意，尽管这个简化的损失函数已被证明可以优化DDPM [22]和DDIM[47]，但它并不是实际的变分下界。在训练过程中，不需要随机子代码 xT。我们使用自适应分组归一化层（AdaGN）来对UNet进行条件化，这是根据Dhariwal等人的方法[11]扩展了分组归一化[56]，通过对归一化的特征图 h ∈ R c × h × w进行通道级的缩放和平移。我们的AdaGN是基于 t 和 zsem 进行条件化的：0其中 z s ∈ R c = Af�ne ( z sem ) 且 ( t s , t b ) ∈ R 2× c = MLP ( ψ ( t ))是一个多层感知器的输出，其中包含一个正弦编码函数 ψ。这些层在整个UNet中都被使用。详细信息请参见附录A。0语义编码器 Enc ( x 0 )的目标是将输入图像总结为一个描述性向量 z sem = Enc (x 0 ) ，其中包含了帮助解码器 p θ ( x t − 1 | x t , z sem )去噪和预测输出图像所需的信息。我们不对该编码器假设任何特定的架构；然而，在我们的实验中，该编码器与我们的UNet解码器的前半部分共享相同的架构。通过使用信息丰富的 z sem来调节DDIM，可以实现更高效的去噪过程，这将在第5.5节中进一步讨论。3.3. Stochastic encoder4. Sampling with diffusion autoencodersLlatent =Tt=1Ezsem,ϵt�∥ϵω(zsem,t, t) − ϵt∥1�(9)106220除了解码，我们的条件DDIM还可以通过运行其确定性生成过程的反向过程（方程1的反向）将输入图像 x 0编码为随机子码 x T ：01 − α t +1 ϵ θ ( x t , t, z sem ) (8)我们可以将这个过程看作是一种随机编码器，因为 x T只编码了 z sem 遗漏的信息，而 z sem对于压缩随机细节的能力是有限的。通过同时利用语义编码器和随机编码器，我们的自编码器可以捕捉输入图像的最后细节，并提供一个高级表示 z sem用于下游任务。请注意，随机编码器在训练过程中不被使用（方程6），而是用于计算需要精确重构或反演的任务中的x T ，例如真实图像操作。0通过将解码器调节为 z sem，扩散自编码器不再是生成模型。因此，为了从我们的自编码器中进行采样，我们需要一个额外的机制来从潜在分布中采样 z sem ∈ R d。虽然VAE是这个任务的一个吸引人的选择，但在保留潜在代码中丰富信息和保持采样质量之间取得平衡是困难的[41,42, 45,52]。GAN是另一个选择，尽管它会增加训练的稳定性，这是DPM的一个主要优势。在这里，我们选择拟合另一个DDIM，称为潜在DDIM p ω ( z sem ,t − 1 | z sem ,t ) ，到 zsem = Enc φ ( x 0 ) 的潜在分布，其中 x 0 � p ( x 0 )。类似于方程5和6，通过优化 L latent 关于 ω进行训练：0其中 ϵ t ∈ R d � N ( 0 , I ) ， z sem ,t = √ α t z sem+ √ 1 − α t ϵ t ，而 T与DDIM图像解码器中的相同。对于 L latent，我们经验性地发现 L 1损失效果更好。与1D/2D图像不同，非空间数据没有成熟的DPM架构，但我们发现具有跳跃连接的深度MLP（10-20层）表现得相当好。详细信息请参见附录A.1。我们首先通过方程6训练语义编码器（ φ ）和图像解码器（ θ）直到收敛。然后，我们通过方程9训练潜在DDIM（ ω），并固定语义编码器。在实践中，由潜在DDIM建模的潜在分布首先被归一化为零均值和单位方差。因此，从扩散自编码器中无条件采样的过程是通过从潜在DDIM中采样 zsem 并对其进行非归一化，然后从 N ( 0 , I ) 中采样 x T，最后使用解码器解码 z = ( z sem , x T ) 。0我们选择事后训练潜在的DDIM有几个实际原因。首先，由于训练潜在的DDIM只需要完整训练时间的一小部分，事后训练可以快速进行不同的潜在DDIM实验，而使用相同的扩散自编码器。另一个原因是为了使zsem尽可能具有表达能力，不施加任何约束，如VAE中的先验损失[30]，这可能会损害潜在变量的质量。05. 实验0现在我们转向评估我们学到的潜在空间的属性，并展示新的能力，如属性操作和条件生成。为了公平比较，我们实验中的DDIM基线是我们基于Dhariwal等人的改进架构[11]重新实现的DDIM[47]，与我们的解码器具有相同的UNet超参数。简而言之，DDIM基线类似于我们的解码器，只是不使用zsem。05.1. 潜在编码捕捉高级语义和低级随机变化0为了证明高级语义主要被zsem捕获，而很少被xT捕获，我们首先计算语义子编码zsem =Enc(x0)从输入图像x0中。对于随机子编码xT，我们不是从输入中推断它，而是多次采样这个子编码xiT�N(0，I)并解码多个zi =(zsem，xiT)。图3显示了在给定相同zsem的情况下，通过改变xT引起的变化，以及来自不同zsem的变化。结果表明，对于固定的zsem，随机子编码xT只影响细节，如头发和皮肤细节、眼睛或嘴巴，但不改变整体的全局外观。通过改变zsem，我们获得了完全不同的具有不同面部形状、照明和整体结构的人物。定量结果在第5.4节和表2中讨论。05.2. 语义有意义的潜在插值0有用的潜在空间的一个理想属性是能够通过潜在空间中的简单线性变化来表示图像中的语义变化。例如，沿着连接任意两个潜在编码的直线移动，我们期望在相应的两个图像之间进行平滑的变形。在图4d和图1中，我们通过将两个输入图像编码为(z1sem，x1T)和(z2sem，x2T)，然后解码z(t) =(Lerp(z1sem，z2sem；t)，Slerp(x1T，x2T；t))，对于t∈[0，1]的各种值，其中使用线性插值用于zsem，球面线性插值用于xT，参考[47]。与DDIM相比，我们的方法逐渐改变了两个端点之间的头部姿势、背景和面部属性。StyleGAN在W和106230输入重建变化的随机子编码0图3.通过改变随机子编码xT引起的重建结果和变化。每一行对应于不同的zsem，这完全改变了人物，而改变随机子编码xT只影响细节。0(a) StyleGAN2在W空间反转后的插值。0(b) StyleGAN2在W +空间反转后的插值。0(c) DDIM插值。0(d) 我们的扩散自编码器插值。0图4.两个真实图像之间的插值。与StyleGAN2和DDIM相比，我们的方法产生平滑一致的结果，并保留了两个图像的原始细节。0W +空间是平滑的，但两个端点与输入图像不相似，而我们的方法和DDIM几乎完全匹配真实的输入图像。我们在附录F中定量评估了我们的插值的平滑程度。05.3. 对真实图像进行属性操作0另一种评估图像语义与潜在空间中的线性运动或可分离性之间关系的方法是通过将图像的潜在变量 z sem沿特定方向移动，并观察图像的变化[44]。通过从线性分类器的权重向量中找到这样的方向，该分类器是在负样本和正样本的潜在编码上进行训练的。0对于目标属性（例如微笑）的图像，这种操作会相应地改变图像中的语义属性。存在专门用于此任务的技术[3, 37, 44,57]，但我们在这里旨在通过使用最简单的线性操作展示我们的潜在空间的质量和适用性。我们使用来自CelebA-HQ[26]的图像和属性标签训练了线性分类器，并在CelebA-HQ和FFHQ[27]上进行了测试（见图5）。实现细节和更多结果可以在附录G中找到。请注意，我们的自动编码器是在FFHQ上训练的，但可以在不对自动编码器进行微调的情况下推广到CelebA-HQ。我们的方法能够改变局部特征，例如微笑时的嘴巴，同时保持图像的其余部分和细节基本静止。对于涉及同时改变多个特征的全局属性，例如衰老，我们的结果看起来非常合理和逼真。此外，我们比较了这些线性分类器（附录E）使用 z sem 和使用StyleGAN的反转 W作为输入的准确性。我们方法在40个属性上的AUROC↑为0.925，而StyleGAN-W为0.891。我们还通过ArcFace[10]测试了输入的身份保留程度，并在附录G中量化了操作质量。扩散自动编码器相对于基于GAN的操作技术的一个显着优势是能够在保留与操作无关的细节的同时操作真实图像（例如，在操作面部表情时保留原始头发和背景）。当GAN用于此类任务时，由于无法将真实图像忠实地反转回GAN的潜在空间，细节通常会发生变化。与最近的基于分数的操作技术SDEdit[35]相比，该技术专注于局部编辑或使用前向-后向采样技巧将图像从另一个域转换为另一个域，我们的方法通过简单地修改潜在编码来解决改变语义属性的问题。我们还在附录H中与使用NVAE [50]解码器执行类似任务的D2C[45]进行了定性比较。05.4. 自动编码重建质量0尽管自动编码器的良好重建质量不一定是良好表示学习的指标，但在许多应用中，如需要准确的编码-解码能力的压缩或图像操作中，这一属性起着重要作用。对于这些任务，传统的依赖于MSE或L1损失函数的自动编码器表现不佳，会产生模糊的结果。更先进的自动编码器结合了感知损失和对抗损失，例如VQGAN[13]，或依赖于层次结构的潜在变量，例如NVAE[50]，VQ-VAE2[38]。我们的设计是一种替代方案，它产生具有紧凑语义的潜在编码，并与最先进的自动编码器竞争。关键在于我们的两级编码，将较不可压缩的随机细节的重建委托给我们的条件DDIM。106240输入性别年龄波浪发型男性女性 + - 微笑 + - + - 重建0图5. 通过沿线性分类器找到的正向或负向方向移动 z sem对两个全局属性（性别、年龄）和两个局部属性（微笑、波浪发型）进行真实图像属性操作的结果。前两个来自FFHQ[27]，后两个来自CelebA-HQ [26]。我们的方法合成了高度合理和逼真的结果，保留了前所未有的细节水平。0在表1中，我们评估了1）我们的扩散自编码器的重建质量，2）DDIM [47]，3）预训练的StyleGAN2[28]（通过两种类型的反演），4）VQ-GAN[13]，5）VQ-VAE2 [38]，6）NVAE[50]。DDIM和我们都是在1.3亿张图像上进行训练，并使用T=100进行解码。所有这些模型都是在FFHQ[27]上进行训练，并在CelebA-HQ[26]的3万张图像上进行测试。对于我们的方法和DDIM，我们对大小为128×128的缩小测试图像进行编码和解码。对于其他模型，我们使用公开可用的预训练网络进行256×256的反演，并将结果缩小到相同的128×128进行比较。对于StyleGAN2，我们在测试图像上在W [28]和W+ [1,2]空间中进行反演，并使用优化后的代码进行重建。评估指标为SSIM [53]（↑），LPIPS [61]（↓）和MSE。NVAE[50]在LPIPS和MSE得分方面达到了最低水平，尽管它需要比其他模型大几个数量级的潜在维度。除了NVAE，我们的扩散自编码器在所有指标上都优于其他模型，并且只需要T=20步就能超过T=100步的DDIM（表2）。0此外，我们进行了切除研究，以调查以下内容：1）仅从输入中编码zsem而从N(0,I)中采样xT进行解码时的重建质量（表2.a），以及2）在我们的自编码器上改变zsem维度从64到512的影响（表2.b-e），我们的自编码器使用4800万张图像进行训练以提高效率。所有的配置a)-e)都能产生逼真的结果，但在保真度上有所不同，其中较高的潜在维度更好。对于配置a)的512Dzsem，即使xT是随机的，重建结果仍然在感知上与输入图像非常接近，这是通过LPIPS测量的（也见图3）。我们的重建结果在一个小的0表1. 在FFHQ [27]上训练并在未见过的CelebA-HQ[26]上进行测试的模型的自编码重建质量。我们的模型在产生紧凑的512Dzsem的同时与最先进的NVAE相竞争，并产生了有用的高级语义。0模型潜在维度 SSIM ↑ LPIPS ↓ MSE ↓0StyleGAN2 (W) [28] 512 0.677 0.168 0.016 StyleGAN2 (W+) [28]7,168 0.827 0.114 0.006 VQ-GAN [13] 65,536 0.782 0.109 3.61e-3VQ-VAE2 [38] 327,680 0.947 0.012 4.87e-4 NVAE [50] 6,005,7600.984 0.001 4.85e-5 DDIM (T=100, 1282) [47] 49,152 0.917 0.0630.002 我们的（T=100, 1282, 无xT） 512 0.677 0.073 0.007我们的（T=100, 1282） 49,664 0.991 0.011 6.07e-5064D zsem已经与512DW潜在空间中的StyleGAN2反演相媲美，这表明我们的扩散自编码器在压缩方面表现出色。05.5. 更快的去噪过程0将去噪过程与来自zsem的语义信息进行条件化的一个有用的好处是更快的生成。DPMs需要许多生成步骤的一个主要原因是当T足够大（�1000）时，DPMs只能使用高斯分布来近似p(xt−1|xt)。近期改进采样速度的尝试主要集中在找到更好的采样间隔或噪声计划[25, 29, 31,36]，或者使用更高效的求解器来求解基于得分的ODE对应问题[25]。我们的扩散自编码器并不直接解决这个问题，也不能与缺乏目标样本访问权限的生成模型在相同的上下文中进行比较。然而，值得一提的是它们在DPM框架内的影响。50T=100DDIM (@130M) [47]0.6000.7600.8780.9170.2270.1480.0870.0630.0190.0080.0030.002PU106250表2. 切除研究结果：a）当xT不是从输入中编码而是从N(0,I)中采样时的自编码重建质量，以及b-e）在我们的自编码器上改变zsem维度从64到512对重建质量的影响，我们的自编码器使用4800万张图像进行训练以提高效率。在a）中，即使xT是随机的，我们的重建结果在感知上与输入图像非常接近（LPIPS=0.073）。b-e）表明，更高的zsem维度会导致更高的重建保真度。我们的扩散自编码器在T=20步时也超过了T=100步的DDIM。0模型 SSIM ↑ LPIPS ↓ MSE ↓0我们的(@130M, 512D zsem) 0.827 0.927 0.978 0.991 0.078 0.050 0.023 0.011 0.001 0.001 0.000 0.000 a) 未编码的xT 0.707 0.695 0.683 0.6770.085 0.078 0.074 0.073 0.006 0.007 0.007 0.007 b) 未编码的xT，@48M, 512D zsem 0.662 0.650 0.637 0.631 0.102 0.096 0.093 0.092 0.0090.009 0.009 0.010 c) 未编码的xT，@48M, 256D zsem 0.637 0.624 0.612 0.606 0.116 0.109 0.106 0.105 0.010 0.011 0.011 0.011 d)未编码的xT，@48M, 128D zsem 0.613 0.600 0.588 0.582 0.133 0.127 0.125 0.124 0.012 0.012 0.013 0.013 e) 未编码的xT，@48M, 64D zsem0.551 0.538 0.527 0.521 0.168 0.165 0.163 0.162 0.018 0.019 0.020 0.0200(a) DDIM预测x0。0(b) 我们的扩散自编码器预测x0。0图6.在t9，8，7，5，2，0（T=10）时预测的x0。通过对zsem进行条件约束，我们的方法能够更快地预测出类似于x0的图像。0考虑一个场景，其中x0对于去噪网络是已知的。噪声预测任务将变得简单，并且q(xt−1|xt,x0)是一个高斯分布，无论时间步长的数量如何[22]。由于我们的扩散自编码器模型了分布p(xt−1|xt,zsem)，因此当zsem已经捕捉到关于x0的大量信息时，p(xt−1|xt,zsem)是对q(xt−1|xt,x0)更好的近似。图6显示，扩散自编码器能够在较少的步骤中比DDIM更准确地预测x0，并在表4中的四个不同数据集上产生更好的图像质量，而表中的时间步长T相同。05.6. 类别条件采样0这个实验演示了我们的框架如何用于少样本条件生成，并与D2C [ 45]进行比较，D2C是一种基于DPM的最先进方法。我们遵循D2C中的问题设置，目标是通过使用少量标记样本（≤100）生成一组目标类别（如女性）的多样化图像。标签可以指定与目标类别相关的正样本和负样本（二元场景），或者仅指定正样本（正样本和未标记样本，或PU场景）。给定一个针对目标类别c的潜在分类器pγ(c|zsem)，一种简单的类别条件采样方法是使用拒绝采样，就像D2C所使用的那样。也就是说，我们从我们的潜在DDIM中采样zsem，并以概率pγ(c|zsem)接受这个样本。我们遵循了D2C的方法，有条件地采样了5k张图像，然后计算了FID分数。0表3. CelebA64数据集上的类别条件生成的FID分数（↓），计算了5k个采样图像与目标子集之间的FID分数。±表示一个标准差（n=3）。D2C [ 45]的结果来自他们的论文（对5k个样本进行一次FID计算）。二元分类器使用50个正样本和50个负样本进行训练。正样本-未标记（PU）分类器使用100个正样本和10,000个未标记样本（作为负样本）进行训练。Naive FID是在所有图像和目标子集之间计算的。0场景类别我们的 D2C [ 45 ] Naive0二元0男性 11.52 ± 1.19 13.44 23.830女性 7.29 ± 0.44 9.51 13.640金发 16.10 ± 2.00 17.61 25.620非金发 8.48 ± 0.52 8.94 0.960男性 9.54 ± 0.54 16.39 23.830女性 9.21 ± 0.19 12.21 13.640金发 7.01 ± 0.25 10.09 25.620非金发 7.91 ± 0.15 9.09 0.960在这些图像和CelebA数据集中相同目标类别的所有图像之间（使用D2C相同的裁剪方式），我们使用T =100进行潜在和图像生成。表3显示，尽管没有使用D2C中使用的任何自监督对比学习，我们的方法在FID分数上达到了与D2C相当的水平。05.7. 无条件采样0为了评估我们从扩散自编码器中无条件采样的质量，我们首先从潜在DDIM中采样 z sem ，然后使用我们的解码器解码z = (z sem , x T � N(0, I))。我们在FFHQ [27]、LSUNHorse & Bedroom [60]和CelebA[33]上训练了我们的自编码器。对于每个数据集，我们计算了从数据集中随机抽样的5万张图像与我们生成的5万张图像之间的FID分数。我们还在潜在DDIM和我们的主解码器中使用了不同的时间步长 T = (10, 20, 50,100)。如表4所示，我们的扩散自编码器与DDIM基线相竞争，在大多数情况下产生更高的FID分数。我们还提供了参考的扩散自编码器，该自编码器使用从测试图像中编码的地面真实潜变量进行训练。106260表4.无条件生成的FID分数（↓）。我们的方法与DDIM基线相竞争。“+自编码”指的是从测试集中推断出地面真实语义子码的扩散自编码器，不从潜在DDIM中进行采样。0数据集模型 FID ↓0T=10 T=20 T=50 T=1000FFHQ 128 DDIM 29.56 21.45 15.08 12.030我们的 20.80 16.70 12.57 10.590+ 自编码 14.43 10.70 6.69 4.560Horse 128 DDIM 22.17 12.92 7.92 5.970我们的 11.97 9.37 7.44 6.710+ 自编码 9.27 6.23 3.87 2.920Bedroom 128 DDIM 13.70 9.23 7.14 5.940我们的 10.69 8.19 6.50 5.700+ 自编码 6.36 4.88 3.61 2.880CelebA 64 DDIM 16.38 12.70 8.52 5.830我们的 12.92 10.18 7.05 5.300+ 自编码 12.78 9.06 5.15 3.110标记为“+自编码”。在每个数据集中，也许并不奇怪，使用 z sem 来条件化DDIM解码器在小的 T值下显著提高了质量。在附录C中，我们展示了定性结果和一个额外的实验，以验证潜在DDIM不会记忆其输入。06. 相关工作0去噪扩散基于生成模型[22,46]与去噪基于得分的生成模型[48]密切相关。这个家族的模型已经被证明可以生成质量高的图像，与GANs[11]相媲美，而不使用不稳定的对抗训练。它们也广泛用于多个条件生成任务，如图像超分辨率[32, 43]、图像条件生成[8,35]、ImageNet数据集中的类条件生成[11]和mel频谱条件语音合成[6]。与我们的工作类似，这些方法依赖于条件DPMs；然而，先前的工作中大多数的条件信号是已知的并且固定的，而我们的扩散自编码器通过可端到端学习的信号增强了潜变量，这是由CNN编码器发现的。这使得我们的工作更接近VAE[30]，特别是Wehenkel等人[54]和D2C[45]。虽然这些方法只利用DPMs来建模先验分布或潜在表示另一个生成模型[12]，但我们的重点是如何将DPMs与有意义的潜在码相结合。我们的扩散自编码器与其他类型的自编码器（如VAE[30]、NVAE[50]、VQ-VAE[52]和VQ-VAE2[38]）共享共同的目标。虽然VAEs提供了合理的潜变量质量和样本质量，但它们容易出现后验崩溃[52]和先验空洞问题[45]，而DPMs则没有这些问题。VQ-VAE使用离散潜变量来处理这些问题，通过事后拟合一个自回归的Pixel-CNN模型到潜变量[51]。我们的工作也使用了事后拟合潜变量，但我们利用了另一个DPM来实现。0而不是自回归模型。丰富的图像表示对于许多下游任务非常有用；例如，VAE经常用于基于模型的强化学习[14, 17,18]，用于预测环境未来结果。VQ-VAE的潜变量用作视频生成任务的一种手段[59]。我们的扩散自编码器还提供了有用的表示，具有将表示解码回近乎完美的能力。除了生成令人印象深刻的图像样本外，GANs[15]还被证明可以学习有意义的潜在空间[27]，并对多个派生空间[24,57]进行了广泛的研究，并为条件人脸生成[21, 37,55]提供了各种旋钮和控制。将图像编码到GAN的潜在空间需要基于优化的反演过程[28,58]或外部图像编码器[39]，这会导致重构保真度有限（或产生学习流形之外的高维码）。这个问题可能与GAN的有限潜在大小和模式坍缩问题有关，其中潜在空间仅部分覆盖训练样本的支持。扩散自编码器没有这个问题，可以轻松地编码任何图像，而无需任何额外容易出错的优化。07. 限制和讨论0当编码训练分布之外的图像时，我们的扩散自编码器仍然可以很好地重构图像，这要归功于来自DDIM的高维随机子码。然而，推断出的语义和随机子码可能会落在学习到的分布之外，导致表示质量较差，无法再进行解释或插值。虽然我们选择使用非空间潜变量适用于学习全局语义，但某些图像和空间推理任务可能需要更精确的局部潜变量。对于这些任务，引入2D潜变量图可能是有益的。对于图像生成，StyleGAN的一个独特特性是缺少我们的扩散自编码器的能力，即控制特定尺度的生成。在生成速度方面，我们的框架显著减少了从DDIM生成高质量样本所需的时间步数，但仍然落后于只需要单个生成器传递的GAN。此外，我们在附录L中讨论了生成深度伪造图像的潜力以及可能的技术保障措施。总之，我们提出了一种扩散自编码器，可以分别从输入图像中推断出语义和随机信息。与DPM和NVAE等高保真自编码器相比，我们的潜表示允许近乎精确的解码，同时包含紧凑的语义，可用于下游任务。这些特性使得在不需要GAN及其容易出错的反演的情况下，能够

下载后可阅读完整内容，剩余1页未读，立即下载