没有合适的资源?快使用搜索试试~ 我知道了~
106410极性采样:通过奇异值控制预训练生成网络的质量和多样性0Ahmed Imtiaz Humayun†�,Randall Balestriero‡�,Richard Baraniuk†0莱斯大学†,Meta AI研究‡0摘要0我们提出了极性采样(PolaritySampling),这是一种理论上合理的即插即用方法,用于控制任何预训练深度生成网络(DGN)的生成质量和多样性。利用DGN是连续分段仿射样条的事实,我们推导出DGN输出空间分布的解析表达式,该表达式是DGN雅可比奇异值的乘积的函数,乘积的幂为ρ。我们将ρ称为极性参数,并证明ρ将DGN采样集中在DGN输出空间概率分布的模式(ρ <0)或反模式(ρ >0)上。我们证明非零的极性值比截断等标准方法在精度-召回(质量-多样性)Pareto前沿上表现更好,适用于多个最先进的DGNs。我们还展示了关于不同条件和无条件图像生成任务的多个最先进DGNs(包括StyleGAN3,BigGAN-deep,NVAE)的整体生成质量(例如Fr´echet InceptionDistance)的定量和定性结果。特别地,PolaritySampling将FFHQ数据集上StyleGAN2的最先进水平重新定义为FID 2.57,将LSUNCar数据集上的StyleGAN2重新定义为FID2.27,将AFHQv2数据集上的StyleGAN3重新定义为FID3.95。Colab演示。01. 引言0深度生成网络(DGNs)已成为生成高维数据集(如自然图像)的首选框架。在DGNs领域,可以使用不同的框架来产生数据分布的近似,例如生成对抗网络(GANs)[18],变分自编码器(VAEs)[31]或基于流的模型[40]。但是,尽管这些框架旨在最小化不同的训练设置和损失,但用于表征生成的整体质量的评估指标是 Fr´echet InceptionDistance(FID)[22]。0� 平等贡献0精度(质量)0召回(多样性)0ρ � 0 ρ < 0 ρ > 0 ρ � 00图1. 第一行:随着截断[29] ψ 和极性 ρ的变化,生成质量和多样性的演变。极性采样实现了比截断更好的Pareto权衡,例如,可以使用极性来在更高的精度下实现指定的召回,或者在更高的召回下实现指定的精度,与截断相比。有关其他Pareto示例,请参见图3。第二、三和四行:从BigGAN-deep生成的Golden Retriever、Tiger和HouseFinch类的样本,具有更高质量(ρ < 0)和更高多样性(ρ >0)。有关LSUN [54]的示例,请参见图4。0FID是通过在InceptionV3[48]嵌入空间中采用Fr´echet距离来获得的,该距离是两个分布之间的距离;通常将这些分布视为训练数据集和在数据集上训练的DGN的样本。�106420先前的研究[45]已经确定了FID如何非线性地结合样本的质量和多样性的度量,这启发了对这些量的解耦研究,例如精度和召回[32,45]。最近的最先进DGNs,如BigGAN[8],StyleGAN2/3 [28,30]和NVAE[53],在将真实数据子集与自身进行比较时,已经达到了接近最低的FID。这导致DGNs在各种应用中得到了部署,例如生成高质量的真实世界内容和数据增强。然而,很明显,根据应用领域的不同,从最佳FID模型生成样本可能是次优的。例如,实现逼真的内容生成可能更受益于高质量(精度)的样本,而数据增强可能更受益于高多样性(召回)的样本,即使在每种情况下,整体FID略有降低[16,25]。因此,一些最先进的DGNs引入了可控参数来在生成的样本之间权衡精度和召回,例如截断潜空间采样[8],插值截断[29,30]。然而,这些方法并不总是“开箱即用”[8],例如,BigGAN在训练期间需要DGN参数的正交正则化。这些方法还缺乏明确的理论理解,这可能限制它们在敏感应用中的部署。在本文中,我们提出了一种基于奇异值的DGN样本质量(精度)和多样性(召回)控制的原则性解决方案,该解决方案不需要重新训练或特定的模型训练条件。我们的方法称为极性采样(PolaritySampling),它建立在我们先前关于学习的DGN样本分布的解析形式的工作[24]上,并引入了一个新的超参数,我们称之为极性 ρ ∈R,它调整了后训练控制的潜空间分布。极性参数可证明将潜在分布集中在DGN分布的模式,即高概率区域(ρ <0),或反模式,即低概率区域(ρ > 0)上;当ρ =0时,恢复原始的DGN分布。极性采样过程仅依赖于在每个输入样本处评估的DGN输出雅可比矩阵的前奇异值,并可实现在线采样。极性采样的一个重要优点在于它从分析的DGN数据分布[24]中推导出来,其中DGN雅可比矩阵奇异值的乘积-提高到幂ρ-可证明地控制了所需的DGN样本分布。有关PolaritySampling的初始示例,请参见图1。我们的主要贡献如下:[C1]我们首先提供了基于生成器雅可比矩阵奇异值的极性采样的理论推导。0雅可比矩阵。我们提供了PolaritySampling的伪代码和一种近似方案,以根据需要控制其计算复杂性(第3节)。[C2]我们在一系列DGN和数据集上证明了PolaritySampling不仅能够在精确-召回Pareto前沿上移动(第4.1节),即高效地控制质量和多样性,而且还为每个模型实现了改进的FID分数(第4.2节)。[C3]我们利用负极性采样提供对学习DGN分布模式的访问,这使我们能够探索关于DGN的几个及时和重要的问题。我们提供了训练的GAN和VAE模式的可视化(第5.1节),并评估了模式周围的感知平滑性(第5.2节)。02.相关工作0深度生成网络作为分段线性映射。在大多数DGN设置中,一旦训练完成,通过首先从潜在空间分布zi�pz中采样潜在空间样本zi∈RK,然后通过DGNG:RK→RD处理这些样本以获得样本xi�G(zi),�i来执行新数据点的采样。我们将依靠我们的研究中的一条最新研究线路,将DGNs制定为连续分段仿射(CPA)映射[3,35],可以表示为0G(z)=�0ω∈Ω(Aωz+bω)1{z∈ω},(1)0其中Ω是DGN架构诱导的输入空间划分,ω是z所在的划分区域,Aω,bω是相应的斜率和偏移参数。方程(1)的CPA形式要么表示精确的DGN映射,当非线性是CPA时,例如(leaky-)ReLU,max-pooling,要么表示DGN映射的一阶近似。有关CPA网络的更多背景信息,请参见[4]。我们将利用[12]中的关键结果,即方程(1)要么是精确的,要么可以足够接近真实映射G,以便在实际目的中被认为是精确的。DGN潜在分布的训练后改进。关于训练时潜在分布pz可能不适合测试时评估的想法,已经导致了多个研究方向来改进训练后样本的质量。[10,49]提出了基于Wasserstein鉴别器优化从潜在空间采样的方法,导致了鉴别器最优传输(DOT)方法。也就是说,在采样潜在向量z之后,后者会被重复更新,以使产生的数据具有更高的质量。[50]建议简单地删除产生数据超出范围的样本。det(ATωAω)− 12 1{A†ω(x−bω)∈ω∩D},(2)det(ATωAω)ρ2 1{z∈ω},(3)det(ATωAω)ρ−12 1{A†ω(x−bω)∈ω∩D},(4)106430真实的数据流形。这可以被视为对任何新样本z�pz的二进制拒绝决策。[2]是第一个正式引入基于鉴别器的拒绝采样的研究,该鉴别器提供用于拒绝采样候选向量z�pz的质量估计。用Metropolis-Hasting算法[21]替换拒绝采样导致了[52]的方法,被称为MH-GAN。[19]提出了使用采样-重要性-重采样(SIR)算法[43]的改进。[26]提出了latentRS,它包括在任何给定的DGN上训练一个WGAN-GP[20],以学习一个产生更高质量样本的改进潜在空间分布。[26]还提出了laten-tRS+GA,通过梯度上升进一步改进了从学习分布生成的样本。潜在分布的截断。[33]引入了潜在空间截断,用于高分辨率人脸图像生成,以去除生成的伪影。作者在训练过程中使用了z�U[-1,1]的潜在先验,并在评估过程中使用z�U[-0.5,0.5]进行质量改进。[8]正式引入了“截断技巧”,作者建议如果潜在变量z超过指定的截断阈值,则重新采样潜在变量z。作者还在训练过程中使用权重正交化使截断变得可行。基于样式的架构[29,30]引入了基于线性插值的样式空间截断,该插值也被设计为收敛到数据集的平均值[29]。在[32]中提供了基于样式生成器的截断消融实验。03. 从第一原理引入极性参数0在本节中,我们介绍了一种名为极性采样的方法,它使我们能够控制DGN的生成质量和多样性。我们将首先表达DGN的输出分布的解析形式(第3.1节),然后通过其雅可比矩阵的奇异值和我们的极性参数对潜在空间分布进行参数化(第3.2节)。我们提供了伪代码和一种近似策略,以实现快速采样(第3.3节)。03.1. 解析输出空间密度分布0给定一个DGN G,通过对给定的潜在空间分布进行 G(z)的采样来获得样本,即 z � p z。这将产生位于 G的图像上的样本,其分布受到 p z、DGN潜在空间分区 Ω和每个区域的仿射参数 A ω、b ω的影响。我们将DGN输出空间分布表示为 pG。在一个单射的DGN映射假设下( g(z) = g(z′) � z =z′)(这适用于各种架构,参见,例如,[41]),可以通过p G [24]获得DGN输出分布的解析形式。出于下一节将变得清晰的原因,我们在这里专注于 z � U(D) 的情况0即,在定义域 D上使用均匀的潜在空间分布。利用Moore-Penrose伪逆[51]A † � ( A T A ) − 1 A T,我们得到以下结果。0定理1. 对于 z � U(D),概率密度 p G(x) 给出如下0p G(x) ∝ �0其中 det 是伪行列式,即 A T ω A ω的非零特征值的乘积。(证明见附录B.1。)0注意,也可以将 det( A T ω A ω ) 1 / 2 视为 A ω的非零奇异值的乘积。定理1对我们的发展至关重要,因为它证明了样本 x = g(z) 的概率与坐标系 A ω 在 z所在的区域 ω 中所产生的体积变化 (det( A T ω A ω ) 1 / 2) 成正比(参见方程(1))。如果区域 ω ∈ Ω具有收缩空间的斜率矩阵 A ω( det( A T ω A ω ) < 1),则该区域上的输出密度 — 映射到输出空间区域 { A ωu + b ω : u ∈ ω } —将增加,而其他区域要么不如此收缩空间,要么甚至扩展空间( det( A T ω A ω ) > 1)。因此,每个输出空间区域中样本的集中程度取决于该区域的斜率矩阵相对于所有其他区域如何收缩或扩展空间。03.2. 用一个参数控制密度集中0根据定理1,我们可以直接得到一个明确的参数化 pz,使我们能够控制输出空间中样本的分布,即控制 pG。实际上,注意到可以通过使用 z � U(ω�),ω� = arg minω ∈ Ω det( A T ω A ω )从DGN分布的模式中进行采样。或者,可以通过使用 z �U(ω�),ω� = arg max ω ∈ Ω det( A T ω A ω )从概率最低的区域即反模式中进行采样。这直接导致了我们的极性采样方法,该方法基于每个区域的伪行列式来调整潜在空间分布。0推论1. 潜在空间分布0p ρ ( z ) ∝ �0其中 ρ ∈ R 是极性参数,产生了DGN输出分布0p G(x) ∝ �0当 ρ = 0 时,回到标准的DGN分布,当 ρ → −∞时,回到模式的采样,当 ρ → ∞时,回到反模式的采样。(证明见附录B.2。)0.200.150.10.100.150.20301k=1k=5k=10k=20k=30k=40k=50k=60k=80k=1000.200.150.10.100.150.203101N=100KN=150KN=200KN=250KN=300KN=350KN=400KN=450KN=500K106440极性采样包括使用具有极性参数ρ的潜在空间分布等式(3),该参数可以是负值,将样本集中在DGN分布pG的模态上,也可以是正值,将样本集中在DGN分布pG的反模态上,或者是零,消除极性的影响。注意,极性采样以连续的方式改变输出密度。正如我们将在第4.1节中看到的那样,它的实际效果是控制所获得样本的质量和多样性。03.3. 近似和实现0我们现在提供实现推论1的极性采样过程的详细信息和伪代码。计算Aω矩阵。根据任意DGN,可以通过首先从ω中采样一个潜在向量z,然后获得DGN的雅可比矩阵Aω =JzG(z),�z ∈ω来获得每个区域的斜率矩阵,这样做的好处是直接使用自动微分库,因此不需要任何详尽的实现或导数。在实践中,计算生成器的JzG(z)并不罕见,例如,在StyleGAN2的路径长度正则化中就使用了它。发现区域ω ∈Ω。根据等式(3),我们需要获得Aω的奇异值(见下一段)对于每个区域ω ∈Ω。这通常是一项复杂的任务,特别是对于具有随着架构深度和宽度增长而增加的分区Ω的最先进的DGNs来说。此外,检查z ∈ω是否需要解线性规划,这是一项昂贵的任务。因此,我们开发了一个近似方法,它包括从潜在空间中均匀采样许多z �U(D)向量(因此我们在推论1中假设了均匀先验),并计算它们对应的矩阵Aω(z)。这样,我们可以确保Aω(z)对应于z所在的区域ω的斜率,无需检查z ∈ω。我们从DGN潜在空间均匀获得N个样本(基于原始潜在空间域),这样做的目的是尽可能多地发现Ω中的区域。奇异值计算。计算Aω的奇异值是一项O(min(K,D)3)操作。然而,并非所有的奇异值都可能是相关的,例如,几乎在所有区域ω中都保持不变的最小奇异值可以省略而不改变推论1。因此,我们仅使用Aω的前k个奇异值来加速奇异值计算,复杂度为O(Dk2),详细信息请参见附录A.3(如果需要,还可以使用进一步的近似方法,例如,幂迭代)。虽然所需的潜在空间样本数N和前k个奇异值的数量k可能看起来是极性采样的限制,但我们在实践中发现,对于最先进的DGNs,可以将N和k设置为0算法1:具有极性ρ的极性采样过程;在线版本和2D示例请参见附录。算法2和图11。有关实现细节,请参见第3.3节。0输入:K > 0,S > 0,N � S,G,D,ρ ∈ R0Z, S, R ← [], [], [] forn = 1, ..., N do0z � U(D) σ = SingularValues(JzG(z), decreasing =True) Z.append(z) S.append(ρ � K k=1 log(σ[k] +ϵ))0for n = 1, ..., S do0i � Categorical(prob = softmax(S))R.append(Z[i])0输出:R0FID0极性(ρ)0极性(ρ)0图2.极性采样对StyleGAN2-F模型在FFHQ上预训练的FID的影响,对于不同数量的前k个奇异值(左)和用于获取每个区域斜率矩阵Aω奇异值的潜在空间样本数N(右)(参见第3.3节和算法1)。当使用大约k = 40个奇异值和N ≈200,000个潜在空间样本时,FID的趋势趋于稳定。有关k和N对精确度和召回率的影响,请参见图9。0N ≈ 200 K,k ∈ [30,100]。我们进行了仔细的消融研究,并在附录A.2的图2和表3和表4中展示了N和k的不同选择对结果的影响。计算时间和软件/硬件细节在附录A.3中提供。为了减小ρ的极端值可能导致的舍入误差,我们在对数空间中计算奇异值的乘积,如算法1所示。我们总结了如何使用上述步骤获取S个样本的伪代码,该伪代码在算法1中给出,并提供了一种减少计算大矩阵Aω的内存需求的高效解决方案,该解决方案在附录A.4中提供。我们还提供了一种实现,使得可以在算法2中进行在线采样(附录A.1)。还可以根据与数据空间不同的空间(例如inception-space)或与潜在空间不同的输入空间(例如StyleGAN2/3的style-space)来控制DGN先验分布pz。这不会改变算法1,只是DGN现在被认为是原始DGN的子集,或者与VGG/InceptionV3网络组合。我们在附录A.5中提供了style-space、VGG-space和Inception-space的实现细节。在这些情况下,分区Ω和每个区域的映射参数Aω、bω是相应子网络或网络组合的参数(参考方程(1))。极性采样通过考虑所考虑输出空间的模式或反模式来调整DGN先验分布。We now provide empirical validation of Polarity Sam-pling with an extensive array of experiments. Since calcu-lation of distribution metrics such as FID, precision, and re-call are sensitive to image processing nuances, we use eachmodel’s original code repository except for BigGAN-deepon ImageNet [13], for which we use the evaluation pipelinespecified for ADM [14]. For NVAE (trained on colored-MNIST [1]), we use a modified version of the StyleGAN3evaluation pipeline.Precision and recall metrics are allbased on the implementation of [32].Metrics in Tab. 20.00.20.40.6.1.2.3.4.5.6.70.80.90.00.50.70.91.01.32.0StyleGAN2-F-Vgg LSUN Car0.00.20.40.6.2.4.6.8.00.00.30.50.70.80.91.01.11.31.7StyleGAN3-T-Pix AFHQv20.00.130.40.50.20.30.4.5.6.7.8.9.00.00.50.70.91.0StyleGAN2-F-Vgg LSUN Church0.00.20.40.60.20.40.60.81.0 0.00.30.50.70.91.01.21.52.0StyleGAN3-T-Pix FFHQ0.00.10.20.30.30.40.50.60.70.80.00.50.70.91.01.32.0StyleGAN2-F-Style LSUN Cats0.00..40.60.20.40.60.81.00.00.50.70.91.01.32.0StyleGAN2-F-Vgg FFHQPolarity SweepTruncation SweepPareto Frontier106450我们现在通过大量实验证明了极性采样的有效性。由于FID、精确性和召回率等分布度量对图像处理细节非常敏感,我们使用每个模型的原始代码库进行实验,除了在ImageNet上的BigGAN-deep[13],我们使用ADM[14]指定的评估流程。对于NVAE(在彩色MNIST[1]上训练),我们使用StyleGAN3评估流程的修改版本。精确性和召回率的指标都基于[32]的实现。表2中的指标04.通过极性控制精确性、召回率和FID0为了能够与现有的潜在重新加权方法进行比较,我们计算了50K个训练样本的指标。对于所有其他结果,指标是使用min { N D , 100 K }个训练样本计算的,其中ND是数据集中样本的数量。04.1.极性有效地参数化了精确性-召回率帕累托前沿0正如我们上面讨论的,极性采样可以明确地从任何学习到的DGN分布的模式或反模式中进行采样。由于DGN被训练来适应训练分布,从模式和反模式中采样对应于从数据流形的更好/更差的近似区域进行采样。因此,极性采样是生成的精确性和召回率之间权衡的有效参数化方法[32],因为具有更高精确性的区域是流形近似更准确的区域。作为实验证明,我们在图3中提供了在扫描极性时的精确性-召回率权衡,并与预训练StyleGAN{2,3}架构的截断[29]进行了比较。我们可以看到,极性采样为控制DGN在数据集和模型之间的精确性-召回率权衡提供了一种有竞争力的替代方法。对于任何给定的精确性,参数ρ使我们能够达到比通过潜在空间截断[29]更高的召回率。相反,对于任何给定的召回率,可以通过极性采样达到更高的精确性,而使用潜在空间截断则无法实现。我们可以看到,与极性采样相比,潜在截断导致多样性迅速崩溃,这是一个主要的限制。除此之外,同时控制截断和极性使我们能够进一步扩展所有实验的帕累托前沿。0精确度精确度精确度0召回率0召回率0图3.对于任何给定的截断级别,只需改变极性参数,就可以获得精确度-召回率指标的帕累托前沿。我们在这里描述了六个不同的模型和数据集。其他模型和数据集的结果见图1和图8。0除了这里呈现的结果,我们还发现极性可以有效地控制BigGAN-deep [8]和ProGAN[27]的精确度-召回率权衡。与BigGAN和StyleGAN不同,ProGAN不兼容基于截断的方法,即潜在空间截断对精确度-召回率几乎没有影响。因此,极性相对于那些现有解决方案具有很大的优势:无论DGN设计中预设的训练或可控性因素如何,都可以应用极性采样。我们在附录C中提供了额外的结果。04.2. 极性改善任何DGN的FID0我们在第4.1节中看到,极性可以以有意义且可控的方式控制质量与多样性之间的关系。在本节中,我们将极性的影响与FID联系起来。回想一下,FID度量将质量和多样性[45]非线性地结合成分布距离度量。由于极性允许我们控制DGN的输出分布,极性的间接结果是通过将DGN的初始嵌入分布与训练集分布相匹配来减小FID。回想一下,ρ =0恢复了基线DGN采样;对于所讨论的所有最先进的方法,通过使用非零的极性,我们可以达到更低(更好)的FID。在表1中,我们将极性采样与文献中提出的通过学习新的DGN潜在空间分布来改善FID的最先进解决方案进行了比较,如第2节所讨论的。我们看到,对于在LSUN教堂[54]数据集上预训练的StyleGAN2,通过增加VGG嵌入分布的多样性(ρ =0.2),极性采样超过了文献中报告的方法的FID,这些方法后期改善了生成的质量。→)ρ = −2ρ = −1ρ = −0.5ρ = −0.2(baseline)ρ = 0ρ = 0.2ρ = 0.5ρ = 1LSUN CarsLSUN Churchbution of the DGN, an indirect result of polarity is the re-duction of FID by matching the inception embedding distri-bution of the DGN with that of the training set distribution.Recall that ρ = 0 recovers the baseline DGN sampling; forall the state-of-the-art methods in question, we reach lower(better) FID by using a nonzero polarity. In Tab. 1, we com-pare Polarity Sampling with state-of-the-art solutions thatpropose to improve FID by learning novel DGN latent spacedistributions, as were discussed in Sec. 2. We see that fora StyleGAN2 pre-trained on the LSUN church [54] dataset,by increasing the diversity (ρ = 0.2) of the VGG embed-ding distribution, Polarity Sampling surpasses the FID ofmethods reported in literature that post-hoc improves qual-ity of generation.̸106460(模式0( → 反模式)ρ = 20LSUN猫0图4. 极性采样在风格空间中的汽车和猫的精选样本,以及在像素空间中的教堂。(与截断扫描的定性比较见附录中的图10和最近的训练样本见图12。)这些图像都不对应于训练样本,我们在第5.1节中讨论。0在表2中,我们提供了LSUN {教堂,汽车,猫}[54],ImageNet [13],FFHQ [29]和AFHQv2 [11,28]通过改变最先进的DGN的极性ρ而获得的改进的FID。这意味着极性采样为调整DGN潜在空间提供了一种有效的解决方案。0我们观察到,在任何特定的设置下,ρ ≠0总是可以提高模型的FID。我们看到,在特定情况下,正负ρ都可以改善FID。对于0LSUN 教堂 256 × 2560StyleGAN2 变体 FID ↓ 精确度 ↑ 召回率 ↑0标准 6.29 .60 .51 SIR † [ 43 ] 7.36 .61 .58 DOT †[ 49 ] 6.85 .67 .48 latentRS † [ 26 ] 6.31 .63 .58latentRS+GA † [ 26 ] 6.27 .73 .43 ρ -采样 0.26.02 .57 .530表1.将极性采样与文献中的潜在重加权技术进行比较。使用50000个样本计算FID、精确度和召回率。†由于代码不可用,†仅使用1024个样本计算精确度-召回率。0在FFHQ上训练的StyleGAN2-F,增加内省空间嵌入分布的多样性有助于达到新的FID最佳效果。通过在Vgg空间中通过极性采样提高StyleGAN3-T的精度,我们能够超越基线StyleGAN2-F的FID。我们观察到,控制StyleGAN2-F的InceptionV3嵌入分布的极性在FID方面带来了最显著的增益。这是因为....106470模型FID↓ 精度↑ 召回↑ 模型FID↓ 精度↑ 召回↑0DDPM†[23] 7.86 - - ADM(dropout)† 5.57 0.63 0.52 StyleGAN2 3.97 0.59 0.39 StyleGAN2 6.49 0.62 0.32+ρ-sampling Vgg 0.001 3.94 0.59 0.39 +ρ-sampling Pix 0.01 6.44 0.62 0.32 +ρ-sampling Pix -0.001 3.92 0.61 0.39+ρ-sampling Sty -0.1 6.39 0.64 0.320LSUN Car 512×384 FFHQ 1024×10240StyleGAN† 3.27 0.70 0.44 StyleGAN2-E 3.31 0.71 0.45 StyleGAN2 2.34 0.67 0.51 Projected GAN†[46] 3.08 0.65 0.46+ρ-sampling Vgg -0.001 2.33 0.68 0.51 StyleGAN3-T 2.88 0.65 0.53 +ρ-sampling Sty 0.01 2.27 0.68 0.51+ρ-sampling Vgg -0.01 2.71 0.66 0.54 +ρ-sampling Pix 0.01 2.31 0.68 0.500DCTransformer†[37] 36.51 0.36 0.67 +ρ-sampling Ic3 0.01 2.57 0.67 0.5 VQ-VAE-2†[42] 31.11 0.36 0.57+ρ-sampling Pix 0.01 2.66 0.67 0.5 SR3†[44] 11.30 - -0IDDPM†[38] 12.26 0.70 0.62 AFHQv2 512×5120ADM†[14] 10.94 0.69 0.63 StyleGAN2† 4.62 - - ICGAN+DA†[9] 7.50 - - StyleGAN3-R† 4.40 - - BigGAN-deep 6.860.85 0.29 StyleGAN3-T 4.05 0.70 0.55 +ρ-sampling Pix 0.0065 6.82 0.86 0.29 +ρ-sampling Vgg -0.001 3.95 0.710.55 ADM+classifier guidance 4.59 0.82 0.520表2.†报告的指标。我们观察到,远离ρ =0,极性采样改善了各种模型和数据集的FID,从经验上验证了DGN雅可比矩阵的前几个奇异值包含了改善生成质量的有意义信息。0在执行Inception空间的极性采样时,真实分布与生成分布之间的Frechet距离会直接受到影响。我们在图4中提供了在LSUN汽车和LSUN猫的样式空间ρ变化以及在LSUN教堂的像素空间ρ变化时生成的样本。很明显,ρ <0,即接近DGN分布模式的采样产生了高质量的样本,而ρ>0,即接近低概率区域的采样产生了高多样性的样本,其中一些样本由于该区域DGN的近似质量而偏离了数据流形。使用极性采样,我们能够在三个不同的设置上提升最先进的性能:对于FFHQ数据集的StyleGAN2到FID2.57,对于LSUN汽车数据集的StyleGAN2到FID2.27,以及对于AFHQv2数据集的StyleGAN3到FID3.95。有关在受控训练和参考数据集分布转移下进行的ProGAN和NVAE的其他实验,请参见附录C。05.DGN分布的新见解在第4节中,我们证明了极性采样是一种操纵DGN输出分布以控制其质量和多样性的实用方法。现在我们展示了极性采样在更基础的理论应用方面的作用。特别是,我们深入探讨了几个关于DGN的及时问题,可以使用我们的框架来探索。0框架。05.1. GAN/VAE模式是训练样本吗?模式崩溃[5, 34,47]使得GAN的训练变得复杂多年。它包括整个DGN崩溃以生成少量不同的样本或模式。对于VAE,可以期望模式与经验数据集分布的模式相关,因为重建是目标的一部分。但是对于GANs来说可能不是这种情况,例如,模式可以对应于鉴别真假样本的鉴别器最差的空间部分。文献中没有报道允许我们观察经过训练的GAN模式的方法。现有的可视化技术侧重于找到每个DGN单元的作用[6]或找到GAN无法生成的图像[7]。使用极性采样,我们可以首次可视化DGN的模式。在图5中,我们展示了BigGAN-deep在ImageNet上训练、StyleGAN3在AFHQv2上训练以及NVAE在彩色MNIST上训练的模式样本。我们观察到BigGAN模式倾向于复制类别的独特特征,去除背景并更加关注类别所分配的对象。另一方面,AFHQv2模式更关注年轻动物的面部和更平滑的纹理。NVAE模式采样主要产生数字“1”,对应于数据集模式(具有最少类内差异的数字)。BigGAN SamoyedBigGAN TenchBigGAN FlamingoStyleGAN3 AFHQv2BigGAN Egyptian catNVAE colored-MNIST100015002000250030003500400045006008001000120014001600180020002200Polarity -5Polarity 1200400600800100012001400perceptual path length-1.0-0.5-0.20.00.20.51.0100200300400500600perceptual path length-0.2-0.5-1.00.00.20.51.0106480图5.通过ρ�0的极性采样获得的BigGAN-deep、StyleGAN3-T和NVAE的模式。据我们所知,这是首次在像素空间中可视化DGN的模式。0图6. 在32×32分辨率下,来自LSUN ChurchStyleGAN2(左)和colored-MNISTNVAE(右)的1000个生成样本与其3个训练集最近邻的l2距离分布。对于NVAE,距离模式更近(ρ<0)的样本在分布上向训练样本更靠近,而对于StyleGAN2,分布的偏移较小且有显著重叠。这种行为是预期的,因为VAE模型鼓励将其模式定位在训练样本上,而GAN的模式取决于鉴别器。0变化)。我们还在图6中提供了生成样本与其3个最近邻训练样本之间的l2距离的分布,分别对应模态(ρ=−5)和反模态(ρ=1)的极性。我们可以看到,即使在减小极性之后,StyleGAN2的最近邻分布仍然有重叠,而NVAE的模式则明显靠近训练样本。在附录中的图15中,我们观察到WGAN和在MNIST上训练的NVAE也有类似的效果。05.2. 模式周围的感知路径长度0感知路径长度(PPL)是两个潜在空间点的Vgg空间图像之间的距离。它先前被提出作为感知距离的一种度量[30]。在图7中,我们报告了在FFHQ上训练的StyleGAN2-F的PPL,插值步长为10-4。0在潜在/样式空间的端点之间进行插值。我们使用极性采样来采样点,变化的ρ∈[1,−1],es-0图7.在输入潜在空间(左)和样式空间(右)中,针对不同的极性采样(在VGG空间中)设置(图例中给出的ρ)的FFHQ上训练的StyleGAN2-F的PPL分布。分布的均值(PPL得分)作为标记提供在水平轴上。0本质上,我们通过增加ρ的值来测量数据流形的区域的PPL,随着ρ的增加,密度也增加。我们可以看到,在极性为负值时,与正极性甚至基线采样(ρ=0)相比,我们的PPL显著降低。这个结果表明,在StyleGAN2中,接近模式的感知过渡更加平滑。虽然截断也会减小PPL,但它主要是通过采样更接近样式空间均值的点来实现的[29],请参见附录C.5进行比较。在Vgg空间中的极性采样可以直接从Vgg模式中采样,使其成为第一个可以明确采样感知上更平滑区域的方法。因此,它可以用于开发复杂的插值方法,其中插值沿着特征空间流形上的高似然路径进行。06. 结论0我们提出了一种新的DGN先验参数化方法,即通过一个单一参数——极性ρ——来约束DGN样本集中在分布的模式或反模式上(第3节)。作为副产品,对于一系列DGNs,我们改进了最先进的FID性能。在理论方面,极性采样保证了它从DGN的模式中采样,使我们能够探索一些及时的开放问题,包括分布模式与训练样本之间的关系(第5.1节),以及从模式到反模式生成对感知路径长度的影响(第5.2节)。我们展示了极性采样也可以在附加有生成器的分类器的特征空间分布上进行,这可能用于公平属性生成、超出分布的合成数据生成等等。0致谢Humayun和Baraniuk受到NSF资助,资助号为CCF-1911094、IIS-1838177和IIS-1730574;ONR资助号为N00014-18-12571、N00014-20-1-2534和MURIN00014-20-1-2787;AFOSR资助号为FA9550-22-1-0060;以及Vannevar Bush教职奖学金,ONR资助号为N00014-18-1-2047。106490参考文献0[1] Martin Arjovsky, L´eon Bottou, Ishaan Gulrajani, andDavid Lopez-Paz. 不变风险最小化.arXiv预印本arXiv:1907.02893 , 2019. 50[2] Samane
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功