对抗性潜在自动编码器：解决自动编码器和生成对抗网络结合、非纠缠表征问题的通用架构

96 浏览量更新于2023-10-25 收藏 3.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14104对抗性潜在自动编码器斯坦尼斯拉夫·皮德霍尔斯基西弗吉尼亚大学计算机科学与电气工程系，Morgantown，WV 26506{stpidhorskyi，daadjeroh，gidoretto}@ mix.wvu.edu摘要自动编码器网络是一种无监督的方法，旨在通过同时学习编码器-生成器映射来结合生成和表示虽然被广泛研究，但它们是否具有与GAN相同的生成能力，或者学习非纠缠表示的问题尚未得到充分解决。我们引入了一个自动编码器来共同解决这些问题，我们称之为对抗性潜在自动编码器（ALAE）。它是一个通用架构，可以利用GAN培训程序的最新改进。我们设计了两个自动编码器：一个基于MLP编码器，另一个基于StyleGAN生成器，我们称之为StyleALAE。我们验证了这两种架构的解纠缠特性。我们表明，StyleALAE不仅可以生成1024×1024的人脸图像，质量与StyleGAN相当，但在相同的分辨率下也可以生成基于真实图像的人脸重建和处理。这使得ALAE的第一个自动编码器能够与兼容，并超越了一个发电机的能力，只有类型的架构。1. 介绍生成对抗网络（GAN）[13]已经成为计算机视觉及其他领域的主要无监督方法之一。它们的优势与它们表示复杂概率分布的卓越能力有关，例如面部流形[33]或卧室图像流形[53]，它们通过从已知分布学习生成器映射到数据空间来实现。同样重要的是旨在从数据到潜在空间学习编码器它们允许学习手头任务的数据的合适表示，无论是在监督[29，46，40，14，52]中，还是在非超[37，58，19，25，4，3]方式。自动编码器（AE）[28，41]网络是无监督的方法，旨在通过同时学习编码器-生成器映射来结合一般问题investigation in AE structures are whether they can: (a) havethe same generative power as GANs; and, (b) learn disen-tangled representations [1].几部作品都提到了(a)[35、31、6、9、20]。成功的一个重要测试平台是AE生成与GAN生成的图像一样丰富和清晰的面部图像的能力[23]。已经取得了进展，但尚未宣布胜利。大量的工作也涉及（b）[19，25，10]，但不与（a）联合。我们引入了一种通用的AE架构，它具有与GAN相当的生成能力，同时学习了一种纠缠较少的表示。我们观察到，每个AE方法都做出相同的假设：潜在空间应该具有先验固定的概率分布，并且自动编码器应该与之。另一方面，在[24]中已经表明，使用GAN的合成图像生成的最新技术水平，距离强加的输入空间足够远的中间潜在空间往往具有改进的解纠缠特性。上述观察启发了所提出的方法。我们设计了一个AE架构，其中我们允许从数据中学习潜在分布以解决纠缠（A）。输出数据分布是用对抗策略（B）学习因此，我们保留了GANs的生成特性，以及在该领域最新进展的基础上构建的能力。例如，我们可以无缝地包括独立的随机性源，这对于生成图像细节至关重要，或者可以利用GAN损失函数，正则化和超参数调整的最新改进[2，30，38，34，36，3]。最后，为了实现（A）和（B），我们在潜在空间（C）中施加AE重复性。因此，我们可以避免使用基于在数据空间中操作的简单的N02我们认为（A），（B）和（C）的独特组合是该方法的主要技术新颖性和优势。由于它在潜在空间上工作，而不是对数据空间进行自动编码，因此我们将其命名为对抗性潜在自动编码器（ALAE）。我们设计了两个 ALAE ，一个用多层感知器（MLP）作为编码器，并带有对称发生器，14105另一个生成器来自 StyleGAN [24] ，我们称之为StyleALAE。对于这一个，我们设计了一个companion编码器和一个逐步增长的架构。我们定性和定量地验证了这两种架构学习的潜在空间比强加的空间更不纠缠。此外，我们展示了关于面部和卧室图像生成的定性和定量结果，这些结果在最高分辨率下与StyleGAN相当1024×1024。由于StyleALAE也学习编码器网络，因此我们能够以最高分辨率显示面部重建以及基于真实图像而不是生成的几个图像2. 相关工作我们的方法直接建立在普通GAN架构上[12]。从那时起，在合成图像生成领域取得了很大进展。EST-GAN [5]和StackGAN [55，56]训练了一堆以多分辨率金字塔组织的GAN，以生成高分辨率图像。HDGAN[57]通过在网络层次结构中分层嵌套对抗目标来改进。在[51]中，他们使用多尺度生成器和递归架构来合成高分辨率图像，GAN以语义标签映射为条件，而在BigGAN [3]中，他们通过应用更好的正则化技术来改进合成。在PGGAN [23]中，它展示了如何通过逐步增长GAN的生成器和递归来合成高分辨率图像。StyleGAN [24]中使用了相同的原理，StyleGAN是当前最先进的人脸图像生成技术，我们在这里将其应用于我们的StyleALAE架构。最近关于GAN的其他工作集中在提高训练的稳定性和鲁棒性[44]。引入了新的损失函数[2]，以及梯度正则化方法[39，36]，权重归一化技术[38]和学习率均衡[23]。正如我们在后面的章节中所解释的那样，我们的变分AE架构[28，41]不仅因其理论基础而受到赞赏，而且还因其在训练期间的稳定性以及提供有见地的表示的能力而受到赞赏。事实上，它们刺激了解纠缠领域的研究[1]，允许在[19]中的变化因素之间控制解纠缠程度的学习表示，以及[25]中的后续改进，导致更精细的解纠缠量化指标[10，4，24]，我们也使用它来分析我们方法的属性。VAE也被扩展为学习与正常分布不同的潜在先验，从而实现更好的模型[48]。在结合GAN和VAE的好处方面已经取得了很多进展。 AAE [35] 一直是这些方法的先驱，其次是VAE/GAN [31]更直接的方法。BiGAN [6]和ALI [9]提供了一个优雅的完全对抗的框架，而VEE- GAN [47]和AGE [49]率先使用潜在空间进行自动编码，并主张降低架构复杂性。PIONEER [15]和IntroVAE [20]遵循这一路线，后者在这一类别中提供了最好第4.1节描述了所提出的方法与此处列出的方法的比较。最后，我们很快提到了其他方法，这些方法在表示图像数据分布方面显示出了有希望的结果。这些方法包括自回归[50]和基于流量的方法[27]。前者放弃了潜在表征的使用，但后者没有。3. 预赛生成对抗网络（GAN）[13]由从空间Z映射到数据空间X的生成器网络G和从X映射到R的生成器网络D组成。Z空间的特征在于已知的分布p（z）。通过从p（z）采样，生成生成器G产生表示合成分布q（x）的数据。给定从真实分布pD（x）中提取的训练数据D，GAN网络的目标是学习G，使得q（x）尽可能接近pD（x）这是通过设置跟民主党玩两人零和游戏D的作用是以最准确的方式区分来自真实分布和合成分布的数据，而G试图通过生成看起来越来越像真实的合成数据来欺骗D遵循[39]中介绍的更一般的公式，GAN学习问题需要找到关于对（ G， D）的 min-imax （即，纳什均衡），价值函数定义为V（G，D）=EpD（x）[f（D（x））]+Ep（z）[f（−D（G（z）]，（1）其中E[·]表示期望，并且f：R→R是凹函数。By settingf (t) =− log(1 + exp(−t)) we obtain the originalGAN formulation [13]; instead, iff（t）=t，我们得到Wasserstein GAN [2]。4. 对抗性潜在自动编码器我们引入了一种新的自动编码器架构，通过修改原来的GAN范式。我们首先将生成器G和生成器D分别分解为两个网络：F，G和E，D这意味着G= G<$F，并且D=DE，（2）见图1此外，我们假设F和G之间以及E和D之间的界面处的潜在空间是相同的，并且我们将它们指示为W。在最一般的情况下，我们假设F是一个确定性映射，而我们14106培训∆真假目标：假真假目标：真实推理图1：ALAE架构。一个对抗性的潜在自动编码器的体系结构。允许E和G是随机的。特别地，我们假设G可以可选地依赖于具有已知固定分布pη（η）的独立噪声输入η。我们用G（w，η）表示这个更一般的随机生成元。在上述条件下，我们现在考虑每个网络输出端的分布。网络F简单地将p（z）映射到qF（w）上。在G的输出处，分布可以写为：表1：使用的自动编码器标准：（a）用于将真实数据分布与合成数据分布匹配;（b）用于设置/学习潜在分布;（c）实现空间互易性。分别对应于qF（w）和qE（w）。我们将根据（6）（ 7 ）优化的网络称为逆向潜在自动编码器（ALAE）。ALAE体系结构的构建块如图1所示。4.1. 与其他自动编码器的关系q（x）=∫ ∫q G（x|w，η）q F（w）p η（η）dη d w，（3）W η数据分发。在由编码器网络和生成器网络组成的体系结构中，编码器编码器将输入数据映射到由其中q G（x|w，η）是表示G的条件分布。同样，对于E的输出，分布是-潜在分布，而生成器的任务是将潜在代码映射到由数据分布描述的空间上。来qE（w）=∫qE(w|x)q(x)dx ,(4)X使用不同的策略来学习数据分布。例如，一些方法对生成器的输出施加相似性标准[28，41，35，48]，或者甚至学习其中q E（w|x）是条件分布，表示E. 在（4）中，如果我们用pD（x）代替q（x），我们得到了dis-EqE，D（w），它描述了当真实数据分布是其输入时E由于优化（1）导致合成分布与真实分布匹配，即，q（x）=pD（x），从（4）中可以明显看出，这样做也导致qE（w）=qE，D（w）。除此之外，我们还建议确保E的输出分布与G的输入分布相同。这意味着我们设立了一个额外的目标，要求q F（w）= q E（w）。（五）通过这种方式，我们可以将网络对（G，E）解释为自动编码潜在空间W的生成器-编码器网络。如果我们用（pq）表示一个差异的度量，在两个分布p和q之间，我们建议实现目标（5）通过交替以下两个优化来正则化GAN损失（1minF，G maxE，DV（G F，DE）（6）minE， G（FEGF）（7）其中，f的左和右参数表示由网络映射p（z）生成的分布，相似性度量[31]。相反，其他技术建立了一个对抗游戏，以确保生成器输出与训练数据分布相匹配[6，9，47，49，20]。后一种方法就是我们用于ALAE的方法。潜在分布。相反，对于潜在空间，通常的做法是设置期望的目标潜在分布，然后训练编码器以通过最小化相似性的发散类型来匹配它[28，41，31，47，48]，或通过设置对抗游戏[35，6，9，49，20]。这就是ALAE采取根本不同的方法的地方。事实上，我们不强加潜在的分布，即，qE（w），以匹配目标分布。我们设定的唯一条件由（5）给出。换句话说，我们不希望F是恒等映射，并且非常感兴趣的是让学习过程决定F应该是什么。互惠。自动编码器的另一个方面是它们是否以及如何实现互惠。该属性涉及架构从其代码w重构数据样本x的能力，反之亦然。显然，这需要x=G（E（x）），或者等价地w=E（G（w））。在第一种情况下，网络必须包含在数据空间中操作的重建项。在后一种情况下，术语在潜在空间中运作。虽然大多数方法遵循第一种策略[28，41，35，31，20，48]，但也有一些方法实现了第二种策略[47，49]，包括ALAE。事实上，这可以通过选择（7）中的散度来Autoencoder(a)数据分布(b)潜分布(c)互惠空间VAE [28，41]相似性强加/分歧数据AAE [35]相似性强制性/对抗性数据[31]第三十一话相似性强加/分歧数据[48]第四十八话相似性学习/发散数据BiGAN [6]对抗性强制性/对抗性对抗性[9]第九章对抗性强制性/对抗性对抗性维根[47]对抗性强加/分歧潜年龄[49]对抗性强制性/对抗性潜IntroVAE[20]对抗性强制性/对抗性数据14107实现，14108Conv 3×3在Conv 3× 3AdainConv 3×3在Conv 3× 3AdainConv 3×3下采样我我2Adv2Σ上采样编码器网络E发电机网络G噪声Ule提取表示我我风格CC型4×4风格CConv 3×3下采样风格8×8常数4× 4× 512类型B类型BAdain4×4Conv 3× 3类型B类型BAdain8×8风格在这个层次上。IN模块还提供输入的规范化版本作为输出，该版本继续沿着管道向下，不再有来自该级别的样式信息给定E和G之间的信息流，该架构有效地模仿了从E到G的多尺度风格转换，区别在于没有额外的输入图像提供内容[21，22]。作为G中自适应实例规范化（AdaIN）层[21]的输入的样式集与潜在变量w线性相关。因此，我们建议将编码器输出的样式组合起来，并通过以下多线性映射图2：StyleALAE架构。StyleALAE编码器具有实例规范化（IN）层以提取多尺度样式信息，该多尺度样式信息经由可学习的多线性映射组合成潜在代码wΣNw=i=1Σµ(yE)ΣCiσ（yE）（九）预期的编码重构误差，如下ΣΣ（F<$E<$G<$F）=Ep（z）<$F（z）−E<$G<$F（z）<$2（八）其中Ci层的BER与[23，24]类似，我们使用渐进式增长。我们从低分辨率图像（4×4像素）开始，通过平滑地混合新图像，在潜在空间中强加互惠性，优点在于，简单的范数2、范数1或其它范数可以被有效地使用，而不管它们是否不适合于数据空间。例如，众所周知，关于图像像素差异的逐元素E2另一方面，当用于潜在空间时，其含义是不同的。例如，一个像素的图像平移可能导致图像空间中的大的102离散，而在潜空间中，其表示几乎不会改变。最后，在图像空间中使用WP2被认为是自动编码器在重建/生成清晰图像方面不如GAN成功的原因之一[31]。解决同一问题的另一种方法是通过对抗性地实施互惠，如[6，9]所示。表1报告了大多数最近的发生器编码器架构的主要特征的摘要。5. 风格ALAE我们使用ALAE来构建一个自动编码器，该编码器使用样式-基于GAN的生成器。为此，我们使我们的潜在空间W到E和G区对于F和D网络，我们使用MLP实现它们在我们所有的实验中，Z和W空间以及F和D的所有此外，对于StyleALAE，我们遵循[24]，并选择F有8层，我们设置D有3层。6. 执行对抗性损失和正规化。我们使用非饱和损耗[13，36]，在（1）中，我们通过将f（·）设置为SoftPlus函数[11]来引入。这是整流器激活函数的平滑值，定义为f（t）=softplus（t）= log（1 + exp（t））。此外，我们使用梯度正则化技术[8，36，43]。我们利用R1[44，算法1ALAE训练1：θF，θG，θE，θD←初始化网络参数2：而不收敛3：步骤I.更新E和D4：x←来自数据集的随机小批量5：z←来自先前N（0，I）的6：LE，D←softplus（D<$E<$G<$F（z））+softplus（−D<$E（x））+Advγ2与[24]中的中间潜在空间起相同的作用2EpD（x）ǁ∇D◦E(x)ǁ因此，我们的G网络成为StyleGAN7：θE，θD←ADAM（θD，θELE，D，θD，θE，α，β1，β2）如图2右侧所示。左边是我们设计的编码器E.8：步骤II.更新F和G9：z←来自先前N（0，I）的样本10：LF，G←softplus（−D<$E <$G<$F（z））由于在每一层，G都由样式输入驱动，我们AdvF、G对称地设计E，使得我们从对应的层提取样式信息。我们通过插入实例来实现11：θF，θG←ADAM（θF，θGLadv，θF，θG，α，β1，β2）12：步骤III.更新E和G13：z←来自先前N（0，I）的样本规范化（IN）层[21]，提供实例av-E、G误差 ←<$F（z）−E<$G<$F（z）<$2每个通道的平均值和标准差。具体15：θE，θG ←大坝（大坝θE，θGE、G误差，θE在在一一一C一14：LLωΣ14109我，θG，α，β1，β2）如果yE是E的第i层的输出，则IN mod.16：结束while141102输入比干·阿莱图3：MNIST重建。重建置换不变MNIST顶行：真实图像。中-第二行：BiGAN重建。底行：ALAE重建。在这两种方法中使用相同的MLP架构。Table 2: MNIST classification. 使用1 NN和线性SVM的置换不变MNIST [ 32 ]的分类准确度（%），具有相同的写入器（SW）和不同的写入器（DW）设置，以及短特征（sf）与长特征（LF），表示为SF/LF。36]，一个零中心的梯度惩罚，它的作用仅仅是将其称为长特征。我们还使用，作为功能，在真实数据上，定义为γEp（x）D从潜在空间W中获取的50个D向量。我们称其中梯度是相对于参数取的网络E和D的θE和θD。训练为了优化（6）（7），我们使用交替更新。一次迭代由三个更新步骤组成：两个用于（6），一个用于（7）。步骤I更新判别器（即，网络E和D）。步骤II更新生成器（即，网络F和G）。步骤III更新潜在空间自动编码器（即，网络G和E）。在算法1中总结了过程细节。为了更新权重，我们使用Adam优化器[26]，其中β1= 0。0且β2= 0。99，再加上下面描述的学习速率均衡技术[23]。对于非生长型架构（即，MLP）我们使用0的学习率。002，批量为128。对于不断增长的体系结构（即，StyleALAE）学习率和批量大小取决于分辨率。7. 实验代码和未压缩的图像可在https://github.com/podgorskiy/ALAE网站。7.1. 使用MLP的表示学习我们使用MNIST [32]训练ALAE，然后使用特征表示进行分类，重建和分析解纠缠。我们使用置换不变设置，其中每个28×28MNIST图像被视为没有空间结构的784D矢量，需要使用MLP而不是CNN。我们遵循[7]并使用潜在空间大小为50D的三层MLP两个网络E和G都有两个隐藏层，每个层有1024个单元。在[7]中，使用的特征是最后一个编码器之前的层的激活，这是1024个D向量。我们Z空间W空间图4：MNIST遍历。在Z空间和W空间中相同数字之间的插值的重建。后一种过渡似乎更平稳。这些都是短小的特征。MNIST有一个正式的划分为训练和测试集的大小分别为60000和10000。我们将其称为不同作者（DW）设置，因为训练集数字的人类作者与编写测试数字的人不同。我们还考虑了相同的writers（SW）设置，其通过将其进一步分为两部分来仅使用官方训练分割：大小为50000的列车分裂和大小为10000的测试分裂，而忽略官方测试分裂。在SW中，训练和测试分割中的写入器池重叠，而在DW中则不重叠。这使得SW比DW更容易设置。结果我们报告了1NN分类器的准确性，如[7]所示，并通过报告线性SVM的准确性来扩展这些结果，因为它允许更直接地分析解缠。事实上，我们记得，一个非纠缠表示[45，42，1]是指一个空间，由线性子空间，其中每个是负责一个因素的变化。因此，基于解纠缠特征空间的线性分类器应该比在纠缠空间上工作的线性分类器具有更好的性能。表2总结了ALAE、BiGAN以及[7]中提出的以下基线的五次试验的平均准确度：潜在回归量（ LR ）、联合潜在回归量（ JLR ）、经过训练以最大限度地减少 ΔE2 （ AE（ΔE2））或ΔE1（AE（ΔE1））重建误差的自动编码器。表2中最显著的结果是通过比较1NN与相应的线性SVM列得出的。由于1NN不假设解纠缠是有效的，但线性SVM，更大的性能下降信号更强的纠缠。ALAE是从1NN切换到线性SVM时保持更稳定的方法，这表明空间的解纠缠更大。这对于短特征尤其如此，而对于长特征，由于线性可分性的增长，这种影响逐渐消失。我们还注意到，ALAE并不总是提供最佳的准确性，基线AE（特别是AE（102））在1NN中表现良好，在短特征中表现更好。这可能1NN SW线性SVM软件1NN DW线性SVM数据仓库不良事件（2011年）97.15/97.4388.71/97.2796.84/96.8089.78/97.72不良事件（2012年）97.52/97.3788.78/97.2397.05/96.7789.78/97.72LR92.79/97.2889.74/97.5691.90/96.6990.03/97.80JLR92.54/97.0289.23/97.1991.97/96.4590.82/97.62D14111方法路径长度充分端StyleGANZ412.0415.3StyleGAN无混合W200.5160.6风格GANW231.5182.1款式ALAEZ300.5292.0产品介绍134.5103.4表3：FID评分。在FFHQ [24]和LSUN卧室[54]上测量FID评分（越低越好）。可以通过基线AE学习更接近判别性的表示来解释。相反，其他方法更多地关注于学习用于绘制合成随机样本的表示，这些表示可能更丰富，但区分性更低。对于较长的特征，此效果也会逐渐消失。另一个观察是关于SW与DW. 1 NN gener- alizes有效DW，如预期的那样，但线性SVM提供了一个小的改进。这还不清楚，但我们推测DW在测试集中可能有更少的作者，并且潜在地具有更小的挑战性。图3显示了定性重建结果。可以看出，BiGAN重建比ALAE更频繁地经受最后，图4显示了两个遍历：一个是通过在另一种方法是在W空间内插值。第二个显示了更平滑的图像空间过渡，sug-获得较小程度的纠缠。7.2. 学习风格表征总部。我们使用FFHQ [24]数据集评估StyleALAE。它是最近的，由70000张人脸图像组成，分辨率为1024×1024。与[24]相比，我们将FFHQ分为一个训练集，60000张图片和10000张图片的测试集。我们这样做是为了测量重建质量，我们需要在训练期间未使用的图像。我们使用PyTorch实现了我们的方法。大多数实验都是在配备4× GPU Titan X的机器上进行的，但为了训练分辨率为1024×1024的模型，我们使用了配备8×GPU Titan RTX的服务器。我们对StyleALAE进行了147 个 epoch 的训练，其中 18 个 epoch 的分辨率为1024×1024。从分辨率4×4我们将StyleALAE增长到1024×1024。当成长-为了达到新的分辨率水平，我们使用了500k训练样本在过渡期间，以及用于训练稳定的另外500k个样本。一旦达到1024×1024的最大分辨率，我们继续训练1M图像。因此，在图像中测量的总训练时间为10M。相比之下，StyleGAN [24]的总训练时间为25M图像，其中15M图像的分辨率为1024×1024。在相同的分辨率下，我们只使用100万张图像训练StyleALAE，因此少了15倍。表3报告了几代人的FID评分[18]，表4：PPL.在Z和W空间中测量的FFHQ上的感知路径长度（越低越好）。重建用于重建的源图像来自测试集，并且在训练期间未使用。StyleALAE的评分较高，我们认为StyleALAE和StyleGAN之间的训练时间差异较大（1M vs15 M）可能是造成差异的原因。表4报告了SyleALAE的感知路径长度（PPL）[24]。这是一个衡量表征解纠缠程度的指标。我们计算W和Z空间中表示的值，其中StyleALAE在两种情况下都使用样式混合进行训练。的在Z中测量的StyleGAN得分对应于传统网络，在W中测量的是基于风格的网络。我们看到PPL从Z下降到W，表明W在感知上比Z更线性，因此更少纠缠。此外，请注意，对于我们的模型，PPL较低，尽管FID分数较高图6显示了从StyleALAE获得的世代的随机集合。图5显示了一组重建。在图9中，我们重复了[24]中的风格混合实验，但使用真实图像作为风格组合的来源和目的地。我们注意到，原始图像是我们从互联网上下载的名人的面孔。因此，它们不是FFHQ的一部分，并且来自不同的发行版。事实上， FFHQ 是由从Flickr.com获得的描绘非名人的面部图像组成的。通常，脸部不化妆，图像也没有被改变（例如，Photoshop）。此外，FFHQ采集的成像条件尽管图像统计数据发生了这种变化，但我们观察到StyleALAE在重建和混合方面都有效太阳。我们评估了StyleALAE与LSUN Bed- room[54]。图7显示了在训练期间从未见过的图像表3报告了FID关于世代和重建的分数。FIDPPL已满PGGAN [23]8. 03229 2[27]第二十七话68岁93219 6[第16话]39岁17155.2平衡先锋[17]二十五25一百四十六2StyleALAE（我们的）19.21三十三岁。29表5：256×256CelebA-HQ图像的FID和PPL评分比较（越低越好）。FID基于50，000个生成的样本与训练样本进行比较。方法FFHQLSUN卧室StyleGAN [24]4.402.65PGGAN [23]-8.34IntroVAE [20]-8.84先锋[16]-18.39平衡先锋[17]-17.89StyleALAE生成13.0917.13StyleALAE重建16.5215.9214112图5：FFHQ重建。使用在FFHQ [24]上训练的StyleALAE以1024×1024重建不可见图像。图6：FFHQ代具有StyleALAE的世代在FFHQ [24]上以1024 × 1024进行训练。图8：CelebA-HQ重建。CelebA-HQ以256×256的分辨率重建未见过的样本。顶行：真实图像。第二排：风格ALAE。三行：平衡先锋 [17] 。最后一行： PIONEER [16] 。StyleALAE重建看起来更清晰，更少扭曲。图7：LSUN生成和重建。生成（第一行），并使用在LSUN Bedroom [54]上训练的StyleALAE以256×256的分辨率进行重建。CelebA-HQ CelebA-HQ [23]是CelebA [33]的改进子集，由30000张分辨率为1024×1024的图像组成。我们遵循 [16 ， 17 ， 27 ， 23] 并使用 CelebA-HQ 缩小到256×256，训练/测试分割为27000/3000。表5报告了FID和PPL评分，图8比较了StyleALE与其他两种方法对未见过人脸的重建8. 结论我们介绍了ALAE，这是一种新颖的自动编码器架构，简单，灵活和通用，正如我们所展示的那样，可以有效地与两个非常不同的骨干生成器-编码器网络。与以前的工作不同，它允许学习潜在空间的概率分布，当数据分布是在对抗环境中学习的我们的实验证实，这使得学习代表，可能是较少纠缠。这使我们能够将StyleGAN扩展到StyleALAE，这是第一个能够以单独使用SyleGAN无法实现的方式生成和操作图像的自动编码器，同时保持相同的视觉细节水平。致谢本材料是基于国家科学基金会资助的工作。OIA-1920920和OAC-1761792。14113目的地集合图9：选取两组真实图像以形成源集和目标集。其余的图像是通过将指定的样式子集从源集复制到目标集而生成的。这个实验重复了[24]中的实验，但使用的是真实的图像。将粗糙样式从“源”集中移除，会带来高级别的方面，例如姿势、常规发型和面部形状，而所有颜色（眼睛、头发、灯光）和更精细的面部特征都类似于“目标”相反，如果我们从源集中复制中间样式，我们将从源中继承较小规模的面部特征，如发型，眼睛打开/关闭，而姿势和目标中的一般面部形状将保留。最后，从Source集合中复制优秀的样式主要带来了配色方案和微观结构。Source set源集中源集合Fine来源14114引用[1] 亚历桑德罗·阿奇里和斯特凡诺·索亚托。深层表征中不变性和解纠缠的出现. 机器学习研究杂志，19（1）：1947-1980，2018。一、二、五[2] M. Arjovsky，S. Chintala和L.博图Wasserstein GAN在arXiv：1701.07875，2017。一、二[3] A. Brock，J. Donahue，and K.西蒙尼扬用于高保真自然图像合成的大规模GAN训练。2019年，在ICLR。一、二[4] R. T. Q. Chen，X.利河，巴西-地Grosse和R. 杜弗诺变分自动编码器中解纠缠的分离源。NeurIPS，2018。一、二[5] Emily L Denton，Soumith Chintala，Rob Fergus，et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统（NIPS）进展，第1486-1494页，2015年。2[6] J. 多纳休山口Kr aühenbuühl 和 T. 达雷尔。adversarialfeature-ture learning.ICLR，2016年。一、二、三、四[7] Je f fDonahue ， PhilippK raühenbühl ，和 Tr ev 或Darrell 。对抗性特征学习。 arXiv 预印本 arXiv ：1605.09782，2016。5[8] Harris Drucker和Yann Le Cun。利用双反向传播提高泛化性能。 IEEE Transactions on Neural Networks ， 3（6）：991-997，1992. 4[9] 迪穆兰岛贝尔加齐湾普尔岛Mastropietro、A. Lamb，M.Arjovsky和A.考维尔逆向学习推理。ICLR，2016年。一、二、三、四[10] 吉安·伊斯特伍德和克里斯托弗·威廉姆斯。一个定量评价非纠缠表象的框架。在ICLR，2018年。一、二[11] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流神经网络。第十四届人工智能和统计国际会议，第315-323页，2011年。4[12] 伊恩·古德费洛。Nips 2016教程：生成对抗网络。arXiv预印本arXiv：1701.00160，2016年。2[13] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.沃德-法利，S。奥扎尔A. Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展（NIPS），第2672-2680页，2014年。一、二、四[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。1[15] Ari Heljakka，Arno Solin，and Juho Kannala.先锋网络：不断增长的生成式自动编码器。在亚洲计算机视觉会议（ACCV）上，第2238. Springer，2018. 2[16] Ari Heljakka，Arno Solin，and Juho Kannala.先锋网络：不断增长的生成式自动编码器。亚洲计算机视觉会议，第22Springer，2018. 六、七[17] Ari Heljakka，Arno Solin，and Juho Kannala.走向照片图形图像处理与均衡增长的gener- ative自动编码器。arXiv预印本arXiv：1904.06145，2019。六、七[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年。6[19] I. 希金斯湖，澳-地 Matthey，A. 帕尔角 Burgess，X.格洛特M. Botvinick，S. Mohamed和A. Lerchner beta-vae：使用受约束的变分框架学习基本视觉概念在ICLR，2017。一、二[20] H. Huang ， Z. 利河，巴西 - 地他， Z 。 Sun 和T. Tan.Introduction：In-前瞻性的变化自动编码器的摄影图像合成。在NIPS，2018年。一、二、三、六[21] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。4[22] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页，2018年。4[23] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。一、二、四、五、六、七[24] T. Karras，S. Laine和T.艾拉一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。一、二、四、六、七、八[25] H. Kim和A.嗯通过因子分解来解开在ICML，2018。一、二[26] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[27] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。神经信息处理系统进展，第10215-10224页，2018年二六七[28] D. P. Kingma和W.威林自动编码变分贝叶斯。2014年，国际学习代表会议一、二、三[29] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。神经信息处理系统国际会议（NIPS），第1097-1105页，2012年。1[30] 卡罗尔·库拉奇，马里奥·卢西奇，翟晓华，马辛·米哈尔-斯基，西尔万·吉利。Gan的风景：损失、架构、正则化和规范化。在arXiv：1807.04720，2018。1[31] A. B. L. Larsen，S. K. Sønderby，H. Larochelle和O.温瑟使用学习到的相似度度量对像素之外的像素进行自动编码。国际机器学习会议（ICML），第1558-1566页，2016年。一、二、三、四[32] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998.514115[33] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在IEEE计算机视觉国际会议论文集，第3730-3738页，2015年。1、7[34] Mario Lucic、Karol Kurach、Marcin Michalski、SylvainGelly和Olivier Bousquet。

下载后可阅读完整内容，剩余1页未读，立即下载