在GAN潜在空间中查找非线性RBF路径

172 浏览量更新于2023-10-13 收藏 3.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1∇∇∈WarpedGANSpace：在GAN潜在空间中查找非线性RBF路径伦敦大学玛丽皇后学院Mile End road，E1 4NS英国伦敦{c.tzelepis，g.tzimiropoulos，i.patras} @ qmul.ac.uk摘要这项工作解决了以无监督的方式在预训练GAN的潜在空间中发现可解释路径的问题，从而提供了一种直观而简单的方法来控制潜在的生成因素。在这样做时，它解决了现有技术工作的一些限制线性路径，以及b）它们的评估依赖于视觉检查或费力的人工标记。更具体地说，我们建议学习潜在空间上的非线性扭曲，每个扭曲由一组基于RBF的潜在空间扭曲函数参数化，并且每个扭曲通过函数的梯度产生一系列非线性路径。在发现线性路径的[34]的工作的基础上，我们优化了RBF集合的可训练参数，使得由沿着不同路径的代码生成的图像可以通过鉴别器网络轻松区分。这导致容易区分的图像变换，例如面部图像中的姿势和面部我们表明，线性路径可以推导出作为我们的方法的一个特例，实验表明，非线性路径的潜在空间导致更陡峭，更解开和可解释的变化，在图像空间比在国家的最先进的方法，定性和定量。我们将代码和预训练模型公开在以下网站：https://github.com/chi0tzp/WarpedGANSpace.1. 介绍生成对抗网络（GANs）[10]已经成为领先的生成学习范式，在生成的逼真和美观的图像质量方面表现出明显的优势然而，尽管GAN具有生成效率，但它并没有提供理解或控制潜在生成因素的固有方式。为了解决这个问题，研究界已经将其努力转向研究-（一）（b）第（1）款图1：（a）由于两个RBF函数fi和fj引起的向量空间Rd的扭曲，对于任何给定的zRd（粗虚线），通过它们的梯度fi和fj导致Rd中的不同非线性路径。黑色实线表示翘曲的等值线，彩色矢量表示由其梯度引起的矢量场。（b）从潜在码z开始的由于翘曲fj引起的非线性路径的图示，以及沿着梯度Δfj以幅度Δfj的步长移动。分析GAN潜在空间的结构37、1、34、35、9、14、32、26、11]。这些工作研究GAN的潜在空间的结构，并试图找到它的可解释的方向;也就是说，方向上的采样，预计将生成图像，其中只有少数（理想情况下是有意义的人类可解释的方向可以指特定于领域的63936394∇∈因素（例如，面部表情[28]）或域不可知因素（例如，缩放比例[14，26，32]）。有几种方法采用监督学习框架，并在潜在空间中发现方向，这些方向与监督控制的因素很好地一致。在这条研究路线中，[31，9，18]监督是以分配给生成的图像的标签的形式，无论是通过明确的人类注释，还是通过使用预先训练的语义分类器。最近的工作，例如[32，14，26]，操纵潜在空间中的方向，以便与图像空间中的可控操纵（例如，缩放）。这些工作受到以下事实的限制，即假设这些因素是已知的，以及在生成监控信号时的实际问题。另一条研究路线在潜在空间中的方向GANSpace [11]在生成器的早期层对深度特征执行PCA，并在潜在空间中找到最佳映射到这些深度PCA向量的方向，从而在潜在空间中获得一组非正交方向。类似于其他方法，这是一个非常苛刻的训练过程，需要绘制大量的随机潜在代码并回归潜在方向。类似地，Voynov和Babenko [34]提出了一种无监督的方法来发现线性可解释的潜在空间方向。虽然非监督学习框架具有兴趣，但是当前的工作做出了所发现的方向在潜在空间中是各向同性的困难假设，从而导致线性路径。此外，尽管事实上这些工作导致更复杂的方向，与根本不使用任何优化的方法（例如，[14，32]），所获得的结果的评估或者留给主观视觉检查（例如，[11])或者依赖于费力的人类标记[34]。在这项工作中，我们提出在潜在空间上学习非线性翘曲函数，每个函数由以下参数化：一组基于RBF的潜在空间扭曲操作，并且其中每个扭曲函数fk经由其梯度产生一族非线性路径。更精确地，在每个潜在码zRd处，扭曲函数fk（z）的梯度给出沿着第k个路径族的方向。– 显然，fk的梯度在Rd中不是各向同性的，给出上升到非线性路径。一个例子如图所示。其中两个RBF扭曲函数fi和fi与两个不同的非线性路径一起被描绘。在[34]发现线性路径的工作的基础上，我们优化了RBF的可训练参数，以便由代码沿着不同家族的路径生成的图像，fk，很容易区分的鉴别器网络（图。2）-这导致容易区分的图像变换，例如面部图像中的姿势和面部表情（图2）。（见第1b段）。我们证明了学习线性路径的[34]可以作为我们方法的特例导出，并且我们在定性和定量方面与最先进的方法进行了广泛的比较。对于定量评估，我们建议利用训练的分类器，其将属性分配给生成的图像，并提出一个框架，该框架监视潜在空间中的路径之间的相关性，以及属性空间中的相应变化/路径，以便确定沿着某些扭曲函数的路径如何相关以确定属性。我们的实验表明，所提出的非线性路径在潜在的空间导致更多的disentangled，gled和更多的可解释的变化，在图像空间比在国家的最先进的方法。此外，我们表明，对于潜在空间中相同长度的路径，与线性方法相比，我们的方法能够在属性空间中产生更大的变化，即，所生成的属性路径更加陡峭，并且我们能够在所生成的图像的质量恶化之前生成更大的属性变化。本文的主要贡献可以概括如下：• 我们提出了一种无监督和模型无关的方法，通过使用基于RBF的扭曲函数来发现预训练GAN的潜在空间我们推导出的情况下，线性路径作为一个特殊的情况下，并学习一组这样的扭曲函数，使相应的图像transforma- tions是可区分的。• 我们提出了一种定量评估协议，用于通过分析所生成的图像中的属性的相应变化来测量潜在空间中的路径的可解释性/解纠缠，因为这些变化是由预先训练的语义分类器（例如，预训练的面部属性网络）。• 我们将我们的方法应用于四个预训练的GAN（即，SN-GAN [25]，BigGAN [3]，ProgGAN [17]和StyleGAN 2 [19]），并将我们的非线性路径与线性路径[34，11]进行定性和定量比较。我们表明，在比较国家的最先进的，我们的方法产生更陡峭，更解开，更长的路径在属性空间。2. 相关工作生成学习中的解纠缠生成学习中的解纠缠表示可以定义为单个潜在单元对单个生成因素的变化敏感，而对其他因素的变化相对不变[2]。近年来，在生成性学习方法的潜在空间中施加去这些作品通常是指一个解开潜在空间的概念[4，13，23，22，29，36]，在任一VAE的上下文（例如，[36，13]）或GAN（例如，[4，23]），他们通常会尝试改进架构和6395kkf（z）预训练GAN发电机重构器∈→∈∇图2：所提出的方法的概述：在选择相应的支持集Sk、权重Ak和参数Gk之后，潜在码z N（0，I d）被移位由扭曲网络W实现的扭曲函数f k引起的向量。然后，潜码对z和z + fk（z）被馈送到生成器G中，以生成两个图像。重建器R被优化以再现有符号移位幅度εk并预测所使用的支持集的索引k标准生成方法的训练协议，以便获得生成因子被分解的潜在空间。虽然这些工作提供了全面的理论见解，但它们通常应用于玩具或低分辨率数据集，并且与最先进的GAN（如ProgGAN [17]或StyleGAN2 [19]）相比，在生成质量和多样性方面表现出较差的结果。在预训练的GAN生成器中发现可解释的路径自从GAN的早期以来，已经表明GAN潜在空间通常表现出语义上有意义的向量空间算法。Radford等人[27]表明存在对应于在脸上添加微笑或眼镜的潜在方向。这为促进图像编辑的方法的开发铺平了道路，并且从此受到了显著的研究关注。一些作品[9，30，18]需要明确的人类提供的监督，以确定潜在空间中的可解释方向。更具体地说，[30，18]使用在CelebA数据集[24]上预训练的分类器然后，这些分类器用于产生大量生成的图像及其潜在代码的伪标签。基于这些伪标签，在潜在空间中学习分离超平面，从而产生捕获对应属性的方向。Plumerault等人[26]还解决了潜在空间中的优化问题，用于最大化预训练模型的得分以预测图像可记忆性，然后找到增加可记忆性的方向。与上述工作相比，我们的方法是以无监督的方式训练的。一些最近的作品[14，26，32]寻求潜在空间中对应于受控图像增强（如缩放或平移）的那些向量虽然这些方法很有趣，但它们只能找到捕获它们已经训练过的转换的方向相比之下，我们的方法可以发现对应于更复杂的生成因子（例如，肤色、年龄等）。最后，我们的方法与[34，11]的方法密切相关，因为我们也在学习一组可解释的路径。无监督和模型不可知的方式。更具体地说，Voynov和Babenko [34]优化了一组线性可解释方向，由潜在空间中的一组向量建模，并且他们使用11名人类评估员的判断来评估其方法的性能。GANSpace [11]以无监督的方式进行训练，以便通过对生成器的深层特征使用PCA来发现有意义的方向。该方法在潜在空间中寻找最佳地映射到那些深度PCA向量的线性方向类似于上面讨论的其他方法，它也需要非常苛刻的训练过程（绘制随机潜在代码并回归潜在方向），而它们不需要训练过程。仅提供定性评价结果。与这些工作相比，我们的方法以无监督的方式在预训练的GAN生成器的潜在空间中发现非线性路径。此外，为了解除所发现的路径的手动标签引入的明显的限制，我们提出了一个定量和自动评估协议，获得最可解释的路径与一定数量的属性的相关性。3. 该方法在本节中，我们提出了我们的方法，用于通过学习K个扭曲函数f1，…，f2来发现预训练的GAN生成器的潜在空间上的K个非线性可解释路径。. . ，f，K，其梯度定义在每个潜码z R d处的路径的方向。更具体地说，我们通过fk变换R d：Rd R被参数化为RBF的加权和，并且对于任何给定的zRd，我们通过遵循f k（z）的方向沿着属于第k个路径族的路径移动。为了获得可解释的路径，我们采用[34]的框架并学习6396Σ。ΣΣ。Σ→∇∈ ∈∈∈S{∈}G{∈}A{∈}∇∈∈∈{G}{A}{S}ZS AG翘曲函数给出导致图像变换的路径族，所述图像变换可由鉴别器/重建器彼此区分翘曲函数的参数和重建器/重构网络的参数被联合优化。与文献[34]和其他方法相比，翘曲函数可能导致非线性路径，而对于参数的特定值，所提出的方法的概述二、3.1. 向量空间扭曲和遍历给定向量空间Rd，我们将f：RdR定义为参数高斯RBF的加权和，由下式给出：Nf（z）= αiexp −γiz−si2，（1）i=1其中αiR，γiR+，且si分别表示第i个RBF的权重、尺度和中心。在几何上，f将给定向量空间Rd 的每个点 z 变换为位于d维流形上的（d +1）维点（z，f（z））。我们定义这个变换作为一个扭曲的向量空间RD。此外，在此，我们将把RBF的中心称为支持向量，由它们“支持”空间的诱导翘曲的几何直觉驱动，并且我们将使用术语支持集来指代支持向量的集合，i = s i Rd，i = 1，. . .、N.相应的权重和γ参数在此将被称为集合=α iR，i=1，. . .，N和=γiR+，i=1，. . . ，N，尊重。然后，不同的-一般来说，ENT支撑件组将导致不同的给定的向量空间。上述翘曲操作是可微的，其梯度解析地给出如下Nf（z）= −2α i γ iexp −γi （二）i=1因此，给定任意z，f（z）定义（局部）方向，我们使用该方向来定义Rd中的曲线。更具体地说，对于任何z Rd和足够小的移位幅度ε，我们定义由翘曲操作f使用（2）通过将z移位δz=εf（z）.（三）ǁ∇f(z)ǁ图1a，我们对给定的向量空间Rd和两个扭曲fi和fj说明了这一点，这导致了Rd中对于任何给定z的两个不同的非线性路径（粗虚线）。在该图中，细实线表示扭曲的水平集，而向量场表示其梯度。图3：针对小、中和大γ参数值的双极RBF的翘曲的梯度场的3.2. 学习GAN潜在空间中的非线性可解释曲线在上面的讨论之后，给定预训练的GAN的潜在空间，其通常被建模为d维向量空间Rd，我们可以通过一组支持集k以及对应的权重k和γ参数k（k = l，. . .、K.我们将支撑集嵌入到支撑张量SRK×N×d中，将权重和γ参数分别嵌入到矩阵ARK×N和GRK×N中然后，每个支持集连同对应的权重和γ参数经由由（1）定义的函数fk导致潜在空间的特定扭曲，其梯度由（2）解析地给出。因此，对于每个（k，k，k），k = 1，. . . ，K，我们定义一个向量场在潜在空间上，我们用它来遍历它使用（3）。这里，我们将每个扭曲定义为由“双极”支持向量对的集合给出对，具有相反的权重α和相等的尺度γ。在该公式中，γ控制路径的非线性程度，其中非常小的γ导致线性路径，类似于[34]。这示于图图3示出了具有不同γ值的两个双极支持向量的向量场。最后，让我们注意到，与[34，11]发现的全局线性方向相反，在我们的情况下，沿着每个扭曲的方向对于不同的潜在码是不同的。也就是说，如（3）所示，梯度和移位向量取决于潜在码本身。所提出的方法的这种各向异性行为反映了我们的直觉，即可解释的路径不一定在潜在空间的每个区域具有相同的方向。线性方向作为特例在本节中，我们将证明[34]的方法可以作为我们方法的特例导出。我们首先注意到，发现在矩阵A的列中编码的线性方向的[34]的框架可以在扭曲函数在z中是线性的特殊情况下导出，即f（z）=ATz。在这种情况下，沿着第k个方向的方向由δz=fk（z）=ak给出，其中ak是A的第k列。这是直接表明，该解决方案可以得到。6397WG是一个∈WS AGWK.Σ。Σ∇-Kasfk（z）= −2αk γkexp−γ kz −s k2z−skkf（z）3.3. 学习过程学习过程的概述如图所示。2.我们使用预训练的生成器G，并学习a）在G的潜在空间中生成路径的扭曲网络的参数，以及b）识别生成一对图像之间的变化的扭曲的索引k的重构器网络R的参数我们的方法的可训练模块如下：翘曲网络翘曲网络由支持集的一组三元组（k，k，k）参数化k，以及相应的权重k和γ参数k，k=1，. . .、K.每个这样的三元组引起潜在空间R_d的扭曲，并且因此引起针对任何给定潜在代码zR_d的非线性路径。由标准层实现并且是可区分的。重建器重建器R是我们用来区分由不同支持集（即，不同的潜在空间翘曲）。如图2、输入到recon-结构体是一对图像，G（z）和G。公司简介f k（z）图4：我们的方法（非线性）发现的可解释路径与[34]为SN-GAN和BigGAN发现的相应线性路径相比在我们的公式中，当每个RBF-warping由双极RBFs对给出时，即，当γ的值足够小时，具有相反α和相同γ的支持向量对在下面的内容中，我们给出了在特殊情况下单个双极对的简单情况假设s1=−s2=s。 I n. 在这种情况下，（2）c aΣn。我是说，重建器引起了眼前的转变，即识别指数k和ii）以再现潜在空间中的移位的幅度;也就是说，预测k。在实验中，我们使用 LeNet [21] 主干用于 SN-GAN （ MNIST 和AnimeFaces 数据集），并使用 ResNet-18 [12] 用于BigGAN（ImageNet），ProgGAN（CelebA-HQ）和StyleGAN 2（FFHQ）。我们修改重建器的输入通道，以便它接收图像对（即，我们沿着通道维度连接输入图像对）。最后，我们定义了两个输出优化目标最优化问题我们解决如下2αk γkexpγkz+sk2z+sk，其中，对于足够的最近小的γ k，导致fk（z）=4α k γ ksk。然后，由（3）给出的潜在空间中的移位被写为minS， A，G，REz，k，ΣLcls（k，k~）+λLreg（ε，ε~）Σ、（五）4αk γksksk其中Lcls表示分类损失项，其中我们使用交叉熵函数，Lreg表示回归损失δz =4αk γk sk =sk。（四）在这种情况下，第k个扭曲函数在z与z无关，等于一个常数向量。可以直接表明，在更一般的情况下也可以获得线性方向，即每个扭曲函数由几个双极支持向量给出，每个双极支持向量具有小的γ。同样的情况是，如果这些参数导致以下结果，则可以通过优化过程找到这些参数：其中我们使用平均绝对误差，λ是a加权系数我们注意到，目标函数相对于支持向量、权重α和γ参数是可微的，从而允许我们不仅学习支持向量的位置，而且学习它们的权重和/或γ参数。为了确保γ的正性，我们学习它的对数算法。如上所述，对于每个扭曲，我们学习一组双极对的支持向量。在训练期间，我们生成图像对G（z）和G（z）。可辨别的图像变换。G.公司简介kf（z）ǁ∇fk(z)ǁ Σ，其中zN（0，Id），k是一个翘曲我们我们线性线性我们线性我们线性我们BigGANBG清除线性SNGAN（AnimeFaces）变焦自然度旋转肤色+6398E民U EEU U −E −E∪--方法GANSNGAN SNGANBigGAN ProgGANStyleGAN2（MNIST）（动漫）随机46.085.076.060.0-Coord48.089.066.082.0-线性[34]88.099.085.090.0-我们98.499.892.699.399.8表1：对于在给定数据集上预训练的各种GAN生成器，与[34]（线性方向）、随机潜在方向和与轴对齐的潜在方向图5：我们的方法在StyleGAN 2的[19] W -空间中自动发现的非线性可解释路径函数索引在1，. . . ，K，且k是在中均匀采样的标量Emax=[max，min][min，max]. 图像对被馈送到重建器，在重建器中计算损失并且返回梯度。传播到扭曲网络和重建器。4. 实验结果概述在本节中，我们将介绍所提出的方法的实验评价，并提供与最先进方法的定性和定量比较。我们将首先表明，与[34]相比，我们的方法在潜在空间中找到路径，这些路径在图像空间中产生变化，这些变化更容易被区分网络识别-然后，我们将示出，与现有技术相比，我们的方法在潜在空间中找到路径，其在所生成的图像中产生更可区分、更分解和更大的变化我们将首先通过呈现沿着不同方法在潜在空间中的等长路径生成的图像来定性地展示这一点（图10）。4，8，5）并观察它们在图像空间中产生的所生成的变化。我们随后将通过估计语义属性（例如，旋转、微笑等）在生成的图像中，并且当我们沿着潜在空间中的不同路径时报告相关性和范围。最后，我们将展示我们的方法在潜在空间上找到与属性空间中的陡峭变化/路径相对应的路径，因此允许更好的可控生成，而不会到达低密度的潜在空间区域，因此，质量下降或失真（图1）。7，8）。路径ID图6：通过我们的ProgGAN方法获得的发现路径的非线性系数的图示图7：遍历路径长度L与线性情况[34]的比较。预训练的GAN生成器和数据集我们使用以下预训练的GAN来评估所提出的方法a) 在MNIST [20]和AnimeFaces [15]上训练的频谱归一化GAN（SN-GAN）[25]，b）在ImageNet [5]上训练的BigGAN [3]，c）在CelebA-HQ [24]上训练的ProgGAN[17]，以及d）在FFHQ [19]上训练的StyleGAN 2 [19]。在图像空间中具有更可区分的变化的路径我们首先示出了根据生成它们的潜在空间中的翘曲来区分图像的重建器，即，估计翘曲函数的指数，具有比相应的线性情况更好的这表明，通过我们的方法生成的路径可以更有效地进行区分，因此更有可能是非线性系数我们线性我们年龄线性种族性别偏航BigGANProgGANL=24L=8L=32L=9.66399偏航我们的线性PCA微笑我们的线性PCA人种（肤色）我们的线性PCA图8：ProgGAN [17]潜在空间中自动发现的非线性（我们的更容易理解。结果总结在表1中，并且在几个预训练的GAN中是一致的。图像空间中具有更陡峭和更无纠缠变化的可解释路径-定性评估然后，我们定性地表明，所提出的方法在潜在空间中找到与[34]中报道的路径类似的可解释路径，但在捕获的生成因子中表现出更大的变化。更具体地说，对于发现一组路径的给定方法，即在[34，11]的情况下是线性的，或者在我们的情况下是非线性的，在预训练的GAN的潜在这产生了一个图像序列，显示了手头的学习路径如何影响生成。为了公平比较，步长以及因此路径长度对于所有方法是相同的。在图4中，我们示出了沿着通过我们的方法找到的手动选择的方向生成的图像，并且该方法[34][35][36][37][38][39]在同一图中，我们显示了通过我们的方法发现的三个可解释的路径，即缩放，背景去除和旋转，与[34]中报道的相应路径进行比较-我们可以清楚地看到，在这两种情况下，通过我们的方法找到的路径在图像空间中产生更大的变化，在内容中产生更大的变化。在图8中，我们显示了在ProgGAN [17]的潜在空间上发现的路径，该路径在CelebA-HQ [24]上训练。对于这种方法，我们报告的方向是最相关的三个属性，即偏航，微笑，和种族，与相关性估计的方法，我们将描述为低。我们与由[34，11]获得的相应线性方向进行比较，并且我们注意到我们的方法都导致相应生成因子的更大变化（例如，更大的旋转角度），而且我们能够产生更多的解纠缠的代。这在图1中是明显的。8、在哪里6400L表2：所提出的方法（非线性潜在路径）与[34]（线性潜在方向）和GANSpace [11]（基于线性PCA的潜在方向）在L1归一化相关性和范围（r）方面的比较。ID偏航间距微笑种族头发R偏航0.520.320.050.010.070.0343.66磅间距0.410.040.380.130.030.0122.53◦微笑0.240.030.070.610.030.030.37种族0.320.030.120.080.290.170.06头发0.230.020.110.130.020.490.28(a) 非线性路径（我们的）。ID偏航间距微笑种族头发R偏航0.510.240.210.010.020.0118.93o间距0.470.010.250.040.000.228.27分微笑0.240.010.040.570.050.090.28种族0.520.050.020.100.310.010.16头发0.430.000.100.060.040.360.27(b) 线性方向（Voynov和Babenko [34]）。ID偏航间距微笑种族头发R偏航0.470.270.040.130.030.0617.65o间距0.450.050.380.090.020.017.48磅微笑0.210.000.070.550.080.080.21种族0.350.110.020.120.270.120.10头发0.440.050.060.030.080.340.15(c) 线性PCA方向（GANSpace [11]）。例如，使用我们的方法改变微笑属性比[34，11]更好地保留了其他生成因素。如上所述，潜在空间中路径的长度对于所有序列和方法都是相同为了获得生成的路径的非线性的度量，我们计算路径的长度与其端点之间的距离之间的比率显然，对于线性路径，=1。结果总结见图。6，其中我们绘制（排序）针对Prog-GAN的所发现的非线性翘曲的值图中给出了一个说明。3.第三章。图像空间中具有更陡和更清晰变化的非线性可解释路径- art [34，11]，用于ProgGAN和StyleGAN2。如前所述，对于发现一组可解释路径的给定方法;即在[34，11]的情况下是线性的，或者在所提出的方法的情况下是非线性的，在预先训练的GAN生成器的潜在空间中，我们生成每条路径的图像序列，从随机潜在代码开始，并朝着路径的正向和负向“行走”一定量的步骤。对于这样的序列的每个图像，我们应用一组预训练的网络，其预测以下内容：A.脸的位置b）使用ArcFace [6]表示原始图像（序列的中心图像）与其余图像中的每一个之间的相似性的序列的每个图像的身份分数，c）使用FairFace[16]的年龄、种族和性别分数，d）CelebA属性分类器的集合微笑、卷发等），以及e）使用Hopenet [8]估计面部姿态（偏航、俯仰、滚动）。通过这种方式，对于每个扭曲，我们在潜在空间中有一组路径，在属性空间中有相应的路径。为了获得关于由翘曲函数生成的路径与某个属性的相关性如何的度量，我们估计沿着路径的步骤的索引与属性向量中的对应值之间的平均Pearson通过这样做，对于每个扭曲，我们获得一个向量，我们对其进行归一化。这允许相对于与每个属性的相关性对所发现的路径进行排序，并选择给出每个属性的最大绝对相关性的路径结果总结在表2中，其中我们报告了我们的方法的定量结果（表2）。2a），与[34]（表2b）和[11]（表图2c），根据跨100个潜在代码平均的1归一化相关性我们注意到，我们的方法实现了相应属性的更好的相关性，而同时与其余属性的相关性低于由[34，11]实现的相关性，如矩阵的非对角元素中的较低值所明显的。这以定量的方式显示了图1中以定性方式显示的内容8，也就是说，在潜在空间中发现的路径导致属性空间中的更多解纠缠的变化最后，在图 5 我们示出了通过我们的方法针对StyleGAN2自动获得的一些非线性可解释路径的生成结果，用于以下属性：年龄、种族（肤色）、性别（在该图中，我们报告了与相应属性具有最高相关性的路径。5. 结论在本文中，我们提出了一种方法，用于以无监督和模型不可知的方式在预训练GAN我们通过使用基于RBF的扭曲函数的梯度对非线性潜在路径进行建模来做到这一点这导致对应于可解释生成的路径，其中每个路径仅影响少量生成因子最后，我们提出了一种针对人脸生成GANs的定量评估协议，该协议可用于自动将发现的路径与可解释的属性（如微笑和旋转）相关联致谢：这项工作得到了欧盟H2020 AI4媒体号的支持。951911项目。6401引用[1] D. Bau ， J.Zhu ， H. 斯特罗贝尔特湾 Zhou ， J.B.Tenenbaum，W.T. Freeman和A.托拉尔巴GAN夹层：可视化和理解生成对抗网络。在第七届国际学习表征会议上，ICLR 2019，美国路易斯安那州新奥尔良，2019年5月6日至9日。[2] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新的视角。 IEEE Transactions on Pattern Analysis andMachine Intelligence，35（8）：1798[3] A. Brock，J. Donahue，and K.西蒙尼扬用于高保真自然图像合成的大规模GAN训练。在第七届国际学习表征会议上，ICLR 2019，美国路易斯安那州新奥尔良，2019年5月6日至9日。[4] X. Chen ，Y. 段河，巴西 - 地Houthooft ， J. 舒尔曼岛Sutskever和P.阿比尔InfoGAN：通过信息最大化生成对抗网络进行可解释表示学习。 In D. D. 李， M 。Sugiyama，U.冯卢克斯堡岛Guyon，以及R. Garnett，编辑，《神经信息处理系统进展》29：2016年神经信息处理系统年会，2016年12月5日至10日，西班牙巴塞罗那，2016年第2172-2180页。[5] J. Deng，W.东河，巴西-地索赫尔湖Li，K. Li和F.李Im-ageNet：一个大规模的分层图像数据库。在2009年6月20-25日在美国佛罗里达州迈阿密举行的2009年IEEE计算机协会计算机视觉和模式识别会议中，第248IEEE计算机学会，2009年。[6] J. Deng，J.Guo，N.Xue和S.Zafeiriou. Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690-4699页，2019年[7] E.丹顿湾Hutchinson，M. Mitchell和T. Gebru使用生成式反事实面部属性增强检测偏差arXiv预印本arXiv：1906.06439，2019。[8] B. Doosti，S.Naha，M.Mirbagheri和D.J. 克兰德尔Hope-net：A graph-based model for hand-object pose estimation.在IEEE/CVF计算机视觉和模式识别会议论文集，第6608-6617页[9] L. Goetschalckx ， A. Andonian ， A. Oliva 和 P. 伊索拉Ganalyze ： Toward visual definitions of cognitive imageproperties.在IEEE/CVF计算机视觉国际会议论文集，第5744-5753页[10] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页[11] E. Har¨rk ¨ nen，A. Hertzmann，J. Lehtinen和S. 巴黎GANSpace ：发现可解释的 GAN 控件。 CoRR ，abs/2004.02546，2020。[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议，CVPR 2016，美国内华达州拉斯维加斯，2016年6月27-30日，第770IEEE计算机协会，2016年。[13]I. 希金斯湖，澳-地 Matthey，A. 帕尔角 Burgess，X.格洛特M. Botvinick，S. Mohamed和A. Lerchner β-vae：6402学习基本的视觉概念与约束变分框架。在第五届国际学习代表会议，ICLR 2017，法国土伦，2017年4月24日至26日，会议跟踪程序，2017年。[14] A.亚哈尼安湖Chai，和P.伊索拉关于生成对抗网络的在第八届国际学术代表大会上，ICLR 2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日。OpenReview.net，2020年。[15] Y. Jin，J.张建，M. Li，Y. Tian和H.竹使用生成式对抗网络实现高质量的动漫角色生成在NeurIPS的机器学习创造力和设计研讨会上，2017年。[16] K.Ka¨rkk a¨ inen和J.乔F空气面：平衡种族、性别和年龄的 FACE 属性 arXiv 预印本 arXiv ：1908.04913，2019。[17] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁gans的逐步生长，以提高质量、稳定性和多样性。在第六届国际会议上学习表示，ICLR 2018，温哥华，不列颠哥伦比亚省，加拿大，2018年4月30日至，2018年。[18] T. Karras，S. Laine和T.艾拉A style-based generatorarchitecture for generative adversarial networks. 在IEEE计算机视觉和模式识别会议论文集，第4401-4410页，2019年[19] T. Karras，S. Laine，M. Aittala，J. Hellsten，J. Lehtinen和T. 艾拉分析并改善扫描电镜的图像质量2020年IEEE/CVF 计算机视觉和模式识别会议， CVPR2020，美国华盛顿州西雅图，2020年6月13日至19日，第8107-8116页IEEE，2020年。[20] Y. 乐存。mnist手写数字数据库。http：//yann. 乐村1998年。[21] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[22] W. Lee，D. Kim，S. Hong和H.李你高保真合成与解纠缠表示。CoRR，abs/2001.04296，2020。[23] B. Liu，Y. Zhu，Z. Fu，G. de Melo和A.埃尔加马尔OOGAN：使用单热采样和正交正则化来解开GAN在第三十四届AAAI人工智能会议，AAAI 2020，第十届AAAI人工智能教育进展研讨会，EAAI 2020，纽约，纽约，美国，2020年2月7日至12日，第4836-4843页[24] Z. Liu，P.Luo，X.Wang和X.唐深度学习在野外面临在2015年IEEE计算机视觉国际会议，ICCV 2015，智利圣地亚哥，2015年12月7-13日，第3730-3738页。IEEE计算机学会，2015年。[25] T. 宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的谱归一化在第六届国际学习表征会议上，ICLR 2018，温哥华，不列颠哥伦比亚省，加拿大，2018年4月30日至5月 3日，会议跟踪程序，2018年。[26] A. Plumerault，H. L. Borgne和C.胡德洛具有连续变化因子的控制生成模型第八届国际学习代表大会6403ICLR 2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日。OpenReview.net，2020年。[27] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。[28] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习耶氏酵母中Bengio和Y.LeCun ，编辑，第四届国际学习表征会议， ICLR2016，波多黎各圣胡安，2016年5月2日至4日，会议记录，2016年。[29] A.拉梅什湾，澳-地Choi和Y.乐存。一种用于无监督解纠缠的谱正则化器。arXiv预印本arXiv：1812.01161，2018。[30] Y. Shen，J.Gu，X.Tang和B.舟解释gans的潜在空间用于语义人脸编辑。在IEEE/CVF计算机视觉和模式识别会议论文集，第9243-9252页[31] Y. Shen，J.Gu，X.Tang和B.舟解释gans的潜在空间用于语义人脸编辑。在IEEE/CVF计算机视觉和模式识别会议论文集，第9243-9252页[32] N.斯宾加恩河Banner和T. Michaeli没有优化的GAN“可操纵性”。2021年，在国际学术会议上发表[33] A. Voynov和A.巴本科RPGAN：通过随机路由来实现可解释性。CoRR，abs/1912.10920，2019。[34] A. Voynov和A.巴本科GAN潜在空间中不可解释方向的无监督发现。第37届国际机器学习会议论文集，ICML2020，2020年7月13日至18日，虚拟事件，机器学习研究论文集第119卷，第9786PMLR，2020年。[35] T. Xiao，J. Hong，and J. MA.优雅：与gan交换潜在编码，以传输多个面部属性。在欧洲计算机视觉会议（ECCV）的会议记录中，第168-184页[36] X. Xing，T.汉河，巴西-地高氏C. Zhu和Y. N.吴通过可变形生成器网络实现外观和几何形状的无监督解缠。在IEEE/CVF计算机视觉和模式识别会议论文集，第10354-10363页[37] C. Yang，Y. Shen和B.舟语义层次出现在场景合成的深层生成表示中CoRR，abs/1911.09267，2019。[38] S. Zhang，X. Zhu，Z. Lei，H. Shi，X. Wang和S. Z.李S3fd：单次拍摄尺度不变的人脸检测器。在IEEE计算机视觉国际会议论文集，第192-201页，2017年

下载后可阅读完整内容，剩余1页未读，立即下载