EigenGAN:无监督学习生成对抗网络中的可解释和可控制的维度

114 浏览量更新于2023-10-15 收藏 5.88MB PDF 举报

生成对抗网络

样本生成

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14408EigenGAN：GANs何振梁1、2，阚美娜1、2，石光山1、2、31中国科学院智能信息处理重点实验室2北京中国科学院大学3深圳鹏程实验室zhenliang.he@vipl.ict.ac.cn，{kanmeina，sgshan}@ ict. ac. cn摘要最近对生成对抗网络（GAN）的研究表明，生成CNN的不同层具有不同的合成图像语义然而，很少GAN模型具有显式维度来控制在特定层中表示的语义属性本文提出了EigenGAN，它能够无监督地从不同的生成器层中挖掘出可解释和可控制的维数具体地，EigenGAN将一个具有正交基的线性子空间嵌入到每个生成器层中。通过生成对抗训练来学习目标分布，这些逐层子空间自动发现对应于一组语义属性或可解释变化的每一层处的一组通过遍历特定特征维度的系数，生成器可以产生与特定语义属性相对应的具有连续变化的样本。以人脸为例，EigenGAN可以在深层的子空间中发现高级概念（诸如姿势和性别）以及在浅层的子空间中发现低级概念（诸如色调和颜色）的可控制维度。此外，在线性的情况下，我们从理论上证明，我们的算法得出的主成分PCA。代码可以在https ： //github 中找到。 com/LynnHo/EigenGAN-Tensorflow.1. 介绍强有力的证据[40，42，2]表明，区别性CNN的不同层在抽象级别方面捕获不同的语义概念，例如，较浅的层检测颜色和纹理，而较深的层更多地关注对象和部件。因此，我们可以预期生成CNN也具有类似的属性，这一点得到了最近对生成对抗网络（GAN）的研究的证实[18，39，3]。StyleGAN [18]表明，较深的生成器层控制较高级别的属性，如姿势和眼镜，而较浅的层控制较低级别的特征，如颜色和边缘。Yang等[39]在场景合成中发现了类似现象，表明深层倾向于确定空间布局，而浅层决定颜色方案。Bau等人也得出了类似的结论。[3]的文件。所有这些证据都揭示了一个道具-性别层数：3头发颜色层：5色调层数：6绘画样式层：2构成层数：3色调层数：6图1. Eigen-GAN学习的可解释维度示例。指数越小，层越深。这意味着不同的生成器层在抽象级别。根据该属性，可以通过执行后处理算法[3，12，36，39]来识别来自经过良好训练的生成器的不同层的语义例如，Bauet al.[3]通过对每个生成器层的剖析和干预来识别特定概念（例如“树”）的因果单元打开或关闭因果单位导致概念在合成图像上出现或消失。然而，这些后处理方法只能应用于训练有素且固定的生成器。至于生成器本身，它仍然作为一个黑盒操作，并且缺乏显式的维度来直接控制在不同层中表示的语义属性换句话说，我们不知道在不同的生成器层中表示了什么属性，或者如何操作它们，除非我们通过这些后处理方法深入检查每个层14409在上述讨论下，本文从一个问题开始：生成器本身是否可以自动/无监督地学习控制不同层中表示的语义属性的显式维度？为此，我们提出嵌入一个线性子空间模型与正交基到每个生成器层，命名为EigenGAN。首先，通过生成对抗训练，生成器试图捕获数据分布的主要变化，并且这些主要变化在其抽象级别方面在不同层中单独表示其次，在子空间模型的帮助下，将特定层的主变量进一步正交分离到不同的基向量。最后，每个基向量发现控制对应于其层的语义的属性或可解释变量的“特征维度”。例如，如图1的顶部所示1，嵌入在深层中的子空间的特征维度此外，在线性情况下，即，一层模型，我们理论上证明了我们的EigenGAN能够像PCA [15]那样发现主成分，这为我们提供了将子空间模型嵌入到不同生成器层中的强大洞察力和理由此外，我们还提供了一个流形的角度来看，我们的EigenGAN分解的数据生成模型，ING到逐层的维度扩展的步骤。2. 相关作品2.1. GANs的可解释性学习学习GAN生成器的可解释表示的第一次尝试是InfoGAN [6]，其在潜在变量和合成样本之间采用相互信息最大化（MIM）。包括InfoGAN，基于MIM的方法[6，16，17，14，20，21，22]可以自动发现可解释的维度，这些维度分别控制不同的语义属性，例如人脸的姿势，眼镜和然而，这些可解释维度的学习主要由MIM对象驱动，并且从这些维度到任何特定生成器层的语义没有直接联系。Ramesh等人[33]发现生成雅可比矩阵的主右奇异子空间具有局部解纠缠特性，然后应用谱正则化将奇异向量与直坐标对齐，最终得到全局可解释的表示。然而，这项工作也没有调查这些可解释的表示和不同的生成器层的语义之间的对应关系。与这些方法不同的是，我们的EigenGAN的可解释性来自逐层子空间嵌入的特殊此外，我们的EigenGAN建立了可解释性之间的显式连接通过将子空间模型直接嵌入到特定层中，可以确定该层的维度和语义上述方法尝试学习具有显式可解释表示的GAN生成器;相比之下，另一类方法，后处理方法，试图从训练有素的GAN生成器中揭示可解释的因素[9，3，35，39，32，12，38，36]。[9、3、35、39]通过预先训练的语义预测器，以识别GAN潜在空间中的对应语义因素，例如，Yang等[39]使用布局估计器、场景类别识别器和属性分类器来找出潜在空间中这些概念的决策边界。在不引入外部监督的情况下，有几种方法以自我监督[32]或无监督[12，36]的方式搜索可解释的Plumerault等人[32]利用简单的图像变换（例如，平移和缩放）以在潜在空间中搜索这些变换的轴。Harkonen等人[12]将PCA应用于早期层的特征空间，并且所得到的主成分表示可解释的变化。 Shen和Zhou[36]表明，生成器的第一个全连接层的权重矩阵确定了一组主导图像合成的关键潜在方向，并且沿着这些方向的移动控制了一组语义属性。在这些方法中，[3，35，39，12，36]仔细研究了在不同生成器层中表示的语义。然而，这些后处理方法必须首先学习和修复GAN生成器，然后在单独的目标下学习可解释的维度（两个步骤）。相反，我们的Eigen-GAN以端到端的方式（一步）学习每个生成器层的可解释维度以及GAN训练由于生成元的学习和可解释维数的学习是相互影响的，因此我们的方法应该具有更好的最优性2.2. 生成对抗网络生成对抗网络（GAN）[10]是一种生成模型，可以从噪声中合成数据。GAN的学习过程是生成器和鉴别器之间的竞争。具体而言，鉴别器试图将合成样本与真实样本区分开，而生成器试图使合成样本尽可能逼真以欺骗鉴别器。当竞争达到纳什均衡时，合成数据分布与真实数据分布相同。GAN在数据合成方面表现出良好的性能和特性。因此，出现了大量关于GANs的研究，包括损失函数[30，25，1]，正则化-[34，26，28]，条件生成[27，31，29]，repre-感知学习[24，6，8]，架构设计[7，5，18]，应用[13，43，41]等。我们的EigenGAN可以分为表示学习以及GAN的架构设计14410{∈|N}Σ∈Ni=1i=1i=1真是假图2.所提出的EigenGAN的概述该模型的主流是一个2步转置卷积块链，它逐渐扩大特征图的分辨率，并最终输出一个合成样本。在第i层，我们嵌入一个具有正交基的线性子空间Ui =[ui1，. . . ，uiq]，并且每个基向量uij旨在无监督地发现“特征维度”，其保持合成样本的可解释变化，诸如人脸的种族、姿势和照明。3. EigenGAN在本节中，我们首先介绍了在第二节中使用逐层子空间模型的EigenGAN生成器设计。第3.1条然后在Sec。3.2中，我们从线性情况到EigenGAN的一般情况进行了讨论，最后提供了一个人的视角。3.1. 具有逐层子空间的图2显示了我们的生成器架构。我们的目标是从一组潜在变量中学习t层生成器映射ziRQZIq（0，I），i=1，. . .，t到syn-大小像x = G（z1，. . . ，Zi），其中Zi直接在-注入第i个发生器层;q表示每个子空间的维数。在第i层中，我们嵌入线性子空间模型Si=（Ui，Li，μi），其中• Ui=[ui1，. . . ，uiq]是子空间Si中的一个点：φi=UiLizi+µi（1）Q=z ij l ijuij+ µi。（二）j=1该采样点Φi将被添加到第i层的网络特征，如下所述。设hiRHi×Wi×Ci表示第i层的特征图，x=ht+1表示最终合成图像，则相邻层之间的前向关系为hi+1= Conv2x（hi+ f（φi）），i =1，. . . ，t，（3）其中“Conv2x”表示使特征图的分辨率加倍的转置卷积，并且f可以是恒等函数或简单变换（实际上是1x1卷积）。从Eq.（3）、来自子空间Si的样本点φi直接与网络特征交互子空间，并且每个基向量uij∈RHi×Wi×Ci第i层的hi因此，子空间Si直接确定第i层的变化，更具体地，q是为了不受监督地发现一个维度• L1= diag（L1，. . . ，Lij）是对角矩阵，其中Lij决定基向量Uij的“重要性”。具体而言，lij的高绝对值意味着uij控制第i层的主要变化，而低绝对值表示较小变化，这也可以被视为一种维度选择。坐标zi=[z i1，. . . ，z iq]T分别控制q个不同的变化。此外，我们还将噪声输入s（0，1）注入到生成器的底部，以捕获子空间遗漏的其余变量，如下所示：h1=FC（s），（4）其中基{Ui}t ，重要性矩阵{Li}，的起源{μi}t，卷积核都是• μi表示子空间的原点然后，我们使用第i个潜在变量zi=[z i1，. . . .，ziq]T作为要采样的坐标（线性组合系数）。可学习的参数，并且学习可以由各种对抗性损失驱动[10，25，1，28]。在本文中，铰链损失[28]用于对抗训练。此外，通过正则化的方法得到了UiFC转换器2↑转换器2↑转换器2↑14411目光nNN--ΣΣ我×个F1−Q构成层1构成图3. EigenGAN的流形视角。在每一层，线性子空间被添加到特征流形，扩展流形与“直”的方向上的一些语义属性的变化是线性的。在每一层的末尾，非线性映射“弯曲”这些直方向，而下一层的另一个子空间将继续添加新的直方向。在这里，为了简单起见，我们仅示出每个子空间的一个语义方向，通常，每个子空间包含多个正交方向。2. 在训练之后，每个潜在维度可以显式地控制对应于其层的语义的可解释的变化。3.2. 讨论为了更好地理解我们的模型是如何工作的，我们首先讨论EigenGAN的线性情况。改编自Eq.（1），线性模型被公式化如下，x=ULz+µ+σs。（5）该等式涉及d维观测向量X通过仿射变换UL和变换μ将对应的q维（q d）潜变量zq（0，I）映射到相应的q维（q d）潜变量z q（0，I）。此外，还引入了噪声矢量sd（0，I）来补偿丢失的能量。我们还用正交列约束U，并且L作为对角矩阵，如第2节中的一般情况。第3.1条该公式也可以被视为概率PCA的约束情况[37]。在等式中估计U、L、µ和σ（5）n个观测值xii=1时，解析解是最大似然估计（MLE）。详情请参阅附录MLE 结果的推导。一个重要的结果是U_ML=u_ML，. . .，u_ML是与q个最大特征值对应的数据协方差的特征向量，这与PCA [15]的结果完全相同。也就是说，线性EigenGAN能够发现主维度，这为我们提供了嵌入这种线性模型的强大洞察力和动机（等式10）。（5））分层到不同的生成器层中，如在第3.1条EigenGAN（一般情况）在线性情况下，我们假设嵌入在特定层中的线性子空间模型可以捕获该层的主要语义变化，并且这些主要变化被正交地分离到基向量中。因此，每个基向量发现控制对应于其层的语义的属性或可解释变化的图3示出了EigenGAN的流形透视图。从这个角度来看，每一层的子空间以“直”方向扩展特征流形在每一层的末尾，非线性映射简而言之，EigenGAN将数据生成模型分解为分层维度扩展步骤，即，用线性语义维度逐层扩展特征流形。4. 实验数据集我们在CelebA [23]，FFHQ [18]和Danbooru2019Portraits [4]上测试了我们的方法。CelebA包含202，599个名人面部图像，具有40个二进制属性的注释。FFHQ包含70，000张高质量人脸图像，Danbooru2019Portraits包含302，652张动漫人脸图像。我们使用CelebA 属性进行定量评估，并使用 FFHQ 和Danbooru2019 Portraits获得更多视觉结果。我们使用铰链损失[28]和R1惩罚[26]进行对抗训练。我们对所有网络采用Adam求解器[19]，对生成器采用参数移动平均。该生成器是专为256 256图像，并包含6个上采样卷积块。具有一个上采样的整个块被定义为并且具有6个基向量的一个线性子空间被嵌入到每个生成器层中。详细的网络架构请参考附录。4.1. 发现的语义属性图4示出了通过不同层的子空间学习的语义属性，其中如图所示，沿着本征维度（即，子空间的基向量），合成-非线性目光构成色调层3非线性构成层2目光构成14412--L1 D5（层：1维度：第五章）面部毛发→帽子（45%）鬓角（33%）L2 D2头发侧背景纹理方向L3 D1年龄→性别性别（89%）口红（87%）化妆（80%）吸引力（60%）年龄（57%）L3 D4刘海刘海（68%）L3 D6体侧L4 D1构成L4 D5微笑微笑（81%）高颧骨（67%）嘴巴张开（55%）窄眼睛（43%）L4 D6脸型发色L5 D2黑发（59%）金发（44%）白发（33%）L5 D4照明L5 D6口红颜色L6 D1背景色调L6 D4前景色调苍白皮肤（39%）图4.在CelebA数据集的不同层发现语义属性[23]。遍历[ 4]中的坐标值。5σ，4. 5σ]，每个维度控制一个属性，颜色为蓝色。绿色的属性是最相关的CelebA属性，括号值是熵系数：CelebA属性的信息的哪一部分包含在相应的维度中。“Li Dj”我们只显示最有意义的尺寸，所有尺寸请参阅附录14413∫|||积分近似Z·pZ（z）dz在等式（7）和L2 D5绘画风格L4 D2口型L6 D1 色调图5. FFHQ数据集[18]和动漫数据集[4]的可解释维度。尺寸的图像通过可解释的方式一致地改变较浅的层倾向于学习较低级别的属性，例如，L6和L5学习与颜色相关的属性，例如随着层的深入，生成器会发现具有更高级别或更多级别的属性熵系数（归一化互信息），其表示Y的信息的多少分数包含在Z中：U（Y |Z）= I（Y; Z）= H（Y）− H（Y |Z）∈[0，1]（6）复杂的概念。例如，L4和L3学习几何或结构属性，诸如L4中的“面部形状”和L3中的“身体侧面”。深层倾向于学习一个维度中的多个属性，例如，L1 D5在左轴上学习“Facial Hair”，但在右轴上学习“Hat”。此外，我们认为，哪里H（Y |Z）=ZH（Y）pZ（z）Σ−pY|ZH（Y）（y = 1|z）ln（pY|Z （y = 1|z））属性纠缠可能发生在深层尺寸，例如，L2 D2学习同时改变-（1 − pY Z（y = 1|z））ln（1 − pY Z（y =1|z））Σdz，（7）因为复杂的属性组合可能会误导网络将它们的整体视为一个高级属性。总之，浅层学习低级或简单属性，而深层学习高级或复杂属性。纠缠可能发生在某些维度这是我们的局限之一然而，纠缠是可解释的，即，我们可以识别p Y|ZH（Y）=−pY（y=1）ln（pY（y=1））-（1 − pY（y = 1））ln（1 − pY（y =1））。（八）（y = 1|z）和pY（y = l）可以通过1∫p Y |Z（y =1|z）=XpY |X（y = 1|x）pG（x|z）dx，（9）什么属性在维度中纠缠此外，我们的方法仍然可以发现很好地解开维度pY（y=1）=ZpY |Z（y = 1|z）pZ（z）dz，（10）与人类的视觉概念高度一致图5显示了FFHQ数据集的其他结果[18]和其中pG（x|z）是发电机分布，并且Y|X （y=Danbooru2019肖像数据集[4]。更多结果和更多可解释尺寸请参见附录。∫14414识别定义良好的属性在前一部分中，Ix）是由CelebA数据集上的预训练属性分类器近似的后验分布。我们将pZ（z）设为U[-4。五、四。5]并将其分解为100个相等的bin我们可视地识别每个维度的语义属性在这一部分中，我们使用CelebA中的40个定义良好的二进制属性，以（10）;我们从基因r∫atorpG（x）中采样1000 x|z）在z的每个仓，然后近似等式中的积分。（9）通过对样本求平均。X·pG（x|z）dx数据集[23]。具体来说，我们研究的相关性是-在维度Z和CelebA属性Y之间1y和z在给定x的情况下是条件独立的，即， pY|X，Z（y= 1|x，z）= pY|X（y = 1|X）。14415不--明智潜在变量{z}i姿势微笑头发颜色色调GLDSefa我们图6.在GLD [38]，SeFa [36]和我们的EigenGAN之间进行定性比较表1.所发现的属性与CelebA属性之间的熵系数相关性。每行表示GLD [38]，SeFa [36]和我们的EigenGAN发现的属性，每列表示CelebA属性。GLD性别E耶格拉斯微笑黑发Sefa性别眼镜微笑黑发我们性别眼镜微笑黑发性别百分之二十八百分之二百分之十一百分之三性别百分之四十九百分之十四百分之二百分之四性别百分之五十七百分之十四百分之十二百分之二眼镜百分之三百分之五百分之五百分之四眼镜百分之五百分之四十九百分之二0%的百分比眼镜百分之二百分之三十三0%的百分比百分之一微笑0%的百分比0%的百分比24%1%微笑百分之一百分之一百分之五十二百分之八微笑百分之一0%55% 2%黑发百分之一0%的百分比1%9%黑发百分之一0%的百分比百分之一百分之十八黑发0%的百分比0% 0%38%对于图中的每个维度。在图4中，示出了熵系数大于30%的五个最相关的CelebA属性（绿色文本）。如图所示，根据熵系数识别的CelebA属性与我们的视觉感知高度一致。几个维度没有相关的CelebA属性，只是因为由这些维度表示的属性不包括在CelebA中，但是这些维度仍然是可解释的，例如， L4 D1 学习“Pose”，这不是CelebA属性。几个维度与多个CelebA属性相关，主要是因为这些CelebA属性本身是高度相关的，例如，L4 D5学习“微笑”，因此它对于“微笑”相关属性具有高熵系数：“高颧骨”、“张开嘴”和“窄眼睛”。总之，该实验在统计学上验证了本征GAN确实可以发现控制属性的可解释维度，这些属性与人类定义的属性高度一致（例如，CelebA属性）。在这一部分中，我们将我们的方法与没有任何监督的贡品。表1示出了在前一部分中引入的熵系数方面，所发现的属性与CelebA属性之间的相关性的定量比较。可以看出，由SeFa和我们的本征GAN发现的属性与对应的CelebA属性具有高度相关性，表明两种方法确实可以发现有意义的语义属性。总的来说，我们的本征GAN在学习的属性和解纠缠上实现了与最先进的SeFa相当的性能，并且两种方法都比GLD表现得更好。4.2. 模型分析潜在变量的影响EigenGAN包含两种潜在变量： 1)逐层潜变量zii=1，其用作子空间坐标; 2）底部噪声s以补偿丢失的变化。在图在图7a中，我们分别固定它们中的一个并且随机采样另一个以生成图像。可以看出，该层-两种最先进的后处理方法GANLatent-不i=1而底部噪声S主导主要的变化[ 38 ][39][39][39][39]我们使用他们的官方模型，其中GLD 在 StyleGAN 2-FFHQ-1024 上训练， SeFa 在StyleGAN-FFHQ-256上训练。图6示出了定性比较。可以看出，SeFa和我们的EigenGAN都可以实现所识别的属性的平滑和一致的变化然而，在所有三种方法中仍然发生一定程度的纠缠，例如，“Pose”维度也改变GLD中的光照，“Smiling”维度也改变SeFa中的刘海，并且“Hair Color”维度也改变EigenGAN中的肤色。这是因为它们都是无监督的方法，并且很难精确地解耦所有at-捕捉微妙的变化。也就是例如，EigenGAN倾向于将主要变化放入逐层潜在变量中，而不是典型GAN中使用的底部噪声中，但底部噪声仍然可以捕获子空间模型遗漏的一些细微变化。子空间模型的效果我们移除所有逐层子空间模型以研究其效果，相反，我们直接将逐层潜变量添加到网络特征。如图如图7b所示，在没有子空间模型的情况下，逐层潜变量只能捕获微小的变化，这与图7b中的原始设置完全相反。7a. 总之，子空间模型是关键14416NU底部噪声影响（固定层潜在）逐层潜在影响（固定底部噪声）底部噪声影响（固定层潜在）逐层潜在影响（固定底部噪声）(a) 利用子空间模型（EigenGAN），主要变化由逐层潜在变量捕获(b) 在没有子空间模型（典型的GAN）的情况下，主要变化被底部噪声捕获。图7.逐层潜变量（顶部）和底部噪声（底部）的影响表2. 与PCA的基础相似性 P = Nd（0，1）。GAN丢失数据秩→子空间秩表3. 与PCA的基础相似性 P = Ud（0，1）。GAN丢失数据秩→子空间秩点以使得生成器能够将主要变化放入逐层变量中，因此可以进一步让逐层变量捕获不同层的不同语义。线性案例研究3.2从理论上证明了EigenGAN的线性情况可以发现最大似然估计（MLE）下的主成分。在这一部分中，我们通过在线性EigenGAN上应用adversar-ial训练来验证这一陈述（我们不直接使用MLE，因为我们使用adversar- ial损失而不是MLE目标来训练一般EigenGAN，并且我们保持线性和一般情况之间的一致性）。具体来说，我们使用线性EigenGAN来学习玩具数据集的低秩子空间模型，然后比较由我们的模型学习的基向量和由PCA学习的基向量的余弦相似性。玩具数据集如下生成，DA，b，P={yi= Axi+ b |xi P}其中，A是随机变换矩阵，b是随机平移向量，并且P是选自以下的分布：d（0，1）或d（0，1）。我们测试了典型的对抗性损失，包括Vanilla GAN [10]，LSGAN [25]，WGAN [11]，HingeGAN [28]和具有KL散度的f-GAN [30]（KL- f-GAN）。请注意，KL-f-GAN的目标在理论上等同于MLE，因此我们实际上也在测试MLE在对抗训练方式。表2和表3报告了EigenGAN基向量和PCA基向量之间的平均相似性，其中每个结果是100个随机玩具数据集的平均值。可以看出，当数据秩不超过 10 时，EigenGAN基与PCA基高度相似，余弦相似度约为0.9-1.0。当数据秩增加到20时，存在两种情况：1）如果我们只搜索最主要的一个基向量（20→1），线性EigenGAN和PCA找到的向量仍然非常接近; 2）但如果我们想要找到5个或更多的基向量，平均相似度降至0. 7 - 0. 8。我们认为这是因为高维数据导致了维数灾难，进而导致学习不稳定。此外，各种GAN损失具有非常一致的结果，这表明我们的理论结果在Sec. 3.2从KL散度（MLE）到更一般的统计距离，例如JS散度和Wasserstein距离。最后，我们通过实验验证了线性特征根网络确实能够发现主成分的理论陈述.5. 局限性和未来工作在两种情况下，发现的语义属性在不同的训练时间并不总是相同的：1）例如，有时性别和姿势是作为分离的维度学习的，但有时在更深的层面上纠缠在一个维度中。这是因为，在没有监督的情况下，一些复杂的属性组合可能会误导模型，使其相信它们的整体是一个更高级别的属性。2)有时模型可以发现特定的属性，但有时不能，例如眼镜，主要是因为这些属性在数据集中出现的频率较低。未来的工作将研究更好的解缠技术和更强大的GAN架构的逐层特征学习鸣谢本工作得到国家重点研究发展计划（编号：2017YFA0700800）和国家自然科学基金（编号：2017YFA0700800 ）的部分资助。 61772496 号61976219）。5→15→310→110→310→520→120→520→105→15→310→110→310→520→120→520→10KL-f-GAN [30]1.000.980.990.900.930.970.780.79KL-f-GAN [30]0.960.980.970.890.930.890.720.82[10]第十话1.000.991.000.900.940.980.770.81[10]第十话0.970.970.970.920.920.920.760.84[11]0.990.981.000.890.920.990.760.83[11]0.980.970.980.930.940.980.770.84LSGAN [25]0.990.991.000.890.920.990.760.80LSGAN [25]0.970.970.960.890.950.910.740.82HingeGAN [28]0.990.991.000.920.930.960.770.81HingeGAN [28]0.970.980.970.870.940.920.750.8214417引用[1] 马丁·阿乔对ky，苏米特·钦塔拉和Le'onBottou。Wasserstein gan在马赫国际会议上。学习. ，2017年。二、三[2] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在IEEE会议Comput.目视模式识别，2017年。一个[3] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou， Joshua B.作者：William T. Freeman 和AntonioTorralba。肝解剖：可视化和理解生成对抗网络。在国际会议学习中。代表。，2019年。一、二[4] Gwern Branwen ， Anonymous 和 Danbooru 社区。Danbooru2019肖像：大型动漫头像插图数据集，2019年。四、六[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练在国际会议学习中。代表。，2018年。二个[6] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在高级神经信息。过程系统，2016年。2[7] Emily Denton、Soumith Chintala、Arthur Szlam和RobFergus。使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在高级神经信息。过程。系统，2015年。二个[8] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。对抗性特征学习。在国际会议学习中。代表。，2017年。二个[9] Lore Goetschalckx，Alex Andonian，Aude Oliva，andPhillip Isola.Ganalyze ： Toward visual definitions ofcognitive image properties.在国际会议计算中目视，2019年。二个[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。在高级神经信息。过程系统，2014年。二、三、八[11] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron Courville。改进的瓦瑟斯坦甘斯训练。在高级神经信息。过程系统，2017年。八个[12] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：Discovering interpretable gancontrol.高级神经信息过程系统，2020年。一、二[13] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE会议Comput. 目视模式识别，2017年。二个[14] Insu Jeon ， Wonkwang Lee ， Myeongjang Pyeon ， andGunhee Kim.Ib-gan：具有信息瓶颈gan的解纠缠表示学习。在AAAI，2021年。二个[15] 伊恩·T·乔利夫主成分分析1986. 二、四[16] 金子拓弘平松熏和香野国雄具有条件过滤生成对抗网络的生成属性控制器。在IEEE Conf. Comput.目视模式识别，2017年。二个14418[17] 金子拓弘平松熏和香野国雄生成对抗图像合成与决策树潜在的控制器。在IEEE Conf. Comput.目视模式识别，2018年。二个[18] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE Conf.Comput.目视模式识别，2019年。一、二、四、六[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。在国际会议学习中。代表。，2015年。四个[20] Wonkwang Lee ， Donggyun Kim ， Seunhoon Hong ，and Honglak Lee.高保真合成与解纠缠表示。以Eur.确认补偿目视，2020年。二个[21] 林紫楠，基兰·提昆帕兰匹，茱莉亚·凡提，吴世雄.Infogan-cr和模型中心性：自监督模式训练与选择以解缠神经干。在Int.马赫会议学习. ，2020年。二个[22] Bingchen Liu ， Yizhe Zhu ， Zuohui Fu ， Gerard deMelo，and Ahmed Elgammal. Oogan：用一次热采样和正交正则化来解开gan。在AAAI，2020年。二个[23] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在2015年IEEE国际计算机视觉会议上四五六[24] Alireza Makhzani、Jonathon Shlens、Navdeep Jaitly、Ian Goodfellow和Brendan Frey。对抗性自动编码器。在国际会议学习中。代表。，2016年。二个[25] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在国际会议计算中目视，2017年。二、三、八[26] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？在马赫国际会议上。学习. ，2018年。二、四[27] Mehdi Mirza 和 Simon Osindero 条件生成对抗网。arXiv：1411.1784，2014。二个[28] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。在国际会议学习中。代表。，2018年。二、三、四、八[29] 宫人武和小山正则。具有投影鉴别器的CGNS在国际会议学习中。代表。，2018年。二个[30] Sebastian Nowozin、Botond Cseke和Ryota Tomioka。f-gan：使用变分散度最小化训练生成神经采样器。在高级神经信息。过程系统，2016年。二、八[31] Augustus Odena ， Christopher Olah ， and JonathonShlens.辅助分类器gans的条件图像合成在马赫国际会议上。学习. ，2017年。二个[32] 安托万 ·普卢默罗，《她的生活》和《 Ce'lineHude-lot》。控制具有连续变化因子的生成模型。在国际会议学习中。代表。，2019年。二个[33] Aditya Ramesh ，Youngduck Choi， and Yann LeCun.一种用于无监督解纠缠的谱正则化器。 arXiv ：1812.01161，2018。二个[34] Kevin Roth，Aurelien Lucchi，Sebastian Nowozin，andThomas Hofmann.生成副词14419sarial网络通过正则化。高级神经信息学。过程系统，2017年。二个[35] Yujun Shen ， Ceyuan Yang ， Xiaoyu Tang ， and BoleiZhou.接口：解释gans学习的解纠缠人脸表征。IEEE传输模式分析马赫内特尔，2020年。二个[36] Yujun Shen和Bolei Zhou。gans中潜在语义在IEEE会议Comput. 目视模式识别，2021年。一、二、七[37] Michael E Tipping和Christopher M Bishop。概率主成分分析皇家统计学会杂志： Series B （ StatisticalMethodology），61（3）：611- 622，1999. 四个[38] 安德烈·沃诺夫和阿特姆·巴本科。潜在空间中可解释方向的无监督发现。在Int.马赫会议学习. ，2020年。二、七[39] Ceyuan Yang，Yujun Shen，and Bolei Zhou.语义层次结构出现在场景合成的深度生成表示中。国际计算机目视，2021年。一、二[40] Matthew D Zeiler和Rob Fergus。可视化和理解卷积网络。以Eur. Conf. Comput. 目视，2014年。一个[41] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓磊，和Dimitris N Metaxas.Stack- gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成。在国际会议计算中目视，2017年。二个[42] BoleiZhou ， AdityaKhosla ， A`gataLapedriza ， AudeOliva，and Antonio Torralba.目标检测器出现在深场景cnn中。在国际会议学习中。代表。，2015年。一个[43] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在国际会议计算中目视，2017年。二个

下载后可阅读完整内容，剩余1页未读，立即下载