堆叠生成对抗网络：一种自底向上和自顶向下结合的生成模型

51 浏览量更新于2023-10-16 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1堆叠生成对抗网络黄勋1李逸轩2OmidPoursaeed2John Hopcroft1Serge Belongie1，31康奈尔大学2康奈尔大学电气与计算机工程学院3康奈尔理工学院{xh258，yl2363，op63，sjb344}@ cornell.edujeh@cs.cornell.edu摘要在本文中，我们提出了一种新的生成模型，称为堆叠生成对抗网络（SGAN），它被训练来反转自底向上的判别网络的层次表示。我们的模型由一个自上而下的GAN堆栈组成，每个GAN都学会了以高级表示为条件生成低级表示在每个特征层次上引入表示流形，以鼓励生成器的表示流形与自底向上的判别网络的表示流形对齐，从而利用强大的判别表示来指导生成模型。此外，我们引入了一个条件损失，鼓励使用的条件信息从上面的层，和一个新的熵损失，最大限度地提高了发电机输出的条件熵的变化我们首先独立地训练每个堆栈，然后端到端地训练与使用单个噪声向量来表示所有变化的原始GAN不同，我们的SGAN将变化分解为多个级别，并逐步解决自上而下生成过程中的不确定性。基于视觉检查，Inception分数和视觉Tur-ing测试，我们证明了SGAN能够生成比没有堆叠的GAN高得多的质量的1. 介绍近年来，深度神经网络（DNN）取得了巨大的成功，特别是针对区分性任务训练的自下而上神经网络特别是，卷积神经网络（CNN）在具有挑战性的ImageNet分类基准上取得了令人印象深刻的准确性[30，56，57，21，52]。有趣的是，研究表明，在ImageNet上训练的用于分类的CNN可以学习可转移到其他任务的表示[55]，甚至可以转移到其他模态[20]。然而，自底向上的判别模型专注于从数据中学习有用的表示，无法捕获数据分布。自顶向下生成模型的学习是机器学习研究中的一个长期问题，它可以解释复杂的数据分布深层神经网络的表达能力使其成为生成模型的天然候选者，最近的几项工作已经显示出有希望的结果[28，17，44，36，68，38，9]。虽然最先进的DNN在某些区分性任务中可以与人类的表现相媲美，但当数据分布存在较大变化时，当前最好的深度生成模型仍然会失败因此，一个自然的问题出现了：我们能否利用区分训练模型中的分层表示来帮助自顶向下生成模型的学习？在本文中，我们提出了一个生成模型称为堆叠生成对抗网络（SGAN）。我们的模型由一个自上而下的GAN堆栈组成，每个GAN都经过训练，以生成类似于原始GAN模型中的图像判别器，它被训练来区分由表示鉴别器引入的对抗性损失除了对抗性损失，我们还引入了一个条件损失，迫使每个生成器使用更高级别的条件信息，以及一个新的熵损失，鼓励每个生成器生成不同的表示。通过以自上而下的方式堆叠多个GAN，并使用最顶部的GAN接收标签，最底部的GAN生成图像，SGAN可以被训练为以类标签为条件的数据分布建模。通过大量的实验，我们证明了我们的SGAN能够生成比普通GAN质量高得多的图像特别是，我们的模型在CIFAR-10数据集上获得了最先进的Inception分数。2. 相关工作深度生成图像模型。已经有大量关于生成图像建模的工作，50775078zz学习一些早期的努力包括限制玻尔兹曼机[22]和深度信念网络[23]。最近，出现了几种成功的深度生成模型范例，包括自回归模型[32，16，58，44，45，19]，变分自动编码器（VAE）[28，27，50，64，18]和生成对抗网络（GANs）[17，5，47，49，53，33]。我们的工作建立在GAN框架，其采用将噪声向量变换成图像的生成器和区分真实图像和生成图像的变换器。然而，由于图像内容的巨大变化，GAN生成具有足够细节的多样化图像仍然具有挑战性。为此，有几项工作试图将GAN分解为一系列GAN，将困难的任务分解为几个更容易处理的子任务。Den- ton等[5]提出了一种LAPGAN模型，该模型将生成过程分解为多分辨率GAN，每个GAN生成以较低分辨率图像为条件的较高分辨率残差。虽然LAPGAN和SGAN都由一系列GAN 组成，每个 GAN 都在一个尺度上工作，但LAPGAN专注于生成从粗到细的多分辨率图像，而我们的SGAN旨在从抽象到具体的多层次表示Wang和Gupta [62]提出了一种S2-GAN，使用一个GAN生成表面法线，另一个GAN生成基于表面法线的图像。曲面法线可以被视为一种特定类型的图像表示，捕捉室内场景的底层3D结构。另一方面，我们的框架可以在预训练的区分DNN中利用更一般和更强大的多级表示。有几个作品使用预训练的判别模型来帮助训练生成器。[31，7]添加一个正则化项，鼓励重建图像与判别网络的特征空间中的原始图像相似[59，26]使用基于特征激活的Gram矩阵的额外与我们的方法不同的是，所有的工作都只是增加了损失项来正则化生成器匹配两个DNN之间的中间表示。已经有一些工作试图“匹配”两个DNN之间的中间表示。[51，20]使用一个预先训练的DNN的中间表示在知识转移的背景下指导另一个DNN。我们的方法可以被认为是一种特殊的知识转移。但是，我们的目标是跨-并且一旦训练完成就不需要来自编码器的任何信息另一个重要的区别是，我们使用对抗损失而不是L2重建损失来匹配中间表示。可视化深度表征。我们的工作也与最近在可视化DNN内部表示方面的努力有关。一种流行的方法使用基于梯度的优化来找到一个图像，其表示接近我们想要可视化的图像[37]。其他方法，如[8]，训练自顶向下的去卷积网络，通过最小化图像空间中的欧几里德重建误差，从特征表示重建输入图像。然而，在重建过程中存在固有的不确定性，因为DNN的较高层中的表示被训练为对于不相关的变换是不变的在欧几里德训练目标下，去卷积网络倾向于产生模糊图像。为了缓解这个问题，Dosovitskiy abd Brox [7]进一步提出了一种特征损失和一种对抗性损失，可以实现更清晰的反射。然而，它仍然没有解决重建中的不确定性问题。给定高级特征表示，去卷积网络确定性地生成单个图像，尽管存在具有相同表示的许多图像此外，由于特征先验分布未知，因此没有明显的方法对图像进行采样。与我们的工作同时，Nguyenet al.[42]将该特征与去噪自动编码器（DAE）的变体结合。他们的采样依赖于迭代优化过程，而我们专注于高效的前馈采样。3. 方法在本节中，我们将介绍我们的模型架构。节中3.1我们简要概述了生成对抗网络的框架。然后，我们在第二节中描述了我们对堆叠生成对抗网络的建议。3.2.在3.3节和3.4节中，我们将分别关注我们的两个新损失函数，条件损失和熵损失。3.1. 背景：生成对抗网络如图1（a），原始GAN [17]使用两人最小-最大游戏进行训练：一个被训练来区分生成图像和真实图像的伪随机数D，以及一个被训练来欺骗D的生成器G。失去的爱LD和发电机损耗LG定义如下：将自下而上的DNN中的知识转移到自上而下的生成模型，而不是另一个自底向上的DNN。还有，LD=ExP数据 [−logD（x）]+EzP [−log（1−D.G（z））某些自动编码器架构采用逐层重构损耗[60，48，67，66]。逐层丢失通常伴随着从编码器到解码器的横向连接另一方面，SGAN是一个生成模型（一）LG=EzP[−log（D. G（z））（2）在实践中，D和G通常交替更新训练过程匹配生成的图像分布5079h2h1的g0G1G2D0H(a) 香草甘编码器前向路径发电机正向通路Ladvz0噪声独立训练路径联合训练路径G0条件损失熵损失xcondG2编码器y发生器鉴别器yQ-NetE2（h2）E2z2z2condG12h2Q2entG2E1（h1）E1z1z1condGh1h1年q1entG1E0（x）e0级Adv的g0D0x100(b) SGAN列车z0Qent的g0z0x(c) SGAN测试图1：SGAN概述。（a）在[17]中的原始GAN。(b)训练SGAN的工作流程，其中每个生成器Gi尝试生成可以欺骗相应表示的合理特征。每个生成器在独立训练阶段中从编码器接收条件输入，并且在联合训练阶段中从上层生成器接收条件输入(c)可以通过将随机噪声馈送到每个生成器Gi来从SGAN（在测试时间期间）采样新图像。PG（x）与训练集中的真实图像分布P数据（x）。换句话说，对抗训练迫使G生成驻留在自然图像流形上的图像3.2. 堆叠生成对抗网络预先训练的编码器。我们首先考虑为分类而预训练的自下而上的DNN，其在全文中被称为编码器E我们定义了一堆自底向上的确定性非线性映射：hi+1=E i（h i），其中i∈ {0，1，.，N−1}，E i由neu-1序列组成。层（例如，，卷积，池化），N是是输入图像。请注意，在我们的公式中，每个Ei可以包含多个层，并且将层分组到Ei中的方式由我们确定。因此，堆叠的数量N小于E中的层数，并且也由我们确定。堆叠式发电机。提供了一个预先训练的编码器我们的目标是训练一个自顶向下的生成器G，E.具体地说，G由自上而下的生成器Gi的堆栈组成，每个生成器都被训练为反转自下而上的映射Ei。每个G i将较高级特征和噪声向量作为输入，并且输出较低级特征hi。我们先层次结构（堆栈），hi（i0，N）是中间体，独立训练每个GAN，然后联合训练它们LadvG2D2LadvG1D1G1的g0的g0G2LLLLLLyL5080hN=y是分类结果，h0=x是端到端的方式，如图2所示1.一、每一代-5081i=0时GiGiGiGiGiGiGiLDh Pi.我在独立的训练阶段，从编码器接收有条件的输入，并从联合训练阶段。换句话说，h∈i=Gi（hi+1，zi）dur-在联合训练时，h_i=Gi（h_i+1，z_i）。本节所示的损失方程适用于-独立的训练阶段，但可以很容易地修改为联合pG（h0，h1，.， hN−1|h<$N）=QpGi（h<$i|hi+1），其中0≤i≤N −1每个pGi（h∈i|hi+1）由生成元Gi建模。从信息论的角度来看，SGAN分解了将图像分布H（x）的总熵分解为多个（较小的）条件熵项：通过替换h进行一期+1关于hi+1。H（h0，h1，...， hN）=<$N−1H（hi|hi+1）+H（y），从而直观地说，图像的总变化可以被消除，组成多个级别，具有更高级别的语义变化（例如，属性、对象类别、粗略形状）和较低级别的变化（例如，详细的轮廓和纹理、背景杂波）。我们的模型允许使用不同的噪声变量来表示不同水平的变化。训练过程如图所示。第1段（b）分段。每个生成器Gi都使用三个损失术语：对抗损失，条件损失和熵损失。L=λLadv+λLcond+λLent，（3）把一个困难的任务分解成多个简单的任务。3.3. 条件损失在每个栈处，生成器Gi被训练以捕获以高水平表示hi+1 为条件的低水平表示 hi 的分布。然而，在上文中，在公式中，生成器可能选择忽略hi+1，并从头开始生成合理的hi+1。一些以前的工作[40，15，5]通过将条件信息馈送到生成器和同步器来解决这个问题这个ap-Gi1Gi2Gi3Gi然而，接近可能会引入不必要的复杂性其中Ladv、Lcond、Lent分别表示对抗损失、条件损失和熵损失 λ1、λ2、λ3是与不同损失项相关联的权重。在行动实践上发现设置权重使得不同项的幅度具有相似的尺度就足够了。本款我们首先引入对抗损失Ladv。然后我们将增加模型的不稳定性[46，54]。在这里，我们采用不同的方法：我们通过添加一个名为条件的损失项Lcond来正则化生成器损失我们将生成的较低级别表示hi=Gi（hi+1，zi）反馈给编码器E，并计算恢复的较高级别表示。然后我们执行condGient恢复表示类似于条件在第二节中引入LGi和LGi分别为3.3和3.4。对于每个生成元Gi，我们引入一个表示表示。形式上：区分生成的表示h和“真实”表示h。具体而言，Lcond=Eh 一期+1CNOP数据，E，ziPzi [f（Ei（Gi（hi+1，zi）），hi+1）]i i（6）用损失函数训练BIDD i：i=Ei数据，E[−logDh）]+其中f是距离度量。我们定义f为Eu-对于中间表示的Clidean距离和对于标签的交叉熵。我们的条件损失Lcond类似于EziPz，hi+1CNOP数据，E[−log。1−Di（Gi（hi+1，zi））]（4）[ 7 ]和[ 62 ]中的Gi被训练为3.4. 熵损失简单地加上条件损失Lcond会导致-Ladv=Eh 一期+1CNOP数据，E，ziPzi [−log（Di（Gi（hi+1，zi）]（五）另一个问题：生成器G i学习忽略噪声z i，并从hi+1确定性地计算hi。这个问题-在联合训练期间，由代表性鉴别器提供的对抗性损失也可以被视为一种深度监督[35]，提供中间监督信号。在我们目前的表述中，E是一个判别模型，G是一个以标签为条件的生成模型。然而，也可以在不使用标签信息的情况下训练SGAN：E可以用未监督的目标来训练，G可以通过从顶部生成器移除标签输入来转换为无条件生成模型。我们把它留给未来的探索。取样. 为了对图像进行采样，所有G i以自上而下的方式堆叠在一起，如图所示。第1段（c）分段。我们的SGAN能够对数据分布进行建模，在类标签上指定：pG（x|y）=pG（h≤0|hN）我5082LEM在各种条件的应用中遇到，常规GAN，例如，合成以先前帧为条件的未来帧[39]，生成以标签映射为条件的图像[25]，以及与我们的工作最相关的，合成以特征表示为条件的图像[7]。所有上述工作都试图通过将噪声馈送到生成器来生成不同的图像/视频，但是失败了，因为连续性生成器简单地忽略了噪声。据我们所知，目前还没有一个原则性的办法来处理这个问题.这可能是诱人的认为，小批量歧视[53]，鼓励样本多样性在每个小批量，可以解决这个问题。然而，即使生成器从hi + 1确定性地生成hi，由于生成器以不同的hi+1 为条件，因此每个小批中生成的样本仍然是不同的。因此，没有任何obo。5083Gi`xGiGiGi你我我=h我小批量判别可能会惩罚崩溃的条件生成器。变分条件熵最大化。为了解决这个问题，我们希望鼓励生成的表示h i在hi+1，i的条件下充分不同。e. ，条件熵yH（h∈i|hi+1）应尽可能高。由于直接最大化H（h∈i|hi+1）是不可实现的，我们提出用极大化来代替条件熵的变分下界. 具体地说，我们使用一个对称分布Qi（zi|hi）来近似真实的后验Pi（zi|hi），并使用名为熵损失的损失项来增强训练目标：图像返回到潜在空间来执行无监督特征学习。独立于我们的工作，[4]提出用熵最大化来正则化EBGAN[68]，以防止熵退化为均匀预测。我们的熵损失的动机是从相同的条件输入生成多个可能的输出。4. 实验在本节中，我们对各种数据集进行了实验，包括MNIST [34]，SVHN [41]和CIFAR-10 [29]。代码和预训练模型可在https://github.com/xunhuang1995/SGAN上获得。Lent=EzP[Eh i Gi（hi|（i）[−logQi（zi|h（i）]]（7）读者可以参考我们的代码库了解更多细节关于实验装置超参数等等下面我们给出一个证明，最小化Lent等价于最大化H（h∈i）的一个变量下界|hi+1）。H（hi|hi+1）=H（h∈i，zi|hi+1）−H（zi|hi，hi+1）≥H（h∈i，zi|hi+1）− H（zi|hi）=H（zi|hi+1）+H（hi|zi，hi+1）−H（zi|hi）˛¸0=H（zi|hi+1）−H（zi|hi）=H（zi）−H（zi|hi）=E[E"[logPi（z′|hi）]]+H（zi）编码器：对于所有数据集，我们使用一小CNN使用两个卷积层作为编码器：conv 1-pool 1-conv2-pool 2-fc 3-fc 4，其中fc 3是全连接层，fc4在softmax之前输出分类分数。在CIFAR-10上，我们应用水平翻转来训练编码器。在其他数据集上不使用数据扩充。发电机：我们使用发电机与两个堆栈通过我们的实验.请注意，我们的框架通常适用于具有多个堆栈的设置，并且我们假设使用更多堆栈将有助于大型hiG iE iG iziPi（zi|hi）[Ez′]P（z′|h）我我我[logQi（z′|hi）]规模和高分辨率数据集。对于所有数据集，我们的顶级GANG从一些随机噪声中生成fc3i i i1+KLD（Pi<$Qi）]+H（zi）联系我们≥0≥E[E′′[logQi（z′|hi）]]+H（zi）z1，条件是标签y。底部GAN G0生成图像来自一些噪声z0，条件是从GANG1生成的fc 3特征。我们设置损耗系数pa-参数λ=λ= 1和λ= 10。1hiGiziPi（zi|hi）i1 2 3=Ez′P′[Ez′[logQi（z′|hi）]]+H（zi）izihiGi（hi|zi）i4.1. 数据集，−Lent+H（zi）（八）我们在三个广泛采用的数据集上对SGAN进行了全面评估：[ 34 ][35][36][37][39在实践中，我们用深度网络来参数化Q i，该深度网络预测zig iv enhi的后验分布。 Qi与D i共享大部分参数。我们把后面当作具有固定标准偏差的对角高斯，并使用网络Qi仅预测后验均值，使Lent等效于欧几里得重建误差。在每次迭代我们更新Gi和Qi以最小化Lent。我们的方法类似于变分互信息，Chen等人提出的最大化技术。[2]的文件。一个关键的区别是，[2]使用Q网络来预测只有一小部分故意构造的因此，[2]中使用的损失最大化了输出和潜在代码之间的互信息而我们的最大化了输出h的熵，条件，在hi+1上执行。[6，10]还训练一个单独的网络来映射5084每个数据集的详细信息如下所述。MNIST：MNIST数据集包含70，000个手写数字的标记图像，其中60，000个在训练集中，10，000个在测试集中。每幅图像的大小为28 ×28。SVHN：SVHN数据集由Google街景收集的真实世界房屋号码的彩色图像组成[41]。每个图像的大小为32×32，任务是对图像中心的数字进行分类。该数据集包含73，257张训练图像和26，032张测试图像。CIFAR-10：CIFAR-10数据集由32×32像素的彩色自然场景图像在10个类中有[1]参数的选择是为了使每个损失项的大小具有相同的尺度。5085(a)SGAN样本（以（b）真实图像（最近邻）标签为条件）(c)SGAN样品（以（d）为条件） SGAN 样品（条件（a）SGAN样本（以（b）真实图像（最近邻）标签为条件）(c)SGAN样品（以（d）为条件） SGAN 样品（条件生成的fc3特征）在生成的fc3特征上，经过训练无熵损失）生成的fc3特征）在生成的fc3特征上，经过训练无熵损失）图2：MNIST结果。（a）SGAN以类别标签为条件生成的样本。(b)训练集中对应的最近邻图像。(c)当以固定的fc3功能激活为条件时，由底部GAN生成的样本由顶部GAN生成。(d)与（c）相同，但底部GAN在没有熵损失的情况下进行训练。4.2. 样品在图2（a）中，我们显示了SGAN生成的MNIST样本。每一行对应于以给定数字类别标签为条件的样本。SGAN能够生成具有不同特征的各种图像。这些样本在视觉上与图2（b）所示的真实MNIST图像无法区分，但与相应的最近邻训练图像相比仍有差异。我们进一步研究熵损失的影响。图2(c)我们示出了当以由顶部GAN生成的固定fc3特征为条件时由底部GAN生成的样本。样本（每行）具有足够的低水平变化，这确保了底部GAN学习生成图像而不忽略噪声z0。相反，在图在图2（d）中，我们示出了在不使用底部生成器的熵损失的情况下生成的样本，其中我们观察到底部GAN忽略了噪声，而是确定性地从fc 3特征生成图像。与普通GAN相比，SGAN的一个优点是图3：SVHN结果。（a）SGAN以类别标签为条件生成的样本。(b)训练集中对应的最近邻图像。(c)当以固定的fc3功能激活为条件时，由底部GAN生成的样本由顶部GAN生成。(d)与（c）相同，但底部GAN在没有熵损失的情况下进行训练。它的可解释性：它将图像的总变化分解为不同的层次。例如，在MNIST中，它将变化分解为表示高级数字标签的y、捕获数字的中级粗略姿态的z1和表示低级空间细节的z 0。在SVHN和CIFAR-10数据集上生成的样本可以在图中看到。分别参见图3和图4。提供了相同的fc3功能，我们看到在面板（c）的每一行中，SGAN能够生成具有类似粗轮廓但不同照明条件和背景杂波的样本。此外，训练集中的最近邻图像表明，SGAN不是简单地记忆训练数据，而是真正能够生成新的图像。4.3. 与最新技术水平的比较在这里，我们将SGAN与CIFAR-10数据集上的其他最先进的生成图像的视觉质量由广泛使用的度量标准Inception score [53]来衡量。在[53]之后，我们从我们的模型中抽取了50，000张图像，并使用[53]提供的代码。5086(a)SGAN样本（以（b）真实图像（最近邻）标签为条件）(c)SGAN样品（以（d）为条件） SGAN 样品（条件方法评分[1]第四章：62 ±0。06[ 10 ]第五节：第五34 ±0。05GMAN [11]（best variant）6. 00 ±0。19[4]第四章07 ±0.10[65]第六十五话17±0。07[63 ]第63话：我的世界72±0。13DCGAN†（带标签，如[61]中所报告）6. [6 1]第六章. 35Impr over edGAN<$[5 3]（bestvariant）8. 09±0. 07[43]第四十三话25±0。07DCGAN（Ladv）6. 16 ±0。07DCGAN（Ladv+ Lent）5. 40± 0。16DCGAN（Ladv+Lcond）†5。40±0。08DCGAN（Ladv+Lcond+Lent）†7。16±0。10SGAN-无连接t<$8.37±0。08SGAN†8.59±0。12真实数据11. 24 ±0。12†接受标签培训生成的fc3特征）在生成的fc3特征上，经过训练无熵损失）表1：CIFAR-10的初始评分。SGAN和SGAN-无联合优于以前的最先进的方法。图4：MNIST结果。（a）SGAN以类别标签为条件生成的样本。(b)训练集中对应的最近邻图像。(c)当以固定的fc3功能激活为条件时，由底部GAN生成的样本由顶部GAN生成。(d)与（c）相同，但底部GAN在没有熵损失的情况下进行训练。来计算分数。如 Tab. 所示。 1 ， SGAN 获得 8 分。59±0。[43 ]第43话，我的世界25±0。07）和改进的GAN [53]（8. 09 ±0. 07）。还有，注意，[53]中介绍的5种技术不用于我们的实现。使用这些技术可能进一步提高我们模型的性能。4.4. 视觉图灵测试为了进一步验证SGAN的有效性，我们进行了人类视觉图灵测试，要求AMT工作人员区分真实图像和我们的网络生成的图像。我们完全遵循改进的GAN [53]中使用的界面，其中工作人员每次获得9个图像，并且可以接收关于他们的答案是否正确的反馈。每种车型有9000张选票，我们的AMT工人得到了24张。4%的错误率从SGAN和15。6%，来自DC的样本-GAN（Ladv+Lcond+Lent）。这进一步证实了我们的堆叠设计可以显著提高图像质量而不是叠加。50874.5. 更多消融研究节中4.2我们已经考察了熵损失的影响。为了进一步了解不同模型组件的效果，我们通过评估CIFAR-10数据集上的几种基线方法进行了广泛的消融研究如果没有另外提到，下面的所有模型都使用与完整SGAN模型相同的训练超参数。(a) SGAN：完整的模型，如第二节所述。3 .第三章。(b) SGAN-无接头：与（a）相同的架构，但每个GAN都是独立训练的，没有最终的联合训练阶段。(c) DCGAN（Ladv+Lcond+Lent）：这是一个单一的GAN模型，与底层GAN具有相同的架构在SGAN中，除了生成器以标签而不是FC3特征为条件。注意，本文中提出的其他技术，包括条件损失Lcond和熵损失Lent，仍然被采用。我们还尝试使用SGAN中的完整生成器G作为基线，而不是仅使用底部生成器G0。但是，我们没能让它收敛，可能是-因为G太深而不能在没有来自表示鉴别器的中间监督的情况下训练。(d) DCGAN（Ladv+Lcond）：与（c）相同的架构，但在没有熵损失的情况下训练。50881) SGAN获得的Inception评分略高于SGAN-无关节。然而，SGAN-no-joint也生成了非常高质量的样本，并且在Inception分数方面优于所有其他方法。(a)SGAN（b）SGAN-无接头(c)DCGAN （ LADV+LCOND+LENT ）（ d ） DCGAN（Ladv+Lcond）(e)DCGAN（Ladv+Lent）（f）DCGAN（Ladv）图5：CIFAR-10的消融研究。样本(a) （ b ）没有联合训练的 SGAN （ c ）用Ladv+Lcond+Lent训练的DC- GAN（d）用Ladv+Lcond训练的DCGAN（e）用Ladv+L(f)DCGAN与Ladv一起训练。(e) DCGAN（Ladv+Lent）：与（c）相同的架构，但在没有条件损失Lcond的情况下训练。因此，该模型不使用标签信息。(f) DCGAN（Ladv）：与（c）相同的架构，但既没有条件损失Lcond也没有熵损失Lent进行训练。该模型也不使用标签信息。它可以被看作是一个简单的无条件DC-GAN模型[47]并作为最终基线。我们比较生成的样本（图）。5）和Incep- tion评分（表（1）基准方法。下面我们总结了我们的一些结果：50892) SGAN，无论有或没有联合训练，实现显着更高的Inception分数和更好的样本质量比基线DCGAN。这证明了所提出的堆叠方法的有效性。3) 如图5（d），DCGAN（Ladv+Lcond）崩溃为每个类别生成单个图像，而添加熵损失使其能够生成不同的图像。图像（图5（c））。这进一步证明了熵损失在提高输出多样性方面是有效的4) 单DCGAN（Ladv+Lcond+Lent）模型获得的初始评分高于[61]中报告的条件DC-GAN这表明，Lcond+Lent与普通cond相比可能具有一些优势即使没有堆叠，也会出现DCGAN。5) 一般来说，Inception评分[53]与图像的视觉质量相关。然而，它似乎对多样性问题不敏感。例如，它给图相同的分数。5（d）和（e），而（d）显然已经崩溃。这与[43，61]中的结果一致。5. 讨论和未来工作本文介绍了一个自顶向下的生成框架SGAN，它有效地利用了来自预先训练的判别网络的表示信息。我们的方法将估计图像分布的困难问题分解为多个相对容易的任务-每个任务都生成基于更高级别表示的合理表示。其核心思想是在不同的训练层次上使用表征鉴别器来提供中间监督。我们还提出了一种新的熵损失来解决条件GAN倾向于忽略噪声的问题。我们的熵损失可以用于条件GAN的其他应用中，例如。在给定相同的过去帧的情况下合成不同的未来帧[39]，或者生成以相同的标签图为条件的不同的图像集合[25]。我们相信这是未来一个有趣的研究方向。致谢我们要感谢陈丹璐对Fig.的帮助1.一、同时，我们也要感谢陈丹璐、唐帅、谢胜宁、涂卓文、吴立和温伯格，他们为我们提供了有益的讨论。YixuanLi由美国陆军研究办公室W 911 NF-14-1-0477支持。 Serge Belongie 的研究部分得到了 GoogleFocused Research Award的支持。5090引用[1] F. Bordes，S. Honari，和P.文森特通过注入训练学习从噪声中在ICLR，2017。7[2] X. Chen ，Y. 段河，巴西 - 地Houthooft ， J. 舒尔曼岛Sutskever和P.阿比尔Infogan：通过信息最大化生成对抗网络进行可解释表示在NIPS，2016年。5[3] X.陈先生，Y.孙先生，B.Athiwaratkun，C.卡迪，还有K. 温伯格用于跨语言情感分类的对抗深度平均网络。arXiv预印本arXiv：1606.01614，2016。[4] Z.戴，A.Almahairi，P.巴赫曼E.霍维，还有A.考维尔校准基于能量的生成对抗网络。在ICLR，2017。五、七[5] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。2015年，在NIPS中。二、四[6] J. 多纳休山口Kr aühenbuühl 和 T. 达雷尔。adversarialfeature-ture learning.在ICLR，2017。5[7] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有感知相似性度量的图像。在NIPS，2016年。二、四[8] A. Dosovitskiy和T.布洛克斯使用卷积网络反转视觉表示在CVPR，2016年。2[9] A. 多索维茨基Tobias Springenberg和T.布洛克斯学习用卷积神经网络生成椅子CVPR，2015。1[10] 迪穆兰岛贝尔加齐湾Poole，A. Lamb，M. 阿尔约夫斯基O. Mastropietro 和 A. 考维尔从对抗中习得的推理在ICLR，2017。五、七[11] I.杜鲁卡岛Gemp和S. Mahadevan生成式多对抗网络。在ICLR，2017。7[12] Y. Ganin，E.乌斯蒂诺娃Ajakan山口Germain，H.拉罗谢尔F.拉维奥莱特M Marchand和V。Lempitsky神经网络的领域对抗训练。JMLR，2016.[13] L. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络进行纹理合成。2015年，在NIPS[14] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格转换在CVPR，2016年。[15] J. Gauthier用于卷积人脸生成的条件生成对抗网络。斯坦福大学CS231N课程：卷积神经网络的视觉识别，冬季学期，2014年，2014年。4[16] M. Germain ， K. 格雷戈尔岛 Murray 和 H. 拉罗谢尔Made：用于分布估计的掩蔽自动编码器。ICML，2015。2[17] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。一、二、三[18] K. 格雷戈尔 I. 丹妮赫卡 A. 格拉夫D. Rezkirk，以及D.维尔斯特拉Draw：用于图像生成的递归神经网络。ICML，2015。2[19] K. 格雷戈尔岛Danihelka，A.姆尼赫角Blundell和D.好极了。深度自回归网络InICML，2014. 2[20] S. Gupta，J. Hoffman，and J.马利克监督转移的交叉模态提取。在CVPR，2016年。一、二5091[21] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。1[22] G. E.辛顿通过最小化对比差异来训练专家的产品。神经计算，14（8）：1771 2[23] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络降低数据的维数。Science，313（5786）：504-507，2006. 2[24] J. Hoffman，D. Wang，F. Yu和T.达雷尔。野生动物：像素级对抗和基于约束的自适应。arxiv，2016.[25] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。arxiv，2016. 四、八[26] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。在ECCV，2016年。2[27] D. P. Kingma，S.Mohamed，D.J. Rezende和M.威林使用深度生成模型的半监督学习。在NIPS，2014。2[28] D. P.Kingma和M.威林自动编码变分贝叶斯。见ICLR，2014年。一、二[29] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。技术报告，2009年。5[30] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。1[31] A. Lamb，V. Dumoulin，and A.考维尔生成模型的判别正则化。InICML，2016. 2[32] H.拉罗谢尔和我。默里神经元自回归方差估计。载于AISTATS，2011年。2[33] A. B. L. Larsen，S. K. Sønderby和O.温瑟使用学习到的相似性度量来自动编码超出像素。InICML，2016. 2[34] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998. 5[35] C.- Y. 李，S。Xie，山核桃P.Gallagher，Z.zhang和Z.涂。深层监控网。InAISTATS，2015. 4[36] Y. Li，K.Swersky和R.泽梅尔生成矩匹配网络。ICML，2015。1[37] A. Mahendran和A.维达尔迪使用自然前图像可视化深度卷积神经网络IJCV，第12[38] A. 马赫扎尼J.Shlens，N.杰特利和我古德费罗对抗性自动编码器。在NIPS，2016年。1[39] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。ICLR，2016年。四、八[40] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。4[41] Y. Netzer，T.Wang，中国山核桃A.Coates，A.比萨科湾Wu，和A.Y. Ng.使用无监督特征学习读取自然图像中的数字。2011. 5[42] A. Nguyen，J. Yosinski，Y. Bengio，A. dosovitskiy和J. Clune即插&即用生成网络：潜空间中图像的条件迭代生成。在CVPR，2017年。25092[43] A.奥德纳角，澳-地Olah，和J。史伦斯辅助分类器gans的条件图像合成。arXiv预印本arXiv：1610.09585，2016年。七、八[44] A. v. d.奥德湾Kalchbrenner和K. Kavukcuoglu像素递归神经网络。InICML，2016. 一、二[45] A. 诉D. 奥德湾Kalchbrenner，O.维尼亚尔斯湖埃斯佩霍尔特A. Graves和K. Kavukcuoglu条件图像生成与pixelcnn解码器。在NIPS，2016年。2[46] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。4[47] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。二、八[48] A. 拉斯穆斯贝格伦湾洪卡拉河瓦尔波拉，T.莱子使用梯形网络的半监督学习。2015年，在NIPS中。2[49]S. Reed，Z.Akata，X.延湖，澳-地洛格斯瓦兰湾schiele和H.李你生成对抗文本到图像合成。在ICML，2016。2[50] D. J. Rezende，S. Mohamed和D.维尔斯特拉深层生成模型中的随机反向传播和近似推理。

下载后可阅读完整内容，剩余1页未读，立即下载