图像合成的模式搜索生成对抗网络

67 浏览量更新于2023-10-18 收藏 2.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1429用于多种图像合成的模式搜索生成对抗网络毛琦1，李欣颖2，曾宏宇2，马思伟1，3，杨铭轩2，41北京大学数字媒体研究所2加州大学默塞德分校3鹏程实验室4谷歌云图1：模式搜索生成对抗网络（MSGAN）。（左）现有的条件生成对抗网络倾向于忽略输入的潜在代码z，并生成类似模式的图像。（右）我们提出了一个简单而有效的模式寻求正则化项，可以应用于不同任务中的任意条件生成对抗网络，以缓解模式崩溃问题并提高多样性。摘要大多数条件生成任务期望在给定单个条件上下文的情况下有不同的输出。然而，条件生成对抗网络（cGAN）通常关注先验条件信息，而忽略输入噪声向量，这会导致输出变化。最近试图解决cGAN的模式崩溃问题通常是特定于任务的，并且计算成本很高。在这项工作中，我们提出了一个简单而有效的正则化项来解决cGAN的模式崩溃问题。所提出的方法显式地最大化所生成的图像之间的距离相对于相应的潜码的比率，从而鼓励生成器在训练期间探索更多的次要模式。该模式寻求正则化项可容易地应用于各种条件生成任务，而无需施加训练开销或修改原始网络结构。我们验证了所提出的算法上的三个条件图像合成任务，包括分类生成，图像到图像的翻译，和文本到图像的合成与不同的基线模型。定性和定量的结果表明，所提出的正则化方法的有效性，提高多样性，而不损失质量。*同等贡献1. 介绍生成对抗网络（GAN）[8]已被证明可以有效地捕获复杂和高维的图像基于GAN，条件GAN（cGAN）[20]将外部信息作为额外的输入。对于图像合成，cGAN可以应用于具有不同条件上下文的各种任务。通过类标签，cGAN可以应用于分类图像生成。对于文本句子，cGAN可以应用于文本到图像的合成[22，29]。对于图像，cGAN已用于图像到图像翻译[10，11，14，16，31，32]，语义操作[28]和风格转换[15]。对于大多数条件生成任务，映射本质上是多模态的，即，单个输入上下文对应于多个似然输出。处理多模态的一种直接方法是将随机噪声向量与条件上下文一起作为输入，其中上下文确定主要内容，噪声向量负责变化。例如，在狗到猫的图像到图像翻译任务[14]中，输入的狗图像决定了头部的方向和面部标志的位置等内容，而噪声向量有助于不同物种的生成。然而，cGAN通常遭受模式崩溃[8，24]问题，其中生成器cGANs输入图像潜码Z这只鸟有黑色的羽毛和红色的腹部文本MSGAN1430仅从分布的单个或几个模式中产生样本，而忽略其他模式。噪声向量被忽略或影响较小，因为cGAN更注重从高维和结构化的条件上下文中学习。解决GAN中的模式崩溃问题有两种主要方法。许多方法通过引入不同的发散度量[1，18]和优化过程[6，19，24]来关注鉴别器。其他方法使用辅助网络，如多个生成器[7，17]和附加编码器[2，4，5，25]。然而，模式崩溃在cGAN中的研究相对较少。最近在图像到图像翻译任务中已经做出了一些努力来提高多样性[10，14，32]。类似于具有无条件设置的第二类别，这些方法引入附加的编码器和损失函数以鼓励输出和潜在代码之间的一对一关系。这些方法要么在训练时需要大量的计算开销，要么需要辅助网络，这些网络通常是特定于任务的，不能轻易扩展到其他框架。在这项工作中，我们提出了一种模式寻求正则化方法，可应用于cGAN的各种任务，以减轻模式崩溃问题。给定两个隐向量和相应的输出图像，我们提出最大化图像之间的距离与隐向量之间的距离换句话说，这个正则化项鼓励生成器在训练期间生成不同的图像。因此，生成器可以探索目标分布，并提高从不同模式生成样本的机会。另一方面，我们可以用不同的生成样本来训练鉴别器，以提供来自可能被忽略的次要模式的梯度。这种模式搜索规则化方法会产生边际计算开销，并且可以容易地嵌入到不同的cGAN框架中以提高合成图像的多样性。我们通过对具有不同基线模型的三个条件图像合成任务首先，对于分类图像生成，我们使用CIFAR-10[12]数据集在DCGAN [21]上应用所其次，对于图像到图像的翻译，我们嵌入了建议的reg-Pix2Pix [11] 和 DRIT [14] 中使用 facades [3] ， maps[11] ， Yosemite [31] 和 cat odily dog [14] 数据集的ularization方案第三，对于文本到图像的合成，我们使用CUB-200-2011 [27]数据集将StackGAN++ [29]与提出的正则化项结合起来。我们评估的使用感知距离度量合成图像的多样性[30]。然而，单独的多样性度量不能保证生成的图像的分布和真实数据的分布之间的相似性。因此，我们采用两个最近提出了基于箱的度量 [23]，统计上不同的箱（NDB）度量，其确定落入由真实数据预先确定的聚类中的样本的相对比例，以及詹森-香农发散（JSD）距离，其测量箱分布之间的相似性。此外，为了验证我们不会以牺牲现实主义为代价来实现多样性，我们使用Fre'chetInceptionDistance（FID）[9]作为质量度量来评估我们的方法实验结果表明，该正则化方法可以在保证图像质量的前提下，使不同应用中的模型具有更好的多样性 .Figure 1 shows the effectiveness of theproposed regularization method forex- isting models.这项工作的主要贡献是：• 我们提出了一种简单而有效的模式搜索正则化方法来解决cGAN中的模式崩溃问题。这种正则化方案可以很容易地扩展到现有的框架中，只需少量的训练开销和修改。• 我们证明了建议的普遍性正则化方法在三个不同的条件生成任务：分类生成、图像到图像的翻译和文本到图像的合成。• 大量实验表明，该方法可以促进来自不同任务的现有模型实现更好的多样性，而不牺牲所生成图像的视觉质量。我们的代码和预训练模型可在https://github.com/HelenMao/MSGAN/网站。2. 相关工作条件生成对抗网络.生成对抗网络[1，8，18，21]已广泛用于图像合成。通过对抗训练，鼓励生成器捕捉真实图像的分布。在GAN的基础上，条件GAN基于各种上下文合成图像。例如，cGAN可以生成以低分辨率图像为条件的高分辨率图像[13]，在不同的视觉域之间转换图像[10，11，14，16，31，32]，生成具有所需风格的图像[15]，并根据句子合成图像[22，29]。虽然cGAN在各种应用中取得了成功，但现有方法存在模式崩溃问题。由于条件上下文为输出图像提供了强的结构先验信息，并且具有比输入噪声向量更高的维度，因此生成器倾向于忽略输入噪声向量，这是导致生成图像变化的原因。结果，发生器易于产生具有相似外观的图像在这项工作中，我们的目标是解决cGAN的模式崩溃问题。1431M2M2M4M4I1I2I3z1z2z3图像数据潜码模式M图像I分布分布真实数据M2模式搜索MI11I2I3dI（Ia，Ib）dz（za，zb）0.680.58图像空间I潜空间Z图2：动机说明。实际数据分发包含多种模式。然而，当模式崩溃发生时，发生器仅从少数模式产生样本从模式崩溃发生时的数据分布中，我们观察到对于潜向量z1和z2，当两个潜向量之间的距离减小时，它们的映射图像I1和I2之间的距离将以不成比例的速率变短。我们在右边给出了图像之间的距离相对于对应的潜向量的距离的比率，在那里我们可以发现模式崩溃发生的异常情况（用红色表示）观察激励我们明确地利用比率作为训练目标减少模式崩溃。一些方法专注于具有不同优化过程[19]和发散度量[1，18]的训练过程，以稳定训练过程。小批量鉴别方案[24]允许鉴别器在整个小批量样品之间而不是在单个样品之间进行鉴别。在[6]中，Du- rugkaret al.使用多个鉴别器来解决这个问题。其他方法使用辅助网络来缓解模式崩溃问题。ModeGAN [2]和VEE-GAN [25]使用额外的编码器网络在输入噪声向量和生成的图像之间执行双射映射。开发了多个生成器[7]和权重共享生成器[17然而，这些方法要么需要大量的计算开销，要么需要修改网络结构，并且可能不容易适用于cGAN。在cGAN领域，最近已经做出了一些努力[10，14，32]来解决图像到图像转换任务中的模式崩溃问题。与ModeGAN和VEEGAN类似，引入额外的编码器来提供生成的图像和输入噪声向量之间的双射约束。然而，这些方法需要其他特定任务的网络和目标函数。额外的组件使方法的泛化性降低相反，我们提出了一个简单的正则化项，它不需要训练开销，也不需要修改网络结构因此，所提出的方法可以很容易地应用到各种条件生成任务。3. 多条件图像合成3.1. 预赛GANs的训练过程可以被公式化为一个最小-最大问题：通过将较高的判别值分配给真实数据样本并将较低的判别值分配给所生成的样本，CJD学习成为分类器。同时，生成器G的目标是通过合成真实的例子来欺骗D.通过对抗训练，来自D的梯度将引导G生成具有与真实数据相似分布的样本。GAN的模式崩溃问题在文献中是众所周知的。几种方法[2，24，25]将缺失模式归因于发生此问题时缺少惩罚由于所有模式通常具有相似的判别值，因此通过基于梯度下降的训练过程，较大的模式可能会受到青睐。另一方面，很难从次要模式生成样本。模式丢失问题在cGAN中变得更糟。通常，条件上下文是高维的和结构化的（例如，图像和句子），而不是噪声向量。因此，生成器很可能专注于上下文而忽略噪声向量，这说明了多样性。M4M1M3M51432max（）（G（c，z1），G（c，z2））（0（z1，1StackGAN++我1一块钱I2这只鸟有羽毛它们是黑色的，腹部是红色的3.2. 模式搜索GAN在这项工作中，我们建议从发电机的角度来减轻缺失模式的问题。图2显示了我们方法的主要思想。让一个潜在的vec- 从潜在代码空间Z映射到图像空间I。当模式折叠发生时，映射的图像被折叠成几个模式。此外，当两个潜码z1和z2更接近时，映射图像I1=G（c，z1）和I2=G（c，z2）更可能折叠成相同模式。为了解决这个问题，我们提出了一个模式寻求正则化项，直接最大化G（c，z）和G（c，z）之间的距离之比.(a) 拟议正规化1 2关于z1和z2之间的距离，dI（G（c，z1），G（c，z2））潜在代码01 - 02 -2016刘晓波（Gdz（z1，z2）），（1）其中d（·）表示距离度量。正规化条款为培训提供了一个良性循环-ing cGAN。它鼓励生成器探索图像空间，并提高生成小模式样本的机会。另一方面，微处理器被迫关注从次要模式生成的样本。图2示出了模式崩溃情况，其中两个接近的样本z1和z2被映射到相同的模式M2上。然而，利用所提出的正则化项，z1被映射到I1，其属于未探索的模式M1。通过对抗机制，生成器将因此有更好的机会在以下训练步骤中生成M1如图3所示，建议的正则化项可以通过将其附加到原始目标函数来轻松地与现有cGAN集成Lnew=Lori+λmsLms，（2）其中Lori表示原始目标函数，λms权重来控制正则化的重要性。在这里，Lori可以作为一个简单的损失函数。例如，在分类生成任务中，Lori=Ec，y[logD（c，y）]+Ec，z[log（1−D（c，G（c，z）））]，（三）其中c、y、z分别表示类别标签、真实图像和噪声在图像到图像翻译任务[11]中，Lori=LGAN+Ex，y，z[<$y−G（x，z）<$1]，（4）其中x表示输入图像，LGAN是典型的GAN损失。Lori可以是任何任务的任意复杂目标函数，如图3（b）所示我们将所提出的方法命名为模式搜索GANs（MSGANs）。4. 实验我们通过广泛的定量和定性评价来评估所提出的正则化方法我们...1433(a) 在StackGAN++图3：建议的正则化。（a）我们提出了一个正则化项，该正则化项最大化所生成的图像之间的距离相对于它们对应的输入潜码之间的距离的比率。(b)所提出的正则化方法可以应用于任意 cGAN 。以StackGAN++[29]为例，这是一种用于文本到图像合成的模型，无论原始模型的复杂树状结构如何，我们都可以轻松地应用正则化项。将MSGAN应用于来自三个代表性条件图像合成任务的基线模型：分类生成、图像到图像的转换和文本到图像的合成。请注意，我们使用所提出的正则化项来增强原始目标函数，同时保持原始网络架构和超参数。我们采用L1范数距离作为dI和dz的距离度量，并在所有实验中设置h型参数λms=1.更多实施和评估细节，请参阅补充材料。4.2. 评估指标我们使用以下指标进行评估。FID的为了评估生成图像的质量，我们使用FID [9]通过Inception Network[26]提取的特征来测量生成的分布与真实分布之间的距离。较低的FID值指示所生成的图像的较好质量。LPIPS。为了评估多样性，我们采用LPIPS [30]，如下[10，14，32]。LIPIS测量生成的样本之间的平均特征距离。较高的LPIPS分数表明生成的图像之间的更好的多样性。NDB和JSD。为了测量两个人之间的相似性，1434表1：CIFAR-10数据集的NDB和JSD结果。度量模型飞机汽车鸟猫鹿DCGAN四十九60 ±3。43五十三00 ±7。28三十四40±6。11四十六岁。00±1。4144. 80± 3。90NDB↓MSGAN四十六岁。60± 7。4051岁80± 2。2839岁40 ±1。9541岁80± 3。70四十六岁。80 ±4。92DCGAN0的情况。034±0. 0010的情况。035±0. 0020的情况。025±0. 0020的情况。030±0。0020的情况。033± 0. 001JS↓MSGAN0的情况。031± 0。0010的情况。033± 0. 0010的情况。027±0. 0010的情况。027± 0. 0010的情况。035±0. 003狗青蛙马船卡车DCGAN50块40 ±4。6252岁00 ±3。81五十四40 ±4。04四十二80 ±5。45四十七80±4。55NDB↓MSGAN三十三岁。80± 3。27四十二00±2。92四十七60±5。0341岁00± 2。92四十三80±6。61DCGAN0的情况。033±0. 0010的情况。034±0. 0020的情况。035±0. 0010的情况。029±0. 0030的情况。032±0. 001JS↓MSGAN0的情况。024± 0。0010的情况。030± 0。0020的情况。033±0. 0030的情况。027± 0. 0010的情况。029± 0. 003表2：CIFAR-10数据集的FID结果。型号DCGANMSGANFID↓29. 65± 0。06 28. 73 ±0。06为了在真实图像和生成图像之间进行比较，我们采用了[23]中提出的两个基于bin的度量，NDB和JSD。这些度量评估了生成模型的模式缺失程度。在[23]之后，首先使用K均值将训练样本聚类到不同的bin中，这些bin可以被视为真实数据分布的模式。然后将每个生成的样本分配给其最近邻居的bin。我们计算训练样本和合成样本的bin比例，以评估生成的分布与真实数据分布之间的差异。然后计算二进制比例的NDB得分和JSD较低的NDB得分和JSD意味着生成的数据分布通过拟合更多的模式更好地接近真实数据分布。详情请参阅[234.3. 以类标签为条件我们首先验证所提出的方法的分类生成。在类别生成中，网络将类别标签作为条件上下文来合成不同类别的图像。我们将正则化项应用于基线框架DCGAN[21]。我们在CIFAR-10 [12]数据集上进行实验，该数据集包括十个类别的图像。由于CIFAR-10数据集中的图像大小为32×32，并且上采样会降低图像质量，因此我们在此任务中不计算LPIPS。表1和表2列出了NDB、JSD和FID的结果。MSGAN缓解了大多数类中的模式崩溃问题，同时保持图像质量。4.4. 根据图像图像到图像的翻译旨在学习两个视觉域之间的映射。以来自源域的图像为条件，模型试图合成相应的图4：多样性比较。提出的正则化项有助于Pix2Pix学习更多样化的结果。表3：立面和地图数据集的定量结果。数据集外观[32]第32话：我的世界FID↓139。19± 2。9492. 84± 1。0098. 85± 1。21NDB↓14. 40± 1。8212. 40± 0。5513. 80± 0。45JSD↓0. 074± 0. 0120. 038± 0. 004 0. 058± 0. 004LPIPS↑0。0003± 0. 00000. 1894± 0。00110. 1413± 0。0005数据集地图[32]第32话：我的世界FID↓168。99± 2。58 152. 43± 2。52 145. 78±3。90NDB↓49. 00± 1。0041. 60± 0。5546. 60± 1。341435JSD↓0. 088± 0. 0180. 031± 0。003 0. 023±0. 002LPIPS↑0。0016± 0. 00030. 2189± 0。00040. 1150± 0。0007在目标域中响应图像。尽管图像到图像翻译任务的多模态性质，1436图5：多样性比较。我们比较了MSGAN和DRIT在狗到猫，猫到狗和冬到夏的翻译任务。我们的模型比DRIT产生更多样化的样品。0 10 20Bin（模式）30 40空间为了证明推广性，我们将所提出的方法应用于使用配对训练数据的单峰模型Pix2Pix [11]和使用未配对图像的多峰模型DRIT [14]4.3.1以配对图像为条件我们以 Pix2Pix 为基准模型。我们还将 MSGAN 与BicycleGAN [32]进行了比较，BicycleGAN使用成对的训练图像生成不同的图像。为了公平的比较，发电机和发电机的架构，图6：狗→猫翻译的箱可视化。DRIT的转换结果可以分解为几个模态，而MSGAN生成的图像更符合实际数据分布。工作[11，31]放弃了噪声向量并执行一对一映射，因为潜码在训练期间容易被忽略，如[11，32]所示为了实现多模态，最近的几次尝试[10，14，32]引入了额外的编码器网络和目标函数，以在潜在代码空间和图像之间施加双向约束方法遵循BicycleGAN中的方法[32]。我们在立面和地图数据集上进行实验。MSGAN在Pix2Pix的所有指标上都获得了一致的改进。此外，MSGAN 展示了与 BicycleGAN 相当的多样性，BicycleGAN应用了自适应编码器网络。图. 4、桌子3分别给出定性和定量结果。4.3.2以不成对的图像为条件我们选择DRIT [14]，这是最先进的框架之一，可以通过非配对训练生成不同的图像分组比例训练±标准误差DRITMSGAN0.150.001437图7：多样性比较。我们在CUB-200-2011文本到图像合成数据集上展示了StackGAN++ [29]和MSGAN的示例。当文本代码固定时，MSGAN中的潜在代码有助于生成更多样化的鸟类外观和姿势以及不同的背景。表4：Yosemite（夏季和冬季）和Cat odly Dog数据集的定量结果。数据集夏季2冬季冬季2夏季FID↓DRIT [14]五十七24±2。03MSGAN51岁85 ±1。16DRIT [14]四十七37±3。25MSGAN四十六岁。23±2。45NDB↓JSD↓LPIPS↑二十五60±1。140的情况。066±0. 0050的情况。1150±0。0003二十二岁80±2。960的情况。046±0. 0060的情况。1468±0。0005三十60 ±2。970的情况。049±0. 0090的情况。0965±0. 0004二十七岁80±3。030的情况。038±0. 0040的情况。1183±0。0007数据集猫狗狗猫FID↓DRIT [14]二十二岁74±0。28MSGAN十六岁02 ±0. 30DRIT [14]62. 85 ±0。21MSGAN29岁57 ±0。23NDB↓JSD↓LPIPS↑四十二00 ±2。120的情况。127±0。0030的情况。245±0。002二十七岁20±0。840的情况。084±0. 0020的情况。280±0。00241岁00 ±0。710的情况。272±0。0020的情况。102±0。00131岁00 ±0。710的情况。068±0. 0010的情况。214±0。001数据，作为基准框架。虽然DRIT在大多数情况下合成不同尺寸的图像，但在一些具有挑战性的形状变化情况下（例如，猫和狗之间的翻译）。为了证明所提出的方法的鲁棒性，我们评估的形状-保存优胜美地（夏天和冬天）[31]数据集和猫和狗[14]数据集，需要形状变化。如表中所示的定量结果 4，MSGAN在两个数据集上的所有指标上都优于DRIT。特别是在具有挑战性的猫和狗数据集上，MSGAN获得了显著的多样性增益。从统计学的角度来看，我们可视化了图中的狗到猫的翻译六、该图显示了DRIT的严重模式崩溃问题和实质性的改进。1438用提出的正则化项进行证明。质量，数字。5显示MSGAN发现了更多的模式，而不会损失视觉质量。4.5. 以文本为文本到图像合成的目标是生成以文本描述为条件的图像。我们使用 CUB- 200-2011 [27] 数据集在StackGAN++ [29]上集成了提出的为了提高多样性，StackGAN++引入了条件增强（CA）模块，将文本描述重新参数化为高斯分布的文本代码。我们没有将正则化项应用于语义上有意义的文本代码，而是专注于利用从1439表5：CUB-200-2011数据集的定量结果。我们在两种情况下进行实验：1）以文本描述为条件，每个描述都可以映射到不同的文本代码。2）以文本代码为条件，其中文本代码是固定的，以便排除其影响。以文字说明为条件以文字代码为StackGAN++[29]MSGANStackGAN++[29]MSGANFID↓二十五99 ±4。26二十五53±1。83二十七岁12±1。15二十七岁94±3。10NDB↓三十八岁。20±2。39三十60 ±2。5139岁00 ±0。71三十60 ±2。41JSD↓0的情况。092±0。0050的情况。073±0. 0030的情况。102±0。0160的情况。095 ±0。016LPIPS↑0的情况。362±0。0040的情况。373±0。0070的情况。156±0。0040的情况。207 ±0。005图8：MSGAN中两个潜在代码之间的线性插值。图像合成的结果与线性插值之间的两个潜在的代码在狗到猫的翻译和文本到图像的合成。先验分布。然而，为了进行公平的比较，我们在两种设置中评估MSGAN与StackGAN++：1）在不固定文本代码的情况下执行生成以进行文本解压缩。在这种情况下，文本代码还为输出图像提供变化。2)使用固定文本代码执行生成。在此设置中，排除了文本代码的影响表. 5给出了MS-GAN和StackGAN++之间的定量比较MSGAN提高了StackGAN++的多样性，并保持了视觉质量。为了更好地说明潜在代码的多样性发挥的作用，我们与文本代码固定的定性比较。在这种情况下，我们不考虑 CA 产生的多样性。图 . 图 7 说明StackGAN++的潜在代码对图像的变化影响很小。相反，MSGAN的潜码对鸟类的各种形态和姿态都有贡献。4.6. MSGAN中的隐空间插值我们在两个给定的潜在代码之间执行线性插值，并生成相应的图像，以更好地了解MSGAN如何利用潜在空间。图. 图8示出了狗到猫翻译和文本到图像合成任务的插值结果。在狗到猫的翻译中，我们可以看到毛色和图案随着潜向量平滑地变化。在文本到图像的合成中，鸟的方向和立足点的外观都随着潜码的变化而逐渐变化5. 结论在这项工作中，我们在生成器上提出了一个简单但有效的模式寻求正则化项，以解决cGAN中的模型崩溃问题。通过最大化所生成的图像之间相对于对应的潜在代码之间的距离，正则化项迫使生成器探索更多的次要模式。所提出的正则化方法可以很容易地与ex-cGANs框架集成，而不需要增加训练开销和修改网络结构。我们演示了所提出的方法在三个不同的条件生成任务，包括分类生成，图像到图像的翻译，和文本到图像的合成的通用性。定性和定量的结果都表明，提出的正则化项有助于基线框架提高多样性，而不牺牲生成图像的视觉质量。鸣谢。本论文得到了美国国家科学基金会CAREER基金#1149783、Verisk、Adobe和NEC的捐赠、国家基础研究计划（973计划，2015CB351800）、国家自然科学基金（61632001）和北京大学高性能计算平台的支持，得到了高度认可。我们还要感谢NVIDIA通过NVAIL计划慷慨提供DGX-1超级计算机和支持。1440引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络ICML，2017。[2] Tong Che ， Yanran Li ， Athul Paul Jacob ， YoshuaBengio，and Wenjie Li.模式正则化生成对抗网络。在ICLR，2017。[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[4] Je f fDonahue ， PhilippK raühenbühl ，和 Tr ev 或Darrell。对抗性特征学习。在ICLR，2017。[5] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。在ICLR，2017。[6] Ishan Durugkar，Ian Gemp，and Sridhar Mahadevan. 生成多对抗网络。在ICLR，2017。[7] Arnab Ghosh ， Viveka Kulharia ， Vinay Namboodiri ，Philip H.S. Torr和Puneet K.多卡尼亚多智能体双向生成对抗网络。在CVPR，2018年。[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[9] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在NIPS，2017年。[10] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz. 多模态无监督图像到图像翻译。在 ECCV ，2018。[11] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。[12] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告，Citeseer，2009年。[13] 克里斯·蒂安·莱迪格、卢卡斯·泰斯、费伦茨·胡斯·扎尔、乔斯·卡瓦列罗、安德鲁·坎宁安、亚历杭德罗·阿科斯塔、安德鲁·艾特肯、阿利汗·特贾尼、约翰内斯·托茨、王泽汉和史文哲。使用生成对抗网络的照片逼真的单图像超分辨率。在CVPR，2017年。[14] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过解缠表征实现多样化的在ECCV，2018。[15] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成在ECCV，2016年。[16] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NIPS，2017年。[17] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。在NIPS，2016年。[18] 毛旭东，李庆，谢浩然，雷蒙德，王震，斯蒂芬·保罗·斯摩利。最小二乘生成对抗网络。InICCV，2017.[19] 卢克·梅兹，本·普尔，大卫·普法，还有贾沙·索尔-迪克斯坦.展开的生成对抗网络。在ICLR，2017。[20] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[21] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。[22] Scott Reed ， Zeynep Akata ， Xinchen Yan ， LajanugenLo- geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。InICML，2016.[23] 艾坦·理查森和耶尔·韦斯关于GAN和GATTRONIC。在NIPS，2018年。[24] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进了训练GAN的技术。在NIPS，2016年。[25] 放大图片作者：Akash Srivastava，Lazar Valkoz，ChrisRussell ， Michael U. Gutmann 和 Charles Sutton 。VEEGAN：使用隐式变分学习减少GAN中的模式崩溃。在NIPS，2017年。[26] Christian Szegedy ， Wei Liu ， Yangqing Jia ， PierreSermanet ， Scott Reed ， Dragomir Anguelov ， DumitruErhan，Vincent Vanhoucke，and Andrew Rabinovich.更深的回旋。CVPR，2015。[27] Catherine Wah、Steve Branson、Peter Welinder、PietroPerona和Serge Belongie。加州理工学院-ucsd鸟类-200-2011数据集。技术报告CNS-TR-2011-001，加利福尼亚理工学院，2011年。[28] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.使用条件GANs进行高分辨率图像合成和语义操作在CVPR，2018年。[29] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓磊，季米特里斯.堆栈- GAN++：使用堆叠生成对抗网络的真实图像合成。TPAMI，2018年。[30] 放大图片作者：Richard Zhang，Phillip Isola，Alexei A.艾弗罗斯，伊莱·谢克特曼，奥利弗·王.深度特征作为感知度量的不合理有效性。在CVPR，2018年。[31] Jun-Yan Zhu，Taesung Park，Phillip Isola，and Alexei A.埃夫罗斯使用循环一致对抗网络的不成对图像到图像翻译。InICCV，2017.[32] 作者：Zhu Jun-Yan，Richard Zhang，Deepak Pathak，Trevor Darrell，Alexei A. Efros，Oliver Wang，and EliShechtman.走向多模态图像到图像翻译。在NIPS，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载