多尺度梯度生成对抗网络（MSG-GAN）：稳定高分辨率图像合成的新方法

172 浏览量更新于2023-10-25 收藏 2.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7799MSG-GAN：生成对抗网络AnimeshKarnewarTomTomanimesh. tomtom.com奥多比研究owang@adobe.comCelebA-HQ FFHQ图1：我们提出的MSG-GAN技术的结果，其中生成器同时合成所有分辨率的图像，梯度直接从单个梯度流到所有级别。第一列的分辨率为4x4，向右增加，最终输出分辨率为1024x1024。在屏幕上放大最佳观看。摘要虽然生成对抗网络（GAN）在图像合成任务中取得了巨大的成功，但它们很难适应不同的数据集，部分原因是训练过程中的不稳定性和对超参数的敏感性这种不稳定性的一个普遍接受的原因是，当真实分布和假分布的支持中没有足够的重叠时，从卷积器到生成器的梯度变得没有信息。在这项工作中，我们提出了多尺度梯度生成对抗网络（MSG-GAN），这是一种简单但有效的技术，通过允许梯度在多个尺度上从神经网络流向生成器来解决这个问题。该技术为高分辨率图像合成提供了一种稳定的方法，并作为常用的渐进生长技术的替代方案。我们证明了MSG-GAN在不同大小，分辨率和域的各种图像数据集上稳定收敛，以及不同类型的损失函数和架构，所有这些都具有相同的固定超参数集。当与最先进的GAN进行比较时，我们的方法在我们尝试的大多数情况下都能达到或超过性能。1. 介绍自Goodfellowet al. [10]，生成对抗网络（GAN）已经成为高质量图像合成的事实上的标准。GAN的成功来自于这样一个事实，即它们不需要手动设计损失函数进行优化，因此可以学习生成复杂的数据分布，而不需要显式定义它们。虽然基于流的模型（如[6，7，27，18]）和自回归模型（如[32，31，29]）允许直接使用最大似然估计（分别显式和隐式）训练生成模型，但生成图像的保真度然而，GAN训练存在两个突出的问题：（1）模态崩溃;（2）训练不稳定。当生成器网络仅能够捕获数据分布中存在的方差的子集时，发生模式崩溃的问题。虽然许多作品[28，41，15，21]已被提出来解决这个问题，它仍然是一个开放的研究领域。然而，在这项工作中，我们解决了训练不稳定的问题。这是GAN的一个基本问题，已经被广泛报道。7800图2：MSG-GAN的架构，在ProGAN中提出的基础模型上显示[15]。我们的架构包括从生成器的中间层到鉴别器的中间层的连接。Multi-scale im- ages sent to the discriminator are concatenated with the corresponding activation volumesobtained from the main path of convolutional layers followed by a combine function (shown in yellow).以前的作品[28，22，2，11，19，33，14，15，37，25]。我们提出了一种方法来解决图像生成任务的训练不稳定性，方法是研究如何使用多尺度梯度来生成高分辨率图像（由于数据维度而通常更具挑战性），而不依赖于以前的贪婪方法，例如渐进式增长技术[15，16]。 MSG-GAN不仅可以查看生成器的最终输出（最高分辨率），还可以查看中间层的输出（图1）。2）。因此，判别器成为发生器的多个标度输出的函数，重要的是，同时将梯度到所有标度（更多细节见第1.1节和第2节）。此外，我们的方法对不同的损失函数（我们显示了WGAN-GP和具有单侧梯度惩罚的非饱和GAN损失的结果），数据集（我们在广泛的常用数据集和新创建的印度名人数据集上展示了结果）和架构（我们将MSG方法与Pro-GAN和StyleGAN基础架构集成）具有与渐进式增长[15]非常相似，我们注意到多尺度梯度在FID分数上比普通DCGAN架构有相当大的改进。然而，我们的方法在大多数现有数据集上的训练时间与最先进的方法相当，并且不需要渐进式增长引入的额外超参数（如训练时间表和学习），从而实现了更好的不同生成阶段的速率（分辨率）。这种鲁棒性允许MSG-GAN方法在新数据集上容易地我们还通过在高分辨率FFHQ数据集上的消融实验，展示了多个生成阶段（粗、中和细）上的多尺度连接的重要性总之，我们提出了以下贡献。首先，我们介绍了一种多尺度梯度技术的图像合成，提高了稳定性的培训定义在以前的工作。其次，我们证明了我们可以在许多常用的数据集上鲁棒地生成高质量的样本，包括CIFAR 10，Oxford 102 flowers，CelebA-HQ，LSUNChurches，Flickr Faces HQ和我们新的Indian Celebs，所有这些都具有相同的固定超参数。这使得我们的方法易于在实践中使用。1.1. 动机Arjovsky和Bottou [1]指出，GAN训练不稳定的原因之一是由于当真实和虚假分布的支持之间存在非实质性重叠时，从判别器到生成器的自GAN诞生以来，已经提出了许多解决方案一个早期的例子建议将实例噪声添加到真实和假图像中，以便支持最小限度地重叠[1，30]。最近，Penget al.[25]提出了互信息瓶颈7801输入图像与[15]提出了一种渐进增长技术，以增加不断增加的分辨率层。VDB解决方案迫使分类器只关注图像的最有辨识力的特征进行分类，这可以被视为实例噪声的自适应变体我们的工作是正交的VDB技术，我们离开的调查MSG-GAN和VDB的组合，以未来的工作。渐进增长技术通过逐步将生成图像的操作分辨率加倍来逐层训练GAN，从而解决每当一个新的层被添加到训练中时，它就会慢慢地消失，从而保留先前层的学习。直观地说，这种技术有助于解决支持重叠问题，因为它首先在较低分辨率上实现了良好的分布匹配，其中数据维度较低，然后使用这些先前训练的权重部分匹配（真实和假分布之间有大量支持重叠）较高分辨率训练，专注于学习更精细的细节。虽然这种方法能够生成最先进的结果，但由于添加了要按分辨率调整的超参数，包括不同的迭代计数，学习率（对于生成器和鉴别器[12]可能不同）和淡入迭代，因此很难训练。此外，同时提交的一份文件[17]发现，它会导致相位伪影，其中某些生成的特征被附加到特定的空间位置。因此，我们的主要动机在于通过提供更简单的替代方案来解决这些问题，从而获得高质量的结果和稳定的培训。虽然目前最先进的类条件图像生成的Imagenet数据集，即。BigGAN [4]不使用多尺度图像生成，请注意，他们操作的最高分辨率是512x512。所有高分辨率最先进的方法[15，16，17，34，40]都使用某种或其他形式的多尺度图像合成。多尺度图像生成是一种成熟的技术，在深度网络变得流行用于此任务之前，已有方法[20，35]。最近，许多基于GAN的方法将高分辨率图像合成的过程分解为更小的子任务[36，39，38，8，9，15，34，40]。例如，LR-GAN [36]使用单独的生成器来合成fi的背景，前景和合成器蒙版。训练数据集。LapGAN [5]使用单个生成器和用于不同尺度的多个鉴别器对图像的拉普拉斯金字塔的生成的多尺度分量Pix2PixHD [34]使用三个架构上类似的鉴别器，其作用于通过对真实图像和生成图像进行下采样而获得的图像的三种不同分辨率。我们提出的方法从所有这些作品中汲取建筑灵感，并建立在他们的教导和意识形态基础上，但有一些关键的区别。在MSG-GAN中，我们使用一个具有多尺度连接的单采样器和单生成器，这允许梯度同时以多个分辨率流动。所提出的方法有几个优点（主要是简单性）如果在每个分辨率下使用多个鉴别器[39，38，5，40，34]，则总参数在尺度上呈指数增长，因为需要重复的下采样层，而在MSG-GAN中，关系是线性的。此外，具有不同有效字段的多个鉴别器[34，40]无法跨尺度共享信息，这可能使任务更容易。除了所需的参数和设计选择更少之外，我们的方法还避免了在多尺度生成的图像上显式颜色一致性正则化项的需要，这是必要的，例如。在StackGAN [38]中。2. 多尺度梯度GAN我们使用应用于两个基础架构的MSG-GAN框架进行实验，ProGAN [15]和Style- GAN [16]。我们分别将这两种方法称为MSG-ProGAN和MSG-StyleGAN。尽管有这个名字，但在任何MSG变体中都没有使用渐进式增长，我们注意到没有渐进式增长的ProGAN本质上是DCGAN [26]架构。图2显示了我们的MSG-ProGAN架构的概述，我们在本节中更详细地定义了该架构，并在补充材料中包含了MSG-StyleGAN模型的详细信息。假设生成函数 ggen 的初始块被定义为 ggen ：Z<$→Abegin，使得集合Z和Abegin为分别定义为Z=R512，其中z=N（0，I），z∈Z且Abegin=R4×4×512包含[4x4x512]维度激活设gi是一个泛型函数，充当基本生成器块，在我们的实现中，该基本生成器块由上采样操作和随后的两个卷积层组成。gi：Ai−1›→Ai（1）最终图像。像GMAN和StackGAN这样的作品都采用了其中，Ai=R2i+2×2i+2×ci（2）单个发生器和多个鉴别器分别用于示教和多尺度生成中的变化[8，39，38]。MAD-GAN [9]，而是使用多个生成器来解决模式崩溃，通过训练多代理设置，使得不同的生成器捕获不同的模态。并且，i∈N;A0=Abegin（3）其中ci是发生器的第i个中间激活中的通道数。我们在补充材料中提供了所有层中的ci的大小。完整的发电机7802JJij−1林猫1 2 1 2然后GEN（z）遵循标准格式，并且可以被定义为k个这样的g函数的组合序列，然后是与ggen的最终组合：其中，r'是与r类似的另一个（1x 1）卷积运算，并且[;]是简单的通道级级联运算。我们在第4节中比较了这些不同的组合函数。y′=GEN（z）=gk<$gk−1<$. gi. g1gGen（z）。（四）最终的鉴别器函数然后被定义为：DIS（y′，o，o，.哦...O）=（14）我们现在定义生成输出的函数r01我k−1在发电机的不同阶段（图中的红色方框2）、dd k（.，o）d k−1（.，o）不. d j（.，o）不. d0（y′）其中输出对应于最终输出图像的不同下采样版本我们将r简单地建模为评论家01我（十五）（1x1）卷积，其将中间卷积激活体积转换为图像。ri：Ai›→Oi（5）我们尝试了两种不同的损失函数，dcritic函数，即ProGAN [15]使用的WGAN-GP [11]和StyleGAN [16]使用的具有单侧GP的非饱和GAN损失其中，OiR2i+2×2i+2×3【0−1】（六）请注意，由于现在是一个函数，由生成器生成的多个输入图像，我们mod-因此，ri（gi（z））=ri（ai）=oi（7）其中，ai∈Ai且oi∈Oi（8）换句话说，oi是从生成器ai的第i个中间层的输出合成的图像。类似于渐进增长背后的思想[15]，r可以被视为正则化器，要求学习的特征映射能够直接投影到RGB空间。现在，我们继续来定义这个函数。由于卷积器我们用字母d表示函数的所有分量。我们将判别器的最后一层（提供评论家评分）命名为dcritic（z′），定义鉴别器的第一层d0（y）或d0（y′）的函数，取真实图像y（真实样本）或最高分辨率合成图像y′（假样本）为输入. 类似地，令d j表示中间层函数。注意，i和j总是相互关联，因为j = k−i。因此，可以确定所述第一层的任何第j个中间层的输出激活体积a定义为：将梯度惩罚定义为每个输入上惩罚的平均值。3. 实验虽然评估GAN生成图像的质量不是一项微不足道的任务，但目前最常用的指标是InceptionScore（IS，越高越好）[28]和Fre' chetInception Distance（FID，越低越好）[12]。为了将我们的结果与以前的工作进行比较，我们使用IS进行CIFAR 10实验，使用FID进行其余实验，并报告“显示的真实图像数量”，如以前的工作[15，16]所做的那样除了现有的数据集外，我们还收集了一个由印度名人组成的新数据集。为此，我们使用类似于CelebA-HQ的过程收集图像。首先，我们通过抓取网络上的相关搜索查询来下载印度名人的图像。然后，我们使用现成的人脸检测器检测人脸，并将所有图像裁剪和调整为256x256。最后，我们通过过滤掉低质量、错误和低亮度的图像来手动清理图像。最后，数据集只包含3K个样本，a′=dj（φ（ok−j′j−1 ））（9）比CelebA-HQ小=dj（φ（o，a′）），（10）其中，φ是用于将生成器的第（i）中间层的输出（或最高分辨率实像y的相应下采样版本）与生成器中的第（j-1）中间层的相应输出组合的函数在我们的实验中我们试验了该组合函数的三种不同变体：φsimple（x1，x2）=[x1;x2]（11）φ（x，x）= [r′（x）;x]（12）=得78033.1. 实现细节我们在不同分辨率和大小（图像数量）的各种数据集上评估我们的方法; CIFAR 10（32 x32分辨率下的60 K图像）;牛津花（8 K图像，256 x256），LSUN教堂（126 K图像，256 x256），印度名人（3 K图像，256 x256分辨率），CelebA-HQ（30 K图像，1024 x1024）和FFHQ（70 K图像，1024 x1024分辨率）。对于每个数据集，我们使用相同的初始潜在维数512，从标准正态分布N（0，I）中提取，然后进行超球归一化[15]。为在所有实验中，我们使用相同的超参数设置，φ（x，x）=r′（[x;x]）（13）林杰1 2 1 2对于MSG-ProGAN和MSG-StyleGAN（lr=0.003），其中7804(a) LSUN教会（b）印度名人（c）牛津花图3：MSG-StyleGAN在不同中等分辨率（256 x256）数据集上生成的随机、未经策划的样本我们的方法在具有相同超参数的所有数据集上生成高质量的结果。在屏幕上放大最佳观看。数据集大小方法#真实图像使用的GPU训练时间FID（↓）牛津花卉（256x256）8KProGANs10M1 V100-32GB104小时60.40MSG-ProGAN1.7M1 V100-32GB44小时28.27StyleGAN系列7.2M2 V100-32GB33小时64.70MSG-StyleGAN1.6M2 V100-32GB16小时19.60印度名人（256x256）3KProGANs9M2 V100-32GB37小时67.49MSG-ProGAN2M2 V100-32GB34小时36.72StyleGAN系列6M4 V100-32GB18小时61.22MSG-StyleGAN1M4 V100-32GB7小时28.44LSUN教堂（256x256）126KStyleGAN系列25M8 V100-16GB47小时6.58MSG-StyleGAN24M8 V100-16GB50小时5.2表1：中等分辨率（即，256x256）数据集。我们在可能的情况下使用作者提供的分数，否则使用官方代码和推荐的超参数（表示为“”）训练模型唯一的区别是上采样层的数量（对于较低分辨率的数据集来说更少）。所有模型均使用RMSprop（lr= 0. 003）用于发电机和整流器。我们根据标准正态N（0，I）分布初始化参数。为了匹配先前发表的工作，StyleGAN和MSG-StyleGAN模型使用具有单侧GP的非饱和GAN损失进行训练，而ProGAN和MSG-ProGAN模型使用WGAN-GP损失函数进行训练。我们还将MinBatchStdDev技术[15，16]扩展到我们的多尺度设置中，其中一批激活的平均标准差被馈送到神经网络以提高样本多样性。为此，我们在每个块的开头添加一个单独的Min- BatchStdDev层。这样，该方法可以获得生成的样本的批量统计数据以及每个尺度下的直线路径激活，并可以检测某种程度的模式崩溃的信号当我们自己训练模型时，我们报告训练时间和使用的GPU。我们使用相同的机器进行相应的实验，以便可以进行直接的训练请注意，显示的真实图像数量和训练时间的变化是原因，正如通常的做法，我们报告在固定次数的迭代中获得的最佳FID分数，以及达到该分数所需的时间。复制我们的工作所需的所有代码和训练模型都可以在 https://github.com/akanimax/msg-stylegan-tf上用于研究目的。3.2. 结果质量表1显示了我们的方法在各种中等分辨率数据集上的定量结果。我们的MSG-ProGAN和MSG-StyleGAN模型都实现了更好的FID7805(a) CelebA-HQ（b）FFHQ图4：MSG-StyleGAN在高分辨率（1024 x1024）数据集上生成的随机、未经策划的样本在屏幕上放大最佳数据集大小方法#真实图像使用的GPU训练时间FID（↓）CelebA-HQ（1024x1024）30KProGAN [16]12M--7.79MSG-ProGAN3.2M8 V100-16GB1.5天8.02StyleGAN [16]25M--5.17MSG-StyleGAN11M8 V100-16GB4天6.37FFHQ（1024x1024）70KProGANs12M4 V100-32GB5.5天9.49ProGANs [15]12M--8.04MSG-ProGAN6M4 V100-32GB6天8.36StyleGAN系列25M4 V100-32GB6天4.47StyleGAN [16]25M--4.40MSG-StyleGAN9.6M4 V100-32GB6天5.8表2：高分辨率（1024x1024）数据集上的实验。我们尽可能使用作者提供的分数，以及其他带有官方代码和推荐超参数（表示为“”）的智能训练模型在牛津花卉、LSUN教堂和印度名人的（256 x256）分辨率数据集上，ProGAN和Style- GAN的得分分别高于各自的基线虽然MSG-GAN的每次迭代都比渐进式增长的初始低分辨率迭代慢，但由于所有层都在一起训练，MSG-GAN往往会在更少的迭代中收敛，因此需要更少的GPU训练时间来实现这些分数。图3显示了在这些数据集上生成的用于定性评价的随机样本。对于高分辨率实验（表2），MSG-ProGAN模型在相当的时间内进行训练，并分别在CelebA-HQ和FFHQ数据集上获得相似的分数（ 8.02vs7.79 ）和（8.36vs8.04）。我们注意到作者报告的分数和作者提供的代码所能达到的成绩有一个小的差异。这可能是由于细微的硬件差异或差异在跑步之间。我们的MSG-StyleGAN模型在CelebA-HQ数据集（6.37vs5.17）和FFHQ数据集（5.8vs4.40）上无法击败StyleGAN的FID评分我们讨论了一些假设，为什么这可能是在第4节，但请注意，我们的方法确实有其他优点，即它似乎更容易推广到不同的数据集，如我们的其他实验所示此外，我们生成的图像没有显示任何相位伪影的痕迹[17]，这些伪影在逐渐增长的GAN中非常明显。为了比较MSG-ProGAN与ProGAN在训练过程中的稳定性，我们测量了随着迭代进展（在CelebA-HQ数据集上）相同固定潜点的生成样本的变化。这种方法是由[37]介绍的，作为一种测量训练过程中稳定性的方法，我们通过计算来量化7806图5：在训练过程中，MSG-GAN中的所有层在训练的早期就在生成的分辨率上同步，随后在所有尺度上同时提高生成图像的质量。在整个训练过程中，生成器仅对从固定潜在点生成的图像进行最小的增量改进。图6：训练期间的图像稳定性这些图示出了在CelebA-HQ数据集上的顺序时期（在36个潜在样本上平均）开始时从相同潜在代码生成的图像之间的MSEMSG-ProGAN随着时间的推移稳定收敛，而ProGAN [15]继续在各个时期显著变化。计算两个连续样本之间的均方误差。图6显示，虽然ProGAN仅在较低分辨率下趋于收敛（做出较少的改变），但MSG-ProGAN显示出所有分辨率相同的收敛特性。ProGAN的训练时期在每个分辨率上按顺序发生，而对于MSG-ProGAN，它们是同时发生的（图1）。（五）。虽然不是产生良好结果所必需的，但具有高稳定性的方法可能是有利的，因为它更容易得到真正的结果。通过在培训期间可视化快照，对最终结果的外观进行合理的估计，这在培训工作需要数天到数周的时间时可以提供帮助。先前的工作[28，14，24，23]以及我们的经验已经观察到，训练期间GAN的收敛非常依赖于超参数的选择，特别是学习率。为了验证MSG-ProGAN的鲁棒性，7807方法#真实图像学习率IS（↑）真实图像--11.34MSG-ProGAN12M0.0038.63MSG-ProGAN12M0.0018.24MSG-ProGAN12M0.0058.33MSG-ProGAN12M0.017.92表3：CIFAR-10上学习率的鲁棒性。我们看到，我们的方法在一定的学习率范围内收敛到相似的IS分数。多刻度连接FID的水平（↓）无连接（DC-GAN）14.20仅粗10.84仅中间9.17仅罚款9.74全部（MSG-ProGAN）8.36ProGAN项目9.49表4：高分辨率（1024x1024）FFHQ数据集上不同程度多尺度梯度连接的消融实验。粗包含（4x 4）和（ 8x8 ）处的连接，中包含（ 16 x16 ）和（ 32x32 ）处的连接 ; 细包含（ 64x64 ）至（ 1024x1024）处的连接。方法组合功能FID（↓）MSG-ProGANφlincat11.88φ猫线9.63φ单8.36MSG-StyleGANφ单6.46φlincat6.12φ猫线5.80表5：在高分辨率（1024x1024）FFHQ数据集上使用不同组合函数的实验。我们针对 CIFAR-10 数据集用四种不同的学习率（0.001、0.003、0.005和0.01）训练了我们的网络。（3）第三章。我们可以看到，我们的四个模型都收敛了，产生了合理的图像和相似的初始分数，即使学习率发生了很大的变化。健壮的训练方案是重要的，因为它们表明一种方法可以多么容易地推广到看不见的数据集。4. 讨论消融研究我们在MSG-ProGAN架构上进行了两种类型的消融。表4总结了我们应用消融版本的多尺度共振器的实验，其中我们仅添加了从发生器到不同尺度共振器耳垢我们可以看到，在ProGAN/DCGAN架构中添加任何级别的多尺度梯度都会提高FID分数。有趣的是，仅添加中间级连接的性能略好于仅添加粗级或细级连接，但所有级别的连接都能实现整体最佳性能。表5给出了我们在MSG-ProGAN和MSG-StyleGAN架构上使用组合函数φ的不同变量的实验φsimple（等式11）在MSG-ProGAN架构上表现最好，而φcatlin（等式13）在MSG-StyleGAN架构上具有最好的FID分数。在这项工作中所示的所有结果采用这些各自的组合函数。通过这些实验我们可以看到，组合函数在模型的生成性能中也起着重要作用，并且更高级的组合函数（如多层密度组或AdaIN [13]）可能会进一步改善结果。局限性和未来的工作我们的方法不是没有限制。我们注意到，使用渐进式训练，较低分辨率的第一组迭代发生得更快，而MSG-GAN的每次迭代都需要相同的时间。然而，我们观察到MSG-GAN需要更少的总迭代来达到相同的FID，并且通常在类似长度的总训练时间之后这样做。此外，由于我们在MSG-StyleGAN中进行了多尺度修改，我们的方法无法利用混合正则化技巧[16]，其中混合了多个潜在向量，并且最终图像被强制为真实的。这样做是为了在测试时允许不同级别的不同风格的混合，但也提高了整体质量。有趣的是，即使我们没有显式地强制混合正则化，我们的方法仍然能够生成合理的混合结果（请参见柔软的材料）。结论虽然在照片级真实感高分辨率图像合成方面取得了巨大的进步[3，16，17]，但真正的照片级真实感尚未实现，特别是在外观差异很大的领域在这项工作中，我们提出了MSG-GAN技术，该技术通过一种简单的方法来实现GAN的高分辨率多尺度图像生成5. 确认我们要感谢 Alexia Jolicoeur-Martineau （博士）MILA的学生）对GAN中相对主义的指导和校对论文。最后，我们特别感谢迈克尔霍夫曼（老。Mgr. 软件工程，TomTom）的支持和激励。7808引用[1] 我的天Arj o vs k y和L e'onBottou。这是训练生成对抗网络的原则性方法。CoRR，2017年。[2] Mar t'ınArj o vs ky ， SoumithChintala ， andL e'onBottou.Wasserstein生成对抗网络ICML，2017。[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。[5] 艾米莉湖Denton，Soumith Chintala，Arthur Szlam，andRob Fergus.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。2015年，在NIPS[6] Laurent Dinh ， David Krueger ， and Yoshua Bengio.NICE：非线性独立分量估计。CoRR，2014年。[7] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Bengio.使用真实NVP进行密度估计。CoRR，2016年。[8] Ishan Durugkar，Ian Gemp，and Sridhar Mahadevan.生成多对抗网络。arXiv预印本arXiv：1611.01673，2016。[9] 放大图片作者：Arnab Ghosh，Viveka Kulharia，VinayP.菲利普？南布迪里Torr和Puneet K.多卡尼亚多智能体双向生成对抗网络。在CVPR，2018年6月。[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，2014年。[11] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin 和 Aaron C Courville 。改进了Wasserstein GAN的训练。在神经信息处理系统的进展，2017年。[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在神经信息处理系统，2017年。[13] Xun Huang和Serge J.贝隆吉实时任意样式传输ICCV，2017年。[14] 阿莱克西亚·乔利库-马蒂诺。相对论鉴别器：标准GAN中缺少的关键元素。在2019年国际学习代表会议上[15] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GAN的逐步增长，以提高质量，稳定性和变化。在ICLR，2018年。[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR中，第4401-4410页[17] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量，2019。[18] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。在神经信息处理系统的进展，2018年。[19] Naveen Kodali ， Jacob Abernethy ， James Hays ， andZsolt Kira.关于GANs的收敛性和稳定性。arXiv预印本arXiv：1705.07215，2017。[20] Sylvain Lefebvre和Hugues Hoppe。并行可控纹理合成。ACMTransactions on Graphics （ ToG ），第 24 卷。ACM，2005年。[21] Zinan Lin，Ashish Khetan，Giulia Fanti，and SewoongOh. PacGAN：生成对抗网络中两个样本的力量。在神经信息处理系统，2018年。[22] 毛旭东，李庆，谢浩然，Raymond Y. K.及王震。具有l2损失函数的多类生成对抗ArXiv，abs/1611.04076，2016。[23] Lars Mescheder ， Sebastian Nowozin ， and AndreasGeiger. GANs的哪些训练方法实际上是收敛的？在ICML，2018。[24] 卢克·梅兹，本·普尔，大卫·普法，还有贾沙·索尔-迪克斯坦. Unrolled generative adversarial networks，2016.[25] Xue Bin Peng，Angjoo Kanazawa，Sam Toyer，PieterAbbeel，and Sergey Levine.变分学习瓶颈：通过约束信息流来改进模仿学习、逆RL和GAN。2019年，在ICLR[26] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。[27] Danilo Jimenez Rezende和Shakir Mohamed。具有正规化流的变分推理。ICML，2015。[28] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进了训练GAN的技术。神经信息处理系统的进展，2016年。[29] Tim Salimans，Andrej Karpathy，Xi Chen，and DiederikP.金玛PixelCNN++：一个PixelCNN实现，具有离散化逻辑混合似然和其他修改。在ICLR，2017。[30] 卡斯珀·卡埃·森德比，何塞·卡瓦列罗，卢卡斯·泰斯，施文哲和费伦茨·胡斯。用于图像超分辨率的摊销MAP推理ArXiv，abs/1610.04490，2016年。[31] Aaron Van den Oord ， Nal Kalchbrenner ， LasseEspeholt，Oriol Vinyals，Alex Graves，et al.条件图像生成与pixelcnn解码器。在神经信息处理系统的进展，2016年。[32] Aa¨ronvandenOord，NalKalchbrenner，andKorayKavukcuoglu. 像素递归神经网络。 CoRR ，abs/1601.06759，2016。[33] Ruohan Wang，Antoine Cully，Hyung Jin Chang，andYiannis Demiris.Magan：Margin adaptation for generativeadversarial networks.ArXiv，abs/1704.03817，2017年。[34] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集，2018。[35] Yonatan Wexler，Eli Shechtman和Michal Irani。视频的时空完成。 IEEE Transactions on Pattern AnalysisMachine Intelligence，（3），2007.7809[36] Jianwei Yang，Anitha Kannan，Dhruv Batra，and DeviParikh. Lr-gan：用于图像生成的分层递归生成对抗ICLR，2017年。[37] Yasin Yazıcı，Chuan-Sheng Foo，Stefan Winkler，Kim-Hui Yap，Georgios Piliouras，and Vijay Chandrasekhar.在GAN训练中平均的不寻常的效果。2019年国际学习代表会议[38] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓蕾，和Dimitris Metaxas. stack-gan ++：使用堆叠生成式对抗网络进行真实图像合成arXiv：1710.10916，2017。[39] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓磊，和Dimitris N.Metaxas Stack- gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成。InICCV，Oct 2017.[40] Zhang Zizhao，Yuanpu Xie，and Lin Yang.使用层次嵌套对抗网络的照片文本到图像合成。在CVPR，2018年。[41] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。在神经信息处理系统的进展，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载