生成式图像建模方法中的一个潜在最近邻生成模型-GLANN的优越性能

158 浏览量更新于2023-10-18 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于生成式潜在最近邻的Yedid Hoshen1，2，Ke Li3，and JitendraMalik2，31耶路撒冷希伯来大学2Facebook人工智能研究3加州大学伯克利分校摘要无条件图像生成最近被生成对抗网络（GAN）所控制。GAN方法训练生成器，该生成器从随机噪声向量中回归图像，以及训练器，该训练器尝试区分生成的图像和训练的真实图像集GAN在生成逼真的图像方面表现出了惊人的结果尽管GAN取得了成功，但它也有一些严重的缺点，包括：不稳定的训练和模式下降。GAN的弱点促使人们研究替代方案，包括：变分自动编码器（VAE）、潜在嵌入学习方法（例如，GLO）和基于最近邻的隐式最大似然估计（IMLE）。不幸的是，目前GAN仍然远远优于其他图像生成方法。在这项工作中，我们提出了一种新的方法-生成潜在最近邻（GLANN）- 用于训练生成模型而无需对抗训练。GLANN结合了IMLE和GLO的优点，克服了每种方法的主要缺点。因此，GLANN生成的图像远远优于GLO和IMLE。我们的方法不会遭受模式崩溃，困扰GAN训练，更稳定。定性结果表明，GLANN在常用数据集上的性能优于由800个GAN和VAE组成的基线。我们的模型也被证明是有效的训练真正的非对抗性无监督图像translation。1. 介绍生成式图像建模是计算机视觉的一个长期目标。无条件生成模型尝试学习在给定有限数量的训练样本的情况下生成整个图像分布的函数。生成对抗网络（GANs）[9]是最近推出的一种图像生成建模技术。它们被广泛用于图像生成，因为：i）训练有效的无条件图像生成器ii）几乎是域之间无监督图像转换的唯一方法（但参见NAM [15]）iii）是有效的非直观图像损失函数（例如，Pix2Pix[16]）。除了明显的优势外，GAN也有严重的缺点：i）GAN很难训练，这表现为训练的进展非常不稳定，突然的运行崩溃以及对超参数的极端敏感。ii）GAN遭受模式下降-仅对目标分布的一些但不是所有模式进行建模生日悖论可以用来衡量模式下降的程度[2]：生成器建模的模式数量可以通过生成固定数量的图像并计算重复图像的数量来估计。GAN的经验评估发现，模式的数量显着低于训练分布中的数量GAN的缺点引起了对训练生成模型的非对抗性替代方案的研究。[4]和[23]是两个这样的方法。GLO，由Bojanowski等人介绍将训练图像嵌入到低维空间中，使得当嵌入通过联合训练的深度生成器时，它们被重构GLO的优点是i）编码整个分布而不丢弃模式ii）学习的潜在空间对应于语义图像属性，即，潜在代码之间的欧氏距离对应于语义上有意义的差异。GLO的一个关键缺点是，没有一个原则性的方法来从中采样新图像。虽然作者建议将高斯拟合到训练图像的潜码，但这不会产生高质量的图像合成。IMLE由Li和Malik提出[23]，用于训练-通过从任意分布中采样大量潜在代码来生成生成模型，使用经过训练的生成器将每个潜在代码映射到图像域，并确保58115812图1. 我们架构的一个例子：随机噪声向量e被采样并映射到潜在空间z=T（e）。潜码由生成器投影以产生图像I=G（z）。对于每一个训练图像，都存在一个与之接近的生成图像。IMLE对于采样来说是微不足道的，并且不会遭受模式下降。与其他最近邻方法一样，IMLE对所使用的确切度量敏感，特别是在训练集有限的情况下。回想一下，虽然经典的Cover-Hart结果[7]告诉我们，最近邻分类器的错误率渐近地在贝叶斯风险的2倍之内，但当我们使用有限的样本集时，更好的度量选择可以为我们提供更好的分类器性能。当使用L2损失直接在图像像素上训练时，IMLE合成模糊图像。在这项工作中，我们提出了一种新技术，生成潜在最近邻（GLANN），它能够训练与GAN质量相当或更好的生成模型我们的方法克服了IMLE的度量问题，首先使用GLO嵌入训练图像。由GLO引起的潜在空间的有吸引力的线性性质允许欧几里得度量在潜在空间Z中是语义上有意义的。我们训练基于IMLE的模型来映射任意噪声分布E和GLO潜在空间Z之间的映射。GLO产生器可接着将所产生的潜在码映射到像素空间，因此产生图像。我们方法GLANN享有IMLE和GLO的最佳效果：易于采样，建模的整个分布，稳定的训练和锐利的图像合成。我们的方法的一个模式是在图。1.一、我们使用已建立的协议对我们的方法进行了定量评估，发现它显著优于其他非对抗性方法，同时通常更好或与当前基于GAN的模型竞争。GLANN还能够在高分辨率图像生成和3D生成方面取得有希望的结果。最后，我们证明了GLANN训练的模型是第一个真正执行非对抗性无监督图像翻译。2. 以前的工作生成建模：图像的生成式建模是一个长期存在的问题，具有广泛的适用性。早期的方法包括混合高斯模型（GMM）[39]。这些方法在图像分辨率和质量方面非常有限。深度学习方法一直被用于图像生成模型。变分自动编码器（VAE）[20]是由Kingma和Welling引入的深度生成建模的重大突破VAE能够通过变分近似从高斯分布生成图像。尽管VAE训练相对简单，并且具有坚实的理论基础，但它们通常不会产生清晰的图像。还有其他几种非对抗性训练模式：生成可逆流[8]，最近扩展到高分辨率[19]，但计算成本过高。另一个训练范例是自回归图像模型，例如，PixelRNN/PixelCNN [29]，其中像素按顺序建模。自回归模型在计算上是昂贵的并且不如对抗性方法，尽管它们是音频生成中的最新技术（例如， WaveNet[28]）。对抗生成模型：生成式对抗网络（GAN）首先由Goodfellow等人提出。[9]是训练生成模型的最先进方法。对GANs进行节中1.一、GAN在图像生成方面表现出了非凡的能力，但受到训练困难和模式下降的影响人们提出了许多改进GAN的例如改变损失函数（例如，Wasserstein GAN [1]）581322我JG或者通过以下方式将正则化为Lipschitz：裁剪[1]、梯度正则化[10，25]或谱归一化[26]。GAN训练被证明可以使用工程技巧和仔细的超参数选择扩展到高分辨率[37]生成模型的评价：生成模型的评估具有挑战性。早期的工作使用概率标准（例如，[39]）。最近的生成模型（特别是GAN）不适合这种评估。传统上，GAN代是通过对少数示例进行目视检查或通过用户研究进行评估的最近，出现了更有原则的评价方案考虑到多样性和质量的初始评分（IS）首先由[31]引入最近引入FID评分[11]以克服IS方案的主要缺陷[3]。最近，Sajjadi等人提出了一种能够同时捕获精确度和召回率的生成式评价方法。[30 ]第30段。由于GAN的超参数敏感性，Lucic等人对7种不同GAN和VAE的性能进行了大规模研究。[24]在100个不同超参数的大搜索空间上，建立了一个共同的评估基线。非对抗性方法：GAN的缺点促使人们研究GAN的替代方案。GLO [4]是最近引入的一种无编码器生成模型，它使用非对抗性损失函数，比VAE获得了更好的结果。由于缺乏良好的采样过程，它的性能并不优于GAN（参见第第3.1节）。 IMLE [23]是一种与ICP相关的方法，也被引入用于训练无条件生成模型，但由于计算挑战和度量的选择，它也没有优于GAN。Chen和Koltun [5]提出了一种用于监督图像映射的非对抗方法，在某些情况下，发现该方法与对抗方法具有竞争力。Hoshen和Wolf介绍了一种基于ICP的方法[13]，用于无监督的单词翻译，其中不包含对抗训练。他们还提出了非对抗性方法NAM [14，15，12]，用于无监督图像映射。该方法依赖于访问目标域的强无条件模型，该模型通常使用GAN进行训练。3. 我们的方法在本节中，我们提出了一种方法- GLANN -用于在不使用GAN的情况下合成高质量图像。3.1. Glo经典方法通常对一组数据点进行{x1，x2，..，x T}，通过以下分解：xi=Wzii（1）其中zi是描述xi的潜在代码，W是一组权重。这样的因子分解受到不良约束，并且通常伴随有其他约束，诸如低秩、正性（NMF）、稀疏性等。W和z i都直接优化，例如，通过交替最小二乘或SVD。得到的zi是将数据嵌入到较低维度并且通常表现更好的空间中的潜在向量。人们经常发现，属性成为潜在空间中的线性操作。GLO [4]是最近推出的一种深度方法，它与上述方法有三个方面的不同：i）将所有潜在向量约束为位于单位球面或单位球上。ii）用深度CNN生成器替换线性矩阵WiG（），更适合对图像建模。iii）使用拉普拉斯金字塔损失函数（但我们发现VGG[32]感知损失效果更好）。GLO优化目标写在等式中。第二章：Σargminn（G（z i），x i）S.T.（2）第一个条件：G，{zi}iBojanowski等[4]，实现了一个拉普拉斯金字塔.所有权重都由SGD训练（包括生成器权重G（）和每个训练图像xi的潜在向量zi）。在训练之后，结果是生成器G（）和每个训练图像xi的潜在嵌入zi。3.2. 伊姆莱IMLE [23]是一种最近的非对抗性技术，使用最大似然准则在分布IMLE的每个阶段包括以下阶段：i）从正态分布中采样M个随机潜码e j ii）由生成器映射潜码，得到图像G（e j）iii）对于每个训练示例xi，找到最接近的生成图像，使得：ei =argmineG（e j），x i|2iv）G（）被优化使用最近的n个相邻点作为近似对应G=argmin重复此过程直到G（）的收敛。3.3. GLO和IMLE的局限性GLO的主要限制是生成器没有被训练成从任何已知分布中采样，即z1的分布是未知的，并且我们不能直接从中采样。当从正态分布中采样潜变量时，或者当将高斯拟合到训练集潜代码时（如[ 4 ]中所提倡的），通常会获得比GAN质量低得多的生成。这阻止了GLO与GAN竞争。虽然从IMLE训练的生成器采样是微不足道的，但训练不是，可能不知道良好的度量，用于每个随机噪声生成的最近邻计算和特征提取是昂贵的。IMLE通常导致模糊的图像合成。581423.4. 生成潜在最近邻我们提出了一种方法-GLANN-克服了et= argminem-T（em）2（四）GLO和IMLE的缺点。GLANN由两个阶段组成：i）使用GLO将高维图像空间嵌入到“行为良好”的ii）地图─近似匹配现在可以用于微调映射函数T：在任意分布（通常是多个分布）之间ping，ΣT=argmin-T（e）2（五）维正态分布）和使用IMLE的低维潜在空间。3.4.1阶段1：潜在嵌入图像是高维的，它们之间在像素空间中的距离可能没有意义。这使得IMLE和使用简单的度量函数，如L1或L2，在像素空间中不太有效。在某些情况下，可以发现感知特征，在这些感知特征下距离是有意义的，但是它们是高维的并且计算起来昂贵。相反，我们的方法首先使用GLO将训练图像嵌入到低维空间中。与GLO算法不同，我们使用VGG感知损失函数。优化目标写在等式5中：Σ不2T重复该过程直到T（）收敛。Li和Malik [23]在理论上证明了该方法实现了最大似然估计的形式。3.4.3采样新图像合成新图像现在是一项简单的任务：我们首先从多元正态分布e<$N（0，I）中采样一个噪声向量。新样本映射到潜在码空间-ze=T（e）。通过我们之前的优化，T（）被训练成使得潜在代码ze靠近数据流形。因此，我们可以使用该生成器通过我们的GLO训练的生成器Ie=G（ze）将潜码投影到图像空间。Ie将看起来来自输入图像x的分布。argminG，{zi}perceptual（GS. t.（3）第一个条件：我还可以通过对给定图像I的噪声矢量e进行优化来反转该变换：所有参数都由SGD直接优化在训练结束时，通过低维潜码{z i}嵌入训练图像。潜在空间Z具有方便的性质，例如线性。这个空间的一个显著好处是，Z空间中的欧几里得度量通常可以产生更有语义意义的重新结果比原始图像像素。3.4.2第二阶段：从潜在空间GLO用从Z采样的问题代替了从图像像素X采样的问题，但没有提供有效的采样算法。虽然原始论文建议将高斯拟合到训练潜在向量zi，这通常不会产生好的世代。相反，我们建议从一个分布中学习一个映射，从这个分布中采样是微不足道的（例如，多变量正态）到经验潜码分布使用IMLE。在每个时期的开始，我们采样一组随机噪声码e1.嗯...e M来自噪声分布。每个代码使用映射函数T映射到潜在空间-zm=T（em）。在该时期期间，我们的方法迭代地从集合{z1. zt.. z T}计算在前一阶段。对于每个潜在代码zt，我们找到最近邻居映射的噪声向量（使用欧几里德距离度量）：e=argminnn（G（T（en）），I）（6）e~4. 实验为了评估我们提出的方法的性能，我们进行定量和定性实验比较我们的方法对既定的基线。4.1. 定量图像生成结果为了将我们的结果与代表性对抗方法的质量进行比较，我们使用Lucic等人建立的协议来评估我们的方法。[24]第10段。该协议将所有生成模型的架构固定为InfoGAN [6]。他们评估了7个代表性的对抗模型（ DCGAN ， LSGAN ， NSGAN ， W-GAN ， W-GANGP，DRAGAN，BEGAN）和一个单一的非对抗模型（VAE）。在[24]中，使用大量计算资源来评估每种方法在一组100个超参数设置上的性能，例如：学习率，正则化，批量范数的存在等。为生成模型寻找好的评价指标是一个活跃的研究领域。Lucic等人认为预先使用的Inception Score（IS）不是一个好的评价指标，因为最大的IS分数是通过合成来自每个类的单个图像获得的。相反，他们提倡使用弗雷歇初始距离（FID）[11]。FID措施不5815表1.发电质量（FID）对抗性非敌对数据集MM GANNS GANLSGANWGAN开始VAEGlo我们MNIST9 .第九条。8±0。9六、8±0。57 .第一次会议。8±0。66.7±0.4十三岁1±1。023岁8 ±0。6四十九6 ±0。38. 6 ±0。1时尚29岁6±1。6二十六岁5 ±1。6三十7 ±2。221岁5±1。6二十二岁9 ±0。9五十八7±1。2五十七7 ±0。413.0 ±0。1CIFAR10七十二7±3。6五十八5±1。987岁1 ±47。555. 2 ±2。3七十一4±1。6一百五十五7 ±11。6六十五4 ±0. 246.5 ±0. 2CelebA六十五6±4。255. 0 ±3。3五十三9±2。841岁3±2。038.9 ±0. 9八十五7±3。852岁4 ±0. 5四十六岁。3±0。1通过两个步骤确定真实图像和生成图像的分布的相似性：i）运行Inception网络作为特征提取器来嵌入每个真实和生成的图像ii）分别将多变量高斯拟合到真实和生成的嵌入，以产生真实和生成的分布re-k的均值μ r，μ g和方差μr，μg。然后计算FID分数，如等式2中所示。第七章：六十岁。8. 这些结果与GLO竞争，但比我们的差得多。在Fashion和CIFAR 10上，我们的方法显著优于所有基线-尽管只使用单个超参数设置。我们的方法在MNIST上是有竞争力的，但由于所有方法都表现良好，因此很难从中得出结论。其他一些方法在CelebA上的FID方面优于我们，这是由于在CelebA上的棋盘图案。21我们生成的图像。这是一个众所周知的现象，FID=μr−μgμ2+Tr （ μr+μg−2 （ μrμg ） 2 ）（七）Lucic等人评估4个标准公共数据集上的8个基线：[35]第22话：我的世界[21][36][37] MNIST、Fashion-MNIST和CI-FAR 10包含50 k彩色图像和10 k验证图像。MNIST和Fashion是28×28，而CIFAR是32 ×32。为了公平地比较我们的方法，我们使用相同的Lucic等人使用的生成器架构。我们的GLO模型。我们没有使用VGG，而是使用VGG感知损失。也不同于Lucic等人测试的方法。我们训练一个额外的网络T（），用于从噪声空间到潜在空间的IMLE采样。在我们的实现中，T（）有两个密集层，包含128个隐藏节点，分别是RelU和BatchNorm。GLANN实际上使用的参数比基线少，因为它不使用计数器。我们的方法是用亚当训练的[18]。我们使用允许收敛的最高学习率0的情况。001对于映射网络，0. 01对于潜在代码（0.003），发生器学习率为0。1×潜在码率。500个时期用于GLO训练，衰减0。每50个时期5个。50个epoch用于映射网络训练。选项卡. 1提出了一个比较的FID实现我们的方法和Lucic等报道。出于空间考虑，我们删除了DRAGAN和WGAN-GP（因为其他方法表现出类似的性能）。GLO的结果是通过将高斯拟合到学习的潜在代码获得的（如[4]中所建议的）。所有GLO实验都使用了与GLANN完全相同的感知损失VAE的数字取自[24]并使用了L1损失。我们运行额外的VAE实验，与我们使用的感知损失相同。我们获得：第二十三章. 41.第四十一章86. honor 0CelebA5816解卷积架构[27]，现在被认为是过时了节中4.3，我们展示了使用现代架构训练时由我们的方法生成的高质量CelebA-HQ面部图像。我们的方法总是显著优于VAE和GLO基线（具有相同的感知损失），这是非对抗性方法的强代表。[24]中的主要信息之一是GAN方法需要显著的超参数搜索以实现良好的性能。我们的方法被证明是非常稳定的，并在固定的超参数设置下实现了强大的性能（在两个数据集上最高）。一个广泛的超参数搜索可以潜在地进一步提高我们的方法的性能，我们把它留给未来的工作。为了解决感知损失使用在ImageNet数据集上训练的VGG特征是否不公平的问题，因为FID使用的初始网络是在ImageNet上训练的，我们基于在Place365场景识别数据集上训练的VGG网络FID评分为：9. casino 13.第十三章56. honor 34.第三十三章8.这是有竞争力的，有时比ImageNetVGG损失结果好得多因此，我们可以得出结论，我们的方法的良好性能不是由于过拟合的测试指标。4.2. 精确度和召回率FID在测量精确度方面是有效的，但在测量召回率方面是无效的。因此，我们也选择了最近提出的Sajjadi等人的评价指标。[30]他们称之为珠三角。PRD首先使用Inception网络嵌入相同数量的生成图像和真实图像。所有图像嵌入（真实的和生成的）被连接并聚类到 B 个 bin（B=20）中。直方图P（ω）、Q（ω）被计算用于5817MNIST时尚CIFAR10 CelebA图2. 4个数据集的精确-召回率由（F8，F1）[ 30]这些图由[30]报告。我们将模型的结果标记为8每个数据集在相关图上用一颗星标记。每个簇中的图像数量分别来自真实生成的数据。精确度（α）和召回率（β）定义如下：Σ我们的方法通常优于或等于基线检查，这是更令人印象深刻的，因为基线被详尽地测试超过100个超参数配置。我们还注意到，我们的方法优于α（λ）=ω∈ΩΣmin（λP（ω），Q（ω））（8）Q（ω）VAE和GLOs非常令人信服。这提供了证据我们的方法远远优于其他基于生成器的非对抗模型。β（λ）=ω∈Ωmin（P（ω），）（9）λ4.3. 定性图像生成结果对PRD={（α（λi），β（λi））}的集合形成精确度-召回率曲线（阈值λ从等角网格采样）。准确率-召回率曲线是总结-通过F1分数的变化来提高：Fβ，其能够赋予精确度或召回率更大的重要性。特别是（F8，F1）用于捕获（查全率，查准率）.8精确的查全率数值是没有用的，在[30]中，他们确实提供了（F8，F1）8在[24]中训练的所有800个模型的配对。我们计算（F8，F1）对于使用我们的方法训练的模型，8在上一节中描述。计算分数使用作者为了便于比较，我们将分数覆盖在[30]中提供的散点图上。我们的数值（F8，F1）得分为：MNIST（0。971，0。979），Fash-8离子（0. 985，0。963），CIFAR10（0. 860，0。825）和CelebA（0。574，0。681）。通过将高斯拟合到学习的潜在代码（如[ 4 ]中所建议的）来采样的GLO的结果要差得多：MNIST（0. 845，0。616），时尚（0. 888，0。594），CIFAR10（0. 693，0。680），CelebA（0。509，0。404）。从图2我们可以观察到，我们的方法通常在查准率和查全率上都比GAN更好或更有竞争力。在MNIST上，我们的方法和最好的GAN方法实现了近乎完美的精确度-召回率。在Fashion上，我们的方法实现了近乎完美的精确度-召回率，而最好的GAN方法落后了。在CIFAR10上，我们的方法的性能也令人信服地优于最好的GAN模型。在CelebA上，我们的方法表现良好，但由于第2节中描述的棋盘问题，没有达到最佳性能四点二。整体表现5818我们提供了我们的方法和GAN模型Sajjadi等人评估的定性比较。[30]并在高分辨率图像上显示出有希望的结果。如上所述，Sajjadi et al.[30]在精确度和重调用方面评估了800种不同的生成模型。他们为评估的4个数据集提供了最佳性能模型（标记为B）的可视化示例。在图3中，我们提供了由我们的模型（没有樱桃采摘）生成的随机样本与他们报告的结果。我们的方法和最好的GAN方法在MNIST和Fashion-MNIST上表现得非常好。视觉示例是多样的，具有高视觉质量。在CIFAR10数据集上，我们的示例比由[24]训练的最佳GAN模型生成的示例更真实。在CelebA上，我们生成的图像非常逼真，而且失败的代数也少得多4.1）。我们注意到，GAN可以生成非常高质量的人脸（例如，PGGAN [17]），然而，对于Lucic等人使用的小型架构，和Sajjadi等人，GAN不会生成特别高质量的面部图像。作为一个高分辨率实验，我们在CelebA-HQ数据集上以256×256分辨率训练了GLANN。我们使用Mescheder等人[25]的网络架构，具有64个通道，潜在代码维度为256，噪声维度为100，学习率为0。003的潜在代码和噪声到潜在代码映射函数，以及0. 001发电机我们训练了250个纪元，0的情况。每10个时期5个5819IMLE GLO GAN我们的图3. [23][24][25][26][27][28]][29][29][29][29]][29][29][29]][29][29]第一行：MNIST，第二行：时尚，第三排：CIFAR10，最后一排：CelebA64。IMLE图像缺失未在[23]中报告GAN结果取自[24]，对应于由精确度-召回率度量评估的800两个随机采样噪声之间的插值示例如图所示4.第一章我们的模型能够生成高分辨率的图像。平滑插值说明我们的模型可以很好地推广到看不见的图像。为了显示我们的方法扩展到1024×1024的能力，我们在图中给出了这种高分辨率下的两个插值。五、请注意，并非所有插值都具有如此高的分辨率，解决方案是成功的。4.4. ModelNet椅子3D生成我们在ModelNet的Chairs类别上展示了3D生成的初步结果[34]。该发生器遵循[33]的3DGAN架构格兰受过训练亚当和L1缺失一些GLANN生成的3D样本如图所示。六、4.5. 非对抗性无监督图像翻译由于生成模型是为了在下游任务中使用而训练的，因此我们建议通过跨域无监督映射的下游任务来评估生成模型。NAM [15]由Hoshen和Wolf提出，用于无监督域映射。该方法依赖于具有输出图像域的强无条件生成模型。更强的生成模型在这项任务中表现得更好。这就要求[15，12]使用GAN-5820图4. CelebA-HQ上的插值，分辨率为256×256。最右边和最左边的图像是从随机噪声中随机采样的。插值平滑且具有高视觉质量。图5. CelebA-HQ上的插值，分辨率为1024×1024。图6.由GLANN无条件生成器我们使用[ 15 ]中提出的3个定量基准评估了我们的模型-即：MNIST→SV HN，SV HN→MNIST和汽车→汽车。我们的模型获得了31分。百分之三，二十五。0%的百分比和1. 45分别就三项任务结果与使用基于GAN的无条件模型（尽管SVHN在这里有点低）。因此，GLANN是第一个能够在不使用GAN的情况下实现完全无监督图像翻译的模型。5. 讨论损失函数：在这项工作中，我们用感知损失代替了标准的对抗损失函数。在实践中，我们使用ImageNet训练的VGG特征。Zhang等人[38]声称自我监督的感知损失并不比ImageNet训练的特征更差。因此，我们的方法很可能在自我监督感知损失的情况下具有类似的性能。更高的分辨率：分辨率的提高，64×64至256×256或1024×1024由SIM卡启用损失函数的简单修改：对原始图像以及对图像的双线性子采样版本计算感知损失。达到更高的分辨率只需要更多的子采样水平。对更复杂的感知损失的研究可能会进一步提高合成质量。其他方式：在这项工作中，我们专注于图像合成。我们相信，我们的方法可以扩展到许多其他形式，特别是3D和视频。该过程的简单性和对超参数的鲁棒性使得应用于其他模态比GAN简单得多。我们在SEC中为这一论断提供了一些证据。4.4未来工作的一个研究任务是为2D图像之外的域找到良好的6. 结论在本文中，我们介绍了一种新的非对抗性方法来训练生成模型。该方法结合了GLO和IMLE的思想，克服了两种方法的不足。当与已建立的基准进行比较时，我们的方法优于最常见的GAN模型，这些模型经历了详尽的超参数调整。我们的方法是强大的，简单的训练，并取得了优异的成绩。作为未来的工作，我们计划将这项工作扩展到更高的分辨率和新的模式，如视频和3D。5821引用[1] M. Arjovsky，S.Chintala和L.博图Wasserstein gan在ICLR，2017。二、三[2] S. Arora和Y.张某甘斯真的学会了分配吗？实证研究。arXiv预印本arXiv：1706.08224，2017。1[3] S. Barratt和R.夏尔马关于Inception评分的注释arXiv预印本arXiv：1801.01973，2018。3[4] P. Bojanowski，A. Joulin，D. Lopez-Paz和A.斯拉姆优化生成网络的潜在空间。在ICML，2018。一、三、五、六、七[5] Q. Chen和V. Koltun.使用级联细化网络的摄影图像合成。ICCV，2017年。3[6] X. Chen，X. Chen，Y.段河，巴西-地Houthooft，J.舒尔曼I. Sutskever和P.阿比尔InfoGAN：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS。2016. 4[7] T. Cover和P.哈特最近邻模式分类。IEEE transactions on information theory，1967年。2[8] L. 丁，D. Krueger和Y. 本吉奥。 Nice：非线性独立成分估计. arXiv预印本arXiv：1410.8516，2014。2[9] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，第2672一、二[10] I. Gulrajani，F. 艾哈迈德，M 。阿尔约夫斯基河谷Dumoulin和A.C.考维尔改进的瓦瑟斯坦甘斯训练。在NIPS，2017年。3[11] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler和S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年三、四[12] Y.何申基于vae的非对抗映射。在NIPS，2018年。三、七[13] Y. Hoshen和L.狼一种用于无监督词翻译的迭代最近点方法。arXiv预印本arXiv：1801.06126，2018。3[14] Y. Hoshen和L.狼Nam -无监督跨域图像映射，没有循环或gans。在ICLR研讨会，2018年。3[15] Y. Hoshen和L.狼Nam：非对抗性无监督域映射。在ECCV，2018。一、三、七、八[16] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。1[17] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁为提高质量、稳定性和变异性而进行的干细胞arXiv预印本arXiv：1710.10196，2017。6[18] D. Kingma和J. BA. Adam：一种随机优化方法。在2016年国际学习代表会议5[19] D. P. Kingma和P.达里瓦尔发光：生成具有可逆1x1卷积的流。arXiv预印本arXiv：1807.03039，2018。2[20] D. P.Kingma和M.威林自动编码变分贝叶斯。见ICLR，2014年。2[21] A.克里热夫斯基从微小的图像中学习多层特征。技术报告，Citeseer，2009年。5[22] Y. LeCun和C.科尔特斯MNIST手写数字数据库。2010. 5[23] K. Li和J.马利克隐式最大似然估计。arXiv预印本arXiv：1809.09087，2018。一二三四七[24] M. Lucic，K. Kurach，M. Michalski，S. Gelly和O.布-凯。Gans是平等的吗？一项大规模的研究arXiv预印本arXiv：1711.10337，2017。三、四、五、六、七[25] L. Mescheder，S. Nowozin和A.盖革gans的哪些训练方法实际上是趋同的？、国际机器学习会议（ICML），2018年。三、六[26] T. 宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的谱归一化。在ICLR，2018年。3[27] A. Odena，V. Dumoulin和C.奥拉反卷积和棋盘式伪影。Distill，1（10）：e3，2016. 5[28] A. 诉D. Oord，S.Dieleman，H.Zen，K.Simonyan，O.维尼亚人A. Graves，N.Kalchbrenner，A.高级和K。KavukcuogluWavenet：原始音频的生成模型。arXiv预印本arXiv：1609.03499，2016。2[29] A. v. d.奥德湾Kalchbrenner和K. Kavukcuoglu像素递归神经网络。arXiv预印本arXiv：1601.06759，2016。2[30] M. S. 萨贾迪岛巴希姆M. Lucic，O. Bousquet，以及S.吉利通过精确度和再调用来评估生成模型. arXiv预印本arXiv：1806.00035，2018。三五六[31] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术神经信息处理系统进展，第2234-2242页，2016年。3[32] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。ICLR，2015年。3[33] J.Wu，C. Zhang，T.薛，W. T. Freeman和J. B.特伦鲍姆。通过3d生成对抗建模学习物体形状的概率潜在空间。在NIPS，2016年。7[34] Z. Wu，S.Song，中国黑杨A.Khosla，F.于湖，加-地Zhang，X.唐和J.肖。3d shapenets：体积形状的深度表示。IEEE计算机视觉与模式识别，2015年。7[35] H.肖氏K. Rasul和R.沃尔格拉夫。时装设计师：一种用于基准机器学习算法的新型图像数据集。2017年12月17日，第1708.07747页。5[36] S. Yang，P. Luo，C. C. Loy和X.唐从面部部分响应到面部检测：深度学习方法。在ICCV，第3676-3684页，2015中。5[37] H.张岛Goodfellow，D. Metaxas和A. Odena自我注意生成对抗网络。arXiv预印本arXiv：1805.08318，2018。3[38] R. Zhang，P.Isola，A.A. Efros、E.Shechtman和O.王. 深度特征作为感知度量的不合理有效性arXiv预印本arXiv：1801.03924，2018。8[39] D. Zoran和Y.韦斯从自然图像块的学习模型到整体图像恢复。见ICCV，2011年。二、三

下载后可阅读完整内容，剩余1页未读，立即下载