没有合适的资源?快使用搜索试试~ 我知道了~
基于图像分类的GAN评估方法与数据集难度相关
我的GAN有多好?Konstantin Shmelkov、Cordelia Schmid和Karteek Alahari⋆INRIA抽象。 生成对抗网络(GANs)是当今最流行的生成图像的方法之一。虽然已经通过目视检查验证了令人印象深刻的结果,但是直到最近才出现了许多定量标准我们在此认为,现有的机制是不够的,需要与手头的任务相适应。本文介绍了两种基于图像分类的测度--GAN- train和GAN-test,它们分别近似于GAN的查全率(多样性)和查准率(图像质量)我们评估了一些最近的GAN方法的基础上,这两个措施和demonstrate一个明显的性能差异。此外,我们观察到,从CIFAR10到CIFAR100到ImageNet,数据集难度的增加与GAN的质量呈负相关,这一点从我们的测量中可以清楚地看出。1介绍生成对抗网络(GAN)[19]是由一对竞争神经网络组成的深度神经网络架构:生成器和判别器。该模型通过交替优化两个目标函数来训练,使得生成器G学习产生类似于真实图像的样本,并且鉴别器D学习更好地区分真实数据和虚假数据。这样的范例具有巨大的潜力,因为它可以学习生成任何数据发现。这已经在几个计算机视觉问题中取得了一些成功,例如文本到图像[56]和图像到图像[24,59]翻译,超分辨率[31]和逼真的自然图像生成[25]。自从最初的GAN模型[19]被提出以来,在过去的几年中出现了许多变体,例如,为了提高生成图像的质量[12,15,25,36],或者为了稳定训练过程[7,9,20,34,36,40,57]。GAN也被修改为通过附加信息(例如类别标签)来生成给定类别的图像[16,35,37,41]。有很多方法可以做到这一点:从标签y到生成器输入z或中间特征图的级联[16,35],到使用条件批量归一化[37],以及用辅助分类器增强鉴别器[41]。Univ. Grenoble Alpes,Inria,CNRS,Grenoble INP,LJK,38000 Grenoble,France.这项工作部分得到了ERC高级资助ALLEGRO,亚马逊,Facebook和英特尔的礼物以及印度-法国项目EVEREST(编号100000000)的支持。#30302;,由中央财政支持。2K.什梅尔科夫角Schmid,K. 阿拉哈里图1:最先进的GAN,例如,SNGAN [36]生成逼真的图像,与真实图像相比,难以主观评估我们的新的基于图像分类精度的措施(GAN-train在这里显示)克服了这个问题,显示出真实图像和生成图像之间的明显差异。在文献中经常提出几个这样的变体,一个关键问题是如何评估这些模型并相互比较。GANs的评估和比较,或者等效地,GANs生成的图像,是具有挑战性的。这部分是由于缺乏显式似然度量[51],这在可比概率模型中是常见的[27,47]。因此,许多以前的工作已经诉诸于一个纯粹的主观视觉评估的情况下,由GAN合成的图像从图1中最先进的GAN [36]生成的样本图像中可以看出最近两年的工作已经开始通过评估GANs的定量措施来应对这一挑战 [22,25,32,46]。Inceptionscore(IS)[46]和Fr'e chetInceptiondistance(F I D)[22]被建议作为与生成图像的视觉质量相关的特别措施。初始分数通过计算由该图像产生的(logit)响应与边缘分布之间的KL散度来测量所生成的图像的质量所有生成图像的平均响应,使用在ImageNet上训练的Inception网络[50]换句话说,Inception score不将样本与目标分布进行比较 , 并 且 限 于 量 化 一 般 样 本 的 分 布 。Fr´echetInceptiondistancecomparesI ncep-tion activations(Inception网络倒数第二层的响应)在真实图像和生成图像之间。然而,该比较将真实图像和生成图像的激活近似为高斯分布(参见图11)。等式(2)),计算它们的均值和协方差,这太粗糙而不能捕获细微的细节。这两种方法都依赖于ImageNet预训练的Inception网络,这对于其他数据集(如人脸和生物医学成像)来说远非理想总的来说,IS和FID是评估培训优势的有用指标,但它们不能保证与现实任务的表现相关正如我们在第5节中所讨论的,这些措施不足以精细分离我的GAN有多好?3最先进的GAN模型,与我们的测量不同(例如,参见表2中的SNGAN与WPGAN-GP(10 M))。另一种评估方法是计算所生成样本与实际数据流形在精度和召回率方面的距离这里,高精度意味着生成的样本接近数据流形,并且高召回率表明生成器输出很好地覆盖流形的样本。这些度量仍然是理想化的,因为它们不可能在流形未知的实际上,[32]中的评估仅限于使用由灰度三角形组成的合成数据。建议用于比较GAN模型的另一个距离是切片Wasserstein距离(SWD)[25]。SWD是真实图像和生成图像之间的Wasserstein-1距离的近似,并且被计算为从这些图像的拉普拉斯金字塔表示中提取的局部图像块之间的统计相似性如第5节所示,社署提供的信息比我们的评估指标少。在本文中,我们提出了新的评估措施来比较类条件GAN架构与GAN训练和GAN测试分数。对于这两种度量,我们都依赖于用于图像分类的神经网络架构。为了计算GAN-train,我们用GAN生成的图像训练分类网络,然后在由真实世界图像组成的测试集上评估其性能。直观地,这测量所学习的(即,生成的图像)和目标(即,真实图像)分布。我们可以得出结论,如果分类网络能够正确地分类真实图像,则生成的图像与真实图像相似,该分类网络学习用于区分为不同类别生成的图像的特征。换句话说,GAN-train类似于召回措施,因为良好的GAN-train性能表明生成的样本足够多样化。然而,GAN-train还需要足够的精度,否则分类器将受到样本质量的影响。我们的第二个衡量标准,GAN测试,是在真实图像上训练并在生成的图像上评估的网络的准确性。该度量类似于精确度,高值表示所生成的样本是自然图像的(未知)分布的真实近似。除了这两项措施之外,我们还研究了GANs生成的图像用于增强训练数据的实用性。这可以被解释为所生成的图像的多样性的度量。我们的评估方法的实用性,特别是当主观检查不足时,如图1中的GAN-train度量所示我们将在第3节中详细讨论这些措施。正如我们在第5节中的广泛实验结果以及补充材料和技术报告[5]中的附录所示,与之前讨论的所有措施相比,这些措施在评估GAN方面的信息量要大得多,包括人类研究不确定的情况。特别是,我们评估了两种最先进的GAN模型:WGAN-GP [20]和SNGAN [36],以及其他生成模型[45,47],以提供基线比较。在MNIST [30],CI-FAR 10,CIFAR 100 [28]和ImageNet [14]数据集上评估图像分类性能实验结果4K.什梅尔科夫角Schmid,K. 阿拉哈里r r g g rg显示GAN图像的质量随着数据集复杂性的增加而显著降低。2相关工作我们提出了现有的量化措施来评估GAN:基于Inception网络的分数,即,IS和FID,基于Wasserstein的距离度量,精确度和召回分数,以及一种通过数据增强构建的技术。2.1初始分数评估GAN最常见的方法之一是Inception得分[46]。它使用在ImageNet上预先训练的Inception网络[50]来计算生成图像的logit。得分由下式给出:IS(G)= exp.ExpgΣ[DKL(p(y|(x)(p(y))、(1)其中,x是从学习的生成器分布p_g采样的生成图像,E是对生成图像的集合的期望,D_KL是条件类分布p(y)和条件类分布p(y)之间的KL散度。|x)(对于标签y,根据初始网络)和边际类分布p(y)=Expg[p(y| X)]。通过根据定义,Inception评分根本不考虑真实图像,因此不能测量生成器逼近真实分布的程度。该分数仅限于测量所生成图像的多样性如[8]所述,它的一些其他限制是:对Inception网络权重的微小变化具有高敏感性,并且得分的方差较大。2.2Fr´echetIncptiondistanc e合理的 预 处 理 函 数 IID(FID)[22]包括真实(pr(x))和生成(pg(x))图像的Inception嵌入(Inception网络倒数第二层的激活)的分布。这两种分布都被建模为由其各自的均值和协方差参数化的多维高斯分布两个高斯分布之间的距离度量定义为:d2((m, C),(m,C))=m−m21+ Tr(Cr + Cg− 2(Cr Cg)2),(2)其中(mr, Cr)、(mg, Cg)分别表示真实和生成的图像分布的均值和协方差。FID与Inception分数呈负相关,并且遭受与先前讨论的相同的问题。这两个基于Inception的措施不能从图像多样性分离图像质量例如,低IS或FID值可能是由于生成的图像不真实(低图像质量)或彼此太相似(低多样性),无法分析原因。相比之下,我们的措施可以区分生成的图像变得不那么多样化,从更差的图像质量。我的GAN有多好?52.3其他评价措施切片Wasserstein距离(SWD)[25]用于评估高分辨率GAN。它是一个多尺度的统计相似性计算的局部图像补丁提取的拉普拉斯金字塔表示的真实和生成的图像。每幅图像提取拉普拉斯金字塔的每一个层次的128个7×7局部补丁虽然SWD是一种有效的近似,使用随机投影[44],真实图像和生成图像之间的Wasserstein-1距离,但在比较各种GAN模型时,其效用有限,并非所有模型都能生成高分辨率图像(参见我们在第5节中的评估)。精确度和召回率测量是在GAN的背景下引入的,通过构建合成数据流形。这使得可以通过找到图像样本到离流形最近的点的距离来计算图像样本(生成的或真实的)到流形的距离在该合成设置中,精确度被定义为所生成的样本中与流形的距离低于某个阈值的部分另一方面,召回率是通过计算样本的集合来计算的。首先,通过梯度下降,通过反转生成器G,估计在采样x的ion~z处的时间表。接收是通过L2-d_time_G(~z)低于阈值的采样的特征给出的。高召回率相当于GAN捕获了大部分流形,而高精度意味着生成的样本接近流形。尽管这些措施带来了广泛用于评估判别模型的技术的味道,但它们对于真实图像是不切实际的,因为数据流形是未知的,并且它们的使用仅限于对合成数据的评估[32]。2.4数据增强扩充训练数据是学习神经网络的重要组成部分。这可以通过增加训练集的大小[29]或直接在潜在空间中合并增强[54]来实现一种流行的技术是通过对数据进行较小的变换来增加训练集的大小,这导致了性能的提升,例如,图像分类[29]。GAN提供了一种自然的方式来使用生成的样本来增强训练数据。事实上,GAN已被用于以半监督的方式训练分类网络[13,52]或促进域适应[10]。现代GAN生成的图像足够逼真,可以提高应用程序的性能,例如生物医学成像[11,18],人员重新识别[58]和图像增强[55]。它们还可以用于改进由合成图像组成的训练集,用于眼睛凝视和手部姿势估计等应用[49]。GAN还用于学习复杂的3D分布,并取代物理学[39,42]和神经科学[38]中的计算密集型模拟。理想情况下,GAN应该能够用不同的变化重新创建训练集。这可以用于压缩数据集以进行增量学习,而不会在添加新类时遭受灾难性遗忘[48]。我们将研究GANs的效用6K.什梅尔科夫角Schmid,K. 阿拉哈里图2:GAN训练和GAN测试的图示。GAN-train在GAN生成的图像上学习分类器,并在真实测试图像上测量性能。这评估了GAN图像的多样性和真实性。GAN-test在真 实 图 像 上 学 习 分 类 器 , 并 在GAN图像上对其这测量了GAN图像的真实程度。使用数据增强训练图像分类网络(见5.4节),并将其作为评估指标进行分析。总之,生成模型的评估并不是一件容易的事情[51],特别是对于GANs这样的模型。我们通过基于GAN训练和GAN测试性能的措施为这个问题带来了一个新的维度,并通过我们的广泛分析表明,它们是对上述所有方案的补充。3GAN-train和GAN-test条件GAN模型的一个重要特征是生成的图像不仅应该是真实的,而且还应该是可识别的,因为它来自给定的类。完美捕获目标分布的最佳GAN可以生成- 新的图像集Sg,其与原始训练集St不可区分。假设这两个集合具有相同的大小,在其中任何一个上训练的分类器应该产生大致相同的验证精度。当数据集足够简单时,例如MNIST [48](参见第5.2节),这确实是正确的。受这种最佳GAN特征的激励,我们设计了两个分数来评估GAN,如图2所示。GAN-train是在Sg上训练并在真实图像Sv的验证集上测试的分类器的准确度。当GAN不完美时,GAN训练准确度将低于在St上训练的分类器的典型验证准确度。它可能由于许多原因而发生,例如,(i)与St相比,模式丢弃降低了Sg的多样性,(ii)生成的样本不足以使分类器学习相关特征,(iii)GAN可能混淆类别并混淆分类器。不幸的是,GAN故障很难诊断。当GAN训练准确度接近验证准确度时,这意味着GAN图像是高质量的,并且与训练集一样多样化。正如我们将在5.3节中展示的那样,多样性随生成图像的数量而变化我们将在本节末尾讨论的评估中对此进行分析GAN-test是在原始训练集St上训练但在Sg上测试的分类器的准确度。如果GAN学习得很好,这将是一项简单的任务,因为两个集合具有相同的分布。理想情况下,GAN测试应该接近验证精度。如果它显著更高,则意味着GAN过拟合,并且简单地记住训练集。相反,如果它明显较低,我的GAN有多好?7GAN不能很好地捕捉目标分布,图像质量差。请注意,该度量并没有捕获样本的多样性,因为完全记住一个训练图像的模型将获得非常好的分数。GAN测试的准确性与[32]中的精度得分有关,量化了生成的图像与数据流形的接近程度为了深入了解GAN生成的图像的多样性,我们使用不同大小的生成集来测量GAN训练的准确性,并将其与在相应大小的真实数据上训练的分类器的验证准确性进行比较。如果所有生成的图像都是完美的,那么Sg的大小(其中GAN-train等于具有减小大小的训练集的验证精度)将是对Sg中不同图像数量的良好估计。在实践中,我们观察到GAN-train的准确性在一定数量的GAN-generated样本中达到饱和(参见第5.3节中讨论的图4(a)和4(b))。这是GAN多样性的度量,类似于[32]中的回忆,测量GAN覆盖的数据流形的4数据集和方法数据集。为了比较不同的GAN方法和PixelCNN++,我们使用多个具有越来越多标签的图像分类数据集:MNIST [30]、CIFAR10 [28]、CIFAR100 [28]和ImageNet1k [14]。CIFAR10和CIFAR100在训练集中有50k 32×32 RGB图像,在验证集中有10k图像。CIFAR10有10个类,而CIFAR100有100个类。ImageNet1k有1000个类,130万个训练和50k个验证图像。在我们的实验中,我们将原始ImageNet图像下采样到两种分辨率,即64 × 64和128 × 128。MNIST有10类28× 28灰度图像,60k样本用于训练,10k样本用于验证。我们从GAN训练中排除了CIFAR 10/CIFAR 100/ImageNet 1 k验证图像,以评估测试准确性。这在许多GAN论文中没有完成,并且可以解释与这些论文中报告的相比IS和FID评分的微小差异4.1评价方法在文献中众多的GAN模型中,很难选择最好的一个,特别是因为适当的超参数微调似乎可以使所有主要的GAN处于非常接近的性能范围内,正如一项研究所指出的那样[32]。我们选择对Wasserstein GAN(WGAN-GP)和SNGAN进行分析,WGAN-GP是目前文献中最广泛接受的模型之一。一个非常新的模型,显示了Ima-geNet上最先进的图像生成结果。此外,我们还包括两个基线生成模型,DCGAN [45]和PixelCNN++ [47]。我们总结了下面实验分析中包含的所有模型,并在附录[5]中提供了实现细节。Wasserstein GAN WGAN [7]将区分实数和广义距离的鉴别器替换为序列in-1(即,例如,(e)8K.什梅尔科夫角Schmid,K. 阿拉哈里它们之间的对应分布。WGAN在与经典GAN模型[19]兼容方面的成功可以归因于两个原因。首先,生成器的优化更容易,因为临界函数的梯度比其GAN等价物表现得更好其次,经验观察表明,WGAN值函数与样本质量的相关性优于GANs [7]。为了估计真实图像分布和生成图像分布之间的Wasserstein-1距离,临界点必须是K-Lipschitz函数。原始论文[7]提出通过权重裁剪来约束评论家以满足该Lipschitz要求。然而,这可能导致不稳定的训练或生成不良样本[20]。裁剪权重的替代方案是使用梯度惩罚作为正则化器来强制执行Lipschitz约束。特别是,我们惩罚的标准的梯度的批评功能相对于其输入。这已经证明了几种GAN架构的稳定训练[20]。我们使用WGAN的梯度惩罚变体,以我们实验中的数据为条件,并在本文的其余部分将其称为WGAN-GP。标签条件化是使用图像分类训练数据中可用标签的有效方法在ACGAN [41]之后,我们将噪声输入z与生成器中的类别标签连接起来,并修改该值以生成源和标签上的概率分布。SNGAN。变体还分析了与训练GAN相关的其他问题,例如鉴别器的性能控制对训练生成器的影响生成器通常无法学习目标分布的多模态结构,这是由于对目标分布的不稳定训练,特别是在高维空间中[36]。更戏剧性的是,当真实和生成的图像分布的支持不相交时,生成器停止学习[6]。这是因为鉴别器快速学习区分这些分布,导致鉴别器函数相对于输入的梯度变为零,并且因此无法进一步更新生成器模型。SNGAN [36]引入频谱归一化以稳定训练判别器。这是通过对每个层的卷积进行标准化来实现的(即,学习的权重)与权重矩阵的谱范数,是它的最大奇异值。Miyato等人。 [36]表明,这种正则化优于其他替代方案,包括梯度惩罚,特别是在ImageNet上实现了最先进的图像合成结果在我们的评估中,我们使用SNGAN [37]的在这里,SNGAN在鉴别器网络中使用投影进行调节,在生成器网络中使用条件批归一化[17]。DCGAN。深度卷积GANs(DCGANs)是一类架构,被提出来利用CNN的监督学习以及GAN模型的无监督学习的好处[45]。DC-GAN背后的主要原则是仅使用卷积层和用于生成器和鉴别器网络的批量归一化。DCGAN的几个实例是可能的,具有这些广泛的指导方针,并且事实上,许多实例确实存在于文献中[20,36,41]。我们使用[41]中提出的类条件变体进行分析。我的GAN有多好?9PixelCNN++。原始PixelCNN [53]属于一类具有易处理似然性的生成模型。它是一个深度神经网络,可以沿着两个空间维度依次预测像素之间的空间依赖性通过使用掩蔽卷积的全卷积网络来捕获PixelCNN++在正则化、修改的网络连接和更有效的训练方面对该模型提出了改进[47]。5实验5.1评价措施实施细则我们使用WGAN-GP代码[1]计算Inception得分,该代码针对1008类问题[8]进行了校正按照标准方案,在我们的所有评估中报告了在5k次分割上计算10次的该评分的平均值我们发现,有两个变量计算FID。第一个是来自作者[22]的原始实现[2],其中使用所有真实图像和至少10k个生成的图像第二个来自SNGAN [36]实现,其中将5k个生成的图像与5k个真实图像进行比较。在这两种情况下,协方差矩阵的估计也不同。因此,我们包括这两个版本的FID的文件,以方便在未来的比较。最初的实现被称为FID,而我们的5 k版本的实现[4]被表示为FID-5 K。SWD的实现取自NVIDIA官方存储库[3]。5.2生成式模型评价MNIST。我们验证了我们的主张(来自第3节),即GAN可以在MNIST上完美地复制一个简单的数据集在真实MNIST数据上训练的四层convnet分类器相比之下,使用SNGAN生成的图像实现了99.0%的GAN训练准确率和99.2%的GAN测试准确率,突出了其高图像质量和多样性。CIFAR10.表1显示了CIFAR10上最先进的GAN模型的比较。我们观察到,模型的相对排名在不同的指标上是一致的:FID,GAN-train和 GAN-test 精 度 。 GAN-train 和 GAN-test 对 于 SNGAN 和 WGAN-GP(10 M)都相当高这意味着图像质量和多样性都很好,但仍低于真 实 图 像 的 质 量 和 多 样 性 ( 第 一 行 中 的 92.8 ) 。 请 注 意 ,PixelCNN++具有低多样性,因为在这种情况下,GAN-test比GAN-train高得多这与其相对较差的Inception评分和FID一致(如[32]所示,FID对模式下降非常敏感)。请注意,SWD与其他指标相关性不好:对于WGAN-GP(特别是SWD 32),它始终较小。我们假设这是因为SWD近似真实图像和生成图像的块之间的Wasserstein-1距离,这与Wasserstein GAN的优化目标有关,但与其他模型(例如,Wasserstein GANSNGAN)。这表明社署是10K.什梅尔科夫角Schmid,K. 阿拉哈里模型是 FID-5KFID甘-甘- SWD 16 SWD 32火车测试真实图像11.339.42.192.8-2.82.0SNGAN8.4318.811.882.287.33.924.4WGAN-GP(10M)8.2121.514.179.585.03.86.2WGAN-GP(2.5M)8.2922.115.076.180.73.46.9DCGAN6.6942.535.665.058.26.524.7PixelCNN++5.36121.3119.534.047.114.956.6表1:CIFAR10实验。答:越高越好。FID和SWD:越低越好。这里的SWD值乘以103以获得更好的可读性。GAN-train和GAN-test的准确率以百分比表示(越高越好)。图3:第一列:SNGAN生成的图像。其他列:来自CIFAR10“训练”的5个图像闭合到来自基线CIFAR10分类器的特征空间中的第一列的GAN图像。不适合比较WGAN和其他GAN损失。还值得注意的是,WGAN-GP(10 M)仅显示出比WGAN-GP(2.5M)小的改进,尽管参数数量增加了四倍。在图3中,我们显示了在CIFAR10上SNGAN生成的图像及其最近的邻居,这些图像来自我们用于计算GAN测试度量的分类器的特征空间中的训练集。请注意,SNGAN始终找到与生成的图像相同类别的图像,这些图像接近训练集的图像。为了突出GAN-train和GAN-test的互补性,我们按照[22]的精神,通过对CIFAR 10训练集进行子采样/破坏来模拟一个简单的模型。GAN-train/test现在对应于在修改的数据上训练/测试分类器。我们观察到GAN-test对子采样不敏感,这与GAN-train不同(它相当于在较小的分割上训练分类器椒盐噪声,范围从每幅图像的1%到20%的替换像素,几乎不影响GAN训练,但显著降低GAN测试(从82%到15%)。通过对修改后的数据的该实验,我们还观察到FID不足以区分图像多样性和质量的影响。例如,CIFAR10训练集和具有高斯噪声的训练集之间的FID(σ= 5)为27.1,而训练集与其具有相同噪声的随机5k子集之间的FID为29.6。这种差异可能是由于缺乏多样性或质量或两者兼而有之。衡量图像质量的GAN测试在这两种情况下是相同的(95%)。另一方面,GAN-train从91%下降到80%,表明5 k火车集缺乏多样性。我们的措施共同解决了FID的主要缺点之一。CIFAR100.我们对CIFAR100的结果总结在表2中。这是一个比CIFAR 10更具挑战性的数据集,主要是由于类别数量较多,而每个类别的图像较少;这一点,可以从一个经典的convnet中看出。我的GAN有多好?11用 真 实 图 像 训 练 的 分 类 : CIFAR10 和 CIFAR100 分 别 为 92.8 和69.4SNGAN和WGAN-GP(10 M)产生类似的IS和FID,但GAN序列和GAN测试精度非常不同。这使得更容易得出结论,SNGAN比WGAN-GP(10 M)具有更好的图像质量和多样性。值得注意的是,WGAN-GP(10 M)在所有指标上都优于WGAN-GP(2.5M),除了SWD。WGAN-GP(2.5M)实现了合理的IS和FID,但生成的样品的质量非常低,如GAN测试准确度所证明的。SWD遵循与CIFAR 10情况相同的模式:WGAN-GP在该测量中显示出比其他人更好的性能,这与其相对较差的图像质量不一致。PixelCNN++表现出有趣的行为,具有高GAN测试准确性,但GAN训练准确性非常低,表明它可以生成质量可接受的图像,但它们缺乏多样性。在这种情况下,高FID也暗示显著的模式下降。我们还在附录[5]中使用t-SNE [33]分析了生成图像的质量乱林。 我们通过使用随机森林[23,43]而不是CNN进行分类来验证我们的发现是否取决于分类器的类型。这导致GAN训练、GAN测试得分为15.2%,SNGAN为 19.5%,WGAN为 10.9%,16.6%GP(10 M),WGAN-GP(2.5M)为3.7%、4.8%,DCGAN为3.2%、3.0分别请注意,这些GAN的相对排名对于随机森林和CNN保持相同。人类研究。 我们设计了一项人类研究,目的是找到哪些措施(如果有的话)更符合人类的判断。 受试者被要求从两个样本中选择更真实的图像,CIFAR100的特定类别。5例受试者评价了SNGAN与以下之一:DCGAN、WGAN-GP(2.5M)、WGAN-GP(10 M)在三个单独的测试中。他们对每个测试随机生成的图像对进行了100次比较,即,总共1500次试验。他们都发现这项任务具有挑战性,特别是对于两个WGAN-GP测试。我们使用数据库的数据来分析这些用户。 在SNGAN对比DCGAN中,受试者在500个试验中选择SNGAN 368个,在SNGAN对比WGAN-GP(2.5M)中,受试者在500个试验中优选SNGAN 274个,并且在SNGAN对比WGAN-GP(10 M)中,SNGAN在500个试验中优选230个。 SNGAN对DCGAN的偏好具有统计学显著性(p <10 −7),而对WGAN-GP ( 2.5M ) 或 WGAN-GP ( 10 M ) 的 偏 好 不 显 著 ( p =0)。28,p = 0。(37)相应。我们的结论是,所生成的图像的质量需要显着不同,在SNGAN与DCGAN的情况下,人类研究是决定性的。与我们的测量方法不同,它们不足以找出细微的、ImageNet. 在这个数据集上,这是图像合成更具挑战性的数据集之一[36],我们基于我们的CIFAR实验分析了两个最佳GAN模型的性能,即,SNGAN和WGAN-GP。如表3所示,SNGAN在128× 128分辨率下实现了合理的GAN训练精度和相对较高的这表明SNGAN生成的图像具有良好的质量,但其多样性远低于原始数据。这可能部分是由于发电机的大小(150Mb)显著减小。12K.什梅尔科夫角Schmid,K. 阿拉哈里模型是 FID-5KFID甘-甘- SWD 16 SWD 32火车测试真实图像14.910.82.469.4-2.72.0SNGAN9.3023.815.645.059.44.015.6WGAN-GP(10M)9.1023.515.626.740.46.09.1WGAN-GP(2.5M)8.2228.820.65.44.33.77.7DCGAN6.2049.741.83.52.49.920.8PixelCNN++6.27143.4141.94.827.58.525.9表2:CIFAR100实验。详情请参阅表1的标题res模型是FID-5KFID甘-火车top-1甘-火车top-5甘-测试top-1甘-测试top-5真实图像63.815.62.955.078.8--64px SNGAN12.344.534.438.412.928.9wgan-GP11.346.735.80.10.70.10.5真实图像203.217.43.059.181.9--128px SNGAN*35.344.933.29.321.939.563.4wgan-GP11.691.679.50.10.50.10.5表3:ImageNet实验。SNGAN* 是指[36]提供的模型详情请参阅表1的标题与ImageNet训练数据相比更小(128× 128为64Gb)。尽管存在这种大小差异,但它对前1和前5个分类结果的GAN训练准确率分别为9.3%和21.9%相比之下,WGAN-GP的性能明显较差;参见表中每个分辨率的最后一行。在以64× 64分辨率生成的图像的情况下,使用SNGAN的GAN训练和GAN测试精度低于其128× 128对应物。GAN测试的准确性比GAN训练好四倍以上,表明生成的图像缺乏多样性。有趣的是,WGAN-GP产生的Inception得分和FID与SNGAN非常相似,但其图像不足以训练合理的分类器并被ImageNet分类器识别如非常低的GAN训练和GAN测试分数所示。5.3GAN图像分集我们进一步分析了所生成的图像的多样性,通过评估GAN训练的准确性与不同数量的生成的数据。具有低多样性的模型会相比之下,从具有高多样性的模型中生成更多样本会产生更好的GAN训练分数。我们在图4中显示了这一分析,其中GAN训练精度相对于CIFAR10和CIFAR100上生成的训练集的大小在CIFAR 10的情况下,我们观察到GAN训练准确性在大约15- 20 k生成的图像中饱和,即使对于最好的模型SNGAN也是如此(参见图1)。我的GAN有多好?13实数据SNGANWGAN-GP(10M)WGAN-GP(2.5M)DCGAN仅真实图像真实图像+50K GAN图像测试精度GAN序列精度100CIFAR10100CIFAR10080 8060 6040 4020 2002.5K10K 15K 25K50KGAN图像02.5K10K 15K 25K 50KGAN图像图4:改变生成的图像集的大小对GAN训练精度的影响。为了比较,我们还显示了改变真实图像训练数据集大小的结果(蓝色)。(Best查看PDF)100CIFAR10100CIFAR10080 8060 6040 4020 2002.5K10K 15K 25K50K实际图像02.5K10K 15K 25K 50K实际图像图5:用真实图像和SNGAN生成的图像的组合训练分类器的影响图4a)。使用比SNGAN弱的DCGAN,由于其相对较差的多样性,GAN-train在5 k图像左右饱和。图4b示出了对于所有模型,CIFAR100上超过25k图像的GAN训练准确度5 k SNGAN生成图像的多样性与相同数量的真实图像相当;参见图4 b中的蓝色和橙色图。WGAN-GP(10M)在5 k生成的图像之外具有非常低的多样性。WGAN-GP(2.5M)和DCGAN在CIFAR 100上表现不佳,并且相对于其他方法没有竞争力5.4GAN数据增强我们分析了GANs用于数据增强的效用,即,用于生成额外的训练样本,在两种设置下具有最佳性能的GAN模型(SNGAN)。首先,在图5a和5b中,我们显示了训练的影响具有来自训练集的真实图像和50k的组合的分类器实数据SNGANWGAN-GP(10M)WGAN-GP(2.5M)DCGAN仅真实图像真实图像+50K GAN图像测试精度GAN-train精度14K.什梅尔科夫角Schmid,K. 阿拉哈里实际图像数real C10 real+GAN C10 real C100 real+GAN C1002.5k73.467.025.623.95k80.977.940.033.510k85.883.551.545.5表4:当用减少的真实图像集训练SNGAN时的数据增强。分类器在该数据(真实)或真实和SNGAN生成的图像的组合(真实+GAN)上训练。性能以%准确度表示。分别在CIFAR10和CIFAR100数据集上生成的图像。在这种情况下,使用来自原始训练集的所有图像来训练SNGAN。从这两个图中,我们观察到,将2.5k或5k真实图像添加到50k GAN生成的图像中,可以提高相应的仅真实图像的准确性。然而,添加50k真实图像并没有提供任何明显的改进,并且事实上,在CIFAR100的情况下略微降低了性能(图5b)。这可能是由于缺乏图像多样性。该实验提供了关于生成的集合的多样性的另一个视角,假定生成的图像是由从整个CIFAR10(或CIFAR100)训练数据集学习的GAN产生的。例如,用50k个生成的图像增强2.5k个真实图像,比仅在5k个真实图像上训练的模型产生更好的测试准确度。因此,我们可以得出结论,GAN模型生成的图像比2.5k真实图像具有更大的多样性。然而,这是假设生成的图像与原始数据一样真实。在实践中,生成的图像往往缺乏现实感,并且比真实图像更加多样化。这些观察结果与第5.3节中的观察结果一致,即:SNGAN生成的图像至少不同的5k随机采样的真实图像。在第二种设置中,SNGAN在低数据状态下训练。与前面的实验相比,我们在减少的训练集上训练SNGAN,然后在这个减少的集合和相同数量的生成图像的组合上训练分类器表4中的结果显示,在CIFAR10和CIFAR100(表中分别为C10和C100)上,行为与整个数据集设置(50k图像)一致,即,准确性略有下降。6总结本文介绍了解决评估和比较GANs生成的图像这一具有挑战性的问题的步骤。为此,我们提出了新的定量措施,GAN-train和GAN-test,这是由precision和recall分数普遍用于判别模型的评估我们评估了几个最近的GAN方法以及其他流行的生成模型与这些措施。我们广泛的实验分析表明,GAN-train和GAN-test不仅突出了这些方法在性能上的差异,但也是现有分数的补充。我的GAN有多好?15引用1. https://github.com/igul222/improved_wgan_training2. https://github.com/bioinf-jku/TTUR3. https://github.com/tkarras/progressive_growing_of_gans4. 源代码.http://thoth.inrialpes.fr/research/ganeval5. 补充材料,也可在arxiv.org/abs/1807.094996. Arjovsky,M.,Bottou,L.:训练生成式对抗网络的原则性方法In:ICLR(2017)7. Arjovsky,M.,Chintala,S.,Bottou,L.:Wasserstein生成对抗网络在:ICML(2017)8. Barratt,S.,Sharma,R.:关于《盗梦空间》的一个注释。arXiv预印本arXiv:1801.01973(2018)9. Berthelot,D.,Schumm,T.,梅斯湖:BEGAN:边界均衡生成对抗网络。arXiv预印本arXiv:1703.10717(2017)10. Bousmalis,K.,Silberman,N. Dohan,D. Erhan,D.,Krishnan,D.:无监督像素级域适应与生成对抗网络。在:CVPR(2017)11. Calimeri,F.,Marzullo,A.Stamile,C.,Terracina,G.:使用生成对抗神经网络的生物医学数据在:ICANN(2017)12. 陈旭,段玉
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- CoreOS部署神器:configdrive_creator脚本详解
- 探索CCR-Studio.github.io: JavaScript的前沿实践平台
- RapidMatter:Web企业架构设计即服务应用平台
- 电影数据整合:ETL过程与数据库加载实现
- R语言文本分析工作坊资源库详细介绍
- QML小程序实现风车旋转动画教程
- Magento小部件字段验证扩展功能实现
- Flutter入门项目:my_stock应用程序开发指南
- React项目引导:快速构建、测试与部署
- 利用物联网智能技术提升设备安全
- 软件工程师校招笔试题-编程面试大学完整学习计划
- Node.js跨平台JavaScript运行时环境介绍
- 使用护照js和Google Outh的身份验证器教程
- PHP基础教程:掌握PHP编程语言
- Wheel:Vim/Neovim高效缓冲区管理与导航插件
- 在英特尔NUC5i5RYK上安装并优化Kodi运行环境
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功