没有合适的资源?快使用搜索试试~ 我知道了~
4461通过匹配知觉特征学习内隐生成模型CiceroNogueira dos Santos,Youssef Mroueh,Inkit Padhi,Pierre Dognin,IBM Research,T.J.沃森研究中心,纽约{cicerons,mroueh,pdognin}@ us.ibm.com,inkit. ibm.com摘要感知特征(PF)已经在迁移学习、风格迁移和超分辨率等任务中得到了广泛的应用然而,PF作为学习生成模型的关键信息源的功效我们在这里调查使用PF的上下文学习内隐生成模型通过矩匹配(MM)。更具体地说,我们提出了一种新的有效的MM方法,通过对预训练的ConvNets进行特征的均值和协方差匹配来学习隐式生成模型我们提出的方法改进了现有的MM方法:(1)摆脱了有问题的对抗学习的最小/最大游戏;(2)避免核函数的在线学习;(3)对于所使用的时刻数和所需的小批量大小都是有效的。我们的实验结果表明,由于来自预训练的深度ConvNets的PF的表现力,我们的方法在具有挑战性的基准测试中获得了1. 介绍使 用 在 ImageNet 上 预 训 练 的 深 度 卷 积 神 经 网 络(DCNN)的特征[37]导致了计算机视觉的重要进步。DCNN特征,通常称为感知特征(PF),已用于迁移学习[42,17],风格迁移[9]和超分辨率[18]等任务。虽然之前已经有关于在图像生成和变换的背景下使用PF的工作[7,18],但是对PF作为学习生成模型的关键信息源的探索还没有得到很好的研究。特别是,通过矩匹配训练的隐式生成模型的PF的有效性是一个悬而未决的问题。生成式建模的矩匹配方法基于这样的假设,即可以通过将模型分布的矩与经验数据分布相匹配来学习数据分布两个代表性的冰毒-*同等缴款。该系列的ods基于最大平均差异(MMD)[11,12,24]和矩量法(MoM)[35]。虽然基于MoM的方法将概率分布嵌入到有限维向量(即,有限数量的矩的匹配),基于MMD的方法将分布嵌入到无限维向量中[35]。MMD方法的一个挑战是定义一个核函数,该函数在统计上是有效的,并且可以用于小的minibatch大小[22]。一种解决方案是使用对抗学习来在线训练核函数[22,3]。然而,这种解决方案继承了对抗学习的有问题的最小/最大游戏。使用MoM训练深度生成网络的主要挑战在于定义数百万个足够不同的时刻,并指定一个目标函数来学习所需的时刻。Ravuri等人[35]通过使用专门设计的目标函数将矩定义为来自在线训练(与生成器一起)的矩网络的特征和导数来解决这两个问题在这项工作中,我们证明,通过使用PF进行矩匹配,可以克服目前的矩匹配方法中发现的一些困难。更具体地说,我们提出了一个简单而有效的矩匹配方法,它:(1)完全脱离了概率最小/最大博弈;(2)不使用核函数的在线学习;以及(3)对于所使用的时刻的数量和所需的小批量大小都非常有效。我们提出的方法名为生成特征匹配网络(GFMN),通过对从预训练的深度ConvNets的所有卷积层中提取的特征进行均值和协方差匹配来学习隐式生成模型。GFMN的一些有趣特性包括:(a)损失函数与所生成的图像质量直接相关;(b)模式崩溃不是一个问题;以及(c)可以跨不同的数据集使用相同的预训练特征提取器。我们使用不同的具有挑战性的数据集进行了大量的实验:CIFAR10、STL 10、CelebA和LSUN。我们证明,我们的方法可以实现国家的最先进的结果具有挑战性的基准,如CIFAR10和STL 10。此外,我们表明,同样的4462生成器NNp数据p数据p数据p数据PGp数据PGPGPGPGz1···x1···E1(x1)···L=PM||µj-1个PNE(x)||2zNxNEM(xN)j=1p数据Ni=1j i图1:GFMNT降雨:从z1, . . . zN个噪声信号,生成器G创建N个图像x1, . . . xN。 固定的预训练特征提取器E用于获得Ej(x∈i)个特征。L是表特征均值之间的差的L2范数生成的和真实的数据,µj. 我们预先计算µj在整个真实数据集上(它在训练过程中不会改变);在大小为N的小批量上估计生成数据的平均值。对于L中的方差项使用相同的策略。特征提取器在不同的数据集上是有效的。在实践中,我们首先通过预计算估计来训练G本文的主要贡献可以概括为:jp数据σjp数据 在训练数据上,低:(1)我们提出了一种新的有效矩匹配-的方法来训练隐式生成模型,不使用对抗或在线学习内核函数,提供稳定的训练,并实现最先进的结果;(2)我们展示了在感知特征普适性假设下证明GFMN收敛的理论结果;(3)我们提出了一种基于ADAM的移动平均方法,该方法允许使用小批量进行有效训练;(4)我们广泛的定量和定性实验结果表明,预训练的自动编码器和DCNN分类器可以有效地用作用于GFMN训练的(跨域)特征提取器。2. 生成式特征匹配网络2.1. 述的方法设G是实现为具有参数λ的神经网络的生成器,并且设E是具有L个隐藏层的预训练神经网络我们提出的方法包括通过最小化以下损失函数来训练GXM多次训练迭代,我们对一小批生成(假)数据,并使用具有反向传播的随机梯度下降(SGD)优化参数。网络E仅用于特征提取的目的,并且在G的训练期间保持固定。图1呈现了GFMN训练流水线。自动编码器特征:自动编码器(AE)框架是训练特征提取器的无监督方法的自然选择。AE的解码器部分由一个图像生成器组成,该图像生成器使用编码器提取的特征。因此,通过设计,编码器网络应该是一个很好的特征提取器,用于生成目的。分类器特点:我们使用在ImageNet上预训练的不同DCNN架构进行实验,以扮演特征提取器E的角色。我们的假设是,基于ImageNet的PF信息量足够大,可以通过特征匹配来训练(跨域)生成器。2.2. Matching Feat.关于ADAM Moving Average从特征匹配损失到移动平均线。为了用均值和协方差特征匹配进行训练min✓j=1jp数据j()||2个以上||σjj()||第二章(一)考虑到损失,需要大的小批量来获得良好的平均值协方差估计。对于大于32 × 32的图像,DCNN会产生数百万个特征,其中:jp数据=Ex x P 数据 Ej(x)2Rdj记忆问题。我们建议通过使用均值差的移动平均值(covari)来缓解这个问题。J (n)=Ez<$N(0,I)Ej(G(z;z))2Rdj真实和生成的数据。代替计算(存储器)昂贵的特征匹配损失在方程中。1我们Jp数据,`=Ex x P 数据 Ej,`(x)2-[µj,`]2,`=1。 . .DJ保持特征均值差的移动平均值vjjpG,` (n)=Ez<$N(0,I)Ej,`(G(z;z))2-[μj,`]2,`=1。 . . DJ(协方差)在真实数据和生成数据之间的层j处。我们详细介绍了我们的移动平均策略的平均fea-和||. ||2istheL2loss;xisarealdatapointsampledfromthe datagenerating distribution pdata; z 2 Rnz is a noise仅限tures,但相同的方法适用于covariances。来自Eq.的第一项的平均特征1、从正态分布N(0,Inz)采样的向量;Ej(x)表示来自E的隐藏层j的输出向量/特征图;M L是隐藏层的数量Jp数据签署人:-EzN(0,I.)Ej(G(z;n))||2可以近似!用于执行特征匹配。注意,σ2和σ2v>µj1XN-Ej(G(zk;Z))、表示来自真实数据的特征的方差,数据,分别。 我们使用对角协方差矩阵-jp数据Nk=1特征提取器NN关于和||µ-µ-σµµσσ||µnznznz4463因为计算全协方差矩阵对于大量特征是不切实际的。其中,N是小批量大小,vj是在所提取4464j=µHK12JJ由E的第j层:∆jp数据1XNNk=1Ej(G(zk;zk)).(二)平均特征匹配,我们使用这种方法进行均值和协方差匹配。AMA相对于简单移动平均(MA)的主要优点在于其自适应的一阶和二阶矩,以确保稳定的估计移动平均线vj。 实际上,这是一个非平稳的使用这些移动平均线,我们替换等式中给出的损失的第一项1的由于生成的数据的平均值在培训,众所周知,自动协调机制运作良好min✓.XM>Jj=1p数据-1XNNk=1!Ej(G(zk;Z)).(三)这是一个不稳定的在线损失[19]。在第5.3节中,我们提供了实验结果支持:(1)特征匹配的AMA公式化相对于朴素实现提供的存储器优势;特征匹配的滑动平均公式上面有一个主要的优势,在天真的公式方程。1,因为我们现在可以依靠vj来获得真实数据和生成数据的总体特 征均值 的更 好估计 ,同时 使用 大小为 N的小minibatch。对于类似的结果使用Eq. 1,则需要具有大尺寸N的小批量,这对于大量特征是有问题的。ADAM移动平均线:从新加坡元到亚当更新。请注意,对于一个速率为1/2的情况,移动平均值vj有以下更新:vj,new=(1-n)n vj,old+ n n vj,8j = 1. .M很容易看出,移动平均线是对以下损失的梯度(2)与朴素实现相比,AMA允许的稳定性优势和改进的生成我们在附录2中从后悔界限的角度讨论了AMA对MA的优势[36]。3. PF的普适性与GFMN收敛性我们提出的方法与最近的机构有关,基于MMD或MM的生成模型[24,8,22,3,35]。我们强调了MMD-GAN和GFMN之间在MMD-GAN的内核要求和GFMN的特征图(提取器)方面的主要差异,以确保生成器收敛到数据分布。见table1为摘要。GMMN、MMD-GAN融合:MMD匹配1min||v--||二、(四)通用内核我们先来回顾一下已知的VJ 2因此,用学习率来写梯度更新,我们等价地得到:v j,new=v j,ol d-(v j,ol d-j)=(1-)v j,ol d+j.通过对移动平均线的这种解释,我们建议通过使用ADAM优化器[19]对等式中给出的移动平均线的损失进行更好的移动平均线估计4、这样MMD的结果设Hk是再生核Hilbert空间(RKHS)定义为连续核k。信息-广义地说,如果任何有界连续函数都能在Hk中以任意精度逼近,则k是泛函数(附录中的形式定义)。定理1[12]表明,MMD是用于通用内核的良好定义的度量定理1([12]). 给定一个核k,设p,q是两个分布,它们的MMD为:MMD2(k,p,q) =||µp-µq||2其中μp=Ex pkx是平均嵌入。 如果k是universe-vj,new=vj,old--亚当(五j,老--sal则MMD2(k,p,q)= 0当且仅当p = q.ADAM(x)函数计算如下:给定一个通用内核,如GMMN [24,8]中概述的高斯内核,可以学习隐式通用内核。mt=1 mt-1+(1-1) xut=2 ut-1+(1-2)x2pADAM(x)=m/( u+),mt=mt/(1-t)ut=ut/(1-t)定义分布族{q}的模型G,最小化MMD距离:infMMD(k,pdata,q)(5)tt其中x是等式中损失函数的梯度 4,t是迭代次数,mt和ut是迭代t时的一阶和二阶矩向量,9,2=. 999和φ=10- 8是常数。m0和u0如[19]所提出的那样初始化。我们参考[19]以获得详细的ADAM优化器描述。这种移动平均公式,我们称之为ADAM移动平均(AMA),在使用小minibatch时促进稳定的训练。虽然我们详细介绍了AMA使用vµ-J4465假设p个数据在家族{q}中(9,q=p个数据a),对于q=p个数据(定理1的直接结果),实现了通用核的MMD最小化的下确界。这个优雅的MMD匹配设置-使用通用内核,虽然避免了GAN中困难的最小/最大游戏,但并没有转化为好的结果在图像一代 到补救 即, 其他在[22,3,35]中引入的差异如下构成具有特征图$2的uni-k内核k:4466度量内核/特征映射收敛条件生殖M.优化[24,8]MMD(k,p,q)通用k最小概率MMD-GAN[22、3、35]DMMD(p,q)k○ φk固定泛Lipschitzφlipschitz学习最小/最大概率GFMN(This工作)MMD(KΦ,p,q)通用特征图ΦΦ固定最小概率预先计算的µp数据表1:使用MMD匹配进行隐式生成建模的不同方法的比较。GFMN有两个实际的计算优势,它避免了最小/最大的游戏,并允许使用一个预先计算的平均嵌入的真实数据。理论上,如果使用的特征提取器是通用的,GFMN会收敛到真实的数据分布(参见[28]中给出的通用特征的定义DMMD(p,q)= sup$2<$MMD(k<$$,p,q). 对于学习隐式生成模型[22],替换Eq. (5)DMMD。在内核和学习的特征图这种差异在弱拓扑中是连续的(Prop. 2in [1,22])。然而,学习生成模型仍然具有挑战性,因为它归结为原始GAN中的最小/最大游戏[10]。GFMN融合:MMD与通用特征匹配。虽然通用性通常被认为是在内核级别上,但对于由特征图定义的Micchelli等人[28]定义特征地图的通用性以及它如何连接到它们的核心。响应内核。 具体地,对于空间X(图像空间)上的固定特征集,S={$j,j2I,$j:X! R},其中I是可数指数集,定义核在f∈MMD2(KΦ,pdata,qn)中,对于k,得到下确界,使得qn=pdata(pdata2{qn}k).注1. 该分析在此涵盖均值匹配,但同样适用于考虑S={$j,$j$k,j,k 2 I}。计算机视觉中感知特征的普遍性。从prop。1我们看到,为了使GFMN与预训练的特征提取器Ej收敛,这些特征提取器是感知特征(例如来自VGG或在ImageNet上预训练的ResNet的特征),我们需要假设这些特征的普适性。图像域中的图像我们从迁移学习中知道,ImageNet预训练的VGG/ResNet的特征可以通过在其跨度中找到线性权重来 请注意,这是定义PK( x,y)=$(x)$(y)。 Micchelli等人[28]在[28]中给出的普遍特征:连续函数$j2 Ij jThm. 7表明,如果集合S是uni,则该核是泛核。versal. 非正式地说,特征P集S是univel的,如果在这个特征空间(j2Iuj$j(x))中的线性函数在连续有界函数集中是稠密的(正式的定义见附录1)。这是令人感兴趣的,因为GFMN对应于具有在固定特征图Φ(x) ={$j(x)}Pj2I上定义的核KΦ的MMD匹配,其中I是有限的。Wehav eKΦ(x,y)=hΦ(x),Φ(y)i=j2I$j(x)$j(y)和MM D2(KΦ,p,q)=||Ex<$pΦ(x)-Ex<$qΦ(x)||二、对于要成为度量的MMD2(KΦ,p,q),足以使集合特征S是普适的(通过Thm. 1、Thm。7 in [28])。Prop.1给出了GFMN收敛的条件:1.提案 假设p个数据属于由生成器{q}定 义 的 族。GFMN通过在特征空间S={$j,j2I}中进行匹配来实现对真实分布的映射,其中I是可数集,如果特征集S是univer-n-1,sal(非正式地说,任何连续函数都可以写成在S的范围内的线性组合)。Pr oof. S 是 uni versal=) kΦ 是 uni versal[28] 。 因此,MM D(kΦ,pdat a,qΦ ) =0,如果fqΦ=pdata。GFMN解决方案可以近似为这些特征的线性跨度。因此,假设由ImageNet预训练的VGG或ResNet定义的PF的普适性,GFMN保证通过Prop转换为数据分布。1.一、我们的研究结果补充了关于迁移学习和风格迁移中PFs的“普遍性”的共识4. 相关工作GFMN与最近关于MMD和基于矩匹配的生成模型的工作相关[24,8,22,3,35]。最接近我们的方法是[24] 中 提 出 的 生 成 矩 匹 配 网 络 + 自 动 编 码 器(GMMN+AE)在GMMN+AE中,目标是训练一个生成器G,该生成器G从先前的均匀分布映射到由预训练的AE学习的潜在代码,然后使用冻结的预训练解码器映射回图像空间。如第3节所述,我们的方法中的一个关键区别是,虽然GMMN+AE使用高斯核来使用AE低维潜码执行矩匹配,但GFMN在PF空间中执行均值和协方差匹配,该PF空间由比AE潜码大几个数量级的非线性核函数(DCNN)引起,并且我们认为它在图像域中是通用的。4467Li等[22]证明了GMMN+AE对于具有挑战性的数据集(如CI-FAR 10)与GAN没有竞争力。在第3节中讨论的MMD-GAN通过学习与高斯内核结合的特征映射来使用对抗学习来展示竞争结果[22,3]。最后,Ravuriet al. [35]最近提出了一种方法,在训练生成器的同时执行在线学习的时刻。我们提出的方法不同,使用固定的预训练PF提取器的时刻匹配。Bojanowski等人[4]提出了生成潜在优化(GLO)模型,该模型联合优化模型参数和噪声输入向量z,同时避免了对抗性训练。Hoshen等人[16]通过将其与IMLE[23]相结合,获得了比GLO更好的结果我们的工作涉及[32]的即插即用生成模型,其中使用MCMC采样方法使用预训练的分类器对新图像进行采样我们的工作还涉及基于AE的生成模型变分AE(VAE)[20],对抗AE(AAE)[27]和Wasserstein AE(WAE)[40]。然而,GFMN与这些方法完全不同,因为它使用预先训练的AE仅扮演特征提取器的角色,而这些方法旨在施加先验分布。对潜在的AE空间。另一项涉及在生成模型中使用AE的最新工作包括应用AE来提高GAN的稳定性[44,41]。最后,我们的损失函数与McGan [31]中的损失函数相关。5. 实验5.1. 实验装置数据集:我们在CIFAR10 [21](50k train.,10k测试,10节课),STL 10[6](5k train.,8k测试,100k未标记,10类),CelebA[26](200k)和LSUN卧室[43]数据集。STL 10图像被重新缩放为32 × 32,而CelebA和LSUN图像被重新缩放为64 × 64或128 × 128,具体取决于实验。CelebA图像在重新缩放之前被中心裁剪为160 × 160。GFMN发生器:在我们的大多数实验中,生成器G使用类似DCGAN的架构[34]。对于CI-FAR 10,STL10,LSUN和CelebA64 - 64,我们使用了两个额外的层,如以前的作品中常用的那样[30,13]。对于CelebA128和CIFAR10和STL 10的一些实验,我们使用基于ResNet的生成器,例如[13 ]第10段。建筑细节在补充材料中自动编码器功能:对于大多数AE实验,我们使用编码器网络,其架构类似于DIS。DCGAN(Strided Convolutions)我们在每次卷积后使用我们将CIFAR10、STL 10和CelebA的潜在代码大小分别设置为128、128和512。为了执行特征提取,我们获取网络中每个ReLU的输出。此外,我们还进行了一些实验,编码器使用VGG19架构。解码器网络D使用类似于我们的生成器G的网络体系结构。补充材料中有更多细节。分类器特点:我们使用VGG19 [39]和Resnet18网络对分类器特征进行了实验[14]我们使用整个ImageNet数据集进行了预训练[37] 1000个班级。预训练的ImageNet分类器细节可以在补充材料中找到。GFMN训练:GFMN使用ADAM优化器进行训练;大多数超参数在数据集上保持固定我们使用nz= 100和minibatch 64。数据集相关的学习率用于更新G(10-4或5 × 10- 5)和AMA (5×10-5或10-5 )。我们使用AMA移动平均值(第二节)2.2)在所有报告的实验中。5.2. 自动编码器功能与(跨域)分类器特征本节对使用预训练的自动编码器和跨域分类器作为GFMN中的特征提取器选项卡. 2显示了使用不同特征提取器E在CIFAR 10上训练的GFMN的初始得分(IS)[38]和Fre'chet初始距离(FID)[15]。Tab中的前两行。2对应于使用预训练编码器作为E的GFMN模型,而最后四行使用预训练的VGG 19/Resnet 18 ImageNet分类器。我们可以在Tab中看到。2,当ImageNet分类器用作特征提取器而不是编码器时,性能会有很大的提升 。 尽 管 分 类 器 是 在 不 同 的 领 域 ( ImageNet 与CIFAR10),分类器特征明显更有效。虽然编码器的最佳IS为4.95,但ImageNet分类器的最低IS为7.88。此外,当使用simul-simulator VGG 19和Resnet 18作为特征提取器(最后两行)时,特征的数量增加到832 K,我们获得了更好的性能。最后,当使用包含残差块的生成器架构时,我们在IS和FID(最后一行1)方面实现了最佳性能,类似于[13]中提出的架构。来自GFMNVGG19+Resnet18的随机样本,CIFAR10和STL 10显示在图1和图2中。分别为2a和2b 。 图 2c 示 出 了 来 自 用 LSUN 卧 室 数 据 集 训 练 的GFMNVGG19的随机样本(分辨率64 ×64)。图3呈现了来自GFMNVGG19的样本,其用CelebA分辨率为128 × 128的数据集,这表明GFMN可以在图像分辨率大于32 × 32的情况下实现良好的性能。这些结果还表明:(1) 相同的分类器(在ImageNet上训练的VGG19)可以成功应用于跨不同领域的GFMN模型训练;(2)来自DCNN的感知特征封装了足够的统计数据,以允许通过矩匹配来学习良好的生成模型。选项卡. 图3示出了用于增加层数的IS和FID(即,特征数)在我们的提取器VGG19中。我们-1使用不同随机种子的五次运行的平均结果4468表2:具有不同特征提取器的GFMN的 CIFAR10结果E型E拱门预训练开启#功能G拱门是FID(5K/50K)编码器DCGANCIFAR1060KDCGAN4.51 ±0.0682.8/78.3编码器VGG19ImageNet296KDCGAN4.95 ±0.0661.6/57.2分类器ResNet18ImageNet544KDCGAN7.92 ±0.1029.1/24.3分类器VGG19ImageNet296KDCGAN7.88 ±0.0825.5/20.8分类器VGG19 + Resnet18ImageNet小行星832KDCGAN8.08 ±0.0825.5/20.9分类器VGG19 + Resnet18ImageNet小行星832KResNet8.27±0.0918.1/13.5(a) CIFAR10(b)STL 10(c)LSUN图2:使用GFMN作为特征提取器VGG-19+ Resnet 18(2a,2b)和VGG-19 net(2c)生成的样本图3:来自GFMNVGG19的样本在CelebA上训练,图像大小为128 ×128。最多选择16个层,不包括完全连接的层的输出使用更多的层显着提高了性能的特征提取器,达到IS和FID峰值性能时,使用的最大层数。请注意,这些特性是ReLU激活输出,这意味着编码可能非常稀疏。在附录7中,我们展示了证实这些结果的定性结果。为了验证特征的数量是否是性能的主要因素,我们进行了一个实验,我们使用VGG19架构的编码器训练AE。该编码器在ImageNet上进行了预训练,并产生了296K的特征。Tab中的第二行。2显示这个实验的结果。尽管与DCGAN编码器(第一行)相比,IS和FID都有改进,但提升无法与使用VGG 19分类器获得的提升相比换句话说,为了通过特征匹配来训练生成器,来自分类器的特征比AE特征信息量更表3:用于GFMN中的特征匹配的层/特征的数量的影响(1 K =210)。层数#功能是FID(5K/50K)164K4.68 ±0.05118.6 /114.83160K5.59 ±0.0883.2/78.25208K6.12 ±0.0553.8/49.37240K6.99 ±0.0639.4/34.99264K7.26 ±0.0632.3/27.711280K7.72 ±0.0829.6/25.013290K7.49 ±0.0929.2/24.815294K7.62 ±0.0427.6/22.716296K7.88±0.0825.5/20.85.3. AMA和训练稳定性本节给出的实验结果证明了我们提出的ADAM移动平均线(AMA)优于简单移动平均线(MA)。AMA的主要好处是在使用小minibatch时促进稳定的训练。由于GFMN需要来自DCNN的大量特征,因此使用小批量进行训练的能力至关重要4469(a) MA -mbs 64(b)MA -mbs 512(c)AMA - mbs 64图4:使用简单移动平均(MA)(4a和4b)或Adam移动平均(AMA)(4c)以及各种小批量大小(mbs)训练的GFMN生成的图像。虽然小的小批量对MA有很大的负面影响,但对AMA来说不是问题。GPU内存使用情况。我们的GFMN的Pytorch [33]实现在使用VGG 19作为特征提取器和Tesla K40 GPU w/12GB内存上的图像大小为64*64时,只能处理大小为160的小批量。一个更优化的实现,最大限度地减少内存超过-原则上,磁头可以处理更大小批量(如最近的TeslaV100 w/ 16 GB)。然而,随着图像大小或特征提取器大小的增加,内存占用会迅速增加当使用较大的小批处理时,我们总是会耗尽内存,不管实现或硬件如何。本节中的所有实验都使用CelebA训练集,以及使用来自遵循DCGAN类架构的AE的编码器的特征提取器。 该特征提取器小于VGG 19/Resnet 18,允许最大512的小批量,图像大小为64 - 64。图4显示了使用MA或我们提出的AMA训练的GFMN生成的图像。对于MA,使用64和512小批量大小训练的GFMN生成的图像显示在图4a和4b。对于AMA,Fig.4c显示了小批量大小64的结果。在MA训练中,minibatch大小对生成的图像质量有巨大的影响:minibatch小于512,几乎所有生成的另一方面,当使用AMA时,GFMN使用小批量大小64生成更好的图像(图1)。第4c段)。对于AMA,将小批量大小从64增加到512不会提高给定数据集和特征提取器的生成图像的质量。在补充材料中,我们展示了MA和AMA之间的比较,当使用更强的特征提取器时,AMA还对生成的图像的质量显示出非常积极的影响使用更大的minibatch进行训练的替代方案是使用多GPU,多节点设置。然而,进行大规模实验超出了当前工作的范围。此外,委员会认为,许多从业者无法访问GPU集群,因此开发也可以在单个GPU上工作且内存占用量小的方法至关重要。图5:损失作为训练时期的函数,以生成的面部为例。GFMN相对于对抗方法的一个重要优势是其训练稳定性。图5示出了使用AMA时每个时期的发电机损耗的演变和生成的生成图像的质量与损失之间存在明显的相关性。此外,在我们的实验中没有观察到模式崩溃与AMA。5.4. 与最新技术水平的在选项卡中。4.我们比较了GFMN与CIFAR10和STL10的不同对抗和非对抗方法的结果。 在表格的中间部分,我们报告了最近在生成器中使用类似DCGAN架构的无监督模型的结果。尽管使用了冻结的跨域特征提取器,GFMN在IS和FID两个数据集上都优于Tab的底部。4包括监督方法的结果。其中一些模型在生成器中使用Resnet架构,如括号中所示请注意,执行条件生成的基于GAN的方法使用来自标签的以对数似然4470表4:CIFAR10和STL 10的不同生成模型的初始评分和FID模型CIFAR 10IS FID(5K /50K)是STL 10FID(5K/50K)真实数据11.24±.12 7.8 /3.226.08±.268.08/4.0无对抗训练GMMN [22][22]第二十二话3.47±.033.94±.04(我们的)GFMNVGG+Resnet 8.08± 0.08 25.5/20.9 8.57± 0.08 34.2 /17.2(我们的)GFMNVGG+Resnet(Resnet G)8.27±0.0918.1/13.59.12±0.0931.6/13.9对抗训练在线时刻学习方法(无监督)[22]第二十二话6.17±.07MMDrq GAN [3]6.51±.0339.9/-WGAN-GP [29]6.68±.0640.2/-8.42±.1355.1/-SN-GANs [29]7.58±.1225.5/-8.79±.1443.2/-MOLM-1024 [35]7.55±.0825.0/20.3GAN-DFM [41]7.72±.13MOLM-1536 [35]7.90±.1023.3/18.9对抗训练(监督)进口GAN [38]8.09±.07[30]第30届中国国际音乐节8.16±.12WGAN-GP(Resnet G)[13]8.42±.10从图中(例如,使用来自[ 38 ]的k+1技巧)。相比之下,我们的生成器使用仅执行特征匹配的损失函数进行训练我们的生成器对标签是不可知的,并且没有来自标记数据的对数似然形式的反馈。尽管如此,GFMN产生的结果与使用目标数据集标签的监督GAN模型处于同一水平。我们用WGAN-GP架构进行了额外的实验,其中:(1)所述RNTR是VGG 19或Resnet 18;(2)在Ima-geNet上对训练器进行预训练。我们的目标是评估WGAN-GP是否可以从ImageNet上预训练的DCNN分类器中受益。尽管我们尝试了不同的超参数组合,但我们 无 法 使 用 VGG 19 或 Resnet 18 鉴 别 器 成 功 训 练WGAN-GP(详见附录8)。6. 讨论结束语我们通过引入不同的关键输入来实现隐式生成模型的成功非对抗性训练:(1)对来自预训练神经网络的所有层的感知特征进行矩匹配;(2)通过使用ADAM优化器来计算平均值特征的移动平均值的更稳健的方法,这允许我们使用小的迷你批次;以及(3)同时使用来自多个神经网络的感知特征(VGG 19 + Resnet18)。我们的定量结果见表。4表明,与最先进的光谱GAN(SN-GAN)[29]相比,GFMN对于CIFAR 10和STL 10都实现了更好或相似的结果。这对于基于非对抗性特征匹配的方法来说是一个令人印象深刻的结果,该方法使用预先训练的跨域特征提取器,并具有稳定的训练能力。ing. 当 与 MMD 方 法[24 ,8 ,22 , 3 , 35] 相 比 时,GFMN呈现出重要的区别(其中一些已经在Secs中列出3和4),这使得它成为一个有吸引力的替代品。与GMMN和GMMN+AE [24]相比,我们可以在表中看到。4. GFMN取得了更好的结果。在补充材料中,我们还展示了GFMN和GMMN结果之间的定性 与最近的对抗性MMD方法(MMD GAN)[22,3]相比,GFMN还提供了更好的结果,同时避免了有问题的最小/最大游戏。GFMN实现了比学习矩方法(MoLM)更好的结果[35],同时使用更少的特征来执行匹配。[35]中性能最好的模型MoLM- 1536使用了大约4200万个时刻来训练CI-FAR 10生成器,而我们最好的GFMN模型只使用了大约850 K个时刻/特征,几乎少了50倍。有人可能会说,最好的GFMN结果是用分类器训练的特征提取器获得的。但是,有两点需要注意:(1)我们使用跨域特征提取器,并且不使用来自目标数据集(CIFAR 10,STL 10,LSUN,CelebA)的标签;(2)分类器准确性似乎不是生成良好特征的最重要因素:VGG 19分类器产生的特征与Resnet 18一样好,尽管前者不太准确(补充材料中有更多细节)。我们相信GFMN可以利用来自使用非监督方法(如[5])训练的分类器的特征实现最先进的结果总之,这项工作提出了重要的理论和实践贡献,阐明了通过矩匹配训练内隐生成模型的感知特征的有效性。4471引用[1] 迈克尔·阿贝尔,道格·J·萨瑟兰,米克·奥吉·比恩·奥斯基,阿瑟·格雷顿。关于mmd gans的梯度正则化子。在NIPS,2018年。4[2] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein生成对抗网络在ICML的Proc.,第214-223页,2017年。13[3] 作者:Mikoaj Bikowski,Dougal J.萨瑟兰,迈克尔·阿贝尔,阿瑟·格雷顿。揭秘MMD GANs。在2018年国际学习代表会议上一二三四五八[4] Piotr Bojanowski,Armand Joulin,David Lopez-Paz,and Arthur Szlam.优化生成网络的潜在空间五、十二[5] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在2018年欧洲计算机视觉会议8[6] Adam Coates,Andrew Ng,and Honglak Lee. 无监督特征学习中单层网络的分析第十四届人工智能和统计国际会议论文集,第215-223页,2011年5[7] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有 感 知 相 似 性 度 量 的 图 像 。 In D.D. 李 , M 。Sugiyama,U.诉勒克斯堡岛Guyon和R.Garnett,编辑,神经信息处理系统进展29,第658Curran Associates,Inc.2016年。1[8] 放大图片作者:Daniel M.罗伊和祖宾·格拉马尼通过最大平均差异优化训练生成神经网络。在第三十一届人工智能不确定性会议的会议记录中,第258-267页,2015年。三、四、八[9] 利昂·A Gatys,Alexander S. Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。1[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS的Proc.,第2672页,2014年。四、十三[11] Arthur Gretton,Karsten M. Borgwardt,Malte Rasch,Bern-hardSchoülk opf,andAl e xanderJ. 斯莫拉两样本问题的核 方 法 在 Proceedings of the 19 th InternationalConference on Neural Information Processing Systems,第513-520页,2006年。1[12] Arthur Gretton,Karsten M. Borgwardt,Malte J. Rasch,BernhardScho¨ l k opf,andAl e xanderSmola. 一个核心的双样本测试。Journal of Machine Learning Research,13:723第1、3条[13] Ishaan Gulrajani , Faruk Ahmed , Mart´ın Arjovsky ,Vincent Dumoulin,and Aaron C.考维尔改进的瓦瑟斯坦甘斯训练。CoRR,2017年。五、八[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。5[15] Martin Heusel,Hubert Ramsauer,Thomas Unterthiner,BernhardNe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功