没有合适的资源?快使用搜索试试~ 我知道了~
4411并行最优传输GAN算法吉尔·亚伯拉罕<$严佐<$汤姆·德拉蒙德澳大利亚莫纳什大学ARC机器人视觉卓越中心{gil.avraham,yan.zuo,tom.drummond}@ monash.edu摘要虽然生成对抗网络(GAN)以其在图像生成中的逼真度而闻名,但它们无法估计数据密度的区域。这导致低模态多样性,并且有时导致生成的样本失真。这些问题本质上是由于对负责训练这些网络的距离度量的估计不佳而引起的。为了解决这些问题,我们引入了一个额外的正则化项,它在低维表示空间内并行执行最佳trans-port。我们证明了在数据分布的低维表示中操作受益于估计Wasserstein距离的收敛速度增益,从而导致更稳定的GAN训练。我们empiri- cally表明,我们的正则化实现了稳定的效果,从而导致更高的质量生成的样本和增加的给定数据分布的模式覆盖。我们的方法在CIFAR- 10,Oxford Flowers和CUB Birds数据集上实现了定性和定量的显着改进。1. 介绍最优运输理论在许多领域有着广泛的应用,包括统计学和机器学习领域的各种应用。尽管伴随着最优运输方法的一些困难,它提供了一个解决方案,既直观和数值表现良好。这使得它成为一个令人信服的方法,大规模的问题,是不稳定的性质;值得注意的是,最近在生成对抗网络(GAN)[ 12 ]领域中采用了最优传输,并取得了巨大成功。生成式对抗网络是生成模型,其中密度函数不是显式近似的,但这项工作得到了澳大利亚研究委员会机器人视觉卓越中心(项目编号CE1401000016)的支持。†作者平均提供了一种采样机构 GAN框架通常具有两个组件:鉴别器,用于估计模型分布P g和数据分布P r之间的f -发散族[ 26 ],以及生成器,其提供已知噪声分布P z到模型分布P g之间的映射。该框架通过极大极小两步过程进行优化,每个网络负责训练其对应方。在实践中,f-发散族遭受数值不稳定性和脆弱的参数选择,从而产生许多正则化方法[22,23,28];最终导致训练不稳定性问题,如消失梯度和模式崩溃[1,6,21,29]。最佳传输在缓解GAN中的这些不稳定性问题方面发挥了关键作用[2,30]。最值得注意的是,[2]提出了GAN优化价值函数的替代方案。这种方法利用了运输理论的思想,利用Wasserstein距离来产生一个价值函数,该函数被证明是碎片较少的。当使用基于梯度的优化方法时,更容易和更好地拟合为GAN值函数。虽然Wasserstein距离的使用被证明有助于稳定GAN的训练,但其收敛速度仍然直接取决于问题的维度[8,11],当测量高维数据[5,31]时,距离不太可靠(图像中经常出现这种情况此外,目前的解决方案存在于对偶公式,这强加的约束,鉴别器必须位于1-Lipschitz函数的空间该约束的实施需要正则化用于GAN训练的发散或距离,其通过梯度惩罚施加[13]。我们提出了并行最优传输GAN(POT-GAN),这是一种无监督的方法,它分别在数据分布和模型分布Pr,Pg的低维潜在表示中使用Wasserstein距离来正则化生成器。我们表明,显着的收敛增益,通过减少维的问题时,估计瓦塞尔-斯坦距离。这允许直接计算最优运输问题的原始形式,避免了4412需要小心地保持伴随对偶形式的1-Lipschitz约束使用变分自动编码器(VAE)[18]获得潜在表示,并且为了估计Wasserstein距离,我们使用Monge公式[34],其中在整个优化过程中估计传输图和成本函数这种方法在每次迭代时提供更好的Wasserstein距离的初始估计,从而导致更稳定的训练,其中固有表示的连续匹配将导致增加的模式覆盖。我们通过实验验证了我们的方法,并在Inception [29]和FID [15]分数上显示出显着的改进。本文的主要贡献如下:1. 我们引入了一种新的GAN框架,该框架在数据分布的潜在表示上使用最优传输正则化器,帮助生成器网络实现更稳定的收敛和增加的模态多样性。2. 我们证明了运输地图和成本函数可以有效地估计在一个低维的潜在空间。我们采用了一种新的方法来执行这项任务,利用决策森林的非线性3. 我 们 证 明 了 我 们 的 方 法 在 CIFAR-10 , OxfordFlowers和CUB Birds数据集上的Inception和FID分数上的几个GAN基准测试中2. 背景生成对抗网络(GAN)[12]的目标是训练一个生成器,给定一个2.1. GAN规范化由于GAN缺乏密度函数的明确规范,变分推理已与GAN相结合,以利用每种方法的优势[16]。[20]介绍了VAEGAN,它提供了GAN提供的锐度之间的权衡,以换取可变自动编码器(VAE)的稳定性和多样性子图,[4]增加了一个额外的对抗性损失,旨在将生成的样本扩散到重建的真实样本。VAEGAN和MDGAN都是类似的作品,因为它们试图添加一个额外的流形匹配惩罚项。这两种工作的缺点是匹配是在高维像素空间中执行的,这实质上损害了这两[9]和BiGAN [7]的ALI都联合训练生成器及其推理,同时保持对抗性损失,这减轻了样本质量下降。最近,VEEGAN [32]训练了一个辅助网络,用于反转GAN中的发生器输出以匹配输入噪声分布,使用失配提供训练信号以减轻模式崩溃并提高模式多样性。2.2. GANs中的最佳传输最优运输[35]从大众运输的角度解决了匹配分布的问题。在这种情况下,Wasserstein距离是两个分布之间的度量。对于所有联合概率分布的集合,我们有概率分布Pr,PgoverX <$Rd和成本函数c(xr,xg):X × X→R+.运输计划γ∈Γ(xr,xg)最小化以下:输入样本z∈Rdz取自某个任意分布,Wc(Pr,Pg)= inf E(x,x)<$γ[c(xr,xg)](2)γ ∈ Γ(P,P)rG分布(通常是标准高斯分布),能够产生一个rG输出样本G(z)∈ Rdr,属于某个分布Pg,其非常接近目标分布Pr。 一GAN通过在生成器G和鉴别器D(通常由神经网络表示)之间建立博弈来实现这一点,这可以通过以下极大极小目标损失函数来描述:最小值最大值V(D,G)=ExPr[logD(x)][2]的一项研究比较了用于测量分布距离的不同距离度量为了解决估算Eq. 2对于高维分布,[2]建议使用Kantorovich- Rubinstein对偶[35]:G D+Ez<$Pz[log(1−D<$G(z))](一)W1(Pr,Pg)=supf∈FLipExr<$Pr[f(xr)]−Exg<$Pg[f(xg)](三)适当优化Eq.当D和G都以相同的速率学习并且均匀匹配时,会发生1,从而确保两个网络都继续改进。[12]表明,训练D收敛估计两个分布之间的Jensen-Shannon(JS)距离,并且该信号被提供用于改进G。进一步的工作概括在(X,c)为度量空间的特殊情况下,FLip是有界1-Lipschitz函数.这种计算Wasserstein距离的形式取代了传统的估计等式中的JS距离1,导致新的GAN目标:最小最大值V(D,G)=最小最大值ExP [Dω(xr)]这种方法导致f-分歧[26]和相互在-G D形成最小化标准[3]。θ∈θω∈r r−Ez<$Pz[Dω<$Gθ(z)](四)4413BRRrzR高维象空间这是从Wasserstein距离的收敛立场出发的,讨论如下。我们用P表示概率分布,用Pn表示经验分布。在largen的极限中,k阶的Wasser-stein距离几乎必然接近于零Wk ( P , Pn ) →0a. S.(5)在实践中,获得有限数量的样品从P得出的n提出了如何量化的问题。P_(?)n与P_(?)不幸的是,如[8]所示,收敛速度受到维数的诅咒[10]:E[W(P,P)]4 .Σ11个d1nn(六)图1:数据分布Pr和模型分布Pg在空间X中都是高维和紧凑的。在实际设置中,利用有限样本大小来保持这些分布之间的最佳耦合会受到弱收敛速度的影响。将两个分布(映射Qα)投影到潜在空间Z上,可以提高收敛速度,并更好地估计Wasserstein距离。在这个空间中估计Wasserstein距离包括学习潜在分布之间的概率变换F匹配操作实际上,对于Rd上的概率测度,当空间d的维数变大时, 到P收缩,需要更多的样本来产生适用的收敛速率。最近[37]推广了[8]的原始渐近界。在这里,我们展示了[37]的简化版本。定理1. 设k∈[1,∞). 经验分布向k阶Wasserstein距离的收敛速度由下式给出:潜在分布用作匹配分布P、P的总体目标的指导。E[W(P,P)]4.Σ11个dr gk nn在[37]中给出了完整的证明。(七)其中G、D是由θ、ω和Pr、Pz是数据分布和噪声分布,db.我们将收敛速度积定义为:分别 为。 在[2]中, 使用 权重裁 剪来 保持D 上的 1-Lipschitz约束;最近[13]对此进行了扩展,其中使用梯度惩罚来强制Lipschitz约束。在这项工作中,我们将展示如何在方程的原始形式。2计算明确的潜在的代表的数据被用作正则化,以指导发电机组件在方程。4.第一章1.提案 让我 们定义分 布Pr , 其中 随机变量X∈ X<$Rdr,Pz作为其潜在编码的分布,其中潜在随机变量Z∈ Z <$Rdz,{<$dr,dz∈Z+:dz≤dr}。 给定相应的经验分布P ′,P ′以及其相关的收敛速率则:3. 关于Wasserstein分布Zeroz4.DR+DZ1drd zn(八)tance[12]的工作表明,给定数据分布Pr和足够的建模能力,GAN设置中的生成器恢复与数据分布Pr匹配的模型分布Pg。为了补充这一发现,[24]提供了其中,Rz是n个样本的收敛速率乘积。证据获得经验分布P′,P′通过应用定理1。强有力的证据表明,位于低维流形r z上[1]进一步严格证明了Pr和Pg都位于低维流形上.我们的GAN框架构建了一个潜在代表的最佳传输正则化器,通过检查Eq. 8,可以立即观察到,对于drdz,收敛积由项dz,即:sentation,旨在帮助稳定训练,从而更好地估计真实分布(参见图1)。①的人。Zeroz4.Σ11dzn(九)n维歧管m维歧管z维歧管4414ρℓ对于诸如图像的高维数据的概率分布(即,当dr高时),计算等式中的Wasserstein距离。二是不可行。虽然Kantorovich-Rubinstein对偶可以在紧度量空间的假设下使用,但保持其中λP_OT是指定应用于正则化项的权重的超参数。置换算子σ是运输图,F是通过最小化找到的成本函数的分量Lipschitz-1约束是非平凡的,并且不缩放F,σ=最小Nǁσρ (zr,i)− F<$(zg,i)<$2(14)ρσ∈S,i=1i好. 潜在表示大小dz的正确选择由方程式9,结合给定的数据集大小,可以允许更快的收敛并获得对其中Sρ是所有可能排列的集合我们注意到F,σ不必是唯一的。潜在表征ℓρ潜在表示的Wasserstein距离。4. GANs中的并行最优传输我们定义Pr,pr,Pg和pg为数据和模型概率分布和密度。潜密度zrpr(z)、zgpg(z)定义为:z r,z g通过使用预先训练的固定变分自动编码器[18]并将编码器应用于x r<$P r,x g<$P g来获得。函数D和G分别使用具有参数ω和θ的神经网络F是一个可学习的函数,参数为第4.2节。 当量12、Eq. 14、各有不同的评价--∫pr(z)=X∫p r(z|x)dp r(x),pg(z)=Xp g(z|x)dp g(x)(十)在其各自的域上输入度量,并行地;其中,它们的结果然后用于更新等式(1)中的生成器。十三岁4.1. 潜在变换映射为了估计潜在差异之间的Wasserstein距离,我们写出了Eq。2并根据[34]重新制定:Wasserstein距离,如公式Eq. 11是匹配的一一对应之间的平均成本,在应用概率变换F(dis-)之后,W(Pr,Pg)= infγ∈Γ(Pr,Pg)∫INFE(zr,zg)<$γ[c(zr,zg)]=c(zr,zg)dγ(pr,pg)≤(十一)在第4.2节中讨论)。潜在表示的较低维度允许快速收敛以正则化生成器Gθ。的编码模型γ∈Γ(Pr,Pg)∫Z×Z推断潜在表示由Q表示,并且是INFγσ∈Γ σ( Pr,Pg)c(zr,zg)dpr(zr)δ[zg−σ(zr)]Z神经网络参数α。估计的成本函数和运输地图最后一个不等式来自最优运输问题的Monge公式[34]。 σ是输运映射,γ σ是输运计划,其中γ σ(z r,zg)= pr δ [z g−σ(z r)]限于质点不能分裂的 分 布(即, 一定有一对一的Pr和Pg之间的映射)。在Eq.11恢复Wasserstein距离的条件下,方程中的成本函数。2是凸的,分布Pr,Pg是连续的[34]。最小-最小化方程 11需要通过找到一对一对应对{z r,i,zg,i}i=1,...,N在动态变化的成本函数下。鉴别器值函数使用WGAN-GP [13]形式表示:在算法1中描述每一批。该过程找到数据和生成的对之间的对应关系,使得来自数据分布的样本zr将被来自模型分布的生成的样本zg覆盖(即:{{zi,r:minjc(zi,r,zj,g)})。在神经网络的上下文中,这意味着构建一个可微的最小化与对应的真实样本和生成样本对相关联的距离的操作。传输映射是在学习的成本函数上的置换,我们注意到,重新排列数据样本不会干扰用于最小化等式中的损失的梯度下降操作。十三岁成本函数c是凸的并且也是可重构的,如在以下部分中详细讨论的。V Dω = Ez<$Pz [Dω<$Gθ(z)]−Ex<$P[Dω(xr)]+λGP Ex<$$>P[(<$$>x<$Dω(x<$)<$2−1)2]4.2. 学习成本函数在Eq.11需要一对一rrxx(十二)潜在样本Zr到Zg之间的一个对应关系。学习成本函数的形式为:c(a,b)=a−F(b)2我们通过添加我们的生成器值函数正规化条款:ρρ4415∗ ∗2V Gθ = Ez<$Pz[−Dω<$Gθ(z)]+(13)λE<$ [<$σ(z)−F(z)<$]满足凸性要求,并且还估计了在GAN训练过程中,分布Pg演变的每个状态的概率变换F,以便可以找到变换图。从成本中省略F支持标准L2成本函数的函数将重新锅(z r,z g)<$P g δ[z g−σ ρ(z r)]ρ鲁格4416GxG算法1在大小为N的小批量获得传输映射σρ和成本函数变换Fρρ←初始化置换容器zr∈Qα(Xr)←样本数据批处理zg∈Qα(Xg)←样本生成批次对于itr= 1到itersdo对于i= 1到Ndoρi←minj<$(zi,r − F<$(zj,g)<$2端′zr←置换{zr,ρ}亚当(Adam) (z′)−F(z)<$2),β,β)返回端(ρ,ρ)i=1i,rℓ j ,g-12导 致 不 准 确 的 变 换 映 射 σ , 导 致 正 则 化 器 估 计 的Wasserstein距离潜在转换森林对于F的选择,[39,40]表明,非线性鉴别能力的de-精确森林能够在真实图像的紧凑潜在表示空间中解开复杂的、联合此外,[38]证明了决策森林的使用在图像分布的低维空间上提供了一个光滑的流形鉴于这些见解,我们采用[38]中的方法来使用软决策森林作为成本函数c的可学习分量。由于F的作用是对数据的潜在表示进行概率变换,因此我们将其称为潜在变换森林(LTF)。LTF被应用于来自生成的分布的样本的潜在表示即:c(zr,zg)=<$zr− F<$(zg)<$2(15)其中,f是F的参数,其保存存储在森林的叶节点图2:生成的样本zg的潜在向量被重新映射为LTF中的软决策节点。LTF的叶的加权和输出经变换的生成的潜在向量z'。算法2POT-GAN模型训练过程的完整概述关于LGAN的完整公式和梯度惩罚项,请参见[13]α←预训练VAE,丢弃解码器并保留编码器(Q) 参数θ,ω,ω,←初始化发生器(G),鉴别器(D),LTF(F)参数分别foritr= 1toitersdoXr←来自数据集的随机小批量Zg←样本噪声N(0,I)Xg←生成数据Gθ(Zg)(ρ,)←算法1(Xr,Xg,)LGAN <$Dω<$Gθ(Zg)−Dω(Xr)+λGPEx<$$>P[(<$$>x<$Dω(x<$)<$2−1)2]LPOT ←<$σ ρ< $Qα(Xr)−F<$ $>Qα<$Gθ(Zg)<$2ω←+Adam(ωL,β,β)营造森林对于一个给定的潜在编码,ωGAN1 2生成的样本zg,我们可以通过zg的整形来构建LTF的内部决策节点。内部决策节点利用所生成的本征向量的值来确定到终端叶节点的路由部分,θ←+Adam(θ端θ(−LGAN+λPOTLPOT)、β1、β2)LTF。这是通过比较托尔茨在Eq.15适用。这些价值观是融合在一起的生成具有指定阈值tn的潜在向量zg,然后将该值传递给sigmoid函数(即σ(zn−tn)),该函数将它们转换为范围[0, 1]之间的值。这将路由部分输出到当前决策节点的左子节点或叶节点。右边的部分计算为1−σ(zn−tn),其中tn是与zn进行比较的阈值。这示于图二、LTF的叶节点保持表示经变换的生成的潜在向量的学习值的值。根据由内部决策节点计算的部分所指示的权重(参考图1A),2,分配给叶节点100中保存的值的部分将是p0×p1×p3)。这表示非线性变换从其原始表示生成的样本转换为数据的潜在分布和生成的分布之间的L2范数分布更均匀的转换后的分布(更多详细信息请参考文献资料)。4417反向-KL发散:KL(Pg(x))||Pr(x))GAN [12]维根[32]WGAN-GP [13]POT-GAN(我们的)8高斯环(2D)0.2417±0.01130.1540±0.01270.0046±0.00040.0020±0.0002高斯球(3D)3.0772±0.10142.5153±0.07080.9438±0.00440.7428±0.0038表1:学习高斯分布的逆KL发散.这些值与图1中可见的视觉结果相关。3 .第三章。(a) [32]第十二届全国政协委员(c)[13]第十三话(四)(e)地面实况图3:从二维高斯输入z<$N2(0,I)学习三维高斯xr<$N3(0,I)分布的结果。二维的潜在空间,不能完全覆盖三维的数据分布。透明的浅蓝色球体,图3a-3e具有3个标准偏差的半径。生成的样本是球体内的点。出于可视化目的,剪切球体外部生成的点。在这种情况下,我们将问题视为尽可能最好地覆盖单一模式。除了表1中所示的定量结果之外,还可以观察到图1和图2之间的差异。如图3a-3d所示,我们的方法3d以相对于地面实况最令人信服的方式覆盖了球体。5. 实验对于定性和定量评估,我们对模拟数据和三个真实数据集进行了实验从经验上讲,我们发现,同时培训的VAE和GAN不会导致性能的提高因此,我们预先训练并随后修复我们的VAE,以降低计算成本并减少训练时间。在算法2中,我们详细介绍了训练POT-GAN模型的完整过程我们将POT-GAN与四个GAN基准进行比较,DC-GAN [27],WGAN-GP [13],VEEGAN [32]和WAE。GAN [33].据我们所知,VEEGAN代表了最新的GAN框架,其明确旨在通过Generator正则化来稳定GAN训练。POT-GAN使用[13]中的WGAN-GP模型作为基线GAN。对于潜在表示,我们使用了预训练的Varia-典型的自动编码器[18],使用其各自论文中指定的设置进行训练(有关网络架构的更多详细信息,请参阅补充材料)。我们的POT-GAN模型使用64的批量大小进行训练,网络权重使用[14]中详细描述的初始化方案。与[27]类似 , 我 们 使 用 ADAM 优 化 器 [17] , 指 定 学 习 率 为0.0002,一阶和二阶矩项分别为0.5和0.9,最小化GAN损失和第4节中定义的正则化项。对于潜在向量z的大小,我们使用通常选择的128维。对于λ POT的选择,我们使用值1进行了实验。0,0。1和0。01. 我们经验地发现λ POT= 0. 01表现最好,并将此值用于我们所有的实验。4418WGAN-GPPOT-GANFID7 50486.546446425.2. 真实数据集对于真实数据,我们在三个常用的数据集上进行了实验,以获得比较基准:5.5 4054.543836343230培训迭代#104培训迭代#104CIFAR-10 CIFAR-10数据集[19]是由50,000张32×32训练图像和10,000张32×32训练图像组成测试图像均匀分布在10个广泛的类猫,0 2 4 6 810(a) 是0 2 4 6 8 10(b) FIDegories。图4:发生器迭代过程中的CIFAR-10(a)初始评分[29]和(b)FID评分[15]性能图。WGAN-GP [13]和POT-GAN都经过了10万次迭代的训练。POT-GAN中的正则化组件以导致与模型分布的质量和模式多样性良好相关的两个度量的显著改进的方式限制优化空间。5.1. 学习高斯我们训练GAN [12],VEEGAN [32]和WGAN-GP [13]来学习二维8高斯混合模型。我们计算逆KL散度KL(Pg||P r),使用Parzen赢-50次运行的结果示于表1中。作为观察到,我们的方法显著优于竞争方法,与WGAN-GP相比,在反向KL发散方面提供了超过50%的相对改善3D高斯球此外,我们建立了传统的GAN,VEEGAN和WGAN-GP,从2D高斯输入(z<$N2(0,I))学习3D高斯球(xr<$N3(0,I))。这个例子是为了训练一个生成器Gθ在一个空间之间进行映射,这个空间没有能力完全模拟真实分布。在图3中,我们绘制了结果。传统的GAN和VEEGAN不能覆盖高斯球的大部分,表现出部分模式覆盖行为。WGAN-GP能够更好地覆盖球体,但球体内显然有明显的大洞,代表未覆盖的分布部分。相比之下,我们的方法比WGAN-GP更好地覆盖了真实分布,并且球体内没有明显的我们类似于8-高斯混合模型示例计算逆KL发散,并在表1中列出50次运行的结果。这些结果与图1中的目视结果相关良好3 .第三章。我们的方法优于GAN [12],VEEGAN [32]和WGAN-GP [13]。在该示例中,使生成器学习其能够用于覆盖单个模式的最佳映射,同时缺乏完全表示真实分布的潜在空间容量。Oxford Flowers Oxford Flowers数据集[25]由102个独立的类内花卉类别中的8,189张图像组成。按照惯例,将图像下采样到64×64,并以相同的频率生成样本。分辨率CUB鸟类数据集[36]由11,788张图像组成,分为200个独立的类内鸟类类别。按照惯例,将图像下采样至64×64,并以相同的分辨率生成样本。5.3. 定性结果在图5中,我们显示了将POT-GAN与基准GAN进行比较的生成样本的定性结果。当与基准GAN基线相比时,我们观察到POT-GAN的样本质量和多样性都有明显的改善。5.4. 定量结果为了评估POT-GAN模型的质量和模态多样性的改进,我们使用Inception Score [29]和FID Score [15]。VEEGAN [32]和WAE-GAN [33]等方法被构造为防止模式崩溃并增加恢复分布的模式多样性,但这样做会牺牲样本质量;它们在Inception和FID分数上表现在表2中,我们显示了POT-GAN的Inception和FID评分以及CIFAR-10、Oxford Flowers和CUB Birds数据集上的这些结果与图1所示的样品质量相关。5,其中POT-GAN相对于其他模型实现了可考虑的改进。再关于烧蚀研究中F的选择,请参考补充资料。5.5. 正规化的影响最后,我们研究了在整个GAN训练过程中将我们的最佳传输正则化项添加到WGAN-GP [13]框架中使用的生成器的影响。我们展示了正则化项在整个优化过程中在此基线上提供的附加值。CIFAR-10的Inception和FID分数绘制在图1所示的发生器迭代上。4.第一章在这两个图中,我们看到POT-GAN收敛到比WGAN-GPPOT-GAN是4419初始分数:exp(E x KL(p(y|x)||p(y)DCGAN [27]维根[32][33]第三十三话WGAN-GP [13]POT-GAN(我们的)CIFAR-10 [19]6.16±0.076.25±0.054.18±0.046.58±0.066.87±0.04[25]第二十五话2.33±0.042.11±0.022.30±0.013.42±0.043.53±0.03[36]第三十六话3.93±0.033.74±0.023.42±0.044.51±0.044.78±0.04FID评分:100m-m-2+Tr(C+C-2(CC)1/ 2w2w wCIFAR-10 [19]37.735.687.734.432.5[25]第二十五话88.2299.0145.998.765.7[36]第三十六话76.3173.9143.370.458.6表2:CIFAR-10、Oxford Flowers和CUB Birds数据集上DCGAN、VEEGAN、WAE-GAN、WGAN-GP和POT-GAN的初始和FID评分。(a) [27](b)VEGAN [32](c)WGAN-GP [13](d)POT-GAN(Ours)图5:牛津花卉和CUB鸟类数据集的定性结果。从视觉上看,与基准GAN模型相比,POT-GAN在样本质量和多样性方面有显着改善。CIFAR-10的其他样品可在补充材料中找到。WGAN-GP [13].附加的正则化项不断地估计更准确的Wasserstein距离,并且生成器不断地因偏离较低维度表示而受到惩罚在补充材料中,我们还显示了CIFAR-10数据集的临界损失曲线,这很好地表明了POT-GAN的稳定性和收敛性的提高6. 结论在本文中,我们提出了POT-GAN,这是一种用于GAN的非监督学习方法,它估计Wasserstein距离对数据的潜在表示,使用它来规范GAN的训练我们提供了收敛率保证时,在一个较低的维,并表明,通过应用我们的潜在空间regularisation项的发生器,我们可以产生显着的improvements在样本质量和多样性时,从恢复的模型分布采样。使用我们的方法,我们展示了在几个GAN基线上的初始和FID分数的显着改进。4420引用[1] M. Arjovsky和L.博图训练生成对抗网络的原则性方法。arXiv预印本arXiv:1701.04862,2017。第1、3条[2] M. Arjovsky,S.Chintala和L.博图Wasserstein ganarXiv预印本arXiv:1701.07875,2017。一、二、三[3]I. Belghazi,S. Rajeswar,A. 巴拉廷河 D. Hjelm,以及A.考维尔 我的:互信息神经估计。arXiv预印本arXiv:1801.04062,2018。2[4] T.切,Y。Li,长穗条锈菌A. P. Jacob,Y. Bengio和W.李模式正则化生成对抗网络。arXiv预印本arXiv:1612.02136,2016。2[5] N.库尔蒂河Flamary和M.杜科菲学习瓦瑟斯坦嵌入。arXiv预印本arXiv:1710.07457,2017。1[6] T. Doan,J. Monteiro,I.阿尔伯克基湾Mazoure,A. Du-rand,J. Pineau和R. D.耶尔姆gans的线上适应性课程学习arXiv预印本arXiv:1808.00020,2018。1[7] J. 多 纳 休 山 口Kr aühenbuühl 和 T. 达 雷 尔 。adversarialfeature-ture learning.arXiv 预 印 本 arXiv :1605.09782,2016。2[8] R.达德利平均glivenko-cantelli收敛速度。数学统计年鉴,40(1):40-50,1969年。第1、3条[9] V. Dumoulin, I. 贝尔加齐, B. 普尔 O. 马斯特罗彼得罗A. Lamb,M. Arjovsky和A.考维尔逆向学习推理。arXiv预印本arXiv:1606.00704,2016。2[10] J. H.弗里德曼关于偏差,方差,0/1损失和维数灾难。数据挖掘与知识发现,1(1):55-77,1997年。3[11] A. Gen evy,G. Pe y re′和M. 库图里具有sinkhorn分歧的学习基因相关arXiv预印本arXiv:1706.00292,2017。1[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展,第2672-2680页,2014年。一二三六七[13] I. Gulrajani, F. 艾 哈 迈 德 , M 。 阿 尔 约 夫 斯 基 河 谷Dumoulin,以及A. 考维 尔改进的 瓦瑟斯 坦甘斯 训练。 arXiv预印 本arXiv:1704.00028,2017。一、三、四、五、六、七、八[14] K.他,X。Zhang,S. Ren和J. Sun.深入研究整流器:在imagenet分类上超越人类水平的性能在Proceedings ofthe IEEE international conference on computer vision ,pages 10266[15] M. Heusel,H. Ramsauer,T.翁特希纳湾Nessler和S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展,第6626-6637页,2017年二、七[16] Z. Hu,Z. 扬河,巴西-地 Salakhutdinov和E. P. Xing。关 于 统 一 深 层 生 成 模 型 。 arXiv 预 印 本 arXiv :1706.00550,2017。2[17] D. Kingma和J. BA. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。6[18] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。二、四、六4421[19] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。2009. 七、八[20] A. B. L. 拉森 S. K. 桑德比 H. Larochelle,以及O.温瑟使用学习的相似性度量对像素之外的像素进行自动编码。arXiv预印本arXiv:1512.09300,2015。2[21] Z. Lin,L.赫坦湾Fanti和S.哦Pacgan:两个样本在生成对抗网络中的力量。arXiv预印本arXiv:1712.04086,2017。1[22] L. Mescheder,A. Geiger和S.诺沃津gans的哪些训练方法实际上是趋同的?在机器学习国际会议上,第3478-3487页,2018年。1[23] T.宫城,T.卡塔奥卡,M。Koyama和Y.吉田生成对抗网络的频谱归一化arXiv预印本arXiv:1802.05957,2018。1[24] H. Narayanan和S.米特测试流形假设的样本复杂性。神经信息处理系统,第1786-1794页,2010年。3[25] M.- E. Nilsback和A.齐瑟曼。花分类的视觉词汇表。在计算机视觉和模式识别,2006年IEEE计算机协会会议,第2卷,第1447-1454页IEEE,2006年。七、八[26] S.诺沃津湾Cseke和R.富冈f-gan:使用变分发散最小化训练生成神经采样器神经信息处理系统的进展,第271-279页,2016年。一、二[27] A.拉德福德湖,澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv:1511.06434,2015。六、八[28] K. Roth,A. Lucchi,S. Nowozin和T.霍夫曼通过正则化稳定生成对抗网络的训练。arXiv预印本arXiv:1705.09367,2017。1[29] T. 萨利曼斯岛Goodfellow,W.扎伦巴河谷Cheung,A.Rad- ford和X.尘改进的gans训练技术神经信息处理系统进展,第2234-2242页,2016年。一、二、七[30] T. Salimans , H. Zhang , 中 国 古 柏 A. Radford 和 D.Metaxas使用最佳运输改进gans。arXiv预印本arXiv:1803.05573,2018。1[31] 诉塞吉湾B. 达莫达兰河Flamary,N.Courty,A.Rolet和M.金发大规模最优运输和映射估计。arXiv预印本arXiv:1711.02283,2017。1[32] A.斯利瓦斯塔瓦湖瓦尔科兹角Russell,M.联合古特曼,以及C.莎顿Veegan:Reducing mode collapse in gans usingimplicit variable learning. 神经信息处理系统,第3310-3320页,2017年二、六、七、八[33] I. 托 尔 斯 季 欣 岛 Bousquet , S. Gelly 和 B. 舍 尔 科 夫Wasserstein自动编码器。arXiv 预 印 本arXiv:1711.01558,2017。六七八[34] C. 维拉尼最佳运输专题(数学研究生课程,卷。58)。2003. 二、四[35] C.维拉尼 最佳运输:《新与旧》卷338Springer Science Business Media,2008. 二、三[36] C. Wah,S.布兰森山口韦林德山口Perona和S.贝隆吉加州理工学院-ucsd鸟类-200-2011数据集。2011. 七、八4422[37] J. Weed和F.巴赫. wasserstein距离中经验测度收敛的锐渐 近 和 有 限 样 本 收 敛 率 。 arXiv 预 印 本 arXiv :1707.00087,2017年。3[38] Y. Zuo,G. Avraham和T.德拉蒙德生成式对抗森林,用于 更 好 的 条 件 对 抗 学 习 。 arXiv 预 印 本 arXiv :1805.05185,2018。5[39] Y. Zuo,G. Avraham和T. 德拉蒙德特拉弗斯-使用决 策 蕨 类 搜 索 潜 在 空 间 。 arXiv 预 印 本 arXiv :1812.02636,2018。5[40] Y. Zuo和T.德拉蒙德快速残留森林:语义分割的快速增强学习。在机器人学习会议上,第27-36页,2017年。5
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功