没有合适的资源?快使用搜索试试~ 我知道了~
工程6(2020)361研究人工智能-文章深度学习雷娜a,#,安东升b,#,杨国b,苏克华c,刘世霞d,罗忠轩a,邱成东,顾先锋,顾a大连理工大学-bStony Brook University,Stony Brook,NY 11794-2424,USAc武汉大学计算机科学学院,湖北武汉430072d清华大学软件学院,北京100084哈佛大学数学科学与应用中心,剑桥,MA 02138,USA阿提奇莱因福奥文章历史记录:收到2019年2019年8月31日修订2019年9月11日接受2020年1月11日在线关键词:生成对抗深度学习最优运输模式崩溃A B S T R A C T这项工作介绍了生成对抗网络(GAN)的最优传输(OT)视图。自然数据集具有内在的模式,这可以概括为流形分布原理:一类数据的分布接近于低维流形。GAN主要完成两个任务:流形学习和概率分布变换。后者可以使用经典的OT方法进行。从OT的角度来看,生成器计算OT图,而递归计算生成的数据分布和真实数据分布之间的Wasserstein距离;两者都可以简化为凸几何优化过程。此外,优选论还揭示了生成元与非生成元之间的内在合作关系,以及模式崩溃的根本原因我们还提出了一种新的生成模型,它使用自动编码器(AE)进行流形学习和OT映射进行概率分布变换。这种AE-OT模型提高了理论的严谨性和透明度,以及计算的稳定性和效率,特别是,它消除了模式崩溃。实验结果验证了我们的假设,并展示了我们提出的模型的优点©2020 THE COUNTORS.Elsevier LTD代表中国工程院出版,高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍生成对抗网络(GAN)已经成为无条件图像生成的主要方法之一。当在多个数据集上训练时,GAN能够产生真实和视觉上吸引人的样本。GAN方法训练一个从随机噪声中回归真实图像的无条件生成器和一个测量生成样本与真实图像之间差异的无条件生成器。GAN已经得到了各种改进。通过将最优传输(OT)理论与GAN(如Wasserstein GAN(WGAN))相结合,实现了一项突破[1]。在WGAN框架中,生成器计算从白噪声到数据分布的OT图,并且中间节点计算生成的数据分布与真实数据分布之间的Wasserstein距离。*通讯作者。电子邮件地址:gu@cs.stonybrook.edu(X. Gu)。#这些作者对这项工作做出了同样的1.1. 流形分布假说GANs的巨大成功可以通过GANs有效地发现真实数据集的内在结构来解释,这可以用流形分布假设来表述:特定类别的自然数据集中在嵌入高维背景空间的低维流形上[2]。图1显示了MNIST数据库的流形结构。每个手写数字图像具有28× 28的尺寸,并且被视为图像空间R784中的点。MNIST数据库集中在低维流形附近。通过使用t-SNE流形嵌入算法[3],MNIST数据库被映射到平面域,并且每个图像被映射到单个点。将表示相同数字的图像映射到一个聚类上,并且对10个聚类进行颜色编码。这表明MNIST数据库分布接近嵌入的二维(2D)表面在R784的单位立方体里https://doi.org/10.1016/j.eng.2019.09.0102095-8099/©2020 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程杂志主页:www.elsevier.com/locate/eng北纬362号Lei等人/工程6(2020)361图1.一、MNIST数据库的流形分布(a)MNIST数据库中的一些手写数字;(b)用t-SNE算法在二维平面上嵌入数字的结果x和y相对坐标被归一化。1.2. GANs的理论模型图 2阐述了GANs的理论模型。真实数据分布集中在嵌入周围空间v中的流形R上。(R,v)共同显示了真实数据集的内在结构GAN模型从生成器映射计算生成器映射gh潜在空间Z到流形R,其中h表示深度神经网络(DNN)的参数。f是潜空间中的高斯分布,gh将f向前推到lh。鉴别器计算真实数据分布V之间的距离,生成的分布lh,如Wasserstein距离Wc(lh,v),它等价于Kontaro vich势un (n:函数的参数)。尽管GANs在理论上,对深度学习基本原理的理解仍然很原始。在实践中,GAN的训练是棘手的,对超参数敏感; GAN遭受模式崩溃。最近,Mescheder等人[4]研究了九种不同的GAN模型和变体,表明基于梯度下降的GAN优化并不总是局部收敛的。根据流形分布假设,自然数据集可以表示为流形上的概率分布。因此,我们认为,Gans主要完成两个任务:①流形学习,即计算潜在空间和周围空间之间的解码/编码映射;②概率分布变换,在潜空间或像空间,它涉及到给定的白噪声和数据分布之间的变换。图 3示出生成器映射gh=h<$T的分解,其中h:Z? R是从潜在空间到数据流形R在周围空间中,概率分布图二. GANs的理论模型。G:发电机; D:发电机。图三.生成器映射被分解为解码映射h和传输映射T。T#f是由T引起的前推测度。变换映射T:Z?Z.解码映射h用于流形学习,而映射T用于测度传输。1.3. 最优运输观OT理论[5]研究以最经济的方式将一种概率分布转换为另一种分布的问题。OT提供了严格而强大的方法来计算将一个概率分布转换为另一个分布的最佳映射,并确定它们之间的距离[6]。如前所述,GAN完成两个主要任务:流形学习和概率分布变换。 后一项任务可以完全由OT方法直接完成。详细地,在图3中,可以使用OT理论来计算概率分布变换图T。 计算机科学家所生成的数据之间的Wassersten距离Wc(lh,v)分布和实际数据分布,可以直接使用OT方法计算。从理论上看,GANs的OT解释使部分黑箱透明化,利用OT理论将概率分布变换归结为凸优化过程,解的存在唯一性有理论保证,并充分分析了收敛速度和逼近精度。OT解释也解释了模式崩溃的根本原因根据Monge- Ampère方程的正则性理论,运输映射在某些奇异集上是不连续的.然而,DNN只能对连续函数/映射进行建模。因此,目标运输映射在GAN可表示的功能空间之外。这种内在冲突使得模式崩溃不可避免。N. Lei等人 /工程6(2020)361-374363OT解释还揭示了生成元和生成元之间更复杂的关系在当前的GAN模型中,生成器和节点彼此竞争,而不共享中间计算结果。OT理论表明,在L2代价函数下,发电机的最优解与最优解可以用封闭的形式相互表示。因此,发电机和发电机之间的竞争应该被合作所取代,并且应该共享中间计算结果以提高效率。1.4. Autoencoder–optimal transportation为了降低GAN的训练难度,特别是为了避免模式崩溃,我们提出了一种基于OT理论的更简单的生成模型:自动编码器(AE)-OT模型,如图所示。 四、如前所述,生成模型的两个主要任务是流形学习和概率分布转换。AE计算编码映射,fh:Z? R,和解码映射gn:R?Z,用于流形学习。OT地图,T:Z?Z,将白噪声f转换为数据分布由编码映射推送,(fh)#v.The 从理论的角度看,优选论已被确立并得到充分的理解.通过将解码映射和OT映射解耦,可以提高生成模型的理论严谨性,并使部分黑盒透明。在实践中,OT映射被归结为一个凸优化问题,保证了解的存在性和唯一性,训练过程不会陷入局部最优。与OT映射相关联的凸能量具有显式的Hessian矩阵;因此,可以使用具有二阶收敛的牛顿方法或使用具有超线性收敛的拟牛顿方法来执行优化与之相比,现有的OT图生成模型基于线性收敛的梯度下降法;未知数的个数与训练样本的个数相等,避免了过参数化问题; OT图的误差界可以完全由Monte Carlo方法中的采样密度控制;具有自适应性的分层算法进一步提高了效率;并行OT图算法可以用图形处理器(GPU)实现。最重要的是,图四、 一个生成模型,1.5. 贡献本文运用优选论理论对GAN模型进行了解释。GAN可以完成两个主要任务:流形学习和概率分布变换。后一项任务可以使用OT方法进行。生成器计算OT图,而映射器计算生成的数据分布和真实数据分布之间的Wasserstein距离。使用Brenier的理论,发电机和发电机之间的竞争可以被合作所取代;根据根据Monge-Ampère方程的正则性理论,输运映射的不连续性导致了模的坍缩。我们进一步提出通过AE-OT模型解耦流形学习和概率分布变换,这使得部分黑盒透明,提高了训练效率,并防止模式崩溃。实验结果证明了我们的方法的效率和有效性本文组织如下:第2节简要回顾了OT和GAN中最相关的工作;第3节简要介绍了OT的基本理论和Monge-Ampère方程的正则性理论2. 以前的作品2.1. 最佳运输OT问题在各个领域都有着重要的作用。有关详细的概述,我们建议读者参阅参考文献。[7]和[8]。当输入和输出域都是狄拉克质量时,OT问题可以被视为标准的线性规划(LP)任务。为了将问题扩展到大型数据集,Ref.[9]在原LP问题中加入了一个熵正则化子,从而使正则化后的Solomon等人。[10]然后通过引入快速卷积第二种方法是通过OT问题和凸几何之间的联系,通过最小化凸能量[6]来 在文献[11]中,作者通过Legendre对偶理论将凸几何观点的OT与Kantorovich对偶联系起来。该方法是该方法在高维空间的推广。如果输入和输出都是连续的密度,则求解OT问题等价于求解著名的Monge-Ampère方程,这是一个高度非线性的有了一个额外的虚拟时间维度,这个问题可以通过计算流体动力学放松[122.2. 生成模型在机器学习领域,能够生成复杂和高维数据的生成模型具体地说,生成模型主要用于从给定的图像数据集生成新的图像。几种方法,包括深度信念网络[15]和深度玻尔兹曼机[16],已经在早期阶段引入然而,这些培训⊂××T#l¼vX北纬364度Lei等人/工程6(2020)361方法通常是棘手和低效的。后来,从变分AE(VAE)[17]的方案中实现了巨大的突破,其中解码器使用变分方法[17,18]从高斯分布近似真实数据分布。已经提出了遵循该方案的各种近期工作,包括对抗性AE(AAE)[19]和Wasserstein AE(WAE)[20]。尽管VAE训练起来相对简单,但它们生成的图像看起来很模糊。在某种程度上,这是因为显式表达的密度函数可能无法表示真实数据分布的复杂性并学习高维数据分布[21,22]。已经提出了其他非对抗性训练模型,包括PixelCNN[23],PixelRNN[24]和WaveNet[25]。然而,由于它们的自回归性质,新样本的生成不能被预测。2.3. 对抗生成模型GAN[26]被提出来解决上述模型的缺点。虽然GAN是生成逼真样本的强大工具,但它们可能很难训练,并且会受到模式崩溃的影响。为了更好的GAN训练,已经提出了各种改进,包括改变损失函数(例如,WGAN[1]),并通过裁剪[1]、梯度正则化[4,27]或谱归一化[28]将鉴别器正则化为Lipschitz。然而,GAN的训练仍然很棘手,需要仔细选择超参数。2.4. 生成模型生成模型的评估仍然具有挑战性。早期的作品包括概率标准[29]。然而,最近的生成模型(特别是GAN)不适合这种评估。通过用DNN表示能量函数,通过吉布斯分布来进行图像分布。这些方法交替使用当前模型生成假样本,然后使用生成的假样本和真实样本优化模型参数。3. 最优运输理论在本节中,我们将介绍经典OT理论中的基本概念和定理,重点介绍Brenier的方法及其在离散环境中的推广。详情可参阅维兰尼3.1. Monge设X<$Rd;Y<$Rd是d维欧氏空间Rd的两个子集,l和v是两个概率测度分别定义在X和Y上,具有以下密度函数:lxfxdxvygydy假设总测度相等,l(X)=v(Y);即Zfxdx¼Zgydy1我们只考虑保留测度的映射定义3.1(保测度映射)。 一张地图? Y是保测度的,如果对任意可测集B Y,集合T-1(B)是l-可测且l[T-1(B)]=v(B),即,是的。传统上,的评价的Gans依赖对视觉一些例子或用户研究的检查最近,Sev-fxdx¼Zgydy2提出了定量评价标准。初始分数(IS)[30]衡量多样性和图像质量。然而,它不是一个距离度量。为了克服IS的缺点,在参考文献[31]中引入了Fréchet起始距离(FID)。FID已被证明是强大的图像损坏,并与视觉保真度。在最近的工作[32]中,引入了分布的精确度和召回率(PRD)来衡量生成的数据分布和真实数据分布之间的精确度和召回率。为了公平地比较GAN,在参考文献[33]中进行了大规模比较,其中在统一的网络架构下比较了七种不同的GAN和VAE,并建立了一个共同的评估基线。2.5.非对抗模型最近还提出了各种非对抗性模型。生成潜在优化(GLO)[34]采用隐式最大似然估计(IMLE)[35]提出了迭代最近点(ICP)相关生成模型T-1T-1B测度保持条件表示为T#l=v,其中T#1是由T引起的前推测度。给定一个成本函数c(x,y):XY?R≥0,表示将每个单位质量从源点移动到目标点的费用,地图T的总运输费用(Ct):X?Y被定义为Ct<$Zc½x;Tx]dlx3Monge问题3.2(Monge 给定运输成本函数c(x,y):XY? R≥0,求保测度映射T:X?最小化总运输成本的Y:最小Zc½x;Tx]dlx4定义3.3(OT图)。Monge问题的解决方案OT地图的总运输成本称为l和v之间的Wasserstein距离,表示为Wc(l,v).培训方法。后来,Hoshen和Malik[36]提出了generally-W Lv最小ZcxTx½dlx5潜在最近邻(GLANN),它结合了先进的,GLO和GLANN的阶段,其中来自图像的嵌入空间到潜在空间首先发现使用GLO,然后一个trans-c;T#l¼v;]ð Þ ð Þ任意分布和潜在代码之间的形成是使用IMLE计算。其他方法通过具有可控雅可比矩阵的DNN直接近似从噪声空间到图像空间的分布变换图[37最近,已选择基于能量的模型[403.2. Kontarovich根据成本函数和度量,(X,l)和(Y,v)之间的OT映射可能不存在。Kontarovich将运输地图放宽为运输计划,并定义了联合概率测度q(x,y):X×Y! R≥0,则边际YXXZXX22X2XuC22j-≤k-kj.!loclocð Þ ¼ k- K!Rx编号y #Σ1Σωu;wZXYN. Lei等人 /工程6(2020)361-374365q的概率分别等于l和v让投影映射形式上为px(x,y)=x,py(x,y)=y,然后定义联合测量类如下:Pl;vnqx;y:X×Y! R:不对称。pqvoð6Þuωysup½hx;yi -ux]14可以证明,当cx;y 1=2kx-yk:12C2问题3.4(Kontarovich's; KP).给定运输成本函数2kyk— 关于我们2kxk— uxð15Þc(x,y):X×Y?R≥0,求联合概率测度q(x,y):X× Y?最小化总运输成本。定理3.9(Brenier假设X和Y是欧氏空间Rd,l关于≥0到Lebesgue测度的映射2名P-1;vu:X! Y推L-最小功率功率X×Y cx;y dqx;y7向v,u#l = v,则存在凸函数u:X! R,使得u^ru^s,其中s:X?X是测度保持的,KP可以使用LP方法求解。由于LP的对偶性,当量(7)(KP方程)可以重新表示为对偶问题(DP)如下:问题3.5(二元性;DP)。给定一运输成本函数c(x,y):X×Y?R≥0,求实函数u:X!R和W:Y!R,这样,DPEq.的最大值(8)给出了Wasserstein距离。现有的WGAN模型大多基于L1代价函数下的对偶定义3.6(c-变换)。 u的c变换:X! R定义为uc:Y! R:ucyinf½cx;y-ux]9s #l = l。此外,这种分解是唯一的。下面的定理在OT理论中是众所周知的:定理3.10(Villani[5]).给定紧凸域X<$Rd上的l和v,存在成本c(x,y)=h(x-y),其中h 严格凸 它是独一无二的,(id,T#)l(id:恒等映射),条件是l是绝对连续的。Ous和@X可以忽略不计。此外,存在KantorovichTxx-rh-1 ½r ux]当c∈x;y∈1= 2kx-yk2时,我们有Txx-ruxr1kxk2-uxrux在这种情况下,BrenierDP可以重写如下:1uxxk2-ux16最大值Z3.3. 布雷尼埃uxdlZuydv101/2千美元3.4. OT映射设X和K是Rd中的两个有界光滑开集,对于二次欧几里德距离代价,Brenier [44]证明了OT映射的存在性、唯一性和内在结构。定理3.7(Brenier设X和Y是欧氏空间Rd的子集,运输成本是二次的欧几里得距离c = 2 k x-y k2。此外,l是绝对连续的,l和v具有有限的二阶矩ZkxkdlxZkykdvy<111则存在凸函数u:X! R,所谓的布雷尼尔势,其梯度图r u给出MP的解:你在哪里?Brenier假设Briener势是C2光滑的,那么它就是下面的Monge-Ampère方程的解l= fdx 和v = gdy 是 Rd上的两 个概 率测 度 , 使 得fjRdX<$40 和gjRdK<$40。假设f和g分别在X和K上有界远离零和无穷大。3.4.1. 凸目标域定义3.11(Hölder连续)。d维欧氏空间上的实或复值函数f满足Hölder条件,或者是Hölder连续的,当存在非负实常数C,a> 0,使得fxfyCx y对于f的定义域中的所有x和y。定义3.12(Hölder空间)。Hölder空间Ck;a(X),其中X是某个欧氏空间的开子集,k≥0是整数,由X上具有直到k阶的连续导数的那些函数组成,并且使得第k阶偏导数是Hölder con-。连续的,指数为a,其中0a≤ 1。 0,则u2C1;a(X).(2) 如果f 2Ck;a(X)和g2Ck;a(K),其中f,g> 0,则u2Ck<$2;a(X)对于L2运输成本cx;y1= 2Xy2在Rd中,c变换和经典的勒让德变换具有特殊的loc且λk ≥ 0; a 2 λ 0:1 λk。locloc关系定义3.8(勒让德变换)。给定函数u:RnR,其勒让德变换定义如下:3.4.2. 非凸目标域如果K不是凸的,且存在f和g是光滑的,的uRCl(X),然后OT映射u在奇点处是不连续。XYXY¼!2≤ð Þ.Σ[¼r3⊂1/1XPR1/11/1X<$Wih\X;Wihp2Rdjruhpyi1/1国王!1北纬366度 Lei等/ Engineering 6(2020)361定义3.14(次梯度)。给定一个开集X<$Rd和一个凸函数u:XR,对于xX,u在x处的次梯度(次梯度)定义如下:@uxfp2Rn:uz≥uxhp;z-xi;8z2Xg显然,u(x)是一个闭凸集。从几何学上讲,如果p2u(x),则超平面lx;puhp;z-xi在x处从下面接触u;即,lx,pu在X中且lx,p(x)=u(x),其中lx,p是在x处对u的支撑平面。Brenier我们根据点的次梯度的维数对点进行分类,并定义集合图五. OT映射的奇点结构。Rkux2Rdjdim½@ux]k;k0;1;2;:;d显然R0(u)是正则点集,Rk(u)是奇点集,其中k> 0我们还定义了范围-信封. 如图 6、Brenier 'spotentialuh:X? R是由h确定的分段线性凸函数,h是其所有支撑平面的上包络:在x处的子梯度如下:.uhrωuxlimruxkjxk2R0;xk!X众所周知,次梯度等于可达次梯度的凸包凸壳rωuxBrenier势的图形每个支撑平面Ph,i对应于多面体的小平面的多面体的投影引起X的胞腔分解,其中每个支撑平面pi(x)投影到胞腔Wi(h)上,p是Rd中的任何点:定理3.15(正则性)。 设X,K <$Rd是两个有界开n.Σ集合,设f,g:两个概率密度都为零-!R研发边X和K,并且在X上远离零和无穷大K,分别。用Tu表示:X?K是定理3.7给出的OT映射。 则存在两个相对闭集RX<$X和RK<$K,其中RX=RK=0,使得T:XnRX?KnRK是类C0;a的同胚,其中a> 0。细胞分解是一个功率图。的l-测度Wi|X表示为wi(h):Zwihl½W ih\X]dl21loc我们称R X为OT映射ru:X的奇异集? K. 图 5我的天梯度图u:Y将每个单元W(h)映射到单个示出的奇点设置结构,计算使用算法基于定理4.2。我们得到以下结果:点yi:rhX?我R0¼XffR1[R2g;R1 ¼k[¼0ck;R2¼ fx0;x1gruh:Wih!yi;i¼1;2;:;n:222给定等式中的目标测量v,(17),在方程中存在离散的Brenier势。(19)其每个的投影l体积x0的次梯度@u(x0)是K的整个内孔,而@u(x1)是阴影三角形。 对于ck(t)上的每个点,@u[ck(t)]是K之外的线段。x1是c1,c2,和c3的分叉点。R1和R2上的Brenier势 是 不可 微 的 , 其 上 的 O T 映 射 r u 是 不 连 续 的 .4. 计算算法小平面Wi(h)等于给定的目标度量Vi。这是证明了亚历山德罗夫[46]在凸几何。定理4.1(Alexandrov[46])。设X是一个紧致凸多面体,在Rn,n1,.中具有非空内部,nkRn<$1是不同的k个单位向量,第(n+1)个坐标是负的,并且v1,., vk>0,所以Pk 第 五卷第十卷。则存在一个凸Brenier定理可以直接推广到离散情形。在GAN模型中,源测度l被给定为定义在紧致凸域X上的均匀(或高斯)分布;目标测度v被表示为经验测度,它是狄拉克测度之和:nvvidy-yi171/1其中Y= {y1,y2,., yn}是训练样本,权重多面体P<$Rn<$1具有精确的k余维数-1面F1,...,Fk是Fi的法向量,X和Fi的投影的交点的体积是vi。此外,这样的P在垂直平移之前是唯一的。ni¼1 vi<$lX;d是特征函数。每个训练样本yi对应于所述训练样本的支撑平面。Brenierph;ix hx;yihi18其中高度hi是未知变量。我们将所有高度变量表示为h=(h1,h2,.,hn)。欧氏空间中超平面族的包络是在某点与该族的每个成员相切的超曲面,这些相切点一起形成整体见图6。(a)分段线性Brenier势(uh)和(b)它的Legendre变换uωh。pωh;i:ph,i的Legendre对偶;uh:u h的梯度;Proj:投影映射;Proj*:勒让德对偶空间中的投影映射。ð20Þ2不...ΣΣnoFG.Σ1/1我12n直到添加常数(c,c,..., c),使得w(h)= v,对所有i. 的h;ii i22wi-kIk;J 2002年wj-kJKð@hj¼-ky-yk1.Σ1/1DN. Lei等人 /工程6(2020)361-374367亚历山德罗夫最近,Gu et al.[6]给出了基于变分方法的构造性证明定理4.2(参考[6])。 设l是定义在Rd中紧凸域X上的概率测度,Y ={y1,y2,..., yn}是R d中不同点的集合。 那么对于任何v1,v2,. vn >0与定义4.3(功率距离)。给定一个点yi2Rd,其幂权重为wi,幂距离由下式给出:幂x;yikx-yik2-wik 28次方定义4.4(功率图)。考虑到权重点幂图是d的单元分解:Pn v<$l<$X<$,则存在h<$$>h;h;:;h<$2Rn,它是唯一的RKi id[ZhXnX0其中每个单元是凸多面体:Eðh Þ ¼1/1 wig dgi-1/1 2019 - 12- 13 01:01:00我也是。x2R. 幂x; yi≤幂。x;yjð30Þ定义在开凸集上的h<$fh2Rn:wi<$h n>0;i< $1; 2;:;ng24 h此外,ruh最小化二次成本加权Delaunay三角剖分,记为T(w),是幂图的庞加莱对偶;如果W i<$w <$\W j<$w <$- /,则在加权Delaunay三角剖分中存在连接y i和y j的边。注意,pow(x,yi)≤pow(x,yj)等价于1kx-Txkdlx25Xxy1.y2Σ. xy yy。2031年2月在所有的传输图中,T#l = v。上述方程中的凸能量的梯度(23)由以下公式给出[2019-01-22 00 :00:00:00:00:00]能量的Hessian的第i行和第j列元素由下式给出:设h i 1 = 2 wi-kyik2 ;然后我们重写我们将介绍如下:Wi wx 2Rd hx;yihi ≥x;yj 2018年10月8日在实践中,我们的目标是计算离散Brenier初始方程(19)通过优化凸能量方程。(23).对于低维情况,我们可以直接使用牛顿@wiL. Wi\Wj\X我J@wi¼X@wijð27Þ将梯度Eq.(26)和Hessian矩阵Eq.(27). 为深度学习直接应用计算的黑森如图6所示,Hessian矩阵具有明确的几何解释。图6(a)示出了离散的Brenier势uh,而图6(b)示出了离散的Brenier势uh。图6(b)示出了使用定义3.8的勒让德变换uωh。勒让德变换可以几何地构造:对于每个支撑平面ph,i,我们构造对偶点pωh;i<$i;hi<$;对偶点pωh;1;pωh;2;:;pωh;n的凸包是勒让德变换uωh的图。的投影 的 uωh诱导一三角测量 的 Y¼y1; y2;::; yn,这是加权Delaunay三角剖分。如图7所示,等式7中的功率图如果在幂图中,Wi(h)和Wj(h)相交于(d-1)维单元,则在加权Delaunay 三角剖在Eq中的Hessian矩阵的元素。(27)是幂图中(d - 1)单元的l体积与加权Delaunay三角剖分中的对偶边的长度之间的比率。传统的功率图可以与上述定理密切相关。矩阵是不可行的;相反,我们可以使用梯度下降法或拟牛顿法具有超线性收敛。梯度的关键是估计l体积w i(h)。这可以使用蒙特卡罗方法来完成:我们从分布l中抽取n个随机样本,并计算落入Wi(h)内的样本数量,Wi(h)是收敛到l体积的比率。这种方法是纯并行的,可以使用GPU来实现此外,我们可以使用分层的方法来进一步提高效率:首先,我们将目标样本分类到簇,并计算到簇的质心的OT图;其次,对于每个簇,我们计算从相应的细胞到簇内的原始目标样本的OT图。为了避免模式坍缩,我们需要找到X中的奇点集。 如图 8,目标Dirac测度有两个簇,源是单位平面圆盘上的均匀分布. Brenier势函数的图形是一个凸多面体,中间有一个脊。凸脊在圆盘上的投影是奇点集R1(u),最优映射在R1上是不连续的。在一般情况下,如果两个单元Wi(h)和Wj(h)相邻,则我们计算法线与相应支撑平面之间的角度:hi;jyi;yjkyikkyjk如果hi,j大于阈值,则公共分面Wi(h)\Wj(h)在不连续奇异集中.5. GAN和最佳运输图7.第一次会议。功率图(蓝色)及其双加权Delaunay三角剖分(黑色)。优选论为GAN奠定了理论基础。许多最近的作品,如WGAN[1],梯度惩罚WGAN(WGAN-GP)[27]和应用于GAN的放松Wasserstein(RW-GAN)[47],使用Wasserstein距离来测量n;向量h是以下凸能量的唯一最小自变量R ¼Wi w292≥Þ@hi@hjZh编号RH#h编号h编号h#n h#Hnnn.ΣΣΣ北纬368度Lei等人/工程6(2020)361给出了OT地图。gkftov. 因此,我们得到如下:你在说什么。gkfi¼. 我的天啊。id-rugkif这意味着可以通过以下方式更新发电机映射:g k= 1¼。id-rugkð33Þ胡恩达这一结论表明,原则上,可以跳过生成器;在实践中,通过共享中间计算结果可以大大提高效率。因此,在设计GAN的架构时,合作比竞争更好。5.2. 模态崩溃与正则性图8.第八条。Brenier势函数的奇点集所生成的数据分布与实际数据分布之间的偏差。从优选论的角度来看,生成器和调度器的最优解之间存在一个封闭的关系,因此,生成器和调度器应该合作而不是竞争。更多的细节可以在Ref.[11]. 此外,Monge-Ampère方程解的正则性理论5.1. 竞争与合作WGAN [1]的OT视图如图所示。二、根据流形分布假设,真实数据分布v接近于嵌入周围空间v中的流形R。生成器计算从潜在空间Z到周围空间的解码映射gh,并将白噪声f(即, 高斯分布)到生成的分布,lh. 计算lh之间的Wasserstein距离和真实数据分布v,Wc(lh,v),通过计算Kantorovichgh和un都是由DNN实现的。在训练过程中,生成器通过(gh)#f改进gh,以便更好地近似v;Kantorovich生成器和迭代器相互竞争,而不共享中间计算结果。在L1成本函数下,WGAN的备选训练过程可以被公式化为期望的最minmaxEz~fu½ghz]Ey~vucy但如果我们将代价函数改为L2距离,则根据定理3.10,在最佳情况下,Brenier( 16)式中,u x1 = 2 k x k2-ux. 发电机追求OT地图u;计算器计算u。因此,一旦发电机当最优解达到最优时,不需要任何训练就可以得到最优解,反之亦然。更详细地说,假设在第k次迭代时,生成器映射为:gk.该计算器计算Kontarovich数据分发。gkf和真实数据分布v;ru虽然GAN在许多应用中都很强大,但它们也有严重的缺点:首先,GAN的训练很棘手,对超参数敏感,难以收敛;其次,GAN会遭受模式崩溃;第三,GAN可能会生成不切实际的样本。 OT映射的正则性定理3.15可以解释收敛、模式崩溃和产生不切实际的样本的困难。根据Brenier根据正则性定理3.15,如果支持目标测度v的K具有多个连通分量-也就是说,如果v具有多个模式,或者K是非凸的-则OT地图T:X? K在奇异集RX上是不连续的。图图9显示了多簇的情况:K有两个连通的分量,其中OT映射T沿着R 1是不连续的。 图图10表明即使K是连通的,尽管是非凸的。X是一个矩形,K是一个哑铃形,密度函数是常数,OT映射是不连续的,奇点集R11/4c1[c2.图图11示出了图11中的两个概率度量之间的OT图。R3. 源测度l和目标测度v都是均匀分布; X的支撑是单位实心球,K的支撑是实心斯坦福兔子。 我们计算布雷尼尔势u:X? R基于定理4.2。为了可视化映射,我们对概率测度进行插值,如下所示:qt:1/2/1-t[idtru]#l;0≤t≤1图11示出了内插测度qt的支持。曲面上的折叠是奇点集,在这里OT映射是不连续的。在一般情况下,由于真实数据分布、嵌入流形R和编码/解码映射的复杂性,目标测度的支撑很少是凸的,因此,运输映射不可能是全局连续的.另一方面,一般的DNN,如整流线性单元(ReLU)DNN,只能近似连续映射。由ReLU DNN表示的功能空间不包含所需的不连续传输映射。训练过程或等价的搜索过程将导致三种不同的情况:(1) 训练过程是不稳定的,并且不收敛。(2) 搜索收敛到K的多个连通分支之一,映射收敛到所需运输映射的一个连续分支。这意味着遇到模式崩溃。(3) 训练过程产生了一个交通地图,它成功地覆盖了所有的模式,但也覆盖了区域N. Lei等人 /工程6(2020)361-374369图9.第九条。不连续OT图,由基于定理4.2的算法的GPU实现产生:(a)是源域,(b)是目标域。(a)中的中线是奇点集R1。图10个。不连续OT图,由基于定理4.2的算法的GPU实现产生:(a)是源域,(b)是目标域。c1和c2在(a)是两个奇点集见图11。 从斯坦福兔子到实心球。奇异集是边界曲面上的折叠。(在K之外。在实践中,这将导致生成不切实际的样本的现象,如图1的中间框架所示。 12个。因此,在理论上,不可能直接使用DNN来近似OT映射。5.3. AE–OT如图4所示,我们将GAN的两个主要任务分开:流形学习和概率分布变换。 第一个任务由AE执行,以计算编码/解码映射fh,gn;第二个任务使用显式变分方法计算隐空间中的OT映射T真实数据分布v由编码映射fh向前推进,从而导致(fh)#v。在潜在空间中,T将均匀分布l映射到(fh)#v。AE-OT模型有很多优点。从本质上讲,OT映射的求解是一个凸优化问题,其解的存在性和唯一性是有保证的。训练过程用拟牛顿法证明了该算法的稳定性和超线性收敛性。未知数的数量等于训练样本,避免过度参数化。并行OT映射算法可以使用GPU来实现。在蒙特卡罗方法中,OT图的误差范围可以通过抽样密度来控制。具有自适应性的分层算法进一步提高了效率.特别地,AE6. 实验结果在本节中,我们报告了我们的实验结果。6.1. 训练过程AE-OT模型的训练主要包括两个步骤:训练AE和寻找OT图。OT步骤是使用该算法的GPU实现来完成的,如所述北纬370度Lei等人/工程6(2020)361图12.由AE-OT模型生成的面部图像。(a)生成逼真的面部图像;(b)通过奇点的路径。(b)中心的图像显示运输地图是不连续的。在第4节。在AE步骤中,在训练过程中,我们采用Adam算法[49]优化神经网络的参数,学习率为0.003,b1= 0.5,b2= 0.999。当L2损失停止下降时,这意味着网络已经找到了一个很好的编码映射,我们冻结编码器部分,继续为解码映射训练网络。编码器冻结前后的训练损失如表1所示。接下来,为了找到从给定分布(这里,我们使用均匀分布)到潜在特征分布的OT图,我们从均匀分布中随机采样100N个随机点来计算能量的梯度。这里,N是数据集的潜在特征的数量。此外,在实验中,对于不同的数据集,hi,j具体而言,对于MNIST和Fashion-MNIST数据集,hi,j被设置为0.75,而对于CIFAR-10和CelebA数据集,其分别被设置为0.68和0.75。我们的平台所有实验均在GTX 1080 Ti上进行6.2. 运输图不连续性检验在这个实验中,我们想验证我们的假设:在大多数实际应用中,目标测度的支持度是非凸的,奇异集是非空的,概率分布图沿着奇异集是不连续的。如图12所示,我们使用AE来计算从CelebA数据集(R,v)到潜在空间Z的编码/解码映射;Z将v向前推到(fh)#v,潜在空间在潜在空间中,我们基于在第4节中描述的算法,T:Z?Z,其中T将单位立方体f中的均匀分布映射到(fh)#v。然后我们从分布f中随机抽取一个样本z,并使用解码映射gn:Z? R以将T(z)映射到所生成的人脸图像gnT(z)。 图图12(a)展示了逼真的面部图像这是一个表1编码器冻结前后AE的L2损失如果前推测度(fh)#v在潜空间中的支集是非凸的,则存在奇异集Rk,其中k> 0。我们想检测Rk的存在。我们在潜空间中的单位立方体中随机绘制线段,然后沿着该线段密集插值以生成面部图像。如图在图12(b)中,我们找到一条线段c,并生成一个具有一双棕色眼睛的男孩和一双蓝色眼睛的女孩之间的变形序列。在中间,我们生成了一张有一只蓝眼睛和一只棕色眼睛的脸,这绝对是不现实的,在R之外。这个结果意味着线段c经过一个奇点集Rk,其中运输映射T是不连续的。这也表明我们的假设是正确的:编码后的人脸图像测度在潜在空间上的支撑是非凸的。作为副产品,我们发现这种因此,它为改进现有GAN提供了一种有前途的方法。6.3. 模
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功