没有合适的资源?快使用搜索试试~ 我知道了~
谱正则化的生成对抗网络(SR-GANs)及其在模式崩溃问题上的优势
6382基于谱正则化的GANs刘康林1,2,3,唐文明1,2,3,周飞1,2,3,邱国平1,2,3,41深圳大学,深圳,中国2广东省智能信息处理重点实验室,深圳3深圳市人工智能与机器人社会研究所,深圳,中国4诺丁汉大学,诺丁汉,英国max. liu. gmail.com,guoping.qiu@ nottingham.ac.uk摘要尽管近年来取得了很好的进展,但模式崩溃仍然是生成对抗网络(GAN)中未解决的主要问题。在本文中,我们提出了GANs(SR-GANs)的谱正则化,这是一种新的鲁棒方法,用于对抗GANs中的模式崩溃问题。理论分析表明,判别器的最优解与权矩阵的谱分布有很强的关系因此,我们监测频谱归一化GANs(SN-GANs)的频谱分布,并发现一种我们称之为频谱塌陷的现象,即当模式塌陷发生时,权重矩阵的大量奇异值急剧下降我们证明了模式崩塌与谱崩塌之间存在着强有力的联系,并在此基础上把谱崩塌作为模式崩塌的我们已经开发了一种谱正则化方法,在该方法中,我们补偿权重矩阵的谱分布以防止它们崩溃,这反过来又成功地防止了GAN中的模式崩溃。我们从理论上解释了为什么SR-GAN比SN-GAN更稳定,并且可以提供更好我们还提供了大量的实验结果和分析,以表明SR-GAN不仅总是优于SN-GAN,而且总是在SN-GAN失败的战斗模式崩溃中取得成功。1. 介绍生成对抗网络(GANs)[5]是过去十年机器学习研究中最重要的发展之一自首次引入以来,GANs在机器学习社区中引起了浓厚的兴趣,不仅因为它们能够学习高度结构化的概率分布,而且因为它们的本质上,GAN是围绕两个功能构建[3,9]:生成器G,其将样本z映射到数据分布;以及判别器D,其被训练以将数据集的真实样本与由生成器产生的伪样本区分开。为了减少生成样本和真实样本的分布之间的差异,GAN训练算法一前一后地训练G和DGAN训练是动态的,几乎对其设置的每个方面都很敏感,从优化参数到模型架构[1]。训练不稳定性或模式崩溃是开发应用程序的主要障碍之一。尽管近年来取得了很好的进展[6,12,10,15,7],模式崩溃问题仍然存在。例如,最近出现的最令人印象深刻的作品之一是Big-GAN [1],这是基于最先进的频谱归一化(SN-GAN)[10]的最大的已发布GAN系统。然而,BigGAN仍然会受到训练不稳定性问题的困扰,特别是当批量规模扩大时。虽然实施训练稳定性措施(例如在SNR的损失度量中采用R1零中心梯度惩罚项[1]以防止频谱噪声)可以提高稳定性,但这可能导致性能严重下降,导致InceptionScore减少45%。在本文中,我们提出了谱正则化,这是一种用于对抗GANs中模式崩溃问题的鲁棒方法。 从理论上分析了1-Lipschitz连续约束下的线性规划函数的最优解,发现当权矩阵的所有奇异值都为1时,最优解为1。即使在GAN模型的实现中,D是非线性的,我们推断D中的谱分布也可以具有与其业绩有很大关系。通过对大量用SN-GAN算法训练的GAN模型的谱分布的综合分析,我们发现当模型发生模式崩溃时,D中的WSN(W)的谱分布也会崩溃,其中WSN(W)是谱归一化的权重矩阵。6383特里克斯具体地说,我们观察到,当一个模型表现良好 , 没 有 模 式 崩 溃 发 生 , 有 大 量 的 奇 异 值 的 WSN(W)在D非常接近1,而当模式崩溃发生的模型,奇异值的WSN(W)在D将显着下降。我们将大量奇异值显著下降的现象称为谱塌陷。在文献中广泛使用的数据集上使用各种参数设置训练的各种大小的所有GAN模型中,我们观察到模式崩溃和光谱崩溃总是并排进行。这一事实使我们推断SN-GAN中的模式崩溃是由D的权矩阵的谱崩溃引起的。基于对WSN(W)谱分布的这种了解,我们提出了一种新的[10]第10段。考虑以下形式的神经网络的简单鉴别器:f(x , θ )=WL+1 ( aL·WL·aL−1·WL−1···a1W1x)(1)其中θ:={W1,···,WL,WL+1}是学习参数集,Wl∈Rdl×dl−1,WL+1∈R1×dL,al是一个逐元素非线性激活函数。我们省略为简单起见,每个层的偏置项。鉴别器的最终输出由下式给出:D(x,θ)=A(f(x,θ))(2)其中A是对应于用户选择的距离度量的发散的激活函数GANs的标准公式由[10,13]给出:最小值最大值V(G,D)(3)和鲁棒的方法称为谱正则化,以防止G D模式崩溃的GAN。除了对权矩阵进行归一化外,谱正则化还通过补偿权矩阵的谱失真来对权矩阵施加其中G和D的最小值和最大值取为分别设置生成器和鉴别器函数。V(G,D)的常规形式由下式给出:以避免频谱崩溃。 理论分析ExBq 数据 [logD(x)]+Ex′<$qG[log(1−D(x′))][10],其中结果表明,谱正则化在防止权矩阵集中于某一特定方向上优于谱我们证明了SN-GANs是谱正则化的一个特例,并且在一系列广泛的实验中,我们证明了谱正则化不仅提供了优于谱归一化的性能,而且在谱归一化失败的情况下总是可以避免模式崩溃。我们的贡献可归纳如下:(1) 通过理论分析和广泛的实验观察,我们提供了一个洞察模式崩溃的最先进的GAN归一化技术,频谱归一化(SN-GANs)的可能原因。我们引入了谱塌缩的概念,并提供了强有力的证据,将谱塌缩与SN-GANs中的模式塌缩(2) 基于上述见解,我们开发了一种新的鲁棒正则化方法,频谱正则化,其中我们补偿D中权重矩阵的频谱分布以防止频谱崩溃,从而防止GANs中的模式崩溃。大量的实验结果表明,谱正则化不仅可以始终防止模式崩溃,而且可以始终提供改进的性能比SN-GAN。2. SN-GANs中的模式崩溃分析2.1. SN GAN概述为了便于讨论,我们首先简要回顾了用于训练GAN的谱归一化技术的基本思想[10]。据我们所知,这是目前文献中最好的方法之一,并已成功用于构建大型系统,如BigGAN [1]。为了方便起见,我们在很大程度上遵循qdata是数据分布,qG是模型(生成器)分布为了保证Lipschitz连续性,谱归一化[10]通过严格约束每层的谱范数来控制函数的Lipschitz常数WSN(W):=W/σ(W)(4)其中,σ(W)是网络中权矩阵W的谱范数,等价于W的最大奇异值。SN-GAN的作者[10]和BigGAN的作者[1]已经证明了谱归一化优于其它归一化或正则化技术,例如,梯度惩罚[6]、权重归一化[15]和非正规正则化[4]。然而,作为最先进的GAN模型,BigGAN(基于频谱归一化)仍然会遭受模式崩溃。因此,模式崩溃仍然是一个尚未解决的开放问题,寻求更好,更鲁棒的解决方案对于改进GAN非常重要2.2. 理论分析为了揭示模式崩溃的可能原因,我们首先分析了1-Lipschitz约束下的最优解。具体地说,[6]中的命题1证明了1-Lipschitz函数f的最优解几乎处处具有梯度范数1。假设判别函数f是一个线性函数,我们发现,只有当所有的奇异值为1时,得到这可以由推论1来验证(见附录中的证明推论1. 设Pr和Pg是紧度量空间X线性和1-Lipschitz约束函数f*=Wx是6384maxf≤1ExP[f(x)] − ExP[f(x)]。然后所有的LipR G权重矩阵W的奇异值为1。我们可以看到,对于线性f,谱分布与D的性能密切相关。对于GAN中的鉴别器,f是非线性的。然而,我们的理由,他们的光谱分布也可能有很强的关系,鉴别器的性能。因此,我们可以监测光谱分布来研究模式崩溃问题。2.3. 模式崩溃与频谱崩溃为了找到模式崩溃和光谱分布之间的联系,我们在CIFAR-10 [16]和STL-10 [8]数据集上进行了一系列我们的实现基于[10]的SN-GANs架构,该架构使用铰链损失作为优化目标,并由下式给出:表1.实验设置。实验分为A、B、C、D、E五组。在每个组中,模型共享完全相同的网络架构,但批量大小不同。对于组A-D,我们改变每组内的批量大小进行研究批量大小与模式崩溃的关系,我们改变了变化,组之间的nel大小,以研究可重构电容如何影响模式崩溃。E组是应用于不同-LD=Exqdata[min(0,−1+D(x))]+ExqG[min(0,−1−D(x))](五)ent data set.目的是评估不同的数据如何影响模式崩溃。Batch表示批次大小。CH是通道优化设置遵循文献[10,11]。先前的作者已经表明,增加批量大小或降低可重构能力可能会导致模式崩溃[1]。因此,我们对表1中列出的批次和通道尺寸的各种组合进行了实验。 我们遵循惯例 在文献中使用初始得分(IS)[14]和Fre´chet初始距离(FID)[8]作为样本质量的近似测量通过在训练过程中监测初始得分、Fre´chet初始距离和合成图像,在10个设置中观察到模式崩溃,包括B64−64、B128−64、B256−64、B25C8−32、C 16−32、C 32−32、C 64−32、C 128−32、E256−64和E256−32. 在其他16个设置中,模式崩溃尚未发生。模式崩溃是GAN训练中的一个持续问题,也是SN-GAN中的一个主要问题,如BigGANs[1]和表2所示。在这里,我们监控SN-GAN的整个光谱分布,即,在训练过程中,在训练网络中的WSN(W)的所有奇异值。我们实现中的鉴别器网络使用与原始SN-GAN [10]中的架构相同,具有10个卷积层,有关设置细节,请参见附录。为了发现模式崩溃的可能原因,我们绘制了所有26个设置的鉴别器的每一层(跳过连接层除外)的光谱分布。在下文中,我们给出了一些典型的例子,读者可以参考附录中的所有其他图。图1示出了5种设置的第9层的光谱分布,其中模式崩溃不发生。图的大小。每个组名的下标anno-指定该实验的批次和通道设置,例如,Aa−b表示具有批次大小a和CH大小b的设置。图2示出了发生模式崩溃的所有10个设置的层9的光谱分布。通过分析图1和图2中的光谱分布图,我们注意到一个非常有趣的模式。 在不发生模式崩溃的情况下,谱失真曲线的形状不随训练迭代次数的变化而显著变化。另一方面,对于发生模式崩溃的那些设置,频谱分布曲线的形状随着训练的进行而显著改变。特别地,当训练经过一定次数的迭代时,大量奇异值变得非常小。这就好像曲线已经同时还观察到了谱塌缩现象在不同的环境中。图3绘制了表1中5组实验设置的光谱分布。可以看出,在A组和D组中,不同设置的光谱分布非常相似,没有观察到光谱非常有趣的是,也没有观 察 到 模 式 崩 溃 。 在 B 组 中 ,B64−64 、B128−64 和B256−64的光谱分布已经塌陷,毫不奇怪,模式塌陷也发生在这3种设置上。在组C中,所有设置的光谱分布已经塌陷,即,大多数奇异值非常小(除了第一个奇异值,其通过频谱归一化而被强制为1)。再次如预期的那样,模式崩溃发生在该组中的所有设置上。在E组中,可以看到两个设置E256−64和E256−32都遭受了频谱崩溃。同样,模式崩溃观察到这两个设置。设置批CH数据集设置批CH数据集A16−12816128CIFAR-10C8−32832CIFAR-10A32−12832128CIFAR-10C16−321632CIFAR-10A64−12864128CIFAR-10C32−323232CIFAR-10A128−128128128CIFAR-10C64−326432CIFAR-10A256−128256128CIFAR-10 C128−3212832CIFAR-10A512−128512128CIFAR-10D128−256128256CIFAR-10A1024−1281024128CIFAR-10 D256−256256256CIFAR-10B8−64864CIFAR-10 D512−256512256CIFAR-10B16−641664CIFAR-10E16−12816128STL-10B32−643264CIFAR-10E64−12864128STL-10B64−646464CIFAR-10E256−128256128STL-10B128−6412864CIFAR-10E256−6425664STL-10B256−6425664CIFAR-10E256−3225632STL-106385(a)A64−128(b)A256−128(c)B64−64(d)D128−256(e)E256−128图1.不同迭代次数下的良好GAN(无模式崩溃)层9中的光谱分布。曲线表示在10k次迭代、15k次迭代、…和50k次迭代。(a)B64−64(b)B128−64(c)B256−64(d)C8−32(e)C16−32(f)C32−32(g)C64−32(h)C128−32(i)E256−64(j)E256−32图2.在层9中的光谱分布模式崩溃发生的设置。曲线表示1k后的光谱分布迭代,10k次迭代,…,和50k次迭代。(a)A组(b)B组(c)C组(d)D组(e)E图3. 不同设置下第9层的光谱分布(50k次为了理解频谱崩溃发生时发生了什么,图4显示了典型的频谱分布如何与训练期间的初始得分和Fre´ chet初始距离相关可以看出,IS和FID两个迭代达到19k次都显示出良好的性能,并且相应的频谱分布具有大量的大奇异值。在20k次迭代时,IS和FID性能开始下降,相应地,频谱分布开始下降。在21 k次迭代时,IS和FID性能显著下降,模式崩溃开始,非常重要的是,光谱分布急剧下降-开始崩溃。模式崩塌与谱崩塌在所有层和所有设置上都观察到(读者可参考附录了解更多示例)。我们认为,模式坍缩和谱坍缩同时发生,谱坍缩可能是模式坍缩的原因。在下面的部分中,我们将介绍谱正则化以防止谱崩溃,从而避免模式崩溃。3. 谱正则化我们现在已经确定,频谱崩溃与SN-GAN中的模式崩溃密切相关。在本节中,我们将介绍谱正则化,这是一种防止谱崩溃的技术我们证明了防止光谱崩溃6386WKJΣ(a)光谱分布(b)初始分数(c)Fre' chet初始距离图4. 一个示例示出了与初始得分和Fréchet初始距离相关的频谱分布。这里的设置是B128 - 64,光谱分布对应于层9的光谱分布。可以解决模式坍缩问题,从而证明谱坍缩是模式坍缩的原因而不仅仅是一种症状。从等式(9),我们可以写出WSR(W)相对于Wab为:执行奇异值分解,SR(W)=1{E−W[u vT]矩阵W可以表示为:W=U·V·T(6)Wab∆Wσ(W)abΣiSN11ab(十)-[u1vT]ab+[u1vT−ukvT]ab·ukvT}其中U和V都是正交矩阵,U,[u1,u2,···,um],称为W的左奇异向量,σ(W)11k kK=2V的列[v1,v2,···,vn]称为右奇异W和Σ的向量可以表示为:其中[·]ab表示对应的第(a,b)个条目,矩阵,Eab是第(a,b)项为1和0的矩阵Σ Σ=D0(七)其他地方我们想谈谈平等的含义00分(10)。前两项Eab−WSN[u1vT]ab为1其中,D=diag{σ1,σ2,···,σr}表示光谱分布W.当模式崩塌发生时,谱分布集中在第一个奇异值上,其余奇异值急剧下降(谱崩塌)。为了避免频谱崩溃,我们首先应用ΔD来补偿D,其中ΔD为由diag{σ1−σ1,σ1−σ2,···,σ1−σi,0,···,0}给出,i是超参数(1≤i≤r)。谱正则化将D变为D′ 如下所示:D′=D+谱归一化的梯度为SN(W)[10],这AB从等式(9)中很容易看出。正如[10]中所解释的,第二项可以看作是在训练过程中能够防止W的列间距集中到一换句话说,光谱归一化防止每层的变换但是,正如我们所看到的(例如,图2),尽管进行了光谱归一化,W的光谱分布(W)D=diag[σ,···,σ,σ,···,σ]。相应地,SN1 1i +1rW变为W′:W′=W+W,其中W由下式给出:仍然可以集中在第一奇异值上,从而导致光谱崩溃 这表明光谱ΣW=U·Σi0·VT=(σ1−σk)ukvT(八)归一化以防止W的频谱崩溃。0 0K=2k除了谱归一化的前两项的作用,谱正则化介绍了第三和第四最后,我们应用谱归一化来保证Lipschitz连续,并得到我们的谱正则化WSR(W):等式(10)中的项。可以看出,第三项增强了第二项的效果,通过第二项,W不太可能集中到一个特定的方向。WSRW+W(W)=σ(W) =WSN (W)+ ∆W/σ(W)(9)此外,第四项可以被视为正则化项,鼓励W沿着所有i个方向移动显然,谱归一化是谱归一化正则化(当i= 1时)。由ukvT表示,对于k = 1,2,..., i,每一个由adapt ive regularizationcoeficient[u1vT−ukvT]ab. 这1K3.1. 谱正则化的梯度分析我们进行梯度分析表明,频谱正则化提供了一个更有效的方法,在防止W集中到一个特定的方向在训练过程中,从而避免频谱崩溃的频谱归一化。鼓励W充分利用指向的方向通过ujvT,从而防止W仅集中在一个方向上,这又使训练过程稳定。从上面的分析可以清楚地看出,与谱归一化相比,方程(10)的谱正则化鼓励W的W以各种方式移动,6387c实验设置是FIDMCSCc实验设置是FIDMCSCSNSrSNSrSNSrSNSrA16−1288.15±.098.35±.0922.31±.2824.67±.28××C8−324.21±.184.93±.2080.00±1.1266.05±2.12SNSNA32−1288.38±.078.45±.1025.96±.4222.00±.17××C16−324.05±.154.78±.2379.69±.2159.25±.43SNSNA64−1288.39±.158.65±.1221.15±.1520.31±.18××C32−324.29±.084.70±.1578.39±.1762.10±.24SNSNA128−1288.61±.128.72±.0821.01±.2319.98±.19××C64−324.30±.145.00±.1485.15±1.2056.11±.54SNSNA256−1288.45±.148.48±.0320.87±.2519.87±.21××C128−324.87±.145.30±.0771.10±.8954.39±.41SNSNA512−1288.34±.098.53±.0421.85±.1420.13±.12××D128−2568.14±.068.92±.1824.43±.4118.95±.23××A1024−1288.31±.218.52±.1621.68±.3520.34±.13××D256−2568.29±.128.83±.1422.54±.2919.56±.11××B8−646.67±.057.42±.0645.19±.8935.78±.11××D512−2568.33±.098.36±.1222.58±.1621.82±.29××B16−647.34±.067.59±.0831.73±.4929.42±.22××E16−1288.63±.158.69±.1644.24±.5643.19±.33××B32−647.18±.037.48±.0933.76±.3528.60±.25××E64−1288.98±.209.14±.1842.40±.5639.89±.89××B64−646.96±.117.52±.1136.65±.2928.40±.36SNSNE256−1289.10±.139.11±.1740.11±.8940.08±.29××B128−647.10±.147.13±.0535.99±.4831.41±.56SNSNE256−647.38±.147.67±.0674.50±1.5269.20±.83SNSNB256−646.85±.087.58±.0335.88±.4227.68±.23SNSNE256−324.04±.114.38±.0798.50±1.3489.17±1.23SNSN表2. 不同设置的IS和FID结果,其中IS是初始分数,FID是Fr e´ chet初始距离。F或IS,越高越好,而FID越低越好。SN、SR分别表示谱归一化和谱正则化。MC表示模式崩塌,SC表示光谱崩塌,×表示没有模式崩塌或光谱崩塌发生。MC列或SC列中的SN表示谱归一化时发生的模式塌陷或谱塌陷请注意,无论是模式崩溃,谱正则化在所有情况下都会发生谱坍塌。(a)A128−128(b)B256−64(c)C128−32(d)D128−256(e)E256−64图5. SN-GANs和SR-GANs算法对光谱分布的影响。该图显示了第9层中权重矩阵的光谱分布。在(b)、(c)和(e)中,SN-GAN发生了频谱崩溃和模式崩溃。在所有情况下,在SR-GAN中不存在谱塌陷和模式塌陷。从而防止它只集中在一个方向上,这反过来又防止了频谱崩溃。我们将在实验部分表明,执行频谱正则化确实可以防止频谱归一化失败的模式崩溃。4. 实验对于表1中列出的所有设置,我们使用SN-GAN和新引入的谱正则化算法(我们使用缩写:用于频谱正则化GAN的SR-GAN)。SN-GAN和SR-GAN的所有过程和设置都是相同的,除了对于SR-GAN,最后的鉴别器更新实现频谱正则化(等式9),而SN-GAN实现频谱归一化(等式4)。SR-GAN中超参数i的默认值根据经验设置为i= 0。其中N是相应权重矩阵中奇异值的数量。有关网络体系结构设置的详细信息,请参阅附录。初始得分(IS)和Fre' chet初始距离(FID)性能示于表2中。请注意,在发生模式崩溃的情况下,IS和FID是模式崩溃之前的最佳结果。可以清楚地看到,在所有情况下,SR-GAN都优于SN-GAN。特别是,对于D128−256的设置,SR-GAN将IS提高了9.5%,FID提高了22.4%。平均而言,SR-GAN将IS提高了8.9%,FID比SN-GAN提高了18.9%。非常重要的是,在SN-GAN发生模式崩溃的所有10个设置中,SR-GAN没有发生模式崩溃。事实上,我们还没有在大量的实验中观察到因此,我们证明了新的SR-GAN在质量和稳定性方面都优于SN-GAN。图5示出了SN-GAN和SR-GAN如何影响鉴别器的权重的频谱分布可以看出,SN-GAN对最大奇异值进行归一化。然而,在某些情况下,它不能阻止其他奇异值显著下降,从而导致光谱塌陷,这反过来又导致模式塌陷。相比之下,SR-GAN确保前i个奇异值在所有情况下都是1,从而确保频谱崩溃不会发生,从而防止模式崩溃。类似的效果6388(a)初始分数(b)Fre'chet初始距离(c)具有SR的合成图像 (d)具有SN的合成图像图6。初始分数、Fre´chet初始距离以及SN-GAN和SR-GAN的合成图像,设置为B256−64(a)初始分数(b)Fre´ chet初始距离(c)合成具有SR的图像 (d)具有SN的合成图像图7。初始分数、Fre´chet初始距离以及SN-GAN和SR-GAN在设置C128−32下的合成图像在所有层和所有设置中观察到这说明SR-GAN确实可以防止频谱崩溃,从而避免模式崩溃。大批量和小通道尺寸的组合很容易导致SN-GAN遭受模式崩溃。我们实验中的一个例子是B256−64图6(a)和图6(b)显示了培训期间该设置的IS和FID测量值的变化。可以看出,在大约20 k次迭代之后,SN-GAN的性能开始下降,并最终导致模式崩溃。相比之下,SR-GAN的性能随着训练的进行而稳步提高。重要的是,没有发生模式崩溃。图6(c)和图6(d)示出了由该设置的SN-GAN和SR-GAN生成的一些示例图像。从图6(d)中可以清楚地看出,SN-GAN确实发生了模式崩溃当通道尺寸小时,模式崩溃将发生在SN-GAN,而不管批次大小,如我们的C组实验所示。图7示出了针对设置C 128 - 32的SN-GAN和SR-GAN的训练历史。可以看出,对于SN-GAN,模式崩溃几乎发生在训练过程的开始,并且性能继续恶化直到最终导致模式崩溃。相比之下,SR-GAN的性能稳步提高,并最终收敛(无模式崩溃)。图中还示出了通过用于该设置的两种训练方法生成的图像的示例。再次清楚地看到,模式崩溃确实发生在SN-GAN上,而SR-GAN生成的图像具有更好的质量和更多种类。在第二节中,我们证明了模式崩塌与谱崩塌密切相关。通过引入谱正则化来调整权矩阵的奇异值,以防止它们降到很小的值,从而防止谱崩溃,我们成功地引入了一种新的方法来对抗模式崩溃。根据本节中给出的结果,我们已经表明,正则化权重矩阵的谱分布以确保它们的大量奇异值不会下降到小值确实可以防止谱崩溃,这反过来又成功地防止了模式崩溃。4.1. SR GANs中的超参数iSR-GAN具有单个超参数i,其值将影响性能。在上面的实验中,SR-GAN中的i被设置为i= 0。5N,其中N是奇异值的数量。显然,当i= 1时,SR-GAN与SN-GAN相同,因此SN-GAN是SR-GAN的特殊情况为了研究i的效果,我们逐渐增加i,并观察其对模型性能的影响在图8中,我们显示了不同i值的初始得分和Fre'chet初始距离。对于实验组A、D和E,i从0.25N增加到0.5N,性能得到改善。然而,将i从0.5N连续增加到N,性能恶化。对于B组的实验,随着i的增加,成绩稳步增加。为了理解为什么i以这种方式影响性能,我们向鉴别器函数馈送来自训练集和测试集两者的生成数据和真实数据,并且然后记录等式(2)中的D(x)的统计数据和等式(2)中的D(x)的统计数据。6389(a) 起始分数(b)Fre' chet起始距离图8. i对模型性能的影响。N表示相应权矩阵中奇异值的个数。(a)xq列车(b)xqG(c)LD图9.D(x)和LD的统计量。(a)i=0.25N(b)i=0.50N(c)i=N图10. 设置为A128−128时D(x)的统计量。(a)i=0.25N(b)i=0.50N(c)i=N图11. 设置B128−64时D(x)的统计量。鉴别器目标L_D在等式(5)中。为了解释方便,这里给出了一些典型的结果,更多的数据可以在附录中找到。生成的数据D(x)的D(x)的概率分布|x<$qG和训练数据D(x)的|设置A 128−128和不同i值时的xqtrain分别如图9(a)和图9(b)所示。这里是q火车表示训练集,并且qG表示生成集。LD的概率分布如图9(c)所示。当i从0.25 N增加到N时,D(x)的分布|xq的分布有向右移动的趋势,同时D(x)的分布也有向右移动的趋势。|x∈qG有向左移动的趋势。这意味着,区分-Nator可以更好地区分真实样本和如图9(c)中清楚可见,这也通过LD为了研究D-S在测试集上的性能,我们给出了D(x)的概率分布|xqtrain和D(x)|最新消息 对于图10中的设置A128−128,其中qtest表示测试集。 可以看出,对于i = 0。25N并且i= 0。5N时,这两个分布比i=N时更相似。在i =N的情况下,训练数据和测试数据之间的过拟合行为明显不同,这意味着已经发生过拟合并导致性能下降。总之,图9和图10解释了实验组A、D和E中设置i=N时的性能下降。此外,我们监控B组中设置的D(x)的统计数据,以解释为什么i会影响SR-GAN的行为,如图8所示设置B128−64时D(x)的概率分布如图11所示。我们可以看到,对于所有的i值,训练和测试数据的递归输出的概率分布彼此吻合,表明没有发生过拟合。虽然没有系统的方法来确定不同设置的最佳i值,但我们的经验是设置i= 0。5N似乎工作得很好。在我们进行的一系列广泛的实验中,设定i= 0。5N,SR-GAN总是优于SN-GAN,非常重要的是,我们还没有观察到模式崩溃。5. 结论在本文中,我们监控SN-GAN中判别器权重矩阵的谱分布我们发现,当SN-GAN发生模式崩塌时,其权矩阵的奇异值会大量下降到很小的值,并引入谱崩塌的概念来描述这种现象。我们提供了强有力的证据,链接模式崩溃与光谱崩溃。基于这种联系,我们已经成功地开发了一种用于训练GAN的谱正则化技术我们表明,通过补偿的权重矩阵的频谱分布,我们可以成功地防止频谱崩溃,这反过来又可以成功地防止模式崩溃。在一系列广泛的实验中,我们已经充分证明了防止频谱崩溃不仅可以避免模式崩溃,而且可以提高GANs的性能。6390引用[1] 布洛克·安德鲁,杰夫·多纳休,凯伦·西蒙尼安。用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv,2018年。[2] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv,第1701.07875页,2017。[3] David Berthelot Thomas Schumm 和 Luke Metz 。 Be-gan:边界平衡生成对抗网络。arXiv预印本arXiv,第1703.10717页,2017。[4] Andrew Brock,Theodore Lim,and James M.里奇使用内省对抗网络进行神经照片编辑。arXiv预印本,第1609.07093页,2016年。[5] Ian Goodfellow,Jean Pouget-Abadie,and Mehdi Mirza.生成性对抗网。神经信息处理系统,第2672-2680页[6] Ishaan Gulrajani,Faruk Ahmed,and Martin Arjovsky.改进的瓦瑟斯坦干人训练。神经信息处理系统进展,第5769-5779页[7] 尤哈·海诺宁李普希茨分析讲座。于韦斯屈莱大学,2005年。[8] MartinHeusel , HubertRamsauer , andThomasUnterthiner.两个时间尺度更新规则训练的甘斯收敛到纳什均衡。arXiv预印本arXiv,第1706.08500页,2017。[9] 毛旭东,李庆,谢浩然。最小二乘生成对抗网络。2017年IEEE计算机视觉国际会议(ICCV),第2813-2821页,2017年。[10] 宫户健,片冈俊树,小山正则。生成对抗网络的谱归一化。arXiv预印本arXiv,第1802.05957页,2018。[11] 宫人武和小山正则。具有投影鉴别器的CGNSarXiv预印本arXiv,第1808.05637页,2018。[12] 戚国君。损失敏感的生成对抗网络在Lipschitz密度上工作。arXiv预印本arXiv,第1701.06264页,2017。[13] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习。arXiv预印本,第1511.06434页,2015年。[14] Tim Salimans,Ian Goodfellow,Wojciech Zaremba. 改进训练gans的技术。神经信息处理系统进展,第2234-2242页[15] 蒂姆·萨利曼斯和杜克·金马权重归一化:一个简单的重新参数化,以加快训练的深神经网络。神经信息处理系统进展,第901-909页[16] Antonio Torralba,Rob Fergus,and William T.弗里曼。8000万张小图片:非参数对象和场景识别的大数据集。IEEE Transactions on Pattern Analysis and MachineIntelligence,30(11):901[17] Jiqing Wu,Zhiwu Huang,and Janine Thoma.能量-放松的wassertein gans(energywgan):朝向更稳定和高分辨率的图像生成。arXiv预印本arXiv,第1712.01026页,2017。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功