减轻生成对抗网络中梯度爆炸的新方法

156 浏览量更新于2023-10-24 收藏 29.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

GAN objective and analyzed the generalization capacity ofneural network distance. The author argued that for a lowcapacity discriminator, it can not provide generator enoughinformation to ﬁt the target distribution owing to lack of a-bility to detect mode collapse. [31] argued that poor gen-eration capacity in GANs comes from the discriminatorstrained on ﬁnite training samples resulting in overﬁtting toreal data samples and gradient exploding when generateddatapoints approach real ones. As a result, [31] proposed azero-centered gradient penalty on linear interpolations be-tween real and fake samples to improve generalization ca-pability and prevent mode collapse resulted from gradientexploding. Recent work [32] further studied generalizationfrom a new perspective of privacy protection.In this paper, we focus on mode collapse resulted fromgradient exploding studied in [31] and achieve a better gen-eralization with a much more stable training process. Ourcontributions are as follows:11910减轻GAN中的梯度爆炸：假的可以是真的0宋涛，王佳 �0上海交通大学电子工程系0{ taosong, jiawang } @sjtu.edu.cn0摘要0为了减轻生成对抗网络（GANs）中臭名昭著的模式崩溃现象，我们提出了一种新的GANs训练方法，在训练过程中将某些假样本视为真实样本。这种策略可以减少生成器在梯度爆炸发生区域接收到的梯度值。我们展示了在实际训练中由梯度爆炸导致的不平衡生成过程和恶性循环问题的过程，这解释了GANs的不稳定性。我们还从理论上证明了通过惩罚鉴别器输出和假设为真实的样本之间的差异可以减轻梯度爆炸。因此，我们提出了一种更稳定的训练过程和更忠实的生成分布的Fake-As-RealGAN（FARGAN）。在不同数据集上的实验证实了我们的理论分析。01.引言0在过去的几年中，生成对抗网络（GANs）[10]一直是生成模型中最热门的话题之一，并在生成多样化和高质量图像方面取得了巨大成功[5, 16,8]。GANs可以被看作是鉴别器和生成器之间的零和博弈。当实现最终的理论均衡时，鉴别器无法区分真实和生成的假样本。然而，我们发现在实际训练过程中，只有数据集中的离散有限样本，理论上的均衡实际上很少能够实现。尽管GANs取得了显著的进展，但由于GAN训练中固有的问题，如不稳定性和模式崩溃，许多研究人员试图从各个方面改进GANs的性能[2, 23, 11,21]。[3]表明原始GAN目标无法提供理论上的泛化保证，并分析了神经网络距离的泛化能力。作者认为对于低容量的鉴别器，由于无法检测到模式崩溃，它无法为生成器提供足够的信息来拟合目标分布。[31]认为GANs中的生成能力不足来自于鉴别器在有限训练样本上训练，导致对真实数据样本的过拟合以及生成数据点接近真实数据时的梯度爆炸。因此，[31]提出了在线性插值的真实和假样本之间进行零中心梯度惩罚，以提高泛化能力并防止由梯度爆炸导致的模式崩溃。最近的工作[32]从隐私保护的新视角进一步研究了泛化问题。本文重点研究了由[31]中梯度爆炸导致的模式崩溃，并通过更稳定的训练过程实现了更好的泛化。我们的贡献如下：0�通讯作者01.我们解释了GAN训练中不平衡分布的生成过程，由于梯度爆炸导致的恶性循环问题，随着训练的进行，这个问题变得越来越严重。02.我们证明了通过对鉴别器在非常接近的真实和假样本之间进行差异惩罚和在梯度爆炸发生的地方进行假设为真的考虑，可以有效减轻梯度爆炸问题。03.我们提出了一种新颖的GAN训练方法，根据训练小批量中鉴别器的输出，将某些假样本视为真实样本（FARGAN），以有效防止不平衡的生成。在合成和真实世界数据集上的实验证实了我们的方法可以稳定训练过程并实现更忠实的生成分布。0在接下来的内容中，我们将生成样本（数据点）和伪造样本（数据点）的术语混用。表1列出了本文其余部分使用的一些关键符号。|(∇µD)x0|=limy0µ→x0≥limy0µ→x011920表1. 符号说明0符号含义0pr目标分布pg模型分布D最后一层带有sigmoid函数的判别器D0最后一层去掉sigmoid函数的判别器Dr={x1,∙∙∙,xn}n个真实样本的集合Dg={y1,∙∙∙,ym}m个生成样本的集合DFAR={�y1,∙∙∙,�yN0}N0个被视为真实的生成样本的集合02. 相关工作0不稳定性。GAN被认为在训练过程中很难训练并且经常扮演不稳定的角色[30]。已经提出了各种方法来改善训练的稳定性。许多工作通过设计良好的结构[27, 15, 35,6]和利用更好的目标[23, 36, 2,19]来稳定训练。梯度惩罚以强制Lipschitz连续性也是提高稳定性的一个流行方向，包括[11, 25, 28,26]。从理论角度来看，[22]表明基于梯度下降的GAN优化在局部是稳定的，[20]在适当的假设下证明了简化的零中心梯度惩罚的局部收敛性。为了更好地收敛，还研究了两个时间尺度的更新规则（TTUR）[13]和指数移动平均（EMA）[34]。模式崩溃。模式崩溃是GAN训练中另一个持久的问题，这意味着生成样本中缺乏多样性。生成器有时可以通过从数据分布中产生一小部分高概率样本来欺骗判别器。最近的研究[3,4]研究了GAN的泛化能力，并表明GAN学习的模型分布确实缺少大量模式。已经提出了大量的想法来防止模式崩溃。在[3, 9,14]中应用了多个生成器以实现更真实的分布。在[17,18]中，混合样本被认为是判别器的输入，以传达多样性的信息。最近的工作[12]从概率处理的角度研究了模式崩溃，[33, 7]从分布的熵角度研究了模式崩溃。03. 背景0在原始GAN [10]中，判别器D最大化以下目标:0L = Ex�pr[log(D(x))] + Ey�pg[log(1 − D(y))]，(1)0为了防止梯度崩溃，生成器G在非饱和GAN（NSGAN）[10]中最大化0LG = Ey�pg[log(D(y))]，(2)0其中D通常由神经网络表示。[10]表明，Eqn.1中的最优判别器D是D�(v)=pr(v)0pr(v)+pg(v)对于任何v∈supp(pr)∪supp(pg)。随着训练的进行，pg将被推向pr。如果G和D具有足够的容量，当pr=pg时，将达到全局平衡，在这种情况下，D在supp(pr)∪supp(pg)上的最佳策略就是输出102和Eqn.1的最优值为2 log( 102)。在实践中，由于训练数据集Dr中有限的训练样本，我们经验性地使用1/n∑ni=1log(D(xi))来估计Ex�pr[log(D(x))]，并使用1/m∑mi=1[1 − log(D(yi))]来估计Ey�pg[log(1 −D(y))]，其中xi，yi分别来自Dr和生成数据集Dg。根据[31]，生成器中的模式崩溃归因于判别器中的梯度爆炸。当一个伪造数据点y0被推到一个真实数据点x0时，如果满足|D(x0)− D(y0)| ≥ �，则D在方向µ = x0 −y0上的方向导数的绝对值将趋近于无穷大：0|D(x0) - D(y0)|0||x0 - y0||0||x0 - y0|| = ∞, (3)0在这种情况下，判别器在y0处的梯度范数||�y0D(y0)||等价于|(�µD)x0|，梯度爆炸。由于�y0D(y0)在训练小批量中超过了对其他模式的梯度，数据点y0处的梯度爆炸会将多个假数据点移动到x0，导致模式坍塌。04. 不平衡的生成0当全局平衡达到时，理论上判别器输出为2。然而在实践中，判别器通常可以轻松区分真实样本和生成样本[10,2]。因为判别器对于目标分布pr是未知的，所以判别器总是将Dr中的训练样本视为真实样本，将Dg中的生成样本视为假样本。即使生成的分布pg等价于目标分布pr，当它们分别从两个连续分布中采样时，Dr和Dg是不相交的（参见[31]中的命题1）。在这种情况下，实际上Dg会被推向Dr中的样本。我们将具体解释一个偏离pr的不平衡分布的生成过程。2010010202015105051015202010010202015105051015202010010202015105051015202010010202015105051015202010010202015105051015202010010202015105051015202010010202015105051015202010010202015105051015200) limy0µ→x0||x0 − y0||.(4)||∇y0LG(y0)||=σ(−D0(y0)) limy0µ→x011930(a)0(b)0(c)0(d)0(e)0(f)0(g)0(h)0图1.使用不同的梯度惩罚和我们的方法训练的GAN在高斯分布的有限样本上的结果。蓝色数据点代表真实样本，红色数据点代表生成样本。(a)(e)NSGAN无梯度惩罚，迭代100k和200k。(b)(f) NSGAN-0GP-sample，迭代100k和200k。(c)(g)NSGAN-0GP-interpolation，迭代100k和200k。(d)(h) NSGAN-0GP-sample与我们的方法，迭代100k和200k。0在Dg逼近Dr的过程中，会出现多个过拟合源。下面的命题表明，最优的经验判别器在所有接近对中对应的真实和生成样本之间不会给出相等的输出。0定义1 对于x0 ∈ Dr，y0 ∈ Dg，如果y0 ∈ Nδ(x0) = {y0:d(x0, y0) ≤ δ, 0 < δ � d(xi, xj), �xi, xj ∈ Dr}，那么{x0,y0}是一个δ接近对。此外，x0在接近对{x0,y0}中被称为过拟合源。0详细的证明见附录A。实际使用的判别器通常包含数亿个参数，比我们上面构造的判别器要强大得多。尽管[31]构造了一个判别器来区分Dr和Dg之间的所有样本，但他们使用了与实践中相当的参数数量，而我们只需要区分一个接近对{x0, y0}。0命题1如果存在过拟合源，那么可以很容易地构造一个满足D(x0) -D(y0) ≥ �的经验判别器，该判别器只需O(2dim(x))个参数。0||�y0LG(y0)|| = 10根据公式2，对于一个接近对{x0,y0}，生成器从判别器在y0处接收到的梯度范数可以计算为0||x0 - y0||. (4)0|D(x0) - D(y0)|0当满足 D(x0) - D(y0) ≥ � 且 {x0, y0}是一个接近的对时，生成器在y0处的梯度会爆炸并且超过了对其他模式的梯度。假样本将会朝着µ = x0 -y0的方向移动，特别是在一个小批量中的其他假样本将不会朝着相应的模式移动，导致生成的结果不平衡可见。在图1a、1e中查看原始GAN在高斯数据集上生成的结果。生成的分布既不覆盖目标高斯分布，也不能适应Dr中的所有真实样本。05. 梯度缓解0在本节中，我们寻找减轻梯度爆炸问题以实现更准确的生成分布的方法。为了简化分析，我们从D的最后一层中提取出Sigmoid函数σ，即D(∙)=σ(D0(∙))。对于接近对{x0,y0}，生成器在y0处的梯度范数可以重写为0|D0(0||x0−y0||. (5)+ 1+LFAR = LDP + λlog σ(D0(yi))= C2 + 1nh(ξ0, ξ1, · · · , ξm0),(8)h = f + nλlog σ(ξi).(9)11940考虑这样一种情况，即在n个真实样本中，x0是{y1,y2,...,ym0}中m个生成样本的过拟合源，即{x0,yi}，i=1,...,m0是接近对。我们特别关注x0和{y1,y2,...,ym0}处最优判别器的输出。为简单起见，我们假设这些感兴趣点上的判别器输出不受Dr和Dg中其他样本的影响。我们还假设判别器具有足够的容量在这个局部区域达到最优。05.1. 差异惩罚0我们首先考虑对接近对的输出差异进行L2范数惩罚，得到以下经验判别器目标：0L DP = 10n0log σ(D0(x0)) +0n−0i =1 log σ(D0(xi))0个0m0m00i =1 log(1 − σ(D0(yi)))0i = m0 +1 log(1 −σ(D0(yi)))0个0− k0m00i =1 (D0(x0)−D0(yi))20= C1 + 0n f(D0(x0),D0(y1),...,D0(ym0)), (6)0其中k是L2范数的权重，C1是一个无关紧要的项。将D0(x0)表示为ξ0，D0(yi)表示为ξi，i=1,...,m0，Eqn.6中的感兴趣项f(ξ0,ξ1,...,ξm0)为0f =log σ(ξ0)+ n0m0i =1 log(1 − σ(ξi)) −nk0m00i =1 (ξ0−ξi)2.(7)0命题2假设{ξ�0,...,ξ�m0}达到f(ξ0,ξ1,...,ξm0)的最大值。那么随着k的增加，σ(−ξ�i)(ξ�0−ξ�i)减小，随着m0的增加，σ(−ξ�i)(ξ�0−ξ增大，对于所有i=1,...,m0。0查看附录B以获取详细证明。因此，在差异惩罚权重k增加的情况下，生成器在这个局部区域的梯度范数会减小，而在接近对数m0增加的情况下会增大。梯度惩罚。实际上，在实践中，很难找到接近的对数来进行相应的差异惩罚。如果我们直接惩罚D0(xi)−D0(yi)的L2范数，当{xi,yi}不是接近的对数时，yi处的梯度范数可能会变得更大。考虑到D0(yi)>D0(xi)，当xi处的接近对数数量大于yi处的接近对数数量时可能会发生这种情况，直接惩罚会使D0(yi)变大。0从Eqn.5可以看出，梯度爆炸会使得y0处的梯度范数更大。因此，在实践中，我们可以强制实施一个以0为中心的梯度惩罚，形式为||(�D0)v||2，以稳定接近对的判别器输出，其中v可以是真实样本或生成样本。虽然离完美还有差距，但与未添加梯度惩罚的Fig.1a、1e相比，Fig.1b、1f生成的结果更加准确。为了防止梯度爆炸，[31]提出了另一种以0为中心的梯度惩罚形式||(�D0)v||2，其中v是真实样本和生成样本之间的线性插值。然而，我们认为这不是一种非常高效的方法来填补这个差距。首先，插值的结果可能不在supp(pr)∪supp(pg)中。此外，对于任意一对真实和生成样本，线性插值位于接近对存在的位置的概率接近于0，特别是对于高维情况。恶性循环。在过拟合源x0附近梯度爆炸导致多个生成样本向x0移动。然后，更多的接近对导致更严重的梯度爆炸问题，形成恶性循环。这在一定程度上解释了GAN训练过程的不稳定性，特别是在训练后期，会出现相似的生成样本。与iter.100k的Fig.1a、1b、1c相比，iter.200k的Fig.1e、1f、1g生成了更不平衡的结果，随着训练的进行，生成的样本越来越相似。05.2. 假样本视为真样本的考虑0基于上述讨论，我们在m0个假样本{ y 1 , y 2 , ∙ ∙ ∙ , y m 0}上添加了假样本视为真样本的考虑，从而得到以下经验鉴别器目标：0m00其中λ是将假样本视为真样本的权重，C 2是一个无关紧要的项。方程8中的h( ξ 0 , ξ 1 , ∙ ∙ ∙ , ξ m 0)的含义如下：0m00命题3 假设{ ξ � 0 , ∙ ∙ ∙ , ξ � m 0 }达到h( ξ 0 , ξ 1 , ∙ ∙ ∙ , ξm 0 )的最大值。那么随着λ的增加，σ( − ξ � i )( ξ � 0 − ξ � i)减小，当λ → ∞时，σ( − ξ � i )( ξ � 0 − ξ � i ) → 0，对于所有i = 1 , ∙ ∙ ∙ , m 0 。0详细证明见附录C。在这个局部区域中，通过将假样本视为真样本也可以缓解梯度爆炸问题。理论上，当假样本作为真样本的权重趋近于无穷大时，生成器的梯度范数变为0，完全解决了相关问题。LFAR= 1N [log(σ(D0(xi))) +log(σ(D0(yi))]+ 1Mlog(1−σ(D0(yi))+ kNN(11)11950在实践中，只需减轻这里的梯度，使其与小批量中的其他梯度可比较，因此不需要过度加权假样本视为真样本的项。解决恶性循环问题。回顾由梯度爆炸引起的恶性循环。当在过拟合源中出现更多的近邻对时，根据方程9，假样本视为真样本的项也会变大，从而缓解了进一步的梯度爆炸问题。应用假样本视为真样本的考虑后的结果如图1d、1h所示，即使进行了长时间的训练，也能生成一个忠实的分布。05.3. 实现0在本节中，我们给出了基于梯度惩罚的假样本视为真样本生成对抗网络（FARGAN）在实际训练中的具体实现。在鉴别器训练过程中，对于原始的N个真样本和M个假样本的小批量，我们固定真样本的总数N，包括原始的N1个真样本和N0个假样本视为真样本，其中N = N0 +N1。需要注意的是，我们希望将假样本视为真样本的区域应该是存在多个近邻对的区域，因为假样本不应再向这些区域移动，并且梯度爆炸问题在这里相对严重。对于鉴别器倾向于在更多近邻对存在的区域输出较低的情况，我们从一个包含f �N0个假样本的较大生成集合中根据相应的鉴别器输出选择出需要的N0个假样本� y i，并将其视为真样本，表示为集合D FAR：0D FAR = { y 1 , ∙ ∙ ∙ , y N 0 } = { y i , i ∈ index oftop N 0 in {− D 0 ( y M +1 ) , − D 0 ( y M +2 ) , ∙ ∙ ∙ ,− D 0 ( y M + f � N 0 ) }} . (10)0当存在更多近邻对时，假样本在这个区域被选择的概率较高，因为鉴别器输出较低，这种情况下实际实现仍然为恶性循环问题提供了缓解。根据第5.1节的讨论，我们还在真样本上添加了一个以零为中心的梯度惩罚[20]，从而得到了我们FARGAN中的以下经验鉴别器目标：0N10N00M0i =1 ||(�D0)ci||2，0其中xi ∈ Dr，yi ∈ Dg，�yi ∈ DFAR，{c1, ∙ ∙ ∙ , cN} = {x1,∙ ∙ ∙ , xN1, �y1, ∙ ∙ ∙ , �yN0}。为了防止梯度消失01参见命题2的证明，随着m0的增加，ξ�i减小。0算法1 FARGAN的小批量随机梯度下降训练0对于训练迭代次数，当更新判别器时，执行以下操作： •从训练数据集Dr中随机采样N1个真实样本{x1, ∙ ∙ ∙ ,xN1}。 • 从生成数据集Dg中随机采样M + f �N0个伪造样本{y1, ∙ ∙ ∙ , yM + f � N0}。 •根据判别器输出较低的�yi确定�yi：{yi, i ∈ index of topN0 in {−D0(yM+1), ∙ ∙ ∙ , −D0(yM+f � N0)}}。 •通过上升其随机梯度来更新判别器：�θdLFAR。结束判别器更新。 •从生成数据集Dg中随机采样M个伪造样本{y1, ∙ ∙ ∙ ,yM}。 •通过上升其随机梯度来更新生成器：�θg1M�Mi=1log(σ(D0(yi)))。结束生成器更新。0对于生成器G，特别是在学习的早期，我们使用原始GAN中的非饱和形式进行更新。训练过程在算法1中正式呈现。06. 实验0在本节中，我们展示了我们在合成数据和真实世界数据集（包括CIFAR-10 [1]、CIFAR-100[1]和更具挑战性的ImageNet[29]）上的实验结果。当我们讨论伪装为真实方法时，我们在实验中还添加了一个在真实样本上的零中心梯度惩罚作为默认设置。我们使用Pytorch [24]进行开发。06.1. 合成数据0为了测试FARGAN在防止不平衡生成方面的有效性，我们设计了一个数据集，其中有限的训练样本来自高斯分布。基于一个简单的多层感知机网络，我们使用我们的方法训练了非饱和GAN（NSGAN），并使用了不同的梯度惩罚，包括在真实样本上的零中心梯度惩罚（NSGAN-0GP-sample）和在真实样本和伪造样本之间的插值上的零中心梯度惩罚（NSGAN-0GP-interpolation）。我们将梯度惩罚的权重k设置为10，小批量的大小N = M = 64，f =8，FARGAN的N0 =16。生成器和判别器的学习率都设置为0.003。结果如图1所示。可以观察到，NSGAN、NSGAN-0GP-sample和NSGAN-0GP-interpolation在训练过程中都生成了不平衡的分布，而我们的方法可以生成更好的结果并具有良好的泛化性能。我们还在一个包含8个高斯分布的数据集上测试了FARGAN，其中不同模式的随机样本相距较远。105051010.07.55.02.50.02.55.07.510.0105051010.07.55.02.50.02.55.07.510.0105051010.07.55.02.50.02.55.07.510.0105051010.07.55.02.50.02.55.07.510.0is used.Quantitative measures. Inception score [30] and FID[13] are used as quantitative measures. For Inception score,we follow the guideline from [30]. The FID score is eval-uated on 10k generated images. Better generation can beachieved with higher inception score and lower FID value.Results with different architectures. We test FARGANwith both a ResNet architecture the same as that in [20] anda conventional architecture similar to a progressively grow-ing GAN [15] while with no batch normalization. The re-sults are shown in Fig. 3 and 4 respectively. FARGAN out-performs NSGAN-0GP with both architectures on CIFAR-10 and CIFAR-100 by a large margin. Note although the(a)(b)Figure 3. Results with ResNet architecture on CIFAR dataset.(a)(b)Figure 4. Results with conventional architecture on CIFAR dataset.speed of FARGAN to cover real ones could be slightly s-lowed down at the beginning of training with some fakesamples considered as real ones, it can consistently improvethe results of generation and achieve a more balanced dis-11960彼此之间。FARGAN的演化如图2所示。尽管FARGAN在开始时只覆盖了3个模式，但它可以逐渐覆盖其他模式，因为它具有梯度爆炸缓解的强大能力。因此，FARGAN具有在高维空间中样本相距较远时找到未覆盖模式的能力，以实现忠实的分布。更多的合成实验可以在附录E中找到。0图2.我们方法在一个包含8个高斯分布的数据集上的演化。（a）迭代次数0。（b）迭代次数100k。（c）迭代次数335k。（d）迭代次数500k。06.2. CIFAR-10和CIFAR-1000在本节中，我们将伪装为真实方法与仅具有零中心梯度惩罚（0GP）的方法在添加了真实样本的情况下进行比较。所有实验都重复3次，使用随机初始化来展示Tab.2中的一致结果。参数设置。我们将梯度惩罚的权重k设置为10，小批量的大小N = M = 64，f =8，伪装为真实方法的N0 =32作为默认值。RM-SProp优化器的α设置为0.99，学习率为10^-4。Table 2. Inception score and FID on CIAFR-10, CIFAR-100 at iter. 500k and ImageNet at iter. 600k. Experiments were repeated 3 times.ISFID0GPFAR0GPFARCIFAR-10 (500k)ResNet NSGAN6.26 ± 0.096.81 ± 0.0324.22 ± 0.7217.82 ± 0.33ResNet WGAN6.15 ± 0.066.83 ± 0.0424.72 ± 0.4118.12 ± 0.23ResNet HingeGAN6.19 ± 0.086.88 ± 0.0724.55 ± 0.3116.99 ± 0.18ResNet LSGAN5.90 ± 0.056.63 ± 0.0226.41 ± 0.1219.97 ± 0.38Conventional NSGAN6.94 ± 0.037.63 ± 0.0516.66 ± 0.1412.80 ± 0.31CIFAR-100 (500k)ResNet NSGAN6.27 ± 0.047.03 ± 0.0628.46 ± 0.2821.95 ± 0.35Conventional NSGAN6.92 ± 0.087.84 ± 0.0422.28 ± 0.4517.69 ± 0.24ImageNet (600k)ResNet NSGAN10.66 ± 0.1111.44 ± 0.0544.57 ± 0.3439.69 ± 0.57(a)(b)Figure 5. Losses of discriminator (not including regularization ter-m) and generator on CIFAR-10.tribution ﬁnally.The losses of discriminator and generator during thetraining process with ResNet architecture on CIFAR-10 areshown in Fig.5. FARGAN has a much more stable train-ing process with smaller ﬂuctuations and no obvious de-viation seen for the losses. Note when serious mode col-lapse happens, discriminator has a lower loss while gener-ator has a higher loss compared with the theoretical value(2 log 2 ≈ 1.386 for discriminator and log 2 ≈ 0.693 forgenerator)2. The gradual deviation of losses for discrimi-2Discriminator outputs a high value for uncovered modes while a lowvalue for over-covered modes.(a)(b)Figure 6. Results of different GAN variants on CIFAR-10.nator and generator in NSGAN-0GP shows a serious modecollapse. Hence, FARGAN can stabilize training processand effectively prevent mode collapse. The losses of dis-criminator and generator on CIFAR-100 and generated im-age samples can be found in Appendix E.Results of different GAN-variants. Besides NSGAN,we also test fake-as-real method for WGAN [2], HingeGAN[36] and LSGAN [19] to show the effectiveness on a morefaithful generation for different GAN-variants. The resultsare shown in Fig. 6. Fake-as-real method can also improvethe performance of different GAN-variants by alleviatingthe gradient exploding issue which consistently happens forﬁnite training samples.1197(a)(b)In this paper, we explain the reason that an unbalanceddistribution is often generated in GANs. We show that theexistence of vicious circle resulted from gradient explod-ing, makes unbalanced generation more and more seriousas training progresses.We analyze methods of gradientexploding alleviation including difference penalization be-tween discriminator outputs on close real and fake pairsand trick of considering fake as real. Based on the theo-retical analysis, we propose FARGAN by considering fakeas real according to the discriminator outputs in a trainingminibatch. Experiments on diverse datasets verify that ourmethod can stabilize the training process and improve theperformance by a large margin.11980图7. FARGAN在不同 f 和 N 0 下的结果0FARGAN中不同 f 和 N 0的结果。我们在CIFAR-10上对参数 f 和 N 0的选择进行了消融研究。使用ResNet架构，首先固定 N 0= 32，改变 f 的值。然后固定 f = 8，改变 N 0的值。结果如图7所示。请注意，随着 f 和 N 0的增加，训练速度可能会稍微减慢，但生成效果会更好。当f 足够大时，例如 f = 8，明显的改进被实现。当 N 0适当增加时，也可以看到改进，但当 N 0 太大时，例如 N 0=48，会发生崩溃，因为鉴别器的能力太弱。因此，在实践中，我们将 f = 8 和 N 0 = 32 设置为默认值。请注意，当 f =1 时，我们随机选择假样本作为真样本；当 N 0 = 0时，不考虑假样本作为真样本。我们观察到，与 N 0 = 0相比，对于 f = 1 的FARGAN，明显的改进并没有实现。然而，对于 f = 8 的FARGAN，性能得到了很大的提升。因此，关键是根据我们的理论分析和实验证明，在梯度爆炸区域中考虑假样本而不是随机选择假样本作为真样本。06.3. ImageNet0对于包含1000个类别的挑战性ImageNet任务，我们使用ResNet架构训练GANs来学习生成模型。我们使用分辨率为64×64的图像，并且我们的模型不使用任何标签。我们使用Adam优化器，α = 0，β =0.9。其他设置与CIFAR实验中相同。图8中的结果显示，FARGAN在ImageNet上仍然优于NSGAN-0GP，并且在不使用任何标签或特定架构（如渐进增长技巧）的情况下生成具有最先进质量的样本。在附录E中可以找到随机选择的样本和鉴别器和生成器在训练过程中的损失。0(a)0(b)0图8. ImageNet上的结果0本文解释了GANs中经常生成不平衡分布的原因。我们展示了由梯度爆炸引起的恶性循环的存在，使得随着训练的进行，不平衡生成越来越严重。我们分析了梯度爆炸缓解的方法，包括鉴别器在接近真实和假样本对上的输出之间的差异惩罚和将假样本视为真样本的技巧。基于理论分析，我们提出了FARGAN，通过根据训练小批量中的鉴别器输出将假样本视为真样本。对各种数据集的实验证实了我们的方法可以稳定训练过程并大幅提高性能。07. 结论0致谢0本工作得到了中国国家自然科学基金（61771305、61771303）和上海市科技委员会（STCSM，GrantNo.18DZ1200102）的支持。[1] Torralba Antonio, Fergus Rob, and William T Freeman. 80million tiny images: a large data set for nonparametric objectand scene recognition. IEEE Transactions on Pattern Analy-sis and Machine Intelligence, 30(11):1958–1970, 2008.[2] Martin Arjovsky, Soumith Chintala, and L´eon Bottou.Wasserstein generative adversarial networks. In Proceedingsof the 34th International Conference on Machine

下载后可阅读完整内容，剩余1页未读，立即下载