虚拟GAN：历史模型训练GAN

38 浏览量更新于2023-10-13 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

虚拟GAN：使用历史模型训练GANHao Ge，Yin Xia，Xu Chen，Randall Berry，YingWu西北大学，埃文斯顿，IL，美国{haoge2013，yinxia2012，chenx} @ u.northwestern.edu{rberry，yingwu} @ northwestern.edu抽象。生成对抗网络（GANs）是学习生成模型的强大工具。在实践中，培训可能会缺乏收敛性。GAN通常被视为两个神经网络之间的两人在这里，我们利用这个博弈论的观点来研究训练过程的收敛行为受虚拟游戏学习过程的启发，引入了一种新的训练虚拟GAN使用历史模型的混合来训练深度神经网络具体而言，该公司（resp.生成器）根据对来自先前训练的生成器序列（分别鉴别器）。结果表明，虚拟GAN可以有效地解决一些收敛问题，不能解决的标准训练方法。证明了生成器输出的平均值与数据样本的分布渐近一致1介绍1.1生成对抗网络生成对抗网络（GANs）是学习生成模型的强大框架他们已经在广泛的领域中成功应用，包括图像合成[1，2]，图像超分辨率[3，4]和异常检测[5]。GAN维护两个深度神经网络：鉴别器和生成器。生成器旨在产生类似于数据分布的样本，而鉴别器旨在区分所生成的样本和数据样本。在数学上，标准GAN训练旨在解决以下优化问题：minmax V（G，D）= Expd（x）{log D（x）}+ Ezpz（z）{log（1 − D（G（z）}。（一）G D当生成的分布pg（G（z）的分布，给定z ∈pz（z最佳点是基于假设，前三位作者的贡献相等。2Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWuG发电机联合优化。然而，GANs的实际训练可能无法满足这一假设。在一些训练过程中，不是理想的联合优化，而是鉴别器和生成器轮流寻找最佳响应，即鉴别器（分别为生成器）交替地与生成器（分别鉴别器）固定。另一种传统的训练方法是基于GAN优化的梯度下降特别是，它们在每个训练迭代中同时在生成器和鉴别器参数中采取小梯度步骤[6]。已经有一些关于基于梯度的训练的收敛行为的研究文献[7，8]研究了局部收敛性。假设判别器和生成器在网络参数上是凸的，基于梯度的优化被证明是收敛的[9]。在[10]中建立了基于梯度的训练和用于求解凸优化的原始-对偶次梯度方法之间的尽管有很好的实际应用前景，但许多工作仍然见证了GAN训练中缺乏收敛行为。两种常见的失效模式是振荡和模式崩溃，其中发生器仅产生一小部分样本[6，11，12]。[13]中的一个重要观察结果是，这种非收敛行为源于以下事实：每个生成器更新步骤是向δ函数的部分崩溃，这是对目标函数的最佳响应。这促使本文的最佳反应训练的动态和一种新的训练方法，以解决这些收敛问题的建议的研究。1.2贡献在本文中，我们将GANs视为一个两人零和游戏，训练过程是一个重复的游戏。对于Eq. (1)，相应的生成分布和n（p∈，D∈）是博弈中唯一的受博弈论中成熟的虚拟博弈机制的启发，我们提出了一种新的训练算法来解决收敛问题并找到纳什均衡。所提出的训练算法被称为虚拟GAN，其中鉴别器（分别为生成器）基于来自历史训练的生成器（分别为鉴别器）。先前训练的模型实际上携带重要信息，并且可以用于新模型的更新。我们证明了虚拟GAN实现了方程的最优解。（一）.特别地，鉴别器输出收敛到最佳鉴别器函数，并且来自经训练的生成器的序列的混合输出收敛到数据分布。此外，Fictionary GAN可以被视为一种元算法，可以应用于现有的GAN变体之上。合成数据和真实世界的图像数据集都被用来证明由于虚拟训练机制而提高的性能。虚拟GAN32相关作品使用多个GAN模型进行训练的想法已经在其他作品中被考虑过。在[14，15]中，使用多个生成器的混合输出来近似数据分布。具有修改的损失函数的多个发生器在[13]中，基于展开的鉴别器的序列来更新生成器。在[17]中，使用对偶鉴别器将Kullback-Leibler（KL）散度和反向KL散度组合成统一的目标函数。使用鉴别器或GAN模型的集合已经显示出有希望的性能[18，19]。上述方法与我们提出的方法之间的一个显著差异在于，在我们的方法中，在每次训练迭代时仅训练单个深度神经网络鉴别器）仅向单个鉴别器提供输入（分别为：在每个训练阶段。此外，来自多个网络的输出被简单地均匀平均，并作为目标训练网络的输入，而其他工作需要训练最优权重来平均网络模型。因此，所提出的方法具有低得多的计算复杂度。历史模型的使用已被提出作为一种启发式方法，以增加生成的样本的多样性[20]，而缺乏理论上的收敛保证。博弈论方法已被用于在GANs中实现资源受限的纳什均衡[21]。另一个与本文密切相关的工作是最近的工作[22]，该工作应用Follow-the-Regularized- Leader（FTRL）算法来训练GAN。在他们的工作中，历史模型也用于在线学习。中至少有两个明显的特征我们的工作首先，我们从博弈论中借用虚拟游戏的思想来证明假设网络具有足够的容量，任何GAN架构都收敛到纳什均衡，而[22]仅证明了半浅架构的收敛。其次，我们证明了一个单一的鉴别器，而不是多个鉴别器的混合物，渐近收敛到最佳鉴别器。这为训练提供了重要的设计准则，其中渐进地需要维持单个鉴别器13玩具实例在本节中，我们使用两个玩具示例来展示最佳响应方法和基于梯度的训练方法都可能在简单的min-imax优化问题中振荡以GAN框架为例，对于最佳响应训练方法，鉴别器和生成器在每次迭代时更新到最佳点。从数学上讲，发电机和发电机是不同的-1因篇幅所限，文中所有证明均省略，可在补充材料中查到。4Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWu121根据以下规则自动更新：maxExpd（x）{ logD（x）}+Ezpz（z）{log（1−D（G（z）}（2）DminEzpz（z）{ log（1−D（G（z）}（3）G例1. 假设数据服从伯努利分布pd伯努利（a），其中0a< 1。<假设初始生成的分布pgBernoulli（b），其中bi=a。我们发现，在最佳响应训练过程中，生成的分布在pgBernoulli（1）和pgBernoulli（0）之间振荡。我们使用最佳反应训练方法在训练中显示振荡现象。为了最小化（3），等价于找到pg使得Expg（x）{log（1−D（x））}最小化。在每次迭代中，更新后的生成器的输出分布将所有概率质量集中在x= 0（如果D（0）> D（1））或x= 1（如果D（0）1，c2，θ，β为常数，取决于初始（x0，y0）。当n→ ∞时，由于c1>1，该过程将不收敛。6Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWuXY0.20.020.10.010.00.000.010.10.020.20.2 0.1 0.0 0.10.2X0 200040006000800010000迭代次数(a)（b）第（1）款图1：实施例2的具有固定步长的梯度方法的性能。(a)说明了作为迭代过程的x和y的选择，红点（0. 1，0。1）是初始值。（b）示出了作为迭代次数的函数的xy的值图1示出了基于梯度的方法的性能，初始值（x〇，y〇）=（0. 1，0。1），并且tepsize为0。01. 可以看到，在底部，螺旋桨的动作不收敛。这个玩具示例表明，即使具有任意小步长的基于梯度的方法也可能不会收敛。我们将在博弈论的背景下重新审视收敛行为。博弈论中一个完善的学习机制自然会导致一个训练算法，解决这两个玩具例子的非收敛问题4零和博弈在本节中，我们介绍了两个玩家的零和游戏，并描述了虚拟游戏的学习机制，它可证明达到了纳什均衡的游戏。我们将证明GAN的极大极小优化可以表示为两个玩家的零和博弈，其中最优解对应于博弈中唯一的纳什均衡。在下一节中，我们将提出一个训练算法，它模拟虚拟游戏机制，并可证明达到最优解。4.1零和游戏我们从博弈论中的一些定义开始一个博弈由一组n个参与者组成，他们都是理性的，并采取行动以最大化自己的效用。每个参与者i选择一个纯策略策略参与人i在策略空间中有m个策略。一个效用函数ui（si，s−i），其中i表示所有参与者i的收益，i表示参与者i之外的所有参与者。有两种策略，纯策略和混合策略。纯策略提供了参与者在游戏中任何可能的情况下都将遵循的特定行动，而混合策略μi=（pi（si，0），···，pi（si，m−1））f或playyeriisΣaprobabilitydistribution对于在具有h_j_pi（si，j）=1的剩余存储空间中的纯存储空间。关于我们参与人i可用的可能混合策略记为Si。预期Y虚拟GAN7我我12参与人i的混合策略（µi，µ−i）的效用为ΣE{ui（µi，µ−i）}=Σui（si，s−i）pi（si）p−i（s−i）.（八）si∈Sis−i∈S−i为方便记法，我们将ui（µi，µ−i）写成E{ui（µi，µ−i）}。请注意，纯策略可以表示为混合策略，其中单个纯策略的概率为1，其他纯策略的概率为0。一个博弈被称为有限博弈或连续博弈，如果策略空间是有限的或非空的和紧的，分别。在连续博弈中，混合策略表示策略空间上的概率密度函数（pdf）定义1.对于参与人i，策略是被称为对他人的最佳对策策略μ−i如果ui（μ*，μ−i）≥ui（μi，μ−i）对于任何μi∈∆Si。定义2.一组混合策略μ*=（μ*，μ*，···，μ*）是纳什均衡-1 2Nrium如果对于每个参与人i，μ*是策略μ*的最佳对策发挥i −i这场游戏中的其他玩家定义3. 零和博弈是一种每个参与者的收益或损失与其他参与者的收益或损失完全平衡的博弈现在，我们关注一个连续的两人零和博弈。在这样的博弈中，给定策略对（μ1，μ2），参与人1的效用为u（μ1，μ2），而参与人2的效用为-u（μ1，μ2）。在GAN的框架中，训练目标（1）可以被视为两个玩家的零和游戏，其中生成器和鉴别器分别是效用函数为-V（G，D）和V（G，D）的两个玩家两者都以效用最大化为目标，其效用之和为零。知道对手总是寻求效用最大化，参与人1和2根据以下条件选择策略：µ*= argmaxµ1∈∆S 1minµ2∈∆S 2 u（µ1，µ2）（9）µ*= argminµ2∈∆S 2Maxµ1∈∆S 1 u（µ1，µ2）.（十）Definnev= maxminu（µ1，µ2）anddv<$=minmaxu（μ1，μ2）作为µ1∈∆S 1µ 2∈∆ S 2µ 2∈∆S 2µ 1∈∆S 1游戏的低价值和高价值，都是可以理解的。一般来说，v≤v¯。[24]第二十四话表明这两个值在某些规律性条件下一致The或em1（Si〇 n的Mi_i_max The或em [ 24]）。设X和Y是凸的，共点空间，且f：X×Y→R. 如果对任意y∈X，f（x，·）在X上是半凸的且拟凸的，则infx ∈Xsupy∈ Y f（x，y）= supy∈Yinfx ∈Xf（x，y）.因此，在零和博弈中，如果效用函数u（μ1，μ2）满足条件sinTe或em1，则Tenv=v′。我们认为v= v=v′是游戏的价值。我们进一步表明，纳什均衡的零和博弈达到的游戏的价值。8Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWu我2n12我−i推论1. 在两人零和博弈中，效用函数满足定理1中的条件，如果一个策略（μ*，μ*）是纳什均衡，则1 2u（μ*，μ*）= v.1 2推论1意味着，如果我们有一个实现零和博弈纳什均衡的算法，我们可以利用这个算法来最优地训练GAN。接下来，我们描述实现纳什均衡的学习机制。4.2虚构游戏假设两个理性参与者之间重复进行零和博弈，则可以采用一种方法来确定这些参与者的策略。设tsn∈Side不是参与人i在时间n采取的行动。在时间n，给定之前的动作{s0，s1，···，sn−1}由参与人2选择，一个很好的假设是参与人22 2 2使用平稳混合策略，选择策略st，0≤t≤n− 1，概率为1。在这里，我们使用经验频率来近似混合策略中的概率。在这个假设下，参与人1在时间n的最佳对策是选择满足以下条件的策略：µ*= argmaxu（µ1，µn），（11）1 2µ1∈∆S 1其中是对第 2层的历史记录的实现。类似地，参与人2可以选择最佳反应，假设参与人1根据历史行动的经验分布选择其策略。注意，期望效用是不同纯策略下效用的线性组合，因此对于任何假设µn，参与人i都可以找到纯策略sn作为最佳对策。因此，我们进一步假设每个参与人在每一轮都采取最佳纯对策。在博弈论中，这种学习规则被称为布朗提出的虚拟游戏。Danskin [26]表明，对于任何具有任何初始策略的连续零和博弈，虚拟博弈将收敛。这个重要的结果总结在下面的定理中。定理2.设u（s1，s2）是定义在直积上的连续函数两个紧集S1和S2的集合纯策略序列{sn}和{sn}是1 2定义如下：s0和s0是任意的，并且1sn∈argmax21nΣ−1u（s1，sk），sn∈argmin 1nΣ−1u（sk，s2），（12）1s1∈S1nk=02 2s2∈S2 n1k=0然后Lim1nΣ−1 u（sn，sk）=lim1nΣ−1u（sk，sn）=v，（13）n→∞n12k=0n→∞n1 2k=0其中v是博弈的价值虚拟GAN9p（x=0）Dp（x=1）Dp（x=0）Gp（x=1）GD（0）概率D（xnw=0xy，2Gn一点五一点五110.810.60.5 0.50.40 0. 2 00-0.50102030405060708090100迭代次数0102030405060708090100迭代次数-0.50102030405060708090100迭代次数（n）（一）(b)(c)图2：实施例1的最佳响应训练的性能。(a)是假设最佳响应更新的pg(b)示出了虚拟GAN中的D（x），假设在每次训练迭代处的最佳响应。(c)说明了在每次训练迭代时假设最佳响应的Fictionary GAN中pg（x）的平均值。4.3虚拟游戏的有效性在本节中，我们将展示虚拟游戏使学习收敛到第3节中两个反例的最优解例1：图2显示了最佳响应方法的性能，其中数据遵循伯努利分布pd<$Bernoulli（0. 25），初始化为D（x）= x，x ∈ [0，1]，初始生成分布pg<$Bernoulli（0. ①的人。可以看出，基于最佳响应生成的分布在pg（x= 0）= l和pg（x= l）= l之间振荡。由于普遍存在着不确定性和不确定性，inatorisupatedaccord ingtoDn=argmaxD1n−1V（pg，w，D）andthegen-nw=0如果将数据存储在数据存储器中，则n=argmaxp1Σn−1w=0 V（pg，Dw）。图2显示了Dn的长度和所指定的地理位置的具体情况。但ionsp¨g，n=1n−1p¨ g，wastrainingprooceedds. 尽管如此在每次迭代中生成的分布如图1所示振荡2A、学习一个由多个应用程序组成的函数处理器可以处理多个基本的函数处理器，不需要一次就可以完成分布例2：在每次迭代n，参与人1选择x= arg maxx1Σn−1i=0iΣn−1n10* sign（i=0yi）。类似地2号博弈者根据下式选择yy= −10* sign（Σn−1 x）。因此，无论初始条件是什么，两个i=0i玩家在每次迭代中只能选择10或-10因此，作为迭代走向无穷大，经验混合策略只提出了密度为10，-10.在补充材料中证明了混合策略（σ*，σ*）1 2两个参与人都以概率1选择10和-10是这个博弈的纳什均衡。图3示出了在有限时间内的策略，Bot算法的简单混合策略收敛到纳什均衡，并且每个参与者的期望效用收敛到0。一个重要的观察是，虚拟游戏可以提供纳什均衡，如果均衡在游戏中是唯一的。然而，如果存在多个纳什均衡，不同的初始化可能会产生不同的解决方案。在上述pd（x= 0）pd （ x=1）p¯g（x=0）p¯g（x=1）概率10Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWuPr（X = 10）Pr（X =-10）Pr（Y = 10）Pr（Y =-10）概率参与人1的效用G0.6 0.6 50.5 0.5 00.4 0.4-50.30.3-100.20.2-150.10.1-2000 20 40 60 80100迭代（一）00 20 40 60 80100迭代（b）第（1）款-250 20 40 60 80100迭代（c）第（1）款图3：（a）和（b）分别示出了x和y在10和-10处的经验分布。（c）说明了在虚拟博弈下参与人1的预期效用例如，很容易检查（0， 0）也是一个纳什均衡，这意味着两个玩家总是选择0，但虚拟游戏只能在初始化为（0， 0）时导致这种解决方案。我们在下一节中展示的好处是，由于GAN的特殊结构（效用函数在生成分布上是线性的），虚拟游戏可以帮助我们找到所需的纳什均衡。5虚拟GAN5.1算法描述如上一节所讨论的，GAN中生成器和判别器之间的竞争可以建模为两个玩家的零和游戏。补充材料中证明的以下定理表明，（1）的最优解实际上是博弈中唯一的纳什均衡。定理3. 考虑（1）作为一个两人零和博弈。（1）的最优解p*= pd和D*（x）= 1/2是这个博弈中唯一的纳什均衡。游戏的价值是-log 4。通过将GAN与两人零和博弈联系起来，我们可以设计一个训练算法来模拟虚拟博弈，使得训练结果收敛到纳什均衡如算法1中所描述的虚拟GAN采用虚拟游戏学习机制来训练GAN。我们使用两个队列D和G分别存储鉴别器和生成器的历史训练模型。在每次迭代中，生成器）根据对V（G，D）的最佳响应来更新，假设生成器（分别鉴别器）随机一致地选择历史策略。在数学上，根据（14）和（15）更新鉴别器和生成器，其中，由于生成器和鉴别器的输出从先前训练的模型随机均匀混合。注意，在每个训练步骤中，反向传播仍然在单个神经网络上执行。与标准的训练方法不同，我们在训练判别器和生成器时执行k0梯度下降更新，以实现最佳响应。在实际概率虚拟GAN11在学习中，队列D和G被维持为具有固定大小。当我们更新鉴别器或生成器时，如果队列已满，则丢弃最旧的模型算法1 Fictionary GAN训练算法。初始化：将D和G设置为队列，以分别存储鉴别器和生成器的历史模型。当k=1时，不满足停止准则d0时，通过minibatch采样数据x1，· · ·，xm.通过小批量z1，· · ·，zm对噪声进行采样。通过梯度上升更新鉴别器：端1θdmΣmΣi=1log（D（xi））+1|G|ΣGw∈GΣlog（1 −D（Gw（zi）.（十四）对于k=1，···，k0，通过小批量z1，· · ·，zm对噪声进行采样。通过梯度下降更新发生器：θgΣ1 ΣmM| G|ΣΣlog（1 −Dw（G（z i）.（十五）端i=1Dw∈D将更新后的转换器和更新后的发生器分别插入D和Gend while下面的定理为虚拟GAN提供了理论上的收敛保证。它表明，假设在虚拟GAN的每次更新的最佳响应，从生成器的混合输出的分布收敛到数据分布。直觉的证明是，虚构的发挥达到纳什均衡两个玩家零和游戏。由于GAN的最优解定理4.假设鉴别器和生成器在虚拟GAN中的每次迭代时根据最佳响应策略更新1nΣ−1Limn→∞nw=0pg，w（x）=pd（x），（16）Limn→∞D（x）=1，（17）n2当Dw（x）是从w中输出的值时，该值是对model和pg的严格定义，w是由于第w个训练的生成器而生成的分布10Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWu5.2作为元算法的虚拟GAN的一个优点是它可以应用于现有GAN之上。考虑下面的minimax问题：min maxV（G，D）=Expd（x）{f0（D（x））}+Ezpz（z）{f1（D（G（z）））}，（18）G D其中f0（·）和f1（·）是相同的，因为它们是在GAN变体上定义的集成函数。表1示出了f-GAN [9，10]和Wasserstein GAN的家族我们可以将这些GAN变体建模为两个玩家的零和游戏，并且通过简单地将f0（·）和f1（·）在Algorithm1中的增量规则中映射来对GAN的各个变体进行训练。根据定理4中的公式，我们可以表明，生成的分布的时间平均值将收敛到数据分布，并且鉴别器将收敛到D*，如表1所示。表1：零和博弈框架下GAN的变体散度度量f0（D）f1（D） D*游戏价值Kullback-Leiblerlog（D）1 −D10反向KL−DlogD1-1Pearsonχ2D-1D2 −D400平方Hellingerχ21 −D1 −1/D10Jensen-Shannonlog（D）log（1−D）12-log 4WGAND−D006实验我们的虚拟GAN是一种元算法，可以应用于现有的GAN之上。为了证明使用虚拟GAN的优点，我们将我们的Meta算法应用于DCGAN [27]及其扩展条件DCGAN。条件DCGAN允许DCGAN使用外部标签信息来生成某些特定类别的图像。我们评估的合成数据集和三个广泛采用的现实世界的图像数据集的性能。我们的实验结果表明，虚拟GAN可以改善DCGAN和条件GAN模型的视觉质量。图像数据集。(1)MNIST：包含60，000个28× 28灰度数字的标记图像。（2）CIFAR-10：由32× 32像素的彩色自然场景图像组成在10 个类中有 50 ， 000 个训练图像和 10 ， 000 个测试图像（ 3 ）CelebA：是一个大规模的人脸属性数据集，拥有超过20万张名人图像，每张图像有40个属性注释。参数设置。我们使用Tensorflow来实现。由于GPU内存的限制，我们在现实世界的图像数据集实验中将历史模型的数量限制为5更多架构细节包含在补充材料中。12Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWu6.12D混合高斯图4示出了针对8高斯混合的虚拟GAN的性能。二维空间中的圆上的数据。我们使用[13]中的网络结构来评估我们提出的方法的性能。数据采样自8个高斯分布均匀地分布在半径为1.0的圆上。每个的标准偏差为0.02。输入噪声样本是256个独立且同分布（i.i.d.）均值为零的高斯变量单位标准差虽然原始的GAN经历模式崩溃[13，17]，但Fictionary GAN能够在所有8种模式上生成样本，即使是渐进的单个模式。迭代0迭代10k迭代20k迭代30k迭代34k图4：虚拟GAN对高斯数据的2D混合的性能数据样本用蓝色标记，生成的样本用橙色标记。6.2图像生成的定性结果我们展示了由DCGAN和条件DC- GAN生成的样本的视觉质量，由建议的虚拟GAN训练。在图5中，第一行对应于生成的样本。我们在CelebA数据集上应用训练DCGAN，并在MNIST和CIFAR-10上训练约束DCGAN。第一行中的每个图像对应于图2的第二行中的相同网格位置中的图像。五、第二行显示了通过Eu-clidean距离计算的训练数据集中的最近邻居。样本是随机抽取的，没有樱桃采摘，它们代表模型输出分布。在CelebA中，我们可以生成各种性别，肤色和发型的人脸图像。在MNIST数据集中，所有生成的数字几乎都具有视觉识别性。校准样品此外，数字图像具有不同的视觉形状和字体。CIFAR-10数据集更具挑战性，每个对象的图像具有较大的视觉外观差异。我们观察到一些视觉和标签的一致性，在生成的图像和最近的邻居，特别是在飞机，马和船的类别。请注意，尽管我们从理论上证明了虚拟GAN可以提高最佳响应策略中训练的鲁棒性，但视觉质量仍然取决于基线GAN架构和损失设计，在我们的情况下是条件DCGAN。虚拟GAN13图5：在CelebA、MNIST和CIFAR-10中生成图像生成顶行样本6.3定量结果在本节中，我们定量地表明，通过我们的虚拟GAN训练的DCGAN模型可以比传统的训练方法得到改进此外，我们可能会有一个更好的性能，通过应用Ficerogan对其他现有的gan模型。比较方法的结果按报告直接复制。公制。生成图像的视觉质量由广泛的使用Inception评分度量[20]。它测量生成图像的视觉客观性，并且与生成图像的真实性的人类评分很好地相关根据[20]设置的评估方案，我们从我们的模型中生成50，000张图像来计算分数。表2：CIFAR-10的初始评分方法评分虚拟cDCGAN*7.27 ±0.10DCGAN* [28]（最佳变体）7.16 ±0.10MIX+WGAN*[14] 4.04 ± 0.07虚拟DCGAN 6.63 ±0.06DCGAN [28]6.16 ±0.07GMAN [18] 6.00± 0.19WGAN [14] 3.82± 0.06实际数据11.24 ±0.12注：* 表示使用标签进行训练的模型14Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWu761 2 3 4 5历史鉴别器（发生器）型号数图6：我们示出了虚构GAN可以作为具有更大数量的历史模型的Meta算法来提高初始得分。我们从表1中选择2个发散度度量：Jenson-Shanon和KL散度。如表2所示，我们的方法优于最近的现有技术方法。具体来说，我们改进基线DCGAN从6。十六比六63;和来自7的条件DCGAN模型。十六比七27. 它揭示了所提出的学习算法的训练的优势注意，为了突出从虚构的GAN获得的性能改进，再现的DC-GAN模型的初始得分此外，我们没有使用任何正则化项，如条件损失和熵损失来训练DC-GAN，如[28]中所述我们期望当除了虚拟GAN之外使用更多训练技巧时，初始得分更高6.4消融研究影响虚拟GAN性能的一个超参数是历史生成器（鉴别器）模型的数量。我们用不同数量的历史模型评估了虚拟GAN的性能，并在图11中报告了CIFAR-10数据集中第150个时期的初始得分六、我们保持历史判别器的数量与历史生成器的数量相同。我们观察到随着2个基线GAN模型中历史模型当拷贝数为4时，由于随机初始化和训练中的随机噪声生成，Jenson-Shannon散度度量的初始得分的平均值略有下降7结论在本文中，我们将GAN的极大极小博弈与两人零和博弈联系起来。这种关系使我们能够利用虚拟游戏的机制来设计一种新的训练算法，称为虚拟GAN。在训练算法中，鉴别器（分别为生成器）被交替地更新为对陈旧的生成器模型（分别鉴别器）。这种新的训练算法可以解决由于纯最佳响应策略的振荡行为和基于梯度的训练在某些情况下的不收敛问题。真实世界的图像数据集显示，在现有的DCGAN模型之上应用虚拟GAN可以获得高达 8%的性能增益。Jenson-ShanonKLDivergence初始分数虚拟GAN15引用1. 阿罗拉，S.，盖河，巴西-地梁玉，妈妈，T.，张毅：生成对抗网的泛化与均衡。国际机器学习会议（International Conference on MachineLearn）pp. 2242. 布朗，G.W.：虚拟对策的迭代解法。活性分析，producti onandallo cti on13（1），3743. 切，T.，李，Y.，Jacob，A.P.，Bengio，Y.，李伟：模式正则化生成对抗网络。输入：程序输入会议学习。代表（2017）4. 陈旭，王杰，Ge，H.：通过原始-对偶次梯度方法训练生成对抗网络：关于gan的拉格朗日观点。输入：程序输入会议学习。代表（2018）5. Danskin，J.M.：连续游戏的虚构游戏。Naval Research Logistics（ NRL）1（4），3136. 杜鲁卡岛根普岛Mahadevan，S.：生成多对抗网络。arXiv预印本arXiv：1611.01673（2016）7. Ghosh，A.，Kulharia，V.，Namboodiri，V.，托，pH值，Dokania，P.K.：多智能体多样化生成对抗网络。arXiv预印本arXiv：1704.02906（2017）8. Goodfellow，I.：Nips 2016教程：生成对抗网络。arXiv预印本arXiv：1701.00160（2016）9. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 267210. Grnarova，P.，Levy，K.Y.，Lucchi，A.，Hofmann，T.，Krause，A.：生成对抗网络的在线学习方法In：Proc.Int. Conf. 学习. 代表（2018年）11. Heusel，M.，Ramsauer，H.Unterthiner，T.，内斯勒湾Hochreiter，S.：两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。In：AdvancesinNeuralI in Neural Formation inProces si ngSyss.pp. 662612. Hoang，Q.，Nguyen，T.D.，Le，T.，Phung，D.：多生成器生成对抗网。arXiv预印本arXiv：1708.02556（2017）13. 黄，X.，李，Y.，Poursaeed，O.，Hopcroft，J.，Belongie，S.：堆叠生成式对抗网络。在：IEEE计算机视觉和模式识别会议第2卷，第4页（2017年）14. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和更新的感知损失。 In：EuropeanConferenceonCom up uterVison。pp. 694-711 Springer（2016）15. Ledig ， C. ，这是 LHusz'ar ， F. ， Caballero ， J. ， Cunningham ， A.Acosta，A. Aitken，A.，Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片逼真的单图像超分辨率。在IEEE Conference onC〇mputerrVis isinandPater nRec gnit i tin（CVPR）中。pp. 10516. 李杰，Madry，A.，Peebles，J. Schmidt，L.：了解生成对抗网络的动态。arXiv预印本arXiv：1706.09884（2017）17. 梅斯湖Poole，B. Pfau，D.，Sohl-Dickstein，J.：展开的生成对抗网络。输入：程序输入会议学习。代表（2017）18. Nagarajan，V.，Kolter，J.Z.：梯度下降gan优化是局部稳定的。In：Avancesi nNe ur alI np roces ing S y s i n gPr ocesi ngS y s i n g P r o c e s i n g Sy si ng S i n g ipp. 558519. Nguyen，T. Le，T.，Vu，H.，Phung，D.：双鉴别器生成对抗神经网络。在N个生产系统中的所有设备。pp. 266716Hao Ge，Yin Xia，Xu Chen，Randall Berry，YingWu20. 诺沃津，S.，Cseke，B.，富冈，R.：f-GAN：使用变分发散最小化训练生成神经采样器。在：神经信息处理系统的进展。pp. 27121. Oliehoek，F.A.，萨瓦尼河Gallego，J.，van der Pol，E.，格罗斯，R.：对抗网络的局部纳什均衡arXiv预印本arXiv：1806.07268（2018）22. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习。输入：程序输入会议学习。代表（2016）23. Reed，S.，Akata，Z.，Yan，X.，洛格斯瓦兰湖Schiele，B.，Lee，H.：生成对抗性文本到图像合成。国际机器学习会议（International Conference onMachine Learning）pp. 106024. Salimans，T.古德费洛岛Zaremba，W.，Cheung，V. Radford，A. Chen，X.：改进了训练GAN的技术在：神经信息处理系统的进展。pp. 223425. Shrivastava，A.，Pfister，T.，Tuzel，O.，Susskind，J.，王伟，Webb，R.：通过对抗训练从模拟和无监督图像中学习。IEEE计算机视觉与模式识别会议（CVPR）第3卷，第6页（2017年）26. Sion ， M. ： ng ener a l mimaxte o rms. Paci cJ our na l ofmathemat i cs8（ 1）， 17127. Tol st i kh i n，I. O.， GE LL Y，S.， B o usquet，O.， Simon-G arie l，C. J.S chüol kop f，B. ：Ada-gan：提升生成模型。神经信息处理系统进展。pp.542428. Zhai，S.，郑，Y.，卢伟，张志：基于深度结构化能量的模型，用于非对称检测。 In：Inter natina pp. 1100

下载后可阅读完整内容，剩余1页未读，立即下载