Dist-GAN:一种基于距离约束的改进生成对抗网络

150 浏览量更新于2023-10-13 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Dist-GAN：一种基于距离约束的改进GANNgoc-Trung Tran[0000−0002−1308−9142]、Tuan-Anh Bui[0000−0003−4123−262]、Ngai-Man Cheung[0000−0003−0135−3791]新加坡科技与设计{ngoctrung tran，tuananh bui，ngaiman cheung}@ sutd.edu.sg抽象。我们为生成对抗网络（GAN）引入了有效的训练算法，以减轻模式崩溃和梯度消失。在我们的系统中，我们约束生成器的自动编码器（AE）。我们提出了一个配方，以考虑从AE重建的样本作为“真正的”样本的鉴别器。这将AE的收敛与鉴别器的收敛耦合，有效地减慢鉴别器的收敛并减少梯度消失。重要的是，我们提出了两个新的距离约束，以改善发电机。首先，我们提出了一个潜在的数据距离约束，以执行潜在的样本距离和相应的数据样本距离之间的兼容性。我们使用这个约束，以显式地防止模式崩溃的发生器。其次，我们提出了一个鉴别器分数距离约束，通过鉴别器分数将生成的样本的分布与真实样本的分布对齐。我们使用这个约束来指导生成器合成类似于真实的样本。我们提出的使用这些距离约束的GAN，即Dist-GAN，可以在基准数据集上实现比最先进的方法更好的结果：合成的、MNIST、MNIST-1 K、CelebA、CIFAR-10和STL-10数据集。我们的代码发布在这里1用于研究。关键词：生成对抗网络·图像生成·距离约束·自动编码器。1介绍生成对抗网络[12]（GAN）已成为学习生成模型的主要方法。它可以产生非常具有视觉吸引力的样本，几乎没有关于模型的假设。GAN可以在不显式估计数据分布的情况下产生样本，例如分析的形式。GAN有两个相互竞争的主要组成部分，它们通过竞争来改进。第一个组件是生成器G，它将低维随机噪声zPz作为输入，并将它们映射到高维数据样本xPx。先验分布Pz通常是均匀分布或1https://github.com/tntrung/gan2Ngoc-Trung Tran、Tuan-Anh Bui和Ngai-Man Cheung正常同时，GAN使用第二组件（鉴别器D）来区分样本是从生成器分布PG还是从数据分布Px中提取的。训练GAN是一个对抗性的过程：在鉴别器D学习更好地区分真实或虚假样本的同时，生成器G学习混淆鉴别器D以接受其输出为真实的。Gus的分布是严格的，因为数据库可以在一段时间内保持不变，并且最终可以近似数据分布。尽管取得了令人鼓舞的结果，但已知GAN难以训练，并且需要仔细设计模型架构[11，24]。例如，鉴别器和生成器容量之间的不平衡经常导致收敛问题，诸如梯度消失和模式崩溃。当鉴别器的梯度饱和时，发生梯度消失，并且生成器没有信息梯度可供学习。当鉴别器可以很好地区分“真实”和“伪造”样本时，由于数据分布的存在或覆盖，会发生这种情况。模式坍缩是另一个关键问题。在模式塌陷中，发生器被塌陷到一个典型的参数设置中，它总是生成小的样本多样性。已经提出了几种GAN变体[24，22，26，4，29]来解决这些问题。其中一些是基于自动编码器（AE）的GAN。AE显式地将数据样本编码到潜在空间中，这允许以较低的维度表示数据样本。它不仅具有稳定GAN的潜力，而且还适用于其他应用，例如降维AE还被用作生成模型的突出类别的一部分，变分自动编码器（VAE）[17，25，6]，其对于学习导致更好的对数似然性的推断/生成模型是有吸引力的[28]。这些鼓励了许多最近的作品遵循这一方向。他们应用编码器/解码器作为干扰模型来改进GAN训练[10，9，19]，或者使用AE来定义鉴别器目标[30，5]或生成器目标[7，27]。其他人建议将AE和GAN结合起来[21，18]。在这项工作中，我们提出了一个新的设计，统一AE和GAN。我们的设计可以稳定GAN训练，减轻梯度消失和模式崩溃的问题，并更好地近似数据分布。我们的主要贡献是两个新的距离约束，以改善发电机。首先，我们提出了一个潜在的数据距离约束. 这加强了潜在样本距离与对应的数据样本距离之间的兼容性，并且因此防止生成器产生彼此接近的许多数据样本即模式崩溃第二，我们提出了一个鉴别器分数距离约束。这将假样本的分布与真实样本的分布对齐，并引导生成器合成与真实样本相似的样本。我们提出了一种新的配方，通过调整的分布的分数。与使用合成数据集和基准数据集的最新方法相比，我们的方法实现了更好的稳定性，平衡性和竞争力标准分数。Dist-GAN：一种基于距离约束的改进GAN32相关作品非收敛问题仍然是GAN研究的一个重要问题，梯度消失和模式崩溃是最重要的问题[11，3]。已经提出了许多重要的GAN变体来解决这些问题。改进的GAN [26]引入了几种技术，如特征匹配，小批量判别和历史平均，这大大减少了模式崩溃。展开的GAN [22]试图改变优化过程以解决收敛和模式崩溃。[4]分析了GAN的收敛他们提出的GAN变体WGAN利用了Wasserstein距离，并证明了其比Jensen Shannon（JS）散度更好的收敛性，Jensen Shannon（JS）散度以前曾在香草GAN中使用[12]。然而，WGAN要求鉴别器必须位于1-Lipschitz函数的空间上，因此，它不得不通过权裁剪技巧对鉴别器进行范数批评。WGAN-GP [13]通过惩罚内插样本的梯度范数来交替权重裁剪来最近的工作SN-GAN[23]提出了一种加权归一化技术，称为频谱归一化，以减缓收敛的鉴别器。该方法通过归一化网络层权矩阵的谱范数来控制Lipschitz常数。其他工作已经将AE集成到GAN中。AAE [21]通过AE学习推理，并通过编码器和鉴别器之间的极大极小博弈将编码的潜在分布与给定的先验分布相对有声发射损失的发生器进行规范化处理这种正则化不能保证生成器能够很好地逼近数据分布并克服模式缺失。VAE/GAN [18]将VAE和GAN组合成一个模型，并使用特征距离进行重建。由于依赖于VAE [17]，VAEGAN还需要重新参数化技巧进行反向传播或需要访问先验分布的精确函数形式。InfoGAN [8]通过最大化用于诱导潜在代码的互信息来学习解纠缠表示。EBGAN [30]介绍了基于能量的模型，其中鉴别器被认为是通过重构误差最小化的能量函数。BEGAN [5]通过优化AE损失分布之间的Wasserstein距离扩展了EBGAN。ALI [10]和BiGAN [9]将数据编码为潜在的，并在GAN框架中联合训练数据/潜在样本。该模型可以在训练后隐式地学习编码器/解码器模型。MDGAN[7]需要两个鉴别器用于两个单独的步骤：歧管和扩散。流形步骤倾向于学习好的AE，并且扩散目标与原始GAN目标相似，除了使用构造的样本而不是真实样本。在文献中，VAEGAN和MDGAN是最相关的我们的工作，在使用AE来改善发生器。然而，我们的设计是显著不同的：（1）VAEGAN结合KL散度和重构损失来训练推理模型。对于这种设计，它需要先验分布的精确形式和重新参数化技巧，以通过反向传播来解决优化问题。相比之下，我们的方法通过数据和4Ngoc-Trung Tran、Tuan-Anh Bui和Ngai-Man CheungFig. 1. （a）由MNIST数据集的数据样本观察到的模式崩溃，以及（b）它们对应的均匀分布的潜在样本。当网络容量较小或发生器/鉴频器网络设计不平衡时，模式崩溃现象经常发生。图二. 潜在空间可视化：55K 2D潜变量的标签由（a）DCGAN，（b）WGANGP，（c）我们的Dist-GAN2（没有潜在数据距离）和（d）我们的Dist-GAN 3（具有我们提出的潜在数据距离）。Dist-GAN设置在“实验结果”部分中定义。潜在样本距离我们的方法适用于任何先验分布。(2)与MDGAN不同，我们的设计不需要两个鉴别器。（3）VAEGAN认为重构样本是“假的”，并且MDGAN采用这种类似的方法。在这种情况下，我们使用这些作为“真实”样本，其中重要的是抑制鉴别器以避免梯度消失，从而减少模式崩溃。（4）其中两种方法简单地通过重构损失来正则化G这不足以解决模式崩溃。我们进行分析，并解释为什么需要额外的正则化AE。实验结果表明，我们的模型优于MDGAN和VAEGAN。3该方法模式崩溃是广义网络的一个重要问题在本节中，我们首先提出一种新的方式来可视化模式崩溃。基于可视化结果，我们提出了一个新的模型，即Dist-GAN，来解决这个问题。3.1可视化潜在空间中的模式崩溃模式塌陷发生在当塌缩到单个模式即将发生时，鉴别器的梯度可以针对许多相似的点指向相似的方向。“[ 26]。通过几个虚拟化功能，可以轻松地创建工作流Dist-GAN：一种基于距离约束的改进GAN5塌陷样本（从先验分布的随机潜在样本图1a就是一个例子。然而，数据空间是高维的，因此难以可视化数据空间中的点另一方面，潜在空间是低维且可控的，并且可以可视化整个2D/3D空间。因此，检查潜在空间中的模式崩溃可能是有利的。然而，问题是GAN不可逆地将数据样本映射回潜在空间。因此，我们提出以下方法来可视化样本并检查潜在空间中的模式崩溃。我们应用现成的分类器。该分类器预测所生成的样本的标签我们根据潜在样本将这些类别标签可视化，见图。1b. 这是可能的，因为对于诸如MNIST的许多数据集，预先训练的分类器可以实现高准确度，例如，0.04%的错误率。3.2距离限制：动机图1b是使用该技术的潜在样本可视化，潜在样本均匀分布在[-1，1]的2D潜在空间图图1b清楚地表明了模式崩溃的程度：来自大区域的长距离空间的许多潜在样本聚集到该采样区，即。G. '1'。每一个相同的地址采样彼此相距很远，它们映射到同一个数字。这表明，当有许多潜在样本映射到数据空间的小区域时，具有参数θ的生成器Gθxi=Gθ （ zi ）， xi=Gθ （ zj ）： f （ xi ， xi ） <δx（1）Gθf是数据空间中的某个距离度量，并且δx是数据空间中的小阈值。数据空间。因此，我们提出使用潜在空间中的距离度量g和该度量的小阈值δz来解决模式崩溃，以如下抑制Gθg（zi，zi，j）> δζ-f（xi，xi）> δχ（2）然而，确定两个不同维数的空间的好函数f、g及其阈值δx、δz并不简单。此外，将这些约束应用于GAN并不简单，因为GAN仅具有从潜在样本到数据样本的单向映射在下一节中，我们将提出新的公式来表示潜在数据距离中的这种约束，并将其应用于GAN。我们还尝试将这种可视化应用于两种最先进的方法： [24] ，WGANGP [13]（使用[13]的代码）。请注意，我们所有的实验都是在无监督环境中进行的。这里使用现成的分类器来确定生成的样本的标签，仅用于可视化目的。图2a和图图2b分别表示在70K的迭代处DCGAN和WGANGP的55K潜变量的图2a揭示了DCGAN是部分折叠的，因为它根据先验分布的右下左上角附近的潜变量生成非常少的数字相比之下，WGANGP不具有模式崩溃，如图所示2b. 然而，对于WGANGP，潜在变量6Ngoc-Trung Tran、Tuan-Anh Bui和Ngai-Man Cheung22对应于每个数字的数字被分割在许多子区域中。这是对WGANGP的一次跨期观察。我们将把这作为我们未来的工作。3.3利用距离约束我们应用Eqn的思想。2通过AE改进发生器。我们应用AE将数据样本编码为潜在变量，并使用这些编码的潜在变量来从潜在空间中导出几何对象的映射。首先训练一个AE（编码器Eω和解码器Gθ），然后训练鉴别器Dγ和生成器Gθ。这里，发生器是AE的解码器，ω、θ、γ分别是编码器、发生器和鉴别器的参数。培训AE的两个主要原因是：（i）在每次训练迭代时正则化参数θ，以及（ii）指导生成器合成与真实训练样本类似的样本。我们包括一个额外的潜在数据距离约束来训练AE：minLR（ω，θ）+λrLW（ω，θ）（3）ω，θ其中LR（ω，θ）=||x−Gθ（Eω（x））||2是常规AE物镜。的潜在数据距离约束LW（ω，θ）是正则化生成器和预处理器。使其免于塌陷。这个术语将在后面讨论。这里，λr是常数。重构样本Gθ（Eω（x））可以近似为Gθ（Eω（x））=x+ε，其中ε是重构误差。通常，E和G的电容足够大，使得很小（如噪声）。因此，它不能够将所产生的随机响应作为“真实”样本（p lus noise ε）进行处理。逐像素重建可能导致模糊。为了规避这一点，相反，我们使用特征距离[18]或类似的特征匹配[26]：LR（ω，θ）=||Φ（x）−Φ（Gθ（Eω（x）||二、其中Φ（x）是从深层网络的一些中间层获得的最高层。在我们的实现中，Φ（x）是从Dγ的最后一个卷积层输出的特征。注意，在第一次迭代中，随机初始化鉴别器的参数，并且使用从该鉴别器产生的特征来训练AE。我们的框架如图所示3.第三章。我们提出按照以下顺序训练编码器Eω、生成器Gθ和鉴别器Dγ：（i）固定Dγ并训练Eω和Gθ以最小化重建损失3（ii）固定Eω、Gθ，并训练Dγ以最小化（等式2）。（iii）固定Eω、Dγ并训练Gθ以最小化（等式5）。4）.生成器和鉴别器目标在训练生成器时，最大化常规生成器目标Ezσ（Dγ（Gθ（z）[12]倾向于在高密度模式下产生样本，这容易导致模式崩溃。这里，σ表示sigmoid函数，E表示期望。相反，我们用我们的“关键词”来训练基因。将合成的样本分布与实际样本分布进行比较，距离为1。比对是通过鉴别器得分，参见式（Eqn.4.第一章理想地，生成器合成与从真实分布中提取的样本相似的样本Dist-GAN：一种基于距离约束的改进GAN722图三. Dist-GAN的体系结构包括编码器（E）、生成器（G）和区分器（D）。重建的样品被认为是“真实的”。输入、重构和生成的样本以及输入噪声和编码的潜伏都用于形成AE（正则化AE）的潜伏数据距离约束并且这也有助于减少丢失模式问题。m inLG（θ）=|Exσ（Dγ（x））−Ezσ（Dγ（Gθ（z）|（四）θ在Eqn中示出了该方法的目标函数五、它与GAN原有的鉴别器有两个方面的不同首先，我们将重构样本指示为“实数”，由项L C = E X log σ（D γ（G θ（E ω（x）表示。将被执行为“real”的接收器结构构造成在鉴别器的收敛之后可以使系统始终较低，使得来自鉴别器的梯度不会过快地饱和。特别地，鉴别器的收敛与AE的收敛耦合。这是一个重要的制约因素。相比之下，如果我们在我们的模型中将鉴别器结构视为“fake”，则其加快了鉴别器收敛，并且鉴别器比生成器和编码器两者都更快地收敛。这导致Dγ的梯度饱和。第二，我们应用gra-dientenalyLP=（||x||2-1）2对于在或在j处的discrimin（Eqn. 5），其中λp是随机系数，且x≡=x+（1−）G（z），是一个唯一的随机数∈U[0，1].该惩罚用于执行Wasserstein-1距离的Lipschitz约束[13]。在这项工作中，我们还发现这对JS散度和稳定我们的模型很有用。应当注意，单独使用该梯度惩罚不能解决收敛问题，类似于WGANGP。当将此与我们在Eqn中提出的生成器目标相结合时，问题得到部分解决4，即，鉴别器分数距离然而，问题不能完全解决，例如。模式崩溃MNIST数据集与2D潜在的输入，如图所示。2c.因此，我们应用所提出的潜在数据距离约束作为AE的附加正则化项：LW（ω，θ），将在下一节中讨论。minLD（ω，θ，γ）=−（Ex logσ（Dγ（x））+Ezlog（1−σ（Dγ（Gθ（z）γ+Exlogσ（Dγ（Gθ（Eω（x）−λpEx（||x||2−1）2）（五）通过潜在数据距离约束正则化自动编码器在本节中，我们讨论潜在数据距离约束LW（ω，θ）来正则化AE8Ngoc-Trung Tran、Tuan-Anh Bui和Ngai-Man Cheung2Dx以便减少发生器（AE中的解码器）中的模式崩溃。具体而言，我们使用其他输入来存储存储输出，并使用简化的结构来存储与通用存储器的输出相关的存储。在给定不同潜在输入的情况下，当生成器在数据空间中合成低多样性的样本时，模型计算器发生错误因此，为了减少模式崩溃，我们旨在实现：如果任何两个潜变量g（zi，zj）在潜空间中的距离小（大），则在数据空间中对应的距离f （ xi， xj）应该小（大），反之亦然。我们提出了潜在数据距离正则化LW（ω，θ）：LW（ω，θ）=||f（x，Gθ（z））−λwg（Eω（x），z）||2（六）其中f和g是在数据和潜在空间中计算的距离函数。λw是由于维度差异而产生的比例因子在不同维度的空间中比较距离并不是直截了当因此，代替使用直接距离函数，例如Euclidean，1-norm等，我们提出比较真实分布和伪分布的匹配得分f（x，Gθ（z）），以及两个潜在分布的匹配得分g（Eω（x），z）。我们使用平均值作为匹配分数。具体而言：f（x，Gθ（z））= Md（ExGθ（Eω（x））−EzGθ（z））（7）g（Eω（x），z）= Md（ExEω（x）−Ezz）（8）其中Md计算输入的所有维度的平均值图图4a示出了由来自不同维度的[-1，1]均匀分布的Md映射的10000个随机样本的1D频率密度我们可以看到，来自高维度的M d的输出在空间上具有所有值。因此，我们可以求λwin（6.）too说明维度的差异根据经验，我们发现λw=dz其中dz和dx分别是潜在样本和数据样本的维度图图4b示出了塌陷模式情况的频率密度我们可以观察到，生成的样本的1D密度明显不同于真实数据的1D密度。图图4c比较了通过不同方法生成的55K MNIST样本的1D频率密度我们的Dist-GAN方法可以估计比DCGAN和WGANGP更好的1D密度，通过生成的样本和真实样本的密度之间的KL散度（kldiv）来测量。整个算法在算法中给出。1.一、4实验结果4.1合成数据我们所有的实验都是使用无监督设置进行的。首先，我们使用合成数据来评估我们的Dist-GAN可以近似数据分布的程度。我们使用类似于[10]的网格布局中的25个高斯模式的合成数据集。我们的数据集包含50K个2D训练点，我们绘制了2K个生成的样本进行测试。为了公平比较，我们使用等价Dist-GAN：一种基于距离约束的改进GAN9图4.第一章（a）使用来自不同维度的均匀分布的M d的输出的1D频率密度。（b）当模式崩塌发生时的密度的一个示例（c）通过不同方法获得的真实数据和生成数据的1D密度：DCGAN（kldiv：0.00979）、WGANGP（kldiv：0.00979）。0.00412）、Dist-GAN2（没有AE的数据-潜在距离约束，kldiv：0.01027）和Dist-GAN（kldiv：0.00073）。算法1 Dist-GAN1：初始化鉴别器、编码器和发生器Dγ、Eω、Gθ2：重复3：xm←来自数据集的m个数据点的随机小批量4：zm←来自噪声分布Pz的5：//通过等式使用x m和z m训练编码器和生成器36：ω，θ←minω，θLR（ω，θ）+λrLW（ω，θ）7：//根据等式1训练鉴别器5在x m，z m8上：γ←minγLD（ω，θ，γ）9：//根据等式11在x m、z m上训练生成器4.第一章10：θ←minθLG（θ）11：直到12：返回Eω、Gθ、Dγ10Ngoc-Trung Tran、Tuan-Anh Bui和Ngai-Man Cheung如果可能的话，在相同的实验条件下对所有方法的结构和设置进行优化。架构和网络大小与8-高斯数据集上的[22]相似，只是我们使用了一个隐藏层。我们使用全连接层和整流器线性单元（ReLU）激活输入和隐藏层，sigmoid用于输出层。编码器、生成器和鉴别器的网络规模在SupplementaryM的表1中预先定义，其中d_in=2，d_out=2，d_h=128分别是输入层、输出层和隐藏层的维数Nh=3是隐藏层的数量。编码器的输出维度是隐变量的维度。我们的先验分布是均匀的[-1，1]。我们使用Adam优化器，学习率lr = 0。001，一阶矩的指数衰减率β1= 0. 8.学习率每10K步衰减一次，基数为0的情况。9. 小批量大小为128。训练在500个epoch之后停止为了进行公平的比较，我们仔细地微调了其他方法（如果可以获得更好的结果，则在训练过程中使用权重衰减对于评估，如果在该模式中注册的生成样本少于20个，则该模式被错过，这通过其均值和方差0来测量。01 [19，22]。如果缺少模式，则方法具有模式崩溃。在这个实验中，我们固定参数λr= 0。1（等式1）3），λp= 0. 1（等式1）5），λw=1. 0（等式1）（六）。对于每种方法，我们重复八次运行并报告平均值。图五、从左到右的数字：（a）、（b）、（c）、（d）。已注册模式的数量(a) 以及我们的方法的点（b），在合成数据集上具有两个不同的设置。我们将我们的Dist-GAN与基线GAN [12]和相同数据集上的其他方法进行比较，这些方法通过注册模式（类）（c）和点（d）的数量来测量首先，我们强调我们的模型的能力，近似的合成数据的分布Px。我们进行烧蚀实验以了解具有不同设置的每个所提出的组件的影响：– DIST-GAN1 ：使用针对平均距离（LG）和AE损失LR的“DISC-S_C_D_S_T”，但不使用数据潜在距离约束项（Lff）和梯度惩罚（LP）。该设置具有三个不同的版本，因为在鉴别器目标中使用了作为 “real” 、 “fak e” 或 “n on e” （不使用它）的 reecon 结构（LC）。– Dist-GAN2：通过添加梯度惩罚LP从Dist-GAN1（将重构样本视为Dist-GAN：一种基于距离约束的改进GAN11见图6。不同方法得到的模态平衡。– Dist-GAN：通过添加数据-潜在距离约束L_W来改进Dist-GAN2。(See详见补充资料表3）。定量结果如图所示。5.图5a是在训练期间改变的注册模式的数量。Dist-GAN1丢失一些模式，而Dist-GAN2和Dist-GAN在大约50个历元之后生成所有25个模式。由于它们几乎不错过任何模式，所以将所记录的点的数量比较为iinFig是合理的。 5b. 将重新定义的重新定义作为“real”（真正的）处理，最好是将重新定义作为“fake”或“non”（不存在）处理。可以肯定的是，Dist-GAN 1在不使用在隔离或隔离（“非隔离“选项）时获得与基线GAN类似的结果。其他结果显示当将梯度惩罚添加到鉴别器（Dist-GAN 2）中时的改进。与Dist-GAN2相比，Dist-GAN证明了使用所提出的潜在数据约束的有效性。为了更高地提高我们针对生成器的所提出的“分布式计算”的效率，我们使用它来改进由GAN 1表示的基线GAN [12]。然后，我们提出了GAN2，通过添加梯度惩罚来改进GAN1。我们可以观察到，我们提出的生成器目标和梯度惩罚的组合可以提高GAN的稳定性我们比较我们的最佳设置（Dist-GAN）到以前的工作。ALI [10]和DAN-2S [19]是最近在其模型中使用编码器/解码器VAE-GAN [18]引入了类似的模型。WGAN-GP [13]是目前最先进的技术之一。覆盖模式和注册点的数量如图所示。图5c和图5d分别示出了图5c和图5d中所示的实施例。最后时期的数量见补充材料表2。在此表中，我们还报告了总变异分数以衡量模式平衡。每种方法的结果是八次运行的平均值。我们的方法在覆盖模式的数量上优于GAN [12]，DAN-2S [19]，ALI [10]和VAE/GAN [18]虽然WGAN-GP有时会错过一个模式并发散，但我们的方法（Dist-GAN）在所有八次运行中都不会发生模式崩溃此外，我们实现了比WGAN-GP和所有其他人更高数量的注册样本我们的方法也优于其他的全变差（TV）[19]。图6描绘了生成的样本的细节比例，12Ngoc-Trung Tran、Tuan-Anh Bui和Ngai-Man Cheung图7.第一次会议。真实样本和我们生成的样本在一个小批次中。以及通过我们的方法在MNIST数据集上获得的每个类的生成样本的数量我们通过KL散度将我们生成的样本的频率与地面实况进行比较：KL = 0.01。25种模式。（在补充材料的第2节中生成的样品的更多可视化4.2MNIST-1K对于图像数据集，为了避免模糊，我们使用Φ（x）代替x来进行重建损失和潜在数据距离约束。我们固定参数λp= 1。0，且λr= 1。0表示所有图像数据集始终工作良好。λw是根据特征Φ（x）和潜在样本的维度自动计算我们的MNIST模型实现使用WGAN-GP [13]的已发布代码。图7从左到右是真实样本、生成的样本和通过我们的方法针对标准MNIST生成的每个数字的频率。结果表明，该方法能很好地逼近MNIST位数分布。此外，我们生成的样本看起来很逼真，具有不同的风格和笔画，类似于真实的。此外，我们遵循[22]中的过程它有从000到999的1000种模式。我们总共创建了25，600个图像。我们通过计算覆盖模式的数量（至少有一个样本[22]）和计算KL散度来比较方法。为了公平起见，我们采用了[22]提出的等效网络架构（低容量发生器和两个受损鉴别器K/4和K/2）。表1给出了比较方法的模式数和KL散度。结果表明，我们的方法优于所有其他的覆盖模式的数量，特别是与低容量的判别器（K/4架构），其中我们的方法有150个模式比第二个最好的。我们的方法减少了两种架构之间的差距（例如，大约60个模式），这比其它方法小。对于这两种架构，我们得到更好的结果KL发散和恢复模式的数量。所有的结果都支持我们提出的Dist-GAN处理更好的模式崩溃，并且即使在发生器和鉴别器不平衡的情况下也是鲁棒的5CelebA、CIFAR-10和STL-10数据集此外，我们使用CelebA数据集并与DCGAN [24]和WGAN-GP [13]进行比较。我们的实现是基于开源的[2，1]。图8示出Dist-GAN：一种基于距离约束的改进GAN13表1.MNIST-1 K方法的比较。我们遵循Unrolled GAN的设置和架构GAN展开GANwgan-GPDist-GANK/4，#K/4、KL30.6 ±20.75.99 ±0.04372.2 ±20.74.66 ±0.46640.1 ±136.31.97 ±0.70859.5 ±68.71.04 ±0.29K/2，#K/2，KL628.0 ±140.92.58 ±0.75817.4 ±39.91.43 ±0.12772.4 ±146.51.35 ±0.55917.9 ±69.61.06 ±0.23图8. 生成DCGAN（50个epoch，结果来自[1]），WGAN-GP（50个epoch，结果来自[1]）和我们的Dist-GAN（50个 epoch）的样本。由DCGAN、WGANGP和我们的Dist-GAN生成的样本。而DCGAN在epoch 50处略微塌陷，并且WGAN-GP有时产生破碎面。我们的方法不受这样的问题，可以生成可识别的和现实的脸。我们还报告了使用相同发布代码[13]的DCGAN架构[24]的CIFAR-10数据集的结果。使用我们的方法在该数据集上训练生成的样本可以在补充材料的第4节中找到对于定量结果，我们报告了两个数据集的FID评分[15]。FID可以检测类内模式丢弃，并测量生成的样本的多样性和质量我们遵循[20]中的实验程序和模型架构如表2的第一行和第二行所示，我们的方法对于CelebA和CIFAR-10都优于其他方法这里，其他GAN方法的结果来自[20]。我们还报告了这些数据集上VAEGAN的FID评分。我们的方法比VAEGAN更好。请注意，我们也尝试了MDGAN，但它对这两个数据集都有严重的模式崩溃。因此，我们没有在我们的论文中报告其结果。最后，我们将我们的模型与最近的SN-GAN [23]在具有标准CNN架构的CIFAR-10和STL-10数据集上进行了比较。实验设置与[23]相同，并且FID是用于比较的分数。结果见表2的第3至第5行除了使用合成数据集报告的设置外，我们还有针对图像数据集的其他设置和消融研究，详见补充材料第5节。结果证实了我们的模型的稳定性，我们的方法优于SN-GAN在CIFAR-10d在et。实际上，在[ 23]中，由于“高级别”操作系统功能的存在，我们的“高级别”操作系统通常会与FID进行比较= 22.95，相比之下SN-GAN的FID = 25.5 值得注意的是，我们的模型是用默认参数λp= 1训练的。0且λr= 1。0.我们的发电机14Ngoc-Trung Tran、Tuan-Anh Bui和Ngai-Man Cheung表2. 将FID评分与其他方法进行比较。前两行（CelebA，CIFAR-10）遵循[20]的实验设置，其余行使用标准CNN架构遵循[23]NS GAN LSGAN工作组开始VAEGAN SN-GAN Dist-GANCelebACIFAR-10五十八0±2。7五十八6±2。1五十三6±4。267岁1±2。9二十六岁8±1。252岁9 ±1。3三十八岁。1±1。1七十一4±1。1二十七岁5±1。9五十八1±3。2--23岁7±0。3四十五6±1。2CIFAR-10-----29.328.23CIFAR-10（铰链）-----25.522.95STL-10（铰链）-----43.236.19需要大约200K次迭代，最小批处理大小为64。当我们以类似于[ 23]的方式对STL- 10 d应用我们的“hin ge los”版本时，我们的模型可以获得该数据集的FID得分36.19，这也优于SN-GAN（FID = 43.2）。6结论我们提出了一个强大的基于AE的GAN模型与新的距离约束，称为Dist-GAN，可以有效地解决模式崩溃和梯度消失。我们的模型不同于以往的工作：（ i ）我们提出了一个新的 gen-e-r-at 或 objec-tiveusing“discrimin at or - s c or ed d i s t ance”。（ii）我们选择通过将接收到的采样视为“真实”采样来将鉴别器的收敛与AE的收敛相耦合。（iii）我们倾向于通过“横向对比度”来调整AE，以防止发生或落入模式崩溃设置。大量的实验表明，我们的方法可以近似多模态分布。我们的方法大大减少了MNIST-1 K的模式崩溃我们的模型是稳定的，不会遭受模式崩溃MNIST，CelebA，CIFAR-10和STL-10数据集。此外，我们实现了更好的FID分数比以前的作品。这些证明了所提出的Dist-GAN的有效性未来的工作将我们提出的Dist-GAN应用于不同的计算机视觉任务[16，14]。确认这项工作得到了意法半导体和国家研究基金（NRF）、PrimeMinister办公室、Si n ga p or e u n d e r C or p or at e La bortory @ UniversityScheme（计划名称：STEE Infosec-SUTD Corporate Laboratory）。Dist-GAN：一种基于距离约束的改进GAN15引用1. https://github.com/LynnHo/DCGAN-LSGAN-WGAN-WGAN-GP-Tensorflow2. https://github.com/carpedm20/DCGAN-tensorflow3. Arjovsky，M.，Bottou，L.：训练生成式对抗网络的原则性方法。arXiv预印本arXiv：1701.04862（2017）4. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein生成对抗网络ICML（2017）5. Berthelot，D.，Schumm，T.，梅斯湖：开始：边界平衡生成对抗网络。arXiv预印本arXiv：1703.10717（2017）6. Burda，Y.，格罗斯河Salakhutdinov，R.：重要性加权自动编码器。 arXiv预印本arXiv：1509.00519（2015）7. 切，T.，李，Y.，Jacob，A.P.，Bengio，Y.，李伟：模式正则化生成对抗网络。CoRR（2016）8. 陈旭，段玉，Houthooft河Schulman，J.，萨茨克弗岛Abbeel，P.：Infogan：通过信息最大化生成对抗网络进行可解释表示学习在：神经信息处理系统的进展pp.2172-2180（2016）9. 别这样，杰， Kr¨ahenbu¨hl，P.，达尔尔，T. ：一个开发者面临着一个很大的挑战。预印本：1605.09782（2016）10. Dumoulin，V.，贝尔加齐岛Poole，B. Lamb，A.，Arjovsky，M.，马斯特罗彼得罗岛Courville，A.：逆向学习推理。arXiv预印本arXiv：1606.00704（2016）11. Goodfellow，I.：Nips 2016教程：生成对抗网络。arXiv预印本arXiv：1701.00160（2016）12. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS。pp. 2672-2680（2014年）13. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.C.：改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展。pp. 576714. Guo，Y.，中国科学院，Cheung，N.M.：使用多级相似性的高效和深度的人重新识别在：CVPR（2012）15. Heusel，M.，Ramsauer，H.Unterthiner，T.，内斯勒湾Hochreiter，S.：两个时间尺度更新规则训练的甘斯在：神经信息处理系统的进展。pp. 662616. Hoang，T.，去吧T. T Le Tan，D.K.，Cheung，N.M.：用于图像检索的选择性深度卷积特征。2017年ACM多媒体会议论文集。pp. 1600-1608. ACM（2017）17. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。ArXiv预印本arXiv：1312.6114（2013）18. Larsen，A.B.L.，Sønderby，S.K.，Larochelle，H. Winther，O.：使用学习的相似性度量对像素之外的像素进行自动编码arXiv预印本arXiv：1512.09300（2015）19. Li，C.，Alvarez-Melis，D.，徐，K.，Jegelka，S.，Sra，S.：分布式对抗网络。arXiv预印本arXiv：1706.09549（2017）20. Lucic，M.，Kurach，K.，Michalski，M.，Gelly，S.，Bousquet，O.：Gans是平等的吗？一项大规模的研究CoRR（2017）21. Makhzani，A.，Shlens，J.，Jaitly，N.，Goodfellow，I.：对抗性自动编码器。国际学习代表大会（2016）16Ngoc-Trung Tran、Tuan-Anh Bui和Ngai-Man Cheung22. 梅斯湖Poole，B. Pfau，D.，Sohl-Dickstein，J.：展开的生成对抗网络。ICLR（2017）23. Miyato，T.，Kataoka，T. Koyama，M.，Yoshida，Y.：生成对抗网络的谱归一化。ICLR（2018）24. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习。arXiv预印本arXiv：1511.06434（2015）25.

下载后可阅读完整内容，剩余1页未读，立即下载