改进的 Wasserstein GAN 模型与训练技巧

需积分: 13 2 下载量 2 浏览量 更新于2024-07-14 收藏 1.01MB PDF 举报
"这篇资料主要介绍了Wasserstein GAN(WGAN)及其改进,作者包括Martin Arjovsky、Soumith Chintala、Léon Bottou等人,并提到了Ishaan Gulrajani等人的工作。内容涵盖了为什么传统的JS散度不适合GAN训练以及WGAN和Least Square GAN(LSGAN)的区别。" 在深度学习领域,生成对抗网络(Generative Adversarial Networks, GANs)是一种强大的模型,用于生成逼真的数据,如图像或音频。然而,原始的GANs在训练过程中可能会遇到不稳定性和模式崩溃等问题。其中,JS散度(Jensen-Shannon Divergence)作为评估生成器(Generator, 𝑃𝐺)与真实数据分布(Data Distribution, 𝑃𝑑𝑎𝑡𝑎)之间差异的常用指标,存在一些固有问题。 在大多数情况下,由於数据分布和生成器分布在高维空间中都是低维流形,它们之间往往没有重叠或者重叠程度很低。JS散度在这种情况下会达到对数2的最大值,即使两个分布有重叠,如果采样不足,也可能导致JS散度无法准确反映分布之间的距离。因此,JS散度不适合作为衡量GAN性能的指标,因为它可能会使模型陷入一个均衡状态,即生成器和判别器都停止改进。 为了解决这个问题,研究人员提出了Least Square GAN (LSGAN)。LSGAN将二分类问题改为回归问题,用线性函数替换sigmoid激活函数,使得损失函数更加平滑,有助于避免模型在训练过程中的震荡。但即使如此,LSGAN仍然可能遇到生成器和判别器在某些情况下停滞不前的问题。 Wasserstein GAN(WGAN)是另一个重要的改进,由Martin Arjovsky等人提出,后来Ishaan Gulrajani等人对其进行了优化。WGAN引入了 Wasserstein 距离(也称为Earth Mover's Distance),它能更好地度量两个概率分布之间的“距离”,即使它们没有重叠。Wasserstein距离考虑了将一个分布转换为另一个分布所需的最小“工作量”(即“土方工程”),从而提供了一个更为稳定和有意义的训练目标。通过限制判别器的权重范数,可以确保WGAN的训练过程更加稳定,减少了模式崩溃的可能性。 总结来说,WGAN和其改进版Wasserstein GANs解决了传统GAN训练中的稳定性问题,通过使用Wasserstein距离,提供了更有效的优化目标,从而改善了生成器和判别器的协同学习过程。此外,LSGAN的线性损失函数也对提高训练效果有所贡献。这些方法的引入,对于理解和优化GAN的训练过程具有重要意义,推动了生成模型在多个领域的应用,如图像生成、视频生成和自然语言处理等。