利用预训练模型提升GAN训练效果

180 浏览量更新于2024-06-20 收藏 2MB PDF 举报

"集成现成模型改进GAN训练" 在计算机视觉领域，生成对抗网络（GANs）已经成为图像合成和视觉识别的重要工具。然而，传统的GAN训练通常从零开始，不利用预训练的视觉模型。本研究探讨了如何利用大规模预训练的计算机视觉模型来提升GAN的训练效果。 GANs由生成器（Generator）和判别器（Discriminator）两部分构成，它们通过对抗性的训练过程相互促进，生成器试图创造出逼真的图像，而判别器则尝试区分真实图像和生成器产生的假图像。尽管GANs在图像生成上取得了显著的进步，但它们的训练过程仍然存在挑战，如模式塌陷和训练不稳定等。研究者发现在GAN的判别器中集成预训练的计算机视觉模型可以显著提高其性能。这些预训练模型，如VGG-16、Swin Transformer和Vision Transformers（ViT），在大规模数据集上经过充分训练，已经学会了丰富的视觉特征，这可能有助于判别器更好地理解并区分真实和伪造的图像。研究中提出了一个有效的方法，通过检测预训练模型嵌入空间中真实和虚假样本的线性可分性，选择最精确的模型，并逐步将它们加入到训练集成中。实验结果表明，这种方法在数据有限和大规模设置下都能改进GAN的训练。即使只有10,000个训练样本，该方法在LSUN-CAT类别上的FID（Fréchet Inception Distance）得分与使用160万个图像训练的StyleGAN2相当。在完整数据集上，对于LSUN的猫、教堂和马类，该方法提升了FID分数，最多达到2倍的改进。这一发现揭示了预训练视觉模型的潜在价值，它们可以作为知识源来辅助生成模型的学习。这为未来GAN训练提供了一个新的方向，即利用预训练的视觉识别模型来增强生成器和判别器的能力，尤其是在数据有限的情况下。此外，由于预训练模型的选择对性能有显著影响，因此，选择和整合最合适的模型是优化GAN训练的关键。这项工作为GAN训练引入了一种新的策略，即通过集成预训练模型来增强判别器的性能，这不仅可以改善生成图像的质量，还有助于解决GAN训练中的稳定性问题。这表明，预训练的计算机视觉模型的集体知识确实可以用于改进GAN的训练，为未来的生成模型研究开辟了新的道路。

10653

17.5

16.7

12.2

类似FID，

~0.7%数据

13.2

12.6

7.9

6.9

4.0

19.7

19.4

StyleGAN2

（

ADA

）

DiffAugment

13.5

9.6

十一点二

我

5.1

6.1

6.7

4.5

4.3

1.7

训练验

证

FID

n=1

′

41.1

43.3

LSUN C在

LSUN C

HURCH

1k 5k 10k1.6M

训练样本

千

126

千

训练样本

图

2. LSUN C

AT和

LSUN C

HURCH

的性能

。我们在不同大小的训练样本和完整数据集上与领先的方法

StyleGAN 2-ADA [39]

和

DiffAugment [101]

进行了比较。我们的方法优于他们的一个很大的保证金，特别是在有限的样本设置。对于

LSUN C

，

我们

实现了与

StyleGAN2 [ 42 ]

类似的

FID

，它只使用

在全数据集上训练。数据集的

1.0

样式

GAN 2-

ADA

1.0

我们

训练相应的鉴别器

{

}

我们添加小

分类器头

{

}

以测量

之间的间隙

0.8

0.6

0.8

0.6

和P

预训练模型的特征空间中的

期间

0.4

0.2

0.0

0M 1M 2M 3M 4M 5M 6M

迭代

0.4

0.2

培训

验证

3M 4M 5M 6M

迭代

在训练之后，特征提取器

被冻结，并且仅分类器头

部被更新。基于预训练的特征提取器，用来自D的梯度

和鉴别器

更新生成器G。通过这种方式，我们建议在

对抗性

图3.培训和验证准确度w.r.t.在FFHQ 1 k数据集上训练我们基

于DINO [11我们基于预训练特征的神经网络在验证真实图像

时具有更高的准确性

GAN训练的时尚，我们称之为

视觉辅助对抗

训练：

视觉辅助对抗损失

从而显示出更好的通用性。在上述训练中，在

迭代时添加

视觉辅助对抗性损失。

min

Max

，

{Cn}

（

，

）

中

国

n=1

（

，

）

，

（二）

理想情况下，测量器应测量P

和P

之间的间隙，并

将发生器引导至P

。然而，在实践中，大容量鉴别器

很容易在给定的训练集上过拟合，特别是在有限的数

据范围内[39，101]。不幸的是，如图3所示，即使我们

采用最新的可微数据扩充[39]来减少过拟合，但该方法

仍然倾向于过拟合，无法在验证集上表现良好此外，

人工智能可能会关注人类无法识别但对机器明显的工

件[85]。

为了解决上述问题，我们建议将一组不同的深度特

征表示作为我们的区分，

其中D

。

这里，

是预训练特征上的小的可训练头。上述训

练目标涉及基于所有可用的预训练模型Fn的平均损失

之和。在每次训练迭代中解决这个问题将是计算和内

存密集型的。使用所有预训练的模型将迫使批量大小

显着减少，以将所有模型放入内存中，这可能会损害

性能[9]。为了绕过计算瓶颈，我们自动选择K

个

模型

的一个小子集，其中K N：

nator这种新的监督来源可以在两个方面使我们受益。

首先，训练一个浅层分类器，

min

Max

、

{

}

（

，

）

（

，

）

，

（

）

k=1

特征是使深度网络适应小规模数据集的常用方法，同

时减少过拟合[16，29]。如图3所示，我们的方法大大

减少了过拟合。其次，最近的研究[6，95]表明，深度

网络可以从低级视觉线索（边缘和纹理）到高级概念

（对象和对象部分）捕获有意义的视觉概念。建立在

这些特征上的神经网络可能更好地匹配人类感知[98]。

3.1.

制剂

其中

表示对应

于第

个所选模型的

，并且

∈

，

. -

是的

是的，

}。

3.2.

模型选择

我们选择的模型，其现成的特征空间最能区分样本

与真实和虚假的分布。给定预训练模型

模型集合中最强的

adversary

是

，其中

给定一组预训练的特征提取器

}

，它学会处理不同的视觉任务，我们

arg

max

{

max

（

′

，

）

}

，

其中

′

[

医

]

真菌

;

真菌

（四）

精度

0. 0

个月

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

利用预训练模型提升GAN训练效果

用集成驱动器优化GaN性能

WGAN_GP:“改进的Wasserstein GANs训练”的Keras模型和张量流优化

Paddle的预训练模型工具包。(400多个模型，包括图像，文本，音频，视频和跨模态，易于推理和服务).zip

【数据增强】：GAN在数据增强中的应用：提升机器学习模型性能的秘诀

YOLOv5算法数据集选择与预处理指南：为模型训练打下坚实基础

【YOLOv8训练数据优化法】：五步提高模型准确度与泛化力（实战攻略）

数据增强的力量：YOLOv8提升模型泛化能力的秘诀

【PyTorch高级数据增强技术】：提高模型泛化能力的关键步骤

简单的基于 Kotlin 和 JavaFX 实现的推箱子小游戏示例代码

基于simulink建立的PEMFC燃料电池机理模型（国外团队开发的，密歇根大学)，包含空压机模型，空气路，氢气路，电堆等模型 可以正常进行仿真

最新资源

基于simulink建立的PEMFC燃料电池机理模型（国外团队开发的，密歇根大学)，包含空压机模型，空气路，氢气路，电堆等模型可以正常进行仿真