集成现成模型改进GAN训练

51 浏览量更新于2023-10-25 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10651zzFk=1◦{}F集成现成模型进行GAN训练努普尔·库马里1张理乍得2伊莱·谢赫特曼2朱君燕11卡内基梅隆大学2Adobe摘要大规模训练的出现产生了一个强大的视觉识别模型的核心。然而，生成模型，如GAN，传统上是以无监督的方式从头开始训练的。来自大量预先训练的视觉模型的集体“知识”是否可以用来改进GAN训练？如果是这样，有这么多的模式可供选择，应该选择哪一个（或多个），以及以何种方式最有效？我们发现，预训练的计算机视觉模型可以显着提高性能时，在一个集成的鉴别器。值得注意的是，所选模型的特定子集极大地影响性能。我们提出了一种有效的选择机制，通过探测预训练模型嵌入中真实和虚假样本之间的线性可分性，选择最准确的模型，并逐步将其添加到训练集成。有趣的是，我们的方法可以在有限的数据和大规模设置中改进GAN训练。仅给定10k个训练样本，我们在LSUN C AT上的FID与在160万张图像上训练的StyleGAN2相匹配。在完整的数据集上，我们的方法通过以下方式改进了FID：1 .一、5至2×在猫，教堂，和马类的LSUN。1. 介绍图像生成本质上要求能够捕获和建模真实世界视觉现象中的复杂统计数据。在监督和自我监督学习技术的成功推动下，计算机视觉模型[15，17，33，66，78]已被证明在捕获有用的代表方面是有效的在大规模数据上训练时的表现[69，92，103]。这对生成建模有什么潜在的影响？如果有一天，完美的计算机视觉系统可以回答关于任何图像的任何问题，那么这种能力是否可以用来改进图像合成模型呢？令人惊讶的是，尽管合成和分析之间存在上述联系，但最先进的生成式对抗网络（GAN）[9，39，40，101]是在没有这种预训练网络的帮助下以无监督的方式进行由于研究生态系统中有大量有用的模型，这是一个错过的探索机会。预先训练的视觉知识能代表-F∈KzGDD1F-1VGG-16 Swin-T（分类）（检测）Swin-TViT（CLIP）（细分）DKSwin-T（MoBY）ViT（DINO）FK：现成的模型库CKC-1图1. 视觉辅助GAN训练。模型库由广泛使用的最先进的预训练网络组成。我们自动选择一个子集FK从，它能最好地区分真假分布。我们的训练过程包括创建一个原始的BHD的合奏和鉴别器Dk=Ck基于所选现成模型的特征空间的F模型。C语言是一种可以训练的技能冻结的预训练特征。GAN培训实际上受益？如果是这样，那么有这么多的模型、任务和数据集可供选择，应该使用哪些模型，以及它们以什么方式最有效？在这项工作中，我们研究了使用预训练的深度特征提取器的“银行”来帮助生成模型训练。具体来说，GAN是用一个用于不断学习区分真实样本和生成样本的相关统计数据的来缩小这个差距。天真地使用这种强大的，预先训练的网络作为一个神经网络会导致过度拟合和过度使用生成器，特别是在有限的数据设置中。我们表明，冻结预训练的网络（顶部有一个小的，轻量级的学习分类器，如图1所示）在与原始的学习鉴别器一起使用时提供了稳定的训练此外，集成多个预先训练的网络鼓励生成器匹配真实分布，在不同的，互补的特征空间。10652×∼∼∼−X为了选择哪些网络工作得最好，我们建议使用一种自动模型选择策略，基于特征空间中真实和虚假图像的线性可分性，并从一组可用的预训练网络中逐步添加监督。此外，我们使用标签平滑[72]和可微增强[39，101]来进一步稳定模型训练并减少过拟合。我们在有限和大规模样本设置的几个数据集上进行实验，以显示我们的方法的有效性。我们改进了FFHQ[41]和LSUN [92]数据集的最新技术，给定FID度量的2-3个训练样本[35]。对于LSUN CAT，我们将FID与StyleGAN2在完整数据集（1.6M图像）上训练，只有10k个样本，如图2所示。在全尺寸数据设置下，我们的方法将LSUN C AT的FID从6. 86比3 98，LSUN CHURCH从4。28比1 72，和LSUN HORSE从4。09比2 11个国家。最后，我们可视化我们学习的模型的内部表示以及训练动态。在www.example.com上查看我们的代码https://github.com/nupurkmr9/vision-aided-gan。该论文的完整版本可在www.example.com上https://arxiv.org/abs/2112.09130。2. 相关工作改善GAN训练。自GAN引入以来[30]，架构变化[40，41，67]，培训计划[38，96]，以及目标函数[4，5，21，24，54，55]。学习目标通常旨在最小化真实分布和伪分布之间的不同类型的差异。鉴别器通常从头开始训练，并且不使用预先训练的网络。特别是对于有限的数据设置，鉴别器容易过拟合训练集[39，90，101]。预训练模型在图像合成中的使用。预训练模型已被广泛用作感知损失函数[23，27，37]，以测量输出图像与深度特征空间中的目标图像之间的距离这种损失已被证明对条件图像合成任务有效，例如超分辨率[47]，图像到图像转换[14，62，86]和神经风格转移[27]。Zhang等人。[98]表明，深度特征确实可以比经典度量更好地匹配人类对图像相似性的感知。Sungatullina等人。[80]提出了一种感知损失模型，将感知损失和对抗损失结合起来，用于不成对的图像到图像翻译。这个想法最近被CG2real [68]上的并发工作所使用另一项最近的工作[26]提出使用预训练的对象检测器来检测图像中的区域，并训练对象特定的鉴别器。我们的工作受到知觉鉴别器的启发[80]，但在三个方面有所不同。首先，我们专注于无条件GAN训练的不同应用，而不是图像到图像的翻译。其次，而不是使用一个单一的VGG模型，我们集成了一组不同的特征表示，相互补充。最后，我们提出了一个自动模型选择方法，找到对给定领域有用的模型同时进行的工作[74]提出使用随机投影减少感知鉴别器[80]的过拟合，并实现更好和更快的GAN训练。与我们的工作松散相关的是，其他工作在模型训练期间使用预训练模型进行聚类，编码和最近邻搜索Logo-GAN [71]使用深度特征来获得用于条件GAN训练的合成聚类标签。InclusiveGAN [93]通过强制每个真实图像接近深度特征空间中的生成图像来提高生成样本的Shocher等人。[76]使用基于编码器-解码器的生成模型和预训练的编码器进行图像到图像的翻译任务。预训练的特征也被用来调节GAN中的生成器[13，53]。与上述工作不同，我们的方法赋予鉴别器与预训练模型，不需要改变骨干生成器。在图像编辑中使用预训练模型。一旦生成模型已经被训练，预训练的模型也已经用于图像编辑值得注意的示例包括具有感知距离的图像投影[1，105]，使用CLIP进行文本驱动的图像编辑[64]，使用属性分类器模型找到可编辑方向[75]，以及使用预训练的分割网络提取语义编辑区域[106]。在我们的工作中，我们专注于利用计算机视觉模型的丰富知识来改进模型训练。迁移学习。大规模监督和自监督模型学习有用的特征表示[11，15，34，44，66，89]，可以很好地转移到看不见的任务，数据集和域[22，36，43，61，70，84，91，94，95]。在生成建模中，最近的工作提出从源域（例如，面向）到新域（例如，一个人的肖像）[31，50，56，59，60，87，88，99]。与Dif-参考数据增强技术[39，83，101，102]，它们显示出更快的收敛速度和更好的采样质量，为有限的数据设置。与他们不同的是，我们转移的知识学习的特征表示的计算机视觉模型。这使我们能够大规模利用来自不同来源的知识。3. 方法生成对抗网络（GAN）旨在从有限的训练集xPX中近似真实样本的分布。生成器网络Gi映射潜在向量z P（z）（例如，正态分布）到样本G（z）Pθ。反向训练神经网络D以区分连续变化的生成分布Pθ和目标真实分布PX。GAN执行minimax优化minGmaxDV（D，G），其中V（D，G）= Ex<$P[log D（x）]+ Ez<$P（z）[log（1D（G（z）]。（一）1065317.516.712.2类似FID，~0.7%数据13.212.67.96.96.94.019.719.4StyleGAN2（ADA）DiffAugment13.59.6十一点二我5.16.16.74.54.31.7训练验证FIDFIDn=1--Σn=1--k=1Σn=1nCn′41.143.340302010LSUN C在LSUN CHURCH201510501k 5k 10k1.6M训练样本01千2千10千126千训练样本图2. LSUN CAT和LSUN CHURCH的性能。我们在不同大小的训练样本和完整数据集上与领先的方法StyleGAN 2-ADA [39]和DiffAugment [101]进行了比较。我们的方法优于他们的一个很大的保证金，特别是在有限的样本设置。对于LSUN CAT，我们实现了与StyleGAN2 [ 42 ]类似的FID，它只使用0在全数据集上训练。数据集的7%1.0样式GAN 2-ADA1.0我们训练相应的鉴别器{Dn}N . 我们添加小分类器头{Cn}N以测量PX之间的间隙0.80.60.80.6和Pn=1预训练模型的特征空间中的θ期间0.40.20.00M 1M 2M 3M 4M 5M 6M迭代0.40.2培训验证3M 4M 5M 6M迭代在训练之后，特征提取器Fn被冻结，并且仅分类器头部被更新。基于预训练的特征提取器，用来自D的梯度和鉴别器Dn更新生成器G。通过这种方式，我们建议在对抗性图3.培训和验证准确度w.r.t.在FFHQ 1 k数据集上训练我们基于DINO [11我们基于预训练特征的神经网络在验证真实图像时具有更高的准确性GAN训练的时尚，我们称之为视觉辅助对抗训练：视觉辅助对抗损失从而显示出更好的通用性。在上述训练中，在2M迭代时添加视觉辅助对抗性损失。minGMaxD，{Cn}NV（D，G）+中国n=1 V（xD`n，G），（二）理想情况下，测量器应测量PX和Pθ之间的间隙，并将发生器引导至PX。然而，在实践中，大容量鉴别器很容易在给定的训练集上过拟合，特别是在有限的数据范围内[39，101]。不幸的是，如图3所示，即使我们采用最新的可微数据扩充[39]来减少过拟合，但该方法仍然倾向于过拟合，无法在验证集上表现良好此外，人工智能可能会关注人类无法识别但对机器明显的工件[85]。为了解决上述问题，我们建议将一组不同的深度特征表示作为我们的区分，其中D n= C n<$F n。这里，Cn是预训练特征上的小的可训练头。上述训练目标涉及基于所有可用的预训练模型Fn的平均损失之和。在每次训练迭代中解决这个问题将是计算和内存密集型的。使用所有预训练的模型将迫使批量大小显着减少，以将所有模型放入内存中，这可能会损害性能[9]。为了绕过计算瓶颈，我们自动选择K个模型的一个小子集，其中K N：Knator这种新的监督来源可以在两个方面使我们受益。首先，训练一个浅层分类器，minGMaxD、{Ck}KV（D，G）+ V（D_k，G），（3）k=1特征是使深度网络适应小规模数据集的常用方法，同时减少过拟合[16，29]。如图3所示，我们的方法大大减少了过拟合。其次，最近的研究[6，95]表明，深度网络可以从低级视觉线索（边缘和纹理）到高级概念（对象和对象部分）捕获有意义的视觉概念。建立在这些特征上的神经网络可能更好地匹配人类感知[98]。3.1. 制剂其中Dk =CkFk表示对应于第k个所选模型的k，并且k ∈{1，. - 是的- 是的，K}。3.2. 模型选择我们选择的模型，其现成的特征空间最能区分样本与真实和虚假的分布。给定预训练模型模型集合中最强的adversary是Fk，其中给定一组预训练的特征提取器F={Fn}N，它学会处理不同的视觉任务，我们k=argmax{maxV（Dn′，G）}，其中Dn′ =Cn′ [医]真菌;真菌（四）精度精度0. 02个月10654联系我们F∼--FF--FF {}◦算法1GAN训练与视觉辅助对抗损失。输入：G，D用标准GAN损失训练，用于基线迭代次数。现成的模型库F={Fn}N。19.6018.016.0e解析）sNet（法线）基线训练数据{xi}。n=1VGG-16（分类）Swin-T（分割）超参数：K：要使用的预训练模型的最大数量。Tk：k=1K：添加下一个预训练模型之前的训练间隔。1：选定的模型集=2：对于k=1至K，3：使用等式2选择最佳模型Fk∈F。414.012.010.0Swin-T（检测）Swin-T（MoBY）ViT（CLIP）ViT（DINO）0.6 0.7 0.8 0.9 1.0线性探头精度4：=Fk5：Dk=CkFkCk是一种可训练的网络工作6：=Fk7：对于t=1至Tk，8：样本x{xi}9：样本zP（z）10：使用等式11更新D，D，j，j=1，...，k311：样本zP（z）12：使用等式11更新G。313：结束14：结束输出：最佳训练集FID的G这里Fn被冻结，Cn'是预训练特征上的线性可训练头在有限的真实样本的情况下，为了计算效率，我们使用线性探测来衡量真实和虚假图像在特征空间Fn的可分性。我们将真实训练样本xi和生成图像G（zi）的并集分成训练集和验证集。对于每个预训练的模型Fn，我们训练一个逻辑线性判别器头来分类样本是来自PX还是Pθ，并在验证分裂上测量V（Dn′，G）。上述项测量负二进制交叉熵损失，并返回具有最低误差的模型较低的验证误差与线性探头的较高准确度相关，这表明这些特征对于区分真实从生成的样本和使用这些功能将提供更有用的反馈给发电机。我们用FFHQ和LSUN CAT数据集的1k个训练样本在GAN训练上进行了经验验证。图4显示，使用具有更高线性探测精度的预训练模型Fn训练的GAN通常可以实现更好的FID指标。为了整合来自多个现成模型的反馈，我们探索了模型选择和集成策略的两种变体-（经过固定次数的迭代后，K-渐进模型选择。我们发现以渐进的方式包含多个模型与K固定策略相比具有更低的计算复杂度这也有助于选择预训练模型，这些模型捕获不同的-图4. 使用预训练特征的线性探测进行模型选择。我们展示了FID与逻辑线性模型的准确性之间的相关性，该模型针对现成模型的特征进行了真实与虚假分类的训练顶部虚线是用于模型选择的StyleGAN 2- ADA生成器的FID，我们从中微调我们提出的视觉辅助对抗损失。在我们的arxiv论文中显示了对LSUNCAT的类似分析。数据分布的各个方面。例如，通过渐进策略选择的前两个模型通常是一对自监督和监督模型。出于这些原因，我们主要使用渐进策略执行所有实验。我们还展示了我们的arxiv版本中的两种策略之间的比较。讨论线性可分性作为度量的思想先前已用于通过分类器双样本测试评估GAN[52，100]。我们在工作中采用这一点来评估现有现成的鉴别器的有用性，而不是评估生成器。我们在生成建模的背景下探索这一点，并提出逐步添加下一个最佳模型来创建鉴别器的集成[123.3. 训练算法如算法1所示，我们的最终算法包括首先训练具有标准对抗损失的GAN [30，42]。给定这个基线生成器，我们使用线性探测搜索最佳的现成模型，并在训练过程中引入我们提出的损失目标在K-渐进策略中，我们在训练了与可用真实训练样本数量成比例的固定迭代次数后，基于现成模型的特征添加下一个样本新的鉴别器被添加到具有前一阶段中的最佳训练集FID的快照在训练过程中，我们通过水平翻转执行数据增强，并使用可微增强技术[39，101]和单侧标签平滑[72]作为正则化。我们还观察到，仅使用现成的模型作为判别器会导致分歧。因此，通过集成原始鉴别器和新添加的现成模型带来了益处。我们显示结果与使用三个U-Net+ReU- 净（面FID10655↓数据集StyleGAN2 DiffAugmentADA我们的（带ADA）我们的（带DiffAugment）+第1个 D+2 D+第3个 D+第1个 D+2 D+第3个 D1k 62.16 27.20 19.57 11.4310.3910.5812.3313.392k 42.62 16.63 16.06 10.17 8.73 8.189.2410.9910k 16.07 8.15 8.38 6.90 6.395.90 6.946.266.43185.75 43.32 15.49 12.9012.192k 68.03 25.70 23.32 13.44 13.3511.5112.20 11.7910k 18.59 12.56 13.25 8.37 7.136.868.19 7.907.791公里-19.38 19.66 11.39 9.78 9.569.879.942k-13.46 11.17 5.255.065.26 6.09 6.375.5610k-6.69 6.12 4.80 4.824.473.42 3.413.25表1. FFHQ和LSUN结果，训练样本从1k到10k不等。FID是用完整的数据集作为参考分布来测量的。我们根据训练集FID选择最佳快照，并报告 3 个 FID 评估的平均值在我们的（ w/ADA ）中，我们微调了 StyleGAN 2-ADA 模型，在我们的（w/DiffAugment）中，我们微调了使用DiffAgument训练的模型，同时使用相应的策略进行增强。我们的方法同时使用ADA和DiffAugment策略来增强输入到鉴别器的图像预训练的模型，并且如果线性探针精度低并且比已经在所选集合中的模型更差，则观察下一个模型的渐进添加的最小益处4. 实验在这里，我们使用StyleGAN2架构对不同分辨率的多个数据集进行了广泛的实验。我们展示了FFHQ[41]，LSUN CAT和LSUN CHURCH数据集[92]的结果，同时将训练样本大小从1k改变到10k，以及完整的数据集。对于真实世界的有限样本数据集，我们在AFHQ[18]数据集的猫，狗和野生类别上以 512分辨率和METFACES[39]以1024分辨率进行基线和指标。我们把它和-有限数据集GAN训练的最新方法， StyleGAN 2- ADA [39] 和 DiffAugment[101]。我们使用clean-classifier库[63]计算常用的Fre'chetInceptionDistance（FID）度量[35]我们还报告了在我们的arxiv版本中实验的KID [8]，精度和召回率[46]指标现成的模型。我们包括八个大规模的自监督和监督网络。具体来说，我们使用CLIP [66]，VGG-16 [78]进行实验，用于ImageNet [19]分类训练，以及自监督模型DINO [11]和MoBY [89]。我们还包括面部分析-ing [48]和面法线预测网络[2]。最后，我们在ADE-20 K[104]上训练了基于Swin-Transformer [51]的分割模型，并在MS-COCO [49]上训练了对象检测模型。所有型号的全部细节都在arxiv版本中给出。视觉辅助的建筑。对于基于预训练的模型特征的判别器Dk，我们从最后一层提取空间特征，并使用小的Conv-LeakyReLU-Linear-LeakyReLU-用于二进制分类的线性架构。在大型Transformer网络（如CLIP和DINO）的情况下，我们探索了一种工作得更好的多尺度架构。为所有图5. LSUN CAT、FFHQ和LSUN CHURCH配对sam-在1k训练数据集设置中进行比较。对于每个数据集，顶行显示基线StyleGAN 2-ADA样本，底行显示我们的方法针对相同随机样本潜在代码的样本。我们用我们的视觉辅助对抗损失来微调StyleGAN 2-ADA模型。对于相同的潜在代码，平均而言，我们的方法提高了图像质量。实验中，我们使用了三个预训练的模型选择策略在训练过程中选择。关于架构、模型训练、内存需求和超参数的详细信息在arxiv版本中提供。FFHQLSUN LSUNCHURCHCATLSUN CHURCHLSUN CATFFHQSG2-ADASG2-ADA我们我们我们SG2-ADA10656ViT（CLIP）Swin-T（MoBY）∗ViT（DINO）ViT（CLIP）100ViT（DINO）90807060Swin-T（MoBY）Swin-T（检测）Swin-T（分割）VGG-16（分类）U-Net（人脸解析）U-Net+ResNet（法线）DatasetStyleGAN2（F）我们的（含ADA） ADMFID↓ PPL↓ FID↓ PPL↓ FID↓FFHQ-10242.98144.62 3.01127.58-LSUN CAT-256 6.86 437.133.98 420.155.57LSUN CHURCH-256 4.28343.02 1.72388.94-LSUN HORSE-256 4.09 337.982.11 307.122.5750款GAN2 ADA+ 第1个D+ 第二D+ 第三个D表2.全数据集设置的结果。我们改进了FID指标渐进式包围图6.在FFHQ 1 k上进行K-渐进集成训练期间，现成模型的线性探测精度。对于StyleGAN 2-ADA，ViT（DINO）模型具有最高的准确性，并首先被选择，然后是ViT（CLIP），然后是Swin-T（MoBY）。当我们使用视觉辅助判别器进行训练时，大多数预训练模型的线性探针我们所有实验的类似趋势都显示在arxiv版本中。4.1. FFHQ和LSUN数据集表1显示了当训练样本从1k到10k变化时，FFHQ，LSUN CAT和LSUN CHURCH数据集的方法结果FID的所有设置的相当大的增益显示了我们的方法在有限的数据情况下的有效性。为了定性分析我们的方法和StyleGAN 2-ADA之间的差异，我们在图5中显示了给定相同潜在代码的两个模型的随机生成样本。我们的方法提高了最差样本的质量，特别是对于FFHQ和LSUN CAT。图6显示了当我们逐步添加下一个参数时，线性探测在预训练模型特征上的准确性。为了分析判别器的过拟合行为，我们还评估了它在迭代中的训练和验证准确性。与基线StyleGAN 2- ADA训练相比，我们的视觉辅助训练在验证集上显示出更好的泛化能力，特别是对于有限数据的情况，如图3所示。全数据集训练。在完整的数据集设置中，我们使用我们的方法微调训练的StyleGAN 2（STYL-F）[42]生成器。表2显示了StyleGAN2和ADM [20]与我们使用三个视觉辅助鉴别器训练的方法的比较。我们报告了FID和感知路径长度（PPL）[41]（W空间）度量。在LSUNC AT上，我们的方法将FID从6. 86比3 98，在LSUN CHURCH从4。28比1 72，在LSUNHORSE，4.第一章09比2 11个国家。对于FFHQ数据集，我们的方法将PPL度量从144提高到144。62到12758，在FID度量上具有类似的性能。感知路径长度已显示与图像质量相关，并表明发生器潜在空间中的平滑映射[42]。我们还将用我们的方法训练的生成器与在arxiv版本中使用GAN解剖[7]的StyleGAN2进行了人类偏好研究。正如[45]所建议的，我们在亚马逊土耳其机器人（AMT）上进行了人类偏好研究，以验证我们的结果与人类判断一致在LSUN类别上有很大的优势。在FFHQ数据集上是指从ADM论文中直接报道的[20]。随机最差图7. 我们的方法与StyleGAN 2-ADA在AFHQ上的定性比较。左：两种方法随机生成的样本右图：对于我们的模型和StyleGAN 2-ADA，我们独立生成5 k个样本，并找到与真实图像分布相比的最差情况我们首先使用真实图像的Inception[81]特征空间拟合高斯模型。然后，我们计算给定高斯先验的每个样本的对数似然，并显示具有最小对数似然（最大马氏距离）的图像。提高样品质量。我们比较了StyleGAN 2-ADA和我们的方法在LSUN CAT，LSUN CHURCH和FFHQ数据集的1k个样本上训练。由于我们使用我们的方法微调了StyleGAN 2-ADA，因此相同的潜在代码对应于两个模型的相似图像，如图5所示。对于随机采样的潜码，我们显示了由我们的方法生成的两个图像线性探头精度AFHQ WILDAFHQ CATAFHQ DOG我们SG2-ADASG2-ADA我们我们SG2-ADA10657±±±∼↓数据集传输StyleGAN 2 StyleGAN 2-ADA Ours（w/ADA）AFHQ DOGFID↓22.35KID↓10.05回忆↑0.20FID↓7.60KID↓1.29回忆↑0.47FID↓4.73KID↓0.39回忆↑0.60✓9.283.130.427.521.220.434.810.370.61AFHQ CAT5.161.720.263.290.720.412.530.470.52✓3.481.070.473.020.380.452.690.620.50AFHQ WILD3.620.840.153.000.440.142.360.380.29✓2.110.170.352.720.170.292.180.280.38MET FACES57.262.500.3417.561.550.2215.441.030.30表3.AFHQ和METFACES的结果。我们的方法，在一般情况下，结果在较低的FID和较高的召回。在传输设置中，我们根据类似于[39]的FreezeD技术[ 56 ]更新D，从具有类似分辨率的FFHQ训练模型进行微调。我们选择具有最佳FID的快照，并显示三次评估的平均值。KID以×103单位显示[39]。方法桥AnimalFace猫AnimalFace狗FID↓KID↓ FID↓ KID↓FID↓ KID↓DiffAugment 54.50 15.68 43.87 7.56 60.50 20.13ADA-38.01 5.61 52.59 14.32+第一D44.18 9.27 30.62 1.15 34.23 2.01+第二名D 33.89 2.3528.01 0.37 33.031.37+第三D34.35 2.9627.35 0.34 32.56 1.67表4. 100次拍摄Bridge数据集[101]，AnimalFace猫和狗[77]类别的低拍摄生成结果与用于少量GAN训练的领先方法相比，我们的方法显着提高了FID和KID。KID以×103单位显示。和StyleGAN 2-ADA持续6秒，并要求选择更逼真的图像。我们对每个数据集50个测试对象进行这项研究，每个对象总共显示55张图像。在FFHQ数据集上，人类对我们方法的偏好是53。8% 1. 3 .第三章。对于LSUNC HURCH数据集，我们的方法优于StyleGAN 2-ADA，60。百分之五1 .一、7，以及LSUN C AT数据集63。百分之五1.一、六、这些结果与改进的FID度量相关我们还显示了使用SwAV [10]模型的特征进行的FID评估，该模型在我们的训练[45，57]期间没有使用，以及我们在arxiv版本中研究的示例图像。4.2. AFHQ和 MET FACES为了进一步评估我们的方法在真实世界有限的样本数据集上的效果，我们在METFACES（1336张图像）和AFHQ狗、猫、野生动物类别上进行了实验，每个类别有5k张图像。我们在两种设置下与StyleGAN 2-ADA进行比较，（1）使用我们的损失微调StyleGAN 2-ADA模型（2）使用FreezeD[56]在相同分辨率的FFHQ数据集（传输设置）上训练StyleGAN 2模型。第二个设置评估的转移学习能力时，微调从一个发电机训练在不同的域。表3显示了我们的方法与StyleGAN 2和StyleGAN 2-ADA在多个指标上的比较。我们优于或执行与现有的方法相比，一般。图7显示了我们的方法和StyleGAN 2-ADA之间的定性比较。型号FFHQ 1k LSUN CAT1k选择+第1个D +2D +第3个D+第1个D +2D +第3个D最佳11.43十点三十九分10.5815.4912.90 十二点十九分随机15.48十二点五十四分11.9219.0215.12 十四点二十八分最差15.48十五点四十五分13.8819.0217.53 十七点六六表5. 在K-渐进视觉辅助训练中使用不同模型选择策略训练的模型的FID度量。第1行：具有最佳线性探头精度的型号选择。第二行：从现成的模型库中随机选择第3行：线性探头精度最低的型号选择.4.3. 低拍摄生成为了测试我们的方法对低拍摄样本的限制，我们评估我们的方法时，只有100-400个样本是可用的。我们使用AnimalFace猫（169张图像）和狗（389张图像）[77] 以及 100 张叹息桥 [101] 数据集上的方法微调StyleGAN2 模型。对于可扩展的增强，我们使用ADA，除了100次拍摄数据集，我们发现DiffAugment[101]比ADA [39]更好，因此使用它。我们的方法导致了对FID和KID度量的现有方法的相当大的改进，如表4所示。我们展示了潜在空间插值和最近邻测试在我们的arxiv文件。4.4. 消融研究我们的模型选择与随机选择。我们在前面的图4中显示，FID与视觉辅助GAN训练中的模型选择排名相关，使用单个预训练模型。为了说明K-渐进策略中模型选择的有效性，我们将其与（1）在渐进添加过程中随机选择模型，(2)选择线性探头精度最低的型号结果示于表5中。我们观察到，使用模型库中的任何预训练模型已经在FID中提供了好处，但是通过我们的模型选择，它可以进一步改进。arxiv版本中提供了关于所选现成模型的更多细节数据扩充和标签平滑的作用。在这里，我们研究可微增广的作用[39，83，我们10658↓∼FFHQ 1k LSUN CAT1k LSUN CAT1.6M242018161412100 M 1 M 2 M 3 M4 M迭代40302520150M 1M 2M 3M4M迭代7.57.06.56.05.55.00M 1M 2M 3M 4M 5M迭代我不含无标签平滑使用图8.使用1k个训练样本和LSUN CAT全数据集设置对FFHQ和LSUN C AT进行增强和标签平滑消融我们显示了当ADA [39]增强和标签平滑[72]从我们的训练中单独删除时FID的曲线图如果没有可微增强，我们的模型训练在有限的样本设置中很快就会崩溃即使对于完整的数据集，使用可微增强的视觉辅助搜索结果更好的FID。标签平滑在LSUN CAT 1k的情况下具有合理的效果，并且对FFHQ 1k略有帮助我们还将增强技术更改为DiffAugment [101]，用于原始和视觉辅助增强，并观察到它的性能与ADA相当[39]。与我们的标准对抗性损失相同的迭代次数。结果如表6所示。我们观察到，基线方法提供了边际改进，而我们的方法提供了显着的改进超过StyleGAN 2-ADA，如FID所测量的我们在arxiv版本中展示了BigGAN [9]架构的更多表6. 根据FID指标评价的其他消融研究。在训练过程中使用两个判别器（使用随机权重冻结或可训练）或标准对抗训练进行更多迭代，只会在FID中产生边际效益因此，在我们的方法的改进是通过一个合奏的原始和视觉辅助鉴别。“0”意味着FID增加到基线的两倍，因此，我们停止训练运行。[101，102]这是有效使用预训练特征的重要因素之一。标签平滑[72]进一步改善了训练动态，特别是在有限的样本设置中。我们消融了这些组件中的每一个，并在图8中显示了其对FFHQ和LSUN CAT数据集（1k样本设置）以及LSUN CAT全数据集设置的贡献。图8显示，在我们的方法中，用DiffAugment [101]替换ADA [39]增强策略也可以执行扩展。此外，在有限的样本集，没有数据增强，模型崩溃非常早期的训练，FID发散。标签平滑的作用在有限的数据设置中更加突出，例如LSUN CAT 1k。附加消融研究。在这里，我们进一步分析我们的设计选择的重要性。所有的实验都是在LSUN CAT和FFHQ上完成的。我们将我们的方法与以下设置进行比较：（1）微调ViT（CLIP）网络以及我们的视觉辅助对抗损失;（2）随机初始化特征提取器网络ViT（CLIP）;（3）使用两个判别器进行训练，其中第二个判别器与StyleGAN 2原始判别器具有相同的架构;（4）训练StyleGAN 2-ADA模型更长时间，5. 限制和讨论在这项工作中，我们建议使用现有的现成模型来帮助无条件GAN训练。我们的方法显着提高了生成的图像的质量，特别是在有限的数据设置。虽然使用多个预训练模型作为鉴别器可以改进生成器，但它有一些限制。首先，这增加了培训的理论要求。探索使用有效的计算机视觉模型[73，82]可能会使我们的方法更容易获得。其次，当只有十几个样品可用时，我们的模型选择策略在低拍摄设置中并不理想。我们观察到样本量为100的线性探头准确度的方差增加，这可能导致无效的模型选择。我们计划在未来为这些设置采用少量学习[28，79尽管如此，随着越来越多的自监督和监督计算机视觉模型的出现，它们应该被用于生成建模。本文通过转移来自大规模表示学习的知识，向改进生成建模迈出了一小步谢谢。我们感谢 Muyang Li ， Sheng-Yu Wang ，Chonghyuk（Andrew）Song对草稿的校对。我们也感谢Alexei A。Efros，Sheng-Yu Wang，Tae- sung Park和William Peebles提供了有益的评论和讨论。这项工作得到了 Adobe Inc. 的部分支持， Kwai Inc 、 SonyCorporation和Naver Corporation。FIDFIDFID方法FFHQLSUN CATLSUN CAT1k1k1.6M样式GAN 2-ADA19.5741.146.86我们的（含ViT（CLIP））11.6315.494.61Ours w/ fine-tune ViT（CLIP）✗✗✗我们的w/ ViT随机权重19.1033.776.35我们的w/multi-browser17.5937.01✗加长型GAN 2-ADA19.0739.366.5210659引用[1]Rameen Abdal，Yipeng Qin，and Peter Wonka. 如何将图像嵌入到风格的潜在空间？在ICCV，2019年。2[2]维多利亚费尔恩南德斯Abrev aya ，AdnaneBoukhayma，Philip HS Torr，and Edmond Boyer.跨模态深面法线与可停用跳过连接。在CVPR，2020年。5[3]Guillaume Alain和Yoshua Bengio使用线性分类器探针理解中间层arXiv预印本arXiv：1610.01644，2016。4[4]IsabelaAl buquerque，JoaBagioMonteiro，ThangDoan，Brean-danConsidine ， TiagoFalk ， andIoannisMitliagkas.具有多鉴别器的生成对抗网络的多目标训练。在ICML，2019。2[5] 马丁· 阿乔对凯，苏米特·钦塔尔，和L e'onBottou。Wasserstein生成对抗网络ICML，2017。2[6]David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， AgataLapedriza，Bolei Zhou，and Antonio Torralba.理解单个单元在深度神经网络中的作用。美国国家科学院院刊，2020年。3[7] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou，

下载后可阅读完整内容，剩余1页未读，立即下载