自然图像的共性拯救生成对抗网络：使用通用且无隐私风险的合成数据预训练GAN

88 浏览量更新于2023-10-26 收藏 20.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

(a) PinkNoise(b) Primitives(c) Primitives-S(d) Primitives-PS78540自然图像的共性拯救生成对抗网络：使用通用且无隐私风险的合成数据预训练生成对抗网络0Kyungjune Baek, Hyunjung Shim †0延世大学0{ bkjbkj12, kateshim } @yonsei.ac.kr0摘要0生成对抗网络的迁移学习成功地改善了低样本情况下的生成性能。然而，现有研究表明，使用单一基准数据集预训练的模型不能推广到各种目标数据集。更重要的是，预训练模型可能容易受到版权或隐私风险的攻击。为了解决这两个问题，我们提出了一种有效且公正的数据合成器，即Primitives-PS，受到自然图像的通用特性的启发。具体而言，我们利用了1）频率幅度谱的通用统计信息，2）基本形状（即通过基本形状进行图像组合）来表示结构信息，以及3）显著性的存在作为先验知识。由于我们的合成器只考虑自然图像的通用属性，因此在我们的数据集上预训练的单一模型可以一致地迁移到各种目标数据集，并且在Fréchet InceptionDistance方面甚至优于以自然图像预训练的先前方法。广泛的分析、消融研究和评估证明了我们数据合成器的每个组成部分的有效性，并为生成对抗网络的可迁移性提供了有益的见解。01. 引言0生成对抗网络（GANs）[13]是一种强大的生成模型，通过对抗训练学习隐式密度分布，可以合成复杂的数据。由于其令人印象深刻的生成质量，特别是在图像生成任务中[4, 23,30]，GANs已经广泛应用于计算机视觉中的各种下游任务，如数据增强[9]、超分辨率[25, 54]、图像翻译[1,10]和基本表示的图像合成[27,37]。尽管质量非常出色，但GANs至少需要几千张图像进行训练，这在实践中往往是困难的。这种数据收集的要求在实际应用中通常是不可行的（例如，许多宝藏的图片、濒危物种的图片或罕见疾病的医学图像）。最近，引入了迁移学习的概念来解决生成对抗网络在现实世界中的生成问题。0† Hyunjung Shim是通讯作者。0图1.我们合成数据集的可视化。我们展示了四个变体的合成数据集，最终选择了Primitives-PS以获得最佳性能。示例图像以三个不同的尺度进行了调整。0大多数情况下，训练需要几十万张图像。在实际应用中，这种数据收集要求通常是不可行的（例如，许多宝藏的图片、濒危物种的图片或罕见疾病的医学图像）。最近，引入了迁移学习的概念来解决生成对抗网络在现实世界中的生成问题。按照常见的做法，生成对抗网络的迁移学习框架首先在公开可用的大规模源数据集（例如FFHQ和ImageNet）上进行预训练，然后再使用相对较小的目标数据集进行微调。结果表明，通过迁移学习开发的生成对抗网络在生成质量和多样性方面明显优于仅使用目标数据集从头开始训练的模型。不幸的是，生成对抗网络的迁移学习效果高度依赖源数据集与目标数据集的相似程度。根据TransferGAN的研究，当源数据集与目标数据集具有共同特征时，迁移学习可以达到最佳性能。例如，当LFW是目标数据集时，使用CelebA作为源数据集可以取得最佳性能，因为它们都是人脸数据集。对于Flower或Kitchens，使用CelebA作为源数据集并不能显著提高性能。因此，需要通过测量两个数据集之间的相似性（例如FID分数）来寻找给定目标数据集的最佳源数据集。78550由于探索最佳源数据集，然后获取其预训练模型是临时的，搜索结果不能保证最佳的迁移学习配对[49]。此外，现有的源数据集都无法充分适应实际应用中的目标数据集。除了性能问题外，我们认为当前的预训练模型可能容易受到版权（请参见补充7以了解大规模数据集的潜在版权问题）和隐私问题的影响[58]。即使对于公共基准数据集，将其用于商业目的也并非总是被允许的。例如，ImageNet-1K拥有100万张图像，版权问题可能无法处理。当针对数据集的商业使用时，开发者应与每个样本的作者协商。因此，有人可能通过网络爬取来组成自己的数据集，但是过滤掉受版权保护的样本在实践中是困难的。此外，未解决的版权和隐私问题可能引发法律问题[42]。最近的研究[8, 15,18]还表明，深度生成模型容易受到成员推断攻击的影响，这意味着隐私问题仍然超出了版权问题。攻击者甚至可以在没有额外先验信息的情况下重建一个人的面部[55]。也就是说，我们可以通过攻击训练过的模型来揭示个体训练样本。随着GAN的网络容量迅速增加以提高性能，记忆效应也迅速增长。记忆效应使GAN更容易受到成员推断攻击的影响[7]。由于我们考虑的是迁移学习，有人可能会认为对源（例如预训练）数据集进行成员推断不是一个关键问题。然而，Zou等人[58]报告称，即使在迁移学习之后，仍然可以对源数据集进行成员推断（请参见补充7以获取实证证据）。在这项工作中，我们深入研究了GAN迁移学习的两个未被发现但关键的问题：1）预训练模型的泛化能力不足，2）预训练数据集的版权或隐私问题。为此，我们设计了一种用于获取预训练GAN的合成数据生成策略。由于我们的预训练模型是使用合成数据集进行计算的，因此它本质上不受版权和隐私问题的影响。此外，现有预训练模型的学习特征编码了训练数据集的归纳偏差，表现出较低的可转移性[52]。从这个教训中学到的经验是，我们确保我们的合成数据对任何数据集都是无偏的，并且不受专家知识或特定领域先验的影响。为实现这一目标，我们采用自然图像在频谱和结构上的通用特性。我们根据先前研究对自然图像的分析和观察，开发了我们的数据生成策略，即Primitives-PS。我们的设计理念建立在三个方面：1）con-0考虑到自然图像的功率谱分布，如图1（a）所示，2）反映自然图像的结构特性，如图1（b）所示，以及3）利用图像中的显著性的存在（图1（c）显示了应用2）和3）的合成数据生成的结果）。最后，我们将这三个方面结合起来，开发出我们的最终数据合成器Primitives-PS，如图1（d）所示。我们使用由我们的数据合成器生成的合成数据集预训练GAN。然后，通过将预训练模型应用于各种低样本数据集来评估所提出方法的有效性。广泛的评估和分析证实，这个单一的预训练网络1）可以有效地转移到各种低样本数据集，并且2）可以提高生成性能和收敛时间。有趣的是，我们的数据集预训练模型在转移到多个数据集时优于使用自然图像预训练的模型。我们的实证研究表明，特定数据集对于预训练GAN的偏见对于迁移学习的泛化性能是有害的。最后，我们对学习滤波器的分析提供了预训练模型可转移性的见解。代码可在https://github.com/FriedRonaldo/Primitives-PS找到。02. 相关工作02.1. 利用合成数据集0合成数据集的样本和标签可以通过预定义的过程自动和无限地生成。由于生成合成数据可以绕过繁琐的数据收集和修剪过程，先前的工作已经利用合成数据集来训练模型，并在真实数据集上取得了性能改进[19, 20, 39-41, 45,51]。域随机化[45]使用各种光照、颜色、噪声和纹理来减少模拟样本和真实样本之间的性能差距。通过这样做，使用合成数据集训练的模型有助于提高在真实数据集上的性能。傅里叶域自适应[51]提出交换合成样本和真实样本的低频分量，以减少纹理上的域差异。尽管先前的方法改善了模型在真实数据集上的性能，但生成这样的合成数据集需要领域知识的专业知识或特定软件（例如GTA-5游戏引擎[38]）。为了解决这个问题，Kataoka等人[24]利用迭代函数系统生成分形，并将分形作为分类的预训练数据集。作为一项并行工作，Baradad等人[3]观察到无监督表示学习[16]使用补丁来训练模型，这些补丁在视觉上类似于噪声补丁（来自噪声生成模型）或从GANs中提取的补丁。基于这个观察，他们生成了合成数据集。78560然而，目前没有任何研究调查用于训练GANs的合成数据生成。02.2. GANs中的迁移学习0GANs涉及独特的架构和训练策略；通过对抗竞争训练鉴别器和生成器。因此，GAN迁移学习方法应该考虑GAN的独特特点[31, 34, 35, 48, 49,56]。Transfer-GAN[49]通过将在相对较大的数据集上训练的权重转移到少量样本上训练GANs。TransferGAN还表明转移模型的性能取决于源数据集和目标数据集之间的关系。Noguchi和Harada[34]提出仅更新批归一化层的统计信息来迁移GANs。这种策略可以防止GANs过拟合，使模型即使在少量样本的情况下也能生成多样化的图像。FreezeD[31]固定鉴别器的几层，然后微调剩余的层。FreezeD改善了从FFHQ预训练模型到各种动物的迁移生成性能。尽管GAN迁移学习有所改进，但模型仍然需要一个大规模的预训练数据集。因此，它们通常会遇到版权问题，并且它们的性能对源数据集和目标数据集之间的关系非常敏感。相反，我们的目标是通过引入有效的数据合成器同时解决这两个问题。02.3. GANs中的低样本学习0为了生成高质量的图像，生成对抗网络（GANs）需要一个大规模的数据集，这样的要求可能限制了GANs的实际应用。为了减少训练样本的数量，最近的几项研究引入了数据增强来训练鉴别器[22, 47,57]。然后，生成器可以使用少量样本生成图像，而不会在结果中反映出不需要的转换，比如cutout[11]（即增强泄漏[22]）。最近，ReMix[6]利用样式空间中的插值来减少训练图像到图像翻译模型所需的图像数量。在这项工作中，我们通过迁移学习来解决使用GANs进行低样本生成的问题；通过将预训练网络迁移到低样本数据集中，使用少量样本训练GANs。03. 迈向有效的数据合成器0在这项工作中，我们的主要目标是开发一个无偏和有效的数据合成器。然后，我们使用我们的合成器生成的合成数据集来预训练GAN，从而促进低样本数据生成。为了实现无偏的数据生成，我们只考虑自然图像的通用属性，因为预训练中的归纳偏差会影响数据生成。0图2.用于表示事物的基本形状的潜力。我们只使用一条线、椭圆和矩形来表示一只猫和一座寺庙。这些示例激发了我们开发“Primitives”的动机，该方法通过简单地组合这些形状来生成数据。0数据集对GAN的迁移学习是有害的。接下来，我们介绍我们的数据合成器的三个设计原则，这些原则受到自然图像的共同特征的启发：1）学习自然图像的功率谱，2）利用自然图像中的形状基元，3）采用图像中的显著性存在。03.1. 学习自然图像的功率谱0以前的几项研究报告称，自然图像的幅度在频域中大致遵循w m = 10| f x | a + | f y |a，其中a是一个常数，很好地近似为1。受到这一发现的启发，我们通过从U(0.5,3.5)的均匀分布中随机选择a来生成合成图像，这也是[3]中建议的。具体而言，我们随机采样白噪声，然后在应用快速傅里叶变换（FFT）后对其幅度信号进行加权，权重为wm。通过对加权信号应用逆FFT，我们可以轻松计算出合成图像。我们对RGB颜色通道重复此过程，最终生成合成图像。最初，a = 1的图像被称为粉红噪声。我们将使用a�U(0.5,3.5)生成图像的方法称为“PinkNoise”。由于我们只利用自然图像的通用属性，没有对任何特定数据集的归纳偏差影响“PinkNoise”。如图1(a)所示，“PinkNoise”生成具有垂直、水平方向或颜色斑块的有趣模式。03.2. 受自然图像启发的形状基元0“自然界中的一切都是以球体、圆锥体和圆柱体为基础形成的。人们必须学会绘制这些简单的图形，然后就可以做任何他想做的事情。”0保罗∙塞尚0考虑到相位在图像中的重要性（例如，确定图像的独特外观[36]），仅靠“PinkNoise”无法表示自然图像的丰富特征；“PinkNoise”是相位谱上的随机噪声。为了在相位上具有有意义的信号，我们可以考虑1）独立建模自然图像的相位，或者2）开发不同的生成策略来同时建模幅度和相位。78570表1.频域中合成数据集和目标数据集的幅度谱之间的结构相似性指数（SSIM）。得分越高表示两者越相似。我们观察到，与L1或L2距离的趋势相同。0源目标 Obama 脾气暴躁的猫桥梁熊猫 FFHQ 平均0PinkNoise 0.8368 0.8148 0.7676 0.8328 0.8553 0.8215 Primitives 0.9309 0.93660.9198 0.9200 0.9635 0.9342 Primitives-S 0.9421 0.9463 0.9308 0.9334 0.97560.94560Primitives-PS 0.9432 0.9476 0.9307 0.9352 0.9767 0.94670与幅度谱不同，我们很少在图像的相位中找到规律性；因此，很难推导出相位谱的通用属性。此外，单独对相位和幅度进行建模可能不会产生有意义的图像，无法保留适当的结构[44]。因此，我们专注于在自然图像中寻找结构规律，因为它可以影响幅度和相位。具体而言，我们受到了自然图像可以由基本形状的组合来表示的观察启发[29]。艺术绘画中的常见做法也利用基本形状作为表示事物的基础（受到保罗∙塞尚的启发）。图2展示了使用基本形状（如椭圆、线条和矩形）对各种图像进行抽象的示例。我们发现通过基本形状进行抽象可以编码自然图像的结构信息，并消除对特定数据集的偏见。然后，我们设计了数据合成器来生成由各种基本形状组成的图像。这个合成过程的输出类似于死叶模型[14,26]的输出。死叶模型是一个早期的生成模型，通过进行镶嵌来模拟自然图像，其中它们的大小和位置是通过从泊松过程中进行采样来确定的。与死叶模型不同，我们不会填充所有区域，并使用不同的分布进行采样，因为结果图像对泊松过程的超参数非常敏感。对于位置，我们使用均匀分布。为了防止后期的大型形状完全覆盖早期的形状，我们逐渐减小多个阶段的最大形状大小；将小对象绘制到最后。此外，它与当前注入的形状数量成反比。我们将这种生成策略称为“Primitives”，图1(b)可视化了代表性示例。通过在图像空间中分布形状，我们观察到“Primitives”生成的图像与自然图像的幅度相似（参见表1和补充材料10中的支持实验）。03.3. 将显著性作为先验0除了自然图像，我们还调查了基准数据集，并发现它们通常具有以下特点0（a）（b）0图3.Primitives和Primitives-PS在奥巴马数据集上的比较。使用Primitives预训练的模型在单个图像中生成多个人脸。0显著性是指确定感兴趣的目标类别的显著对象。这些显著对象通常位于图像的中间位置附近。例如，猫和熊猫数据集上的动物脸可以是显著性。为了反映基准数据集的特性，我们在应用Primitives后插入一个大形状，并将其命名为Primitives-S（带有显著性的Primitives）。0通过利用三个设计因素，我们开发了我们的数据合成器的四个变体。它们分别是：1）PinkNoise，仅采用自然图像的幅度谱特性，如图1（a）所示；2）Primitives，随机生成各种基本（单调）形状，如图1（b）所示；3）Primitives-S，在Primitives中添加一个显著对象，如图1（c）所示。0最后，我们将PinkNoise模式应用于显著对象和Primitives-S的背景，称为Primitives-PS（带有图案的Primitives-S），如图1（d）所示。由于显著对象的大小相当大，具有显著的单调对象可能会引入不必要的纹理偏差。专注于视觉效果，插入单调对象可能类似于弱监督对象定位（WSOL）任务中的区域丢弃[2,43]。在训练具有区域丢弃的网络时，先前的WSOL方法建议使用平均统计数据或来自同一图像的其他区域来填充丢弃的区域，以防止分布偏差。受到WSOL中的实践的启发，我们将PinkNoise应用于显著对象。0在第4节中，通过转移GAN来评估所提出的合成数据集的有效性。我们首先使用通过我们的Primitives-PS随机生成的图像预训练GAN，然后在低样本数据集上微调预训练模型。在微调过程中，所有竞争对手和我们的预训练模型都使用DiffAug（平移、切除和颜色抖动）。有关预训练结果和详细信息，请参阅补充材料9。78580表2.从提出的预训练数据集转移到低样本数据集的FID分数。分数越低越好。粗体和下划线文本表示预训练数据集中的最佳和次佳性能。本文中将保持相同的约定。0源目标奥巴马脾气暴躁的猫桥熊猫0从头开始+DiffAug 48.98 27.51 57.72 15.82 PinkNoise 50.3229.47 73.82 15.65 Primitives 43.20 27.97 59.89 12.78Primitives-S 43.29 26.57 57.24 11.95 Primitives-PS 41.6226.01 54.02 12.2304. 实验0我们首先展示了我们的数据合成器的四个变体的有效性。然后，我们选择了四个变体中的最佳策略，并将其用于预训练GAN。我们的预训练模型与其他预训练模型在转移学习场景中使用自然基准数据集进行比较。我们还在每个合成图像中的粒子数量和确定每个粒子大小的策略上进行了消融研究，详见补充材料1。数据集。为了比较我们的合成器，我们采用了包括奥巴马、脾气暴躁的猫、熊猫和叹息桥（Bridge）[57]在内的四个数据集。为了与迁移学习方法进行比较，我们还使用了乌镇、天坛（Temple）和美第奇喷泉（Fountain）。每个数据集有100张图像。此外，我们通过合并四个数据集的子集（叹息桥、乌镇、天坛和美第奇喷泉）创建了一个数据集，即Buildings。Buildings用于评估在高度多样化条件下的性能。为了进行全面评估，我们还在使用BigGAN进行训练时使用了CIFAR-10/100数据集。评估协议。在低样本生成任务中，对所有模型进行评估时，采用StyleGAN2架构[23]和DiffAug[57]。基线是使用DiffAug从头开始训练的模型。强竞争对手是TransferGAN[49]和FreezeD[31]，两种方法都提出了微调策略。为了复现竞争对手，我们首先在FFHQ（人脸数据集）上预训练StyleGAN2，然后分别使用TransferGAN和FreezeD进行微调。由于基线在目标数据集上的表现优于竞争对手，我们报告了基线的性能进行比较。此外，我们强调所有竞争对手、基线和Primitives-PS都使用DiffAug。具体而言，我们遵循Primitives-PS和基线（从头开始使用DiffAug）的DiffAug配置。否则，我们使用TransferGAN和FreezeD的配置，如[57]中所述，以获得最佳性能。我们还将我们的合成数据集应用于预训练BigGAN，并将模型重新用于CIFAR-10/100数据集，以评估我们的合成器在条件生成任务中的性能。由于Primitives-PS没有0图4.Primitives-PS预训练模型的迁移学习迭代过程中的形态变化。我们使用相同的潜在向量生成图像。中心的紫色圆圈逐渐变成显著区域。0在预训练期间，由于标签的随机分配，我们独立开发了CIFAR-10和100的预训练模型，因为它们由于类别数目的不同而具有不同的架构。为了评估条件生成任务，我们比较了三个模型；1）从头开始训练的模型，2）仅使用DiffAug训练的模型（DiffAug），以及3）我们的模型在Primitives-PS预训练后使用DiffAug微调。我们使用CIFAR的10％，20％和100％的样本进行评估，并检查我们的策略在数据稀缺情况下的有效性。作为评估指标，我们使用Fréchetinception距离（FID）[17]，并报告DiffAug[57]建议的最佳模型的FID分数。我们还提供了KMMD[50]以进行更好的定量评估，请参阅附录11。04.1. 不同数据合成器的效果0我们开发了四种数据合成器的变体：PinkNoise，Primitives，Primitives-S和Primitives-PS。我们评估了它们在低样本生成场景中的有效性-在合成数据集上进行预训练，然后使用DiffAug在目标数据集上进行微调。表2总结了四种数据合成器和基准模型在四个不同的低样本数据集上的FID分数。总体而言，PinkNoise无法改善FID分数（比基准模型更差），但收敛速度快（请参阅附录2）。与PinkNoise不同，Primitives在Obama和Panda上明显改善了生成性能，与基准模型相比有很大的差距。然而，在Grumpycat和Bridge上并不有效。与Primitives相比，Primitives-S进一步改善了FID分数，证明了显著性先验的有效性。最后，Primitives-PS在所有数据集上都明显改善了低样本生成性能，平均比基准模型提高了约15％。我们在附录3中提供了定性评估。从这些结果中，我们观察到：1）一个简单的合成器（PinkNoise）甚至比仅使用低样本数据集更差，2）组合We pretrain a model using Primitives-PS and com-pare it with state-of-the-art models pretrained with naturalimages in a transfer learning task to low-shot datasets.Table 3 reports the quantitative results and Figure 578590（a）从头开始（b）TransferGAN（c）FreezeD（d）Primitives-PS0图5. 对Obama，Grumpy cat，Temple和Wuzhen的定性评估。更多结果，请参阅附录5。0表3. 将模型转移到低样本数据集的FID分数。我们使用FFHQ预训练权重进行TransferGAN和FreezeD。对于所有模型，我们都应用了DiffAug。粗体和下划线表示预训练数据集中最佳和次佳性能。0源目标 Obama Grumpy cat Bridge Panda Temple Wuzhen Fountain Buildings0Scratch + DiffAug [57] 48.98 27.51 57.72 15.82 46.69 146.81 44.46 93.71 TransferGAN [49] 36.50 30.6060.29 14.53 40.58 95.83 46.61 81.63 FreezeD [31] 35.90 29.41 59.47 13.39 42.09 93.54 45.70 80.480Primitives-PS 41.62 26.01 54.02 12.23 40.42 88.14 43.06 78.740我们的三个设计因素（Primitives-PS）显著改善了基准模型，支持每个因素的有效性和重要性。0为了分析我们的数据合成器与真实数据集之间的相似性，我们专注于测量合成数据集（源）与实际低样本数据集（目标）之间的相似性。我们不比较像素距离，而是比较频域中两个数据集之间的平均结构相似性（SSIM）。由于相位在[-π，π]之间周期性变化，相位谱的SSIM不可靠进行比较。因此，我们只报告使用幅度谱的SSIM在表1中的结果。我们确认在L1或L2距离中一致观察到相似的趋势。SSIM的值并不是解释FID分数的确切指标。然而，它有助于理解增益；随着我们的数据合成器更类似地模拟目标数据集，低样本生成性能得到改善。在表2中，除了Obama外，Primitives-S和Primitives-PS排名前两位。表1中的两种策略也表明它们的幅度谱与目标数据集最相似。这一有趣的趋势支持我们的设计因素是模拟真实图像统计特性的有效选择。0我们还通过展示不同训练阶段的生成结果来可视化我们的合成数据如何逐渐适应目标数据。为此，选择Primitives和Primitives-PS构建预训练模型，然后将它们转移到Obama。通过比较Primitives和Primitives-PS，我们观察到显著性先验的影响。图3显示了Primitives-PS中显著形状作为训练逐渐进行的主要对象。与此同时，Primitives包含多个形状，意味着所有形状都可以成为主要对象的候选。因此，结果中经常包含多个脸部（例如，图3（a）中的左上角、右上角和中间）。另一方面，Primitives-PS专注于生成单个脸部，并最终展现出改进的质量。我们还通过图4可视化了Primitives-PS预训练模型输出的逐渐变化。完整的动画请参见补充材料（GIF文件）。综上所述，我们确认Primitives-PS是最佳的数据合成器，并选择它作为与竞争对手进行比较评估的最终模型。0我们使用Primitives-PS进行预训练，并将其与使用自然图像进行预训练的现有模型在低样本数据集上进行迁移学习任务进行比较。表3报告了定量结果，图5展示了定性结果。04.2. 与现有技术的比较0展示了定性比较结果。正如预期的那样，TransferGAN[49]和FreezeD[31]在Obama数据集上表现出色，因为它们是使用FFHQ进行预训练的，这意味着源数据集是目标数据集的超集。除了Obama数据集，我们的使用Primitives-PS进行预训练的模型在所有竞争对手中表现更好。除非源数据集中的归纳偏差对目标有利（例如Obama），FreezeD并不一直优于基线（从头开始使用DiffAug）。实际上，现有方法的性能在目标数据集上差异很大。相反，我们的使用Primitives-PS进行预训练的模型始终表现更好。Primitives-PS0.008200.00828FFHQ0.013480.01434CIFAR-10CIFAR-10010%20%100%10%20%100%78600表4.同一层中滤波器之间的平均余弦相似度。较低的值表示滤波器更多样。0预训练DB鉴别器生成器0表5.BigGAN的FID，使用DiffAug和使用DiffAug初始化的Primitives-PS（PS）预训练模型在CI-FAR上的结果。'*'表示在数据增强泄漏之前的最佳FID[22]。详细信息请参见补充材料8。0BigGAN 44.14 20.80 9.45 66.21 34.78 13.45 + DiffAug 29.78* 14.048.55 41.70* 21.14 11.51 + 预训练 ( PS ) 21.33 12.79 8.79 32.57 20.5811.290除Obama外，在每个数据集上我们的预训练模型都优于竞争对手。这意味着我们的预训练模型具有很强的可迁移性。由于Primitives-PS在建模人脸时不使用任何归纳偏差，因此在Obama上的性能劣势是可以接受的。我们强调，我们在生成质量方面的成就在两个方面令人印象深刻和有意义：1）Primitives-PS使用的是全部合成图像而非真实图像，具有应用场景中所有有吸引力的特性；2）我们的结果显示了单个预训练模型在GAN迁移学习中的巨大潜力。多样的滤波器对于GAN的迁移很重要。从我们的预训练模型的优越性能来看，我们推测我们的成就是由于我们数据集的无偏性。使用FFHQ（FreezeD）进行预训练的模型具有作为人脸数据集的归纳偏差。一项分析CNN迁移性的先前研究[52]也指出，当滤波器高度专门用于源数据集时，目标数据集的性能会下降。为了经验性地分析迁移性，我们测量了预训练模型每一层滤波器之间的相似度。我们认为高度多样（彼此不太相似）的滤波器可以表明模型对特定领域的偏见较少。这意味着高度可迁移的模型倾向于平均而言具有较低的滤波器相似度。具体而言，给定每层的权重矩阵，其形状为[O，I，H，W]，其中O个滤波器具有I×H×W张量。然后，我们测量所有可能排列的O个滤波器之间的余弦相似度，并报告所有层的平均相似度的平均值。有关所有层的信息，请参见补充材料6。总之，Primitives-PS在26个层中的21个层中显示出更多样的滤波器集合，相比之下，FFHQ预训练模型的相似度更高。根据[52]，越接近输出的高层往往专门用于训练数据集。在我们的鉴别器中也存在相同的观察结果。FFHQ预训练模型最后一层的相似度约为Primitives-PS的四倍。这解释了FFHQ预训练模型专门用于人脸的特点。0图6.每个训练迭代的FID。星标（�）表示模型达到从头开始训练模型与DiffAug（基线）的最佳FID分数的95%的点。我们的Primitives-PS预训练模型在Obama数据集上与竞争对手相当，在Bridge ofsighs数据集上收敛速度比其他模型更快。0因此，对Obama的迁移效果很好，但对其他任务的迁移效果不好。训练收敛速度。我们通过观察训练迭代过程中的FID来研究迁移学习的收敛速度。图6描述了训练过程中FID分数的演变情况。为了节省空间，我们提供了两个不同的数据集：Obama和Bridge。完整数据集的结果请参见补充材料4。对于Obama，所有预训练模型的收敛速度都比基线（从头开始训练并使用DiffAug）快。与此同时，只有我们的模型在Bridge上的收敛速度比基线快。与基线相比，使用Primitives-PS预训练的模型在前30%的迭代中就达到了最佳基线性能的95%。有趣的是，其他预训练模型在达到最佳基线性能的95%之前都无法超过基线。这表明我们的模型有效地减少了收敛所需的迭代次数，并且可以充分减少预训练的开销。关于在CIFAR上进行条件生成任务。我们通过在CIFAR-10和100上进行迁移学习来进行条件生成，如表5所总结。图7展示了在CIFAR-10上使用10%样本的定性评估结果；我们的Primitives-PS在生成形状和结构组件方面比基线和DiffAug表现更好。与从头开始训练的BigGAN相比，从头开始训练的BigGAN与DiffAug显著改善了FID分数，而且随着训练样本数量的减少，这种改善更加明显。然而，我们观察到当样本稀缺时（即生成的样本包含cutout）DiffAug存在数据泄漏问题。我们的使用Primitives-PS预训练的模型在数据需求较高的情况下表现出色，优于DiffAug。78610(a) 从头开始训练 (b) + DiffAug (c) + Primitives-PS预训练0图7. 在CIFAR-10数据集上使用10%样本的定性评估结果。每一行包含同一类别的样本。0然而，当样本足够充足（100%）时，预训练并不总是比DiffAug更有优势。这种趋势在各种下游任务中都出现过。Newell等人[32]报告称，当数据-标签对的数量足够时，自监督预训练对半监督分类并不有利。TransferGAN[49]表明，当样本数量足够时，通过迁移学习获得的收益会减少。在同样的情况下，我们的Primitives-PS预训练的优势随着样本数量的增加而减少。对于极低样本情况，我们还评估了使用数据集的1%进行训练的模型。仅在这种评估中，我们比较了三个模型：1）从头开始训练的模型，2）仅使用DiffAug训练的模型（DiffAug），以及3）我们的模型使用Primitives-PS进行预训练，然后在没有DiffAug的情况下进行微调。基线、DiffAug和我们的FID分数分别为112.13、101.91和78.48。尽管DiffAug改善了FID，但我们观察到DiffAug存在数据泄漏问题。因此，FID的改善及其生成结果并不具有意义。相反，我们的预训练模型可以显著提高生成性能而没有任何问题。有关CIFAR的更多细节和结果，请参阅补充材料8。05. 讨论和结论0社会影响。由于我们提出了用于预训练的合成数据集，所以我们的方法在预训练阶段可能会消耗更多的功率（生成合成数据，然后对模型进行预训练）。然而，在目标数据集上进行微调时，它的收敛速度要快得多，并且同一模型可以重复用于所有目标。从这个角度来看，我们的方法在功耗方面最终是更高效的选择。从伦理观点来看，特别是考虑到当前基准数据集中的偏见问题（例如种族或性别偏见），使用我们的方法是更加合理的选择。0我们的方法更安全、公平、经济、实用。此外，使用我们的合成数据集进行预训练可以保证成员推断攻击对源数据集的鲁棒性，因为重构我们的数据是没有意义的。由于我们的方法是无版权的，它有助于小型商业团体开发他们的机器学习模型。0限制。我们的Primitives-PS是基于自然图像的观察结果设计的。因此，更有效的观察可能进一步提高数据生成质量。在未来的工作中，我们计划开发一个度量标准来量化模型的可迁移性，然后通过优化可迁移性来推导数据生成过程。制定这样的度量标准将是具有挑战性的，但对于预测预训练模型的行为具有建设性，并在各种应用中具有实际用途。0结论。现有的GAN迁移学习研究利用了在自然图像上训练的模型，因此存在以下限制：1）有偏的预训练模型可能对结果性能有害；2）模型和数据集都存在版权或隐私问题。为了克服这些限制，我们引入了一种新的图像合成器，名为Primitives-PS，它受到自然图像的三个通用属性的启发：1）遵循自然图像的功率谱；2）通过基本形状（如线条、圆圈和矩形）的组合来抽象图像；3）图像中具有显著性。实验比较和分析表明，我们的策略有效地提高了生成质量和收敛速度。我们进一步研究了学习滤波器的多样性，并报告它们是发现预训练模型的可迁移性的有意义证据。0致谢。我们感谢JongwukLee和CVML成员的宝贵反馈。本研究得到了韩国科学技术部（2022R1A2C3011154，2020R1A4A1016619）、韩国信息通信部（2020-0-01361，YONSEI UNIVERSITY）和韩国医疗器械发展基金（202011D06）的资助。[5] Geoffrey J Burton and Ian R Moorhead. Color and spatialstructure in natural scenes. Applied optics, 26(1):157–170,1987. 3[7] Nicholas Carlini, Chang Liu, Ulfar Erlingsson, Jernej Kos,and Dawn Song.The secret sharer: Evaluating and test-ing unintended memorization in neural networks. In 28th{USENIX} Security Symposium ({USENIX} Security 19),pages 267–284, 2019. 278620参考文献0[1] Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo,and Hyunjung Shim. 重新思考真正无监督的图像到图像的转换.In Proceedings of the IEEE/CVF International Conference onComputer Vision , pages 14154– 14163, 2021. 10[2] Kyungjune Baek, Minhyun Lee, and Hyunjung Shim.Psynet: 自监督方法用于对象定位，使用点对称变换. InProceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 10451–10459, 2020. 40[3] Manel Baradad, Jonas Wulff, Tongzhou Wang, PhillipIsola, and Antonio Torralba. 通过观察噪声学习视觉. InAdvances in Neural Information Processing Systems , 2021.2 , 30[4] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于

下载后可阅读完整内容，剩余1页未读，立即下载