局部融合生成对抗网络（LoFGAN）的少拍图像生成

75 浏览量更新于2023-10-15 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8463LoFGAN：融合局部表示以生成少镜头图像郑谷†1、李文斌†1、霍景* 1、王磊2、杨高11南京大学2伍伦贡大学计算与信息技术学院摘要对于一个新的看不见的类别，只有少数可用的图像，少数镜头图像生成的目的是为这个类别生成更多的数据。以前的作品试图通过使用可调整的加权系数来全局融合这些图像。然而，从全局角度来看，不同图像之间存在严重的语义错位，使得这些作品的生成质量和多样性较差。为了解决这个问题，我们提出了一种新的局部融合生成对抗网络（LoFGAN）的少拍图像生成。我们不是将这些可用图像作为一个整体使用，而是首先将它们随机分为一个基础图像和几个参考图像。接下来，LoFGAN基于语义相似性匹配基础图像和参考图像之间的局部表示，并且用最接近相关的局部特征替换局部特征。通过这种方式，LoFGAN可以在更细的粒度级别上生成更真实和多样化的图像，同时享受语义对齐的特性。此外，还提出了一种局部重建损失，它可以提供更好的训练稳定性和生成质量。我们在三个数据集上进行了大量的实验，成功地证明了我们提出的方法对于少数拍摄图像生成和有限数据的下游视觉应用的有效性。代码可在https://github.com/edward3862/LoFGAN-pytorch上获得。1. 介绍作为一种代表性的深度生成模型，生成对抗网络（GANs）[7]近年来在各种视觉任务中表现出令人印象深刻的结果。然而，大多数GAN模型仍然在训练数据不足的情况下挣扎[25]。虽然最近已经提出了许多基于GAN的少次学习算法，但这些算法中的大多数都是专门为区分性任务而设计的，例如†同等贡献，*通讯作者。图像分类[20]和分割[21]，而不是在数据有限的情况下生成纯图像。为此，少镜头图像生成引起了越来越多的关注。少数拍摄图像生成的目标是当给出该类别的少数可用图像时，为新类别生成不同的图像。特别是，受情景训练机制[20]的启发，生成模型通常在具有足够标记的训练类别和图像的辅助数据集上进行训练。之后，给定来自新的不可见类别的一些图像，预期学习的生成模型将为该特定类别生成不同的图像。考虑到可见辅助数据集和不可见测试数据集之间的不相交标签空间，生成模型希望通过从数千个模拟的少镜头图像生成任务中学习来获得泛化能力。当前的少数拍摄生成方法可以大致分为三种类型，即，基于转换[2]、基于优化[5，13]和基于融合[8，9]。基于变换的方法在一个条件图像上应用类别内变换，而基于优化的方法引入元学习范式[6，16]来学习用于无条件图像生成任务的初始化策略，两者都适用于简单的生成任务。基于融合的方法（受基于度量的少次学习的启发）将此问题定义为条件生成任务。生成模型将多个输入图像编码到特征空间，并执行融合操作（而不是基于度量的少数镜头分类中的比较操作）。然后将融合的特征解码回同一类别的真实图像。基于融合的少数镜头生成的本质是实现从少数条件输入到不同输出的标签一致性映射，同时保持图像质量和多样性。从技术上讲，GMN [3]通过在匹配过程之后附加解码器将匹配网络[20]与VAE [11]结合起来。由于VAE的生成能力有限，该方法只适用于生成数字和简单的视觉图像。8464燕鸥为了解决这个问题，MatchingGAN [8]用生成对抗网络代替了VAE部分，并首次实现了自然图像生成。但仍然难以处理复杂的自然图像。最近，F2 GAN [9]在融合过程中提出了一种fuse-and-fill策略，以增强生成能力。然而，上述方法仍然遭受有限且不精确的生成空间，其由严格线性组合以及加权图像级重建损失来制定。换句话说，同一类别中的图像在全局特征图级别上与插值系数线性融合。这可能带来两个问题。首先，当输入图像在语义上不对齐时，融合的特征图也将不对齐，并且全局地添加它们将在输出图像中产生混叠伪影。其次，简单的全局组合也会损害生成多样性，因为在融合期间每个局部语义区域的相对位置是严格固定的。为了解决上述问题，我们提出了一种新的局部融合方法，融合为基础的少拍图像生成。给定一些图像，我们随机选择其中一个作为基础图像，其他图像作为参考图像。基础图像定义了生成的基础，参考图像就像许多可用的局部表示的银行。我们首先在基础图像中随机选择局部位置。然后，由于输入图像来自同一类别，因此我们可以为银行中的这些选定位置找到语义匹配的局部表示。我们在更细粒度的级别上融合来自不同图像的匹配局部表示，并将它们替换回基础图像中的相应位置。整个过程在特征级的局部融合模块中完成，不需要额外的参数。由于融合操作是在局部区域而不是整个特征图中执行的，因此所生成的图像将包含更少的伪影。此外，我们提出了一个新的局部重建损失，以更好地配合建议的局部融合模块在训练阶段。在先前的基于融合的少镜头图像生成方法中，全局重建损失被用于强制所生成的图像包含输入图像的信息，这通过最小化所生成的图像与输入图像之间的像素级距离来实现。输入图像的加权和。然而，将每个像素位置处的输入图像添加为重建目标不能确保语义对齐，因为每个图像在内容上是唯一的，具有不同的结构。为此，我们始终站在“本地”的角度来解决这个问题。相反，我们强制生成的图像在某些局部区域接近输入图像。我们在图像级再现上述特征级局部融合过程，以构建更清晰的图像作为重建目标。我们发现，所提出的局部重建损失可以进一步提高生成质量的少拍图像生成。我们的贡献可归纳如下：• 我们提出了局部融合生成对抗网络（LoFGAN）用于少数镜头图像生成，它可以灵活地匹配语义上最近的局部特征，以实现更好的生成质量和多样性。• 我们提出了一个局部融合模块以及一个新的局部重建损失，以更好地训练网络，这为生成提供了更精细的指导。• 我们在三个数据集上进行了全面的实验，我们的方法在少数镜头图像生成方面达到了最先进的性能，证明了我们所提出的方法的有效性。2. 相关工作在本节中，我们介绍了本文的三种相关工作：生成对抗网络、少量生成适应和少量图像生成。2.1. 生成对抗网络生成对抗网络（GAN）[7]是一类通过对抗学习训练的生成模型。随着GAN适应数据分布的强大能力，从图像生成[10]，图像编辑[1]到图像到图像转换[26]的各种任务都有了很大的改进。然而，令人印象深刻的结果主要归功于训练图像的无限供应。在有限数据的情况下，鉴别器可能容易过拟合，这使得模型难以收敛。最近，已经提出了一些先进的数据增强策略[2，25]用于训练具有有限数据的GAN，但这些方法主要是为无条件生成而设计的，这更像是香草GAN [7]。与主流的学习方法不同，本文尝试用少量学习的方法来解决这个问题。我们感兴趣的是教GAN为一个新的类别生成不同的图像，给出了这个类别的一些图像。2.2. 少镜头生成适应从有限的观测值估计分布是有偏差和不准确的，特别是对于GAN。一些方法试图通过迁移学习来减轻数据不足的挑战[23，22，19]。在辅助数据（主要用于预训练）的帮助下，这些方法利用预训练的GAN并通过调整模型参数使其适应另一图像域[12，24]。经适配的模型应当能够在具有有限数据的目标图像域内生成图像。我们将这些方法分类为少镜头生成自适应，其假设有限数据集和辅助数据集在特征空间中是不相交的（即，在不同的图像域中）。这些方法还假设模型应首先进行预训练8465DAdvELFMHDCLS编码器阿尔法生成的解码器图像鉴别器当地∩FFF--F--FF×−× ×FF∈e输入图像局部融合模块（LFM）图1：我们的LoFGAN框架包含一个编码器E，一个本地融合模块，一个解码器H和一个鉴别器D。随机系数向量α是LFM模块和局部重构损失的输入局部融合模块随机选择一个编码特征作为基特征，其余特征作为参考特征，通过局部选择、局部匹配和局部替换进行融合然后在有限的数据集上仔细地微调。与上述方法不同，我们假设辅助数据集和有限数据集在标签空间中是不相交的（即，来自同一图像域的不同类别），并且模型应该能够直接为任何看不见的类别生成图像，而无需微调。2.3. 少镜头图像生成给定用于看不见的类别的几个图像，少镜头图像生成的目标是为该类别产生逼真且多样的图像，这不同于少镜头生成自适应方法的目标。基于优化的方法FIGR[5]和DAWSON [13]将对抗学习与Meta学习方法（即，爬行动物[16]和MAML [6]），但世代质量有限。对于基于融合的方法，GMN [3]和MatchingGAN [8]将匹配网络从少量分类任务推广到使用VAE和GAN的少量图像生成。F2GAN [9]通过添加非局部注意力融合模块来融合和填充不同级别的特征以生成图像，从而改进了MatchingGAN。这些方法将高级图像特征与全局系数相融合，这将给生成的图像带来更多的混叠伪影和更少的多样性。此外，使用全局重构损失来约束模型以产生看起来像输入图像的加权堆叠的图像，这将进一步损害生成质量。与现有方法不同的是，我们的目标是融合深层特征通过选择、匹配和替换局部表示，在更细粒度的级别上进行重构，并使用基于局部的重构损失来减少混叠伪影。3. 我们的方法3.1. 总体框架给定从一个新类别中采样的k个图像，我们的目标是为这个类别生成新的图像，称为一个k-shot图像生成任务。为了实现这个目标，我们可以将图像数据集分成两部分：可见类别Cs和不可见类别Cu，其中CsCu=。在训练阶段，我们从Cs中采样了数百个k-shot图像生成任务，并将其馈送到模型中，鼓励它学习可转移的生成能力，为看不见的类别生成新的在测试阶段，模型可以从Cu中的一个类别中获取图像以生成新图像。图1显示了我们的方法的总体框架。生成器G是包含编码器E、解码器H和局部融合模块LFM的条件生成器。输入图像X=Xl，…x k首先被馈送到en- 用于提取深度特征的编码器E =E（X）。然后LFM模块需要和一个随机系数向量α并产生语义上对齐的融合特征LFM（，α）。之后，解码器H解码将特征返回到图像并获得生成的图像 x（） =H（）。真实图像X和生成的图像x被馈送到鉴别器D中用于对抗训练。3.2. 本地融合模块图1示出了在3次拍摄图像生成设置下所提出的LFM模块的详细图示。给定一组编码特征图=E（X）Rk×w ×h×c。中的每个WHC张量可以被视为一组HWC维局部表示。我们的想法是随机分配一个特征图作为基本特征fbase，并将其余k1个特征图表示为参考特征Fref。局部融合模块将选取的f个基作为基，其余的F_ref作为库以产生融合特征。整个融合过程可分为局部选择、局部匹配和局部替换三个步骤。本地选择。一旦确定了f基，第一步是选择f基中的哪些局部表示应该被替换。在这里，我们从f基中的h×w局部位置随机选择局部表示。更具体地说，n*cn*cw*h*c1f1基地w*h*c选择1 1n*cn*wh匹配2F2参考取代相似性2n*c融合特征w*h*cn *wh匹配F3参考3相似性3 [1，2、3]8466∈--×× ×∈--联系我们ref基地基地refi=1Σ--i=1∈∈Σ≥我们选择n=η个局部表示，其中η（0，1）是决定应该融合多少局部表示的选择比率。在特征选择之后，我们从基特征f_base获得n个c维局部表示φ_base的集合。本地匹配下一步是在F_ref中找到语义匹配的局部表示，可以用来替换φ base。对于F_ref中的每个参考特征f_ref，我们计算Φ base和f_ref中的每两个位置之间的相似度，以如下构建相似度图M，（i，j）（一）（j）M=g（φbase，fref），（1）在那里我1、…n，j1、…hw和g是相似度量。根据相似性图，我们可以为φbase中的每个位置找到最相似的局部表示，并在下一步中使用它们来替换fbase中的原始局部表示。我们将来自k1个参考特征图的最佳匹配局部表示的集合表示为ΦrefR（k−1）×n×c。请注意，我们还记录了φ base和Φref中每个局部表示的位置信息，我们使用它来计算下一节中的局部重建损失。本地替换对于φ base中的每个c-维局部表示，我们现在有k-1个候选局部表示。例如，φ（1）R（k−1）×c包含最相似的局部表示，具有第一个局部表示。方向φ（1）我们可以在每一个fref中找到Rc（见图1中LFM模块中的虚线）。我们将所有这些局部表示融合在一起，并将它们替换到f基中的相应位置。我们使用随机系数向量α=[α1，…，α k]以融合所有所选位置的特征，图2：局部重建损失的目标图像计算。整个过程可以看作是局部置换过程的再现与全局重建损失相比，我们提出的局部重建损失产生更清晰的重建目标来训练模型。更好的颜色。等于最小化所生成的图像与输入图像的加权堆叠之间的差异这可能导致不适当的监督，因为当输入图像未对准时，图像的加权堆叠将具有混叠伪影为此，我们引入了一个本地重建损失来解决这个问题。其思想是在图像级再现特征级局部融合过程具体地，我们记录φbase和Φref中每个选定的基础和参考局部表示的位置，并将选定特征的每个位置映射回原始图像大小以获得粗略融合的图像LFM（X，α）。在那之后，我们通过以下翼损失来约束x（吨）保险丝=αbase·φ（t）+Σαi·φ（i）（t），（2）L局部为||x−LFM（X，α）||1 .一、（四）i=1，…k，i=/base其中kα i=1，α i =0且t=1，…，n. 我们保留了原来的局部表示与比例α基地。然后，我们将所有n个融合局部表示φ fuse替换回f基中的相应位置。这就产生了一个融合的特征图F作为LFM模块的输出。3.3. 局部重建损失给定一组输入图像X=x1，…XK和随机系数向量α，之前的方法采用加权图像级重建损失来约束所生成的图像，其可以被公式化为以下，KL全局=||x−αi·xi||第一条、第三条i=1如图2所示，特征图中的每个位置对应于输入图像中的图像块。由于我们已经在局部选择和局部匹配阶段获得了局部表示的位置信息，因此可以容易地找到每个局部表示的对应图像块的位置。我们重现的局部融合过程中的图像水平。具体地，对于基础图像，我们将所选择的补丁与来自参考图像的相似补丁进行融合，并将其替换为原始图像补丁。与右下角全局重建损失的目标图像相比，我们提出的局部重建损失呈现更少的混叠伪影，这将有助于提高生成图像的质量。3.4. 目标函数其中Σkαi=1，αi≥0。设X表示输入图像，X=G（X，α）表示如果αi是giv enhigh，则图像x应该看起来更像kexi，其中生成的图像c（X）表示X（仅联系我们取代23特征图[1,2,3]本地融合模块联系我们23取代输入图像X，加权堆叠φ8467LGDD×个LCLSDD可用于所见的类别）。生成器G和判别器D除了所提出的局部函数之外，还使用以下损失函数来交替地优化。对抗性损失。我们使用铰链版GANloss [18]限制生成器生成鉴别器无法识别的真实图像：D鲜花[17]。Flowers数据集有102个类别。我们将其分为85个可见类别进行训练，17个不可见类别进行评估。每个类别有固定数量的40张图片。动物的面孔[14]。Animal Faces数据集包含149个类别。我们选择119个类别进行训练，30个类别进行评估，每个类别100张图像。L adv=max（0，1−D（X））+max（0，1 +D（x））。（五）VGGFace [4]. 对于VGGFace数据集，我们选择1802Ladv =−D（x）。552个培训类别和552个评估类别。数量每个类别的图像也是100。分类损失。分类损失遵循ACGAN [18]，其中应用辅助分类器将输入图像分类到相应的类别中。具体来说，鉴别器应该正确地对真实图像进行分类，并且生成器需要在生成图像的同时保持与输入图像相同的标签：4.3. 基线我们将我们的方法与几种少镜头生成方法进行了比较，包括 FIGR [5] ， GMN [3] ， DAW- SON [13] ，DAGAN [2]，MatchingGAN [8]和F2 GAN [9]。为了确保公平的比较，在我们的实验中，我们实现了-LclsG =−logP（c（X）|X）。（六）使用相同的网络架构，训练策略和超参数作为Pro-GANL cls=−logP（c（X）|x）。因此，使用以下目标函数对整个网络进行端到端优化：G GG G提出的方法，我们表示为MatchingGAN†。4.4. 定量评价定量评价是在一个3-way下进行的LG = L adv + λ cls L cls + λlocalLlocal。LD= L+λL.（七）用于训练和测试的生成设置。在MatchingGAN [8]之后，我们首先使用图像训练模型Adv4. 实验4.1. 执行CLSCLS看到的类别。然后，我们将每个不可见类别的图像分成两部分，Sin和Sreal。我们使用S中的图像来构建128个3次图像生成任务，每个类别生成128个图像编码器具有一个输入卷积块和四个下采样卷积块。每个块都有一个卷积层，然后是Leaky-ReLU激活和批量归一化。解码器与编码器的结构对称，编码器具有四个上采样卷积块和一个输出卷积块。我们用于执行LFM的特征尺寸为88. 我们用余弦相似性作为等式1中的相似性函数g。至于dis-criminator，我们在[14]中采用了类似的网络架构，它有四个残差块作为特征提取器和两个完全连接的层来评估真实性和分类。我们使用Adam优化器来训练网络50，000次迭代，固定学习率为0。0001另一个50，000次迭代，学习率线性衰减到0. 在每次迭代中，我们随机采样八个k次图像生成任务作为一个小批量来更新模型。它在一个NVIDIA Tesla V100 GPU上完成训练大约需要36个小时。我们使用实梯度惩罚正则化[15]来训练稳定性。LFM模块中的选择比率η被设置为0。5默认。对于超参数，我们所生成的图像集被表示为S_gen。我们计算S gen和Sreal之间的FID和LPIPS分数以评估生成。此外，为了评估LFM模块的有效性，我们用我们的LFM模块替换MatchingGAN t中的全局融合模块，其被记录为MatchingGAN t +LFM。如表1所示，引入LFM对具有较低FID和较高LPIPS的基线MatchingGANt带来了一定的改进，这意味着通过使用LFM模块可以实现更好的质量和多样性。所提出的LoFGAN，引入LFM和本地，实现了最低的FID和最高的LPIPS几乎所有的三个数据集，证明了所提出的本地重建损失的有效性。图3示出了图1的生成的图像与图2的生成的图像的比较。我们的方法与来自MatchingGAN†的方法在所有三个数据集上进行比较。在每一行中，我们显示了两种方法生成的六个图像。由于在MatchingGAN中不存在基础图像，因此我们针对每个输入图像示出两个相似的图像（即，看起来更像第一输入图像的MatchingGAN的前两个结果），并且还示出了每个输入图像的两个图像作为基础图像（即，第一集合λGDCLS=1且λlocal= 0。五、使用第一图像生成LoFGAN的两个结果4.2. 评价数据集我们使用以下数据集进行实验：=λ8468作为基本图像）以进行更清楚的比较。可以看出，由MatchingGAN生成的图像的轮廓不够清晰，特别是在Flower数据集上，其中8469输入MatchingGAN†LoFGAN图3：MatchingGAN†和我们提出的LoFGAN在花朵，动物面孔和VGGFace上生成的图像。前三列是输入图像。我们为每个基础图像选择两个生成的图像。方法类型花动物面孔VGGFace FID（↓）LPIPS（↑）FID（↓）LPIPS（↑）FID（↓）LPIPS（↑）图[5]优化一百九十120的情况。0634211 540的情况。0756一百三十九830的情况。0834道森[13]优化一百八十八960的情况。0583208 680的情况。0642137. 820的情况。0769达甘[2]转型151. 210的情况。0812一百五十五290的情况。0892128. 340的情况。0913GMN [3]融合两百块110的情况。0743220 450的情况。0868一百三十六210的情况。0902MatchingGAN [8]融合一百四十三350的情况。1627一百四十八520的情况。1514118. 620的情况。1695F2GAN [9]融合一百二十480的情况。2172117 740的情况。1831109 160的情况。2125MatchingGAN†融合一百三十九900的情况。3410147. 950的情况。4695二十七岁930的情况。2665MatchingGAN† +LFM（我们的）融合86岁。590的情况。3704一百一十二990的情况。5024二十二岁990的情况。2687LoFGAN（我们的）融合79岁。330的情况。3862一百一十二810的情况。20块310的情况。286984704964表1：FID和LPIPS定量评价的比较我们引用F2GAN论文[9]中前六种方法的结果突出显示最佳和次佳结果†结果在相同的设置下重新实施，以进行公平比较。类内方差相对大于人脸。然而，我们的方法可以产生更清晰的图像，更少的文物和各种纹理和颜色。并且本地语义被所提出的LoFGAN（例如，嘴巴和眼睛在VGGFace数据集中张开）。注意，生成的图像的颜色、纹理和背景在细节上是不同的。4.5. 学习相似性为了验证该模型是否正确地学习不同图像中的语义相似性，我们将基础图像和参考图像之间的相似性映射在看不见的类别上可视化。在对可见类别训练模型后，我们从一只看不见的猫中随机选择两张图像。8471基准参考相似性与相似性与相似性与输入η= 0.1 = 0.3 = 0.5η= 0.8 = 1.0图4：相似性图的可视化。前两列是基础图像和参考图像。以下列显示了参考图像与基础图像中的红色、橙色和绿色点的相似性egory，取其中一个作为基础图像，另一个作为参考图像。然后在基图上选取一些关键点，计算它们与参考图的相似度。对于花图像，我们选择花的三个不同位置（即，雄蕊、花瓣和背景）。对于动物面部图像，我们选择了额头，眼睛和嘴巴。对于人脸图像，我们选择鼻子，角落和背景。然后计算基准图像和整个参考图像中不同位置之间的相似度，检查模型是否能在参考图像中找到对应的区域。图4显示了可视化结果。这些结果表明，我们的方法可以找到最相似的参考图像中的位置。例如，第一幅图像中的橙色点代表两朵花连接处的花瓣，最相关的区域位于参考图像的中间区域。通过这种方式，我们的LoFGAN可以使融合的特征语义对齐。4.6. 选择率选择率η是我们的框架中的超参数，其决定在基础特征中应该替换多少局部表示。我们在图5中使用不同的η值可视化生成的图像。第一列显示了我们从一个看不见的类别中选择的三个真实图像。我们生成η从0增加的不同图像。一赔一0使用相同的基础映像。每一行显示来自相同基础图像的输出图像。可以看出，基础图像被修改的程度随着η的增长而逐渐增加。例如，当我们选择第一幅图像（一朵红色的花，黑色的雄蕊）作为基础图像时，当η较低时，生成的图像仍然是红色的。然而，当我们将选择率增加到1时，它变成了带有绿色雄蕊的黄色花朵。0的情况。当我们选择另一朵花作为基础图像时，类似的结果图5：不同选择率生成的图像。第一列显示三个输入图像。以下列是η从0增加时生成的图像。一赔一0时，将同一行中的第一个图像作为基础图像。图6：FID评分与选择率从0变化的比较。一赔一0的情况。当η从以下增加时0.1 至05，并且随着η进一步增长到1而略微上升。0的情况。适度选择率可以带来较低的FID。可以观察到。通过这种方式，我们可以通过在我们的框架中设置不同的η值来生成更多样化的图像。图6示出了使用不同选择率η的FID评分的变化。可以看出，使用低或高选择率将增加FID分数。当η较低时，输出图像几乎与基础图像相同，这意味着生成的图像的多样性不够高。另一方面，高选择率可能导致一些不稳定的输出，从而提高FID分数。我们还将结果与MatchingGAN†进行比较。可以看出，所提出的LoFGAN在所有设置中优于具有LFM的MatchingGAN，这进一步证明了所提出的局部重建损失的有效性。4.7. 分类扩充我们还使用生成的图像来增强数据，用于下游图像分类的不可见类别。我们将看不见的数据集分别分为Dtrain，Dval和Dtest在[8]之后，ResNet18主干首先从所看到的类别初始化我们使用没有任何增强的D训练来训练一个新的分类器，即847265 .第65章大结局1036196897{3，5，7，9}，然后评估它们在{3，5，7，9}中使用k检验。图7示出了使用k 训练和k 测试的不同组合的FID分数。可以看出，在相同数量的k序列下，增加k测试带来较低的FID分数。这可能是因为增加的k测试次数减少了表2：Flower、Animal Faces和VGGFace上低数据图像分类的top-1准确度比较。突出显示最佳和次佳结果。所提出的LoFGAN比其他方法实现了最大的改进。图7：使用所提出的LoFGAN使用不同数量的镜头的少数镜头图像生成的比较 FID分数随着k序列和k检验的增大而减小。称为标准。然后，我们使用不同的少镜头图像生成方法来增强D训练，并评估结果分类。对于Flower数据集，每个类别的Dtrain、Dval和Dtest的数据分割为10：15：15。对于Animal Face和VGGFace，我们将图像分为30：35：35。我们为Flower数据集生成30张图像，为Animal Face和VG-GFace数据集生成50张图像，用于每个未见过的类别进行数据扩充。结果示于表2中。当D训练只包含很少的图像时，与没有增强的结果相比，少镜头生成模型确实有助于提高分类性能。我们实现了2的改进。75%，0. 96%和0。82%是我们匹配GAN+与LFM，以及5. 10%，1. 05%和1 .一、59%通过使用拟议的LoFGAN。改进证实了所提出的局部融合模块和局部重建损失。4.8. 不同射击虽然我们的模型在默认情况下在训练和测试阶段都是在3次图像生成设置下训练的，但它也支持不同数量的图像输入。在本节中，我们评估了我们的模型在不同数量的输入图像下的生成结果。令ktrain和ktest分别表示用于训练和测试阶段我们用ktrain训练我们的LoFGAN模型生成任务的难度当我们将更多的输入图像放入模型中时，我们可以从更丰富的库中找到更多的候选局部表示更多的输入图像使得更容易找到更多的匹配位置，并同时融合更多的表示。另一个有趣的观察是，增加k train也有助于提高生成。我们计算每k列火车的平均FID分数。随着k列从3增加到5、7和9，平均FID从78改变。30到778577二十九岁和77. 18，获得了0. 45，1。01和1。12分别。该结果直观上与少数拍摄图像分类中的相关发现一致，即更多拍摄通常实现更好的结果。5. 结论在本文中，我们提出了局部融合生成式广告网络（LoFGAN），一种简单但有效的方法以生成更逼真和多样化的图像，用于少数拍摄的图像生成。我们的贡献包括一个局部融合模块，该模块基于局部特征匹配和替换来产生语义对齐的深度特征，以及一个局部重建损失，该模块对齐输入图像的相应语义区域并更好地指导模型训练。在三个自然图像数据集上进行的实验表明，我们的LoFGAN具有更好的能力，以更少的混叠伪影和更好的多样性，以产生逼真的图像。这样的改进是在不引入额外的训练参数的情况下实现的。与此同时，我们的方法仍然有局限性，还有一些问题需要解决。例如，像其他当前基于融合的方法一样，LoFGAN与单次图像生成任务斗争，并且所生成的图像将不会与基础图像太不同。此外，在生成质量和多样性方面仍有改进的空间。我们将在今后的工作中探讨这些有趣的问题。确认本工作得到了科技创新2030新一代人工智能重大专项（项目编号：2018AAA0100905）、国家自然科学基金（项目编号：61806092）、江苏省自然科学基金（项目编号：BK20180326）、中央高校基础研究基金（项目编号：02021438008）、软件新技术与产业化协同创新中心的资助。数据集花动物VGGFace标准六十岁。00三十五1467岁38MatchingGAN†六十岁。39三十五90六十五178473引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka. 如何将图像嵌入到风格的潜在空间？在IEEE计算机视觉和模式识别会议中，第4432-4441页[2] Antreas Antoniou ， AmosStorkey ， andHarrisonEdwards.数据增强生成对抗网络。arXiv预印本arXiv：1711.04340，2017。[3] Sergey Bartunov和Dmitry Vetrov使用生成匹配网络的少镜头生成建模。国际人工智能和统计会议，第670-678页[4] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼.Vggface2：一个用于识别跨姿势和年龄的人脸的数据集在 IEEE International Conference on AutomaticFace Gesture Recognition（FG）中，第67IEEE，2018年。[5] LouisClou aître和MarcDemers。图：使用爬行动物生成拍摄图像。arXiv预印本arXiv：1901.02199，2019。[6] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习国际机器学习会议（ICML），第1126-1135页，2017年[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚· 本吉奥。生成性对抗网。 Advances inNeural Information Processing Systems （ NeurIPS ），27：2672[8] Yan Hong ， Li Niu ， Jianfu Zhang ， and LiqingZhang.Match-inggan：基于匹配的少镜头图像生成。在IEEE多媒体和博览会国际会议（ICME），第1-6页[9] Yan Hong，Li Niu，Jianfu Zhang，Weijie Zhao，ChenFu，and Liqing Zhang.F2gan：用于生成少量图像的融合和填充 gan 。在 ACM International Conference onMultimedia，第2535-2543页[10] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量在IEEE计算机视觉和模式识别会议（CVPR）中，第8110[11] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[12] Yijun Li，Richard Zhang，Jingwan（Cynthia）Lu，andEli Shechtman.具有弹性权重合并的少拍摄图像生成。In H. Larochelle，M.兰扎托河哈德塞尔M. F. Balcan 和 H. Lin ，编辑， Advances in NeuralInformation Processing Systems（NeurIPS），第33卷，第15897-15908页Curran Associates，Inc. 2020年。[13] Weixin Liang ，Zixuan Liu ，and Can Liu.Dawson ： Adomain adaptive few shot generation framework.arXiv预印本arXiv：2001.00576，2020。[14] Ming-Yu Liu ， Xun Huang ， Arun Mallya ， TeroKarras，Timo Aila，Jaakko Lehtinen，and Jan Kautz.很少拍摄的无监督图像到图像的转换。在IEEE国际计算机视觉会议（ICCV），第10551- 10560页[15] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？国际机器学习会议（ICML），第3481-3490页。PMLR，2018。[16] Alex Nichol和John Schulman爬虫：可扩展的元学习算法。arXiv预印本arXiv：1803.02999，2（3）：4，2018。[17] Maria-Elena Nilsback和Andrew Zisserman。对大量类进行自动花分类在印度计算机视觉会议上，图形图像处理，第722-729页IEEE，2008年。[18] Augustus Odena ， Christopher Olah ， and JonathonShlens.使用辅助分类器gans的条件图像合成。在国际机器学习会议（ICML）中，第2642-2651页。PMLR，2017年。[19] Esther Robb，Wen-Sheng Chu，Abhishek Kumar，andJia-Bin Huang.生成对抗网络的少镜头适应。arXiv预印本arXiv：2010.11943，2020。[20] 作者：George，Charles Blundell，Timothy Lillicrap，Daan Wierstra ， et al. 匹配网络进行一次性学习。Advances in Neural Information Processing Systems（NeurIPS），29：3630[21] 王凯欣、刘俊浩、邹应天、周大全、冯嘉世。Panet：具有原型对齐的少镜头图像语义分割。在IEEE国际计算机视觉会议（ICCV），第9197[22] 王亚星、阿贝尔·冈萨雷斯-加西亚、大卫·贝尔加、路易斯·赫兰茨、法赫德·沙赫巴兹汗和约斯特·范德·魏耶。Minegan：从gans到目标领域的有效知识转移，几乎没有图像。在IEEE计算机视觉和模式识别会议（CVPR）中，第9332[23] Yaxing Wang，Chenshen Wu，Luis Herranz，Joost vandeWeijer ， AbelGonzalez-Garcia ， andBogdanRaducanu.转移gans：从有限的数据生成图像。在欧洲计算机视觉会议（ECCV），第218-234页[24] 赵妙云、丛玉来、劳伦斯·卡林。利用预训练的GAN生成有限的数据。第37届国际机器学习会议，第119卷，第11340-11351页[25] Shengyu Zhao，Zhijian Liu，Ji Lin，Jun-Yan Zhu，andSong Han.用于数据有效gan训练的可微分增强。In H.Larochelle ， M. 兰扎托河哈德塞尔 M. F. Balcan 和H.Lin，编辑，Advances in Neural Information ProcessingSystems （ NeurIPS ），第 33 卷，第 7551CurranAssociates，Inc. 2020年。[26] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在IEEE计算机视觉国际会议（ICCV），第2223

下载后可阅读完整内容，剩余1页未读，立即下载