没有合适的资源?快使用搜索试试~ 我知道了~
学习记忆特征幻化用于一次性图像生成
91300学习记忆特征幻化用于一次性图像生成0谢宇1,傅彦伟1*,邰颖2,曹云2,朱俊伟2,王成杰201 数据科学学院,复旦大学,2 腾讯优图实验室0一次性我们从一次性生成的随机生成的图像中生成的图像0图1. 任务示意图。给定只有一个可用图像的类别,我们的模型能够很好地合成该类别的图像。0摘要0本文研究了一次性图像生成(OSG)任务,其中在基础数据集上学习的生成网络应该能够泛化到只有一个可用样本的新类别的图像合成。大多数现有的一次性图像生成中的特征转移方法只是在预训练任务上隐式地学习可重用特征。这种方法很可能会过拟合预训练任务。在本文中,我们提出了一种新颖的模型,明确学习和记忆可重用特征,以帮助生成新的类别图像。具体而言,我们的算法学习将图像特征分解为类别相关(CR)和类别无关(CI)特征。我们的模型学习记忆与类别无关的CI特征,这些特征随后被我们的特征幻化组件利用来生成目标新类别的图像。我们在几个基准测试上验证了我们的模型。大量实验证明我们的模型有效地提升了OSG性能,并能够生成引人注目且多样化的样本。01. 引言0作为人类,我们对概念的了解和丰富的想象能力使我们能够可视化或“幻想”给定图像中的内容。0* 通讯作者。本工作得到了国家自然科学基金(No.62076067)和SMSTM项目(2018SHZDZX01)的部分支持。0在其他姿势、视角或背景下,“想象”给定的新颖物体图像会是什么样子,如图1所示。实际上,人类可以在非常少的监督下强大地学习新颖的概念,从而受益于学习的能力。受到这种能力的启发,之前的研究[6, 26,28]研究了低数据条件下的识别任务。相比之下,本文解决的是一次性图像生成(OSG)任务,即只有一个训练样本的情况下学习合成新的类别图像。特别地,新合成的图像应该在视觉上与给定的示例图像相似。例如,给定图1中新的目标类别示例,OSG任务旨在通过隐式地改变其关键属性(如姿势、视角和动作),而关键是不改变示例图像的类别,生成新的可能的动物图像。0已经有大量的工作致力于一次性图像生成任务。具体而言,一些少样本识别模型[31,35]探索生成模型作为数据增强方法,然而这些方法并不需要生成具有良好视觉质量的图像。然后,为了降低成本,研究人员[16,24]使用仅有少量图像训练GAN,并生成具有良好纹理但缺乏语义信息的高质量图像。另一方面,有许多基于迁移学习的方法[14, 21, 33,34]将预训练模型转移到目标任务中,只使用少量的训练样本。在这些工作中,预训练在大型数据集上的模型被适应到一些特定的新任务或领域。91310图2.给定一张熊猫的单张图像,基于基础数据集(先验知识)预先学习的类别无关特征将被重用来生成新的图像。因此,合成的熊猫图像与基础数据集中的某些图像具有相似的草地背景或相似的张嘴姿势。0尽管之前已经有很多努力,但我们的OSG任务仍然非常困难。主要挑战来自两个方面:(1)训练数据不足,每个类别只有一个输入图像可用。(2)预训练(基础)类别和目标(新颖)类别是不相交的,基于基础学习的特征不一定适用于目标类别的图像合成。为了解决这些挑战,本文提出了显式探索幻觉特征的方法。我们的关键洞察是学习从源类别到目标类别可重用和可转移的特征。例如,在图2中,只给出一张熊猫的示例图像,人们仍然可以想象熊猫在不同背景或姿势下的样子。这是因为人们可以保持关于类别无关(与类别无关)信息的先验知识,例如草地和张嘴,并将其应用于幻觉新的熊猫图像。这激发了我们对类别无关(CI)和类别相关(CR)特征的利用。从技术上讲,直接监督CI和CR特征的学习过程产生标签是低效的。为此,我们提出了学习记忆特征幻化(MFH)模型,通过在源/基础数据集上的图像重构过程明确学习CR和CI特征。我们的MFH的关键组成部分是引入记忆模块来学习和存储CI特征。具体而言,我们的MFH由两部分组成:学习记忆(L2M)和特征幻化(FeaHa)。L2M具有CI和CR编码器和记忆模块。FeaHa由生成器和判别器组成。更具体地说,CR编码器用于提取CR特征。0在有类别标签的监督下,CR编码器将CR特征投影到给定图像的内存中。内存作为CI特征的字典。为了有效利用内存,我们在我们的工作中提出了一种新颖的寻址网络。请注意,由于CI编码器没有直接标记的监督,我们在成对级别引入了一种隐式监督策略。特别地,给定来自同一类别的两个不同图像,我们假设这两个图像具有相同的CR,但具有不同的CI特征。在训练阶段,我们随机从内存中选择两个CI特征,并将它们与相同的CR特征组合在一起;我们鼓励生成器以不同的方式合成图像。同时,我们强制分类器预测重构图像的标签与原始类别相同。因此,我们将这样的成对关系定义为多样性损失,以监督我们的MFH,该损失以端到端的方式学习。在测试阶段,我们使用输入图像的CR特征,并从内存中采样CI特征。然后我们使用生成器产生新的图像。在两个基准测试上进行的大量实验证实了我们模型的有效性。贡献以下是几个关键贡献:(i)我们提出了一种学习记忆特征幻觉的新方法,用于OSG任务。(ii)我们的MFH具有L2M和FeaHa组件。L2M学习如何解开图像特征并重新利用内存结构以保留CI特征。通过从内存中采样,我们的特征幻觉组件可以产生新的图像。(iii)为了有效地学习独立于类别的CI特征,我们提出了一种新颖的成对监督策略,以帮助模型明确学习可在一次性生成任务中重用的特征。学习到的CI特征可以一致地表示各种类别的可解释和有意义的概念。(iv)有趣的是,我们展示了我们的MFH通过合成的图像可以直接用作额外的训练实例,从而可以提高一次性分类的性能。02. 相关工作0一次性识别它旨在快速推广到包含仅一个可用样本的新识别任务。一次性识别的方法可以大致分为以下几类:元学习方法[26,28],基于度量学习的方法,基于优化的方法[6]等。除了识别,本文还研究了一次性图像生成。图像生成有许多生成网络[5, 13,38]。要解决的基本问题是如何学习数据分布以及如何基于学习到的分布合成新的图片。生成对抗网络(GANs)[7]是最流行的生成算法之一,有许多众所周知的无条件模型。…⨁91320特征编码0特征记忆0特征编码0寻址器0� �0G0�0G0共享0鼓励0重构0重构损失0鼓励多0随机0编码器0编码器0生成器0生成器0内存M0�0矩阵乘法0连接0前向(仅训练)0前向0L2M0独热编码0FeaHa0图3.网络结构图。我们的M保留CI特征。在推理阶段,生成网络G使用从M中随机选择的CI特征和来自新类别的图像CR特征fcr生成多样的图像。0包括StyleGAN[30],BigGAN[3]和基于编辑的方法,如GAN反演[1,2]。不幸的是,传统的GAN对训练数据的需求很高,通常不能合成仅有一个训练样本的类别。这激发了对少样本GAN的探索。0一次性图像生成最近,对一次性生成任务进行了一些研究[22,39]。与通常引入元学习的一次性识别任务不同,一次性生成任务通常基于迁移学习。一些方法[10,24,29]尝试直接学习仅有一个样本的图像分布信息,其中FastGAN[16]使用数据增强和自监督算法避免了在少样本训练样本下鉴别器过拟合,SinGAN[24]使用多尺度结构从单个样本中学习图像的内部分布信息。另一种解决方案是基于迁移学习[14,25,34]。然而,这些方法通常关注模型在新领域中的性能,而不是新类别。在这里,我们主要介绍适用于新类别的方法。BAS[21]试图解决在微调网络时可能出现的模式崩溃问题,它提出仅更新批归一化参数。Fine-tuneGAN[31]将BAS扩展为一种数据增强方法,以提高少样本图像识别模型的性能。MineGAN[33]设计了一个矿工网络来挖掘对特定数据集最有益的知识。与上述一次性图像生成方法不同,我们的模型从分解学习和特征重用的角度解决了一次性图像生成任务。我们的模型不需要在目标类别上进行微调或重新训练。0记忆网络它[36]提出扩展记忆模块以维护网络的长期记忆。神经图灵机[8]扩展了神经网络的能力。0记忆网络它[36]提出扩展记忆模块以维护网络的长期记忆。神经图灵机[8]扩展了神经网络的能力。03. 方法0问题定义一次性图像生成(OSG)任务假设我们有基础/源数据集Dsrc = {xsrc, ysrc}和新颖数据集Dnov = {xnov,ynov}。xsrc和xnov分别表示训练集和测试集。标签集为ysrc和ynov。我们将源数据集和新颖数据集的类别分别表示为Csrc和Cnov,其中Csrc∩Cnov =�。我们采用一般的少样本学习设置:在Dsrc上有大量标记实例,在Dnov上每个类别只有一个标记实例。给定一个图像xnovi,∈Dnov,我们的MFH旨在生成更多多样的图像˜xnov,其类别保持不变。值得注意的是,我们的任务与传统的类别条件GAN不同,因为我们每个类别只有一张图像。概述我们提出了一种新的学习记忆特征幻觉(MFH)的网络,用于一次性图像生成任务,如图3所示。它具有学习记忆(L2M)和特征幻觉(FeaHa)的新组件。我们模型的关键洞察是通过两个编码器Ecr和Eci将图像映射到与类别相关和类别无关的嵌入空间。L2M模块通过成对监督来学习在类别之间可重用的CI特征,并将其记忆并存储在记忆结构M中。FeaHa组件从记忆中采样,并使用输入示例中的附加CR特征幻化新图像。我们的模型端到端地进行训练,在推断过程中不需要微调。!!!!!!!!!!!!̸91330One-shot Ours FastGAN FinetuneGAN0图4.模型生成的图像。这里我们展示了我们的模型在给定输入图像的情况下的性能。需要强调的是,显示的物种都没有出现在训练集中。在单次训练设置下,我们的MFH合成的图像比其他竞争对手更多样化。03.1. 学习记忆0L2M组件具有与类别相关的Ecr和类别无关的编码器Eci,分别将输入图像映射到CR和CI嵌入空间。L2M进一步将CI特征保存到内存模块M中,FeaHa模块可以读取这些特征。为了高效地学习内存,我们提出了一种新颖的地址器R网络来从M中读取信息进行重构。编码器Ecr计算相同类别的实例xi的平均特征。特别地,给定类别c ∈ Csrc ∪Cnov,我们可以对其类别的特征进行编码,0fcr c = 10K0i=1 Ecr(xi)∙0c(yi)),(1)0其中fcr c表示原型型嵌入空间中类别c的平均特征;fcrc是CR特征。K表示样本数量;在新类别上我们有K = 1。0c: Y → {0, 1}是一个指示函数:0c(y) = {1, y = c 0, y ≠ c (2)0编码器Eci与来自内存模块M的CI特征不同于Ecr的CR特征。具体而言,CI编码器Eci从输入图像xi中提取特征fci i,即Fci={Eci(xi)}Ki=1。这里编码后的特征Fci进一步用作构建内存M中目标CI特征的中间表示。0内存M和地址器R传统的内存网络(如VQ-VAE)使用最近邻方法从内存M中读取目标信息。然而,这种方法在我们的MFH框架的训练中对初始化非常敏感,并且对聚类神经激活的非稳定性也很敏感。为此,我们提出了一种新颖的地址器R,它具有多层感知结构。地址器R的输入是fci,输出是一个独热向量,表示目标CI特征在内存M中的位置。为了可微地学习内存M中的独热向量,我们使用Gumbel-softmax进行优化,可以表示为:0πi = exp(ReLU(fci i) + gi)/τ0κj = exp(ReLU(fci i) + gi)/τ (3)0其中πi是一个独热向量,指的是目标CI特征在内存M中的位置。gi是从Gumbel(0,1)中抽取的独立同分布(i.i.d)样本。超参数τ是Gumbel-softmax中的温度系数。由于πi是一个独热向量,我们可以通过矩阵乘法轻松地从M中获取目标CI特征。最终的CI特征为:0fci i = πi ∙ M (4)0其中πi ∈ R1×n和M ∈Rn×w,n表示存储在M中的CI特征的数量,w是CI特征的维度。xi= G f crc , f cii(5)minmax LGAN + λRLR + λdsLds + λcbLcb(6)LGAN (G, D) =Ex,y [−log D (x, y)]+ Ex,y [log(1 − D (xgen, y))](7)LR = Exx − G f crx , f cix1(8)Lds = α − ExG f crx , f cia− G f crx , f cib1(9)Lcb = KL (πi ∥ q (π))(10)913403.2. 特征幻觉0特征幻觉包含两个模块:生成器和判别器。生成器根据内存M中的CI特征和来自新类别的CR特征来想象新的图片,而判别器负责对抗性训练。生成网络G负责将CR和CI特征组合起来生成相应的图像。为了实现这个目的,我们对结构进行了良好的设计。给定CR特征fcr和来自内存M的CI特征fcii,我们首先将这两个特征连接起来作为网络的输入。我们学习在合成网络G的每个卷积层之后控制自适应实例归一化(AdaIN)操作。需要注意的是,与StyleGAN中的AdaIN不同,我们使用不同的条件来帮助解耦学习:在特征图的分辨率达到32×32之前,我们使用CI特征fcii作为AdaIN的条件,而在生成器网络的后半部分,我们使用CR特征fcr。我们设计的原因是考虑到生成的图像需要保持与输入图像相同的类别,因此我们只在生成网络的后半部分使用CR特征来计算AdaIN参数。0其中 x gen i 表示生成的图像,f ci i 是从MemoryM中选择的CI特征。在推理阶段,我们从MemoryM中随机采样FeaHa组件,并将其与One-shot图像的CR特征结合起来作为生成器的输入,以想象新的图像。鉴别器 D考虑到我们对生成图像的类别有严格要求,要求其与输入图像的类别一致。因此,我们使用cGAN的鉴别器结构。03.3. 损失函数和训练策略0在训练过程中,我们只使用源数据集中的图像。为了简化表示,假设在一个前向过程中,我们随机从一个类别 y中采样一个图像 x。我们通过解决极小极大优化问题来训练OSG任务。0其中 L GAN , L R , L ds 和 L cls分别是GAN损失、内容图像重构损失、多样性损失和类别平衡损失。GAN损失是有条件的,由以下公式给出0该损失仅使用类别的相应二进制预测分数进行计算,这里的GAN损失包括分类监督。重构损失 L R有助于网络更好地学习如何生成图像。根据输入 x,我们可以分别获得其与类别无关的特征 f ci x和与类别相关的特征 f cr x 。损失 L R 鼓励生成器 G 基于 fci x 和 f cr x 重构输入图像 x 。即0重构损失是确保模型能够合成高质量图像的关键。0算法1 一对一监督0要求:带有标签 y i 的图像 x i01: 从 M ∈ R n × w 中随机采样 f ci a 和 f ci b �02: f cr = E cr ( x i ) � 从 x i 中提取与类别相关的特征03: x gen a = G ( f cr , f ci a ) � 将 f ci a 和 f cr结合起来生成相应的图像04: x gen b = G ( f cr , f ci b ) � 将 f ci b 和 f cr结合起来生成相应的图像05: 对生成的图像进行分类,Cls ( x gen a ) = Cls ( x genb ) = y i � 两个随机生成的图像的类别需要与输入图像 x i一致。分类器包含在鉴别器中。06: 计算 α − E x [ ∥ G ( f cr , m 1 ) − G ( f cr , m 2 ) ∥ 1 ] �0鼓励不同的CI特征获得不同的图像0下面我们详细介绍一对一多样性损失,它是监督我们的MFH明确提取可重用特征的关键。根据前面的介绍,我们从Memory M中随机采样两个类别无关的特征 f ci a 和 f ci b,然后将它们与 f cr x结合起来作为生成器的输入,生成两个图像 x gen a 和 xgen b 。L ds 鼓励生成的两个图像之间有明显的差异。L ds可以表示为:0其中 α 是控制多样性的超参数。最后,L cb用于尽可能使每个CI特征的分布平衡。0其中 KL 是Kullback-Leibler散度,q ( π )假设为均匀分布。我们提出的模块的伪代码在Alg1中,展示了我们的一对一多样性监督的实现是多么简单。91350单次随机生成的图像0单次随机生成的图像0图5.不同类别图像与相同CI特征的可视化。单次图像用红框标记,其余图像由模型合成。04. 实验0AnimalFace [ 17 ] 。该数据集是使用ImageNet [ 4]数据集中的图像构建的。这些图像来自119个源/可见类别和30个目标/不可见类别的149种食肉动物。该数据集共包含117574张图像。NABirds(NAB)[ 32]。这是一个高质量的数据集,包含48562张北美鸟类的图像,有555个类别,部分注释和边界框[ 32]。我们评估我们的模型作为数据增强方法是否能提高该数据集上单次分类模型的性能。我们遵循MetaIRNet [ 31]的设置,将NAB分为训练集和测试集,比例为3:1。实施我们对所有方法使用学习率(lr)=0.0001,β1 = 0.001和β2=0.999的Adam进行训练。对鉴别器应用谱归一化。最终的生成器是中间生成器的历史平均版本,其中更新权重为0.001。我们总共训练模型150,000次迭代。每个训练批次包含64个内容图像,均匀分布在一台3090GPU的DGX机器上,每个GPU具有24GB的RAM。我们生成和输入的图像分辨率为128×128。对于网络中的内存M,我们设置为0数据集 方法 FID0AnimalFace [ 17 ]0MineGAN [ 33 ] 94.250FastGAN [ 16 ] 80.230FinetuneGAN [ 31 ] 91.390BAS [ 21 ] 102.310我们的方法 75.280NABirds [ 32 ]0MineGAN [ 33 ] 79.280FastGAN [ 16 ] 59.640FinetuneGAN [ 31 ] 75.560BAS [ 21 ] 84.560我们的方法 42.240表1. 在AnimalFace和Nab数据集的单次设置中与其他方法的比较。050个记忆大小适用于两个数据集。MFH的详细信息请参见补充材料。评估协议我们从两个方面评估我们的模型,即模型生成的图像质量以及生成的图像是否有助于单次分类任务。对于生成图像的质量,我们使用Frechet InceptionDistance(FID)在嵌入空间中衡量两个集合之间的相似性。FID广泛用于衡量生成图像的质量和多样性。对于每个数据集,我们让模型为每个类别生成50个图像,并随机从每个测试类别中抽样50个图像,以计算与合成图像的FID。为了评估我们的方法是否有助于单次分类任务,我们遵循MetaIRNet [ 31]的设置,将我们的方法作为数据增强策略来扩展支持集。为了公平比较,我们使用ProtoNet [ 26]作为其他数据增强基线的基本分类器。04.1. 主要结果和讨论0定量结果我们将我们的方法与在AnimalFace和Nab数据集的单次设置中的其他方法进行比较。FinetuneGAN [ 31],MineGAN [ 33 ]和BAS [ 21 ]首先在ImageNet [ 4]上进行训练,然后通过微调模型的权重来适应目标类别中的一个样本,FastGAN [ 16]使用自监督算法来确保鉴别器即使只有少量样本也不会过拟合。在表1中,我们的FID远低于其他竞争对手。从表2中可以看出,用于比较的数据增强方法包括传统的图像转换,如高斯噪声和翻转,以及生成网络FinetuneGAN(由MetaIRNet [ 31 ]引入,基于BAS模型扩展)。当(a) AnimalFace(b) NABirdsProtoNet-77.93±0.67ProtoNetFinetuneGAN76.28±0.63ProtoNetFlip78.72±0.64ProtoNetGaussian77.94±0.67ProtoNetOurs79.02±0.61MetaIRNetFinetuneGAN79.21±0.63MetaIRNetFinetuneGAN, Flip79.52±0.62MetaIRNetOurs82.98±0.60FastGANIm.QAnimalFace32513NABirds28418Im.DAnimalFace4226NABirds38111ds-lossgumbel-softmaxAnimalFaceNABirds✓90.5471.36✓87.6365.72✓✓75.2842.2491360真实数据和生成数据:0图6.我们可视化了生成的图像和真实图像的tSNE图。可以清楚地看到,我们模型合成的图像具有高度的多样性,同时保持了准确的类别标签。0方法 数据增强 NABirds 准确率提高0表2. 在NABirds上使用ImageNet预训练的ResNet18进行5-way1-shot任务的结果。0使用我们的模型作为数据增强方法,相比基本的ProtoNet可以提高约4个百分点。我们的模型作为数据增强策略也明显优于其他数据增强方法。为了更好地展示为什么我们的模型可以提高一次性分类模型的性能,在图6中,我们使用tSNE来可视化我们生成的样本和嵌入空间中的真实样本的分布。定性分析从图4中可以看出,在一次性设置中,我们的模型可以产生多样且高质量的样本。当从内存中选择不同的CI特征并将其与一次性图像的CR特征相结合时,我们的模型生成了更多多样的图像,同时保持了生成图像和输入图像的相同类别。这表明我们的模型很好地解开了“类别无关”和“类别相关”特征。FinetuneGAN只能合成与训练所用图像相似的图像,合成图像的质量也非常差。FastGAN的表现优于FinetuneGAN,但它生成的图像仍然缺乏多样性。我们的模型可以生成更多多样的图像,同时保持对象类别不变。在图5中,从实验结果可以看出,通过将不同的“类别相关特征”与相同的“类别无关特征”组合起来合成的图像将具有相同的模式(例如“向左看”),同时保留与输入图像相同的类别特征。这0不同的背景 不同的姿势0图7.我们展示了在具有相似背景的数据集(如NABirds)中,我们的模型不仅可以学习到姿势等特征,还可以学习到一些可以共享的背景特征。0数据集 方法0表3.用户研究。我们邀请了50名用户对生成的图像质量(Im.Q)和生成的图像多样性(Im.D)进行投票。0表4.MFH的消融分析。在这里,我们主要分析了两个最重要的组成部分,多样性损失和gumbel-softmax。0进一步揭示了我们模型的洞察力。我们使用一个众包平台邀请了50名对我们的项目不了解的用户,对不同方法合成的图像的质量和多样性进行二进制投票。每个用户随机给出每种方法的一个合成图像。我们总结结果如表3所示,我们的方法在两个评估指标上获得了更多用户投票。在图7中,我们可以看到模型已经学会了如何改变对象的背景和姿势。换句话说,无监督学习的模型已经将背景和姿势作为两个在类别之间共享的关键特征进行了表征。这样的结果是合理的。05. 消融研究0在这里,我们主要讨论模型的两个模块。一个是L2M模块。在之前的介绍中,我们解释了为什么选择Gumbelsoftmax作为Addresser R而不是K-means[15]。在消融研究中,我们将通过实验证明它的有效性。另一个是损失函数的设计,特别是L ds对模型性能的影响。最后,我们还将给出网络的失败案例并分析原因。GumbelSoftmax的影响在本文中,我们使用一个分类网络来直接预测CI特征的地址。Input ImagesRandom Generated Images91370输入图像 随机生成的图像0图8。使用K-means [15]替代Gumbelsoftmax的结果。从左到右分别是输入图像和网络随机生成的图像。0输入图像 随机生成的图像0图9。在去除多样性损失Lds后,模型的性能。从左到右分别是输入图像和网络随机生成的图像。0每个样本所属的连续特征和Gumbelsoftmax作为可微分的argmax操作。在这里,我们用K-means替换Gumbel softmax,以说明为什么我们选择Gumbelsoftmax而不是K-means。在训练过程中,我们计算源样本特征与记忆项之间的距离,并通过VQ-VAE中的停止梯度方法来更新每个记忆项。如图8所示,当AddresserR使用K-means而不是Gumbelsoftmax时,很容易导致多个CI特征合并为一个CI特征,这导致生成网络G对来自记忆库的输入不敏感。这就是为什么无论我们选择哪个CI特征,生成网络的输出都是相同的,生成的图像缺乏内容的多样性。在用k-means替换gumble-softmax后,如表4所示,FID分数也大幅上升,这表明模型的图像生成效果和多样性已经恶化。损失函数设计的影响为了使网络生成的图像具有多样性,并保持其类别与输入图像一致。在这里,我们去除了多样性损失以了解两个损失对网络生成性能的影响。如图9所示,当我们去除Lds时,虽然并非所有生成的图像都相同,但生成图像的多样性仍然显著降低,多个CI特征重叠。如表4所示,当我们去除多样性损失时,模型在AnimalFace和NABirds两个不同数据集上的FID分数性能大幅提高。这表明生成图像的多样性显著降低。在CI特征之间进行插值虽然我们的网络被训练为将CI特征的数量设置为内存M的超参数。这些CI特征是离散变量。在这里,我们展示了通过在两个CI特征之间进行插值可以生成更多图像。具体而言,我们随机从内存中选择CI特征,然后在它们之间进行线性插值。如图10所示,我们可以看到中间的CI特征可以生成有意义的结果。0开始 结束0图10。我们随机选择两个CI特征并在它们之间进行插值。我们的模型可以通过使用这些插值的CI特征生成有意义的中间结果。0图11。我们展示了一些失败案例是由奇怪的姿势和多物体遮挡引起的。0训练时将CI特征的数量设置为超参数M。这些CI特征是离散变量。在这里,我们展示了通过在两个CI特征之间进行插值可以生成更多图像。具体而言,我们随机从内存中选择CI特征,然后在它们之间进行线性插值。如图10所示,我们可以看到中间的CI特征可以生成有意义的结果。0失败案例分析图11显示了我们模型生成的几个失败案例。失败案例的原因可能是图像中存在训练中未见过的情况,例如多个动物和奇怪的姿势等。06. 结论0在本文中,我们介绍了一种解决一次性图像生成问题的新框架。我们提出了一个生成模型,在源数据上学习和记忆类别无关的特征,以便在给定一次性样本时基于这些学习到的知识生成更多数据。特别地,我们提出了一种成对多样性监督策略,以帮助模型明确地学习类别无关的特征。我们展示了当只给出一个新类别的样本时,我们的网络仍然可以生成与输入样本严格一致的合理且多样化的新图像。我们在几个基准测试上验证了我们的模型,并取得了最先进的生成性能。91380参考文献0[1] Rameen Abdal,Yipeng Qin和PeterWonka。Image2StyleGAN:如何将图像嵌入StyleGAN潜空间?在IEEE/CVF国际计算机视觉会议上,页码4432-4441,2019年。30[2] Rameen Abdal,Yipeng Qin和PeterWonka。Image2StyleGAN++:如何编辑嵌入的图像?在IEEE/CVF计算机视觉和模式识别会议论文集中,页码8296-8305,2020年。30[3] Andrew Brock,Jeff Donahue和KarenSimonyan。用于高保真度自然图像合成的大规模GAN训练。arXiv预印本arXiv:1809.11096,2018年。30[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li和LiFei-Fei。ImageNet:一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别会议上,页码248-255。Ieee,2009年。60[5] Laurent Dinh,Jascha Sohl-Dickstein和Samy Ben-gio。使用真实NVP进行密度估计。arXiv预印本arXiv:1605.08803,2016年。20[6] Chelsea Finn,Pieter Abbeel和SergeyLevine。模型无关元学习用于深度网络的快速适应。在机器学习国际会议上,页码1126-1135。PMLR,2017年。1,20[7] Ian J Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,BingXu,David Warde-Farley,Sherjil Ozair,AaronCourville和YoshuaBengio。生成对抗网络。arXiv预印本arXiv:1406.2661,2014年。20[8] Alex Graves,Greg Wayne和IvoDanihelka。神经图灵机。arXiv预印本arXiv:1410.5401,2014年。30[9]何童,董冬,田志和沈春华。学习和记忆三维点云语义和实例分割的代表性原型。在计算机视觉-ECCV2020:第16届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,第十八部分16,页码564-580。Springer,2020年。30[10] Tobias Hinz,Matthew Fisher,Oliver Wang和StefanWermter。用于训练单幅图像GAN的改进技术。在IEEE/CVF冬季计算机视觉应用会议上,页码1300-1309,2021年。30[11] Eric Jang,顾世翔和BenPoole。具有Gumbel-Softmax的分类重参数化。arXiv预印本arXiv:1611.01144,2016年。40[12] MahmoudKhademi。用于视觉问答的多模态神经图记忆网络。在计算语言学协会第58届年会上,页码7177-7188,2020年。30[13] Diederik P Kingma和MaxWelling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013年。20[14] Yijun Li,Richard Zhang,Jingwan Lu和EliShechtman。具有弹性权重巩固的少样本图像生成。arXiv预印本arXiv:2012.02780,2020年。1,3,60[15] Aristidis Likas,Nikos Vlassis和Jakob JVerbeek。全局k均值聚类算法。模式识别,36(2):451-461,2003年。7,80[16] Bingchen Liu,Yizhe Zhu,Kunpeng Song和Ahmed El-gammal。用于高速稳定GAN训练的方法0保真度少样本图像合成。在学习表示国际会议上,2020年。1,3,60[17] Ming-Yu Liu,Xun Huang,Arun Mallya,TeroKarras,Timo Aila,Jaakko Lehtinen和JanKautz。少样本无监督图像到图像的转换。在IEEE/CVF国际计算机视觉会议上,页码10551-10560,2019年。60[18] 刘子伟,苗中琪,詹晓航,王佳韵,龚博青和Stella XYu。开放世界中的大规模长尾识别。在IEEE/CVF计算机视觉和模式识别会议论文集中,页码2537-2546,2019年。30[19] Mehdi Mirza and Simon Osindero.条件生成对抗网络。arXiv预印本arXiv:1411.1784,2014年。50[20] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, andYuichi Yoshida.用于生成对抗网络的谱归一化。arXiv预印本arXiv:1802.05957,2018年。50[21] Atsuhiro Noguchi and Tatsuya Harada.通过批次统计自适应从小数据集生成图像。在IEEE/CVF国际计算机视觉会议的论文集中,第2750-2758页,2019年。1, 3, 60[22] Utkarsh Ojha, Yijun Li, Jingwan Lu, Alexei A Efros, YongJae Lee, Eli Shechtman, and Richard Zhang.通过跨域对应关系进行少样本图像生成。在IEEE/CVF计算机视觉与模式识别会议的论文集中,第10743-10752页,2021年。3, 60[23] Aaron van den Oord, Oriol Vinyals, and KorayKavukcuoglu.神经离散表示学习。arXiv预印本arXiv:1711.00937,2017年。40[24] Tamar Rott Shaham, Tali Dekel, and Tomer Michaeli. Sin-gan:从单个自然图像学习生成模型。在IEEE/CVF国际计算机视觉会议的论文集中,第4570-4580页,2019年。1, 30[25] Mohamad Shahbazi, Zhiwu Huang, Danda Pani Paudel,Ajad Chhatkuli, and Luc Van Gool.跨类别的高效条件GAN转移。在IEEE/CVF计算机视觉与模式识别会议的论文集中,第12167-12176页,2021年。30[26] Jake Snell, Kevin Swersky, and Richard S Zemel.用于少样本学习的原型网络。arXiv预印本arXiv:1703.05175,2017年。1, 2, 60[27] Zhou Su, Chen Zhu, Yinpeng Dong, Dongqi Cai, YurongChen, and Jianguo Li.学习视觉知识记忆网络用于视觉问答。在IEEE计算机视觉与模式识别会议的论文集中,第7736-7745页,2018年。30[28] Flood Sung, Yongxin Yang, Li Zhang, Tao Xiang, Philip HSTorr, and Timothy M Hospedales.学习比较:关系网络用于少样本学习。在IEEE计算机视觉与模式识别会议的论文集中,第1199-1208页,2018年。1, 20[29] Vadim Sushko, Jurgen Gall, and Anna Khoreva.单样本GAN:学习从单个图像和视频生成样本。在IEEE/CVF计算机视觉与模式识别会议的论文集中,第2596-2600页,2021年。391390[30] S. Laine T. Karras and T. Aila.面向生成对抗网络的基于样式的生成器架构。CVPR,2019年。30[31] Satoshi Tsutsui, Yanwei Fu, and David Crandall.元增强合成数据用于一次性细粒度视觉识别。arXiv预印本arXiv:1911.07164,2019年。1, 3, 60[32] Grant Van Horn, Steve Branson, Ryan Farrell, Scott Haber,Jessie Barry, Panos Ipeirotis, Pietro Perona, and Serge Be-longie.通过公民科学家构建鸟类识别应用和大规模数据集:细粒度数据集收集中的细节。在IEEE计算机视觉与模式识别会议的论文集中,第595-604页,2015年。60[33] Yaxing Wang, Abe
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功