VAEGAN-D2:任意镜头学习的特征生成框架

161 浏览量更新于2023-10-17 收藏 964KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1f-VAEGAN-D2：一个用于任意镜头学习的特征生成框架西安永勤1SaurabhSharma1Bernt Schiele1Zeynep Akata1，21马克斯·普朗克信息学研究所2阿姆斯特丹机器学习实验室阿姆斯特丹大学萨尔信息学校区摘要当有标签的训练数据稀缺时，一种有前途的数据增强方法是利用未知类的属性来生成未知类的视觉特征为了学习CNN特征的类因此，他们不能利用丰富的未标记的数据样本。在本文中，我们解决了任意射击学习问题，即，在操作于归纳和归纳学习设置两者中的统一特征生成框架中的零激发（zero-shot）和少激发（few-shot）。我们开发了一个条件生成模型，它结合了VAE和GAN的优势，此外，通过无条件学习，。它具有一布朗未标记图像的边缘特征分布。我们实证地表明，我们的模型学习了五个数据集的高度区分性CNN特征，即。CUB，SUN，AWA和ImageNet，并建立了一个新的国家的最先进的任何镜头学习，即。归纳和转导（广义）零和少数拍摄学习设置。我们还证明了我们学习的特征是可解释的：我们通过将它们反转回像素空间来可视化它们，并通过生成它们与特定标签相关联的文本参数来1. 介绍使用有限标签的学习一直是一个重要的研究课题，因为为每个对象收集足够数量的标记数据是不现实的。最近，生成以前看不见的类的视觉特征[58，5，28，11]已经显示出其在极不平衡的图像集合上表现良好的潜力。然而，目前的特征生成方法仍然存在不足。首先，它们依赖于简单的生成模型，无法捕获复杂的数据分布。其次，在许多情况下，他们并没有真正推广到代表性不足的阶层。第三，虽然在真实特征和生成特征的组合上训练的分类器获得了最先进的结果，但生成的特征可能不容易解释。中心和黄色的花瓣。图1：我们的任意镜头特征生成框架从新类别的已标记数据和未标记数据中学习可区分和可解释的CNN特征我们在这项工作中的主要重点是一个新的模型，生成任何类别的视觉特征，利用标记的样本时，他们是可用的，并推广到未知的概念，其标记的样本是不可用的。之前的工作使用GAN来完成这项任务[58，11]，因为它们直接优化了真实数据和生成数据之间的分歧，但它们存在模式崩溃问题[3]。另一方面，VAE[28]的特征生成更稳定。然而，VAE优化了对数似然的下限，而不是似然本身[23]。我们的模型结合了VAE和GAN的优势，将它们组装成一个条件特征生成模型，称为f-VAEGAN-D2，该模型从类嵌入中合成CNN图像特征，即类级别属性或word 2 vec [35]。由于其区分真实和生成的特征的ad-bandwidth，我们的f-VAEGAN-D2能够在没有任何条件的情况下使用来自以前未见过的类的未标记数据。我们的模型学习到的特征，例如图1所示的方法是有区别的，因为它们提高了任意镜头学习的性能，并且在视觉上和文本上都是可解释的。我们的主要贡献如下。 (1)我们提出10275真实图像∈这是向日葵，因为...特征空间传导学习（D2）特征生成器（f-WGAN）特征重构（f-VAE）10276f-VAEGAN-D2模型由条件编码器、共享条件解码器/生成器、条件解码器和非条件解码器组成前三个网络的目标是学习CNN图像特征的条件分布，给出优化VAE和WGAN损失的类嵌入。最后一个网络学习CNN图像特征在新类别的未标记特征上的边缘分布。一旦经过训练，我们的模型就可以合成可用于增强softmax分类器训练的有区别的图像特征。（2）我们对CUB，AWA2，SUN，FLO和大规模ImageNet的实证分析表明，我们生成的特征在低拍摄区域，即在归纳和转换设置中的（一般化的）零和少射击学习。(3)我们证明，我们的generated功能是可解释的，通过将它们反转回原始像素空间，并通过生成视觉解释。2. 相关工作在本节中，我们将讨论零次和少次学习以及生成模型的相关工作。零射击学习。我们感兴趣的是旨在预测看不见的类的零触发学习（ Zero-Shot Learning ，简称 Zero-ShotLearning）和预测可见和不可见类的通用零触发学习（ Generalized Zero-Shot Learning ，简称 GZero-ShotLearning）。从可见类到不可见类的所需知识转移依赖于语义嵌入，例如。由人类注释的属性、在文本语料库上学习的词嵌入、从标签层次获得的层次嵌入、来自语言模型的句子嵌入。与实例级图像特征不同，语义嵌入通常是类级的，即，我们可互换地使用类嵌入和语义嵌入。早期的作品[29，22]通过学习属性分类器来关联可见和不可见的类。最近的大多数零拍摄学习作品[1，27，49，13，60]学习图像和语义嵌入空间之间的兼容性函数。[61，40，6]将图像和类嵌入表示为所看到的类比例的SYNC [6]和[10，32]学习预测看不见的类的线性分类器权重。[54]提出了将语义嵌入和知识图与图卷积网络相结合[24]。正交方向是生成模型[52，38]，其中基于高斯假设学习类条件分布。与那些仅使用来自可见类的标记数据的归纳方法相比，转导零触发学习方法还利用来自未可见类的未标记数据。PST [48]和DSPNL [59]将图像嵌入投影到语义嵌入空间，然后进行标签传播。TMV [14]结合了多个语义嵌入并执行超图标签传播。[26，16]利用语义流形学习。[52]第五十二话将不可见类别图像的未知标签视为潜在变量，并应用期望最大化（EM）。由于预测偏向于GALML中的可见类，因此UE [51]最大化了将未标记图像预测为不可见类的概率。我们的模型在感应和转导零拍摄设置。然而，与大多数依赖于标签传播的其他转换方法不同，我们建议使用已看到的类的标记数据和未看到的类的未标记数据来学习特征生成器。少拍学习。少样本学习的任务是用少量的训练样本训练一个模型。用少量样本直接优化标准模型会有很高的过拟合风险一般的想法是在具有足够训练样本的类上训练模型，并在不学习新参数的情况下推广到具有少量样本的类。Siamese神经网络[25]提出了一种计算图像对之间相似性的CNN匹配网络[53]和原型网络[50]基于支持集预测图像标签，并应用模仿少量测试的情节训练策略。Meta- LSTM [45]学习用于训练少数分类器的精确优化算法。MAML [12]提出学习良好的权重初始化，可以有效地适应[20，55]在ImageNet上提出了一个大规模的低拍摄基准，并为新的类生成特征。Imprinting[42]直接复制归一化图像嵌入作为分类器权重，而[43]使用学习的神经网络从图像特征预测分类器权重。与那些只依赖于视觉信息的先前作品相比，我们还利用类级别的语义信息，即。属性或word2vec[35]。生成模型。生成式建模旨在学习数据点的概率分布，以便我们可以从中随机抽取数据，这可以用作数据增强机制。生成对抗网络（GAN）[17，36，44]由一个合成假数据的生成器和一个区分假数据和真实数据的生成器GAN的不稳定训练问题已经被[19，3，37]研究过。GAN的一个有趣的应用是CycleGAN [62]，它将图像从一个域转换到另一个域。[47]从文本描述中生成自然图像，SRGAN[31]解决了单个图像的超分辨率问题。变分自动编码器（VAE）[23]使用一个编码器，将输入表示为具有高斯分布假设的潜在变量，以及一个解码器，从潜在变量重建输入GMMN [33]优化了真实分布和生成分布之间的最大平均差异（MMD）[18]最近，生成模型[5，63，28，58]已被应用于通过从语义嵌入合成看不见的类的CNN特征来解决通用化的零触发学习。其中[5][33][34][35][36][37][38][39][39][39]10277编码器（E）f-VAE五月角莺鉴别器1f-WGAN（D1）鉴别器2（D2）D2VAEGAND2图2：我们的任意镜头特征生成网络（f-VAEGAN-D2）由一个特征生成VAE（f-VAE），一个具有条件搜索（D1）的特征生成WGAN（f-WGAN）和一个具有非条件搜索（D2）的转换特征生成器组成，该特征生成器从已见类的标记数据和新类的未标记数据中学习。[23]第二十三话我们的模型结合了VAE和GAN的优点，并增加了一个额外的分类器来使用未标记的数据，从而产生更多的区分特征。3. f-VAEGAN-D2模型在稀疏数据机制上操作的现有模型或者用来自在测试时与类集合不相交的类集合的标记数据来训练，即，归纳零触发设置[29，13]，或者样本可以来自所有类别，但其标签未知，即跨导Setup. 我们给出一组图像X={x1，. . .，x l}{x 1+ 1，. . . ..类标签集Yu在零射击学习文献。类嵌入的集合 C={c（y）|在定义类之间的高级语义关系的语义嵌入空间C中编码。前l个点xs（s≤l）被标记为所见类 ys∈Ys之一，其余点xn（l+1≤n≤t）未被标记，即可能来自于看过的或新的类。在归纳设置中，训练集仅包含所看到的类图像的标记样本，即， {x，. . .，x}。主动调零设置[15，48]。近期作品[58，28，11]1l通过生成不可见类的合成CNN特征，然后训练softmax分类器，解决广义零射击学习问题，这消除了可见类和不可见类之间的不平衡然而，我们认为，这些特征生成方法是不够的表达能力，以捕捉复杂的特征分布在现实世界中。此外，由于它们无法访问任何真实的不可见类特征，因此无法保证生成的不可见类特征的质量。如图2所示，我们建议通过将VAE和GAN与共享的解码器和生成器相结合来增强特征生成器，并添加另一个D2来区分真实或生成的特征，而无需应用任何条件。直觉上，在转换零触发设置中，通过馈送未见过类的真实未标记特征，D2将能够学习未见过类的流形，使得可以生成更真实的特征。因此，我们的方法的关键是能够生成语义丰富的CNN特征分布，这可以推广到从（广义）零次到（广义）几次到（广义）多次学习的任何一次学习另一方面，在转换设置中，火车-ing集合包含标记的和未标记的样本，即{x1，. . .，xl，xl+1，. . .，Xt}。对于感性和trans-ductive设置的推论是相同的。在zero-shot学习中，任务是预测属于新类别的未标记点的标签，即。fzsl：X →Yn，而在广义零射击学习中，目标是分类那些未标记的点，可以从看到的或新的类，即。fgzsl：X → YsYn.少镜头和广义少镜头学习的定义类似。我们的框架可以被认为是一个数据扩充方案，其中任意多个稀疏类的合成特征有助于提高分类器的区分能力。在下文中，我们只详细介绍我们的特征生成网络结构，因为分类器是无约束的（我们使用线性softmax分类器）。3.1. 基线特征生成模型在特征生成网络（ f-WGAN） [58]中，生成器 G（z，c）从随机噪声zp和条件c中生成输入特征空间X中的CNN特征x，解码器/发生器（G）10278WGANWGANV AERQD（x，c）将一对输入要素其中x<$n=G（z，yn），其中yn∈Yn，x<$n=αxn+（1−αxn）x和条件c，并输出实值，优化：其中α=U（0，1）。由于Ls被训练学习CNNSWGAN =E[D（x，c）]−E[D（x，c）]（1）-λE[（||x||2- 1）2]，特征使用以类嵌入为条件的标记数据由于已知类的dings和类嵌入编码了类之间的共享属性，我们希望这些CNN特征可以在已知类和新类之间转移但这其中x<$=G（z，c）是生成的特征，x<$=αx+（1 −αx），α <$U（0，1），λ是惩罚系数。特征生成VAE [23]（f-VAE）由编码器E（x，c）和解码器Dec（z，c）组成，编码器E（x，c）将输入特征x和条件c编码为潜在变量z，解码器Dec（z，c）从潜在z和条件重构输入x步骤c优化：严重依赖于语义嵌入的质量，并遭受域转移问题。直观地说，Ln捕获CNN特征的边缘分布，并提供新类别的有用信号以生成可转移的CNN特征。因此，我们的统一f-VAEGAN-D2模型优化以下目标函数：最小最大Ls+Ln（五）Ls= KL（q（z|x，c）||p（z|（c））（2）G、E、D1、D2V AEGANWGAN- Eq（z|x，c）[logp（x）|z，c）]，其中条件分布q（z|x，c）被建模为E（x，c），p（z|c））被假定为N（0，1），KL是Kullback-Leibler散度，并且p（x|z，c）等于Dec（z，c）。3.2. 我们的f-VAEGAN-D2模型已经表明，集成VAE和GAN可以获得更好的图像生成结果[30]。我们假设VAE和GAN也学习互补信息用于特征生成。当目标数据遵循复杂的多模态分布时，这是可能的，其中两个损失能够捕获数据的不同模式。为了结合f-VAE和f-WGAN，我们引入了一个编码器E（x，c）：X × C → Z，它将一对特征和类嵌入编码为潜在表示，而一个编码器1：X × C →R将这个嵌入对映射到一个兼容性得分，优化：实施详情。我们的生成器（G）和判别器（D1和D2）是用多层三极管（MLP ）实现的. 随机高斯噪声z<$N（0，1）和类嵌入c（y）被级联并馈送到生成器中，该生成器由2个全连接层组成，具有4096个隐藏单元。我们发现噪声的维数dz= dc，即类嵌入的维数，效果很好。类似地，鉴别器将输入作为图像特征和类嵌入的级联，并且具有2个完全连接的层，其具有4096个隐藏单元。我们使用LeakyReLU作为非线性激活函数，除了G的输出层，其中使用Sigmoid，因为我们应用了二进制交叉en。当LREC和输入特征被重新缩放为[0，1]时的熵损失。我们发现β=1和γ=1000在所有数据集上都很好。梯度惩罚系数被设置为λ=10，并且生成器每5次迭代更新为在WGAN文件[4]中建议。至于优化，我们使用Adam优化器，学习率为0。001和验证集上的提前停止。SV AEGANSV AESWGAN（三）4. 实验其中GAN的生成器G（z，c）和VAE的解码器Dec（z，c）共享相同的参数。下标s表示损失被应用于所见类的特征和类嵌入对。γ是控制VAE和GAN损失的权重的超参数。此外，当新类别的未标记数据可用时，我们建议添加一个非条件判别器D2（f-VAEGAN-D2中的D2），用于区分新类别的真实特征和生成特征。通过这种方式，D2学习了新类的特征流形.例如，我们的附加无条件条件约束2：X →R区分真实和合成的未标记样本使用WGAN损失：在本节中，我们将在零镜头和少镜头学习中验证我们的方法。有关设置的详细信息，请参见相应的章节。4.1. （广义）零射击学习我们在五个广泛使用的零射击学习数据集上验证了我们的模型，即Caltech-UCSD-Birds（CUB）[56]，Oxford Flowers（FLO）[39]，SUN Attribute（SUN）[41]和Animals with Attributes 2（AWA2）[57]。其中，CUB、FLO和SUN是中等规模的细粒度数据集。另一方面，AWA2是一个粗粒度数据集。最后，我们还在LL=L+γL10279ImageNet [7]上评估了我们的模型，其中包含超过1400万张图像和21K个类。nWGAN =E[D2（xn）]−E[D2（x<$n）]−（4）大规模和细粒度数据集。λ E [（||∇xn D2（x=n））||2-1）2]，我们遵循精确的GML和GML分裂，[57]的评价方案，为了公平比较，我们L10280模型ZSLGZSLGAN五十九152岁3感应VAE五十八452岁5VAE-GAN61岁0五十三7GAN67岁361岁6直推VAE68岁9五十九6VAE-GAN七十一163岁2表1：在CUB上演示不同的生成模型（使用属性类嵌入和图像特征，无需微调）。GALML：未见过类别的前1精度，GALML：可见和未见过类别精度的调和平均值。与最新技术相比。在表2中，我们将我们的模型与最近在四个零射击学习数据集上的最佳性能方法进行了比较，这些数据集是在GML和GML设置下进行的。在归纳性的CNOL设置中，我们的模型无论是否进行微调，都优于所有数据集的最新技术。我们的模型与微调功能建立了新的国家的最先进的，即。七十二9%的CUB，70。4%的FLO，65。6%的太阳和70。3%的AWA。对于transductive CPDL设置，我们在CUB上没有微调的模型被[51]的UE微调超越，即七十一1%对72。百分之一。然而，当我们也微调我们的功能时，我们也在转换的MHL设置上建立了新的最先进的技术，即 82岁6%的CUB，95。4%的FLO，72。6%在SUN，89岁。3%的AWA。ZSL16141210864202H 3H全部GZSL16141210864202H 3H全部在GWML设置中，我们观察到特征生成方法即我们的模型， CLSWGAN [58] ， SE-GALML[28]，Cycle-CLSWGAN [11]取得了比其他模型更好的结果。这是由于通过特征生成的数据增强导致更平衡的数据分布，使得学习的分类器不偏向于看到的类。注意，虽然UE [51]不是特征生成方法，但由于该模型使用附加信息，即，它假设未标记的测试sam-图3：ImageNet上的Top-1搜索结果我们遵循[57]中的拆分，并将我们的结果与最先进的特征生成模型CLSWGAN[58]进行比较。对所有模型使用相同的图像和类嵌入。简而言之，图像（没有图像裁剪或翻转）特征是从ImageNet 1 K上预训练的101层ResNet的2048-dim top池化单元中提取的。为了进行比较研究，我们还对每个数据集的可见类图像进行了ResNet-101至于类嵌入，除非另有说明，否则我们使用CUB（312- dim），AWA 2（85-dim）和SUN（102-dim）的类级别属性。对于CUB和FLO，我们还从细粒度的视觉描述中提取了基于字符的CNN-RNN模型[46]的1024-dim句子嵌入（每个图像10个句子）。消融研究。我们相对于生成模型，即，在感应和转换设置中使用GAN、VAE或VAE-GAN我们从表1中得出的结论如下。在电感设置中，VAE-GAN具有超过VAE和GAN两者的边缘，即59。1%, 6 周后为58. 4%对61。0%，设置为0。将未标记的样本添加到训练集，即转换学习环境，是有益的所有生成模型。在电感设置VAE和GAN实现类似的结果，即67。3%，68。9%的人，我们的VAE-GAN模型导致了最先进的结果，即。七十一1%，63。2%的GALML确认VAE和GAN学习互补的表征。由于VAE-GAN在所有设置中提供了最高的准确度，因此在本文的所有剩余结果中均采用了它CLSWGAN我们前1名应计费用CLSWGAN我们前1名应计费用10281苹果总是来自看不见的类。然而，我们的模型与微调导致77。CUB上的3%调和平均值（H），94。FLO上的1% H，47。太阳上的2% H和87. 5%氢在AWA上取得了比所有以前的作品。大规模的实验。尽管表2中列出的大多数先前工作尚未在 ImageNet 中进行评估，但该数据集为（ G ）CNOL研究提供了一个具有挑战性和有趣的测试平台。因此，我们使用相同的评估协议在ImageNet上将我们的模型与CLSWGAN [58]进行如图3所示，我们的模型在2H、3H和All分割中的GML和GML设置中的最新技术水平上都有显著改进，这是通过考虑距离Imagenet的1000个类2跳或3跳的类以及所有剩余类来确定的。这些实验之所以重要，有两个原因。首先，它们表明我们的特征生成模型可扩展到可用的最大规模设置。其次，我们的模型适用于即使人类注释属性不可用的情况，即。对于ImageNet类，属性是不可用的，因此我们使用每个类的word2vec表示。4.2. （广义）少拍学习在少数或低拍摄学习场景中，类被划分为具有大量标记训练样本的基类和每个类别仅包含少数标记样本的新类。在普通FSL设置中，目标是在新类上实现良好的性能，而在GFSL设置中，良好的性能必须推广到所有类。10282[57]第二十二届中国国际纺织品展览会[20][57]第二十二届中国国际纺织品展览会[20]前1名应计费用（%）Zero-Shot LearningCUB FLO SUNAWA方法T1 T1 T1 T1广义零次学习CUB FLO SUN AWAuSHuSHuSHuSHALE[2]五十四9四十八5五十八1五十九923岁762. 8 三十四4十三岁361岁621岁921岁8三十三岁。1二十六岁3十六岁8七十六。1二十七岁5CLSWGAN[58]五十七367岁2六十岁。868岁2四十三7五十七7四十九7五十九0七十三。8六十五6四十二6三十六639岁4五十七961岁4五十九6IND[28]第二十八话[11]第十一话五十九6五十八6-七十363岁4五十九969岁。266岁。841岁5五十三3四十六岁。7---四十9三十5三十四9五十八368岁162. 8四十七9五十九3五十三061岁669岁。2六十五2四十七2三十三岁。839岁4五十九663岁4五十九8我们61岁067岁7六十四7七十一1四十八4六十岁。1五十三6五十六874岁9六十四6四十五1三十八岁。041岁3五十七6七十663岁5Ours-finetuned七十二9七十4六十五6七十363岁275. 6 68岁963岁392. 4 75. 1 50块1三十七8四十三1五十七1七十六。1六十五2ALE-tran[57]五十四5四十八355. 7 七十723岁5四十五1三十9十三岁661岁4二十二岁219号。9二十二岁621岁212个。6七十三。021岁5[52]第五十二话50块0八十五4六十四078岁6二十四岁9四十五8三十二221岁875. 0 三十三岁。80的情况。041岁60的情况。031岁767岁2四十三1Tran[第59话]UE-finetune[51]四十八7七十二1五十七7-五十六8五十八3七十二879岁。7十七岁339岁0二十四岁0二十六岁9六十四3三十七9十七岁7二十五020块720块874岁7三十二674岁9七十一5七十三。2---三十三岁。6五十四841岁7九十三166岁。2七十七。4我们七十一189岁。1七十189岁。861岁4六十五163岁278岁787岁282岁7六十岁。641岁9四十九684. 8 88岁686岁。7Ours-finetuned82岁6九十五4七十二689岁。3七十三。881. 4 七十七。391. 0 九十七494 1 五十四241岁8四十七286岁。388岁787岁5表2：与最新技术水平的比较。顶部：归纳法（IND），底部：转导方法（TRAN）。微调只在看到的类图像上执行，因为这不违反零拍摄条件。我们在GML设置中测量Top-1准确度（T1），在GML设置中测量可见和不可见类的Top-1准确度以及它们的调和平均值（H）。幼崽90100Flo幼崽85100Flo80959070856080507580 9575 9070 8565 8060 7555 7050 65401 2 5 10 20每个类的701 2 5 10 20每个类的451 2 5 10 20每个类的601 2 5 10 20每个类的(a) 少镜头学习（FSL）（b）广义少镜头学习（GFSL）[57]第二十二届中国国际纺织品展览会[20][57]第二十二届中国国际纺织品展览会[20]前1名应计费用（%）前1名应计费用（%）前1名应计费用（%）10283图4：CUB和FLO上的FSL和GFSL结果，每个新类的训练样本数量不断增加。左图：FSL图显示了新类别的前1准确度。右图：GALGOL图显示了所有类别的前1精度。在经典的CPDL数据集中，CUB已被用于少量学习[42]，将前100个类作为基类，其余的作为新类。然而，由于Ima-geNet 1 K包含一些新的类，并且特征提取器在其上进行了预训练，因此我们使用来自标准CPDL设置的类分割，即 150 基础和50 小说。对于FLO，我们也遵循与在FML中相同的类拆分。至于特征，我们使用了与zero-shot学习实验中相同的微调ResNet-101特征和属性类嵌入。为了公平起见，我们重复所有的实验，[42]和[20]具有相同的图像特征。与最新技术相比。如图4所示，对于FSL和GFSL设置以及对于两个数据集，当来自新类别的样本数量较小时，我们的归纳和转导模型都具有优于所有竞争方法的显著优势，例如。1、2和5。这表明，我们的模型生成高度判别特征，即使只有很少的真实样本。事实上，每个类只有一个真实样本，我们的模型实现了所有-每类20个样本所获得的最高准确度。走向全监督学习，例如。对于每类10或20个样本，所有方法执行类似。这是预期的，因为在每个类有大量标记样本的情况下，使用真实ResNet-101特征的简单软最大分类器可以达到最先进的水平。在归纳FSL设置，我们的模型，使用一个标记的样本，每个类达到softmax，使用五个样本，每个类的准确性。在转换FSL设置中，我们的模型使用每个类一个标记样本，达到了每个类10个样本所获得的softmax的准确性此外，在归纳GFSL设置下，我们的模型每类两个样本达到了与在CUB上每类十个样本的soft-max训练在反导GFSL设置中，对于FLO，对于我们的模型，只有一个标记样本就足以达到使用softmax的20个标记样本所获得的精度请注意，在SUN和AWA上也观察到由于篇幅限制，我们将在补充材料中介绍。10284基地基础小说FSL90807060504030201 2 5 1020每个类的训练样本数GFSL90807060504030201 2 5 10 20每个类的训练样本数可视化生成的特征。许多方法[8，34，9]已经探索了通过反转特征嵌入来生成图像的策略我们遵循类似于[8]的策略，并训练一个深度上卷积神经网络来将特征嵌入反转到图像像素空间。我们通过将两个图像通过预先训练的Resnet101，并在conv5 4和平均池化层的特征向量图5：ImageNet上的几个Shot学习结果，增加每个新类别的训练样本数量（前5名准确度）。左：FSL设置，右：GFSL设置。大规模的实验。关于ImageNet上的少量学习结果，我们遵循[20]中的过程，其中1K ImageNet类别被随机分为389个基本类和611个新类。为了便于交叉验证，基类被进一步分为C1（193个类）和C2我们还利用了对抗性损失，通过将图像和特征嵌入到一个数据库中，来提高我们的图像质量。我们的生成器由一个完全连接的层和5个上卷积块组成。每个上卷积块包含一个上采样层、一个3x3卷积、BatchNorm和ReLu非线性。重建图像的最终尺寸为64x64。该算法通过4个下采样块对图像进行处理，特征嵌入被发送到线性层并在空间上进行复制。基地1基地与图像嵌入相连，(196类），并将小说类转换为C小说（300类）最后的嵌入是通过卷积和信号，C2（311类）。 hyper的交叉验证小说参数在C1和C1上执行，并且fi-moid层以获取样本是真实的或假的我们在所有真实的特征图像对上训练这个模型最终结果报告在C22小说 . 这里我们的102个类，并使用训练的生成器来反转从预先训练的ResNet-50中提取图像特征1基地2基地，这是由基准[20]提供的。合成特征的图像。在图6中，我们显示了从真实和由于ImageNet上没有属性注释，我们使用300-dim word2vec [35] embeddings作为embeddings类。在[55]之后，我们测量了新类别测试示例的平均前5名准确度，模型仅限于输出新类别标签，以及所有类别测试示例的平均前5名准确度，模型预测基础和新类别。我们的基线是PMN w/G* [55]结合Meta学习和特征生成，类比生成器[20]学习基于类比的特征生成器和使用均匀类采样学习的 softmax 分类器。对于图 5（左）中的少量学习结果，我们观察到我们的模型在转导设置中，即。当训练样本数量较少时，我们的trans-proves最先进的PMN w/G* [55]显着，即。1、2和5。值得注意的是，我们达到了60。6%对54。7%国家艺术在1杆，70。三比六十六。8%，两枪。这表明我们的模型通过以下方式生成高度区分的特征：利用未标记的数据和单词嵌入。在具有挑战性的广义少数学习设置中（图5右侧），尽管PMN /G* [55]通过应用元学习[50]相当强大，但我们的模型仍然实现了与最先进技术相当的结果。同样值得注意的是，PMNw/G*[55]不能直接应用于零触发学习。因此，我们的方法更加通用。4.3. 解释综合特征在本节中，我们将展示我们在FLO上生成的特征在视觉上是有区别的，在文本上是可解释的。综合特征进行比较。我们观察到，从合成特征生成的图像包含分类所需的基本属性，例如一般的颜色分布，有时甚至可以看到花瓣和雄蕊等特征。此外，对于从真实特征和合成特征生成的图像，图像质量相似有趣的是，我们的模型生成的不可见类的合成特征没有观察到该类的任何真实特征，即。如图6的“分类”中所示请参阅“气球花”的图像，在某些情况下，颜色与真实图像不匹配，例如。见图片为“甜豌豆”。我们注意到这些对应于具有高类间变化的类。解释视觉特征。我们还探索生成我们的合成功能的文本解释。为此，我们选择了一个语言模型[21]，它可以解释为什么一个图像属于一个特定的类，给定一个特征嵌入和一个类标签。我们模型的架构类似于[21]，我们使用线性层进行特征嵌入，并将其作为LSTM的开始令牌在序列中的每一步，我们还提供类嵌入，以产生类相关的标题。类嵌入是通过训练LSTM从图像中生成字幕，并获取该类图像的平均隐藏状态来获得的。一个softmax交叉熵损失施加在外-乌尔特兰[55]第55话[20]第二十话乌尔特兰[55]第55话[20]第二十话前5名应计费用（%）前5名应计费用（%）和CCCQC10285这是一朵向日葵因为...… this flower has aR中心和宽，锥形黄色花瓣层。… this flower has aS棕色的中心和锥形的黄色花瓣。这是金盏花因为...…R重叠的橙色花瓣，黄色雄蕊的尖端有缺口，中心… this flower has这是一个树罂粟因为...… the flower is… this flower has这是紫锥花因为...… this flower has… this flower is这是一朵毛毯花因为...… this flower has… this flower has这是粉红报春花因为...… this flower is… the这是一朵西番莲因为...… this flower is… the petals on this flower这是一个国王Protea因为...… this flower has a… this flower has这是坎特伯里钟因为… the petals on this flowerR… this flower has喇叭形的紫色花S星形的。这是一个甜豌豆因为… this flower has petals… this flower has broadalternating leaves, and这是一朵气球花因为… the flower has five花的颜色是可见的。雄蕊和雌蕊从它身上<分离出来这是卡米拉因为… this red flower has… the petals of the flower图6：可解释性：通过从真实或合成特征生成图像和文本解释来实现可视化。对于每个块，顶部是目标，中间是从目标的真实特征（R）重建的，底部是从来自同一类的合成特征（S）重建的。我们还生成与预测类和重建的真实或合成图像条件的视觉解释。顶部（中间）：从看不见的（看不见的）类中获取特征。下图：类间差异较大的类会导致较差的可视化和解释。使用Ground Truth字幕。此外，通过从LSTM中采样一个句子并将其发送到预先训练的句子分类器，可以强制产生一个区别性损失，鼓励生成的句子属于该模型是在[46]的数据集上训练的。和前面一样，我们在所有真实的特征-标题对上训练这个模型，并使用它来获得对合成特征的解释。在图6中，我们显示了从真实和合成特征中获得的解释。我们观察到，该模型生成图像相关的和类特定的解释合成功能的可见和不可见的类。比如说，“帝王Protea”特征包含关于“红色花瓣和尖的尖端”的信息，而“紫色锥花”特征具有关于“粉红色和向下下垂的花瓣”的信息，这是这种花的最视觉上另一方面，如图的底部所示，对于图像特征缺乏特定细节水平的类别，所生成的解释具有一些问题，诸如重复，例如，请看“气球花”的解释5. 结论在这项工作中，我们开发了一个转换特征生成框架，该框架从类嵌入中合成CNN图像特征。我们生成的特征规避了标记训练数据的稀缺性问题，并使我们能够有效地训练softmax分类器。我们的框架combines条件VAE和GAN架构，以获得更强大的生成模型。我们进一步提高VAE- GAN通过添加一个非条件的，handles未标记的数据从看不见的类。第二个判别器学习看不见的类的流形，并将WGAN损失反向传播到特征生成器，使得它更好地泛化以生成用于看不见的类的CNN图像特征。我们的特征生成框架在CUB、FLO、SUN、AWA和大规模ImageNet数据集上的零次（zero-shot，ZEROL）、广义零次（generalized zero-shot，GERO L）、少量（few-shot，FSL）和广义少量学习（generalizedfew-shot learning，GFSL）任务中是有效的。最后，我们表明，我们生成的功能是视觉上可解释的，即。通过将特征反转成原始图像像素而生成的图像实现了令人印象深刻的细节水平。也可以通过语言来解释，即。使用我们的特征生成的视觉解释是类特定的。挑战性的课程查看课程看不见的类S10286引用[1] Z.阿卡塔河佩罗宁Z. Harchaoui和C.施密特标签嵌入用于基于属性的分类。CVPR，2013。[2] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特用于图像分类的标签嵌入. TPAMI，2016.[3] M. Arjovsky和L.博图训练生成对抗网络的原则性方法ICLR，2017年。[4] M. Arjovsky，S.Chintala和L.博图Wasserstein ganICML，2017.[5] M. Bucher，S. Herbin和F.朱丽生成零炮分类的视觉表示。ICCV研讨会，2017年。[6] S. Changpinyo，W.- L. Chao湾Gong和F.煞为零射击学习合成大小的分类器。在CVPR，2016年。[7] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。CVPR，2009。[8] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有视觉相似性度量的图像神经信息处理系统的进展，第658-666页，2016年。[9] A. Dosovitskiy和T.布洛克斯使用卷积网络反转视觉在IEEE计算机视觉和模式识别会议论文集，第4829-4837页[10] M.埃尔霍塞尼湾Saleh和A.埃尔加马尔写一个classi-fier：使用纯文本描述的零镜头学习。InICCV，2013.[11] R.费利克斯，V.K. B. G，I. Reid和G. Carneiro多模态循环一致性广义零激发学习。在ECCV，2018。[12] C. Finn，P. Abbeel，和S.莱文模型不可知Meta学习用于深度网络的快速适应。ICML，2017。[13] A. 弗罗姆， G 。 S. Corrado ， J.Shlens ， S.Bengio ，J.Dean，M.A. Ranzato和T.米科洛夫Devise：一个深度视觉语义嵌入模型。在NIPS，2013年。[14]

下载后可阅读完整内容，剩余1页未读，立即下载