基于条件变分自动编码器的少样本分类方法

129 浏览量更新于2023-10-25 收藏 1.11MB PDF 举报

特征生成

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9003用于少样本分类的代表性样本生成徐静怡石溪大学jingyixu@cs.stonybrook.eduHieu Le*亚马逊机器人ahieu@amazon.com摘要少镜头学习（FSL）的目的是学习新的类别与一些视觉样本每个类。由于数据稀缺，很少的类代表往往是有偏见的。为了解决这个问题，我们提出了一个条件变分自动编码器（CVAE）模型的语义嵌入的基础上产生的视觉样本。我们在基类上训练这个CVAE模型，并使用它来生成新类的特征。更重要的是，我们在训练CVAE模型时，通过从基础训练集中去除非代表性样本，引导这种VAE严格生成代表性样本。我们表明，这种训练方案提高了所生成的样本的代表性，因此，提高了少数镜头分类，代表性样品非代表性样品结果。实验结果表明，我们的方法改进了三种FSL基线方法，在miniImageNet和tieredImageNet数据集上实现了最先进的少镜头分类，包括1镜头和5镜头设置。代码可用网址：https://github.com/cvlab-stonybrook/fsl-rsslane。1. 介绍少样本学习（FSL）方法旨在用有限的训练数据学习有用的表示。它们对于需要机器学习解决方案但获取大型标记数据集并不容易的情况非常有用（例如，罕见的医疗条件[49，71]，罕见的动物物种[75]，自主系统的失败案例[42，43，58]）。一般来说，FSL方法从一组固定的基本类中学习知识，其中有多余的标记数据，然后将学习的模型适应于一组新的类，其中只有几个训练示例可用[73]。许多FSL方法[10，23，39，65，65，77，82]采用基于原型的分类器，因为其简单性和良好的性能。他们的目标是为每个新类找到一个原型怎么-*在亚马逊图1. 代表性样品。我们推荐山姆议员-这些样本忠实地反映了我们识别这些样本，然后使用它们来训练VAE模型的特征生成，条件下，代表类的语义嵌入。我们表明，生成的数据显着提高了少拍分类性能。然而，仅从几个可用的支持样本中估计代表性原型是具有挑战性的[37，79]。增强原型代表性的有效策略是使用大型无监督文本语料库[77，82]，采用通过NLP模型[13，46，52，53这些语义嵌入隐式地将类别名称（例如“Yorkshire Terriers”）与类别代表性语义属性（例如“small-est dog”或“long coat”[ 1 ]（图1））相关联在大多数情况下，当前的FSL方法集中于学习自适应地利用语义信息来完成从少数可用样本估计的原始有偏原型。例如，Zhanget al.[82]学习将原始知识和属性特征融合到一个代表性的原型中，这取决于给定的少量样本集。类似地，Xinget al. [77]提出了一种计算自适应混合系数的方法，以组合来自视觉和纹理的特征高斯分布9004∼∼实际模态。然而，学习恢复一个任意偏置的原型是具有挑战性的，由于急剧变化的可能组合的几个镜头的样本。在本文中，我们提出了一种新的FSL方法来获得类代表原型。受零射击学习（zero-shot learning，简称ZML）方法[4，18，85]的启发，我们提出通过基于每个类的语义嵌入的变分自动编码器（VAE）模型[66]该VAE模型学习将特征的分布与条件语义代码相关联。我们假设这种关联在基础和新类中推广[3，47]。因此，使用来自基础类的足够数据训练的模型可以生成与真实的不可见特征对齐的新颖类特征。然后，我们使用生成的功能与几个镜头的样本来构建类原型。我们证明了这种策略在迷你ImageNet和分层ImageNet数据集上都取得了最先进的结果。它在1次拍摄场景中表现非常好，我们的方法在分类准确性方面优于最先进的方法[76，80]56%此外，为了提高原型的代表性，我们引导VAE生成更多的代表性样本。在这里，我们将代表性样本称为“易于识别”的样本，这些样本忠实地反映了该类别的关键特征（见图1）。1）。这些代表性样本的嵌入通常位于其对应的类中心附近，这对于构建类代表性原型特别有用。具体地说，我们引导VAE模型通过只从基本类中选择代表性数据来训练它来生成代表性样本。本质上，我们的VAE模型被训练为对训练集的数据分布进行建模。由于训练集仅包含代表性数据，因此经训练的VAE模型输出也具有代表性的样本。具体来说，为了选择那些代表性特征，我们首先假设每个类别的特征向量遵循多元高斯分布，并估计每个基本类别的分布。基于这些分布，我们计算每个样本属于其相应类别的概率，以衡量样本的代表性。我们过滤掉非代表性的样本，只使用代表性的样本训练VAE。有趣的是，我们表明训练集的代表性与少镜头分类器的准确性高度对应。当用最具代表性的样本训练VAE时，我们获得了最高的准确率。在这种情况下，我们只使用整个训练集的一小部分对于小型Imagenet数据集的情况，为10%，以获得最佳结果。我们的分析表明，这种方法在三个不同基线的所有基准中一致地将FSL分类性能提高了12%[10，39，65]。我们的主要贡献可概括如下：• 我们是第一个使用基于VAE的特征生成方法的条件类语义嵌入几杆分类。• 我们提出了一种新的样本选择方法来收集有代表性的样本。我们使用这些样本来训练VAE模型，以获得用于构建类代表性原型的可靠数据点。• 我们的实验表明，我们的方法在两个具有挑战性的数据集上实现了最先进的性能，分层ImageNet和迷你ImageNet。我们在第2节中总结了FSL的相关工作。第3节提供了我们的方法的纲要。第4节报告了使用我们的方法获得的主要结果。在第5节中，我们提供了多项分析，以阐明我们方法的不同方面。2. 相关工作少拍学习。当我们只有有限的标记训练数据时，FSL很有帮助[7，25代表性的FSL方法包括基于度量学习的方法[65，67，68，70，79，80，83]，基于优化[17，31，33，34，37，54，59，62]，以及基于数据增强的方法[2，61，74，78]。与我们的方法类似，一些FSL方法使用语义信息来改进少镜头分类器[21，51，69，77，82]。Zhang等人[82]和Xinget al.[77]提出了学习自适应地组合视觉特征和语义特征以获得每个类的统一的跨模态表示的方法。这两种方法都侧重于结合两个领域特征的融合策略。Hu等人[21]建议将视觉特征分解为与不同语义属性相关联的子空间。Penget al. [51]使用语义信息来推断新类别的分类器，并自适应地将该分类器与少量样本相结合。我们的方法是第一个使用条件VAE模型直接生成视觉特征的FSL方法，条件是每个类的语义嵌入。条件变分自动编码器。使用条件VAE来对特征分布进行建模的实践之前已经在许多计算机视觉任务中使用，例如图像分类[23，60，78，84]，图像生成[16，38]，图像恢复[14]或视频处理[50]。使用VAE模型来生成以相应的语义嵌入为条件的特征在WML方法中相当常见[4，18，47，60，81，85]。Mishra等人[47]是第一个提出对ZSL使用条件VAE的人，他们将ZSL视为缺失数据的情况。他们发现这样的方法可以很好地处理域转移问题。类似地，Aroraet al. [3]证明条件VAE可以9005语义嵌入输入图像一特征提取器编码器潜在代码z解码器XX级联∈联系我们可能性阈值深度特征高斯分布KL损失重构损失(a) 样本选择方法（b）条件VAE模型图2.概述（a）为了选择代表性样本，我们假设每个类别的特征遵循多元高斯分布。我们估计的分布参数，并计算每个数据点属于类分布的概率我们确定一组有代表性的样本，通过设置一个阈值的概率。（b）我们训练VAE来生成视觉特征，条件是每个类的语义嵌入仅使用代表性样本（样本选择步骤的输出）来训练该VAE模型提高了所生成样本的代表性。与GAN系统一起使用，以有效地合成未见类别的图像。Keshari等人[22]专注于生成更接近另一类和决策边界的一组特定的硬样本。在大多数情况下，CNOL方法旨在对数据的整个分布进行建模[6，9，40，60]，而我们的方法专注于对用于构建类代表原型的代表性样本的分布进行建模样品选择。据我们所知，我们是第一个提出使用样本选择方法来选择VAE模型的训练样本。在这里，我们只选择有代表性的样本来训练VAE。这是一种新的样本选择机制，因为主流样本选择工作主要集中在识别最具信息性的样本[5，24]以训练其模型，这广泛用于主动学习[32，63]。在FSL中，Changet al. [8]提出了一种方法来选择应该为少量文本生成系统注释的信息量最大的数据。Zhou等[86]提出了一种方法来选择有用的基类来训练它们的模型，而我们的工作则在任意一组基类中选择有用的个体样本。3. 方法3.1. 问题定义在一个典型的少数镜头分类设置中，我们给出了一组数据标签对D =（xi，yi）。这里，xiRd是样本的特征向量，yiC，其中C表示类的集合。类的集合被划分为基本类Cb和新类Cn。类Cb和Cn的集合是不相交的，即Cb <$Cn =<$。对于N向K射问题，我们从新的集合Cn中采样N个类，并且K个样本可用于每个类。K通常很小（即，K=1或K = 5）。我们的目标是使用支持集的少数样本对查询样本进行3.2. 整体管道图2给出了我们的样本选择方法和VAE训练方法的概述我们提出了一种方法来选择一组有代表性的样本从一组基类。我们使用这些选定的代表性数据来训练条件VAE模型的特征生成。为了选择有代表性的样本，我们假设每个类的特征我们估计每个类分布的参数，并计算每个数据点属于其类的概率。通过对概率设置阈值，我们识别一组代表性样本。然后，我们使用这些选定的代表性样本来训练VAE模型，该模型生成以每个类的语义属性为条件的样本。我们在基类上训练这个VAE，并使用训练好的模型为新类生成样本然后，将生成的特征与少量样本一起用于构建每个类的原型。我们的方法是一个简单的即插即用模块，可以构建在任何预训练的特征提取器之上。在我们的实验中，我们表明我们的方法一致地改进了三种基线少镜头分类方法：元基线[10]，Pro-toNet [65]和E3 BM [39]的大幅度。9006Σ|NΣ−−ΣΣ2Σ∗Σ∗3.2.1类代表性样本选择在本文中，我们对代表性样本感兴趣，因为它们可以作为构建类代表原型的可靠数据点[10，65]。其主要思想是训练一个只有代表性数据的特征生成器，以获得更有代表性的生成样本。为了选择代表性特征，我们假设其将视觉特征x映射到潜在码z;以及解码器G（z，a），其从z重构x。E和G都以语义嵌入a为条件。用于训练类别i的特征Xj的VAE的损失函数可以被定义为：LV（xj）=KL。q（z|xj，ai）||p（z|ai）J我基本类的特征分布遵循高斯分布分布，并估计每个类的分布参数。我们计算基类i的高斯均值作为向量中每个单个维度的均值ni-log p（x|z，a），其中ai是类i的语义嵌入。第一项是VAE后验q（z）之间的Kullback-Leibler散度|x，a）和先验分布p（z|a）.第二第二项是解码器的重构误差。 q（z|x，a）是µi=1nij=1xj，（1）模型为E（x，a），p（x，z，a）等于G（z，a）。假设所有类别的先验分布为（0，I）训练特征生成器的损失是其中，xj是来自基本类i的第j个样本的特征向量，并且ni是类i中的样本的总数。I. 用于类别i的分布的协方差矩阵Rai计算为：nii=1（xj µi）（xjµi）T。（二）ni−1所有选定的代表性训练样本：CbLV=LV（x）（6）i=1x∈Dij=1一旦我们使用来自基本类的足够样本来估计高斯分布的参数，观察到从类i的高斯分布生成的单个特征xj的概率密度由下式给出：3.2.3构造类原型在基础集合上训练VAE之后，我们通过将相应的语义向量ay和噪声向量z输入到解码器G来生成类别y的特征集合：Gy={x}|x<$=G（z，ay），z<$N（0，I）}.（七）p（xj|µi，i）=exp{−1（xj−µi）Ti−1（xj−µi）}（2π）k/2| Σi|二分之一（三）然后将生成的特征与少量任务的原始支持集特征一起用作训练其中k是特征向量的维度。这里我们假设单个样本属于其类别分布的概率反映了样本的代表性，即概率越高，样本越具有代表性。通过在估计的概率上设置一个阈值，我们过滤掉那些概率小的样本，并得到一组类别i的代表性特征：用于任务特定分类器的数据。按照我们的基线方法，我们计算每个类的原型，并应用最近邻分类器。具体来说，我们首先计算两个分离的原型：一个使用支撑特征，另一个使用生成的特征。每个原型是每个组的特征的平均向量。然后，我们对两个原型进行加权求和，以获得类y的最终原型py：Di={xj|p（xj|µi，i）>}，（4）其中Di存储类别i的特征，概率为py=wg1|Gy|x∈Gy xˆj + ws1|Sy|xj∈Sy xj，（8）大于阈值m。3.2.2 特征生成我们使用我们的样本选择方法来选择一组代表性的样本，并使用它们来训练我们的特征生成模型。我们基于条件变分自动编码器（VAE）架构开发了我们的特征生成器[66]（见图2b）。VAE由编码器E（x，a）组成，（五）、9007其中，Sy是支持集特征，并且（wg，ws）是共同的。生成的特征原型和真实fea的系数真实原型，分别。我们通过为嵌入查询特征找到最接近的类原型来我们进行了进一步的分析，以表明我们生成的特征可以使所有类型的分类器受益（见第5.2节）。与修正原始偏差原型的方法相比，我们的模型不需要任何精心设计的组合方案。9008×方法骨干迷你ImageNet1发5发分层ImageNet1发5发[70]第七十话ResNet-1265.64 ±0.2064.06 ±0.1862.85 ±0.2063.85 ±0.4864.06 ±0.1858.50 ±0.3065.30 ±0.4962.64 ±0.6661.23 ±0.2662.64 ±0.6163.06 ±0.6166.78 ±0.2062.02 ±0.6363.85 ±0.8166.45 ±0.1978.72 ±0.1580.58 ±0.1280.02 ±0.1479.44 ±0.3480.58 ±0.1276.70 ±0.3078.10 ±0.3678.83 ±0.4577.69 ±0.1778.63 ±0.4680.63 ±0.4282.05 ±0.1479.64 ±0.4481.57 ±0.5682.83 ±0.1368.50 ±0.92-69.09 ±0.2269.89 ±0.51-62.13 ±0.3169.08 ±0.4766.22 ±0.75-65.99 ±0.7265.43 ±0.2170.80 ±0.2369.74 ±0.72-71.16 ±0.2280.60 ±0.71-84.58 ±0.1684.23 ±0.37-81.92 ±0.3082.58 ±0.3182.79 ±0.48-81.56 ±0.5370.44 ±0.3284.79 ±0.1684.41 ±0.55-86.01 ±0.15MAML [17]ResNet-18[72]第七十二话ResNet-18加拿大[20]ResNet-12S2M2 [44]ResNet-18TADAM [48]ResNet-12AM3 [77]ResNet-12[第64话]ResNet-12[84]第八十四话ResNet-12MetaOptNet [31]ResNet-12Robust 20-蒸馏[15]ResNet-18[80]ResNet-12RFS [68]ResNet-12负余弦[36]ResNet-12FRN [76]ResNet-12元基线[10]荟萃基线+ SVAE（我们的）荟萃基线+R-SVAE（我们的）ResNet-12ResNet-12ResNet-1263.17 ±0.2369.96 ±0.2172.79 ±0.1979.26 ±0.1779.92 ±0.1680.70 ±0.1668.62 ±0.2773.05 ±0.2473.90 ±0.2483.29 ±0.1883.96 ±0.1884.17 ±0.18ProtoNet [80]ResNet-1262.3980.5368.2384.03ProtoNet + SVAE（我们的）ProtoNet + R-SVAE（Ours）ResNet-12ResNet-1273.01 ±0.2474.84± 0.2383.13 ±0.4083.28± 0.4076.36 ±0.6576.98 ±0.6585.65 ±0.5085.77 ±0.50E3BM [39]E3BM + SVAE（Ours）E3BM + R-SVAE（Ours）ResNet-12ResNet-12ResNet-1264.09 ±0.3773.07 ±0.3973.35 ±0.3780.29 ±0.2580.82 ±0.3180.95 ±0.3171.34 ±0.4179.85 ±0.4380.46± 0.4385.82 ±0.2986.82 ±0.3286.99± 0.32表1.与之前在迷你ImageNet和分层ImageNet上的工作进行比较。平均5向单次发射和5向5向5次发射准确度（%），置信区间为95%。SVAE表示我们使用VAE训练的方法，该VAE使用基本集中的所有特征。R-SVAE表示仅用代表性特征训练的一个。最佳性能以粗体突出显示。4. 实验4.1. 实验设置数据集。我们在两个广泛使用的少量学习基准上评估了我们的方法，迷你ImageNet [55]和分层ImageNet[57]。miniImageNet是ILSVRC-12数据集的子集[12]。它包含100个类，每个类由600个图像组成。每个图像的大小为8484.根据[56]的评估协议，我们将100个类分为64个基类，16个验证类和20个新类，用于预训练，验证和测试。分层ImageNet是ILSVRC-12数据集的一个更大的子集，它包含从分层类别结构中采样的608个类每个类别中的平均图像数量它首先被划分为34个超类别，这些超类别被分成20个用于训练的类、6个用于验证的类和8个用于测试的类这导致351个实际类别用于训练，97个用于验证，160个用于测试。基线方法。我们的方法可以作为一个简单的即插即用模块，许多现有的几杆学习方法，而无需微调其特征提取器。我们研究了与我们的方法结合使用的三种基线少镜头分类方法：ProtoNet [80]、Meta-Baseline[10]和E3BM [39]。 ProtoNet被认为是一种强大而经典的原型方法。在我们的前-实验中，我们使用叶等人的ProtoNet实现。[80]。Meta-Baseline [10]使用ProtoNet模型通过元学习来微调通用分类器。E3BM [39] Meta学习逐时期模型的集合，以实现对FSL的鲁棒预测。对于每个基线方法，我们提取相应的特征表示来训练我们的特征生成VAE模型。然后，我们使用训练的VAE生成特征，并获得类原型的少镜头分类。评估方案。我们使用前1名的准确度作为评估指标来衡量我们的方法的性能。我们报告的准确性标准的5路1杆和5杆设置15个查询样本每类。我们从测试集中随机抽样2000个发作，并报告平均准确性与95%置信区间。4.2. 实现细节所有三个基线都使用ResNet12主干作为特征提取器。通过平均池化最终残差块输出来提取特征表示ProtoNet [80]的特征表示尺寸为640，Meta-Baseline [10]为512，E3 BM [39]为640。对于我们的特征生成模型，编码器和解码器都是具有4096个隐藏单元的两层全连接（FC）网络。LeakyReLU和ReLU [19]是非-9009∼×∼∼∼72.572.071.571.070.570.0miniImageNet，1次拍摄60050040030020010080.680.480.280.0miniImageNet，5次拍摄6005004003002001000.0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9阈值0.0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9阈值74.274.073.873.673.473.2tieredImageNet，单次1200100080060084.1584.1084.0584.00tieredImageNet，5-shot1200100080060073.00.0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.983.950.0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9阈值精度样本数阈值图3. 不同概率阈值下的少镜头分类结果。当为概率设置不同阈值时，我们报告分类准确度（%）（红色）和样本数量（绿色）。较高的阈值意味着我们选择更具代表性的样本，从而导致较少的训练数据点。一般来说，当训练样本的数量随着代表性阈值的增加而减少时，分类性能会增加分别在隐藏层和输出层中的线性激活函数。潜在空间和语义向量的维度都被设置为512。该网络使用Adam优化器进行训练，学习率为10- 4我们的语义嵌入是从CLIP [53]中提取的。我们-将公式8中的组合权重[w g，w s]螺旋地设置为[1，1]（1次设置）和[1，5]（5次设置）。以较大的幅度执行最先进的方法[76在5次拍摄中，我们的方法始终带来0。5 2. 7%的平均收益。使用具有代表性的样本来训练我们的VAE模型，进一步改进了所有设置和所有数据集下的三种基线方法。与SVAE相比，对严格代表性数据的训练提高了单次分类，2 2 6 6我们将主要实验的概率阈值设置为0.9，并在第5.1节中讨论了该阈值不同值下的性能。4.3. 结果表 1 展示了我们的方法在迷你 ImageNet 和分层ImageNet上的5路1次和5路5次分类结果，并与以前的FSL 方法进行了比较在这里，所有的方法都使用ResNet 12/ResNet 18架构作为特征提取器，输入图像的大小为84 - 84。因此，比较是公平的。在本文的其余部分，我们将使用所有数据训练的VAE表示为SVAE（Semantic-VAE），仅使用代表性数据训练的模型表示为R-SVAE（Rrepresentative-SVAE）。我们将我们的方法应用于 Meta-Baseline [10] ，ProtoNet [80]和E3 BM [39]。我们的方法在所有设置和所有数据集下始终改进所有三个基线。它们在单次拍摄设置下工作得特别好，其中样本偏差是一个更明显的问题。使用在所有数据上训练的模型- SVAE，我们报告6。所有三个基线的单杆精度提高8% 10%。我们在所有基线上的单杆表现-精度为0。百分之三8%，5杆分类准确率为0。2%的0。百分之八 R-SVAE在迷你ImageNet数据集上实现了最先进的少量分类，ProtoNet基线和分层ImageNet数据集与E3BM基线。5. 分析以下所有分析均使用元基线方法[10]中的特征提取器5.1. 概率门限在我们的主要设置中，我们将概率设置为0.9的阈值，以选择那些类代表性样本作为我们的VAE模型的训练数据（越高，越有代表性）。在本节中，我们使用不同的阈值进行实验，以了解它如何影响分类器的性能。图3显示了不同阈值下迷你ImageNet和分层ImageNet数据集的分类精度。随着阈值的增加，更多的非代表性样本被过滤掉，导致R-SVAE的训练数据更有趣的是，我们观察到模型通常在较高的阈值下表现得更好。准确度（%）准确度（%）数量的样本数量的样本准确度（%）准确度（%）数量的样本数量的样本9010miniImageNet，1次拍摄基线关于SVAE关于R-SVAE支撑特征（一）查询特征（b）第（1）款使用SVAE（c）第（1）款使用R-SVAE生成的特征（d）其他事项图4. 特征可视化。我们在分层的ImageNet数据集上展示了原始特征（标记为暗点）和我们生成的特征（标记为透明点）的不同的颜色代表不同的阶级。从左到右，我们显示了原始支持集（a），查询集（b），SVAE生成的特征（c）和R-SVAE生成的特征（d）。515.012.5410.037.525.012.50 0.0miniImageNet，5次拍摄表明我们生成的特征可以使不同类型的分类器受益。5.3.特征分布分析在图4中，我们显示了来自新的特征集的三个类别的不同特征集的t-SNE表示[41]。0.0 0.2 0.4 0.60.8距离0.00 0.05 0.10 0.15 0.20 0.25距离分层ImageNet数据集。从左到右，我们可视化了原始支持集（a），查询集（b），图5. 距离分布。核密度估计估计的原型和地面真实原型之间的距离较小的值意味着估计的原型更接近地面真实原型。在1-shot和5-shot设置下使用例如，在迷你ImageNet数据集上的1次拍摄设置下，当将阈值设置为0.9时，我们平均每个类只用这一小组图像训练VAE模型，性能提高了2。95%，与使用基本集中的所有数据训练的模型相比，平均每类600张图像。结果表明，我们的方法的性能强烈对应于训练数据的代表性此外，它表明，我们的样本选择方法提供了一个可靠的测量的训练样本的代表性。5.2. 不同分类器的性能在我们的主要实验中，我们通过找到类原型之间的最近邻居来对样本进行在本节中，我们应用另外三种不同类型的分类器：1-最近邻分类器（1-N-N）、支持向量机（SVM）和逻辑回归（LR）。表2显示了使用我们在迷你ImageNet和分层ImageNet数据集上生成的特征的不同分类器的单次性能。结果表明，VAE生成的特征提高了所有三个分类器的性能例如，使用LR的mini ImageNet的1次精度提高了8。8%的SVAE和10。R-SVAE为1%。一致的性能改进由SVAE生成的特征（c）和由R-SVAE生成的特征注意，我们的方法不依赖于支持特征来生成特征。图图4（c）和（d）显示了我们的样品选择方法的效果图4（c）可视化了我们的方法生成的特征，这些特征是用来自基类的所有可用数据训练的，平均每个类包含1281个图像在图4（d）中，我们训练相同的模型，平均每个类只有484个代表性图像。我们的模型训练的数据的代表性子集产生的功能，谎言更接近真实的功能，显示了我们的样本选择方法的有效性。此外，我们绘制了估计的原型和每个类的真实原型之间的距离分布具体来说，对于每个类，我们首先通过取该类所有特征的平均值来获得地面真实原型。然后我们计算地面真实原型和三种不同原型类型之间的L2距离：1）基线：仅使用支撑样品来估计原型。2）SVAE：使用支持样本和从我们的SVAE模型生成的样本来估计原型3）R-SVAE：使用支持样本和从我们的R-SVAE模型生成的样本来估计原型我们从迷你ImageNet数据集中抽取了2400个任务，分别在5路1次和5路5次设置下进行。对于每个任务，我们获得五个距离，每个类一个距离。然后我们绘制距离的概率密度分布，如图所示。五、计算概率密度通过对观测值进行分箱和计数，然后用高斯核（即核密度估计）对其进行平滑，密度基线关于SVAE关于R-SVAE密度9011非代表性图6. 代表性样品（左）和非代表性样品（右）的示例。我们可视化了5个具有高概率的图像和5个具有小概率的图像，这些图像是通过我们提出的方法从分层的ImageNet数据集中计算的3个类。分类器支持样本迷你ImageNet+ SVAE+ R-SVAE支持样本分层ImageNet+ SVAE+R-SVAE原型[10]63.17 ±0.2369.96 ±0.2172.79± 0.1968.62 ±0.2773.05 ±0.2473.90± 0.241-N-NSVMLR63.28 ±0.2363.41 ±0.2363.33 ±0.2267.25 ±0.2070.30 ±0.2072.11 ±0.2069.27± 0.1972.84± 0.1973.41± 0.1968.73 ±0.2668.88 ±0.2569.15 ±0.2568.05 ±0.2569.26 ±0.2574.99 ±0.2369.82± 0.2471.28± 0.2475.98± 0.23表2. 分类器的选择。使用不同类型的分类器，在mini ImageNet和分层ImageNet上的一次性分类准确率，即、1-N-N、SVM和LR。所有方法都使用Meta-Baseline方法中的特征提取器[10]。mation [11].如图所示，与基线相比，我们估计的类原型更接近地面真实原型。5.4. 样品可视化在图6中，我们基于通过我们的方法计算的代表性概率来可视化一些代表性样本和非代表性样本左图上的样本是具有高概率的图像。这些意象大多包含了范畴的主要对象，易于识别.相反，右图中的样本它们包含各种与类无关的对象，并可能导致构造类原型的噪声特性。5.5. 不同语义嵌入的性能我们在我们的主要实验中使用CLIP功能我们使用Word2Vec [45]特征训练的方法的性能如表3所示。请注意，CLIP模型是用从网络收集的4亿对（图像及其文本标题）我们的模型在这两种情况下都优于最先进的方法。6. 限制和讨论我们提出了一种使用条件VAE模型的特征生成方法。在这里，我们专注于对代表性样本的分布而不是整体建模1发5发元基线荟萃基线+ SVAE荟萃基线+R-SVAE63.17 ±0.23 79.26 ±0.1767.39 ±0.21 79.77 ±0.1768.03± 0.22 79.93± 0.16表3. 使用Word2Vec [45]作为语义特征提取器的分类精度。数据分布为了实现这一点，我们提出了一种样本选择方法，收集一组严格代表性的训练样本来训练我们的VAE模型。我们表明，我们的方法在多个基线上带来了一致的性能改进，并在迷你 ImageNet 和分层ImageNet数据集上实现了最先进的性能我们的方法需要一个预先训练的NLP模型，以获得每个类的语义嵌入。它也可能继承了文本域中的一些潜在偏见。请注意，我们的方法并不旨在生成具有较大类内方差的多样化数据[35，78]。构建一个可以生成代表性和非代表性样本的系统可以极大地有利于各种下游计算机视觉任务，并且是扩展我们工作的一个有趣方向鸣谢。徐静仪的部分支持来自斑马科技的研究资助和SUNY2020 ITSC资助。Hieu Le由Amazon Robotics资助参加会议。我们感谢 Tran Truong ， Kien Huynh 和BentoGon cal v es对本文的校对。9012引用[1] hillspet.com/dog-care/dog-breeds/yorkshire-小猎犬。1[2] Antreas Antoniou，Amos Storkey，and Harrison Edwards.数据增强生成对抗性网络。在arXiv预印本arXiv：1711.04340，2018。2[3] Gundeep Arora，Vinay Kumar Verma，Ashish Mishra和Piyush Rai。通过合成示例的广义零镜头学习。2018年IEEE/CVF计算机视觉和模式识别会议，第4281-4289页，2018年。2[4] 吉米·巴，凯文·斯沃斯基，桑娅·菲德勒，和鲁斯兰·萨拉胡迪诺夫。使用文本描述预测深度零触发卷积2015年IEEE国际计算机视觉会议（ICCV），第42472[5] 贾瓦杜尔·H.巴比，S。Paul，Ertem Tuncel，and Amit K.罗伊-乔杜里。典型性对信息代表选择的影响。2017年IEEE计算机视觉和模式识别会议（CVPR），第7713[6] Nihar Bendre，Kevin Desai，Peyman Najafirad.使用具有语义概念的多模态变分自动编码器的通用化零射击学习。ArXiv，abs/2106.14082，2021。3[7] Alex Borowicz，Hieu Le，Grant Humphries，G. Nehls，Caro-lineH？schle，V. Kosar ev和H. 我林奇。空中训练的深度学习网络，用于从卫星图像中测量鲸目动物。PLoS ONE，14，2019. 2[8] Ernie Chang，Xiaoyu Shen，Hui-Syuan Yeh，and VeraDem-berg.关于少数神经文本生成的训练实例选择。ArXiv，abs/2107.03176，2021。3[9] 顾玉超，张乐，刘云，陆少平，程明明。通过条件生成流的广义零触发学习。ArXiv，abs/2009.00303，2020。3[10] Yinbo Chen，Zhuang Liu，Huijuan Xu，Trevor Darrell，and Xiaolong Wang.元基线：探索简单的Meta学习用于少量学习。IEEE/CVF计算机视觉国际会议论文集，第9062-9071页，2021年。一二三四五六八[11] 陈妍琪关于核密度估计和最新进展的教程。BiostatisticsEpidemiology，1：1618[12] 邓佳，董伟，理查德·索彻，李丽佳，K.李和李飞飞。Imagenet：一个大规模的分层图像数据库。CVPR，2009。5[13] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL，2019年。1[14] 杜英俊，徐军，甄仙童，程明明，凌少。条件变分图像去噪IEEE Transactions on Image Processing，29：6288-6301，2020。2[15] 尼基塔·德沃尔尼克，科迪莉亚·施密德，朱利安·麦拉尔.多样性与合作：用于少数镜头分类的集成方法。第3722-3730页，2019年。5[16] Patri c kEsse r，EkaterinaSutte r，andB joürnOmme r. 一个用于条件外观和形状生成的变量u-网。2018年IEEE/CVF计算机视觉和模式识别会议，第8857-8866页，2018年。2[17] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。2017年，国际机器学习会议（ICML）。二、五[18] 郭精彩和郭嵩。一个新的视角零射击学习：通过语义特征扩展实现流形结构的对齐。IEEE Transactions onMultime-dia，23：524-537，2021。2[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，2015年。5[20] 侯瑞兵，常红，马炳鹏，S.Shan和Xilin Chen。交叉注意力网络用于少镜头分类。NeurIPS，2019。5[21] Ping Hu，Ximeng Sun，Kate Saenko，and Stan Scaroff.弱监督组合特征聚集用于少镜头识别。卷abs/1906.04833，2019。2[22] Rohit Keshari，Richa Singh，and Mayank Vatsa.通过过完备分布的一般化零射击学习。2020 IEEE/CVF计算机视觉和模式识别会议（CVPR），第13297-13305页，2020年。3[23] Junsik Kim，Tae-Hyun Oh，Seokju Lee，Fei Pan，andIn So Kweon.变分原型-编码器：使用原型图像进行一次性学习。在 IEEE 计算机视觉和模式识别会议（CVPR），2019。一、二[24] Hieu Le、Bento Goncalves、Dimitris Samaras和HeatherLynch。弱标记抗凝剂：企鹅群的案子。在CVPR研讨会上，2019年6月。3[25] Hieu Le，Vu

下载后可阅读完整内容，剩余1页未读，立即下载