用于少样本学习的对抗性特征幻觉网络

148 浏览量更新于2023-10-25 收藏 763KB PDF 举报

少样本学习

数据增强

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13470用于少样本学习的对抗性特征幻觉网络李凯1，张玉伦1，李鲲鹏1，傅云1，21美国波士顿东北大学电气与计算机工程系2美国波士顿东北大学Khoury计算机科学学院{kaili，kunpengli，yunfu}@ ece.neu.edu，yulun100@gmail.com摘要深度学习最近在各种任务中的蓬勃发展在很大程度上被认可为丰富和可访问的标记数据。尽管如此，大规模监督对于许多实际应用来说仍然是一种奢侈品，这激发了人们对标签稀缺技术的极大兴趣，例如少量学习（FSL），其目的是用少量标记样本学习新类的概念一个自然的方法，FSL是数据增强和许多最近的工作已经证明了可行性，提出了各种数据合成模型。然而，这些模型不能很好地保证合成数据的可区分性和多样性，因此经常产生不期望的结果。本文在条件Wasserstein生成对抗网络（cWGAN）的基础上，提出了对抗特征幻觉网络（AFHN），该网络能够在少量标记样本的条件下，对具有多样性和区分性的特征进行幻觉。两个新的正则化器，即，分类正则化器和抗塌陷正则化器被合并到AFHN中，以分别促进合成特征的可辨别性和多样性。仿真实验验证了所提出的基于cW-GAN的特征超分辨率框架和正则化器的有效性.三个共同的基准数据集的比较结果证实了AFHN的优势，现有的基于数据增强的FSL方法和其他国家的最先进的。1. 介绍丰富且可访问的标记数据推动了深度学习的革命性成功[7，46，20]。然而，在许多具体的实际应用中，只有有限的标记数据可用。这激发了对少量学习（FSL）的研究，其中我们需要基于一些标记样本来学习新类的概念。为了克服标记数据不足的问题，一些FSL方法采取增强特征表示的可区分性的方法，使得从少量标记样本学习的简单线性分类器可以达到令人满意的分类结果。结果[39，36，38]。另一类方法研究快速有效地更新具有少量标记数据的深度神经网络的技术，或者通过学习元网络和相应的更新规则[9，24，32，28]，或者通过学习直接从标记样本生成分类网络的一些组件的元学习者模型或者，第三组方法通过扭曲标记图像或基于标记图像合成新图像/特征来解决数据增强的问题[4，10，35，5]。我们提出的方法属于基于数据增强的类别。这类方法的基本假设是，从可见（训练）类学习的类内跨样本关系可以应用于不可见（测试）类。一旦对交叉样本关系进行建模并从可见的类中学习，就可以将其应用于不可见类的少数标记样本以产生幻觉的新样本。据信，增强样本可以使类内方差多样化，从而有助于达到更清晰的分类边界[45]。无论使用何种数据增强技术，确保增强样本的可辨别性都是至关重要的，否则它们将对分类器产生catastrophic影响。另一方面，只有当标记样本表现出足够的类内方差时，分类器的决策边界才能精确地确定。因此，扩增样本的多样性也是至关重要的作用。事实上，这是研究FSL数据增强的基本动机，因为一些标记的样本封装了有限的类内方差。虽然最近已经提出了各种基于数据增强的FSL方法，但它们不能同时保证合成样本的可辨别性和多样性。一些方法学习每个基础（标签丰富）类中的样本之间然而，任意映射可能会破坏合成样本的可辨别性[6，15，35]。其他方法专门针对某些任务合成样本，这些任务使合成过程正规化[41，28]。因此，这些方法可以保证合成物的可辨别性13471大小的样品。但该任务会限制合成过程，因此合成样本倾向于崩溃成某些模式，从而无法确保多样性。为了避免现有方法的局限性，我们提出了对抗特征幻觉网络（AFHN），它由一个新的基于条件Wasserstein生成对抗网络（cWGAN）[13]的特征合成框架和两个新的正则化器组成。与在图像空间中执行数据增强的许多其他基于数据增强的FSL方法不同[3，6，4]，我们的基于cWGAN的框架通过使用种子标记样本的特征作为条件上下文来产生新特征。为了保证合成特征的可分辨性，AFHN引入了一种新的分类正则化器，该正则化器约束合成特征与来自同一类的真实样本的特征具有高相关性性。在此约束下，生成器被鼓励生成封装有区别性信息的作为条件上下文的类的。确保合成大小的特征的多样性更加复杂，因为条件GAN非常容易受到模式崩溃问题的影响，即只合成来自有限分布模式的样本。这是由于通常使用高维和结构化数据，因为条件往往使生成器忽略控制多样性的潜在代码。为了避免这个问题，我们提出了一种新的抗崩溃正则化分配高惩罚的情况下，模式崩溃可能ocurs。它是从观察得出的，即在潜码空间中更接近的噪声向量更有可能被折叠成相同的模式时，映射到特征空间。我们直接惩罚的两个合成的特征向量的相异度和生成它们的两个噪声向量有了这种约束，生成器被迫探索次要分布模式，从而鼓励合成特征的多样性。通过综合具有区分性和多样性的特征，可以得到高效的分类器，从而得到令人满意的识别结果。总之，本文的贡献如下：（1）提出了一种新的基于cWGAN的FSL框架，该框架通过将少数标记样本的特征作为条件上下文来合成假特征。(2)我们提出了两个新的正则化，guarantee的歧视性和多样性的合成特征。(3)该方法在三个常见的基准数据集上达到了最先进的性能。2. 相关工作关于解决FSL的角度，现有的算法一般可以分为三类。第一类方法的目的是增强从非线性模型中提取的特征表示年龄为了实现这一目标，许多方法采用深度度量学习并学习深度嵌入模型，这些模型为任何给定图像产生区分特征[33，39，36，38]。不同之处在于所使用的损失函数。遵循这条线的其他方法专注于通过学习单独的相似性度量网络[37]、任务相关自适应度量[30]、逐块相似性加权度量[14]、基于神经图的度量[18，25]等来改善深度度量学习结果更常见的一类算法通过增强模型的灵活性来解决FSL这些方法利用元学习，也称为学习学习，它学习一种算法（元学习者），该算法输出一个模型（学习者），当给定关于该任务的一些信息（元数据）时，该模型可以应用于新任务遵循这条线，一些方法旨在优化元学习分类模型，以便可以使用一些标记数据轻松微调[32，9，24，24，32，28，29]。其他方法采用神经网络生成并训练元学习网络，该元学习网络可以自适应地从一些新类别的标记样本中生成分类神经网络的整个或一些生成的神经网络应该更有效地将未标记的样本从新类别中分类出来，因为它是从标记的样本中生成的，并且封装了关于这些类别的区分信息。最后一类方法直接通过数据扩充来克服标记数据的不足一些方法试图通过从外部数据中进行某种形式的trans-fer学习来使用额外的样本[33，42]。更流行的方法通过在标记图像或相应的特征表示上应用变换来在用常见的变换技术（例如，添加高斯扰动、颜色抖动等）是特别危险的，因为它可能危害图像中的区别性内容。这对于FSL是不期望的，因为我们只有非常有限数量的图像要利用;任何单个图像的合成结果的质量控制是至关重要的，否则分类器可能被低质量图像破坏。Chen等人提出了一系列方法，通过在语义特征空间中应用扰动[6]、混洗图像块[3]和显式学习图像变换网络[4]来执行质量受控的图像失真在特征空间中执行数据增强似乎更有希望，因为特征方差直接影响分类器。已经提出了许多具有这种思想的方法，通过基于看到的类[35，15]为新类产生新样本，合成合成表示[5，44]以及使用GAN [10，45]。本文提出了对抗性特征幻觉网络（AFHN），这是一种新的基于GAN的FSL模型，13472i=1j=1q=1我通过合成以标记的特征为条件的假特征来分割标记的样本。AFHN显著WGAN [13]，它优化了下面的最小-最大问题，不同于现有的两个基于GAN的模型[45，10]minmax E[D（x）]−E[D（x）]在以下方面。首先，AFHN建立在瓦瑟的基础上，Stein GAN（WGAN）模型，该模型以更稳定的性能而闻名，而[45，10]采用传统的GANGDxPg+λ ExPxxPr[（xD（x）<$2−1）2]，（一）框架.第二，[45]和[10]都没有分类正则化子。[10]中最相似的优化目标是将合成特征优化为离群值类（相对于真实类），而[10]中的优化目标是将合成特征优化为离群值类（相对于真实类）。[45]是一个周期一致性目标。相反，我们将与来自相同类的真实特征具有高相关性并且与来自不同类的真实特征具有低相关性的第三，在训练生成器之后，我们使用合成特征学习标准Softmax分类器，而[45，10]则利用它们来增强现有的FSL方法。最后，我们进一步提出了新的抗崩溃正则化器，以鼓励合成大小特征的多样性，而[45，10]没有。其中P r是数据分布，P g是由x∈G（z）定义的模型分布，z∈p（z）从噪声分布p中随机采样。通过沿点对之间的直线均匀采样，从数据分布 Pr和生成器分布Pg 采样，即， x<$=αx+（ 1−α ） x<$ 其中 α<$U （ 0 ， 1 ）。前两项近似Wasserstein距离，第三项惩罚x的梯度范数。3.2. 对抗性特征幻觉网络根据文献，我们将FSL正式定义为：给定任务P（T）的分布，样本任务TP（T）是元组T=（ST，QT），其中支持集AFHN也与现有的fea有一些相似之处ST ={{xi，j}K，yj}N包含K个标记样本，基于真实幻觉的FSL方法[41]。但显然，我们采用了GAN框架，该框架具有正则化生成器产生的特征的能力，[41]使用简单的生成模型。此外，AFHN合成新特征以学习新类别的标准Softmax分类器，而[41]利用它们来增强现有的FSL分类器。此外，我们的目标是用新的抗塌缩正则化器来幻觉不同的特征，而[41]没有这样的目标。3. 算法在本节中，我们首先简要介绍Wasserstein GAN，然后详细说明我们如何在其上构建建议的AFHN模型。3.1. Wasserstein GANGAN是最近提出的生成模型，在合成真实感图像方面表现出令人印象深刻的性能GAN中的生成过程被建模为两个竞争模型（生成器和判别器）之间的生成器的目标是从噪声中生成尽可能真实的假样本，使得机器人无法分辨它们是真的还是假的。相反，专家会尽最大努力做出正确的判断。这种对抗性游戏促使生成器广泛地探索数据分布，从而产生比传统生成模型更具视觉吸引力的样本。然而，众所周知，GAN在训练中非常不稳定。[1]分析了GAN目标函数的收敛性质，提出了Wasserstein GANN个类中的每一个这通常被称为K-射击N向分类。 QT ={（xq，yq）}Q是查询集合，其中样本来自与查询集合相同的N个类支持集ST。学习目标是根据ST最小化QT的分类预测风险。建议AFHN解决这个问题，提出了一个一般的条件WGAN的FSL框架和两个新的正则化条款。图1显示了培训管道。使用条件WGAN的FSL框架。对于典型的FSL任务T=（ST，QT），特征提取网络F为每个图像产生表示向量。具体地，对于来自支持集（x，y）∈ST的图像，F生成s= F（x）。（二）当对于类别y存在多个样本时，即，K >1，我们简单地平均特征向量，并将平均向量作为类y的原型[36]。以s为条件，我们为类合成假特征。与以前的GAN模型从某个分布中采样单个随机噪声变量不同，我们采样两个噪声变量z1和z2<$N（0，1）。发电机G同步-将z1（z2）作为输入的fak e特征s1（s2）的class prototype s,i=G（s，zi），i=1，2.（三）生成器G的目标是将ni合成为尽可能与s相似。将zi和s作为输入的CXD试图将zi识别为fak e，将s识别为实数。在WGAN框架中，对抗训练目标如下，（WGAN），它利用了Ob中的Wasserstein距离，并具有较好的理论性质。LGANi= E（x，y）ST[D（i，zi）]− E（x，y）ST[D（s，zi）]（四）13473比香草甘的领带我们采用改进的变量+λE（x，y）ST[（sD（si，zi）<$2−1）2]，i=1，2.13474我~支持…12拉尔发生器��1��2鉴别器LGANLcr查询…………特征提取器少射分级器图1.拟议AFHN的框架。AFHN将支持集和查询集作为输入，其中查询集中的图像属于支持集中的采样类。支持集中的每个图像被馈送到特征提取网络F，从而产生特征嵌入s。利用s，特征生成器G通过将s与两个随机采样的变量组合来合成两个特征s1和s2z1和z2。鉴别器D鉴别实特征s和虚特征s1和s2，导致GAN损失LGAN。通过分析利用（z1，z2）与（εs1，εs2）的关系，得到了抗崩溃损失Lar。所提出的f-w-shot分类器基于f-k- e特征s1和s2对查询图像的特征进行分类。这导致分类损失Lcr。简单地用上述GAN损失训练模型并不能保证生成的特征非常适合学习判别分类器，因为它忽略了典型FSL任务中的larizer定义如下：1991年不同类别之间的类间竞争信息。此外，由于条件特征向量具有高维度和结构化，因此生成器很可能将Lcri= E（xq，yq）<$QTNy=1ylog[−P（y q= y|xq）]，（6）忽略噪声向量，并且所有合成特征都收敛到特征空间中的单个或几个点，即，所谓的模式崩溃问题。为了避免这些问题，我们在目标函数中添加了分类正则化项和抗崩溃正则化项，旨在鼓励合成特征的多样性和可区分性。分类正则化器。由于我们的训练目标是在给定支持集ST的情况下对查询集QT中的样本进行良好分类，因此我们通过要求合成特征作为真实特征很好地服务于分类任务来鼓励合成特征的可辨别性。受[36]的启发，我们定义了一个非参数FSL分类器，该分类器计算查询图像（xq，yq）∈QT，其与合成特征向量i是相同的类，exp（c os（si，q））对于i= 1， 2. 我们可以看到这个正则化子鼓励合成的特征与来自相同类（条件上下文）的特征具有高相关性，而与来自不同类的特征具有低相关性。为了实现这一点，合成的功能必须封装有关条件类的判别信息，从而确保可辨别性。防塌调节剂。已知GAN模型遭受臭名昭著的模式崩溃问题，特别是条件GAN，其中结构化和高维数据（例如，图像）通常被用作上下文。因此，生成器可能忽略了说明多样性的潜在代码（噪声），并且仅关注条件上下文，这是不期望的。具体到我们的情况，我们的目标是增加特征空间中的少数标记样本;当模式折叠发生时，所有合成的特征可以折叠成P（y q= y|xq）=Nj，（5）特征空间中的单个或几个点，不能区分-j=1exp（c os（i，q））其中q=F（xq）。其中，cos（a，b）是两个向量的余弦相似度，cos（a，b）是第j 类的合成特征采用余弦相似性，而不是[36]中的欧几里得距离，是受到最近FSL算法的启发[12]证明了余弦相似度可以约束和减小特征的方差，从而使模型具有更好的泛化能力。与建议的FSL分类器，分类规则，验证标记的样品。观察到在潜在代码空间中更接近的噪声向量在映射到特征空间时更可能被折叠成相同的模式，我们直接惩罚两个合成特征向量的相异性和生成它们的两个噪声向量的相异性的记住我们对两个随机变量z1和z2 进行采样。我们从它们生成两个特征向量，分别为1和2当z1和z2更接近时，s1和s2更有可能塌缩成相同的模式。为了缓解这一点，我们13475不我R我R不我我算法1. 提出的FSL算法输入：训练集Dt ={Xt，Yt}，参数λ，α和β。输出：特征提取器F，生成器G，CXD。支持集。分类器用于对来自查询集Q′的样本进行分类。具体来说，假设在数据增强，我们得到一个扩大的支持集S为1. 使用Dt训练F作为标准分类任务。不做就做{（s1，y1），（s2，y2），···，（sN×K′，yN×K′}其中K′R是//修复G并更新D。2. 从Dt抽样一批FSL任务Tdp（Dt）。为每个类别合成的样本数。使用S′，我们训练标准Softmax分类器fc为对于每个Td，3. 对支撑集ST={{x}K，y}N和最小Elog[−P（y|s; θ）]，（9）i、j查询集QT ={{x}Q，y}Ni=1.jj=1θ（s，y）S′k、jk=1jj=14. 计算N个类P={sj}N的原型，其中，sjKi=1F（xi，j）.j=1其中θ是fc的参数。有了fc，我们对样本进行从Q'。5. 采样N个噪声变量Z1={zj}N和变量Z2={zj}N.1j=12j=14. 实验6. 生成fak e特征集Z1={zj}N1j=1且Z<$2={<$zj}N根据等式（三）、2j=17. 通过最大化Eq.（八）、端//修复D并更新G。8. 从Dt抽样一批FSL任务Tgp（Dt）。对于每个Tg，9. 执行步骤3 - 7。10. 通过最小化等式来更新G（八）、end用于end while将抗崩溃正则化项定义为1−cos（我们评价 AFHN 对三共同基准数据集，即 Mini-ImageNet[39] ， CUB[40] 和 CI-FAR100[19]。Mini-ImageNet数据集是ImageNet的一个子集它有来自100个类的60，000个图像，每个类600个图像。我们遵循以前的方法，并使用[32]中的拆分进行评估，即，64、16、20个类分别作为训练集、验证集和测试集。CUB数据集是一个细粒度数据集，包含来自200种鸟类的11，788张图像。我们使用[17]和100，50，50类中的分割进行训练，验证和测试，重新排序。CIFAR-100数据集包含来自100个类别的60，000张我们使用与[47]中相同的数据分割。特别是，64、16和20个班用于培训，Lar=E1−cos（z，z）.（七）验证和测试。（x，y）ST1 2我们可以观察到，当生成它们的潜在代码具有高相似性时，该术语放大了两个假特征向量的相异性。随着案例模式崩溃更可能发生被分配以更高的惩罚，生成器被迫在训练期间挖掘特征空间中的次要模式该插件还将处理来自次要模式的假因此，可以预期的是，当将generator应用于新类别时，可以合成更多样化的特征。有了上面两个正则化项，我们达到了最终的训练目标按照以前的方法，我们评估了5路1杆和5路5杆分类任务，其中每个任务实例涉及从5个采样类中对测试图像进行分类，每个类具有1个或5个随机采样图像为了减少方差，我们重复评估任务600次，并报告95%置信区间的准确度平均值。4.1.实现细节遵循之前基于数据增强的方法[35，6，4]，我们使用ResNet18 [16]作为我们的特征提取网络F。我们将生成器G实现为两个-Σ2minmaxG Di=1Σ2LGANi+α Lcr i+βi=1第1条，第（8）项拉尔层MLP，第一层为LeakyReLU激活，第二层为ReLU激活。隐藏层的维度为1024。该算法也是一个两层的MLP，使用LeakyReLU作为激活函数，其中α和β是两个超参数。算法1输出-该方法的主要训练步骤。3.3.综合样本在测试阶段，给定FSL任务T′， =（S′，Q′）=13476不第一层和第二层的 Sigmoid 。隐藏层的尺寸也是1024。噪声向量z1和z2是从具有与特征嵌入相同维度的单位高斯中提取的。基于数据扩充的FSL方法T T从测试集中随机抽样，与训练集中的那些没有重叠，我们首先八月-[35，6]，我们执行两步训练程序。在第一步，我们只训练特征提取网络F，将标号支撑集S′与博学的一代--只使用训练分割的多类分类任务阿托尔湾然后，我们用增强的我们使用Adam优化器，初始学习率为10- 313477cWGANCRAR✗ ✗✓ ✓ ✓✗✓✗✓ ✓✗ ✗ ✗ ✗✓52.7355.6557.5860.5662.38表1.在Mini-ImageNet数据集上进行消融研究，用于5路1次激发设置。cWGAN、CR和AR分别表示条件WGAN框架、分类正则化器和抗崩溃正则化器。基线结果（52.73）是通过将SVM分类器直接应用于ResNet18特征而无需数据增强来获得的。仅添加了CR的结果（55.65）是从训练期间没有AR和AR的生成器产生的合成特征中获得的。每10个历元衰减一半我们用100个epoch训练F，批量大小为128。在第二个训练阶段，我们交替地训练生成器和迭代器，使用F提取的特征，并在D的每5次更新后更新G。我们还使用Adam优化器，它的初始学习率为10−5，并且对于F和G，每20个epoch就衰减到一半。我们用100个epoch训练整个网络，每个epoch中有600个随机抽样的FSL任务。对于超参数，我们按照[13]的建议设置λ= 10，并且对于所有三个数据集设置α=β= 1。在测试阶段，我们为每个类合成了300个假特征。代码基于PyTorch开发4.2.消融研究所提出的AFHN由基于新的条件WGAN（cWGAN）的特征合成框架和两个正则化器组成，这两个正则化器鼓励合成特征的多样性和可区分性，即，分类正则化器（CR）和抗崩溃正则化器（AR）。为了评估这些组件的有效性和影响，我们对Mini-ImageNet数据集进行了5路1次设置的消融研究结果示于表1中。CR.该正则化器约束合成的特征，具有理想的分类属性，因此我们可以训练一个有区别的分类器。我们可以看到，当它被用作生成器的唯一正则化时，它将基线结果从52.73提高到55.65。另一方面，当它与cWGAN一起使用时（鉴别器对生成的特征进行正则化，导致GAN损失），它有助于将性能从57.58进一步提高到60.56.因此，在这两种情况下（有和没有cW-GAN），CR有助于增强合成大小的特征的可辨别性并导致性能提升。cWGAN。与基线（无数据增强）相比，cWGAN有助于将准确度从52.73提高到57.58。这是因为合成的特征增强了类内方差，这使得分类决策边界更加清晰。此外，以CR作为正则化器，我们基于cWGAN的生成模型提高了朴素生成模型的性能从55.65到60.56.这进一步证实了拟议的cWGAN框架的有效性。性能的提高是由于生成器和训练器之间的对抗性博弈，这增强了生成器对因此，增强的生成器能够合成更高的多样性和可辨别性的特征。如相关工作中所述，所提出的AFHN与其他基于特征半透明化的FSL方法[41]的主要区别之一是AFHN是对抗生成模型，而[41]使用朴素生成模型。因此，本研究证明了AFHN优于[41]。AR. AR旨在通过明确惩罚更可能发生模式崩溃的情况来鼓励合成特征的多样性。表1显示，它进一步带来了约2%的性能增益，从而证明了其有效性。4.3. 比较结果迷你影像网Mini-Imagenet是最广泛评估的数据集。从表2中我们可以观察到，AFHN在1次和5次拍摄设置方面都达到了新的最先进水平。与其他四种基于数据增强的方法相比，AFHN获得了显著的改进：对于5次拍摄设置，它击败了Dual-encoder [35]超过8%，对于1次拍摄设置，它击败了Dual TriNet [6]超过3%。与同样基于GAN的MetaGAN [45]相比，AFHN在1次拍摄和5次拍摄设置方面都实现了约10%的AFHN除了具有基于对等数据增强的方法的显著优势外，还具有其他两类方法的显著优势。对于单次设置，它击败了最好它也比最先进的基于元学习的算法表现得更好。与基线方法这证实了我们提出的数据增强技术的有效性小熊这是一个广泛用于细粒度分类的细粒度鸟类数据集。最近，它已被用于少镜头分类评价。因此，相对较少在该数据集上报告结果从表3中我们可以看到，AFHN达到了与其他两种基于数据增强的方法Dual TriNet和Dual-encoder相当的结果。对于5次拍摄设置，它比最好的基于度量学习的方法SAML [14]高出2.4%，并且比基于元学习的方法表现得更好。与基线相比，我们在1次拍摄设置中只有适度的改进，而在5次拍摄设置中只有边际的提高。我们推测原因是这个数据集相对较小，每类不到60张图像13478骨干参考单次拍摄5次射击ResNet18 + SVM（基线）ResNet1852.73±1.4473.31±0.81[39]第三十九话Conv-64FNeurIPS'1643.56±0.8455.31±0.73PROTO Net [36]Conv-64FNeurIPS'1749.42±0.7868.20±0.66MM-Net [2]Conv-64FCVPR'1853.37±0.4866.97±0.35GNN [11]Conv-256FArxiv'1750.33±0.3666.41±0.63MetricL联系网[37]DN4 [23]Conv-64FConv-64FCVPR'18CVPR'1950.44±0.8251.24±0.7465.32±0.7071.02±0.64TPN [25]ResNet8ICLR'1955.51±0.8669.86±0.65[43]第四十三话Conv-64FICCV'1955.22±0.8471.55±0.66[第14话]Conv-64FICCV'1957.69±0.2073.03±0.16DCEM [8]ResNet18ICCV'1958.71±0.6277.28±0.46MAML [9]Conv-32FICML'1748.70±1.8463.11±0.92META-LSTM [32]Conv-32FICLR'1743.44±0.7760.60±0.71蜗牛[27]ResNet-256FICLR'1855.71±0.9968.88±0.92MACO [17]Conv-32FArxiv'1841.09±0.3258.32±0.21金属DFSVL [12]Conv-64FCVPR'1855.95±0.8973.00±0.68META-SGD [24]Conv-32FArxiv'1750.47±1.8764.03±0.94PPA [31]WRN-28-10CVPR'1859.60±0.4173.74±0.19UFDA [21]ResNet18CIKM'1960.5177.08LEO [34]WRN-28-10ICLR'1961.76±0.0877.59±0.12MetaGAN [45]Conv-32FNeurIPS'1852.71±0.6468.63±0.67双TriNet [4]ResNet18TIP'1958.80±1.3776.71±0.69DataAug[35]第三十五话ResNet18NeurIPS'1859.9069.70IDEMe-Net [4]ResNet18CVPR'1959.14±0.8674.63±0.74AFHN（拟定）ResNet1862.38±0.7278.16±0.56表2.Mini-Imagenet上的少量分类精度。 ±表示任务的95%置信区间。最佳结果以粗体显示。骨干参考幼崽CIFAR100单次拍摄5次射击单次拍摄5次射击ResNet18 + SVM（基线）ResNet1866.54±0.5382.38±0.4359.65±0.7876.75±0.73MetricL[39]第三十九话PROTO Net [36]DN4 [23][第14话]Conv-64FConv-64FNeurIPS49.3445.2753.15±0.8469.33±0.2259.3156.3581.90±0.6081.56±0.1550.53±0.87---60.30±0.82---金属MAML [9]META-LSTM [32]MACO [17]META-SGD [24]Conv-32FConv-32FConv-32FICLRArxiv38.4340.4360.7666.9059.1549.6574.9677.1049.28±0.90--61.6058.30±0.80--77.90DataAug双TriNet [6][35]第三十五话ResNet18ResNet18TIP'19NeurIPS'1869.6169.80±0.4684.1082.60±0.3563.41±0.6466.7078.43±0.6479.80AFHN（拟定）ResNet1870.53±1.0183.95±0.6368.32±0.9381.45±0.87表3.在CUB和CIFAR100上的少量分类精度。详情请参阅表2平均而言，大量的类只有大约30个图像。由于该数据集的规模较小，类内方差不如Mini-Imagenet数据集显著，因此5个标记样本足以捕获大部分类内方差。执行数据扩充没有其他数据集那么重要。CIFAR100.该数据集与Mini-ImageNet数据集具有相同的结构。表3显示了AFHN在所有现有方法中表现最好，有时是很重要的。AFHN分别以5%和3%的优势击败了双TriNet。与最好的基于元学习的方法相比，我们得到了7%和4%的改善，分别为1-镜头和5-镜头。与基线法相比，AFHN也取得了显著的效果.我们达到约10%和 5% 的改善 1 杆和 5 杆分别。这一巨大的改进convincingly证实了我们的基于GAN的数据增强方法解决FSL问题的有效性。134791.00.80.60.40.21.00.80.60.40.21.00.80.60.40.20.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.8 1.0cWGAN + CR cWGAN + CR + AR图2. t-SNE [26]合成特征嵌入的可视化。真实特征用表示。不同的颜色代表不同的阶级。656055500 51050100300 500 1000 2000每类图3.每个类的合成样本数量对Mini-ImageNet数据集的影响。总之，在所有三个数据集中，我们对其中两个数据集的现有最先进的方法进行了显著的改进，而对左一个数据集进行了比较。对于所有的数据集，我们的方法达到了显着提高基线方法，其中没有数据扩增。实验结果验证了该方法的有效性4.4. 进一步分析合成特征数量的影响。图3显示了Mini-ImageNet上关于测试期间每个类的识别准确率与合成特征数量的分析我们可以观察到，分类准确率随着开始时合成的更多特征而不断提高，并且随着更多的合成大小的样本而保持稳定这是合理的，因为由少数标记样本封装的类方差具有上限;基于这些标记样本的数据增强可以在一定程度上扩大方差，但它仍然受到少数标记样本本身的限制。当它达到峰值时，性能合理地变得稳定。合成特征的可视化。我们在消融研究中定量地表明，由于CR和AR正则化因子，我们可以产生多样性和区分性带来显著性能提升的功能。在这里，我们进一步研究了两个正则化子的效果，通过显示-使用合成特征的t-SNE可视化。如图2所示，当仅使用cWGAN进行增强时，不同类别的合成特征混合在一起。如前所述，cWGAN不保证合成语义上有意义的特征。当我们用CR训练cWGAN时，这个问题基本上得到了解决。合成的特征具有清晰的聚类结构，这有助于训练区分性分类器。此外，加入AR后，合成的特征仍具有良好的聚类结构.但是仔细观察可视化，我们可以发现添加AR合成的特征比没有它的特征更加多样化：聚类不太紧凑，被拉伸到更大的区域，甚至包含一些噪声。这表明AR确实有助于使合成特征多样化。5. 结论我们介绍了对抗性特征幻觉网络（AFHN），一种新的基于数据增强的少镜头学习方法。AFHN由一个新的基于条件Wasserstein GAN（cWGAN）的特征合成框架、分类正则化器（CR）和抗崩溃正则化器（AR）组成.该框架基于cWGAN，利用少量标记样本的特征作为条件上下文，为新类合成假特征CR通过要求合成的特征与来自相同类别的样本的特征具有高相似性AR的目的是通过直接惩罚模式崩溃问题可能发生的情况来增强合成特征的多样性烧蚀研究显示了基于cWGAN的特征合成框架以及两个正则化器的有效性。比较结果验证了AFHN的优越性，现有的数据增强为基础的FSL方法，以及其他国家的最先进的。致谢：这项研究得到了美国的支持。陆军研究办公室奖W 911 NF-17-1-0367。准确度（%）13480引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络ICML，2017。[2] 齐彩，潘英伟，姚婷，严成刚，梅涛。用于单次图像识别的记忆匹配网络。在CVPR，2018年。[3] Zitian Chen ， Yanwei Fu ， Kaiyu Chen ， and Yu-GangJiang.用于一次性学习的图像块增强。在AAAI，2019年。[4] Zitian Chen，Yanwei Fu，Yu-Xiong Wang，Lin Ma，Wei Liu，and Martial Hebert.用于一次性学习的图像变形元网络。在CVPR，2019年。[5] Zitian Chen ， Yanwei Fu ， Yinda Zhang ， Yu-GangJiang，Xiangyang Xue，and Leonid Sigal.少量学习中的语义特征arXiv预印本arXiv：1804.05298，2018。[6] Zitian Chen ， Yanwei Fu ， Yinda Zhang ， Yu-GangJiang，Xiangyang Xue，and Leonid Sigal.用于一次性学习的多级语义特征增强。IEEE Transactions on ImageProcessing，2019。[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年[8] 尼基塔·德沃尔尼克，科迪莉亚·施密德，朱利安·麦拉尔.多样性与合作：用于少数镜头分类的集成方法。在ICCV，2019年。[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，2017。[10] Hang Gao ， Zheng Shou ， Alireza Zareian ， HanwangZhang，and Shih-Fu Chang.通过协方差保持对抗增强网络进行低拍摄学习。NeurIPS，2018。[11] 维克多·加西亚和琼·布鲁娜。图神经网络的少样本学习arXiv预印本arXiv：1711.04043，2017。[12] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR，2018年。[13] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。NeurIPS，2017。[14] Fusheng Hao，Fengxiang He，Jun Cheng，Lei Wang，Jianzhong Cao，and Dacheng Tao.收集和选择：用于少量学习的语义对齐度量学习。在ICCV，2019年。[15] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。在CVPR，2017年。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[17] 内森·希利亚德，劳伦斯·菲利普斯，斯科特·霍兰德，阿特姆·扬科夫，考特尼·D·科利和内森·奥·霍达斯。使用与度量无关的条件嵌入的少次学习arXiv预印本arXiv：1802.04376，2018。[18] Jongmin Kim、Taesup Kim、Sungwoong Kim和Chang DYoo。用于少次学习的边标记图神经网络在CVPR，2019年。[19] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[20] Kai Li，Zhengming Ding，Kunpeng Li，Yulun Zhang，and Yun Fu.支持邻居丢失，用于人员重新识别。在ACM MM，2018年。[21] Kai Li，Mar

下载后可阅读完整内容，剩余1页未读，立即下载