没有合适的资源?快使用搜索试试~ 我知道了~
8812用于细粒度少镜头分类的变分特征分解徐静怡1,Hieu Le*2,Mingzhen Huang1,ShahRukh Athar1,Dimitris Samaras11美国纽约石溪大学计算机科学系2Amazon Robotics,MA,美国摘要数据增强是解决少镜头分类问题的直观步骤。然而,确保增强样本的可辨别性和多样性是具有挑战性的。为了解决这个问题,我们提出了一个功能解纠缠框架,使我们能够增加功能与随机采样的类内变化,同时保留其类判别功能。具体来说,我们将特征表示分解为两个分量:一个表示类内方差,另一我们假设由姿势、背景或照明条件的变化引起的类内方差在所有类中共享,并且可以经由共同分布来建模。然后,我们从学习的类内变异分布中重复采样特征这样的数据增强方案确保了增强的特征继承关键的类判别特征,同时表现出大的类内方差。我们的方法显着优于国家的最先进的方法上的多个具有挑战性的细粒度少镜头图像分类基准。代码可从以下网址获得:https://github. com/cvlab-stonybrook/vfd-iccv211. 介绍细粒度的视觉数据很难收集,注释成本很高[49,46,15]。细粒度的视觉数据集变得相当长尾,并导致分类器在香草设置中训练时过度拟合丰富的类。细粒度的少镜头学习(FSL)方法解决了这个问题,因为它们在视觉上相似的类中学习有区别的类特征,使用少至5或1个训练实例。通过生成addi-*在亚马逊增量编码器我们图1:增强示例的最近“真实样本”邻居。我们使用基类训练数据增强方法,并在CUB数据集的新类中搜索所生成样本的最近邻居。输入图像显示在第一列中。每行显示了从以下计算的一些增强特征的最近邻居:∆-编码器[38](第1和第2行)和我们的方法(第3和第4行)。绿色边框表示图像与输入图像具有相同的类别,红色边框表示其他类别。标准数据是减轻FSL中过拟合问题的直接方法。然而,可靠地生成不同的数据仍然是一个悬而未决的问题[19,40]。生成的样本应包含类区分特征,同时表现出高的类内多样性。典型的数据合成方法是基于对抗框架生成新样本[45,25,11,55,2,20,21,22]。然而,这些方法在生成的样本中缺乏多样性,因为对抗性训练经常模式崩溃。另一种方法是特征转移,其从具有许多训练样本的基本类转移类内方差,以增强新类的特征,其中只有很少的样本可用[38,52,12]。这些方法是基于一个共同的假设,即由姿势、背对姿势和背对姿势引起的类内变化8813地面或照明条件在类别之间共享。类内变化被建模为低级统计[52]或成对变化[38,12],并直接应用于新样本。在本页中-每,我们讨论这些方法的两个潜在问题。首先,这些变换可以引入某些类别区分特征,其可以改变变换特征的类别身份。例如,只有8。使用∆编码器[ 38 ]的增强特征中有7%的最近的“真实样本”邻居属于与原始样本相同的类别(见图2)。①的人。第二,提取的变化可能与特定的新样品不相关,即,有些鸟类是永远不会在海洋背景中出现的。应用不相关的变化将导致噪声或无意义的样本,并降低分类结果(见第2节)。6.1)。这两个问题对于细粒度分类更明显,因为特征空间中的小变化可能由于小的类间距离而改变特征的类别。在本文中,我们通过一种新的数据增强框架来解决这些问题。首先,我们将每个特征分解为两个部分:一个捕获类内方差,我们称之为类内方差特征,另一个编码类判别特征。第二,我们通过一个共同的分布,我们可以很容易地采样的新的类内变化,是相关的多样化的一个特定的实例模型的类内变化。我们表明,功能解开和类内变异的分布可以近似使用的数据从基类和它推广到新的类。驱动我们的框架的训练的两个关键监督信号是:1)确保类判别特征包含类特定信息的分类损失,2)通过各向同性高斯分布显式地对类内方差进行建模的变分自动编码器(VAE)[18我们的方法特别适用于细粒度数据集,其中类内变化在类间相似,在CUB[49],NAB[46]和斯坦福狗[15]数据集上实现了最先进的少量分类性能,大大优于以前的方法[38,24]。我们在我们的分析表明,我们的方法所产生的数据在于密切的真实和看不见的功能相同的类,可以密切近似的分布的真实数据。总而言之,我们的贡献是:1. 我们是第一个提出了一个基于VAE的细粒度FSL的特征2. 我们表明,我们可以训练这样一个系统使用足够的数据从基类。我们可以从学习的分布中进行采样,以获得相关的变化,从而以可靠的方式使新的训练实例3. 我们的方法在多个细粒度数据集上的表现优于最先进的FSL方法。2. 相关工作FSL方法可大致分为三类:基于度量学习、基于优化和基于数据增强。基于度量学习的方法[47,41,43,51,50,44,53]利用图像之间的相似性来正则化嵌入空间。匹配网络[47]使用一种注意力机制来学习嵌入标记的示例集,以预测未标记点的类。Prototypical Network [41]学习根据查询样本到每个类的原型表示的欧几里得距离对查询样本进行分类。Sung等人。 [43]提出使用基于CNN的关系模块来测量距离度量。基于优化的方法[10,27,24,28,36,34,39]旨在设计可以有效推广到新任务的模型。MAML [10]使用元学习器来找到初始化,该初始化可以在使用小训练数据的几个梯度更新内适应新类别。元SGD[27]学习不仅学习学习器初始化,而且学习器更新方向和学习速率。Lee等人提出了MetaOptNet [24],它使用区分训练的线性预测器作为基础学习器来学习FSL的特征基于数据增强的方法[2,38,48]生成额外的训练示例,以缓解数据不足的问题。DAGAN [2]使用条件生成对抗网络(GAN)来转换图像特征,其可以应用于新的看不见的数据类别。Wang等人。[48]提出将元学习器与幻觉器相结合,这可以有效地幻觉新类的新实例。一些方法将类内方差从基类转移到新类。∆编码器[38]从同一类的图像对中提取可转移的类内变形,并使用它们来增加新类的样本。不同的是,我们的方法学习类内变异性的共同分布,而不对任何图像进行配对。我们的方法使用VAE来模拟类内方差。VAE已用于FSL [54,37,16]。 Zhang等人 [54]估计每个类别的分布并计算新输入的概率以执行分类。Schonfeld等人。[37]通过对齐的VAE学习图像特征和类嵌入的共享潜在空间。我们只使用变分推理来模拟我们的数据增强框架的类内方差,而不是对整个图像特征进行建模。使用VAE的特征解纠缠的概念已被用于各种应用中,诸如个人重新识别[9,57]、度量学习[29]或多域图像转换[30,23]。我们是第一个支持-8814V我我IV我VarAvg.池化特征提取器X特征图编码器KL散度是说类内方差V~采样+类别特异I+解码器分类器重构损失X'重建的特征图特点I分类损失图2:我们提出的方法的流水线。输入图像被映射到图像特征映射X。我们将X输入到编码器中以获得用于对类内方差特征z/V进行采样的类内变异性分布的均值和方差。类特定特征zI通过最大池化X获得。zV被迫遵循各向同性多元高斯分布。zI和组合特征两者都用于训练分类器。我们从学习的分布中重复采样以获得多个zV,并将它们添加到类特定的特征zI以获得增强特征。这些增强的特征与原始特征一起用于训练更鲁棒的分类器。提出了这样一个基于VAE的FSL问题的特征解纠缠方案我们表明,这样的模型训练的基础类可以用来有效地增加数据的新类,并显着提高分类结果。3. 少量学习准备在FSL中,给出了大量的基本类的标记图像和少量的新类的标记图像。我们的目标是训练一个分类器,可以正确地分类新的类图像与几个给定的例子。标准FSL过程包括训练阶段和微调阶段。在训练阶段,我们使用基类图像来训练特征提取器和分类器。然后在微调阶段,我们冻结预训练特征提取器的参数,并使用新类别中的少数标记示例训练新的在测试阶段,学习的分类器预测一组看不见的新类图像上的标签。类内方差特征zV。zV被约束为遵循先验分布。然后,我们重复地从分布中采样新的类内变化特征z~V,并将它们添加到类特定特征z 1以获得增强特征。增强特征与原始特征一起用于训练最终分类器。在下面的部分中,我们将描述如何通过变分推理对类内变异性的分布进行建模,以及如何使用它来使新集合中的样本4.1. 类内方差的变分推断给定一个输入图像(i),我们首先使用特征提取器将其映射到特征映射X(i)。然后,我们计算类内方差特征z(i)和类特定的fea(i)。从X(i)得到z(i),使得输入图像z(i)的嵌入可以表示为:z(i)=z(i)+z(i)。(一)由于在微调阶段稀缺且缺乏多样性,学习的分类器倾向于过拟合少数样本,因此在测试图像上表现不佳。为了解决这个问题,我们增加了训练样本,我们提出的数据增强方法,这显着提高了基线的性能。4. 方法我们的目标是生成包含较大类内变异的少数新类图像的附加特征。图2说明了我们提出的方法的流水线我们将输入图像的特征表示分解为两个分量,类别特定特征zI和类别特定特征z I。这里,我们假设类内方差特征是从某个条件分布p(zV)生成的,并且特征图X(i)是从某个条件分布p(X)生成的|z)。类特定特征z(i)可以通过在给定类标签y(i)的情况下最小化交叉熵损失来学习:Lcls(X(i))=L交叉熵。W(z(i)),y(i)Σ(2)其中W是具有单个全连接层的分类器。我们使用变分推理来模拟变量zV的后验分布。 具体来说,我们近似8815|||我V我VV我VNVJJJN.Σ真后验分布p(zV X)与另一个分布q(zV X)。真实分布和近似值之间的Kullback-Leibler散度为:其中表示潜在变量的第j维。在Eq中的三项。 8分别被称为索引-代码互信息、总相关性和维度KL。以前的工作[5,1,4]表明,惩罚-KL [q(z)V|十)、||p(z V|X)]=q(Z X)log q(Z|X)。(三)Zp(Z|十)、使用索引-代码互信息和总相关项导致更无纠缠的表示,而维度KL项确保潜变量由于Kullback-Leibler散度总是大于或等于零,因此最大化边际似然p(X(i ))等同于最大化证据下限(ELBO),定义如下:不要偏离先前太远类似于[5],我们用权重α惩罚总相关性,并将L_intra重写如下:ELBO(i)=EV[logp(X(i)|z(i))]Lint ra(X(i))=<$X(i)−X<$(i)<$2+KL。q(z(i),X(i))||q(z(i))p(X)Σ+q(z(i)|(第十条第㈠款)-KLV.q(z(i)|(第十条第㈠款)||p(zV)Σ。(四)(i)Y(i)ΣV V.(i)V先前的工作[29,52,54]已经表明,类内变异性的分布可以用高斯分布来建模。α*KLq(zV)||Jq(zVj)+KLJq(zVj)||p(zVj).(九)报应这里,我们将z V的先验分布设置为中心各向同性多变量高斯分布:p(z V)=(0,I)。对于后验分布,我们将其设置为具有对角协方差的多变量高斯分布:q(z(i)|X(i))=N(μ(i),σ(i)),(5)其中μ(i)和σ(i)由概率编码器计算。使用重新参数化技巧,我们获得z(i)如下:Lcls和Lintra的组合驱动模型执行跟踪区别性类特定特征z(i)并同时对类内可变性的分布进行建模。4.2. 目标函数给定类内变异性的分布,我们可以在训练阶段为基类生成额外的样本。对于具有所提取的类别的输入图像(i)V特定特征z(i)和类内变异性平均值,z(i)= μ(i)+ σ(i)∠ ε,ε ε N(0,I).(六)方差μ(i)和σ(i)分别,我们采样新的帧内-类方差特征z~(i),用于来自分布的该图像以来 z⑴是 确定性 给定 X⑴, 我们有V(一)i(i),σ(i)),并将它们添加到zI,以获得aug-p(X(i)|z(i))=p(X(i)|z⑴,z⑴)=p(X⑴)|z(i))。Toes-分割特征(一)(一)(i)。我们使用这些功能来V VI估计最大似然p(X(一)|z(i)),weuseade-z〜 =zI +z~V使用以下交叉熵损失来训练我们的系统:编码器,用于从z(i)重构原始特征图,以及最小化原始特征图和重建特征图之间的L2从等式4,我们现在推导出用于类内方差的建模的损失函数Lint ra(X(i))=<$X(i)−X<$(i)<$2+ KLq(z(i))|(第十条第㈠款)||p(zV),(七)其中X(i)是从类别特定特征z(i)和帧内特征z(i)的和合成的重构特征图从分布采样的类方差特征z(i)(μ(i),σ(i))。L帧内损失包括两项。第一项是重建项,其确保编码器从输入中提取有意义的信息第二项是正则化项,其迫使潜在代码z(i)遵循标准正态分布。这里,我们不是直接最小化Kullback-Leibler散度,而是将其分解为三项,如[5]所示:KL [q(z)V|十)、||p(zV)]= KL(q(zV,X)||q(zV)p(X))+KL(q(zV)||Yq(zV))+ ΣKL(q(zV)||p(zV)),(8)JJ∫8816Laug(X(i))=Lc ros s−ent ropy。W(z~(i)),y(i)Σ(10)训练阶段中的总损失函数是上述项的加权组合:L=L cls+L intra+β * L aug(11)其中β是L aug的系数。4.3. 为少镜头类提供在本节中,我们将讨论如何使用我们的模型来分散少数镜头类的样本。我们的类内方差由各向同性高斯分布建模从该分布采样将导致任意的类内方差特征。然而,我们推测,这样的任意特征可能不是对于所有情况都相关,即,有些鸟从来没有在大海的背景下出现过。注意,这里,由于所有类内变化经由变分推断被映射到公共连续嵌入空间中,并且紧密相关或相似的类内变化可能形成嵌入空间中的局部邻域。因此,相反8817我我.[001pdf1st-31files]后验分布Nµ,σ。由山姆-×.Σ×IVV××为了从零均值和单位方差分布中进行抽样,我们仅从直接从条件样本估计的均值和方差中进行抽样,以获得与该样本可能相关的具体来说,给定一个新的类(i)*的图像,类标签为y(i)*,我们首先提取特征映射X(i)*,类特定特征z(i)*,以及该实例的类内变异性分布μ(i)*和σ(i)*的均值和方差。然后,我们通过添加类特定特征z(i)*,带有从类内可变性分布中采样的有偏项。z~(i)*=z(i)*+z~(i)*,z~(i)*N(μ(i)*,σ(i)*),(12)其中z~(i)*是增广特征,z~(i)*被采样(一)从N µ(i)<$,σ(i)<$多次输入,我们得到多个可用于训练分类器的增强特征z<$(i)<$节中6.1、我们验证了本次抽样的有效性方案。5. 实验5.1. 数据集我们在三个细粒度图像分类数据集上评估我们的方法:加州理工学院UCSD鸟类(CUB)[49],北美鸟类(NAB)[46]和斯坦福犬[15]。CUB数据集包含来自200种鸟类的11,788张鸟类图像按照[49]中介绍的设置,我们从提供用于训练的100个类中抽取基类,并从提供用于测试的50个类中抽取新集合。NAB数据集包含48,527张鸟类图像,555个类别,是CUB的四倍。与[45]类似,我们采用2:1:1的训练,验证和测试集分割。Stanford Dogs数据集是Imagenet数据集的子集,设计用于细粒度图像分类,具有90个用于训练和验证的类别以及30个测试类别。5.2. 实现细节我们进行实验,我们的特征提取器的两个架构:ResNet12和Conv4公平的比较与其他方法使用类似的架构。ResNet12[13]包含4个残差块。每个残差块由3个卷积层组成,具有3个3核。在每个残差块的结尾处应用2 × 2最大池化层。Conv4由4层组成,具有3 × 3卷积和32个过滤器,然后是批量归一化(BN)、ReLU非线性和2 × 2最大池化。通过对特征提取器的输出进行平均池化编码器由三个conv模块组成,后面是两个全连接的磁头,分别输出µ和logσ2解码器由一个完全连接的层和三个卷积块组成。培训政策。整个网络以端到端的方式从头开始训练。在训练阶段,我们在初始学习率为0.001的所有数据集上使用Adam优化器[17]。 我们总共训练了100个epoch,批量大小为16,并在第40和第80个epoch将学习率降低了0.1。我们根据经验设定α= 4在等式中9和β= 1,在等式11个国家。我们遵循一个标准的少数镜头评估方案。在微调阶段,我们从新的类中随机选择5个类对于每个类,我们选择k个实例作为支持集,并为k个镜头任务的查询集选择16个实例。所有支持集图像的提取特征连同增强特征一起用于训练线性分类器100次迭代,批量大小为4。对于从支持图像中提取的每个特征,我们获得五个增强特征。最终结果是600次实验的平均值。对于数据增强,我们采用随机裁剪,水平翻转和颜色抖动[6]。最终输入图像的大小为84 ×84。5.3. 结果选项卡. 1总结了使用ResNet12主干的各种方法的5向分类精度。结果是使用公开可用的代码的每种方法。我们所提出的方法优于以前的方法,在所有三个数据集上的1次拍摄和5次拍摄的设置上都有很大的差距。与Δ编码器[38]相比,另一种基于数据增强的方法,我们提出的方法实现了7. 40%,9. 20%和7。65% perfor-曼斯增益为1杆设置和5。88%,2. 90%,9。在三个数据集上,5次激发设置的性能分别提高了40%。可以看出,我们在1次拍摄设置中的改进比在5次拍摄设置中更明显,因为1次拍摄设置是数据稀缺的更极端的情况,在这种情况下,增加训练数据往往更有用。我们比较了使用Conv4架构作为骨干网络的方法。二、在这里,大多数方法只报告它们在CUB和StanfordDogs数据集上的结果。我们提出的方法实现了国家的最先进的性能为1杆和5杆设置。尤其是对于1次拍摄设置,我们的方法获得2。CUB和2. Stan-ford Dogs比MattML [56]增加19%,这是一种新提出的方法,专门针对细粒度的少数镜头视觉识别。我们的方法还在非细粒度数据集(如CIFAR-FS[3]和mini-ImageNet[47,35])上实现了具有竞争力的少量分类性能。更多详情请参见补充材料。8818方法幼崽1发5发NAB1发5发斯坦福犬1发5发基线[6]基线++[6]MAML [10][第47话]ProtoNet [41]联系网络[43]MTL [42]∆-编码器[38][24]第二十四话我们63.90 ±0.8868.46 ±0.8571.11 ±1.0072.62 ±0.9071.57 ±0.8970.20 ±0.8473.31 ±0.9273.91 ±0.8775.15 ±0.4679.12±0.8382.54 ±0.5481.02 ±0.4682.08 ±0.7284.14 ±0.5086.37 ±0.4984.28 ±0.4682.29 ±0.5185.60 ±0.6287.09 ±0.3091.48±0.3970.36 ±0.8976.00 ±0.8580.08 ±0.9373.91 ±0.7273.60 ±0.8367.41 ±0.8278.69 ±0.7879.42 ±0.7784.56 ±0.4688.62±0.7387.91 ±0.4990.99 ±0.4188.87 ±0.5488.17 ±0.4589.72 ±0.4185.47 ±0.4387.74 ±0.3492.32 ±0.5993.31 ±0.2295.22±0.3263.53 ±0.8958.30 ±0.3566.56 ±0.6665.87 ±0.8165.02±0.9259.38 ±0.7954.96 ±1.0368.59 ±0.5365.48 ±0.4976.24±0.8779.95 ±0.5973.77 ±0.6879.32 ±0.3580.70 ±0.4283.69 ±0.4879.10 ±0.3768.76 ±0.6578.60 ±0.7879.39 ±0.2588.00±0.47表1:CUB [49],NAB [46]和Stanford Dogs [15]数据集上的少量分类准确度。所有实验都来自具有相同骨干网络(ResNet12)的5向分类。最佳性能以粗体表示。方法幼崽1发5发斯坦福单次拍摄狗5次射击[第47话]45.30 ±1.0337.36 ±1.0058.99 ±0.5258.13 ±0.3656.76 ±0.5052.42 ±0.7653.15 ±0.8463.63 ±0.7766.29 ±0.5668.42±0.9259.50 ±1.0145.28 ±1.0371.20 ±0.4071.51 ±0.3061.05 ±0.4463.76 ±0.6481.90 ±0.6076.06 ±0.5880.34 ±0.3082.42±0.6135.80 ±0.9937.59±1.0043.29 ±0.4644.84 ±0.3142.16 ±0.4349.10 ±0.7645.73 ±0.7645.72 ±0.7554.84 ±0.5357.03±0.8647.50 ±1.0348.19 ±1.0355.15 ±0.3958.61 ±0.3054.12 ±0.3963.04 ±0.6561.51 ±0.8560.94 ±0.6671.34 ±0.3873.00±0.66ProtoNet [41]联系网络[43]MAML [10]AdaCNN [33][31]第三十一话DN4 [26]LRPABN [14]MattML [56]我们表2:CUB [49]和Stanford Dogs [15]数据集上的少量分类准确度。所有实验都来自具有相同骨干网络(Conv4)的5向分类。最佳性能以粗体表示。6. 额外分析在本节中,我们提供了额外的实验来阐明我们的方法的不同方面。6.1. 对生成的类内变化的分析我们进行了一个简单的实验,以验证我们的采样方法的有效性(Sec.4.3)。我们不是从实例条件均值和方差中采样,而是从零均值和单位方差分布中采样类内方差特征。图3总结了针对CUB和NAB数据集的5路1次分类的该实验的结果。可以看出,从零均值和单位方差中采样的类内方差特征并没有改善结果(红线)。相比之下,我们的方法从实例条件后验分布的采样生成的功能,不断提高分类性能的数量增加的扩增样本。6.2. 与其他基于我们将我们的方法与其他两种基于数据增强的FSL方法进行比较:[45]和∆-编码器[38]。MetaIRNet使用预训练的图像生成器图3:对生成的类内变异的分析。我们用从估计的均值和方差(绿线)或从零均值和单位方差(红线)采样的类内方差特征来增强样本。我们的抽样方案产生的功能,consistently提高分类。以合成附加图像并将它们与原始图像组合以形成附加训练样本。的Δ-编码器学习合成所见类别的成对示例之间的可转移非线性变形,并将这些变形应用于所提供的新类别的少数样本。我们使用这两种方法合成的额外样本来训练三种类型的分类器:K-最近8819邻居(KNN)、支持向量机(SVM)和逻辑回归(LR),然后将其用于对新图像进行分类。这些方法和我们的方法之间的比较3 .第三章。我们的方法的优越性能表明,我们的框架获得的增强功能注意,对于MetaIRNet [45],Tab.3比他们在原始论文中报告的数字低,因为他们在ImageNet上预先训练了骨干网络,而这里所有的方法都是从头开始训练的。方法KNN单次拍摄5次射击SVM单次拍摄5次射击LR单次拍摄5次射击MetaIRNet [45]63.1874.8263.7676.7763.5379.95∆-编码器[38]67.3182.6776.0282.8776.2285.17我们75.4683.1779.0787.5978.3489.30表3:不同分类器的分析。在具有不同类型分类器的1次和5次设置中,CUB [49在选项卡中。 4、我们直接将我们的方法与Δ-使用K-NN分类器的编码器(K=1)。有趣的是,可以看出,使用增量编码器生成的增强特征降低了分类性能。事实上,我们看到大多数人(91。3%)的最近邻的∆编码器的生成的特征属于不同的类(一些在图中可视化。1),表明从该方法提取的成对变换可能改变变换特征的类身份。另一方面,我们生成的特征很好地保留了类的身份,并温和地提高了分类结果。方法编码器不含8月我们不含8月5向69.3767.3174.9575.4610路58.6952.1962.0563.1720路48.1038.8450.1950.72表4:增强特征对1NN分类器的影响。使用具有原始特征与增强特征的1NN分类器在CUB [ 49 ]数据集上的少量分类精度。∆-Encoder的原始功能来自预先训练的ResNet 18网络。6.3. 与其他类内方差我们假设类内方差可以用潜空间中的各向同性多元高斯分布来在本节中,我们将此方法与其他对类内方差建模的方法进行比较,包括高斯混合变分自动编码器(GMVAE)[8],协方差矩阵[52]以及基线模型,其中我们不将类内方差特征与类判别特征分开。选项卡. 5总结了结果。第一行显示GMVAE的结果。该方法强制将潜在空间划分为不同类别的不同聚类。然而,对于该模型,准确度下降了6。15%和2。13%为1杆设置和5。02%和0。CUB和NAB数据集上的5次激发设置分别为50%。结果与我们的假设一致,即类内方差在不同类之间共享。因此,强制执行多模态先验分布将导致性能下降。第二行显示了基于协方差矩阵的[52]中提出的方法的结果。具体而言,该方法假设高斯先验分布的类内变异性跨不同的类,可以从基础类转移到罕见的类。然而,[52]使用协方差矩阵来估计特征方差分布,而不是通过变分推断来建模分布。在这里,我们将此方法应用于我们提取的特征,以在1次拍摄和5次拍摄设置下在CUB和NAB数据集上生成额外的特征。与高斯分布的非参数估计相比,通过变分推断以端到端的方式建模类内方差带来6。03%和1。91%的改进为1-shot设置和3. 64%和1。CUB和NAB数据集上的5次激发设置分别提高了03%。最后,我们提供了我们的方法的结果,没有特征解纠缠,表示为在精神上,该模型类似于[54],其通过变分推理将每个点建模为分布。给定一个新的样本,我们通过从估计的均值和方差中重复采样来增加它。如果没有特征解纠缠和类内方差的明确建模,该模型与其他方法相比无法实现可比的结果。类内分布模型幼崽单次拍摄5次射击NAB单次拍摄5次射击高斯混合模型[8]协方差矩阵[52]无解缠[54]75.1675.2873.4086.4687.8486.6086.4984.7181.8394.7294.1992.83各向同性高斯(拟定)79.1291.4888.6295.22表5:在1次和5次拍摄设置中,CUB [49]和NAB [46]数据集上的少量拍摄分类准确度,采用不同的方法对类内方差进行建模。6.4. 数据分布分析我们比较了真实数据和我们的方法生成的数据其他最先进的数据生成方法[52,38]。在这里,我们测量平均类内方差、类间距离(类间距离)和类间方差。8820(a) Ours -Base Classes(b)Ours -NovelClasses(c)编码器- Novel Classes图4:使用t-SNE在CUB数据集上(a)基础真实特征和通过我们的方法增强的特征(b)新的真实特征和通过我们的方法增强的特征。(c)新的真实特征和由∆编码器增强的特征。我们的增强特征更好地模仿了真实特征的分布。通过Davies-Bouldin指数(DBI)[ 7 ]的数据聚类性具体地,集群i的DBI通过下式计算:帧内(i)+帧内(j)DBIi= maxi=jInter(i,j)(十三)其中Intra(i)是聚类i的类内方差,通过取与类中心的平方偏差的平均值来Inter(i,j)是聚类i和j的两个类中心之间的距离。DBI的值越低,簇之间的分离和簇内部的“紧密性”越好选项卡. 图6示出了跨CUB数据集的所有新类的类内变化、类间距离和DBI(分别表示为D_intra、D_inter和DBI)的平均值。类间距离在所有类对上平均。如表中所示,与来自所有数据的特征相比,来自支持集的特征表现出较小的类内变异。所有方法都从支持集中增加功能。有趣的是,使用[52]中提出的方法和∆编码器[38]生成的两组特征另一方面,通过我们的方法增强的特征集紧密地近似于所有真实特征集的数据分布。图4展示了与使用t-SNE [32]的∆编码器[38]相比,我们的方法中的真实样本和生成样本如何分布在2D空间中。原始特征被标记为浅色,而增强特征被标记为深色。不同的颜色表示不同的类。具有来自我们的方法的增强特征的基类的可视化在图中示出。凌晨4图4b可视化了我们的方法针对新颖类的真实特征和生成的特征。我们的方法生成的样本密切关注真实样本。新颖类和从Δ编码器生成的特征的可视化在图1中示出。4杯表6:不同特征集的数据分布分析。我们使用我们的方法和基于协方差矩阵[52]或∆编码器[38]的其他数据生成方法来增强特征。所有方法都从支持集(第一行)中增加特征。可以看出,来自每个新类的生成数据形成新的聚类,并且不靠近实际数据点。7. 结论我们提出了一种简单而有效的特征增强方法,通过特征解纠缠和变分推理来解决少镜头细粒度分类中的数据稀缺问题所生成的特征增大了新集合图像的类内方差,同时保留了类判别特征。随着增强样本数量的增加,一致的性能改善表明学习到的特征是有意义的和非平凡的。与其他基于数据增强的方法相比,更高的精度进一步证明了我们的方法的优越性虽然这项工作主要集中在少数拍摄识别问题,一个有前途的未来方向是将特征转移的想法应用到其他数据稀缺或标签稀缺的任务。鸣谢。这项工作得到了Zebra Technologies,合作伙伴大学基金,SUNY2020 ITSC的部分支持,以及Adobe的礼物。D帧内Dintern DBI支持数据(5个样本)所有数据21.5228.9732.7735.892.213.02协方差矩阵[52]基于编码器的模型[38]17.9810.3435.2411.691.791.77我们27.2734.122.538821引用[1] 阿希尔·亚历山德罗和索阿托·斯特凡诺。深层表征中不变性和解纠缠的出现.在j.马赫学习. Res. ,2018年。4[2] Antreas Antoniou,Amos Storkey,and Harrison Edwards.数据增强生成对抗性网络。在arXiv预印本arXiv:1711.04340,2018。一、二[3] LucaBertinetto,J oaoF. Henriques,P.T或r和A. 维达尔迪 使 用 可 微 封 闭 形 式 求 解 器 的 元 学 习 。 ArXiv ,abs/1805.08136,2019。5[4] 克里斯托弗·P Burgess,Irina Higgins,Arka Pal,LoicMatthey , Nick Watters , Guillaume Desjardins , andAlexan-der Lerchner.理解β-vae中的解缠。在arXiv:机器学习,2018年。4[5] 瑞奇·TQ. Chen,Xuechen Li,Roger Grosse,and DavidDu- venaud.变分自动编码器中解纠缠的分离源。在arXiv预印本arXiv:1802.04942,2018。4[6] Wei-Yu Chen,Yen-Cheng Liu,Zsolt Kira,Yu-ChiangFrank Wang,and Jia-Bin Huang.更仔细地观察几次分类。在国际机器学习会议(ICML),2019年。五、六[7] David L.作者声明:Donald W.博尔丁聚类分离度量。在IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),1979中。8[8] Nat Dilokthanakul,Pedro A. M.放大图片作者:MartaGarnelo , Matthew C.H. Lee , Hugh Salimbeni , KaiArultimaran,and Murray Shanahan.使用高斯混合变分自编码器的深度无监督聚类。在arXiv预印本arXiv:1611.02648,2017。7[9] 千湖严和范燮咸。学习解纠缠表示,用于鲁棒的人重新识别。神经信息处理系统进展(NeurIPS),2019年。2[10] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。2017年,国际机器学习会议(ICML)。二、六[11] Hang Gao , Zheng Shou , Alireza Zareian , HanwangZhang,and Shih-Fu Chang.通过协方差保持对抗增强网络 进 行 低 拍 摄 学 习 。 神 经 信 息 处 理 系 统 进 展(NeurIPS),2018。1[12] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行 低 镜 头 视 觉 识 别 在 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),2017年6月。一、二[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。5[14] Huaxi Huang,Junjie Zhang,Jian Zhang,Jingsong Xu,and Qiang Wu.低秩成对对齐双线性网络用于少量细粒度 图 像 分 类 。 在 arXiv 预 印 本 arXiv : 1908.01313 ,2019。6[15] Aditya Khosla、Nityananda Jayadevaprakash、BangpengYao和Li Fei-Fei。一种新的细粒度图像分类在关于细粒度视觉分类(FGVC)的第一研讨会中,IEEE计算机视觉和模式识别会议(CVPR),2011年。一、二、五、六[16] Junsik Kim,Tae-Hyun Oh,Seokju Lee,Fei Pan,andIn So Kweon.变分原型-编码器:使用原型图像进行一次性 学 习 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2019。2[17] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。国际学习代表会议(ICLR),2015年。5[18] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。国际学习代表会议(ICLR),2014年。2[19] Hieu Le和Dimitris Samaras。通过阴影图像分解去除阴影在IEEE国际计算机视觉会议(ICCV),2019年。1[20] Hieu Le和Dimitris Samaras。从阴影分割到阴影去除。欧洲计算机视觉会议(ECCV),2020年。1[21] Hieu Le和Dimitris Samaras。用于阴影去除的基于物理的阴影图像分解。在arXiv预印本arXiv:2012.13018,2020。1[22] Hieu Le,Thomas F. Yago Vicente,Vu Nguyen,MinhHoai,and Dimitris Samaras. A+D网络:使用对抗性阴影衰 减训 练阴 影检 测器 。在欧洲 计算 机视 觉会 议(ECCV),2018年。1[23] Hsin-Ying Lee,Hung-Yu Tseng,Jia-Bin Huang,Ma-neesh Kumar Singh,and Ming-Hsuan Yang.通过解缠表征实现多样化的在欧洲计算机视觉会议(ECCV),2018年。2[24] KwonjoonLee
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功