没有合适的资源?快使用搜索试试~ 我知道了~
54470基于语义引导的Few-Shot Learning的潜在部分嵌入0Fengyuan Yang 1 , 2 , Ruiping Wang 1 , 2 , 3 , Xilin Chen 1 , 201中国科学院智能信息处理重点实验室(CAS),中国科学院计算技术研究所,中国北京,100190 2 中国科学院大学,中国北京,100049 3 北京人工智能研究院,中国北京,1000840fengyuan.yang@vipl.ict.ac.cn, { wangruiping, xlchen } @ict.ac.cn0摘要0Few-ShotLearning(FSL)的能力是智能代理在开放的视觉世界中学习的基本要求。然而,现有的深度学习系统过于依赖大量的训练样本,使得从有限的训练数据中高效地学习新类别变得困难。FSL面临的两个关键挑战是对少样本新类别的理解不足和建模不完善。对于视觉理解不足的问题,来自其他模态的语义知识可以帮助补充对新类别的理解。但是,即使如此,大多数方法仍然面临第二个挑战,因为它们采用的单个全局类别原型在FSL情景中由于更大的类内变化和更难的类间区分而极不稳定和不完善。因此,我们提出使用类别语义知识将每个类别表示为其几个不同的部分。由于我们无法预先定义未知新类别的部分,我们以潜在方式嵌入它们。具体而言,我们训练一个生成器,将类别语义知识作为输入,并输出几个类别特定的语义潜在部分的滤波器。通过应用每个部分的滤波器,我们的模型可以关注包含每个部分的相应局部区域。在推断阶段,通过比较这些部分之间的相似性进行分类。在几个FSL基准测试上的实验证明了我们提出的方法的有效性,并展示了它在超越类别识别到类别理解方面的潜力。此外,我们还发现,当语义知识更加可视化和定制化时,它在FSL任务中将更加有帮助。01. 引言0从有限数量的训练样本中很好地学习新类别是具有挑战性的,因为当今的深度学习系统的成功程度在很大程度上取决于训练集的规模[30]。相反,人类即使只有很少的训练样本,也能迅速学习新类别。0样本[5]。这启发了Few-ShotLearning(FSL)的可能性。此外,FSL的能力对于智能代理在开放的视觉世界中主动学习是至关重要的[2]。0Few-ShotLearning(FSL)面临的两个关键挑战是对新类别的理解不足和建模不完善。第一个挑战是直观的,因为有限的训练样本导致对新类别的视觉理解不足。在这种情况下,来自其他模态的语义知识可以在FSL中非常有帮助[38, 50,55]。此外,我们认为在FSL中,语义知识实际上是不可或缺的,因为用很少的样本来表示一个类别时存在歧义。例如,假设一个新类别只有一张支持图像,如图1(a)左上角的图片所示,即使人类也容易混淆这个类别是“帽子”还是“沙漠狐狸”或“狐狸”。因此,使用语义知识来补充对新类别的定义是必要的。0此外,现有的使用语义的Few-ShotLearning(FSL)方法仍然面临着第二个挑战,即对新类别的建模不完善。原因是大多数FSL方法通过单个全局原型来表示每个类别,这种原型由于姿势、环境、光照、遮挡等因素的巨大变化而极不稳定和不精确。如图1(a)所示,在Few-Shot情景中,类内变化和类间混淆都被加剧。因此,单个全局表示对于FSL来说是不够的,需要更精确的局部信息来表示语义部分。因此,我们提出使用类别语义知识将每个类别表示为其几个不同的部分。与单个全局类别表示的大类内变化相比,每个部分的变化维度较少,因此通常较少的支持图像就足以表示类别的每个部分。除了较小的类内变化,通过部分表示类别还可以获得更好的类间区分度。图1(b)显示了一个例子,通过比较区分性的语义部分(如耳朵、鼻子、腿等),两个整体相似的类别可以更好地区分开来。总之,54480图2. 相关工作0图2. 相关工作0(a)单个全局类别表示在FSL中不稳定且容易混淆。0图2. 相关工作0耳朵:垂耳、柔软0鼻子:长而粗0腿:长而无毛0鼻子:细长而尖0耳朵:大、尖、竖立0鼻子:细长而尖0腿:短而毛茸茸0Snout: 细长而尖0鼻子:细长而尖0Snout: 长而粗0(b)通过不同部分来表示一个类更稳定和精确。0图1:我们潜在部分嵌入的动机。(a)以单个全局嵌入来表示一个类的先前工作将导致类内变异较大(由于姿势变化、遮挡和场景变化在FSL中敏感),类间区分较差(使用不精确的全局嵌入作为类别表示时容易混淆整体相似的类别)。(b)我们的方法借助类别语义知识将每个类别表示为其部分。每个部分的变异性要小得多,这意味着我们的表示在FSL场景中更稳定。我们基于部分的分类更精确,因此可以更好地区分整体相似的类别。0基于部分的表示更适合FSL任务。为了通过部分来表示每个类,第一步是了解该类包含哪些部分,然后获得部分嵌入。如图1(b)所示,我们首先使用每个类的语义知识生成几个类特定的部分滤波器。值得注意的是,我们永远无法为未知的新类预定义部分,因此这里每个滤波器对应于一个类特定的潜在部分(理想情况下,是“大而尖的耳朵”)。通过使用这些滤波器执行卷积操作,可以发现基于局部区域(如大耳朵区域)的不同潜在部分。最后,我们进行空间重新加权池化操作,以获得每个部分的嵌入。这些潜在部分嵌入(LPE)共同形成类别表示。此外,我们将部分级别的视觉先验从基类传递到细化这些LPE。这是有道理的,因为对于每个新类,不同的部分倾向于与不同的基类部分相似(例如,鱼狮的头部类似于狮子的头部,而尾巴类似于鱼的)。因此,部分级别的先验传递比经典的类别级别传递更合理,我们将在后面验证其有效性。然后在测试阶段,我们将逐个将查询与所有新类进行比较,根据每个LPE表示计算查询与每个新类之间的部分级别相似性。最终得分将是部分相似性得分的加权平均值。在几个少样本学习数据集上的实验证明了其有效性,同时还显示了超越类别级别识别的部分级别理解的潜力。此外,通过比较不同语义来源(例如Word2Vec[29]、CLIP语义嵌入[31]和0属性),可以得出更可视化和定制化的语义知识在FSL中更有用。02. 相关工作0Few-shot learning.FSL的引入可以追溯到2006年的[12]。该工作提出了处理FSL的基本方法,即学习一些基类的困难方式,以便促进对少样本新类的学习。与基于视觉词袋[39,57]的上述工作不同,匹配网络[44]是第一个在FSL中采用深度学习的方法,并且有许多后续工作。从如何将基类的先验知识转移到新类的角度来看,当前的方法可以分为三个主要流派[18,47]。第一种是基于数据的方法,其目的是为新类生成足够的训练数据[1,17,37]。第二种是基于优化的方法,设计了广义初始化和高效优化策略,如MAML[14]和基于LSTM的方法[32]。最后一种是基于度量的方法,其中根据特征空间中的距离进行分类[16, 40, 41,44]。最近,出现了一些关于FSL的重新思考的工作,如任务不现实和过于简单[6,14],良好的嵌入比复杂的元学习方法更好[42]。同样,在本文中,我们重新思考了语义知识对于FSL的必要性,否则类别定义将是模糊的,如上所述。使用语义的少样本学习。近年来,使用语义知识来辅助FSL已经成为一种趋势。使用语义的灵感来自于一个filtercp = φp(sc).(1)54490密切相关的主题,即零样本学习(ZSL)[10, 21,22]。语义知识源可以是属性[22],来自预训练语言模型的嵌入[27],知识库[7]等。在本文中,我们将在我们的框架中探索不同的语义来源,以找到哪种语义更适合FSL。不同的先前方法在不同的粒度上使用语义,如任务级别[9],类级别[8,46,50,52]和部分级别[55]。基于部分的对象理解。由于对象由部分组成,基于部分的解缠是对象理解的重要组成部分。在目标检测中,有一些经典的基于部分的模型,如DPM[13]及其后续工作[3,28]。在这些方法中,所有部分都被明确定义。然而,在FSL场景中,大量的类别变化导致了部分的多样性,我们永远无法预先定义新类别的部分。因此,在我们的框架中,我们执行潜在部分发现,而不是使用显式的预定义部分。为此,我们使用类语义知识作为指导。实际上,FSL中的许多最新工作已经专注于局部表示[9, 25, 48,56]。然而,这些方法忽视了可以在部分发现中真正有帮助的语义知识的重要性。03. 方法0图2显示了我们提出的方法的框架,将在以下子节中详细描述。我们在§3.1中介绍了类特定潜在部件滤波器生成模块,并在§3.2中介绍了潜在部分发现模块。然后,§3.3描述了如何从相似的基类中传输潜在部分表示。之后,§3.4演示了查询图像的基于部分的分类流程。最后,我们在§3.5中描述了我们框架的训练策略和损失函数。问题形式化。FSL的目标是基于M个基类(表示为Yb)学习如何学习新类。典型的测试协议是N-Way,K-Shot设置,这意味着每个少样本学习任务中有N个新类(表示为Yn),其中基类和新类是不相交的,即Yb∩Yn=�。我们使用索引{1,...,M}表示基类,{M +1,...,M +N}表示新类。基类数据集(表示为Dbase)每个类别有大量样本,而新类数据集命名为支持集(表示为Dnovel)每个类别只有K个标记样本。正如我们所看到的,Dnovel ={(xi,yi) | xi∈X,yi∈Yn}N×Ki = 1。X�Rd v × H ×W表示保留视觉特征图的空间信息的dv维视觉空间。除了视觉空间,我们利用基类和新类的语义知识S = {sc∈Rds}M +Nc =1,就像其他作品一样,其中ds是语义空间的维度。在本文中,我们尝试采用不同的语义知识作为来源。最后,FSL的目标是学习新类的分类器ffsl:X→Yn。03.1. 生成类特定潜在部件滤波器0在这里,我们介绍了卷积滤波器生成器,每个生成器对应于该类的类特定潜在部分。如图2中的黄色背景区域所示,该模块根据类语义知识独立生成P个卷积滤波器。这些滤波器将在下一步的潜在部分发现中使用。具体来说,该模块的输入是类语义向量sc∈S。模块的输出是P个卷积滤波器。如图2所示,有P个不同的MLP:{φp:Rds→Rdv×1×1}Pp =1。每个MLP将类语义向量独立地映射到视觉空间中的一个1×1卷积滤波器。以第p个MLPφp为例:0因此,滤波器cp∈Rdv×1×1是类c的第p个潜在部分对应的1×1卷积滤波器。类似地,我们可以为每个类获得P个卷积滤波器。在接下来的子节中,我们将基于这些生成的类特定潜在部分滤波器在视觉特征图上进行潜在部分发现。03.2. 潜在部分发现0在生成类别特定的潜在部分滤波器之后,每个类别都有P个卷积滤波器[filter c1, ..., filtercP]。现在我们使用这些滤波器对支持集图像的空间特征图进行潜在部分发现。如图2中绿色背景区域所示,每个滤波器将用于在由特征提取器(不包括最后的全局池化层)生成的空间特征图xc∈Rdv×H×W上执行卷积操作,并得到空间激活图:0acp(xc) = sigmoid(xc ⊙ filter cp), (2)0其中(xc,c)∈Dnc是类别c的一个支持样本,Dnc�Dnovel是包含属于类别c的样本的支持集的子集,filter cp∈Rdv×1×10是类别c的第p个1×1滤波器,⊙表示卷积操作。因此,空间激活图中的每个值acp(xc)∈RH×W表示该局部区域包含该类别对应的潜在部分的可能性有多大。值得注意的是,最后的操作是一个sigmoid函数,因此激活值被限制在[0,1]之间。经过上述卷积操作后,对于每个支持图像,我们得到与该类别的P个潜在部分对应的P个空间激活图。然后,我们使用这些空间激活图对原始的空间特征图进行基于区域的注意力和加权平均池化。我们使用激活值作为池化权重。因此,我们可以得到P个潜在部分的嵌入。由于加权平均池化是基于区域注意力的,我们将这个过程称为�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������, �����, … , ����� ����������������������������������������������������������������������������������������������������������� �������������������������������_���(��)���(��)���(��)��� (��)�������������������������_���(��)�������������������������_��� (��)��������������������� ��������������������������������������������������������������������_���(��)����������������������������������������� ���������������������LPEcp =1|Dnc |54500图2:我们提出的潜在部分嵌入方法的框架。它包含三个步骤来获得最终的类别表示。(1)从类别语义知识生成P个卷积滤波器。每个滤波器对应于类别的一个潜在部分。(2)利用这些滤波器通过空间重新加权池化操作进行潜在部分发现,并得到P个潜在部分嵌入。(3)将基类别的部分级视觉先验传递到新类别,以便细化最终的潜在部分嵌入。最后,这些潜在部分嵌入共同形成当前新类别的类别表示。0潜在部分发现。以从支持图像派生的第p个潜在部分嵌入为例:0LPEscp(xc) = GAP(xc � acp(xc)), (3)0其中 �表示Hadamard乘积(即逐元素相乘),GAP是全局平均池化。换句话说,我们对xc执行空间重新加权池化操作,得到潜在部分嵌入LPEscp(xc)∈Rdv。03.3. 基于部件级先验从基类转移0到目前为止,我们为每个支持图像xc获得了P个LPE。然而,由于标记样本太少,表示仍然面临不稳定的问题。因此,在本小节中,我们尝试明确地从基类向新类别转移视觉先验,以使LPE更加稳定和精确。这里最有趣的是,我们进行的是部件级别的转移,而不是经典的类别级别原型转移。实际上,在部件级别上转移先验知识更有意义,因为两个类别之间的相似性总是在部件级别上(例如,人鱼和狮子在头部部分相似,而人鱼和鱼在尾部部分相似)。与以前的工作不同,我们的框架为每个基类具有P个分类权重。换句话说,我们还使用潜在部件嵌入来表示基类。因此,基类j的分类权重是W j = [ W j 1 , ...,W j P ] ∈ R d v × P ,其中W j p ∈ Rd v 是与第p个LPE对应的权重。现在我们可以0将基类的分类权重W base = { W j }M j =1显式地转移到类别c:0LPE t c p ( x c ) 0j ∈Y b cos(ψ p ∙ LPE s c p ( x c ) , k jp ) ∙ W j p ,0(4)其中 ψ p ∈ R d v × d v 是与第p个潜在部件对应的可学习矩阵,{ k j p ∈ R d v}M j =1 是与第p个潜在部件对应的M个可学习键,ψ p 将第p个潜在部件嵌入LPE s c p ( xc ) 转换为查询向量,用于与 k j p 执行余弦相似度计算,以确定应该转移多少该基类的LPE W j p。通过从基类中转移视觉先验知识,我们建模了xc的最终LPE。0作为LPE s c p ( x c ) 和 LPE t c p ( x c ) 的组合:0LPE p ( x c ) = λ 1 × LPE s c p ( x c )+ λ 2 × LPE t c p ( x c )0其中 λ 1 , λ 2 ∈ R 是可学习的系数。注意,在N-WayK-Shot设置中,每个新类别有K个支持样本,这里我们沿着shot维度对所有K个LPE进行平均,以获得新类别c的最终LPE:0( x c ,c ) ∈D n c LPE p ( x c ),(6)0其中 |D n c | = K 。最后,我们得到新类别c的最终LPE:LPEc = [ LPE c 1 , ..., LPE c P ] ∈ R d v × P 。03.4. 基于部件的查询分类0基于这些新类别的最终潜在部件嵌入,我们现在可以进行少样本分类。�������������_������_������_��������������������������(12)̸54510这是一个示例文本。0示0示0示0示0示0示0这是一个示例文本。0示0这是一个示例文本。0示例0这是一个示例文本。0这是一个示例文本。0()0()0示0()0这是一个示例文本。0图3:基于我们的潜在部件嵌入的分类流程。为了获得分类得分,我们假设查询分别是新类别1到N(在本图中我们只展示了一个类别c),并在每个新类别的LPE表示下计算部件级别的相似度。最终得分是部件相似度得分的加权平均值。0如图3所示,对于查询样本q ∈ R d v × H ×W,我们的框架将逐个将查询与N个新类别在每个LPE表示下进行比较,以计算查询q与每个新类别之间的相似度。具体来说,为了验证查询是否属于类别c,我们首先通过对查询q执行P个与类别c的卷积滤波器,就像在3.2中提到的过程一样,计算出潜在部件激活图{ a c p ( q ) }P p =1:0acp(q) = sigmoid(q ⊙ filtercp). (7)0基于这些空间激活图,可以计算查询的P个潜在部分嵌入LPEqc = [LPEqc1, ..., LPEqcP]:0LPEqcp = GAP(q � acp(q)). (8)0然后基于查询的LPE LPEqc p 和新类别c的LPELPEcp,可以计算第p个潜在部分嵌入的余弦相似度:0scorecp(q) = cos(LPEqcp, LPEcp). (9)0我们将最终的相似度得分建模为P个LPE相似度的加权和:0scorec(q) = 1 / Σp=1 weightcp0p=1 weightcp ∙0(10)其中权重系数weightc = [weightc1, ..., weightcP] ∈RP由可学习的MLP g: Rd_s →RP生成,它以语义向量作为输入并输出权重系数:0weightc = g(sc). (11)0值得注意的是,MLP g的设计是利用类别语义知识来学习每个潜在部分相对于每个新类别的重要性。03.5. 训练策略和损失函数0与大多数以前的Few-shot学习工作包含两个训练阶段不同,我们通过元学习策略进行一阶段的端到端训练。有三个损失函数。第一个是基类的损失,包含两部分,一部分是标准的交叉熵损失,另一部分是基于LPE的交叉熵损失(这里的第二项的目标是学习上述部分级别的基本先验Wbase):0Lbase = -log exp0Wi�q′ + bi0Σ|Yb|j=10Wj�q′ + bj0-log exp(scorei(q′)/τ)0Σ|Yb|j=10其中(q′,i)是基准查询样本之一,Wj和bj0其中(scorei(q′)/τ)是从基类中采样的伪新类别的查询样本(q,c)(由于这是在元训练中,没有使用真实的新样本)。第三个损失是用于学习不同P个潜在部分的发散损失:0Lfsl = -log exp(scorec(q)/τ) / ΣNc′=1exp(scorec′(q)/τ), (13)0N0Ldiv =0Σ0c=10Σ0i=10Σ0j=1, j≠i0∥LPEci∥2 ≤ LPEcj∥2, (14)0我们将最终的损失函数建模为这三个损失的组合,通过系数λ和λdiv:0L = Lbase + λLfsl + λdivLdiv. (15)545204. 实验0在本节中,我们首先介绍实验设置,然后验证我们提出的方法的有效性,然后给出我们方法的一些可视化结果,最后进行基准比较。04.1. 数据集和设置0数据集。我们在4个广泛使用的Few-shot学习基准上进行实验,即miniImageNet [44],tieredImageNet[34],CIFAR-FS [4]和CUB[45]。MiniImageNet和tieredImageNet是ImageNet数据集的衍生物[36],CIFAR-FS是从CIFAR-100数据集[20,43]中衍生出来的。摘要可以在补充材料中找到。语义知识源。对于没有语义知识注释(例如,类别感知属性注释)的基准数据集,如miniImageNet、tieredImageNet和CIFAR-FS,以前的工作总是利用预训练的Word2Vec模型,如GloVe[29]作为语义源。在本文中,我们进一步尝试利用更可视化和定制的语义知识源,如CLIP[31]的语义编码器。GloVe向量的维度为300,CLIP语义嵌入的维度为512。值得注意的是,为了避免不公平的比较,本文只使用CLIP的预训练语义编码器,不使用CLIP的视觉编码器。鉴于CLIP被训练用于对齐视觉和语义空间,CLIP的语义编码器准确地是一种更可视化的语义知识源。对于具有语义注释的基准数据集,如CUB,可以使用具有312维的定制属性注释作为语义知识。实现细节。我们使用PyTorch框架实现我们的代码[1]。遵循大多数先前的工作[8,16,24,26,35,48],我们使用ResNet-12作为所有数据集的主干。我们还将过滤器的数量从[64,128,256,512]更改为[64,160,320,640],与大多数先前的工作[19,23,33,42]相同。类特定的潜在部分过滤器生成器是P个多层感知机(MLP),其中有2个全连接层和它们之间的LeakyReLU非线性层。用于学习每个部分重要性的网络g也是一个多层感知机,其中有2个全连接层和它们之间的LeakyReLU非线性层,然后是sigmoid非线性层。受[11]的启发,我们使用Z-Score作为特征表示的归一化。其他参数,如λ1,λ2和温度t,在端到端训练期间进行调整。更多细节可以在补充材料中找到。04.2. 提出方法的有效性0为了证明我们提出的方法的有效性,我们按顺序验证我们框架的每个部分。01 代码可在http://vipl.ict.ac.cn/zygx/dm/和https://github.com/MartaYang/LPE上获取0管道的各个部分的性能比较,包括使用不同语义源时的性能比较,LPE表示的有效性,先验知识传递的有效性以及P和λ等超参数的影响。(1)不同语义知识源的有效性。由于我们的方法试图利用语义知识来指导潜在部分的发现,这是一项比其他语义使用方法更困难的任务,因此语义知识的鲁棒性非常重要。因此,除了常用的Word2Vec之外,我们还探索了更可视化和定制化的知识源CLIP语义,它建立了视觉空间和语义空间之间的对齐。表1显示了在使用不同语义源指导LPE表示时在miniImageNet上的比较结果。正如我们所看到的,使用CLIP语义(表1的第一行)和使用GloVe(表1的第二行)的结果都显著优于没有语义基线的结果(表1的第三行),这表明了语义使用的有效性。此外,通过比较CLIP和GloVe的结果,使用CLIP作为语义源优于GloVe,这意味着更可视化的语义在FSL中更加强大。0表1:使用不同语义知识源时在miniImageNet上的比较结果。0语义源 5-Way 1-Shot 10-Way 1-Shot0CLIP语义 71.64 ± 0.40 53.20 ± 0.280无语义 65.57 ± 0.44 48.64 ± 0.290上述实验证明CLIP语义嵌入优于GloVe词嵌入,现在我们比较CUB上CLIP语义嵌入和定制注释的结果,该数据集中的每个鸟类都有精确的属性注释。如表2所示,使用属性注释时的性能优于CLIP。原因是粗粒度的CLIP语义嵌入在细粒度设置中效果不好。属性注释是CUB类的更定制化的语义知识,因此它的性能优于CLIP语义。0表2:使用不同语义知识源时在CUB上的比较结果。0语义源 5-Way 1-Shot 10-Way 1-Shot0CUB属性注释 85.04 ± 0.34 77.74 ± 0.270CLIP语义 80.76 ± 0.40 67.70 ± 0.330无语义 77.35 ± 0.44 64.91 ± 0.350总之,从miniImageNet和CUB的结果来看(即注释>CLIP>GloVe),我们可以得出结论,当语义知识更加可视化和定制化时,它将在FSL中发挥更大的作用。(2)LPE表示的有效性。如表3所示,当我们将潜在部分的数量P设置为1时,与P=5相比,FSL性能显著下降。请注意,当P=1时,它退化为全局。CUB5-Way 1-ShotFigure 6: Visualization results of the activation regions of P(=5) latent parts on novel classes of CUB. The redder regionmeans higher activation value.After verifying the effectiveness of the proposed meth-ods, in this subsection we compare our method with otherSOTA FSL methods.Tab.5 shows the results on mini-ImageNet and tieredImageNet dataset. Note that TriNet,54530类嵌入。这种消融结果表明,潜在部分嵌入优于全局类嵌入,从而证明了我们关键模块的有效性。0表3:我们提出的LPE表示在miniImageNet和CUB上的消融研究。0模型miniImageNet 5-Way 1-Shot05个LPE(即P=5)(我们的) 71.64 ± 0.40 85.04 ± 0.3401 LPE(即P=1)(消融) 64.03 ± 0.46 76.95 ± 0.440(3)基于基类的视觉先验传递的有效性。如表4所示,如果不进行传递,FSL性能会下降,这表明了从基类进行视觉先验知识传递的重要性。值得注意的是,有效性来自于更类似人类的传递机制。如上所述,基于部分级别而不是类级别进行视觉先验的传递更有意义。0表4:我们提出的基于部分级视觉先验从基类到miniImageNet和CUB的转移消融研究。0模型 miniImageNet 5-Way 1-Shot0CUB 5-Way1-Shot0带转移(我们的) 71.64 ± 0.40 85.04 ± 0.340无转移(消融) 64.33 ± 0.46 77.39 ± 0.450(4)潜在部分数量 P的影响。图4给出了miniImageNet和CIFAR-FS验证集上不同 P 的5-Way 1-Shot准确性。当 P = 5时,获得了最佳性能,因此我们将 P = 5设置为测试。准确性随着 P的增长而上升,因为更多的潜在部分可以提供对新类别更精确的建模。然而,在 P = 5 达到峰值后,准确性在 P进一步增加时呈下降趋势。原因是类别的感兴趣部分总是有限的。过多的部分可能会导致冗余甚至引入噪声。0图4:潜在部分数量 P对miniImageNet和CIFAR-FS验证集的影响。0(5)损失权重系数 λ的影响。图5显示了在miniImageNet和CIFAR-FS验证集上设置不同权重系数 λ 时的5-Way1-Shot结果。从公式15可以看出,较大的 λ意味着更多的权重放在少样本分类损失上。正如我们所看到的,当 λ太小时,少样本分类损失被基类的标准交叉熵损失所抑制,使得性能与基准保持不变。随着 λ 的增长0对于 λ的准确性,呈上升趋势,因为LPE表示可以更充分地训练。此外,在 λ = 2.0达到峰值后,准确性稍微下降,因为基类的交叉熵损失对于特征空间训练也是必不可少的,所以我们将 λ = 2.0设置为测试时这些损失的平衡。0图5:少样本损失权重系数 λ对miniImageNet和CIFAR-FS验证集的影响。04.3. 深入研究潜在部分0为了探索新类别的潜在部分是什么,我们在图6中显示了激活图acp。不同列的结果对应于相应新类别的不同潜在部分。首先,我们可以看到对于相同的支持图像,P个激活局部区域是不同的,这表明不同的潜在部分确实捕捉到了类别的不同方面。其次,可视化结果显示相似的部分在同一列中被突出显示(例如,图6的第一列中激活了不同鸟类的胸部部分,图6的第三列中激活了头部和尾部部分)。这种现象表明,相同的潜在部分过滤器生成器倾向于发现相似的部分或属性。这显示了我们的模型与真实语义部分对齐的潜力以及基于部分的类别理解的潜力。0空格0空格04.4.基准比较和评估ModelsBackboneSem.miniImageNettieredImageNetMatching Networks (NIPS’16) [44]4ConvNo43.56±0.8455.31±0.73--MAML (ICML’17) [14]4ConvNo48.70±1.8463.11±0.9251.67±1.8170.30±1.75ProtoNet (NIPS’17) [40]4ConvNo49.42±0.7868.20±0.6653.31±0.8972.69±0.74Dynamic-FSL (CVPR’18) [15]4ConvNo56.20±0.8672.81±0.62--wDAE-GNN (CVPR’19) [16]WRN-28-10No61.07±0.1576.75±0.1168.18±0.1683.09±0.12MetaOptNet (CVPR’19) [23]ResNet-12No62.64±0.6178.63±0.4665.99±0.7281.56±0.53DeepEMD (CVPR’20) [56]ResNet-12No65.91±0.8282.41±0.5671.16±0.8786.03±0.58RFS (ECCV’20) [42]ResNet-12No64.82±0.6082.14±0.4371.52±0.6986.03±0.49Neg-Cosine (ECCV’20) [26]ResNet-12No63.85±0.8181.57±0.56--ODE (CVPR’21) [51]ResNet-12No67.76±0.4682.71±0.3171.89±0.5285.96±0.35IEPT+ZN (ICCV’21) [11]ResNet-12No67.35±0.4383.04±0.2972.28±0.5187.20±0.34TPMN (ICCV’21) [48]ResNet-12No67.64±0.6383.44±0.4372.24±0.7086.55±0.63DeepBDC (CVPR’22) [49]ResNet-12No67.83±0.4385.45±0.2973.82±0.4789.00±0.30TriNet (TIP’19) [8]ResNet-18Yes58.12±1.3776.92±0.69--AM3 (NIPS’19) [50]ResNet-12Yes65.30 0.4978.10 0.3669.08 0.4782.58 0.3154540表5:在miniImageNet和tieredImageNet上与流行的FSL方法的平均分类准确率(%)进行比较。我们报告带有95%置信区间的平均分类准确率。“Sem.”表示是否利用语义知识。05-Way 1-Shot 5-Way 5-Shot 5-Way 1-Shot 5-Way 5-Shot0LPE-GloVe(我们的)ResNet-12 是 68.28 ± 0.43 78.88 ± 0.33 72.03 ± 0.49 83.76 ± 0.37LPE-CLIP语义(我们的)ResNet-12 是 71.64 ± 0.40 79.67 ± 0.32 73.88 ± 0.48 84.88 ± 0.360表6:CIFAR-FS结果。测试设置与上述相同。0模型CIFAR-FS05-Way 1-Shot 5-Way 5-Shot0MAML(ICML’17)[14] 58.9 ± 1.9 71.5 ± 1.0ProtoNet(NIPS’17)[40] 55.5 ± 0.7 72.0 ± 0.6MetaOptNet(CVPR’19)[23] 72.0 ± 0.7 84.2 ± 0.5RFS(ECCV’20)[42] 73.9 ± 0.8 86.9 ± 0.5TPMN(ICCV’21)[48] 75.5 ± 0.9 87.2 ± 0.60LPE-GloVe(我们的)74.88 ± 0.45 85.30 ± 0.35LPE-CLIP语义(我们的)80.62 ± 0.41 86.22 ± 0.330表7:CUB上的结果。测试设置与上述相同。0模型CUB05-Way 1-Shot 5-Way 5-Shot0TriNet(TIP’19)[8] 69.61 ± 0.46 84.10 ± 0.35MultiSem(CoRR’19)[38] 76.1 82.9FEAT(CVPR’20)[54] 68.87 ± 0.22 82.90 ± 0.15DeepEMD(CVPR’20)[56] 75.65 ± 0.83 88.69 ± 0.50VS-Align(ICMR’21)[52] 77.03±0.85 87.20±0.700LPE-CLIP语义(我们的)80.76 ± 0.40 88.98 ± 0.26LPE-属性(我们的)85.04 ± 0.34 89.24 ± 0.260AM3和我们的方法利用语义知识,而其他方法不利用语义知识。我们可以看到,我们的方法在特别是5-Way1-Shot设置下,优于其他使用语义的方法,并取得了最高的性能。值得注意的是,在利用语义知识的帮助下,我们的方法优于也采用部分级表示但在单模态设置下的TPMN[48]。此外,如表6所示,我们的方法在CIFAR-FS上也取得了有竞争力的结果。与许多其他使用语义的FSL方法[38, 50,53]一样,从语义中获得的性能提升将会减少。0当拍摄次数增加时,视觉嵌入本身变得更加稳定准确,因此在拍摄次数较多的情况下,语义知识的辅助将减少。然而,如表7所示,当使用更多定制的语义知识(例如CUB中的属性注释)时,我们的方法在拍摄次数较多的情况下仍然具有优势。05. 结论0在这项工作中,我们提出使用类语义知识将类表示为多个潜在部件嵌入(LPE)的组合。每个部件的变化较少,可以更容易地通过较少的样本表示,基于部件的分类更准确,因此LPE更适合FSL任务。此外,我们提出将基类的部件级视觉先验知识转移到新类中,这更有意义,因为两个类别之间的相似性实际上是在部件级别上。通过广泛的实验,我们发现(a)语义知识对于补充新类的定义是必不可少的,否则由于有限的训练样本,FSL任务会有些模糊,(b)更可视化和定制的语义来源在FSL中更有用,以及(c)我们的方法在FSL中具有发现真实语义部件的潜力,这是从类级别的对象识别到部件级别的对象理解的重要步骤。致谢。本工作得到了中国国家重点研发计划资助(编号2021ZD0111901)和中国自然科学基金资助(合同号U21B2025、U19B2036、61922080)。54550参考文献0[1] Arman Afrasiyabi, Jean-Franc¸ois Lalonde, and ChristianGagn´e. Few-shot image classification的关联对齐. In EuropeanConference on Computer Vision (
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功