没有合适的资源?快使用搜索试试~ 我知道了~
6596ECKPN:一种用于间接少样本学习的陈超凡1,杨晓山2,3,许长生2,3†,黄旭辉4,马哲41中国科学技术大学信息科学与技术学院2中国科学院自动化研究所模式识别国家重点实验室3中国科学院大学人工智能学院4航天科工二院X实验室,北京中国chencfbupt@gmail.com,{xiaoshan.yang,csxu}@ nlpr.ia.ac.cn,{starhxh,mazhe thu}@ 126.com摘要近年来,基于转换图的方法在小样本分类任务中取得了巨大的成功。然而,大多数现有的方法忽略了探索类级别的知识,这些知识可以很容易地被人类从少数样本中学习到。在本文中,我们提出了一个显式类知识传播网络(ECKPN),它是由比较,挤压和校准模块,以解决这个问题。具体来说,我们首先使用比较模块来探索成对样本关系,以学习实例级图中的丰富样本表示然后,对实例级图进行压缩,生成类级图,从而获得类级可视化知识,便于建模不同类之间的关系。然后,采用校正模块来显式地刻画类之间的关系,以获得更具区分性的类级知识表示。最后,我们结合类级知识和实例级样本表示来指导查询样本的推理。我们进行了广泛的实验,在四个少镜头分类基准,实验结果表明,所提出的ECKPN显着优于国家的最先进的方法。1. 介绍最近的深度学习方法依赖于大量的标记数据来实现高性能,这在某些场景中可能会出现问题,其中数据收集的成本很高,因此很难获得大量的标记数据。这些深层方法的学习模式与人类不同。在接触少量数据/样本后,人类可以利用其先前知识快速学习,从而成功地识别新的类。因此,如何缩小差距,†表示通讯作者:Changsheng Xu。1类2类支持示例查询示例类级知识表示分布边界学习成对样本关系图1. 类级知识表示的作用的说明(例如,类中心)。深度学习方法和人类学习能力之间的关系引起了许多研究人员的兴趣。小样本学习[17,21,45]模拟了人类的学习模式,在计算机视觉和机器学习领域引起了广泛的关注。作为解决少次学习任务的直接方法,传统的微调技术[10]可以利用新类的样本来更新在具有足够样本的类上预训练的网络的参数。然而,这些方法往往会导致过度拟合,因为只有少量的训练样本不足以代表相应类别的数据分布,也不足以学习到有效的分类器。解决过拟合问题的一个成功尝试是将元学习机制[20]应用基于元学习的方法[3,43,30,31,23,37,7,28,12,11,52,47,2,29]由两个步骤组成:元训练和元测试。每个步骤(元训练或元测试)由多个片段(子任务)组成,每个片段的数据由支持集和查询集组成。这些方法使元训练环境与元测试环境保持一致,有助于提高模型的泛化能力,从而解决过拟合问题。如今,元学习已经成为大多数少数学习方法的通用训练机制。在本文中,我们也遵循这种培训机制。Q6597最近,受图网络在建模结构信息方面的成功启发[14,8,42],研究人员开始提出基于图的元学习方法用于少量学习并获得最先进的性能[38,12,28,29,47,27]。这些方法将样本作为节点来构造图,并利用邻接矩阵来建模图像之间的关系。基于图的元学习方法有两种设置:转换设置和归纳设置。直推式方法从支持集和查询集两个角度刻画样本之间的关系,进行联合预测,从而获得比归纳式方法更好的性能,归纳式方法只能根据支持集样本之间的关系学习网络,并对每个查询样本进行单独分类。现有的基于图的转换方法通过综合考虑样本的实例级关系来学习将类标签从支持集传播到查询集。然而,这些方法从类别的角度出发,忽略了全局上下文知识。相比之下,人们可以从少量样本中学习新类别的更丰富的表示,使用它们来创建新的范例,甚至基于现有类别创建新的抽象类别[18]。这启发我们考虑如何显式地学习更丰富的类知识来指导查询样本的基于图的推理。如图1所示,如果我们仅使用样本表示和关系来进行少量分类任务,则我们可能将查询样本q错误地分类到类2中。然而,如果我们明确地学习类级别的知识表示来指导推理过程,我们可以正确地对q进行分类,因为q更接近于类1的表示。为了解决上述问题,我们提出了一个端到端的传导图 神 经 网 络 , 它 被 称 为 显 式 类 知 识 传 播 网 络(ECKPN)。ECKPN由组合、挤压和校准模块组成,这些模块可以灵活地堆叠以显式地学习和传播类级知识。(1)首先,比较模块基于实例级图中的成对关系捕获样本的丰富表示。视觉特征总是结构化矢量和许多因素(例如,频率,形状,照明,纹理)可能导致分组[46,51](即,一组维度表示语义方面或一段知识)。因此,我们在比较模块的消息传递中采用多头关系来表征样本之间的分组关系,从而提供了不同样本之间的每个节点特征沿维度划分为组,并对不同的组计算邻接矩阵,得到多个关系度量,然后聚合这些关系度量,计算样本的新节点特征(2)然后,挤压模块探索内部-通过从实例级图中聚类具有相似特征的样本来获取类上下文知识类级图中的节点数与类的总数相同。因此,每个节点代表特定类的可视化知识(3) 最后,标定模块显式地捕获不同类之间的关系,学习更多的区分类的知识来指导查询样本的基于图的推理.因为单词的嵌入类名称可以提供丰富的语义知识,而这些语义知识可能是视觉内容所不包含的,我们将它们与视觉知识结合起来,得到不同类的多模态知识表示。在多模态知识表示的基础上,采用类级消息传递的方法来挖掘类间的关系。通过消息传递获得的新的类级知识表示与相应的实例级样本表示相结合,以指导查询样本的推理。概括起来,本文的主要贡献有四个方面:• 据我们所知,我们是第一个提出了一个端到端的基于图的少镜头学习架构,它可以显式地学习丰富的类知识,以指导基于图的查询样本的推理• 我们建立多头样本关系来探索两两样本的细粒度比较,这可以促进基于两两关系的更丰富的类知识的学习。• 我们利用类名的语义嵌入来构造不同类的多模态知识表示,从而提供更具区分性的知识来指导查询样本的推理• 我 们 在 四 个 基 准 上 进 行 了 广 泛 的 实 验miniImageNet 、 tieredImageNet 、 CIFAR-FS 和CUB-200-2011)的测试结果表明,该方法具有较好的性能。2. 相关工作近年来,研究者们提出了许多新的方法来解决小样本学习问题,并取得了很大的成功。如[7]所示,我们可以将现有的少次学习方法分为两类:基于梯度的[3,37,31,11,30,19,26,40,53,16,49,4][2019-04-19 00:00:00][2019 -04 - 19 00:00:00:00][2019- 04 - 19 00:00:00][2019 - 04 - 19 00:00]7、50、32、25]。基于行为的方法。这些方法试图在几个优化步骤内适应新的类。著名的模型不可知元学习[3](MAML)6598方法依赖于元学习器[20]来实现微调更新。Reptile [31]是一种基于一阶梯度的元学习方法,它指出MAML可以简单地实现。它在采样任务上进行训练,并且不需要为每个任务进行训练-测试分裂。潜在嵌入优化[37](LEO)是一种编码器-解码器架构,它利用编码器探索低维潜在嵌入空间以更新表示,并利用解码器预测高维参数。条件类感知Meta学习[11](CAML)有条件地转换嵌入以探索类间依赖关系。然而,这些基于梯度的方法通常无法学习有效的样本表示进行推理。基于Metric的方法这些方法通常先将支持样本和查询样本嵌入到同一个特征空间中,然后计算特征间的相似度进行预测。关系网络[41]使用距离度量网络利用支持样本和查询样本之间的匹配网络[43]将注意力机制和记忆结合在一起,提出了一个端到端的可微分最近邻分类器。原型网络[39]首先利用每个类的样本特征的均值来构建原型表示,然后计算查询样本表示与原型表示之间的相似度以进行推理。最近,已经提出了任务相关的自适应度量[32](TADAM)和任务自适应投影网络[50](TapNet)来探索任务相关的度量空间,以增强前几次拍摄模型的性能。基于度量的方法的核心是探索查询样本和支持样本/类之间的关系。受图神经网络(GNN)[14,8,42]在建模点之间的关系和传播信息方面的成功启发,研究人员提出了许多基于图的方法[38,12,28,29,47,27]来进行少量学习任务,并取得了巨大成功。例如,GNN-FSL [38]是第一个构建端到端可训练图神经网络架构以执行少数分类任务的工作。转导传播网络[28](TPN)是第一个使用GNN进行转导推理的网络。它利用封闭形式的解决方案来执行迭代标签传播。边缘标记图神经网络[12](EGNN)利用节点之间的相似性/不相似性来动态更新边缘标签。直推关系-传播图神经网络(TRPN)显式地考虑了支持-查询对之间的关系,并进行了少量学习。最近的分布传播图网络(DPGN)[47]构建了一个对偶图来建模样本的分布级关系然而,现有的基于图的方法忽略了显式地探索类级别的知识,这可能会限制它们的推理能力,如图1所示。3. 方法3.1. 问题陈述如第1节所示,我们利用元学习机制来执行少数分类任务。对于元训练中的每一集,我们从C 训 练(训练数据D训练的类集)中采样N个构建支持和查询集。支持集SD train包含每个类的K个样本(即, N路K拍摄设置),其可以表示为S={ ( x1 , y1 ) , ( x2 , y2 ) , . , ( xN×K ,yN×K )},其中 xi表示第i个样本, yi表示xi的标签。 查询集合包括来自总共N个类的T个样本,其可以表示为Q = Q。{(xN × K+1,yN × K+1),., (xN × K+T,yN ×K+T)}。对于转换设置,我们需要训练一个分类模型,它可以利用N×K个标记的支持样本和T个未标记的查询样本来正确地预测T个查询样本的标签。训练过程是逐集进行的,直到收敛。给定测试数据集Dtest及其对应的类集Ctest,我们以与元训练中类似的方式构建事件(在元测试中)的支持和查询集注意,C train=C test=C。在元测试中,我们利用在元训练中学习的模型来预测查询集示例。预测/分类结果用于评估模型的有效性。符号。 本文中,Xi;m表示矩阵Xi的第m行,Xi;m,n表示位于矩阵Xi的第m行第n列的元素.3.2. 显式类知识传播网络在本节中,我们将介绍提出了显式类知识传播网络(ECKPN)。如图2所示,我们首先利用支持和查询示例来构建实例级图。然后,我们利用比较模块来更新基于实例级图中的成对节点关系的样本表示在本模块中,我们构建了多头关系,以帮助对样本的细粒度关系进行建模,从而学习丰富的样本表示。然后,我们将实例级图压缩为类级图,以显式地探索类级可视化知识。在校正模块中,我们根据类之间的关系执行类级消息传递操作,以更新类级知识表示。由于类的语义词嵌入可以提供丰富的先验知识,我们将其与类级视觉知识相结合,在校准模块的消息传递之前构建多模态类知识表示。最后,课堂知识6599手套GF的g(0)GVV.m,nGgii=1g1K第五章(0)支持视觉嵌入邻接矩阵{A(0)}K比较V(0)类单词{兔子,猫,狮子...}V(L)ii 1F查询推理""Rc c语义嵌入VcZ类级表示消息传递操作校准图2. 我们建议的ECKPN的总体框架。我们在此图中以3路1次分类任务为例。我们的ECKPN由比较,挤压和校准模块组成,可以学习和传播类级知识显式。请注意,我们的比较模块包含L个消息传递层,但为了简单起见,我们只说明了一层。将实例级样本表示与实例级样本表示组合以指导查询样本的推断3.2.1比较模块:实例级消息更充分地了解样本之间的关系,学习更丰富的样本表示。在第l层中,我们利用更新的样本表示V(l)来构造新的邻接矩阵A(l)和A(l)如下:使用多头关系传递gi对于图像i,我们采用深度CNN模型作为骨干A(l)=fg((V(l)−V(l))2),A(l)=fi((V(l)-V(l))2)为了提取其d维视觉特征v(0),∈R d. 在g;m,n m ni;m,ni;mi;n(一)我每一集,我们将支持集和查询集样本视为图G=(V(0),A(0)),其中V(0)是初始节点特征矩阵,A(0)是表示样本关系的初始邻接矩阵集。如[46,51]所示,视觉特征总是包含一些可能导致分组的概念,即,来自同一组的特征尺寸表示相似的知识。 然而,现有的基于图的少数镜头学习其中,V m表示第m个图像的视觉特征,Vi,m表示Vm的第i个块,并且(V)2表示逐元素平方运算。fi:Rd/K→R1和fg:Rd→R1是映射函数。受TRPN [29]最近在少数镜头分类任务中的成功启发,我们利用以下矩阵来屏蔽邻接矩阵:方法通常直接利用全局视觉特征来计算样本的相似度以构造广告,M=−1ifm,n∈Sandym =/yn1例其他情况(二)雅可比矩阵,它不能很好地描述细粒度的关系。在本文中,我们将视觉特征分成K个块(即, V(1)=[V(1),V(1),. V(l)]∈Rr×d)其中,m和n是SQ中的样本,ym是样本m的标签。这确保了,对于来自不同的两个样本特征相似度越高,1 2K并计算每个块中的相似性以探索样本的多头关系(即,K邻接矩阵在信息传递过程中,cess. 对于同一类别的两个样本,A(1),A(1),.,A(l)∈Rr×r),其中r表示结果恰恰相反。1 2K对于每个片段中的样本,[,]表示级联运算,并且l表示矩阵是在第l个图层。注意,每个组块V(l)具有维度-在第l层中,我们利用A(l-1)、V(l-1)和M来生成V(l),如下所示:我V(l)=Tr([K((A(l−1)<$M)V(l−1)),(A(l−1)<$M)V(l−1)])d/K的值。我们还计算了全局关系矩阵A(l)∈ R r×r。i=1i ig(三)我们利用全局(A(l))和多头({A(l)}K)其中,表示级联操作,表示元素乘法运算,Tr表示共同的关系(即, A(1)={A(1),A(1),...,A(l)})以支持─转换函数:R骨干Vf挤压V6600r×2d→R r×d。 我们重复触发实例级图形中的信息以进行更新样本表示。 这样,我们就可以探索将上述消息传递L次,并获得将在挤压模块中使用的新样本特征V(L)。6601CGG- 是的ΣΣG3.2.2挤压模块:班级级视觉知识学习为了获得类级知识表示,我们挤压实例级图以生成类级图,其中节点表示类的可视知识。例如,我们将实例级图中的节点挤压成5个簇/节点,以便获得5路分类器的类的视觉知识边缘表示。类级图的邻接矩阵(Ac)表示类表示之间的关系,其值表示类对的连通性强度。在本文中,我们利用以下等式来计算邻接矩阵A和新的类级知识′′表示VC。′ ′一 PTA P,V任务。具体来说,我们首先利用地面真相来苏-C G′c=Ac Vc W(七)检查分配矩阵的生成,然后挤压其中W∈R是可训练的权重矩阵。在或-根据分配矩阵进行采样,以获得类级知识表示Vc∈Rr1×d,其中为了使每个样本包含相应的类知识,我们利用分配矩阵将类知识映射回实例级图r1表示每集中的类的数目在本文中,我们将V(L)和A(L)输入标准如下所示′′Vr=PVc(8)图神经网络[14]来计算分配矩阵。为简单起见,P∈Rr×r1P=softmax((A(L)M)V(L)W)(4)其中W∈Rd×r1表示可训练的权重矩阵,softmax运算以逐行方式应用分配矩阵P中的每个元素Puv表示原始图中的节点u被分配给类级别图中的节点v在生成分配矩阵P之后,我们利用以下等式来生成初始类级知识表示:Vc=PTV(L)(5)其中T表示转置操作。在类级图中,每个节点特征可以被认为是实例级图中具有相同标签的节点特征的加权和通过这种方式,我们获得了类级的视觉知识表示,这将有助于建模的校准模块中的不同类的关系。3.2.3校正模块:多模态知识由于类词嵌入可以提供视觉内容中可能不包含的信息,我们将它们与生成的类级视觉知识相结合,以构建多模态知识表示。具体来说,我们首先利用GloVe(在具有自监督约束的大型文本语料库上预训练)[33]来获得类标签的d个 一 维 语义嵌入本文使用GloVe的Common Crawl版本更多的细节可以在[33]中找到。在获得单词嵌入后,其中Vr∈ Rr×2d表示细化特征。最后,我们通过级联将Vr与V(L)组合以生成用于查询推理的样本表示Vf。3.3. 推理为了推断查询样本的类标签,我们利用Vf以如下计算相应的邻接矩阵AfAf;m,n=fl((Vf;m-Vf;n)2)(9)其中Vf ;m和Vf;n分别是第m个样本和第n个样本的表示. fl:R3d→R1是一个映射函数. 对于每个查询示例,支持样本的类标签来预测其标签:N×Kyv=softmaxAf;u,v·one-hot(yu)(10)u=1其中独热表示独热编码器。3.4. 损失函数拟议的ECKPN的总体框架可以是通过以下损失函数以端到端的形式进行优化L=λ0L 0+λ 1L 1+λ 2L 2(11)其中λ0、λ1和λ2是实验中设置为1.0、0.5和1.0的超参数。L0、L1和L2分别是邻接损失、分配损失和分类损失。因此,将介绍如下。邻接损失:如第3.2.1节所示,对于每个图网络层l∈ {1,.,在比较模块中,我们有多个邻接矩阵A(l),e i∈R d1 对于第i类,我们使用映射网络{A(l)}K用于支持和查询g:Rd1→Rd将其映射到与视觉知识表示具有相同维度的语义空间zi=g(ei)∈Rd.最后,我们得到多模态类表示如下:′i i=1样品此外,我们有邻接矩阵Af,在3.3节中的查询推理。为了确保这些邻接矩阵能够捕获正确的样本关系,我们使用以下损失函数:Vc=[Vc,Z](6)L=−100(sum(A<$HGt)+sum((1−A<$)H(1−Gt)其中Z∈Rr1×d是语义词嵌入矩阵.这样,我们就可以获得更丰富的课堂知识,0A∈As和(HGt)sum(H(1−Gt))(十二)′′6602...Σ˜2cevv其中={A(1),.,A(L)}{A{A(1),. A(L)}K数据集类图像训练/验证/测试sgg菲i=1sum(n)表示矩阵中所有元素的和。miniImageNet1006000064/16/20H∈Rr×r是查询掩码,Gt∈Rr×r是基tieredImageNet608779165351/97/160真值矩阵定义如下:CIFAR-FS1006000064/16/20嗯,n=零如果m∈S1例其他情况,Gt;m,n=1个如果ym=yn0否则(十三)电话:+86-20 - 2011 - 8888888传真:+86-20表1.四个少拍分类基准点的统计。其中m和n表示图中的节点。分配损失:为了确保在挤压模块(第3.2.2节所示)中计算的分配massP可以正确地聚类具有相同标签的样本,我们使用以下交叉熵损失函数:其中,one-hot([Cs,Cq])表示支持样本和查询样本的基本事实独热类向量分类损失:为了约束所提出的ECKPN可以预测正确的查询标签,我们使用以下损失函数:L=L(y,y)(15)信息函数fi、fg、fl和Tr是具有批归一化和LeakyReLU的单层卷积网络。训练我们在miniImageNet,分层ImageNet,CIFAR-FS和CUB-200-2011上训练我们的模型,用于200 K,200 K,100K和100K迭代。在每次迭代中,我们构建28集用于元训练。 Adam优化器[13]在所有实验中使用初始学习率0.001. 我们将权重衰减设置为1 e-5,每15 K次迭代将评价我们在四个基准上进行了5路1-shot和5-shot的少样本分类实验。我们遵循[47,29]构建10K集其中Lce表示交叉熵损失函数。4. 实验4.1. 数据集MiniImageNet [43]和tieredImageNet [35]是两个来 自 ILSVRC- 12 数 据 集 的 流 行 少 数 基 准 [36] 。miniImageNet包含100个类,每个类600张图片 每个图像都是RGB颜色的尺寸为84×84。tieredImageNet包含从608个类中采样的779165 张 大 小 为 84×84 的 图 像 。 CIFAR-FS [1] 是 从CIFAR-100数据集用于少数镜头分类任务。它包含100个类,总共有60000张图片。每个图像的大小为32×32。CUB-200-2011 [44]是一个用于细粒度分类的中等规模数据集 它有11788大小84×84从200鸟类类别。我们遵循[35,36,1,47,29]中提出的常用的train/val/test设置。这些基准的统计数字载于表1。4.2. 实验装置建筑。我们利用两个流行的骨干(Conv-4 [3,12]和ResNet-12 [9,30,47])来编码in-将图像转换为128维。Conv-4和ResNet- 12都由四个块组成。Conv-4中的每个块都由3×3卷积、一个批量归一化(BN)和一个LeakyReLU激活组成。ResNet-12中的每个残差块包含3个卷积层,大小为3×3。每个卷积层之后是2×2最大池化层。在第四块在将图像馈送到主干之前,我们遵循最近的少量学习方法[5,48,47]来执行数据增强,即,颜色抖动、随机裁剪和水平翻转。注意,映射和transfor-4.3. 分类结果我们比较了建议的分类结果ECKPN与最近的最先进的几次激发方法进行比较,并在表2、3和4中报告了不同主干(Conv-4和ResNet-12)下的5路1次激发和5次激发的分类结果。从这些实验结果中,我们有以下观察结果。(1)与最近的方法相比,所提出的ECKPN实现了最先进的分类结果,在所有四个基准测试的5-shot和1-shot设置,这证明了我们的模型的有效性。特别是对于miniImageNet数据集上的1次拍摄设置,与第二好的方法DPGN相比,配备Conv-4和ResNet-12的所提出的方法分别实现了2.88%和2.71%的改进这些结果证明了在少量分类任务中对类级知识建模的必要性。(2)所提出的方法在1次拍摄设置中比在5次拍摄设置中实现更多的改进。由于5次采样设置中的样本数量大于1次采样设置中的样本数量,因此随着样本数量的增加,最近的基于图的方法可以仅基于样本关系更好地适应新的类,这降低了我们的ECKPN的每单位增益。然而,我们的ECKPN仍然可以在所有四个基准测试的5次拍摄设置下实现0.7%-0.8%的改进。4.4. 半监督分类结果在这一部分中,我们将建议的ECKPN应用于半监督分类任务,以进一步评估其泛化能力。具体来说,我们遵循[12,28]来部分标记具有不同比率的支持样本(即,20%、40%、60%和100%)。标记比例20%表示使用20%标记和80%未标记的支持样品v∈Q在元测试中,并报告以衡量拟议ECKPN的有效性6603方法骨干5路1拍5路-5拍方法骨干5路1拍5路-5拍[43]第四十三话Conv-443号。56±0。8455个。31±0。73[43]第四十三话Conv-454号02±0.00七十。11±0。00ProtoNet [39]Conv-4第四十九章。42±0。7868岁。20±0。66ProtoNet [39]Conv-4五十三31±0。8972. 69±0。74[第41话]Conv-450块44±0。8265岁32±0。70[第41话]Conv-454号48±0。9371岁。32±0。70动态[5]Conv-4五十六20±0。8671岁。94±0。57爬行动物[31]Conv-452. 36±0。2371岁。03±0. 22爬行动物[31]Conv-4第四十九章。97±0。3265岁99±0。58MAML [3]Conv-451. 67±1。81七十。30±0。08MAML [3]Conv-4四十八。70±1。8455个。31±0。73新加坡元[26]Conv-462岁95±0。0379. 34±0。06新加坡元[26]Conv-450块47±1。8764岁03±0.94[第38话]Conv-443号。56±0。8455个。31±0。73[第38话]Conv-450块33±0。3666岁41±0。63主题方案网络[28]Conv-4第五十七章。53±0。9672. 85±0。74主题方案网络[28]Conv-455个。51±0。8669岁86±0。65EGNN [12]Conv-4-八十。15±0。30EGNN [12]Conv-4-76岁。34±0。48[第29话]Conv-459. 26±0。5079. 66±0。45[第29话]Conv-4第五十七章。84±0。5178岁57±0。44民主党国民大会[47]Conv-469岁43±0。4985. 92±0。42民主党国民大会[47]Conv-466岁01±0。3682. 83±0。41ECKPNConv-4七十。45±0。4886岁。74±0。42ECKPNConv-468岁。89±0。3483. 59±0。44wDAE [6]别人68岁。18±0。1683. 09±0. 12LEO [37]别人61岁。76±0。08七十七。59±0。12澳门[22]别人64岁78±0。1181岁。05±0. 13CloserLook [15]别人51. 75±0。8074岁27±0。63LEO [37]别人66岁33±0。0581岁。44±0。09澳门[22]别人62岁05±0.5578岁63±0。06特设工作组[7]别人67岁。69±0。1182. 82±0。13wDAE [6]别人61岁。07±0. 1576岁。75±0。11[19]第十九话ResNet-1265岁81±0。7481岁。75±0。53特设工作组[7]奥尔斯63岁12±0。0878岁40±0。11[第50话]ResNet-1263岁08±0.15八十。26±0。12AFHN [23]别人62岁38±0。7278岁16±0。56DeepEMD [52]ResNet-1271岁。16±0。8786岁。03±0. 58[第48话]ResNet-1262岁96±0。0278岁49±0。02免费射击[34]ResNet-1266岁87±0。4382. 64±0。39TADAM [32]ResNet-1258. 50±0。3076岁。70±0。30民主党国民大会[47]ResNet-12 72. 45±0。5187岁24±0。39[第50话]ResNet-1261岁。65±0。1576岁。36±0。10ECKPNResNet-12七十三。59±0。4588. 13±0。28[53]第五十三话52. 71±0。6468岁。63±0。67[34]第34话59. 04±0. 43七十七。64±0。39ECKPN ResNet-12七十。48±0。3885. 42±0。46表2.miniImageNet上的少量分类准确率(%)90.0085.0080.0075.0070.0065.0060.0055.0050.0020.00 40.00 100.00标签比率(%)图3. miniImageNet上5路5次半监督少次分类准确率(%)在每一集里训练模型我们将提议的ECKPN与最近的GNN-FSL [38],EGNN [12]和配备Conv-4的TRPN [29]进行了我们在图3中显示了5路5次分类的结果。如图所示,所提出的ECPKN在所有标签比率下都取得了比现有方法更好的性能,这证明了捕获类级知识以指导查询样本推理的有效性。GNN-FSL EGNN TRPNECKPN准确度[19]第十九话ResNet-1262岁64±0。6178岁63±0。4633DeepEMD [52]民主党国民大会[47]ResNet-12ResNet-1265岁91±0。8267岁。77±0。3282. 41±0。5684. 60±0。434545蜗牛[30]ResNet-1255个。71±0。9968岁。88±0。92MTL [40]ResNet-1261岁。20±1。80七十五。53±0。806604支持123451212123451234 51234 51234 51234 5表3.tieredImageNet上的少量分类准确率(%)(a)(b)(c)(d)图4. 5路1次设置中支持查询相似性的可视化。(a)(b)和(c)表示比较模块的第一层、第三层和最后一层中的支持样本和查询样本的相似性。(d)表示地面实况支持查询相似性。白色表示高置信度,黑色表示低置信度。4.5. 消融研究在这一部分中,我们进一步通过实验分析了所设计的比较模块、挤压模块、校准模块、多头关系、多模态 类 表 示 等 对 分 类 的 影 响 。 所 有 实 验 都 在miniImageNet上进行,用于5路1次分类任务。比较模块的影响。在比较模块中,我们利用L个消息传递层来更新样本表示。在这一部分中,我们进行了实验,以显示层数的影响。如图5(b)所示,随着层数的增加,分类精度先增加后保持稳定。因此,我们将层数设置为6(即, L=6)。此外,我们在图4中的比较模块的第一层、第三层和最后一层中可视化了支持和查询样本的相似性。如图所示,建议的ECKPN可以更好地表征支持查询相似性,在比较模块中使用更多的消息传递层,这定性地说明了有效性。查询6605′Cub-200-2011[39]第51话:我的世界,我的世界31±0。917077±0。69[41]第四十一章:一个女人45±0。98 76。11±0。69[43]第四十三章:一个女人16±0。89 72.86±0。7055.第五十五章:你是我的92±0。9572. 09±0. 76[24]第二十四话15±0。8481. 90±0。60[15]第六十五章:一个女人53±0。8379. 34±0。61[47]第四十七章:一个女人05±0.518908±0. 38方法Conv-4ResNet-12无校准68.2469.76非类别非Z非自愿ECKPN 68.89表5.挤压模块、校准模块、规则和多模态类知识的建议ECKPN。77.第二次世界大战20±0。3689. 72±0。31[52]第五十二章:一个女人65±0。8388. 69±0。5072.第七十二章00±0。7084.20±0。50[48]第四十八章:一个女人87±0。228290±0。15[47]第四十七章:一个女人71±0。4791. 48±0。33ECKPN ResNet-12七十七。43±0。5492. 21±0。41CIFAR-FS方法骨干5路-1射5路-5射71.0070.0069.0068.0067.0002481632头数(K)(一)74.0072.0070.0068.0066.0064.0062.0060.00ResNet-12012345678层数(L)(b)第(1)款表4.CUB-200-2011和CIFAR-FS上的少量分类准确度(%)所设计的比较模块的有效性。挤压和校准模块的影响。 在本文中,我们设计了挤压和校准模块,显式学习类级知识,以指导查询样本的推理。因此,我们有必要定量评估这两个模块在提高分类精度方面的有效性。我们在表5中列出了None-Calibrate和None-Class的分类结果,其中None-Calibrate表示没有校准模块的模型的变体,即,直接使用在挤压模块中生成的类级知识来指导推理,而非类表示我们的模型的没有挤压和校准模块的变体,即,直接使用比较模块中的成对关系进行推理。与所提出的ECKPN相比,当使用Conv-4和ResNet-12的主干时 , Non-Calibrate 的 分 类 精 度 分 别 降 低 了 0.65% 和0.72%。类似地,当使用Conv-4和ResNet-12的主干时,None类的分类准确率这些结果表明了所设计的挤压和校准模块的有效性。多头关系的影响。为了研究多头关系的影响,我们给出了不同头数的图5. 在miniImageNet上的5路1-shot中,分类结果在不同的头数和层数下(i.e.、K表示用于分离视觉特征的块的数量。在图5(a)中。结果表明,头数对分类结果有明显的影响。为了在准确性和复杂性之间进行权衡,我们在比较模块中建立了用于消息传递的8影响多模态类知识。 为了研究多模态类知识的效果,我们设计了我们的模型的两个变体,None-Z和None-V。前者不使用语义知识来表示模型′Z(即,(6)中的Vc等于Vc),后者表示模型而不使用视觉知识Vc(即,Vc等于Z)。如表5所示,所提出的ECKPN实现了0.3%-0.5%和0.7-0.9%的性能增益通过与None-Z和None-V的比较,说明了构建多模态类级知识的重要性5. 结论在这项工作中,我们提出了一种新的显式类知识传播网络(ECKPN)的转导少镜头分类任务。我们的ECKPN堆叠了三个实验室设计的比较,挤压和校准模块,以明确地探索类级知识。我们利用生成的类级知识表示来指导查询样本的推理,并在四个基准测试中实现了最先进的分类性能,这说明了所提出的ECKPN的有效性。在未来,我们希望扩展我们的模型,用于增量式少量学习。致 谢 。 本 工 作 得 到 了 国 家 重 点 研 究 发 展 计 划( No.2018AAA0100604 ) 、 国 家 自 然 科 学 基 金Conv-4ResNet-12准确度准确度ProtoNet [39]Conv-455个。5±0。772. 0±0。6[第41话]Conv-455个。0±1。069岁3±0。8MAML [3]Conv-458. 9±1。971岁。5±1。0R2D2 [1]Conv-465岁3±0。279. 4±0。1民主党国民大会[47]Conv-476岁。4±0。588. 4±0。4ECKPNConv-4七十七。5±0。489岁1±0。5DeepEMD [52]ResNet-12四十六47±0。863岁22±0。76606(No.61832002,61720106006,62072455,61721004、U1836220、U1705262、61872424)。6607引用[1] LucaBertinetto,Jo aBertinetoF. 菲 利 普 · 亨里克斯S. T或R,还有安德里亚·维达尔迪。元学习与可微封闭形式求解器。在2019年第七届国际学习代表会议上。六、八[2] ThomasElsken , BenediktStaffler , JanHendrikMetzen,and Frank Hutter.用于少量学习的神经架构的元学习。2020年IEEE/CVF计算机视觉和模式识别会议,第12362-12372页,2020年。1[3] Chelsea Finn Pieter Abbeel和Sergey Levine模型不可知元学习,用于深度网络的快速适应。在第34届机器学习集,第1126-1135页,2017年。一、二、六、七、八[4] Chelsea Finn,Kelvin Xu,and Sergey Levine.概率模型不可知的元学习。神经信息处理系统的进展,第9537-9548页,2018年。2[5] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少数镜头视觉学习而不会忘记。2018年IEEE计算机视觉和模式识别会议,第4367- 4375页六、七[6] 斯派罗·吉达里斯和尼科斯·科莫达基斯使用GNN去噪自动编码器生成分类权重,用于少量学习。在IEEE计算机视觉和模式识别会议上,第21-30页,2019年。7[7] 郭一鸾和张艺敏。通过信息最大化的注意权值生成算法。2020年IEEE/CVF计算机视觉和模式识别会议,第13496-13505页一、二、七[8] William L. Hamilton,Rex Ying,and Jure Leskovec.大图上的归纳表示学习。在神经信息处理系统的进展,2017年。二、三[9] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议,第770-778页,2016年。6[10] Jia Yangqing,Evan Shelhamer,Jeff Donahue,SergeyKarayev,Jonat
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功