没有合适的资源?快使用搜索试试~ 我知道了~
连续进化分类器用于少样本类增量学习的研究
12455基于连续进化分类器的ChiZhangg1*,NanSongg1张南,GuoshengLin g1林国胜,YunZhengg2潘潘2,YinghuiXu21新加坡南洋理工大学2阿里巴巴达摩院{chi007,nan001}@ e.ntu.edu.sggslin@ntu.edu.sg,www.example.com{zhengyun.zy,panpan.pp}@ alibaba-inc.com,renji. taobao.com摘要少样本类增量学习(FSCIL)旨在设计机器学习算法,这些算法可以从一些数据点中不断困难在于,来自新类的有限数据不仅导致显著的过拟合问题,而且还加剧了臭名昭著的灾难性遗忘问题。此外,由于训练数据在FSCIL中是按在本页中-因此,我们从两个方面解决FSCIL问题首先,我们采用了一种简单有效的表示和分类器的解耦学习策略,在每次增量会话中只更新分类器,避免了表示中的知识遗忘。通过这样做,我们证明了预训练的骨干加上非参数类均值分类器可以击败最先进的方法。其次,为了使在单独会话上学习的分类器适用于所有类,我们提出了一种连续进化分类器(CEC),该分类器采用图模型来传播分类器之间的上下文信息为了实现CEC的学习,我们设计了一个伪增量学习范式,该范式通过从基础数据集中采样数据来逐段构造伪增量学习任务以在CIFAR 100、miniImageNet和Caltech-USCDBirds-200-2011(CUB 200)三个流行的基准数据集上的实验表明,该方法的性能明显优于基准数据集,并具有显著的优势。1. 介绍深度卷积神经网络在许多计算机视觉任务中取得了显著的成功[10,19,*表示平等贡献。†通讯作者:G. Lin(电子邮件:gslin@ntu.edu.sg)图1:我们提出的持续进化的分类器的说明FSCIL。我们采用一个图模型来适应学习的分类器权重在各个阶段对所有类别进行预测22,38,55],源于大型策划数据集的可用性,以及前所未有的计算能力。然而,通过监督学习训练的分类模型只能对一组预定义的图像类别进行预测。 如果我们想在新类上扩展训练好的模型,则需要大量新类的标记数据以及旧类的数据来进行网络微调,这不可避免地阻碍了其实际应用。如果旧类的数据集不再可用,直接用新类微调部署的模型可能会导致臭名昭著的灾难性遗忘问题,即关于旧类的知识很快就会被遗忘[11,17,34]。与机器学习系统相比,人类可以很容易地用很少的例子学习新概念,而不会忘记旧知识。人类和机器学习算法之间的差距激发了人们对少数类增量学习(FSCIL)[39]的兴趣,该算法旨在设计可以不断扩展到只有几个数据点的新类的FSCIL的挑战在于,新类数据的稀缺不仅会导致严重的过拟合,而且会加剧旧类的灾难性遗忘问题。本文承担了小样本增量学习的任务,从两个方面考虑解决上述问题。CEC…………FC 0……FC 1FC 2FC I12456首先,由于基类和新类的数据严重不平衡,我们建议将FSCIL问题的表示和分类器的学习解耦。具体来说,该模型只在第一个会话中学习表示,其中来自基类的丰富数据可用,并且在新会话中,我们修复网络骨干,并且只为新类调整分类器因此,我们可以避免过拟合问题以及灾难性的遗忘问题的表示。通过这样做,我们证明了基于基类数据加上类均值分类器的预训练网络骨干可以击败最先进的方法。第二,由于分类器总是从各个增量会话中的类中学习,因此它们只能提供用于分类内部类别的判别信息,而增量学习的目的是学习可以适用于所有类的模型。因此,即使一个分类器可以学习一个良好分离的决策边界为以前的类,它可能会失去泛化能力时,更多的新类。例如,分类器选择与车辆相关的表示轮作为区分表示,以区分当前分类任务中的类别汽车、狗和杯子然而,当新会话中涉及新类别主干因此,增量学习算法应该具有基于总体任务上下文来调整先前会话中的分类器的灵活性,以承担整个分类任务。为此,我们提出了一个不断进化的分类器(CEC),可以逐步适应分类器的权重,根据当前和历史任务。我们网络的核心是一个分类器自适应模块,它使用图注意力网络(GAT)[41]来适应每个任务上学习的分类器权重。通过将个体分类器权重置于全局任务的上下文中,自适应分类器突出骨干中的区分性表示,并在所有涉及的类上生成更好的决策边界。为了使所提出的持续进化分类器能够学习,重要的是在增量学习场景下然而,在增量学习中,来自不同训练集的数据集永远不能同时访问以进行训练。为了克服这个问题,我们提出了一种伪增量学习范式,在这种范式中,我们从基本会话中的数据集中逐段地构造伪增量学习任务,以模拟用于训练的增量学习场景。我们的设计灵感来自Meta学习范式[42]。在每个伪增量学习阶段,我们首先从基础数据集中抽取一组类来扮演基础类的角色,然后抽取另一组类来扮演增量类的角色来学习模型。然而,作为受过训练的主干已经学习了可以很好地对基本类进行分类的特征表示,直接使用来自基本数据集的采样类进行学习可能绕过GAT,从而无法施加上下文知识。我们解决这个问题,随机旋转采样的伪增量类与一个大的角度合成新的类。通过这种方式,我们有意地在训练时合成unfamiliar类,以加强图模型中的上下文一旦学习了图模型,我们就可以使用图模型来更新在增量会话中学习的为了验证该方法的有效性,我们在多个基准数据集上进行了综合实验这项工作的贡献概述如下:• 在表示学习和分类器学习中采用解耦的训练策略,以避免知识遗忘和骨干中的过拟合。• 我们提出了一个不断发展的分类器,employs一个图模型,结合分类器学习的增量学习个别会话。• 为了使CEC中的图模型的学习,我们设计了一个伪增量学习范式。• 在CIFAR 100,CUB 200和mini-Imagenet数据集上的实验表明,我们的方法显着优于基线,并设置了新的最先进的性能具有显着的优势。2. 相关工作少拍学习 少镜头学习旨在学习一种模型,该模型可以在仅从稀缺的标记训练示例中训练时对未见过的图像进行分类[5,48]。关于少镜头学习的研究文献表现出很大的多样性。基于优化的方法[8,16,24,28,29,36,37,50]和基于度量的方法[9,12,35,42,46,47,51,52]是两条主要的努力路线。基于优化的方法旨在设计有效的学习范式,使有限的数据能够快速适应网络[8,16,28,29,37]。我们的工作与基于度量的方法更相关,其中使用预训练的主干来编码数据,并且使用距离 度 量 , 例 如 负 L2 距 离 [35] , 余 弦 相 似 性 [42] 和DeepEMD [51,52]来测量数据相似性并计算分数。Chen等人[5]提出了一个用于少数镜头分类的基线,该基线首先基于来自可见类的数据预训练骨干,并且仅微调新类的分类器,这与我们的解耦训练策略相似除了图像分类之外,少量学习也被应用于密集预测任务[6,21,23,53,54]和对象检测[45]。增量学习。增量学习(IL)是一种主动的机器学习任务,旨在不断学习新知识而不会忘记[3,4,7,25]。最近12457DD火车火车火车火车火车测试火车火车火车D型号,使用的数据集可学习参数培训前阶段伪增量学习阶段分类器学习和适应阶段…...关于我们{Y , Y}{Y���,Y,���阶段1阶段2阶段3图2:我们的少拍增量学习框架主要包括三个阶段:(1)特征预训练阶段学习骨干模型R使用基本会话D0中的训练数据,(2)伪增量学习阶段,通过采样伪增量来训练图模型Gθ以及(3)在新会话使用少量训练数据Di作品分为两个主流,多类增量-0火车1火车 ,···,Dn}表示训练集tal learning [2,13,15,26,30,49]和不同学习会话的多任务增加,以及相应的标签心理学习[14,20,32]。 IL使用数据集Di表示为Ci。不同数据集知识蒸馏[30,44]将知识从旧模型转移到新模型。iCaRL [30]学习最接近的-没有重叠的类,即,i,j和i在第i次学习环节,只有Dij,Ci=Cj=0。可用于邻居分类器与样本,以保持性能,并结合蒸馏损失,以避免遗忘。EEIL [2]引入了一个具有交叉熵损失的端到端框架网络训练,并且为了评估,会话i处的测试数据集Dn包括来自所有先前和当前类的测试数据,即,C0<$C1·· ·<$Cn的标号空间。通常和蒸馏损失。LUCIR [13]学习一个统一的类-训练集D0在第一届会议上,sifier来解决基类和新类之间的类不平衡问题Liu等[26]建议通过模型级和样本级的两级优化进行记忆数据集,其中有足够数量的数据可用于训练,也称为基本训练集。相反,所有后续会话中的数据集只有一个解决多类增量学习的水平。有限的数据量,数据集D是在特定少镜头类增量学习。 FSCIL [1,31,39,56]是最近提出的,其目标是在增量会话中利用有限的数据进行CIL任务。它也可以被看作是一个少量的学习任务,可以同时对新类和旧类进行分类。 Tao等人[39]提出一种神经气体网络,以保留FS- CIL任务的基类和新类中的特征拓扑。Ren等[31]也承担了少量的增量学习任务,但设置不同。我们的工作主要遵循[39]中提出的任务定义,该定义更接近增量学习文献中的设置3. 问题设置FSCIL的目标是设计一种机器学习算法,可以从几个新的训练样本中不断学习新的类,而不会忘记旧类的知识。通常,FSCIL有几个学习课程,依次进行。一旦模型的学习进入下一个会话,先前学习会话中的训练数据集就不再可用,而每个会话中FSCIL算法的评估涉及所有先前会话和当前会话中的类。具体来说会话通常被描述为N路K次训练集,其中数据集中有N个类,每个类有K个训练图像。例如,在流行的基准数据集CIFAR100中,基础会话中有60个类,每个类有500个训练图像,而在每个增量会话中,只有5个类可用于训练,每个类只有5个图像。FSCIL定义了一个苛刻的问题设置,其中严重的数据不平衡和稀缺问题将进一步加剧增量学习中的知识遗忘。4. 方法在本节中,我们将介绍我们的少量增量学习框架我们首先在第4.1节中描述我们的表示和分类器的解耦训练策略。然后,我们在4.2节中提出了我们提出的持续进化分类器。为了实现CEC的学习,我们设计了一个伪增量学习算法,在第4.3节中描述。整个训练管道的概述如图所示。二、D让{D,D12458我我0 0i iIJH4.1. 分离表示和分类器我们的少量增量学习框架主要包括三个训练阶段:特征预训练阶段、伪增量学习阶段和分类器学习阶段,如图2所示。 前两个阶段使用来自基本会话的数据来学习网络骨干和分类器自适应模块,并且分类器学习阶段仅在每个新的传入会话中学习网络分类器特征预训练阶段。 在以前的增量学习文献中普遍证明,在新的会话中微调网络可以导致重要的知识,分类器学习结合了先前会话中所有单独任务的全局上下文信息。为了实现这一目标,我们提出了一个不断发展的分类器,其中包括一个分类器自适应模块,以更新classi- fier权重的基础上,以前的会话的全局上下文在每个单独的会话学习令Wi∈ RNi× C表示在会话i上学习的CNN分类器中的参数矩阵,其中W i中的每个r w向量w→c是对应于特定类c的权重,Ni是会话i中的类的数量,C是特征通道的数量。w→c可以被看作是类别c的原型向量,其中不同维度的值基本上指示不同信道的可辨别性。为了改善分类器r的可区分性,我们可以通过以下方式调整w→c中的值:忘记了旧的阶级。ii中的数据短缺问题少量增量学习将进一步引入加剧知识遗忘的过拟合问题。为了解决这个问题,我们建议将表示和分类器的学习解耦,以避免在增量阶段出现灾难性的遗忘问题。具体来说,我们首先以标准的方式在基础会话中使用训练数据集训练卷积神经网络,其中大量数据可用于学习图像表示,然后我们可以重用网络主干来编码所有会话中的图像数据。通过冻结新会话中的骨干参数,我们可以避免在新会话上学习模型时知识遗忘和伪增量学习阶段。基于预训练的骨干模型,我们学习分类器自适应模块以启用CEC的功能,CEC也是基于基础数据集的。适配模块被冻结了在训练之后,用于更新在各个会话上学习的分类器我们将分类器自适应模块和训练范例的详细描述留在4.2节和4.3节中。分类器学习阶段。一旦在基本会话中学习了特征主干和图模型,我们的模型就可以部署用于增量学习。我们只需要在新会话中利用数据集学习固定骨干网络上的分类器,然后将当前会话和先前会话中学习的分类器馈送到图模型以进行适配。最后,更新后的分类器可用于评估。4.2. 持续进化分类器由于图像类别在增量学习任务中是随组而来的,因此在个体会话上学习的分类器可能仅提供当前类别之间的区分性决策边界。当所有先前的类都被卷入评估时,直接连接的分类器不能保证其区分能力,并且可能失败看看所有其他类的w→i。要做到这一点,我们首先要-选择前面的所有其他类的权重向量会议:W→ I={w→1,w→2,., w→1,w→2,...,w→N1},(1)其中I是到目前为止的会话总数。然后,我们使用图注意力网络(GAT)[41]来建模这些原型向量之间的关系,并传播联系。te xt信息,其中WeI中的所有权重向量可以是被视为图模型中的节点。图注意力网络具有几个理想的特性,使其成为编码上下文信息的合适工具:首先,由于图节点的更新是基于注意力机制的,因此上下文编码在增量学习期间对类序列是置换不变的。其次,GAT模型允许训练的模型扩展到任意数量的类,这意味着在任何会话中的分类器的更新可以共享相同的学习的GAT。由于GAT模型中的节点是完全连接的,因此它具有与Transformer [40]类似的结构,也使用自注意力进行信息传播。为了说明GAT中的上下文传播过程,我们以图中节点j的更新为例。我们首先计算节点j和图中所有节点之间的关系系数ejk,例如w→j和w→k:ejk=θφ(w→j),θ(w→k)θ,(2)其中,φ和θ是将原始原型表示投影到新的度量空间的线性变换函数。是计算两个向量之间的内积的相似度函数。这里为了清楚起见,我们省略了下标w→j和w→k中的会话索引。然后,我们使用softmax函数对所有系数进行归一化,以获得对应于中心节点j的最终注意力权重:做出正确的决定因此,要在所有类上获得良好的决策边界,重要的是要确保ajk=softmax(ejkexp(ejk))=|W|.(三)经验h=112459火车火车火车火车火车我我B我B我Σ我00我我算法1伪增量学习。Ni是伪增量类中的类的数量;yq和yq分别表示基础真值标签和网络预测;L(·)是交叉熵损失函数。输入: 基类数据集D0,预训练模型R,随机初始化的GAT模型Gθ。输出:训练的GAT模型Gθ。1:不做就做2:{Sb,Qb} ←从D0开始4.3. 伪增量学习为了在分类器自适应模块中实施上下文编码,重要的是在增量学习场景下学习GAT。然而,在FSCIL中,只有来自单个会话的数据可用于训练,并且增量会话中的数据量总是有限的。为了克服这个问题,我们设计了一个伪增量学习算法来训练适应模块,通过基于基础数据集D0的偶发性构造伪增量任务来模拟测试场景。伪3:Wb←学习FC layer uponR withSb4: {Si,Qi} ←对伪增量类的支持和查询集进行采样D05:对于Ni中的类c,6:γ←{90°,180°,270°}中的随机选择角度;7:{S′,Q′}←从类c旋转{S,Q },该算法的代码在Alg. 1.一、我们的算法从元学习中获得灵感[42],其中构建了一个小的分类任务,以实现超越特定任务的元级别学习。我们利用来自基础数据集D0的数据来构造小的增量,我我我选择角度γ;8:结束9: Wi←使用伪增量学习FC layer uponR旋转后精神支持装置S′10:{W′,W′}←使用Gθ更新分类器{Wb,Wi}用于网络训练会话学习任务,其中一些采样类在增量学习中扮演基类的角色具体地,伪增量类和伪基类都具有分别由(S,Q)和(S,Q)表示bibbibii十一日:yˆq← {Qb,Q′}的最大预测使用[R,(W′,W′)]支持集用于学习不同类的分类器权重,查询集用于计算损失以进行优化。具体来说,我们首先使用支持12:loss←用L(yq,y<$q)计算损失,13:使用SGD优化Gθ14:结束时集合(Sb和Si)来学习两个分类器(W′和W′),用于伪基类和伪增量类检索。然后,将两个分类器连接起来,被馈送到自适应模块Gθ中用于更新。我们使用更新后的分类器(W′,W′)来预测b我基于归一化的注意力系数ajk,我们基于jk聚合来自图中所有节点的信息,并将其与原始节点表示融合以获得w→j′:. |WI|Σw→j′=w→j+ajkUw→k,(4)k=1其中U是线性变换的权重矩阵。我们重复上面的操作来更新图中所有节点的嵌入,最后我们得到更新后的分类器:W′={w→1′,w→2′,., w→1′,w→2′,...,w→NI′},(5)在每个传入会话中,我们使用自适应模块来更新在当前会话和先前会话中学习的分类器,然后连接更新的分类器以对所有类进行预测。可以采用许多有用的实践来改善知识传播,例如多头注意力[40,41],层规范化[40]和dropout [40]。我们还遵循[47],将网络输入嵌入到图中,以帮助学习上下文知识。伪基类和伪增量类的查询集类,即,Qb和Qi,并计算损失以优化自适应模块Gθ。我们还在PIL期间以较小的学习率微调了主干的最后一层在我们的实验中,我们发现直接将采样的基类分成两组来训练适应模块失败了。一个可能的原因是,在基类上预训练的骨干模型可以很好地分离这些采样类,而无需上下文信息。因此,训练可以简单地绕过自适应模块。为了处理这个问题,我们以大的类角度γ随机旋转采样的伪增量类(Si,Qi)的数据以合成新的类,因为我们观察到以大角度旋转数据可以使合成的图像丢失其原始类的部分语义,但是在合成的图像之间表现出相似的语义。一旦适应模块被学习,我们就可以冻结适应模块中的参数并将其部署到新的增量会话中。5. 实验在本节中,我们在三个流行的少量增量学习基准数据集上评估我们提出的CEC,12460测试解耦方法是每 次治疗的PIL Acc.(%)↑PD ↓表1:CUB 200上的消融研究,以分析我们模型中不同组件的有效性。AM是自适应模块,PIL是伪增量学习,PD表示性能下降率。包 括 CIFAR 100 [18] , miniImageNet [33] 和 Caltech-UCSD Birds-200-2011(CUB 200)[43]。我们首先介绍实验细节和数据集统计。然后进行了综合实验,验证了设计中各个组件的有效性,并研究了它们的特性。最后,我们将我们的网络与基准测试中最先进的方法进行了比较。020406080100020 40 6080100020406080100020 4060 801001.00.80.60.40.20.0预测类(a) 无自适应模块预测类(b) 带适配模块5.1. 数据集CIFAR 100。CIFAR100是一个分类数据集,包含来自100个类别的60,000个32×32RGB图像。每个类包含500个训练图像和100个测试图像。我们遵循[39]中的拆分,其中60个类和40个类分别用作基类和新类。40个新类被进一步划分为8个新的增量会话,每个新会话是一个5路5镜头分类任务。迷你ImageNet。miniImageNet包含100个类,每个类中有600个图像,这些图像是基于ImageNet数据集构建的[33]。MiniImageNet的图像大小为84×84,图3:CI-FAR 100上有和没有自适应模块的混淆矩阵。我们使用红线来分隔基类和增量类的区域。我们的自适应模块有效地改善了网络预测,从而产生了更少分散的混淆矩阵。优化的动力。在伪增量-在学习阶段,我们随机选择角度γ,{90,180,270}合成新职业。我们训练图模型Gθ5000次迭代,学习率为0.0002. 学习率每1000次迭代衰减0.5随机裁剪、随机缩放和随机水平翻转用于训练时的数据增强。评价方案。我们评估模型后,每个我们遵循[39]将100个类拆分为60个基类与测试集Di的会话并报告Top 1准确度。40个增量类。 40个新班级更进一步平均分为8个会话,每个会话中有5个类,每个类在增量会话中有5个训练图像Caltech-UCSD Birds-200-2011. CUB200 [43]最初被提出用于细粒度图像分类。 它包含来自200个类别的11,788张图像。我们遵循[39]中的划分,即200个类分别被划分为100个基类和100个新类。 这100个新的类被进一步划分为10个新的会话,每个会话是一个10路5次任务。CUB200中的图像大小为224×224。5.2. 实现细节在[39]之后,我们使用ResNet20 [10]作为CIFAR100实验的骨干,使用ResNet18 [10]作为miniImageNet和CUB200实验的骨干。我们的网络是用PyTorch库构建的,我们使用SGD,我们还定义了一个性能下降率(PD),它可以测量在最后一个会话中相对于在第一阶段中的准确性,即, PD = A0−AN,其中A0是基本会话中的分类准确度,AN是最后一个会话中的准确度。5.3. 分析在这一部分中,我们通过各种实验来评估算法的有效性,并研究了不同组件的特性。为了分析,我们主要报告CUB200数据集的结果,其他数据集留在第5.4节和我们的补充材料中。消融研究。首先,我们对CUB200数据集进行了一个全面的分析,以观察我们模型中不同组件的有效性。我们首先考虑四种分类器,包括CNN中的香草线性分类器,余弦分类器[42],L2分类器[35]和DeepEMD分类器[52],其中真正的类真正的类012345678910线性71.022.700.630.820.760.710.660.620.590.560.5370.49线性C71.027.225.253.596.136.467.735.874.553.883.9267.10余弦73.3235.5314.641.470.730.682.450.600.570.550.5272.80余弦C74.3648.5043.4039.2637.2933.6933.3632.4931.8131.1930.3644.00线性+数据初始化C66.5859.3854.2950.0046.3443.1840.4338.0035.8534.5532.7633.83L2+数据初始化C67.7559.1156.0551.7551.3947.1946.9745.0142.7742.9441.6226.13DeepEMD+数据初始化C75.3570.6966.6862.3459.7656.5454.6152.5250.7349.2047.6027.75余弦+数据初始化C75.5270.9566.4661.2060.8656.8855.4053.4951.9450.9349.3126.21余弦+数据初始化CC75.6071.0066.8961.8160.8656.8156.1153.5952.5250.5949.1526.45余弦+数据初始化CCC75.8571.9468.5063.5062.4358.2757.7355.8154.8353.5252.2823.5712461(a) 基本会话:5类(b)增量会话:5+4类图四: t-SNE [27]数据嵌入和分类器平均值 acc. ↑(%)(b)方案司。 ↓(%)在适配模块之前和之后的权重。不同颜色表示来自不同类的数据点。蓝色十字表示自适应之前的分类器权重。三角形表示自适应后的权重。红色箭头显示自适应模块引起的权重变化。我们的自适应模块将分类器权重从混淆区域移开,并生成更好的决策边界。521镜头515投5010杆494815杆4720发46图5:伪增量学习的不同方法和镜头的比较。我们报告了CUB200数据集上最后一次增量会话的准确性[43]以进行比较。大的方式和低杆是首选的适应模块的学习。它们的主要区别是在给定每个类的原型的情况下计算类分数的度量。在新的增量ses- sions中,分类器以0.1的学习率学习100个epochs。我们还尝试使用数据嵌入来对分类器权重进行参数化,其中每个类的权重向量由训练集中的平均数据嵌入初始化,这由Data Init表示。我们逐步涉及我们的设计,以观察它们对性能的影响,包括解耦训练方案(Decoupled),适应模块(AM)和伪增量学习范式(PIL)。当我们的自适应模块没有使用伪增量学习进行训练时,我们采用元学习[42]来学习图中的参数结果示于表1中。对于余弦分类器和线性分类器,解耦表示学习和分类器学习有助于避免灾难性遗忘问题,性能下降率分别降低28.81%和3.39%。使用数据嵌入来初始化分类器权重是ben-图6:伪增量学习的不同旋转度的比较。我们测试的角度包括180度,±90度,±45度,±20度,±10度和±5度。我们报告了所有会话的平均准确度和CUB200数据集上的每次丢弃(PD)进行比较。大的旋转角度,如180度和±90度,对类合成更有帮助。适用于所有分类器。当同时采用解耦训练策略和数据初始化时,四种分类器都能取得较好的性能,其中余弦分类器的性能最好。在没有进一步说明的情况下,我们在其余的实验中使用使用元学习来学习适应模块未能提高性能。当我们提出的PIL学习自适应模块时,它可以将所有会话的性能提高3.13%,并可以将性能下降率降低2.87%。混淆矩阵。为了进一步观察自适应模块中的行为,我们在图3中绘制了由具有和不具有自适应模块的模型生成的混淆矩阵。正如我们所看到的,没有自适应的分类器生成了一个令人困惑的矩阵,特别是对于增量类(预测分布更分散,因此更暗)。相比之下,我们的自适应模块可以有效地改善预测,其中值更多地位于指示地面真实的对角线中。适应的可视化。我们在图中用t-SNE[27]四、我们从CIFAR100数据集中随机选择五个类可以看出,自适应模块将分类器权重从混淆区域移开,以在涉及新类时生成更好的决策边界。伪增量学习分析。接下来,我们将研究伪增量学习方案中的配置特别地,我们将查询数量固定为10,并分析了伪增量学习过程中方式,镜头和旋转角度的影响我们为伪基类和伪增量类设置了相同比较结果如图5所示。我们从{1,5,10,15,20}中选择路数,从{1,5,10,15,20}的射击数。我们发现一个可靠的-24.041418222624.6660.5854.754.9525456586060.8360.74上次会话准确度(%)23.9346.2151.0251.6352.2852.0845.8151.6251.8952.1551.9046.4751.4351.7251.7951.6746.3251.3151.7451.5751.6746.3751.3851.5251.6951.5512462百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十00 1 2 3 4 5 6 7 8届会议(a) CIFAR100-Resnet20百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十00 1 2 3 4 5 6 7 8届会议(b) miniImageNet-Resnet18百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十0012345678910届会议(c) CUB200-Resnet18Ft-CNNiCaRL系统电子标签NCM话题去耦合余弦解耦DeepEMD我们图7:在三个基准上与最先进的技术进行比较:(a)CIFAR100(b)miniImageNet和(c)CUB200。我们的方法优于以前的作品具有显着的性能优势。请参阅表2和我们的补充材料了解详细数字。每次治疗的方法Acc.(%)↑PD↓我们的相对我们的实施。表2:与CUB200数据集上最新技术水平的比较。* 表示从TOPIC [39]复制的结果。有关其他数据集的详细结果,请参阅我们的补充材料。以较大的进路和较小的炮孔为宜,进路为15,炮孔为1时效果最佳。然后,我们固定的方式和镜头,并探讨了旋转度的类合成在PIL。 我们选择不同的旋转度进行比较,并在图6中给出了它们的结果。 我们测试的角度包括180度,±90度,±45度,±20μ m、±10μ m和±5μ m。正如我们所看到的,大角度,如180度、90度和−90度(270度)对于类合成更有效下降速率。当旋转度较小时,合成类可能会与原始类混淆,从而产生较差的结果。当三个大的度,即,{180<$,90<$,−90<$(270<$)}被随机选择用于训练,它以最高的平均准确度61生成最佳结果。33%,最低下降率为23. 百分之五十七5.4. 与最先进方法的比较最后,我们比较了我们的性能与国家的最先进的结果在三个基准:CIFAR 100,miniIma-genet,和CUB200。我们在图7中显示了结果,在表2中显示了CUB200的详细数字(请参阅我们的补充材料以了解其他数据集的结果)。我们的模型在所有会话中具有最高的平均准确率和最低的性能下降率。特别是,我们的PD在CIFAR100上的表现优于最先进的结果10.80%,在miniImageNet上为12.52%,在CUB200。6. 结论本文从两个方面解决了小样本增量学习问题。我们首先采用一种解耦的学习策略来分离表示和分类器的学习,有效地避免了骨干中的知识遗忘。然后,我们提出了一个持续进化的分类器,用于少量增量学习,它采用了一个自适应模块,根据所有会话的全局上下文更新分类器权重。为了使适应模块的学习,我们提出了一个伪增量学习范式。在三个数据集上的实验表明,我们的方法显着优于基线和国家的最先进的方法。确认这项工作得到了阿里巴巴集团通过阿里巴巴创新研究(AIR)计划和阿里巴巴-南洋理工大学新加坡联合研究院(JRI)的支持。这项研究也得到了新加坡国家研究基金会在其AI新加坡计划(AISG奖号:AISG-RP-2018-003)下的支持,以及MoE Tier-1项研究补助金:RG 28/18(S)、RG 22/19(S)和RG 95/20。精度精度精度012345678910改进Ft-CNN68.6843.725.0517.7218.0816.9515.110.68.938.938.4760.21+36.64iCaRL*[30]68.6852.6548.6144.1636.6229.5227.8326.2624.0123.8921.1647.52+23.95EEIL*[2]68.6853.6347.9144.236.327.4625.9324.723.9524.1322.1146.57+23.00NCM*[13]68.6857.1244.2128.7826.7125.6624.6221.5220.1220.0619.8748.81+25.24主题[39]68.6862.4954.8149.9945.2541.438.3535.3632.2228.3126.2842.40+18.83[42]第四十二话75.5270.9566.4661.2060.8656.8855.4053.4951.9450.9349.3126.21+2.64[52]第五十二话75.3570.6966.6862.3459.7656.5454.6152.5250.7349.2047.6027.75+4.18CEC(我们的)75.8571.9468.5063.562.4358.2757.7355.8154.8353.5252.2823.5712463引用[1] Ali Ayub和Alan R Wagner。认知启发的增量学习模型使用几个例子。在IEEE/CVF计算机视觉和模式识别研讨会会议上,第222-223页,2020年。3[2] 弗朗西斯科·M·卡斯特罗,M·努埃尔·J·马林·吉姆·埃内兹,尼科·拉·吉尔,科迪莉亚·施密德和卡尔蒂克·阿拉哈里。端到端的增量学习。《欧洲计算机视觉会议论文集》,第233-248页,2018年三,八[3] 阿尔斯兰·乔杜里、马克有效的终身学习与宝石。2019年,在ICLR。2[4] 陈宏仁、郑安杰、朱大成、魏伟、孙敏。通过实例感知参数化减轻在线持续学习中的遗忘神经信息处理系统的进展,33,2020。2[5] Wei-Yu Chen,Yen-Cheng Liu,Zsolt Kira,Yu-ChiangFrank Wang,and Jia-Bin Huang.仔细看看几杆分类。在2019年的学习代表国际会议2[6] Xiaoyu Chen,Chi Zhang,Guosheng Lin,and Jing Han.基于多视角比较的组合原型网络用于少镜头点云语义分割。arXiv预印本arXiv:2012.14255,2020。2[7] 普里特维拉吉·达尔、拉杰特·维克拉姆·辛格、彭冠川、吴紫燕、拉玛·切拉帕。学习而不记笔记。在IEEE计算机视觉和模式识别会议论文集,第5138-5146页2[8] Chelsea Finn Pieter Abbeel和Sergey Levine模型不可知元学习,用于深度网络的快速适应。在ICML,2017年。2[9] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少数镜头视觉学习而不会忘记。在IEEE计算机视觉和模式识别会议论文集,第4367-4375页,2018年。2[10] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集,第770-778页,2016年。第1、6条[11] 杰弗里·EHinton,Oriol Vinyals,and Jeffrey Dean.在神经网络中提取知识。arXiv,1503.02531,2015年。1[12] 侯瑞兵,洪昌,马冰鹏,Shiguang Shan,陈西林。交叉注意力网络用于少数镜头分类。神经信息处理系统的进展,第4003-4014页,2019年。2[13] 侯赛辉、潘新宇、陈昌来、王子磊、林大华。通过重新平衡增量式学习统一分类器在IEEE计算机视觉和模式识别集,第831三,八[14] 胡文鹏,周林,刘兵,陶重阳,陶正伟,马锦文,赵东燕,严瑞.通过模型自适应克服灾难性遗忘。2019年,在ICLR。3[15] 胡新亭、唐凯华、苗春燕、华贤生、张汉王。提取类内数据的因果效应渐进式学习arXiv预印本arXiv:2103.01737,2021。3[16] 穆罕默德·阿卜杜拉·贾迈勒和齐国军。任务不可知的元学习用于少量学习。在IEEE计算机视觉和模式识别会议(CVPR)中,2019年6月。2[17] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness , Guillaume Desjardins , Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘美国国家科学院院刊,114(13):3521-3526,2017。1[18] 亚历克斯·克里热夫斯基从微小图像中学习多层特征。多伦多大学,2009年。6[19] GuankaiLi , ChiZhang , andGuoshengLin.Cyclesegnet:具有循环细化和区域对应的对象共分割。arXiv预印本arXiv:2101.01308,2021。1[20] 李志忠和德里克·霍伊姆。学而不忘。IEEE transactionson pattern analysis and machine intelligence,40(12):2935-2947,2017。3[21] 刘炳浩,丁耀,焦俊晖,季向阳,叶七香.用于少量语义分割的抗锯齿语义重建。IEEE/CVF计算机视觉和模式识别会议(CVPR),2021年6月。2[22] Weide Liu , Chi Zhang , Guosheng Lin , Tzu-YiHUNG,and Chunyan Miao.基于最大二部图匹配的弱监督分割。第28届ACM国际多媒体会议论文集
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功