没有合适的资源?快使用搜索试试~ 我知道了~
12183少镜头类增量学习陶晓宇1、洪晓鹏1、3 *、常新元2、董松林1、邢伟2、龚义红21西安交通大学电子与信息工程学院2西安交通大学软件学院3彭程实验室人工智能研究中心txy666793@stu.xjtu.edu.cn,www.example.com,hongxiaopeng@mail.xjtu.edu.cn,cxy19960919@stu.xjtu.edu.cn,dsl972731417@stu.xjtu.edu.cn,xingxjtu@gmail.com,ygong@mail.xjtu.edu.cn摘要增量学习新类的能力对于开发真实世界的人工智能系统至关重要。在本文中,我们专注于一个具有挑战性的,但实用的少镜头类增量学习(FSCIL)的问题。FSCIL要求CNN模型从很少的标记样本中增量学习新的类,而不会忘记以前学习的类。为了解决这个问题,我们使用神经气体(NG)网络来表示知识,该网络可以学习和保存由不同类别形成的特征流形的拓扑结构。在此基础上,我们提出了拓扑保持知识增量(TOPIC)框架。TOPIC通过稳定NG的拓扑结构来减轻对旧类的遗忘,并通过增长NG并使其适应新的训练样本来改善对少量新类的表示学习。综合实验结果表明,我们提出的方法显着优于其他国家的最先进的类增量学习方法CIFAR100,迷你ImageNet和CUB200数据集。1. 介绍卷积神经网络(CNN)已被广泛应用于各种计算机视觉任务[17,11,34,4,22,25,45,19]。为了实际使用,我们在大规模图像数据集上训练CNN模型[5],然后在智能代理上部署它们由于智能代理经常暴露在一个新的和动态的环境中,因此迫切需要不断调整模型以识别新出现的类。例如,智能手机上的智能相册功能被设计为将用户照片自动分类为预定义的类别和用户定义的类别。支撑智能相册的模型在预定义类的训练集上进行预训练,并且需要*通讯作者(a)(b)第(1)款图1. 两种刻画异质流形方法的比较。(a)随机抽样的代表,这是传统的CIL研究所采用的知识蒸馏。(b) 代表学习神经气体,这很好地保存了流形的拓扑结构。通过学习新照片来适应新的用户定义的类从用户的角度来看,他们只愿意为新类注释非常少的图像示例,因为标记过程消耗人力。因此,CNN能够从很少的训练样本中增量学习新的类是至关重要的。我们将这种能力称为少量类增量学习(FSCIL)。FSCIL的一种简单方法是在新的类训练集上微调基本然而,使用有限数量的训练样本进行简单的微调会导致两个严重的问题:一个是最近,有许多研究努力试图解决灾难性遗忘问题[15,49,20,24,18,32,2,13,41,37,1]。他们通常在多任务或多类情景下进行前者增量学习一系列不相交的任务,这需要提前的任务身份。这在任务标识通常不可用的实际应用中很少得到满足。后者学习一个统一的分类器来识别单个任务中遇到的所有类12184这种情况更实用,不需要知道任务信息。在本文中,我们研究了多类场景下的FSCIL问题,其中我们将FSCIL视为类增量学习(CIL)[32,2,10,13,48]的一个特例。与用无限的、通常是大规模的训练样本学习新类的CIL相比,FSCIL更具挑战性,因为新的训练样本的数量非常有限。为了减轻遗忘, 大多数CIL工程[32,2,35,13,48]使用知识蒸馏[12]技术来维护与旧类相对应的网络输出logit。它们通常存储一组旧的类样本,并将蒸馏损失应用于网络的输出。尽管它们有效,但在用蒸馏损失训练时存在几个问题一个是类不平衡问题[13,48],其中输出logit偏向于具有大量训练样本的那些类。另一个是新旧类之间的性能权衡。这个问题对于FSCIL来说更加突出,因为从非常少的训练样本中学习需要更大的学习率和来自新类在本文中,我们从一个新的,认知启发的知识表示的角度来解决FSCIL。认知科学的最新发现揭示了拓扑保存对于保持旧知识记忆的重要性[29,21]。记忆拓扑结构的改变受此启发,我们提出了一个新的FSCIL 框 架 , 名 为 TOology-Preserving knowledgeInCrementer(TOPIC),如图1所示。TOPIC使用神经气体(NG)网络[42,8,31]来模拟特征空间的拓扑。当学习新的类时,NG增长以适应特征空间的变化。在此基础上,我们将FSCIL表示为一个具有两个目标的优化问题。一方面,为了避免灾难性的for-getting,TOPIC通过稳定NG的拓扑来保持旧的知识,这是用锚丢失(AL)项来实现的。另一方面,为了防止对少数新类的过度拟合,TOPIC通过将新类训练样本推向具有相同标签的正确最小-最大损失(MML)项被开发以实现该目的。为了进行广泛的评估,我们通过采用最先进的CIL方法构建FSCIL基线[32,2,13] 并将我们的方法与它们 进 行 比 较 。 我 们 对 流 行 的 CIFAR100 [16] ,miniImageNet [43]和CUB200 [44]数据集进行了全面的实验。实验结果证明了所提出的FSCIL框架的有效性。总的来说,我们的主要贡献包括:• 我们认识到少拍类增量学习(FSCIL)的重要性,并定义了一个问题,lem设置,以更好地组织FSCIL研究性学习。与目前研究较多的班级增量学习(CIL)相比,FSCIL更具挑战性,但也更具有实用性.• 我们提出了一个FSCIL框架TOPIC,神经气体(NG)网络,以学习用于知识表示的特征空间拓扑。TOPIC稳定NG的拓扑结构以减轻遗忘,并使NG适应于增强所学习的特征对于少数新类的辨别能力。• 我们对FSCIL方法进行了广泛的评估,我们将最先进的CIL方法应用于FSCIL,并与它们进行了全面的比较。2. 相关工作2.1. 类增量学习类增量学习(CIL)通过增量学习一个统一的为了减少对旧课程的遗忘,CIL研究通常采用知识蒸馏技术,即利用外部存储器存储旧课程样本来计算蒸馏损失。例如,iCaRL [32]保持了前雇员的EEIL [2]将蒸馏损失项添加最新的CIL作品NCM [13]和BiC [48]揭示了导致网络预测偏向新类别的类别不平衡问题他们采用余弦距离度量来消除输出层中的偏差[13],或者学习偏差校正模型来后处理输出logits [48]。与这些CIL作品相比,我们专注于更困难的FSCIL问题,其中新类训练样本的数量是有限的。我们尝试约束CNN的特征空间,而不是约束网络由神经气体网络表示。2.2. 多任务增量学习一系列的研究工作采用了多任务递增学习情境。这些作品可以分为三种类型:(1)排练方法[24,3,37,50,46],(2)架构方法[27,26,1,36,47],以及⑶正则化方法[15,49,23,18]。预演方法在学习新任务时将旧任务信息重播给任务求解程序。一种方法是使用外部存储器存储旧任务12185i=1学习新任务时的损失[24,3]。另一种方式{(x(t),y(t))} |D(t)|. L(t)是第t列列车的类别集合j jj=1是使用生成模型来记忆旧任务数据分布[37,46,50]。例如,DGR [37]学习生成对抗网络来为任务求解器生成观察样本。识别性能受所生成的样本的质量的影响。架构方法通过操纵网络的架构来减轻遗忘例如,Pack- Net [27]修剪网络以创建新任务的自由参数HAT [36]学习旧任务的注意力掩码,并在学习新任务时使用它们来约束参数正则化方法对网络的参数、损失或输出logit施加正则化。例如,EWC [15]及其变体[49,23]惩罚对旧任务重要的参数的更改。这些方法通常基于参数的后验分布的某些假设(例如:Gaussian),其可能在更复杂的场景中挣扎。由于多任务增量学习方法是针对学习不相交的任务,这是不可行的,应用这些方法下的单任务多类的情况下采用FSCIL。因此,我们必须排除它们进行比较。2.3. 动态少镜头学习少镜头学习(FSL)的目的是调整模型,以识别看不见的新类使用非常少的训练样本,而模型为了实现FSL,研究通常采用度量学习和元学习策略[43,38,40,6,39]。最近,一些FSL研究工作试图学习能够识别基础类和新类的模型通常,它们首先在基本训练集上预训练模型,以学习特征嵌入以及基本类的分类器的权重。然后,他们通过从基础数据集中采样“假”少量分类任务来学习新类别的分类器,从而对少量新类别进行元学习最后,学习的头被组合用于识别的联合测试(查询)的基础和新的类的集合。虽然这些作品中的一些[33]将这种设置视为一种增量学习,但它们依赖于旧的训练集(即,基类数据集)进行元学习采样ing集合,其中i,j,L(i)∩L(j)=. D(1)是基类的大规模训练集,D(t),t >1是新类的少次训练集。模型0在具有统一分类层的D(1)、D(2)、···上递增地训练,而在第t个训练会话处仅D(t)在对D(t)进行训练之后,测试Θ以识别L(1),…,L(t)中的所有遇到的类。对于D(t),t >1,我们将具有C个类和每个类K个训练样本的设置表示为C路K次FSCIL。主要挑战是两方面的:(1)避免灾难性地忘记旧类;(2)防止过度拟合到少数新类。3.1. 初步CNN由多个非线性(即,转换,汇集)层和分类头(即,输出层。)具有参数集θ的非线性层用作特征提取器f(·;θ),其定义特征空间FRn。具有参数集φ的分类头产生输出向量,然后是softmax函数,以预测所有类别的概率p整个参数集表示为Θ={θ,φ}。给定输入X的输出向量是〇(x; Θ)=ΦTf(x;θ)。最初,我们在具有交叉熵损失的D(1)上训练Θ(1)。然后,我们在D(2),D(3),···上增量微调模型,并得到Θ(2),Θ(3),···。在第t个会话(t>1),输出层通过添加|L(t)|输出神经元对于FSCIL,我们首先介绍了一种基于知识蒸馏的消除遗忘的基线方案;然后,我们阐述了我们提出的主题框架,采用神经气体网络的知识表示和锚损失和最小最大损失的优化条款。3.2. 基线:知识蒸馏方法大多数CIL作品[32,2,13,48]采用知识蒸馏技术来减轻遗忘。省略上标(t),损失函数被定义为:(D,P;Θ)=其 中 DL 和 CE 是 蒸 馏 和 交 叉 熵 损 失 项 , P 是 从 D(1),· · ·,D(t−1)中提取的旧类样本的集合。CNODL的实现在不同的工作中可能会有所不同通常,它采用以下形式:任务这与FSCIL设置完全不同,在FSCIL设置中,基础/旧类训练集在DL(D,P;Θ)=ΣΣn−τk(x;θ)log(τk(x;Θ)),新的增量阶段。 因此,这些小镜头学习作品不能直接应用于FSCIL。(x,y)∈D<$Pk=1e〇k(x;Θ)/T3. 少镜头类增量学习τk(x; Θ)=Σnj=1e〇j(x; 0)/T,(2)我们如下定义少量类增量学习(FS-CIL)设置。假设我们有一条小溪 ,其中D(t)=其中n=Σt−1|L(i)|是旧类别的数目,Θ是在微调之前的Θ的初始值,并且T是蒸馏温度(例如,在[2,13]中T = 2)。12186ii+1Rij=1∗∗∗riii蒸馏方法在应用于FSCIL时面临几个关键问题。一个是由不平衡的旧/新类训练数据引起的偏差问题,其中输出层偏向于新类[13,48]。为了解决这个问题,[13]使用余弦距离测量来消除偏差,[48]学习偏差校正模型来对输出进行后处理。尽管它们在学习大规模训练数据中的有效性,但它们对于具有很少训练样本的FS-CIL不太有效使用余弦距离可能会丢失重要的模式(例如,外观),而偏差校正模型需要大量的训练样本,这与少数镜头设置相冲突另一个问题是平衡CNOCE和CNODL之间的贡献的困境,这可能导致不令人满意的性能权衡。学习少量的新类需要更大的学习率来最小化CE,同时它会导致输出logits的不稳定性,并且很难最小化DL。基于以上考虑,我们在框架中摒弃了蒸馏损失.相反,我们操纵包含CNN特征空间的知识,该特征空间包含比输出logits更丰富的信息。3.3. 知识的神经气体表示知识蒸馏方法通常存储从旧训练集中随机抽取的一组样本,并使用这些样本计算蒸馏损失然而,在FSCIL场景中,不能保证随机采样的样本能够很好地表示不同类别的异构、非均匀数据。相反,我们通过保留特征空间拓扑来表示知识,这是通过神经气体(NG)网络实现的[42]。NG将特征空间F映射到特征向量的有限集合图2. NG保持了异质特征空间流形的拓扑结构。最初,NG是针对基类(蓝色的点和线)学习的。然后,通过插入新的节点和边(橙色的点和线)持续时间在竞争性赫布学习中,vjmj∈Rn是表示F j的质心向量,二次矩阵Λj∈Rn×n存储m j的每个维度的方差,zj和cj是用于计算观测值mj的 指 定 图 像 和 标 签。 利用cj,我们可以确定vj对应于旧类还是新类。在初始会话(t=1),具有N(1)个节点的NG网G(1)=在特征集F(1)={f(x;θ(1))上训练。|<$x∈D(1)}的竞争性赫布学习。具体地说,给定一个输入f∈ F(1),计算它到每个NG节点的距离并存储在Df={d(f,mi)}中|i=1,· · ·,N(1)}。 然后按升序对Df进行排序以得到节点的秩{ri|d(f,mr)≤ d(f,mr),i = 1,···,N(1)− 1}。然后,对于每个节点ri,其质心mri被更新为m:m*=mr+η·e−i/α(f −mr),i=1,· · ·,N(1)−1,(3)其中η是学习率,e−i/α是衰减函数torsV={vj}N并且通过com保持F的拓扑由α控制。 我们用上标*来表示向上-如图2所示。NG定义了一个无向图G =。每个ver-texvj∈V被赋予质心向量mj∈Rn约会一个对于远离f的节点,它们不太受更新的影响。接下来,r1的所有连接的边被更新为:描述了vj在特征空间中的位置边集E存储顶点的邻域关系如果vi和.1,j=r;1,j=r2;vj是拓扑相邻的,eij= 1;否则为eij=0。r1j=arj+1,j2R2.r1j=∗r1j> T;.每个边eij被分配有初始化为1的0. 给定输入f∈ F,它匹配NG节点j,其中er1j,否则。(四)最小距离d(f,m,j)到f. 匹配过程将F划分为不相交的子区域,其中质心向量mj编码区域Fj={f∈F|d(f,mj)≤d(f,mi),i}. 我们使用欧氏距离作为d(·,·)。注意到NG [8,31]的一些变体使用不同的方法来递增地构建NG为了与FSCIL保持一致,我们直接修改了原始版本[42],并为基类学习了一组固定的节点。由于NG [42]最初从未标记的数据中学习,为了完成监督增量学习,我们将NG节点j重新定义为元组vj=(mj,Λj,zj,cj)∈V,其中显然,r1和r2是离f最近的,也是第二近的。它们的边er1 r2和对应的年龄ar1 j被设置为1,以创建或维持节点r1和r2之间的连接。 对于其他边缘,如果r1 j超过寿命T,则通过设置er1 j = 0来移除连接。在F(1) 上 训 练 之后,对于vj=(mj,Λj,zj,cj),我们从D(1)中挑选特征向量f是最接近mj的样本作为伪图像zj和标签cj。 使用获胜者为j的特征向量来估计方差Λ j。在增量会话(t >1)处,对于K个新类别训练样本,我们通过插入k个K一得双曲余切值.0,a12187O(a)(b)(c)(d)(e)(f)图3. NG稳定和适应的解释。(a)NG将CNN的特征空间F划分成由质心向量vj表示的一组拓扑布置的子区域Fj。(b)当用很少的训练样本对CNN进行微调时,F的拓扑结构严重扭曲,这表明灾难性的遗忘。(c)为了维持拓扑,NG节点的移位被锚点损失项惩罚(d)通过插入一个新的向量xv~7 , 对 于 新 的 类 别 y , NG 生 成。 新类别训练样本dlf与v5 不 匹 配,因为d(dlf,m5)ξ,我们认为距离足够大以用于良好分离,并且禁用该项。启发式-调用y,我们设置ξ≈max{d(mi ,mj)|i,j}。在微调之后,我们根据等式(1)更新边缘eij。如图3(e)和(f)中所示AL(G(t);θ(t))=Σ(m−m)Λ−1(m−m),3.6. 优化在增量会话t>l处,我们微调CNNΘ(吨)其中m(m, Λ, z,c)∈V(t)=f(z; θ(t))。(五)在D(t)上使用小批量SGD。同时,我们在每次SGD迭代时更新NG网G(t ),使用等式中的竞争学习规则(3)和(4)。Eq. (五)AL项的影响在图3(a-c)中示出。它避免了特征空间拓扑的严重失真。12188和(6)被计算并反向传播到CNN的特征提取器f(·;θ(t))。会话时的整体损失函数12189t定义为:(D(t),G(t);Θ(t))=Σ(x,y)∈D(t)-logpy(x)+构建用于增量学习的小批量。在D(t)上训练之后,我们在所有遇到的类的测试集的并集上测试Θ(t)对于数据增强,我们执行标准的随机裁剪和翻转,如[11,13]中的所有λ1AL(G(t);θ(t))+λ2MML(D(t),G(t);θ(t)),(7)其中,右手侧的第一项是softmax交叉熵损失,EQUAL是等式(1)中定义的AL项。(5),MML是在等式2中定义的MML项。(6)λ1和λ2是平衡强度的超参数。4. 实验我 们 对 三 个 流 行 的 图 像 分 类 数 据 集 CIFAR 100[16],miniIma-geNet [43]和CUB 200 [44]进行了全面的实验。CIFAR100数据集包含100个类别的60,000个RGB图像,其中每个类别具有500个训练图像和100个测试图像。每个图像的大小为32×32。该数据集在CIL作品中非常受欢迎[32,2]。MiniImageNet数据集是ImageNet-1 k [5]数据集的100类子集,用于少量学习[43,6]。每个类包含500个训练图像和100个测试图像。图像为RGB格式,大小为84×84。CUB200数据集最初设计用于细粒度图像分类,并由[3,30]引入用于增量学习。它包含超过200个鸟类类别的约6,000张训练图像和6,000张测试图像图像大小调整为256 × 256,然后裁剪为224× 224进行训练。对于CIFAR100和miniImageNet数据集,我们分别选择60和40个类作为基础类和新类,并采用5路5次设置,我们有9个训练会话(即,1个基地+8个新的)。而对于CUB200,不同的是,我们采用10路5次设置,选择100个类作为基类,并将剩余的100个类拆分为10个新的类会话。对于所有数据集,每个会话我们使用较浅的QuickNet [14]和较深的ResNet18 [11]模型作为基线CNN。Quick- Net是一个简单而强大的CNN,用于分类小图像,它有三个conv层和两个fc层。我们在CIFAR100和miniImageNet上进行了评估。而对于ResNet18,我们在所有三个数据集上进行了评估。我们用128的小批量大小训练基本模型Θ(1),并且初始学习率为0.1。我们降低了学习率在30和40个时期之后分别变为0.01和0.001,并且在时期50处停止训练然后,我们在每个后续训练集D(t)上微调模型Θ(t),对于100个时期,t >1由于D(t)包含很少的训练样本,我们使用所有的训练样本来方法. 在对ResNet18进行微调时,由于我们只有很少的新类训练样本,因此计算batchnorm会有问题因此,我们使用在D(1)上计算的批次范数统计,并在微调期间固定批次范数层我们使用不同的随机种子运行整个学习过程10次,并报告所有遇到的类的平均测试我们为基类学习了一个400个节点的NG网络,并通过为每个新类插入1个节点来增加它。对于超参数,我们设置η=0。02,α=1表示更快在等式中学习NG (3 )中,寿命T=200,在等式(四)、且λ1= 0。5,λ2= 0。005对于Eq.(七)、对于比较实验,我们运行代表性的在我们的FSCIL设置中使用CIL方法,包括经典的iCARL [32]和最先进的方法EEIL [2]和NCM [13],并将我们的方法与它们进行比较。而对于BiC [48],我们发现训练偏差校正模型需要大量的验证样本,这对于FSCIL是不可能的。因此,我们不评估这项工作。我们在等式中设置γ=1。(1)对于这些基于蒸馏的方法以及在第4.2节中的烧蚀研究中使用的蒸馏项。 其他相关工作[20,15,49,18,24]是为MT设置而设计的,我们在实验中不涉及MT设置。我们使用缩写4.1. 比较结果我们报告的方法使用5/10路5杆FSCIL设置的比较结果。由于随机挑选了5次训练样本,我们将所有方法运行10次并报告平均精度。图4分别比较了CIFAR100和miniImageNet 数 据 集 上 的 测 试 精 度 。 表 1 报 告 了CUB200数据集上的测试精度。我们将结果总结如下:• 在三个数据集上,对于QuickNet和ResNet 18模型,我们的TOPIC在每个遇到的会话上都优于其他最先进的方法,并且最接近上限随着增量学习的进行,TOPIC的优越性变得更加显著,证明了它连续学习更长序列的新类数据集的能力。• 简单地用新类的几个训练样本进行微调(即,“Ft-CNN”, the blue line) deteriorates the test accuraciesdrastically due to 用AL项进行微调(即,(绿线)12190图4. QuickNet和ResNet18在CIFAR100和miniImageNet数据集上的测试精度比较。在每个会话中,对到目前为止遇到的类的一组联合测试样本对模型进行评估。表1.使用10路5次FSCIL设置的CUB200与ResNet18的比较结果 注意到具有原始学习率设置的比较方法在CUB200上的测试准确度要差得多。我们仔细调整了它们的学习率,并将它们的原始准确率提高了2%至8.7%。在下表中,我们报告了改进后的精度。会议我们的相对方法有效地减轻了遗忘,比简单的微调方法的表现高出38.90%。此外,使用,ING AL和MML条款进一步实现高达5.85%的精度增益比单独使用AL。结果表明,解决具有挑战性的FSCIL问题既需要减少对旧类的遗忘,又需要加强对新类的表示学习• 在 CIFAR100 上 , TOPIC 分 别 用 QuickNet 和ResNet18实现了24.17%和29.37%的最终准确率,而 第 二 好 的 ( 即 , NCM* 和 EEIL* ) 分 别 达 到19.50%和15.85%的准确度。TOPIC比两种最先进的方法高出13.52%。• 在 miniImageNet 上 , TOPIC 使 用 QuickNet 和ResNet18分别实现了18.36%和24.42%的最终准确率,而第二好的EEIL*实现的相应准确率分别为13.59%和19.58%。TOPIC的表现优于EEIL* 高达4.84%。• 在CUB200上,在整个学习过程结束时,TOPIC使用ResNet18实现了26.28%的准确率,比第二好的EEIL*(22.11%)高出4.17%。4.2. 消融研究损失项的贡献。我们进行烧蚀研究,以调查的损失条款的最终性能增益的贡献。实验在miniImageNet上使用ResNet18进行。对于AL,我们比较等式中的原始形式。(5)以及没有“重新加权”矩阵Λ的简化形式。对于MML,由于它由“最小”和“最大”项组成,我们分别评估每个项带来的性能增益。此外,我们还研究了蒸馏损失项(记为“DL”)所带来的影响。表2报告了不同损失项设置的比较结果。我们将结果总结如下:• “AL”项比简化形式“AL w/o.Λ”,这归功于特征重新加权技术。• “AL-Min”和“AL-Max”都• “DL-MML”和“AL-MML”都改善了没有MML的相应设置的性能(即, 它证明了有效的-1234567891011改进Ft-CNN68.6844.8132.2625.8325.6225.2220.8416.7718.8218.2517.18+9.10联合CNN68.6862.4357.2352.8049.5046.1042.8040.1038.7037.1035.60上界iCaRL*[32]68.6852.6548.6144.1636.6229.5227.8326.2624.0123.8921.16+5.12EEIL*[2]68.6853.6347.9144.2036.3027.4625.9324.7023.9524.1322.11+4.17NCM*[13]68.6857.1244.2128.7826.7125.6624.6221.5220.1220.0619.87+6.41Ours-AL68.6861.0155.3550.0142.4239.0735.4732.8730.0425.9124.85+1.43Ours-AL-MML68.6862.4954.8149.9945.2541.4038.3535.3632.2228.3126.2812191表2.将miniImageNet上的不同损失项与ResNet18相结合的比较结果届会议方法DL AL最小项最大项MML术语的重要性,用于改善少数新类的表示学习。• 应用蒸馏损失会降低性能。虽然CIL方法普遍使用蒸馏,但它对于FSCIL可能不是那么有效,因为当只有很少的新类训练样本时,难以平衡旧类和新类并权衡性能,如第3.2节所讨论的。表3.不同内存大小的“ex-emplars”和NG节点最终测试精度的比较。实验在具有ResNet18的CIFAR100上进行。存储器501002004008001600样本19.2122.3226.9428.2528.6928.89NG节点22.3725.7228.5629.3729.5429.35“范例”和NG节点之间的比较在我们的方法中,我们使用NG网G表示CNN特征空间中学习的知识另一种方法是随机选择一组代表旧类训练样本的样本[32,2],并在训练期间惩罚其特征向量的表3比较了两种方法在不同内存大小下实现的最终测试精度。从表3中,我们可以观察到,使用仅具有少量节点的NG可以以一致的方式大大优于示例方法。当使用较小的内存时,精度的差异变得更大,证明了我们的方法的优越性FSCIL。训练样本数量的影响。为了考察训练样本的不同镜头带来的效果,我们进一步在5向10镜头下评估了这些方法和5路全拍摄设置。对于5路全拍摄,我们使用新类数据的所有训练样本,这与普通CIL设置类似。我们通过为每个新会话添加20个节点来增长NG,在会话(t-1)中我们有(400+20(t-1))个NG节点。图5显示了10次拍摄和全拍摄设置. 我们可以看到,当使用更多样本进行训练时,我们的方法也优于它证明了所提出的框架一般CIL问题的有效性图5. 5路10次拍摄和5路全拍摄设置下的比较结果,在miniImageNet上使用ResNet18进行评估。5. 结论我们专注于一个未解决的,具有挑战性的,但实际的 增 量 学 习 的 情 况 下 , 即 少 数 镜 头 类 增 量 学 习(FSCIL)设置,其中模型需要学习新的类从几个训练样本。我们提出了一个框架,名为TOPIC,以保持CNN的特征空间中包含的TOPIC使用神经气体(NG)网络来维护由不同类形成的特征流形的拓扑结构。我们设计了TOPIC的机制,以减轻遗忘的旧类,并提高表示学习的几个镜头的新类。大量的实验表明,我们的方法在CIFAR100,miniImageNet和CUB200数据集上的性能大大优于其他最先进的CIL方法,内存开销小得可以忽略不计。鸣谢。作者对国家重点研发计划(2019YFB1312000)和国家重大专项(2017YFC0803905)表示衷心感谢。123456789基线DLC61.3146.8542.3436.5630.6327.6424.6122.0618.69DL-MMLCCC61.3148.1442.8338.3532.7630.0227.7025.4320.55基线ALC61.3148.5843.7737.1932.3829.6726.4425.1821.80AL w/o. ΛC61.3148.5542.7336.7332.5928.4025.2323.6921.36AL-MinCC61.3150.6045.1441.0335.6933.6430.1127.7924.18AL-MaxCC61.3148.4943.0338.5334.2431.7928.9626.0923.80AL-MMLCCC61.3150.0945.1741.1637.4835.5232.1929.4624.42AL-MML DLCCCC61.3150.0044.2339.8536.0232.9529.7827.1723.4912192引用[1] RahafAljundi , FrancescaBabiloni , MohamedElhoseiny,Marcus Rohrbach,and Tinne Tuytelaars.记忆感知突触:学习什么(不)忘记。 在欧洲计算机视觉会议(ECCV)的会议记录中,第139-154页[2] FranciscoMCastro 、 ManuelJMa r'ın-Jime'nez 、 Nicola'sGuil、Cordelia Schmid和Karteek Alahari。端到端的增量学习。在欧洲计算机视觉会议(ECCV)的会议记录中,第233-248页[3] Arslan Chaudhry,Marc有效的终身学习与一个宝石。arXiv预印本arXiv:1812.00420,2018。[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017.[5] Jia Deng,Wei Dong,R.Socher,Li Jia Li,Kai Li,andFei Fei Li.Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议,第248-255页,2009年。[6] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷,第1126-1135页。JMLR。org,2017.[7] 罗伯特·M·弗伦奇连接主义网络中的灾难性遗忘。Trends in cognitive sciences,3(4):128[8] 贝恩德·弗里茨克一个不断增长的神经气体网络学习拓扑结构。神经信息处理系统进展,1995年7月。[9] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在IEEE计算机视觉和模式识别会议论文集,第4367-4375页[10] C He,R Wang,S Shan和X Chen。用于类增量学习的示例支持的生成再现。在英国机器视觉会议论文集,2018年。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。[12] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。Computer Science,14(7):38[13] Saihui Hou , Xinyu Pan , Chen Change Loy , ZileiWang,and Dahua Lin.通过重新平衡来增量地学习统一分类器在IEEE计算机视觉和模式识别集,第831[14] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe:用于快速特征嵌入的卷积架构第22届ACM国际多媒体会议论文集,第675-678页,2014年[15] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness , Guillaume Desjardins , Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska-Barwinska 等 人 克 服 神 经 网 络 中 的 灾 难 性 遗 忘Proceedings of the National Academy of Sciences , 114(13):3521[16] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告,Cite- seer,2009年。[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[18] Sang-Woo Lee、Jin-Hwa Kim、Jaehyun Jun、Jung-WooHa和Byoung-Tak Zhang。通过增量力矩匹配克服灾难性遗忘。神经信息处理系统进展,第4652-4662页,2017年。[19] Diangang Li,Xing Wei,Xiaopeng Hong,and YihongGong.红外-可见交叉模态人与x模态的再识别在AAAI人工智能,2020年2月。[20] 李志忠和Derek Hoiem。学而不忘。IEEE Transactionson Pattern Analys
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功