没有合适的资源?快使用搜索试试~ 我知道了~
终身课堂中的渐逝表示与模型漂移的建模
16732t=1CC C {C}D在终身课堂增量学习中将消逝的表征带入生活Marco Toldo1,2*Mete Ozay11Samsung Research UK2帕多瓦大学marco.toldo@dei.unipd.itm.ozay@ samsung.com摘要在类增量学习(CIL)中,分类模型在每个增量步骤中逐步训练,决策边界新的类表示倏逝表示学习新的类会导致表示过去的数据改变渐逝表示法灾难性遗忘:表征消逝一个新类的进化数据集,同时,需要保存迄今为止观察到的所有类的知识。原型表示可以被杠杆化,以在以后的增量步骤中为过去的数据和前类的注入信息建模特征分布,而无需诉诸于存储的然而,如果不是最新的,随着增量学习随着新类的进展到旧阶级旧类原型语义漂移(习得)语义漂移(推断)特征漂移(学习)特征漂移(推断)语义漂移建模建模特征漂移复活的消逝再现复活的消逝再现为了解决上述问题,我们提出了一个框架,其目的是(i)通过在增量步骤中学习过去类和新类的表示之间的关系来对语义漂移进行建模,以及(ii)估计特征漂移,该特征漂移被定义为在每个增量步骤中由模型学习的表示的演变。然后,联合利用语义和特征漂移来推断过去类的最新表示(渐逝表示),从而将过去的知识注入到增量训练中。我们实验性地评估我们的框架在多个基准上实现无范例的SotA结果。在烧蚀研究中,我们研究了倏逝波表示和模型之间的非平凡1. 介绍持续学习(也称为终身学习)是指持续学习和适应新环境的能力,利用从过去获得的知识来解决新任务。虽然终身学习是人类的共同特征,但在实际系统中几乎没有部署终身学习方法。事实上,学习模型通常被限制在定义明确且范围狭窄的任务中,在这些任务中,它们可以实现卓越的性能。尽管如此,当在连续的任务流上训练模型时,catastrophic forgetting出现了;新信息被*在Samsung Research UK图1.在CIL中,基于新类原因的培训模型代表了-过去的类别不断变化。然而,以前的类的数据的不可用性,防止跟踪其演变的特征空间,导致其表示的消失,反过来,灾难性的遗忘。我们建议在语义级别上对表示漂移进行建模(即,新类和过去类之间的关系)和特征级(即,通过分类模型学习的特征的组合演化通过将旧的知识注入到学习过程中,我们抵消了遗忘。这种模式往往会抹去迄今为止所经历的一切持续学习已经被广泛研究,在一个类增量的方式[6,22,23]。在类增量学习(CIL)中,一个模型被用于顺序任务,其中要学习的类逐渐变化(图1)。对于每个增量训练任务和步骤t,训练集由属于当前类集的图像组成然而,过去那些愚蠢的猫们,t' t−'1缺乏任何训练样本 该模型的目标是最大化- 直到当前步骤为止观察到的所有类别的概括(分类)准确度。然而,以语义漂移(即,由于经验类集合t的改变)导致遗忘,其中对新数据的偏向导致过去的信息被逐渐擦除并且学习的表示被不断更新(即,特征漂移)专注于新任务。这项工作对克服上述局限性的贡献可以总结如下:16733FFCt=1Ct=1CFCCj=1j=1∈ H ∈∈参数最小值LΣCC◦DPP∈ Ht=0联系我们t=0F {F}C不L LD• 为了解释CIL中的遗忘现象,我们使用概率方法来解释增量学习分类器的动态特性。我们的调查(图1)表明,一个来源是使用旧类学习的旧表示的消失,以及分布P(旧)的增量步骤(秒。(3)第三章。• 为了恢复渐逝表示(ER),我们设计了一种能够模块化地对不同类型的表示漂移进行建模的框架。在框架内(图)1,2和3),我们首先通过特征漂移定义特征表示的变化(即,由于不断演变的特征表示的不同模式的学习数据在CIL),并提出了一种有效的方法来模拟它(节。4.1)。接下来,我们定义了语义漂移(即,由于在不同的增量步骤中学习的语义类别的变化),并提出了一种有效的方法来对其进行建模(Sec. 4.2)。• 我们建议将语义和特征漂移模型与特征学习和分类模型一起训练。所提出的方法集成了学习和推理,训练:它用于估计分布p(old),以用于在 学习t,t(Sec.(五)。• 在实验分析中,我们提出的方法在各种基准测试中优于SotA无样本竞争对手。我们还提供了一个详细的消融研究的几何和统计特性的漂移模型(节。(六)。我们的实验结果解释了CIL中模型精度与消逝和复活表征分布之间的非平凡关系(Sect.6.2)。2. 相关工作大多数成功的CIL方法都使用如果在基于范例的方法之上联合应用,[35]中设计了一种使用自监督学习的无样本方法,但重点是嵌入网络。在[43]中,类原型被用来注入过去的知识.虽然显示出有希望的结果,这种方法未能捕捉到的表示漂移,而增量训练模型。 这是因为代表-tationsold,t't'ofold(在相应数据可用时计算,然后在剩余时间内保持固定)训练)随着学习的进展和模型的更新而变得越来越陈旧和一个不同的工作[40]建议估计原型的变化,t'在学习的同时,但是,(i)不直接捕捉语义之间的关系表示old(old)和new类(new),而不是集中于估计old和t上的漂移的变化,(ii)忽略我们称之为特征漂移的东西,即在单个任务训练期间模型特征的联合演变(即,他们独立地对待每个特征通道的特征表示漂移),(iii)将他们的范围限制在嵌入学习上,以及(iv)设计一个不可学习的模块来估计原型漂移,其中我们表明我们的框架学习表示漂移提供了具有更高容量的模型,并导致整体改进的分类精度。3. CIL中的学习表征在每个步骤t ∈ [T]={0,1,. - 是的- 是的,T},给出一个数据集Dt=(Xt,Yt),其中Xt={xt,j}Nt是样本集,Yt={yt,j∈Ct}Nt就是他们的标签集 Ct是在此步骤中观察到的类标签的集合,并且Ct<$Ct'=,t=/t'. 通常使用的CIL模型[43]由特征提取模型fθ∈F和旧类别C老 [2019 - 04 - 19 00:01:01][2019 - 04- 1900: 01:01]具有参数θΘ和φΦ的分类器h φ。在每第t步,通过求解18、20、25、27、32、36]。然而,由于有限的资源可用性或隐私要求,存储属于所有类别的样本向CIL提出-tccθt,φ t,θtt−1(1)t'=0在存储样本之外,已经提出了正则化方法[2,5,16,39,41];共同的目标是识别关键模型参数以解决旧任务,并防止它们在学习新任务时发生变化。或者,已经引入了知识蒸馏[11,19],其中新类的表示被迫仅略微偏离在学习当前任务的递增步骤开始时计算的原始版本然而,这些冰毒-其中t,μ(t;θt,φt)是模型gt=hφtfθtont,在步骤t从分布μt采样,而μt'控制遗忘旧的表示类[43]。生成式分类器实现h φoptimize(1)以建模p(C,F;其中= ΘΦ。discriminative分类器,如softmax分类器,优化(1) 对于模型p(C|F; P)通过函数定义损失(例如,交叉熵)|F; P)。CIL方法旨在模拟ODS的性能通常低于最新技术水平(SotA)。属-p(C,F |Pt)而不使用{Dt'}t'不在t,在t1提出了过去类的伪样本的概念在[15,26,28,34,37]中。尽管如此,这些作品诉诸复杂的生成框架,仍然必须解决额外的生成辅助任务。相反,我们在特征空间中操作,在那里我们可以有效地利用pro-totypes [29]并使用轻量级模型。因果网络已被用于CIL [13],并提供SotA accu。• Pt=Θt≠Φt,Θt={θt'}t'=0和Φt={φt'}t'=0,• F∈F=Ft <$Fold是随机变量,从步骤Ft学习的特征表示集合中tonDtandfromFold={Ft'}t'−1,and1在一些CIL方法中,在较早步骤t′0中,表示恢复并演变,如图11所二、在阶段n>0,我们提取Fn并训练0在增量步骤开始时的 真实提取器Γγn来学习Ft和Fn之间的关系。θttt0nnGM:对于经验GM,我们首先确定了Γγn:Ft→Ftt和t表示使用fθt提取的特征集用来自数据集的n>0个优化阶段更新通过DNN,例如不., 多层感知器(MLP)。然后,0nrγn被训练来跟踪和建模revvved的t. 由于在步骤t处只有t可用,因此t和t只包含新类的表示t. 同样地,0和n是语义表示的集合(亲-不从阶段0到n的渐逝表示(RERs)。VM:我们把Γγn看作随机映射,老旧ttotype),分别在步骤t的开始时可用和在步骤t的第n阶段(n>0)更新老班步骤t时的原型学习语义漂移LPG.MVM易逝的老年人的阶级特色新类输入数据冻结在步骤t的开始学习特征漂移第0新类表示LPG.MVM在步骤t的阶段n冻结级n不16735P[2]为了简单起见,当对t的依赖性很小的时候,我们就把它去掉。3我们通过计算特征的类平均值来获得原型[43]。它通过变分模型,如变分自动编码器(VAE)。通过最大化可能性来训练VM4虽然高斯过程可以用于VM [14],但我们单独考虑GM和VM来解释VM的变分结构。16736(冻结)路不不老t,0老老老不不老老老不老老t,0∈Π不老不不F不不不不不老训练Γγn以根据Cold的特征来推断FD,老C老CCGM:我们使用Γγn来推断旧类的表示老不不老老C老CC特征表征与原型表征的关系老老不老老CC老老老∈FCC老∈Ctt老,s新类输入数据开始时的渐逝表示步骤t步骤t-阶段n新的类功能推理语义漂移G.MVM推断特征漂移第0GM。模型融合复活的渐逝表象排练旧课冷冻IPVM级n学习新课程图3.我们的CIL框架的轮廓与建议的表示漂移模型增强在数据集上训练分类器t tDt在步骤t(Lce)处。特征知识提取(LFKD)用于减少特征漂移。我们利用在LP中学习的漂移模型(图1)。2)对推断复活的渐逝表示(RERs),其被Lt利用以将过去的知识注入当前的训练过程。p(F ∈ Fn|F ∈F0;γ n)。因此,我们可以统计GM:我们首先用DNN来识别F0→Ft,0。在给定步骤t处跨不同阶段[n]对FD进行建模。4.1.2推理阶段在LP中,训练模型Γγn以学习由Ct的特征所经历的漂移。在IP(图3)中,我们利用不(例如,MLP)。然后,训练来对当前步骤(t)处可用的类的表示与过去(旧)经历的类的表示之间的SDVM:我们首先近似分布p(F0)的渐逝表示在阶段n=0由p(F∈ F0;π∈N)<$N(π,σ)恢复。然后,一个条件以及相对误差率的分布p(F∈Fn)。不VM(例如,VAE)通过最大化可能性来训练p(F∈ F0 |F∈ F0;<$n)来学习表示在FD下的阶段n>0处的原型t,n也就是说,在新老班级之间分享。Γγn使我们能够直接追踪从4.2.2推理阶段不阶段0到n,并因此将nt,0映射到nt,n老. 如果n=0,则老老,fΓγ0是恒等映射。最后,我们近似分布-在LP中,Escherichn接受培训,学习SD经验,不布蒂翁p(F∈Fn) 阶段nt,n由高斯分布不从C老Ct。 从一开始就捕捉到了漂移-F∈Fn;πc∈Π 旧,f)<$N(π c,σ c).为当前步骤t的宁,当最新表示GM和VM,在步骤中估计标准差σct′时,且在每一步t′> t′时保持不变。VM:训练模型Γγn 提供了一个近似的,这两套都有。我们现在利用训练好的神经网络来推断每个 阶 段 n > 0 所 经 历 的 SD , 并 估 计 RERs 的 分 布 p(F∈Fn)。p(F∈ Fn)的形式|F∈ F0)。在 级n=0,GM:我们使用训练过的机器人来推断表征我们求助于p(F∈F0 )的情况下, 因为没有特征漂移必须旧的类原型的集合 SD下≥0。的估计,我们通过以下方式模拟RERs的分布: p(F∈F0 )p(F∈ F0 ;π ∈ N)<$N(π,σ).是, Ψψn:Fn → Πt,nis trained to estimate the rela-在n>0时,培训 特征 是 抽取在阶段n.然后我们近似p(F∈Fn )由p(F∈Fn |F ∈F0;γ n)·p(F∈F0).p(F∈Fn;πt,n)<$N(π,σ).老4.2. 语义漂移VM:训练模型n提供分布p(F∈ Fn)的近似|F∈Fn),<$n≥0.为了-4.2.1学习阶段erate训练特征样本,我们使用p(F ∈ Fn |F ∈ Fn; ψ n) · p(F ∈ Fn), where Fn is pro-我们的目标是捕捉语义漂移(SD)所经历的表示在每一个增量步骤。为此,在每一步的开始,我们提取0并训练一个参数为0的网络0,以模拟老t t t t由fθt提供,该f θ t针对n个优化阶段进行训练并应用于来自Dt的样本。5. 表征漂移不F0和F0不. Weemplo yprototypesπ∈Πt,0建模5.1. 培训分类模型不p(F∈F0老)p(F∈ F0老;π c∈σt,0)<$N(π c,σc). 作为与Γγ相反,Δγ捕获在每个新步骤处观察到的SD。因此,单个模型的最佳化是在(冻结)IPC老,s16737ce在每一步t,我们使用交叉熵损失L t,L ce(Dt)在D t上训练g t = h φ t <$f θ t。开始,并且对于步骤的剩余部分固定(即, n =0)。 当t> 0时,为了减轻对先前任务的遗忘,我们t t采用模型融合,而不是每个阶段重新训练一次,以考虑由Γγ(Sec.5.2)。通过对漂移进行建模并估计分布p(F∈ Fold)来生成Cold的特征。因此,我们计算16738老不不老不←−←Ft,N老漂移路t=0自由民主党自由民主党老CC老CC路自由民主党老新不不不不2不不nt,n2路老不不通过漂移模型及其瞬逝(不可用)老不不ǁceǁ·ǁn,t{D}算法1:训练模型。在估计分布p(F)之间 ∈ Fn;γn)和输入:{Dt}=0 (数据集),N(数量)每一步的步骤)。p(F∈Fn (1)培训目标2输出:gT=hφT◦ fθT。不FUSt,n老,st,n老,f21用L 0训练f θ和h φ,并计算φ0。t,nt,n(四)0 0cc2初始化t=1,0为0.新+λcorrρ(λ)−ρ()2oldNew3 对于每个增量步长t1到T,对于每个优化阶段n0到N1,5LP:通过求解(5)来训练Γγn和Γγn。2016- 05 - 25 01:01:02(老的,老的。7通过求解(6)训练fθt和hφt8结束其中下标s和f分别表示由语义和特征漂移模型估计的旧类的更新2是平方l2范数,λcorr>0是正则化参数,ρ(ω)是归一化的相关矩阵[9]。 最后,重新装修的配电盘-但p(F∈Fn;γn)和p(F∈Fn;γn)是线性的9LP:列车IN和I N解(5)。旧t旧tnγt与等权组合得到p(F∈ Fold)。10IP:估计Δt、N和Δt。老新然后,用于学习表示的总体目标11初始化t+1,0:=t好吧t t t t t t12 端老新老漂移定义为L漂移=Ls+Lf+λfus Lfus,其中λfus>0是损耗平衡参数。 我们注意到测试漂移 衡量当前模型在推断代表上的损失,Lt,Lrd(Fn,t)=yFloghφ(F)(3)F∈F其中y F是类c F∈ Cold的独热标签向量,F是使用Cold的更新原型从估计的分布采样的RR的集合。 损失L t近似于先前数据集t '上g t的Lµt'(Dt'; θ t,φ t)≤ Δ t' t-'1使用它们的推断表示。我们通过蒸馏损失来增强训练目标对旧阶级的怨恨。 因此,我们的目标是减少遗忘(forgetting),即,两者之间的差异,通过训练模型优化Lt.5.3.模型参数在前面的小节中,我们设计了损失函数来捕获在训练分类模型时由CIL中的表示漂移引起的损失因此,我们相信-通过最小化Lt+Lt的边训练模型,t. 在Lt,Lfkd(Dt)[7],以减少代表的实体增量步进,我们训练CC漂移.自由民主党不t=0fθ0和hφ0与Lce(D0)跨增量任务的任务漂移。Lfkd由使用fθt和fθt−1从Dt提取的表示之间的l2距离定义,后者继承自前一步在每个步骤t>0,我们以交替的方式训练分类和漂移模型,如下所示:• Fn是用fθ从Dt中导出的,而Γγn和Γγn是并保持固定。因此,Lt近似于不训练直到收敛5tt t通过求解在Lt之间 而损失Lt上一个模型fθcc pc不t−1argminLt(n,0,n),F0,Fn;γ n,γn)。(五)Dt。 虽然Lpc在(1)中没有明确定义,但它支持γn,γn漂移老旧,{f,s} tt t t提供有关表示可共享性的信息在连续的步骤t-1和t之间。因此,模型-• 首先,Fn由漂移模型Γγn和σγn(em-1)估计优化Lt可以利用特征共享性,单独使用或熔合)。然后,通过下式计算学习漂移。然后,总体分类目标Lt从p(F∈Fn)采样的类平均特征。在每个步骤t计算的是Ltt+λrd Lt +λfkd Lt,最后,fθt 而hφt在Dt=Dt <$Fn上训练 通过其中Lt和Lt仅用于t>0,损失平衡-t= 0RD FKDargmin Lcc(Dt; θ t,φ t).(六)切割参数λrd>0和λfkd>0。5.2.训练表示漂移模型损失函数Lt,L(F0,Fn;γn)和θt,φt在st ept≥0的末尾,我们计算出Πt={πc,c∈Ct}通过特征表示fθt(Dt)的类平均,fft tt输入样本并初始化t+1,0=t,nt,其中Lt,L(F0,Ft,0;Fn)表示用于t,n老老新sst老t对于t= 0,培训的详细说明分别独立地训练特征和语义漂移模型Γγn和Γγn上述目标的确切形式取决于识别Γγn的所采用的网络结构还有,更详细的L=--L=L老,s旧,fn,t老16739老∈F在算法1中给出了过程。6. 实验结果数据集。我们评估我们的方法在多个stan-补充材料中提供了说明。模型融合(MF):使用GM和VM,我们融合了Γγn的输出 和乌姆里奇 通过标准CIL基准,即CIFAR 100 [17],TinyIma-geNet [24]和CUB 200 -2011 [33]数据集。我们设计3t t共同训练他们。为此,我们通过最小化差异的测量来优化模型参数,5.如果训练损失在τ步内不变,则模型的收敛标准是提前停止模型参数的优化。16740D×××−−c∈C0:kCt=0CPASS SDC融合(GM-MLP)融合(VM-VAE)CIFAR100(5个步骤)8075706560012345增量步进CIFAR100(10个步骤)807570656055500246810增量步进CIFAR100(20步)807570656055500 5 10 15 20增量步进CUB200(5个步骤)70656055012345增量步进CUB200(10步)706560555045400246810增量步进CUB200(20步)7060504030200 5 10 15 20增量步进图4.CIFAR 100和CUB 200 -2011数据集上的每步平均前1准确度(%)类增量设置;首先,在可用语义类的一半上训练框架(除了在CIFAR 100上的一个设置,其中仅选择40个类作为第一任务);然后,将剩余的类集合分别均匀地划分为5、10或20个增量步骤。班级顺序是随机选择的,然后在每个班级分裂时固定。实作详细数据。ResNet-18 [10]被用作骨干。该模型被训练100个时期(即,N=100,并且每个阶段对应于在Adam 优 化 器 的 每 个 增 量 步 骤 CIFAR 100 和TinyImageNet的学习率初始化为1 e 3,CUB 200 -2011的学习率初始化为1 e 4它以0的因子减少。1在45和90个时期后[43]。图像被裁剪为32 32,6464和256CIFAR100、TinyImageNet和CUB 200 -2011分别,并随机翻转。 我们...[43]这是一个很好的例子。我们将批处理大小设置为表2. 每个类别的平均前1准确度(%)。方法CIFAR1005个步骤 10个步骤 20步TinyImageNet5个步骤 10个步骤 20步微调9.094.492.768.124.342.33联合72.2472.2472.2458.1958.1958.19EWC [16]26.2619.923.8214.636.733.62LwF [19]39.5118.0012.5840.6224.4322.62LwM [7]40.4938.3933.6528.3927.1823.55EEIL [3]45.2641.3634.8432.0328.9327.25[25]第二十五话54.0651.1141.2041.8141.3938.68UCIR [12]51.1346.0038.3135.7332.9529.23德国[39]66.3365.76----通过[43]56.5347.5447.3047.0041.5029.04SDC [40]57.6252.2648.8447.8945.4141.46壮举.漂移(GM-MLP) 57.91 54.45 50.63 47.48 45.19Sem等漂移(GM-MLP) 58.33 54.15 50.85 47.92 46.21融合†(GM-MLP)58.89 55.95 51.61 47.95 46.36 42.43融合(GM-MLP)59.37 55.9951.9148.56 46.50 42.81壮举.漂移(VM-VAE)56.9958.1758.7658.7253.6955.3855.5056.8651.0951.6551.7251.7547.8848.6048.7448.5744.6746.2446.4646.9241.0543.4442.7244.61Sem等漂移(VM-VAE)Fusion†(VM-VAE)融合(VM-VAE)†在融合损失中不使用相关目标[964,λ自由民主党= 10和λrd=10在所有实验中。数值直接取自[39]。我们使用轻量级DNN来识别γ和γto model模型representation代表drifts漂移. 特别是心理步骤k:a<$k=1/|C0:k|k,C0:k=kCt,我们调查了GM与MLP的使用,我们使用一个条件VAE [30,42]来实现VM,其中超参数是通过实验调整的。我们使用两种消融方法来实现融合损失(4):我们通过(i)归一化特征核矩阵[9]和(ii)恒等映射来定义ρ,即, A=ρ(A)。 得到的结果(ii) 在表中用† 的广泛描述补充材料中提供了Γ和γ的实施和培训详情比较。我们将我们的方法与存储旧类样本的几种CIL方法(EEIL [3],iCarl [25],UCIR [12],DER [39])和其他SotA无样本方法(EWC [16],LwF [19],LwM[7],PASS [43],SDC [40])。至于基于样本的方法,我们存储了20个具有牛群选择的样本[12,25]。我们通过采用[40]中提出的原型漂移补偿来更新过去类的原型来评估SDC[404.第一章在下面的部分中,我们将展示我们的方法如何优于无范例的SotA框架,同时超越一些使用范例的方法。评估指标。我们使用每步增量准确度指标[43],定义为截至当前增量的所有类别其中,Δk表示在步骤k处获得的C类的精度。表2和表3中的准确度结果是在最后一个渐进步骤。补充材料中提供了其他实施6.1. 与最新技术水平的CIFAR100. 表2中给出的结果表明,我们的模型(具有最佳精度)优于最接近的SotA(SDC)1。75%,4.6%和3。07%,5,10和20步。在图4中,为了明确结果的呈现,我们只提供了融合的每步增量精度(GM-MLP和VM-VAE)。结果表明,在整个增量步骤中,我们的模型相对于竞争对手实现了更高的准确性。TinyImageNet. 表2显示,我们的框架优于基于范例的竞争对手和不使用范例的SotA方法[43,40]。特别是,我们的漂移模型产生优越的性能w.r.t.SDC [40].当语义和特征表示漂移被联合考虑时,这尤其正确,表明它们都通过模型融合单独建模关键和补充信息,这并不完全被SDC捕获[40]。CUB200-2011。表3表明,非范例方法提供的结果相当低,特别是当前1位准确度(%)前1位准确度(%)16741表3.每个类别的平均前1准确度(%)。开始(通过)旧课程开始(Fusion-GM-MLP)旧类别结束(通过)旧类别结束(融合-GM-MLP)旧类别1.21.00.81.21.00.8差异(通过)旧类别差异(融合-GM-MLP)旧类别0.020.010.020.01图5.标准化距离bw。在第一步和第二步看到的类的估计原型 , 在 第 二 步 的 开 始 ( 左 ) 和 结 束 ( 中 ) 捕 获(CIFAR100,20步)。我们报告两个测量值之差的绝对值(右)。†在融合损失中不使用相关目标[9增加了增量步骤。采用[40]中提出的方法来补偿使用softmax分类器的原型类型的建模偏移似乎没有任何有益效果,表明它无法充分建模。渐逝欧氏距离估计1.41.21.00.80.60.40.20.00 5 10 15 20增量步进1.000.990.980.970.960.95渐逝余弦相似性估计通过SDC融合(GM-MLP)0 5 10 15 20增量步进在类之间具有高语义相似性的细粒度分类设置中的Mantic漂移。另一方面,我们的框架证明了成功地捕获模型表示-图6.估计和瞬逝前的平均距离旧类的totypes(CIFAR 100,20个增量步骤)。通过注入旧类的最新知识,事实上,我们可以更有效地减轻灾难性的遗忘。图4中显示的每步精度值证实了表3中给出的精度结果。6.2. 消融研究使用GM和VM建模漂移我们的框架估计倏逝距离(CIFAR100)1.41.21.00.80.60.40.20.040 50 60 70 80 90100观察班估计的倏逝距离(CUB200)76543210100 120 140 160 180 200观察班支持使用不同GM和VM实现漂移模型我们研究了GM(MLP)和VM(VAE)对不同漂移的建模精度以及它们在SEC中的融合。6.1.结果表明,GM和VM的准确性取决于数据的统计充分性,这会影响fθ和学习表示的容量,如下所示:• 在Cifar100数据集上,对于较小的(例如,5)步骤,其中与较大的(例如,20)步骤。我们推测,这一结果可以归因于训练模型使用统计上不充分的数据代表所有类在每一步。• 在TinyImageNet上,包含比Ci-far 100更大的图像,VM(VAE)的性能与GM(MLP)相当,并且在较小的步长上略优于GM(MLP)。• 在包含最大图像的CUB200上,VM(VAE)在所有步骤中的性能都优于GM(MLP)。分析语义漂移:我们研究了所提出的框架如何捕捉和保留表示的老类和新类之间的语义关系,通过建模语义漂移。我们表示类间关系的欧氏距离之间的原型(那些估计旧类和计算的可用数据为新类)和跟踪这些措施的演变在一个增量步骤。在图5中,我们报告距离值com-图7.旧类的估计原型和消失原型之间的平均欧几里得距离。在增量步骤的开始和结束处,加上它们的差(距离沿着新类轴标准化我们注意到,通过利用建模的语义漂移来估计的原型往往更有效地保持它们的关系,而保持原型类型固定(如在PASS中)会导致在学习新的表示时损害类间关系。分析渐逝表示的特征漂移:我们计算旧类的估计原型之间的欧几里德和余弦距离(即,在训练数据上计算并固定[43],或由[40]或由漂移模型更新)和它们的参考(即,渐逝)表示(在测试集上计算)在每一步(图。(六)。结果表明,与SotA PASS和SDC方法相比,我们提出的方法可以更有效地跟踪渐逝原型的轨迹(就几何距离而言),通过对表示的演变进行建模 ( 即 , 特 征 漂 移 ) 。 在 图 7 中 , 我 们 比 较 了CIFAR100和CUB200上不同总步数的估计原型和渐逝原型之间的归一化距离。我们观察到,我们的方法总是优于PASS。这对于CUB200上的20步设置尤其明显公司简介方法5步骤10步骤20步骤微调关节74.67 74.67 74.67EWC [16] 10.63 6.43 4.65[19] 26.40 13.65 7.89通过[43] 52.14 37.97 18.29SDC [40] 52.30 38.30 18.17壮举. 漂移(GM-MLP)55.87 50.67 31.36Sem等漂移(GM-MLP)56.51 47.89 32.50融合†(GM-MLP)56.20 52.07 36.67融合(GM-MLP)56.28 51.82 37.99壮举. 漂移(VM-VAE)57.39 51.29 32.72Sem等漂移(VM-VAE)57.3451.88 33.34Fusion†(VM-VAE)56.59 52.00 36.80融合(VM-VAE)56.9752.58 38.26通过SDC融合(GM-MLP)步骤20步骤步骤510离子-VAE)我们的(Fus通过新类新类16742ΣC∈FC{}∼−||−||−||−||70656055500.200.220.240.260.280.300.32零点三四归一化估计消逝原型距离图9.前1准确度(%)与估计和消逝的旧类原型之间的标准化欧几里得距离之间的关系每个点描绘单个训练阶段,并且透明度的降低指示逐渐增加的递增步骤。对于每一步,准确度值已经在迄今为止观察到的所有类别上取平均值,距离在所有过去的类别上取平均值(CIFAR 100,20步)。图 8. 从 测 试 集 的 样 本 ( 点 ) 提 取 的 前 四 个 学 习 类(CIFAR100,20步)的特征表示,以及在可用训练数据(正方形)、测试数据(菱形)和估计原型(菱形)上计算的原型。在下面的图中,透明度的降低和亮度的增加指示表示是以逐渐增加的增量步长(即,在步骤0、10和20处)。1.61.41.21.00.80.60.4基于原型分布0 5 10 15增量步进基于原型分布2.01.81.61.41.21.00.80 5 10 15增量步进图10. Avg. pF的熵H和CE(CIFAR100,20步)。其中,我们的方法联合显示了比SotA准确性提高20%的最大改进。我们在图中可视化了特征向量8使用Isomap [31]。我们观察到,我们提出的方法估计原型更接近他们的消逝版本相比,PASS,以下的轨迹消逝表示旧类,而无需访问这些类的训练数据。CE(Fusion-GM-MLP)051015202530354045505560657075808590951357911131517 19增量步进3.53.02.52.01.51.00.5前1位准确度(%)(融合-GM-MLP)806040201357911131517 19增量步进分析学习的渐逝表示如何影响分类准确性:我们研究了增量准确性与估计和渐逝原型之间的归一化距离之间的关系(图1)。第9段)。我们注意到,准确度和原型距离是负相关的,不同的方法具有相似的趋势。因此,通过更准确地跟踪和建模evanes- cent老类原型,我们的方法产生优越的perfor- mance相比,SotAPASS和SDC方法。表示的统计分析:我们首先计算p F(c)=exp(F πc)2/exp)/js= 0(F π j)2/π j),其中Fold是测试样本的表示,由当前特征提取器提取的旧特征,是旧的估计原型,并且将k设置为0。1.一、我们在图10和图11中分析了pF在增量步骤中的熵(H)和交叉熵(CE)的变化。我们观察到,与PASS和SDC相比,我们的方法提供了更高的H和更小的CE。这一结果表明,与SotA相比,通过我们的方法学习的表示的信息容量随着分类准确性的增加而增加,因为模型是增量训练的。图11.在多个增量步长(CIFAR100,20个步长)下计算的p F和前1精度的类平均CE。7. 结论我们确定了在CIL灾难性的遗忘的原因,表示为了在CIL中使用渐逝表示并提高分类模型的准确性首先,我 们 的 目 标 是 模 型 的 特 点 和 语 义 漂 移 的representations。然后,通过利用漂移模型,我们能够在不存储任何样本的情况下推断出以前任务的最新表示,并利用它们来保存过去的知识。我们已经在多个CIL基准上评估了我们提出的框架在分析中,我们提出的方法实现了无样本SotA的准确性。我们还提供了对学习表示和漂移模型的几何和统计特性的详细消融研究。我们相信,我们提出的框架和方法建模漂移将导致新的研究方向CIL,如多层次优化的分层模型的组成损失函数的不断发展的representations,和
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功