没有合适的资源?快使用搜索试试~ 我知道了~
基于领域感知分类表示的一般增量学习方法
14351基于领域感知分类表示的一般增量学习谢江伟1* 严世鹏1,3,4何旭明1,21上海科技大学信息科学与技术学院2上海市智能视觉与成像3中国科学院上海微系统与信息技术研究所4中国科学{xiejw,yanshp,hexm} @ shanghaitech.edu.cn摘要持续学习是在现实应用中实现人类智能的一个重要问题,因为智能体必须不断积累知识以响应流数据/任务。在这项工作中,我们考虑了一个普遍的,但尚未充分探索的增量学习问题,其中类分布和类特定的域分布随时间而变化。除了课堂增量学习的典型挑战外,这种设置还面临着类内稳定性-可塑性困境和类内领域不平衡问题。针对上述问题,提出了一种基于EM框架的领域感知持续学习方法。具体来说,我们引入了一个灵活的类表示的基础上的von Mises-Fisher混合模型来捕捉类内的结构,使用扩展和减少策略动态增加组件的数量根据类的复杂性。此外,我们设计了一个双层平衡的内存,以应对数据的不平衡内和跨类,它结合蒸馏损失,以实现更好的内部和类的稳定性可塑性权衡。我们在iDig- its、iDomainNet和iCIFAR-20三个基准上进行了详尽的实验结果表明,我们的方法始终优于以前的方法显着的幅度,证明了它的优越性。1. 介绍为了实现人类水平的智能,学习系统必须在不断变化的环境中随着时间的推移不断地积累知识,这被称为持续或增量学习[5]。为了应对现实世界的情况下,我们考虑一个一般的增量学习问题[3,18],其中类分布,* 两 位 作 者 贡 献 相 同 。 本 工 作 得 到 上 海 市 科 技 计 划 项 目21010502700的资助传入数据的类和类特定域分布在顺序学习会话中连续变化这需要一个模型不仅增量学习新的类概念,而且还学习先前学习的概念的新变体。关于一般增量学习的现有工作典型地集中在在线类增量学习设置上[3,18],由于其严格的计算/存储器约束,其必须牺牲性能。在这项工作中,我们的目标是解决离线增量学习设置,它有可能实现比在线对应物更高的性能。我们注意到,不像离线类增量学习[7],这个一般的增量学习问题还面临类内稳定性-可塑性困境,这是指在适应新的示例和保留类的当前知识之间的权衡,以及类内域不平衡问题,其中模型由于内存有限而偏向传入域。类内问题特别具有挑战性,因为域标签在实践中通常是未知的。目前关于班级增量学习的研究大多集中在改善班级间稳定性-可塑性权衡和不平衡问题[7,25]或主要试图解决班级内稳定性-可塑性困境[29,30,33]。最近关于在线类增量学习的研究[3,18]通常忽略了数据分布的类内结构特别是,这些方法通常采用相同的特征表示的数据从传入和现有的领域的一个类,这使得它很难学习新的领域没有干扰与以前学习的表示该类。这样的域不变表示牺牲了类内的可塑性,往往导致类内可塑性和稳定性之间的权衡不佳在这项工作中,我们开发了一个新的领域感知学习框架的一般增量学习问题,使我们能够解决类间和类内14352以统一的方式挑战。为此,我们引入了一个灵活的类表示的基础上的von Mises-Fisher(vMF)的混合模型,以捕捉类内的结构和一个双层平衡的内存,以应付数据的不平衡,在类内和跨类。详细地说,我们在每个类的深层特征上构建了一个vMF混合模型,以学习域感知表示,并设计了一个扩展和减少策略,以动态增加新会话中组件的数量。结合类间和类内的遗忘抵抗策略,如删除,我们的设计是能够实现更好的类间和类内的稳定性和可塑性的权衡。此外,基于学习的类表示,我们提出了一个平衡的记忆在两个类间和类内的水平,以减轻对新的类和新的领域的偏见。为了学习我们的领域感知表示,我们设计了一个迭代的训练过程,用于在每个增量会话中进行模型更新。具体来说,当新数据到来时,我们首先继承从上次会话中学习的模型,并为每个传入类别的混合模型分配然后,我们采用期望最大化(EM)算法来联合学习主干模型和混合模型,将输入数据的组件分配视为潜在变量。我们结合了克服类间遗忘的策略,如[13,27,37],并分别采用类内知识蒸馏来减轻类间和类内灾难性遗忘。在每次模型更新之后,我们进一步执行基于层次聚类的混合减少步骤,以保持紧凑的聚类结果。在推理过程中,我们首先通过骨干网络提取输入特征,然后推断其组件在类中的分配,然后将具有最大组件概率的类作为预测。我们通过在三个基准上与先前的增量学习方法进行广泛比较来验证我们的方法:iDigits、iDomainNet和iCIFAR-20。对于每一个基准测试,我们进行了实验,随着时间的推移,不同的类和实证结果和消融研究表明,我们的方法始终优于其他方法在所有基准。总之,我们工作的主要贡献有以下三个方面:• 我们提出了一个新的离线一般增量学习问题,其中类分布和类内域分布都随时间不断变化。这一问题在类间和类内都存在稳定性-可塑性困境和不平衡问题。• 我们提出了一种基于vMF混合模型的方法来学习域感知表示,以解决一般的稳定性-可塑性困境,并开发了一种双层平衡内存策略来缓解类间和类内数据不平衡问题。• 在三个基准上进行的大量实验表明,我们的策略始终优于现有的方法,具有相当大的优势。2. 相关作品增量学习的现有文献可以从问题设置、稳定性-可塑性困境和不平衡策略三个角度问题设置大多数以前的工作集中在类增量学习[4,6,9,13,23,28,30,35,37,38]或域增量学习[29,30,33]。只有少数尝试[1,3,18]解决了一般的增量学习问题,但这些方法主要是以在线方式从数据流中学习相比之下,我们研究离线学习设置,它允许在每个增量会话中多次传入数据。这种模式在许多现实世界的应用中很重要[14,22],其中离线学习通常优于在线版本。据我们所知,我们是第一个解决一般的增量学习,允许离线培训课程。最近的几项研究解决了类增量域自适应问题[17,36],其目的是使在源域上训练的模型适应包括新类的目标域。它们主要关注目标域上的性能,因此不需要应对类内遗忘挑战。相比之下,我们的工作要求模型不仅在旧类和新类上表现良好,而且在这些类的旧域和新域同样值得注意的是,虽然没有数据存储器的持续学习在文献[32,40,42]中引起了很多关注,但这些方法通常不如那些具有有限数据存储器的方法有效地存储旧示例[9,37]。在这项工作中,我们允许方法访问有限数量的以前见过的例子,如在大多数现有的增量学习方法。稳定性-可塑性困境为了缓解学习表征的遗忘,目前的持续学习方法可以大致分为三类。第一种是基于正则化的方法[6,10,15],其直接在参数上添加正则化以防止重要参数的急剧变化。第二种是基于蒸馏的方法[4,9,13,28,30,35],它采用知识蒸馏来通过惩罚先前和当前模型的输出之间的差异来保留表示。第三种是基于结构的方法[24,37],它在每个新会话中分配新参数,并防止在先前会话中学习的表示的变化然而,这些方法中的表示通常是域不变的,这不能在不牺牲类内稳定性的情况下提供足够的类内可塑性。相比之下,我们的方法可以实现14353Σ不|∪FMF||∈|--∥ ∥·L∩̸∅−不不不通过发现和保持类内结构,更好地解决稳定性-可塑性困境不平衡策略不平衡问题主要是由内存大小有限引起的。为了解决这个问题,大多数作品[4,13,34,41]在学习表示后调整分类器权重或类别之间的预测对数以消除偏差。我们注意到,这些工作主要集中在解决类间不平衡问题,不能处理或容易扩展到解决类内域不平衡,由于丢失的域标签。相比之下,我们的工作可以同时实现类间和类内的平衡与EM框架中的域标签估计的帮助。3. 方法在这项工作中,我们的目标是解决一般的增量学习问题,其中类和域分布随着时间的推移而变化。为此,我们建议学习一个域感知的表示,能够实现更好的稳定性,可塑性权衡在内部和类间的水平。特别是,我们为每个类开发了一个混合模型来捕获类内结构,并通过一个新的基于EM的框架来学习混合模型。我们首先在第二节中提出问题设置。3.1,其次是模型架构的介绍。3.2.然后,我们介绍了模型的适应在每一个会话中。3.3节中的内存选择策略。3.4,恢复。最后,我们描述的推理过程中。三点五3.1. 问题设置首先,我们介绍了一般创新学习的问题设置。 正式地,在会话t,模型ob-服务输入数据Dt={(xi,yi)}Ntwhere xi ∈ XzZ=y,p(xy,z,t)是给定类y和域z的条件数据生成为了简单起见,我们假设p(x y, z,t)在这项工作中不会随着会话而改变,这在现实世界的场景中经常成立在会话t,由于内存限制,模型只能保留数据集的一个小子集,记为内存Mt+1。在会话t处可用于训练的数据是以下项的并集:Dt和Mt,记为Dt=DtMt. 如果符号清晰,我们在下面的小节中省略下标t3.2. 模型架构在会话t,我们的模型由一个参数为θ的骨干网络和一个参数为θ的混合模型组成。 我们将整个模型的参数表示为Θ =θ,θ。具体地说,给定图像x,我们提取特征v = θ(x). 我们对特征v进行L2归一化,得到单位长度的特征向量v∈=v/v,以消除不平衡问题(遵循[13]中的实践)。 对于每个类别,我们使用混合模型对每个V上的特征分布建模如下:启彦p(v)|y)=P(z =k| y)p(v)|z =k,y)(2)k=1其中,Ky是y类混合模型中的组分数,P(zy)表示组分比例,其服从多项式分布。 在实践中,我们将分布P(z = ky)= 1/ky设为均匀分布,以减轻类内域不平衡的问题。 此外,概率密度函数p(v|z,y)=Cd(κ)eκμπιy,zv在Mises-F i sher(vMF)分布[2]上遵循v,可以认为是多元正态分布超球体上的方向特征的分布具体地说,浓度参数κ≥0,d≥2,t ti=1t我归一化系数C(κ)=κd/2−1表示第i个图像,yt∈Ct是它的类标签,Nt是d(2π)d/2Id/2−1(κ)新例子的数量。在这里,我们假设每个类都有多个域,表示类中的不同变体,例如。背景或风格变化。我们称之为联合国-将数据点(xi,yi)的域标签作为zi,以及其中Ir()表示第一类和第r阶的修正贝塞尔函数。请注意,为了方便起见,我们假设每个组件共享相同的κt t tzi∈Zc,其中Zc是它的定义域标号空间.类别标记模型的空间是所有观测类Ct=Ci=1:tCi,3.3. 模型自适应现在,我们介绍我们的增量学习策略(请参见定义域标号空间为Zy =i=1:tZy(对于类)我不是y. 值得注意的是,图1为概述)。具体来说,要在于伊P(Ct<$Ct−1<$=<$)>0且在一次会议上,我们首先制定了一个扩张和缩小战略,P(Z tZ t1=)>0,这意味着先前观察到的类别或域可以重复地出现在随后的 会话中。损失函数(y,y)其中y是基础事实,y是标签预测,与模型M相关的风险定义如下EyP(y|t)[Ez<$P(z|y,t)[Exp(x|y,z,t)[L(y,y∈)](1)其中P(y|t)表示y∈C∈t上的类分布,P(z |y,t)指的是类特定的域分布EGY来动态地确定混合模型中的组分的数量这使得模型能够更好地适应新的分布,特别是当类中的域数量发生变化时。给定一个模型结构,然后我们引入一个基于EM的框架来学习混合模型,将其组件分配作为潜在变量。具体来说,我们在每个会话开始时扩展混合模型,然后使用EM框架联合学习骨干模型和混合模型最后,14354∈LMy-|ΣΣ|不m组分到相应的混合物模型ni+njLQ1 ΣΣ图1. 方法概述:在会话t,模型从最后一个会话的状态开始。它观察传入的图像,并将它们映射到特征空间中的单位超球体。对于传入类别中的类(如图中的c 1),我们首先扩展每个传入类的混合模型,然后使用EM框架进行学习。在E-step中,我们通过选择具有最接近均值μ的分量来执行分量分配。在M-step中,我们更新了嵌入网络和混合模型的整体损失。在学习之后,我们执行混合模型约简以减少每个类的冗余分量。我们执行混合模型简化以保持紧凑的表示。由于每个类的新域的数量是未知的,我们首先增加组件的数量,然后使用缩减步骤来获得模型训练后的最终组件数量在在每个会话t的开始,模型M被继承在实践中,我们采用了一个层次聚类的原始组件,这是合理的经验。我们将每个分量视为不同的聚类,然后递归地合并每个类内距离小于预定义阈值δ的聚类对。为了合并成对的聚类i和j,如下更新n-w分量的vMF密度的平均值从上一届会议,然后扩大与新的组件和/或混合模型。具体地,对于每个类y∈C,ninjµ=(vi+vj),l=1q=1µ=(四)如果先前已经遇到Y(即,yCt−1),或者如果y为一个新的类,其中新添加的组件被随机初始化,并且m是一个大的数字。在扩展之后,V上的特征分布变为Kt−1+my其中n i、n j是关于iv el y的聚类i和j中的示例的数量。是第i个聚类中的第l个示例的归一化特征。模型学习为了学习领域感知的分类表示,我们开发了一个EM学习算法,p(v)|y)=kΣ=1P(z=k|y)p(v)|z=k,y)(3)用有限的存储器训练整个模型,其中图像x的分量分配z被视为潜在变量。给定数据x的对数似然可以是其中,Kt−1是y类的最终分量数,会话t1和P(z= ky)保持均匀分布。在模型学习之后(如下所述),我们执行混合模型简化步骤以避免用冗余分量过度分割特征空间。写为logP(y |x,Θ)≥ EQ(z)logP(z,y |X;Θ)Q(z)(五)或者增加整个模型的复杂性。具体而言,我们将vMF分量分组,并通过新的单个vMF密度重新表示每个我们可以将vMF组件聚类视为标准的数据聚类,并要求数据点共享相同的原始vMF其中右手EQ(z)[log(P( z,yx; Θ)/Q( z))]是证据下限(ELBO)。在E步中,我们使用来自最后一个M步的学习参数Θ'计算组件分配的新估计,表示为Q(z)。具体来说组件应该在同一个输出组件中结束Q(z)=z=z哪里是指示器函数,并且我们添加·)||µ||¢)¢14355||启彦 ΣΘ|˜D|ΣCLFCLFB||Σ|D~|嗯,我我 我LLz定义为z=argmaxP(z=kx,y;Θ′)K为了防止类内遗忘并保持学习到的类内结构,我们在每个类内采用知识蒸馏损失,其定义为= argmaxp(x|z = k,y; Θ′)P(z = k|y)|D˜||C˜|kKyp(x|z = l,y; Θ′)P(z = l|y)(六)Ldis = 1 Σ 1 ΣKL(P(z|y = c, x ; Θ)||=argmaxµyKl=1,kv|D˜| i=1 |C˜| c=1我P(z |y = c,xi;Θ旧))(十二)其中,µy,k是类别y的第k个分量的平均值。换句话说,我们通过在hype r -球面上取具有最接近平均特征的分量来更新图像x在类y中的分量分配。相比之下,其中Θold是来自连续会话的学习模型的参数。此外,我们在每个类的混合模型上引入分量正则化损失[26]来学习紧密聚类,计算如下dard E-step using the posterior P (z y, x; Θ′) as Q(z), our方法可以被视为硬EM近似。Lreg=−11µ˜⊤µ˜(十三)在M步骤中,我们根据所获得的组件分配通过小批量SGD|C˜| y∈C<$i=1j=i+1 Ky(Ky−1)y,iy,j在E步骤。这个优化问题可以重写如下minE(x,y)|p(x,y)[KL [Q|(z)]||P(z |y,x;Θ)](7)-log P(y |x; Θ)],其强制模型学习类间和类内级别的分类。在数据集D中,该期望可以重写如下由于我们在每个开始时使用了许多组件,会话扩展当前模型,这种损失可以防止模型过度分割特征空间。最后,M步中的总损失函数是这三种损失的线性组合,定义如下L总体=L clf +βL dis + ηL reg(14)其中β、η是损失加权系数。3.4. 存储器选择帧间帧内Lclf= Lclf+λ Lclf(8)=−1Σ。log P(y = y |X; Θ)i=1我们引入了一个两级平衡的策略来构建数据存储器Mt,它在每个会话中维护类平衡和域平衡的重放数据集。反cretel y,wefirstass i gnm=B/|C~|每个人的前雇员+λlogP(z =zi|xi,yi;Θ)(9)其中,inter是类间分类损失,intra是指类内分类损失,λ是平衡这两个损失的超参数,并且分量分配的后验计算如下eκµy,kv类,以确保类间的平衡,其中是可以保存的样本的最大数量。随后,给定每个类c的混合模型,我们从类c的每个分量中均匀地选择m/Kc个样本,以实现类内域平衡。我们注意到,这种战略旨在实现更好的平均业绩。3.5. 模型推理P(z = k|y,x; Θ)=Kyl=1你好(十)给定新图像x,模型推断计算其值得注意的是,分量分配z取决于标签y的预测。因此,我们设计了一个λ从零开始逐渐增长的归一化特征v,并通过取特征空间中最接近的分量的类来预测标签y,其可以写为随着标签预测y的质量提高,y=argmaxmaxµc,kv(十五)此外,为了保持类间平衡,我们假设类分布P(y)服从均匀分布,然后预测概率由下式给出:P(y = c|x; Θ)=p(x; θ)|y = c)P(y =c)Ck4. 实验我们进行了一系列的实验来验证我们的方法的有效启彦14356n=1i=1性。在本节中,我们首先介绍Σ|C~t| Km p(x|z = n,y =m)实验装置,包括基准,类型分布的变化和比较方法在第二节。4.1,1千克朗c ek其次是第二节中的实施细节四点二。然后我们在第二节中展示了我们的实验结果四点三。最后Σ|C~t| Kmm=11em,nv(十一)m=1我们展示了我们的方法的分析,以提供更多的见解在第二节。4.4n=1Km14357∼表1.结果:在iCIFAR-20、iDomainNet和iDigits上的会话中,三个代表性分割的平均增量准确度(%)“% s”表示拆分中的会话数。例如,5s意味着此拆分有5个会话。NC(5秒)ND(5s)NCD(10秒)NC(10秒)ND(6s)NCD(10秒)NC(5秒)ND(4s)NCD(10秒)重放74.2272.4767.5645.7347.4042.7483.2292.7580.24iCaRL [33]78.9873.0670.9051.6448.4044.6089.0393.2685.12EE2L [13]78.5073.8670.5252.0348.0343.5489.9793.9185.46Meta-DR [33]73.2271.0966.6546.4048.7344.1589.8994.0086.31UCIR [13]78.1976.0172.5450.1749.2544.5389.4194.1786.29UCIR w/ours78.8278.0875.6250.5252.8549.8190.5195.5090.42[27]第二十七话78.9276.4372.9651.6449.3345.1289.7293.9886.24GeoDL w/ours79.4979.4076.1951.8153.3251.2089.8694.8089.82[第37话]82.1774.8774.5666.5846.7650.0089.0193.6284.80DER w/ours82.5284.0382.1166.8561.0557.0791.3297.0788.65iCIFAR20-NC9080706050iCIFAR20-ND9080706050iCIFAR20-NCD9080706050404 8 12 1620班数4020 20 20 2020班数4010 15 18 19 20 20 20 20 20 20班数重播iCaRL EE2 L GeoDL UCIR DER Meta_DR UCIR w/our GeoDL_Our DER w/our图2.在iCIFAR-20基准测试中的三次分割测试中的性能4.1. 实验装置我们在三个基准上进行了实验,包括iDigits,iDomainNet和iCIFAR-20:• iDigits:我们遵循[33]构建数字识别基准,其中包括 四 个 数 据 集 : MNIST [39] , SVHN [19] ,MNIST-M [11]和SYN [11]。每个数据集代表一个不同的域。• iDomainNet:它是从DomainNet [21]构建的,DomainNet是一个着名的域自适应数据集。它包含六个领域,分别是Clipart、Infograph、Painting、Quickdraw、Real和Sketch。每个域包含345类常见对象。由于这些类中的一些域只包含很少的图像(10),因此我们选择了图像最多的前100个类,总共包含132,673个训练数据。这100个类中最小的域有52个图像。• iCIFAR-20:它基于CIFAR-100 [16],它有20个超类和每个超类的5个子类。这些子类被认为是同一类的不同域,并且模型需要在识别任务中预测超类标签。iCIFAR-20的每个域具有相同数量的训练图像。相比之下,对于iDomainNet和iDigits,每个域都有不同数量的训练图像。我们使用三个代表性的分裂来评估这些方法,以模拟每个基准测试的不同场景,其中类和域的分布发生了变化:• 新类别(NC):传入数据仅包含来自新类别的图像。• 新域(ND):传入数据仅包含来自新域的图像。• 新类别和域(NCD):传入数据包含来自新类别或新域的图像。对于NC拆分,我们通过将iCIFAR-20和iDigits拆分为5个会话来构建iCIFAR-20-NC和iDigits-NC,每个会话分别具有4个和2个类。此外,该模型在iDomainNet-NC上分批训练60个类,总共10个会话。对于ND拆分,每个会话都有所有类,每个类都有一个传入域,其中iCIFAR-20、iDigits和iDomainNet分别拆分为5、4和6个会话。 对于NCD方法iCIFAR-20iDomainNetiDigits准确度(%)14358(a) 跨类别图像上的t-SNE(b)数字0图3.针对iDigits NC分割的会话中DER w/ ours的所有数据的t-SNE可视化。不同的颜色代表左边的类标签和右边的域标签。表2.消融研究:在iCIFAR-20上评价的每个组件的贡献混合模型膨胀-收缩组件分量正则化损失双电平存储器NC最终(%)平均值(%)ND最终(%)平均值(%)NCD最终(%)平均值(%)✗✗✗✗72.0682.0767.3577.1854.3270.64✓✗✗✗72.3981.3868.9880.3968.4778.71✓✓✗✗73.9582.3270.3281.2869.8680.26✓✓✓✗74.1482.4671.9282.0471.5680.97✓✓✓✓74.4982.7780.1384.1173.7082.17分裂,我们将数据集中的所有域分为三个数据集中的每个数据集的十个会话。有关这些拆分的更多信息,请参阅附录。我们采用Replay、iCaRL [25]、EE 2L [4]、UCIR[13]、GeoDL [27]、DER [37]和Meta-DR [33]作为比较方法。这里的重放指的是使用内存和传入数据对模型进行微调。值得注意的是,iCaRL、EE 2L、UCIR、GeoDL和DER都是为解决类增量学习问题而设计的,而Meta-DR是为解决领域增量学习问题而提出的。相比之下,我们的方法主要学习类内结构,并且可以被任何类增量学习方法用来解决类间和类内级别的稳定性-可塑性困境。最后,我们将我们的方法与现有的三种增量学习方法UCIR、GeoDL和DER相结合,进行了实验评估。4.2. 实现细节所有这些方法都是用PyTorch实现的[20]。我们将iCIFAR-20 和 iDigits 中 的 图 像 调 整 为 32 x32 , 将iDomainNet中的图像调整为112 x112。对于iCIFAR- 20和iDomainNet基准测试,我们遵循DER [37]并采用标准ResNet 18 [12]架构作为特征提取器。我们使用SGD优化器来训练网络,每个会话总共有200个epoch。学习率从0.1开始,在80和120 epoch时降低0.1。我们将这两个基准测试的固定内存大小设置为2000例。对于iDigits基准测试,我们选择[13,25]中使用的修改后的32层ResNet,因为它是一个简单的数据集,大型网络很容易过拟合。我们使用SGD优化器为每个会话训练70个 epoch,从学习率0.1开始,在48和63 epoch时减少0.1我们将iDigits的固定内存大小设置为500此外,iCIFAR-20和iDigits的批量大小选择为128,iDomainNet的批量大小选择为256所有基准的重量衰减均为0.0005蒸馏损失系数β=1。方程中的系数λ。(8)对于前10个时期,从0线性增加到0.1,然后固定在0.1。正则化损失的系数η被设置为0.1。对于混合模型的扩展,对于所有基准,将每个类要添加的分量的数目m设置为30。对于混合模型的约简,对于所有基准,阈值δ被选择为0.7。我们运行E步骤以在每个时期开始时更新组件分配。在[9]之后,这些超参数在从原始训练数据构建的val集合上进行调整。4.3. 实验结果选项卡. 1总结了不同方法会话的平均准确度。我们将我们的方法与三种不同的方法-UCIR,GeoDL和DER相结合,因为它们在至少一个分裂上比其他基线表现得更好。在各个基准点上的各种数据分布变化情况下,我们的方法一致地提高了这三种方法的性能,这证明了它的有效性。14359阈值δ= 0。5δ = 0。55δ= 0。6δ = 0。65δ= 0。7δ = 0。75δ= 0。8最终Avg最终Avg最终Avg最终Avg最终Avg最终Avg最终Avg表3.灵敏度研究混合模型简化中阈值δ对iCIFAR-20 NCD分裂方法的影响DER w/ours74.0880.7075.2481.1975.4781.2175.7481.2676.582.1777.4482.0576.4982.01特别地,我们可以看到,我们的方法解决了ND分割上DER的性能瓶颈,并且DER w/ ours在大多数情况下始终实现最高的平均精度,例如,84. iCIFAR 20-ND为11%。此外,UCIR w/ ours在iDigits-NCD分割上表现最佳,为90。42%的准确率。如图所示2,我们观察到,我们的方法始终比其他方法在每个会话的不同分裂。特别是,最终会话准确度从60提高。04%至76。40%(+16. 36%)。此外,我们发现,整合我们的方法可以显着提高现有的类增量学习方法,如UCIR和DER的ND和NCD分裂的性能,同时保持相当的性能NC分裂。关于ND分割,UCIR和GeoDL的性能优于其他基线,这是因为它们的划分基于要素。然而,使用基于logit的蒸馏的iCaRL和EE2L表现更差,因为它们将来自新域的旧类数据的预测变化进行了归一化对于DER,原有的特征提取器不能识别新领域中的旧类数据,影响了其预测效果。 对于NCD分割, DER是iCFIAR-20和iDomainNet的最佳选择,因为它在NC分割上的性能要好得多。此外,Meta-DR在iDomainNet和iDigits上表现良好,但在iCIFAR-20上表现不佳。这是因为iCIFAR-20中的一个域代表一个语义子类,并且域随机化不能解决该域间隙。4.4. 分析消融研究选项卡。2总结了我们对iCIFAR-20的烧蚀实验结果,从DER开始。我们可以发现,我们的方法达到8。NCD按混合物划分模型的平均增量精度提高了07% 我们还表明,该模型的性能是一致的改善,在三种不同类型的discrimination转变与我们的扩展和减少的策略,特别是实现0。89%的收益在ND分裂。此外,它表明,我们可以获得0。添加组件正则化损失后,性能提高了76%最后,我们的方法进一步提高了2。07%的ND分裂和1。20%用于NCD分割,在添加双水平存储器采样方法之后。可视化我们利用t-SNE [31]来可视化在不同位置分割的iDigits ND上的特征嵌入,如图所示。3.第三章。随着会话数量的增加,每个聚类主要只包含来自该领域的示例,这意味着每个聚类的纯度很高。值得注意的是,在这个分裂中的每个类在最后一个会话(t=3)中有四个域,我们的方法可以将大多数类分成四组。此外,我们拍摄了一个类别的图像以进行进一步分析,如图1右侧所示。3.第三章。实验结果表明,该方法能够将大多数实例分配到各自的领域标签,证明了潜变量估计的有效性。敏感性研究我们对混合模型降阶步骤中阈值δ的影响进行了敏感性研究,如表10所3,这表明我们的方法对阈值的小变化是鲁棒的我们还研究了不同的内存大小和新添加的组件数量m的影响,这些都在附录中显示。5. 结论与讨论在这项工作中,我们提出并制定了离线一般增量学习问题,它有许多现实世界的应用。为了应对这些挑战,我们引入了一个领域感知的学习框架。具体地说,我们提出了一种灵活的类表示的混合模型的基础上解决稳定性和可塑性的困境,这是学习的扩展-减少策略和EM算法。此外,我们还开发了一个双层平衡的内存选择策略的基础上学习的混合模型的不平衡挑战。我们在三个基准上进行了验证性实验,以验证我们的方法的有效性。实验结果表明,我们的方法始终优于其他方法的三个代表性的分裂为每个基准。此外,将我们的方法应用于其他视觉任务(如视频分类[18]和语义分割[8])作为未来的工作是有意义的。局限性和负面影响我们的方法是专为允许访问有限的旧示例而设计的,并且不能用于没有记忆的设置。由于我们的方法不断使用传入数据更新模型,因此恶意应用程序可以利用它来使用新数据升级其14360引用[1] Rahaf Aljundi、Eugene Belilovsky、Tinne Tuytelaars、Lau- rent Charlin 、 Massimo Caccia 、 Min Lin 和 LucasPage- Caccia。最大干扰检索的在线持续学习。神经信息处理系统进展(NeurIPS),2019年。2[2] Arindam Banerjee,Inderjit S. Dhillon,Joydeep Ghosh,and Suvrit Sra.基于冯米塞斯-费舍尔分布的单位超球面聚类。J.马赫学习. Res. ,2005年。3[3] Pietro Buzzega 、 Matteo Boschini 、 Angelo Porrello 、Davide Abati和Simone Calderara。黑暗的经验,一般持续学习:一条简单有力的底线在Hugo Larochelle,Marc一、二[4] 弗朗西斯,c oM。曼努埃尔?卡斯特罗我的吉姆·内兹,尼科尔·阿吉尔,科迪莉亚·施密德,卡提克·阿拉哈里。端 到 端 的 创 造 性 学 习 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV)的会议记录中,2018年。二、三、七[5] 斯蒂芬·K查拉普生物和机器学习系统中的增量学习。国际神经系统杂志,2002年。1[6] Arslan Chaudhry 、 Puneet K Dokania 、 ThalaiyasingamAjan-than和Philip HS Torr.渐进学习的黎曼步行:理解遗忘和不妥协。欧洲计算机视觉会议(ECCV),2018年。2[7] Matthias Delange、Rahaf Aljundi、Marc Masana、SarahParisot、Xu Jia、Ales Leonardis、Greg Slabaugh和TinneTuytelaars。持续学习调查:在分类任务中挑战遗忘。IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),2021。1[8] Arthur Douillard , Yifu Chen , Arnaud Dapogny , andMatthieu Cord. PLOP:学习而不忘记持续的语义分割。IEEE/CVF计算机视觉和模式识别会议(CVPR),2021年。8[9] Arthur Douillard , Matthieu Cord , Charles Ollion ,Thomas Robert,and Eduardo Valle. Podnet:用于小任务增 量 学 习 的 池 化 输 出 。 欧 洲 计 算 机 视 觉 会 议(ECCV),2020年。二、七[10] Sayna Ebrahimi,Mohamed Elhoseiny,Trevor Darrell,Marcus Rohrbach.贝叶斯神经网络不确定性引导的连续学习。在国际会议上学习表示(ICLR),2019年。2[11] Yaroslav Ganin和Victor S. Lempitsky通过反向传播的无监督主适应。在2015年的国际机器学习会议(ICML)上。6[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年。7[13] Saihui Hou , Xinyu Pan , Chen Change Loy , ZileiWang,and Dahua Lin.通过以下方式增量学习统一分类器再平衡在IEEE计算机视觉和模式识别会议(CVPR)上,2019年。二三六7[14] Dapeng Hu , Shipeng Yan , Qizhengqiu Lu , LanqingHONG , Hailin Hu , Yifan Zhang , Zhengguo Li ,Xinchao Wang,and Jiashi Feng.自我监督的预训练在流数据中的表现如何在国际会议上学习表示(ICLR),2022年。2[15] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness , Guillaume Desjardins , Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘美国国家科学院院刊(PNAS),2017年。2[16] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。2009. 6[17] Jogendra Nath Kundu,Rahul Mysore Venkatesh,NaveenVenkat,Ambareesh Revanur,and R.文卡特什先生类-增量域适配。在Andrea Vedaldi,Horst Bischof,ThomasBrox和Jan-Michael Frahm,编辑,欧洲计算机视觉会议论文集(ECCV),2020年。2[18] Vincenzo Lomonaco和Davide Maltoni Core50:用于连续对象识别的新数据集和基准。2017年第一届机器人学习年会(CoRL)。一、二、八[19] Yuval Netzer , Tao Wang , Adam Coates , AlessandroBis- sacco,Bo Wu,and Andrew Y. Ng.使用无监督特征学习读取自然图像中的数字。NeurIPS深度学习和无监督特征学习研讨会,2011年。6[20] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 7[21] Xingchao Peng,Qinxun Bai,Xide Xia,Zijun Huang,K
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功