没有合适的资源?快使用搜索试试~ 我知道了~
深度网络的增量学习:平衡训练、减少错误
831以前的知识通过重新平衡增量学习统一分类器侯赛辉1人,潘新宇2人,陈昌来3人,王自磊1人,林大华2人1中国科学技术大学、2香港中文大学、3南洋理工大学网址:saihui@mail.ustc.edu.cn,网址:px118@ie.cuhk.edu.hkccloy@ntu.edu.sg,网址:dhlin@ie.cuhk.edu.hk,zlwang@ustc.edu.cn摘要传统上,深度神经网络的训练依赖于预先准备的大型数据集。这种范例在现实世界的应用中经常受到挑战,旧类嵌入新类嵌入e.G. 在线服务涉及持续的信息流,即将到来的数据。近年来,增量学习受到越来越多的关注,并被认为是解决上述实际挑战的一个有前途的解决方案。然而,人们已经观察到,增量学习受到一个根本性的困难-灾难性遗忘,即使模型适应新数据,通常会导致先前任务或类的性能严重下降。我们的研究表明,以前和新数据之间的不平衡是造成这一问题的关键原因。在这项工作中,我们开发了一个新的框架,用于增量学习一个统一的分类器,即。一个分类器,它统一地对待新老类。具体来说,我们将三个组件,余弦归一化,少忘约束,和类间不平衡的磁力偏差新类嵌入旧类嵌入余弦归一化少忘约束负锚积极歧义类间分离分离,以减轻不平衡的不利影响。实验表明,该方法能有效地重新平衡训练过程,从而获得优于现有方法的性能.在CIFAR- 100和ImageNet上,我们的方法可以在10个阶段的增量设置下分别将分类错误减少6%和13%以上。1. 介绍增量学习是一种学习范式,它允许模型在新数据上不断更新,而不是在整个数据集上训练一次。近年来,创造性学习看到了来自现实世界应用的日益增长的需求-其中许多应用在日常操作期间暴露于连续的数据流。增量学习的一种自然方法是在新数据上简单地调整预训练模型。然而,这种方法面临着一系列的问题,*表示共同第一作者。图1.说明了多班级渐进式学习中新旧班级不平衡所造成的不利影响,以及我们的方法如何解决这些问题。我们的挑战更具体地说,在新数据上微调模型通常会导致以前数据的性能显著下降。为克服这一困难,人们付出了巨大努力,主要有两个方向:(1)试图识别和保留原始模型的重要参数[21,37,1],以及(2)试图通过知识蒸馏等方法保留原始模型中的知识[24,2,28,29,19,15]。 尽管这些方法在一定程度上减轻了灾难性遗忘的影响,但总体表现仍明显低于联合训练。在这项工作中,我们旨在探索一种更有效的方法,to incremental增量learning学习.特别是,我们专注于多类设置,旨在学习一个统一的分类器,可以832识别不同阶段的所有类别。与传统的多任务设置相比,其中模型被训练为处理不同的任务,每个任务专用于单独的类组,多类设置更现实,但也更具挑战性。当我们研究这个问题时,我们发现,在前几个阶段看到的旧阶级和当前阶段的新阶级之间的不平衡构成了一个关键挑战。具体地,训练算法只看到旧类的零个或几个样本,而看到大量新类。在这种情况下,训练过程的重点明显偏向于新的类,从而导致对类特定权重的一些不利影响,如图1所示:(1)不平衡的幅度:新类的权向量的大小明显高于旧类;(2)偏差:先前知识,即旧类的特征和权向量之间的关系没有很好地保持;(3)歧义:新类别的权重向量接近旧类别的权重向量,这常常导致模糊性。这些效应的组合会严重误导分类者,导致决策偏向新类,而旧类之间则会出现混乱。针对这些问题,我们提出了一个新的框架,学习一个统一的分类器下的增量设置。特别是,它包括三个组成部分,以减轻不平衡造成的不利影响:(1)余弦归一化,其在所有类(包括旧类和新类)上强制平衡幅度;(2)less-forget约束,旨在保持旧类的几何结构;(3)阶层间的分离,鼓励新老阶层之间的大幅度分离。通过使用这些技术重新平衡训练过程,所提出的框架可以更有效地保留在先前阶段中学习的知识,并减少新旧类之间的歧义。我们系统地比较了CIFAR-100 [22]和ImageNet [7]在多类设置下的不同增量学习方法。在我们的实验中,所提出的框架的表现明显优于基线。例如,在CIFAR100和ImageNet上10个阶段的增量设置下,我们的方法可以分别将分类错误减少6%和13%以上。2. 相关工作2.1. 增量学习增量学习是一个长期的研究领域[4,30]。近年来,随着深度学习的成功,深度神经网络的增量学习成为一个活跃的话题,现有的工作主要分为两类:基于参数的和基于蒸馏的。基于参数。这一类的方法,如EWC [21],SI [37],MAS[1]试图估计原始模型中每个参数的重要性,并增加对重要参数变化的惩罚。这些工作的不同之处在于计算参数重要性的方法。然而,设计一个合理的度量来评估所有参数是困难的,特别是在长序列的任务或类中。基于蒸馏。 知识蒸馏 正如[14]中所讨论的,是将知识从一个网络转移到另一个网络的有效方法。它首先被引入无遗忘学习(LwF)[24]中的增量学习,其中修改的交叉熵损失用于保留原始模型中的知识。Aljundi等[2]建议在不同的任务上训练多个网络,并采取自动编码器为每个测试样本选择一个。 Rannen等人[28]还引入了一个自动编码器,以保留旧任务的关键功能。Hou等人[15]建议利用知识提炼来促进对新任务的适应。注意,上面提到的作品[24,2,28,15]都遵循多任务设置,即。训练好的模型配备了多个分类器,每个分类器只对来自单个任务的数据进行评估。多类设置的目的是为迄今为止观察到的所有类学习统一的分类器,在以前的努力中也进行了探索[19,29,3]。Jung等人[19]考虑可以被视为增量学习的特殊情况的域扩展,并提出依赖于两个属性的解决方案,即不变的决策边界和特征邻近度。iCaRL [29]结合了知识蒸馏和表示学习,有几个新的组件,例如,最接近样本平均值的分类和优先样本选择。 Castro等人[3]在保留的旧样本上采用复杂的数据增强,报告了更好的性能。讨论 在这项工作中,所提出的方法属于蒸馏为基础的类别。但它与以前的作品在一个关键方面有所不同:除了简单地结合不同的客观条件来平衡新旧类之外,我们还仔细研究了不平衡的不利影响,并提出了一个系统的解决方案,从多个角度克服了这个问题。值得注意的是,以前的工作还探索了增量学习的其他想法,例如采用动态网络结构[31,36]或使用生成模型为旧类生成样本[35,20]。然而,这些工作是正交的建议的方法,因此可以纳入我们的框架,以实现进一步的改进。833disdisdisOdisCNN特征类嵌入旧模式留样新样本新模式图2.说明我们的多类增量学习方法由于余弦归一化,特征和类嵌入在几何上位于一个高维球体在递增过程中有三种类型的损失除了交叉熵损失Lce在所有类别上计算,LG是在特征上计算的新蒸馏损失(少遗忘约束),并且Lmr是保证金等级损失,以分离旧类和新类(类间分离)。2.2. 应对失衡类不平衡是机器学习的一个重大挑战[18,13]。以往解决阶级不平衡的努力大致可分为两类:数据重新采样[13,6,12]和成本敏感学习[32,17,38,16,9]。前者的目的是通过重分类来重新平衡不同类别中的训练样本;而后者侧重于调整损耗。在这项工作中,我们从不同的角度来解决增量学习中的不平衡,而不是直接调整采样率或损失权重。在类间分离中,我们引入了一种边缘排序损失,它集中在边界上,因此对类间的不平衡不敏感。在以前的作品中,[9]中提出的一个与我们最相关遗忘(26)在下文中,我们将首先回顾学习而不忘记(LwF)[24]和iCaRL [29]作为背景。然后,我们将深入探讨多类增量学习中的不平衡问题,并从不同方面阐述我们的方法如何解决这个问题。所提出的方法如图2所示。3.1. 背景LwF是第一个将知识蒸馏引入多任务增量学习的工作,在这里我们将其适应多类设置。对于每个训练样本x,损失函数是两项之和:分级损失Lce和蒸馏损失LF。具体而言,Lce是标准交叉熵损失[23]:Dong等人[9]提出了一个类校正损失,以校正给定不平衡数据的交叉熵损失的学习偏差。我们的利润率排名损失不同于[9]在采矿Lce(x)=−Σ|C|i=1yilog(pi),(1)积极的和消极的,这是更有效的和专门的增量学习。特别是,我们不依赖于预先训练的模型来定义否定选择的类相似性。3. 我们的方法在这项工作中,我们专注于多类增量其中C是到目前为止所有观察到的类的集合,y是one-hotground-truth标签,p是softmax获得的相应类概率。LF是蒸馏损失,其目的是使当前模型模拟原始模型的被试者,即。在旧类上学习的模型:Σ| CO|分类问题。形式上,给定在旧数据集Xo上训练的模型,我们的目标是学习一个统一的分类器,Fdis(x)=−i=1τi(p)log(τi(p)),(2)基于新数据集X=X <$X′的旧类Co和新类Cn。X是一个大型数据集,涵盖-其中p是由原始生成的x在旧类上的模型,τ(v)=v1/v2/v1/v 2是一个rescal-nonii j jy的新类Cn,而X′<$Xo保留只是一个很小的旧样本的子集。 主要的挑战是如何利用ing函数,其中,通常将k设置为大于1(例如在我们的实验中,严重不平衡的X和原始模型,小值。虽然LF是为了保护古希腊人通过鼓励当前的预测,f*老F*LGdisLmrF弗尔德FFnewLceL8341dis我disdis 特征嵌入 对角度的约束对特征的图3.最后一层中新旧类的权重和偏差的可视化结果来自iCaRL对CIFAR100(1相)的增量设置[29]。旧类,以配合软标签由原来的mod-图4. Less-Forget约束的图解。与固定旧类嵌入的角度约束相比,对特征的约束更强。其中,v<$=v/v<$2表示l2归一化矢量r,并且El. 然而,在我们的研究和[29]中都观察到,v<$1,v<$2v<$Tv<$2测量以下项之间的余弦相似性:适应的LwF倾向于将测试样本分类为新的班为了解决这个问题,iCaRL [29]提出了一种名为最接近样本均值的分类策略。具体地说,它通过对每个类ci∈ C的所有保留样本的特征进行平均来计算原型μi。在推理过程中,它提取测试样本的特征,并为最相似的原型分配类标签。虽然iCaR-L在LwF上有所改进,但其在长类序列上的性能仍然不满足1。总的来说,尽管所有的努力都致力于渐进式学习,但仍有很大的改进空间。如前所述,限制多类设置性能的一个关键问题是新旧类之间的显著不平衡。在这项工作中,我们的目标是解决这个问题,结合三个组件,余弦归一化,少忘约束,和类间分离,从不同的方面来解决的不平衡。在下文中,我们将依次介绍这些组件。3.2. 余弦归一化在典型的CNN中,样本的预测概率x计算如下:exp(θTf(x) +bi)两个归一化向量。引入了可学习标量η来控制softmax分布的峰值,因为nv<$1 ,v<$2<$的 范 围 被限制为[−1,1]。尽管余弦归一化在其他视觉任务中被广泛采用[33,10,27,25],但它首先被引入增量学习。其可有效消除因量值的重大差异而产生的偏差现在,我们重新审视3.1节中基于余弦归一化的增量学习方法。对于样本x,分类损失Lce的计算与等式(1)类似,只是每个类别的概率以不同的方式计算。对于蒸馏损失,由于原始模型中的标量η与当前网络中的标量η不同,因此模拟softmax之前的分数而不是softmax之后的概率是合理的。同样值得注意的是,由于余弦归一化,softmax之前的分数都在同一范围内(即,[-1,1]),因此具有可比性。形式上,蒸馏损失更新为:Σ| C O|LC(x)=−εθε(x)ε,(5)i=1其中f和θ是原始模型中的特征提取器和类嵌入,|Co|是老班的人数-pi(x)=0我exp(θTf(x)+bj)、(3)es.几何上,归一化的特征和类em-jj寝具位于高维球面上。LC鼓励其中f是特征提取器,θ和b是权重(即,类嵌入)和最后一层中的偏置向量。如图3所示,由于类的不平衡,新类的嵌入和偏差的大小都明显高于旧类。这导致了偏向于新类别的预测。为了解决这个问题,我们建议在最后一层使用余弦归一化,如下所示:exp(η<$θ<$,f<$(x)<$)由特征与旧类嵌入之间的角度反映的几何结构将近似地保留在当前网络中。3.3. 少忘约束适应新数据的模型往往会忘记它以前学过。因此,增量学习的实际挑战之一是如何更少地忘记以前的知识。为此,我们引入了一个更少的-pi(x)=0J我exp(η<$θ<$j,f<$(x)<$)、(四)遗忘约束通过一个新的损失LG,它提供了一个更强的约束以前的知识相比,1,L。 具体而言,LC主要考虑当地的通用电气公司,这里描述的iCaRL的实现与disdis原始版本[29]。我们的实现是指[3,35]中的那些已被证明更有效的实现。几何结构,即,归一化的特性和旧的类嵌入。此约束835disdisdisdisdis不能防止嵌入物和特征完全旋转,如图4所示。为了对先前的知识实施更强的约束,我们建议修复旧的类嵌入并计算新的特征蒸馏损失,如下所示:LG(x)=1−f<$$>(x),f<$(x)<$,(6)其中,f′s(x)和f′(x)分别是由原始模型提取的归一化特征和由当前模型提取的归一化特征。LG鼓励特征提取的方向margin,使用x本身作为锚点。我们认为地面实况类的嵌入是积极的。为了找到硬否定,我们提出了一种在线挖掘方法。我们选择那些对x产生最高响应的新类作为硬负类,并使用它们的嵌入作为对应锚的负。因此,建议的保证金排名损失计算如下:ΣKLmr(x)= max(m−θ<$(x),f<$(x)<$+θ<$k,f<$(x)<$,0),k=1由当前网络编辑,与原始网络相似(8)模型 损失是有界的(LG≤2)。理由是-其中m是裕度阈值,θ<$(x)是地面实况在这种设计之后,类嵌入的空间配置在一定程度上反映了类之间的内在关系。因此,为了保存先前的知识,一个自然的想法是保持这种配置。在固定了旧的类嵌入之后,就有理由鼓励特征与LG中的相似。在实践中,由于每个阶段引入的新课程数量不同(例如,10个班级vs. 100类),需要保存以前的知识的程度各不相同。针对这一点,我们建议设定损失的权重x的类嵌入,θ<$k是被选为x的硬否定的前K个新类嵌入之一。值得注意的是,每个锚点的正面和负面是类嵌入而不是样本。所提出的损失可以无缝地并入到训练过程中,而不改变数据采样过程。3.5.综合目标我们的方法从多个方面解决了多班级创造性学习中的不平衡问题。结合Gdis (表示为λ)自适应地如下:√上述损失,我们达到一个总损失包括三项,给出为:λ=λ基础|/|C o|、(7)|,(7)哪里|C|和|C|是新旧类的数量1ΣL=(L(x)+λLG(x))+1Σ L(x),on| N |cedis|先生|mr在每个阶段,λbase对于每个数据集都是固定常数在一般来说,当新的数量的比率x∈Nx∈NO(九)老班级的人数在增加。请注意,最近的一项工作[19]涉及可以被视为单阶段增量学习的主扩展,也建议固定最后一层并模仿原始模型的特征。然而,我们的方法不同其中N是从X中提取的训练批次,保留的旧样本包含在N. λ是根据等式(7)设置的损失权重。此外,在每个训练阶段结束时,我们可以使用一组平衡的保留样本进一步调整模型[19]从三个方面来看。 (1)蒸馏损失LG只从所有观察到的类中提取我们发现,所谓的考虑特征的方向,但不考虑幅度(因为特征在损失中被归一化),这为模型提供了更大的灵活性以适应新的类。(2)我们引入了一个自适应系数来对多个相位的衰减损失进行加权。(3)实验结果表明,该方法对长序列的类(如10个阶段)和更真实的数据集(例如,[19]这是一个没有被评价的问题3.4.类间分离多类增量学习的另一个实际挑战是如何为所有类(包括新类和旧类)形成一个统一的分类器,因为新类的数据在训练集中占主导地位。为了避免新老类之间的歧义,我们引入了一个保证金排名损失,以确保他们很好地分离。旧类的保留样本被充分利用。具体来说,对于每个保留样本x,我们尝试通过a将地面实况旧类与所有新类类平衡微调可以提高性能模型-在实践中。4. 实验4.1. 设置数据集。我们的实验是在两个流行的多类增量学习数据集上进行的。CI-FAR 100 [22]和ImageNet [7]。在产品分类或人脸识别等现实应用中,增量学习通常从一个模型开始,该模型是在预先收集的数据集。为了模拟这一点,我们从每个数据集的一半类训练的模型开始评估我们的al-出租m,其余的类处于不同的阶段。实 施 详 情 。 所 有 模 型 都 使 用 PyTorch 实 现 , 并 在TITAN-X GPU 上 进 行 训 练 。 CIFAR100 采 用 32 层ResNet,ImageNet采用18层ResNet当在最后一次采用余弦归一化时,L836(a) CIFAR100(1相)(b)CIFAR100(2相)(c)CIFAR100(5相)(d)CIFAR100(10相)图5。CIFAR100的性能在三次运行中获得平均值和标准偏差(a)ImageNet-Subset(5个阶段)(b)ImageNet-Subset(10个阶段)(c)ImageNet-Full(5个阶段)(d)ImageNet-Full(10个阶段)图6。ImageNet上的性能在ImageNet-Subset(100个类)和ImageNet-Full(1000个类)上报告层中,倒数第二层中的ReLU被移除,以允许特征取正值和负值。对于CIFAR100,学习率从0开始。1,并且在80和120个时期(总共160个时期)之后除以10。对于ImageNet,学习率也从0开始。1,并且每30个时期除以10(总共90个时期)。通过实验,网络由SGD [23]训练,批量大小为128。训练图像被随机裁剪和裁剪作为输入,不再使用数据增强。对于其他超参数,对于CI-FAR 100,λbase被设置为5,对于ImageNet,λ base被设置为10,K被设置为2,m被设置为0的情况。5、所有的实验至于为旧类保留样本的策略,有两种流行的策略。第一个为每个旧类存储恒定数量的样本(例如,Rper= 20),因此内存大小随着类的数量而增长。 第二个考虑的是固定容量的存储器(例如,CIFAR100的Rtotal= 2000,ImageNet的Rtotal= 20000由于容量与类的数量无关,因此存储的类越多,为每个旧类保留的样本就越少在我们的实验中,我们采用第一种策略,因为它通常更具挑战性(例如,Rper= 20vs. R total= 2000 on CIFAR 100)2.此外,我们使用了[29]中提出的基于牛群选择[34]的方法来选择每个旧类中要保留的样本。对于给定数据集上的实验,这些类是-(2)在补充材料中采用第二种策略来保留旧样本,我们给出了一些结果以固定的随机顺序排列。然后,每个方法都以类增量的方式进行训练。在每个增量阶段之后,输出模型在迄今为止观察到的所有类上进行评估。 因此,每种方法的评估结果都是每个阶段之后的分类准确度曲线。如果单个数字更可取,我们报告这些准确度的平均值,即平均增量准确度[29]。基线。iCaRL [29],如第3.1节所述,是多类增量学习的代表性方法,在这里被用作基线。 更具体地说,我们分别报告其CNN预测结果-s和最接近样本均值分类,表示为iCaRL-CNN和iCaRL-NME。对于其他方法,Finetune[11]和特征提取[8]已被证明在此设置中表现不佳[29,3]。具有一些额外保留样本的LwF[24]相当于iCaRL-CNN,其中保留样本已被证明对增量学习非常有帮助[29,15]。Cas- tro等。[3]通过对保留的旧样本进行复杂的数据增强,报告了比iCaRL更好的性能。然而,根据[3]中的消融研究,在没有数据增强的情况下,性能仍然劣于iCaRL。最近的作品[35,20]还报告了在生成模型的帮助下比iCaRL更优越的性能,以生成旧类的样本,这些类与我们处理任务的方式不同,并且严重依赖于生成模型的质量。基于参数的方法(如EWC [21]和SI [37])尚未评估837在ImageNet上,MAS [1]和A-GEM [5]在多任务设置中进行评估。为了评估我们的模型,我们还分别报告了CNN预测和样本最近均值分类所获得的结果,分别表示为Ours-CNN和Ours-NME。此外,提供联合培训的结果作为参考,这需要在每个阶段3中提供所有以前的数据。4.2. CIFAR100的评价CIFAR100由来自100个类别的60000幅大小为32×32的图像组成。每个类有500个图像用于训练,100个图像用于评估。我们从一个训练了50个类的模型开始,剩下的50个类分为1、2、5和10个阶段。如图5所示,无论是在分类准确度曲线的趋势还是平均增量准确度方面,我们的方法都大大优于iCaRL。特别是,在10个阶段的增量设置下(图5(d)),在增量学习结束时,总共100个类的整体性能提高了6%以上(Ours-CNN vs. iCaRL-NME)。在我们的模型中,CNN预测表现为(即)。我们的CNN)更好或至少与样本分类的最接近平均值(即,这与iCaRL [29]中的观察相反。因此,CNN预测可以直接用于预测,这表明在我们的方法中很好地处理了新旧类之间的不平衡4.3. ImageNet评估ImageNet是一个由1000个类组成的大规模数据集,每个类包含1000多个图像,这是增量学习更具挑战性的基准。总的来说,大约有120万张训练图像和5万张验证图像。我们报告的vali- dation集的性能。参考[29,3],我们在这个数据集上运行了两个系列的实验。在第一个中,我们在随机选择的100个类的子集上进行实验,称为ImageNet子集。在另一个例子中,我们在全部1000个类上评估我们的方法,表示为ImageNet- Full。我们从一个训练了一半类的模型开始,将其余类分为5个和10个阶段。结果示于图6中。该数据集上的观察结果与CIFAR100上的观察结果一致。在不同的设置下,我们的方法比iCaRL表现得更好。在我们的模型中,CNN预测的结果更好或至少相当最 接 近 平 均 值 的 样 本 分 类 。 值 得 注 意 的 是 , 在ImageNet-Full上10个阶段的增量设置下,我们的方法可以减少整体类-3我们提供的结果与文献资料中的更多基线相比(a) CIFAR100(5个阶段)(b)CIFAR100(5个阶段)图7. (a)每个组件的效果。(b)保留样本数量的影响。(a)CIFAR100(5个阶段)(b)CIFAR100(10个阶段)图8.适应性减肥(adaptive loss weight,AW)在最后一个阶段,1000个类的分离误差超过13%(Ours-CNN vs. iCaRL-NME(图6(d))4.4. 消融研究每个组件的效果。 我们的方法主要由三个部分组成,即:余弦归一化(CN)、少遗忘约束(LC)、类间分离(IS))。当所有训练完成时,对保留样本进一步进行类平衡微调(CBF)。在这里,我们提供了一些中间模型的结果,以分析每个组件的影响:(a)CN:在最后一层中采用余弦归一化,并且如等式(5)中更新蒸馏损失;(b)CN + LC:基于余弦归一化,建立更强的约束以较少忘记先前知识,并且如等式(6)中计算蒸馏损失;(c)CN + LC + IS:进一步添加等式(8)中的所提出的边际排序损失以分离旧的和新的阶级。为了方便起见,我们只报告CNN预测的结果。从图7(a)的结果中,我们可以观察到,每个组件都对我们最终模型实现的性能有贡献,而CBF对该数据集的影响相对较小,因为前三个组件减轻了不平衡的不利影响。保留样本数量的影响。为 了 保留一些样本,已经证明对保持旧类的性能非常有帮助[29,15]。图7(b)显示了我们的方法与iCaRL保留d的比较。838新旧阶级之间的严重不平衡。在最后三种方法中,不平衡的不利影响得到了缓解,而Ours-CNN实现了最佳的整体性能。Ours-CNN的混淆矩阵表明,在所有类别中,对角条目(即,校正预测)以及非对角条目(即,错误),这表明类不平衡在我们的方法中得到了很好的处理。(a)iCaRL-CNN(51.80%)(b)iCaRL-NME(59.13%)(c)Ours-NME(60.21%)(d)Ours-CNN(62.34%)图9.混淆矩阵的比较(为了更好的可见性,将条目转换为log(1 +x)为方便起见,采用CIFAR100(1与每种方法一起的是100个类的总体前1准确度每个类的不同数量的样本。保留的样本越多,iCaRL和我们的方法的性能就越好。而在每种情况下,我们的方法的结果优于iCaRL的结果。适应性减肥的效果。在我们的方法中,我们在等式(7)中引入了自适应损失权重,用于补偿损失。图8显示了自适应损失重量与使用固定常数λbase4来加权蒸馏损失的基线相比的效果。根据图8,我们可以观察到,自适应的权重损失可以帮助实现更好的性能,为长序列的类。方程(7)是一个启发式策略,我们相信存在更好的选择来设置自适应损失权重,这将在未来的工作中进行探索。混淆矩阵的比较。 图9比较了iCaRL和我们的方法在混淆矩阵上的优劣,为进一步了解两种方法的优劣提供了依据。iCaRL-CNN(图9(a))倾向于将样本分类到新的类别中,而4λbase在1个阶段的情况下进行优化,其中旧类和新类的数量相同。5. 结论这项工作开发了一个新的框架来学习多类增量设置下的统一分类器。我们的研究表明,新旧类之间的不平衡是造成该任务挑战的一个重要原因,我们的方法从不同的方面处理了这一问题,包括余弦归一化,少遗忘约束和类间分离。这些组件的组合rebalances的训练过程,从而可以更有效地保存以前的知识,并减少新老类之间的歧义。 在CIFAR100和ImageNet上的大量实验表明,我们的方法大大优于iCaRL,并且在不同的设置下带来了一致的改进。确认这 项 工 作 得 到 了 国 家 自 然 科 学 基 金 6167336261836008号基金、中国科学院青年创新促进会和中央大学基础研究基金的部分支持。这项工作得到商汤科技集团 的 合 作 研 究 资 助 ( 香 港 中 文 大 学 协 议 编 号 :TS1610626&编号TS1712093),及 香 港 研 究 资 助 基 金 ( 编 号 : 14236516& 号14203518)。引用[1] RahafAljundi , FrancescaBabiloni , MohamedElhoseiny,Marcus Rohrbach,and Tinne Tuytelaars.记忆感知突触:学习什么(不)忘记。在ECCV,2018。[2] Rahaf Aljundi , Punarjay Chakravarty , and TinneTuytelaars.专家门:通过专家网络终身学习在CVPR,2017年。[3] 弗朗西斯科·M·卡斯特罗、曼努埃尔· 马林-吉姆·埃内兹、尼科尔·阿的·吉尔、科迪莉亚·施密德和卡尔蒂克·阿拉哈里。端到端的增量学习。在ECCV,2018。[4] Gert Cauwenberghs和Tomaso Poggio增量和减量支持向量机学习。NIPS,2001年。[5] Arslan Chaudhry,Marc有效的终身学习与宝石。2019年,在ICLR[6] Nitesh V Chawla , Kevin W Bowyer , Lawrence OHall,and W Philip Kegelmeyer.Smote:合成少数过采样技术。人工智能研究杂志,16:321839[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[8] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman , Ning Zhang , Eric Tzeng , and TrevorDarrell.Decaf:用于通用视觉识别的InICML,2014.[9] 齐东,龚少刚,朱夏天。用于不平衡深度学习的类校正硬挖掘。InICCV,2017.[10] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR,2018年。[11] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。[12] Haibo He,Yang Bai,Edwardo A Garcia,and ShutaoLi. Adasyn:用于不平衡学习的自适应合成采样方法。2008年,国际神经网络联合会议[13] 何海波和爱德华多·加西亚。从不平衡的数据中学习IEEE Transactions on Knowledge Data Engineering ,(9):1263[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv预印本arX-iv:1503.02531,2015。[15] Saihui Hou , Xinyu Pan , Chen Change Loy , ZileiWang,and Dahua Lin.通过渐进的提炼和回顾来终身学习在ECCV,2018。[16] Chen Huang , Yining Li , Chen Change Loy , andXiaoou Tang.学习不平衡分类的深度表示。在CVPR,2016年。[17] 陈煌,陈昌来,唐晓鸥。用于不平衡学习的区分性稀疏 近 邻 逼 近 IEEE transactions on neural networks andlearning systems,29(5):1503[18] 纳塔莉·雅普科维奇和莎朱·斯蒂芬。阶级不平衡问题:一个系统的研究。智能数据分析,6(5):429[19] Heechul Jung 、 Jeongwoo Ju 、 Minju Jung 和 JunmoKim。深度神经网络中域扩展的少遗忘学习在AAAI,2018。[20] Ronald Kemker 和 Christopher Kanan 。Fearnet : Brain-inspired model for incremental learning. 在 ICLR , 2018年。[21] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness,Guillaume Desjardins,Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘美国国家科学院院刊,114(13):3521[22] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。2009.[23] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络进行Imagenet分类。NIPS,2012年。[24] 李志忠和Derek Hoiem。学而不忘。在ECCV,2016年。[25] Chunjie Luo,Jianfeng Zhan,Xiaohe Xue,Lei Wang,Rui Ren,and Qiang Yang.余弦归一化:在神经网络中用余弦相似性代替点积。在2018年的人工神经网络国际会议上[26] German I Parisi,Ronald Kemker,Jose L Part,Christo-pher Kanan,and Stefan Wermter.通过神经网络持续终身 学 习 : 审 查 . arXiv 预 印 本 arX- iv: 1802.07569 ,2018。[27] Hang Qi,Matthew Brown,and David G Lowe.使用印记权重的低射击学习。在CVPR,2018年。[28] Amal Rannen Ep Triki , Rahaf Aljundi , MatthewBlaschko,and Tinne Tuytelaars.基于编码器的终身学习。InICCV,2017.[29] Sylvestre-Alvise Rebuf fi , Alexander Kolesnikov 和Christoph H Lampert 。 1. 增 量 式 分 类 器 和 表 示 学 习(Incremental classifier and representation learning )在CVPR,2017年。[30] 斯特凡·鲁平支持向量机的增量学习InICDM,2001.[31] Andrei A Rusu 、 Neil C Rabinowitz 、 GuillaumeDesjardins 、 Hubert Soyer 、 James Kirkpatrick 、 KorayKavukcuoglu、Raz-van Pascanu和Raia Hadsell。渐进神经网络。arXiv预印本arXiv:1606.04671,2016。[32] 启明庭。代价敏感的提升算法的比较研究ICML,2000年。[33] Oriol Vinyals,Charles Blundell,Tim Lillicrap,DaanWier-stra,et al.匹配网络进行一次性学习。在NIPS,2016年。[34] 麦克斯·威林聚集动态权重来学习。InICML,2009.[35] Yue Wu , Yinpeng Chen , Lijuan Wang , YuanchengYe,Zicheng Liu,Yandong Guo,Zhengyou Zhang,and Yun Fu.使用生成对抗网络的增量分类器学习。arXiv预印本arXiv:1802.00853,2018。[36] 尹在宏,杨恩浩,李正泰,和宋柱宏。终身学习与动态扩展的网络。在ICLR,2018年。[37] Friedemann Zenke,Ben Poole,and Surya Ganguli.通过突触智能进行连续学习ICML,2017。[38] Zhi-Hua Zhou 和Xu-Ying Liu。多类代价敏感学习。AAAI,2006年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功