没有合适的资源?快使用搜索试试~ 我知道了~
增量学习的分离Softmax用于解决类增量学习中的遗忘和分类偏差问题
844SS-IL:用于增量学习的分离SoftmaxHongjoon Ahn1 *、Jihwan Kwak4 *、Subin Lim3、Hyeonsu Bang1、Hyojun Kim2和TaesupMoon4†1人工智能系,2电子电气工程系3韩国水原成均馆大学计算机工程系4韩国首尔国立大学电气与计算机工程系{hong0805,tnqls985,bhs1996,leopard101}@ skku.edu{jihwan0508,tsoon}@ snu.ac.kr摘要我们认为类增量学习(CIL)的问题,其中学习代理不断学习新的类增量到达的训练数据批次,并旨在预测到目前为止学习的所有类。该问题的主要挑战是灾难性遗忘,并且对于基于样本记忆的CIL方法,通常已知的是,遗忘通常由由于新类和旧类之间的数据不平衡(在样本记忆中)而注入的分类得分偏差引起。虽然已经提出了几种方法来通过一些附加的后处理来校正这种分数偏差,然而,尽管存在着对分数重新调整或平衡微调的不确定性,但尚未对这种偏差的根本原因进行系统分析。为此,我们分析通过结合所有旧类和新类的输出分数来计算softmax概率可能是偏差的主要原因。然后,我们提出了一种新的方法,被称为Sepa-额定Softmax增量学习(SS-IL),该方法由分离的softmax(SS)输出层结合任务知识蒸馏(TKD)来解决这种偏差。在我们对几个大规模CIL基准数据集的广泛实验结果中,我们表明我们的SS-IL通过在新旧类中获得更平衡的预测分数,实现了强大的最先进的准确性,而无需任何额外的后处理。1. 介绍增量或持续学习,其中代理继续学习新训练数据的增量到达,是人工智能和机器学习的重大挑战之一。这种不假设旧训练数据的完全可用性的设置最近尤其从现实世界应用的角度获得更多关注原因是存储所有的训练数据,这很容易成为大规模的,在一个批次往往成为*同等缴款。†通讯作者这对于诸如移动电话或机器人的存储器和计算受限的因此,在不访问到目前为止接收到的全部数据的情况下,学习代理的连续而有效的更新是必不可少的。这种代理的可行候选是基于端到端学习的深度神经网络(DNN)模型。随着最近在许多不同应用中的成功[14,3,7],近年来也积极追求尽管取得了一些令人鼓舞的结果,但它们也具有一个关键的限制:catastrophic遗忘,这是指在使用新数据对模型进行天真的微调后,旧数据的泛化性能严重下降的问题在本文中,我们专注于基于DNN的类增量学习(CIL),我们指的是学习一个分类器来从每个增量训练数据中分类新的对象类,并在迄今为止学习的所有类上测试分类器。在几种不同的建议方法中,基于范例记忆的方法[28,8,31,35,4,5]允许将少量来自旧类的训练数据存储在单独的存储器中,已被证明在减轻灾难性遗忘方面是有效的。在CIL中使用样本存储器的主要挑战是解决新类和旧类(在样本存储器中)的训练数据点之间的严重数据不平衡。也就是说,利用这种不平衡的数据的朴素微调将使预测分数严重地偏向新学习的类,因此,旧类的准确性将急剧下降,导致显著的遗忘。最近,几种现有技术的方法[8,31,35,4,5]提出通过一些附加的后处理步骤来校正这种评分偏差,例如:在学习分类模型之后,进行分数重新缩放或平衡微调。虽然上述方法在一定程度上有效地提高了准确性,但我们认为,它们缺乏对这种偏差的主要原因的系统分析,并且它们的方案的某些组成部分,例如。,知识蒸馏(KD)[15],天真地使用而没有任何845适当的理由[31,23,35,20]。在这方面,在本文中,我们首先分析了这种分类分数偏差的根本原因,然后提出了一种方法,以一种明智的方式减轻原因。也就是说,我们认为,偏见是由这样一个事实,即在普通的交叉熵损失中使用的softmax概率总是通过组合所有类的输出分数来计算此外,我们表明,一个天真的使用一般KD(GKD)的方法,它也结合了所有旧类的输出分数来计算软目标,可能会保留的偏见,甚至伤害的准确性,如果预测偏差已经存在于模型中。为了解决上述问题,我们提出了增量学习的分离Softmax(SS-IL),它由两个主要组成部分。首先,我们设计分离的softmax(SS)输出层,相互阻止的流之间的旧类和新类的分数梯度,从而减轻了不平衡的惩罚的输出概率的旧类。其次,我们展示了Task-wiseKD(TKD)[25],它也以任务分离的方式计算蒸馏的软目标,特别适合我们的SS层,因为它试图保留任务方面的知识,而不保留可能在任务中保留的预测偏差。为了证明我们的方法的有效性,我们进行了广泛的实验验证,在几个大规模的CIL基准与各种不同的情况下,公平地比较我们的SS-IL与最近的强基线,通过复制所有的。因此,我们令人信服地表明,我们的SS-IL通过充分平衡新旧类别的预测得分而实现了强大的最先进的准确性,而无需任何额外的后处理。总之,我们的贡献有三方面:我们提出了一种新的分离softmax(SS)层,它可以防止旧的类分数在整个梯度步骤中被过度惩罚。我们表明,在CIL中使用GKD可以保持模型的偏差,而TKD可以带来协同作用,特别是当与具有相同直觉的SS相结合时我们进行了广泛的实验验证,我们的SS-IL在几个大规模的基准与各种CIL的情况下,并与最近的,所有复制的最先进的基线相当。2. 相关工作最近,已经做了大量的工作来解决连续/增量学习中的灾难性遗忘问题。对于一般的持续学习,有三种主要的方法; 1)基于正则化[22,34,9,2,19],2)基于动态架构[29,33,24,17],和3)基于[26,10,11,30,21,32,30,21,32]方法。为了更我们的读者可以参考[27]。对于CIL,特别是,基于样本记忆的方法结合知识蒸馏(KD)已被证明是有效的。我们总结了代表性的最近的工作在下面。在CIL中,早期的基于范例记忆的方法,例如iCaRL[28]和EEIL [8]已经显示出优越的结果。iCaRL使用最接近样本均值(NME)对示例进行分类,并且EEIL另外利用平衡微调,其进一步用平衡训练批次对网络进行微调。后来,Javed et al.[18]指出,使用示例存储器的方法导致不平衡的数据集,并且已经显示出在最终FC层中遭受偏差问题。为了解决这种不平衡的学习问题,已经提出了几种偏差去除技术。另一种平衡微调方法UW [23]通过基于训练数据的统计数据对损失进行加权来利用梯度缩放。BiC [31]通过额外训练偏差校正层来校正分数的偏差,WA [35]基于每个权重的范数来校正FC层中的偏差权重。此外,IL2M [4]通过利用模型输出的统计特性来校正输出softmax概率,并且ScaIL[5]缩放分类器权重知识蒸馏(KD)作为一种保存和利用从旧类中学习到的信息,从而减轻遗忘的流行技术,在CIL中得到了广泛的然而,如引言中所提到的即,例如,LwF [25]、iCaRL [28]和EEIL [8]利用TKD的形式,而BiC [31]、UW [23]和WA [24]利用TKD的形式[35]使用GKD的形式。每一种方法都简单地它的选择,并且除了一些直观的论证之外没有给出对该选择的分析 或证明(例如, [23] justi- fies GKD ,but,without proper comparison or evidence.)除上述方法外,LUCIR [16]和PODNet[13]考虑一个稍微不同的设置,其中初始模型使用大量基类进行训练以获得有用的特征表示,并且它们利用特征蒸馏来保留这些表示,同时学习未来的类。然而,我们认为他们的设置是更有限的,我们比较他们的表现在纯CIL设置,使一个公平的比较与其他基线。3. 预赛3.1. 符号和问题设置在CIL中,我们假设每一个增量到达的训练数据,这通常被称为增量任务,由尚未学习的新的m类的数据组成。更正式地说,增量式···846不t−1M--∈{}C|M|S1:s1:tC∈{}CΣττ τ--Ss=1DKL(p(x,θt−1)p(x,θ)),(3)k∈Csezsc(x,θ)/τs1:s任务t由Dt={(x(i),y(i))}nt表示 ,其中x(i),t ti=1t(一)Yt和Nt分别表示任务t的输入数据、对应的(整数值)目标标签和对应任务的训练样本的数量 去-直到任务t为止类的会话数量由Ct=m·t表示,这导致标记y(i)C t−1+ 1,. . . ,Ct,t.在学习每个增量任务时,我们假设一个独立的样例记忆用于存储样本旧类的数据也就是说,当学习增量任务t时,我们存储[C| M|直到增量任务t 1为止学习的来自每个类的数据点。因此,随着增量任务的增长,为每个类存储的样本数据点的数量随着t线性减少,并且我们为-图1. 插图(右)GKD,t(x,θ)(左)和LTKD,t(x,θ)苏姆河增量任务的总数由T表示。我们的分类模型由一个特征提取器和分类层组成,特征提取器具有深度卷积神经网络(CNN)架构,分类层是具有softmax输出的最终全连接(FC)层我们将θ表示为分类模型的参数。在递增任务t时,学习模型参数θt分别也就是说,pτ(x,θ)是概率向量σ b。pτ(x,θ)是在计算softmax概率时使用任务1到s的所有输出得分得到的概率向量因此,最小化(2)或(3)都将导致正则化过去模型θt−1,但(2)使用所有过去任务的全局softmax概率pτ−1(x,θt−1),而(3)使用使用Dt∪ M中的数据点。学习后,类预任务softmax概率{pτ(x,θt−1))}t−1,ob-给定样本x测试的判定通过以下方式获得:ytest=argmaxzty(xtest,θt),(1)y∈C1:t其中z ty(xtest,θt)是类y 1,.的模型θ t的输出得分(在softmax之前)。. .,Ct,1:t.也就是说,在测试时,最终的FC层被合并,并且在1:t中的所有类之间的预测就像通过普通的多类分类器一样。3.2. 知识蒸馏如前所述,在CIL中使用的KD的两个主要变体是通用KD(GKD)和任务式KD(TKD),并且针对用于计算的每个方法定义的损失函数为:学习任务t如下:对于输入数据x∈ Dt∪ M,为每项任务单独保存在最近的CIL基线中,(2)用于[31,23,35],(3)用于[25,8]。(2)和(3)之间的差异如图1所示。4. 动机如引言中所述,之前的几项工作[8,23,16,31,4,35,5]确定了基于样例记忆的CIL的主要挑战是解决由数据不平衡引起的分类评分偏差。在这里,我们考虑一个简单的例子,并给出了一个令人信服的论点,为什么这样的分数偏差,以及为什么一个天真的使用GKD不能修复的偏见。即,首先注意,由典型CIL方法使用的学习任务t的普通交叉熵损失可以是表示为LGKD,t(x,θ),DKL(p1:t−1(x,θt−1)p1:t−1(x,θ))(2)t−1LCE,t((x,y),θ)=DKL(y1:tp1:t(x,θ)),⑷S ss=1y1:t第y个坐标,和pCt(x,θ)是pτ(x,θ),其中τ= 1。其中D(··)是Kullback-Leibler散度,τ是1:t1:tKL温度缩放参数,θ是针对任务t学习的模型参数,θt−1是直到任务t1学习的模型参数。此外,在(2)和(3)中,我们定义了概率向量的第c个分量现在,为了系统地分析典型CIL方法中常见的预测偏差的根本原因,我们用使用以下损失的简单CIL方法进行了实验pτ(x,θ)∈∆m和pττ(x,θ)∈∆Csasezsc(x,θ)/τ和LCE,t((x,y),θ)+LGKD,t(x,θ)(5)其中对于学习任务t,(x,y)∈ Dt∪M。也就是说,它学习ps,c(x,θ)=Σezsk(x,θ)/τ在尝试预处理时具有交叉熵损失的任务t用L表示过去的知识GKD . 如图2所示,我们τ1:s,c(x,θ)="K , ( , ): % ( ,% )K (||()下一"K , ( , )( ,% )K (||()下一页K (||()下一页.......... ................LpLTKD,t(x,θ),其中是R中的独热向量其值为1847Σk∈C1:sezsk(x,θ)/τ,使用ImageNet数据集进行实验,m=100,|=10k,因此总共有10个任务。|=10k,hencewithtotal10tasks.848123456789D----∈ DD ∪M∈C--D/D ∪M∈ D ∪M不∈M∈D0.00.20.40.60.81.0123456789101 2 3 4 5 6 7 8 91008060402003456七、八九一零当前任务图2. 左:基于CIL模型对测试数据的预测右图:θt−1对t做出的Top- 1预测的比率。我们不表示预测类,而是表示预测类所针对的任务。属于请注意,右图中的虚线区域表示最近的旧任务的比率,它表示对软目标的偏差用于L GKD。所有结果均在ImageNet-1 K数据集上,m=100和|M|= 10k。4.1. 普通交叉熵图3. 一个玩具说明梯度下降步骤m=2和T=2上不平衡二、由于不平衡的梯度下降步骤,类别c 1的分数继续降低。模型θt−1,当新任务数据点xt作为输入时,对于每个新任务t(水平轴)。我们可以观察到,预测压倒性地偏向于最近的旧任务(即任务t1),这是由于在具有交叉熵损失的学习任务t1这表明软目标图2中的左图显示了pτ1:t−1(x,θt−1)也会严重偏向在学习所有任务之后在任务级别测试样本。它清楚地显示了常见的预测偏差;即,对过去任务的大多数预测都过度偏向最近的任务(任务10)。我们认为,这种偏差的根本原因可以在输出分数的梯度中找到:LCE,t((x,y),θ)最近的旧任务(任务t1),因此,当它在GKD丢失中被用作(2)时,它将保留这种偏差并且可能高度惩罚旧任务的输出概率。因此,它可能会使偏见,或忘记旧任务,更严重。上述两个观察结果表明,预测偏差的主要原因可能是计算softmaxproba。ztc=p1:t,c(x,θ)−1{c=y},(6)通过将新老任务结合起来来提高能力。受此启发,我们提出了用于增量的Separated-Softmax其中1{c=y}是c=y的指示符。注意由于(6)对于c=y总是正的,我们可以很容易地观察到当用t中的数据更新模型时,在对t中的新类的丰富样本进行梯度下降步骤期间,旧类的分类分数将继续减小。因此,我们认为,这些不平衡的梯度下降步骤的旧类的分类分数使显着的分数偏向新类。梯度下降步骤的玩具图示在图3中示出。4.2. GKD保留的偏倚现在,如上所述,以前的几个作品使用GKD的目的是保存从过去的任务中学到的知识。然而,当来自交叉熵损失的梯度导致如前一节所述的显著偏差时,我们认为使用GKD将在旧模型中保留这种偏差,甚至可能损害性能。曼斯。在(2)中定义的LGKD中,pτ(x,θt−1)是软--学习(SS-IL)。5. 主要方法我们的SS-IL主要由两个组件组成,所有组件都是由上一节构建的直觉驱动的:(1)Separated-Softmax(SS)输出层和(2)Task-wise KD(TKD)。我们注意到,在LwF [25]中首次提出将TKD用于CIL,但正如我们在实验中所示,当与我们的SS层结合时,TKD特别强大为了简单说明,在增量任务t,设Pt表示先前任务的类(C1:t−1),并且表示新任务(Ct)的类。(1) 分 离 的 Softmax ( SS ) 层 : 对 于 ( x , y )不,我们通过将交叉熵损失函数修改为LCE-SS,t((x,y),θ)= LCE,t−1((x,y),θ)·1 {y∈Pt}+DKL(ytpt(x,θ))·1{y∈Nt},(7)从旧1:t1模型θt−1 ,用于其中yt代表R中的独热向量|Nt|和知识升华 现在,图2(右)表明由于交叉熵学习引起的偏差,该软目标可能严重偏斜即,该图示出{1,. . . ,t-1},由旧的pt(x,θ)是pτ(x,θ),其中τ= 1。 即,取决于不管是(x,y)还是(x,y)t,softmax概率分别通过仅使用Pt或Nt的输出得分来单独计算,并且交叉熵损失为不平衡小批量交叉熵训练#$CE,$>0#z$c特征提取器(CNN#$CE,<$0#z$c真任务比例(%)849Nztc∈P∈DM|M|D ∪M∼% s% s=1--ER小批量特征提取器(CNN图4. SS-IL的图示。黄色区域表示旧类,红色区域表示新类。也分别计算。虽然(7)是普通交叉熵(4)的简单修改,但我们现在可以观察到 c = 0twhen(x,y)t.因此,来自t中的新类样本的梯度将不会在Pt中的旧类的分类分数中具有过度惩罚效应。(2) 任务式KD:为了防止保留GKD中存在的偏差,我们 重 新 审 视 了 LwF [ 25 ] 中 使 用 的 任 务 式 蒸 馏(TKD)。通过与SS层类似的直觉,我们可以很容易地看到使用TKD(3)是很自然的,它也为每个任务使用了Separated-Softmax,用于知识蒸馏。 也就是说,在TKD中,由于软焦油-gets,pτ(x,θ))t−1仅在每个任务内计算,因此TKD不会受到旧模型θt−1中可能存在的任务偏差的影响,这与第4.2节中显示的GKD相反。因此,我们可以预计,TKD是partic-特别适合于SS层,这将在我们的实验结果中示出。关于实现细节的备注:当来自t的随机小批量被天真地用于模型的SGD更新时,它还可以使小批量中的类比率向新类恶化。小批量中的这种不平衡预计会淡化我们的SS层中的旧类的模型更新,因为来自(7)的第一部分的梯度将几乎不生成因此,我们还实现了经验重放(ER)[11]技术,该技术保留了小批量中新旧类的比例,以确保样本的最小比例.我们凭经验发现,使用ER给出了对SS-IL的更平衡的预测。补充资料中有关于ER使用的详细分析。SS-IL的最终损失函数通过组合LCE-SS,tin在(7)和(3)中的LTKD ,t 的情 况下,SS-IL的总损失变为:LSS-IL,t((x,y),θ)= LCE-SS,t((x,y),θ)+ LTKD,t(x,θ),而小批量SGD则是用ER来完成的,以使损失最小化。图4说明了我们的方法,并且在补充材料中总结我们在我们的实验结果表明,SS有效地平衡旧类和新类之间的得分,因此,纠正了预测偏差。最后,详细的结果表明,我们的SS-IL在各种大规模基准数据集和许多不同的增量场景中实现了最先进的精度。6. 实验我们认为以下两点对于评估CIL模型至关重要大规模基准数据集的评价。对不同增量方案的评估,例如,增量任务数或内存大小。这些点与考虑真实世界应用的增量学习的基本原理有关,其通常处理大规模数据流(在数据点和类的数量两者中)和各种存储器约束。然而,BiC [31]指出,许多先前提出的CIL方法无法扩展到大规模数据集。此外,[4]和[6]中的结果表明,CIL模型对增量条件敏感,例如增量任务的数量(T)和样例记忆大小()。因此,我们在两个大规模数据集(ImageNet ILSVRC2012 [12]和Google Landmark Dataset v2 [1])上广泛比较了我们的SS-IL与其他最先进的方法。为了进行公平的比较,我们复制了表1中涵盖的所有基线,并在15种不同的CIL场景中进行了比较。补充材 料 中 还 介 绍 了 [16 , 13 我 们 的 主 要 贡 献 , 分 离Softmax(SS)层,进行了广泛的分析,以显示梯度阻塞的影响,平衡旧的和新的类之间的分数。最后,在对各种精馏方法的详细分析中,指出了精馏方法的优越性LTKD超过LGKD。6.1. 数据集和评价方案ImageNet和Landmark-v2:如上所述,我们在实验中使用了两个大规模的基准数据集,ImageNet和GoogleLandmark Dataset v2。Im- ageNet数据集由1,000个类组成 , 每 个 类 有 近 1,300 张 图 像 。 Google LandmarkDataset v2由203,094个类组成,每个类有110,247个图像。我们按照每个类的最大样本数量的顺序对1,000和10,000个类进行采样,以产生两个变量,并且我们将每个数据集分别表示为Landmark-v2- 1 K和Landmark-v2- 10 K。Landmark的每类图像的数量范围从300到500个图像,这不可避免地为模型提供了每类训练数据数量不平衡的通过遵循[28]中的基准协议,我们以固定的随机顺序排列每个数据集的类。我们特别强调,这是第一次在大型Landmark-v2PSS层ℒ���K���ℒ������'I���ℒ���E'������......··850×个联系我们--|M|--|M|--|M|表1.各种数据集和评估方案的结果评估指标为平均前1和前5准确度。准确度是所有增量任务的平均值(即包括初始任务和增量任务)不T=10|= 10 k(1K)、40 k(10K)|=10k (1K), 40k (10K)数据集ImageNet-1KLand/mark-v2-1KLandmark-v2-10KImageNet-1KLandmark-v2-1KLandmark-v2-10K|M|5公里/10公里/20公里5公里/10公里/20公里20k/40k/60kT=20/T=5T=20/T=5T=20/T=5平均Top-1准确度iCaRL [28]47.0/ 50.5 /53.137.4/ 41.1 /44.023.1/ 27.2 /29.244.8/56.238.1/45.123.8/31.2英国《金融时报》[4]38.1/ 45.8 /53.541.9/ 48.9 /5533.6/ 40.3 /44.544.5/46.945.0/53.638.3/43.1IL2M [4]41.9/ 48.4 /55.342.4/ 49.2 /55.934.2/ 40.7 /44.845.6/52.445.2/54.238.4/44.0EEIL [8]57.8/ 59.4 /60.952.1/ 55.5 /58.243.5/ 46.1 /48.053.5/63.850.5/59.141.5/49.8BiC [31]51.3/ 56.4 /60.549.9/ 54.5 /58.438.7/ 43.7 /46.548.5/61.545.8/61.136.3/50.8LUCIR [16]51.0/ 53.6 /56.550.5/ 53.7 /57.346.2/ 49.1 /50.946.8/61.348.5/61.044.2/53.9PODNet [13]52.2/ 57.5 /60.4--48.8/65.5--SS-IL(我们的)63.5/ 64.5 /65.257.7/ 59.0 /59.950.1/ 51.4 /51.958.8/68.251.4/64.343.0/55.8平均前5名准确度iCaRL [28]71.0/ 75.1 /77.456.9/ 62.0 /65.235.6/ 41.9 /44.869.7/79.758.6/65.737.8/46.8英国《金融时报》[4]66.7/ 73.3 /78.862.1/ 68.5 /74.049.4/ 56.7 /60.671.3/73.064.6/72.554.6/58.9IL2M [4]70.6/ 75.3 /79.762.4 1999年1月1日至1999年6月30日49.7/ 56.7 /60.671.8/78.764.4/73.154.3/59.8EEIL [8]81.2/ 82.0 /83.072.6/ 74.9 /76.760.4/ 62.6 /64.177.0/85.370.3/77.757.8/66.0BiC [31]74.4/ 78.9 /81.869.2/ 73.1 /76.155.5/ 60.7 /63.369.4/84.263.8/79.352.4/67.6LUCIR [16]72.4/ 75.6 /78.768.7/ 72.2 /75.362.2/ 65.2 /66.769.2/82.767.7/78.060.7/69.3PODNet [13]73.6/ 79.4 /82.1--71.1/85.8--SS-IL(我们的)86.0/ 86.4 /86.778.1/ 78.8 /79.367.8/ 68.6 /69.182.9/88.473.3/81.861.8/72.4SSILLUCIRBICEEILiCaRLFTIL2MPODNet上限6.2. 结果表1显示了平均Top-1和Top-5的结果100806040ImageNet-1K100 300 500 700 900类Landmark-v2-1K100 300 500 700 900类Landmark-v2-10K1K3K5K7K 9K类精度我们将我们的SS-IL与iCaRL [28],[4]中提出的香草微调(FT),IL 2 M [4],EEIL [8],BiC [31],LUCIR [16]和PODNet [13]进行比较。对于每种方法,我们使用了原始论文中报告的超参数,并在所有数据集上进行了实验表的左半部分报告了具有各种示例的固定T= 10内存大小|M|,而右半部分显示的是图5. T = 10时ImageNet-1 K、Landmark-v2- 1 K和Landmark-v2- 10 K数据集上的前5名准确度结果。示例大小为|M|ImageNet-1 K和Landmark-v2- 1 K中= 20 k数据集和|M|= 60k(Landmark-v2- 10 K数据集)。数据集,包含10多个类(在Landmark-v2- 10 K)比以前报告的结果。评估方案:为了构建各种训练方案,我们将增量任务的总数改变为T= 5,10,20,分别对应于1 K数据集(ImageNet,Landmark-v2- 1 K)中的m= 200,100,50和10 K数据集(Landmark-v2- 10 K)中的m=2000,1000,500。 对于样本内存大小,我们使用=5k,10k,20k用于1K数据集,= 20k,40k,60k用于10K数据集。我们使用[6]中使用的随机选择来构建样本记忆。对于CIL模型的评估,我们使用ImageNet-1K的ImageNet验证集 分别在不在训练集中的Landmark-v2- 1 K和Landmark-v2- 10 K中。关于数据集、评价方案和实施细节的其他解释见补充材料。前5名准确度(%)851|M||M||M|固定在不同的T。由于时间和内存限制,我们无法在Landmark-v2数据集上运行PODNet。在表1中,我们观察到没有明显的赢家在《易经》中,易经是一种“阴阳五行”。1 K和Landmark-v2- 1 K之间,但对于Landmark-v2-10 K,LU-CIR在基线中实现了最高精度。此外,所有基线的准确度在变小时急剧这里给出的结果与[6]关于当前CIL模型对增量情景和记忆约束的敏感性的结论一致然而,我们观察到,SS-IL在几乎每种情况下都占主导地位。这表明SS-IL可以稳健地应用于各种条件,而其他基线容易受到特定情况的影响。特别是,SS-IL的一个显着特点是,即使当变得很小时,我们的模型的准确性下降也是最小的,这表明了对到示例内存大小。图5显示了在以下情况下,每个数据集上关于增量任务的总体Top-5准确率=20k并且T= 10,并且任务被表示为类。在该图中,我们将联合训练的方法表示为Upper852CESS +TKD(86.4)CE+ TKD(78.7)CESS(80.7)CE(73.3)LLLLLLLLLLL|M|L LL+5评分CESS+ TKD老5评分CE SS老Softmax0.010100前5名准确度(%)4CE TKD32101新的432101新0.008800.0060.004600.0022300 500 700 900类别(a)2300500700900类别(b)0.000300 500 700900类别(c)电话:+86-510 - 88888888传真:+86-510 -88888888类别(d)图6.(a)/(b):旧的新类别的平均分类分数&(c)旧的新类的平均softmax值&(d)前5名准确度。绑定请注意,SS-IL再次主要支配基线,并且随着增量任务的增加,基线上的性能差距扩大。特别是,在ImageNet-1 K中,与其他性能从上限下降更多的基线相比,我们的SS-IL受灾难性遗忘的影响较小。此外,我们观察到iCaRL和EEIL在第一个增量任务中实现了较低的准确性。iCaRL的弱最近样本均值(NEM)分类器和EEIL的低效训练时间表可能是这种低准确度的主要原因。6.3. 消融研究在本节中,我们对SS层执行各种详细分析,以显示其对平衡预测分数的影响。为了分析其自身的优势,我们还进行了在SS-IL中实现TKD的实验。图6和图7显示了我们的分析结果。 在这些在图中,我们比较了ImageNet-1 K上的四个模型,T=10和= 10k,并分析(a)输出分数和softmax概率值,(b)具有混淆矩阵的预测结果,以及(c)Top-5准确度。图6(a)和(b)示出了旧类和新类的平均分类得分,并且图6(c)示出了针对每个增量任务t的测试样本的旧类和新类的平均软最大概率。当计算平均得分和softmax概率时,我们首先分别对旧类和新类的值进行平均,然后对所有测试样本进行平均。对于softmax概率,我们首先使用所有可见的类(包括新类)对得分进行归一化在图6(a)和(b)中,我们可以观察到,对于此外,随着增量任务的增加,差距扩大。 对于LTKD图7. 基于测试数据的各种模型预测的混淆矩阵。我们表示预测类所属的任务。图6(a)和(b)中的类在整个增量学习阶段中大多彼此重叠。该结果表明,我们的SS成功地减轻了分类评分偏差,而无需任何必要的后处理,并且这种平衡的分类评分最终导致更平衡和准确的预测。类似地,我们还分析了在图6(c)中的所有可见类别上归一化的softmax概率的平均值。请注意,由于计算softmax只考虑得分之间的相对差异,因此我们可以比较四个模型,而不考虑得分的大小从图中,我们观察到“CE-SS + TKD”和“CE-SS”的旧类和新类的softmax值混淆矩阵图7示出了四个模型的类预测的混淆矩阵(跨任务)。 在图7中,我们可以观察到“CESS+ TKDCE+ TKDCE SS老新CECE853TKD(51.7)GKDTKD(78.7)GKD前5名准确度(%)87.6187.31GKD,tTKD,t84.681.7882.7178.2578.4675.9673.0274.1170.1970.6667.9267.5263.6660.2L LLLLLLLLL|M|LLLLLLL∈D100Top-1准确度(%)806040前5名准确度(%)90858075706520100300500七百九百类60100300500七百九百班级55图8.Top-1精度(左)和Top-5精度(右)LCE+L GKD和L CE+L TKD高度偏颇的预测。我们认为,上述结果表明,TKD本身不足以解决预测偏差,SS对于实现增量任务之间的平衡预测至关重要。Top-5准确度图6(d)示出了Top-5准确度四种模式。在该图中,正如我们所预期的那样,“CE-SS +TKD”训练的模型达到了最高的准确率,并且配备TKD的模型的性能优于没有训练的模型。此外,我们观察到“CE-SS”优于“CE+TKD”和“CE”,这再次证实了使用SS对于实现高准确度至关重要。6.4. KD分析在本节中,我们进行了几个实验来突出TKD和GKD的差异。首先,我们分别评估了用TKD和GKD训练的模型的性能其次,为了直接比较,我们还检查了当每个KD损失用于从相同的有偏软目标中提取时模型的准确性。这样,我们可以只关注TKD和GKD的效果为了仅阐明KD的影响,不使用偏差校正方案进行训练,并且使用相同的训练设置。培训详情在补充材料中说明。比较TKD和GKD图8示出了相对于变化的KD损失的Top- 1和Top-5准确度。这里,模型GKD表示用损失(5)训练的模型,并且模型TKD代表用损失(5)替换(5)中的GKD的TKD。他们在ImageNet-1 K上进行训练,=10k,且T= 10。如图8所示,TKD实现了比GKD高得多的准确度,而GKD的准确度随着任务的进行而急剧下降。如图2所示,不使用任何偏差校正方法的模型具有极端偏差,并且GKD可以保持这种偏差。另一方面,图8示出了TKD受偏差的影响小得多。[23]认为,使用TKD可能会遗漏关于旧任务之间的区分的知识,因此,GKD应该是首选。然而,正如我们从图中观察到的,TKD在准确性方面是明显的赢家,因为GKD保留预测偏差的危害要大得多。503 4 5 6 7 8 9 10任务图9.使用L GKD的θ GKD,t和θ TKD,t的前5名精度和LTKD在同一教师模型为了直接比较TKD和GKD在用于蒸馏的相同有偏软目标上的行为,我们使用以下场景进行另一个实验:1. 使用LCE+LGKD训练,直到任务t−1,并获得θt−1。2. 在任务t,使用两个不同的KD损失训练θt−1GKD和TKD,并得到两个模型θGKD,t和θTKD,t。图9示出了任务t = 3,..., 10个。我们清楚地观察到θTKD,t在所有任务中的准确度总是高于θGKD,t,这再次表明GKD在xt上保持θt−1的得分偏差将是这种准确度差距的主要原因。相比之下,如在SS中,利用任务特定性的TKD用于蒸馏的单独的softmax减轻了分数偏差的影响。我们认为,这一分析是证明TKD优于GKD用于CIL的另一个证据。7. 总结发言我们提出了SS-IL,解决了基于样本记忆的CIL中的分类得分偏差问题我们的分析表明,考虑所有类的普通softmax概率迫使旧类的输出概率受到严重惩罚,这是得分偏差的主要原因。我们还通过实验发现,这种偏差被GKD保留,并且TKD受到这种偏差的影响较小。在我们广泛的实验结果中,我们的SS-IL在大多数情况下表现出色,我们验证了使用SS可以有效地平衡新旧类之间的分数。致谢这项工作得到了NRF中期职业研究计划[NRF-2021R1 A2 C2007884]和IITP资助[No.2019- 0-01396,开发用于分析,检测,减轻AI模型和训练数据中的偏见的框架] [IITP-2021-2018-0-01798,ITRC支持计划]的部分支持,由韩国政府资助。854引用[1] 谷歌地标数据集v2. 2019. 五个[2] Hongjoon Ahn , Sungmin Cha , Donggyu Lee , andTaesup Moon.具有自适应正则化的基于不确定性的持续学习。神经信息处理系统的进展,第4394-4404页,2019年。二个[3] M.基兹维尼岛Barjasteh,H. Al-Qassab和H.拉达使用Googlenet的自动驾驶深度学习算法。2017年IEEE智能车辆研讨会(IV),第89-96页,2017年6月。一个[4] Eden Belouadah和Adrian PopescuIl2m:具有双重记忆的类在IEEE计算机视觉国际会议(ICCV),2019年10月一二三五六[5] Eden Belouadah和Adrian Popescu Scail:用于类增量学习的分类器权重缩放。 在IEEE计算机视觉应用冬季会议上,第1266-1275页,2020年。一、二、三[6] Eden Belouadah,Adrian Popescu,and Ioannis Kanellos.视觉任务的类增量学习算法的综合研究。神经网络,2020。五、六[7] Rich Caruana、Yin Lou、Johannes Gehrke、Paul Koch、Marc Sturm和Noemie Elhadad。健康护理的易懂模型:预测肺炎风险和医院30天阅片任务。在第21届ACMSIGKDD 国 际 知 识 发 现 和 数 据 挖 掘 会 议 论 文 集 ,KDDACM。一个[8] Franc
下载后可阅读完整内容,剩余1页未读,立即下载


















安全验证
文档复制为VIP权益,开通VIP直接复制
