没有合适的资源?快使用搜索试试~ 我知道了~
面向类增量学习的语义漂移补偿
1面向类增量学习的语义漂移补偿卢宇1,2,巴特罗米耶·特瓦尔多斯基2,刘夏磊2,路易斯·赫兰兹2,王凯2,程咏梅1,朱尚玲3,范德韦耶尔21西北工业大学自动化学院西安2西班牙巴塞罗那自治大学计算机视觉中心3华为麒麟解决方案,中国上海{luyu,btwardowski,xialei,lherranz,kwang,joost}@ cvc.uab.es,chengym@nwpu.edu.cn,jui. huawei.com摘要深度网络的类增量学习顺序地增加要分类的类的数量。在训练过程中,网络一次只能访问一个任务的数据在这种情况下,网络会遭受灾难性的遗忘,这是指先前任务的性能急剧下降绝大多数方法都研究了分类网络的这种情况,其中对于每个新任务,网络的分类层必须增加额外的权重,以便为新添加的类腾出空间。嵌入网络的优点是,新的类可以自然地包含到网络中,而无需添加新的权重。因此,我们研究嵌入式网络的增量学习。此外,我们提出了一种新的方法来估计漂移,称为语义漂移,特征和补偿它,而不需要任何exemplars。我们根据当前任务数据所经历的漂移来近似先前任务的漂移。我们在细粒度数据集CIFAR100和ImageNet子集上进行了实验。我们证明,嵌入网络遭受灾难性遗忘显着减少。我们优于现有的方法,不需要exemplars和获得竞争力的结果相比,存储样本的方法。此外,我们表明,我们提出的SDC与现有的方法相结合,以防止遗忘一贯改善的结果。11. 介绍未来的学习机器应该能够适应不断变化的世界。他们应该不断学习新的任务,而不会忘记以前学过的任务。除了通常应用的设置之外,在该设置中,1代码可从https://github.com/yulu0724/SDC-IL获得。图1:微调后嵌入空间的T-SNE可视化。A、B、C表示训练任务1后的任务1原型;在针对任务2的训练之后,分别针对任务1和2的A’、B’、C’和D、E、F。任务1的语义漂移(表示遗忘)由红色向量给出。我们的方法估计这一点,并相应地补偿原型。任务是同时可用的,在连续学习中,任务以连续的方式学习在每一时刻,al-出租m只能访问单个任务的数据对于深度神经网络,可以根据最新任务的数据对网络进行微调然而,在缺乏先前任务的训练数据的情况下,网络遭受灾难性的for-getting[26]。这是指在以前的任务中性能急剧下降持续学习研究策略,以适应灾难性遗忘的影响[17,19,30]。持续学习已经探索了各种各样的策略来防止网络忘记以前学习过的任务。Li等人[19]提出了一种称为无目标学习(LwF)的方法。他们使用相同的数据来监督学习6982DB一B'一个'EFC'C语义漂移向量:6983并提供对旧任务的无监督输出指导以防止遗忘。弹性权重合并(EWC)[17]估计Fisher矩阵以加权正则化项,该正则化项有利于神经元的变化,这些神经元在以前的任务中被发现不太重要,并且阻止相关神经元适应新任务。对持续学习的进一步研究包括正则化项[1,20],通过掩码学习选择子网络[22,23,35]以及使用样本[21,30]。持续学习的许多早期工作都考虑了任务增量学习(task-IL)场景[38],其中网络可以在推断时间访问任务ID [1,17,19,25,35]。最近,更多的工作考虑到更困难的类增量学习(类IL)[2,10,15,20],其中在推理时没有任务ID可用。类IL的主要额外挑战是新旧任务之间的这通过存储先前任务的数据来解决[5,15,44]。在本文中,我们提出了一种新的类增量学习方法。我们认为困难的情况下,没有以前的任务的数据不需要任何存储的持续学习算法的重要性正在增长,因为数据隐私和安全对许多用户来说是根本,并且受到政府立法的控制。以前讨论的工作都是研究分类网络中的持续学习。对于这些网络,必须添加新的权重以适应新添加的类。相反,我们为嵌入网络执行类增量嵌入网络将数据映射到嵌入空间,其中距离对应于数据点之间的语义差异[8]。它们通常用于图像检索[40]、人脸识别[33]等。然而,当与例如最近类均值分类器[27]结合时,它们也可以用于分类在本文中,我们表明,嵌入网络遭受的灾难性遗忘显着低于分类网络。我们还提出了一种新的方法,称为语义漂移补偿。我们的方法不是防止漂移,大多数现有的方法都是这样做的,而是在新任务的训练过程中估计先前任务的漂移(见图1)。1)。我们表明,在以前的任务中的语义漂移的估计可以用来补偿它,从而提高性能。我们通过使用最近类均值(NCM)分类器来评估用于图像分类的嵌入网络[27]。我们将使用术语prototype来指代类嵌入均值。我们将展示如何在仅访问当前任务的数据的情况下近似在先前任务中学习的原型的漂移。此外,所提出的方法可以很容易地与防止遗忘的现有方法(例如EWC [17],LwF [19]或MAS [1])结合,以进一步改善结果。2. 相关工作持续学习。基于正则化的方法优化当前任务的网络参数,同时防止已经合并的权重的漂移。无遗忘学习(LwF)[19]使学习模型适应新任务,同时保留先前获得的知识,并对概率进行正则化。EWC [17]和变体R-EWC [20]包括权重上的正则化项,该项迫使当前网络的参数保持接近为先前任务训练的参数。Zenke等人[47]提出以在线方式计算突触的巩固强度(由网络权重表示),并且用存储器扩展它们以累积任务相关信息。Aljundi等人[1]以无监督的方式计算权重重要性。基于排练的方法存储来自先前任务的训练数据的一小部分,以防止灾难性的遗忘。这些范例被组合(即,排练),使得网络参数被联合优化。一些现有的作品使用一个消除损失,以防止遗忘[6,21,30,15]。在[44]中,提出了偏差校正来解决新旧类之间的数据不平衡问题,特别是对于大规模数据集。另一种替代方案是学习先前任务的生成模型,并生成合成样本(即,伪排练),这是结合像往常一样[43,36]。我们认为在具有挑战性的类增量学习(类IL)的情况下的持续学习。通过调整网络架构,可以将一些上述方法直接应用于IL类,例如。[2,32]。然而,它们并不随着类的数量而扩展,因为网络需要不断扩展。在[10]中,所提出的方法使用注意力蒸馏损失来惩罚注意力地图上的变化,这有助于在添加新类别时保留先前类别的信息。防止遗忘的三种方法:在[ 15 ]中引入了交叉归一化、少遗忘约束和利用来自先前任务的保存样本的类间分离。在[20]中提出了一种适用于类增量问题的方法,其中EWC与网络的重新参数化相结合,其形式为因子化旋转,从而在先前的任务上获得更好的性能。 工作的作者[44]讨论了大量的类和新老类之间的视觉相似性的问题。他们提出了一个线性模型的网络输出的偏差校正新的类。在[5]中使用了蒸馏损失,并增加了一组示例,以防止类增量学习的遗忘最后,[3]利用双重记忆来减少图像识别中灾难性遗忘的负面影响。提出了一种集成知识提取和回溯的路径选择模型6984J在[29]中克服灾难性的遗忘。我们的方法与以前的工作在两个主要方面不同。为了训练新任务,我们使用具有度量学习损失而不是分类损失的嵌入网络。其次,上面讨论的所有方法都集中在防止在学习新任务时忘记。我们的方法并不专注于防止遗忘,而是提出估计由于学习新任务而发生的特征漂移有了漂移的近似值,我们可以补偿以前任务的原型。深度度量学习。暹罗网络[8]最初被提出来学习用于人脸验证的嵌入最初,他们使用对比损失,这确保了来自同一类别的对三重网络[13,39]被提出来解决对比损失的局限性。输入是锚图像、正图像和负图像。三元组网络的目的是学习相似对之间的距离小于不相似对之间的距离该方法的直接扩展是四元组网络[7],其中点的数量扩展到四个,并且在损失函数中一次使用三对对嵌入学习的进一步改进包括:约束三重三角形的负点处的角度[40],并在[ 41 ]中提出的多相似性损失函数中利用所有选择的对信息。与分类网络相比,嵌入网络的优势是一个正在进行的最近的工作指出了分类网络的严重缺点,主要归因于交叉熵损失(基于softmax操作)。嵌入网络被发现对对抗性示例的暴露更鲁棒,并且在检测出3.1. 嵌入网络我们首先解释为单个任务训练嵌入将网络映射数据嵌入到低维输出中,其中距离表示图像之间的语义相异性[4,8]。它们同时执行特征提取和度量学习。在学习的嵌入空间中,可以应用简单的度量,例如L2距离,来确定原始图像之间的相似性。Chopra等人[8]提出使用Siamese网络,以对比损失为目标函数。这种损失需要相关和不相关的图像对,并确保相关对之间的距离较低,而不相关对之间的距离大于一个余量。对于一些嵌入式系统,发现对比损失很难训练,并且已经提出了其他损失。三重态损失是由Hoffer等人提出的[13]基于Wang et al. [39]的工作目标函数迫使负的距离比正的距离更远离锚(加上余量m)。三重态损失由下式给出:LT= max(0,d+−d−+m),(1)其中d+和d−分别是锚za与正实例zp和负实例zn的嵌入之间的欧几里得距离这里zi=F(xi)是图像xi的输出嵌入。在训练了嵌入网络之后,我们可以使用嵌入空间进行分类。我们将使用最近类均值(NCM)分类器,其定义为:c= argmin dist(zj,µc)(2)c∈C分布示例[24,31]。此外,据报道,深度嵌入优于迁移学习的分类网络[34],初步结果表明µ=1中国Σ[yi=c]zi(3)我他们可能不太容易发生灾难性的遗忘[45]。3. 持续学习嵌入我们考虑一个类增量学习设置,其中网络学习多个任务,每个任务包含一些新类。 在任务t的训练中,我们只有访问包含对(xi,yi)的数据Dt,其中xi是类yi∈Ct的图像。对于每个任务,我们认为,存在有限的类集合Ct={Ct,Ct...,c tt},其中,nc是类别c的训练图像的数量,如果P为真,则[P] = 1,否则为0。 我们将µc称为类c的原型。原型的术语也在一些作品中使用[37,45]来指代嵌入空间中的类3.2. Softmax分类器与嵌入学习传统的图像分类方法是使用交叉熵损失训练的softmax分类器。由于它的成功,它已经成为方法的自然起点。1 2m其中mt是任务t中的类的数量。我们认为,一般研究的情况下,没有重叠之间的研究图像分类的持续学习。不过,软的有几个基本的缺点-不同任务的类别:C tC s= t的S. 后最大分类器,这可能会限制其应用于连续训练所有n个Tsks,我们评估所有类C= iC i上的学习嵌入。与其他类增量方法一样,我们考虑任务不可知的设置,其中算法具有在测试时不能访问任务标签。学习 首先,网络输出与预测类每当添加新的对象类时,都需要对体系结构进行结构更改,即:添加新的神经元以适应新的 类。在6985FTFT*E-FT联合100CUB-200-2011数据集CIFAR100数据集100ImageNet-Subset数据集100808080606060404040202020050 100 150 200班数050 60 70 80 90 100班数050 60 70 80 90 100班数图2:使用softmax(FT)训练和评估的微调的平均增量准确度,使用softmax训练但使用NCM(FT*)分类的微调,以及使用度量学习损失训练并使用NCM(E-FT)分类的微调。此外,我们还报告了联合培训(联合)。结果表明,使用嵌入式网络的持续学习明显减少了遗忘。类增量设置,这导致为k个任务创建一个新的 然后,任务每个任务的输出层(头)[5]。 第二,k阶定义为A =1ka[2]。 我们观察到kkj=1 k,j为了从多头网络获取最终预测第三,更新后的模型预计会偏向于有利于新类别的预测[15,44]。所有上述问题都可以在一定程度上得到缓解。然而,类增量学习的基于softmax的分类器的自适应过程是具有挑战性的,更长的任务序列更难。使用嵌入式网络进行持续学习具有优势。新的类可以自然地添加,而无需任何架构更改。在学习新任务的同时,网络会根据新的数据分布进行微调。然而,度量学习方法不需要直接关于类的信息。这仅用于正确准备输入数据,即:对正面和负面的例子,因此,架构保持不变。为了在持续学习环境中比较分类和嵌入网络,我们在应用微调来适应新任务时比较了两者;已知该设置会导致分类网络的灾难性遗忘。softmax分类器使用新的头部进行增量分类。在测试过程中,我们计算每个正面的概率,并将最大值作为真实预测(称为FT)。作为第二种选择,我们考虑对训练的ResNet网络的块5的平均池化输出执行NCM,其具有与我们的嵌入网络相同的维数(由FT* 表示)。该技术也用于iCaRL [30]。嵌入网络(使用三重损失训练[13])表示具有原型的类,并执行NCM进行分类,并由E-FT表示在一个任务上达到收敛后,我们继续用标准的随机梯度下降训练一个新的任务,并重复这个过程,直到所有的任务都被学习完。三个数据集的比较结果见图1。二、设ak,j∈[0,1]为网络依次训练后第j个任务(j≤k)softmax导致更好的分类性能,第一个任务,如[13,14]中所述。然而,softmax的平均增量精度在不断添加任务时会显著下降。这对于CIFAR100 和 ImageNet 子 集 数 据 集 尤 其 明 显 。 使 用softmax和NCM嵌入分类(FT*)同样会遭受灾难性遗忘。具有度量损失的微调(E-FT)获得了显著更好的结果,在CUB-200-2011上的绝对增益为23.9%,在CIFAR 100上为 32.6%,在ImageNet-Subset上为 42.9%总之,一个行之有效的方法为单任务学习(即。softmax)在以下情况下使用时不是最佳的一个持续的学习环境。如我们所观察到的,使用NMC的分类和使用度量损失学习的嵌入受到灾难性遗忘的因此,我们建议将其用于持续学习。在下文中,我们将开发其他方法来进一步改进嵌入式网络的持续学习。3.3. 正则化嵌入网络连续学习中的灾难性遗忘问题已经被广泛研究用于分类网络[6,17,19,20,30,36,43]。据我们所知,还没有预先的工作来防止忘记以前的嵌入网络任务中的知识。在下文中,我们将几种现有的技术应用于嵌入。我们将使用以下符号约定来表示嵌入的变体:我们在为分类网络设计的原始方法的名称后面附加一个E(用于嵌入),例如,E-LwF将是适用于嵌入网络的LwF(无遗忘学习)。Finetuning(E-FT)在第2节中描述。3.2并用作基线。对于所有实验,使用三重态损失[13]。对齐损失(E-LwF)[19]这种方法是在分类网络上提出的。它旨在与softmax相匹配平均准确率6986我我CCsCsCs△s→t ts△t−1→tC1t−1→tδ我图3:语义漂移补偿的说明。 (a)训练任务1后的三类任务1的数据和原型。(b)训练任务1之后的任务2的数据。(c)训练任务2时任务2的数据漂移。这导致漂移向量的稀疏向量场。(d)这个向量场用于近似任务1的原型的漂移。基于当前数据的先前模型的网络输出。相反,在嵌入网络上,我们通过在训练当前任务(zt)期间最小化图像xi的输出嵌入之间的距离来约束参数漂移。4. 语义漂移补偿当以顺序的方式学习时,嵌入会受到漂移的影响。当来自先前任务的数据不可用时,关于其在先前任务中的嵌入(z),类似于[46]。这将导致以下损失:tt−1<$我t-1),在NCM中使用原始原型通常会导致性能下降。我们的目标是减少误差,漂移的原因,并提出了漂移补偿,以更新deliciously计算的原型。主要的想法是估计LLwF=?zi −zi(4)根据已知的曲线漂移其中。Frobenius norm是指Frobenius norm。E-EWC [17]该方法是在分类网络上提出的,以在训练当前任务时保持网络参数接近前一任务的最佳参数这也可以用于嵌入网络。我们在EWC中最小化的函数是:在当前任务的训练期间租用数据。4.1. 语义漂移的计算节中在3.1中,我们讨论了如何为单个任务计算类的原型。在这里,我们将这一理论扩展到持续学习环境。我们指的是亲-totype平均值为µts,这是c类s的平均值,LEWC= Σ1 Ft−1(θt −θt−1)2,(5)C学习任务t用等式计算。3 .第三章。 cs级据悉2pp pp其中Ft−1是在学习了前一个任务t−1之后计算的Fisher信息矩阵,求和覆盖了网络的所有参数θpE-MAS [1]提出了这种方法,根据预测输出函数对该参数变化的敏感程度,为网络的每个参数积累重要性度量,可以直接应用于嵌入。我们在MAS中最小化的函数是:在任务s期间(为了简洁,我们从cs中删除了子索引i)。当t > s时,我们无法访问任务s的数据,并且我们无法计算真实的原型平均值(通过应用等式3再次)。我们把真实的类平均值和类平均值的估计值之间的差异称为语义漂移:cs=µcs−µcs,(8)由于我们不能直接计算µts,我们必须找到替代方法来近似语义漂移△s→t。首先,我们提出一种方法来计算△t−1→t,LMAS= Σ1 p(θt−θt−1)2,(6)然后我们就可以推导出△s→t。当训练任务t时,我们无法访问2p pp式中,函数输出的范数对应于它们的变化。这些损失可以添加到度量学习损失中,以防止在不断训练嵌入时忘记:任务s,因此我们无法观察到嵌入zi(其中yi∈Cs)在任务t的训练期间如何漂移。然而,在任务t的训练过程中,我们可以测量当前数据的漂移.δt−1→t=zt−zt−1,yi∈Ct,(9)我我我L= LML +γLC 、(7)这里,我们使用符号zt来表示在训练任务t之后点i的嵌入。在训练任务t开始时,6987我其中C∈ {LwF,EWC,MAS},γ是度量学习损失和其他损失之间的权衡。可以访问zt−1,这是数据点i在训练任务t-1之后。6988Cs我Cs我们建议近似语义漂移△t−1→t从稀疏向量场δt−1→t我们通过国际刑警组织-t−1将此向量场定位在原型位置µcs使用:n[y∈Ct]wδt−1→t△t−1→t=iΣiii,(10)Cs与i[yi∈Ct]wizt−1−µt−1wi=e−ics2σ2,(11)其中σ是高斯核的标准差。综上所述,如图所示3、对于任务t中的所有数据点,我们可以在任务t的训练期间监视语义漂移。这导致一组漂移向量δt−1→t,其用于计算所有先前学习的语义漂移prototypesµt−1. 这是通过根据漂移向量到原型的距离为漂移向量分配权重来完成的以及将原型漂移计算为附近漂移向量的加权平均值(利用等式(1))。第10段)。我们可以应用语义漂移补偿(SDC):μs=μs+△△s→s+1+. +△t−1→t(十二)公司简介其中总补偿是在所有先前步骤期间测量的补偿的总和。通常情况下,递归方案将应用于在每个新任务中更新所有先前学习的原型:μπts=μπt−1+△πt−1→t。(十三)图4:使用E-FT(左)和E-FT公司简介4.2. 规则化语义漂移补偿许多持续学习的方法都集中在防止网络使用与先前任务相关的参数[1,17,19]。我们的方法基于一种完全不同的方法,我们接受这样一个事实,即如果我们在任务之间共享参数,我们希望所有任务都能够改进(即,反向传播)到所有这些参数,这将导致先前学习的任务的漂移。近似这种漂移使我们能够补偿它。由于我们的方法采用了不同的方法来防止遗忘,所以看看它是否与其他方法互补是很有趣的。因此,我们建议将现有的方法(E-LwF,E-EWC和E-MAS)与语义漂移补偿相结合,并将在实验结果中对此进行评估。为了提供SDC的一个例子,我们在MNIST上进行了一个2维嵌入的实验。我们将十个班级随机分成两个不相交的任务。图4我们展示了在E-FT和E-EWC2的情况下由SDC估计的漂移向量的示例。我们可以看到,近似的漂移向量改善了原型的位置因此,在训练新任务时,整体方法的准确性仍然较高。2其他两种方法的例子在补充材料中,所有实施细节和结果以表格形式列出。EWC(右)。上面的数字表示在训练任务1之后嵌入5类任务1;中间的数字表示在训练之后嵌入另外5类任务2任务1;底部的显示了训练任务2之后两个任务的嵌入SDC将前一任务保存的原型(由圆圈表示)校正到新位置(由三角形表示)。请注意,校正后的原型更接近真实平均值(用星号表示)。虚线箭头是SDC矢量。5. 实验在本节中,我们遵循评估创造性学习的方案[1,20,30]。对于多类数据集,类以固定的随机顺序排列。每种方法都是在可用数据上以类增量的方式进行训练,并在测试集上进行评估。对于评估指标,我们报告:平均增量精度[2],这是仅那些已经被训练的类的平均精度。我们还报告了CIFAR 100和ImageNet-Subset数据集的平均遗忘[6数据集。我们使用了以下数据集:[ 11 ]第102话:我的世界,我的世界,我的世界。FAR 100 [18]和ImageNet-Subset,其中包含100个从ImageNet [9]中随机选择的类所有人都被随机分成任务CUB-200-2011有200类鸟类,总共有11788张花-102组成26989表1:细粒度数据集的平均增量精度。Cub-200-2011鲜花-102T1T2T3T4T5T6T1T2T3T4T5T6E-PreE-Fix78.584.169.170.662.161.758.156.954.753.552.150.390.998.277.583.677.782.876.180.175.278.473.676.9FT79.734.723.317.512.611.499.143.932.224.218.815.3E-FT84.173.662.554.243.037.498.276.059.350.242.429.1E-FT+SDC84.175.569.563.657.549.398.285.574.161.949.835.3LWF79.754.840.833.727.023.699.169.767.460.049.946.6E-LwF84.174.064.860.055.551.498.285.381.677.269.363.5E-LwF+SDC84.174.465.961.357.352.798.286.182.279.674.769.7EWC79.743.426.620.015.512.699.165.240.933.823.722.1E-EWC84.173.665.061.655.054.298.286.284.982.980.979.6E-EWC+SDC84.174.867.462.858.256.498.287.686.986.084.283.9MAS79.749.437.831.425.022.399.171.161.357.952.144.8E-MAS84.172.565.160.454.751.998.282.979.176.673.970.9E-MAS+SDC84.171.965.361.157.354.498.283.180.778.876.876.0从102种花卉中随机选出100种共8189张图片CIFAR100包含600张图像图5:SDC对CUB-200-2011数据集的实际均值和原型之间距离的影响每一行代表一个类。粗线表示所有类别的平均值。该图证实了SDC正确地补偿了原型的部分漂移。对于每一个班级。ImageNet-Subset总共有129, 156个图像。Caltech-101由101个不同类别的物体图像组成。实施详情。 所有模型都是用Pytorch实现的。Adam[16]用于优化。ResNet-18 [12]被采用作为从ImageNet为CUB-200-20113和Flowers预训练的骨干网络。102.对于CIFAR 100和ImageNet-Subset版本,CUB-200-2011数据集(100类)100806040200102030405060708090100班数100806040200Caltech-101数据集FTLwMExpert-GateE-MASE-MAS+SDC联合102030405060708090100班数分别使用ResNet-32和ResNet-18,如[15]中所述,但没有预训练。三重态损失[13]用于所有报告的实验4。训练图像(除了CIFAR100到32×32之外,所有大小都调整为256×256)被随机裁剪和翻转。我们使用32的小批量我们以1e−5的学习率训练我们的模型50个epoch在CUB-200-2011上,1 e −4在Flowers-102上为20,1 e−6CIFAR100和ImageNet子集上的50个。 最后的EM-对512个维度的寝具进行归一化。E-LwF、E-EWC、E-MAS和三重态损失之间的权衡分别为1、1e 7和1e 6。我们选择一个固定的σ= 0。为了计算所有数据集的SDC向量的权重,除了CIFAR100之外,我们选择σ=0。二、5.1. 嵌入网络为了评估我们的方法的有效性,我们在两个细粒度数据集上进行了实验:CUB-200- 2011和Flowers-102 5在六个任务情景上。结果示于表1中。在这里,我们分析训练最后一个任务(T6)后的平均结果。当比较使用softmax(LwF/EWC/MAS)和嵌入式网络(E-LwF/E-EWC/E-MAS)训练的各种防止遗忘的方法时,我们3在CUB-200-2011中,没有鸟的ImageNet预训练的结果没有太大变化,如补充材料所示。4使用多相似性[41]和角度[40]损失函数的结果见补充材料。多相似性损失提高了第一个任务的性能,但获得类似的结果较长的序列。5关于Cars-196的结果见补充材料。图 6 : 平 均 增 量 精 度 。 CUB-200-2011 ( 100 班 ) 和Caltech-101上的十项任务比较。观察到性能的巨大提高,表明嵌入式网络不太容易发生灾难性的遗忘。我们还在预训练的ImageNet模型(E-Pre)和训练第一个任务后固定的模型(E-Fix)上添加了NME的结果。我们可以看到SDC在两个数据集上的最佳整体准确性都优于这两个基线。此外,可以看出,E-LwF,E-EWC和E-MAS在两个数据集上都优于E-FT。例如,E-EWC获得16的增益。8%的鸟类和50。5%的鲜花。这三种防止遗忘的方法的性能是相当的。接下来,我们可以观察到SDC进一步改善了所有方法的结果,特别是对于具有11的E-FT。9%的鸟类和6。2%的鲜花。最后,有趣的是,观察到嵌入网络上的简单微调(E-FT)获得了比LwF,EWC和MAS更好的结果。当进一步与语义漂移补偿相结合时,它进一步改进了这些方法。为了进一步分析SDC是否防止原型类型的漂移,我们测量真实类均值和原型之间的平均距离(在应用SDC之前和之后)。结果提供在图中。五、我们观察到,SDC减少了原型的漂移。FTLwMExpert-GateE-MASE-MAS+SDC联合平均准确率平均准确率6990FTLwFEWCMASE-EWC+SDCiCaRL-CNNiCaRL-NME再平衡接头E-EWC+SDCiCaRL-CNNiCaRL-NME重新平衡FTLwFEWCMASE-EWC+SDCiCaRL-CNNiCaRL-NME再平衡接头平均遗忘平均准确率平均遗忘JF=f。CIFAR100数据集9080CIFAR100数据集50ImageNet-Subset数据集9080ImageNet-Subset数据集507040704060 60303050 5040 40202030 30201020 1010050 60 70 80 90100班数050 60 70 80 90100班数10050 60 70 80 90100班数050 60 70 80 90 100班数图7:在CIFAR 100和ImageNet-Subset数据集上,11个任务设置的平均增量准确率和平均遗忘率的比较。实线表示非基于范例的方法,虚线表示基于范例的方法。5.2. 与最新技术水平方法的比较CUB-200和Caltech-101上的十项任务IL评估-评估较长序列的SDC,并与Learn进行比较-在不进行分类(LwM)的情况下,我们遵循[10]的设置,并在CUB-200(100个班级)和Caltech-101上进行了实验,其中班级被随机分为10个相等的任务。图6显示了与FT(softmax),LwM [10],Expert Gate [2],联合训练的上限以及我们最好的整体方法E-MAS和E-MAS+SDC的比较。我们在两个数据集上都获得了明显的优势。有趣的是,E-MAS已经获得了21个。2%,29。在这两个数据集上训练10个任务后,分别比最近的LwM方法高0%。应用我们的SDC方法进一步提高了增益6。CUB-200-2011和1. 加州理工101的4%实验对CIFAR100和ImageNet-Subset在[15]中,使用了类增量学习的11个任务评估协议,其中第一个任务由一半可用类组成,其余的任务平均分为10在[6]中定义了平均遗忘,以估计先前任务的遗忘他们量化遗忘ods,获得了13.9%的增益超过最佳范例方法(再平衡[15])。在ImageNet-Subset上的实验结果优于所有的非样本方法和两种基于样本的方法。7 .第一次会议。结论与CIFAR 100的平均增量准确度一致,比LwF高35.0% , 比 iCaRL-CNN 高 15.5% , 比 iCaRL-NME 高2.5%。对于平均遗忘,我们的方法比Rebalance方法少3.5%的遗忘。最后,我们还在两个数据集的任务1上进行了微调后 运 行 了 修 复 网 络 。 CIFAR100 的 结 果 为 46.3% ,ImageNet−Sub为50.5%。这表明,目前对于这些困难的多任务设置,没有样本的方法并没有显著优于这一基线;甚至一些具有范例的方法(例如iCaRL-CNN和iCaRL-NME)在这方面也失败了。这部分是由于任务1中的大量类,如果我们专注于持续学习的任务(2端)的性能,这些方法仍然会报告明显的优势(另见补充材料)。6. 结论对于第j个任务fk=maxl ∈1,.,k−1(al,j-ak,j),jk,当应用精细时遗忘的戏剧性效果在分类网络上观察到的,其中an m是训练任务后任务n的准确度M.第k个任务的平均遗忘被写为:1k−1kkk−1j=1j对于CIFAR100平均增量accu结果,在图中给出了随机和平均遗忘。7 .第一次会议。显示了三组方法:基于非样本(FT,LwF,EWC,MAS,E-MAS+SDC),基于样本(iCaRL-CNN [30],iCaRL-NME [30],Rebalance [15])和联合训练。从平均增量准确度来看,我们可以看到,我们的整体最佳方法E-EWC+SDC以较大幅度击败了所有其他基于非样本的方法,与EWC相比,差距最小为27.6%。它还超过了两种基于范例的方法,即iCaRL-CNN和iCaRL-NME[30],分别为7.1%和1.1%。为了比较防止遗忘能力,我们在图中的平均遗忘度量方面展示了我们的方法和基于范例的方法的性能。7 .第一次会议。我们的方法(红色)比所有基于范例的方法更容易忘记,表示嵌入网络。这表明,目前基于softmax的方法在持续学习中的主导地位需要重新审视,我们的研究结果提倡使用嵌入式网络。此外,我们还提出了一种在训练新任务时近似原型语义漂移的方法该方法是复杂的,到几个现有的增量学习,ING最初设计的分类网络的方法。Experiments表明,我们的方法与现有的方法相结合时,一贯改善的结果。致谢我们感谢华为麒麟解决方案、加泰罗尼亚自治区工业博士学位授予MSCA-RISE-2017-777720,欧盟2020年计划下的玛丽Sklodowska-Curie赠款协议编号6655919和西班牙项目RTI 2018 -102285-A-I 00,国家重点实验室盲信号处理下的赠款编号61424131903。E-EWC+SDCiCaRL-CNNiCaRL-NME重新平衡平均准确率6991引用[1] R. Aljundi,F.巴比罗尼Elhoseiny,M.罗尔巴赫,以及T. Tuytelaars 记忆感知突触:学习什么(不)忘记。在ECCV,第139-154页,2018年。二、五、六[2] R. Aljundi,P. Chakravarty,and T. Tuytelaars专家门:通过专家网络进行终身学习。在CVPR中,第3366-3375页二四六八[3] E. Belouadah和A.波佩斯库Il2m:具有双重记忆的班级增量学习。在IEEE国际计算机视觉会议集,第583-592页,2019年2[4] J. 布罗姆利岛Guyon,Y. LeCun,E. Sa?ckinge r和R.Shah. 使用“连体”时间延迟神经网络的签名验证。NIPS,第737-744页,1994年。3[5] F. M. 卡斯特罗M.J. Ma r'ın-Jime' nez,N.吉尔角schmid和K.阿拉哈里端到端增量学习。计算机科学讲义(包括人工智能和生物信息学讲义的子系列讲义),11216LNCS:241-257,2018。二、四[6] A. Chaudhry,P.K. Dokania,T.Ajanthan 和P.H. 乇Rie-mannian walk增量学习:为了得到而理解和不妥协。参见ECCV,第532-547页,2018年。二四六八[7] W. Chen,X. Chen,J. Zhang,and K.煌除了三重态损失:一个深度的四元组网络用于人的重新识别。在CVPR,第403-412页,2017年。3[8] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地,与应用到人脸验证。在CVPR,第1卷,第539-546页中。IEEE,2005年。二、三[9] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。在CVPR,第248-255页中。Ieee,2009年。6[10] 达尔河V. Singh,K.- C.彭,Z. Wu和R.切拉帕学习而不记忆。在CVPR中,第5138-5146页,2019年。二、八[11] L.费费河Fergus和P.佩洛娜从几个训练示例中学习生成视觉模型:增量贝叶斯方法测试101对象类别。在CVPR研讨会上,第178-178页IEEE,2004年。6[12] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。7[13] E. Hoffer和N.艾伦使用三重网络的深度度量学习。在基于相似性的模式识别国际研讨会上,第84-92页。施普林格,2015年。三、四、七[14] S. Horiguchi,D. Ikami和K.相泽与基于距离度量学习的特征相比,基于softmax的特征的重要性。IEEE Trans.on PAMI,2019. 4[15] S. Hou,X.潘角,澳-地C. Loy,Z. Wang和D.是林书通过重新平衡来增量地学习统一分类器。在CVPR,第831-839页,2019年。二、四、七、八[16] D. P. Kingma和 J. BA. Adam :随机最佳化的方法。ICLR,2014年。7[17] J. 柯克帕特里克河Pascanu,N.Rabinowitz,J.Veness,G.Des- jardins,A. A. Rusu,K. Milan,J. Quan,T. 拉马略6992A. Grabska-Barwinska等人克服灾难性的-进入神经网络。美国国家科学院学报Sci.美国,第201611835页,2017年。一二四五六[18] A. Krizhevsky,G. Hinton等人从微小的图像中学习多层特征。技术报告,Citeseer,2009年。6[19] Z. Li和D.霍伊姆学而不忘。IEEE Trans. on PAMI,40(12):2935-2947,2018. 一、二、四、六[20] X. Liu,M.马萨纳湖Herranz,J. Van de Weijer,A. M.Lopez和A. D. Bagdan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BGP协议首选值(PrefVal)属性与模拟组网实验
- C#实现VS***单元测试coverage文件转xml工具
- NX二次开发:UF_DRF_ask_weld_symbol函数详解与应用
- 从机FIFO的Verilog代码实现分析
- C语言制作键盘反应力训练游戏源代码
- 简约风格毕业论文答辩演示模板
- Qt6 QML教程:动态创建与销毁对象的示例源码解析
- NX二次开发函数介绍:UF_DRF_count_text_substring
- 获取inspect.exe:Windows桌面元素查看与自动化工具
- C语言开发的大丰收游戏源代码及论文完整展示
- 掌握NX二次开发:UF_DRF_create_3pt_cline_fbolt函数应用指南
- MobaXterm:超越Xshell的远程连接利器
- 创新手绘粉笔效果在毕业答辩中的应用
- 学生管理系统源码压缩包下载
- 深入解析NX二次开发函数UF-DRF-create-3pt-cline-fcir
- LabVIEW用户登录管理程序:注册、密码、登录与安全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功