没有合适的资源?快使用搜索试试~ 我知道了~
5138学而不记Prithviraj Dhar*1,Rajat Vikram Singh*2,Kuan-Chuan Peng2,Ziyan Wu2,RamaChellappa11马里兰大学帕克分校2Siemens Corporate Technology,新泽西{prithvi,rama}@ umiacs.umd.edu,{singh.rajat,kuanchuan.peng,ziyan.wu}@ siemens.com摘要增量学习(IL)是一项重要的任务,旨在提高训练模型的能力,在模型可识别的类的数量方面。在这个任务中的关键问题是存储数据的要求(例如,图像),同时教导分类器学习新的类。然而,这是不实际的,因为它在每一个递增步骤中增加了存储器需求,这使得不可能在具有有限存储器的边缘设备因此,我们提出了一种新的方法,称为在LwM中,我们提 出 了 一 个 信 息 保 持 惩 罚 : Atten- tion 蒸 馏 损 失(LAD),并证明了惩罚分类器的注意力地图的变化我们表明,将LAD添加到蒸馏损失(这是一种现有的信息保留损失)中,在基础和增量学习类的整体准确性1. 介绍视觉识别任务的大多数最先进的解决方案都使用专门为这些任务训练的模型[6,13]。对于涉及类别的任务(如对象分类、分割),任务的复杂度(即目标类的数量)限制了这些训练模型的能力。例如,一个用于对象识别的训练模型只能对它所训练的对象类别进行分类。但是,如果目标类的数量增加,则必须以这样的方式更新模型,即它在其上的原始类上表现良好。* 这些作者对这项工作做出了同样的贡献,部分工作是在PD在西门子公司技术实习期间完成的图1:我们的问题设置没有存储与在之前的增量步骤中学习的类被训练的类,也被称为基类,同时它也会逐渐学习新的类如果我们只在新的、以前看不见的类上重新训练模型,它会完全忘记基类,这被称为灾难性遗忘[9,10],这是一种在人类学习中通常不会观察到的现象。因此,大多数现有的解决方案[4,14,18]通过允许模型保留基类的一部分训练数据,同时增加学习新类来探索增量学习(IL)。Yu等人。[18]提出保留编码基类信息的训练模型,将其知识转移到学习新类的模型中然而,该过程是不可扩展的。这是因为存储基类数据或对基类信息进行编码的模型此外,在工业环境中,当训练的对象分类模型被递送给最终用户时,训练数据出于专有原因而保持私有。因此,最终用户将无法更新训练模型以在缺少基类数据的情况下并入新此外,存储基类数据用于增量学习新类不是生物学上的启发。 例如,当幼儿学习识别新的形状/物体时,观察到它不会完全忘记它已经知道的形状或物体。它也不总是需要重温旧的信息时,学习5139新实体。受此启发,我们的目标是通过添加一系列新类来探索对象分类中的增量学习,而不存储属于分类器已经看到的类的数据。 虽然已经提出了不需要基类数据的IL解决方案,例如[1,9],但这些方法主要旨在增量学习新任务,这意味着在测试时,模型不会将增量学习的任务与已经学习的任务混淆,从而使问题设置更容易。我们探索了增量学习对象类的问题,在前面的步骤中没有存储与基类(图1)相关的任何数据或模型,同时允许模型将新类与旧类混淆。在我们的问题设置中,理想的增量学习者应该具有以下属性:i 它应该帮助经过训练的模型学习从数据流中获得的新类,同时保留模型ii 在测试时,它应该使模型能够在模型进行预测时考虑它所学习的所有类。iii 内存占用的大小根本不应该增长,不管到目前为止看到的类的数量如何。针对同一问题的现有工作是LwF-MC,这是[14]中的基线之一。在下面的章节中,我们在增量步骤t使用以下术语(在[19]中引入):教师模型,Mt-1,即只使用基类训练的模型。学生模型Mt,即增量学习新类的模型,同时模拟教师模型以保持基类的性能。信息保持惩罚(IPP),即惩罚Mt−1和Mt之间的分歧的损失。理想情况下,这有助于Mt像Mt−1一样熟练地对基类进行分类。使用Mt-1初始化,然后训练Mt学习新的类使用分类损失,LC。 然而,IPP也被应用于Mt,以最小化Mt−1和Mt的表示之间的分歧。当LC帮助Mt学习新的类时,IPP阻止Mt从Mt−1偏离太多。由于Mt已经初始化为Mt−1,IPP的初始值预计接近于零。然而,随着Mt不断学习LC的新类,它开始偏离Mt−1,这导致IPP增加。IPP的目的是防止Mt从Mt−1发散。一旦Mt被训练了固定数量的epoch,它就被用作下一个增量步骤中的老师,使用它来初始化新的学生模型。在LwF-MC [14]中,IPP是知识蒸馏损失。在这种情况下,知识蒸馏损失LD第一次是在[12]。它捕获了Mt−1和Mt的预测向量之间的偏差。在增量设置中,当属于新类(In)的图像被馈送到Mt−1时,在In中具有某些相似性的基类被捕获。LD强制Mt捕获相同的基类。因此,LD本质上使M无法学习对模型预测有重要影响的像素构成网络的关注区域。然而,LD没有明确考虑每个像素影响模型预测的程度例如,在图2中,在第一行中,可以看出,在步骤n处,即使网络在预测“拨号电话”时聚焦于不正确的区域我们假设注意区域更精确地编码模型因此,使用注意 力 蒸 馏 损 失 ( 注 意 力 蒸 馏 损 失 ) 来 限 制 Mt 和Mt−14.1),使Mt的表示与Mt−1的表示的发散最小化更有意义。 这是因为,注意力地图解释了基类的“为什么”提示会出现,而不是在新数据中查找哪些基类是使用这些提示,LD试图使Mt−1和Mt的注意力图相等,有助于在Mt中编码一些基类的视觉知识。我们在图2中显示了LD的效用,其中尽管模型正确地预测图像为我 们 提 出 了 一 种 方 法 , 其 中 注 意 力 蒸 馏 损 失(LAD)应用于Mt,以防止其从Mt−1发散,在增量步骤t。准确地说,我们建议限制由Mt−1和Mt生成的注意力地图之间的L1距离,以保留基类的知识。这一策略背后的原因在第4.1节中描述。除了蒸馏损失L_D和分类损失之外,这还被应用于学生模型以增加学习新的类。这项工作的主要贡献是提供了一种基于注意力的方法,称为“学习无障碍(LwM)”,这有助于模型通过限制学生和教师模型之间的分歧来逐步学习新的类。LwM在学习新类时不需要任何基类的数据。与当代探索同一问题的方法不同,LwM通过使用这些模型生成注意力图来考虑教师和学生模型的梯度流信息。然后,它将该信息约束为对于教师和学生模型是等效的,从而防止学生模型与教师模型偏离太多最后,我们表明,LwM consis-5140…样品知识流失注意力流失知识流失注意力流失步骤0----步骤1...0.080.120.080.12步骤n0.090.820.090.15网络权重Aljundi等人提出了MAS [1],一种训练智能体学习哪些信息不应该被遗忘的技术。这一类别中的所有实验都使用多头评价,这与本文的问题设置不同,在本文中我们使用单头评价,在[4]中明确定义。 单头评估是另一种评估方法,其中模型在基础和增量学习类上联合评估。多头评估比单头评估更容易,如[4]所述。类增量(CI)方法:在这个问题中,一个被训练来对数据集的特定类执行对象分类的模型被递增地训练来对同一数据集中的新的看不见的类进行分类。大多数现有的工作探索这个问题使用单头评价。这使得CI问题比TI问题更困难,因为模型可能会将CI问题中的新类与基类混淆。iCaRL [14]属于这个图2(上)注意力区域退化的例子在以后的渐进步骤中。(下)注意力区域在增量步长之间不变化的情况的示例注意力蒸馏损失不受注意区域退化的影响,而注意力蒸馏损失则对注意区域的在iILSVRC-small [14]和iCIFAR-100 [14]数据集中的性能明显优于最先进的性能。2. 相关工作在对象分类中,增量学习(IL)是通过训练对象分类器识别新类来增加对象分类器的广度的过程,同时保留其原始训练的类的知识。在过去的几年里,在这一领域有相当多的研究工作[9,12]。此外,有几个子集的研究问题,施加不同的约束条件的数据存储和评估。我们可以根据现有方法的约束条件对其进行划分任务增量(TI)方法:在这个问题中,一个被训练来对特定数据集执行对象分类的模型被递增地训练来对新数据集中的对象进行分类。这些实验的一个关键特征是,在评估过程中,最终模型分别在不同的数据集(基础和增量学习)上进行测试。这就是所谓的多头评价[4]。在这样的评估中,属于两个不同任务的类没有机会彼此混淆。这一类别的早期作品之一是LwF[12],其中蒸馏损失用于保存基类的信息。此外,在训练期间使用来自基类的数据,而分类器学习新类。EWC [9]是这一领域的一项重要工作,在每个增量任务中,学生模型的权重根据其重要性被设置为相应的教师模型的权重。类别.在iCaRL [14]中,Rebuffi et al.提出了一种技术来联合学习特征表示和分类器。他们还介绍了一种选择样本的策略,该策略与蒸馏损失结合使用,以防止catastrophic遗忘。此外,新的基线:LwF-MC在[ 14 ]中引入,它是LwF [ 12 ]的类增量版本。LwF-MC使用蒸馏损失和分类损失来保存基本类的知识,而不存储基本类的数据,并且使用单头评估来评估。另一项旨在解决CI问题的工作是[4],它使用单头和多头评估进行评估,并强调了它们的区别。Chaudhry等人[4]引入度量来量化遗忘和不妥协,并提出黎曼步行来增量学习类。大多数增量学习框架的一个关键因素是它们是否允许存储基类的数据(即分类器最初在其上训练的类)。我们也可以根据这个因素来划分现有的方法使用基类数据的方法:已经提出了几个实验,使用一小部分的数据的基础类,而训练的分类器学习新的类。iCaRL [14]使用基类的样本,同时增量学习新类。Simi-larly,Chaudhry et al.[4]也使用基类的一小部分数据。 Chaudhry等人[4]这也表明,特别有助于减轻顽固不化的情况,而顽固不化是单方面评价所面临的一个问题。然而,为基类存储数据会在每个增量步骤增加内存需求,这在内存预算有限时是不可行的。不使用基类数据的方法:几前面描述的TI方法(如[1,9])在训练分类器以增量方式学习新类时不使用有关基类的信息尽最大5141不0ˆ我约束使用基类数据没有基类数据CI方法iCaRL [14]、[4]、[18]LwF-MC [14]、LwMTI方法LwF [12]IMM [10],EWC [9],MAS [1]、[2]、[8]表1:增量学习中最近相关工作的分类。我们专注于类增量(CI)的问题,基类数据是不可用的,当学习新的类。据我们所知,LwF-MC [14]是唯一一种不需要基类数据但使用单头评估的CI方法表1列出了该领域以前工作的分类。我们提出了一种技术来解决CI问题,而不使用任何基类数据。我们可以从上面的讨论中推断,LwF-MC [14]是唯一使用单头评估的现有工作,因此将其用作我们的基线。我们打算在增量设置中使用注意力地图,而不仅仅是知识蒸馏,将更全面的基类知识从教师模型转移到学生模型。虽然在[19]中,先前已经探索了将教师和学生模型的注意力地图在我们的增量问题设置中,由于缺少基类数据,我们打算利用新数据中的注意区域,该区域类似于基类之一。但这些区域并不突出,因为数据不属于任何基类,因此需要类特定的注意力图。类别特异性需要以更有针对性的方式挖掘基类区域,这就是为什么通用注意力地图(如[19]中基于激活的注意力地图)不适用的原因,因为它们不能提供关于对应于目标类的相关模式的类特定的解释。我们将类特定解释定义为网络如何理解特定类型对象的空间位置。这些位置通过计算Grad-CAM [16]注意力图来确定。此外,在LwM中,通过使用类特定的注意力映射,我们可以加强教师和学生模型之间的类特定的解释的一致性。此外,我们的问题设置与知识分解不同,因为在增量步骤t,我们在训练Mt时冻结Mt−1,并且不允许Mt访问基类中的数据,因此Mt−1和Mt是使用完全不同的类集进行训练的。这使得问题更具挑战性,因为Mt的输出来自向量),以提高LwF-MC的信息保存能力[14]。在LwF-MC和我们提出的方法LwM中,不允许存储在先前递增步骤中训练的教师模型,因为当内存预算有限时,从所有先前步骤中累积模型是不可行的。3. 背景在我们讨论LwM之前,重要的是介绍蒸馏损失LD,这是我们的基线IPP,以及我们如何生成注意力地图。3.1. 蒸馏损失(LD)LD在[12]中首次引入,用于增量学习。其定义如下:XN0L_D(y,y) =-yi. log(yi),(1)i=1其中,y和Mty是Mt−1和Mt的预测向量(由概率0在N上训练 基类)。所以,我= σ(y i),=σ(y 这个定义--LD的点火与LwF-MC [14]中的定义一致。本质上,当属于增量添加类之一的图像被馈送到每个时,LD强制Mt和Mt-1其中此外,我们相信在基础数据和新类数据中存在共同的视觉语义或模式。因此,当新的类数据作为输入时,鼓励Mt和Mt−1这有助于保留旧的类知识(就常见的视觉语义而言)。3.2. 生成注意力图我们描述的技术,用于生成atten- tion地图。在我们的实验中,我们使用Grad-CAM [16]来完成这项任务。在[15]中,Grad-CAM映射已被示出编码信息以学习新类,尽管不是在增量设置中。为了使用Grad-CAM,首先将图像转发到模型,获得每个类别的原始分数。在此之后,相对于每个卷积特征图Ak计算期望类c的分数yc的梯度。对于每个Ak,执行全局平均池化以获得Ak的神经元重要性αk。所有由αk加权的Ak都通过ReLU激活函数,以获得类c的最终注意力图。看不见的类是基类数据的唯一来源。 这是更 确切地说, 令αkyc=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000设α =在SEC中进一步解释。4.1.我们打算通过建议限制教师和学生模型的注意力地图是等价的(除了它们的预测之外)[α1,α2, . .... . . 你 好 。 ,αK]和A=[A1,A2, . .... . .你 好 。 ,AK],其中K是层中的卷积特征图的数量,使用该卷积特征图来生成注意力图。注意力图Q可以定义为:y05142QQt−1不不不t−1是学生培养的重要一步因此,我们在计算LAD时执行此步骤。在Mt的训练过程中,属于要学习的新类别之一的图像(表示为In)作为输入给Mt−1和Mt。假设b是由Mt预测的顶级基类(即,具有最高得分的基类)。对于该输入,L_AD被定义为归一化的、矢量化的注意力图的按元素的L1XLLAD=印度bkt−1,jkQIn,bk印度b-t,jk1kQIn,bk(六)j=1t−12t2图3:在增量步骤t,LwM接受属于其中一个新类的图像。三个损失(LC、LD和LAD)应用于Mt,而Mt−1保持冻结。新的类被描绘在M t的分类器的下部。Q=ReLU(αTA)(2)4. 该方法从上面的解释中,我们知道,对于训练Mt,Mt−1被输入了它以前没有见过的类的数据(In)。本质上,由Mt−1(对于In)生成的注意区域表示图像中与基类相似的区域。如果Mt和Mt−1具有等价的基类知识,则它们应该具有 对这些区域的类似反应,因此QIn,b应该类似于Qin,b。这意味着Mt-1的注意输出是基础数据的唯一痕迹,这指导了Mt我们使用QIn,b和QIn,b之间的L1距离作为惩罚来强制执行t−1t我们引入了一个信息保持惩罚(LAD)基于注意力地图我们结合LAD与蒸馏损失LD和分类损失LC来构建LwM,这种方法鼓励教师和学生的注意力地图相似。我们的LwM框架如图3所示。LwM的损失函数定义如下:LLwM=LC+ βLD+γLAD(3)他们的相似性。在这种情况下,我们对L1和L2然而,由于我们在保留数据上使用L1距离获得了更好的结果,因此我们选择了L1而不是L2距离。根据等式 2、注意力地图编码梯度关于卷积特征图A的类b的得分,yb。这些信息并没有被班级分数的分布(由LD使用)明确地捕获。通过令人鼓舞的Q In,b 和Q In,b 为了等效, 我们这里β、γ分别是用于L_D、L_AD的权重在t−1t“#“#与LwM相比,LwF-MC [14]仅使用分类损失与蒸馏损失的组合,并且是我们的基线。限制分歧,埃尼湾At−1和埃尼湾A.不4.1. 注意蒸馏损失(LAD)在增量步骤t,我们定义学生模型Mt,使用教师模型Mt−1初始化。我们假设Mt精通N个基类的分类。需要Mt来识别N+k个类,其中k是递增添加的不可见类的数量。因此,Mt-1和Mt的预测向量的大小分别为N和N+k对于任何给定的输入图像i,我们将Mt−1和Mt生成的向量化注意力映射,对于类c分别表示为Qi,c和Qi,c我们使用Grad-CAM [16]生成这些地图,如上所述。这确保了类特定解释的一致性老师和学生之间。我们知道A中的每个特征映射都编码了一个视觉特征。虽然可能有几个因素会导致yb的变化,但LAD迫使A中封装的特定视觉特征的变化对于Mt和Mt−1是等效的。因此,我们假设,将捕获模型对于基类(y,y)的分数分布的Ld与捕获模型的梯度流信息的损失相此外,注意力图是预测向量(y,y)的2D表示,这意味着它们比这些向量捕获更多的空间信息i,ct−1=向量(Grad-CAM(i,Mt−1,c))(4)因此使用注意力图比仅使用预测向量更有利。Qi,c=向量(Grad-CAM(i,Mt,c))(5)我们假设每个向量化的注意力图的长度是l。在[19]中,已经提到通过将注意力图除以图的L2范数来归一化注意力图,5. 实验我们首先解释我们的基线,即LwF-MC [14]。接下来,我们提供有关数据集的信息Q5143输入M0步骤1步骤2步骤3步骤4输入M0步骤1步骤2步骤3步骤4图4:由以下实验ID(表3)生成的示例注意力图:C、LwF-MC和LwM。 所有输入图像都属于初始基类。列M0表示由初始教师模型生成的对应的基本类注意力图,并且列step 1 - 4表示在步骤1 - 4中的四个不同的增量步骤中生成的对应的基本类注意力图。时间顺序这些例子表明,LwM生成的注意力地图随着时间的推移更接近列M0中的注意力地图,与C和LwF-MC,这证明了LAD在LwM中的功效。数据集iILSVRC iCIFAR CUB200 Caltech- 小型-100-2011-101#类100 100 100 100# training images 500 500 80% of data 80% of data#测试图像 100 100 20%的数据 20%的数据#类/批次10 10,20,50 10 10eval. 公制top-5 top-1 top-1 top-1表2:根据[14],我们实验中使用的数据集的统计数据。此外,我们还在CUB-200-2011 [17]数据集上进行实验。在我们的实验中使用在此之后,我们描述了迭代协议,在每一个增量步骤进行分类我们还提供实施细节,包括architec- tural信息。5.1. 基线由于我们的基线是LwF-MC [14],我们首先实现其目标函数,该目标函数是分类损失和蒸馏损失之和(LC+LD)。在我们所有的实验中,我们使用LC的交叉熵损失与[14]一致。然而,应该强调的是,[14]在LwF-MC中正式实现的LD与[12]中的L D定义不同。由于LwF-MC(而不是LwF)是我们的基线,因此我们在工作中使用iCaRL的LwF-MC实现。LwF无法处理没有基类训练数据的CI问题(根据表1),这就是我们选择LwF-MC作为基线和iCaRL实现的原因5.2. 数据集我们使用LwF-MC [14]中使用的两个数据集进行实验。此外,我们还在Caltech-101 [5]和CUBS-200-2011[17]数据集上进行了实验。数据集的详细信息见表2。这些数据集是通过在每个增量步骤中随机选择一批类来构建的。在这两个数据集中,属于不同批次的类是不相交的。为了进行公平比较,所有数据集的数据准备和评价策略与LwF-MC [14]相同。5.3. 实验方案我们现在描述我们迭代训练Mt所使用的协议,以便它在增量学习新类的同时保留基类的知识。在第一个增量步骤(t= 1)之前,我们在10个基类上训练教师模型M0,使用10个epoch的分类损失分类损失是交叉熵损失LC。在此之后,对于t= 1到t=k,我们使用Mt−1作为其教师来初始化学生Mt,并将来自新一批图像的数据馈送到这两个模型中,这些图像将被增量学习这里k是增量步数将IPP和分类损失应用于学生模型:给定来自新类的数据作为输入,我们生成关于具有最高得分的基类的M t和M t−1的输出。这些输出可以是类特定注意力图(计算L_D所需的)或类特定分数(计算L_D所需的)。使用这些输出,我们计算IPP,其可以是LAD或LD。此外,我们将分类损失应用于MtLwMLwF-MCCLwM LwF-MC C5144表3:本工作中使用的实验配置,由其各自的实验ID标识。基于其关于要被增量地学习的新类的输出。我们将分类损失和IPP联合应用于Mt,并训练它10个时期。一旦Mt被训练,我们就在下一个增量步骤中将其用作教师模型,并迭代地遵循上述步骤,直到所有k个增量步骤完成。5.4. 实现细节我 们 使 用 ResNet-18 [7] 架 构 在 iILSVRC-small ,Caltech- 101和CUBS-200-2011数据集上训练学生和教师模型,并使用ResNet-34 [7]在iCIFAR-100数据集上训练模型。这与[14]中使用的网络和数据集一致。 我们使用0.01的学习率。 的特征图最后的卷积层用于使用Grad-CAM生成注意力图,因为这些图是高度可解译的。[16 ]第10段。分类损失和IPP的组合以及它们的实验ID在表中提供。3 .第三章。从现在起,实验配置将被称为它们各自的6. 结果在讨论我们提出的处罚的定量结果和优势之前,我们展示了一些定性结果来证明使用LAD的优势。我们表明,与LwF-MC [14]相比,使用LwM可以在更长的时间内保留基类的注意区域,当更多的类被增量添加到分类器时在第一个增量步骤t= 1之前,我们在10个基类上训练了M0现在,按照SEC的协议。在5.3中,我们在每一个增量步骤中增量地添加10个类。在每个增量步骤t,我们用3个配置训练M t:C,LwF-MC [14]和LwM。我们使用Mt为来自基类的数据生成注意力图(使用它训练M0),它还没有看到,并在图4中显示结果。此外,我们还使用M0(即第一个教师模型)生成相应的注意力地图,这可以被认为是对于用C训练的Mts,可以看出,在每一个增量步骤之后,基类的注意区域很快被遗忘。这可以归因于灾难性的遗忘[9,10]。使用LwF-MC [14]训练的Mt具有稍好的注意力保持能力,但随着增量步骤的增加,注意力区域偏离表4:Caltech-101 [5]和CUBS-200-2011 [17]获得的结果这里FT指的是微调。第一步是用10个班级训练第一个教师模型。表5:LC+ LAD和LwM的前5个准确度比较。 LwM精度与图5的精度一致。LAD不是单独使用的,它通过实施班级分数的梯度来确保教师和学生之间对班级特定解释的一致性。特征图是等同的。有趣的是,由使用LwM配置训练的Mt生成的注意力图对于图4所示的所有增量步骤都保留了基类的注意力区域,并且与目标注意力图最相似。这些例子支持LwM延迟基类知识的遗忘。我们现在给出以下构型的定量结果:C,LwF-MC[14]和LwM.为了显示LwM的有效性,我们在多个数据集上评估了这些配置。iILSVRC-small和iCIFAR-100数据集的结果见图5。对于iILSVRC-小数据集,LwM的性能优于基线LwF-MC [14]。当类的数量为40或更多时,LwM特别是对于100类,LwM比基线LwF-MC [14]提高了50%以上。此外,LwM在每一个增量步骤上都优于iCaRL [14],尽管iCaRL在为iILSVRC-小数据集训练学生模型时具有存储基类样本的不公平优势。为了与[14]中的LwF-MC实验一致,我们通过构建iCIFAR-100来进行实验。#类FT LwM(我们的)FT LwM(我们的)数据集加州理工101CUBS-200-201110(基础)97.7897.7899.1799.172059.5575.3457.9278.753052.6571.7841.1170.834044.5167.4935.4258.545035.5259.7932.3353.676031.1856.6229.0347.927032.9954.6222.1443.798027.4548.7122.2743.839028.5546.2120.5239.8510028.2648.4217.434.52实验ID\丢失LCLDLADFinetuning377LwF-MC [14]337LwM333#类/配置LC+L ADLwM(我们的)2084.9599.553055.8299.184043.4698.725036.3698.106026.7897.225145iCaRL微调 LwF-MCLwM(我们的)前1位准确度(%)前1位准确度(%)iILSVRC-small的前5名精度100806040iCIFAR-100的前1准确度(10类批次)1002000 10 20 30 40 50 60 70 80 90 100班数iCIFAR-100上的前1准确度(20类批次)100iCIFAR-100上的前1准确度(50级批次)1008080806060604040402000 10 20 30 40 50 60 70 80 90 100班数2000 20 40 60 80100班数2000 50 100班数图5:我们的方法LwM和基线之间的性能比较。LwM优于LwF-MC [14],并且LwM甚至在iILSVRC小型数据集上优于iCaRL[14],因为iCaRL具有访问基类数据的不公平优势。在每个增量步骤中使用10、20和50个类的批处理数据集。结果见图五、可以看出,在iCIFAR-100数据集中,LwM在所有三种增量批次规模下的性能均优于LwF-MC。因此,我们得出结论,LwM在iILSVRC-小型和iCIFAR-100数据 集 中 始 终 优 于 LwF-MC[14] 此 外 , 我 们 还 使 用Caltech-101 和 CUBS-200-2011 数 据 集 [5] 进 行 这 些 实验,在每个增量步骤中添加一批10个类,并将其与微调进行比较。这两个数据集的结果如表4所示。在表5中,我们还提供了仅使用LC和LAD的组合在iILSVRC-小数据集中的几个增量步骤上获得的结果。在图5中展示了在LC之上递增地添加每个损失的优点,其中我们表明由于灾难性遗忘,仅使用C的性能很差[9,10]。在LwF-MC中加入L-D作为IPP,取得了一定的效果在LwM配置中加入LAD 后,性能进一步提高。7. 结论和今后的工作我们探索了对象分类任务的IL问题,并提出了一种技术:LwM通过L D和L AD相结合,用于利用注意力地图将基类的知识从教师模型转移到学生模型,而不需要任何基类的数据,训练在我们研究的所有场景中,这种技术都优于基线。关于未来的应用,LwM可以用于许多现实世界的场景。虽然我们在这项工作中探索IL问题的分类,我们相信,所提出的方法也可以扩展到分割。增量分割是一个具有挑战性的问题,由于缺乏丰富的地面实况地图。增量细分的重要性已经在[3]中强调过。由于视觉注意力对分割也有意义(如[11]所示),我们打算在不久的将来将LwM扩展到增量分割。确认这项工作主要是在Prithviraj在西门子实习时完成的,部分由情报高级研究项目活动(IARPA)通过内政部/内政 部商业 中心( DOI/IBC)合 同号D17 PC00345提供支持。美国政府被授权复制和分发再版政府的目的,而不受任何版权注释。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表IARPA、DOI/IBC或美国政府明示或暗示前1位准确度(%)前5名准确度(%)5146引用[1] R. Aljundi,F.巴比罗尼Elhoseiny,M.罗尔巴赫,以及T. Tuytelaars 记忆感知突触:学习什么(不)忘记。在欧洲计算机视觉会议(ECCV),2018。[2] R. Aljundi,M.Rohrbach和T.Tuytelaars 无我序列tial学习arXiv预印本arXiv:1806.05421,2018。[3] C. 巴韦哈湾Glocker和K.卡姆尼察斯医学影像学的持续学习。在医学成像满足NIPS研讨会,2018年。[4] A. Chaudhry,P. K. Dokania,T. Ajanthan和P. H. S. 乇用于增量学习的黎曼步行:理解遗忘和不妥协。在欧洲计算机视觉会议(ECCV),2018年9月。[5] L. 费费河Fergus和P.佩洛娜一次性学习对象类别。IEEE Transactions on Pattern Analysis andMachine Intelligence,28:594[6] R.娘娘腔。快速R-CNN。在IEEE Inter-National Conference on Computer Vision,第1440-1448页,2015年。[7] K.他,X。Zhang,S. Ren和J. Sun.深度残差学习用于图像识别。在Proceedings of the IEEE conference oncomputer vision and pattern recognition,第770[8] H. Jung,J. Ju,M. Jung和J. Kim.少遗忘学习深度神经网络。在AAAI,2018。[9]J·柯克帕特里克 R. 帕斯卡努 N. 拉宾诺维茨 J.Veness,G. Desjardins、A.A. Rusu,K.Milan,J.Quan,T.拉马略A. Grabska-Barwinska等人克服神经网络中的灾难性遗忘。美国国家科学院院刊,第201611835页,2017年。[10] S.- W.李,J. - H. Kim,J. Jun,J.- W.哈,B。- T. 张某通过增量矩匹配克服灾难性遗忘。神经信息处理系统进展,第4652-4662页,2017年[11] K. Li,Z.吴,K.-C. Peng,J.Ernst和Y.Fu. 告诉我去哪里看:引导注意推理网络。在IEEE计算机视觉和模式识别会议上,2018年6月。[12] Z. Li和D.霍伊姆 学而不忘。 IEEETransactions on Pattern Analysis and MachineIntelligence,2017。[13] J. Long,E.Shelhamer和T.达雷尔。完全卷积语义分割的网络。在IEEE计算机视觉和模式识别会议论文集,第3431-3440页[14]S.- A. Rebuffi,A.科列斯尼科夫湾Sperl和C. H. 蓝伯特iCaRL:增量分类器和表示学习。在Proc. CVPR,2017.[15] R. R. Selvaraju,P.Chattopadhyay,M.Elhoseiny,T.夏尔马D. Batra,D. Parikh和S.李你选择你的神经元:通过神经元重要性整合领域知识。在欧洲计算机视觉会议(ECCV)的会议记录中,第526-541页[16] R. R. 塞尔瓦拉朱M. 科格斯韦尔A. 达斯R. 韦丹坦D. Parikh,D. Batra等人Grad-CAM:通过基于梯度的本地化从深度网络中进行可视化。见ICCV,第618-626页[17] C. Wah,S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD鸟类-200 -2011数据集。技术报告CNS-TR-2011-001,加州理工学院,2011年。[18] Y. Wu,Y.陈湖,澳-地Wang,Y.是的ZLiu,Y.Guo,Z.张先生,和Y. Fu. 使用生成对抗网络的增量分类器学习。arXiv预印本arXiv:1802.00853,2018。[19] S. Zagoruyko和N.小木 更加重视注意:通过注意力转移提高卷积神经网络的性能。在ICLR,2017。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功