iCaRL：增量分类器和表示学习

29 浏览量更新于2023-10-16 收藏 939KB PDF 举报

2001

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2001iCaRL：增量分类器和表示学习Sylvestre-Alvise Rebuffi牛津大学/IST奥地利Alexander Kolesnikov，Georg Sperl，Christoph H. LampertIST奥地利摘要在通往人工智能的道路上，一个主要的开放问题是开发增量学习系统，随着时间的推移，从数据流中学习越来越多的概念。在这项工作中，我们引入了一种新的训练策略iCaRL，它允许以这样一种类增量的方式学习：只有少量类的训练数据必须同时存在，并且可以逐步添加新iCaRL同时学习强分类器和数据表示。这将其与早期的作品区分开来，早期的作品从根本上局限于固定的数据表示，因此与深度学习架构不兼容。我们通过对CIFAR-100和ImageNet ILSVRC 2012数据的实验表明，iCaRL可以在很长一段时间内增量学习许多类，而其他策略很快就会失败。1. 介绍自然视觉系统本质上是渐进的：新的视觉信息被连续地结合，而经验知识被保留。例如，一个孩子参观动物园将了解许多新的动物，而不会忘记家里的宠物相比之下，大多数人工对象识别系统只能在批量设置中进行训练，其中所有对象类别都是预先已知的，并且可以同时以任意顺序访问所有类别的训练数据随着计算机视觉领域越来越接近人工智能，很明显，需要更灵活的策略来处理现实世界对象分类情况的大规模和至少，当训练数据可用时，视觉对象分类系统应该我们称这种情况为类增量学习。形式上，我们要求算法的以下三个属性符合类增量：i) 它应该是可从其中不同类别的示例在不同时间出现的数据流中训练的，1班2班3班数据数据数据班级渐进学习者图1：类增量学习：算法从其中出现新类的顺序数据流中连续学习。在任何时候，学习者都能够对迄今为止观察到的所有类执行多类分类。ii) 它应该在任何时候为到目前为止观察到的类提供有竞争力iii) 其计算要求和存储器占用应该保持有界，或者至少相对于到目前为止看到的类的数量非常缓慢地增长。前两个标准表达了类的本质-增量学习。第三个标准防止琐碎的开销，如存储所有的训练样本和重新训练一个普通的多类分类器，每当新的数据是-来可用。有趣的是，尽管图像分类在过去几十年中取得了巨大的进步，但目前还没有一个令人大多数现有的多类技术只是违反了i）或ii）因为它们只能处理固定数量的类和/或需要所有训练数据同时可用，时间简单地说，人们可以尝试通过从类增量数据流中训练分类器来克服这一点，例如。使用随机梯度下降优化。然而，这将导致分类准确性迅速恶化，这在文献中称为灾难性遗忘或灾难性干扰[22]。满足上述属性的少数现有技术主要限于具有固定数据表示的情况。它们不能扩展到同时学习分类器和特征表示的深度架构，因此在分类准确性方面不再具有竞争力更多相关工作将在第3节中讨论。在这项工作中，我们介绍了iCaRL（增量分类器和表示学习），一个实用的策略，模拟学习分类器和特征表示类增量设置。基于对2002算法1iCaRL CLASSIFY输入x/1待分类图像需要P=（P1，. . . ，Pt）//类样本集需要X：X → Rd//特征映射2.1. 类增量分类器学习iCaRL以类增量的形式从数据流中学习分类器和特征表示相似性，即，样本集X1，X2，. . . ，其中所有对于y=1，. . . ，t do一个集合Xy={xy，. . . ，xy}是类y ∈ N。ny1简体中文端|Py| p∈Py（p）//样本平均值分类.对于分类，iCaRL依赖于集合，P1，. . .，Pt，它动态选择的范例图像的从数据流中删除。有一个这样的例子，y←argmin（x）−µy//最近原型y =1，…不输出类标签算法2iCaRL INCREMENTAL TRAIN输入Xs，. . .，Xt//每类集合中的训练示例输入K//内存大小需要Θ//当前模型参数要求P=（P1，. . . ，Ps−1）//当前样本集Θ← U_PDATE_REPRESENTATION（X_s，. . . ，Xt;P，Θ）m←K/t//每类样本数对于y = 1，. . . ，s − 1 doPy ←REDUCE EXEMPLAR SET（Py，m）端对于y =s，. . . ，t doPy ←CONGLECT EXEMPLAR SET（Xy，m，Θ）端P ←（P1，. . . ，Pt）//新样本集为了克服现有方法的缺点，我们引入了三个主要组成部分，它们组合起来允许iCaRL满足上面提出的所有标准。这三个组成部分是：• 通过样本最近均值规则进行分类• 基于放牧的优先化样本选择• 知识蒸馏表示学习和原型彩排到目前为止每个观察到的类，并且iCaRL确保样本图像的总数永远不会超过固定参数K。算法1描述了用于将图像分类到迄今为止观察到的类别集合中的样本均值分类器，详细说明请参见第2.2训练对于训练，iCaRL使用增量学习策略一次每当新类的数据可用时，iCaRL调用更新例程（算法2，参见第2.3节和第2.4节）。该例程根据新观测（当前训练数据）中可用的附加信息调整iCaRL这也是iCaRL了解新类存在的方式架构在引擎盖下，iCaRL使用卷积神经网络（CNN）[19]1。我们将该网络解释为一个可训练的特征提取器，S：X →Rd，后面是一个具有尽可能多的sigmoid的单个分类层输出节点作为迄今为止观察到的类[3]。所有的特征向量都是L2规范化的，对特征向量的任何操作的结果，例如.平均值也被重新归一化，我们不显式地写入以避免混乱的符号。我们用Θ表示网络的参数，将其分成用于特征提取部分的固定数量的参数和可变数量的权重向量。我们称之为lat-由W1，. . . ，wt∈ Rd，其中在这里和下面的部分中，我们使用约定t表示到目前为止已经观察到的类的数量。对于任何类y ∈ {1，. . . ，t}，我们在第2节中解释了这些步骤的细节，1g（x）=其中a（x）=w（x）。（一）将它们放在第3节中以前工作的背景下。在第4节中，我们报告了在CIFAR和ImageNet数据集上的实验，这些实验表明iCaRL能够在很长一段时间内进行类增量学习，而其他方法很快就会失败。最后，我们在第5节结束时讨论了剩余的限制和未来的工作。2. 方法在本节中，我们将描述iCaRL的主要组件，并解释它们的组合如何实现真正的类增量学习。第2.1节解释了底层架构，并给出了训练和分类步骤的高级概述。第2.2节至第2.4节随后提供了算法细节并解释了设计选择。Σ12003y1 +exp（−ay（x））y y请注意，尽管可以将这些输出解释为概率，但iCaRL仅将网络用于表示学习，而不是实际的分类步骤。资源使用。由于其增量性质，iCaRL不需要关于哪些类和多少类将发生的先验信息，并且理论上它可以运行不受限制的时间。在其运行期间的任何时间其存储器需求将是特征提取参数的大小、K个样本图像的存储以及与已经观察到的类别一样多的权重向量。这一知识使我们能够根据原则上，iCaRL策略在很大程度上与架构无关，可以在其他特征或度量学习策略之上使用在这里，我们只在CNN的上下文中讨论它，以避免过于通用的符号。2004我yy我我应用场景。如果类的数量上的上限是已知的，可以简单地预先分配空间为尽可能多的权重向量所需的，并使用所有剩余的- ING可用的内存来存储样本。如果没有上限，人们实际上会增加算法3iCaRL UPDATE RREPRESENTATION输入Xs，. . .，Xt//训练类s，. . . ，t要求P=（P1，. . . ，Ps-1）//样本集需要θ //当前模型参数// form组合训练集：向量，并减小样本的大小相应设置显然，至少有一个示范图像和[D← {（x，y）：x∈Xy}[{（x，y）：x∈Py}每个要学习的类都需要权重向量，因此y=s，.，不y=1，…s−1最终只能学习有限数量的类，除非允许在算法的运行时间请注意，iCaRL可以在不重新训练的情况下处理动态资源的增加：除非被迫，否则//使用预更新参数存储网络输出：对于y = 1，. . . ，s − 1 doqy←gy（xi），对所有（xi，·）∈D端运行网络训练（例如，BackProp），具有损失函数这样做是由于内存限制。Σ（Θ）=−拉克莱特δy=yiloggy（xi）+δy/=yi log（1−gy（xi））2.2. 样本分类的最近均值iCaRL使用样本最近均值分类策略。为了预测新图像x的标签y，它为迄今为止观察到的每个类计算原型向量，（xi，yi）∈Dy=ss−1+qyloggy（xi）+（1−qy）log（1−gy（xi））y=1µ1，. . . ，µt，其中µy1Σ|Py|p∈Py P（p）是平均值由分类和蒸馏术语组成。类y的所有样本的特征向量。它还包括-设置应该分类的图像的特征向量，并分配具有最相似原型的类标签y= argmin（x）− µy。（二）y =1，…不以提供类平均值的良好近似的方式选择的plars请注意，因为我们使用归一化的特征向量，所以等式（2）可以等效地写为y=argmaxyµ（x）。因此，我们也可以解释为：背景最近均值样本分类规则克服了增量学习设置的两个主要问题，这可以通过将其与多类分类的其他可能性进行对比来看出。神经网络的通常分类规则是y=argmaxy=1，.，其中gy（x）是如（1）中定义的网络输出，或者可替换地具有softmax输出层。因为argmaxygy（x）=argmaxyw（x），所以网络的预测规则等效于使用具有非线性特征映射和权重向量w1，. . . ，wt. 在类增量设置中，权重向量w，y与特征提取例程n n解耦是有问题的：每当nn改变时，所有w1，. . . ，wt也必须更新。否则，网络输出将不受控制地发生变化，这是灾难性的遗忘.相比之下，样本最近均值规则（2）不具有解耦的权重向量。当特征表示改变时，类原型自动改变，使得分类器对特征表示的改变具有鲁棒性。选择平均向量作为原型的灵感来自最近类均值分类器[24]，用于具有固定特征表示的增量学习。在类增量设置中，我们不能使用真正的类均值，因为所有的训练数据都必须存储，以便在表示变化后重新计算这个量相反，我们使用的是一个灵活数量的exem的平均值分类步骤作为具有权重向量的分类，但是一个不与数据表示分离但与之一致地改变的对象。2.3. 表示学习每当iCaRL获得数据时，Xs，. . .，Xt，对于新类，s，. . .，t，则更新其特征提取例程和样本集。算法3列出了逐步改进特征表示的步骤。首先，iCaRL构建一个由当前可用的训练示例和存储的样本组成的增强训练集。接下来，针对每个示例评估当前网络，并存储所有先前类别的所得网络输出（不是针对新类别，因为网络尚未针对这些类别进行训练）。最后，通过最小化损失函数来更新网络参数，对于每个新图像，该损失函数鼓励网络输出新类别的正确类别指示符（分类损失），并且对于旧类别，再现在后续步骤中存储的分数（蒸馏损失）。背景表示学习步骤类似于普通的网络微调：从先前学习的网络权重开始，它使训练集上的损失函数最小化。因此，可以使用标准的端到端学习方法，例如使用小批量的反向传播，但也可以使用最近的改进，例如dropout[38]，自适应步长选择[14]或batch nor。=2005n¨乌克算法 4 iCaRL COntario CTEXEMPLARSET输入图像集合X ={x1，. . . ，xn}，输入m个样本的目标数量等时特征函数R：X→Rd其实是一个优先列表。其元素的顺序很重要，列表中较早的范例更重要。在算法5中规定了用于移除样本的过程。它特别简单：为了减少µ←1x∈X （x） //当前类均值从任何m′到m的样本，我们丢弃这些样本对于k = 1，. . . ，m？dopk←argmin−1[（x）+x∈X端P←（p1，. . . 、p和m）输出样本集Pk−1j=1<$（pj）]<$pm+1，. . . ，pm′，仅保留示例p1，. . . ，下午。背景范例管理例程的设计考虑到两个目标：初始样本集应该很好地近似类平均向量，并且应该可以在算法运行期间的任何时间移除样本而不违反该属性。后一个属性具有挑战性，因为实际算法 5 iCaRL REDUCEEXEMPLARSET输入m//样本的目标数量输入P=（p1，. . .得双曲余切值.|P|） //当前样本集P←（p1，. . . ，pm）//即仅保留第一个m输出样本集P[13]以及未来可能的改进。有两种对普通微调的修改，旨在防止或至少减轻灾难性遗忘。首先，训练集被扩充。它不仅包括新的训练样本，而且还包括存储的样本。由此，确保了关于所有先前类的数据分布的至少一些信息进入训练过程。请注意，对于此步骤，重要的是样本存储为图像，而不是存储在随时间推移会过时的特征表示中。第二，损失函数也被增强。除了标准分类损失，它鼓励改进的特征表示，允许分类新观察到的类很好，它还包含蒸馏损失，这确保了以前学习的判别信息不会丢失在新的学习步骤。2.4. 范例管理每当iCaRL遇到新类时，它就会调整其样本集。在这一点上，所有的阶级都是平等的，当到目前为止已经观察到t个类并且K是可以存储的样本的总数时，iCaRL将对每个类使用m = K/t个样本（直到舍入）。由此，确保K个样本的可用存储器预算总是被充分使用，但从未超过。有两个例程负责样本管理：一个用于为新类选择样本，另一个用于减少以前类的样本集的大小。算法4描述了样本选择步骤。示例p1，. . . .. 在迭代的每个步骤中，将当前训练集的一个或多个示例添加到样本集，即使所有样本上的平均特征向量最佳地近似所有训练示例上的平均特征向量的示例。因此，范例当调用移除过程时，类均值向量不再可用于算法因此，我们采用了一种数据独立的删除策略，从末尾开始以固定顺序删除元素，并且我们使样本集构造例程的责任确保即使在稍后调用删除过程之后也能满足所需的近似属性。优先化结构是这种条件的逻辑结果：它确保了从第一个样本开始的样本的任何子集上的平均特征向量是平均向量的良好近似。相同的优先级结构用于放牧[39]，以从分布中创建一组代表性的样本在那里还示出了迭代选择需要更少的样本来实现高的近似质量，例如，随机二次抽样相比之下，用于范例选择的其他潜在方法，例如[7，26]，是为其他目标设计的，并且不能保证为任何数量的原型提供良好的近似质量。总的来说，iCaRL在稍后的时间，仅调用归约步骤，其不需要访问任何较早的训练数据。3. 相关工作iCaRL建立在多个早期尝试解决类增量学习的见解在本节中，我们将描述最重要的技术，一方面将其构建为具有固定数据表示的学习技术，另一方面将其构建为也学习数据表示的技术，这些技术来自经典连接主义时代以及最近的深度学习方法。使用固定的数据表示进行学习。当数据表示固定时，类增量学习的主要挑战是设计一个分类器架构，该架构可以在训练过程中随时容纳新的类，而无需访问到目前为止看到的所有训练2006Mensink等人[23]观察到最近类均值（NCM）分类器具有此属性。NCM将每个类表示为原型向量，该原型向量是迄今为止针对该类观察到的所有示例的平均特征这个向量可以从数据流中递增地计算，因此不需要存储所有的训练示例。一个新的例子是通过分配一个类标签，该类标签具有最类似于例子的特征向量的尽管（或因为）它的简单性，NCM已被证明工作良好，并且在增量学习设置中比标准参数分类器更鲁棒[23，24，31]。NCM对于iCaRL，我们采用了NCM基于原型分类的思想。然而，我们使用的原型类型不是所有示例的平均特征向量，而是仅在特定选择的子集上，这使我们能够保持较小的内存占用并以恒定的计算工作量执行替代方法仅部分满足我们在第1节中介绍的类增量学习标准i）- iii）：Kuzborskij等人[17]表明，当向非线性多类分类器添加新类时，可以避免准确性损失，只要分类器可以从所有类的至少少量数据中重新训练。Chen等人[4，5]和Divvalaet al.[6]介绍了从Web资源中自主检索图像并识别它们之间关系的系统，但它们并不增量学习对象分类器。Royer和Lam- pert [33]使分类器适应时变数据流，但他们的方法无法处理新出现的类，而Pentina等人。[29]表明顺序学习多个任务是有益的，但是为了选择顺序，所有任务的数据必须同时可用。Li和Wechsler [20]，Scheireret al.[37]，以及Ben- dale和Boult [2]针对开集识别的相关但不同的问题，其中测试示例可能来自迄今为止看到的训练示例之外的其他类。Polikar等人[28，30]介绍了一种基于集成的方法，可以处理越来越多的类，但需要所有类的训练数据重复出现。零射击学习，由Lampert等人提出。[18]，可以对以前看不见的类的例子进行分类，但它不包括这些类的训练步骤。表征学习（深度）神经网络最近的成功在很大程度上归功于它们不仅能够学习分类器，而且能够学习合适的数据表示[3，21，25，36]，至少在标准批处理设置中是这样。以增量方式学习数据表示的第一次尝试已经可以在经典的neu中找到传统网络文学，如[1、8、9、32]。特别是，在20世纪80年代后期，McCloskeyet al. [22]描述了灾难性遗忘的问题，即用新数据训练神经网络会导致它覆盖（并因此忘记）它在先前数据上学习到的东西的现象。然而，这些经典著作主要是在联结主义记忆网络的背景下，而不是分类器，并且以今天的标准来看，所使用的网络是小而浅的通常，现有的算法和架构变化不能防止灾难性遗忘，例如参见Moe-Helgesen等人的“的调查[27]为古典和古德费洛等人。s [10]对于现代建筑，除了在特定的设置，如柯克帕特里克等人。s [15]。然而，早期联结主义工作的一个主要成就是，他们确定了如何解决灾难性遗忘的两个主要策略：1）通过冻结网络权重的一部分，同时增长网络以保持学习能力，2）通过排练，即。不仅用最新的数据，而且用更早的数据来不断刺激网络。最近关于神经网络增量学习的工作主要遵循冻结/增长策略，然而，随着时间的推移，这需要分配越来越多的资源给网络，因此违反了我们对类增量学习定义的原则iii）比如说，Xiao等[40]学习一个树形结构的模型，随着观察到更多的类而不断增长。在多任务强化学习的背景下，Rusuet al. [35]建议通过水平扩展所有层来扩展网络。对于iCaRL，我们采用排练的原则：为了更新模型参数以学习表示，我们不仅使用当前可用类的训练数据，还使用早期类的样本，这些样本无论如何都是可用的，因为它们是基于原型的分类规则所需的此外，iCaRL还使用蒸馏来防止网络中的信息随着时间的推移而变得太慢而Hinton等人[12]最初提出的蒸馏在不同的神经网络之间传输信息Li和Hoiem [21]最近提出了相同的原理，名为Learning without Forgetting（LwF），以递增地训练单个网络来学习多个任务，例如。多个物体识别数据集。与类增量多类情况的主要区别在于预测步骤：多类学习器必须选择一个分类器，该分类器正确预测任何观察到的类。多任务（多数据集）学习器可以使用多个分类器，每个分类器只对来自其自己数据集的数据进行评估4. 实验在本节中，我们提出了一个用于评估增量学习方法的协议，并比较了iCaRL2007百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比10 20 30 40 50 60 70 80 90 100班数0%的百分比10 20 30 40 50 60 70 80 90 100班数0%的百分比10 20 30 40 50 60 70 80 90 100班数0%的百分比10 20 30 40 50 60 70 80 90 100班数百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十0%0%20406080100班数50 100班数0%的百分比100 200 300 400 500 600 700 800 900 1000班数(a) iCIFAR-100的多类别准确度（10次重复的平均值和标准差），每个批次有2个（左上）、5个（中上）、10个（右上）、20个（左下）或50个（右下）类别。(b) iILSVRC-small（顶部）和iILSVRC-full（底部）的前5名准确度。图2：在iCIFAR-100和iILSVRC上进行类增量训练的实验结果：所报告的是直到某个时间点观察到的所有类别的多类别准确度。iCaRL在这种情况下明显优于其他方法在第一批训练后修复数据表示（修复repr. 除了iILSVRC-full之外，其性能比基于蒸馏的LwF.MC差。在不防止灾难性遗忘的情况下对网络进行微调（微调）会产生最坏的结果。相比之下，使用所有可用数据训练的相同网络实现了68.6%的多类准确率。阳离子准确度与替代方法相同（第4.1节）。我们还报告了进一步的实验，这些实验通过分离个体组分的作用来阐明iCaRL基准协议。到目前为止，还没有一致同意的基准协议评估类增量学习方法存在。因此，我们提出以下评价方案：对于给定的多类分类数据集，类以固定的随机顺序排列。然后，每个方法都以类增量的方式在可用的训练数据上进行训练。在每一批类之后，在数据集的测试部分数据上评估所得到的分类器，只考虑那些已经训练过的类请注意，即使测试数据被多次使用，也不会发生过拟合，因为测试结果不会透露给算法。评估结果是每批分类后的分类精度曲线。如果一个单一的数字是可取的，我们报告这些精度的平均值，称为平均增量精度。对于图像分类的任务，我们介绍了上述协议的两个1)iCIFAR-100基准：我们使用CIFAR-100 [16]数据，一次训练2，5，10，20或50个类的所有100个类。评价指标是测试集上的标准多类精度。由于数据集的大小是可管理的，我们使用不同的类或等级运行此基准测试十次，并报告结果的平均值和标准差。2)iILSVRC基准测试：我们在两种设置中使用ImageNet ILSVRC2012[34]数据集：仅使用100个类的子集，以10个为一批进行训练（iILSVRC-small），或者使用所有1000个类，以100个为一批进行处理（iILSVRC-full）。评估度量是数据集val部分的前5个iCaRL实现。对于iCIFAR-100，我们依赖于theano包并训练32层ResNet [11]，允许iCaRL存储多达K=2000个样本。每个训练步骤由70个epoch组成学习率从2.0并且在49和63个时期（所有时期的7/10和9/10）之后除以 5 。对于 iILSVRC ，样本的最大数量是K=20000，我们使用tensorflow框架来训练18层ResNet[11]，每个类批次60个epoch。学习率从2.0开始，在20、30、40和50个时期（所有时期的1/3、1/2、2/3和5/6）之后除以5。对于所有方法，我们使用标准的反向传播来训练网络，小批量大小为128，权重衰减参数为 0 。 00001 我们的源代码和更多数据可以在www.example.com 上找到 http://www.github 。com/srebuffi/iCaRL。4.1. 结果我们的主要实验研究了类增量条件下不同方法的分类除了iCaRL之外，我们还实现并测试了三种可选的类增量方法。Finetuning学习一个普通的多类网络，没有采取任何措施来防止灾难性的遗忘。它也可以被解释为通过微调先前学习的多类分类器来学习新传入类的多类分类器。iCaRLLwF.MC固定代表微调精度精度Top-5精度Top-5精度200820 20 20 2040 40 40 4060 60 60 6080 80 80 80100100100100(a) iCaRL(b) LwF.MC(c) 固定表示(d) finetuning图3：不同方法在iCIFAR-100上的混淆矩阵（通过log（1+x）转换条目以获得更好的可见性）。iCaRL具有固定表示的分类器对第一批的类别有偏见，而通过微调训练的网络只预测最后一批的类别标签。电信网固定表示也学习多类分类网络，但以防止catastrophic遗忘的方式。它在第一批类被处理后冻结特征表示，并在相应的类被处理后冻结分类层的权重。对于后续批次的类，仅训练新类的权重向量最后，我们还比较了一个网络分类器，它试图通过在学习过程中使用蒸馏损失来防止灾难性遗忘对于分类，它使用网络输出值本身。这本质上是学习而不忘记的方法，但应用于多类分类，我们将其表示为LwF.MC。图2显示了结果。我们可以看到iCaRL明显优于其他方法，而且越是如此，设置的增量就越大（即，可以同时处理的类越少在其他方法中，基于蒸馏的网络训练（LwF.MC）总是第二好的，除了iILSVRC-full，其中最好在第一批100个类之后固定表示。微调总是达到最差的结果，证实catastrophic遗忘确实是一个主要问题，在课堂上增量学习。图3提供了对不同方法的行为的进一步了解。Is显示了iCIFAR-100上的100类分类器在一次使用10个类的批次进行训练后的混淆矩阵（可以在补充材料中找到更大的版本人们可以看到非常有特色的模式：iCaRL的混淆矩阵在所有类上看起来都是同质的，无论是在对角项方面（即，正确的预测）以及非对角条目（即，错误）。这表明iCaRL在学习过程中对早期或晚期遇到的类没有内在的偏向或反对。特别是，它不会遭受catas-trophic遗忘。与此相反，另一个的混淆矩阵类显示不均匀的模式：基于蒸馏的训练（LwF.MC）在右边有更多的非零条目，即。最近学习的课程。更极端的是微调的效果，其中所有预测的类标签都来自网络训练的最后一批类。微调网络只是为了-得到了早期的类甚至存在。固定表示显示了相反的模式：它更喜欢从第一批训练的类（用于获得数据表示）中输出类iILSVRC的混淆矩阵显示相同的模式，可在补充材料中找到。4.2. 差异分析为了进一步深入了解iCaRL的工作机制，我们对iCIFAR-100进行了额外的实验，其中我们分离了方法的各个方面。首先，我们分析了为什么iCaRL比基于普通微调的训练有所改进，它在三个方面有所不同：通过使用样本平均值分类规则、通过在表示学习期间使用样本以及通过使用蒸馏损失。因此，我们创建了三个混合设置：第一个（hybrid1）以与iCaRL相同的方式学习表示，但直接使用网络的输出进行分类，而不是样本均值分类器。第二种（混合2）使用样本进行分类，但在训练过程中不使用蒸馏损失。第三种方法（hybrid3）既不使用蒸馏损失也不使用样本进行分类，而是在表征学习过程中使用样本。为了比较，我们还包括LwF.MC再次，它使用蒸馏，但没有样本。表1a将结果总结为增量训练的所有步骤上的分类准确度的平均值。可以看到，混合设置大多数实现iCaRL和LwF.MC之间的结果，表明iCaRL的所有新组件确实都对实质性真班20 40 608010020 40 60 8010020 40 60 80 10020 40 60 80 100预测类预测类预测类预测类2009表1：iCaRL的不同修饰的iCIFAR-100上的平均多类别准确度(a) 关闭iCaRL的不同组件（hybrid1，hybrid2，hybrid3，详见正文）导致的结果大多在iCaRL和LwF.MC之间，表明iCaRL的所有(b) 用最近类均值分类器（Nearest-class-mean classifier，NCM）代替iCaRL批量iCaRL混合1hybrid2hybrid3LwF.MC批量iCaRLNCM2个班57.036.657.657.011.72个班57.059.35个班61.250.957.956.732.65个班61.262.110个班64.159.359.958.144.410个班64.164.520个班67.265.663.260.554.420个班67.267.550班68.668.265.361.564.550班68.668.7706560555045100 500 1000 2000 3000 4000 5000 K图4：iCIFAR-100上的平均增量精度，每批10个类，不同的内存预算K.这主要归功于它的良好表现。特别是， iCaRL 与hybrid1的比较表明，样本均值分类器对于较小的批量大小特别有利，即，当执行表示的更多更新时。比较iCaRL和hybrid2可以看出，对于非常小的类批量大小，与仅使用原型相比，蒸馏甚至会损害分类准确性。对于更大的批量和更少的更新，使用压缩损失显然是有利的。最后，将混合3和LwF.MC的结果进行比较，结果表明样例在防止灾难性遗忘方面是在第二组实验中，我们研究了使用样本的平均值作为分类原型而不是最近类平均值（NCM）规则会损失多少准确性。对于后者，我们使用未经修改的iCaRL来学习表示，但我们使用NCM对图像进行分类，其中在每次表示更新后使用当前特征提取器重新计算类均值。请注意，这需要存储所有的训练数据，因此它不符合类增量方法的条件。表1b中的结果显示iCaRL和NCM之间仅存在微小差异，证实iCaRL可靠地识别代表性样本。图4显示了不同记忆芽的效果，将iCaRL与表1a的混合1分类器和表1b的NCM分类器进行了比较。两者都使用与iCaRL相同的数据表示，但其分类规则不同。所有方法都受益于更大的内存预算，这表明iCaRL如果有足够的原型类型（这里至少有1000个），iCaRL通过网络输出来进行加密是没有竞争力的。5. 结论我们引入了iCaRL，这是一种用于类增量学习的策略，可以同时学习分类器和特征表示。iCaRL的三个主要组成部分是：1）样本最近均值分类器，其对数据表示中的变化是鲁棒的，同时每类仅需要存储少量样本，2）用于优先化样本选择的基于聚集的步骤，以及3）表示学习步骤，其使用与蒸馏相结合的样本以避免灾难性遗忘。对CIFAR-100和ImageNet ILSVRC 2012数据的实验表明，iCaRL能够在其他方法快速失败的情况下，在很长一段时间内逐步学习。iCaRL强大的分类结果的主要原因虽然直观地说，除了网络参数之外，能够依赖于存储的样本可能是有益的，但我们发现，在类增量设置中，这种效果是多么明显，这是一个重要的观察。因此，我们假设其他架构也应该能够从使用网络参数和样本的组合中受益，特别是考虑到可以存储数千张图像（以压缩形式）的事实，其内存需求与当前深度网络的大小相当。尽管有很好的结果，类增量分类远未解决。特别是，iCaRL所有类别的所有训练示例同时可用。在未来的工作中，我们计划更详细地分析原因，以缩小剩余的性能差距。我们还计划研究分类器无法以原始形式存储任何训练数据的相关场景，例如：出于隐私原因致谢。这项工作部分由欧盟研究委员会根据欧盟第七框架计划（FP 7/2007-2013）/ERC赠款协议编号308036资助：终身学习视觉场景理解（L3 ViSU）。用于本研究的Tesla K40卡由NVIDIA公司制造。iCarlNCM混合12010引用[1] B. Ans和S.你好。通过耦合两个回响神经网络来避免灾难性遗忘。ComptesRendusdel'Acade 'mie des Science s，320（12），1997. 5[2] A. Bendale和T.博尔特走向开放世界的认可。计算机视觉与模式识别会议（CVPR），2015年。5[3] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新的视角。IEEE模式分析与机器智能学报（T-PAMI），35（8），2013. 二、五[4] X. Chen ，中国山核桃 A.Shrivastava 和 A. 古普塔。NEIL：从网络数据中提取2013年国际计算机视觉会议（ICCV）。5[5] X. Chen，中国山核桃A. Shrivastava和A.古普塔。通过对象发现和分割丰富视觉知识库。在计算机视觉和模式识别会议（CVPR），2014。5[6] S. K. Divvala，A. Farhadi和C. Guestrin.什么都学：视觉概念学习。在计算机视觉和模式识别会议（CVPR），2014。5[7] E. Elhamifar和R.维达尔稀疏子空间聚类：算法、理论和应用。IEEE Transactions on Pattern Analysis andMachine Intelligence （ T-PAMI ）， 35 （ 11 ）： 2765-2781，2013。4[8] R. M. 法语联结主义网络中的灾难性干扰神经信息处理系统（NIPS）会议，1993年。5[9] R. M.法语联结主义网络中的灾难性遗忘。认知科学趋势，3（4），1999年。5[10] I.J. Goodfellow ， M.Mirza ， D.Xiao 、肖氏 A.Courville和Y.本吉奥。基于梯度的神经网络中灾难性形成的实证研究。2014年国际学习表征会议（ICLR）。5[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。6[12] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取2014年，NIPS深度学习研讨会。5[13] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。2015年国际机器学习会议（ICML）。4[14] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2015年国际学习报告会议（ICLR）。3[15] J. 柯克帕特里克河Pascanu，N.Rabinowitz，J.Veness，G.Des- jardins，A. A. Rusu，K. Milan，J. Quan，T. 拉马略A. Grabska-Barwinska等人克服灾难性的-进入神经网络。美国国家科学院院刊（PNAS），2017年。5[16] A.克里热夫斯基从微小的图像中学习多层特征。技术报告，多伦多大学，2009年。6[17] I. Kuzborskij，F. Orabona和B.卡普托从n到n+ 1：多类迁移增量学习。计算机视觉与模式识别会议（CVPR），2013年。5[18] C. H. Lampert，H. Nickisch和S.伤害。基于属性的零拍视觉对象分类。IEEE Transactions on Pattern Analysisand Machine Intelligence（T-PAMI），2013年。5[19] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11），1998. 2[20] F. Li和H.韦克斯勒使用transduction的开集人脸识别IEEETransactions on Pattern Analysis and Machine Intelligence（T-PAMI），27（11），2005年。5[21] Z. Li和D.霍伊姆学而不忘。2016年欧洲计算机视觉会议（ECCV）。5[22] M. McCloskey和N. J·科恩连接主义网络中的灾难性干扰：顺序学习问题。学习与动机心理学，24：109-165，1989。一、五

下载后可阅读完整内容，剩余1页未读，立即下载