多类增量学习中的记忆法范例如何优化

163 浏览量更新于2023-10-23 收藏 2.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12245记忆术训练：不遗忘的多类增量学习刘瑶瑶1，2苏玉婷1 <$刘安安1 <$BerntSchiele2孙倩茹31天津大学电气与信息工程学院2马普信息学院萨尔信息学院3新加坡管理大学{yaoyao.liu，chuanele，qsun}@ mpi-inf.mpg.de{liuyaoyao，ytsu，liuanan}@ tju.edu.cnqianrusun@smu.edu.sg摘要多类增量学习（MCIL）旨在通过增量更新在先前概念上训练的模型来学习新概念然而，有效地学习新概念而不灾难性地忘记以前的概念存在固有的权衡。为了缓解这一问题，有人建议保留几个相关概念的例子，但这种方法的有效性在很大程度上取决于这些例子的代表性。本文提出了一种新的和自动的框架，我们称之为助记符，在这里我们参数化的范例，并使他们在一个端到端的方式优化。我们通过双层优化来训练框架，即，模型级和范例级。我们在三个MCIL基准测试，CIFAR-100，ImageNet子集和ImageNet上进行了广泛的实验，并表明使用助记符范例可以大大超过最先进的水平。有趣的是，记忆法的范例往往是在不同类别之间的边界上。1. 介绍随着概念的数量随时间增加，诸如人类的自然学习系统固有地以增量方式工作。他们自然地学习新的概念，而不会忘记以前的概念。相比之下，当前的机器学习系统，当使用新的传入数据不断更新时，会遭受灾难性的遗忘（或灾难性的干扰），因为更新可以覆盖从先前数据中获取的知识[12，20，21，24，28]。这对于多类增量学习（MCIL）尤其如此，其中不能重放所有先前的输入。卡塔斯-这是瑶瑶实习期间在倩茹的指导下完成的†通讯作者。1代码：https://github.com/yaoyao-liu/mnemonics早期阶段（使用50个类别，5个类别以彩色显示晚期（使用100个分类，5个分类以彩色显示随机（基线）羊群（相关）记忆法（我们的）图1. t-SNE [18]在两个阶段中的三种示例方法的结果。5个有色类的原始数据出现在早期阶段。在每个着色类中，深色点是示例，浅色点表示原始数据，作为真实数据分布的参考。灰色的十字代表其他类，每个十字代表一个类。我们有两个主要的观察结果。（1）我们的方法在数据中产生了更清晰的分离，比随机（样本在早期阶段随机抽样）和羊群（样本是早期阶段平均样本的最近邻居）[2，9，25，36]。（2）我们学习到的样例大多位于类与类之间的边界上。因此，营养遗忘成为MCIL系统的主要问题。受此启发，最近出现了一些作品[2，9，16，17，25，36]。Rebufi等人[25]首先定义了用于评估MCIL方法的协议，即，以处理图像分类任务，其中不同类别的训练数据在顺序的训练阶段中由于既不期望也不可缩放地保留来自先前概念的所有数据，因此在他们的协议中，他们限制了每个类可以保留的样本的数量，例如，每个类只能存储20个样本并将其传递到子训练阶段。这12246来更新它以前的知识提取样本的现有方法是基于启发式设计的规则，例如，每个类中平均样本周围的最近邻居（称为羊群效应[35]）[2，9，25，36]，但结果不是特别有效。例如，与使用所有示例的上限性能相比，具有羊群效应的iCaRL [25]在CIFAR-100的最后阶段（当类别数量增加到100时）预测50个先前类别的准确性下降了约25%。图1中给出了羊群样本的t-SNE可视化，并显示了类之间的分离在稍后的训练阶段变得较弱。在这项工作中，我们解决这个问题，通过开发一个自动样本提取框架，称为助记符，我们参数化的样本使用图像大小的参数，然后优化他们在一个端到端的计划。利用助记符，MCIL模型在每个阶段中不仅可以从新的类数据中学习最佳样本，而且还可以调整前一阶段的样本以适应当前的数据分布。如图1所示，从早期到晚期，助记法范例在类别之间产生一致的清晰分离。当检查单个类时（例如由图1中用于“蓝色”类的黑色虚线框表示），我们观察到助记符样本（深蓝色点）主要位于类数据分布（浅蓝色点）的边界上，这对于导出高质量分类器是必不可少的。从技术上讲，助记符有两个模型要优化，即，传统模型和参数化的记忆模型。这两者不是独立的，也不能联合优化，因为在当前阶段学习的样本将作为后续阶段模型的输入数据。我们使用双层优化程序（BOP）[19，29]来解决这个问题，该程序交替学习两个级别的模型。我们通过整个增量训练阶段来实现这种优化。特别是，对于每个单阶段，我们执行本地BOP，旨在将新类数据的知识提取到样本中。首先，使用样本作为输入来训练临时模型。然后，计算新类数据上的验证损失，并且反向传播梯度以优化输入层，即，助记符范例的参数。迭代这两个步骤允许导出用于稍后训练阶段的代表性样本为了评估所提出的记忆方法，我们对四种不同的基线架构和三种MCIL基准- CIFAR-100，ImageNet-Subset和ImageNet进行了广泛的实验。我们的研究结果表明，与基线相比，记忆术始终达到最高水平，例如， 20%和6。在ImageNet[25]上的25阶段设置中，分别比基于羊群的iCaRL [25]和LUCIR [9]高5%我们的贡献包括： (1)一种新颖的记忆法交替学习范例的培训框架（2）一种新的局部双层优化程序（包括元层和基本层），它以端到端的方式为新类训练样本，并调整旧类的样本(3)深入的实验，可视化和解释在特征空间中的助记符2. 相关工作增量学习在机器学习中有很长的历史[3，14，22]。一个统一的设置是不同类别的数据逐渐到来。最近的工作是在多任务设置（来自不同数据集的类）[4，10，17，26，28]，或在多类设置（来自同一数据集的类）[2，9，25，36]。我们的工作是在后者的基准上进行的，称为多类增量学习（MCIL）。一种经典的基线方法被称为使用转移集的知识分解[8]，Li等人首先将其应用于增量学习。[17 ]第10段。Rebufi等人[25]将这一思想与表征学习相结合，其中存储了少量的羊群样本用于重放旧的知识。羊群[35]选择每个类平均样本的最近邻居[25]。Castro et al.[2]尝试了平衡的微调和暂时的蒸馏，以构建端到端的框架;Wu等人[36]提出了一种偏差校正方法;和Hou et al.[9]还引入了多种技术来平衡分类器。我们的方法与这些工作密切相关。不同之处在于生成范例的方式。在所提出的记忆训练框架中，样本是可优化的，并以端到端的方式更新，因此比以前的更有效。使用合成范例是另一种解决方案，它将旧知识“存储”在生成模型中。相关方法[11，28，34]使用生成对抗网络（GAN）[6]在每个新阶段生成旧样本在多任务增量环境下取得了良好的效果。然而，它们的性能在很大程度上取决于GAN模型，而GAN模型非常难以训练。此外，存储GAN模型需要内存，因此这些方法可能不适用于具有严格内存预算的MCIL我们的助记符样本是可优化的，并且可以被认为是合成的，而我们的方法是基于样本的直接参数化，而不需要训练额外的模型。双层优化程序（BOP）的目标是在一个框架内解决两个层次的问题，其中A级问题是解决B级问题的约束条件。它可以追溯到博弈论领域的Stackelberg竞争[30]如今，它在机器学习领域得到了广泛的应用。例如，训练GAN [6]可以用公式表示为具有两个opti的BOP12247（一）ep（x）/τK第01期一期.........不同类别......常规范例层级模型级范例层级...模型级范例层级...图2.建议的记忆训练的计算流程它是一个全局BOP，交替学习助记符样本（我们称之为样本级优化）和MCIL模型（模型级优化）。图3详细介绍了每个阶段中的示例级优化。E表示调整到当前阶段的旧样本。个性化问题：最大化生成图像的真实性得分并最小化真假分类损失。元学习[5，15，32，33，37，38]是另一种BOP，其中元学习者被优化为基础学习者的最优性。最近，MacKay等人。[19]将超参数优化公式化为BOP，其中特定时间阶段中的最优模型参数取决于超参数，反之亦然。在这项工作中，我们引入了一个全球BOP，交替优化MCIL模型的参数和所有阶段的助记符范例在每个阶段中，我们利用本地BOP来学习（或调整）特定于新类（或以前的类）的助记符示例3. 预赛多类增量学习（MCIL）在[25]中提出，用于评估使用来自不同类的数据序列增量学习的分类模型它的统一设置在相关作品中使用[2，9，25，36]。它不同于传统的分级设置，前一个例子将E0<$Ei−1简称为E0：i−1。 We从存储器y中加载Θi−1和E0：i−1，然后使用E0：i−1和n e w类数据Di来训练由Θi−1 初始化的Θ i。在训练过程中，我们使用分类损失和MCIL特定的蒸馏损失[17，25]。在每个阶段之后，对系统迄今为止观察到的所有类别的未见过的数据评估模型。我们报告所有N+1阶段的平均准确度作为最终评估，遵循[9，25，36]。蒸馏损失和分级损失。蒸馏损失最初在[ 8 ]中提出，并在[ 17，25 ]中应用于MCIL。它鼓励新的Θi和以前的Θi−1在旧类上保持相同的预测能力。假设D0：i−1 中有 K个类。设x是D i中的像。 pk（x）和pk（x）表示从Θi-1和Θi，关于iv el y的第k类的预测逻辑。蒸馏损失公式为：ΣKLd（Θi;Θi−1;x）=−πk（x）logπk（x），（1a）k=1epk（x）/τepk（x）/τ在所有类别的训练数据从一开始就可用的情况下，在三个方面：（i）训练数据作为πk（x）=Kj=1，πk（x）=πJj=1、epj（x）/τ（1b）流，其中不同类别的样本出现在不同的时间阶段;（ii）在每一阶段，MCIL分类器预期为迄今为止所有可见类别提供具有竞争力的性能;以及（iii）机器存储器有限（或至少增长缓慢），因此不可能保存所有数据以重放网络训练。含义。假设在MCIL系统中有N+1个阶段（即，1个初始阶段和N个增量阶段）。在初始（第0）阶段，我们使用传统的分类损失来学习数据D 0上的模型Θ0，例如交叉熵损失，然后将Θ 0保存到系统的存储器中。由于内存的限制，我们不能保留整个D0，而是选择并存储少量的前样本E0（对所有类均匀）作为D0与|e0级|≪ |D0|. 在第i个增量阶段，我们表示其中τ是温度标量，其被设置为大于1以将较大权重分配给较小值。我们使用softmax交叉熵损失作为分类损失Lc。假设在D0：i中有M个类。该损失公式为K+MLc（Θi;x）=−δy=klogpk（x），（2）k=1其中，y是x的真值标签，δy=k是指示器函数。4. 记忆训练如图2所示，建议的记忆训练交替学习分类模型和模型模型样本数据模型样本样本当量当量当量九、十当量当量数据相同数据数据相同数据12248DiAAAA基准面反向传播临时模型样本示例子集B示例子集A数据子集0：i−10：i−1我ici0：i−1i我数据数据一：数据二：为了训练样本从调整旧样本，即，数据1初始化饲料元级数据2饲料更新(a) 两种情况下的数据分割（b）统一的计算流程图3.所提出的局部BOP框架使用（b）中的统一计算流程来处理样本级学习的两种情况：从D i训练新的类样本Ei;以及调整旧的样本E0：i−1，分别使用（a）中给出的数据。注意：（1）AB0：i−1在调整E0：i−1时，相互交替用作验证集;（2）（b）中的E表示助记符样本即Ei，EAB0：i−1由方程式9，10a和10b。所有阶段的助记符范例，其中助记符范例不仅仅是数据样本，还可以在线优化和调整。我们用由模型级和样本级问题组成的全局双层优化程序（BOP）来表达这种替代学习（第4.1节），并分别在第4.2节和第4.3节中提供解决方案。4.1. 全球国际收支在MCIL中，分类模型在每个阶段都在新类数据和旧类助记符样本的联合反过来，基于这个模型，新的类助记符范例（即，样本的参数这样，模型的最优性对样本的优化产生了约束，反之亦然。我们建议制定这种关系的全球BOP中，每个阶段使用的最佳模型来优化样本，反之亦然。具体地，在第i阶段，我们的MCIL系统旨在学习模型Θi以近似名为θi的理想模型，其最小化在Di和Di上的分类损失Lc。D0：i−1，即，Θθ= arg minL（Θ ; DD）。（三）Θi由于D0 ：i−1w被省略（即，不可访问），并且只有E0：i − 1存储在内存中，我们尽可能地近似E 0：i − 1以接近D 0：i − 1的最佳替换。We用全球国际收支来表述这一点，其中minL（Θ;E=D）（4a）在第i-1阶段，新类别数据Di-1和旧样本E0：i-2之间的数字。更多详情请参阅第 4.3 节最后一段。在下文中，问题4a和问题4b分别称为模型级和示例级问题。4.2. 模型级问题如图2所示，在第i个阶段，我们首先解决模型级问题，将助记符示例E0：i−1作为输入的一部分，并将先前的Θi−1作为模型初始化。根据问题4，目标函数可以表示为Lall=λLc（Θi;E0 ：i−1<$Di）+（1−λ）Ld（Θi;Θi−1;E0 ：i−1<$Di），（五）其中λ是手动设置为在Ld和Lc之间平衡的标量（在第3节中介绍）。假设α1是学习率，Θi用梯度下降更新如下，Θi←Θi−α1<$ΘLall.（6）然后， Θi将用于训练记忆术范例，即，来解决范例级的第4.3节的问题4.3. 示例级问题典型地，样本Ei的数量被设置为大大小于原始数据Di的数量。现有的方法[2，9，25，36]总是基于这样的假设，在几个样本上训练的模型也使其在原始数据上的损失最小化。然而，没有保证，特别是当这些范例是按经验选择的。ci0：i−1i.相反，我们的方法明确旨在确保可行的∗0：i−1= argminLcE0：i− 1Θi−1（E0：i−1）;E0：i−2Di−1，由于我们的记忆术范例的可微性，我们可以近似地假设（4b）其中，Θi−1（E0：i−1）表示Θi−1w在临时模型和EES.T.EΘ我模型初始化12249E0：i−1，以减少不平衡样本引起的偏差为了实现这一点，我们在Ei上训练一个临时模型Θ'，以最大化Di上的预测，为此我们使用Di来计算验证损失，以惩罚这个临时训练。12250我我我我我我我我0：i−10：i−10：i−1ii ii关于Ei的参数，因此，整个问题在局部BOP中公式化，其中“局部”意味着注意，我们也可以将E0：i−1分割成2个以上的子集，并使用其补数作为验证数据来优化每个子集，遵循等式中的相同策略。10个。最小LcEi. Θ′（E）;D′（7a）仅在样本上微调模型。模型Θi已经接受过DiE0：i−1的训练，并且可以从S.T. Θ′（E）= arg min L（Θ; E）。（7b）Θi样本数不平衡引起的分类偏差Bers，例如，1000对20，在Di和我们将问题7b中的临时训练命名为基础级优化，将问题7a中的验证命名为元级优化，类似于元学习中用于处理少数任务的命名[5]。训练Ei. 训练流程在图3（b）中详细描述，数据在图3（a）的左侧分割。首先，由Di的随机样本子集S初始化Ei的图像尺寸参数。其次，我们初始化一个临时的使用Θi对Θ′进行建模，并在Ei上训练Θ′（统一表示为E0：i−1。为了消除这种偏差，我们建议在EiE0：i−1上微调Θi，其中每个类具有相同数量的样本（样本）。5. 实验我们在两个流行的数据集（ CIFAR-100 [13] 和ImageNet [27]）上评估了四种不同基线架构[9，17，25，36]的记忆术训练方法，并实现了一致的改进。下面我我如3（b）中的E），对于通过梯度下降的几次迭代：我们描述了数据集和实施细节（第第5.1节），然后是结果和分析（第5.2节），′ ′ ′Θi←Θi−α2<$Θ′Lc（Θi;Ei），（8）其中α2是微调临时模型的学习率埃尔斯最后，由于θ′和Ei都是可微的，我们得到：包括与最新技术水平的比较、消融研究和可视化结果。5.1. 数据集和实现细节i′能够计算Di上的Θi损失，并反向传播这个验证损失来优化Ei，. ′ΣEi← Ei−β1<$ELcΘ（E）;D，（9）其中β1是学习率。在这一步中，我们基本上需要通过展开Θ'的所有训练梯度，将验证梯度反向传播到输入层。该操作涉及通过梯度的梯度。在计算上，它需要通过Lc（Θ′;Ei）的额外向后传递来计算海森向量积，这由标准数值计算库支持，例如TensorFlow [1]和PyTorch [31]。调整E0：i−1。前一堂课的记忆法前雇员在这堂课上接受训练。最好能根据在线数据分布的变化对其进行调整。然而，旧的类数据D0：i−1不能被访问。ble，因此直接应用Eq. 9 .第九条。相反，我们建议将E0：i−1分成两个子集，并将其子集合数据集。我们在两个数据集CIFAR-100 [13]和ImageNet[27]上进行了MCIL实验，这两个数据集在相关作品中被广泛使用[2，9，25，36]。 CIFAR-100包含100类32×32彩色图像60，000个样本。每个类有500个训练样本和100个测试样本。ImageNet（ILSVRC2012）[27]包含约1。300万个样本224×224彩色图像的1000类。每个类大约有1300个训练样本和50个测试样本。ImageNet通常用于两种MCIL设置[9，25]：一种仅基于100个类的子集，另一种基于整个1，000个类。ImageNet-Substitute中的100类数据是由NumPy从ImageNet中随机抽取的，具有相同的随机种子（1993），如下[9，25]。Θ的架构。根据统一设置[9，25，36]，我们使用32层ResNet [7] 用于 CIFAR-100 ，使用 18 层 ResNet 用于ImageNet。我们部署了权重转移操作[23，33]来训练网络，而不是使用标准的权重重写。这有助于减少遗忘--E0：i−1=EAB0：i−1. 我们使用其中一个，例如。EB，在相邻模型之间切换（即， Θi−1和Θi）。请作为验证集（即，D0的替换：i−1）到op-使另一个人害怕，例如，EA，如图3（a）的右侧所示。在图3（b）中交替输入和目标数据，我们在两个步骤中调整所有旧样本：有关重量转移的详细公式，请参阅补充文件。E. 这取决于图像的大小和我们需要的样本数量在CIFAR-100上，EA-β-内酰胺.'AB'记忆术范例是32×32×3张量。在图像上-0：i−10：i−12EALcΘi（E0：i−1）;E0：i−1、（10a）E122510：i−1一E ← E − βLΘ（E）; EgeNet，它是一个224×224×3张量。样本数量BB'BA0：i−1 0：i−12EBCi0：i−10：i−1、（10b）有两种说法[9]。（1）每类统一使用20个样本因此，exem的参数大小-其中β2是学习率。Θ′（EB）和Θ′（EA）每类的plars等于张量×20。使用此设置我0：i−1i0：i−1通过替换Eq中的Ei来训练8与EB0：i−1，在主要文件中。（2）系统保持固定记忆尊重我。 We表示调整后的样本为E0：i−1。预算，例如在所有阶段，总共最多2000个样本。和E12252100：i(a) CIFAR-100（100班）。在第0阶段，在50个类上训练Θ0(b) ImageNet-Subset（100个类）。在第0阶段，在50个类上训练Θ0，其余的类在后续阶段中均匀地给出。(c) ImageNet（1000个类）。在第0阶段，在500个类上训练Θ0on，剩余的类在后续阶段中均匀地给出。图4.相位准确度（%）。浅色条带可视化显示95%置信区间。比较方法：上限（与每个阶段中所有先前可访问的数据联合训练的结果）;LUCIR（2019）[9]; BiC（2019）[36]; iCaRL（2017）[25];和LwF（2016）[17]。我们使用“LUCIR w/ ours”显示我们的结果请参考表1中每条曲线的平均准确度。因此，它在早期阶段为每个类保存更多的样本，并在之后丢弃旧的样本。由于页数限制，这一背景下的结果载于补充文件。在这两种情况下，我们一致发现记忆术训练是最有效的方法，大大超过了最先进的方法，几乎没有计算或参数化开销。模型级超参数。SGD优化器用于训练Θ。动量和权重衰减参数设置为0。九比零。0005，分别。在每一个（即第i个）阶段，学习率α1被初始化为0。1 .一、在CIFAR-100（ImageNet）上，Θi在160（90）个epoch中进行训练，其中α1在80（30）个epoch之后减少到1，然后是120（60）个epoch。由方程式5，标量λ和温度τ被设置为0。5和2，分别为[9，25]。示例级超参数。SGD优化器用于更新emplarsEi中的助记符并调整E0：i−1（如等式2所示9、Eq.10个）。在每个阶段，学习率β1和β2被初始化为0。01，并且每10个时期后减少到它们的一半。梯度下降被应用于在50个时期中更新临时模型0'（如在等式10中）。（八）。学习率α2被设置为0的情况。01.我们部署相同的超参数集来微调Ei<$E0：i−1上的Θ i。基准协议。这项工作遵循最近的工作-LUCIR [9]中的协议。我们还在该协议上实现了所有其他方法[2，25，36]以进行公平比较。给定一个数据集，模型（Θ0）首先在一半的类上训练。然后，模型（Θi）在随后的阶段中均匀地学习剩余的类。假设MCIL系统具有1个初始相位和N个增量相位。增量相的总数N被设置为5、10或25（对于每个设置被称为在每个单独的阶段结束时，评估所学习的Θi其中“0：i“表示所有看到的类，因此f a r。报告了平均精度A<$（在所有相位上）12253我0CIFAR-100 ImageNet-子集ImageNetN+1i=0n0的o使用羊群样本作为[9，25，36]进行公平比较。表1. 最先进的[ 9 ]和其他基线架构[ 17，25，36 ]的平均准确率A<$（%）和获得率F（%），有和没有我们的记忆训练方法作为插件模块。设Dtest为第i个阶段中与Di对应的测试数据。 A我用Θi表示D检验的平均准确度。AZ是第i个相位中通过Θi进行D测试的平均准确度注意，重量转移0：ii0在“W/OUR”方法中应用操作最后的评价[9，25]。此外，我们提出了一个遗忘率，表示为F，通过计算之间的差异的准确度Θ0和ΘN相同的初始测试数据D测试。遗忘率越低越好。5.2. 结果和分析表1显示了与最先进的[9]和其他基线架构[17，25，36]的比较，有和没有我们的记忆术训练作为插件模块。请注意，图4显示了我们的最佳模型的逐相结果，即，[9]我者，天也;我者，地也。表2显示了用于评价两个关键组件的消融研究：训练记忆法范例和调整旧的记忆法范例。图5显示了数据空间中的羊群和助记符与最先进的技术相比。表1显示，将我们的记忆术训练作为最先进的[9]和其他基线架构上的插件模块，可以持续提高它们的性能。特别是，LUCIR [9] w/ours实现了最高的平均精度和最低的获取率，例如。分别为63。08%和14。在最具挑战性的25阶段ImageNet上获得40%的成功率关于for-得到率F表明，我们的方法是非常有助于减少遗忘问题的每一种方法。考试-例如， LUCIR （ w/ours ）在 25 相 CIFAR-100 和ImageNet上看到它的F减少到大约三分之一。不同的总阶段（N= 5、10、25）。表1和图4表明，我们的记忆术训练在更多阶段的设置中会变得更大，例如。在CIFAR-100上，LUCIR w/ours增益为1。78%的5相，而6。16%，25期。当检查图4中从N=5到N=25的曲线的终点时，我们发现相关方法LUCIR、BiC、iCaRL和LwF都遭受性能下降。可能的原因是，他们的模型越来越严重地过度拟合羊群样本，这是选择和固定的。相比之下，我们最好的模型（LUCIRw/ ours）没有这样的问题，感谢我们的记忆法样本通过BOP被赋予了强大的优化能力和灵活的适应能力特别地，其在N = 25（56. 52%）甚至高于N = 5（56. CIFAR-100的19%消融研究。表2涉及四种消融设置，并比较了我们的记忆术训练方法（w/和w/o调整旧样本）和两种基线之间的效率：随机和羊群样本。具体地说，我们的方法在所有设置中实现了最高的平均准确率和最低的遗忘率。动态调整旧范例带来一致的改进，即，两个数据集的平均值均为1%。就遗忘率而言，我们的结果是最低的（最好的）。有趣的是，度量方法N=510255102551025[17]第17集：一个人的世界49.5946.9845.5153.6247.6444.3244.3538.9036.87LwFw/我们的54.4352.6751.7561.2359.2459.7152.7050.3750.79iCaRL（2017）[25]57.1252.6648.2265.4459.8852.9751.5046.8943.14平均acc.（%）↑iCaRL，带我们的59.8857.5354.3072.5570.2967.1260.6158.6253.46A<$=1NA我BiC（2019）[36]59.3654.2050.0070.0764.9657.7362.6558.7253.47BiCw/ our60.6758.1155.5173.1671.3768.4164.6362.7160.20[2019年][9]63.1760.1457.5470.8468.3261.4464.4561.5756.56LUCIRw/ our64.9563.2563.7073.3072.1771.5066.1563.1263.08[17]第17集：一个人的世界43.3643.5841.6655.3257.0055.1248.7047.9449.84LwFw/我们的38.3836.6633.5039.5640.4439.9937.4638.4237.95iCaRL（2017）[25]31.8834.1036.4843.4045.8447.6026.0333.7638.80遗忘率（%）↓iCaRL，带我们的25.2827.0228.2220.0024.3629.3220.2624.0417.49F= AZ − AZBiC（2019）[36]31.4232.5034.6027.0431.0437.8825.0628.3433.1712254CIFAR-100图像网络-子集放牧7090CS7090放牧17.02 19.76 16.8721.93 16.32 15.91500700900我们的，我们的13.78 12.35 10.6520.76 16.47 12.68我们11.64 10.909.9610.209.8811.76表2.消融研究。顶部和底部的块分别表示平均精度A（%）和获取率F（%）。意味着没有旧样本调整。注意，在所有这些实验中应用权重转移操作。实现比放牧更低（更好）的性能。随机选择样本的中心和边界的数据空间（为每个类），但羊群只考虑中心数据，强烈依赖于数据分布在当前阶段，但不能承担任何风险的分布变化，在后续阶段。通过数据空间中范例的可视化进一步揭示了这一弱点，例如，在图5中。请注意，对其他组件的消融研究结果，例如。补充资料中给出了蒸馏损失。可视化结果。图5展示了在数据空间（浅色）中羊群（深色）和我们的记忆法示例（深色）的t-SNE结果。我们有两个主要的观察结果。(1)我们的助记法比羊群法在数据中产生了更清晰的分离。(2)我们的助记符样本经过优化，主要位于类之间的边界上，这对于生成高质量的分类器至关重要。比较两个数据集的第4阶段结果（即，在最右列的子图中），我们可以看到学习更多的类（即，在ImageNet上）显然会在数据空间中的类之间造成更多的混淆，而我们的方法能够产生更强的类内紧凑性和类间分离。在补充中，我们提出了更多的可视化数字的变化，在记忆训练从最初的例子，以学习的例子。6. 结论在本文中，我们开发了一个新的记忆训练框架，以解决多类增量学习任务。我们的主要贡献是助记符示例，它们不仅是有效的数据样本，而且是灵活的、可优化的和可适应的参数，记忆术500900700图5. 羊群效应的t-SNE [18]结果和我们在两个数据集上的记忆法范例。N=5。在每个着色类中，深色点是样本，浅色点是参考真实数据分布的原始数据。类的总数（在训练中使用）在每个子图的左上角给出。为了清晰的可视化，Phase-0从CIFAR-100（ImageNet）上的50（500）个类中随机挑选3个类。第二阶段和第四阶段分别增加到5级和7级在线系统的灵活性。非常有趣的是，我们的记忆训练方法是通用的，它可以很容易地应用到现有的方法，以实现大幅度的改进。在四种不同基线架构上的大量实验结果验证了该方法的高效性，深入的可视化显示了其根本原因是我们的助记符样本被自动学习为原始数据的最佳替换，从而可以产生高质量的分类模型。致谢我们要感谢所有的评论家的建设性意见。本研究得到了新加坡教育部（MoE）学术研究基金（AcRF）一级基金、马克斯·普朗克信息学研究所、国家自然科学基金（61772359、61572356、61872267）、天津市新一代人工智能重大专项基金的资助（19ZXZNGX00110，18ZXZNGX00150），开放项目浙江大学计算机辅助设计与计算机图形学国家重点实验室项目（批准号：A2005）、天津大学优秀学者项目资助（2019 XRX-0035）。CIFAR-100ImageNet示例性N=510255105025无规则的63.06 62.30 62.0671.34 70.02 68.24随机63.51 62.47 61.5971.67 70.31 68.02放牧，放牧↑ 63.39 61.50 60.9571.22 69.67 67.45记忆放牧63.56 61.79 61.0572.01 70.02 68.00我们的，我们的63.97 62.34 62.3172.45 70.57 70.7850我们64.95 63.26 63.7073.30 72.17 71.50无规则的19.38 15.90 13.9121.67 17.89 16.38随机17.24 16.01 13.2317.05 15.76 13.27放牧，放牧↓ 21.02 21.18 20.7621.53 18.15 17.96放牧12255引用[1] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Gregory S.放大图片创作者： James E. Goodfellow ， Andrew Harp ，Geoffrey Irv-ing ， MichaelIsard ，YangqingJia ，Ra f alJo'zef o wicz，LukaszKaise r，ManjunathKudlu r，JoshL evenbe r g ， DanMa ne' ， Ra-jat Monga ，Sherry Moore，Derek Gordon Murray ， Chris Olah ， Mike Schuster ，Jonathe Shlens，Benoit Steiner，Ilya Sutskever，KunalTalwar，Paul A.放大图片作者：Vincent Vanhouc k e，VijayVasud ev an ， FernandaB. 如， OriolVinyals ， PeteWarden，Martin Wattenberg，Martin Wicke，Yuan Yu和Xiaoqiang Zheng。 TensorFlow：异构分布式系统上的大规模机器学习。arXiv，1603.04467，2016年。5[2] 弗朗西斯科·M 曼努埃尔？卡斯特罗马琳-吉梅内兹，尼科尔·阿吉尔，科迪莉亚·施密德，卡提克·阿拉哈里。端到端的创造性学习。在ECCV，第241-257页，2018年。一、二、三、四、五、六[3] Gert Cauwenberghs和Tomaso Poggio增量和减量支持向量机学习。NIPS，第409-415页，2000年2[4] Arslan Chaudhry，Marc有效的终身学习与一个宝石。2019年，在ICLR。2[5] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在ICML，第1126-1135页，2017年。三、五[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页2[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。5[8] 杰弗里·EHinton，Oriol Vinyals，and Jeffrey Dean.提取神经网络中的知识。arXiv，1503.02531，2015年。二、三[9] Saihui Hou ， Xinyu Pan ， Chen Change Loy ， ZileiWang，and Dahua Lin.通过重新平衡来增量地学习统一分类器。在CVPR，第831-839页，2019年。一、二、三、四、五、六、七[10] 胡文鹏，周林，刘兵，陶重阳，陶正伟，马锦文，赵东燕，严瑞.克服灾难性遗忘，通过模型自适应进行持续学习。2019年，在ICLR。2[11] Nitin Kamra、Umang Gupta和Yan Liu。用于持续学习的深度生成双记忆网络。arXiv，1710.10368，2017年。2[12] 放大图片作者： Ronald Kemker ， Marc McClure ，Angelina Abitino，Tyler L. Hayes和Christopher Kanan。在神经网络中测量灾难性的获取在AAAI，第33901[13] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。5[14] Ilja Kuzborskij，Francesco Orabona，and Barbara Caputo.从N到N+1：多类迁移增量学习。在CVPR，第3358-3365页，2013年。2[15] Xinzhe Li，Qianru Sun，Yao Liu，Qin Zhou，ShibaoZheng，Tat-Seng Chua，and Bernt Schiele.学习自我训练半监督少镜头分类。在NeurIPS，第10276-10286页，2019年。3[16] 李莹莹，陈欣，李娜。具有线性动态和预测的在线最优控制：算法和后悔分析。在NeurIPS，第14858-14870页，2019年。1[17] 李志忠和Derek Hoiem。学而不忘。IEEE Transactionson Pattern Analysis and Machine Intelligence ， 40（12）：2935-2947，2018。一、二、三、五、六、七[18] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579-2605，2008. 1、8[19] 马修·麦凯，保罗·维科尔，乔恩·洛林，大卫·杜沃诺，罗杰·格罗斯.自调谐网络：使用结构化最佳响应函数的超参数的双层优化。2019年，在ICLR。二、三[20] Michael McCloskey和Neal J Cohen。连接主义网络中的灾难性干扰：顺序学习问题。《学习与动机心理

下载后可阅读完整内容，剩余1页未读，立即下载