无数据类增量学习中的增量蒸馏策略及其对常见类增量基准的改进

188 浏览量更新于2023-10-13 收藏 886KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9374总是在做梦：一种新的无数据类学习方法-增量学习James Smith1*，Yen-Chang Hsu2，Jonathan Balloch1，Yilin Shen2，Jin Hongxian2，Zsolt Kira11佐治亚理工学院，2三星美国研究院摘要现代计算机视觉应用在随着时间的推移逐渐学习新概念时遭受catastrophic遗忘。消除这种遗忘的最成功的方法需要广泛地重放先前看到的数据，当存在存储器约束或数据合法性问题时，这是有问题的。在这项工作中，我们考虑了无数据类增量学习（DFCIL）的高影响力问题，其中增量学习代理必须随着时间的推移学习新概念，而不需要存储生成器或从过去的任务中训练数据。DFCIL的一种方法是通过反转学习者的分类模型的冻结副本来重放合成图像，但我们发现这种方法在使用标准蒸馏策略时无法用于常见的类增量基准测试。我们诊断这种失败的原因，并提出了一种新的增量蒸馏策略的DFCIL，有助于修改交叉熵训练和重要性加权特征蒸馏，并表明我们的方法的结果，在最终任务的准确性（绝对差异）增加了25.1%相比，SOTA DFCIL方法为常见的类增量基准。我们的方法甚至优于几个标准的重放为基础的方法，其中存储的图像coreset。我们的代码可在https://github.com/GT-RIPL/AlwaysBeDreaming-DFCIL1. 介绍现代计算机视觉设置的缺点是，它们通常采用包含部署期间遇到的所有对象的大型数据集进行离线训练。在实践中，许多应用需要在遇到新的环境/情况之后不断更新模型。这是类增量学习范式（也称为持续或终身学习的子集），在学习任务序列中的知识损失被称为灾难性遗忘。Suc-* 通信地址：詹姆斯·史密斯jamessealesmith@gatech.edu成功的增量学习方法有一个不恰当的共性：它们需要大量的存储器来重放先前看到的或建模的数据，以避免灾难性的遗忘问题。这与许多计算机视觉应用有关，因为1）许多计算机视觉应用是在设备上的，因此存储器受限[15，35，52]，以及2）许多计算机视觉应用从不能合法存储的数据中学习[5，10，62]。这让我们不禁要问：计算机视觉系统如何在不存储数据的情况下逐步整合新信息？我们将此设置称为无数据类增量学习（DFCIL）（也称为无数据连续学习[60]）。DFCIL的一种直观方法是同时训练一个生成模型以进行采样用于重放[25，26、49、58]。不幸的是，与分类模型相比，训练生成模型的计算量和内存密集度要高得多。此外，尚不清楚从数据分布生成图像是否会违反数据合法性问题，因为使用生成模型会增加记忆潜在敏感数据的机会[42]。相反，我们探索了模型反演图像合成的概念，其中我们可以反演已经提供的推理网络，以获得网络中与训练数据具有相似激活的图像。这个想法很吸引人，因为它不需要训练额外的网络（只需要现有的推理网络），并且不太容易受到数据隐私问题的影响。DFCIL 问题最接近的现有工作是 DeepInversion[60]，它使用冻结的教师网络将随机噪声优化为图像，以进行知识蒸馏。DeepInversion是为标准的学生-教师知识蒸馏而设计的，并在此任务中实现了最先进的性能。不幸的是，作者报告说，当尝试对旧图像和新图像相似的任务进行类增量学习时（例如来自相同数据集的任务，这是类增量学习的标准基准实践），他们的方法执行9375(a)(b)（c）第（1）款图1：使用合成重放数据进行类增量学习时的特征嵌入分布（a）直接应用合成数据使模型学习的特征在真实和虚假之间更容易区分，而不是任务1和2。这是本文分析和解决的主要问题。(b)修改分类损失和添加正则化减轻了真实和虚假之间的特征漂移。(c)这是所需的特征分布。我们的方法使任务1和任务2更加可分离。本文的目标（如图1所示）是剖析这种故障的原因，并提出DFCIL的解决方案。具体地，我们推断，当用来自当前任务的真实图像和表示过去任务的合成图像训练模型时，特征提取模型使得来自过去任务的真实图像的特征分布（其在训练期间不可用）在特征空间中接近来自当前任务的真实图像，而在特征空间中远离合成图像。这导致模型的偏差，从而错误地预测来自具有当前任务标签的先前任务的真实图像这种现象表明，当训练一个具有两个数据分布的网络时，包含语义转变（过去的任务与当前任务）和分布转变（合成数据与真实数据），分布转变对特征嵌入的影响更大。因此，来自先前类别的验证/测试图像将被识别为新类别，这是由于模型固定在它们的域上（即，现实对合成像素分布）而不是它们的语义内容（即，过去与当前任务）。为了解决这个问题，我们提出了一种新的类增量学习方法，该方法学习新任务的特征，具有局部分类损失，其不包括合成数据和过去的任务线性头部，而是依赖于重要性加权特征蒸馏和线性头部微调来分离新任务和过去任务的特征嵌入。我们表明，我们的方法代表了DFCIL设置的最新技术水平，与DeepInversion相比，对于常见的类增量基准测试，最终任务准确度（绝对差异）提高了25.1%，甚至优于流行的重播基线Naive Rehearsal和LwF。总之，我们做出以下贡献：1. 我们使用一个经典的类增量学习基准来诊断和分析为什么类增量学习的标准蒸馏方法（例如Deep反转）在使用合成重放数据时失败。2. 我们直接解决这个问题，修改后的交叉熵最小化，重要性加权功能蒸馏，线性头微调。3. 我们实现了一个新的国家的最先进的性能为DFCIL设置。2. 背景及相关工作灾难性遗忘：减轻灾难性遗忘的方法可以分为几大类，并且都是有用的，这取决于存在哪些限制。例如，当遇到新任务时扩展模型架构的方法对于随着任务增长的模型是实用的应用程序是非常有效的我们不考虑这些方法，因为模型参数随任务数量线性增长。使用存储的数据[2，3，7，8，13，17，22，27，38，44，45，46，57]或样本与DFCIL设置不同，当存储训练数据或训练/保存生成模型时，从生成模型[25，26，43，49，54]中提取的数据是非常另一种方法是在训练新任务的同时相对于过去的任务知识来正则化模型这可以通过在权值空间中正则化模型（即，惩罚模型参数的变化）[1，11，28，53，61]或预测空间（即，惩罚模型预测的变化）[6，21，31，34，50]。已经发现预测空间正则化（使用知识蒸馏完成）比基于模型正则化的类增量学习方法更好[33，55]。类中的知识蒸馏-增量学习：基于提出从大模型到小模型的知识蒸馏的原始工作[20]，学习不遗忘[34]，蒸馏和回顾[21]，端到端增量学习[6]，9376|不|不F{··· }全局蒸馏[31]和偏差校正[59]有效地利用了知识蒸馏作为增量学习的预测正则化技术。知识蒸馏的高级思想是定期保存模型的冻结副本（这里我们使用ConvNet），并确保新模型在一组蒸馏图像上做出与冻结模型相似的预测（同时学习新任务）。知识提取不需要在任务序列边界处替换冻结的模型，但这通常在评估竞争方法时进行。这种正则化也可以发生在特征空间而不是预测空间[4，22]中，我们称之为特征提取。这些知识蒸馏方法需要存储的数据来执行类似的预测，但下一节描述了一种不需要训练数据的知识蒸馏形式。无数据知识蒸馏：来自神经网络的知识可以在没有训练数据的情况下传输。我们将使用训练的推理网络本身和所得的激活统计来合成蒸馏图像的工作线称为无数据知识蒸馏。这种方法对于训练数据敏感并且不容易获得合法性问题的应用非常重要。我们知道的第一个这样的工作是DeepDream [41]，它将随机生成的噪声优化为图像，从而最大限度地减少分类损失和图像先验。另一种早期方法[37]匹配来自训练的“教师”模型的存储层统计数据，同时使用基于频率的压缩技术留下小的内存占用。无数据学习方法[9]利用GAN架构来合成与经训练的教师的统计数据相匹配的图像三种最近的方法利用存储在批量归一化层中的层内容来合成逼真的图像以进行知识蒸馏[16，39，60]。据我们所知，只有两个类增量学习方法是为无数据的角度设计的自动回忆机器（ARM）[24]将当前任务的训练数据扰动成图像，最大化从过去任务中获得的然而，这种方法是为“单次通过”设置而设计的深度反演[60]还评估了类增量学习范式中的无数据知识提取，但仅在使用图像内容非常明显的任务的小任务序列（最多三个）中发现了成功。我们的论文剖析了为什么DeepInversion方法在困难的类增量学习问题上失败，并提出了一个成功的无数据类增量学习的解决方案。3. 预赛类增量学习：在类增量学习中，模型被示出为对应于M个语义对象类c1，c2，. . . .，c M在对应于类的非重叠子集的一系列N个任务上执行。我们使用符号n来表示任务n中引入的类的集合，其中n表示任务n中对象类的数量。每个类仅出现在单个任务中，并且目标是在引入新对象类时增量地学习对它们进行分类，同时保留先前学习的类的性能。类增量学习设置具有挑战性，因为在推理期间没有向学习者提供任务索引，并且学习者必须支持直到任务n的所有类的分类[23]。这比任务增量学习更困难，在任务增量学习中，任务索引在训练和推理过程中给出。虽然我们的设置在训练期间不需要已知的任务边界，但我们遵循先前的工作[34，23，60]进行公平比较，并在每个方法的任务边界处创建模型副本。为了描述我们的推理模型，我们将θi，n表示为在时间i的模型θ，该模型已经用来自任务n的类进行了训练。例如，θn，1：n是指在任务n期间训练的模型及其与直到并包括类n的所有任务相关联的logit。当用所有logit（例如θn）描述在任务n4. 无数据课堂创造性学习在本节中，我们基于先前工作中的努力提出了无数据类增量学习的一般基线。我们首先总结了数据合成（即从判别模型本身生成图像）方法，我们发现最成功的类增量学习。然后，我们回顾了相关的知识蒸馏损失，最终关注DeepInversion [60]用于类增量学习的损失函数。模型反演图像合成：大多数模型反演图像合成方法寻求通过相对于先验判别模型θ n − 1直接优化图像来合成图像。 F或B个合成图像，张量XB×H×W×C=x1其中H、W和C对应于训练数据图像维度，从高斯噪声初始化。然而，一次优化一批图像在计算上是低效的。特别是考虑到类增量学习预计是计算效率，我们选择近似使用ConvNet参数化函数Fφ模拟从噪声到合成图像的这种优化。这允许框架工作进行训练每个任务一次（仅使用θn−1，也就是说，没有数据），仅在给定的9377F不FLL2HF|TT|−T··· T.LLconCELL.LKDKDKDDIdivL信息BθBstatLX，lX，lLLF任务，在任务n的训练期间根据需要对合成图像进行采样，然后在任务结束时将其丢弃。φ可以与合成类多样性作斗争;我们遵循[9]并优化合成图像的类预测的多样性以匹配均匀分布，而不是在类标签Y上条件φ。将p θ（x）表示为模型θ对某个输入x产生的预测类分布，我们希望最大化合成样本X的平均类预测向量的熵。例如，我们最小化标签多样性损失：L（Y）=−H。1Σp（x）Σ（1）B其中，KL表示Kullback-Leibler（KL）散度，μ（X（，l）、σ（X（， l）是给定小批量合成图像的层l处的特征的平均值和标准差，并且μl、σl是所述层l的批量范数统计。由于θn−1的批量统计量存储在批量归一化层中，因此这种损失不需要任何额外的存储。此外，先验知识告诉我们，自然图像在像素空间中比初始噪声更局部平滑因此，我们可以通过最小化平滑先验损失先验来稳定优化。形式上，先验是每个合成图像（x）和一个版本之间的L2距离。用高斯核模糊（xblur）：L之前 ||2（六）模糊（X）=||x−x其中info是信息熵。请注意，当损失取最小值时，均值类预测向量中的每个元素都将等于1，这意味着总而言之，假设使用φ来表示效率，则因此，基线的最终损失为minαconLcon（X，Y）+αdivLdiv（Y）一......n1生成类的速率大致相同。除了多样性，要始终如一地综合有用的Fφ+α状态 L状态（X）+α之前 L先验（X）（七）对于DFCIL设置中的图像，图像必须强制执行校准的类置信度、特征统计的一致性以及局部平滑的潜在空间，如下所述。内容损失Lcon最大化关于图像张量X的类预测置信度，使得θn−1应该对所有输入做出可靠的预测。从形式上讲，L_con是两个向量之间的交叉熵分类损失。重要的是：虽然我们优化了φ而不是[16，60]中所做的X？，该方法可以使用后者，但牺牲了计算效率。为类增量学习提取合成数据：在类增量学习设置中，其中任务Tn的类被建模而不学习代表。X的类预测和最大类预测Y：表示任务类1n-1，知识分布在合成图像上的倾斜最常用于（X，Y）=pαtempθn−1，1：n− 1（x），yΣ（2）正则化θ n，迫使它以最小的退化学习T n到T1···Tn−1kno。对于任务Tn，我们综合y=argmaxy∈T. 不pθn−1，1：n−1（3）来自任务期间（θn-1）t雨的冻结副本的图像Tn−1。这些合成图像帮助我们提取出-1n−1在任务我们现在的模型在哪里放的CE是标准交叉熵损失和logit out-（θn），因为它从T1···Tn−1Tn数据。θ由温度常数αtemp缩放。通过com-使用div和bincon，我们确保合成的图像将表示所有过去任务类先前的工作已经发现，模型-i版本的复杂性可能导致θn−1特征的分布大大偏离合成批次的分布。在我们的基线中，我们采用蒸馏法在DeepInversion [60]中使用，它概括了原始的无遗忘学习（LwF）[34]蒸馏方法。形式上，给定当前任务数据x和合成大小的蒸馏数据x，我们最小化：图像.直观地说，合成图像的批量统计数据应该与θ n −1中的批量归一化层的统计数据相匹配。为了执行此，统计对齐丢失，L统计，最小CEpθθnn，1：n （x），yΣ+LDI（x，θn，θn−1）+LDI（x，θn，θn−1）（八）惩罚中间层批次之间的偏差其中L_DI是知识蒸馏正则化，如下：存储在θn−1中的归一化统计量（BNS）和特征在合成图像的这些层[16，39，60]：LKD（x，θn，θn−1）=KL（pθn−1，1：n(x) ||pθn，1：n（x））（九）L（X）=1ΣBNS（µ，σ，µ，σ）（4）l=1L9378LDI思想作为老师和学生的逻辑= logσ−21−在这里，pθn−1，1：n（x）简单地是p θn−1，1：n−1（x）附加零来表示新的类概率为零。类（不适用于θn−1，1：n−1）。凯怡KDBNS（µ，σ，µ，σ）=KL（N（µ，σ2））||N（µ，σ2）1.σ2+（μ− μπι）2π ι（5）dent在课堂上的增量学习总是不同的-设置，将零附加到类概率向量，使学生和教师的logit维度对齐，以获得更好知识转移σˆ29379L一∈LKD一LB¨σa¨(a) DeepInversion [60]（b）我们的方法图2：真实任务1数据和合成任务1数据（蓝色），真实任务2数据（红色）的特征嵌入之间的代表性距离分数（MID）任务1对应于CIFAR-100的十个类别，而任务2对应于CIFAR-100的不同的十个类别;在任务2上训练之后生成结果。5. 诊断：特征嵌入优先于语义为了理解DFCIL的基线方法失败的原因，我们用捕获两个分布样本的平均嵌入图像之间的距离的度量来分析嵌入特征之间的代表性距离具体地，我们在图像的参考样本xa和图像的另一样本xb之间分配平均图像距离（MID）分数，其中高分数指示不相似的特征，低分数指示相似的特征。我们将该分数计算为：MID（z，z）=<$a−<$b<$（10）2合成任务1的数据要低得多，这表明我们的特征嵌入优先于域的语义。6. 一种新的DFCIL我们认为，持续学习应该平衡：（i）学习新任务的特征，（ii）最小化先前任务上的特征漂移，以及（iii）在嵌入空间中分离新类和先前类之间的类重叠（这在另一个工作[22]中在不同设置下进行了类似的讨论）。一般来说，（i）和（iii）是同时实现与行政长官，但我们认为，通过分离成两个不同的损失，新的任务的特点是学习，不区分真正的和合成图像（即，避免特征域偏差问题）。根据这个想法，我们提出了一个新的类-其中za，zb是xa，xb的倒数第二个特征嵌入;µa、µb是xa、xb的平均图像特征嵌入;σ2是xa的特征方差。我们通过参考分布样本xa的标准偏差对平均嵌入图像之间的距离进行归一化，以最大限度地减少高度偏差特征的影响。使用最大平均差异（MMD）[14]的其他分析可参见我们的附录。对于我们的分析，我们首先针对第7节中描述的十个任务CIFAR-100基准中的前两个任务训练我们的模型。我们计算真实任务1数据和真实任务2数据的特征嵌入之间的MID，然后计算真实任务1数据和合成任务1数据的特征嵌入之间的MID。结果报告于图2中。对于（a）DeepInversion，MID分数在为DFCIL设计的增量式学习方法，它独立地解决了这些目标中的每一个，如本节其余部分所述。学习当前任务特征：我们的方法背后的直觉是学习我们当前任务的特征，同时避免真实数据的特征嵌入变得高度偏向最近的任务。也就是说，我们形成CE，使得x是实数与合成的可能性pθn，n（x X实数）对它的最小化没有帮助。我们通过计算交叉熵分类损失来做到这一点-计算新类别的线性磁头，而不包括过去类别的线性磁头。通过这种形成，我们防止模型通过域（即，域）来学习分离新的和过去的类合成与real）。形式上，我们最小化：真实任务1数据和合成任务1数据之间的MID得分显著高于真实任务1数据和真实任务1数据之间的MID得分。n.pθ在叱（x），yΣ =LCE. pθ在叱（x|y∈ Tn），yΣ（11）任务2数据。这表明嵌入空间优先于语义的域，这是有害的，因为分类器将学习合成任务1和真实任务2之间的决策边界，从而引入真实任务1图像的大这种诊断激发了我们的方法，这是在下面的部分提出。为(b) 我们的方法，真实任务1数据和最小化先前任务数据上的特征漂移：由于我们的蒸馏图像是与真实当前任务图像不同的另一个域softmax预测（DI）上的标准知识蒸馏的替代方案是特征蒸馏，其替代地蒸馏特征内容LTCE9380不n，1：n−KDKDLTWKDFTn，1：n−1n−1，1：n −12θCE在叱KDCEL图3：我们的方法结合了（i）新任务的学习特征和等式（2）。（ii）利用等式（11）最小化在先前任务上的特征漂移。（iii）用等式（13）分离嵌入空间中的新类和先前类之间的类重叠。（14）。我们使用蓝色箭头指定合成的先前任务数据的计算路径，绿色箭头指定真实的当前任务数据的计算路径，黄色箭头指定真实和合成数据的计算路径。我们分离出任务n头，以表明本地CE损失方程。（11）只使用这个头。从倒数第二个laye r. 这在形式上是g iv en：其中p用θ1：L−1计算（即，每一层Lfea t（·）=||θL−1 （x）−θL−1（x）||二（十二）模型（分类图层除外）冻结，仅θLn，1：n. 如[31，49，59]中所做的，我们添加了任务平衡损失其中L1表示模型的倒数第二层输出。我们的直觉是，存在一个权衡之间的标准知识蒸馏和特征蒸馏。feat强化了过去任务数据的重要组成部分，但它是一种强正则化，抑制了plas。模型的灵活性（以及它学习新任务的能力对加权以平衡来自当前任务的贡献过去的任务。最终目标：如图3所示，我们的最终优化目标如下：minLTn.pθ（x），y∈ N+λkdLwfeat（{x，x∈N}，θn，θn−1）n另一方面，LDI不妨碍学习新任务+λftLT1：n.pθn，1：n（{x，x<$}），{y，y<$}但是可以利用其中发生了特征漂移的解决方案来最小化，从而导致实际与合成的偏差。相反，我们需要一个重要加权特征DIS-I。（十五）其中，λ项对Lwfeat和只加强过去任务数据中最重要的成分，同时允许不太重要的功能的填充，LFTKD关于n个要适应新的任务。我们简单地使用冻结模型θn−1中T1···Tn−1的线性头，或者：7. 实验我们评估我们的方法与几个图像数据集Lwfea t（·）=||W.θL−1 （x）Σ−W。θL−1（x）Σ||2KDn，1：n−1其中W=θLn−1，1：n−12（十三）在课堂上进行渐进式持续学习。我们实现了不存储训练数据的基线n−1，1：n −1通过使用该重要性权重矩阵，与中的高幅度相关联的特征对于保存更重要。以这种方式，来自过去任务的冻结线性头部大致指示对每个特征的改变影响类分布的程度。分离当前和过去的决策边界：最后，我们需要分离当前和过去类的决策边界，而不允许特征空间区分真实数据和合成数据。我们通过使用标准交叉熵损失微调θn，1：n重要的是，除了最终的线性分类头之外，这种损失不会更新θn，1：n形式上，我们最小化：排练：深度生成重放（DGR）[49]，学习而不忘记（LwF）[34]和深度反演（Deep-Inversion）[60]。此外，我们报告了上限性能（即，离线训练）和使用新任务训练数据仅在分类丢失上训练的神经网络的性能（我们将其称为Base）。我们注意到，任何生成方法的缺点是它们（1）需要生成模型的长期存储，以及（2）可能违反数据合法性问题。为了公平比较，我们的DeepInversion实现我们不对整个任务集调优超参数，因为使用来自所有任务的保持数据调优超参数可能会破坏整个任务集。说明每项任务LT1：n.pθn，1：n（x，y）n=LCE.p*θn，1：n（x，y）Σ（14）FT9381只有一次[56]。重要的是，我们把班级9382}F联系我们联系我们nn表1：针对不同数量的任务（5、10、20）在CIFAR-100上的无数据类增量学习的结果（%）结果报告为3次运行的平均值。任务51020方法重放数据AN（↑）Ω（↑）AN（↑）Ω（↑）AN（↑）Ω（↑）上界没有一69岁。9 ±0。2一百块0 ±0。069岁。9 ±0。2一百块0 ±0。069岁。9 ±0。2一百块0 ±0。0基地没有一十六岁4 ±0. 4十四岁4 ±0. 4十七岁0 ±0。1十六岁7 ±0。1十八岁8 ±0。3四十八9 ±1。1四十五5 ±0。9四十九5 ±0。1四十九8 ±0。1五十三2 ±0。98. 8 ± 0。18. 1 ± 0。19 .第九条。2 ±0。08. 9 ± 0。010个。9 ±0。6三十二1 ±1。1三十5 ±0。6三十三岁。3 ± 0。9三十二3 ±0。0三十七9 ±0。84.第一章4± 0. 34.第一章1± 0。34.第一章7± 0。14.第一章7± 0。0五、7 ±0。319号。7 ±0。719号。0 ±0。320块1 ±0。319号。7 ±0。023岁6 ±0。7DGR [49]发生器LwF [34]没有一LwF [34]合成DeepInversion [60]合成我们合成四十三9±0。978岁6±1。1三十三岁。7±1。269岁。6±1。620块0±1。452岁5±2。5表2：在CIFAR-100上，针对不同数量的任务（5，10，20）使用重放数据进行类增量学习的结果（%）。2000个图像的核心集被用于基于重放的方法，因此这些方法不满足DFCIL约束的问题（注意，我们报告了没有任何核心集的方法编号）。结果报告为3次运行的平均值。任务51020方法重放数据AN（↑）Ω（↑）AN（↑）Ω（↑）AN（↑）Ω（↑）上界没有一69岁。9 ±0。2一百块0 ±0。069岁。9 ±0。2一百块0 ±0。069岁。9 ±0。2一百块0 ±0。0天真的排练LwF [34]BiC [59]Coreset科雷塞特三十四0 ±0。239岁4 ± 0.3五十三7±0。4七十三。4± 0. 879岁。0 ±0。087岁5±0。9二十四岁0± 1。0二十七岁4± 0. 8四十五9±1。8六十四6 ±2。169岁。4 ±0. 481. 9± 2。0十四岁9 ±0。7十六岁6 ±0。4三十七5±3。251岁4 ±2。9五十四2 ±2。2七十一7±3。4我们合成四十三9 ±0。978岁6 ±1。1三十三岁。7 ±1。269岁。6 ±1。620块0 ±1。452岁5 ±2。5在采样任务之前，先进行排序，并使用一致的种子（每次试验都不同）进行此操作，以便可以直接比较结果。我们在附录中包括补充详细信息和指标：额外的结果、额外的实验细节和超参数选择。评估指标：根据先前的工作，我们使用以下方法评估类增量学习设置中的方法：（I）最终性能，或者在已经看到所有N个任务之后关于所有过去的类的性能（被称为A N，1：N）;以及（II）Ω，或者关于离线oracle方法的平均（在所有任务上）标准化任务准确度[18]。我们使用索引i通过时间索引任务，使用索引n相对于测试/验证数据索引任务（例如，Ai，n描述了我们的模型在任务i之后对任务n数据的准确性）。具体而言：在100、150和200个历元之后增加10。我们使用0.0002的权重衰减和128的批量大小。使用一个简单的网格搜索来找到方程（7）的超参数，我们发现αcon，αdiv，αstat，αprior，αtemp为1，1，5e 1，1 e-3，1 e3（这些超参数不是我们的方法引入的）。对于方程（15）在我们的方法中，我们发现λkd，λft为1 e-1，1，并且我们使用先前报告的损失加权超参数用于我们的其他方法的实现。我们对所有softmax知识蒸馏实例使用2的温度缩放。我们模拟具有相同参数 [39]和训练方程。（7）在使用Adam优化的5，000个训练步骤（学习率0.001）开始每个任务结果在表1中给出。我们看到，我们的方法不仅优于DFCIL方法（包括最终任务准确性比DeepIn提高25.1%但即使是生成方法（尽管他们的Ai，n1为|D试验|（x，yΣ）∈D检验1（y（x，θi，n）=y|y（∈Tn）在任务之间使用显著的附加存储器）。令我们惊讶的是，我们发现DGR [49]的表现不佳（十六）N i在这个数据集上的类增量学习（实际上是Ω =1Σ Σ|A1，1：n|Ai, 1:n9383（十七）我们实验的每一个数据集）;这一发现在Ni=1n=1| T1：i|A脱机，1：n其中A离线是在离线设置中训练的任务准确度（即，上限性能）。Ω用于评估全局任务，因此是针对所有先前的类进行计算的对于我们结果中的最终任务精度，我们将简单地将AN，1：N表示为AN。无数据课堂-增量学习-CIFAR-100另一项最近的工作[54]也发现DGR可以执行比基础差1我们并不惊讶地看到LwF [34]比朴素排练表现得更差，因为这在类增量学习中也很常见[55，54]。最后，我们观察到，合成数据并没有提高LwF这与我们的发现一致，即当使用标准蒸馏策略时，特征嵌入优先于语义域。基准：我们的第一基准是十任务类-CIFAR-100数据集[29]上的增量学习，其中包含100个32x32x3图像类。在之前的工作[59]之后，我们使用32层ResNet [19]训练250个epoch。学习率设置为0.1并降低1我们没有实现额外的生成重放结果，因为这不是我们论文的重点。相反，我们与1）其他DFCIL方法进行比较，以显示我们的方法在我们的设置中表现最好，以及2）基于SOTA重放的方法，以显示我们的方法尽管没有存储重放数据，但其表现接近SOTA9384表3：CIFAR-100上的十任务类增量学习的消融研究结果（%）结果报告为3次运行的平均值公制（↑）ANΩ完整方法三十三岁。7± 1。2696± 1。6消融任务平衡损失加权[31、49、59]23岁4± 1。5622 ± 2。4十六岁5± 0。5466 ±0。9十五岁9± 2。一百五十八。9± 3。212个。7± 7。4553 ±8。19 .第九条。8± 0。六点三十五9± 1。3替换修改的CE损失，公式（11），带标准CE损失消融实时数据蒸馏：当量（13）w/X消融合成数据蒸馏：方程式（13）w/X消融FT-CE损失：当量（十四）表4：五个任务ImageNet-50上的类增量学习的结果（%）。2000个图像的核心集被用于基于重放的方法，因此这些方法不满足DFCIL约束的问题。结果报告为单次运行。方法重放数据AN（↑）上界没有一89岁。8LwF [34]没有一19号。4天真的排练Coreset78岁9LwF [34]Coreset84. 8我们合成七十一5使用重放数据的类增量学习-CIFAR- 100基准：在表2中，我们将我们的方法（不存储重放数据）与存储重放数据的其他方法进行比较。我们使用与 [6、59]。我们发现我们的方法可以执行比存储重放数据的LwF和 Rehearsal 的性能。我们还将我们的方法与基于SOTA重播的类增量学习方法进行了比较：偏差校正（BiC）[59]。尽管没有存储任何重放数据，但是我们的方法大致在BiC和LwF之间执行，尽管在我们的无数据方法和BiC之间仍然存在相当大的（和总之，这些结果表明，我们的方法实现了无数据类增量学习的最新性能，并且我们的方法缩小了无数据类增量学习与最新的基于重放的方法之间的大部分性能差距。消融研究- CIFAR-100基准：我们将我们方法的组成部分分开，以独立评估其对最终性能的影响，如表3所示。我们首先看看删除任务平衡损失加权的效果。如前所述[31，49，59]，这种损失加权对我们的业绩有重大影响接下来，我们表明，用标准交叉熵损失替换修改后的交叉熵损失会同样地，我们证明了烧蚀真实数据和合成数据烧蚀具有相同的效果.这表明1）所有这三个损失对于我们的方法都是至关重要的，并且2）尽管消除了这三个损失中的任何一个，我们仍然建立了SOTA性能最后，我们看到，去除微调交叉熵损失对性能的影响最大。从概念上讲，这是有意义的，因为如果没有这种损失，就没有办法区分新的任务类和以前的任务类。使用重放数据的类增量学习-Im-9385FageNet Benchmark：最后，我们使用ImageNet数据集[47]来演示我们的方法如何在大规模224x224x3图像上执行。在之前的工作[59]之后，我们使用18层ResNet[19]训练100个epochs。学习率设置为0.1，并在30、60、80和90个epoch后减少10。我们使用0.0001的重量衰减和128的批量大小。我们使用与先前工作相同的类洗牌种子[44，59]，并报告100个类的10个任务的前5名准确率。我们将完整ImageNet实验中使用的20kcoreset图像缩小到2k，与类的相对数量一致。我们还将用于训练的训练步骤数量增加了一倍。每个其他实验细节与CIFAR-100实验相同。结果在表4中给出。重要的是，该实验是重要的，因为存储用于重放的参数的数量（2000*224*224*3 =3e8）远远超过临时存储用于合成图像的参数的数量（3.3e6）。尽管只需要少100倍的参数存储，我们的方法执行合理的接近重放这个大规模的图像实验。我们的表现也远远超过了LwF，这是唯一一种以前在大规模ImageNet实验中尝试过的DFCIL方法。在具有挑战性的Tiny-ImageNet数据集[30]上进行的其他实验证明了我们方法的可扩展性，可参见附录。8. 结论我们表明，现有的类增量学习方法在使用真实训练数据学习新任务和使用合成蒸馏数据保存过去的知识时表现不佳。然后，我们贡献了一个新的方法，实现SOTA性能的无数据类增量学习，并与SOTA重放为基础的approaches。我们的研究愿景是消除在类增量学习中存储重放数据的需要，从而实现计算机视觉的广泛和实际应用。不存储数据的创新学习解决方案将对计算机视觉应用产生直接影响，例如降低自动驾驶车辆的内存需求（生成大量数据），消除为医学成像研究合作传输私人医疗数据的需求（受严格的法律保护限制），或消除为个人设备用户跟踪私人数据的需求推荐系统9386引用[1] RahafAljundi ， FrancescaBabiloni ， MohamedElhoseiny，Marcus Rohrbach，and Tinne Tuytelaars.记忆感知突触：学习什么（不）忘记。在ECCV，2018。2[2] Rahaf Aljundi， Eugene Belilovsky ，Tinne Tuytelaars ，Lau-租Charlin，Massimo Caccia，Min Lin，and Lucas Page-Caccia.最大干扰检索的在线持续学习。神经信息处理系统进展，第11849-11860页，2019年2[3] Rahaf Aljundi，Min Lin，Baptiste Goujaud，and YoshuaBen-吉欧基于梯度的在线持续学习样本选择。神经信息处理系统进展，第11816-11825页，2019年2[4] Yogesh Balaji ， Mehrdad Farajtabar ， Dong Yin ， AlexMott，还有李昂。记忆回放在大规模持续学习中的有效性。arXiv预印本arXiv：2010.02418，2020。3[5] Brett K Beaulieu-Jones ， Zhiwei Steven Wu ， ChrisWilliams，Ran Lee、Sanjeev P Bhavnani、James Brian Byrd和CaseyS Greene。隐私保护的生成式深度神经网络支持临床数据共享。循环：心血管质量和结局， 12 （ 7 ）：e005122，2019。1[6] Francisc o M Castro，Manuel J Ma' ın-Jime' nez，Nicola' sGuil，Cordelia Schmid 和 Karteek Alahari 。端到端的增量学习。在欧洲计算机视觉会议（ECCV）的会议记录中，第233-248页二、八[7] Arslan Chaudhry Marc和穆罕默德·埃尔侯赛尼有效的终身学习与创业板。在学习代表国际会议上，2019年。2[8] ArslanChaudhry ， MarcusRohrbach ， MohamedElhoseiny，Thalaiyasingam Ajanthan、Puneet K Dokania、Philip HSTorr和Marc'Aurelio Ranzato。不断学习，只保留小片段记忆。arXiv预印本arXiv：1902.10486，2019。2[9] Hanting Chen ， Yunhe Wang ， Chang Xu ， ZhaohuiYang，Chuanjian Liu，Boxin Shi，Chunjing Xu，Chao Xu，andQi Tian.学生网络的无数据学习。在IEEE计算机视觉国际会议论文集，第3514-3522页，2019年。三、四[10] 阿努帕姆·达斯马丁·德格林王小友，王俊爵Wang，Norman Sadeh，and Mahadev Satyanarayanan.作为一个充满摄像头的世界中的用户：用于计算机视觉应用的隐私感知基础设施。在2017年IEEE计算机视觉和模式识别研讨会（CVPRW）上，第1387IEEE，2017年。1[11] Sayna Ebrahimi、Mohamed Elhoseiny、Trevor Darrell和马库斯·罗尔巴赫贝叶斯神经网络不确定性引导的连续学习。arXiv预印本arXiv：1906.02425，2019。2[12] Sayna Ebrahimi ， Franziska Meier ， Roberto Calandra，TrevorDarrell和Marcus Rohrbach对抗性的持续学习。arXiv预印本arXiv：2003.09553，2020。2[13] 亚历山大·格珀斯和杰姆·卡拉奥古兹。增量学习-用自组织映射。2017第12届自组织地图和学习向量量化，聚类和数据可视化（WSOM），第1-8页，2017年。2[14] Arthur Gretton，Karsten M Bo

下载后可阅读完整内容，剩余1页未读，立即下载