类增量学习中保持区分性和公平性

126 浏览量更新于2023-10-25 收藏 12.18MB PDF 举报

深度神经网络

知识蒸馏

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

132080在类增量学习中保持区分性和公平性0赵博文†，‡ 肖曦†，‡ 甘国君� 张斌‡ 夏树涛†，‡0† 清华大学 ‡ 鹏城实验室 � 康涅狄格大学0zbw18@mails.tsinghua.edu.cn，{xiaox,xiast}@sz.tsinghua.edu.cn0bin.zhang@pcl.ac.cn, guojun.gan@uconn.edu0摘要0深度神经网络（DNNs）已经应用于类增量学习，旨在解决持续学习新类别的常见实际问题。标准DNN的一个缺点是容易发生灾难性遗忘。知识蒸馏（KD）是一种常用的技术，可以缓解这个问题。在本文中，我们证明它确实可以帮助模型在旧类别中输出更具区分性的结果。然而，它无法缓解模型倾向于将对象分类为新类别的问题，导致KD的积极效果被隐藏和限制。我们观察到，导致灾难性遗忘的一个重要因素是最后一个全连接（FC）层中的权重在类增量学习中高度偏倚。在本文中，我们提出了一个简单而有效的解决方案，受到上述观察的启发，以解决灾难性遗忘问题。首先，我们利用KD来保持旧类别的区分性。然后，为了进一步保持旧类别和新类别之间的公平性，我们提出了权重对齐（WA），在正常训练过程之后纠正FC层中的偏倚权重。与以前的工作不同，WA不需要任何额外的参数或预先验证集，因为它利用了偏倚权重本身提供的信息。所提出的方法在ImageNet-1000、ImageNet-100和CIFAR-100上进行了评估。实验结果表明，所提出的方法可以有效缓解灾难性遗忘，并显著优于最先进的方法。01. 引言0在过去的几年中，深度神经网络（DNNs）在各种应用中表现出了卓越的性能，甚至在某些任务上超过了人类的表现[10, 11,16]。标准的DNN通常在预先准备好的数据集上进行训练，其中类别的数量事先固定。然而，在许多现实世界的应用中，通常需要逐渐从流数据中学习新的类别。0测试0新模型0测试样本的输出概率0对于旧类的解释：对于新类的解释0旧模型0猫鱼0W0狮子狗猫鱼0输出节点0特征层旧数据0新数据0图1：类增量学习的基本方法。0数据，这被称为类增量学习。为了实现这个目标，一种常见的方法是通过将输出节点的数量设置为当前类别（包括旧类别和新类别）的数量，对旧模型在新数据上进行微调，如图1所示。然而，这种简单的方法存在一个严重的问题，即灾难性遗忘[7,22]。如图1所示，旧数据对应的旧类别的输出概率（用红色框标出）相对较低。因此，通过这种基本方法训练的新模型通常会将对象预测为新类别[26, 33,39]。为了缓解灾难性遗忘，进行了许多研究[28]。EWC[18]，SI [35]和MAS[1]尝试通过参数控制策略来解决这个问题。知识蒸馏（KD）[12]是另一种策略，在这个领域也被广泛使用[5, 20,40]。此外，一些其他研究[23, 26, 29,34]通过在训练过程中使用少量的真实或生成的旧数据来采用排练策略。在类增量学习任务中，新模型在没有访问旧数据的情况下进行训练，即使使用了排练策略，增量步骤中的训练集在旧类别和新类别之间严重不平衡。因此，也有一些研究从这个角度处理灾难性遗忘[13,33]。在本文中，我们证明了在这个领域中常用的技术知识蒸馏可以解决这个问题。132090猫鱼狮子狗0保持区分度保持公平性0狗？ √ x x0猫鱼狮子狗猫鱼狮子狗0对于旧类说明：对于新类0图2：我们解决方案的效果。KD帮助模型在旧类中保持区分度。WA帮助模型在旧类和新类之间保持公平性。0确实帮助模型在旧类中输出更具区分性的结果。然而，对新类的预测偏向无法得到缓解。训练的模型仍然不公平地对待旧类，导致KD的正面效果被隐藏和限制。然后，我们展示了训练模型的FC层中的权重严重偏倚，这可能导致模型倾向于将样本分类到新类中。基于上述，我们提出了一种简单有效的解决方案来缓解灾难性遗忘。我们解决方案的效果如图2所示。首先，我们利用KD来保持旧类中的区分度。这有助于模型在旧类中输出更具区分性的结果。然后，为了进一步保持旧类和新类之间的公平性，我们提出了权重对齐（WA）来纠正FC层中的偏倚权重，该纠正在正常训练过程之后进行。这有助于模型公平地对待旧类和新类，并输出正确的预测结果。在本文中，我们的主要贡献如下：（i）通过实验证明了KD在类增量学习中的实际作用；（ii）提出了一种简单有效的解决方案来解决类增量学习中的灾难性遗忘问题，通过KD保持区分度和通过WA保持公平性；（iii）受非增量模型的先前观察的启发，提出的方法WA试图将新类的权重向量的范数与旧类的权重向量的范数对齐。WA充分利用了训练模型中包含的信息，并纠正了FC层中的偏倚权重，它不需要提前保留验证集或需要调整任何额外的参数，但可以很好地处理类增量学习任务；（iv）进行了大量实验证明，我们的方法比以前的方法表现更好。02. 相关工作0最近，已经提出了许多方法来缓解普通DNN所遭受的灾难性遗忘问题[7,22]。在本节中，我们简要讨论这些方法。参数控制。这种策略的方法，如EWC[18]、SI[35]和MAS[1]，在面对新的问题时设法限制旧模型的重要权重0数据。这些方法期望在重要参数上进行小的变化。它们在如何估计重要参数方面有所不同。EWC通过Fisher信息矩阵估计权重重要性；SI使用优化轨迹上的路径积分；MAS利用网络输出的梯度[38]。然而，在一系列任务中准确测量参数的重要性是困难的[13]。这些方法在类增量学习中往往表现不佳[14,30]。知识蒸馏。知识蒸馏[12]是一种广泛使用的方法，它将关键知识从教师模型传递给学生模型。LwF利用知识蒸馏来学习多个任务。使用修改后的交叉熵损失来保留旧模型的能力。然后，它被应用于多类分类，称为LwF.MC[26]。M2KD引入了一种多模型和多层次的知识蒸馏策略，它利用了所有先前的模型快照，而不仅仅是从最后一个模型中提取知识。回放。回放策略通过使用一些旧数据来补充训练数据来缓解灾难性遗忘。最简单的方法是存储少量旧数据，并在新的增量步骤中重放它们。这种直接的方法已经证明在许多场景中是有效的[14,30]。其他方法构建了一个生成模型，例如GANs[8]，以生成用于回放的样本，而不是直接存储旧数据[6, 29,34]。然而，在这些方法中，需要同时训练一个额外的生成模型。因此，它们在生成模型的质量上依赖很大。类不平衡。对于类增量学习，当新类出现时，通常无法获得旧类的数据。即使使用了回放策略，类不平衡问题仍然非常严重，这是灾难性遗忘的一个重要因素[13,33]。尽管类不平衡是一个古老的课题，并且已经引起了很多关注[4, 15,17]，但多类不平衡学习仍然是一个未解决的问题[36]。为了解决类增量学习中的这个问题，BiC在模型的输出中添加了一个偏差校正层来纠正模型的输出。这种方法需要保留一个验证集来训练额外的偏差校正层。在[13]中，结合了余弦归一化、少遗忘约束和类间分离来减轻类不平衡的影响。该方法结合了三个特定的损失项和其他技巧（例如类平衡微调）来提高性能。IL2M通过利用双重记忆中的内容来校正旧类的分数。这些策略可以组合应用。例如，iCaRL同时使用了蒸馏策略和回放策略，还利用了最近样本均值（NEM）分类器。EEIL也利用了这两种策略，并利用了平衡的微调来缓解类不平衡。在本文中，我们提出的方法where λ is a hyper-parameter governing the balance be-tween the two losses.We set the hyper-parameter λ towhere ˆqc(x) =eˆoc(x)/T�Cbold eˆoj (x)/T , qc(x) =132100也基于这些观点。我们对蒸馏策略进行了详细分析。更重要的是，我们以简单而有效的方式处理了类别不平衡。在没有任何额外的模型参数、超参数或保留验证集的情况下，我们的方法比先前的方法表现更好。03. 动机03.1. 基线0在本小节中，我们总结了类别增量学习中的基线方法，该方法同时利用了回忆策略和蒸馏策略。首先，我们对类别增量学习进行了表述。假设有B批训练数据{D1, ...,DB}，其中D_b = {(xb1, yb1), ..., (xbnb,ybnb)}表示第b个增量步骤的输入数据和目标，nb是集合Db中样本的数量。在类别增量学习的第b个步骤中，目标是从新数据Db中学习知识，同时保留从旧数据{D1, ...,Db-1}中学到的先前经验。对于每个步骤，训练的模型在所有已见类别上进行评估。对于第b个增量步骤，基线方法使用在前一步骤中学到的参数初始化模型，并添加新的输出节点（FC层中的权重随机初始化）。然后，它尝试学习新类别，并同时利用新数据Db和一些回忆数据Db_old保留原始能力。假设新数据Db来自Cb_new个类别，回忆数据Db_old来自Cb_old个旧类别，其中Cb_old =Σ(b-1)k=1Ck。基线方法将交叉熵损失LCE与知识蒸馏损失LKD相结合。组合损失包含两个项，如下所示：L(x, y) = (1 -λ)LCE(x, y) + λLKD(x)，(1)0Cb + Cb_old，根据[33]的建议。交叉熵损失如下所示：0LCE(x, y) =0CC0c = 1 - δc=ylog[pc(x)]，(2)0其中δc=y是指示函数，pc(x)是第c个类别的输出概率。蒸馏损失如下所示：0LKD(x) =0c = 1 - ˆqc(x)log[qc(x)]，(3)0[Cb_old0T是温度标量；ˆoc(x)是ˆo(x)的一个元素。0表1：测试集的两部分的错误分析。e(o)，e(n)分别表示被错误预测的旧样本和新样本的数量。具体而言，对旧样本的错误分析如下：e(o, n)，e(o,o)分别表示被错误分类为新类别或其他旧类别的旧样本的数量。0e(n) e(o) e(o, n) e(o, o)0CE 314 5,360 4,027 1,333 CE + KD 3835,326 4,314 1,0120ˆo(x) = [ˆo1(x), ...,ˆoCb_old(x)]^T，表示旧模型在先前的增量步骤中获得的输出logits；oc(x)是o(x)的一个元素，o(x) = [o1(x), ...,oCb_old(x), oCb_old+1(x), ...,oCb_old+Cb(x)]^T，表示当前模型的输出logits。注意样本(x,y)来自新数据和回忆数据。然后，在训练过程中，特征提取层和FC层的参数都使用公式（1）中定义的组合损失进行更新。03.2. 知识蒸馏的影响0基线方法在类别增量学习中被广泛使用。然而，对于知识蒸馏的作用缺乏明确的分析。为了做到这一点，我们在CIFAR-100 [19]上进行了实验，其中有5个增量步骤（B =5），每个步骤有20个类别（Cb = 20，b =1，...，5）。我们使用两种方法进行类别增量学习：（a）使用交叉熵损失；（b）同时使用交叉熵损失和蒸馏损失。经过5个增量步骤后，我们评估了使用方法（a）和（b）训练的两个模型。测试集包含两部分，一部分包含80个旧类别，另一部分包含20个新类别。表1报告了测试集的两部分的错误分析。新部分有2000个测试样本，旧部分有8000个样本。可以看出，两种方法在旧类别方面的性能都非常差，这表明它们已经失去了识别旧数据的能力。我们进一步分析了旧数据的错误分类类型。如表1所示，组合损失减少了被错误分类为其他旧类别的旧样本数量：1,012（CE +KD）与1,333（CE）。这与知识蒸馏的原始意图一致，即保留旧模型的知识。然而，对于新类别的预测偏差并没有减轻：有更多的旧样本被错误分类为新类别：4,314（CE +KD）与4,027（CE）。为什么使用蒸馏损失训练的模型对新类别更严重？重新审视蒸馏损失后，我们发现将旧样本错误分类为新类别的代价小于将旧样本错误分类为其他旧类别的代价。如果旧样本被错误分类为新类别，蒸馏损失会减小。where the (Cbold + Cb)-dimensional vector o(x) representsoutput logits of the current model; φ(·) is a feature extrac-tion function (can be a CNN-based model usually), whichoutputs d-dimensional feature vectors; W ∈ Rd×(Cbold+Cb)oc(x) = wTc φ(x),(5)132110W0!�0�!0�#$0保持区分性保持公平性0� �!"##$!%$&0CNN0新类别旧类别0对于旧类别0图例：0对于新类别0WA0图3：我们解决类别增量学习问题的概述。在第一阶段，我们使用交叉熵损失（L_CE）和蒸馏损失（L_KD）训练模型。在第二阶段，我们通过权重对齐（WA）纠正训练模型中的偏差权重。o和ˆo分别表示当前模型和旧模型的输出logits，y表示真实标签，o_corrected表示使用WA进行纠正的输出logits。0仍然可以很低，因为{q_c(x), c = 1, ∙ ∙ ∙ , C_bold}仅在与旧类别对应的输出之间计算。然而，如果它们被错误分类为其他旧类别，蒸馏损失将很高，因为输出概率分布肯定与目标分布不一致。因此，模型更倾向于将旧样本误分类为新类别。0基于以上分析，我们认为蒸馏损失的积极效果是保持旧类别内的区分度，从而在旧类别内减少错误分类。然而，模型仍然对新类别存在预测偏差。知识蒸馏在这里的积极效果是有限的。此外，如果有超过两个增量步骤，即 B >2，那么“不良”模型将成为下一个增量步骤中的教师模型，然后偏差将累积，从而进一步限制积极效果。04. 方法论0我们的方法包括两个阶段，如图所示03.第一阶段是保持区分性。在这个阶段，我们使用组合损失在新数据和回放数据上训练一个新模型。我们希望通过知识蒸馏将旧模型的知识传递给新模型，并在旧类别内保持区分度。0由于知识蒸馏损失仍然不能帮助模型公平地处理旧类别和新类别，如第3.2节所示，我们设计了第二阶段，称为“维护公平性”。在这个阶段，我们提出了一种名为权重对齐（WA）的方法来纠正第一阶段训练的模型。修正后的模型公平地对待旧类别和新类别，并且可以显著提高整体性能。04.1. FC层中的偏差权重0如第3.2节所示，通过基线方法训练的模型仍然倾向于将测试样本预测为新类别。为了方便研究这个问题，我们将模型的FC层在第b个增量步骤中表示为以下形式：o(x) =W^Tφ(x)，(4)0权重代表了可以表示为 W = {w_c, 1 ≤ c ≤ C_b old + C_b}的权重，其中 w_c 是第 c 个类别的 d维权重向量。注意，为了方便分析，我们总是将FC层中的偏置项设置为零，没有特殊说明，这将在消融研究中讨论。我们在CIFAR-100上进行了5个增量步骤和每个步骤20个类别的实验。每个步骤之后，我们计算权重向量{w_c}的范数，并在图4中绘制它们。如图4(b)、(c)、(d)和(e)所示，新类别的权重向量的范数远大于旧类别的范数。这种现象主要是由类别不平衡引起的[9,21]。由于第c个类别的输出logits的计算方式为0如果新类别的权重向量的范数较大，则新类别的输出logits通常会更大。结果是，训练的模型可能会倾向于将输入图像预测为属于新类别。然而，如图4（a）所示，在第一阶段中，权重向量的范数大致相等，因为这个阶段实际上与类别增量学习无关。我们将这视为先验知识。类别增量学习中的现象与这个先验知识不符，这启发我们纠正偏置权重。��Wold = (w1, w2, · · · , wCbold) ∈ Rd×Cbold,Wnew = (wCbold+1, · · · , wCbold+Cb) ∈ Rd×Cb.Normold = (||w1||, · · · , ||wCbold||),Normnew = (||wCbold+1||, · · · , ||wCbold+Cb||).�Wnew = γ · Wnew,(6)γ = Mean(Normold)Mean(Normnew),(7)o(x) =� oold(x)onew(x)�=� WTold φ(x)WTnew φ(x)�(8)ocorrected(x) =� WTold φ(x)WTx132120(e) C 5 = 20 , C 5 old = 80 图4：权重向量 { w c } 的范数。 (a)第一步的结果（20个基类），不对应于类别增量学习；(b)、(c)、(d)和(e)分别是第二、第三、第四、第五个增量步骤的结果，显示新类别的权重向量的范数要大得多。（最好以彩色查看）04.2. 权重对齐0基于上述内容，我们提出了一种简单有效的方法，称为权重对齐（WA），来纠正全连接层中的偏置权重。在WA中，新类别的权重向量的范数与旧类别的范数对齐。首先，我们将全连接层中的权重重写为以下形式：W = ( W old , Wnew ) ,0其中0然后，我们分别将旧类别和新类别的权重向量的范数表示如下：0基于上述范数，我们通过以下方式对新类别的权重进行归一化：0其中0Mean ( ∙ )返回向量中元素的平均值。通过这种方式，新类别的权重向量的平均范数与旧类别的平均范数相同。需要注意的是，我们只使平均范数相等，换句话说，在新类别（或旧类别）中，权重向量的范数的相对大小不会改变。这样的设计主要用于确保新类别（或旧类别）内的数据能够很好地分离。我们方法第一阶段训练的模型的原始输出logits可以表示为：0应用WA对权重进行修正后，修正后的输出logits如下所示：0�0=WToldφ(x)∙WTnewφ(x)0γ∙oold(x)∙onew(x)0（9）0如公式（9）和公式（7）所示，对齐权重的最终效果是通过一个系数对新类别的输出logits进行重新缩放。后续实验表明，我们的方法可以有效地减轻预测偏差。04.3. 限制权重0实际上，新类别的权重向量的范数与旧类别的权重向量的范数之间的大小关系并不总是反映出旧类别的输出logits与新类别的输出logits之间的大小关系。假设特征提取函数提供的特征向量的元素都是非负的。这个假设是合理的，因为在通常的模型架构中，学习到的特征是由'ReLU'函数激活的，即ReLU(x) = max(0,x)，它返回非负值。由于权重向量{wc}通常包含正负元素，具有较大绝对值的负元素会对权重向量的范数产生较大的贡献。然而，它们并不有利于产生较大的输出logits。因此，为了使权重向量wc的范数更一致地与其相应的输出logits，我们将权重向量wc的元素限制为正数。为了实现这一点，可以在每次优化步骤之后执行权重剪裁[2]。将权重限制为FC层中的正数将在消融研究中进行分析。05. 实验05.1. 实验设置0我们在ImageNet ILSVRC2012[27]和CIFAR-100[19]上评估了这些方法，这些数据集在研究中被广泛使用。132130表2：在CIFAR-100上进行的类别增量学习性能（top-1准确率%），每个步骤增加5个步骤，每个步骤增加20个类别。在变体1的基础上的增益也在括号中报告。'Full'是使用所有类别的所有训练数据获得的。除了第一个步骤外，还报告了所有增量步骤的平均结果。0#类别 20 40 60 80 100 平均0变体1（CE）83.5 70.7 58.2 49.2 43.3 55.3 变体2（CE + WA）83.574.3（+3.6）64.0（+5.8）56.9（+7.7）50.8（+7.5）61.5（+6.2）变体3（CE + KD）83.572.8（+2.1）60.1（+1.9）49.9（+0.7）42.9（-0.4）56.4（+1.1）变体4（CE + KD + WNL）83.172.3（+1.6）61.6（+3.4）53.1（+3.9）46.0（+2.7）58.2（+2.9）我们的方法（CE + KD + WA）83.575.5（+4.8）68.7（+10.5）63.1（+13.9）59.2（+15.9）66.6（+11.3）0Full – 70.1 –0类别增量学习的研究[5,26,33]。ImageNet ILSVRC2012是一个包含1,000个类别的大规模数据集，包括约1.2百万张用于训练的图像和5万张用于验证的图像。CIFAR-100包含100个类别的32×32像素彩色图像。它包含50,000张用于训练的图像，每个类别500张，以及10,000张用于评估的图像，每个类别100张。我们的方法使用Pytorch[24]实现。代码将公开提供。对于ImageNet，我们采用18层ResNet[10,11]。我们使用SGD来训练模型，并将批量大小设置为256。学习率从0.1开始，在30、60、80和90个epoch后降低为前一个学习率的1/10（总共100个epoch）。对于CIFAR-100，我们使用32层ResNet。我们也使用SGD来训练模型，并将批量大小设置为32。学习率从0.1开始，在100、150和200个epoch后降低为前一个学习率的1/10（总共250个epoch）。我们将温度标量T设置为2。对于数据增强，采用随机裁剪、水平翻转和归一化来增强训练图像。05.2. 权重对齐的效果0为了分析权重对齐的效果，我们在CIFAR-100上进行了实验，每个步骤增加5个步骤，每个步骤增加20个类别。我们首先将我们的方法与以下三种变体进行比较：变体1，使用交叉熵损失进行训练；变体2，使用交叉熵损失进行训练，并通过WA对模型进行校正；变体3，使用组合损失进行训练；我们的方法，使用组合损失进行训练，并通过WA对模型进行校正。表2总结了这些实验的结果。变体1是最差的，因为它只使用了交叉熵损失。变体3在变体1的基础上增加了蒸馏损失以减轻灾难性遗忘。然而，变体3只比变体1稍好一点。变体2使用WA根据变体1对模型进行校正，并显著提高了性能（在类别增量学习结束时整体性能提升了7.5%）。从“我们的”结果来看，WA也获得了显著的改进（在类别增量学习结束时超过16%）。0这些结果表明，WA对于类别增量学习非常有效。值得注意的是，KD和WA的组合带来的收益大于单独使用每个组件带来的收益之和，例如，对于平均结果，组合（Ours）的收益为11.3%，而单独使用WA（Variation2）和KD（Variation3）的收益分别为6.2%和1.1%。如3.2小节所示，当单独使用KD时，其正面效果有限。KD有助于模型在旧类别中输出更具区分性的结果，然而，这些输出被新类别的优越输出所压倒。例如，如图2所示，借助KD的帮助，‘cat’的输出概率变得高于‘fish’，但仍低于新类别‘lion’或‘dog’的输出概率。在这种情况下，KD的正面效果被隐藏起来。由于我们的方法不仅在旧类别内保持了区分性，而且在旧类别和新类别之间保持了公平性，因此它增强了KD的正面效果。另一方面，通过WA进行的纠正输出在KD的帮助下更加准确。因此，我们的方法创造了“一加一大于二”的效果，并取得了显著的改进。不同方法的混淆矩阵如图5所示。从图5（a）和（c）可以看出，KD导致旧类别之间的误分类较少，然而，Variation1和Variation3倾向于将对象预测为新类别。借助WA的帮助，Variation2和我们的方法使模型在新类别和旧类别之间公平对待，如图5（b）和（d）所示。我们的方法在KD的帮助下实现了更好的性能。这些结果直观地显示了所提出的方法在模型预测中有效地保持了区分性和公平性。所提出的方法权重对齐是一种后处理技术。有趣的是，看到直接在权重（在FC层中）上添加归一化层的效果，类似于Modi�ed Softmax Loss [21]和NormFace[31]中的操作，以便所有类别的权重都具有单位范数。我们将这种方法实现为Variation132140未找到翻译0未找到翻译0（a）Variation1（CE）0未找到翻译0未找到翻译0（b）Variation2（CE + WA）0未找到翻译0未找到翻译0未找到翻译0未找到翻译0（d）Ours（CE + KD +WA）图5：不同方法的混淆矩阵。0使用联合损失和权重归一化层（WNL）进行训练。结果也在表2中提供。与Variation1和Variation2相比，该方法并没有带来显著的改进。实际上，全连接（FC）层在视觉表示转换中起着重要作用。如果在训练过程中严格限制FC层中的权重，以适应新数据，那么特征提取层中的偏差将变得更加严重。然而，特征提取层中的偏差比FC层的权重更难纠正，因为特征提取层的参数被所有类别共享，而FC层的权重在类别之间不共享。因此，最好采用后处理方法，如WA。此外，我们还测试了在通常的训练过程之后将所有类别的权重归一化为单位范数的方法。然而，这种方法不如WA。如4.2小节所述，在新类别（或旧类别）中，WA不会改变权重向量的范数相对大小，这样的设计可以保持差异并确保类别之间可以很好地分离。05.3. 与其他方法的比较0我们将我们的方法与几种有竞争力或代表性的方法进行比较，包括LwF.MC [ 20 , 26 ]，iCaRL [ 26 ]，EEIL [ 5 ]，BiC[ 33 ]，IL2M [ 3 ]，RPS [ 25]。在ImageNet和CIFAR100上进行评估。在ImageNet上进行评估。我们在该数据集上进行了两个实验。在第一个实验中，随机选择了100个类别（ImageNet-100），并将其分为10个增量批次，每个批次包含10个类别；在第二个实验中，我们将1000个类别（ImageNet-1000）分为10个增量批次，每个批次包含100个类别。为了公平起见，0表3：ImageNet（1,000个类别和100个类别）上的类别增量学习性能（前5准确率％），有10个增量步骤。这里报告了最后一个增量步骤的性能以及除第一个步骤外所有增量步骤的平均结果。比较方法的结果在原始论文中报告。0#类别 1000 1000最后平均最后平均0LwF.MC [ 20 , 26 ] 24.3 42.5 36.6 60.7 iCaRL [ 26] 44.0 60.8 63.8 81.8 EEIL [ 5 ] 52.3 69.4 80.2 89.2BiC [ 33 ] 73.2 82.9 84.4 89.8 IL2M [ 3 ] – 78.3 – –RPS [ 25 ] – – 74.0 86.6 我们的方法 81.1 85.7 84.190.20完整 89.1 – 95.1 –0为了公平起见，我们在ImageNet-100和ImageNet-1000中使用与之前的工作[33]相同的类别集合。我们在ImageNet-100实验中存储了2,000张旧类别的图像。在ImageNet-1000实验中，我们存储了20,000张旧类别的图像，与之前的工作相同。我们根据牧羊选择[32]选择回顾样本，这也与之前的工作相同。看到更多的类别后，每个类别可以保留的图像越少。因此，类别不平衡的问题变得更加严重。在ImageNet-100和ImageNet-1000上的类别增量学习结果（前5准确率％）如表3所示。我们报告最后一个增量步骤的性能以及除第一个步骤外所有增量步骤的平均结果（因为第一个步骤实际上与类别增量学习无关）。我们还在补充材料中提供了所有增量步骤的详细结果和前1结果。从这些表中可以看出，所提出的方法在很大程度上优于比较方法，特别是在大规模数据集ImageNet-1000上。与最先进的方法BiC相比，所提出的方法在类别增量学习结束时也取得了更好的结果（在ImageNet-1000上超过7.9%）。尽管Eq.(9)在形式上与BiC中的线性模型类似，但所提出的方法不需要保留一个用于学习附加参数的验证集，所有的回顾数据都可以用于学习更好的特征提取器，因此所提出的方法可以优于BiC。总的来说，这些结果表明所提出的方法对于处理类别增量学习中的灾难性遗忘是有效的。我们的方法不仅可以取得更好的性能，而且结构更简单。132150表4：CIFAR100上的类别增量学习性能（前1准确率％），有2、5、10和20个增量步骤。这里报告了除第一个步骤外所有增量步骤的平均结果。0#增量步骤 2 5 10 200LwF.MC [ 20 , 26 ] 52.6 47.1 39.7 29.7 iCaRL [26 ] 62.0 63.3 61.6 59.7 EEIL [ 5 ] 60.8 63.763.6 63.4 BiC [ 33 ] 64.9 65.1 63.5 62.1我们的方法 65.1 66.6 64.5 62.60完整 70.10在CIFAR-100上进行评估。CIFAR-100有100个类别，我们将其分为2、5、10和20个增量批次进行实验。与所有比较方法一样，CIFAR-100的类别集合也是相同的。在CIFAR-100实验中，我们总共存储了2,000个样本，与之前的工作相同。这里报告了除第一个步骤外所有增量步骤的平均结果。所有增量步骤的详细结果在补充材料中报告。在CIFAR-100上，这些方法取得了类似的结果，这主要是因为该数据集很简单[33]。与ImageNet上的结果一致，所提出的方法在不同设置下与最先进的方法相比在CIFAR-100上取得了更好的结果。05.4. 割舍研究0在本小节中，我们分析了我们方法的各个组成部分的影响。更多分析可以在补充材料中找到。对权重限制的影响。我们研究了将全连接层中的权重限制为正值对ImageNet-100进行了10个增量步骤的影响。如图6(a)所示，我们的方法在限制权重的情况下获得了更好的性能。如第4.3节所讨论的，这主要是由于当将权重限制为正值时，权重向量的范数与其相应的输出logits变得更加一致，从而使得通过公式（7）获得的比例因子γ更准确地抑制新类别的输出logits。范数选择的影响。我们研究了所提出方法中不同范数的影响。我们比较了1范数和2范数。图6(b)显示了结果。1范数和2范数达到了类似的结果，这表明我们的方法对范数选择不敏感。全连接层中的偏置项的影响。我们研究了偏置项的影响。在有偏置项的情况下，所提出的方法仍然通过公式（7）根据权重信息计算比例因子γ，并将其应用于输出logits。0在本文中，我们研究了类增量学习的性能。0未找到翻译0未找到翻译0(a) 对权重限制的影响0在本文中，我们研究了类增量学习的性能。0未找到翻译0未找到翻译0(b) 范数选择的影响0在本文中，我们研究了类增量学习的性能。0未找到翻译0未找到翻译0在本文中，我们研究了类增量学习的性能。0未找到翻译0未找到翻译0(d) 样本选择的影响图6：割舍研究中ImageNet-100的类增量学习性能（前5准确率%）。0对于新类别，即从权重信息中获得的标量因子γ同时用于全连接层中的权重项和偏置项。我们比较了使用和不使用全连接层中的偏置项的方法。图6(c)显示了结果。我们可以看到全连接层中的偏置项只能稍微影响性能。样本选择策略的影响。我们研究了样本选择策略的影响。考虑了随机选择和聚集选择。图6(d)显示了结果。我们可以看到样本选择策略只能稍微影响性能。06. 结论0类增量学习的目标是在新数据上获得理想的结果，同时保留先前学到的经验。在本文中，我们研究了类增量学习中的灾难性遗忘问题。我们展示了知识蒸馏在这个问题中的实际作用以及全连接层中的严重偏置权重。我们提出了一种简单有效的解决方案来解决灾难性遗忘问题，通过知识蒸馏来保持区分性，并通过一种称为权重对齐的方法来保持公平性。在ImageNet-1000、ImageNet-100和CIFAR-100上的实验结果表明，所提出的方法比之前的方法具有更好的性能。这项工作可能表明，在训练模型中隐藏着许多有用的信息值得探索。0致谢本工作部分得到广东省自然科学基金（2018A030313422），国家自然科学基金（61972219，61771273），国家重点研发计划（2018YFB1800204，2018YFB1800600），广东省重点研发计划（2019B010136001），广东省科技计划项目（LZC0023，LZC0024），深圳市研发计划（JCYJ20190813174403598，JCYJ20180508152204044）以及PCL未来区域网络设施大规模实验和应用研究基金（PCL2018KP001）的支持。132160参考文献0[1] Rahaf Aljundi，Francesca Babiloni，MohamedElhoseiny，Marcus Rohrbach和TinneTuytelaars。记忆感知突触：学习什么（不）要忘记。在欧洲计算机视觉会议(ECCV)论文集中，第139-154页，2018年。1，20[2] Mart´ın Arjovsky，Soumith Chintala和L´eonBottou。Wasserstein gan。ArXiv，abs/1701.07875，2017年。50[3] Eden Belouadah和AdrianPopescu。Il2m：具有双重记忆的类增量学习。在国际计算机视觉会议(ICCV)上，2019年10月。2，70[4] Mateusz Buda，Atsuto Maki和Maciej A.Mazurowski。卷积神经网络中类不平衡问题的系统研究。神经网络：国际神经网络学会的官方期刊，106：249-259，2018年。20[5] Francisco M Castro，Manuel J Mar´ın-Jim´enez，Nicol´asGuil，Cordelia Schmid和KarteekAlahari。端到端增量学习。在欧洲计算机视觉会议(ECCV)论文集中，第233-248页，2018年。1，2，6，7，80[6] Sebastian Farquhar和YarinGal。连续学习的统一贝叶斯观点。arXiv预印本arXiv:1902.06494，2019年。20[7] Robert M.French。连接主义网络中的灾难性遗忘。认知科学趋势，3：128-135，1999年。1，20[8] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和YoshuaBengio。生成对抗网络。在神经信息处理系统中的进展，第2672-2680页，2014年。20[9] Yandong Guo和LeiZhang。通过促进少数类别进行一次性人脸识别。ArXiv，abs/1707.05574，2017年。40[10] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议(CVPR)，第770-778页，2015年。1，60[11] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差网络中的身份映射。ArXiv，abs/1603.05027，2016年。1，60[12] Geoffrey Hinton，Oriol Vinyals和JeffDean。提取神经网络中的知识。arXiv预印本arXiv:1503.02531，2015年。1，20[13] Saihui Hou，Xinyu Pan，Chen Change Loy，ZileiWang和DahuaLin。通过重新平衡逐步学习统一分类器。在IE

下载后可阅读完整内容，剩余1页未读，立即下载