渐进式学习中的稳定性与可塑性平衡

170 浏览量更新于2023-10-13 收藏 938KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1124班级渐进式学习的稳定性与可塑性平衡Guile Wu，Shaogang Gong，and PanLi伦敦玛丽女王大学{guile.wu，s.gong，pan.li} @ qmul.ac.uk摘要类增量学习（CIL）的目的是用新类（可塑性）不断更新训练模型，而不会忘记以前学习的旧类（稳定性）。目前的研究主要采用存储代表性样本进行排练或防止合并模型参数漂移的方法，但前者需要额外的空间来存储每个增量阶段的样本，而后者通常表现出较差的模型泛化能力。在本文中，我们专注于解决类增量学习中的稳定性-可塑性困境，其中没有存储旧类的样本。在学习新信息和维护旧信息100806040200100806040200（a）微调（b）嵌入-修复100（前1名/%）806040200P1 P2(c) （d）我们的方案（妇地会）知识，我们重新制定了一个简单而有效的基线方法的基础上余弦分类器框架和recip-rocal自适应权重。在此基础上，我们提出了两种新的CIL学习方法：类独立知识学习和多视角知识学习。前者利用独立于类的知识作为学习新类和旧类的桥梁，后者从不同的角度学习知识以促进CIL的发展。在几个广泛使用的CIL基准数据集上进行的大量实验表明，我们的方法优于最先进的方法。1. 介绍人类有能力逐步学习看不见的新类别，而不会忘记已经学习过的旧类别，以实现终身学习。类增量学习（CIL）类似于这种能力，旨在用新类的样本不断更新训练模型，而不会忘记旧类[42，44，32]，其中旧类的样本不可用或仅部分可用。然而，这对机器来说不是一个微不足道的任务。如果我们直接用来自新类的样本对训练模型进行微调，它将过拟合新类，而忘记旧类（见图1）。1（a））;如果我们固定图1.类增量学习中的稳定性-可塑性困境，通过嵌入的top-1准确性和t-SNE [35]可视化来说明。在CIFAR-100上，我们在第一阶段（P1）随机使用50个班级进行训练，然后在第二阶段（P2）增加5个班级进行(a)直接微调训练模型会导致对新类的过拟合;（b）修复训练模型不能正确地将新类的知识并入模型中;（c）和（d）我们的方法在稳定性和可塑性之间取得平衡，从而产生更好的性能。一个训练过的模型，如果没有对新类进行进一步的训练，它就不能结合新类的知识来提高它的泛化能力（见图2）。（b）款。这是一个稳定性-可塑性困境[3，14]为了解决这个问题，许多CIL研究[32，26，2]重新排序，以存储一些代表性的样本，用于基于排练的模型学习，并使用蒸馏损失[15，40]进行知识转移。然而，这种方法在许多资源有限的场景中是不实际的，因为它需要存储旧类的样本。此外，用少量旧样本训练模型会导致类不平衡学习问题[41，18]。而不是存储(top1/%）P1 P2(top1/%）P1 P2100（前1名/%）806040200P1 P21125旧的范例，一些作品[20，1，25]提出分析模型参数的重要性，以防止合并参数漂移。但在长序列增量学习中，由于模型参数的限制，该方法的模型泛化能力较差最近，一些研究转向使用更好的蒸馏策略（例如，注意力蒸馏[7]）或补偿嵌入空间中的语义漂移[42]，但它们仍然未能在学习新信息和维护旧知识之间做出更好的权衡。在本文中，我们专注于解决CIL中没有存储旧类样本的稳定性-可塑性困境。为此，我们重新制定了一个模拟-简单而有效的基线方法（称为SPB）在学习新信息和维护旧知识之间进行权衡。SPB建立在余弦分类器框架[30]和倒数自适应权重上，用于将新类别的知识逐步纳入模型并有效对齐特征嵌入空间。先前的研究[30，38，18]已经显示了基于余弦分类器的模型对于同时优化嵌入空间和类原型（即，余弦分类器的权重），但它们仍然不能很好地解决CIL中的稳定性-可塑性困境，特别是在没有存储样本的情况下。在这项工作中，重新制定的SPB基线通过调节模型优化中的新旧类知识之间的平衡来解决问题，从而在提高可塑性和保持稳定性之间进行权衡。在改进的SPB基线法的基础上，我们提出了两种新的方法来进一步平衡CIL的稳定性和可塑性。首先，传统的CIL研究大多集中在学习知识上但是忽略了新类和旧类通常不重叠的事实，从而导致次优性能。因此，为了在新老类之间建立一个桥梁，我们提出了一个SPB-I方法，将类独立学习者整合到SPB中学习类独立知识。这种类独立学习器提供了额外的实例级监督，因此SPB-I利用更多的判别信息作为独立于类标签学习新类和旧类的桥梁，从而获得更好的性能（参见图11）。（c）第1段。其次，由于来自旧类的样本不被存储，因此保留来自不同视角的样本的更丰富的知识可以有助于提高对旧类和新类的理解因此，我们提出了一种SPB-M方法，通过多次变换每个样本以生成多视角信息并使用多个余弦分类器来聚合知识，从而从多个视角1利用1（d））。1我们将样本的每个变换称为捐款. 与重新制定的基线方法（SPB）解决CIL的稳定性和可塑性的困境，我们引入了两个新的方法（SPB-I和SPB-M），以进一步取得平衡之间的稳定性和可塑性。在SPB-I中，我们将一个独立于班级的学习者融入到SPB中，用于学习与班级无关的知识，以建立新班级和旧班级之间的桥梁。在SPB-M中，我们从不同的角度开发了更丰富的样本知识，以提高对新旧类的理解。我们的实验表明，我们的方法（SPB，SPB-I和SPB-M）优于国家的最先进的方法在不同的CIL任务。2. 相关工作任务增量学习。增量学习是模型从以顺序方式呈现的新数据中不断学习的能力[24，32，2]。传统的研究[24，17，1]普遍采用任务增量学习方式，其假设在评估期间任务标签的可用性，并针对不同的任务优化不同的特定头部（分类器）。Li等[24]提出了一个学习无遗忘框架，通过提取新的和旧的任务分类器之间的知识边缘。Aljundi等[1]引入无监督方式以防止重要模型参数在增量学习期间被覆盖然而，任务标签在实践中并不总是可用的，这使得难以选择用于部署的类增量学习。最近的工作[32，42，18]倾向于以类增量学习的方式解决增量学习，其中任务标签在评估期间不可用。为了解决课堂增量学习过程中的灾难性遗忘，最流行的方法之一[44，41，4]是存储代表性的样本进行排练，并使用蒸馏损失将知识从旧模型转移到新模型。然而，在某些情况下，维护样本可能是不切实际的并且昂贵的（例如，一些存储有限的设备）。此外，优化具有大规模新数据和少量旧数据的模型将导致类不平衡学习问题[41，18]，从而导致性能下降。作为存储样本的替代方法，GAN [11]可以用于即时合成旧类的样本[12]，但由于生成的样本质量低，它通常会导致性能不佳。另一方面，一些研究[7，42]建议使用新数据不断更新模型，而不存储旧样本。在[42]中，Yuet al.修改一些基于参数的增量学习方法[20，1]，通过优化嵌入空间进行分类来进行类增量学习。这些基于参数的方法估计模型参数的重要性，并使训练好的模型适应新的类1126测试准确度（top1/%）·∩∩L作为LLLL LLc∈CiL L −C1JJ1J11个相位（i>1），我们只有样品从新c∈CiC通过防止参数漂移。虽然它们不需要存储旧样本，但由于模型参数的限制，它们通常无法在[42]中，Yuet al.提出语义补偿10080604020老新ℒem ℒce32110080604020老新ℒem ℒce321旧类的原型的漂移使用新类的样本类，但他们仍然未能取得良好的平衡之间01 2 3 4 5 6（阶段）00 1020304050（epoch）01 2 3 4 5 6（阶段）00 10 20 30 40 50（epoch）(a) SPB w/o RAW.（b）SPB w/RAW。学习新的和旧的知识。我们的工作属于类增量学习，不存储任何旧类的样本。与现有方法不同的是，我们通过在学习新信息和保持旧知识之间进行权衡，来解决CIL中的稳定性-可塑性困境。到图2. SPB的倒数自适应权重（RAW）的效果的图示（在CIFAR-100（6个相位）上，参见§ 4中的实验的细节）。在RAW的情况下，训练损耗Lce和Lem被调制，从而导致更好的权衡。基线方法。在第i阶段，给定一个训练好的这一点，与一个重新制定的简单而有效的基础-线的方法，我们介绍了两种新的方法，毛皮-对于来自旧类的样本（{X1，… Xi−1}），我们使用通过学习独立于类的知识和学习多视角的知识，在稳定性和可塑性之间取得平衡。3. 方法问题陈述。在这项工作中，我们考虑类增量学习（CIL），其中没有存储旧类的样本，并且在学习过程中没有任务标签可用。ing评价。我们称每个多类顺序学习过程为一个在第一阶段，有它从新的类（Xi）中提取样本的归一化嵌入。然后，对于每个新的类，我们通过计算属于这个类的归一化嵌入的平均值来生成一个原型，并使用这个原型来初始化动态扩展余弦分类器中的分类权重向量在初始化余弦分类器的权重之后，我们使用Xi训练模型，并通过对来自特征提取器φ（）的分类器w_c，其被公式化为：exp（η·cos（φ（x），wc））没有旧类，因此模型是用样本从基类X ={（x，y），j={1，…Mn}，y ∈C}，p（x）=Σexp（η·cos（φ（x），w））不（一）其中xj是来自类yj的样本，C1是基类，Mn是样本的数量。然后在我-=exp（η·φ（x）wc），Σexp（η·φ（x）Tw）类Xi={（xj，yj），j={1，.，Mn}，yj∈Ci}，而sam-φ（ x）WC从旧类中提取的ples{我X1，…Xi-1}不可用。其中φ（x）=φ（x）且wc=wc 是l2-归一化vec-对于样本x的嵌入向量φ（x），这里C1Ci=，即新老阶级没有重叠。我们的任务是用新类（C1）不断更新训练模型，而不会忘记先前学习的旧类（{C1，… Ci−1}）。各阶段评价.，Ci−1，Ci}）。3.1. SPB：一种简单有效的解决CIL如前所述，以前的研究[30，38，9，18]已经显示了基于余弦分类器的模型用于动态识别新类别的有效性。在[30]中，Qiet al.在最后一层中采用余弦归一化，并使用归一化的嵌入来印记余弦分类器的权重以用于少量识别。在[18]中，Hou等人将这个想法引入到具有排练范例的增量学习中，以减轻对新类和旧类的偏见但是这些方法在没有样本存储的情况下仍然不能很好地解决CIL中的稳定性-塑性困境。因此，为了在学习新信息和旧信息之间进行权衡，我们重新制定了分类权重wc，η是一个可学习的标量参数，用于控制概率分布的峰值，因为余弦相似性的范围被限制在[-1，1] [9]。为了学习新的分类信息并优化可学习的原型，我们使用p（x）来计算交叉熵损失ce。为了将知识从旧模型转移到新模型，我们将新模型（φ（x）n）和旧模型（φ（x）o）的归一化嵌入[19，39]之间的距离限制为嵌入监督损失em，即，em=φ（x）nφ（x）o 2。因此，可以确定=ce+em。然而，这一目标不能很好地适应类增量学习，因为它没有考虑旧知识和新信息的数量。它很容易导致对新类的过拟合（见图1）。2（a）），特别是当有很多旧类和只有几个新类的时候。为了缓解这个问题，我们使用互逆自适应权重来基于新类的数量Nnc和旧类的数量Noc来调制ce和em：一个简单而有效的基线方法建立在一个余弦类-NNCNocsifier框架和倒数自适应权重。L=NocLce+N nc Lem。（二）测试准确度（top1/%）训练损失（P2）训练损失（P2）1127LL§LLLLLLNoc+LLL特征ReLU对比学习FC足球俱乐部（b）进行对比学习的独立于班级的学习者F新模式(a) 所提出的SPB-I方法的框架（c）用于自监督旋转预测的类独立学习器。图3.概述了所提出的SPB-I用于学习类独立知识。(a)SPB-I与类级监督、嵌入式监督和实例级监督联合优化。（b）和（c）是班级自主学习者的架构设计在这个公式中，当新类的数量占主导地位时，我们的模型倾向于从新类中学习更多的信息以提高第2段（b）分段）。请注意，该公式与[18]的不同之处在于，我们使用倒数自适应权重来调节ce和em以解决稳定性-可塑性困境，而不是使用具有排练范例的综合学习目标来解决不平衡学习问题。实验4.3 验证重新制定的SPB基线的性能明显优于LUCIR[18] w/o存储的样本，并且与LUCIR w/存储的样本相当。3.2. 学习课堂独立知识虽然重新制定的SPB基线可以应付的稳定性和可塑性的困境，它没有建立一个桥梁之间的学习新的和旧的类，通常是不重叠的。直观地说，我们可以维护一些独立于类的知识，这样新类中的样本规范化空间中的对比学习。由于归一化嵌入空间中的样本的嵌入向量位于单位超球面上，因此利用更多实例级知识的直接方法是将每个实例拉近其正变体并推开其他（负）实例。这可以通过对比学习损失来实现[6，28]。虽然传统的自监督对比损失被用作无监督表示学习的借口任务，但我们使用它来提供实例级监督（in），以鼓励模型学习与类无关的知识并与其他损失共同优化它。如图3（b），我们使用两个完全连接的层[6]作为类独立学习器来将归一化嵌入映射到潜在空间（例如实验中的为了生成每个样本x的正变量，我们对x执行额外的强输入变换[6]并生成正对（x，x′），而其他实例及其变换被视为阴性（Xng）。因此，Lin被公式化为：exp（δ（φ（x））Tδ（φ（x′））/τ）具有与旧班为此，我们提出了一个SPB-I方法，通过在-Lin=−logΣxt∈{Xng，x'}exp（δ（φ（x））、δ（φ（xt））/τ）将独立于类的学习器合并到SPB中，以提供实例级监督（in），从而利用更丰富的独立于类的知识。这与[43]不同，[43]学习先验信息以帮助具有简单旋转预测层的CIL。如图在图3（a）中，SPB-I与类级监督（ce）、嵌入式监督（em）和实例级监督（in）联合优化。由于in固有地学习与类无关的信息以提高稳定性和可塑性，因此优化目标（三）其中τ是温度参数（我们使用0. 1在这里）。在实践中，我们对每个样本执行额外的强输入变换β-1次（我们设置β=4）以生成它们的正变换并计算所有样本中的L归一化空间中的自监督旋转预测。在对比学习中，额外的强输入变换[6]可能会损害x用于分类的固有语义信息（Lce）。由于我们的实例级（等式。(2))公式为L=Nnc LNocNNCem+ Lin.监督与班级监督共同优化请注意，in也用于第一阶段，em应用于所有变换后的样本。接下来，我们讨论类独立学习器δ（·）的两种设计。和嵌入监督，类独立的知识应该与固有的语义信息兼容。几何变换是一个自然的解决办法冻结旧模型特征类别-独立学习者样品提取器分类器类级监督特征变换提取器分类器类-实例-独立的电平学习者监督嵌入式监管旧类别初始化压印正规化嵌入空间旧分类器权重新类旧类别新样本新的分类器权重不温度图残差残差余弦旋转基本块基本块分类器预测ce1128联系我们Noc+L§··L·cecer∈Rexp（η·δ（φ（R（x）（w/r）MPγce布问题.因此，我们构建了基于自我监督旋转预测的类独立学习器[10]。如图3（c）中，我们使用两个残差BasicBlocks [13，8]和一个余弦分类器将嵌入映射到潜在空间以进行旋转预测。我们在x上应用四个2D旋转变换R（）（R= 0◦，90◦，180◦，270◦），并计算旋转预测分数为：样品知识转移冻结旧模型初始化压印q（R（x））=exp（η·δ（φ（R（x））Twr）、（四）ΣT学习特征提取器旧类别新类从多-透视其中，Wr是旋转分类器r的L2归一化权重。我们使用q（R（x））来计算交叉熵损失作为知识实例级监督Lin.默认情况下，SPB-I使用此分类器新模式设计，获得更好的性能。备注。请注意，我们的目标不是扩大数据集通过使用额外的数据增强[6，10]，但要学习与类无关的知识，以建立一个桥梁-图4.概述了所提出的SPB-M，用于使用多视角分类器学习在所有相位中使用Lmp代替Lce，即，优化在学习新的和旧的类之间，所以我们不计算类级分类损失（Lce）目标（Eq.（2））被公式化为L=Nnc LNocNNCem.转化的样品。如实验4.3中所示，在那些另外变换的样本上计算Lce使性能劣化。此外，传统的自监督学习是表示学习的单独借口任务[6，10]，而在SPB-I中，对比损失或旋转预测损失与其他参数联合优化。CIL的损失实验比较见§4.33.3. 学习多视角知识当代的CIL研究大多集中在在应用标准数据扩充之后，样本直接用于学习新的和旧的知识。这阻碍了模型从多个视角理解旧类和新类，导致次优性能。为了解决这个问题，我们提出了一种SPB-M方法，通过学习SPB中的多视角知识，它具有[23]的优点，但我们在这里不使用自蒸馏具体地，如图所示。4，我们应用γ次固定输入变换Fb（）（例如，旋转R和γ=4）以生成样本的不同视角，并利用特征提取器Φ（）提取嵌入。接下来，不是使用单个分类器来对所有变换的样本进行分类，而是构造γ余弦分类器来学习每个透视知识。换句话说，具有特定变换的样本（例如，旋转90°）在特定透视分类器中学习。然后，我们使用交叉熵损失来计算多视角监督L_mp，定义为：γ1L=L，（5）b=1在这里，em应用于所有变换的样品。持续时间在评估中，我们使用固定的Fb（）来生成每个样本的γ-透视知识，并对来自透视分类器的每个样本的预测求和，这与[22]不同，[22]使用最大池化来生成具有多个变换特征的一个不变特征4. 实验为了评估我们的方法，我们在几个广泛使用的CIL基准数据集上进行了广泛评估指标。为了测量增量性能，我们采用了共同平均增量精度[32]，该精度对每个阶段中所有观察到的类别进行模型评估。我们报告了所有阶段的平均累积增量准确度，并绘制了每个阶段的增量准确度。所有结果在三次运行中取平均值竞争对手FT是一种直观的CIL方法，通过直接微调模型与新类的样本。联合是在每个阶段从新类和旧类中组合样本进行训练，这可以被认为是一个上限。LwF-E、EWC-E和MAS-E分别是用于CIL的LwF [24]、EWC[20]和MAS [1]的基于嵌入式网络的版本。正如[42]中所报道的，这些基于嵌入的版本比它们的原始版本表现得更好，所以我们在这里与嵌入版本进行比较。SDC[42]是用于基于嵌入网络的方法中的语义漂移补偿的最先进的CIL方法我们使用MAS-E作为SDC的主干。4.1. 增量式图像分类数据集。CIFAR-100包含100个类和60，000个其中Lb 是变换的SAM的交叉熵损失。图像，其中每个类包含500个训练图像pleFb（x）.这里，L1（旋转0◦）与Lce相同，因此我们100张测试图片ImageNet-Subset[33，32]包含100个新类旧类别新类旧类别新类旧类别...变换MPFe阿图尔e 分类器旧类别视角1特征旧类别提取器旧类别旧类别观点1129××------从ImageNet（1993年随机种子）和大约0.13M图像中随机采样的类。在[42，18]之后，我们使用随机种子（1993）来选择前50个类作为第一阶段，并将剩余的50个类均匀地分成K-1个阶段。训练图像在CIFAR- 100上大小为32 32，在ImageNet-Subset上大小为256 256。实施详情。在[42]之后，我们使用ResNet- 32和ResNet-18 [13]分别作为CIFAR-100和ImageNet-Subset的主干。类独立学习者的模块架构如下[6，8]。我们在两个数据集上用K=6和11个相位评估我们的模型，即在第一阶段之后，我们逐步添加10或5个新类方法CIFAR100K=6 K=11ImageNet-SubK=6 K=11FT联合22.373.412.673.223.682.013.282.7LwF-E [24，42]57.056.865.565.6EWC-E [20，42]56.355.465.264.1MAS-E [1，42]56.956.665.865.8SDC [42]57.156.865.665.7SPB（我们的）60.960.468.767.2SPB-I（我们的）62.662.770.169.8SPB-M（我们的）65.565.271.770.6表1.与CIFAR- 100和ImageNet-Subset上的最新方法进行比较报告所有阶段的平均累积增量在每个阶段。我们应用随机裁剪和水平翻转作为标准增强，并使用强变换（随机颜色抖动和灰度[6]）或旋转[10]作为额外的转换。我们使用SGD作为动量为0.9 的优化器（ CIFAR- 100 的权重衰减为 5e-4 ，ImageNet-Subset的权重衰减为1e-4）。在CIFAR-100上，第一阶段，我们训练模型160个epoch（批量大小为128）（前1位/%）90807060504030201001 2 3 4 5 6（阶段）（前1位/%）9080706050403020100123456789 10 11（阶段）(a)CIFAR100（K=6）（b）CIFAR100（K=11）并将学习率设置为0。1被0衰减。1，而在随后的阶段，我们训练50个时期，并将特征提取器的学习率设置为1 e-3，分类器的学习率设置为1 e-2（衰减0. 1，在30个时期）。在ImageNet-Subset上，在第一阶段，我们训练我们的模型为90个epoch（批量大小为128），并将学习率设置为0。1，衰减0。1在{30，60}个时期，而（前1位/%）90807060504030201001 2 3 4 5 6（阶段）（前1位/%）9080706050403020100123456789 10 11（阶段）在下一阶段，我们训练50个epoch（批量大小为64）并将特征提取器的学习速率设置为1 e-3，将分类器的学习速率设置为1 e-2（衰减0. 1，在30个时期）。与最新技术水平的比较。表1显示CIFAR-100和ImageNet-Subset上所有阶段的平均累积增量精度。总体而言，SPB、SPB-I和SPB-M实现了令人信服的性能。在CIFAR- 100上，重新制定的SPB基线将现有技术提高了约3%，而SPB-I和SPB-M分别进一步提高了约2%和5%的SPB。在ImageNet-Subset上，SPB、SPB-I和SPB-M的性能明显优于现有技术，其中SPB-M的性能最好。图5显示了CIFAR-100和ImageNet-子集上所有阶段的增量准确度图。我们可以看到，整体SPB（绿线），SPB-I（红线）和SPB-M（蓝线）在每个阶段都取得了更好的表现，更接近联合训练方法。4.2. 增量细粒度分类数据集。CUB-200-2011[37]是一个包含200个鸟类类别和11，788张图像的细粒度识别数据集。Flower-102[29]是另一个流行的细粒度识别数据集，由102种花卉类别组成。训练图像将这些数据集的大小调整为256×256。在CUB-200-2 我们使用 Python 和 PyTorch 实现我们的方法。可以在https://github.com/hshustc/CVPR19_Incremental_Learning上构建实现。（c）ImageNet-Sub（K =6）图5. CIFAR- 100和ImageNet-子集上所有阶段的增量精度图2011/Flower-102，我们使用随机种子（1993）选择前100/50类作为第1阶段，并将剩余的100/50类平均分配给K-1阶段，实施详情。在[42]之后，我们使用在ImageNet上预训练的ResNet- 18作为主干，并将三重损失[16]添加我们评估了K=6和11相的模型。数据增强是与ImageNet-Sub相同我们使用SGD作为优化器具有动量0.9和权重衰减1e -4。在CUB-200-2011上，在第一阶段，我们以学习率1 e-2（衰减0）训练模型200个epoch（批量大小128）。1，在80、160个时期），而在随后的阶段，我们训练30个时期（批量大小32），特征提取器的学习率为le-4，分类器的学习率为le-2（衰减0. 1，在20个时期）。在Flower-102上，在第一阶段，我们训练我们的模型100个epoch（批量大小128），学习率为1e-2（在60，80个epoch衰减0.1），而在随后的阶段，我们训练50个epoch（批量大小32），并将特征提取器的学习率设置为1e-4（SPB-M中的3e-4），将分类器的学习率设置为1e-2（SPB-M中的3e-2），其衰减0。1，30个时期。与最新技术水平的比较。从表2，FT联合LwF-EEWC-EMAS-ESDCSPBSPB-ISPB-M1130SPBSPB-ISPB-MSDC联合LL100806040200SPB-ISPB-MCSD联合SPB020 40 60 80 100新类别的接受率（%）100806040200SPB-ISPB-MCSD联合SPB020 40 60 80 100新类别的接受率（%）(a)CIFAR100（K=6）（b）CIFAR100（K=11）表2.与CUB- 200-2011和Flower-102上的最新方法进行比较。报告所有阶段的平均累积增量100806040200SPBSPB-ISPB-MCSD联合020 40 60 80 100新类别的接受率（%）100806040200SPB-ISPB-MCSD联合SPB020 40 60 80 100新类别的接受率（%）(top1/%）908070605040（前1位/%）908070605040（c）ImageNet-Sub（K=6）图7. CIFAR-100和ImageNet-子集上最后阶段新类和旧类的准确度（%）。30201001 2 3 4 5 6（阶段）(a)CUB200（K=6）(top1/%）30201001 2 3 4 5 6 7 8 9 10 11（阶段）(b)CUB200（K=11）(top1/%）20（遗忘率，%）15105（前1名/%）70605040302010090807060100908070600123456789 10 11（阶段）1001234567895050(a) 遗忘率。(b) 少量CIL4030201001 2 3 4 5 6（阶段）(c) 花（K=6）4030201001 2 3 4 5 6 7 8 9 10 11（阶段）(d) 花（K=11）图8.评估（a）CIFAR-100（K=11）上所有阶段的遗忘率和（b）mini-ImageNet（5路5次）上的少次CIL。在（b）中，平均累积增量精度在图例中示出。s：[34]中报告的结果。图6. CUB- 200-2011和Flower-102上所有阶段的增量精度图。我们可以看到，总体上，SPB、SPB-I和SPB-M比现有技术的竞争者表现更好。在CUB-200- 2011上，SPB的性能与最先进的水平相当。SPB-M略微改善SPB，而SPB-I显著改善SPB约2%。在Flower- 102上，我们的方法显著优于最先进的方法，其中SPB-M在K=6上表现最好，而SPB-I在K=11上表现最好。在这里，SPB-I和SPB-M学习更多的广义知识，这可能对区分鸟和花的细粒度细节没有太大帮助，但它们仍然实现了良好的性能。图6表明，SPB，SPB-I和SPB-M在所有阶段都达到了令人信服的性能，并且更接近联合训练方法。4.3. 进一步分析和讨论新旧类都准确还是偏向类？如图7，我们还绘制了最后阶段的新类和旧类的准确性，这在一定程度上表明了学习稳定性（旧类）和可塑性（新类）的平衡。从图7中，我们可以看出，总体上，与SPB、SPB-I和SPB-M相比，SPB、SPB-I和SPB-M实现了新类和旧类的更好和更平衡的准确性。最先进的SDC [42]。这进一步证明了我们的方法的优越性，特别是在稳定性和可塑性之间取得平衡。此外，如图在图8（a）中，我们绘制了CIFAR-100上所有阶段的遗忘率[5]。从图8（a）中，我们可以看到，我们的方法的遗忘是适度的，没有灾难性的遗忘。少样本类增量学习的评价少镜头CIL是一项更具挑战性的任务，其中在增量阶段中每个类只有几个样本可用。我们在mini-ImageNet [36]上进行评估，并使用ResNet-18作为[34]的主干。我们采用5路5杆设置，通过随机选择60个类作为基类（第一阶段），并均匀地分割其余100个类（5个训练图像，每个类）的8个阶段。如图8（b），由于在少数镜头增量阶段的样本稀缺，所有比较方法的精度急剧下降。我们的方法仍然比一些CIL方法（TOPIC [34]，iCaRL [32]，EEIL [4]）获得了更好的性能，这表明了我们模型的优势。组件有效性分析。从表3中，我们可以看到：（1）在没有对ce和em进行互逆自适应调整的情况下，SPB的性能明显下降;（2）SPB的性能优于LUCIR [18] w/o存储的样本，并且与LUCIR [18] w/存储的样本相当;（3）学习独立于班级的知识-FT联合LwF-EEWC-EMAS-ESDCSPBSPB-ISPB-M接头（53.4）（阶SPB-M（52.7）SPB（51.2）SPB-I（51.7）主题 *（39.6）iCaRL*（33.3）EEIL*（35.0）FT（21.2）旧类别的累积（%）旧类别的累积（%）旧类别的累积（%）旧类别的累积（%）方法公司简介花K=6K=11K=6K=11FT27.818.233.616.9联合75.775.196.295.8LwF-E [24，42]69.867.887.283.4EWC-E [20，42]69.766.185.981.8MAS-E [1，42]68.565.584.780.1SDC [42]70.065.886.880.4SPB（我们的）70.768.992.088.0SPB-I（我们的）72.771.492.289.21131iCaRL-CNN*（49.9）iCaRL-SPBSPB+SSPT（对比）SPB-I（对比，关节）SPB+SSPT（旋转）SPB-I（旋转，关节）58.660.961.461.162.666（%）6462（%）58606264(a) 与SSPT比较。60（转换次数）1 2 4(b) 转换编号。表3. CIFAR100的组件有效性分析（K=6）。请注意，SPB-I和SPB-M中的在线转换图像需要图9.与（a）自监督预训练（SSPT，用于模型预训练的单独阶段）和（b）CIFAR100上的不同数量的变换（K=6）的比较报告前1（%）SPB和SPB-M的模型大小接近，而SPB-I稍微增加了模型大小。（前1位/%）85756585（前1/%）756555LUCIR*（63.6）WA+iCaRL*（61.6）45SPB（60.9）SPB-I（62.6）35SPB-M（65.5）1 2 3 456（阶段）iCaRL-CNN*（46.1）55iCaRL-NME*（53.4）LUCIR*（61.4）WA+iCaRL*（55.0）45SPB（57.8）SPB-I（58.0）35SPB-M（59.7）1 2 3 45 6（阶段）(a) CIFAR100（K=6）（b）ImageNet（K=6）表4.与CIFAR100上的直接数据集增强的比较S：原始样品和额外转化的样品。色彩抖动：增加了色彩抖动和灰度。边缘（SPB +Lin）和多视角知识（SPB+Lmp）有助于进一步改善SPB。与Straightforward数据集增强的比较。尽管我们使用了额外的输入转换在SPB-I和SPB-M中，我们的目标是学习辅助的类独立知识或多视角知识，而不是通过数据扩充来扩大训练数据集。从表4中，我们可以看到：（1）直接使用旋转增强或强增强来扩大训练数据集会降低SPB的性能;（2）计算所有增强样本的分类损失也使SPB-I的性能恶化;（3）对于所有增强样本，具有多视角分类器的SPB-M比具有单个分类器的SPB-M表现得更好。与自我监督预训练的比较。在我们的公式中，类独立的知识和多视角的知识，共同优化的综合训练目标，而不是一个自我监督的预文本任务。如图9（a），使用自我监督的预训练作为单独的借口阶段不能带来明显的不适应性。证明SPB，同时联合优化Lin与Lce和Lem在我们的公式中产生更好的结果。转换次数的影响。如图图9（b）：（1）利用来自不同变换的更多类独立知识（β），SPB-I（旋转）实现更好的性能;（2）在SPB-M中从更多视角（γ）学习知识也有助于提高性能。图10.在CI-FAR 100（K=6）和ImageNet（K=6）上与基于范例的方法进行比较。平均累积增量精度见图例。*：超参数（例如20个样本/类和学习率）遵循LUCIR [18]。与基于示例的方法的比较。虽然我们的方法不旨在超越基于范例的CIL方法，但与基于范例的CIL方法进行比较以检查功效将是有趣的如图10，在CIFAR-100（K=6）[21]和ImageNet（ILSVRC 2012）（K=6）[33]上，我们的方法（SPB，SPB-I和SPB-M）实现与基于示例的 CIL 方法（ iCaRL [32] ， LUCIR[18]，WA [44]+iCaRL）相当的性能，显示了我们的方法对于CIL的有效性5. 结论在这项工作中，我们重新制定了一个简单而有效的基线方法CIL，这使得学习新信息和维护旧知识之间的权衡。在此基础上，我们提出了两种新的CIL学习方法，分别是学习类独立知识和多视角知识。这些方法有助于进一步提高CIL的模型性能。在几个广泛使用的CIL数据集上进行的大量实验表明，我们的方法优于最先进的方法。深入消融分析进一步检查了我们方法中每个组件的有效性鸣谢。这项工作得到了Vision Se-mantics Limited 、Alan Turing Institute Turing Fellowship 和 Innovate UKIndustrial Challenge Project on Developing- ing andCommercialising Intelligent Video Analytics Solu- tionsfor Public Safety（98111-571149）、伦敦玛丽皇后大学校长组件平均top-1（%）SPB60.9SPB w/o倒数自适应权重36.4SPB w/ LUCIR自适应权重[18]57.7SPB+Lin（对比，SPB-I）SPB+Lin（旋转，SPB-I）SPB+Lmp（SPB-M）61.462.665.5LUCIR [18] w/o存储样本52.2LUCIR [18] w/存储样本63.6iCaRL-CNN [32]（带存储的样本）49.9iCaRL-NME [32]（带存储样本）57.2方法平均top-1（%）SPB60.9SPB+更多增强样本（强‡）SPB+更多增强样本（旋转）60.758.2SPB-I（对比）61.4所有样品的SPB-I（对比）+Lce60.2SPB-I（旋转）62.6所有样品的SPB-I（旋转）+Lce59.6SPB-M（多视角分类器）65.5SPB-M（单分类器）58.21132引用[1] RahafAljundi ， FrancescaBabiloni ， MohamedElhoseiny，Marcus Rohrbach，and Tinne Tuytelaars.记忆感知突触：学习什么（不）忘记。在ECCV，第139-154页[2] Eden Belouadah和Adrian PopescuIl2m：具有双重记忆的类在ICCV，第583-592页，2019年。[3] 盖尔·A·卡彭特和斯蒂芬·格罗斯伯格。艺术2：模拟输入模式的稳定类别识别代码的自组织。应用光学，26（23）：4919[4] FranciscoMCastro 、 ManuelJMa r'ın-Jime'nez 、 Nicola'sGuil、Cordelia Schmid和Karteek Alahari。端到

下载后可阅读完整内容，剩余1页未读，立即下载