FeTrIL：无样本类增量学习的特征翻译

140 浏览量更新于2023-10-15 收藏 794KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3911FeTrIL：面向无样本类增量学习的特征翻译Gre′ goire Petit1，2，Adrian Popescu1，Hugo Schindler1，Da vid Picard2，BertrandDelezoide31 Univ ersite′P alaiseau-Saclay，CEA，LIST，F-91120，Palaiseau，France2LIGM，Ecole des Ponts，Uni v Gustav e Eif fel，CNRS，Marne-la-Valle' e，France3Amanda，34Av enue Des Champs Elyse′ es，F-75008，巴黎，法国{gregoire.petit，adrian.popescu}@ cea.fr，hugo-schindler@orange.frdavid. enpc.fr，bertrand.amanda.com摘要无样本类增量学习由于灾难性遗忘的负面影响而非常具有挑战性。为了获得对过去和新类的良好准确性，需要在增量过程的稳定性和可塑性之间取得平衡。现有的无样本类增量方法集中在连续微调的模型，从而有利于可塑性，或使用固定后的初始增量状态的特征提取器，从而有利于稳定性。我们提出了一种结合固定特征提取器和伪特征生成器的方法，以改善稳定性和可塑性的平衡。生成器使用新类特征的简单而有效的几何转换来创建由伪特征组成的过去类的表示特征的转换仅需要存储过去类的质心表示以产生它们的伪特征。新类的实际特征和过去类的伪特征被馈送到线性分类器中，该线性分类器被递增地训练以在所有类之间进行区分。与更新整个深度模型的主流方法相比，所提出的方法的增量过程要快得多。使用三个具有挑战性的数据集和不同的增量设置进行实验。与现有的10种方法的比较表明，在大多数情况下，本文方法的性能优于其它方法.FeTrIL代码可在https：//github.com/GregoirePetit/FeTrIL网站。1. 介绍深度学习[8]在准确性和规模方面都大大提高了自动视觉识别的质量。目前的模型区分成千上万的类之间的准确性往往接近人类识别，假设提供足够的训练样本。与人类不同，算法可以达到只有在学习新类时一次使用所有数据进行训练时，才能获得最佳性能。这是一个重要的限制，因为数据经常以序列出现[17]，并且它们的存储成本很高。此外，迭代再训练以整合新数据在时间或计算受限的应用中计算成本高且困难[9，32]。增量学习[36]被引入以减少机器学习算法的内存和计算成本。类增量学习（CIL）方法面临的主要问题是灾难性遗忘[14，25]，即神经网络在摄取新数据时不适合过去的类。许多最近的解决方案[4，13，33，44，46]，基于在深度网络上，使用过去有限记忆的重放来减少遗忘。然而，基于回放的方法做出了强有力的假设，因为过去的数据通常不可用[41]。此外，图像存储器的占用空间对于存储器受限的设备可能是有问题的[32]。无样本类增量学习（EFCIL）方法最近获得了发展势头[45，38，47，48]。他们中的大多数人使用蒸馏[12]来保存过去的知识，并且通常倾向于可塑性。新的类别可以很好地预测，因为模型是用所有新数据学习的，而只代表过去的数据[24，31，49]。一些EFCIL方法[1，6]受到迁移学习[37，39]的启发。它们在初始状态下学习一个特征提取器，并在以后使用它来训练新的分类器。在这种情况下，稳定性优于塑性，因为模型是冻结的[24]。我们介绍了FeTrIL，一种新的EFCIL方法，它结合了冻结特征提取器和伪特征生成器，以提高增量性能。新的类别由从特征提取器获得的它们的图像特征来表示。过去的类由伪特征表示，伪特征通过使用几何平移过程从新类的特征导出。该平移将特征移向与过去的类相关的特征空间的区域。建议的伪特征生成是适应EFCIL，因为它是简单，快速，只需要存储的质心为过去的类。3912f（C1）f（C2）f（C3）初始状态（一）增量状态1（b）第（1）款增量状态2（c）第（1）款实际特征f（C1）f（C2）f（C3）f（C4）f（C5）（d）其他事项图1.所提出的伪特征生成过程的图示该玩具示例包括子图（a）、（b）和（c）中的初始状态（3个类）和两个子图（d）提供了可用于经典学习的所有类别的实际特征。插图使用实际要素的二维投影过去类的伪特征通过在每个状态中添加的新类的特征的几何平移来生成，其中目标过去类的质心与新类的质心之间存在差异虽然不完美，但伪特征生成器可以生成过去类的可用表示。最好用彩色观看。FeTrIL在图1中以玩具为例进行了说明。我们使用标准EFCIL设置[13，47，48]进行实验结果表明，所提出的方法具有更好的行为，与现有的10种方法，包括最近的。2. 相关工作当数据顺序到达和/或计算约束很重要时，需要CIL算法他们的目标是确保塑性之间的良好平衡，即新信息的整合，以及稳定性，[27]关于过去的知识的保存。这是具有挑战性的，因为缺乏过去的数据导致catastrophic遗忘，即。神经网络倾向于以牺牲过去的知识为代价来关注新学习的数据[25]。最近对CIL [2，24]的评论表明，大多数方法重放过去类的样本以减轻遗忘[4，13，33，46]。这里的一个优点是，网络架构在整个增长过程中保持不变然而，这些方法具有两个主要缺点：（1）首先，过去样本可用的假设是强有力的，因为在许多情况下，过去的数据无法存储，例如，由于隐私限制[41]和（2）存储图像的内存占用很高。在这里，我们研究无样本CIL，重点是保持网络大小恒定的这种设置非常具有挑战性，因为它对内存和计算成本都施加了很强的约束。大多数的ex-centering方法使用正则化来更新每个增量步骤的深度模型[24]，并调整蒸馏[12]以通过在模型更新期间惩罚过去类的变化来保留过去的知识。请注意，虽然在基于范例的CIL（EBCIL）设置中引入了一些基于蒸馏的方法，但其中许多方法也适用于EFCIL。这种CIL方法得到了推广，[33]《易经》：“学而不忘，学而不忘”。蒸馏随后被精炼并与其他组分一起补充以改善塑性-稳定性折衷。LUCIR [13]对特征进行蒸馏而不是原始分类分数，以保留过去类的几何形状，并进行类间分离以最大化过去和新类之间的距离。在[7，13]中通过添加特定的类可分性组件部分解决了这个问题。基于蒸馏的方法需要存储当前和先前的模型以进行增量更新。与不使用蒸馏的方法相比，它们的内存占用更大[24]。CIL中的另一个重要问题是增量状态之间的语义漂移。在[20]中引入了辅助分类器ABD [38]使用图像反转来产生过去类的伪样本。该方法是有趣的，但图像反演是困难的复杂数据集。[45]中提出了另一个有趣的解决方案，其中根据新类别的特征估计增量步骤之间的特征漂移。最近的EFCIL方法[47，48，49]使用过去的类原型结合蒸馏来提高性能。PASS [48]中提出了原型增强，以提高在不同增量状态下学习的类的区分度。在IL2A [47]中，通过利用有关类分布的信息，引入了过去类的特征生成。这种方法很难扩大规模，因为需要为每个类存储协方差矩阵。在SSRE [49]中引入了原型选择机制，以更好地区分过去的新类。FeTrIL与[45，47，48，49]分享了一个重要的区别是，我们在初始状态之后冻结模型，而其他方法部署了更复杂的机制来将原型集成到知识解释过程中。过去的比较研究[2，24]发现，虽然在理论上很有吸引力，但基于蒸馏的方法不适用于f1（C1）f1（C2）f1（C3）f（C4）f2（C1）f2（C2）f2（C3）f2（C4）f（C5）3913FGGFF在EFCIL中表现不佳，特别是对于大规模数据集。其次，由于表示空间是固定的，新类的实际特征的简单几何平移足以产生可用的伪特征。相比之下，IL2A[47]，最接近我们的工作，需要存储每个类的协方差矩阵以获得最佳性能。第三，使用固定提取器简化了训练过程，因为与使用原型和特征生成的最近方法所需的骨干模型的微调相比，仅训练最终线性层。另一项工作从迁移学习中获得灵感[28，37]来解决EFCIL。特征提取器在初始非增量状态下训练，并且之后固定。然后，在每个增量状态中更新外部分类层以集成新的类。[33]中使用了最近类均值（NCM）[26]，[1]中使用了线性SVM迁移学习方法的优点是它们的简单性，因为只有分类层被更新，并且它们的内存需求较低，因为它们需要单个深度模型来运行。与EFCIL中基于蒸馏的方法相比，这些方法具有竞争力的性能，特别是在规模上[2]。然而，功能不会更新，并且它们对增量任务之间的大范围转移很敏感[17]。同样，现有的受迁移学习启发的作品没有充分解决类间可分性，这是这里的重点。类原型创建研究了在其他学习环境比CIL。在[5]中提出了一种非常有趣的方法，专注于少数学习。提出了一种基于距离的分类器，它使用了近似的马氏距离。使用两个辅助神经网络预测新类的均值和方差。虽然适用于少量学习，但这种方法在CIL中并不完全适用首先，补充神经网络需要大量的补充参数。这在这里是一个缺点，因为在计算受限的环境中需要CIL其次，我们不关注少数学习，过去类的均值在表示空间中放置得很好。3. 该方法CIL的目标是学习在训练期间顺序出现的总共N个类。该过程包括初始状态（0）和T个增量状态。新的类需要与在以前的状态中学习的过去的类一起被识别。我们专注于无样本CIL设置[33，38，45，49]，其假设无法存储过去的图像。这种情况比基于范例的CIL更令人困惑，因为灾难性遗忘需要在不诉诸重放的情况下解决[24]。在不同的增量状态下学习的类之间没有交集。与任务IL [40]不同，边界是-在测试时，不同状态之间的关系是未知的。FeTrIL的整体功能如图2所示。它使用特征提取器、基于几何平移的伪特征受基于迁移学习的CIL [1，33]的启发，特征提取器在初始状态之后被冻结。这确保了整个CIL过程中鉴于这些图像不能存储在EFCIL中，则使用生成器来产生过去类的伪特征（ft（Cp））。将新类的特征（f（Cn））以及过去和新类的原型（μ（Cp），μ（Cn））作为输入。线性分类器L组合特征和伪特征以联合训练所有可见类（过去和新）的分类器。伪特征的生成是至关重要的，因为它可以在所有增量状态中进行类区分。这里提出的假设是：（1）虽然不完美，但伪特征仍然可以有效地表示过去的类，（2）使用冻结提取器与EFCIL中的生成器相结合，优于主流的基于蒸馏的方法[45，47，48，49]。这些假设通过第4节中的大量实验我们将在接下来的小节中介绍FeTrIL的3.1. 伪特征生成伪特征生成器（如图1所示）生成过去类的有效表示。生成过去数据的现有方法依赖于生成对抗网络[10]，图像反演[38]或基于协方差的过去类模型[47]等方法。我们提出了一个更简单的替代方案，定义为：ft（cp）=f（cn）+µ（Cp）−µ（Cn）（1）其中：C p-需要伪特征的目标过去类;C n-图像b可用的新类别;f（c n）-用F提取的C n类样本c n的特征; μ（Cp），μ（C n）-C p和C nex类的平均特征-与 ;f_（p）-伪特征向量在第t个增量状态中产生的类Cp的样本Cp。当量1将每个维度的值转换为相应维度值之间（1）（。它创建一个伪特征向量站点-基于新类f（Cn）的实际特征在与目标类Cp相关联的表示空间的区域中进行评估。生成的计算成本非常小，因为它只涉及加法和减法。需要μ（Cp）来驱动几何平移到与Cp相关的表示空间的区域。质心是在类第一次出现时计算的，然后存储。它们的重用是可能的，因为在初始步骤之后是固定的，并且其关联的功能不会演变。3914FGFW图2. FeTrIL概述一个玩具示例，具有初始状态（3个类）和两个增量状态（每个状态1个类）。特征提取器在初始状态下使用数据集X1，X2，X3进行训练，然后在之后冻结。生成器使用特征f（Cn）用过去类μ（Cp）的原型和新类的扩展来生成第t个状态下过去类ft（Cp）的伪特征。原型（μ（Ci））是所有类（过去类和新类）的质心。它们是在第一次看到类时学习的，然后在整个IL过程中存储。线性分类器L用于学习所有可见类（过去和新）的分类权重w（Ci）。3.2. 伪特征选择当量1转换单个样本的特征。如果每个类由s个样本表示，则生成过程需要重复s次。FeTrIL（图2）和伪特征生成（图1）的概述当CIL状态包括几个类Cn时，可以使用不同的策略来获得每个类Cp的s个伪特征，这取决于如何使用新类的特征。我们部署了以下策略：• FeTrILk：s个特征从每个过去类Cp的第k个相似新类转移。目标Cp和当前状态下可用的Cn之间的相似性使用每对类的质心之间的余弦相似性来计算用不同的k值进行实验，以评估变量类相似性是否对EFCIL性能有由于平移是基于一个新的类，伪特征的分布将与Cn的特征的分布相似，但在μ（Cp）周围的表示空间的区域中。• FeTrILrand：s特征是从所有新类中随机选择的。该策略评估来自不同Cn的更多样化的特征源是否产生类Cp的有效表示。• FeTrILherd：s特征基于羊群算法从任何新类别中选择[43]。它假定抽样应包括产生过去类的良好近似的特征。在基于范例的CIL中引入了羊群效应，以便仅使用少量样本[33]获得每个类别的准确近似值，其实用性后来得到证实[2，13，44]。它是适应在这里获得一个很好的近似的样本分布的CP与s的伪特征。这些不同策略的比较将使我们能够确定要素的几何平移是否普遍，或者要素的特定配置是否需要在目标的质心周围的过去类3.3. 线性分类层训练我们假设CIL过程处于第t个CIL状态，其中包括P个过去类和N个新类。特征生成器（第3.1小节）和se的组合选择（3.2小节）提供了一个s伪-每个类别的特征Cp。我们的目标是训练一个线性分类器的所有P+N看到的类，过去的类的伪特征和新的类的实际特征作为输入。该线性层定义为：Wt ={Wt（C1），.，w t（C P），w t（C P+1），.，wt（C P+N）}（2）其中：wt-第t个CIL状态中已知类的权重。t可以使用不同的分类器实现，我们在第4节中实例化了两个版本：（1）使用LinearSVC [30]作为外部分类器的FeTrIL，以及（2）使用全连接层的FeTrIL fc，以实现端到端训练。4. 评价我们通过使用综合EFCIL评价方案评价FeTrIL [47，48，49]。此设置包括四个不同大小的数据集和CIL状态。数据集。我们使用四个公共数据集：（1）CIFAR-100 [16] - 100类，32 x32像素图像，500和100图像/类用于训练和测试;（2）TinyImageNet [18] -来自ImageNet的200个leaf clases，64 x64像素图像，500和50用于训练和测试;（3）ImageNet-Subset-ImageNetLSVRC数据集的100个类子集[35]，1300和50用于训练和测试;（4）ILSVRC-来自[35]的完整数据集。增量设置。我们使用来自[47，48，49]的经典EFCIL协议。初始状态下的类数量较大，其余类在增量状态之间均匀分布。CIFAR-100和ImageNet- Subset测试使用：（1）391550个初始类和10个类的5个IL状态，（2）50个初始类和5个IL状态，3916联系我们FCFC类，（3）40个初始类和20个3类状态，以及(4)40个初始类和60个1类状态。与[47，48，49]相比，ImageNet- Subset的配置（1）和（3）被添加以实现更一致的评估。TinyIma-geNet测试了100个初始类，其他类分布如下：（1）20级的5个州，（2）10级的10个州，（3）5级的20个州，（4）1级的100个州。配置（4）很有趣，因为它允许一个类递增。它不能部署到任何比较的EFCIL方法，因为它们每个增量至少需要两个类来更新模型。ILSVRC用500个初始类进行测试，另外500个在T5，10，20个状态之间均匀分配这使得在不同的EFCIL配置的方法进行了深入的比较当然，任务ID在测试时不可用。比较方法。我们在评估中使用以下EF-CIL方法：[15]，LwF-MC [33]，DeeSIL [1]，LUCIR [13]，MUC[20]，SDC [45]，PASS [48]，ABD [38]，IL2A [47]，SSRE [49].正如我们在第2节中所讨论的，这些方法涵盖了各种各样的EFCIL方法。纳入近期的工作[47，48，49]是重要的，以证明我们的贡献与当前EFCIL的趋势。虽然重点是EFCIL，但我们遵循[49]并包括与EBCIL方法的比较。我们针对最近的AANets方法[21]以及添加了AANETS的EBCIL方法（LUCIR [13]，助记符[22]，PODNet [7]）测试了我们的方法。每当可用的，比较方法的结果标记为“”，从他们的初始文件或从[49]复制，[21]或称“无”。其他结果都是使用原方法的配置重新计算的。实作详细数据。在[33，47，48，49]之后，我们在所有实验中使用ResNet-18 [11]。FeTrIL初始训练是用初始类的图像唯一完成的，以确保与现有方法的可比性。特征提取器在初始状态下进行训练，然后在IL过程的剩余时间内冻结我们实现了具有交叉熵损失的监督训练， SGD优化，批量大小为 128，总共 160 个epoch。初始学习率为0.1，每50个epoch后衰减0.1。为了确保可比性，使用与比较方法中相同的随机种子将类分配给IL状态[13，48，47，49]。我们提供了最后一层的实现细节（等式2）。2)在第3.3节中介绍。分类层的超参数在ImageNet中随机选择的50个类的池中进行了优化，但与ILSVRC或ImageNet子集不相交在线性层之前应用L2归一化。 LinearSVC层包含在FeTrIL1使用1.0和0.0001进行正则化和公差参数。样本数量高于特征的维数，并且我们解决了主优化问题而不是对偶优化问题。然后，使用标准分类器对其余分类器进行训练procedure.在4.2小节中，我们还测试了一个一对多的策略来加速增量更新。第二个变量FeTrIL1使用全连接层作为最终层，并实现端到端训练策略。FeTrIL1是训练了50个epoch，初始学习率为0.1，0.110个时代的耐心。评价指标。在CIL [24，33]中广泛使用的平均增量精度是主要的评估指标。为了与[47，48，49]进行比较，它被计算为所有状态的平均精度，包括初始状态。我们同样提供了每个状态的精度曲线，以更详细地了解CIL过程中的精度演变。在[49]之后，我们运行FeTrIL的每个配置三次并报告平均结果。4.1. 结果与现有EFCIL方法的比较。表1中的结果表明，FeTrIL1在12种测试配置中的11种配置中优于所有它也接近了剩下的最好的。第二好的结果是用最近的SSRE 方法 [49] 获得的。对于 CIFAR-100 ，FeTrIL1FeTrIL带来的性能增益超过TinyIm的4个和3个顶级精度点ageNet和ImageNet-Subset。PASS [48]和IL2A [47]，另外两种最近的EFCIL方法，具有较低的平均性能。我们注意到，EFCIL的性能提升最近被报道，如PASS，IL2A，SSRE的方法。这些方法结合了知识提炼和复杂的机制来处理稳定性-塑性困境。相比之下，我们的方法使用一个固定的特征提取器和一个轻量级的伪特征生成器。FeTrIL仅优化线性分类层，而相比之下，最近的方法使用整个模型的反向传播，并且需要更多的计算资源和时间来执行IL过程。在4.2小节中提出了对复杂性的更深入的讨论。ILSVRC数据集的性能也非常有趣。与PASS或SSRE的直接比较是不可能的，因为这些方法没有大规模测试。但是我们可以安全地假设FeTrIL1对于更简单的ImageNet子集更好地给出PASS和SSRE精度ILSVRC结果表明这里提出的简单方法对于大范围的类是有效有趣的是，与较小的数据集相比，ILSVRC的性能更稳定，因为可用于伪特征生成的新类池更大。与迁移学习基线的比较。 DeeSIL [1]是迁移学习在EFCIL中的一个简单应用。它没有跨不同增量状态的类可分性机制，因为分类器是在每个状态中学习的。FeTrIL中包含的全局可分性的必要性通过短和长的比较显示出来。3917FCFCCIL方法CIFAR-100 TinyImageNet ImageNet-Subset ImageNetFC表1. EFCIL中具有不同增量步长数的平均前1增量准确度。FeTrIL1结果报告了从最相似的新类别翻译的材料详情）。“x”单元格指示该配置对于该方法是不可能的。最佳结果-粗体，次佳-下划线。CIL工艺。DeeSIL [1]在T= 5时性能良好CIL方法CIFAR-100 ImageNet-Subset最小增量更新的行为。COM-EFCIL方法只能更新与每个CIL状态的最低两个类，因为它们使用的判别分类器，这需要积极和消极的样本，PLES。在实践中，在每个新类可用时启用更新是很有意思的。这在FeTrIL中是可能的，因为伪特征都可以来自一个新类。来自表1的CIFAR-100、Tiny-ImageNet和ImageNet-Subset的右列中的结果显示，以一类增量获得的准确度接近于T= 20时观察到的准确度。这突出了FeTrIL在频繁更新方面的鲁棒性。决赛的影响分类层. FeTrIL 1优于FeTrIL 1。LinearSVC提供了比全连接层更好的性能，特别是对于大量的增量步骤。然而，FeTrIL1也具有竞争力，并且在大多数配置中优于现有方法。精确度的详细视图。我们在图3中说明了增量状态下准确度的演变，以补充表1中的平均结果。这些详细的结果证实了所提出的方法的良好性能。对于CIFAR-100，FeTrIL和SSRE的准确度的演变非常相似，对于TinyImageNet， FeTrIL方法在整个过程中更好对于所有增量状态，相对于其他比较方法的每单位增益要大得多。与基于范例的CIL方法的比较。这种比较是有趣的，因为EFCIL是一个比EBCIL更具挑战性的任务[2，24]，并且观察到两者之间的重要性能差距。这是直观的，因为EBCIL中过去类的图像存储PODNet [7]（ECCV+AAnets（CVPRFeTrIL166.3 65.2 71.9 70.8表2. FeTrIL与最近的AANets方法[21]的比较，应用于EBCIL基线之上，EBCIL基线存储了过去类的20个样本，以减轻灾难性遗忘。减轻灾难性的遗忘。在[13，21]之后，对于这里测试的所有EBCIL方法，每个类允许20个图像的内存。FeTrIL优于AANets应用于CIFAR-100的所有三种基础方法。对于ImageNet-Subset，FeTrIL的准确性优于LUCIR比PODNet低3.5个点[7]。在大多数情况下，即使在引入AANets之后，FeTrIL的性能仍然接近EBCIL方法。表2的结果表明，尽管EFCIL和EBCIL方法之间的差距仍然存在，但差距正在缩小。4.2. 方法分析我们提出了一个分析：（1）选择策略，（2）内存足迹的方法，（3）模型更新的复杂性，（4）稳定性和可塑性的平衡。伪特征选择比较。FeTrIL可以使用任何过去-新的类组合进行翻译。在表3中，我们比较了第3.2小节中的选择策略。对于所有策略，准确度在相对较小的范围内变化，表明FeTrIL对fea-选择新类的策略，并且它可以用任何策略成功地实现。FeTrIL1优于其他选择方法，这促使其在主要实验中使用。类相似性很重要，但FeTrIL10的结果仍然很有趣。FeTrIL牛群还具有有趣的准确性，但稍落后于FeTrIL1。T=5T=10T=20T=60T=5T=10T=20T=100T=5T=10T=20T=60T=5T=10T=20[15]第15话24.521.215.9X18.815.812.4X-20.4-X---[33]第十三届全国人大常委会第十三次会议45.927.420.1X29.123.117.4X-31.2-X---DeeSIL [1]（ECCVW60.050.638.1X49.843.934.1X67.960.150.5X61.954.645.8LUCIR（CVPR51.241.125.2X41.728.118.9X56.841.428.5X47.437.226.6[20]第二十届中国国际汽车工业展览会 49.430.221.3X32.626.621.9X-35.1-X---[45]第45话：我的世界56.857.058.9X---X-61.2-X---[38]第38话63.862.557.4X---X---X---通过审查[48]（CVPR63.561.858.1X49.647.342.1X64.461.851.3X---IL2Aβ [47]（NeurIPS66.060.357.9X47.344.740.0X---X---[49]第49话：你是谁65.965.061.7X50.448.948.2X-67.7-X---FeTrIL164.763.457.450.852.951.749.741.969.668.962.558.965.664.463.4FeTrIL166.365.261.559.854.853.152.250.272.271.267.165.466.165.063.8因为每个类都是针对足够多的其他类进行训练的T= 5T= 10T= 5T= 10但在T= 20时显著下降，[13]第十三话63.261.170.868.3新课程带来的重要性能提升+AAnets（CVPR66.765.372.669.2FeTrIL强调了类可分性的重要性[23]第二十三话+AAnets（CVPR63.367.662.365.772.672.971.471.93918--百分百CIFAR-100，T=10百分百TinyImageNet，T= 10百分百ImageNet-Subset，T= 10百分之八十百分之八十百分之八十百分之六十百分之六十百分之六十百分之四十百分之四十百分之四十百分之二十百分之二十百分之二十0%的百分比0123456789 10增量状态0%的百分比0123456789 10增量状态0%的百分比0123456789 10增量状态图3.具有T= 10IL状态的增量过程的top-1准确度的演变最好用彩色观看。CIFAR-100 TinyImageNet ImageNet-子集T= 5百分百 ImageNet-Subset，T= 10FeTrIL166.354.872.2百分之八十FeTrIL565.753.872.2百分之六十FeTrIL1065.1 53.8 71.6FeTrIL牛群FeTrIL兰特65.1 51.5 70.3表3.使用变体获得的平均top-1 CIL准确度百分之四十百分之二十0 1 2 3 4 5 6 7 8 9 10增量状态对于T= 5，从子节3.2中选择伪特征。我们设置k=1，5，10为过去和新类之间的相似性排名，以测试类相似性的效果。每个状态有10个（CIFAR-100和ImageNet-Subset）和20个（TinyImageNet）新类，从中选择特征转换。来自表3的结果促使在主要实验中使用FeTrIL1总的来说，几何平移-因此，过去类的质心远比新类的特征采样策略重要。这一发现也得到了每个CIL状态一个新类的结果的支持（表1）。内存占用。低内存占用是增量学习算法的理想属性，因为它们在内存受限的应用程序中最有用[24，32，33]，并推荐用于嵌入式设备[9]。所有EFCIL方法都需要存储过去类的表示，以防止灾难性遗忘。自然地，这种表示应该尽可能紧凑主流方法（如LwF-MC[19]，PASS [48]，IL 2A [48]和SSRE [49]）需要在CIL更新期间对先前和ResNet- 18 [11]是最常见的CIL主干，具有大约11.4M的参数。因此，基于蒸馏的方法需要大约22.8M个参数。基于传输的方法，如DeeSIL [1]和FeTrIL，仅使用在初始状态下学习并在之后冻结的深度模型，并且仅需要模型的11.4M参数。DeeSIL在增量更新期间不需要补充参数。然而，这是以阶级的全球区分不佳为代价的，这反映在最终的人口普查中。FeTrIL存储过去类的类质心，以便执行特征转换。每个类需要512个参数，这导致了51.2KPASS MUC SSRE IL2A LUCIR LwF-MCDeesilFeTrILPASS MUC SSRE IL2A LUCIR LwF-MCDeesilFeTrIL通过MUCLUCIR LwF-MCSSREDeeSILFeTrILOva-71.2r = 10 - 70.0r= 25 - 70.8r = 1 - 67.33919不图4. FeTrIL1的前1增量精度，用于负采样的不同比率的分类层的ova表示用于报告表1和图3的主要结果和102.4的存储器需要分别为100和200类。伪特征选择（3.2小节）所需的类相似度可以顺序计算，并且该步骤增加的内存成本可以忽略不计。PASS [48]、IL2A[47]和SSRE [49]也需要存储每个过去类的原型（平均表示），并且它们的足迹相当于FeTrIL的足迹。IL2A [47]还存储了每个过去类的协方差矩阵（ResNet-18为512 x512），以实现最佳功能，这是禁止的。增量更新的复杂性。CIL在资源受限的环境中很有用，新类的集成应该很快[9，32]。基于蒸馏的方法在每次更新时重新训练完整的主干模型。这是昂贵的，因为反向传播复杂度取决于网络架构，样本数量和epoch数量[8]。基于传输的方法的更新更简单，因为它们只更新最后一层。DeeSIL在每个CIL状态中使用one-vs-all程序训练线性分类器。一个训练时期的复杂性所有CIL状态下的分类器都是O（（n）2sd）[3]，其中n是数据集中的类总数，d是features和s-samples每个类。FeTrIL在每个CIL状态下重新训练所有线性分类器，过去的和新的，以提高全局可分性。它的复杂度是O（n2sd）在最后一个增量状态，其中包括所有类. 但一对所有训练可以用一对多训练代替，而精度损失可以忽略不计。执行负特征的采样以遵守用于训练每个负特征的负特征和正特征之间的预定义比率r。3920百分百百分之七十五百分之五十百分之二十五0%的百分比TinyImageNet，T= 10SSRE过去新AvgFeTrIL0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10因为深度模型是用初始类（过去类的子集）学习的，然后冻结。与SSRE相比，FeTrIL的过去类和新类之间的准确度差距较小在那里，新类的低性能可能是由与初始状态相比的强烈的主迁移来解释的整体上，所提出的方法改善了稳定性-塑性平衡。增量状态增量状态图5. TinyImageNet过去和新类的每个状态的前1增量精度，FeTrIL1和SSRE的T= 10个一个理想的方法将提供高精度，但也为过去和新的类类似的性能对于FeTrIL1，过去类和新类的准确性在全局上更接近，这表明我们的方法提供了比SSRE更好的稳定性-塑性平衡。图3中FeTrIL1的总体准确性更好，因为在CIL过程中每个状态中新类别的贡献减少。分类器这种近似具有O（rnsd）复杂度。这是有趣的，因为r

下载后可阅读完整内容，剩余1页未读，立即下载