类增量式新类发现：基于预训练模型的未标记数据集中新类别的发现与基类特征原型和特征级知识蒸馏的联合利用

67 浏览量更新于2023-12-01 收藏 2.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文类增量式新类发现Subhankar Roy1， 2，Mingxuan Liu1，ZhunZhong1，Nicu Sebe1，和Elisa Ricci1， 21University of Trento，特伦托，意大利2Fondazione Bruno Kessler，特伦托，意大利{subhankar.roy，mingxuan.liu，zhun.zhong，niculae.sebe，e.ricci} @ unitn.it抽象的。我们研究了类增量式新类别划分（class-iNCD）的新任务，这是指通过利用预训练模型在未标记的数据集中发现新类别的问题，该预训练模型已在包含不相交但相关类别的标记数据集上训练。除了发现新的类，我们还旨在验证模型识别以前看到的基本类别的能力受基于排练的增量学习方法的启发，在本文中，我们提出了一种新的方法，类iNCD，防止忘记过去的信息，通过联合利用基类特征原型和特征级知识蒸馏的基类。我们还提出了一个自我训练的聚类策略，同时集群新的类别和训练的基础和新的类的联合分类器这使得我们的方法能够在类增量设置中操作我们的实验，在三个常见的基准进行，表明我们的方法显着优于国家的最先进的方法。代码可在www.example.com上获得https://github.com/OatmealLiu/class-iNCD。关键词：新类发现，类增量学习1介绍人类被赋予了优秀的认知技能，可以在一生中不断学习[12]，并且在大多数情况下不需要明确的监督[1]。因此，构建能够模仿这种人类水平性能的人工智能（AI）系统一直是机器学习研究界的长期目标。为了实现这一点，已经做出了很多努力，从标记数据[24，17，10]和未标记数据[3，4]的大型库中学习深度学习模型。除了是有效的学习者之外，通过模仿人类的学习机制，神经网络还应该能够灵活地吸收新的概念（或类），在用过去的数据学习了一些模式之后。在利用一些先前学习的知识的同时，以无监督方式自动发现新颖（或新）类的任务被称为新颖类发现（NCD）[15，16，36，37，11]（见图11）。1（a））。NCD在最近一段时间获得了显著的关注，因为它可以有效地学习新的类，而不依赖于大量的未标记数据[15]。前两位作者贡献相当。通讯作者：Zhun ZhongarXiv：2207.08605v1 [cs.CV] 2022年7+v：mala2255获取更多论文共同使用新掌门网络测试网络2S. Roy等人培训培训新类的未标记旧类老掌门旧类旧头不可用新类的未标记联合首长新掌门学习旧类的任务学习新课程的任务测试仅评估新类(a) 新颖的类发现测试数据旧的新的阶级(b) 类增量式新类发现图1.一、设置之间的比较（a）新类发现（NCD），其仅关注新类的性能，和（b）所提出的类增量NCD（class-iNCD）测量到目前为止使用单个分类器看到的所有类的性能。大多数提出的NCD解决方案依赖于标记和未标记数据的阶段式[19，20，16]或联合[15，36，11已经表明，当模型在标记数据上联合训练时，NCD受益更多，同时使用对未标记数据的聚类目标[15，37，36，11]。然而，由于隐私或存储问题，在预训练阶段之后对标记数据的访问在现实世界的应用中并不总是得到保证。这需要一个更实用的NCD设置，其中标记的图像将被丢弃，只有预训练的模型可以被转移用于学习新的类。有意义的是，这种无源模型适应已经在领域适应的相关领域进行了探索[28，35]。虽然看起来更实用，但这样的训练方案会逐渐导致网络删除所有以前学习的关于旧（或基础）类的信息。当标记数据集变得不可用时，基类性能的下降主要归因于神经网络中的灾难性遗忘现象[8]在大多数上述NCD方法中，新类的性能仅被认为是重要的，而没有考虑保留基类的性能。我们认为，这样的设置是在现实世界中的实际意义不大，因为适应模型变得不可用的基础类和再培训是不可行的。考虑到现有NCD设置的固有缺点，我们认为理想的NCD方法应该旨在学习新的类，而无需显式存在标记数据，同时保持基类的性能。这种新的设置被称为任务增量NCD（iNCD），并且最近确实在[29]中进行了研究。详细地说，ResTune [29]在网络logits上使用知识蒸馏[27]来防止忘记网络网络联合负责人网络+v：mala2255获取更多论文类增量新类发现3基类和具有任务特定网络权重的聚类目标[33]小说类的。[29 ]第29话，这是一个很好的选择。通过单独提高网络学习新类的能力，我们还额外地提高了iNCD中的增量学习方面。具体来说，受基于排练的增量学习方法[2，7，31]的启发，我们建议将先前任务中的基类特征原型存在源自然后重放所存储的原型，以防止除了特征级知识提取之外忘记关于基类的旧信息。另一方面，为了促进新类的学习，我们专门设计了一个特定于任务的分类器，该分类器使用鲁棒的秩统计进行了优化[15]。不利的是，任务特定分类器的引入导致在推理期间对输入样本的task-id的依赖。为了克服对task-id的依赖，我们建议为基础类和新类维护一个联合分类器，该分类器使用由特定任务生成的伪标签进行训练。我们将此设置称为类增量NCD（class-iNCD），因为它不允许在推理期间使用task-id信息。图1（b）显示了新的类别-非传染性疾病设置的高级概述。由于我们提出的方法将特征提取和蒸馏与Self-T训练相结合，我们将其命名为FRoST。总之，这项工作的贡献有三个方面：– 我们提出了一个新的框架，FRoST，可以解决新引入的类增量新类发现（类iNCD）的相关任务– 我们的FRoST配备了用于特征重放的原型，并采用特征级知识蒸馏来防止遗忘。此外，它使用来自任务特定头部的伪标签来有效地学习新的类而不受干扰，使我们能够实现与任务无关的分类器。– 我们在三个常见的基准上进行了大量的实验，以证明我们的方法的有效性。与现有基准相比，FRoST还获得了最先进的性能此外，我们运行的一系列任务的未标记集的实验，并验证其通用性。2相关作品新类发现（NCD）处理通过利用从另一个标记数据集获取的知识来学习在未标记数据集中发现新语义类的任务[16]。它假设在标签和非标签集的类是不相交的。到目前为止，已经提出了几种NCD方法，它们可以大致分为两大类。第一类NCD方法使用阶段式训练方案，其中模型首先在标记集上进行预训练，然后使用无监督聚类损失对未标记数据进行微调[19，20，16，29]。除了[29]，上述方法都没有考虑解决遗忘问题，因此模型失去了对基类进行分类的能力第二类包括NCD方法，假设标记和未标记的数据同时可用，然后联合训练[15，36，37，21，11]。证明+v：mala2255获取更多论文我我i=1Jj=I4个S. Roy等人在[29]中，依赖于联合训练的NCD方法总是优于阶段式NCD方法。然而，后一种NCD方法依赖于标记数据的可用性，由于隐私原因，这通常是不允许的。这使得分阶段训练方案有利于解决班级非传染性疾病，但它缺乏防止遗忘的能力。与ResTune [29]类似，我们还构建了可以以阶段方式训练的框架，并且还能够保持基类的性能。与Resune不同我们使用新的类分类器的预测作为伪标签（PL）来训练一个单一的联合分类器，可以分类的基础和新的类。增量学习（IL）是一种学习范式，其中模型在一系列任务上进行训练，使得仅来自当前任务的数据可用于训练，而模型在所有观察到的任务上进行评估。 IL方法的设计是为了防止灾难性的遗忘[13]的模型，旧的任务，同时足够灵活地学习新的任务[6]。大多数早期的IL方法解决了任务增量学习设置（task-IL），其中模型可以访问task-id，以便在测试阶段选择特定于任务的分类器。考虑到在推理过程中知道task-id的实际限制，最近的IL方法已经开始解决类增量学习（class-IL）设置，其中task-id在推理过程中不可用。这使得类IL设置实用，同时比任务IL设置更具挑战性。我们的FRoST也在类IL设置中运行，我们称之为类iNCD。现有的IL方法可以细分为分为三大类：基于规则化的方法[22，34，27，9]，基于范例的方法[31，5，2，7]和专注于任务近因偏差问题的方法[32]。我们建议读者参考[30]中的调查，以获得IL类方法的详尽列表。在我们的FRoST中，我们建议使用知识蒸馏的组合[27]在中间特征级，分别存储基类特征原型作为样本，以防止特征提取器和分类器中的遗忘。我们稍后在SEC讨论。3为什么这种选择适合于类iNCD设置。3方法在本节中，我们将描述我们的FRoST用于类iNCD任务在深入研究细节之前，我们列出了一些与我们的方法相关的细节。问题定义和符号。在类增量新类发现（class-iNCD）的设置中，我们最初给出n[L]个标记的数据集D[L]={（x[L]，y[L]）}n[L]属于受监督任务T[L]，其中x[L]∈ X[L]表示输入图像，y[L]∈ Y[L]表示为：|C[L]|一维热标签。一旦在任务T[L]上完成了标准监督训练，数据集D[L]就被丢弃，并且我们呈现了来自新任务 T[U] 的 n[U] 个实例。任务 T[U] 具有未标记的数据集D[U]={x[U]}n[U]，其中x[U]∈X[U]是包含C[U]类的未标记图像。如在任何NCD设置[16]中，假设Y[L]和Y[U]中的标签是不相交的，i。例如，Y[L]Y[U]=。类iNCD的目标是通过仅利用映射函数f[L]：X[L] → Y[L]中包含的学习信息来对D [U]中的图像进行聚类，而+v：mala2255获取更多论文不CX → YD∈ {X <$X}X → Y→ Y不类增量新类发现5所有类别新班所有类别GT前累积=100%不合理匈牙利语作业测验(a) （b）与任务无关的评价图二. 评价方案比较（a）iNCD中任务特定头部的评价[29]和（b）我们班iNCD中任务不可知头部的评价。在前一个任务中仍然表现良好[L]。换句话说，我们感兴趣的是学习单个映射函数f：[L][U]，该函数可用于推断任何测试图像x的标签[L][U].这与现有的NCD方法形成鲜明对比，其中对[L]的性能不感兴趣。评价方案。在NCD方法[11，36]中，分别为旧类和新类3训练任务特定的头部。这造成了限制，因为它们只能在特定任务的NCD设置中操作为了解决这个问题，ResTune [29]在推理过程中使用新旧头部的连接类增量性能通过匈牙利分配（HA）[25]将此问题视为聚类任务来估计。然而，这种评估协议在类iNCD中确实是不合适的，因为它没有显式地区分新旧类。如图2（a）所示，分类器将旧类的样本识别为新类（反之亦然），但HA获得的准确度仍然是100%，使得[29]中的评价不公平。在这项工作中，我们学习了一个任务不可知的头（或联合头），并提出了一个新的评估协议类iNCD（见图）。2（b））。具体来说，我们首先使用新的头部来估计来自新类的未标记数据的预测。我们利用HA [25]仅根据新类的预测和地面实况标签重新分配地面实况ID。联合（任务不可知）分类器用于评估新的类测试样本，直接比较预测与这些重新分配的地面实况标签。而对于旧类的测试数据，我们使用旧类的地面实况进行评估。如图2（b）所示，我们的评估协议明确区分了旧类和新很明显，我们的评估比[29]更合理，并且当新类被分类为旧类时会惩罚度量，这是一种理想的行为。总体框架。在增量学习设置中，我们提出的FRoST（见图1）。（3）分两个阶段进行在第一阶段中，我们以监督的方式在标记的数据集[L]上学习映射函数f[L]：[L][L]，该标记的数据集[L]可以识别属于第一[L]个类别的样本。我们用一个神经网络对函数f[L]进行建模，该神经网络进一步由两个子网络组成：特征提取器g（·）和输出C[L]logits的线性分类器h[L]（·），例如3当提到类时，我们认为旧的基础;和，新的小说互换。康卡特角32GT ID新掌门01集群+2预23R-GTGT+2是#旧类预R-GT匈牙利分配加速度=0%基于聚类直接比较测试联合首长上一篇：预测GT：Ground TruthR-GT：重新分配的GT旧0 1新2 3230101231000233323010132+v：mala2255获取更多论文1 2 3 4 51 2 3 4 51 2 3 4 51 2 3 4 5抽样标签旧原型ℒ()联合ℒr%p+/0旧类训练后的全新预测预测删除未标记数据新阶级网老ℒ老新生成伪标签*e+f培训第%s#$%伪标号固定◦不DC不NTTC cCDD网老6S. Roy等人学习旧类的任务学习新类的图3. 概述了拟议的FroST。左：在旧类上有监督地（Lce）学习基本模型。旧的类原型和变化被存储。右：新类是通过聚类目标（Lbce）学习的。通过对类原型使用特征提取（LKD）和特征重放（L重放）来防止对旧类的遗忘。联合分类器通过使用伪标签的自训练（Lself）来学习故f[L]=h[L]≠g。特征提取器g和分类器h[L]分别由yθ g和θ h[L]参数化。在我们进入第二阶段之前，我们从属于每个类c的中间特征z[L]= g（x[L]）计算每个类的中间特征原型μ c。此外，我们还计算并存储类c的特征的方差为vc2。第二阶段[L]被丢弃，新的类被学习[U]通过重用传递的网络权重f[L]。由于我们的目标是学习一个可以容纳[A]=[L]+[U]类的唯一分类器，因此我们将分类器h[L]扩展为h[A]，以便合并[U]个新类。除了h[A]之外，我们为[U]实例化一个新的任务特定分类器h[U]，[U]专门对小说类进行分类。分类器h[A]和h[U]分别由θ h[U]和θ h[A]参数化。详细地说，网络f[U]= h[U]g是使用[15]中的聚类目标训练的，该目标利用先前学习的信息来使用鲁棒的秩统计提供监督。为了学习联合分类器h[A]，我们从h[U]中获得x[U]的伪标签，并将其提取到h[A]的新扩展部分，该部分处理新的类。另一方面，为了减轻对[L]的基类的遗忘，我们采用了两种策略：g上的特征级知识蒸馏[18，27]，确保在[U]上学习时，旧任务[L]的特征编码不会漂移太远;从高斯分布（μc，vc2）中提取的生成特征重放用于保持h[A]的顶部部分的性能，这部分负责对基类进行分类。在推理期间，使用分类器h[A]3.1预赛监督训练。在类iNCD任务的第一阶段中，我们从D[L]中发现标记图像。这个阶段包括学习一个有监督的+v：mala2255获取更多论文{}不ΣΣ不◦T不不TTTTL=−EΣΣcep（x[L]，y[ L]）C[L]KKK类增量新类发现7模型f[L]，其可以对从任务[L]中提取的基类进行分类。我们的目标是通过使用监督交叉熵损失来学习模型f[L]=h[L]g的参数（θg，θh[L]）：L=−EC[L]1y[L]logσ（h[L]（g（x[L]），（1）k=1其中，σk（l）=exp（lk）/jexp（lj）表示对应于模型的第k个输出，C[L]是任务T[L]中的c个任务的个数。知识蒸馏，防止遗忘。在学习了给定任务的最佳模型之后，IL的主要挑战是在不忘记过去信息的情况下学习新任务。一种非常流行的基于正则化的方法来克服对先前学习的任务的遗忘是使用知识蒸馏（KD）[18]。具体地说，基于KD的无遗忘学习（LwF）[27]是IL中常用的有效方法。它包括惩罚网络，如果在学习新任务时，以前任务的数据表示漂移太远。假设简化的任务IL学习场景仅包含两个任务：[old]和[new]，其中模型f[old]=h[old]g已经使用等式中的目标进行了训练。（1）提出了一个新的学习任务[new]。“学”的目的是防止忘记，而“学”的目的是防止忘记。[新的]。LwFk表示f[old]=h[old]的所有模型的副本g[old]并同时创建一个新实例f[new]= h[new]g[new]（其中g[new]= g[old]）用于在[new]上学习。 f[new]与f[old]在最终分类头中不同，其中特定于任务的分类器h[new]专门处理[new]中新类的类分配。给定来自新任务[新]的样本x[新]，LwF旨在从冻结的f [旧]中获得预先记录的logitsa[旧]=h[旧]（g[旧]（x[新]）），其中旧任务logitsa[旧]=h[旧]（g[新]（x[新]））。实际上，它可以防止g[new]产生与g[old]太不一样的特征编码，因为旧任务的成功非常依赖于它。通常，logits水平的LwFlogits[老]1π（h[old]（g[old]（x[new]）logπ（h[old]（g[new]（x[new]），KDp（x[new]）K[old]Kk=1K（二更）其中πk（a）=exp（ak/τ）/jexp（aj /τ）是模型的受控温度，τ是温度。参数（{θ g[new]，θ h[old]}）cor-k-[2019 - 04- 19][2019 -04 - 05][2019 - 05]（二）、然而，在LwF方法中需要具有单独的任务特定分类器，这限制了此类模型对任务IL设置的适用性，如ResTune [29]。虽然LwF可以理想地扩展到由单个分类器组成的类IL，但它需要在第一个任务期间预先分配所有logit。先验地知道任务和它们的构成类的基数的假设是不切实际的。因此，我们建立在顶级LwF上，并使其适应类iNCD。+v：mala2255获取更多论文D◦DD→S{} P{|| }IJ我IJJK我KJ我J我J8个S. Roy等人3.2类增量式新类发现我们有兴趣学习一种模型，该模型可以在标记的图像集上训练模型后，将未标记的图像递增地聚类到一组新的类中除了在新类上的良好性能之外，我们还希望保留先前看到的类的性能，而无需访问或存储来自先前任务的图像。最重要的是，在训练过程中的任何时间点，我们为迄今为止看到的所有类维护一个单一的分类头为了应对i类非传染性疾病这一具有挑战性的任务，我们建议从两个不同的方面来解决这一问题。第一个轴涉及通过使用聚类目标来学习未标记数据集[U]上的区分特征。虽然该模型在分类新类方面变得更好，但由于遗忘，它的性能在基类上逐渐恶化[ 8 ]。为了克服这个问题，第二个轴处理通过仅使用来自新任务的图像并结合特征重放策略来防止忘记所有我们在下面详细说明。新课程发现的自我训练。当呈现未标记的数据集[U]时，类iNCD中的发现步骤涉及学习网络的权重f[U]= h[U]G.虽然新初始化的分类器h[U]还缺乏将图像分类为新类别的能力，特征提取器另一只手已经在相关的标记数据集上进行了训练[L]和有一个概念，什么构成了一个图像的语义概念。采用来自NCD方法AutoNovel [15]的这种思想，一对未标记的图像（x[U]，x[U]）被推断并作为弱形式提供I j在发现阶段的监督特征描述符z[U]=g（x[U]）和我我z[U]=g（x[U]），对应于对（x[U]，x[U]），j j j j鲁棒秩统计。如果特征描述符的前k个排名维度如果（z[U]，z[U]）对相同，则（x[U]，x[U]）可以被认为属于i j i j在同一个班级。成对伪标签被公式化为：y[U]=1{top（z[U]）=top（z[U]）}，（3）其中top k：z[U]（1，. . . ，k）（1，. . .，z[U]）表示z [U]中的前k个最活跃的特征索引的子集。然后使用该成对伪标签以训练用于新类的分类器h[U]。详细地，分类器的预测的点积p ij = σ（g [ U ]（g（x [ U ]）），h [ U ]（g（x [ U ]），可以被解释为x[U]和x[U]之间的相似性，其中σ（·）是逻辑函数。因此成对的伪标签[U]计算公式。（3）用于执行此关联在x[U]和x[U]之间。参数（{θg，θh[U]}）都是用二进制训练的交叉熵损失为：[U][单位]Lbce=−Ep（z[U]）yijlo g（pi j）+（1−yij）lo g（1−pi j）。（四）而在Eq.（4）学习新类的分类器，这种训练方案使得推理步骤依赖于任务id，如ResTune。在+v：mala2255获取更多论文◦--不C布拉奇CC布拉奇C不DCMSElog σ（h（z））。（10）kp（x[U]，x<$[U]）|C[U]|KKCC|C|类增量新类发现9为了使我们的模型适用于class-iNCD，我们借助于从f[U]计算的伪标签来训练联合分类器h[A]。详细地说，给定学习模型f[A]= h[A]g的目标，我们使用h[U]来计算未标记图像x[U ]的伪标记向量[ U]。然后，y[U]用于监督h[A]的训练。自我训练损失被描述为：[答]L=−E1y[U]logσ（h[A]（g（x[U]），（5）哪里自我（x[U]，y[U]）|C[A]|KKk=1y=C[L]+argmaxh[U]（g（x[U]））。（六）k∈C[U]由于Eq.（3）可能是有噪声的，它可能导致一个经过严格训练的h[U]。因此，来自h [ U ]的nois_y_pseudo-labels_y_k[U]可能对联合分类器h [A]的训练具有不利影响。为了最小化级联误差传播，我们还强制未标记图像x[U]的两个相关视图之间的一致性。具体来说，使用x [ U ]上的随机数据扩充，我们可以生成相关视图x<$[U]，并以均方误差损失优化（θg ，θh[U]），如下所示：[单位]|C|1美元。.- 是的[U]2L=Eσh[U]（g（x[U]））−σh[U]（g（x<$ ））。（七）最后，发现新的类并为迄今为止看到的所有类使用单个类标识符的总损失可以写为：L novel = L bce + ω self （ t ） L self + ω mse （ t ） L mse（8）其中ωse l f（t）和ωmse（t）是用于保证学习稳定性的斜升函数。用于类增量学习的特征重放和提取。虽然所提出的自训练有助于模型f[A]发现新的类，它同时失去了预测[U]中旧类的能力。为了减轻遗忘，我们提出了特征重放和特征蒸馏。回想一下，在T [L]上的监督训练结束时，在丢弃D[L]之前，我们计算对于每个基类，类原型μ[L]和方差v[L]2为：C cµ[L]=n[L]1n[L]g（x[L]我）， v[L]2=n[L]1n[L]（g（x[L]我）−µ[L]）2，（9）ci=1ci =1其中n[L]表示[L]中属于类别c的样本的数量。在对新任务[U]进行学习时，通过重放来自T[L]的类特定高斯分布N（μ[L]，v[L]2）的特征来训练与基类C[L]相对应的联合分类器h[A]的权重。特征重放损失被给出为：[答]Lreplay=−E cC[L] E（z[L]，y[L]）<$N（µc，vc2）[L][A][L]KCk=1k=1|C|+v：mala2255获取更多论文feat[L][U]KDLL壮举KD210秒。Roy等人由于特征提取器g也在优化期间被更新，当量（8）、这会使原型过时。为了保持特征重放的有用性，我们在特征蒸馏的帮助下在g上添加了一个额外的正则化，它被给出为：L=−Ep（x[U]）.. g（x）−g（x）.. 、（十一）其中g[L]是来自先前任务的特征提取器，并且保持冻结。传统上，在监督类IL或任务IL中，在监督地学习新任务时，在logits空间中具有LwF损失的正则化通常是有效的。有效防止遗忘。而在类内NCD中，由于新类需要在没有明确监督的情况下学习，这使得NCD部分的优化干扰了遗忘部分的优化。这促使我们将不遗忘的目标分解为重放和壮举。我们稍后将在SEC中展示。4.通过充分的实验，分析了LwF在网络逻辑上的不足。不忘记过去信息的总体目标如下：其中λ用于对特征蒸馏损失进行加权。整体训练。最后，我们的FRoST优化了以下目标：L FRoST = L novel + L past。（十三）4实验4.1实验装置数据集。我们使用了三个数据集来进行iNCD类的实验：CIFAR-10[23]，CIFAR-100 [23]和Tiny-ImageNet [26]。我们根据现有的NCD和iNCD工作将数据集分为旧类和新类[15，36，29]。补充材料中报告了分摊情况。评价指标。我们使用了新的评估方案（第 3）对所有类别的测试数据进行性能评估。我们报告三个分类精度，表示为旧的，新的和所有。它们分别表示从旧类、新类和旧+新类的样本上的联合分类器头获得的准确度详见补充资料。我们使用ResNet-18 [17]作为所有实验的主干。我们采用了AutoNovel的大部分超参数[15]。我们仅引入一个附加的超参数λ，其被设置为10。其余执行细节见补充材料。4.2消融研究特征重放和提取的有效性。在Tab。1.我们衡量为不遗忘而提出的组件的影响：特征蒸馏（FD），+v：mala2255获取更多论文old Newold Newold New类增量新类发现11表1. 消融研究提出的特征提取（FD），特征重放（FR）和自我训练（ST），形成我们的FRoST类iNCD。方法CIFAR-10老新的全CIFAR-100旧的新的全部Tiny-ImageNet旧的新的全部平均旧的新的全部FRoST（Ours）77.449.5 63.5 62.5 45.8 59.2 54.4 33.9 52.4 64.8 43.1 58.3不带FD FR0.036.4 18.20.033.16.60.037.23.70.035.69.5不含FD0.039.4 19.70.033.16.60.034.33.40.035.69.9不含FR0.073.3 36.60.057.8 11.60.040.9 4.10.0 57.3 17.4W/OSt91.70.045.8 69.2 0.055.4 57.5 0.051.7 72.8 0.051.0W/OFD FR ST16.60.08.32.70.02.12.00.01.87.10.04.1班级班级(a) 我们的（b）我们的，不含FD FR（c）我们的，不含ST图四、分类器权重的L2范数的比较。我们的完整方法平衡了L2-范数，从而在新旧类的分类中实现了更好的平衡。和特征重放（FR）。没有FD和FR的FRoST导致完全忘记旧类。这并不奇怪，因为没有FD，特征提取器已经远离了原始配置。此外，由于对应于新类别的联合分类器权重仅在NCD阶段期间被（10）），它会导致所谓的任务近因偏差，导致新类权重的更高标准（见图11）。4）。换句话说，对于任何旧的测试样本，分类器都高度偏向于预测新的类别，导致旧类别的完全错误分类。当启用FD但禁用FR时，观察到类似的效果。自我训练的有效性。在Tab的下半部分。1我们显示的影响，没有自我训练（ST）的性能。冰霜w/o ST不会对新类的优化造成干扰，并且联合分类器能够保持旧类的性能。这突出了在类iNCD设置中平衡新旧类的性能的真正复杂的性质。这种现象在图4中通过联合分类器的权重的范数来可视化，其中在旧类与新类之间存在很大的差异。通过观察图5中报告的混淆矩阵也可以得出类似的结论。此外，当我们FD和FR与ST一起，我们注意到性能进一步下降的老类，展示了积极的影响，FR和FD在不忘记。我们的特征重放和提取与LwF的比较。在这里，我们经验性地证明了在学习类iNCD的联合分类器时，需要将LwF目标解耦为FR和FD。作为对照实验，我们使用LwF的原始公式（如等式2所示）。（2）作为一滴-代替我们的FR和FD我们用原始的LwF损失进行优化L2-权L2-权L2-权+v：mala2255获取更多论文12 S. Roy等人(a) 我们的（b）我们的w/o FD FR（c）我们的w/o ST（d）AutoNovel（e）ResTune图五、不同方法混淆矩阵的比较。请注意，新类的标签ID由我们的评估协议重新分配。应用于softmax和pre-softmax输出，并发现比较为了FRoST，新类的性能得到了提高，但代价是旧类的性能大幅下降。我们推测，由于新类的权重在NCD阶段开始时在h[A]中随机初始化，因此联合分类器作为一个整体以与特征提取器g不同的速率学习，特征提取器g已经在旧类上进行了预训练。由于LwF损失优化了g和h[A]，因此会导致新类的慢-快学习干扰。这是显而易见的，从更好的新类性能w.r.tFRoST。如Tab中所示。事实上，将FR添加到LwF提高了旧类的性能（例如，，6.8% vs Tiny-ImageNet的49.9%）。这再次证明了FR的有效性以及在类NCD中解耦不遗忘表2. 比较FRoST与LwF的消融研究（logits-KD）。IL方法CIFAR-10旧的新的全部CIFAR-100旧的新的全部Tiny-ImageNet旧的新的全部平均旧的新的全部FRoST（Ours）77.449.563.562.545.859.254.433.964.843.158.3LwF（softmax）13.6 63.2 38.47.463.518.62.142.86.27.756.5 21.1LwF（softmax）+FR21.4 61.1 41.333.3 61.2 38.935.3 33.1 35.030.0 51.8 38.4LwF（前softmax）19.4 76.3 47.913.6 61.4 23.26.838.7 10.013.358.827.0LwF（pre-softmax）+FR24.877.551.149.3 58.3 51.149.9 26.8 47.641.3 54.2 49.9使用联合分类器和新分类器的效果。在这里，我们详细说明了在FRoST中使用联合h[A]和新颖h[U]分类头来解决类iNCD的选择。我们在Tab中报告关节基线。3，其中我们丢弃新的分类器头并且单独使用联合分类器来学习新类和旧类。我们发现，这种方法会阻碍CIFAR 10和Tiny-ImagenNet数据集的新类学习，因为同一分类器的两个部分会受到不同幅度的梯度影响，这突出了将两个任务的学习解耦的必要性。在接下来的消融中，我们还禁用了ST与由联合本身生成的伪标签，我们发现它会破坏新类的性能。最后，我们构建了一个消融，其中我们没有将h[L]扩展到h[A]，而是使用h[L]与h[U]结合，并表示为Novel w/o ST。我们观察到这与之前表中FRoST w/o ST的消融分析类似。1.一、因此，我们的结论是，有关节和新的头部训练与ST是至关重要的类iNCD。+v：mala2255获取更多论文类增量新类发现13表3. 新、老班级单头和分头的消融研究。联合：类不可知头;新颖：新类分类器头。分类器头CIFAR-10旧的新的全部CIFAR-100旧的新的全部Tiny-ImageNet旧的新的全部平均旧的新的全部联合+小说（我们的）77.4 49.5 63.5 62.5 45.8 59.254.4 33.9 52.4 64.8 43.1 58.3联合81.3 41.5 61.4 64.5 46.3 60.9 56.88.452.0 67.5 32.1 58.1接头，不带ST91.70.045.8 68.6 29.4 60.757.50.151.7 72.6 9.952.8新型，不含ST92.0 0.046.0 67.9 32.1 60.7 57.9 0.052.1 72.6 10.7 52.9表4. 与最先进的方法在类iNCD比较。方法CIFAR-10旧的新的全部CIFAR-100旧的新的全部Tiny-ImageNet旧的新的全部平均旧的新的全部[15]第十五话 27.53.5十五点五2.615.25.12.026.44.510.7 15.0 8.4[29]第二十九话91.70.0四十五点九73.80.0 59.044.30.0三十九点九69.90.0 48.3NCL[36]92.01.1 46.573.6 10.160.90.86.51.455.55.936.3DTC[14]64.00.032.055.90.0四十四点七35.50.032.051.80.036.2霜77.549.5 63.464.645.859.2 54.5 33.7 52.365.539.8 54.94.3与最先进方法的比较我们比较我们的FRoST与国家的最先进的NCD方法下我们还与最近提出的用于iNCD的方法ResTune [29]进行了比较。由于这些现有的方法都没有在类iNCD设置中进行评估，我们重新运行基线，并简单地修改了第2节中描述的评估协议3. 我们报告了NCD [15，36，16]，iNCD[29]基线和FRoST的结果。四、可以观察到，在类iNCD下，所有NCD[15，36，16]都未能在新旧类上获得良好的平衡。有趣的是，虽然这些NCD方法都没有使用任何明确的目标来防止遗忘，但它们往往能很好地预测旧类（参见选项卡中的旧列）。4）和新类的表现不佳（参见选项卡中的新列）。4）。当可视化图5中的混淆矩阵时，我们发现大多数测试样本被分类为旧类，因为旧类分类器具有更高的范数。因此，这给人的印象是基线方法能够保留旧类的性能。第二，对于上述方法，虽然新类的性能与联合头似乎是低的，他们的新头在任务感知评估的实际性能确实很高。我们报告的新类性能的细分表。其中，例如，列New- 1-N表示新类上的新头部的任务感知聚类性能可以观察到，NCD基线的新类分类器确实可以在新类上学习（例如，NCL组为34.2%，FRoST组为32.4%尽管ResTune是专门为iNCD设置设计的，但它也表现出类似的反直觉行为，旧类的性能主导了新类。为了研究这种病理学，我们检查图5（e）中的混淆CIFAR10的旧类。换句话说，ResTune [29]中报告的整体性能实际上由旧类的性能主导。我们报告+v：mala2255获取更多论文14岁。Roy等人表5. 与两步类iNCD设置中的最新方法进行比较，其中新类在两个事件中到达，而不是一个。New-1-J：第一步时来自接头头部的新类别性能，New-1-N：第一步时来自新型头部的新类别性能，等等。方法Tiny-ImageNet老第一步（180-10）新建-1-J新建-1-N全部第二步（180-10-10）旧新-1-J新-2-J新-1-N新-2-N全部[29]第二十九话39.70.038.037.6 34.90.00.025.442.831.4DTC[14]38.90.043.836.9 33.40.00.028.059.430.1NCL[36]5.60.034.25.31.40.02.621.641.61.4霜55.227.632.053.8 42.534.831.231.246.841.6补充材料中较大数据集的混淆矩阵这表明，现有的评估方法iNCD是有缺陷的，我们提出的类- iNCD确实是更有意义的，正确评估的学习算法的有效性。首先，我们提出的FRoST在所有测试数据集中始终实现了良好的这也证明了我们提出的FRoST组件的有效性。我们在补充材料中提供了ResTune和FRoST之间的详细对比分析。两步式课程-iNCD。正如在类IL文献[30]中所做的那样，我们还对一系列新任务进行了实验，我们称之为两步类iNCD，其中Tiny-ImageNet中的20个新类分两步添加，每一步处理10个新类。我们将我们的FRoST与Tab中的基线方法进行了5，其中我们不仅显示了联合分类器头部性能（e。例如，在一个实施例中，新-1-J），但也从新的分类头（e。例如，在一个实施例中，新-1-N和新-2-N）。可以看出，对于基线方法，新的分类器头可以令人满意地发现新的类在每一步，但当评估与联合头偏置的预测到旧的类。与基线不同，FRoST不会受到这个问题的影响，并导致更平衡的预测。5结论在这项工作中，我们解决了类增量NCD的新问题这个任务不同于传统的NCD，因为我们不仅对发现新的类感兴趣，而且还旨在防止忘记旧的类。为了防止这种遗忘现象，我们提出了非常适合于类iNCD的特征重放和特征级蒸馏此外，为了使推理任务不可知，我们建议维护一个联合分类器，可以对任何以前看到的类进行分类。我们训练这个联合分类器使用的伪标签生成的新的分类器头，训练与聚类损失。我们比较了我们的方法，许多相关的作品，并在各种基准测试中获得了优异的性能。鉴于类非传

下载后可阅读完整内容，剩余1页未读，立即下载