没有合适的资源?快使用搜索试试~ 我知道了~
Class 4Class 5Session 2Class 1Class 2Class 3Base Session (Session 0)ReservedReservedold classes drastically declines. How to design effective CILalgorithms to overcome catastrophic forgetting has attractedmuch interest in the computer vision field [22,25,48,50,60].Current CIL methods address the scenario where newclasses are available with sufficient instances. However, thedata collection and labeling cost can be relatively high inmany applications. Take a rare bird classification modelfor an example. We can only use few-shot images to trainthe incremental model since they are hard to collect. Thistask is called Few-Shot Class-Incremental Learning (FSCIL),which is shown at the top of Figure 1. A model needs tosequentially incorporate new classes with limited instanceswithout harming the discriminability of old classes. Apartfrom the forgetting problem, it also triggers overfitting onfew-shot instances. As a result, some algorithms [58, 67]are proposed to solve FSCIL from the few-shot learning per-spective, aiming to alleviate overfitting in model updating.In FSCIL, a sequence of models should work togetherwith harmony, i.e., the updated model should maintain thediscriminability of old classes. Such a learning process issimilar to software development. The newer version soft-ware should accept the data that worked under the previ-ous version, which is referred to as ‘backward compatibil-90460前向兼容few-shot类增量学习0周大伟1,王福运1,叶汉佳1†,马亮2,浦世亮2,詹德川101 南京大学新软件技术国家重点实验室 2 海康威视研究院0{ zhoudw, yehj, zhandc } @lamda.nju.edu.cn, wangfuyun@smail.nju.edu.cn, { maliang6, pushiliang.hri } @hikvision.com0摘要0在我们不断变化的世界中,经常出现新的类别,例如认证系统中的新用户,机器学习模型应该能够识别新的类别而不忘记旧的类别。当新类别的实例不足时,这种情况变得更具挑战性,这被称为few-shot类增量学习(FSCIL)。目前的方法通过使更新的模型与旧模型相似来处理增量学习。相比之下,我们建议进行前瞻性学习以准备未来的更新,并提出了前向兼容训练(FACT)用于FSCIL。前向兼容性要求根据当前阶段的数据,未来的新类别能够轻松地融入当前模型,并且我们通过为未来的新类别保留嵌入空间来实现这一目标。具体而言,我们分配虚拟原型来压缩已知类别的嵌入并为新类别保留空间。此外,我们预测可能的新类别并为更新过程做准备。虚拟原型允许模型在未来接受可能的更新,在推理过程中充当散布在嵌入空间中的代理,以构建更强的分类器。FACT能够有效地将新类别与前向兼容性结合起来,同时抵抗旧类别的遗忘。大量实验证实了FACT的最先进性能。代码可在以下链接找到:https://github.com/zhoudw-zdw/CVPR22-Fact01. 引言0近年来,深度神经网络在许多视觉任务中取得了重大突破[14, 19, 36, 40,54]。然而,数据通常以流格式[18]出现,实际应用中出现新类别[12, 63,65],例如电子商务中的新产品类型。它要求模型逐步增量地融入新的类别知识,这被称为类增量学习(CIL)。在用新类别更新模型时,会出现一个致命问题,即灾难性遗忘[16] -旧类别的可区分性急剧下降。如何设计有效的CIL算法以克服灾难性遗忘已经引起了计算机视觉领域的广泛关注[22, 25, 48, 50,60]。目前的CIL方法处理的是新类别具有足够实例的情况。然而,在许多应用中,数据收集和标注成本可能相对较高。以稀有鸟类分类模型为例。由于很难收集,我们只能使用少量的few-shot图像来训练增量模型。这个任务被称为few-shot类增量学习(FSCIL),如图1顶部所示。模型需要顺序地将新类别与有限的实例融入,而不损害旧类别的可区分性。除了遗忘问题,它还会在few-shot实例上引发过拟合。因此,一些算法[58,67]从few-shot学习的角度提出来解决FSCIL,旨在减轻模型更新中的过拟合。在FSCIL中,一系列模型应该协同工作,即更新的模型应该保持旧类别的可区分性。这样的学习过程类似于软件开发。新版本软件应该接受在以前版本下工作的数据,这被称为“向后兼容性”。0† 通讯作者:叶汉佳(yehj@lamda.nju.edu.cn)0会话10类别60类别70保留0传统训练 前向兼容训练0图1.上图:FSCIL的设置。我们需要维护一个覆盖所有类别的分类器,其中具有非重叠类别的会话按顺序到达。在基础会话中有大量的训练实例,而在增量会话中只有少量的few-shot实例。该模型应该在不忘记旧类别的情况下融入新类别。下图:前向兼容训练方案。与传统的训练范式不同,我们在基础会话中为未来可能的扩展保留了嵌入空间。90470ity' [29,43]。它衡量了不同系统在没有适应的情况下一起工作的能力。从这个角度来看,克服遗忘的能力代表了模型的向后兼容性-如果更新的模型擅长分类以前的类别,它与旧模型兼容并且不会遗忘。因此,CIL方法通过保持旧类别的可区分性来增加向后兼容性,而FSCIL方法通过固定嵌入模块并纳入新类别来实现这一目标。当前的方法集中在向后兼容性上,这将遗忘的负担转移到后期模型上。然而,如果前一个模型的工作效果不好,后一个模型将会相应地降级。在增量阶段,很难保持向后兼容性。以软件开发为例。如果早期版本设计不好,后续版本需要努力进行补丁工作以保持向后兼容性。相比之下,更好的解决方案是在早期版本中考虑未来的扩展并提前保留接口。因此,另一种兼容性,即向前兼容性,对于FSCIL更为合适,它为模型未来的更新做准备。具有向前兼容性的模型应该是可扩展和预见的。一方面,可扩展意味着模型意识到未来的类别并为它们的嵌入空间腾出位置。因此,模型在更新时不需要挤压以前的类别的空间来为新类别腾出位置。预见性表示预测可能的未来类别的能力。模型应该预测未来并开发方法来最小化未来事件的冲击和压力。通过向前兼容性获得的好处是旧类别的嵌入空间将更加紧凑,新类别可以轻松地与保留的空间匹配,如图1所示。在本文中,我们提出了适用于FSCIL的ForwArd Compatible Training(FACT)来为未来的类别准备模型。为了使模型可扩展,我们在嵌入空间中预先分配多个虚拟原型,假装它们是保留的空间。通过优化这些虚拟原型,我们将来自同一类别的实例推向更近的位置,并为即将到来的新类别保留更多的空间。此外,我们还通过实例混合生成虚拟实例,使模型具备预见性。虚拟实例使我们能够通过明确的监督来保留嵌入空间。这些保留的虚拟原型可以在推理过程中看作是信息丰富的基向量,借助它们我们可以逐步构建一个强大的分类模型。我们在各种设置下对基准数据集进行了大量实验,验证了FACT的有效性。02. 相关工作0Few-Shot Learning (FSL): 旨在使用不足的训练实例来适应未知类别[9,47]。Few-shot学习算法-0rithms可以大致分为两组:基于优化的方法和基于度量的方法。基于优化的方法试图通过少量的训练数据实现快速模型适应[3, 4, 15,30]。基于度量的算法利用预训练的骨干网络进行特征提取,并使用适当的距离度量来衡量支持集和查询实例之间的距离[26, 37, 39, 45, 52, 53,57]。类增量学习(CIL)旨在学习一系列新类别而不遗忘旧类别,这在各种计算机视觉任务中被广泛讨论[13, 51, 62,64]。当前的CIL算法可以大致分为三组。第一组估计每个参数的重要性,并防止重要参数被改变[2, 22,56]。第二组利用知识蒸馏来保持模型的可区分性[20, 25,33]。其他方法通过回放以前的实例来克服遗忘[6, 48, 60,66]。Pernici等人[32]为未来的类别预先分配分类器,这需要额外的内存进行特征调整,不适用于FSCIL。Few-ShotClass-IncrementalLearning(FS-CIL)是最近提出的用于处理增量学习场景中的少样本输入的方法[1, 11, 24,61]。TOPIC[41]使用神经气体结构来保持旧类别和新类别之间特征的拓扑结构以抵抗遗忘。语义感知知识蒸馏[10]将词嵌入视为辅助信息,并构建知识蒸馏项以抵抗遗忘。为了抵抗在少样本输入上的过拟合,FSLL[27]在每个增量会话中选择更新的少量参数。CEC[58]是当前最先进的方法,它利用额外的图模型在分类器之间传播上下文信息以进行适应。向后兼容学习:‘兼容性’是软件工程中考虑的设计特性[17,29, 43,49]。向前兼容性允许系统接受针对其后续版本的输入,而向后兼容性允许与旧的遗留系统进行互操作。它们在[5,38]中引入到机器学习领域。最近的工作集中在提高模型的向后兼容性[7, 28,35],而我们是第一个在FSCIL中解决模型的向前兼容性的方法。03. 从旧类别到新类别0在本节中,我们首先描述了FSCIL的设置,然后介绍了基线方法及其局限性。03.1. 少样本类别增量学习0基础会话: 在FSCIL中,模型首先接收训练集 D 0 = { ( x i , y i) } n 0 i =1 ,其中包含足够的实例,并使用测试集 D 0 t = {( x j , y j ) } m 0 j =1 进行评估。D 0 被称为基本任务。* x i∈ R D 是基本任务中的训练实例,y i ∈ Y 0是基本任务的标签空间。算法适配0* 在本文中,我们可以互换使用'task'和'session'。̸LKD(x) =90480模型 f ( x ) 以最小化测试集上的经验风险为目标:0( x j ,y j ) ∈D 0 t ℓ ( f ( x j ) , y j ) , (1)0其中 ℓ ( ∙ , ∙ )衡量预测和实际标签之间的差异。模型可以分解为嵌入和线性分类器: f ( x ) = W � φ ( x ) ,其中 φ ( ∙ ) : R D → R d ,W ∈ R d ×| Y 0 | 。我们将类别 k 的分类器表示为 w k : W= [ w 1 , ∙ ∙ ∙ , w | Y 0 | ] 。增量会话:新类别通常以递增方式出现在实际应用中,即会出现一系列数据集� D 1 , ∙ ∙ ∙ , D B �。D b = { ( x i , y i ) } NK i =1,其中 y i ∈ Y b ,Y b 是任务 b 的标签空间。对于 b � = b′ ,Y b ∩ Y b ′ = � 。在训练任务 b 时,我们只能访问 D b中的数据。每个数据集中的有限实例可以组织为 N -way K-shot 格式,即数据集中有 N 个类别,每个类别有 K个示例。面对新的数据集 D b,模型应该学习新的类别并保持对旧类别的性能,即最小化所有测试数据集上的经验风险:0( x j ,y j ) ∈D 0 t ∪∙∙∙D b t ℓ ( f ( x j ) , y j ) .(2)03.2. FSCIL的向后兼容训练0知识蒸馏:为了使更新后的模型仍能够对旧类别实例进行分类,CIL中的一种常见方法是结合交叉熵损失和知识蒸馏损失[20]。它建立了前一模型和当前模型之间的映射,以保持向后兼容性:0L ( x , y ) = (1 − λ ) L CE ( x , y ) + λ L KD ( x )0k = 1 −S k ( ¯ W � ¯ φ ( x )) log S k ( W � φ (x )) , (3)0其中 Y b − 1 表示旧类别集合,Y b − 1 = Y 0 ∪ ∙ ∙ ∙ Y b −1 ,S k ( ∙ ) 表示经过softmax操作后的第 k个类别的概率。¯ W 和 ¯ φ 对应于学习 D b之前的冻结分类器和嵌入。将旧模型和当前模型的输出对齐有助于保持模型的可区分性并鼓励向后兼容性。原型网络:知识蒸馏在少样本输入上容易过拟合且效果不佳。因此,FSL算法被修改以克服过拟合并鼓励向后兼容性。ProtoNet[37]使用交叉熵损失在基本类别上训练模型。然后固定嵌入φ ( ∙ ) 并利用它提取每个类别的平均嵌入(即原型):0p i = 10K � |D b | j =1 I ( y j = i ) φ ( x j ) . (4)0I ( ∙ )是指示函数。平均嵌入表示每个类别的共同模式,用作0分类器即 w i = p i。嵌入在增量阶段保持不变,旧模型和新模型之间保持向后兼容性。忽视向前兼容性:方程3和方程4关注向后兼容性的不同方面。前者通过将旧模型和新模型对齐到相同的尺度来保持可区分性,后者通过固定嵌入来防止其偏移。它们从回顾的角度来看待增量学习-我们需要在更新过程中保持模型不变。然而,它们都没有考虑到向前兼容性,即在当前会话训练模型时,它应该为未来可能的更新做准备。从前瞻性的角度来看待增量学习是有益的-展望未来的可能更新。换句话说,训练过程应该是'未来可靠的'。如果我们为可能的新类别保留嵌入空间并预测它们的可能模式,适应成本将在未来释放。04. 面向FSCIL的前向兼容训练0受前向兼容性的潜力启发,我们试图增强FSCIL中的这些特性。训练目标是在基础会话中展望并准备即将到来的类别,我们从两个方面实现它。一方面,为了使模型具有可扩展性,我们试图将后验概率优化为双峰分布——除了真实类别外,我们为每个实例分配一个额外的类别。额外的标签代表为新类别保留的类别空间,在训练过程中明确进行优化。另一方面,为了使模型具有预见性,我们试图通过实例混合来预测新类别的可能分布。模拟的新实例有助于将静态训练转化为增量训练。在这种训练范式中保持前向兼容性。我们首先介绍如何保留嵌入空间,然后讨论如何在推理中使用它们。04.1. 使用虚拟原型进行预训练04.1.1 分配虚拟原型0在基础会话中,常见的预训练方法是优化训练集上的经验损失,不考虑未来的增量学习过程,并且扩展了嵌入空间。在D 0 中只有 | Y 0 | 个类别,但模型需要处理最终会话中的 | Y0 | + NB个类别。因此,传统的训练范式需要挤压旧类别的嵌入空间以为新类腾出空间,这需要多轮次,并且不适用于FSCIL。我们的分类基于实例嵌入和类别原型之间的相似性(我们用类别原型替换分类器权重),即 p ( y | x ) ∝ sim � w y , φ ( x ) �,它们越相似,x 属于类别 y 的概率越高。ℒ2ℒ3Lv(x, y) = ℓ(fv(x), y)����L1+γ ℓ (Mask(fv(x), y), ˆy)����L2Mask(fv(x), y) = fv(x) ⊗ (1 − OneHot(y)) ,(5)̸Lf(z) = ℓ(fv(z), ˆy)L3+γ ℓ (Mask(fv(z), ˆy), ˆˆy)L4,(7)90490已知类别0虚拟类0特征空间0概率空间0流形混合0� 40图2. F ACT的示意图。左图:使模型具有可扩展性。除了交叉熵损失(L1)之外,模型还将一个实例分配给一个虚拟类(L2),为新类保留空间。右图:使模型具有预见性。我们首先通过混合流形(用箭头表示)预测虚拟实例,然后通过将其分配给虚拟类和已知类进行对称保留过程。训练目标是一个双峰分布,强制实例被分配到不同的聚类并保留嵌入空间。0更可能属于类别 y 。我们使用余弦分类器作为相似性度量†:f ( x ) = ( W0∥ φ ( x ) ∥ 2 )。为了增强前向兼容性,我们在嵌入空间中预先分配了几个虚拟原型 Pv,并将它们视为“虚拟类别”。Pv = [ p 1 , ∙ ∙ ∙ , p V ] ∈ R d × V,其中 V是虚拟类别的数量。将当前模型的输出表示为 f v ( x ) = [W, P v ] � φ ( x ),我们试图为这 V 个类别保留嵌入空间:0其中 ˆ y = argmax v p � v φ ( x ) + | Y 0 |是具有最大逻辑回归的虚拟类别,充当伪标签。�是Hadamard乘积(逐元素相乘),1是全1向量。方程式5中的第一项对应于传统的训练损失,将输出与其真实标签匹配。第二项首先使用函数 Mask ( ∙ , ∙ )掩盖真实标签的逻辑回归,然后将剩余部分与伪标签 ˆ y匹配。由于 ˆ y是具有最大逻辑回归的虚拟类别,方程式5明确为 ˆ y保留了嵌入空间。虚拟原型的效果:方程式5强制 f v ( x )的输出为双峰分布,如图2左侧所示。第一项强制一个实例最接近其真实聚类,第二项将其与最接近的虚拟聚类匹配。通过优化方程式5,所有非目标类别原型将被推离保留的虚拟原型,并且决策边界将朝同一方向推进。因此,其他类别的嵌入将更加紧凑,虚拟类别的嵌入空间将被保留。因此,模型具有可扩展性并增强了前向兼容性。我们将 V设置为新类别的数量,即 V = NB 作为默认值。0†为了方便讨论,我们省略了范数,即f(x) = W�φ(x)。04.1.2 预测虚拟实例0为了使模型具有“未来可靠”的能力,即如果在预训练阶段已经见过新的模式,则保留的空间将更适合于即将到来的新类别。为此,我们尝试通过实例混合生成新的类别,并为这些生成的实例保留嵌入空间。受到两个不同聚类之间的插值通常是低置信度预测区域的直觉启发[44],我们通过流形混合[44]融合两个实例,并将融合的实例视为虚拟的新类别。我们将嵌入分解为两个部分,在中间层进行:φ(x) =g(h(x))。对于来自小批量中不同类别的任意实例对,例如(xi,xj),yi≠yj,我们将该对的嵌入融合为一个虚拟实例。0z = g[λh(xi) + (1 - λ)h(xj)], (6)0其中λ∈[0,1]是从Beta分布中采样得到的。将z的当前输出表示为fv(z) = [W, Pv]�z。类似于Eq.5中的虚拟损失,我们可以为虚拟实例z构建一个对称损失,以保留嵌入空间。0其中ˆy与Eq. 5中相同,是虚拟类别中的伪标签,而ˆˆy =argmaxkw�kz是当前已知类别中的伪标签。注意,Eq.7中的权衡参数γ与Eq. 5中相同。虚拟实例的作用:Eq.7是Eq.5的对称形式。生成虚拟类别预测了即将到来的新类别的可能分布,如图2右侧所示。第一项将混合实例z推向虚拟原型,并远离其他类别,为虚拟类别保留空间。此外,第二项将混合实例推向最近的已知类别,平衡已知类别和虚拟类别之间的权衡。p (yi|φ(x)) = p(wi|φ(x))=�pv∈Pvp(wi|pv, φ(x))p(pv|φ(x)) ,(8)p(wi|pv, φ(x)) =p(φ(x)|wi, pv)p(wi|pv)|Yb|j=1 p(φ(x)|wj, pv)p(wj|pv). (9)p(wi|pv, φ(x)) =p(φ(x)|wi, pv)p(wi|pv)�|Yb|j=1 p(φ(x)|wj, pv)p(wj|pv)(10)=Mixη (m (wi, φ (x)) , m (pv, φ (x))) m(wi, pv)|Yb|j=1 Mixη (m (wj, φ (x)) , m (pv, φ (x))) m(wj, pv),µ⊤Σ−1µ ,Mixη�exp�w⊤i (φ (x) + pv)�, exp�p⊤v (φ (x) + wi)��|Yb|j=1 Mixη exp w⊤j (φ (x) + pv) , exp (p⊤v (φ (x) + wj)).90500为了防止已知类别被过度压缩,我们使用虚拟损失来提高模型的前向兼容性。因此,模型通过模仿未来的实例来变得有远见,增强了前向兼容性。为什么虚拟损失增强兼容性:最终损失由Eq. 5和Eq. 7组合而成,即L = Lv +Lf,其中包含四个损失项。我们分析梯度以找出隐藏在虚拟原型中的内在直觉。将softmax操作符后的类别y的概率表示为ay,Eq. 5中的第一项对应于-logay,其相对于φ(x)的负梯度为:−�φ(x)L1 = wy − � |Y0| +Vi=1aiwi。它将嵌入推向真实类别中心的方向,远离其他类别,包括虚拟类别。类似地,我们得到梯度−�φ(x)L2 = wˆy − �|Y0| + Vi=1aiwi。注意,在优化L2时,对于真实类别上的logitay被屏蔽掉,因此我们可以将φ(x)的嵌入推向最近的虚拟原型,而不会影响分类性能。这些结论与图2中的双峰分布一致。我们对L3和L4进行相同的分析。假设g(x)为恒等函数,即φ(x) = h(x),梯度为:−�φ(xi)L3 = λ � wˆy − � |Y0| +Vk=1 akwk�。0−�φ(xj)L3 = (1 - λ) � wˆy − � |Y0| + Vk=1akwk�。它与L2的效果类似,将所有其他非目标类别的原型推离混合组件。因此,已知类别的嵌入被优化得更加紧凑,有助于前向兼容性。伪代码:我们在补充材料中给出了FACT的伪代码。在每个小批量中,我们首先计算Eq.5中的虚拟损失。然后,我们对数据集进行洗牌,并进行流形混合,计算Eq.7中的预测损失。注意,我们不会组合数据集中的所有可能配对(复杂度为O(n�n)),而是只混合具有相同索引的不同类别的实例(复杂度为O(n))。04.2. 带有虚拟原型的增量推理0我们已经阐述了虚拟原型的见解,剩下的问题是如何在推理过程中使用它们。主要思想是将它们视为嵌入空间中编码的基础,并考虑这些基础对预测结果的可能影响。每当增量数据集 D b 到达时,我们提取这些新类别的原型作为方程4,并扩展我们的分类器:W = [W; w i , i ∈ Yb]。我们将类别原型视为每个类别的表示。根据全概率公式,我们有:0‡ 我们将 [W, P v] 视为均匀分类器,并在分析中不区分 w 和 p 以便于讨论。0p v ∈ Pv exp( p v � φ ( x )) . 方程 8意味着我们可以考虑所有信息丰富的虚拟原型对最终预测的可能影响。对于来自类别 y i 的嵌入 φ ( x ) ,其伪标签为 ˆy = v ,它应该遵循类别 w i 和 p v之间的双峰分布,这与训练目标一致。因此,我们假设 p (φ ( x ) | w i , p v ) = η N ( φ ( x ) | w i , Σ) + (1 − η ) N (φ ( x ) | p v , Σ) 。 φ ( x ) 遵循高斯混合分布,是 N ( φ ( x) | w i , Σ) 和 N ( φ ( x ) | p v , Σ)的线性叠加。根据贝叶斯定理:0|Y b |是之前所见类别的数量。分母和分子中的最后一项衡量了类别 wi 和 p v 之间的相似性,我们假设它们遵循高斯分布,即 p ( w i| p v ) = N ( w i | p v , Σ) 。我们有:0其中 m ( µ , t ) = exp �� Σ − 1 µ � � t − 10Mix η ( a, b ) = ηa + (1 − η ) b . 当 φ ( x ) , p , w被归一化且 Σ = I 时,方程 10 变为:0具体来说,当 η = 1 时,方程 10 进一步简化为:exp ( w � i0� | Y b | j =1 exp ( w � j ( φ ( x )+ p v ) ) 。当0p ( w i | p v )是一个均匀分布,我们在补充材料中进行了分析。在我们的实现中,我们将 η 设置为 0.5作为默认值以简化问题。推理过程建立了一个通道,用于考虑虚拟原型对最终预测的影响并反映它们的影响力。总结起来,借助在预训练阶段学习到的虚拟原型,我们能够获得一个更具信息量的 φ ( x )分布,这有助于在增量阶段构建一个更强大的分类器。推理过程验证了F ACT的前向兼容性。05. 实验0在本节中,我们将FACT与基准FSCIL数据集和大规模数据集ImageNet上的最先进方法进行比较。消融实验证明了前向兼容训练的有效性,并且我们可视化了F ACT在新类别上的增量过程。080204060801002.9602100204060801004.66080204060801002.860840506070802.108204060801.371.2190510表1.CUB200数据集上每个增量会话的详细准确率。比较方法的结果引用自[41]和[58]。带有†的方法是在FSCIL设置下使用源代码复现的。其他数据集的结果请参考补充0每个会话的准确率(%) ↑ PD ↓ ∆ PD0Finetune 68.68 43.70 25.05 17.72 18.08 16.95 15.10 10.06 8.93 8.93 8.47 60.21 +41.25 Pre-Allocated RPC†[32] 68.47 51.00 45.42 40.7635.90 33.18 27.23 24.24 21.18 17.34 16.20 52.27 +33.31 iCaRL[33] 68.68 52.65 48.61 44.16 36.62 29.52 27.83 26.26 24.01 23.89 21.1647.52 +28.56 EEIL[8] 68.68 53.63 47.91 44.20 36.30 27.46 25.93 24.70 23.95 24.13 22.11 46.57 +27.61 Rebalancing[21] 68.68 57.1244.21 28.78 26.71 25.66 24.62 21.52 20.12 20.06 19.87 48.81 +29.85 TOPIC[41] 68.68 62.49 54.81 49.99 45.25 41.40 38.35 35.36 32.2228.31 26.26 42.40 +23.44 SPPR[67] 68.68 61.85 57.43 52.68 50.19 46.88 44.65 43.07 40.17 39.63 37.33 31.35 +12.39Decoupled-NegCosine†[26] 74.96 70.57 66.62 61.32 60.09 56.06 55.03 52.78 51.50 50.08 48.47 26.49 +7.53 Decoupled-Cosine[45]75.52 70.95 66.46 61.20 60.86 56.88 55.40 53.49 51.94 50.93 49.31 26.21 +7.25 Decoupled-DeepEMD[57] 75.35 70.69 66.68 62.34 59.7656.54 54.61 52.52 50.73 49.20 47.60 27.75 +8.79 CEC[58] 75.85 71.94 68.50 63.50 62.43 58.27 57.73 55.81 54.83 53.52 52.28 23.57+4.610F ACT 75.90 73.23 70.84 66.13 65.56 62.15 61.74 59.83 58.41 57.89 56.94 18.960增量会话0准确率(%)0FinetuneiCaRLEEIL0RebalancingTOPICDeepEMD0CosineCECFact0(a)CIFAR1000增量会话0准确率(%)0(b)CUB2000增量会话0准确率(%)0(c)mini ImageNet0图3. 每个增量会话的Top-1准确率。我们在(a)中显示图例,并在每条曲线末尾注释FACT与亚军方法之间的性能差距。详细数值请参考表1和补充材料。5.1. 实现细节0数据集:按照基准设置[41],我们在CIFAR100[23]、CUB200-2011[46]和miniImageNet[34]上评估性能。我们还在大规模数据集ImageNetILSVRC2012[14]上进行实验。CIFAR100包含来自100个类别的60,000张图像。CUB200是一个细粒度图像分类任务,有200个类别。miniImageNet是ImageNet[14]的一个子集,有100个类别。ImageNet1000包含1,000个类别,我们还根据[48]采样了100个类别的子集,称为ImageNet100。数据集划分:对于CIFAR100、miniImageNet和ImageNet100,100个类别被划分为60个基类和40个新类。新类别被分成了八个5-way5-shot的增量任务。对于CUB200,200个类别被划分为100个基类和100个增量类别,新类别被分成了十个10-way5-shot的增量任务。对于ImageNet1000,600个类别被选为基类,其他400个类别被分成了八个50-way5-shot的任务。我们使用相同的训练划分[41](包括基类和增量会话)进行公平比较。测试集与原始测试集相同,以进行整体评估。比较方法:我们首先与经典的CIL方法iCaRL[33]、EEIL[8]、Pre-AllocatedRPC[32]和Rebalancing[21]进行比较。此外,我们还与当前的SOTA FSCIL算法TOPIC[41]、SPPR[67]进行比较。0增量会话0准确率(%)0CEC@1Fact@10CEC@5Fact@50(a)ImageNet1000增量会话0准确率(%)0CEC@1Fact@10CEC@5Fact@50(b) ImageNet10000图4.ImageNet100/1000的Top-1和Top-5准确率。每条曲线末尾标注了性能差距。0Decoupled-DeepEMD/Cosine/NegCosine [26, 45,57]和CEC[58]。我们将使用少样本实例微调模型的基准方法报告为“微调”。训练细节:所有模型都使用PyTorch[31]部署。我们对所有比较方法使用相同的网络骨干[41]。对于CIFAR100,我们使用ResNet20[19],而对于其他数据集,我们使用ResNet18。模型的批量大小为256,训练600个时期,我们使用带有动量的SGD进行优化。学习率从0.1开始,并以余弦退火方式衰减。评估协议:根据[41],我们将第i个会话后的Top-1准确率表示为Ai。我们还使用性能下降率(PD)定量测量遗忘现象,即PD= A 0 - A B,其中A 0表示基础会话后的准确率,A B表示085060708002006000400.00.20.40.60.890520增量会话0准确率(%)0L 1 L 1,L 2 L 1,L 2,L3 L 1,L 2,L 3,L4,ProtoNet L 1,L 2,L3,L 4,η = 0.50图5.割舍研究。保留和预测新类别的嵌入空间有助于增强前向兼容性。FACT 中的每个部分都提高了FSCIL的性能。0最后一个会话。05.2. 基准比较0我们在图3和表1中报告了基准数据集[41],即CIFAR100、CUB200和miniImageNet的性能曲线。我们还在大规模数据集ImageNet100/1000上报告了结果,即图4。从图3可以推断出,FACT在基准数据集上始终比当前的SOTA方法CEC高出3-5%。CIL方法的性能较差表明,通过输出限制来解决向后兼容性是不适合FSCIL的。向后兼容调整需要大量的训练实例,这与FSCIL场景不一致。FACT还优于通过嵌入冻结增强向后兼容性的FSCIL方法,表明考虑前向兼容性对FSCIL更加适合。此外,FACT的性能也优于考虑前向兼容性的Decoupled-NegCosine方法,这表明我们的训练方案对FSCIL更加适合。我们在表1中报告了CUB200数据集的详细值。它显示FACT在PD指标方面的降级最小,表明前向兼容训练始终抵抗FSCIL中的遗忘。除了使用小规模数据集的基准设置外,我们还建议使用大规模数据集进行实验,即ImageNet。我们在图4中报告了FACT和亚军方法CEC的Top-1和Top-5准确率。从图中可以看出,F ACT在所有指标上仍然优于CEC。总之,FACT始终以SOTA性能处理小规模和大规模FSCIL任务。05.3. 割舍研究0F ACT中有四个损失项,我们在CIFAR100数据集上进行割舍研究,分析F ACT中每个组成部分的重要性。实现细节与基准设置相同。我们在图5中报告了不同变体的准确率曲线。0(a)基础会话,5个旧类别和5个虚拟原型。0(b)增量会话,5个旧类别和5个新类别。0真实标签0虚拟标签0(c) 伪标签 ˆ y 为每个已知类别分配的内容。0图6.顶部:CIFAR100两个会话之间的决策边界可视化。旧类别显示为点,新类别显示为三角形。阴影区域表示决策边界。底部:每个已知类别的伪标签分配。每个已知类别分配给一个或多个虚拟类别。0在所有变体中,使用L1训练的模型的准确率最低。L1不考虑未来可能出现的新类别,并且将已知类别的嵌入空间过度扩散。因此,使用L1训练的模型缺乏向前兼容性,性能较差。当使用L2时,模型预先分配额外的虚拟原型,通过虚拟损失为新类别保留嵌入空间。因此,模型具有可扩展性,增加了向前兼容性。然后,我们添加L3来预测预训练过程中可能出现的新类别。通过预测未来并保留相应的空间,模型具有更好的兼容性。优化L4使最终损失对称,还增加了嵌入的紧凑性,便于FSCIL。最后,这些虚拟原型可以作为编码在嵌入空间中的基础,通过公式10进行推理。ProtoNet和公式10在η=0.5的情况下的比较验证了这些虚拟原型在推理过程中的有效性。割舍实验证明,向前兼容训练对FSCIL有帮助。05.4. 增量会话的可视化0我们使用CIFAR100数据集上的t-SNE[42]可视化了学习到的决策边界,如图6a、6b所示。图6a表示基础会话中的决策边界,我们训练了5个旧类和5个虚拟原型。已知类别用彩色点表示,它们的原型用方块表示。黑色方块表示虚拟原型,它们的嵌入空间用灰色表示。BaseNewHarmonic Mean 02040608071.5 71.1 73.928.833.940.5 41.145.952.3Decoupled-CosineCECFac
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功