没有合适的资源?快使用搜索试试~ 我知道了~
Yujun Shi1 *Kuangqi Zhou1Jian Liang3Zihang Jiang1Jiashi Feng2Philip Torr4Song Bai2Vincent Y. F. Tan1shi.yujun@u.nus.eduvtan@nus.edu.sg167220模仿Oracle:一种类别增量学习的初始阶段去相关方法01新加坡国立大学 2字节跳动公司 3中国科学院自动化研究所 4牛津大学0摘要0类别增量学习(CIL)旨在以逐阶段的方式学习分类器,每个阶段只提供一部分类别的数据。先前的研究主要集中在初始阶段之后减少遗忘。然而,我们发现改进CIL的初始阶段也是一个有前途的方向。具体而言,我们通过实验证明,直接鼓励初始阶段的CIL学习器输出与同时训练所有类别的模型相似的表示,可以极大地提高CIL的性能。受此启发,我们研究了一个朴素训练的初始阶段模型和oracle模型之间的差异。具体而言,由于这两个模型之间的一个主要区别是训练类别的数量,我们研究了这种差异如何影响模型的表示。我们发现,训练类别较少时,每个类别的数据表示位于一个长而窄的区域内;而训练类别较多时,每个类别的表示更加均匀地分散。受到这一观察的启发,我们提出了类别间去相关(CwD)的方法,有效地使每个类别的表示均匀分散,从而模仿与所有类别一起训练的模型(即oracle模型)。我们的CwD方法实现简单,易于插入现有方法。对各种基准数据集的大量实验证明,CwD始终显著提高了现有最先进方法的性能,提升幅度约为1%至3%。代码:https://github.com/Yujun-Shi/CwD。01. 引言0不断获取新知识的能力是实现人工智能的关键。为了使分类模型具备这种能力,[8, 12, 19, 20, 26, 29,33]引入了类别增量学习(CIL)。0* 本文是在字节跳动Song Bai实习期间完成的工作。0(c) 直接模仿Oracle (d) CwD0(a) 朴素训练 (b) Oracle模型(联合训练)0阶段0: 阶段1:0图1.在两阶段CIL设置中表示(归一化为单位球)的可视化(每个阶段学习2个类别)。 (a)初始阶段的朴素训练(即,阶段0)。每个类别的数据表示位于一个长而窄的区域内。 (b)所有4个类别的联合训练(oracle模型)。每个类别的数据表示更加均匀地分散。 (c)直接模仿初始阶段的oracle模型,即使用一个正则化项来强制CIL学习器输出与oracle模型相似的表示。这使得每个类别的表示更加均匀地分散(类似于(b))。 (d)使用我们的CwD正则化器在初始阶段进行训练,也产生均匀分散的表示(类似于(b)和(c))。最佳观看效果为彩色。0并研究了增量学习(CIL)中的类别增量学习(CIL)。在CIL中,训练是逐阶段进行的,每个阶段只提供一部分类别的数据。CIL的目标是在当前阶段以及所有先前阶段学习的类别上表现良好。CIL的主要挑战是,在学习新类别后,模型在先前学习的类别上的性能通常会严重下降,即所谓的灾难性遗忘。forgetting [9, 23].To reduce forgetting, most previousworks [8,12,18,26,29] focus on phases after the initial one,e.g. introducing forgetting-reduction regularization termsthat enforce the current-phase model and the previous-phasemodel to produce similar outputs of the same input.However, the role of the initial phase in CIL (the phasebefore the CIL learner begins incrementally learning newclasses) is largely neglected and much less understood.We argue that the initial phase is of critical importance,since the model trained at this phase implicitly affectsmodel learning in subsequent CIL phases (e.g., through theforgetting-reduction regularization term). In this work, wethus study whether and how we can boost CIL performanceby improving the representations of the initial phase.To start with and to motivate our method, we conduct anexploratory experiment to investigate the potential of im-proving CIL at its initial phase.Specifically, at the ini-tial phase, we regularize the CIL learner to produce sim-ilar representations as the model trained with data of allclasses (i.e., the oracle model), since the upper bound ofCIL is the oracle model. According to our results, this addi-tional regularization drastically improves CIL performance.In addition, as we experimentally show that, although thisterm is used in the initial phase, it yields little performancegain in the initial phase. In contrast, it significantly benefitsCIL performance in subsequent phases. This demonstratesthat the performance improvements are not simply due to ahigher accuracy at the initial phase, but because this regu-larization makes the initial-phase representations more fa-vorable for incrementally learning new classes.Inspired by this, we consider improving CIL from anovel perspective—encouraging the CIL learner to mimicthe oracle model in the initial phase. To achieve this, wefirst need to understand the difference between representa-tions produced by a na¨ıvely-trained initial-phase model andthe oracle model. Specifically, since the oracle model istrained with more classes, we investigate how representa-tions are affected by the number of training classes. To thisend, we compute and analyze the eigenvalues of the covari-ance matrix of representations of each class. Interestingly,we find that when training with fewer classes, the top eigen-values of the covariance matrix of representations of eachclass dominate, indicating that the representations of eachclass lie in a long and narrow region (see Fig. 1 (a) for ex-ample). On the other hand, for models trained with moreclasses (particularly, the oracle model), the top eigenvaluesbecome less dominant, indicating that the representations ofeach class scatter more uniformly (see Fig. 1 (b)).We are thus motivated to enforce data representationsof each class to be more uniformly scattered at the initialphase, which mimics the representations produced by theoracle model. To this end, we first theoretically show that,a group of embeddings will scatter more uniformly in the167230如果其相关矩阵的Frobenius范数较小,则表示空间较大。然后,我们提出最小化每个类别数据表示的相关矩阵的Frobenius范数。我们将我们的正则化项称为类别间解耦(CwD)。我们提供了一个可视化图来总结我们的动机和方法,如图1所示。我们提出的CwD正则化器可以作为其他CIL方法的通用插件,并且可以很容易地实现。对各种基准数据集的大量实验证明,我们的CwD正则化器与最先进的CIL方法配合良好,可以在不同的设置下获得显著且一致的性能提升。此外,我们还对影响CwD的有效性的因素进行了详细的消融研究,例如初始CIL阶段的类别数量、每个类别的样本数量和CwD项的正则化系数。本文的贡献如下:1)我们经验性地发现,在初始阶段鼓励CIL学习器模仿oracle模型可以提升CIL性能。2)我们发现,与初始阶段经过简单训练的模型相比,由oracle模型产生的每个类别的数据表示更加均匀分散,并且在初始阶段模仿这样的表示可以使CIL受益。3)基于我们的发现,我们提出了一种新颖的类别间解耦(CwD)正则化技术,以在初始CIL阶段强制每个类别的表示更加均匀分散。4)大量实验证明,我们提出的CwD正则化方法相对于先前的最先进方法具有一致的改进。02. 相关工作0增量学习的两种经典设置是类别增量学习(CIL)[1, 12, 13,19, 20, 22, 26]和任务增量学习(TIL)[2, 16, 21, 24, 28,30,31]。CIL和TIL都将所有训练类别分成多个任务并按顺序学习它们。这两种设置的区别在于TIL允许在推理过程中使用任务信息(即,知道测试数据属于哪个任务),而CIL不允许。在这项工作中,我们专注于CIL的设置。CIL的主要挑战是在学习新类别后,模型在先前学习的类别上的性能急剧下降,即灾难性遗忘[9, 23]。许多CIL方法通过知识蒸馏[8, 12,18, 26,29]来减轻遗忘。在这些方法中,当在新阶段进行学习时,前一阶段的模型被用作教师,并且CIL学习器被规范化为产生与教师相似的输出。通过这种方式,先前学习的类别的知识可以被保留。然而,基于蒸馏的方法引入了在先前学习的类别和当前类别之间平衡的困境。特别是,如果蒸馏项过大,那么模型学习新类别的能力将受到限制。相反,如果蒸馏项过小,167240遗忘问题将被放大。为了缓解这一困境,一些方法已经被提出来在旧类别和新类别之间保持良好的平衡[4, 19, 32,33]。现有方法的共同关注点是在初始阶段之后的阶段改进CIL。与此不同的是,我们从一个较少探索的角度研究CIL -改进其初始阶段的表示。以前,[25]也研究了CIL的初始阶段表示。然而,他们的工作侧重于初始阶段的过拟合与CIL性能之间的关系。他们的主要观察是利用一些已知的改善泛化性能的技术(例如,heavy-aug [6],self-distillation[10])可以改善CIL。相比之下,在我们的工作中,基于模仿oracle模型在初始阶段是有益的这一新观察,我们揭示了训练类别数量如何影响模型表示,并进一步提出了我们的类别间解耦(CwD)。与诸如self-distillation[10]和heavy-aug[6]这样在初始阶段带来显著更高准确率的技术不同,我们的CwD主要通过使初始阶段的表示对于增量学习新类别更有利而受益于CIL。特征解耦也在其他一些研究领域中得到了探索。例如,[3, 14,35]依赖于特征解耦来解决自监督学习中负样本缺失时的模式崩溃问题,而[5, 15,34]则使用解耦来改善神经网络的特征,从而提高泛化性能。与此不同的是,我们的工作侧重于CIL,并提出使用类别间特征解耦来模仿oracle模型。[27]使用特征学习模型的表示进行特征值分析。他们发现,防止表示过度压缩可以改善特征学习模型的泛化性能。他们通过在排序损失中随机切换负样本和正样本来实现这一点。与此不同的是,我们的工作侧重于CIL,并提出使用类别间特征解耦,这是一种更有效的对抗表示压缩的方法。03. 方法论0在本节中,我们通过改进初始阶段的表示来探索提高CIL性能的方法。这种策略与大多数先前的工作不同。首先,在第3.1节中,我们研究了在初始阶段通过模仿神谕模型表示来改进CIL的潜力。受到这一观察的启发,在第3.2节中,我们对每个类别的表示的协方差矩阵进行了特征值分析,研究了用于训练的类别数量如何影响表示。然后,在第3.3节中,我们进一步开发了一种新的正则化项,即“类别间去相关”(CwD)。我们在理论上和实验上展示了这个正则化项在强制数据表示方面的有效性。0使每个类别的表示更加均匀分散。03.1. 直接模仿初始阶段的神谕模型表示可以改善CIL0在本节中,我们进行了一项探索性实验,以查看在初始阶段鼓励CIL学习器直接模仿神谕模型是否可以提高性能。具体而言,在初始的CIL阶段,我们添加了一个额外的正则化项,以鼓励模型输出与神谕模型相似的表示,得到以下目标函数:0min θ Lce(x, y, θ) + β � 1 − fθ(x) � fθ�(x)0∥ fθ(x) ∥2 ∥ fθ�(x) ∥20� ,(1)0其中 θ 表示模型参数,θ�表示神谕模型的参数(固定)。Lce(x, y, θ)是标准的交叉熵损失,(x, y) 是输入的训练数据-标签对,β是控制正则化强度的超参数。fθ(x) 和 fθ�(x)分别表示CIL学习器和神谕模型产生的表示。这个目标函数中的第二项是正则化项,强制 fθ(x) 与 fθ�(x)相似。我们使用ImageNet100和ResNet18[11]进行以下两个协议的实验:(1)CIL学习器最初训练50个类别,然后每个阶段增加10个类别,共进行5个阶段;(2)CIL学习器最初训练10个类别,然后每个阶段增加10个类别,共进行9个阶段。在这两个协议下,我们使用公式 (1)作为初始阶段的优化目标,使用LUCIR[12]作为强基线。对于后续阶段,不添加正则化,并应用原始的LUCIR[12]。如图2所示,初始阶段的正则化项可以极大地提高CIL性能。值得注意的是,在第二个协议中,即使在初始阶段只使用了10个类别,这种正则化仍然带来了显著的改进。此外,在这两个协议中,尽管这种正则化只应用于初始阶段,但它对初始阶段的准确性改进微不足道,但在后续阶段显著提高了性能。这表明改进不仅仅是由于初始阶段的准确率提升,而是因为初始阶段的模型更有利于增量学习新类别。由于实践中无法直接获得神谕模型,因此在接下来的章节中,我们探索了神谕模型表示的特征,并尝试通过模仿这些特征来改进CIL。03.2. 神谕模型的类别表示更加均匀分散0受到在初始阶段模仿神谕模型所带来的显著改进的启发,我们进行了研究。tigate the difference between na¨ıvely-trained initial-phasemodel and the oracle.Specifically, since the oracle model is trained with moreclasses than na¨ıvely-trained initial-phase model, we con-duct an eigenvalue analysis to understand how the num-ber of classes used for training affects representations.Using ImageNet100, we generate four subsets containing10/25/50/100 classes, where the subset with more classescontains the subset with fewer classes (the 10 classes ofthe first subset are shared by all 4 subsets). We train fourResNet18 models on each of the subset, and analyze thedifference on the representations.The details of our eigenvalue analysis are elaborated asfollows. For a given class c, suppose we have n data points,we denote Z(c)i∈ Rd as the model output representation onthe i-th data point of class c, and the mean vector of all rep-resentations of class c is denoted as ¯Z(c) =1n�ni=1 Z(c)i.The covariance matrix of class c’s representations is esti-mated in an unbiased manner asK(c) =1n − 1n�i=1(Z(c)i− ¯Z(c))(Z(c)i− ¯Z(c))⊤.(2)Based on the estimated covariance matrix of class c’s rep-resentations, we perform an eigendecomposition K(c) =UΣ(c)U ⊤, where Σ(c) is a diagonal matrix with eigenval-ues (λ(c)1 , λ(c)2 , . . . , λ(c)d ) on the diagonal. Without loss ofgenerality, we assume that the eigenvalues are sorted in de-scending order.To observe whether the top eigenvaluesdominate, we defineα(c)k:=�ki=1 λ(c)i�di=1 λ(c)i∈ [0, 1],(3)Figure 3. Visualization on how α(c)kchanges with increasingk for models trained with different number of classes. α(c)k ,which measures the proportion of variance represented by the topk eigenvalues, is defined in Eqn. (3). We plot curve of α(c)kforResNet18 models trained with 10/25/50/100 ImageNet classes.which measures the proportion of variance represented bythe top k eigenvalues. If α(c)kis close to 1 even when k issmall, then the top eigenvalues of K(c) dominate.For one of the 10 shared classes among the four models,we visualize how α(c)kchanges with increasing k. Resultson representations of other classes show similar trend, andare in the Appendix. As can be observed in Fig. 3, for themodel trained with only 10 classes, α(c)kincreases quicklyfor k ∈ {1, 2, . . . , 10}, and then saturates at a value closeto 1 as k keep increasing. This shows that for the 10 classmodel, the top eigenvalues dominate for covariance matrixof data representations of each class, indicating that datarepresentations lie in a long and narrow region. In addition,for any fixed k, α(c)kstrictly decreases as the model is beingtrained with more classes. This shows that, as the modelis trained with more classes, the top k eigenvalues becomeless dominant, suggesting that the data representations ofeach class scatter more uniformly.Since the oracle model is trained with more classes thanthe na¨ıvely-trained initial-phase model, class-wise data rep-resentations of the oracle model scatter more uniformly.3.3. Class-wise DecorrelationThe observation in Sec. 3.2 suggests that one way to en-courage the CIL learner to mimic the oracle model at theinitial phase is to enforce data representations of each classto scatter more uniformly.This can be achieved by adding the following regulariza-tion objective for each class c in the initial phase:L(c)shape = 1dd�i=1�λ(c)i− 1dd�j=1λ(c)j�2,(4)167250(b) 初始10个类别,然后每个阶段增加10个类别 (a) 初始50个类别,然后每个阶段增加10个类别0准确率(%)0类别数量0图2. 直接模仿初始阶段的神谕模型表示的有效性。 (a)最初训练50个类别,然后每个阶段增加10个类别,共进行5个阶段。 (b)最初训练10个类别,然后每个阶段增加10个类别,共进行9个阶段。正则化系数 β 在公式 (1)中定义。我们展示了每个CIL阶段的准确率。结果是在3次运行中平均得到的。0其中 d是表示空间的维度。最小化这个目标将强制所有特征值接近,Z(c)i:= Z(c)i− ¯Z(c)σ(c)(Z),(5)d�j=1λ(c)j= Tr(K(c)) = d,(6)d�i=1�λi − 1dd�j=1λj�2= ∥K∥2F − d.(7)LCwD(θ) =1C · d2C�c=1∥K(c)∥2F,(8)167260(a) 10个类别 (b) 25个类别 (c) 50个类别0图4. 类别间去相关对每个类别的表示的影响。α ( c ) k 衡量由前 k 个特征值表示的方差比例,定义在公式 ( 3 ) 中。η 是公式 ( 9 )中使用的CwD系数。我们绘制了在训练10/25/50个类别时使用或不使用CwD目标的 α ( c ) k曲线。我们还绘制了与之对比的在所有100个类别上训练的模型的曲线。0防止顶部特征值主导并鼓励类别c的数据表示更均匀地分散。然而,这个正则化目标在实现上是不可行的,因为计算特征值是昂贵的。为了以一种实现友好的方式实现我们期望的正则化,我们首先通过以下方式对类别c的所有表示进行归一化0其中 σ ( c ) ( Z ) ∈ R d是所有表示的标准差向量,除法是逐元素进行的。这种归一化使得协方差矩阵 K ( c ) (在公式 ( 2 ) 中定义)等价于一个相关矩阵,满足以下条件0其中 Tr( ∙ ) 是矩阵迹运算符, d 是 K ( c )的维度。然后,通过以下命题,我们可以将相关矩阵的Frobenius范数与其特征值联系起来。0命题1. 对于一个 d × d 的相关矩阵 K 和其特征值 ( λ 1 , λ 2, . . . , λ d ) ,我们有:0这个命题的证明在附录中给出。它表明对于任何相关矩阵 K,最小化公式 ( 4 ) 中定义的 L 形状等价于最小化 ∥ K ∥ 2 F。根据这个命题,我们将公式 ( 4 )中的不可行的正则化转化为以下的类别间去相关 (CwD)目标,对于每个类别 c 惩罚 ∥ K ( c ) ∥ 2 F :0算法1 CwD的PyTorch风格伪代码0# N: 批量大小 # d: 表示维度 # z: 一批表示,形状为 (N, d) # y: 与 z对应的标签批量 def class_wise_decorrelation_loss(z, y): loss_cwd = 0.0 #初始化cwd损失 unique_y = y.unique() # 批量中的所有类别 for c in unique_y:0# 获取类别c的所有表示 z_c = z[y==c, :] N_c = z_c.size(0)0# 如果类别 c 只有1个样本,则跳过 if N_c == 1:continue0# 标准化表示,如eq.(5) z_c = (z_c - z_c.mean(0)) / z_c.std(0)) # 估计相关矩阵corr_mat = 1/(N_c-1)*torch.matmul(z_c.t(), z_c) # 计算类别c的CwD损失loss_cwd += (corr_mat.pow(2)).mean() return loss_cwd0其中 C 是在初始阶段训练时使用的类别数, K ( c ) 是类别 c的相关矩阵,通过训练数据批量估计得到。注意, K ( c )是通过其特征值 λ i 通过参数 θ的函数。因此,初始阶段的整体优化目标是:0最小化θ L ce ( x, y, θ ) + η ∙ L CwD ( θ ) , (9)0其中 η是控制我们CwD目标强度的超参数。我们给出了我们提出的CwD正则化的一个PyTorch风格伪代码,如算法1所示。为了验证我们提出的 L CwD确实有效地鼓励每个类别的数据表示更均匀地分散,我们进行了与第3.2节中相同的特征值分析。我们应用 L CwD在第3.2节中相同的10/25/50类别设置下进行实验。如图4所示,应用 L CwD 可以有效地减小每个固定 k和每个模型的 α ( c ) k ,使用更大的 η 将进一步减小 α ( c) k 。这些观察结果表明,在应用 L CwD后,每个类别的数据表示更均匀地分散。167270方法 CIFAR100(B = 50) ImageNet100(B = 50) ImageNet(B = 100)0S = 10 5 2 10 5 2 100 500LwF [18] 53.59 ± 0.51 48.66 ± 0.58 45.56 ± 0.28 53.62 † 47.64 † 44.32 † 40.86 ± 0.13 27.72 ± 0.12 iCaRL [26] 60.82 ± 0.03 53.74 ± 0.25 47.86 ± 0.41 65.44 †59.88 † 52.97 † 49.56 ± 0.09 42.61 ± 0.15 BiC [33] 51.58 ± 0.16 48.07 ± 0.02 43.10 ± 0.37 70.07 † 64.96 † 57.73 † 43.23 ± 0.13 38.83 ± 0.120LUCIR [12] 66.27 ± 0.28 60.80 ± 0.29 52.96 ± 0.25 70.60 ± 0.43 67.76 ± 0.40 62.76 ± 0.22 56.40 ± 0.10 52.75 ± 0.180+CwD(我们的方法)67.26 ± 0.16 62.89 ± 0.09 56.81 ± 0.21 71.94 ± 0.11 69.34 ± 0.31 65.10 ± 0.59 57.42 ± 0.11 53.37 ± 0.220PODNet [8] 66.98 ± 0.13 63.76 ± 0.48 61.00 ± 0.18 75.71 ± 0.37 72.80 ± 0.35 65.57 ± 0.41 57.01 ± 0.12 54.06 ± 0.090+CwD(我们的方法)67.44 ± 0.35 64.64 ± 0.38 62.24 ± 0.32 76.91 ± 0.10 74.34 ± 0.02 67.42 ± 0.07 58.18 ± 0.20 56.01 ± 0.140AANet [19] 69.79 ± 0.21 67.97 ± 0.26 64.92 ± 0.30 71.96 ± 0.12 70.05 ± 0.63 67.28 ± 0.34 51.76 � ± 0.14 46.86 � ± 0.130+CwD(我们的方法)70.30 ± 0.37 68.62 ± 0.17 66.17 ± 0.13 72.92 ± 0.29 71.10 ± 0.16 68.18 ± 0.27 52.30 � ± 0.08 47.61 � ± 0.200表1.初始阶段使用或不使用类别间去相关(CwD)的平均增量准确性(%)的比较。B表示初始阶段学习的类别数,S表示初始阶段后每个阶段学习的类别数。每个类别的样本数为20。对于AANet,我们使用基于LUCIR [12]的版本。AANet[19]在ImageNet上(用�表示)由于其代码中缺少类平衡微调而无法运行。所有结果均由我们(重新)生成,除了用†表示的结果,这些结果来自[19]。我们(重新)生成的结果是在3次运行中平均得出的(均值±标准差)。04. 实验0在本节中,我们首先详细介绍了第4.1节中的实验设置。接下来,在第4.2节中,我们将我们提出的类别间去相关(CwD)应用于一些最先进的方法[8, 12,19],以验证其有效性。最后,在第4.3节中,我们对初始阶段的类别数、每个类别的样本数和CwD系数(方程(9)中的η)等因素进行了消融研究,以探讨我们提出的方法的影响。此外,我们在附录中给出了我们的CwD与其他去相关方法的实证比较。04.1. 设置0数据集:我们简要介绍了我们实验中使用的3个数据集:CIFAR100[17]包含100个类别,共60000个样本,每个图像的大小为32×32;ImageNet[7]包含1000个类别,约130万个样本,每个图像的大小为224×224;ImageNet100是完整ImageNet[7]的一个100类子集,其生成方式与[8, 12,19]中类似。所有数据集的类别首先使用种子1993进行洗牌,如[12, 13, 19, 20, 26,29]中所述,然后分为多个阶段。实现细节:对于所有实验,我们使用ResNet18[11]和SGD优化器,批量大小为128。在每个阶段之后,使用Herding [8, 12, 19,26]策略选择样本。对于基于CIFAR100的实验,每个CIL阶段,所有模型都训练160个epoch,学习率在第80个和第120个epoch时除以10。对于基于ImageNet100/ImageNet的实验,每个阶段,所有模型都训练90个epoch,学习率在030-th和60-th epoch.在执行CIL时,我们为每个先前学习的类别保留了一定数量的样本,就像[8, 12, 19,20]中所做的那样。基线:我们将我们提出的CwD应用于以下三个强SOTA基线:LUCIR [12],PODNet [8]和AANet[19]。对于AANet,我们使用基于LUCIR[12]的版本。此外,我们还报告了一些其他经典方法的结果,包括LwF [18],iCaRL [26]和BiC[33]进行比较。评估指标:我们使用平均增量准确性来评估CIL方法的性能,如[8, 12, 13, 19,20]中所述。形式上,假设CIL进行了N +1个阶段,第i个阶段的测试准确性为Ai,则平均增量准确性定义为:0¯ A = 10N + 10i = 0 Ai. (10)04.2. CwD改进了先前的SOTA方法0在本节中,我们将我们提出的CwD方法应用于三种先前的SOTA方法,分别是LUCIR[12],PODNet[8]和AANet[19],以验证我们方法的有效性。我们用B表示初始阶段学习的类别数,用S表示初始阶段之后每个阶段学习的新类别数。对于CIFAR100和ImageNet100,我们使用三种协议评估我们的方法:初始阶段学习B=50,然后学习S=10 / 5 /2的剩余类别。对于ImageNet,我们使用两种协议评估我们的方法:初始阶段学习B=100,然后学习S=100 /50的剩余类别。101057.01±0.1457.90±0.07+0.892061.21±0.3562.49±0.36+1.283064
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功