自己动手画草图：通过草图进行类别增量学习

124 浏览量更新于2023-10-25 收藏 15.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Ayan Kumar Bhunia1Viswanatha Reddy Gajjala*Subhadeep Koley1,2Rohit Kundu*Aneeshan Sain1,2Tao Xiang1,2 Yi-Zhe Song1,2{a.bhunia, s.koley, a.sain, t.xiang, y.song}@surrey.ac.uk; viswanathareddy998@gmail.comFew-Shot Incremental LearningDoodle It Youself1210121011121322930自己动手画几张草图：通过绘制几张草图进行类别增量学习01 SketchX，CVSSP，英国萨里大学。2iFlyTek-Surrey人工智能联合研究中心。0摘要0人类视觉系统能够从仅有的几个示例中学习新的视觉概念，这正是少样本类别增量学习（FS-CIL）的目标，其中重点还在于确保模型不会“遗忘”。在本文中，我们进一步推动了FSCIL的边界，解决了其普遍应用的两个关键问题：（i）模型是否可以从除照片以外的多样性模态中学习（就像人类一样），以及（ii）如果照片不容易获取（由于伦理和隐私限制），会发生什么情况。我们的关键创新在于提倡使用草图作为类别支持的新模态。其结果是一个“自己动手画”（DIY）FSCIL框架，用户可以自由地为模型绘制几个新颖类别的示例，以便模型能够学习识别该类别的照片。为此，我们提出了一个框架，融合了（i）领域不变学习的梯度一致性，（ii）知识蒸馏以保留旧类别信息，以及（iii）用于旧类别和新颖类别之间消息传递的图注意力网络。我们通过实验证明，在FSCIL的背景下，草图比文本更好地支持类别，这与草图文献中的其他研究结果相呼应。01. 引言0全监督学习在ImageNet上的表现已经超过了人类水平[18]。然而，在现实中，这样的进展主要局限于少数对象类别，其中标签是明确策划的（ImageNet中的1000个类别与可能存在的数百万个类别相比）。类别增量学习[29, 21,23]是试图将模型感知扩展到新颖类别的流行前沿之一，同时不“遗忘”已经学习的类别。在其许多变体中，最近的少样本类别增量学习（FSCIL）[54]是最现实的，它还要求模型通过很少的示例学习新的类别，就像人类一样。0* 在SketchX实习0（10+3）类分类器010类分类器0基类照片基类+新颖类照片0图1.我们的DIY-FSCIL框架示意图。例如，给定3个新颖类别的草图示例（这里是1-shot）作为支持集，一个10类分类器将更新为（10 +3）类分类器，可以对基类和新颖类的照片进行分类。0提供几个样本听起来很简单，但在实践中会出现一些问题，比如（i）样本应该采用什么数据模态？（ii）这些样本如何在实践中获取。我们认为，这些问题对于FSCIL的潜在应用至关重要，因为（i）人类也从各种数据模态中学习，不仅限于照片，（ii）由于隐私和伦理限制，照片并不总是容易获取（例如，版权）。在本文中，我们着眼于将人类草图作为FSCIL的支持模态的作用。这导致了一个灵活的FSCIL系统，只需通过用户自己绘制的几个草图就能学习新的类别。图1以示意图的形式说明了我们的“自己动手画（DIY）”FSCIL场景-“DIY-FSCIL”。这重要地解决了上述问题，即（i）学习不再仅限于照片，而是可以与其他数据形式灵活跨模态（就像人类一样），（ii）它可以在不要求用户提供照片的情况下工作，这可能会带来实际的限制（例如，版权，危险环境）。当然，通过绘制用户想象中的东西[16]，例如“飞行的牛”，还可以为分类器注入创造力。草图的倡导主要受到了许多平行应用中研究人员对草图的以人为中心特征的工作的启发-特别是图像恢复方面的研究。22940检索[12]，在这种情况下，草图的细粒度特性被用于成功地进行实例级别的检索[2, 6, 46, 14,11]。在FSCIL的上下文中，草图的使用与细粒度检索中的使用密切相关。在检索中，他们利用草图的详细特性进行草图-照片匹配，我们则将一些草图集体作为新类别的忠实视觉代表（支持）进行增量学习。我们证明了相比于文本，草图更适合作为类别支持，这要归功于其固有的细粒度特性，这一点在当代草图文献中得到了验证[52, 11,6]。然而，在FS-CIL设置中使用草图作为类别支持并不容易。草图虽然在视觉上具有代表性，但只是视觉世界的粗略轮廓式描绘，与照片完全不同的领域[27]。因此，常见的在照片上进行原样训练的现成模型通常无法很好地推广到草图上[8]。此外，由于其高度抽象的特性，同一对象可能以不同的方式进行草图绘制，具有独特的用户风格[51,46]，并且具有不同的细节级别[45]。我们在问题上也与SBIR的并行问题有所不同-SBIR通常在训练时接触到成对的草图-照片数据，以学习跨模态嵌入；而我们则需要仅在训练时使用草图（即没有任何照片信息），但仍旧目标是生成用于对来自新类别的照片进行分类的分类层权重。这个跨域基于草图的FSCIL的三个关键设计考虑因素是：（i）如何使模型实现跨模态，（ii）如何保留旧类别信息，以及（iii）如何利用旧类别的信息来学习新类别。对于第一个问题，我们设计了一种基于梯度一致性的策略，通过在草图和照片领域的梯度空间中达成梯度的相互一致来更新模型，从而实现一个域不变的特征提取器。对于第二个问题，我们采用了额外的知识蒸馏损失来保留从旧类别中获得的知识，同时将分类器增加到新类别。最后，我们设计了一个图神经网络，通过在旧类别和新类别之间传递消息来生成更具有区分性的决策边界，以用于增量分类器。总结起来，我们的贡献是：（a）我们进一步将增量学习研究推向了实用性和人类相似性。（b）我们通过将草图作为FSCIL的类别支持来实现这一目标，使系统能够从除了照片之外的模态中学习，并解决了与伦理和隐私相关的问题，同时允许用户创造力。（c）我们引入了第一个跨模态框架来解决这个新颖的DIY-FSCIL问题。2. 相关工作0基于草图的图像检索（SBIR）：SBIR旨在在给定查询草图的情况下检索成对的照片，可以是在类别级别[11, 67, 12, 41,65]，也可以是在更细粒度的实例级别（FG-SBIR）[46, 10,5, 6, 2]。为了学习0联合嵌入空间，类别级别的SBIR通常使用基于CNN [11,12]，RNN [65]或Transformer[41]的孪生网络，伴随着三元组排序目标[68]。这一类别的当代研究还致力于零样本SBIR [12, 67,44]和二进制哈希码嵌入[30,49]。另一方面，在FG-SBIR类别中，于等人的开创性工作首次引入了基于深度三元组排序的孪生网络用于联合嵌入空间学习，这一方法还进一步通过注意力[53]、跨域转换[35]、基于强化学习的即时检索[6]、半监督检索[2]、风格无关检索[46]等进行了加强。0用于视觉任务的草图：手绘草图本质上富含各种人类视觉系统的理解能力，与人类智能的认知潜意识非常接近[19]。因此，它在过去促进了各种视觉理解任务的发展。除了广泛研究的SBIR [11, 67, 12,0除了在视觉理解任务中使用草图，如分割[22]、视频合成[28]、表示学习[60,3]、目标定位[55]、图像修复[62]、3D形状检索[31]、3D形状建模[71]等[64]，草图还在各种艺术应用中被使用，包括图像编辑[66]、动画自动完成[63]等。草图最近还被用于创建象棋绘画游戏[4]。这些事实表明，手绘草图具有足够的代表能力，可以有效地描述视觉照片。基于这一事实，本文旨在探索草图如何作为传统照片在类别增量学习中的潜在替代品。0增量学习：增量学习（IL）[38,25]是一种机器学习范式，其中模型在保留先前学到的知识的同时，逐步适应学习新任务。尽管深度网络在各种任务中取得了令人难以置信的成就[48,50]，但顺序学习不同任务仍然是一个关键挑战。因此，IL仍然受到相当多的研究关注[21, 39, 7, 23,1]。目前的研究大多使用基于记忆[21, 39]、蒸馏[9,13]或正则化[23]的方法来解决IL任务。根据任务的不同，IL可以分为：(a)增量领域学习[42]，旨在进行增量领域适应；(b)增量任务学习[1]，其中每个任务都包含单独的分类层，任务描述符在测试阶段选择适当的层；(c)类别增量学习（CIL），这是最具挑战性的IL任务，它在单头设置中操作，没有可用的任务描述符。在CIL中，模型需要学习一个统一的分类器来逐步适应所有新的未见类别。在CIL设置中，蒸馏[29]和基于记忆[21]的方法比基于正则化的方法[23]更有效。Model:We have a neural network classiﬁer, compris-ing of a feature extractor Fθ followed by linear classiﬁerRw, such that y = Rw(Fθ(x)). Fθ is employed using aconvolutional neural network followed by global-averagepooling, and given an input image x ∈ Rh×w×3, we geta feature representation as fd = Fθ(x) ∈ Rd. Follow-ing [17], for better generalisation Rw is devised as a co-sine similarity function (unlike dot product based typicallinear classiﬁer), consisting a learnable W matrix whosesize is of R|C|×d, where |C| is the number of classes. Thus,Rw : Rd → R|C| outputs a probability distribution overclasses as p(¯y) = softmax( ˆW ·fd∥fd∥2 ).ˆW is obtainedby l2 normalising every d dimensional row-vector wkWthat depicts weight-vector for kth class, i.e. ˆwk =22950本文主要关注CIL设置，这是其变种中最具挑战性的任务。Few-Shot Class-Incremental Learning (FSCIL)：Few shotlearning(FSL)旨在通过仅使用少量标记样本（在训练期间未见过）来使训练模型适应学习新类别的模式[61]。最近，它在研究界迅速增长[40, 50,58]。FSL问题有三个主要的解决方法：(a)基于循环的方法[40, 48]，(b)基于优化的方法[43,59]，以及(c)基于度量的框架[17,24]。我们的工作属于基于度量的方法，其中将查询样本与新的支持类别之间的相似性进行比较。传统的CIL假设增量提供的新类别可以访问大量标记数据。尽管在FSCIL范式[54]中，初始数据集包含足够的训练数据（基类），但随后提供的新类别只包含少量标记样本。目前只有很少的方法可以解决FSCIL问题，例如伪增量学习[70]，知识蒸馏[9,13]，神经气体网络[54]。虽然现有的工作旨在构建一个模型来逐步学习新类别，但我们的目标是构建一个模型，用于更困难和实际适用的基于草图的FSCIL设置，以解决用户的隐私问题。0减小领域差异：减小草图-照片领域差异[12]是我们问题设置的关键。在这个背景下，最相关的两个文献分支涉及领域自适应（DA）[15]和领域泛化（DG）[27,26]。虽然DA旨在使在源领域上训练的模型在新的目标领域上表现良好，只使用未标记的图像，而DG的目标是将模型从一组已见领域样本推广到未见领域样本，而不访问未见领域实例。我们的目标更符合DG，因为我们在推理过程中不更新模型参数。在这项工作中，我们借鉴了DG领域中的最新发展[69,32]，学习一个领域无关的网络，减小草图和照片之间的领域差距。03.增量学习的草图03.1.问题定义0数据集：在少样本类增量学习中，我们分别给出Kb个基础类别和Kn个新颖类别。从基础类别集合中，我们有足够的访问权限来获取来自照片DPbase={(pi,ypi)}Nsbi=1和草图DSbase={(si,ysi)}Nsbi=1领域的标记样本，其中yi∈Cbase={Cb1,Cb2,...,CbKb}。另一方面，对于新颖类别，我们只能从草图领域DSnovel={ (sj,yj) }Nsnj=1中获取有限数量的标记样本，每个新颖类别的样本数有限，其中yj∈Cnovel={Cn1,Cn2,...,CnKn}。在这里，基础类别和新颖类别是完全不相交的，即Cbase∩Cnovel=Φ。0∥wk∥0学习目标：神经网络分类器{Fθ，Rw}是从Kb个基础类别的丰富标记样本中训练得到的，让初始基础分类器为Rbasew:Rd→RKb，其权重矩阵为Wbase∈RKb×d。在FSCIL下的推理过程中，我们无法访问基础类别的标记数据，而只给出Cn个新颖类别的每个类别的k（小数量）个草图样本，我们打算将分类器Rbasew更新为Rneww，以便能够识别来自Cbase∪Cnovel类别的照片。为此，我们需要计算一个新的权重矩阵Wnew∈R(Kb+Kn)×d，相对于Rneww:Rd→R(Kb+Kn)，它可以进行(Kb+Kn)路类别分类。因此，我们的目标是通过使用先前基础类别的知识Wbase和来自新颖类别的少量手绘草图示例（支持集）作为输入，为更新的分类器Rbasew→Rneww生成一个新的权重矩阵Wnew，以便对来自基础和新颖类别的真实照片进行分类。03.2.基础类别的跨模态预训练0我们的框架采用两阶段训练。在第一阶段，我们使用标准的交叉熵损失训练基础类别的模型，而在第二阶段，我们通过少样本伪增量学习来学习权重生成器。训练完成后，我们在下一阶段冻结Fθ的权重，以避免在少样本更新过程中过拟合，并减轻基础类别的灾难性遗忘。与现有的少样本增量学习不同，我们需要处理照片和草图之间的领域差异，以便获取增量类别的知识。GradientConsensus Class-wise averageClasses Class-wise averageClassesClasses.ClassesBase ClassesConcatLtotal = 1b(p,y)PLP (p, y) + 1b(s,y)SLS(s, y)(1)3.3. Few-Shot Classiﬁer Weight Generation22960反向传播期间的梯度一致性0第一阶段训练第二阶段情节式训练0支持集0查询集0步骤1：从支持集生成权重0步骤2：从查询集计算损失并进行优化0禁用梯度0图2. (a) 首先，我们通过梯度一致性学习一个与领域无关的骨干特征提取器（Fθ）。 (b)在第二阶段，我们通过涉及两个步骤的情节式伪增量学习来学习一个权重生成器（Gψ）。首先，为了获得一个更新的[基础+新颖]分类器，利用一个草图支持集为新颖类别生成权重向量，并对基础类别的权重向量进行优化。其次，为了进行损失计算，将得到的权重向量与[基础+新颖]类别的真实照片进行评估。0通过素描样本可以在真实照片领域中对新类别图像进行分类。由于我们对基类别的照片和素描领域都有足够的标记训练数据，处理领域差异的一种非常直接的方法是在每个小批次中以相等的概率结合标记的照片和素描（空间扩展）进行训练，以便模型在照片和素描上都能很好地泛化。给定输入 x，模型的输出为 ¯ y = R base w ( F θ ( x ))，其中标记数据 ( x, y ) 来自于照片 ( p, y p ) � D P base或素描 ( s, y s ) � D S base 领域，其中 x ∈ { p, s } ，y ( y s或 y p ) 是相应的独热编码类别标签。交叉熵损失 H ( ∙ , ∙ )可以计算为 L = H (¯ y, y ) = � K b i =1 y i log p (¯ y i )。对于一个包含 b 张照片和 b张素描的批次，我们可以分别计算照片和素描的个体损失 LP 和 L S 。然后，我们通过计算总损失上的梯度 �L total来更新模型，其定义如下：0然而，简单地使用两个显著不同的领域（照片与素描）进行训练会导致每个批次中的梯度冲突，因为对于一个领域特定的信息可能对另一个领域无关，从而抑制模型的泛化能力。换句话说，�L P 和 �L S所携带的信息可能不相互一致，简单地将它们相加会导致整体上抑制训练信号 [ 69 ]。梯度一致性：受到多任务学习 [69 ] 和领域泛化 [ 32 ]文献的启发，我们的目标是在梯度空间中存在两个领域之间的一致性的方向上更新模型，以学习一个领域不变的表示。具体而言，保留具有相同符号的梯度向量，而将具有冲突符号的梯度向量设置为零，如公式 2 所示。这里，sig( ∙ )是一个符号运算符，� L n P 和0� L n S 分别表示与照片和素描领域相关的梯度的第 n个分量。梯度一致性函数 δ ( ∙ , ∙ )逐元素检查梯度分量的符号是否匹配，并在给定 n的情况下，如果所有分量的符号相同，则返回 1；否则返回00δ ( � L n P , � L n S ) = � 1 ，sig( � L n P ) = sig( � L n S ) 0，否则 (2)0� L n 一致性 = � � L n P + � L n S ，如果 δ n = 1 0 ，如果δ n = 0 (3)0这种梯度一致性策略有助于减少在使用 � L n consensus更新模型参数时的有害跨领域梯度干扰。从而使我们能够调整模型参数的方向，以改善对素描和照片的泛化能力。0概述：为了对来自新类别的照片进行分类，我们需要设计一种可以为新类别生成额外权重向量的机制。由于我们假设每个新类别只提供了少量支持的手绘素描样本，我们在少样本学习的范式下设计了权重生成器 G ψ 。G ψ为新类别生成权重向量，并重新生成（细化）基类别的权重向量，以在存在新类别的情况下获得更好的整体决策边界。这里，两个主要目标是：（i）从少量素描样本中学习新类别的知识，同时通过跨模态泛化对新类别的照片进行分类；（ii）在学习新类别的同时不降低基类别的性能。我们使用素描样本作为支持集，根据少样本学习的情景训练来生成新的权重矩阵。为了确定更新权重生成模块的损失，根据一个照片样本的查询集评估生成的权重矩阵的质量。具体而言，在训练过程中有两个步骤 [ 50 ]the weight generation module. (i) Weight generation usingsupport set:sketch exemplars as support set are used to-gether with Wbase to generate the new weight matrix Wnew(comprising both base and novel classes) (ii) Loss calcula-tion on query set: Wnew is used to classify query set photosin order to calculate loss, which is then utilised to optimisethe weight generation module using gradient descent.Weight Generation:Gψ takes two things as input (i)Wbase from Rbasewrepresenting the knowledge of previousbase classes (ii) class-wise representative features of novelclasses from sketch exemplars. We assume to have accessto k sketch samples for each of the Kn novel classes – thesupport set. A straightforward way to get class-wise rep-resentative vectors is to average feature representations ofsketches for each individual classes. In particular, for jthnovel class, the representative vector can be calculated as:wnovelj= 1kk�i=1Fθ(si)(4)Thereafter, by applying l2 norm on each wnovelj, wecan naively form the weight vectors of novel classesas Wnovel = {wnovel1, wnovel2, · · · , wnovelKn} ∈ RKn×d.The easiest way for incremental learning would be touse naive concatenation to get new weight matrix as[Wbase; Wnovel] ∈ R(Kb+Kn)×d. However, it has two ma-jor limitations (i) Wnovel remains unaware about the knowl-edge of bases classes (ii) Wbase which was discrimina-tive across the base classes might lose its representation-potential when we add additional weight vectors of novelclasses without modelling a mutual agreement strategy forlearning discriminative decision boundaries across all Kb +Kn classes. Thus, to attain an optimal decision boundaryfor all classes under incremental setup, an information pass-ing mechanism is critical for Wnew generation.Message Passing:For information-propagation amongweight vectors of Kb +Kn classes, we use Graph AttentionNetwork (GAT) [57]. GAT is a good choice for information-propagation owing to its permutation-invariance to se-quence of weight vectors as the novel classes may appearin any order.As the weights are shared across differ-ent nodes, it can also handle incoming variable numberof novel classes effortlessly. The input to GAT is givenas WI = {wbase1, · · · , wbaseKb , wnovel1, · · · , wnovelKn} havingKtotal = Kb + Kn weight vectors, where each wi ∈ Rddenotes an input to a speciﬁc node to GAT. First it computesrelation co-efﬁcient between every pair of node by innerproduct operation as ei,j = ⟨Vawi, Vbwj⟩, with two learn-able linear embedding weights Va and Vb. ei,j is normalisedby softmax function to get the attention weights with respectto node i as: aij =exp(eij)�Ktotalk=1exp(eik). The update rule for ithnode gathering information from all other nodes becomeswupdatei= wi +� Ktotal�j=1ai,jVcwi�(5)where, Vc is a learnable linear transformation.We re-peatedly update the weight vectors at every node in thegraph, and ﬁnally we obtain the generated weight vec-tors for both base and novel classes as Wnew.In brief,Wnew = Gψ(WI) : R(Kb+Kn)×d → R(Kb+Kn)×d, whereWI = [Wbase; Wnovel] ∈ R(Kb+Kn)×d, thus we generatethe weight vectors for both base and novel classes duringincremental learning.Episodic Pseudo Incremental Training:Keeping thefeature extractor Fθ ﬁxed, we train the few-shot weight gen-erator Gψ taking inspiration from few-shot learning liter-ature [50, 40, 48]. As the training dataset is limited, weepisodically construct pseudo incremental task based onlyon the base classes to mimic the real testing scenario.In particular, following the ﬁrst stage of training, we getclassiﬁer weight matrix of base classes as Wbase ∈ RKb×d.In order to create each episode, we synthetically drop K′nweight vectors from Wbase, and we treat those correspond-ing classes as pseudo novel classes whose weights now needto be generated. That means, at a particular episode, thepseudo base class matrix becomes W ′base ∈ RK′b×d whereK′b = Kb−K′n. Thereafter, corresponding to those droppedbase classes which now become pseudo novel classes, weuse k sketch samples for each of the pseudo novel classesas the support set to ﬁrst generate representative class-wiseweight vectors W ′novel ∈ RK′n×d, which is again fed toGAT together with W ′base for relationship modelling to gen-erate pseudo W ′new. In every episode, while support set(S) is used to generate the classiﬁer weights, another queryset (Q) involving real photos from both pseudo base andnovel classes are fed through pre-trained backbone followedby classiﬁer with newly generated weight matrix W ′new tocompute loss for optimisation. Please refer to Fig. 2.In contrast to earlier FSCIL works [54, 13], our episodictraining is cross-modal in nature, where the support andquery set consist of sketch and photo respectively. As train-ing is done over base classes with pseudo-novel classes, wefound mixing both sketch and photo in the support set withgradient consensus generalises better on real photos. How-ever, sketch acts as the only exemplars during real inference.22970损失函数：与从丰富的训练数据进行完全监督分类相反，少样本学习[50]更具挑战性，因为新的权重矩阵生成只有少量样本可用。鉴于这一理由，我们旨在通过从基础类别的Wbase中删除权重向量来设计伪增量学习，Wbase是通过标准监督分类从基础类别中学到的。我们希望看到在Wbase中学到的完全监督知识是否能够为学习Gψ提供训练信号[20]。为此，我们另外定义了一个蒸馏损失，以及在查询集上计算的标准分类损失，这起到了一致性正则化的作用。这确保了权重生成器预测的权重向量保持接近于什么22980通过从第一阶段进行监督分类学习，我们已经学到了基础类别的权重矩阵Rbasew。特别地，在进行少样本权重生成后，我们得到了一个增量学习的分类器Rneww，其生成的权重矩阵为Wnew。另一方面，我们已经有了从第一阶段预训练中学到的Rbasew。给定查询集（Q）中的一张照片p，对于蒸馏损失，我们将使用Rbasew的软预测作为基准来计算蒸馏损失。因此，总损失变为Ltotal = Lcls +Ldistil，用于训练Gψ。如果H(∙,∙)是交叉熵损失，则Lcls和Ldistil定义如下：0Lcls = 1|Q|0(p,y) � QH(Rneww(Fθ(p)),y) (6)0Ldistil = 1|Q|0(p,y) � QH(Rneww(Fθ(p)),Rbasew(Fθ(p)))(7)04. 实验0数据集：我们在流行的Sketchy数据集[47]上评估我们的DIY-FSCIL框架，该数据集是一个大型的照片-素描对集合。由于对于我们的框架来说，成对的照片-素描并不是必需的，因此我们使用了Sketchy的扩展版本，其中包含60,502张额外的照片，这些照片是由Liu等人[30]后来引入的用于类别级别的SBIR。特别地，Sketchy-extended总共包含125个类别，75,471个素描和73,002张图像。现有的零样本SBIR[12,14]将数据集分为104/21个不相交的类别进行训练/测试（未见过的类别）。我们保留相同的21个类别用于测试（新颖类别），而对于超参数调整，我们考虑了104个类别中的64个类别进行训练，剩下的40个类别进行验证。总之，我们分别称它们为T train（64个类别），T val（40个类别）和Ttest（21个类别）。训练集（Ttrain）通常被称为基础数据集，并进一步分为三个子集（Ttrain train：T val train：T testtrain）=（60%：20%：20%）。子集T testtrain用于评估增量设置下基础类别的整体性能。上述步骤对素描和照片都适用。对于每个模型评估，我们遵循相同的设置，包括类别的划分和增量训练样本。0实现细节：我们使用PyTorch[36]实现了DIY-FSCIL框架，并使用一块11GB的NVIDIA RTX 2080-TiGPU进行实验。我们使用标准的ResNet18模型作为背骨特征提取器（Fθ）。输入图像的特征来自Fθ的最终池化层，维度为d =512。我们使用一个单层的GAT设计我们的权重生成器Gψ。在初始阶段，特征提取器（Fθ）在训练集T traintrain上进行训练。我们将Fθ训练100个epochs，在第二阶段，Fθ被冻结，涉及GAT的权重生成模块进行60个epochs的训练。我们使用学习率为0.01的SGD优化器，并对所有实验使用批量大小为8。为了减少由于随机采样引起的误差，我们进行了0增量类别及其样本，我们报告了通过五个不同的种子获得的平均结果。4.1. 评估协议0在增量步骤R base w → R neww之后，我们在三种情况下评估分阶段操作F θ ◦R neww的性能 -（a）仅在新颖类别上，（b）仅在基类别上，以及（c）在基类别和新颖类别上。对于仅新颖类别，类别标签空间包括y j ∈ C novel = {C n 1 ∪ C n 2 ∙ ∙ ∙ C n Kn}，对于仅基类别，类别标签空间变为y j ∈ C base = {C b1 ∪ C b 2 ∙ ∙ ∙ C b Kb}。此外，对于基类别和新颖类别的评估，标签空间跨越y j∈ C both = {C base ∪ Cnovel}。这三种评估情况回答了以下问题 -（a）模型如何从少量（1或5）的草图示例中适应新颖类别，（b）模型如何在增量步骤期间保持基类别的准确性（减轻灾难性遗忘），（c）模型如何在基类别和新颖类别上整体表现。在使用T traintrain进行两阶段训练，即在基类别上进行预训练，然后学习少样本权重生成器之后，我们获得F θ 和Gψ，用于增量设置下的推理。新颖类别的评估（Acc@novel）：使用测试集Ttest创建类似于分集训练的少样本任务。这些少样本任务通过随机抽样K novel =5个类别形成。然后，我们对每个类别抽样一个（1-shot）或五个（5-shot）示例（草图），以及每个类别的15个查询样本（照片）。在这里，查询样本将来自相同的新颖类别，但我们确保它们不与特定episode下的示例重叠。Gψ使用通过Fθ获得的示例嵌入，以及基础权重，生成增量分类器的权重Wnew，然后在查询集上进行评估。除了帮助理解模型在少样本设置中学习新颖类别而排除基类别的能力外，该指标还有助于

下载后可阅读完整内容，剩余1页未读，立即下载