MetaFSCIL:一种用于少样本类别增量学习的元学习方法

84 浏览量更新于2023-10-25 收藏 15.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

....................141660MetaFSCIL：一种用于少样本类别增量学习的元学习方法0Zhixiang Chi 1，Li Gu 1，Huan Liu 1，2，Yang Wang 1，3，Yuanhao Yu 1，Jin Tang 101 Noah's Ark Lab，华为技术有限公司 2 加拿大麦克马斯特大学 3加拿大曼尼托巴大学0{zhixiang.chi，li.gu，huan.liu3，yang.wang3，yuanhao.yu，tangjin}@huawei.com0摘要0在本文中，我们解决了少样本类别增量学习（FSCIL）的问题。FSCIL旨在每个类别仅使用少量样本逐步学习新类别。大多数现有方法只考虑测试时的增量步骤。这些方法的学习目标通常是手工设计的，与测试期间的目标（即逐步学习新类别）没有直接关联。由于训练目标与评估期间方法预期执行的任务之间存在不匹配，这些方法是次优的。在这项工作中，我们提出了一种基于元学习的双层优化，直接优化网络以学习如何在FSCIL设置中逐步学习。具体而言，我们建议从基类中采样增量任务序列进行训练，以模拟评估协议。对于每个任务，使用元目标来学习模型，使其能够快速适应而不会遗忘。此外，我们提出了一种双向引导调制，学习自动调制激活以减少灾难性遗忘。广泛的实验结果表明，所提出的方法优于基线，并在CI-FAR100、MiniImageNet和CUB200数据集上取得了最先进的结果。01. 引言0随着计算预算和数据可用性的前所未有的增加，深度模型在识别任务中取得了卓越的性能[10,26]。通常，这些方法在一些预定义的图像类别上进行离线训练，然后使用固定参数部署到目标应用中。这样的系统不够灵活，因为它们无法处理可能在部署后出现的新类别。相反，人类能够在他们的一生中逐步学习新的概念。最近，类别增量学习一直是一个活跃的研究领域。0训练集0测试集0支持集0查询集0增量0类别0评估0类别0适应性0类别0元目标0类别0时间轴0图1.评估协议和我们的元训练过程的示意图。在FSCIL的评估中，每个增量会话中，模型只在新类别上进行训练，但在迄今为止遇到的所有类别上进行评估。我们的MetaFSCIL遵循相同的规则，其中适应新类别的模型使用基于所有遇到的类别的元目标进行验证。0研究领域[2, 22,25]。然而，对于新类别来说，需要大规模的标注数据，这导致了众所周知的灾难性遗忘[19]。当所有旧类别的数据都不可用时，遗忘问题变得更加严重。此外，对于最终用户来说，收集和标注大量数据是不现实的。因此，在本文中，我们关注一个更实际和具有挑战性的场景：少样本类别增量学习（FSCIL）[27]。FSCIL包括离线训练阶段和在线增量学习阶段。在离线训练阶段，我们可以访问一些基类的大规模数据集。FSCIL在这些基类上学习模型。在在线增量学习（即评估）阶段，我们将按顺序遇到新类别，每次只呈现几个新类别（称为增量会话）。对于每个新类别，我们只有少量的训练样本。此外，我们只能在当前时间步访问与新类别对应的训练样本。换句话说，我们不能存储来自以前时间步的训练样本（例如由于存储空间有限）。141670在评估过程中，评估协议的定义是在每个增量会话之后，学习新颖类别后，模型在所有遇到的类别（包括基类）上进行评估，如图1所示。FSCIL具有两个主要挑战，即旧类别的灾难性遗忘和新类别的适应能力。为了减轻遗忘问题，一些工作[3,7]使用基于知识蒸馏的方法。这些方法通常需要额外的空间来存储来自以前会话的示例。当增量步骤增加时，这对于内存受限的设备来说是不现实的。此外，增量学习过程仅在[3,7]的“评估阶段”中涉及。因此，模型参数没有直接优化以处理遗忘和适应。换句话说，这些方法由于其学习目标与评估协议之间的不匹配而是次优的。一些最近的工作使用可用的基类来模拟增量过程，以更好地匹配评估协议。提出了一种随机任务选择策略，以增强对新颖类别的表示的可扩展性。然而，在训练过程中，只选择一个基类来采样查询图像。[32]中的工作随机采样一个增量任务来元训练分类器细化器，以便在学习部署时的新类别时可以合并旧类别和新类别的分类器。在训练过程中，从基类中随机采样两个不重叠且大小相等的子集作为伪基类和增量类。然而，许多样本（基类）和少样本（新颖类）之间的不平衡没有考虑。此外，对于[32,33]的两种方法，只考虑了一个增量会话。因此，模型没有学习在更长的时间范围内进行增量学习。他们在训练和在线评估的增量场景之间的采样策略不匹配导致了非最优的解决方案。此外，上述方法涉及手工设计的启发式方法（例如保存示例[3,7]，解耦学习[32]，原型细化[33]），与学习的解决方案[6]相比存在缺陷。例如，[32,33]中的主干网络在增量学习时被手动设计为在部署时固定不变。在分布转移下，对新颖类别的适应和泛化受到极大限制，因为主干网络不是任务无关的，而是偏向于已见（基类）的类别[8]。在这项工作中，我们提出了一个基于元学习（例如MAML[9]）的完全学习的解决方案，直接将遗忘减轻和适应作为优化目标。我们允许模型通过嵌套的基于优化的增量学习来学习如何逐步学习。具体而言，与[32]不同，我们提出了一个更长的顺序任务采样方案，以模拟随着时间的推移灾难性遗忘的增加。0在每个任务中，模型首先通过几次梯度更新对新类别进行快速适应。然后，通过在之前遇到的类别（测试遗忘）和当前类别（测试适应）的查询图像上验证适应模型来定义元目标。我们的元目标遵循测试时的评估协议。目标是学习一个模型初始化，使其能够按顺序快速适应新类别，并且不容易发生灾难性遗忘。为了进一步促进优化过程，我们建立在选择性激活机制[1]的基础上，提出了一个双向引导调制（BGM）。BGM是元训练的，它可以根据分类模块的当前状态（例如权重、学习知识）和新类别的输入图像来自动门控分类模块的激活。正向传递过程中的门控激活间接影响反向传播，从而在学习新类别时减少对旧知识的遗忘。代码将在获得批准后提供。本文的贡献有多个方面:0•我们提出了一种顺序任务采样方案，以模拟评估中的增量学习过程。0•我们提出了一种双向引导调制方法，以加强反向传播，使模型能够更好地保留旧知识并适应新类别。0•我们提出了一种基于双层元学习的优化方法，直接优化模型以减轻遗忘并适应。我们的方法完全通过最小手动设计0•在CI-FAR100、MiniImageNet和CUB200等标准基准测试上进行了大量实验，证明了我们的方法优于基准线并达到了最先进水平。02. 相关工作0在本节中，我们回顾了与我们的工作相关的几个先前研究领域。元学习。元学习是一个活跃的研究领域。现有的元学习方法包括基于模型的[24]，基于度量的[13，28]和基于优化的[9，21]。所提出的方法建立在最流行的元学习算法之一上，即模型无关的元学习（MAML）[9]。MAML使用嵌套优化来学习模型，其中内循环执行任务级优化，而外循环通过元目标执行全局模型更新。MAML的目标是学习一个模型初始化，使其能够快速适应任何新任务。̸141680MAML也已经在多任务设置中使用[5，17]。在MAXL[17]中，辅助任务与主任务一起训练，以提高泛化性能。为了减少辅助任务的手动标注成本，另一个网络用于生成辅助标签。MAXL使用元学习来强制网络自动发现最佳辅助标签。在本文中，我们提出使用MAML的双层优化，使模型能够自动学习适应新知识和记住旧知识之间的最佳权衡。这个想法是直接将它们制定为元目标，并迫使优化同时解决它们。少样本类别增量学习。FSCIL是最近由[27]提出的，用于连续学习一系列少样本任务。Tao等人[27]使用神经气网络来保留不同类别的特征拓扑。Dong等人[7]构建了一个示例关系图来表示学习到的知识。Zhu等人[33]提出了一种动态关系投影模块来约束新原型的更新。Zhang等人[32]提出了一种基于图注意力网络的不断演化的分类器，以融入先前任务的全局上下文信息。还提出了一种伪增量训练来优化图模块。然而，现有方法的优化目标与评估协议不一致。此外，这些方法都是经过精心设计的。手工设计的模块限制了与完全学习的解决方案相比的性能。FSCIL与在线类别增量学习设置（OC-IL）[1，11]密切相关。这两种设置都有一个离线阶段，在该阶段我们可以从基类学习模型。它们都有一个在线学习阶段，其中每个会话都是一些新类别的少样本问题。但是存在关键差异。OC-IL侧重于实例级别的数据流。相比之下，我们的FSCIL设置通过单独的任务逐步学习新类别。FSCIL还面临数据不平衡的挑战，其中基类有时会主导学习过程。此外，在OC-IL中，在在线学习阶段，仅在所有会话结束时进行评估。并且模型不会在基类上进行评估，因此模型不会因为基类的灾难性遗忘而受到惩罚。但是在我们的FSCIL设置中，在在线学习阶段的每个会话中都会评估我们的模型，并且评估还涉及基类。显然，FSCIL是一个更具挑战性的问题，因为我们需要同时处理灾难性遗忘和对少量示例的新类别进行增量适应。MAML也已经应用于OC-IL[1，11]。为了模拟测试场景，在OC-IL中，元更新在训练期间的每个采样序列结束时执行。0当序列长度增加时, 学习过程变得不稳定. 此外, OML[11]和ANML [1]只在简单的数据集上进行了实验(例如Om-niglot [15]).当类别之间的变化增加时(例如MiniImageNet),性能显著下降. 例如, 如[11]所示, 当学习20个新类别时,准确率减半. 网络调制. 为了避免灾难性遗忘,一种有希望的解决方案是调制学习权重的可塑性[18, 30].调制机制在学习新任务时选择和约束先前任务的重要权重[12].Kirkpatrick等人[12]提出了一种基于Fisher信息确定权重重要性的正则化方法. 类似地,Zenke等人[31]使用突触状态估计权重的重要性.然后基于这些状态对学习新任务进行正则化. 然而,大多数方法都涉及手动设计的模块. 为了避免这一点, ANML[1]提出了一种选择性激活机制,通过训练另一个并行调制网络来调制最后的激活图.它使用元学习来自动发现给定新任务的最优调制. 然而,我们发现该调制能力在更深的网络上表现不佳. 此外,调制和预测网络之间的缺乏交互限制了性能.在我们的工作中, 我们提出了一种更有效的调制机制,适用于深度网络.03. 提出的方法03.1. 问题设置0FSCIL旨在通过一系列不相交的类别进行增量学习,每个类别只有少量样本[27]. 具体而言,我们定义了一系列带标签的训练数据集{D0, D1, ...,DT}及其对应的标签集Ct在第t个会话中(t = 0, 1, ..., T).需要注意的是, 不同会话之间的标签集是不相交的, 即C i ∩ Cj = � (i ≠ j).只有第一个会话D0中的类别包含大规模的训练数据.我们将C0称为基类.我们可以使用基类进行离线训练阶段来学习模型.完成离线训练阶段后, 我们需要进行在线增量学习,使模型适应每个后续增量会话中的新类别.每个后续增量会话D t (t > 0)只包含Ct中新类别的少量训练样本. 我们将它们称为新类别. 例如,在5-way 5-shot FSCIL的情况下, 每个增量会话D t包含5个新类别, 每个类别有5个训练样例.在第t个增量会话中, 我们只能访问D t. 在在D t上学习后,模型将在迄今为止遇到的所有类别的测试图像上进行评估,即C 0 ∪ C 1 ∙ ∙ ∙ ∪ C t.FSCIL是许多现实世界应用的一种现实设置.......Layer L size: out, in, h, w Classification networkReshapesize:1, out x inFC layer size:1, out x inSigmoid size:1, out x inFeature from layer L-1Modulation networkFeature from layer L-1SigmoidAve. pool size: out, inExpand size: out, in, h, wEq. 4141690第j个任务0样本0顺序0任务0... ... 大规模0基础集0支持集0查询集0累积查询集0测试遗忘测试适应0基于Eq. 2的快速适应基于Eq. 3的元目标0模型更新0双向引导调制0图2. 我们方法的概述. (左) Alg. 1的示意图. 我们首先采样一系列会话来模拟评估协议. 在第j个会话中, 模型通过几个梯度步骤来适应新的类别.然后, 我们使用基于累积查询集的元目标来评估适应后的模型. 目标是直接优化模型, 使其在学习新类别时减少遗忘. (右) BGM模块的示意图.我们首先处理FC的权重, 生成一个权重注意力图, 然后将其应用于FM的权重. FC的权重反映了其当前的学习能力. FM接受新的图像,生成一个激活掩码, 以帮助减少灾难性遗忘.0...第t个会话的输入...0BGM0调制网络：在评估中固定0CNN层0分类网络：在评估中更新0乘法旧类FC 新类FC0图3. 提出架构的示意图。训练后，F M被冻结，而FC继续更新以学习新的类别。0让我们考虑一个图像分类应用，一个公司在云端训练模型。可以合理地假设我们在云端有一大型数据集用于某些类别（相当于FSCIL中的基类）。一旦模型训练并部署给不同的用户，每个用户可能希望随着时间的推移逐步添加新的目标类别进行识别。由于获取训练样本的成本，客户端可能只有少量的样本用于这些新类别。这相当于FSCIL中的增量会话和少样本示例。由于客户端设备通常具有有限的内存和计算能力，因此不现实地存储来自以前会话的训练样本。FSCIL可用于解决这种实际情况。03.2. 双向引导调制0在特定任务上训练深度模型通常会产生对该任务的学习参数的非均匀重要性。为了使深度模型适应新的知识，一个有前途的解决方案是减少可塑性。0对于以前的任务，让重要的参数保持不变，并允许被认为不重要的参数学习新的知识。[1]中的工作遵循这个思路，并采用调制网络（表示为FM）在在线设置中产生一个掩码来调制分类模块的最后一个激活图（表示为FC）。然而，直接在FSCIL中采用[1]存在两个主要缺点。首先，[1]只调制最后一个激活图，这在更深的网络中（如ResNet[10]）扩展性较差。我们发现在深度网络中调制早期层也更有效。其次，[1]中的F M和FC是解耦的，因此F M仅在新数据的条件下进行调制，而忽略了FC在当前增量会话中的学习能力。为了解决上述缺点，我们经验性地发现在FC中更多地进行激活调制0对于FC来说，每个增量会话的学习能力是不同的，这取决于它到目前为止学到的知识量。因此，我们提出了一个双向引导调制（BGM）来利用F C权重中编码的学习知识来指导F M[12]。图2的右侧显示了BGM模块的结构，图3显示了整体提出的架构。让我们考虑FC中某一层的权重，其形状为（out，in，h，w），其中out，in，h，w分别表示每个核的输入/输出通道数和高度/宽度。我们遵循内置注意力[20]的方法，为每个out ×in的权重核生成一个注意力图，如下所示：0Z i,j = Sigmoid(FC(Ave(W i,j)), (1)0其中Z i,j和Wi,j分别是第i个输出和第j个输入通道的注意力图和权重。FC是全连接层。newreduce the impact from randomness, we train θfcnew alonefor 20 iterations to bring it closer to local optima. We referto this as a warm-up operation. θfcnew is then concatenatedwith θfcold from previous tasks. Then, we start to performfast adaptation to new classes and update θC and θfc via afew L gradient steps:141700层，Ave表示沿（h，w）维度对权重进行平均池化操作，得到一个值。然后将注意力图Z应用于F M的权重上。0通过乘法。最后，FM接受当前增量会话中的新输入以生成门控掩码。为了匹配权重的大小，我们对F M和FC都使用相同的网络架构。由F C的权重生成的注意力图Z如下所示：0揭示了当前增量会话中权重的重要性。它引导FM生成与新类别图像一起使用的掩码。然后将门控掩码应用于F C的激活上，以调制对新知识的学习，减少遗忘。03.3.学习逐步学习0我们的方法受到MAML[9]在少样本学习（FSL）中的启发。在元训练阶段，MAML从一组任务中学习。每个任务构造为一个FSL问题，以模拟元测试期间的情景。在FSCIL中，在线逐步增量阶段类似于MAML中的“元测试”阶段。在线逐步增量阶段涉及将模型调整到一系列增量会话中，其中每个会话包含几个具有少样本示例的新类别。这表明我们应该在离线训练阶段也尝试模拟这种情景。在离线训练阶段，我们使用元学习方法从基类中学习模型。我们方法的高层思想是使用基类来模拟我们在在线逐步增量学习（即评估）中遇到的增量学习情景，以便模型可以有效地适应评估期间的新类别。顺序任务采样。由于F M和FC通过BGM耦合，我们需要训练它以适应新的概念并减少遗忘。我们使用基类模拟评估过程。具体而言，我们将基类的训练图像分为支持集和查询集，两者不重叠。在每个时期，我们首先采样一个N +1个任务的序列（每个会话包含一个任务），D s = {(S j, Qj)} N j = 0，其中S j，Qj是第j个任务的支持集和查询集。与[32,33]不同，那里只采样一个增量任务（例如N =1），我们允许N �1以模拟评估中灾难性遗忘的增加。我们还将（S 0，Q0）设置为具有更多类别和训练示例的伪基础集。随后的任务（例如j>0）遵循少样本设置作为评估。为了防止模型过度拟合到某个序列，我们随机采样类别和相应的图像。元训练。对于每个采样的序列Ds，我们提出了基于元学习[9]的双层优化，将适应性和减少遗忘作为元目标直接进行建模。我们首先将θ = {θ C, θ M,θ F C}表示为整个网络的参数，其中θ C，θ M，θ F C表示0算法1 MetaFSCIL0要求：α，β：学习率要求：θ C，θ M：预训练权重要求：D0：基类的训练集1：使用预训练权重初始化模型2：while未收敛 do 3：D s= {(S j, Q j)} N j = 0 �采样一个伪增量序列04：Q c = � �空的累积查询集合05：丢弃θ fc �丢弃前一个序列的FC层06：对于j = 0, 1, ..., N循环 �遍历整个序列07：热身θ new fc �仅训练新的FC节点几步08：θ fc = Concatenate(θ fc old, θ fc new) �合并FC节点09：˜θ C,fc = θ C,fc − α�θ C,fc L CE (X s j, Y s j; θ)010：�调整θ C和θ fc以适应新的会话012：θ C,M ← θ C,M − β�θ C,M � (X q, Y q) ∈Q c L CE (X q, Y q)013：; ˜θ C, ˜θ fc, θ M) �更新元参数θ P,M。014：结束循环015：end while0F C、F M和最终的全连接层的参数。注意，θM包括BGM中的FC层。我们首先使用交叉熵损失（LCE）对基类上的θ进行有监督训练。之后，θ F C0被丢弃。元训练过程在算法1和图2的左侧进行说明。在每个序列的训练开始时，我们定义一个空的累积查询集合Q c，用于存储来自先前任务的查询集合。在第j个0˜θC,fc = θC,fc − α�θC,fcLCE（Xsj，Ysj；θ）。（2）0任务。损失项LCE（X，Y；θ）表示损失是在θ的输出上计算的（给定X作为输入）和目标标签Y。注意，对于伪基础集（j =0），由于它包含更多的图像，我们将批量大小设置得更大，以便在L次迭代后，模型可以看到所有图像一次。适应过程模拟了模型在测试时学习新类别的方式。理想情况下，我们希望适应参数在先前和当前任务的类别上表现良好。来自先前任务的查询集反映了更新模型抵抗灾难性遗忘的性能，而当前查询集验证了模型对新类别的适应性。因此，我们将Qj附加到Qc，并相应地定义元目标：0minθC，θM0（Xq，Yq）∈QcLCE（Xq，Yq；˜θC，˜θfc，θM）。（3）0请注意，L（∙）是˜θC的函数，但优化是141710方法会议会话（MiniImageNet w/ ResNet18）平均最终00 1 2 3 4 5 6 7 8 准确率提升0TOPIC [27] CVPR2020 61.31 50.09 45.17 41.16 37.48 35.52 32.19 29.46 24.42 39.64 +24.77 Zhu et.al [33] CVPR2021 61.45 63.8059.53 55.53 52.50 49.60 46.69 43.79 41.92 52.75 +7.27 Cheraghian et.al [4] ICCV2021 61.40 59.80 54.20 51.69 49.45 48.00 45.2043.80 42.1 50.63 +7.09 CEC [32] CVPR2021 72.00 66.83 62.97 59.43 56.70 53.73 51.19 49.24 47.63 57.75 +1.560MetaFSCIL（我们的方法）- 72.04 67.94 63.77 60.29 57.58 55.16 52.9 50.79 49.19 58.850方法会议会话（CIFAR100 w/ ResNet20）平均最终00 1 2 3 4 5 6 7 8 准确率提升0TOPIC [27] CVPR2020 64.10 55.88 47.07 45.16 40.11 36.38 33.96 31.55 29.37 42.62 +20.6 Zhu et.al [33] CVPR2021 64.10 65.8661.36 57.34 53.69 50.75 48.58 45.66 43.25 54.51 +6.72 Cheraghian et.al [4] ICCV2021 62.00 57.00 56.7 52.00 50.60 48.8 45.0044.00 41.64 50.86 +8.33 CEC [32] CVPR2021 73.07 68.88 65.26 61.19 58.09 55.57 53.22 51.34 49.14 59.53 +0.830MetaFSCIL（我们的方法）- 74.50 70.10 66.84 62.77 59.48 56.52 54.36 52.56 49.97 60.790方法会议会话（CUB200 w/ ResNet18）平均最终00 1 2 3 4 5 6 7 8 9 10 准确率提升0TOPIC [27] CVPR2020 68.68 62.49 54.81 49.99 45.25 41.40 38.35 35.36 32.22 28.31 26.28 43.92 +26.36 Zhu et.al [33] CVPR2021 68.68 61.8557.43 52.68 50.19 46.88 44.65 43.07 40.17 39.63 37.33 49.32 +15.31 Cheraghian et.al [4] ICCV2021 68.78 59.37 59.32 54.96 52.58 49.81 48.0946.32 44.33 43.43 43.23 51.84 +9.41 CEC [32] CVPR2021 75.85 71.94 68.50 63.50 62.43 58.27 57.73 55.81 54.83 53.52 52.28 61.33 +0.360MetaFSCIL（我们的方法）- 75.90 72.41 68.78 64.78 62.96 59.99 58.30 56.85 54.78 53.82 52.64 61.920表1. 在MiniImageNet、CIFAR100和CUB200数据集上与最先进方法的比较。其他结果来自相应的论文。我们的方法在所有数据集的所有增量会话中产生了优越的结果。0在θC上执行。然后使用梯度下降来最小化公式3中的目标：0θC,M ← θC,M −0（4）当一个epoch中的所有N+1个任务都完成时，Qc被重置为空。θfc也被丢弃，因为我们无法在部署后预定义θfc的长度，因为用户可以动态地将其扩展到任意长度。因此，对于每个新的epoch，我们从随机初始化开始θfcnew，然后进行热身操作和适应过程。元测试。通过少量新类别的示例来学习元参数θC以执行快速适应。和θM0在线增量学习阶段，模型通过训练来促进学习过程，根据新数据和当前的θC状态减少遗忘。在评估时，我们执行Alg.1的第6-9行来学习新的类别。请注意，在离线训练之后，θM是固定的。Alg.1中的过程与评估协议相匹配：在每个增量会话中，模型在训练当前会话后对所有遇到的类别进行评估。我们的元目标将模型优化为在评估时应该执行的任务。我们将所提出的Alg. 1命名为MetaFSCIL。04. 实验0在本节中，我们在三个著名的FSCIL数据集上进行实验：CIFAR100 [14]，MiniImageNet [23]和CUB200[29]。我们首先讨论数据集、评估协议和实现细节。然后，我们与最先进的方法进行比较，并进行了全面的消融研究以分析所提出的方法。0我们进行了实验来分析所提出的方法。04.1. 数据集和实现细节0数据集。CIFAR100 [14]和MiniImageNet[23]包含100个类别。每个类别有500张图像用于训练和100张图像用于测试。图像分辨率分别为32×32和84×84。CUB200[29]包含6000张分辨率为224×224的鸟类图像，用于训练和测试的类别为200个。评估协议。我们遵循[27]中的划分。对于CIFAR100和MiniImageNet，选择60个类别作为基类，其余类别分为8个增量会话，采用5-way5-shot的设置。对于CUB200，选择100个类别作为基础集，其余类别形成10-way5-shot的任务，共计10个会话。网络。按照[27,32]，我们使用ResNet20作为CIFAR100的骨干网络，使用ResNet18作为MiniImageNet和CUB200的骨干网络。FC和FM的结构相同。我们将BGM模块均匀分布在存在下采样操作的层中。我们还像[1]中那样将其应用于最后的激活层。因此，对于ResNet20和ResNet18，总共有4个和5个BGM模块。预训练。我们按照[32]的方法，使用批量大小为128的SGD对基类进行100个epoch的监督训练。初始学习率设置为0.1，并在第60和第70个epoch时按0.1的因子进行调整。顺序任务采样。我们使用基类的训练集来采样序列。首先将它们分为不重叠的支持集和查询集（CIFAR100/MiniImageNet为250/250，CUB200为20/10）。对于每个序列，78050100150200Predicted labels050100150200Target labelsBaseline (Init.)050100150200Predicted labelsTarget labelsFull model0.00.20.40.60.81.0141720方法会话（CIFAR100 w/ ResNet20）0基线（Rep.）74.33 67.23 63.18 59.24 56.03 53.05 50.66 48.69 46.47 基线（Init.）74.33 66.78 62.30 57.18 54.3351.68 48.73 46.67 43.80 +元学习（Rep.）74.45 70.03 65.75 61.69 58.68 55.81 53.68 51.68 49.30+元学习（Init.）74.45 70.05 65.97 61.76 58.78 55.92 53.80 51.77 49.410+调制（最后）74.46 70.08 66.65 62.06 58.88 55.58 53.28 51.12 48.34 +调制（均匀）74.49 70.08 67.00 62.45 59.3856.29 54.08 52.02 49.67 +BGM（完整模型）74.50 70.10 66.84 62.77 59.48 56.52 54.36 52.56 49.970元更新（OML [11]，ANML [1]）74.50 70.09 66.19 61.89 58.51 55.53 53.81 51.89 49.02 元更新（我们的方法）74.5070.10 66.84 62.77 59.48 56.52 54.36 52.56 49.970表2. CIFAR100上所提出方法的整体消融研究。通过所提出的元学习，由于学习目标与评估目标的对齐，准确率得到提升。调制FC（特别是使用BGM）进一步帮助学习新的类别。所提出的元更新方法也优于现有方法。0因此，我们首先随机抽取伪基类（CIFAR100/MiniImageNet为20个类，每个类有50张图像；CUB200为15个类，每个类有15张图像），然后进行8个5-way5-shot任务的训练。对于所有类别，CIFAR100/MiniImageNet的查询集中随机抽取50张图像，CUB200抽取5张图像。元训练和测试。在预训练之后，使用Alg.1对模型进行进一步训练，训练200个epoch，学习率固定为0.001，对于α和β都是如此。在[27]的最终评估中，我们使用Alg.1的第6-9行进行元测试。对于元训练和测试，我们进行5次梯度更新（L=5）以学习新的类别。我们对预训练和元训练都使用随机裁剪、缩放和水平翻转进行数据增强。对于CUB200，我们还使用了[32]中的数据初始化方法。04.2. 主要结果0在本节中，我们与最近的最先进方法进行比较，包括TOPIC[27]，Zhu et.al [33]，Cheraghian et.al [4]，CEC[32]。我们报告每个增量会话的top-1准确率以及所有会话的平均准确率。我们还包括最后一个会话的相对改进。如表1所示，所提出的方法在所有三个数据集的所有增量会话中都优于所有方法。具体而言，在Mini-ImageNet、CIFAR100和CUB200数据集上，我们的方法的最终准确率分别比最近的方法Cheraghian et.al[4]高出7.09％，8.33％和9.41％。我们还比第二好的方法CEC[32]高出1.56％，0.83％和0.36％。这证明了所提出的方法的有效性，其中模型直接优化以实现增量学习并减少遗忘。可视化。为了直观地展示所提出方法的有效性，我们通过混淆矩阵报告了类别的性能，如图4所示。正如我们所看到的，基线模型表现不佳，特别是在适应新类别时。然而，完整模型在适应新类别时的准确性显著提高。另一方面，我们的方法也观察到了较少的遗忘，因为更多的值集中在对角线上。0图4.CUB200数据集上的类别性能。混淆矩阵显示我们的方法显著改善了基线模型，无论是基类还是新类（由红线分隔）。04.3. 消融研究0在本节中，我们在CIFAR100数据集上进行消融研究，以分析所提出方法的各个组成部分。表2报告了整体消融结果。基线模型。我们考虑了两个基线模型，它们在没有元学习和调制的情况下在基类上进行预训练。预训练的主干网络在增量会话期间要么固定要么更新。我们将固定版本称为表示（Rep.），类似于[32]中的解耦学习。非固定的主干网络用作模型初始化（表示为Init.），应该在后续会话中进行更新[9]。如表2的前两行所报告的，解耦的Rep.比Init.表现要好得多。因为主干网络没有经过训练如何增量学习，更新它更容易过拟合新类别并且容易遭受灾难性遗忘。元学习。如表2的第3行和第4行所示，元学习模型大大提升了两个基线模型的性能（分别提高了2.83％和5.61％）。值得注意的是，Init.版本优于Rep.版本。这证明了所提出的方法的有效性，其中元目标明确要求模型在学习新类别时减少遗忘旧类别。12345Number of ways49.249.449.649.850.0Top-1 accuracy12345678Number of incremental sessions49.049.249.449.649.850.0CEC [32]47.6349.1452.28MetaFSCIL + CEC48.9549.7152.64141730图5.CIFAR100数据集上的消融研究，涉及不同方式（左）和采样的增量任务（右）。增加方式或增量任务有助于稳定训练过程并提高性能。0调制网络。调制网络是提高性能的另一个关键。然而，当使用更深的网络和复杂的数据集时，仅仅调制最后一层激活（如[1]中的FC）是不理想的。如表2的第5行所示，仅调制最后一层激活（表示为Last）甚至使性能下降了1.07％，与没有调制的情况（第4行）相比。[1]中进行的实验仅涉及浅层网络和简单的手写数据集[15]。可能是由于调制效果通过反向传播逐渐减弱到较早的层对于更深的网络。相反，我们的策略是在整个FC中放置调制单元（表示为Uniform），可以带来调制的积极效果，如第6行所示。双向引导调制：除了调制网络，BGM模块还考虑了每个会话中FC的学习能力。根据旧知识和新类别的即将到来的图像，BGM能够更准确地调制FC。值得注意的是，如表2的第7行所示，没有BGM时，模型能够在前两个增量会话中表现良好。然而，从第3个会话开始，性能下降速度比具有BGM的模型更快。最终，BGM将最终准确率进一步提高了0.3％。元更新。在训练过程中，所提出方法的元更新在每个增量任务序列中执行。这个设计与评估协议相匹配。我们与在线连续学习设置中的方法进行比较[1, 11]，其中元更新仅在序列结束时执行。请注意，[1,11]的元目标定义在一个包含先前类别和随机抽样类别（包含未来类别）的集合上。为了公平比较，我们忽略未来类别并增加迭代次数以匹配总迭代次数。表2的最后两行表明，我们的元更新对于FSCIL设置更加优化。任务抽样中的类别数量。我们研究了在元训练期间对任务进行抽样的新类别数量。我们将这个数字设置在{1,5}的范围内并训练单独的模型。图5的左图说明了每个任务的更大数量的类别更加优化。0方法 MiniImageNet CIFAR100 CUB2000表3. 我们的元学习骨干与CEC的集成.与仅在基础类上进行训练的普通骨干相比,我们的元学习骨干显著改善了CEC.0对于较少的类别数量, 模型更有可能过度拟合特定类别,而不是学习如何增量学习. 增量任务的数量. 在元训练过程中,每个序列的增量任务数量对于训练过程至关重要.如图5右侧所示, 当只采样一个增量任务时,采样过程降级为[32, 33]中的采样过程.观察到准确率显著下降,因为采样过程与评估协议存在很大差异. 在评估过程中,遗忘现象随着时间的推移变得更加严重.增加会话数可以迫使模型以更好地适应评估过程中可能遇到的情况的方式进行学习. 与CEC的集成.我们提出的方法旨在学习一个适合于学习过程中减少遗忘的合适初始骨干 (耦合的F C和F M ). CEC [ 32]开发了一个使用在基础类上预训练的固定骨干的先进分类器, 这显然是次优的. 为了进一步展示所提方法的有效性,我们用我们的元训练骨干替换了他们的骨干并重新训练了他们的分类器. 表3显示,在MiniImageNet、CIFAR100和CUB200数据集上,我们的骨干能够将CEC的准确率分别提高1.32%、0.57%和0.36%.05. 结论0在这项工作中,我们引入了元学习方法来进行少样本类增

下载后可阅读完整内容，剩余1页未读，立即下载