条件通道门控网络用于任务感知的连续学习

111 浏览量更新于2023-10-25 收藏 12.2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

activities, without having any knowledge about their re-lationship or duration in time. Such challenges typicallyarise in robotics [2], reinforcement learning [29], vision sys-tems [26] and many more (cf. Chapter 4 in [7]). In such sce-narios, deep learning models suffer from catastrophic for-getting [23, 9], meaning they discard previously acquiredknowledge to ﬁt the current observations. The underlyingreason is that, while learning the new task, models over-write the parameters that were critical for previous tasks.Continual learning research (also called lifelong or incre-mental learning) tackles the above mentioned issues [7].The typical setting considered in the literature is that of amodel learning disjoint classiﬁcation problems one-by-one.Depending on the application requirements, the task forwhich the current input should be analyzed may or may notbe known. The majority of the methods in the literature as-sume that the label of the task is provided during inference.Such a continual learning setting is generally referred to astask-incremental. In many real-world applications, such asclassiﬁcation and anomaly detection systems, a model canseamlessly instantiate a new task whenever novel classesemerge from the training stream. However, once deployedin the wild, it has to process inputs without knowing inwhich training task similar observations were encountered.Such a setting, in which task labels are available only dur-ing training, is known as class-incremental [35]. Existingmethods employ different strategies to mitigate catastrophicforgetting, such as memory buffers [27, 18], knowledge dis-tillation [17], synaptic consolidation [14] and parametersmasking [21, 32]. However, recent evidence has shown thatexisting solutions fail, even for simple datasets, whenevertask labels are not available at test time [35].This paper introduces a solution based on conditional-computing to tackle both task-incremental and class-incremental learning problems. Speciﬁcally, our frameworkrelies on separate task-speciﬁc classiﬁcation heads (multi-head architecture), and it employs channel-gating [6, 3] inevery layer of the (shared) feature extractor. To this aim, weintroduce task-dedicated gating modules that dynamicallyselect which ﬁlters to apply conditioned on the input feature39310用于任务感知连续学习的条件通道门控网络0Davide Abati 1 � Jakub Tomczak 2 Tijmen Blankevoort 2 Simone Calderara 10Rita Cucchiara 1 Babak Ehteshami Bejnordi 201摩德纳和雷焦埃米利亚大学2高通人工智能研究†0高通科技荷兰公司0{ name.surname } @unimore.it { jtomczak,tijmen,behtesha } @qti.qualcomm.com0摘要0当卷积神经网络在一系列学习问题上进行优化时，会出现灾难性遗忘现象：当它们满足当前训练示例的目标时，它们在先前任务上的性能会急剧下降。在这项工作中，我们引入了一种新的框架来解决这个问题，即条件计算。我们为每个卷积层配备了任务特定的门控模块，选择在给定输入上应用哪些滤波器。通过这种方式，我们实现了两个吸引人的特性。首先，门的执行模式可以识别和保护重要的滤波器，确保模型在先前学习的任务中不会损失性能。其次，通过使用稀疏性目标，我们可以促进选择一组有限的核，以保留足够的模型容量来处理新任务。现有的解决方案在测试时需要知道每个示例属于哪个任务。然而，在许多实际场景中，这种知识可能不可用。因此，我们还引入了一个任务分类器，用于预测每个示例的任务标签，以处理没有任务预测器的设置。我们在四个连续学习数据集上验证了我们的提议。结果表明，我们的模型在有任务预测器和无任务预测器的情况下都优于现有方法。值得注意的是，在SplitSVHN和Imagenet-50数据集上，我们的模型相对于竞争方法的准确率提高了23.98%和17.42%。01. 引言0� 在高通科技荷兰公司实习期间进行的研究。†高通人工智能研究是高通科技公司的一个倡议。39320映射。这种策略除了鼓励使用更少的单元外，还使得每个样本的模型选择成为可能，并且可以轻松查询哪些权重对当前任务是必要的。当学习新任务时，这些权重被冻结，但是门控模块可以动态选择使用或丢弃它们。相反，以前的任务从未使用的单元将被重新初始化并用于获取新的概念。这个过程防止了对过去任务的任何遗忘，并且在前向传播中实现了可观的计算节省。此外，在推理过程中，我们通过引入一个任务分类器来选择应查询哪个分类头进行类别预测，从而避免了对任务标签的需求。我们在相同的增量学习约束下训练任务分类器和分类头。为了减轻任务分类方面的遗忘，我们依赖于来自情节性或生成性记忆的示例重播。在这两种情况下，我们展示了在任务级别执行排练的好处，而不是之前在类别级别操作的重播方法[27,5]。据我们所知，这是第一个在类增量学习环境中进行监督任务预测的工作。我们在四个难度逐渐增加的数据集上进行了大量实验，无论在测试时是否有任务标签，我们的结果都表明，只要有任务标签可用，我们的模型有效地解决了遗忘问题，并且表现与或优于最先进的解决方案。在任务不可知的情况下，我们始终优于竞争方法。02. 相关工作0持续学习。灾难性遗忘一直是神经网络的一个众所周知的问题[23]。早期缓解这个问题的方法包括正交表示学习和重播先前的样本[9]。深度学习的最新进展导致了深度神经网络在持续学习领域的广泛应用。首次尝试，如渐进神经网络[30]通过引入每个新任务的一组新参数来解决遗忘问题，但可扩展性有限。另一种流行的解决方案是在学习新任务时使用模型的过去参数化作为参考进行知识蒸馏[17]。最近出现的巩固方法的重点是识别对先前任务至关重要的权重，并防止在学习新任务时对它们进行重大更新。每个参数的相关性/重要性估计可以通过费舍尔信息矩阵[14]、损失梯度的路径积分[39]、梯度大小[1]和贝叶斯神经网络中的后验不确定性估计[25]来进行。其他流行的巩固策略依赖于对直接将每个任务映射到一组参数的二进制掩码的估计。0负责它的参数。这样的掩码可以通过随机分配[22]、修剪[21]或梯度下降[20,32]来估计。然而，现有的基于掩码的方法只能在提供任务标签的情况下操作。我们的工作类似于上述模型，但有两个基本区别：i）我们的二进制掩码（门）是动态生成的，并且依赖于网络输入；ii）我们通过引入一个新颖的架构，包括一个任务分类器，将基于掩码的方法推广到类增量学习环境中。几个模型允许访问一个有限容量的内存缓冲区（情节性记忆），其中保存了先前任务的示例。一种流行的方法是iCaRL[27]，它将类原型计算为存储记忆的平均特征表示，并以最近邻的方式对测试示例进行分类。或者，其他方法介入训练算法，提议调整对当前批次计算的梯度，使其朝着保证对存储的示例没有破坏性影响的更新方向调整[18, 5,28]。这样的目标可能意味着对约束优化问题[18,5]的形式化，或者使用元学习算法[28]。相反，生成性记忆不依赖于任何真实示例的重播，而是利用可以高效采样过去任务的虚假示例的生成模型[34, 38,26]。在这项工作中，我们也依赖于情节性或生成性记忆来处理类增量学习环境。然而，我们只进行重播以防止任务预测器的遗忘，从而避免更新任务特定的分类头。0条件计算。条件计算研究侧重于将其架构调整为给定输入的深度神经网络。尽管最初的工作已应用于语言建模[33]，但有几项工作将这一概念应用于计算机视觉问题。在这方面，先前的工作使用二进制门来决定是否执行或跳过计算块。这些门可以丢弃整个残差块[36, 37]或层内的特定单元[6,3]。在我们的工作中，我们依赖于后一种策略，学习一组任务特定的门控模块，选择在给定输入上应用哪些卷积核。据我们所知，这是在连续学习中首次应用数据相关通道门控的方法。03. 模型03.1. 问题设置和目标0我们有一个参数模型，即一个神经网络，称为主干或学习网络，它暴露给一系列要学习的N个任务，T = {T1, ...,TN}。每个任务Ti采用分类问题的形式，Ti = {xj,yj}nij=1，其中xj ∈ Rm，yj ∈ {1, ..., Ci}。ˆhl+1 = Glt(hl) ⊙ hl+1,(4)39330任务增量设置需要优化：0max θ E t �T � E (x, y) � Tt [log pθ(y|x, t)] � , (1)0其中θ标识了学习网络的参数化，x、y和t是与每个示例的观察、标签和任务相关的随机变量。这样的最大化问题受到连续学习约束的限制：随着模型按顺序观察任务，Eq.1中的外部期望计算或近似计算困难。值得注意的是，这种设置要求假设每个示例所属的任务的身份在训练和测试阶段都是已知的。实际上可以利用这些信息来隔离分类器的相关输出单元，通过同一个softmax层（多头）防止属于不同任务的类别之间的竞争。类增量模型解决以下优化问题：0max θ E t �T � E (x, y) � Tt [log pθ(y|x)] � . (2)0在这种情况下，缺乏任务条件会阻止模型进行任何形式的任务感知推理。这种设置要求将输出单元合并为单个分类器（单头），其中来自不同任务的类别相互竞争，通常导致更严重的遗忘[35]。尽管模型可以根据任务信息进行学习，但这些信息在推理过程中不可用。0为了处理来自未知任务的观察结果，同时保留多头设置的优势，我们将联合优化类别和任务预测，如下所示：0max θ E t �T � E (x, y) � Tt [log pθ(y, t|x)] � =0E t �T � E (x, y) � Tt [log pθ(y|x, t) + log pθ(t|x)] � .(3)0Eq. 3 描述了一个双重目标。一方面，logp(y|x,t)的项负责根据任务进行类别分类，类似于Eq.1中的多头目标。另一方面，logp(t|x)的项旨在从观察中预测任务。这个预测依赖于一个任务分类器，以单头方式逐步训练。值得注意的是，Eq.3中的目标将单头复杂性从类别预测转移到任务预测层面，具有以下好处：0• 给定任务标签，类别预测准确性不会下降；•来自不同任务的类别在训练和测试过程中不会相互竞争；•挑战性的单头预测步骤从类别级别转移到任务级别；由于任务和类别形成两级层次结构，前者的预测可能更容易（因为它在更粗糙的语义级别上起作用）。0� �� 0� �� MLP0� �0� �0全局平均池化0门控logits0Gumbel噪声0二进制决策0Conv2D0输入特征图门控输出图0� � � �0Conv2D � � �0门控0� -th层, t -th任务0图1：卷积层的门控方案。根据输入特征图，门控模块Glt决定使用哪些卷积核。03.2. 多头学习类别标签0在本节中，我们介绍了我们在工作中使用的条件计算模型。图1说明了我们框架中使用的门控机制。我们将门控机制的讨论限制在卷积层的情况下，因为它也适用于其他参数化映射，如全连接层或残差块。假设h l ∈ R c l in ,h,w和h l +1∈ R c l out ,h ′ ,w′分别是第l个卷积层的输入和输出特征图。我们将不再将h l+1直接传递给下一层，而是传递一个稀疏特征图ˆ h l+1，该特征图通过修剪无信息的通道获得。在训练任务t时，关于哪些通道应该被激活的决策被委托给门控模块Glt，该模块以输入特征图h l为条件：0其中G l t ( h l ) = [ g l 1 , . . . , g l c l out ]，g l i ∈ { 0 , 1}，⊙表示逐通道乘法。为了符合增量设置，每当模型观察到来自新任务的示例时，我们实例化一个新的门控模块。然而，每个模块都被设计为轻量级网络，计算成本和参数数量都可以忽略不计。具体而言，每个门控模块包括一个具有16个单元的多层感知机（MLP），后面是一个批归一化层[12]和一个ReLU激活函数。最后的线性映射为卷积的每个输出通道提供对数概率。通过门控的反向传播梯度具有挑战性，因为使用了不可微的阈值来进行二进制的开/关决策。因此，我们依赖于Gumbel-Softmax采样[13,19]，并利用直通估计器[4]对梯度进行有偏估计。…………T2TtT1…Lsparse = E(x,y)∼Tt,(5)39340卷积10任务分类器0头10Conv2D � � � �0全局平均池化0� �0� �0� �0连接0FC-640FC- t0ReLU0MaxPool0conv �0ReLU0MaxPool0卷积 �0ReLU0候选特征图0任务概率0头20头t0多头0类别预测0单头任务预测0Conv2D � � � �0Conv2D � � � �0共享的0共享的0（a）（b）0图2：通用骨干架构的任务预测机制示意图。首先（块‘a’），第l个卷积层被多个门控特征图输入，每个特征图对应一个特定的任务。然后，每个特征图与相应的门控模块Glx选择的卷积核进行卷积，并传递到下一个模块。在网络的末端，任务分类器（块‘b’）以候选特征图作为输入，并决定解决哪个任务。0在前向传递中，我们使用硬阈值（以零为中心），在后向传递中使用Sigmoid函数（温度为τ=2/3）。此外，我们通过稀疏性目标来惩罚活跃卷积核的数量：0�λsL0L�0l=10∥Glthl∥1clout0�0其中L是门控层的总数，λs是控制稀疏程度的系数。稀疏性目标指示每个门控模块选择最小的一组内核，使我们能够保留用于优化未来任务的滤波器。此外，它允许我们根据任务的难度和手头的观察有效地调整分配网络的容量。这种数据驱动的模型选择与其他连续学习策略形成对比，其他策略使用固定的模型增长比例[30]或权重修剪[21]。在任务t的优化结束时，我们通过在验证集Tvalt上估计其门的触发概率，为第l层的每个单元计算一个相关性分数rlk：0rl,tk=E(x,y)�Tvalt[p(I[glk=1])],(6)0其中I[∙]是一个指示函数，p(∙)表示概率分布。通过对这些分数进行阈值处理，我们获得两组内核。一方面，我们冻结任务t的相关内核，以便它们在未来任务中可用但不可更新。另一方面，我们重新初始化非相关内核，并使它们可以被后续任务学习。在我们的所有实验中，我们使用阈值为0，这样可以防止任何遗忘，但会减少未来任务的模型容量。0请注意，在这个框架内，监视每层剩余可学习单元的数量是微不足道的。因此，如果骨干模型的容量饱和，我们可以快速扩展网络以消化新任务。然而，由于新任务的门控模块可以动态选择使用先前学习的滤波器（如果对其输入有关），学习新任务通常需要更少的可学习单元。在实践中，我们从未遇到过学习新任务时骨干模型饱和的情况。除此之外，由于我们的条件通道门控网络设计，增加未来任务的模型容量对推理的计算成本几乎没有影响，如第4.5节的分析所报告的。03.3.单头学习任务标签0在第3.2节中提出的门控方案允许立即识别每个过去任务的重要内核。然而，它不能直接应用于无任务设置，因为它需要关于应该应用于第l层的哪个门控模块Glx的知识，其中x∈{1,...,t}表示未知任务。我们的解决方案是使用所有的门控模块[Gl1,...,Glt]，并将所有的门控层输出[ˆhl+11,...,ˆhl+1t]向前传播。反过来，下一层l+1接收来自层l的门控输出列表，应用其门控模块[Gl+11,...,Gl+1t]，并产生输出列表[ˆhl+21,...,ˆhl+2t]。这个机制在网络中生成并行的计算流，共享相同的层，但为每个流选择不同的激活单元集合（图2）。尽管并行流的数量随任务数量增长，但我们发现我们的解决方案在计算上比骨干网络更便宜（见第4.5节）。这是因为门控机制。h =t�i=1[µ(ˆhL+1i)],(7)CONVBNCONVBNCONVBN��optionalshortcut 𝐺𝑡𝑙39350在每个流中，我们使用门控模块选择有限数量的卷积滤波器。在最后一个卷积层（索引为L）之后，我们得到一个候选特征图列表[ˆhL+11,...,ˆhL+1t]和相同数量的分类头。任务分类器接收所有特征图的串联作为输入：0其中µ表示沿空间维度的全局平均池化操作符，�表示沿特征轴的连接。任务分类器的架构基于一个浅层MLP，具有64个ReLU单元的隐藏层，后面是一个预测任务标签的softmax层。我们使用标准的交叉熵目标来训练任务分类器。优化是与任务t的类标签学习一起进行的。因此，网络不仅学习了用于区分任务t内的类别的特征，还学习了更容易区分任务t的输入数据与所有先前任务的能力。单头任务分类器容易出现灾难性遗忘。最近的论文表明，在单头设置中，基于回放的策略是最有效的持续学习策略[35]。因此，我们选择通过回放来改善这个问题。具体而言，我们考虑以下方法。0情节记忆。从先前任务中选择一小部分示例来回放任务分类器。在训练任务t期间，缓冲区保存来自过去任务1,...,t-1的C个随机示例（其中C表示固定容量）。从缓冲区和当前批次（来自任务t）中重新采样示例，以使回放批次中任务标签的分布是均匀的。在任务t结束时，缓冲区中的数据被子采样，以使每个过去任务保持m =C/t个示例。最后，从任务t中选择m个随机示例进行存储。0生成性记忆。采用生成模型从先前任务中采样虚假数据。具体而言，我们使用带有梯度惩罚的WassersteinGANs（WGAN-GP[10]）。为了克服采样过程中的遗忘问题，我们使用多个生成器，每个生成器模拟特定任务的示例分布。0在这两种情况下，重放仅用于回放任务分类器，而不是分类头。总结起来，我们模型的完整目标包括：类别级别的交叉熵（方程3中的pθ(y|x,t)），任务级别的交叉熵（方程3中的pθ(t|x)）和稀疏项（方程5中的Lsparse）。04. 实验04.1. 数据集和骨干架构0我们使用以下数据集进行实验：0• SplitMNIST：MNIST手写分类基准[16]被分成5个连续类别的子集。这导致了5个二分类任务，这些任务是按顺序观察到的。 • Split SVHN：与SplitMNIST相同的协议，但使用SVHN数据集[24]。 • SplitCIFAR-10：与SplitMNIST相同的协议，但使用CIFAR-10数据集[15]。 •Imagenet-50[26]：iILSVRC-2012数据集[8]的一个子集，包含50个随机抽样的类别和每个类别1300张图像，分为5个连续的10分类问题。图像被调整为32x32像素的分辨率。0至于骨干模型，对于MNIST和SVHN基准，我们使用了一个具有100个过滤器的三层CNN和ReLU激活（以下简称SimpleCNN）。除最后一个卷积层外，所有卷积层后面都跟随一个2x2的最大池化层。在池化层之后应用门控。最后，全局平均池化后跟一个线性分类器产生类别预测。对于CIFAR-10和Imagenet-50基准，我们使用了ResNet-18[11]模型作为骨干。ResNet基本块的门控版本如图3所示。如图所示，在第一个卷积层和残差连接之后分别应用两组独立的门控。所有模型都使用带有动量的SGD进行训练，直到收敛。每个任务结束后，通过监视当前任务的一组保留示例上的相应目标来对所有模型进行模型选择（即，我们不依赖于过去任务的示例进行验证）。我们仅在预定的一定数量的时期之后应用Sec.3.2中介绍的稀疏目标，以便模型有可能在开始修剪无信息的核之前学习有意义的核。有关更多实现细节，请参阅补充材料。0图3：应用于ResNet-18块的门控方案。只有在下采样时才对快捷路径进行门控。39360拆分MNIST 拆分SVHN 拆分CIFAR-10 T 1 T 2 T 3 T 4 T 5 平均 T 1 T 2 T 3 T 4 T 5 平均 T 1 T 2 T 3 T 4 T 5 平均0Joint (UB) 0.999 0.999 0.999 1.000 0.995 0.999 0.983 0.972 0.982 0.983 0.941 0.972 0.996 0.964 0.979 0.995 0.983 0.9830EWC-On 0.971 0.994 0.934 0.982 0.932 0.963 0.906 0.966 0.967 0.965 0.889 0.938 0.758 0.804 0.803 0.952 0.960 0.855 LwF 0.998 0.979 0.997 0.999 0.985 0.992 0.9740.928 0.863 0.832 0.513 0.822 0.948 0.873 0.671 0.505 0.514 0.702 HAT 0.999 0.996 0.999 0.998 0.990 0.997 0.971 0.967 0.970 0.976 0.924 0.962 0.988 0.911 0.953 0.9850.977 0.9630ours 1.00 0.994 1.00 0.999 0.993 0.997 0.978 0.972 0.983 0.988 0.946 0.974 0.994 0.917 0.950 0.983 0.978 0.9640表1：任务增量结果。对于每种方法，我们报告了增量训练后所有任务的最终准确率。04.2. 任务增量设置0在任务增量设置中，测试时可以向神经网络查询任务标签。因此，我们不依赖于任务分类器，利用真实的任务标签来选择哪些门控模块和分类头应该处于活动状态。本节验证了所提出的数据相关门控方案在持续学习中的适用性。我们将我们的模型与几种竞争方法进行比较：0-Joint：在训练所有任务的同时，可以访问整个数据集的骨干模型。我们将其性能视为上限。- Ewc-On[31]：弹性权重整合的在线版本，依赖于参数的最新MAP估计和Fisher矩阵的累积和。- LwF[17]：一种通过蒸馏目标对任务损失进行正则化的方法，使用当前任务上模型的初始状态作为教师。- HAT[32]：基于掩码的模型，将网络中的活动单元与任务标签相关联。尽管与我们的方法最相似，但它只能应用于任务增量设置。0表1报告了不同方法在整个训练过程后所有任务的准确率比较。尽管在MNIST上表现非常相似，但随着数据集变得越来越具有挑战性，不同模型的整合能力差距逐渐显现。值得一提的是几个经常出现的模式。首先，当任务数量超过两个时，LwF的表现不佳。尽管其蒸馏目标是对抗遗忘的良好正则化器，但它不允许模型获得新知识的足够灵活性。因此，在顺序学习过程中，其对最新任务的准确率逐渐降低，而对第一个任务的性能保持非常高。此外，结果还突出了基于门控方案（HAT和我们的方法）相对于其他整合策略（如EWCOnline）的适用性。前者阻止了相关参数的任何更新，而后者只惩罚了更新它们，最终导致了相当大的遗忘程度。最后，该表显示我们的模型在所有数据集上要么与HAT表现相当，要么优于HAT，这表明我们的数据相关门控方案和稀疏目标的有益效果。04.3. 带有情节记忆的类增量学习0接下来，我们转向类增量设置，测试时没有任务标签的意识，这显著增加了持续学习问题的难度。在本节中，我们设置了一个实验，允许存储有限数量的示例（缓冲区）。我们与以下进行比较：0-完全回放：通过向网络回放无限数量的样本来获得上限性能。- iCaRL[27]：一种基于最近邻分类器的方法，利用缓冲区中的样本。我们报告了使用原始缓冲区填充策略（iCaRL-mean）和用于我们的模型的随机算法（iCaRL-rand）的性能。- A-GEM[5]：一种基于缓冲区的方法，纠正当前任务上的参数更新，使其不与存储的样本上计算的梯度相矛盾。0结果总结在图4中，展示了在增量学习的Split-MNIST和Split-SVHN基准测试中，不同缓冲区大小下所有任务的最终平均准确率。该图突出了几个发现。令人惊讶的是，A-GEM在MNIST上的性能非常低，而在SVHN上提供了更高的结果。对前者数据集的进一步研究表明，它在最新任务上始终达到有竞争力的准确率，而在之前的任务上大部分被遗忘。另一方面，iCaRL的性能似乎不受其缓冲区填充策略的显著影响。此外，它的准确率似乎不随存储样本数量的增加而提高。与这些方法相比，我们的模型主要利用少量存储的样本进行粗粒度任务预测的排练，同时保持细粒度类别预测的准确性。如图4所示，我们的方法在具有分集记忆的增量学习设置中始终优于竞争方法。04.4. 具有生成记忆的增量学习0接下来，我们在一个增量学习的设置中进行实验，其中不允许存储任何样本。在这个框架中，一种常用的策略是使用生成模型来近似先前任务的分布并0.20.4.60.81.0Full replayA-GEMiCaRL-meaniCaRL-randour0.50.60.70.80.90.650.700.750.800.850.9039370500 1000 1500 2000 缓冲区大小（样本）0准确率0Split MNIST0500 1000 1500 2000 缓冲区大小（样本）0Split SVHN0图4：当使用分集记忆时，所有任务的最终平均准确率作为缓冲区容量的函数。0通过从其上采样虚假观测来排练骨干网络。其中，DGM[26]是最先进的方法，它提出了一种类条件GAN架构，配备了类似于HAT[32]的硬注意机制。GAN生成器产生的虚假样本被重新播放给判别器，其中包括提供类别预测的辅助分类器。至于我们的模型，如第3.3节所述，我们依赖于多个任务特定的生成器。关于所使用的WGAN的架构的详细讨论，请参阅补充材料。表2比较了DGM和我们的模型在具有生成记忆的增量学习设置中的结果。再次，我们仅对任务分类器利用排练的方法证明是有益的。DGM在SplitMNIST上表现特别好，其中虚构的样本几乎无法与真实样本区分开。相反，结果表明，随着建模分布的复杂性增加和生成样本的视觉质量下降，类条件排练可能变得不那么有益。04.5. 模型分析0分集记忆与生成记忆。为了理解在处理增量学习问题时应该优先选择哪种排练策略，我们提出以下问题：在有限数量的真实样本和（潜在的）无限数量的生成样本之间，哪种更有益？为了阐明这个问题，我们报告了我们模型在SplitSVHN和SplitCIFAR-10上的性能，作为内存预算的函数。具体而言，我们计算分集记忆的内存消耗，即存储样本的累积大小。至于生成记忆，我们考虑存储其参数所需的字节数（以单精度浮点格式），丢弃相应的判别器以及在采样过程中生成的内部激活。图5展示了分析结果。可以看到，依赖于内存缓冲区的模型变体始终优于依赖于生成建模的模型。在CIFAR-10的情况下，生成回放的准确性较低。0MNIST SVHN CIFAR-10 Imagenet-500DGMw [26] 0.9646 0.7438 0.5621 0.1782 DGMa [26]0.9792 0.6689 0.5175 0.15160我们的 0.9727 0.8341 0.7006 0.35240表2：当由生成模型提供重播示例时的类增量连续学习结果。0与其生成器相比，我们的方法的内存消耗约为1.5MB，比其生成器小20倍以上。两种策略之间的差距在SVHN上缩小，因为图像内容更简单，生成器生成的样本更好。最后，我们的基于内存缓冲区的方法在Split-SVHN上优于DGMw模型[26]，尽管所需内存少了3.6倍。0门分析。我们在图6中对不同任务中的门的激活进行了定性分析。具体而言，我们使用SplitMNIST和Imagenet-50的验证集来计算每个门被不同任务的图像触发的概率1。图的分析提供了两个证据：首先，随着观察到更多任务，先前学到的特征被重复使用。这种模式表明，模型不会陷入退化的解决方案，例如完全将任务隔离到不同的子网络中。相反，我们的模型有利地利用了从先前任务中获得的知识片段来优化未来的任务。此外，大量的门从不触发，这表明主干容量的相当一部分可用于学习更多任务。此外，我们展示了来自不同任务的图像如何激活相同的滤波器，在低级或语义特征上显示出一些相似之处（有关详细信息，请参见标题）。01我们报告了特定层的这些概率：SplitMNIST的第1层（简单CNN），Imagenet-50的第5个残差块（ResNet-18）。01 2 4 8 16 32内存消耗（MB）0准确性0SVHNCIFAR-100Ep.内存Gen.内存DGM0图5：回放内存预算的准确性函数。01122334455667788100Kernel gates01234Tasks0.00.20.40.60.81.0056113170227284341398455512Kernel gates01234Tasks0.00.20.40.60.81.0References[1] Rahaf Aljundi, Francesca Babiloni, Mohamed Elhoseiny,Marcus Rohrbach, and Tinne Tuytelaars.Memory awaresynapses: Learning what (not) to forget. In European Con-ference on Computer Vision, 2018. 2[2] Rahaf Aljundi, Klaas Kelchtermans, and Tinne Tuytelaars.Task-free continual learning. In IEEE International Confer-ence on Computer Vision and Pattern Recognition, 2019. 1[3] Babak Ehteshami Bejnordi, Tijmen Blankevoort, and MaxWelling.Batch-shaped channel gated networks.Interna-tional Conference on Learning Representations, 2020. 1, 2[4] Yoshua Bengio, Nicholas L´eonard, and Aaron Courville.Estimating or propagating gradients through stochasticneurons for conditional computation.arXiv preprintarXiv:1308.3432, 2013. 3[5] Arslan Chaudhry, MarcAurelio Ranzato, Marcus Rohrbach,and Mohamed Elhoseiny. Efﬁcient lifelong learning with a-gem. In International Conference on Learning Representa-tions, 2019. 2, 6[6] Zhourong Chen, Yang Li, Samy Bengio, and Si Si. You looktwice: Gaternet for dynamic ﬁlter selection in cnns. In IEEEInternational Conference on Computer Vision and PatternRecognition, 2019. 1, 2[7] Zhiyuan Chen and Bing Liu.Lifelong machine learning.Morgan & Claypool Publishers, 2018. 1[8] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Li Fei-Fei. Imagenet: A large-scale hierarchical imagedatabase. In IEEE International Conference on ComputerVision and Pattern Recognition, 2009. 5[9] Robert M French. Catastrophic forgetting in connectionistnetworks. Trends in cognitive sciences, 1999. 1, 2[10] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, VincentDumoulin, and Aaron C Courville.Improved training ofwasserstein gans. In Neural Information Processing Systems,2017. 5[11] Kai

下载后可阅读完整内容，剩余1页未读，立即下载