终身视觉Transformer：新的持续学习框架实现稳定性和可塑性

118 浏览量更新于2023-10-25 收藏 979KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

171[准确度（%）[遗忘（%）以终身视野持续学习Transformer王震1、刘柳1、段逸群3、孔雅静1、大成涛2、11澳大利亚悉尼大学2中国JD Explore Academy 3澳大利亚悉尼科技大学{zwan4121，liu.liu1，ykon9947}@ sydney.edu.au，yiqun. student.uts.edu.au，dacheng. gmail.com摘要连续学习方法的目标是从带有流标签的序列数据中训练神经然而，现有的方法都是基于卷积神经网络（CNN）设计的，并没有充分利用新出现的强大视觉转换器的潜力。在本文中，我们提出了一种新的基于注意力的框架终身视觉Transformer（LVT），以实现更好的稳定性和可塑性的持续学习的权衡。具体来说，任务间80604020012345678 910的任务80604020012345678 910的任务LVT提出了一种注意机制，它隐式地吸收先前任务LVT设计了一种双分类器结构，该结构独立地注入新的表示以避免catastrophic干扰，并以平衡的方式积累新的和先前的知识以提高整体性能。此外，我们开发了一个信任感知的任务更新策略，以加深对任务的印象。大量的实验结果表明，我们的方法实现了国家的最先进的性能，甚至更少的参数上的持续学习基准。1. 介绍人类可以在一生中不断学习新的概念，并从过去的经验中积累视觉知识[5，69]。相比之下，人工神经网络在学习新任务时会忘记在先前任务中学习到的信息，导致先前任务的性能急剧下降。这种现象被称为灾难性遗忘或灾难性干扰[52，59]，源于输入数据差异的变化，导致新的输入信息严重干扰先前学习的知识[8，51]。为了应对这一挑战，持续学习（也称为终身学习或增量学习）领域[17，61，62，72]研究了从非平稳数据流中学习的问题，其目标是随着时间的推移维护和扩展所获得的知识。图1.在持续学习期间，对迄今为止观察到的所有任务进行增量准确性和遗忘评估。我们将我们的模型与视觉转换器（ViT [21]，LeViT [25]，CvT [83]和CCT [32]）和先前的持续学习方法（GEM [47]，iCaRL [61]，DER++[10]，HAL[14]，ERT [11]和RM [7]）进行了比较，实验CIFAR100的10分裂与内存大小500。[↑]越高越好，[↓]越低越好。持续学习要求神经网络保持稳定以防止遗忘，但也需要可塑性来学习新的流标签，这被称为稳定性-可塑性困境[27，53]。大多数持续学习的早期工作都集中在任务增量学习（task-IL）上，其中任务身份的Oracle知识在推理时可用于选择相应的分类器[2，17，44，65，68]。例如，基于正则化的方法在新任务的学习过程中惩罚重要参数的变化，并通常为每个任务分配单独的输出层（分类器）[13，40，64，91]。最近，各种工作都集中在更困难和现实的类增量学习（类IL）[3，9，14，20，36，61，75，78，89，94]，其中在训练期间观察到的所有类别上评估网络，而不需要任务标识。其中，基于排练的方法[4，7，10]将一小部分观察数据存储在有限的内存中用于重放，已显示出有希望的结果;此外，基于蒸馏的方法[12，61，93]通过使用知识蒸馏[34]来保持表示，减轻了后期任务的恶化。然而，现有的方法是基于和设计的，ViTLevit外套CCT创业板iCaRLDER++ERT哈尔RMLVT（我们的）172对于卷积神经网络（CNN）[33]，它还没有充分利用新出现的强大视觉变换器的潜力[31，39]。最近，视觉转换器在基于自我注意机制的某些计算机视觉任务上显示出优越性[16，21，25，46，55，83，90]。视觉转换器的优点为持续学习的发展带来了新的视角。然而，当前的视觉转换器并不直接适用于对任务流进行建模[31，39]，因为转换器缺乏防止对先前任务的灾难性遗忘的机制如图1所示，具有排练策略的视觉转换器[21，25，32，83]在先前的任务上遭受灾难性的遗忘和因此，很好地结合变压器以进一步改进持续学习是一个挑战。在这项工作中，我们提出了一个新的框架，终身视觉Transformer（LVT），它发挥了注意力机制在持续学习中的优势，实现了更好的稳定性和可塑性的权衡。与视觉转换器[21，25，32，74]中的香草自我注意力不同，它通过计算自我查询和自我关键字之间的相似性来获得注意力地图，我们提出了一种任务间注意力机制，通过计算自我查询和具有注意力偏差的可学习外部关键字之间的亲和力来获得注意力地图，这隐含地吸收了以前的任务信息。此外，与自我注意相比，任务间注意节省了参数的数量。此外，我们通过防止它们在未来任务中发生变化来巩固重要的注意力权重，从而避免对过去任务的catastrophic遗忘。与现有的基于排练的方法[7，9，10，14，17，47，64，75，78]不同，这些方法使用相同的分类器来学习新任务和重放先前的数据，LVT提出利用两个分类器：注入分类器用于将新的任务表示注入到模型中，减轻对先前任务的干扰;而累积分类器集中于以平衡的方式集成先前和新的知识，以提高整体性能。此外，我们还提出了一种简单有效的基于置信度的记忆更新策略，用于在有限的记忆空间中存储令人印象深刻的例子这些令人印象深刻的榜样具有鲜明的阶级特征。就像大脑中的记忆一样[23，26，51]，回忆这些令人印象深刻的前员工更有利于模型巩固以前的知识，从而减少遗忘。我们系统地比较了类IL和任务IL设置中的持续学习问题的最先进和完善的实验结果表明，即使使用较少的参数，该框架在准确性和遗忘方面也使用各种消融实验，我们验证我们的方法的组成部分。本文的主要贡献有四个方面：• 我们提出了一种新的基于注意力的框架终身视觉Transformer（LVT），以实现更好的稳定性和可塑性的权衡，为持续学习。LVT包含一个任务间注意机制，它能巩固先前的知识，避免对重要任务的遗忘。• LVT提出了一种新的双分类器结构，能够独立地注入新的任务表示，避免catastrophic干扰，并均衡地积累新的和复杂的知识。• 我们开发了一种具有信心意识的记忆更新策略，以加深对先前任务的印象。• 大量的实验结果表明，我们的ap-proach实现了国家的最先进的性能，甚至更少的参数上的持续学习基准。2. 相关工作2.1. 不断学习基于排练的方法通过重播存储在有限记忆中的先前任务的样本子集来防止灾难性遗忘[3，9，22，35，36，41，47，54，58，67，79]。经验回放（ER）[60，62，63]通过将先前的任务示例与当前任务数据交织来共同优化网络参数ERT [11]通过平衡采样策略和偏置控制进一步改善ER。GSS [4]引入了基于梯度的采样，以将最佳选择的样本存储在内存缓冲区中。HAL [14]补充经验重播与一个额外的目标，保持完整的预测对一些锚点的过去的任务。GEM[47]和AGEM [15]利用情景记忆来计算先前的任务梯度，以约束当前的更新步骤。iCaRL [61]训练最近类均值分类器，同时通过自蒸馏损失项在后续任务中保持表示DER++[10]将排练与蒸馏损失相结合，以重新训练过去的经验，并实现最先进的性能。RM [7]通过利用不确定性和数据增强提出了一种采样策略。其他方法。基于正则化的方法试图估计每个网络参数对先前任务的重要性，并在新任务的学习过程中惩罚重要参数的变化[2，13，40，64，66，91]。这些工作之间的区别在于计算网络参数重要性的方法。基于结构的方法[1，29，43，49，50，57，68，87]在新任务到达时扩展网络，并保持与先前任务相关的子网络参数固定。然而，大多数基于结构的方法在推理过程中需要任务标识，以将不同的参数集分配给不同的任务。基于标签的方法[28，77，80-本文提出的方法属于基于排练的方法。173i=1L="L"K−K+1000万美元。B−B，aIWIttKBW11~W公司简介X宽X∪YDT ∈ X∈ Y2.2. 视觉变形金刚Transformer在[74]中首次提出用于机器翻译任务，从那时起， Transformer 架构已成为自然语言处理（ NLP ）任务的最先进模型 [19 ， 24 ， 48 ， 56] 。Transformer中的核心组件是attention模块，它可以聚合来自整个输入序列的信息。最近，当数据足够大时，Vi- sion Transformer（ViT）[21]使纯Transformer体系结构可扩展用于图像分类在此之后，已经做出了大量努力来改进Vision Transformers以提高数据效率和模型效率[31，39，90]。一个流行的研究方向是探索将显式卷积或卷积特性集成到Transformer架构中[16，73，86，92]。 CoaT [85]设计了一个conv-attention模块来实现具有卷积的相对位置嵌入。LeViT [25]用金字塔代替了Transformer的统一结构，CCT [32]通过序列池策略和卷积的使用消除了对类到知识和位置嵌入的需求。然而，当前的视觉变换器不能直接应用于任务流的建模;为CNN设计的现有连续学习算法对于视觉变换器也可能不是最佳的。为此，我们提出了终身愿景Transformer（LVT），其任务间注意力旨在持续学习，并实现了比其他transformer和CNN基线更好的性能。3. 方法3.1. 问题设置2）双分类器：注入分类器向模型中注入新的任务表示，避免灾难性干扰;累积分类器以平衡的方式整合过去和新的知识，以改善稳定性和可塑性的权衡。3.2.1任务间注意力机制。与视觉转换器[21，25，32，74]中的香草自我注意力不同，它通过计算自我查询和自我密钥之间的相似性来获得注意力地图，我们提出了任务间注意力机制，通过计算自我查询和具有注意力偏差B的可学习外部密钥KW之间的亲和力来获得注意力地图，这隐含地将先前的任务信息注入注意力机制中。主义此外，任务间注意与自我注意相比可以节省参数的数量。当任务发生变化时，通过防止它们在未来任务中发生变化来巩固KW和B的重要权重，从而避免对过去任务的灾难性遗忘。假设输入张量是X，我们应用线性变换-使用参数Wq，Wv来生成原始自查询QX=Wq X和自值VX=Wv X。我们使用外部密钥KW[30]来代替依赖于输入的自密钥，并明确地向注意力映射添加可学习的注意力偏差B假设有H个注意力头部，这些项被均匀地分成H个部分Qh、Kh、Vh和Bh。然后，任务间注意力机制计算头部特定注意力图Ah，并如下连接多头注意力：hSoftmax。范数（Q h（K h）<$）+Bh<$A=Δd/HXX、（一）形式上，一个持续学习的问题是分裂成一个序列-T个监督学习任务的序列Tt，t∈ {1，...， T}。H出来 =A h V h，h = 1，.，H，用于任务t，输入样本xt和相应的从I.I.D.中提取地面实况标签yt。当然。模型的标签空间是所有观察到的类ti，并且期望模型对所有类进行良好的预测。该模型以顺序的方式一次观察一个任务，因此联合优化所有观察到的类是不可行的，但是可以使用少量的数据存储在有限的存储器M中用于将来的排练。3.2. 终身视野Transformer（LVT）我们提出了基于注意力的框架终身视觉Transformer（LVT），以有效地减轻灾难性遗忘的持续学习。框架的概述如图2所示.LVT中的主要贡献组件介绍如下：1)终身Transformer块中的任务间注意直接将先前任务信息吸收到注意图中，并基于对先前观察到的任务的重要性减慢注意图上的学习其中d是键和查询的维度; Norm（）de-注意批处理规范化。外部密钥KW和注意力偏差B不依赖于当前特征的输入，可以通过使用端到端的方式来优化，该方式可以捕获先前任务此外，可学习参数外部键KW和注意偏向B通过正则化函数与先前任务交互，以保持注意图的稳定性具体地说，我们计算当前参数（KW和B）和对应于最后一个任务的参数也就是说，KWandB，giv enby：（二）其中，λ是Hadamard乘积; L1·L1表示L1-范数; L1t是在等式（1）中定义的交叉熵损失。（3）;KLIt和BIt是由最后一个任务上的损失的平均梯度相对于以下参数计算的重要性：XW174˜˜˜˜MLΣΣ��1×��1 ×��1×��1×2��1×��1×4��2 2 4 4 8 8t斜纹布(a) LVT的整体架构先前注意偏向上一个外部键按元素添加矩阵乘法(b) 终身Transformer块与任务间注意机制。图2.Lifelong Vision Transformer（LVT）的架构（a）总体架构。LVT由简单卷积块之后的堆叠终身Transformer块组成收缩模块执行下采样，以降低激活标测图的分辨率，并增加LVT阶段之间的通道数量。在全局平均池化之后，两个分类器分别用于知识注入和积累。（b）具有任务间注意力机制的终身视觉Transformer块的图示与传统的自我注意不同，我们采用外部关键词和注意偏向来计算注意地图，并与前一个任务的结果进行交互KW和B。在新任务的学习过程中，梯度幅值越大，参数的重要程度越大。因此，将对更重要的参数给予更大的惩罚。我们证明，惩罚注意力地图的变化有助于保留以前的任务的信息，新的任务到达。值得一提的是，这种损失类似于基于正则化的方法[40，64，91]中使用的Fisher信息由于KW和B是线性可学习单元，任务间注意与原始自我注意相比具有较少的参数两个保存的先前参数K、W和B的大小相对于整个模型是可忽略的。标准化。与大多数视觉变换不同-对于在每次注意之前使用层归一化（LN）[6]的用户，我们在注意力计算之后采用批量归一化（BN）[38]我们发现BN比LN更适合于视觉变换器的持续学习，通过使用由不同任务（非i.i.d.）组成的小批量神经元的总输入的分布。数据3.2.2双分类器结构大多数基于排练的方法[7，9，10，14，17，47，64，75，84]使用相同的分类器来学习新任务和重放。在内存中使用以前的数据，这可能会导致新任务和以前任务之间的catastrophic干扰。为了解决这个问题，LVT提出利用新颖的双分类器结构，用于独立地注入新的表示而没有干扰，并且以平衡的方式积累新的和先前的知识。注射分级器。首先，我们介绍了注入类。令g（x）是在分类器之前从LVT的主干输出的样本x当当前任务数据到达时，我们利用独立注入分类器的输出来计算分类损失：LIt=E（x，y）<$Dt n（y，fI（g（x），（3）其中f1表示注入分类器;该算法采用交叉熵损失.注入分类器仅在当前任务数据上训练，不参与推理阶段。将当前任务的表示从该分类器注入到LVT的主干中，以减少对先前任务的干扰。此外，利用专注于当前任务的注入分类器的益处，It还用于计算等式2中的重要性权重（2）对Eq.（八）、累积分类器。然后，我们介绍accumulation分类器如下。由于注入式分类器主要承担了当前表示学习的任务，阶段1阶段2阶段3终身使用的Transformer模块终身使用的Transformer模块终身使用的Transformer模块注射分级机累积分类器×2 ×2 ×210%外部密钥注意偏向”前馈查询注意力图值规范1×1转换任务间注意终身使用的Transformer模Batchnorm转换块”收缩Concat收缩全局池175ΣΣC不C⌊| C|⌋Σ不×LΣΣ不任务中，我们采用累积分类器，通过以平衡的方式整合先前的和新的知识来专注于改进稳定性-可塑性权衡。在推理阶段使用累积分类器来输出预测。在学习新任务的过程中，对有限的记忆数据进行排练我们通过最小化存储在内存缓冲区中的样本及其Lr=E（x′，y′）<$M n（y′，fA（g（x′），（4）其中fA表示累积分类器。我们通过计算从内存缓冲区采样的批次的梯度来近似期望。此外，我们在存储样本x的同时保留网络黑暗的知识可以通过蒸馏损失获得：在这项工作中，我们设计了一个基于LVT注入分类器的置信度感知抽样，将印象样本存储在有限的内存中。我们认为，被选择存储的样本应该具有其类别的显著特征，即，它们可以通过模型被准确地区分。与大脑中的记忆类似[23，26，51]，回忆这些印象深刻的范例可以进一步巩固先前的知识，以进行持续学习。为了选择令人印象深刻的样本，我们提出了一种简单而有效的抽样方法，该方法存储具有最高置信度的样本。给定记忆容量M，我们为每个类分配K=M/样本，其中是到目前为止观察到的类的集合。在当前任务t结束时，我们将每个类的样本x放入模型中，并从注入分类器中获得logitsz。我们可以-通过以下方式获得每个样本的置信度得分ρ：ezcLd=E（x′，y′，z′）<$M<$D KL（softmax（z′）||f A（g（x′））Σ，（5）ρ（x）=|1e|1ezi，x∈{x<$|（x≠，y≠）∈Dt，y≠=yc}，c∈Ct，（八）其中DKL表示KL散度。我们可以设置softmax的温度来产生合适的软标签（目标）。此外，累积分类器还需要来自当前任务数据的监督信号。由于注入分类器有助于学习当前任务的表示，我们可以灵活地调整当前任务在fA中的权重，目标是保持新旧类之间的基于上述情况，我们给出累积分类器损失：L1=αLr+βLd+r（t）LAt，（6）其中A= E（x，y）<$D<$（y，f A（g（x）; α和β是平衡知识整合的系数;r（t）是关于到目前为止观察到的任务数量t的单调递减函数，其目的是随着时间的推移降低当前任务的权重，并更加注意对抗遗忘。总的来说，LVT中使用的总损耗是等式1和等式2的总和。（2），Eq.（3）、Eq. （六）：L=L1+L1t+γLa，（7）其中γ是平衡系数La。3.3. 信任感知内存更新基于复述的方法的一个关键问题是当新任务到来时如何更新记忆样本？大多数方法采用水库采样[76]或羊群采样[61]来更新内存，其中水库以相同的概率从输入流中随机采样样本，羊群存储接近每个类别特征均值的样本。其中zi是z的第i个元素;yc是对应于类c的标号。我们为每个类别选择具有最高置信度得分ρ的K个这些范例不仅对相应的类具有我们根据相应的ρ值以降序存储样本，其中样本在顺序中出现得较早，具有较高的ρ值。内存更新还包括删除前一个类的样本，我们将前一个类的样本数量按升序减少到K个4. 实验4.1. 实验设置和实施我们考虑了连续学习的严格评估设置[37，72]，其中包括任务增量学习（ Task-IL ）和类增量学习（Class-IL）。任务IL将训练样本划分为任务分区，这需要任务标识在推理时选择相应的分类器Class-IL顺序增加要分类的类的数量，而不需要任务标识，作为最难的场景[10]。数据集。CIFAR-100数据集[42]包含100个类，每个类有500个训练和100个测试彩色图像。TinyImageNet由200个类组成，其中包括100，000张用于训练的图像和10，000张用于验证的图像。ImageNet100 [61]包含从ILSVRC [18]中随机选择的100个类，平均分辨率为469387。它包括大约120，000张用于训练的图像和5，000张用于验证的图像。基线。我们将LVT与最先进和成熟的方法进行比较，包括八种基于排练的方法。176不t=1T−1t=1不当模型TT，tΣ−存储器缓冲器2005005分10分20分Class-IL Task-IL Class-IL Task-IL Class-IL Task-ILSGDGEM[47]11.219.73 ±0. 3457.13 ±0. 9413.20 ±0. 2162.96 ±0. 678.29 ±0. 1866.28 ±1. 49AGEM[15]11.217.97 ±0. 2653.55 ±1. 139.44 ±0. 2955.04 ±0. 874.88 ±0. 0941.30 ±0. 56iCaRL[61]11.230.12 ±2. 4555.70 ±1. 8722.38 ±2. 7960.81 ±2. 4812.62 ±1. 4362.17 ±1. 93FDR[9]11.222.84 ±1. 4963.75 ±0. 4914.85 ±2. 7665.88 ±0. 606.70 ±0. 7959.13 ±0. 73GSS[4]11.219.44 ±2. 8356.11 ±1. 5011.84 ±1. 4656.24 ±0. 986.42 ±1. 2451.64 ±2. 89DER++[10]11.227.46 ±1. 1662.55 ±2. 3121.76 ±0. 7859.54 ±0. 7715.16 ±1. 5361.98 ±0. 91HAL[14]22.413.21 ±1. 2435.61 ±2. 959.67 ±1. 6737.49 ±2. 165.67 ±0. 9153.06 ±2. 87ERT[11]11.221.61 ±0. 8754.75 ±1. 3212.91 ±1. 4658.49 ±3. 1210.14 ±1. 9662.90 ±2. 72RM[7]11.232.23 ±1. 0962.05 ±0. 6222.71 ±0. 9366.28 ±0. 6015.15 ±2. 1468.21 ±0. 43LVT（我们的）8.939.68 ±1。3666.92 ±0. 4035.41 ±1. 2872.80 ±0. 4920.63 ±1. 1473.41 ±0. 67ER[62]11.227.97 ±0. 3368.21 ±0. 2921.54 ±0. 2974.97 ±0. 4115.36 ±1. 1574.97 ±1. 44GEM[47]11.225.44 ±0. 7267.49 ±0. 9118.48 ±1. 3472.68 ±0. 4612.58 ±2. 1578.24±0. 61AGEM[15]11.218.75 ±0. 5158.70 ±1. 499.72 ±0. 2258.23 ±0. 645.97 ±1. 1359.12 ±1. 57iCaRL[61]11.235.95 ±2. 1664.40 ±1. 5930.25 ±1. 8671.02 ±2. 5420.05 ±1。3372.26 ±1. 47FDR[9]11.229.99 ±2. 2369.11 ±0. 5922.81 ±2. 8174.22 ±0. 7213.10 ±3. 3473.22 ±0. 83GSS[4]11.222.08 ±3. 5161.77 ±1. 5213.72 ±2. 6456.32 ±1. 847.49 ±4. 7857.42 ±1. 61DER++[10]11.238.39 ±1. 5770.74 ±0. 5636.15 ±1. 1073.31 ±0. 7821.65 ±1. 4470.55 ±0. 87HAL[14]22.416.74 ±3. 5139.70 ±2. 5311.12 ±3. 8041.75 ±2. 179.71 ±2. 9155.60 ±1. 83ERT[11]11.228.82 ±1. 8362.85 ±0. 2823.00 ±0. 5868.26 ±0. 8318.42 ±1. 9273.50 ±0. 82RM[7]11.239.47 ±1. 2669.27 ±0. 4132.52 ±1. 5373.51 ±0. 8923.09 ±1. 7275.06 ±0. 75LVT（我们的）8.944.73±1。1971.54±0. 9343.51±1. 0676.78±0. 7126.75±1. 2978.15 ±0. 42表1.CIFAR100基准测试的结果（总体准确度%），其平均值为五次运行。#Paras表示模型中的参数数量，以百万为单位。方法（ER [62]，《GEM》[47]，AGEM [15]，GSS [4]，[14][15][16][17][18][19][ODS利用知识蒸馏（iCaRL [61]和DER++ [10]）。此外，我们还比较了 SOTA视觉转换器（ViT [21]，LeViT [25]，CoaT [85]和CCT [32]）与持续学习的排练策略。我们还提供了一个上限（联合），通过训练所有的任务联合和下限简单地执行- ING SGD没有任何对策忘记。指标. 我们根据准确性和遗忘来评估持续学习方法[10，13 ， 15] 。精确度定义为 A = 1Ta ，遗忘定义为FT=1T−1maxi∈{1，.，T−1}（ai，t aT，t），T，t是任务t的测试准确度完成学习任务TT。实施详情。为了公平地比较每种方法，我们使用随机梯度下降（SGD）优化器训练所有网络。训练图像随机裁剪并翻转[10，11，67]之后的所有方法。我们采用50和100 epoch，minibatch大小为32，CIFAR100和TinyImageNet 的学习率为 0.1，遵循 [10 ， 11， 61 ，91]。对于ImageNet100，我们将图像大小调整为224×224，并使用批量大小128，步骤退火学习率时间表范围从0.1到0.001，以及100个时期的数量，[7，61]中使用。持续学习基线使用ResNet18 [33]作为骨干，交叉熵作为分类损失，遵循[7，10，14，15，67，71]。Transformer模块的实现基于ViT [21]和LeViT [25]。LVT在Transformer块中使用GELU激活和丢弃，并将全局平均池应用于最后一个激活图。我们通过在验证集上执行网格搜索来设置超参数，该验证集是通过从训练数据集中采样10%获得的。设置详情见附录A。4.2. 与最新技术水平方法的CIFAR100的评价我们遵循[61，87]中提出的协议，该协议在几个分裂中训练所有100个类，包括5，10，20个增量任务。表1总结了CIFAR100在200和500内存大小下的总体精度。它表明，LVT优于其他方法的一个相当大的保证金，在不同的增量分裂，例如，LVT在10次分裂和200个记忆容量的情况下，可以使持续学习的准确率提高12%以上。特别是在内存较小的情况下，LVT的优势更加明显，这表明LVT可以有效地提高系统的性能。方法编号Paras其中–11.211.270.21 ±0. 1517.27 ±0. 1485.25 ±0. 2942.24 ±0. 3370.21 ±0. 158.62 ±0. 0991.24 ±0. 2734.40 ±0. 5371.25 ±0. 224.73 ±0. 0694.02 ±0。3340.83 ±0.46[62]第六十11.221.94 ±0。8362.41 ±0. 9314.23 ±0. 1267.57 ±0. 689.90 ±1。6770.82 ±0.177∼存储器缓冲方法#段落TinyImageNetIL类任务-IL#段落ImageNet100IL类任务-IL–SGD11.211.259.36 ±0. 197.87 ±0. 2481.95 ±0. 1518.31 ±0. 6311.211.273.82 ±0. 238.72 ±0. 3781.58 ±0. 3121.32 ±0. 61200[62]第六十二话AGEM [15]iCaRL [61]罗斯福[9]DER++[10][第11话]RM [7]LVT（我们的）11.211.211.211.211.211.211.29.08.79 ±0. 218.28 ±0. 158.64 ±0. 788.77 ±0. 8211.16 ±0. 9510.85 ±0. 2413.58 ±1。0717.34 ±1。13（+3.76）39.16±2。1423.79 ±0. 1128.41 ±1。5340.15 ±0. 6740.97 ±1。1639.54 ±1。9041.96 ±1。2846.15 ±1。21（+4.19）11.211.211.211.211.211.211.29.49.58 ±0. 349.27 ±0. 0812.59 ±0. 6810.08 ±0. 3611.92 ±0. 1213.51 ±1。1316.76 ±0. 8419.46 ±1。06（+2.70）36.24 ±1。6925.20 ±0。3533.75 ±1。8137.80 ±0. 9131.96 ±1。6536.94 ±1。5435.18 ±1。4341.78 ±2。03（+3.98）500[62]第六十二话AGEM [15]iCaRL [61]罗斯福[9]DER++[10][第11话]RM [7]LVT（我们的）11.211.211.211.211.211.211.29.010.15 ±0. 329.67 ±0. 1810.69 ±1。5310.58 ±0. 2219.33 ±1。4112.13 ±0. 3618.96 ±1。3423.97 ±1。27（+4.64）50.11 ±0. 5326.79 ±0. 8135.89 ±2。4749.91 ±0. 7851.90 ±0。6250.87 ±0. 4952.08 ±0. 8457.39 ±0. 75（+5.31）11.211.211.211.211.211.211.29.411.68 ±0. 2510.92 ±0. 1616.44 ±1。3511.78 ±0. 4014.52 ±1。8620.42 ±1。1314.56 ±2。6426.32 ±1。67（+5.90）42.04 ±0. 4734.22 ±0. 6836.89 ±0. 7242.60 ±0. 6435.46 ±0. 6641.56 ±1。7838.66 ±2。4747.84 ±1。33（+5.24）表2. TinyImageNet和ImagNet100上的结果（总体准确率%），这是三次运行的平均值。#Paras表示模型中的参数数量，以百万为单位。绿色数字代表收益。806040表3.与Vision Transformer和CNN架构进行比较，以便继续学习。0儿GEMAGEM iCaRL FDRGSS DER++HAL ERTRM LVT（我们的）图3.忘记CIFAR100的结果（%）（越低越好）。在更现实和更具挑战性的数据稀缺情况下，值得注意的是，虽然LVT使用的参数（8.9M）比其他方法（11.2M 22.4M）少，但仍然可以达到最先进的性能。一个原因是LVT继承了transformer的优点，并设计了用于建模任务流的架构，因此在不堆叠大量参数的情况下可以很好地进行持续学习。ImageNet数据集上的评估。表2总结了TinyImageNet和Ima-geNet 100数据集的实验结果，其中包含10个分割。在TinyImageNet和ImageNet 100数据集上，LVT具体来说，我们的方法优于国家的最先进的约5.9%的IL类准确性的ImageNet100基准。对于TinyImageNet基准测试，Task-IL准确率从52.08%提高到上升至百分之五十七点三九（上升百分之五点三一）。此外，与其他基于CNN的方法相比，LVT需要更少的参数。忘了。为了比较防止遗忘的能力，我们评估了平均遗忘[10，13]，该平均遗忘衡量了后续任务中的性能下降。图3显示了在具有存储器大小500的Class-IL和Task-IL设置中，LVT比所有其他方法这是因为LVT构建了一个任务间注意力架构，并利用了注入和积累策略，提高了视觉Transformer网络的稳定性。比较Transformer和CNN架构。我们将LVT与SOTAVision Transformers（ViT [21]，LeViT [25]，CvT [83]和CCT [32]）以及CNN基准ResNet18 [33]进行了比较，并在持续学习中提出了排练策略。来自表3和图1的结果表明，ViT不能胜任持续学习的任务，因为它是大型数据集。LeViT、CvT和CCT包含CNN结构以获得归纳偏差，这提高了泛化能力IL类Task-IL忘记[]方法#段落准确度[↑]IL类Task-IL遗忘[↓]IL类Task-IL[21]第二十一话16.213.1954.5370.1624.79[25]第二十五话10.931.8472.7652.9314.67[第85话]10.325.4466.1558.0117.28CCT [32]3.924.5071.3766.1720.20ResNet18 [33]11.236.9873.2347.4315.3620178ERAGEMiCaRLFDRDER++ERTRMLVT（我们的）Σ不不其中T−1t=1−Incremental Accuracy [ ]（TinyImageNet，内存200）8070605040[50]第50话（TinyImageNet，内存500）804030602040儿GEM iCaRL DER++HAL ERTRMLVT（我们的）1001020304030201020406080100 120 140 160 180 200的若干类20020406080 100 120 140 160 180 200的若干类5010600100 200 300 400 500 600 700 800 900 1000内存容量(a) 敏感性分析(b)反向转移（BWT）分析图4.对观察到的所有任务进行增量性能评估记忆容量。II类设置下的分析。迄今[↑]越高越好，[↓]越低越好。模块CIFAR100 TinyImageNetIT-attfI FAρIL类Task-ILIL类Task-IL√√√36.9339.7638.4240.2543.5173.5274.7875.4973.7176.7819.3520.0318.8521.1623.9752.1454.3455.0754.4257.39√√√√√√√√√√√√√表4.LVT各组成部分的消融研究IT-att表示具有任务间注意机制的Transformer;fI和fA表示注入分类器和累积分类器的恢复; ρ表示置信件存储器更新。但是在不断的学习中仍然遭受灾难性的遗忘。直接使用Vision Transformer进行持续学习甚至不如ResNetper-sense。只有LVT利用Transformer的优势，使用更少的参数来实现更好的持续学习性能，这得益于任务间注意机制和双分类器结构。增量性能。我们展示了IL类设置下的平均增量性能[10，61]，这是在完成每个任务后对迄今为止观察到的所有任务进行评估的结果。如图1和图4所示，大多数方法的性能随着新任务的到来而迅速下降，而我们的方法在准确性和遗忘方面的每一步都始终优于最先进的方法。4.3. 消融研究和分析每个组件的效果。表 4 显示了 LVT 的每个组件对CIFAR100和500内存的TinyImageNet的影响。我们可以看到，CIFAR100上的平均准确率从36.93%显著提高到43.51%，提出了Transformer块与任务间的注意。双分类器结构在IL类环境下获得了5.09%的增益。在TinyImageNet上使用可信件内存更新策略，模型的性能得到了进一步的提高，提高了2.97%。内存大小敏感性分析。我们评估所提出的方法对各种内存容量的有效性，图5.分析内存容量和反向传输。ities。图5a显示，LVT始终执行更好，比其他方法在CI-FAR 100上的各种内存容量我们还注意到，LVT的改进在内存较小的情况下更为显著，这说明我们的方法可以更好地适应资源有限的实际情况反向转移（BWT）分析。 BWT [10，15，47]是学习任务对先前任务性能的影响，定义为BWT= 1 T−1（a T，ta t，t），T，t是模型完成学习任务T时对任务t的测试准确度。我们分析BWT的不同方法CIFAR100的10个分裂与内存1000。如图5b所示，其他方法在IL类设置中具有较大的负BWT，这意味着严重的遗忘。相比之下，我们的方法甚至实现了正BWT，这意味着新任务的学习

下载后可阅读完整内容，剩余1页未读，立即下载