基于动态令牌扩展的持续学习变压器架构

167 浏览量更新于2023-10-26 收藏 17.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

arthur.douillard@heuritech.com, {alexandre.rame, matthieu.cord}@sorbonne-universite.fr,192850DyTox：具有DYnamic TOken eXpansion的持续学习变压器0Arthur Douillard 1,2 , Alexandre Ram´e 1 , Guillaume Couairon 1,3 , Matthieu Cord 1,401 Sorbonne Universit´e, 2 Heuritech, 3 Meta AI, 4 valeo.ai0gcouairon@fb.com0摘要0深度网络架构在不遗忘先前任务的情况下持续学习新任务是困难的。最近的趋势表明，基于参数扩展的动态架构可以有效地减少持续学习中的灾难性遗忘。然而，现有的方法通常需要在测试时使用任务标识符，需要复杂的调整来平衡不断增长的参数数量，并且在任务之间几乎不共享任何信息。因此，它们在不带有显著开销的情况下难以扩展到大量任务。在本文中，我们提出了一种基于专用编码器/解码器框架的变压器架构。关键是，编码器和解码器在所有任务之间是共享的。通过动态扩展特殊令牌，我们将解码器网络的每个前向传递专门用于任务分布。我们的策略可以扩展到大量任务，同时由于对参数扩展的严格控制，具有可忽略的内存和时间开销。此外，这种高效的策略不需要任何超参数调整来控制网络的扩展。我们的模型在CIFAR100上取得了出色的结果，并在大规模的ImageNet100和ImageNet1000上达到了最先进的性能，同时比其他动态框架具有更少的参数。01. 引言0大部分深度学习文献都集中在对固定数据集进行模型学习。然而，实际数据不断随时间演变，导致分布不断变化，即出现了新的类别或领域。当模型失去对先前类别数据的访问权限（例如出于隐私原因）并在新类别数据上进行微调时，它会灾难性地忘记旧的分布。持续学习模型旨在在不忘记旧数据的情况下平衡刚性/可塑性的权衡，同时学习新的输入数据以进行适应。尽管最近有了一些进展01 代码发布在https://github.com/arthurdouillard/dytox0图1：DyTox在ImageNet1000上的持续学习性能：对于每个任务，学习100个新类别，同时之前学习的类别不能完全访问，但也不能被遗忘。我们的策略DyTox（用红色表示）在很大程度上是最先进的。请注意，在持续过程开始之前的初始步骤（用虚线矩形表示）0），我们的模型的性能与其他基线相当：通过减少灾难性遗忘来实现性能提升。此外，我们的参数比以前的方法少。0尽管有了最新的进展，这仍然是一个未解决的挑战。0为了解决灾难性遗忘问题，已经出现了越来越多的努力[49,34, 63, 29, 18, 64]。最近的工作[65, 39, 30, 21, 24,54]动态扩展了网络架构[65,39]或重新排列了其内部结构[21, 54, 30,24]。然而，在测试时，它们需要知道测试样本属于哪个任务，以确定应该使用哪些参数。最近，DER[64]和Simple-DER[41]通过在不同子模型产生的所有嵌入的串联上学习单个分类器来摒弃了这种任务标识符的需求。292860参数集。然而，当处理大量任务时，这些策略会引起巨大的内存开销，因此需要复杂的修剪作为后处理。为了改善持续学习框架在实际应用中的易用性，我们的目标是通过具有以下三个特性的动态可扩展表示来设计：#1随着任务数量的增长，内存开销有限；#2在测试时时间开销有限；#3没有设置特定的超参数，以提高面对未知（可能很大）数量的任务时的鲁棒性。为此，我们利用计算机视觉转换器ViT[15]。变压器[60]提供了一个非常有趣的框架，以满足前面提到的约束条件。事实上，我们在这个架构的基础上设计了一个编码器/解码器策略：编码器层在我们的动态网络的所有成员之间共享；唯一的解码器层也是共享的，但其前向传递是通过一个任务特定的学习令牌来专门生成任务特定的嵌入。因此，动态网络的内存增长非常有限：每个任务只有一个384d的向量，验证了特性#1。此外，这不需要超参数调整（特性#3）。最后，解码器被明确设计为计算轻量级的（满足特性#2）。我们为我们的框架取了一个绰号，DyTox，代表DYnamic TOkeneXpansion。据我们所知，我们是第一个将变压器架构应用于持续计算机视觉的人。我们的策略对不同的设置具有鲁棒性，并且可以轻松扩展到大量的任务。特别是，我们在CIFAR100、ImageNet100和ImageNet1000上验证了我们方法的效率（在图1中显示）。我们取得了最先进的结果，仅仅有很小的开销，得益于我们高效的动态策略。02. 相关工作0持续学习模型解决了对旧类别的灾难性遗忘问题[56,22]。在计算机视觉中，大多数应用于大规模数据集的持续学习策略使用回忆学习：在训练过程中保留一定数量的旧类别的训练数据[50]。这些数据通常以原始形式（例如像素）[49, 4, 9]保留，但也可以进行压缩[26,31]或修剪[17]以减少内存开销；其他方法仅存储一个模型以生成过去类别的新样本[33, 55,38]。此外，大多数方法旨在在学习新类别时限制模型的变化。这些约束可以直接应用于权重[34, 66, 1,7]、中间特征[29, 14, 69, 18, 16]、预测概率[40, 49, 4,5]或梯度[43, 8, 20,52]。所有这些基于约束的方法都使用相同的静态网络架构，该架构不随时间而变化，通常是ResNet[27]、LeNet[36]或小型MLP。0持续动态网络相比之下，我们的论文和其他论文侧重于设计最能应对不断增长的训练分布的动态架构[65,39]，特别是通过动态创建每个专门针对一项特定任务的（子）成员来实现[21, 24, 30, 51, 10,61]。不幸的是，以前的方法通常需要在测试时获得样本的任务标识符以选择正确的参数子集。我们认为这是一个在真实情况下不切实际的假设，因为新样本可能来自任何任务。最近，DER[64]提出了通过为每个任务添加一个新的特征提取器来动态扩展表示的方法。然后将所有提取器的嵌入连接起来并输入到一个统一的分类器中，从而不需要在测试时使用任务标识符。为了限制参数数量的激增，他们使用HAT[54]过程在每个任务之后对每个模型进行了激进的修剪。不幸的是，修剪过程对超参数非常敏感。因此，超参数在每个实验中都有不同的调整：例如，在10个步骤或50个步骤中学习数据集使用不同的超参数。虽然这种方法是不可行的，也是不切实际的，因为在真正的持续情况下，类别数量事先是未知的。Simple-DER[41]也使用多个提取器，但其修剪方法不需要任何超参数；负面的是Simple-DER对参数增长的控制较少（比基本模型高2.5倍）。相比之下，我们提出了一个专门用于持续学习的框架，能够在所有设置上无缝地实现任务动态策略，在几乎没有内存开销的情况下高效运行，而且不需要任何与设置相关的修改。我们类似于TreeNets[37]在早期的无关类别[45]层之间共享，并基于Transformer架构构建我们的策略。0Transformer最初是用于机器翻译的[60]，其中包含了现在著名的自注意力机制。虽然最初的Transformer由编码器和解码器层组成，但后来的Transformer，从BERT[13]开始，使用了一系列相同的编码器块。然后，ViT[15]提出了使用像素块作为标记将Transformer应用于计算机视觉。包括DeiT[58]、CaiT[59]、ConVit[11]和Swin[42]在内的多个最新研究通过架构和训练程序的修改改进了ViT。PerceiverIO[32]提出了一种通用的架构，其输出通过使用特定的学习标记适应不同的模态，并且通过使用少量的潜在标记来减少计算量。尽管在各种基准测试中取得了成功，但据我们所知，Transformer尚未被认为适用于持续的计算机视觉任务。然而，我们之所以使用Transformer架构，并不是为了它本身，而是因为Transformer具有的内在特性；特别是，开创性的编码器/解码器框架使我们能够构建一个具有强大能力的高效架构，以对抗灾难性遗忘。!"!#$%&%&'&($'$(,-%!#!#!#,-',-(./.0.1.2 … .4,-%:(xl+1 = x′l + MLPl (Norml,2 (x′l)) ,(1)392870TAB0TAB0TAB0任务令牌0共享参数0共享参数0SAB＃10SAB＃50补丁令牌0Clf％0Clf'0Clf（0编码器动态任务解码器0图2：DyTox变换器模型。首先将图像分割成多个补丁，用线性投影进行嵌入。处理后的补丁令牌由5个连续的自注意块（SAB）（第3.1节）处理。对于每个任务（t=1...T），处理后的补丁令牌然后传递给任务注意块（TAB）（第3.2节）：每个TAB的前向传播都由不同的任务专用令牌θt修改，其中t∈{1...T}（第3.3节）。最后，这T个最终嵌入分别给出给独立的分类器Clft，每个分类器预测其任务的类Ct。所有|C1:T|的逻辑值都使用sigmoid激活。例如，在任务t=3时，通过SAB进行一次前向传播，通过唯一的TAB进行三次任务特定的前向传播。03. DyTox变换器模型0我们的目标是学习一个统一的模型，以在固定数量的步骤T中对越来越多的类进行分类。在给定的步骤t∈{1...T}中，模型暴露于属于新类的新数据。具体而言，它从样本{xti，yti}i中学习，其中xti是该任务t的第i个图像，yti是与标签集Ct中的关联标签。所有任务标签集都是互斥的：C0∩C1...CT=�。主要挑战是数据仅在短暂时间内完全可用：按照大多数先前的工作，仅在第t步训练时，来自先前任务{1...t-1}的少量样本可用作复习数据。然而，模型应该能够对来自所有已见类C1:t的测试数据进行分类。附录材料中提供了符号表。图2显示了我们的DyTox框架，它由几个组件（SAB、TAB和任务令牌）组成，我们将在以下各节中描述。03.1. 背景0视觉变换器[15]有三个主要组件：补丁标记器，由自注意块组成的编码器和分类器。0补丁标记器。将固定大小的输入RGB图像裁剪成N个相同尺寸的补丁，然后通过线性层投影到维度D。两个操作都使用大小等于步长大小的2D卷积完成。得到的张量x0∈RN×D与学习的类令牌xcls∈RD扩展，从而得到形状为R（N+1）×D的张量。根据[23]，添加了一个学习的位置嵌入p∈R（N+1）×D（逐元素相加）。0MLP！5！56%0补丁令牌0层归一化0图3：自注意块（SAB）结合了自注意力（SA）、两个层归一化和一个具有单隐藏层的多层感知机。与ResNet类似，使用两个元素级加法的快捷方式。在这些操作中，裁剪和投影是通过一个2D卷积完成的，其内核大小等于其步长大小。得到的张量xL∈R（N+1）×D（每个块之后保持相同维度）。图3显示了SA块的视觉说明。0自注意力（SA）基于编码器。令牌被馈送到我们在这里称为自注意力块（SAB）的一堆变压器块中：0x′l = xl + SA l (Norm l, 1 (xl))，0其中SA是自注意层[60]，Norm是层归一化[2]，MLP是具有单隐藏层的多层感知机。我们将这些操作从l=1到l=L重复。得到的张量（在每个块之后保持相同维度）为xL∈R（N+1）×D。我们在图3中显示了SA块的视觉说明。(3). . .(7)492880分类器在原始的视觉 Transformer（ViT[15]）中，一个学习到的向量称为“类别标记”被附加到标记器之后的补丁标记上。当所有的 SABs处理完之后，这个特殊的类别标记被输入到一个具有softmax激活函数的线性分类器中，以预测最终的概率。然而，最近的一些工作，如 CaiT [59]，提议仅在最终或次最终的 SAB中引入类别标记，以提高分类性能。03.2. 任务注意力块（TAB）0与以前的 Transformer架构不同，我们没有一个类别标记，而是我们所称的“任务标记”；第 i 个任务的学习到的标记表示为 θi。这个特殊的标记只会在最后一个块中添加。为了利用这个任务标记，我们定义了一个新的注意力层，称为任务注意力。它首先将最终 SAB 产生的补丁标记 x L 与任务标记 θ i进行连接：0z i = [θ i , x L] ∈ R (N+1) × D. (2)0这然后被传递给任务注意力（TA），受 Touvron等人的类别注意力的启发 [59]：0Q i = W q θ i，0K i = W k z i，0A i = Softmax(Q i ∙ K T i / )0d/h，0O i = W o A i V i + b o ∈ R1 × D，0其中 d 是嵌入维度，h 是注意力头的数量[60]。与经典的自注意力不同，任务注意力仅根据任务标记θ i 而不使用补丁标记 x L 来定义其查询（Qi）。任务注意力块（TAB）是 SAB的一个变种，其中注意力是任务注意力（TA）：0c ′′ = c ′ + MLP(Norm 2 (c ′))，0总体而言，我们的新架构可以通过 SA 块 { SAB l } L l=1（在 Eq. 1 中定义）的重复以及单个 TA 块 TAB（在 Eq.4 中定义）来概括：0e i = TAB ◦ ([θ i , SAB l=L ◦ ... SAB l=1 (x 0)]) ∈ R D. (5)0最终的嵌入 e i 被馈送到一个由 Norm c 和由 { W c , b c }参数化的线性投影组成的分类器 clf：0˜ y i = Clf(e i) = W c Norm c (e i) + b c. (6)03.3. 动态任务标记扩展0在前一节中，我们定义了基础网络，由一系列的 SAB组成，并以单个 TAB 结束。0如上所述，TAB有两个输入：从图像中提取的补丁标记 x L和一个学习到的任务标记 θi。我们将详细介绍我们的框架在连续情况下每个新步骤中的演变。在第一步中，只有一个任务标记 θ1。在每个新步骤中，我们建议通过创建一个新的任务标记来扩展我们的参数空间，同时保留之前的任务标记。因此，在 t 步之后，我们有 t 个任务标记（θ i，其中 i ∈ { 1 . . . t}）。给定一个属于任何已见任务 { 1 . . . t } 的图像x，我们的模型将其标记为 x 0，并通过多个 SAB进行处理：这将输出补丁标记 x L。最后，我们的框架通过TAB 进行与任务数量相同的前向传递：关键是，每个 TAB的前向传递都使用不同的任务标记 θ i执行，从而产生不同的任务特定前向传递，每个前向传递产生任务特定的嵌入 e i（参见图2）：0e 1 = TAB([θ 1 , x L])，0e 2 = TAB([ θ 2 , x L ])，0e t = TAB([θ t , x L])。0与将所有嵌入 { e 1 , e 2 , . . . , e t }连接在一起并将其馈送给一个分类器不同，我们利用了任务特定的分类器。每个分类器 clf i 由一个 Norm i 和一个由 {W i , b i } 参数化的线性投影组成，其中 W i ∈ R C i ×D，b ∈ R C i。它以其任务特定的嵌入 e i作为输入，并返回：0ˆ yi = Clfi(ei) = σ(WiNormiei + bi)，(8)0预测类别yi∈Ci的概率，其中σ(x) = 1 /(1+e^(-x))是Sigmoid激活函数。与Softmax激活函数相比，逐元素的Sigmoid激活函数减少了对最近类别的过度自信。因此，模型更加校准，这是连续模型的重要属性[3, 63,68]。损失函数为二元交叉熵。独立分类器范式结合Sigmoid激活和二元交叉熵损失，明确地排除了任务嵌入的后期融合[48]，从而得到更专门的分类器。0DyTox策略的整体结构如图2所示。我们还在算法1中展示了在学习了任务t后的测试时的前向传播的伪代码。关键是，测试图像可以属于任何先前看到的任务{1...t}。我们的动态任务令牌扩展比每个新任务创建整个网络的朴素参数扩展更高效。（1）我们的扩展仅限于每个新任务一个新的任务令牌，即只有d=384个新参数。与总模型大小（约1100万个参数）相比，内存开销几乎为零。（2）计算密集型的块（即SABs）在执行时...592890算法1 DyTox的前向传播步骤t0输入：x0（初始补丁令牌），y（真实标签）输出：ˆy1:t（C1:t的所有类别的预测）01: xL ← SABl=L ◦ ... SABl=1(x0) � 第3.1节02: for i ← 1; i ≤ t; i++ do 3: ei ← TAB([θi, xL]) � 第3.2节04: ˆ yi ← Clfi(ei) � 第3.3节05: end for 6: ˆy1:t ←[ˆy1, ..., ˆyt]0与TAB相比，Self-Attention只进行一次前向传播，而TAB的前向传播次数与任务数量相同。然而，这只会引入最小的开销，因为Task-Attention的时间复杂度与补丁数量呈线性关系，而Self-Attention呈二次关系。因此，时间开销是次线性的。我们在第4节中进行了定量展示。0背景当前的Transformer范式从BERT[13]开始，继续使用ViT[15]，基于编码器+分类器的结构。与之不同的是，我们的动态框架是原始Transformer[60]编码器/解码器结构的复兴：编码器对所有输出共享（内存和执行），解码器参数也是共享的，但其执行是任务特定的，每个任务令牌的每个前向传播类似于从专家混合模型[44]中选择的任务特定专家。此外，多任务文本型Transformer使用自然语言令牌作为任务的指示符[46]（例如，“总结以下文本”），在我们的视觉环境中，我们使用我们定义的任务令牌作为指示符。0损失函数我们的模型使用三个损失函数进行训练：(1)分类损失Lclf，使用二元交叉熵；(2)知识蒸馏损失Lkd，应用于概率值；(3)分歧损失Ldiv。蒸馏损失有助于减少遗忘，但可能相对简单，使用更复杂的蒸馏损失[53, 29,18]可能会进一步提高结果。分歧损失受DER[64]的“辅助分类器”启发，使用当前最后一个任务的嵌入et来预测(|Ct|+1)个概率值：当前最后一个任务的类别Ct和一个额外的类别，表示通过回顾可以遇到的所有先前类别。这个分类器在测试时被丢弃，并鼓励任务令牌之间更好的多样性。总损失为：0L = (1 - α)Lclf + αLkd + λLdiv，(9)0对于所有实验，λ被设置为0.1。α表示旧类别数量与新类别数量之比，即C1:t-1。0| C 1: t |如[68]所做。因此，α会自动设置；这样就不需要对该超参数进行精细调整。0超参数 CIFAR ImageNet0# SAB 5 # CAB 1 # 注意力头数 12嵌入维度 384 输入大小 32 224补丁大小 4 160表1：CIFAR和ImageNet的DyTox架构。两个架构之间唯一的区别是补丁大小，因为图像大小在数据集之间变化。04.实验04.1.基准测试和实现0基准测试和指标我们在CI-FAR100[35]，ImageNet100和ImageNet1000[12]上在不同的设置下评估了我们的模型（在补充材料中有描述）。ImageNet中的标准连续场景有10个步骤：因此，在ImageNet100中每个步骤添加10个新类别，在ImageNet1000中每个步骤添加100个新类别。在CIFAR100上，我们比较了10个步骤（每个步骤添加10个新类别），20个步骤（每个步骤添加5个新类别）和50个步骤（每个步骤添加2个新类别）的性能。除了top-1准确率外，我们还比较了ImageNet上的top-5准确率。我们报告“Avg”准确率，这是根据[49]定义的每个步骤后的准确率的平均值。我们还报告了最后一步后的最终准确率（“Last”）。最后，在我们的表格中，“#P”表示在最后一步之后的百万参数数量。0实现细节如表1所示，我们的网络在所有任务中具有相同的结构。具体来说，我们使用了5个自注意力块（SABs），1个任务注意力块（TAB）。所有6个块的嵌入维度为384，注意力头数为12。我们设计了这个浅层Transformer，使其具有与其他基线模型相当的参数数量，但比通常的“微型”模型[15，58，59]更宽。我们对CI-FAR100的所有超参数进行了调优，使用了由训练集的10%构成的验证集进行了10个步骤，然后将它们固定在所有其他设置中，包括ImageNet。这两个数据集之间唯一的区别是ImageNet的图像更大；因此，补丁大小更大，而且总体上，基础Transformer在ImageNet上的参数稍微多一些（11.00M vs10.72M），因为有一个更大的位置嵌入。我们对所有SABs使用具有空间先验的注意力（由ConViT[11]引入），这使得可以在小数据集（如CIFAR）上训练Transformer，而无需在大数据集上进行预训练或复杂的正则化。根据之前的工作[49，64]，我们对所有模型（包括基线模型）使用了2,000个图像的回忆存储器来进行CIFAR100的训练692900ImageNet100 10个步骤 ImageNet1000 10个步骤0# P top-1 top-5 # P top-1 top-50方法平均值最后一步平均值最后一步平均值最后一步平均值最后一步0ResNet18联合11.22 - - - 95.10 11.68 - - - 89.27 Transf.联合11.00 - 79.12 - 93.48 11.35 - 73.58 -90.600E2E [4] 11.22 - - 89.92 80.29 11.68 - - 72.09 52.29 Simple-DER [41] - - - - - 28.00 66.63 59.24 85.6280.76 iCaRL [49] 11.22 - - 83.60 63.80 11.68 38.40 22.70 63.70 44.00 BiC [29] 11.22 - - 90.60 84.4011.68 - - 84.00 73.20 WA [68] 11.22 - - 91.00 84.10 11.68 65.67 55.60 86.60 81.10 RPSNet [47] - -87.90 74.00 - - - - - DER w/o P [64] 112.27 77.18 66.70 93.23 87.52 116.89 68.84 60.16 88.17 82.860DER † [64] - 76.12 66.06 92.79 88.38 - 66.73 58.62 87.08 81.890DyTox 11.01 77.15 69.10 92.04 87.98 11.36 71.29 63.34 88.59 84.490表2：在ImageNet-100和ImageNet-1000数据集上的结果，分别学习了10个步骤的10个和100个新类别。E2E[4]和Simple-DER[41]的结果来自于它们各自的论文，并使用了不同的类别顺序。其他结果来自于[64]。†符号表示[64]需要设置敏感的超参数。此外，其报告的参数数量是所有步骤的平均值（[64]在ImageNet1000上报告了14.52M）：最终参数数量（必然更高）不可用。0图4：在ImageNet100上的性能演变。学习每个任务后报告前5的准确率（%）。我们的模型DyTox（红色）明显优于大多数基线模型，并且与使用设置特定超参数的复杂DER具有相同的性能。0对于ImageNet100和ImageNet1000，我们使用了10,000张图像进行训练。连续场景的实现由Continuum提供[19]。我们的网络实现基于DeiT[58]代码库，该代码库广泛使用timm库[62]。代码已公开发布[2]。附录中提供了完整的实现细节。02 https://github.com/arthurdouillard/dytox04.2. 定量结果0ImageNet我们在表2中报告了复杂的ImageNet数据集的性能。†表示具有特定设置的DER修剪，DER w/oP表示没有修剪的DER。在ImageNet100中，DyTox的“最后”top-1准确率达到69.10%，比DER†高出+3.04个百分点（p.p）。然而，在这个设置中，DyTox和DER w/oP在“平均”准确率上表现相似，如图4中显示的性能演变所示。最重要的是，在更大规模的ImageNet1000上，DyTox在所有指标上始终表现最好，尽管参数数量较低。具体而言，DyTox在“平均”top-1准确率上达到71.29%，在“最后”top-1准确率上达到63.34%。这超过了之前的最先进的DER w/oP（“平均”68.84%，“最后”60.16%），该模型并行使用了10个ResNet18和116.89M参数。与修剪的DER†相比，DyTox在“平均”准确率上增加了+4.56个p.p，在“最后”准确率上增加了+1.51个p.p。图1展示了ImageNet1000上所有模型的演变情况：DyTox始终超过之前的最先进模型，尽管在第一步的性能和参数数量上具有可比性。0DyTox能够正确扩展并处理跨任务共享大部分权重的参数增长。相比之下，DER必须提出一种复杂的修剪方法；不幸的是，这种修剪需要不同设置的不同超参数值。尽管如此，在类别多样性增加时，DER†的修剪效率较低：DER†的大小增加了一倍79291010步 20步 50步方法 #P 平均最后 #P 平均最后 #P 平均最后0ResNet18联合 11.22 - 80.41 11.22 - 81.49 11.22 - 81.74 转换联合 10.72 - 76.12 10.72 - 76.12 10.72 - 76.120iCaRL [49] 11.22 65.27 ± 1.02 50.74 11.22 61.20 ± 0.83 43.75 11.22 56.08 ± 0.83 36.62 UCIR [29] 11.22 58.66 ± 0.7143.39 11.22 58.17 ± 0.30 40.63 11.22 56.86 ± 0.83 37.09 BiC [63] 11.22 68.80 ± 1.20 53.54 11.22 66.48 ± 0.32 47.0211.22 62.09 ± 0.85 41.04 WA [68] 11.22 69.46 ± 0.29 53.78 11.22 67.33 ± 0.15 47.31 11.22 64.32 ± 0.28 42.14 PODNet[18] 11.22 58.03 ± 1.27 41.05 11.22 53.97 ± 0.85 35.02 11.22 51.19 ± 1.02 32.99 RPSNet [47] 56.5 68.60 57.05 - - - - -- DER w/o P [64] 112.27 75.36 ± 0.36 65.22 224.55 74.09 ± 0.33 62.48 561.39 72.41 ± 0.36 59.080DER † [64] - 74.64 ± 0.28 64.35 - 73.98 ± 0.36 62.55 - 72.05 ± 0.55 59.760DyTox 10.73 73.66 ± 0.02 60.67 ± 0.34 10.74 72.27 ± 0.18 56.32 ± 0.61 10.77 70.20 ± 0.16 52.34 ± 0.26 DyTox+ 10.73 75.54 ± 0.10 62.06 ± 0.25 10.74 75.04 ± 0.11 60.03 ± 0.4510.77 74.35 ± 0.05 57.09 ± 0.130表3：在三个不同的类别顺序上对CIFAR100的结果进行平均。基线结果来自[64]。†符号表示[64]需要设置敏感的超参数。此外，其报告的参数计数是所有步骤的平均值：最终参数计数（必然更高）不可用。0图5：在CIFAR100上的性能演变。学习每个任务后报告top-1准确率（%）。左边是使用10步评估，中间是使用20步评估，右边是使用50步评估。0ImageNet100和ImageNet1000（[64]报告7.67M与14.52M）在处理相同数量的任务（10）时，我们的参数数量比DER†[64]报告的参数数量更少。需要注意的是，DER†在[64]中报告的这些参数数量实际上是所有步骤的平均值：最终参数数量（必然更高）不可用，因此没有在我们的表格中报告。Simple-DER也应用了修剪，但没有进行超参数调整；虽然更简单，但修剪效率也较低，导致模型更大（28.00M参数）。0CIFAR100表3显示了CIFAR100上所有方法的结果。步骤越多，遗忘越大，性能越低。这些设置也在每个任务之后的图5中显示。在每种设置中，DyTox与DER w/oP相比，参数更少（最多少52倍）。关键是，DyTox显著地接近DER w/o P。0超过其他基线：例如，在50步设置中，DyTox的“Last”准确率高达+25%。0改进的训练过程。为了弥合DyTox和CIFAR100上的DERw/oP之间的差距，我们引入了一种新的高效连续学习训练过程。使用MixUp[67]，我们线性插值新样本和现有样本。插值因子λ�Beta(α,α)是用α = 0.8进行采样的：两个图像的像素（x = λx1 +(1−λ)x2）和标签（y = λy1 +(1−λ)y2）被混合。MixUp已经显示出两个主要效果：（1）它使训练图像多样化，从而扩大了每个训练样本附近的训练分布[6]；（2）它改善了网络校准[25,57]，减少了对最近类别的过度自信。因此，MixUp与Sigmoid激活具有共同的动机。当Dy-60.6938.8761.6239.3563.4242.2167.3047.5768.2849.4570.2052.348929201步 50步0训练最终（↑）最终（↑）遗忘（↓）0DyTox 76.12 52.34 33.15 DyTox+ 77.51 +1.39 57.09 +4.75 31.50 -1.650表4：CIFAR100上联合（1步，非连续）和50步设置的“Last”准确率和遗忘[7]。0将Tox与MixUp过程相结合，被称为DyTox+，这在表3的所有三种设置中都显著提高了“Avg”准确率的最新水平。我们在附录中还提供了对这种新的连续训练过程的进一步改进，从而在CIFAR100和ImageNet100上获得更大的收益。04.3. CIFAR100上的模型内省0内存开销。我们每个任务只添加了一个大小为d =384的向量；因此，内存开销（不考虑对所有连续模型都通用的增长分类器）每步只有+0.004%。即使在具有50个任务的CIFAR100的挑战性设置中，我们的内存开销几乎为零（+0.2%）。0计算开销。绝大部分计算都在SABs中完成，因此在所有任务之间共享。我们模型的动态组件位于最终的TAB中。此外，与自注意力相反，任务注意力的时间复杂度是关于标记的线性而不是二次的，将时间开销降低到可接受的次线性量级。总体而言，对于每个新任务，一个前向传递所需的时间比基础Transformer多2.24%。0训练过程内省。我们的DyTox+策略结合了MixUp，真正减少了灾难性遗忘，不仅仅提高了原始性能。这在表4中得到了证明，我们在CIFAR100上比较了DyTox与DyTox+策略。虽然MixUp只在联合学习（非连续，1步）中略微提高了1.39个百分点的准确率，但在50步连续场景中，MixUp大幅提高了4.75个百分点的性能。为了进一步说明这一点，我们还报告了Chaudhry等人的遗忘[7]指标，该指标比较了性能与之前步骤相比的下降情况。MixUp将这种遗忘减少了1.65个百分点。0模型消融我们在表5中消融了DyTox的不同组成部分的重要性。我们在基础Transformer上添加了一种简单的知识蒸馏[28]和一种微调[4，29，18，64]，应用于每个任务之后的一组平衡的新数据和回忆数据。最后，我们的DyTox策略直接利用了Transformer的本质特点（将任务信息与像素信息分离）来解决灾难性遗忘问题，其中包括三个组成部分：（1）任务令牌扩展，（2）发散分类器和（3）独立分类器。这三个组成部分都大大改善了基线模型。0知识蒸馏0微调0令牌扩0发散分0独立分类器0平均最后0DyTox0Transformer0动态0表5：我们的DyTox架构的不同关键组件的消融。我们报告了CIFAR100在50个步骤设置下的平均准确率和最后准确率。0transformer（42.21% →52.34%在“Last”中），几乎没有额外的内存开销（+0.2%）。发散分类器提高了任务令牌之间的多样性：我们观察到它们之间的最小欧氏距离增加了8%。此外，我们还注意到，独立的分类器将Chaudhry等人的遗忘[7]减少了24%以上。05.结论0在本文中，我们提出了一种基于Transformer架构的新的动态策略DyTox，用于持续学习。在我们的模型中，自注意力层在所有任务之间共享，并且我们通过新的任务注意力层添加任务特定的令牌，以实现任务专用的嵌入。这种架构使我们能够以非常小的内存开销动态处理新任务，并且不需要复杂的超参数调整。我们的实验证明，我们的框架在像ImageNet1k这样的大型数据集上具有最先进的性能。此外，当考虑大量任务时（即CIFAR10050个步骤），我们的参数数量合理增加，而不像以前的动态策略那样增加。局限性：真正的持续学习旨在学习几乎无限数量的任务，并且遗忘很少。目前还没有方法能够完全解决持续学习中的遗忘问题，但我们的模型是朝着这个方向迈出的一步。更广泛的影响：机器学习模型往往存在偏见，某些类别的性能较低。研究持续学习中的遗忘可以揭示类别之间性能差异的见解。我们的任务专用模型可以帮助减少这些偏见。致谢：本工作部分得到ANR资助的VISADEEP项目（ANR-20-CHIA-0022）和IDRISAD011011706的HPC资源支持。992930参考文献0[1] Rahaf Aljundi，Francesca Babiloni，MohamedElhoseiny，Marcus Rohrbach和TinneTuytelaars。记忆感知突触：学习什么（不）要忘记。在IEEE欧洲计算机视觉会议（ECCV）的论文集中，2018年。（第2页）。0[2] Jimmy Ba，Jamie Ryan Kiros和GeoffreyHinton。层归一化。在2016年NeurIPS深度学习研讨会上的进展中，2016年。（第3页）。0[3] Eden Belouadah和AdrianPopescu。Il2m：具有双重内存的类增量学习。在IEEE国际计算机视觉会议（ICCV）的论文集中，2019年。（第4页）。0[4] Francisco M. Castro，Manuel J Mar´ın-Jim´enez，Nicol´asGuil，Cordelia Schmid和KarteekAlahari。端到端增量学习。在IEEE欧洲计算机视觉会议（ECCV）的论文集中，2018年。（第2、6、8页）。0[5] Fabio Cermelli，Massimiliano Mancini，Samuel RotaBul´o，Elisa Ricci和BarbaraCaputo。在语义分割中建模背景以进行增量学习。在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2020年。（第2页）。0[6] Olivier Chapelle，L´eon Bottou和VladimirVapnik。邻近风险最小化。在神经信息处理系统（

下载后可阅读完整内容，剩余1页未读，立即下载