持续学习中的动态提示方法（L2P）

139 浏览量更新于2023-10-25 收藏 898KB PDF 举报

持续学习

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

139学习促进持续学习王紫峰1张子昭2李晨宇2张涵3孙若曦2任晓琪2苏国龙3文森特·佩罗3詹妮弗·戴1托马斯·菲斯特21东北大学2Google Cloud AI3 Google Research摘要持续学习背后的主流范式一直是使模型参数适应非平稳数据分布，其中灾难性遗忘是中心挑战。典型的方法依赖于排练缓冲区或已知的任务身份在测试时检索学习的知识和地址遗忘，而这项工作提出了一个新的范式，为持续学习，旨在训练一个更简洁的存储器系统，而无需在测试时访问任务标识。我们的方法学习动态提示（L2P）一个预先训练好的模型，在不同的任务转换下顺序地学习任务。在我们提出的框架中，提示是小的可学习的参数，这是保持在一个内存空间。目标是优化提示以指导模型预测，并在保持模型可塑性的同时解释性地管理任务不变和任务特定的知识。我们在流行的图像分类基准下进行了深入的实验令人惊讶的是，L2P实现了与基于排练的方法相比具有竞争力的结果，即使没有排练缓冲，并且直接适用于具有挑战性的任务不可知的持续学习。源代码可在https://github.com/google-research/l2p上获得。1. 介绍与在独立同分布（i.i.d.）上训练的普通监督学习相反。数据连续学习解决了在非平稳数据分布上训练单个模型的问题，其中顺序地呈现不同的然而，由于模型只能在学习周期的单个阶段访问当前数据，因此易于对当前可用数据进行过拟合，并且由于灾难性遗忘而遭受先前数据的性能退化[37]。继续学习的主要工作如下在Google Cloud AI Research实习期间完成的工作图1.L2P框架概述与传统的通过排练缓冲区使整个或部分模型权值按顺序适应任务以避免遗忘的方法相比，L2P使用单个骨干模型并学习提示池来有条件地指示模型。特定于任务的知识存储在提示池内，因此排练缓冲区不再是强制性的，以减轻遗忘。L2P以实例方式自动选择和更新来自池的提示，因此在测试时不需要任务标识。值得注意的是，我们的最大提示空间较小比一张224×224的图片还要大。随着数据分布的变化，通过不断调整整个或部分模型权重来学习范式，重点是保留过去的知识[9，34]。虽然许多类型的方法取得了良好的效果，但仍然存在需要解决的关键限制。首先，根据互补学习系统（CLS）理论[23，36]，受海马体中的情景记忆的激励，许多最先进的方法[3，4，8]依赖于排练缓冲区来重新训练过去示例的一部分。然而，它们在较小的缓冲区大小[4]的情况下遭受实质性的性能劣化，并且在不允许重播缓冲区时变得无效-这表明，简单地缓冲过去的数据并重新训练模型可能不是检索过去知识的最佳方法。在没有访问排练缓冲区的情况下，另一个分支的作品[19，26，45]通过在测试时假设已知的任务身份来绕过遗忘问题然而，在测试时知道任务标识限制了实际使用。先前工作的局限性带来了持续学习的关键问题[13，16]：（1）情景记忆的形式是否可以超越缓冲过去的数据，成为更智能和简洁的情景记忆系统？(2)如何140在不知道其任务身份的情况下，自动为任意样本选择相关的知识组件？为了回答第一个问题，我们从基于提示的学习（提示）[29]的最新进展中翻译技术设计了具有模板化或可学习的提示语的文本输入模型，其中包含额外的任务特定信息，使得预训练的语言模型可以处理参数化的输入，以便执行特定于任务的预测[25，27，53]。基于直觉的学习重新制定了学习下游任务，从直接调整模型权重到设计提示，“指示”模型有条件地执行任务。提示符对特定于任务的知识进行编码，并且能够比普通微调更有效地利用预训练的冻结模型[25，47]。因此，它是有前途的，以利用提示学习知识，并进一步存储学习的知识，在持续的学习环境。然而，目前还不清楚如何在持续学习中直接应用提示来解决上述第二个问题：一方面，如果我们顺序地为不同的任务训练不同的提示，则仍然需要测试时任务身份另一方面，作为一种迁移学习技术，提示的目标是使冻结的预训练模型在下游任务中单独而不是顺序地表现良好。因此，如果我们对所有任务保持一个共享提示，那么catastrophic遗忘的问题可能仍然存在（见5.4节）。为此，我们提出了一种新的持续学习方法，称为L学习到Prompt的持续学习（L2P），这是正交流行的排练为基础的方法，并适用于实际的持续学习的情况下，已知的任务身份或边界。图1给出了与典型的持续学习方法相比，我们的方法的概述。L2 P利用来自预训练模型的代表性特征;然而，L2 P不是在持续学习过程中调整参数，而是保持预训练模型不变，而是学习一组提示，动态指示模型解决相应的任务。具体来说，提示是在一个关键字-值共享的内存空间称为提示池的结构，我们设计了一个查询机制，动态查找任务相关的提示的一个子集的基础上，实例明智的输入功能。与监督损失联合优化的提示池确保共享提示对用于知识转移的共享知识进行编码，并且非共享提示对有助于保持模型可塑性的任务特定知识进行编码。我们的设计明确地将共享知识和特定于任务的知识分离，从而大大减少了优化过程中特定于任务的知识之间的干扰，从而将灾难性遗忘降至而不需要排练缓冲器。实例式查询机制消除了知道任务身份或边界的必要性，从而实现了最令人困惑但尚未被研究的任务不可知的持续学习。然后，所选的提示被预先添加到输入嵌入中（图2），这会隐式地将任务相关的指令添加到预先训练的模型中，以便模型调用最相关的特征来执行相应的任务。综上所述，本工作做出了以下贡献：1. 我们提出了一种基于提示的持续学习框架L2P，通过学习提示池内存空间，为预训练模型提供参数化的“指令”，使其按顺序学习任务，从而提供了一种新的机制来解决持续学习的挑战该方法适用于处理最具挑战性的任务不可知的持续学习。2. 我们进行了全面的实验来证明L2P在多个持续学习基准上的有效性，包括类和域增量以及任务不可知的设置。建议的L2P优于以前的国家的最先进的方法一致的所有基准。令人惊讶的是，即使不使用排练缓冲区，L2P仍然实现了与基于排练的方法竞争的结果，这在现实世界的场景中是理想的，当排练缓冲区被禁止。3. 据我们所知，我们是第一个在继续学习中引入激励思想的人。我们希望我们的方法为解决持续学习中的前沿挑战提供了不同2. 相关工作在这里，我们画出的连接和讨论之间的差异，我们的方法相关的作品。不断学习。有三个主要类别的最近的持续学习算法。基于正则化的方法[1，21，28，65]通过限制复杂任务重要参数的学习率来尽管这些方法在某种程度上解决了灾难性的问题，而不存储过去的例子，但它们在具有挑战性的设置[34]或复杂的数据集[49，61]下无法获得令人满意的性能。基于排练的方法[7，8，17]构建一个数据缓冲区来保存来自旧任务的样本，以便使用来自当前任务的数据进行训练。基于这个简单而有效的方法- 虽然这是一个很好的想法，但许多最近的方法通过涉及额外的知识蒸馏惩罚[3，6，49，61]或利用自监督学习技术[4，44]来改进它。尽管其概念简单，但基于排练的方法在各种基准测试上都达到了最先进的性能141⇠D2Y--YX！ YD我我 i=1我我2X2D {}D {D·· · D}[34、42]。然而，基于排练的方法的性能通常随着缓冲区大小的减小而恶化[4]，并且基于排练的方法最终不适用于应该考虑数据隐私的场景[54]。与直接从过去的知识中保存数据来重新训练模型不同，该方法将过去的知识存储在小的可学习的提示参数中，以指示模型处理当前任务，并将当前知识转化为提示。我们的方法不需要排练缓冲区，以实现性能接近排练为基础的方法，并可以进一步改进，以设置一个新的状态的艺术给定一个小的排练缓冲区。基于架构的方法旨在为每个任务提供单独的组件任务特定的组件可以通过扩展网络[26，31，48，50，64，68]或关注任务特定的子网络[19，35，51，59]来识别然而，大多数方法，这需要任务身份条件的网络在测试时，不适用于更现实的类增量和任务不可知的设置时，任务身份是未知的。一些最近的方法要么直接推断任务身份[60]，要么额外添加排练缓冲区以绕过问题[44，63]。然而，这些方法需要大量的附加参数，有时接近完整模型的大小[19，59]。相反，L2P不需要测试时任务标识，添加了可忽略不计的额外参数（ 0 的情况。1%）。虽然L2 P也引入了额外的提示参数-最后，它具有与基于架构的方法完全不同的设计原则：L2P设计了一种新的基于提示的存储器，用于从模型输入中学习高级指令，以引导模型输出，并保持学习的架构固定。相比之下，大多数基于架构的方法旨在分离模型参数。最后，CTN [45]和DualNet [44]最近的工作开始考虑通过控制器进行知识管理，该控制器除了骨干模型之外还对任务级信息进行建模。然而，CTN在测试时仍然需要任务标识，而DualNet需要一个预演缓冲区才能工作。此外，CTN和DualNet的灵感来自于CLS的不同角度，这表明人类通过两个系统来实现持续学习，分别促进快速学习和长期记忆。有趣的是，虽然我们得到的灵感不同，但L2P可以通过CLS理论准确地解释：提示池处理快速学习，骨干模型充当长期记忆。促进迁移学习。提示的高级思想是应用一个函数来修改输入文本，以便语言模型获得有关任务的附加然而，提示函数的设计是具有挑战性的，并且需要启发式。最近的工作，包括提示调优[25]和前缀调优[27]，试图通过在一个条件下应用可学习的提示来解决这个问题。连续空间，实现了良好的迁移学习性能。提示捕获特定于任务的知识，具有比其竞争对手小得多的附加参数，例如Adapter [43，58]和LoRA [18]。激励的中心思想主要是为迁移学习而设计的。请注意，在持续学习中直接应用提示是很重要的我们提出的新框架揭示了它的价值，不断学习的问题。3. 先决条件3.1. 持续学习协议连续学习通常被定义为在非平稳数据上训练任务我们定义一个任务序列=1，、其中，第t个任务t=（xt，y t）nt 包含输入样本xt及其对应标签yt. 我们的目标是训练一个单一的模型f：，参数化为f，这样它就可以预测标签y=f（x），给定一个来自任意任务的不可见测试样本x。数据在训练未来的任务时，可能不再看到先前任务中的任何内容。根据任务转换环境，持续学习可以分为多种设置，挑战略有不同。共同的任务-，类，以及域递增设置假设任务数据t按顺序t=1，...，T以离散的方式。与类增量学习、任务增量学习不同，sumes任务标识在测试时是已知的，并且通常被认为是最简单的设置[34，38]。与每个任务具有不同类的任务和类增量设置不同，域增量学习为每个任务保持相同的类集合，并且仅改变x的任务分布。在更具挑战性的任务不可知设置中，变的很顺利，任务也确定了。T是未知的。我们的论文解决了更具挑战性类增量和域增量，以及进一步的探索与任务无关的设置。3.2. 基于即时的学习和基线基于提示的学习是NLP中的一种新兴技术与传统的监督微调相比，这类方法设计了特定于任务的提示函数，以指导预训练模型有条件地执行相应的任务[29]。最近的技术之一，提示调谐（PT）[25]，提出简单地调节冻结的T5类语言模型[47]，以通过学习前置于输入令牌以指示模型预测的提示参数来执行下游NLP任务在不损失一般性的情况下，这里我们使用基于图像模态变换器的序列模型介绍PT的定义[10，56]。该定义很容易推广到其他模态和基于序列的模型。142◦2e预训练模型[10]。预训练的嵌入层i=112pM2e22图2.测试时的L2P图示。我们在培训时遵循相同的程序：首先，L2 P选择一个子集的提示，从一个关键字-值配对提示池的基础上，我们提出的实例明智的查询机制。然后，L2P将所选择的提示前置到输入标记。最后，L2P将扩展令牌馈送到模型，并通过等式5中定义的损失优化提示池。目标是学习选择和更新提示，以指示预训练骨干模型的预测。给定 2D 图像 xRH W C 的输入和预训练的视觉Transformer（ViT）f=f rf e（不包括分类头），其中f e是输入嵌入层，并且f r表示自注意层的堆栈[10]。将图像重新整形为一系列展平的2D面片xRL <$（S ·C），其中L是令牌长度，即图块的数量，S是图块大小，C是通道的原始数量。为了简化符号，我们假设更大的任务[16]。第三，虽然学习所有任务的单一共享提示的简单方法能够实现知识共享，但它仍然会导致严重的遗忘问题（见第5.4节）。理想地，人们将学习一种模型，该模型能够在任务相似时共享因此，我们建议使用提示池来存储编码的知识，这些知识可以灵活地分组为模型的输入。提示池定义为xp中的第一个标记是[class]标记，P={P，P，·· ·，P}，M=提示总数f：RL（S2·C）！RL D将修补后的图像投影到其中Pj2RLpD是具有令牌长度嵌入特征xe=f（x）RL D，其中D是嵌入维数当解决多个向下-流任务，我们保持大规模的预训练的骨干冻结，以保持其通用性以下PT。PT的直接应用是预先设定可学习的参数，把Pe2RLpD称为提示符，以嵌入fea。Lp和相同的嵌入大小D作为xe。根据3.2节中的符号，我们让x和xe=fe（x）分别是输入及其相应的嵌入特征请注意，我们在我们的表示法中省略了x的任务索引t，因为我们的方法对于任务不可知的设置来说足够通用表示{s i}N作为来自[1，M]的N个索引的子集，我们turexp=[Pe;xe] ，并将扩展序列馈送到模型函数 fr（xp）以执行分类任务。不同的任务有独立的提示，并共享一个大模型的复制品。与普通的微调相比，文献表明，基于序列的学习导致基于序列的模型具有更高的学习特征的能力[25，29]。尽管它在迁移学习中成功地为每个任务训练了单独的提示，但提示不能直接应用于测试时任务ID未知的连续学习设置4. 学习提示（L2P）4.1. 从提示到提示池引入即时池的动机有三个方面.首先，测试时的任务标识是未知的，因此训练任务无关的提示是不可行的。第二，即使在测试时可以知道任务无关提示，它也阻止了simi之间可能的知识共享。然后可以如下调整输入嵌入：xp=[Ps1;···;PsN;xe]，1N M，（2）其中;表示沿着令牌长度维度的级联。提示可以自由组合，因此它们可以联合编码知识（例如视觉特征或任务信息）以供模型处理。理想情况下，我们希望通过实例级别的即时组合来实现更细粒度的知识共享方案：类似的输入往往共享更常见的提示，反之亦然。4.2. 逐实例提示查询我们设计了一个基于键-值对的查询策略来动态地为不同的输入选择合适的提示（参见图2）。这种查询机制与其他领域的方法共享一些设计原则，例如微分神经计算机[14]和VQ-VAE [41]，它们具有外部存储器以维护和用于不同的目的。我们将每个提示符作为值与一个可学习的键相关联：{（k1，P1），（k2，P2），···，（kM，PM）}，其中ki2RDk。143i=1！·-···它将输入x编码为与密钥相同的维度P，K，$R我{si}N✓[1，M]{si}N✓[1，M]- -NN我们用K = k i M表示所有密钥的集合。理想情况下，我们希望让输入实例自己决定提示通过查询键匹配进行选择。为此，我们引入一个查询函数q：RH <$W<$C！ RDkfr和由$参数化的最终分类器g$。总之，我们寻求最小化端到端训练损失函数：minL（g$（f（xp）），y）+λX<$（q（x），ks），avgKx此外，q应该是关于不同的任务，没有可学习的参数。我们不-直接使用整个预训练模型作为冻结特征S.T. 、Kx由等式3获得，其中favg= AvgPool（f（x）[0：NL，：]），即，输出提取器获取查询功能：q（x）=f（x）[0，：]（werp p使用对应于[class]的特征向量）。像ConvNet这样的其他特征提取器也是可行的。将RDkRDkR表示为一个函数，用于对查询和提示键之间的匹配进行评分（我们发现余弦距离效果很好）。给定输入x，我们使用q（x）来通过简单地求解目标来查找前N个Kx=argminX（q（x），ksi），（3）i=1i=1对应于N Lp提示位置的在分类头之前进行平均第一项是softmax交叉熵损失，第二项是将所选键拉近相应查询的替代损失功能. λ是对损失进行加权的标量5. 实验为了评估拟议的L2 P，我们密切关注集合-在以前的作品[32，55，66]中提出的，并进行COM-其中Kx表示从K中为x特别选择的前N个键的子集。请注意，此设计key-value策略使查询机制学习和提示学习过程变得更加简单，这已经被实验证明是至关重要的（参见5.4节）。此外，查询提示是以实例方式完成的，这使得整个框架与任务无关，这意味着该方法在训练期间不需要明确的任务边界，也不需要测试时的任务标识。可选多样化的提示选择。虽然我们的方法不需要任务边界信息，在现实世界的场景和实验数据集，这是相当常见的任务过渡是离散的，因此任务边界是已知的训练时间。我们发现，在我们的框架中添加这样的先验可以帮助模型学习更好的任务特定提示，特别是当任务具有高度多样性时。为此，我们提出了一个简单的扩展，以添加任务边界先验，这是可选的L2P。在任务t的训练过程中，我们维护一个提示频率表Ht=[h1，h2，，hM]，其中每个条目表示在任务t之前被选择的提示Pi的归一化频率1 .一、为了鼓励查询机制-为了选择不同的提示，我们修改公式3，Kx=argminX（q（x），ksi）·hsi，（4）i=1i=1大量的实验。我们主要考虑(1)类增量设置，其中任务身份在推理期间是未知的;（2）域增量设置，输入域随时间移动;（3）任务不可知设置，没有明确的任务边界。在适当的实验设置下，我们仔细地比较了L2P与不同类别的此外，我们进行了广泛的消融研究，以更深入地了解我们的方法。5.1.比较方法我们将L2P与几种基线和最先进的（SOTA）持续学习方法进行了比较。我们的方法基于预先训练的ViT-B/16 [11，67]，它已成为高级视觉社区的常见资产。我们谨慎地选择在相同环境下进行比较的方法，以便进行公平的比较.许多最近的方法声称SOTA在最简单的任务增量设置中的性能，其中任务ID在测试时是已知的[19，45，57]。我们不包括它们，因为它们不适用于更一般的类增量设置。我们参考了最近的综述文章[9，34]和最近的工作[3，4，46]，并选择了最受认可和性能最佳的方法。为了完整性，我们还包括朴素顺序训练和基于正则化的代表性方法。此外，我们遵循原始代码库进行实现和hyperpa，参数设置，以确保最佳性能。其中，HSI惩罚频繁使用的提示符，鼓励多元化选择。等式4仅为培训期间适用;在测试时使用等式3。4.3. L2P的优化目标在每个训练步骤中，在选择了N个遵循上述查询策略的提示之后，将自适应嵌入特征xp馈送到预训练模型基线方法。上界是i.i.d.上通常的监督微调。所有任务的数据，这通常被认为是方法可以实现的上限性能FT-seq-frozen是一种简单的顺序微调方法，其中预先训练的模型被冻结。FT-seq也会微调预训练的模型权重。EWC[21]和LwF[28]是被广泛比较的代表性的基于正则化的方法。（五）R144表1.类增量学习的结果（即，任务标识在测试时未知）。比较的方法是基于不同的排练缓冲区大小进行分组。0表示不需要排练，大多数SOTA方法不再适用。重要的是，L2P可以在没有它的情况下获得有竞争力的结果，并且在较小的缓冲区大小下大大优于它们。方法缓冲区大小分体式CIFAR-100平均访问次数（“）遗忘次数（#）缓冲区大小5-datasets平均访问次数（“）遗忘次数（#）FT-seq-frozen17.72±0.3433.61±0.8547.01±0.2960.69±0.6383.83±0.0459.09±0.2586.87±0.2033.27±1.1727.77±2.177.63±0.3039.49±0.1220.12±0.4250.93±0.0947.91±0.3381.14±0.9342.62±0.2094.63±0.6834.94±0.0738.01±0.284.64±0.52FT-seqEWC [21]00LwF [28]L2P (ours)ER [8][46][61 ][62][63][ 64][65][66]L2 P-R（我们的）10个/类67.87±0.5733.33±1.2867.14±0.37-66.11±1.7635.24±1.6461.06±0.8739.87±0.9972.15±1.3228.55±1.5684.21±0.537.72±0.775/类80.32±0.5515.69±0.8956.99±0.06-78.74±1.4121.15±1.0080.81±0.0714.38±0.3582.25±1.1717.52±1.3585.56±0.954.22±0.03ER [8][46][61 ][62][63][ 64][65][66]L2 P-R（我们的）50/班82.53±0.1716.46±0.2581.67±0.02-81.42±0.8517.31±1.0283.94±0.3414.55±0.7382.49±0.8917.48±1.8086.31±0.595.83±0.6110个/类84.26±0.8412.85±0.6270.76±0.12-85.53±2.0610.27±1.3284.88±0.5710.46±1.0286.05±1.0312.28±1.4488.95±0.784.92±0.71上限-90.85±0.12--93.93±0.18-表2. Split CIFAR-100与基于架构的方法的类增量结果。Diff =上限访问-表3.使用CORe50数据集进行域增量学习的测试准确性结果。方法Acc（越低越好）测量性能的接近程度，到所用主干的上界。上限ViT-B/1690.85-L2P（我们的）83.83±0.047.02SOTA基于排练的方法。我们选择了5种先进的基于排练的方法进行比较，包括 ER [8 ， 17] ， GDumb[46]，BiC [61]，DER++[3]和Co2L [4]。 ER和GDumb概念简单，但不仅在他们自己的工作中，而且在后来的文献中也表现出了强大的性能[3，34]。DER++和Co2 L是最新的SOTA方法。基于SOTA架构的方法。我们选择了两个有代表性的基于架构的方法进行比较。Sup- Sup [60]和DualNet[44]都是基于ResNet 18，由其原作者推荐。我们比较了相对性能相应的上限per-boundary公平。我们的方法。L2P是我们提出的没有排练缓冲区的方法。L2 P-R是配备有排练缓冲器的L2 P，用于与SOTA方法进行公平比较。上限-82.15±0.375.2. 数据集和实验细节数据集。我们使用Split CIFAR-100 [22]和5- datasets[12]进行类增量设置，CORe 50 [30]用于域增量设置，高斯调度CIFAR-100 [52]用于任务不可知设置，以评估我们方法的有效性。数据集详情见附录C。评估指标。对于具有任务边界的设置以及每个任务都有相关测试集的设置，我们使用两个度量，平均准确度（越高越好）和遗忘（越低越好），这在以前的作品中被广泛使用[7，32，34]。对于没有任务边界的设置，方法缓冲区大小测试访问（“）方法骨干Avg. Acc（“）Diff（#）EWC [21]LwF [28]L2P（我们的）074.82±0.6075.45±0.4078.33±0.06上限80.41-[44]第四十四话：一个人ResNet1828.34±2.4552.0740.14±1.6440.27ER [8][46][61 ][62][63][ 64][65][66]L2 P-R（我们的）50/班80.10±0.5674.92±0.2579.28±0.3079.70±0.4479.75±0.8481.07±0.13145平均访问次数（“）遗忘次数（#）无提示池51.96 26.60w/o键-值对58.33 20.45无多元化选择无⇥表4.使用高斯调度的CIFAR-100数据集进行任务不可知的持续学习的结果，在测试准确性方面方法缓冲区大小测试访问（“）EWC [21]L2P（我们的）063.04±0.4288.34±0.14上限-90.85±0.12表5.消融研究。详细解释见正文。图3.（左）Split CIFAR-100和（右）5-数据集的提示选择直方图。与5-数据集相比，CIFAR-100具有更高的任务内相似性，因此在很大程度上在任务之间共享提示会导致良好的性能，而5-数据集有利于更多的任务特定提示。我们只显示Split的前5个任务消融组件5-datasetsCIFAR-100更好的可读性。缓冲区大小相对较大，L2P不仅优于所有其他方法，而且在i.i.d.布景。当缓冲区大小变小时，L2P的性能甚至比其他缓冲区更好。最后，当有没有缓冲，基于排练的方法不再能够，如果只有一个测试集可用，我们报告最终测试准确度遵循通用协议[30，52]。培训详情。对于L2P，我们使用Adam [ 20 ]来训练所有模型，其中1=0。9，且x2=0。999，批量大小为128，恒定学习率为0。03对于所有设置-东西。将输入图像的大小调整为224 224，并归一化为[0，1]的范围以匹配预训练集。正如[3]所指出的，训练多个时期，每项任务都将可能的欠适应效应与遗忘区分开来。因此，我们在类和域增量设置中训练每个任务 5 个epoch。然而，在任务不可知论的环境中，我们除了一个任务，我们遵循[52]，每批只训练一次。对于所有基于CIFAR- 100的数据集和CORe 50，我们设置M=10，N=5，Lp=5。对于5-数据集，我们使用M=20，N=4，Lp=5。普通人只加了46080和92，160个参数到原始的预训练模型，这两个设置，导致一个小0。05%和0。11%-谈话参数分别增加。我们应用可选的在4.2中引入的提示选择策略。我们发现方程5中的λ不敏感，在很大范围内都能很好地工作，所以我们设置λ=0。5、所有数据集一致。主要实验结果在3次运行中取平均值，并进行校正。也报告相应的标准偏差。5.3. 主要结果关于类增量学习的结果。表1总结了这两个类增量基准的结果。L2P算法在不同配置下的平均准确率和遗忘率均优于所有比较方法。我们观察到，而L2P仍然保持优于基于正则化的方法的性能，并且在缓冲区较小时优于几乎所有基于排练的方法。表2显示了Split CIFAR-100上L2 P和基于架构的方法之间的比较。而不是绝对性能的平均精度，我们使用差异上限（差）来衡量每种方法的性能给定一个特定的架构。我们观察到， L2P 优于这两种方法（DualNet）或没有（SupSup）排练缓冲区，由一个很大的利润。L2 P在所有竞争方法中的出色表现表明，我们提出的提示池成功-充分积累经验的知识，因此它可以整体提高学习性能，同时减轻灾难性遗忘，即使没有排练缓冲区。领域增量学习的结果。表3总结了域增量设置的结果。与其他方法相比，L2P仍然是最好的性能。有趣的是，所有基于排练的比较方法都表现得相当接近（除了GDumb）。在[30]中也报告了基线方法和上限结果之间相对适度的性能差距，因此我们的方法和其他方法之间确实存在显著的性能差距。任务不可知学习的结果。虽然任务不可知的设置通常被认为更具挑战性[52]，但该主题尚未得到充分研究。我们对任务不可知的设置进行了更多的探索性研究。表4总结了具有挑战性的任务不可知学习设置的结果。我们没有与LwF，BiC和Co2L进行比较，因为它们需要任务边界来保存模型快照ER [8][3]第四十六话：一个人的世界L2 P-R（我们的）50/班82.63±0.2781.67±0.0285.24±0.7188.92±0.39146⇥图4.左中：对于Split CIFAR-100和5-数据集，给定M=20，分别为提示长度Lp和提示选择大小N的平均准确度。右：平均准确度（%），相对于提示池大小M，对于Split CIFAR-100，给定Lp=5，N= 5，对于5个数据集，给定Lp=5，N= 4并计算蒸馏损失。把它们扩展到这种环境超出了我们的能力范围。我们还使用了[5]提出的EWC的在线版本用于任务不可知的设置。由于所有比较的方法都是基于预训练的模型，因此绝对数字与上限相差不远。可以看出，基于排练的方法具有明显的优势。然而，L2P仍然达到最好的性能，即使当缓冲区大小为零，在所有的方法，包括那些有一个排练缓冲区。我们认为，任务的顺利过渡隐含地帮助L2P巩固知识到提示。由于我们有更好的提示，排练缓冲的好处自然会减弱。5.4. 堆芯设计提示相关成分对L2P的影响表5（第1行）删除了提示符池设计，并使用单个提示符按顺序进行训练。提示池的设计对任务不变知识和任务特定知识进行了较好的编码，但提示池的设计对任务不变知识和任务特定知识的编码效果不佳。表5（第2行）删除了与提示相关联的可学习键，并直接使用提示的平均值作为键。结果表明，可学习键在解耦查询和提示学习过程中起着重要作用表5（第3行）删除了多样化提示选择（仅用于5个数据集的实验）。基本上，删除它允许不同任务的实例自由选择提示。性能的下降表明，当任务是不同的，增加这种策略确实减少了不必要的知识共享，从而减轻不相关的任务之间的干扰。为了更好地理解提示选择机制，我们分别在图3中的Split CIFAR-100和5-datasets中绘制了性能最佳的参数设置下的从Split CIFAR-100（左）的图中，任务在很大程度上共享所有提示，这意味着我们的提示选择机制鼓励类似任务之间共享更多知识相比之下，在5个数据集的图中（右），不同的任务需要更多的任务特定提示，共享较少。超参数对L2P的影响。回想一下，有三个关键的超参数，包括提示池M、单个提示的长度Lp以及用作模型输入的选择大小N。直觉上，M决定了可学习提示的总容量。Lp决定单个提示的容量（它共同编码某些知识），LpN决定用于prepend的总大小输入.从两个数据集上的结果来看（图4（左-中）），太小的Lp总是对结果产生负面影响，而过大的提示可能会引入知识，甲板我们假设，一个合理的能力，一个单一的提示是至关重要的编码共享知识的某一方面如图4（右）所示，增加提示池大小对5个数据集的性能有积极影响，而对Split CIFAR-100则没有那么有效，这表明当任务不同时，需要足够大的池大小来编码任务特定的知识.6. 结论本文提出了一种新的方法来解决一些在持续学习的关键挑战的方法，可以实现强大的性能，而不需要排练和任务的身份。L2P将基于提示的学习引入到持续学习中，并提出了一种新的技术，通过共享提示池使单个预训练模型能够适应顺序任务，成功地解决了灾难性遗忘问题。由此产生的方法显着优于以前的SOTA在几个持续学习的问题，包括类增量和域增量。我们表明，我们的方法是一般的，足以处理更具挑战性的任务不可知的设置，在以前的方法是无法。致谢我们要感谢李春亮、杰里米·马丁·库比卡、赛娜·易卜拉欣米、斯特拉蒂斯·约安尼迪斯、南华和埃马努伊尔·库库米迪斯的宝贵讨论。Wang Zifeng也得到了NSF的部分资助，资助号为CCF-1937500。147引用[1] RahafAljundi ， FrancescaBabiloni ， MohamedElhoseiny，Marcus Rohrbach，and Tinne Tuytelaars.记忆感知突触：学习什么（不）忘记。在ECCV，2018。2[2] 雅罗斯拉夫·布拉托夫notmnist数据集，2011年。12[3] Pietro Buzzega 、 Matteo Boschini 、 Angelo Porrello 、Davide Abati和Simone Calderara。黑暗的经验，一般持续学习：一条简单有力的底线在NeurIPS，2020年。一、二、五、六、七[4] Hyuntak Cha，Jaeho Lee，and Jinwoo Shin. Co2l：对比性持续学习。ICCV，2021。一二三五六[5] Arslan Chaudhry 、 Puneet K Dokania 、 ThalaiyasingamAjan-than和Philip HS Torr.渐进学习的黎曼步行：理解遗忘和不妥协。参见ECCV，第532-547页，2018年。8[6] ArslanChaudhry ， AlbertGordo ， PuneetKumarDokania，Philip Torr，and David Lopez-Paz.在持续学习中运用后见之明来吸收过去的知识。arXiv预印本arXiv：2002.08165，2（7），2020。2[7] Arslan Chaudhry，Marc有效的终身学习与一个宝石。arXiv预印本arXiv：1812.00420，2018。二、六[8] ArslanChaudhry 、 MarcusRohrbach 、 MohamedElhoseiny 、 ThalaiyasingamAjanthan 、 PuneetKDokania、Philip HS Torr和Marc'Aurelio Ranzato。关于持续学习中的小片段备忘录。arXiv预印本arXiv：1902.10486，2019。一、二、六、七[9] Matthias Delange、Rahaf Aljundi、Marc Masana、SarahParisot、Xu Jia、Ales Leonardis、Greg Slabaugh和TinneTuytelaars。持续学习调查：在分类任务中挑战遗忘。TPAMI，2021年。5[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. ICLR，2021年。三、四[11] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在ICLR。OpenReview.net，2021年。5[12] Sayna Ebrahimi，Franziska Meier，Roberto Calandra，Trevor Darrell，and Marcus Rohrbach.对抗性的持续学习。在ECCV，2020年。六、十二[13] 塞巴斯蒂安法夸尔和 Yarin 加朝向对持续学习的可靠评估。arXiv预印本arXiv：1805.09733，2018。1[14] Alex Graves ， Greg Wayne ， Malcolm Reynolds ， TimHarl ey ， I v oDanihelka ， AgnieszkaGrabska-Barw in´ska ， Ser-gioGo´mezColmenarejo ， EdwardGrefenstette，TiagoRa-malho，John Agapiou，et al.使用具有动态外部存储器的神经网络的混合计算。Nature，538（7626）：471-476，2016. 4[15] Sorin Grigorescu，B

下载后可阅读完整内容，剩余1页未读，立即下载