预训练模型在持续学习中的应用和效果

48 浏览量更新于2023-10-16 收藏 647KB PDF 举报

预训练模型

持续学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6485预训练模型在持续学习中是否同样受益李冠英李元义王仲玉雄伊利诺伊大学香槟分校{kylee5，yuanyiz2，yxw} @ illinois.edu摘要持续学习（CL）的现有工作主要致力于为从头开始训练的模型开发算法。尽管这些算法在人工基准测试中的表现令人鼓舞，但在现实世界的场景中表现出显着因此，本文提倡将预先培训系统地引入到CL中，这是将知识转移到下游任务的通用配方，但在CL社区中基本上缺失。我们的调查揭示了利用CL的预训练模型的多方面复杂性，沿着三个不同的轴：预训练模型、CL算法和CL场景。也许最有趣的是，CL算法从预训练中得到的改进非常不一致-当所有算法都从预训练模型开始时，性能不佳的算法可能会变得具有竞争力，甚至是最先进的算法。这表明，目前的范例，其中所有CL方法进行比较，从零开始的培训，并没有很好地反映真正的CL目标和所需的进展。此外，我们还做了其他几个重要的观察，包括：1）CL算法，施加较少的正则化受益于预训练的模型更多;以及2）更强的预训练模型（诸如CLIP）不能保证更好的改进。基于这些发现，我们引入了一个简单而有效的基线，该基线采用最小正则化并利用更有效的预训练模型，再加上两阶段训练管道。我们建议在CL算法的未来开发中包括这一强大的基线，因为它具有最先进的性能。我们的代码可以在https://github.com/eric11220/pretrained-models-in-CL上找到。1. 介绍持续学习（CL）最近获得了越来越多的研究势头，由于现实世界数据的不断变化的性质[1，2，12，14，21，23，32，34，41，44]。去-尽管他们的表现令人鼓舞，许多显着的CL al-(a)（b）第（1）款图1. （a）从头开始训练的CL算法在Split CUB 200上失败，Split CUB 200是比Split CIFAR 100更复杂的数据集，这需要使用预先训练的模型（表示为(b)不同的CL算法从预训练的模型中获得了非常不同的好处，并且算法之间的优越性发生了变化。这些发现表明，社区开发具有预训练模型的CL算法并了解其行为至关重要。[最好是彩色的]租赁管理系统被开发为与从头开始训练的模型一起工作作为关键目标之一，本文主张将预培训系统地引入合作学习。这源于以下两个观察到的在从头开始训练的模型上构建CL算法的基本限制，这未能反映CL研究在真实世界场景中的真实进展，如图所示。1.一、首先，从头开始的训练并不能反映实际性能，因为如果将CL算法应用于现实世界的场景，考虑到巨大的性能差距，不建立现成的预训练模型将是违反直觉的（图1）。①的人。有人可能会说，将所有算法应用于从头开始训练的模型简化了不同算法之间的比较。然而，有趣的是，我们的研究表明，当所有算法都从预先训练的模型开始时，表现不佳的al-tem可能变得有竞争力，甚至达到最先进的性能。特别是，iCaRL [32]在从头开始训练时在在线课堂增量学习（CIL）中表现平平，与甚至优于 SCR [26] ，当两者都是从ImageNet上预先训练的ResNet 181初始化时（准确度-[1]在本文中，我们将ResNet称为RN6486iCaRL从14.26%增加到56.64%，图中拆分CIFAR100上的SCR从25.80%增加到51.93%。1和表2）。这可能表明，投入到CL算法开发中的努力可能会在这是一个不太有效的方向，不能很好地反映CL的实际进展。因此，我们应该在我们将如何预训练模型ER MIR…SCR在实践中使用它们-其次，对于许多具有不同视觉概念的更现实的数据集，数据稀缺使得无法训练在线CILCILCL算法CL学习者从头开始[9]（也如图中Split CUB200的结果所示）。1.一、我们认为，这是CL分类文献仍然大量评估人为基准（如Split MNIST和Split CIFAR [14，23]）的部分原因，而不是离线学习中通常使用的更复杂的数据集。通过我们的调查，本文揭示了利用CL的预训练模型的多方面的复杂性如表1所示，我们沿着三个不同的轴进行调查：不同的预训练模型，不同的CL算法和不同的CL场景。特别是，我们分析了以监督或自监督方式预训练的模型，以及来自三个不同的监督来源-策划的标记图像，非策划的这些模型涵盖了在ImageNet分类[15]，CLIP RN 50 [31]上训练的监督RN 18/50 [19]，以及使用Simplified [10]，SwAV [6]或Barlow Twins [43]训练的自监督RN 50。我们提出几点重要的意见。1）预训练模型在不同CL算法上的益处差异很大，如上述iCaRL和SCR之间的比较所示。（2）如图所示。1、对梯度应用较少正则化的算法（即，基于重放的方法，如ER [33]）似乎从预训练的模型中受益最多。3）有趣的是，尽管有令人印象深刻的零拍摄能力，CLIP RN 50大多表现不佳的Ima- geNet RN 50。4）自我监督微调有助于减轻灾难性遗忘。例如，与监督模型相比，在具有Simplitude损失的自监督模式中对下游数据集进行微调SimplitudeRN50，可以大大减少遗忘（Simplitude RN50的获取率为17.99%，而不是91.12%遗忘监督RN50）。5）在给定任务的数据上迭代多个时期，如在类增量学习（CIL）中，不一定比在线CIL提高性能。基于这些观察结果，我们进一步提出了一个强基线，即在ImageNet预训练模型（第三个观察结果）上应用ER，它施加最小的再加上两阶段的培训管道[18]（第二节）。3.3），我们表明，这样一个简单的基线实现了最先进的性能。我们建议在CL算法的未来发展中包括这一强大的基线。CL场景轴心国预训练模型（7）简化RN18，RN18，RN50，CLIP RN50，Simplified RN50、SwAV RN50、Barlow TwinsRN50CL算法（11）ER，MIR，GSS，iCaRL，GDumb，SCR，LwF、EWC++、AGEM、Co2 L、DER++CL场景（2）CIL，在线CIL表1. 我们通过将空间分解为三个轴来分析CL中的预训练模型：1）不同的预训练模型，2）不同的CL算法，以及3）不同的CL场景。我们的贡献总结如下。1)我们证明了在更复杂的CL数据集上预训练模型的必要性，以及它们在不同CL算法上的效益的巨大差异，这可能会推翻算法之间的比较结果。因此，我们建议社区在对新的CL算法进行去重和评估时考虑预训练模型。2)我们表明，与基于正则化的算法相比，基于重放的CL算法似乎更受益3)我们提出了一个基于ER和ImageNet RN50的简单而强大的基线，它通过预训练实现2. 相关工作不断学习的情景。CL文献的很大一部分关注增量学习，增量学习可以进一步分为三种不同的场景其中，最具挑战性的场景是类增量学习（CIL），在这种情况下，模型必须在没有任务信息的情况下用一个头来预测所有以前见过的类。最近的工作[17，20，25]已经调查了这种设置。然而，能够在多个时期内对特定任务的整个数据进行重新排序是不现实的[9，30]。为此，提出了CIL的在线版本[9，14]，其中模型以在线方式进行训练，因此只能访问每个示例一次。在这项工作中，我们还主要研究了在线CIL中的预训练模型，但也报告了CIL中几个代表性算法的结果。持续学习方法。根据[13]，持续学习方法可以分为三类：标签监督RN18（ImageNet）RN50图文监控CLIP RN50自监督Simplified RN50（ImageNet）SwAVRN50Barlow Twins RN506487{1}|}正则化、参数隔离和重放方法。正则化方法[1，21，44]防止学习的参数偏离太多，以防止遗忘。参数隔离方法通过为每个任务指定一组不重叠的参数来完全对抗遗忘[34，41]。重放方法要么存储以前的实例[14，17，23，32]，要么在运行中生成伪实例[12，35，36]以重放以减轻遗忘。虽然上述方法在不同的CL场景中都显示出良好的效果，但我们特别探索了正则化和基于记忆回放的方法，因为它们在最近的文献中很受欢迎。并研究了这些方法对预训练模型的影响。使用预先训练的模型进行持续学习。虽然大多数CL工作调查从头开始训练学习者[4，14，21，23，25，32，44]，但也有一些工作，从预先训练的模型中训练学习者[3，9，11，20，28，29]。它们利用预先训练的模型，例如应对下游任务的数据稀缺性[9]和模拟连续学习者的先验知识[20]。然而，它们没有1）系统地显示预训练模型相对于从头开始训练模型的实质性优势，2）研究不同类型的预训练模型或微调策略，或3）研究不同CL场景（增量和在线学习）的预训练模型。请注意，我们声称没有贡献是第一个在CL上应用预训练模型，而是全面研究了上述方面。3. 方法我们主要关注在线课堂增量学习（CIL），这是在SEC正式定义。第3.1条接下来，我们讨论各种预训练模型以及如何利用它们（第二节）。3.2）。节中3.3、我们引入了线上培训和线下培训相结合的两阶段培训管道。3.1. 问题公式化最广泛采用的持续学习场景是1）任务增量学习，2）领域增量学习和3）类增量学习（CIL）。其中，CIL是最具挑战性的，也是最受关注的，因为它更接近真实世界的场景，其中模型需要对迄今为止看到的所有类进行预测，而没有给出任务标识符（我们请感兴趣的读者参考[37]以了解更多细节）。在本文中，我们专注于一个更困难的场景换句话说，该模型不能将当前任务的数据覆盖多个时期，这在CIL中是常见的。其余论文的实验是基于在线CIL，除非另有说明（我们也评估CIL）。形式上，我们将问题定义如下。C总类被分成N个任务，每个任务t包含Ct非重叠类（例如，CIFAR100分为20个任务，每个任务包含5个独特的类）。该模型提出了N个任务顺序。每个任务数据流 St0

下载后可阅读完整内容，剩余1页未读，立即下载