文件标题：AdvisIL：班级增量学习的顾问

97 浏览量更新于2023-10-16 收藏 738KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2400AdvisIL-一个班级增量学习顾问Ev a Feillet1，Gre′ goire Petit1，2 Adrian Popescu1，Marina Re yboz3，Ce′ lineHudelot41 Univ ersite′P alaiseau-Saclay，CEA，LIST，F-91120，Palaiseau，France2LIGM，Ecole des Ponts，Uni v Gustav e Eif fel，CNRS，Marne-la-Valle′e，France3 Univ ersite′ Grenoble Alpes，CEA，LIST，F-38000 Grenoble，France4 Universite′P-Saclay，CentraleSupe′ lec，MICS，France{eva.feillet，gregoire.petit，adrian.popescu，marina.reyboz} @ cea.fr，celine. centralesupelec.fr摘要最近的类增量学习方法结合了深度神经架构和学习算法，以在内存和计算约束下处理流数据。现有方法的性能取决于增量过程的特性而变化。迄今为止，除了在学习过程开始时在可用的训练数据上测试所有学习算法和神经架构对以选择合适的算法架构组合之外，没有其他方法。为了解决这个问题，在本文中，我们引入了AdvisIL，这是一种将该推荐基于用户提供的设置和大量预先计算的实验之间的相似性。AdvisIL使类增量学习更容易，因为用户不需要运行一些繁琐的实验来设计他们的系统。我们在六个增量设置和三个深度模型大小下的四个数据集上评估了我们的方法。我们比较了六种算法和三种深度神经架构。结果表明，Ad- visIL具有更好的整体性能比任何单独的学习算法和神经网络结构的组合。AdvisIL//github.com/EvaJF/AdvisIL网站。1. 介绍人工智能的实际应用通常需要在计算能力和内存限制下处理数据流。这种情况通常出现在嵌入式系统和计算机视觉的实时应用中[10，16，24，38]，它们必须在有限的资源下处理新数据。持续学习解决了这一挑战，因为它旨在建立模型，可以随着时间的推移整合新的知识，同时保留以前获得的知识。在类增量学习（CIL）的上下文中，训练分类模型是一个顺序的过程，其中每个步骤包括将一组新类集成到模型中。这个过程在无范例设置（EFCIL）中特别具有挑战性，在该设置中，模型在没有访问过去类的示例的情况下更新。在处理CIL的作品中，许多[19，42，45，52，55，56，57]将知识扩展[18]适应于此任务，而其他作品则基于香草微调[4]或迁移学习方案[2，15]。CIL的一个主要挑战是它易受catastrophic遗忘[23，29]的影响，即学习算法在面对新信息时会突然忘记先前获得的信息。为了学习过去和新类的可靠神经表示，CIL算法必须在信息保留之间进行平衡。稳定性和信息获取，即可塑性然而，现有的比较研究[5，28，40]表明，当在不同的增量场景中测试CIL算法除了CIL算法本身之外，影响分类性能的主要因素是骨干神经网络的架构存储器预算、递增步骤的数量、初始步骤中的类的数量以及随后的递增步骤的大小。两种情况下的性能变化如图1所示。它表明，相同的CIL算法和骨干网络的组合是不一样的，从一个EFCIL方案到另一个。这种变异性在我们的实验中得到了因此，不像其他学习过程（即，经典的，很少拍摄.）对于评估基准的最新技术水平的研究为模型的选择提供了很好的指示，EFCIL需要更敏锐地这些意见提出了以下问题：2401图1：CIL算法和骨干网络的各种组合的分类性能百分比，平均超过五个参考数据集，每个数据集总共包含100个类，见第4.1小节。场景（a）的内存预算为1。5M参数，由20个步骤组成，每个步骤有5个类。场景（b）的内存预算为3。0M参数，由4个步骤组成，每个步骤有25个类。在这里，如紫色突出显示的那样，场景（a）最好由以下组合处理： DSLDA和ResNet的组合，而FeTrIL和ShuffleNet的组合更适合场景（b）。由于CIL算法和骨干网络的相同组合在不同场景中的排名不同，因此需要一种推荐方法来根据场景选择CIL算法和骨干网络的最佳组合请注意，3.2小节中给出的缩放启发式算法用于使神经网络适应每个内存预算。1. 由于选择最佳的CIL算法首先需要描述CIL场景，用户可以实际提供什么样的场景知识？2. 给定用户我们认为，对于（1），用户对他们的数据知之甚少基于这个假设，我们建议将选择问题（2）作为推荐问题来解决。我们开发了一种以用户为中心的方法，称为AdvisIL，该方法建议将无范例CIL算法和根据用户需求扩展的骨干网络相结合基于一组预先计算的EFCIL实验，AdvisIL提供了如下建议1. 用户指定他们的增量学习设置（内存预算、步骤数、初始类数和增量更新的大小），2. 选择具有最接近用户设置的设置的预先计算的实验3. 结果是EFCIL算法和骨干网络的组合因此，我们的推荐方法促进了CIL方法的使用，因为用户只提供了增量过程的基本信息。它避免了用户对每个CIL算法和骨干网络进行基准测试，从而节省了他们的时间和计算效率。AdvisIL通过评估协议进行评估，该协议使用四个测试数据集和十八个场景，使我们能够在各种实验环境中突出我们的建议的相关性为了允许社区使用和丰富AdvisIL，从而提高其推荐的质量，我们将分享该方法所基于的代码和预先计算的实验。2. 相关工作2.1. CIL算法已经提出了各种方法来逐步学习分类问题，同时避免灾难性遗忘（参见[5，9，28]的最近调查）。不同的方法可以分为两个家族，这取决于他们是否使用知识蒸馏或依赖于其他策略来减少遗忘。在我们的研究中，这两种类型的算法都被使用，总是不把过去的例子保存在内存。基于知识蒸馏的方法。Hinton [18]的开创性论文中介绍的知识蒸馏是一种将知识从大型“教师”模型转移到较小的“学生”模型中的在增量学习的情况下，它首先被用于名为“不遗忘的学习（LwF）”[25]的方法中，其中，在每个学习步骤中，神经网络的输出通过正则化被约束，以保持接近在受LwF的启发，iCaRL [42]依赖于一种称为排练或重播的策略，即保留过去类中有限数量的训练示例在iCaRL中，神经网络被用作特征提取器，作者用最近类均值分类器代替经典的全连接输出层[31]。iCaRL之后出现的大多数方法都通过修改与神经网络相关的损失函数来提高LwM方法[12]引入了注意力机制。BiC方法[54]试图通过添加一个新的层来纠正有利于最近类别的偏差，从而使分类有利于过去的类别。知识蒸馏应用于LUCIR [19]中的特征空间，或Pod- Net [13]中的神经模型权重。 LUCIR结合了余弦分类器框架[41]和类间可分性分量[44]。[52]这一点启发了SPB的作者，他们结合了一个欧几里德，2402D{}D···的损失函数和倒数自适应权重，以确保增量过程的稳定性和可塑性之间的良好平衡。其他办法。[3，4，15，39]的作者受到迁移学习[46]的启发，并在初始步骤后冻结特征提取器。DSLDA[15]采用线性判别分析[36]来递增地训练深度神经网络的输出层。DeeSIL [3]针对在同一学习步骤中观察到的其他类为每个新类训练SVM分类器。SIW [4]放弃了蒸馏成分，并使用香草精调来简化CIL过程。它存储为每个新类学习的初始分类器，并在随后的增量步骤中重用它们的规范化版本。最近的方法FeTrIL [39]结合了一个固定的特征提取器和一个伪特征生成器，基于对过去类的几何平移，以改善类间分离。2.2. CIL体系结构选择的相关性[28]的作者使用不同的骨干网络进行实验，以测试CIL算法。他们观察到，对于给定的算法，骨干网络的选择对分类精度有影响这突出表明了在训练CIL模型时需要考虑这两个方面在这方面的研究中，[32，33]最近的实验探索了网络架构对增量学习模型性能的影响。的作者[32]结果表明，增加神经网络的宽度可以减轻遗忘并提高模型的准确性。此外，他们观察到增加深度对模型的性能没有影响或产生负面影响。这些观察结果得到了[33]的证实，[33]研究了经典架构组件（如批量请注意，这两篇论文中报告的结果大多是用过参数化模型获得的，而没有使用CIL算法。对于经典的监督学习，已经开发了用于找到确保良好性能并遵守存储器预算的架构的方法，例如，神经架构搜索（ NAS ） [14 ， 47] ，修剪 [34] ，或为EfficientNets [48]提出的复合缩放。然而，这三种方法都不适合CIL。CIL方法的NAS [21，20]通常耗时且计算昂贵，因为它们探索了可能的网络架构的大空间，并且需要训练候选模型来评估架构。它们不适合于CIL中遇到的模型快速适应动态环境的实际情况在NAS的情况下，数据可用性的问题出现修剪。最后，复合缩放需要超参数的校准，在用户只能访问类的子集的情况下，这是一个昂贵且近似的过程这促使我们提出一种推荐方法，只需要几条信息，没有hyperparam- eter校准的用户。3. 该方法在本节中，我们首先描述CIL过程，并定义CIL实验的设置作为参考配置。然后，我们引入了一个启发式扩展现有的神经架构，使其适合给定的记忆萌芽。在本文中，任何CIL实验都涉及使用这种启发式扩展的最后，我们介绍了我们的推荐方法AdvisIL，它需要作为输入，把用户提供的增量学习设置，并为他们提供一个组合的EFCIL算法和骨干适应他们的需要。该建议基于与一组参考配置对应的预先计算的实验。3.1. 定义CIL过程CIL的目标是训练一个模型，该模型集成了流中到达的数据集的所有类。在不失一般性的情况下，我们假设过去类的例子不能被存储（无样本设置），并且模型依赖于卷积骨干网络b。我们考虑由k个非重叠步骤s1，s2，. . .，s k.步骤si包括从包含在数据集Di中的示例中学习。每个数据集Di与类的集合Pi相关联，使得Di中的每个学习示例使用属于Pi的类。组成完整数据集=D1D2Dk满足如下约束：对于i，j1，2，. . .，k，其中i=j，P iP j=。对应于初始步骤的 P1的类数记为α。遵循CIL [5，8]中的共同假设，集合P2，P3，. . . ，Pk，其对应于递增的步长s2，s3，. . . ，s k，具有相同的类数，我们将其记为β。对于我们的实验，我们将内存预算m表示为在最后步骤s k中允许骨干网络的最大参数数。因此，在推断时考虑该存储器约束时间，而不是训练时间。CIL场景是由存储器预算m、步骤数k、初始类数α和增量更新大小β组成的四元组（m，k，α，β）。它描述了用户可以提供的主要设置，以设计他们的增量学习系统。在本文中，增量分类模型的训练遵循场景（m，k，α，β），使用EFCIL算法a并依赖于骨干网络b，使得b的参数数量小于或等于m。所有这些参数形成一个配置。2403DDMDMM∪ ∪ · · ·∪BS一J{D D D}∈ A × Bk−1我ML′在我们的实验中，我们使用这种启发式，以适应现有的archi-定义2配置被定义为7-uplet（a，b，m，k，α，β），其包含：算法的名称a，骨干网络的名称b，完整的数据集，对应于存储器预算m的值，步骤的数量k，初始类的数量α和增量更新大小β。该模型的训练如下进行在第一步骤s1，在数据集D1上训练模型M1缩放试探法在于减小网络深度以最大化网络宽度。令L是卷积骨干网络b的架构，其中其存储器足迹mL在此对应于其参数的数量缩放启发式方法是：其中d∈]0，1]（resp.w∈R+）是一个深度（或宽度）co-包含了α类。对于接下来的每个步骤，应用相同的过程。对于i = 2，3，. . . ，k，在步骤s i，模型i首先从我们在前一步中获得的模型i-1中恢复权重。然后使用涉及β个新类的数据集Di的示例来训练它。最终模型的总体分类性能k称为平均增量精度，计算公式如下：K有效地应用于L，其允许获得骨架Ar-考虑内存约束的体系结构L′m个L′参数的骨干网L′是由L的层数均匀乘以d，卷积滤波器的个数均匀乘以w得到的.首先选择深度系数d，以便使网络尽可能浅，同时保持原始网络的结构。宽度系数然后选择w以最大化卷积的数量过滤器，同时考虑存储器预算约束，即，R=1（1）I=2哪里QI是的精度的的模型i在D1D2D i，在执行学习步骤s i 之后。让我们注意一下，本文中使用的每个数据集都细分为训练子集和测试子集，并且报告的结果总是在其测试子集上计算3.2. 扩展CIL在涉及内存预算m的任何实验中，我们希望获得一种配置（定义2），其中所使用的骨干网络的参数数量小于或等于m。为了满足这一要求，我们引入了一种扩展启发式算法，以使现有的卷积架构适应给定的内存预算m。我们采用的角度来看，用户有一个内存预算m，旨在逐步学习的分类模型。他们希望避免任何初步计算，因此他们选择了一个现有的骨干网络，但这并不一定适合他们的内存预算。我们提出的缩放启发式算法受到[32，48]的启发，其作者提出了以下问题：1. 深度架构是更深还是更宽更好？2. 难道，只有自己，才是最好的。#21453;，或者两者同时？我们进行了初步实验，在柔软的材料中描述，神经网络比[32，33]中提出的更小，并获得了类似的结果。对于给定的我们观察到，当我们减少一维网络时，当减少深度而不是宽度时，准确性得到更好的所以我们M≤m。架构到各种内存预算，不管初始架构是否已经在预算之内或超出预算。我们针对大量参考配置进行了大量实验，并使用启发式来扩展现有的卷积架构（第4.1节）。3.3. 推荐算法.主干组合图2：AdvisIL将一组预先计算的参考配置和用户场景作为输入，AdvisIL的工作流程如图2所示，并在下面进行解释。设为一组EFCIL算法，一组骨干网络，一组包含CIL场景的集合，其中每一个被表示为四元组（m，k，α，β）（定义1），并且=1，2，. . .，l是包含l个完整数据集的集合。我们生成一组参考配置（定义2）如下：C={（a，b，Di，m，k，α，β）|a∈A，b∈B，Di∈J，（m，k，α，β）∈S}.用户提供场景u=（m，k，α，β）。我们的目标是使用我们的参考配置集向用户推荐由算法a和骨干网络b组成的对（a，b）该过程包括2404∈ SJΣ∈ A ×BDDD ∈J∈ A ∈ BA × B--˜˜˜˜˜ ˜ ˜ ˜˜ ˜ ˜˜两步首先，选择与用户定义的场景最接近的参考场景。其次，推荐在所选参考场景下性能最好的算法-骨干对.步骤1.为了将用户的场景u与用于生成集合C的S中的sce- narios进行比较所有参数的过程都是相同的我们给它在存储器预算 M 的情况下。我们通过应用 m→mmax−m，其中mmax=4. 实验4.1. 生成参考配置我们描述了CIL算法，骨干网络，数据集和场景用于生成一组参考配置。EFCIL算法。在我们的实验中，我们使用第2节中给出的算法的代表性面板：[19]和FeTril。我们提醒LUCIR，SPB和SIW在每个增量步骤更新骨干网络，因此，max（maxm，m）和mm最大值−m最小值*本文件迟交。因为表征的可塑性。相比之下，Deesil，我1≤i≤nmin=最小值（min1≤i≤nmi，m）DSLDA和FeTrIL使用固定的表示法，m的归一化值由m表示。同样地，我们得到了k，α和β，它们分别是对应于步数k，初始类数α和增量步长β的归一化值。对于任何场景v=（m，k，α，β），我们通过以下方式测量它与用户场景u之间的距离d（u，v）=.（m-m<$）2+（k-k<$）2+（α-α<$）2+（β-β<$）2（3）W e表示v=（m，k，α，β），其距离用户的场景u最小。这一次-在下一步骤中将使用NarioV2.0来获得合适的算法和骨干网络对。步骤2.在这一步中，我们依赖于C中的参考配置，其场景是v。F或每个数据集我，我们根据所有对（a，b）在具有场景v的数据集上的分类性能来构建它们的排名。 F或i=1，2，. . . ，l，排序由具有以下顺序关系的偏序集合Ranki=（，）定义对于a，a′和b，b′，我们有：（a，b）<$（a′，b′）当且仅当r≥r′，（4）其中r和r′是使用C，re-k的参考配置（a，b，i，m，k，α，β）和（a′，b′，i，m，k，α，β）的实验的分类性能，并且使用等式1计算对于数据集Di的rank-ing Rank i，我们关联一个函数，该函数给出了其中一对（a，b）的位置。对于i = 1，2，. . . ，l，则该函数为：g i：A × B <$→ {1，2，. . . ，卡（A×B）}。最后，对于一对（a，b），我们可以通过以下方式聚合其在与l个数据集相关联的排名中的所有位置：Agg：A × B <$→{l，l +1，. . . ，l·卡（A × B）}L：（a，b）→gi（a，b）.（五）i=1提供给用户的推荐是具有由函数Agg计算的最低总体位置的算法和骨干网络对。这是第一步，有利于稳定。我们使用PyTorch实现所有算法[37]（有关实现细节，请参阅补充材料）。骨干网。在我们的实验中，我们用途：ResNet18[17]、MobileNetv2 [43]和ShuffleNetv2 [27]。ResNet18在CIL文献中被广泛使用MobileNetv2和ShuffleNetv2是专为高精度而设计的，同时考虑到嵌入式应用程序的计算效率。这些骨干网络使用公式2进行缩放以适应各种内存预算。参考配置的数据集。我们考虑从ImageNet [11]中采样的五个数据集，由INFood、INFauna、INFlora、INRand0和INRand1表示。前三个数据集是专题数据集，是通过对叶ImageNet类进行采样获得的，分别到“食物”、“动物”和“植物”子层级。另外两个数据集是通过从ImageNet中随机抽样类每个数据集包含100个类，每个类有340个图像用于训练，60个图像用于测试。每个采样类仅在一个数据集中使用。由于我们已经进行了许多实验来测试该方法，因此数据集的设计方式使总执行时间保持可控。CIL场景。内存预算m被定义为最终模型（这里包含100个类）的参数数量，取1。五米，三米，六米。所选预算反映了嵌入式设备的计算约束，CIL对此特别有用[16]。表1第一行概述了各种设想方案的其他参数在[42]之后，有一半的场景在所有状态中均匀划分了类。另一半在初始步骤中以更高数量的类开始，并在后续步骤中均匀分配剩余的类，如[19]中所提出的。通过这种方式，我们涵盖了文学中最常用的两种类型的sce- narios。这些设置允许我们形成一组1620个参考配置，其中每一个都是算法、骨干网络、数据集和这里呈现的场景的组合。对于每个参考配置，我们构建相应的神经网络并对其进行训练最后，我们测量了所得模型的分类性能。2405测试预算数据集m设置（k、α、β）偶数分裂（α=β）较大的初始步长（α > β）参考（4，25，25）（10，10，10）（20，5，5）（5，40，15）（7，40，10）（11，40，6）测试（5，20，20）（25，4，4）（50，2，2）（6，50，10）（11，50，5）（13，40，5）表1：用于评估AdvisIL的设置（k：步骤数，α：初始类数，β：增量更新大小）。4.2. 评估设置为了评估我们的推荐方法，我们将Ad- visIL应用于四个测试数据集和十八个场景。测试数据集我们在四个测试数据集上进行了实验，分别表示为INRand2，FOOD 100，INAT 100和LAND100。INRand2是通过对ImageNet的100个类进行随机抽样获得的[11]。其他三个测试数据集FOOD 100、INAT100和LAND 100包含100个采样类分别来自FOOD 101 [6]、iNaturalist [49]和Google Land-marks v1 [35]。这三个数据集是自动和细粒度的，因为它们分别被设计用于食物，自然概念和旅游兴趣点的图像分类。测试场景。内存预算与用于生成参考配置的内存预算相同。我们考虑跨步骤的类的六个新分布，其设置在表1的“测试”行中呈现使用与4.1小节中相同的算法和骨干网络。我们对算法、骨干网络、测试数据集和测试场景的每个组合进行了实验。这对应于1296个测试配置。4.3. 评价方案与参考配置的情况一样，在我们的评估中，模型性能以平均增量精度（公式1）衡量。我们评估AdvisIL提供的建议如下。给定一个测试数据集和一个测试场景，我们比较了根据以下公式训练的模型的平均精度：i) 建议的对（a，b）。使用此对构建的模型称为推荐模型。ii) Oracle对：AdvisIL的上限，它通过蛮力为每个测试配置选择性能最佳的算法和骨干网络对。它在实践中是不可用的，因为它假设从一开始就访问整个数据此外，它所需的大量计算在时间和计算能力方面是昂贵的。iii) 基线对，即三种固定组合： b1 ：（ Fe T rIL ，ResNet ）， b2 ：（ DSL DA， Shu ffleNet ）和 b3 ：（SPB，MobileNet），其对应的模型被称为基线模型。这些对是根据它们在参考数据集上的聚合排名选择的（Equa，第5项），即根据它们在所有参考实验中的准确性，它们具有最高的排名。在实践中，我们在表2中列出了这些基准模型和推荐模型之间的性能差距。这些间隙被表示为b1、b2和b3。4.4. 主要结果设置增量acc.增量acc.差异咨询OOOB1第2章3号线（50，2，2）24.42-1.49 1.01 0.81 9.72(25，4，4）35.07-0.630.30 4.35 13.44（5，20，20）55.74-0.650.97 3.16 7.46(13，40，5）62.56-0.73 2.33 0.06 12.17(11，50，5）64.40-1.26 2.02 0.22 9.98（6，50，10）64.12-1.561.12 0.55 6.641 .一、5M 45.94-1.460.37 2.76 6.963 .第三章。0M 51.85-0.792.32 0.52 10.27六、0M 54.86-0.921.18 1.30 12.47印度兰特252.02-0.731.20 1.71 12.51INAT 100 50.18-1.221.57 1.66 10.03食品100 28.03-1.391.99 0.34 5.22粤ICP备16016888号平均值50.88-1.041.29 1.52 9.90表2：根据AdvisIL的建议构建的模型在四个测试数据集和六个测试场景上的分类性能。结果按照用户定义的（k，α，β）、内存预算m或测试数据集进行分组。最后一行对应于所有测试配置的平均值。显示了Oracle对的分类性能与AdvisIL推荐的分类性能之间的差异（Oracle对）。类似地，示出了三个基线建议（RMB1、RMB2、RMB3）与Ad- visIL的建议之间的性能差距。在测试场景中建议性能。我们的结果见表2和表3。在表2中，我们比较了根据AdvisIL建议构建的模型的性能在表3中，对所有测试场景下根据Ad- visIL和基线建议构建的模型的性能进行了比较。平均而言，在所有四个测试数据集和十八个测试场景中，推荐的模型比最佳固定模型的性能高出1。29%（表2）。推荐模型的精度低于预言值，平均差距为1。04%。推荐模型的平均分类性能与Oracle模型的平均分类性能之间的差距在各种场景中都是稳定的，无论步骤的数量和步骤之间的类分布如何，也无论内存预算如何。它在测试数据集上也是稳定的因此，建议是相关的，无论sce- nario和数据集。每个场景的结果如表3所示，其中AdvisIL为18个测试场景中的15个推荐了最佳可用（a，b）组合。该perfor-CIL设置（k，α，β）2406组合（a、b）记忆预算MCIL设置（k，α，β）avg(50（第二章，第二节）(25（第四章，第四节）（5，20，20）(13（第40段，第5段）(11（第50段，第5段）（6、50、10）(SPB、MobileNet）（DSLDA，ShuffleNet）（FeTrIL，ResNet）AdvisIL1 .一、5M12.4612.7710.6219.8718.1227.7544.6045.4353.0048.8059.7258.2052.4661.8461.6055.7161.2462.3038.9843.1945.5845.9411.34(DS（Res）28.52(DS（Res）53.00(FT（Res）59.72(DS、舒）61.84(DS、舒）61.24(DS、舒）(SPB、MobileNet）（DSLDA，ShuffleNet）（FeTrIL，ResNet）AdvisIL3 .第三章。0m的13.7822.8122.0822.0935.1834.5848.5755.9355.4251.4763.7160.7055.1065.4761.8558.4564.8862.5041.5851.3349.5251.8524.37(DS（Res）34.69(DS（Res）57.05(DS、舒）63.71(DS、舒）65.47(DS、舒）65.81(DS、Mob）(SPB、MobileNet）（DSLDA，ShuffleNet）（FeTrIL，ResNet）AdvisIL六、0m的14.8632.2434.5522.9438.8642.0051.756.3855.8850.8964.0761.8055.6865.2163.6858.2564.5964.1842.3953.5653.6854.8634.55(FT（Res）42.00(FT（Res）57.18(FT、Mob）64.25(DS、Mob）65.89(DS、Mob）65.29(DS、Mob）表3：三种基准模型和推荐模型的分类性能性能是四个测试数据集的平均值。对于每个场景（m，k，α，β），最佳结果以粗体显示，并提供了AdvisIL推荐的算法（DSLDA（DS）或FeTrIL（FT））和骨干网（MobileNet（Mob），ResNet（Res）或Shufflenet（Shu）由AdvisIL获得的效率改进通过以下事实来解释：其推荐遵循在与参考配置相对应的实验中观察到的趋势这在图1中指出，其中可以看出，CIL算法和骨干网的相同组合在不同场景中的排名不同。在实践中，推荐的模型使用FeTrIL或DSLDA（表3）构建，这两种算法不使用蒸馏。推荐这些算法是因为它们通常是与我们的参考配置集相对应的实验中性能最好的算法（更多详细信息请参见附录）。我们的结果，在几种神经架构和小内存预算的情况下获得，证实了以前关于EFCIL中基于迁移学习的算法的竞争力的发现，这些发现在[5，28]的比较研究中报道。关于推荐的骨干网络，表3显示了根据内存预算使用不同的ResNet和ShuffleNet似乎是1的最佳选择。5M参数，ShuffleNet和MobileNet为3. 0 M参数，以及6. 0M参数。这突出了在AdvisIL中考虑不同骨干网络的相关性。4.5. 消融研究AdvisIL建议基于在几个参考数据集上的预先计算的实验的算法骨干组合。在下文中，我们研究了该方法的不同组成部分的单独贡献：骨干网络的选择、算法的选择和可用参考数据集的数量的选择。增量acc.(i)固定骨干网（ii）固定算法咨询黑社会徐树埃里斯电子邮件联系我们P.SPB50.88-3.93-1.19-0.97-0.45-0.42-9.74表4：AdvisIL及其变体的分类性能，其使用（i）在ResNet18 （ Res ）、 MobileNetv2 （ Mob ）和ShuffleNetv2（Shu）中采用的单个可能的骨干网络，以及（ii）单个可能的算法，FeTrIL（FT）、DSDLA（DS）或SPB。所有测试场景和测试数据集的平均结果。使用单一主干网络。我们在表4的左侧部分当参考配置集减少到考虑单一类型的骨干网络时，每列对应于根据AdvisIL建议训练的模型结果表明，当我们使用多个骨干网络时，AdvisIL使用单个CIL算法。类似地，我们在表4的右侧部分中呈现了当仅单个算法可用时获得的结果每列对应于当参考配置集减少到考虑单个算法和多个骨干网络时，使用AdvisIL建议获得的平均分类性能当我们将配置集减少到DSLDA或FeTrIL时，性能下降相当低，因为这两种算法具有相似的性能，并且往往比其他测试的算法表现得更好，因此它们经常被AdvisIL推荐。相反，当只使用SPB时，性能第三好的算法，性能显着下降。使用更少的参考数据集。顾问2407通过对参考数据集上的候选算法-主干对的分类性能进行排序来计算数据。在这里，我们衡量使用较少的参考数据集如何影响建议的相关性表5中列出了仅使用5个参考数据集中的1个（样本 #1 ）、2个（样本#2）、3个（样本#3）和4个（样本#4）获得的结果它们在参考数据集的所有可能组合上进行平均。使用较少的参考数据集会损害推荐相关性，最多1。当仅使用一个参考数据集时，平均分类性能损失88%有趣的是，当只使用两个参考数据集时，AdvisIL已经超过了表2中列出的基线。当参考数据集的数量增加时，消融的影响逐渐消失，当使用其中四个时，消融的影响变得可以忽略不计增量acc.参考数据集咨询第1章第2章第三章第四章50.88-1.88-0.71-0.39-0.09表5：AdvisIL及其使用较少数量的参考数据集的变体的分类性能。结果在所有可能的参考数据集组合和所有测试场景上进行平均。总的来说，表4的结果表明，算法的选择和骨干网络的选择都有助于AdvisIL建议的相关性表5的结果表明，AdvisIL需要很少的参考数据集来提供相关建议。补充材料中提供了更多消融结果。5. 讨论和结论在本文中，我们介绍了一种名为AdvisIL的推荐方法，它有助于为用户定义的增量学习场景选择合适AdvisIL几乎不需要来自用户的信息，并且通过利用在来自一组参考配置的预先计算的实验上观察到的趋势来提供建议。我们的评估表明，AdvisIL是有效的，因为它经常提供相关的建议是相关的，因为它们是通过选择参考实验的场景接近用户的场景。平均而言，所产生的模型至少优于1。29%的模型没有根据用户的场景定制推荐除了性能增益，AdvisIL避免了用户执行繁琐的初步计算，以设计他们的增量学习应用程序。在下文中，我们将讨论如何改进AdvisIL，并给出一些观点。参考配置集可以通过最新算法[50，55，56，55]、其他骨干网络（如SqueezeNet [22]、MobileVit [30]或EfficientNet [48]以及更多场景可以进一步增加Ad-visIL在现实应用中的相关性[16]。我们设计AdvisIL是为了促进新组件和贡献的集成。完整的代码、使用的原始数据和参考配置集将被发布，以促进社区的采用还将开发与Avalanche[26]的绑定，以便轻松整合其他研究人员对其改进的贡献。在本文中，我们针对一组参考配置进行了大量的实验，以精确地测试CIL算法和骨干网络的所有可能组合。这就需要做相应的计算工作。我们可以更有效地生成参考配置，从超参数搜索方法中获得灵感，例如。[53]。关于推荐过程，我们可以考虑用户从实际的角度来看，我们注意到这种相似性只能使用用户的第一批我们专注于记忆约束，并将其表示为神经网络的参数数量。也可以考虑其他约束，例如训练复杂度（每个增量步骤的最大计算次数）和推理时间。关于使用CIL算法的训练，我们注意到与一些基于转移的方法[2，15]相比，基于微调的方法[4，19，52]具有显著更高的计算要求。基于微调的方法在每个增量状态中重新训练完整模型，而基于转移的方法仅重新训练分类层。在基于微调的方法中，其中一些[19，52]依赖于知识蒸馏，这需要保留两个模型，即正在训练的模型的当前版本和用于在此步骤约束训练的模型的先前版本。关于推理时间约束，给定模型大小，推理时间取决于深度架构的结构如果我们通过考虑训练和推理时间来扩展我们的训练方法，则可以根据[16]中引入的NetScore [51]的修改变体来选择推荐的CIL算法和骨干网络对。这个分数混合了准确性，参数总数和运行实验所需的秒数。鸣谢。这项工作得到了欧盟委员会在欧洲地平线2020计划下的支持，资助号为951911 -AI 4 Media。这是通过使用FactoryIA超级计算机实现的，该超级计算机由Ile-de-France Regional Council提供资金支持。2408引用[1] Alessandro Raville ， Michael Lam ， Rahul Tewari ， AvinashRavichan-dran，Subhransu Maji，Charless C Fowlkes，StefanoSoatto，and Pietro Perona.Task2vec：元学习的任务嵌入。在IEEE/CVF计算机视觉国际会议论文集，第6430-6439页[2] Eden Belouadah和Adrian Popescu Deesil：深度-浅层的增量学习。TaskCV研讨会@ ECCV 2018。，2018年。[3] Eden Belouadah和Adrian Popescu Deesil：深度-浅层的增量学习。在欧洲计算机视觉会议（ECCV）研讨会论文集，第0-0页[4] Eden Belouadah，Adrian Popescu，and Ioannis Kanellos.无记忆类增量学习的初始英国机器视觉会议（BMVC），2020年。[5] Eden Belouadah，Adrian Popescu，and Ioannis Kanellos.视觉任务类增量学习算法的综合研究。神经网络，135：38[6] Lukas Bossard 、 Matthieu Guillaumin 和 Luc Van Gool 。 Food-1012014年欧洲计算机视觉会议[7] Alfredo Canziani、Adam Paszke和Eugenio Culurciello。深度神经网络模型的实际应用分析。arXiv预印本arXiv：1605.07678，2016年。[8] 弗朗西斯科·M 曼努埃尔？卡斯特罗马琳-吉梅内兹，尼科·拉的吉尔，科迪莉亚·施密德，还有卡提克·阿拉哈里。端到端增量学习。在计算机视觉- ECCV 2018 -第15届欧洲会议，慕尼黑，德国，2018年9月8日至14日，会议记录，第十二部分，第241-257页[9] Matthias De Lange ， Rahaf Aljundi ， Marc Masana ， SarahParisot ， Xu Jia ， Ales Escherichia Leonardis ， GregorySlabaugh，and Tinne Tuytelaars.持续学习调查：在分类任务中挑战遗忘。IEEE transactions on pattern analysis and machineintelligence，44（7）：3366[10] 乔治·德莫斯特努斯和瓦西利斯·瓦西里亚德。使用tensorflowlite在边缘不断arXiv预印本arXiv：2105.01946，2021。[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，andFei-Fei Li. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机协会计算机视觉和模式识别会议（CVPR 2009），2009年6月20-25日，美国佛罗里达州迈阿密，第248-255页[12] Prithviraj Dhar，Rajat Vikram Singh，Kuan-Chuan Peng，Ziya

下载后可阅读完整内容，剩余1页未读，立即下载