基于微调和双记忆的增量学习方法在图像识别中的负面影响探究

187 浏览量更新于2023-10-12 收藏 784KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

583IL2M：双记忆EdenBelouadahCEA，LIST，F-91191 Gif-sur-Yvette，Franceeden. cea.frAdrianPopescuCEA，LIST，F-91191 Gif-sur-Yvette，Franceadrian. cea.fr摘要本文提出了一种类增量学习（IL）方法，该方法利用微调和双重记忆来减少灾难性遗忘在图像识别中的负面影响。首先，我们简化了目前的微调为基础的方法，使用分类和蒸馏损失的组合，以弥补过去的数据的有限的可用性我们发现，当允许内存时，蒸馏项实际上会然后，我们修改了通常的IL类内存组件。类似于现有的作品，第一个存储器存储过去类的范例图像。这里引入第二个存储器来存储最初学习时获得的过去类统计数据。这里的直觉是，当所有的数据都可用时，类的建模效果最好，并且它们的初始统计数据在不同的增量状态下都是有用的。对新学习的类的预测偏差出现在推理过程中，因为数据集不平衡。挑战在于使新的和过去的类的预测更具有可比性。为了做到这一点，过去的类的分数通过利用来自两个记忆的内容来校正。该方法具有可忽略不计的附加成本，无论是在内存和推理的复杂性。三个大型公共数据集的实验表明，该方法比一系列有竞争力的最先进的方法更有效。1. 介绍增量学习（IL）是人工智能体从顺序呈现给它们的数据中学习的能力我们的重点是IL类，它假设数据是标记的。如果有足够的计算能力和存储空间，并且允许模型更新有长时间的延迟，那么这个问题是微不足道的这些条件在实际应用中通常不满足，并且IL类变得难以求解。在机器人、移动应用程序和军事应用等背景下，这种情况就是如此，在这些背景下，视觉识别能力需要在不访问大型基础设施的情况下增加[21]。最近的类IL方法利用深度神经网络（DNN），其在许多AI中获得非常好的性能。包括图像识别[10]。基于DNN的IL方法面临的主要问题是灾难性的获取[18]，即它们无法在不忘记先前学习的知识的情况下整合新数据。同时最小化计算、存储和时间要求是不可行的，现有方法在这些条件中的一个或两个上进行了折衷。一系列研究[1，17，27，29]假设深度架构可以在一定程度上增长，以便集成新数据。在这个假设下，不需要对过去的记忆。另一个研究趋势[5，8，12，24]认为DNN架构应该是固定的。他们通过添加蒸馏损失来调整DNN微调过程，并使用过去的有限记忆来限制灾难性遗忘。我们的方法，双记忆增量学习（IL2M）总结在图1中.其示例包括初始状态和两个增量状态。IL2M使用固定的DNN架构和过去的有界记忆。我们的主要贡献是提出了第二类存储在一个非常紧凑的格式的初始类统计。这种记忆的引入是基于这样一种直觉，即当第一次学习时，所有数据都可用时，类是最好的模型初始类统计数据在每个后续增量状态中被重用，以纠正过去类的预测校正是必要的，因为类IL模型是用不平衡的数据集训练的，其中过去的类具有较少的示例。因此，它们的预测分数通常低于新类别的预测分数。第二个贡献是实际的性质，并包括在使用香草微调类IL的基础。这种使用挑战了通常的假设，即蒸馏损失项在具有记忆的IL中是必要的[5，8，12，24]。我们表明，如果每个过去的类至少有几个样本，蒸馏损失实际上会损害性能和香草微调提供显着更好的性能。评估是根据强基线及其基于香草微调的适应性进行三个大的pub-lic数据集具有不同的内存大小和IL状态的数量。结果表明，IL2M在大多数测试条件下获得了最先进的结果。584SKK...状态0状态1状态2时间图1：拟议的IL2M培训流程示意图. 与三个状态相关联的深度模型分别识别2、4和6个类。有界存储器包括过去类的K=4个图像样本，并且被表示为浅蓝色背景。当添加新类以保持内存需求恒定时，存储在内存中的类样本类的数量减少。IL训练过程越来越容易发生灾难性遗忘，因为数据集越来越不平衡。用浅粉色表示的第二存储器S存储在最初学习类时获得的统计数据。IL2M使这些类统计数据可用于不同的增量状态，以纠正过去类的原始预测分数，以便使它们与新类的预测分数更具可比性（最好用颜色看。）2. 相关工作针对IL类提出了不同的方法我们将它们分为三类，列出它们的优点和局限性。第一类算法集中于调整深度模型的参数以适应新的类。 Growing a Brain [29]建议拓宽一部分层或/和增加网络深度。深度适应网络[25]是微调的替代方案，以使模型适应新任务。每个新任务需要大约13%的辅助参数。虽然对于一个任务来说是可管理的，但对于大量增量来说，这个数量变得很重要。渐进式神经网络[27]为初始任务训练了几个模型，并在添加新任务时利用它们来保留旧知识。通过在所有模型之间使用横向连接来显著地进行在[1]中引入了一个专家网络委员会来处理学习到的不同任务。最适应的专家通过利用训练样本的门控机制来选择。[23]的作者介绍了神经网络的通用一个关键的发现是，成功的适应需要浅层和深层适应PackNet[17]是一种非常互操作的方法，通过迭代修剪先前任务的冗余参数来适应新任务参数的数量增长缓慢，但只有有限数量的新任务可以包括合理的性能损失。此外，推理更长，因为它不能同时应用于所有训练任务。P iggyback[16]结合PackNet和网络量化工作提出了单独权重的掩码。因此，它利用单个基础网络学习大量任务虽然相当轻，但每个任务都需要特定的掩码，并且在添加新任务时参数的数量会增加。在这组方法很好地应付新的数据，不依赖于过去的记忆，可以集成新的任务，如果模型参数的数量允许增长。然而，它们往往不能很好地扩展，这要么是因为每次都需要添加新的参数，要么是因为可以包括有限数量的任务。第二类算法保持DNN参数的数量恒定，并存储过去数据的一部分以限制灾难性遗忘。这里，类IL问题类似于不平衡学习问题[9]。挑战是确保过去类和新类的性能相似，因为过去类的图像数量可能比新类的图像数量低几个数量级[3]。通常应用自适应微调来增量地更新一种改进的损失函数，在分类函数旁边加入蒸馏分量被广泛使用[5，8，12，24]。这些方法受到了无遗忘学习（LwF）[15]的启发，这是利用知识蒸馏[11]作为灾难性遗忘的解毒剂的早期尝试。蒸馏损失减少了初始网络和更新网络中过去类的激活之间的差异LwF具有不需要记忆旧任务的特殊性，这是IL的一个重要优势。然而，它的性能是较低的方法相比，利用一个有界的神经网络。iCaRL[24]是该类中有影响力的算法。它建立在LwF的分类和蒸馏损失的组合上，并添加了有界存储器，以及一个585PN（P我我我N最近样本均值（Nearest-Exemplars-Mean，NEM）分类器NEM受到最近类均值的启发[19]，它解决了类不平衡。iCaRL在Imagenet LSVRC数据集上进行了测试，其表现优于几个基线，包括LwF和固定表示。[12]的作者提出了对iCaRL的详细分析，并表明其最重要的组成部分是有界记忆。用动态阈值移动法代替NEM分类法，取得了一定的改进.在[6]中引入了一种端到端IL（EtEIL）算法，该算法还利用了组合损失。主要的创新来自：（1）每个增量状态的蒸馏项的建议，以及（2）利用消除类别不平衡的平衡微调完成的分类步骤。结果，对于ILSVRC，报告了与iCaRL相比的7分改善。我们注意到，虽然在不同的深度学习框架中实现并具有不同的公式，但来自[5，12，24]的基于蒸馏的在[8]中探索了GAN的使用，作为存储过去类的原始图像的替代方案。虽然在概念上很有趣，但生成的样本的质量还不足以让它们有效地取代真实图像。[8]的结果表明，与单独使用真实图像相比，只有两种类型图像的组合才能提供轻微的性能改善如果模型复杂度需要在增量状态之间保持恒定，则使用自适应微调是适当的解决方案。这是嵌入式系统的情况，其具有有限的计算能力，并且需要不断适应其环境[13，21]。然而，对过去数据的部分访问是这类方法良好工作的必要条件在数据隐私至关重要的医疗数据等情况下，无法满足此条件[28]。第三，不太频繁，一类算法利用初始固定表示作为IL的特征提取器。FearNet[13]是一种生物启发的方法。Sep- arate网络用于长期和短期记忆，以代表过去和新的类。实现了一种决策机制，以决定每个测试示例应使用哪个网络虽然FearNet的性能优于iCaRL，但它的内存会随着时间的推移而显著增加，因为算法需要为每个学习的类存储详细的统计数据DeeSIL[2]是IL类上有界的简单取.在初始状态中学习固定表示，然后将其重新用作所有增量状态的特征提取器。对于每个新类，浅层分类器都是独立学习的。这种方法是迁移学习方案的直接应用[14，22]。尽管它很简单，但它比iCaRL提供了14和7个点的性能增益[24][25][26][27][28][29]FearNet和DeeSIL的性能很有意思，但严重依赖于其初始固定表示的质量如果它是用少量的类学习的，或者如果新如果类与初始类非常不同，则特征提取器的泛化能力可能较低。3. IL类问题公式化IL类问题在[5，8，24]中进行了描述，我们在这里提出了一个适应。一个数据集XP为{X1，X2，...， Xp}由P个不同的类组成，例如Xi={x1，x2，...， xni}是第i类的ni个标记的e个示例的集合。在DNN 中，模型M 由特征提取器F ：Xi→Rd组成，其中d是特征向量的大小，然后是分类器C：Rd→P。类别Ci的预测得分记为p（Ci），并且是DNN分类层的原始输出（没有softmax）。IL类问题定义如下：给定在X P上训练的模型M P，目标是使用M P来训练更新的模型M N，其基于数据集X N识别N个类别。对X P的访问部分地由有界存储器K提供，并且M N和M P的参数的数量相同。每组N-P个新类形成一个增量批，N个类形成一个增量状态。亏损对IL类的适应被广泛用于从MP移动到MN[5，8，12，24]。它可以写成L=Lc+Ld，其中Lc和Ld分别是经典的交叉熵和蒸馏Ld是为了减少灾难性的遗忘。M可以以端到端的方式建模，以将F和C组合在单个深度架构中[5]。这两种组分也可以分离。例如，[24]使用在每个增量步骤重新训练的深度架构F来提取特征，并使用最近均值样本来实现C。或者，[2]利用固定的深度表示来提取所有增量状态的特征，并使用一组独立训练的SVM来实现C。有界记忆K提供了对过去训练数据的部分访问，减少了灾难性遗忘的影响。由于存储器的大小在增量状态中是恒定的，因此当添加更多类时，过去类的训练集会逐渐减少假设在存储器中过去类的平衡表示，当从P个类递增到N个类时，每个类将具有K个图像，并且K用于以下递增状态。我们记Z为状态的总数，包括第一个非递增状态.4. 该方法我们专注于一个类IL的情况下，DNN模型的复杂性是恒定的，并允许过去的有界记忆自适应微调方法[5，8，12，24]更新每个增量状态的模型M。然而，由于有限的存储器和不平衡，只有一小部分过去的数据可以被使用，因为更多的类被学习<。基于固定表示的方法[2，13]，例如586我图2：ILSVRC数据集[26]的预测得分，Z=10个状态，记忆K={20000，10000，5000}样本。我们为训练图像选择真实类的分数，然后对过去和新类进行平均表示从1到9的递增状态。初始状态（0）不包括过去的类，因此不表示。（最好用颜色看。）利用所有可用的数据，但它们的模型在初始非增量状态之后被冻结。因此，它们在很大程度上取决于这种初始表示的质量。我们介绍了双记忆增量学习（IL2M），并在图1中进行了说明.本发明的目的以部分地调和基于微调和固定表示的方法。IL2M使用香草精调，在每个子图中，由于要适应有界内存的类的数量不断增加，例如，状态1、5和9的差值分别为2.26、4.16和4.67， K=10000个样本。为了弥补对新课程的偏见，我们建议-使过去类C i（i=1，. ..，P）使用：骨干网为每个增量更新深度模型Mp（C）×µ（Ci）×µ（MN），如果p red=new谈话状态，如在微调方法中所提出类似pr（C）=iµN（Ci）µ（MP）对于固定的表示方法，IL2M利用与类相关的知识，p（Ci），否则（一）在增量状态下学习由于深度模型上升-初始类模型不能在以后的状态中完全重用。相反，IL2M利用过去的类统计数据从他们的初始状态，以纠正他们的预测分数在当前的增量状态。这一修正得到了两个相关假设的支持：（1）当所有的数据都可用时，类被最好地建模，以及（2）当更多的训练数据可用时，类预测分数平均更高。我们在图2中说明了这些假设的有效性。它绘制了Z=10个状态和内存大小K={20000，10000，5000}的ILSVRC数据集的过去和新类的平均预测。图2中的分数证实了vanilla微调会产生有利于新类的预测偏差。这种偏见主要是由于在IL类中出现的新类的不平衡。因此，很大一部分来自过去类的图像被预测为属于新类（参见补充材料，了解错误类型的详细分析）。三个子图的比较显示，记忆容量越低，过去班级与新班级的成绩差距越当K={20000，10000，5000}时，所有增量状态的平均差异分别为2.42，4.02和6.45。这是直观的，因为过去和新类之间的不平衡对于较低的记忆来说更高。差距也倾向于从左边其中：P-学习C i的初始状态;N-当前增量状态; p（C i）-状态N下Ci的原始预测; µ P（C i）和µ N（Ci）-分别从所有训练数据和当前样本集获得的状态P和N下C i的平均分类得分; µ（M N）和µ（M P）-由所有新训练数据的平均预测得分给出的状态N和P下的模型置信度。由方程式1，仅当图像最初被预测为属于新类别时，才将校正应用于过去的类别预测这种情况是最危险的不平衡驱动的错误，有利于新的类。否则，我们认为校正是不必要的，因为过去的类是直接预测的，并且对新类没有预测偏差。在第5.4小节的消融研究中研究了校正限制对最初与新类别相关的过去图像的影响。由于类最初是在不同的增量状态下学习的，因此需要满足以下条件以使所提出的校正在类IL中有用：1. 范围{1，P}中的类的得分pr（）和p（）从{P+1，N}应具有可比性;2. - 存储在统计存储器S中的统计数据应该非常紧凑，以便仅少量地增加存储器需求;5873. 应该引入模型级归一化以限制组合在不同增量状态中学习的模型的输出的影响。第一个条件是通过在第一项中使用类相关统计来处理的，这修改了等式中的p（）1.一、更具体地说，我们使用类Ci在其初始和当前状态P和N中的平均值。这里的直觉（图2支持）是，由于类是在新的时候使用状态为P的所有训练图像首次学习的，因此其平均预测得分μP（Ci）可能高于μN（Ci）。因此，与 p （ Ci ）相比，方程的该项通常增加 pr（Ci）。上面列出的第二个条件与统计记忆S的引入有关，这使得IL2M整流成为可能。S包括每个类的浮点值，用于存储µP（Ci），因此所需的内存可以忽略不计。至于模型级知识，每个增量状态仅需要一个浮点数来存储μ（M）。第三个条件是必要的，因为新类的平均分数在组合的不同增量状态中不相等。这在图 2 中是清楚的，其中，例如，对于K=10000，状态8的新类平均分数高于状态7的那些。Eq的最后一项1提供了在IL2M中组合的不同状态之间的分数校正的全局协调。辅助算术运算的复杂性-从Eq。与深度神经网络架构的整体复杂度相比，1是非常低的。对于每一个班级的成绩调整，需要一个除法和一个乘法来引入第二项。第三项中的除法只能在当前增量状态的训练准备就绪时计算。因此，该项通过简单的乘法积分。对于过去的1000个类，IL2M增加了1000个除法和2000个乘法.这与在典型DNN架构中完成的数千万到数亿个多应用进行比较这里介绍的校正是iCaRL[24]的NEM分类和[5]的端到端学习的平衡微调步骤的替代方案。这三种方法将在下一节中进行比较。5. 实验5.1. 基线方法IL2M是为具有有限内存的IL而设计的，并与解决以下问题的强方法进行了比较：• iCaRL- 这里重用了[24]中的公共实现。它包括用于表示学习的分类（Lc）和蒸馏（Ld）损失的微调，然后是用于分类的最近样本平均值（NEM）分量。当没有可用的分类时， iCaRL 等同于LwF.MC，在[24]中也介绍了将《学而不忘》适用于• DeeSIL-基于固定表示的算法[2]在没有外部数据的情况下实现，以确保兼容性。每个类都是以其所有的训练图像作为阳性来学习的。负集包括来自同一增量批次的其他类的所有训练图像和存储在存储器中的过去类的样本对第一批应用最佳正则化参数的网格搜索，然后冻结参数。• FT-仅具有分类损失（Lc）的微调构成了IL2M和下文所述的两个强基线每个增量状态使用在前一个状态中学习的模型来初始化训练过程。训练是用过去类的样本和新类的所有可用图像完成的在文献[5]中，羊群效应具有边际效应，我们对样本进行了简单的随机选择.• FTNEM-FT的一个版本，它使用[24]中的最近样本均值分类器，而不是深度网络的分类层。 FTNEM是 iCaRL的修改版本，其中蒸馏损失Ld被消除。• FTBAL-FT的一个版本，其中在[5]之后的初始不平衡香草FT之后进行平衡微调以进行分类。FTBAL是EtEIL的改良版本[5]，其中我们再次消融Ld。平衡步骤从不平衡FT的最新学习率开始。请注意，原始EtEIL[5]没有完全评估，因为唯一可用的实现使用基于非自由Matlab的MathConvNet然而，EtEIL和FTBAL用于ILSVRC的前5名准确度比较明显有利于后一种方法（69.4 vs. 77.52）。此外，我们提供完整的，非增量学习培训与所有可用的数据。这是IL类算法的性能上限。5.2. 数据集和方法我们在为以下视觉识别任务设计的三个数据集上评估所有方法：（1）ILSVRC 中的对象[26]，（2）VGGFace2中的面孔[4]和（3）Google Landmarks中的旅游地标[20]（下面的地标）。数据集总结见表1。在VGGFace2 [4]和Landmarks [20]中，我们保留了包含最多示例的1，000个类。对于ILSVRC，我们使用[5，24]中的训练集和测试集来增强可比性。VGGFace2和地标不588数据集#火车#评估#类[26]第二十六话1,231,16750,0001,000VGGFace2 [4]491,74650,0001,000机场班车[20]374,36720,0001,000表1：评价中使用的数据集总结。有IL的标准测试集。我们分别随机选择50，000和20，000张图像进行测试，在类别之间进行均衡分布（更多详细信息请参见补充材料）。请注意，由于增量学习的顺序性质，模型训练是相当昂贵的。因此，通常的评估协议包括两个[5，8，12，24]或三个[13]数据集，这些数据集通常小于此处使用的数据集。存储器K和状态数Z被证明是这里测试的IL类算法的最重要的参数[5，12]。我们固定每个参数并改变其他参数，如下所示：（1）对于Z=10，我们测试 K={20000 ，10000 ， 5000 ， 0};（ 2 ）对于 K=5000，我们测试Z={5，10，20}。18.《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”，13.14冉子退朝。我们在这里使用标准Pytorch版本重用它，该版本基本上遵循[10]中的原始实现。补充材料提供了培训过程的进一步细节。所有方法都使用top-1准确度进行评估，这是一个非常适合每个图像只有一个标签时的指标图3中K=10000和Z=10的三个数据集的详细结果证实了上述发现。IL2M在大多数IL状态下具有最佳性能。有趣的是，我们的方法为以后的增量状态提供了良好的结果。这对于ILSVRC来说是很清楚的，其中IL2M在状态7至9中具有与FTNEM和DeeSIL相似的性能，并且在更早的状态中优于它们。iCaRL性能和这里介绍的所有 FT 方法之间的差距总体上很大，并且在VGGFace2和地标的后期状态中明显增加。这一发现表明，香草FT是一个更好的基础IL时，类的数量很大。虽然我们的重点是类IL与内存，我们也提出了结果没有内存（K=0）。在这里，蒸馏显然具有积极的效果，并且优于微调，从而证实了[24]的结果。所有衍生因为所有的分数校正方法都依赖于样本，所以来自FT的分数校正方法具有相同的性能。当 K= 0 时，DeeSIL[2]是最好的方法，因为它对内存的依赖性很低。除了20个州外，它的性能比iCaRL好一个结果。这一结果与[24]的结论不一致，其中作者发现他们的固定表示不如iCaRL有效。这种差异可以通过以下事实来解释：[24]中过去类的固定表示仅通过当前状态的exemplars来学习。这种限制是不必要的，因为表示是固定的，并且每个类可以在第一次看到时学习，而不会占用内存就像这里的情况一样这个指标比在流行的ImageNet挑战中引入后经常使用的前5名准确度更能说明实际性能[26]。然而，为了便于与文献[5、12、24]中列出的IL级结果进行比较，我们还在补充材料中提供了前5个结果。5.3. 结果讨论表2中测试的方法的比较表明，IL2M在具有存储器（K >0）的大部分配置中具有最佳性能。我们的方法优于以前的算法（iCaRL[24]和DeeSIL[2]），FT是香草微调基线及其变体FTNEM和FTBAL，它们使用[5]和[24]的分类组件。因此，在已公布的基线中，对于 Z=10 和K={20000，10000}，FT优于iCaRL 对于K=5000，对于Z={5，20}状态更好，对于Z=10状态的ILSVRC稍微落后。当然，iCaRL在不允许记忆的情况下更好，并且消除可以减少灾难性的遗忘。 FT 与DeeSIL[2]的比较也有利于K >0的所有设置，除了Z= 5和Z=10且K={5000，10000}的ILSVRC。需求，然后在IL状态之间重用。当与上限非增量学习Full相比时，在所有配置下，通过全增量方法获得的结果都较低。这尤其是ILSVRC的情况，ILSVRC是三个测试任务中最难的任务，其中对于Z=10个状态和K=20000，间隙达到16.6个前1精度点。当然，当内存减少时，所有数据集的这个差距都会增加。这一发现证实了[5，24]的结论，即如果IL类在计算和代数约束下运行，则它仍然是一个难题。5.3.1分数修正IL2M、FTNEM和FTBAL都使用具有内存的普通FT作为IL骨干.这三种方法在获得最终分类分数的方式上有所不同。FTNEM使用NEM方法作为外部分类器。FTBAL分类器为分类添加了一个平衡的微调步骤[5]。IL2M特别利用了统计记忆的内容来修正分数.表2中的结果表明，我们的方法在几乎所有测试配置中的性能都优于FTNEM和FTBAL同样重要的是，IL2M适用于所有内存大小，而FTNEM中的NEM并非如此，这实际上会损害三个测试中Landmarks的FT589国Z=10K= 5000数据集ILSVRCVGGFace2地标ILSVRCVGGFace2地标K20K10K5K0k20K10K5K0k20K10K5K0kZ=5Z=20Z=5Z=20Z=5Z=20iCaRL35.133.632.920.866.865.364.426.168.966.965.627.032.729.674.149.573.852.6DeeSIL47.347.247.046.581.581.380.980.082.882.682.481.250.928.489.369.388.374.9FTFTNEMFTBAL51.154.952.142.349.147.032.242.837.218.318.318.391.191.191.587.687.688.682.084.282.120.820.820.893.291.193.290.188.590.284.784.785.721.021.021.035.444.144.736.846.241.685.787.487.783.385.783.985.483.488.284.184.484.8IL2M56.450.844.118.392.089.786.520.893.490.886.921.044.942.090.185.788.585.0充分73.097.097.173.097.097.1表2：检测的不同方法的前1平均准确度（%）为了测试鲁棒性，可用内存（以千个样本为单位）和状态数在表的左侧和右侧是不同的。每次，另一个参数都是固定的。在[5]之后，仅对增量状态（即，不包括初始的非递增状态）。Full是使用所有类的所有可用数据获得的非增量上限性能。最佳结果以粗体显示。图3：在记忆K=10000和Z=10状态下，物体、人脸和地标识别的前1精度。为了与来自表2的结果一致，仅表示增量状态（最好用颜色看。）配置. FTBAL中的平衡微调也提高了所有内存大小的性能，但程度低于IL2M。由于内存较低，FTBAL比IL2M和FTNEM更容易发生灾难性遗忘，因为在平衡过程中需要丢弃更大范围的数据。值得注意的是，当样例记忆较低时，分数校正的有用性会增加，因此过去和新班级之间的不平衡性会更高。例如，当Z=10时，IL2M对K=20000和K=5000样本的ILSVRC分别获得5.3和11.9个top-1准确点.5.3.2蒸馏效果表2和图3的结果表明，如果允许每个过去的类别至少有几个示例，则在IL类中使用蒸馏损失是有害的。消融iCaRL中的Ld以获得FTNEM对于所有数据集和存储器大小K={20000，10000，5000}和Z=10是有益的。这里给出的结果与[24]关于具有记忆的IL类中香草微调的低性能的结论不一致。这一结论是基于iCaRL和FT的偏倚比较，因为第一种方法使用了样例记忆，而第二种方法没有。自然地，当不允许记忆时，蒸馏是有用的，它最初设计的设置[15]，增量状态123456789杂交体1c（p）107512171442144614351535148315051591e（p，p）60020533756509174069074105801179414156e（p，n）332567309802134631615919391229372670129253c（n）356237393558360336733750358437623641e（n，n）1020839965910793791903792810e（n，p）418422477487534459513446549FTc（p）262143275730670276007980857691698746e（p，p）1946901360220330354016446261005514e（p，n）218549837910110951436518004219622473130740c（n）413943144145415542514319423643764267e（n，n）779608771762692619694560667e（n，p）827884835762706466表3：使用Z=10和K=10000的混合物1FT的Top-1分析，其中蒸馏用作iCaRL[25]和香草FT的骨架。c（·）e（·，·）代表正确和错误的预测，p和n代表过去和新的类。例如，e（p，p）表示被错误预测为其他过去类的过去样本的数量。在这里不是焦点虽然我们没有EtEIL 的完整结果集，但我们注意到，在K=20000的ILSVRC数据集上，蒸馏对这种方法也是有害的。[5]中报告的原始590前5名结果为69.4，而本文介绍的修改后FTBAL版本达到77.52。在表3中，我们分析了混合物1的行为，即具有蒸馏的 FT 的版本，其用作 iCaRL 的骨架 [24] 和用于ILSVRC的香草FT的版本，其中K=591IL方法Z=10K20K10K5KFT51.1342.2932.23IL2M153.4547.6442.20IL2M251.9443.6331.74IL2M1+255.1549.5742.51IL2M56.3750.8244.05表4：在Z = 10个状态和记忆K={20000，10000，5000}的消融研究中评价的不同IL 2 M版本的前1名平均ILSVRC准确度。基于自适应微调[5，24]或固定表示[2]。IL2M得到了显着更好的结果比现有的适应微调为基础的方法，几乎所有的配置与内存和落后于固定的representation在一个单一的情况下。从Eq. 1改善了所有测试配置中的FT结果。[5]中的平衡微调也是有益的，但程度较小。NEM[24]具有混合效应，因为它实际上在某些情况下会损害性能。第5.4小节中的IL2M消融研究表明，获得的增益主要是由于使用了统计记忆S10000个图像和Z=10个状态。两种方法对新类别（e（p，n））的偏差相当，尽管使用蒸馏时略高结论目前，数据不平衡并不是解释两种方法差异的主要因素。这种差异主要来自于过去类（e（p，p））之间错误分类的分布。虽然蒸馏被假定为保持过去类的准确性，但所获得的结果表明，混合1比香草微调多出两到三倍的错误。这种情况的一个可能的解释是，蒸馏通常被认为是用在大型平衡数据集上学习的强模型初始化的[10]。在IL中不满足此条件，因为来自先前状态的模型是在不平衡数据集上训练的。5.4. 消融研究我们使用ILSVRC数据集分析了Z=10个状态和记忆K={20000，10000，5000}的消融研究中IL2M组分的贡献我们在FT基线的基础上测试以下变化：IL2M1-激活与类级装置一起工作的校正的第一组件;IL2M2-激活与模型水平手段一起工作的第二组分;IL2M1+2-两种基于均值的成分都被激活;IL2M-完整版本，其中我们还添加了仅当图像最初被预测为属于新类别时才纠正过去类别分数的限制（由等式①的人。表4的结果表明，与FT相比，每种组分都具有积极作用。最大的单一贡献是在IL2M1中使用统计分类S的类平均值。增益是特别有趣的较低的内存大小，灾难性遗忘的 FT 的影响更高。模型水平平均值对K={20000，10000}有较小的正贡献，对K=5000有轻微的负影响。矫正的最后限制在所有情境下都有适度的正效应。6. 结论本文介绍了一种针对带记忆IL类设计的新方法IL2M大量的实验表明，IL2M优于非常有竞争力的算法，这是在这里介绍。该方法在存储器和计算方面的附加成本可以忽略不计。因此，它适合在计算受限的环境中部署。有趣的是，与FT、FTNEM和FTBAL相比，最大的增益是在较低的内存大小下获得的从应用程序的角度来看，这使得IL2M非常有趣，因为它降低了内存需求.我们还发现，令人惊讶的是，香草微调是一个非常有效的基线类IL与内存。FT与现有算法[2，5，24]相比是有利的。在FTNEM和FTBAL中，iCaRL[24]和端到端增量学习[5]中的蒸馏组件的消融提高了原始方法的性能。这种对最先进方法的改进是我们工作的一个虽然IL2M是为有内存的IL类设计的，但为了完整性，我们也在没有内存的情况下测试它.如所预期的，在该配置中添加蒸馏组分是有益的。然而，使用固定表示[2]在不允许存储器时提供最佳性能，因此是优选的。我们测试了所提出的方法和基线与三个大规模的数据集专用于不同的视觉任务和不同的内存大小。评估设置可以重复使用，以确保一罗类增量学习算法的bust测试。代码和数据集详细信息是公开可在以下网址获得：https://github.com/EdenBelouadah/class-incremental-learning。报告的结果减少了增量学习和非增量学习之间的性能差距。然而，这个差距仍然很大，特别是对于更难的视觉数据集，如ILSVRC。类IL研究问题仍然是一个开放的，如果我们工作在强大的计算和内存的限制。我们将按照以下方针开展工作：（1）测试用于多任务IL的恒定复杂度方法（诸如IL2M）以复制遇到更多样化的视觉内容的现实生活场景，(2) 通过利用最新的结果来增强香草微调，这些结果改善了不平衡学习[3]并使课程学习[7]可扩展，以及（3）探索替代的分数校正方法以进一步提高性能。592引用[1] Rahaf Aljundi ， Punarjay Chakravarty ， and TinneTuytelaars.专家门：通过专家网络进行终身学习。在计算机视觉和模式识别会议上，CVPR，2017年。一、二[2] Eden Belouadah和Adrian Popescu Deesil：Deep-ShallowIncremental Learning。TaskCV研讨会@ ECCV 2018。，2018年。三五六八[3] Mateusz Buda、Atsuto Maki和Maciej A.马祖洛夫斯基对卷积神经网络中类不平衡问题的系统研究。神经网络，106：249-259，2018。二、八[4] 曹琼，李申，谢伟迪，Omkar M.帕克希，还有安德鲁·齐瑟曼。Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。第十三届IEEE人脸手势识别国际会议，FG 2018，西安，中国，2018年5月15-19日，第67-74页，2018年。五、六[5] 弗朗西斯科·M 曼努埃尔？卡斯特罗我的吉姆·内兹，尼科尔·阿吉尔，科迪莉亚·施密德，卡提克·阿拉哈里。端到端的创造性学习。在计算机视觉- ECCV 2018 -第15届欧洲会议，慕尼黑，德国，2018年9月8日至14日，会议记录，第十二部分，第241-257页，2018年。一二三五六七八[6] 布莱恩·朱，瓦什什特·马德哈万，奥斯卡·贝邦，朱迪·霍夫曼，和特雷弗·达雷尔.微调视觉分类器到新领域的最佳实践。在欧洲计算机视觉研讨，ECCV-W，2016年。3[7] Sheng Guo ， Weilin Huang ， Haozhi Zhang ， ChenfanZhuang，Dengke Dong，Matthew R.斯科特和黄定龙Cur- riculumnet ：大规模网络图像的弱监督学习。InComputer Vision - ECCV 2018 - 15th Euro-EuroConference ， Munich ， Germany ， September 8-14 ，2018，会议记录，第X部分，第139-154页，2018年。8[8] Chen He ， Ruiping Wang ， Shiguang Shan ， and XilinChen.用于课堂创造性学习的范例支持的生成再现。在英国机器视觉会议2018，BMVC 2018，诺森比亚大学，纽卡斯尔，英国，2018年9月3日至6日，第98页，2018年。一、二、三、六[9] Haibo He和Edwardo A.加西亚从不平衡的数据中学习。IEEE Trans. Knowl.数据工程，21（9）：1263- 1284，2009. 2[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在计算机视觉和模式识别会议上，CVPR，2016年。一、六、八[11] 杰弗里·E Hinton，Oriol Vinyals，and Jeffrey Dean.在神经网络中提取知识。CoRR，abs/1503.02531，2015。2[12] 胡拉姆·贾韦德和费萨尔·沙法伊特。重新审视蒸馏和增量分类器学习。在ACCV，2018年。一、二、三、六[13] Ronald Kemker 和 Christopher Kanan 。 Fearnet ： Brain-inspired model for incremental learning. 在 ICLR ， 2018年。三、六[14] Simon Kornblith，Jonathon Shlens和Quoc V.乐更

下载后可阅读完整内容，剩余1页未读，立即下载