没有合适的资源?快使用搜索试试~ 我知道了~
13926在线场景中的增量学习何江鹏he416@purdue.edu毛润宇mao111@purdue.edu邵泽曼shao112@purdue.edu朱凤庆zhu0@purdue.edu美国印第安纳州西拉斐特普渡大学电气与计算机工程学院摘要现代深度学习方法通过使用所有可用的特定于任务的数据来训练模型,在许多视觉应用中取得了巨大成功。然而,有两个主要障碍使其在现实生活中的应用中具有挑战性:(1)学习新类会使训练好的模型很快忘记旧类知识,这被称为灾难性遗忘。(2)当旧类的新观测值随时间顺序出现时,分布可能以不可预见的方式发生变化,使得对未来数据的性能急剧下降,这被称为概念漂移。当前最先进的增量学习方法在添加新类时需要很长时间来训练模型,并且没有一种方法考虑旧类的新观察在本文中,我们提出了一个增量学习框架,可以在具有挑战性的在线学习环境中工作,并处理新的类数据和旧类的新观察。我们在在线模式下通过引入改进的交叉蒸馏损失与两步学习技术来解决问题(1)。我们的方法在相同的实验协议下,但在在线 场景 下, 在 CIFAR-100和 ImageNet-1000( ILSVRC2012)数据集上,从当前最先进的离线增量学习方法中我们还提供了一种简单而有效的方法来缓解问题(2),通过使用旧类的每个新观察的特征来更新样本集,并使用Food-101数据集基于我们的完整框架展示在线食品图像分类的实际应用。1. 介绍当前基于深度学习的方法在应用于现实生活应用时的主要挑战之一是增量学习新类,其中新类随着时间的推移不断添加。此外,在大多数现实生活场景中,新数据会按顺序出现,其中可能包含来自新类或新观测的数据旧的阶级。因此,期望一个实用的视觉系统处理包含新类和旧类的数据流,并以在线学习模式顺序处理数据[15],这与现实生活中的应用具有类似的约束。例如,设计用于自动化饮食评估的食物图像识别系统应该能够使用每个新的食物图像不断更新,而不会忘记已经学习的食物类别。大多数在静态数据集上训练的深度学习方法都存在以下问题。第一个是灾难性的- getting [16],这是一种现象,由于完整的先前数据不可用,当添加新类时,在联机情况下,由于允许更新模型的运行时间和数据有限,这个问题变得更加严重第二个问题出现在实际应用中,其中已经学习的类的数据分布可能以不可预见的方式改变[23],这与概念漂移[5]有关。在这项工作中,我们的目标是开发一个增量学习框架,可以部署在各种图像分类问题和工作在具有挑战性的在线学习场景。用于分类的实用深度学习方法的特征在于:(1)其能够使用包括新类数据和旧类的新观察的数据流进行训练,(2)对于未来数据流的新类和旧类都具有良好的性能,(3)在有限资源的情况下更新的运行时间短,以及(4)能够终身学习以增量方式处理多个类。离子。虽然在实现这些目标方面取得了进展[14,21,2,31],但现有的增量学习方法都不能满足所有上述条件。他们假设旧类数据的分布随时间保持正如我们前面提到的,数据披露在现实生活中可能会发生变化当概念漂移发生时,无论如何努力保留旧类知识,性能下降是不可避免的。此外,尽管这些现有的方法已经取得了最先进的结果,但它们都不能在具有挑战性的在线场景中工作。他们需要离线培训13927使用许多时期的所有可用的新数据,使得其对于现实生活应用是不实际的。本文的主要贡献概括如下。• 我们引入了一种改进的交叉蒸馏损失与两步学习技术,使在-创造性学习在在线场景中可行。我们在CIFAR-100 [12]和ImageNet-1000(ILVSC 2012)[25]上显示了与当前最先进的[21,2,31]我们遵循相同的实验基准协议[21],其中所有新数据都属于新类,但在具有挑战性的在线学习场景中,运行时间和允许更新模型的数据数量的条件都受到更多约束。• 我们提出了一个渐进式学习框架,能够终身学习,并可应用于一个va-现实生活中的在线图像分类问题。在这种情况下,我们认为新数据属于新类和现有类。我们提供了一个简单而有效的方法来减轻概念漂移更新样本集使用旧类的每个新的观察的功能最后,我们演示了如何使用Food-101 [1]数据集实现我们的完整框架用于食品图像分类。2. 相关工作在本节中,我们将回顾与我们的工作密切相关的方法。增量学习仍然是机器学习的长期挑战之一,但它对于能够在其一生中持续学习和知识积累的类脑智能非常重要传统方法。在深度学习之前,通常使用SVM分类器[4]。一个代表性的工作是[24],它通过使用从旧数据中学习的支持向量来学习新的决策边界,新数据[3]中提出了一种替代方法,即保留Karush-Kuhn-Tucker条件而不是旧数据上的支持向量,然后使用新数据更新解。其他技术[19,17,13]使用弱分类器和最近邻分类器的集成。基于深度学习的方法。 这些方法提供了特定于任务的特征和分类器的联合学习[10,11]等方法基于约束或冻结权重,以保留旧的任务执行。曼斯。在[10]中,最后一个完全连接的层被冻结,这阻碍了特征提取层中共享参数的变化。通过约束与这些任务相关的权重来保留旧任务知识。但是,约束或冻结参数也在文献[14]中,提出了熵损失来保留旧类然而,当不断添加新类时,特别是当新类和旧类密切相关时,性能远不能令人满意。基于[14],自动编码器用于保留旧类的知识,而不是[20]中的蒸馏损失。对于所有这些方法,只考虑新数据。在[26]和[28]中,合成数据用于通过应用深度生成模型[6]来保留旧类的知识。然而,这些方法的性能高度依赖于生成模型的可靠性,而生成模型在更复杂的场景中会遇到困难。Rebuffi等人提出了iCaRL[21],这是一种使用来自每个旧类的少量样本来保留知识的方法。在[2]中提出了一个端到端的增量学习框架,使用样本集,以及数据增强和平衡微调,以减轻新旧类之间的不平衡。在[31]中提出了大型数据集的增量学习,其中使用线性模型来纠正对全连接层中新类别的偏见。然而,这些方法很难应用于实际生活中的应用,因为它们都需要很长的离线训练时间,在每个增量步骤中需要许多epoch才能达到良好的性能。此外,它们假设旧类的分布保持不变,并且仅使用新类数据更新分类器。总而言之,引入了一种改进的交叉蒸馏损失和此外,我们的完整框架能够以在线模式从头开始终身学习,这在第4节中说明。3. 在线增量学习在线增量学习[15]是增量学习的一个子领域,它还受到运行时间和终身学习能力的限制,而离线学习的数据有限。然而,这些约束与现实生活中的应用程序非常相关,其中新数据按顺序进入,并且与完整数据可用的传统假设相冲突。模型h1,h2,., 在给定的数据块流S1,S2,...,如图1所示。在这种情况下,si是块大小为p的新数据块,定义为用于更新模型的数据数量,其类似于离线学习模式中的批量大小然而,每个新数据仅使用一次来更新模型,而不是使用具有多个时期如离线模式。 st={(x(1),y(1)),.,(x(p),y(p))} ∈t t t t t t限制了它从新数据中学习的适应性。 一个组合-[9]知识的流失[10]Rn×{1,...,其中n是数据维度,M是类的总数。 模型ht:Rn→ {1,.,M}13928y不不xy yy图一曰:在线场景。一序列的型号h1,h2,., 使用块大小为p的每个新数据块来生成h t,其中(xi,yi)表示第t个块的第i个新数据。仅取决于模型ht-1和由p个样本组成的最近的新数据块st,其中p是严格限制的,例如如果我们设置p=16,那么我们将对每个新数据进行预测,并使用16个新数据的块来更新模型。灾难性遗忘是所有增量学习算法面临的主要挑战假设一个模型hbase最初是在n个类上训练的,我们用m个新添加的类来更新它,以形成模型hnew。理想情况下,我们希望hnew可以很好地预测所有n+m个类,但在实践中,由于在训练新类时缺乏旧类数据,n个在这项工作中,我们提出了一个修改的交叉蒸馏损失和两步学习技术来解决这个问题,在在线的情况下。概念漂移是另一个在大多数现实生活应用中发生的问题。分类问题中的概念[29]被定义为联合分布P(X,Y),其中X是输入数据,Y表示目标变量。假设一个模型在时间t之前在具有联合分布P(Xt,Yt)的数据流上训练,并且让P(Xn,Yn)表示未来数据流中旧类的联合分布。概念图2:拟议的渐进式学习框架。h(i)指示在第i步的演化模型。4.1. 从头学起这一部分是学习新课程的起点在这种情况下,我们假设网络没有任何传入类的先前知识,这意味着没有要保留的先前知识。我们的目标是建立一个模型,可以适应新的类快速有限的数据,例如块大小为8或16。基线。假设我们有块大小为p的数据流属于M个类:{s1,., st} ∈ Rn×{1,..., M}。模型从序列数据学习的基线可以被认为是生成模型{h1,.,ht}使用标准交叉熵,其中ht通过使用新数据块st从h t-1更新。因此,ht是从h0演变的,通过使用给定的数据流,总共进行了t次与传统的离线学习相比,完整的数据是不可用的,我们需要为每个新数据块更新模型,使其动态地适应到目前为止使用的数据因此,在开始时,由于数据稀缺,传入数据的性能很差。在线表征学习。一个实际的解决方案是在学习过程开始时数据稀缺时利用表示学习最近类均值(NCM)分类器[22,21]是一个很好的选择,其中测试图像被分类为具有最接近类数据均值的类我们使用预先训练的深度网络来提取特征,方法是在每个输入数据xi的最后一个完全连接层之前添加一个表示层,表示为φ(xi)。因此当P(Xt,Yt)P(Xn,Yn).在这项工作中,分类器可以表示为我们不定量地测量概念漂移,但我们支持,提供了一个简单而有效的方法来缓解这个问题,方法是使用每个新的y*=arg miny ∈{1,…M}d(φ(x),μφ).(一)旧类中的数据,如第4.3类平均值μφ=1<$φ(x)和N指yNyi:yi=iiy4. 增量学习框架在这项工作中,我们提出了一个增量学习框架,如图2所示,可以应用于任何在线场景,其中数据是连续的,网络能够终身学习。在我们的框架中有三个部分:从头开始学习,离线再训练和从训练模型中学习。4.3中实现了在线场景下的增量学习,通过在初始学习之后交替后两部分,可以实现终身学习。类中的数据数量y。我们假设高度非-深度表示的线性性质消除了对线性度量的需要,并允许在此dφ=(φ(x)−μφ)T(φ(x)−μφ)(2)我们的方法是将基线与NCM分类器相结合。NCM分类器表现良好,当可用数据的数量是有限的,因为类表示是唯一的基础上属于该类的图像的平均表示。我们在开始时应用NCM,并使用每个新的类别均值的在线估计进行更新[7]。13929j=1i=1TT观察.nyiµφ+1φ(x)(3)ynyi+1ynyi+1i学到的知识。在这种情况下,我们只考虑传入数据流的新类数据假设模型已经在n个类上训练,并且添加了m个新 设{(xi,yi),yi∈[n+1,. n+m]}表示新我们使用一个简单的策略从NCM切换到基线当基线的准确性超过新数据的s个连续块的表示学习时,分类器根据我们的经验结果,我们在这项工作中设置s=54.2. 离线再培训为了实现终身学习,我们在每次在线增量学习后都加入了在线再培训部分类数据。新分类器的输出logits是de-logits。记为p(n+m)(x)=(o(1),...,o(n),o(n+1),. o( n+m )),则记录的旧类分类器输出logits为p_n( n )(x)=(o_n(1),., o(n))。可以如等式4中那样用公式表示kn= 1的蒸馏损失[9],其中p= 1(i)和p(i)是如等式5中所定义的第i个ΣnLD(x)= −p<$(i)(x)log[p(i)(x)](4)相位通过添加新类或现有类的新数据,灾难性遗忘和概念漂移[5]变得更加严重。最简单的解决方案是包含一个周期(一)i=1exp(o(i)/T)不(一)不exp(o(i)/T)通过使用直到该时间实例的所有可用数据进行离线再训练。pT =Σnj=1 exp(o(j)/T),pT=Σnexp(o(j)/T)(五)构建范例集。我们使用羊群选择[30]来生成一个类的样本的排序列表,基于到该类均值的距离。然后,我们通过使用每个类中的前q个样本来构造样本集{E(y),. E(y)},y∈[1,.,其中q是手动指定的。T是温度标量。当T=1时,得分最高的班级影响最大。当T>1时,剩余类具有更强的影响,这迫使网络,从中学习更多的细粒度知识学习新课程的交叉学习损失可以表现为:1Q为L (x)=n+m−y(i)log[p(i)(x)]其中y是一个-fed 范例集通常用于帮助保留Ci=1老班图3:改进的交叉蒸馏损失。 它包含两个损失:旧类上的蒸馏损失和所有旧类和新类上的修改的交叉熵损失。4.3. 从训练模型中学习这是我们提出的增量式用于输入数据热标签x. 整体交叉蒸馏通过使用超参数α来调整两个分量之间的影响,LCD(x)=αLD(x)+(1−α)LC(x)(6)改进的交叉蒸馏调节器tio。虽然交叉蒸馏损失迫使网络从蒸馏输出日志中学习潜在信息,但其保留先前知识的能力仍然有限。使网络保留先前知识的直观方法是将来自旧类的分类器的输出作为最终分类器的一部分。让新分类器的输出logit表示为p(n+m)(x)=(o(1),.,o(n),o(n+1),. o(n+m)),记录的旧类的分类器输出logits是p(n)(x)=(o(1),., o(n))。我们使用调节比0≤β≤1将两个分类器的输出组合为.学习框架。这里的目标是从训练好的模型开始,继续从新的数据流中学习。Dif-p(i)=βp(i)+(1−β)p<$(i) 0i≤np(i)n i≤n+m(7)不同于现有的增量学习,我们定义了新的数据包含新类数据和旧类的新观察,并且我们在在线场景中仅使用每个新数据一次用于训练除了解决catastrophic遗忘问题之外,我们还需要考虑已经学习的类的概念漂移,因为现实生活应用中的数据分布可能会以不可预见的方式随时间变化[23]。基线:原始交叉蒸馏损失。交叉蒸馏损失函数通常用于最先进的增量学习方法中,以保留先前当β=1时,最终输出与新分类器相同,当β=0时,我们用旧类分类器输出替换前n个输出单元。这可以被认为是使用调节比率β来调谐旧类的输出如图3所示,修改后的交叉蒸馏损失可以通过替换原来的交叉口损失部分LC(x),其中新修改的交叉口损失LC(x)=n+m−y<$(i)log[p<$(i)(x)]afterap-如公式8L<$CD(x)=αLD(x)+(1−α)L<$C(x)(813930)13931n+m算法1更新样本集输入:旧类的新观察(xi,yi)Require:旧类特征提取器当前示例集合{E(yi),. E(yi)}由于该块中的所有数据都属于新类,因此会出现灾难性的遗忘。在第二步中,我们将样本集中相同数量的旧类样本与新类数据配对。由于我们已经平衡了新类和旧类,1:M(yi)←nyi1QM(yi)+1Θ(x)交叉熵损失用于实现均衡学习。nyi+12:对于m =1,...,qdonyi+1i3:d(m)=(Θ(E(yi))-M(yi))T(Θ(E(yi))-M(yi))M m第四章: dmin←min{d(1),.,d(m)}5:Imin←索引{dmin}6:d(q+1)=(Θ(xi)-M(yi))T(Θ(xi)-M(yi))第七章: 如果d(q+1)≤dmin,则8:从{E(yi),. E(yi)}Imin1q9:将xi加到{E(yi),. E(yi)}10:其他1q−111:无需更新当前样本12:return{E(yi),. E(yi)}图5:两步学习法。 黑点对应的是旧类样本存储在样本集中。 红点对应-1qspond从新的类的样本。我们根据经验设定β=0。5,T=2,α=n,其中n和m是旧类和新类的数量。修改后的交叉蒸馏损失推动网络从旧类的输出单元中学习更多,更新样本集。如第1节所述,我们考虑包含新类数据和具有未知分布的旧类的新观测在这种情况下,保留以前的知识是不够的,因为概念漂移可能会发生在旧的类,模型仍然会经历性能下降。一种解决方案是使用旧类的 每个旧类的类均值{M(1),. M(n),M(i)∈ Rn}的计算和记录,如第4.2节所述,通过构造样本set {(E(y),. E(y)),y∈[1,.,n]}使用以前的数据5. 实验结果我们的实验结果包括两个主要部分。在第一部分中,我们将我们的改进交叉蒸馏损失和第4.3节中介绍的两步学习技术与当前最先进的增量学习方法进行了比较[2,14,31,21]。我们遵循iCaRL实验基准协议[21]来安排课程和选择示例,但在更具挑战性的在线学习场景中,如第5.3节所示 我们的方法在两个公共数据 集 上 实 现 : CIFAR-100 [12] 和 ImageNet-1000(ILSVRC 2012)[25]。第二部分是对整个框架的性能进行测试。由于我们的目标是建立一个可以应用于在线学习场景的增量学习框架,因此我们使用Food-101[1]食物图像数据集来评估我们的方法。对于我们提出的框架的每个部分,我们将我们的结果与基础-1q线方法如第4节所述。溪流 设{(xi,yi),yi∈[1,...,n]}表示新的ob。旧的阶级。我们上的是同一个在线课程如等式3所述的平均值更新,以保持用迄今为止看到的所有数据更新类平均值。所以当概念漂移发生时,例如,类的平均值朝着新数据变化,我们更新样本集,使新数据更有可能被选择来更新模型在两步学习过程中,如下一部分所述。更新样本集的完整过程如算法1所示。两步学习。与其他将新类数据与旧类样本混合的增量学习算法不同,我们首先让模型从一块新类数据中学习,然后进行平衡学习步骤。这种两步学习技术是为在线学习场景设计的,其中更新时间和可用数据的数量都如图5所示,我们在第一步中使用修正的交叉蒸馏损失,以过度5.1. 数据集我们使用了三个公共数据集。两个常见的数据集:CIFAR-100和ImageNet-1000(ILSVRC 2012)和一个食物图像数据集:Food-101。Food-101是最大的真实世界食物识别数据集,每个食物类别包含1 k个图像,这些图像来自foodspotting.com,由101个食物类别组成我们将80%用于培训,20%用于测试。CIFAR-100由60 k32×32 RGB图像组成,共同的对象。数据集最初分为50K作为训练,10K作为测试。ImageNet-1000(ILSVRC 2012)ImageNet Large-ScaleVisual Recognition Challenge 2012(ILSVRC 12)是一项使用ImageNet子集的年度竞赛。这个子集包含1000个类,每个类包含超过1k个图像。13932(a)(b)(c)(d)图4:CIFAR-100上的增量学习结果,分为(a)5类,(b)10类,(c)20类和(d)50类。最后一步中的上界是通过使用来自所有类的所有训练样本离线训练模型来获得的。(Best颜色显示)课总共有大约120万个训练数据,5万个验证图像和15万个测试图像。数据预处理对于Food-101,我们进行了图像调整大小和中心裁剪。至于CIFAR-100,随机裁剪和水平翻转是在原始实现之后应用的[8]。对于ImageNet,我们遵循VGG预处理[27]中的步骤,包括随机裁剪,水平翻转,图像大小调整和均值减法。5.2. 实现细节我们的实现基于Pytorch [18]。对于实验第一部分,我们遵循与当前最先进的增量学习方法相同的实验设置,ImageNet-1000的标准 18层ResNet和CIFAR-100的32层ResNet。对于实验第二部分,我们将18层ResNet应用于Food-101。ResNet实现遵循[8]中建议的设置。我们使用随机梯度下降,学习率为0.1,权重衰减为0.0001,动量为0.9。在线学习场景中块大小p的选择。与离线学习场景不同,在离线学习场景中,我们选择一个批量大小来最大化多个时期后的整体性能。在在线学习场景中,我们需要根据实际应用选择块大小p更具体地说,大的块大小会导致更新缓慢,因为我们必须等到足够的数据到达才能更新模型。另一方面,使用非常小的块大小,例如,虽然每个新观察的更新非常快,但由于对新数据的强烈偏见,它不适合深度神经网络因此,我们使用前128个新数据设计了一个预测试,每个实验通过改变块大小p∈ {1,2,4,8,16,32,64}来重复地更新模型。因此,选择最佳块大小,其在这128个新数据上给出最高精度。我们不考虑p >64,因为如此大的块大小对于现实生活应用是不实际的。5.3. 改进的交叉蒸馏损失和两步学习算法在这一部分中,我们将我们修改的交叉蒸馏损失和两步学习技术与当前状态进行了比较-最先进的方法[21,2,31]。我们考虑新类数据顺序出现的在线设置,我们首先预测每个新数据,然后使用一个新数据块来更新模型。对于每一个增量步骤,我们比较我们的准确性,在在线的情况下,在离线模式下的最先进的结果。我们为CIFAR和ImageNet构建了样本集,样本数量与[21,2,31]中的样本数量相同,以进行公平比较。图7:ImageNet-100上的增量学习结果,分为10个类。最后一步中的上界是通过使用来自所有类的所有训练样本离线训练模型来获得的。(Best颜色显示)CIFAR-100。我们将100个类随机分为5、10、20和50个类。因此,我们分别有20、10、5和2的增量训练步骤最佳块大小设置为p=8。我们进行了四次试验,每次都是随机顺序的100个班级。平均精度如图4所示。即使在具有挑战性的在线学习场景中,我们的方法对所有增量学习步骤也显示出最佳的准确性。ImageNet-1000. 由于1000个类对于在线场景来说太大且不实用,因此我们从1000个类中随机选择100个类来构建原始数据集,称为ImageNet-100。然后我们将100个类分成10个类,因此我们的增量步长为10。 设置最佳块大小p=16。我们如前所述进行了四次试验,并记录13933了每个步骤的平均准确度,如图7所示虽然EEIL [2]的性能超过了我们的13934(a)(b)(c)(d)图6:在Food-101上从零开始,新班级的数量为(a)20个班级(b)30个班级(c)40个班级和(d)50个班级。基线和我们的方法在第4.1节中说明(最佳彩色视图)方法20304050基线62.81%56.53%54.35%51.39%表示学习60.21%55.32%53.68%51.26%我们70.90%64.32%62.31%57.83%(一)(b)第(1)款表1:从零开始在线学习Food-101,(a)在线准确性和(b)测试准确性。上界通过使用来自所有给定类的所有训练样本离线训练模型来获得(最佳结果用粗体表示在第二步中,当添加更多的类时,我们将获得最佳性能。5.4. 评估我们的完整框架我们使用食物图像数据集Food-101[1]来评估我们提出的增量学习框架的性能。在线增量学习的基准协议。到目前为止,还没有关于如何评估在线增量学习方法的基准协议。除了解决离线增量学习中的灾难性遗忘[16]之外,我们还需要考虑在线场景中的概念漂移[5]。我们提出以下评价方案:对于给定的多类分类数据集,类应该随机排列。对于每个类,训练数据应进一步分为新训练数据和旧训练数据。当一个类第一次被引入模型时,使用前者。当模型以前见过类时,考虑后者,这用于模拟现实生活中的应用程序并测试方法处理旧类的新观察的在每个在线学习阶段之后,更新后的模型将在包含迄今为止已经训练过的所有类的测试数据上进行评估。不存在过度拟合,因为测试数据从未用于更新模型。除了整体测试准确度外,我们还应该分别检查新类的准确度和旧类数据的准确度。我们还建议使用在线准确率,即训练集中数据在用于更新模型之前的准确率,来表示未来数据流的分类性能一般来说,在线准确性表明模型适应未来数据流的能力,而旧类的在线准确性表明模型处理旧类的新观测的5.5. 食物101尽管如第4节所述,提议的增量学习框架有三个独立的组件,但我们只测试了4.1中描述的组件一次,然后在4.2和4.3中描述的两个组件之间交替此外,4.2中的离线再培训部分不适用于在线增量学习。因此,在这个实验中,我们测试了我们提出的框架的一个周期,从零开始,然后从离线再训练提供的训练模型中学习。我们使用每个类的一半训练数据作为新类数据,另一半作为旧类的新观察值。我们将Food-101数据集随机分为20,30,40,50个类,并分别以20,30,40和50的步长进行一步增量学习。此外,我们构造了每个类只有10个样本的示例集来模拟现实生活中的应用程序,而不是每个类包含更多的样本。从头学起。在这一部分中,我们将评估我们的方法,该方法结合了基线和表示学习,如第4.1节所述。最佳块大小设置为p=16。与基线和表征学习相比的在线准确性结果我们的方法在所有增量学习步骤中实现了最佳的在线准确性同样,与上限相比的检测准确度见表1b。我们还计算了每512个传入新数据的准确性我们观察到,表示学习在数据稀缺的开始时效果良好因此,通过将这两种方法结合起来,并自动从一种切换到另一种,我们获得了更高的整体在线精度。从训练好的模型中学习 在这一部分,我们表演测试上界2078.77%84.17%3073.28%80.95%4071.42%77.82%5067.54%74.46%13935在线精度测试精度增量步进新老新老2054.35%→64.78%22.83%→61.01%70.97% →64.00%41.77%→70.32%(84.17%)3052.62%→62.25%22.41%→60.00%71.56% →61.87%42.25%→69.90%(80.95%)4046.30%→61.53%20.53%→53.43%66.62% →56.31%40.82%→65.65%(77.82%)5043.49%→56.76%19.47%→51.71%63.32% →54.20%36.81%→63.92%(74.46%)表2:使用原始交叉蒸馏损失的基线方法从Food-101的训练模型进行在线学习在→的左边,我们提出的方法在右边(最好的结果用粗体标记),(·)显示了上限结果。(a)(b)(c)第(1)款图8:Food-101数据集的消融研究(a)总体在线准确度(b)总体测试准确度(c)旧类的在线准确度。(Best颜色显示)按照我们在5.4节中描述的建议的基准方案进行一个增量步骤实验,结果如表2所示。与基线相比,我们的方法提高了新类和旧类的在线学习精度,这表明我们的模型可以快速适应未来的数据流,包括新类数据或旧类的此外,与基线方法相比,我们显著然而,由于在我们的方法中使用了调节比,因此与基线相比,新类测试准确度的折衷结果是准确度略低 因为它模型很难在不丢失旧类的知识的情况下对新类表现良好,可以根据应用场景手动调整适应率以在新类和旧类之间平衡。更高的适应率通过权衡旧类的准确性来提高新类的准确性。对于这个实验,我们简单地使用β= 0。五、消融研究。我们分析了我们方法的不同组成部分,以证明它们的影响。 我们首先展示了不同损失函数的影响,包括交叉熵、交叉蒸馏和我们修改的交叉蒸馏。然后,我们分析了更新样本集,以减轻概念漂移的影响。如图8a和图8b所示,即使没有更新样本集,对于所有增量步骤,我们的修改的交叉蒸馏损失也优于其他两个(黑线和蓝线)通过更新样本集,我们能够实现更高的整体在线和测试准确性。此外,图8c示出了通过更新样本集来提高旧类的在线准确性由于我们没有故意从旧类中选择任何新数据来更新模型,在增量学习步骤中,随着数据分布的变化,我们的方法能够通过使用由迄今为止看到的旧类因此,通过将每个新数据与样本配对的两步学习,我们可以为未来的数据流实现更高的在线准确性6. 结论在本文中,我们提出了一个增量学习框架,包括一个修改的交叉蒸馏损失与两步学习技术,以解决具有挑战性的在线学习场景中的catastrophic遗忘,和一个简单而有效的方法来更新的exemplar集使用旧类数据的每个新的观察的特征,以减轻概念漂移。我们的方法具有以下属性:(1)可以使用包括在线场景中的新类数据和旧类的新观察的数据流来训练,(2)对于未来数据流上的新类和旧类都具有良好的性能,(3)需要短的运行时间来用有限的数据更新,(4)具有用于终身学习的潜力,其可以递增地处理未知数量的类。在具有挑战性的在线学习场景中,我们的方法在CIFAR-100和ImageNet-1000(ILSVRC 2012)最后,我们以Food-101数据集为例,展示了我们提出的框架可以应用于现实生活中的图像分类问题,并观察到与基线方法相比的显着改进。7. 致谢这项工作得到了Eli Lilly and Company的支持13936引用[1] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年欧洲计算机视觉会议论文集[2] 弗朗西斯科·M曼努埃尔?卡斯特罗Marin-Jimenez,Nicolas Guil,Cordelia Schmid,and Karteek Alahari.端到端的创造性学习。欧洲计算机视觉会议论文集,2018年9月。[3] Gert Cauwenberghs和Tomaso Poggio增量和减量支持向量 机 学 习 。 Proceedings of the Advances in NeuralInformation Processing Systems,第409-415页[4] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克支持向量网络。Machine learning,20(3):273[5] JoaBagioGama , IndrestecZBagliobaitestec , AlbertBifet ,My kolaPech-enizkiy,and Abdelhamid Bouchachia.概念漂移适应研究综述。ACM计算调查,46(4):44:1-44:37,3月。2014年[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。Proceedings of theAdvances in Neural Information Processing Systems,第2672-2680页[7] 萨曼莎·格雷罗芭芭拉·卡普托和托马斯·门辛克深度最近类均值分类器。院刊学习代表国际会议,Worskhop轨道,2018年。[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议论文集,第770-778页[9] Geoffrey Hinton Oriol Vinyals和Jeffrey Dean提取神经网络 中 的 知 识 。 NIPS Deep Learning and RepresentationLearning Work-shop,2015。[10] Heechul Jung、Jeongwoo Ju、Minju Jung和Junmo Kim。深度神经网络中的少遗忘学习arXiv预印本arXiv:1607.00122,2016。[11] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness , Guillaume Desjardins , Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘。国家科学院,114(13):3521[12] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。2009年[13] Ilja Kuzborskij,Francesco Orabona,and Barbara Caputo.从n到n+ 1:多类迁移增量学习。IEEE计算机视觉和模式识别会议论文集,第3358-3365页[14] 李志忠和Derek Hoiem。学而不忘。IEEE Transactionson Pattern Analysis and Machine Intelligence , 40(12):2935[15] ViktorLosing , BarbaraHammer , andHeikoWersing.Incre- mental在线学习:国家的回顾与比较-最先进的算法。神经计算,275:1261-1274,2018。[16] Michael McCloskey和Neal J Cohen。连接主义网络中的灾难性干扰:顺序学习问题。《学习与动机心理学》,第24卷,第109-165页。爱思唯尔,1989年。[17] Thomas Mensink,Jakob Verbeek,Florent Perronnin,and Gabriela Csurka.基于距离的图像分类:以接近零的成本生成新的类。IEEE Transactions on Pattern Analysisand Machine Intelligence,35(11):2624[18] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中 的 自 动 区 分 Advances Neural Information ProcessingSystems Workshop,2017。[19] Robi Polikar,Lalita Upda,Satish S Upda,and VasantHonavar. Learn++:一种用于监督神经网络的增量学习算 法 。 IEEE Transactions on Systems , Man , andCybernetics,31(4):497[20] Amal Rannen 、 Rahaf Aljundi、Matthew B Blaschko 和Tinne Tuytelaars。基于编码器的终身学习。IEEE计算机视觉国际会议的主席,第1320-1328页[21] Sylvestre-Alvise Rebuffi,Alexander Kolesnikov,GeorgSperl,and Christoph H.蓝伯特icarl:增量分类器和表示学习。IEEE计算机视觉和模式识别会议论文集,2017年7月。[22] Marko Ristin,Matthieu Guillaumin,Juergen Gall,andLuc Van Gool.用于大规模影像分类的ncm森林增量学习IEEE计算机视觉和模式识别会议论文集,第3654- 3661页[23] Amelie Royer和Christoph H Lampert。预测时的分类器自 适 应 。 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第1401- 1409页[24] 斯特凡·鲁平支持向量机的增量学习IEEE数据挖掘国际会议论文集,第641-642页[25] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpa- thy , Aditya Khosla , MichaelBernstein,Alexander C.伯格和李飞飞。 ImageNet大规模 视 觉 识 别 挑 战 。 International Journal
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功