没有合适的资源?快使用搜索试试~ 我知道了~
终身学习中的知识蒸馏和回顾对模型性能有积极影响
通过渐进蒸馏和回顾进行侯赛辉1 *[0000−0003−4689−2860]、潘新宇2 *[0000−0001−9951−4842]、陈昌来3[0000−0001−5345−1591]、王自磊1[0000−0003−1822−3731]、林大华二号1中国科学技术大学自动化系2香港中文大学资讯工程学系3南洋理工大学抽象。终身学习的目的是使学习的模式适应新的任务,同时保留以前获得的知识终身学习的一个关键挑战是如何在保持旧任务和适应新任务之间取得平衡在以前的工作中已经探索了在训练中结合这两个目标的AP-途径。然而,性能仍然遭受相当大的退化,在一个长序列的任务。在这项工作中,我们提出了一种新的方法,终身学习,试图寻求一个更好的平衡之间的保存和适应通过两种技术:蒸馏和回顾。具体而言,目标模型通过从中间专家进行知识蒸馏来适应新任务,而通过缓存旧任务的一小部分数据来更有效地保留蒸馏和回顾的结合导致目标模型的学习曲线更温和,广泛的实验表明,我们的方法可以在新旧任务4上带来一致的改进。关键词:终身学习、知识升华、反思。1介绍终身学习的目的是使学习的模式适应新的任务,同时保留过去获得的知识。随着计算机视觉在现实世界应用中的广泛采用,对能够以持续的方式在一系列任务上进行终身学习的学习系统的需求越来越大。例如,现实世界的对象分类系统通常需要通过从新领域吸收知识来不断升级。由于诸如计算成本、存储预算和隐私之类的各种问题,利用先前数据和新数据两者直接重复训练过程通常是不可行的。对于终身学习,一个关键的挑战是克服catastrophic遗忘的风险[9],即学习模型在适应新任务时通常会在旧任务上发生准确性下降。4项目页面:http://mmlab.ie.cuhk.edu.hk/projects/lifelong/∗表示联合第一作者。2侯赛辉,潘新宇,陈昌来,王紫磊,林大华在这项工作中,我们专注于深度学习背景下的增量多任务对象分类在这里,我们假设不同领域的分类任务以顺序的方式到达,并且在每个训练阶段结束时,需要单个模型此设置可作为进一步泛化的合理起点一些经典的方法可以应用于设置,但具有显著的缺点。具体来说,(a)特征提取[7]对于特征提取器冻结的新任务来说是次优的;(b)微调[8],它使整个网络适应新数据,导致旧任务的性能急剧下降;(c)联合训练[4]带来了对数据存储的过度需求和增加的训练成本。为了克服这些缺点,已经提出了各种方法,并且可以大致分为两类。第一个[15,3,20,12,21]基于知识蒸馏[10],并使用修改的交叉熵损失来保持旧任务的性能。这些方法已被证明是有效的,然而,当目标模型暴露于从不同分布提取的任务序列时,性能下降第二个[13,27,2]侧重于模型本身,并试图识别旧任务的参数的重要性,这些参数被用作适应新任务的指导然而,很难设计一个度量来加权所有参数,使得可以很好地保留旧任务的性能,特别是在长序列的任务中。在这项工作中,我们提出了一种新的方法,终身学习的视觉任务,从人类学习的智慧。学生在校学习时,需要逐步学习各门课程的知识,而不能忘记以前学过的知识。对他来说,从一位伟大的老师那里学习知识通常比直接从书本上或反复做练习更有效。此外,他还得不时地复习那些早学过的东西,以免忘记。出于这些观察,一种方法,包括两种技术,蒸馏和回顾,提出了一个更好的平衡之间的性能保存旧的任务和适应一个新的任务的目的。蒸馏提供了一种新的方法来适应一个新的任务,这是我们的算法命名为蒸馏自适应的缩写。我们不是直接对新数据进行微调,而是首先训练一个专门用于新数据的专家CNN。任务,然后将其用作顾问,通过知识蒸馏指导目标模型的适应[10]。虽然以前的作品[15,20]利用知识蒸馏进行终身学习主要集中在保留过去获得的知识,但我们发现,来自专家CNN的基于蒸馏的学习,提供软监督,导致更温和的学习曲线以适应新任务。因此,目标模型可以更平滑地适应,从而在新任务和旧任务上实现更好的性能。回溯允许目标模型不时地重新访问以前的数据,这模拟了我们人类如何努力不忘记。它不同于联合训练[4],在联合训练中,所有任务的数据都是完全可用的。相反,追溯只需要保留以前数据的一小部分。我们的研究表明,即使是来自过去的数据的一个非常小的子集也可以帮助重新通过渐进蒸馏和回顾进行终身学习3显著地保留早期任务的性能,而不会在计算和存储上产生综上所述,我们对这项工作的贡献主要体现在三个方面:(1)我们提出了一 种 新 的多任务终身学习算法-- 蒸 馏 自适 应 算 法 ( Adaptation byDistillation),它有望成为一种更好的训练长任务序列的单一模型的实践。(2)我们探索了多任务终身学习的新环境,并提供了一小部分旧数据,对于旧任务的性能保持有很大帮助。(3)大量的实验表明,蒸馏+回顾可以在基线上带来一致的改进,并且在很大程度上优于无遗忘学习例如,在ImageNet上,它是五个任务场景中的第一个任务,蒸馏+回顾的最终准确率超过基线[15] 6%以上。2相关工作我们的方法是建立在多个早期作品的见解,不仅为终身学习,但也为其他视觉任务。在这一部分中,我们总结了与我们的工作最相关的,包括以下三个部分。多任务学习。多任务终身学习的目标是训练一个可以很好地预测多个任务的单一模型,并依次提供不同任务的数据它处于多任务学习和终身学习的交叉点。标准的多任务学习[4]相当于第1节中描述的联合训练最初的目标是利用跨不同任务的知识(即,所谓的感应偏置[17])来提高每个单独任务的准确度,这具有放宽每个任务所需样本数量的好处然而,这种终身学习的标准做法的主要缺点是,它需要不同任务的所有可用数据。在这项工作中,我们首先验证蒸馏的有效性,而不访问旧任务的数据 然后,我们进一步探讨设置与回顾,即。,则为旧任务保留一小部分数据。知识蒸馏。知识蒸馏是由Hinton等人提出的。[10],其中知识从大型网络或网络组件转移到小型网络,实现高效部署。小网络使用以下训练- 修改的交叉熵损失(由KD损失表示),其鼓励原始网络和新网络的响应相似。这种方法被广泛用于产生近似于原始网络的不同结构的网络,例如。,Romero等人。[22]转移到更深更细的网络进行网络压缩,Chen等人。[5]为快速超参数勘探生成更深更广的网络对于终身学习,Liet al.[15]提出了一种名为“不忘学习”的算法,并首先引入知识蒸馏来保留旧任务的性能。采用KD-Loss [10]来模拟原始网络在适应新任务时的输出。我们的工作是4侯赛辉,潘新宇,陈昌来,王紫磊,林大华也是基于知识的升华[10]。我们的工作和[15]之间的显著区别在我们的算法中,目标模型通过从中间专家CNN中提取知识来适应新任务,这可以促进新任务的学习,也有利于保持旧任务的性能此外,Tzenget al.[24]在处理领域适应问题时,使用知识蒸馏来帮助在新领域上的训练。然而,[24]中的软标签来自在良好标记的源域上训练的模型而在我们的算法中,软标签是通过在新数据上微调专家CNN来获得的,忽略了保留旧任务性能的约束基于知识蒸馏的终身学习。 如第一节所述,近年来关于终身学习的研究大致可分为两类,一类是基于知识的升华。 除了学习而不忘记[15],这里我们讨论这一类别的其他作品[3,20,12,21]。Aljun- di等人。[3]我建议在不同的任务上训练多个网络,并使用自动编码器为每个测试样本选择一个网络,其中算法在[15]中,当任务相关性高时采用。Rannen等人[20]我还介绍了一个自动编码器,但目标是帮助保留旧任务的关键功能。Jung等人[12]建议对旧任务而不是最后一层的输出近似原始网络的特征。这些工作的重点,特别是[20,12],是更有效地保留旧任务的性能,而新任务的准确性与基线相当或稍不同的是,我们的算法可以同时提高对新任务和旧任务的性能,并且对新任务的基于蒸馏的学习以及对旧数据的回溯也可以与这些方法集成此外,Rebuffiet al.[21]多层次的终身学习。多类和多任务终身学习之间的主要区别在于预测步骤:多类学习者必须训练一个统一的分类器,该分类器正确地预测任何观察到的类,而多任务学习者可以利用多个分类器,每个分类器仅对来自其自身领域的数据进行评估在这项工作中,我们专注于多任务终身学习。Rebuffi等人[21]还保留了一些旧类的数据,而我们首先使用多任务场景中可用的旧数据的小子集来探索设置,并获得一些不同的观察结果,这将在第4节中提供。3蒸馏与回顾本工作中提出的方法如图1所示。该框架由两个关键组件组成:蒸馏和回顾。它 涉及多任务终 身学习, 旨在训练一 个卷积神经 网络(CNN),该网络可以在各种分类任务上表现良好。每个任务的训练数据和地面实况以顺序的方式呈现给模型。在每个阶段中,模型都会向新的任务演进通过渐进蒸馏和回顾进行终身学习5On新老新ΣΣΣ回顾从旧任务终身学习通过提炼来适应新任务Fig. 1. 蒸馏和回顾的图解。该模型通过专家CNN的蒸馏来学习新任务的知识。回溯允许模型重新访问旧任务的一小部分数据而无需访问旧任务的所有数据。我们算法的输入是一个原始CNN,它包含特征提取器F和旧任务的特定于任务的分类器To。该网络通过从中间专家CNN中提取知识来学习适应新任务。输出是更新的特征提取器F*和用于旧任务的特定于任务的分类器T*以及用于新任务的特定于任务的分类器T*为了新的任务。下面,我们先来回顾一下学习不忘初心,砥砺前行。然后我们将详细说明如何蒸馏有助于学习新任务,同时有利于保持旧任务的性能。最后,我们将介绍回顾,即。,则为旧任务保留一小部分数据。3.1背景不忘学习(LwF)[15]是多任务终身学习的代表性方法它首先介绍了终身学习的知识蒸馏[10],以保留旧任务的性能适应的损失函数新任务的模型是两项之和:新任务的LF和旧任务5。具体地,在图像分类的上下文中,LF是标准的十字架熵损失[14,23]:|Kn|KnLF(X,Y)=−1yik·logpik,(1)新的|Nn|n ni=1k =1当Xn/Yn是新任务的一个和一个新任务的一个新结果时,Nn是从Xn中提取的一批样本,Kn是新任务的类数yi是第i个样本pi的独热地面实况标签是相应的n n5为了简单起见,正则化项被省略训练数据...………...……...任务1的专家CNN任务2的专家CNN6侯赛辉,潘新宇,陈昌来,王紫磊,林大华^老ΣΣΣOOpoyoyopo老老老nO|Nn|OOsoftmax输出。损失鼓励新任务的目标模型的预测以匹配独热标签。F老 知识蒸馏损失(KD-损失)。为了计算它,在训练开始之前,首先计算并记录由Yo表示的旧任务的原始CNN值得注意的是,由于用于旧数据k的数据是不可用的[15],因此Yk可在新数据上计算。Forimage如图1所示,Y1〇是一个概率的集合,即,Y2〇是一个概率的集合。e. softla bels. 我的意思是,在训练中计算如下:|Ko|KoLF(X,Y^)=−1y(ik)′·logp(ik)′,(2)i=1k=1其中Ko′i是用于旧task的class的集合,y(i)′和p(i)是修改原始CNN记录的软标签版本和旧任务的当前网络′y(ik)=. (ik)Σ1/γo′,p(ik)=. (ik)Σ1/γo、(3)Σj (ij)Σ1/γo oΣj(ij)Σ1/γo其中γ〇通常被设置为大于1,这增加了小的价值观LF通过鼓励当前的旧任务的预测与原始CNN的软标签匹配,尽管预测和软标签都是在新数据上计算的。当存在多个旧任务时,等式中的损失(2)为每个旧任务计算,然后它们的和用于LF。LwF存在一些局限性。首先,为了保持旧任务的性能,目标模型适应新任务,并尽可能模仿原始CNN的输出虽然有时这种约束提供了有用的正则化的情况下,罕见的新样本,它也可能阻碍适应新的任务。其次,当模型暴露于不同域的长序列任务时,旧任务的性能会降低很多[3],因为旧任务的损失是在新的数据上计算的,这些数据可能来自与以前的数据相比显着不同的3.2蒸馏蒸馏是我们的算法Adaptation byDistillation的缩写,其动机是促进对新任务的适应,同时保留旧任务的性能。网络结构如图2所示。蒸馏和LwF之间的主要区别在于对新任务的学习。在我们的算法中,目标模型通过知识蒸馏而不是直接在新数据上训练来适应新任务。 蒸馏步骤如下所述LO通过渐进蒸馏和回顾进行终身学习7^ΣΣΣ^nnOn新nn|Nn|nn训练数据特征提取器特定于任务的分类器新数据nn专家CNN∗ n损失∗∗ Od损失OCNN原创+回顾图二. 蒸馏+回顾的网络结构图示。有无回溯的结构是相同的,而不同之处在于训练数据的组成和旧任务的损失计算。Expert CNN和Original CNN的响应都可以在训练前记录,两者都不会带来额外的GPU内存消耗。当使原始模型适应新任务时,只有F*,T*,T*的权重是不固定的。首先,专家CNN纯粹在新任务上进行训练。损失函数仅具有用于图像分类的一个项,即,交叉熵损失如E-Q.(一).由此产生的专家CNN擅长区分新数据,因此它在理论上为新任务的性能提供了上限。首先,将ExpertCNN对新任务的学习结果进行统计并记录,作为下一步学习新任务的监督。最后,它涉及到适应新的任务,而不是灾难性的遗忘。知识蒸馏[10]不仅用于保持旧任务的性能,还用于适应新任务。损失函数也是由新旧任务两个术语组成。用于旧任务的一个是如在等式中计算的一种类型的KD损失。(2),而新任务的另一个是另一个KD损失而不是交叉熵损失,其计算如下:|Kn|KnLD(X,Y^)=−1y(ik)′·logp(ik)′,(4)i=1k=1当Xn/Y是新的训练点,并且由ExpertCNN输出的训练表的数量时,Nn是从Xn中提取的批次,Kn是新的训练点的类的数量。′task,y(i)′和p(i)是Expert录制的软标签的修改版本8侯赛辉,潘新宇,陈昌来,王紫磊,林大华npnnpnΣΣΣ老^老老OO|No|OOCNN和当前网络对新任务的预测:′y(ik)=. (ik)α1/γn′,p(ik)=.(ik)α1/γn、(五)Σj (ij)Σ1/γnnΣj(ij)Σ1/γn其中γn也被设置为大于1以增强小值的贡献。换句话说,新任务的学习是基于来自专家CNN的知识蒸馏。在训练中,新数据的one-hot标签被Expert CNN输出的软标签替换,这可以加强类之间的关系[24],从而促进对新任务的学习。此外,蒸馏也有利于旧任务的性能保留,因为原始CNN更容易将新数据的输出与软分布(即,专家CNN的软标签)而不是非常峰值的(即,独热标签)。3.3回顾回顾意味着旧任务的一小部分数据被保留用于终身学习。虽然需要额外的内存空间,我们发现,一个相当小的数据子集的旧任务是足以提供很大的帮助,性能保护,特别是与一个长序列的任务,不同的领域,如场景,鸟类,花卉和飞机。与LwF相比,使用追溯的旧任务的损失以不同的方式计算:|Ko|KoLR(X,Y^)=−1y(ik)′·logp(ik)′,(6)i=1k =1其中,Xo是旧任务的数据的一个小子集,Yo是记录的响应,美国有线电视新闻网(CNN)′它是来自X的样 本的 最大值。Besides,y(i)′和p(ik)o oo o是原始CNN和当前CNN记录的响应的修改版本旧任务的网络预测,如等式2所示计算。(三)、请注意,使用追溯,旧任务的损失(LR)以及原始CNN的响应(Yo)是在旧任务的保留的小数据子集上计算的,而不是新数据。在一个以上的情况下任务,上面的损失是为每个旧任务计算的,其中数据来自其自己的域,然后是LR计算为它们的总和,以保持在这些任务上的表现。3.4总结在我们的方法包括蒸馏和回顾,终身学习的损失函数也是由两个术语,分别为旧的任务和新的。与LwF相比,蒸馏采用一种KD损失n通过渐进蒸馏和回顾进行终身学习9新老表1.本工作中使用的数据集的统计数据。任务数据集#类别#培训测试次数ImageNetILSVRC-2012 [19]10001,281,16750,000鸟类[26]第二十六话20059945794花[18]第十八话10220406149场景[19]第十九话6753601340飞机[16]第十六话10066673333的交叉熵损失的新任务,而追溯更新的损失,旧任务的计算上保留的小数据子集,而不是新的数据。 在我们方法的最终版本中,即、蒸馏+追溯损失函数是等式(1)中的L_D的和(4)对于新的任务和LR当量(6)对于旧的任务,这可以帮助在每个单独的任务上大大优于LwF。此外,无论是否有回溯,蒸馏都优于LwF。回顾也可以与LwF集成,以显着提高旧任务的性能,这也有助于新任务。4实验4.1设置实验在各种分类任务上进行,包括Ima-geNet [6],场景[19],鸟类[26],花卉[18]和飞机[16]。我们认为两个和五个任务的集合以顺序的方式出现数据集。本工作中评价的数据集的统计数据(也用于[15,3,20])总结见表1。对于ImageNet [19],评估是在其验证集上完成的。实施详情。所有模型都使用Caffe [11]实现,并在Titan-X GPU上进行训练。AlexNet [14]由于其简单和高效的部署而被采用作为骨干网络,其在终身学习文献中被广泛使用[15,3,20,12,27,2]。特征提取器F由五个卷积层和前两个全连接层组成,而任务特征提取器F由五个卷积层和前两个全连接层组成。应用[1]中描述的方法和实践来训练专家CNN。至于在没有灾难性遗忘的情况下对新任务的适应,它是在损失的情况下进行的,以模仿原始CNN的输出,并且我们遵循类似的实践。随机梯度下降(SGD)用于优化。初始学习率被设置为0.001,并缩放到其1/10三次,直到收敛。训练图像(大小调整为256× 256)被随机翻转和裁剪作为输入,并且不使用其他数据增强推断是用测试图像的单个中心裁剪来完成的所有结果均报告为前1准确度百分比。对于其他类型的参数,N〇/N_nareset的最大值为128,而K_D_Loss的最大值为128。e. ,γo/γn,均为O2。这些损失是用于差异的10侯赛辉,潘新宇,陈昌来,王紫磊,林大华老老表2.从ImageNet开始的两任务场景的分类准确率(%)特征提取为第一个任务提供参考性能,而微调为第二个任务提供参考。D代表蒸馏,R代表回顾。ImageNet BirdsImageNet花卉ImageNet场景特征提取57.44(参考)50.12(-7.07)57.44(参考)83.10(-3.99)57.44(参考)60.22(-2.61)Finetuning43.20(-14.25)57.19(参考)48.45(-8.99)87.09(参考)46.61(-10.84)62.84(参考)LwF[15]54.49(-2.95)57.45(+0.26)55.77(-1.67)85.87(-1.22)55.01(-2.43)64.03(+1.19)D(我们的)55.34(-2.11)58.21(+1.02)55.95(-1.49)86.19(-0.89)55.65(-1.79)64.70(+1.87)LwF + R55.61(-1.83)57.79(+0.60)56.48(-0.96)86.53(-0.55)55.71(-1.73)64.70(+1.87)D + R(我们的)55.85(-1.59)59.55(+2.36)56.53(-0.92)87.02(-0.07)56.02(-1.43)65.00(+2.16)任务被设置为1,这在我们的实现中被证明是合理的选择。对于回溯,考虑到我们处理多个任务以不同顺序出现的情况,旧任务的类数量以不同的速度增加。为了进行公平的比较,我们选择为每个类别保留五张图像,而不是为所有类别保留固定的预算。这些图像是随机选择的,回顾策略将在第4.3节中进一步讨论。基线。为了验证蒸馏(由D表示)和回顾(由R表示)的有效性,我们将我们的方法与以下列出的几个基线进行比较:(a) 特征提取[7]:如第1节所述,它为第一个任务提供参考性能。(b) 微调[8]:如第1节所述,它为最后一个任务提供参考性能。(c) 不忘学习(LwF)[15]:如第3.1节所述,一种多任务终身学习的代表性方法。(d) 蒸馏:如第3.2节所述,通过蒸馏进行调整,而不访问旧任务的数据。(e) LwF+Retrospection:将Retrospection与LwF、LR集成的方法由方程式(6)旧任务的损失采用由方程式(二)、(f) 蒸馏+回顾:我们的方法的最终版本,如第3.2节和第3.3节所述,通过蒸馏进行自适应,为旧任务保留一小部分数据。此外,将单独讨论和比较来自[20]的方法,表示为基于编码器的LwF,其与我们的方法正交4.2性能比较双任务场景。表2和表3显示了两个任务场景中的性能比较。表2中的实验从ImageNet开始,而表3中的实验从较小的Flowers开始。在表3中,ImageNet不被视为序列中的任务,而是用于预训练模型,以防止在小数据集上从头开始训练。通过渐进蒸馏和回顾进行终身学习11表3.从Flowers开始的两个任务场景的分类准确度(%)特征提取为第一个任务提供参考性能,而微调为第二个任务提供参考D代表蒸馏,R代表回顾。花鸟花卉景观鲜花飞机特征提取87.09(参考)48.29(-8.72)87.09(参考)57.09(-5.07)87.09(参考)40.98(-26.13)Finetuning72.97(-14.12)57.02(参考)72.97(-14.12)62.16(参考)70.88(-16.20)67.12(参考)LwF[15]85.08(-2.00)54.55(-2.46)84.86(-2.23)61.87(-0.30)81.69(-5.40)66.10(-1.02)D(我们的)85.30(-1.79)56.64(-0.38)85.36(-1.72)62.31(+0.15)82.14(-4.94)67.57(+0.45)LwF + R85.15(-1.93)56.79(-0.22)85.31(-1.77)62.54(+0.37)85.07(-2.02)66.88(-0.24)D + R(我们的)85.38(-1.71)58.16(+1.14)85.73(-1.35)64.03(+1.87)85.57(-1.51)68.38(+1.26)表4.五个任务场景的分类准确率(%)在最后一个训练阶段结束时报告结果此处将LwF视为基线 D代表蒸馏,R代表回顾。Imagenet场景鸟花飞机ImageNet场景鸟类花飞机平均LwF[15]44.20(参考)55.90(参考)52.22(参考)81.64(参考)65.80(参考)59.95(参考)D(我们的)46.15(+1.95)55.67(-0.22)53.17(+0.95)82.37(+0.73)66.79(+0.99)60.83(+0.88)LwF + R49.70(+5.49)59.25(+3.36)56.45(+4.22)85.49(+3.85)66.82(+1.02)63.54(+3.59)D + R(我们的)50.58(+6.38)60.52(+4.63)56.84(+4.62)86.00(+4.36)68.41(+2.61)64.47(+4.52)Imagenet鸟花飞机场景ImageNet鸟类花飞机场景平均LwF[15]43.37(参考)52.26(参考)79.91(参考)63.25(参考)60.82(参考)59.92(参考)D(我们的)45.94(+2.57)51.90(-0.36)81.21(+1.30)64.30(+1.05)60.90(+0.07)60.85(+0.93)LwF + R50.05(+6.67)55.60(+3.34)85.12(+5.20)66.43(+3.18)62.39(+1.57)63.92(+3.99)D + R(我们的)50.84(+7.47)57.05(+4.79)85.72(+5.81)67.42(+4.17)62.91(+2.09)64.79(+4.87)Imagenet花卉飞机场景鸟类ImageNet花飞机场景鸟类平均LwF[15]44.49(参考)77.50(参考)61.57(参考)60.30(参考)56.02(参考)59.98(参考)D(我们的)46.37(+1.88)79.25(+1.74)62.47(+0.90)60.00(-0.30)57.22(+1.21)61.06(+1.08)LwF + R50.26(+5.77)84.48(+6.98)65.38(+3.81)62.31(+2.01)57.54(+1.52)63.99(+4.02)D + R(我们的)50.76(+6.26)85.07(+7.56)65.83(+4.26)62.54(+2.24)59.52(+3.50)64.74(+4.76)从表2和表3中的结果,我们观察到,无论是否有回顾,蒸馏在每个单独的任务上都优于LwF。 研究表明,通过知识提炼来适应新任务,既有利于新任务的学习,又有利于旧任务的绩效保持。在一些情况下 , 例 如 , ImageNet Birds , Distillation 在 新 任 务 上 的 表 现 优 于Finetuning提供的参考。据我们所知,其中一个原因是由于模仿[15]中所建议的原始CNN的输出而另一个原因是新任务的软标签不仅可以加强类之间的关系[24],还可以减少新数据的过拟合,从而使生成的模型更好地泛化。此外,我们还分别评估了回溯对LwF和蒸馏的影响。实验结果表明,少量的旧数据子集有利于保持旧任务的性能,也有利于学习在新的任务。12侯赛辉,潘新宇,陈昌来,王紫磊,林大华0.580.560.540.520.50.480.460.440.42第一阶段第二阶段第三阶段第四阶段第五阶段0.580.560.540.520.50.480.460.440.42参考LwFD TLwF+RDT+第一阶段第二阶段第三阶段第四阶段第五阶段(a)图像网场景鸟花飞机。(b)图像网鸟花飞机风景。图三. ImageNet在五个任务场景中的准确性下降。D代表蒸馏,以及R代表回顾。五个任务场景。表4显示了五个任务场景中不同方法的最终准确度。LwF在这里被视为强基线。可以看出,蒸馏也可以很好地处理较长的任务序列,并且在每个单独的任务上实现优于(或至少相当)LwF的性能,无论是否有回顾。为了进行彻底的比较,我们还在图3中说明了随着任务数量的增加,ImageNet的准确性下降,其中蒸馏+回顾的曲线以最慢的速度下降。回顾进一步证明了它的有效性,对旧任务的性能保持。值得注意的是,在Retrospection的帮助下,在作为第一个任务的ImageNet上,在表4所示的五个任务场景的所有三种情况下,我们的方法的最终准确率都比LwF高与基于编码器的LwF的比较。在表5中,我们将蒸馏与基于编码器的LwF[20]表示的正交方法进行了比较。 它建立在LwF之上,并为每个旧任务添加了一个自动编码器,旨在以略微增加模型大小为代价保留旧任务的关键功能。我们首先按照[20]中的设置进行实验,即,旧任务的数据不可用6。与LwF相比,基于编码器的LwF带来的增益主要针对旧任务,并且在最新任务上的性能相当或稍差。在所示的五个任务场景中,在表5中,在前两个任务中,蒸馏劣于基于编码器的LwF,但在后三个任务中优于基于编码器的LwF,导致可此外,由[20]引入的自动编码器也可以与蒸馏集成,这可以进一步提高精度。6表5中基于编码器的LwF的结果使用MatConvnet [25]实现[20]中的模型,并在记录输出时采用数据增强原创CNN除了五个任务的情况下,我们还采取了两个任务的情况下,这是在补充材料中提供参考LwFDTLwF + RD++R R精度精度通过渐进蒸馏和回顾进行终身学习13表5.与基于编码器的LwF比较的分类准确度(%)。参考性能分别由LwF和LwF+R给出。D表示蒸馏,R表示回顾,编码器表示[20]中的方法。Imagenet场景鸟花飞机ImageNet场景鸟类花飞机平均LwF[15]44.20(参考)55.90(参考)52.22(参考)81.64(参考)65.80(参考)59.95(参考)LwF +编码器[20]46.35(+2.14)58.43(+2.54)52.95(+0.72)82.03(+0.39)64.75(-1.05)60.90(+0.95)D(我们的)46.15(+1.95)55.67(-0.22)53.17(+0.95)82.37(+0.73)66.79(+0.99)60.83(+0.88)D +编码器(我们的)47.61(+3.40)57.76(+1.86)53.71(+1.48)82.56(+0.93)66.43(+0.63)61.61(+1.66)Imagenet场景鸟花飞机ImageNet场景鸟类花飞机平均LwF+R49.70(参考)59.25(参考)56.45(参考)85.49(参考)66.82(参考)63.54(参考)LwF+编码器+R50.47(+0.77)60.00(+0.75)56.45(参考)85.23(-0.26)66.46(-0.36)63.72(+0.18)D+R(我们的)50.58(+0.89)60.52(+1.27)56.84(+0.40)86.00(+0.50)68.41(+1.59)64.47(+0.93)D+编码器+R(我们的)51.21(+1.51)61.49(+2.24)57.22(+0.78)86.04(+0.55)68.20(+1.38)64.83(+1.29)然后进一步用回溯法(Retrospection)进行实验。,则为旧任务保留一结果示于表5的下半部分。在针对每个旧任务并入自动编码器[20]的情况下,与不重新访问旧任务的数据的那些相比,重新检查对于性能保持仍然非常有用此外,Distillation +Retrospection和自动编码器[20]的组合导致最佳结果。4.3讨论回顾战略。在我们的Retrospection实验设置中,我们为旧任务随机选择每个类五张图像,不同随机种子的结果在这里,我们进一步进行消融研究,以调查为旧任务保留的每个类的图像数量和采样策略。Imagenet BirdsandFlowers以鸟类为基准。 通过蒸馏+回顾获得结果。在这里采用在旧任务上的表现作为标准。如图4所示,旧任务的性能随着每个类存储的图像数量的增加而提高。为旧任务保留每个类五个映像是性能和内存消耗之间的合理折衷。至于抽样策略,除了随机选择,这里我们尝试另一种抽样策略。具体地,首先通过平均属于该类的所有样本的特征来计算每个类的类中心,然后选择接近类中心的图像用于回顾。图4中的随机选择。值得进一步探讨,以开发更有效的策略,为回顾,例如。,以自适应地发现每个类别的图像的数量。计算成本。与LwF[15]相比,Distillation引入的计算成本在于两个方面:在新任务上训练Expert CNN,然后记录其输出,两者都不麻烦。目标模型14侯赛辉,潘新宇,陈昌来,王紫磊,林大华60595857565554535251501 2 5 10 20全部每个类保留的图像数(a) Imagenet鸟类88878685848382818079781 2 5 10全部每个类保留的图像数(b) 花鸟见图4。回顾策略的消融研究。Random表示随机选择,Center表示选择靠近类中心的图像。旧任务的准确性随着为每个类保留的图像数量的增加而选择靠近类中心的图像并不明显优于随机选择。尺寸根本没有增加。至于追溯,它需要额外的内存空间来存储旧任务的数据。然而,我们的研究表明,一个小的子集的旧数据可以大大有利于旧任务的性能保存,特别是在一个长序列的任务,为不同的领域 。 例 如 , 在 表 4 所 示 的 五 个 任 务 场 景 的 第 一 种 情 况 下 , 使 用LwF+Retrospection的ImageNet的前1准确率比使用LwF的ImageNet高出5.49%,而为ImageNet保留的5000张图像不到总训练集的1/240。5结论本文提出了一种新的多任务终身学习方法,即蒸馏法和回溯法,该方法在保持原有任务的绩效和适应新任务之间取得了较好的平衡。适应通过从中间专家CNN中蒸馏,不仅可以促进对新任务的学习,而且有利于保持旧任务。回顾提出缓存一个小的子集的数据为旧的任务,这被证明是非常有帮助的性能保存,特别是在长序列的任务从不同的分布。 蒸馏和回顾的结合大大优于LwF,并为新旧任务带来一致的改进鸣谢:这项工作得到了国家自然科学基金61673362号基金、中国科学院青年创新促进会和中央大学基础研究基金的部分支持。 这项工作亦部分获得商汤科技集团的大数据合作研究资助(中大协议编号:( TS1610626 ) 、 香 港 优 才 研 究 基 金 ( 第 14236516 、 14241716 、14224316、14209217)。随机中心随机中心ImageNet上的准确性花的准确性通过渐进蒸馏和回顾进行终身学习15引用1. http : //nbviewewerr. 朱 培 泰 o rg/g i thub/BVLC/c affe/b lob/master/examp l es/02-fine-tuning.ipynb2. 阿尔容迪河Babiloni,F.,Elhoseiny,M.,Rohrbach,M.,Tuytelaars,T.:记忆感知突触:学习什么(不)忘记。arXiv预印本arXiv:1711.09601(2017)3. 阿尔容迪河Chakravarty,P. Tuytelaars,T.:专家门:通过专家网络进行终身学习。在:CVPR(2017)4. 卡鲁纳河:Multitasklearningg. I n:Learningtoolearn,pp. 95-133 02TheDog(1998)5. 陈,T.,古德费洛岛Shlens,J.:Net2net:通过知识转移加速学习。In:ICLR(2016)6. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。在:CVPR(2009)7. Donahue,J.,Jia,Y.,Vinyals,O.,Hoffman,J.,Zhang,N.,Tzeng,E.,达雷尔,T.:Decaf:用于通用视觉识别的深度卷积激活功能。In:ICML(2014)8. 格尔希克河Donahue,J.,Darrell,T.,Malik,J.:丰富的特征层次结构,用于精确的对象检测和语义分割。在:CVPR(2014)9. Goodfellow,I.J.Mirza,M.,肖,D.,Courville,A.Bengio,Y.:基于梯度的神经网络中灾难性遗忘的实证研究ArXiv预印本arXiv:1312.6211(2013)10.Hinton,G. Vinyals,O.,Dean,J.:在神经网络中提取知识。arXiv预印本arXiv:1503.02531(2015)11.Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,朗J格尔希克河瓜达尔-拉马,S.,达雷尔,T.:Caffe:用于快速特征嵌入的卷积架构ArXiv预印本arXiv:1408.5093(2014)12.Jung,H.朱,J.,Jung,M.,Kim,J.:用于域扩展的较少遗忘学习深度神经网络。In:AAAI(2018)13.Kirkpatrick,J.,帕斯卡努河Rabinowitz,N. Veness,J.,Desjardins,G.,Rusu,A.A.,米兰KQuan,J.,Ramalho,T.,Grabska-Barwinska,A.,等:克服神经网络中的灾难性遗忘Proceedings of the National AcademyofScie nces114(13),352114.Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:使用深度卷积神经网络的图像网分类在:NIPS(2012)15.Li,Z.,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功