没有合适的资源?快使用搜索试试~ 我知道了~
增量学习中塑性稳定性权衡
89增量学习中更好的可塑性-稳定性权衡:一个简单的线性连接器林国良中山大学中国广东lingliang@mail2.sysu.edu.cn朱汉禄华南师范大学中国广东hlchu@m.scnu.edu.cn韩江来辉中山大学中国广东laihanj3@mail.sysu.edu.cn摘要可塑性-稳定性困境是增量学习中的一个主要问题,其中可塑性指的是学习新知识的能力,而稳定性指的是保持先前任务的知识。许多方法通过存储以前的样本来解决这个问题,而在某些应用程序中,来自以前任务的训练数据不能合法存储。在这项工作中,我们建议采用模式连接的损失景观,以实现更好的塑性稳定性权衡没有任何以前的样本。我们给出了一个分析,为什么以及如何连接两个独立优化的网络,零空间投影为以前的任务和简单的SGD为当前的任务,可以达到一个有意义的平衡之间保存已经学到的知识,并给予足够的灵活性学习一个新的任务。 对模态连通性的分析也为我们提供了一个新的视角和技术来控制塑性和稳定性之间的权衡。我们在几个基准数据集上评估了所提出的方法。实验结果表明,该方法能取得显著的效果,对过去和当前的任务都有很好的效果。在 10-split-CIFAR-100 任 务 上 , 我 们 的 方 法 达 到 了79.79%的准确率,比传统方法提高了6.02%。我们的方 法 在 TinyImageNet 上 的 准 确 率 代 码 可 在https://github.com/lingl1024/Connector上获得。1. 介绍近年来,据报道,深度神经网络在各种任务上都有很在动态世界中,深度模型也需要随着新数据的可用而更新因此,增量学习(IL)[7,31]受到了广泛的关注,它研究了从顺序任务中持续学习的问题。在本文中,我们考虑无数据增量学习[36],其中来自先前的训练样本赖汉江为通讯作者。任务不存在。因此,无数据IL [9,33]的主要标准是,当新数据可用时,在不断改进模型时,不存储来自先前任务的数据。它是灾难性遗忘问题的直接原因[24],而可塑性-稳定性困境[3,28]是一个更普遍的问题:(1)可塑性:深度模型应该学习当前任务的新知识,(2)稳定性:它还应该保留以前任务的知识已经提出了许多算法来在可塑性和稳定性之间取得平衡。直观的解决方案是从先前的任务生成样本,例如,[40]ILCAN生成样本以保存旧知识。基于正则化的方法在损失函数中使用额外的正则化项来巩固先前的知识,例如EWC [21]使用Fisher信息来计算每个参数架构方法[24]学习深度网络的动态架构DER[41]冻结之前学习的表示,并动态扩展网络以执行新任务。基于算法的方法学习参数更新规则以保持先前任务的性能。例如,GEM [27]限制了与先前知识不相关的新任务更新。Adam-NSCL [37]在所有先前任务的零空间中更新网络参数,并在记住先前知识方面实现了有希望的性能。虽然Adam-NSCL能很好地保留已有知识,但强零空间投射也会损害当前任务的性能。另一方面,许多研究都集中在神经网络损失景观中的连通性[12,13]。之前的工作[14]发现,独立训练的深度网络的两个最小值可以在权重空间中连接,其中沿着路径的损失仍然很低。此外,最近的工作[13]和[38]表明,当网络仅共享初始SGD轨迹的几个时期时,存在连接两个模式连接性SGD(MC-SGD)[29]是为增量学习而设计的,它强制执行与所有任务的最小值线性连接虽然90XXFF旧的老XKKMC-SGD实现了很好的性能,它需要存储以前的样本,这与我们的问题集相矛盾。因此,一个有趣但具有挑战性的问题出现了:如何在没有以前样本的情况下在以前和当前模型之间建立一个高精度的路径在本文中,我们提供了一种新的见解来理解,分析和构建一个高精度的连接器,而无需任何先前的训练样本。为了理解为什么我们可以线性连接先前和当前任务的两个最小值,我们首先给出一个简单的分析,为所有任务提供经验损失的上限。然后,根据上界,我们将塑性和稳定性视为深度神经网络的两个独立优化问题。这两个网络经过训练,以最小化经验损失并相互移动。最后,我们提出了一个简单的线性连接器,以根据线性连接性在这两个网络之间实现更好的平衡[13]。我们的方法的核心是,我们发现了一种简单的方法来实现更好的塑性-稳定性权衡,即,一个简单的平均两个精心设计的网络,这导致更高的精度神经网络。2. 方法和相关方法2.1. 增量学习方法我们回顾了现有的几类用于可塑性-稳定性权衡的深度递增学习方法。基于正则化的方法:这一系列方法引入了一个额外的正则化项来平衡权衡。根据正则化项被显式应用的位置,这些方法可以进一步分为结构正则化方法和函数正则化方法[31]。结构正则化方法约束模型参数的变化。例如,EWC [21],SI [44],MAS [2]和UCL [1]明确地将正则化项添加到网络的参数中。函数正则化方法,也称为基于蒸馏的方法,使用来自先前模型和当前模型的预测之间的蒸馏损失作为正则化项。代表作有LwF [25]、EBLL [32]、GD-WILD [23]等。排练方法:这一系列的作品通过回放以前任务的数据来保存以前的信息。一些算法存储先前数据的子集,例如,[33]和GeppNet [15]。当存储空间有限时,重要的是找到可以近似整个数据分布的合适的数据子集,例如,SER [17]专注于范例选择技术。解决这一限制的另一种方法是使用生成建模方法[40]来生成大量先前任务的样本例如,DGR [35]是一个具有深度生成模型和任务求解模型的框架建筑方法:这些方法修改了非-减轻灾难性遗忘的基础架构,例如,HAT [34]提出了一种基于任务的二进制掩码,它保留了以前任务的信息。UCB [11]使用不确定性来确定要记住什么和要改变什么。动态增长方法[41]也被提出,例如,DEN [42]在新任务到达时动态扩展网络容量。Learn-to-Grow [24]建议通过显式神经结构学习来修改架构。基于任务的方法:精心设计网络参数更新规则,约束新任务的更新不影响先前任务的更新。GEM [27]和A-GEM [4]是两部具有代表性的著作。OWM [43]是克服灾难性遗忘的正交权重修改方法。Adam-NSCL [37]使用所有先前数据的零空间来记住现有知识,在IL任务上实现了令人印象深刻的性能在这里,我们简要回顾亚当-NSCL。我们有一个Wold模型,在以前的数据Xold上训练,而Xold在训练新任务时不可用。为了克服这个问题,Adam-NSCL将非中心特征共同存储在方差old=1XTX old以保证稳定性,其中n old是Xold中的数据点的数量。然后使用特征协方差 old的SVD 结果来找到Xold的零空间,表示为Uold。这样我们就有了 oldU=0。投影矩阵被获得为P old=UolddUoTld。现在,当新数据Xnew可用时,Wold可以是更新以了解新任务:Wt+1=Wt−αPold·gt,(1)其中W0=Wold,gt是仅根据新数据计算的梯度通过零空间投影,我们可以更新模型,使其能够记住W的旧知识。Adam-NSCL算法能够很好地保持原有知识,但由于零空间投影的影响,新任务的更新受到限制。我们的方法可以被看作是Adam-NSCL的一个扩展,它为以前的任务和当前的任务实现了一个更好的平衡模型。2.2. 线性模式连接优化神经网络涉及在高维非凸目标景观中找到最小值,其中某些形式的随机梯度下降(SGD)用作学习深度网络参数的优化方法。由于深度神经网络是非凸的,因此存在许多局部最小值。给定具有初始权重W0的深度网络,权重被迭代地更新,并且在时期k处的学习权重被记为Wk=Train(,W0)。训练深度网络的两个副本(例如,使用不同的数据扩充或投影),产生两个优化的权重W1= Train1 ( F , W0 ) 和W2= Train2 ( F ,W0)。91KKi=1∇≈2KK不我 我 i=1KLK(WK)+2λK1≤ˆΣ211最近,已经开展了大量工作[6,8,38]来研究神经网络优化景观。许多有趣的现象已经被发现。例如,一个有趣的观察[10,14]是两个最优值之间存在一个连接符。损失最小值不是孤立的。观察结果1(连通性)[10,14]在神经网络架构的最小值之间存在一条连续路径,其中沿着该路径的每个点都具有低损耗。为了找到连续路径,例如,从W1到W2,Wˆ1×Wˆ2W1'W2'ˆW*√ˆ图1.说明如何找到高准确度路径,其中W1和W 2是任务1和任务2的最佳权重之一。如果它们彼此移动得最接近(例如,朝向重叠区域),我们可以找到一个好的线性路径。Draxler [10] 提 出 了 一 种 基 于 Nudged Elastic Band(NEB)[19]的方法来寻找平滑和低损耗的非线性路径。[13]进一步表明,在某些情况下,两个最小值可以通过低损耗的线性路径连接。观察2(线性连接)[13,38]当W0不是随机初始化而是训练到某个产卵时期时,存在从W 1到W 2的线性连接器。这个条件很容易满足。当W0的优化轨迹相同时,两个最优解可以连接成一条线性路径。受此启发,MC-SGD [29]强制执行与所有任务的最小值线性连接的最终权重然而,MC-SGD存储了一小部分以前的样本来学习线性连接器。它不能在我们的无数据设置中使用。在本文中,我们相反,我们将以前的模型和当前的模型移得更近,以确保连接性。3. 方法在本节中,我们首先给出了增量学习问题的问题形式化。让顺序递增右椭圆是任务2的最优模型集,我们简单地连接两个任务的任何两个最优模型?例如,W1和W2的 线 性 连 接?它可能失败,因为从W101到W102的路径可能导致较差的性能。如何为所有任务不是一个微不足道的问题。如图1所示,如果我们能将W_n 1和W_n 2移向重叠区域,它们之间的高 事实上通过将最优权重移动到最接近的位置,所有任务的经验损失的上界将变得最小。理论解释来了假设任务i的最优或一致权重为Wi,其仅在第i个任务上被训练任务i的经验损失表示为Li(W)。我们的目标是为所有任务找到一个最终的权重W,使所有任务的经验损失最小化任务,例如,W=argminWKL i(W).首先,我们考虑一项任务。对于第一个任务,我们可以使用泰勒展开近似损失。按照[30]中的方式,它可以被公式化为:L1(W)<$L1(W1)+(W−W 1)T<$L1(W1)1∗ˆT2双头螺丝刀学习任务被表示为T,T,. - 是的- 是的,T,.- 是的-是的 ,并且每个+(W2-W1)1(W1)(W-W1)12吨任务包括一组不相交的类。在第t个任务中,我们Nt仅在第t个训练数据集D={(x,y)}中,L1(W1)+λmax<$W−W其中,N t是训练样本的数量,而随机模型W1:(t−1)。 我们需要更新以前的模型W1:(t-1)到一个新的模型W1:t,使得两个固有的prop-其中L1(W< $1)0,因为W< $1是最优权重,梯度范数为2π的本征值应考虑的问题:1)稳定性:新模式应该保留以前的t-1任务的知识,我们有:W1)。同样,对于其他任务,2)可塑性:学习新知识的能力。L(W)≤1001Max∗ˆ2第t个任务。我们首先分析了如何找到高精度的路径。然后,根据上界和线性2L2(W2)+2λ2W.-W2,连接,我们设计了一个简单的线性连接器。L(W)≤100最大值W−W- 是的( 三)3.1. 如何为所有任务构建高精度路径?通过总结它们,我们有:K K K假设有K个不相交的连续增量L(W2K192学习任务,例如,图1中的两个任务,其中左边的椭圆是任务1的最佳权重集,我i=1i=1Li(Wi)+2λi=1我(四)93Σi=1∈{···}−λ2KXDX−K{}i=112Ki=1 Li(W),可以通过最小化第二optK我的{W1,W2,···,WK}。将Wopt代入2λ1:(t1)s=0i=1不最大12Kj=1<$W<$ i−W<$j<$2。s=s+1我opt我我1:(t−1)1:(t−1)不不#线性连接器W1:t=t−1←W−sKi=1KK计算梯度←−g和→−g其中λ max = max(λ max,λ max,., λmax)。由于瓦伊是12K任务i(i=1,···,K),Li(W<$ i)最优权重为算法 一曰: 线性 连接器 对于可塑性-稳定性折衷最小值。因此,第一个术语 Li(Wi)也是输入:一组顺序学习任务T,T,···,最小值。因此,所有任务的经验损失,即,以及它们的训练数据集D1,D2,···; A项K W−Wi2. 很容易证明,∗训练第一个任务得到W1:1=Train(D1)第二项的最优权重W_opt为:K#计算null space用W1:1和D1模型求特征W=1W。(五)i=1我们可以看到Woxpt是质心或几何中心协方差X1:1和零空间投影1:1的比例对于任务TtT2,T3,执行#初始化两个网络ˆ ˆ ˆ∗1最大KK设←W−0=W1:(t−1),−W→0=W1:(t−1)且W−Wi <$2,我们有1λmax<$$>1<$KWj−Wi2≤而不收敛2KKi=1j=1从Dt取样小批次{X,Y}K K#保留以前的知识简体中文)≤L(W)+←W−s=←W−s−1-α·P1:(t−1)·←−gi=1i=11ΣΣ2K2我J#学习新知识−W→s=−W→s−1−α·→−g+1−W→st1:(t−1)tt在Eq.(6)可以给我们一个有趣的增量学习的观点:所有任务的经验损失可以通过最小化每个单独任务的经验损失之和以及每对最优权重之间的平方欧几里德距离之和来限制。如Eq.的上界所示(6)如果我们有1)前一个模型W_( ?)d和当前模型W_ (?)使用模型W1:t,t和1:t−1获得特征协方差1:t和零空间投影矩阵P1:t输出:W1:t特别地,我们使用Adam-NSCL来实现上述功能最佳解决方案,以前的K1任务和当前的K-第th任务,分别和2)这两个模型被移动目标. 上一个型号W1:(t−1)作为首字母-最接近彼此,那么我们可以简单地使用两个w模型的线性连接:Wopt=1W new+1K−1Wold=1W new+K−1W old(参见等式 (5))。所以深度网络工作的化<$W−1:(t−1)。在迭代s中,我们随机抽取一小批 X,Y从t,和交叉-熵损失函数用于学习模型。目标-函数可以表示为:所有任务的经验损失的上限将是最低3.2.线性连接器塑性稳定性min←W−1:(t−1)LCE(<$W−1:(t−1)).(七)权衡根据Eq.(6)训练两个独立的神经网络,分别考虑塑性和稳定性,两个模型相互靠近。最后,根据线性连通性和Eq.(五)、3.2.1记住以前任务的知识K2神经网络W和学习率α矩阵Pi=1将上述不等式与Eq.(4)我们有λmaxǁWˆ-W- 是的( 六)i=1j=194X我们计算梯度为←−g。为了保存以前的在已知的情况下,梯度乘以零空间投影矩阵。所有t− 1个任务的特征协方差是X1:(t−1),所有先前数据的投影矩阵是P1 : ( t−1 )= UU T,其中U是1 :(t−1)的特征向量集,其特征值为零。(有关获取特征的更多详细信息,请参见[37]中的Al-出租m 2协方差和投影矩阵)。然后,权重被更新为如3.1节所述,考虑稳定性的深度网络应该保留过去任务的知识,←W−s1:(t−1)=←W−s−11:(t−1)-α·P1:(t−1)·←−g,(8)向当前任务的最优集合移动。其中←W−01:(t−1)=W1:(t−1),α是步长。往上-95∈不−→D−W→tLL−→−1:t不×不DL约会策略可以确保它保留了过去任务的知识,并且模型也朝着当前任务的最佳集合移动[37]。对于β[0,1]。根据等式(5),我们设置β=1,这意味着我们平均所有t个任务的权重,并得到最终的网络为3.2.2学习当前任务的新知识在这里,我们更新了另一个考虑plas的深度网络W1:t=t−1←W−不11:(t−1)+tWt.(十三)提契特岛 如第3节所述。1,n e w模型−W→t应该1)是当前任务的最佳模型(等式右边的第一项)(6)),以及2)更接近于先前的(6))。特别地,给定第t个训练数据集t,目标函数可以公式化为:minLCE(−W→t)+LD(−W→t),(9)平均模型W1:t能取得显著的改善.随机加权平均[18]也使用了平均模型,他们表明这种平均模型可以收敛到更广泛的解决方案,具有更好的泛化能力。我们的方法总结在算法1中。线性插值:根据观察2,为了使两个网络线性连接,我们首先使用W1:(t−1)作为初始值来更新两个模型。然后,这两个网络以类似的方式进行训练,其中L(−W→)是交叉项损失函数,optima。线性连接器为我们提供了一个简单的CE t−→方法来控制之间的平衡前获得和学习当前任务的最优权重,D(Wt)旨在使新模式更接近以前的任务。一般来说,前一个模型<$W−1:(t−1)不是当前任务的最佳因此,简单地使用LD(−W→t)=||−W→t−<$W−1:(t−1)||2.会伤害到性能-芒塞CE(Wt).相反,我们使用特征蒸馏[45]故其为“无”。通过改变β:W的值来不妥协=(1β)←W−1:(t−1)+β−W→t。如果β=0,我们的方法就变成亚当-NSCL,主要侧重于记忆知识以前的任务。当β=1时,它在新任务上取得了很好的性能。图2显示了具有不同β的线性组合的性能。4. 实验结果(−W→)=1F|D t|{X,Y} Dt新 (X)−F老 (X)α2,(十)在本节中,我们评估了我们的模型在各种递增的学习任务,并将其与几个国家进行了比较,其中Fnew/Foldd是−W→t/W1:(t−1)的特征提取器,尊重我。 请注意,−W→t由fea组成真提取器Fnew,之后是分类器Cnew。和Fnew(X)/Fold(X)分别是通过Fnew/Fold提取的X的特征。通过这种方式,我们可以将当前的模型移向先前的任务。给定先前的模型W1:(t-1)作为初始化,我们可以简单地使用SGD或Adam [20]来学习当前任务的知识,梯度是→−g。在迭代s,神经网络被更新为−W→s=−W→s−1−α·→−g,(11)最先进的基线此外,我们还进行了消融研究,以了解Eq中不同β的先前和当前任务的性能。 (十二)、同时,我们还使用稳定性和可塑性的评价指标对模型进行了评价4.1. 数据集CIFAR-100[22]是一个数据集,包括100个大小为3232的图像类,每个类包含500个用于训练的图像和100个用于测试的图像。TinyIm- ageNet[39]包含200个类的120,000个图像。图像缩小到64×64,每个类包含其中-W→0=Wt t1:(t−1).500张训练图像、50张验证图像和50张测试图像年龄由于测试集的标签不可用,本文使用TinyImageNet的验证集进行测试。我们将数据集分成K个不相交的类子集4.1.1塑性-稳定性权衡现在我们有两个神经网络工作:←W−1:(t−1)和−W→t。的使得每个任务的训练样本来自C/K类的不相交子集,其中C是←W−1:(t−1)保留前一个知识,−W→t是类,K是任务总数。当K=10时,我们得到10-split-CIFAR-100,10个任务的标签为96{{-}当前任务的最佳权重。形式上,<$W−1:(t−1)和−W→t之间的线性连接符表示为:09,1019,... 9099,分别。当K=20和K=25,我们得到20-split-CIFAR-100和25-(1−β)←W−1:(t−1)+β−W→t,(12)split-TinyImageNet也是一样。 在任务Tt,我们只能访问Dt,并且不存储以前的数据97不ΣΣ4.2. 实现细节为了进行公平的比较,我们遵循Adam-NSCL的实验设置[37]。具体来说,我们使用ResNet- 18作为骨干网络,每个任务都有自己的单层线性分类器。在训练新任务时,只更新新任务的骨干网络和分类器,而以前任务的分类器保持不变。我们使用Adam优化器,初始学习率设置为第一个任务T1为10−4,两个任务<$W−0为5×10−5[21][22][23][24][25][26 ][27][28][29][29]][29][29][29][25]第27话,我是你的朋友。[14][15][ 16 ][17][19][1所有方法都使用ResNet-18作为骨干网络进行公平比较。−→1:(t−1)在其他任务中为0epoch的总数是80,学习率在epoch 30和epoch 30时减少一半。60. 20-split-CIFAR-100的批次大小设置为32,另外两个数据集设置为16。对于不能用梯度下降法更新的参数,例如,批量归一化层的运行平均值,我们也将它们平均为Eq。(13)。4.3. 评价方案我们使用平均准确度(ACC)来衡量模型在所有任务上的表现在这里,我们将任务的数量表示为K。在完成从任务T1到任务Tm的训练后,模型在任务t的测试集上的准确度表示为Am,t。ACC可以计算为K表1. 10-split-CIFAR-100的结果。请注意,ACC的值越大越好。方法ACC(%)BWT(%)ACC =1AK t=1K,t,(14)EWC 71.66-3.72马航63.84-6.29其中K是任务总数ACC越大,模型的性能越好。因为它是所有任务的平均准确度,所以我们必须考虑任务之间的平衡。我们使用反向迁移(BWT)[27]来衡量模型在持续学习过程中忘记了多少。BWT定义为K−1MUC-MAS 67.22-5.72SI 59.76-8.62黎巴嫩法郎74.38-9.11InstAParam 51.04-4.92粤公网安备44010502000014号GEM 68.89-1.2A-GEM 61.91-6.88MEGA 64.98-5.13BWT =1AK−1t=1K,t-At,t .(十五)OWM 68.47-3.37Adam-NSCL 75.95-3.66我们的80.80 -5.00它表示所有先前任务的平均精度下降。BWT越大,模型遗忘越少在本文中,我们的目标是实现一个更平衡的模型。因此,应将ACC和BWT放在一起考虑给定ACC和BWT两个度量,我们首先应该看到ACC:ACC的值越大越好。当两种方法具有相同的ACC值时,我们可以使用BWT来观察两种方法在稳定性和可塑性方面的表现:较小的BWT意味着该方法善于学习新知识,但忘记更多,较大的BWT意味着它忘记较少,但学习较少的新任务。4.4. 结果在这组实验中,我们将我们的方法与几种最先进的基线进行了比较。我们比较我们的方法表2.20-split-CIFAR-100的结果对于平衡模型,ACC值越大表1、表2和表3显示了比较结果。实验结果表明,该方法对传统方法有显著的改进.ACC在三个数据集上。BWT和ACC的结果表明,我们的方法可以实现更好的塑性-稳定性权衡。具体分析如下。10-split-CIFAR-100结果见表1。我 们 可 以 看 到 , 我 们 的 模 型 达 到 了 最 好 的 ACC79.79%, 这 是 6.02% 优 于 第 二 个 最 好 的 模 型 亚 当 -NSCL。我们模型的BWT值为-0.92%,与基线相比是这表明我们的模型可以在以前的模型之间获得有意义的平衡,方法ACC(%)BWT(%)EWC70.77-2.83MAS66.93-4.03粘多糖63.73-3.38SI60.57-5.17LWF70.70-6.27InstAParam47.84-11.92GD-WILD71.27-18.24创业板49.482.77A-GEM49.57-1.13Mega54.17-2.19OWM68.89-1.88Adam-NSCL73.77-1.6我们79.79-0.9298β=12T1T2β=13不1T2T3β=12T1T2β=13不1T2T310010010080 80 8060 60 6040 40 4020 20 20000。20406081β000。20406081β000。2040608 1β图2. 10-split-CIFAR-100上不同β的W1:2(左)、W1:3(中)和W1:4(右)的 准 确 度10010010080 80 8060 60 6040 40 4020 20 20000。20406081β000。20406081β000。2040608 1β图3. 在20-split-CIFAR-100上不同β的W1:2(左)、W1:3(中)和W1:4(右)的准确度方法ACC(%)BWT(%)EWC 52.33-6.17马航47.96-7.04MUC-MAS 41.18-4.03SI 45.27-4.45黎巴嫩法郎56.57-11.19InstAParam 34.64-10.05粤公网安备44010502000014号A-GEM 53.32-7.68MEGA 57.12-5.90OWM 49.98-3.64Adam-NSCL 58.28-6.05我们的64.61-6.00表3. 25-split-TinyImageNet上的结果任务和新任务。20-split-CIFAR-100如表2所示,我们的模型仍然实现了最佳ACC 80.80%,比第二佳模型GD-WILD好3.64%。请注意,GD-WILD存储以前的数据,它的BWT值比我们的差9.85%.同样,我们的模型实现了相对平衡的BWT值-5.00%。表3的结果表明,我们的方法实现了最好的ACC64.61%,第二好模型Adam-NSCL的ACC为58.28%。BWT和ACC表明,我们的方法不仅可以实现更好的性能,而且还获得更平衡的模型。注意,Adam-NSCL实现了优异的性能,即使如此,我们的方法也比Adam-NSCL表现得更好。总之,从结果中可以得出两个观察结果:1)我们的方法在所有数据集上都具有最佳性能。2)我们的方法在稳定性和可塑性之间实现了更好的权衡请注意,IL模型的性能(ACC )可以分为两部分:稳定性(BWT)和可塑性。因此,了解了ACC和BWT,我们就有可能了解可塑性的表现。我们将在下一小节中进一步讨论它。4.5. 消融研究在这组实验中,我们对三个基准数据集进行了消融研究,以观察β的影响。如Eq.(12),我们使用β来控制两个独立神经网络的比率。出于演示目的,我们只展示了三个顺序学习任务。其他任务的结果类似。具体地,当t=2时,T1是前一任务,T2是当前任务。 在任务T1和T2上使用不同β值的W1:2的测试精度如图2、图3和图4的左侧所示。T1的结果表明保持旧知识的能力,T2的准确率表明学习新任务的能力。当t=3时,任务T1、T2和T3的测试精度如图2、图3和图4的中间所示。β=142T3T4T1不β=142T3T4T1不准确度(%)准确度(%)99β=12T1T2β=13不1T2T3不数据集检索10010010080 80 8060 60 6040 40 4020 20 20000。20406081β000。20406081β000。2040608 1β图4. 在25-split-TinyImageNet上不同β的W1:2(左),W1:3(中)和W1:4(右)的 准 确 性当t=4时,T1、T2、T3和T4的测试accumaries显示在图2、图3和图4的右侧。由图2、图3和图4可以看出:1)当β=0时,W1:t=<$W−1:(t−1)可以很好地保存前一个知识。2)当β=1时,W1:t=−W→tper-在新的任务中表现良好(3)线性路径←W−1:(t−1)和−W→t几乎光滑,并且没有ob vi-我们沿着小路跳跃例如,T2的准确性随着β值的增大而增大,如图左侧所示。图2. 4)对于10-split-CIFAR-100和20-split-CIFAR- 100,当β接近1时,模型在所有任务上都取得了很好的平衡。对于25-split-TinyImageNet,虽然融合方法ACCBWT(%)I10(%)Adam-NSCL73.77-1.614.50我们79.79-0.928.10表4.10-split-CIFAR-100上的BWT和IM方法ACCBWT(%)I20(%)Adam-NSCL75.95-3.6612.60我们80.80-5.007.00表5.20-split-CIFAR-100上的BWT和IM不模型最具妥协性的解决方案。4.6.塑性-稳定性权衡分析1仍然为了更好地理解我们的方法,我们将其与Adam-NSCL进行比较,以分析塑性稳定性权衡。我们使用BWT作为稳定性的评价指标此外,我们还使用不变性测量(IM)[3]来测量可塑性,这表明模型从新任务中学习了多少。对第k个任务的不妥协可能是表6.基于25-split-TinyImageNet的折衷解决方案。为了解释为什么我们可以使用一个简单的线性连接器来组合两个模型,我们给出了一个分析,并表明它可以最小化所有任务的经验损失的上限。因此,我们提出了两个指标-计算为Ik=Ak−Ak,k,(16)悬垂神经网络第一个网络的目的是保存以前的知识,第二个网络是学习其中,A是第k个任务的测试集上的准确度,新知识我们使用零空间投影来学习ki=1是.Di. Ik越小,模型越好第一网络和第二网络的SGD。最后,我们简单地对两个网络进行平均,表4、表5和表6显示了BWT的结果和IM。首先,除了20-split-CIFAR-100之外,我们的模型 的 BWT 值 都 大 于 Adam-NSCL , 这 意 味 着 Adam-NSCL对20-split-CIFAR-100的先前知识有更强的记忆能力。第二,我们的模型的IM值比Adam- NSCL好得多。该方法综合考虑了稳定性和塑性,整体效果使ACC更高.5. 结论在本文中,我们提出了一个简单的线性连接器的增量学习,这是一个更好的可塑性-稳定性β=142T3T4T1不准确度(%)方法ACCBWT(%)I25(%)Adam-NSCL58.28-6.0510.50100显著改善。在我们未来的工作中,我们的目标是找到一种更好的方法来结合这两个网络,并给出一个更好的理论解释非线性/线性连接器。确认本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目(U1811261,U1811262)、广东省基础与应用基础研究基金项目(2019B1515130001,2021A1515012172)和珠海市产学研合作项目(ZH22017001210010PWC)。101引用[1] Hongjoon Ahn , Sungmin Cha , Donggyu Lee , andTaesup Moon.具有自适应正则化的基于不确定性的持续学习。神经信息处理系统的进展,第32卷,第4392-4402页,2019年。2[2] RahafAljundi , FrancescaBabiloni , MohamedElhoseiny,Marcus Rohrbach,and Tinne Tuytelaars.记忆感知突触:学习什么(不)忘记。 在欧洲计算机视觉会议(ECCV)的会议记录中,第144-161页,2018年。二、六[3] Arslan Chaudhry 、 Puneet K Dokania 、 ThalaiyasingamAjan-than和Philip HS Torr.渐进学习的黎曼步行:理解遗忘和不妥协。在欧洲计算机视觉会议(ECCV)的会议记录中,第532-547页,2018年。1、8[4] Arslan Chaudhry,Marc有效的终身学习与一个宝石。在2018年学习代表国际会议上。二、六[5] 陈宏仁、郑安杰、朱大成、魏伟、孙敏。通过实例感知参数化减轻在线持续学习中的遗忘神经信息处理系统的进展,33:17466-17477,2020。6[6] 安娜·乔罗曼斯卡,米克尔·赫纳夫,迈克尔·马修,Ge'rardBenArous 和 YannLeCun 。 多 层 网 络 的 损 耗 面 在Proceedings of the Eighteenth International Conference onArtificial Intelligence and Statistics,第38卷,第192-204页3[7] Matthias Delange、Rahaf Aljundi、Marc Masana、SarahParisot、Xu Jia、Ales Leonardis、Greg Slabaugh和TinneTuytelaars。持续学习调查:在分类任务中挑战遗忘。IEEE Transactions on Pattern Analysis and MachineIntelligence,第1-1页,2021年。1[8] Laurent Dinh、Razvan Pascanu、Samy Bengio和YoshuaBengio。尖锐极小值可以推广到深度网络。在ICML3[9] Arthur Douillard , Matthieu Cord , Charles Ollion ,Thomas Robert , and Eduardo Valle. Podnet : Pooledoutputs distilla- tion for small-tasks incremental learning.在欧洲计算机视觉会议上,第86-102页,2020年。1[10] Felix Draxler、Kambis Veschgini、Manfred Salmhofer和Fred A.汉普雷希特在神经网络能源领域基本上没有障碍在国际机器学习会议上,第1308-1317页,2018年。3[11] Sayna Ebrahimi,Mohamed Elhoseiny,Trevor Darrell,Marcus Rohrbach.贝叶斯神经网络不确定性引导的连续学习。ICLR 2020:第八届国际学习代表会议,2020年。2[12] 斯坦尼斯拉夫堡和斯坦尼斯瓦夫·贾斯特泽布斯基。神经网络损失景观的大规模结构。神经信息处理系统,第32卷,第6706- 6714页,2019年1[13] Jonathan Frankle , Ginner Karolina Dziugaite , DanielRoy和Michael Carbin。线性模式连接和很多-彩票假说ICML 2020:第37届机器学习国际会议,第1卷,第3259- 3269页,2020年。一、二、三[14] Timur Garipov,Pavel Izmailov,Dmitrii Podoprikhin,Dmitry P. Vetrov,and Andrew Gordon Wilson. dnn的损耗面、模式连通性和快速集成。在第32届神经信息处理系统会议上NeurIPS 2018,第31卷,第8789-8798页,2018年。第1、3条[15] 亚历山大·格珀斯和杰姆·卡拉奥古兹。一个应用感知问题 的 生 物 启 发 的 创 造 性 学 习 架 构 。 CognitiveComputation,8(5):924-934,2016. 2[16] 郭云辉,刘明瑞,杨天宝,和塔贾纳罗斯- ing.基于情景记忆的终身学习算法的改进方案。在神经信息处理系统会议上,2020。6[17] David Isele和Akansel Cosgun。选择性的经验重新发挥终身学习. 2018年AAAI人工智能会议,第3302-3309页,2018年。2[18] Pavel Izmailov,Dmitrii Podoprikhin,Timur Garipov,Dmitry P. Vetrov,and Andrew Gordon Wilson.平均权值导致更广泛的最优和更好的推广。在2018年第34届人工智能不确定性会议上,UAI 2018,第876-885页,2018年。5[19] Hannes Jonsson,G. Mills,and Karsten Wedel Jacobsen.求相变最小能量路径的微推弹性带方法。在ClassicalandQuantumDynamicsinCondensedPhaseSimulations,第385卷,第385- 404页,1998年。3[20] Diederik P Kin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功