没有合适的资源?快使用搜索试试~ 我知道了~
安全验证的持续学习解决方案提高现有知识保留和分类器性能
用于更安全分类器VahdatAbdelzad2克日什托夫·恰尔内茨基21计算机科学2滑铁卢大学电气与计算机工程系肖恩·塞沃德斯2摘要持续学习经常被“灾难性的获取”所混淆对于在部署前经过安全验证的真实世界分类系统在这项工作中,我们提出了建立在现有的无约束连续学习解决方案上的方法,这些方法增加了模型方差,以更好地保留更多的现有知识(从而提高安全性)。我们证明了我们的方法对流行的持续学习方法,使用标准图像分类数据集的变体的改进性能。1介绍使用神经网络的机器学习在图像识别、玩游戏、内容推荐和医疗保健等应用中取得了相当大的成功(LeCun、Bengio和Hinton 2015)。这些应用程序中的大多数需要大量的训练数据和谨慎选择的架构和参数。重要的是,学习的系统通常必须适应不断变化的现实世界的要求,因此需要重新训练。在这些情况下,通常希望保持在先前任务上的表现,同时学习在新任务上表现良好。这就是持续学习的构成(Mc-Closkey 1989).任何用于持续学习的策略都必须平衡可塑性(学习新任务的能力)和稳定性(记住以前任务的能力)。这是讨论得很好的稳定性-塑性困境(Parisi等人,2019)。这种困境可以用偏差-方差权衡来解释,这是 统计学习中的另一个众所周知的概 念(Geman,Bienenstock和Doursat 1992)。在这种情况下,(模型)方差表征可以用神经网络实现的解决方案的跨度。添加偏倚可以减少模型的方差,并且可以产生比无偏倚情况更好的解决方案(Gigerenzerand Brighton 2009)。在没有偏差的情况下,持续学习模型是可塑的(具有高方差);在强偏差的情况下,模型对于 学习新任务是刚性的(具有低方差)。在这项工作中,我们提出了增加方差的方法,而不会使模型变得过于可塑。图1:在Sim-EMNIST上,使用2个任务、5个种子和不同强度(λ∈[1,104])的L2与L1约束与传统的L2策略相比,L1参见第3.1节。我们将现有的持续学习方法归纳为三大类:架构方法(Yoon et al. 2018; Li et al. 2019)通过增加容量(即未经训练的权重参数)来逐步增长网络以学习新任务。虽然添加新参数增加了模型的复杂性,但这些方法要么冻结某些参数,要么迫使网络正则化方法(Kirkpatrick et al. 2016; Zenke,Poole,and Ganguli 2017; Wiewel and Yang 2019; Chaudhry et al.2018)假设一个固定的网络架构,并对关键权重的变化进行正则化,这样网络就可以通过改变不太重要的权重来学习在新任务上表现良好。正则化设置有一个整体损失,可以分解为当前任务的损失项和一个正则化项,以接近先前找到的配置。正则化项限制了版权所有© 2020本文由其作者。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用。m=1θθ1:i−11:我1:i,j该模型可以实现的解决方案的跨度。记忆方法(Lopez-Paz 2017; Nguyen et al. 2018)存储每个正在学习的任务的示例,然后学习一个新的任务,同时最大化每个存储的记忆的性能。每次更新查看更多数据或限制更新向某个方向通过使用ReLU前馈神经网络(最后一层后面是softmax而不是ReLU)实现,权重为θ作为函数逼近方法更具体地说,给定一个输入x,这样的网络输出一组小于等于1的正数,近似于x属于类的可能性。m:不会降低存储器的性能{Pθ(y=m|x)}M(一)减少了模型的方差。我们的工作重点是连续学习的正则化方法。我们注意到,在以前的工作中,性能通常是根据跨任务的平均验证准确性来判断的。虽然良好的平均验证精度是判断遗忘的最常见指标,但我们的主要关注点是安全性。在安全关键型系统中,以将先前认证的决策用于尚未检查的可能正确的决策为代价来维持平均验证准确性可能是不可接受的。同样,系统的校准可能要求所有分类器预测,无论是好的还是坏的,保持不变。因此,在目前的工作中,我们确切地考虑什么已经被遗忘,什么已经被学习。在下文中,我们提出了持续学习的方法,强调保留先前学习的任务。在第3节中,我们建议对特定数据集上可能发生的绝对遗忘量设置一个上限,并表明这会产生比M是类的数量,softmax函数确保值之和为1。为了符号简单,我们表示Pθ(y=m|x)作为P m(·|x)。 如果x的基本事实是y=g , 其 中 ( 1≤g≤M ) , 则 我 们 使 用 简 写 Pθ(·|x):=P g(·|x)对于标签g的预测的Li k,在这项工作中,我们使用交叉熵损失,或负对数似然损失,L(θ),定义在一个例子(x,y)上:L(θ)=−logPθ(·|(2)训练深度前馈网络以最小化目标的基于梯度下降的优化器在一批示例上使用这种损失的负梯度,即,−Ex[<$θL(θ)],用于计算每个优化步骤的权重变化。2.2不断学习设有n个数据集D1,D2,. . .,Dn,使得数据集Di有Ki个例子:在KL方法中,弹性重量固结(EWC)和D=(X,Y)=({x(k)}Ki,{y(k)}Ki(三)突触智能(synaptic intelligence,SI)。在第4.1节中,我们建议使用我我我ik=1i k=1通过该上限对于任何任务i,在任务i结束时达到的权重一定要进行规律化的持续学习。在第二节中,θ∗1:我 )还应保留任务1、2、. . . ,i −∗问题4.2中,我们修改了学习过程,以确保遗忘的上限永远不会超过预先指定的量。在第4.3节中,我们扩展了现有的EWC算法,以实现类似的网络保存趋势最后,在第5节中,我们评估和讨论了MNIST,EMNIST和CIFAR100数据集的变体上我们观察到,由于不同变体实现的解决方案的性质,不同的偏差强度可能对不同的数据集有用2背景表示法我们用|X|一个与x具有相同维数的向量,使得|X|是x中相应元素的绝对值。我们用x ·y表示内部1 .一、因此,理论上,θ1:i应该最小化数据集D1:i:=D1,D2,.上的交叉熵损失。. . ,Di.持续学习的目标可以很自然地实现通过 对所有相 关数据集 的实例 进行培训 (联合 培训)。随着任务数量的增加,联合训练很快变得昂贵 , 但 通 常 在 所 有 任 务 中 具 有 最 佳 性 能 ( Li 和Hoiem2017)。2.3正则化方法持续学习的正则化方法假设网络的容量是固定的,并通过组合损失L(θ)联合优化每个任务的两个目标,如下所示:L(θ):=Li(θ)+λG1:i−1(θ,θ)(4)x和y的乘积。|X|2表示向量x的元素平方,即,|X|2:=x<$x(Hadamard乘积)。第一章θ∗1:我= minL(θ)(5)θ和x2表示向量x的标准L1和L2范数(标量)。对于矩阵M,操作diag(M)产生由M的首对角线组成的向量。用于标量x,sign(x)表示正负号函数,如果x >0,则产生1,如果x= 0,则产生0,否则产生−1。我们用1:i表示索引1,2,. . . ,所述的载体训练任务1:i之后的权重θ表示为θi .第j个G是正则化损失。为了结合示例(x,y)的知识,优化步骤计算梯度更新:<$θ<$− <$θL(θ)(6)注意,许多优化方法使用额外的θ元素表示为θ。 1:我(更快地收敛到解决方案的策略,比如momen-tum(Sutskever等人,2013),自适应梯度(Duchi,2.1分类分类的目标是最大化给定数据集D的性能(验证精度)。这可以Hazan 和 Singer 2011 ) 和 矩 估 计 ( Kingma 和 Ba2014)。然而,就其本身而言,它们并没有为持续学习提供任何特别的优势。因此,为了简单起见,我们只讨论一阶梯度更新,(、J1:i−11:i−1J1:i−11:我联系我们θ1:i−1,j1:i−1,j∗˜θ+θj1:i,j1:我正则化的连续学习目标,即− <$θL(θ)。这种梯度更新提供了足够的信息,可以提供有关这些方法如何保留现有的它(θj)被修改了多少,而不是依赖于Fisher重要性。请注意,稳定性更新的形式与EWC相似:知识在正则化损失的情况下,梯度更新分解为两个分量:− εθ{Li(θ)}和−∇θ{λG1:i−1θ θ∗1:i−1Σ)}=−2c<$i(θjJ1:i−1,j)− <$θ{λG1:i−1(θ,θ <$)}。前者可以解释为作为可塑性更新,它试图优化当前的任务稳定性更新,它试图维护现有的知识。在这项工作中,我们使用交叉熵损失(2)来计算塑性更新。交叉熵目标是合适的可塑性更新,因为它产生指数强更新为Pθ(·|x)→0。稳定性更新文献中的大多数正则化方法在以下KL散度上使用二阶泰勒近似作为正则化损失G1:i−1(θ,θθ ≠1))的人:Σ ΣKLp(θ|D1:i−1)||p(θ|D1:i−1)≈1| ∆θ|2·diag(F)(7)2这仍然是弹性约束,除了每个参数的重要性是fbi,而不是Fisher重要性。还有其他方法使用类似的更新形式,但使用不同的策略来计算正则化常数,例如EWC++(Chaudhry et al.2018年)。我们注意到,虽然弹性约束及其变体构成了持续学习的良好稳定性偏差,但它们可能比所需的更强。具体地说,他们最小化后验和先验之间的KL分歧,但不直接考虑遗忘量,这影响了知识的传承在下文中,我们建议使用较弱的稳定性偏差,其更强地保留先前的知识。3分类器预测的变化在本节中,我们将量化网络学习新数据时的遗忘量该量化提供了一种通用策略,用于定义稳定性更新中的每个参数的重要性。更具体地说,我们提供了一个近似的这里,F F(θ,D1:i−1)指的是empiri-∗绝对遗忘量的上界数据集。cal Fisher信息矩阵,在θ1:i−1和p(·)处评估指的是权重分布,最大似然由优化器找到的估计值在学习的同时-对于Di,从贝叶斯观点来看,p(θ|D1:i−1)表示3.1遗忘的绝对数量在学习了任务i之后,网络的权重是θ。先验权分布和p(θ|D1:i−1)表示为简单起见,设θ≡θ∗1:我之后,在任何时候后验权重分布后,看到一些更多的数据从Di。我们建议读者参考(Kirkpatrick et al. 2016;Husza' r2018)以更好地理解这种近似公式。所 有 使 用 这 种 近 似 的 方 法 都 将 构 造 类 似 于 形 式−a·(θ−θθ)的稳定性更新。我们可以很容易地看到这两个流行的方法,EWC的情况下,在顺序训练过程中,权重在θ= θ+ θ =θ。假设θ很小,我们可以应用个体预测似然P m的一阶泰勒近似在θ=θ附近:P m<$P m+<$θ·(<$θP m)|θ=θ(8)个体对一个例子的预测似然Pm和SI。EWC(Kirkpatrick等人,2016)构建了一个规则的-x∈ Di随大小变化化损失G1:i−1(θ)乘以每个(θj−θ)2由Fisher信息中相应的对角项Fjj|为|Pm(·|x)− P m(·|x)的|.|.(九)θθ+θθ信息矩阵重量θj的平方位移平均而言,个人的前-从之前的权重θθ是由费雪公式计算出来的数据集Di上的指示似然性Pm由下式给出:重量的重要性因此,稳定性更新具有形式:预期−θ {λG(θ,θθθ))}=−λΣ Fjj(θj−θ)- 是的E.Pm.Σ(·|x)−P m(·|x)。1:i− 11:i−1J1:i−1,j(x,y)Di .联系我们- 是的θ=θ.. Σ这种更新可以理解为一种弹性约束≤|∆θ|·E(x,y)D. θPm(·|x)。.(十)(much如弹簧),其迫使θj接近θ1:i-1,j。I.θΣθ=θ。θj的稳定性更新的强度取决于λ,θj的Fisher信息项Fjj和Cm<$θj−θ<$ 1,θ)。(十一)(θ−θ)J)的。这种更新的方向总是朝着j1:i− 1,jθ=θSI(Zenke,Poole和Ganguli 2017)使用类似的在每个任务i处,我们可以最小化um(Di′,θi′,θ)di-1:i−1,j′1:i-θθJJJ形式为EWC,但是针对每个先前数据集i直接计算每个参数的重要性,并且这最小化了我以不同的方式。具体来说,是如何记忆应该减轻灾难性的遗忘(Cm是参数,对于标号m的网络输出,θj影响了总损失的变化,θj的重要性为Ω1:i−1,j1:i−1(1≤m≤M)。这构成了我们的最小化标准。我们扩展了符号,在计算Pm上的上界时使用um,在计算地面上的上界时使用u真相一个更弱的约束如果这个绝对数量的忘记- ting是稳定性更新的一部分,则稳定性更新对应于较弱的约束:−<$θ{λG1:i(θ,θ<$)}=−<$θ{λum(Di−1,θ<$,θ)}1:i− 1. Σ≡ −∇θλ1:i−1Cm1j1:i−1,jJ(十二)Σ=−λCmsign(θj−θj)j1:i−1,jJ(十三)与弹性约束不同,θj的这种稳定性更新的强度取决于λ和Cm,但不取决于图2:λ对DM-L1(案例III)、DM-L2(案例III)和EWC 的 最 终 平 均 确 认 准 确 度 的 影 响 , 对 于 Sim-EMNIST,两个任务,10个种子。不同的方法在不同的温度下实现了最佳的接头稳定性和塑性λ的强度。(θj−θ1:i−1,j)的大小;此更新的方向为总是朝向θbias..因此,这是一种较弱的稳定性项θ作为正则化项,而ridge添加了L为了理解通过此12获得的解决方案的性质,项θ2作为正则化项。这两个双-较弱的更新,我们考虑一个简单的两个任务的例子(Sim-22EMNIST,但用于两个任务)。使用第4.1节中描述的方法我们观察到,随着λ的强度增加,任务1的准确性得到了更多的保留,但在某些时候,任务2的性能会下降。在这两个变体中,L1约束获得稀疏解,其几乎总是在遗忘任务1上更受限。这是通过设计,因为目标是更强烈地最小化对先前任务的遗忘,如稍后所解释的。垂直虚线对应于训练任务1. 虚线对角线表示最佳等效总精度所在的线(对于某个常数c,x+y=c)。任务2的表现下降的点对应于稳定性-可塑性曲线的最佳值。为了理解该曲线,在图2中,我们绘制了这两个任务示例在宽λ范围内的最终平均验证准确度。可以观察到,对于绝对预期遗忘量的L1和L2版本,存在不同的λ值,在该值处,该方法实现(联合)最佳稳定性和可塑性。这是通过L1变体的λ值低于L2变体的λ值来实现的与回归模型的类比正则化的连续学习目标与有偏回归模型中的目标具有相似的形状回归模型通常最小化普通的最小二乘目标OLS(θ),但遭受高方差问题。减少这种差异的最流行的方法是通过LASSO和岭方法,ods,通过正则化项将偏差引入回归权重θLASSO增加了一个L1条件是解满足<$θ<$1≤t或<$θ <$2≤t,对于某个小的t,LASSO产生稀疏解,是一个非零权重更少的解决方案从贝叶斯的角度来看,这是因为LASSO收缩等价于拉普拉斯先验,而岭收缩等价于高斯先验。由于拉普拉斯先验更接近其均值,因此解决方案更有可能是均值(并且接近均值)而不是高斯先验。类似地,正则化的持续学习最小化最近任务Li(θ)的损失,同时确保G1:i−1(θ,θ ≠1))≤t。当使用G的近似KL-散度时,它产生贝叶斯解释(例如,在EWC中解释),先验p(θ)之间的KL-发散|D1 :i−1)和后验p(θ|D1:i)应≤t,同时使交叉熵损失最小化。当使用遗忘的绝对量时,它可以被理解为试图将来自先前数据集的遗忘的绝对量保持在一定的时间内。关于L1-在L2版本中,θj可能比L2版本中更多地保持不变与KL方法的等价性如果希望保留与地面真值标签相对应的分类行为,则最小化准则具有与KL方法类似的形式,其使用基于(7)中所述更具体地说,我们的上限的平方L2版本小于二阶近似KL发散(具有经验Fisher的对角线)。这意味着当使用期望项而不是Fisher时,稳定性更新的幅度较小每参数更新的这种解释实现了略高的模型方差,θθθθJ1:我1:我θ∗1:我1:我我1:我1:我.嗯嗯。m这与我们的目标一致。证明如下:案例一案例二P1E(x,y)≠ Di- 是的Pθ+θ(·|x)−Pθ(·|x)的-是的Σ2Σ.2Σx P2x P2PMPM()≤|∆θ|2·E(x,y)D. θPθ(·|x)的|θ=θ。2英里。. 2Σ≤|∆θ|Σ·E(x,y)≠Di. Pθ(·|x)的|θ=θ。案例三案例四P1=Fjj(θj−θj)2J3.2扩展到不同的用例在输出标签方面的上限的制定允许其适应不同的用例。具体来说,现实世界的系统有不同的动机,持续学习,这是依赖于需求规范。例如,在离群值检测系统中,可能期望比其余类更强烈地保留拒绝类,因为保留关于离群值示例的知识具有最高优先级。因此,更一般地,取决于要求,可能期望保留由所有或一些输出神经元表达的网络行为。我们确定了四个这样的用例,我们在图3中说明并描述了be- low:情形I我们可以保留从θθ到θ+θ的整个预测似然集,这会惩罚任何单个预测似然的变化。这是该准则的最严格版本,可以通过正则化1≤m≤M的单个变化的总和来实现:xPxPPMPM图3:用例I-IV。输出神经元的强度表示它们的情况I保留所有输出。情况II保持输出与它们的置信度成比例。情况III仅保留地面实况输出。案例IV保持了与其置信度成比例的地面真值典型的动机是保持稳定的平均验证精度。情况IV我们可以部分地保留地面真值的预测似然的变化,也就是说,惩罚变化Pθ ( ·|x ) =1→Pθ+θ( ·|x ) =0 , 但 所 有 的 变 化 Pθ ( ·|x ) =0→Pθ+θ(·|x)=1,用于地面真实预测似然性。 只有当在θ处正确分类的x(对地面真值的高置信度)在θ+θθ处被错误分类(对地面真值的低置信度)时,才会应用惩罚。使用以前定义的不-uI(Di,θΣ,θ):=1≤m≤Mum(Di,θ,θ)(14)这产生:uIV(Di,θ,θ):=u<$(Di,θ<$,θ)(17)情况II我们可以保留置信度标签在θ处的预测似然变化,这通常对应于到{Pm(·)}中的最高个体概率|x)}M. 这θm=1在与安全关键系统相关的任务中可能是期望的其中网络已经在部署时被安全校准,并且现在需要添加一些更多的知识而不破坏先前满足的安全校准。实现我们可以先计算出|(P m)P m|4策略和应用有了绝对遗忘的界限,我们就有了保存知识程度的量化,因此也就有了保存有效知识程度而不是(9)中的公式:θ∗θ∗边缘在本节中,我们提供了一些策略,最小化这个量化。E(x,y)≠ Di- 是的. Σ. (θPθ|θ=θ)Pθ。(Di,θ1:i,θ)(15)4.1调整遗忘遗忘量的上限可以是由于网络然后,1≤m≤M的置信度加权上限m可以是使用:在稳定性更新中使用现在我们可以从遗忘量的角度来理解这个公式,我们需要确保所有先前数据集的绝对遗忘量之和≤t我们可以把它通过在(4)中选择G1:i−1(θ)来计算对象i,如下所示:u(D,θ)Σ,θ):=m(D,θ),θ)(16)IIi1:i1≤m≤Mi1:iG1:i−1(θ):=g(Di′,θ1:i′,θ)<$1≤i′≤i −11≤i′≤i−1gi′情形III我们可以通过直接正则化uIII(Di,θ,θ):=u(Di,θ,θ)来保持地面真值的预测似然的绝对变化。这对应于这里,对于每个先前的数据集,g可以是uI、uII、uIII、uIV在完成针对特定数据集Di的训练之后,g(·)可以被计算。计算并与G1:i−1(θ)相加,得到G1:i(θ)。利用该定义,目标可以如(5)中所表示的那样被优化。为了评估哪个版本的稳定性偏差(L1或L2)是适当的知识保存,我们进行实验与L1,L2和弹性网络变量的目标。L1和L2变量在第3.1节中描述,弹性网络变量是这两个变量的加权组合(Zou and Hastie 2005);我们使用等权组合,称为E0。五、我们将这些方法称为直接最小化(DM)策略。4.2更好地控制遗忘通过拉格朗日乘数法的最小化产生Li(θ)的最小值,使得数据集D1:i−1上的绝对量fr由某个t限制,即G1:i−1(θ)≤t。在不对解作任何附加假设的情况下,t的值由下式确定:最小化程序。然而,可以改变最小化过程以实现对遗忘量t的更多控制,从而实现对保存程度的虽然这引入了更强的偏差,从而降低了模型的方差,但它也为我们提供了一个超参数,以找到精确的t,在该t处,对于某个稳定性偏差,解是最优的。具体来说,让我们假设我们不希望G1:i−1(θ)超过某个c。我们可以如下将标量恒等项I附加到交叉熵目标:图4:应用于Sim-EMNIST的EWC上的Fisher冷冻;λ= 1时5个种子的平均值。当我们冻结更多的权重时,任务1的准确性会增加,而任务2的准确性会降低。解决方案的趋势是类似的,使用L1。和绝对梯度的期望值。为了最小化分类器可能性的变化,我们可以选择最小化|∆θ|更传统的是,通过冷冻最不发达的国家,重要的重量。 这降低了|∆θ|和因此导致分类器预测的较小变化选项。文献中的其他策略也尝试了类似的方法(Serraet al. 2018)。请注意,此方法直接在|∆θ|.具体来说,我们计算Fisher信息矩阵Li(θ)·I(G1:i−1(θ)≤c)+λG1:i−1(θ)(18)θ∗1:我)并选择最高p百分位数参数θp只要G1:i−1(θ)≤c,则该训练对象ive与(4)和(5)中的描述相等当G1:i−1(θ)>c时,θ。对于这些参数,我们确保优化器不会更新它们的值。为了与上述L标准分开评估这种冻结的影响,训练目标直接最小化GG1:i−1 (θ)直到1我们冻结EWC上的重量。在我们的实验中,我们参考1:i−1(θ)≤c。这迫使优化器重新关注于找到首先满足G1:i−1(θ)≤c的解决方案,从而迫使优化不超过某个c(稳定性是强制执行)。通过单独考虑G内的不同g,可以获得更严格的目标:Li(θ) ·I(g1(θ)≤c1, ···,gi−1(θ)≤ci−1)+λG1:i−1(θ)(十九)在我们的实验中,我们使用这个更严格的目标,保持每个任务i的遗忘阈值(ci)。我们初始化ci←c(1),然后逐渐增加这种遗忘当我们看到更多的任务时,阈值,即ci←ci+c(2)per新任务看通过超参数搜索,我们可以获得对于给定稳定性偏差产生最佳解的最小值c4.3费希尔冷冻对于任何正则化策略,所有权重总是更新的,即使某些权重的变化非常小。这可能会干扰敏感权重,例如早期层权重(Raghu et al.2017年)。即使这种扰动很小,小的扰动也会在多个任务上叠加,最终不可逆地影响分类器的可能性。EWC-p的方法。作为一个例子,我们在图4中绘制了任务1与任务2在EWC冻结时的准确性。随着p的增加,溶液的性质与图1所示的相似。因此,p的增加降低了模型的可塑性,这是预期的。这表明,通过引入这个超参数p,可以直接通过EWC实现更高的解跨度(更高的方差)。5实验我们评估我们提出的方法,并比较其性能与其他流行的KL为基础的方法在连续学习。我们评估以下策略:Baseline仅使用似然损失进行训练,即没有正则化(没有稳定性偏差)。EWC 累 积 Fisher 信 息 矩 阵 和 组 合 二 次 损 失 , 如( Kirkpatrick et al. 2016;Husz a'r2018;Kirkpatricketal.2018年)。 我们在参考相关文献的基础上,从零开始实现了该方法. 请注意,EWC是一个与未加权的L2正则化相比,j(θj−分类器似然变化的上界∗1:i−1,j)2. 这与中描述的L2变体不同数据集Di依赖于两个 项(参见(10)),|∆θ|这项工作,它具有每参数的重要性。F(θSISynaptic Intelligence 策 略 , 如 ( Zenke , Poole 和Ganguli 2017)所述,使用作者发布的原始代码。DM-I,II,III,IV在第4.1节中提出了一种策略,直接正则化遗忘量,适用于L1,L2和弹性网络变量。DM-I、II、III、IV,具有精细控制,在第4.2节中提出,类似于先前的策略,但具有额外的超级参数,允许对遗忘进行更精细的控制;针对L1、L2和弹性网络变体进行评估。第4.3节中描述的EWC-p冷冻策略;在EWC上实施。5.1培训方法每个策略的训练在具有2个隐藏层的前馈ReLU网络上执行(h= 128,η= 0)。0001),持续20个时期。对于超参数搜索,我们在单个随机种子上评估所有方法,然后选择具有最高平均验证精度的参数最终结果(平均值和标准差)使用最佳参数在5个种子上取平均值表1显示了拟定方法的性能(最终平均验证准确度)。我们使用亚当优化器我们经验,经验iments.常数搜索为EWC包括λ∈{1,101,102,103,104}。 为 DM-1, 二、 第III期和第IV(with没有更好的控制),我们寻找λ∈ {1,101,102,103,104},c( 1 )∈ {0. 025,0。05,· · ·0。10}且 c( 2 ) ∈ {0. 0 , 0 。 025 , 0 。 05 , ···0 。 10} 。CIFAR100在数据集上,我们搜索λ∈ {1,101,102,···107}。对 于 EWC-p , 我们 搜索 p∈ {0} 。 1 , 0 。 2 , 0 。3,· · ·0。9}。对于SI,我们搜索c ∈ {0}。01,0。1,0。5,1,2}和∈ {0. 001,0。01,0。1,1}。对于CIFAR 100实验,我们使用来自预训练Resnet-v1模型的嵌入,该模型在100类分类上达到了5.2数据集我们对以下数据集进行评估置换MNIST5任务版本,其中每个任务都是MNIST数据集上的10类分类,具有置换像素;用于(Kirkpatrick et al.2016; Zenke , Poole, and Ganguli 2017; Nguyen et al.2018; Li et al.2019年)。拆分MNIST5个任务,其中每个任务都是2类分类。这些任务是MNIST数据集中的标签0/1、2/3、4/5、6/7和8/9; 用 于 ( Chaudhry et al. 2018; Wiewel and Yang2019)。相似EMNIST从EMNIST数据集中手工挑选标签,使分类任务看起来大致相似; 4个任务,3类分类,任务标签为2/O/U,Z/8/V,7/9/W和T/Q/Y。CIFAR 100具有5个任务的真实图像数据集; 3类分类;任务标签为0/1/2、3/4/5、6/7/8、9/10/11和12/13/14。与CIFAR100类似,但任务是从超类中选择的,因此每个任务的标签对应于粗略的类。我们选择了“水生哺乳动物”、“食物容器”和“家庭毛皮”这三个粗略的类别“嗯”。由于每个粗类包含5个超类,因此这对应于跨越5个任务的3类分类。我们选择的两个数据集是相似的连续数据集。任务相似性的影响已经在本研究之前进行了讨论(Kemkeret al.2018),但这些讨论认为置换数据是类似的任务。另一方面,我们的研究认为,如果标签来自一些共同的数据超类分布,则不同的数据集是相似的。这具有实际意义,因为在现实世界的分类系统中,我们通常希望我们的分类能力在较新的分类任务与先前的数据在标签方面类似时持续存在。例如,我们期望一个在汽车和摩托车之间进行分类的分类器能够轻松(持续)学习卡车和自行车之间的区别。此外,我们注意到,持续学习中的许多工作都是在增量类上进行评估的,但对于增量类,网络预计只会记住在多个任务中看到的标签然而,记住多类分类需要记住每个任务中所有类之间的差异。这是我们选择跨越4或5个任务的少类分类的理由。5.3结果我们的数值结果在表1中给出。我们报告以下见解:基线和现有的方法正如预期的那样,所有数据集的基线都会导致灾难性的遗忘。对于类似的数据集Sim-EMNIST,这种遗忘较少,Sim-CIFAR 100,因为分类任务是相关的,也就是说,学习第一个任务就足以在接下来的任务中表现出色。EWC和SI显著提高了基线精度。我们发现,在几乎所有的数据集(Sim-EMNIST除外)中,L1变体在多个任务中找到了更好的整体解决方案,相比之下,L2变体。在精细控制的情况下,这仍然适用于几乎所有的数据集,但Sim-CIFAR 100除外。请注意,即使在例外情况下,平均精度也会有很小的差异。精细控制我们希望DM-L1和DM-L2的精细控制版本在所有数据集中表现最好,因为使用正确的超参数,它可以找到最佳值,共同最大化可塑性和稳定性。我们确实在灰度数据集上观察到了这一点,其中改进是好的,但这在CI-FAR100数据集的情况下并不成立。我们推测这是因为c(1)和c( 2 )的超参数搜索的粒度相对较粗。由于针对CIFAR100数据集的λ搜索在计算上已经很昂贵,因此我们选择不以更细的粒度重复搜索尽管如此,精细方法的最佳值仍然优于EWC和SI。方法P-MNISTS-MNISTSim-EMNISTCIFAR100Sim-CIFAR100基线55.63(1.04)63.36(0.38)75.38(1.15)37.48(5.74)76.25(0.49)EWC93.86(0.30)70.85(2.65)89.65(2.99)61.70(2.41)83.76(2.06)SI92.64(0.75)78.30(2.65)91.41(1.21)62.08(1.34)83.67(0.88)EWC-p94.47(0.26)72.02(2.80)89.15(2.95)65.41(3.36)85.00(1.35)DM-L1(最佳)95.02(0.30)77.24(1.96)88.65(2.97)65.61(4.88)84.33(1.64)DM-E0. 5(最佳)94.98(0.23)80.30(2.09)88.90(1.93)65.91(2.15)84.39(0.97)DM-L2(最佳)94.27(0.32)71.23(3.43)89.53(2.64)61.24(2.07)83.64(0.60)DM-L1(最佳,优良)95.07(0.13)80.04(1.88)92.95(0.76)65.77(4.80)83.87(1.77)DM-E0. 5(最好,好)95.05(0.19)80.30(2.10)91.62(1.06)65.25(1.81)84.53(0.97)DM-L2(最佳,优良)94.35(0.29)68.99(0.85)89.45(2.89)61.24(2.07)83.91(2.04)表1:第5节中描述的所有方法和第5.2节中提到的所有数据集超参数搜索的细节在5.1节中提到。方法通过其在5个种子中的平均验证准确度进行排名。相对保留情况下虽然每个案例以不同的方式响应λ,但我们观察到,在最佳λ下,案例在所有数据集上具有近似相等的保留。我们在图5中针对Sim-EMNIST的两个任务对此进行了说明。冻结重要砝码的效果与EWC相比,EWC-p总是产生更好的解决方案,但Sim-EMNIST除外,它仍然接近EWC。它优于Sim-CIFAR 100的其他方法我们还注意到,对于灰度数据集,最佳保存程度p在20%-40%之间,而对于真实图像数据集,最佳保存程度约为60%-80%。这与EWC的真实图像数据集的稳定性偏差λ这也是高的,意味着真实图像需要更强的保存以进行配准改进。6结论在现实世界分类系统的背景下,catastrophic遗忘可能不仅会导致性能退化,还会导致安全验证知识的丢失。现有的(正则化)策略,以减轻灾难性的遗忘通常最小化的弹性标准,这可能会产生非稀疏的解决方案,并需要一个昂贵的超级参数搜索适当的惩罚权重。在本文中,我们重新制定的连续学习问题,直接最小化的绝对遗忘量我们发现,直接最小化这个上限会产生一个较弱的偏见,持续学习,从而导致更高的模型变异性和更强的保存过去的分类知识。反过来,这可以被视为对安全验证知识的更强保留。我们展示了对应于不同系统要求的不同的网络保留变量,展示了如何实现接头稳定性-塑性最佳化,并且还提出了对EWC的简单最后,通过对灰度和彩色数据集的实验,我们还证明了更好地保存过去的知识,图5:Sim-EMNIST上案例I-IV的平均性能(平滑)保留被定义为任务1上的分类器预测在任务2被训练后保持不变的百分比。通常可以产生性能更好的解决方案。引用Chaudhry,A.; Dokania,P. K.; Ajanthan,T.;和Torr,P.H. 2018.渐进学习的黎曼步行:理解遗忘和不妥协.在欧洲计算机视觉会议(ECCV)的会议记录中,532-547。Duchi,J.;Hazan,E.;和Singer,Y.2011年。在线学习和随 机 优 化 的 自 适 应 Journal of Machine LearningResearch12(Jul):2121- 2159.Geman,S.; Bienenstock,E.;和Doursat,R. 1992.神经网络和偏差/方差困境。Neural Computa- tion4(1):1-58.Gigerenzer , G. , 和 Brighton , H. 2009. HomoAcousticus:为什么有偏见的人会做出更好的推论。Topics in Cognitive Science1(1):107-143.Husz a'r,F. 2018年关于弹性重量固结中二次罚函数的注记美国国家科学院院刊115 11:E2496- E2497。Kemker,R.; McClure,M.; Abitino,A.; Hayes,T. L.的;和Kanan,C.2018年在神经网络中测量灾难性遗忘第32届AAAI人工智能会议。Kingma,D. P.,和Ba,J. 2014。Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980。Kirkpatrick , J.; Pascanu , R.; Rabinowitz , N. C. 的 ;Veness,J.; Desjardins,G.; Rusu,A.一、Milan,K.;Quan , J.; Ramalho , T.; Grabska-Barwinska , A.;Hassabis,D.; Clopath,C.; Ku-maran,D.;和Hadsell,R.2016.克服神经网络中的灾难性遗忘美国国家科学院院刊114 13:3521-3526。Kirkpatrick,J.; Pascanu,R.; Rabinowitz,N.; Veness,J.; Desjardins,G.; Rusu,A.一、Milan,K.; Quan,J.;Ra- malho,T.; Grabska-Barwinska,A.;等,2018年。回复husza' r:弹性重量合并惩罚是经验有效的。美国国家科学院院刊115(11):E2498-E2498。LeCun,Y.;Bengio,Y.;和Hinton,G.2015年。深度学习nature521(7553):436.Li,Z.,和Hoiem,D. 2017.学而不忘。IEEE模式分析和机器智能汇刊40(12):2935-2947.李,X.;周,Y.;吴,T.; Socher,R.;和Xiong,C. 2019.学习成长:克服灾难性遗忘的持续结构学习框架在机器学习国际会议上,3925Lopez-Paz,D. 2017.马克·奥雷利奥·兰扎托。梯度情景记忆连续学习。 NIPS。McCloskey,M. W. 1989.连接网络中的灾难性干扰:心理学中的顺序学习问题。阮角,澳-地五、李,Y.;布伊,T. D.的;和Turner,R. E.2018.不断变化的学习。在国际学习代表上。帕里西湾一、Kemker,R.;Part,J.L.的; Kanan,C.;和Wermter,S. 2019.持续终身学习与神经网络:综述。神经网络Raghu,M.; Poole,B.; Kleinberg,J.; Ganguli,S.;和Dick- stein,J.S. 2017.深度神经网络的表达能力。第34届国际机器学习会议论文集-第70卷,2847-2854。JMLR。org.Serra , J.; S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功