没有合适的资源?快使用搜索试试~ 我知道了~
2339基于依赖保持超网络的连续学习Dupati Srikar Chandra1 Sakshi Varshney2 P.K.Srijith1,2 Sunil Gupta31印度理工学院人工智能系印度海得拉巴2印度理工学院计算机科学与工程印度海得拉巴3澳大利亚迪肯大学应用人工智能研究所{ai20resch11004,cs16resch01002}@ iith.ac.insrijith@cse.iith.ac.insunil. deakin.edu.au摘要人类在一生中不断学习,积累各种知识,并为未来的任务进行微调。当呈现类似的目标时,如果连续任务之间的数据分布在学习过程中不是固定的,则神经网络会遭受灾难性遗忘。一种有效的方法来解决这种持续学习(CL)的问题是使用超网络生成任务相关的权重的目标网络。然而,基于前超网络的方法的持续学习性能受到跨层权重独立性的假设的影响,以保持参数效率。为了解决这个问题,我们提出了一种新的方法,使用一个依赖性保持超网络来生成目标网络的权重,同时也保持参数的效率。我们建议使用基于递归神经网络(RNN)的超网络,它可以有效地生成层权重,同时允许它们之间的依赖关系此外,我们提出了新的正则化和网络增长技术的RNN为基础的超网络,以进一步提高持续学习性能。为了证明所提出的方法的有效性,我们进行了几个图像分类连续学习任务和设置的实验。我们发现,基于RNN超网络的方法在所有这些CL设置和任务中都优于基线。1. 介绍在各种应用中,计算系统必须不断地从数据流中学习,并通过使用从过去的经验中获得的知识来适应环境。例如,现实世界中的自治代理必须在连续的数据流中学习,并且需要记住来自各种非平稳分布的信息而不会忘记[20]。深度神经网络已经在许多图像上实现了高性能分类基准,可比甚至优于人类。然而,当学习一个新的任务时,这些网络忘记了从以前的知识.在学习新任务时,由于权重急剧变化而忘记从先前任务中获得的知识或信息的过程被称为灾难性遗忘[18]。如果连续任务之间的数据分布不是稳定的,则模型的权重会急剧改变以分类新任务,从而导致忘记从先前任务中获得的知识。理想情况下,新学习的任务的表现不应该对前一个任务产生影响(反之亦然)。为了克服遗忘,计算系统或代理,一方面,应该是可塑的,以获得新的信息和改进基于连续输入的旧信息,另一方面,它应该是稳定的,以防止新的输入干扰旧信息。这被称为塑性-稳定性困境[7,19]。持续学习旨在开发机器学习和深度学习模型,这些模型足够稳定,可以保留从旧任务中学到的信息,但也具有学习新任务所需的可塑性。神经网络的持续学习技术最近得到了极大的关注[20]。为了避免神经网络中的遗忘现象,已经提出了几种连续学习方法。这些可以大致分为三种方法,正则化技术[9,12],动态架构方法[2,24]和基于重放的方法[5,21]。最近,使用超网络的持续学习在通过生成任务特定权重来处理Meta级别的遗忘方面显示出非常有希望的结果[4,8,28]。超网络是一种Meta神经网络,其通过考虑一些任务相关信息来生成与任务相关联的主网络(例如,分类或回归网络)的参数在训练期间,不是直接尝试更新主网络的参数,而是更新生成它们的超网络参数。但是生成整个主要网络参数将需要更大的超网络,因为它需要生成非常高维的输出。相反地,2340分块超网络[8,28]使用可重用的较小超网络多次迭代地以较小的块(块指的是主网络权重的子集)生成它们,并且还显著地有助于模型压缩。分块超网络的一个关键缺陷是它假设与分块相关的权重矩阵是独立的,这显著影响了连续学习的 分块超网络[28]使用前馈神经网络来生成权重,而不考虑块之间的依赖关系我们建议使用递归神经网络(RNN),以捕获跨块的权重矩阵生成中的依赖性。但是标准的RNN会遇到梯度消失的问题,并且可能无法长时间记住依赖关系。因此,RNN的变体LSTM[9]已被用于在更长的持续时间内记住权重矩阵依赖关系。因此,我们提出了基于LSTM的超网络,它可以有效地生成主网络的权重,同时还可以保持块之间的依赖关系。当以顺序的方式学习多个任务时,超网络应该记住从以前的任务中获得的知识为了实现这一点,我们提出了一种新的超网络正则化技术,重要加权正则化(IWR),可以进一步提高性能的超网络的持续学习,使前向传输,同时还保留以前的信息。IWR考虑了主要网络参数的重要性,并通过考虑这种重要性来允许超网络更灵活地适应新任务。我们还为基于LSTM的超网络提出了一种网络增长技术,用于持续学习。该方法是基于这样的想法,即跨任务的主要网络参数之间的依赖性保持不变,而它们的确切值可能是不同的。这是通过在任务之间共享与LSTM中的隐藏状态相我们仍然分别学习每个任务的输入特定权重这种方法改进了持续学习的性能,而无需额外的正则化,并加速了模型训练。我们在真实世界数据上的实验结果表明,所提出的方法以及基于LSTM的超网络可以有效地减轻灾难性遗忘,并显着提高持续学习性能。我们的主要贡献可归纳如下。• 我们提出了一种新的依赖保持LSTM超网络的持续学习。• 我们提出了一种新的正则化技术,用于基于超网络的持续学习,以及一种专门用于基于LSTM的超网络的网络增长技术,该技术不需要正则化。• 我们证明了所提出的方法在持续学习性能方面的改进,实验上的几个图像分类数据集和不同的CL设置。2. 相关工作最近提出了几种方法,用于持续学习和处理灾难性遗忘。从概念上讲,这些方法基于重放存储的示例进行分类,在看到新任务时扩展模型的方法以及通过保留网络来正则化参数偏移的方法[20,13]。基于正则化的方法[1,11,16,30]通过对参数更新施加约束来避免遗忘。由于没有额外的存储器需求的优点,正则化方法被用于更广泛的各种各样的应用程序,具有对存储器,计算资源和数据私有性的约束。弹性权重合并(EWC)[11]和突触智能(SI)[30]是最知名的方法,旨在通过限制任务重要参数的更新来减轻遗忘。它对新旧参数之间的差异施加二次惩罚,这有助于通过更新旧参数来减缓新任务的学习。但[10]中的实验表明,EWC在增量学习新类方面并不有效基于重放的方法[2,17,21]通过在学习新任务的同时重放旧示例来减轻灾难性遗忘。这些方法要么存储来自复杂任务的示例,要么从学习的特征空间中训练的生成模型生成合成示例变分自动编码器(VAE)和生成对抗网络(GAN)用于从特征空间生成样本。iCaRL[21]将每个类别的样本子集存储在固定内存中,所选示例应最接近特征空间中的类别均值。但是随着任务数量的增加,每个类存储的样本将变得太少,无法确保所需的性能。已经提出了各种其他方法[6,22,3],这些方法为旧任务生成样本而不是存储它们,这些方法是重复的。在学习一项新任务时玩。基于动态架构的方法通过为每个任务增长或更新其模型结构,为持续学习提供了解决方案[15,29]。渐进式神经网络(PNN)[23]通过使用新模块静态扩展网络来扩展其架构。遗忘可以通过添加以前模块的横向连接来避免。动态可扩展网络(DEN)不是静态地增长网络结构,而是为每个任务增长网络架构,只有有限数量的单元,并识别对新任务重要的神经元并选择性地训练它们[29]。最近,已经提出了基于超网络的方法[8,10,26,28],与主网络相比,其具有约束搜索空间的优点。基于超网络的技术使用二级神经网络-2341MC--MMMMMMMCJ j=1J j=1MM--M·→生成主网络的参数,并在超网络级别处理遗忘。为了保持超网络的大小与主网络相比较小,他们在小的固定大小的块中生成主网络的权重[8]。然而,我们注意到,块权值的独立生成过程忽略了主要网络参数之间的依赖性,从而影响了连续学习性能。为了克服这一点,我们提出了一个基于LSTM的超网络,它可以在更小的块中生成权重,同时还可以在它们之间保持依赖性。由于它们能够捕获依赖关系,LSTM被用于从序列数据中学习。最近,在[4]中提出了基于现有正则化技术和超网络的递归神经网络的持续学习方法与[4]中的工作相比,其目的是使用RNN和现有CL技术对涉及序列数据的任务进行持续学习建模,本文的目标是通过将其视为超网络来开发基于RNN(特别是LSTM)的此外,我们还为这种基于LSTM的超网络引入了新的持续学习技术,例如重要性加权正则化和网络增长。3. 用于持续学习的在许多现实世界的学习场景中,任务以顺序的方式到达。持续学习的目的是大量的输出,并且训练它们在计算上是昂贵的。为了减少超网络中可训练参数的数量,提出了分块超网络[8,28],通过多次使用具有不同块嵌入的相同超网络fh,因此,具有参数Θ h的超网络f h取 任务嵌入et和块嵌入c=c1,. . . .. . .,fh(et,cn,Θh),其中,nc是块的数量。 当超网络参数被更新以生成主网络参数时,超网络仍然会遭受灾难性遗忘。为新的任务。为了克服这种遗忘,在学习新任务的超网络参数以及任务特定损失时使用了额外的正则化项[28]。分块超网络使用考虑任务嵌入和块嵌入的超网络以较小的块生成主网络的权重我们观察到,他们不考虑连续性和块之间的权重的相互依赖性。我们注意到,分块超网络对主网络的权重进行了条件独立性假设。因此,如果我们考虑权重上的概率分布,则它在块上被分解为P(Θt ,1 ,Θt , 2 ,.. . 、.、 Θt ,nc|et,c)=P(Θt,1|et,c1)×P(Θt,2|et,c2)。 . . P(Θt,nc|et,cn)。假设独立-不能立即使用,我们有一个固定的内存大小。我们假设给定一个K个任务的序列,其中每个任务t ∈ T={1,. . . ,K}包含输入X t ={x t}nt和ta r get标签Yt={yt}nt其中nt是跨块的证据通常不成立,并且可能影响主网络参数生成和持续学习的性能。3.1. LSTM超网络任务t中的样本。主网络m的目标是学习函数ft(,Θt):XtYt,其中参数Θt与任务t相关联。在学习任务t时,我们只能访问当前任务t的观察结果,但不能访问以前任务的数据。我们可以为每个任务单独学习Θt,但它会导致参数数量的线性增长,并且固定大小的内存将不足以存储它们。如果我们在所有任务中保持主网络参数相同,则参数值将被新任务数据覆盖,这将导致灾难性的为了在不需要参数线性增长的情况下连续学习任务,提出了超网络来生成每个任务的主要网络参数。超网络h学习函数fh(·,Θh):et→Θt,为了捕捉块权重中的相互依赖性,同时又是参数有效的,我们提出了一种递归神经网络(RNN),特别是基于长短期记忆(LSTM)的超网络,称为LSTMNET。LSTM NET能够在较小的块中为主网络生成权重,同时还可以保持跨块的依赖关系。LSTM是能够捕获长范围依赖性的序列模型,并且能够根据与前面的块相关联的权重生成块权重。因此,它将主要网络参数上的联合概率建模为P(Θt,1,Θt,2,. . 、.、 Θt,nc|et,c)=P(Θt,1|et,c)×生成任务特定参数ΘtM如果有一个任务,Mt,2M mt,1不t,nMt,11t,n−1不(一)寝具M使用可训练参数Θh。P(Θm|Θm,e,c2)。. . P(Θmc|Θm。. .Θmc、e、c、n、c)生成高维主网络参数-所提出的LSTM超网络使用隐藏状态同时使用所有的eters需要非常大的超网络,htj−1 和单元状态STj−1 前一段,与前一段,从任务序列中学习,其中所有任务的数据2342MLMJ不不LLM∈LLLT−1Jj−1T−1HHHHjj−1j j j−1 jj其中fh(et,c,Θh)= Θt表示图1:基于LSTM的超网络可以通过迭代地使用相同的超网络来生成任务t的主网络权重Θt ,但也可以使用LSTM来维护它们之间的依赖关系。租用块嵌入以生成块权重。以下LSTM操作用于生成块权重,假设单层网络将任务嵌入et和块嵌入cj作为输入。it=σ(wi×e,cj+ui×hj−1)ft=σ(wf×et,cj+uf×ht)ot=σ(wo×ht,cjt+uo×ht)gt=Tanh(wg×et,cj+ug×ht)任务t的主网络,θh是在学习任务T之前的h-超网络的参数,β是平衡任务特定损失和正则化的正则化常数。是在任务特定的损失上评估的超网络的权重的方向上的变化。特定于任务的损失任务是与任务相关联的损失(例如,分类的交叉熵损失)。正则化损失约束在新任务上学习的超网络生成与先前学习的超网络生成的参数类似的主网络参数。通过最小化总损失L total来学习超网络参数Θ h和块嵌入,并且使用反向传播单独使用L task来学习任务嵌入。3.2. 重要性加权正规化我们提出了一种新的正则化技术,用于超网络中的连续学习,该技术为超网络提供了更大的灵活性,以适应新的任务与(2)中的正则化的兼容性。建议的重要性加权正则化(IWR)更新超网络参数的基础上的重要性,与每个任务的主网络的参数。IWR要求超网络仅生成与旧任务相关联的重要的主网络参数,而不是所有的主网络参数。我们通过考虑(2)中正则化项中主要网络参数的Fisher信息得分来实现这一点。这将强制超网络在生成主网络权重期间重视重要的主网络同时,它提供了超网络的灵活性,使其参数更自由地适应新的任务,因为它是不连续的。Jst=ftst+itgtj−1以产生同等重要的所有主要网络参数。目标函数考虑了j j jIWR规范化定义为Θ(t,j)=htWMJ其中f、i、o、g分别是遗忘门、输入门、输出门和单元门σ是sigmoid函数,arg mintotal=task(Θh,eT,c,XT,YT)ΘhT−1是阿达玛积。w,u是相关的权重+β FI t(f(et,c,Θ)− f(et,c,Θ+ θ))2其中输入和隐藏状态分别具有表示相应GATE的下标。Θ(t,j)是T−1t=1i伊希伊和喜H H(三)由LSTM超网络生成的主网络权重。这里,W Rd1×d2是产生块权重的前馈层的权重。我们通过最小化以下损失来学习LSTM参数Θh,这些损失包括任务特定损失和正则化损失[28]。arg mintotal=task(Θh,eT,c,XT,YT)Θh其中第一项任务是任务特定损失,第二项是IWR项,其调整超网络参数以避免遗忘。IWR项使用FIt,FI t是与任务t相关联的主网络参数上的Fisher信息矩阵(下面定义)。FIt提供任务t的主要网络参数的重要性,并且索引i在所有主要网络参数上迭代表示由超网络生成的第i个主网络参数我们可以观察+的βΣ||f(et,c,θ)− f(et,c,Θt=1+ θ)||2(二)如果与第i个相关联的Fisher信息主要H网络参数高(意味着此参数2343ttt不∇tL任务(Θh,e,y,x)×J我J我j−1J不F不j−1不JJj−1JJJJJf iog重要),则需要超网络来生成它,而不必对不重要的参数做同样的事情因此,IWR为超网络提供了更大的灵活性,以学习和适应新的任务。任务通过具有与输入相关联的任务特定权重来捕获更具体地说,LSTM的权重(uf,ui,uo,ug)在任务之间共享,并且我们将输入权重(wt,wt,wt,wt,Wt)保持为任务特定的。f io gFisher信息矩阵(FI)提供了网络中每个权重的重要性信息。对于(3)中的IWR,FI矩阵定义为:1NtLSTM NET GROW使用以下LSTM操作来生成与任务t相关的主要网络参数的块权重。it=σ(wt× εet,cε+u×h)NtΘm jjj=1Σ不 不 t TMft=σ(wt×ht,cjt+uf×ht)不θtLtask(Θh,e,yj,xj)(四)oj=σ(wo×e,cj+uo×hj−1)gt=Tanh(wt×et,cj+ug×ht)我们注意到,导数是相对于主要网络参数,以评估的重要性,J Gst=ftst+itgtj−1这些参数,而不是相对于我们正在学习的超网络参数,不像标准的常规-ht=ottanh(st)Θ(t,j)=htWt化技术。 因此,使用Fisher信息矩阵m j我们可以找出在学习任务中重要的主要网络参数(2)中的超网络的现有正则化平等地对待所有主要网络在实践中,并非所有的主要网络参数对解决特定任务都有同等的贡献。因此,不需要通过超网络精确地生成所有主要网络参数,而仅需要重要的参数,并且可以使用IWR正则化来实现。IWR正则化是一种通用技术,可用于任何超网络,而不仅仅是LSTM超网络,以提高持续学习性能。3.3. 网络增长技术正则化方法的一个潜在问题是训练时间随着任务的数量而增长,如从等式(2)和等式(3)可以看出的。此外,相同的超网络参数用于生成所有任务特定的主参数。这可能成为一个瓶颈,并影响在大量任务的情况下持续学习的表现我们提出了基于网络增长的LSTM超网络(LSTM NET GROW),用于持续学习。通过维护任务特定参数,它在适应新任务方面提供了更大的灵活性,为了跨任务传输知识,LSTM NETGROW还维护了一组共享的超网络参数。我们假设,虽然实际的主要网络参数在任务之间不同,但主要网络参数之间存在的依赖关系在任务之间保持不变基于这种直觉,我们定义了LSTM超网络中的共享和任务特定参数。在LSTM中,依赖关系由与隐藏状态相关联的权重捕获因此,我们假设它们是LSTM NET GROW模型在学习第一个任务后冻结LSTM的隐藏权重(uf,ui,uo,ug)它在对新任务进行训练时不断学习新的任务特定输入权重(wt,wt,wt,wt,Wt),并且这些权重被存储用于在稍后阶段进行推断该方法不需要额外的正则化项,并且可以仅基于任务特异性损失(L任务)来学习此外,特定于任务的权重为LSTM超网络在生成特定于任务的主网络权重时提供了额外的灵活性。4. 实验我们在各种持续学习设置和真实世界的基准数据集上进行了广泛的实验,以显示我们方法的有效性。我们 提 出 了 我 们的 结 果 分 裂 MNIST, 排 列 MNIST ,CIFAR-10和CIFAR- 100数据集。通过实验,我们旨在证明:• 使用基于LSTM的超网络(LSTM NET)维护块之间的依赖关系的影响,• 拟 议 的 正 则 化 IWR 对 LSTM NET ( LSTM NETIWR)和HNET(HNET IWR)在减轻灾难性遗忘方面的影响,• 使用提出的基于动态增长LSTM的超网络LSTMNET GROW来改进性能。• 使用具有挑战性的Cifar数据集进行跨任务的知识转移和减轻遗忘。4.1. 实验装置持续学习模型在三种不同的持续学习场景中进行测试[27]。CL1(任务增量学习):它提供了任务识别,在训练和测试时向模型提供所有信息在拟议的LSTM NET GROW模型参数生成的可变性1https://github.com/srikar1/LSTM NET CLFIt=2344表1:对于没有生成重放的连续学习的所有三种场景,分割MNIST和置换MNIST的平均测试准确度(%)的比较拆分MNIST置换MNISTCL1CL2CL3CL1CL2CL3EWC[11]98.64±0.2299.12±0.1199.09±0.1599.79±0.0199.79±0.0199.82±0.0199.85± 0.0299.85± 0.0263.95±1.9064.32±1.9065.36±1.5787.01±0.4788.51±0.1889.50±0.1990.17±0.2597.11± 0.1620.10±0.0619.96±0.0719.99±0.0669.48±0.8071.90±0.1171.31±0.0771.54±0.0483.21± 0.0294.74±0.0595.96±0.0694.75±0.1497.57±0.0297.60±0.0497.65±0.0197.74±0.0397.88± 0.0294.31±0.1194.42±0.1395.33±0.1192.80±0.1593.90±0.1193.11±0.1394.26±0.1095.46± 0.0925.04±0.5033.88±0.4929.31±0.6291.75±0.2192.15±0.1992.10±0.2092.21±0.2392.23± 0.19在线EWC[11]SI[30]HNET[28]HNET IWRLSTM NETLSTM NET IWRLSTM网络增长表2:对于具有生成重放的连续学习的所有三种场景,分割MNIST和置换MNIST的平均测试准确度(%)的比较拆分MNIST置换MNISTCL1CL2CL3CL1CL2CL3LWF[14]99.57±0.0299.50±0.0399.61±0.0299.83± 0.0199.83± 0.0199.83± 0.0199.83± 0.0199.83± 0.0171.50±1.6395.72±0.2596.83±0.2098.00±0.0397.94±0.0598.17±0.0298.39±0.0598.43± 0.0523.85±0.4490.79±0.4191.79±0.3295.30±0.1395.38±0.1695.46±0.1196.50±0.1997.01± 0.1369.84±0.4692.52±0.0897.51±0.0197.87±0.0197.85±0.0197.87±0.0197.87±0.0197.90± 0.0172.64±0.5295.09±0.0497.35±0.0297.60±0.0197.66±0.0297.60±0.0197.66±0.0197.70± 0.0222.64±0.2392.19±0.0996.38±0.0397.76±0.0197.76±0.0297.77±0.0197.80± 0.0297.80± 0.01DGR[25]DGR+蒸馏[25]HNET+R[28]HNET IWR+RLSTM NET+RLSTM NET IWR+RLSTM NET GROW+R时间由于任务标识可用,因此可以将专用多头模型就是这样一种用于持续学习的模型结构。CL2(Domain incremental learning):在测试时不提供任务身份信息,也不需要推断任务身份。在这里,每个任务都将数据视为来自不同域但具有相同类的数据。它在序列中的所有任务中考虑相同数量的类,并为所有任务使用相同的输出头。CL3(类增量学习):在这种持续学习的场景中,模型没有提供任务标识。它不仅要求增量学习任务,而且要求推断任务身份。在这里,任务身份推断通过预测分布熵。这种情况与实时设置最相似,新的类对象逐渐出现。超网络为基础的CL技术的有效性参数生成也测试了两个连续的学习设置,重放为基础的和非重放为基础的设置。在非基于重放的设置中,训练超网络以生成用于解决图像分类问题的分类器的参数在非重播中基于设置,我们将所提出的方法与正则化基线弹性权重合并(EWC)[11]、突触智能(SI)[30]和基线超网络HNET[28]进行了比较。 在基于重放的设置中,我们用生成模型来增强我们的系统,例如。变分自动编码器(VAE)来从先前的任务生成合成示例,该合成示例可以被重放以帮助分类器记住先前的任务。在这种情况下,超网络将为重放网络生成权重,即VAE而不是目标分类器。在基于重放的设置中,我们将所提出的方法与基线深度生成重放与蒸馏(DGR)[25],无遗忘学习(LWF)[14]和基线超网络HNET[28]进行了比较。我们在公开的真实世界数据集(如分裂MNIST,排列MNIST,CIFAR-10和CIFAR-100)上进行了标准的图像分类持续学习任务的实验在这些实验中,我们使用单层LSTM,它接受一个任务和块,每个块嵌入大小为96。对于MNIST,我们考虑一个隐藏状态大小为64,批量大小为128的LSTM。对于CIFAR,隐藏大小和批量大小分别为128和32。对于Split MNIST,分类器是一个全连接网络(FCN),有2层,每层大小为400 [28]。对于置换2345}{表3:CIFAR-10(C-10)和随后的五个分裂(S1... 5)每种都有10类CIFAR-100(C-100)。C-10(%)C-100S1(%)C-100S2(%)C-100S3(%)C-100中四(%)C-100中五(%)平均值-准确度(%)微调15.3 13.1 12.2 10.2 20.3 87.0 26.35从头开始的培训[28] 2019 - 06 - 28 00:00:00HNET IWR 86.1 80.2 85.0 83.6 85.01 84.35LSTM NET期间88.78 89.3 85.2 84.4 83.5 82.7 85.64LSTM NET 88.74 89.1 84.9 84.3 83.4 82.7 85.52LSTM NET IWR 88.44 88.9 85.2 88.5 86.3 86.8 87.35LSTM网络增长88.98 87.7 86.3 88.2 89.2 89.188.25MNIST , 层 大 小 取 为 1000 , 如 [28] 中 所 做 。 对 于CIFAR数据集,使用Resnet-32作为分类器。在基于重放的设置中,我们使用VAE,其使用具有两个层的FCN,每个层的大小为400,作为编码器和解码器,并且使用维度为100的潜在空间。4.2. 结果我们展示了我们在用于持续学习设置和几个基线的各种图像分类数据集上的实验结果为了公平比较,我们保持超网络中可训练参数的数量等于或小于基线方法。4.2.1拆分MNIST:Split MNIST是一种流行的图像分类持续学习基准。该数据集由十个数字(0-9)的图像组成,并通过将它们顺序配对形成五个二进制分类任务,即(0,1),(2,3),(4,5),(6,7),(8,9)。结果在表1中给出,基于重放的设置,以及表2中的基于重放的设置。结果表明,我们的方法在实现更好的持续学习性能在所有三个CL的情况下,并为每个设置的功效。所提出的超网络LSTM NET在基于非重放的设置中优于基线EWC,SI和HNET,并且在基于重放的设置中优于基线LWF,DGR和HNET IWR和LSTM NET IWR的性能表明,所提出的正则化技术IWR进一步提高了HNET和LSTM NET在所有持续学习设置中的性能。虽然这些方法为更容易的CL1设置提供了可比的结果,但使用所提出的技术的性能改进这在标准技术难以实现的非重放设置中更加明显。我们可以观察到,所提出的方法LSTM NET GROW显著改善了在这些CL场景和设置中,持续学习性能优于其他模型。使用LSTM NET GROW的CL2和CL3的准确性大幅提高的主要原因之一是因为动态扩展网络与新任务,这有助于每个任务具有任务特定的参数,这些参数4.2.2置换MNIST这个CL基准测试是MNIST的一个变体,它由通过对MNIST图像执行随机排列而创建的任务组成。通过重复该过程获得T= 10个任务的序列我们考虑了一个具有足够长的任务序列(T= 10)的数据集,以研究我们的持续学习模型的记忆能力。表1和表2中分别针对非重放和基于重放的设置呈现的结果结果遵循与分裂MNIST相似的趋势,LSTM NET GROW给出了最好的结果,其次是LSTM NET IWR和LSTM NET,击败了基线方法。4.2.3CIFAR-10/100数据集我们进一步评估了所提出的方法在更具挑战性的图像分类数据CIFAR-10和CIFAR-100上的有效性。该模型首先在CIFAR-10的10个类上进行训练,然后在cifar-100的5组10个类上进行训练,实验设置在[28]中。因此,模型需要学习T= 6个任务。我们使用ResNet-32对CIFAR-10/100数据集进行分类,并训练超网络以生成ResNet-32架构的参数。实验在CL1场景和以下非重放设置上进行[28]。除了基线超网络HNET,我们2346还可以考虑基线,这使我们能够展示跨任务的知识转移。从头开始的训练基线独立地、单独地学习每个任务的主要网络参数,并测试相应任务的性能。基线微调使主网络适应新任务,而不考虑灾难性遗忘。然后,将适应最终任务的模型用于预测所有任务的性能。为了证明LSTM NET在处理灾难性遗忘方面的有效性,我们还考虑了一个基线LSTM NET,其中我们在每个任务上训练后立即测试LSTM NET,而不是像LSTMNET那样在所有任务上训练后测试。我们在表3中提供了比较所有方法的结果。我们可以从结果中清楚地观察到,我们的方法LSTM NET在CIFAR-10/100这样具有挑战性的数据集上的表现远远优于HNET。在表3中,将LSTM NET、LSTM NET IWR和LSTM NET GROW与从头开始训练的结果进行比较,我们可以看到跨任务的知识转移有助于所提出的方法获得更好的性能。我们还可以观察到LSTM NET与LSTM NET的匹配,这表明基于LSTM的超网络在处理灾难性遗忘方面非常有效。我们还使用不同的正则化技术进行实验。所提出的IWR正则化比[28]中提出的基线正则化实现了更好的结果事实上,它也提高了HNET的性能,使整个测试的准确性提高了近2%。因此,IWR对于任何基于超网络的持续学习方法都是一种有效的正则化技术。通过使用LSTM NET GROW方法在此数据中进行类似于MNIST的持续学习,性能进一步提高。4.2.4消融研究我们对CIFAR-10/CIFAR- 100进行了进一步的消融研究,以了解压缩比(图2a)和正则化常数(图2b)对所提出的模型的影响。 从图2a中,我们可以看到,与主网络相比,随着超网络中可训练参数的数量增加,LSTM NET的性能进一步提高。在图2b中,我们研究了在Cifar数据集上改变LSTM NET IWR中IWR正则化项中正则化常数(β)的影响。当正则化项如预期那样被忽略(β的低值)时,性能较差,并且对于较高的β值,性能高且稳定。从CIFAR-10/CIFAR-100任务的实验中,我们观察到使用LSTM NET的训练时间约为28小时,而使用LSTMNET GROW的训练时间约为20小时。的(a) 压缩比效应(b)正则化效应图2:在图2a中,在Cifar数据集上,随着压缩比(超网络与主网络中可训练参数的比率)的增加,绘制了LSTM NET与HNET的准确性结果。在图2b中,绘制了使用LSTM NET IWR的准确度值图,其中IWR中的正则化常数(β)在Cifar数据集上变化。以上结果是用32个批次大小和每个批次200个时期计算的。随着任务数量的增加,正则化方法的训练时间线性增长,但LSTM NET GROW的训练时间保持不变。另一方面,正则化方法的内存需求保持不变,但由于一些任务特定的参数,LSTM NET GROW随任务线性增长,但远低于为每个任务保持单独的参数5. 结论我们提出了一种新的基于LSTM的超网络,用于连续学习,它可以捕获主要网络参数之间的依赖关系为了提高超网络的持续学习性能,我们提出了一种新的正则化重要性加权正则化(IWR),它非常适合于基于超网络的CL方法。 为了进一步提高所提出的LSTM超网络的持续学习性能,我们提出了一种用于LSTM的网络增长技术。通过对几个图像分类任务和数据集的实验,我们证明了我们提出的方法,基于LSTM的超网络,超网络的IWR正则化以及LSTM上的网络增长的有效性。所提出的方法提高了所有CL任务,设置和数据集上的持续学习性能。作为未来的工作,我们希望改进LSTM NET GROW中的参数增长,并开发结合网络增长和正则化的混合模型,以进一步提高CL性能。2347引用[1] RahafAljundi , FrancescaBabiloni , MohamedElhoseiny,Marcus Rohrbach,and Tinne Tuytelaars.记忆感知突触:学习什么(不)忘记。In Vittorio Fer- rari,Martial Hebert,Cristian Sminchisescu,and Yair Weiss,editors , Computer Vision-ECCV 2018 - 15th EuropeanConference , Munich , Germany , September 8-14 ,2018,Proceedings,Part III,Volume 11207 ofLectureNotes in Computer Science,pages 144Springer,2018.[2] Arslan Chaudhry,Marc有效的终身学习与A- GEM。在第七届国际学习代表大会上,ICLR 2019,美国路易斯安 那 州 新 奥 尔 良 , 2019 年 5 月 6 日 至 9 日 。OpenReview.net,2019年。[3] ArslanChaudhry 、 MarcusRohrbach 、 MohamedElhoseiny 、 ThalaiyasingamAjanthan 、 PuneetKDokania、Philip HS Torr和Marc'Aurelio Ranzato。关于持续学习中的小片段备忘录。arXiv预印本arXiv:1902.10486,2019。[4] 放大图片作者:Benjamin Ehret,Christian Henning,Maria R. Cervera,Alexander Meulemans,Johannes vonOswald,and Ben-B.F.格瑞循环神经网络中的连续学习--超网络。CoRR,abs/2006.12109,2020。[5] 盖思博,陈正宇,王东林。多模态Meta持续学习。神经网络国际联合会议,IJCNN 2021,中国深圳,2021年7月18日至22日,第1-8页。IEEE,2021。[6] Chandan Gautam 、 Sethupathy Parameswaran 、 AshishMishra和 Suresh Sundaram 。 广 义连 续 零 触发 学 习 。CoRR,abs/2011.08508,2020。[7] 斯蒂芬·格罗斯伯格意识清除头脑。神经网络,20(9):1040[8] 放大图片作者:David Ha,Andrew M. Dai和Quoc V.乐超网络-工作。在第五届国际会议上学习代表,ICLR2017 , 土 伦 , 法 国 , 2017 年 4 月 24 日 至 26 日 。OpenReview.net,2017年。[9] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735[10] 放 大 图 片 作 者 : Ronald Kemker , Marc McClure ,Angelina Abitino,Tyler L. Hayes和Christopher Kanan。在神经网络中测量灾难性的获取。在Sheila A. McIlraith和Kilian Q.Weinberger,编辑,第32届AAAI人工智能会议(AAAI-18),第30届人工智能创新应用(IAAI- 18)和第8届AAAI人工智能教育进展研讨会(EAAI-18),美国路易斯安那州新奥尔良日,第3390-3398页AAAIPress,2018.[11] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness , Guillaume Desjardins , Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘Proceedings of the National Academy of Sciences,114(13):3521[12] JanKout n'ık,FaustinoJ. Gomez 和J? rgenS c hmidhube r.压缩权值空间中的进化神经网络。在MartinPelikan和JürgenBrank e,编辑,遗传和进化计算会议,GECCO 2010,Proceedings,波特兰,俄勒冈州,美
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功