没有合适的资源?快使用搜索试试~ 我知道了~
具有注意独立机制的少镜头持续学习
9455具有注意独立机制的少镜头持续学习国立交通大学电子研究所,新竹,台湾{eugenelet.ee06g,huang50213.ee04}@ nctu.edu.twcylee@si2lab.org摘要众所周知,深度神经网络(DNN)在部署到测试与训练分布具有高度相似性的分布时表现良好。用训练分布中看不到的新数据顺序地馈送DNN有两个主要挑战-快速适应新任务和灾难性地忘记旧任务。这些困难为正在进行的小镜头学习和持续学习的研究铺平了道路为了解决这些问题,我们引入了注意力独立机制(AIM)。我们将使用快速和慢速权重的学习思想与DNN的特征提取和高阶概念学习的解耦结合起来AIM是为高阶概念学习而设计的,由竞争学习独立概念以解决新任务的专家混合建模。AIM是一个模块化组件,可以插入现有的深度学习框架。我们通过将其添加到SIB并在MiniImageNet和CIFAR-FS上进行训练来展示其少量学习的能力,显示出显着的改进。AIM也被应用于在Omniglot、CIFAR-100和MiniImageNet上训练的ANML和OML,以展示其持续学习的能力。代码在https : //github 上 公 开 。 com/huang50213/AIM-Fewshot-Continual.1. 介绍人类有能力不断学习新概念,同时保留以前学习的概念[11]。在学习新概念的同时,先前学习的概念被用来在大脑中形成新的连接[4,52]。人类大脑的可塑性在形成新的神经元连接以学习新概念方面起着重要作用。当前的深度学习方法在被灌输新概念后记住旧概念的效率低下,也被广泛称为灾难性遗忘[34,23]。以端到端方式训练的深度神经网络(DNN)也难以以样本有效的方式学习新任务[12]。据推测灾难性遗忘和学习新任务效率低下的原因来自稳定性-可塑性困境[2]。稳定性是必需的,以便通过限制突然的重量变化,可以保留以前学到的信息。另一方面,可塑性鼓励大的重量变化,导致快速获得新概念,并以忘记旧概念为代价。据信,通过扩展当前可用的架构,DNN能够更好地泛化[7,41,10]。神经结构搜索(NAS)[28,54,49,39,32]付出了巨大的努力,假设结构水平上的改进引入了归纳偏差,从而提高了神经网络的泛化能力。由于大多数现有技术是在与其被训练的训练集类似地分布的基准数据集上评估的,因此评估结果不是通用化的良好度量。我们认为,适应能力,获得新的知识和回忆以前学到的信息发挥了重要作用,达到真正的泛化。学会学习的重要性,即。元学习,已经把聚光灯照射在两个主要的研究方向,我们将集中在-少杆学习和持续学习。在少样本学习[12,37,45,14]中,目标是用尽可能少的样本学习新概念,即评估适应新任务的能力。而在持续学习中,评估的是学习越来越多的概念同时不忘记旧概念的能力。根据OML [22],我们将网络的特征提取部分和决策部 分 分 开 , 在 OML 中 分 别 定 义 为 表 示 学 习 网 络(RLN)和预测学习网络(PLN)OML中的快速和慢速学习是在体系结构级别上执行的,即RLN在外环中更新(慢权重),PLN在内环中更新(快权重)。这种方法已被证明有助于学习稀疏表示,这有利于快速适应和预防catastrophic遗忘。我们采取了进一步的架构水平上引入稀疏性,通过引入注意力独立机制(AIM)完成AIM是由一系列竞争性机制组成的9456·一注意输入表示,具有与在推理期间被激活的输入表示密切相关的机制。AIM可以被理解为竞争解释输入表示的专家的混合,因此只有最好地解释输入表示的机制将被更新,从而导致架构级别上的稀疏在高阶表示的架构级别上进行稀疏建模有其好处,因为只有最能解释任务的专家或机制才会参与学习过程,有助于加速学习新概念和减轻灾难性遗忘。为了证明AIM作为快速学习而不会忘记的基本构建块的潜力,我们证明了其在少数分类[12,43,53]和持续学习方面的[5、22、23]基准。我们的贡献如下:(1)在第3节中,我们给出了AIM的详细描述和公式化-一种可用于少量和连续学习的新型模块。(2)我们分别在第4.1节和第4.2节中将AIM应用于少量学习和持续学习任务。定性和定量的结果显示两个学习任务,让读者洞察的重要性,有目的的上下文中的几杆和持续学习。对于少镜头分类,在CIFAR-FS和MiniImageNet上进行实验,而对于连续学习,在Om-niglot,CIFAR-100和MiniImageNet上进行实验。示出了相对于现有技术的准确性的实质性改进2. 相关工作元学习围绕着学习学习的想法,希望通过观察几个任务的训练迭代,我们能够推广到只有几个或零个样本的看不见的任务。元学习通常由支持集和查询集组成。 支持集用于快速自适应,查询集用于评估自适应模型并元学习自适应过程。基于模型的元学习方法包括[35]的工作,该工作使用基于LSTM [18]的元学习器,其中包括所有先前看到的样本,即在查询样本的类预测期间通过注意机制考虑任务的所有支持样本。[44]的另一个类似工作用外部存储库增强了LSTM[36]结合了快速和慢速权重用于少数镜头分类。基于度量的元学习方法包括由[24]提出的SiameseNetwork,其预测两个图像是否源自同一类。[50]提出了匹配网络,它使用注意力内核中的余弦距离来衡量其嵌入空间中图像的相似性[45]后来发现使用欧几里德距离作为度量而不是余弦距离可以提高性能。一代-通过使用由[13]提出的图神经网络对度量进行建模来完成所有提到的工作的化基于优化的元学习包括[42]提出使用LSTM元学习器,其为基于卷积网络的快速学习器提供梯度。[12,37]提出了一种内环和外环优化方法,该方法在内环中具有快速自适应,并且外环更新通过内环更新反向传播[53]通过使上下文参数(任务的嵌入)在内循环中更新来使用内循环更新和外循环更新的概念LEO [43]的分类器权重由在内环中更新的低维潜在嵌入生成。[15]提出了一种类似的方法,其中使用对应于支持集的特征向量来生成分类权重。SIB [20]使用合成梯度[21]对[15]提出的特征平均变体分类器执行转导推理。[33]首次将转导推理引入到少镜头分类的上下文中,为支持集和查询集构建了一个图,并在图中传播了标签由于[33]提出的体系结构是限制性的,[19]提出了一种更一般的方法,使用一个跨注意力模块,模型之间的支持和查询集的语义相关性在持续学习中,目标是减轻catastrophic遗忘[23]。早期的工作是基于正则化方法,[17]提出使用快速和慢速训练权重,借用网络训练的可塑性和稳定性的思想这个想法随后被OML[22]学习对未来学习有用的表示,并有助于减轻灾难性的类似地,快速和慢速学习应用于ANML [5],具有使用慢速权重建模的神经调节网络[1]使用任务特定的门模块和预测头来减少类之间的竞争效应。在[3]中设计了一个标准,以将最受干扰的样本存储在固定大小的排练存储器中。3. 方法由于注意力独立机制(AIM)用于建模高阶信息,因此我们将其放置在特征提取器之后,定义为z=fψ(x)。fψ()是由ψ参数化的一系列卷积层,X是输入样本,并且z是其对应的表示。AIM是一个由W参数化的模块,定义为W。然后将来自AIM的表示馈送到线性层用于分类任务AIM作为模块的图示如图1所示我们还展示了AIM在现有元学习框架中的应用,该框架用于图2中的少量学习和持续学习我们首先在3.1节中将AIM的实现描述为模块,然后将其集成到SIB[20]对于3.2节中的少量学习和OML [22]9457∅.ΣMMM.˜˜˜⟨··⟩M√dM·注意力独立机制图1:AIM被插入在特征提取器fψ之后和输出分类器之前。只有与输入表示密切相关的机制是活动的(绿色框),并在训练阶段更新(蓝色虚线)。和ANML [5],以便在第3.3节中继续学习。3.1. 注意力独立机制与输入表示z连接,得到z=[zT,T]T。然后,这些机制处理传入的潜在表示z:AIM的目标是学习一组稀疏的机制,即专家的混合,解耦的高阶信息的 建 模 从特征提 取 。z~=zMm=1wm(z)WMΣ、(1)管道这些机制使用交叉注意力以自上而下的方式竞争并关注输入表示[30,29]。通过对机制的严格选择,将为每个任务选择稀疏的机制集,从而诱导有助于快速适应新任务并减轻灾难性遗忘的架构偏差AIM的结构由一组独立的机制组成每个机制都充当独立专家,与其他专家合作解决特定任务。AIM可以被视为RIMs的静态版本[16],即删除了在RIMs中使用LSTM [18]对隐藏状态的时间建模。对于RIMs,模型被提供了连续的输入流,使得使用LSTM进行动态建模变得直观。对于AIM,具有连续输入流的假设不成立,因为少量分类和连续学习的实践具有i.i.d.数据在训练和推断期间被馈送到模型中。从RIMs出发,AIM的目标是表明,通过专家的混合,新的概念可以很容易地学习与最小的灾难性遗忘。我们假设,通过具有一组独立的机制,可以从输入表示中提取稀疏的分解表示或概念。这样的概念具有任务不变的特性,这可以有助于学习新任务。AIM中的概念学习也可以理解为基于记忆的模型的摊销版本,其以图像或表示的形式存储样本[44],其随系统中任务的大小而无限制地缩放。另一方面,AIM执行样本的隐式建模,类似于摊销这可以被理解为输入表示通过机构权重的加权求和Wm。的机械- anisms的输出的总和,使扩展到任意数量的机械- anisms微不足道相比,在RIM中使用的输出的级联。当WM的输出维度大时,级联也是不可行的,从而导致即将到来的层的宽输入维度。机制的求和还具有置换不变的性质,从而降低了输出分类器的复杂性。为了鼓励稀疏性,我们实施了相互竞争的机制来处理传入的表示。这通过仅具有与待选择的输入表示密切相关的机制的权重来完成,即仅从总共M个机制中选择前K个机制用于下游预测任务。机制的严格选择迫使机制相互竞争以关注传入信号,模拟了选择性注意的有偏竞争理论[9]。机制的选择如下:w ( z) =wm ( z) ,若 m∈pK ( w1(zξ),. . . ,wM(z()),0,否则。(二)topK()运算符返回对应于集合中前K个值的索引用于对所选机制的重要性进行加权的权重由归一化内积的softmax、在机制的隐藏状态h_m和输入表示z之间,其首先通过查询权重W_Q和key映射到较低维嵌入。使用DNN建模而不是使用非参数存储来自训练集的样本以用于推断的方法重量WKM的输出维度d,给出为:[8]。在RIMs之后,AIM有一个零向量,它与w~m(z)=softmax. hmWQ,z(三)推理梯度主动机制抑制机理距离softmaxsoftmax.9458∅一不SSAAaAAa←S| ·|KSS←注意,softmax在本地应用于每个机制。即注意力值的转换到z,再到一个概率对应于来自(3)的输入(非空)维度的值用于(2)中的前K训练中的干预。AIM的训练可以被理解为一个干预过程,模型选择一些机制包括在训练的前向传球阶段。在训练数据上表现良好的机制通过具有指向激活机制的梯度更新来奖励,其中对反映在Hm上的新输入的敏感性。正如可以预测的,存在机制过拟合的发生的可能性,其中对于所有训练任务,只有固定的一组机制是活动的,失去了具有稀疏的一组机制充当不同任务的专家机制过拟合也相当于具有多个剩余路径的DNN,类似于Inception的单层[48],偏离了我们构建跨任务不变的模型的原始目标。为了防止所有任务只具有几个主动机构的崩溃,诀窍是在训练期间能够探索不同数量的机构,而不是锁定到顶部K个机构。通过对顶部K+1进行采样(也称为随机采样)将count)而不是topK机制。然后,我们执行uni-形式采样,而不替换来自顶部K+1个机构的K个机构,其中(2)的原始采样条件w˜m(zˆ),如果m∈{KS||K|=K},wm(z)=S.T. S=顶部(w1(z),. . . ,wM(z())算法1元训练:AIM培训要求:N个顺序任务;步长νin,νout,ε;内部迭代T;模块fψ,W,,θ(仅SIB)一曰: 不做就做2:{S train,S test} T▷SIB:i.i.d. ;continuous:连续的3:对于t1,Tdo4:使用train更新快速权重▷步长:νinSIB:WOML:W,ANML:fψP,W,5:结束6:使用转导推理更新▷步长:7:使用测试更新慢权重▷步长:νoutSIB:θOML:fψANML:fψNM第八章: end while算法2元测试:AIM的评价要求:N个顺序的看不见的任务T;步长νin,ε;在-ner迭代T;模块fψ,AW,,θ(仅SIB)St′rain={};St′est={}▷初始化空集一曰: 对于n ←1,N做第二章:{Strain,Stest} Tn▷SIB:i.i.d. ; continuous:sequential3:St′rain,St′est={St′rain,Strain},{St′est,Stest} ▷存储轨迹4:对于t1,T do5:使用train更新快速权重▷步长:νinSIB:WOML:W,ANML:fψP,W,6:结束7:使用转导推理更新▷步长:8:测试评估第九章: 端10:在St′rain▷元测试训练轨迹结束时进行评估十一: 在St′est▷eval上对整个荟萃检验集进行评价AIM作为一个模块如图1所示。 的程序AIM的元训练用于少量学习和0, otherwise.K+1~(4)连续学习在算法1中示出,而元测试对应物在算法2中示出算法-在这里,是基数运算符,以确保sam-pled子集的大小为K,并且在没有替换的情况下被采样。这种干预类似于随机干预[25]和辍学[46],其增加了AIM训练的随机性,防止锁定到初始化时关注的一些机制AIM的培训和评估。AIM中的权重更新类似于DNN中的典型层,即从最终损失函数反向传播梯度。与DNN中的常规模块的明显区别在于,只有在前向传递期间激活的机制是最新的,从而导致稀疏的权重更新集由于AIM被设计为对高阶概念进行建模,因此它被放置在DNN的更高级别中,并且具有在元学习管道的内环中更新的快速权重的作用所示的算法既适用于少数发射,也适用于连续发射使用不同颜色突出显示两者之间的区别-使用绿色SIB的少量学习和使用蓝色OML和ANML的持续学习。内环和外环的步长分别定义为νin和νout。用于SIB的合成梯度更新的步长被定义为ε。对于少样本学习,使用采样任务的元测试测试集来评估AIM的快速适应性,即。在外环中测试。对于连续学习,评估在元训练完成之后执行,并且在整个元测试训练集St′rain和元测试测试集St′est上进行测试。3.2. 使用SIB的SIB由两部作品组成:合成梯度建模[21]和特征平均分类器[15]。在[21]中9459·Si=1PSi=1ψNMψP冻结快速称重慢重量(a) 综合信息瓶颈(SIB)[20]在网络中的高阶概念,AIM是插入正确的- 在特征提取器fψ(·)之后并且在使用Gθ(Z')和S生成的输出线性分类器y=(AW(fψ(x),其中=S。Gθfψ(X¯)ΣΣ。训练在SIB [20]中的训练流水线之后,特征提取器Φ的权重被冻结以简化训练过程。AIM的权重W和输出线性分类器的权重被更新为快速权重,即内环仅分类权重的权重慢重量快速砝码生成器θ被更新为慢权重,即外环的(b) 在线感知元学习(OML)[22]慢重量注意力独立机制快速砝码(c) 神经调节元学习算法(ANML)[5]图2:在少量学习((a)SIB)和持续学习((b)OML和(c)ANML)框架上应用AIM。对于所有框架,AIM(黄色)直接放置在特征提取器fψ()之后。在元学习中使用不同的学习方案(快速和慢速)的情况下,对应于快速更新的权重或模块以红色突出显示,慢速更新以蓝色突出显示,并且冻结权重以绿色突出显示。该思想是使用合成梯度模型,其被Meta学习以在不存在用于转导推断的标记数据时生成梯度,即,更新权重,而没有从依赖于标签的损失传播的梯度。在[15]中,分类器被定义为特征表示与分类权重向量之间的余弦相似度。使用由θ参数化的外部分类权重生成器Gθ(·)生成,然后由合成梯度模型S迭代更新。 特征向量AIM到SIB的应用在图2a中示出。3.3. 持续学习:学习速度快与慢在持续学习的任务中,从元学习的背景中快速和缓慢地学习有助于减轻灾难性遗忘[22,5]。OML[22]和ANML [5]是使用这种方法的持续学习的示例框架,显示出有希望的结果。为了验证我们的索赔的重要性,结合稀疏建模的体系结构级别的灾难性遗忘的mit-igation,我们插入AIM到OML和ANML,并观察所产生的性能。OML。整个体系结构分为两个部分- 表示学习网络(RLN)和预测学习网络(PLN)。RLN使用慢速权重,PLN使用快速权重。根据我们的符号,RLN是我们工作中的特征提取器,并且PLN是我们工作中的分类器(不限于单层)在RLN之后和PLN之前插入AIM,或y=(AW(fψ(x).(六)AIM与PLN联合培训,即他们有快速的重量。AIM到OML的应用如图2b所示。ANML。ANML中使用了两组特征提取器-神经调节网络 ,和预测网络-的P个训练样本的一个非线性代数Z¯={z¯(i)}P是功,ψ·fψP。神经调节网络的作用是作为输入,以生成用于分类的新的权重集合,’=Gθ(Z¯)。在SIB中,使用基于特征平均的权重推断,即分类权重向量是ob。式中⊙为Hadamard积为了调制预测网络的潜在表示,即,图2c中fψP的输出。神经调节网络的输出在传递到最终分类器之前与fψP的outout逐元素相乘,或且wavg=1ΣPz¯(i)(z¯是2-正规化版本y= f(x)⊙ f(x)Σ。只有神经调节的z~)。然后使用SIB中的合成梯度模型迭代地更新分类权重向量,给出如=(′)。合成梯度模型和权重生成器Θ的权重都是元学习的,即最新的外环。鼓励稀疏建模网络具有慢权重,而整个预测网络具有快权重。类似于SIB和OML,AIM被插入在特征提取器之后并且使用快速权重。y= 一份世界fψNM(x)⊙ fψP(x)ΣΣ。注意力独立机制注意力独立机制(五)9460(七)9461×个×个MM×个×个4. 实验4.1. 少数学习数据集。对于所有数据集,类拆分是不相交的。Mini-ImageNet [50]总共包含100个类,分为64个训练类,16个验证类和20个测试类;图像大小为84 84。CIFAR-FS[6]是通过将CIFAR-100划分为64个训练类、16个验证类和20个测试类而创建的;图像的大小为32 32。对于少镜头分类,每个任务(片段)由训练集和测试集组成。对于每个任务,从所提到的类池中采样k个类对于每个类,绘制n个示例,并将其重新标记为形成训练集的k个不相交类。为蝴蝶蟹鲨鱼牛电视甲虫灯水獭摩托车拖拉机比目鱼骆驼海獭鳄鱼枫树AIMs注意力权重(时期49)电话:021 - 88888888传真:021 - 88888888机制(a) SIB + AIM,在CIFAR-FS上使用 Conv-4-64, 1次发射。目标注意力权重1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。01 .一、0测试集,使用15k个样本。 我们给出了k=5的结果对于n=1和n=5。网络架构。我们遵循[20,15,40,14]中的设置,通过使用具有64个特征通道的4层卷积网络(Conv-4-64)或WideResNet(WRN-28- 64)。n.玫瑰海豹鲨鼩鼱摩天大楼蜗牛蛇蜘蛛松鼠电车向日葵甜椒台式槽0的情况。80的情况。60的情况。40的情况。210)[51]作为我们的特征提取器,fψ。fψ在a中预先训练2019 - 12 - 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 6062机制0的情况。0典型的端到端监督学习方式,即轮胎训练集用于批量更新。我们的分类器直接从[20,15]中采用,其中=G′θ(Z′ )。F或转导推理[20],合成梯度网络由3层的MLP和隐藏大小8k建模。通过使用在[20,15]中发现的基于余弦相似性的分类器来完成分类。对于AIM,所有权重都是线性层。机构的隐藏状态hm关键字和查询权重(WK和WQ)将输入和隐藏状态映射到128的维度以执行距离测量。对于机构权重的输出维度,WM,我们为在Conv-4-64上训练的CIFAR-FS选择400,并且为其余的选择800;该决定基于在特征提取器的输出处的平坦化特征图的维度(不是精选的)。培训详情。 我们使用M = 32机制,其中在推理期间选择顶部K = 8机制,通过在训练期间具有l = 2来诱导随机性。 SGD的批量大小为1,用于50,000步,学习率ε = 10−3用于SIB的分类器合成更新,νout = 5 10 − 3用于外循环更新,ν in = 3 10 − 3用于内环更新。特征提取器在训练期间被冻结在每个训练时期,从验证集中采样1,000个任务以用于超参数选择使用PyTorch在单个GTX1080Ti上运行所有实验CIFAR-FS上的Conv-4-64和MiniIma-geNet上的WRN-28-10的完整运行分别需要不到2小时和5小时。4.1.1定性研究:AIM的激活我们展示了热图,这些热图说明了为来自图3中的验证集的不同类激活的机制的类类9462(b) CIFAR-100上的OML + AIM图3:1表示活动机制,0表示抑制机制,并为每个推理选择前K个机制,此处取整个验证集上同一类的活动平均值主动机制可以分为两组:1.共享主动机制的固定集合;2.具有类相关激活机制的稀疏集通过在整个验证集上对每个类别的机制的活动求平均来绘制热图我们可以观察到,有机制的共享可以被理解为共享类似概念的不同类。不同类别上的机制的稀疏分配表明,存在仅对于某些类别不变的特征,从而提高了对分布之间的协变量移位的弹性。4.1.2定量研究随机抽样计数。为了显示在推理的机制选择过程中诱导随机性的重要性,我们通过改变随机抽样计数K+1来进行实证研究。 我们固定K=8,并将l从0变化到24。从图4a中可以看出,通过改变l获得的准确度对于不同的数据集、模型和拍摄次数具有不同的最大值。对于大多数情况,峰值精度通常发生在小的l值处,并且随着引入更多的随机性而缓慢恶化。9463×个×个×个表1:MiniImageNet和CIFAR-FS测试集上的平均分类准确率和95%置信区间。使用Conv-4-64和WRN-28-10作为特征提取器,对MiniImageNet和CIFAR-FS采样2000集1发5发50块4± 0. 百分之 六十五。3± 0。百分之七十五。0 ± 1。0%的百分比✓五十八0± 0。百分之六七十。7± 0。百分之四 六十八。7 ± 0。占6%✓61岁90± 0。57% 74。55± 0。38% 71。09± 0. 62%✓六十四1± 0。8%80. 5 ± 0。百分之一62. 9± 0。5%79. 9± 0。百分之三七十三。6± 0。百分之三 86.1± 0。百分之二七十0± 0。6%79. 2± 0。百分之四八十。0± 0。6%85. 3± 0。百分之四67岁38± 0。百分之五十四54± 0。百分之三十四七十八。02± 0. 百分之五十五79. 91± 0。百分之三十八七十一22± 0。57%82。25± 0。34% 80。20± 0。55%87. 34± 0。百分之三十六10−1个−210 15 20 25 30随机抽样计数,K+l50-5−10个-15-20-25-30Conv-4-64,CIFAR-FS,1次激发Conv-4-64,CIFAR-FS,5次激发Conv-4-64、MiniImageNet、1次拍摄Conv-4-64、MiniImageNet、5次拍摄WRN-28-10、CIFAR-FS、1次拍摄WRN-28 -10、CIFAR-FS、5次拍摄WRN-28-10,MiniImageNet,1-0510152025三十个活动机构计数,K在分类器(SIB +线性)之前添加了在AIM模块中发现的参数),以表明来自AIM的准确度的增益不仅仅来自参数的增加。从表1中,我们可以看到,AIM优于所有现有的少数拍摄分类方法的一个显着的利润。由于仅探索了单层AIM,因此此处不考虑RIM [16]中发现的AIM之间的耦合我们相信,如果层的AIM被堆叠,与它们之间的耦合考虑,可以实现进一步的改进。图4:示出了通过改变(a)随机采样计数(K=8并且1被操纵)和(b)随机采样计数(K = 8并且1被操纵)获得的准确度。(b)活动机制计数(l=0并且K被操纵)。零均值-ed的准确性示出更好地证明不同模型-数据集对之间的准确性变化|是基数运算符。|is the cardinality operator.活动机制的数量一个有趣的问题是,如何可能需要主动机制来获得稀疏激活的好处如图4b所示进行经验研究,示出了通过将主动机构的数量K从1变化到32而获得的准确度结果表明,当K较小时,精度较低,并且对于较大的K值,精度饱和。这表明,一组有限的主动机制就足够了。当主动机制的数量很大时,仍然可以满足表示中的稀疏性,但是在训练和推理期间,它将是成本效率低下的基准评价。由于AIM被引入作为集成到SIB中的附加组件我们还示出了具有线性层(参数等于总参数)的SIB的结果。4.2. 不断学习数据集。Omniglot [27]有来自50个不同字母表的超过1,623个字符,其中每个字符有20个大小为28 28的手写图像。 数据集分为963类用于元训练,660类用于元测试。在每个轨迹中,在元训练和元测试中,15个图像用于训练,5个图像用于测试。CIFAR-100 [26]由60,000张大小为32 32的图像组成,均匀分布在100个类别中,即每个类500个训练图像和100个测试图像。70 个 类 用 于 元 训 练 , 30 个 类 用 于 元 测 试 。MiniImageNet [50]有64个训练类和20个测试类,图像大小为84 84。每个类有600张图像,其中540张用于训练,60张用于测试。对于每个类别,对30个训练图像进行采样。在CIFAR-100和MiniImageNet的每个trajec-tory中,我们对30个训练图像进行采样,以训练所有测试图像,用于Meta训练和元测试。网络架构。我们采用了OML的模型[22]和ANML [5],并对我们的实验进行了轻微的修改。对于OML,特征提取器fΦ是具有112个通道的6层卷积网络,并且分类器是单个线性层,其中AIMAW在fΦ和f Φ之间。Conv-4-64,CIFAR-FS,1次激发Conv-4-64,CIFAR-FS,5次激发Conv-4-64、MiniImageNet、1次拍摄Conv-4-64、MiniImageNet、5次拍摄WRN-28-10、CIFAR-FS、1次拍摄WRN-28 -10、CIFAR-FS、5次拍摄WRN-28-10,MiniImageNet,1-Σ精度精度−|Accuracy|Σ精度精度−SIB [20] WRN-28-10✓|Accuracy|SIB +线性层WRN-28-10✓AIM(ours)WRN-28-10✓方法骨干TransductiveMiniImageNet,5路CIFAR-FS单次拍摄,5路5次射击[50]第五十话Conv-4-64百分之四十四点二百分之五十七--MAML [12][45]第四十五话Conv-4-64Conv-4-64四十八7 ±1。百分之八63岁1 ± 0。百分之九五十八9 ± 1。百分之九七十一5 ± 1。0%的百分比联系网络[47]TPN [33]Conv-4-64Conv-4-64四十九4 ± 0.百分之八✓百分之五十五点五68岁2 ± 0。占7%百分之六十九点九55. 5 ± 0。占7%-七十二0 ± 0。占6%6 9. 3±-0。百分之八Gidaris等人[14个]SIB [20]SIB +线性层AIM(我们的)Conv-4-64Conv-4-64 Conv-4-64五十四8 ± 0。百分之四✓六十岁。07 ±0. 百分之五十九七十一9 ± 0。百分之三七十三。70 ±0。百分之三十八63岁5 ± 0。百分之三68岁75 ± 0。百分之六十二79岁。8 ± 0。百分之二七十七。7 ±0。百分之四79岁。99 ± 0。百分之三十九八十48± 0。百分之四十9464OMLANMLOML+AIMANML+AIM基线列车试验OMLANMLOML+AIMANML+AIM基线列车试验准确度(%)准确度(%)M×个×个100Omniglot100CIFAR-100100MiniImageNet八零八零八零60 60 60四十四十二十二十二十0100 200 300 400 500 600学习的班级05 10 15 20 25 30学习的班级0四八十二十六二十学习的班级图5:使用各种尺度的数据集评估持续学习方法。元测试测试(训练)轨迹以实线(虚线)示出。所有曲线在10次运行中取平均值,显示标准偏差。。对于ANML,神经调节网络fψNM和预测网络fψP都具有3层卷积网络,并且是单个线性层,AIM放置在fψNM和fψP之后。fψNM有112个通道,而fψP有256个通道。 对于CIFAR-100和MiniImageNet,在AIM之前放置额外的线性层以进行降维。隐态hm∈R12 8. WK∈Rdim( z) ×128 和WQ∈R128×128将它们相应的输入映射到R128。培训详情。我们在我们的系统中使用M=64个机制,并且通过在训练期间具有l = 2的诱导随机性在推理期间选择前K=10个机制。我们遵循[22,5]中的一阶MAML策略对于20,000步,我们使用批量大小1,对于外循环(慢权重),步长为νout=1 10−3,对于内循环(快权重),步长为ν in=1 10−2。在Omniglot,CIFAR-100和MiniImageNet上使用OML或ANML进行AIM的完整元训练分别需要不到2小时,3小时和6小时。4.2.1定性研究:AIM的激活在几次学习中的设置之后,当应用于OML时AIM的激活如图2b所示 激活类似于我们在少数镜头学习中观察到的,即一组用于所有类的公共机制,另一组用于稀疏激活的机制。4.2.2定量研究为了评估AIM不断学习新概念和减轻灾难性遗忘的能力,我们在图5中显示了元测试训练和测试的结果。为了证明使用AIM的准确度增益不是由于参数的增加,绘制了基线,并将其定义为AIM与线性层的交换,该线性层包含与AIM添加到OML的相同数量的参数。新类的样本被连续地馈送而不进行替换,并且旧类的样本不被存储。先前的工作使用来自元测试训练的结果作为遗忘和元测试测试的度量来度量遗忘和泛化错误。我们认为,记忆的功能,结果表明,通过应用AIM,训练和测试精度之间的差异是边际的,即。小的泛化误差,表明AIM不仅对适应新知识和减轻灾难性遗忘有用,而且在可泛化到测试集的概念的学习中也起着重要作用。当AIM应用于现有的持续学习框架时,观察到准确性的一致改善唯一的例外是将AIM应用于在Omniglot上训练的ANML,这可以通过更好地选择超参数来解决。5. 结论我们已经表明,AIM作为专家的混合物是建模高阶概念的重要组成部分,转化为快速适应和减轻灾难性遗忘的能力。通过高阶概念的稀疏建模,对于少数拍摄和连续学习两者,可以看到相对于现有技术的实质性改进。看到AIM扩展到多个层次以进行高阶概念的分层建模将是有趣的。确认该项目由MOST支持,代码为107- 2221-E-009 - 125-MY 3。Eugene Lee由Novatek Ph.D.提供部分支持。研究员奖。 作者对Dr.来自加州大学伯克利分校的EugeneWong和Dr.何健明,台湾中央研究院院士。OMLANMLOML+AIMANML+AIM基线列车试验准确度(%)9465引用[1] Davide Abati 、 Jakub Tomczak 、 Tijmen Blankevoort 、Simone Calderara 、 Rita Cucchiara 和 Babak EhteshamiBejnordi。用于任务感知连续学习的条件通道门控网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第3931- 3940页[2] Wickliffe C Abraham和Anthony Robins。记忆保持:突触稳定性与可塑性的两难。Trends in Neurosciences,28(2):73[3] Rahaf Aljundi、Eugene Belilovsky、Tinne Tuytelaars、Lau- rent Charlin 、 Massimo Caccia 、 Min Lin 和 LucasPage- Caccia。最大干扰检索的在线持续学习。神经信息处理系统进展,第11849-11860页,2019年[4] 安德鲁·詹姆斯·鲍尔和马塞尔·亚当·贾斯特。监测新动物概念的神经表征的增长Human brain mapping,36(8):3213[5] Shawn Beaulieu , Lapo Frati , Thomas Miconi , JoelLehman , Kenneth O Stanley , Jeff Clune 和 NickCheney 。 学 会 不 断 学 习 。 arXiv 预 印 本 arXiv :2002.09571,2020。[6] Luca Bertinetto 、 Joao F Henriques 、 Philip HS Torr 和Andrea Vedaldi。使用可微封闭形式求解器的元学习。arXiv预印本arXiv:1805.08136,2018。[7] Tom B Brown,Benjamin Mann,Nick Ryder,MelanieSub biah , Jared Kaplan , Prafulla Dhariwal , ArvindNeelakan tan ,Pranav Shyam ,Girish Sastry ,AmandaAskell,et al.语言模型是很少机会的学习者。arXiv预印本arXiv:2005.14165,2020。[8] 张 志 忠 林 志 仁 Libsvm : 支 持 向 量 机 库 。 ACMTransactionsonIntelligentSystemsandTechnology(TIST),2(3):1[9] 罗伯特·德西蒙和约翰·邓肯。选择性视觉注意的神经机制。神经科学年度评论,18(1):193[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[11] J oeülFagot和RobertGCook。狒狒和鸽子长期记忆能力的 证 据 及 其 对 学 习 和 认 知 进 化 的 Proceedings of theNational Academy of Sciences,103(46):17564[12] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷,第1126-1135页。JMLR。org,2017.[13] 维克多·加西亚和琼·布鲁娜。图神经网络的少样本学习arXiv预印本arXiv:1711.04043,2017。[14] Spyros Gidaris , Andrei Bursuc , Nikos Komodakis ,Patrick P e'rez,andMatthieuCord. 通过自我监督促进快速视觉学习在IEEE国际计算机视觉会议集,第8059[15] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在IEEE计算机视觉和模式识别会议论文集,第4367-4375页[16] Anirudh Goyal、Ale
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功