没有合适的资源?快使用搜索试试~ 我知道了~
记忆感知突触:学习什么(不)忘记
记忆感知突触:学习什么(不)忘记Rahaf Aljundi1、Francesca Babiloni1、MohamedElhoseiny2、Marcus Rohrbach2和Tinne Tuytelaars11KU Leuven,ESAT-PSI,IMEC,Belgium2Facebook人工智能研究抽象。人类可以以持续的方式学习。旧的很少使用的知识可以被新的信息覆盖,而重要的,经常使用的知识被防止被擦除。在人工学习系统中,到目前为止,终身学习主要集中在通过任务积累知识在本文中,我们认为,鉴于有限的模型容量和无限的新信息学习,知识边缘必须有选择地保存或删除。受神经可塑性的启发,我们提出了一种新的终身学习方法,创造记忆感知突触(MAS)。它以无监督和在线的方式计算神经网络参数的重要性。给定馈送到网络的新样本,MAS基于预测输出函数对该参数的变化的敏感程度来累积网络的每个参数的重要性度量。当学习一个新任务时,对重要参数的更改可以被惩罚,从而有效地防止与先前任务相关的重要知识被覆盖。此外,我们展示了一个有趣的连接,我们的方法和赫布我们测试了我们的方法对一系列的对象识别任务和具有挑战性的问题,学习嵌入预测<主语、谓语、宾语>三元组。我们展示最先进的表演,第一次,能够适应参数的重要性的基础上未标记的数据朝向网络需要(不)忘记的数据,这可以根据测试条件而变化。1介绍我们周围的现实世界和数字世界在不断发展。每天都有数百万张带有新标签的图片出现在社交媒体上。每分钟都有数百小时的视频上传到Youtube上。这个新内容包含了新的主题和趋势,这些主题和趋势可能与以前所看到的非常不同-想想例如。新兴新闻话题、时尚趋势、社交媒体炒作或技术进步。因此,为了跟上速度,我们的学习系统也应该能够进化。然而,迄今为止,使用监督学习的主导范式忽略了这个问题。它使用一组现有的训练示例来学习给定的任务。一旦训练完成,训练后的模型将被冻结并部署。从那时起,新传入的数据将被处理,而无需对模型进行任何进一步的调整或定制。很快,这种模式就过时了。在这种情况下,训练过程必须重复,使用先前的和新的数据,并使用扩展的类别标签集在一个世界2R. Aljundi,F.巴比罗尼Elhoseiny,M.Rohrbach和T.Tuytelaars...图1:我们的持续学习设置。正如LLL文献中常见的那样,任务是按顺序学习的,一个接一个。如果在学习任务之间,代理是活跃的并且执行学习的任务,则我们可以使用这些未标记的样本来更新模型参数的重要权重经常出现的数据,会有更大的贡献。通过这种方式,智能体可以了解哪些是重要的,哪些是不应该忘记的。像我们的一样,当移动到诸如前面提到的那些的真实场景时,这样的实践变得难以处理,其中数据是流式的,可能在给定的时间段之后消失,或者甚至在这种情况下,终身学习(LLL)[24,35,37]是一种自然的解决方案。LLL研究跨任务和数据的持续学习,一次处理一个任务,而不存储以前任务的数据。其目标是跨任务积累知识(通常通过模型共享),从而形成一个在所有学习任务上表现良好的模型。那么问题是如何克服灾难性的遗忘[8,9,20]当使用相同的模型开始新的学习过程时,旧的知识到目前为止,LLL方法大多数(尽管不是排他地)应用于相对短的序列一一通常由不超过两个任务(例如,[16,17,28]),并且使用具有大量容量的相对大的网络(例如,[1,6,33])。然而,在一个真正的LLL设置与永无止境的任务列表,该模型的容量更快或稍后达到其极限并且需要做出妥协。而不是瞄准不要忘记,弄清楚什么可能被忘记变得至少同样重要。特别是,在这种情况下,利用上下文特定的测试条件可能会带来回报。例如,考虑监视摄像头。根据安装方式或安装位置,它总是在特定的观看条件下捕获图像知道如何应对其他情况不再重要,可以被遗忘,从而释放出其他任务的能力。这需要一个LLL方法,它可以使用未标记的测试数据学习什么(不要)忘记。我们在图1中说明了这种设置。这种适应和记忆组织也是我们在生物神经系统中观察到的。我们保存以前所学知识的能力,在很大程度上取决于我们使用它的频率我们经常练习的技能似乎是不可忘记的,不像那些我们很长时间没有使用的技能。值得注意的是,这种灵活性和适应性是在没有任何形式的监督的情况下发生的。根据Hebbian理论[10],这种现象的基础过程是连接同步放电的神经元的突触加强,与连接具有无关放电行为的神经元的突触相比在这项工作中,我们提出了一种新的方法,LLL,创造记忆感知突触,或MAS的短,灵感来自生物系统中的赫布学习模型与以前的工作不同,我们的LLL方法可以使用未标记的数据来学习模型的哪些部分是重要的。这允许适应特定的测试条件和重要性权重的这是通过估计记忆感知突触:学习什么(不)忘记3网络参数不依赖于损耗,而是通过查看输出函数的灵敏度来代替。这样,我们的方法不仅避免了对标记数据的需要,而且重要的是,它还避免了由于损失在局部最小值中而导致梯度接近零的复杂性。这使得我们的方法不仅更通用,而且更简单,更节省内存,事实证明,更有效地学习什么不要忘记,与其他基于模型的LLL方法相比。本文的贡献有三个方面:首先,我们提出了一种新的LLL方法记忆感知突触(MAS)。它以无监督和在线的方式估计所有网络参数的重要性权重,允许适应未标记的数据例如在实际测试环境中。其次,我们展示了如何将MAS的本地变体与Hebbian学习方案相关联第三,我们实现了比现有技术更好的性能,无论是在使用标准LLL设置时还是在适应特定测试条件时,无论是对于对象识别还是对于预测主语、谓语、宾语>三元组,其中使用嵌入而不是softmax输出。在下文中,我们在第2节中讨论相关工作,并在第3节中给出一些背景信息第4节描述了我们的方法及其与赫布学习的联系实验结果在第5节中给出,第6节总结了本文。2相关工作虽然终身学习已经在不同的领域(例如,教育)进行了很长时间的研究。机器人[37]或机器学习[30])并涉及元学习[7]和学习学习[2]的更广泛领域表1:LLL期望的特性以及在不存储数据的情况下处理遗忘的方法与这些特性的比较。LLL的主要挑战是不断地适应学习的模型以适应新的任务,无论是来自相似的还是不同的环境[25]。然而,看看现有的LLL解决方案,我们观察到,没有一个满足所有的特点,一个人会期望或期望从终身学习的方法(见表1)。首先,它的内存应该是恒定的w.r.t.任务数,以避免内存消耗随时间逐渐增加不限于特定设置(例如,仅分类)。我们称之为问题不可知论者。第三,给定一个预先训练好的模型,它应该能够在它的基础上构建并添加新的任务。第四,能够从未标记的数据中学习将增加该方法对原始训练数据不再存在的情况的适用性。最后,如上所述,在固定容量网络中,能够适应特定用户设置不应忘记的内容根据这些属性,我们讨论最近提出的方法。它们可分为两种主要方法:基于数据和基于模型的方法。这里,我们基于数据的方法[1,17,28,34]使用来自新任务的数据来近似先前任务的性能。如果数据分布不匹配,则此方法效果最佳方法类型 恒定存储器问题不可知在预-训练未标记数据Adap-tiveLwF[17]数据JXJn/aX[第28话]数据XXXn/aXEWC[12]模型JJJXX[第16话]模型XJJXXSI[39]模型JJXXXMAS(我们的)模型JJJJJ4R. Aljundi,F.巴比罗尼Elhoseiny,M.Rohrbach和T.Tuytelaars任务之间是有限的。基于数据的方法主要针对分类场景而设计,总体而言,这些方法在每个新任务之前具有预处理步骤、记录先前任务的目标的需要是额外的限制。基于模型的方法[6,12,16,39],像我们的方法一样,专注于网络的参数,而不是依赖于任务数据。与我们的工作最相似的是[12,39]。像他们一样,我们为每个模型参数估计一个重要性权重,并在训练一个新任务时添加一个正则化器,惩罚重要参数的任何变化。不同之处在于计算重要性权重的方式在弹性权重合并工作[12]中,这是基于Fisher信息矩阵的对角线的近似来完成的在SynapticIntelligence工作[39]中,重要性权重是在训练期间以在线方式计算的为此,他们记录了由于特定参数的变化而导致的损失会发生多大变化,并在训练轨迹上累积这些信息然而,这种方法也有一些缺点:1)依赖于批量梯度下降中的权重变化可能会高估权重的重要性,正如作者所指出的那样。2)当从预训练的网络开始时,如在大多数实际的计算机视觉应用中一样,可能会使用一些权重而因此,他们的重要性将被低估。3)重要性的计算在训练期间完成,稍后进行固定。相比之下,我们认为权重的重要性应该能够适应系统应用到的测试数据。与上述两种方法相比,我们建议关注学习函数的灵敏度,而不是损失。这大大简化了设置,因为与损失不同,所学习的函数不在局部最小值,因此避免了梯度接近零的复杂性。在这项工作中,我们提出了一种基于模型的方法,计算的网络参数的重要性,虽然以前的作品[26,31]在转导设置中的预测时间适应学习系统,但我们这里的目标是建立一个连续的系统,可以适应权重的重要性,以适应系统需要记住的内容。我们的方法需要恒定量的存储器,并且享受我们上面列出的终身学习的主要期望特征,同时实现最先进的性能。3背景标准LLL设置。在介绍我们的方法之前,我们简要地提醒读者所使用的标准LLL设置,例如,在[1,16,17,28,39]。它专注于图像分类,由一系列不相交的任务组成,这些任务一个接一个地学习。任务可以对应于不同的数据集,或数据集的不同分割,在类别标签中没有重叠。这种设置的假设是,当训练任务时,只有与该任务相关的数据是可访问的。理想情况下,较新的任务可以从较旧的任务学习的表示中获益(前向转移)。然而,在实践中,最大的挑战是避免对旧任务的知识的灾难性遗忘(即,忘记如何完成旧任务)。这是一个比联合学习更具挑战性的设置,联合学习通常在多任务学习文献中使用,其中所有任务都是同时训练的。记忆感知突触:学习什么(不)忘记5(a)(b)(c)T1培训使用未标记数据的重要性估计T2训练图2:[39,12]基于损失估计参数重要性,使用训练数据(黄色)比较网络输出(浅蓝色)与地面真实标签(绿色)(a)。相比之下,我们在收敛后根据学习函数对其变化的敏感性来估计参数的重要性(b)。这允许使用其他未标记的数据点(橙色)。当学习新任务时,惩罚对重要参数的改变,在(b)中密集采样的域上保留函数,同时调整不重要的参数以确保新任务(c)上的良好性能。符号。我们在一系列任务中训练一个单一的共享神经网络。模型的参数{θi,j}是两个连续层3中的神经元对ni和ni之间的连接的权重。与其他基于模型的方法一样,我们的目标是然后计算每个参数θij的重要性值θ i j,指示其重要性。与以前的任务相比 在一个学习序列中,我们接收一个要学习的任务序列{Tn},每个任务都有其训练数据(Xn,Yn),其中Xn是输入数据,Yn是相应的地面真实输出数据(标签)。每个任务都带有一个任务特定损失Ln,其将与额外损失项组合以避免遗忘。当训练过程收敛到局部最小值时,模型已经学习了真实函数F¯的近似F。F将一个新的输入X映射到输出Y1,.,对于任务T1,Y n. T n学到目前为止。4我们的方法在下面,我们介绍我们的方法。与其他基于模型的方法[12,39]一样,我们估计网络中每个参数的重要性权重。然而,在我们的例子中,这些重要性权重近似于学习函数对参数变化的敏感性,而不是参数不确定性(逆)的度量,如[12],或损失对参数变化的敏感性,如[39](见图2)。由于它不依赖于地面真值标签,我们的方法允许使用任何可用的数据(未标记)计算重要性,这反过来又允许适应到用户特定的设置。在学习序列中,我们从任务T1开始,训练模型以最小化训练数据(X1,Y1)上的任务损失L1-或者简单地4.1参数重要性在收敛之后,模型已经学习了真实函数F¯的近似F。F将输入X1映射到输出Y1。这个映射F就是我们想要保留的目标3在卷积层中,参数由多对神经元共享。为了清晰起见,但不失一般性,我们在这里关注全连接层。YYYFFFXXX6R. Aljundi,F.巴比罗尼Elhoseiny,M.Rohrbach和T.Tuytelaars∂θ∂θ同时学习额外的任务。为此,我们测量函数F输出对网络参数的变化有多敏感 对于给定的数据点x k,网络的输出是F(xk;θ)。参数θ={θij}中的小扰动δ={δij}导致函数输出的变化,其可以近似为:ΣF(xk;θ+δ)−F(xk;θ)≈i、jgij(xk)δij(1)其中gij(xk)=(F(xk;θ))是学习函数相对于IJ参数θij在数据点xk处评估,δij是参数θij的变化。我们目标是在每个观察到的数据点保持网络的预测(学习函数),并防止对该预测重要的参数的变化。基于等式1并假设小的恒定变化δij,我们可以通过梯度gij的 幅 度 来 测 量 参 数 的重 要 性,即对该参数的小扰动会多大程度地改变数据点xk的学习函数的输出。然后,我们对给定数据点上的梯度进行累加,以获得参数θij的重要性权重Ωij:1ΣNij=Nk=1|| (二)||(2)每当输入新的数据点时,可以以在线方式更新该等式 到网络。N是给定相位的数据点总数。具有小重要性权重的参数对输出影响不大,因此可以改变参数以最小化后续任务的损失,而具有大权重的参数理想地应该保持不变。当输出函数F是多维的时,如大多数神经网络的情况,等式2涉及计算每个输出的梯度,这需要与输出的维度一样多的反向传递作为一个更有效的替代方案,我们建议使用学习函数的平方范数的梯度2输出4,即, gij(xk)=[2(F(xk;θ))]。参数的重要性,然后是mea-IJ通过函数输出的平方2这样,我们为每个样本获得一个标量值,而不是向量输出。因此,我们认为,我们只需要计算一次反向传递,并且可以使用所得到的梯度来估计参数重要性。使用我们的方法,对于密集采样的输入空间中的区域然而,不影响那些区域的参数将被赋予低重要性权重,并且可以用于优化用于其他任务的函数,从而影响输入空间的其他区域上的4.2学习新任务当需要学习新任务Tn时,除了新任务损失Ln(θ)之外,我们还有一个正则化器,它惩罚对先前任务重要的参数的变化[4]我们对2范数求平方,因为它简化了数学运算以及与赫布方法的联系,见4.3节记忆感知突触:学习什么(不)忘记7Ω (θ−θ)IJ我我∂θL(θ)=Ln(θ)+λΣi、j∗ 2ijijij ij(三)其中λ是正则化子的超参数,θ*the “old” network parameters由序列中前一个任务的优化确定,Tn-1)。因此我们允许新任务更改对前一任务不重要的参数(low(1999年)。重要参数(高Ωij)也可以通过模型共享重复使用,但在更改时会受到惩罚。最后,在训练新任务后,通过对先前计算的Ω进行累加,更新重要性矩阵Ω。由于我们在实验部分5中,我们展示了这如何使我们的方法适应和专门化任何集合,无论是来自训练还是来自测试。4.3与Hebbian学习的联系在本节中,我们提出了我们的方法的本地版本,通过将其应用于网络的单个层接下来,我们展示了这个本地版本和Hebbian学习之间的有趣联系[10]。我们方法的本地版本。代替将由网络学习的函数F作为整体来考虑,我们将其分解为函数Fl的序列,每个函数Fl对应于网络的一个层F(x)= F L(F L−1(…(F1(x),F3FF2F1图3:用于计算重要性权重的梯度流。局部独立地考虑每个层的梯度其中L是层的总数。通过局部保留给定的每一层的输出,在它的输入中,我们可以保持全局函数F。这在图3中进一步示出。注意,在该上下文中,“局部”和“全局”如何我们使用yk来表示对于给定输入xk的神经元ni的激活。 类似于前面的过程,我们考虑作用函数之后每层的平方2范数。层l的参数θ l = { θ i j}中的无穷小变化δl={δij}导致对于该层的给定输入y k={y k}=F l−1(... (F1(xk),由下式给出2(Fl(yk;θl+δl))−Σ gij(xk)δij(4)2 2i、j2K其中gij(xk)=[2(Fl(y;θl))]。在ReLU动作函数的情况下,它可以是IJ显示(参见补充材料):gij(xk)=2*yk*yk(五)I j8R. Aljundi,F.巴比罗尼Elhoseiny,M.Rohrbach和T.Tuytelaars我们再次考虑在不同数据点{xk}作为参数θij重要性的度量:Ωij= 1ΣNgij(xk)=21ΣNyk yk(六)Nk=1Nijk=1与Hebbian理论的联系在神经科学中,赫布学习理论[10]为突触可塑性现象提供了解释。它假设在这里,我们重新考虑这个理论的人工神经网络的角度后,它已成功地训练与反向传播。根据Hebb规则,连接经常一起激发的神经元的参数(两者的高激活,即高度相关的输出)对于给定任务比异步激发或具有低激活的那些更重要。因此,参数θi,j的重要性权重Ωi,j可以根据神经元激活之间的相关性进行纯局部测量1ΣNΩij=ykyk(七)Nijk=1与等式6的相似性是惊人的。我们可以得出结论,应用Hebb由于只有相对重要性权重真正重要,因此可以忽略比例因子24.4讨论我们的全局和局部方法都具有计算任何给定数据点上参数的重要性的优点,而不需要在训练模型时访问标签或计算条件。全局版本需要计算输出函数的梯度,而局部变体(基于Hebbian)可以通过将输入与连接神经元的输出相乘来局部计算我们提出的方法(本地和全局版本)类似于网络的每个参数包括的隐式因此,我们称之为记忆感知突触。当应用于新的数据点时,它会根据网络的激活情况不断更新其值。它可以适应和专门针对给定的数据点子集,而不是保留网络中的每个功能。此外,可以在训练网络之后添加该方法。它可以应用于任何预先训练的网络,并计算任何数据集的重要性,而无需标签。这是一个重要的标准,区分我们的工作的方法,依赖于损失函数来计算参数的重要性。记忆感知突触:学习什么(不)忘记95实验我们首先将我们的方法与对象识别任务的标准顺序学习设置中的不同现有LLL方法进行我们进一步分析了我们的方法的行为接下来,我们转向更具挑战性的问题,即在嵌入空间中持续学习主语、谓语、宾语>三元组(第5.2节)。5.1对象识别我们遵循计算机视觉中常用的标准设置来评估LLL方法[1,17,28]。它由一系列监督分类任务组成,每个任务来自特定的数据集。请注意,这假设每个任务(不同的此外,在测试时间使用oracle来决定任务(即,使用哪个分类层)。比较方法。-Finetuning (FineTune)。在学习第一任务之后并且当接收到要学习的新任务时,根据新任务数据对网络的参数进行微调。该基线被期望遭受忘记旧任务,同时对新任务有利。- 不忘初心,砥砺前行[17]给定一个新的任务数据,该方法记录从以前的任务头获得的概率,并使用它们作为目标时,学习一个新的任务在一个代理损失函数。为了进一步控制遗忘,该方法依赖于首先训练新的任务头,同时冻结共享参数作为预热阶段,然后训练所有参数直到收敛。- 基于编码器的终身学习[28](EBLL)建立在LwF的基础上,并根据每个任务的特征学习浅层编码器。对伴随蒸馏损失的编码特征的变化施加惩罚以减少对先前任务的遗忘与LwF类似,在实际训练阶段之前使用热身阶段。- 增量矩匹配[16](IMM)。学习新任务时,L2惩罚同样适用于共享参数的更改在序列结束时,通过一阶矩匹配或二阶矩匹配来合并所获得的模型。在我们的实验中,平均IMM在两个任务实验中给出了更好的结果,而模式IMM在较长的序列上获胜因此,我们报告每个实验中的最佳替代方案- 弹性重量固结[12](EWC)。这是第一个工作,建议正则化网络参数,同时学习一个新的任务,使用作为重要性衡量的二角形的Fisher信息矩阵。EWC对每个先前的任务使用单独的惩罚,然而,为了使其在计算上可行,我们应用单个惩罚,如[11]所指出的。因此,我们在8个任务序列中使用Fisher的运行和。- [39]第三十九章:你是谁?这种方法显示了最先进的性能,最接近我们的方法。它估计的重要性权重在一个在线的方式,同时训练一个新的任务。与EWC和我们的方法类似,对先前任务重要的参数的更改在后续任务的训练期间会受到惩罚。- 记忆感知突触(MAS)。除非另有说明,否则我们使用我们的方法的全局版本,并且仅在训练数据上估计重要性权重我们使用正则化参数λ为1;注意,由于我们假设无法访问先前的任务数据,因此没有对λ进行调整10R. Aljundi,F.巴比罗尼Elhoseiny,M.Rohrbach和T.Tuytelaars22方法鸟→场景场景→鸟花→鸟花→场景FineTune45.20(-8.0)57.849.7(-9.3)52.864.87(-13.2)53.870.17(-7.9)57.31LwF[17]51.65(-2.0)55.5955.89(-3.1)49.4673.97(-4.1)53.6476.20(-1.9)58.05[第28话]52.79(-0.8)55.6756.34(-2.7)49.4175.45(-2.6)50.5176.20(-1.9)58.35[第16话]51.51(-2.1)52.6254.76(-4.2)52.2075.68(-2.4)48.3276.28(-1.8)55.64EWC[12]52.19(-1.4)55.7458.28(-0.8)49.6576.46(-1.6)50.777.0(-1.1)57.53SI[39]52.64(-1.0)55.8957.46(-1.5)49.7075.19(-2.9)51.2076.61(-1.5)57.53MAS(我们的)53.24(-0.4)55.057.61(-1.4)49.6277.33(-0.7)50.3977.24(-0.8)57.38表2:使用2个任务的各种序列的分类准确度(%)、第一个任务的下降(%)物体识别设置。实验装置。我们使用在Imagenet [32]上预训练的AlexNet [15]架构[14]5。不同任务的所有训练都是使用与[1]中相同的学习率,使用随机梯度下降进行100个epochs和200个批次大小。性能以分类准确度来衡量。两个实验任务。我们首先考虑基于三个数据集的两个任务的序列:MIT Scenes [27]用于室内场景分类(5,360个样本),Caltech-UCSD Birds [38]用于细粒度鸟类分类(5,994个样本),Oxford Flowers [23]用于细粒度花卉分类(2,040个样本)。我们考虑:场景→鸟,鸟→场景,花→场景和花→鸟,如前所述[1,17,28]。我们didn’t从头开始网络以获得SI的重要性权重。如表2所示,FineTune明显遭受灾难性遗忘,性能从8%下降到13%。所有考虑的方法管理,以减少遗忘的微调显着,同时具有性能接近微调的新任务。平均而言,我们的方法实现了最低的遗忘率(约1%),而新任务的性能几乎相似(低0 -3%训练/测试数据上的局部与全局MAS。接下来我们分析我们的方法在保留网络在每个任务后学习的全局函数3节中描述的其局部赫布启发的变体(I-MAS)。我们还评估我们的方法,MAS和L-MAS,当使用未标记的测试数据和/或标记的训练数据。表3示出,独立于用于计算权重的重要性的集合,对于I-MAS和MAS,先前任务的保留和当前任务的性能非常相似。这说明了我们的方法能够估计给定任务的参数重要性,而不需要标记的数据。此外,在I-MAS的每一层处局部地计算梯度允许更快的计算,但不太准确的估计。因此,与MAS的1%相比,I-MAS显示出3%的平均遗忘。2vs. 矢量输出 我们在第4节中解释过,考虑到学习函数来估计参数的重要性将需要尽可能多的回ward作为输出向量的长度传递。为了避免这种复杂性,我们建议使用函数的2范数的平方来获得标量输出。我们运行了两个实验,花→场景和花→鸟,一次计算相对于向量输出的梯度,一次计算相对于2范数的梯度。我们观察到没有5我们使用Pytorch中提供的预训练模型。注意,它与所使用的其他实施方式略有不同,例如在[17]中。记忆感知突触:学习什么(不)忘记1122方法计算的。对鸟→场景场景→鸟花→鸟花→场景MAS火车53.24(-0.4)55.057.61(-1.4)49.6277.33(-0.7)50.3977.24(-0.8)57.38MAS测试53.43(-0.2)55.0757.31(-1.7)49.0177.62(-0.5)50.2977.45(-0.6)57.45MAS培训+测试53.29(-0.3)56.0457.83(-1.2)49.5677.52(-0.6)49.7077.54(-0.5)57.39l-MAS 火车51.36(-2.3)55.6757.61(-1.4)49.8673.96(-4.1)50.576.20(-1.9)56.68l-MAS 测试51.62(-2.0)53.9555.74(-3.3)50.4374.48(-3.6)50.3276.56(-1.5)57.83l-MAS 培训+测试52.15(-1.5)54.4056.79(-2.2)48.9273.73(-4.3)50.576.41(-1.7)57.91表3:对象识别设置的分类准确度(%)-使用训练数据和测试数据(未标记)计算参数重要性的比较。080106020403020400花场景鸟类汽车飞机行动信件SVHNavg(一)花卉风景鸟类汽车飞机行动信件SVHNavg(b)第(1)款图5:5a在8个任务对象识别序列结束时,每个任务的准确性表现。5b相对于训练每个任务之后所实现的性能,每个任务中的下降在3次随机试验中,我们得到的6个数字的平均值为0。51%±0. 在向量输出情况下,对于第一任务上的下降,与0相比,为18。50%±0. 19对于2范数情况。在第二个任务上也没有观察到显著差异。因此,使用2会快n倍(其中n是输出向量的长度),而不会损失性能。较长序列虽然两个任务设置详细介绍了学习新任务时的平均预期遗忘,但它仍然很容易。因此,我们接下来考虑8个任务的序列。为 此 , 我 们 再 添 加 五 个 数 据 集 : StanfordCars [13]用于细粒度汽车分类; FGVC-飞机[19]用于细粒度飞机分类VOC行动,人类交流-3500300025002000150010005000总内存需求(Mb)MASSIEWCLwFEBLLIMMFinetune花场景鸟类汽车飞机行动字母SVHNMAS(52.69)SI(50.49)EWC(50.0)LwF(49.49)EBLL(50.29)IMM(46.83)简体中文(zh_cn)MAS(-0.49)SI(-1.27)EWC(-3.18)LwF(-8.47)EBLL(-7.83)IMM(-12.13)Finetune(-26.29)准确度%准确度%总内存需求(Mb)12R. Aljundi,F.巴比罗尼Elhoseiny,M.Rohrbach和T.Tuytelaars2012 年 VOC 挑 战 分 类 子 集 [5];Letters ,Chars 74 K数据集[3]用于自然图像中的字符识别;和Google Street View House Numbers SVHN数据集[22]用于数字识别。图4:每种方法在序列的每一步的总内存需求。这些数据集也在[1]中使用。我们按以下顺序运行不同的方法:花→场景→鸟→汽车→飞机→动作→字母→SVHN。虽然图5a示出了在序列结束时对每个任务的表现,但是图5b示出了在序列结束时对每个任务的观察到的遗忘(相对于在序列结束时对每个任务的遗忘)。记忆感知突触:学习什么(不)忘记13MASFinetune在训练该任务之后立即执行比较方法之间的差异正如预期的那样,微调在前一个任务上遭受严重的遗忘,而在最后一个任务上是有利的当面对长序列时,LwF[17]遭受错误的积累,而EBLL[28]稍微减少IMM[16]在序列结束时合并模型,并且性能下降在任务之间不同。更重要的是,最后一个任务的方法性能受到矩匹配的高度影响SI[39]其次是EWC[12],在我们的方法竞争对手中遗忘最少MAS,我们的方法,在序列中的不同任务上显示出最小或没有遗忘,平均遗忘为0。百分之四十九值得注意的是,我们的方法的平均绝对性能(包括最后一个任务)比SI好2%,这表明我们的除了评估遗忘,我们分析了每种比较方法的记忆要求图4示出了在序列中的每个学习步骤处的每个方法的存储器使用。在不处理遗忘的Finetune请注意,IMM在存储中线性增长,但在推理时,它只使用获得的模型。关于每种方法实现的存储器要求和绝对性能的更多细节(以数字表示)可以在补充材料中找到。对超参数的敏感性。我们的方法需要一个额外的超参数λ,它对参数变化的惩罚进行加权,如公式3所示λ是允许的遗忘和新任务损失之间的折衷我们将λ设置为允许新任务上的可接受性能的最大值对于MAS,我们在所有对象识别实验中使用λ=1,而对于SI[39]和EWC[12],我们必须改变λ。图6显示了λ对avg的影响。性能和平均在具有2层感知器(512个单元)的5个置换MNIST任务的序列中的遗忘我们看到λ=1附近的灵敏度非常低,具有低遗忘,9796959493929190890.0 0.5 1.01.510864200.0 0.5 1.0 1.5尽管可以实现进一步的改进适应性测试。正如我们之前所解释的,MAS能够将重要权重调整到特定子集,图6:平均值 性能,左,和avg.忘记了,对,在置换的mnist序列上..在测试时以无监督和在线方式遇到的问题。为了验证这一说法,我们从Flower数据集中选择了一个类,Krishna Kamal花。我们学习了上面的8个任务序列,同时假设Krishna Kamal是唯一遇到的类。因此,仅在该子集上计算重要性权重在序列的最后,我们观察到2%的子集上的最小遗忘,而整个Flower数据集上的遗忘率为8%我们还观察到在稍后的任务上更高的准确性,因为只有对该类的重要参数的更改才会受到惩罚,从而为剩余的任务留下更多的空闲容量(例如最后一个任务的准确率为84%,而不是没有适应的69%)。我们用另外两个班级重复实验,并...MASFinetune平均准确度%平均遗忘百分比14R. Aljundi,F.巴比罗尼Elhoseiny,M.Rohrbach和T.Tuytelaars获得相似的结果。这清楚地表明我们的方法能够适应用户特定的设置,并学习什么(不)忘记。5.2事实学习接下来,我们转向一个更具挑战性的设置,其中网络的所有层都是共享的,包括最后一层。而不是学习分类器,我们学习嵌入空间。对于这个设置,我们选择了自然图像中的事实学习问题[4]。例如,事实可以是“人吃披萨”。我们设计了不同的实验设置,以显示我们的方法学习什么(不)忘记的能力。实验装置。 我们使用[4]中提出的6DS中等规模数据集。它由28,624张图像组成,平均分成训练样本和测试样本,分别属于186个独特的事实。事实分为三个单位:主语(S)、宾语(O)和谓语(P)。我们使用基于VGG-16架构[36]的CNN模型,该架构在ImageNet上预训练最后一个完全连接的层分叉成最后三个层,使模型能够有三个独立的结构化输出,如[4]中所示损失最小化视觉和语言嵌入之间的成对距离对于语言嵌入,使用事实单元的Word2vec [21]表示为了从终身的角度研究事实学习,我们将数据集划分为属于不同事实组的任务SGD优化器与大小为35的迷你批次一起使用,用于300个epoch,并且我们对我们的方法使用λ=5对于评估,我们报告的事实图像检索场景。我们遵循[4]中提出的评估方案,并报告平均精度(MAP)。对于每个任务,我们考虑仅从该任务中检索属于事实的我们还报告了整个数据集的平均精度,这不同于每个任务所实现的性能的平均值更多细节可以在补充材料中找到我们专注于我们的方法的局部I-MAS和全局MAS变体与SI[39]之间的比较,SI [39]是不同竞争者中表现最好的方法,如图5a所示0.80.70.60.50.40.30.2MASFinetuneSI联合训练T1T2 T3 T4表4:在序列结束时,来自6DS数据集的4个任务随机分割的事实学习的MAP。图7:在4个任务序列中的每个任务之后,6DS数据集的运动子集上的MAP。MAS设法学习到,运动子集是重要的,以保持和防止显着的遗忘在这个子集上。四个任务实验我们考虑从随机获得的4个任务的序列运动子集MAP方法分裂评价方法T1T2T3T4所有Finetune10.190.19 0.280.710.18SI[39]10.360.32 0.380.680.25MAS(我们的)10.420.37 0.410.650.29Finetune20.200.27 0.180.660.18SI[39]20.370.39 0.380.460.24MAS(我们的)20.420.42 0.460.650.28Finetune30.21 0.25 0.240.460.14SI [39]30.300.31 0.360.610.24记忆感知突触:学习什么(不)忘记15将同一数据集的事实分成4组。表4给出了在基于3个不同随机分割的学习序列结束时4个任务的每个集合上实现的性能。与之前的实验类似,Finetune仅在最后一个任务上具有优势,而在之前的任务上则严重受损。然而,在这里,我们的方法清楚地区分了自己,与SI相比,在前两个任务上显示出6%的MAP更好。总体而言,MAS实现了0的MAP。29比0 25,只有0。18、Finetune当MAS的重要性权重计算的训练和测试数据,进一步的改善,实现了0。30整体表现这突出了我们的方法能够从额外的未标记数据中受益,以进一步增强重要性估计。适应性测试。最后,我们想测试我们的方法在学习中不忘记任务的特定子集的能力。当我们学习一项新任务时,我们更关心的是这一组的表现。出于这个原因,我们将数据集聚类为4个不相交的事实组,表示4个任务,然后选择T1的专门子集,即7个人进行体育运动的事实有关拆分的更多详细信息,请参见补充材料。我们运行我们的方法与重要性参数计算,只在这个例子集沿4个任务序列。图7示出在学习序列的每个步骤中通过每个方法在该运动子集上实现的性能联合训练(黑色虚线)作为参考示出。它违反了LLL设置,因为它联合训练所有数据。注意,SI只能在训练期间学习重要性权重,因此不能适应特定子集。我们的MAS(粉色)成功地了解到,该集合对于保持很重要,并且在序列结束时实现了0.50的性能,而在该集合上微调和SI的性能接近0.20。6结论在本文中,我们认为,鉴于有限的模型容量和无限的不断变化的任务,它是不可能保留所有以前的知识。相反,代理人应该学习什么(不要)忘记。遗忘应该与特定知识的使用速度有关。这与生物系统的学习方式类似。在不存在错误信号的情况下,连接生物神经元的突触基于连接神经元激活的并发性而加强或减弱在这项工作中,受突触可塑性的启发,我们提出了一种方法,能够学习网络参数的重要性,从输入数据,系统是活跃的,在一个无监督的方式。我们表明,我们的方法的局部变体可以被看作是赫布我们首先测试了我们的方法在一个传统的LLL设置的一系列对象识别问题然后,我们转向了一个更具挑战性的测试用例,在该用例中,我们以连续的方式从图像中学习事实我们展示了i)我们的方法使用训练数据、测试数据或两者来更好地学习参数的重要性的能力;ii)所有设计的实验的最新性能;以及iii)我们的方法使参数的重要性适应频繁数据集的能力我们相信,这是在开发能够始终以灵活的方式学习和适应的系统方面向前迈出的一步。鸣谢:第一作者16R. Aljundi,F.巴比罗尼Elhoseiny,M.Rohrbach和T.Tuytelaars引用1. 阿尔容迪河Chakravarty,P.Tuytelaars,T.:专家门:通过专家网络终身学习IEEE计算机视觉与模式识别会议(CVPR)(2016)2. Andrych o wicz ,M. , Denil , M. , 戈麦斯 , Hof
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功