连续学习中网络的前向促进和后向干扰

80 浏览量更新于2023-10-25 收藏 993KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1连续掌握多个视觉任务：网络自然学会了学习，忘记了忘记盖伊·戴维森纽约大学数据科学gu y。我是你的朋友。e度Michael C. 谷歌研究科罗拉多大学博尔德mcmozer@google.com摘要我们在连续学习环境中探索标准卷积神经网络的行为，该环境顺序引入视觉分类任务，并要求网络在掌握新任务的同时保持对先前学习任务的掌握。这种设置对应于人类学习者在连续获得领域专业知识时所面临的设置，例如，作为一个人学习教科书。通过涉及十个相关视觉任务序列的模拟，我们有理由乐观地认为，随着网络从单一技能发展成为多技能领域专家，它们将能够很好地扩展我们观察到两个关键现象。首先，前向促进--在学习了n个先前的任务之后，对任务n +1的加速学习--随着n的增长而增长。第二，后向干扰--当学习任务n +1时忘记前面的n个任务--随着n而减少。放大前向便利是元学习研究的目标，衰减后向干扰是灾难性遗忘研究的目标。我们发现，这两个目标都可以通过更广泛地接触一个领域来实现。在标准的监督设置中，神经网络被训练来执行单个任务，例如分类，根据区分分布p（y）定义|x，D），用于以输入x和数据集D为条件的标签y。虽然这些模型在工程应用中很有用，但它们并不能反映一般智能所需的广度，包括在许多任务中进行选择的能力。多任务学习[1]涉及训练模型来执行n个任务中的任何一个，通常通过多头神经网络，其中头i表示分布p（y i|x， D1，. . .，Dn）。相关的任务作为彼此的正则化器[2，3]。持续或终身学习[4，5]解决了一个自然主义的变体，其中任务是按顺序处理的，掌握以前学习的任务必须是主要的。每一个新的任务都被掌握。终身学习需要考虑两个问题：灾难性遗忘[6]和元学习[7，8，4]，灾难性遗忘的特点是任务的急剧下降在任务2的培训后的1次性能，即，模型p（y1 ）的精度|x，D1→D2）的精度显著低于模型p（y1|x，D1），其中箭头表示训练序列。元学习的目的是促进掌握任务n从以前学习的任务1，2，. - 是的- 是的，n-1。元学习的成功是通过减少训练试验达到标准或增加模型准确度来衡量的，因为对于第n个任务p（yn）进行了有限的训练|x，D1→. . . →Dn），相对于第一个任务，p（y1|x，D1）。研究者们提出了多种创造性的方法--专门的机制、学习过程和结构--来减轻遗忘或增强迁移。我们在下一节（“相关研究”）中总结了这些方法。尽管灾难性遗忘和元学习的研究大多是分开进行的，但我们注意到它们之间存在互补关系。灾难性遗忘反映了新任务对先前学习任务的向后干扰，而元学习反映了预先学习任务对新任务的向前促进[9]。虽然catas-trophic遗忘的研究集中在第一个任务学习，元学习的研究集中在最后一个任务学习。因此，我们把这两个主题看作是一个连续体的终点.为了统一主题，我们研究了从第一个任务到第n个任务我们在一系列相关的视觉任务上训练模型，并研究引入每个新任务的后果。我们计算了学习第i个任务同时保持任务1的性能所需的训练试验（训练示例的演示）的总数。. . 1、通过不断的实践。同时，我们测量任务1的性能如何下降。- 是的- 是的 i-1引入后92829283任务i以及重新训练任务1需要多少次试验。- 是的- 是的 i − 1。我们认为，检查缩放行为-性能作为i的函数-对于评估顺序多任务学习的有效性至关重要。在最近的深度学习研究中，缩放行为大多被忽视了，考虑到它在计算复杂性理论中的核心作用，这是很奇怪的，因此，在评估现有算法是否有希望扩展到人类规模的智能。令人惊讶的是，我们只知道一篇文章[10]通过它们的缩放特性共同考虑了遗忘和元学习。然而，这项研究与灾难性遗忘和元学习文献一样，表明神经网络在终身学习环境中运行需要专门的机制。我们的文章的妙语是，一个标准的神经网络架构按顺序训练，获得并保持对多个视觉任务的掌握，随着领域专长的扩展，表现出更快地获得新知识和更少地破坏先前获得的知识。我们还认为，网络学习和遗忘有一个有趣的对应人类和动物的行为文献。1. 相关研究已经提出了各种各样的机制来克服灾难性的遗忘（回顾，见[5]）。除了标准的正则化技术，如 dropout [11]，还研究了专门的正则化器。大卫·柯克帕特里克等人[12]引入弹性权重合并，一种正则化器，它鼓励权重的稳定性，这对先前训练的任务的性能最有贡献，Zenke等人。[13]提出了智能突触，跟踪它们与特定任务的相关性。来自生物系统的灵感已经提出了执行生成重放以重建过去经验的模型，以保留先前学习任务的性能[14]，以及使用巩固机制的模型，如在哺乳动物睡眠期间发生的那些[15]。为了促进元学习，提供了鼓励任务间迁移的机制，例如MAML[16][ 17 ][18][19][19]其他方法采用重现来修改学习过程本身[18，19]。Schwarz等[10]构建一个双组件模型，由先前学习任务的知识库和用于有效学习当前任务的活动组件组成。然后，整合过程将知识从短期存储转移到长期存储。在灾难性遗忘和元学习文献中，一些先前的工作专门关注计算机视觉。Parisi等人[5]审查现有的基于愿景的基准，包括以下方面的增量培训MNIST [20]、CUB-200数据集[21]和CORe 50数据集[22，23]用于对象识别设置中的持续学习最近，Lee et al.[24]提供了一种使用蒸馏和基于置信度的采样来减少使用未标记数据的灾难性遗忘的新方法。Aljundi等人[25]集中于避开任务识别，并生成自我监督信号以识别任务之间的转换。Stojanov等人[26]提供一个受开发启发的增量学习环境，允许从不同的角度重复遇到尽管这类方法具有创造性（和成功），但我们关注的是研究人员假设标准方法的不足，并且没有尝试理解标准体系结构在顺序训练时的属性一系列的任务，并表征遗忘和迁移的程度，随着更多的任务学习，同时允许继续练习以前获得的任务。2. 方法我们在包含多种颜色、纹理合成形状的图像上定义的视觉任务上进行训练（图1）。这些任务涉及对图像是否包含具有某些视觉特性的对象的问题的是/否回答，例如“r e是红色对象吗？”或者“有没有一个球形物体” 我们生成一个由10集组成的系列;在每一集中，引入一个新任务（更多细节将在任务中进行）。模型从第1集的随机初始权重开始训练，然后继续训练剩余的9集。在第i集，模型在任务1到i的混合示例上进行训练，直到所有任务的保持集达到95%的准确率标准。为了平衡对最新任务（第i集中的任务i）的训练和对先前任务的再训练，我们采用了Nguyen等人的方法。[27]：训练集的一半由最新任务的示例组成，另一半由之前任务1到i-1的相同数量的示例组成。(In第1集，只训练单个任务。）我们评估了多个课程，其特征在于每个任务的训练示例数量的事件内分布。我们发现，我们下面呈现的结果非常稳健，因此我们在主要论文中只呈现了平衡的新旧划分的结果，但其他课程的结果请参见附录A.2在每个训练阶段重复相同的训练图像集，但它们被随机重新分配给不同的任务。每个epoch被分成30个训练批次，每个批次有1500个样本。训练持续与一个事件中的所有任务所需的时期一样多的时期在9284图1：示例训练图像64出来该架构具有四个卷积层，然后是四个全连接层（图2）。卷积层-依次具有16，32，48和64个过滤器-每个都有3x 3的内核，步幅为1，填充为1，然后是ReLU非线性，批量归一化和2x2最大池化。每个全连接层有512个单元，也具有ReLU非线性。所有模型都在PyTorch [ 30 ]中实现，并使用ADAM [31]进行训练，学习率为0。0005，权重衰减为0。0001 请注意，我们的模型是通用的，不是专门用于元学习或预防任务16Conv-132Conv-248Conv-3Conv-4FC-1FC-2FC-3 FC-4连接任务灾难性的遗忘而不是只有一个输出对于每个任务，我们将任务指定为输入的组成部分类似于Sort-of-CLEVR [32]，我们对表示图2：模型架构。输入由图像和任务表示组成。从任务表示到Conv-1的虚线表示可选的任务调制视觉处理，在“任务调制视觉处理”下每个时期，我们大致平衡每个任务的正面和负面目标响应图像生成。我们利用CLEVR [28]代码库生成160× 120像素的彩色图像，每个图像包含4-5个对象，这些对象在三个视觉维度上不同：形状，颜色和纹理。在每个图像中，每个对象在每个维度上具有唯一的特征值。我们增加了CLEVR的额外功能，以确保每个维度有10个值。(See柔软-我们为训练集合成了45，000张图像，大致平衡了数量每个特征的图像，和5，000用于保持集，用于在每个时期后评估模型并确定何时过渡到下一集。每个图像都可以用于任何任务。每个训练阶段都涉及一次通过所有图像，每个图像随机分配给每个阶段的单个任务以满足任务分配的约束任务对于我们的模拟的每个复制，我们选择三个维度中的一个，并随机排列十个维度内任务的顺序。为了降低结果对任务顺序的敏感性，我们使用拉丁方设计[29，第9章]进行了重复，保证在10次重复的块内，每个任务将在每个顺序位置出现一次。我们为三个维度（形状、颜色和纹理）中的每一个构建了六个这样的拉丁方块，总共产生了180个模拟复制。因为我们没有观察到任务维度之间有意义的质的差异（见补充材料），我们下面报告的结果在维度之间是崩溃的。架构我们的实验使用一种基本的视觉任务作为独热输入向量。我们把任务在将其传递到第一个全连接层之前，将表示传递到最后一个卷积层的输出我们验证了该架构在同时训练时能够学习所有30个任务（所有三个维度）（见附录A.3）。3. 结果3.1. 元学习图3a描绘了作为训练试验次数的函数的新引入的任务的保持准确度。曲线颜色表示任务在一系列事件中的顺序位置，青色是第一个，洋红色是第十个。毫不奇怪，任务准确性在训练试验中单调提高。但值得注意的是，元学习是有证据的，因为任务i+ 1的准确性严格高于任务i的准确性，i >2。为了更系统地分析我们的模拟，我们提醒读者，模拟序列提供了55个评估学习的机会：在情节1中引入的任务（即，顺序位置1）训练十次，情节2中引入的任务训练九次，以此类推，直到情节10中引入的任务只训练一次。图3c表示，每个任务一行，在一个给定的事件中，达到一个保持所需的训练-出95%的准确性-在图3a中的虚线。每集所需的训练绘制为函数任务被重新训练的次数。序列中后面任务的曲线向下移动的截距表明学习和再学习明显更容易。图3e通过绘制固定量的（再）训练之后的准确度示出了训练难度的替代视图。需要最少试验次数的条件（图3c）在少量训练后也达到了最高的准确度（图3e）。9285（一）（b）第（1）款1.000.950.900.850.800.750.700.651.000.950.900.850.800.750.70Log（训练试验次数）Log（训练试验次数）（c）第（1）款（d）其他事项512k256k128k64k32k16k8k4k512k256k128k64k32k16k8k4k123456 7 8 910Log（训练次数）123456 7 8 910日志（发作次数）（e）（f）第（1）款1.00.90.80.70.60.51.00.90.80.70.60.510987654321123456789 10培训次数10987654321123456789 10集数图3：（a）作为新引入任务的训练试验（对数标度）的函数的保持集准确度。彩色线表示任务顺序位置（青色=在第1集引入;洋红色（第10集介绍）。在所有图中，阴影区域表示平均值的± 1标准误差。（b）第1集中引入的任务的保持准确性，通过再训练的次数（黑色=1次，铜色=10次）。（c）达到准确性标准所需的试验次数(log标度）作为给定任务被训练的次数的函数（也是对数标度）。与（a）中一样，颜色表示任务顺序位置（引入任务的情节）。（d）与（c）类似，但只标绘一个特定的插曲。（e）在给定任务的固定训练量（22.5k次试验）后获得的保持准确率，以给定任务训练次数的函数绘制。与（a）一样，颜色表示引入任务的情节。（f）类似于（e），但只绘制在给定事件中引入的新任务3.2. 灾难性遗忘图3b显示了在第一集（y1）中引入的任务在每集重新训练时的准确性。[1]在新的一集中表现下降到低标准（虚线）的事实表明了后向干扰。然而，有一个重新学习的节省：干扰量随着训练的次数单调减少。值得注意的是，对任务1的灾难性遗忘基本上被最后几集消除了。图3c显示了任务2-10与任务1非常相似的再学习节省。粗略的对数-对数线性曲线提供了幂律下降的证据，在达到标准所需的再训练努力。图3还显示，前两次事件是异常的。当任务2被引入时，任务1表现出强烈的后向干扰（图3c中青色曲线的交叉类似地，任务1的任务2上的强前向干扰是明显的（较慢的学习-1第一个点的不对准是由于在训练时期结束时评估准确度，并且每个连续的事件在每个时期具有较少的任务y1的在图3d）中，任务2的学习比任务1的学习更容易，但是任务3-10越来越容易通过先前的学习来进行。这些发现表明，要理解神经网络的特性，我们必须超越对两个任务的训练，这通常是迁移学习和灾难性遗忘研究的重点。3.3. 对遗忘的旧的任务需要在每一集重新训练，这一事实表明，对新任务的训练会导致对旧任务的遗忘。然而，由于我们在新旧任务上训练了模拟器，我们没有机会明确地检查遗忘。受人类学习文献[33，34]结果的启发，我们假设遗忘率会随着额外的训练而降低。我们设计了一个设置，通过克隆模拟中不同点的权重并检查不同的训练轨迹来检查这一假设。我们在每个事件i开始时获取网络权重，此时网络处于任务1到i-1的标准状态。然后，我们不再对所有i任务进行再培训，新任务精度首次任务准确度日志（新任务试验符合标准）Log（试验至标准）22.5k次试验后的准确性22.5k次试验后的新任务任务顺序位置培训次数9286图4：探索遗忘。（a）当训练在第2-10集中引入的任务时任务1的剩余准确度（对应于任务1先前已被训练的1-9次，其中黑色和铜色分别用于1和9）。（b）推断的指数衰减率作为任务被训练的次数的函数。关于任务一。我们定期探测网络，以评估旧任务的剩余性能。图4a描绘了在每一个随后的情节中，在情节1中引入的任务的遗忘的时间过程。黑色曲线对应于第2集（任务1之前只训练过一次），铜曲线对应于第10集（任务1之前训练过9次在第i集，任务1之前已经被训练了i-1次，产生了一种间隔练习，似乎使记忆更加强大。这一结果表明，在人类记忆中，交错的、时间分布的练习产生了更强大和持久的记忆[35，33]。图4a只描述了我们必须评估遗忘的45个机会中的一部分：模型学习一个任务后有一个机会为了进行更系统的分析，我们将遗忘曲线拟合为我们分别将指数和幂律函数拟合到来自我们实验的67次重复中根据Clauset et et al.[37]，我们将每个表格与数据的前半部分拟合，并在数据的后半部分进行评估幂律函数在训练数据上获得显著较低的 MSE （幂律： 0.0045 ，指数：0.0198），指数函数更好地拟合保持数据（功效：0.0232，指数：0.0192），指数函数在模型的45个训练点中的24个上提供了更好的拟合。因此，我们采用指数衰减函数，并通过速率参数β来表征衰减。图4b显示了45个模型训练点中每一个的推断衰减率β，以图3c，e的风格呈现。基本模式很清楚：无论任务的顺序如何，额外的练习都会产生更持久的记忆痕迹。此外，除了任务1和任务2外，人们倾向于根据人类长期记忆的研究来解释这种效应，其中序列位置效应是一种强大的现象：早期和晚期学习的项目比中间学习的项目更好地保留在记忆中[38]。心理学研究倾向于对每个任务只训练一次[例如，39]或在单个任务上多次[例如，40]，因此没有关于序列位置如何与训练次数相互作用的行为数据，就像我们在模拟中看到的那样。在许多方面，我们的模拟方法与心理学研究中的实验方法并不一致，例如，我们在暴露后不久评估遗忘，而不是在一系列任务结束时评估遗忘。尽管如此，我们的模拟和人类记忆之间的对应关系是耐人寻味的。10每个片段中的每个任务ie > i。遗忘曲线表征了在1500次试验的t个训练批次之后的准确性。准确性必须调整猜测：因为我们的任务的基线正确猜测率为0.5，所以我们定义a = 0。5+ 0。5m，为记忆强度m介于0（无任务记忆）和1（完全和准确的任务记忆）之间时所观察到的我们（a）512 k256k128k64k32k16k8k4k1 2 34567 8 910Log（训练次数）（b）第（1）款200k150k100k五万零-5万98765432112345678 910培训次数探索记忆强度的两个表征第一个是指数衰减，m=αexp（−βt），其中α是初始精度，β是衰减率，t是干预训练批次的数量。第二种是幂律衰减，m=α（1 +γt）−β，其中γ作为时间尺度变量。这种幂律衰减曲线在关于遗忘的心理学文献中很常见[36]并且在m=αt−β上具有可以表征t= 0处强度的优点。图5：异构任务序列。（a）达到准确性标准所需的试验次数与任务训练次数（参见图3c）。前两个任务分别用数字1和2标记。（b）增加与作为基线的异质序列相比，达到同质序列准确性标准所需的试验数量。正值表示在异质条件下学习得更快，负值表示在基线条件下学习得更快。12213Log（试验至标准）达到标准的任务顺序位置9287213.4. 异构任务序列我们注意到任务序列训练的两个好处接下来，我们试图更好地了解这些好处的来源特别是，我们问的好处是如何与任务之间的相似性。之前，我们对任务进行了均匀采样：序列中的所有十个任务都是（a）512 k256k128k64k32k16k8k4k1 2 34567 8 910Log（训练次数）10（b）第（1）款300k9250k87200k6150k5100k450k302-50k 1123456789 10培训次数从单一维度（颜色、形状或纹理）绘制现在我们来探讨一下不同任务的抽样结果：一个序列中的10个任务来自所有三个维度。每个复制利用三个维度的一个排列，并对在维度之间循环的十个任务进行采样（第一个维度中有四个，另外两个维度中有三个我们采用了一个类似的拉丁方设计[29，第9章]来平衡排列之间的平衡，使得每个六个重复的块包括每个排列一次。图5a呈现了异质序列的114次重复的结果，其中19次使用六维排列中的每一种为了更好地与同质序列结果进行比较（图3c），图5b绘制了与异质序列作为基线相比，同质序列达到标准的试验数量的增加除了几个例外点，差异并不显著，这表明异质序列的任务间效应与同质序列的相似因此，任务间效应似乎主要是由于学习处理一般的视觉图像，而不是特定的任务相关的维度。图5 b中的两个离群点涉及前两个事件：对于异构训练，任务1和2之间的干扰几乎消失，可能是因为执行两个任务所需的资源和表示重叠较少。人们可能会预测到相反的结果，但显然，提取与一个视觉维度相关的信息并不妨碍构建适合于其他维度的表征。我们认为这一发现是合理的，因为颜色，形状和纹理的维度在输入图像中基本上是混淆的：解释颜色和纹理可能需要关于对象形状的信息，反之亦然。3.5. 任务调制视觉加工到目前为止，我们实验的架构将卷积层视为视觉特征提取器，在任务序列上进行端到端训练，但卷积层没有关于任务的显式信息;任务输入仅提供给网络的最后层。相比之下，人类视觉皮层的处理可以是任务调制的[41，42]。也许修改架构以向卷积层提供任务信息将减少任务间的交互。图6：用当前任务的信息调制第一个卷积层的效果。（a）达到准确性标准所需的试验次数与任务训练次数（参见图3c）。（b）为达到非任务调制结构与任务调制结构的准确性标准所需的试验次数增加。会议。沿着Mozer和Fan [43]的思路，我们研究了一种使用任务调制视觉处理的修改模型，采用了一种比大多数现有的条件归一化或门控处理架构更简单的方法[44，45]。我们认为任务调制，通过任务特定的学习偏差为每个通道在卷积层中。和前面一样，任务被编码为一个独热向量。我们将从任务表示到卷积层的连接合并在一起（图2），其中一个偏置参数用于任务和通道的笛卡尔乘积。此偏置参数在应用之前添加到通道中每个滤波器的输出层的非线性。我们研究了模型中四个卷积层中每个卷积层的任务调制由于在不同层的任务调制的结果是非常相似的（见补充材料），我们报告的调制处理在第一卷积层的结果。图6描绘了三个拉丁方重复的结果，每个维度产生30个模拟，或者总共90个。引入基于任务的调制允许模型避免先前从第一次学习第二个任务中观察到的灾难性的错误，并且影响较小，在第三次事件中也提高了per-perception。随着模型学习更多的任务，并继续对相同的任务进行再训练，任务调制的好处迅速减少（图6b），这表明主要的好处是帮助早期学习。我们假设，调制视觉处理的任务表示允许模型学习灵活的视觉表示，产生较少的干扰。3.6. 与MAML到目前为止，我们提出的结果可以作为一个基线，可以比较任何专门用于减少遗忘或促进迁移的方法我们对几种这样的方法进行了比较，Log（试验至标准）达到标准的试验数量任务顺序位置9288符合标准的试验（阳性= MAML更好）第二节我们报告了与模型无关的元学习或MAML的实验[16]。MAML被设计为对一系列任务执行元学习，以更有效地学习序列中的下一个任务。然而，它不是为我们的持续学习范式设计的，持续学习范式需要保留对先前任务的掌握。我们探索了两种适应我们范式的MAML变体。我们在这里报告更多(a) 512k256k128k64k32k16k8k4k1 2 3456 7 8 910Log（训练次数）（b）第（1）款25k0-25K-5万-75K-10万-125k-15万10987654321123456789 10培训次数两者都是成功的（详见补充材料）。我们的范例是基于一系列的10集，其中任务在剧集中积累。MAML也是在一系列事件上训练的，但是我们在MAML的一个事件（算法的外部循环）和我们将称为我们的范例的一个微插曲，它对应于我们原始训练过程中的一个批次。每个微集以网络权重w开始，我们绘制了750个示例的半批（原始设置中为1500个），其中50%来自最新任务，其余部分均匀分布在以前的任务中。(For所有的例子都来自任务1。）从w，我们基于每个任务的示例计算梯度步长，并将该步长单独应用于w，从而产生情节i中的权重的i个副本，{w1，.，wi}，每个专用于其相应的任务。然后，我们绘制第二个半批的750个示例，并执行元训练步骤，如MAML中所述。元训练涉及基于权重wk计算每个任务k的新示例相对于w的梯度。在MAML之后，我们更新w，并继续进行下一个微情节，直到达到我们的训练标准。在将批量大小减半之后，我们将学习率从0提高了一倍。0005在原始设置为0。001对于MAML的两个学习率。模型细节在其他方面与基础模型相同。超过90次重复（每个维度30次），我们发现我们的MAML变体的性能与我们的基础模型的性能在定性上相似（比较图7a和图3c）。然而，定量地，基于MAML的方法需要更多的试验才能达到预期标准：图7 b显示了相对于标准的试验数量，其中阴性表示MAML比我们的基础模型更差。显然，分割数据并将一半用于元训练的成本并没有超过元训练的好处。4. 讨论我们在连续学习设置中探索了标准卷积神经网络的分类行为，该设置顺序引入视觉任务，并要求网络在保留图7：MAML。（a）审判次数（内部和外部）循环组合）与任务被训练的次数的关系（参见，图3c）。(b) 与使用MAML相比，在没有MAML的情况下达到训练准确度标准所需的试验次数增加负值表示MAML的学习速度比基本模型慢掌握以前学过的任务。这种设置与人类学习者成为领域专家时自然面临的设置相对应。例如，考虑学生逐章阅读微积分文本。在早期，参与一个章节及其相关的练习会导致忘记以前掌握的材料。然而，随着获得更多的知识，学生开始搭建和连接知识，最终能够将新材料与旧材料结合起来。随着最后章节的学习，学生们已经建立了一个强大的概念框架，这有利于新材料的整合，而不会对旧材料造成破坏这些假想的学生的行为很像我们在这篇文章中研究的网络我们总结了我们的新发现，并在适当的情况下，我们将这些发现更具体地与人类学习的文献联系起来。1. 一旦网络获得了足够的领域专业知识，就可以观察到元学习（向前促进）。在我们的范式中，当训练效率-达到标准所需的试验次数-随着每个连续任务的提高而提高时，元学习得到了证明（图3d，f）。元学习在模型中自然发生，不需要专门的机制。事实上，在我们的持续学习范式中，引入专门的机制MAML并不能增强元学习。2. 灾难性遗忘（后向干扰）随着网络获得增加的域经验而减少（即，随着学习到更多相关的任务）。在图3c中，比较了序列中较早（青色）和较晚（品红色）引入的任务，匹配了它们已经训练的次数（横坐标上的位置）。再培训效率提高，Log（试验至标准）任务顺序位置9289在任务序列中稍后引入的任务，指示遗忘的减轻。请注意，重新学习技能的尝试次数少于最初学习技能所需的尝试次数（第2集中的任务1除外）。这种重新学习的储蓄效应长期以来一直被认为是人类记忆的一个特征[46]，当然，由于时间的流逝[47]或新知识的向后干扰[48]，遗忘也无处不在。3. 每次重新学习任务时，灾难性遗忘（后向干扰）的可能性也会降低，如图3c中的单调递减曲线和图4中遗忘率的变化所示。在多个片段练习的任务接收与其他任务交错的分布式练习分散、交错练习的记忆持久性是认知心理学[35，33，34，49]和知觉学习[50]中研究最充分的现象之一，有助于人类学习者区分类别，可能是通过帮助区分类别内和类别间的差异。4. 训练效率根据所学习的任务数量的幂函数来提高，控制任务上的经验（由图3d中的线性曲线表示，以双对数坐标绘制），并且还根据给定任务已经接收的训练量的幂函数来提高，控制所学习的任务数量（由图3c中的线性曲线幂律学习是人类技能获取的一个强大特征，可以在一系列行为测量中观察到[51，52]。5. 只有在学习了两个或多个任务后，才能观察到前向促进和后向干扰的减少。这种模式可以通过图3d、f的曲线和图3c、e的曲线交叉中的非单调性来观察。catas-trophic遗忘主要表现为任务1当任务2是学习-典型的情况下，在文献中研究。然而，随着网络获得领域专业知识，网络变得更加健壮，最终重新学习的努力变得可以忽略不计（例如，铜曲线图3b）。任务2的异常行为值得注意，产生了可能类似于“0 - 1-无穷大“原则的过渡行为[ 53 ]。6. 第二阶段的灾难性遗忘可以通过两种不同的方式减轻：第一，通过选择依赖于不同维度的任务（图1）。图5）;第二，通过引入基于任务的视觉处理调制（图6）。我们猜想，这两种操作的特点是减少任务的相似性在人类学习中，减少（语义）相似性可以减少干扰[54]，自上而下，基于任务的信号与感知学习相互作用[55，56]，早在初级视觉皮层（V1）的处理中[57，58]。我们的研究结果意味着，与在一组不同的任务上进行训练相比，任务间的相似性对最初获得的几个任务产生了更高水平的干扰因此，在不同的任务上训练一个模型可能会减少遗忘，而不会减少前向促进。基于任务的调制是减少相似任务干扰的另一种有前途的途径，我们希望在未来的工作中继续探索。我们能够识别这些有趣的现象，因为我们的模拟研究了缩放行为，而不仅仅是一个任务对第二个任务的影响-研究灾难性遗忘的典型案例-或者许多任务对后续任务的影响-元学习和少数学习的典型案例。研究从第一个任务到第n个任务的连续体是相当有启发性的。我们发现，学习效率提高更多的任务学习。尽管MAML没有产生超过作为我们基线的标准架构的益处，但我们还没有探索明确设计用于促进传输和抑制干扰的其他方法[17，12，9]。本文中提出的结果可作为评估特殊方法益处的基线某种圣杯将是确定实现向后促进的方法，其中对后期任务的训练可以提高早期任务的表现，以及组合泛化[59，60，61，62]，其中学习早期任务之间的相互关系可以在第一次试验中执行新任务。人类在罕见的条件下表现出前者[63，64];后者在人类行为中很常见，当个体能够立即执行指令时。未来研究的一个令人兴奋的方向是优化持续学习的课程。我们最初的方法受到学习文献科学的最佳实践的启发[65]。我们希望，网络的调查可以反过来为人类学习者改进课程提供有益的指导。为了实现这一目标，令人鼓舞的是，我们观察到人类和网络持续学习之间的相似之处不仅仅是表面上的。9290引用[1] R. Caruana，41-75，1997. 1[2] --，Morgan Kaufmann，1993，pp. 41-48. 1[3] S.Ruder ， “AnOverviewofMulti-TaskLearning in Deep Neural Networks ， ”arXiv ，Tech.代表： 2017年6月。 [联机]。网址：https://arxiv.org/abs/[4] S. Thrun，“学习第n件事比学习第一件事更容易吗？” 神经信息处理系统进展8，D。S. 图雷茨基，M. C. Mozer 和 M. E. Hasselmo ， Eds. MITPress，1996，pp. 640-646. 1[5] G. I.帕里西河Kemker，J. L. Part，C. Kanan和S. Wermter，54-71，2019年5月。[联机]。可用：https://www-sciencedirect-com.ccl.idm.oclc.org/science/article/pii/S0893608019300231 https：//arxiv.org/pdf/1802.07569.pdf1，2[6] M.麦克克洛斯·凯和N.J.科恩“联结网络中的紧张性干扰：顺序学习问题，“学习和动机心理学，卷。第24页。109-165,Jan1989.[ 联机 ] 。可用： https://www-sciencedirect-com.ccl.idm.oclc。org/science/article/pii/S00797421086053681[7] J. S c hmid h u b er，“自我参考学习的进化原则”，博士。论文，慕尼黑工业大学，1987年。[联机]。可查阅：http：//people。idsia.ch/{~}juergen/julia1987ocr.pdf[8] Y. Bengio ， S.Bengio和J. Cloutier， IEEE，1991，p. 969. [联机]。可用：http：//ieeexplore.ieee.org/document/155621/1[9] D. Lo pez-Paz和M. -是的A. Ranzato，“持续学习的情景记忆”，NIPS，2017年。[联机]。网址：https://github.com/1，8[10] J·施瓦茨，J. Luketina，W. M. 恰尔内茨基A.格拉布斯卡-巴尔温斯卡岛W.特河Pascanu和R.Hadsell，学习，2018年5月，pp。PMLR 80：4528[联机 ] 。可通过以下网址获得：http://arxiv.org/abs/1805。063702[11] I. J. Goodfellow，M.Mirza，D.Xiao、肖氏A.Courville 和 Y.Bengio ， “An Empirical IinvestigationofCatastrophicForgettinginCompetitive-BasedNeuralNetworks ， ”2015 。 [ 联机 ] 。网址：http://arxiv.org/abs/1312.62112[12] J·柯克帕特里克R. 帕斯卡努N. 拉宾诺维茨J. Veness，G. Desjardins、A. A. Rusu，K. 米兰J. Quan，T. Ramalho，A. 格拉布斯卡-巴温斯卡，D. Hassabis，C. Clopath，D. Kumaran，以及R. Hadsell，“O verging catastrophic forgetingg in neural networks ，”Proceedings of theNational Academy of Sciences，vol. 114，no.第13页。3521-3526,2017.[联机]。可用的：https：//www.pnas.org/content/114/13/3521二、八[13] F. Zen k e，B. Poole和S. Gangguli，“通过突触智能进行共同学习”，ICML，2017年。[联机]。网址：https://arxiv.org/pdf/ 1703.04200.pdf2[14] N. 卡姆拉，联合古普塔和Y. 刘先生，“Deep Generative Dual Memory Network forContinual Learning”，2017年10月。[联机]。可用：http：//arxiv.org/abs/1710.103682[15] R.Kem ker 和 C. Kanan ，Brain-InspiredModel for Incremental Learning，”in ICLR ，nov 2018. [联机]。可用：http：//arxiv.org/abs/1711.105632[16] C. Finn，P.Ab beel和S.Levine，“M o del-Agnostic元学习为快速Adaptation of DeepNetworks ， ”Proceedings of the 34th InternationalConference on Machine Learning ， vol. 70 ， 2017. [ 联机]。可用：https：//arxiv.org/pdf/1703.03400.pdf2、7[17] N.米什拉M.Rohaninejad，X.Chen和P. Ab beel，“一个简单的神经元类型的Meta-Learner”，在国际会议上学习表示，2018年。[联机]。可用：https：//arxiv.org/pdf/1707.03141.pdf2、8[18] M. Andrychowicz，M. Denil，S. Gomez，M. W.霍夫曼 D. Pfau ， T. 绍尔湾 Shillingford 和 N.deFreitas，“学习通过梯度下降学习”，神经信息处理系统进展29，pp。3981-3989，2016年6月。[联机]。可用：http：//arxiv.org/abs/1606.0447429291[19] J. X. 小王，Z. 库尔特-尼尔森D. 蒂鲁马拉，H. Soyer，J.Z. 莱博河穆诺斯角布伦德尔D. Kumaran和M. Botvini ck，“Learning toReinforcementLearn，”inCogSci.DeepMind ， 2017 年。 [ 联机 ] 。网址：https://arxiv.org/pdf/ 1611.05763v3.pdf2[20] Y. 勒昆角Cortes和C. Burges，“MNIST手写数字数据库。 ”[ 联机 ] 。网址：http://yann.lecun.com/exdb/mnist/2[21] P.韦林德，S. 布兰森T. 三田C. 阿华，F. S chroff，S. Belongie和P. Perona，“Caltec h - UCSD Birds 200”，加州理工学院，技术。Rep. CNS-TR-2010-001，2010年。2[22] 诉 Lomanco和D. Maltoni，17-26. [联机]。网址：http://proceedings.mlr.press/v7

下载后可阅读完整内容，剩余1页未读，立即下载