没有合适的资源?快使用搜索试试~ 我知道了~
111254无任务持续学习RahafAljundiKlaasKelchtermansTinneTuytelaars KU Leuven,ESAT-PSI,Belgiumfirstname. esat.kuleuven.be摘要文献中提出的持续深度学习方法通常在基于任务的顺序学习设置中运行。一个任务序列被学习,一次一个,当前任务的所有数据都可用,但不包括先前或未来任务的数据。任务边界和身份在任何时候都是已知的然而,这种设置在实际应用中很少遇到。因此,我们研究如何将持续学习转化为在线设置。我们开发了一个系统,它以流的方式随着时间的推移不断学习,数据分布逐渐变化,并且没有单独任务的概念。为此,我们建立在记忆感知突触的工作,并显示如何通过提供一个协议来确定i)何时更新重要性权重,ii)使用哪些数据来更新它们,以及iii)如何在每个更新步骤中累积重要性权重,从而在线实现这种方法。实验结果表明,在两个应用程序的上下文中的方法的有效性:通过观看肥皂剧和学习机器人避免碰撞来(自)监督学习面部识别模型。1. 介绍在机器学习中,最基本的范例之一是明确区分训练和测试阶段。一旦模型经过训练和验证,它就会切换到测试模式:该模型被冻结并部署用于对先前看不见的数据进行推断,而无需再次对模型参数进行更改。这个设置假设了一个静态的世界,没有分布随时间的变化。此外,它假定为静态任务规范,因此在输出方面没有新的要求(例如,新类别标签)或随时间添加的新任务。训练和测试之间的这种严格划分使得开发新的机器学习算法变得更加容易,但也非常具有限制性。受生物系统的启发,增量学习领域,也被称为持续学习或终身学习。Rahaf Aljundi和Klaas Kelchtermans为这项工作做出了同等贡献,并按字母顺序列出。学习[24,34,37],旨在打破训练和测试阶段之间的这一强大障碍。目标是开发不停止学习的算法,而是随着时间的推移不断更新模型参数。这意味着一个系统有望逐渐积累知识,随着时间的推移,达到越来越好的准确性和更好的覆盖范围然而,实际上不可能存储所有先前的数据-无论是由于存储约束还是出于隐私原因。然而,仅基于最近的数据更新参数会引入对该数据的偏差和称为灾难性干扰的现象,换句话说,会降低旧数据的性能[8,30]。为了在这个方向上取得进展,一些作品选择了一个特定的实验设置,由一系列不同的任务组成,一个接一个地学习。每次,只有“当前”任务的数据可用于训练。我们称之为基于任务的顺序学习。一次一个任务地训练共享模型已经导致了显著的进步和对持续学习的新见解,例如用于保存先前任务知识的不同策略[19,13,1,17]。然而,在这种特定的设置中所描述的方法往往依赖于对任务边界的了解。这些边界表明巩固知识的好时机,即学习任务之后此外,数据可以在任务内混洗,以保证i.i.d.数据另一方面,在在线环境中,数据需要以流式方式处理,数据分布可能会逐渐变化。在这项工作中,我们的目标是克服硬任务边界的要求。特别是,我们研究如何提出基于任务的顺序学习的方法可以推广到在线设置。这需要一个协议来确定何时巩固知识。此外,我们调查的效果,保持一个小的缓冲困难的样品。对于后者,我们从强化学习领域获得灵感,即经验重放[22],尽管使用更小的重放缓冲区,不像Rolnick等人最近的工作。[31]第30段。基于任务的顺序学习主要用于图像分类[19,2,17,39,28]。每当学习者到达一个新的任务,这是当学习的111255如果先前的任务已经收敛,则标准过程是用针对每个新任务类别的附加“头”来扩展网络的输出层相反,我们网络的输出是固定的。在我们的第一个应用程序中,学习识别人脸,我们通过使用嵌入而不是类预测来处理不同数量的类别。在我们的第二个应用程序中,学习一个轻量级机器人在没有碰撞的情况下导航,随着时间的推移而变化的不是输出标签,而是环境。对于这两种应用,数据以流式方式处理。这是一个挑战,因为数据不是独立的。导致一批内的样品不平衡。本文的贡献如下:i)我们是第一个将基于任务的顺序学习扩展到在线持续学习场景中的自由和未知任务边界的人; ii)我们开发协议来将重要的权重正则化器MAS集成在这个在线持续学习设置中; iii)我们对电视剧中的人脸识别和单目碰撞避免的实验证明了我们的方法在处理流数据中的分布变化和稳定在线学习行为方面的有效性,导致知识积累而不是灾难性干扰,并且在所有测试用例中提高了性能。下面我们讨论相关的工作(第2节)。然后,我们在第3节中描述了我们的在线持续学习方法我们在实验第4节中验证了我们的系统,并在第5节中以讨论和结论结束。2. 相关工作在线学习:而在传统的离线学习中,整个训练数据必须在学习任务之前可用,相反,在线学习研究学习算法,学习在数据实例流上顺序地优化预测模型。我们参考[5,33]的调查和概述的主题。第一组在线学习算法由设计用于学习线性模型的不同技术组成[9,6,36,12]。使用内核的在线学习[14]将这一工作扩展到非线性模型,但这些模型仍然很浅,其性能落后于现代深度神经网络。不幸的是,神经网络在线学习的尝试受到收敛、灾难性干扰等问题的困扰最近的一些作品包括[32,27],他们都从一个小网络开始,然后通过添加更多的神经元来适应新样本到达的容量,而对于在线深度度量学习,[18]提出了一种基于堆叠多个度量层的方法。在应用方面,Pernici等人的工作。[26,25]与我们的第一个应用场景相似。他们通过时间知觉以自我监督的方式学习面孔身份它们从VGG人脸检测器和描述器开始,并使用检测到的人脸的记忆与此相反,我们从一个弱得多的预训练模型(不是人脸特定的)开始,并随着时间的推移更新模型参数,而它们不这样做。持续学习和在线学习的共同问题是灾难性干扰[21,8],这是在学习新样本时对先前样本的严重干扰。这种现象在不同的尺度上表现出来:在在线学习中,它发生在学习具有不同于先前模式的样本时;在传统的持续学习环境中,它发生在一系列任务中。持续学习:在[11]中,Hsu等人将所研究的持续学习场景分为增量任务学习、增量领域学习和增量类学习。他们认为,更多的注意力应该放在最后两个方面--即。到不需要知道任务标识的方法,因为这是在大多数实际场景中遇到的情况。然而,如前所述,迄今为止,大多数方法都遵循基于任务的顺序学习设置。这包括各种基于正则化的方法,例如弹性权重合并[13],突触智能[39]和记忆感知突触[1]。这些方法估计每个模型参数的重要性权重,并惩罚对先前任务重要的参数的更改。稍后我们将讨论如何将其中一个扩展到在线设置请注意,虽然Synaptic Intelligence以在线方式计算重要性权重,但它仍然会等到任务结束才更新损失,因此与其他方法一样,它依赖于了解任务边界。Incre- mental MomentMatching [17]建立在类似的思想基础上,但为不同的任务存储不同的模型,并仅在最后才将它们合并。因此,目前还不清楚如何将其扩展到在线、无任务的环境。与此相关的还有关于动态可扩展网络的工作[38]。他们利用新任务和先前学习的任务之间的相关性来确定哪些神经元可以重用,并添加新的神经元来解释新的知识。接下来有几种数据驱动的方法,如学习而不忘记[19]或基于编码器的终身学习[28]。对于先前的任务,有一个单独的知识积累损失项其他方法使用情景记忆,例如iCARL(增量分类器和表示学习)[29]和基于记忆的参数自适应[35]。这里要特别提到连续学习的梯度情景记忆[20],因为它向在线设置迈进了一步:它假设学习者一个接一个地接收示例,但是将场景简化为局部I.I. D。从任务分布中抽取样本。此外,它仍然假设任务标识符已给出。就像我们使用的缓冲器一样,他们对每个任务都使用情景记忆,包括最近看到的例子。一个缓冲区,311256θi数据可以重新用于训练的概念类似于深度强化学习(DRL)中经常使用的重放缓冲区的概念。然而,一个关键的区别是,在旧的和最近的DRL作品中,重放缓冲区通常包含多达1M的样本,对应于超过100天的经验[22,10]。在这里,我们希望通过仅使用最多100个样本的缓冲区来保持算法更在线。一种常见的DRL技术,称为以类似的方式,我们提出了3. 方法我们的目标是设计一种无任务在线持续学习的培训方法。基于任务的顺序学习方法假设数据来自任务,任务边界被识别,因此训练过程可以被划分为连续的阶段。在训练阶段之间,当训练已经稳定时,持续学习方法更新其关于如何避免忘记重要任务的元知识。然而,在在线学习的情况下,数据正在流动,分布正在逐渐改变,目前还不清楚这些方法是否可以应用以及如何应用。在研究了上述几种方法之后,我们确定记忆感知突触(MAS)[1]是这方面最有前途的方法。它具有以下优点。1)静态存储要求:它只为网络中的每个参数存储重要性权重,避免随着时间的推移而增加内存消耗; 2)任务不可知:它可以应用于任何任务,并且不限于分类。特别是,我们可以使用它与嵌入作为输出,避免需要添加额外的“头”的新输出随着时间的推移在训练过程中,所施加惩罚的梯度只是发生在每个参数上的变化,这些参数通过其重要性进行加权。因此,惩罚梯度可以局部添加,并且不需要反向传播步骤; 4)最佳性能:MAS显示出优于其他重要算法的性能。图1:通过检测损失表面中的平台和峰值,我们的方法决定何时更新重要性权重,对应于大爆炸理论实验,参见第4.2节; x轴表示更新步骤bitionDt.此外,分布Dt本身也可能在任何时刻经历从Dt到Dt+1的系统不知道这些分布变化何时发生。目标是不断学习和更新函数F,以最大限度地减少先前看到的和未来样本的预测误差换句话说,它旨在不断更新和积累知识.给定具有参数θ的输入模型,系统在每个时间步基于最近接收的样本和由更新的硬样本XB组成的小缓冲区B来降低经验风险。在线系统的学习目标是:minL(F(X; θ),Y)+ L(F(XB;θ),YB)(1)θ由于强的非独立同相条件和用于梯度步骤的非常低的样本数量,该系统易受最近样本和先前样本之间的灾难性干扰的影响,并且在随着时间积累知识方面面临困难。记忆感知突触(MAS)[1]:在传统的基于任务的顺序学习环境中,MAS的工作原理如下.在每个训练阶段(任务)之后,该方法估计每个网络参数的重要性权重,该参数对先前学习的任务的重要性。为了估计重要性,MAS计算学习函数对参数变化的敏感度。ΣF(xk;θ+δ)−F(xk;θ)<$gi(xk)δi(2)我1ΣN权值正则化器[1,11]。 为了部署MAS在网上持续学习的情况下,我们需要阻止-i=Nk=1|| (三)||(3)挖掘i)何时更新重要性权重,ii)使用哪些数据来更新重要性权重,以及iii)如何在每个更新步骤累积重要性权重。我们首先介绍所考虑的在线持续学习设置,然后解释MAS和我们的培训过程,其中{xk}是来自先前任务的N个样本,δi是模型参数θi的小变化,gi(xk)=<$F(xk)。θi是参数θi的重要性权重。学习新任务时,对重要参数的更改会受到惩罚:这个设置。设置:我们假设一个无限的数据流和一个超级监视或自我监控信号,该信号是基于λΣL(θ)=Ln(θ)+2我∗i(θi−θi)(四)几个连续的样本。在每个时间步长s,系统接收几个连续的样本以及它们的生成标签{xk,yk},这些标签从当前分布中非独立地绘制其中θ=重要性权重估计时的参数值,即在传统顺序设置中用于先前任务的最佳参数。Ln(θ)是2411257K算法1在线持续学习一曰: 输入:第1次,标准第1次,通过第二章: 初始化:B={},{i}=0,检查平台=假3:接收:{x,y}K个连续样本4:forpassinpassoupdo5:损失=1kL(F(xk; θ),yk)6:Hloss= L(F(XB; θ),YB)7:Backprob(Hloss+loss),更新(θ)8:如果pass= 0,则9:更新损失窗口(Hloss+loss)10:如果结束11:结束12:更新缓冲区({x,y},loss,Hloss)13:如果检查平台和µ(l窗口)l th,σ(l窗口)plt µ+plt σ,则19:检查平台=真二十: end if为新任务而战。 每次任务后,将估计值累计至先前估计值。何时更新重要性权重:在基于任务的顺序学习设置的情况下,其中任务具有预先定义的边界,当学习已经收敛时,在每个任务之后更新重要性权重。在在线情况下,数据在不知道任务的开始或结束的情况下(即,当分布偏移发生时)进行流传输因此,我们需要一种机制来确定何时更新重要性权重。为此,我们来看看损失函数的曲面。通过观察损失,我们可以得到一些关于提供给系统的数据的信息。当损失减少时,这表明模型已经从那些看到的样本中学习了一些有意义的新知识。然而,这种损失并不是一直在系统地减少当接收到比之前呈现给学习者的更难或包含不同对象或输入模式的新样本时,损失可能再次增加。在这些情况下,模型必须更新其知识,同时最小限度地干扰先前学习的内容。我们可以得出结论,损失函数中的平台表示稳定的学习机制,其中模型自信地预测当前标签,参见图1。当模型处于这样一个稳定区域时,这通过这种方式,我们确定了对而不是取代以前学到的知识。检测损失面中的平台:为了检测损失表面中的这些平台,我们在训练期间在连续损失上使用滑动窗口。我们监控这个窗口中损失的均值和方差,当它们都低于给定阈值时,重要性权重更新。我们不会不断重新估计重要性权重:我们仅在观察到峰值之后重新检查损耗表面中的平台。当窗口损失平均值高于在先前平台的损失窗口上估计的正态分布的85%时,即当µ(l window)>plt µ+plt σ时,检测到峰值,其中plt µ和plt σ是先前检测到的平台的统计量。这解释了在线学习中损失函数的连续波动,并检测何时观察到显著更硬的样本含有硬样品的小缓冲液:在基于任务的顺序学习设置中,在先前任务的所有训练数据上估计重要性权重。这不是在线学习的选项,因为存储所有以前的数据违反了我们的设置条件。另一方面,仅使用最新的样本序列将导致误导性估计,因为这几个连续样本可能不具有代表性,因此无法正确捕获所获取为了稳定在线学习,我们使用一个小的硬样本缓冲区,通过保持新样本和当前缓冲区中损失最高的样本,在每个学习步骤中更新硬样本。这是重要的,因为先前的样本不能被重新访问,因此除了通过对最近的和硬样本进行平均来获得梯度步长的更好估计之外,还为系统提供了重新处理那些硬样本并朝着更好的预测调整其参数的优势此外,硬缓冲器表示比几个非常新的样本更好地估计所获取的知识,因此允许更好地识别重要性权重。累积重要性权重:因为我们经常更新重要性权重,简单地添加新的估计,如MAS [1]中所建议的,将重要性值与之前的值匹配将导致非常高的值和爆炸梯度。相反,我们保持一个累积移动平均年龄的估计重要性权重。请注意,可以部署一个衰减因子,允许在长期内替换旧的知识。然而,在我们的实验中,累积移动平均值显示出更稳定的结果。在更新重要性权重之后,模型继续学习过程,同时惩罚到目前为止已被识别为重要的参数的变化。因此,我们的最终学习目标是:λΣ目前获得的知识。当学习新的东西时,minL(F(X; θ),Y)+L(F(XB;θ),YB)+ii2ent这些知识。这应该可以让模型积累(θ−θi)2我(五)511258图2:合成实验:训练第二象限后对第一象限的预测。第一象限的测试准确度(两个象限的总测试准确度)重叠。其中θm是最后一次重要性权重更新步骤的参数值。算法1总结了所提出的持续学习系统的不同步骤。4. 实验作为概念验证,我们验证了我们提出的方法在一个简单的合成实验。 之后,我们在两个应用程序上评估了该方法,无论是弱监督还是自监督.首先,我们通过观看肥皂剧来了解演员的身份。第二个应用是机器人导航。在这两种情况下,数据是流动的,在线持续学习是一个关键因素。4.1. 合成实验我们构造了一个二元分类问题,其中点在4D单位球内/外。在两个任务的序列中,每个任务对应于一个象限,我们测试了没有硬缓冲区的在线,在线和我们的完全在线连续方法的性能。图2描绘了在第二象限中的数据上训练结束时第一象限中的决策边界附近的预测硬缓冲区导致更好的学习(更高的总测试精度),而完整的方法也避免了遗忘。4.2. 通过观看肥皂剧不断学习在这里,我们假设一个智能代理正在观看电视连续剧的情节,并学会区分不同演员的面孔该智能体配备了一个在线检测人脸的人脸检测器模块和一个多目标人脸跟踪器。在弱监督的情况下,我们假设有一个注释器告诉智能体两个连续的轨道是否具有相同的身份。对于自我监督的情况下,我们使用的事实,如果两个人的脸被检测到在同一图像,那么他们的轨迹必须属于两个不同的演员。设 置 : 我 们 从 AlexNet [15] 架 构 开 始 , 卷 积 层 在ImageNet [16]上预先训练,全连接层随机初始化。输出层的大小为100。由于输入由两个不同身份的两个轨道组成,因此我们使用三重边际损失[4],这在人脸识别应用中表现得很好。这有一个额外的好处,我们数据集:我们使用来自[3]的演员标签数据集,具体为6集《生活大爆炸》(BBT)、4集《绝命毒师》(BB)和1集《广告狂人》(MM)1。请注意,对于BB和MM,这些片段分别进一步分为总共22个和5个块。对于每一集,我们使用帧,检测到的面部和轨道以及轨道标签[3]。音轨是按时间顺序处理的,模仿了在观看电视剧时在线提取音轨的设置。因此,数据显然是非独立同分布的。对于监督设置,每第十个/第五个轨道分别作为BBT/BB中的测试数据,因为后者具有更多的轨道,339个轨道BBT与3941 BB相比所有其他轨道都用于训练。由于我们只有一集MM,我们决定不使用它的监督设置。对于自我监督的设置,BB被证明是不合适的,因为它是一个以演员为中心的系列,大部分场景都集中在一个演员身上。为了仍然有两个系列的结果,我们在这种情况下也报告了MM此外,[3]提供的原始轨道非常短(BBT/MM中每个轨道平均为8/22面)。由于这对于自监督设置来说是有问题的,我们使用一个简单的启发式算法,基于人脸嵌入之间的距离(基于ImageNet上预训练的AlexNet)来合并属于同一演员的相邻轨道。训练:每当遇到属于不同演员的两个轨道时,使用检测到的面部执行训练步骤(每5帧一个面部)。如果两个轨迹包含超过100个面,则执行随机采样步骤我们使用100个三元组的硬缓冲区大小和5个固定丢失窗口大小在每个时间步长执行几个梯度步长(对于监督设置为2-3,对于自监督设置为10-15)。我们使用SGD优化器,率为10- 4。超参数是根据第一次BBT事件设置的,请参阅补充材料,续费测试:为了测试训练模型在识别电视剧中的演员方面的准确性,我们使用从不同剧集中选择的每个演员的5个模板然后,我们根据学习的表示计算每个测试脸到模板的欧几里得距离,并将输入脸分配给最接近的模板的身份。基线:为了评估我们的系统的好处,我们将其与以下基线进行比较:1. 初始:预训练模型,即在任何一集的训练之前。2. 在线基线:在解释的在线设置中训练但没有MAS重要性权重正则化器的模型。3. 在线联合培训:再次1不幸的是,《广告狂人》其他剧集的标签有问题,这使我们无法使用这些标签。511259在线连续(Ours)在线在线联合离线联合初始在线持续(我们的)50在线在 线 联 合 离线联合初始403020EP1EP2EP3EP4EP5EP6ch1CH5CH9ch13ch17CH21准确度%8075757070656560605555505045(一)(b)第(1)款45第一集第二集第三集第四集第五集第六集(c)第(1)款图3:《生活大爆炸》每集结尾(a)和《绝命毒师》第1、5、9、13、17和21集之后(b)测试数据的准确性。(c)硬缓冲区和累积平均值相对于衰减平均值的重要性的研究,图中显示了每次BBT发作后的测试准确度没有MAS正则化,但具有跨片段的混洗轨道以获得i.i.d.绘制数据。4. 离线联合训练:与在线联合训练不同的是,离线联合训练在整个数据上进行多个时期。这是一个上限。4.2.1监管不力结果图3(a)显示了在每集结束时对BBT的所有测试数据进行评估的演员识别准确度。最初,在线基线(橙色)的准确度比初始模型提高了20%。然而,随着训练的继续,它未能继续积累知识和提高准确性。在第三次事件之后,整体准确性开始下降,可能是因为从这些新事件中学到的知识干扰了以前学到的知识。相比之下,我们的在线连续学习系统(蓝色)继续提高其准确性,并在6集结束时达到与在i.i.d.下使用混洗数据训练的模型的准确性相匹配的准确性。条件(在线联合培训,粉红色)。离线联合训练(紫色),多次重新访问混洗数据,实现最佳性能。值得注意的是,这只比我们在在线和不断变化的分布条件下训练的持续学习系统高出8%图3(b)示出了在学习4集时,在每4个块之后,BB的所有测试数据的准确性显然,这部电视剧比BBT要难得多大多数镜头都是在户外和各种照明条件下拍摄的,正如[3]中所指出的那样。这对应于事件内和事件之间的大的分布变化在这里,在线基线(橙色)在第一集之后未能提高性能。它的准确性明显波动,可能取决于最近看到的数据与该系列其他数据的相关程度。同样,我们的在线持续学习系统(蓝色)在提高和积累知识方面取得了成功与在线基线一样,它的性能有时会下降,但下降会被显著抑制,从而使模型能够随着时间的推移继续学习。令人惊讶的是,它甚至超过了在线联合培训基线(粉红色),并接近离线联合训练上限(紫色),只有在十次重新访问训练数据后才能达到此精度。4.2.2自我监督结果接下来,我们来谈谈自我监督的问题。这个例子反映了持续学习最有趣的理想情况。请记住,作为自我监督的线索,我们使用的事实是,出现在同一图像中的多个轨道应该有不同的身份。我们使用六集BBT,虽然只有第一集和第六集实际上有大量的轨道,两个人出现在一个图像中。图4(a)显示了学习每个片段后所有片段的请注意在线学习基线(橙色)是如何随着观看的剧集数量的增加而继续略微改善只有当我们到了最后一集,有了更多有用的曲目,我们的图4(b)显示了在每个块之后的《广告狂人》与先前的实验类似,我们的在线持续学习(蓝色)在提高性能和积累知识方面取得了成功我们的结论是,稳定的在线学习的持续学习的能力清楚地显示,无论是弱和自我监督的情况。4.2.3消融研究接下来,我们进行消融研究,以评估我们系统的两个组件的影响。第一个因素是用于稳定在线训练和更新重要性权重的硬缓冲区。第二个因素是在更新期间累积重要性权重在我们的系统中,我们使用累积移动平均值,它为所有估计的重要性权重提供相同的权重。另一种方法是使用衰减平均值。这减少了旧的重要性权重的影响,最新的为此,可以设置t=(t-1+t)/2,其中t是当前估计的重要性权重。图3(c)显示了BBT在每一集之后通过不同的变体实现。硬缓冲区明显提高了在线基线和在线持续学习的性能。缓冲在线连续(Ours)在线在线持续衰减在线连续无硬缓冲在线无硬缓冲初始准确度%准确度%511260在线连续自我监督(我们的)在线自我监督初始5856545250484644(一)(b)第(1)款100806040200Skyler-OursWalter-OursSkyler-OnlineWalter-Online123456789 10 11 12 13 14 15 16 17 18 19 20 21块(c)第(1)款图4:自我监督设置:在每一集之后,《生活大爆炸》的所有面孔上的准确性(a)和《广告狂人》在5个块中的每一个块之后的准确性(b)。(c)一项关于演员在训练过程中识别的研究,图中显示了两个主要演员在BB中每个组块后测试的准确性图5:从左至右描绘的与设施A、B、C和D对应的走廊序列中的示例视图。对于硬样本,即使很小,也给学习器一个机会重新通过硬样本,并调整其梯度,以便更好地估计参数更新步骤。此外,它还可以更好地估计在线持续学习中使用的重要性权重重要性权重更新的衰减平均值导致更多的波动,这是由于最近的重要性估计的影响更大。这允许更多的遗忘和对最近估计的更多偏差,这可能对整体测试数据不具有代表性。训练期间样本与识别性能之间的关系:为了显示对所看到的演员的预测如何在在线训练时间内变化,我们在每个块之后绘制每个演员的准确度(对于BB的两个最常见的字符,以避免图过载),参见图4(c)。标记的大小表明演员的频率在一个块;没有标记表示零出现。块中的低频率通常会导致在线基线的准确性下降,而我们的方法更稳定。4.3. 单目碰撞避免避碰是指机器人在环境中漫无目的地导航,同时避开障碍物。我们训练一个神经网络来执行这个任务,在测试时,基于单个RGB图像。训练是通过自我监督完成的,其中基于额外传感器的简单启发式作为监督专家。深度神经网络学习模仿专家避碰任务在各种环境中得到最好的证明。然而,硬件或法律限制可能会阻止存储所有训练数据,从而迫切需要在线学习设置。随着时间的推移,网络往往会忘记它所学到的东西,这种设置非常适合测试在线持续学习。体系结构:我们的模型采用128 × 128 RGB帧作为输入,并输出三个离散的转向方向。该架构由2个卷积和2个全连接组成具有ReLU激活的层。训练从权重的随机初始化开始,然后继续梯度训练。在交叉熵损失上的熵下降。模拟 :实验 是在Gazebo模拟 环境中 进行的, 采用Hector四旋翼模型。前专家是一个启发式阅读扫描从激光测距仪安装在无人机上,并转向方向与最远的深度。专家的演示遵循四个不同走廊的顺序,称为A、B、C和D。如图5所示,环境在纹理、障碍物和转弯方面有所不同训练:每10步发生一次向后传递,使交叉熵损失最小化,如图右下角所示6. 对于每个模型,使用不同的种子训练三个网络,从而绘制出误差条。测试:根据图6中报告的整个数据序列对模型进行评估。x轴上的灰色条表示与新环境的交叉。除了没有持续学习基线的一般在线之外,还给出了以下模型的性能:临时初始化模型、在线联合训练模型以及离线模型。在线联合模型只看过一次所有的数据,但是是在一个i.i.d.中。方式在当前正在学习的环境中,在线学习和不在线学习的准确性都有所提高。然而,没有持续培训的在线培训往往会忘记早期的环境,如A,B和C,而在新的环境中进行培训。特别是在环境B和D中,效果是显而易见的。对于所有模型,环境D中的交叉熵损失上升,指示数据中的显著变化4.4. 现实世界中的概念验证在最后一个实验中,我们在实验室的一个小竞技场中对海龟机器人应用在线持续 该模型在类似的模拟环境中进行了基于策略的预训练,而无需持续学习。On-policy是指在训练过程中由模型而不是专家来控制。在之前的实验中,当数据中出现较大差异时,持续学习被证明是有利的。在这个设置中,我们表明,持续学习也提供了一个环境中的政策培训期间的稳定。同样,一个基于激光测距仪的专家正在提供一个自我监控信号。基于策略的学习往往更加困难,因为当模型访问不相关的状态时,数据包含大量的“虚拟”样本。这种数据效率低下导致模型学习速度变慢,并且可能在学习过程中忘记。例如如果准确度%38在线持续(我们的)网上初始3634323028EP1EP2EP3EP4EP5EP6ch1CH2CH3CH4CH5测试精度准确度%511261图6:不同类型的走廊上的训练准确度以及在如图5所示的走廊序列(A、B、C、D)上的训练期间的总准确度。灰色线表示过渡到新环境。右下图显示了最近缓冲区的交叉熵损失。基线的准确性图7:左:真实世界的在线和策略设置。右:每个训练步骤的碰撞数。使用在线持续学习加快了培训。模型在左侧碰撞,最近的数据教模型更频繁地向右转。但是,在穿过竞技场并在右侧碰撞之后,您仍然希望模型记住它之前所犯的错误。因此,随着时间的推移,保存所获得的知识是至关重要的政策在线学习。在图7中,我们显示了在三种不同模型下,每步的冲突数量随时间的变化以及误差条。显然,持续学习有助于模型更快地学习,碰撞的数量比没有它的情况下下降得更快。5. 讨论和结论重要性权重正则化在学习分布发生较大变化时的在线训练场景中显得最有效。在线数据流越接近i.i.d.样本越多,正的持续学习效应越小然而,在某些情况下,持续的学习往往会减缓对新数据的适应。特别是当新数据比旧数据更具信息性或代表性时,持续学习最初会对训练产生负面影响。换句话说,纯在线学习更快地适应新的变化,但也因此,不太稳定。最终,持续学习的稳定效果是否有利,取决于数据变化的时间尺度虽然在这项工作中,我们专注于网络架构保持固定的设置,并且随着时间的推移没有添加新的输出或任务,但我们相信它也可以应用于其他设置。例如,在类增量设置中,每次出现新的类别标签时,都可以向网络添加一个额外的头部。或者,可以使用到嵌入空间中的投影,如[7]中所示,从而避免对不断增长的网络架构的需求。这些是今后工作的方向。由于时间有限,我们在人脸识别实验中使用了来自公开数据集的数据,从而可以进行定量评估。然而,作为未来的工作,我们计划在大规模的电视连续剧上测试自我监督的在线持续学习,从而学习更长的时间。总之,我们将当前基于任务的顺序学习的限制推向了在线无任务的持续学习。我们假设输入数据的无限流,包含输入分布的渐变和突变。我们的协议部署了最先进的重要性权重正则化方法,通过检测何时,如何以及在什么数据上执行重要性权重更新来进行在线持续学习。它的有效性验证成功的监督和自我监督学习。更具体地说,通过使用我们的持续学习方法,我们证明了在诸如从观看电视连续剧和机器人碰撞避免中学习面部身份等应用中,稳定性和性能都比基线致谢:Rahaf Aljundi的博士学位由FWO奖学金资助。这项工作得到了KU Leuven的CAMETRON研究项目(GOA)和FWO SBO项目Omnidrone的进一步支持。511262引用[1] R. Aljundi,F.巴比罗尼Elhoseiny,M.罗尔巴赫,以及T. Tuytelaars 记忆感知突触:学习什么(不)忘记。arXiv预印本arXiv:1711.09601,2017。[2] R. Aljundi,P. Chakravarty,and T. Tuytelaars专家门:通过专家网络进行终身学习。在IEEE计算机视觉和模式识别会议(CVPR),2016年。[3] R. 阿尔容迪山口Chakravarty和T.Tuytelaars 那个演员是谁从IMDB图像开始的电视连续剧中的演员的自动标记。亚洲计算机视觉会议,第467-483页。施普林格,2016年。[4] V. Balntas,E. Riba,D. Ponsa和K.米科莱奇克用三元组和浅卷积神经网络学习局部特征描述符。BMVC,第119.1-119.11页,2016年1月。[5] L.博图 在线学习和随机逼近。神经网络中的在线学习,17(9):142,1998。[6] J. Duchi,E. Hazan和Y.歌手. 在线学习和随机优化的自适 应 子 梯 度 方 法 。 Journal of Machine LearningResearch,12(Jul):2121[7] M. Elhoseiny,F.巴比洛尼河Aljundi,M.罗尔巴赫,以及T. Tuytelaars 探索终身事实学习的挑战2018年亚洲计算机视觉会议[8] R. M.法语联结主义网络中的灾难性遗忘。Trends incognitive sciences,3(4):128[9] E. Hazan、A.Rakhlin和P.L. 巴特利特自适应在线梯度下降。神经信息处理系统的进展,第65-72页,2008年[10] M. Hessel,J. Modayil,H. van Hasselt,T. Schaul,G.奥斯特罗夫斯基,W。Dabney,D.霍根湾Piot,M.Azar和D.银. Rainbow:结合深度强化学习的改进。arXiv预印本arXiv:1710.02298,2017。[11] Y.-- C.徐英C. Liu和Z.吉良重新评估持续学习情景:强基线的分类和案例。arXiv预印本arXiv:1810.12488,2018。[12] T.胡具有不同高斯分布和不同分布的在线回归。分析与应用,9(04):395[13] J·柯克帕特里克R. 帕斯卡努N. 拉宾诺维茨J.Veness,G. Desjardins、A. A. Rusu,K. Milan,J. Quan,T. Ra-malho,A. Grabska-Barwinska等人克服神经网络中的catastrophic遗忘。arXiv预印本arXiv:1612.00796,2016年。[14] J. Kivinen,A.J. Smola和R.C. 威廉姆森使用内核进行在线IEEE信号处理学报,52(8):2165[15] A.克里热夫斯基并行卷积神经网络的一个奇怪的技巧。arXiv预印本arXiv:1404.5997,2014。[16] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097-1105页[17] S.- W. 李,J. -H. 金,J. -W. 哈,B。-T. 张某通过增量时刻 匹 配 克 服 灾 难 性 遗 忘 。 arXiv 预 印 本 arXiv :1703.08475,2017。[18] W. Li,J. Huo,Y. Shi,Y.高湖,加-地Wang和J.罗在线深 度 度 量 学 习 。 arXiv 预 印 本 arXiv : 1805.05510 ,2018。[19] Z. Li和D.霍伊姆学而不忘。欧洲计算机视觉会议,第614-629页。施普林格,2016年。[20] D. Lopez-Paz等人连续学习的梯度情景记忆。神经信息处理系统的进展,第6470-6479页,2017年[21] M. McCloskey和N. J·科恩连接主义网络中的灾难性干扰:顺序学习问题。学习与动机心理学,24:109[22] V. Mnih,K. Kavukcuoglu,D. Silver,黑胫拟天蛾A. A.Rusu,J. Ve- ness,M. G. Bellemare,A. 格雷夫斯山Riedmiller,A. K. Fidjeland,G. Ostrovski,S.彼得森角Beattie,A. 萨迪克I.安东诺格鲁King,D.库马兰角Wierstra,S. Legg和D.哈萨比斯通过深度强化学习实现人性化控制。Nature,2014.[23] A. W. Moore和C. G.阿特克森优先清扫:用更少的数据和更少的时间重新强化学习。Machine Learning,13(1):103[24] A. Pentina和C. H.蓝伯特 终身学习与非i.i.d.任务NIPS,2015年。[25] F. Pernici,F. Bartoli,M. Bruni和A. D.荡妇从视频流中进 行 基 于 记 忆 的 深 度 表 示 在 线 学 习 CoRR ,abs/1711.07368,2017。[26] F. Pernici和A. 德尔·宾博 从视频流中进行深度描述符的无监督增量学习。ICMEW.2017.8026276. ,第477-482页[27] S. 拉玛萨米 K. 拉贾拉曼, P. 克里希纳斯瓦米,V.在线深度学习:在飞行中增长RBM。arXiv预印本arXiv:1803.02043,2018。[28] A.兰嫩河Aljundi,M. B. Blaschko和T. Tuytelaars基于编码器的终身学习。在IEEE计算机视觉和模式识别会议论文集,第1320-1328页[29] S.- A. Rebuffi,A. Kolesnikov和C. H.蓝伯特icarl:增量分类器和表示学习。arXiv预印本arXiv:1611.07725,2016年。[30] A. 罗 宾 灾 难 性 的 遗 忘 , 排 练 和 假 唱 。 ConnectionScience,7(2):123[31] D. Rolnick
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功