没有合适的资源?快使用搜索试试~ 我知道了~
8281在线持续学习与自然分布转移:可视化数据的实证研究蔡志鹏英特尔实验室英特尔实验室VladlenKoltun IntelLabs摘要持续学习是在多个任务和环境中通过时间学习和保留知识的问题。研究主要集中在增量分类设置上,其中以离散的时间间隔添加新的任务/类这样的我们认为,“在线”的持续学习,数据是一个单一的连续流没有任务边界,使评估信息保留和在线学习的功效。在在线持续学习中,每个传入的小批数据首先用于测试,然后添加到训练集,使问题真正在线。训练后的模型随后在历史数据上进行评估以评估信息保留。我们引入了一个新的基准在线持续视觉学习,表现出大规模和自然分布的变化。通过大规模的分析,我们确定关键的和以前未观察到的现象,基于梯度的优化在持续学习,并提出有效的策略,以提高基于梯度的在线持续学习与真实数据。源代码和数据集可在:https://github.com/英特尔实验室/continuallearning。1. 介绍监督学习的目标是找到可以在给定输入数据的情况下预测标签的模型,并且在特定的感兴趣人群上进行评估时具有令人满意的性能这种填充通常被采样以创建用于模型学习的训练数据成功学习的关键要求是一组独立且相同分布的训练数据点持续学习挑战了这一假设,并考虑了一系列的学习问题,其中分布随着时间的推移发生了显着变化。当学习模型部署在交互式系统中时,这种设置是至关重要的,因为代理交互的环境不断发展。持续学习者有两个关键的绩效指标:学习效能和信息保持。学习效能包含一个简单的问题,“学习第n件事比学习第一件事容易吗?”“[31]第30段。这种能力对于快速学习和快速适应至关重要信息保留考虑模型在面对先前考虑过研究这个问题也是为了理解神经网络的一个属性,称为灾难性遗忘[21]。通常在增量分类设置中评估连续学习算法,其中任务/类以离散时间间隔一个接一个地到达允许在当前任务上的多个此设置适用于评估信息保留,因为禁止访问以前的任务。然而,在这种情况下不会评估学习效率,因为模型可以很容易地从头开始学习每个任务,并且仍然是成功的[23]。我们将这种增量分类设置称为离线持续学习。我们的工作重点是在线持续学习,其目的是评估学习效率,除了信息保留。在在线持续学习中,只有一个在线数据流。在每一个时间步,一小批数据到达。模型需要立即预测传入数据的标签,作为在线测试步骤。在预测之后,这批数据被添加到数据集。模型需要在下一批数据到达之前使用固定的计算和内存预算进行更新;这是在线训练步骤。测试和培训都在进行中。此外,由于我们处于持续学习环境中,数据分布会随着时间的推移而变化成功的在线测试性能需要在这种非平稳设置中进行有效的学习和适应。为了研究在线持续视觉学习,我们构建了一个新的基准,其中数据分布随着时间的推移而自然演变为此,我们利用带有地理位置标签和时间戳的图像。我们使用YFCC100M [30]的一个子集,在9年内捕获了3900万张图像。我们的任务是在线持续地理定位。我们实证评估自然分布的转变,并验证了基准8282•∼适合在网上继续学习。我们进一步使用这个基准来分析在线持续学习中基于梯度的优化的行为我们的实验表明,数据的非平稳性导致了与先前在离线持续学习中观察到的行为显著不同的行为。令人惊讶的是,从优化的角度来看,学习效率和信息保留是相互冲突的我们还发现,迷你批处理是一个不平凡的问题,在线持续学习。增加SGD中的批量大小,即使是很小的因素,也会显著损害学习效率和信息保留。基于分析,我们提出了简单而有效的策略,如在线学习率和重放缓冲区大小的自适应算法,显着提高基于梯度的优化在线持续学习。我们将与社区分享我们的基准和代码,以支持在线持续视觉学习的未来研究。2. 相关工作持续学习基准。大多数视觉持续学习基准使用合成任务序列。合成任务序列的一种常见方法是将原始标签空 间 分 成 多 个 子 空 间 。 Split MNIST [34] , SplitnotMNIST [22],Split CIFAR 10/100 [34],Split Tiny-ImageNet [4]和iILSVRC [24]都是以这种方式构建的。另一种方法是将不同类型的转换作为新任务注入数据。[34][35][36][37][38][39对于在线视觉持续学习,Aljundi et al.[2]使用肥皂剧系列进行演员识别。虽然训练是在线的,但测试是在所有事件的时不变验证数据上进行的。最近,Firehose基准[13]提出了自然语言模型的在线持续学习它包含大量的Twitter帖子,用于训练一个自我监督和多任务语言模型,用于每个用户的推文预测。持续学习算法。现有的连续学习算法可以大致分类为1)基于正则化的,2)基于参数隔离的,和3)基于重放的(参见[5]以获得详细调查)。基于正则化的方法基于蒸馏[17]或估计的网络参数重要性[15,34,1,16]将正则化项添加到训练由于历史数据未被缓存用于训练,因此这些方法通常遭受catastrophic遗忘,特别是在给定长数据流的情况下[6]。基于参数隔离的方法[20,27]将不同的网络参数集分配给不同的任务。然而,由于使用任务ID进行训练,它们不适合在线持续学习。基于回放的方法使用历史示例[24,4]或通过基于历史示例样品[29]。重放数据可以用作训练数据的一部分,或者用于在训练期间约束梯度方向[18,3]。基于重放的方法一般被发现比其他方法更有效,我们采用它们作为我们的算法在这项工作中的起点地理定位算法。 我们使用地理定位的图像流作为一个在线的持续学习设置。虽然我们的工作是唯一的连续/在线的方法,地理定位的问题已被广泛研究。Hays和Efros [9,10]的开创性工作通过图像检索解决了地理定位问题给定查询图像,它对具有地理位置标签的数百万个图像执行最近邻搜索,并使用最近邻的位置进行预测。Vo等人。[32]用深度神经网络计算的特征该网络使用分类损失进行训练,但仅用于特征提取。PlaNet[33]将地理定位公式化为图像分类问题,并训练深度神经网络进行分类。PlaNet比基于检索的方法有效得多,因为它只需要每个查询图像一次向前传递,而不是在数百万图像上进行最近邻搜索。CPlaNet [26]将组合分区引入PlaNet,后者使用地图的多个粗粒度分区该技术用于缓解大标签空间和每个类的少量训练样本之间的冲突我们使用PlaNet作为起点,由于其简单性和效率,并将其扩展到连续和在线设置。3. 在线持续学习在 本 节 中 , 我 们 正 式 定 义 了 在 线 继 续 学 习(OCL),主要是遵循在线学习的定义我们进一步讨论了我们用来评估学习效率和信息保留的指标。根据在线学习的常见定义[11,28],我们将OCL定义为学习者和环境之间的游戏。学习器在预定义函数类h(·;θ)中操作:X→Y,参数θ预测标签Y 给定一个输入X∈X。在每一步t∈ {1,2,…游戏中,环境生成一组数据点Xtπt从非平稳分布πt中采样。学习器使用当前模型θt对X t进行预测,公式为Yt=h(Xt;θt)。环境揭示真实标签Y t并计算在线度量m(Yt,Yt)。学习器使用固定的计算和存储器预算来更新模型θt+1由于这种形式化直接跟随在线学习,因此它仅被设计用于评估在线表现。为了进一步评估信息保留,我们评估模型···8283不O不SSFFtFSS不θH/3、θ2H/3、θH在预定义时刻H/3、2H/3、H,其中H是用于评估的时间步长的总数在历史时间步长采样的验证数据(在训练我们指这是反向转移。同样,我们也评估未来数据的模型,并称之为前向传输。指标. 为了评估学习效率,我们测量了一段时间内的平均在线准确率,类似于在线学习中的平均我们计算运行中计算的准确度的运行平均值为acc(t)=1Σac c(Y,Y).(一)s=1(a) 我们数据集中为了评估信息保留,我们在各种预定义的时刻计算反向传输。我们专门计算历史数据的平均准确度。形式上,模型在时间T(T为H/3、2H/3或我们的H)的向后转移定义为不(b) 每个国家1Σacc @T(t)=acc(Y,h(X; θ))。 (二)BBtBs=T−tBs s T6M5M104最后,我们还评估了该模型如何将信息传递给未来。该度量可用于评估模型随时间的分布外泛化类似于反向转移,我们将在特定时间点T(具体地H/3和2H/3)的正向转移评估为3M3M2M1M02006 2007 2008 2009 2010 2011 2012 2013 2014年十两1010-210-40.0 0.2 0.4 0.6 0.8 1.0速率的数据T+tF(c) 历年统计数据(d) 地理定位精度1Σacc @T(t)=acc(Y,h(X;θ))。(三)S=T图1. 我们的基准数据。(a)我们把地球-在712个S2细胞上进行分类的问题,可视化所有三个度量都是时间的函数,而不是单个时不变值。这种选择是有意的,因为感兴趣的问题是在线的。当我们比较两个算法时,如果一个在早期工作得更好,另一个在后期工作得更好,我们希望检测这些特征。因此,我们绘制了这三个指标随时间的评估。4. 持续本地化基准为了研究在线持续视觉学习,我们需要一个具有自然分布变化的大规模基准。我们建议使用地理定位作为在线连续视觉学习的任务,因为数据是现成的。我们使用来自YFCC100M [30]的具有地理位置和时间戳的图像。在获得YFCC100M图像的时间戳之后,我们执行一系列预处理步骤。首先,我们只保留2004年到2014年的图像,因为2004年之前的图像通常具有以用户物理相机的默认日期和时间形式的噪声时间戳。然后,我们根据时间戳对数据流进行排序,即,这里. (b)我们绘制了各国图像的分布图。大多数图像来自北美和欧洲。(c)每年的图像数量随时间变化(d)S2小区的地理定位准确性(右下角更好)。在[10]之后,绘制了街道、城市、地区、国家和大陆的近似尺度较早拍摄的图像将首先被持续学习者看到。最后,我们将前5%的数据分配用于离线预处理,并在整个时间范围内随机抽取另外1%作为保留的验证集,以评估向后和向前传输。在预处理之后,我们有3900万张图像用于继续学习,200万张图像用于离线预处理,39.2万张图像用于向后和向前传输评估。我们将我们的基准称为CLOC,即持续本地化的缩写。我们在图1中可视化了这些图像在不同年份和国家的分布从图中我们可以看出,由于Flickr用户的分布,图像的分布严重偏向北美和欧洲。我们应用标准程序将地理定位问题转换为分类[33]。我们特别类标签1(街道)25(城市)200(地区)750(国家)2500(大陆)12742(地球直径)数量的图像地理位置误差(km)82841 .一、157≈30252015102007年1月2008年1月2009年1月2010年1月2011年1月2012年1月2014年1月时间图2. CLOC中的分布偏移。我们训练了两个监督模型,一个使用来自整个时间范围的数据,另一我们使用验证集(在训练过程中看不到)在整个时间范围内评估这两个模型。由于数据的非平稳性,2010年模型的性能在其他时间的数据上急剧下降。使用S2单元层次结构[25]将地球划分为多个区域,然后在离线预处理集上计算统计数据我们还将每个类中的图像数量限制在50到10K之间使用这个过程中,我们在地球上产生712个S2细胞,将我们的问题转化为712类分类问题。我们在图1(a)中可视化S2细胞。具有更多图像的区域被更精细地细分。为了量化由于构建的类标签而导致的地理定位准确性的损失,我们在图1B中绘制。1(d)每个图像的位置与对应的类中心之间的距离的分布,即,S2细胞的中心。我们可以看到,大约5%的数据距离街道级别的类中心1公里<大约30%的数据距离城市级的类中心25公里<大约80%的数据在区域级别上距离其类中心200公里<与以前的视觉持续学习基准相比,CLOC的规模要大得多:它包含了9年来拍摄的3900至关重要的是,CLOC的分布转变是自然的,而不是合成的。CLOC既不需要明确的任务边界,也不需要人工注入的数据增强。数据分布自然会随着时间的推移而演变。为了在CLOC上执行OCL,我们在每个时间步长摄取由同一用户上传的连续图像集,因为用户有时同时上传通常来自同一地区的小一旦图像到达,模型需要进行预测,更新其模型,并移动到下一组图像。请注意,图像按时间戳排序。因此,OCL模型以其自然顺序接收这些图像。验证CLOC的分布偏移。我们需要验证的一个关键问题是问题的持续性。如果数据分布不随时间变化,则不需要持续学习。为了验证分布偏移,我们训练了两个监督学习模型CLOC(有关实施细节,请参见第5.1节)。第一个模型是在整个时间范围内训练的,第二个模型只在2010年的数据为了公平比较,我们对全范围模型的训练集进行子采样,使其与另一个模型的训练集大小相同我们在保持的验证数据上评估训练的模型,并绘制前1个准确度与图2中的时间时间局部化模型的性能相比之下,全系列模型在2010年没有大幅的性能增长。这表明CLOC中存在显著的非平稳性。5. 实证研究和结果5.1. 设置为了实证研究在线持续视觉学习,我们做出了一系列系统的选择,专注于简单性,可扩展性和可重复性。我们的模型独立 地预测每个图像的我们选择ResNet50 [12]架构和经验重放(ER)[4]算法作为主要设置。我们选择ER,因为它是一种有效的持续学习算法,可扩展到大规模的问题。ER使用重放缓冲区来存储一组历史数据。保持重放缓冲区的策略对于持续学习是重要的。但是,我们的分析表明,它对基于梯度的优化有较小的影响 因此,我们部署了先进先出(FIFO)缓冲区的主要文件进行分析,并在补充经验评估这一选择。在每次训练迭代中,来自数据流的图像与从重放缓冲器随机采样的图像结合在一起注意,学习功效,即,当量(1)中所述的重放数据仅在数据流上测量我们将标准数据增强应用于图像[12]。增强被应用于流式传输和重放数据两者换句话说,重放缓冲器包含原始图像,并且每当重放图像时应用随机OCL中不存在批量大小的概念,因为模型需要在线预测每个传入图像的标签在其直接实现中,这对应于1个专辑的同一用户上传的下一组连续图像(平均1.157张图像)。然而,监督学习的分析表明,小批量对基于梯度的优化是有益的[7];此外,由于为了测试模型而执行3900万~ 3400万次迭代的成本过高,因此计算考虑还提出了某种形式的小批量处理。因此,我们放松了这一约束,同时保持在线性质的问题。该模型在每次迭代时接收256个图像,但是在线精度仅在每月准确度(%)20102002014年6月8285Avg. 在线准确度(%)----3--111第一张专辑在这些图片。选择用于连续学习的超参数是特别棘手的,因为连续设置排除了一旦模型被部署,它就需要不断地学习,而不需要重新训练。因此,我们使用离线预处理数据集进行所有超参数超参数-0.100.080.060.040.020.00PoLRS恒定余弦电话:+86-0512 - 88888888传真:+86-0512 - 88888888由该方法设置的参数是初始学习率(0. 05)、权重衰减(1e 4)和损失(交叉熵)。我们还报告了离线监督学习结果作为基线,其中在整个数据集上单独调整的超参数 因此,监督学习基线使用初始学习率0。025,1e的重量衰减4、交叉熵损失和余弦学习率时间表。645.2. 学习率分析2查看数据1e7(a) 学习率4035302520151050为了研究学习率及其时间表在OCL中的作用,我们比较了学习率随时间固定的恒定学习率时间表和具有一个周期和最小LR为0的我们还评估了由基于人口的搜索生成的自适应时间表基于种群的搜索并行训练3个模型(保持总计算量与其他条件下相同);每第N步,将表现最好的模型的权重复制到其他模型,并且所有模型的学习率以当前最佳学习率为中心。我们将N设置为200万,这与用于设置初始超参数的离线预处理步骤的大小我们 在Alg 中总结了 这个时间表1 ,并称之 为PoLRS,人口学习率搜索的缩写。0.00.51.01.52.0二点五3.0第3.5节4.0查看数据1e7(b) 平均在线准确率(↑)14121086420.000.250.500.751.001.251.50一点七五Time Into History(s)(d)2H/3时反向转移(↑)12100.5 1.0 1.5 2.0 2.5Time Into History(s)(c)H处的反向转移(↑)5.04.54.03.53.02.50.0 0.2 0.4 0.6 0.8 1.0Time Into Future(s)1e8(e) 2H时的正向转移(↑)1210算法1群体学习率搜索(PoLRS)要 求 : 学 习 速 率 更 新 间 隔 N , 性 能 评 估 的 度 量 m(·),初始学习速率10,初始模型{θ1,θ2,θ3}。86420.0 0.2 0.4 0.6 0.8 1.0Time Into History(s)86420.000.250.500.751.001.251.50一点七五Time Into Future(s)1e8一曰: j*←1并将学习率设置为{2l0,l0,0.5l0}。2:对于t ∈ {1,2,…}do(f) H/3处的反向转移(↑)(g)H/3处的正向转移(↑)3:使用θj*测试X t并计算成本mt()图3. 学习率分析结果。 H是总数不1、2、3个的时间步骤。子图标题中的箭头指向更好的4:更新θt、θt、θt及其度量mt、mt、mt5:j*= arg max(mj)性能(a)PoLRS动态地调整学习速率t随时间变化。(b)PoLRS在以下方面优于固定时间表6:如果tmodN=0,则7:复制θj* 到θ1,θ2,θ3.平均在线准确度。(c)余弦时间表具有最好的t tt不j* j∗j∗在时间H反向传输,虽然其平均在线精度8:将学习速率设置为21t,1t,0。5升吨9:如果结束10:结束我们在图中绘制了每种方法随时间的学习率。第3(a)段。PoLRS的学习率与其他方法有显着不同。我们在使用PoLRS时使用在线准确度作为度量,并且在线准确度结果来自图1。3(b)显示PoLRS优于其他调度。我们进一步评估了向前和向后转移。 图3(c)示出了所有调度的是最糟糕的(d,e)当余弦时间表的学习速率比其他时间表(2 H/3和H)小得多时,余弦时间表具有最佳转移。(f,g)使用大学习率的时间表倾向于具有低的前向和后向迁移。在最后的时间步长H处。 余弦时间表有最好的向后转移,但最差的在线拟合。因此,学习效能和信息保持的最佳学习率是不同的。图图3(d)至3(g)进一步绘制了在时间H/3和2H/3处的前向和后向转移。 我们看到,当它们的学习率很大时,所有调度都具有低的向前和向后转移,即,在时间H/3处。此外,当常余弦PoLRS恒定余弦PoLRS恒定余弦PoLRS恒定余弦PoLRS恒定余弦PoLRS向后转移(%)恒定余弦PoLRS向后转移(%)学习率前向转移(%)向后转移(%)前向转移(%)10882860.39亿4百万40千0.39亿4百万4万ADRepAvg. 在线准确度(%)重播缓冲区大小↑KKt t←Rep不SSSSSS不1010120万810000008800000六、六600000440万4220.00.51.01.52.02.53.03.54.020000000.00.51.01.52.02.53.03.5 4.00.00.51.01.52.02.53.03.54.0查看数据1e7查看数据1e7查看数据1e7(a) 平均在线准确率(↑)16101412810(a) 平均在线准确度()(b) 重放缓冲尺寸的ADRep随时间的变化图5. ADRep与恒定重放缓冲区大小。(a)ADRep在整个培训过程中提供了接近最佳的平均在线准确度(b) ADRep随时间逐渐增加重放缓冲区大小6420.00.51.01.52.0二点五3.0第3.5节4.0864200.00.51.01.52.0二点五3.0第3.5节4.0算法2自适应重放缓冲器大小(ADRep)要求:更新间隔N’,初始重放缓冲区大小R,差异阈值ε,初始模型θ1。查看数据1e7查看数据1e71:访问流,访问Rep ←0;k←1(b)训练准确度acc流(c)训练准确度acc代表2:对于t ∈ {1,2,…}do对数据流重放数据3:具有R的重放缓冲器大小的更新模型。图4.重放缓冲区大小R对学习效能的影响。4:accStream←(k−1)accStream+acc(Yt,h(Xt;θt))(a)最佳重放缓冲器大小随时间改变。(b,c)重放缓冲器大小与训练统计之间的相关性。当R5:访问Rep ←(k−1)accRep+acc(YRep,h(XRep;θt))太 小 ( 在 后 期 时 间 步 长 处 为 4 万 ) , 训 练 精 度accRep>>accStream 。 当 R 太 大 ( 400 万 和 3900 万 ) 时 ,ac_c_Rep_<accRep+ε,则R←R余弦时间表的学习速率变得更小而不是其他的,即,在时间2H/3和H时,它始终超出-10:如果访问11:如果结束流访问联系我们s=1克雷斯河如果accStreamaccRep−ε,我们增加R。<82880.39亿4百万4万ADRep0.39亿4百万40千ADRep0.39亿4百万40千ADRepBS64BS128公 司简介BS64BS128公司简介前向转移(%)前向转移(%)向后转移(%)Avg. 在线准确度(%)≈不超过···1 .一、157≈25.022.520.017.515.012.5166.0145.8125.6105.485.25.0610.04.847.54.620.5 1.0 1.5 2.02.5历史中的时间(s)1e80.00.51.01.52.0二点五3.0第3.5节4.0查看数据1e70.00.51.01.52.0二点五3.0第3.5节4.0查看数据1e7(a) H处的反向转移(↑)916一四八(a) 训练损失(↓)1110(b) 平均在线准确率(↑)1816一二七一四9十十二6八八一零5六八7四四六0.000.250.500.751.001.251.50一点七五0.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.0时间进入未来1e80.000.250.500.751.001.251.50一点七五Time Into History(s)Time Into History(s)(b) 2H时反向转移/(↑Time Into Future(s)1e82小时(c) 2H/3时向前转移(↑)(d)2H/3时向后转移(↑)3)(c)在/3(↑)处向前转移图7. 批量大小的影响。是最后一个时间步长。在-图6. 不同重放缓冲区大小的传输结果。H是最后一个时间步长。(a)重放缓冲器大小3900万具有与400万相当的向后转移(b,c)重放缓冲器大小3900万具有更差的前向和后向转移到400万。这些结果表明,大的重放缓冲区大小并不总是有利于传输。我们观察到ADRep对超参数选择不敏感,并且我们选择ε = 0。5%和N ′40K。图5显示了ADRep的结果。从图5(a)中,我们看到ADRep在整个训练中显示出显著优异的性能。更重要的是,菲图5(b)显示ADRep能够随着时间逐渐适应R。 注意,ADRep仅需要计算和比较在线训练统计数据以适应重放缓冲区大小,这几乎不需要额外的计算/存储预算。在转移方面,图。6绘制了所有模型的传递结果。我们看到,在时间2H/3时,R=400万优于R=3900万,并且在时间H时相当。因此,与学习效能一样,较大的R并不总是有利于迁移。ADRep在以下情况下表现不佳:H增加批量大小对训练损失(a)和所有性能度量(包括平均在线准确度(b)、前向转移(c)和后向转移(d))具有一致且强烈的负面影响我们使用单个专辑的批量大小来评估在线准确性,但是训练过程可以自由地使用任何批量大小。监督学习[8]中的分析表明,学习率和批量大小应该类似地缩放具体地说,训练批量FB0和学习率Fl0将具有与具有批量大小B0和学习率10的训练类似的学习动态,只要FB0不是太大,例如,四千当我们对混洗数据使用监督学习时,这种行为对于CLOC是可重复的。(See详情请见补充资料我们同样分析了批量大小对OCL的影响我们将B个连续的样本分组到一个批次中,一旦我们看到B个图像,就对每一批数据进行训练(测试总是使用最新的模型独立完成)。为了分析效果,我们训练了三个模型,其中B设置为64,128和128。256. 对于B256,我们将学习率降低到B1,<与其他战略相比,转移。其中l是用于B=256的学习率256调查结果摘要。(1)较大的重放缓冲区大小在学习效率和传输方面并不总是更好(2)在学习效率方面,所提出的自适应策略是成功的,几乎没有额外的计算成本。5.4. 批量分析在线持续学习中批量大小的概念很难定义。自然设置是 1个 al- bum 的批 量大小 (CLOC 上的 平均值 为1.157),但是为了评估模型而进行的SGD的3900 万次3400万次迭代实际上并不此外,监督学习实践表明,小批量是有益的,特别是节省训练时间。将评价与执行分开,.我们在这里使用余弦调度和400万个重放缓冲区。与监督学习不同,增加B(即使是很小的因子F)会严重损害OCL的所有性能指标。如图7、训练损失(图)7(a))以及所有性能指标(图7(b)至7(d))与B发生显著变化。增加B对所有指标具有一致且强烈的负面影响无论我们是否使用重放缓冲区,这都是正确的该补充提供了在没有ER的情况下训练的模型的类似这意味着批量大小的影响不是特定于算法的结果。在监督学习中,数据是iid。并且梯度估计是无偏的,而与批量大小无关。批量大小仅影响方差。在OCL中,梯度不是无偏的,因为BS64BS128公司简介BS64BS128公司简介向后转移(%)向后转移(%)训练损失8289712454035302520151050.00.51.01.52.02.53.03.54.0查看数据1e712742(地球直径)2500(大陆)750(国家)200(地区)25(城市)1(街道)GT标签OCL 1 GD步骤OCL 5 GD步骤SL 1时期SL 5历元盲分类器0.0 0.2 0.4 0.6 0.8 1.0速率的数据盲分类器的性能明显优于随机分类器,随机分类器的准确度为1反过来,OCL的平均在线准确度显著超过盲分类器的准确度这表明模型随着时间的推移成功学习。令人惊讶和有希望的是,OCL的在线准确性优于给定的监督学习模型的验证准确性。(a)Avg.在线精度(↑) (b)前1个预测位置误差图8. OCL模型与他人SL是指监督学习的结果。“GD步骤”是指每个小批次的梯度下降步骤的数量。(a)OCL与盲分类器的平均在线准确度和监督模型的验证准确度。OCL的平均在线准确度与监督学习模型的验证准确度相当(b)top-1 OCL预测的地理定位误差。右下角更好。分布是非IID的。随着批量的增加,方差减小,但偏差增加。由于离线和在线持续学习之间的差异,基于梯度的优化需要额外关注在线持续学习,进一步验证CLOC等基准。调查结果摘要。与监督学习不同,OCL中的小批处理并不简单。增加批量大小,即使是很小的因素,对所有性能指标都有很大的负面影响。这表明应使用尽可能小的批量。5.5. 整体性能在本节中,我们开发了一个在线持续学习策略,结合所提出的研究结果,并评估其性能。具体来说,我们利用PoLRS的自适应学习率计划,ADRep的自适应缓冲区大小我们将批量大小设置为64,这是最小值,以便在合理的时间内对整个数据集进行训练为了分析这个模型,我们比较了它的平均在线准确率对其他两个分类器的性能第一个是不使用输入图像的“盲”分类器的平均在线准确度盲分类器只使用历史标签来预测未来样本的标签具体来说,我们使用前10张图像中出现频率最高的标签(经过第二个分类器是监督学习模型。我们用两个时间预算训练监督学习模型,一个用于整个训练集的一个时期,另一个用于五个时期。我们将OCL的平均在线准确度与监督学习模型的平均验证准确度进行了比较。为了检查OCL的训练预算的效果,我们还训练了两个OCL模型,每个小批量分别有一个和五个梯度下降步骤。结果总结见图。8.图8(a)指示类似的预算。这表明学习效能和信息保持在某些方面是冲突的,即,优化一个目标可能会损害另一个目标因此,在实际应用中选择合适的优化目标是非常重要的我们还绘制了每个图像的位置与OCL的前1个预测所表示的位置之间的距离(图1)。第8(b)段)。与PlaNet [33]的监督学习结果类似,由于视觉地理定位的固有困难,大多数预测都远离图像的尽管如此,OCL还是比在地理定位误差方面的监督学习。6. 结论研究了基于可视化数据的在线持续学习问题使用带有时间戳和地理位置标签的图像我们分析了主要优化决策的影响,包括学习率,重放缓冲区大小和批量大小。我们发现,理想的学习率是不同的学习效率和信息保留,并提出了不同的时间表,为不同的性能指标。我们还发现,使用最大可能的重放缓冲区大小进行经验重放的常见做法并不总是最佳的。我们提出了一种在线重放缓冲区大小自适应算法,以提高学习效率。对于批量大小,我们发现OCL中的mini-batching是不平凡的。与监督学习不同,在监督学习中,小批量SGD是并行训练的标准,增加批量大小,即使是少量,也会严重损害学习效率和信息保留。因此,OCL应使用尽可能小的批量。使用所提出的策略,我们能够训练OCL模型,其在线准确性与使用类似预算训练的监督学习模型的验证准确性相当。未来的方向。许多有趣的未来研究方向已经从这项工作中出现。例如,在SEC。在图5.5中,我们看到盲分类器可以使用标签的时间相干性来实现比随机猜测好得多的在线性能。利用这种时间相干性来改进我们的模型,它只使用单个图像作为输入,这是一个有趣的可能性。同时,本文主要研究了“监督”OCL,其中每个示例的标签都是可观察的。将研究扩展到盲分类器OCL 1GD步骤OCL 5GD步骤SL 1时期SL 5时期Avg. 在线准确度(%)地理定位误差(km)8290引用[1] RahafAljundi , FrancescaBabiloni , MohamedElhoseiny,Marcus Rohrbach,and Tinne Tuytelaars.记忆感知突触:学习什么(不)忘记。在欧洲计算机视觉会议(ECCV)的会议记录中,第139-154页[2] Rahaf Aljundi、Klaas Kelchtermans和Tinne Tuytelaars。无任务的持续学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第11254-11263页[3] Arslan Chaudhry,Marc高效的终身学习与a-gem。arXiv预印本arXiv:1812.00420,2018。[4] ArslanChaudhry 、 MarcusRohrbach 、 MohamedElhoseiny 、 ThalaiyasingamAjanthan 、 PuneetKDokania、Philip HS Torr和Marc关于持续学习中的小片段记忆。arXiv预印本arXiv:1902.10486,2019。[5] Matthias De Lange 、 Rahaf Aljundi 、 Marc Masana 、Sarah Parisot 、 Xu Jia 、 Ales Leonardis 、 GregorySlabaugh和Tinne Tuytelaars。持续学习调查:在分类任务中挑战遗忘arXiv预印本arXiv:1909.08383,2019。[6] 塞巴斯蒂安·法夸尔和亚林·加尔对持续学习进行强有力的arXiv预印本arXiv:1805.09733,2018。[7] Robert Mansel Gower , Nicolas Loizou , Xun Qian ,Alibek Sailanbay ev , EgorShulgin , andPeterRicht a´rik.Sgd:一般分析和改善率。国际机器学习,第5200-5209页。PMLR,2019年。[8] PriyaGo yal , PiotrDolla´r, RossGirshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,Yangqing Jia,and Kaiming He.准确、大的小批量sgd :1小时内训练imagenet。arXiv预印本arXiv:1706.02677,2017。[9] James Hays和Alexei A.埃夫罗斯IM2GPS:从单个图像估计地理信息。CVPR,2008。[10] James Hays和Alexei A.埃夫罗斯大规模影像地理化。视频和图像的多模态位置估计,第41-62页。Springer,2014.[11] 埃拉德·哈赞在线凸优化简介。arXiv预印本arXiv:1909.05207,2019。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[13] Hexiang Hu,Ozan Sener,Fei Sha,and Vladlen Koltun.从消防水管喝水:用网络规模的自然语言持续学习arXiv预印本arXiv:2007.09335,2020。[14] Max Jaderberg , Valentin Dalibard , Simon Osindero ,WojciechM Czarnecki,Jeff Donahue,A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功