没有合适的资源?快使用搜索试试~ 我知道了~
9516对比持续学习Hyuntak Cha Jaeho Lee Jinwoo Shin KAIST韩国大田{hyuntak.cha,jaeho-lee,jinwoos}@ kaist.ac.kr摘要最近在自监督学习方面的突破表明,这种算法学习的视觉表示可以更好地转移到看不见的任务,而不是基于交叉熵的方法,依赖于特定于任务的监督。在本文中,我们发现在持续学习环境中也存在类似的情况:对比学习的表示比用交叉熵目标训练的表示对灾难性遗忘更鲁棒。基于这一新的观察,我们提出了一个排练为基础的持续学习算法,专注于不断学习和维护,泰宁转移表示。更具体地,所提出的方案(1)使用对比学习目标来学习表示,以及(2)使用自监督蒸馏步骤来保留所学习的表示。我们进行了广泛的实验验证下流行的基准图像分类数据集,我们的方法设置了 新 的 国 家 的 最 先 进 的 性 能 。 源 代 码 可 在https://github.com/chaht01/Co2L上获得。1. 介绍现代深度学习算法在手头的任务上表现出令人印象深刻的性能,但众所周知,在接受新任务的训练后,它们往往难以保留先前学习的任务知识[32]。为了减轻这种基于重放的方法存储过去样本的一小部分,并将样本与当前任务样本一起排练[35,29,34,5]。基于正则化的方法迫使当前模型在参数/功能空间距离[25,6,39]中足够接近过去模型-这可能是关于过去任务的信息基于扩展的方法分配一个单元(例如,网络节点、子网络),并且在针对其他任务的训练期间保持单元不变[38,31]。在本文中,我们不问如何将以前的知识与新知识隔离开来,而是提请注意以下基本问题:什么类型的知识可能对未来的任务有用(因此不会被遗忘),我们如何学习和保存这些知识?为了证明它的重要性,考虑一个简单的场景,即手头的任务是将给定的图像分类为苹果或香蕉。解决这一问题的一个简单方法是提取和利用图像的颜色特征;红色表示苹果,黄色表示香蕉。然而,如果我们未来的任务是将另一组图像分类为苹果或草莓,则颜色将不再有用;颜色可能不再被使用并且最终被遗忘。另一方面,如果模型学习了更复杂的特征,形状/抛光/纹理,这些特征可以重新用于未来的任务并且保持不被遗忘。这种思路表明,遗忘不仅来自对过去经验的有限访问,而且来自对未来事件的先天限制;为了减少遗忘的痛苦,学习更多的第一手可转移表征可能与仔细保存过去获得的知识一样重要。为了学习更多可转移的表示以进行持续学习,我们从自我监督学习的最新进展中汲取灵感,特别是对比学习[19,10]。对比方法使用预测应该是不变的归纳偏差来学习表示而不是依赖于特定任务的监督。 尽管它们简单,但已知这些方法是令人惊讶地有效的;对于ImageNet分类[37],即使没有标签,对比训练的表示也可以接近完全监督的性能[10]在监督的情况下胜过对手[24]。更重要的是,虽然这些方法最初是为了更好的域内1性能而提出的,但最近的工作也表明,这些方法在看不见的域上提供了显着的性能增益[10,21]。在一个连续的场景下,我们做出类似的观察:对比学习的表示比用交叉熵损失训练的表示遭受更少的遗忘(详见5.2节)。1术语9517图1.Co2 L框架概述来自当前任务和存储器缓冲区的小批量样本被增强并通过当前和过去(存储在前一任务的结束处)表示。CO2L最小化两个损失的加权和:(1)非对称SupCon损失将来自当前任务的锚样本与来自其他类别的样本进行对比(第4.1节)。(2)IRD损失测量当前模型给出的实例相似性与先前模型给出的实例相似性的漂移(第4.2节)。不幸的是,由于至少两个原因,将此想法应用于连续设置并不简单:首先,已知访问信息丰富的阴性样本对于对比学习的成功至关重要[36],而阴性样本的瞬时人口统计数据在标准连续设置下受到严格限制;例如,在类增量学习中,通常假设学习者在每个时间步长只能访问少量类的样本。第二,如何在连续学习设置上保留对比学习的表征的事实上,最近的作品表示学习连续设置的目的是学习表示加速未来的学习下,类似的解耦学习设置,但缺乏一个明确的设计,以保持表示。贡献为了解决这些挑战,我们提出了一个新的排练为基础的持续学习算法,Co2L(对比连续L学习)。与以前的连续(表示)学习方法不同,我们的目标是在解耦的表示分类器方案中不断学习和保留 Co2 L的概述如图1所示。我们在这方面的贡献是双重的:1. 对比学习:我们设计了一个非对称版本的监督对比损失的学习表示在连续学习设置(第4.1节)和empir- ically显示其好处,提高表示质量。2. 保存表示:我们提出了一种新的保存机制,用于对比学习的表示,它通过实例关系的自蒸馏来工作(第4.2节);据我们所知,这是第一种明确设计用于在持续学习中保存对比学习表示的方法我们在各种实验场景下验证了CO2L,包括任务增量学习,域增量学习和类增量学习。CO2L一致在各种数据集、场景和内存设置上的性能优于所有基准通过仔细的消融研究,我们还表明,我们提出的两个组件(非对称监督对比损失,实例关系蒸馏)是必不可少的性能。在蒸馏的消融中,我们凭经验表明蒸馏保留了学习的表示并有效地使用缓冲样本,这可能是所有比较中一致增益的主要来源:蒸馏在有/没有缓冲样 品 的 情 况 下 分 别 在 Seq-CIFAR-10 数 据 集 上 提 供22.40%和10.59%的相对改善。在消融不对称的超视对比度损失中,我们定量地验证了不对称版本在所有设置上始终提供优于原始版本的性能增益,例如,在具有缓冲液大小500的Seq-CIFAR-10上相对改进8.15%。我们还提供了定性的影响,这种性能增益通过可视化的学习表示,这表明我们的不对称版本防止严重漂移的学习功能。2. 相关工作以排练为基础的持续学习。连续学习方法已经在三个主要流中开发:使用固定大小的缓冲区重放过去的样本(基于排练的方法),通过学习调节模型参数的变化(基于正则化的方法),或根据需要动态扩展模型架构(基于扩展的方法)。其中,排练为基础的方法已显示出良好的性能,在持续学习的设置,虽然它的简单。经验重放(ER [34])的想法是简单地管理一个固定大小的缓冲区,以保留一些样本,并重放这些样本,以防止忘记过去的知识。在这个简单的设置之后,基于ER的方法主要集中在调节模型更新,使其不与过去样本的学习目标相矛盾[29,5],或者选择最具代表性/容易遗忘的样本,以防止过去预测的变化[2,7,33]。然而,在纯粹解耦的表示学习设置中,很少有与ER相关的研究,因为表示学习目标可能9518联系我们t=1i=1ΣΣ∈····i=1i=1联系我们不能直接与典型培训方案中的特定任务目标相一致。在这项工作中,我们专注于利用缓冲的样本,学习表示不断去耦表示分类器学习计划。持续学习中的表征学习。只有少数关于继续学习的近期研究关注两个方面的表征:如何保持已学习的表示[33]以及如何学习表示加速未来的学习[23,17,43,15]。iCaRL [33]通过利用蒸馏防止代表被遗忘。[23,17]直接优化目标,通过学习表示来最大限度地减少遗忘,从而加速元学习[14]框架上的未来学习。并行工作[43,15,30]利用自监督学习目标来学习比用监督学习目标训练的更可概括的表示。在这项工作中,我们进一步利用对比学习计划的好处,连续学习设置与其他技术组件,旨在保留学习的表示。对比表征学习。对比表征学习的最新进展显示出优越的下游任务性能,甚至可以与监督训练相媲美。噪声对比估计[18]是通过与人工噪声对比来估计潜在分布Info-NCE [42]试图通过利用自回归模型来学习这一领域的最新进展源于使用多个视图作为正样本[40]。这些核心概念已经被研究[10,21,16,12]所遵循,这些研究已经解决了以前使学习困难的实际限制,例如负样本对,大批量和动量编码器。同时,已经证明,监督学习也可以通过简单地使用标签来扩展正样本的定义来享受对比表示学习的好处[24]。在这项工作中,我们主要利用对比表示学习方案的持续学习设置的基础上,我们的新观察(第5.2节)。知识升华。在持续学习中,知识蒸馏被广泛用于通过将过去的签名提取到当前模型来减轻遗忘[28,33]。然而,在这方面, 还没有研究过在连续学习设置中设计/利用知识提取来进行解耦的表示-分类器训练。在这项工作中,我们开发了新的自蒸馏损失用于对比持续学习,这是受到最近提出的蒸馏损失[13]的启发。3.1. 问题设置:不断学习我们考虑了三种流行的持续学习场景,如[41]所分类 的 : 任 务 增 量 学 习 ( Task-IL ) , 域 增 量 学 习(Domain-IL)和类增量学习(Class-IL)。形式上,学习者在由t1,2,. . .、T.对于每个任务,我们假设有一个特定于任务的类集Ct。对于Task-IL和Class-IL,假设{Ct}T是不相交的,即不t′⇒Ct∩Ct′=,(T ask/Class-IL)。(1)对于域IL,Ct在整个任务中保持相同Cl=C2=···= C T,(结构域-IL)。 (二)在每个任务期间,从一些特定于任务的分布中独立地抽取训练输入-标签对的n t个副本,即(xi,yi)ntD t.这里,xi表示输入图像,并且yi表示属于任务特定类集合的类标签。 对于Task-IL,假设学习模型在测试阶段可以访问任务标签t;目标是找到由θ参数化的预测器φ θ(x,t),使得不L(θ):=EDt[(y,φθ(x,t))],(Task-IL)(3)t=1对于某个损失函数(,)最小化。 对于域IL和类IL,模型在测试阶段不能访问任务标签;目标是找到最小化不L(θ)=EDt[(y,φθ(x))],(域/类-IL)。(四)t=13.2. 准备工作:对比学习我们现在描述由[24]提出的SupCon(监督对比学习)算法假设分类模型可以分解为两个组件φθ=w◦f(5)参数对θ=(,w),其中w()是线性分类器,f()是表示。在没有培训w的情况下,SupCon直接培训如下:给定一批对比学习框架。3. 问题设置和准备工作N个训练样本{(xi,yi)}N增广批{(x~i,y~i)}2N,SupCon首先通过随机在本节中,我们对所考虑的持续学习设置进行了形式化,并简要描述了最近提出的一种超监督对比学习方案[24],该方案将用作设计Co2 L的主要框架(第4节)。x k的增广版本为x~2k−1,x~2k,其中y~2k−1=y~2k=yk。在扩增批次中的样本被映射到单位d维欧几里得球面,如zi=(g◦f)ψ(x~i),(6)9519e−1E--◦asymsupsup我 Jj∈ {1,. . . ,2N}。 j =i,y j= y i|pi|exp(zi·zk/τ)supLL`x`x(a) 不对称SupCon损失(b)实例关系蒸馏损失图2.非对称监督收缩损失和实例关联蒸馏(IRD)的图示。(a)给定扩增的小批量样本,不对称SupCon将来自当前任务的相同类别的样本视为阳性。换句话说,锚点之间的(b)给定增强的小批量样本,在归一化的投影特征向量上定义实例关系。关系向量,即,特征向量的点积(⊙)由learnable(ψt)和reference model(ψt−1)。对于E历元训练,这种温度缩放关系是从温度关系中提取的参考模型到可学习模型。请注意,参考模型在第(t1)个任务训练结束时被捕捉,并且我们仅使用停止梯度(由sg表示)来更新可学习模型其中g = g表示由参数化的投影映射,并且ψ表示和的级联。现在,训练特征图(g f)ψ以最小化监督对比损失4.1. 非对称支持对比损失下的表示学习为了不断学习表示,我们使用asym-SupCon目标Lsup的度量修改版本−1Σ。exp(z·z/τ)ΣL=日志在修改后的版本中,我们只使用当前任务样本作为、(7)锚;内存缓冲区中的过去任务样本将仅哪里i=1 |pi|j∈piΣkiexp(zi·zk/τ)用作阴性样品(见图2(a))。形式上,如果设S {1,. . . ,2N}是当前任务的索引的集合τ>0是某个温度超参数,pi是正样本关于锚点的指数集x~i,定义为样本,则修改的监督对比损失被定义为..Σsup =Σ−1Σlog。Σexp(zi·zj/τ)Σ.i∈Sj∈pi换句话说,pi中的样本是x ~ i的未增强版本的另一个增强,或者是具有相同标签的其他增强样本之一。4. 对比持续学习在这里,我们提出了一个基于排练的对比连续学习计划,Co2L(对比连续学习)。在高水平上,Co2 L(1)学习具有监督对比损失的非对称形式的表示(第4.1节),并且(2)在解耦表示-分类器训练方案中使用自监督蒸馏(第4.2节)保留这是通过基于复合损失的小批量梯度下降来(十)这种非对称设计背后的动机是防止模型过度拟合到少量过去的任务样本。事实证明,这样的设计确实有助于提高性能。在第5.3节中,我们凭经验观察到非对称版本优于原始sup,并生成缓冲样本的更好分布特征。4.2. 用于对比连续学习的当使用对比学习目标(eq. 10)容易地提供更可转移的表示,人们仍然可以受益于具有明确的机制来保存所学习的知识。从[13]中得到启发,我们L=L不对称 +λ·L税务局.(九)提出一个实例式关系蒸馏(IRD); IRD reg-(1) 学习(2)保存这里,每个批次由N个样本(因此总共2N)的两个独立增强视图组成,其中每个样本从当前任务样本和缓冲样本的并集中提取确定批次样本之间特征关系的变化通过自蒸馏(参见图2(b))。形式上,我们将IRD损失L_IRD定义如下:F或批次B中的每个样本x~i,我们定义实例方式的相似性向量p(x~i;ψ,κ)=[pi,1,. . . ,pi,i-1,pi,i+1,. . . ,p1,2N],(11)ΣLpi=.(八)asymK 我2N9520Mt=1·2N← ∪{−}e−1M--不相交类集的集合{Ct}T,学习率η,个数Et−1e−1其中,表示归一化的逐实例相似性exp(zi·zj/κ)算法1Co2L:对比连续学习一曰: 输入:缓冲存储器、编码器参数、投影仪参数、任务数T、aug系列p= 2N(十二)我 K假设H是训练集{{(x t,y t)}}T的集合得双曲余切值.i,j Σexp(z·z/κ)我it=1给出由ψ和温度超参数κ参数化的表示。换句话说,逐实例相似性向量p()是样本与批次中的其他样本的归一化相似性粗略地说,IRD损失量化了第t个任务的时期Et,蒸馏温度κ,κ*,蒸馏功率λ。2:初始化网络工作(g◦f)ψ(·),其中ψ=(,)。3:对于t=l,···,Tdo4:通过Dt←{(xt,yt)}∪M构造数据集Dt当前表示和过去表示的实例相似性;过去表示是快照。5:对于e=l,···,Etdo6:绘制小批量{(xi,yi)}N我我从Dt上一任务结束时的模型快照。指示7:对于所有k∈{1,···,N},i=1过去/当前模型的参数为ψpast和ψ,IRD损耗被定义为8:绘制两个增广hH、h′H9:初始化锚索引集合S←,I←十:x~2k−1=h(xk)LIRD=Σ−p。x~;ψpast,κ*Σ·logp(x~;ψ,κ),(13)十一:x~2k=h′(xk)我我i=112:I←I∪{2k−1,2k}13:如果yk∈Ct,则其中,向量上的对数和乘法表示逐项对数和乘法。我们注意到14:S S2k1,2k15:如果结束我们使用不同的温度超参数16:结束sup过去和当前相似性向量;另一方面,17:通过L ← Lasym(I,S;ψt)计算L)(eq.10)、κ、κ*两者将在整个任务中保持固定通过使用在预处理结束时捕捉的固定模型权重,过去18:如果t >1,则19:更新LL ← L+λ·LIRD(ψt−1,ψt,κ*,κ)(eq.十三、将学习到的表示添加到当前训练模型ψ,从而导致保留学习到的表示。以来20:如果结束21:通过ψt←ψt−1−ηψtL更新ψt−1对比表示学习源于深度度量e e e22:结束e−1在学习中,IRD通过调节所学习的表示的整体结构变化来实现知识保存注意,IRD不调节特征空间中的确切变化,并且不定义来自编码器输出的关系,如[13]。[13]和我们的更详细的比较在补充材料中提供4.3. 算法详情在这里,我们给出了整个训练过程的完整画面,并给出了更多的细节。完整算法在算法1中提供。数据准备当初始或新任务到达时,数据集被构建为当前任务样本和缓冲样本的并集,而没有任何过采样[9,20]。从该数据集中抽取小批量,其中每个样本以相等的概率独立抽取为了享受对比表示学习的好处,每个样本都被增强为两个视图[11]。补充材料中提供了用于对比学习的详细增强方案学习新的表示法。增强的样本被顺序地转发到编码器f和投影图。投影图输出用于计算非对称监督对比度损失(等式1)。第10段)。23:管理用于每个类sam的数量的缓冲器通过均匀取样,使样品相同。24:结束保存学习的表示。当新任务到来时(即,t >1),我们计算参考模型与具有IRD损失的训练模型之间的实例式关系漂移(等式1)。第13段)。为此,我们在第(t1)个任务的训练结束时将参考模型设置为训练模型。注意,当优化总损耗(等式10)时,9),参考模型不更新。缓冲区管理。在训练每个任务结束时,一小部分训练样本被推入重放缓冲区。由于其缓冲器大小约束,来自每个类别的样本的小子集以相同的比率从重放缓冲器中取出。对于所有程序,均匀随机地选择待推动或拉动的样品。5. 实验5.1. 实验装置k=i作为参考模型ψ的可见任务训练,IRD显示-9521学习场景和数据集。 在[41]的基础上,我们对任务增量进行了持续学习实验9522图3.在Seq-CIFAR-10上观察两种学习方案,交叉熵损失训练和对比表征学习,而没有任何用于连续学习设置的设计。当新任务到达时,每个模型仅使用具有模型权重的当前任务样本进行训练,而无需重新初始化。在每个任务训练结束之后,在固定的当前表示上训练新的线性分类器,其中到目前为止观察到的样本(由这对左图显示,经过对比训练的表示比经过交叉熵损失训练的表示更少遭受遗忘。右对显示对比学习的表示对于执行看不见的对象分类任务更有用。学习(Task-IL)、类增量学习(Class-IL)和域增量学习(Domain-IL)场景。我们在Seq-CIFAR-10和Seq-Tiny- ImageNet上 针对 Task-IL和 Class-IL场 景进 行 实验,并在R-MNIST上针对Domain-IL场景进行实验。Seq-CIFAR-10是CIFAR-10 [26]数据集的拆分(任务)集。我们将CIFAR-10数据集分为五个独立的样本集,每 个 样 本 集 由 两 个 类 组 成 。 类 似 地 , Seq-Tiny-ImageNet是从Tiny-ImageNet [1]构建的,将200个类样本分成10个不相交的样本集,每个样本集由20个类组成Seq-CIFAR-10和Seq-Tiny-ImageNet拆分在不同运行中以相同顺序给出,如[5]中所示。我们在R-MNIST[29]上进行实验以用于域IL实验。对于域IL场景,通过将原始MNIST [27]图像旋转[0,π)范围内的随机度来构造R-MNIST。R-MNIST由20个任务组成,对应于20个均匀随机选择的度。我们注意到,我们将来自不同域的具有相同数字类的样本视为不同的类,同时应用非对称监督对比损失。训练我们将我们的对比持续学习算法与基于排练的持续学习基线进行比较:ER [34],iCaRL [33],GEM[29],A-GEM [8],FDR [4],[2],[3],[4],[5],[6],[7],[8],[9],[10],[11],[12],[13],[14],[15],[16],[17],[18],[19],[19]。我们训练在Seq-CIFAR-10和Tiny-ImageNet上的ResNet-18 [22],以及在R-MNIST上具有卷积层的简单网络对于所有基线,我们报告了[5]中给出的缓冲区大小为200和500的性能,除了R-MNIST,因为我们选择了不同的架构。补充材料中提供了更多培训详情。Co2L的评价方案。由于Co2L不是基于交叉熵的耦合表示-分类器训练,因此我们需要另外训练分类器。为了进行公平的比较,我们只使用最后一个任务样本和冻结表示上的缓冲样本来由Co2L学习。为了避免类不平衡问题,我们用类平衡采样策略训练线性分类器,其中首先从类集合中均匀地选择类,然后从该类中均匀地采样实例。我们为所有实验训练了100个历元的线性分类器,并且我们报告了该分类器的分类测试精度。5.2. 主要结果验证我们的关键假设。在我们提供Co 2L与其他方法的比较结果之前,我们首先验证了我们的方法设计的运行前提:对比学习比基于交叉熵的耦合表示-分类器监督学习为未来任务学习更多有用的表示。然而,在标准的持续学习设置下,这个前提并不容易验证。实际上,表示的质量通常被定义为具有最佳可能(线性)下游分类器的预测性能(参见,例如,[3],以及其中的参考文献),但是在连续设置下很少学习最佳分类器为了绕过这个障碍,我们考虑以下综合的,但有见地的场景:在标准连续设置下训练表示之后,我们冻结表示并使用来自所有任务的训练数据新鲜地训练下游分类器。在这里,到目前为止,在所有观察到的样本上训练的分类器将很好地执行学习任务,除非冻结的表示遭受遗忘。如图3中左侧的热图所示,在对比度方面,先前任务的平均测试准确度出人意料地高于交叉熵(对于非对角线部分,21.79%对交叉熵)。66.46%)。换句话说,在没有任何特定方法来解释连续设置的情况下,对比方法学习的表示比用交叉熵损失训练的表示更少被在图3中右边的一对热图中,我们报告测试9523asymLL缓冲区数据集Seq-CIFAR-10 Seq-Tiny-ImageNet R-MNIST200500GEM[29]25.54 ±0.7690.44±0.94--89.86±1.23A-GEM[8]20.04 ±0.3483.88±1.498.07±0.0822.77±0.0389.03±2.76iCaRL[33]49.02 ±3.2088.99±2.137.53±0.7928.19±1.47-FDR[4]30.91 ±2.7491.01±0.688.70±0.1940.36±0.6893.71±1.51GSS[2]39.07 ±5.5988.80±2.89--87.10±7.23HAL[7]32.36 ±2.7082.51±3.20--89.40±2.50DER[5]61.93 ±1.7991.40 ±0.9211.87 ±0.7840.22±0.6796.43±0.59DER++[5]64.88 ±1.1791.92 ±0.6010.96 ±1.1740.87±1.1695.98±1.06CO2 L(我们的)65.57±1.3793.43 ±0.7813.88±0.4042.37 ±0.7497.90 ±1.92ER[34]57.74±0.2793.61±0.279.99±0.2948.64±0.4694.89±0.95GEM[29]26.20 ±1.2692.16±0.64--92.55±0.85A-GEM[8]22.67 ±0.5789.48±1.458.06±0.0425.33±0.4989.04±7.01iCaRL[33]47.55 ±3.9588.22±2.629.38±1.5331.55±3.27FDR[4]28.71 ±3.2393.29 ±0.5910.54 ±0.2149.88±0.7195.48±0.68GSS[2]49.73 ±4.7891.02±1.57--89.38±3.12HAL[7]41.79 ±4.4684.54±2.36--92.35±0.81DER[5]70.51 ±1.6793.40 ±0.3917.75 ±1.1451.78±0.8897.57±1.47DER++[5]72.70 ±1.3693.88 ±0.5019.38 ±1.4151.91±0.6897.54±0.43钴离子浓度(我们的)74.26±0.7795.90 ±0.2620.12±0.4253.04 ±0.6998.65 ±0.31表1. Seq-CIFAR-10,Seq-Tiny-ImageNet和R-MNIST在基于排练的基线和我们的算法上的分类精度。我们报告了来自[5]的Seq-CIFAR-10和Seq-Tiny-ImageNet的基线性能。‘-’ indicates experiments unable to run due to compatibility issues (域-IL中iCaRL)或难以处理的训练时间(例如,GEM、HAL或GSS在Tiny ImageNet上)。所有结果均为十次独立试验的平均值。最好的表现被标记为大胆。使用所有样本训练的分类器的准确性,包括来自看不见的任务的样本。有趣的是,我们观察到,在对比训练的表示(最右边的热图)中,看不见的任务的平均任务准确率也明显高于用交叉熵损失训练的表示(右边第二个);下三角区为32.77%; 62.76%。这意味着,对比学习方法学习更多的高度可转移的表示未来的任务,这可能是其鲁棒性的来源,对遗忘。CO2L优于基线。如表1所示,我们的对比持续学习算法在各种场景、数据集和内存大小中始终优于所有基线。这样的结果表明,我们的算法成功地学习和保存表示有用的未来学习,因此它显着减轻灾难性遗忘。此外,在所有比较中的这种一致的增益在下文中,我们提供了对我们的算法的更详细的分析。5.3. 消融研究IRD的有效性 为了验证IRD的有效性,我们在Seq-CIFAR-10数据集上使用IL类设置(与第5.2节中的设置相同)进行了消融实验,并使用了三种额外的Co 2 L变体。(a)无缓冲器和IRD:我们仅使用SupCon损失进行优化(等式7);对称版本与非对称版本相同,因为我们不使用重放缓冲区。(b)只与税务局:我们使用(对称)SupCon损耗和IRD损耗。(c)仅具有重放缓冲器:我们优化了非对称SupCon损失(等式(1)没有IRD损失。 注意,虽然我们不使用缓冲样本来学习(a,b)的表示,但我们仍然需要缓冲样本来训练下游线性分类器;对于(a,b),我们使用200个辅助缓冲样本来训练分类器(如在(c)和Co 2L中)。如表2所示,IRD带来了显着的perfor-曼斯增益,有或 没 有 重 放 缓 冲 区 。 使 用 重 放 缓 冲 器 ( 行 ( c ,d)),我们观察到22.40%的相对改进;在没有重放缓冲器(行(a,b))的情况下,存在10.59%的相对改进。前者明显大于后者;我们认为保持缓冲样本(连同当前任务样本)的相似结构对于保存学习的表示是必要的。我们还注意到,IRD似乎在使用缓冲样本方面补充了非对称SupCon,从而提高了性能。为了验证这一点,我们考虑合成的无限缓冲区类IL场景:所有过去的样本在整个训练中都是可用的。在此设置下,我们使用以下内容训练模型超级和另一个与sup在Seq-CIFAR-上10. 如图4所示,不对称SupCon在不使用IRD的情况下表现相对较差;在这种类平衡设置下,不使用过去的任务样本作为正对只会限制学习。然而,随着IRD功率的增加,性能差距缩小,这表明IRD通过帮助充分利用缓冲样本来补充非对称SupCon。这种趋势也与表2中的结果一致;缓冲样本的性能提升场景IL类Task-ILIL类Task-IL结构域-ILER [34]44.79±1.8691.19±0.948.49±0.1638.17±2.0093.53±1.159524LsupasymL缓冲区大小IRD准确度(%)(a) 不带缓冲器和IRD053.25±1.70(b)仅含IRD 0✓58.89±2.61(c)仅含缓冲液20053.57±1.03(d)钴2L(我们的)200✓65.57±1.37表2.实例关联蒸馏(IRD)的烧蚀研究我们在IL类场景下(与第5.2节中的设置相同)使用消融的Co2 L在Seq-CIFAR-10数据集上训练模型。IRD在有或没有重放缓冲器的情况下带来显著的增益所有结果均为十次独立试验的平均值。图4.在理想IL类场景下Seq-CIFAR-10 上的原始和非对称SupCon损失这两种设置都使用所有过去的任务样本。实例式关系蒸馏(IRD)有效地缩小了性能差距,这表明IRD成功地保留了学习的表示,而不使用过去的样本作为正对。因此,不对称的SupCon损耗在不使用IRD的情况下相对较小。然而,这并不一定意味着不对称性不会带来任何益处,正如我们将在以下关于不对称SupCon的消融研究中观察到的。非对称监督对比损失的有效性。为了验证非对称监督对比损失的有效性,我们比较了两个对比学习损失,原始SupCon和非对称SupCon,作为具有第5.2节相同设置的Co2L的变体。如表3所示,不对称SupCon始终提供优于原始SupCon的所有对应物的增益。我们还比较了Seq-CIFAR-10数据集的缓冲样本和整个训练样本的编码器输出的可视化如图5所示,用原始SupCon训练的缓冲样本由于具有不对称SupCon的缓冲样本更好地代表整个类别样本群体,因此在不对称SupCon上训练的表示使用线性分类器显示出更好的任务性能此类定性结果也与第4.1节中提到的不对称SupCon的动机一致,并提供了不对称性的益处。Seq-CIFAR-10缓冲器200 500 200 500Lsup60.49±0.7268.66±0.6813.51±0.4819.68±0.62L不对称65.57±1.3774.26±0.7713.88±0.4020.12±0.42表3.非对称SupCon损耗(sup)与原始SupCon损耗(sup)结合IRD损耗的有效性。所有结果均为十次独立试验的平均值。图5.顶部:来自Seq-CIFAR-10的缓冲(有色)和整个(灰色)训练样品底部:与顶部相同,但非缓冲样品为不透明颜色,而不是灰色,以清楚地说明簇。左:使用原始SupCon训练的缓冲样本右:在不对称SupCon上训练的缓冲样本的特征分布良好;缓冲样本更好地代表整个类样本群体。6. 结论我们提出了一个对比的持续学习计划下的持续学习的情况下学习表示。所提出的非对称形式的对比学习损失和实例式关系蒸馏帮助模型学习和保留新的和过去的表示,并在各种学习设置上显示出比基线更好的性能。我们希望我们的工作将作为一个很好的参考,如何表示学习的持续学习应该设计。确认本研究部分得到了工程研究中心项目的支持,该项目由韩国政府MSIT(NRF-2018 R1 A5 A1059921)资助的韩国国家研究基金会(NRF)和韩国政府(MSIT)资助的信息通信技术规划我们要感谢Jaehyung Kim、Jihoon Tack、Sihyun Yu、Jongjin Park和Yoonseo Choi提供了有用的反馈和建议。9525引用[1] 斯坦福231n Tiny ImageNet视觉识别挑战。https://tiny-imagenet.herokuapp.com,2015年。六个[2] Rahaf Aljundi,Min Lin,Baptiste Goujaud,and YoshuaBengio.基于梯度的在线持续学习样本选择在神经信息处理系统的进展,2019。二六七[3] SanjeevArora 、 HrishikeshKhandeparkar 、 MikhailKhodak、Orestis Plevrakis和Nikunj Saunshi。对比无监督表示学习的理论分析。在2019年机器学习国际会议的论文集中。六个[4] 阿里·S Benjamin,D a vidRolnick,andKonradP. Körding.在函数空间中测量和正则化网络。2019年国际学习代表会议。 六、七[5] Pietro Buzzega 、 Matteo Boschini 、 Angelo Porrello 、Davide Abati和Simone Calderara。黑暗的经验,一般持续学习:一条简单有力的底线在神经信息处理系统的进展,2020年。一、二、六、七[6] Arslan Chaudhry , Puneet K. Dokania 、 ThalaiyasingamAjan-than和Phillip H.S. 乇黎曼步行增量学习:理解遗忘和不妥协。2018年欧洲计算机视觉会议。一个[7] 放大图片创作者:John W.菲利普?多卡尼亚H. S. Torr和David Lopez-Paz.在持续学习中运用后见之明来巩固过去的知识。在人工智能促进协会,2020年。二六七[8] ArslanChaudhry , Marc'AurelioRanzato , MarcusRohrbach,and Mohamed Elhoseiny.有效的终身学习与A-GEM。在学习代表国际会议上,2019年。六、七[9] 放大图片作者:Kevin W.作者:Lawrence O.厅和W.菲利普·凯格尔迈耶SMOTE:合成少数过采样技术.人工智能研究杂志,2002年。五个[10]陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offreyHinton.视觉表征对比学习的一个简单框架。在2020年机器学习国际会议论文集上。第1、3条[11]Ting Chen,Xiaohua Zhai,Marvin Ritter,Mario Lucic,and Neil Houlsby. 通 过 辅 助 旋 转 损 失 的 自 监 督 gans 。IEEE/CVF计算机视觉和模式识别会议论文集,2019年。五个[12]Xinlei Chen,Kaiming He.探索简单的连体表示学习,2020。三个[13]Zhiyuan Fang , Jianfeng Wang , Lijuan Wang , LeiZhang,Yezhou Yang,and Zicheng Liu.SEED:用于视觉表示的自我监督2021年,在国际学术会议上发表。三、四、五[14]Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在2017年机器学习国际会议论文集上。三个[15]Jhair Gallardo等人自我监督培训增强了在线持续学习。arXiv预印本arXiv:2103.14010,2021。三个[16]Jean-BastienGrill ,FlorianStrub ,FlorentAltche´,CorentinTallec,PierreH.Richemond,ElenaBuchatskaya , Carl Doersch , Bernardo Avila Pires ,Zhaohan Daniel Guo , Moham-madGheshlaghiAzar ,BilalPiot,KorayKa vukcuoglu,Re´miMunos,and MichalValko.Bootstrap你自己的潜在:一种新的自我监督学习方法,2020年。三个[17]Gunshi Gupta,Karmesh Yadav,and Liam Paull.前瞻性Meta学习用于持续学习。在神经信息处理系统的进展,2020年。三个[18]MichaelGutmann和AapoHyv¨rinen。Noise-Contrastiveestimation : A new estimation principle forunnormalized statistical models.2010年国际机器学习会议论文集。三个[19]Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习不变映射进行降维IEEE/CVF计算机视觉和模式识别会议论文集,2006年。一个[20]HanHui,Wen-YuanWang,andBing-HuanMao.Borderline- SMOTE:一种新的不平衡数据集学习过采样方法2005年国际智能计算会议。五个[21]Kaiming He,Haoqi fan,Yuxin Wu,Saining Xie,andRoss Gir
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功