持续自监督视觉表征学习

165 浏览量更新于2023-10-26 收藏 816KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19621自监督模型是持续学习者Enrico Fini*1，2Victor G.Turrisi da Costa*1Xavier Alameda-Pineda2 Elisa Ricci1，3Karteek Alahari2JulienMairal21特伦托大学2因里亚<$3布鲁诺·凯斯勒基金会摘要类增量CIFAR100当在大规模的未标记数据上进行离线训练时，自监督模型已经被证明可以产生与其监督模型相当或更好的视觉表示。然而，在连续学习（CL）的情况下，它们的效力是灾难性的降低，其中数据被顺序地呈现给模型。在本文中，我们证明了自监督损失函数可以无缝地BYOL巴洛双胞胎MoCoV 2 +SimCLRSwAV VICReg通过添加预测器网络将表示的当前状态映射到其过去状态，将其转换为CL的蒸馏机制。这使我们能够设计一个持续自监督视觉表征学习的我们通过在各种CL设置中训练六个流行的自监督模型来证明我们的方法代码：github.com/DonkeyShot21/cassle。1. 介绍在过去的几年里，自监督学习（SSL）已经成为无监督视觉表征学习最流行的范式[3，7，8，13，14，25，27，54]。事实上，在某些假设下（例如，具有大量数据和资源的离线训练），SSL方法能够提取与利用监督学习获得的表示的质量相匹配的表示，而不需要注释。然而，这些假设并不总是适用于现实世界的场景，例如。当新的未标记数据随着时间逐渐可用时事实上，为了将新知识集成到模型中，需要在整个数据集上重复训练，这是不切实际的，昂贵的，有时甚至在旧数据不可用的情况下是不可能众所周知，SSL模型的训练计算昂贵，这一事实加剧了这个问题*Enrico Fini和Victor G.Turrisi da Costa同样做出了贡献†大学Grenoble Alpes，CNRS，Grenoble INP，LJK，38000 Grenoble，France.类增量ImageNet10070686664626058BYOL巴洛双胞胎MoCoV2+SimplifiedSwAVVICReg监督微调我们的SSL微调图1.学习的表示的线性评估精度在类增量CI-FAR 100和ImageNet 100上使用不同的自监督方法。蓝色表示SSL微调的准确性，绿色表示CaSSLe带来的改进.红色虚线是通过监督微调获得的精度。连续学习（CL）研究神经网络连续学习任务的能力本领域的现有技术集中于减轻灾难性遗忘[17，22，24，37]。CL文献中的常见基准评估了从非平稳分布中使用超视觉学习的分类器的区分性能。在本文中，我们解决了相同的遗忘现象在SSL的上下文中。无监督表示学习确实适用于顺序学习，因为它不需要人类注释，当新数据实时生成时，人类注释特别难以获得这种被称为连续自我监督学习（CSSL）的设置在文献中令人惊讶地在这项工作中，我们提出了CaSSLe，一个简单而有效的框架CSSL的视觉表示的基础上的直觉，SSL模型本质上能够不断学习，SSL的损失可以无缝转换为蒸馏损失。我们的核心理念是训练六五六二点二60.459.56058.357.853.655504540六十八点二66.468.8686664.819622D◦LLΣ。ΣΣ当前模型用预测头来预测过去的表示，从而鼓励它记住过去的知识。CaSSLe具有几个有利的特性：（i）它与流行的最先进的SSL损失函数和架构兼容，（ii）它易于实现，以及（iii）它不需要相对于原始SSL方法进行任何额外的超参数调整。我们的实验表明，使用CaSSLe持续训练的SSL方法显著优于所有相关方法（CSSL基线和几种适用于监督CL的方法）。我们还对六种流行的SSL方法在不同CL设置（即，类、数据和域增量）。我们提供了小型（ CIFAR100 ），中型（ ImageNet100 ）和大型（DomainNet）规模数据集的实证结果。我们的研究揭示了SSL方法在不断学习时出现的有趣特性。在其他发现中，我们发现，在类增量设置中，SSL方法通常接近或优于监督学习（见图1）。1），而这对于其他设置（数据增量和域增量）通常不是真的，其中监督学习仍然显示出相当大的优势。2. 相关工作自我监督学习。最近的SSL方法显示出与其监督学习等价物相当的性能[3，7，8，13，14，25，27，54]。简而言之，这些方法中的大多数最初，对比学习是一种流行的策略[13，27]，它基于使用噪声对比估计[26，38]的实例辨别[52]。然而，这种学习范式需要大批量或存储库。一些使用负自由余弦相似性损失的方法[15，25]已经解决了这些问题。同时，也提出了基于聚类的方法（SwAV [7]，DeepCluster v2 [6，7]和DINO [8]）。它们不直接对特征进行操作，而是使用集群原型作为代理，通过交叉熵损失来比较阳性。基于Redundancy的方法也很受欢迎[3，20，54]。其中，BarlowTwins [54]考虑了测量特征之间的互相关矩阵的目标函数，VicReg [3]使用了方差、不变性和协方差正则化的混合。[19]等方法探索了最近邻检索和分治法的使用[49]。然而，这些作品都没有研究SSL方法的能力，不断学习和自适应。持续学习。已经开发了过多的方法来对抗灾难性的遗忘[2，4，918、21、30、31、33、35、39、41、43在[17]之后，这些作品可以被组织成三个宏类别：基于重放的[4，12，35，39，43，44]，基于规则化的[2，9所有这些工作使用随时间顺序学习的线性分类器来评估CL方法的有效性然而，该评价没有反映一个重要方面，即，隐藏的表象的内在动力此外，大多数CL方法倾向于依赖于监督，以减轻灾难性遗忘。他们中的一些人可以适应无监督的设置，尽管他们的有效性大大降低（见第二节的讨论）。5，Sec. （6）补充材料。[1，42，48]等工作奠定了非监督CL的基础，但他们的研究严重限于数字类数据集，例如。，MNIST和Omniglot，所提出的方法是不适合大规模的场景。最近，[5，23]探索了在线和少量任务的监督连续学习的自我监督预训练，[10]提出了一种监督对比CL方法。两个并行的工作[34，36]也试图解决CSSL最近。前者[34]将[10]扩展到无监督设置，但专门为对比SSL设计，例如[13，27]，并且缺乏对其他流行SSL范例的通用性。后者[36]也是有限的，因为它只显示了类增量设置中的小规模实验，相比之下，我们提出了一个具有优越性能的CSSL的一般框架，并在三个测试环境下进行了大规模的实验，从而对CSSL进行了更深入的分析。3. 预赛自我监督学习。几种最先进的SSL方法[3，7，8，13，19，25，27，54]的训练过程可以总结如下。给定从分布采样的批次中的图像x，通过应用随机图像增强（诸如随机裁剪、颜色抖动和水平翻转）来提取两个相关视图xA和xB视图xA被馈送到编码器fθ=f p f b，其由θ参数化并且具有主干f b和投影头fp，其提取特征表示zA=f θ（xA）。类似地，xB被转发到相同的网络中，或者可能是其副本，用指数移动平均（EMA）更新，以获得表示zB。损失函数SSL应用于这些表示以学习参数θ，如下所示：argminExxD LSSLzA，zB.（一）有关SSL实现的更多详细信息，请参见第5.1和Tab。1.一、事实证明，这个过程在从大型未标记数据集中提取视觉表示方面非常强大。这些模型成功背后的直觉重要的是，增强是手工制作的θ19623YDD不--∩̸LYDD不◦不Y Y YD这两个视图xA和xB包含与x大致相同的语义，但它们的整体外观（几何形状、颜色、分辨率等）不一样.这迫使模型将具有相同语义的图像映射到特征空间的相似区域。有趣的是，这些增强作用要强得多，与通常用于训练监督模型的增强相比，它们使图像更加失真。持续学习。CL问题关注于从非平稳数据分布中训练诸如深度神经网络之类的模型。更正式地说，这涉及到一个网络，fθ′′=fc′fb′，参数θ′，骨干fb′和分类器fc′，从有序的任务集合1，. -是的-是的.，T，每一个呈现不同的数据分布t。通常，图像x i.i.d. 由预测类集合t上的概率分布p的f ′处理。目标是找到参数θ’，例如：argminE（x，y）Dt[LCL（p，y）]，（2）t=1其中，在大多数情况下， CL是交叉熵损失。然而，在任务t期间，先前的数据分布t-1不可用，因此等式（2）不能直接最小目前的研究主要集中在用间接方法近似θ′ 其中一些[18，33]是基于知识蒸馏[29]，即，通过强迫他们产生相同的输出，将知识从一个网络转移到另一个网络。我们将在第二节中讨论CSSL中消除方法的适用性。五、4. 持续自我监督学习在本文中，我们将连续自监督学习作为SSL和CL的扩展来在实践中，CSSL实验从第一个任务开始，模型按照它实现的特定自监督方法进行训练，与离线训练没有区别。随后的任务将按顺序呈现给模型，而来自先前任务的数据将被丢弃。本培训阶段未提供标签。为了简单起见，因为我们正在探索一个新的，具有挑战性的设置，我们假设任务边界提供给模型。更正式地说，CSSL的目标是学习一个强大的特征提取器，它对所有任务的增强都是不变的。按照第二节中介绍的符号。3、我们定义：argmin加密x加密SSL。zA，zB是的。（三）t=1评价在每个任务之后，有可能（出于评估目的）在所获得的主干fb之上训练线性分类器。使用这种线性分类器，我们报告测试集的准确性。本方案与标准CL指标兼容，如第二节所示。6.1.我们在工作中探索了三种CSSL设置。类增量：每个任务t由包含属于类集合t的图像的数据集Dtt表示，使得ts=对于每个其他任务st.请注意，类标签仅用于拆分数据集，并且模型不知道它们在实践中，数据集中的类被打乱，然后被划分为T任务。每个任务包含相同数量的类。n数据增量：每个任务t包含一组图像Dt，使得对于每个其他任务s=t，Dt Ds=n。对类没有附加约束。在实践中，整个数据集被打乱，然后划分为T个任务。每个任务都可能包含所有类。域增量：每个任务t包含一组im，每个数据集中的类集合T对于所有任务保持相同，但是数据分布改变，就好像数据是从不同的源收集的一样。5. CaSSle框架我们现在介绍在CSSL中蒸馏。从监督CL的角度来看，不变性的概念是有趣的。在这里，我们想要学习先前学习的语义概念的表示，这些语义概念对模型参数的状态是不变的。事实上，这个想法在以前的作品中进行了研究[18，30]，这些作品利用了CL的知识蒸馏。然而，这些方法在CSSL场景中只有轻微有效，正如我们在第二节中所示六、我们认为这是由于CSSL与监督CL有根本不同在CSSL中，我们的目标是提取最好的表示，可以随后在各种任务中重复使用，并最大化的线性可分性的功能在CL阶段结束因此，线性分类器不会从表示的稳定性中受益很多。此外，强迫表示不改变可能会阻止模型学习新概念。这对于SSL方法尤其重要，原因有两个：（i）模型的性能随着更长时间的训练而大幅提高，这意味着表示继续得到改进，以及（ii）它们表现出更好的性能。可能干扰蒸馏的不同损失和特征标准化，反之亦然（例如，巴洛双胞胎请注意，当从t的对继承自Eq.（2）和等式中的SSL损失函数（一）. 的期望是近似的imated使用随机梯度下降的minibatches。使用标准化，而[18，30]使用L2-归一化）。尽管如此，这些特征仍然需要提供先前任务的信息，以最大限度地提高旧分布的可分性但目前的情况可能与以前的情况大不相同θ′θ年龄D不是从不同的域得出的我们假设19624L∈- -z请注意，z是与计算值分离的，图，使得冻结的编码器不接收任何梯度，并且梯度仅流过预测器g，如[15]中所规定一方面，如果训练收敛并且D最小化，则由g预测的特征可能对模型的状态是准不变的，这满足稳定性原则。另一方面，当前编码器较少地绑定到其先前状态，因此表示z可以更具可塑性。损失可以通过将其应用于两种表示来扩展到多个视图，即、LD（zA，z<$A）+LD（zB，z<$B），还有闪蒸，e. G. ， LD （ zA ， z<$B ）和反之亦然（参见 Tab.（六）。使用CaSSLe框架不断训练的SSL方法的最终损失由下式给出：L= LSSL（zA，zB）+ LD（zA，z<$A）图2. CaSSLe框架概述。=LSSL（zA，zB）+LSSL（g（zA），z<$A）。（五）明显的一个使比较表示复杂化。通过SSL损失蒸馏。我们的框架，如图2所示，是基于以下想法：（i）一个预测器网络，通过利用满足稳定性和可塑性原则的时间蒸馏策略，将表示的当前状态映射到它们的过去状态，以及（ii）一系列从SSL文献继承的自适应蒸馏损失，解决了不同目标相互干扰的问题。当接收到新任务时，我们首先复制当前模型。此副本不需要梯度计算，也不会更新。我们称之为冻结编码器f t-1。当图像x Dt可用我们应用我们的随机图像增强并提取其特征z=ft（x）。此外，我们还利用冻结编码器提取了另一个特征向量z<$=ft−1（x）。现在，我们的目标是确保z包含的信息至少与z '一样多（理想情况下更多）。我们建议使用预测网络g将新特征空间的表示投影到旧特征空间，而不是强制两个特征向量相似，从而阻止新模型学习新概念如果预测器能够完美地从一个空间映射到另一个空间，那么它意味着z至少和z'一样有效。我们现在已经准备好进行蒸馏了，但是哪种蒸馏损失最合适呢？由于我们希望g产生的表示对模型的状态是不变的，我们建议使用相同的SSL损失来模拟增强的不变性。经验上，我们验证了这种选择减少了干扰，并最大限度地减少了超参数调整的需要。因此，我们可以写一个该损失可以通过将其应用于两个视图来使其对称（在等式1中交换A和B（5）），也容易适应多种作物[7]。注意，我们不使用任何超参数来加权蒸馏损失相对于SSL损失的重要性。5.1. SSL方法与CaSSLeSSL方法之间的主要区别在于它们使用的损失函数。按照定义在Sec. 3，以及Tab. 1，我们现在详细说明SSL损失是否以及如何在我们的CaSSLe框架中使用蒸馏损失的全部推导推迟到补充材料。基于InfoNCE的方法[13，27]执行实例区分，其中阳性样本有助于建立对增强的不变性。负的防止模型落入退化解。InfoNCE（又名InfoNCE）对比）损失可以写成等式（1）。其中下标i是批次中的通用样本的索引，sim是余弦相似性，并且η（i）是当前批次中的样本i的阴性集合。提取具有这种损失的知识相当于执行当前任务样本的实例判别，但是在过去学习的特征空间因此，预测器g学习将样本从当前空间投影到过去空间，以最大化与负样本的距离，以及与其自身在过去的相似性。基于MSE的方法[15，25]强制阳性样本之间的一致性BYOL [25]使用动量编码器，SimSiam [15]执行停止梯度操作，以避免退化的解决方案。由于表示是l2-归一化的，因此它们的损失（等式10）。7）可以重写为负余弦相似度：通过重复使用LSSL的定义，可以得到通用蒸馏损失：sim（qA，zB）=qA||2||2B·||个zlb||2其中qA=h（zA），L D（z，z<$）=L SSL（g（z），z<$）.（四）h是预测头。仅反向传播梯度相同的SSL丢预测器冻结网络当前网络增强系统19625≈K其预测因子是恒等函数。在我们的框架内，zz不i=1T我T−1i=1T−1I=2我 i，u我Bi，vK..表1.最先进的SSL方法和损失概述。在所有表格中，突出显示颜色根据损失类型进行编码。方法损失方程[第13话]exp（sim（zA，zB）/τ）我我-对数exp（sim（zA，zj）/τ）zj∈η（i）i（六）MOCO [27][19]第十九话InfoNCEBYOL [25]新加坡[15]VICReg [3]MSE−||qA− zB||22（七）SwAV [7]DCV 2 [7]DINO [8]交叉熵λexp（sim（zA，cd）/τ）- daBlogDK exp（sim（zA，ck）/τ）（八）巴洛（1−Cuv）2+λ（九）双胞胎[54]VICReg [3]互相关uuv=uv通过第一个论证的陈述。这一系列方法的一个特例是VICReg [3]，它使用多个损失的组合，其中MSE用作不变性项。特征在VICReg解相关预测特征g（zA）的维度的常规效果。6. 实验6.1. 实验方案评估指标。根据以前的工作[35]，我们提出了以下指标来评估我们的CSSL模型提取的表示的质量：线性评估准确度：在主干上训练的分类器对所有任务（或子集，例如，数据的10%）或下游任务。对于类增量和数据增量，我们使用任务不可知的设置，这意味着在评估时我们不假设知道任务ID。对于域增量设置，我们执行任务感知和任务不可知的评估（补充材料中讨论了后者计算-l2late平均精度我们计算A=1TA，这种损失鼓励模型预测过去的状态，没有额外的正则化。基于交叉熵。而不是简单地强制入侵的表示扩增，集群pro-totypes C={c1，. . .，cK}在这些中用作代理。aj，k为模型在观察到任务j的最后一个样本后，在任务k上。遗忘：CL文献中的一个常见指标，它量化了模型忘记了多少信息-10关于以前的任务。它的形式定义为：F=1<$T −1maxt∈{1，.，T}（At，i − AT，i）.群集分配。这个想法的轻微变化导致在不同的方法中：SwAV [7]，DeepObserverV2 [7]和DINO [8].一旦概率分布在原-前向转移：衡量代表-到目前为止，我们学到的一些方法对学习新任务很有帮助，即：FT=1<$TAi−1，i−Ri，其中Ri是类型被预测，交叉熵损失（等式2）。8）用于比较两种观点。特征和集群原型c是l2标准化的。分配aB可以以多种方式计算，例如：，DeepCluster中的k-means，SwAV中的Sinkhorn- Knopp和DINO中的EMA。当被雇用为蒸馏损失，交叉熵鼓励g用一组exp（sim（z<$B，ct−1）/τ）随机网络对任务I.数据集。我们在3个数据集上进行实验：CI-FAR 100[32]（类增量），一个100类的数据集，包含60 k 32x32彩色图像; ImageNet 100 [50]（类和数据增量），ILSVRC 2012数据集的100类子集，包含130 k高分辨率图像（大小调整为224 x224）; DomainNet [40]（域增量），一个345-冻结原型：aB=d，其中Ct−1=. ct−1，. - 是的- 是的，ct−1.exp（sim（z<$B，ct−1）/τ）类数据集包含大约600k高分辨率IM，年龄（大小为224x224）分为6个域。我们前-1K基于互相关。这些方法使用基于对特征空间的分量进行去相关的不同方法，例如，[20]，Barlow Twins[54]，VICReg [3]和W-MSE [20]。对于我们的分析，我们将主要集中在巴洛双胞胎的实施这一目标。对VICReg的例外情况留待以后处理.基于互相关的目标函数在等式（1）中示出。其中λ是控制重要性的超参数损失的第一和第二项，以及Cuv=实验中，类和数据增量设置有5个任务，域增量设置有6个任务（Domain- Net中的每个域一个）。补充材料提供了不同数量任务的其他结果。对于域增量设置，我们以图像数量递减的方式对域进行排序。实作详细数据。SSL方法改编自solo-learn[16]，这是一个已建立的SSL库，它是我们所有实验的主要代码库。数量一B我i，u i，v（zA）2.n（zB）2是位置的价值（u，v）的每个任务的epoch数如下：CIFAR100为500，ImageNet100为400，DomainNet为200。主链f是在沿着批次维度的视图的表示之间计算的互相关矩阵。请注意，这里的表示是沿批次维度居中的平均值，这样每个单元在批次上的平均输出为零。用这种损失进行蒸馏，哪里方法，以便模型学习预测不变19626a ResNet18 [28]，批量大小为256。我们使用LARS [53]进行所有实验。每个方法的离线版本离线上界的所有结果都是ob-bounds。19627微调EWC LUMP更少-忘记我们的表2.使用线性评估top-1准确度、遗忘和前向转移，在CI-FAR100（5个任务，类增量）上与最先进的CL方法进行比较。战略SimpleBarlow Twins BYOLA（↑）F（↓）T（↑）A（↑）F（↓）T（↑）A（↑）F（↓）T（↑）微调48.91.033.554.30.439.252.70.1三十五点九EWC[31]53.60.033.356.70.239.156.40.0三十九点九SimCLR59575553514947451 2 3 4 5任务巴洛双胞胎6159575553511 2 3 4 5任务BYOL6361595755535149471 2 3 4 5任务ER[44]50.30.132.754.63.039.454.70.4三十六点三发展率[4]50.70.433.255.32.539.654.81.1 三十六点七美国[36]0.334.557.80.341.056.40.2三十七点九[30]第三十话 52.50.233.856.40.240.158.60.241.1POD[18]51.30.133.855.90.340.357.90.041.1卡索58.30.236.460.40.442.262.20.043.6离线65.8--70.9--70.5--表3.与Linet al. [34] CIFAR100（2和5个任务，类增量设置）。MoCoV2+是MoCoV2的更新版本，使用对称损失。两者之间的差异在收敛时为0.1%[15]。策略方法2任务5任务Simplified 55.7-MoCoV2 56.1 53.8图3. CIFAR100上任务的前1线性评估准确度的演变（5个任务，类增量）。动作、冗余减少、动量编码器）。比较是在具有5个任务的类增量CIFAR100上进行的。离线学习结果被报告为上限。首先，我们注意到CaSSLe比所有其他策略产生更好的表示，在top-1 accu- racy方面，所有SSL方法都大幅优于它们。此外，我们的框架也表现出更好的前向迁移，这意味着它的功能更容易推广卡斯勒SimplifiedMoCoV 2 +其他任务（在Tab中也很明显）。（八）。CaSSLe似乎减少了微调方面的灾难性遗忘并且与其它方法相当。一般来说，SSL方法-[ 16][16]对于某些SSL方法，有必要稍微增加学习率[16]提供的值，以便方法在CSSL设置中完全收敛。尽管在某些设置中调整超参数可能是有益的，但我们不对CaSSLe执行任何超参数调整。我们也既不改变SSL方法的参数，也不使用蒸馏损失的权重（根据等式1）。（5））。基线。大多数CL方法需要标签，这使得它们不适合CSSL。然而，有一些作品可以适应我们的设置与最小的变化。我们从三个类别中选择基线[17]：先验聚焦正则化（EWC [31]），数据聚焦正则化（POD [18]，Less-Forget [30]）和基于排练的重放（ER [44]，DER[4]）方法。我们还比较了两个同时进行的工作，提出了CSSL的方法（LUMP [36]，Linet al.[34]）。最后，我们不考虑基于VAE的方法[1，42]，因为它们已被证明在大规模上性能较差。有关如何为CSSL选择、实施和调整基线的详细信息，请参阅补充材料。6.2. 结果与现有技术的比较。2.我们报告了与CL基线的比较，以及与三种 SSL 方法： Simplified ， Barlow Twins 和BYOL的组合微调。我们选择这三种方法的原因如下：（i）它们具有不同的损失（InfoNCE，互相关和MSE），（ii）它们表现出不同的特征归一化（l2，标准化和均值中心化），(iii)他们使用不同的技术，以避免崩溃（负，ODS在CIFAR100上的监督学习中已经具有较低的遗忘率（参见表1）。4）因此，还有很小的改进余地然而，在更高分辨率的图像（ ImageNet100 ）上，CaSSLe实际上在减轻灾难性遗忘方面取得了显著的效果。基于重放的方法（ER，DER）显然对CSSL中的遗忘没有帮助。我们发现了两个失败的原因。首先，在监督CL中，基于重放的方法受益于存储标签，标签包含关于先前任务的大量信息，并且使得能够在旧类上重新训练线性分类器。在CSSL中情况并非如此，因为标签不可用。其次，SSL模型需要更多的训练时期来收敛，这意味着缓冲区中的样本也会被重播更多次。这会在这些样本上导致严重的过拟合，从而破坏了重放缓冲区的目的。LUMP通过使用mixup增加缓冲区来减轻这种影响，但不会太远，仅使用Barlow Twins超过其他基线EWC的表现令人惊讶地好，优于更近的方法，这意味着可以用自我监督损失准确地计算权重的重要性。蒸馏方法（POD，Less-Forget）显示出良好的性能。然而，它们在损失中使用l2-归一化，当与Bar- low Twins结合时导致信息损失，这降低了准确性。图3示出了具有5个任务的类增量CIFAR100上的整个训练轨迹上的前1线性评估准确度的演变。CaSSLe优于其他方法，并在整个序列中不断改进。我们发现BYOL是不稳定的，当简单地微调模型。CaSSLe、EWC和Less-Forget完全缓解了这种不稳定性。另一方面，LUMP First58.359.561.863.3前1精度前1精度前1精度Lin等[34个]1962866.468.268.0表4.线性评估在类增量CIFAR100和ImageNet100上具有5个任务的顶级精度。CaSSLe被比作微调，离线和监督学习。方法策略CIFAR100 ImageNet100A（↑）F（↓）T（↑）A（↑）F（↓）T（↑）表5.在1/5的数据上训练5倍的时间，而不是在ImageNet 100上连续训练w/和w/o CaSSLe（5个任务，类和数据增量）。粗体是最好的，下划线是第二好的。设置方法微调离线1/5 CaSSLe津巴布韦Class公司巴洛双胞胎63.163.5巴洛微调BYOL66.0 60.6双胞胎卡索60.40.442.268.21.347.967.272.170.274.966.773.3在卡索的选择。离线64.9--74.3--BYOL微调卡索62.2 0.0 42.2 66.4 1.1 46.6策略方法交换没有pred.我们辛巴威49.3 52.658.3离线70.5 - 80.3-微调51.5 0.9 36.4 61.3 7.9 42.0卡斯勒巴洛双胞胎57.457.360.4BYOL52.0 58.662.2VICReg卡索53.6 0.2 41.1 64.8 4.3 45.3除非与CIFAR100上的VICReg结合使用。平均而言，使用CaSSLe持续训练的SSL方法在CIFAR100上提高了6.8%，在ImageNet100上提高了4%。数据增量。选项卡. 图7显示了在数据增量场景中使用5个任务在ImageNet 100上进行线性评估的top-1准确度的结果虽然没有SSL方法比监督微调更好，但BarlowTwins加上CaSSLe具有竞争力。CaSSLe在所有情况下平均提高了2%的性能，BYOL除外。这可能是因为在数据增量场景中，轻微下降然后恢复。我们认为这是由于由混合正则化引入的一些不稳定性，模型需要时间来适应。在选项卡中。3与Linet al. [34]第34话，我的朋友虽然我们的方法不是专门为对比学习设计的，但它大大优于Lin等人。2和5个任务。它一文不值MoCoV2+比MoCoV2稍好（相差1%），而我们的增益要大得多（7%）。消融研究。我们消除了我们在CaSSLe中采用的最关键的设计选择：（i）没有交换视图的蒸馏，以及（ii）预测头g的存在。这些结果在表中报告。六、我们的完整框架明显优于它的变体交换视图和没有预测器。这验证了我们的假设，即将新特征映射到旧特征空间的预测器至关重要。交换视图没有帮助的结果可能是由于冻结的编码器对于当前任务不是不变的。类增量。在选项卡中。4我们报告了CSSL的研究与6SSL 方法组成的 CaSSLe 框架类增量 CIFAR100 和ImageNet100。微调和离线SSL结果报告为下限和上限。监督学习的准确性也报告。CaSSLe总是在微调方面有所改进。特别是，我们的框架产生了更高的前向传输和更低的遗忘，特别是在ImageNet100上，方法往往会忘记更多。值得注意的是，CaSSLe优于监督微调，例如，过去的知识不像其他场景那么重要，BYOL已经有了一个动量编码器，可以提供一些关于过去的信息。该假设通过MoCoV2+（使用动量编码器）在与CaSSLe结合时的改善程度低于Simplified的事实得到验证。我们相信，通过调整EMA时间表，BYOL也可以得到改善。此外，BYOL已经显示出令人印象深刻的性能与微调，优于所有其他方法超过2%.有趣的是，SwAV最接近其离线上限，与CaSSLe耦合时性能仅下降3%。域增量。我们还研究了CaSSLe不断学习的能力时，从该域中提取的数据的变化。选项卡. 图7示出了在冻结特征提取器之上训练的线性分类器分别在所有域上（域感知）的平均前1准确度。补充材料中介绍了每个领域的领域不可知评价和结果同样，CaSSLe平均将每种方法提高了4.4%，这表明我们的蒸馏策略对域转移具有鲁棒性，尽管数据分布确实不同，但仍然可以进行信息传输。有趣的是，大多数方法，当用CaSSle训练时，都非常接近它们的精确度。长期训练VS持续训练我们还分析了以下问题：是否值得持续训练，或者在小数据集上训练更长时间更好这离线70.9--80.4--SimCLR数据公司巴洛双胞胎68.971.3SwAV微调55.5卡索57.80.00.032.834.564.466.04.30.242.843.6BYOL表6.消融研究74.0desi离线68.5--79.4--MoCoV 2+微调47.3卡索59.50.20.033.439.662.068.88.41.541.646.8离线69.9--79.3--SimCLR微调48.9卡索58.31.00.233.536.461.568.08.12.240.3四十五点八线下65.8--77.5--监督微调54.16.836.563.15.642.519629表7. ImageNet 100（5个任务，数据增量）和DomainNet（6个任务，域增量）上的线性评估精度。方法策略ImageNet100 DomainNet（数据公司）（Domain-inc.）微调巴洛卡索74.9 55.5双胞胎线下80.457.2SwAV微调知识70.871.349.654.3线下74.354.6BYOL微调卡斯勒74.073.350.655.1VICReg线下微调卡斯勒80.370.272.356.649.352.9线下79.456.7MoCoV 2 +微调卡斯勒69.571.943.246.7线下78.253.7SimCLR微调卡斯勒68.972.145.150.0线下77.552.6监督微调75.955.9线下81.966.4取决于两个因素：（i）SSL方法，以及（ii）CSSL设置。对于类增量设置中的Simplified和Barlow Twins，在1/5的类上离线训练似乎比连续训练5个任务更好。在这种设置下，离线BYOL似乎遭受不稳定，最终低于微调。另一方面，在数据增量设置上，微调优于更长的训练，特别是对于BYOL，它也优于CaSSLe（如前所述）。除了这个例外，CaSSLe总是比其他策略产生更好的代表性，使其成为首选。下游和半监督。在选项卡中。8，我们在ImageNet 100上训练并在 DomainNet （ Real ）上评估时， BarlowTwins，SwAV和BYOL显示出比监督模型更高的性能，即使在考虑微调策略时也是如此。这可能是由于SSL方法倾向于学习比其监督对应方更一般的特征。CaSSLe提高了所有SSL方法的性能，使它们超过了监督基线。最后，与微调相比，CaSSLe平均将SSL方法的性能提高了3.4%。选项卡. 9包含在具有有限数量的标记（10%和1%）的冷冻骨架上训练线性分类器时在ImageNet100上的前1准确度。首先，我们可以观察到，没有一种微调的SSL方法能够超过监督学习的性能当使用CaSSLe时，MoCoV 2+优于具有10%标签的监督，并且一般来说，Barlow Twins和Mo-CoV 2+在两种半监督设置中工作最好卡斯勒表8.在Imagenet-100上训练并在DomainNet（Real）上评估的不同SSL方法的下游性能。双胞胎战略巴洛SwAVBYOLVICRegMoCoV2+ Simplification 监督微调56.2 55.9 55.0 54.0 52.4 51.6卡斯勒60.3五十六点九56.9 56.358.756.554.3表9.在Imagenet-100上使用不同SSL方法获得了顶级线性准确度，半监督设置为10%和1%的标签。百分比战略巴洛双胞胎10%微调56.6卡斯勒六十点三SwAV57.6五十八点二BYOL55.7五十六点五VICReg53.6五十六点五MoCoV 2+54.9六十一点七SimCLR52.5五十八点九监督60.8百分之一微调42.642.542.340.440.939.748.1卡斯勒四十七点零43.1四十三点四四十三点二四十七点八46.8与微调相比，改进了所有SSL方法7. 结论在这项工作中，我们研究了连续自我监督学习（CSSL），学习一组任务的问题，没有标签的连续。我们为SSL和CL社区做出了两个重要贡献：（i）我们提出了CaSSLe，这是一个简单有效的CSSL框架，展示了如何无缝地重用SSL方法和损失以不断学习，以及（ii）我们对CSSL进行了全面的分析，导致SSL方法的有趣属性的出现局限性。虽然CaSSLe显示了令人兴奋的性能，但它也有一些局限性。首先，它适用于提供任务边界的设置。其次，我们的框架将训练所需的计算资源量增加了大约30%，无论是在理论上还是在时间上。最后，CaSSLe不执行聚类，这意味着它无法直接学习从数据到潜在类的映射，因此需要一个经过监督训练的线性分类器或一些聚类算法。更广泛的影响。监督CL代理的能力受到人类产生的注释的需要的限制。CSSL模型可以在不需要人工监督的情况下进行改进。这有助于创建强大的AI，这些AI可能用于恶意目的，例如识别和监视。此外，由于在CSSL中，数据应该来自非策划流，所以模型可能会受到数据偏差的影响。这是有问题的，因为偏差然后被转移到下游任务。鸣谢。这项工作得到了欧洲创新技术研究所（EIT）和H2020欧盟项目SPRING的支持，该项目由欧洲委员会根据GA 871245资助。它是在“远见和学习-FBK和UNITN之间的 " 联合实验室 ” 。 Karteek Alahari 由 ANR 赠款 AVENUE（ANR-18-CE 23 -0011）资助。Julien Mairal由ERC资助号714381 （ SO- LARIS 项目）和 ANR 3 IA MIAI@GrenobleAlpes（ANR- 19-P3 IA-0003）资助。Xavier Alameda-Pineda由ARN赠款ML 3RI（ANR-19-CE 33 -0008-01）资助。根据GENCI的分配2021- [AD 011013084]，该项目获得19630引用[1] Alessandro Rugule ， Tom Eccles ， Loic Matthey ，Christo-pher P Burgess ， Nick Watters ， AlexanderLerchner，and Irina Higgins.跨领域潜在同源的终身解纠缠表示学习NeurIPS，2018。二、六[2] RahafAl

下载后可阅读完整内容，剩余1页未读，立即下载