自监督软对比学习的相似性对比估计

170 浏览量更新于2023-10-16 收藏 12.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

27060自监督软对比学习的相似性对比估计0Julien DENIZE *† Jaonary RABARISOA * Astrid ORCESI * Romain H ´ ERAULT †0St´ephane CANU †0* Universit´e Paris-Saclay, CEA, LIST, F-91120, Palaiseau, France0firstname.lastname@cea.fr † Normandie Univ, INSA Rouen, LITIS, 76801, SaintEtienne du Rouvray, France0firstname.lastname@insa-rouen.fr0摘要0对比表示学习已被证明是一种有效的自监督学习方法。最成功的方法基于噪声对比估计（NCE），并使用不同视图的实例作为应该与其他实例对比的正样本，而将其他实例称为噪声。然而，数据集中的几个实例来自同一分布并共享潜在的语义信息。良好的数据表示应包含实例之间的关系或语义相似性。对比学习隐式地学习关系，但将所有负样本视为噪声会损害学习到的关系的质量。为了解决这个问题，我们提出了一种使用实例之间的语义相似性的对比学习新公式，称为相似性对比估计（SCE）。我们的训练目标是一种软对比学习目标。我们不是通过硬分类正样本和负样本，而是从一个批次的一个视图估计一个连续分布，根据它们的语义相似性来推动或拉动实例。这个目标相似性分布被锐化以消除噪声关系。模型从另一个视图为每个实例预测目标分布，同时将其正样本与负样本进行对比。实验结果表明，SCE在ImageNet线性评估协议中以100个预训练时期的Top-1准确率达到72.1％，并且在200个时期的多裁剪下达到75.4％，与最先进的算法相竞争。我们还展示了SCE能够推广到多个任务。源代码在此处可用：https://github.com/CEA-LIST/SCE。01. 引言0自监督学习（SSL）是一种无监督学习过程，其中数据提供了自己的监督。0自监督学习是一种学习数据实际表示的方法。它已成功应用于分类和目标检测等各种应用中。在数据上设计了一个预训练模型的预训练任务。然后，在下游任务上对预训练模型进行微调，一些研究表明，自监督预训练网络可以胜过其监督对应物[5, 24,6]。对比学习是一种基于噪声对比估计（NCE）[25]的最先进的自监督范式，其最成功的应用依赖于实例区分[26,7]。通过精心设计的数据增强方法生成来自同一图像的视图对[7,48]。来自同一对的元素称为正样本，并且它们的表示被拉在一起以学习视图不变特征。其他图像称为负样本，被视为噪声，并且它们的表示被推离正样本。基于对比学习范式的框架需要一种采样正样本和负样本的方法来学习良好的数据表示。大量的负样本是必不可少的[49]，并且已经提出了各种策略来增加负样本的数量[7, 54, 26,32]。采样困难负样本[32, 44, 53, 30,19]可以改善表示，但如果它们是语义上错误的负样本，则可能会有害，这被称为“类碰撞问题”[4, 52,13]。还提出了其他方法，通过预测不同视图的伪类别[5,6]，最小化正样本的特征距离[24,11]或匹配视图和其他实例之间的相似性分布[60]来学习正样本视图。这些方法解决了采样困难负样本的问题。基于对比学习使用负样本的弱点，我们引入了一种自监督软对比学习方法，称为相似性对比估计（SCE），它将正样本与其他实例进行对比，并利用实例之间的相似性来推动负样本。我们的方法计算定义为锐化的关系。27070增强视图之间的相似性分布。批次中的每个视图都与不同的增强查询配对。我们的目标函数将保持每个查询的关系，并将其正样本与其他图像进行对比。通过维护一个有意义的分布来产生一个有意义的分布。在几个数据集上的实验证明，我们的方法优于我们的对比和关系基线MoCov2[10]和ReSSL [60]。我们的贡献可以总结如下：0•我们提出了一种自监督的软对比学习方法，称为相似性对比估计（SCE），它将增强图像对与其他实例进行对比，并保0•我们证明了我们的框架SCE在几个基准测试中优于其基线MoCov2 [10]和ReSSL[60]，对于共享架构，可以通过使用更近期的架构、更大的0•我们展示了我们提出的SCE在ImageNet线性评估协议上与最先进的方法相竞争，并推广到几个下游任务。02. 相关工作0自监督学习。在早期的研究中，提出了不同的预训练任务来进行自监督学习，以学习良好的数据表示，例如：实例鉴别[18]，补丁定位[17]，着色[58]，拼图[41]，计数[42]，角度旋转预测[23]。对比学习。对比学习是一种学习范式[49, 54,29, 47, 26, 7, 39, 48, 5,24]，其表现优于前述的预训练任务。最成功的方法依赖于实例鉴别，使用来自同一图像的正对视图与所有其他实例对比，称为负样本。对比学习需要检索大量的负样本[49]，并提出了各种策略。MoCo（v2）[26,10]使用较小的批量大小，并通过维护一个表示的内存缓冲区来保持大量的负样本。相反，SimCLR [7, 8]和MoCov3[12]使用较大的批量大小，没有内存缓冲区，也没有动量编码器用于SimCLR。对比学习的采样器。并非所有的负样本都是相等的[4]，难以区分正样本的困难负样本是提高对比学习的最重要的采样对象。然而，由于“类碰撞”问题[4, 52,13]，它们对训练有潜在的危害。已经提出了几种采样器来缓解这个问题，例如使用最近邻作为NNCLR的正样本[19]。截断三元组[50]使用第k个相似元素作为负样本来优化三元组损失，取得了显著的改进。如AdCo[30]所示，也可以通过对抗学习生成视图。0无负样本的对比学习。各种连体框架进行对比学习时，避免使用负样本以避免类碰撞问题。BYOL[24]训练在线编码器预测动量更新的目标编码器的输出。SwAV[5]通过学习原型之间的在线聚类分配来强制保持一致性。DINO[6]提出了一种自蒸馏范式，将在线编码器到动量目标编码器的伪类分布进行匹配。Barlow-Twins[57]将两个配对输出之间的交叉相关矩阵与单位矩阵对齐，VICReg[2]通过添加批内去相关损失函数来稳定。正则化对比学习。几种方法通过优化对比目标和考虑实例之间相似性的目标来规范化对比学习。CO2[52]添加了一个一致性规范化项，用于匹配查询和其正样本的相似性分布。PCL [35]和WCL[59]将无监督聚类与对比学习相结合，以加强相似实例的表示。关系学习。对比学习通过优化对齐和匹配先验分布[51,9]隐式学习实例之间的关系。ReSSL[60]通过保持强增强视图和弱增强视图之间的成对相似性的一致性引入了显式的关系学习目标。这些视图对不直接对齐，这会损害判别性能。在我们的工作中，我们通过拉取相关实例来优化对比学习目标，从而缓解了类碰撞问题。我们不使用正则化项，而是直接优化一个软对比学习目标，利用了对比和关系方面的特点。03. 方法论0在本节中，我们将介绍我们的基线方法：对于对比方面是MoCov2 [10]，对于关系方面是ReSSL[60]。然后我们将介绍我们的自监督软对比学习方法SCE。所有这些方法都共享图1a所示的相同架构。我们在补充材料中提供了算法的伪代码。03.1. 对比学习和关系学习0考虑x ={xk}k∈{1,...,N}是一个批次包含N个图像。基于对比学习和关系学习的孪生动量方法，如MoCo [26]和ReSSL [60]，分别从两个数据增强分布T1和T2中产生x的两个视图x1 =t1(x)和x2 = t2(x)。0其中T2是相对于T1的弱数据增强分布，以保持关系。x1通过在线网络fs和投影器gs经过计算，得到z1 =gs(fs(x1))。包含投影器gt和编码器ft的并行目标分支进行更新.̸̸̸̸̸27080（a）孪生网络0（b）SCE目标函数0图1：SCE遵循图1a所示的孪生网络。图像批次x通过两个不同的数据增强分布T1和T2进行增强，形成x1 = t1(x)和x2 = t2(x)，其中t1�T1，t2�T2。表示z10通过在线编码器fs和投影器gs计算，例如z1 =gs(fs(x1))。通过在线分支的指数移动平均更新的并行目标分支，或ema，计算z2 =gt(ft(x2))，其中ft和gt是目标编码器和投影器。在SCE的目标函数中，使用z2通过对动量分支的表示的余弦相似性应用尖锐的softmax来计算实例间目标分布。该分布通过1-λ因子与一个one-hot标签因子λ混合形成目标分布。还计算了z1与内存缓冲区及其在z2中的正样本之间的相似性。通过对在线相似性应用softmax计算在线分布。目标函数是目标分布和在线分布之间的交叉熵。0通过在线分支的指数移动平均计算z2 =gt(ft(x2))。z1和z2都进行了l2归一化。MoCo使用InfoNCE损失，一种基于相似性的函数，通过温度τ进行缩放，最大化正样本的一致性并将负样本推开：0L InfoNCE = -10N0i=10Σexp(z1i ∙ z2i/τ) ÷ΣNj=1 exp(z1i ∙ z2j/τ)0Σ0（1）ReSSL计算目标相似性分布s2，表示弱增强实例之间的关系，以及强增强实例与弱增强实例之间的相似性分布s1。每个分布都应用了温度参数：s1的温度为τ，s2的温度为τm，其中τ >τm以消除噪声关系。损失函数是s2和s1之间的交叉熵：0s1ik = 1 i ≠ k ∙ exp(z1i ∙ z2k/τ) ÷ ΣNj=1 1 i ≠j ∙ exp(z1i ∙ z2j/τ), (2)0s2ik = 1 i ≠ k ∙ exp(z2i ∙ z2k/τm) ÷ ΣNj=1 1 i≠ j ∙ exp(z2i ∙ z2j/τm), (3)0L ReSSL = -10N0N0i = 10N0k = 1k ≠ i0s2ik log(s1ik). (4)0一个大小为M >>N的内存缓冲区被用于两种方法，由z2填充。03.2. 相似性对比估计0对比学习方法破坏了实例之间正确构建的关系，而关系学习则缺乏对比方法可以学习的区分特征。然而，如果我们以一个由猫和狗组成的数据集为例，我们希望我们的模型能够理解两只不同的猫具有相同的外观，但我们也希望我们的模型能够学习区分每只猫的特定细节。基于这些要求，我们提出了我们的方法称为相似性对比估计（SCE）。我们认为存在一个真实的相似性分布w � i，它在查询qi和一批N个图像x ={xk} k ∈{1,...,N}之间的实例之间。如果我们可以访问w �i，我们的训练框架将估计查询qi和x中所有实例之间的相似性分布pi，并最小化w �i和pi之间的交叉熵，这是一个软对比学习目标：0L SCE � = -10N0NΣ0i =10k =1 w � ik log ( p ik ) (5)0L SCE�是一种广义的InfoNCE和ReSSL目标的软对比方法。InfoNCE是一种硬对比方法。̸27090对比损失估计了带有one-hot标签的w �i，而ReSSL估计了没有对比组件的w �i。我们提出了一种基于对比和关系学习的w �i估计方法。我们考虑使用两种数据增强t 1 � T 1和t 2 � T2生成的x 1 = t 1 ( x )和x 2 = t 2 ( x)来估计不同视图的不同关系。我们通过f s和gs（以及可选的预测器[24, 12]）计算z 1 = g s ( f s ( x 1))，通过f t和g t计算z 2 = g t ( f t ( x 2 ))。z 1和z2都进行了l 2归一化。通过公式（3）计算定义实例之间关系的相似性分布s 2。温度τ m使分布更加尖锐，只保留相关关系。将加权的正向one-hot标签添加到s 2 i中，构建目标相似性分布w 2 i：0w 2 ik = λ ∙ 1 i = k + (1 - λ) ∙ s 2 ik (6)0在线相似性分布p 1 i是通过温度τ对z 1 i和z2之间的相似性进行计算和缩放的，其中包括与ReSSL相反的z 2 i，以构建更清晰的目标分布：0p 1 ik = exp( z 1 i ∙ z 2 k /τ ) ΣN j =1 exp(z 1 i ∙ z 2 j /τ ) (7)0图1b中的目标函数是每个w 2 和p 1 之间的交叉熵：0L SCE = -10N0NΣ0i =10k =1 w 2 ik log( p 1 ik ) (8)0可以通过将x 1 通过动量编码器传递，将x 2通过在线编码器传递，并平均计算两个损失来使损失对称化。维护一个大小为M >> N的内存缓冲区，由z 2填充，以更好地近似相似性分布。下面的命题明确地显示了SCE优化了一个对比学习目标，同时保持了实例之间的关系：0命题1. L SCE可以写成公式（8）的形式：0L SCE = λ ∙ L InfoNCE + µ ∙ L ReSSL + η ∙ L Ceil (9)0其中µ = η 0L Ceil = -10N个N i =1 log(ΣN j =1 1 i ≠ j ∙ exp( z 1 i ∙ z 2 j /τ ) /ΣN j =1 exp( z 1 i ∙ z 2 j /τ ))0Σ.0证明将正项和负项分开。可以在补充材料中找到。LCeil利用硬负例来确定正项与负项的相似程度。因为我们的方法是一个软对比学习目标，我们优化公式（8）中的表达式，并且有约束条件µ = η = 1 -λ。这样我们的实现就不需要优化三个损失函数，只需要调整两个超参数µ和η。尽管如此，我们还是对没有这个约束条件的公式（9）进行了小规模研究，以检查LCeil是否在第4.1节中改进了结果。04. 实证研究0在本节中，我们首先对我们的方法Similarity ContrastiveEstimation(SCE)进行消融研究，以找到最佳的超参数。其次，我们将SCE与其基线MoCov2 [10]和ReSSL[60]进行比较。最后，我们在ImageNet线性评估协议上评估SCE，并评估其在各种任务上的泛化能力。04.1. 消融研究0为了进行消融研究，我们在与ImageNet相似的ImageNet100上进行了实验，该数据集在第4.3节中进行了研究，具有更少的训练资源需求的优势。我们保持实现细节与ReSSL[60]和MoCov2[10]接近，以确保公平比较。数据集。ImageNet[16]是一个大型数据集，有1k个类别，在训练集中有近130万张图像，在验证集中有5万张图像。ImageNet100是从ImageNet中随机选择的100个类别。我们从[47]的补充材料中选择了这些类别。预训练的实现细节。我们使用ResNet-50[28]编码器进行200个epoch的预训练。对于ReSSL[60]，我们默认应用Tab.2中定义的强和弱数据增强。我们使用8个GPU，批量大小为512。内存缓冲区大小为65,536。投影器是一个具有隐藏维度为4096和输出维度为256的2个全连接层网络。使用带有动量0.9和权重衰减10^-4的SGD优化器[45]。线性预热在5个epoch内应用，以达到初始学习率0.3。学习率使用线性缩放规则进行缩放，并遵循余弦衰减调度程序而不重新启动[37]。更新动量网络的动量值遵循从0.996到1的余弦策略。我们默认不对称化损失。评估协议。为了评估我们预训练的编码器，我们在冻结的预训练编码器之上训练了一个线性分类器，使用SGD优化器，初始学习率为30，没有权重衰减，动量为0.9，训练100个epoch。学习率在第60和80个epoch时以0.1的因子衰减。数据增强遵循标准协议[10,60]，详见补充材料。利用对比和关系学习。SCE在公式（6）中通过λ系数利用对比和关系学习。我们研究了在ImageNet100上改变λ的效果。温度参数设置为τ = 0.1和τm =0.05。我们在表1中报告了结果。性能随λ从0增加到0.5后开始下降。最佳λ为0.5，验证了平衡对比和关系方面提供更好的表示。在接下来的实验中，我们保持λ =0.5。我们进行了一个小的研究，通过去除Lceil(η =0)来优化公式（9），以验证我们的方法对τ = 0.1和τm ∈{0.05, 0.07}的相关性。1.0.0.81.1181.110.50.50.82.8082.490.50.50.582.9483.370.1.0.80.7978.350.1.1.81.5379.6427100λ 0. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Top-1 81.53 81.77 82.54 82.81 82.91 82.94 82.1781.58 81.75 81.79 81.110表1：在ImageNet100上改变λ对Top-1准确率的影响。λ = 0.5是最佳的，验证了学习区分和保持关系是最好的。0参数弱强强-α 强-β 强-γ0随机裁剪概率 1 1 1 1 1 翻转概率 0.5 0.5 0.5 0.5 0.5 颜色抖动概率 0. 0.8 0.8 0.8 0.8亮度调整最大强度 - 0.4 0.4 0.4 0.4 对比度调整最大强度 - 0.4 0.4 0.4 0.4饱和度调整最大强度 - 0.4 0.2 0.2 0.2 色调调整最大强度 - 0.1 0.1 0.1 0.1颜色丢失概率 0. 0.2 0.2 0.2 0.2 高斯模糊概率 0. 0.5 1. 0.1 0.5 日照概率 0. 0. 0. 0.20.20表2：应用于SCE的不同数据增强分布。弱分布与ReSSL [60]相同，强是标准的对比数据增强[7]。强-α和强-β是BYOL[24]引入的两个分布。最后，强-γ是强-α和强-β之间的混合。0损失系数 Top-1 λ µ η τm = 0.05 τm =0.070表3：在ImageNet100上使用方程（9）中的损失系数对Top-1准确率的影响。Lceil始终提高性能，具体取决于温度参数。0在线增强教师增强 Top-10strong weak no 82.94 strong-γ weakno 83.00 weak strong no 73.43 strongstrong no 80.54 strong-α strong-β no80.740strong weak yes 83.66 strong strongyes 83.00 strong-α strong-β yes 84.170表4：在ImageNet100上使用不同的数据增强分布以及损失对称化对Top-1准确率的影响。使用弱视图作为没有对称性的教师是获得良好关系的必要条件。通过损失对称性，不对称数据增强改善了结果，最佳结果使用了strong-α和strong-β增强。0结果见表3。添加Lceil一项始终提高性能，从经验上证明我们的方法优于简单地添加LInfoNCE和LReSSL。这种性能提升随温度参数而变化，我们的最佳设置与添加这两个损失相比提高了+0.9个百分点（p.p.）。不对称数据增强构建相似度分布。对比学习方法使用强数据增强[7]学习视图不变特征并防止模型崩溃。然而，这些强数据增强会改变SCE用于近似方程（6）中的wi的相似性分布。我们需要仔细调整数据增强以估计相关的目标相似性分布。我们在表2中列出了不同的数据增强分布。弱增强和强增强与ReSSL[60]描述的相同。strong-α和strong-β是由BYOL[24]提出的。我们在表4中对在线和目标分支应用的数据增强进行了研究，以构建非对称和对称设置的适当目标分布。当在非对称设置中，SCE要求从维持实例一致性的弱增强分布构建目标分布。一旦损失被对称化，使用强数据增强的不对称性具有更好的性能。实际上，使用strong-α和strong-β增强比使用弱增强和强增强更好，而相同的强增强性能较低。我们认为对称的SCE0.0382.330.0381.280.0482.520.0481.150.0582.940.0581.190.0682.540.0681.190.0783.370.0781.130.0882.710.0880.910.0982.530.0981.180.1082.070.1081.204.2. Comparison with our baselinesWe compared on 6 datasets how SCE performs againstits baselines. We keep similar implementation details toReSSL [60] and MoCov2 [10] for fair comparison.Small datasets. Cifar10 and Cifar100 [34] have 50Ktraining images, 10K test images, 32×32 resolution and 10-100 classes respectively. Medium datasets. STL10 [15]has a 96×96 resolution, 10 classes, 100K unlabeled data, 5klabeled training images and 8K test images. Tiny-Imagenet[1] is a subset of ImageNet with 64 × 64 resolution, 200classes, 100k training images and 10K validation images.Implementation details.Implementation details forsmall and medium datasets are in the supplementary mate-rial. For ImageNet, we follow the ones in ablation studywith some modifications. The initial learning rate is set to0.5, the projector is a 3 fully connected layer network witha hidden dimension of 2048, a batch normalization [31] ateach layer and an output dimension of 256. For MoCov2,the temperature used is τ = 0.2 and for ReSSL we use thebest temperatures reported [60]. For SCE, we use the besttemperature parameters from ablation study for ImageNetand ImageNet100, and for other datasets, the best ones fromsupplementary material. We use the same architecture forall methods except that we use the same projector as on Im-ageNet100 on ImageNet for MoCov2 to improve the result.Evaluation protocol.The evaluation protocol is thesame as defined in the ablation study for all datasets.Results are reported in Tab. 5. Our baselines reproduc-tion is validated as results are better than those reported bythe authors. SCE outperforms its baselines on all datasetsproving that our method is more efficient to learn discrim-inating features on the pretrained dataset. We observe thatour approach outperforms more significantly ReSSL onsmaller datasets than ImageNet, suggesting that it is moreimportant to learn to discriminate among instances for thesedatasets. SCE has promising applications to domains withfew data such as in medical applications.4.3. ImageNet Linear Evaluation ProtocolWe compare SCE on the widely used ImageNet linearevaluation protocol with the state of the art. We scaled ourmethod to a larger batch size and a deeper architecture usinga predictor to match the state of the art results [24, 12].Implementation details. We use the ResNet-50 [28] en-coder and apply strong-α and strong-β augmentations de-fined in Tab. 2 with a batch size of 4096 and a memorybuffer of size 65,536. We follow the same training hyper-parameters as [12] for the architecture. Specifically, we usethe same projector and predictor, the LARS optimizer [56]with a weight decay of 1.5·10−6 for 1000 epochs of training27110方法 ImageNet ImageNet100 Cifar10 Cifar100 STL10 Tiny-ImageNet0MoCov2 [10] 67.5 - - - - - MoCov2 [*] 68.8 80.46 87.56 61.00 86.53 45.93 ReSSL[60] 69.9 - 90.20 63.79 88.25 46.60 ReSSL [*] 70.2 81.58 90.20 64.01 89.05 49.47SCE（我们的方法）70.5 83.37 90.34 65.45 89.94 51.900表5：SCE与其基线MoCov2 [10]和ReSSL[60]在各种数据集上的Top-1准确率比较。SCE在所有基准测试中优于其基线。[*]表示我们的复现。0τ = 0.1 τ = 0.2 τm Top-1τm Top-10表6：在ImageNet100上改变温度参数τm和τ对Top-1准确率的影响。τm低于τ以产生更锐化的目标分布而没有噪声关系。我们的方法在τm → τ时不会崩溃。0需要使用不对称的数据增强来为每个视图产生不同的关系，以使模型学习更多信息。使用更强的增强效果通过对两个视图的结果进行平均来平衡。对损失进行对称化可以提高性能，如[24，11]所述。锐化相似度分布。温度参数以指数方式锐化相似度分布。SCE使用温度τm和τ来指导目标和在线相似度分布，其中τm <τ以更锐化的分布引导在线编码器。我们在ImageNet100上通过改变τ在{0.1，0.2}和τm在{0.03，...，0.10}进行了温度搜索。结果如表6所示。我们发现最佳值τm = 0.07和τ =0.1，证明SCE需要更锐化的目标分布。在补充材料中，我们对与我们的基线进行比较的其他数据集进行了参数搜索。与ReSSL [60]不同，SCE由于对比方面不会在τm →τ时崩溃，因此对温度选择不太敏感。Method100200300800-1000SimCLR [7]66.568.3-70.4MoCov2 [11]67.469.9-72.2SwaV [5]66.569.1-71.8BYOL [24]66.570.672.574.3Barlow-Twins[57]--71.473.2AdCo [30]-68.6-72.8ReSSL [60]-71.4--WCL [59]68.170.3-72.2VICReg [2]---73.2UniGrad [46]70.3---MoCov3 [12]68.9-72.874.6NNCLR [19]69.470.7-75.4Truncated-Triplet [50]-73.8-75.9SCE (Ours)72.172.773.374.1Table 7: State-of-the-art results on the Top-1 Accuracy onImageNet under the linear evaluation protocol at differentpretraining epochs: 100, 200, 300, 800+. SCE is Top-1 at100 epochs and Top-2 for 200 and 300 epochs. For 800+epochs, SCE has lower performance than several state-ofthe-art methods. Results style: best, second best.and 10−6 for fewer epochs. Bias and batch normalizationparameters are excluded. The initial learning rate is 0.5 for100 epochs and 0.3 for more epochs. It is linearly scaled for10 epochs and it follows the cosine annealed scheduler. Themomentum value follows a cosine scheduler from 0.996 for1000 epochs, 0.99 for fewer epochs, to 1. The loss is sym-metrized. For SCE specific hyperparameters, we keep thebest from ablation study: λ = 0.5, τ = 0.1 and τm = 0.07.Multi-crop setting. We follow [30] setting and sam-ple 6 different views. The first two views are global viewsas without multi-crop. The 4 local crops have a resolutionof 192 × 192, 160 × 160, 128 × 128, 96 × 96 and scales(0.172, 0.86), (0.143, 0.715), (0.114, 0.571), (0.086, 0.429)on which we apply the strong-γ data augmentation.Evaluation protocol. We train a linear classifier for 90epochs on top of the frozen encoder with a batch size of1024 and a SGD optimizer with a momentum of 0.9. Theinitial learning rate is 0.1 linearly scaled and follows a co-sine annealed scheduler.We evaluated SCE at epochs 100, 200, 300 and 1000on the Top-1 accuracy on ImageNet to study the efficiencyof our approach and compare it with the state of the art inTab. 7. At 100 epochs, SCE reaches 72.1% up to 74.1% at1000 epochs. Hence, SCE has a fast convergence and fewepochs of training already provides a good representation.SCE is the Top-1 method at 100 epochs and is second bestfor 200 and 300 epochs proving the good quality of its rep-resentation for few epochs of pretraining.At 1000 epochs, SCE is below several state-of-the artresults. We argue that SCE suffers from maintaining a λcoefficient to 0.5 and that relational or contrastive aspectsUniGrad [46]10071.7UniGrad (+ Cut-Mix) [46]10072.3SwaV [5]20072.7AdCo [30]20073.2WCL [59]20073.3Truncated-Triplet [50]20074.1ReSSL [60]20074.7WCL [59]80074.7SwaV [5]80075.3DINO [6]80075.3UniGrad (+ Cut-Mix) [46]80075.5NNCLR [19]100075.6AdCo [30]80075.727120方法时期 Top-10SCE (我们的) 200 75.40表8：在ImageNet上使用多裁剪的线性评估协议下的Top-1准确率的最先进结果。SCE通过仅预训练200个时期而不是800+与最佳最先进方法具有竞争力。0在预训练的开始和结束时，λ的影响不同。一个潜在的改进是使用一个随时间变化的λ调度器。我们在SCE中添加了多裁剪，进行了200个预训练时期的训练。这样做可以提高结果，但在时间和内存方面代价高。它将结果从72.7%提高到我们的最佳结果75.4%（+2.7p.p.）。因此，SCE通过具有局部视图进行学习，并且它们应该保持关系以获得更好的表示。我们在表8中使用多裁剪将SCE与最先进的方法进行了比较。SCE与使用多裁剪训练800+个时期的最佳方法相比具有竞争力，准确率略低（-0.3p.p.），而没有使用多裁剪则更低（-0.5p.p.）。SCE比其他方法更高效，因为它在更少的预训练时期内达到了最先进的结果。04.4. 迁移学习0我们使用在ImageNet上获得的最佳检查点，以多裁剪设置进行200个预训练时期的训练，

下载后可阅读完整内容，剩余1页未读，立即下载