自我监督学习算法的效果优于其他自监督学习方法，提供了更好的视觉识别模型

124 浏览量更新于2023-09-28 收藏 1.21MB PDF 举报

均值漂移算法

图像聚类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10326自我监督学习Soroush Abbasi Koohpayegani 1，*Ajinkya Tejankar 1，*Hamed Pirsiavash1，21马里兰大学巴尔的摩分校2加州大学戴维斯分校摘要最新的自监督学习（SSL）算法通过对比图像的实例之间或通过对图像进行聚类，然后在图像聚类之间进行对比来学习特征。我们介绍了一个简单的均值漂移算法，学习表示通过分组图像到- gether没有它们之间的对比，或采用大部分的结构或数量的集群的先验。我们简单地“移位”嵌入每个图像，使其接近它的邻居的“平均值”的增加。由于最近邻总是同一图像的另一个增强，因此当仅使用一个最近邻而不是我们实验中使用的5个最近邻时，我们的模型将与BYOL相同。我们的模型达到72。4%的ImageNet线性评估与ResNet50在200epochs优于BYOL。此外，我们的方法优于SOTA的一个很大的利润时，只使用弱增强，促进通过SSL的其他方式。我们的代码可以在这里找到：https://github.com/UMBCvision/MSF1. 介绍大多数当前的视觉识别算法是受监督的，这意味着它们从大规模注释图像或视频中学习。然而，在许多应用中，标注过程可能是昂贵的、有偏见的、模糊的或涉及隐私问题。自监督学习（SSL）算法旨在从未标记的图像或视频中学习丰富的表示这种学习的表示可以与小的注释数据一起使用，以提供准确的视觉识别模型。我们有兴趣开发更好的SSL模型使用未标记的图像。一些最近的SSL模型通过对比图像实例来学习。它们将图像实例的不同增强拉在一起，同时将它们从其他图像实例中推开[23，11]。一些其他SSL方法将未标记的图像聚类到一组聚类中，希望每个聚类将包含语义相似的图像。*同等贡献年龄然后，预测这些集群的模型学习丰富的表示，类似于带有标签的监督学习[9，52，10]。这些聚类方法也可以被认为是对比学习，因为它们在图像的例如，深度聚类方法[9]中的SoftMax层鼓励将图像分配给正确的单个聚类而不是其他聚类。此外，大多数聚类算法对聚类的整体结构具有很强的先验。例如，使用欧几里得距离的深度聚类（k均值）鼓励球形聚类形状，我们认为这对于SSL方法的目的是不必要的。最近，BYOL [22]表明，可以在不对比图像实例的情况下学习丰富的表示。BYOL [22]的工作原理是简单地将图像的两个与MoCo相比，BYOL [22]的性能更好，这表明与其他图像的对比可能是一个限制性约束。例如，在MoCo [23]中，由于负图像是随机采样的，因此它们可能来自与查询相同的类别，从而导致降级的表示。[42]试图通过不把所有的否定都视为否定来解决这个问题。受均值漂移聚类的启发，我们将BYOL推广到一个简单而有效的SSL方法，其中数据点不仅被拉近其其他增强，而且被拉近其增强的最近邻居（NN）。与使用显式互斥聚类分配的DeepCluster [9]，SwAV [10]和SeLA [52]不同，我们的方法使用均值漂移算法，该算法在没有显式聚类分配的情况下将相似图像分组到本地。此外，与k均值聚类不同，均值漂移在聚类的形状、大小或数量上没有很强的先验。这使得均值漂移适合于SSL，其中这种先验是未知的。与MoCo [23]，SimCLR [11]，SwAV [10]和其他一些方法相比，我们的方法从未在不同图像甚至聚类中心之间进行对比。由于我们需要一个大的嵌入集来搜索最近的邻居，我们采用内存库的想法[23]来维护一个随机的嵌入集。此外，由于10327||||j=1- -图1：MSF方法：与BYOL类似，我们维护两个编码器（在线编码器用梯度下降更新我们将图像增强两次并馈送到两个编码器。我们将目标嵌入添加到内存库中，并在内存库中查找其最近的邻居。显然，目标嵌入本身将是第一最近邻。我们希望将输入图像的嵌入移向其最近邻居的平均值，因此我们最小化这些距离的总和。请注意，我们的方法只使用一个最近的邻居是相同的BYOL拉不同的扩增在一起，而不分组不同的图像实例。据我们所知，我们的方法是第一次在分组不同的图像实例之间的图像实例或集群没有对比。模型在学习过程中随着时间的推移而演变，存储库中的旧元素将不再有效，因此我们采用[23]中的动量思想来维护两个编码器（“目标”和“在线”）而不是只有一个。在线模型由损失更新，目标模型作为在线模型的移动平均值更新。我们将图像的两个不同增强馈送到这两个编码器，然后我们将图像的在线嵌入推到接近目标嵌入空间中图像的目标编码的最近邻居的平均值因此，与最近的SSL方法类似，我们的方法也使用了电感偏置，即增强不应过多地移动嵌入。我们的实验表明，我们的方法优于国家的最先进的方法在各种设置。例如，当在未标记的ImageNet上训练200个epoch时，它达到了72。4%的线性ImageNet精度，在200 epochs时优于BYOL。最近的SSL方法使用强增强来提高准确性，从而导致“增强工程”来提高SSL。然而，在许多应用中，例如，在医学领域中，设计这样的增强并不容易，并且需要广泛的领域知识。因此，设计SSL方法，不严重依赖于大的变化不需要工程上的强增强。2. 方法我们对均值漂移聚类感兴趣，因此在每个迭代中，我们希望鼓励模型将图像的嵌入移动到更接近其最近邻居在大型随机样本集上的平均值。遵循BYOL [22]的符号，我们假设目标编码器f和在线编码器g。这两个编码器具有相同的骨干架构，后面是投影层，并且同样初始化。在线编码器g之后是在其顶部上的附加预测层h。在线编码器g和预测层h通过反向传播损失来更新，而目标编码器f通过动量更新来更新为在线编码器g的运行平均值。由于最近的邻居需要大量的示例，因此我们维护了一个先进先出（FIFO）存储库[23]，其中包括来自缓慢演进的目标编码器f的最近嵌入。给定一个未标记的图像x，我们将其随机扩增两次以获得T1（x）和T2（x）。我们将它们馈送到编码器，然后用 2范数对其进行归一化，得到u=f （ T1（x））||2|| 2且v=h（g（T2（x）.我们先把u加到内存条增强是有趣的。我们证明了当只使用h（g（T2（x）2然后找出u的k个最近邻在存储器弱增广，我们的方法（MSF w/w）优于#21453;，以大幅度？我们假设NN充当查询图像的强增强的代理，因此存在以得到一组嵌入zjk。请注意，此集合包括你自己。由于我们知道它是同一输入图像的另一个增强，因此它应该是v的一个很好的目标。10328K22−−|| −|||| −||L=Σdist（v，z）图2：每个时期模型的最近邻（NN）：对于一个随机查询图像，我们展示了最近的邻居如何在学习时间演变。最初，NN在语义上并不十分相关，但在低级特征上接近。1-NN分类器在初始化时的准确率为1。5%，比随机机会大15倍（0. 1%）。这个小信号在我们的学习方法中并且产生最晚时期的NN，其在语义上与查询图像相关更多的可视化可以在阑尾最后，我们最小化以下损失：1王空军j=1其中，dist（.，. ）是两个嵌入之间的距离度量我们使用MSE损失（dist（a，b）=ab2）作为我们实验中最小化该损失等同于最大化余弦相似性，因为向量已经被2归一化。最终损失是所有输入图像的上述损失的总和理想情况下，我们可以对最近邻集进行平均，以得出单个目标嵌入，但由于平均取决于损失函数的选择，因此我们只需最小化距离的总和。注意，对于欧氏距离，两种方法产生相同的梯度。由于u本身包含在我们的NN搜索中，因此它将始终是最佳近邻。因此，我们的方法k=1将与BYOL相同，BYOL最小化v u2而不使用存储体。此外，在学习的初始阶段，v可能远离u，并且其他k1个最近邻居可能在语义上不同于查询图像。由于这些错误的邻居仍然靠近u，因此损失仍然会将v拉得更靠近u的邻居（v的另一个增强）。在学习的稍后阶段，当表示更成熟时，其他k1个邻居将在语义上相关并且将有助于学习，因为u和v已经彼此更接近。表2-右和图2显示，随着学习的进行，表示得到了改善。增强强度：在大多数基于范例的SSL方法中，增强起着重要的作用，因为主要的监督信号是增强不应该改变嵌入太多。因此，最近的方法，例如，MoCov2、SimCLR和BYOL使用强增强。我们相信，对目标嵌入u的这种积极的增强可能会增加学习过程的随机性，因为这些增强中的一些看起来不自然，所以最近的邻居在语义上不会接近查询图像。因此，我们对目标模型使用较弱的增强，以使u和z噪声较小，同时仍对在线模型使用较强的增强。我们将此称为弱/强（“w/s”）变化。这受到[40]的启发，[40]在半监督学习中使用弱增强这种变化导致在两个编码器都使用强增强的常规变化上几乎一个点的改进。如图4（右），最近邻在“仅弱”设置中更纯，这与我们上面的直觉一致。我们的实验表明，BYOL也在一定程度上受益于W/S这可能是由于更鲁棒的目标编码。最后，我们探讨了一个弱/弱的3. 实验我们在本节中报告了自我监督学习和迁移学习的结果我们使用PyTorch库进行所有实验。10329××记忆kNN kNN NN NN 20-NN传输大小时间GFLOPS是说1M6.78%1.0562.064.975.5128K0.72%0.1362.065.276.3表1：寻找NN的额外计算成本：对于通过每个ResNet50编码器需要4.14 GFLOPS，所以寻找NN增加了一个小的成本。请注意，任何使用存储器组的方法（如MoCo）都需要此额外成本。3.1. 自我监督学习均值偏移（MSF）：我们使用0。99，对于目标编码器的动量，top_k = 5和1。024M的内存库大小（与ImageNet数据集的大小大致相同我们的烧蚀研究表明，128K的记忆库不会降低结果。我们观察到，NN搜索增加的计算成本与整体向前和向后传递相比很小。我们发现，具有128K存储器组大小和512维的嵌入的MSF使用小于0.5GB的额外GPU存储器用于存储器组，并且小于1%的额外计算用于找到5个NN（参见表1）。BYOL-不对称（基线）：由于资源限制，训练超过200个epoch的SSL方法并不容易。例如，在四个RTX2080-Ti GPU上，使用ResNet 50训练BYOL200个epoch大约需要7天。因此，为了公平比较，我们在自己的框架中重新实现我们注意到并证明BYOL-asym和BYOL之间的主要差异。首先，我们使用非对称损失。原始BYOL论文[22]使用对称损失，其使图像的每个视图通过两个编码器。作为结果，梯度计算超过2其中B是批量大小，因此与不对称损失相比，每个时期需要两次计算。因此，BYOL不对称的200个时期应当与规则BYOL的100个时期进行比较。其次，我们使用256的小批量而不是4096。[22]表明BYOL即使在批量大小为256的情况下也能很好地第三，我们使用SGD优化器代替LARS。尽管存在这些差异，我们的实施工作合理以及在以前的工作中报告的结果相比。我们的MSF使用相同的设置来实现公平性。增强：在我们的所有实验中，“强”增强是指MoCov2中的增强[ 12 ]。强增强涉及以下随机操作：灰度、颜色抖动、水平翻转和高斯模糊。“弱”增强仅仅是大小为224 224的随机裁剪，其中面积比在0. 2和1. 0之后是概率为0的随机水平翻转。五、MSF w/s是指我们的和在线编码器视图增强与强大的增强。MSF w/w是指我们的“弱/弱”变体，其中教师和学生的观点都使用弱增强。BYOL-asym和MSF使用标准的SSL实践，用强增强来增强两个视图架构：我们通常遵循[22]的BYOL-asym和MSF的架构。我们使用ResNet50[24]在我们所有的实验中模型作为骨干投影层（2层MLP）被添加在主干的顶部上。第一层将特征通道从2048扩展到4096。然后是BatchNorm和ReLU层。最终的线性层将特征通道从4096减少到512。预测层架构与投影层相同，除了其第一层将通道从512扩展到4096。在预训练步骤之后，通过移除投影和预测层来评估在线编码器训练：对于 BYOL-asym 和 MSF ，我们使用 SGD（lr=0.05，动量=0.9，权重衰减= 1 e-4）优化器并训练200个epoch。学习速率使用余弦调度器。3.2. ImageNet评估完整ImageNet上的评估。我们通过训练线性和最近邻（NN）分类器来评估预训练模型的代表性。我们使用[5]提供的代码来训练这两个分类器。在冻结的主干上训练单个线性层。来自主干的特征被标准化为具有单位N2范数，然后被缩放和移位为每个维度具有零均值和单位线性层使用 SGD 进行训练（ lr=0.01 ，epochs=40 ， batch size=256 ， weight decay= 1 e-4 ，momentum=0.9）。学习率在15和30个时期乘以0.1。我们在训练过程中使用标准的监督ImageNet增强[2]。对于最近邻，我们使用中心裁剪（大小为256）增强来预处理训练和验证ImageNet集，并通过主干转发来计算2我们在表2中报告了线性，1-NN和20-NN分类器的ImageNet val集上的Top-1准确率。在较小的ImageNet上进行评估：与[25，11，22，5]类似，我们使用有限的ImageNet标签评估预训练模型的分类任务。训练细节与上述相同，除了训练数据集大小减少到Ima-geNet训练集的1%和10%[39]。结果报告于表3中。3.3. 迁移学习线性分类：按照[11，22]中概述的程序，我们在以下数据集上评估线性分类任务的自监督预训练模型：Food101 [8] 、 SUN397[49] 、 CIFAR10[29] 、CIFAR10010330†‡方法参考文献批量历元Sym.损失2x FLOPS前1位线性NN20-NN监督[4]美国256100-76.271.474.8随机初始化----5.11.52.0SeLa-v2 [52][10个国家]4096400✓67.2--[第11话][第十一届]40961000✓69.3--SwAV [10][10个国家]4096400✓70.1--[9]第九话[10个国家]4096400✓70.2--新加坡[13][13个国家]256400✓70.8--[23]第二十三话[13个国家]256400✓71.0--[23]第二十三话[12个]256800✗71.157.361.0CompRess† [5][五]《中国日报》2561K+130✗71.963.366.8表2：左：完整ImageNet上的评估我们使用ResNet50在完整ImageNet线性和最近邻基准上比较了我们的模型我们发现，给定类似的计算预算，我们的模型是优于其他国家的最先进的方法。我们的w/s变体比常规的MSF稍微好一点。有趣的是，当仅使用弱增强时，我们的方法（MSF w/w）以较大的幅度优于BYOL和SimCLR。我们相信这在一些应用中是重要的，例如：医学领域，增强工程并不容易。注意，具有对称损失的方法不能与其他方法直接比较，因为它们需要通过每个编码器两次馈送每个图像。这导致每个小批处理的计算量增加一倍。有人可能会说，非对称BYOL具有200个时期的对称BYOL应该与仅具有100个时期的对称BYOL进行比较，因为它们使用类似的计算量。注意，具有400个时期的对称MoCo v2与具有800个时期的不对称MoCo v2几乎相同（71. 0比71。①的人。请注意，ResNet 50的Random-init的准确率远低于AlexNet（来自[35]的conv 5层的14.1%）。：CompRess与它使用从更大的SSL教师模型（SimCLR-ResNet 50 x4）中提取的ResNet 50。：SwAV不具有可比性，因为它同时使用多种作物。右：MSF的逐时t-SNE：我们在MSF训练的某些时期对10个随机ImageNet类的2归一化特征进行可视化。我们发现，在训练期间，语义簇在特征空间中形成。[29]，汽车[28]，飞机[30]，鲜花[32]，宠物[36]，加州理工学院-101 [20]和DTD [15]。附录包括关于数据集和训练的更多细节。结果报告于表4。为了验证我们的实现，我们评估了[1]中提供的官方1000 epoch BYOL权重，并与表4中[22]的结果进行了比较。物体检测：按照[ 23 ]中概述的程序，我们使用Faster-RCNN [38]来执行PASCAL-VOC [ 19 ]上的对象检测任务。我们使用[3]使用默认参数。所有权重在trainval07+12集合上进行微调，并在test07集合上进行评估我们在表5中报告了5次运行的平均值。10331†‡--≈ingu本身），其具有与查询相同的类。通过平均所有样品的纯度来计算最终纯度可以研究在迭代期间逐渐增加k的效果作为未来的扩展。表 3 ：在小标记 ImageNet 上的评估：我们在 ResNet50 的ImageNet 1%和10%线性评估基准上比较了我们的模型。“微调”一栏考虑到类似的计算预算，我们的模型都优于其他国家的最先进的方法。我们用我们的评估框架评估BYOL和我们报告这些数字是为了进行公平比较。* 是从SimCLR-R50x4压缩的ResNet 50。使用不同的增强策略。是我们对官方权重的评估[1]。3.4. 消融研究。在这里，我们研究了MSF超参数和设计选择的影响，如增强策略，top-k和内存库大小。我们使用ResNet 50并用Im-ageNet训练它。在所有实验中，我们使用默认的MSF w/s变体，并且仅改变感兴趣的参数。两个编码器的实例视图相同：人们可能会争辩说，均值偏移分组和针对不同编码器使用相同实例的不同视图是正交思想，并且单独的均值偏移可能会起作用。我们通过向两个编码器（T1=T2）提供相同的增强视图它在第一个时代崩溃。因此，我们认为使用不同的观点仍然是一个重要的归纳偏见。top-k中k的影响：本节显示对不同的top-k最近邻进行采样的影响。我们使用来自集合2、5、10、20、50的k值。我们使用k=5进行主要实验，但k= 10将NN提高了0。5分。注意，设置k=1使得MSF与BYOL相同。结果见表6。此外，我们在图4中绘制了每个实验的纯度。单个查询的纯度是前k个最近邻中的样品2至k的百分比（不包括前k个最近邻）。图3：内存条大小：在ImageNet上，我们没有看到将内存库大小增加到128K以上的改进，这只需要0.5GB的GPU内存。存储体的大小CompRess [5]表明，大的存储体对于准确捕获嵌入空间中随机样本的邻域是重要的因此，我们从256到1M的存储器银行的大小不同，以评估是否更大的存储器银行可以帮助更准确率最近的邻居。结果在图3中。虽然我们的主要实验使用1M大小的内存库，但我们发现128K也同样有效。请注意，内存库的大小还取决于训练数据集的大小。不同增强策略的比较表7示出了具有不同增强策略的BYOL和MSF的结果。将“s/s”变体与“w/s”变体进行比较，我们发现BYOL从“w/s”变体获得非常小的提升，而MSF则持续提高1在所有三个基准点上。我们认为这是由于训练时最近邻的纯度更好（也如图所4（右））。此外，我们观察到MSF w/w显著优于BYOL w/w。这可以归因于最近的邻居充当强增强的代理4. 相关工作自我监督学习：自监督学习的目的是直接从数据中学习表示，而不使用任何手动数据注释。具体而言，基于数据中的固有结构设计借口任务，并训练模型来解决它。已经设计了各种文本前任务，其利用数据中的不同结构线索。在这里，我们专注于以下图像的借口任务：将每个数据点视为单个类以执行实例级分类[18]，预测补丁的相对位置[17，33]，填充图像中的缺失补丁[37]，从其灰度版本预测彩色图像[53，54]，对图像中的对象进行计数[34]，预测图像的旋转[21]，以及预测-方法微调历元Top-1百分之十Top-5百分之十监督✓25.456.448.480.4PIRL [31]✓800--57.283.8二氧化碳[47]✓200--71.085.7[第11话]✓100048.365.675.587.8InvP [46]✓800--78.288.7BYOL [22]✓100053.268.878.489.0SwAV† [10]✓80053.970.278.589.9[12]第十二话✗80051.563.677.686.1[22]第二十二话✗100055.768.680.088.6CompRess*[5]✗1K+13059.767.082.387.5[12]第十二话✗20043.658.471.282.9BYOL-对称✗20047.961.374.684.7ISD [42]✗20053.463.078.885.9MSF✗20053.565.278.186.4MSF w/s✗20055.566.579.987.610332−方法参考时代食品CIFAR CIFARSUN汽车飞机DTD宠物加州理工学院花卉平均值10110100397196101102监督[22日]72.393.678.361.966.761.074.991.594.594.778.9[第11话][22日]100072.890.574.460.649.349.875.784.689.392.674.0[12]第十二话-80072.592.274.659.650.553.274.484.690.090.574.2BYOL [22][22日]100075.391.378.462.267.860.675.590.494.296.179.2BYOL [22]众议员100075.492.778.162.167.162.076.889.892.295.579.2[22]第二十二话-20070.291.574.259.054.052.173.486.290.492.174.3[12]第十二话-20070.491.073.557.547.751.273.981.388.791.172.6MSF-20070.792.076.159.060.953.572.189.292.192.475.8MSF-w/s-20071.292.676.359.255.653.773.288.792.792.075.5MSF-w/s（128K）-20072.392.776.360.259.456.371.789.890.993.776.3表4：线性层转移学习评估：我们通过训练线性层来比较各种SSL方法在转移任务在类似的计算预算，我们表明，我们的模型是一贯更好或与其他国家的最先进的方法。只有一个线性层是在特征之上训练的。不使用列车时间增加。“代表”意味着我们使用我们的评估框架复制了结果，以便更好地进行比较。图4：纯度比较：理想情况下，我们希望所有k个最近邻居都来自与输入图像相同的类别，因此我们计算每个输入的正确邻居的百分比，将其平均到所有图像上，并将其称为纯度。我们排除了与u相同的第一个NN，因此精度超过k1个邻居。我们发现这个度量在训练时评估模型非常方便，因为它几乎是免费的。（左）示出了相对于历元数的不同k值的纯度，而（中）比较纯度对于k = 5，“w/s”变化与常规“s/s”变化的关系 “w/s”变化的纯度更高，这与我们的直觉一致。在（右）中，在我们的MSF w/s（top-k=10）模型的每个时期，我们使用仅弱（橙色）或仅强（蓝色）增强来计算目标编码器的纯度。我们看到强设置具有较低的纯度。这表明更强的增强使最近的邻居更吵。这与我们对w/s变化中的目标模型使用弱增强的直觉一致使用从聚类中获得的伪标签[9，52]。请注意，设计借口任务或增强本身仍然是手动的，需要领域知识。实例判别：最近，实例判别[ 18 ]的任务显示出了很大的希望。那个... 关键思想是将每个图像视为单个类。这是也称为对比学习，其中正样本（相同实例的增强视图）被推近和推离负样本（所有其它实例）。虽然[18]采用参数方法进行此分类，[48]采用非参数方法。非参数方法已被广泛采用，并取得了很好的结果[23，11，31，55，43，10]。这些方法的两个重要组成部分是：存储库（负样本的源）和扩充（构造正样本）。使用动量编码器在[23]中提出了填充存储体的方法。在[11]中对不同增强和超参数的影响进行在[10，11，44]中提出了改进的增强策略实例判别也可以从信息理论的角度来看，作为最大化单个图像的不同视图之间的信息的任务[26，45，6]。一致性正则化：虽然否定对被认为是防止表征崩溃的核心，例如歧视，[22]提出了一种方法，尽管不使用任何否定词，也不会崩溃。[22，13]中的目标简单地将同一图像的增强视图拉近，而没有与负样本的任何对比。这也被称为半监督学习框架中的一致性正则化[41]。受[22]的启发，我们提出了一种更一般的形式，10333†方法参考文献历元AP50APAP75辅助核算在[13个国家]-81.353.558.8划痕[13个国家]-60.233.833.1对称损失。2x FLOPSSimCLR[13个国家]20081.855.561.4MoCo v2[13个国家]20082.357.063.3BYOL[13个国家]20081.455.361.1SwAV[13个国家]20081.555.461.4SimSiam[13个国家]20082.457.063.7不对称损失。[12]第十二话80082.557.464.0InvP [46]80081.856.261.5[12]第十二话20082.457.063.6二氧化碳[47]20082.757.264.1BYOL-不对称-20081.956.863.5无国界医生-20082.256.763.4MSF，带-20082.256.663.1表5：将学习转移到PASCAL VOC对象检测：我们比较我们的模型上的对象determination的传输任务。我们发现，给定类似的计算预算，我们的方法是优于 BYOL 。模型在VOCtrainval07+12集上训练，并在test07集上评估。我们报告了超过5次运行的平均值。k=1k =2k =5k =10k =20k =50NN 55.861.062.062.562.061.520-NN 59.164.264.965.765.464.9表6：top-k中k的影响：我们的研究表明MSF对k不是很敏感。虽然k=10表现最好，我们报告的主要结果为k=5。注意，设置k=1使我们的方法与BYOL-asym相同。其中阳性也可以来自将类似图像分组在一起的样本的邻近区域。聚类方法：另一类基于聚类的方法已经显示出前景。基本思想是在聚类和学习表示之间交替[50，51]。这种方法首先在[17]中扩展到大规模预训练。这些方法中的一个大问题是防止所有表示崩溃为单个集群。为此，在[52]中提出了一种基于最佳传输的聚类公式在[10]中提出了一种基于[52聚类和实例区分：聚类方法可以看作是实例识别框架的推广。只有来自相同样本的视图在实例区分中可以是阳性的[18，48]，但是在基于聚类的方法中，聚类的所有成员（及其视图）都是阳性的[7，10]。一个更灵活的中间立场是，一组积极因素是基于表7：比较增强策略：在s/s中，两个视图都是强增强的，而在w/w中，它们是弱增强的。w/s是指针对目标视图的弱增强和针对在线视图的强增强与BYOL相比，w/s改进了我们的这可能是由于更纯的最近邻。在w/w设置中，MSF明显优于BYOL，因为最近邻可以很好地替代强增强。：使用4096批大小、300个历元和对称丢失。样本的局部邻域：[ 27 ]中样本的前k个最近邻居，[ 55 ]中样本的最近邻居也是同一聚类的成员，[ 46 ]中基于前k个图距离的邻居。我们的方法分享了这些工作背后的动机：嵌入应该局部地聚集在高密度区域周围。我们还使用前k个最近邻作为正[27，46]，但我们的方法从根本上不同，因为我们的方法中没有负数的概念直观地说，我们实施了一个更简单、更灵活的约束：在每次迭代中将每个样本移动到更靠近其最近邻的位置。这个想法是从Mean-Shift聚类[14，16]中得到的启发，其中每个样本的聚类分配被迭代更新为其最近邻居的平均值。与k-均值聚类相比，Mean-Shift不对聚类的形状进行强假设5. 结论我们介绍了一个简单而有效的SSL方法的基础上分组相似的图像在一起的在线时尚。我们简单地将图像的嵌入移向其最近邻居的均值。k=1的MSF与BYOL相同，因此MSF可以被视为BYOL的广义形式我们广泛的实验表明，与最先进的SSL方法相比，MSF在包括ImageNet线性评估在内的各种任务上表现更好或不相上下。鸣谢：本材料基于美国空军根据第1998/1999号合同部分支持的工作。FA 8750 -19-C-0098，由SAP SE资助，以及NSF资助号1845216和1920079。本材料中表达的任何观点、发现、结论或建议均为作者的观点，不一定反映美国空军、DARPA或其他资助机构的观点方法八月Top-1NN20-NNBYOL-对称S/S69.355.059.2BYOL-对称W/s69.555.859.1[22]第二十二话W/W60.1--MSFS/S71.460.664.0MSFW/s72.462.064.9MSFW/W66.354.657.410334引用[1] byol的代码和重量。https://github.com/deepmind/deepmind-research/tree/master/byol.[2] 官方pytorch监督imagenet训练代码。https://github.com/pytorch/examples/blob/master/imagenet/main.py。[3] moco的Pytorch实现：https://arxiv.org/abs/1911.05722。https：//github.com/facebookresearch/moco.[4] Torchvision模特。https://pytorch.org/docs/stable/torchvision/models.html。[5] Soroush Abbasi Koohpayegani 、 Ajinkya Tejankar 和Hamed Pirsiavash。Compress：通过压缩表示进行自我监督学习。神经信息处理系统的进展，33，2020。[6] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展，第15535-15545页，2019年[7] Miguel A Bautista 、 Artsiom Sanakoyeu 、 EkaterinaTikhoncheva和Bjorn Ommer。Cliquecnn：深度无监督范例学习。神经信息处理系统进展，第29卷。CurranAssociates，Inc. 2016年。[8] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年欧洲计算机视觉会议[9] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页[10] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。神经信息处理系统进展，第 9912-9924页。 Curran Associates ，Inc. 2020年。[11] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。[12] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[13] Xinlei Chen，Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv：2011.10566，2020。[14] 成义宗。均值漂移、模式搜索和聚类。IEEE模式分析与机器智能汇刊，17（8）：790[15] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。在计算机视觉和模式识别，2014年。[16] Dorin Comaniciu和Peter Meer。Mean Shift：A RobustApproachTowardFeatureSpaceAnalysis.IEEETransactionsonPatternAnalysisandMachineIntelligence，24（5）：603-619，2002。[17] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE InternationalConference on Computer Vision的Proceedings，第1422-1430页[18] Alexey Dosovitskiy ， Jost Tobias Springenberg ， MartinRied-miller，and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。在Advances in neural informationprocessing systems，第766[19] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[20] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。从几个训练示例中学习生成视觉模型：一个递增贝叶斯方法测试101对象类别。计算机视觉与模式识别研讨会，2004。[21] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在2018年学习代表国际会议[22] Jean-Bastien Grill ， Florian Strub ， Florent Altché ，CorentinTallec ， PierreHRichemond ， ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham-mad Gheshlaghi Azar，etal. Bootstrap你自己的潜在：一种自我监督学习的新方法。arXiv预印本arXiv：2006.07733，2020。[23] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页[24] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecog

下载后可阅读完整内容，剩余1页未读，立即下载