分而治之：无策数据的自监督学习

138 浏览量更新于2023-10-13 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10063分而治之：无策数据的自监督学习田永隆MITOl i vierJ. 他没有DeepMindAaron van denOord摘要自监督学习有望利用大量未标记数据，但迄今为止，其大部分进展仅限于高度策划的预训练数据，如ImageNet。我们探索了的对比学习，从更大的，较少策划的图像数据集，如YFCC，并发现确实有一个很大的差异，在所得的表示质量。我们假设，这种策展差距是由于图像类别的分布变化-这是更加多样化和重尾-导致相关的负面样本学习。我们测试这一假设与一种新的方法，划分和对比（DnC），它交替之间的对比学习和基于聚类的硬负面挖掘。当在较少策划的数据集上进行预训练时，DnC极大地提高了下游任务上的自监督学习的性能，同时与策划数据集上的当前最先进技术保持竞争力。1. 介绍自我监督学习的最新发展表明，可以从未标记的图像中学习对象类别的高级表示[39，43，88，12，97]，从语音中学习语音信息[69，79]以及从原始文本中学习语言理解[21，101]。自监督学习中研究最多的基准是Ima-geNet [20]，其中从未标记图像学习的表示可以在数据效率和迁移学习性能方面超过监督表示[13，34]。ImageNet上的自我监督学习的一个警告是，它不是完全“自我监督”的。ImageNet的训练集（在其上学习表示）是经过严格策划的，需要大量的人力来创建[20]。特别是，ImageNet包含许多细粒度的类（例如细微不同的狗品种），每个类包含大致相同数量的图像。虽然这种一致性可以促进高级视觉表示的学习，但将自我监督学习限制在此类策划的数据集上可能会使其发展出现图1.使用ResNet-50在ImageNet上对从大规模未策展数据集学习的表示进行线性评估。分割和对比（DnC）能够更好地处理图像的多样性和长尾分布，并且随着训练时间的延长而改善得更多。X轴表示ImageNet等效时期的总计算这些方法需要这种一致性，限制了它们对更多样化的下游任务和更大的预训练数据集的适用性。在本文中，我们评估了最近的自监督学习方法在下游任务（包括ImageNet）上的表现，当它们在明显较少的策展数据集上进行预训练时，例如YFCC100M[87]。我们观察到，使用当前最先进的自监督学习训练的ResNet50模型的性能下降了9%以上（从74.3%下降到65.3%）。我们假设这种策展差距是由于在野外收集的图像的重尾性质，这些图像呈现出更加多样化的内容，打破了以前数据集中利用的全局一致性。我们使用一种新方法Divide and Contast（DnC）来测试这一假设，该方法试图在较大的未策划数据集的子集中恢复局部一致性，使得自监督学习方法可以学习特定于每个子集的高级特征。我们发现，这样的语义一致的子集可以直接通过聚类的标准自监督模型的表示得到划分和对比（DnC）通过在每个子集上训练单独的10064一个单一的模型。因此，DnC可以与任何自监督学习技术结合使用，并且需要相同的计算量，因为每个专家的训练时间明显更少最后，这种计算是并行的，允许它扩展到大规模的数据集。本文其余部分的结构如下。我们首先回顾自监督学习的相关工作。然后，我们提出了一种新的更强的基线（MoCLR），其改进了当前的对比方法，与当前最先进的（BYOL [34]）的性能相匹配。接下来，我们将介绍主要方法Divide and Contrast，以及如何将此模型与任何SSL方法一起使用。在实验中，我们评估了支持DnC的不同假设，并比较了它从不连续数据集学习的能力与现有方法。2. 相关工作最近的自监督表示学习通常包括三种类型的方法：生成模型直接模拟数据分布，根据数据手动设计的任务，以及对比正对与负对的对比学习。生成模型。虽然诸如GAN [30，14]或VAE [50]的生成模型的主要目标是对数据分布（例如，采样新数据或估计可能性），编码器网络也可以提取良好的表示[76]。用于表示学习的最新技术生成模型包括BiGAN[24]和BigBi-GAN [25]，其学习潜在代码和图像之间的双向映射，以及iGPT [11]，其在原始像素上训练自回归模型。Pretext任务。好的表征也可以通过解决各种借口任务来学习。示例包括去噪[93]、相对补丁预测[22]、图像修补[73]、噪声预测[5]、着色[107，108，94]、拼图[68]、范例建模[26]、运动分割[72]、图像变换预测[29 ， 106]、跟踪 [96]，或者甚至多个任务的组合[107，108，94]。23]。另一种方法通过聚类特征来生成伪标签[8，9，46，105，1]。最近，SeLa [102]联合聚类图像并平衡聚类。SwAV [10]通过将同一图像的不同视图分配给同一集群来学习表示另一项工作[45]通过将聚类与元学习相结合来直接优化表示的可转移性对比学习。对比学习是一种广泛使用的通用学习方法.对比学习的损失函数已经从早期的基于边缘的二进制分类[36]发展到三重损失[80]，以及最近的k对损失[82，69]。最近一系列自我监督对比学习方法的核心思想[97，69，43，88，113，3，39，64，12，15，90，13，55，7]最大化同一图像的两个“视图”之间的一致性这样的视图可以通过颜色分解[88]、补丁裁剪[69，43，3]、数据增强[12，13，83]、或图像分割[42，92，109]。事实上，对比学习是非常普遍的，因此它可以很容易地适应不同的数据类型。示例包括不同的视频帧[69，112，81，37，31，38]、点云[100 ]、多个点云[101]、多个点云[102]、多个点云[103]、多个点云[104]、多个点云[105]、多个点云[106]、多个点云[107]、多个点云[108]、多个点云[109]。ple sensor data [65，18，74]，text and its context [63，101，59，51]，或视频和语言[84，62，56]。一组其他工作[2，90，110，99，91，75，95]侧重于提供对比学习的经验和理论理解。最近，一种非对比方法BYOL [34]将动量编码器应用于一个视图，并从另一个视图预测其输出，其灵感来自自举RL [35]。最后，对比学习也被应用于监督图像分类[48]，图像翻译[70]，知识蒸馏[89，77]和对抗学习[49]。本文也涉及知识蒸馏[44]。在[44]中，几个专家模型也在大规模数据集上并行训练，然后提炼成一个模型。虽然在[44]中假设标签可用于划分数据集并提取到单个模型中，但我们正在处理没有监督的自监督学习。我们的蒸馏程序也受到FitNet的启发[78]。最后，虽然在未策展数据集上的自监督表示学习在很大程度上尚未探索，但有一些先前的尝试[9，33]。在[9]中，聚类被应用于生成训练目标，并且为了捕获未策划的YFCC100m [87]中图像的长尾分布，提出了分层公式。[33]在大规模环境中基于预文本的基准自监督方法的工作，例如，JigSaw，彩色化和旋转预测，并发现这些借口任务不够“硬”，无法充分利用大规模数据。并行工作SEER [32]直接用更大的模型和数据集扩展SwAV。3. 划分与对比虽然划分和对比可以与任何自监督学习技术结合使用，但在本文中，我们将其与最新的最先进的技术（BYOL，SimCLR，MoCo）相结合，以便该模型可以与强大的基线进行比较，并使实验与文献中的最新发展相关。我们将从介绍我们的基线MoCLR开始，MoCLR是基于BYOL [34]、SimCLR [12]和MoCo [39]的简单混合，并且作为对比方法优于Sim-CLR v2[13]，实现与BYOL类似的性能（通过使用类似于BYOL和 MoCo 的动量编码器）。尽管 DnC 可以与BYOL结合，但根据经验，我们发现它与使用对比损失的方法一起工作得更好。10065TTpüqpüqpüqB|B|řrrLL我LJT1T“TT1. 列车基础模型&集群表示2. 在子集上训练专家模型3. 蒸馏ans训练图像图2.划分和对比（DnC）概述。DnC可以与任何自监督学习方法结合使用（我们使用MoCLR，对SimCLR的改进）。在第一步中，在整个数据集上训练自监督学习方法，我们称之为基础模型。然后用k均值将基本模型的图像表示聚类成5、10或更多个组。在第二步骤中，然后使用聚类的数据集来在每个图像聚类上训练专家模型。在第三步中，通过预测专家和基本模型的表示，将其提炼成单个模型。通过将数据集分割成语义相似的子集，对比方法需要更多地关注这些集群中图像之间的差异，并学习更具体的表示。3.1. 一种改进的对比基线：MoonlightMoonlight大致使用与Simonlight和BYOL类似的设置，我们将简要描述此设置的主要组件并突出显示差异。表1.评估MoCLR基线，其用于所提出的划分和对比（DnC）模型。该比较基于ImageNet线性分类基准。MoCLR是一种对比方法，它实现了与BYOL相似的性能，同时只需要对SimCLR进行很小的更改（参见第3.1节）。增强两个视图。给定图像x和两个分布通过分别应用来自这些分布的随机图像增强t和t11，创建了两个视图vΔt x和v1At1x增强和这与BYOL中的完全相同[34]。架构第一增强视图v被馈送到在线编码器f中，随后是MLP投影头g以产生投影z。类似地，在线编码器和投影头（也称为动量编码器[39]或平均教师[86]）的指数移动平均值被应用于第二视图v1以生成z1。MLP头由两层组成，隐藏尺寸为4096，输出大小为256，类似于BYOL [34]。损失函数给定一个批次，我们使用余弦相似性函数s和标量温度值τ来跟踪InfoNCE损失[69]：方法历元前1前5[12] 1000 69.3 89.0SimCLR v2 [13] 1000 71.7 90.4MoCo v3 [16] 800 73.8-BYOL [34] 1000 74.3 91.6MoCLR（我们的）1000 74.3 92.2而不是均方预测损失。虽然并发工作MoCo v3 [16]从BYOL继承了不对称的在我们的实验中，我们将批处理大小设置为4096，并且不使用内存缓冲区[97，88，39]。正如我们将要展示的在我们的实验中，通过这些简单的改变，我们的Mo-LNCEiPBespzi，ziiq{τ日志espzi，ziq{τ'espzi，ziq{τ（一）经过1，000个epoch训练的CLR基线优于Sim-CLRv1/v2[13]，并且与BYOL [34]相当，参见表1。我们通过分别将v1馈送到在线网络并将v馈送到动量编码器来对称化损耗NCENCE。最后的损失是NCENCE。MoCLR与其他标准方法的区别如下。与Simplified[12]相比，我们使用了动量编码器，并将投影头的大小增加了一倍（隐藏层从2048增加到4096，输出层从128增加到256）。与BYOL [34]相比，我们删除了预测器头并使用con。3.2. 划分与对比Divide and Contrast背后的动机是，当在不同的大规模数据集上进行训练时，如果我们从整个数据集中随机采样，则信息性否定的密度将是稀疏的。相反，如果我们在语义相似的类之间进行局部对比，则采样的否定将提供更多信息，并且学习的模型将捕获更具鉴别力的表示。如图2所示，DnC模型的训练K-me编码器预测基模型预测专家聚类图像jPB{i10066MSE256MBN2562048蒸馏模型专家püq`p¨qpüqpüq"“22ReLUBN4096L2-也不BN2562048图3.详细的架构概述专家的功能的升华蒸馏模型和专家被应用于相同的增强图像视图。包括三个阶段：(1) 我们首先在给定的数据集上训练MoCLR模型N1个时期（尽管也可以使用其他自监督学习方法）。我们称之为基础模型。我们使用基本模型来提取训练集中一组样本的表示，并将它们聚类到K个聚类中。通过这些聚类，我们将数据集划分为K个子集。(2) 对于每个子集，我们从头开始训练一个单独的MoCLR模型，我们称之为专家模型。在这个阶段中，我们将N2个时期（在整个数据集上测量）的总计算预算分配给这些专家模型，与其相应的聚类大小成比例。(3) 最后，给定一个捕获数据集的一般知识的基础模型和专注于局部相似类别的专家模型，我们将这些模型中的知识提取到一个蒸馏模型中。在这个阶段，我们训练了N3个epoch。基本模型、专家模型和蒸馏模型的编码器架构都是相同的。因此，可以通过对所有三个阶段的训练时期进行求和来粗略地测量计算足迹，从而得到N1N2N3个时期的总训练（除了我们稍后讨论的蒸馏期间的聚类开销和额外的前向传递之外）。3.3. 蒸馏为了利用每个不同专家学习到的信息和来自基础模型的更一般的信息，我们在训练的最后阶段将它们的表示提取到一个模型中。在蒸馏过程中，我们使用单个增强图像（而不是2视图设置）结合简单回归损失来预测表示。在这些模型中（没有对比损失）。蒸馏模型它们都具有主干编码器f和MLP投影头g。在蒸馏模型中的投影头的顶部，存在K 1回归网络：rk，k 1，.，一个用于预测K个专家模型中的每一个，另一个回归网络rb来预测基础模型。这些回归器的架构与投影头相同，除了我们在最后一个输出层之后删除了最终的全局BatchNorm。对于蒸馏，我们使用与自监督学习期间相同的增强。给定具有聚类idk的增强输入图像x，我们将其馈送到蒸馏模型中以产生投影头输出z。类似地，我们分别从基本模型和第k个专家模型得到zb和zk。我们还将zb和zk进行2-正规化，使之成为单位范数.然后，蒸馏目标是两个均方误差的平均值：1 1Lpxq注意，rb和rk的输出不是2归一化的。为了能够在训练的时期数量方面与我们的基线方法进行比较，我们使用来自同一输入图像的两个增强视图并平均其损失。否则这不是必需的，并且可替代地，还可以增加批量大小。该阶段中的计算成本略高于自监督学习阶段（例如，BYOL和MoCLR），因为现在每个视图有两个正向通道（用于专家和基础模型）（而不是反向通道和梯度计算）。相比之下，BYOL和MoCLR仅需要来自动量编码器的一个然而，我们发现，总是将中心裁剪提供给expert和base模型只会导致性能非常轻微的下降（而不是增强视图）。这种策略提供了首先在数据集上进行单个前向传递并离线存储激活的可能性4. 实验在本节中，我们通过在两个大规模未策展数据集上进行预训练并评估不同下游任务的传输性能，将DnC与BYOL和MoCLR进行比较。数据集。我们考虑两个大规模的无策展数据集。第一个是大约 3 亿张图片的私人数据集（ JFT-300 M[85]）。对于第二个数据集，我们使用YFCC100M[87]，这是一个包含9500万张Flickr图像的公共数据集，可在知识共享许可下使用。图4和图5示出了来自ImageNet 和 YFCC100M 的图像之间的视觉比较ImageNet图像通常在图像的中心包含ImageNet也不具有长尾分布（例如，投影头回归头池化ResNet功能ReLUBN4096ReLUBN409610067“图4. ImageNet图像示例图5. YFCC100M图像示例幂律），但仅考虑1000个不同类的特定集合，其在数据集中（大致）相等地表示。因此，特定对象或动物（例如，普通丁鱼，贝灵顿梗。. . ）与更典型地发生的场景（诸如人脸和风景（其在YFCC100M中更好地表示）相比被设置. 除非另有说明，否则在所有实验中使用ResNet-50 [41]。为了便于比较，我们报告了ImageNet中所有实验的计算足迹 - epoch 等效值（例如，1“epoch”1281167批次大小迭代）。更多的实施和优化细节包含在附录中。表2.我们考虑DnC的三种不同的训练时间表。指定每个阶段中的总训练时期的数量以及集群的数量时间表基地历元专家总历元蒸馏历元1,000个纪元200600（5组）2003,000个纪元1,0001，500（5组）5004,500个纪元1,0003，000（10组）500DnC时间表。表2示出了具有不同数量的时期的三个训练时间表。例如，在3,000个epoch的时间表中，我们首先训练基础模型1,000个epoch，然后将样本聚类为5组。5名专家在这些子集上并行地接受训练。我们总共使用了1,500个时期，根据每个集群中的图像数量分布在专家身上（每个专家平均300个）。然后，蒸馏模型被训练500个时期。参见章节？？用于分析运行时间。4.1. ImageNet和Places-365的线性评估表3显示了在YFCC 100 M和JFT-300 M上预训练并在ImageNet和Places-365 [111]上测试的模型的结果，具有线性评估，即特征被冻结并且线性分类器被训练。对于JFT-300 M表3.在未经策划的数据集YFCC 100 M和JFT-300 M上预训练的自监督学习方法的比较。为了评估，在ImageNet和Places上训练线性分类器365.计算是以ImageNet等效的epochs来衡量的。方法拱ImageNet预训练地点365#epochs Top-1访问Top-1访问在IG 1B图像上培训的并行工作：SEER [32] R-50 <1，000 61.6-R-101 〜 1，000 65.8-YFCC100M的前期培训MoCLRR-501，000R-200x2结果也在图1中显示。在ImageNet线性基准测试中，我们看到与ImageNet上的预训练相比，性能大幅下降（表1）：BYOL-1 k为-9.0%，-7.3%，MoCLR-1 k为-9.2%，-7.7%，显示了从未经策划（和更多样化）的数据中学习表示的难度在这些实验中，DnC总是使用MoCLR-1 k进行聚类，并使用剩余的预训练时期进行专家训练和提取。因此一个很好的比较是与MoCLR训练更长时间（从头开始）。对于3，000次训练，MoCLR-3 k在YFCC100 M和JFT-300 M上分别比MoCLR-1 k提高了+0.6和+0.8，而DnC-3 k提高了+2.7和+3.2在Places-365上，我们看到了类似的相对改进。我们还包括BYOL-3 k的完整性，并再次看到BYOL的长期培训的小改进。对于更长的时间表（4，500 - 5，000个历元），我们注意到YFCC 100 M和JFT-300 M上的类似行为。此外，当使用ResNet-50时，我们看到DnC显著优于当前的努力SEER [32我们进一步用更大的模型（即，ResNet-200与BYOL1,00065.352.9MoCLR3,00065.753.2BYOL转轴-503,00066.652.9DNC3,00067.854.1MoCLR5,00066.153.5BYOL转轴-505,00067.053.2DNC4,50068.554.4关于JFT-300 M的预培训：MoCLR 1，00066.652.1BYOL转轴-501,00067.051.9DNC1,00067.952.5MoCLR3,00067.452.5BYOL转轴-503,00067.652.4DNC3,00069.853.3MoCLR5,00067.652.4BYOL转轴-505,00067.952.4DNC4,50070.753.5具有较大ResNet：MoCLR3,00074.254.6DNC3,00077.356.210068YFCCJFT-300M表4.迁移学习实验。我们评估了在ImageNet，YFCC 100 M和JFT-300 M上使用线性分类器预训练的12个下游分类任务的模型：Food-101 [6]，CIFAR-10/100 [54]，Birdsnap [4]，SUN 397 [98]，斯坦福汽车[53]，FGVC飞机[61]，PASCAL VOC 2007 [27]，可描述纹理（DTD）[19]，Oxford-IIIT Pets [71]，Caltech-101 [28]和Oxford 102 Flowers [67]。表5.微调用于迁移学习实验的预训练模型，包括COCO数据集上的对象检测，Pascal VOC 2012上的语义分割，以及NYU v2数据集上的深度估计对于rms和rel的评估指标，越低越好。COCO检测APbbAP bbAP bb50 75COCO实例段。APmkAP mk50 75PASCAL seg.NYU v2深度估计Miou1.251.252 1.253rmsrelÓImageNet Super.39.560.143.335.456.938.174.481.195.398.80.5730.127BYOL-5k41.162.045.136.658.638.975.583.596.499.00.5580.130MoCLR-5k40.861.744.836.658.539.075.186.797.499.30.5030.117DnC-4.5k41.562.545.637.059.339.676.686.297.299.30.5120.121BYOL-5k40.661.244.336.258.138.875.884.496.599.00.5440.129MoCLR-5k41.162.045.436.958.939.576.186.397.299.30.5130.120DnC-4.5k41.762.545.937.259.339.876.986.197.299.40.5090.119宽度乘数为2）并且观察到DnC优于MoCLR+3.1。4.2. 迁移学习在本节中，我们考虑将冻结表示用于细粒度线性分类以及针对不同下游任务进行微调。细粒度线性分类。在Sim- CLR[12]和BYOL [34]之后，我们进一步对12个分类数据集（由[52]引入）进行线性分类评估，以评估学习的表示是否在不同的图像域中是通用的（更多细节请参见第？）.如表4所示，当在YFCC 100 M或JFT-300 M上进行预训练时，DnC显著且持续地优于BYOL和MoCLR。检测、分割和深度估计。在表5中，我们评估了三种不同微调任务的表示：（1）对于COCO [ 58 ]上的对象检测和实例分割，我们使用具有1x调度的FPN [ 57 ]来训练标准Mask-RCNN [40]，即，12个时期;（2）对于VOC 2012上的语义分割，我们使用了与[39]中相同的FCN [60];（3）对于NYU-v2数据集[66]上的深度估计，设置与[34]相同。在所有三个任务中，DnC都显著优于ImageNet监督的预训练，例如对于检测，APbb中为+2.2，APmk中为+1.8，对于分割，mIoU中为+2.5，对于深度预测当转移到PASCAL和COCO任务时，DnC也显著优于两个自监督基线，并且与MoCLR表现相当，同时在深度估计方面优于BYOL。有关更多实施细节，请参阅第？？节。附录中;迁移学习的完整结果包含在第？？节中。.5. 假设与分析划分和对比（DnC）方法取决于两个主要假设。第一个假设是，强大的自监督学习模型的聚类活动应该为我们提供局部一致的图像聚类（例如，具有相似的类标签）。第二个是，与相似（但不同）的对象类别进行对比允许自监督方法学习更细粒度的、有区别的表示。我们经验评估这些假设孤立。接下来，我们将DnC与ImageNet上当前最先进的方法进行比较，看看它在标准（策划）数据集上的表现如何，并分析DnC的设计选择。5.1. 聚集表示是对象类别我们的第一个假设是，集群的自我监督表示是语义上有意义的。为此BYOL-5k 69.1 85.8 66.835.564.1 50.151.982.5 74.5 74.087.695.8 69.8MoCLR-5k 68.4 87.6 69.7 30.5 63.9 41.0 46.7 82.4 76.2 68.5 86.0 93.0 67.8DnC-4.5k72.1 88.0 71.1 35.5 67.2 52.649.283.7 76.5 75.987.097.8 71.4BYOL-5k 73.3 89.8 72.4 38.2 61.8 64.454.481.3 75.5 77.0 90.1 94.3 72.7MoCLR-5k 72.8 90.7 72.5 33.8 62.2 60.6 50.9 81.9 75.3 75.8 89.5 93.8 71.7DnC-4.5k78.7 91.7 74.9 42.1 65.0 75.354.183.1 76.6 86.1 90.2 98.2 76.3JFT-300MYFCC10069ˆ表6.使用Top-1准确度和互信息（MI）与类标签评估来自自监督学习方法的聚类表示使用具有1000个质心的k均值对每种方法的表示为了计算Top-1准确度，每个聚类都被映射到该聚类中图像的最频繁类别标签。方法层尺寸Top-1访问MI池204830.15.64SimCLR [12]隐藏204833.35.83输出12831.85.68池204839.96.23BYOL [34]隐藏409651.06.99输出25650.06.78池204840.16.26MoCLR（我们的）隐藏409651.67.19输出25649.87.11我们使用k-means对ImageNet上训练的各种自监督学习方法的表示进行聚类。具体来说，我们考虑来自三个不同层的表示：紧接在平均池化之后的池层、投影头的隐藏层和最终投影。我们从1000路聚类开始，并通过简单的多数投票将每个聚类分配给单个ImageNet类，以衡量Top-1准确性。我们还测量了聚类分配和类标签之间的互信息表6给出了这些结果的概述。特别地，这些方法可以令人惊讶地很好地对来自相同类别的图像进行分组，其中一些表示实现了超过50%的Top-1聚类准确度。我们还注意到，隐藏层对于所有方法都表现最好，因此在DnC方法中使用该层进行聚类。为了给出具有较少数量的集群的正交视图，图6绘制了ImageNet的DnC 模型中使用的5个集群（基于MoCLR ResNet- 50的集群定性地，看起来类的组被联合地分配到相同的集群。事实上，每个类别中属于同一聚类的图像比例为87.4%，进一步证明了各个聚类在语义上是一致的。5.2. 语义相似数据子集的训练DnC基于第二个假设，即在来自相似对象类别的图像子集上训练对比方法特别受益于此过程，因为区分阳性样本与来自附近类别的阴性样本可能需要学习更细粒度的特征（类似于硬阴性挖掘[80，47]）。另一方面，它可能会hin-表7.在ImageNet的Canine子集上评估的线性分类（130个类）。特征提取模型在ImageNet（Full）或犬图像的子集上进行预训练，而不使用任何标签。所有的计算都是以“全图像网”时期来报告的。我们报告了相对于在完整数据集上训练1,000个epoch的性能差异。尽管仅用犬模型训练的梯度更新少了5次，但它们在很大程度上优于在完整数据集上训练的自监督学习模型。我们还观察到，对比方法（SimCLR，MoCLR）受益最大。方法预训练数据集历元Top-1访问SimCLR充分20067.4BYOL充分20070.7MoCLR充分20068.7SimCLR充分1,00069.4BYOL充分1,00076.5MoCLR充分1,00075.3SimCLR犬10072.8（+3.4）BYOL犬10076.0（-0.5）MoCLR犬10076.1（+0.8）SimCLR犬20074.1（+4.7）BYOL犬20077.3（+0.8）MoCLR犬20077.5（+2.2）通过绘制过于相似的阴性样本来降低性能，包括更多的假阴性[17]。为了孤立地测试这个假设，并更好地直观地理解我们的方法，我们在属于犬科动物的ImageNet类的子集上训练了各种自监督学习模型（包括狗，狼和狐狸，总共130个类），并将它们与在完整数据集上训练的模型进行比较。对于所有模型，我们在仅犬科动物子集上训练线性分类器，并在犬科动物子集的验证图像上进行评估从表7可以看出，预训练的模型在犬子集上训练的ImageNet的表现明显优于在整个ImageNet数据集上训练的ImageNet，即使它们需要学习的图像明显较少，并且训练时的计算量也少了5？。5.3. ImageNet结果尽管我们的主要目标是改进未策划数据集上的自监督学习，但我们询问它是否在ImageNet等大量研究的数据集上仍然具有竞争力。从表8中我们看到，训练基线MoCLR 2,000多个时期并没有使结果改善太多（+0.2）。另一方面，DnC令人信服地优于基线（+1.3）。有趣的是，当给出1,000个时期的计算预算时，DnC甚至稍微优于MoCLR或BYOL。尽管DnC针对的是未策展的数据集，但5.2节中关于ca- nine子集的先前结果表明，即使在ImageNet10070上，它也可能是10071图6. DnC中使用的5路ImageNet聚类的可视化。对于每个ImageNet类，我们计算属于每个聚类的图像的比例。为了更好地可视化，X轴按聚类排序。从图中可以清楚地看出，每个类别中的大多数图像属于单个聚类。每个类别中属于同一聚类的图像的比例为87.4%。这有利于从更相似的类别中得出否定表8.在ImageNet线性评估基准上与BYOL和Moonlight进行比较，训练预算为1000和3000 epoch。使用ResNet-50报告Top-1准确度。方法1000 epochs 3000 epochs∆表10.消融DnC中使用的专家：我们注意到，如果专家模型是在整个数据集（集合）或随机子集上训练的，则性能会大幅下降。5.3.1半监督学习表11.评估在蒸馏过程中要预测的模型基础模型本地专家使用center-crop Top-1访问✓74.5我们评估了DnC在ImageNet训练集子集上进行微调时的性能。遵循半监督协议[52，104，12，34]，我们使用相同的分割1%和10%的ImageNet数据，如[12，34]所示。如表9中所示，DnC 始终优于BYOL、SwAV 以及MoCLR 和Barlow Twins。表9.按照[12，34]的协议使用ImageNet标签的一部分的半监督结果编码器是ResNet-50。前5名方法标记分数标记分数百分之一百分之十百分百百分之一百分之十百分百SimCLR [12]48.365.676.075.587.893.1BYOL [34]53.268.877.778.489.093.9SwAV [10]53.970.2-78.589.9-MoCLR53.068.877.479.189.694.0巴洛海峡[103]55.069.7-79.289.3-DNC五十九点九 71.1 78.2 83.0 90.4 94.25.3.2消融我们提供了用于分离使DnC起作用的因子的进一步实验，如表10所示。如果我们在完整数据集而不是子集上训练专家模型（类似于集合），但具有相同的计算预算，则结果模型实现与基础模型相同的性能（没有改进）。或者，拆分数据集分区接受培训的专家Top-1访问DNC聚类本地分区75.8- 当地专家-全数据集74.3- 聚类随机本地分区73.1BYOL74.373.9-0.4MoCLR74.374.50.2DnC（我们的）74.575.81.310072✓75.2✓ ✓75.8✓ 75.6随机分组会损害最终性能，这表明了所使用的聚类的重要性。在表11中，我们研究了蒸馏过程，表明回归到基础模型和实验值两者是重要的。如3.3节所述，使用中心裁剪而不是增强视图不会对性能造成太大影响。6. 结论在本文中，我们研究了最先进的自监督学习方法在未经策划的数据（不需要人类注释或标签来创建的数据集）上进行预训练时的表现，作为迈向完全自监督学习的一步。我们已经观察到，当在这些未经策划的数据集上进行预训练时，当前方法遭受高达〜 9%的性能大幅下降。为了缓解这个问题，我们提出了Divide and Contrast（DnC），它需要对现有的自监督学习方法进行一些简单的改变，并且在很大程度上超过了未策划数据集上的最新 SSL 方法，并且在ImageNet上实现了类似或更好的性能。我们希望这项工作能够引起更多的关注，将未计算的数据集作为自监督学习的基准。10073引用[1]HumamAlwassel、 DhruvMahajan 、 LorenzoTorresani、Bernard Ghanem和Du Tran。跨模态音视频聚类的自监督学习。arXiv：1911.12667，2019. 2[2]Sanjeev Arora，Hrishikesh Khandeparkar，Mikhail Kho-dak，Orestis Plevrakis，and Nikunj Saunshi.对比无监督表示学习的理论分析。arXiv：1902.09229，2019。2[3]Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化视图间的相互信息来学习表示。arXiv：1906.00910，2019。2[4]Thomas Berg，Jiongxin Liu，Seung Woo Lee，MichelleL Alexander，David W Jacobs，and Peter N Belhumeur.鸟快照：对鸟类进行大规模的细粒度视觉分类。CVPR，2014。6[5]Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督学习。arXiv：1704.05310，2017。2[6]Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年，在ECCV。6[7]Yue Cao，Zhenda Xie，Bin Liu，Yutong Lin，ZhengZhang，and Han Hu.用于非监督视觉特征学习的参数化实例分类神经IPS，2020年。2[8]Mathilde Caron ， Piotr Bojanowski ， Armand Joulin ，and Matthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV，2018。2[9]马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练。在ICCV，2019年。2[10]Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习在NeurIPS，2020年。二、八[11]Mark Chen，Alec Radford，Rewon Child，Jeff Wu，Heewoo Jun，Prafulla Dhariwal，David Luan，and IlyaSutskever.从像素生成预训练。在ICML，2020。2[12]陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton. 视觉表征对比学习的一个简单框架arXiv：2002.05709，2020。一二三六七八[13]Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E Hinton.大的自监督模型是强半监督学习器。在NeurIPS，2020年。一、二、三[14]XiChen ， YanDuan ， ReinHouthooft ， JohnSchulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS，2016年。2[15]Xinlei Chen，Haoqi Fan，Ross Girshick，and Kaim

下载后可阅读完整内容，剩余1页未读，立即下载