对比自监督表示学习流水线的分析与实验

34 浏览量更新于2023-10-13 收藏 1.2MB PDF 举报

对比方法

训练算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9949对比自监督表示学习流水线Klemen Kotar1，Gabriel Ilharco2，Ludwig Schmidt2，Kiana Ehsani1，Roozbeh Mottaghi1，21PRIOR @ Allen Institute for AI，2华盛顿大学摘要在过去的几年里，我们见证了自我监督表示学习的重大突破。尽管通过这种范式学习的表示法取得了成功和采用在本文中，我们分析了对比方法作为自监督表示学习的最成功和最流行的变体我们从训练算法，预训练数据集和最终任务的角度进行分析。我们检查了700多个训练实验，包括30个编码器，4个预训练数据集和20个不同的下游任务。我们的实验解决了各种问题，关于自我监督模型的性能相比，他们的监督同行，目前的基准用于评估，以及预训练数据对最终任务性能的影响。我们的视觉表现基准（ViRB）可在以下网站获得：https://github.com/allenai/virb.1. 介绍学习可用于广泛下游任务的紧凑和一般表示是计算机视觉的圣杯之一。在过去的十年中，我们见证了从大量标记数据中学习表示的显着进展[34，55，25]。最近，不依赖于任何显式外部注释的自监督表示学习方法也取得了令人印象深刻的性能[24，38，7，23，5]。其中最成功的方法是对比自监督学习方法，其结果接近其监督对应物。这些方法通常通过对比图像的不同增强、变换或聚类分配的潜在表示来学习。有了足够数量的转换和图像进行对比，模型就可以学习强大的表示。用于比较通过自监督方法学习的表示的最常见协议是预训练图1.我们的目标是研究最近提出的对比自监督表示学习方法。我们研究了这些管道中的三个主要变量：训练算法，预训练数据集和最终任务。我们考虑了4个训练算法，4个预训练数据集和20个不同的最终任务。在大型数据集上建立模型，例如ImageNet [15]，其中-输出使用类别标签，然后使用学习的表示来训练最终任务，例如图像分类、对象检测或分割。虽然该协议已被广泛采用，但它提供了一个不完整的进展情况，因为常见的预训练和最终任务之间的明显相似性可能导致对性能的有偏见和乐观的估计。在这项工作中，我们提供了一个全面的研究，通过对比自我监督的方法学习的我们探索了算法、预训练数据集和最终任务的各种替代方案（图1），总共覆盖了735个实验，使用了4个算法、4个预训练数据集和20个不同的最终任务。我们的目标是为以下开放性问题提供答案：（1）ImageNet上的监督学习是最终任务的良好默认编码器选择吗(2)ImageNet准确性是衡量进展的好指标9950XDX {}XD {}自我监督的表征学习(3)不同的训练算法如何比较不同的最终任务？(4)自我监督是否为某些类型的最终任务提供了更好的编码器(5)预训练数据的分布是否会(6)当使用高度不平衡的数据集时，我们是否学习到了本文通过一系列实验对对比性自我监控进行了系统的分析，并对上述问题进行了回答。我们观察到非直观和直观结果的混合，这更好地展示了对比自监督模型的特征。2. 相关工作自我监督表征学习。为了避免需要明确的监督，各种自我监督的方法已经提出了在以前的作品。已经提出了许多不同的“借口”任务，其目标是训练视觉编码器，例如：预测图像的空间配置[ 17 ]，对灰度图像进行着色[ 64 ]，找到拼图的正确顺序[ 42 ]，反向投影到GAN的潜在空间[ 18 ]，计数基元[ 43 ]，跨通道图像预测[ 65 ]，生成以其表面为条件的图像区域[47]并预测图像的方向[21]。以前的工作还通过使用自我运动作为监督信号[1，27]，跟踪类似的补丁[60]，预测未来的帧[59]和基于运动线索的分割[46]来探索从视频中学习。最近的对比方法，这是本研究的重点，优于这些方法，并在下面描述。对比表征学习。在这里，我们讨论了相关的对比学习方法的选择。对比预测编码（CPC）[58]通过使用自回归模型和对比损失预测未来的潜在表示来学习表示，DIM [16]最大化编码器输入区域及其输出之间的互信息，MoCo [24，9]维护用于计算对比损失SimCLR [7，8]的大型样本存储库不使用存储库，并在表示和损失函数之间引入非线性变换，PIRL [38]学习图像不同变换的类似表示，SwAV [5]避免了显式的成对特征比较，通过比较它们的聚类分配在多个图像视图之间进行对比。在本文中，我们使用了一个子集的最新的方法，提供国家的最先进的结果，并提供公共实现。表示学习分析。已经有各种研究分析通过监督或自监督学习学习的表示[14]分析训练域和部署域之间的不匹配，[56]分析与合成分布偏移相比对自然数据分布偏移的鲁棒性，[50]分析泛化在ImageNet上训练的模型的能力。[62]探索视觉任务之间的关系。与这些方法相比，我们研究自我监督的方法。[63]提供一个标准基准，用于分析学习到的表示。[2]通过自我监督技术研究在网络的不同层学习的表示。[49]研究遮挡、视点和类别实例不变性等不变性对学习表示的影响 [57]研究训练信号的效果（参考到“视图”）。[22]分析在未经策划的数据集上训练的自监督模型。[41]提供了有关自监督方法在可用标签数量增长时的效用以及效用如何根据训练数据的属性变化的[19]表明，在各种任务中，自监督表示优于其监督对应物，ImageNet分类准确性与少数镜头识别，对象检测和密集预测的性能并不高度相关。[53]提出了一个基准来评估表示学习模型，以推广到看不见的概念。他们还评估了对比自监督方法，并显示监督模型始终更好。有一些并行的工作，分析表征学习以及。[12]研究数据量、数据质量和数据域对学习表示的影响。[51]在类似于最终任务数据集的数据集上顺序地进行预训练，并显示出更快的收敛和改进的准确性。[26]提出了两个大规模的数据集，并表明自监督方法在这些领域中不如监督方法。相比之下，我们从训练算法，预训练数据集和最终任务的角度分析了自监督对比方法。3. 自我监督变量给定一组图像=x1，. ..，x N，目标为自监督学习算法是学习将图像x映射到连续潜在空间中的表示的函数f的换句话说，给定一个架构f，我们学习✓=f（）。然后，可以在各种（监督的）最终任务=（x<$1，y1）， . ..... . 你好。，（x¯M，yM），具有成对的输入和标签。这其中涉及各种变数渠道. 我们主要关注三个变量及其关系：训练算法、预训练数据集和最终任务。下面，我们将描述这些变量中的每一个以及我们实验的选择。3.1. 训练算法我们考虑的表示学习算法是对比自监督学习方法，最近已经显示出比以前的方法有实质性的改进在这项研究中，我们调查了9951在所学习的表示上训练算法。我们使用不同的算法：PIRL [38]，MoCov1 [24]，MoCov2 [9]和SwAV [5]。选择这些特定算法的原因是它们在标准端任务上实现了最先进的结果，具有可用的公共实现，并且不需要大量的GPU存储器资源，从而能够进行大规模分析。所有30个编码器的列表在附录H中。3.2. 预训练数据集用于对比方法预训练的事实上的标准是ImageNet[15]数据集[38，24，7，5]。ImageNet是一个以对象为中心的数据集，每个类别的图像数量均衡。一些作品[24，5]也使用了较少策划的数据集，如Instagram-1B[37]。在本文中，我们在两个维度上对数据集进行了系统的分析。首先，我们使用具有不同外观统计数据的数据集。除了ImageNet之外，我们还使用Places 365[67]，Ki-netics 400 [29]和Taskonomy [62]地点是以场景为中心的数据集，并且包括各种场景类别（例如，体育场和咖啡厅）。Kinetics是一个以动作为中心的数据集，包含活动视频（例如，梳头发和跳舞）。Taskonomy是室内场景图像的数据集。每个数据集的示例见图1。这些数据集比ImageNet大。为了消除训练数据大小的影响，我们对这些数据集进行子采样，使其与ImageNet（130万张图像）大小相同。我们从Places数据集的每个类别中统一采样。对于Kinetics，我们在所有视频中以恒定的帧速率进行采样。对于Taskonomy，我们在不同的建筑场景中统一采样。此外，为了探索使用具有混合外观分布的预训练数据集的效果，我们随机选择上述每个数据集的四分之一，并将它们组合以形成具有非均匀外观统计的数据集。我们将此数据集称为自监督模型通常在 ImageNet 上进行预训练，ImageNet是一个类别平衡的数据集。我们还研究了一组不平衡的数据集上学习的表示。我们创建了两个不平衡的ImageNet变体首先，我们通过线性增加样本数量来对每个类别的图像进行采样，即，我们从类别1采样一个图像，从类别2采样两个图像等我们将这个数据集称为“ImageNet- 1 ⁄ 2 -Lin”，它由500个数据组成。5K图像。在第二变型中，样本的数量根据指数分布增加。第1我们将这种不平衡的变化称为为了拥有大小相当的数据集，我们创建了较小的平衡变量，通过对每个类别中的四分之一和一半的图像进行均匀采样，对ImageNet数据集进行分析。我们将其称为3.3. 结束任务从自监督方法学习的表示可以用于各种最终任务，例如图像分类，对象检测和语义分割。图像分类被认为是基准对比自监督技术的主要最终任务[22]。虽然该任务是测量进展的合理选择，但它可能不是性质不同的各种计算机视觉任务在这项研究中，我们考虑了广泛的最终任务。为了确保多样性，我们研究了20个任务，根据输出的结构和任务的性质分为四类（图2）。每个最终任务的输出类型可以分为两大类：图像级和像素级。前者涉及对图像中的区域或整个图像的推理，而后者涉及对每个像素的推理。[2]在每个类别中，我们根据任务的性质考虑两类任务：语义和结构。语义任务是将诸如类别标签之类的语义信息与图像区域相关联的任务（例如，语义分割或图像分类）。另一方面，结构任务提供关于图像中的一些结构的信息（例如，深度估计）。我们注意到，这两种类型的任务之间的边界可能变得模糊，并且一些任务可以被认为是结构性和语义性的（例如，可行走表面估计）。我们把这些任务放在最接近的类别中。因此，我们总共有四种类型的任务：• 语义图像级。在这些任务中，我们为一个区域或整个图像提供语义标签。示例包括图像分类（例如，ImageNet分类）和场景分类（SUN397 [61]分类）。这是最常见的类别，因为大多数常见的视觉任务都属于这一类别。• 结构图像级。这些任务推理图像中的一些结构性全局信息。该类别中的示例任务是计数（CLEVR计数[63]）和自运动估计（估计nuScene中的汽车移动[4]）。• Semantic Pixelwise. 与前两个类别相比，输出是逐像素的。目标通常是为图像中的每个像素分配语义标签。Cityscapes数据集[13]中的图像语义分割和EgoHands [3]数据集中的手部分割是该类别中的示例任务。1更具体地说，我们对第n个类别的λean+b个数据点进行选择a、b和λ，使得从第一类中采样单个图像，并且从最后一类中采样1000个图像。2虽然不是我们工作的重点，但有些任务并不属于这两类，例如：生成未来的人类姿势。9952语义结构Oxford-IIT宠物分割EgoHands分割城市景观分割NYU步行表面估计KITTI光流TaskonomyDepthNYU Depth Estimation AI 2-THOR深度估计估计加州理工101图片EuroSAT LandCoverImageNetSUN397SceneClassif icat ionClassif icat ionClassif icat ionClassif icat ion足球huskycathedralDTD TextureCIFAR-101Kinectics ActionPets ImageClassificat ionClassif icat ionRecognit ionClassif ication泡沫卡车下降暹罗AI 2-THOR步骤数AI 2-THOR自运动估计预测向左5个步骤CLEVR对象计数nuScenes自运动估计向前迈进10图2. 结束任务。我们研究了一组不同的最终任务。我们根据两个特征对这些任务进行分类：语义与结构以及像素级与图像级。我们说明了从每个任务的图像，以显示我们考虑的视觉外观的多样性• 结构Pixelwise。第四类涉及为场景中的结构特性提供逐像素预测。示例包括在AI 2-THOR [30]框架中估计像素深度和在NYU Depth V2 [40]数据集中估计可行走表面。图2示出了所有任务及其对应的类别。有关任务制定及其数据集的更多详细信息见附录A。4. 架构细节为了进行对照研究，我们修复了尽可能多的变量，并使用标准的PyTorch[45]研究的每个编码器的ResNet50架构。由于我们的任务及其输出的多样性，我们必须使用几种不同的最终任务网络架构，但我们尽可能保持它们的小和标准因此，我们可能无法在每个最终任务上都实现最先进的结果。然而，我们确保我们的结果足够好，足以充分比较不同学习特征的性能在本节中，我们将描述用于主干编码器和本研究中的每个最终任务的架构。4.1. 编码器我们从每个训练的骨干模型中删除最终（分类）层，并将其用作我们所有最终任务实验的编码器。我们的目标是调查学习的表示，而不是评估它是否是有效的初始化。因此，我们保持主干冻结，不为任何任务微调编码器。4.2. 结束任务网络端任务网络是模型的一部分，它将编码器产生的嵌入转换为所需的任务输出。对于每个最终任务，我们都有一个训练集和测试集。我们使用随机初始化在训练集上训练最终任务网络我们在所有设置中为每个任务使用相同的超参数集。更多详情请参见附录B。我们有5种不同的架构来适应各种各样的最终任务类型。单层分类器。该网络包含一个完全连接的层。它将最终的ResNet em作为输入一个向量的大小为n，其中n是num.bedding。任务的类的ber。此网络用于所有图像级分类任务（例如，场景分类）。多输入融合分类器。该网络包含几个“单一线性层模块”，每个模块处理序列中的一个图像。这些模块的输出被连接并通过融合层。网-work将一系列最终ResNet嵌入作为输入，并输出大小为n的向量，其中n是任务的类此网络用于所有映像级获取图像序列的分类任务（例如，自我运动估计）。U-Net 这个网络是一个基于U-Net [52]架构的解码器--一系列连续的卷积跟随逐像素映像级9953⇥⇥⇥通过上采样和像素混洗[54]层。在每次上采样之后，通过残差连接添加来自匹配高度和宽度的ResNet编码器的中间表示的输出最后的输出是一个大小的张量h w，其中h和w是输入的高度和宽度形象该网络用于深度预测。暹罗U网该网络是U-Net网络的修改，它可以支持两个图像作为输入。它将两个图像的最终嵌入和中间ResNet表示作为输入，然后使用点卷积将它们逐层融合在一起，并在每次卷积后通过残差连接将它们添加到该网络用于流量预测。DeepLabv3+。该网络基于DeepLabv3+[6]体系结构。它将ResNet的第5个块的输出作为输入然后对输出进行上采样，并将其添加到ResNet的第2个那是-nal_output的大小为nh_w，其中n是输出通道的数量，h和w是输入图像的高度和宽度。该网络用于像素语义分类任务（例如，语义分割）。5. 分析在本节中，我们提出了几个关于预训练算法、预训练数据集和最终任务之间关系的问题我们讨论了我们的实验我们进行了广泛的对比自我监督模型的分析，并讨论在不同的设置的性能趋势。我们还研究了监督训练中使用的常见直觉转移到自监督域。除非另有说明，否则所有训练算法都已用于实验。实施和培训详情见附录C。(1) ImageNet上的监督学习是一个很好的默认编码器选择吗？在ImageNet数据集上通过监督学习训练的ResNet编码器已成为许多计算机视觉模型的可靠骨干。随着最近自我监督训练算法的兴起，我们重新评估了这一假设。对于20个最终任务中的每一个，我们将性能最好的自监督编码器与在ImageNet上以监督方式训练的编码器进行图3. 自监督和监督编码器的比较。示出了每个最终任务的自监督编码器的性能改进百分比。条的颜色表示用于预训练性能最佳的自监督编码器的数据集该图显示，自监督编码器比以监督方式在ImageNet上训练的编码器更好，除了顶部显示的三个最终任务，它们是ImageNet分类和Pets分类（与ImageNet分类非常相似）。性能这表明在许多情况下，自监督模型可能是更好的默认选项。图3还显示，大多数表现最好的模型都是在ImageNet或Places上预先训练的。这两个数据集都是策划的和结构化的数据集（与非结构化的Kinetics和Taskonomy相反）。这可能表明，自监督编码器也可能从组织良好的训练数据中受益更多。(2) ImageNet准确性是衡量自监督表示学习进展最近在自监督表示学习方面的大多数工作报告了他们的编码器在不同任务上的性能，但它们之间的共同点主要是我们测试了各种编码器在我们的20个不同的最终任务，以观察如何以及这些任务的性能与图像网络分类性能相关。图4对比了自监督方法的性能改进如图3所示，以及用于预训练的数据集。对于ImageNet v1和v2分类以及Pets分类（非常接近ImageNet任务），监督模型表现最好，但对于所有其他任务，一些自监督编码器实现了更高的性能。ImageNet与所有其他终端任务的对比。x轴表示在ImageNet分类上的学习表示的性能，并且y轴表示使用自监督编码器的最终任务的性能。中的每个点该图表示通过不同的训练算法、数据集等获得的不同编码器。9954图4. 最终任务性能与ImageNet分类准确性的相关性。这些图显示了所有最终任务和编码器的最终任务性能与ImageNet top-1准确度的对比。每个点代表用不同算法和数据集训练的不同编码器这揭示了ImageNet分类的性能与其他类别的任务之间缺乏强相关性虽然我们通常观察到ImageNet分类的性能与同一类别（语义图像级别）中的其他任务之间存在很强的相关性，但与其他类别中的任务存在较弱（有时甚至是负）的相关性-请这表明适合ImageNet分类的表示并不总是很好地转移到其他计算机视觉任务。语义图像级任务的结果与[32]的发现一致。然而，我们观察到其他任务类型的不同趋势。请注意，对于某些最终任务，可能已经达到性能上限。因此，我们可能不会观察到它们的不同编码器之间的显著差异。事实上，我们发现几个任务似乎与ImageNet性能负相关，这表明在ImageNet上表现良好的编码器可能过度拟合特定的任务类型和输出模式。有趣的是，与ImageNet性能负相关最大的类别是图像级结构任务，它与ImageNet分类具有相对相似的这提供了更多的证据表明，架构和损失函数不是决定相关性的变量。考虑到这些分析，ImageNet分类似乎不是各种计算机视觉任务的自监督编码器性能的强有力指标。(3) 不同的预训练算法如何比较不同的最终任务？两种最近的强自监督算法是MoCov2 [9]和SwAV [5]。我们使用这两种算法训练几个编码器，以确定我们观察到的趋势是否超出了单一算法。此外，这使我们能够对比MoCov2和SwAV算法，以确定其中任何一个是否更适合某些最终任务。为了回答这个问题，我们考虑编码器在我们的预训练数据集上训练了200个epochs。因此，我们总共训练了10个编码器，使用我们的五个数据集（ImageNet，Places，Kinetics，Taskonomy和Combina-tion）通过SwAV和MoCov 2方法。在图5中，对于每个最终任务，我们绘制了MoCov2和SwAV编码器的平均性能之间的百分比差异。Mo-Cov 2编码器往往在输出为像素级的任务中做得更好（一个值得注意的例外是Cityscapes Segmentation）。SwAV模型在分类任务方面更好，特别是语义分类任务（这里值得注意的例外是THOR自运动估计，其也与ImageNet分类反向相关）。在典型的评估过程中， SwAV 可能被认为是对MoCov2的绝对改进，因为SwAV在ImageNet分类上优于MoCov2。然而，我们的研究结果表明，这不是一个普遍的事实。这强调了报告一组多样化和标准化的最终任务的性能的重要性，以显示模型性能的更全面的概述为了研究不同编码器产生的表示是否存在一些根本差异，这可以解释这种趋势，我们计算MoCov2和SwAV模型的每个ResNet块的输出之间的线性中心内核对齐（ CKA ） [31 我们使用 10 ， 000 张图像，ImageNet的平衡子集以一半分辨率进行评估。详见附录E。我们观察到在早期区块和后期区块中的表示与MoCov2模型之间的一致性比我们与SwAV模型之间的一致性更强。这些趋势可以表明Mo-Cov 2表示更好地从图像捕获低级信息，而SwAV表示更好地捕获高级语义信息。(4) 自我监督在某些最终任务上是否更有效？预先训练的编码器用于计算机视觉中的各种应用，但大多数报告的结果都集中在语义任务上的改进，例如9955图5. 训练算法和任务。对于每个最终任务，示出了用MoCov2训练的所有编码器的平均得分与用SwAV训练的所有编码器的平均得分之间的差异。因此，负分数表示对于给定任务，SwAV平均优于MoCov2，而正分数表示相反。分数是未标度的评价指标（准确度、mIOU或负L1误差，取决于任务）。除了一些例外，该图显示SwAV通常在图像级任务中更好，而MoCov2在像素级任务中更好。图像分类、对象检测和实例分割[5，22]。我们希望获得自我监督编码器在每个单独任务类别中的表现的一般情况。由于最终任务使用不同的成功指标，我们使用一个规范化的计划，有效地比较它们。在图6中，我们采用了由自监督编码器在最终任务上获得的每个性能注意，这指示具有正值的点优于监督基线。然后，我们通过将这些值除以它们的标准差来进一步归一化这些值。图6表明，结构化任务从使用自监督编码器中获得更大的益处。请注意，该图中相对较大的标准偏差是由于包括在数据集上训练的自监督编码器和可能不是给定任务类型的最佳匹配的算法请注意，该图与我们在图3中观察到的自监督编码器在语义任务上的良好性能如图3所示，自监督模型在除了三个语义图像级任务之外的所有任务上都优于监督基线。(5) 使用来自类似领域的图像进行训练是否会提高性能？我们假设使用与最终任务类似的预训练数据集我们选择了4个数据集来测试这个假设：两个结构化的（ ImageNet 和 Places365 ）和两个非结构化的（Taskonomy和Kinetics400）。我们训练两个编码器图6. 每类最终任务的标准化性能分布。通过首先减去监督ImageNet编码器的性能，然后除以std来归一化性能。任务的所有性能的偏差正值显示优于监督的ImageNet的性能，负值则显示相反。更大的宽度意味着更多的性能值落在该范围内。该图显示结构性任务从自我监督中受益更多。在每个上（MoCov2和SwAV，最佳执行算法），并将每个预训练数据集与使用与预训练数据相似的域中的数据集（SUN397 [61] Places265分类）的[67]和Caltech101 [35]分类ImageNet [15]）或使用相同数据集的子集（Kinetics400的动作预测和Taskonomy的深度估计）。在图7中，我们绘制了在上述预训练数据集上训练200个时期的Mo-Cov 2和SwAV模型绿色条表示在类似于最终任务数据的数据集上训练的编码器，而灰色条表示在其他数据集上训练的编码器。紫色条表示在“组合”数据集上训练的编码器我们发现，对于每个任务，性能最好的编码器是在包含类似数据的数据集上训练的编码器。然而，如图7所示，单独的训练数据集不足以确定哪个编码器将表现最好，因为算法也会影响性能。我们观察到，在“组合”上的训练注意，组合数据集仍然受益于包括与最终任务图像类似的图像。9956图7. 预训练数据集和最终任务的相似性。显示了所有编码器在选定的最终任务上的性能。每个条表示不同的编码器。绿色条表示在与最终任务数据集类似/相同的数据集上预训练的编码器。紫色条表示在“组合”上预训练的编码器。在相似/相同数据集上预训练的编码器具有最高得分。此外，这些编码器优于在组合上训练的编码器，组合不仅包括该数据集的子集，还包括来自其他数据集的图像。(6) 如果我们使用不平衡的ImageNet，我们会学习到糟糕的表示吗？在这里，我们在使用不平衡数据预训练编码器的情况下评估学习的表示。使用不平衡数据可以更好地模拟真实世界的数据分布，这些数据分布通常是长尾的[36]。我们考虑在第3.2节中描述的ImageNet的两个不平衡子集（ImageNet-1⁄2-Lin和ImageNet-1⁄4-Log），以及两个相应大小的平衡子集（ ImageNet-1⁄2 和 ImageNet-1⁄4）。使用SwAV和Mo-Cov 2在四个ImageNet子集中的每一个上训练编码器，每个200个时期，以产生8个编码器，在20个最终任务上测试。我们将析因ANOVA模型拟合到最终任务结果，并且没有发现证据表明在平衡数据集上进行预训练会产生更好的编码器。我们发现，在ImageNet-1⁄2-Lin上预训练的模型在统计学上并不是模型性能的显著预测因素（p值= 0.0777），而在ImageNet-1⁄4-Log上训练的模型（p值= 0.0101），平均最终任务得分提高了1.53%。这表明，在严重不平衡的数据集上进行对比学习的预训练更多详情请参见附录F。6. 讨论在这里，我们提供了分析的摘要。首先，我们证明了一个以监督方式训练的骨干ImageNet不是除了ImageNet分类和Pets分类（这是一个类似的最终任务）之外的最佳最终任务编码器。其次，我们发现，在许多情况下，ImageNet准确性与非语义图像级的最终任务的性能之间几乎没有相关性。第三，我们展示了不同的训练算法为某些类别的最终任务提供了更好的编码器。更具体地，MoCov2证明更好地用于像素级任务，并且SwAV在图像级任务上显示出更好的性能第四，我们发现结构性任务比语义性任务更有利于自我监督第五，我们展示了在与最终任务相同或相似的数据集上预训练编码器提供了更高的性能。这对于监督表示学习是一个众所周知的事实，但对于不使用任何标签的自监督方法来说并不明显第六，我们证明了在不平衡ImageNet上学习的表示与从平衡数据中学习的表示一样好，甚至略好目前的研究有一些不足之处，如下所述：实证研究我们的结论是基于实证结果。这有两个主要影响。首先，这些结果没有理论依据。其次，由于计算限制以及这些类型的方法中涉及的参数和变量的范围很广，我们的研究没有涵盖与对比自监督表示学习相关的所有方面。任务二分法。我们研究的任务分类是基于输出类型和它们捕获的信息。还有其他几种对这些任务进行分组的方法，这里没有研究，留待将来研究。变量我们只关注表示学习管道中的三个变量，即训练算法、预训练数据集和最终任务。在表征学习管道中还涉及各种其他因素，如网络架构和计算效率，这些因素在本研究中没有得到解决。冷冻脊椎。我们没有微调的编码器在培训的最终任务。未来的方向可以探索的趋势时，编码器进行微调以及。7. 结论我们将对比表征学习作为一种最成功的自我监督方法。我们的重点主要集中在表示学习管道中的三个变量我们严格的分析得出了关于这些变量相互作用的有趣发现。我们希望我们的研究为这个充满活力和影响力的领域的未来研究提供更好的见解。致谢：我们要感谢Luca Weihs对统计分析的讨论。9957引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在ICCV，2015年。2[2] Yuki M Asano ， Christian Rupprecht ， and AndreaVedaldi.自我监督的批判性分析，或者我们可以从一张图片中学到什么。在ICLR，2020年。2[3] 放大图片作者：David J.克兰德尔和陈宇。伸出一只手：在复杂的以自我为中心的交互中检测手和识别活动。在ICCV，2015年。三、十二[4] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan ， Yu Pan ， Gi- ancarlo Baldan ， andOscar Beijbom.nuscenes：自动驾驶的多模态数据集。在CVPR，2020年。三、十二[5] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS，2020年。一二三六七十三[6] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。5[7] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。一、二、三[8] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E Hinton.大型自监督模型是强半监督学习器。在NeurIPS，2020年。2[9] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。Arxiv，2020年。二三六十三[10] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在CVPR，2021年。15[11] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。CVPR，2014。12[12] Elijah Cole、Xuan Yang、Kimberly Wilber、Oisin MacAodha和Serge Belongie。对比视觉表征学习何时起作用？arXiv，2021。2[13] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。三、十二[14] 放大图片作者：Katherine A. Heller，Dan Moldovan，Ben Adlam，Babak Alipanahi，Alex Beutel，ChristinaChen，Jonathan Deaton，Jacob Eisenstein，Matthew D.Hoffman，Farhad Hormozdiari，Neil Houlsby，ShaoboHou ， Ghassen Jerfel ， Alan Karthikesalingam ， MarioLucic ， Yi-An Ma ， Cory McLean ， Diana Mincu ，Akinori Mitani ， Andrea Montanari ， Zachary Nado ，Vivek Natarajan ， Christopher Nielson ， Thomas F.Osborne，Rajiv Raman，Kim Ramasamy，Rory Sayres，JessicaSchrouff ， MartinSeneviratne ， Shan-nonSequeira，Harini Suresh，Victor Veitch，Max Vladymy-rov，Xuechi Wang，Kellie Webster，Steve Yadlowsky，Tae- dong Yun，Xiaohua Zhai，and D.斯卡利规格不足9958对现代机器学习中的可信度提出了挑战。Arxiv，2020年。2[15] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。一、三、七、十二[16] R Hjelm Devon ， Fedorov Alex ， Lavoie-MarchildonSamuel ， Grewal Karan ， Bachman Phil ， TrischlerAdam，and Bengio Yoshua.通过互信息估计和最大化学习深度表示。2019年，在ICLR。2[17] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习在ICCV，2015年。2[18] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。对抗性特征学习。在ICLR，2017。2[19] Linus Ericsson，Henry Gouk，and Timothy M.医院自我监督模型的转换效果如何？在CVPR，2021年。2[20] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。13[21] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR，2018年。2[22] Priya Goyal，Mathilde Caron，Benjamin Lefaudeux，Min Xu，Pengchao Wang，Vivek Pai，Mannat Singh，Vitaliy Liptchin-sky，Ishan Misra，Armand Joulin，andPiotr Bojanowski.野外视觉特征的自我监督预训练。arXiv，2021。二、三、七[23] Jea n-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，PierreRichemond，ElenaBuchatskaya ， Carl Doersch ， Bernardo Avila Pires ，Zhaohan Guo ， Mohammad Ghesh- laghi Azar ， BilalPiot ， koray kavukcuoglu ， Remi Munos ， and MichalValko.Bootstrap Your Own Latent --自我监督学习的新方法在NeurIPS，2020年。1[24] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR，2020年。一、二、三[25] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。1[26] Grant Van Horn、Elijah Cole、Sara Beery、

下载后可阅读完整内容，剩余1页未读，立即下载