无监督方法在图像表示学习中存在显著差异

85 浏览量更新于2023-10-26 收藏 12.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Beyond Supervised vs. Unsupervised: Representative Benchmarking andAnalysis of Image Representation LearningMatthew Gwilliam and Abhinav ShrivastavaUniversity of Maryland, College ParkAbstractBy leveraging contrastive learning, clustering, and otherpretext tasks, unsupervised methods for learning image rep-resentations have reached impressive results on standardbenchmarks. The result has been a crowded field – manymethods with substantially different implementations yieldresults that seem nearly identical on popular benchmarks,such as linear evaluation on ImageNet. However, a singleresult does not tell the whole story. In this paper, we com-pare methods using performance-based benchmarks suchas linear evaluation, nearest neighbor classification, andclustering for several different datasets, demonstrating thelack of a clear front-runner within the current state-of-the-art. In contrast to prior work that performs only super-vised vs. unsupervised comparison, we compare severaldifferent unsupervised methods against each other. To en-rich this comparison, we analyze embeddings with mea-surements such as uniformity, tolerance, and centered ker-nel alignment (CKA), and propose two new metrics of ourown: nearest neighbor graph similarity and linear predic-tion overlap. We reveal through our analysis that in iso-lation, single popular methods should not be treated asthough they represent the field as a whole, and that futurework ought to consider how to leverage the complimentarynature of these methods. We also leverage CKA to providea framework to robustly quantify augmentation invariance,and provide a reminder that certain types of invariance willbe undesirable for downstream tasks.1. IntroductionImage features are critical components in many com-puter vision (CV) pipelines. In this paper, we define im-age features, also referred to as embeddings, encodings, orrepresentations, as an n-dimensional vector that representsthe content of an image. With the emergence of deep learn-ing, classical approaches to computing image features havebeen supplanted by neural networks that use large amountsof data to generate powerful image representations. Themost widespread method is straightforward: a neural net-Linear, ImageNetLinear, Aircraftk-NN, ImageNetK-Means, ImageNet0.040.020.000.020.040.040.020.000.020.04Which method is best?Barlow TwinsDeepClusterMoCoSwAVFigure 1. Results for a sample of classification benchmarks weperform in this paper. While these bar charts report real results,lack of axes is intentional – the exact numbers are in Section 4. Im-portantly, between the four tasks, there is no clear “best” method.work (e.g., a ResNet50 [30]) is trained to classify the im-ages in some large dataset, typically ImageNet. The portionof the network that performs the classification, usually justthe final layer, is then removed, and the outputs of the penul-timate layer for a given image are considered the featuresfor that image. This process relies on image classification,a supervised learning task, and thus requires the availabilityof large amounts of annotated, high-quality data.Recent successes make unsupervised learning a viablealternative paradigm where image features are learned with-out the need for class labels. Within unsupervised learning,methods can be considered either generative or discrimi-native. Generative methods are typically designed for re-construction or similar tasks [5, 19, 20, 35, 51]. Since weare more concerned with a potential transfer to downstreamtasks such as image classification and object detection, we9642SUBTDCMCSCSSSWSUBTDCMCSCSSSWSUBTDCMCSCSSSWSUBTDCMCSCSSSW0.30.40.50.60.70.80.90.20.40.60.8.00.70.80.900.01.00.00.20.40.60.896430方法0 ...0有监督（SU），Barlow Twins（BT），DeepCluster（DC），MoCo（MC），SimCLR（SC），SimSiam（SS），SwAV（SW）0 ...重叠的类别预测吗？0线性CKA0NN重叠0预测重叠01.0 无监督算法是否...0图2.基于ImageNet验证图像上ResNet50的输出的学习表示之间的相似性。对于所示的指标，更高的值表示相似性。虽然有监督模型与无监督模型的不相似性更大，但无监督方法之间存在许多显著差异。更详细的描述请参见第4节。0选择关注有区别的方法。比较图像表示学习算法有很多不同的方式。在本文中，我们选择关注方法作为特征提取器的作用，即预训练某些任务的模型应该能够为未见图像生成有用的特征。因此，我们只使用保持骨干（生成嵌入的神经网络部分）冻结的基准测试。先前的研究通常受限于对单个基准测试、单个方法或玩具数据集的关注。相比之下，我们使用几个不同的基准测试比较了ImageNet上的6种SOTA无监督方法和6个细粒度视觉分类（FGVC）数据集。图1展示了这个分析角度的示例。相互比较这些方法非常重要。然而，先前的分析工作往往将无监督方法归为一类，并且通常只选择一个代表性的方法（如MoCo或SimCLR）与监督表示学习进行比较[1, 14, 22, 26,54]。这忽视了无监督方法彼此之间的显著差异。与先前的工作相反，我们扩展了现有方法并引入了新方法，以证明无监督方法在学习图像表示方面存在显著差异，如图2所示。基于卷积的无监督算法的最新技术，无论是使用对比学习、聚类还是某些预处理任务（如上色），都试图学习对某些增强类别的不变性。换句话说，它们试图学习一个函数f，使得f(I) =f(IA)，其中I是某个图像，A是应用于该图像的一组增强。肖等人推测这可能对学习表示和下游任务的性能产生负面影响[56]。然而，仔细阅读发现他们没有提供存在无监督模型中的变换不变性的证据。0在无监督模型中的变换不变性方面，他们的方法似乎在与变换不变性相关的任务上比MoCo表现更好。这启发了第4.4节，我们更详细地研究了不同无监督方法学习到的表示中的增强不变性的存在。先前的工作受到有限的指标、使用玩具数据集以及倾向于将单个无监督方法视为代表性的限制。与此相反，我们提供以下贡献：0•我们使用多种方法来衡量学习嵌入的属性，包括3个基于性能的基准测试，以及对更多现实数据集上的无监督方法进行统一容忍性分析的先前工作的扩展。0•我们通过将线性中心核对齐（CKA）分析扩展到非玩具数据集，并开发了两个用于比较嵌入的新指标：最近邻图相似性和线性重叠，进行了新颖的比较。0•我们提出了一个衡量数据增强不变性的框架，并展示了它在几种方法、增强和数据集上的结果。0我们在第5节中得出了未来无监督方法用于表示学习的关键见解：0• 目前还没有明确的“最佳”方法。0• 无监督模型共享一些环境上不理想的属性，例如颜色不变性。0•大多数层的无监督模型具有相似的表示，但在最后一层上有明显的差异。964402. 相关工作02.1. 无监督学习方法0在深度学习时代的最初，一些无监督方法是根据自然语言处理的预训练任务设计的。在转移到下游任务之前，网络将被训练来执行一些辅助任务。这些辅助预训练任务包括解决拼图难题[44]、从灰度图像进行上色[39,60]、修复[46]、相对补丁预测[17]、预测旋转角度[23]或多个任务的组合[18]。然而，噪声对比估计(NCE)[27]的引入在无监督学习中引发了范式转变[55]，随后使用对比学习[10, 12,42]的方法超越了所有这些方法。对比学习隐含地执行实例判别，它涉及训练模型吸引正对(通常是给定图像的增强视图)和排斥负对(两个不同图像的增强视图)[27,28]。许多论文提出了使用对比学习的成功方法[4, 11, 12,29, 31, 32, 42, 45, 48, 55,58]。在本研究中，我们包括BarlowTwins[59]、MoCov2[12]和SimCLR[11]。聚类已经成为另一类重要的无监督方法[3,6-8]。流行的方法，如DeepCluster[6]和SwAV[8]，甚至那些不明确尝试表示学习的方法，如SCAN[49]，与对比学习共享许多特征。其中包括依赖于大批量大小的倾向，使用强增强，这些方法都有共同点，以及使用投影头的实现细节，SwAV和DeepClusterv2使用了投影头[6,8]。我们选择DeepClusterv2和SwAV作为这一类别的代表。其他方法，如SimSiam[13]，既不使用负对也不使用聚类目标。其他方法突出了在无监督环境中使用视觉变换器的潜力[9, 40,57]。然而，在本文中，我们选择比较使用ResNet-50骨干的方法。此外，我们相信我们选择的方法样本足以支持我们的主要观点。02.2. 无监督学习的分析0虽然每篇提出新算法的论文都使用一些任务来试图证明它们相对于先前的方法的成功，但其他流行的论文完全专注于特定方法的基准测试、评估和比较。[47]从准确性的角度研究了数据增强的不变性，使用试图改变某些条件(如照明)的自然图像。[54]和[53]讨论了学习嵌入的属性，如对齐、均匀性和容忍度。其他工作在各种任务和上下文中对无监督性能进行基准测试。0在[14, 22, 33,37]条件下，我们使用[36]中心核对齐(CKA)框架来比较有监督和无监督的表示。这项先前的工作在一定的约束条件下进行。许多论文只考虑单一的无监督方法，MoCo[1, 22,54]或SimCLR[14,26]，仿佛它代表了整个领域;在考虑其他方法的论文中，没有一个考虑超过三个[33, 37,47]。我们将统一容差分析[53]扩展到多个无监督方法。我们将CKA分析[15, 26,36]扩展到小数据集之外，并扩展到多个方法。我们进行FGVC基准测试[14,33]以获得额外的度量和算法。我们进行CKA分析[36]，以在不依赖线性分类作为混淆中间步骤的情况下检查数据增强的不变性[47]。我们开发了额外的方法，用于比较成对或成组的方法，以进行我们首次全面分析预训练无监督方法在图像表示学习中的相似性和互补属性。我们的工作遵循Ericcson等人的精神，使用许多无监督方法的样本进行全面分析[21]。然而，通过使用完全不同的任务和数据集，我们能够进一步提供他们的主要结论的证据(没有一种方法是最好的)，并且还发现了新的见解。03. 方法03.1. 基于性能的比较0为了衡量学习表示的质量，我们进行了三个基于性能的测量。对于线性评估，我们使用VISSL存储库[24]在冻结特征上训练线性分类器。对于k最近邻分类，我们也使用VISSL中的设置，在细粒度数据集上根据附录中的描述改变邻居的数量。对于k均值聚类，我们尝试使用k-means++方法[2]进行10次初始化，对于ImageNet，我们使用16384张图像的小批量。当类的数量等于聚类的数量时，为了获得k均值聚类分配的准确性，我们使用匈牙利匹配，将聚类与类一对一地映射，以最大化与基本真实类的对应关系。对于过度聚类，我们将每个聚类贪婪地映射到聚类中图像最多的基本真实类。然后，使用聚类到类的映射结果作为预测，正常计算准确性。对于线性评估、k-最近邻分类和k均值聚类，模型在训练数据上进行训练，结果来自于测试数据的评估。03.2. 均匀性-容忍度权衡0为了分析嵌入在超球面上的分布情况，我们借鉴了之前工作的两个关键属性：U = logEx,y∼pdata e−t||f(x)−f(y)||22(1)T =Ex,y∼pdata (||f(x)||T2 ||f(y)||2) · Il(x)=l(y)(2)CKA(K, L) =HSIC(K, L)HSIC(K, K)HSIC(L, L)(3)96450均匀性[54]和容忍度[53]。均匀性U描述嵌入与超球面上的均匀分布的接近程度，定义如方程1所示，其中t是一个我们设置为2的缩放超参数，f表示模型，x和y是任意一对图像。0容忍度T由方程2给出，其中f、x和y与方程1中的相同，I是地面真实标签的指示函数，当x和y属于同一类时返回1，否则返回0。0而均匀性衡量特征的平均分布程度，容忍度利用真实标签来指示嵌入如何反映图像之间的语义关系。03.3. 用于比较表示的线性CKA0我们按照之前的工作流程计算中心化核对齐（CKA）值[26,36]，包括仅使用线性核[26]。为了计算这个值，我们首先获得两种不同方法的嵌入矩阵，例如SimCLR和MoCo，我们将其表示为X和Y。然后计算嵌入矩阵的Gram矩阵：K = XXT，L = YYT。CKA值由归一化的Hilbert-Schmidt独立性准则（HSIC）[25]给出，如下所示：0之前的工作[26]对于由32×32图像组成的小数据集执行这些计算。由于我们将其扩展到224×224图像，因此在使用ImageNet时，通过对10,000个测试图像进行随机采样来补偿增加的内存需求。03.4. 提议的度量标准：NN图相似性0即使对于纯对比学习，属于相同基本真实类的图像也往往在语义上相似。与依赖于基本真实标签并以单个模型的形式描述语义结构的容忍度相反，我们提出了一种无监督的比较两个或多个学习表示之间语义关系结构的方法。具体而言，我们根据给定数据集的最近邻图来考虑模型。每个图像是一个节点，图像的前k个最近邻由有向边表示。因此，我们可以通过比较它们的相似性来计算两个表示之间的相似性。0最近邻图。我们选择以邻居重叠的方式进行计算，其中邻居重叠指的是考虑的图（无监督算法）的每个节点（图像）的平均共享边（邻居）数。这种邻居重叠传达了不同算法学习到的语义结构的相似性。得分为1.0表示结构相同-图像对于两个无监督算法都有相同的最近k个邻居。得分为0.0表示没有共享的邻居。我们使用这种方法来比较模型对，如图2所示。03.5. 提出的度量：线性预测重叠0与最近邻图相似性不同，这个度量方法采用了间接的方法来比较两个或多个表示。对于数据集中的每个图像，我们获取在每个无监督骨干上训练的线性分类器的预测，如第3.1节所述。然后我们进行几种不同的计算。对于依赖于真实标签的分析，我们计算所有模型都正确分类的数据集部分，或者没有模型正确分类的数据集部分，或者只有某个模型子集正确分类的数据集部分。对于忽略标签的分析，我们计算某些分类器集合具有相同预测的数据集百分比，而不考虑预测的正确性。对于这个度量方法，得分为1.0表示所有图像上的分类器集合都做出相同的预测，而0.0表示它们对任何图像的预测不完全相同。因此，我们使用线性重叠来比较方法对，如图2所示，以及比较多个模型集合，如表5所示。03.6. 提出的分析：数据增强不变性0流行的无监督算法训练模型以实现数据增强不变性。我们开发了一种方法来分析无监督模型学习到的表示中数据增强不变性的普遍性。与之前的工作不同[47]，我们考虑了更广泛的无监督算法，并直接对学习到的表示进行测量，而不是依赖于学习线性分类器的性能作为代理。我们使用CKA来比较增强和非增强图像的嵌入之间的相似性。我们对给定数据集的图像的嵌入矩阵X和经过某种增强A后的相同图像的嵌入矩阵XA进行CKA(K,L)计算，其中X是嵌入矩阵，A是增强后的嵌入矩阵。因此，我们扩展了用于无监督算法的线性CKA，以克服先前方法的局限性，并直接查看图像表示的数据增强不变性。252015105051096460飞机汽车 CUB 狗花 NABirds ImageNet0数据集0准确率（与有监督方法的差异）0方法0Barlow TwinsDeepClusterMoCo0SimCLRSimSiamSwAV0图3. ImageNet和6个FGVC数据集上的线性分类器结果。BarlowTwins、DeepCluster和SwAV往往优于Moco、SimCLR和SimSiam，但没有明显的优胜者。04. 分析0对于我们代表性的区分性无监督方法，我们考虑对比方法SimCLR[11]和MoCo[12]，聚类方法DeepClusterv2[6]和SwAV[8]，以及试图减少冗余的BarlowTwins[59]和不使用负样本和聚类的SimSiam[13]。对于SimCLR、DeepCluster和SwAV，我们使用VISSL模型库[24]中的800个epoch的检查点，除非另有说明。对于BarlowTwins，我们使用VISSL的1000个epoch的检查点。对于MoCo，我们使用作者提供的800个epoch的检查点。对于SimSiam，我们使用作者提供的100个epoch的检查点。虽然我们可以选择重新训练模型，但我们认为训练时间的差异不是我们分析中的一个合理混淆因素，任何试图创建一些“公平”设置的尝试都不可避免地会偏向在该设置下表现最好的模型。这些方法可以调整各种超参数，并且任何给定的“公平”设置都不可避免地会偏向其他模型，因此我们选择使用可用的模型设置。此外，我们的消融实验（图6）表明，训练时间不会影响我们的任何发现。我们在表1中的一些数据集的子集上进行实验，这些数据集包含了真实的图像。04.1. 性能基准0如第3节所述，我们进行了VISSL的线性评估，其中我们对ResNet-50网络的第一个卷积层和4个瓶颈块的冻结特征进行线性分类器的训练。我们在表1中展示了线性分类器在输出上训练的结果。0图3中的最后一个块。我们在表2中展示了k-NN分类的结果，在表3中展示了k-means聚类的结果。作为DeepCluster和SwAV的额外基准，我们还将它们的聚类头与将ImageNet划分为3000个聚类的k-means聚类进行了比较，结果在表4中展示。我们不考虑其他性能基准，如完全微调，因为我们只试图评估学习到的嵌入，而不是网络初始化。0表1. 本文实验中使用的数据集。0数据集 #类别 #训练样本 #测试样本0FGVC Aircraft [41] (飞机) 100 6,667 3,333 StanfordCars [38] (汽车) 196 8,144 8,041 Caltech Birds [52](鸟类) 200 5,994 5,794 Stanford Dogs [34] (狗类) 12012,000 8,580 Oxford Flowers [43] (花朵) 102 2,0406,149 NABirds V1 [50] (NABirds) 555 23,929 24,633ImageNet [16] 1000 1.3百万 50,0000图3显示，与先前的一些工作中的声明相反，无监督方法在FGVC数据集上不一定会遇到困难[33]。这可能是因为该工作使用的线性SVM可能对无监督嵌入的分布方式不太适应；由于我们的线性评估协议使用了批量归一化，因此能够更好地解释这一点。然而，我们证明，对于飞机、汽车和花朵，BarlowTwins、DeepCluster和SwAV在两个鸟类数据集和狗类数据集上的性能都优于有监督的预训练。我们认为这是因为过度训练[33]的结果；然而，NABirds的结果证实了无监督方法在该数据集上存在相当大的困难。表2反映了图3中的结果。然而，表3和表4显示，除了花朵数据集外，有监督的预训练在k-means度量上占据主导地位。很明显，使用标签进行预训练使得有监督学习在ImageNet上的k-NN分类和k-means聚类具有很强的优势，以至于有监督表示甚至在ImageNet上的过度聚类中超越了DeepCluster和SwAV的聚类头。我们从中总结出3个关键发现。首先，从我们的每个基准测试中，无监督方法在为FGVC生成嵌入方面与有监督方法相当，而且0.51.01.52.02.53.00.450.500.550.600.650.700.750.800.8596470表2. k-NN结果。再次，没有明显的领先者。0方法数据集0ImageNet 飞机花朵 NABirds0有监督的 73.41 31.59 77.96 43.25 BTwins 62.9031.83 86.18 22.29 DCv2 63.70 32.70 84.7621.05 MoCo 58.59 21.39 74.53 15.40 SimCLR54.57 21.21 74.78 14.03 SimSiam 53.66 27.3980.01 15.18 SwAV 61.14 28.77 82.24 15.720表3. K-Means结果。大多数数据集中有监督的方法表现最好。0方法数据集0ImageNet 飞机花朵 NABirds0有监督的 58.92 15.69 54.97 25.95 BTwins 34.8813.20 63.70 11.87 DCv2 31.79 13.92 60.2010.86 MoCo 38.30 9.84 43.34 10.75 SimCLR29.78 11.16 43.99 9.08 SimSiam 26.20 12.6654.51 9.53 SwAV 28.69 12.60 56.04 9.260表4.K-Means过度聚类结果。DeepClusterv2和SwAV的聚类头在学习到的DeepClusterv2和SwAV的嵌入上优于k-means。0方法 ImageNet0k = 1000 k = 3000 ∆0有监督的K-Means 58.92 65.66 +6.74 DCV2 K-Means31.79 43.02 +11.23 DCV2 聚类头 n/a 54.35 n/aSwAV K-Means 28.69 37.94 +9.25 SwAV 聚类头 n/a48.9 n/a0与ImageNet的lap贡献了CUB和Dogs性能差距的一部分，这可能混淆了这些结果；然而，NABirds的结果证实了无监督方法在该数据集上存在相当大的困难。表2反映了图3中的结果。然而，表3和表4显示，除了花朵数据集外，有监督的预训练在k-means度量上占据主导地位。很明显，使用标签进行预训练使得有监督学习在ImageNet上的k-NN分类和k-means聚类具有很强的优势，以至于有监督表示甚至在ImageNet上的过度聚类中超越了DeepCluster和SwAV的聚类头。我们从中总结出3个关键发现。首先，从我们的每个基准测试中，无监督方法在为FGVC生成嵌入方面与有监督方法相当，而且0均匀性0方法0Barlow TwinsDeepClusterMoCo0SimCLRSimSiam0SwAV 监督0Aircraft Cars Cub Dogs Flowers NABirds ImageNet0数据集0容忍度0图4.在Imagenet和6个FGVC数据集上的均匀性（U）和容忍度（T），数据集按升序排序。具有相似目标的方法（如对比方法：BarlowTwins、MoCo和SimCLR）倾向于具有相似的分数。0像BarlowTwins、DeepCluster和SwAV这样的方法似乎特别有竞争力。其次，设置很重要-例如分类头的设计可以创建偏向某些方法的细微偏差，例如[33]中的SVM分析偏向于监督表征。最后，广度是有帮助的；我们的基准方法中的每个方法都依赖于一些假设，并间接评估了学习嵌入的鲁棒性。线性评估、k-NN分类和k-means聚类共同给出了嵌入表征的更全面的视角。04.2. 均匀性-容忍度权衡0均匀性和容忍度的高值同时是可取的，因为它们表示嵌入在超球面上的分布有利。然而，图4中的结果强化了实际上这些值之间存在反相关关系。这是因为一般来说，嵌入在超球面上分布得越广泛，它们相对于每个真实类别也越分散。也许正因为这个原因，监督预训练通常具有最宽容和最不均匀的嵌入。DeepCluster在这两个指标上与监督相似。考虑到DeepCluster的目标：伪标签的交叉熵损失，这并不令人意外。具有自己聚类目标的SwAV表现出了一些相似的趋势，而对比方法则相反。这加强了我们的假设的支持-无监督方法在学习嵌入的超球面上具有相当大的多样性。0.700.750.800.850.900.951.0096480SU BT DC MC SC SS SW0SU0BT0DC0MC0SC0SS0SW0Conv10SU BT DC MC SC SS SW0Res20SU BT DC MC SC SS SW0Res30SU BT DC MC SC SS SW0Res40线性CKA0图5. 针对Imagenet验证集的初始卷积层和前3个瓶颈块的线性CKA。最后一个块的线性CKA可以在图2中找到。与最终层不同，初始和中间块的表征相当相似。0相反，对比方法则相反。这加强了我们的假设的支持-无监督方法在学习嵌入的超球面上具有相当大的多样性。04.3. 表征相似性的测量0我们考虑三个主要指标来衡量表征之间的相似性：线性CKA，用于比较任意一对模型的嵌入；最近邻图相似性，用于比较一组模型的最近邻；线性预测重叠，用于比较一组模型的线性分类器的预测。请参见图2，其中显示了Imagenet每个ResNet50的最后一个块的线性CKA、邻居相似性和线性预测重叠。我们在表5中对模型组的线性重叠进行了分析，并利用真实标签评估了不同线性分类器的独特性。图2的结果表明，相似的表征往往具有相似的邻居，而在更相似的表征上训练的分类器往往会做出更相似的预测。这些指标揭示了具有相关目标的算法之间的相似性，例如DeepCluster和SwAV。更令人惊讶的是，我们发现监督和无监督表征（如DeepCluster）之间的相似性比一些无监督表征（如MoCo和BarlowTwins）之间的相似性更大。图5同时证实了这些发现和[26]的发现，后者发现监督和无监督表征在最后一层上的差异最大。因此，我们将他们的假设从SimCLR扩展到其他无监督方法，并提供了无监督算法彼此之间具有非常不同的最终表征的证据。这强调了在文献中常见的“监督”与“无监督”比较是不合理的，其中“无监督”仅代表几个算法。我们还计算了无监督模型的CKA，使用了0表5.线性重叠结果。我们检查在冻结特征上训练的线性分类器的预测重叠情况。顶部报告了有监督和任何无监督方法的分类器正确预测的图像数量，以及仅有监督、仅无监督和两者都没有正确预测的图像数量。底部对比了无监督方法内部，考虑了单个线性分类器唯一正确分类的图像数量。我们发现每种算法都有相当大的独特性，证明了它们的互补性。0方法数据集0ImageNet Aircraft NABirds0有监督和无监督 73.64 81.40 55.05 仅有监督2.40 0.03 6.05 仅无监督 10.34 18.45 17.78两者都没有 13.62 0.12 21.120全部无监督 58.19 80.08 30.49 仅BTwins 0.970.24 2.46 仅DCv2 1.74 0.18 4.16 仅MoCo0.69 0.09 0.87 仅SimSiam 0.64 0.00 0.86仅SwAV 1.74 0.21 2.80 无无监督 16.02 0.1527.170非默认设置，以验证我们的其他发现。图6与图2相比，显示训练时间对于学到的表示的差异影响相对较小，尽管在线性评估等基准上性能存在较大差距。虽然线性评估准确率相差几个百分点，但SimCLR训练800个epoch的模型与其他SimCLR检查点更相似，而不是其他无监督算法。我们的训练时间发现与其他设置的结果相反。我们发现裁剪策略和批次大小等细节对神经表示的相似性有巨大影响，以至于具有完整批次大小和裁剪策略的SwAV与具有相同设置的DeepCluster更相关，而与使用小批次大小的SwAV方法不太相关。我们建议未来的研究应该进一步探索这些影响。10020040080010000.20.40.60.81.00.000.00.81.0We use linear CKA to test for augmentation invariancewith respect to color jitter, blurring, jitter with blurring,horizontal and vertical flipping, and rotation. Figure 7 pro-vides evidence that, contrary to the conclusions of [47], andconfirming most other prior work, unsupervised algorithmslearn representations that are invariant to their training aug-mentations. We note that the invariance is at least somewhatweaker for the clustering algorithms, SwAV and DeepClus-ter. Also, the unsupervised methods tend to be somewhatmore invariant to augmentations not used at training time,0.650.700.750.800.850.900.9596490SU 100 200 400 800 10000SU0训练轮数（SimCLR）0SU DC-NC DC SW-NC SW SW-SB0SU0DC-NC0DC0SW-NC0SW0SW-SB0数据设置0线性CKA0图6.在ImageNet验证集上对残差输出进行消融设置的线性CKA结果。顶部是对比有监督（SU）和SimCLR训练100、200、400、800和1000个epoch的结果。底部是对比SU和DeepCluster（DC）以及SwAV（SW）训练400个epoch的结果，以及不进行裁剪的SwAV和DeepCluster训练400个epoch（NC），以及使用较小批次大小（256）的SwAV训练400个epoch的结果。0此外，我们使用线性CKA测试了对颜色抖动、模糊、颜色抖动与模糊的组合、水平和垂直翻转以及旋转的增强不变性。图7提供了证据，与[47]的结论相反，并确认了其他大部分先前的研究，无监督算法学习到的表示对其训练增强具有不变性。我们注意到聚类算法SwAV和DeepCluster的不变性可能稍微较弱。此外，无监督方法对于训练时未使用的增强也具有一定程度的不变性。04.4. 增强不变性0SU BT DC MC SC SS SW0颜色抖动0图像模糊0抖动模糊0水平翻转0垂直翻转0旋转90度0线性CKA，增强与非增强0图7.使用线性CKA对ImageNet上的7种算法进行数据增强不变性测试，其中1种增强（水平翻转）用于所有预训练，3种增强（颜色抖动、模糊和同时使用两种）用于无监督预训练，还有2种未使用的增强。无监督模型对其训练增强具有不变性。0旋转和垂直翻转。然而，这些实验表明，对于颜色至关重要的应用，如鸟类分类，依赖于学习的颜色不变性的方法注定表现不佳。未来的研究可以利用我们的框架来评估缓解颜色不变性的方法的成功。05. 关键要点和结论0我们从研究结果中总结了以下关键要点。首先，没有明确的“最佳”方法。因此，避免过度

下载后可阅读完整内容，剩余1页未读，立即下载