最近邻对比学习的视觉表征：自数据集中的其他实例作为阳性的自监督学习方法

95 浏览量更新于2023-10-15 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9588在朋友的帮助下：视觉表征的最近邻对比学习Debidatta Dwibedi1、Yusuf Aytar2、Jonathan Tompson1、Pierre Sermanet1和Andrew Zisserman21Google Research、2DeepMind{debidatta，yusufaytar，tompson，sermanet，zisserman} @ google.com摘要基于实例判别的自监督学习算法训练编码器对相同实例的预定义变换是不变虽然大多数方法将同一图像的不同视图视为对比度损失的阳性，但我们对使用来自数据集中其他实例的阳性感兴趣。我们的方法，最近邻对比学习的视觉表示（NNCLR），采样最近的邻居从数据集的潜在空间，并把它们作为积极的。这提供了比预定义转换更多的语义变化我们发现，在对比损失中使用最近邻作为正，在线性评估协议下使用ResNet-50显着提高了ImageNet分类的性能，从71.7%提高到75.6%，优于以前的最先进的方法。在半监督学习基准测试中，当只有1%的ImageNet标签可用时，我们显着提高了性能在迁移学习基准测试中，我们的方法在12个下游数据集中的8个上优于最先进的方法（包括ImageNet的监督学习）。此外，我们的经验表明，我们的方法是不太依赖于复杂的数据增强。我们只看到相对减少2。ImageNet Top-1 accu-ricky活泼when we train训练only using运用random随机crops作物.1. 介绍一个人如何理解一个新奇的感官体验？当一个人看到一张新事物的图片时，比如说一只渡渡鸟，他的脑子里会想些什么？即使没有被明确地告知什么是渡渡鸟，他们也可能在渡渡鸟和其他类似的语义类之间形成关联;例如渡渡鸟与鸡或鸭的相似性大于大象或老虎。这种将新的感觉输入与已经体验过的感觉输入进行对比和比较的行为是下意识地发生的，并且对比损失NN（z1）最近邻在支持集支持设置z1z2编码器编码器随机扩增X1X2图像图1：NNCLR训练。我们提出了一个简单的自我监督学习方法，使用类似的例子，从支持集作为积极的对比损失。可能在人类如何快速获得概念方面发挥关键作用。在这项工作中，我们展示了如何在以前看到的例子中找到项目之间的相似性的能力，提高了自我监督表示学习的性能。一种特殊的自我监督训练鼓励模型对单个样本的多次变换保持不变。这种方法在弥合自监督模型和监督模型之间的性能差距方面取得了令人印象深刻的成功[9，25]在实例判别设置中，当模型被示出渡渡鸟的图片时，它通过被训练来区分是什么使得该特定渡渡鸟图像不同于训练集中的其他一切来学习表示在这项工作中，我们提出了一个问题：如果我们授权模型也找到与给定的渡渡鸟图像相似的其他图像样本，它是否会导致更好的学习？当前最先进的实例判别方法9589使用数据增强、随机图像变换（例如，随机裁剪）以获得同一图像的多个视图。这些多个视图被假设为正的，并且通过鼓励正的尽可能接近嵌入空间来学习表示，而不会崩溃到平凡的解决方案。然而，诸如随机裁剪或颜色变化的随机扩增不能为不同视点或相同对象的变形或甚至语义类内的其他类似实例提供正对泛化的责任主要在于数据增强管道，它不能覆盖给定类中的所有方差。在这项工作中，我们有兴趣超越单实例阳性，即实例判别任务。我们希望通过这样做，我们可以学习到更好的特征，这些特征对不同的视点、变形甚至类内变化都是不变的。在[27，36]中已经建立了超越单实例阳性的好处，尽管这些工作需要类标签或多个模态（RGB帧和流）来获得不适用于我们领域的阳性。基于聚类的方法[5，7，60]也提供了一种超越单实例阳性的方法，但假设整个集群（或其原型）是阳性样本可能会由于早期过度泛化而损害性能。相反，我们建议使用最近的邻居在学习的表示空间作为积极的。我们通过鼓励相同样本的不同视图之间的接近度以及它们在潜在空间中的最近邻居来学习我们的表示。通过我们的方法，最近邻对比学习的视觉表示（NNCLR），鼓励该模型一般化，以新的数据点，可能不会被覆盖的数据增强计划在手。换句话说，嵌入空间中的样本的最近邻充当不是虚构的小语义扰动，即，它们代表数据集中的实际语义样本。我们在类似于[9，10]的对比学习环境中实现了我们的方法为了获得最近邻，我们利用一个支持集，该支持集将数据集子集的嵌入保持在内存中。在训练过程中，这种支持也会不断得到补充。请注意，我们的支持集与内存库[50，54]和队列[11]不同我们利用最近邻搜索的支持集检索跨样本的积极。图1给出了该方法的概述。我们做出以下贡献：（i）我们引入NNCLR来学习自监督表示，这些表示将成为单实例阳性，而不诉诸于聚类;（ii）我们证明了NNCLR提高了对比学习方法（例如：SimCLR [10]）关于3 .第三章。8%，达到最先进的性能在ImageNet分类上进行线性评估和有限标签的半监督设置;（iii）我们的方法在12个迁移学习任务中的8个上对自监督甚至监督特征（通过监督的ImageNet预训练学习）执行最先进的方法;最后，(iv)我们表明，通过使用NN作为阳性，仅随机作物增强，我们实现了73.3%的ImageNet准确率。这减少了自监督方法对数据增强策略的依赖2. 相关工作自我监督学习。自监督表示学习旨在从原始数据中获得样本的鲁棒表示，而无需昂贵的标签或注释。这一领域的早期方法集中于定义文本前任务-这通常涉及在具有充足的弱监督标签的域上定义代理任务，如预测图像的旋转[ 24 ]，图像中的补丁的相对位置[ 15 ]，或跟踪视频中的补丁[ 45，52 ]，并使用该任务来学习可能对需要昂贵的注释的其他下游任务有用的不变特征（例如图像分类）。自我监督学习技术的一个广泛类别是使用对比度损失的那些，其已用于广泛的计算机视觉应用[8，26，47]。这些方法学习将正样本（例如，正样本）绘制在一起视频序列中的相邻帧），同时推开负样本（例如，来自其它视频的帧）。在某些情况下，这也是可能的，没有明确的否定[25]。最近，对比学习的一种变体称为实例判别[9，11，17，54]已经取得了相当大的成功，并在各种下游任务上取得了显着的表现[7，9，10，11]。他们在很大程度上缩小了与监督学习的差距。许多技术已被证明是有用的，在这方面的追求：数据增强、对比度损失[9，10，30]、动量编码器[11，25，30]和存储体[11，50，54]。在这项工作中，我们扩展的立场歧视，包括非平凡的积极，不仅在同一图像的增强样本之间，而且从不同的图像。使用原型/聚类[1，2，5，6，7，23，33，53，56，57，58，60]的方法也试图通过将多个样本与同一聚类相关联来学习特征。然而，而不是聚类或学习原型，我们保持一个支持集的图像嵌入和使用最近的邻居从该集合来定义积极的样本。队列和内存库。在我们的工作中，我们在训练期间使用支持集作为存储器。它被实现为类似于MoCo的队列[30]。MoCo使用队列中的元素作为负数，而这项工作使用队列中的最近邻居在对比损失的上下文中找到正数。[54]使用记忆体来保持移动平均值9590我∈我·我我我·--SimCLR+Σ1我exp（zi·zk/τ）SimCLR视图1InfoNCE丢失视图2最近邻CLRInfoNCE丢失视图2支撑集的剩余邻域支持集图2：NNCLR训练数据集中所有样本的嵌入。同样地[60]维护嵌入的聚类集，并使用这些聚合嵌入的最近邻居作为正。在我们的工作中，内存的大小是固定的和独立的-设置.对于任何给定的嵌入样本zi，我们还有另一个正嵌入z+（通常是样本的随机增加）和许多负嵌入z−Ni。那么InfoNCE损失定义如下：训练数据集的dent，我们也不执行任何聚合-InfoNCEexp（zi·z+/τ）在我们的潜在嵌入空间中进行聚类。SwAV [7]存储的不是存储库，而是它的原型中心。用于聚类嵌入。 SWAVLi=−log exp（zi·z+/τ）+Σz−我∈Ni exp（zi z−/τ）（一）通过使用Sinkhorn聚类进行训练来学习，并在整个预训练过程中持续存在。与[7，54，60]不同，我们的支持集不断更新新的嵌入，并且我们不维护嵌入的运行平均值。计算机视觉中的最近邻最近邻搜索已经成为广泛的计算机视觉应用[13，16，28，29，48，53]的重要工具与我们的工作相关，[27]使用最近邻检索来定义跨不同模态（例如，视频表示）的视频表示学习的自我监督。RGB和光流）。相比之下，在这项工作中，我们使用最近邻检索在一个单一的模态（RGB图像），我们保持了一个明确的支持端口集之前的嵌入，以增加多样性。3. 方法我们首先描述对比学习（即信息NCE其中（zi，z+）是正对，（zi，z−）是任何负对，τ是softmax温度。潜在的想法是学习一种表示法，将正对在嵌入空间中拉在一起，同时分离负对。SimCLR使用同一图像的两个视图作为正对。使用随机数据增强产生的这两个视图被馈送通过编码器以获得正嵌入对Z1和Z2+。负对（zi，z−）是使用给定小批中的所有其他嵌入形成的。形式上，给定一小批图像x1，x2..， Xn，针对每个图像X1生成两个不同的随机增强（或视图），并且通过编码器Φ馈送以获得嵌入Z1=Φ（aug（X1））和Z2=Φ（aug（X1）），其中aug（）是随机增强函数。编码器Φ通常是具有非线性投影头的ResNet-50那么SimCLR中使用的InfoNCE损耗定义如下：在歧视的情况下，以及SimCLR [9]是本领域的主要方法之一。接下来我们介绍我们的方法，最近邻视觉表征对比学习（NNCLR）Li=−logexp（ziΣnk=1·Z1/τ）+（二）该方法提出使用最近邻（NN）作为正样本来改进对比实例判别方法。请注意，在损失中计算点积之前，每个嵌入都是l2总损失为3.1. 对比实例判别给定的小批量是LSimCLRn=ni=1LSimCLR。InfoNCE [43，49，54]损失（即对比损失）在实例判别中非常常用[9，30，54]随机扩增小批量随机扩增所有样本编码器编码器InfoNCE丢失视图1支持集视图1的 NN视图2支持集中视图1的最近邻view 1视图1的NN内亚从9591由于SimCLR仅依赖于由相同样本上的预定义数据扩充引入的转换，因此它9592我−L=L。K我我（（zk，Q）zi/τ）+我我不能链接可能属于同一语义类的多个样本，这又可能降低其对于大的类内变化不变的能力。接下来，我们通过介绍我们的方法来解决这一点。3.2. 最近邻CLR（NNCLR）为了增加我们的潜在代表的丰富性这需要保持嵌入的支持集，其代表完整的数据分布。SimCLR使用两个扩充（zi，z+）来形成正对相反，我们提出使用支持集Q中的zi在图2中，我们以示意图的方式将该过程与SimCLR类似，我们从mini-batch中获得负对，并利用InfoNCE损失（1）的变体进行对比学习。基于SimCLR目标（2），我们将NNCLR损失定义如下：视图以更新支持集。使用两个视图在第4.4节中，我们比较了多个支持集变体的性能。4. 实验在本节中，我们将NNCLR功能与其他最先进的自监督图像表示进行比较。首先，我们提供我们的体系结构和培训过程的细节。接下来，按照常用的评估协议[9 ， 10 ，25 ， 30]，我们将我们的方法与 ImageNetILSVRC-2012数据集上的线性评估和半监督学习的其他自监督特征进行了比较。最后，我们提出了将自监督特征转移到其他下游数据集和任务的结果。4.1. 实现细节架构我们使用ResNet-50 [31]作为我们的编码器，以与现有文献[9，25]保持一致。我们对ResNet-50的输出进行空间平均，这使得NNCLRexp（NN（zi，Q）·z+/τ）编码器的输出是2048-D嵌入。建筑师-Li=−logni（3）投影MLP的真实性是3个完全连接的层Σexp（NN（zi，Q）·z+/τ）尺寸哪里使用的嵌入大小其中NN（z，Q）是如下定义的最近邻算子来弥补损失。我们在默认实验中设置d=256。所有完全连接的层后面都是批处理-NN（z，Q）=arg minz q2q∈Q（四）[34]除此最后一个是ReLU激活。预测MLPg的架构是2个全连接层与SimCLR中一样，每个嵌入都是l2归一化的，因此，在损失（3）中计算点积。类似地，我们在（4）中的最近邻操作之前应用l2归一化我们最小化小批量中所有元素的平均损失，以获得最终损失NNCLR1ΣnNNCLRn我i=1大小[4096，d]。预测MLP的隐藏层之后是批量范数和ReLU。最后一层没有batch-norm或激活。训练遵循其他自监督方法[9，10，25，30]，我们在图像上训练我们的NNCLR表示geNet2012数据集，包含1，281，167张图像，不使用任何注释或类标签。我们训练一千实作详细数据。我们使的损失对称度量[35，46]通过将以下项添加到等式 3：−lo g（exp（NN（z，Q）·z+/τ）/ΣnNN·使用LARS优化器[59]，使用余弦退火时间表进行10个权重衰减10- 6在训练中使用这是一种常见的做法--不过，这不会影响性能。还有，受BYOL [25]的启发，我们通过预测传递z+在[10，25]中，我们我头g产生嵌入p++。然后我们用我们使用BYOL [25]i=g（zi）p+而不是（3）中的z+使用预测MLP添加这对我们的性能有很小的提升，如4.4节所示。支撑装置。我们将支持集实现为队列（即先进先出）。支持集被初始化为具有维度[m，d]的随机矩阵，其中m是队列的大小，并且d是嵌入的大小。支持集的大小保持足够大，以便近似嵌入空间中的完整数据集分布我们在每个训练步骤结束时更新它，方法是从当前训练步骤中获取n（批量大小）个嵌入，并在队列的末尾将它们我们从队列中丢弃最旧的n我们只使用一个温度τ为0。当在等式3中的对比损失的计算期间应用软最大值时，图1中的值是0。NNCLR的最佳结果是98，304队列大小和基本学习率[25]为0。3 .第三章。4.2. ImageNet评估ImageNet线性评估。遵循标准线性评估程序[9，25]，我们使用LARS在ResNet-50编码器的冻结2048-d嵌入上训练线性分类器90个历元，余弦退火学习率为1，Nesterov动量为0.9，批量大小为4096。k=1[2048，2048，d]Dk=19593×× ×与现有技术方法的比较见表1。首先，NNCLR实现了最佳性能相比，所有其他方法使用ResNet-50编码器训练两个视图。NNCLR提供3个以上。与MoCo v2 [11]和SimCLR v2 [10]等众所周知的对比学习方法相比，性能提高了6%与InfoMin 8月相比。[51]，明确研究了“好的观点”转换应用于对比学习，NNCLR在top- 1分类性能上实现了超过2%的改进。我们的表现优于BYOL[25]（这是使用两个视图的方法中最先进的方法）超过1%。我们也达到了3。在使用两个视图的相同设置中，与现有技术的基于聚类的方法SwAV [7]相比，改进了6%为了与SwAV的多裁剪模型进行比较在此设置中，我们的方法在Top- 1准确度中优于SwAV0.3%请注意，虽然多作物负责SwAV的3.5%的性能改进，但对于我们的方法，它仅提供了0.2%的提升。然而，二次增加裁剪的数量会增加存储器和计算需求，并且即使如[7]中那样使用低分辨率裁剪也是相当昂贵的。ImageNet上的半监督学习。我们在ImageNet1%和10%子集的半监督设置中评估了我们的特征的有效性，遵循标准评估协议[10，25]。我们在表2中呈现这些结果。表 2 的第一个关键结果是，我们的方法在ImageNet1%子集上的半监督学习方面优于所有现有技术方法，包括SwAV这清楚地表明NNCLR特性具有良好的泛化能力，特别是在低拍摄学习场景中。使用ImageNet10%子集，NNCLR优于SimCLR [9]和其他方法。然而，SwAV4.3. 迁移学习评价我们表明，使用NNCLR学习的表示对于在广泛的数据集上的多个下游分类任务的迁移学习是有效的。我们遵循[25]中描述的线性评估设置。本基准测试中使用的数据集如下： Food101 [4] ， CI-FAR10 [38] ，CIFAR100 [38]，Birdsnap [3]，Sun397 [55]，汽车[37]、飞机[40]、VOC 2007 [19]、DTD [14]、牛津-IIIT-Pets [44] ， Caltech-101 [20] 和 Oxford-Flowers[42]。遵循[25]中概述的评估协议，我们首先使用训练集标签训练线性分类器，同时在相应的验证集上选择最佳正则化超参数。然后，我们将训练集和验证集组合以创建最终训练集，该最终训练集用于训练在测试集上评估的线性分类器。方法Top-1Top-5PIRL [41]63.6-CPC v2 [32]63.885.3PCL [39]65.9-CMC [50]66.287.0[11]第十一话71.1-新加坡[12]71.3-SimCLR v2 [10]71.7-SwAV [7]71.8N/AInfoMin八月[五十一]73.091.1BYOL [25]74.391.6NNCLR（我们的）75.492.3SwAV（多作物）[7] 75.3N/ANNCLR（我们的）（多作物）75.6九十二点四表1：ImageNet线性评估结果。在ResNet-50编码器上与其他自监督学习方法的比较。顶部的方法仅使用两个视图。方法ImageNet1%前5名ImageNet10%前5名监督25.4 48.456.4 80.4InstDisc [54]-39.2-77.4PIRL [41]-57.2-83.8PCL [39]-75.6-86.2SimCLR [9]48.375.565.687.8BYOL [25]53.278.468.889.0NNCLR（我们的）56.480.769.889.3SwAV（多作物）[7]53.978.570.289.9表2：ImageNet上的半监督学习结果。前1名和前5名的性能是在使用ImageNet1%和10%数据集对预训练的ResNet-50进行微调时报告的。我们在表3中展示了迁移学习的结果。NNCLR在12个数据集中的11个上优于监督特征（使用ImageNet标签训练的ResNet-50）。此外，我们的方法在12个数据集中的8个数据集上优于BYOL [25]和SimCLR [9]这些结果进一步验证了NNCLR特征的泛化性能。4.4. 消融在本节中，我们对NNCLR进行了全面的分析。在讨论了默认设置之后，我们首先展示了在各种设置中使用最近邻进行训练的效果。然后，我们提出了几个设计选择，如支持集大小，在前k个最近的邻居，最近的邻居，不同的训练时期，批量大小的变化，和嵌入大小的类型中的变化k。我们还简要讨论了我们的方法的内存和计算开销默认设置. 除非另有说明，否则我们的支持集9594妈妈桨编码器积极Top-1Top-5方法100200400800方法食品101CIFAR10CIFAR100鸟爪SUN397汽车飞机VOC2007DTD宠物加州理工101花BYOL [25]75.391.378.457.262.267.860.682.575.590.494.296.1SimCLR [25]72.890.574.442.460.649.349.881.475.784.689.392.6你好在[9]72.393.678.353.761.966.761.082.874.991.594.594.7NNCLR76.793.779.061.462.567.164.183.075.591.891.395.1表3：使用ImageNet预训练的ResNet-50的迁移学习性能。对于所有数据集，我们报告Top-1分类精度，除了飞机，Caltech-101，宠物和鲜花，我们报告平均每类精度和VOC 2007，我们报告11点MAP。视图171.490.4视图174.591.9C视图1视图1的CNN72.574.991.392.1表4：添加最近邻作为阳性in various不同settings设置.获得ImageNet线性的结果NNCLR69.470.774.274.9评价表5：仅具有作物增加的性能。Im- ageNet top-1线性评价的性能报告。在烧蚀实验期间的批量大小为32，768，而我们的批量大小为4096。我们训练了1000 个epoch，预热10个epoch，基本学习率为0。15和使用LARS优化器的余弦退火时间表 [59] 。我们还默认使用预测头。使用ImageNet线性评估设置执行所有消融。最近邻为阳性。我们在本文中的核心贡献是使用最近邻（NN）作为积极的背景下对比自我监督学习。在这里，我们调查如何这种特殊的变化，使用最近的neighh- bors作为积极的，影响性能在各种设置与不动量编码器。该分析见表4。首先，我们展示了在对比学习中使用NN（第2行）比使用第1行中所示的视图1嵌入（类似于SimCLR）在Top-1准确度上高3%我们还探索在我们的对比设置中使用动量编码器（类似于MoCo[30]）。这里使用NN也将top-1性能提高了2。百分之四数据增强。SimCLR [9]和BYOL [25]都严重依赖于设计良好的数据增强管道来获得最佳性能。然而，NNCLR不太依赖于复杂的增强，因为最近邻已经提供了丰富的样本变化。在这个实验中，我们去除了所有的颜色增强和高斯模糊，并使用随机裁剪作为唯一的增强方法进行训练，按照[25]中使用的设置进行300个时期。我们将结果呈现在表5中。我们注意到NNCLR表6：预训练时期的数量与性能。获得ImageNet线性评估的结果。在ImageNet线性评估任务中实现了68.2%的top-1性能，性能下降仅为4.7%。另一方面，SimCLR和BYOL遭受较大的相对下降的性能，27.6%和13.1%分别。性能下降的差距随着我们训练的时间的延长而减小。在1000个预训练时期，所有增强的NNCLR达到74.9%，而只有随机作物的NNCLR设法达到73.3%，进一步将差距缩小到1.6%。虽然NNCLR也受益于复杂的数据增强操作，对颜色抖动和模糊操作的依赖要少得多。这对于在ImageNet使用的数据转换可能不适合的领域中采用NNCLR进行预训练是令人鼓舞的。预训练阶段。在表6中，我们示出了当我们具有不同的预训练时期预算时，我们的方法与其他方法的比较。当预训练预算保持不变时，NNCLR优于其他自监督方法。我们发现 0.4的基本学习率适用于 100 个epoch，0.3适用于200，400和800个epoch。支持设置大小。增加支持集的大小通常会提高性能。我们在表7a中呈现了该实验的结果。通过使用更大的支持集，我们增加了从完整数据集中获得更接近的最近邻居的机会。还如表7 b中所示，获得最接近的（即top-1）最近邻获得最佳性能，甚至与top-2相比也是如此。我们还发现，增加支持集的大小超过98，304最近邻选择策略。而不是使用SimCLR [9]66.568.369.870.4MoCov2 [11]67.469.971.072.2BYOL [25]66.570.673.274.3SwAV [7]66.569.170.771.8新加坡[12]68.170.070.871.3方法SimCLR [9]BYOL [25]NNCLR全螺旋桨67.972.572.9只有作物40.3（↓-27.6） 59.4（↓-13.1）68.2（↓-4.7）9595最近邻，我们还随机选取前k个NN中的一个进行实验这些结果见表7b。在这里，我们调查是否增加最近邻居的多样性（即。增加k）导致改进的性能。虽然我们的方法对改变k的值有些鲁棒性，但我们发现，将top-k增加到k=1以上总是会导致性能略有下降受最近工作[18，21]的启发，我们还研究了使用软最近邻，支持集中嵌入的凸组合，其中每个嵌入都通过其与嵌入的相似性进行加权（详细信息请参见[18我们在表7e中呈现结果。我们发现，软最近邻可以用于训练，但结果比使用硬NN性能较差。批量大小。批量大小已被证明是影响性能的重要因素，特别是在对比学习环境中。我们改变批量大小并将结果呈现在表7c中。一般来说，较大的批量大小改善了在4096处的性能峰值。嵌入尺寸。我们的方法是鲁棒的选择包埋尺寸如表7d所示。我们不同的嵌入大小的权力2从128到2048，并发现类似的性能在所有设置。如表7f中所示，添加预测头部导致适度的0。前1名业绩提升4%。支持集的不同实现我们还invest- tigate的一些变种，我们如何可以实现的支持集，我们的样本最近的邻居。我们在表8中呈现了该实验的结果。在第一行中，我们不使用队列，而是将来自数据集的一组随机图像通过当前编码器，并使用来自该组嵌入的最近邻居。这工作得相当好，但我们受到加速器内存中可以容纳多少示例的限制。因此，我们不能增加该集合的大小超过16384，这导致次优性能。此外，使用大小为16384的随机集合比使用队列（当用4096的批量大小训练时）慢大约四倍，因为每个前向通过需要通过编码器的四倍多的样本。该实验还表明，NNCLR不需要过去样本的特征（类似于动量编码器[30]）来学习表示。我们还尝试更新元素的支持集随机相对于默认的我们发现，FIFO的结果在2%以上的更好的性能。计算开销。我们发现增加队列的大小会提高性能，但这种改进是以训练时需要额外的内存和计算为代价的。在表9中，我们展示了d=256的队列缩放如何影响训练过程中所需的内存和每秒的训练步骤数对于大约98k个元素的支持大小，我们需要适度的100MB内存。4.5. 讨论地面实况最近邻。我们研究了NN的两个方面：首先，NN与查询具有相同ImageNet标签的频率;第二，如果NN总是从同一个ImageNet类中选择（使用Oracle算法），那么对训练和最终性能的影响是什么？图3显示了从队列中挑选的NN的准确性如何我们观察到，在训练结束时，挑选正确邻居的准确性（即，（来自同一个班级）约为57%。它不更高的原因可能是由于随机作物是背景，因此不包含ImageNet标签所描述的对象。接下来，我们调查如果NNCLR可以实现更好的性能，如果我们的前1 NN总是从相同的图像- geNet类。这非常接近监督学习设置，除了我们使用自监督设置进行训练，而不是直接训练预测类。在[27]中，类似的实验也被描述为UberNCE该实验验证了我们的训练动态是否阻止模型收敛到监督学习基线的性能，即使真实NN是已知的。为此，我们将每个元素的ImageNet标签存储在队列中，并始终选择具有与查询视图相同ImageNet标签的NN。我们观察到，通过这样的设置，我们在300个时期内实现了75.8%的准确度使用来自支持集的Top-1 NN这表明，仍然有可能用更好的NN选择策略来提高性能，尽管可能很难设计出一种以纯粹无监督的方式工作的策略。训练曲线。在图4中，我们显示了使用交叉熵损失的训练与相同观点的增强作为阳性（SimCLR）和使用NN作为阳性（NNCLR）的训练之间的直接比较。训练损失曲线表明NNCLR是一项更困难的任务，因为训练需要从数据集中其他样本的硬阳性中学习。ImageNet分类的线性评估表明，NNCLR需要大约120个历元才能开始优于SimCLR，并且在1000个历元的预训练结束之前保持较高。支持集中的NN。在图5中，我们显示了一个典型的批次在训练结束时从支持集检索到的最近邻居。列1显示视图1的示例，而每行中的其他元素显示从支持集检索到的最近邻。我们假设，性能的改善是由于这种多样性引入的积极因素，这是不包括预定义的数据增强计划。我们观察到，虽然很多时候检索到的神经网络是从同一类，这是并不罕见的检索是基于其他相似性，如纹理。例如，在第3行中，我们观察到检索到的图像都是水下图像，而在第4行中，我们观察到检索到的图像都是水下图像。9596批量256 512 1024 2048 4096 8192电话：+86-021 - 8888888传真：+86-021- 8888888前5名88.7 90.4 91.1 91.692.191.9d128 256 512 1024 2048电话：+86-021 - 88888888传真：+86-021- 88888888前5名92.1 92.1 92.0 92.0 92.0电话：+86-21 - 88888888传真：+86-21 - 88888888最高-1 73.6 74.2 74.9 75.075.4前5名91.2 91.7 92.1 92.292.3前k-kNN 1 2 4 8 16 32电话：+86-021 - 8888888传真：+86-021- 8888888前5名92.191.6 91.5 91.4 91.3 91.2(a) 支持集大小（b）在Top-k NN中改变k(c)批量大小。（d）改变嵌入大小dNN类型软近邻硬近邻前5名71.474.990.492.1预测MLP前1前574.5 92.0C74.9(e)软最近邻与硬最近邻为正。（f）预测水头的影响。表7：NNCLR消融实验。获得ImageNet线性评估的结果。支持集变体尺寸Top-1 Top-5来自当前编码器的来自队列的NN（较旧的嵌入）163841638474.074.291.8891.76表8：支持集的不同实现。420200400600八百一千历元0200400600800一千历元0.60.50.40.30.20.10.0表9：队列大小计算开销。0.70.60.50.40.30.2图4：NNCLR与SimCLR训练曲线和线性评估曲线。支持集视图1的前8个NN0200400600八百一千历元0200400600八百一千历元图3：NN匹配准确度与性能检索不是来自狗类，而是其中包含笼子的所有图像。5. 结论我们提出了一种方法来增加对比自监督学习中的阳性词的多样性。我们通过使用支持集的最近邻居作为阳性来实现。NNCLR在多个数据集上实现了最先进的性能。我们的方法还大大减少了对数据增强技术的依赖。图5：来自支持集的最近邻显示NNCLR中阳性多样性增加。引用[1] Yuki Markus Asano，Christian Rupprecht，and AndreaVedaldi.通过同时聚类和NNCLRSimCLR0.70.60.50.40.30.2NN匹配精度训练损失ImageNet准确度排名ImageNet准确度排名队列大小819216384327686553698304内存（MB）8.416.833.667.3100.8每秒步数6.416.336.145.955.689597表征学习arXiv预印本arXiv：1911.05371，2019。二个[2] Miguel A Bautista，Artsiom Sanakoyeu，EkaterinaSutter，和BjoürnOmme r. Cliquecnn：深度无监督的经验学习。arXiv预印本arXiv：1608.08792，2016。二个[3] 作者：Thomas Berg，Jiongxin Liu，Seung Woo Lee，Michelle L.作者：Alexander，David W.Jacobs和Peter N.贝尔胡默尔鸟快照：对鸟类进行大规模的细粒度视觉分类在Proc.Conf.ComputerVisionandPatternRecognition（CVPR）中，2014年6月。五个[4] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年欧洲计算机视觉会议5[5] 玛蒂尔德·卡隆彼得·波亚诺夫斯基阿曼德·朱兰，还有Matthijs Douze用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页，2018年。二个[6] Mathilde Caron，Piotr Bojanowski，Julien Mairal，andAr-还有裘琳。在非策划数据上对图像特征进行无监督预训练。在IEEE/CVF国际计算机视觉会议，第2959二个[7] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Pi-Otr Bojanowski和Armand Joulin。无监督学习视觉特征对比聚类分配。 arXiv 预印本 arXiv ： 2006.09882 ，2020。二三五六[8] Gal Chechik、Varun Sharma、Uri Shalit和Samy Bengio。大规模在线学习图像相似性通过排名。2010. 二个[9] Ting Chen，Simon Kornblith，Mohammad Norouzi，andGe-奥弗里·辛顿。视觉表征对比学习的一个简单框架国际机器学习会议，第1597PMLR，2020年。一二三四五、六[10] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大的自监督模型是强半监督学习器。 arXiv 预印本 arXiv ：2006.10029，2020。二、四、五[11] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。二、五、六[12] Xinlei Chen，Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv：2011.10566，2020。五、六[13] Ondrej Chum、James Philbin、Josef Sivic、Michael Isard和安德鲁·齐瑟曼。总召回：自动查询扩展与生成特征模型的对象检索。在2007年IEEE第11届计算机视觉国际会议上，第1-8页。IEEE，2007年。三个[14] M. Cimpoi，S. 马吉岛 Kokkinos，S. Mohamed和A.维达尔迪描述野外的纹理。在IEEE Conf. 计算机视觉和模式识别（CVPR），2014年。五个[15] Carl Doersch、Abhinav Gupta和Alexei A Efros。不超-通过上下文预测的可视化表示学习在Proceedings of theIEEE international conference on computer vision，pages1422-1430，2015中。二个[16] Carl Doersch ， Saurabh Singh ， Abhinav Gupta ， JosefSivic，和阿列克谢·埃弗罗斯是什么让巴黎看起来像巴黎？ACMTransactions on Graphics，31（4），2012. 三个[17] Alexey Dosovitskiy ， Jost Tobias Springenberg ， MartinRied-miller，and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。Citeseer，2014. 二个[18] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，PierreSermanet和Andrew Zisserman。时间周期一致性学习。在IEEE/CVF计算机视觉和模式识别会议集，第1801七个[19] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J. 温和A.齐瑟曼。PASCAL Visual Object Classes Challenge2007（VOC2007）http://www.

下载后可阅读完整内容，剩余1页未读，立即下载