弱监督对比学习方法及其在自监督表示中的应用

75 浏览量更新于2023-10-13 收藏 842KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10042弱监督对比学习郑明凯1王飞2*单友1，3<$陈茜1张长水3王晓刚1，4常旭51商汤科技2中国科学技术大学3清华大学自动化系，清华大学人工智能研究院（THUAI）北京国家信息科学技术研究中心4香港中文大学5悉尼大学工程学院计算机科学学院{zhengmingkai，youshan，qianchen}@ sensetime.com，wangfei91@mail.ustc.edu.cnzcs@mail.tsinghua.edu.cn，xgwang@ee.cuhk.edu.hk，c. sydney.edu.au摘要近年来，由于对比学习的研究成果，无监督视觉表征学习现有的对比学习框架大多采用实例判别作为前提任务，将每一个实例都作为一个不同的类来对待。然而，这种方法不可避免地会引起类冲突问题，这会损害学习表示的质量。受此影响，我们引入了一个弱监督对比学习框架（WCL）来解决这个问题。具体来说，我们提出的框架是基于两个投影头，其中一个将执行定期的立场歧视的任务。另一个头将使用基于图的方法来探索相似的样本并生成弱标签，然后基于弱标签执行有监督的对比学习任务，以将相似的图像拉得更近。我们进一步引入了基于K-最近邻的多作物策略来扩大阳性样本的数量。大量的实验结果表明，WCL提高了跨不同数据集的自监督表示的质量值得注意的是，我们得到了半监督学习的新的最先进的仅使用1%和10%的标记示例，WCL使用ResNet 50实现了65%和72%的ImageNet Top-1准确度，甚至高于使用ResNet 101的SimCLRv 2。1. 介绍现代深度卷积神经网络在各种计算机视觉*平等捐款。†通讯作者。类似样品图1.类冲突问题的一个例子。典型的实例判别方法将第一列和第三列视为负对，因为存在不同的实例。然而，第一列和第三列的语义信息非常相似，将它们视为正对应该更为合理。数据集[11，15，30]和边缘设备[45，36，44，35]。然而，大多数成功的方法都是以监督的方式训练的;它们通常需要很难收集的大量标记数据。同时，数据标注的质量也极大地影响着用户的理解能力.近年来，自监督学习显示出其优越性，并在计算机视觉中的非监督和半监督学习（例如，自学习）方面取得了可喜的成果。[6，7，19，8，9，5，18，50]）。这些方法可以学习通用的视觉表示，没有标签，并有良好的性能，线性分类和可移植性，以不同的任务或数据集。值得注意的是，最近的自我监督表示学习框架的很大一部分是基于对比学习的思想。10043典型的基于对比学习的方法采用噪声对比估计（NCE）[27]来执行非参数实例判别[41]作为借口任务，这鼓励同一图像的两个增强视图最近的研究主要从正样本的图像增强和负样本的探索两个方面来提高对比学习的性能。然而，基于实例区分的方法将不可避免地引起类冲突问题，这意味着即使对于非常相似的实例，它们仍然需要被推开，如图1所示。因此，这种实例相似性往往会损害表示质量[1]。通过这种方式，识别甚至利用这些相似的实例在学习表示的性能中起着关键作用。令人惊讶的是，在对比学习中，类碰撞问题似乎很少引起关注。据我们所知，几乎没有努力识别类似的样本。 AdpCLR [49]在嵌入空间上找到前K个最接近的样本，并将这些样本视为它们的正样本。但是，在训练的早期，模型不能有效地从图像中提取语义信息;因此，该方法需要使用SimCLR [6]预训练一段时间，然后切换到 AdpCLR 以获得最佳性能。FNCancel [23]提出了类似的想法，但采用了一种非常不同的方式来找到前K个相似样本;即，对于每个样本，它生成一个包含来自同一图像的不同增强视图的支持集，然后在支持集中的增强视图之间的余弦相似性得分上使用平均或最大聚合策略，并最终识别前K个相似样本。然而，在他们的实验中，最佳支持大小是8，需要8个额外的转发通道来生成嵌入向量。显然，这些方法有两个缺点。首先，两者都很耗时。在第二位置，前K个最接近样本的结果可能不是倒数的，即。 xi是xi的K个最接近样本，但xi可能不是xi的K个最接近样本。在这种情况下，xj将把xi视为正样本，但xi将把xj视为负样本，这将导致一些冲突。本文将实例相似性视为表示学习中的弱监督，提出了一个弱监督对比学习框架（WCL）来解决类冲突问题。在WCL中，假设相似的实例与其他实例相比共享相同的为了确定弱标签，我们将每批实例建模为一个最近邻图;因此，确定弱标记，并且对于图的每个连接分量是互逆的。此外，我们还可以通过基于KNN的多裁剪策略进一步扩展图以传播弱标签，使得我们每个弱标记可以具有更多的阳性。通过这种方式，具有相同弱标签的类似实例可以通过监督对比学习[25]任务拉近。然而，由于挖掘的实例相似性可能是嘈杂的并且不完全可靠，在实践中，我们采用双头框架，其中一个处理这种弱监督任务，而另一个是执行常规的实例判别任务。大量的实验证明，strate我们提出的方法在不同的设置和各种数据集的有效性。我们的贡献可概括如下：• 我们提出了一个基于双头的框架来解决类冲突问题，其中一个头专注于实例判别，另一个头用于提取相似样本。• 我们提出了一个简单的基于图和无参数的方法来找到相似的样本自适应。• 我们引入了一种基于K-最近邻的多作物策略，它可以提供比标准多作物策略更多样化的信息。• 实验结果表明，WCL建立了一个新的国家的最先进的性能对比学习为基础的方法。仅使用1%和10% 的标记样本， WCL 在使用 ResNet 50 的ImageNet上实现了65%和72%的Top-1准确率。值得注意的是，该结果甚至高于使用ResNet101的SimCLRv2。2. 相关工作自我监督学习。自监督学习的早期工作主要集中在不同任务的设计上.例如，预测一对补丁的相对偏移[12]，解决拼图[33]，对同性恋缩放图像进行着色[48]，图像修复[14]，预测旋转角度[16]，无监督深度聚类[4]和图像重建[2，17，13，3，28]。尽管这些方法已经显示出它们的有效性，但是它们缺乏所学习的表示的通用性。对比学习对比学习[27，21，41，40]已经成为自我监督学习领域最成功的方法之一。正如我们提到的，最近的工作主要集中在对正样本的增强例如，SimCLR[6]提出了数据扩充的组合，例如：灰度、随机调整裁剪、颜色抖动和高斯模糊，以使模型对这些变换具有鲁棒性。InfoMin [37]进一步引入了“InfoMin原则”，该原则表明，良好的增强策略应减少正对之间的互信息，同时保持下游任务相关信息不变。为了探索阴性样本的使用，InstDisc [41]提出了一种记忆体存储10044��1=��共享编码器��2=��（联系我们（i=1i=1F·i=1i=1i=1NCEexp（sim（z，z）/τ）联系我们联系我们··（交换实例判别（图2.我们提出的方法的总体框架。我们采用双头结构（g和）。第一头g将执行常规实例辨别任务。第二个头将基于连通分量标记过程生成弱标签，然后使用弱标签执行监督对比学习任务。更多详情请参见第3节。数据集中所有图像的表示MoCo来获得同一实例的两个不同视图，这[19，8]通过使用动量对比机制来增加否定的数量，该动量对比机制迫使查询编码器从缓慢进展的关键字编码器学习表示，并保持长队列以提供大量的否定示例。没有否定的对比学习。与典型的对比学习框架不同，BYOL [18]可以在没有负样本的情况下学习高质量的视觉表示。具体来说，它训练一个在线网络来预测同一图像的目标网络表示可以写成X1N=T（x，θ1）和x2N其中θ是T的随机种子。然后，基于卷积神经网络的编码器（）将从不同的增强中提取信息，其可以表示为h1=（x1N）和h2=（x2N）。最后，非线性投影头z = g（h）将表示h映射到应用NCE目标的空间。如果我们将（zi，zj）表示为正对，则NCE对象可以表示为在不同的增强视图下并使用附加的模型崩溃。SimSiam [9]扩展BYOL以探索L=−logΣexp（sim（zi，zj）/τ）1i]我 K.（一）进一步探讨了对比学习中的连体结构。令人惊讶的是，SimSiam即使在没有目标网络和大批量的情况下也能防止模型崩溃;虽然线性评估结果低于BYOL，但它在下游任务中表现3. 方法在本节中，我们将首先回顾对比学习的初步工作，并解决其局限性。然后，我们将介绍我们提出的弱监督对比学习框架（WCL），它自动挖掘相似的样本，同时做的实例判别。之后，还将解释算法和实现细节。3.1. 再论对比学习典型的对比学习方法采用噪声对比估计（NCE）目标来区分数据集中的不同实例具体而言，NCE目标鼓励同一实例的不同扩充在潜在空间中拉近，同时又排斥不同实例在SimCLR[6]中，给定一批未标记样本{x}N，我们随机应用增强函数T（·）的组合3.2. 实例相似性作为弱监督基于实例判别的方法已经在无监督预训练中表现出了良好的性能。然而，这一解决方案忽略了不同图像之间的关系，因为只有来自同一图像的增强将被视为同一类。受以前工作的启发，我们可以利用嵌入向量来探索不同图像之间的关系。具体来说，我们将基于嵌入向量生成弱标签，然后将其用作监督信号，以吸引嵌入空间中的相似样本。然而，直接运用弱监督会产生两个问题.首先，在“实例区分”和“相似样本吸引”之间存在自然冲突第二，在弱标签中可能存在噪声，特别是在早期训练阶段。简单地基于弱标记吸引相似样本将减慢模型的收敛速度。双头框架。为了解决这些问题，我们提出了一种辅助投影头（）。在这种情况下，主投影头g（）仍将执行常规的实例判别任务以聚焦于实例级信息;辅助投影头由1212在线编码器上的预测器网络，以避免Nk=1[k10045·∈我N我supexp（sim（v，v）/τ）BEHJ(A) 邻接矩阵（B）最近邻图图3.弱标记生成的过程。（C）弱标签与g（）具有相同的结构，并且将探索相似的样本，并且生成弱标记作为监督信号以吸引相似的样本。有了这两个不同职责的负责人，我们可以进一步将功能转换为通过编码器F将其嵌入到不同的嵌入空间中，然后，对于每个样本vi，我们通过计算余弦相似性得分来找到最接近的样本vj现在，我们可以通过以下方式定义邻接矩阵：.1、如果i=k1或j=k1解决冲突。此外，主投影头将确保模型的收敛性，A（i，j）=J I0，否则（五）标签有一些噪音。从辅助投影头提取的信息可以写为vi=（F（T（xi，θ）.（二）假设我们已经基于v获得了弱标签y RN× N，其表示一对样本是否相似（即，yij= 1意味着xi和xi相似）。与Eq不同（1）通过增广自然形成正对的因此，我们可以利用标签yij来指示xi和xj是否可以产生正对。通过将指示符1yij=1引入到Eq.（1）、我们实现了监督这里，我们使用k1来表示vi的1-最近邻。基本上，Eq。（5）将生成稀疏且对称的1-最近邻图，其中每个顶点与其最近的样本链接为了找出所有相似的样本，我们可以将这个问题转化为连接组件标记（CCL）过程;也就是说，对于每个样本，我们希望基于1-最近邻图找到所有可达样本。这是一个传统的图形问题，可以通过著名的Hoshen-Kopelman算法[ 22 ]（也称为两遍算法）轻松解决。我们定义一个不规则图G=（V，E），其中V是从的嵌入，E连接顶点A（i，j）= 1.对比损失[25]L=1ΣLi（三）该算法采用Disjoint-set数据结构，其由三个操作组成：makeSet、union和find（参见supNNi=0时sup算法1中的定义）。基本上，它首先为V中的每个v创建一个单光子集，然后遍历E中的每条边并通过边合并不同的集合;最后，它重新-L=−1J日志exp（sim（vi，vi）/τ），k=1[k=i]我 K这已经被证明比传统的监督交叉熵损失更有效。3.3. 弱标签生成yij=1，如果find（vi）= find（vj）且ij0，否则（六）在本节中，我们将详细说明如何为小批量样本生成弱标签。总体思路可以概括为两点：第一，对于每个样本，最接近的样本可以视为相似样本。其次，如果（xi，xj）和（xj，xk）是两对相似样本，则我们可以认为xi和xk也是相似的。假设我们使用辅助投影头将一批样本映射到N个嵌入V={v1，v2，…vN}。一DCFG我一BEDC我FHGJΣ.yij=1N1为所属的每个顶点旋转集回到我们（四）一BCDEFGH我J一0110100000B1000000000C1001000000D0010000000E1000000000F0000001000G0000010100H0000001000我0000000001J0000000010根据所提出的想法，我们将把同一集合中的样本视为相似样本。现在，弱标签可以定义为：10046这种弱标记生成方法具有若干优点。• 这是一个无参数的过程，因此我们不需要任何超参数优化。• 基于无向图和连通分支的定义，弱标号总是互逆的。（即yij=yji）• 这是一个确定性的过程;最终结果不依赖于任何初始状态。10047i=1∪i=1Fi=1i=1LLLLLL1 2 21L联系我们LL算法一：连接组件标签输入：邻接矩阵G=（V，E）定义makeSet（v）：创建一个新的集合，其中元素v定义union（A，B）：返回集合A Bfind（v）：返回包含v的集合对于V中的V做makeSet（v）端对于E中的每个（vi，vj，算法二：弱监督对比学习（WCL）输入：x1N和x2N：一批具有不同扩增的样品。：骨干网。g：第一投影头。：辅助投影头。当网络不收敛时，初始化一个空列表L ;对于i=1，步骤d 0如果find（vi）find（vj）则h1=F（{x1}N） h2=F（{x2}N）union（find（vi），find（vj））结束结束对于V中的每个v，doreturn set contains v：find（v）端输出：每个v的连接分量的相应标识。弱标记将用作辅助投影头的监控信号。然而，如果vi和vj在同一集合中，则sim（vi，vj）很可能是大的数。根据等式（4）、直接使用弱标记会导致sup很小，不利于模型为了解决这个问题，我们可以简单地交换弱标签来监督具有不同增强的同一批样本。具体地说，我们从两种类型的增广中得到嵌入V1和V2，在此基础上，我们生成相应的弱标签y1，y2。则y1将被用作V2，反之亦然。 Eq.的交换版本（3）可以写为：Lswap=Lsup（V，y）+Lsup（V，y）。（七）3.4. 多作物标签传播由于图像的随机裁剪之间的比较在对比学习中起着关键作用，因此有很多以前的工作[10]指出，增加裁剪或视图的数量可以显着提高表示质量。SwAV [5]引入了一种多作物策略，在每个批次中添加K个额外的低分辨率作物。使用低分辨率图像可以大大降低计算成本。然而，同一图像的多个裁剪可以具有许多重叠区域。在这种情况下，更多的作物可能无法提供额外的有效信息。为了解决这个问题，我们提出了一种基于K-近邻的多作物算法战略具体来说，我们将为每个批次存储特征h1，然后使用这些特征在每个时期结束时基于余弦相似性找到K个最接近的样本最后，我们将在下一个时期使用K个最接近图像的低分辨率作物。如果我们在K-NN多作物上应用交换，正样本的数量可以扩展到K倍。注意，K-NN结果是不真实的。z1=g（h1）z2=g（h2）v1=（h1）v2=（h2）计算对比损失NCE公式（1）基于v1、v2生成弱标签y1、y2（7）计算cNCE和cswap通过整体等式（8）将h1附加到列表L;端基于L计算每个样本的K端输出：经过良好训练的模型F早期培训责任心强;因此，我们应该使用标准的多作物策略来预热模型一定数量的时期，然后切换到我们的K-NN多作物以获得更好的性能。(See在我们的实验中有更多细节）。如果我们使用cNCE和cswap来表示多作物图像的对比损失和交换损失，则我们的弱监督对比学习框架的总体训练目标可以表示为L总体=LNCE+λLcNCE+βLswap+γLcswap，（8）其中λ、β和γ是超参数。我们简单地取λ=1，β=0。5且γ=0。5在我们的实施中更多细节请参见算法2。4. 实验结果4.1. 消融研究在本节中，我们将在不同的批量大小，时期，数据集（CIFAR-10，CIFAR-100，ImageNet 100）下实证研究我们的弱监督对比学习（WCL）框架，并通过广泛的实验显示每个组件的有效性。CIFAR-10和CIFAR-100。CIFAR-10[26]数据集由10个类别的60000个32x32彩色图像组成有50000个训练图像和10000个测试图像。CIFAR-100与CIFAR-10类似，不同之处在于它有100个类，每个类包含600个图像。每个类有500个训练图像和100个测试图像。我们使用ResNet50 [20]作为我们的骨干网络。因为训练图像仅包含32x32像素，所以我们将步幅2的第一个7x7 Conv替换为10048×√L×LLLLL×表1.在不同批量和训练时期的CIFAR-10和CIFAR-100上的实验批量方法CIFAR10CIFAR100100 ep200 ep300 ep400ep100 ep200 ep300 ep400ep64SimCLR77.2080.6482.7784.4852.3555.8658.1859.9664WCL（我们的）79.17（+1.97）83.54（+2.90）85.68（+2.91）86.64（+2.16）53.54（+1.19）56.57（+0.71）59.29（+1.11）60.76（+0.80）128SimCLR79.6483.5785.7086.7254.7259.1960.8862.20128WCL（我们的）81.82（+2.18）85.65（+2.08）87.81（+2.91）88.65（+1.93）55.46（+0.74）60.30（+1.11）61.73（+0.85）63.17（+0.97）256SimCLR81.7885.3487.2988.4857.1661.1863.4964.20256WCL（我们的）83.12（+1.34）87.57（+2.23）88.85（+1.56）89.47（+0.98）57.85（+0.70）62.98（+1.80）64.21（+0.72）64.93（+0.73）3x 3转换步幅1，并删除第一个最大池- ING操作。我们使用2-Layer-MLP用于两个非线性投影头。对于数据增强，我们使用随机调整大小的裁剪（随机裁剪比率的下限被设置为0.2）、颜色失真（强度=0.5），并且省略高斯模糊。使用LARS优化器[46]动量为0.9，重量衰减为1e−6。我们将学习率线性预热10个epoch，直到它达到0。25BatchSize/256，然后切换到余弦衰减调度器[31]。温度参数τ总是被设置为0。1.一、要执行连接组件标记过程，我们只需使用Scipy库[ 39 ]中的我们将对CIFAR-10和CIFAR-100使用相同的培训策略。ImageNet-100. ImageNet-100 数据集是从 ILSVRC2010 ImageNet [11]中随机选择的子集。(We在我们的实验中，只取前100个班级。）为了训练ImageNet-100，我们严格遵循SimCLR [6]中报告的训练策略。具体来说，我们设置BatchSize=2048，并使用LARS优化器和lr=0。075批量大小。此外，我们发现SimCLR中使用的默认增广可能太强，这使得模型在开始时很难收敛;因此，我们在前10个时期中采用相同但稍弱的增强版本（在MoCoV 2 [ 8 ]中使用的版本），然后在预热后将其切换回原始增强。该模型将针对200个epoch进行优化，其余设置（包括温度、重量衰减等）与我们的CIFAR培训相同。评价方案。为了测试表示质量，我们在广泛采用的线性评估协议上评估我们训练有素的模型。我们将冻结编码器参数，并通过使用动量为0.9的标准SGD优化器学习率为0。1BatchSize/256和余弦衰减调度程序。我们如权重衰减和梯度裁剪。该模型将被训练80个epoch，然后在测试集上进行评估。监管不力的影响。我们选择SimCLR作为我们的基线，并将其与我们的方法在BatchSize =64，128，256和Epoch=100，200，300，400上进行比较。注意的是这些实验;我们不使用任何多作物策略;只有一个额外的交换应用于Simplified之上。表1示出了结果。显然，我们提出的方法在所有设置中的性能都大大优于基线。对于CIFAR-10，我们从0. 98%，2。91%基于不同的设置。对于CIFAR-100，改善是从0. 73%对1。百分之八十表2.双头框架的有效性（ImageNet100）GϕLNCEL互换LcNCEL交换Top-1✓✓✓✓✓✓✓✓✓✓✓75.7971.3375.2677.51✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓79.0679.0879.77双头框架的效果。我们还进行了广泛的消融研究，以检查我们的两个头部为基础的框架的有效性。实验主要在ImageNet-100数据集上进行，结果如表2所示。注意，该实验中的cNCE和cswap基于标准多作物策略（没有KNN）。第一行是SimCLR基线。第二行是仅应用交换的情况;模型仍然可以学习有意义的表示，但导致比基线更差的准确性我们还尝试在同一个头上同时应用NCE和swap;从第三行，我们可以看到有一个0。性能下降53%我们怀疑这是因为实例区分和相似样本吸引之间的冲突第四行显示了我们提出的方法，该方法将不同头上的两个任务在这种情况下，我们得到1。比基线提高了72%，这验证了我们的假设。最后三行显示了使用多作物策略的结果，而性能可以进一步提高2. 百分之二十六10049××××K-NN多作物的效果。正如我们所提到的，K-NN结果在早期训练中是不可靠的，我们需要使用标准的多作物策略来预热模型一定数量的时期。表3示出了不同数量的预热时期的结果。我们可以清楚地看到，在50个预热时期的情况下，我们的K-NN多作物策略相对于标准多作物具有 1%的改进（参见表2中的最后一行）。最后，我们提出的方法实现了80。78%的Top-1线性评估准确率，比Sim-CLR基线（75. 79%）。表3.K-NN多作物的预热时期（K=4）历元0255075100精度79.7380.2580.7880.6380.23可视化。图4显示了t-SNE可视化[38]从随机选择的10个类别中选择h。与SimCLR的比较我们的弱监督对比学习框架可以增强更好的类内一致性和类间差异。SimCLR我们图4. SimCLR的t-SNE可视化及其方法4.2. ImageNet-1 K数据集我们还在大规模ImageNet-1 k数据集上执行了我们的算法[11]。训练策略与我们的ImageNet-100训练相同，除了我们采用更大的批量大小（4096）并对两个投影头使用3层MLP对于K-NN多作物，我们简单地从表3中选取最佳策略，这意味着我们将在前25%的时期使用标准的多作物策略，然后切换到我们的K-NN版本。表4.比较ImageNet-1 K方法历元GPU（时间）访问SimCLR1001.0066.4FNCancel100-68.1WCL（我们的）1001.0168.1SimCLR100010.0070.3FNCancel +多作物1002.8570.4WCL（Ours）+多种作物100 1.3171.0比较FNCancel。[23]表4显示了我们提出的方法与FNCancel和SimCLR之间的比较。注意，为了公平比较，所有模型都使用3层MLP投影头进行训练。正如我们所看到的，在可以忽略不计的额外计算成本（ 0.01 ）的情况下，我们提出的方法可以超过Simplified基线1。7%和使用FNCancel实现了相同的结果。FNCancel没有在论文中报告标准的时间使用情况，但由于它需要8个额外的前向传递来生成支持视图嵌入，因此它们的实际计算成本将比我们的高我们还比较了结果与多作物策略。在这种情况下，我们使用2160 160图像作为我们的主视图和6个额外的96 96K-NN作物。请看最后一行;我们提出的方法可以实现71.0 top-1的准确度，而成本仅比SimCLR多31%这比FNCancel快两倍，线性评估提高了0.6%。表5. 使用ResNet-50骨干网对ImageNet进行线性评价时的准确度排名前1。该表比较了超过200个预训练时期的方法。* 表示多作物策略。方法监督拱R50Param24历元-Top-176.5[第41话]R502420058.5简体中文[CN]R502420058.8SimCLR [6]R502420066.8MOCO [19]R502420060.8MOCO v2 [8]R502420067.5[第24话]R502420068.0[27]第二十七话R502420063.8[29]第二十九话R502420067.6新加坡[9]R502420070.0SwAV [5]R502420069.1SwAV*[5]R502420072.7WCL（我们的）R502420070.3WCL*（我们的）R502420073.3表6.ImageNet上线性评估的前1名准确度该表比较了具有更多预训练时期的方法。* 德国注意到多作物战略。方法Arch参数Epochs Top-1监督R50 24 - 76.5[43]第四十三话R502440061.5SimCLR [6]R502480069.1SimCLR v2 [7]R502480071.7MOCO v2 [8]R502480071.1新加坡[9]R502480071.3SwAV [5]R502480071.8BYOL [18]R5024100074.3[23]第二十三话R5024100074.4附件[49] R50 24 1100 72.3WCL（我们的）R502480072.2WCL*（我们的）R502480074.7别人* [5] R50 24 80075.3线性评价。对于ImageNet-1 k的线性评估，我们严格遵循SimCLR [6]中的设置。表5和表6显示了200个时期和800个时期的训练结果。我们还报告了结果与2224 224和6个额外的96 96K-NN作物（如在SwAV[5]）。我们可以清楚地看到，当模型被优化200个10050epoch时，我们提出的方法达到了状态10051表7.基于VOC07的低拍图像分类方法随机历元-k=18.92K=29.33K=410.10K=810.42K=1610.82K=3211.34k=6411.96充分12.42监督9054.4668.1573.7979.5182.2684.0085.1387.27MOCO v2 [8]20046.3058.4064.8572.4776.1479.1681.5284.60[29]第二十九话20047.8859.5966.2174.4578.3480.7282.6785.43SwAV [5]20043.0755.6564.8273.1778.3881.8684.4087.47WCL（我们的）20048.0660.1268.5276.1680.2482.9785.0187.75SwAV [5]40042.1455.3464.3173.0878.4782.0984.6287.78SwAV [5]80042.8554.9064.0372.9478.6582.3284.9088.13WCL（我们的）80048.25 60.68 68.52 76.48 81.05 83.89 85.88 88.64在所有最近的自监督学习框架中，这是最先进的性能当模型被训练800个epoch时，我们的模型仍然可以超过最近的作品，但略低于SwAV。表8.ImageNet半监督评估。百分之十方法Top-1 Top-5 Top-1 Top-5监督25.4 56.4 48.4 80.4半监督S4L [47]-53.4-83.8UDA [42]-68.8-88.5[34]第三十四话- -71.4689.1自监督从AvgPool[第41话]-39.2-77.4PCL [29]-75.6-86.2PIRL [32]30.760.457.283.8SimCLR v1 [6]48.375.565.687.8BYOL [18]53.278.468.889.0SwAV [5]53.978.570.289.9世界劳联（我们的）来自投影头SimCLR v2（R50）[7]57.9-68.4-SimCLR v2（R101）[7]62.1-71.4-[23]第二十三话63.785.371.190.2世界劳联（我们的）65.0 86.3 72.0 91.2半监督学习接下来，我们评估的性能时，微调模型表示和灰使用一个小子集的标记数据。为了进行公平的比较，我们从SimCLR [6]中获取相同的标记列表具体来说，我们报告我们的结果在两个不同的设置。首先，我们遵循PCL [29]中的策略，并从ResNet50 [20]网络的平均池化层进行微调在这种情况下，我们的模型在1%标签上的表现优于先前的最先进水平（SwAV）4.4%，在10%标签上的表现优于先前的最先进水平（SwAV）0.9%然后，我们还遵循SimCLRv2 [7]中的策略，从投影头的第一层进行微调。在这种情况下，我们的方法在1%和10%的标签上比FNCancel有1.3%和0.9%的改进。值得注意的是，该结果甚至高于具有ResNet101骨架的SimCLRv2。迁移学习。最后，我们通过将它们转移到其他数据集来进一步评估学习的表示的质量。在[29，5]之后，我们对PASCAL VOC2007数据集进行线性分类[15]。具体-10052通常，我们沿着较短的边将所有图像调整为256像素，并采取224 × 224的中心裁剪。然后，我们在相应的全局平均池化最终表示之上训练线性SVM。为了研究在少数镜头的情况下的表示的可转移性，我们改变标记的例子k的数量和报告的mAP。表7显示了我们的方法与以前的作品之间的比较。我们报告了5次运行的平均性能（k=full除外）。我们的方法和SwAV的结果都是基于多作物版本。当模型具有200个epoch的预训练时，我们的方法和SwAV已经可以在整个数据集上进行监督预训练有趣的是，我们的方法是显着优于所有其他作品，特别是当k是小的。当模型具有更多的预训练时期时，我们的方法甚至可以超过k = 64的监督预训练，并且在所有不同的k值上始终具有比SwAV更高的性能。5. 结论在这项工作中，我们提出了一个弱监督对比学习框架，由两个投影头，其中一个专注于实例判别任务，另一个头采用连接组件标记过程来生成弱标签，然后通过将弱标签交换到不同的增强来执行监督对比学习任务。最后，本文提出了一种新的基于K-NN的多作物策略，该策略具有更有效的信息量，并将正样本数扩大到K倍。在CIFAR- 10、CIFAR-100、ImageNet-100上的实验半监督学习和迁移学习的结果证明了无监督表示学习的最新性能。确认本课题由国家重点研究发展计划（2004）资助。2018AAA0100701）和NSFC 61876095。 Chang Xu的研究得到了澳大利亚研究委员会的部分支持，项目DE180101438和DP210101859。北京市博士后科研工作基金资助项目.10053引用[1] S. Arora，Hrishikesh Khandeparkar，M. Khodak，OrestisPlevrakis和Nikunj Saunshi。对比无监督表示学习的理论分析。ArXiv，abs/1902.09229，2019。2[2] 皮埃尔·巴尔迪自动编码器、无监督学习和深度架构。2011年国际无监督和迁移学习研讨会会议记录-第27，UTLWJMLR.org，2011年。2[3] A. Brock，J. Donahue，and K.西蒙尼扬用于高保真自然图像合成的大规模gan训练。ArXiv，abs/1809.11096，2019。2[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在2018年欧洲计算机视觉会议2[5] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。2020. 一、五、七、八[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。一二三六七八[7] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大的自监督模型是强半监督学习器。 arXiv 预印本 arXiv ：2006.10029，2020。一、七、八[8] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。一、三、六、七、八[9] Xinlei Chen，Kaiming He.探索简单的暹罗代表学习，2020年。一、三、七[10] Ching-Yao Chuang，Joshua Robinson，Lin Yen-Chen，Antonio Torralba，and Stefanie Jegelka. 去偏见对比学习。在神经信息处理系统的进展，2020年。5[11] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。一、六、七[12] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习2015年，国际计算机视觉会议（ICCV）。2[13] Donahue 和 K. 西蒙尼扬大规模对抗性表征学习。NeurIPS，2019。2[14] OmarElHarrouss，NoorAlmaadeed，S. Al-M a'adeed和Y.阿克巴里图像修复：审查. Neural Processing Letters，51：2007-2028，2019。2[15] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2007（VOC2007）http://www.pascal-network.org/challenges/VOC/voc2007/workshop/index.html啊1、8[16] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。 ArXiv ，abs/1803.07728，2018。2[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani ， M. 威灵角 Cortes ， N.Lawrence 和 K.Q. Wein-berger，编辑，神经信息处理系统进展，第27卷，第2672-2680页。柯伦联合公司股份有限公司、2014. 2[18] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，Corent

下载后可阅读完整内容，剩余1页未读，立即下载