解决自监督表示学习的低效问题

7 浏览量更新于2023-10-13 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

950572解决自监督表示学习的低效问题王广润1、2王克泽4王广聪3PhilipH.S.Torr2Liang Lin，香港，中国1中山大学2牛津大学3南洋理工大学4DarkMatter AI Research{wanggrun，wanggc3，kezewang} @ gmail.com，philip. eng.ox.ac.uk，linliang@ieee.org摘要80Acc（%）78监督我们的自我监督学习（尤其是对比学习）76我们的得分线：76.4ing）由于其在以无监督方式学习判别表示方面的巨大潜力而引起了极大的兴趣。尽管取得了公认的成功，但现有的对比学习方法的学习效率非常低。74SwAVBYOL70SimSiam68SwAVMoCo v266缺乏，例如，比监督学习多花大约十倍的训练时间，以获得可比的识别精度。64MoCo v162SimCLR活泼在本文中，我们揭示了两个矛盾的现象-600 200 400 600 800历元1000ena在对比学习中，我们称之为欠聚类和过聚类问题，这是学习效率的主要障碍。欠聚类意味着当用于对比学习的负样本对不足以区分所有实际对象类时，模型不能有效地学习以发现类间样本之间的差异。过度聚类意味着模型不能有效地从过多的负样本对中学习特征，迫使模型将相同实际类别的样本过度聚类到不同的聚类中。为了同时克服这两个问题，我们提出了一种新的自我监督学习框架，使用截断的三重损失。准确地说，我们采用倾向于最大化正对和负对之间的相对距离的三重丢失来解决欠聚类问题;通过从所有负样本中选择一个负样本代理来构造负样本对，以避免由Bernoulli分布模型保证的过聚类问题。我们在几个大规模的基准测试中广泛地评估了我们的ImageNet、SYSU- 30k和COCO）。结果证明了我们模型的优越性（例如，学习效率）明显优于最新的现有技术方法。参见代码1。1. 介绍最近，自监督学习（SSL）在表示学习中显示出显著的结果。其中，对比学习的结果在*通讯作者。1https://github.com/wanggrun/triplet图1.使用ResNet-50比较不同SSL方法的学习效率这里，x轴表示SSL的训练时期，y轴表示ImageNet线性评估的top-1准确度。所有方法的学习效率都低于监督学习，但我们的方法比现有的SSL方法具有显着更高的（最佳彩色）计算机视觉任务值得注意的作品包括MoCo v1/v2[24，8]，SimCLR [7]，BYOL [22]和SimSiam [9]。为例如，在ImageNet [36]上，BYOL的top-1准确率为74.3%，接近监督学习，即，76.4% [49，1，28，32]（见尽管有希望的准确性和高期望，最先进的SSL方法的学习效率比监督学习方法低约十倍。例如，监督学习方法通常需要大约100个epoch来在ImageNet上训练ResNet50相比之下，SimCLR和BYOL必须花费1,000个epoch，MoCo v2需要花费800个epoch（见图1）。为了解决这个问题，我们重新考虑了现有的SSL方法欠聚类和过聚类。具体地，在批量训练期间，对比学习随机地裁剪每个图像两次以获得两个视图并研究这两个视图之间的相似性（称为正样本对2）。同时，也有一些方法研究了跨图像视图之间的相异性（称为负样本对3）.优化的目标是减少位置之间的距离2例如，图像X的视图A和视图B3例如，图像X的视图A和图像Y的视图B9506|一有效样本对之间的距离，并扩大负样本对之间的距离正如度量学习[12]所建议的，需要足够的负样本对来保证学习效率。否则，缺乏负样本-无论是由于GPU内存约束（如SimCLR）还是（ii）算法设计（如BYOL和SimSiam [9]）-都可能使不同的对象类别具有重叠。这被识别为欠聚类问题。下聚类的一个证据示于表14中。SimCLR和BYOL模型由于欠聚类问题，不能有效地发现类间样本的差异性，学习效率较低相反，过多的负样本会导致相反的问题，即，过聚类，这意味着阴性样本是假阴性的，并且模型将相同实际类别的样本过聚类到不同的聚类中。在极端情况下，ImageNet将有128万个集群过度聚类的一个证据在表15中。过度聚类还导致低学习效率，因为它徒劳地鼓励正如[54，3]所报道的，过度聚类可能导致不必要的有害表示学习。例如，[15，14]由于直接将CIFAR-10澄清为50 K簇而获得不满意的性能。MoCo vl/v2不能进一步提高准确性，即使利用动量来存储大量负样本。综上所述，现有的对比学习方法不能避免欠聚类或过聚类问题，学习效率仍然较低。为了解决上述欠聚类和过度训练问题，已经提出了一些开创性的工作来分析负样本在对比损失中的作用[10，35，4，27]。与这些使用过于复杂的对比损失的方法相反，我们提出了一种使用非常简单的截断三重态损失的SSL框架。具体地，三重态损失可以使每个三重态单元的正对和负对之间的相对距离最大化。有了大量的三元组，我们可以解决欠聚类问题，因为富有的三元组包含丰富的负对，保证了负样本对之间的相当大的距离。三重丢失在很大程度上解决了聚类不足的问题，但提出了过度聚类的问题。因此，我们提出了一种新的截断三重损失，以避免过度聚类样本从同一类别到不同的集群。截断的三元组由伯努利分布模型保证置信度。这大大提高了SSL4我们计算每个类别的类中心，并计算每两个类中心的距离。这些中心到中心的距离被平均以形成类发散。我们保持方差相等，这样我们就可以比较类散度。表1中的小类分歧指示BYOL确实遭受欠聚类。5我们使用Pr（ω| A）（定义见第5节）表示以下可能性发散（Divergence）BYOL我们5.37117.6803过聚类（Pr（ω|（A））MoCo v2我们1.00.0110表1.过/欠聚类的定性分析。我们分别使用Pr（ω）（越大，过聚类风险越高）和类散度（越小，欠聚类风险越高）来度量过/欠聚类水平带来最先进的性能（见图1）。总之，我们的贡献有三个方面。• 我们分析了现有的性能最好的对比学习方法，并将其低学习效率归因于欠聚类和过聚类，这导致不必要的有害的表示学习只是为了记忆数据。• 为了解决聚类不足和过度训练的问题，我们提出了一种新的SSL框架，使用截断的三重丢失。准确地说，我们采用包含丰富负样本的三重损失来解决欠聚类问题，并且我们的三重损失使用截断/修剪的三重来避免过度聚类，这由伯努利分布模型来保证。• 我们的方法显著提高了SSLImageNet [36]，SYSU-30 k [46]和COCO 2017 [29]）和各种下游任务。2. 相关工作香草SSL。最近SSL的复兴起源于简单的借口任务。典型的借口任务包括图像去噪[41]，图像修复[33]，补丁排序[13]，解决拼图[31]，颜色抖动[55]和旋转预测[19]。虽然这些方法有助于SSL的复兴，但它们的学习表示并没有很好地推广。对比学习。目前，计算机视觉中最有效的SSL方法是对比学习[7，24，8，22，6]，其中鼓励类内距离较小，并且类间距离被迫较大。需要大量的正样本和负样本来发现相似性和不相似性，这需要大量的GPU内存[7]。为了解决这个问题，Sim-100 [7]采用多机分布式计算来扩大批量。然而，由于GPU存储器限制，进一步增加正/负样本在实践中是禁止的，这形成了改进SSL的障碍。我们确定这是一个下集群的问题。为了避免聚类不足，更优雅地说，Mean Teacher[38] 是用来产生足够的负[24，8]，包含一批假阴性样本高概率在表1验证MoCo v2确实遭受过聚类。6虽然类标签是未知的。9507联系我们MΣ−121212不+的不−不−T−m(a) 欠聚类（b）理想聚类（c）过聚类图2.下集群和上集群的说明由黄线连接的每个样本对表示负对。阳性样本[22，6]。此外，Exemplar-CNN [15，14]直接将数据集中的每个图像澄清为聚类，即，它将CIFAR-10分类为50 K簇。然而，它获得了不令人满意的性能。我们认为这是一个过度聚类的问题。具体地，由于每个图像可以被认为是一个聚类，过多的负样本对可以将来自相同类别的样本过度聚类到不同的聚类中。这种过度聚类可能导致糟糕的表示学习，因为网络只是记忆数据而不是从数据中学习[54，3]。为了减少过度聚类，最近的作品重新思考负样本的必要性，并提出删除负样本。著名的作品包括BYOL[22]和SimSiam [9]。然而，一旦去除负样本，欠聚类可能会再次发生，因为模型不能有效地发现类间样本之间的相异性（证据见表1）。此外，本文还对负样本在对比损失中的作用进行了一些开创性的研究。[4]使用经验证据表明，并非所有的负面因素对对比学习都同样重要。[27]用了一种复杂的方法来消除假阴性[10，35]观察到使用非常接近的样本不利于对比学习，并利用分布知识来解决问题。与使用过于复杂的对比损失的这些方法相反，我们使用相当简单的三重态损失。三重丢失。三重损失是丁等人提出的。[12]和Schroff等人[37]独立地为人重新-抽样策略，分享我们的方法的优点，避免过度信任最难的负样本，有利于表示学习。我们的截断三重态损失和半硬采样策略之间的差异是双重的。首先，如果我们阅读TensorFlow和Pytorch中广泛使用的代码，我们可以发现半硬三元组损失是基于margin的损失，而不是排名损失。其次，我们的方法修剪负样本，而[37]执行香草采样。我们的方法不同于[37]3. 自监督表示学习我们首先在3.1节中介绍了对比学习的欠聚类和然后，我们在第3.2节中介绍了我们的方法。我们方法的有效性分析见第3.3节。3.1. 欠聚类与过聚类对比学习由[23]提出，并广泛用于SSL，在Ima-geNet上实现了最佳性能。对比学习中最广泛采用的损失是InfoNCE [40]。设X是具有1的查询图像将ive样本x+和mneg置于ive样本x−j处j=1 ，、 m.InfoNCE计算它们的内积，并使用softmax对乘积进行归一化，并具有：{x<$Tx+，x<$Tx−，x<$T x−，···，x<$Tx−m}=softmax（{x x，x x，x x，· · ·，x x}）。识别和面部识别。它往往以使每个三重单元的正对和负对之间的相对距离最大化。对三元组丢失进行了几项怎么-然后，对比学习的目标是最小化：−1logx~Tx+−0logx~Tx−−0logx~Tx−···−0logx~Tx−m。(see 脚注7），其可以被解释为迫使x~Tx+接近1并且迫使x~Tx-，x~Tx-，...，x<$Tx−m接近然而，这些经典的三重态损失也可以导致超过12聚类相比之下，我们提出了一个截断的三重损失，以解决由伯努利分布模型保证的过聚类问题。认识到最难的否定在实践中会导致糟糕的局部最小值，[37]提出了一个半硬否定至0这表明需要大量的负样本对来保证学习效率，因为7通常exp（xTx+）/τ+exp（xTx−j）/τj=1其中τ是温度。9508最难联系我们≤≤副−−ΣL我C2我ing：d（x，xdeputy）=2kd（x，xrank−j）.+−.Σ.Σj=2模型需要足够的负样本来发现类间样本之间的差异特别是，需要大量的正样本和负样本来丰富每批数据的相似性和相异性。欠聚类。不充分的正和负示例可以导致欠聚类。欠聚类是一个关键问题，其中不同的类别有一个有效的（但不受欢迎的）重叠。例如，在图2（a）中，集群可以包含狗、马或猫、牛，即，狗和马混在一起。如果没有注释，我们就无法识别每个数据点的实际标签。换句话说，狗和马有重叠。当存在不足的正样本和负样本时，发生欠聚类问题。过度聚类。与缺乏负样本引起的欠聚类相反，过度聚类是由压倒性的负样本引起的。虽然对比学习隐含地将每个图像视为一个类，但我们不希望过度聚类。过多的负样本对可能导致过度聚类，迫使来自相同类别的样本进入不同的聚类。如图2（c）所示，如果提供了过多的负例，则属于同一类别的两只狗现在被分配到两个集群。类似的现象也出现在猫和牛身上。这种非理想的过度聚类将阻止模型学习概括类别的基本特征的区别性表示，因为网络只是记忆数据而不是从数据中学习[54，3]。理想情况下，我们希望使用适量的负样本对，以确保来自同一类别的图像彼此接近，而来自不同类别的图像彼此远离。如图2（b）所示，所有的狗、猫和牛都被正确地聚类注意这是以无人监督的方式实现3.2. 截断三重态损失三重丢失。受相对距离比较[57]的启发，[12]和[37]分别独立地提出了三重丢失，用于人的重新识别和人脸识别。在三元组损失方法中，一组三元组，即，首先生成{（xi，x，x）}i= l，...，m 一般来说一在实践中，我们通常使用最难的三重态来表示全部三重态，即，仅使用含有最高相似性得分的阴性样品的三重体（请参见图3(b) 详情）。最后，三元组被正式定义为：Loss=max d（x，x+）−d（x，x− ），C.（一）由于x−ha rdest是i v e样本中最难的n eg，因此我们对所有i都有d（x，x−ha rdes t） d（x，x−i）。这表明当最难的三重态损失满足条件d（x，x+）d（x，x−ha rdes t）时，所有其他三重态都满足该条件。因此，最难的三重态损失保证了负样本对之间的相当大的距离。使用三重丢失，我们可以解决欠聚类问题。虽然三联体丢失在很大程度上减少了欠聚类，但它增加了过度聚类的风险。具体地，由于对比学习可以被认为是将每个图像识别为类的分类问题，因此使用最难的三元组丢失可能导致过度聚类。例如，在图3（a）中，两只狗属于相同的对象类别。不出所料，它们的特征相似度很高。但是在SSL中，实际的类别标签是不存在的;因此，这两只狗可以不情愿地被认为是阴性样品对（图3（b）和（c），顶部）。这表明它们是最难的负样本对。使用最难的三重态损失，这两个狗之间的距离扩大。这导致了过度聚类问题，因为来自同一类别的两只狗过度聚类到两个不同的聚类中。截短三重丢失。为了避免过度聚类，我们通过截断/修剪最难的阴性样本来构建阴性对我们选择一个负样本代表来形成一个截短的三元组，即，我们有：Loss=maxγd（x，x+）−d（x，x− ），C.（二）具体地，y，d（x，x-副）使用以下步骤获得。首先，我们计算距离{d（x，x-i）}，i。然后，我们按升序对{d（x，x i）}排序。最后，我们通过两种方式获得d（x，xdeputy）• 秩-k三重态损失：第k个元素选自i i{d（x，x-）}，得到：）=d（x，x−）。查询图像将比pos-i具有更多的负样本副rank−k样品（详见图3（a））。为了呈现简单，我们仅使用一个查询图像和一个正样本用于说明，即，我们有一个三胞胎• 平滑秩k三重态损失：选择前2、前3、…top-（2k+1）个元素从{d（x，x-i）}和yield-{（x，x+，x−）}.最早的三重态损失定义为：-12Σk+1−oss=mi=1最大d（x，x+）−d（x，x−），CΣ，注意，当k= 1时，秩k三重态损失减少到其中d是距离度量（例如，余弦距离或欧氏距离）。这里，是决定是否丢弃三元组的裕度。这在机器学习算法中至关重要，因为我们通常会放弃简单数据，专注于决策边界附近的硬数据，正如支持向量机[11]所建议的那样。提高学习效率最难的三重损失。我们可以在3.3节中说明用秩k三元组替换最难三元组确实可以降低由伯努利分布模型保证的过度聚类的风险。默认情况下，我们使用k=m（即，三重代表），尽管使用其它值（例如，k= 5）也产生良好的i=l，···，m9509x−−--二、把Cmp（1−p）学习硬三重态学习Neg(a)(b)（c）第（1）款图3.我们的截断三重态丢失的图示。由红线连接的每个样本对表示负样本对。注意，尽管由绿色单词“Neg”标记，但实际上，狗是查询图像的阳性样本，传统的使用最硬的三联体的三联体丢失（参见图（b））导致过聚类，其中这两只狗之间的距离将被扩大。在（c）顶部示出了过聚类结果，并且在（c）底部示出了理想的学习结果。性能我们对d 使用广泛使用的余弦距离，即，d（x，y）= −xy，其中·2表示L2范数。这里使用负号（我们将γ设为2。请注意，根据我们的前-在一些实验中，平滑秩k三重态损失实现比秩k三重态损失更好的性能。3.3. Bernoulli分布模型在对比学习中，来自不同图像的视图被认为是负样本对，即使它们来自相同的实际类别（例如，图3（a）中的两只狗）。不出所料，这些类型的负样本对具有高特征相似性。它们很有可能出现在最难的三胞胎中（见图3（b））。使用最难的三重态损失，这些假阴性对之间的距离被扩大。这导致过聚类问题，即来自相同类别的假阴性对被过聚类到两个不同的聚类中（参见图3（c）顶部）。但是在我们的截断三重损失中，我们通过升序对{d（x，x−i）}进行排序，并从{d（x，xi）}中选择第k个元素以形成d（x，xdeputy）。如果该秩k负样本和查询图像属于同一个类别。我们需要估计这两个图像属于同一类别的概率。首先，我们有一个合理的假设：来自同一类别的图像对具有比其它图像对更高的特征相似性，并且这些图像对之间的距离小于其它图像对，这具有很高的概率。因为我们已经通过升序对d（x，x-i）进行了排序，所以在i个样本处的排名为k的样本和查询属于相同类别的事件指示至少k个负样本和查询属于相同类别的事件。该事件的概率可以通过使用伯努利分布模型来计算，即，Σmjjm−jj=k其中，p用于表示负样本和查询属于同一类的概率。例如，在ImageNet上，我们有p=1。在我们的实验中，我们设m为104，k为m1000m，k进入根据上面的等式，我们得到Pr = 6。53e-121，也就是al-最多为零。即使我们让m是104，k是5，我们有 Pr =3。03e-94。这指示秩k负样本和查询属于相同类别是罕见事件。因此，我们的截断三重态损失可以避免过度聚类，这是由伯努利分布模型保证的，例如，在一个实施例中，可以正确地识别图3（c）底部的两个制动爪第5节中的实验结果也验证了我们的方法8的有效性。4. 主要结果我们的SSL培训协议如下。数据扩充协议。我们的增强是直接的，包括随机裁剪，随机调整大小，随机水平翻转，任意灰度缩放，随机颜色抖动，高斯模糊，和太阳化。请看我们的代码。其他协议。在无监督学习阶段，批量大小为每个GPU 104张图像，我们使用8个GPU。梯度更新间隔为五步。最大epoch为200。学习率从4.8开始，并随着余弦退火而逐渐降低。重量衰减因子为1e−6。优化器为LARS [20]，动量为0.9。主干是ResNet-50，与前面的方法相同。这些模型是通过使用ImageNet的1.28M训练图像进行训练的，但没有它们的注释。协议与[56]一致：我们使用[8]伯努利分布模型很简单，但可以通过实验证明（第5节）。同时，[10，35]使用优雅的数学有界性工具来展示对比学习的泛化能力-ing. 使用有界性工具的更优雅的理由是受欢迎的。d（，）-d（，）NegNegNegNeg查询POSNegNegNegNegNegNegPOS查询Neg阴性阴性NegPOSNegNeg查询NegNegd（，）-d（，）截短三重态PR=. 这里，C用于表示9510表2.使用线性分类评估ImageNet上最先进方法的前1精度和训练时期。方法top-1 acc.训练历元随机4.4 0相对位置[13]38.8 200[19]第十九话47.0 200DeepCluster [5]46.9 200NPID [50]56.6 200ODC [53]53.4 200SimCLR [7]60.6 200SimCLR [7]69.3 1000MOCO [24]61.9 200MOCO v2 [8]67.0 200MOCO v2 [8]71.1 800SwAV [6]（单作物）69.1 200SwAV [6]（multi-crop）72.7 200BYOL [22]71.5 200BYOL [22]72.5 300BYOL [22]74.3 1000新加坡[9]68.1 100新加坡[9]70.0 200新加坡[9]70.8 400新加坡[9]71.3 800截短三重态73.6180截短三元组（平滑）73.8200截短三联体74.1200截短三重态75.9700监督76.3100监督+线性评估74.1100监督78.4270同样的动量网络，同样的多层感知器头颈。此外，在BYOL之后，我们的损失相对于正对是对称的。使用类似于[56]的协议可以在没有额外的超参数搜索的情况下对多个数据集/任务进行比较我们通过将我们的方法与四个任务中的最先进方法进行比较来评估我们的方法，包括ImageNet上的线性评估4.1. ImageNet上的线性评估线性评估是最广泛采用的评估协议，用于验证不同的SSL方法的表示能力。标准地，ResNet-50的主干通过使用上述SSL训练协议进行训练并被冻结。然后将线性分类器添加到冻结表示的顶部，并针对每种方法进行训练。所有方法都使用ImageNet的1.28M训练图像进行训练，并使用ImageNet的50K验证图像进行评估。对于线性分类阶段，批次大小为256。最大epoch为100。在线性分类训练中没有权重衰减优化器是SGD。使用单刻度中心裁剪top-1精度目前，广泛使用的SSL的评估标准，只重视准确性，但没有考虑的训练时期。按照这个标准，我们首先将我们的方法与竞争对手进行比较，而不考虑训练时期。表2显示，我们的方法在ImageNet上取得了有希望的结果，即，75.9%，明显优于最新的最先进的方法。关于学习效率，现有的SSL方法如表2所示，SSL模型训练了大约1，000个epoch，而表3.COCO 2017上Mask-RCNN的对象检测结果方法AP髁间盒AP掩码随机35.631.4相对位置[13]40.035.0[19]第十九话40.034.9NPID [50]39.434.5MOCO [24]40.935.5MOCO v2 [8]40.935.5SimCLR [7]39.634.6BYOL [22]40.335.1截短三重态41.337.3监督-10040.034.7监督-27042.037.7表4.Faster-RCNN在VOC 07 +12上的对象检测结果方法AP50包装盒AP髁间盒AP75包装盒随机59.032.831.6相对位置[13]80.455.161.2[19]第十九话80.955.561.4NPID [50]80.054.159.5MOCO [24]81.456.062.2MOCO v2[8]82.056.662.9SimCLR [7]79.451.555.6BYOL [22]81.051.956.5截短三重态81.856.462.9监督-10081.654.259.8监督-27082.256.963.1受监督的对应方仅被训练100个时期。SimCLR [7]解释说，较长时间的训练不会为监督学习模型带来增益（即，它报告了76.4%对1000个时期的76.3%100个时期但我们的观察是相反的，即，我们对训练了270个epochs的监督模型的再现可以达到78.4%的top-1准确率，这显著高于所有SSL模型。总之，关于准确度和训练时期的完整比较在图1和表2中呈现，其中我们有三个观察结果。首先，以前的SSL方法还有很长的路要走。它们的学习效率明显低于监督学习。其次，如图1所示，我们的方法位于图的左上角，表明我们的方法在比较的SSL方法中实现例如，SwAV [6]实现了72.7%（200个epochs），低于我们的方法（73.6%，180个epochs）。注意，SwAV使用我们不使用的额外的多作物增强为了公平比较，我们将多作物增强添加到我们的方法中，导致进一步的最先进的结果为74.1%（200个时期）。这种比较验证了我们的方法的有效性和效率第三，平滑的截断三重态损失实现比截断三重态损失更好的性能。4.2. 转移到下游任务转入COCO 2017物体检测。SSL的目标之一是学习可转移的特性。我们通过将环转移到COCO 2017对象检测来测试我们学习的表示9许多方法（例如，HSA [51]/MoCo v2 [8]/SimCLR [7]/SeLa [2]/DeepCluster [5]）可以从多作物增强中受益匪浅9511×一般对象检测的最大基准，包含约119K训练图像。具体来说，通过使用上述SSL训练协议来训练ResNet-50的主干，并且训练的网络权重用作Mask-RCNN [25]与C4的初始化。我们微调了2017年列车的所有图层。训练计划是[21]中的默认2计划。在[24]之后，我们微调BN而不是冻结它。总体而言，SSL预训练方法使用与ImageNet监督对应物相同的训练协议。在val2017套件上测试准确度我们报告检测和物体分割的标准度量：AP框和AP掩码。表3显示，使用我们的方法进行预训练超过了COCO2017检测的其他SSL ImageNet预训练。我们的方法在COCO 2017上的对象检测上确实超过了现有技术（包括MoCo / MoCo v2）。此外，我们的SSL预训练甚至优于有监督的ImageNet预训练，这意味着SSL可以获得更普遍的表示。这与以前的工作一致，这些工作也表明SSL预训练可以在对象检测上优于监督预训练[18，24，30，6]。转到VOC07+12目标检测。除了COCO 2017之外，我们还评估了我们的方法在[24]和[56]之后，通过使用上述SSL训练协议来训练ResNet-50的主干，并且训练的网络权重用作Faster R-CNN的初始化[34]在C4。然后，我们对PASCAL的train-val 07 +12集合上的所有层进行微调。图像比例在训练期间为[480，800]像素，在测试中为800。我们报告默认VOC指标AP50和COCO风格的AP和AP75。评价基于VOC测试2017集。我们在表4中显示了不同方法的结果。如图所示，我们的方法实现了与MoCo / MoCo v2相当的性能（我们的方法优于MoCo并且略差于MoCo v2）。请注意，只有MoCo v2和我们的方法可以赶上执行100个epoch预训练的监督预训练对应物。这验证了我们的方法的有效性，并意味着我们的SSL可以获得普遍的表示。4.3. SYSU-30 k上的人员重新识别在一般意义上，所有上述任务（图像分类、对象检测和分割）属于视觉分类，因为检测和分割可以被认为是对我们的方法超越视觉分类的有效性在下文中，我们研究不同的任务，即，人员重新识别（re-ID），这是视频监控的基础[17]。Re-ID指的是跨相机重新识别个人的问题[45]。从数学上讲，re-ID是一个匹配问题而不是分类问题，因为它需要计算表5.与SYSU-30 k上最先进方法的比较监督方法秩-1DARI [44]11.2迁移学习DF [12]10.3CNN [52]23.0MGN [47]23.6弱监督[46]第四十六话28.8W-MGN [46]29.5SimCLR [7]10.9自监督MOCO v2 [8]BYOL [22]11.612.7截短三重态14.8计算两个给定图像之间的距离度量。正如[16，43，46，58，42]所证明的那样，无监督表示学习对于视觉匹配至关重要;因此，验证我们的方法在re-ID中的有效性是重要的。数据集和方案。我们在SYSU-30 k数据集[46]上进行实验，这是re-ID的最大数据库。该数据库包含30，508名行人的29，606，918张图像，在类别数量方面比ImageNet大30倍。请注意，每个图像的确切缺乏精确的注释和大量的图像使得这个数据集非常适合无监督学习，特别是SSL。由于我们是第一个在这个数据库上执行SSL，以前的工作没有提供这个数据集的评估协议。我们提出了一个新的评估协议：采用SYSU-30 k的训练集实现SSL。一旦模型被学习，我们直接使用它来提取特征，在SYSU-30 k的测试集上进行视觉匹配，这比ImageNet上的线性评估更具挑战性，因为线性评估学习了一个额外的分类器进行识别，但这里没有学习额外的分类器。鉴于SYSU-30 k的上述优势，我们认为SYSU-30 k是一个评价SSL有效性的理想数据库，并推荐给未来的SSL研究者。结果分析。我们比较我们的方法与 SimCLR ，MoCo-v2，BYOL，和当前国家的最先进的结果（不是SSL方法）。我们使用ResNet-50作为主干。表5中的结果示出了我们的模型实现了新的最先进的性能，即，1级准确度为14.8%。注意，该数字较低，即，甚至低于现有的迁移学习和弱监督学习方法。这归因于SYSU-30 k测试集的挑战，该测试集包含约480，000个测试图像。此外，图库中有478，730张不匹配的图像作为错误因此，使用SYSU-30 k测试集进行评估我们鼓励未来的SSL研究人员使用此数据集来评估SSL的有效性。我们还可以观察到，我们的方法明显优于其他SSL方法（14.8 vs.12.7对于我们的vs. BYOL）。这验证了我们的方法在视觉匹配任务，如重新ID的有效性。95122一B|B|一C −C − C−|一|B|BC|BC−C − C−表6.避免过度聚类的效果训练时期事件0180k= 1Pr（Ω|A）、Pr（Ω|B）0.15380.16180.96560.9948K= 5Pr（Ω|A）、Pr（Ω|B）0.11670.12300.21050.2132k= 52Pr（Ω|A）、Pr（Ω|B）0.12200.12880.01100.0233表7.保证金的影响保证金= 0。3= 1.一、2 = 100前1精度28.329.8 30.0表8. k级的影响k级等级-1等级-5等级-52前1精度28.929.5 30.05. 消融研究在本文的其余部分，为了减少训练时间并快速访问结果，我们使用20个训练时期进行消融研究。请注意，由于我们的方法线性评估训练也减少到一个时期10。实际上，先前的工作也使用很少的训练时期用于消融研究，例如，[7][39]。所有训练协议与第4节相同，除了我们将第20个时期的检查点用于一个时期的评估。本节仅报告了ImageNet在线性评估协议下的top-1准确度结果，因为它是验证SSL方法有效性的最广泛采用的指标避免过度聚类的效果。正如我们在3.2节中所讨论的，由于截断的三元组损失，我们可以避免过度聚类。例如，如果k= 5，则过聚类的概率为3。03e-94。如果k=m= 52，则过聚类的概率为6。53e-121。然而，这种分析是否正确仍不清楚。在下文中，我们提供了实证分析。在批次训练期间，所有批次采样被认为是总事件。如果一个批次包含至少两个属于同一实际类别的图像，我们称之为事件。如果（至少）这两个图像被错误地认为是一对假阴性，我们称之为事件。我们在表6中报告了不同训练时期和不同k s的频率Pr（Ω）和Pr（Ω）。我们从表6中得到三个观察结果。首先，秩52和秩5负样本很少属于与查询图像相同的类别，即， Pr（Ω）和Pr（Ω）低。第二，随着训练时期的增加，秩k负样本是假阴性的概率这归因于随着训练的进行，已经学习到越来越多的区分特征。第三，随着k的增加，秩k负样本是假阴性的概率降低。特别是当k= 1时，我们的截断三重态损失减少到10在进行了大量的实验之后，我们的实践经验表明，20次训练对于消融研究是足够的。最难的三重损失。如图所示，最难的三重态损失确实具有过度聚类的风险，因为概率Pr（Ω）很高。随着k的增加，概率Pr（Ω）减小。这表明我们的截断三重损失可以避免过度聚类问题，保证伯努利分布模型。请注意，如果一个批次包含甚至一个假阴性样本对，则我们认为整个批次具有过度聚类风险。因此，表6中的概率（例如，0.0110或0.2105）高于分析中的（例如，3 .第三章。03e-94或6。53e-121）。保证金的影响正如我们在第3.2节中所讨论的，是决定是否丢弃三元组的裕度。这在机器学习算法中至关重要，因为我们通常会放弃简单的数据，而专注于决策边界附近的复杂数据，正如支持向量机[11]所建议的那样。为了从经验上验证这一假设，我们使用不同的边际来训练我们的方法。结果示于表7中。如图所示，不同的裕度导致性能波动。当=100或=1 .一、2、性能最好。因此，如果没有另外指定，我们在所有实验中使用= 100k级的影响。正如我们在3.3节中所分析的，我们可以使用不同的ks来计算我们的截断三重态损失。当k= 1时，我们的截断三重态损失减少到传统的最难三重态损失。当k增加时，过度聚类的风险呈指数级降低。为了了解使用不同ks的影响，我们使用不同的ks训练我们的方法。如表8所示，不同的ks导致性能波动。当k= 5和k= 52时，性能是满意的。因此，我们使用k= 5或k= 52。6. 结论尽管SSL在Ima-geNet上已经显示出有希望的结果，但它的学习效率仍然很低。我们把对比学习的固有缺点归结为欠聚类和过聚类。为了克服这两个问题，我们提出了一种新的SSL框架，使用截断三重态损失。我们采用三重损失包含丰富的负样本信息，以解决下聚类问题。我们修剪负样本，以防止过度聚类问题，保证伯努利分布模型。我们的方法显着提高了学习效率的SSL，导致国家的最先进的性能在几个大规模的基准和品种的下游任务。确认本工作得到国家重点研发&计划项目（批准号：2020AAA0109700，部分由中国国家自然科学基金U1811463、61836012和61876224资助，部分由广东省自然科学基金No.2019A1515010939和2017A030312006，以及创新英国智能补助金33736。9513引用[1] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， IanGoodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIsard ， YangqingJia ， RafalJozefowicz，Lukasz Kaiser，Man-junathKudlu r，JoshLev enbe r g，DanMan e´，RajatMon g a，Sherry Moore，Derek Murray ， Chris Olah ， Mike Schuster ， JonathonShlens，Benoit Steiner，Ilya Sutskever，Kunal Tal war，Paul Tucker ， Vincent Vanhoucke ， Vijay Vasudevan ，Fer-nandaVie´gas ， OriolVinyals ， PeteWarden ，MartinWatten-berg ， Martin Wicke ， Yuan Yu ， andXiaoqiang Zheng. 张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。[2] Yuki Markus Asano ，Christian Rupprecht ，and AndreaVedaldi.通过同步聚类和表征学习的自我标记。在第八届国际会议上学习代表，ICLR 2020，亚的斯亚贝巴，埃塞俄比亚， 2020 年 4 月 26 日至 30 日。OpenReview.net，2020年。[3] Guy Bresler和Dheeraj Nagaraj。神经网络的正确观点：表征、记忆和学习。在学习理论会议上，第848-901页。PMLR，2020年。[4] 放大图片创作者：David J.Schwab和Ari S.莫科斯在对比实例辨别中，所有否定词是否都是平等的CoRR，abs/2010.06682，2020。[5] Mathilde Caron，Piotr Bojanowski，Armand Jou

下载后可阅读完整内容，剩余1页未读，立即下载