在线深度聚类：聚类与网络更新的稳定性学习

149 浏览量更新于2023-10-23 收藏 3.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6688用于无监督表示学习的詹晓航1，谢家豪2，刘紫薇1，王耀顺2，3，陈昌来21香港中文大学-商汤科技联合实验室2南洋理工大学3AI3，A*STAR，新加坡1{zx017，zwliu}@ ie.cuhk.edu.hk2{jiahao003，asysong，ccloy}@ ntu.edu.sg摘要联合聚类和特征学习方法在无监督表示学习中表现出了显著的性能。然而，在特征聚类和网络参数更新之间交替的训练时间表导致视觉表示的不稳定学习。为了克服这一挑战，我们提出了在线深度聚类（ODC），同时执行聚类和网络更新，而不是交替。我们的关键见解是，聚类中心应该稳步发展，保持-ING分类器稳定更新。具体来说，我们设计并维护了两个动态存储模块，样本存储器，用于存储样本我们将突然的全局聚类分解为稳定的内存更新和批量标签重分配。该过程被集成到网络更新迭代中。通过这种方式，标签和网络并肩发展，而不是交替发展。大量的实验表明，ODC稳定的训练过程，有效地提高了性能。（一）（b）第（1）款迭代1. 介绍无监督表示学习[1，2，3，4，5，6，7，8，9]旨在学习可转移的图像或视频表示，而无需手动注释。其中，基于聚类的表示学习方法[10，11，12，13，14]成为该领域有前途的方向。不同于基于恢复的方法[2，3，4，8]，基于聚类的方法需要很少的领域知识[13]，同时实现令人鼓舞的性能。与仅捕获图像内不变性的对比表示学习[15，16，17]相比，聚类-*同等贡献。1个时期无监督1个时期深度聚类1次迭代在线深度聚类（我们的）监督分类不间断网络更新标签更新特征提取1个时期训练损失6689图1. (a)在线深度聚类（ODC）通过将聚类过程集成到网络更新迭代中，试图减少深度聚类（DC）和监督分类之间的训练机制ODC培训是无人监督和不间断的。(b)与DC相比，ODC不断更新标签，而不是以脉动的方式，使表示能够稳定地发展。损失曲线（为了清楚起见，仅初始32个时期）显示了ODC的稳定性。训练后，ODC的损失减少到2.0左右，而DC的损失减少到2.9左右。基于的方法能够探索图像间的相似性。与通常在固定特征上执行的传统聚类不同[18，19]，这些工作联合优化了聚类和特征学习。虽然早期作品的评价[11，12]大多是6690在小数据集上执行，由Caron等人提出的深度聚类[13]（DC）。是第一次尝试扩大基于聚类的表征学习。DC在深度特征聚类和CNN参数更新之间交替。特别地，在每个时期开始时，它对整个数据集执行离线聚类算法以获得伪标签作为下一时期的监督。离线聚类不可避免地在不同时期中置换所分配的标签，即，即使某些簇没有改变，它们的索引在聚类后也将被随机排列。因此，分类器中的参数不能从上一个时期继承，并且必须在每个时期之前随机初始化。该机制引入了训练不稳定性，并使表示面临表示损坏的高风险。如图1（a）所示，DC中的网络更新被每个时期的特征提取和聚类中断。这与使用固定标签以不间断的方式执行的传统监督分类相反，其中迭代由网络的前向和后向传播组成。在这项工作中，我们试图设计一个高稳定性的联合聚类和特征学习范式。为了减少DC和监督学习之间训练机制的差异，我们将聚类过程分解为小批量的标签更新，并将此更新过程集成到网络更新的迭代中。基于这种直觉，我们提出了在线深度聚类（ODC）用于联合聚类和特征学习。具体来说，ODC迭代包括前向和后向传播、标签重新分配和质心更新。对于标签更新，ODC重用正向传播中的特征，从而避免额外的特征提取。为了便于在线标签重分配和质心更新，我们设计并维护了两个动态存储模块，样本存储器，用于存储样本以这种方式，ODC以类似于监督分类的不间断方式进行在训练过程中，标签和网络参数是并肩发展的，而不是交替发展的。由于标签在每次迭代中连续且即时地更新，CNN中的分类器也会更稳定地发展，从而产生更稳定的损失曲线，如图1（b）所示。虽然ODC单独在各种基准上实现了令人信服的无监督表示学习性能，但它可以自然地用于微调使用其他无监督学习方法训练的模型大量的实验表明，ODC的稳定性有助于它作为一种无监督的微调工具优于DC。我们的贡献总结如下：1）我们提出了ODC，它以无监督的方式学习图像表示，具有高稳定性。2）ODC还用作进一步改进先前的自监督表示学习方法的统一的无监督微调方案。 3）在不同的基准测试中观察到了良好的性能，表明联合聚类和特征学习的巨大潜力。2. 相关工作无监督表示学习。许多无监督视觉表示学习算法都是基于生成模型的，通常使用潜在的表示瓶颈来重建输入图像。现有的基于生成的模型包括自动编码器[20，21]，受限玻尔兹曼机[22，23，24]，可变自动编码器[25]和生成对抗网络[26]，其中一些在生成图像或视频方面表现出强大的能力[27，28，29，30，31，32]。通过学习生成示例，这些模型可以学习可用于下游任务的有意义的潜在表示[5，33，34]。另一种流行的无监督表示学习形式是自监督学习，其中一个借口任务被设计为从原始数据中获取代理标签。通过鼓励CNN从数据中预测代理标签来学习表示。已经探讨了各种借口任务，预测图像内的相对补丁位置[1]、解决拼图[4]、对灰度图像着色[3，35]、缺失像素的修补[2]、跨通道预测[36]、对视觉基元计数[37]以及预测图像旋转[8]。对于视频，自导出的监督信号来自时间连续性[38，39，40，41，42，43，44]或运动一致性[45，46，47，48，9]。联合聚类和特征学习。最近，基于无监督表示学习的无监督表示学习特别令人感提出了各种方法来联合优化特征学习和图像聚类。值得注意的是，这些冰毒-ODS在学习小数据集上的无监督特征方面显示出巨大的潜力[11，12，49，50]。扩大到大型数据集，如ImageNet [51]，Caronet al. [13]建议DeepCluster对特征进行聚类，并使用每个时期的后续分配的伪标签更新CNN 。在随后的研究中， Caronet al.[14] 提出DeeperCluster来利用自我监督和聚类，并验证其方法在非策展数据上的表示学习能力。虽然深度聚类方法能够从大规模未标记数据中学习良好的表示，但特征聚类和CNN参数更新的交替更新导致训练不稳定。自我监督学习的改进。一些工作旨在从不同的角度改进以前的自监督学习方法。例如，Lars- son等人。[6]第一次对彩色化进行了深入的分析，提出了一项新的任务，并就如何提高其有效性提出了一些见解Mundhenk等人[52]探索出一套方法669113ind123特征标签8612N24分类器ind123特征C样品存储器质心记忆图2.每个ODC迭代主要包含四个步骤：1.前向得到一个紧凑的特征向量; 2.从样本存储器读取标签并执行反向传播以更新CNN;3.通过更新特征和分配新标签来更新样本存储器; 4.通过重新计算所涉及的质心来更新质心存储器。以避免一些琐碎的捷径，如基于上下文的自监督学习的色差。Noroozi等人[53]使用基于聚类的知识转移方法提高自监督模型的性能，该方法允许在预训练期间进行更深入的网络。Wang等人[54]和Doerschet al. [55]利用包含在不同借口任务中的多个线索来改进自我监督模型。最近，一些作品[56，57]广泛研究了现有自监督方法的架构和扩展能力。作为这些工作的补充，ODC作为一个灵活和统一的无监督微调方案，以促进一般的自监督学习方法，尽管它可以单独用于从头开始执行无监督表示学习。3. 方法在下面的小节中，我们首先讨论了拟议的ODC与第13节中的传统DC [ 13 ]之间的差异。第3.1条然后，我们推荐了一些有用的策略，以保持稳定的集群大小，同时使用ODC在秒。3.2.我们最后解释如何使用ODC进行无监督微调（第二节）。3.3）和ODC的实施细节（第第3.4段）。3.1. 在线深度聚类我们首先讨论DC的基本思想[13]，然后详细介绍所提出的ODC。为了学习表示，DC在离线特征聚类和具有伪标签的网络反向传播之间交替。离线聚类过程需要对整个特征进行深度提取伪标签，要求网络在随后的时期迅速适应新标签。框架概述。与DC不同，ODC不需要额外的特征提取过程。此外，标签随着网络参数的更新而顺利这是通过新引入的样本和质心记忆来实现的。如图二、样本存储器存储整个数据集的特征和伪标签;而质心存储器存储类质心的特征，即，类中所有样本的平均特征。这里的“类”表示在训练期间不断演化的临时集群。标签和网络参数在ODC的不间断迭代过程中同时更新。为了避免ODC陷入繁琐的求解过程，引入了包括损失重权和小簇ODC迭代。假设我们有一个随机初始化的网络fθ（θ）和一个线性分类器gw（θ），目标是训练骨干参数θ以产生高度区分的表示。到准备ODC时，样本和质心存储器通过全局聚类过程初始化，例如，K均值接下来，可以迭代地执行不间断的ODC。ODC迭代包含四个步骤。首先，给定一批输入图像{x}，网络将图像映射到紧凑的特征向量F=fθ（x）。其次，我们从样本中读取这批产品的伪标签奥里使用伪标签，我们使用随机梯度下降来更新网络以解决以下问题：1ΣB训练集，然后是全局聚类算法，例如，K均值聚类。全局聚类将minθ，wBn=1l（gw（fθ（xn）），yn），（1）6692cNc其中yn是来自样本存储器的当前伪标签，B表示每个小批次的大小。第三，L2归一化后的fθ（x）被重用以更新样本存储器：仅影响该过程中涉及的一小部分样品。降维。一些主干网络将图像映射到高维向量，AlexNet生成4，096维特征，ResNet生成4，096维特征。F（x）←mfθ（x）+（1−m）Fm<$fθ（x）<$2m（x）、（2）50产生2，048维特征，导致后续聚类的空间和时间复杂度很高DC对整个数据集的特征执行PCA，以减少其中Fm（x）是样本存储器中xm∈（0，1]是动量系数。同时，每个涉及的样品被分配一个新的标签，找到最近的质心如下：2维度然而，对于ODC，不同样本的特征具有不同的时间戳，导致样本之间的统计不兼容。因此，PCA不再适用。在每次迭代中执行PCA也是昂贵的。因此，我们添加{fc-bn-relu-1}的非线性头部层miny ∈{1，..，{\fnMicrosoftYaHei\fs14\bord1\shad0\3aHCC\b0}<$Fm（x）−Cy<$2，（3）dropout-fc-relu}以将高维特征减少到256维。它在ODC迭代期间被联合调优。其中Cy表示类y的质心特征。最后，记录新成员加入的质心和老成员离开的质心。通过对属于其对应质心的所有样本的特征求平均，每第k3.2. ODC中聚类分布的处理损失重新加权。为了避免训练崩溃成几个巨大的集群，DC在每个epoch之前采用均匀采样。然而，对于ODC，聚类上的样本数量在每次迭代中都会发生变化。使用均匀采样需要在每次迭代中重新采样整个数据集，这一过程被认为是冗余和昂贵的。我们提出了一种替代方法，根据每个类别中的样本数量重新加权损失。为了验证它们的等价性，我们实现了一个DC模型与损失重新加权和经验发现，性能保持不变时，重量如下W∝1，其中N表示样本C在C班。因此，我们采用相同的损失重新加权用于ODC。通过损失重新加权，较小聚类中的样本对反向传播的贡献更大，从而将决策边界推得更远以接受更多潜在样本。处理小集群。损失重新加权有助于防止形成巨大的集群。尽管如此，我们仍然面临着一些小星系团坍缩成空星系团的风险。为了克服这个问题，我们建议在它们崩溃之前提前处理和消除极小的集群将正常簇表示为Cn，大小大于阈值，小集群为C其大小不是，对于c∈Cs，我们首先将c中的样本分配到Cn中最近的质心，以使c为空。接下来，我们通过K-Means将最大的聚类cmax∈Cn分成两个子聚类，并随机选择其中一个子聚类，新C。我们重复这个过程，直到所有的簇都属于Cn。虽然这个过程会突然改变一些集群，对于下游任务，头层被移除。3.3. 用于无监督微调的ODC与倾向于捕获图像内语义的自监督学习方法相比，基于聚类的方法更关注图像间信息。因此，DC和ODC自然是对以前的自监督学习方法的补充。作为DC和ODC不限于特定设计的目标，如旋转角度或颜色预测，它们很容易用作无监督微调方案，以提高现有自监督方法的性能。在本文中，我们研究了DC和ODC作为一个微调过程，从不同的自监督学习方法的初始化的有效性。3.4. 实现细节数据预处理。我们使用ImageNet进行训练，其中包含128万张没有标签的图像。首先随机裁剪图像，使其分辨率为224x224，并进行增强，包括随机翻转和旋转（±2°）。DC在图像上采用了Sobel滤波器，以避免利用颜色作为捷径。这样的预处理步骤要求下游任务包括Sobel层，这可能会限制其应用。我们发现，强烈的颜色抖动显示了相同的效果作为Sobel过滤器在避免捷径，而它允许正常的RGB图像作为输入。具体来说，我们采用PyTorch风格的颜色抖动变换与亮度因子（0。六，一。4）、对比度因子（0. 六，一。4）、饱和度因子（0，2）和色调因子（−0. 5，0。（五）。此外，我们随机将图像转换为灰度，概率为0。二、随机颜色抖动和灰度应用于训练样本随机-用颜色来衡量相似性。这阻止了网络利用颜色的琐碎信息。ODC的培训。我们使用ResNet-50作为我们的骨干。考虑到大多数早期作品使用AlexNet，我们也在AlexNet6693上进行了实验以进行比较。关注-6694在[13]中，我们使用没有本地响应规范化的AlexNet架构，并添加批量规范化层。AlexNet和ResNet-50的ODC模型是从头开始训练的。批处理大小为512，分配给8个GPU。学习率始终为0。AlexNet为01，0。03对于ResNet-50为400个epoch，并且衰减0。80个epochs。在DC 之后，集群的数量被设置为 10 ，000，这是ImageNet的注释类数量的10倍动量系数m设定为0。五、识别小集群的阈值设置为20。改变此阈值不会显著影响结果，前提是它不超过聚类中样本的平均数。质心记忆每10次迭代更新一次。质心更新频率构成了学习效能和效率之间的权衡。在我们的实验中，我们观察到，只要频率被限制在一个合理的范围内，ODC的性能是不敏感的。4. 实验4.1. 无监督表示的评价在对ODC模型进行预训练后，我们评估了标准下游任务中无监督特征的质量，包括ImageNet分类，Places205 [62]分类，VOC 2007 [63] SVM分类和VOC 2007Low-shot分类。我们提供了每个基准的详细信息，并显示了我们的竞争结果如下。重新实现深度聚类。由于DC的原始论文没有包含ResNet-50，因此我们使用ResNet-50实现了DC模型。DC模型采用与ODC相同的数据增强，除了DC对图像应用Sobel滤波器。为了公平比较，DC的训练超参数与ODC相同，只是我们根据经验发现lr=0。1更适合DC。ImageNet分类。根据Zhanget al. [36]，我们保持包括所有卷积和批量归一化层的骨干冻结，并训练1000-对来自卷积层不同深度的特征进行线性分类。这些特征通过平均池映射到大约9000个维度。我们总共训练了100个epoch的所有模型，使用SGD，动量为0.9批量大小为256。学习率初始化为0.01，每30个epoch后衰减10倍其他超参数的设置遵循Goyalet al.[57 ]第50段。我们在ImageNet的官方验证分割中报告了前1名的中心裁剪准确度。对于AlexNet，如表1所示，在所有conv层中，ODC都比DC有持续的改进，在conv1层中观察到最大的改进（6.7%）。conv1层的性能超过ImageNet预训练模型。关于性能最好的层， ODC 在 conv4 层上达到41.4%，优于最新的LA [61]，排名仅次于Rot-Decoupling [60]。虽然ODC在其最佳性能层中没有优于Rot-Decoupling，但它为基于旋转的方法提供了一个互补的ODC还可以很好地扩展更深层次的架构。对于ResNet-50，如表2所示，ODC在conv 5层中实现了57.6%的中心裁剪精度，比重新实现的DC的最佳性能层与并发的最先进的方法LA [61]相比，我们的方法产生了竞争的结果。虽然conv5的结果略低于LA，但ODC从conv1到conv4层都大大优于LA。我们观察到从较浅的层到较深的层的一致的性能增加，表明ODC充分利用了所有剩余层。地点205分类。继Zhanget al. [36]，为了测试其他领域的泛化能力，我们还将学习的模型转移到包含205个场景类别的 245 万张图像的 Places205 数据集。与ImageNet上的实验类似，我们在Places205的训练分割上的每个冻结卷积层上训练了一个205路线性分类器，并在标准验证分割上报告了前1个中心裁剪准确度。评估设置和超参数与ImageNet分类任务中的相同。表1中的结果表明，使用AlexNet的ODC因为主干在所有层中的性能也优于DC。ODC在conv1、conv3和conv4层上超越了以往的所有工作。与ImageNet分类任务中的观察结果类似，ODC在使用ResNet-50转移到Places 205时，在更深层次的架构上扩展良好如表2所示，在所有层中，ODC超过了所有以前的作品，在conv2层中对于表现最好我们观察到ODC在conv1和conv2层中优于使用Places标签或ImageNet标签的监督模型。我们的方法在Places205分类任务中的传输性能表明，ODC学习的表示可以很好地推广到ImageNet的不同领域。VOC2007 SVM分类。为了进一步评估学习特征的泛化能力，我们对VOC2007迁移学习任务进行了实验，该任务类似于具有较小数据集的真实应用程序。在[57]之后，我们在VOC2007的“tranaval”分割上从冻结主干中提取的特征上训练线性SVM，并在测试分割上进行评估。我们遵循[57]中使用的相同测试设置和超参数表3中的结果表明，ODC在VOC2007 SVM分类上明显优于以前的6695表1. ImageNet和Places上的AlexNet线性分类。我们报告前1中心裁剪精度。其他方法的数字可以从[36]或其原始论文中每一层中的最高性能以粗体表示，每一层中的第二高性能以下划线表示。方法ImageNet地方（AlexNet）conv1conv2conv3conv4conv5conv1conv2conv3conv4conv5[36]第三十六话-----22.135.140.243.344.6ImageNet标签[36]19.336.344.248.350.522.734.838.439.438.7[第36话]11.617.116.916.314.115.720.319.819.117.5背景[1]16.223.330.231.729.619.726.731.932.730.9ContextEncoder [2]14.120.721.019.815.518.223.223.421.918.4Jigsaw [4]19.230.134.733.928.323.032.135.534.831.3彩色化[3]13.124.831.032.631.822.028.731.831.329.7[36]第三十六话17.729.335.435.232.821.330.734.034.132.5计算[37]18.030.634.332.525.723.333.936.334.729.6NPID [58]16.826.531.834.135.618.824.331.934.533.6旋转[8]18.831.738.738.236.521.531.035.134.633.7[13]第十三话12.929.238.239.836.118.630.837.037.533.1AET [59]19.232.840.639.737.722.132.937.136.234.7[60]第六十话19.333.340.841.844.322.932.436.637.338.6洛杉矶[61]14.930.135.739.440.217.132.236.538.337.8ODC（我们的）19.632.840.441.437.324.033.238.338.435.5表2.ResNet-ImageNet和Places上的50线性分类我们报告前1中心裁剪精度。带*和*的方法的数字分别由引用的第三方研究和我们产生。其他方法的数字取自其原始论文。每一层中的最高性能以粗体表示，每一层中的第二高性能以下划线表示。方法ImageNet地方（ResNet-50）conv1conv2conv3conv4conv5conv1conv2conv3conv4conv5[57]第五十七话-----16.732.343.254.762.3ImageNet标签[57]11.633.348.767.975.514.832.642.150.852.5[57]第五十七话9.613.712.08.05.612.916.615.511.69.0Jigsaw [57]12.428.039.945.734.215.128.836.841.234.4彩色化[57]10.224.131.439.635.214.727.432.737.534.8NPID [58]15.318.824.940.654.018.122.329.742.145.5[56]第五十六话41.7（最佳图层）38.1（最佳图层）BigBiGAN [34]55.4（最佳图层）-DeepCluster [13]†14.429.639.952.250.319.331.939.046.143.6洛杉矶[61]9.323.238.048.658.818.331.539.246.349.1ODC（我们的）14.831.642.555.757.621.435.041.347.449.3任务使用ODC，我们实现了78.2%的mAP性能，比DC高 9.1% 然而，我们也注意到，我们的 ODC 和用ImageNet标签预训练的监督模型之间仍然存在9.8%的性能差距，这为进一步探索留下了空间。Low-shot VOC 2007 SVM分类。在[57]之后，我们还将我们学习的表示转移到VOC2007 SVM分类的低拍摄设置中，以测试每个类别的训练样本很少时的特征质量我们改变每个类别中的阳性样本数量，并使用以下方法在冻结的ResNet-50主干上训练线性SVM：与VOC2007 SVM分类相同的设置。我们在训练中使用VOC2007的标准我们在图3中报告了五个独立样本的各种低激发值的平均精度（mAP）。表3中所示的最终mAP结果作为所有低激发值和所有独立运行的平均值进行观察。图3中显示了每次发射的结果。对于每个镜头，ODC都比DC有一致的改进，当每个类允许更多的正面示例时，性能差距进一步增加。我们还观察到，ODC和6696表3.ResNet-50 SVM分类和VOC 07上的低激发SVM分类mAP带†的方法的数字由我们制作。其他方法的数字取自[57]。表4.对以前的自我监督方法的改进。每个模型都经过120个历元的微调我们报告了ResNet-50的VOC 07[57]中提供了标记为“”的预训练模型，因此原始结果也取自[57]。对于标记为†的方法，我们重新实现它们以获得的结果。上校 [3]Jig. [4]第四节[13][14][15]90监督80ODC（我们的）70DC60Rot.50吉格。40Col.5251.55150.5501 10 50100质心更新频率5251504948510204080160最小簇大小30201001 2 4 8 16 32 6496训练投篮Rnd图4.质心更新频率的影响（左）和最小的小集群大小（右）对ODC学习的特征质量我们在均匀采样的90K ImageNet上研究了300个随机类中的这些超参数。我们使用ResNet-50报告了VOC 07 SVM分类任务的mAP。图3.在VOC07上使用线性支持向量机进行低拍图像分类，分别对每种方法的最佳层特征进行训练和测试。我们展示了五次跑动中每次投篮的平均表现。用ImageNet标签预训练的监督模型随着训练镜头值的增加而逐渐缩小。表3显示，ODC在VOC 2007上的低拍摄SVM分类中实现了57.1%的mAP性能，比我们的对手DC高在这个基准测试中，ODC的低拍摄结果表明，通过ODC学习的特征可以很好地推广到低拍摄分类。4.2. 进一步分析在本节中，我们将从不同的角度进一步分析我们的ODC模型。ODC是一种微调方案。ODC的高效率使得它可以很容易地作为一个快速的无监督的微调方案。为了评估ODC的微调能力，我们还使用我们重新实现的DC来微调其他自监督模型。表4显示了不同的自我监督方法的改进。与DC相比，我们观察到ODC显著提高了每个自监督方法的性能。随着ODC的微调，我们实现了16.7%的改善上校，吉格9.9%7.1%为腐烂，和7.9%的DC，分别为VOC2007 SVM分类基准。相比之下，直流也产生微调的改善，但滞后远远落后于ODC。超参数的影响。 ODC的超参数包括更新质心内存的频率和簇的最小大小。为了研究上述两个超参数的影响，我们使用从原始1.28M ImageNet数据集中均匀采样的90K图像训练模型，并在VOC2007 SVM分类基准上评估性能。图4显示了质心内存更新频率的影响。当更新频率变低时，我们观察到ODC的性能没有显著下降，这表明我们的方法对这个超参数不敏感，只要它在合理的范围内。图4显示了小集群的最小尺寸的影响。结果表明，较大的阈值（即，160)会导致性能下降。结果并不令人惊讶。大小小于最小大小的簇过于频繁地处理这样的小集群（见第二节）。3.2）在特征学习中引入了不稳定性。较大的阈值也会将不应该属于同一类的图像分组。值得注意的是，在最小集群大小的合理范围内，ODC的性能不会发生显著变化稳定性和收敛性。图1已经证明了ODC在DC上的优越稳定性，损失曲线在图5中，我们显示了训练稳定性和最大平均最大平最大平方法（ResNet-50）最佳层VOC07 SVM（%mAP）VOC07 SVM低剂量（%mAP）ImageNet标签588.075.4随机19.612.7Jigsaw [4]464.539.2彩色化[3]455.633.3旋转[8]†467.441.0DeepCluster [13]†569.146.9ODC（我们的）578.257.1原始55.664.567.469.1DC [13]†61.268.568.670.0ODC72.374.474.577.066971.00.90.80.70.60.50.40.30.20 100 200 300 400时代5251.55150.5501 2 4 8 16 32 64最大类：最小类图5.每个批次中改变的标签的比例逐渐下降，表明ODC在训练期间趋于稳定。ODC在整个训练迭代中的收敛为了衡量我们模型的稳定性，我们记录了一批标签发生变化的样本直观地说，较少的标签转换表明更高的稳定性。我们报告了使用ODC从头开始训练不同骨干时的比率。曲线从最高的标签转换率开始，即，一批中几乎100%的样品经历了标签的转换。逐渐地，标签转换比率下降并收敛到一个相对较低的值。虽然最终总有一小部分样品改变了标记，但ODC达到稳定状态。长尾数据训练。在之前的所有实验中，我们都在类平衡的ImageNet数据集上训练模型。为了评估ODC对长尾数据的学习效果，我们在下采样的长尾ImageNet上进行了实验[64]。具体来说，我们从原始ImageNet数据集中随机下采样300个类，其中包含100K张图像，以制作不同级别的长尾ImageNet数据集，其中最大类与最小类的比例范围从1（非长尾级别）到64（最高长尾级别）。图6显示了在不同级别的长尾ImageNet上训练的ODC的性能。我们观察到即使在具有大长尾度的条件下也没有显着的性能下降，这表明我们的方法对长尾数据的鲁棒性集群的可视化。我们将一些选定的集群可视化，如图7所示。由于簇的数量比原始注释的数量大得多，因此肯定会有一些簇表示注释类之外的新我们发现新的类，例如“hand” 这一现象揭示了无监督学习在人工注释之外捕捉新5. 结论我们提出了一个有效的联合聚类和特征学习范式的无监督表示学习。所提出的方法，在线深度聚类图6.ODC在下采样300类上训练的有效性100K长尾ImageNet，最大类与最小类的大小之比从1（非长尾）到64（高度长尾）。我们使用ResNet-50报告了VOC 07SVM任务的mAP。集群0第1现有第5组第9集群20新类集群60集群24新的第23关系第33图7.此图显示了选定群集的一部分。每一行代表一个集群。除了表示ImageNet注释中现有类的集群（如绿色框所示），我们还发现了ODC发现的一些新类。例如，蓝色框中的两行ODC还令人惊讶地将对象之间如橙色方框所示，群集分别代表(ODC)通过分解特征聚类并将该过程集成到网络更新的迭代中，实现了深度神经网络的有效和稳定的无监督训练。ODC单独作为一个无监督的表示学习方案表现令人信服。它还可以用于微调和大幅改进以前的自监督学习方法。鸣谢。这项工作得到了SenseTime-NTU协作项目，新加坡 MoE AcRF Tier 1 （ 2018-T1-002-056 ）， NTUSUG，NTU NAP，Max Planck-NTU Joint Lab for Artificial Senses and DataScience and Artificial Intelligence Research Lab （马克斯·普朗克-南大人工传感与数据科学联合实验室和人工智能研究实验室）我们感谢赵岳参与讨论这个想法。标签变更率最大平6698引用[1] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV，2015年。一、二、六[2] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。一、二、六[3] Richard Zhang、Phillip Isola和Alexei A Efros。彩色图像着色。在ECCV，2016年。一、二、六、七[4] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。在ECCV，2016年。一、二、六、七[5] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。对抗性特征学习。在ICLR，2017。一、二[6] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。着色作为视觉理解的代理任务。在CVPR，2017年。一、二[7] 西蒙·詹尼和保罗·法瓦罗通过学习发现伪影的自监督特征学习。在CVPR，2018年。1[8] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转进行无监督表示学习。在ICLR，2018年。一、二、六、七[9] Xiaohang Zhan，Xingang Pan，Ziwei Liu，Dahua Lin，and Chen Change Loy.通过条件运动传播的自监督学习。在CVPR，2019年。一、二[10] Huang Huang，Chen Change Loy，and Xiaoou Tang.区分属性和视觉表示的无监督学习。在CVPR中，第5175-5184页，2016年。1[11] 谢俊源、罗斯·吉希克和阿里·法哈迪。用于聚类分析的无监督深度嵌入。InICML，2016. 一、二[12] Jianwei Yang，Devi Parikh，and Dhruv Batra.深度表示和图像聚类的联合无监督学习在CVPR，2016年。一、二[13] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV，2018。一、二、三、五、六、七[14] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练。在ICCV，第2959-2968页，2019年。一、二[15] Oli vie rJHe'naf f ， AliRaza vi ， CarlDoersch ，SMEslami，and Aaron van den Oord.数据有效的图像识别与对比预测编码。arXiv预印本arXiv：1905.09272，2019。1[16] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。arXiv预印本arXiv：1911.05722，2019。1[17] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。16699[18] Xiaohang Zhan，Ziwei Liu，Junjie Yan，Dahua Lin，and Chen Change Loy.面向人脸识别的海量未标记数据中的共识驱动传播在ECCV，2018。1[19] 雷阳、詹晓航、陈大鹏、严俊杰、陈Change Loy和林大华。学习在亲和图上聚类人脸。在CVPR中，第2298-2306页，2019年。1[20] Pascal Vincent， Hugo Larochelle，Yoshua Bengio ，Pierre-Antoine Manzagol.使用去噪自动编码器提取和合成鲁棒特征。InICML，2008. 2[21] 阔克五世使用大规模无监督学习构建高级特征。载于ICASSP，2013年。2[22] Geoffrey E Hinton，Simon Osindero，and Yee-WhyeTeh.一种深度信念网的快速学习算法。神经计算，18（7）：1527-1554，2006。2[23] Honglak Lee，Roger Grosse，Rajesh Ranganath，andAn- drew Y Ng.用于分层表示的可扩展无监督学习的卷积深度信念网络ICML，第609-616页，2009年。2[24] Yichuan Tang ， Ruslan Salakhutdinov ， and GeoffreyHinton.用于识别和去噪的鲁棒玻尔兹曼机。在CVPR，第2264-2271页，2012年。2[25] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[26] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS，第2672-2680页，2014中。2[27] Emily L Denton，Soumith Chintala，Rob Fergus，et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在NeurIPS，第1486-1494页，2015中。2[28] Chris t ianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero，Andrew Cunningham，Alejandro Acosta，Andrew Aitken ， Alykhan Te

下载后可阅读完整内容，剩余1页未读，立即下载