最大化视图间互信息的图像聚类方法

168 浏览量更新于2023-10-15 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9928通过最大化视图间互信息进行聚类Kien Do，Truyen Tran，Svetha Venkatesh澳大利亚迪肯大学应用人工智能研究所（A2I2）{k.do，truyen.tran，svetha.venkatesh}@ deakin.edu.au摘要我们提出了一个新的框架，图像聚类，结合联合表示学习和聚类。我们的方法由两个头部组成，它们共享同一个骨干网络-一个“表示学习”头在实例级捕获对象的细粒度模式，其用作“聚类”头的线索以提取将对象分离成聚类的粗粒度信息。通过最小化应用于两个头的输出的两个面向样本的对比损失的加权和，以端到端的方式训练整个模型。为了确保对应于“聚类”头部的对比损失是最优的，我们引入了一种新的批评函数，称为“对数点积”。广泛的实验结果表明，我们的方法显着优于国家的最先进的单阶段聚类方法在各种图像数据集，提高了约 5-7% 的准确性在 CI-FAR10/20，STL 10，和ImageNet-Dogs的最佳基线。此外，我们的方法的1. 介绍近年来，未标记数据，特别是视觉内容的爆炸式增长，导致了对以无监督方式将这些数据有效组织成语义上不同的组的需求不断增长。这样的数据聚类便于下游机器学习和推理任务。由于标签不可用，聚类算法主要基于样本之间的相似性来预测聚类分配。然而，诸如余弦相似性或（负）欧几里德距离的常见相似性度量在应用于像图像的高维数据时是无效的。因此，现代图像聚类方法[7，17，18，37，40，41在一些实施例中，聚类算法（例如，CNN、RNN）用于将高维数据变换成潜在空间中的低维表示向量并在该空间中执行聚类理想情况下，一个好的聚类模型将数据分配给聚类，以保持组间相似性低，同时保持组内相似性高。大多数现有的深度聚类方法不满足这两个属性。例如，基于自动编码器的聚类方法[19，40，42]经常学习捕获太多信息的表示，包括背景或纹理等分散注意力的信息。这阻止了它们在聚类级别计算样本之间的适当相似性基于自动编码器的方法仅在MNIST等简单图像数据集上进行了测试。另一类方法[7，17，18]直接使用聚类分配概率而不是表示向量来计算样本之间的相似性。这些方法只能区分属于不同聚类但不属于同一聚类的对象，因此，可能不正确地将不同的对象分组到同一聚类中。这导致低的组内相似性。为了解决现有方法的局限性，我们提出了一个新的框架，称为对比表示学习和聚类（CRLC）的图像聚类。CRLC由共享相同骨干网络的两个头组成RL头在实例级计算对象之间的相似性骨干网络用作两个头之间的信息传输的介质，允许C头利用由RL头捕获的区分性细粒度模式来提取正确的粗粒度集群级模式。通过这两个头，CRLC可以有效地调节样本之间的簇间和簇内相似性。通过最小化两个面向样本的对比损失w.r.t的加权和，以端到端的方式训练CRLC。两个头。为了确保对应于C头的对比度损失导致最严格的InfoNCE下限[30]，我们提出了一种称为“点积对数”的新评论家，在我们的实验中，我们表明，CRLC显着优于广泛的国家的最先进的单9929ǁ ǁ ǁ ǁΣΣ联系我们LΣi=1~平均在CIFAR 10/20、STL 10、Ima-geNet 10/Dogs等5个标准图像聚类数据集上进行了阶段聚类。CRLC的“两阶段”变体也取得了比SCAN更好的结果-SCAN是一种强大的两阶段聚类方法，用于三个具有挑战性的ImageNet子集，分别为50，100和200个类。当提供一些标记数据时，CRLC，其目标只有很小的变化，可以超过许多最先进的半监督学习算法的大幅度。综上所述，我们的主要贡献包括：1. 通过两个面向样本的特征和概率向量的2. 概率向量上的对比损失的最优评价器;以及3. 广泛的实验和消融研究，以验证我们提出的方法对基线。2. 预赛2.1. 通过最大化交互的表示学习是非常宽松的，如果I（X，X~）logM，以及ii）通过增加M，我们可以实现更好的界限。尽管有偏置，但I_Info_NC_E（X，X~）具有比I（X，X~）[30]的其他无偏下限低得多的变化，其都是稳定的模型的训练执行批评者在实践中，f（x~，xi）被实现为x ~和xi的表示之间的缩放余弦相似性，如下：f（x~，xi）=f（z~，zi）=z~Tzi/τ（4）其中z~和z_i是x~和x_i的单位范数表示向量，关于ively;z~2=z12=1。 τ>0是“温度”超参数。有趣的是，在Eq. 4匹配理论上最优的评论家，其导致单位赋范表示向量的最紧密的信息界（Appdx中的详细解释）。A.4）由方程式在图4中，我们使用f（z~，zi）而不是f（x~，xi）来强调在此上下文中的评论家f是表示的函数。关于这一点，我们在等式中重写对比损失。3如下：跨不同视图的信息1Σef（z~，z1） Σ最大化跨不同视图的互信息（或简称ViewInfoMax）允许我们学习视图-LFC=Ep（x1：M）p（x~M）|x1）-logMi=1Σef（z~，zi）Σ（五）Σ捕获对下游任务重要的数据的语义信息的不变表示分类）。这种学习策略也是背后=Ep（x1：M）p（x~M）|x1）z~Tz1/τ−logi=1exp（z~Tzi/τ）（六）最近在表征学习方面的成功[16，28，33，36]。由于直接计算互信息是困难的[24，32]，人们通常最大化的变分下界的互信息。最常见下限是InfoNCE [30]，其公式由下式给出：I（X，X~）≥IInfoNCE（X，X~）（1）其中FC代表3. 方法3.1.通过最大化不同视图在聚类问题中，我们希望学习一个参数，EΣ日志ef（x~，x1）Σ+logM分类器sθ，其将每个未标记样本xi映射到聚类-p（x ~1：M）p（x~ 1：M|x1）Mi=1 ef（x~，xi）（二）分配概率向量qi =（qi，1，...，q i，C）（C是簇的数量），其分量q i，c表征=−L对比度+ logM（3）其中X、X~表示来自2个不同的随机变量X1属于集群C（C1，...， C）的范围内。直观地说，我们可以将qi视为xi的表示，并使用此向量来捕获xi中的群集级信息意见.X从1：M是来自pX的M个样本，x~是样本通过利用第节中讨论的2.1.这会导致以下群集损失：pX~与x1 相关联。（x~，x1）被称为“位置”对，并且（x~，x1）（i=2，...， M）被称为“n个at i v e”对。f（x，y）是一个实值函数，称为Σef（q~，q1） Σ~计算x和y之间的相似性。对比度通常是已知的作为L簇=Ep（x1：M）p（x~ M）|x1）— logMi=1 ef（q~，qi）— λH（Q平均值）（七）ef（x~，x1）~由于logΣMef（x~，xi） <0，I_Info_NC_E（X，X）是上M9930PC为界logM. 这意味着：i）InfoNCE边界=L−λH（Q）（8）1这里，我们使用“视图”作为通用术语来指示相同数据样本的不同变换。其中λ ≥ 0是系数; q~、q ~ i是与x~和x ~i相关联的概率向量，关于iv el y。PC是一个proba-9931LLLLL|L联系我们ΣM骨干网C头RL头最大权重共享最大图1：我们提出的对比表示学习和聚类（CRLC）框架概述我们的框架由一个x表示输入图像，T1（x）、T2（x）表示x的两个不同变换。类似于FC的能力对比损失（等式5），但是特征向量被概率向量代替。H是边际集群分配概率q~avg=Ep（x1）p（x~ 1|x1）[q~]。这里，我们最大化H（Q〜 avg）以避免a退化的解决方案，其中所有的样品落入相同群集（例如，q~对于所有样本是一热）。然而，可以在q~avg而不是−H（Q~av g）上自由使用其他均衡器。选择一个合适的评论家这是可能的使用con-LLAppdx中的其他非最佳评论家。A.1.第5.3节提供了“点积对数”批评家与其他批评家的经验比较此外，为了避免当概率接近one-hot时最小化PC的梯度饱和A.5），我们将概率平滑如下：q=（1−γ）q+γr其中r =。 1、…1Σ是上的均匀概率向量对于PC和对于FC，传统的4）.然而，这将导致次优结果（第5.3节）CC类;0≤Cγ<1是平滑系数，设置为以来PC应用于分类概率向量，而不是连续特征向量。因此我们需要为PC选择一个合适的批评者，以便与PC是最强的。理想的y，f（x~，xi）应该匹配理论上最优的评论家f*（x~，xi），即与logp（x~xi）成比例（在Ap-pdx中的详细解释）。A.3）。由y~和yi表示x~和xi的集群标签分别，我们有：Σ0.01，如果没有另外说明。为了实现 PC ，我们可以使用 SimCLR 框架 [8] 或MemoryBank框架[36]。如果选择SimCLR帧工作，则q~和qi（i）1、… M）分别经由参数分类器s θ直接从x~和x1计算。另一方面，如果选择MemoryBank框架，则我们维护非参数存储体M- 一个大小为N×C的矩阵，包含簇分配logp（x~|xi）≈logc=1Cp（y~=c|yi=c）所有N个训练样本的概率，并更新其行一旦如下计算新的概率：∝logq~cqi，c=log（q~Tqi）（9）c=1因此，最合适的批评是f（q~，qi）=lo g（q~Tqi），我们将其称为“点积对数”批评。当q~和qi是相同的独热向量时，该批评达到其最大值，并且当q~和qi是不同的独热向量时，该批评达到其最小值除了这位评论家，我们还列出了qn，t+1=αqn，t+（1−α）qn（10）其中α是动量，如果没有另外指定，在我们的工作中将其设置为0.5;q n，t是步骤t处的训练样本xn的概率向量，对应于的第n行;qn=s θ（x n）是新的概率向量。然后，除了正常经由sθ计算的q ~之外，等式（1）中的所有qi都是7、sam-均匀地从M 在步骤0处，M的所有行都是C9932LL|Σ'YLLL|LY|CC.Σ以相同的概率1，…，1.一、我们还尝试使用MoCo框架[14]实现PC，但发现它会导致不稳定的训练。主要原因是在训练的早期阶段，MoCo中的EMA模型经常为不同视图产生不一致的聚类分配3.2.结合表征学习由于特定概率向量的有限表示能力，通过最小化等式中的损失簇来7不能区分同一簇中的对象。因此，它们可能捕获次优的聚类级模式，这导致不令人满意的结果。为了克服这个问题，我们建议将聚类与对比表示学习结合到一个统一的24. 相关工作在文献中有大量的聚类和然而，在本文的范围内，我们只讨论两个相关主题的工作，即对比学习和深度聚类。4.1.对比学习尽管最近在学习表象方面取得了许多成功，但对比学习的想法很早以前就出现了。2006年，Hadsell et.等人[13]提出了最大裕度对比损耗，并将其与机械弹簧系统相关联。事实上，从概率的角度来看，当使用基于能量的模型时，对比学习自然会出现。例如，在很多问题中，我们想要最大化ef（y，x））这就是所谓的CRLC。如示于图1、CRLC由“集群”头（C-头）和“代表”组成logp（y x）=logy∈Y 其中y是输出，如共享同一骨干网络的“会话学习”头（RL-head）。骨干网络通常是卷积神经网络，其将输入图像x映射到隐藏向量h。然后，h被馈送到C头和RL头，以分别产生簇分配概率向量q和连续特征向量z我们同时应用聚类损失聚类（等式2）。8）和特征对比损失FC（等式8）。6）分别在q和z上训练整个模型集群和FC如下：LCRLC=L簇+λLFC=LPC−λ1H（Q~avg）+λ2LFC（11）其中λ1、λ2≥0是系数。3.3. 半监督学习的一个简单扩展虽然CRLC最初是针对无监督聚类提出的有许多方法可以调整CRLC，以便它可以在训练期间合并标记数据但是，在这项工作的范围内，我们只考虑模拟-一种简单的方法，即在标记数据上添加交叉熵损失到LCRLC。新损失由下式给出：L CRLC-semi = L CRLC + λE（x l，y l）Dl[−log p（yl|xl）]=LPC−λ1H（Q~avg）+λ2LFC+λ3Lxent（12）我们将CRLC的这种变体称为“CRLC-semi”。尽管它的简单性，我们将凭经验表明，CRLC半执行许多国家的最先进的SSL方法时，只有少数标记的样品是可用的。我们推测，clustering目标安排的数据不相交的集群，使分类更容易。2CRLC代表对比表示学习和聚类。与上下文X相关联，并且是所有可能的输出或词汇的集合。这大致相当于对所有y′y最大化f（y，x）和最小化f（y′，x），但在归一化设置中。然而，在实践中，的大小通常非常大，使得p（y X）的计算昂贵。这个问题在 [27 ， 36] 中通过使用噪声对比估计（NCE）[12]来近似p（y x）来解决。NCE的基本思想是将密度估计问题转化为二进制分类问题。lem：“样本是从数据分布还是从已知的噪声分布中提取的？“.基于NCE，Mikolov et. [25]和Oord et. [28]导出了一个更简单的对比损失，后来被称为InfoNCE损失[30]，并被许多后续作品[8，11，14，26，33，43]用于学习表示。最近，已经有几次尝试利用从聚类中获得的样本间统计数据来大规模改进表示学习[1，4，47]。PCL [22]通过K-means对数据进行聚类，并根据其视图及其分配的聚类质心（或原型）对样本进行对比。SwAV [5]不直接对比两个示例视图，而是使用一个视图来预测将另一个视图分配给一组可学习原型的代码。InterCLR[38]和ODC [45]通过在存储库中存储每个样本的伪标签（以及特征向量）并维护一组聚类质心，避免这些伪标签和聚类质心在每一步通过小批量K均值实时更新。4.2.深度聚类传统的聚类算法，如 K-means 或高斯混合模型（GMM），主要是针对低维的矢量类数据，因此，不执行高维结构数据，如图像。深度聚类方法通过利用深度神经网络的表示能力（例如，CNN，9933LL×× ××个RNN）来有效地将数据转换成低维特征向量，然后将其用作聚类目标的输入。例如，DCN [40]将K均值应用于由自动编码器产生的潜在表示重建损失和K-均值聚类损失同时最小化相比之下，DEC [37]仅使用编码器而不是像DCN这样的完整自动编码器来计算潜在表示。该编码器和集群质心一起学习，通过由作者提出的聚类损失JULE [41]使用RNN在CNN输出的表示之上实现聚合交互聚类，并以端到端的方式训练两个VaDE[19]将聚类视为推理问题，并使用变分框架[20]学习数据的聚类分配概率同时，DAC [7]将聚类视为二元分类问题：“一对样本是否属于同一个聚类？“.为了获得一对的伪标签，将该对中的两个样本的聚类分配概率之间的余弦相似性与自适应阈值进行比较。IIC [18]通过最大化两个不同数据增强下的集群之间的相互信息来学习集群分配。相反，PICA [17]最小化了从IIC中的互信息导出的对比损失。而PICA中的簇对比度损失是面向簇的，并且最多可以有C个负对（C是簇的数目）。相比之下，我们的概率对比损失是面向样本的，并且可以具有与训练数据的数量一样多的负对。因此，在理论上，我们提出的模型可以捕获更多的信息比PICA。在实际实现中，为了从数据中获得更多的信息，PICA必须使用它在最小化C个簇的PICA和最小化kC个簇的PICA（k >1表示“过聚类”系数）之间交替。DRC [46]和CC [23]通过将聚类与对比表示学习相结合来增强PICA，这与我们提出的CRLC遵循相同的范式。然而，像PICA一样，DRC和CC使用面向集群的表示而不是面向样本的表示。除了端到端的深度聚类方法，一些最近已经提出了多阶段聚类方法[29，34]。其中最著名的是《易经》[34]。该方法使用在第一阶段通过对比学习学习的表示来为训练集中的每个样本找到最近的邻居。在第二阶段中，相邻样本被迫具有相似的聚类分配概率。我们的概率对比损失可以很容易地扩展到处理相邻样本（见5.1.2节）。5. 实验数据集我们评估了我们提出的方法上的5个标准数据集的图像聚类是CIFAR 10/20[21]，STL 10 [9]，ImageNet 10 [10，7]和ImageNet-Dogs [10 ， 7] ，以及 3 个大的 ImageNet 子集，即ImageNet 50/100/200 ，分别具有 50/100/200 类 [10 ，34]。这些数据集的描述在Ap- pdx中给出。A.6.我们的数据增强设置如下[14，36]。我们首先随机裁剪图像到一个理想的大小（32 - 32 CIFAR，96 - 96 STL 10，和224 - 224 Ima- geNet子集）。然后，我们执行随机水平翻转、随机颜色抖动和随机灰度转换。对于ImageNet子集的数据集，我们在最后一步进一步应用高斯模糊[8]。与以前的工作类似[7，18，17]，训练集和测试集都用于CIFAR10，CIFAR20和STL10，而只有训练集用于其他数据集。我们还提供了在Appdx中仅将训练集用于CIFAR10、CIFAR20和STL10的结果A.8.对于STL10，另外使用100，000个辅助未标记样本来训练然而，当训练“聚类”头时，不使用这些辅助样本，因为它们的模型架构和训练设置在之前的工作[17，18，34，46]之后，我们分别在5个标准数据集和3个大的ImageNet子集上工作时采用ResNet34和ResNet50 [15“表示学习”头（RL头）和“聚类”头（C头）是具有ReLU激活的RL头的输出向量的长度是128。温度τ（等式5）固定在0.1。为了减少学习中的方差，我们用类似于[18]的10个C-子标题3这只给我们的模型增加了很少的额外计算然而，与[17，18，46]不同的是，我们不使用辅助的Appdx中提供了端到端和两阶段群集的培训设置。A.7.评估指标我们使用三种流行的聚类指标，即准确性（ACC），归一化互信息（NMI），调整兰德指数（ARI）进行评估。对于未标记的数据，通过Kuhn-Munkres算法计算ACC所有这些指标的范围都是从0到1，值越高表示性能越好在这项工作中，我们将[0，1]范围转换为百分比。5.1. 聚类5.1.1端到端培训表1将我们提出的CRLC的性能与各种最先进的深度聚类方法进行了比较。 CRLC明显优于所有基线3等式中的最终L簇8是这些C-子标题的L簇9934LLL数据集CIFAR10CIFAR20STL10ImageNet10ImageNet狗度量ACC NMIAriACC NMIAriACC NMIAriACCNMIAriACCNMIAriJULE [41]27.2 19.213.813.7 10.33.327.7 18.216.430.017.513.813.85.42.812月[37]30.1 25.716.118.5 13.65.035.9 27.618.638.128.220.319.512.27.9发展援助委员会[7]52.2 39.630.623.8 18.58.847.0 36.625.752.739.430.227.521.911.1DDC [6]52.4 42.432.9- --48.9 37.126.757.743.334.5---DCCM [35]62.3 49.640.832.7 28.517.348.2 37.626.270.160.855.538.332.118.2IIC [18]61.7--25.7--61.0--------MCR2 [44]68.4 63.050.834.7 36.216.749.1 44.629.0------PICA [17]69.6 59.151.233.7 3117.171.3 61.153.187.080.276.135.235.220.1刚果民主共和国[46]72.7 62.154.736.7 35.620.874.7 64.456.988.483.079.838.938.423.3仅C形头66.9 56.947.5三十七点七三十五点七21.661.2 52.743.480.075.267.636.337.519.8CRLC79.9 67.963.442.5 41.626.381.8 72.968.285.483.175.946.148.429.7表1：5个标准图像数据集上的端到端聚类结果。由于篇幅所限，我们只给出了结果的平均值。标准差请参见附录dx。A.8.ImageNet50班100节课200个类度量ACCACC5NMIAriACCACC5NMIAriACCACC5NMIAriK-means [34]65.9-77.557.959.7-76.150.852.5-75.543.2扫描[34]75.191.980.563.566.288.178.754.456.380.375.744.1两级CRLC75.493.380.663.466.788.379.255.057.980.676.445.9表2：ImageNet 50/100/200上的两阶段聚类结果大多数数据集上的 margin 。例如，在聚类准确性（ACC）方面，我们的方法在CIFAR 10/20，STL 10和ImageNet-Dogs上的最佳基线（DRC [46]）上提高了5-7%如果我们与不显式学习表示的方法（如PICA [17]和IIC [18]）相比，收益甚至更大。CRLC在ImageNet10上的表现只比DRC差，这归因于我们选择的超参数。此外，即使当仅使用“聚类”头时，我们的方法仍然超过大多数基线（例如，DCCM、IIC）。这些结果表明：i）我们可以通过最小化概率对比损失来从数据中学习语义聚类，以及ii）与对比表示学习相结合提高了聚类分配的质量。为了更好地了解CRLC的性能，我们在图中可视化了一些成功和失败的案例。 2 （也在 Appdx 中。A.11）。我们看到，以高置信度正确预测的样本通常代表它们所属的聚类。这表明CRLC已经学会了在集群级别分离对象的粗粒度模式。此外，CRLC还捕获了细粒度的实例级信息，因此，能够找到与原始图像在形状，颜色和纹理方面具有很大相似性另一个有趣的事情从图。2的另一个优点是样本的预测标签通常与其大多数邻居的预测标签强烈相关。这意味这表明：i）CRLC已经学会了从图像到聚类分配的平滑映射，以及ii）CRLC倾向于产生第2c段）。其他种类的错误可能来自类之间的接近度（例如，马对狗），或者来自输入中的一些对抗信号（例如，图中的第二行。第2b段）。修复这些错误的解决方案超出了本文的范围，将留待以后的工作。5.1.2两阶段训练尽管CRLC最初被提出为端到端聚类算法，但是它可以容易地扩展为类似于SCAN的两阶段聚类算法[34]。为了做到这一点，我们首先用FC预训练RL头部和骨干网络（等式10）。（六）。接下来，对于训练数据中的每个样本，我们根据预训练网络产生的特征向量之间的余弦相似性找到一组K个最近邻居。在第二阶段中，我们通过最小化集群来训练C头（等式10）。8），其中正对由样本及其从K个最近邻的集合中抽取的邻居组成。我们将 CRLC 的这种变体称为 “ 两阶段”CRLC。事实上，我们确实尝试在第二阶段通过最小化CRLC来训练C头和RL头，但与仅训练C头相比，无法获得良好的结果我们假设微调RL头会导致模型捕获太多细粒度信息。9935LL(a) 正确（b）假阴性（c）假阳性图2：CRLC正确（绿色）和错误（红色）预测的5类STL10样本对于每个子图，我们在最左边的列上显示参考样本，在右边显示它们最近的邻居。基于两个样本的特征向量之间的归一化余弦相似性（数据集CIFAR10标签102040MixMatch [3]--47.54± 11.50UDA [39]--29.05± 5.93ReMixMatch [2]--19.10± 9.64ReMixMatch†459.86± 9.3441.68± 8.1528.31± 6.72CRLC-semi46.75± 8.0129.81± 1.1819.87± 0.82表3：CIFAR10上的分类错误。值越低越好。基线结果取自[31]。†：从模型的外部实现获得的结果。而忽略重要的集群级信息，这会损害集群性能。在表2中，我们显示了“两阶段”CRLC在ImageNet50/100/200上的聚类结果CIFAR 10/20和STL 10的结果见附录dx。A.9. 为了与SCAN进行公平比较，我们使用与[34]中相同的设置（详见Appdx.A.7）。很明显，一个可能的原因是，除了将相邻样本推到一起之外，我们提出的概率对比损失还拉远了不是邻居的样本（在负对中），而SCAN因此，通过体验更多的样本对，我们的模型可能会形成更好的聚类。4https://github.com/google-research/remixmatch5.2. 半监督学习考虑到CRLC在聚类方面的良好性能，很自然地会问这个模型在半监督学习（SSL）上是否也表现良好。为了适应这个新的任务，我们简单地用新的目标CLRC-semi训练CRLC（等式2）。第12段）。模型架构和训练设置几乎保持不变（Appdx中的更改。A.13）。从表3中，我们看到，CRLC-semi虽然不是专门为SSL设计的，但显著优于许多最先进的SSL方法（在Ap-pdx中的简要讨论）A.12）。例如，CRLC-semi在CIFAR 10上实现了比MixMatch [3]和UDA [39]分别低约30%和10%的误差，每个类别有4个标记样本。有趣的是，当标记数据的数量被推到极限时，CRLC-semi的能力变得显而易见。虽然大多数基线不能与1或2个标记的样本，每个类，CRLC-semi仍然表现一贯良好，标准差非常低。我们假设原因是CRLC-semi通过最小化FC，比SSL基线更好地模拟数据的有关SSL的更多结果，请查看Appdx。A.14.5.3. 消融研究在图3左侧，我们示出了CRLC在CIFAR10和CIFAR20上的性能。不同的评论家功能。显然，理论上健全的9）给出最好的结果。“负L2距离”评论9936LLLLLLLL图3：左：CRLC的聚类准确度w.r.t. CIFAR 10/20的不同评论家（仅训练集）。中、右：CIFAR20 w.r.t.上CRLC的准确度和LPC曲线LFC的不同系数（等式中的λ2第11段）。图4：左：CRLC的聚类准确度w.r.t.SimCLR [8]和MemoryBank [36]实现。对于CIFAR 10/20，仅使用训练集。中间，右：分别由CRLC和SimCLR在ImageNet10训练集上学习的特征向量的tSNE可视化。“点产品”和“负JS散度”的特征对比度损失的贡献我们研究了如果我们改变公式中的FC（λ 2）的系数，我们的模型的性能将受到多大的11）不同的价值观。关于CIFAR20的结果示于图1B中。三中右。有趣的是，同时最小化PC和FC导致比仅最小化PC（λ2=0）更低的PC这意味着FC为模型提供了更多的信息，以形成更好的集群。为了实现良好的聚类结果，λ2相对于PC的系数（其为1）应该足够大。然而，太大的λ2导致PC的高值，这可能损害模型对于包括CIFAR20的大多数数据集，λ2的最佳值为10。CRLC的非参数实现除了使用SimCLR [8]，我们还可以使用MemoryBank [36]（第3.1节）实现CRLC中的两个对比损失。这将内存存储减少了约30%，训练时间减少了一半（在CIFAR10上，ResNet34作为主干，minibatch大小为512）。然而，基于MemoryBank的CRLC 通常需要更长的时间来收敛，并且比基于SimCRL的计数器部分更差，如图所示左四。研究了负样本数和动量系数对非均匀性的贡献在Appdx中分析了基于MemoryBank的CRLC的性能A.10.2.流形可视化我们在图中可视化了CRLC学习的连续特征的流形。4中。我们观察到CRLC通常将特征分组到分离良好的簇中。这是因为由C头捕获的信息已经影响RL 头。然而，如果独立地学习 RL 头（例如，在SimCLR中），集群也会出现，但通常靠得很近（图12）。4右）。通过这两种情况，我们看到了对比表示学习对聚类的重要性。6. 结论我们提出了一种新的聚类方法CRLC，利用细粒度的实例级信息和粗粒度的集群级信息的数据，通过一个统一的面向样本的对比学习框架。CRLC不仅在聚类方面，而且在半监督学习方面都表现出了良好的效果。在未来，我们计划增强CRLC，使其能够以有原则的方式处理邻近的样本，而不仅仅是视图。我们还希望将CRLC扩展到其他域（例如，视频、图表）和问题（例如，对象检测）。9937引用[1] Yuki Markus Asano ， Christian Rupprecht ， andAndrea Vedaldi.通过同时聚类和表征学习的自我标记。arXiv预印本arXiv：1911.05371，2019。四个[2] David Berthelot 、 Nicholas Carlini 、 Ekin DCubuk、Alex Kurakin、Kihyuk Sohn、Han Zhang和Colin Raffel。Remixmatch：具有分布对齐和增强锚定的半监督学习。 arXiv 预印本 arXiv ：1911.09785，2019。七个[3] DavidBerthelot、NicholasCarlini、IanGoodfellow 、 Nicolas Papernot 、 Avital Oliver 和Colin A Raffel。Mixmatch：半监督学习的整体方法。神经信息处理系统，第5050-5060页，2019年。七个[4] Mathilde Caron ， Piotr Bojanowski ， ArmandJoulin，and Matthijs Douze.用于视觉特征的无监督学习在欧洲计算机视觉会议（ECCV）的会议记录中，第132-149页四个[5] Mathilde Caron，Ishan Misra，Julien Mairal，PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。arXiv预印本arXiv：2006.09882，2020。四个[6] Jianlong Chang ， Yiwen Guo ， Lingfeng Wang ，Gaofeng Meng ， Shiming Xiang ， and ChunhongPan.深度判别聚类分析。 arXiv 预印本 arXiv ：1905.01681，2019。六个[7] 常建龙，王凌峰，孟高峰，向世明，潘春红。深度自适应图像聚类。在IEEE国际计算机视觉会议论文集，第5879- 5887页，2017年。一、五、六[8] TingChen ， SimonKornblith ， MohammadNorouzi，and Geoffrey Hinton.视觉表征对比学习的一个简单框架。 arXiv 预印本 arXiv ：2002.05709，2020。二三四五八[9] Adam Coates，Andrew Ng，and Honglak Lee.无监督特征学习中单层网络的分析。在第十四届人工智能和统计学国际会议论文集，第215JMLR研讨会和会议记录，2011年。五个[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别会议上，第248-255页Ieee，2009年。五个[11] Alexey Dosovitskiy ， Jost Tobias Springenberg ，Martin Riedmiller，and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。在Proceedingsof the 27th International Conference on NeuralInformation Processing Systems-Volume 1 ， pages766-774，2014中。四个[12] Michael Gutmann 和 Aapo Hyvärinen 噪声对比估计：非正态化统计模型的新估计原理第十三届人工智能和统计国际会议论文集，第 297JMLRWork-shop and Conference Proceedings，2010.四个[13] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数。在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。四个[14] Kaiming He ， Haoqi Fan ， Yuxin Wu ， SainingXie，and Ross Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页，2020年。四、五[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770-778页，2016年。5[16] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon、Karan Grewal、Phil Bachman、AdamTrischler和Yoshua Bengio。通过互信息估计和最大化来学习深度表示 arXiv 预印本 arXiv ：1808.06670，2018。二个[17] 黄佳波，龚少刚，朱夏田。通过分区置信度最大化的深度语义聚类。在IEEE/CVF计算机视觉和模式识别会议论文集，第8849-8858页，2020年。一、五、六[18] Xu Ji，João F Henriques，and Andrea Vedaldi.用于无监督图像分类和分割的不变信息聚类。在IEEE/CVF计算机视觉国际会议论文集，第9865-9874页一、五、六[19] Zhuxi Jiang ， Yin Zheng ， Huachun Tan ，Bangsheng Tang，and Hanning Zhou.变深埋藏：一种无监督的生成式聚类方法。第26届国际人工智能联合会议论文集，第1965-1972页，2017年。一、五[20] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。五个9938[21] 亚历克斯·克里热夫斯基从微小的图像中学习多层2009. 五个[22] Junnan Li ，Pan Zhou ，Caiming Xiong ， RichardSocher，and Steven CH Hoi.无监督表示的原型对比学习。arXiv预印本arXiv：2005.04966，2020。四个[23] Yunfan Li，Peng Hu，Zitao Liu，Dezhong Peng，Joey Tianyi Zhou，and Xi Peng.对比聚类。arXiv预印本arXiv：2009.09687，2020。五个[24] 大卫·麦卡莱斯特和卡尔·斯特拉托斯互信息度量的形式在人工智能和统计国际会议上，第875-884页。PMLR，2020年。二个[25] Tom

下载后可阅读完整内容，剩余1页未读，立即下载