通过分区置信度最大化进行深度语义聚类

118 浏览量更新于2023-10-24 收藏 13.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

188490通过分区置信度最大化进行深度语义聚类0Jiabo Huang伦敦玛丽女王大学0jiabo.huang@qmul.ac.uk0Shaogang Gong伦敦玛丽女王大学0s.gong@qmul.ac.uk0XiatianZhu萨里大学0xiatian.zhu@surrey.ac.uk0摘要0通过同时学习视觉特征和数据分组，深度聚类已经展示了处理高维视觉数据的无监督学习结构分析的令人印象深刻的能力。现有的深度聚类方法通常依赖于基于样本间关系和/或自我估计的伪标签的局部学习约束。这容易受到邻域中分布的不可避免的错误的影响，并在训练过程中受到错误传播的影响。在这项工作中，我们提出通过从所有可能的分离中学习最可信的聚类解决方案来解决这个问题，基于这样的观察：将来自相同语义类别的样本分配到不同的簇中将减少簇内紧凑性和簇间多样性，即降低分区置信度。具体而言，我们引入了一种名为PartItion Con�dencemAximisation（PICA）的新型深度聚类方法。它建立在学习最具语义可信性的数据分离的思想上，其中所有簇都可以一对一地映射到地面真实类别，通过最大化聚类解决方案的“全局”分区置信度来实现。这是通过引入可微分的分区不确定性指数及其随机逼近以及一个原则性的目标损失函数来实现的，该损失函数最小化这种指数，所有这些都使得可以直接采用传统的深度网络和基于小批量的模型训练。在六个广泛采用的聚类基准上进行的大量实验证明了我们模型在一系列最先进方法上的性能优势。代码可在网上获得。01. 引言0作为机器学习中最基本的问题之一，聚类在广泛的计算机视觉领域引起了广泛的关注[5, 1, 25, 31]，其中0由于难以获取地面真实标签，早期的聚类算法[32, 43,38]在处理高维图像数据时通常受限于缺乏有区分性的视觉表示[21,22]。作为解决这个问题的最新努力，深度聚类[19]提出了通过深度学习技术共同优化表示学习和聚类目标的方法[12,30]。尽管使用可学习表示进行聚类分析有潜力改善无标签数据上的聚类，但如何提高这些簇的语义合理性仍然是一个未解决的问题。0最近的深度聚类模型要么迭代地估计簇分配和/或样本间关系，然后将其用作监督深度神经网络学习的假设[44, 6, 7,50]，要么与聚类约束一起使用[24, 16,23]。在理想情况下，这种交替学习方法可以接近监督模型的性能，尤其是在对抗噪声标签的鲁棒性方面受益良多[18]。然而，它们容易受到错误传播的影响，因为在两个学习目标之间的交替簇分配和表示学习过程中，局部邻域中的任何错误都会在此交替过程中累积（图1（a））。另一方面，还有一些同时学习的方法，可以同时学习表示和簇，而无需显式的簇分配和/或样本间关系估计[24,23]。它们通常通过一些预训练任务进行训练，但得到的解决方案往往不令人满意。尽管这种方法可以避免大部分错误传播的问题，但由于训练监督和聚类目标之间的模糊连接，它们受到模糊学习约束的困扰。没有全局解决方案级别的指导来从所有可能的分离中进行选择，所得到的簇通常在语义上不太可信。0在这项工作中，我们提出了一种称为PartItion Con�dencemAximisation（PICA）的深度聚类方法。88500（a）局部约束（b）全局约束0图1.（a）深度聚类中的局部与（b）全局学习约束。地面真实类别由彩色背景表示，灰色实线和灰色阴影区域表示决策边界和边界。箭头表示学习监督。在局部学习约束下，模型更有可能由于缺乏解决方案级别的全局结构指导而在邻域中传播错误，如（b）所示。0大多数自然图像中存在类内视觉差异和类间关联，同一语义类别的大多数样本仍然预期共享高比例的视觉信息。在这种情况下，尽管可以根据各种标准将一组数据分离成多种方式，但将来自相同语义类别的样本分配到不同的簇中会降低结果的簇内紧密性和簇间多样性[45]，导致较低的分区置信度。基于这一观点，PICA专门设计为鼓励模型从所有可能的解决方案中学习最有信心的簇，以找到最具语义合理性的类间分离。这与传统的最大边界聚类[47,9]的精神相符，后者也寻求使用浅层模型（例如SVM）找到最可分离的聚类解决方案，但在特征表示和决策边界方面有明显不同，我们的深度学习模型同时学习特征表示和聚类分配。具体而言，我们提出了一种分区不确定性指标，用于量化深度模型在同时进行特征表示学习和聚类分配时对一组目标图像的理解和分离的置信度。为了适应基于标准小批量的模型学习，引入了分区不确定性指标的随机逼近。我们进一步制定了基于随机分区不确定性指标的新型目标损失函数，以实现与任何现成网络的深度聚类。0我们的贡献有三个方面：（1）我们提出了通过最大化分区置信度来学习最具语义合理的聚类解决方案的思想，这扩展了0经典的最大边界聚类思想[47,9]与深度学习范式相结合。所提出的方法对局部样本间关系和/或簇分配没有强烈的假设，通常会导致错误传播和较差的聚类解决方案。(2)我们引入了一种新颖的深度聚类方法，称为PartItion Con�dencemAximisa- tion(PICA)。PICA建立在一种新引入的分区不确定性指标之上，这种指标被设计得优雅，可以量化聚类解决方案的全局置信度。为了能够制定深度学习目标损失函数，进一步提出了分区不确定性指标的新转换。PICA可以使用单一目标损失函数进行端到端训练，无需繁琐的操作（例如复杂的多阶段交替和多个损失函数），同时学习深度神经网络和可映射到语义类别一对一的聚类分配。(3)引入了分区不确定性指标的随机逼近，将其与整个目标图像集解耦，从而实现标准的小批量模型训练。通过在六个具有挑战性的对象识别基准上进行大量实验证明了PICA相对于广泛的最先进深度聚类方法的优势，包括CIFAR-10/100 [28]，STL-10[8]，ImageNet-10/Dogs [7]和Tiny-ImageNet [29]。02. 相关工作0现有的深度聚类方法通常根据训练策略分为两类：（1）交替训练[49，46，7，44，6，50，15]和（2）同时训练[23，36，35，16]0交替训练策略通常根据预训练或最新模型估计地面真实成员资格，并通过估计的信息监督网络训练。DEC[46]通过对预训练图像特征进行K-means[32]来初始化簇质心，然后微调模型以从自信的簇分配中学习以提高结果预测分布的准确性。IDEC[15]具有类似的思想，并通过局部结构保持机制进行改进。JULE[50]通过一个递归框架将分层凝聚聚类思想与深度学习相结合，合并彼此相邻的簇。[49]中的方法同时优化自动编码器[2]和K-means[32]的目标，并交替估计簇分配以学习“友好于聚类”的潜在空间。DAC [7]，DDC [6]和DCCM[44]根据最新样本特征之间的成对距离利用样本间关系进行训练。而从预训练或最新模型计算的显式局部学习约束通常导致88510对于确定性聚类解决方案，这些方法在训练过程中由于邻域中不一致估计的错误传播而遭受更严重的问题。与它们相比，我们的方法对簇分配和样本间关系都没有硬性假设，因此可以更好地避免错误的积累。同时训练策略通常将深度表示学习[2，42]与传统的聚类分析[32，10，13]或其他前提目标结合起来。这些方法通常不明确地从估计的簇分配中学习，但通常需要良好的簇结构来实现训练目标。[23，36，35]中的方法通过优化聚类分析的目标，并使用自动编码器的重构约束来避免平凡解。ADC[16]制定了优化目标，鼓励簇质心和样本嵌入之间的一致关联循环，而IIC[24]训练模型最大化正样本对预测之间的互信息。它们都会随机扰动数据分布作为正关系的线索，以提高模型对视觉变换的鲁棒性。尽管这类方法减轻了来自估计信息不准确的监督的负面影响，但它们的目标通常比其他方法更模糊，因为它们可以通过多种不同的分离满足。由于训练监督与聚类目标之间的模糊连接，这类方法在缺乏全局解决方案级别指导时往往会产生语义上不太合理的聚类解决方案。我们的PICA模型通过引入分区不确定性指数来量化聚类解决方案的全局置信度，从而选择最具语义合理性的分离。此外，它还可以在简洁和同时的方式下进行训练，无需任何特定的预训练或交替策略。03. 方法论0问题定义给定一组N个未标记的目标图像I ={I1，I2，...，IN}，这些图像来自K个语义类别Y ={Y1，Y2，...，YK}，深度聚类的目标是通过卷积神经网络（CNN）模型以无监督的方式将I分成K个簇。通常联合端到端学习两个组件：（1）特征提取器fθ(∙)，将目标图像映射为向量表示：x =fθ(I)，以及（2）分类器gφ(∙)，将每个特征表示x分配给簇成员分布：p = gφ(x) ={p1，p2，...，pK}。一旦训练了CNN模型，可以以最大似然方式预测簇分配。0k � = arg max k ( p k ) , k ∈ { 1 , 2 , ..., K } . (1)0理想情况下，一个聚类的所有样本应该共享相同的目标类标签。也就是说，我们的目标是直接从原始数据样本中发现潜在的语义类决策边界。总体上讲，图像聚类并不是一个明确定义的问题，因为多个不同的解决方案都可以对输入数据进行解释。这使得深度聚类非常具有挑战性，因为它完全缺乏高级指导知识。鉴于此，本文假设最自信的数据分区是我们正在寻找的最有前景和语义合理的解决方案，正如前面所解释的。基于这种考虑，我们提出了一种新颖的深度聚类方法，称为PartItion Con�dence mAximisation(PICA)。PICA基于一个分区不确定性指数(PUI)，该指数衡量深度CNN对目标图像数据进行解释和分区的能力。因此，它是一种全局聚类解决方案的度量(Fig. 1(b))，与大多数现有的深度聚类方法根据个别样本或样本对的局部约束(Fig. 1(a))而不是全局解决方案的学习指导方式根本不同。该指数是可微分的，因此，PICA只需使用任何现成的CNN模型优化它，而无需任何花哨的技巧。PICA的概述如图2所示。03.1. 分区不确定性指数0我们首先制定了一个分区不确定性指数，这是我们PICA的一个关键要素。给定输入图像Ii，假设CNN模型的聚类预测表示为：0pi =04 pi,1 ∙ ∙∙ pi,K05 ∈ R K × 1 (2)0其中pi,j指定了第i个图像分配给第j个聚类的预测概率，并且总共有K个聚类(j∈[1,2,...,K])。然后我们得到所有N个目标图像的聚类预测矩阵：0P = [ p 1 , p 2 , ..., p N ] ∈ R K × N (3)0为了方便演示，我们将P的第j行表示为：0q j = [ p 1 ,j , p 2 ,j , ..., p N,j ] ∈ R 1 × N , j ∈ [1 , 2 , ...,K ] . (4) 显然，q j收集了所有图像对于第j个聚类的概率值，它总结了该聚类在整个目标数据上的分配统计。因此，我们将其称为聚类的分配统计向量(ASV)。理想情况下，每个图像只分配给一个聚类，即每个p都是一个one-hot向量(与监督图像分类中的真实标签向量相同)。直观上讲，这对应于最自信的聚类0!"ℐ101ℐ01!′"ℐ01!′%ℐ(b) ASV01ℐ+01ℐ-0.70.40.30.6(c) PUI1.00.00.01.001ℐ!"!%!′"!′%!%cos(qj1, qj2) =qj1 · qj2kqj1k2kqj2k2, j1, j2 2 [1, · · · , K] (5)MPUI(j1, j2) = cos(qj1, qj2), j1, j2 2 [1, · · · , K](6)P t =24qt1· · ·qtK35 2 RK⇥Nb(7)MS-PUI(j1, j2) = cos(qtj1, qtj2), j1, j2 2 [1, · · · , K]. (8)88520(a) 输入和边界0扰动副本0目标样本0真实成员0单位球上的ASV0扰动的ASV0决策边界和间隔0(d) 更新0置信度最大化0图例0图2. 无监督深度聚类方法PartItion Con�dence mAximisation (PICA)的概述。(a) 给定输入数据和由CNN模型确定的决策边界，(b)PICA使用小批量数据及其随机扰动副本在前向传递中计算每个聚类的分配统计向量(ASV)。(c) 为了最小化分区不确定性指数(PUI)，(d)PICA通过专用的目标损失函数训练以区分所有聚类的ASV在超球面上，从而学习最自信和有潜力的聚类解决方案。0这是 PICA旨在实现的目标。为了使深度聚类模型的学习过程朝着这个理想（最自信）的情况发展，通常需要一个目标损失函数。为此，我们设计了一个分区不确定性指数作为学习目标。具体而言，我们观察到在上述理想情况下，任意两个聚类 q j1 和 q j 2 的 ASV值是正交的。从数学上讲，这意味着它们的余弦相似度（公式（5））为0（由于 q j 1 和 q j 2 中没有负值）。0在最坏的聚类情况下，所有聚类预测 p都相同（例如均匀分布向量），我们也有一个常数值：cos (q j 1 , q j 2 ) = 1，因为所有 ASV值都相同。对于中间的任何情况，两个聚类的 ASV余弦相似度将从0（最自信）到1（最不自信）的范围内变化。根据上述分析，我们将分区不确定性指数（PUI）定义为所有聚类对的 ASV 余弦相似度集合：0形式上，M PUI 是一个 K � K 矩阵。通过这样做，PICA的学习目标就是最小化PUI（除了对角元素），这应该提供最自信的聚类解决方案。0随机逼近 PUI。具体而言，在每次训练迭代中，我们使用它们的随机子集 I t而不是使用所有的图像（这是确定性的）。在概率论和统计学中，这是从整个目标数据空间中采样的离散均匀分布。我们将这种近似称为随机PUI。在实践中，这使得标准深度学习的小批量训练更容易，例如，将 I t设置为一个小批量。形式上，在第 t 次训练迭代中，我们有一个由 N b 个样本组成的小批量 B来训练模型，并将 I t = B。让我们用由最新模型生成的 I t 的聚类预测矩阵表示为：0PUI的随机逼近。具体而言，我们在每次训练迭代中使用一个随机子集 I t而不是使用所有的图像（这是确定性的）。在概率论和统计学中，这是从整个目标数据空间中采样的离散均匀分布。我们将这种近似称为随机PUI。在实践中，这使得标准深度学习的小批量训练更容易，例如，将 I t 设置为一个小批量。形式上，在第 t次训练迭代中，我们有一个由 N b 个样本组成的小批量 B来训练模型，并将 I t = B。让我们用由最新模型生成的 I t的聚类预测矩阵表示为：0其中 q t j 2 R 1 � N b 是 I t 上第 j 个聚类的ASV。根据公式（6），我们得到随机 PUI：0随机 PUI 的精神类似于 dropout[40]。在这种情况下，我们随机丢弃的不是神经元，而是数据样本，并在标准小批量采样过程中实现。03.2. 学习目标函数0给定随机 PUI M S-PUI，如前所述，PICA被训练为最小化它（除了对角元素）。为了得到一个典型的目标损失函数，我们通常需要一个标量度量。然而，MS-PUI 是一个 K � K矩阵。因此，有必要对其进行转换。回想一下，对于任意两个不同的聚类，我们希望最小化它们的 ASV余弦相似度。这实际上是通过将每个聚类视为自我注意力来加强自我注意力[41]。mj,j0 =exp(MS-PUI(j, j0))PKk=1 exp(MS-PUI(j, k)), j0 2 [1, · · · , K] (9)88530数据样本并抑制所有样本间的注意力。因此，我们对每个聚类 j 应用 softmax操作作为自注意力，并得到概率测量结果：0通过这种转换，学习目标进一步简化为最大化 { m j,j } K j=1。通过将 m j,j 视为训练样本（在此上下文中为一个聚类j）的真实类别的模型预测概率，一个自然的选择是利用常见的交叉熵损失函数：0L_ce = 10K0j=1 - log(m_j,j) (10)0因此，我们制定了一个标量目标损失函数L_ce，有效地最小化了矩阵M_S-PUI。在聚类中，存在着算法无关的平凡解，将大多数样本分配到少数类别中。为了避免这种情况，我们引入了一个额外的约束条件，最小化聚类大小分布的负熵：0L_ne = log(K) - H(Z)，其中Z = [z_1, z_2, ..., z_K] (11)0其中H(∙)是分布的熵，Z是L1归一化的软聚类大小分布，每0P(q_t_j)P(K_k=1P(q_t_k)。使用log(K)是为了确保损失值非负。PICA的整体目标函数定义为：0L = L_ce + λL_ne (12)0其中λ是一个权重参数。03.3. 模型训练0PICA的目标函数（公式（12））是可微的端到端的，可以使用传统的随机梯度下降算法进行模型训练。为了提高模型对视觉变换的鲁棒性，我们使用数据增强来随机扰动训练数据分布。我们在全局解级别上强制执行对图像扰动的聚类不变性。具体来说，我们在每次迭代中使用原始数据计算公式（8）中的q_t_j_1和变换后的数据计算q_t_j_2。训练过程总结如算法1所示。04. 实验0在评估中，我们使用了六个目标识别数据集。（1）CIFAR-10（/100）[28]：一个包含50,000个/10,000个样本的自然图像数据集，用于训练和测试10（/100）个类别。（2）STL-10[8]：一个由ImageNet[39]提供的数据集，包含500个/800个训练/测试图像0算法1PICA的深度聚类。输入：训练数据I，训练轮数N_ep，每轮迭代次数N_it，目标聚类数K；输出：深度聚类模型；对于epoch = 1到N_ep，对于iter =1到N_it，随机抽样一个小批量图像；将小批量输入深度模型；计算每个聚类的ASV（公式（4））；计算随机PUI矩阵（公式（8））；计算目标损失（公式（12））；通过反向传播更新模型权重。结束循环结束循环0每个类别的10个样本和来自几个未知类别的额外10万个样本。（3）ImageNet-10和ImageNet-Dogs[7]：ImageNet的两个子集，前者选择了10个随机选定的主题，后者选择了15个狗品种。（4）Tiny-ImageNet[29]：ImageNet的一个子集，有200个类别。每个类别均匀分布了10,000个/1,000个训练/测试图像。我们采用了与[24, 44,7]相同的聚类设置：对于CIFAR10/100和STL-10，使用训练和测试集（无标签）；对于ImageNet-10、ImageNet-Dogs和Tiny-ImageNet，只使用训练集；将CIFAR-100的20个超类作为真实类别。0评估指标我们使用了三个标准的聚类性能指标：（a）准确率（ACC）通过为每个聚类分配主导类别标签，并将平均正确分类率作为最终得分来计算；（b）归一化互信息（NMI）量化了预测标签与真实标签之间的归一化互相依赖关系；（c）调整兰德指数（ARI）根据正确分配到相同/不同聚类的正/负样本对的数量，评估聚类结果作为一系列决策，并根据其质量进行度量。所有这些指标的取值范围从0到1，较高的值表示更好的性能。0为了与之前的工作进行公平比较，我们遵循了相同的设置和大部分实现选择，如[24]所述。具体来说，我们使用了类似ResNet的主干网络进行了所有实验。如果有的话，我们使用了辅助过聚类策略，在一个独立的聚类头中利用来自不相关类别的额外数据。对于过聚类头，我们为Tiny-ImageNet设置了700个聚类（由于有更多的真实类别），并为其他所有数据集设置了70个聚类。过聚类头在测试中最终被丢弃，与主要头交替训练。如果没有辅助数据，我们使用过聚类头中的目标数据，起到辅助学习的作用。训练时，我们使用Adam优化器[26]。88540数据集 CIFAR-10 CIFAR-100 STL-10 ImageNet-10 ImageNet-Dogs Tiny-ImageNet0指标 NMI ACC ARI NMI ACC ARI NMI ACC ARI NMI ACC ARI NMI ACC ARI NMI ACC ARI0K-means 0.087 0.229 0.049 0.084 0.130 0.028 0.125 0.192 0.061 0.119 0.241 0.057 0.055 0.105 0.020 0.065 0.025 0.0050SC [52] 0.103 0.247 0.085 0.090 0.136 0.022 0.098 0.159 0.048 0.151 0.274 0.076 0.038 0.111 0.013 0.063 0.022 0.0040AC [14] 0.105 0.228 0.065 0.098 0.138 0.034 0.239 0.332 0.140 0.138 0.242 0.067 0.037 0.139 0.021 0.069 0.027 0.0050NMF [4] 0.081 0.190 0.034 0.079 0.118 0.026 0.096 0.180 0.046 0.132 0.230 0.065 0.044 0.118 0.016 0.072 0.029 0.0050AE [2] 0.239 0.314 0.169 0.100 0.165 0.048 0.250 0.303 0.161 0.210 0.317 0.152 0.104 0.185 0.073 0.131 0.041 0.0070DAE [42] 0.251 0.297 0.163 0.111 0.151 0.046 0.224 0.302 0.152 0.206 0.304 0.138 0.104 0.190 0.078 0.127 0.039 0.0070DCGAN [37] 0.265 0.315 0.176 0.120 0.151 0.045 0.210 0.298 0.139 0.225 0.346 0.157 0.121 0.174 0.078 0.135 0.041 0.0070DeCNN [51] 0.240 0.282 0.174 0.092 0.133 0.038 0.227 0.299 0.162 0.186 0.313 0.142 0.098 0.175 0.073 0.111 0.035 0.0060VAE [27] 0.245 0.291 0.167 0.108 0.152 0.040 0.200 0.282 0.146 0.193 0.334 0.168 0.107 0.179 0.079 0.113 0.036 0.0060JULE [50] 0.192 0.272 0.138 0.103 0.137 0.033 0.182 0.277 0.164 0.175 0.300 0.138 0.054 0.138 0.028 0.102 0.033 0.0060DEC [46] 0.257 0.301 0.161 0.136 0.185 0.050 0.276 0.359 0.186 0.282 0.381 0.203 0.122 0.195 0.079 0.115 0.037 0.0070DAC [7] 0.396 0.522 0.306 0.185 0.238 0.088 0.366 0.470 0.257 0.394 0.527 0.302 0.219 0.275 0.111 0.190 0.066 0.0170ADC [16]† -0.325 - -0.160 - -0.530 - - - - - - - - -0DDC [6] 0.424 0.524 0.329 - - - 0.371 0.489 0.267 0.433 0.577 0.345 - - - - - -0DCCM [44] 0.496 0.623 0.408 0.285 0.327 0.173 0.376 0.482 0.262 0.608 0.710 0.555 0.321 0.383 0.182 0.224 0.108 0.0380IIC [24]† -0.617 - -0.257 - -0.610 - - - - - - - - -0PICA:（最佳）† 0.591 0.696 0.512 0.310 0.337 0.171 0.611 0.713 0.531 0.802 0.870 0.761 0.352 0.352 0.201 0.277 0.098 0.0400表1. 在六个具有挑战性的目标图像基准上的聚类性能。红色/蓝色表示第1/第2最佳结果。之前方法的结果来自[44, 24]。†:多次试验中的最佳结果。0使用固定的学习率0.0001进行训练。所有模型都是随机初始化并进行了200个epoch的训练。考虑到在聚类中没有对测试数据的泛化，模型权重的正则化惩罚被废弃。我们将批量大小设置为256，并重复每个批次样本3次。对数据进行了三种操作，包括随机缩放、水平翻转和颜色扰动，以进行数据扰动和增强。我们应用Sobel滤波器来限制模型捕捉无意义的颜色线索。方程（12）中的熵正则化权重经验性地设置为2。我们对所有实验使用相同的超参数，没有进行详尽的数据集调整（这在部署中是不可扩展、不方便和不友好的）。为了反映性能的稳定性，我们进行了5次试验，并分别报告了平均结果和最佳结果。04.1. 与最先进方法的比较0表1比较了提出的PICA方法与一系列最先进的聚类方法在目标图像聚类性能上的表现。我们有以下观察结果：(1)PICA在大多数情况下超过了所有强有力的竞争对手，有时差距很大。以聚类准确率（ACC）为例，PICA†0在CIFAR-10和ImageNet-10上，我们的PICA分别比最好的竞争对手[44]提高了7.3%和16.0%，而在STL-10上，与IIC[24]相比，性能提升了10.3%。这证明了我们的PICA在图像聚类方面的显著能力。（2）DCCM[44]在大多数数据集上都是最先进的模型，除了STL-10，在STL-10上，它被IIC[24]和我们的PICA超过了更大的差距。我们将这归因于...0利用获胜方法的辅助数据的能力。此外，PICA在对STL-10图像进行聚类时明显优于IIC，表明我们的方法在利用深度聚类期间利用额外数据的潜力非常出色。（3）PICA在更具挑战性的CIFAR-100和ImageNet-Dogs基准测试中相对于现有方法获得的绝对优势较小。这并不奇怪，因为这些数据集呈现出细粒度的物体类别，它们之间的差异非常微妙；没有丰富的知识，即使是人类在区分这些类别时也可能犯错误。我们的方法的相对性能改进更加一致。04.2.消融研究0我们进行了消融研究，以研究PICA中不同设计选择的影响，使用固定的随机种子。分区置信度动态我们首先研究了训练过程中聚类置信度的动态变化，这是我们的PICA的关键思想。在这个研究中，我们使用每个图像的最大预测概率（公式（1））来衡量聚类置信度，并总结了它们的50个bin的直方图统计数据。我们在CIFAR-10上进行了这个测试，分别在准确率达到0.10（随机猜测）、0.30、0.50和0.70时进行。如图3所示，（a）模型从随机聚类开始，接近均匀预测；（b，c）随着训练过程的进行，越来越多的样本被分配到更有信心的聚类中；（d）训练结束时，大多数样本可以被分配到具有0.98+概率置信度的聚类中，几乎是one-hot预测。避免欠聚类我们研究了PICA解决通用“欠聚类”问题的重要性。000.10.90.30.50.70.10.90.30.50.70.10.90.30.50.70.10.90.30.50.760000300001000020000400005000060000300001000020000400005000060000300001000020000400005000060000300001000020000400005000070.2460.1680.65030.6960.3300.82970.5820.63330.6960.68770.3100.1470.73430.6960.3300.829Table 4. Robustness to data perturbation in PICA. Metric: ACC.88550（a）准确率=0.1（b）准确率=0.30(c) 准确率 = 0.5 (d) 准确率 = 0.70图3. CIFAR-10训练中的分区置信度演变。0在我们的上下文中，避免欠聚类（将大多数样本分配给少数聚类，即平凡解）是非常必要的。表2中的结果表明，在模型设计中考虑这个问题是非常必要的，否则模型将被平凡地引导到这些不希望的解。这也验证了所提出的PICA思想与聚类大小分布的熵正则化（公式（11））非常兼容，能够简单地消除平凡的结果，而不需要复杂的设计或技巧。0熵 CIFAR-10 CIFAR-100 ImageNet-100表2.使用熵正则化避免欠聚类的必要性，使用聚类大小分布。指标：准确率。0过度聚类的影响我们研究了过度聚类在PICA中的性能贡献，它具有两个目的：（1）利用来自不相关类别的额外辅助数据来挖掘更多信息（例如在STL-10上）；（2）在没有辅助数据的情况下，起到集成学习的作用（例如在CIFAR-10上）。结果如表3所示。很明显，过度聚类在两种情况下都有帮助，有趣的是，CIFAR-10上的差距甚至大于STL-10上的差距。还要注意的是，即使不使用过度聚类，我们的PICA仍然可以取得竞争性的性能（参见表1）。0过度聚类CIFAR-10 STL-100表3.过度聚类的影响。STL-10有辅助数据，而CIFAR-10没有。指标：准确率。0表4. PICA对数据扰动的鲁棒性。指标：准确率。0置换 CIFAR-10 CIFAR-100 ImageNet-100模型初始化的敏感性模型初始化是深度神经网络和聚类的重要组成部分[2,3]。我们在CIFAR-10上测试了PICA对模型性能的初始化敏感性。除了PyTorch[34]中提供的ResNet的默认初始化外，我们还评估了另外三种初始化方法：高斯初始化、Xavier[11]、Kaiming[17]。表5显示，当使用不同的初始化方法时，PICA在整体性能上表现稳定，没有明显的变化。这证实了我们的方法对网络初始化不敏感。0初始化 NMI 准确率 ARI0默认 0.591 0.696 0.5120高斯初始化 0.603 0.681 0.5110Xavier 0.610 0.676 0.5110Kaiming初始化 0.617 0.680 0.5250表5. 模型对网络初始化的敏感性。04.3. 定性研究0聚类分配的演变为了更好地理解PICA的工作原理，我们通过可视化整个训练过程中的聚类分配的演变来进行定性分析。这使我们能够了解我们的模型是如何逐渐达到最终结果的。我们在CIFAR-10上跟踪了整个训练过程中的模型状态，并在四个准确性性能里程碑处进行评估：0.10（随机猜测）、0.30、0.50和0.70。使用t-SNE[33]，我们绘制了6000个随机选择的样本的预测结果，并对地面真实类别进行了颜色编码。图4显示：(a)模型从一个混乱的状态开始，所有样本都被分配到每个聚类中，概率相似；(b)在提出的目标的监督下，容易的样本逐渐与其他样本分开，而其他样本仍然不确定；(c)随着训练的进行，容易的样本成为其他样本的参考，并吸引那些具有高视觉相似性的样本；(d)最后，模型收敛到一个稳定的聚类解决方案，该解决方案在决策边界周围分离了来自不同类别的样本，但仍存在一些混淆。-20-15-10-5051015-30-20-100102030-40-30-20-10010203040-50-40-30-20-1001020304050-60-40-200204060-80-60-40-200204060-80-60-40-200204060-60-40-20020406088560(a) 准确率=0.1 (b) 准确率=0.3 (c) 准确率=0.5 (d) 准确率=0.70图4. PICA在CIFAR-10上的预测动态。使用了6000个随机抽样的图像。地面真实类别以颜色编码。0飞机0汽车0马0鸟0船0图5. 在STL-10上对5个类别进行的案例研究。(左)成功案例；(中)假阴性失败案例；(右)假阳性失败案例。0最显著的观察逐渐分离，而其余观察仍然不确定；(c)随着训练的进行，容易的样本成为其他样本的参考，并吸引那些具有高视觉相似性的样本；(d)最后，模型收敛到一个稳定的聚类解决方案，该解决方案在决策边界周围分离了来自不同类别的样本，但仍存在一些混淆。0成功与失败案例的比较研究成功和失败案例可以为我们的方法提供额外的见解。我们从STL-10中选择了5个类别的每个类别的三个案例进行研究：(1)成功案例：样本被正确地分配到目标类别中，(2)假阴性失败案例：目标类别的样本被错误地分配到其他类别，并且错误地分配的概率很高，(3)假阳性失败案例：在目标类别方面，其他类别的样本被错误地分配到该类别中，错误地分配的概率很高。如图5所示，PICA可以将同一类别的图像聚集在一起，即使存在不受限制的变化。然而，在区分前景或背景中具有高相似性的样本时，PICA也会犯错误。一个解释是，在没有地面真实标签的情况下，PICA构建的正聚类对仅基于视觉变换，而没有任何关于类别内视觉差异或类别间关联性的信息。如何区分细粒度类别仍然是一个未解决的问题，特别是对于无监督学习和聚类。05. 结论0我们提出了一种新颖的深度语义聚类方法，PartItionCon�dencemAximisation（PICA）。具体而言，我们引入了一种从分区置信度角度学习最有前途和语义合理的聚类解决方案的新思路，并基于分区不确定性指数制定了一个优雅的目标损失函数。这扩展了先前浅层模型中使用的最大边界聚类的思想，适用于更强大的深度学习范式，并具有显著的损失函数制定。PICA可以在标准的深度网络模型中引入，并且可以进行端到端的训练，无需炫耀。在六个具有挑战性的数据集上进行的大量实验证明了所提出的PICA方法在广泛的最先进深度聚类方法中的性能优越性。0致谢0本研究得到了中国国家留学基金委员会、Vision SemanticsLimited、Alan Turing Institute TuringFellowship以及英国创新UK工业挑战项目“为公共安全开发和商业化智能视频分析解决方案”（98111-571149）的支持。88570参考文献0[1] Radhakrishna Achanta和SabineSusstrunk。使用简单的非迭代聚类进行超像素和多边形。在IEEE计算机视觉和模式识别会议（CVPR）论文集中，页4651-4660，2017年。10[2] Yoshua Bengio，Pascal Lamblin，Dan Popovici和HugoLarochelle。贪婪的逐层训练深度网络。在神经信息处理系统会议（NeurIPS）论文集中，页153-160，2007年。2, 3, 6, 70[3] Paul S Bradley和Usama MFayyad。改进k均值聚类的初始点。在国际机器学习会议（ICML）论文集中，卷98，页91-99。Citeseer，1998年。70[4] Deng Cai，Xiaofei He，Xuanhui Wang，HujunBao和Ji-awei Han。保持局部性的非负矩阵分解。2009年。60[5] Mathilde Caron，Piotr Bojanowski，ArmandJoulin和MatthijsDouze。深度聚类用于无监督学习视觉特征。在欧洲计算机视觉会议（ECCV）论文集中，页1-18，2018年。10[6] Jianlong Chang，Yiwen Guo，Lingfeng Wang，GaofengMeng，Shiming Xiang和ChunhongPan。深度判别聚类分析。在IEEE

下载后可阅读完整内容，剩余1页未读，立即下载