深度学习无监督聚类任务中的K值选择方法及其在ImageNet上的性能

145 浏览量更新于2023-10-25 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9861---Deepwater的结果SCANAcc.：0.60 ±.01K-表示DCN++真KDeepwater（我们的）DeepDPM：具有未知数量集群的深度集群Meitar Ronen Shahaf E.内盖夫本-古里安大学计算机科学系meitarr@post.bgu.ac.ilfinders@post.bgu.ac.ilorenfr@cs.bgu.ac.il摘要深度学习（DL）在无监督的聚类任务中表现出了巨大的潜力。也就是说，在古典（即，非深度）聚类非参数方法的好处是众所周知的，大多数深度聚类方法是参数的：即，它们需要预定义的固定数目的簇，用K表示。然而，当K未知时，使用模型选择标准来选择其最优值可能在计算上变得昂贵，特别是在DL中，因为训练过程将不得不重复多次。在这项工作中，我们通过引入一种有效的深度聚类方法来弥合这一差距，该方法不需要知道K的值，因为它在学习过程中推断它。使用一个分裂/合并框架，一个动态的架构，适应不断变化的K，和一个新的损失，我们提出的方法优于现有的nonparametric方法（经典和深度的）。虽然现有的极少数深度非参数方法缺乏可扩展性，但我们通过第一个在ImageNet上报告这种方法的性能来证明我们的方法。我们还展示了推断K的重要性，通过展示当假设的K值与地面真实值相差更远时，特别是在不平衡数据集上，修复K的方法如何在性能上恶化。我们的代码可在 https://github.com/BGU-CS-VIL/DeepDPM上获得。0.70.60.50.40.30.20.10.00.70.60.50.40.30.20.10.0图1.0 50 100 150 200 250 300 350参数方法使用的K值(a) ImageNet50：原始平衡数据集0 50 100 150 200 250 300 350参数方法使用的K值(b) Im-ag-eN3次运行的平均聚类准确度（±标准品）。dev.）对1. 介绍聚类是一项重要的无监督学习任务，与监督分类不同，类别标签不可用。此外，在纯无监督（并且更现实）的设置中，这项工作集中于类的数量，由K表示，以及它们的相对大小（即，类权重）也是未知的。鸣谢。这项工作得到了BGU CS的Lynn和 William Frankel中心，以色列高等教育委员会通过BGU数据科学研究中心以及以色列科学基金会个人资助#360/21的支持。M.R.还得到了VATAT国家优秀奖学金的资助，用于高科技相关领域的女硕士ImageNet50. 地面真相 K 是 50 。参数方法，如 K- 均值，DCN++（[71]的改进变体）和SCAN [64]，需要知道K。当给定一个差的K估计时，它们在平衡数据集（a）中的性能不佳，在不平衡数据集（b）中的性能更差相比之下，提出的DeepDPM不需要知道K（它推断出它的值;例如，K=55。3±1。53在（a）和46中。3± 2。52在（b）），但产生可比的结果。深度学习（DL）的出现并没有跳过聚类任务。DL方法通常比经典方法（即，非深度）聚类方法[64，71]。也就是说，虽然在经典聚类中，很好地理解非参数方法（即，找到K的方法）比参数方法（即，重新计算K的Deepwater的结果SCANAcc.：0.66±.01K-均值公司简介真KDeepwater（我们的）精度精度9862quire a knownK）[8，57]，只有少数非参数深度聚类方法。不幸的是，后者既不可扩展，也不够有效我们的工作通过提出一种有效的深度非参数方法，称为DeepDPM，弥补了这一差距。事实上，即使K是已知的，DeepMind仍然可以获得与领先的参数方法相当的结果（特别是在不平衡的情况下），尽管它们具有“不公平”的优势;参见，例如，图1或§ 5。更一般地，推断潜在K的能力具有实际益处，包括以下益处。1)如果没有一个好的K估计，参数方法可能会在性能上受到影响图1显示，在平衡和不平衡数据集中，使用错误的K会对参数方法产生显著的负面影响。当 K 的值变得越来越不准确时，即使是最先进的（SOTA）参数深度聚类方法SCAN [64]，性能也会显著下降。2)在训练过程中改变K具有积极的优化相关含义;例如，通过将单个簇分成两个簇，多个数据标签被同时改变。这通常转化为优化表面上的大移动，这可能导致收敛到更好的局部最优值和性能增益[10];例如，在§ 5中，我们证明了非参数方法（包括我们的方法）优于参数方法的情况，即使参数方法被给定为真K。3）不知道K的常见解决方法是使用模型选择：即，多次运行参数方法，在宽范围内使用不同的K然而，该方法除了错过上述潜在的收益（不能进行大的移动）之外，不能扩展并且通常对于大型数据集是不可行的，特别是在DL中。此外，还必须注意模型选择方法的负面社会影响：在大型数据集上训练深度网络数十次或数百次4)K本身可能是一个受欢迎的重要量。贝叶斯非参数（ BNP ）混合模型（以 DirichletProcess Mixture（DSB）模型为例）为K未知时的聚类提供了然而，通常与反向推理相关联的高计算成本可以说是为什么只有少数作品尝试将其与深度聚类结合使用的原因（例如，[11、66、74]）。在这里，我们建议有效地结合DL和ESTA的好处。所提出的方法，Deepenchment，使用分裂和合并的clusters一起改变K的动态架构，以适应这种变化。它还使用了一种新的摊销推理的期望最大化（ EM ）算法在混合模型。DeepMind可以被合并到依赖于集群的深管道中（例如，用于特征学习）。与离线群集步骤（例如，K-均值），DeepMind在大多数训练期间是可微的（例外是在离散分裂/合并期间），因此支持梯度，通过它传播。DeepDPM在多个数据集和指标上优于现有的非参数聚类方法（经典和深度聚类方法）。它还可以优雅地处理类不平衡，并且可以很好地扩展到大型数据集。虽然我们关注的是聚类而不是特征学习，但我们也展示了预训练特征的聚类示例以及端到端方式的联合学习特征和聚类。总而言之，我们的主要贡献是：1)一种推断聚类数的深度聚类方法。2）一种新的损失，使一个新的摊销推断混合模型。3)证明了在深度聚类中推断K的重要性。4)我们的方法优于现有的非参数聚类方法，并且我们是第一个在大型数据集（如ImageNet [17]）上报告深度非参数聚类方法的结果。2. 相关工作参数化深度聚类方法。近期此类作品可分为两类：两步法和端到端方法。在前者中，聚类是在借口任务中提取的特征。例如，Mc-Convilleet al. [47]在预训练的自动编码器（AE）的UMAP [48]转换的嵌入上运行K-均值。虽然不可扩展，[47]在适用时可以实现竞争结果。另一个例子是SCAN [64]，它使用无监督的预训练特征提取器（例如，[13]和SimCLR [12]）。虽然达到SOTA的结果，扫描，参数，取决于有一个估计K，正如我们所示，性能恶化时，估计是太不准确。此外，SCAN假设统一的类权重（即，平衡数据集），并且这在纯无监督的情况下通常是端到端的深度方法可能通过交替方式共同学习特征和聚类。一些作品使用AE或变分AE（VAE），具有额外的聚类损失[40，68，70DCN [71]在预训练AE的嵌入上运行K-均值，并使用由重建项和基于聚类的项组成的损失重新训练它，以同时更新特征，聚类其他作品，例如：[5，6]，使用卷积神经网络交替学习特征和聚类。虽然我们的工作重点是聚类，而不是特征学习，但我们演示了如何将其与上述两种方法此外，上述所有方法都假定预定义且固定的K，并且至少其中更有效的方法花费大量时间和资源来训练（因此使用模型选择来搜索“正确”K是昂贵的和/或不适用的非参数经典聚类。与我们的工作密切相关的是BNP聚类，更具体地说，DPM模型[1，24]。虽然许多计算机视觉作品依赖于BNP聚类[4，9，14，2541，449863联系我们i=1k=1Xi=1˜i=1Xk）在x∈Rd处求值，πk>0k，并且Σ∞k=1πk=1.有效权重π（其中π=1），因此是z=（zi）N中唯一元素的数量形成了一个新的，分裂的S-M-E-R所有的Wj（j∈{1，2}），Nk，j=|Xk，j|，且fx（·;λ）是最大的选择不合理，部分原因是缺乏高效的大规模推理工具。幸运的是，这种情况正在开始改变;参见，例如，的[21]一种现代的、其中，N（x;µk，k）是高斯概率密度函数（pdf）（平均值µk∈Rd和d×d方差矩阵[10]中的可伸缩流采样器的可伸缩实现）或[20]中的可伸缩流采样器推断。值得注意的是，采样的一个重要替代方案是变分DPM推断[3，31，34，36，42]。一个流行的非参数方法的非贝叶斯示例是DBSCAN [23]，它是基于密度的，并将密集的点分组在一起。虽然DBSCAN具有高效的实现，但它对难以调优的超参数非常敏感。非参数深度聚类。在极少数也找到K的深度方法的例子中，有[11，52，66，74]。他们中的一些人使用伪标签的离线推理来微调深度信念网络[11]或AE [66]（类似于[5，6，71]中的参数方法）。由于[66]和[11]中的方法依赖于慢速DPM采样器，因此它们不能扩展到大型数据集。AdapVAE [74]将DPM先验用于VAE。在DCC [52]中，像[74]中一样同时执行特征学习和聚类;然而，DCC使用最近邻图来分组在潜在空间中接近的点，而不是ELBO最小化。对于DPGMM的一个温和的介绍与计算机视觉观众的想法，请参阅[8，57]。设θk=（µk，Σk）表示高斯k的参数。注意分量k（即第k个高斯，用它的参数θk标识）和聚类k之间的区别。假设分量θ=（θk）∞k=1和权重π=（πk）∞k=1为：从他们自己的先验分布中（独立地）提取：权重 π 是使用浓度参数 α>0 的 Griffiths-Engen-McCloskey断棒过程（GEM）[ 51 ]绘制的，而参数（θk）∞k=1是inde-悬垂和同分布（i.i.d.）从他们先验p（θk），通常为正态-逆Wishart（NIW）分布。虽然存在无限多的分量，但是注意，仍然存在有限多的簇，因为潜在随机变量K在上面被N限定。通过可能重命名簇索引，我们可以不失一般性地假设k：kz=1，2，. . .、K.DPGMM常用于K未知时的聚类. DPGMM推理方法通常寻求找到AE.我们的方法在经验上比[52，74]更有效。z=（zi）N（这意味着K）和（θk，πk）K. 作为前-并且扩展性也更好。虽然不是聚类方法本身，并且类似于 [47] ， [65] 使用 AE 和 t-SNE [63] 来找到 K 。[47][65][6在[22]中，深度网络同时训练一系列损失，而不是单个损失。至少在理论上，这种方法可以适用于非参数聚类，但这个方向还有待探索。[60]和[50]都没有假设已知的K，其中前者侧重于聚类面部，后者侧重于为任何新数据集生成聚类标签的后验样本。然而，与我们的方法不同，[50，60]都是有监督的类似地，[2]迭代地形成集群，在我们的补充材料（Supmat）中解释的，K的推断值受以下因素的影响：α，和NIW超参数。我们的方法（§ 4）部分受到Chang和Fisher III的DPM采样器[ 10 ]的启发拆分/合并框架增加了潜在变量，（θk）∞k= 1，π，（zi）N，有辅助变量。对于每个zi，添加附加的子聚类标签z i∈ {1，2}。对于每个θk，添加两个子分量，θk，1，θk，2，其中，=（π）+π根据成员顺序检查每个样本现有的集群。聚类标准是基于监督评价网。最后，虽然[73]依赖于BNP混合物，但他们的方法（和代码）仍然使用固定的K。3. 准备工作：基于DPGMM的聚类k k，jj∈{1，2}k，1k，2双组分GMMNe和ges通过Metropolis-Hastings框架改变K[29]。也就是说，在推断期间，每进行一定量的迭代，就提出将聚类k分裂成其子聚类该分割以概率min（1，Hs）被接受，其中设X=（xi）N表示Rd中的N个数据点。俱乐部-H=αΓ（Nk，1）fx（Xk，1;λ）Γ（Nk，2）fx（Xk，2;λ）sΓ（Nk）fx（Xk;λ）（二）任务旨在划分分成K个不相交的群，其中z i是x i的点到簇分配，称为簇标签。簇k由标记为k的所有点组成;即，（xi）i：zi=k. 簇数K| {k：k∈ z}|、i=1是黑斯廷斯比率，Γ是伽马函数，Xk=（xi）i：zi=k代表聚类k中的点，N k=| XK|，Xk，j=（xi）i：（zi，z<$i）=（k，j）表示子簇中的点经典的高斯混合模型（GMM）具有BNPDirichlet Process GMM（DPGMM）[1，24]。非正式地，DPGMM（一个特殊的情况下的高斯）进入- tains混合的概念与无限多高斯：其中λ表示NIW超参数。请参阅我们的Supmat了解更多详情。在分割建议接受时，每个新出生的集群被扩增有两个子集群。这个比率Hs可以解释为比较两种情况下数据的边际似然性，p（x|（µk，k，πk）∞k=1）=∞k=1 πkN（x;μk，μk）（1）子集群与其边际可能性下的集群。合并建议的处理方式类似（请参见Supmat）。.9864k=1i=1k=1k=1子子k=12k′=1K我 KKCLi=1我我k=1i=1i，k赋值z=（zi）i=1byzi=arg maxkri，k.接下来，每subk =1隐藏层fcl的最后一层有K个神经元，i i，k k=1=N联系我们在§ 4.2中详细描述，通过（fk））K是（七）图2. Deepwater的管道：给定特征X，聚类网络输出聚类分配R，而子聚类网络生成子聚类分配R。在接受拆分/合并建议后，在学习期间更新所有这些网络。4. 推荐方法：DeepMindDeepDPM可以看作是一种DPM推理算法。受[10]的启发，我们使用拆分和合并来改变K，其中对于每个集群，我们维护一个子集群对。对于K的标称值，我们不是像[10]那样诉诸采样，而是在混合模型中使用由EM[16]的新型摊销推理训练的深度网络。DeepDPM有两个主要部分。第一个是聚类网，而第二个是由K个子聚类网组成（每个聚类k一个，k∈{1，. - 是的- 是的，K}）。在第4.1中，我们描述了DeepMind的运作非贝叶斯GMM情况下，以及具有非高斯分量的参数混合物中的EM具体地，在每个时期，我们的聚类网络被优化以生成软分配，将类似于由EM-GMM算法的E步骤获得的那些（回想一下，贝叶斯和非贝叶斯EM-GMM的E步骤重合）。在贝叶斯GMM中，每个E步骤之后是一个标准的 M 步骤，除了最大后验（MAP）估计中使用的软分配是由我们的聚类网络产生的我们现在提供细节。对于每个xi和每个k∈ {1，. . .，K}，我们计算（标准）E步给定K的标称值，以及在§ 4.2中K如何改变以及我们的架构如何相应地适应我们讨论概率，rE=（rE）K，其中我们的方法的摊销推理方面在§ 4.3中，我们的弱先验在§ 4.4中，以及如何将DeepMind与特征学习结合在§4.5中。图2描述了总体Ei，kπk（xi;μk，μk）nπ′N（x;μ′，μ′）k∈ {1，. - 是的- 是的，K}（5）渠道.is computed using (πk, µk, Σk)K从上一个时代。4.1. DeepDPM在固定K请注意，Ei，kk=1=1时。然后我们鼓励fcl生成我们首先描述DeepDPM给定K的当前值，数据首先传递到集群网络fcl，它为每个使用以下新损耗的类似软分配L=NKL（rrE）（6）数据点xi，K软簇分配：fcl（X）=R=（ri）Nri=（ri，k）K（3）其中ri，k∈[0，1]是xi到簇其中KL是Kullback-Leibler散度。接下来，在每个历元之后，我们执行贝叶斯M步骤，但有一个扭曲。回想一下，在此步骤中，使用（πk，μk，μk）K的MAP估计的加权版本（使用k（也称为聚类k对数据点的责任标准公式;参见Supmat），其中权重为xi）和kK r i，k=1。从（ri）N，我们计算出NrE值（等式（5））。我们使用相同的公式，但在-代替rE我们使用Ri，k值（即，FCL的输出）。子聚类网，f k（其中k1，. - 是的- 是的，K），分配给其相应簇的数据（硬）（即，fk被馈送有Xk=（xi）i：zi=k）并且生成软子簇i，k注意，与方法（例如，K-means或SCAN）表示-强制/假设权重的均匀性，我们推断的聚类权重（πk）K被允许偏离均匀性。任务：原则上，对于（fk）K，我们可以使用损失K子（Xk）=Rk=（ri）i：zi=kri=（ri，j）j=1（四）subk=1类似于LCL。然而，这里我们更倾向于各向同性损失：其中ri，j∈[0，1]是xi到子簇Kj（j∈{1，2}），且r∈i，1+r∈i，2=1<$k∈{1，. -是的-是的，K}。作为Lsub=k=1i=1j=1ri，jxi−µk，j2subk =1用于拆分提案。每个K+1网（fcl和（fk）K）是一个简单的多层感知器，RRF9865子|X|˜其中，Nk=k，µk，j是子群集j在每个时期之后计算的集群k，与子聚类权重和协方差，使用加权MAP每个fk的最后一层有两个。估计类似于集群这我们现在在贝叶斯GMM中引入由EM激励的新损失（尽管该想法实际上也适用于损失比KL损失更有效，而后者（仅在子集群情况下）没有产生改进。的9866˜˜˜µ ←µ ,Σ←Σ,π←π×π (8)kk,2kk,2 k kk,22 22LXX需要初始化上述迭代过程我们使用K-均值（使用K的初始值进行聚类，K=2进行子聚类）。DeepMind对于初始K是相当鲁棒的，因此可以任意选择后者（参见，例如，（见第5.2）。4.2. 通过拆分和合并改变K在训练过程中，我们使用拆分和合并来改变K（如[10]所示）。每隔几个时期，我们就提出拆分或合并。由于K是变化的，体系结构，更具体地说，最后一层的聚类网和子聚类网的数量，必须改变。值得注意的是，拆分/合并不仅有助于改变K的值，而且有助于大幅度移动，从而避免了许多糟糕的局部最优值[10]。分裂。在每一个分裂步骤中，我们建议将每个集群分割成其两个子集群。一个分裂的建议是随机接受的（如[10]），概率为min（1，Hs）;见公式。（二）、为了适应K的增加，如果对于集群k接受拆分方案，则最后一层中的第k个单元复制聚类网络的参数，以及将其连接到先前隐藏层的权重，并且我们使用通过子聚类网络学习的参数初始化两个新聚类的参数µk1<$µk，1，k1<$ k，1，πk1<$πk×πk，1其中k1和k2表示新簇的索引。然后，我们还添加，每个新的集群，一个新的子集群网络（动态分配内存）。合并在考虑合并时，我们必须确保我们永远不会同时接受，合并聚类K1和K2以及合并聚类K2和K3，从而错误地将三个聚类合并在一起。因此，与并行完成的拆分建议不同，并非所有可能的合并都可以同时考虑为了避免顺序地考虑所有可能的合并，我们（顺序地）考虑每个集群与其3个最近邻居的合并。合并建议被接受/拒绝使用黑斯廷斯比率，Hm=1/Hs（如[10]）。如果建议被接受，两个集群合并，并初始化一个新的子集群网络从技术上讲，合并后的集群的最后一层的单元之一，以及将其连接到前一隐藏层的网络权重，从fcl中移除，并且使用加权MAP估计来初始化新生集群的参数和权重。4.3. 摊销EM推理假设我们关闭拆分/合并并使用地面真相（GT）K。似乎，这将每个训练时期减少到模仿单个EM迭代。然而，值得注意的是，如§ 5所示，即使这样，我们的方法仍然产生的结果通常比标准EM更好。我们假设，这源于我们摊销了EM推理;凭借深度网络学习的函数的平滑性，我们不仅提高了对当前批次中的点的预测，而且提高了对其他批次中的点的预测。此外，平滑度还用作电感偏置，使得在观察空间中接近的点应当具有类似的标记。原则上，我们也可以使用GMM负对数似然（或对数后验），而不是使用我们的变分损失然而，根据经验，这导致不稳定的优化和/或差的结果。此外，基于我们的损失匹配软标签，而不是似然/后验，巧妙地使该方法更通用：fcl和cl可以是它们可以用于任何组件类型，而不仅仅是高斯型。4.4. 弱优先：让数据自己说话回想一下，推断出的K依赖于α和NIW超参数。我们故意选择先验非常弱。这意味着，我们选择α以及所谓的伪计数（NIW超参数中的两个）是非常小的数字，与N相比相形见绌，N是点数（参见Supmat了解详细信息）。因此，我们让数据，，成为确定K的最主要因素。弱先验也意味着贝叶斯EM-GMM几乎与非贝叶斯EM-GMM一致，但仍然有助于存在退化样本协方差或非常小的聚类。4.5. 特征提取为了显示我们的聚类方法的有效性，我们使用了两种类型的特征提取范例：一种端到端方法，其中特征和聚类被联合学习（使用交替优化），以及一种两步方法，其中特征被学习一次（在聚类之前），然后保持固定。对于两步方法，我们遵循SCAN [64]并使用MoCo [13]进行（无监督）特征提取。有关更多细节以及我们用于端到端特征提取的方案，请参见Supmat。5. 结果在本节中，我们将评估DeepDPM，并将其与不同规模的流行图像和文本数据集上的几种关键方法进行在我们的评估中，我们使用了三个常用的指标：聚类准确度（ACC），归一化互信息（NMI），调整后的兰德指数（ARI）。所有三个值越高越好，并且它们可以适应推断的K与其GT值之间的差异有关实验设置和我们使用的超参数值的更多细节，请参见Supmat由于篇幅限制，我们在这里省略了几个比较中的NMI和ARI值，但这些值出现在Supmat中。我们将结果四舍五入到小数点后两位，a标准偏差（std.dev.）的0.00仍然可以表示正数（尽管很小）。与经典方法比较。我们比较了DeepMind与经典的参数方法（K-均值;9867±±0.94±.00.95±.00.98±.00.86±.02.79 ±.05.81 ±.06.66 ±.01.49 ±.020.92 ±.01.91 ±.04.93 ±.05.87 ±.01.82 ±.02.83 ±.03.67 ±.01.49 ±.020.94±.00.95±.00.98±.00.88±.00.86±.01.89±.2.68±.01.51±.020.94 ±.02.95 ±.03.96 ±.04.83 ±.01.74 ±.05.76 ±.050.94 ±.00.95 ±.00.96 ±.00.88 ±.01.89 ±.02.91 ±.02.63 ±.01.44 ±.02表1.比较平均结果（std.dev.）的DeepDPM与经典的聚类方法。结果为10次独立运行的平均值。标记为p的方法是参数化的（需要K）。用imb标记的数据集是不平衡的。方法推断KMNIST USPS时尚-MNIST即使是MNIST唯一的无监督深度非参数方法，DBSCAN 9.0±0.00 6.0±0.00 4.0±0.00取样器11.3±0.828.5±0.85 12.4±0.97平均值14±1.00 11.2±1.08 16.9±2.30深潜器（我国）10±0.00 9.2±0.42 10.2±0.79表2.比较平均推断值（std.dev.）对于非参数方法中的10次运行的K GT K= 10。GMM）和非参数（DBSCAN [23]，moVB [34]; SOTA采样器[21]）。对于特征提取，我们执行了[47]中建议的过程。我们对MNIST、USPS和Fashion-MNIST数据集及其不平衡版本（后者在Supmat中定义）进行了评估。所有的方法都使用相同的（和固定的）数据嵌入作为输入，参数化的方法被赋予GTK，这给了它们一个不公平的优势。表1显示，DeepDPM在所有数据集和指标中几乎一致占主导地位，并且其性能增益仅在不平衡的情况下增加与参数方法相比，非参数方法（包括我们的方法）受不平衡的影响较小。此外，表2显示，在非参数方法中，DeepDPM与深度非参数方法的比较由于存在非常少的深度非参数方法，并且其中一些方法仅在非常小的玩具数据集上报告结果[11，66]（例如，其中一人说，他们不能支持，至少处理MNIST [18]，USPS [35]和STL-10 [15]数据集。由于这两种方法联合学习特征和聚类，并且为了展示DeepMind的灵活性，我们展示了它与两种特征提取技术的集成（如第4.5节所述）：端到端管道（用于MNIST和REUTERS-10 k [43]）和使用MoCo [13]预训练特征的两步方法（用于STL-10）。不幸的是，我们无法运行AdapVAE对于DCC，使用他们的代码，我们只能在MNIST上重现他们的结果，因此我们将使用他们的代码和他们报告的结果进行比较。由于这些重现性问题，我们只能在原始的（即，平衡）数据集。表3显示DeepDPM优于DCC和AdapVAE。请注意，我们找不到其他无监督的深度非参数方法（更不用说可用的代码），即使是这些相当小的数据集也可以扩展。聚类整个ImageNet数据集。在ImageNet上，我们得到了以下结果： ACC ： 0.25 ， NMI ： 0.65 ， ARI ：0.14 。我们的方法初始化 K=200 ，收敛到 707 个簇（GT=1000）。这些是ImageNet上报告的深度非参数聚类的第一个结果。图3显示了聚类在一起的图像的示例。5.1. 深度非参数方法当参数化方法中断时。我们研究了不知道K对参数方法的影响，有和没有NMIAri[第18话]ACCNMIAri美国邮政[35]ACCNMI ARIfashion-MNISTACC[第六十九话]K-意味着pGMMp.90±.02.84±.05.85±.06.86±.01.79±.050.80 ±0.06.67±.01.50±.03.60±.04.58±.03DBSCAN采样器moVBDeepsphere（我们的0.92 ±00.93 ±0.000.86 ±00.94 ±0.000.89 ±00.97 ±0.000.72 ±0.87±.020.46 ±0.86±.040.57 ±00.90±0.040.63 ±0.66±.02-0.32 ±0.47±.030.39±0.59±.03.55±.03.62±.03MNISTimb美国邮政imbFashion-MNISTimbK-意味着pGMMp.89±.03.84±.06.83±.06.82±.02.71±.05.71±.050.62 ±.01.46±.02.56±.030.62 ±.01.46±.02.57±.03DBSCAN取样器0.93 ±00.92 ±00.94 ±00.84 ±00.79 ±00.80 ±00.62 ± 0.35 ± 0.46 ±0moVB.93±.01）.95±.01.94±.02.97±.01.96±.02.98±.01.89±.020.90±.89±.060.92±.91±.040.94±.66±.01.65±.00.50±.01.50±.00.61±.01.53±.02.61±.009868± ± ± ± ± ± ± ±±±∗[52]第52话：不适用N/A N/A.59 N/ADCC平均值[52]90±.02.89 ±.07.91 ±.07.22 ±.00.01 ±.00.04 ±.00.25 ±.00.00 ±.00.00 ±.00深度（我们的）平均值 .90.01.91.02.93.03.78 0.004.70.01.84.01.61.00.64.01.83.0092. best.93.96.79.71.85.61.64.83表3.比较深度非参数方法。†：在报纸上报道：使用他们的代码获得平均值：平均值（±标准值）dev.）5跑步图3.ImageNet图像的例子由Deepcraft聚类在一起每个面板代表不同的集群。方法NMI ARIACC ImageNet-50：平衡DBSCAN.52±.00.09±.00.24±.000.70 ±.01.38 ±.01.55 ±.02取样器.72±.00.43±.01.57±.01方法最终/最佳K：最终/最佳K：平衡不平衡K-意味着p4020DCN++p6040扫描p7040深度（我们的）.75±.00.49±.01.64±.00深潜器（我们的）：0.77±.00.54±.01.66±.01ImageNet-50：不平衡DBSCAN.33±.00.04±.00.24±.00运动VB.68±.01.44±.03.52±.03取样器.70±.00.40±.01.51±.00深度（我们的）.74±.01.48±.02.58±.01深潜器（我们的）：0.75±.00.51±.01.60±.01表4.ImageNet-50及其不平衡版本上的非参数方法比较使用AE交替标记结果。阶级不平衡我们在ImageNet-50上使用各种不同的K值来评估每种方法。后者在[64]中策划，由50个随机选择的ImageNet类组成[17]。为了生成它的不平衡版本，我们从50维概率单纯形上的均匀分布中采样了归一化的非均匀直方图（即，所有直方图的概率相等），然后根据该非均匀直方图按比例从50个类中采样样本。我们比较了3种参数方法：1）K-均值，2）SOTA方法SCAN [64];3)DCN的改进版本[71]，自我创造的DCN++，其中不是在原始数据上训练AE，而是在SCAN使用的嵌入之上训练它（MoCo [13]），其中，在[64]之后，我们在训练期间冻结了这些嵌入。对于DeepMind，我们使用了相同的功能。DBSCAN 16 13moVB 46.2±1.346.4±1.1取样器72.0±2.6 70.3±4.6深度（我们的）52.0±1.0 43.67±1.2深度（我们的）55.3±1.5 46.3±2.5表5.比较平均值（std. dev.）在ImageNet上找到的K值-3次运行中的50次。对于参数化方法（用p标记），我们使用具有最佳轮廓分数的K标记通过AE交替获得的结果。由于SCAN需要大量的存储器（例如，我们只能在2个RTX-3090 GPU卡上运行，每个卡有24 GB内存，而DeepMind只需要一个8 GB 的RTX-2080（甚至GTX-1080）就足够了），由于资源限制，我们可以运行SCAN的K值和每个实验可以运行的是参数方法中模型选择的问题之一）。因此，我们收集了K值范围从5到350的参数方法的结果。对于平衡和不平衡的情况，我们使用K=10初始化DeepDPM。图1总结了ACC结果（ARI/NMI见Supmat由于参数方法所用的K值与GT不同（即，K=50），其结果恶化。毫不奇怪，当使用GTK或足够接近它时，参数方法优于我们的方法。[第18话]STL-10 [15][43]第四十三话方法NMI ARIACCNMI ARIACCNMI ARIACCAdapVAE† [74]平均值0.86 ±1.02.84±2.35N/A.960.75 ±0.530.71±0.81N/AN/A.45±1.79.43±5.73N/A.609869数据集MNISTUSPSFashionMNIST±±L∼∼ACCK初始化=3K初始化=10K初始化=30无拆分/合并.29±.01.59±.03.46±.01无分裂.29±.01.59±.02.45±.03无合并.46±.00.58±.01.47±.012-平均值，而不是fsub. 61 ±. 00. 59 ±. 02. 56 ±.02M步骤中无先验各向同性损失代替Lcl.58±.00.58±.00.58±.02深度测量（全法）.62±.03.61±.00.62±.01表6.不同消融方式下Deepening非参数的一个，证实了我们的主张，有一个良好的估计K是很重要的良好的聚类。然而，图1a显示，即使与GTK有相当适度的偏离，Deepwater的结果（0. 66岁。01）优于超前参数法。此外，图1显示了参数SCAN对类别不平衡很敏感;例如，在图1b中，当K=30时，SCAN执行得最好，这表明它是由于忽略了许多小的类。相比之下，DeepMind（得分0. 六十岁。01）对这些变化相当稳健，并且当后者被给予GTK时，其结果与SCAN相当。此外，我们还在表4中显示了其他非参数方法的性能（在与我们相同的特征上运行3次：MoCo+AE）。我们包括DeepMind保持特征冻结并且仅训练一次Deep-Thread）。表5比较了通过非参数方法得出的K值。在平衡和不平衡的情况下，DeepMind推断出接近GT的K值。在不平衡的情况下，moVB的K值略好，但其结果（见表4）更差。对于参数方法，表5还显示了最佳silhouette得分的K无监督的轮廓度量通常用于模型选择（NMI/ACC/ARI是有监督的，因此不适用于模型选择）。如表5所示，DeepMind产生的K比该方法更准确。北京时报. 我们的运行时间与SCAN（SOTA深度参数方法）的单次运行相当;例如，在ImageNet-50上，SCAN（使用2个NVIDIA 3090 GPU）训练8 [hr]，而我们的（使用1个较弱的NVIDIA 2080 GPU）需要11[hr]。然而，每次使用不同的K（根据模型选择的需要）多次训练SCAN花费了超过3天。因此，DeepDPM的价值和积极的环境影响显而易见。5.2. 消融研究和对初始K的表6通过在Fashion-MNIST上进行的消融研究（在前面描述的设置中）量化了由于Deepcatheter的不同部分而它显示了禁用拆分、合并和两者的效果;例如，合并3025201510500 5 10 15 20 25 30初始K图4.初始K的鲁棒性。在所有数据集中GTK=10即使在初始化K = 3时也有帮助。事实上，即使Kinit= 10，拆分/合并所做的大移动也有帮助。此外，用K-均值（使用K=2）替换子聚类网络会导致恶化。同样，在计算聚类参数时关闭先验，或者使用各向同性损失代替 cl，都会损害性能，并且（虽然此处未示出）通常会使优化不稳定。最后，图4在三个不同的数据集上展示了6. 结论局限性。与大多数聚类方法一样，如果Deep-Pickup的输入特征很差，它将很难恢复。而且，如果K是已知的并且数据集是平衡的，则参数方法（例如，SCAN）可能是稍微好一点的选择。今后的工作。一个令人感兴趣的方向是使Deep-Cache适应流数据（例如，类似于[20]如何处理流媒体推理）或分层设置[7，19，61]。此外，我们的结果可能会改善给一个更sophisticated的框架，建立分裂的建议（例如，参见[67]）。更广泛的影响。我们希望我们的工作将激励深度聚类社区采用非参数方法，并提高对参数方法问题的认识非参数化也对环境产生积极影响：避免了重复训练深度参数方法的需要，用于模型选择的ODS大大减少了资源使用。摘要我们提出了一种深度非参数聚类方法，一种适应不同K值的动态架构，以及一种基于混合模型中新摊销推断的新损失。我们的方法优于深度和非深度非参数方法，并实现SOTA结果。我们展示了参数聚类的问题，特别是对假设K的敏感性，以及非参数方法为深度聚类带来的附加值。我们展示了我们的方法的鲁棒性的类不平衡和初始K。最后，我们通过成为同类报告中ImageNet上的结果。我们的代码是公开的。最终K9870引用[1] 查尔斯·E·安东尼亚克Dirichlet过程的混合及其在贝叶斯非参数问题中的应用。统计年鉴，1974年。二、三[2] 克里斯·阿夫杰里诺斯、瓦西里奥斯·索拉希迪斯、尼古拉斯·弗雷托斯和彼得罗斯·达拉斯。使用深度神经网络的非参数聚类IEEE Access，2020。3[3] David M Blei和Michael I JordanDirichlet过程混合物的变分推断贝叶斯分析，2006年。3[4] Randi Cabezas，Julian Straub，and John

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

深度学习无监督聚类任务中的K值选择方法及其在ImageNet上的性能

K值聚类算法

系统的学习了机器学习,神经网络,深度学习的理论之后.zip

sklearn 无监督聚类

对比，深度嵌入算法，深度无监督聚类算法，子空间聚类算法实验结果比较

自适应聚类和无监督聚类

对比，深度嵌入图像聚类算法，深度无监督图像聚类算法，深度子空间图像聚类算法的效率，复杂度，图像聚类程度，准确率

深度无监督图像聚类实现具体原理步骤

ConsensusClusterPlus共识聚类确认最佳K值的方法

解释一下Kmeans聚类算法的K值意义和选取方法

k-means聚类算法在深度学习中的应用

python 聚类 k值的选择

基于卷积神经网络的深度无监督图像聚类算法具体实现步骤

无监督聚类算法matlab代码

kmeans聚类算法中的k值

简述无监督聚类算法K-means的优缺点。

python无监督学习聚类

matlab无监督学习聚类

为什么同一个数据集不用的聚类方法k取值不同

kmeans聚类算法确认K值代码

聚类算法深度学习分类识别

最新资源