基于MST的多标签半监督聚类算法研究

需积分: 6 0 下载量 153 浏览量 更新于2024-09-10 收藏 726KB PDF 举报
该篇论文标题为《基于最小生成树的M-和K-标签半监督聚类算法》(MST-based Semi-supervised Clustering using M-labeled and K-labeled objects),由作者霍萌萌、刘阳阳和陈晓云合作完成,发表在中国科技论文在线上。论文主要关注的是半监督聚类问题,这是一种在数据集中仅有部分样本具有标签的情况下,利用未标记数据进行聚类分析的技术。 传统的半监督聚类算法,如依赖于成对约束的方法,往往需要大量的先验知识来提升聚类精度。然而,这篇论文试图打破这一常规,引入了一种名为标签传播的半监督学习方法,这种方法强调利用已知标签对象的信息来指导聚类过程,从而减少对先验知识的依赖。 论文提出了两种新的基于最小生成树的半监督聚类算法:K-SSMST(K-Label-based Semi-Supervised Minimum Spanning Tree)和M-SSMST(M-Label-based Semi-Supervised Minimum Spanning Tree)。这两种算法的核心是基于最小生成树(Minimum Spanning Tree, MST),即寻找图中连接所有节点的边集合,使得边的总权重最小。在这个基础上,算法通过分配标签,能够有效地发现不同密度和任意形状的聚类。 K-SSMST利用了部分已知标签的K个对象作为初始种子,通过构建最小生成树并扩散标签信息,逐步扩大到未标记数据。而M-SSMST则更为灵活,它允许使用多个标签,使得算法能适应更多的类别情况,提高了聚类的准确性和鲁棒性。 这篇论文对于半监督学习领域的贡献在于提供了一种新颖的聚类方法,减少了对成对约束和大量先验知识的依赖,尤其适用于那些标签信息有限但又希望得到有效聚类结果的数据集。通过最小生成树结构,这两个算法在保持算法效率的同时,提高了聚类的适应性和有效性,为实际应用中的数据挖掘提供了有价值的新思路。