基于粒度计算的K-均值最佳聚类数确定算法

需积分: 50 1 下载量 101 浏览量 更新于2024-08-08 1 收藏 392KB PDF 举报
"一种确定最佳聚类数的新算法 (2012年) - 谢娟英, 马菁, 谢维信 - 陕西师范大学学报(自然科学版) - 第40卷第1期 - 使用粒度计算、模糊等价聚类和改进全局K-均值算法确定最佳聚类数" 本文主要介绍了一种解决K-均值聚类算法中预设聚类数K问题的新方法。K-均值算法在聚类分析中广泛应用,但它的一个显著缺点是需要用户事先指定聚类的数量K,这对许多实际应用来说是个挑战,因为合适的K值往往未知。为了解决这一问题,研究者将粒度计算的概念引入样本相似度函数,并定义了新的样本相似度度量。 首先,他们利用模糊等价聚类技术来确定数据集可能的最大类簇数Kmax,这为寻找最佳聚类数提供了一个上限。模糊等价聚类允许数据点以不同程度属于多个类别,增加了对数据复杂性的适应性。接着,以Kmax作为搜索范围的上限,研究人员采用了改进的全局K-均值聚类算法。全局K-均值算法旨在减少局部最优解的影响,提高聚类质量。 在确定最佳聚类数的过程中,文章提出了使用BWP(Between-within Proportion)作为聚类有效性度量指标。BWP指标衡量的是类间距离与类内距离的比例,它能帮助识别那些边界清晰、内部紧密的聚类。通过优化BWP,可以找到使聚类效果最佳的K值。 实验部分,该算法在UCI机器学习数据库和人工模拟数据集上进行了验证。结果表明,提出的算法能够有效地确定数据集的最佳聚类数,同时适用于大规模数据集。然而,算法的性能可能会受到数据集中噪声点的影响,这是未来改进的方向。 关键词涉及到的信息粒度、K-均值、全局K-均值、模糊相似度和BWP聚类指标,都是聚类分析中的关键概念。信息粒度理论提供了一种处理复杂数据的方法,而K-均值和全局K-均值是两种常见的聚类算法。模糊相似度考虑了数据的不确定性,而BWP则是一种评估聚类质量的有效工具。 这篇论文提出了一种创新的聚类数确定策略,它结合了粒度计算和模糊等价聚类的优点,以更灵活和有效的方式应对K-均值算法的局限性,对于数据挖掘和机器学习领域的研究具有重要的参考价值。