基于粒度计算的K-均值最佳聚类数确定算法

需积分: 50 101 浏览量更新于2024-08-08 1 收藏 392KB PDF 举报

"一种确定最佳聚类数的新算法 (2012年) - 谢娟英, 马菁, 谢维信 - 陕西师范大学学报(自然科学版) - 第40卷第1期 - 使用粒度计算、模糊等价聚类和改进全局K-均值算法确定最佳聚类数" 本文主要介绍了一种解决K-均值聚类算法中预设聚类数K问题的新方法。K-均值算法在聚类分析中广泛应用，但它的一个显著缺点是需要用户事先指定聚类的数量K，这对许多实际应用来说是个挑战，因为合适的K值往往未知。为了解决这一问题，研究者将粒度计算的概念引入样本相似度函数，并定义了新的样本相似度度量。首先，他们利用模糊等价聚类技术来确定数据集可能的最大类簇数Kmax，这为寻找最佳聚类数提供了一个上限。模糊等价聚类允许数据点以不同程度属于多个类别，增加了对数据复杂性的适应性。接着，以Kmax作为搜索范围的上限，研究人员采用了改进的全局K-均值聚类算法。全局K-均值算法旨在减少局部最优解的影响，提高聚类质量。在确定最佳聚类数的过程中，文章提出了使用BWP（Between-within Proportion）作为聚类有效性度量指标。BWP指标衡量的是类间距离与类内距离的比例，它能帮助识别那些边界清晰、内部紧密的聚类。通过优化BWP，可以找到使聚类效果最佳的K值。实验部分，该算法在UCI机器学习数据库和人工模拟数据集上进行了验证。结果表明，提出的算法能够有效地确定数据集的最佳聚类数，同时适用于大规模数据集。然而，算法的性能可能会受到数据集中噪声点的影响，这是未来改进的方向。关键词涉及到的信息粒度、K-均值、全局K-均值、模糊相似度和BWP聚类指标，都是聚类分析中的关键概念。信息粒度理论提供了一种处理复杂数据的方法，而K-均值和全局K-均值是两种常见的聚类算法。模糊相似度考虑了数据的不确定性，而BWP则是一种评估聚类质量的有效工具。这篇论文提出了一种创新的聚类数确定策略，它结合了粒度计算和模糊等价聚类的优点，以更灵活和有效的方式应对K-均值算法的局限性，对于数据挖掘和机器学习领域的研究具有重要的参考价值。

weixin_38665449

粉丝: 8
资源: 963

基于粒度计算的K-均值最佳聚类数确定算法

一种基于Seeds集和成对约束的半监督聚类算法 (2012年)

ap聚类算法 c#实现

一种基于代表点的快速聚类算法 (2012年)

应用于遥感图像分割的原型提取谱聚类集成算法 (2012年)

随机种子最近邻居搜索聚类算法研究 (2012年)

一种改进的和声搜索模糊聚类算法 (2012年)

一种改进的孤立点消除及网络文本聚类算法 (2012年)

优化K-均值聚类算法：自动确定最佳聚类数

一种基于Web日志的Web用户群体和URL聚类算法 (2012年)

一种多协议网络日志二次聚类方法研究 (2012年)

最新资源