基于密度的K-means改进算法:提高聚类精度

需积分: 15 1 下载量 153 浏览量 更新于2024-09-07 收藏 443KB PDF 举报
"一种基于密度的K-means算法研究.pdf" 本文主要探讨了针对传统K-means算法的局限性,提出了一种改进的基于密度的方法。K-means算法是聚类分析中常用的一种方法,它的主要问题在于需要预先设定聚类的数量,并且对初始聚类中心的选择非常敏感,这可能导致聚类结果的不稳定。为了克服这些问题,该研究引入了密度的概念。 首先,该算法采用了基于密度的思想。在设定一个阈值Eps(邻域半径)和一个最小对象数minpts之后,它可以识别并排除那些在Eps邻域内对象数少于minpts的孤立点。这种方法能够更好地处理数据分布不均匀的情况,尤其是在存在噪声点或密集区域的情况。 其次,研究者提出了一种新的初始化策略。他们选择不重复的核心点作为初始聚类中心,这些核心点是Eps邻域内满足minpts条件的对象。这样的选取方式可以避免因初始中心选择不当而引起的聚类偏差。 再者,为了确定最佳的聚类数量,文章提出使用类内距离与类间距离的比值作为准则评价函数。这个准则函数考虑了簇内的紧密程度和簇间的分离度,当该比值达到最小值时,对应的聚类数被认为是最优的。这种策略使得算法能自动适应数据的特性,无需人为指定聚类数。 最后,通过多个实例分析,研究证明了改进后的算法相比传统的K-means算法具有更高的聚类准确性,能够更有效地实现类内紧密、类间远离的聚类效果。这表明该算法在处理复杂数据集时可能具有更好的性能和适用性。 关键词:K-means算法;基于密度;类内距离;类间距离 该研究是由大连海事大学交通运输管理学院的研究团队完成,得到了国家科技支撑计划和高等学校博士学科点专项科研基金的支持。研究团队成员包括专注于数据挖掘和决策支持的张琳博士研究生,研究数据仓库与数据挖掘等方向的陈燕教授,研究数据挖掘与文本挖掘的汲业博士研究生,以及研究Web挖掘的张金松博士研究生。他们的工作为改进聚类算法提供了新的思路和实践依据。