基于Gini指数的自动密度峰值聚类算法:改进与精度提升

需积分: 50 11 下载量 82 浏览量 更新于2024-09-06 2 收藏 743KB PDF 举报
本文主要探讨的是自动确定聚类中心的密度峰值聚类算法(Density Peaks Clustering, DPC)的改进版本。DPC作为一种基于密度的聚类算法,其核心思想是根据数据点的邻域密度和自身密度来识别潜在的聚类中心。原始DPC算法的优点在于无需预先设定聚类数量,且能发现非球形簇,但存在两个显著问题:一是依赖经验计算截断距离[dc],这在面对不同复杂度的数据集时可能不够精确;二是人工选取聚类中心的方式可能导致结果的不准确性。 针对这些问题,作者提出了一种基于基尼指数的自适应截断距离方法。基尼指数是一种衡量不平等程度的统计指标,在这里被用来动态调整截断距离,使之更能适应数据分布的特性,从而更准确地找到数据点之间的密度差异。接着,作者引入簇中心权值计算,通过对各点密度和邻域点的贡献进行量化,进一步评估每个点作为聚类中心的可能性。 通过观察邻域点的密度变化趋势,算法寻找斜率变化的临界点,这个临界点对应于簇中心。这种方法避免了人工决策图选择聚类中心带来的主观性,提高了聚类中心选择的自动化和准确性。通过与传统DPC算法的对比实验,结果显示新算法在自动确定聚类中心方面表现优秀,并且在实际聚类准确率上有所提升。 本文的研究对现有的密度峰值聚类算法进行了优化,特别是在处理复杂数据集和自动聚类中心选择上取得了显著进步。这对于计算机工程与应用领域,特别是在图像模式识别、Web搜索、生物学和安全等领域中的数据分析,具有重要的实用价值。这种自适应的密度峰值聚类算法有望成为未来无监督聚类分析中的一种有力工具。