改进K-medoids聚类质量评价:新指标与实证分析

需积分: 21 0 下载量 160 浏览量 更新于2024-08-13 收藏 1.46MB PDF 举报
"该研究提出了一种改进的K-medoids聚类质量评价指标,旨在解决无监督聚类中簇中心重叠导致的评价问题。通过分析常用的聚类评价指标,研究者提出了一种新的内部评价指标,以簇间邻近边界点的最小距离平方和与簇内样本数的乘积来衡量整体的分离度,从而平衡了簇间分离和簇内紧密度的关系。此外,他们还提出了一种新的密度计算方法,选择样本集与各样本平均距离比值较大的对象作为高密度点,利用最大乘积法选择分散且密度高的数据对象作为K-medoids算法的初始聚类中心,提升了算法的稳定性和中心点的代表性。实验在UCI和KDD CUP 99数据集上进行,结果证明新模型能有效地对无先验知识的样本进行聚类,并给出最优聚类数量或范围。" 在本文中,主要讨论了以下几个关键知识点: 1. **无监督聚类评价指标**:传统的聚类评价指标可能存在局限性,尤其是当簇中心重叠时,评价结果可能失去准确性。研究中提出的新内部评价指标关注于簇间邻近边界点的距离,这有助于更准确地评估聚类的质量。 2. **簇间分离度与簇内紧致度**:新指标考虑了这两个重要因素之间的平衡,通过簇间邻近边界点的最小距离平方和与簇内样本数的乘积来量化分离度,使得聚类效果更加合理。 3. **K-medoids算法改进**:传统K-medoids算法的初始聚类中心选取可能影响最终聚类结果。文中提出了一种新的密度计算方法,依据样本与平均距离的比值来识别高密度点,然后用最大乘积法选择分散的高密度点作为初始中心,提高了算法的稳定性和选择的代表性。 4. **数据集实验**:为了验证新模型的有效性,研究在UCI和KDD CUP 99两个知名数据集上进行了实验,结果显示新模型能够有效处理无先验知识的样本,能够确定最优聚类数目或范围,从而为实际应用提供了有价值的参考。 5. **聚类的最优数目**:对于无监督聚类而言,确定最佳聚类数量是一个挑战。该研究的新模型提供了一种方法来确定这个最优值,这对于聚类分析尤其重要,因为它可以帮助避免过拟合或欠拟合的问题。 这些研究成果对于理解和改进无监督聚类算法的性能有着重要的意义,特别是在处理复杂数据集时,能够提供更可靠、更具解释性的聚类结果。同时,提出的评价指标和聚类中心选择策略也为未来聚类算法的研究提供了新的思路。