最大距离法优化K-means文本聚类算法

需积分: 50 5 下载量 168 浏览量 更新于2024-09-08 2 收藏 985KB PDF 举报
"最大距离法选取初始簇中心的K-means文本聚类算法的研究" 这篇论文主要探讨了K-means聚类算法在文本聚类中所遇到的问题及其解决方案。K-means算法是一种广泛应用的无监督学习方法,其核心是通过迭代过程将数据点分配到最近的簇中心所属的簇中,然后更新簇中心为簇内所有点的均值。然而,K-means算法的性能严重依赖于初始簇中心的选择,随机选择可能导致陷入局部最优解,聚类结果不稳定,且迭代次数过多。 针对这些问题,论文提出了一种新的策略——最大距离法来选取初始簇中心。这种方法基于一个假设,即距离最远的样本点最不可能属于同一簇。通过这种策略,可以更合理地初始化簇中心,有望避免因随机选择导致的不良聚类效果。 为了适应文本数据,论文构建了一种方法将文本相似度转化为文本距离。通常,文本聚类中常用的方法如余弦相似度或Jaccard相似度,而这里则需要将其转换为距离度量,以便于应用最大距离法。同时,论文还重新设计了迭代过程中的簇中心计算公式和测度函数,使其更适合于新的距离度量标准。 在实验部分,研究人员使用包含1500篇属于五个类别的文本数据集进行了对比测试。实验结果表明,采用最大距离法选取初始簇中心的K-means文本聚类算法不仅减少了总的迭代次数,提高了聚类效率,而且在F度量值上也有显著提升。F度量值是评估聚类质量的重要指标,它综合了精确率和召回率,更高的F值意味着更好的聚类效果。 这项研究对于改进传统的K-means算法在文本聚类任务中的性能具有重要意义,特别是在大规模文本数据处理中,减少计算时间和提高准确性都是至关重要的。同时,该方法可能适用于其他类型的数据聚类,为优化聚类算法提供了新的思路。