K-均值文本聚类分析的改进方法研究

5星 · 超过95%的资源 需积分: 9 13 下载量 26 浏览量 更新于2024-08-01 1 收藏 1.73MB PDF 举报
"基于K均值的文本聚类分析在贵州大学硕士研究生汪浩平的学位论文中被深入探讨,该研究旨在改进K均值算法在文本聚类中的不足,提高聚类性能。" K均值算法是数据挖掘领域中一种经典的无监督聚类方法,它通过迭代将数据点分配到最近的聚类中心,并更新聚类中心以达到优化聚类效果的目的。在文本聚类中,K均值通常用于将文档集合分成多个组,每个组内的文档具有相似的主题。然而,原始的K均值算法存在几个局限性,如对初始聚类中心敏感、易受局部最优解的影响,以及需要预先设定聚类数量K。 针对这些问题,汪浩平的研究提出了若干改进策略。首先,他提出了一种间接的学习权值算法,用于优化距离度量。通过构建评价函数并应用梯度下降法,动态调整特征权值以降低相似矩阵的模糊性。这使得相似度较高的向量能更紧密地聚类,而相似度较低的向量能更好地分离,从而提高聚类质量。其次,引入遗传算法来学习和优化K值的选择,以找到更合适的聚类数量。最后,对K均值算法的执行流程进行了多种改进,包括优化聚类中心的初始化和相似度计算,以增强算法的全局搜索能力。 实验结果证明,这些改进的算法在实际文本聚类任务中提升了聚类效果,达到了预期目标。论文关键词涵盖了K均值算法、特征权值、遗传算法和文本聚类,表明研究重点在于如何结合这些技术来提升K均值在文本数据上的聚类性能。 这篇论文为改进K均值算法提供了有价值的理论和实践贡献,特别是在处理文本数据时,通过优化距离度量和聚类数量选择,增强了算法的适应性和准确性。这些研究成果对于后续的文本聚类和数据挖掘研究具有重要的参考价值。