改进k-means算法:文本聚类中的特征选择与初始中心优化

需积分: 4 7 下载量 134 浏览量 更新于2024-08-01 收藏 2.83MB PDF 举报
本文主要探讨了基于K-means的算法在中文文本聚类领域的研究与实现,特别是在处理高维性和稀疏性文本数据时所遇到的挑战。作者张睿,作为一名硕士研究生,专业为计算机软件与理论,选择了西北大学作为研究背景,导师为刘晓霞。 K-means算法因其时间复杂度较低,被广泛应用于机器学习和数据挖掘,包括文本聚类任务。然而,文本数据的特点,如词汇的丰富性和大量冗余,导致了数据的高维度和稀疏性,这使得计算文本对象之间的相似度变得困难,从而可能影响聚类中心的选择。原始的K-means算法在初始化阶段可能会选取到不能充分代表整个文本集的聚类中心。 针对这个问题,作者提出了改进的初始聚类中心选择方法,通过考虑文本间的相似度,试图找到更分散且更具代表性的聚类中心。这涉及到对特征选择的优化,特别是在没有类信息的情况下,通过结合文档频率和单词贡献度的特征选择方法,利用贪心算法逐步筛选出最具区分力的特征词,从而提高聚类的质量。 此外,作者还对经典的Bisecting K-means算法进行了改进,引入了共享最近邻相似度的概念,旨在提高簇的整体质量。实验结果显示,这种改进后的算法在聚类效果上有所提升。 论文的核心成果是实现了一个基于K-means的中文文本聚类原型系统,对其中的算法进行了评估和比较。通过实际应用,验证了改进策略的有效性和实用性。关键词包括文本聚类、K-means算法、Bisecting K-means算法以及共享最近邻等,这些都体现了作者对文本数据分析深入理解和创新实践的努力。 本文对于K-means算法在文本聚类中的局限性进行了深入剖析,并通过优化特征选择和改进聚类中心初始化策略,提高了文本聚类的性能,为文本挖掘领域的研究提供了有价值的新思路和技术支持。