改进粒子群与K-Means结合的文本聚类算法研究

需积分: 9 1 下载量 44 浏览量 更新于2024-09-02 收藏 211KB PDF 举报
"该文研究了一种基于改进粒子群优化算法和K-Means的文本聚类算法,针对K-Means在处理大规模、高维、非结构化文本数据时的局限性,如易陷入局部最优解,文章提出了非线性动态调整的惯性权重机制来优化粒子群算法,并将其与K-Means结合,形成了MPK-Clusters算法。实验结果显示,新算法在准确率、召回率和F值上均优于传统的K-Means和PSO-KMeans算法,从而提高了文本聚类的效果。关键词包括K-Means算法、MPK-Clusters算法、PSO-KMeans算法以及惯性权重。" 本文主要探讨了文本聚类中的一个重要问题,即如何有效地处理大规模、高维和非结构化的文本数据。K-Means算法作为常用的聚类方法,虽然简洁高效,但在处理这类复杂数据时存在明显缺陷,如对初始聚类中心选择敏感,以及容易陷入局部最优,导致聚类质量下降。 为了克服这些问题,作者引入了粒子群优化(PSO)算法,并对其进行了改进。PSO是一种基于群体智能的优化算法,能全局搜索解空间,寻找可能的最优解。然而,PSO算法的性能受惯性权重影响,固定权重可能导致搜索效率降低。因此,作者提出了非线性动态调整的惯性权重机制,以提高粒子群在搜索过程中的探索和开发平衡,从而增强算法的全局寻优能力。 接下来,作者将改进后的PSO算法与K-Means结合,创建了一个名为MPK-Clusters的新算法。K-Means算法的局部搜索能力与PSO算法的全局优化特性在此处相得益彰,新算法能够在保持聚类速度的同时,减少陷入局部最优的风险,提高聚类的准确性。 通过与其他两种算法(传统K-Means和PSO-KMeans)的对比实验,MPK-Clusters算法在准确率、召回率和F值上都表现出优越性,验证了其在文本聚类任务上的有效性。这为处理大量文本数据的聚类问题提供了一种新的解决方案,有助于提升文本挖掘和信息检索的性能。 该研究展示了结合改进的粒子群优化算法和K-Means算法在文本聚类领域的潜力,为未来相关领域的研究提供了有价值的参考。同时,这种融合不同算法优势的方法也为解决其他复杂优化问题提供了启示。