粒子群优化模糊文本聚类算法的研究与应用

需积分: 18 4 下载量 10 浏览量 更新于2024-09-07 收藏 242KB PDF 举报
"基于粒子群优化的模糊文本聚类研究,旨在解决传统模糊聚类算法对输入顺序和初始点敏感的问题,通过应用粒子群优化技术来寻找更优的聚类中心,以提高聚类效果。该研究由柴瑞敏、王月和王飞共同完成,分别来自辽宁工程技术大学和河南工业大学。" 本文主要探讨的是在海量文本信息背景下,如何有效地进行文本聚类。文本聚类是一种将文本数据组织成多个类别,使得同类文本之间具有高相似度,不同类别间差异明显的技术。传统的聚类方法如Crisp Partition,将每个样本严格分配到单一类别,但在实际应用中,由于事物的复杂性,更倾向于使用模糊聚类,允许样本以不同的隶属度同时属于多个类别。 模糊C均值(FCM)聚类是模糊聚类的一种常见方法,由J.C.Bezdek和Dunn等人提出,但FCM算法存在对初始中心点敏感的缺点,可能导致聚类结果不稳定。针对这一问题,该研究提出了一个改进的模糊聚类算法,结合粒子群优化(PSO)策略来寻找最佳的初始聚类中心。粒子群优化是一种全局优化算法,能够搜索到全局最优解,因此可以有效地缓解FCM对输入顺序和初始点的依赖。 在新算法中,首先利用PSO找到更合理的聚类中心,然后应用改进后的模糊聚类算法处理样本不均衡问题,从而优化聚类结果。通过实验验证,该算法在测试数据集上的聚类效果优于传统方法,表现出更好的鲁棒性和准确性。 此外,文章还回顾了模糊聚类的发展历程,包括模糊集合论的起源、Fuzzy ISODATA聚类方法的提出以及FCM方法的演变。这些背景知识为理解改进算法提供了基础。这项研究为文本聚类提供了一个新的视角,即利用进化算法(如PSO)改进模糊聚类算法,以适应大规模文本数据的处理需求。