改进模糊均值法:面向技术路线图的文本聚类挖掘

需积分: 6 0 下载量 61 浏览量 更新于2024-08-12 收藏 541KB PDF 举报
本文主要探讨的是"面向路线图编制的模糊均值文本聚类挖掘方法研究"(2011年),该研究针对模糊c均值聚类算法在实际应用中遇到的问题,特别是对初始值的敏感性和稳定性较差。作者李向东、刘晓斌、武利平和常洪梅在河北工业大学管理学院提出了改进的聚类方法——CGFCM(cGaussian Fuzzy C-Means)。CGFCM方法的创新之处在于结合了遗传算法和类的概念向量。 首先,遗传算法被用来解决模糊c均值算法对初始聚类中心依赖性高的问题。遗传算法以其全局搜索的能力,能够在众多可能的初始值中寻找到更优的聚类中心,从而提高聚类的稳定性和准确性。这一步骤为文本数据的聚类提供了更为坚实的起点。 接着,类的概念向量被引入,用于构建概念向量矩阵。概念向量是一种表示文本特征的方式,它将文本的抽象概念编码为数值形式,使得文本之间的相似度计算更为精确。通过迭代地更新和优化概念向量矩阵,CGFCM方法能够实现文本的模糊聚类划分,即允许数据点同时属于多个类别的概率。 最后,为了验证CGFCM方法的有效性,作者通过实例对比分析,展示了其在文本聚类挖掘任务中的优越性能。相比于传统的模糊c均值方法,CGFCM在聚类结果的稳定性和精度上有所提升,这对于技术路线图的编制等应用场景具有重要的实际价值。 这篇论文的核心贡献是提出了一种结合遗传算法与概念向量的文本聚类挖掘方法,旨在解决模糊c均值算法的局限性,并通过实证研究证明了其在技术路线图编制中的实用性和有效性。这个研究成果对于理解和改进文本数据分析技术,特别是在技术领域的发展规划中具有重要意义。