文本文档数据的自适应质心聚类算法

0 下载量 59 浏览量 更新于2024-08-29 收藏 957KB PDF 举报
本文档探讨了一种名为"Adaptive Centroid-based Clustering (ACC)算法"的研究论文,针对文本文档数据的聚类问题。在当前的文献背景下,文档聚类是一项备受关注的研究领域,其目标是将大规模的文档集合划分为多个同质性高的子群组。传统的聚类方法往往忽视了单词权重在确定群组内部相似性中的关键作用,这可能导致结果的不精确。 作者李心明、欧阳继红和周晓堂来自吉林大学计算机科学与技术学院,他们在解决这个问题上提出了创新性的ACC算法。该算法受到了Class-Feature-Centroid (CFC)算法的启发,CFC是一种成功的监督式基于中心点的分类器,它考虑了单词之间的关联性。然而,由于文档聚类本质上是无监督学习任务,ACC首先假设存在大量的小规模聚类,每个聚类都试图找到一个可接受的CFC向量来表征其特征。 ACC算法的工作流程是迭代的。它首先初始化大量小型聚类,并通过计算文档向量与CFC向量的相似度来评估每个文档所属的群组。然后,它会根据这些相似度值不断调整聚类结构,将相似度高的文档合并到同一群组,直至达到收敛状态。这种方法的优势在于它能够动态地调整聚类过程,使得最终结果更加适应文档数据中单词权重的实际影响,从而提高了聚类的精度和效率。 这篇论文的核心贡献在于提出了一种自适应的基于中心点的聚类策略,结合了监督学习中CFC算法的特性,为处理文本文档数据提供了有效的无监督学习解决方案。ACC算法通过迭代优化聚类过程,有效解决了传统方法在处理文本数据时忽视词权重的问题,有望在实际应用中展现出强大的性能和实用性。