文本挖掘聚类算法对比实证研究

需积分: 10 108 浏览量更新于2024-08-02 收藏 289KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

本文《A Comparison of Document Clustering Techniques》是一篇由Michael Steinbach、George Karypis和Vipin Kumar三位专家撰写的经典论文，他们隶属于明尼苏达大学计算机科学与工程系。该研究主要关注文本挖掘中的聚类算法，特别是对两种主流方法——聚合层次聚类（Agglomerative Hierarchical Clustering）和K-means方法进行了深入的实验性比较。在文本挖掘领域，文档聚类是重要的任务，它有助于理解和组织大量文本数据，比如新闻文章、社交媒体帖子或学术论文。文章首先阐述了层次聚类的优势，这种技术通常被认为是质量更高的聚类方法，因为它可以生成一个包含多个层次的树状结构，每个层次代表一个更紧密的聚类。然而，它的缺点在于计算复杂度较高，时间复杂度为平方级别，对于大规模数据集来说效率较低。另一方面，K-means算法以其线性时间复杂度而受到青睐，它将文档划分为固定数量的簇，通过迭代优化每个文档到最近簇中心的距离来达到聚类效果。标准K-means易于实现但可能产生较劣质的簇，因为它依赖于初始聚类中心的选择，这可能导致局部最优解。为此，作者还提到了一种变体——“二分K-means”，这是一种改进版本，通过不断分割簇直到达到预设的子簇数量，从而可能获得更好的结果。文章的核心贡献在于实验结果，展示了二分K-means在性能上优于标准K-means，并且在某些情况下，其结果甚至优于层次聚类。这意味着在处理大规模文本数据时，结合K-means的高效性和二分K-means的改进策略，可能是一种更为实用的方法，能够同时兼顾聚类质量和效率。这篇论文不仅提供了理论上的探讨，还为实际应用中的文本挖掘工作者提供了一个有价值的参考，帮助他们在选择文档聚类算法时做出明智决策。它强调了在面对大数据挑战时，优化聚类算法的重要性，并提出了结合不同方法以优化聚类性能的可能性。对于那些致力于文本挖掘和聚类分析的科研人员以及工程师来说，这是深入了解和优化文本数据处理过程的重要参考资料。

资源推荐