结合层次与划分聚类的文本聚类算法改进

需积分: 3 8 下载量 86 浏览量 更新于2024-09-28 1 收藏 234KB PDF 举报
"该资源是一篇关于改进的文本聚类算法的研究论文,发表于陕西科技大学学报,作者是李众和梁志剑。该算法结合层次聚类和划分聚类思想,通过阈值控制聚类过程,提高了在高维稀疏相似矩阵中处理文本聚类的效率和准确性。实验结果显示,此算法的召回率和正确率优于传统方法,适用于文本挖掘中的文档分类和信息抽取。" 在当前的信息爆炸时代,传统的信息检索技术已经无法满足海量文本数据的处理需求。文本聚类作为文本挖掘的关键技术之一,可以有效地对文档进行自动分类,尤其在面对互联网上不断变化的主题和难以预设的分类体系时,聚类显得尤为重要。 文本聚类是一种无监督的学习方法,它将相似的文本自动归为一类,而无需预先知道每个文本的类别。在这个过程中,聚类算法的选择和优化至关重要。文中提到的改进算法融合了层次聚类(Hierarchical Clustering)和划分聚类(Divisive Clustering)两种方法的优点。层次聚类自底向上或自顶向下地构建树状结构,而划分聚类则从整体数据集开始,逐渐分割成更小的簇。这种结合方式通过设置阈值动态调整聚类策略,能够在处理高维稀疏的文本特征时提高聚类效果。 文章详细介绍了聚类的基本定义,并对比分析了现有聚类算法。聚类的目标是在数据集中寻找具有高内部相似度的簇,而低外部相似度的簇之间。常见的聚类质量评价指标包括召回率和正确率,这两者在作者的实验中得到了提升,表明改进算法在处理文本聚类问题时具有更高的性能。 在实际应用中,文本聚类可用于搜索引擎的文档排序、垃圾邮件过滤、新闻主题发现等多种场景。通过聚类,可以快速识别文档的主题,帮助用户快速定位到他们感兴趣的信息。同时,对于新的、未标记的文本,聚类算法也能提供有价值的分类线索,降低了人工标注的成本。 该研究提出了一种创新的文本聚类方法,旨在改善文本数据的组织和理解,为文本挖掘领域提供了新的思路和技术支持。通过改进现有的聚类策略,该算法能够更好地适应复杂多变的文本环境,提高文本处理的效率和准确度。