n-gram短语驱动的文本聚类提升方法研究

需积分: 45 19 下载量 10 浏览量 更新于2024-09-08 2 收藏 494KB PDF 举报
本文档探讨了一种创新的文本聚类方法,其核心是基于n-gram短语的处理。在现代计算机技术背景下,随着网络信息的爆炸性增长,文本挖掘成为关键工具,以帮助用户高效、准确地筛选信息。文本聚类作为文本挖掘的重要组成部分,旨在在无监督情况下,根据文档间的相似性自动分组。 传统的文本表示模型,如向量空间模型(VSM),虽然在早期被广泛应用,但存在局限性,难以充分捕捉文本的语义信息。VSM假设文档由一系列特征向量构成,其中每个词的权重通常基于词频(TF-IDF)计算,但这可能忽视了词语的上下文关联,特别是对于长文本和多义词的理解。 因此,论文提出了一种新颖的策略,即构建基于n-gram短语的相关文档模型。n-gram短语是指连续的n个单词组合,它有助于捕捉词语的局部语义信息,增强文档的表达力。通过这种方法,文本被转换为一个以n-gram短语为特征的模型,这不仅保留了词频信息,还考虑了词与词之间的关系。 新方法将文本转换为相关文档模型后,再进行文档聚类,这种方法在实验中显示出显著的优势,能够提供更佳的聚类效果。作者孙桂煌,一位硕士研究生,专注于数据挖掘和数据库技术领域,他注意到并解决了传统文本聚类方法中的问题,为文本挖掘和信息检索提供了新的视角和改进方案。 总结来说,这篇研究论文主要贡献在于提出了一种结合n-gram短语和相关文档模型的文本聚类方法,有效地提高了文本表示的准确性和聚类性能,这对于大规模文本数据的处理和分析具有实际价值。通过这种方式,文本的语义结构得以更好地挖掘,从而提高信息检索的效率和精度。