n-gram短语驱动的文本聚类提升方法研究

需积分: 45 10 浏览量更新于2024-09-08 2 收藏 494KB PDF 举报

本文档探讨了一种创新的文本聚类方法，其核心是基于n-gram短语的处理。在现代计算机技术背景下，随着网络信息的爆炸性增长，文本挖掘成为关键工具，以帮助用户高效、准确地筛选信息。文本聚类作为文本挖掘的重要组成部分，旨在在无监督情况下，根据文档间的相似性自动分组。传统的文本表示模型，如向量空间模型（VSM），虽然在早期被广泛应用，但存在局限性，难以充分捕捉文本的语义信息。VSM假设文档由一系列特征向量构成，其中每个词的权重通常基于词频（TF-IDF）计算，但这可能忽视了词语的上下文关联，特别是对于长文本和多义词的理解。因此，论文提出了一种新颖的策略，即构建基于n-gram短语的相关文档模型。n-gram短语是指连续的n个单词组合，它有助于捕捉词语的局部语义信息，增强文档的表达力。通过这种方法，文本被转换为一个以n-gram短语为特征的模型，这不仅保留了词频信息，还考虑了词与词之间的关系。新方法将文本转换为相关文档模型后，再进行文档聚类，这种方法在实验中显示出显著的优势，能够提供更佳的聚类效果。作者孙桂煌，一位硕士研究生，专注于数据挖掘和数据库技术领域，他注意到并解决了传统文本聚类方法中的问题，为文本挖掘和信息检索提供了新的视角和改进方案。总结来说，这篇研究论文主要贡献在于提出了一种结合n-gram短语和相关文档模型的文本聚类方法，有效地提高了文本表示的准确性和聚类性能，这对于大规模文本数据的处理和分析具有实际价值。通过这种方式，文本的语义结构得以更好地挖掘，从而提高信息检索的效率和精度。

bbm

粉丝: 0
资源: 33

n-gram短语驱动的文本聚类提升方法研究

基于n-gram的文本分类方法：Cavnar与Trenkle论文综述

N-gram错误容忍文本分类：高准确率处理多语言与计算机新组

Stata命令ngram实现N-Gram文本挖掘技术

K-Means文本聚类python实现

文本聚类中文本表示和相似度计算研究综述_吴夙慧1

文本聚类用的Tfid词频计算

基于风险短语挖掘的知识聚合模型研究_唐晓波1

基于风险短语挖掘的知识聚合模型研究_唐晓波2

文本挖掘与R语言

基于种子无关语的语料聚类与无关语获取方法验证

最新资源