利用LDA与HowNet提升热点新闻子话题划分精度

需积分: 10 0 下载量 79 浏览量 更新于2024-09-07 收藏 926KB PDF 举报
"这篇论文提出了一种名为MGH-LDA的多粒度子话题划分方法,结合了LDA模型和HowNet语义词典,旨在解决LDA模型中话题泛化和子话题间文本相似度高的问题。首先,利用LDA对新闻集合进行初步划分,然后基于TF-IDF获取多粒度特征,用以表示新闻文档的核心词。接着,借助HowNet计算文档间的语义相似度。最后,通过single-pass增量聚类算法实现子话题的精确划分。实验表明,该方法能有效提升热点新闻话题子话题划分的准确性。" 这篇论文的研究重点在于改进传统的LDA模型,以更好地挖掘和细化文本中的子话题结构。LDA(Latent Dirichlet Allocation)是一种概率主题模型,它假设文档是由多个主题混合生成的,而每个主题又由一组词汇的概率分布定义。然而,LDA的建模结果往往过于泛化,不能精确捕捉到文本中的细分话题。为了解决这个问题,论文提出了MGH-LDA方法。 在MGH-LDA中,首先应用LDA模型对新闻数据集进行初步的 topic 分割,这一步骤能够识别出宏观的主题分布。然后,通过TF-IDF(Term Frequency-Inverse Document Frequency)模型提取文档的关键词,这些关键词代表了文档的核心意义,形成多粒度特征集合。TF-IDF可以衡量一个词在文档中的重要性,降低常见词汇的影响。 接下来,引入HowNet这一中文语义词典,HowNet包含了丰富的词汇语义关系,如同义、反义、上下位等,用于计算文档间的语义相似度。这一步骤有助于弥补纯词汇匹配的局限,增强话题划分的精确度。 最后,使用single-pass增量聚类算法对文档进行聚类,这是一种高效的聚类方法,能够在一次遍历中逐步构建聚类结构,适合处理大规模数据。通过这种聚类,论文能够得到更加细化的子话题划分,从而提高热点新闻话题的识别精度。 实验证明,MGH-LDA方法在真实新闻数据集上表现优秀,提高了子话题划分的准确性,对于新闻报道的分析和理解具有实际应用价值。这种方法对于信息检索、自动分类以及科技文献管理等领域具有重要的参考意义。