多粒度子话题划分方法:LDA与HowNet结合的应用
需积分: 9 162 浏览量
更新于2024-08-12
收藏 926KB PDF 举报
"基于LDA模型和HowNet的多粒度子话题划分方法 (2015年) 是一篇工程技术领域的论文,旨在解决LDA建模中的泛化问题和子话题间文本相似度过高的问题。文章由李湘东、巴志超和黄莉合作完成,发表于2015年,主要探讨如何利用LDA和知网(HowNet)的语义词典进行多粒度子话题划分,以提高热点新闻话题子话题划分的准确率。"
本文针对LDA(Latent Dirichlet Allocation)模型在处理大量文本数据时可能出现的泛化现象,即主题过于宽泛,以及不同子话题间的文本相似度较高,导致话题细分不清晰的问题。作者提出了一种名为MGH-LDA(Multi-Granularity Hierarchical LDA)的方法。首先,利用LDA模型对来自不同新闻源的新闻集合进行初步的主题划分,通过文档贡献度确定同一话题的文档集合。接着,基于TF-IDF(Term Frequency-Inverse Document Frequency)模型,提取出多粒度的粗细特征作为文档的核心词,这些特征能够更细致地描述新闻文档。然后,引入知网(HowNet)这一中文语义词典,计算新闻文档之间的语义相似度,这有助于更深入地理解文档之间的关系。最后,采用single-pass增量聚类算法对新闻文档进行聚类,实现子话题的精细化划分。
在实际应用中,该方法在真实新闻数据集上进行了实验,结果显示,MGH-LDA方法能够有效提升热点新闻话题子话题划分的准确率,从而在信息检索、自动分类等领域具有较高的实用价值。论文关键词包括新闻报道、子话题划分、多粒度、狄利克雷分配模型和语义相似度计算,反映了研究的主要内容和关注点。
这篇论文提供了一个结合统计建模(LDA)与语义分析(HowNet)的创新方法,以改善文本话题划分的粒度和精度,对于理解和挖掘大规模文本数据中的深层次信息具有重要意义。该研究对后续的文本挖掘、信息检索和自然语言处理工作提供了有价值的参考。
2022-08-04 上传
2019-08-17 上传
303 浏览量
2023-09-04 上传
2023-03-27 上传
2024-04-02 上传
2024-05-03 上传
2023-05-12 上传
2023-05-22 上传
weixin_38677044
- 粉丝: 15
- 资源: 920
最新资源
- C语言快速排序算法的实现与应用
- KityFormula 编辑器压缩包功能解析
- 离线搭建Kubernetes 1.17.0集群教程与资源包分享
- Java毕业设计教学平台完整教程与源码
- 综合数据集汇总:浏览记录与市场研究分析
- STM32智能家居控制系统:创新设计与无线通讯
- 深入浅出C++20标准:四大新特性解析
- Real-ESRGAN: 开源项目提升图像超分辨率技术
- 植物大战僵尸杂交版v2.0.88:新元素新挑战
- 掌握数据分析核心模型,预测未来不是梦
- Android平台蓝牙HC-06/08模块数据交互技巧
- Python源码分享:计算100至200之间的所有素数
- 免费视频修复利器:Digital Video Repair
- Chrome浏览器新版本Adblock Plus插件发布
- GifSplitter:Linux下GIF转BMP的核心工具
- Vue.js开发教程:全面学习资源指南