多粒度子话题划分方法：LDA与HowNet结合的应用

需积分: 9 166 浏览量更新于2024-08-12 收藏 926KB PDF 举报

"基于LDA模型和HowNet的多粒度子话题划分方法 (2015年) 是一篇工程技术领域的论文，旨在解决LDA建模中的泛化问题和子话题间文本相似度过高的问题。文章由李湘东、巴志超和黄莉合作完成，发表于2015年，主要探讨如何利用LDA和知网（HowNet）的语义词典进行多粒度子话题划分，以提高热点新闻话题子话题划分的准确率。" 本文针对LDA（Latent Dirichlet Allocation）模型在处理大量文本数据时可能出现的泛化现象，即主题过于宽泛，以及不同子话题间的文本相似度较高，导致话题细分不清晰的问题。作者提出了一种名为MGH-LDA（Multi-Granularity Hierarchical LDA）的方法。首先，利用LDA模型对来自不同新闻源的新闻集合进行初步的主题划分，通过文档贡献度确定同一话题的文档集合。接着，基于TF-IDF（Term Frequency-Inverse Document Frequency）模型，提取出多粒度的粗细特征作为文档的核心词，这些特征能够更细致地描述新闻文档。然后，引入知网（HowNet）这一中文语义词典，计算新闻文档之间的语义相似度，这有助于更深入地理解文档之间的关系。最后，采用single-pass增量聚类算法对新闻文档进行聚类，实现子话题的精细化划分。在实际应用中，该方法在真实新闻数据集上进行了实验，结果显示，MGH-LDA方法能够有效提升热点新闻话题子话题划分的准确率，从而在信息检索、自动分类等领域具有较高的实用价值。论文关键词包括新闻报道、子话题划分、多粒度、狄利克雷分配模型和语义相似度计算，反映了研究的主要内容和关注点。这篇论文提供了一个结合统计建模（LDA）与语义分析（HowNet）的创新方法，以改善文本话题划分的粒度和精度，对于理解和挖掘大规模文本数据中的深层次信息具有重要意义。该研究对后续的文本挖掘、信息检索和自然语言处理工作提供了有价值的参考。

收稿日期：２０１４０４１１；修回日期：２０１４０６０３

作者简介：李湘东（１９６３），男，辽宁庄河人，副教授，博士，主要研究方向为信息检索、数据挖掘、自动分类（ｘｌｉ＿ｘｉａｏ＠ｈｏｔｍａｉｌ．ｃｏｍ）；巴志超

（１９９０），男，山东滨州人，硕士研究生，主要研究方向为信息检索、自动分类；黄莉（１９６４），女，广东普宁人，副研究馆员，硕士，主要研究方向为科

技文献管理、文献资源建设、信息服务．

基于ＬＤＡ模型和ＨｏｗＮｅｔ的多粒度子话题划分方法

李湘东

ａ，ｂ

，巴志超

ａ

，黄　莉

ｃ

（武汉大学　ａ．信息管理学院；ｂ．信息资源研究中心；ｃ．图书馆，武汉４３００７２）

摘　要：针对ＬＤＡ建模结果较泛化、子话题间文本相似度较高等问题，提出一种基于狄利克雷分配模型（ＬＤＡ）

和知网（

ＨｏｗＮｅｔ）语义词典相结合的多粒度子话题划分方法（ＭＧＨＬＤＡ）。首先采用ＬＤＡ模型对不同新闻源的

新闻集合进行初划分，并根据文档贡献度获得相同新闻话题的文档集合；其次在ＴＦＩＤＦ模型基础上获取多粒度

粗细特征，作为核心词特征集合来表征新闻文档，采用知网语义词典来计算新闻文档之间的相似度；最后通过

ｓｉｎｇｌｅｐａｓｓ增量聚类算法进行新闻文档的聚类，实现子话题划分。通过在真实新闻数据集上的实验，验证了该方

法能有效地提高热点新闻话题子话题划分的准确率。

关键词：新闻报道；子话题划分；多粒度；狄利克雷分配模型；语义相似度计算

中图分类号：ＴＰ３９１．４　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１５）０６１６２５０５

ｄｏｉ

：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１５．０６．００６

ＭｕｌｔｉｇｒａｎｕｌａｒｉｔｙｓｕｂｔｏｐｉｃｄｉｖｉｓｉｏｎｂａｓｅｄｏｎＬＤＡａｎｄＨｏｗＮｅｔ

ＬｉＸｉａｎｇｄｏｎｇ

ａ，ｂ

，ＢａＺｈｉｃｈａｏ

ａ

，ＨｕａｎｇＬｉ

ｃ

（ａ．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ，ｂ．ＣｅｎｔｅｒｆｏｒＳｔｕｄｉｅｓｏｆＩｎｆｏｒｍａｔｉｏｎＲｅｓｏｕｒｃｅｓ，ｃ．Ｌｉｂｒａｒｙ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７２，

Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＩｎｏｒｄｅｒｔｏｓｏｌｖｅｔｈｅｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｔｈｅｌａｔｅｎｔＤｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ（ＬＤＡ）ｍｏｄｅｌｒｅｓｕｌｔａｎｄｈｉｇｈｓｉｍｉｌａｒｉｔｙｏｆ

ｄｏｃｕｍｅｎｔｓｂｅｔｗｅｅｎｓｕｂｔｏｐｉｃｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎｅｗｍｅｔｈｏｄ（ｃａｌｌｅｄａｓＭＧＨＬＤＡ）ｂａｓｅｄｏｎＬＤＡｍｏｄｅｌａｎｄＨｏｗＮｅｔｓｅ

ｍａｎｔｉｃｄｉｃｔｉｏｎａｒｙｔｏｒｅａｌｉｚｅｍｕｌｔｉｇｒａｎｕｌａｒｉｔｙｓｕｂｔｏｐｉｃｄｉｖｉｓｉｏｎ．Ｆｉｒｓｔｌｙ

，ｔｈｅｍｅｔｈｏｄａｄｏｐｔｅｄｔｈｅＬＤＡｍｏｄｅｌｔｏｉｎｉｔｉａｌｌｙｄｉｖｉｄｅｔｈｅ

ｎｅｗｓｃｏｌｌｅｃｔｉｏｎｔｈａｔｃａｍｅｆｒｏｍｄｉｆｆｅｒｅｎｔｒｅｓｏｕｒｃｅｓａｎｄａｃｑｕｉｒｅｄｔｈｅｄｏｃｕｍｅｎｔｃｏｌｌｅｃｔｉｏｎｓｏｆｔｈｅｓａｍｅｔｏｐｉｃｓａｃｃｏｒｄｉｎｇｔｏｔｈｅ

ｃｏｎｔｒｉｂｕｔｉｏｎｄｅｇｒｅｅｏｆｔｈｅｄｏｃｕｍｅｎｔｓ．Ｓｅｃｏｎｄｌｙ

，ｉｔｏｂｔａｉｎｅｄｔｈｅｍｕｌｔｉｇｒａｎｕｌａｒｉｔｙｃｈａｒａｃｔｅｒｉｓｔｉｃｓｃｏｌｌｅｃｔｉｏｎｓｂａｓｅｄｏｎｔｈｅＴＦＩＤＦ

ｍｏｄｅｌａｎｄｒｅｐｒｅｓｅｎｔｅｄｔｈｅｎｅｗｓｄｏｃｕｍｅｎｔｓｗｉｔｈｔｈｅｋｅｙｗｏｒｄｓｃｈａｒａｃｔｅｒｉｓｔｉｃｓ．Ｏｗｎｉｎｇｔｏａｈｉｇｈｓｉｍｉｌａｒｉｔｙｔｈａｔｔｈｅｄｏｃｕｍｅｎｔｓｏｆ

ｔｈｅｓｕｂｔｏｐｉｃｓｈａｄ，ｔｈｅｍｅｔｈｏｄｉｎｔｒｏｄｕｃｅｄｔｈｅｃａｌｃｕｌａｔｉｏｎｍｅｔｈｏｄｏｆｔｈｅｗｏｒｄｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｙｄｅｇｒｅｅａｎｄａｄｏｐｔｅｄｔｈｅＨｏｗＮｅｔ

ｓｅｍａｎｔｉｃｄｉｃｔｉｏｎａｒｙｔｏｒｅａｌｉｚｅｔｈｅｃａｌｃｕｌａｔｉｏｎ．Ｆｉｎａｌｌｙ，ｔｈｅｍｅｔｈｏｄｒｅａｌｉｚｅｄｔｈｅｓｕｂｔｏｐｉｃｓｄｉｖｉｓｉｏｎｂｙｃｌｕｓｔｅｒｉｎｇｔｈｅｎｅｗｓｄｏｃｕ

ｍｅｎｔｓｗｉｔｈｔｈｅｓｉｎｇｌｅｐａｓｓｉｎｃｒｅｍｅｎｔａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ．Ｔｈｅｍｅｔｈｏｄｃａｎｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｔｈｅｈｏｔｎｅｗｓｓｕｂｔｏｐｉｃｓ

ｄｉｖｉｓｉｏｎｅｆｆｅｃｔｉｖｅｌｙｂｙｔｈｅｅｘｐｅｒｉｍｅｎｔｓｏｎｔｈｅｒｅａｌｎｅｗｓｄａｔａ．

Ｋｅｙｗｏｒｄｓ：ｎｅｗｓｒｅｐｏｒｔｓ；ｓｕｂｔｏｐｉｃｄｉｖｉｓｉｏｎ；ｍｕｌｔｉｇｒａｎｕｌａｒｉｔｙ；ｌａｔｅｎｔＤｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ（ＬＤＡ）ｍｏｄｅｌ；ｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉ

ｔｙｃａｌｃｕｌａｔｉｏｎ

　引言

目前，互联网快速发展带来的信息过载、缺乏结构性等问

题，使得人们很难在海量的信息中快速、准确地获取用户感兴

趣的新闻。如何将大量的新闻事件按照话题进行归类和组织，

以便能够自动地把相关话题的新闻信息汇总供人们浏览、查阅

已成为

Ｗｅｂ信息获取中一个重要的研究课题。话题检测与跟

踪（ｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｎｄｔｒａｃｋｉｎｇ，ＴＤＴ）技术就是在这种情况下应

运而生的，其致力于研究对来自不同新闻源的多语言新闻文本

进行有效的组织、搜索与结构化

［１］

。

本文综合考虑不同粒度的特征在表征文档时具有不同的

描述能力以及传统相似度计算方法缺乏语义性等问题，提出一

种基于

ＬＤＡ模型和ＨｏｗＮｅｔ词典的多粒度子话题划分方法

（ＭＧＨＬＤＡ）。该方法采用ＬＤＡ模型对不同新闻源的新闻集

合进行初划分，根据文档贡献度获得同话题下的文档集合。进

一步在

ＬＤＡ建模结果基础上，结合ＴＦＩＤＦ模型采用一定策略

获取多粒度粗细特征作为核心词特征集合来表征新闻文档，然

后采用ＨｏｗＮｅｔ分类体系中的“义原”树状层次结构计算核心

词特征（“概念”）间的语义相似度，最终获得同话题下新闻文

档之间的相似度，并采用

ｓｉｎｇｌｅｐａｓｓ聚类算法实现新闻话题多

粒度的划分。

　相关工作

针对新闻话题的子话题划分方法，相关学者已作了部分研

究

［２～７］

。文献［２］首次给出了在话题内进行事件检测与事件

关系发现的概念，使用ｃｏｓｉｎｅ余弦公式计算新闻间相似度，采

用层次聚类进行事件的检测。文献［３］通过在一个集中的时

间窗口内识别突然爆发的词元集合，并根据词元集合在话题内

进一步识别突发事件。文献［

４］提出多层次聚类的ＭＬＣＳ算

法对话题进行层次化聚类，首先将新闻集合分组聚成微类，再

第３２卷第６期

２０１５年６月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３２Ｎｏ６

Ｊｕｎ．２０１５

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38677044

粉丝: 15
资源: 920

多粒度子话题划分方法：LDA与HowNet结合的应用

利用LDA与HowNet提升热点新闻子话题划分精度

基于LDA模型的新闻话题分类研究

一种基于LDA主题模型的话题发现方法

基于LDA模型和类别关键词的弱监督文本分类方法的研究1

基于LDA模型和Doc2vec的学术摘要聚类方法_张卫卫.caj

一种基于LDA主题模型的话题发现方法_郭蓝天1

基于向量空间模型和LDA模型相结合的微博客话题发现算法研究

LDA模型驱动的新闻子话题划分策略

利用LDA模型挖掘微博用户兴趣：粗粒度划分方法

基于LDA模型和类别关键词的弱监督文本分类方法研究：KWC-LDA算法

最新资源