2016 年 5 月 Chinese Journal of Network and Information Security May 2016
00049-1
第 2 卷第 5 期
网络与信息安全学报
Vol.2
No.5
基于主题模型的微博话题检测算法
黄华军,谭骏珊,秦姣华
(中南林业科技大学计算机与信息工程学院,湖南 长沙 410004)
摘 要:微博数据的实时、大规模、短文本以及富含噪声等特征为话题检测带来新的挑战,传统向量空模型
(
VSM)表示文本无法很好地对其进行建模。基于此,提出一种基于主题模型的微博话题检测算法。首先,
对微博数据构建文档词条矩阵和词语夫联矩阵来提取主题词;然后,对主题词进行聚类,得到主题模型;最
后,利用文本与主题模型相互匹配实现文本聚类,从而达到话题检测的目的。实验结果表示,该算法能有效
地进行话题聚类并检测出话题,在最佳参数组合条件下,其各类别的平均 F 值达到 95%以上。
关键词:话题检测;主题模型;文档词条矩阵;词语夫联矩阵
中图分类号:TP391
文献标识码:A
doi: 10.11959/j.issn.2096-109x.2016.00049
Micro-blog topic detection algorithm based on topic model
HUANG Hua-jun, TAN Jun-shan, QIN Jiao-hua
(College of Computer and Information Engineering, Central South University of Forestry & Technology, Changsha 410004, China)
Abstract: Micro-blog data has the characteristic of real-time, volume, short-text, and noise-rich. So it is a challenge
for the traditional topic detection technology. A novel micro-blog topic detection algorithm based on topic model
was proposed. Firstly, the micro-blog data was expressed as text word matrix and word relation matrix. The topic
word was extracted from the two vectors. Secondly, the topic model was obtained with clustering. Finally, the topic
detection of micro-blog was obtained by clustering text and topic model. Experimental results show that the algo-
rithm proposed can effectively detection the text topic, and with the best parameter group of precision, recall rate, F,
and the value F is about 95%.
Key words: topic detection, topic model, text word matrix, word relation matrix
1 引言
在 Web 2.0 时代,以微博为典型代表的社交
网络应用取代传统媒介,占据了信息传播的主导
位置。微博门槛低、易使用、方便快捷等特点,
吸引一大批网民用户,使其产生的网络在线数据
呈爆炸性趋势增长
[1]
。一条信息通过微博平台能
够在短时间传播并影响到数百万的用户。相比传
统媒体,微博在信息传播过程中的传播时效与传
播广度都大大的增强。与此同时,一些虚假信息
通过社交网络平台的传播也能在短时间造成社会
恐慌、用户财产损失等问题。社会上许多突发性
收稿日期:2016-04-13;修回日期:2016-05-06。通信作者:黄华军,hhj0906@163.com
基金项目:国家自然科学基金资助项目(No.61304208);湖南省自然科学基金资助项目(No.13JJ2031);
大学青年科学研究基金资助项目(No.QJ2012009A)
Foundation Items: The National Natural Science Foundation of China (No.61304208), The
Natural Science Foundation of
Hunan Province (No.13JJ2031),Youth Scientific Re
search Foundation of Central South University of Forestry &Technology
(No.QJ2012009A)