2013 年 8 月 Journal on Communications August 2013
第 34 卷第 Z1 期 通 信 学 报 Vol.34
No. Z1
基于有意义串聚类的微博热点话题发现方法
贺敏
1,2
,王丽宏
2
,杜攀
1
,张瑾
1
,程学旗
1
(1. 中国科学院计算技术研究所,北京 100080;2. 国家计算机网络应急技术处理协调中心,北京 100029)
摘 要:针对微博数据特征稀疏、内容碎片化的特点,提出一种基于有意义串聚类的热点话题发现方法。结合重
复串计算、上下文邻接分析和语言规则过滤多种策略,提取能够表达独立完整语义的有意义串,并将微博数据建
模在相对较小的有意义串空间,通过聚类产生候选话题,根据热度排序发现热点话题。微博数据实验结果表明,
该方法在一定程度上实现对微博高维稀疏空间的降维,对于微博空间的热点话题发现有效可行。
关键词:热点话题;微博;有意义串;特征聚类
中图分类号:TP391 文献标识码:A 文章编号:1000-436X(2013)Z1
Microblog hot topic detection method
based on meaningful string clustering
HE Min
1,2
, WANG Li-hong
2
, DU Pan
1
, ZHANG Jin
1
, CHENG Xue-qi
1
(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China;
2.National Computer network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)
Abstract: Aiming at the properties of sparse feature, content fragmentation for microblog data, a hot topic detection
method is proposed based on meaningful string clustering. The multiple strategies including repeated string detection,
context analysis, language rule filtering are combined to extract meaningful strings.Candidate topics are generated by
clustering with distribution of meaningful strings in documents. The hot topics are detected according to hotness sorting
for candidate topics. As is shown from the experiment results on microblog data, the method achieves good effect in
solving the problem of data sparseness. It is effective and feasible to hot topic detection for microblog.
Key words: hot topic; microblog; meaningful string; feature clustering
1 引言
微博是近年来兴起的 Web2.0 新媒体。用户可
以通过手机、即时通信工具、Email、Web 等媒介
在个人微博上发布 140 字以内的文本信息及图片、
影音等多媒体内容,展现个人最新动态,实时分享
身边信息。微博用户数量大,信息传播速度快,已
经成为信息产生、发展、传播的重要平台。
微博平台上每天产生的信息数量庞大,据统
计,新浪微博 2012 年 11 月日均发微博量约 1.366
亿条,平均每分钟约 94 907 条。微博在为用户带来
新鲜及时且丰富繁杂的信息的同时,也带来了严重
的信息过载和信息碎片问题。而面向微博数据的话
题发现技术,能够从话题粒度上重新组织微博数
据,成为解决上述问题的关键技术之一。及时、准
确的发现热点话题,能够帮助个人了解社会热点和
重要资讯,辅助国家发现网络舆情事件和舆论趋
势,在舆情监控、信息安全等领域具有重要的现实
意义。
但微博数据具有内容短小、数据巨大、信息零
碎、用语不规范等不同于传统新闻文档的显著特
点,这些新特点为面向微博的热点话题发现技术带
来了新的挑战。
1) 数据高维稀疏导致内容关系难以准确计算。
收稿日期:
基金项目:国家科技支撑课题(2012BAH46B01);自然科学基金课题(61170230)资助项目
Foundation Items: The national science and technology support project(2012BAH46B01);National Natural Science Foundation
of China(61170230)