lournal of Computer Applications
计算机应用,
2014
,
34(8):2332
→
2335
ISSN 1001-9081
CODENJY
Il
DU
2014-08-10
http://
飞川守
joca.
cn
文章编号
:1001-9081(2014)08-2332-04
doi: 10.
11772/j.
issn. 1001-908
1.
2014. 08. 2332
基于主题树的微博突发话题检测
邱云飞郭弥纶
I\
邵良杉
2
(
1
辽宁工程技术大学软件学院,辽宁葫芦岛
125100;
2
辽宁工程技术大学系统工程研究所,辽宁葫芦岛
125100)
(
*通信作者电子邮箱
milunl224@
163.
com)
摘
要:针对传统话题检测方法不能很好处理微博中用语不规范、随意性强、指代不明确以及存在大量网络用语
的问题,提出了一种基于潜在狄利克雷分配
(LDA)
模型的主题树检测方法。首先,运用自然语言处理
(NLP)
中增大信
息娟的方法将相关微博整理成一棵主题树,配合狄利克雷先验
α
与经验值
β
随主题数目动态变化的设计思想,结合
该模型独特的双重概率统计模式,实现了对文本中每个词"贡献皮"的统计,提前处理掉干扰信息,排除垃圾数据对话
题检测的影响;然后,利用该"贡献皮"作为空间向量模型
(VSM)
改进后的参数值计算文档问相似度来提取突发话题,
达到提高突发话题检测精准度的目的。提出的基于
LDA
模型的主题树检测方法从
F
值比对与人工检测两个角度进
行了相关实验,实验数据显示该算法不仅可以检测到突发话题,而且获得的结果与知网模型和
TF-IDF
算法相比分别
高出
3%
、
7%
,且更符合人的判断逻辑。
关键词:潜在狄利克雷分配;主题树;语义相似度;空间向量模型;话题检测
中图分类号:
T
P3
91;
TP18
文献标志码
:A
Microblog bursty topic detection based on topic tree
QIU
Yunfei
1
,
GUO
Milun
1
事
,
SHAO
Liangshan
2
(1. School
01
S~
向
vare
,
Liaoning Technical University, Huludao
Li
α
oning
125100
, China;
2.
System Engineenng
li
旧
t!
tu
胆
,
Liaoning
乃
chnical
University, Huludao
Li
ω
ning
125100
,
Chin
α)
Abstract:
A kind of topic tree detection method based
on
Latent Dirichlet Allocation (LDA) model
was
put forward, in
order to solve the problems of nonstandard
te
口
ns
,
randomness, uncertainty of reference and large number of network terms in
microblog texts
, which can not be solved in traditional detection method. Relevant microblogs were reorganized into a topic
tree
by
increasing information entropy in Natural Language Processing (NLP) , combining with the design idea that Dirichelet
prior experience value
αand
experience value
βvary
with the topic number, then the contribution statistics of every
word
in
the text
was
achieved using the specific dual probability statistical method of this model. Thus, the interference information
would be disposed in advance and the influence of garbage data on topic detection was excluded. Using this contribution as the
parameter value of the improved Vector Space Model (VSM)
, bursty topics were extracted through calculating the similarity
between texts
, in order
to
improve the detection precision of bursty topics. Experiments of the proposed detection method were
made
from
two
aspects:
comp
缸
ison
of the value of F and the manual detection. The experimental data show that, this
algorithm not only can detect the bursty topics
, but also can improve the precision about
3%
and
7%
respectively compared
with the HowNet model and the TF-IDF
(Term
Frequency-Inverse Document Frequency) algorithm, and it is more in
accordance with human's logic judgments than the traditional ones.
Key
words:
Latent Dirichlet Allocation
(LDA);
topic tree; semantic similarity; Vector Space Model
(VSM);
topic
detection
。
引言
微博,即微博客的简称,其在博客的基础上加以改进,使
得微博更加大众化、随意化和简短化
[1]
但随之也带来了许
多问题:首先,微博的普遍化导致当今微博的草根化(短文本
中出现了较多的文法问题)
;其次,微博改进后的简短形式导
致短文本中指代省略,引起指代不明确(短文本回帖多数只
有十几个字,省去了主帖指代的问题)
;再次,今日网络用语
使用广泛(例如:神马臼什么,童鞋
z
同学等问题)使得文本
检测又增加了一定难度。
对微博中的话题,用户可以点击感兴趣的话题浏览相关
内容,若用户想更深入了解话题相关内容和话题的起因与经
过以及事件相关描述则需要大量浏览话题下其他用户发表的
信息,且未必能够了解到完整信息。这样不仅浪费了大量时
间和精力而且还没有达到很好的效果,因此微博中的话题提
取便成为一项很重要的工作。由于微博的简短化所产生的信
息数据稀疏性、微博普遍化所产生的文字表述口语性、微博通
用化产生的垃圾信息等问题使得对微博话题的挖掘变得更加
收稿日期
:2014-02-17
;修回日期
:2014-04-24
0
基金项目:国家自然科学基金资助项目
(70971059)
;辽宁省创新团队项目(
2009
T0
45
) ;
辽宁省高等学校杰出青年学者成长计划项目
(IJQ2012027
)。
作者简介:邱云飞(1
976
- )
,男(蒙古族),辽宁阜新人,教授,博士,
CCF
会员,主要研究方向:数据挖掘、话题检测;
郭弥纶
(1989-)
,男(满
族)
,辽宁阜新人,硕土研究生,主要研究方向:数据挖掘、话题检测;
邵良杉(1
961
一)
,男,辽宁阜新人,教授,博士,主要研究方向:数据挖掘。