LDA主题树提升微博突发话题检测精准度

需积分: 9 59 浏览量更新于2024-08-12 收藏 341KB PDF 举报

本文主要探讨了"基于主题树的微博突发话题检测"这一领域的研究，发表于2014年的《计算机应用》期刊。论文针对传统话题检测方法在处理微博数据时遇到的挑战，如用语不规范、表达随意、指代模糊以及网络用语的大量存在，提出了创新性的解决方案。该研究的核心是利用潜在狄利克雷分配(LDA)模型构建主题树，这是一种自然语言处理(NLP)技术的应用。首先，通过增大信息熵的方法，作者将相关的微博内容组织成一个主题树结构。在这个过程中，他们引入了狄利克雷先验α和经验值β的动态调整策略，这有助于适应微博文本中主题数量的变化，并且结合了LDA模型的双重概率统计模式，有效地量化了每个词在文本中的“贡献度”。这个步骤有助于剔除无关信息和垃圾数据，确保话题检测的准确性。接着，作者将这些词的“贡献度”作为改进后的空间向量模型(VSM)参数，用来计算文档间的相似度，从而有效地提取突发话题。这种方法的优势在于能够提高话题检测的精度，使得算法能够识别出真正的突发话题，而不是被噪声或非相关话题所混淆。为了验证这种方法的有效性，论文进行了实验，对比了F值比对和人工检测的结果。实验结果显示，基于LDA模型的主题树检测法在检测突发话题的性能上，相较于知网模型和TF-IDF算法分别提高了3%和7%，并且其结果更符合人类的判断逻辑。这表明该方法在实际应用中具有显著的优势，对于实时监控和分析微博中的话题热点具有重要的实践价值。这篇论文不仅提供了一种新颖的微博突发话题检测方法，也为处理社交媒体数据中的复杂性和不规则性提供了一种有效的策略，对自然语言处理和信息检索领域具有重要的学术价值。

lournal of Computer Applications

计算机应用，

2014

，

34(8):2332

→

2335

ISSN 1001-9081

CODENJY

2014-08-10

http://

飞川守

joca.

文章编号

:1001-9081(2014)08-2332-04

doi: 10.

11772/j.

issn. 1001-908

2014. 08. 2332

基于主题树的微博突发话题检测

邱云飞郭弥纶

邵良杉

(

辽宁工程技术大学软件学院，辽宁葫芦岛

125100;

辽宁工程技术大学系统工程研究所，辽宁葫芦岛

125100)

(

*通信作者电子邮箱

milunl224@

163.

com)

摘

要:针对传统话题检测方法不能很好处理微博中用语不规范、随意性强、指代不明确以及存在大量网络用语

的问题，提出了一种基于潜在狄利克雷分配

(LDA)

模型的主题树检测方法。首先，运用自然语言处理

(NLP)

中增大信

息娟的方法将相关微博整理成一棵主题树，配合狄利克雷先验

与经验值

随主题数目动态变化的设计思想，结合

该模型独特的双重概率统计模式，实现了对文本中每个词"贡献皮"的统计，提前处理掉干扰信息，排除垃圾数据对话

题检测的影响;然后，利用该"贡献皮"作为空间向量模型

(VSM)

改进后的参数值计算文档问相似度来提取突发话题，

达到提高突发话题检测精准度的目的。提出的基于

LDA

模型的主题树检测方法从

值比对与人工检测两个角度进

行了相关实验，实验数据显示该算法不仅可以检测到突发话题，而且获得的结果与知网模型和

TF-IDF

算法相比分别

高出

、

，且更符合人的判断逻辑。

关键词:潜在狄利克雷分配;主题树;语义相似度;空间向量模型;话题检测

中图分类号:

91;

TP18

文献标志码

Microblog bursty topic detection based on topic tree

QIU

Yunfei

GUO

Milun

事

，

SHAO

Liangshan

(1. School

向

vare

，

Liaoning Technical University, Huludao

oning

125100

, China;

System Engineenng

旧

胆

，

Liaoning

乃

chnical

University, Huludao

ning

125100

Chin

α)

Abstract:

A kind of topic tree detection method based

Latent Dirichlet Allocation (LDA) model

was

put forward, in

order to solve the problems of nonstandard

口

，

randomness, uncertainty of reference and large number of network terms in

microblog texts

, which can not be solved in traditional detection method. Relevant microblogs were reorganized into a topic

tree

increasing information entropy in Natural Language Processing (NLP) , combining with the design idea that Dirichelet

prior experience value

αand

experience value

βvary

with the topic number, then the contribution statistics of every

word

the text

was

achieved using the specific dual probability statistical method of this model. Thus, the interference information

would be disposed in advance and the influence of garbage data on topic detection was excluded. Using this contribution as the

parameter value of the improved Vector Space Model (VSM)

, bursty topics were extracted through calculating the similarity

between texts

, in order

improve the detection precision of bursty topics. Experiments of the proposed detection method were

made

from

two

aspects:

comp

缸

ison

of the value of F and the manual detection. The experimental data show that, this

algorithm not only can detect the bursty topics

, but also can improve the precision about

and

respectively compared

with the HowNet model and the TF-IDF

(Term

Frequency-Inverse Document Frequency) algorithm, and it is more in

accordance with human's logic judgments than the traditional ones.

Key

words:

Latent Dirichlet Allocation

(LDA);

topic tree; semantic similarity; Vector Space Model

(VSM);

topic

detection

。

引言

微博，即微博客的简称，其在博客的基础上加以改进，使

得微博更加大众化、随意化和简短化

[1]

但随之也带来了许

多问题:首先，微博的普遍化导致当今微博的草根化(短文本

中出现了较多的文法问题)

;其次，微博改进后的简短形式导

致短文本中指代省略，引起指代不明确(短文本回帖多数只

有十几个字，省去了主帖指代的问题)

;再次，今日网络用语

使用广泛(例如:神马臼什么，童鞋

同学等问题)使得文本

检测又增加了一定难度。

对微博中的话题，用户可以点击感兴趣的话题浏览相关

内容，若用户想更深入了解话题相关内容和话题的起因与经

过以及事件相关描述则需要大量浏览话题下其他用户发表的

信息，且未必能够了解到完整信息。这样不仅浪费了大量时

间和精力而且还没有达到很好的效果，因此微博中的话题提

取便成为一项很重要的工作。由于微博的简短化所产生的信

息数据稀疏性、微博普遍化所产生的文字表述口语性、微博通

用化产生的垃圾信息等问题使得对微博话题的挖掘变得更加

收稿日期

:2014-02-17

;修回日期

:2014-04-24

基金项目:国家自然科学基金资助项目

(70971059)

;辽宁省创新团队项目(

2009

) ;

辽宁省高等学校杰出青年学者成长计划项目

(IJQ2012027

)。

作者简介:邱云飞(1

976

- )

，男(蒙古族)，辽宁阜新人，教授，博士，

CCF

会员，主要研究方向:数据挖掘、话题检测;

郭弥纶

(1989-)

，男(满

族)

，辽宁阜新人，硕土研究生，主要研究方向:数据挖掘、话题检测;

邵良杉(1

961

一)

，男，辽宁阜新人，教授，博士，主要研究方向:数据挖掘。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38661650

粉丝: 7
资源: 928

LDA主题树提升微博突发话题检测精准度

基于时间序列分析的微博突发话题检测方法

基于风暴的实时微博突发事件检测系统

基于突发词聚类的微博突发事件检测方法

基于数据挖掘的微博突发事件检测的算法研究.pdf

基于机器学习的微博突发事件分析与谣言检测.zip

微博突发话题检测：时序分析与特征过滤

优化动量模型：微博突发话题检测的新方法

基于Storm的实时微博突发事件检测系统：K-Means与爆发特征融合

微博突发事件检测与信息传播模型研究

微博突发话题传播预测：用户与节点规模算法

最新资源