微博大数据的话题挖掘：Social Network LDA模型

需积分: 9 23 浏览量更新于2024-09-04 收藏 563KB PDF 举报

"一种面向大规模微博数据的话题挖掘方法，利用Bloom Filter去重处理，结合微博特性进行文本预处理，提出Social Network LDA (SNLDA)主题模型，并通过吉布斯采样法进行模型推导，有效挖掘微博话题。该方法在海量微博数据中筛选有价值信息，对于行业调研和舆情监管具有重要意义。" 微博作为一种社交媒体，已经成为信息传播的主要渠道，其用户基数庞大，信息更新迅速，涵盖的主题广泛。然而，海量的数据中也包含了大量重复和无用信息，因此，如何从这些数据中挖掘出有价值的话题成为了一个关键问题。本文针对这一挑战，提出了一种适用于大规模微博数据的话题挖掘方法。首先，文章介绍了数据预处理阶段，采用Bloom Filter算法来去除重复的微博信息，这是一种高效且节省存储空间的数据结构，能够有效地检查元素是否存在，而不会引入假阳性错误。这一步骤对于处理大规模数据至关重要，因为它可以显著减少后续处理的负担。接着，考虑到微博文本的特殊性，如短文本、含有URL链接、用户提及和话题标签等，文章提出了预处理策略，旨在提取文本的核心信息，去除噪声。预处理通常包括词干提取、停用词过滤、特殊字符去除等步骤，以提高话题识别的准确性。然后，文章提出了一种改进的LDA主题模型——Social Network LDA (SNLDA)。传统的LDA模型假设文档主题分布是独立的，但SNLDA考虑了用户之间的社会关系，将社交网络结构纳入模型，使得话题挖掘不仅基于文本内容，还考虑了用户间的关系影响。这样，话题的挖掘更具有社交语境的关联性。为了推导SNLDA模型，文章采用了吉布斯采样法，这是一种马尔可夫链蒙特卡洛(MCMC)方法，用于从复杂的概率分布中抽样。通过迭代过程，吉布斯采样逐步更新模型参数，以达到稳定状态，从而得到每个文档的主题分布。实验结果显示，该方法在大规模微博数据集上表现优秀，能够有效地挖掘出话题信息。这对于舆情分析、市场趋势预测以及社会事件的跟踪都具有实际应用价值。同时，由于微博数据的实时性和动态性，这种方法也有潜力适应不断变化的网络环境，持续追踪和分析热点话题。该研究为处理和理解社交媒体数据提供了一种有效的方法，对于提升信息提取的效率和准确性，以及更好地理解和利用社交媒体平台上的海量信息，具有深远的影响。

C omputer Engineering and Applications 计算机工程与应用

2014，50（22）

1 引言

近年来社交网站在国内外得到迅猛发展，微博逐渐

融入人们的日常生活，微博作为信息发布和传播的平

台，得到越来越多机构的关注。与传统新闻媒体相比，

微博的信息提供者更广泛，更新速度和传播速度更快，

内容涵盖主题更加宽泛。微博话题发现对行业调研、舆

情监管都有十分重要的作用，这使得微博话题的挖掘成

为当前的一个研究热点。

据新浪公开数据，截至 2012 年底，新浪微博注册用

户数就已达到 5 亿以上，2013 年第四季度微博日均活跃

用户为 6 140 万。在庞大的微博用户中存在一定数量的

“网络水军”使微博数据充斥着一些重复的垃圾数据，从

海量的微博信息中挖掘出有效的话题信息显得尤为重要。

2 相关工作

2.1 传统的话题挖掘模型

早期的话题挖掘方法使用的是向量空间模型（Vector

Space Model，VSM）由 Salton

[1]

等人在 20 世纪 70 年代提

一种面向大规模微博数据的话题挖掘方法

王文帅

1，2

，杜然

1，2

，程耀东

，陈刚

WANG Wenshuai

1，2

, DU Ran

1，2

, CHENG Yaodong

, CHEN Gang

1.中国科学院高能物理研究所计算中心，北京 100049

2.中国科学院大学，北京 1 00049

1.Computing Center，Institute of High En ergy Physics, Chinese Academy of Sciences, Beijing 100049, China

2.University of Chinese Academy of Sciences, Beijin g 100049, China

WANG Wenshuai, DU Ran, CHENG Yaodong, e t al. Topic mining method on massive microblog data. Compu ter

Eng ineering and Applicat ions, 201 4, 50（22）：32-37.

Abstract：With the dai ly popula rity of microblog, Sina Weibo has become one o f the important public access to and dis-

semination of information platform, microblog topic mining has be come a current research focuses. This paper proposes a

topic mining method on massive Social Network data. This paper analyzes the large-scale microblog data, uses Bloom

Filter algori thm to eliminate the duplicate data. In view of the special structure of microblog, filter the text. SNLDA, an

improved LDA topic model is proposed i n this paper, Gibbs sampling is chosen to deduce the model, which can mine t he

microblog topics. The experimental results show that the method can effectively ex cavate the t opics from the large-scal e

microblog data.

Key words：microblog; Bloom Filter; Social Network LDA（SNLDA）; topic min ing

摘要：随着微博的日趋流行，新浪微博已成为公众获取和传播信息的重要平台之一，针对微博数据的话题挖掘也

成为当前的研究热点。提出一个面向大规模微博数据的话题挖掘方法。首先对大规模微博数据进行分析，基于

Bloom Filter 算法对数据进行去重处理，针对微博的特有结构，对文本进行预处理，提出改进的 LDA 主题模型 So-

cial Network LDA（SNLDA），采用吉布斯采样法进行模型推导，挖掘出微博话题。实验结果表明，方法能有效地从

大规模微博数据中挖掘出话题信息。

关键词：微博；Bloom Filter；社会网络主题模型分析（SNLDA）；话题挖掘

文献标志码：A 中图分类号：TP393 doi：10.37 78/j.issn.1002-8331.1404-0042

基金项目：国家自然科学基金（No.11205179，No.11305196）；国家高技术研究发展计划（863）（No.2014AA015205）。

作者简介：王文帅（1982—），男，博士研究生，工程师，研究领域为数据挖掘,数据库技术；杜然，女，博士研究生；程耀东，男，博士，

副研究员；陈刚（1961—），男，博士，研究员，博士生导师。E-mail：wangws @ihep.ac.cn

收稿日期：2014-04-03 修回日期：2014-05-21 文章编号：1002-8331（2014）22-0032-06

CNKI 网络优先出版：2014-06-26, http://www.cnki.net/kcms/doi /10.3778/j.issn.1002- 8331.1404-0042.html

下载后可阅读完整内容，剩余5页未读，立即下载

sinat_34886114

粉丝: 0
资源: 2

微博大数据的话题挖掘：Social Network LDA模型

C#实现大规模数据处理的网格技术

数据仓库与数据挖掘技术探讨

空间数据挖掘技术：挑战与未来趋势

一种面向分布式数据流的闭频繁模式挖掘方法.pdf

大数据及数据挖掘方法.pdf

面向RFID海量数据的数据挖掘研究.pdf

面向大数据的高维数据挖掘研究.pdf

人工智能-数据分析-面向侦查的快递数据分析挖掘系统.pdf

面向大规模数据库的数据挖掘系统的设计.pdf

面向数据特征的分布式数据挖掘研究.pdf

最新资源