微博热点话题检测：基于有意义串的聚类与降维

40 浏览量更新于2024-08-26 1 收藏 451KB PDF 举报

本文主要探讨了"基于有意义字符串聚类的微博热点话题检测方法"。在微博数据处理中，由于其特征稀疏性和内容碎片化的特性，传统的分析方法往往难以有效地捕捉到热点话题。作者针对这一问题，提出了一个创新的解决方案。该方法首先认识到在微博文本中，存在一些重复的、具有独立完整语义的"有意义串"，这些串可能是关键词、短语或句子，它们能代表话题的核心内容。为了提取这些有意义串，研究者采用了一系列策略，如重复串计算，通过识别频繁出现的串来确定主题；上下文邻接分析，考虑词语之间的语境关系，增强串的代表性；以及语言规则过滤，通过语法和语义规则剔除无关信息，确保候选串的准确性。微博数据被建模在有意义串的空间中，这个空间相对较小且更具结构化，相比于原始的高维稀疏数据，有助于降低维度并提高聚类效率。接着，通过聚类算法对有意义串进行分组，形成候选话题集。这些话题的热度是通过用户对相关微博的点赞、转发、评论等行为来度量的，热度高的话题被认为更可能是当前的热点。实验结果显示，这种方法在微博高维稀疏数据的处理上表现出了良好的效果，成功地降低了数据维度，显著提高了热点话题检测的准确性和效率。这对于社交媒体监控、舆情分析等领域具有实际应用价值，特别是在新闻传播、市场营销和政策监控中，能够帮助决策者快速识别和响应热点事件。总结来说，这篇论文提供了一种有效的方法来应对微博数据中的挑战，通过有意义串的聚类，不仅解决了数据稀疏性的问题，还实现了热点话题的有效发现，为后续的研究和实际应用开辟了新的思路。

2013 年 8 月 Journal on Communications August 2013

第 34 卷第 Z1 期通信学报 Vol.34

No. Z1

基于有意义串聚类的微博热点话题发现方法

贺敏

1,2

，王丽宏

，杜攀

，张瑾

，程学旗

（1. 中国科学院计算技术研究所，北京 100080；2. 国家计算机网络应急技术处理协调中心，北京 100029）

摘要：针对微博数据特征稀疏、内容碎片化的特点，提出一种基于有意义串聚类的热点话题发现方法。结合重

复串计算、上下文邻接分析和语言规则过滤多种策略，提取能够表达独立完整语义的有意义串，并将微博数据建

模在相对较小的有意义串空间，通过聚类产生候选话题，根据热度排序发现热点话题。微博数据实验结果表明，

该方法在一定程度上实现对微博高维稀疏空间的降维，对于微博空间的热点话题发现有效可行。

关键词：热点话题；微博；有意义串；特征聚类

中图分类号：TP391 文献标识码：A 文章编号：1000-436X(2013)Z1

Microblog hot topic detection method

based on meaningful string clustering

HE Min

1,2

, WANG Li-hong

, DU Pan

, ZHANG Jin

, CHENG Xue-qi

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China;

2.National Computer network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)

Abstract: Aiming at the properties of sparse feature, content fragmentation for microblog data, a hot topic detection

method is proposed based on meaningful string clustering. The multiple strategies including repeated string detection,

context analysis, language rule filtering are combined to extract meaningful strings.Candidate topics are generated by

clustering with distribution of meaningful strings in documents. The hot topics are detected according to hotness sorting

for candidate topics. As is shown from the experiment results on microblog data, the method achieves good effect in

solving the problem of data sparseness. It is effective and feasible to hot topic detection for microblog.

Key words: hot topic; microblog; meaningful string; feature clustering

1 引言

微博是近年来兴起的 Web2.0 新媒体。用户可

以通过手机、即时通信工具、Email、Web 等媒介

在个人微博上发布 140 字以内的文本信息及图片、

影音等多媒体内容，展现个人最新动态，实时分享

身边信息。微博用户数量大，信息传播速度快，已

经成为信息产生、发展、传播的重要平台。

微博平台上每天产生的信息数量庞大，据统

计，新浪微博 2012 年 11 月日均发微博量约 1.366

亿条，平均每分钟约 94 907 条。微博在为用户带来

新鲜及时且丰富繁杂的信息的同时，也带来了严重

的信息过载和信息碎片问题。而面向微博数据的话

题发现技术，能够从话题粒度上重新组织微博数

据，成为解决上述问题的关键技术之一。及时、准

确的发现热点话题，能够帮助个人了解社会热点和

重要资讯，辅助国家发现网络舆情事件和舆论趋

势，在舆情监控、信息安全等领域具有重要的现实

意义。

但微博数据具有内容短小、数据巨大、信息零

碎、用语不规范等不同于传统新闻文档的显著特

点，这些新特点为面向微博的热点话题发现技术带

来了新的挑战。

1) 数据高维稀疏导致内容关系难以准确计算。

收稿日期：

基金项目：国家科技支撑课题(2012BAH46B01)；自然科学基金课题(61170230)资助项目

Foundation Items: The national science and technology support project(2012BAH46B01);National Natural Science Foundation

of China(61170230)

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38567813

粉丝: 4
资源: 913

微博热点话题检测：基于有意义串的聚类与降维

基于有意义串聚类的微博热点话题发现方法

基于突发词聚类的微博突发事件检测方法

基于离散粒子群算法的微博热点话题检测算法

基于SVM过滤的微博新闻话题检测方法

人工智能-项目实践-聚类-利用微博热点话题舆情聚类分析.zip

基于谱聚类的微博情感分析方法

python爬虫微博热点话题舆情聚类分析

微博热点话题发现：基于有意义串聚类的新方法

中文微博热点话题检测：孤立点预处理与Single-Pass聚类结合

微博热点话题发现：基于LSA的聚类方法

最新资源