SVM过滤技术在微博新闻话题检测中的应用

138 浏览量更新于2024-08-29 1 收藏 372KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于SVM过滤的微博新闻话题检测方法是一种结合了支持向量机（SVM）和聚类算法的新型话题检测技术，旨在在海量的微博数据中有效地识别新闻话题。该方法首先将微博文本的特征抽象为SVM可以处理的向量形式，然后利用SVM进行预过滤，降低后续聚类过程的计算复杂性。同时，针对微博聚类中常见的长尾现象，即少量热门话题与大量低频话题并存的情况，研究者提出了一种基于高频词排序的改进单遍聚类策略，能够更好地检测到孤立点或异常数据。通过这种方法，实验结果显示，该检测方法在大规模微博数据中能高效地检测新闻话题，提高了话题检测的准确性和效率。" 文章中提到的话题检测是社交媒体分析中的重要任务，目标是自动发现和归类用户发布的相关内容，以揭示潜在的热点话题。传统的聚类方法可能在处理大量数据时面临计算效率低下的问题，尤其是在微博这样的社交媒体平台上，数据量庞大且更新迅速。因此，该研究引入SVM作为过滤手段，SVM具有优秀的分类能力，可以快速剔除非相关或者噪声信息，从而减少需要聚类的数据量。特征向量是机器学习中常用的表示方法，它将原始文本数据转化为数学向量，使得计算机能够理解和处理。在微博话题检测中，特征向量通常基于词频、TF-IDF（词频-逆文档频率）或其他文本表示模型构建，这些向量反映了文本的关键信息，有助于区分不同的新闻话题。 SVM是一种监督学习模型，尤其擅长处理小样本和高维数据。在本文中，SVM被用来过滤掉那些不包含新闻话题特征的微博，降低后续聚类算法的计算负担。通过训练SVM模型，可以识别出与新闻话题相关的特征，进一步提高话题检测的准确性。对于微博聚类的长尾现象，研究者提出了基于高频词排序的改进单遍聚类算法。这种算法考虑了微博中高频词汇的重要性，优先处理这些词汇，可以更有效地捕捉到热门话题，同时减少孤立点的影响。孤立点通常是那些与大部分数据点差异较大的样本，它们可能是噪音或者是新兴的、未被广泛讨论的新闻话题。实验结果证明，这种结合了SVM过滤和优化聚类策略的方法在海量微博数据中表现出色，能够有效检测新闻话题，对于实时监控社交媒体上的热点事件和趋势分析具有重要意义。这种方法为社交媒体数据分析提供了一种新的、高效的解决方案，有助于提升话题检测的效率和质量。

资源详情

资源推荐

2013 年 9 月 Journal on Communications September 2013

第 34 卷第 Z2 期

通信学报

Vol.34

No. Z2

基于 SVM 过滤的微博新闻话题检测方法

程俊霞

，李芝棠

1,2

，邹明光

，肖津

(1. 华中科技大学计算机学院，湖北武汉 430074；2. 下一代互联网接入系统国家工程实验室，湖北武汉 430074)

摘要：在基于聚类的话题检测方法上提出了一种基于 SVM 过滤的检测方法，该方法在聚类前将微博文本特征

抽象成用于输入向量机的向量，对微博文本进行过滤，降低了计算量。井针对微博聚类的长尾现象提出了基于高

频词排序的改进单遍聚类方法，能很好地检测孤立点的存在。实验表明，该方法在海量微博数据中能有效地检测

出新闻话题。

关键词：话题检测；特征向量；SVM

中图分类号：TP311.134.3 文献标识码：A 文章编号：1000-436X(2013)Z2-0074-05

Novel topic detection method for microblog based on SVM filtration

CHENG Jun-xia

, LI Zhi-tang

1,2

, ZOU Ming-guang

, XIAO Jin

(1. School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074, China;

2. National Engineering Laboratory for Next Gerneration Internet Access System, Wuhan 430074, China)

Abstract: A detection method based on SVM filtration was proposed. The method uses text feature as imported vectors

to filtrate microblog news, reducing the amount of calculation greatly. A single-pass clustering algorithm based on the

improvement of high-frequency words sorting was proposed, which can detect isolated points commendably. Experimen-

tal results show that the method can detect news topics from massive microblog data efficiently.

Key words: topic detecting; characteristic vector;SVM

1 引言

微博是近年来发展非常快且影响非常大的网络

全民媒体形式。自从2006年Twitter 在美国上线以来，

其注册用户已超过 10 亿

[1]

。以新浪微博、腾讯微博

为代表的国内微博平台也表现出了强大的发展势

头。用户可以通过网页、移动客户端、开放 API 等

各种途径随时随地记录生活见闻、表达个人观点、

关注好友状态，或者是了解最新时事等

[2]

。微博因其

全民参与的草根性使得微博信息具有实时性，即能

使突发新闻在微博上以很快的速度传播。同时也使

微博具有数据量大、新闻信息密度高的特征。

针对微博的实时性，对微博内容进行分析和

整合具有重要的实际意义，不仅可以帮助过滤无

效信息，提高内容质量、改善用户体验，更能起

到监测、观点挖掘、舆情控制等重要作用。另一

方面，微博是一个信息流量相当大的平台，而内

容格式又非常散乱、数据噪声较大，人工审视或

者基本的统计方法很难有效地从海量数据中提炼

出精确有用的信息，因此引入文本挖掘的方法对

信息进行去重、筛选、聚类非常必要

[3～5]

。突发事

件检测作为微博文本挖掘的一大方向，在国内外

都逐渐受到关注。

但目前针对微博话题的检测研究成果还比较

少，传统方法应用于微博时往往出现计算量过大，

准确率较低的现象。因此需要提出一种新的高效微

博新闻话题检测方法。

2 无效微博特征及过滤

据统计，仅新浪微博每天发布的微博数就达到

1.17 亿，但是大部分微博跟当天的热点话题无关，

在检测微博话题之前，要先区别有效微博和无效微

博。有效微博是指具有一定的新闻价值或者关注价

值的微博消息，内容比较正式，形式上与传统正式

收稿日期：2013-09-08

doi:10.3969/j.issn.1000-436x.2013.z2.015

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38538224

粉丝: 5
资源: 953

SVM过滤技术在微博新闻话题检测中的应用

基于SVM的微博转发规模预测方法1

基于SVM 的微博文本情感倾向性识别1

基于SVM的微博转发规模预测算法及其实验分析

基于SVM的微博情感分析系统设计与应用

基于SVM的中文微博情感分析研究

"基于测量的DDoS攻击检测方法及其效率

利用SVM解决异常检测问题的方法与实践

基于事件的相机角点检测方法的学习与性能比较

"基于随机森林技术的勒索软件检测方法

基于图神经网络的局部离群点检测方法（LUNAR）

基于贝叶斯+svm的微博爬虫的评论

如何通过svm对微博评论进行分类

基于SVM的时间序列异常检测的python代码

基于word2vec和svm模型的微博中文评论情感分析

基于ｓｖｍ的电能质量信号分类方法步骤

svm微博评论情感分类

matlab基于svm算法交通标志检测的代码

基于SVM的频谱感知检测过程的详细步骤

基于svm电池故障诊断

最新资源