第30卷第9期
2013年9月
计算机应用研究
Application
Research
of
Computers
VoI.30
No.9
Sep.2013
基于SVM的微博转发规模预测方法木
李英乐+,于洪涛,刘力雄
(国家数字交换系统工程技术研究中心,郑州450002)
摘要:为了评价微博的传播效果,在分析影响用户转发行为因素的基础上,提出了采用用户影响力、用户活跃
度、兴趣相似度、微博内容重要性和用户亲密程度五项特征进行转发行为预测的SVM算法,以及基于该算法的
转发规模预测算法。最后给出了传播规模预测的评价方法。针对新浪微博用户数据的实验表明,预测精度达到
了86.63%。
关键词:微博;转发行为;转发规模
中图分类号:TP391
文献标志码:A
文章编号:1001.3695(2013)09.2594.04
doi:10.3969/j.issn.1001-3695.2013.09.008
Predict
algorithm
of
micro—blog
retweet
scale
based
on
SVM
LI
Ying—le’,YU
Hong.tao,LIU
Li—xiong
(National
Digital
Switching
Systern
Engineering&Technological
R&D
Center,Zhengzhou450002,China)
Abstract:Based
on
the
analysis
of
the
factors
that affect
retweet
behavior,this
paper
proposed
a
predict
SVM
algorithm
with
five
features:user
influence,user
activity,interest
similarity,the
importance
of
micro—blog
content
and
users
closeness.Fur-
thermore,it
proposed
the
predict
algorithm
of
retweet
scale
on
the
basis
of
SVM,also,gave
a
method
to
evaluate
the
predict
accuracy.The
experiment
with Sina
micro-blog
data
shows
a
good
result that
the
predict
accuracy
is
up
to
86.63%.
Key
words:micro-blog;retweet
behavior;retweet
scale
0
引言
微博(micro-blog)是一种基于用户关系的信息分享、传播
以及获取平台,用户可以通过Web、手机等客户端组建个人社
区,发布140个字左右的文字信息,实现即时分享。2006年3
月,互联网上出现了首个微博网站Twitter。微博的原创性、时
效性、草根性、随意性、碎片性等特点给互联网带来了一种全新
的社交方式,微博网站及其注册用户的数量呈现出爆炸式的增
长。根据中国互联网络信息中心(CNNIC)发布的报告显示,截
止到2011年6月底,中国微博用户数量已经从年初的6
311万
增加到1.95亿,半年增幅高达208.9%,网民的使用率也从
13.8%增至40.2%…。作为一种新兴的社会媒体,微博不仅
是个人自我表达、人际交流的工具,还Et渐发展成为政府、企
业、组织用于信息发布、公关营销的手段。
从根本上说,微博仍然是一种传播媒体,最终目的都是向
外界传递消息,获得最大的传播效果。而作为新兴的社会媒
体,与传统媒体相比又有许多独特的性质。因此,研究如何在
新媒体环境下,利用微博进行有效、高效的传播信息显得尤为
必要。传播效果是传播学的一个概念,它是指传播活动尤其是
报刊、广播、电视等大众传播媒介的活动对受传者和社会所产
生的一切影响和结果的总体悼J。传播效果是一个抽象、定性
的概念,目前尚没有一个公认的统一的标准来评价传播效果。
不同的媒体采用不同的指标来评价其传播效果,如报纸用发行
量、电视节目用收视率、电影用票房等。微博是通过转发行为
实现了消息的持续传播,转发规模可以作为传播效果的一个重
要指标。因此,分析用户的转发行为是预测转发规模的重要
途径。
目前,对于社交网络中用户行为研究已经有了一定进展。
清华大学的Tan等人¨1提出了一种N,I-I’一FGM(noise
tolerant
time-varying
factor
graph
model)来模拟和预测社交网络中用户
行为。该模型定义了行为偏好因子、朋友影响因子和自相关因
子,分别计算这三者对用户行为的影响概率,将预测问题转换
为一个条件概率问题来求解。张饧等人H
o针对Twitter用户的
转发行为提出了一种基于特征加权的预测模型。该模型将
Twitter数据标记为转发和非转发两类,然后提取了11个用户
特征和11个文本特征,并按重要性进行加权,最后通过SVM
来训练得到预测模型。该模型在预测转发行为的总体命中率
达到了85.9%。另外还通过信息增益方法对各个特征进行了
重要性排名,“用户粉丝数”和“用户被提及数”居于前列,并得
出用户特征和文本特征几乎同等重要的结论。加州大学洛杉
矶分校的Bandari等人¨1提出了一种算法来预测新闻能否在
Twitter上流行,或者在社交网站上引发热烈讨论。该算法仅仅
根据文章的内容就能推断出文章被分享到Twitter后获得多少
点击和转发。文中提出四个特征,即文章类别、客观程度、提及
的人物和地名、文章来源,通过回归算法得到这四个特征与转
发量之间的关系式。在预测时,文中将流行度按照转发量分为
三个档次,即1~20次为低流行度、20~100次为中流行度、
100—2
400次为高流行度,对这三个档次的预测准确度达到
了84%。
收稿日期:2012—12—20;修回日期:2013—02—15
基金项目:国家“863”计划资助项目(201lAA010603)
作者简介:李英乐(1985一),男(通信作者),硕士研究生,主要研究方向为通信与信息系统(1y17225@163.eom);于洪涛(1970一),男,教授,主要
研究方向为通信与信.g-系统;刘力雄(1974一),男,副教授,主要研究方向为通信与信息系统.
万方数据