收稿日期:20180725;修回日期:20180905 基金项目:重庆市教育委员会人文社会科学研究项目(17SKG144、18SKGH110);国家教
育部人文社科 青 年 基 金 资 助 项 目 (
16YJC860010);国 家 社 科 基 金 资 助 项 目 (17XXW004);2018年 重 庆 市 科 委 技 术 创 新 与 应 用 示 范 项 目
(cstc2018jscxmsybX0049)
作者简介:黄贤英(1967),女,重庆人,教授,硕导,主要研究方向为计算机应用等;阳安志(1993),男(通信作者),四川人,硕士研究生,主要
研究方向为在线社交网络、机器学习(pureyangcry@foxmail.com);刘小洋(1980),男,安徽人,副教授,硕导,博士(后),主要研究方向为社交网络、
信息传播与计算机应用等;刘广峰(1995),男,山东人,硕士研究生,主要研究方向为社交网络、机器学习等.
融合兴趣的微博用户相似度计算研究
黄贤英,阳安志
,刘小洋,刘广峰
(重庆理工大学 计算机科学与工程学院,重庆 400054)
摘 要:针对传统基于用户的博文内容和共同好友数在计算微博用户的相似度时存在潜在误差过大的问题、而
基于用户多源背景信息的相似度计算模型有计算复杂度高且忽略了用户的兴趣等问题,提出了一种结合用户兴
趣和背景信息的综合相似度计算方法(
BIBS)。首先从用户的标签中提取用户的兴趣,当用户的标签缺失时,通
过对用户关注关系网络中的重要用户聚类来间接获取用户的兴趣点,以此计算用户的兴趣相似度;其次根据用户
的性别、年龄和地点等背景属性计算用户的背景相似度,层次化地挖掘出最相似的用户;最后基于新浪微博的数据
进行实验分析。结果表明,与基于多源信息相似度的微博用户推荐算法(MISUR)相比,该方法在用时更少的情况
下,准确率、召回率和 F值分别提高了 8.1%、16.7%和 13.6%,证明了提出的 BIBS方法的有效性和准确性。
关键词:微博;兴趣;用户聚类;相似度计算
中图分类号:TP391 文献标志码:A 文章编号:10013695(2020)01014006605
doi:10.19734/j.issn.10013695.2018.07.0469
ResearchonsimilaritycomputationofMicrobloguserscombininguserinterests
HuangXianying,YangAnzhi
,LiuXiaoyang,LiuGuangfeng
(CollegeofComputerScience&Engineering,ChongqingUniversityofTechnology,Chongqing400054,China)
Abstract:ThetraditionalmethodofcalculatingthesimilarityoftheMicroblogusersbasedontheuser’sblogcontentandthe
numberofcommonfriendshastheproblemofexcessivepotentialerror
,andthesimilaritycalculationmodelbasedontheuser’s
multisourcebackgroundinformationhashighcomputationalcomplexityandignorestheuser’sinterestandotherissues.this
paperputforwardamethodtocalculatethecomprehensivesimilaritycombininguser’sinterestandbackgroundinformation
(BIBS).Themethodextractedtheuser’sinterestfromtheuser’stag.Whentheuser’stagwasmissing,itindirectlyob
tainedtheuser’sinterestbyclusteringtheimportantuser’sintheuser’sattentionnetwork,andcalculatedtheuser’sinterest
similarity.Thenitcalculatedthebackgroundsimilarityoftheuseraccordingtothebackgroundinformationsuchasthegender,
ageandlocationoftheuser,sothatithierarchicallyminedthemostsimilarusers.Experimentsandanalysisbasedonthedata
ofSinaMicroblogshowthatcomparedwithMISURalgorithmbasedonthesimilarityofmultisourceinformation,theproposed
methodcanimprovetheaccuracy,recallrateandFmeasureby8.1%,16.7% and13.6% respectivelywithlesstimeconsu
ming,whichprovestheeffectivenessandaccuracyoftheBIBSmethod.
Keywords:Microblog;interest;userclustering;similaritycalculation
0 引言
随着信息技术的进一步提高,在线社交网络得到快速的发
展,参与社交网络的用户也越来越多。据
CNNIC发布的第 41
次《中国互联网络发展状况统计报告》
[1]
显示,截至 2017年 12
月,微博用户超过 3.1亿,年增长率达到 16.4%,愈加庞大的
用户基数使得用户在微博中搜索信息、建立互动关系时,会因
信息过载的问题而困惑。如何帮助用户在大量的人群节点中
发现其兴趣点,这对于社交网络平台和用户都具有极其重要的
意义,解决这个问题的有效方法之一就是个性化推荐。传统推
荐领域的方法包括协同过滤推荐方法、基于内容的推荐方法和
混合推荐方法等
[2,3]
,这些方法在好友推荐、新闻推荐、音乐推
荐等方面有很多实际的应用。个性化推荐中一个很重要的研
究是相似度计算方法
[4]
,如用户相似度计算、物品相似度计算
等,它是为用户进行相关推荐的基础。大多数传统的推荐算法
是根据用户对项目的历史评分数据建立相应的用户兴趣模型,
以此计算用户的相似度,产生推荐结果。随着 Web2.0的快速
发展,国外的 Twitter、Facebook,国内的新浪微博等在线社交网
络的流行,促使传统推荐系统融合微博用户的背景信息和社会
行为信息为用户进行相关推荐。
近年来,在微博推荐领域,提出了很多新的用户相似度计
算方法,如徐志明等人
[5]
针对微博用户信息的特点,综合考虑
用户的背景信息、微博文本和社交信息等属性来计算用户的相
似度;文献[6,7]结合用户的性别、年龄及博文内容等信息,提
出了基于余弦距离的用户相似度综合计算方法;而姚彬修等
人
[8]
结合用户的博文内容、交互信息和共同粉丝数,提出了基
于多源信息相似度的微博用户推荐算法。这些方法都综合考
虑了用户的多方面信息来构建对应的特征向量,利用余弦距离
来挖掘相似用户。但由于微博的博文内容有最大长度的限制,
直接构建用户特征向量,利用余弦相似性不足以衡量微博用户
的相似性
[9]
,此外还会有潜在误差过大、计算复杂度高等问
题。He等人
[10]
根据博文的转发关系网络对用户进行聚类,发
第 37卷第 1期
2020年 1月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.37No.1
Jan.2020