收稿日期:20181212;修回日期:20190125 基金项目:广东省科技计划协同创新与平台环境建设基金资助项目(2017A040406001);
广东省教育厅与思科(中国)创新科技有限公司产学合作协同育人项目(粤教高函[
2017]153号)
作者简介:叶小莺(1981),女,湖南长沙人,讲师,硕士,主要研究方向为软件工程、大数据(xueyuan_yuan@yeah.net);万梅(1981),女,湖南
长沙人,讲师,硕士,主要研究方向为大数据、交互设计;唐蓉(1982),女,四川罗江人,工程师,硕士,主要研究方向为电子政务、智慧城市、大数据
分析;谢云(1978),女,湖南娄底人,讲师,本科,主要研究方向为移动应用开发;陈桂宏(1983),女,四川宜宾人,讲师,硕士,主要研究方向为无线
通信安全;李强(1976),女,湖南双峰人,副教授,硕士,主要研究方向为软件技术、数据库技术、大数据技术.
基于图聚类与蚁群算法的社交网络聚类算法
叶小莺
1
,万 梅
2
,唐 蓉
3
,谢 云
1
,陈桂宏
4
,李 强
1
(1.广东东软学院 计算机科学与技术系,广东 佛山 528225;2.广州工商学院 计算机科学与工程系,广州
510850;3.重庆市九龙坡区精神卫生中心,重庆 400052;4.中山大学 电子与信息工程学院,广州 510006)
摘 要:针对社交网络中社交关系的有向性与多样性,提出了一种基于图聚类与蚁群算法的社交网络聚类算
法。首先,在网络覆盖率的约束下为社交网络建立有向、非全连接的二维图模型;然后,采用
Kmedoids算法搜索
用户分组的中心用户,采用人工蚁群算法在
2D图中搜索各个用户与中心用户的相似性,将满足相似性阈值的用
户分为同一个用户组。设计了低活跃用户的预测机制解决网络的稀疏性问题与冷启动问题。此外,通过网络覆
盖率的约束条件权衡聚类准确率与覆盖率两个指标。仿真实验结果表明,该算法实现了较好的社交网络聚类性
能,并且有效地缓解了稀疏性问题与冷启动问题。
关键词:社交网络;数据挖掘;聚类处理;人工蚁群优化;图聚类;信任信息
中图分类号:TP393 文献标志码:A 文章编号:10013695(2020)06013167005
doi:10.19734/j.issn.10013695.2018.12.0881
Clusteringalgorithmofsocialnetworkbasedongraphclusteringand
antcolonyoptimizationalgorithm
YeXiaoying
1
,WanMei
2
,TangRong
3
,XieYun
1
,ChenGuihong
4
,LiQiang
1
(1.Dept.ofComputerScience&Technology,NeusoftInstituteofGuangdong,FoshanGuangdong528225,China;2.Dept.ofComputerSci
ence&Engineering,GuangzhouCollegeofTechnology&Business,Guangzhou510850,China;3.JiulongpoDistrictMentalHealthCenter,
Chongqing400052,China;4.SchoolofElectronics&InformationTechnology,SunYatsenUniversity,Guangzhou510006,China)
Abstract:Aimingatthepropertiesofdirectionanddiversityofsocialrelationshipsinthesocialnetwork,thispaperproposed
aclusteringalgorithmofsocialnetworkbasedongraphclusteringandantcolonyoptimizationalgorithm.Firstly
,itconstructeda
directedandnonfullyconnectedcompletegraphforthesocialnetworksunderconstraintconditionofnetworkcoverage;Then,
itadoptedKmedoidsalgorithmtosearchthecenterusersofallusergroups,adoptedantcolonyoptimizationtosearchthesimi
laritiesofeachuserandcenterusersinthegraph,andgroupedtheuserssatisfiedthethresholdconditionintothesamegroup.
Thispaperalsodesignedapredictionmechanismoflowactivedegreeuserstoresolvethesparsityproblemandcoldstartprob
lem.Besides,itsetthenetworkcoverageconstraintconditiontobalancetheindexesofaccuracyandcoverage.Simulationex
perimentalresultsindicatethattheproposedalgorithmrealizesagoodclusteringperformanceofsocialnetwork,anditreduces
theproblemsofsparsityandcoldstarteffectively.
Keywords:socialnetwork;datamining;clusteringprocess;antcolonyoptimization;graphclustering;trustinformation
0 引言
随着微博、微信、豆瓣电影以及网易云音乐等各种应用的
普及,导致不同领域的社交网络飞速地发展。目前的社交网络
中存在多种社交关系,如好友关系、关注关系、具有相同喜好
等
[1]
。社交网络的节点与连接也存在多样化的属性,传统的
网络聚类方法主要考虑连接的稠密度,并未考虑社交网络的多
样性。此外,社交网络中低活跃度用户的存在也为社交网络聚
类效果带来了不利的影响
[2]
。
除了基于连接稠密度的社交网络聚类算法
[3,4]
,目前也出
现了考虑节点多样性、强弱社交关系以及各种隐藏信息的聚类
算法。文献[
5]主要考虑用户的兴趣相似度,基于贝叶斯概率
模型计算用户兴趣的相似度。在目前多样化的社交网络中,兴
趣已经成为了一种弱关联信息,此外还应当考虑信任传播、评
论信息、评分信息等。文献[6]提出了一种基于结构相似度的
有向网络聚类算法,针对社交网络的有向交互性,该算法考虑
了节点的到达邻居,并且采用有向边定义直接结构可达性。文
献[
7]采用粒子群优化算法对社交网络进行寻优处理,将网络
结构作为粒子群的目标函数,通过贪婪策略引导粒子群的演化
过程。文献[
6,7]均将社交网络结构作为聚类的依据,但是在
网络构建过程中仅考虑了直接的社交关系。
当前社交网络中存在多样化的关联性,除了强关系,还应
当考虑各种弱关系,包括关注关系、信任传播
[8]
、评论信息、评
分信息等。此外,社交网络中存在活跃用户与低活跃度用户,
而低活跃度用户会导致稀疏性问题,进而影响聚类的准确率与
覆盖率
[9]
。为了解决上述问题,提出一种基于图聚类与蚁群
算法的社交网络聚类算法(graphclusteringandantcolonyopti
mizationsocialnetworkclusteringalgorithm,GCACO)。在覆盖
率约束下建立二维图,从而保证覆盖率与聚类准确率两者之间
的平衡。在图构建的过程中,考虑了直接信任关系、信任传播、
第 37卷第 6期
2020年 6月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol37No6
Jun.2020