收稿日期:20150916;修回日期:20151111
作者简介:许加书(1990),男,江苏人,硕士,主要研究方向为社区检测(jiashu42@sina.com);韩忠愿(1963),男,教授,博士,主要研究方向为
自然语言处理、社区检测;顾惠健(1990),男,硕士,主要研究方向为社区检测.
基于节点拓扑结构和属性的重叠社区检测算法
许加书,韩忠愿,顾惠健
(南京财经大学 信息工程学院,南京 210046)
摘 要:针对已有重叠社区检测通常只考虑节点的拓扑结构信息,忽略了节点的属性信息,导致数据间的重要
结构遗漏的问题,提出了一种基于节点拓扑结构和属性相似度的重叠社区检测算法。首先,基于余弦相似度计
算候选节点和局部社区之间的相似度,提高局部搜索效率;其次,改进局部模块度增量计算方法,使局部搜索模
型收敛于发现潜在的真实社区;通过融合多个已检测到的局部社区计算隶属矩阵,从而获取全局重叠社区结构;
最后,在真实数据集上,与已有基于拓扑结构的社区检测算法进行实验对比。结论表明,该算法在模块度和 F
1
measure的指标上取得了较好的表现且更适用于稀疏网络。
关键词:社区检测;节点属性;重叠社区;隶属矩阵;模块度
中图分类号:TP301.6 文献标志码:A 文章编号:10013695(2016)12361505
doi:10.3969/j.issn.10013695.2016.12.022
Overlappingcommunitydetectionwithnodestructureandattribute
XuJiashu,HanZhongyuan,GuHuijian
(CollegeofInformation&Engineering,NanjingUniversityofFinance&Economics,Nanjing210046,China)
Abstract:Foroverlappingcommunitydetectionusuallyonlyconsideringthetopologyinformationofnodes,ignoringthenode
attributeinformation,causingtheproblemofmissingimportantdatastructures,thispaperproposedanoverlappingcommunity
detectionalgorithm.Thealgorithmwasbasedonthetopologyandthesimilarityofnodeattributetofindoverlappingcommuni
tiesfromaseedvertex.First
,itcomputedthesimilaritybetweencandidatenodesandthelocalcommunitybasedoncosine
similarity,improvedtheefficiencyoflocalsearching.Second,itimprovedthecalculationmethodoflocalmoduledegreein
crements,madethelocalsearchmodelconvergetofindpotentialgroundtruthcommunities.Third,itmergedmultiplelocal
communitieswhichhavebeendetectedandcalculateamembershipmatrix
,whichcanbeseenastheglobaloverlappingcom
munitystructureofagraph.Attheend,comparedwiththeexistingcommunitydetectionalgorithmbasedontopologyonreal
datasets.TheresultsshowthatthealgorithmperformsbetteronthemodularityandF
1
measure.Anditismoresuitablefor
sparsenetworks.
Keywords:communitydetection;nodeattribute;overlappingcommunities;membershipmatrix;modularity
0 引言
网络通常由相互连接的动态节点组成。社交网络、生物网
络和计算机科学网络仅仅是复杂网络的一些代表,并且这些网
络通常展示了具有拓扑特性的社区。社区或模块结构被认为
具有现实社交网络的重要特性。
从网络中发现这些潜在的社区可视为将节点集合聚类成
社区的问题。常见的重叠社区检测算法只注重节点与节点之
间的连接信息这一种数据源。针对节点的拓扑结构数据源,重
叠社区检测算法
[1]
通过节点的结构相似度来发现那些紧密相
连的节点,进而划分出不同社区,但是往往忽略节点的属性信
息。本文在结合了节点拓扑结构和属性的重叠社区检测的实
验中验证了仅考虑节点拓扑结构进行重叠社区检测往往是不
全面的,可能会忽略数据之间的重要结构。节点之间的连接信
息可能会遇到缺失数据或噪声数据,节点的属性信息数据源可
以弥补以上不足。结合节点拓扑结构信息和节点属性信息对
重叠社区检测是至关重要的。然而,考虑节点的属性信息和节
点的拓扑结构对社区检测仍是一种挑战。
目前已知的社区检测技术大致可以分为三种类型:a)基
于全局的社区检测
[2]
,基于全局的社区检测方法将图看做一
个整体,假设如果一个图区别于随机生成的图,那么该图就具
有社区结构,例如
Newman和 Girvan的 nullmodel
[3]
;b)基于节
点相似度的社区检测
[4,5]
,基于节点相似度的方法假设社区是
由众多结构相似的节点组成,传统方法包括层次聚类
[6]
、划分聚
类
[4]
以及谱聚类方法
[7]
;c)基于局部的社区检测
[8,9]
,基于局部
的方法比较了子图内部与外部的聚类密度,常见的方法有源于
社交网络分析的 LSset
[8]
,这种方法的条件是相当严格的,可以
放宽到所谓的社区的弱定义
[9]
。LCD(localcommunitydetec
tion)方法早已在十几年前被提出来用于包含特定种子节点的
社区检测。根据评价局部社区检测质量方法的不同,可以将现
存的 LCD方法分为两类:基于度的方法通过研究节点的度来
评价局部社区检测的质量
[10,11]
;基于相似度的方法是利用节
点之间的相似度来评价局部社区划分质量
[2,12]
。
考虑到节点属性对数据结构的影响,本文在 LCD算法的
基础上,提出一种基于节点拓扑结构和节点属性的重叠社区检
测 算 法
OCDNSA(overlappingcommunitydetectionwithnode
第 33卷第 12期
2016年 12月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol33No12
Dec.2016