收稿日期:20180707;修回日期:20180821 基金项目:上海市自然科学基金资助项目(18ZR1416900)
作者简介:卢志刚(1973),男,教授,博士,主要研究方向为大数据分析与决策、商务智能、供应链管理(963620627@qq.com);叶美丽(1994),
女,硕士,主要研究方向为大数据分析与决策、数据挖掘、商务智能.
基于节点地位和相似性的社交网络边符号预测
卢志刚,叶美丽
(上海海事大学 经济管理学院,上海 201306)
摘 要:边符号预测即根据网络拓扑结构挖掘符号相关隐含信息,旨在揭示用户之间的潜在关系。节点地位和相
似性能够较好地体现边符号属性,为改善预测效果提供了理论基础。通过探究两者与边符号属性之间的强相关
性,建立符号预测模型。首先,利用排序算法 prestige评估用户节点的社会地位,同时使用余弦相似度表示用户的
社交偏好;然后,在逻辑回归学习模型的基础上融合两者建立边符号预测模型 LRSN;最后,在模型训练过程中采
用随机梯度上升算法优化求解。三个真实网络数据集的实验结果表明,相比于现有基准方法,LRSN模型的符号
预测准确率显著提高且具有一定的推广性,说明通过融合局部信息与全局信息能够进一步改善预测效果。
关键词:边符号预测;节点地位;节点相似性;逻辑回归;随机梯度上升算法
中图分类号:TP391 文献标志码:A 文章编号:10013695(2020)02019041105
doi
:10.19734/j.issn.10013695.2018.07.0516
Socialnetworkedgesignpredictionbasedonnodestatusandsimilarity
LuZhigang,YeMeili
(CollegeofEconomics&Management,ShanghaiMaritimeUniversity,Shanghai201306,China)
Abstract:Theedgesignpredictionistominethesignrelatedimplicitinformationaccordingtothenetworktopology,aimingto
revealthepotentialrelationshipbetweenusers.Nodestatusandsimilaritycanbetterrepresentsignattributesofedges,providing
atheoreticalbasisforimprovingthepredictioneffect.Byinvestigatingthestrongcorrelationbetweenthetwotheoriesandthe
signattributesoftheedges
,thispaperestablishedasignpredictionmodel.Firstly,itusedprestigeevaluatethesocialstatusofuser
nodes.Atthesametime,cosinesimilaritycouldrepresenttheuser’ssocialpreferences.Then,bothsideswerecombinedbasedon
thelogisticregressionlearningmodeltoestablishtheedgesignpredictionmodelLRSN.Finally,arandomgradientascentalgo
rithmwouldoptimizethemodelduringtraining.Theexperimentalresultsofthreerealnetworkdatasetsshowthatcomparedwith
theexistingbaselinemethods,theaccuracyofsignpredictionofLRSNmodelissignificantlyimprovedandhascertaingenerali
zation,indicatingthatthefusionoflocalinformationandglobalinformationcanfurtherimprovethepredictioneffect.
Keywords:edgesignprediction;nodestatus;nodesimilarity;logisticregression;randomgradientascentalgorithm
社交网络是人们进行意见交流与信息共享的虚拟空间,其
允许用户将与之有关联的个体标记为朋友或者敌人关系,对他
人的言论及观点提出赞同或者反对意见。因此可以将社交网
络描述为边具有正或者负符号属性的有向网络,其中正向边表
示两个用户之间具有朋友、信任、喜欢等积极关系;而负向边则
表示两个用户之间具有敌对、怀疑、厌恶等消极关系。社交网
络中的边符号预测即通过提取网络结构信息和用户关系数据
预测未知的边符号,它揭示了用户之间的潜在关系如朋友、陌
生人、敌人等。
边符号预测在机器学习、大数据分析与决策等领域具有重
要的研究意义。探究边的符号属性有助于理解网络基本结构
特征
[1]
,解决个性化推荐
[2]
、舆情分析
[3]
、异常用户检测
[4]
等
问题。本文深入研究边的符号属性,提出一种高效的边符号预
测模型,并在 Epinion、Slashdot、Wikipedia数据集上建立多组实
验,结果证明了该模型在符号预测方面的有效性。主要贡献如
下:a)提出两个有关符号属性的量化策略,分别量化节点地位
以及相似性;b)在逻辑回归学习模型的基础上,融合节点地位
和相似性建立边符号预测模型 LRSN,其中节点地位从全局角
度量化符号属性相关特征,节点相似性从局部角度体现符号属
性;
c)为证明 LRSN模型的有效性,在 Epinion、Slashdot、Wiki
pedia数据集上建立多组实验,并详细阐述不同量化策略对符
号预测准确率的影响。
1 相关性研究
社交网络边符号的研究起源于社会心理学,起初由 Hei
der
[5]
从心理学角度出发,探讨了人际交往中正关系与负关系的
相互作用模式。随后 Cartwright等人
[6]
以图论的语言将社交网
络描述为边具有正负符号属性的有向网络。随着复杂网络的兴
起,社交网络中的边符号预测问题逐渐成为研究的热点。
目前,有关边符号预测的方法大致分为考虑局部特征的方
法和考虑全局特征的方法两类。考虑局部特征的方法仅仅利
用节点的领域特征如节点出入度
[7]
、共同邻居数量
[7]
、节点相
似性
[8,9]
等进行边符号预测。而考虑全局特征的方法扩大了
特征提取的范围,从全局角度量化网络的不平衡程度,一般采
取扩展的结构平衡理论
[10]
、上下文信息
[11,12]
、节点排序
[13]
等
措施对边符号进行预测。Leskovec等人
[7]
对符号预测问题进
行了形式化定义,其通过提取两类网络结构信息,即节点邻域
特征以及基于社会学理论的 16种三元组关系模式,然后利用
逻辑回归训练特征实现了边符号预测。Chiang等人
[10]
提出利
用扩展的结构平衡有序长环对边符号进行预测,实验表明当环
的长度由 3递增到 5时,预测准确率能有效提高。该方法实现
了对 Leskovec等人局部度量方法的扩展。Symeonidis等人
[9]
通过定义同一簇之间的相似性与不同簇之间的相似性,然后利
第 37卷第 2期
2020年 2月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol37No2
Feb.2020