局部近邻传播与用户特征结合的社区识别算法

2 浏览量更新于2024-08-29 收藏 1.14MB PDF 举报

"该文章是2015年2月发表在《通信学报》上的一篇研究论文，由郭昆、郭文志、邱启荣和张歧山共同撰写，探讨了一种结合局部近邻传播和用户特征的社区识别算法。该算法旨在解决社交网络中的社区检测问题，尤其针对节点关联信息不完整的场景。" 本文主要介绍了一种新的社区识别算法，该算法融合了局部近邻传播与用户特征的相似性测度。社区识别在社交网络分析中扮演着至关重要的角色，因为社区结构能够揭示用户之间的紧密联系和兴趣群组。传统的社区识别方法往往侧重于网络拓扑结构，而忽视了用户特征信息。局部近邻传播算法是一种基于消息传递的聚类方法，它通过节点之间的相似度进行信息传播，最终形成稳定的聚类。然而，这种算法在大规模社交网络中可能面临时间和空间复杂度高的挑战。为了优化这一问题，该论文提出的算法首先放松了代表点的约束条件，并限制消息仅在节点的局部近邻之间传播。这样的改进使得算法在保持较高识别精度的同时，降低了计算复杂度。此外，针对社交网络数据中用户关联信息不完整的情况，该算法引入了节点的特征相似度。通过将拓扑相似度（即节点间的连接关系）与特征相似度（如用户的兴趣、行为等）相结合，构建了综合相似度度量。这种方法使得算法在缺乏边信息的情况下依然能有效识别社区结构。实验部分，作者在人工数据集和真实社交网络数据集上进行了对比实验，结果显示，新提出的算法具有近似线性的时间复杂度和线性空间复杂度，即使在网络中节点关联边信息不完整时，也能保持良好的识别精度。这些结果证明了该算法在处理大规模社交网络社区识别问题时的高效性和鲁棒性。关键词涵盖了社交网络、近邻传播、社区识别和聚类，表明该研究关注的核心领域和技术手段。中图分类号TP393则将其归类为计算机科学与技术领域，文献标识码A则表示这是一篇原创性的学术研究文章。这篇论文提出了一种创新的社区识别算法，通过结合局部近邻传播与用户特征，解决了社交网络社区检测中的关键问题，提高了在复杂网络环境下的性能。这项工作对于理解和挖掘社交网络数据，以及推动相关领域的研究具有重要意义。

通信学报第 36 卷

2015035-3

tion）的算法

[18]

采用标签描述节点的社区信息，其

启发规则为：不断在节点及其近邻间传递标签信

息，经过多次迭代后，属于同一个社区的节点的标

签将趋于一致。基于随机游走的算法

[19]

将社区结构

的识别过程建模为图上的随机游走，其启发规则

为：当网络存在明显社区结构时，随机游走 agent

在社区内节点间游走的概率要大于在社区间节点

间游走的概率。对于此类方法，如何设计能够准确

描述复杂网络中的社区结构特征的启发规则、提高

算法的普适性仍是其面临的主要挑战。

目前，将网络拓扑特征与节点自身特征相结合

进行社区识别的研究主要见于社交媒体分析（social

media analysis），其典型代表是主题建模（topic

modeling）。主题建模的目标是通过分析在一个用户

群体之间交流的文本、图片等多媒体数据之间存在

的相关性找出从属于不同主题的用户子群

[19～22]

。虽

然与社交网络中的社区识别存在相似性，但是，主

题建模的目标是建立隐藏在用户交流数据背后的

主题模型，其社区划分以主题为中心，而不以用户

为中心，一个用户可以加入多个主题群，当主题变

动时社区也随之变化，因此，不能直接将主题建模

方法应用于社交网络中的社区识别。不过，受到主

题建模思想的启发，已经有学者开始将网络拓扑特

征与节点特征结合应用于描述节点的综合相似度，

从而更好地在社交网络中识别社区。例如，Yoshida

设计了一种考虑节点特征相似度的复合相似度，在

具有不同边缺失比的复杂网络上的实验取得良好

效果

[23]

，但其采用的谱方法具有较高的时间复杂

度。McAuley

[24]

等提出同时考虑节点的拓扑相似度

和特征相似度的社交圈子模型，并应用于设计在个

人社交网络中识别不同的社交圈子的算法。但由于

采用了基于统计的方法，算法的时间开销较大。总

体而言，这方面的研究还处于起步阶段。

3 近邻传播

近邻传播（AP, affinity propagation）算法是一

种通过在近邻节点间传播消息实现聚类的方法

[25]

，

是圈信任传播（loopy belief propagation）

[26]

在聚类

方面的最新应用。AP 算法通过多次迭代使簇中心

点（或代表点）逐渐显现，因此不需要预先输入簇

数参数。此外，AP 算法不要求节点具有对称相似

度，因此能够适应相似性测度不满足三角不等式的

应用。

AP 算法需要输入相似度矩阵 S。矩阵元素 s(i,k)

表示点 x

与点 x

的相似度。文献[25]采用 2 个节点

之间的欧式距离作为其相似度，即 s(i,k)=−|x

−x

。

相似度矩阵 S 的主对角线元素 s(k,k)具有特别含义：

它表示节点 x

适合作为代表点的程度。s(k,k)的值越

大，节点 k 被选为代表点的可能性就越大。AP 算

法中将所有的 s(k,k)设为一个共同值 p。因此，p 是

AP 算法的一个非常重要参数，直接影响到最终生

成的簇的数量。

AP 算法在节点之间传播的消息分为支持度消

息(responsibility)和适选度消息(availability)。前者由

矩阵 R=r(i,k)描述，r(i,k)表示节点 i 向节点 k 发送的

消息，反映节点 i 在考虑其他潜在代表点后对节点

k 作为其代表点的支持程度。后者由矩阵 A=a(i,k)

描述，a(i,k)表示节点 k 向节点 i 发送的消息，反映

节点 k 综合了其他点对其支持度后向节点 i 表明自

己作为节点 i 的代表点的适合程度。近邻传播过程

即表现为 2 个消息矩阵的交替更新。每次更新后，

通过计算决策矩阵 E=R+A=e(i,k)确定节点 i 的代表

点。消息更新公式如下。

. .

( , ) ( , ) max { ( , ) ( , ))}

k s t k k

r i k s i k a i k s i k

′ ′

≠

′ ′

← − +

(2)

. . { , }

min{0, ( , ) max{0, ( , )}},

( , )

max{0, ( , )},

i s t i i k

r k k r i k i k

a i k

r i k i k

′ ′

≠

′ ′

≠



′

+ ≠



←



′





∑

(3)

4 结合局部近邻传播及用户特征的社区识别

4.1 局部近邻传播与代表点约束放松

与互联网、生物网络等其他复杂网络不同，社

交网络中的社区是通用户与其近邻（包括亲戚、朋

友、同事等）间的不断交互逐渐产生并发展的。这

与 AP 算法通过在近邻间传播消息，以使社区结构

自然涌现的设计思想存在相似性。但是，直接将

AP 算法应用于社交网络中的社区识别存在一些困

难。首先，AP 算法中的消息是在所有节点之间传

播的，而社交网络中的用户一般仅与其相近用户传

递信息。2 个距离较远的用户直接进行消息传递的

概率很低。其次，AP 算法要求每个代表点必须选

择自身作为其代表点（又称为代表点约束）。文献[27]

发现这限制了其聚类精度的进一步提高，并提出放

松这一约束以得到更低的聚类错误率。最后，AP

算法的时间复杂度为 O(n

)，n 为网络节点数。当应

剩余11页未读，继续阅读

weixin_38656395

粉丝: 4
资源: 912

局部近邻传播与用户特征结合的社区识别算法

基于近邻传播的分布式数据流聚类算法.pdf

基于超欧氏距离近邻传播的软件缺陷预测方法_常瑞花2

SIAP：一种蛋白质复合物识别分布式算法.pdf

KNN算法与Tensorflow分别实现的手写识别系统

本项目用传统cv算法和卷积神经网络实现手势识别.zip

分类算法,分类算法有哪几种,matlab

基于全局信息的高效分层近邻传播聚类算法在基因表达数据中的应用

KNN算法在换流变压器局部放电模式识别中的应用

超欧氏距离近邻传播在软件缺陷预测中的应用

CA-FM聚类算法：一种基于过滤模型的方法

最新资源