语义重叠社区发现：标签传播算法新应用

需积分: 0 166 浏览量更新于2024-08-05 收藏 1.44MB PDF 举报

"这篇文章是关于基于标签传播的语义重叠社区发现算法的研究，由辛宇、杨静和谢志强三位作者在2014年的《自动化学报》上发表。他们提出了一种新的方法来解决语义社会网络中的社区发现问题，特别是处理节点之间的语义重叠情况。" 文章详细内容: 语义社会网络（SSN）是网络的一种新形式，它由信息节点和链接关系组成，与传统的社会网络不同，SSN的复杂性使得基于邻接关系的社区发现算法难以有效处理语义重叠问题。为了解决这个问题，作者提出了基于标签传播的语义重叠社区发现算法。该算法的核心是利用LDA（潜在狄利克雷分配）模型作为语义信息模型。LDA是一种统计模型，常用于主题建模，通过Gibbs取样法，将节点的语义信息映射到一个定量的语义空间。这样可以捕捉节点间的语义关联性。为了衡量节点间的相似性，作者提出了主成分（SCNP，Semantic coherent neighborhood propinquity）模型。SCNP模型能够度量节点在语义空间中的邻近程度，从而作为标签传播过程中的权重。同时，他们还引入了语义影响力（SI，Semantic impact）模型，用以确定传播过程中的截断阈值，以控制信息传播的程度。在此基础上，他们对经典的LPA（标签传播算法）进行了改进，创建了Semantic-LPA，这是一种针对语义重叠社区的优化版本。Semantic-LPA结合了SCNP的权重和SI的截断参数，能更精确地识别和分割社区结构。为了评估算法的效果，作者还提出了语义模块度（Semantic modularity）模型，这是一个衡量社区发现结果质量的指标。通过实验分析，他们证明了所提出的算法和语义模块度模型的有效性和可行性。关键词涵盖了语义社会网络、重叠社区、LDA模型以及标签传播算法，表明这些是文章研究的关键点。文章引用格式给出了完整的参考文献信息，方便后续研究者引用。这篇文章提供了一种创新的方法，通过标签传播来发现语义社会网络中的重叠社区，对于理解和处理复杂网络中的语义信息具有重要意义。

2264 自动化学报 40 卷

息到语义空间的量化映射, 通过构建可度量节点间

相似性的主成分 (Semantic coherent neighborhood

propinquity, SCNP) 模型以及语义影响力 (Seman-

tic impact, SI) 模型, 建立一种改进的标签传播社

区发现算法, 并提出了评价语义社区划分结果的 SQ

(Semantic Q-modularity) 模型, 最后通过实验, 分

析本文算法参数取值及算法有效性.

1 语义社会网络的 LDA 关系建模

1.1 LDA 关系表示

语义社会网络的语义信息体现在各节点的文本

信息内容上, 每个节点具有节点内部的局部语义信

息, 各节点的信息集合构成网络总体语义信息. 本节

对语义社会网络中的局部语义信息和总体语义信息

的 LDA 建模过程进行描述, 涉及的数学符号如表 1

所示.

LDA 语义数据分别利用 w

w, d

d, z

z 三个向量进行

存储, 其中 w

, d

, z

分别为关键字 i 的编号、所属

节点号及所属话题号, 图 1 为 LDA 算法的 w

w, d

d, z

数据存储结构, 其中阴影部分表示集合内的相同元

素, 如图 1 所示, w

= w

说明 w

, w

为同一单词, d

= d

说

明 w

, w

是同一节点 d

的关键字, 且关

键字 w

在 d

中出现 2 次, z

= z

说明

, w

隶属同一话题 z

, 且关键字 w

在 z

中出现 2 次, z

分别隶属于 d

, d

从对图 1 的分析可知, w

w, d

d, z

z 三者间存在三层

贝叶斯关系, 根据文献 [14] 的文本分析可知, w

w, d

z 的数学描述如下:

1) θ ∼ Dirichlet(α), 节点的话题分布 θ 服从参

数为 α 的狄利克雷分布;

图 1 w

w, d

d, z

z 数据存储结构

Fig. 1 The data storage structure of w

w, d

d, z

2) z

|θ

)

∼ Multinomial(θ

)

), 节点 d

在特

定话题分布下, 出现话题 z

的概率服从多项式分布;

3) λ ∼ Dirichlet(β), 关键字服从参数为 β 的狄

利克雷分布;

4) w

, λ

)

∼ Multinomial(λ

)

), 话题 z

在

特定话题分布下, 出现关键字 w

的概率服从多项式

分布. 图 2 为关键字 w

w, d

d, z

z 的贝叶斯关系图, 其中

箭头指示了 w

, d

, z

的贝叶斯表达过程, 并以 α 和

β 作为全局参数.

图 2 w

w, d

d, z

z 的贝叶斯关系图

Fig. 2 The Bayesian diagram of w

w, d

d, z

1.2 Gibbs 迭代过程

w, z

z 的贝叶斯关系表达式为

P (z

= j|w

)P (w

) = P (w

= j)P (z

= j) (1)

表 1 数学符号说明

Table 1 Mathematical symbols

变量名变量说明

G 全局网络, G

表示网络中的节点 i

|G| 语义社会网络中的节点个数

N 语义社会网络中的关键字个数, N

表示节点 G

的关键字个数

w 关键字的向量, w

为向量 w

w 中第 i 个关键字所对应的编号

d 与关键字的向量 w

w 对应的节点编号向量, d

表示 w

所隶属的节点编号

z 与关键字的向量 w

w 对应的话题编号向量, z

表示 w

所隶属的话题编号, 其最大编号为话题个数 k

)

节点 d

的话题分布概率

(j)

话题 j 中关键字的分布, λ

(j)

表示 w

隶属某一话题 j 的概率, λ

(j)

= P (w

= j)

α 各节点的话题分布先验参数

β 某一话题内部, 关键字分布的先验参数

剩余13页未读，继续阅读

小明斗

粉丝: 41
资源: 329

语义重叠社区发现：标签传播算法新应用

基于随机游走的语义重叠社区发现算法_辛宇1

基于局部语义聚类的语义重叠社区发现算法_辛宇1

一种面向语义重叠社区发现的Link_Block算法_辛宇1

200多套汇报总结PPT模板-最新出炉.zip

springboot图书管理系统（附源码+数据库）00296

保研申请材料清单excel

汇编语言ppt.zip

Kubernetes系统精讲 Go语言实战K8S集群可视化--第4章 【核心知识+原理分析】Pod参数详解.zip

熵平衡匹配法code和数据-最新出炉.zip

Practical_5.zip

最新资源

Kubernetes系统精讲 Go语言实战K8S集群可视化--第4章【核心知识+原理分析】Pod参数详解.zip