大规模网络嵌入:LINE算法详解与应用
172 浏览量
更新于2024-08-29
收藏 623KB PDF 举报
【Graph Embedding】LINE: 大规模信息网络的嵌入方法
LINE是由微软亚洲研究院(MSRA)于2015年提出的一种用于处理大规模网络数据的嵌入技术,它旨在解决在资源有限的情况下训练大型网络模型的问题。DeepWalk依赖于分布式并行计算,但对于百万节点和数十亿边的网络,其训练需求可能会超出常规硬件的处理能力。LINE在此背景下应运而生,它能够适应各种网络结构,包括无向图、有向图,以及加权或非加权的情况。
核心思想在于区分first-order和second-order相似性。first-order关注节点之间的直接连接,类似于深度walk,通过边缘权重计算节点的相似度,如公式所示:
\[ p_1(v_i, v_j) = \frac{1}{1+exp(-u_i^T, u_j)} \]
这基于节点间的边的数量和强度来衡量相似性。然而,second-order相似性则超越了简单的链路连接,考虑的是节点共享邻域的结构。例如,在社交网络中,拥有大量共同朋友的个体可能有共同兴趣,即使当前可能不是朋友。在自然语言处理中,相似的词往往出现在相近的上下文中,这也反映了second-order关系。
LINE引入了second-order概率计算,不依赖于边的权重,而是通过共享邻域的计数来评估节点间的相似性:
\[ p_2(v_i, v_j) = \frac{\sum_{k \in N(i) \cap N(j)} w_k}{\sqrt{|N(i)| |N(j)|}} \]
这里,\( N(i) \) 和 \( N(j) \) 分别表示节点 \( i \) 和 \( j \) 的邻居集合,\( w_k \) 是边的权重,\( |N(i)| \) 和 \( |N(j)| \) 分别是节点的邻域大小。这种方法允许捕捉到节点间更深层次的关联,即使没有直接连接,也能够通过共同邻居推断相似性。
LINE算法的优势在于能在单台服务器上高效地处理大规模网络,数小时即可完成百万节点和数十亿边的训练,这对于资源受限的环境极具价值。这种网络嵌入技术不仅有助于信息检索、推荐系统,还被广泛应用于社区检测、节点分类等网络分析任务中,成为现代图谱学习领域的关键算法之一。
2021-01-07 上传
2021-02-03 上传
2018-07-08 上传
2021-05-22 上传
2022-08-03 上传
2021-02-23 上传
2021-05-16 上传
weixin_38730331
- 粉丝: 5
- 资源: 957
最新资源
- 电子功用-有机电致发光二极管有机材料蒸镀用掩模装置
- 管理系统系列--在线项目管理系统-PHP编写的Web项目BUG管理系统.zip
- EnHome
- DSA_PRACTICE_PEP
- type-kana:一个测验应用程序,可帮助您学习日语的平假名和片假名
- ES6-Immutable-React:React 0.13 with ES6, Immutable.js 和 Flux, Isomorphic
- 以太网 web 智能家居demo板(原理图、PCB源文件、源码、文档)-电路方案
- 百度地图-导航 demo,以及性能测试
- M68K to i386-开源
- 管理系统系列--医院门诊管理系统.zip
- Python库 | imgtool-1.2.0.tar.gz
- 开源智能设备—真正的无线机械键盘,OLED显示屏-电路方案
- web50-projects-2020-x-0:项目0
- Day24
- 消灭JavaScript怪兽第三季ES6/7/8新特性(18-19)
- Android Google Maps网络地图程序源代码