大规模网络嵌入：LINE算法详解与应用

172 浏览量更新于2024-08-29 收藏 623KB PDF 举报

【Graph Embedding】LINE: 大规模信息网络的嵌入方法 LINE是由微软亚洲研究院（MSRA）于2015年提出的一种用于处理大规模网络数据的嵌入技术，它旨在解决在资源有限的情况下训练大型网络模型的问题。DeepWalk依赖于分布式并行计算，但对于百万节点和数十亿边的网络，其训练需求可能会超出常规硬件的处理能力。LINE在此背景下应运而生，它能够适应各种网络结构，包括无向图、有向图，以及加权或非加权的情况。核心思想在于区分first-order和second-order相似性。first-order关注节点之间的直接连接，类似于深度walk，通过边缘权重计算节点的相似度，如公式所示： \[ p_1(v_i, v_j) = \frac{1}{1+exp(-u_i^T, u_j)} \] 这基于节点间的边的数量和强度来衡量相似性。然而，second-order相似性则超越了简单的链路连接，考虑的是节点共享邻域的结构。例如，在社交网络中，拥有大量共同朋友的个体可能有共同兴趣，即使当前可能不是朋友。在自然语言处理中，相似的词往往出现在相近的上下文中，这也反映了second-order关系。 LINE引入了second-order概率计算，不依赖于边的权重，而是通过共享邻域的计数来评估节点间的相似性： \[ p_2(v_i, v_j) = \frac{\sum_{k \in N(i) \cap N(j)} w_k}{\sqrt{|N(i)| |N(j)|}} \] 这里，\( N(i) \) 和 \( N(j) \) 分别表示节点 \( i \) 和 \( j \) 的邻居集合，\( w_k \) 是边的权重，\( |N(i)| \) 和 \( |N(j)| \) 分别是节点的邻域大小。这种方法允许捕捉到节点间更深层次的关联，即使没有直接连接，也能够通过共同邻居推断相似性。 LINE算法的优势在于能在单台服务器上高效地处理大规模网络，数小时即可完成百万节点和数十亿边的训练，这对于资源受限的环境极具价值。这种网络嵌入技术不仅有助于信息检索、推荐系统，还被广泛应用于社区检测、节点分类等网络分析任务中，成为现代图谱学习领域的关键算法之一。

weixin_38730331

粉丝: 5
资源: 957

大规模网络嵌入：LINE算法详解与应用

LINE-1：这是图形嵌入方法LINE-1的python复制副本

network embedding综述

【Graph Embedding】DeepWalk：图嵌入的一颗手榴弹

graph2vec：“ graph2vec：学习图的分布式表示形式”的并行实现（MLGWorkshop 2017）

graph embedding相关论文整理

属性约简matlab代码-Graph-Embedding-Techniques:它提供了一些基于无任务或特定于任务的直觉的典型图形嵌入技术

《Graph Embedding及其在知乎的实践》孙付伟1

真棒网络嵌入：网络嵌入技术的精选列表

BANE:稀疏感知的“二元属性网络嵌入”实现（ICDM 2018）

DeepWalk: Online Learning of Social Representations作者ppt

最新资源