没有合适的资源?快使用搜索试试~ 我知道了~
节点互信息优化的图表示学习方法
166200通过节点到邻域的互信息最大化在图中学习节点表示0魏东1,吴俊生2*,罗毅2,葛宗元3,王鹏4*01 西北工业大学计算机科学与工程学院,2 西北工业大学软件学院,3 莫纳什大学,4 伍伦贡大学0摘要0在图中学习有信息量的节点表示的关键在于如何从邻域中获取上下文信息。在这项工作中,我们提出了一种简单而有效的自监督节点表示学习策略,通过直接最大化节点的隐藏表示与其邻域之间的互信息,这可以从理论上证明与图平滑的联系。遵循InfoNCE,我们的框架通过一个替代对比损失进行优化,其中正样本选择支撑了表示学习的质量和效率。为此,我们提出了一种拓扑感知的正样本采样策略,通过考虑节点之间的结构依赖性从邻域中采样正样本,从而使正样本选择提前进行。在只采样一个正样本的极端情况下,我们完全避免了昂贵的邻域聚合。我们的方法在各种节点分类数据集上取得了有希望的性能。值得一提的是,通过将我们的损失函数应用于基于MLP的节点编码器,我们的方法可以比现有解决方案快几个数量级。我们的代码和补充材料可在https://github.com/dongwei156/n2n找到。01. 引言0图结构化数据是无处不在的,因为世界上几乎没有什么是孤立存在的。作为一种有效的图建模工具,图神经网络(GNNs)在计算机视觉[6,26,29]、自然语言处理[35]、知识表示[9]、社交网络[15]和分子属性预测[33]等领域越来越受欢迎。0*魏东的电子邮件是dw156@mail.nwpu.edu.cn。通讯作者:王鹏(pengw@uow.edu.au)和吴俊生(wujun- sheng@nwpu.edu.cn)0在这项工作中,我们关注的是图中的节点分类任务,关键是通过从邻域中获取上下文信息来学习具有信息结构感知性的节点表示。这激发了GNN中消息传递技术的大规模增长。在这些方法中,一个主要的思想是遵循聚合-组合-预测的流程,其中聚合步骤通过各种邻域聚合器(如均值[15]、最大值[15]、注意力[31]和集成[8])将邻域信息聚合成向量化表示,这些向量化表示与节点表示通过求和或连接进行组合,实现邻域信息融合。为了建模多跳消息传递,聚合和组合操作在最终节点表示用于标签预测之前往往会重复。换句话说,该流程中的信息交换是由预测阶段的节点分类损失驱动的。在监督学习的范畴下,这一系列方法统一了节点表示学习和分类。一个潜在的问题是,由于大规模图数据的昂贵标注成本,它们可能会遭受可扩展性问题。为了解决昂贵的人工标注问题,自监督学习(SSL)在计算机视觉[4,5]和自然语言处理[2,12]方面已经取得了成功,然而,在图建模方面,它的探索还不够充分。其中的关键挑战在于如何从非欧几里德图结构数据中设计合适的预训练任务来学习有信息量的节点表示。许多最近的尝试从计算机视觉中继承了这个思想,通过设计拓扑图增强来生成用于对比损失的多视图图形。现成的GNN[20,37]往往被用作节点/图形编码的默认选项。在这项工作中,我们提出了一种简单而有效的自监督学习替代方案,通过采用无聚合的多层感知机(MLP)作为节点编码器,直接最大化节点表示与其邻域之间的互信息。166210通过对齐节点表示和邻域表示之间的隐藏表示,我们可以从周围提取有用的上下文信息,类似于知识蒸馏[7,23]。从理论上讲,所提出的节点到邻域(N2N)互信息最大化本质上基于可量化的图平滑度量来鼓励图的平滑。根据InfoNCE[22],可以通过替代对比损失来优化互信息,其中关键在于正样本的定义和选择。为了进一步提高我们的N2N网络的效率和可扩展性,并确保所选正样本的质量,我们提出了一种拓扑感知的正样本采样(TAPS)策略,该策略通过考虑节点之间的结构依赖性从邻域中对节点进行采样。这使我们能够提前选择正样本。在仅使用一个正样本进行对比学习的极端情况下,我们可以避免耗时的邻域聚合步骤,但仍然可以实现有希望的节点分类性能。我们在六个基于图的节点分类数据集上进行了实验,结果显示了所提出的节点表示策略的潜力。本工作的贡献可以总结如下:0•我们提出了一种简单而有效的基于MLP的自监督节点表示学习策略,其思想是最大化节点和周围邻域之间的互信息。我们揭示了我们的N2N互信息最大化策略本质上通过使用可量化的平滑度量来鼓励图的平滑。0•通过替代对比损失来优化互信息最大化问题。提出了一种可扩展的TAPS策略,使得正样本可以提前选择。在仅考虑一个正样本的情况下,我们避免了昂贵的邻域聚合,但仍然获得了令人满意的节点分类性能。0•在六个基于图的节点分类数据集上的实验表明,我们的方法不仅具有竞争性的性能,而且还具有其他吸引人的特点。例如,我们的方法可以比现有解决方案快几个数量级。02. 相关工作0在本节中,我们简要回顾了现有的两个方面的工作:(1)图神经网络(GNNs)和(2)图对比学习(GCL)。图神经网络。GNNs旨在基于图的结构来学习节点/图的表示。0图数据的拓扑结构[36]。主要关注的是设计有效的消息传递策略,以促进图中的信息传播。早期的尝试[27]通过遵循循环的方式学习节点表示,其中节点状态通过迭代应用传播函数进行更新,直到达到平衡。受卷积神经网络的启发,最初用于类似网格的拓扑结构,如图像,引入了类似卷积的传播到图数据[10]。作为这一工作线的一种流行变体,图卷积网络(GCN)[20]堆叠了一组1-hop谱滤波器[10]和非线性激活函数来学习节点表示。GCN引发了一系列后续工作,旨在改进图中信息交换的效率或效果。简化图卷积网络(SGC)[34]通过去除非线性激活函数以获得折叠的聚合矩阵,从而减少了GCN的过度复杂性。L2-GCN[39]通过使用高效的逐层训练策略简化了GCN的训练复杂性。GraphSAGE-Mean[15]将平均聚合器应用于固定数量的随机抽样邻居,以减少计算成本,并采用连接来合并节点和邻域信息。FastGCN[3]也采用采样策略,通过将图卷积解释为嵌入函数的积分变换来减少GCN的计算占用。另一方面的工作旨在设计复杂的邻域聚合策略。图注意力网络(GAT)[31]堆叠了掩蔽的自注意层,以使节点能够自适应地关注其邻居。多个聚合器(平均值、总和、最大值、归一化平均值、缩放等)的使用在实证上[11]或理论上[8]被证明能够增强GNN的表达能力。同时,还致力于理解各种GNN模型的性质的理论研究。例如,在[37]中,作者提出了一个基于Weisfeiler-Lehman(WL)图同构测试的理论框架,用于分析GNN的表征能力。在[18]中,设计了CS-GNN,通过利用基于特征和标签的平滑度量来理解和改进GNN中的图信息的使用。0前面提到的 GNN属于监督学习范畴,其中主要的训练流程是聚合-组合-预测,将节点表示学习和节点分类统一为端到端的方式。通过充足的标记数据,监督学习的 GNN在各种应用中取得了成功。0图对比学习。为了在没有人工注释的情况下学习高质量的数据表示,SSL在计算机视觉和自然语言处理中表现出非常有前景的性能。受到启发(1)We learn topology-aware node representation by maxi-mizing the mutual information between the hidden repre-sentations of nodes and their neighbourhood, which is par-tially motivated by knowledge distillation [23] in computervision. In this section, we firstly present the definition ofthe N2N mutual information, which is followed by the op-timization of the mutual information and its link to graphsmoothing.We denote the Probability Density Function (PDF) of(l)D(l)(2)166220通过这样的成功,将 SSL 和 GNN结合起来也越来越受到关注,其中关键在于为图结构数据设计有效的预训练任务。在这项工作中,我们主要关注图对比学习(GCL),因为它与所提出的方法直接相关。对比学习中的一个关键是如何定义正样本,因为它直接决定了对比模式。[38]中的工作直接进行图级对比学习,通过执行诸如删除节点、边扰动和属性屏蔽等增强操作,获得同一图的两个视图。其背后的动机是图中的语义对微小的拓扑变化不变。受计算机视觉中的 Deep InfoMax的启发,另一条研究线路是通过最大化学习表示与输入图像之间的互信息来学习图像表示。通过将这种互信息最大化思想应用于图中,可以得到几种变体。Deep GraphInfoMax(DGI)[32]通过与从损坏的图中导出的节点表示进行对比,将图的全局表示与其隐藏节点表示对齐。为了避免 [32]中的读出函数和损坏操作,图形互信息(GMI)[24]将输出节点表示与输入子图对齐。[16]中的工作通过最大化一个视图的节点表示与另一个视图的图表示之间的互信息来学习节点和图表示,这些视图是通过图扩散获得的。InfoGraph [30]通过将图表示和补丁表示作为一对,确定它们是否来自同一个图。尽管我们的方法也采用了互信息最大化,但我们的方法与前述方法在几个方面有所不同。首先,我们通过将节点与其在 MLP编码器的输出层中的邻域对齐,避免了图增强、迭代聚合和读出函数等操作。其次,我们的框架不是启发式地设计预训练任务,而是可以从理论上证明与图平滑的关系。最后,我们的工作提出了一种拓扑感知的采样策略,将我们的框架转化为高效的节点对节点对比学习,同时保持了良好的节点分类性能。03. 方法论0在本节中,我们首先介绍关于 GNN模型的符号、符号和必要背景。然后,我们介绍了我们的N2N互信息最大化的思想及其与图平滑的关系。最后,我们详细介绍了提出的 TAPS 策略。03.1. GNN 框架0我们将图表示为 G = (V, E, A),其中 V 是节点集合,E 是边集合,A 是邻接矩阵。每个节点 v ∈ V都有一个特征向量 v ∈ X,其中 X 是维度为 D 的节点特征空间。GNN 使用邻居聚合方案来学习每个节点 v在第 l 层的潜在节点表示 h(l) ∈ R^D,并将预测函数应用于最终隐藏层的节点表示来预测每个节点 v的类标签 y_v。基于这些符号,针对监督学习的 GNN 通常采用以下流程定义:0节点 v ∈ V 具有特征向量 v ∈ X,其中 X 是维度为 D的节点特征空间。GNN 使用邻居聚合方案来学习每个节点v 在第 l 层的潜在节点表示 h(l) ∈R^D,并将预测函数应用于最终隐藏层的节点表示来预测每个节点 v 的类标签 y_v。基于这些符号,针对监督学习的GNN 通常采用以下流程定义:0�s(l−1)i=AGGREGATION({�h(l−1)j:vj∈Ni}),0�h(l)i=COMBINE({�s(l−1)i,�h(l−1)i}),0L CE = PREDICTION({�h(L)i,yvi}),0其中AGGREGATION函数可以是任何形式的聚合器,例如mean、max、sum、attention和ensemble,它们根据邻域中的集合{�h(l−1)j:vj∈Ni}学习邻域表示�s(l−1)i0Ni和COMBINE函数通过将�s(l−1)i与�h(l−1)i组合来将�h(l−1)i更新为l层的新表示�h(l)i。L层GNN将上述两个操作迭代L次,并在输出层应用PREDICTION函数进行节点分类。PREDICTION层的事实上损失函数是交叉熵(CE)损失。03.2.节点到邻域(N2N)互信息最大化0在[0,1]D(l)中作为p(H(x)(l)),其中x∈X D(l),H(∙)(l)0是从x到�h(l)i的映射函数;邻域表示�s(l)i的概率密度函数为p(S(x)(l)),其中映射函数S(∙)(l)从x到�s(l)i;节点和邻域之间的联合概率密度函数为p(S(x)(l),H(x)(l))。我们将节点表示和其对应的邻域表示之间的互信息定义为:I(S(x)(l);H(x)(l))=�0X D(l)p(S(x)(l),H(x)(l))∙logp(S(x0p(S(x)(l))∙p(H(x)(l))dx。0该操作鼓励每个节点表示提取其邻居中呈现的上下文信息,(3)̸∼(6)(7)(8)166230邻域表示。然而,互信息在连续和高维空间中计算起来非常困难。幸运的是,通过互信息神经估计(MINE)[1],可以通过最小化InfoNCE损失[22]来实现可伸缩的估计,从而实现互信息的高效计算。N2N互信息在Eq.(2)中的替代InfoNCE损失函数定义为:0L InfoNCE0−Evi∈V0�0logexp(sim(�s(l)i,�h(l)i)/τ)0�0vk∈Vexp(sim(�h(l)k,�h(l)i))0�0其中通过节点采样估计互信息,sim(∙,∙)函数表示余弦相似度,exp(∙)函数表示指数函数,τ是温度参数。正样本是(�s(l)i,�h(l)i),负样本是(�h(l)k,�h(l)i)i�=k。本质上,最大化I(S(x)(l);H(x)(l))可以起到图平滑的作用,已经证明可以有利于节点/图预测。为了详细证明这一点,我们在[18]中引入了一个特征平滑度度量:0δ(l)f=∥�vi∈V(�vj∈Ni(�h(l)i−�h(l)j))2∥10|E|∙D(l),(4)0其中∥∙∥1是曼哈顿范数。工作[18]进一步提出,邻域表示�s(l)i的信息增益定义为Kullback-Leibler散度:0D KL(S(x)(l)∥H(x)(l))=�0X D(l)p(S(x)(l))∙logp(0p(H(x)(l))dx,(5)0与平滑度度量δ(l)f正相关,即D KL(S(x)(l)∥H(x)(l))�δ(l)f。这0观点暗示特征平滑度值δ(l)f较大意味着节点表示{�h(l)i}与其对应的邻域表示{�s(l)i}之间存在显著的不一致。这启发了以下定理(参见附录A证明):定理1 对于具有特征集XD(l)的图G,由DKL(S(x)(l)∥H(x)(l))表示的信息增益与互信息I(S(x)(l);H(x)(l))呈负相关,因此最大化I(S(x)(l);H(x)(l))本质上是最小化DKL(S(x)(l)∥H(x)(l))和δ(l)f,从而实现图平滑的目标:0I(S(x)(l);H(x)(l)) � 10D KL(S(x)(l)∥H(x)(l))0δ(l)f.03.3.拓扑感知的正样本采样(TAPS)0到目前为止,我们通过将AGGREGATION函数应用于节点的所有邻居来获得节点的邻域表示�s(l)i。这种解决方案可能存在两个问题。首先,整个邻域可能包含冗余甚至噪声信息。其次,聚合操作在计算上是昂贵的。为了解决这两个问题,我们提出了一种TAPS策略来进行自监督节点表示学习。基本思想是我们测量节点与其邻居之间的拓扑依赖关系,并根据排名的依赖值对节点的正样本进行采样。对于节点vi,我们使用变量Xi来表示其拓扑信息。Xi可以取值为Ni或Ni =V−Ni,前者对应于邻域信息,后者是邻域的补充上下文信息。根据Xi的定义,我们定义p(Xi = Ni) = |Ni|。0|V|和prob-0|V|,其中|∙|是基数函数。基本上,p(Xi =Ni)表示当我们在图上随机采样一个节点时,节点落入节点vi邻域的概率。此外,对于两个相邻节点vi和vj,我们可以定义以下联合概率:0p(Xi = Ni, Xj = Nj) = |Ni ∩ N0|V|,0p(Xi = Ni, Xj = Nj) = |Ni ∩ (V−0|V|,0p(Xi = Ni, Xj = Nj) = |(V−Ni) ∩ 0|V|,0p(Xi = Ni, Xj = Nj) = |(V−Ni) ∩ (V−0|V|,0其中p(Xi = Ni, Xj =Nj)是随机选择的节点落入vi和vj的交集邻居的概率。受互信息的启发,我们将节点vi和vj之间的图结构依赖性定义为:定义1 邻居节点vi和vj之间的图结构依赖性定义为:0I(Xi;Xj) = �0Xjp(Xi,Xj) ∙ log p(X0p(Xi) ∙ p(Xj),0s.t. vj ∈ Ni.0上述图结构依赖值基本上衡量了两个节点之间的拓扑相似性。较大的值表示两个节点之间的强依赖关系。在TAPS策略中,我们通过对邻居节点和vi之间的依赖值进行排名,选择vi的正样本,然后通过该策略获得邻域表示�s(l)i。166240应用聚合器(例如mean)对所选的正样本进行聚合。特别地,当只选择一个正样本时,我们直接选择与节点vi具有最大依赖值的节点vj,从而避免了昂贵的聚合操作。同时,由于图的拓扑结构仅依赖于邻接矩阵,TAPS允许我们提前执行正样本采样,这可以避免训练过程中的正样本采样开销。04.训练框架0根据GNN编码器、预训练任务和下游任务之间的关系,有三种基于图的自监督训练方案[21]。第一种是预训练和微调(PT&FT)方案。预训练阶段首先使用预训练任务初始化GNN编码器的参数。然后,在特定的下游任务的监督下,对这个预训练的GNN编码器进行微调。第二种是联合学习(JL)方案,其中GNN编码器、预训练任务和下游任务一起进行训练。最后一种是无监督表示学习(URL)方案。与PT&FT类似,URL也采用两阶段训练方案,第一阶段基于预训练任务训练GNN编码器,但在第二阶段的下游任务阶段,GNN编码器被冻结。在我们的工作中,我们采用JL和URL流水线来训练和评估我们的网络。JL训练框架。图1(a)展示了我们的JL训练流程。可以看到,与大多数现有的基于图的自监督学习工作使用GNN作为节点/图编码器不同,我们只是使用一个浅层MLP作为编码器,这更高效。在JL方案中,我们在MLP编码器的输出上同时应用InfoNCE损失和交叉熵损失来获得节点表示。0L = (1 - α) L CE + α L InfoNCE, (9)0其中α是用于平衡两个损失函数的权衡参数。URL训练框架。如图1(b)所示的URL框架包括两个训练阶段:预训练的前置任务使用InfoNCE损失L InfoNCE训练MLP编码器,下游任务使用交叉熵损失L CE学习线性节点分类器。05. 实验0在本节中,我们首先介绍实验设置,包括数据集、比较方法和实现细节。然后我们将与现有方法进行性能比较。最后,我们进行消融研究,揭示所提方法的其他吸引人的特性。05.1. 实验设置0数据集。我们在六个真实世界的节点分类数据集上进行实验:Cora [39],Pubmed [39],Cite- seer [39],AmazonPhoto [28],Coauthor CS [28]和Coau- thor Physics[28]。前三个数据集构建为引用网络1,AmazonPhoto用于亚马逊共购图,CoauthorCS和Physics用于合著关系图。以上六个图均为连通且无向图。我们的模型。我们将N2N-TAPS-x表示为基于TAPS采样前x个正邻居的模型,例如,N2N-TAPS-1采样具有最大依赖值的一个邻居作为正邻居。我们评估我们的方法在1-5个正邻居的情况下,观察正邻居数量对节点分类性能的影响。我们使用N2N-random-1作为我们的基准,其中一个正邻居是随机从节点的邻域中采样的。默认情况下,我们使用mean聚合器将节点的所有邻居作为正邻居,表示为N2N。现有方法。我们采用三种类型的方法进行比较:GNN方法,传统的SSL方法和GCL方法。对于每种类型,选择一些代表性的方法。GNN解决方案包括GCN [20],SGC[34],L2-GCN [39],GraphSAGE-Mean [15],Fast-GCN [3],GAT [31],SplineCNN [13],PNA [8]和CS-GCN [18]。对于传统的SSL方法,我们选择DeepWalk[25]和node2vec[14]进行比较。用于比较的最先进的GCL方法包括DGI[32],GMI [24],MVGRL [16],InfoGraph[30]和Graph-MLP[19]。这些SSL/GCL方法和我们的方法的关键属性从学习类型、训练框架和编码器类型三个角度总结在表1中。0表1. 典型SSL/GCL方法和我们方法的总结。0模型学习类型框架编码器0DeepWalk [25] SSL URL 浅层MLP node2vec [14] URL 浅层MLP0URL GCN GMI [24] URL GCN MVGRL [16] URL GCN InfoGraph[30] URL GIN Graph-MLP [19] JL 浅层MLP0N2N-TAPS-x GCL JL & URL 浅层MLP0实现细节。为了公平比较,我们遵循常见做法,将我们的方法和比较的GNNs和GCL编码器的隐藏层数固定为2。对于所有数据集,我们将隐藏层的维度设置为512。其他一些重要的超参数包括:Cora、Citeseer和CoauthorCS的dropout比例为0.6,Pubmed的dropout比例为0.2,Amazon Photo的dropout比例为0.4,CoauthorPhysics的dropout比例为0.5;L2正则化0对于这三个数据集,我们使用[18, 39]中的训练/验证/测试划分。InfoNCEInfoNCECE166250输入数据MLP0前置任务0CE 输入数据0前置任务0下游0任务0输入数据MLP0MLP(冻结0参数)0阶段1:无监督学习0阶段2:下游任务学习0(a) 联合学习(JL) (b) 无监督表示学习(URL)0图1. 所提出模型采用的两种训练流程示意图。0Cora、Citeseer和CoauthorCS的α为0.01,Pubmed和AmazonPhoto的α为0.001,CoauthorPhysics的α为0.05;所有数据集的训练轮数为1000;Pubmed的学习率为0.01,其他数据集的学习率为0.001;非线性激活函数为ReLU。对于N2N-TAPS-x(JL),Cora、Pubmed和Citeseer的α设置为0.9,Amazon Photo和CoauthorCS的α设置为0.99,CoauthorPhysics的α设置为0.999;Cora、Pubmed、Citeseer和Amazon Photo的温度τ为5,CoauthorCS的温度τ为100,CoauthorPhysics的温度τ为30。N2N-TAPS-x(URL)的温度τ对于所有数据集都是5。这些超参数是通过交叉验证确定的。我们使用Tensorflow 2.4实现了我们的模型。所有实验都在一台配备Intel8核i7-10870H CPU(2.20GHz)、32GBCPU内存和一张GeForce RTX 3080笔记本显卡(16GBGPU内存)的机器上进行。对于每个数据集,我们运行所有模型五次,并使用微平均F1分数的均值和标准差作为评估指标。05.2. 总体结果0表2显示了我们的方法与其他选择方法之间的性能比较。从结果中我们可以得出以下观察结果:(1).我们的N2N模型,无论是N2N(JL)还是N2N(URL),在所有六个数据集上都表现出色。在Cora、Pubmed和CoauthorCS等数据集上,差距可以达到3%。这表明了我们的N2N互信息最大化策略在节点表示学习中相对于GNN和其他基于GCL的解决方案的竞争力。值得一提的另一个问题是,由于我们的N2N方法避免了拓扑增强,并且仅使用MLP作为节点编码器,所以我们的方法在训练和推断方面更加高效。(2).在N2N家族中,当基于TAPS采样更多的正样本时,我们通常观察到改进,但改进幅度很小。这证明了N2N-TAPS-1的潜力,因为它避免了已知昂贵的邻域聚合操作。然而,当从邻域中随机采样单个正样本时,性能显著下降。这个结果表明了所提出的TAPS策略确实可以采样出拓扑上有意义的正样本。(3).在现有方法中,GCL解决方案的性能与完全监督的GNN变体相当,甚至稍微更好。这一观察结果表明SSL在基于图的表示学习中可以是一个有前途的替代方法。0与完全监督的GNN变体相比,这些方法具有可比较的性能甚至略好的性能。这一观察结果表明SSL在基于图的表示学习中可以是一个有前途的替代方法。05.3. 消融研究0在本节中,我们进行了额外的消融研究,以揭示所提出方法的其他吸引人的特性。基于随机正样本采样的N2N(JL)。为了进一步证明我们的TAPS策略的必要性和优势,我们通过改变采样大小从1到5来进行随机正样本采样的实验。我们选择了两个数据集,即Amazon Photo和CoauthorPhysics,进行此实验,因为它们的平均节点度>5。对于每个采样大小,我们使用不同的随机种子运行实验三次。结果如表3所示。从表中我们可以清楚地观察到随机正样本采样导致了较大的性能变化,这意味着随机采样无法识别出一致且信息丰富的邻居。时间消耗。我们的方法预计比现有工作更高效。一方面,我们的工作采用MLP作为节点编码器,因此避免了编码阶段中昂贵的节点聚合。另一方面,TAPS使我们能够提前采样有限数量的高质量正样本。特别是当选择一个正样本时,我们完全摆脱了聚合操作。表4显示了时间消耗的比较结果。从结果中我们可以看到,我们的方法比典型的GNN和基于GCL的方法快几个数量级。Graph-MLP[19]也采用MLP作为编码器,但它将一个节点与可以从该节点到达的所有节点对齐。这解释了它在CS和Physics等大型数据集上的慢速性。TAPS策略的评估。TAPS是我们框架中的一个重要组成部分,用于确保正样本采样的质量和效率。在表2中,我们已经展示了TAPS相对于随机采样在我们的N2N-TAPS-1模型上的优势。在本节中,我们将TAPS采样应用于另一个基于采样的GNN基准模型GraphSAGE-Mean,以验证TAPS是否可以作为一种通用的邻域采样策略来识别信息丰富的邻居。图2显示了结果。默认情况下,GraphSAGE-GCN [20]84.72±0.0887.02±0.0678.20±0.1590.02±0.1090.52±0.2191.04±0.06SGC [34]84.25±0.1086.68±0.0677.65±0.1289.36±0.1690.03±0.1590.12±0.08L2-GCN [39]84.56±0.0386.80±0.0677.06±0.0889.16±0.2690.52±0.0491.15±0.10GraphSAGE-Mean [15]85.04±0.1287.15±0.1477.82±0.1590.05±0.0490.40±0.0890.89±0.12FastGCN [3]84.08±0.0486.92±0.0877.65±0.0588.65±0.1290.00±0.0589.60±0.25GAT [31]85.23±0.1587.85±0.1478.05±0.2686.78±0.2691.10±0.1091.17±0.15SplineCNN [13]85.45±0.1687.82±0.0878.83±0.1389.08±0.1891.13±0.2090.82±0.16PNA [8]85.40±0.1287.20±0.0778.28±0.0590.23±0.1491.35±0.1690.68±0.14CS-GCN [18]85.14±0.0487.75±0.0878.85±0.1690.12±0.1491.14±0.0890.23±0.08DeepWalk [25]77.84±0.1286.52±0.1260.24±0.2883.95±0.2884.75±0.2886.25±0.22node2vec [14]75.15±0.0685.20±0.0265.52±0.1884.16±0.1885.28±0.1885.58±0.18DGI [32]85.08±0.0587.03±0.0878.82±0.1590.06±0.1790.85±0.0889.88±0.20GMI [24]85.26±0.0887.26±0.1678.69±0.1689.25±0.1090.80±0.2090.05±0.08MVGRL [16]85.38±0.0687.25±0.1278.08±0.0688.23±0.1090.62±0.0889.68±0.18InfoGraph [30]84.32±0.0887.56±0.1278.85±0.1290.10±0.2090.42±0.0890.18±0.12Graph-MLP [19]82.50 0.1087.25 0.1378.86 0.0889.25 0.1490.25 0.2089.45 0.108586878889909192123458384858687888912345757677787980818212345868788899091921234588899091929312345GraphSAGE-MeanGraphSAGE-Mean-TAPSN2N-TAPS (JL)N2N-TAPS (URL)888990919212345166260表2.对六个数据集现有方法的性能比较。比较方法的结果是通过运行公开发布的代码或我们自己的实现获得的。报告了5折Micro-f1分数的均值和标准差作为评估指标。每个数据集的最佳结果以粗体突出显示。0模型 Cora Pubmed Citeseer 亚马逊 合著 合著0照片 CS 物理学0N2N-Random-1(JL) 83.46 ± 0.18 86.20 ± 0.08 76.85 ± 0.30 86.25 ± 0.15 89.65 ± 0.06 88.75 ± 0.12N2N-TAPS-1(JL) 85.46 ± 0.08 91.08 ± 0.16 80.24 ± 0.13 89.90 ± 0.08 92.07 ± 0.06 90.70 ± 0.20N2N-TAPS-2(JL) 86.36 ± 0.16 90.76 ± 0.14 80.34 ± 0.06 89.77 ± 0.07 92.11 ± 0.08 90.28 ± 0.24N2N-TAPS-3(JL) 86.74 ± 0.14 90.74 ± 0.05 80.64 ± 0.14 89.71 ± 0.10 92.21 ± 0.07 90.81 ± 0.17N2N-TAPS-4(JL) 86.52 ± 0.15 90.78 ± 0.07 81.06 ± 0.11 89.89 ± 0.08 92.27 ± 0.07 90.42 ± 0.22N2N-TAPS-5(JL) 87.10 ± 0.08 90.78 ± 0.20 80.84 ± 0.11 89.99 ± 0.06 92.37 ± 0.05 91.38 ± 0.12 N2N(JL)87.52 ± 0.20 90.92 ± 0.09 80.90 ± 0.21 90.12 ± 0.26 93.06 ± 0.07 91.41 ± 0.090N2N-Random-1(URL) 82.50 ± 0.10 84.08 ± 0.12 75.06 ± 0.12 86.07 ± 0.12 88.23 ± 0.08 86.56 ± 0.04N2N-TAPS-1(URL) 84.66 ± 0.11 88.42 ± 0.07 77.44 ± 0.07 89.40 ± 0.05 91.72 ± 0.03 90.35 ± 0.06N2N-TAPS-2(URL) 85.60 ± 0.08 89.26 ± 0.08 78.56 ± 0.08 90.49 ± 0.04 91.56 ± 0.03 90.68 ± 0.02N2N-TAPS-3(URL) 87.96 ± 0.08 89.24 ± 0.05 78.36 ± 0.04 90.61 ± 0.05 91.53 ± 0.08 91.20 ± 0.08N2N-TAPS-4(URL) 88.04 ± 0.11 89.32 ± 0.09 78.54 ± 0.07 90.35 ± 0.07 92.03 ± 0.06 90.89 ± 0.05N2N-TAPS-5(URL) 87.84 ± 0.09 89.88 ± 0.05 79.08 ± 0.07 90.65 ± 0.07 91.99 ± 0.04 91.52 ± 0.02N2N(URL) 88.20 ± 0.05 89.30 ± 0.04 79.54 ± 0.02 91.08 ± 0.11 92.31 ± 0.05 91.77 ± 0.080表3.N2N(JL)模型在亚马逊照片和合著物理学上使用随机正样本抽样的性能。我们将正样本抽样大小从1变化到5,并且对于每个抽样大小,我们使用不同的随机种子运行实验三次。0模型 亚马逊 照片 合著 物理学0随机种子 1 2 3 1 2 30N2N-Random-1(JL) 86.25 ± 0.15 85.52 ± 0.14 84.08 ± 0.20 88.75 ± 0.12 87.25 ± 0.10 86.20 ± 0.28N2N-Random-2(JL) 87.68 ± 0.28 85.74 ± 0.18 85.62 ± 0.38 88.62 ± 0.24 87.28 ± 0.14 86.02 ± 0.10N2N-Random-3(JL) 87.95 ± 0.10 86.28 ± 0.08 85.20 ± 0.16 89.24 ± 0.16 87.64 ± 0.10 86.52 ± 0.14N2N-Random-4(JL) 88.25 ± 0.26 86.06 ± 0.20 86.21 ± 0.42 88.82 ± 0.10 86.52 ± 0.20 87.30 ± 0.10N2N-Random-5(JL) 88.30 ± 0.12 85.52 ± 0.14 86.56 ± 0.30 89.65 ± 0.20 87.82 ± 0.15 87.22 ± 0.140Pubmed0Cora0Citeseer0Amazon Photo0合著者CS0合著者物理学0图2.基于不同采样邻居数量的GraphSAGE-Mean、GraphSAGE-Mean-TAPS和N2N-TAPS-x(JL和URL)的性能比较。GraphSAGE-Mean使用随机采样选择邻居,GraphSAGE-Mean-TAPS使用TAPS。0Mean[15]使用随机采样选择邻居进行聚合,存在吸收噪声信息的风险。我们将GraphSAGE-Mean中的随机采样替换为TAPS,并保持所有其他实现不变。其性能明显提升,通常使用更多的邻居可以更好地提高性能。这0表4.典型GNN/GCL方法和我们的N2N-TAPS-x模型的时间消耗比较。数字表示在一个数据集上训练一个方法所需的时间消耗。N2N-TAPS-x模型后面的符号†表示推理时间。时间单位为毫秒(ms)。0模型 Cora Pubmed Citeseer Amazon 合著者 合著者0合著者CS 物理学0GCN [20] 1.68 5.88 6.64 6.08 10.06 11.31 GraphSAGE-Mean [15] 1.56 6.52 6.46 6.28 9.6512.06 FastGCN [3] 1.21 5.73 6.89 5.24 9.06 10.04 DGI [32] 1.82 7.20 8.56 8.25 12.00 15.68GMI [24] 2.08 7.93 9.62 10.18 15.54 21.16 MVGRL [16] 1.95 7.64 9.06 9.30 13.11 16.92InfoGraph [30] 1.86 8.65 11.16 11.42 12.82 15.20 Graph-MLP [19] 0.45 1.08 0.56 0.50 1.823.640N2N-TAPS-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功