LEAP：路径聚合学习边缘预测的通用框架

112 浏览量更新于2023-11-30 收藏 806KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15边缘学习器从路径聚集拉克希特·阿格拉瓦尔加州大学圣克鲁斯ragrawa1@ucsc.edu卢卡·德·阿尔法罗加州大学圣克鲁兹分校luca@ucsc.edu摘要图边及其标签可以表示信息重要的基本要素，例如网页之间的链接，路径⍴用户之间的友谊，用户对其他用户或项目的评级等等。我们介绍了LEAP，一个可训练的，通用的框架，用于预测的基础上的局部结构，拓扑结构和标签的边缘图G，节点（u，v）汇编程序的曲线图。LEAP框架基于对图中连接节点的路径的我们提供了几种方法，通过训练路径聚合器执行聚合阶段，我们证明了框架的灵活性和通用性，将其应用于预测的链接和用户评级在社交网络。我们验证的LEAP框架上的两个问题：链接预测，和用户评级预测。在八个大型数据集上，其中包括arXiv协作网络，酵母蛋白质-蛋白质相互作用和美国航空公司航线网络，我们表明LEAP的链路预测性能至少与当前最先进的方法，如SEAL和WLNM一样好接下来，我们考虑预测其他用户的用户评级的问题：这个问题被称为加权签名网络（WSN）中的边权重预测问题。在比特币网络和维基百科RfA上，我们证明了LEAP的表现始终优于基于公平性的回归模型，训练边的数量在10%到90%之间变化。这些例子表明，LEAP，尽管它的一般性，可以匹配或最好的性能的方法，特别是精心制作的解决非常具体的边缘预测问题。CCS概念• 计算方法学→神经网络;·计算理论→图算法分析。关键词路径聚合;神经网络;边缘学习ACM参考格式：拉克什·阿格拉沃和卢卡·德·阿尔法罗2019年。从路径聚集学习图中的边在2019年万维网会议（WWW '19），2019年5月13日至17日，旧金山，本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2019 IW 3C 2（国际万维网会议委员会），根据知识共享CC-BY 4.0许可证发布。ACM ISBN 978-1-4503-6674-8/19/05。https://doi.org/10.1145/3308558.3313695图1：LEAP框架的概要架构Joshua Bayer ， USA.ACM ，美国纽约州纽约市， 11 页。https://doi.org/10.1145/3308558.33136951介绍图形和网络为许多现实世界的系统和现象提供了自然的表示。例如，在社交网络中，不同的用户可以由图中的节点表示，并且每个友谊关系可以表示为边。类似地，在诸如铁路网络或通信网络的物理系统在这些图中，每条边本身可以包含大量的信息。例如，社交网络中边的存在给出了关系存在或不存在的二进制信号，并且同一网络上的加权边可以给出关系的数值度量，从而增加了可用信息的程度有符号网络还包含图中边的存在和属性受若干结构因素的影响，例如边的局部邻域、图的拓扑以及与图中周围边相关联的属性机器学习方法可用于预测边缘的存在或其属性。例如，链接预测的问题是一个充分探索的研究领域，其中已经试验了从神经网络到深度神经网络的机器学习方法。类似地，关于预测图中特定边属性或权重的问题也可以使用学习算法来解决。在本文中，我们提出了一个通用的深度学习框架，用于在边缘的局部邻域的基础上学习和预测图中的边缘属性该框架使用了聚合图中路径的概念，并命名为LEAP （ Learning Edges by Aggregation of Paths ）。LEAP的一个显着特点是它的通用性：它能够学习任何类型的边缘属性，而不需要特殊的特征提取。路径矢量化器Agg2Agg3Aggn16∈在LEAP中，对于给定的图G=（V，E），其中V是节点的集合，E是图中的边的集合，以及任何两个给定的节点（u，v）V，我们的目标是预测与两个节点之间的边eu，v例如，在链接预测中，我们的目标是预测该边的存在或不存在，而在边权重预测中，我们的目标是预测与边eu，v相关联的权重wu，v。LEAP有一个模块化架构，由三个主要模块组成：路径组装器、路径向量化器和边缘学习器（图1）。这三个模块结合在一起，形成了一个端到端的可培训系统。路径组装器收集节点对（u，v）之间不同长度的路径。pact vectorizer使用聚合器将路径上的边缘学习器使用从路径矢量化器导出的矢量表示，并学习任何给定边缘属性的特定目标LEAP的模块化架构使其易于实现和实验。LEAP中使用的路径聚合器是深度学习模块，它将路径的原始特征作为输入，并产生可训练的聚合，这类似于将边集嵌入到向量空间中因此，聚合器通过计算嵌入来自动执行用于手动执行的特征工程，用于每个感兴趣的属性（边缘预测，边缘权重预测等）。LEAP虽然是一个学习节点和路径本身嵌入的端到端学习系统，但也可以使用预先训练的节点嵌入[8，30]，节点特征和边缘特征。我们提出了四种不同的聚合器的LEAP。聚合器AvgPool、DenseMax、SeqOfSeq和Edge-Conv使用不同的神经组件，并以不同的复杂程度运行，重点关注路径中节点的有序性和路径中边的属性等属性我们使用标准神经模块，如长短期记忆（LSTM）[11]网络，卷积神经网络（CNN）[19]，池化操作（Max和Average）和前馈神经网络，同时构建我们的聚合器。我们在两个特定的图问题上验证了我们的框架：链接预测[21]和加权签名网络（WSN）中的边权重预测[18]。在链接预测中，我们在八个真实世界的数据集上评估了LEAP，并将ROC曲线下面积（AUC）评分与当前最先进的模型WLNM [41]和SEAL [42]以及更多的基线方法进行了比较在Kumar等人提出的WSN边缘权重预测任务中。[18]，我们在三个用户-用户交互数据集上评估了LEAP。其中两个数据集涉及比特币交易网络，用户根据信任度向其他用户提供评级。在第三个数据集中，我们学习了维基百科用户在提交管理员请求（RfA）时分配给其他用户我们表明，LEAP执行类似或更好的这两个问题对专用的方法，为特定的问题。这项工作的主要贡献可归纳如下：我们提出并实现了一个新的深度学习框架LEAP，用于学习和预测图的边缘该框架是通用的，它不需要特征工程，因为它依赖于深度学习来预测边缘属性。我们为LEAP定义了几个边缘聚合器，每个边缘聚合器都适合于特定类别的预测问题，并且我们说明了LEAP如何利用可能已经可用的任何我们考虑两个标准的图预测问题：链接预测（例如，以预测社交网络中的连接的形成）和边权重预测（例如，以预测用户评级）。我们表明，LEAP，尽管它的一般性，密切配合或改善，已建成这些任务的专门系统的性能在本文中，我们将首先讨论一些相关的方法预测的边缘性质的图。然后，我们讨论我们的LEAP框架和路径的使用背后然后对聚合器进行了系统设计和详细讨论。然后，我们提出了从几个数据集的广泛评估的结果。最后，我们对LEAP的可扩展性和模块化设计的一些考虑的文件。2相关工作多年来，图在机器学习问题中产生了强烈的研究兴趣通常研究的问题包括链接预测[21]、节点分类和节点排名[31]等。随着对图的深度学习的兴趣越来越大，已经提出了几种用于学习节点表示的算法。其中包括LINE [33]，DeepWalk [30]和node2vec [8]等嵌入方法。用于学习节点表示的更多基于神经网络的方法包括Graph ConvolutionalNetworks [16] ， GraphSAGE [9] 和 Graph Atten- tionNetworks [35]。这些方法通常也适用于基于边缘的学习任务，如链接预测。链接预测已经使用从神经网络到深度神经网络的方法进行。Martinez等人。 [23]已经将现有的链接预测方法分为基于相似性的，概率和统计，算法和预处理类别。基于相似性的方法基于相似节点彼此具有亲和力的直觉来操作像公共邻居[21]和Adamic-Adar [2]这样的局部聚焦方法是广泛用于链接预测的可解释的简单方法。更复杂的基于相似性的方法包括Katz index [14]，PageRank [29]和SimRank [13]等。 Al Hasan et al. [10]探索了使用标准机器学习分类器进行链接预测。Menon和Elkan [24]也使用因子分解方法进行链接预测。···17⊆×u，vu，v∈--PWeisfeiler-Lehman神经机器（WLNM）[41]，以及子图，嵌入和链接预测属性（SEAL）[42]提出了用于链接预测的专用深度学习系统，并定义了该领域的当前技术状态在加权签名网络中，为了预测边权重，Kumar等人[18] 定义了学习目标和适应方法，如 Bias-Brackave[26]，Signed Eigenvector Centrality [5]，PageRank [29]和更多基于信任的算法。基于边缘的方法也用于SHINE等应用程序中[37]和Rev2 [17]，其中图形的属性用于确定数据集特定的任务。对于加权符号网络中的链接预测和边权重预测任务，我们将在本文后面将LEAP与许多这些方法进行比较3动机现实世界网络中的边缘是潜在支柱的代表4飞跃框架LEAP是一个用于图边缘学习的端到端深度学习框架。驱动LEAP的核心概念是能够简单地从图结构中学习图中的边属性，而不需要任何特征工程。此外，在存在显式特征的情况下，LEAP可以使用可用的特征以及来自图的结构的自学习表示，例如嵌入。LEAP框架由三个独立的模块组成：路径组装器、路径向量化器和边缘学习器;图2中给出了系统的概述。LEAP在给定的图G=（V，E）上操作，其中V是顶点（节点）的集合，并且E V V是边的集合。边可以是有向的或无向的，加权的或不加权的，有符号的或无符号的。两个节点（u，v）之间的长度为l的路径pl由节点u0，u1，. . . ，ul，withu0=u和ul =v.路径集Pl，v ={pl，pl，. . .，pl}u由所有长度为l的路径组成12N（u，.图中的属性以及节点之间的属性。在节点之间V）直观地，对于任意两个节点为了简单起见，我们经常使用符号pl和Pl，（u，v）在图中，它们之间的边eu，v的性质应该取决于参考路径p1和长度为l的路径集合p1节点自身的特性然而，节点本身可以由涉及这些节点的边来表征，因此增加了对邻域的依赖性。因此，eu，v可以受到图中其他几个节点和边的影响，而不仅仅是节点对（u，v）。为了了解更多关于边的信息，因此探索u和v的邻域是很重要的。例如，如果图表代表专业人士或-在cial网络中，u和v之间的边eu，v的形成可以取决于u和v的属性，并且还取决于共同朋友和朋友的朋友的属性，即，取决于从u和v发出的路径的属性。同样，在信任网络中，用户u对用户v的信任程度，构成了eu，v的标签，不仅取决于u和v本身的属性，还取决于信任u和v的其他用户集，以及被u和v信任的其他用户集。为了更多地了解边eu，v，因此重要的是探索u和v的邻域，并且从图中聚集可以最大地影响边eu，v的节点和边。特别地，我们的框架将考虑起始于u并终止于v的路径。这些路径可能涉及大量节点和边，每个节点和边都通过成为两个节点之间路径的中介而与这两个节点相关在顶点（u，v）之间。LEAP的端到端学习目标由图G的输入、两个指定节点（u，v）和关于（u，v）预测的目标属性ρ来指导。例如，在链接预测的情况下，其中框架可以用于预测两个节点（u，v）之间的边的存在或不存在，来自模型的输出预测ρ[0， 1]表示（u，v）之间存在边的概率。类似地，在边权重预测任务中，模型输出ρ可以是边eu，v的预测权重。我们现在定义用于这些学习目标的框架的单独模块。4.1路径汇编程序LEAP的第一阶段是一个探索任务，从图结构中收集数据，供后续学习模块使用。给定一个图G和一对节点（u，v），我们从组装两个节点之间不同长度的路径开始由于学习目标与对（u，v）有关，因此我们不包括所考虑的路径中可能的1长度路径u，v 作为提供给系统的超参数，我们定义了一个集合L = l1，l2，. . . .，lk，作为要使用的路径长度的集合。对于任意长度l∈L，我们现在需要收集一组路径这些中间节点和边为我们提供了长度为l的P。为了便于计算，我们可以限制u和v。我们提出的框架将使我们能够在预测eu，v的属性时从u和v的这个共享邻域中学习。我们注意到，我们也可以考虑起源在u或v，但不连接u和v;这些路径将仅提供u和v之一的表征。扩展我们的框架来考虑这些路径也是很容易的。然而，图嵌入已经使我们能够总结单个节点邻域的属性;因此，我们的框架主要考虑要预测的边缘周围的共享每个子集，以及问题和数据集所需的L的大小：如果两个节点之间有太多的路径，可以提取路径的随机子集供框架使用从框架的角度来看，处理与这些大小无关一旦被收集，路径就以k个路径集合l的形式对系统可用，每个集合由相同长度l的路径组成。在特定长度集合中组装路径的目的是允许我们的系统学习特定于路径长度的属性。例如，当考虑长度的路径时，18∈∈∈∈N−EPE⇐|N|∈vu图G，节点（u，v）u u u乌乌u路径汇编程序uv、节点对v路径集P2V Vvv路集Pkv节点特征、边特征、嵌入路径矢量化器Agg2AGGK、路径向量P2路径向量PkCONCATENATE组合路径向量体hpv边缘学习器分类/回归模块预测图2：LEAP框架概述l=2，（u，v）之间的每条路径仅相差一个顶点。通过一起处理这些路径，我们增加了学习模块每次关注特定变量属性的能力，从而捕获影响预测输出ρ的潜在因素。LEAP框架可以概括为包括从u或到v的一般路径的探索，而不仅仅是从u到v的路径。当很少（或没有）路径连接u到v时，这可能特别有用，而节点u和v单独属于许多路径。4.2路径矢量化器在LEAP的第二阶段，组装的路径通过深度学习系统。这个阶段称为路径矢量化。该阶段的目标是使用节点和路径组合关于节点对（u，v）的所有可用信息，并获得可用于不同边学习目标的向量表示。该模块的灵感来自能够从具有不同维度的复杂数据结构中学习的深度学习架构对于一个有N个节点的图G，每个节点xV被赋予一个整数符号xi[1，N]。为了让LEAP从图中学习，这些符号节点需要表示为可以使用神经网络进一步处理的向量可以使用不同的矢量化方法来表示每个节点。最简单的表示法保留了节点的符号性质，可以使用大小为N的独热向量。在这个符号，节点x， V被表示为大小为N的向量xi，其中如果k=xi，则xi[k]=1，否则xi[k]= 0。虽然这种表示允许不同地识别每个节点为此，在本文中，我们使用密集嵌入的概念[8，9，25，30]来代替独热向量。我们将每个节点xi表示为稠密向量χi一个固定维数K的。这个代表节点的表示是通过引用查找获得的EmB由整个框架，其中χi=EmB（xi）。与深度学习系统中密集嵌入的一般使用此外，本发明还如果我们有一组代表每个节点的工程特征集的节点特征因此，对于节点xi，系统使用的嵌入表示将是xixi （xi），其中（）是级联运算。然后，使用嵌入查找EmB，将由路径组装器提供的节点和路径用于路径向量化器。表示为整数表示的节点序列的每条路径通过嵌入层，以便获得向量序列，其中长度为l的每个序列表示长度为l1的路径在这个阶段，我们有两个相关的节点u和v，路径长度L，路径的集合对于每个长度l，嵌入查找EmB.如果图具有边缘特征，LEAP也可以在学习模块中使用这些特征我们使用算法1从这些输入中获得矢量表示HPV聚合器。在算法1中，路径首先被转换成它们的向量表示，然后通过AggregAtor。学习者是LEAP中的主要学习单元，将在第5节中详细讨论。对于每个路径长度l，相关联的聚合器Aдl负责处理路径并从它们学习向量表示。最初，在路径向量化器中，提供不同长度的路径集合。由于我们的目标是从这些路径中学习长度方面的重要信息，因此我们分别处理每个长度的集合聚合器Aддl是一种深度学习，模块，其将路径集合P1作为输入，并且学习向量表示h1。由于这种独立的模块化结构，LEAP可以使用几种不同类型的聚合器。当用于图形边缘的工程特征也可用时，聚合器还可以使用边缘特征集。在路径向量化器中，针对每个长度lL学习的向量hl与输入节点对（u，v）的向量表示连接在一起，以获得最终向量表示HPV。4.3边缘学习器LEAP的最后一步是在两个给定节点（u，v）之间的边eu，v上执行特定于问题的学习。的19E∈∈←·| ∈←·←|N←|NP∈NE←P|NP∈∈∈∈ − ∈ −算法1PathVectorI zer输入：节点对（u，v），路径长度L，路集lforlL，嵌入查找EmB，节点特征、边特征uEmB（u）（u）vEmB（v）（v）对于L中的L，（1）（1）（（l）h1=AggregAt或（P1，）的情况下）端HPV=ConcAt[（u，v，hl）lL]返回HPV边缘学习模块的输入是组合向量HPV。这个向量现在可以被任何分类或回归方法用于相应的监督学习问题。例如，在链接预测问题中，目标是检测两个节点（u，v）之间的边的存在，该模块可以用作二元分类器，以通过预测（u，v）之间的链接的概率ρ[0，1]来在“链接存在”和“链接不存在”之间进行分类。总的来说，对于任何基于边缘的分类，无论是二元分类还是多类分类，该模块都可以用作具有输入向量HPV的分类器。边缘学习模块也可以用于回归问题。例如，在边权重预测中，我们可以使用模块的输出ρ作为边的预测权重。在带符号边权重的情况下，可以通过允许其产生正值和负值来使用相同的回归模块。在多类分类中，输出ρ可以看作是一个向量ρRM forM number of班由于边缘学习器本身只是一个分类或回归模块，因此在此可以使用任何相应的学习算法。为了将LEAP保持为端到端的可训练深度学习系统，我们使用前馈神经网络进行边缘学习。这些网络可以通过增加层数来改变深度，第一层接收输入向量HPV，最后一层预测输出ρ。给定矢量HPV和参数NEL作为层数，边缘学习器的过程在算法2算法2边缘提取器输入：组合路径向量HPV，层计数NEL，hELHPV对于c = 1。. . N EL dohELσc（Wc hEL+bc）端ρ=σp（Wp hEL+bp）返回ρ网络层，如tanh，ReLU，siдmoid等。对于最终预测输出层，使用权重Wp和偏置bp该层的激活函数σf基于问题的性质来在二进制分类的情况下，通常使用 si<$moid[0， 1]函数。对于多类分类，通常使用sof tmax函数。在有符号网络中的归一化边权重预测的情况下，对于wu，v[ 1， 1]，我们使用tanh[ 1， 1]激活函数来获得表示预测的有符号边权重的浮点值。5聚集模型在上一节中，我们解释了LEAP的体系结构，并讨论了聚合器执行路径向量化的需求。在图中使用聚合器的概念受到GraphSAGE[9]的启发，其中它们通过学习图中节点的表示来执行节点分类。在我们的系统中，我们采用了聚合器的概念，用于组合两个节点（u，v）之间的路径，并获得图中边的在这条路上，在向量化模块中，用于长度为l的路径的聚合器A <$l获得向量化路径集合Pl作为输入，其目的是生成输出向量hl。由于LEAP框架由基于神经网络的每个聚合器本身就是一个深度学习模型，其中输入是秩为4的张量（批量大小，路径数量，路径长度，节点嵌入）。每条路径本身是一个节点向量序列，每条路径集是几个这样的序列的集合。因此，为了得到路径集合的单个向量表示，我们首先需要使用聚合器A node聚合路径中的所有节点，然后使用聚合器Apath聚合这些路径。这些聚合器的训练使用基于梯度下降的方法与整个LEAP系统一起执行。虽然其他几种变体是可能的，但我们提出了本文中使用的四种不同类型的聚合器。5.1AvgPool聚合器我们的第一个聚合器遵循一个简单的架构，将不同的向量组合在一起。我们将这个聚合器的模型该模型仅依赖于所考虑的每个节点xi的嵌入xi该模型没有训练参数。在AvgPool中，一个节点将路径上的所有节点向量连接成一个向量。然后，在这些导出的路径向量的集合上，Apath执行一维平均池化操作。因此，所得到的向量h1R（1+1）K是通过对两个节点（u，v）之间的路径跨路径k K求平均而获得的单个向量。AvgPool聚合器可以概括为：hl=AvgPool（ [（pl），pl∈Pl]）（1）我我对于每个层，c = 1。. . NEL，神经网络网络层由Wc表示，并且该层的偏置由bc表示。σc指的是其中，AvgPool是一维平均池化操作，（·）是向量级联操作，20|我·我我通过将多个向量连接在一起来组合它们（[χ1，χ2，. . . ，χ1]）= χ1 |χ2|. . . |其中（）是两个向量的级联。Pl是图G中两个结点之间长度为l的向量化路（u，v）。pl，索引为i，是集合中长度为lPl.AvgPool依赖于每个节点的嵌入，并将路径表示为组合的所有节点的固定大小向量由于这些路径的第一个和最后一个节点分别是节点u和v，因此仅有的变化位属于路径内的通过对这些节点执行按位池化操作，我们可以导出路径集中变化节点的平均向量由于嵌入本身仍然是由完整的框架训练的，因此更新节点嵌入所获得的梯度对应于这些平均表示及其对最终输出ρ的影响。5.2DenseMax聚合器到v然后根据它们的总权重排序，我们可以按照指定的顺序处理它们为此，聚合器Anode和Apath需要对输入的顺序敏感。在SeqOfSeq聚合器中，我们首先在每条路径上使用LSTM Lstminner。从Lstminner的输出激活中，我们通过执行最大池化操作来提取路径的向量表示。在这种情况下，聚合器A节点由Lstm内部操作和最大池化操作两者组成。我们在这里使用了一个最大池，而不是只使用lstm内部的最后一个时间步的激活：我们相信，由于我们的目标是从路径本身提取信息，因此最大池操作在总结路径时比最终激活更有效。在将每个路径汇总为单个向量之后，路径向量序列由另一个LSTM Lstm外部的组合处理，然后是最大池化操作，作为A路径聚合器。SeqOfSeq聚合器可以总结为：l l lDenseMax聚合器是一种学习模型，它为每条路径使用密集（前馈）神经网络层。与AvgPool类似，在DenseMax中，A节点获得H内 =[M A xPool（Lstminner（pi）），Lstmpi ∈P]hl =MA xPool（ Lstm外部（H内部））（四）每个路径通过将节点向量连接成单个长向量。在这个模型中，在Apath处，路径向量首先通过一个密集的神经层。然后将得到的激活通过最大池化操作，这有助于导出长度为l的路径的单个向量表示。因此，DenseMax中的Apath 由密集神经网络层和一维最大池化操作组成DenseMax聚合器的操作可以总结为：hl=MA xPool（ [σ（Wl·（pl）+bl），npl∈Pl]）（3）其中MA xPool是一维最大池化操作，Hinner是导出路径向量的中间序列，Lstminner和Lstmouter分别是用于处理相应序列的内部和外部LSTM。也可以创建SeqOfSeq的变体以仅在路径处或仅在节点处使用顺序信息。通过使用序列学习神经网络（如LSTM），SeqOfSeq聚合器比AvgPool或DenseMax聚合器更强大，并且它训练了大量的其中Wl和bl是密集神经层的权重矩阵和偏置σ是密集层. （）是vector concatenation操作。MA xPool是一维最大池化操作，它从多个向量中选择按位最大值以导出单个最终向量。在这些表示上使用MA xPool操作，以便捕获可能影响最终输出ρ的最活跃的位。5.3SeqOfSeq聚合器从u到v的节点序列可以保存与最终预测相关的信息例如，如果u和v之间的边的存在取决于两个节点之间的路径的存在，并且边的权重连续增加，则节点的顺序包含对模型的最终结果具有重要意义的信息。因此，在SeqOfSeq聚合器中，我们将路径视为节点的有序序列我们可以进一步将路径集视为不同路径的序列，如果路径可以使用某些特征进行例如，如果边由权重标记，则路径的总权重pl是路径中每个边的边权重之和如果从u开始的路径参数5.4EdgeConv聚合器路径的边缘本身可以包含重要信息。为了强调学习也从边缘，我们提出了一个聚合器称为EdgeConv，它专注于边缘，同时在路径上操作为了构建一个可以在边缘上操作的学习小部件，我们使用了一个窗口大小为2的一维卷积神经网络（CNN），它将形成边缘的两个连续节点作为输入因此，当一条路径被表示为一系列节点时，卷积核会关注沿着边缘的所有连续节点对。给定所有连续节点对的卷积结果，我们应用最大池化操作来计算整体路径标签。因此，EdgeConv的聚合器A节点由一维CNN和最大池化操作组成考虑到导出路径的集合是一个有序序列，这种情况下的A路径也使用了LSTM和最大池操作。因此，然后使用LSTM处理使用A节点导出的长度为l的路径的所有路径向量，随后进行另一个最大池化操作以导出最终向量表示h_l。21∈EdgeConv可以总结为：H内部=[MA xPool（ Conv1D（pl）），pl∈Pl]（五）表1：用于评价的数据集总结类型名称节点边缘我我hl =MA xPool（ Lstm（Hinner））链接预测USAir 332 2，126其中MA xPool是一维最大池化操作，Hinner是导出路径向量的中间序列，Lstm是用于从不同路径向量学习的LSTM模块。类似于SeqOfSeq，不必将路径视为有序序列，并且EdgeConv的不同变体可以将导出路径的集合视为无序集合。然而，节点序列需要在EdgeConv中排序，因为它在边缘上连续操作。5.5聚合器扩展上面介绍的四个聚合器提供了不同的复杂程度，并使用不同的神经网络模块。总之，它们说明了LEAP的模块化特性如何允许我们使用不同的神经网络架构作为完整系统的一部分进行端到端训练。我们认为，使用聚合器是实现可扩展和灵活框架的关键可以通过重点关注所关注的重要财产这些聚集器还可以包括注意力[3，22]和记忆[40]的新深度学习概念类似地，图卷积网络[16]和图注意力网络[35]等特定于图的神经模型可以通过将组装的路径集表示为子图来适应当我们训练聚合器和整个框架时，它们可以使用任何目标函数单独训练在迁移学习的情况下，经过良好训练的模型可以被迁移到LEAP框架中，并且可以简单地作为函数使用，而无需进一步训练类似地，部分训练的模型可以用作聚合器，并且可以通过完整框架的学习目标进一步训练6评价LEAP系统的设计和聚合器的使用对于具有较少节点的小图，可以使用具有较少参数对于非常大的数据集，我们可以针对图中的几个潜在属性为了证明该系统的学习能力，我们评估它在图和社交网络中的两个常见的研究问题-链接预测，并在加权签名网络的边权重预测6.1链接预测随着时间的推移，图和网络通过在节点之间创建新的链接而发展。给定一个图G和一对节点（u，v），链接预测问题的目的是预测两个节点之间的边eu，v6.1.1学习目标。为了使用LEAP框架学习这个目标，在边缘学习器模块中，我们可以将其视为二元分类问题。从图G=（V，E），可以将边集合E视为正样本集。类似地，可以从图中采样一组节点对（x1，x2）V，其中边ex1，x2gE是用于分类的负集合。因此，标签τ=1可以与正对相关联，标签τ=0与负对相关联。6.1.2数据集。我们在八个真实世界的数据集上评估了LEAP链接预测模型。数据集的选择是由两种最先进的模型-WLNM [41]（Weisfeiler-Lehman神经机器）和SEAL[42]（链接预测的子图，嵌入和属性）中呈现的链接预测结果驱动的。本文中使用的数据集列于表1。USAir [4] 是美国航空公司的网络图网络科学（Network Science，NS）[27]是网络科学领域研究人员的合作网络政治博客（Political Blogs，PB）是美国的一个政治博客网络。酵母[36]是酵母的PPI（蛋白质-蛋白质相互作用）网络。C.ele是线虫秀丽隐杆线虫的神经网络[38]。大肠杆菌是大肠杆菌中代谢物的成对反应网络的数据集[43]。arXiv [20]是arXiv上天文物理学类别下的研究论文的合作网络Facebook（FB ）[20]是Facebook社交网络的好友列表数据集6.1.3实验设置。我们对上述数据集进行了一系列广泛的实验，以评估和比较我们的框架与链接预测中最先进的方法。对于每个数据集，我们将可变数量的数据样本采样到训练集中，并在剩余样本上评估模型。本文中给出的结果采用了当前最先进的方法SEAL [42]中使用的分区。对于小于2500个节点的较小数据集，我们使用90%的图边和相等数量的负样本进行训练，并在剩余的10%边和相等数量的负样本NS1,5892,742PB1,22216,714酵母2,37511,693C.ele2972,148E.coli1,80514,660arXiv18,722198,110FB4,03988,234加权签名比特币场外交易5,88135,592网络比特币-阿尔法3,78324,186Wikipedia-RFA9,654104,55422--表2：LEAP与基线的ROC曲线下面积（AUC）比较。突出显示最佳LEAP结果和最佳数据集结果n2v指的是在LEAP中使用node2vec嵌入OOM指的是内存不足。USAirNSPB酵母C.eleE.coliarXivFB阿达米奇-阿达尔0.95070.94980.92500.89730.86590.9524--卡茨0.92730.95240.93060.92640.86060.9329--PageRank0.94860.95290.93740.93140.90460.9548--node2vec0.91220.91980.86210.94070.83870.90750.96180.9905谱聚类0.74820.88290.82610.93460.50070.95140.87000.9859WLK0.95980.9864OOM0.95500.8965OOM--WLNM0.95710.98860.93630.95820.86030.97060.99190.9924密封0.97290.97610.95400.96930.91140.97040.99400. 9940LEAP-AvgPool0.92590.93620.95550.94740.90110.94840.99180.9916LEAP-DenseMax0.95550.97850.95410.95730.90500.96620.99400.9914LEAP-SeqOfSeq0.95760.96350.95470.95400.91530.96260.99410.9907LEAP边缘转换0.96390.96210.95770.95540.90580.96140.99410.9908LEAP-n2v-AvgPool0.90860.90680.95860.95510.89090.95050.99190.9920LEAP-n2v-DenseMax0.95180.96360.95640.96520.91290.97190.99340.9914LEAP-n2v-SeqOfSeq0.95320.96180.95710.96100.90830.96620.99380.9924LEAP-n2 v-边缘转换0.95470.96220.95750.96390.91850.96780.99410.9921对.对于至少有4000个节点的相对较大的数据集，我们将训练和评估数据集划分为50%。LEAP1系统和聚合器是用Python和Keras [7]深度学习框架编写的，使用Tensorflow [1]后端。使用多个试验选择每个累加器的超参数。我们报告了每个设置的最佳超参数的结果。在所有报告的结果中，我们使用了L=3，4的路径长度，并为每个随机选择的长度使用了多达50条路径。所有方法都使用二进制交叉熵的损失函数和Adam [15]优化器进行训练，用于梯度下降，学习率为0.001。每个模型都被训练了多达30个epoch，并启用了提前停止6.1.4结果我们在表2中给出了根据上述LEAP实验装置获得的结果。结果包括LEAP与四个聚合器-AvgPool，DenseMax，SeqOfSeq和EdgeConv，在论文中讨论。此外，我们还比较了我们的模型学习节点嵌入本身与使用预先训练的嵌入的能力对于预训练的嵌入，类似于SEAL，我们首先在图上使用node2vec [8]方法来导出节点嵌入，然后将它们与LEAP框架一起使用，而无需在系统训练期间进一步更新它们。我们比较这些结果与三种不同的方法用于链接预测。我们首先使用Adamic-Adar[2]，Katz索引[14]和PageRank [6]算法。对于基于特征学习的模型，我们使用光谱聚类[34]和node2vec [8]算法，1代码可在https://github.com/rakshit-agrawal/LEAP上获得学习节点嵌入，然后对它们执行链接预测任务。最后，我们将我们的系统与基于子图的链接预测方法进行了比较，定义了当前的技术水平。这些方法包括Weisfeiler-Lehman图内核（WLK）[32]，Weisfeiler-Lehman神经机器（WLNM）[41]和子图，嵌入和链接预测属性（SEAL）[42]。使用ROC曲线下面积（AUC）度量比较所有模型的性能。我们使用Zhang等人的设置和结果。[42]用于我们所有的基线方法。从表2中可以看出，LEAP在每个数据集上的表现最好或接近最好。此外，我们还证明了一种用于学习节点嵌入的外部方法，如node2vec，可以很容易地在系统中使用。类似地，我们还可以在可用的情况下合并节点的已知特征向量。与深度学习方法和当前最先进的WLNM和SEAL相比，LEAP使用所提出的聚合器实现了等同或更好的性能然而，由于其模块化的性质，LEAP框架可以高度扩展，并适用于具有不同潜在属性的不同数据集。此外，SEAL需要节点标记和嵌入生成两个重要步骤，然后才能在图上训练神经网络。在使学习框架易于在多个平台上部署时，具有端到端的可训练系统是非常有利的，并且LEAP提供了这种具有足够模块化的特定能力，以根据需要调整模型的简单性。23∈∈||∈ −∈∈比特币场外交易比特币-阿尔法维基百科-RfA0。60。50。40。30。20。10。600。550。500。450。400。350。300。20岁40.60.8删除边的百分比（%）比特币场外交易0。20岁40.60.8删除边的百分比（%）0。50。40。30。20。10。50。40。30。20岁40.60.8边缘移除百分比（%）Bitcoin-Alpha0。20岁40.60.8删除边的百分比（%）0。50。40。30。20。10。00。400。350。300。250。20岁40.60. 8删除边的百分比（%）维基百科-RfA0。20岁40.60. 8删除边的百分比（%）LEAP-AvgPool LEAP-DenseMax LEAP-SeqOfSeq LEAP-EdgeConv有符号特征向量中心性偏置非线性公平优度线性回归（F X G+）PageRank倒数图3：加权有符号网络的三个数据集上的PCC（上）和RMSE（下）图x轴是指在训练模型时删除的边缘的百分比在所有数据集上，以及沿着这两个指标，基于LEAP的方法显示出明显更好的性能，复杂的聚合器SeqOfSeq和EdgeConv在这两个指标上都提供了最佳性能。6.2加权符号网络在真实世界的数据集中，代表节点之间的某种关系，边可以拥有不同的有意义的属性，这些属性对底层网络具有重要意义。例如，在用户-用户交互系统中，每个用户可以具有与另一用户相关联的信任。这种信任进一步通过网络传播，以某种方式影响两个不同用户之间的信任。通过加权符号网络（WSN）得到了这类网络的一般表示.WSN由图G=（V，E）组成，其中两个节点（u，v）V之间的边eu，vE具有与其相关联

下载后可阅读完整内容，剩余1页未读，立即下载