异构图神经网络的架构与应用

10 浏览量更新于2023-11-29 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2704⟩⟨（）下一页异构图形Transformer紫牛湖加州大学洛杉矶bull@cs.ucla.edu王宽三微软研究院，雷德蒙kuansanw@microsoft.com董玉晓微软研究院，雷德蒙yuxdong@microsoft.com孙一舟加州大学洛杉矶yzsun@cs.ucla.edu摘要近年来，图神经网络（GNN）在结构化数据建模然而，大多数GNN都是为同构图设计的，其中所有节点和边都属于相同的类型，这使得它无法表示异构结构。在本文中，我们提出了异构图Transformer（HGT）的架构建模的Web规模的异构图。为了对异质性进行建模，我们设计了节点和边缘类型相关的参数来表征每个边缘上的异质注意力，使HGT能够为不同类型的节点和边缘保持专用的表示。为了处理Web规模的图数据，我们设计了异构的小批量图采样算法-HGSampling-用于高效和可扩展的训练。在1.79亿个节点和20亿条边的开放学术图上进行的广泛实验表明，所提出的HGT模型在各种下游任务上的性能始终优于所有最先进的GNN基线9%-21%。HGT的数据集和源代码可在www.example.com上公开获得https://github.com/acbull/pyHGT。关键词图神经网络;异构信息网络;表示学习;图嵌入;图注意ACM参考格式：虎紫牛、董玉笑、王宽三、孙益州。2020.异构图形Transformer。在网络会议2020（WWW '20）的会议记录，2020年4月20日至24日，台北，台湾。 ACM ，美国纽约州纽约市， 7 页。https://doi.org/10.1145/3366423.33800271引言异构图通常用于抽象和建模复杂系统，其中不同类型的对象以各种方式相互这种系统的一些流行实例包括学术图、Facebook实体图、LinkedIn经济图以及广泛的物联网网络[13]。例如，开放学术图（OAG）[23]包含五种类型的节点：论文，作者，机构，场地这篇文章是在子牛在Mic rosoftResea rch实习时完成的。本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2020 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-7023-3/20/04。https://doi.org/10.1145/3366423.3380027图1：开放学术图谱（OAG）的模式和Meta关系（期刊、会议或预印本）和字段，以及它们之间的在过去的十年中，一个重要的研究路线已经探索挖掘异构图。经典的范例之一是定义和使用Meta路径来建模异构结构，例如PathSim [14]和metapath2vec [2]。最近，鉴于图神经网络（GNNs）的成功[4，6，17]，有几种尝试采用GNNs来学习异构网络[11，18，21，22]。然而，这些工作面临着几个问题：首先，他们中的大多数涉及Meta路径的设计或每种类型的异构图的变体，需要特定的领域知识;其次，他们要么简单地假设，不同类型的节点/边缘共享相同的功能和表示空间，或保持不同的非共享权重的节点类型或边缘类型单独，使他们不足以捕捉异构图的属性;最后，他们的内在设计和实现，使他们无法建模Web规模的异构图。鉴于这些限制和挑战，我们建议研究异构神经网络的目标是保持节点和边缘类型的依赖表示，避免自定义Meta路径，并可扩展到Web规模的异构图。在这项工作中，我们提出了异构图Transformer（HGT）架构来处理所有这些挑战。为了处理图的异构性，我们引入了节点和边类型的相关注意机制.而不是参数化每种类型的边缘，异构的相互注意，在HGT是通过基于其Meta分解每条边e=s，t来关系三元组，即， s的节点类型，st之间e的边类型，t的节点类型。图1说明了异构学术图的Meta关系具体来说，我们使用这些Meta关系来参数化权重矩阵，以计算每条边的注意力。因此，允许不同类型的节点和边保持其特定的表示空间。同时，WWW胡紫牛、董玉晓、王宽三、孙一舟2705（）下一页（）下一页n∈N（t）（）（）⟨ ( )（）下一页（）（）下一页∈（）.Σ⟨ ( )（）下一页（）不同类型的连接节点仍然可以交互、传递和聚集消息，而不受其分布间隙的限制由于其体系结构的性质，HGT可以通过跨层传递消息来合并来自不同类型的高阶邻居的信息，这些层可以被视为也就是说，即使HGT仅将其单跳边缘作为输入而不手动设计Meta路径，所提出的注意力机制也可以自动且隐式地学习和提取为了对Web规模的异构图进行建模，我们设计了第一个异构子图采样算法-HGSampling-用于小批量GNN训练。其主要思想是对异质子图进行采样，其中不同类型的节点具有相似的比例，因为直接使用现有的（同质）GNN采样方法，如GraphSage [4]，FastGCN [1]和LANN [24]，导致节点和边类型高度不平衡此外，它还被设计为保持采样子图的密集性，以最大限度地减少信息的丢失。使用HGSampling，所有的GNN模型，包括我们提出的2.2整体HGT架构图2显示了Heterogeneous Graph Transformer的整体架构。给定一个采样的异构子图（Cf.第3节），HGT提取所有链接的节点对，其中目标节点t经由边e与源节点s链接。HGT的目标是聚合来自s的信息以获得目标节点t的上下文化表示。该过程可以分解为三个部分：异构互注意、异构消息传递和特定目标聚合。我们将第1个HGT层的输出表示为H（1），其也是第1+1层的输入通过堆叠L层，我们可以得到整个图H（L）的节点表示，可用于端到端训练或馈送到下游任务。2.3异质性相互注意第一步是计算源节点s和目标节点t之间的相互注意力。我们首先简要介绍一下一般的基于注意力的GNN，如下所示：HGT可以在任意大小的异构图上进行训练和推理我们证明了所提出的异构图Transformer的有效性和效率的Web规模的开放Aca-Hl[t] ←聚合n∈N（t），n∈E（s，t）.注意（s，t）·留言（s）（1）demic Graph由1.79亿个节点和20亿条边组成，这是迄今为止在异构图上进行的最大规模的表示学习。实验结果表明，HGT可以显着提高各种下游任务比最先进的GNN基线9%-21%。我们进一步进行案例研究，以显示所提出的方法确实可以自动捕捉不同任务的隐式Meta路径的重要性。2异构图形Transformer在本节中，我们介绍异构图形转换器（HGT）。它的想法是使用异质的Meta关系新的图形参数权重矩阵的异质，其中有三个基本运算符：Attention，估计每个源节点的重要性;Message，仅使用源节点s提取消息;以及Aggregate，通过注意力权重聚合邻域消息例如，图注意力网络（GAT）[17]采用了与注意力相同的加法机制，使用相同的权重来计算消息，并利用简单的平均值，然后对聚合步骤进行非线性激活从形式上讲，GAT注意GAT（s，t）=Softma x。a→.WHl−1[t]WHl−1[s]消息GAT（s）=W Hl−1[s]总GAT（·）=σ平均值（·）密切的相互关注、信息传递和传播步骤。2.1异构图异构图[13]（a.k.a.，异构信息网络）是对关系数据和许多现实世界复杂系统建模的重要抽象形式上，异构图被定义为有向图G=（V，E，A，R），其中每个节点v ∈ V和每个边e ∈ E分别与它们的类型映射函数τ（v）：V → A和τ（e）：E → R相关联。Meta关系。对于从源节点s链接到目标节点t的边e=s，t，其Meta关系表示为τ s，τ e，τ t。自然地，e−1代表e的倒数。经典的Meta路径范式[13请注意，为了更好地模拟真实世界的异构网络，我们假设两个节点之间可能存在多种类型的关系。例如，在OAG中，通过考虑作者身份顺序，作者和论文节点之间可能存在不同类型的关系，例如，虽然GAT是有效的给予高的关注值的重要节点，它假设s和t具有相同的特征分布，通过使用一个权重矩阵W。正如我们在第1节中讨论的那样，这种假设对于异构图通常是不正确的，其中每种类型的节点都可以有自己的特征分布。针对这一局限性，本文设计了异构互注意机制。给定一个目标节点t，以及它的所有邻居s N t，它们可能属于不同的分布，我们想通过它们的Meta关系来计算它们的相互注意力，即，τs，τe，τt三胞胎受Transformer [16]架构设计的启发，我们将目标节点t映射为Query向量，将源节点s映射为Key向量，并计算它们的点积作为注意力。关键的区别在于，vanilla Transformer对所有单词使用一组投影，而在我们的例子中，每个Meta关系都应该有一组不同的投影权重。为了最大化参数共享，同时仍然保持不同关系的特定特征，我们建议将交互算子的权重矩阵参数化为源节点投影、边缘投影和目标节点投影。具体来说，我们计算h-头异构图形TransformerWWW2706（）（）（）（）（）下一页（）（）∈（）下一页（）（）n∈N（t）（）下一页i∈[1，h]ATT-水头（s，e，t）=K（s）W（e）Q（t）·布吕softmax，使其实现注意HGT（s，e，t）=1h×1。τs由源节点每种节点都有一个唯一的线性投影，MSG-头i （s，e，t）=M-线性iH（l−1）[s]图2：异构图Transformer的整体架构。给定一个以t为目标节点，s1，s2为源节点的采样异构子图，HGT模型取其边e1=s1，te2=s2，t及其对应的Meta关系&&< τs1，τe1，τt>&<τs2，τe2，τt>作为输入，以学习每个节点的上下文化表示H（L），其可以用于下游任务。颜色解码节点类型。HGT包括三个组成部分：（1）Meta关系感知的异构互注意，(2)来自源节点的异构消息传递，以及（3）目标特定的异构消息聚合。注意每个边e=（s，t）（见图2（1）），通过：µR|一|×|R|× |一|表示每个Meta的一般意义关系三元组，用作对注意力的自适应缩放注意HGT（s，e，t）= Softmax。ATT-表头i（s，e，t）最后，我们将h个注意力头连接在一起，I.iATTiTµτ（s），（e），τ（t）我们聚集所有的注意力。从它的邻居N（t）和行为Ki（s）=K-线性i.H（l−1）[s]2.4异构消息传递τ（s）。Στ（t）在计算相互注意力的同时，我们传递信息-Qi（t）=Q-线性iH（l−1）[t]从源节点到目标节点（见图2（2））。类似注意力的过程中，我们想把Meta首先，对于第i个关注头ATT-头i（s，e，t），我们投影将τ（s）型源节点s转换为第i个密钥向量Ki（s），边的关系到消息传递过程中，以减轻不同类型的节点和边的分布差异用于i dd对于节点对e=（s，t），我们通过以下公式计算其多头消息投影K-线性τ（s）：R→Rh，其中h是注意头数，d是每个头的向量维数注意消息HGT（s，e，t）=0MSG-头i（s，e，t）（3）HK-线性isi∈[1，h].Στ（s）模拟分布差异。同样，我们也预测为了获得第i个消息头MSG-headi（s，e，t），我们首先将目标节点t具有线性投影Q-Lineari到第i个查询向量。τ（t）将τ（s）型源节点s转换为具有线性i dd接下来，我们需要计算查询投影M-线性τ（s）：R→Rh。然后是矩阵i i味精d×d向量Q（t）和密钥向量K（s）。一个独特的特点，W∈Rhh用于合并边缘依赖性。最终异构图的一个重要特征是可能存在不同的边类型节点类型对之间的（关系），例如，τs和τt。因此，与直接计算Query和Key向量之间的点积的普通Transformer不同，我们保留了一个独特的边缘-步骤是连接所有h个消息头以获得消息HGTs，e，t对于每个节点对。2.5目标特定聚合ATTd×d对于每个边类型<$（e），基矩阵W<$（e）∈Rhh在这样做通过异构多头注意力和消息调用，每个节点对的注意向量然后，对于每个目标节点t，W味精（e）异构图形TransformerWWW2707该模型甚至可以在相同的节点类型对之间捕获不同的语义关系此外，由于并非所有关系对目标节点的贡献都相等，因此我们添加了先验张量计算后，我们需要将它们从源节点聚合到目标节点（见图2（3））。注意，等式中的softmax过程2对每个目标节点t的注意力向量求和WWW胡紫牛、董玉晓、王宽三、孙一舟2708⟨ ( )（）下一页（）τ（t）~[]（）∈[]（）[]（）n∈N（t）[客户端]HGTHGT确保：采样节点集NS;采样邻接矩阵A。1：NS←OS//将采样节点集初始化为输出节点集。2因此，我们可以简单地使用注意力向量作为权重来平均来自源节点的相应消息，并得到更新向量H~（l）[t]：算法1异构小批量图形采样要求：每个的邻接矩阵A τs，τe，τt关系对;输出节点集合OS;每个节点类型的样本数nH~（l）[t]=0.注意（s，e，t）·消息（s，e，t）取样深度L。ˆ这将来自不同特征分布的所有邻近节点（源节点）的信息聚合到目标节点t最后一步是将目标节点t的向量映射回其类型特定的分布，并按其节点类型进行为此，我们将线性投影A-Linearτt应用于更新的向量H（l）t，然后是非线性激活和残差连接[5]，如下所示：H（l）[t]=σ。A-L_rτ（t）H~（l）[t]_r+H（l−1）[t].（四）2：初始化一个空的预算B，该预算B存储具有标准化度的每个节点类型的节点3：对于t NS，4：Add-In-Budget（B，t，A，NS）//将t的邻居添加到B。第五章：端第六章： forl← 1 toLdo7：对于源节点类型τ∈B，8：对于源节点s∈B[τ]，9：prob（l−1）[τ][s] ←B[τ][s]//计算采样概率B[τ]这样，我们得到第l个HGT层H（l）[t] 针对目标2节点类型为τ的每个源的能力。诺德湾由于真实世界图的将HGT块堆叠L层（L是小值）可以10：结束11：样本n个节点{ti}n[1][2][3][4][5][6][7]使每个节点都能到达大比例的节点，12：对于t∈ {t}ni=1做ent类型和关系-在完整的图形中。也就是说，HGT生成十三：ii=1每个节点的高度上下文化的表示H（L），OSτ。add t//将节点t添加到输出节点集。14：Add-In-Budget（B，t，A，NS）//将t的邻居添加到B。可以被馈送到任何模型中，以执行下游异构网络任务，例如节点分类和链路预测。通过整个模型架构，我们高度依赖于使用15：B τ。popt//从Budget中删除采样节点t。16：结束17：结束Meta关系--ττ（s），τ（e），τ（t）τ--用于参数化权重18：结束ˆ矩阵分别。这可以被解释为一种权衡，模型的容量和效率。与传统的Trans- former模型相比，我们的模型区分了不同关系的算子，从而更能够处理异构图中的分布差异。与现有的模型，保持一个独特的矩阵为每个Meta关系作为一个整体，HGT的三元组参数化可以更好地利用异构图模式，以实现参数共享。一方面，具有很少发生的关系可以从这样的参数共享中受益，以实现快速自适应和泛化。另一方面，不同关系的操作符仍然可以通过使用小得多的参数集来保持其特定的特性。3用于网络规模培训在本节中，我们提出了一种高效的异构小批量图形采样算法-HGSampling-以使HGT和传统GNN能够处理Web规模的异构图形。HGSampling能够：1）保持每种类型的节点和边的数量相似; 2）保持采样子图的密集性，以最大限度地减少信息损失并降低样本方差。算法1概述了HG采样算法。它的基本思想是为每个节点类型τ保持单独的节点预算Bτ，并使用重要性抽样策略对每个类型的相等数量的节点进行抽样以减少方差。假设节点t已经被采样，我们使用算法2将其所有直接邻居添加到相应的预算中，并将t的归一化度添加到第5行中的这些邻居中，然后将其用于计算采样概率。这种归一化相当于将每个采样节点的随机游走概率累加到其邻域，避免了采样被高度节点所支配直觉上，这样的值越高，候选节点与19：从A重构采样节点OS之间的采样邻接矩阵A。20：返回OS和A;当前被采样的节点，并且因此应当被给予更高的被采样的概率。更新预算后，我们在算法1的第9行中计算抽样概率，其中我们计算每个预算中每个节点s的累积归一化度的平方如[24]中所证明的，使用这样的抽样概率可以减小抽样方差。然后，我们使用计算出的概率对类型τ中的n个节点进行采样，将它们添加到输出节点集中，将其邻域更新为预算，并在第12-15行中将其从预算中删除。重复这样的过程L次，我们从初始节点得到具有L深度的采样子图。最后，我们重建采样节点之间的邻接矩阵。通过使用上述算法，采样子图包含每种类型的相似数量的节点（基于单独的节点预算），并且足够密集以减少采样方差（基于归一化度和重要性采样），使其适合于在Web规模的异构图上训练GNN。4评价在本节中，我们在开放学术图（OAG）[23]上评估了所提出的异构图Transformer-最大公开异构学术数据集。我们进行纸张字段预测，纸张地点预测和作者消歧任务。我们还通过案例研究来证明异构图形TransformerWWW2709⟨ ( )（）下一页（）.Σ[]（）[ ][ ] ←[ ][]数据集节点数#边缘#文件#作者#字段#场馆研究所数量#P-A#P-F#P-V#A-I#P-POAG178,663,9272,236,196,80289,606,25788,364,081615,22853,07325,288300,853,688657,049,40589,606,258167,449,9331,021,237,518表1：开放学术图谱（OAG）统计。算法2附加预算要求：预算B存储具有规范化度的每个类型的节点;添加节点t;每个τs，τe，τt关系对的邻接矩阵A;采样节点集NS。确保：更新预算B。1：对于每个可能的源节点类型τ和边类型τd0，我们选择所有具有相同姓名的作者及其相关论文。任务是在这些论文和候选作者之间进行链接预测。在从GNN中获得论文和作者节点表示后，我们使用神经张量网络来获得每个作者-论文对被链接的概率对于所有任务，我们使用2015年之前发表的论文作为2：Dt←1/lenAτ，，τ（t）[t]//得到添加的节点t关于ττ，τ，τ（t）τ的归一化d度训练集，2015年至2016年的验证论文以及2016年至2019年的测试论文我们选择NDCG和MRR，这是两个广泛采用的排名指标[7，8]，作为3：对于Aτ，τ，τt中的源节点s没做4：如果s尚未被采样（sgNS），则5：BτsBτs+Dτ t//Add候选节点用于预算具有目标节点t的归一化度的B。6：如果结束7：结束八：端9：返回更新后的预算BHGT如何自动学习和提取Meta路径，这对数据恢复任务至关重要。4.1网络规模数据集为了研究异构图Transformer及其现实应用，我们使用开放学术图（OAG）[12，23]作为我们的实验基础。 OAG由超过1.78亿个节点和22.36亿条边组成，这使得它们比现有异构GNN和异构图挖掘研究中常用的其他数据集至少大两到三个数量级。此外，它比以前广泛采用的GNN研究中使用的小引用图（如Cora，Citeseer和Pubmed [6，17]）更具可区分性，后者仅包含数千个节点。图表统计见表1，其中P-A、P-F、P-V、A-I和P-P表示论文与作者、论文与领域、论文与地点、作者与机构之间的边，以及两篇此外，OAG中的“场”节点被分为从L0到L5的六个因此，我们区分对应于场水平的4.2实验装置任务和评价。我们评估了四个不同的现实世界的下游任务的HGT模型：纸张字段（L 1），纸张字段（L 2），纸张地点和作者消歧的预测。前三个节点分类任务的目标是分别预测每篇论文所属的正确L1和L2领域或发表地点。我们使用不同的GNN来获得论文的上下文节点表示，并使用softmax输出层来获得其分类标签。为了消除作者的数据集和代码可在https：//githu b.com/acbull/pyHGT公开获取。评价指标所有模型训练5次，并报告测试性能的平均值和标准方差。基线。我们将HGT与几种最先进的GNN进行比较，包括双态-GCN [6]和GAT [17]-以及异质GNNs-RGCN [11]，HetGNN [22]和HAN [18]。为了研究在我们的模型中的异构组件的有效性，我们还提出了HGTnoHeter模型，它使用相同的权重集的所有Meta关系，作为消融研究。所有基线以及我们自己的模型都是通过PyTorch Geometric（PyG）包实现的[3]。我们使用第3节中提出的HGSampling算法来处理所有基线GNN来处理大规模OAG图。为了避免数据泄漏，我们删除了我们旨在预测的链接（例如，Paper-Field链接作为标签）。输入功能。由于我们不假设每种节点类型的特征属于同一分布，因此我们可以自由地使用最合适的特征来表示每种类型的节点。对于每篇论文，我们使用预训练的XLNet [19，20]来获取标题中每个单词的表示。然后，我们将它们按每个单词的注意力加权每个作者的初始特征只是他/她发表的论文对于现场，场地和机构节点，我们使用metapath2vec模型[2]通过反映异构网络结构来训练它们的节点嵌入。同质GNN基线假设节点特征是相同的分布，而我们的特征提取不满足这一假设。为了进行公平的比较，我们在输入特征和所有使用的GNN之间添加了一个自适应层。该模块仅对不同类型的节点进行不同的线性投影这样的过程可以被认为是将异构数据映射到相同的分布中，这也在文献[18，22]中被采用。实施细节。我们使用256作为所有基线的神经网络的隐藏维度。对于所有基于多头注意力的方法，我们将头数设置为8。所有GNN都保持3层，因此每个网络的感受野完全相同。所有基线都是通过AdamW优化器[10]使用余弦退火学习速率[9]进行优化的。对于每个模型，我们训练它200个epoch，并选择最低的一个WWW胡紫牛、董玉晓、王宽三、孙一舟2710⟩⟩⟨⟨ ⟩ ⟨⟨ ( )（）下一页（）GNN模型GCN[6][第11话]GAT[17]HetGNN[22]HAN[18]HGTnoHeterHGT#参数/批处理时间1.69米/0.46秒 8.80米/1.24秒 1.69米/0.97秒8.41米/1.35秒 9.45米/2.27秒3.12米/1.11秒 7.44米/1.48秒Paper–FieldNDCGMRR.508±.141.556±.136.511±.128.565±.105.534±.103.610±.096.543±.084.616±.076.544±.096.622±.092.571±.089.649±.081.595±.089.675±.082Paper–FieldNDCGMRR.218±.074.222±.067.228±.046.232±.052.239±.049.248±.045.236±.062.250±.053.242±.051.258±.049.250±.045.262±.057.258±.052.271±.064纸-场地NDCGMRR.265±.066.258±.070.276±.051.236±.047.270±.057.260±.052.262 ±.071.246±.059.280±.062.278±.067.297±.058.293±.061.306±.064.317±.048作者消歧NDCGMRR.612±.064.738±.042.619±.057.755±.048.645±.063.797±.044.649±.052.803±.058.660±.049.821±.056.668±.059.835±.043.683±.066.847±.043表2：不同方法在开放学术图谱（OAG）上的实验结果验证损失作为报告的模型。我们使用GNN文献中使用的默认参数，并且不调整超参数。4.3结果我们在表2中总结了所提出的模型和基线的实验结果。四个任务的所有实验进行了评估NDCG和MRR。它表明，在这两个指标方面，所提出的HGT模型显着和consistently优于所有基线的所有任务。以纸张字段（L1）分类任务为例，HGT在NDCG方面实现了9-19%的基线性能增益，在MRR方面实现了9-21%的基线性能增益（即，性能差除以基线性能）。与HetGNN和HAN这两个专用的异构GNN基线相比，平均而言，HGT对所有四个任务的相对NDCG改进分别为8%和6%。此外，HGT具有更少的参数和可比批处理时间比所有异构图神经网络基线，包括RGCN，HetGNN，和HAN。这表明，通过根据它们的Meta关系模式对异构边进行建模，我们能够以更少的资源消耗获得更好的泛化消融研究。HGT的核心组件是Meta关系参数化。为了进一步分析其效果，我们进行了烧蚀研究。 HGT noHeter只为所有关系维护一组参数，这相当于应用于图的普通Transformer。我们可以看到，在删除这个组件之后，NDCG的性能下降了3.2%，这证明了我们的Meta关系参数化的重要性。此外，我们还尝试实现一个基线，为每个关系保持一个唯一的权重矩阵然而，这样的基线包含太多的参数，因此我们的实验设置没有足够的GPU内存来优化它。这也表明，使用Meta关系的参数化权重矩阵可以实现具有竞争力的性能与更少的资源。4.4可视化Meta关系关注为了说明合并后的Meta关系模式如何使异构的消息传递过程受益，我们选择了在前两种模式中具有最大关注值图3：学习到的Meta关系注意力的层次结构。两个HGT层，并在图3中绘制Meta关系注意力层次树。例如，为了计算论文的表示，Paper，is _ published _ at，Venue，is _published_at−1，Paper，Paper，has_L2_field_of，Field，has_L5_field_of−1，Paper和Institute，is_affiliated_with−1，Author，is_first_author_of，Paper是三个最重要的Meta关系序列，它们可以分别被称为元路径PVP、PFP和IAP。请注意，这些Meta路径及其重要性是自动从数据中学习的，而无需手动设计。计算作者节点表示的另一个例子如右图所这样的可视化表明，异构图Transformer能够隐式地学习为特定的下游任务构建重要的Meta路径，而无需手动定制。5结论在本文中，我们提出了异构图Transformer（HGT）架构建模Web规模的异构图。为了对异构性进行建模，我们使用Meta关系τs，τe，τt来分解交互矩阵和转换矩阵，使得HGT能够以更少的资源拥有相似的建模能力为了在Web规模的数据上进行高效、可扩展的HGT训练，我们设计了异构小批量图采样算法-HGSampling。我们在Open Academic Graph上进行了全面的实验，以证明所提出的HGT模型可以捕获图形异构性，并在各种下游任务上优于所有最先进的GNN基线。致谢。我们要感谢刘晓东的有益讨论。这项工作得到了NSFIII-1705169 ， NSF CAREER Award 1741634 ， NSF #1937599 ，Okawa Foun的部分支持。亚马逊研究奖（Amazon异构图形TransformerWWW2711引用[1] 陈杰，马腾飞，曹啸。2018年FastGCN：通过重要性采样实现图卷积网络的快速学习在ICLR[2] Yuxiao Dong ， Nitesh V Chawla ， and Ananthram Swami. 2017 年。metapath2vec：异构网络的可扩展表示学习在KDD[3] 马蒂亚斯·菲和扬·埃里克·伦森。2019年。使用PyTorch Geometric进行快速图形表示学习。 ICLR 2019研讨会：图和流形上的表示学习（2019）。[4] William L. Hamilton，Zhitao Ying，and Jure Leskovec. 2017.大图上的归纳表示学习。在NeurIPS[5] 何开明，张翔宇，任少卿，孙健。2016年。用于图像识别的深度残差在CVPR[6] 托马斯·N Kipf和Max Welling 2017.图卷积网络的半监督分类在ICLR[7] 李航2014年。学习排名信息检索和自然语言处理，第二版。出版社：MorganClaypoolhttps://doi.org/10。2200/S00607ED2V01Y201410HLT026[8] 刘铁岩2011年。学习排名信息检索。斯普林格。http：//doi.org/10.1007/978-3-642-14267-3[9] 伊利亚·洛希洛夫和弗兰克·哈特。2017年。SGDR：随机梯度下降与热重启。在ICLR[10] 伊利亚 · 洛希洛夫和弗兰克 ·哈特。 2019 年。解耦权重衰减正则化。在ICLR'19。[11] 放大图片作者：Michael Sejr Schlichtkrull，Thomas N.Kipf，Peter Bloem，Rianne van den Berg，Ivan Titov，and Max Welling. 2018.用图卷积网络对关系数据建模。在ESWC[12] Arnab Sinha，Zhihong Shen，Yang Song，Hao Ma，Darrin Eide，Bo-JunePaul Hsu ， and Kuansan Wang.2015 年。 Microsoft Academic Service（MAS）及其应用。在WWW Companion 2015中。[13] 孙益州、韩家伟2012年。异构信息网络挖掘：原理与方法。出版社：Morgan Claypool[14] 孙一舟，韩家伟，严熙丰，Philip S.余和吴天翼2011年。Pathsim：异构信息网络中基于Meta路径的top-k相似性搜索。在VLDB '11。[15] 孙一舟，布兰登·诺里克，韩家伟，严熙丰，菲利普·S。玉，还有小雨。2012.异质资讯网路中整合元路径选择与使用者导引物件分群。在KDD[16] Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszkoreit，LlionJones，Aidan N.戈麦斯，卢卡斯·凯泽，伊利亚·波洛苏欣。2017.注意力是你所需要的一切。在NeurIPS[17] Petar Velickovic ， Guillem Cucurull ， Arantxa Casanova ， AdrianaRomero，Pietro Liechte，and YoonyBengio.2018年图注意力网络。在ICLR[18] Xiao Wang，Houye Ji，Chuan Shi，Bai Wang，Yanfang Ye，Peng Cui，and Philip S.Yu. 2019年。异构图形注意力网络。在KDD2022-2032年。[19] ThomasWolf 、 Lysandre Debut 、 Victor Sanh 、 Julien Chaumond 、 ClementDelangue、Anthony Moi、Pierric Ciudad、Tim Rault、Rémi Louf、MorganFuntowicz和Jamie Brew。2019.变形金刚：最先进的自然语言处理。arXiv：cs. CL/1910.03771[20] 杨志林，戴子航，杨一鸣，海梅. Carbonell，Ruslan Salakhutdi- nov，andQuoc V.乐2019年。XLNet：语言理解的广义自回归预训练在NeurIPS[21] Seongjun Yun、Minbyul Jeong、Raehyun Kim、Jaewoo Kang和HyunwooJ.Kim. 2019.绘制Transformer网络图。在NeurIPS[22] Chuxu Zhang ， Dongjin Song ， Chao Huang ， Ananthram Swami ， andNitesh V. Chawla. 2019.异构图神经网络在WWW[23] Fanjin Zhang ， Xiao Liu ， Jie Tang ， Yuxiao Dong ， Peiran Yao ， JieZhang ， Xiaotao Gu ， Yan Wang ， Bin Shao ， Rui Li ， and KuansanWang.2019年。OAG：Toward Linking Large-scale Heterogeneous EntityGraphs（链接大规模异构实体图）在KDD[24] 邹迪凡，胡子牛，王业文，宋江，孙一舟，顾泉泉。2019. 用于训练深度和大型图卷积网络的层相关重要性采样。在NeurIPS

下载后可阅读完整内容，剩余1页未读，立即下载