基于知识嵌入的图卷积网络

18 浏览量更新于2023-11-30 收藏 891KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1619→基于图卷积网络的知识嵌入摘要于东涵卡内基梅隆大学dyu2@cs.cmu.edu张若虹卡内基梅隆大学ruohongz@cs.cmu.edu杨一鸣卡内基梅隆大学yiming@cs.cmu.edu吴跃新谷歌crickwu@google.com1介绍近年来，围绕图卷积网络（GCN）这一主题，出现了大量的文献如何有效地利用复杂图中丰富的结构信息，如具有异构类型实体和关系的知识图，是该领域面临的主要挑战。大多数GCN方法要么局限于具有齐型边的图仅引用链接），或者仅关注节点的表示学习，而不是针对目标驱动的目标联合传播和更新节点和边两者的嵌入。本文通过提出一种新的框架来解决这些限制，即基于知识嵌入的图卷积网络（KE-GCN），它结合了GCN在基于图的信念传播中的能力和高级知识嵌入（a.k.a. 知识图嵌入）方法，并超越。我们的理论分析表明，KE-GCN提供了一个很好的统一的几个著名的GCN方法作为具体情况下，与一个新的角度图卷积。在基准数据集上的实验结果表明，KE-GCN在知识图对齐和实体分类任务中的性能优于强基线方法1。CCS概念• 计算方法神经网络;关于信念和知识的推理。关键词图卷积网络，知识图，知识嵌入ACM参考格式：Donghan Yu，Yiming Yang，Ruohong Zhang，Yuexin Wu. 2021.基于图卷积网络的知识嵌入。在网络会议2021（WWW '21）的会议记录，2021年4月19日至23日，斯洛文尼亚卢布尔雅那。 ACM，美国纽约州纽约市， 10 页。https://doi.org/10.1145/3442381.34499251我们的代码可在https://github.com/PlusRoss/KE-GCN本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3449925图卷积网络（GCN）作为基于图的节点特征归纳和信念传播的强大方法，在最近的机器学习研究中受到越来越多的关注，并已成功应用于许多现实问题，包括自然语言处理[14]，计算机视觉[34]，推荐系统[43]，流行病学预测[38]等。现有的GCN具有相同的核心思想，即，使用图来识别每个节点的邻域，并通过邻域嵌入的递归聚合来学习该节点的嵌入（向量表示）。换句话说，图卷积在基于整个图上的置信度传播来平滑节点的学习表示（潜在向量）中起着核心作用。然而，GCN的早期工作也有一个共同的局限性，即，图卷积仅用于学习以固定边为条件的节点嵌入[12]，而不是联合学习节点和边的最佳嵌入后来的努力朝着学习输入图中边的权重的方向发展，同时学习节点嵌入[31，44]，这比早期的GCN更强大，并且更能够适应下游任务。然而，这些GCN具有共同的约束，即，输入图中的边必须是同质类型的，例如引用图中的链接或共现计数矩阵中的元素。这种约束（或假设）显著地限制了GCN对广泛的现实世界应用的适用性，在现实世界应用中，对异构关系（边）进行建模的能力对于基于图的嵌入和推理的真正效用是至关重要的。鉴于异构类型的关系在知识库中携带丰富的语义信息，缺少边嵌入的能力从根本上限制了大多数GCN的表达能力和预测能力。作为一个间接相关的领域，知识图（KG）完成的方法（a.k.a.知识图嵌入）近年来已经被深入研究关于基于观察到的三元组预测未知实体-关系-实体三元组的任务，已经开发了各种算法用于实体和关系两者的嵌入的联合优化。代表性方法包括transE [3]、DistMult [41]、ComplEx [28]、RotatE [24]、QuatE [47]等。KG完成方法与GCN相比的主要区别在于，前者在表示学习过程中没有显式地利用图卷积的信念传播能力;相反，实体-关系-实体三元组在其目标函数中被独立处理。换句话说，这些方法缺乏利用图的能力，1620WWW结构，以加强实体和关系的嵌入空间中的局部/全局平滑性。如何共同利用GCN模型和KG完成方法的优势，面向任务的实体和关系的表征学习是一个开放的挑战的研究，这还没有得到足够深入的研究，是本文的重点。这方面的代表性工作，或者说迄今为止我们所知的唯一这类方法是 VR-GCN [42] ， TransGCN [5] 和CompGCN [30]。他们使用图神经网络来共同学习实体和关系的多层潜在表示（嵌入）。具体而言，实体嵌入过程递归地聚合邻域实体表示和关系表示，这是有意义的;然而，学习过程的关系嵌入部分将实体表示排除在图片之外，这可以说是次优的，并且是这些模型的基本限制。VR-GCN（TransE）#$#$e rσ σ*布e布RCompGCN（TransE、DistMult、HolE）TransGCN（TransE，RotatE）#$e#$Rσ σ**布e布RKE-GCN（TransE、DistMult、TransD、TransH、RotatE、QuatE.为了解决上述开放性挑战和现有方法的局限性，我们提出了一个新的框架，即KE-图1：KE-GCN的简单实现与复杂工作VR-GCN、TransGCN和CompGCN的比较Hl和HlGCN（Knowledge Embedding Based Graph Convolution Network）e r它提供了现有的GCN模型的理论上合理的推广，允许通过图形卷积运算将各种知识嵌入方法用于面向任务的实体和关系嵌入特别是，为了捕捉知识图中异构关系的丰富语义，我们的模型中的实体嵌入和关系嵌入都被用来在递归聚合过程中执行彼此的优化。图1说明了以前的作品和我们的模型之间的主要区别。更详细的比较将在第4节中提供。我们工作的贡献可归纳如下：我们提出了一个新的框架KE-GCN更新实体和关系嵌入图卷积操作，利用各种知识嵌入技术。KE-GCN源于对GCN的一种新的直观，并将几种有代表性的方法作为它的特例和限制情况提供了一个统一的观点。在知识图对齐和实体分类任务的基准数据集上的实验结果表明，KE-GCN一致且显着优于其他代表性的基线方法。我们将本文的其余部分组织如下：第2节介绍了图卷积网络和知识图嵌入方法的相关背景。第3节描述了我们提出的框架，并提供了我们的方法的动机。第4节展示了我们的框架如何以原则性的方式包含几种代表性的方法第5节报告了我们的实验结果，第6节给出了结论。2相关背景2.1图卷积网络图卷积网络（GCN）是从传统的卷积神经网络（CNN）中发展而来的，它将卷积运算扩展到非欧数据结构上。早期的试验集中在邻接矩阵上的谱变换[4，8]，这需要巨大的计算成本的特征分解。最近的工作[12]节省了分解的计算分别表示在层L的实体（节点）嵌入和关系（边）嵌入表示聚合邻居信息的图卷积操作W是线性变换的模型参数，σ是激活函数。下面括号中的名称对应于所包含的KG完成模式。通过一阶Chebyshev多项式逼近，推广了它的使用，同时保持了对图结构数据的强大性能。这一变化为大多数后续工作制定了统一的消息传递框架。此后，虽然许多扩展工作试图通过重新加权边权重[31]或建立剩余链接[13]来提高有效性，但最近的工作试图通过允许多关系边类型在整体框架中相互作用来利用知识图上的GCN的力量[16，21，22，30，33，46，48]。这些方法定义了新的消息传递例程，通过使用关系特定的转换或与关系嵌入的交互来更新节点表示。例如，KBAT [16]扩展了图形注意力机制，以捕获给定实体的多跳邻域中的实体和关系特征。RGHAT[48]配备有关系级注意力和实体级注意力，以分别计算相邻关系和实体的权重。CompGCN [30]利用来自KE方法（如TransE [3]）的实体关系组合操作来更新实体嵌入。然而，它们都没有一个对称的更新规则，其关系嵌入，从而限制了关系嵌入的表示能力。我们的方法的不同之处在于实体嵌入和关系嵌入都被用来相互更新，其中关系嵌入也被邻居上下文增强。2.2知识嵌入传统的知识图（KG）任务专注于进行链接或实体预测。这些任务主要简化为建模（头实体，关系，尾实体）三元组。许多解决方案[3，17，32，41]依赖于学习每个部分的嵌入。具体来说，一个得分l#$ #$e rσ*布e布R···基于图卷积网络的知识嵌入WWW1621（）下一页（）→vvpublic void run（）{|→R{（）| ←}（·）（·）vR--vv0vml+1=R是用于链路内的邻居，vn（hu，hr，hv）<$f（hu，hv）=<$（u∈N（v）f（hu，hv））可以通过自动微分（AD）软件包计算许多最大化得分函数的和u∈N（v）f（hu，hv），其中函数f被定义为在给定嵌入的情况下测量三元组的可并行性，并帮助更新由正三元组和采样的负三元组组成的训练数据上的表示。通过使用不同类型的评分函数，知识嵌入方法可以反映不同的设计标准，包括平移关系[3，36]，内积[41]，旋转关系[24，47]和许多其他[9，23]。例如，transE [3]假设给定一个三元组，头实体和关系嵌入的元素加法应该接近尾实体嵌入。RotatE [24]基于关系作为复平面中的旋转操作的假设，并且它声称是第一个可以建模和推断以下关系模式的模型：对称/反对称，反转和组合。在我们的工作中，我们借用评分函数的思想，知识图上的多关系图卷积，我们将在下一节介绍。3.2 新框架由于知识图中的关系是异构类型的，我们需要定义评分函数f来衡量实体-关系-实体三元组的可信度，而不是vanilla GCN中的实体-实体对。同样，在knowlide图中观察到的三胞胎往往比那些没有被观察到的三胞胎得分更高。对于每个三元组u、r、v，其中u、r、v分别表示头实体、关系和尾实体，通过使用它们的嵌入向量来计算评分值。请注意，大多数知识嵌入技术都可以用来定义f。类似于等式3，如果我们将h1表示为在新的GCN框架中允许类似的嵌入式学习设计层l上的实体vv，实体更新规则为：工作我们评估了不同评分函数的性能.在（hl，hl，hl）中的k在transE [3]， DistMult [41]， transH [36]， transD [10] ，RotatE [24]和QuatE [47]中提出的，通过我们的框架进行任务，包括知识图对齐和实体分类，ml+1=Lr（u，r）∈Nin（v）uRv阿夫赫湖（四）证明了模型设计的有效性，.输出（hl，hl，hl）+Wv是的。关于这些方法的更详细的介绍将在在第5.1节中提供。LR（u，r）∈Nout（v）vRu阿夫赫湖（五）hl+1=σent（ml+1+Wlhl）（6）3该方法3.1香草GCN的重新配方哪里在v=u，r ur中实体的关系邻居Rv}是直接实体的集合-v有一个入链路，而Nout（v）=在vanilla GCN [12]中，多层节点嵌入更新如下（为简洁起见，我们省略了归一化系数部分 .vHu，r u v是一组具有一个外的近邻链接vh1表示关系r在层l的嵌入。注意，线性变换矩阵Wl是关系特定的，并且Foutu∈N（v）hl+1=σ（Wl（ ml+1+ hl））（2）分别用于外链路邻居。σent表示实体更新的激活功能v vv可以以类似的方式定义关系更新规则其中，我们用hl表示节点v在层l处的嵌入，用N（v）l1.=RlllR节点v的直接邻居的集合，由m v聚合用激活函数σ（·）来表示相邻的那些R（u，v）∈N（r）阿夫赫湖（例如，元素式S形或ReLU），并且通过Wl，hl+1=σrel（Wl（ml+1+hl））（8）GCN要学习的模型参数我们可以重新制定rrr r其中N（r）={（u，v）|ur v}表示直接实体的集合每个边缘的可扩展性在图中观察到的边缘往往比未观察到的边缘具有更高的分数具体来说，对于edge（u，v），如果我们定义f为两个连通节点的嵌入为f（hu，hv）=hT hv，rr的neighbours，w→her e元组的左边是头实体右侧为尾部实体。σrel表示关系更新的激活函数。图2展示了我们的模型。请注意，我们的框架可以支持其他代表性的则等式1具有以下等价形式：u方法，这将在下一节中介绍。.一湖Llvv此外，等式5和等式7中的导数Δf/Δh（三）vu∈N（v）阿夫赫湖阿夫赫湖现有的库包括Pytorch [18]和Tensorflow [1]，使我们的模型易于实现。请注意，此AD发生在由此可见，hl+ml+1可视为一步梯度上升在前向传播过程中，这与vv.Ll在训练过程中的反向传播。学习率1。此外，等式2可以被视为下游任务在嵌入空间上的上面的重新表述提供了一个关于普通GCN正在优化什么的明确视图，而不是更新是如何在程序上执行的。更重要的是，它揭示了如何设计一个更强大的框架，以实现更广泛的当层的个数为L时，利用最后一层的输出实体嵌入{h（L）}和关系嵌入h（L）构造损失函数。例如，在实体分类任务中，我们使用基于实体标签的交叉熵损失;在知识图对齐中，我们使用来自不同知识图的两个实体的嵌入向量之间的距离作为损失函数。的详情WLu（一）中的评分函数fL+1M+（七）ml+1=为了将我们的模型应用于下游任务，表示数量-WWWYu等人1622v/（）下一页（）下一页..R.在×→uRv在uRv出vRu出uRvvRvvvv3）hl = 0（无关系嵌入）。vv0vvW（αh）+。W（α h）（14）建议我在1。CompGCN可由KE-GCN完全恢复，1) f（hl，hl，hl）=.hl，hl=Thl，f（hl，hl，hl）= T.hl，hlThl;2）fr=0;3）σre l（·）是恒等函数。图2：KE-GCN的消息传递过程演示，其中e1，e2，e3，e4是知识图中的实体，r1，r2，r3是关系。在我们的GCN模型的一层中，它首先通过特定的评分函数f计算每个三元组的可扩展性得分，如左部分所示，然后通过部分梯度（例如，返回到相应的实体和关系（例如，e1）更新它们的嵌入，如右图所示。损失函数，请参见第5.2.1和5.3.1节。培训如上所示，在CompGCN中，关系嵌入仅通过线性变换更新。而在KE-GCN中，关系表示更新过程聚合相邻实体表示，如等式7和8所示，以捕获异构关系的丰富语义并学习更好的基于上下文的关系嵌入。此外，我们的框架更通用，因为评分函数fh u，hr，h v不限于hh u，h r T h v，并且还可以包含其他形式的知识图嵌入技术，例如transH [36]，transD [10]，MLP [9]和NTN[23]。请注意，TransGCN [5]与CompGCN非常相似，也包含在我们的模型中。4.2R-GCNR-GCN [21]用关系特定的线性变换扩展了vanilla GCN，而不考虑关系表示。嵌入式更新可以列出如下：在这两项任务中，礼貌是端到端的在这些任务的实验中，为了简单起见，我们设置fin = fout = fr，并且设置W l = W l以防止• 实体更新：ml+1=WLHL+.WLHL（十二）R过度参数化此外，为了避免数值不稳定，v r u r u（u，r）∈Nin（v）（u，r）∈Nout（v）和爆炸/消失梯度时，用于深神经hl+1=σ（ml+1+Wlhl）（13）网络模型，KE-GCN应用以下规范化：我们v v0v在等式6中替换ml+1，其中αml+1/（|Ni n（v）|+的|Nou t（v）|）和• 无关系更新。ml+1在等式8中，其中αml+1/|N（r）|，whe re|·|指的是，集合的性质，α是控制权重的超参数1) f_in（h_l，h_l，h_l）=f_out（h_l，h_l，h_l）=（h_l）T_h_l;以及2）h_l=0（no邻居的信息。uRvvRu u v r4代表性方法的再认识在下文中，我们提供了用于知识图建模的几种代表性GCN方法的统一视图关系嵌入）。4.3W-GCNW-GCN [22]将关系视为边的可学习权重，并将vanilla GCN应用于加权简单图。更新过程可以写为：它们是我们框架下的限制版本4.1 CompGCNCompGCN [30]与我们的方法最相关在第（1+1）次• 实体更新：ml+1=（u，r）∈Nin（v）Lll lL lr u r u（u，r）∈Nout（v）在CompGCN层，每个实体和关系的嵌入是hl+1=σ（ml+1+Wlhl）（15）更新为：• 实体更新：ml+1=.Wl·奥林.hl，hl其中αl∈R是关系特定的可学习参数。• 无关系更新。建议我在3楼。W-GCN可被KE-GCN完全恢复，当1）vruRf（hl，hl，hl）=f（hl，hl，hl）=（hl）Thl; 2）Wl=Wlαl;（u，r）∈N.ΣLLL在uRv出来vRu u v r r+（u，r）∈Nout（v）Wr输出胡，赫尔（九）R5实验hl+1=σ（ml+1+Wlhl）（10）5.1基本设置在那里，输入，输出：RdlRdl Rdl是复合算子，可以是逐元素减法，逐元素乘法或循环相关[19]。• 关系更新：在本节中，我们对知识图的两个众所周知的任务，图对齐和实体分类进行了广泛的实验，以证明我们的模型的有效性我们使用的计算基础架构是NVIDIA RTX 2080Ti GPU，hl+1=Wlhl（十一）所有的实验。所有的实验都是由5个inde-rrelr具有不同随机种子的待决运行。在本文中，331（12121（联系我们2（（3公司简介23（（建议2.R-GCN可以被KE-GCN完全恢复，基于图卷积网络的知识嵌入WWW16232u22R1R1【详细】u2v2（u，v）（u，v）2（）下一页⊗·..以前的作品[21，30]，实体和关系的输入特征是由截断正态分布初始化的随机向量，因此我们的模型将仅依赖于图结构。我们离开表1：DBP15K用于知识图对齐任务的数据集统计，包括每个知识图的实体，关系，三元组的数量。其他特征的组合，例如实体作为今后的工作。我们的模型通过结合以下代表性的知识图嵌入方法进行评估，头部实体，关系和尾部实体的嵌入分别表示为h u，h r和h v。对于每种方法，我们在KE-GCN中显示了相应的评分函数，如下所示：• transE[3]：对于hu，hr，hv∈Rd，f（hu，hr，hv）= − <$hu + hr − hv <$2.（十六）数据集#实体三胞胎中国66,4692,830153,929DBPZH-EN英语98,1252,317237,674DBPJA-EN日本65,7442,043164,373英语95,6802,096233,319DBPFR-EN法国66,8581,379192,191英语105,8892,209278,590• DistMult[41]：对于hu，hr，hv∈Rd.f（hu，hr，hv）= hT diag（hr）hv.（十七）• transH [36]：对于hu，hv∈Rd，hr∈R2d，且hr1，hr2∈Rd，f（hu，hr，hv）=−<$hu′+hr2−hv′<$2，（18）hu′=hu−hThuhr1，（19）hv′=hv−hThvhr1，（20）hr=[hr1;hr2]，（21）其中re[·;·]表示两个向量的级联。• transD [10]：对于hu，hv，hr∈R2d，且hu1，hu2，hv1，hv2，hr1，hr2∈Rd，f（hu，hr，hv）=−<$hu′+hr2−hv′ <$2，（22）如果单独知道图形，则每个最终层的输出嵌入h用于实体对齐。为了从KG1到KG2进行对齐，对于KG1中的特定实体/关系u，我们使用它们的嵌入hu和hv计算u与KG2中的每个实体/关系v之间的L1距离，并基于距离返回实体/关系的排名列表作为候选对齐。也可以从KG2到KG1进行比对。在实验中，我们报告了KG对齐的两个方向的平均结果。5.2.1损失函数我们将训练实体对齐集表示为S= u，v，其中u是KG1中的实体，而实体v属于KG2，并且它们指代相同的真实世界实体。对于损失函数，我们遵循以前的工作[35]使用基于边际的排名损失：hu′=hu1+hThu1hr1，（23）hv′=hv1−hThv1hr1，（ 24）hu=[hu1; hu2]，hv=[hv1; hv2]，hr=[hr1; hr2]，（25）其中e[·;·]表示两个向量的级联。• RotatE[24]：对于hu，hr，hv∈Cd，L=l（u，v，u′，v′）（28）（u，v）∈S（u′，v′）∈S′l（u，v，u′，v′）=[hu−hv1+γ−hu′−hv′1]+（29）其中[x]+=max{ 0，x}。S′表示否定实体的集合f（hu，hr，hv）=− <$hu<$hr−hv<$2，（26）其中，k表示逐元素乘积，h r中的任何元素是1，i。e. |hr[i]|=1<$i∈{1，2，，·.··，d}。的通过破坏u、v构建的比对，即用KG1或KG2中随机选择的实体替换u或v。 γ表示分隔正实体比对和负实体比对的边缘超参数。在[35]之后，我们随机选择5个连续比对，复向量的范数定义为：• QuatE[47]：对于hu，hr，hv∈Hd，|p.|p.对于每个正对齐，并设置γ=3。5.2.2数据集。我们使用DBP15K [25]，其中包含三个数据集f（hu，hr，hv）=huhr·hv，（27）其中和分别表示超复空间中的哈密尔顿积和内积请注意，TransE和DistMult是广泛使用的知识图嵌入技术，因为它们简单有效。RotatE和QuatE是最近提出的模型，并在用于知识图完成的常用基准数据集中取得了最先进的结果。 transH和transD是transE的扩展，不能被以前的工作。我们将其他嵌入方法留到以后的工作中。5.2知识图谱对齐知识图对齐是指在两个不同的知识图KG1和KG2中找到代表同一真实世界实体的实体的任务。为了将我们的GCN框架应用于知识图对齐，我们遵循先前的工作[35]，该工作利用两个具有共享参数的GCN来建模两个基于图卷积网络的知识嵌入WWW1624由多语言DBpedia构建，即DBPZH-EN（中文-英文）、DBPZH-EN（日文-英文）和DBPFR-EN（法文- 英语）进行知识图谱对齐。这些数据集的汇总统计见表1。每个数据集有15，000个参考实体对齐。根据以前的工作[6，27，35]，我们随机将其中30%用于训练，其余用于测试。我们进一步留出30%的训练集作为超参数调整的验证集，并在整个训练集上重新训练模型以获得测试性能。5.2.3基线。为了证明KE-GCN的有效性，我们将其与几种代表性的多关系GCN基线方法进行了比较，包括R-GCN [21]，W-GCN [22]，KBGAT [16]和CompGCN [30]。我们还包括专门为知识图对齐任务设计的其他基线方法，以进行全面比较：MTransE [7]，IPtransE [49]，JAPE [25] ， AlignE [26] ，GCN-Align [35] ， MuGNN [6] 和AliNet[27]。由于我们的模型仅依赖于结构信息，因此我们不进行比较。WWWYu等人1625Y. .ˆ∈ˆ∈YuclnYuc+（ 1−Yuc） ln（ 1−Yuc）对准模型将实体的表面信息并入其表示[37，40]。此外，在比较中排除了一些基于异质图的模型[33，45，46]，这些模型不能扩展到具有数百或数千条边类型的知识图5.3.1损失函数在本文中，我们进行了多类分类和多标签分类的实验。表示N为实体的数量，C为类的数量，L为具有标签的实体索引的集合。对于多类分类，我们使用以下损失：5.2.4实施细节。在对超参数进行网格搜索后，我们将学习率设置为0.01，隐藏的距离为mension为200，层数为4，α = 0。3. 的L=−Cu∈YLc=1YuclnYuc（30）激活函数设置为ReLU。我们使用Adam [11]在全批设置中训练我们的模型。根据以前的工作[6，27]，我们报告了命中率@1，命中率@10，平均倒数秩（MRR），以评估其中Yuc=1意味着实体u的真实类是c，否则Yuc=0。Y RN ×C是GCN模型的输出，它在一个行式softmax函数之后。对于多标签分类，我们用途：实体对齐性能。. .C .好吧u∈YLc=1与所有基线方法相比耗氧物质我们的模型在所有三个数据集上都取得了最好或极具竞争力的结果，大大优于基线方法。具体而言，我们的模型在DBPZH-EN、DBP JA-EN和DBP FR-EN的MRR中分别比最佳基线方法高出5.7%、6.5%和6.6%。注意，即使配备有最新的最先进的知识图嵌入方法，即，Ro-tatE [24]和QuatE [47]，CompGCN [30]仍然获得比KE-GCN低得多的性能。表3中显示了更清晰的比较，其中我们呈现了CompGCN和KE-GCN的DBP ZH-EN数据集与TransE和QuatE结合的结果。实验结果证明了图卷积更新方法在关系嵌入中的有效性。我们还报告了我们提出的模型在DBPZH-EN，DBPJA-EN和DBPFR-EN数据集上使用不同知识图嵌入技术的性能，包括TransE，DistMult，TransH，TransD，RotatE和QuatE，分别如表4，表5和表6所示请注意，嵌入技术的选择确实对性能有很大的影响，QuatE达到了最好的结果，这是合理的，因为它在知识图完成任务中也优于其他方法，并且满足了关系表示学习的本质（即，建模对称、反对称和反演关系）。5.2.6关系对齐的结果我们还测试了关系对齐任务，以证明我们提出的关系嵌入更新过程的重要性。由于参考对齐关系的数量非常少，我们在上面提到的实体对齐任务上训练模型，并直接使用训练好的关系嵌入进行关系对齐（作为零次评估）。 5次不同运行的结果如表7所示，我们发现我们的模型显著优于CompGCN[30]和VR-GCN [42]。这表明了将实体表示纳入关系嵌入更新的重要性。我们不与R-GCN [21]和W-GCN [22]进行比较，因为它们的模型中不涉及关系嵌入。5.3知识图实体分类实体分类是预测给定知识图中实体的标签的任务。我们遵循以前的工作[21，30]使用KE-GCN中最后一层的实体输出用于标签分类。Yuc=1意味着实体u包含标签c，否则Yuc=0。YRN×C是GCN模型的输出，sigmoid函数5.3.2数据集。我们在以下数据集上进行实验：AM [20]包含阿姆斯特丹博物馆中不同工件之间的关系，WN [3 ，29]由从WordNet3.0中提取的三元组（同义词集，关系，同义词集）的集合组成[15]，FB15K [3，39]从典型的大规模知识图Freebase [2]中提取。这些数据集的统计数据见表8。 AM和WN数据集中的每个实体最多有一个标签，而FB15K中的实体可以有多个标签。对于AM数据集，我们遵循训练/测试分割约定[20，21]。对于WN和FB 15 K数据集，我们以10%/10%/80%的比例将标记的实体随机分为训练/有效/测试5.3.3基线。我们比较了KE-GCN与vanilla GCN [12]以及基于关系的GCN模型，包括R-GCN [21]，W-GCN [22]，KBGAT [16]和CompGCN [30]。对于vanilla GCN，我们通过将两个实体之间的边的权值设置为它们之间的关系的个数，将多关系图转化为齐次图5.3.4实施细节。在对超参数进行网格搜索后，我们将学习率设置为0.01，隐藏维数为32，层数为4，α= 0。3.激活函数设置为ReLU。我们使用Adam [11]在全批设置中训练我们的模型。在AM和WN中，准确度被报告以评估实体分类性能。而在FB15K中，我们报告 Precision@1 （ P@1 ）、 Precision@5 （ P@5 ）和NDCG@5（N@5）。5.3.5结果在AM和WN数据集上的5次不同运行的实验结果示于表9中，其中报告了分类准确度的平均值。在度量P@1、P@5、N@5下的FB15K数据集的结果如表10所示。从这些结果来看，KE-GCN优于所有基线GCN方法，这证明了我们提出的模型在实体分类任务中的有效性，包括多类分类和多标签分类。我们报告了CompGCN [30]和KE-GCN结合不同知识图嵌入方法的最佳结果，其中结合TransE [3]实现了最高的性能。采用不同KE方法的KE-GCN结果见表11和表12。此外，我们看到2WN和FB15K数据集标签收集的详细信息分别参见[29]和[39]。L= −5.2.5实体对齐的结果表2显示了实验（三十一）基于图卷积网络的知识嵌入WWW1626†±±表2：在DBP15K数据集上的知识图实体对齐任务中的实验结果，其中报告了5次不同运行的平均结果 * 表示结果直接取自[27]。VR-GCN [42] 的结果直接取自原始论文。标记为的 CompGCN 合并了 RotatE[24] 和 QuatE[47] 中的合成操作，而原始CompGCN[30]仅包含减法，乘法和循环相关操作。型号DBPZH-ENDBP JA-ENDBP FR-ENMRR H@1 H@10 MRR H@1 H@10 MRR H@1H@10MTransE[7]0.364 30.8 61.40.349 27.9 57.5 0.335 24.4 55.6IPTransE[49]0.516 40.6 73.5 0.474 36.7 69.3 0.451 33.3 68.5日本日元[25]0.490 41.2 74.5 0.476 36.3 68.5 0.430 32.4 66.7校准误差[26]0.581 47.2 79.2 0.563 44.8 78.9 0.599 48.1 82.4GCN-Align[35]0.549 41.3 74.4 0.546 39.9 74.5 0.532 37.3 74.5澳门金沙城中心官网[6]0.611 49.484.40.621 50.185.70.621 49.5 87.0AliNet净资产[27]0.628 53.9 82.6 0.645 54.9 83.1 0.657 55.2 85.2R-GCN[21]0.564 46.3 73.4 0.571 47.1 75.4 0.570 46.9 75.8W-GCN[22]0.553 43.6 73.8 0.554 41.2 74.7 0.541 39.8 74.4粤ICP备16036888号-1KBGAT[16]0.582 48.0 77.3 0.582 47.6 77.7 0.593 47.4 80.9沪ICP备16006666号-1CompGCN†0.628 52.8 81.1 0.629 52.8 81.5 0.641 52.6 85.4KE-GCN0.664 56.2 84.20.670 57.085.20.683 57.2 88.5表3：在DBPZH-EN上使用相同知识图嵌入技术（TransE[3]和QuatE[47]）的CompGCN和KE-GCN的直接比较。型号MRR H@1 H@10 CompGCN（TransE）0.605±0.003 49.4± 0.4 81.2± 0.3KE-GCN（TransE） 0.648±0.003 54.3±0.3 83.4±0.3CompGCN（QuatE）0.628± 0.003 52.8± 0.381.1± 0.4KE-GCN（QuatE）0.664±0.004 56.2±0.4 84.2±0.4表4：5个不同的知识图实体对齐结果表6：通过将不同的知识图嵌入方法并入我们的模型，在DBPFR-EN数据集上进行5次不同运行的知识图实体比对结果KE-GCN（X）MRR H@1 H@10 X = TransE 0.669±0.002 55.9± 0.287.5± 0.2X = TransH 0.673± 0.002 56.1± 0.287.7± 0.2X = DistMult 0.640± 0.002 52.4± 0.284.7± 0.2X = TransD 0.660± 0.002 54.2± 0.287.6± 0.1X =旋转E 0.673± 0.002 56.0± 0.388.2± 0.2通过结合不同的知识，X = QuatE0.683±0.00257.2 0.3 ±0.2边缘图嵌入方法到我们的模型。KE-GCN（X）MRR H@1 H@10 X = TransE 0.648±0.003 54.3± 0.383.4± 0.3表7：在DBP15K数据集上5次不同运行的知识图关系比对结果所有模型均采用相同的KG完成方法TransE [3]。型号DBP DBP DBPX = TransH 0.650± 0.003 54.3± 0.484.4±0.3X = DistMult 0.621± 0.003 52.0± 0.480.3± 0.4X = TransD 0.635± 0.003 53.1± 0.382.7± 0.4ZH-ENVR-GCN 0.3520.006KBGATCompGCN0.366雅园0.335 ±0.0080.330 ±0.013FR-EN0.280± 0.0170.274± 0.022X =旋转E 0.653± 0.004 54.9± 0.483.8± 0.4X = QuatE0.664±0.00456.2± 0.484.2 ± 0.4表5：通过将不同的知识图嵌入方法并入我们的模型，在DBPJA-EN数据集上运行5次不同的知识图实体对齐结果KE-GCN（X）MRR H@1 H@10 X = TransE 0.652±0.003 54.8± 0.384.3± 0.3X = TransH 0.654± 0.003 54.6± 0.485.5±0.3X = DistMult 0.622± 0.004 51.7± 0.581.2± 0.3X = TransD 0.652± 0.001 54.5± 0.285.4± 0.2X =旋转E 0.659± 0.002 55.7± 0.285.0± 0.3X = QuatE0.670±0.00157.0± 0.285.2 ± 0.30.007± 0.347± 0.009± 0.284± 0.015KE-GCN0.514±0.006 0.466±0.011 0.412± 0.021表8：实体分类任务中每个数据集的实体、关系、边和类的数量以及标记实体的数量。Labeled表示具有标签并且要被分类的Classes表示标签类别的总数。数据集AM WN FB15K#实体1，666，76440，551 14，904#关系133 18 1，341#三胞胎5，988，321 579，654标签数量1，000 31，943 13，445#类11 24 50WWWYu等人1627----表9：对于多类分类任务，在AM和WN数据集上5次不同运行的分类准确度的平均值和标准偏差。 * 表示直接取自[30]的结果。型号AM WN GCN 86.2±1.4 53.4 ±0.2R-GCN 89.3*55.1± 0.6W-GCN 90.2± 0.9*54.2± 0.5KBGAT 85.7± 1.753.7± 1.1CompGCN 90.6± 0.2*55.9± 0.4KE-GCN91.2±0.2 57.8±0.5表10：针对多标签分类任务，在FB15K数据集上进行5次不同运行后的 Precision@1 （ P@1 ）、 Precision@5 （ P@5 ）、NDCG@5（N@5）的平均值和标准差。型号P@1 P@5 N@5GCN 86.1± 0.369.0±0.3 82.7 ± 0.2R-GCN 91.7± 0.6 73.0± 0.489.5± 0.6W-GCN 91.2± 0.6 72.8± 0.388.6± 0.5KBGAT 90.5± 0.7 72.4± 0.887.5± 0.8CompG

下载后可阅读完整内容，剩余1页未读，立即下载