无监督图表示学习的新方法：图式公共潜在因子提取（GCFX）深度模型的研究

78 浏览量更新于2023-12-01 收藏 681KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文面向无监督图表示学习的Thilini Cooray，Ngai-Man Cheung新加坡科技设计大学（SUTD）thilinicooray@mymail.sutd.edu.sg，ngaimancheung@sutd.edu.sg摘要无监督的图级表示学习在分子性质预测和社区分析等各种任务中发挥着目前，大多数性能最好的图嵌入方法都是基于Infomax原理的。这些方法的性能高度依赖于阴性样本的选择，如果样本选择不仔细，则会损害性能。如果所选择的用于相似性匹配的图集合质量低，则基于图间相似性的方法也会受到影响。为了解决这个问题，我们只关注利用当前输入图进行嵌入学习。我们的动机来自于对真实世界的图生成过程的观察，在真实世界的图生成过程中，图是基于图的所有元素所共有的一个或多个全局因素讨论线索的主题、分子的溶解度）。我们假设提取这些共同因素可能是非常有益的。因此，这项工作提出了一个新的无监督图表示学习的原则：图式公共潜在因子提取（GCFX）。我们进一步提出了GCFX的深度模型deep-GCFX，基于反转上述图生成过程的想法，该过程可以从输入图中显式提取共同的潜在因素，并在下游任务上实现当前最先进的改进结果。通过广泛的实验和分析，我们证明，虽然提取共同的潜在因素有利于图级任务，以减轻由单个节点或局部邻域的局部变化引起的分心，但它也有利于节点级任务，通过启用长距离节点依赖性，特别是对于离散图。11介绍图结构化数据在表示各种数据类型方面非常有用，包括社交网络（Newman和Girvan 2004）、蛋白质-蛋白质相互作用（Kroganet al. 2006），场景图（Krishna etal. 2016），客户追逐模式（Bhatia等人，2016）以及更多（Pang和Cheung2017;Cooray，Cheung和Lu2020;Liu和Cheung2021）。在这项工作中，我们专注于图级表示学习。它对于分子特性鉴定（Duvenaud et al.2015）和群落分类（Yanardag and Vishwanathan2015）等任务至关重要，Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.1我们的源代码：https://github.com/thilinicooray/deepGCFX它们可用于诸如药物发现、材料设计和推荐系统的应用。任务特定标签的可用性在图表示学习中起着重要作用。然而，注释是非常昂贵的（ Yang etal.2019;Wieder et al.2020;Sun et al.2020），这是由于许多使用图形的专业领域（例如，生物科学、量子力学）。因此，非监督图表示学习变得至关重要。无监督图级表示学习有非常丰富的文献，包括几个主要方向。Skip-gram影响的图嵌入方法（node 2 vec（Groverand Leskovec 2016），sub 2 vec（Adhikariet al.2018），graph2vec（Narayanan et al.2017））仅依赖于邻域信息，失去了使用节点特征的优势，使其效率降低。核方法（ Ran-domWalk （ RW ）（ Ga？ rtner ，Flach ， and Wrobel2003 ）、最短路径（ SP ）（ Borgwardt and Kriegel2005 ）、 Graphlet Kernel（ GK ）（ Shervashidze et al.2009 ）、 DDGK （ Al-Rfou，Per-ozzi，and Zelle2019）、 GCKN（Chen，Jacob ， and Mairal2020 ））和图形邻近方法（UGraphEmb（Bai等人2019））使用成对的图间相似性计算，使它们更有效，但效率较低。通过这种方法学习的嵌入的质量在很大程度上依赖于它与之比较的其他图的质量和多样性对比学习（InfoGraph（Sunetal. 2020 ）、 CMV （多视图）（ Hassani 和Khasahmadi2020 ）、 GCC （额外数据）（ Qiu etal.2020）和GraphCL（增强）（You et al. 2020））是最新增加的，其基于信息最大原理（Linsker1988），其目的是获得与输入具有最大互信息这些方法的主要缺点（Grillet al. 2020年）是他们严重依赖模型性能的阴性样本的选择程序。需要仔细选择虽然图间相似性和对比方法都实现了图嵌入学习的最新技术水平，但如果与它们比较的其他图的质量较低，则它们都会受到很高的影响。基于自动编码器（ Baldi 和 Hornik1989;Hinton 和Zemel1993）然而，现有的图形自动编码器模型（Kipf和Welling2016;Pan et al. 2018;Park et al. 2019年）仅针对节点级建模。尤其是这些冰毒-arXiv：2112.08830v3 [cs.LG] 2022年2+v：mala2255获取更多论文⊂⊂||·||≈|ODS不能提取图形形式的公共潜在因子。这些方法的其他问题是它们过度依赖邻近信息（ Hassani 和Khasahmadi2020）以及无法区分特征（Tian，Kr-ishnan和Isola2020）。当在下游任务中使用嵌入时，特征区分非常重要，因为同等对待的特征可能会增加噪声和冗余，从而导致性能下降。现有工作的这些弱点促使我们研究一种方法，既可以区分图级表示的关键特征，又能够通过仅利用当前输入样本来学习嵌入尽管 GVAE （ KipfandWelling2016）不足以实现图形级特征区分，但它支持基于单个样本的学习。因此，我们有动力遵循基于生成的机制，同时解决特定的要求，以获得GVAE缺乏的判别图图式共同潜在因素提取（GCFX）动机。为了给我们基于生成的方法带来灵感，我们观察了两个真实世界的图形形成示例。在线讨论线程可以表示为图，其中节点表示参与讨论线程的用户，边表示线程中用户之间的交互（Yanardag和Vishwanathan2015）。这个图包含一个想要讨论特定主题的用户，当后续用户开始对此主题做出响应时，它会随着节点的增长而增长。对于第二个例子，化合物可以表示为图，其中节点是原子，边是化学键。反向分子设计（Sanchez-Lengeling和Aspuru-Guzik2018;Kuhn和Beratan1996;Zunger2018）是一种分子生成过程，利用共同的潜在因素的图形重建，也正则化正常的自动编码器我们将我们的贡献总结如下：• 我们提出了GCFX：一种新的无监督图表示学习原理，它基于受现实世界示例启发的图形公共潜在因素• 现有的自动编码器模型由于不能区分特征而不能学习图的公因子.因此，我们提出了deepGCFX：一种新的基于自动编码器的方法，具有基于迭代查询的推理和特征掩蔽能力，以提取共同的潜在因素。• 我们实证证明了深度GCFX在提取图形公共潜在因素方面的有效性。• 据我们所知，这是第一个基于GCFX的图嵌入学习方法我们表明，deepGCFX可以在标准下游任务中显示的非监督图级表示学习中• 通过从非公共因子中提取公共因子，deep- GCFX实现了节点表示学习的远距离节点间信息共享能力，从而实现了无监督节点表示学习的最佳结果。2方法2.1图形生成过程设D={G，Cf，Lf}是由图组成的集合包括在分子中的所需性质如溶解度和毒性水平。从头（Schneider2013;Brown等人2019）逆分子设计方法从这些特性的所需范围开始，并迭代添加以这些特性为条件的原子和化学键，以形成分子图。从这些示例中观察到的关键是，添加到图中的每个节点和边都以一个或多个公共图因子为条件。该主题是讨论线程的所有元素的共同全局因素，并且毒性和溶解度水平对于整个化合物是共同的。我们可以看到，尽管每个节点都有自己的特定信息，如用户的个人信息或原子的属性，但共同的因素会导致一个图与另一个图的差异。因此，对于社区检测和药物发现的分子选择等任务非常有用。图式公共潜在因子提取。受此启发，我们假设提取这些共同因素可能对区分图表示非常有益。因此，这项工作提出了图形明智的共同因素提取的潜在方式。我们进一步提出了deepGCFX：一种新的基于自动编码器的架构，可以显式地从整个图形中提取共同的潜在因素，将特征区分到自动编码器。我们增强的解码机制，和他们的基础真理共同和不共同的生成因素我们称不常见因子为局部因子，因此记为L。每个图G=（V，A），包含一组节点V和A是邻接矩阵。C f和L f表示生成因子的两个集合：C f包含对于整个图公共的公共因子c fC f（例如，铁饼-场景主题），并且Lf表示局部因素，该局部因素可以在局部片与片之间不同（例如，用户信息）。本文假定给定G，cf和lf是条件独立的，其中p（cf，lfG）=p（cfG）p（lfG）.我们假设图G是使用真实世界生成器生成的，该真实世界生成器使用地面真实生成因子：|c f，lf）= Gen（c f，lf）。2.2GCFX ： Graph-wise Common LatentFactor Extraction我们专注于图明智的公共因子提取的新问题。虽然我们只专注于提取共同的潜在因素，识别本地因素是必不可少的过滤。因此，我们的目标是开发一种无监督的深度图生成模型，该模型可以仅使用来自G的样本来学习图G的联合分布，生成因子Z的集合。这应该以这样的方式来学习，即潜在生成因子的集合可以生成观察到的图G，使得p（GZ）p（Gcf，lf）=Gen（cf，lf）.一实现这一目标的适当方法是最大限度地提高+v：mala2255获取更多论文∼|DD∼|∈ {||}θY|| ||N|| |共同后部GNN编码器局部后验q（Z 1| G）从以下方面取样潜在因素：ACCUMz l（1）~ q（z l（1））|G） z l（2）~ q（z l（2））|G）zl（3）~ q（zl（3））|G）z c逐块共同后验q（Zc|（G）重构图（G'）q（z c|（G）图1：deepGCFX架构：首先通过GNN编码器发送输入图G，以获得与邻居聚合的各个节点表示，然后进行ACCUM过程，以从每个补丁中过滤图形公共因子（hc）和局部因子（hl），以获得单个图形公共潜在因子表示hc（ACCUM在图2中描述）。从其各自的后验zl（j）中采样局部潜在因子q（zl（j）G）， J1 .一、. .V结合了公共潜Zcq（zcG）并输入到解码器agg重建G.reg用于强制zc包含G相关因素deepGCFX使用等式17中的损失函数进行优化。在潜在因子Z的整个分布上观察到的图G的边际对数似然。maxEpθ（Z）[log p θ（G|（1）icantly。因此，在该模型中，我们假设局部潜在因素是独立的。因此，我们更新了Eq。2为：|V|对于一个观测图G，可以描述潜在因子Z的推断后验概率分布如q φ（Z|G）。然而，我们的图形生成过程-q φ（Z|G）= q φ（zc，Zl|G）= q φ（zc|（G）在这里，i=1q φ（zl（i））|（G）（三）上面描述的假设两个独立的生成因子集，表示图的公共和局部信息，从中我们明确地对公共因子感兴趣。因此，我们考虑一个模型，其中潜在因素集Z可分为两个独立的潜在因素集Z=（Zc，Zl）。Zc代表潜在因素，捕获G的图形式公共生成因子，Zl捕获其本地对应物。因此，我们可以将推断的后验分布重写如下：q φ（Z|G）= q φ（Zc，Zl|G）= q φ（Zc|G）q φ（Zl|（2）我们详细讨论了这两个后验：q φ（ZcG）和qφ（ZlG）.图G由V个节点组成在图形数据结构中，每个节点都不是孤立的。他们与邻居联系并传播信息。因此，我们使用术语补丁来表示以每个节点为中心的节点间的局部邻域。zl（i）是捕获以节点i为中心的片的局部生成因子的潜在因子。现在，我们的目标是确保从共同和局部潜在后验分布中采样的潜在因素Mon和局部生成因子cf和lf。2.3GCFX的约束优化公式现在我们尝试分别将公共生成因子cf和局部生成因子lf与它们各自的先验p（zc）和p（zl）相匹配。我们选择单位高斯（（0，1））作为先验。根据我们的共同和局部因素的模型方程。3，我们可以将等式1重写为如下的约束优化（Higgins等人，2017年）：MaxEG<$G<$Eqφ（zc，Zl|G）[log p θ（G|zc，Zl）]与之合作。因此，q φ（Zc|G）和q φ（Zl|（二）正--θ，φS.T.KL（q（z|G）p（z）<）所有这些的内部分布|V|补丁.然而，com-φCc（四）mon潜在后验对于所有V块是公共的，因为图G最初是用对于所有V公共的cf生成的。因此，我们建议使用单个潜在zc来捕获共同的生成因子。特别地，我们使用qφ（zcG）来建模这个单后验。另一方面，有助于生成每个补丁的因素可以变化显著，v1v3输入图（G={V，A}）v2+v：mala2255获取更多论文KL（q φ（Zl|G）p（Zl））<η其中， η 和 η 是每个约束的强度。 Higginset al.（2017），可以编写Eq.4以获得图变分的变分证据下界（ELBO）+v：mala2255获取更多论文|ǁΣθ，φB|GB|RCL以确定其与当前常见潜在因子的因子式相似性每个节点vv、v自动编码器（GVAE）（Kipf和Welling2016）（这里我们使用GVAE，因为我们的输入是一个图形），如下所示，具有β和γ系数：F（θ，φ;G，zc，Zl，β，γ） ≥ L（θ，φ;G，zc，Zl，β，γ）=Eqφ（zc，Zl|G）[log p θ（G|zc，Zl）]— β KL（q φ（zc| G）p（zc））— γ KL（q φ（Zl|（5）（1）（2）（3）（4）基于等式3，我们可以扩展KL发散项KL（qφ（Z1G）p（Z1）），并将我们针对单个图G的目标函数重写为：L（θ，φ; G，zc，Zl，β，γ）= Eqφ（zc，Zl|G）[log p θ（G|zc，Zl）]— βKL（q φ（zc|（G）|p（zc））|V|— γKL（q φ（zl（i））|G）p（zl（i）i=13.1 ACCUM：基于特征屏蔽的迭代（六）总的来说，GCFX的学习目标是最大化来自完整数据集G的小批量Gb中所有图的下限：|GB|图二：精确度：我们能够为deepGCFX提取高质量公共潜在因素的主要算法发明是基于具有特征掩蔽的基于查询的推理。对于该两节点图，在迭代i处，来自先前迭代的单个公因子嵌入被用作L（G）=1<$L（θ，φ;G，z，Z，β，γ）（7）3deepGCFX：一种基于自动编码器的GCFX现有的自动编码器模型，包括GVAE不能学习图形明智的共同因素，由于他们无法区分因素的基础上的重要性。因此，我们提出了deepGCFX，一种新的GVAE架构的基础上GCFX原则，可以提取图形的公共因素。我们提出了一个迭代的基于查询的机制与功能掩蔽，以实现这一能力。图1描绘了所提出的深度图式公共因子提取器（deepGCFX）模型。我们利用N层图神经网络（GNN）（Kipf和Welling2017）作为编码器。GNN的第n层通常可以定义为：查询qc（i-1）。对于每个节点，计算δ（i）（等式2）。10）、mon（hc）和local（hl）接下来，使用基于δ（i）的掩模（等式2），11-14）。使用等式16来累积节点方面的hc，以更新当前迭代的图形方面的公共潜在因子。我们的主要算法发明是一种新的机制，以提取高质量的共同的潜在因素的基础上，基于迭代查询的推理和特征掩蔽的想法。如所讨论的，GVAE不能提取共同的潜在因素，因为它不能区分特征的重要性。为了确保从公共和局部后验分布中采样的潜在因子可以分别捕获公共和局部为了实现这一点，我们提出了一种新的机制，迭代学习图-（n）（n）。、（n−1）并从每个补丁中提取它们，av=AGGREGATEhu：u∈ N（v）（8）将它们累加以生成每个图的单个公因子嵌入。我们将公共因子提取建模为迭代h（n）= COMBINE（n）。h（n−1），a（n）≠（9）基于查询的推理问题，其中我们的查询是AC-图的累积公因子表示我们其中h（n）是以节点为在我们的输入补丁表示h（n）（su-1）上使用该查询，vv∈V在第n次特征掩蔽通用潜在因子更新程序特征掩蔽r=1+v：mala2255获取更多论文v−传播信息后的图层v从这里开始，将省略perscript以确定它的邻域u∈ N（v），其中（v，u）∈A. h（0）为-来自Hv的哪些因子与现有的公共因子相似十个初始化了节点特征我们使用术语GNN以指示使用等式（1）中描述的层的任何网络9. 邻域聚合函数 AGGREGATE 和节点更新函数COMBINE对于每个特定的GNN架构都是不同的（Kipf和Welling2017;Velickovicet al.2018;Xu et al. 2019年）的报告。因子，并将它们从非公共因子中过滤出来，以更新累积的公共因子表示。在每次迭代i时，该过程从查询qc（i1）开始，该查询包含从迭代i-1时的所有补丁中提取的图形公共因子。它用于查询所有修补程序报告-表示hv，v∈V，以确定+v：mala2255获取更多论文−∈∈·vDDLm（i）=<$σ（h W）≥δ（i）），（11）vkvΣvvDD|DDD∼|∈ {||}|∼|Dhc（i）=mc（i）hvWv，（13）DDCCvvvvhv，vv的每个因子与当前图形公共因子qc（i1）的相似性量，这也是我们的查询。当前迭代i的按因子的相似性得分，δv（i）∈Rdhidden计算为：δv （ i ） =σ （ fs （ [hvWk ， qc （ i−1 ）Wq]）），（10）其中Wk，Wq，Rd hidden×d hidden是查询和密钥的投影参数fs是非线性网络而[ ]表示连接。然后，我们创建两个掩码;掩码mc（i）是过滤掉补丁v的因子，它们是sim。与当前公共因子qc（i-1）和掩码ml（i）类似，应该拥有。由于zc对于所有补丁都是一个常数，如果zc应该具有的信息类型没有被强制执行，则zc有可能被agg忽略。为了解决这个问题，GCFX采用了正则化解码器reg，该正则化解码器reg通过尝试自己重建G来强制zc必须包含关于图G的结构1.一、3.3训练和推理细节我们修改Eq中的目标函数。6.在通用框架下获得了常见潜在因子的提取方法，以过滤掉剩余的本地因素。v跟随deepGCFX以端到端的方式训练deepGCFX。C1vml（i）=1σ（h W）<δ（i），（12）LdeepGCFX=LDagg+βLc prior+γLl prior+LDregv<$v k v）vv=Eqφ（zc，Zl|G）[log p θ（G|zc，Zc）]- β KL（qφ（z|G）（z）hl（i）=ml（i）hvWv（14）其中Wv∈Rdhidden×d hidden是投影参数，mc（i），ml（i）∈Rdhidden. 表示按元素|V|-γKL（q φ（zl（j））|G）p（zl（j）j=1乘法现在hc（i），v∈V是累加的，并且+Eq（z，Z|G）[log p θ（G|Zc）]v用于用新识别的公共面更新qc（i-1）φCl（十七）使用门控递归单元（GRU）的迭代i的推理。在如上所述训练deepGCFX之后，我们利用qupdate（i）=v∈V hc（i），（15）zc<$q φ（zc|G）作为图G的学习单公共潜在因子表示，zl（j）<$qφ（zl（j））|G），{1。. . |V|}作为本地非公共节点/补丁特定的潜在qc（i）=GRU（qupdate（i），qc（i−1））（16）这种积累方法如图所示二、一旦ACCUM在M次迭代中结束，我们使用hc（= q c（M））和hl（M）来生成我们的后验分布qφ （ zc ）的参数 |G）和 qφ （ zl（j）|G），则n∈{1. . . |V|}中。3.2基于聚集和正则化的解码我们提出了一种新的解码器不同于局部邻近度强调的GVAE解码器，以加强我们的公共潜在因子zc应该具有的两个性质：zc必须对所有补丁是公共的，并且它应该与输入图G相关。我们利用两个解码器来满足这些要求。聚合解码器agg，以针对所有补丁v强制z c的通用性。为了正确地重建原始图，该模型需要公共因子和局部因子。因此，共同和局部潜在因子从它们各自的后验分布（zc）中采样qφ（zcG）和zl（j）q φ（zl（j）G），j1. . . V）并发送通过解码器agg重建G.注意，对于使用qφ（zcG）的整个图，逐图公共潜在因子zc仅被采样一次。通过邻接矩阵的重构实现了G的聚集重构A，哪里p θ（A jk=1zc，zl（j），zl（k））=agg（[zc，zl（j）]）Tagg（[zc，zl（k）]）。尽管agg强制zc应该包含因子对于所有修补程序来说，为了实现正确的图形表示，Dagg无法强制执行什么类型的公共因子zc下游任务的因子表示。4评价4.1deepGCFX用于图级公共潜在因子提取为了评估deepGCFX在提取图级公共潜在因子方面的有效性，我们分析了所提取的公共潜在因子zc的相关性如何与局部潜在因子Zl、区块特定的公共潜在因子Zc以及来自聚合解码器agg的输出变化。遵循诸如UDR（Duanet al. 2020），我们使用斯皮尔曼的相关性。图3显示了相关性如何随着来自MUTAG数据集的样本图的迭代次数而变化。我们从累积迭代0开始，其中随机进行公共和局部潜在滤波，以显示所提出的ACCUM功能如何对抗随机滤波。我们可以观察到，随着ACCUM迭代的增加，局部因子Zl和公共因子Zc之间的相关性降低（图3（a）），这表明我们提出的AC-CUM方法图3（b）显示了共同潜势与其斑块特异性因子的正相关关系。最后，在图3（c）中，zc与agg输出的相关性增加，表明agg考虑了共同的图级因素，而没有过分强调局部接近性，因此确保了zc的共同性。这表明了迭代ACCUM在提取公因子方面的有效性+v：mala2255获取更多论文± ± ± ± ±±± ± ± ± ±±± ± − −−± − ± − ±±± ±± ± ±−- -± ± ± ± ±±± ± ± ± ±±j=1Σ−表1：图分类的平均10倍交叉验证准确度。粗体的结果分别表示基于图间相似性的方法和基于非图间相似性的方法的最佳准确度。下划线的结果显示了第二好的性能。对于deepGCFX和GVAE基线，我们严格遵循实验和评估设置以及数据集（Sun et al.2020;Hassani andKhasah-madi2020）。其他方法的结果取自他们的论文。DATASET MUTAG PTC- MR IMDB- BIN IMDB- MUL RED- BIN RED- MUL-5 K92.8±6.165.9± 2.075.9±3.7 53.4±4.7基于非显式图间相似性的方法基于Skip-gram的方法node2vec 72.6 10.2 58.6 8.0-2019 - 06 - 21 15：00：002019 - 06 - 21 10：00：00对比学习方法信息图表89.0 1.1 61.7 1.4 73.0 0.9 49.7 0.5 82.5 1.4 53.5 1.0巨细胞病毒89.7 1.1 62.5 1.774.20.7 51.20.584.50.6海湾合作委员会72.0 49.489.8 53.7GraphCL 86.8 1.3 71.1 0.4 89.5 0.456.0 0.3GVAE方法GVAE（基线） 1.8 70.7 0.7 49.3 0.4 87.1 0.1 52.8 0.2deepGCFX（Ours）- 最佳结果的α值在括号中深度GCFX89.8± 1.1 66.5± 1.0 72.9± 0.4 51.1± 0.5 89.7± 0.4 54.1± 0.2深GCFX ++92.2±0.9（0.7）69.6±1.4（0.85）74.4±0.2（0.95）52.7±0.4（0.85）90.9±0.3（0.9）55.1± 0.2（0.85）表2：用于监督和非监督模型的平均节点分类准确度，用于区分和区分图。粗体显示的结果表示每个数据集的最佳监督和无监督精度，下划线表示无监督的第二佳精度。我们严格遵循Geom-GCN的评估设置和数据集（Pei etal.2020）。对于无监督的方法，我们使用线性评估协议。78.22± 1.4 63.9± 1.6 77.5± 0.7 56.88± 2.9 33.05± 1.681.26± 1.2 65.51± 1.4 79.85± 0.7 57.67± 3.1 35.64± 1.7 26.88± 1.081.96± 1.7（0.15）66.71± 1.6（0.1）80.3± 0.7（0.2）61.05±2.4（0.35）39.20±1.4（0.4）28.80±1.4（0.4）在图4（a）中，我们比较了deepGCFX为了从GVAE中获得两个潜在表示，我们将学习的潜在表示分成两半。我们获得了基于Spearman R的相关矩阵，并且通过分析它们，我们可以得出结论，deepGCFX确实可以区分特征，因为与GVAE相比，zc与zl之间的相关性非常低为了验证我们的基于查询的推理ACCUM提取的因素确实在整个图中是共同的，我们使用图中的实验4（b）. 我们使用Higgins等人（2017）使用的平均绝对成对差异（MAPD）度量来分别比较共同和局部潜在的斑块间相似性，我们可以观察到斑块间共同潜在因子相似性非常高。图块局部因子证明了由我们的ACCUM方法表现出的潜在因子在整个图中确实是共同的。4.2学习图形公共因子zc和局部因子zl对下游任务绩效的影响为了评估所提取的共同潜在因素zc对下游任务的区分能力，我们选择图分类。我们报告的结果deepGCFX时，只有zc被用作图形嵌入。deepGCFX++将公共和本地因素与门控机制相结合，αzc+（1α）|V|zl（j），其中α表示来自图中公共因子的贡献。我们比较深-DeepGCFX++基于显式图间相似性的方法DDGKGCKN-walkUGraphEmb91.6±6.8-63.1±6.672.5−-−50.1−−−−−−同配异配数据集科拉CiteSeerPubMed变色龙松鼠演员监督参考GCN85.7773.6888.1328.1823.9626.86Geom-GCN85.2777.9990.0560.9038.1431.63无监督基线DGIGVAE82.16± 1.267.01± 1.381.34± 0.659.45± 2.436.33± 1.227.09± 1.225.12± 1.4DeepGCFX- 我们的zcZl30.33± 1.220.75± 1.139.82± 0.519.30± 2.719.23± 0.810.5± 1.2+v：mala2255获取更多论文D0.70.60.50.40.30.20.10.00 1 2 3 4 5迭代编号0.70.60.50.40.30.20.10.00 1 2 3 4 5迭代编号共同共同(a) 来自deepGCFX（左）与GVAE（右）的常见和局部因素之间的相关性(a) zc与Zl之间的相关性（b）zc与Zc之间的相关性0.60.50.40.30.20.10 1 2 3 4 5迭代编号(b) 公共因子（左）和局部因子(c) zc与Dagg输出之间的相关性图3：Spearman R绝对相关性的变化图4：对deepGCFX的分析：（a）deepGCFX对学习到的公共和局部潜在因素的过滤能力，提取具有局部（Zl）、斑块特异性公共的公共潜在因子zc与不执行公共局部滤波的GVAE相比，相关性的绝对值(b)斑块间Zc和输出agg对num-通过ACCUM迭代。GCFX与现有的最先进的方法和报告结果在表1中。与现有的skip-gram和对比学习工作相比，deepGCFX在四个数据集上取得了相当或更好的结果，而我们的deepGCFX++（当最大的贡献来自共同的潜在因素时）在五个数据集上取得了最先进的结果，与GraphCL（Youet al. 2020），其使用REDDI-MULTI-5 K的数据增强，显示GCFX对对比学习的有效性，其模型性能依赖于负样本的选择。由于成对比较的高计算成本，基于外显图间相似性的方法尚未报告用于较大数据集（如REDDIT）对于其他数据集，我们只使用单个图样本进行嵌入学习，就可以获得与之竞争的结果。这些结果表明了利用图的公共因子作为图嵌入的有效性4.3zc对节点级任务的影响为了分析共同的潜在因素如何影响节点级任务，我们选择了节点分类任务，这两个图的相邻节点具有相同的类标签）和discretative（相邻节点具有不同的类标签）图。由于zc对于图中的所有节点都是公共的，而不管节点间的距离如何，我们想分析它是否有利于改善长距离节点依赖性。由于GNN无法进行长距离信息传播，用于图学习的非局部聚合（Pei et al.2020;Liu，Wang，and Ji2020）Geom-GCN（Pei et al. 2020）提出了一个基准，以评估非本地aggre-共同因素和局部潜在因素的MAPD低zc的MAPD指示由deepGCFX过滤的公共因子表示确实跨整个图的补丁共享，不像特定于某些补丁的Zl图和图的两种类型据我们所知，现有的无监督图表示学习方法到目前为止还没有使用这个基准进行评估，因此我们选择了两个有监督的（ GCN （Kipf和 Welling2017）， Geom-GCN（Pei etal. 2020））和两个无监督的（Deep GraphInfomax （ DGI ）（ Velickovic et al. 2019 ）， GVAE（Kipf和Welling2016））方法作为我们的基线。表2报告了所有模型的结果，并且与deepGCFX的仅局部（ Z1 ）相比，将公共潜在因素与局部因素结合的deepGCFX++实现了更高的结果，证明了节点级任务的公共潜在因素的有效性更有趣的是，deepGCFX++在区分图上取得了最好的结果，突出了提取的公共潜在因素5结论我们介绍了一种基于图的公共潜在因子提取的无监督图表示学习原理。基于真实世界的图形，我们识别了与特定于节点的局部因子一起用于图形生成的公共我们提出了GCFX原则和深层GCFX模型，以解决GVAE的特征区分和邻近度过强限制，从而实现图级公共潜在因子提取。通过大量的实验，我们证明了deepGCFX的有效性斯皮尔曼河斯皮尔曼河斯皮尔曼河+v：mala2255获取更多论文以及其相对于仅使用当前样本进行嵌入学习的现有技术方法的出色性能。确认这项工作得到了SUTD项目PIE-SGP-AI- 2018-01的支持。这项研究还得到了新加坡国家研究基金会在其AI新加坡计划下的支持[奖项编号：AISG-100 E2018 -005]。作者感谢与陆伟的讨论。引用Adhikari，B.;张玉;Ramakrishnan，N.;普拉卡什B. A. 2018. Sub2Vec：子图的特征学习。在知识发现和数据挖掘的进展-第22届太平洋亚洲会议，PAKDD2018，墨尔本，VIC，澳大利亚，2018年6月3日至6日，会议记录，第二，170Al-Rfou，R.;Perozzi，B.;和Zelle，D.2019年。DDGK：学习- ING图表示深度发散图内核。在Liu，L.;怀特河，巴西-地W的; Mantrach，A.;西尔维斯特里F.地;McAuley，J. J.; Baeza-Yates，R.;和Zia，L.，编辑，万维网大会，WWW 2019，旧金山，加利福尼亚州，美国，2019年5月13日至17日，37-48。ACM。白，Y.;丁，H.;乔，Y.;Marinovic，A.;Gu，K.;Chen，T.;孙，Y.;和Wang，W.2019年。通过图-图邻近的无监督归纳在第28届国际人工智能联合会议论文集，IJCAI2019，中国澳门，2019年8月10日至16日，1988Baldi，P.; Hornik，K. 1989.神经网络和主元分析：从没有局部极小值的例子中学习. Neural Networks，2：53Bhatia，K.; Dahiya，K.; Jain，H.; Mittal，A.; Prabhu，Y.; 和Varma，M. 2016.极端分类库：多标签数据集和代码。Borgwardt，K. M.; Kriegel，H. P. 2005.图上的最短路径核。在第五届IEEE数据挖掘国际会议（ICDMBrown，N.; Fiscato，M.; Segler，M. H.的;和Vaucher，A. C. 2019. GuacaMol：从头分子设计的基准模型。Journal of Chemical Information and Modeling ， 59（3）：1096Chen，D.; Jacob，L.;和Mairal，J. 2020。图结构数据的卷积核网络。CoRR，abs/2003.05189。Cooray，T.; Cheung，N.- M.;和Lu，W. 2020.基于注意力的情境感知推理情境识别。IEEE/CVF计算机视觉和模式识别会议（CVPR）。Duan ， S.;Matthey ， L.;Saraiva ， A.;Watters ，N.;Burgess，C.;Lerchner，A.;希金斯，我。2020年。变分解纠缠表示学习的无监督模型第八届国际学习代表会议，ICLR 2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日。Duvenaud ， D.K. 的 ; Maclaurin ， D.;Iparraguirre ，J.;Bombarell ， R.; Hirzel ， T.;Aspuru-Guzik ， A.; 和Adams，R.P. 2015年。用于学习分子指纹的图上卷积网络。In Cortes，C.;Lawrence，N. D.的; Lee，D. D.的; Sugiyama，M.;和加内特， R. ，编辑，神经信息处理系统进展 28 ，2224Curran Asso-ciates，Inc.G？rtne r，T.; Flach，P. 一、和Wrobel，S. 2003年。关于图核：硬度结果和有效的替代方案。在计算学习理论和内核机器，第16届计算学习理论年会和第7届内核研讨会，COLT/内核2003，华盛顿特区，美国，2003年8月24日至27日，会议记录，129Grill ， J.;Strub ， F.;Altche′ ， F.;Tallec ， C.;Richemond ，P.H.的; Buchatskaya，E.;Doersch，C.;皮雷斯湾A′;郭志;阿扎河，M. G. 地 ; Piot ， B.;Kavukcuoglu ， K.;Munos ， R.; 和Valko ， M.2020. Bootstrap Your Own Latent - A NewApproach to Self-Supervised Learning （ Bootstrap YourOwn Latent - A New Approach to Self-SupervisedLearning ）In Larochelle ，H.; Ranzato ，M.; Hadsell，R.;Balcan，M.;和Lin，H.，编辑，神经信息处理系统的进展 33 ：神经信息处理系统 2020 年年会，NeurIPS2020，2020年12月6日至12

下载后可阅读完整内容，剩余1页未读，立即下载