没有合适的资源?快使用搜索试试~ 我知道了~
自动学习的图形视图生成器用于图对比学习
+v:mala2255获取更多论文AutoGCL:通过可学习的视图生成器进行尹一航1、王庆忠2、黄思宇3、熊浩毅2、张翔41南洋理工大学、2百度研究院、3哈佛大学、4宾夕法尼亚州立大学yyin009@e.ntu.edu.sg、www.example.com、wangqingzhong@baidu.com、huang@seas.harvard.edu、xionghaoyi@baidu.com、xzz89@psu.edu摘要对比学习在图表示学习中有着广泛的应用,视图生成器在生成有效的对比样本中起着至关重要的作用。大多数现有的对比学习方法采用预定义的视图生成方法,例如,节点丢失或边扰动,通常不能很好地适应输入数据或保持原始语义结构。为了解决这个问题,我们提出了一个新的框架,称为自动GCL(AutoGCL)。具体而言,AutoGCL采用一组可学习的图形视图生成器,由自动增强策略编排,其中每个图形视图生成器学习由输入调节的AutoGCL中的图视图生成器在生成每个对比样本时保留了原始图的最具代表性的结构,而自动增强学习策略在整个对比学习过程中引入了足够的增强方差。此外,AutoGCL采用联合训练策略,以端到端的方式训练可学习的视图生成器、图编码器和分类器,从而在生成对比样本时产生拓扑异构但语义相似的结果在半监督学习、无监督学习和迁移学习上的大量实验证明了我们的AutoGCL框架在图对比学习中的优越性。此外,可视化结果进一步证实了与现有的视图生成方法相比,可学习视图生成器可以提供更紧凑、更有语义意义的对比样本我们的代码可在https://github.com/Somedaywilldo/AutoGCL上获得。1介绍图神经网络(GNNs)(Kipf和Welling2016 a;依赖于大量精细注释的数据。然而,标记图形数据需要具有领域知识的专业注释者付出巨大的努力。为了解决这个问题,GAE(Kipf和Welling2016 b)和Graph-SAGE(Hamilton,Ying和Leskovec2017)已经提出利用一种朴素的无监督预训练策略来重建顶点邻接信息 。 一 些 近 期 的 作 品 ( Hu et al.2019; You et al.2020b)引入自监督预训练策略,进一步提高泛化性能。最近,随着计算机视觉中对比多视图学习的发展(He et al. 2020;陈等人2020 a; Tian,Krishnan和Isola2019 ) 和 自 然 语 言 处 理 ( Yang et al.2019;Logeswaran和Lee2018),一些自我监督的预训练方法与监督方法一样好(甚至更好)。一般来说,对比方法使用数据扩充生成训练视图,其中相同(正对)输入的视图集中在表示空间中,而不同输入(负对)的视图被推开。 为了研究图形, DGI ( Vel icko vi c′etal.2018)已经被提出将同一图的图级和节点级表示都视为正对,追求来自局部和全局特征的一致表示。CMRLG(Hassani和Khasahmadi2020)通过将邻接矩阵(局部特征)及其扩散矩阵(全局特征)分组为正对来实现类似的目标GCA(Zhu et al.2020 b)通过子图采样生成正视图对,其中结构先验具有随机掩蔽的节点属性。GraphCL(You et al.2020 a)提供了更多的增强策略,例如节点丢弃和边扰动。虽然上述尝试结合了对比学习Veli cko v ic'etal. 2017;Xu etal. 2018;Hamilton,Ying,他们通常无法生成关于和Leskovec2017)在图表示学习领域获得了越来越多的关注。通过通常遵循递归邻域聚合方案,GNN在各个领域都表现出了令人印象深刻的表示能力,例如点云( Shi 和 Rajkumar2020 ) , 社 会 网 络 ( Fan etal.2019),化学分析(De Cao和Kipf2018)等。大多数现有的GNN模型都是以端到端的监督方式训练的Copyright © 2022 , Association for the Advancement ofArtificial Intelligence(www.aaai.org). All rights reserved.原始图的语义或使增强策略适应特定的图学习任务。由于图像语义在各种变换下的不变性,图像数据增强已被广泛使用(Cubuk et al. 2019年),以生成对比的观点。然而,在这里使用图数据增强可能是无效的,因为图上的转换可能会严重破坏其语义和学习属性与此同时,InfoMin(Tian et al. 2020)改进了视觉任务的对比学习,并提出用基于流的生成模型取代arXiv:2109.10259v2 [cs.LG] 2022年1+v:mala2255获取更多论文vnu表1:图形增强方法概述。这些属性的解释可以在第3.1节中找到。属性CMRLG恩典GraphCLGCAJoaoAD-GCL我们的拓扑C C C C C C C2相关工作2.1图神经网络将图表示为g=(V,E),其中节点特征节点功能-C C C C -C标签保存--C对于v∈V,有xv。在本文中,我们将重点放在图CCC C C高效BP-CC用于对比视图生成。因此,学习以输入图为条件的对比视图的概率分布可能是用于图对比学习的简单数据增强的替代方案,但仍然需要非平凡的努力,作为通用图的性能和可扩展性图神经网络(GNNs)。GNN通过聚集其邻居的节点特征xv来生成节点级嵌入hvGNN的每一层充当聚合的迭代,使得在第k层之后的节点嵌入聚合其k跳邻域内的信息。GNN的第k层可以公式化为:a(k)=AGGREGA TE(k)({h(k−1):u∈N(v)})(1)生成模型在现实世界的场景中很差。h(k)=COMBINE(k)(h(k−1),a(k)) (2)v v v在这项工作中,我们提出了一个可学习的图视图生成方法,即AutoGCL,通过学习节点级增强的概率分布来解决上述问题。传统的预定义视图生成方法(如随机丢弃或图节点屏蔽)可能不可避免地改变图的语义标签,最终损害对比学习,而AutoGCL自适应输入图,可以很好地保留图的语义标签此外,由于gumbel-softmax技巧(Jang,Gu和Poole2016),AutoGCL是端到端可区分的,但为对比样本生成提供了足够的方差。我们进一步提出了一种联合训练策略,以端到端的方式训练可学习的视图生成器,图编码器和分类器该策略包括视图相似性损失、对比性损失和分类损失。它使得所提出的视图生成器生成具有相似语义信息但具有不同拓扑属性的增强图。在表1中,我们总结了现有图增强方法的属性,其中AutoGCL在比较中占主导地位。我们使用半监督学习,无监督学习和迁移学习任务进行了广泛的图分类实验,以评估Auto-GCL的有效性结果表明,AutoGCL在大多数数据集上提高了此外,我 们 在 MNIST 超 像 素 数 据 集 上 可 视 化 生 成 的 图 形(Monti et al. 2017),并揭示了AutoGCL可以比现有的预定义视图生成器更好地保留输入数据的语义结构。我们的贡献可归纳如下。• 我们提出了一个图对比学习框架与可学习的图视图生成器嵌入到一个自动增强策略。据我们所知,这是第一个为图对比学习构建可学习的生成节点增强策略的工作。• 我们提出了一种联合训练策略,用于在图对比学习的上下文中以端到端的方式训练图视图生成器、图编码器和图• 我们广泛地评估了所提出的方法在半监督,无监督和迁移学习设置的各种图分类数据集上t-SNE和视图可视化结果也证明了该方法的有效性。对于图分类等下游任务,通过READOUT函数和MLP层获得图级表示zg,如下所示:F(g)=READOUT({h(k):vn∈ V})(3)zg=MLP(F(g))(4)在这项工作中,我们遵循现有的图对比学习文献,采用两种最先进的GNN,即。,GIN(Xu et al.2018)和ResGCN(Chen,Bian和Sun2019)作为我们的骨干GNN。2.2预训练图神经网络在图数据集上预训练GNN仍然是一项挑战性的任务,因为图的语义不是直接的,并且图的注释(蛋白质,化学物质等)通常需要专业知识。收集像ImageNet这样的 大规模和 精细注释 的图数 据集是非 常昂贵的(Krizhevsky,Sutskever和Hinton2012)。一种替代方式 是 以 无 监 督 的 方 式 预 训 练 GNNGAE ( Kipf andWelling2016 b)首先通过重构图拓扑结构来探索无监督 GNN 预 训 练 GraphSAGE ( Hamilton , Ying 和Leskovec2017)通过学习邻域聚合函数提出了一种无监督节点嵌入的归纳方法Pretrain-GNN(Hu et al.2019)首次对迁移学习设置下的预训练GNN策略进行了系统的大规模调查它提出了自我监督的预训练策略来学习图的局部和全局特征。然而,图迁移学习的好处可能是有限的,并导致负迁移(Rosenstein et al.2005),因为来自不同领域的图实际上在它们的结构,规模和节点/边属性上有很大差异。因此,许多以下的工作开始探索一个替代的ap-proach,即。对比学习,用于GNNs的预训练。2.3对比学习近年来,对比学习(CL)在自监督学习方法中受到了相当大的关注,包括Simplified(Chen et al.2020 a)和MoCo-v2(Chen et al.2020 b)在内的一系列CL方法甚至优于监督基线。通过最小化对比损失(Hadsell,Chopra和LeCun 2006),从相 同 的输入(即积极的观点+v:mala2255获取更多论文对)在表示空间中被拉近,而不同输入的视图(即,负视图对)被推开。大多数现有的CL方法(He et al.2020; Zbontar等人 2021; Chen等人2020 a; Grill等人2020年)使用数据增强生成视图,这对于图形数据来说仍然具有挑战性和探索不足。代替数据增强,DGI(Velicko vi c'etal. 2018)将同一图的图级和节点级表示视为正视图对。CMRLG(Hassani和Khasahmadi2020)通过将邻接矩阵和扩散矩阵视为正对来实现类似目标。最近,GraphCL框架(You et al. 2020a)采用了四种类型的图扩充,包括节点丢弃、边扰动2、子图采样3和节点属性掩蔽1,使得迄今为止最多样化的扩充用于图视图生成。GCA(Zhu et al. 2020 b)使用子图采样和节点属性掩蔽作为增强,并引入了基于节点中心性测量的先验增强概率,比GraphCL(You et al. 2020a),但前者是不可学习的。2.4可学习的数据扩充如上所述,数据扩充是CL的重要现有文献(Chen et al.2020 a; You et al. 2020 a)揭示了最优增强策略是依赖于任务的,并且增强策略的选择对CL性能有很大的影响。在计算机视觉领域,研究人员一直在探索自动发现 图 像 增 强 的 最 佳 策 略 。 例 如 , AutoAugment(Cubuket al. 2019)首次通过强化学习优化了增强函数的 组合。 Faster-AA( Hataya et al.2020 )和 DADA( Li et al.2020 ) 提 出 了 一 种 遵 循 DARTS ( Liu ,Simonyan和Yang2018)风格的可微分增强优化框架然而,除了InfoMin框架(Tianet al. 2020),声称CL的好视图应该保持标签信息以及最小化正视图对的互信息。InfoMin采用基于流的生成模型作为视图生成器进行数据扩充,并以半监督的方式训练视图生成器。然而,将这一想法转移到图形是一项重要的任务,因为当前的图形生成模型要么具有有限的生成质量(Kipf和Welling2016 b),要么是为特定任务(如分子数据)而设计的(De Cao和Kipf2018;Madhawa等人2019;Wang等人2021)。为了使图增强适应不同的任务,JOAO(You et al. 2021)以贝叶斯方式学习预定义增强的采样分布,但是增强本身仍然是不可学习的。AD-GCL(Suresh et al.2021)首先提出了一种可学习的边缘下降增强,并采用对抗训练策略,但节点级增强并不一致。表达方式与已有的图CL方法相比,该方法较好地保留了原始图的语义结构.此外,它是端到端可区分的,可以有效地训练。3方法3.1什么是一个好的图形视图生成器?我们的目标是设计一个可学习的图视图生成器,学习生成数据驱动的方式增强图视图。虽然各种各样的图数据扩充方法已经被提出,但是关于什么是一个好的图视图生成器的讨论较少。从我们的角度来看,一个理想的数据扩充和对比学习的图视图生成器应该满足以下性质:(1)它支持图拓扑和节点特征的扩充。(2)标签保存,即因此,增强图应该保持原始图中的语义信息。(3)它可以适应不同的数据分布,并可扩展到大型图形。(4)它为对比多视图预训练提供了足够的变化。(5)它是端到端可微的,并且对于经由反向传播(BP)的快速梯度计算足够有效。在这里,我们在表1中提供了现有的图对比学习文献中 提 出 的 增 强 方 法 的 概 述 。 CMRLG ( Hassani andKhasahmadi2020)应用扩散核得到不同的拓扑结构。GRACE(Zhu et al.2020 a)使用随机边丢弃和节点属性掩码1。GCA(Zhu et al.2020 b)使用节点丢弃和节点 属 性 掩 蔽 以 及 结 构 先 验 。 GraphCL ( You et al.2020a)提出了迄今为止最灵活的一组图数据扩充,包括节点丢弃、边扰动2、子图3和属性掩码1。我们在补充材料的第1.1 JOAO(You et al. 2021)以贝叶斯方式优化了GraphCL的增强采样策略。AD-GCL(Suresh etal.2021)设计了一种可学习的边缘下降增强。在这项工作中,我们提出了一个可学习的视图生成器来解决上述所有问题。我们的视图生成器包括节点丢弃和属性掩蔽的增强,但它更灵活,因为这两个增强可以同时采用节点方式,而不需要调整除了考虑模型性能之外,在我们的视图生成器中不包含边缘扰动的另一个原因是,通过可学习的方法(例如,,VGAE(Kipf和Welling2016 b))需要预测包含O(N2)个元素的全邻接在处理大规模图形时使用反向传播。3.2可学习的图形视图生成器图1展示了我们提出的可学习的图视图生成器的方案。我们使用GIN(Xu et al.2018)层从节点属性中获取节点嵌入为每个#21453;,而这一策略并不能保证产生标签。保持扩增。在这项工作中,我们构建了一个可学习的图形视图生成器,它可以学习节点级aug上的概率分布1随机屏蔽一定比例节点的属性。2随机替换一定比例的随机边。3随机选择一个一定大小的连通子图。+v:mala2255获取更多论文LvLvvv∈LLLLLk后的vv-th层。对于节点v,我们有节点特征k=11[k/=i]exp(sim(zi,zk)/τ)Lcl=1<$[l(2k−1,2k)+l(2k,2k−1)](11)vu12v视图生成器他们之间为了实现这一点,我们的框架使用了两个独立的图视图生成器,并以联合的方式训练它们和损失函数定义 在这里,我们定义了三个损失函数-对比损失相似性损失LSIM 分类-图1:我们的可学习图视图生成器的架构阳离子损失 cls.对于对比损失,我们遵循以前的作品(Chen et al. 2020a; You et al. 2020a),并使用归一化的温度标度交叉熵损失(NT-XEnt)(Sohn2016)。将相似性函数sim(z1,z2)定义为:我是说... GNN层嵌入原始图以生成sim(z,z)=z1·z2(九)分配给每个节点。每个人的增强选择2012年1月2日·2012年2月2日使用gumbel-softmax对其节点进行采样。节点,我们使用嵌入节点特征来预测概率。假设我们有一个由N个图组成的数据批。我们将批处理传递给两个视图生成器以获得2N个图形视图。我们从同一个角度看待这两个扩大的观点,选择某种增强操作的能力八月-输入图作为正视图对。我们使用1[k i]∈ {0,1}每个节点的分段池是drop、keep和mask。我们使用gumbel-softamx(Jang,Gu和Poole2016)从这些概率中采样,然后为每个节点分配一个增强操作形式上,如果我们使用k个GIN层作为嵌入层,我们将h(k)表示为以表示指示器功能。我们将正样本对(i,j)的对比损失函数表示为l(i,j),该数据批次的对比损失表示为cl,温度参数表示为τ,则我们有exp(sim(zi,zj)/τ)第k层的节点v和a(k)作为节点xv,增广选择fv和函数Aug(x,f)l(i,j)=−log<$2NN(十)用于应用增强。那么增广特征2N节点V的“,h(k−1)=COMBINE(k)(h(k−2),a(k−1))(5)k=1相似性损失用于最小化由两个视图生成器生成的视图之间的相互信息v v va(k)=AGGREGA TE(k)({h(k−1):u∈N(v)})(6)或在视图生成过程中,我们有一个fv=GumbelSoftmax(a(k))(7)x'=Aug(xv,fv)(8)最后一层k的维度被设置为每个节点的可能扩充的相同数量。a(k)表示用于选择每种aug的概率分布心理状态fv是从该分布中采样的独热向量通过gumbel-softmax进行分配,由于重新参数化技巧,它是可微的增广应用函数Aug(xv,fv)使用可微运算(例如,乘法),因此视图生成器的权重的gra-total保持在增强的节点特征,并且可以使用反向传播来计算。对于增广图,边表使用fv对所有v V进行更新,其中连接到任何丢弃节点的边被移除。由于边表只是节点特征聚合的指导,不参与梯度计算,因此不需要以可微的方式更新。因此,我们的视图生成器是端到端可微的。GIN嵌入层和gumbel-softmax可以有效地扩展到更大的图形数据集和更多的增强选择。3.3对比预训练策略由于对比学习需要多个视图来形成一个积极的视图对,我们有两个视图生成器和一个分类器为我们的框架。根据InfoMin原则(Tian et al.2020),用于对比学习的良好正视图对应该最大化标签相关信息并最小化互信息(类似于站操作(见图1)。对于图G,我们将每个视图生成器的采样增强选择矩阵表示为A1,A2,然后我们将相似性损失Lsim表示为Lsim=sim(A1,A2)( 12)最后,对于分类损失,我们直接使用交叉熵损失(lcls)。对于类标签为y的图样本g,我们将增强视图表示为g1和g2,将分类器表示为F。然后,分类损失Lcls被公式化为:Lcls=l cls(F(g),y)+l cls(F(g1),y)+l cls(F(g2),y)(13)在半监督预训练任务中采用CLS以鼓励视图生成器生成标签保留增强。对于无监督学习和迁移学习任务,我们使用朴素训练策略(朴素策略)。由于我们在预训练阶段不知道标签,所以不使用sim,因为仅仅鼓励视图不同而不保留标签相关信息是没有意义的。这可能导致生成无用甚至有害的视图样本。我们只是在预训练阶段联合训练视图生成器和分类器以最小化CL此外,我们注意到生成的视图的质量将不如原始数据。在cl最小化过程中,我们还利用了原始数据,而不是 像GraphCL 那 样仅 最小 化两 个增 强视 图之 间的 cl(You et al.2020 a)。通过在嵌入空间中拉近原始数据和增强视图,鼓励视图生成器保留标签相关信息。算原始GNNs概率样本增强1 12 213 42345612345634损失5566关键节点其他节点被屏蔽的节点丢弃的节点X状态矩阵S表示每个节点+v:mala2255获取更多论文法1中描述了细节。+v:mala2255获取更多论文LLLLLLLL L LL无监督监督视图生成器1编码器分类器视图1原始图相似性损失对比损失分类损失视图2关键节点其他节点被屏蔽节点被删除节点视图生成器2编码器分类器图2:拟议的AutoGCL框架由三部分组成:(1)两个视图生成器,生成原始图的不同视图,(2)提取图特征的图编码器和(3)提供图输出的分类器算法1:朴素训练策略(naive-strategy)。1:初始化两个视图生成器G1、G22:初始化分类器F3:当未达到最大时期时,4:对于来自未标记数据的小批量x,5:获得扩增x1=G1(x),x2=G2(x)6:从{x,x1,x2}采样两个视图v1,v27:L=Lcl(v1,v2)8:更新G1、G2、F的权重以最小化L9:当未达到最大时期时,do10:对于来自标记数据的小批量x,do11:L=Lcls(x)12:更新F的权重以最小化L联合训练策略对于半监督学习任务,本文提出了一种联合训练策略,交替进行对比训练和监督训练。该策略生成标签保留增强并优于朴素策略,实验结果和详细分析见第4.1节和第4.3节。对于联合策略,在无监督训练阶段,我们固定视图生成器,并使用未标记数据通过对比学习来训练分类器。在监督训练阶段,我们使用标记数据联合训练视图生成器和分类器通过同时优化sim和cls,鼓励两个视图生成器生成标签保留增强,但彼此足够无监督训练阶段和监督训练阶段交替重复。这与以前的图对比学习方法非常不同。 以前的工作,如GraphCL(你等。2020a)使用预训练/微调策略,该策略首先使用未标记的数据最小化对比损失(CL)直到收敛,然后用标记的数据对其进行微调。然而,我们发现,对于图对比学习,预训练/微调策略更容易在微调阶段导致过拟合。并且将cl最小化太多可能对微调阶段具有负面影响(参见第4.3节)。我们推测,将cl最小化太多将使决策边界附近的数据点彼此过于接近,从而使类筛选器更难因为无论我们如何训练GNN分类器,仍然有错误分类的样本,算法2:联合训练策略(Joint-Strategy)。一曰: 初始化G1、G2、F的权重。2:当未达到最大时期时,3:对于来自未标记数据的小批量x,4:固定G1,G2的权重5:获得扩增x1=G1(x),x2=G2(x)6:从{x,x1,x2}采样两个视图v1,v27:L=Lcl(v1,v2)8:更新F的权重以最小化L9:对于来自标记数据的小批量x,10:得到增广x1=G1(x),x2=G2(x)11:L=Lcls(x,x1,x2)+λ·L sim(x1,x2)12:更新G1,G2,F的权重以最小化L不同类别的数据分布之间的自然重叠。但在对比预训练状态下,分类器并不知道被拉到一起的样本是否真的来自同一个类。因此,我们提出了一种新的半监督训练策略,即交替最小化 cl和 cls+cls的联合策略。最小化 cls+cls受到InfoMin(Tian et al.2020)的启发,以便使两个视图生成器在保留标签相关信息的同时,更少的互信息。然而,由于我们只有一小部分标记数据来训练我们的视图生成器,因此像naive策略一样使用原始数据仍然是有益的。有趣的是,由于我们需要同时最小化cls和sim,因此可以应用权重λ来更好地平衡优化,但实际上我们发现设置λ=1在4.1节的实验中效果很好。的在算法2中描述了详细的训练策略。整个框架的概览如图2所示。4实验4.1与最先进方法的无监督学习对于无监督图分类任务,我们使用未标记数据对比训练表示在GraphCL(You et al.2020 a)之后,我们使用隐藏大小为128的5层GIN作为我们的表示模型,并使用SVM作为我们的分类器。我们训练GIN的批量大小为128,学习率为0.001。有30个时期的对比+v:mala2255获取更多论文表2:与现有无监督学习方法的比较粗体数字表示最佳性能,蓝色数字表示第二佳性能。模型MUTAG蛋白DDNCI1COLLABIMDB-BREDDIT-BREDDIT-M-5KGL81.66±2.11----65.87±0.9877.34±0.1841.01±0.17WL80.72±3.0072.92±0.56-80.01±0.50-72.30±3.4468.82±0.4146.06±0.21DGK87.44±2.7273.30±0.82-80.31±0.46-66.96±0.5678.04±0.3941.27±0.18node2vec72.63±10.2057.49±3.57-54.89±1.61----sub2vec61.05±15.8053.03±5.55-52.84±1.47-55.26±1.5471.48±0.4136.68±0.42graph2vec83.15±9.2573.30±2.05-73.22±1.81-71.10±0.5475.78±1.0347.86±0.26InfoGraph89.01±1.1374.44±0.3172.85±1.7876.20±1.0670.65±1.1373.03±0.8782.50±1.4253.46±1.03GraphCL86.80±1.3474.39±0.4578.62±0.4077.87±0.4171.36±1.1571.14±0.4489.53±0.8455.99±0.28JOAOv2-71.25±0.8566.91±1.7572.99±0.7570.40±2.2171.60±0.8678.35±1.3845.57±2.86AD-GCL-73.59±0.6574.49±0.5269.67±0.5173.32±0.6171.57±1.0185.52±0.7953.00±0.82我们88.64±1.0875.80±0.3677.57±0.6082.00±0.2970.12±0.6873.30±0.4088.58±1.4956.75±0.18表3:与现有迁移学习方法的比较。粗体数字表示最佳性能,蓝色数字表示第二佳性能。模型BBBPTox21ToxCastSIDERClinToxMUV艾滋病毒BACE无预训练65.8±4.574.0±0.863.4±0.657.3±1.658.0±4.471.8±2.575.3±1.970.1±5.4Infomax68.8±0.875.3±0.562.7±0.458.4±0.869.9±3.075.3±2.576.0±0.775.9±1.6EdgePred67.3±2.476.0±0.664.1±0.660.4±0.764.1±3.774.1±2.176.3±1.079.9±0.9AttrMasking64.3±2.876.7±0.464.2±0.561.0±0.771.8±4.174.7±1.477.2±1.179.3±1.6上下文预测68.0±2.075.7±0.763.9±0.660.9±0.665.9±3.875.8±1.777.3±1.079.6±1.2GraphCL69.68±0.6773.87±0.6662.40±0.5760.53±0.8875.99±2.6569.80±2.6678.47±1.2275.38±1.44JOAOv271.39±0.9274.27±0.6263.16±0.4560.49±0.7480.97±1.6473.67±1.0077.51±1.1775.49±1.27AD-GCL70.01±1.0776.54±0.8263.07±0.7263.28±0.7979.78±3.5272.30±1.6178.28±0.9778.51±0.80我们73.36±0.7775.69±0.2963.47±0.3862.51±0.6380.99±3.3875.83±1.3078.35±0.6483.26±1.13在朴素策略下的预训练。我们对每个数据集执行10倍交叉验证。对于每个折叠,我们使用总数据的90%作为对比预训练的未标记数据,10%作为标记测试数据。我们使用不同的随机种子重复每个实验5次。我们比较了基于核的方法,如graphlet kernel(GL)(2009 ) ,Weisfeiler-Lehman sub-tree kernel ( WL)(2011)和deep graph kernel(DGK)(2015),以及其他无监督的图表示方法,如node 2 vec(Grover和Leskovec2016),sub 2 vec(Adhikariet al. 2018),graph2vec(Narayanan et al. 2017)以及对比学习方法,如InfoGraph(Sun et al.2019),GraphCL(You etal.2020 a ) , JOAO ( You et al.2021 ) 和 AD-GCL(Suresh et al. 2021年)。表2显示了不同无监督学习模型之间的我们提出的模型在PROTEINS,NCI 1,IMDB-二进制和REDDIT-Multi-5 K数据集上取得了最佳结果,在MUTAG,DD和REDDIT-二进制数据集上取得了第二好的性能,优于当前最先进的对比学习方法GraphCL,JOAO和AD-GCL。迁移学习我们还评估了所提出的方法的迁移学习性能。用于图迁移学习的强基线方法是Pretrain-GNN(Hu et al.2019)。Pretrain-GNN,GraphCL,JOAO,AD-GCL的网络骨干和我们的方法是GIN的变体(Xu etal.2018 ) , 它 包 含 了 边 属 性 。 我 们 对 预 处 理 的ChEMBL数据集进行100个时期的监督预训练(Mayr etal. 2018; Gaultonet al. 2012)),其含有456K分子,具有1,310种多样和广泛的生化测定。我们对8个化学评价子集进行了30次微调。我们为类筛选器使用隐藏大小300我们使用256的批量大小和256的学习率来训练模型。0.001.表3中的结果是ROC的平均值土标准值。10 名 代 表 的 AUC 评 分 Infomax 、 EdgePred 、AttrMasking、ContextPred是来自Pretrain-GNN的手动设计的预训练策略(Hu et al. 2019年)的报告。表3显示了不同方法之间的比较。 我们提出的方法在大 多 数 数据 集 上 实 现 了 最 佳 性 能 , 例 如 BBBP ,ClinTox,MUV和BACE,并与当前SoTA模型AD-GCL(Sureshet al. 2021),我们的方法表现得更好,例如,在BACE数据集上,准确率从78.51±0.80提高到83.26±1.13。考虑到所有数据集,使用我们提出的方法的平均增益约为1.5%。有趣的是,AttrMasking在Tox21和ToxCast上实现了最佳性能,比我们的方法略好一个可能的原因是属性对于Tox21和ToxCast数据集中的分类很重要。半监督学习我们在TUDataset上执行半监督图分类任务(Morris et al.2020)。对于我们的视图生成器,我们使用隐藏大小为128的5层GIN作为嵌入模型。我们使用隐藏大小为128的Res- GCN(2019)作为分类器。 对于GraphCL,我们使用默认的增强策略ran-dom 4,它为每个小批从节点丢弃、边扰动、子图和属性掩码中随机选择两个增强。所有增强比率均设置为0。2,这也是GraphCL中的默认设置。我们对每个数据集进行了10倍交叉验证对于每个折叠,我们使用总数据的80%作为未标记数据,10%作为标记训练数据,10%作为标记测试数据。对于仅增强(仅八月)实验,我们仅使用标记数据进行30个时期的监督训练对于GraphCL和我们的朴素策略的对比学习实验,我们进行了30个时期的对比预训练,然后进行了30个时期的监督训练。对于我们的联合策略,有30个对比训练和监督训练的联合时代。+v:mala2255获取更多论文表4:与现有方法和半监督学习的不同策略的比较粗体数字表示最佳性能,蓝色数字表示第二佳性能。红色是我们联合训练策略的默认设置10%我们的CL关节(Lcls+Lsim)10%我们的CL关节(Lcl+Lcls)74.75±3.35 76.82±3.8573.07±2.3176.18±2.4661.75±1.3071.50±5.3278.35±4.21 47.73±2.6910%我们的CL关节(Lcl+Lcls+Lsim)75.65±2.4077.50±4.4173.75±2.2577.16±1.4862.46±1.5171.90±4.79 7 9 . 8 0 ±3.4749.91±2.70表4比较了通过不同训练策略获得的性能:仅增强(仅Aug)、初始策略(CL初始)和联合策略(CL联合)。我们还对我们的关节功能丧失进行了消融研究。在大多数数据集上,如在PROTEINS和COLLAB数据集上,采用联合策略的CL联合方法获得了较高的精度。对于其他数据集,使用联合策略也可以获得次优性能。在仅Aug、CL naive和CL joint之间的比较中,CL joint优于其他两种方法,特别是CL naive。4.2可学习视图生成器的有效性在本节中,我们将展示可学习的图增强策略相对于固定策略的优越性。由于图形数据集通常难以手动分类和可视化,因此我们在MNIST-超像素数据集(Monti etal. 2017),以验证我们的图形视图生成器能够比GraphCL(You et al. 2020 a),因为MNIST-超像素图具有不需要任何领域知识的可视化结果如图4所示。在这里,我们联合训练视图生成器和分类器,直到测试准确率(在生成的视图上评估)达到90%。因为我们唯一的拓扑扩充就是节点删除。因此,我们比较了GraphCL的节点丢弃增强视图,图4显示,我们的视图生成器更有可能保留原始图中的关键节点,保留其语义特征,同时为对比学习提供足够的方差。MNIST-超像素数据集的详细信息和更多可视化示例见第补充质询第1.2项4.3联合训练策略分析我们比较了朴素策略(算法1)和联合策略(算法2)。我们在COLLAB(2015)数据集上进行了训练,该数据集有3个类的5000个社交网络图,平均节点和边分别为74.49和2457.78。在这里,我们使用5层GIN(Xu et al.2018)作为视图生成器和分类器的主干。对于朴素策略,使用80%的未标记数据进行30个时期的对比预训练,使用10%的数据进行30%的微调Original Our Views GraphCL视图图3:MNIST-Superpixel数据集上的视图可视化。红色反映节点属性的大小。对于联合战略,有30个联合训练时期。学习曲线如手册第1.3节所示。实验结果表明,联合策略可以有效地抑制过拟合效应,并且我们的标签保持视图生成器是非常有效的。我们还可视化了使用t-SNE(Van derMaaten和Hinton2008)学习每个策略嵌入的过程。我们发现,联合策略导致更好的表示更快,因为标记的数据用于监督,而且这种监督信号可以有益于视图生成器学习。5结论在本文中,我们提出了一种可学习的数据增强方法来进行图对比学习,其中我们使用GIN来生成原始图的不同视图。为了保持输入图的语义标签,我们开发了一种联合学习策略,交替优化视图生成器,图编码器和分类器。我们还对许多数据集和任务进行了广泛的实验,例如半监督学习,无监督学习和迁移学习,结果表明我们提出的方法在大多数数据集和任务上优于对手。此外,我们可视化生成的图视图,它可以保持输入图的区分结构,有利于分类。最后,t-SNE可视化表明,提出的联合训练策略可以是一个更好的选择半监督图表示学习。模型蛋白DDNCI1COLLABGitHubIMDB-BREDDIT-BREDDIT-M-5K完整数据78.25±1.6180.73±3.7883.65±1.1683.44±0.7766.89±1.0476.60±4.2089.95±2.0655.59±2.2410%数据69.72±6.7174.36±5.8675.16±2.0774.34±2.0061.05±1.5764.80±4.927
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功