没有合适的资源?快使用搜索试试~ 我知道了~
图学习中的节点和图分类的混淆问题及解决方法
3663→节点和图分类的混淆王毅伟新加坡国立大学wangyw_seu@foxmail.com铎王新加坡国立大学wangwei@comp.nus.edu.sg梁宇轩新加坡国立大学yuxliang@outlook.com摘要蔡玉君新加坡南洋理工大学yujun001@e.ntu.edu.sg布莱恩·胡新加坡国立大学bhooi@comp.nus.edu.sg1介绍Mixup是一种先进的数据增强方法,用于训练基于神经网络的图像分类器,它内插一对图像的特征和标签以产生合成样本。 然而,由于图数据的不规则性和连通性,设计用于图学习的Mixup方法具有挑战性。在本文中,我们提出了两个基本任务的混合方法图学习:节点和图分类。为了插值不规则图拓扑,我们提出了两个分支图卷积来混合成对节点的感受野子图。由于节点之间的连通性,不同节点对上的混淆可能会干扰彼此的混合特征。 为了阻止这种干扰,我们提出了两阶段的Mixup框架,它使用每个节点的邻居的表示之前Mixup的图形卷积。对于图分类,我们在语义空间中插入复杂多样的图。此外,我们的Mixup方法使GNN能够学习更多的判别特征并减少过度拟合。定量结果表明,我们的方法在标准数据集上的测试准确度和F1-微分数方面,对于节点和图分类都产生了一致的收益。总的来说,我们的方法有效地正则化了流行的图神经网络,以获得更好的泛化能力,而不会增加它们的时间复杂度。CCS概念• 计算方法学;分类监督学习;神经网络;正则化。关键词数据扩充,节点分类,图分类ACM参考格式:Yiwei Wang , Wei Wang , Yuxuan Liang , Yujun Cai , and BryanHooi.2021年混淆节点和图分类。2021年网络会议(WWW '21),2021年4月19日至23日,斯洛文尼亚卢布尔雅那。ACM,纽约州纽约市,美国,12页。https://doi.org/10.1145/3442381.3449796本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3449796图神经网络(GNN)在图学习任务上取得了最先进的性能,包括节点分类[27],[65]和图分类[16],[60]。 GNN能够基于复杂的图结构进行预测,这要归功于它们先进的表示能力。然而,增加的代表能力伴随着更高的模型复杂度,这可能导致过拟合并削弱GNNs的泛化能力。在这种情况下,经过训练的GNN可能会捕获随机误差或噪声,而不是底层数据分布[66],这不是我们所期望的。为了对抗神经网络的过度拟合,数据扩充已被证明是有效的[38]。对于节点分类,[40]提出了一种名为DropEdge的数据增强方法。DropEdge遵循邻近风险最小化(VRM)原则[7],通过随机删除边缘来定义每个节点周围的邻近区域。然后,从邻近分布中提取额外的虚拟示例,以扩大训练分布的支持度。换句话说,它假设节点的类标签在边移除后保持不变然而,这个假设是否成立取决于网络,因此需要专业知识来使用。此外,虽然DropEdge为共享同一类的节点的邻近建模,但它没有描述不同类的样本之间的邻近关系。受上述问题的启发,我们的目标是设计Mixup [67]方法用于图学习。 Mixup是最近提出的用于图像分类的数据增强方法。通过线性插值随机图像对及其训练目标的像素,Mixup生成用于训练的合成图像(见图10)。①的人。 Mixup不需要地面实况标签与增强特征保持不变。相反,它包含了先前的知识,即特征的插值应该导致相关目标的插值[67]。因此,Mixup通过在所有类中构建虚拟训练样本来扩展训练分布从这个角度来看,Mixup作为训练图像分类器的有效正则化策略,它平滑了决策边界并改善了隐藏表示的排列[52]。虽然Mixup 在增强图像数据方面是有效的用于图学习的Mixup方法的设计是具有挑战性的。 这些挑战的根源在于图形数据的不规则性和连通性。GNN通过“消息传递”机制学习节点的表示,该机制聚合每个节点及其每个层的邻居之间的表示[ 58 ]。结果导致WWWYiwei等人3664图1:(左)对于图像分类,现有的Mixup通过插值图像像素和标签来生成合成图像。(中)对于节点分类,要混合一对节点A(红色)和B(蓝色),我们需要混合它们的感受野子图。(右)对于图分类,我们需要混合一对图的节点和图拓扑节点的表示依赖于其感受野内的节点和边[58],所有这些都是其特征。因此,为了混合一对节点,我们需要混合它们的感受野子图,它由节点和拓扑结构组成。然而,与图像像素不同,节点不是放置在规则的网格上,而是无序的,这使得很难将不同(子)图中的节点配对用于Mixup。此外,插值是没有很好地定义的图拓扑,这是必要的混合。此外,由于节点之间的连接性,在不同节点对上使用Mixup可能会相互干扰,这可能会导致冲突并扰乱混合特征。在我们的工作中,我们提出了Mixup方法,用于图学习中的两个基本任务:节点和图分类。 对于前者,我们随机配对节点,并旨在混合它们的感受野子图。我们提出了二分支Mixup图卷积来插值不规则图拓扑。在每一层,我们分别在两个分支中进行图卷积,然后在下一层之前从两个分支插入聚集表示。通过这种方式,成对节点的感受野子图共同有助于最终预测 为了解决Mixup在不同节点对上的结果之间的冲突,我们提出了两阶段Mixup框架。在第一阶段中,我们执行与原始GNN中相同的前馈,以获得节点的表示,而不需要Mixup。然后在第二阶段,我们进行Mixup,但使用从第一阶段获得的每个节点的邻居的表示来执行图卷积。 因此,每个节点在Mixup之后的表示不会干扰其他节点的“消息传递”。对于图分类,我们在语义空间中混合配对图。由于其简洁的设计,我们的Mixup方法可以并入流行的GNN中。我们使用Citeseer,Cora,Pubmed [33],Flickr [35],Yelp和Amazon [65]数据集评估我们的节点分类方法,并使用标准化学[15]和社会[62]数据集进行图形分类。定性地说,我们的方法使GNN能够学习更多的判别表示有效减少过拟合。 我们还观察到测试准确性和F1微评分方面的定量改善,这些改善高于为特定领域设计的现有数据增强策略所实现的改善[40]。总的来说,我们的Mixup方法有效地正则化了GNN模型,以获得更好的泛化能力,而不会增加它们的时间复杂度。2相关工作节点分类图神经网络是节点分类的最新解决方案[59],[71]。第一个提出对图形数据进行卷积运算的工作是[5]。最近,[27]在节点分类任务中取得了突破性进展。因此,[27]中提出的模型通常表示为vanilla GCN或GCN(图卷积网络)。在[27]之后,提出了许多方法来提高图学习的性能[47],[58],[13],[57],[56],[1],[64],[39]。在这一领域有两条主要的研究路线。第一行是提出新的GNN架构以提高模型容量[23],[49],[68]。例如,LGCN [18]基于节点特征对节点的邻居进行排名。 它组装一个由其邻域组成的特征矩阵,并沿每列对该特征矩阵进行排序。 [72]利用正逐点互信息(PPMI)矩阵通过从图中采样的随机游走来捕获节点共现信息。 [28]将PageRank与GNN相结合,以实现有效的信息传播。[51]或者驱动局部网络嵌入,以通过最大化局部互信息来捕获[6]提出了一种非均匀图卷积策略,该策略根据语义为不同的邻近节点学习不同的卷积核权重[55]提出了鲁棒图神经网络的低通“消息传递”,抑制了通过边缘传播的对抗信号。另一条线是为GNN提出新的小批量训练技术,以增强其可扩展性而不损失有效性[22],[65]。GraphSAGE [22]对前一层邻居执行均匀节点它强制执行预先确定的预算节点和图分类WWW3665∈[]()()(V E)VEN({})∈V |()∈E在样本大小上,从而限制小批量计算的复杂度。[8]通过在前一层中仅需要两个支持节点来而不是采样层,QuanterGCN [10]和GraphSAINT [65]从子图构建小批量,以避免我们的工作与上面两条线正交,因为它没有改变GNN架构,也没有引入小批量技术。相反,我们提出了一种新的方法,可以正则 化 GNN 模 型 , 通 过 增 强 图 形 数 据 来 提 高 其 有 效 性 。DropEdge [40]是图形数据增强的开创性工作。DropEdge假设节点的类标签在边缘删除后没有改变,因此需要使用领域知识。相比之下,我们的mixup不需要在给定增强特征的情况下保持地面实况标签不变,并且通过结合特征插值应该导致相关目标插值的先验知识来扩展训练分布[67]。我们发现,我们的Mixup方法提供的模型正则化的有利特征导致更准确的预测。图形分类。图分类的早期解决方案包括图核。开创性的工作[24]将图分解为小的子图,并根据它们的成对相似性计算核函数。随后的工作提出了各种子图,如路径[3]和子树[44],[36]。最近,人们 已经 做出 了许 多努 力来 设计用于图分类的图 神经 网络(GNN)[42],[32],[37],[19],[63],[69],[60]。一些工作提出了图池化方法来总结节点表示[60],[53],[30],[26],[25],[17],[12]。 [29]的作者提供了局部池化和节点注意机制的统一视图,并研究了池化方法推广到更大和噪声图的能力。在[9]中,作者报告说,线性卷积滤波器后跟非线性集函数实现了有竞争力的性能。这些工作的重点是开发更高复杂度的GNN结构,以提高其拟合能力。相比之下,我们的框架与它们正交,因为我们提出了一种新的数据增强方法,该方法通过内插所有类的图来增强GNN模型,以扩大对训练分布的支持。数据扩充。 数据增强在训练神经网络中起着核心作用。 它对输入数据进行操作,显著提高了性能。例如,在图像分类中,DA策略(如水平翻转、随机擦除[70]、隐藏和查找[46]和剪切[14])已被证明可以提高性能。在MNIST上,跨尺度、位置和方向的弹性变形已被应用于实现令人印象深刻的结果[41],[11],[45],[54]。 Mixup [67],[52]是一种用于图像分类的特别有效的增强方法,其中神经网络在图像及其相应标签的凸组合上进行训练。 我们设计了用于图学习的Mixup方法,为此,我们提出了两个分支图卷积和两个阶段的Mixup框架来处理图数据的不规则性和连通性。 与为图形数据设计的现有数据增强技术[40],[57],[58]不同,这些技术要求在数据增强后地面真实标签保持不变,我们的方法是数据集独立的,并且不需要使用领域知识。我们的Mixup方法模拟了图2:(左)通常,GNN层通过聚合其邻居和自身的表示来更新节点的(红色)表示。(右)我们提出了双分支图卷积来混合节点的属性和它们的拓扑。对于要混合的一对节点(红色和蓝色),我们首先混合它们的属性。然后在每一层,我们分别在对应于成对节点(红色和蓝色)的图拓扑的两个分支中进行图卷积,并在下一层之前混合来自两个分支的聚合表示。不同类的节点或图之间的邻近关系,这使得GNN能够学习更好的表示安排3方法我们插入一对节点/图以及它们的地面真实标签,以产生一个新的合成样本进行训练。 为了混合高度不规则的图拓扑,我们提出了双分支混合图卷积(见图2(b))。此外,为了协调同一小批量中不同节点的Mixup,我们设计了一个两阶段框架,该框架利用在Mixup之前学习的表示(见图11)。4)。最后,我们在语义嵌入空间中对复杂多样的图进行插值,以实现图的分类。接下来,我们将详细讨论用于节点和图分类的Mixup方法。3.1背景和动机Mixup在[67]中首次提出用于图像分类。 考虑一对样本xi,yi和xj,yj,其中x表示输入特征,y表示独热类标签。混合产生合成样品,如(见图1)。1)、x=λxi+(1−λ)xj,(1)y=λyi+(1−λ)yj,(2)其中λ0, 1. 通过这种方式,Mixup通过合并先验知识来扩展训练分布,即特征的插值应该导致相关标签的插值[67]。Mixup的实现随机选取一个图像,然后将其与从同一小批量中绘制的另一个图像配对。在我们的工作中,我们专注于图学习中的两个基本任务:节点和图分类,前者旨在学习将每个节点映射到预测类标签的映射函数,而后者将每个图映射到标签。我们将图定义为G=,,其中表示节点集,并且是边的集合节点i的输入属性向量为xi,节点i的邻域为我= Ji、j.图神经网络(GNN)是这两种情况的最先进的解决方案WWWYiwei等人3666J.G=我图3:(a)GNN模型通过聚合节点A的感受野内的节点(橙色)来预测节点A的类(红色)(b)为了混合节点A(红色)和B(蓝色),我们应该混合A和B的感受野内的特征但是,如果我们同时对节点C(橙色)和节点D(灰色)执行Mixup,则来自节点A和B的混合输入特征会受到来自节点D到节点C的干扰的干扰,这应该被阻止。图4:(a)现有的GNN同时对小批量图中的所有节点进行分类。(b)我们提出了两阶段的Mixup方法来解决不同节点对上的Mixup之间的冲突。在第一阶段,我们执行前馈,就像在没有Mixup的现有GNN中一样。然后在第二阶段,我们随机配对小批量图中的节点,并混合它们的输入属性。接下来,我们执行我们的两个分支Mixup图卷积(见图1)。2)对于每一层的配对节点,我们使用从第一阶段获得的每个节点这确保了每个节点节点和图分类[27],[60]。通常,GNN通过“消息传递”机制在第1层获得节点的表示h i(l):hi(l)= AGGREGATE。hi(l −1),.h(l−1)j∈N(i)<$,W(l)<$,(3)其中W(l)表示层l处的可训练权重,并且AGGREGATE是由特定GNN模型定义的聚合函数[60]。hi(0)=xi在输入层成立对于节点分类,通过堆叠L层来学习高级语义表示并且最小化分类损失,例如,[2]在最后一层预测上的交叉熵[ 2 ],如图所示4(a). 对于图分类,GNN通过“读出”函数将节点的表示总结为单个图嵌入:其中READOUT可以是简单的置换不变函数,例如求和或更复杂的图池函数[63],[69]。由于图数据的不规则性和连通性,设计用于图学习的Mixup具有挑战性Eq中的经典混淆。在输入特征x遵循普通向量的格式的假设下定义(1),这不适合图形数据。这促使我们设计Mixup方法,为图学习提供有效的正则化,并且易于与现有的GNN模型一起实现。3.2节点分类混淆我们在等式中描述GNN层的(3)和图。(2)[58]。原则上,GNN层通过聚合其自身及其邻居的表示来更新节点i通过hREADOUT..h(L)。∈V(四)最后一层的预测是通过层叠L层,、我i的L-hop邻域,称为节点i节点和图分类WWW3667K(0Ijij,iIjKij,jIjKL=聚集h,h。k∈ N(i),W,ij,j感受野外的节点我们对Mixup重量进行采样算法1节点分类的两阶段混合输入:小批量的图G=(V,E),具有节点属性{xi |i ∈ V},一个具有聚集函数的GNN模型AGGREGATE(·),λ分布的超参数α,节点进行Mixup并同步地对所有节点进行前馈,我们只能有h(l-1)=h(l-1),其中m是n odepai red与n odei的neigbhor k。这Cakumsesconflicts,becausenodeminterfereswiththe地面实况标签{yi |i ∈ V}。输出:GNN的训练参数一曰: fori←1 to #Vdo2:hi←xi3:结束4:对于l←1到L−1,.W(l)ing(6))通过m和k之间的Mixup,但是节点m可能在节点i的感受野之外。一个例子如图所示。3. 具体地,当混合节点i和j时,节点i的邻居可以与节点i和j的感受野外部的节点混合,这增加了不想要的外部噪声以扰动输入特征:这里,“外部噪声”是指对输入特征的任何扰动,其不是由节点i和j的感受野引起的。5:对于i(←l)1到#V,.(l−1).(l−1).计算节点i和j。6:hi←聚合7:结束8:结束九: fori←1 to #Vdo10:来自V的样本j11:λ←Beta(α,α)hi,hj.j ∈ N(i),W(l)为了解决上述问题,即,我们提出了两阶段Mixup框架,如图所示。4(b). 在第一阶段中,我们将前馈传导到小批量图的GNN,以获得节点的隐藏表示,而其次,在第二阶段,我们随机配对小批量中的节点,以进行节点属性的Mixup。然后,我们进行两个分支十二:十三:十四:x< $ij<$λxi+(1−λ)xjy<$ ij<$λyi+( 1−λ ) yjh<$ ( 0 )<$x<$ij如图所示,成对节点的混合图卷积第2段(b)分段。请注意,在第二阶段的每一层,我们使用从第一阶段获得的没有混合的邻居表示来进行图卷积(参见等式10)。(6))。这样,15:对于l(←l)1到L做.(l−1).(l−1).确保Mixup后每个节点的表示不会干扰十六:hij,i←AGGREGATE胡志明市IjK.k ∈N(i)<$,W(l)<$十七:h (l) ←AGGREG ATE.h(l−1),.h(l−1).k∈N(j),W(l)我们有效地防止了输入特征被十八:h<$ (l)<$λh< $(l),i+(1−λ)h<$ (l),jλ来自分布Beta(α,α),具有超参数α[21]。i j i j19:结束20:结束I j基于. (L)-是的我们用于节点分类的Mixup方法在Alg中进行了总结1.一、3.3图分类的混淆21:计算分类。损失率hij,yiji∈V第22章:一个人W(l) l最小化L。图神经网络利用READOUT函数来总结节点级嵌入到图嵌入中。GNN将复杂和不规则的图结构嵌入到固定维数的嵌入向量中。我们为图分类进行Mixup感受野[58]。换句话说,为了插入成对的节点i和j,我们需要混合它们的感受野子图。为了实现这一点,我们提出了两个分支的Mixup图卷积,如图所示在嵌入空间的作用(见图)。5)。详细地说,给定图G1和G2,分别具有嵌入hG1,hG2和标签yG1,yG2,我们将它们混合为:图2,其中我们在输入层之前混合节点i和j的节点属性hG1G2 =λhG1 +(1 −λ)hG2,(8)xij=λxi+(1−λ)xj,(5)接下来,我们在每一层分别基于节点i和j的拓扑进行图卷积y<$ G1G2=λyG1+(1−λ)yG2。(九)最后,将通过插值图-l的值,该插值图-l的值表示为h1G2。到一个多层感知,然后是一个softmax层,h (l)h (l). (l−1). (l −1)(l)=AGGREG ATE。h(l−1),.h(l−1). k∈N(j)<$,W(l)<$,(6)目标类的预测分布3.4讨论Mixup已经成功地应用于图像和文本任务中并将两种拓扑的聚合要素混合在一起在下一层之前数据,例如,图像分类[67]和句子分类[20]。然而,图形数据与上述两种数据有很大的不同h(l)=λh(l) +(1−λ)h(l),(7)的数据.首先,在图中,节点是连接的,而图像或节点和图分类WWW3668Ij.(−)。在等式(1)中,(6)是一个问题。如果我们遵循同样的方法-i j i j,i其中reh (0)=xij成立。i j,j句子是孤立的。第二,图像和句子都是结构良好的,前者具有二维网格,后者是一维序列。然而,在这方面,在这里,如何计算节点iL1K作为经典的混合物[67],即,我们随机配对图形具有复杂和不规则的结构。这些差异给Mixup带来了严峻的挑战。在混合输入特征时,不仅要考虑节点属性,还要考虑图3669.l=1.l=1在第二阶段,我们有Ol=1Ll=1#Edl+#VLl=1 dl−1dl地理位置、同一画廊等)。Yelp数据集包含一个社交网络,其中边表示连接的用户考虑到所有的计算,我们有com-Σ数据集#图表节点数边缘数量 #类WWW表1:用于节点分类的数据集的统计。‘m’数据集节点数边缘数量#类#属性科拉2,7085,4297(s)1,433CiteSeer3,3274,7326(s)3,703PubMed19,71744,3383(s)500Flickr89,250899,7567(s)500Yelp716,8476,977,410100(m)300亚马逊1,598,960132,169,734107(m)200图5:我们混合了混淆了图分类,它既编码节点拓扑结构,插值没有很好地定义。因此,我们提出了双分支混合图卷积来处理这个问题。通过这种方式,我们不直接混合拓扑,而是混合来自GNN层的不同拓扑的聚合消息除此之外,由于不同节点之间的连接和“消息传递”机制,我们需要解决不同节点之间的Mixup冲突,如图所示。3. 这促使我们提出了两阶段的Mixup框架的节点分类,其中每个节点的表示后Mixup不干扰其他节点的“消息传递”。通过这种方式,每个节点的特征不会受到其邻居上发生的混淆的干扰。4复杂性分析通过Mixup,我们以端到端的方式训练GNN首先,由于我们用于图分类的Mixup方法不会引起额外的计算,因此其复杂度与原始GNN模型相同。其次,我们分析了我们的两阶段Mixup框架节点分类的时间复杂度。给定层l上的节点表示的维度为d,GCN的时间复杂度为表2:用于图分类的数据集的统计。#Nodes和#Edges分别表示每个图的节点和边的平均数量DDNCI11,1784,110284.3229.87715.6632.3022蛋白1,11339.0672.822COLLAB5,00074.492457.783IMDB-MREDDIT-5K1,5004,99913.00508.5265.94594.8735化学图谱和社会在此之后,我们调整标记数据的数量,以评估使用和不使用Mixup的GNNs的泛化能力。此外,我们将使用Mixup训练的GNN的学习表示与没有Mixup的GNN进行了比较。最后但并非最不重要的是,我们进行了消融研究,以显示GNN的性能相对于我们的Mixup方法的超参数的敏感性。对于节点分类,我们使用标准的基准数据集:Cora、Citeseer、Cora、Pubmed [33]、Flickr [35]、Yelp和亚马逊是.#.L编号。[27]第二十七话在我们的方法里,.[65]评价。前三个是引用网络,O El=1dl+Vl=1 dl −1d。L.每个节点是一个文档,每个边是一个引用链接。在Flickr中,.第一阶段的复杂度为O.#EL−1dl+#VL−1dl−1dl每个节点表示一个图像。边缘是建立在两个图像如果它们共享一些共同的属性(例如,同样的O.#E.Ldl+#V.Ldl−1dl,等于是朋友对于Amazon数据集,节点是亚马逊网站和两个产品之间的优势是创建,如果l=1.3670最初的GCN。对于其他类型的GNN,分析是类似的到上面。实际上,我们的第一阶段与原始GNN相同没有最后的层计算,而每一层在秒-第二阶段的复杂性与第一阶段相同GNN。因此,我们的Mixup方法提高了GNNs的有效性而不增加它们的时间复杂度。5实验在本节中,我们将介绍各种GNN模型的性能用我们的混合方法训练。对于节点分类,我们报告实验结果在两个转导和诱导设置. 对于图分类,我们报告测试精度3671产品由同一客户购买每一个都包含未加权邻接矩阵和词袋特征。的这些数据集的统计数据汇总于表1。我们使用标准的基准数据集:D D [15],NCI 1,PRO-TEINS [4]、COLLAB、IMDB-M、REDDIT-5 K [62]用于评价图分类。前三个是化学数据集,节点具有分类输入特征。最后三个是社会性的没有节点属性的数据集我们要遵循[60],[69],使用节点度作为属性。这些数据集的统计数据是总结在表2中。对于基线方法的超参数,例如,数字-隐藏单元的ber,优化器,学习率,我们将它们设置为3672Mixup for Node and Graph ClassificationWWW表3:转导节点分类的测试准确度(%)。我们进行了100次随机权重初始化试验。报告平均值和标准差。方法CiteSeer科拉PubMedGCN[27]GAT[50]77.1±1.488.3±0.886.4±1.1表4:测试F1-感应节点分类的微观评分(%)。我们报告的平均 值 和 标 准 差 的 100 个 试 验 随 机 权 重 初 始 化 。 我 们 用GraphSAGE-mean和GraphSAINT-GCN实现了DropE- dge和我们的Mixup方法。方法FlickrYelp亚马逊76.3±0.8 87.6±0.5 85.7±0.7JKNet[16]78.1±0.9 89.1±1.2 86.9±1.3LGCN[18]77.5±1.1 89.0±1.2 86.5±0.6GMNN[39]77.4±1.5 88.7±0.8 86.7±1.0ResGCN[31] 77.9±0.8 88.1±0.6 87.1±1.2DropEdge[40] +GCN 78.1±1.189.2±0.787.3±0.6DropEdge[40]+JKNet 79.3±0.789.9±0.887.6±0.9Mixup +GCN 78.7±0.9 90.0±0.787.9±0.8Mixup +JKNet80.1±0.8 90.4±0.9 88.3±0.6他们的作者建议。对于我们的Mixup方法的超参数,我们默认为Mixup权重的分布设置α = 1。5.1节点分类我们进行了实验在两个转导和归纳设置的综合评价。 在转换设置中,我们可以访问所有节点的属性,但只能访问训练集中节点的标签进行训练。 在归纳设置中,验证/测试集中节点的属性和标签在训练期间都不可用。在转导节点分类中,我们采用流行的GNN模型GCN [27],GAT[50],LGCN [18],JKNet [61],GMNN [39],ResGCN [31]和正则化方法DropEdge [40]作为比较的基线方法我们将每个图中的节点分为60%,20%,20%用于训练,验证和测试。我们做了10个随机分割,并进行了100次试验,每次分割都有随机权重初始化我们将每个模型的层数从1到30不等,并根据验证集选择性能最好的 结果报告于表3中。我们观察到,我们的两阶段Mixup方法在Citeseer上将GCN的测试准确率提高了2.1%,在Cora上提高了1.9%,在Pubmed上提高了1.7%,在Citeseer上提高了2.6%,在Cora上提高了1.5%,在Pubmed上提高了1.6%。因此,我们的两阶段混合方法增强了GCN和JKNet,使其性能优于所有基线方法。在归纳设置中,我们使用具有固定分区的数据集Flickr,Yelp,Ama-zon [65]进行评估。这些数据集太大,GCN架构的全批实现无法很好地处理因此,我们使用更可扩展的GraphSAGE[22]和GraphSAINT [65]作为比较的基线我们为每个模型改变每个方法的层数,从1到30,并选择相对于验证集性能最好的模型。我们 进 行 了 100 次 随 机 权 重 初 始 化 的 试 验 结 果 见 表 4 。GraphSAGE-mean/LSTM/pool 表 示 GraphSAGE 分 别 使 用 mean 、LSTM 和 max-pooling 作 为 聚 合 器 。 而 GraphSAINT-GCN/GAT/JKNet意味着GraphSAINT采用GCN,GAT,GraphSAGE平均值[22]50.1±1.1 63.4±0.6 75.8±0.2GraphSAGE-LSTM[22]50.3±1.3 63.2±0.8 75.7±0.1GraphSAGE-池[22]50.0±0.8 63.1±0.5 75.5±0.2DropEdge [40]+ GraphSAGE50.8±0.964.1±0.876.4±0.1Mixup + GraphSAGE51.6±0.864.6±0.6 77.3±0.1GraphSAINT-GCN[65]51.1±0.2 65.3±0.3 81.5±0.1GraphSAINT-GAT[65]50.5±0.1 65.1±0.2 81.5±0.1GraphSAINT-JKNet[65]51.3±0.5 65.3±0.4 81.6±0.1DropEdge [40]+ GraphSAINT51.7±0.665.8±0.781.8±0.2Mixup + GraphSAINT52.4±0.466.3±0.4 82.0±0.1分别以JKNet 为主干 我们用GraphSAGE-mean 和 GraphSAINT-GCN实现了我们的两阶段Mixup方法,以研究Mixup是否可以提高归纳设置下GCN的性能。我们观察到,我们的两阶段Mixup在Flickr上将GraphSAGE-mean的测试F1-micro分数提高了3.0%,在Yelp上提高了1.9%,在Amazon上提高了2.0%,在Flickr上提高了2.5%,在Yelp上提高了1.5%,在Amazon上提高了0.6%。因此,我们的两阶段混合方法增强了它们,使其优于基线方法。给定相同的GCN架构,我们的Mixup方法consistently产生比DropEdge更大的改进 DropEdge假设节点的类标签在边缘移除后保持不变,这是依赖于网络的。 DropEdge不会对属于不同类的示例之间的邻近关系进行建模[7]。相比之下,我们的mixup以独立于数据集的方式执行数据增强,并通过合并先验知识来扩展训练分布,即特征的线性插值应该导致相关目标的线性插值,这已被证明可以诱导更好的表示安排和更高的泛化能力[67]。总体而言,上述结果验证了我们的方法在提高流行的GCN模型在转导和诱导设置下的性能方面是有效的。5.2图分类对于图分类,我们遵循[16]和[60]使用10倍交叉验证方案进行公平的比较和评估。对于每个训练折叠,如[16]所建议的,我们使用90%/10%的训练/验证分割进行内部保持技术,即, 我们在一个训练折叠上训练50次,该训练折叠保持数据的随机部分(10%)以执行早期停止。这50个独立的试验需要平滑不利的随机权重初始化对测试性能的影响。最终的测试倍数得分作为这50次运行的平均值获得。WWWYiwei等人3673方法Citeseer Cora Pubmedr=30%r= 40%r= 50%r= 30%r= 40%r= 50%r= 30%方法NCI1蛋白质胶原蛋白r=60%r= 70%r= 80%r= 60%r= 70%r= 80%表5:图形分类的测试准确度(%)。我们执行10倍交叉验证来评估模型性能,并报告10倍以上的平均值和标准偏差我们用粗体突出最佳表现73.2± 1.8 76.3± 1.9 72.3± 3.4 70.4± 1.8 45.4± 2.949.4± 2.174.2± 3.1 76.8± 2.1 73.3± 3.6 74.3± 2.0 48.2± 3.153.7± 1.776.7± 4.1 76.5± 1.9 72.9± 3.5 71.1± 1.7 45.6± 3.449.8± 1.975.2± 3.8 76.8± 2.0 73.6± 3.6 68.9± 2.2 45.7± 3.453.6± 1.475.9± 3.9 78.7± 1.9 74.1± 3.1 70.8± 1.9 47.2± 3.054.5± 1.775.4± 2.6 79.7± 1.8 73.5± 3.8 75.5± 2.3 48.5± 3.356.1± 1.6混合+GCN 75.4± 2.8 77.7± 2.1 74.1± 3.5 75.4± 2.2 48.8± 3.554.6± 1.8混合+GIN76.8±2.9 81.0±1.9 74.3±3.5 77.0±2.2 49.9±3.2 57.8±1.7表6:在训练节点的不同比率r的20个随机分割上平均的节点分类结果,以测试准确度(%)表示。我们用粗体突出显示最佳性能。GCN[27]Mixup + GCN74.7± 2.576.9± 2.175.2± 1.877.1± 1.576.3± 1.678.1± 1.386.3± 1.988.5± 1.486.8± 1.488.9± 1.087.5± 1.089.4± 0.985.1± 2.387.0± 1.685.4± 1.487.2± 1.185.8± 1.287.5± 1.0JKNet[61]Mixup + JKNet75.6± 1.978.0±1.776.0± 1.478.3±1.277.1± 1.179.2±1.086.7± 2.188.6±2.087.4± 1.589.1±1.588.2± 1.389.7±1.285.3± 2.287.2±1.985.9± 1.687.5±1.386.4± 1.487.9± 0.9表7:根据测试准确度(%),在标记示例的变化比率r的20个随机分割上平均的图分类结果我们用粗体突出显示最佳性能。GCN[27]Mixup + GCN68.4± 2.472.0± 2.370.1± 2.272.9± 2.372.9± 2.274.7± 2.065.8± 4.069.2±3.967.7± 4.070.1±3.870.1± 3.971.4± 3.867.7± 2.370.8± 2.469.1± 2.471.6± 2.371.2± 2.273.0± 2.2GIN[60]Mixup + GIN71.1± 2.274.7±2.073.0± 2.175.4±2.075.5± 2.077.1±2.165.2± 4.169.1± 3.967.1± 3.869.8± 3.969.8± 3.771.5±3.768.0± 2.570.9±2.569.6± 2.571.8±2.471.8± 2.373.9±2.2我们使用流行的图分类模型作为基线:GRAPHLET [44]和Weisfeiler-Lehman Kernel(WL)[43]是经典的图核方法,而GCN [27],DGCNN [69],DiffPool[63],EigenPool [34]和GIN[60]是在图分类中具有最先进性能的GNN。我们在表5中报告了化学和社会数据集交叉验证中10倍内测试准确度的平均值和标准差。 在化学数据集上,我们观察到我们的Mixup方法分别将GCN在D D上的测试准确度提高了1.6%&,在NCI1上提高了1.2%,在PROTEINS上提高了1.1%,并且将GIN在D D上提高了1.9%&,在NCI1上提高了1.6%,在PROTEINS上提高了1.1%。 在社交数据集上,我们的Mixup方法在测试准确性方面将GCN提高了1%以上,并在COLLAB,IMDB-M和REDDIT-5 K数据集上将GIN提高了至少2%。总体而言,Mixup在化学和社会数据集上实现了GCN和GIN的实质性改进。因此,Mixup增强了GCN和GIN,使其优于所有基线方法。仔细观察,我们观察到图核方法GRAPHLET和WL通常比GNN方法表现出更差的性能这表明先进的神经网络模型具有更强的拟合能力Mixup在GIN上的性能一般比在GCN上的要好。这是因为GIN是一种比GCN更先进的用于图分类的GNN模型。然而,GIN学习能力的增强也带来了更高的过度拟合风险。我们的Mixup方法通过插值图表示来扩展训练集,从而有效地正则化它们,从而成功地降低了它们的过度拟合趋势。5.3训练集规模在较小的数据集上训练时,过度拟合往往更严重。 通过使用有限部分的可用训练数据进行实验,我们证明了我们的Mixup方法对于较小的训练集有更显着的改进。GCN[27][69]第六十九话[第63话]EigenPool[34]GIN[60]方法DDNCI1蛋白COLLABIMDB-MREDDIT-5K[44]第四十四话[43]第四十三话7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功