没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文正交图神经网络郭凯1、周凯雄2、胡霞2、李玉3、常毅1、王欣1*1吉林大学人工智能学院,长春,中国2美国莱斯大学计算机科学系3吉林大学计算机科学与技术学院,中国长春guokai20@mails.jlu.edu.cn,周凯rice.edu @xia.hurice.edu,liyu18@mails.jlu.edu.cn,yichang@jlu.edu.cn,xinwang@jlu.edu.cn摘要图神经网络(GNNs)由于其在学习节点表示方面的优越性而受到了极大的关注。这些模型依赖于消息传递和特征转换函数来编码来自邻居的结构和特征信息。然而,堆叠更多的卷积层会显著降低GNN的性能。最近的研究将此限制归因于过度平滑问题,其中节点嵌入收敛到不可区分的向量。通过大量的实验观察,我们认为降低性能的主要因素是不稳定的前向归一化和后向梯度,特别是对于没有发生过平滑的浅GNN,由于特征变换的设计不当而导致的因此,我们提出了一种新的正交特征变换,名为Ortho-GConv,它通常可以增强现有的GNN主干,以稳定模型训练并提高模型具体地说,我们从混合权初始化、正交变换和正交正则化三个角度全面地维护了特征变换的正交性. 通过为现有的GNN(例如GCN,JKNet,GCNII)配备Ortho-GConv,我们证明了正交特征变换的通用性,以实现稳定的训练,并显示其对节点和图分类任务的有效性。介绍图神经网络(GNN)(Kipf和Welling 2017)及其变体已被广泛应用于分析图结构数据,如社交网络(Tian etal.2019;Zhouet al. 2019 ) 和 分 子 网 络 ( Zhaoet al.2021;Hao等人,2020;Zhou等人,2020 b)。基于输入节点特征和图拓扑,GNN应用邻居聚集和特征变换方案来递归地更新每个节点的表示。邻域聚合沿邻接边传递邻域信息,而特征变换的目的是投影节点嵌入,以提高模型的学习能力。尽管GNN具有优越的有效性,但其关键限制是它们的性能会随着层堆叠而显著降低。大多数以前的研究(Chenet al.*通讯作者:xinwang@jlu.edu.cn2020 a;Li,Han和Wu2018;Oono和Suzuki2019)将此限制归因于过度平滑问题,这表明节点表示由于图结构上的递归邻居聚合而变得不可区分。 最近提出了许多模型来缓解过度平滑问题,包括跳过连接(Chen等人,2020 c,b;Li等人,2019)和图形增强(Rong等人,2019)。2020年)。他们的主要思想是避免大量的邻域信息,并在每个图卷积层加强自身的特定节点特征与以往对极深GNN的过平滑问题的广泛研究不同,本文将研究重心转移到了对影响浅GNN性能的主要因素的探索上。我们的研究是由图1中不一致的观察所激发的。(d):一旦模型深度稍微增强(例如,最多8层),其中应该远未达到过平滑状态通过简单地从GNN中删除特征变换模块,进一步观察到,即使有数十个图卷积层,GNN也令人惊讶这促使我们提出以下研究问题:稳定的特征变换是否在影响浅层GNN的模型性能方面发挥主导作用前向和后向信令分析。为了回答这个问题,我们首先从前向推理和后向梯度两个方向系统地分析了特征变换的稳定性。我们应用两个相应的稳定性度量:一个测量前向节点嵌入的信号放大率,另一个评估后向梯度的范数。如图1所示。(a)以及(b),经验证明,vanilla GNN遭受前向嵌入爆炸和后向梯度消失。虽然前向爆炸极大地改变了层之间的内部嵌入分布,使模型训练效率低下(Ioffe和Szegedy2015),但梯度消失阻碍了特征变换模块的调整,以适应下游任务。因此,我们得出结论并认为,香草特征变换在前向和后向都破坏了稳定的模型信号,这反过来又降低了性能,特别是对于浅GNN。+v:mala2255获取更多论文∈∈11∈我22正交图卷积。为了克服不稳定的训练,我们提出了正交 图卷积来 保证特 征变换的 正交性 。正交 权重(Trockman和Kolter2021;Wang et al. 2020;Vorontsov etal.2017)已经在卷积和递归神经网络(CNN和RNN)中进行了探索,以保持前向激活范数并避免梯度消失,这可以加速训练并提高对抗鲁棒性。为了适应图形数据,我们从三个方面优化了特征变换的正交性:(i)混合权重初始化,以在图形表示学习能力和模型的正交性之间进行权衡;(ii)正交权重变换,以确保前向推断中的正交性;以及(iii)正交正则化,以约束后向更新期间的正交性捐款情况如下:• 我们提出了两个度量标准来衡量前向推理和后向梯度的稳定性,并提供了系统的分析,从理论和实证上研究不稳定的特征变换对浅层GNN的影响。• 我们提出了正交图卷积(Ortho-GConv),以实现特征变换的正交性并稳定GNN中的前向和后向信令。• 我们对节点和图分类任务进行了全面的实验,以证明我们的Ortho-GConv在各种GNN骨干上的一般有效性,包括GCN,JKNet和GCNII。相关工作GNN。(Bruna et al.2014)是关于GNN的第一个引人注目的研究,它开发了基于spec的图卷积,Ganguli2014)。最近,有几个研究探索CNN的正交初始化。(Xiaoet al. 2018)提出了一种正交卷积和演示的方法,该方法允许CNN模型有效地探索大的感受野,而无需批量归一化或残差连接。(Trockman和Kolter2021)提出了Calay变换来约束卷积层中的参数,使它们正交。(Huanget al. 2020)提出了一种高效稳定的正交化方法来学习CNN中的逐层正交权重矩阵。此外,梯度范数保持特性也可以从RNN中的长期依赖关系中受益。(Vorontsovet al. 2017)提出了约束变换矩阵,使正交和解决梯度消失和RNN爆炸。前向和后向信号分析在本节中,我们首先介绍了GNN的符号和模型。然后,我们分析了前向和后向信令过程,并验证我们的论点与实证研究。符号和GNN我们用黑体大写字母表示矩阵(例如,X)、带有粗体字母的矢量(例如,x)和具有字母表的标量(例如,x)。无向图由G=(V,E)表示,其中V={vi}且E={(vi,vj)}表示关于ively的节点和边集合。让XRn×d表示节点特征矩阵,其中第i行为节点vi对应的d维特征向量。邻接矩阵定义为ARn×n,它将每条边(vi,vj)与其元素Aij相 关 联;D是度矩阵。设A:=A+In和D:=D+In是图aug的邻接矩阵和度矩阵与self-loops相连归一化邻接矩阵是giv en由A:=D− 一个很好的例子- ,广泛用于图形应用任务的tral graph theory。后来,提出了一系列GNN 变 体 ( KipfandWelling2017;Defferrard ,Bresson,and Vandergheynst2016;Henaff,Bruna ,andLeCun2015;Li et al.2018;Levie et al.2018)。虽然这些模型在两层的情况下实现了更好的性能,但是当堆叠更多的层时会阻碍它们的性能。最近,一些研究认为,堆叠更多的层会导致过度平滑的问题。这些方法,如APPNP(Klicpera , Bojch e vski , and Günnemann2019a),JKNet ( Xu et al. 2018 ) 、 DropEdge ( Rong et al.2020)和GCNII(Chenet al. 2020c),被提出来解决过度平滑的问题。然而,(Liu,Gao和Ji2020)声称,过度平滑问题只发生在节点表示重复传播大量迭代时,特别是对于稀疏图。因此,GNN模型中的一些传播迭代不足以发生过度平滑。相反,我们认为,不稳定的前向和后向信号导致浅GNN模型的性能不佳。正交初始化和变换。正交权重初始化的优点,即,确保 信 号 通 过 深 层 网 络 传 播 并 保 持 梯 度 范 数 , 由(Saxe,McClelland,GNN模型中的空间邻域聚合。我 们 使 用 图 卷 积 网 络 ( GCN ) ( Kipf 和Welling2017)作为典型示例,以说明传统GNN如何进行节点表示学习,并在下面的小节中解释模型稳定性问题。GCN的第1层处的前向推理被正式定义为:H(l)=σ(A<$H(l−1)W(l)),(1)其中H(l )表示第l层的节点嵌入矩阵;H(0 )由X 给定;σ(·)是非线性作用函数,例如ReLU;W(l)Rd×d是线性变换矩阵。 图卷积由两个关键步骤组成:基于矩阵A的空间邻域聚集和基于矩阵W(1)的特征变换. 令L表示模型深度。输出嵌入在节点Vi,即,h(L),可以用于进行节点或图分类任务。前向和后向稳定性分析对于基于Eq. 众所周知,堆叠更多的层往往会降低材料的性能。+v:mala2255获取更多论文(0)(L)(L)(L)→ ∞我|V|2vi,vj∈V我J300(一)(b)第(1)款1(c)第(1)款1020.8(d)其他事项200100023456782 4 6 8深度时代时代1031041051061071080.60.40.20.01 6 15 40 65 90深度图1:(a)具有和不具有正交图卷积的GCN的信号放大率M sig。(b)vanilla GCN的梯度范数。(c)用正交图卷积增广的GCN的梯度范数。(d)不同模型深度下的测试精度和节点嵌入平滑度。下游任务性能(例如,节点分类准确性)显著。这种现 象 通 常 归 因 于 过 度 平 滑 问 题 ( Li , Han 和Wu2018),该问题指出,由于递归邻居聚合,节点嵌入变得相似。通过简化特征变换和非线性激活,已经提供了许多理论研究来解释低通滤波或马尔可夫链的递归邻居聚合,这证明了当模型深度不断增加时,节点 嵌 入 将 收 敛 到 唯 一 的 平 衡 点 ( Liu , Gao , andJi2020;Nt and Maehara2019)。根据这一分析,提出了各种启发式模型,以改善邻居聚集和缓解过度平滑问题。例如,跳过连接与前一层的节点嵌入相结合,以保留初始节点特征(Chen et al.2020 c),边缘丢弃随机删除边缘,以避免压倒性的邻域信息量(Ronget al.2020年)。我们重新思考GNNs特征变换的稳定性由前向推理稳定性和后向梯度稳定性定义,这两个稳定性将在下文中介绍。前向推理稳定性。保持稳定的前向推理是一种普遍存在的技术,可以限制传播信号的大小并稳定地训练深度神经网络(Trockman和Kolter2021)。回顾方程中的vanilla图卷积(9),特征变换可以放大节点嵌入的幅度,而无需对矩阵W(1)进行适当的约束。这种幅度放大随层呈指数级累积(Xie,Xiong和Pu2017),并导致前向节点嵌入的不确定性和随机性。不同层之间内部信号分布的剧烈变化可能会阻止底层模型有效训练(Ioffe和Szegedy2015)。为了量化整个GNN模型中节点嵌入的幅度放大,我们将信号放大定义为:通过经验观察-香草GNN,即使有几层也有类似的问题,GNN。具体来说,我们研究GCN与不同的-Msig=1|V|||二、 ||2.(二更)||h||在节点分类精度方面的ent模型深度和图形平滑性。图平滑度定义为具体地,度量Msig平均来自最后一层的节点嵌入范数与初始层的节点嵌入范数的比率节点对的平均距离(Liu,Gao,and Ji2020),即D=1||h− h||.如图所示,较大的Msig值表示节点嵌入在前进的过程中,幅度被过度放大。1. (d),在数据集Cora(Senet al. (2008)准确性当模型深度L稍微增大到8时,图的平滑度迅速下降。更糟糕的是,一旦L >20,度量D接近于零,其中GCN落入随机预测。这些观察结果与以前对过平滑问题-节点嵌入-的理论分析相反只有当L.通过简单地移除GCN中的特征变换模块,令人惊讶地观察到准确性和图形平滑性被稳定地保持直到L=100。这使得 我们质疑过度平滑理论在前浅GNN的性能恶化是显而易见的,因为当L很小时,由独立邻居聚合平均的节点嵌入被很好地分离。因此,我们将研究的注意力转移到以前被忽视的特征变换上,并认为不稳定的特征变换是影响GNN的主要因素。请原谅。基于一个共同的假设,当数据被白化和去相关时,理想的Msig应该为1,以确保层之间相同的嵌入幅度和信号分布。后向梯度稳定性。除了前向干扰外,另一个稳定训练过程的方向通过梯度下降来训练GNN,其中反向传播到特征变换中涉及的最新权重W(1)虽然现有的研究集中在GNN中的前向消息传递,但理解后向梯度轨迹以优化特征变换仍然有限。因此,我们进行初始步骤以根据参数W(l)来分析梯度。为了便于梯度分析,我们简化了非线性激活函数由方程式(9)并得到H(l)=A<$H(l−1)W(l)。已经GCNOrtho-GCNGCN -根据GCN -平滑GCN w/o W - accGCN w/o W -光滑M·SIG层120406080100120140160180200120406080100120140160180200vi∈V2Σ+v:mala2255获取更多论文LL∈高(L)我的天−水(l)···水(l)∈水(l)||||L=人们普遍认为,具有和不具有非线性的GNN具有可比的节点分类性能和学习曲线(Wu等人,2019)。模型简化有助于我们直观地理解梯度动力学。定理1给定具有L层的线性GNN模型和特定的训练损失,在第l层关于参数W(l)正交图卷积为了克服不稳定的前向推理和后向梯度的问题,我们探索了在特征变换上使用正交性。虽然许多其他方法已被应用于限制前向在GNN中,例如配对或组归一化 ( Zhao 和 Akoglu2019;Zhou et al. #20200; 不 保 证 。后向稳定性,由于复杂性的变化,L水(l)=(H(l−1))T(A<$T)L−l+1<$L高(L)·(W(l +1)···W(L))T ∈Rd×d。(三)信号(Saxe,McClelland和Ganguli2013)。在这一节中,我们首先回顾了正交矩阵及其在稳定前向和后向信号中的理论性质。然后,我们讨论了应用正交我们给出了详细的证明,在1996年。可以由节点或图分类任务中的交叉熵损失来根据等式(12)中,观察到后向梯度通过邻域聚集和特征变换反向传播,这与前向推理过程类似。为了更新层l处的参数W(l),对初始梯度ωL进行平滑,约束,并优化正交图卷积以适应图形数据。正交性矩阵WRd×d是正交的,如果WTW=W WWT=I. 鼓励深度神经网络中的正交性已被证明产生几个好处,如稳定和快速通过后Ll层,并用(A<$H(l−1))T变换。由于参数W(l+1),,W(L)在训练期间被惩罚,这样的平滑和变换将使大多数梯度项近似于零。换句话说,后向梯度可能在初始几层处消失,这妨碍了GNN的有效训练为了研究梯度变化对混凝土强度的影响训练(Xiao et al. 2018),更好的泛化(Bansal,Chen和 Wang2018 ) , 以 及 对 对 抗 性 攻 击 的 鲁 棒 性(Tsuzuku,Sato和Sugiyama2018)。在GNN中,我们关注正交特征变换的优选属性,以稳定前向和后向方向上的信令过程。因此,我们忽略了邻居聚集和非线性激活因此,我们建议应用梯度范数,即,||F、 ||F,在每一层,以简化理论分析,并l=1,,L,以量化梯度稳定性。适当的梯度范数强度有利于稳定模型训练。模型稳定性度量的图示。为了验证我们的论点,即不稳定的特征变换是影响浅层模型性能的主要因素,我们实证分析了两个建议的稳定性度量,即前向信号放大率Msig和后向梯度范数F.具体而言,我们开发了一系列具有不同深度L的GCN,并在图1中显示了它们的信号放大率。(一). 据观察,度量Msig随着深度L快速上升,这表明前向节点嵌入的幅度在模型中呈指数放大。由此产生的内部分布偏移的蝴蝶效应阻止了有效的训练,这有助于解释浅GNN的性能下降。为了说明从最终层到初始层的梯度动态,我们绘制了8层图1中的GNN。(b). 与我们理论上的一致||||在下面的模型设计中根据经验考虑它们的影响在数学上,对于第l层,图卷积可以简化为H(l)=H(l)W(l),其中H(l)=AH(l−1)表示相邻聚合后的节点e mbeddings。下面的定理,证明在(黄等人,2018年),表明正交权重W(l)可以保持通过特征变换模块的信号的定理2设W(l)Rd×d表示第l层特征变换所采用的正交矩阵。设h∈ (l)和h(l)表示节点嵌入信息,分别由矩阵H∈(l)和H(l)中的特定行给出。(1)设h(l)的 均 值为Eh(l)[h(l)]=0,h(l)的c o方差矩阵为c ov(h( l ) )=σ2I 。则 Eh ( l )[h( l )]=0 ,cov(h( l ))=σ2I。(2)我们有<$H(l )<$F=<$H<$( l) <$F。(3)给定一个门控的群-(l)(l)F.分析表明,在1990 ~2000年期间,反向传播过程在初始训练阶段。后公司简介,我们有"L“H数百个时期,不同层的所有梯度都是消失,这阻止了GNN移动到损失景观的全局最小值。应该注意的是,不稳定的前向和后向信令出现在具有8层的浅GCN中,而没有特征变换的GCN则出现在具有8层的在L=100之前,离子模块提供稳定的性能如图1所示。(d). 因此,我们可以得出结论不稳定的特征变换是导致浅GNN性能恶化的原因我们在附录2中列出了详细的证明。定理4表明正交特征变换稳定简化GNN的好处:(1)节点嵌入H(l)和H(l)的Frobenius范数保持相同,这有助于约束模型上的嵌入幅度,并使期望的信号放大率Msig与值1. (2)当通过特征变换层时,保持后向梯度的范数这就解决了在定理3中研究的梯度消失问题.+v:mala2255获取更多论文2t−1..ǁ ǁ ǁǁ1ǁ ǁ ǁǁ(l)ǁǁ ≤21水(l)L辅助=λW(l)W(l)T−c(l)·I正交图卷积使用以下迭代公式:为了确保正交性,大多数先前的努力要么插入额外的正交层以变换矩阵W(I)(Trockman和Kolter2021),要么利用正交层。B0=IBt=13Bt−1−B3M= 0,t =1,2,. . . ,T(五)权重初始化为模型提供了一个良好的开端(肖 等人,2018)。然而,由于GNN中的两个挑战,直接应用现有的正交方法首先,由于节点特征通常包含下游任务的关键信息,直观的正交初始化将加速训练过程朝向局部最小值,并损害模型的学习能力。其次,即使W(l)具有严格的正交性,由于邻域聚集和非线性激活带来的影响,使得W(l)不能保持相邻层的嵌入范数。根据定理4,或-正交性仅获得H(l)F=H(l)F在简化的GNN中的同一层,而不是严格确保其中T是迭代次数 在条件为<$I-M <$21<的情况下,已经证明了BT将收敛到M-2。因此,我们改为通过W(1)=BTQ (1) 获得 正交 权重。 W(l)被应用于特征变换,如等式(1)所示。(九)、正交正则化即使在特征变换中伴随正交矩阵W(l),由于GNN中的邻居聚集和非线性激活,前向节点嵌入的范数仍然无法具体来说,回顾Eq. (9)我们有:H(l)F=H(l−1)F,在非连续层上线性GNN为了弥合差距,我们提出了正交公司简介=<$σ(A<$H(l−1)W(l))<$F图卷积,命名为正交GConv,通过优化正交设计全面从三个架构的角度来看,包括混合权重初始化,或-≤<$A<$H(l−1)W(l)<$F=<$A<$H(l−1)<$F≤ <$A<$$>F<$H(l−1)<$F≤<$H(l−1)<$F。(六)正交变换和正交正则化。具体情况介绍如下。混合权重初始化。广泛证明GNN倾向于在大型和属性图数据上过拟合(Kong et al.2020)。虽然正交初始化可以有效地训练深度香草神经网络,但快速收敛可能会陷入局部最优并加剧过拟合问题。为了获得正交性和模型学习能力之间的折衷第一个不等式成立,因为ReLU的非线性激活将负条目映射为零。以下等式由正交权W(l)的保范性质获得。由于邻接矩阵A的元素在r范围[0,1]内被归一化,我们有AF1,得到最终的不等式。与vanilla GNN中的前向嵌入爆炸相比,这种范数消失也会改变内部嵌入分布并导致低效的训练。为了在前向推理期间保持节点嵌入范数,我们提出了一个简单的正交正则化来约束权重W(l):Q(l)= βP(l)+(1 − β)I ∈ Rd×d。(4)P(1)由传统的随机方法初始化(例如,Glorot初始化(Glorot和Bengio2010)),而我们LF 、(7)采用身份初始化(Le,Jaitly和Hinton2015),用最简单的正交法求出初始正交性I。β是一个控制权衡的超参数。正交变换在给定初始权值Q(l)的情况下,我们采用一个额外的正交变换层对其进行变换,并在其应用于特征变换之前提高其正交性。我们使用牛顿迭代来说明我们的方法,由于其简单性(黄等人。2020年)。具体地说,基于牛顿迭代的正交变换分为两步:光谱定界和正交投影。首先,频谱边界将权重Q(l)归一化为:Q(l).Q(l)然后,正交投影映射矩阵Q(l)以获得正交权重W(l)。在数学上,正交投影由下式给出:W(l)=M-1Q(l),其中T是协方差矩阵。由于expo-计算协方差平方根的基本复杂度其中λ是超参数。c(l)是控制权重W(l)的范数的可训练标量。我们用值1初始化c(l),并让模型自动学习如何在前向推理中保持嵌入范数。较大的c(l)指示补偿由邻居聚集和非线性激活带来的范数消失。我们的Ortho-GConv是一个通用模块,能够增强现有的GNN。在不失一般性的情况下,我们采用简单的单位权和牛顿迭代法来提供正交初始化和变换、恢复。今后还可以采用其它正交方法进一步提高模型模型的稳定性研究为了验证我们的Ortho-GConv在稳定前向和后向信令方面的有效性,我们在普通GCN上实现了它。虽然对于不同的模型,信号放大率Msig被约束在值1矩阵,M−2由牛顿迭代计算图1中的深度。(a)梯度范数||L||F 是+v:mala2255获取更多论文图1中的8层模型内的不同层的可比较性。(c)。换句话说,我们的Ortho-GConv可以约束节点嵌入的大小以稳定向前推理,同时将梯度保持在向后的方向,以有效地更新模型实验在本节中,我们进行了大量的实验来评估我们的模型,旨在回答以下问题:• Q1:在全监督节点分类和图分类任务中,将拟议的Ortho-GConv应用于当前流行的GNN的有效性如何• 混合权重初始化、正交变换和正交正则化对Ortho-GConv的影响有多大?我们提供了更多的细节的结果和分析的半监督节点分类在candidix. 5.基准数据集。对于全监督节点分类任务,我们使用Cora ( Sen et al. 2008 年 ) , CiteSeer ( 森等 人2008)、PubMed(Senet al. 2008),以及WebKB的三个子集(Pei et al.2020):Cornell,Texas和Wisconsin以评估性能。对于图分类任务,我们使用包括D& D(Dobson和Doig2003)和PROTEINS(Borgwardt等人2005)的蛋白质数据集。此外,我们对ogbn-arxiv(Huet al.2020 a)进行了实验,以评估Ortho-GConv在大型图上的可扩展性和性能数据集和参数设置的统计数据分别见附录3和4。全监督节点分类我们构造了两个实验来评估我们提出的Ortho-GConv的性能,即与不同层的比较我们采用与GCNII相同的全监督实验设置和训练设置(Chenet al. 2020c),并使用Cora、Citeseer、Pubmed、Cornell、Texas和Wis-Meyer六个数据集进行性能评价。对于每个数据集,我们将每个类的节点随机分为60%,20%和20%,分别用于训练,验证和测试。此外,我们对ogbn-arxiv进行了实验,以进一步评估我们提出的Ortho-GConv在大型图上的性能对于这个数据集,我们将每个类的节点分为54%,18%和28%,以进行训练,验证和测试(Hu et al.2020年b)。(1) 与 不 同 层 次 的 比 较 。 我 们 以 GCN 、 JKNet 和GCNII作为三个主干,分别在2/4/8层上将我们提出的Ortho-GConv与它们的原始模型进行了比较。实验结果如表2所示。我们得出以下结论:i) Ortho-GConv通常在不同层数下提高每个数据集上所有骨干的性能。例如,Ortho-GConv在Cora和Citeseer上分别在具有2层的主链上提供了1.9%和2.1%的平均改进;而在8层的情况下实现了2.8%和12.4%的显著增益ii) 随着层数的增加,GNN模型的性能显著下降然而,在这方面,我们提出的Ortho-GConv实现了2层和8层的可比这种现象归因于我们的Ortho-GConv可以解决梯度消失的问题,并使模型推理稳定。iii)Ortho-GConv通常在ogbn-arxiv上的性能也比主链好。结果表明,正交GConv适用于大型图。因此,我们提出的Ortho-GConv可以解决香草浅GNN中的前向推理爆炸和后向使他们能够得到稳定的训练。(2) 与SOTA比较为 了 验 证 Ortho-GConv 的 整 体 性 能 , 我 们 选 择 了Ortho-GConv的每个骨干的最佳性能,并与当前流行的SOTA方法进行比较。我们使用GCNII进行相同的设置,并重复实验5次,并在表1中报告平均结果。实验结果表明,我们提出的方法优于所有的基线。Ortho-GCNII在所有数据集上获得了2.2%的平均改善特别是,Ortho-GConv比德克萨斯州的GCNII提高了7.4%此外,采用Ortho-GConv的少层GCNII模型的性能优于深度GNN模型,证明了Ortho-GConv的优越性。关于结果和层号信息的更多详细信息,请参见图6。表1:与SOTA在全监督任务上的准确性(%)比较最高的表现是大胆的。方法科拉引用。泵。玉米德克萨斯州Wisc.GCN85.7773.6887.9157.8455.6849.02GAT86.3774.3287.6254.3258.3849.41Geom-GCN85.1977.9990.0556.7657.5858.24APPNP87.8776.5389.4073.5165.4169.02JKNet86.2075.8989.5562.1662.7064.31Incep(DropEgde)86.8676.8389.1861.6257.8450.20GCNII88.4977.0889.7874.8671.4675.30Ortho-GCNII88.8177.2690.3076.2277.8477.25图分类对 于 图 分 类 任 务 , 我 们 使 用 Graph-U-Nets ( Gao 和Ji2019)作为骨干,PSCN(Niepert,Ahmed,和Kutzkov2016),DGCNN(Zhang et al.2018)和Diff-Pool(Y inget al. 2018)作为比较基线,并在D& D和PROTEINS数据集上进行实验以评估我们的模型。为了公平比较,我们遵循与Graph-U-Nets相同的实验设置,并固定参数T= 4,β= 0.4。实验结果见表3。我们可以看 到 , 在 Graph-U-Nets ( g-U-Nets ) 上 应 用 Ortho-GConv在数据集D D和PROTEINS上实现了新的最先进性能,这证明了Ortho-GConv在图分类任务上的有效性总之,我们提出的Ortho-GConv在代表性基线+v:mala2255获取更多论文数据集骨干2层4层8层表2:在全监督节点分类任务原始Ortho-GConv原始Ortho-GConv原始Ortho-GConv科拉GCNJKNetGCNII85.77± 1.7385.96± 1.5486.28± 0.7987.28± 1.6887.36± 1.7488.49± 1.5982.37± 2.4786.20± 1.4585.70± 2.1086.20± 1.7587.12± 2.2588.81± 1.6981.13± 2.7885.84± 1.6486.80± 2.1085.27± 1.6487.24± 2.0988.41± 1.43CiteSeerGCNJKNetGCNII73.68± 1.6975.89± 1.5475.31± 2.3675.59± 1.7876.89± 1.6477.26± 1.8368.03± 5.9074.97± 1.7675.60± 1.7074.80± 1.1176.11± 1.7676.94± 2.1053.10± 6.3474.85± 1.6976.10± 2.1071.61± 2.4675.60± 1.9577.11± 2.20PubMedGCNJKNetGCNII87.91± 0.4489.40± 0.3089.51± 0.6986.04± 0.6189.46± 0.2890.30± 0.3077.00± 7.5589.47± 0.4489.50± 0.4084.68± 0.5589.54± 0.3890.04± 0.3269.49± 0.9889.55± 0.4789.78± 0.3383.75± 0.5089.57± 0.2189.80± 0.43玉米GCNJKNetGCNII52.70± 5.0562.16± 5.0558.92± 4.4458.38± 3.6263.24± 4.9074.05± 4.0957.84± 3.0052.97± 11.666.00± 6.2057.84± 3.0858.92± 4.4475.14± 6.7257.84± 3.0056.22± 7.9774.10± 5.6057.84± 3.0858.92± 5.5375.14± 7.13德克萨斯州GCNJKNetGCNII55.14± 7.7858.38± 6.2269.73± 13.3061.08± 9.0861.08± 8.0177.84± 6.7255.68± 5.6062.70± 4.0071.40± 8.0058.92± 7.4962.70± 5.8577.30± 5.6054.59± 7.0062.16± 5.0570.80± 5.2058.38± 6.2260.54± 3.5275.14± 3.52Wisc.GCNJKNetGCNII49.02± 3.6664.31± 6.4172.94± 9.2350.59± 8.4069.41± 5.6477.25± 3.5446.67± 7.7659.61± 4.0674.50± 7.8048.24± 9.4668.63± 4.8077.25± 5.1140.00± 10.656.86± 3.1075.30± 8.1046.67± 9.4465.88± 5.1175.29± 6.29奥格本阿尔西夫GCN71.28±0.2871.33± 0.2672.30± 0.1772.30± 0.1371.84± 0.2771.87± 0.12GCNII71.24±0.1971.35± 0.2171.21± 0.1971.38± 0.1472.51± 0.2872.44± 0.46表3:在图分类任务上与SOTA的准确度(%)比较最高的表现是大胆的。数据集PSCN DGCNN DiffPool g-U-Nets Ortho-g-U-Nets。DD 76.27 79.37 80.64 83.0083.87蛋白质75.0076.26七十六点二五77.6878.78节点分类的方法和图分类任务,这回答了本节开始时提出的第一个问题。消融研究为了研究Ortho-GConv的三个视角的重要性我们的模型的三个关键组成部分,这相应地回答了第二个问题。此外,我们提供了一个消融研究,以显示如何迭代次数T的性能和Ortho-GConv的训练时间的我们使用2层和8层Ortho-GCN模型在Cora数据集上进行实验结果见图2。(b)和(c)。我们发现,随着T的增加,时间消耗变得越来越大。 从图2。(b) 以及(c),我们还可以观察到较大的迭代次数和较小的迭代次数降低了我们提出的模型的性能。当迭代次数为4时,我们得到最佳性能。总之,适当的T被优化,以实现高精度与可接受的时间复杂度。混合权重初始化、正交变换和正交正则化,并定义如下:1)Ortho-GCN w/o初始化,从Ortho-GCN中省略混合权重初始化模块; 2)Ortho-GCN w/o变换,从Ortho-GCN中省略正交变换;3)Ortho-GCN w/o正则化,从Ortho-GCN中省略正交正则化。为了阐明这三个视角的贡献,我们报告了0.850.800.750.700.650.60(一)2 48深度0.8300.8250.8200.8150.810(b)第(1)款20181614121086123456不0.80.70.60.50.40.30.2(c)第(1)款40353025201510123456不Ortho-GCN及其变体在Cora上的半监督节点分类结果,如图2所示。(一). 我们有以下意见:i) 与GCN相比,Ortho-GCN比三种消融变体和GCN模型具有更好的性能。它进一步证明了三正交技术对稳定模型的重要性。ii) 从所提出的模型中删除正交初始化对性能有相当大的影响,这表明该组件在节点分类任务中起着重要作用。实验结果进一步证明了该方法的重要性。图2:(a)GCN、我们的模型和Cora上的三个消融模型的深度与准确度。(b)2层Ortho-GCN的迭代次数T对Cora数据集的影响。(c)8层Ortho-GCN的迭代次数T对Cora数据集的影响。结论在本文中,我们首先进行了一系列的分析实验,以探讨当堆叠更多卷积层时GNN性能下降的原因。我们认为,主要因素是不稳定的前锋,GCNOrtho-GCNOrtho-GCN w/o初始化Ortho-GCN w/o变换Ortho-GCN w/o正则化精度时间精度精度时间精度时间准确度时间(秒)+v:mala2255获取更多论文GNN中的反向信令。然后,我们提出了一种正交图卷积来增强GNN的主干,以稳定模型的训练,提高模型的泛化性能。实验表明,我们的Ortho-GConv实现了更好的性能比SOTA方法的节点和图分类任务。引用Bansal,N.;陈X;和Wang,Z.2018年在训练深度CNN时,我们能从正交正则化中获得arXiv预印本arXiv:1810.09102。Borgwardt , K.M.; 翁 角 , 澳 - 地 S. 的 ; Scho? nauer ,S.;VishW Anathan,S. 诉N.的; Smola,A.J.道:Kriegel,H.2005年通过图核进行蛋白质第十三届国际分子生物学智能系统会议论文集,47布鲁纳,J.;扎伦巴,W.; Szlam,A.;和LeCun,Y. 2014.图上的谱网络和局部连通网络。在第二届国际学习代表会议上。Chen,D.;林,Y.;李,W.;李,P.;周,J.;Sun,X.2020年a。从拓扑观点衡量与缓解图类神经网路的过度平滑问题。在AAAI人工智能会议的会议论文集,第34卷,3438陈,L.;吴,L.; Hong,R.;张,K.;和王,M。2020年b。重访基于图的协同过滤:一种线性残差图卷积网络方法.在AAAI人工智能会议的开幕式上,27-34。陈,M.;魏,Z.;黄志;丁,B.;和Li,Y。2020年c。简单和深度图卷积网络。国际机器学习会议,1725-1735。PMLR。Defferrard , M.; Bresson , X.; and Vandergheynst , P.2016.具有快速局部谱滤波的图上卷积神经网络神经信息处理系统进展,29:3844多布森山口D.的; 和Doig,A.J. 2003年。区分酶结构和非酶结构而无需比对。Journal of
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功