高效的分层图卷积网络训练框架

138 浏览量更新于2023-10-25 收藏 895KB PDF 举报

图卷积网络

内存使用

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2127L2-GCN：图卷积网络YunningYu，TianlongChen，Zhangyang Wang，Yang Shen德州农工大学{yuning.you，wiwjp619，atlaswang，yshen}@ tamu.edu摘要图卷积网络（GCN）在许多应用中越来越它们需要从它们的邻居递归地计算节点表示当前的GCN训练算法要么承受随着层数指数增长的高计算成本，要么承受用于加载整个图和节点嵌入的高内存使用。本文提出提出了一种新的高效的分层GCN训练框架（L-GCN），该框架在训练过程中将特征聚合和特征转换分开，从而大大降低了时间和内存复杂度。我们在图同构框架下对L-GCN进行了理论分析，在温和的条件下，L-GCN导致了与更昂贵的传统训练算法一样强大的GCN。我们进一步提出了L2-GCN，它为每一层学习一个实验表明，L-GCN比现有技术快至少一个数量级，具有一致的内存使用不依赖于数据集大小，同时保持相当的预测性能。通过学习控制器，L2-GCN可以进一步将训练时间缩短一半 . 我们的代码可在https://github.com/Shen-Lab/L2-GCN 上获得。1. 介绍图卷积网络（GCN）[13]将卷积神经网络（CNN）[14]推广到图形数据。给定图中的节点，GCN首先将节点嵌入与其邻居节点嵌入聚合，然后通过（分层）前馈传播转换嵌入。两个核心业务，即聚合和转换节点嵌入，利用图形结构并优于结构未知的替代方案[17，18，9]。因此，GCN在许多基于图的应用中表现出普遍的成功，包括节点分类，*同等贡献。4000300020001000203 4 5 6 7日志（时间）图1：我们在Reddit上实现的性能和效率摘要。左下角表示时间（训练时间）和内存消耗（GPU内存使用量）方面所需的最低复杂度。标记的大小代表F1评分。蓝色圆圈（·）是最先进的小批量训练算法，红色圆圈（·）是L-GCN，红色星号（★）是L2-GCN。相应的F1评分分别为：GraphSAGE（·，93.4），FastGCN（·，92.6），VRGCN（·，96.0），L-GCN（·，94.2）和L2-GCN（★，94.0）。[13]，链接预测[26]和图分类[24]。然而，GCN的培训一直是一个令人头痛的问题，也是进一步扩大GCN规模的障碍如何更有效地训练CNN最近已经成为一个热门话题，通过绕过不必要的数据或减少昂贵的操作[19，25，12]。对于GCN，随着图形数据集的增长，大量的节点和潜在的密集邻接矩阵禁止将它们全部拟合到存储器中，从而将全批训练算法（即，那些需要完整数据和整体邻接矩阵来执行的操作）处于危险之中。这激发了小批量训练算法的发展，将每个节点视为数据点并进行本地更新。在每个小批量中，通过图卷积运算从第（l-1）层的邻域节点嵌入计算第l层的节点。由于计算是通过所有层递归地执行的，因此小批量复杂度将相对于层数呈指数级增加。到为了减轻复杂性爆炸，已经采用了几种基于采样的策略，例如，[10][11][12][13][14][15]存储器FastGCNGraphSAGEVRGCNL-GCNL-GCN21280，否则我+J我0表1：时间和内存复杂度：我们考虑网络中特征传播的时间复杂度，以及存储每层节点嵌入的内存复杂度（因为给定相同的网络架构，对于所有比较算法c，权重存储花费相同的内存）。 L是层数，D是特征维数，N是节点数，SNEI是邻域大小，B是小批量大小，S是训练样本大小，SVR是减少的样本大小，以及NBAT是小批量数目。GCN [13] Vanilla Mini-Batch GraphSAGE [10] FastGCN [4] VRGCN [5]L-GCN时间O（L||A||D+LND2）O（SLBD2）O（SLBD2） >O（SLBD2）>O（SLBD2） O（L||A ||0D+BD2）0NEIVRNBAT内存O（LND）O（SL BD）O（SL BD）> O（SLBD）O（LND）O（BD）NEIGCN [4]，但几乎没有性能保证。VRGCN[5]通过方差缩减减小了样本大小，保证了其性能收敛于全样本方法，但它需要将每层的全批节点Charter-GCN [7]使用图聚类将大型图划分为子图，并执行子图级别的小批量训练，但仍然只是经验性的。在本文中，我们提出了一种新的分层训练算法的GCN，称为（L-GCN）。关键思想是将每层前馈图卷积中的两个关键操作解耦：特征聚合（FA）和特征变换（FT），其级联和级联导致指数增长的复杂性。令人惊讶的是，所得到的贪婪算法不一定包含网络表示能力，如我们的理论分析所示，该理论分析受到[23]的启发，使用图同构框架。为了绕过额外的超参数调整，比较他们的优缺点2.1. 全批次GCN培训最初的GCN [13]采用了全批梯度下降算法。让我们将无向图定义为G =（V，E），其中V = { v1，.， v N}表示顶点设为N个节点，并且E ={e1，...，e NE}表示具有N个E边的边集：e n=（v i，v j）表示顶点v i和v j之间的边。 F ∈ RN×D是特征维数为D的特征矩阵，A∈ RN×N是邻接矩阵，其中aij= aji={1，如果（vi，vj）或（vj，vi）∈E.通过构造一个L层GCN，第l层的网络损耗为：X （l）=σ（A<$X （l−1）W（l）），损失=Loss（X（L），Θ，Y），（一）其中A是正则化邻接矩阵，X （0）=F，然后，我们引入逐层和学习的GCN训练（L2-W（l） ∈RD（l−1）×D（l）是权重矩阵，D（0） =D，σ（·）GCN），它为每一层学习一个控制器，该控制器可以自动调整L-GCN中每一层的训练时期表1比较了L-GCN，L2-GCN和现有竞争算法之间的训练复杂度，证明了我们的方法更多的实验表明，我们提出的算法比最先进的算法要快得多，GPU内存的使用一致，不依赖于数据集的大小，同时保持相当的预测性能。我们的贡献概述如下：• 具有低得多的时间和存储复杂度• 证明了在一定的充分条件下，贪婪算法在图的表示能力上不妥协;• 学习控制器，自动配置逐层的训练历元数，代替手动超参数调整;是一个非线性函数，Θ ∈ RD（L）×DCLA是线性分类矩阵，Y是训练标签，Loss（·）是损失函数。为了简单起见，在不影响分析的情况下，我们设置D（1）=...= D（L）= D.对于（1）中的网络传播的时间复杂度，X<$（l）=A<$X （ l−1 ）花费 O （ ||A|| 时间复杂度为 O（ND2），总时间复杂度为O（L||A||0D+LND2）整个网络所消耗的时间。对于存储器复杂度，存储L层em.寝具 X（ l ）， l=1 ， ... ，在内存中， L 需要 O（LND）。时间和内存复杂度都与N成正比，这对于大型图来说无法很好地扩展2.2. 小批量SGD算法vanilla mini-batch SGD算法在minibatch中传播顶点表示，而不是为所有节点传播。我们将第l层中第i个节点的网络传播（1）重写为：• 除了重量轻之外，还实现了最先进的性能，适用于广泛的应用。x（l）=σ（（a））x（l−1）我j=1，…N，s.t.a=0国际新闻报x（l−1）），W（l）），2. 相关工作我们遵循[7]将现有的GCN训练算法分类为全批和小批（随机）算法，损失= 1ΣNNi=1L〇ss（x（L），Θ，Y），（二）2129我VR输入线性分类器(a)常规培训FAFT中文（简FAFT中文（简Θ优化：W（1）*，W（2）*，θ输入线性分类器输入线性分类器FAFTFAFTFAFT中文（简体）优化：W（1）*，θ阶段1ΘW（1）*优化：W（2）*，阶段2中文（简ΘΘ∗(b)分层培训特征聚合（FA）特征转换（FT）图2：两层GCN的传统训练与分层训练。（a）在常规训练中，优化器将权重矩阵W（1）、W（2）联合优化为W（1）、W（2），并将线性分类器Θ联合优化为θ，从而针对网络优化W（1）、W（2）、θ。（b）在逐层训练中，两个层在两个连续的阶段中被训练：在第一阶段中，优化器将权重矩阵W（1）优化为W（1），并且将线性分类器Θ（1）优化为θ（1），对于第二阶段，设置W（1），并且丢弃Θ（1）;然后在第二阶段中，优化器将权重矩阵W（2）优化为W（2），并且将线性分类器θ（1）优化为θ（1）。Θ（2）为Θ，即W（2）为θ，Θ为网络。其中x（0）= F [i，：]。使用（2），我们可以在一个小批量数据加载器中提供特征ma-batchF，并运行随机梯度下降（SGD）优化器。假设B是minibatch大小，SNEI是邻域大小，每个minibatch的传播的时间复杂度是O（S LBD2），和O（LND）（加上计算方差减少的一些开销）。• 集群-GCN。[7]而不是直接喂养节点和它们的邻居，[7]首先使用一个图聚类al。内存复杂度为O（SLNEI出租m划分子图，然后运行SGDNEIBD）。我们接下来讨论几个vanilla minim-batch算法的变体：• GraphSAGE FastGCN。[10，4]两者都采用抽样方案以降低复杂性。GraphSAGE建议在每一层中对邻域使用固定大小的采样。它还存在 FastGCNproposesglobalimportancesampling rather than local neighborhoodsampling,alleviating复杂性增长问题。假设S≤SNEI是样本大小、时间和内存复杂度，对于GraphSAGE，关系分别为O（SLBD2）和O（ SLBD ），对于 FastGCN ，关系分别为 O（ SLBD2 ）和 O （ SLBD ） . 此外，对于FastGCN，重要性权重计算有额外的复杂性要求。• VRGCN。[5]提出使用方差缩减来减少每层中的样本大小，从而在较小的图中实现良好的性能除非-同时，它需要在训练过程中存储所有的顶点中间嵌入，这导致其算法复杂度接近全批训练。假设SVR≤S是缩减样本量，优化每个子图。这种方法的性能更难以确保训练稳定性，w.r.t不同的聚类设置。3. 该算法为了讨论图卷积网络（GCN）训练算法的瓶颈，我们首先分析了GCN的传播[22]，并将传播（1）分解为特征聚合（FA）和特征变换（FT）。特征聚合。为了学习第l层的节点表示X（l），在第一步中，GCN遵循近邻聚合策略，其中在第l层中，它向上-通过聚合其邻居的表示来确定每个节点的表示的日期，同时其自身的表示被其邻居的表示聚合，其被写为：X<$（l）=A<$X（l−1）。（三）对于（3），时间和内存复杂度高度依赖于边数，并且在小批量SGD算法中，它高度依赖于样本大小。以来VRGCN的存储复杂度为O（SLBD2）在L层网络的小批量SGD训练期间，L2130N我每个节点的FA次数需要其L阶邻居节点的表示，这导致对大量邻居节点进行采样。FA是小批量SGD算法中降低GCN时间和内存复杂度的主要障碍。特征变换。在FA之后，在第二步中，GCN在第l层中进行FT，其由线性和非线性变换组成：矩阵之间的隐藏层和输出层，除非l=L，并计算第l层表示。重复这个过程，直到所有层都被训练完毕。如表1所示，与传统训练和现有技术相比，时间和存储器复杂度显著降低。在时间复杂度方面，L-GCN在整个训练过程中只进行一次FAL训练，而FT在每批训练中只进行一次FAL训练，而传统的小批量训练在每批训练中进行FAL训练和FT训练X（l）=σ（X<$（l）W（l））。（四）假设总训练批次数为N蝙蝠得双曲余切值.对于（4），复杂性主要与特征维度有关。一个节点的L乘以FT只需要在每一层中有自己的表示。给定监督节点标签Y，GCN的常规训练过程被公式化为：（W（1），.，W（L）θ（L，Θ（L））=L-GCN的时间复杂度为O（L||A ||0D+BD2）。的蝙蝠内存复杂度是O（BD），因为L-GCN只训练一个单层感知器。3.2. L-GCN的理论论证我们着手回答L-GCN的以下理论问题minW（1），...，W（L），ΘL〇ss（X（L），Θ，Y），s. t.（3）、（4）.（五）训练的GCN与传统训练的GCN相比为了建立我们分层训练算法的理论背景，我们遵循Xu和同事对于小批量SGD在L层GCN上的整个传播，如图2（a）所示，在每个批次中存在L次FA和FT。如果没有傅立叶变换，L次FA可以聚集结构信息，缺乏表示学习，仍然是耗时和内存的。如果没有FA，L次FT只不过是一个多层感知器（MLP），它可以有效地学习表示，但缺乏结构信息。3.1. L GCN：分层GCN训练如前所述，用于L层GCN的常规训练的一批传播由L次特征聚合（FA）和特征变换（FT）组成FA和FT对于捕获图结构和学习数据表示都是必要的，但两者之间的耦合导致了低效的训练。因此，我们提出了一个逐层训练算法（L-GCN），以适当地分离FA和FT过程，同时逐层训练GCN我们在图2（b）中说明了L-GCN算法。为并表明在某些条件下，逐层训练的GCN可以与常规训练的GCN一样在[23]中，当输入特征空间可数时，基于聚合的图神经网络（GNN）的表示能力被评估为将任何两个不同节点映射到不同嵌入的能力。表示能力的评估被扩展到将任何两个非同构图映射到非同构嵌入的能力，其中图被生成为对应的节点。L层GNNA：G→RD（不包括前面描述的线性分类器）可以被表示为：[23]如：A= R L（L）. （1）、（7）其中L（l）：RD× MD→ RD，（l = 1，. - 是的- 是的，L）是逐顶点聚合映射，MD是维度D的多集，并且R：MD→ RD是如下的读出映射：x（l）=L（l）（x（l−1），{x（l−1）：j∈ N（i）}），l∈L，i i j（八）训练第l层，我们对所有第（l-1）层做一次FA顶点表示，聚合其l阶结构，形成，然后将顶点嵌入馈送到单层感知器中，并为批次运行mini-batch SGD优化器。第l层通过求解（W（l）θ，Θθ）=输出=R（{x（L）：i∈N}），其中N（i）是第i个节点的节点邻居的集合由于GCN属于基于聚合的GNN，因此我们使用同样的图同构框架用于我们的分析。Xu等人。[23]提供了GNN的上限功率作为Weisfeiler-Lehman图同构测试（WL测试）[20]，minW（l），Θ损失.σ（AX（l−1）W（l）Σ），Θ，Y.（六）并证明了GNN与WL测试一样强大的充分条件，这在下面的引理和定理中描述。注意，X（l−1）依赖于（W（1）≠，. . .，W（l−1）π）. 第l层训练完成后，将当前输入层和隐层之间的权值矩阵W（l）_n保存为第l层的权值矩阵，引理1. [23]设G1和G2是任意两个非同构图，即 G1和G2。如果GNNA将G1和G2映射到不同的嵌入中，WL测试也确定G1和G2不是同构的。2131ConCon层我定理2. [23]令A=R<$L（L）<$. 如果L（1）是一个具有足够层数的GNN，则A将同构的WL检验判定为非同构的任意图G1和G2映射到不同的嵌入上，条件是：a）映射L（1），l ∈ L是单射的.b）读出映射R是单射的。我们进一步提出使用图同构框架来刻画GNN的在这个框架中，我们观察到这样一个事实，即对于基于聚集的GNNA（如GCN），任何一对同构图G1和G2，我们总是有A（G1）=A（G2），因为相同输入和基于聚合的映射。与此相反，对于任意一对非同构图G1和G2，存在一定的概率A将它们错误地映射到相同的嵌入，即 A （ G1 ） =A（G2），如表2所示。因此，为了进一步分析我们的算法，我们首先定义一个特定的度量来评估GNN的能力，作为将任何非同构图映射到不同嵌入的概率。表2：GNNA识别两个图G1和G2的条件概率，给定它们的（非）同构。G1=G2G1G2A（G1）= A（G 2） 1A（G1）/= A（G2）01−1因此，在训练网络时，优化器试图为GNN找到最佳的层映射，以尽可能将非同构图映射到不同的嵌入中通过定义4中的训练过程，我们用公式表示贪婪A的逐层训练为：L（1）=maxProb{RL（1）（G1）/=RL（1）（G2）|G1<$G2}，L（1）L（2）<$=maxProb{R<$ L（2）<$L（1）<$（G1）L（2）/=R<$L（2）<$L（1）<$（G2）|G1<$G2}，...L（L）. 中文（简体）L（L）/=R<$L（L）<$L（L−1）<$L. 中国（1）中国（2）|G1<$G2}，（十一）在下面的定理中，我们为逐层训练的网络（11）提供了一个充分条件，以实现与从端到端训练的网络（10）相同的容量。第五章. 设A=R<$L（L）<$. 是具有固定单射读出函数R的GNN。如果A可以通过求解优化问题（10）来常规地训练，并且得到的ACon=R<$L（L）哦……中国（1）一样强大定义3. 设A是GNN;G1和G2是独立同分布的。 A的能力，CA，被定义为作为WL检验，给定定理2中的条件，则A也可以通过求解优化来逐层训练问题（11），其结果为ALay=R<$L（L）<$。. 中国（1）如果G1和G2是非同构的，则将它们映射到不同的嵌入中达到同样的能力。层层CAProb{A（G1）/=A（G2）|G1G2}。（九）GNN的容量越大，表示它对不同结构图的区分能力越强换句话说，不是那么强大的网络将有更高的概率将非同构图映射到同一个em中。不分上下，不分上下。根据定理2和定义3，我们有CA≤CWL，即WL测试的容量是任何基于聚集的GNN的容量的上界直观地说，通过评估网络功率的度量，我们进一步将训练过程定义为优化网络容量。我们在附录中提供了证明。对于原本通过常规训练就足够强大的网络架构，我们可以通过逐层训练来训练它达到同样的能力。证明的思想是：如果满足定理2中的条件，每一层都存在内射映射，我们可以证明找到具有分层优化问题的内射映射，如（11）。否则，当网络架构不能通过常规训练变得足够强大时，以下定理建立了逐层训练的网络随着层数的增加而具有非递减的容量。定理6.令GNN A=R<$L（L）<$. 中国（1）对于固定的单射读出函数R，G1和G2是定义4. 设GNN A = R <$L（L）<$. （1）有一个i.i.d.，和x（l）=L（l）（x（l−1），{x（l−1）：j∈Ni}）：i i j固定单射读出函数R、G1和G2是独立同分布的。的RD×MD→RD 对于逐层训练，如果L（l）为A的训练过程被表述为：不保证对于（x（l−1），{x（l−1））是单射的：j∈I jL（L）、...、L（1）=Ni}），但它仍然可以区分不同的x（l−1），即如果2132x（l−1）/=x（l−1），则L（l）（x（l−1），{x（l−1）：j∈Ni}）MaxProb{R L（L）. 中国（1）（G1）I k（十）Lay i jL（L），.，L（1）L（l）（x（l−1），{x（l−1）：j∈ Nk}），则我们有Lay kjRL（L）. （1）（G2）|G1G2}。网络的容量是单调非递减的2133LayLay特征聚合（FA）特征变换（FT）Stage1RNN控制器Stage2RNN控制器RNN控制器是的RNN中文（简体）Stage2RNN是的中文（简体）端培训没有没有时间复杂度损失时间复杂度损失输入inputtingFAFT线性分类器FAFTFAFT线性分类器中文（简ΘW（1）*中文（简Θ训练新纪元训练新纪元图3：学习优化双层GCN的分层训练算法。两个层在两个阶段中训练：在每个阶段中，逐层训练的网络生成训练损失，稍后的索引作为RNN控制器的输入，并且RNN控制器输出下一个时期的隐藏阶段，以及当前时期的停止概率ρ，并查看停止概率ρ是否大于阈值概率ρThres。如果ρ>ρThres，则分层训练结束，进入下一阶段或结束整个训练（如果它是最后一层），否则ρ≤ρThres，然后训练另一个时期。当训练过程的一次迭代完成时，性能和效率将反馈到RNN控制器，更新权重并开始新一轮的训练。更深层次的：（l−1）（一）决定是否停止在当前层训练。㈡国家。时间t 的状态s t是Prob {R LLay 哦……铺管（G1）/=R<$L（l−1）<$. （1）（G2）|G1G2}≤Prob{R <$L（l）<$L（l−1）<$. 中国（1）（G1）（十二）当前历元、层索引和RNN控制器在时间t-1的隐藏状态。（三）奖励。RNN控制器的目的是有效地训练网络，有竞争力的表现，因此非零奖励层层层RL（l）L（l−1）（1）（G2）|G1G2}。仅在MDP结束时作为加权和接收层层层最终损失和总训练时期（时间复杂度）。iv）我们再次引导读者到附录中寻找证据。该定理表明，如果网络架构通过常规训练不够强大，我们可以尝试通过训练更深的网络来增加其容量。与最先进的技术相比，分层训练还可以更有效地训练更深的GCN。仍然具有挑战性的是，网络容量CA在关于网络参数的分析形式中不可用。在这项研究中，我们使用交叉熵作为分类任务的损失函数今后还需要进一步3.3.L2GCN：使用学习控制器进行训练将逐层训练算法应用于图卷积网络（L-GCN）的一个挑战是，可能需要手动调整每一层的训练时期。一个可能的解决方案是提前停止，然而它在L-GCN中并不直观地工作，因为每个层中的训练损失与最终验证损失不可比较。出于学习优化[2，6，15，3]的动机，我们提出了L2-GCN，通过基于策略的REINFORCE[ 21 ]训练学习的RNN控制器来确定何时停止每层该算法如图3所示。具体来说，我们将L-GCN的训练过程建模为马尔可夫决策过程（MDP），定义如下：R N N 控制器在时间 t 的动作a t为终端一旦L-GCN完成L层训练，过程终止。给定上述设置，来自MDP的样本轨迹将为：（s1，a1，r1，.，s t，a t，r t）。RNN控制器的详细架构如图4所示。对于每个时间步，RNN将输出一个隐藏向量，该隐藏向量将由其对应的softmax分类器解码和分类。 RNN控制器以自回归的方式工作，其中最后一步的输出将被馈送到下一步。L-GCN将被采样为每个时间步当终止时，最终奖励将被馈送到控制器以更新权重。4. 实验在本节中，我们评估了我们提出的L-GCN和L2-GCN在六个越来越大的数据集的单类和多类分类任务上的预测性能、训练时间和GPU内存使用情况：Cora&PubMed [13] 、 PPI& Reddit [10] 和 Amazon-670 K&Amazon-3 M [7]，总结见附录。对于Amazon-670 KAmazon-3 M，我们使用主成分分析[11]将特征维度降低到100，并使用顶级类别作为类标签。训练/验证/测试划分遵循归纳监督学习场景的常规设置。我们实施了我们提出的2134电话+1图4：对于每个时间步t，RNN控制器将首先将之前的隐藏向量ht和生成的嵌入xt作为输入. Embedding xt是动作嵌入、当前时期的损失和层索引的串联。（在[8]之后，我们从每个动作的多项式分布中随机生成嵌入。然后，RNN将输出隐藏向量ht+1，该隐藏向量将由其对应的softmax分类器解码和分类。在得到概率向量ρ（t）后，根据ρ（t）进行多项式抽样选取动作jt+1。的相对概率ρ（t）将被进一步连接并记录用于奖励计算。当终端时，最终奖励是所选动作概率向量与R（R是最终损失和总训练时期的加权和）将被生成用于控制器以更新其权重。PyTorch中的算法[16]：对于分层训练，我们使用Adam优化器， Cora PubMed 的学习率为 0.001& ， PPI ，Reddit ， Amazon-670 K 和 Amazon-3 M 的学习率为0.0001;对于RNN控制器，我们将控制器设置为每10个epoch（Cora为5个epoch，PPI为50个epoch）做出一个停止或不停止的决定，使用[ 8 ]中的控制器架构和Adam优化器，学习率为0.05。所有的实验都是在一台配备GeForce GTX 1080 Ti GPU（11 GB内存）、8核Intel i7- 9800 X CPU（3.80 GHz）和16 GB RAM的机器上进行的4.1. 与艺术现状的比较为了证明我们提出的算法的效率和性能，我们将它们与表3中的最先进算法进行比较。我们将L-GCN和L2-GCN与最先进的GCN小批量训练算法如GraphSAGE[10]，FastGCN [4]和VRGCN [5]进行比较，使用它们最初发布的代码和发布的设置，除了在所有方法中隐藏层的批量大小和嵌入维度保持相同以确保公平比较。具体来说，我们将Cora的批大小设置为256，其他人为1024;我们将Cora PubMed的隐藏层嵌入维数设置为16，PPI为512，其他人为128我们不将控制器与其他超参数整定方法进行比较，因为控制器广泛用于许多领域，如神经结构搜索[8]。在Cora、PubMed、PPI和Reddit四个常见数据集上，我们证明了我们提出的算法L-GCN比最先进的算法要快得多，GPU内存的使用一致，不依赖于数据集大小，同时保持相当的预测性能。与L-GCN相比，通过学习控制器来做出停止决策，L2-GCN可以进一步减少一半的训练时间（这里我们不包括搜索时间），并且性能损失很小对于超大型数据集， GraphSAGE 和FastGCN在Amazon-670 K上无法收敛，并且在Amazon-3 M上超过了我们的实验时间限制，而VRGCN经过长时间的训练后取得了良好的性能。我们提出的al-taxms仍然稳定地实现亚马逊670 K和亚马逊3 M的有效性能相当。我们没有在表1中包括任何算法的超参数调优（搜索）所花费的时间。这样的计算是不可能的，因为搜索时间对于预先训练的最先进技术是不可访问的。尽管典型的控制器学习可能是昂贵的（如表4所示），但在（特别是大的）数据集上学习的L2-GCN中的RNN控制器可以是可转移的（如下所示）;与特定于涡轮机的手动调谐相比，不需要控制器再训练的L2-GCN实际上节省了时间。至于内存使用，训练期间实际GPU内存使用的趋势与理论分析中的趋势并不完全一致（表1）。我们认为，在实施中更有可能：其他模型在TensorFlow上实现，我们在PyTorch上实现;一些模型可能的CPU内存使用情况尚不清楚。4.2. 消融研究可转让性。我们探讨了学习控制器的可转移性。表4中的结果表明，从较大数据集学习的控制器可以重用于较小数据集（具有相似的损失函数），从而节省搜索时间。历元配置。我们考虑了分层训练中不同时期配置对六个数据集性能的影响。表5显示了在不同层中不同epoch数下的训练将影响最终性能。对于逐层训练（L-GCN），我们为GCN的两层配置不同数量的epoch，如表5所示。对于带有学习优化的分层训练（L2-GCN），我们让RNN控制器从随机采样的子图中学习epoch配置作为训练数据，并报告自动学习的epoch编号。实验结果表明，L-GCN在每层训练更多的epoch后，除了Cora外，其他算法的性能都有所提高。此外，通过学习优化，L2-GCN中的RNN控制器自动学习具有微小性能损失但更少历元的历元配置图5比较了各种配置和各种数据集下分层训练的损失曲线。更深层的网络。我们评估培训的必要性-2135表3：与最新技术在性能、训练时间和GPU内存使用方面的比较（训练期间的GPU内存使用）。每行/数据集的最佳结果以红色突出显示。GraphSAGE [10]FastGCN [4]美国VRGCN [5]L-GCNL2-GCNF1（%）时间存储器F1（%）时间存储器F1（%）时间存储器F1（%）时间存储器F1（%）时间存储器科拉85.018s655M85.56.02s659M85.45.47s253M84.70.45s619米84.10.38s619米PubMed86.5483s6.75亿87.432s851M86.4118s375M86.82.93s619米85.81.50s631MPPI68.8402s849M---98.663s759M97.249s629米96.826s631MReddit93.4998s小行星4343 M92.6761s小行星442996.0201s小行星127194.244s621M94.034s635M亚马逊-670 K83.1小行星2153849M76.1548s小行星162192.7534s625M91.654s601M91.230s613M亚马逊-3 M------88.3小行星2165625M88.4203s601M88.4125s613M表4：学习的控制器的可转移性。表6：层数对最终性能的影响。科拉PubMedF1（%）火车搜索F1（%）火车搜索控制器Cora84.10.38s16s---控制器-PubMed84.30.36s0s85.81.50s125s控制器-Amazon-3 M84.80.43s0s86.32.43s0s表5：历元配置的影响。432100.50.40.30.20.102550科拉75100 125 150 175 200历元PPI1.00.80.60.40.2321050100PubMed150200250历元Reddit较深层网络可以具有更好的经验性能，这与定理6中所示的较深层网络的理论上的、非递减的网络容量一致。将逐层训练应用于N-GCN。我们还将分层训练应用于N-GCN [1]，这是最近的GCN扩展。它由多个尺度上的多个GCN组成，因此逐层训练被单独应用于每个GCN。表7中的结果显示，通过分层训练，N-GCN在相当的性能下明显更快。表7：在Cora上进行逐层训练的N-GCN。1.51.002004006008001000 1200历元亚马逊670K1.00.80.60255075100 125 150 175 200历元亚马逊3M0.50255075100 125 150 175 200历元0.40255075100 125 150 175 200历元5. 结论图5：手动epoch配置和学习优化配置的损失曲线使用逐层训练构建更深层次的网络。以前的尝试似乎表明训练更深的GCN是有用的[13]。然而，实验中使用的数据集还不够大，无法得出明确的结论。在这里，我们在3个大型数据集PPI、Reddit和Amazon-3 M上进行了实验，层数量和总训练时期单调增加（每个层都训练了相同数量的时期），如表6所示。实验结果表明，网络层数越多，分层训练的预测性能越好。与2层网络相比，4层L-GCN在PPI、Reddit和Amazon-3 M上的性能分别提高了4.0、0.7和0.8%当学习优化时，RNN控制器学习更有效的历元配置，同时仍然实现与手动设置历元配置相当的性能。因此，在分层训练中，我们已经表明，本文提出了一种新颖高效的GCN分层训练算法（L-GCN），该算法将训练过程中的特征聚合和特征转换分离，大大降低了训练的复杂度。此外，我们还分析了在图同构框架下合理化L-GCN能力的理论依据，给出了L-GCN可以像传统训练一样强大的充分条件，并证明了L-GCN随着网络层次的增加而变得越来越强大数值结果进一步支持了我们的理论分析：我们提出的算法L-GCN比最先进的算法要快得多，GPU内存的使用一致，不依赖于数据集的大小，同时保持相当的预测性能。最后，出于学习优化的动机，我们提出了L2-GCN，设计一个RNN控制器来为每层训练做出停止决策，并训练它学习做出决策，而不是手动配置训练时期。与L-GCN相比，L2-GCN通过学习控制器做出停止决策，平均进一步减少了一半的训练时间，性能损失很配置 1 配置 2 配置3 L2O配置 1 配置 2 配置3 L2O配置 1 配置 2 配置3 L2O配置 1 配置 2 配置3 L2O配置 1 配置 2 配置3 L2O配置 1 配置 2 配置3 L2O损失损失损失损失损失PPIReddit亚马逊-3 MF1（%）时代F1（%）时代F1（%）时代2层L-GCN93.780093.8 20088.4160L2-GCN94.175092.2 9088.01003层L-GCN97.2120094.230089.0240L2-GCN96.865094.021088.71204层L-GCN97.7160094.540089.2320L2-GCN97.3110094.325089.0170损失科拉PubMedPPIF1（%）时代F1（%）时代F1（%）时代L-GCN-配置183.260+6086.8100+10093.7400+400L-GCN-配置284.780+8086.3一百二十+一百二十94.1500+500L-GCN-配置383.0100+10086.4一百四十+一百四十94.9600+600L2-GCN84.175+7585.830+6094.1300+350Reddit亚马逊-670 K亚马逊-3 MF1（%）时代F1（%）时代F1（%）时代常规培训分层培训F1（%）时间F1（%）时间N-GCN83.6 62秒83.1 4秒2136引用[1] Sami Abu-El-Haija，Amol Kapoor，Bryan Perozzi，andJoonseok Lee. N-GCN：用于半监督节点分类的多尺度图卷积。arXiv预印本arXiv：1802.08888，2018。8[2] Marcin Andrychowicz ， Misha Denil ， Sergio Gomez ，Matthew W Hoffman ， David Pfau ， Tom Schaul ，Brendan Shillingford，and Nando De Freitas.通过梯度下降来学习。神经信息处理系统的进展，第3981-3989页，2016年。6[3] 曹岳，陈天龙，王长阳，杨慎。学习群体优化。神经信息处理系统的进展，第15018-15028页，2019年。6[4] 陈杰、马腾飞、曹啸。FastGCN：通过重要性采样使用图卷积网络进行快速arXiv预印本arXiv：1801.10247，2018。二三七八[5] 陈剑飞，朱军，宋乐。具有方差减少的图卷积网络arXiv预印本arXiv：1710.10568，2017。二三七八[6] YutianChen，MatthewWHoffman，SergioGo′mezColmenarejo ， MishaDenil ， TimothyPLillicrap，Matt Botvinick，and Nando de Freitas.学习通过梯度下降来学习而不需要梯度下降。第34届国际机器学习会议论文集-第70，第748-756页JMLR。org，2017.6[7] Wei-Lin Chiang，Xuanqing Liu，Si Si，Yang Li，SamyBengio，and Cho-Jui Hsieh.Cluster-gcn：一种用于训练深度和大型图卷积网络的有效算法。 arXiv预印本arXiv：1905.07953，2019。二、三、六[8] Xinyu Gong，Shiyu Chang，Yifan Jiang，and ZhangyangWang. AutoGAN：生成对抗网络的神经架构搜索。在IEEE国际计算机视觉会议论文集，第3224-3234页，2019年。7[9] Aditya Grover和Jure Leskovec。node2vec：可扩展的网络特征学习。第22届ACM SIGKDD国际知识发现和数据挖掘会议论文集，第855-864页。ACM，2016。1[10] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。神经信息处理系统，第1024-1034页，2017年一二三六七八[11] 哈罗德·霍特林将一组统计变量分析成主成分。教育心理学，24（6）：417，1933。6[12] Ang

下载后可阅读完整内容，剩余1页未读，立即下载