图形半监督学习对比IG的研究

51 浏览量更新于2024-02-03 收藏 726KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文关于图的半监督学习设置的再思考Ziang LiXiang， Ming DingXiang， Weikai Li， Zihan Wang， Ziyu Zeng， YukuoCen， Jie Tang清华大学计算机科学与技术系{li-za19，dm18，liwk19，zhwang19，zengzy19，cyk20} @mails.tsinghua.edu.cnjietang@tsinghua.edu.cn摘要我们认为，目前的图上半监督学习的设置可能会导致不公平的比较，由于其潜在的风险，过度调整模型的超参数。在本文中，我们强调了调整超参数的重要影响为了探索过度调整超参数的限制，我们提出了ValidUtil，一种通过一组额外的超参数来充分利用验证集中的标签信息的方法。使用ValidUtil，即使是GCN也可以在Cora上轻松获得85.8%的高准确率。为了避免过度调整，我们将训练集和验证集合并，并构建一个i.i.d.。图基准（IGB）由4个数据集组成。每个数据集包含100个i.i.d. 图形采样自一个大的图表，以减少评估的差异。我们的实验表明，IGB是一个更稳定的基准比以前的数据集上的图的半监督学习。11介绍图神经网络（ GNNs ） [Goriet al. ， 2005; KipfandWelling，2016]近年来已成为机器学习中的一个热门领域。在广为人知的GNN模型中[Kipfand Welling，2016;Hamiltonet al. ， 2017; Velickovicet al. ， 2018; Fengetal. ，2020; Chen等人#20200;，哪一个是最好的？大多数GNN论文证明了它们在遵循GCN的图上的半监督学习任务上的性能，其中广泛使用的基准包括Cora，CiteSeer和PubMed [Senet al. ，2008年]。该基准具有竞争力，但不稳定。例如，GCNII的准确性[Chenet al. ，2020]（SOTA方法）对Cora的影响为85。5%，辍学率为0. 6，但它会下降到79。0%，如果我们稍微增加辍学率到0。七十五。在* *表示平等贡献。1我们的代码和数据发布于https://github.com/THUDM/IGB/.GCN的准确率为81.5%。2以前的研究人员将这种不稳定性归因于图的小尺寸，并提出了更大的基准，例如，OGB [Huet al. ，2020]和HGB [Lvet al. ，2021]。然而，据我们所知，很少有作品挑战图上的半监督学习的设置性能不稳定的类似困境也存在于少数自然语言理解中，Zheng等人[2021]最近发现模型通过超参数过度拟合验证集。由于验证集中的标签甚至比训练集中的标签更多，因此超参数的搜索值变得至关重要。受这一发现的启发，我们假设相同的原因也可以在某种程度上解释图上半监督学习的不稳定性，因为验证集的大小通常也比训练集的大小大得多（例如，140个训练样本与Cora中的500个验证样本）[Yanget al. ，2016]。与此同时，近年来的GNN呈现出拥有更多超参数的趋势。虽然GCN的超参数很少，但GAT需要验证集的准确性来确定其结构（例如，注意力头部的数量和剩余连接的存在）。PPNP [Klicperaet al. ，2019a]进一步要求全局扩散半径和传送概率α. GDC [Klicperaet al. ，2019 b]在验证集上搜索扩散半径和稀疏化阈值作为超参数，这在ADC中得到了改进[Zhaoet al. ，2021]，通过用基于梯度的优化来替换网格搜索以用于逐层和逐通道扩散半径。GNN的这种这个基准导致了不公平的比较，有利于具有更大尺寸的超参数的模型。在OGB中仍然存在相同的现象[Huet al. ，2020]，即使其验证集的百分比比Cora小得多。参与者[Wanget al. ，2021]发现直接将验证集合并到训练集中可以显着提高性能，然后根据最新的OGB规则仅允许在collab数据集上进行合并。此外，&CS [Huanget al. ，2020年]-2可以使用CogDL包再现实验[Cenet al. ，2021]。arXiv：2205.14403v1 [cs.LG] 2022年5月+v：mala2277获取更多论文--∼||||−在标签传播的过程中，对验证集中的标签进行了合并，取得了很大的改进。所有这些都表明，简单地减少验证集比率或增加图的大小不是一个令人满意的这些发现促使我们重新思考图上半监督学习的设置和验证集的含义。一方面，引入验证集的最初动机是优化超参数，这些超参数不能通过通常的方法直接优化，例如，随机梯度下降算法。另一方面，在现实世界的应用中，我们只有两种样本，标记和未标记。我们必须分离出一部分标记数据作为验证集来搜索最佳超参数。这意味着拥有一个大的超参数集是一个缺点而不是优点，因为它们使用大量的标记数据作为验证集，并导致提供真实世界信息的较小训练集。然而，在当前设置下，额外且信息丰富的验证集鼓励模型为自己配备更多的超参数以充分利用验证集中的标签，这偏离了真实世界的场景。在这项工作中，我们将“使用超参数来拟合验证标签”的问题命名目前的工作。本文分析了验证集大小的影响，提出了一种使任意GNN充分利用验证集中标签信息的方法--ValidUtilValidUtil探索了过度调优超参数的极限。为了避免对验证集的利用进行无意义的优化，并提高GNN基准的稳定性图基准测试（IGB），具有以下两个改进：• 统一训练集和验证集。在IGB中，图没有预定义的训练集和验证集的比例，而只有标记数据和未标记数据。不同的模型可以根据超参数的数量自由地将标记数据划分为训练集和通过这种方式，讨论了超参数的过调谐• 多重身份识别。图和不同的域。我们有4个数据集，包括合著网络，社交网络，知识图谱和照片共享网络。在每个数据集中，我们使用修改后的Random-Walk方法对100个子图进行采样。采样图是近似独立同分布的，而每个图都给出了GNN性能的可靠评估。因此，我们可以通过对它们的性能进行平均来获得更稳定的度量2图上半监督学习的过调风险2.1图的半监督学习定义. 给定一个无向图G=（V，E），其中节点集V包含n个节点v1，.，v n，E是边集。每个节点vi与特征向量xi和类别标签yi相关联。我们将节点标签的集合表示为Y。在图上的半监督节点分类任务中（直推），只有一小部分节点标签YLY是给定，其余标签集YU=YYL 需要预测。通常是YLU。在这里，我们简要介绍了三个广泛使用的引文网络（即，Cora，CiteSeer，PubMed）用于本节中的分析。在这些数据集中，节点特征是文档的词袋表示每个数据集都是基于文档之间的引用链接构建的连接每个数据集使用每个类20个训练样本作为半监督设置中的标记表1显示了三个数据集的统计数据表1：Cora / CiteSeer / PubMed数据集的统计数据。数据集节点边分割类特征科拉2,7085,429 140 / 500 /1 00071,433CiteSeer3,327 4,732 120 / 500 /1，00063,703PubMed 19,717 44,33860 / 500 /1 00035002.2在本节中，我们将研究当前GNNs中的过调谐现象。如上所述，超参数充当利用验证集中的标签的工具。因此，模型我们选取了GCN、GAT、APPNP、GDC-GCN和ADC五种具有代表性的GNN，并在Cora上展示了它们在不同验证集大小下的准确性超参数的搜索范围包括学习率、隐藏大小、提前停止迭代、层数、丢弃率、APPNP和GDC的扩散半径、GDC的稀疏化阈值等。有关搜索范围的详细信息，请参见发布的代码。我们在公共分裂上运行实验[Yanget al. ，2016]，验证集的大小从10 通过隐藏一部分标签，将其增加到500。对于每个验证大小，我们在使用最佳搜索超参数训练模型后报告测试集的准确性。结果如图1所示。图1显示，GNN模型有一个明显的趋势，即验证集越大，性能通常越好由于验证集只能通过超参数影响模型，因此我们可以得出结论，模型在超参数的帮助下受益于验证标签。精度提高达1%如果我们增加3%验证集大小从100到500，这是很重要的这足以表明，过度调整已经存在。2.3ValidUtil：探索过度调整的极限虽然上面的分析表明过度调整会影响GNN模型的性能，但我们想知道在多大程度上会影响GNN模型的性能影响力可以实现。如果验证标签的重要性远小于模型结构的重要性，那么多的基准仍然是GNN基准的适当选择如果没有，我们应该重新思考和重新设计图上半监督学习的评估管道和数据集充分利用验证标签的最直观方法是将验证集合并到训练集中。但是，这个手术是公认无效的+v：mala2277获取更多论文--∪'--∪∪∪算法1ValidUtil输入图G，其中节点在训练/验证/测试集中。我们将它们的标签表示为YL/Yvalid/Ytest。有K级。GNN模型在测试集上的输出1：用 Y L 训练GNN模型M。2：预测M验证集的标签为YP=y1′，.， yt′。3：添加t个额外的超参数YT4：初始化Y T= Y P。5：对于i从1到t，6：对于从1到k的l，={y=1，.， yt}。7：y=l.图1：Cora上验证集大小不同的模型的准确性。测试准确度是使用不同随机种子的20次运行的平均值。8：用Y LY T训练GNNM。9：Accl=验证集上M的准确度。10：结束11：l max= arg max Acc l.l ∈{1，.，k}12：如果Acc_l_max> Acc_l_y，则我十三日：yi=lmax14：其他并且由于其是一种数据泄漏而被禁止在这十五：yi=yi′在第二节中，我们提出了ValidUtil，一种通过搜索超参数来模拟这种操作的技术。ValidUtil并不是一种真正的改进GNN的方法，而更像是一种ValidUtil的完整流水线在算法1中定义如下：1. 添加超参数。对于任何给定的模型，我们添加额外的r型参数YT=y∈1，.，y=t，指的是这些超参数影响模型训练的方式是，它们充当对应的验证节点;也就是说，模型将被训练16：如果结束17：结束18：用Y L Y T训练新的GNN M 。19：返回测试集上M的准确度。报告测试结果。有效性分析。ValidUtil有效的关键原因是，在大多数情况下，我们可以在步骤3中获得验证节点vi的真实标签yi，这使得最终的训练等价于训练集和验证集的并集上的训练。如果模型过度参数化，在扩充训练集YLYT上。并且由于强大到足以过度拟合预测的标签，如果给模型的验证集的标签不是地面实况标签，则这不是数据泄漏过程。真实标签yi经过充分培训vi3 .第三章。在大多数情况下，2. 交替优化超参数。最常用的超参数搜索方法是网格搜索，但当超参数较多时，网格搜索耗时较长。因此，我们交替地搜索每个y的最佳值。在开始时，每个y_i是初始化为GNN的预测标签yi′，当且仅当y=yi时，达到最高精度y。We我发现大多数GNN模型都足够强大，Cora、Citeseer和PubMed上的伪标签。表2：Cora、Citeseer和PubMed上ValidUtil和sota方法的比较。ValidUtil. 我们将一个接一个地寻找和修复最好的youkii按照下一段中描述的方法。在搜索最佳伪标签时，我们将丢弃率设置为03. 搜索每个验证节点的最佳伪标签。为了寻找y_i的最佳值，我们在保持其它型参数不变的情况下，列举了y_i的所有可能值。对于每个可能的值，我们使用标签Y L训练GNN模型YT并选择根据验证准确度的最佳值Cora CiteseerPubMedGCNII（sota Cora）85.573.4 80.3我们演示了ValidUtil plus 3的性能集这是搜索超-参数.4. 基于最佳伪标签训练最终模型在伪标签确定之后，我们可以在YLYT上进行训练，并使用普通的网格搜索来确定其他超参数，包括辍学率，3一些弱GNN，例如CiteSeer上的vanilla GCN和GAT，不能很好地区分强连通图中的节点，因此不能过拟合给定的标签。我们为GCN的每个节点增加一个额外的自循环来解决这个问题.这个技巧已经在PyG中实现了[Fey和Lenssen，2019]，通过为GCN传递improved=True。GRAND（sotaCiteseer）85.475.482.7SAIL（sota PubMed）84.674.283.8GCN + ValidUtil85.876.083.8MixHop + ValidUtil84.975.584.2PPNP + ValidUtil85.877.384.7+v：mala2277获取更多论文∼图2：ValidUtil plus GCN、GAT、MixHop和PPNP在Cora、Citeseer和PubMed上的测试准确度水平轴表示来自ValidUtil的新超参数的数量，其中0等效于没有ValidUtil的原始GNNGNN模型，GCN，PPNP和MixHop，如图2所示。我们发现，即使只有20 - 60超参数从ValidUtil可以带来一些模型的性能飞跃当我们为验证集中的所有500个节点添加超参数时，PPNP可以实现比表2中的sota方法。备注。虽然ValidUtil纯粹是通过使用验证标签来工作的，但它在当前设置下是完全有效的如果我们将GNN+ValidUtil视为黑盒模型，那么训练过程是非常正常的。ValidUtil实际上利用标签的效率很低，因为每个超参数只能学习一个节点的信息当前设置不能防止验证标签在超参数调整期间“泄漏”。我们相信存在一些更有效的方法来定义有影响力的超参数。这些超参数可以与特征或模型结构纠缠在一起，它们可以从多个验证标签中获取信息根据图1，这样的影响性超参数可能已经存在于某些模型中，并且不容易检测。因此，迫切需要构建一个新的用于图上半监督学习的基准，以避免过度调整并公平和鲁棒地比较GNN模型。3IGB：一个独立的同分布图基准测试器3.1概述我们的新基准有两个目标：避免过度调整和更加健壮。为了避免过度调整，我们提出了一个新的设置，其中只有两组节点，标记和未标记。模型可以以任何方式使用标记集来训练最佳模型并评估其在未标记（测试）集上的性能。如果我们需要搜索超参数，我们可以分离出一部分标记节点作为验证集。由于验证标签已经暴露，因此消除了过度调整这种设置更接近真实世界的场景，在第3.2节中创建验证集。为了构建一个更鲁棒的基准测试，我们期望模型机器学习中减少评估结果方差的最常见方法之一是重复测试并报告平均性能。为了实现这一点，我们希望在多个i.i.d图上测试模型但是，我们怎么能得到多个身份证。Cora样的图来评估结果？如果我们考虑一下Cora和Citeseer等引文网络的构建，我们会发现论文是由蜘蛛从互联网上爬下来的，这意味着这些网络可以被看作是从大型现实世界引文网络中采样的。类似的假设已经在以前的作品中使用[Yangetal. ，2020]，现实世界图数据是从大的底层图中采样的。去获取身份证。图，我们可以从一个建立的图中“再次”采样通过适当的采样策略，我们可以构建一组独立同分布的。图表。有关采样的详细信息，请参见第3.4节。3.2评估管道为了解决过调优问题，我们必须更新图上半监督学习任务的管道。在现实世界的场景中，我们只将图中的节点分为两组，标记的和未标记的（在IGB中默认比例为1：4）。该模型可以以任何方式使用标记集来训练最佳模型，并评估其在未标记（测试）集上的性能。推荐的方法如下：1. 将标记集分为训练集和验证集。42. 在第一步的训练集和验证集上使用网格搜索找到最佳超参数。3. 在完整标记的节点上使用最佳超参数训练模型。4. 在未标记（测试）集上测试第三步中模型的性能可在不同尺寸超参数。为了轻松地将GNN迁移到这个新设置，我们将介绍一个简单而强大的方法，4最佳比例可能因型号而异。在实践中，我们发现1：1是大多数模型的合适比例。+v：mala2277获取更多论文± ± ±±Du0，否则，5. 在数据集中的每个图上重复上述步骤，并报告平均准确度。前两步的目的是找到GNN模型的最佳超参数我们相信，这种方法适用于许多GNN模型，以获得令人满意的超参数。如果有其他合理的方法来决定最好的超参数与标签集，他们也将被鼓励取代前两个步骤，在这个管道。通过这种方式，我们可以在第三步的后面直接公开验证集中的所有标签信息，从而避免过度调优。3.3数据集IGB由四个数据集组成：AMiner [Tanget al. ，2008]，Facebook [Rozemberczkiet al. ， 2019] ， NELL [Yangetal. ，2016]和Flickr [Zenget al. ，2019]。每个数据集包含100个无向连接图，根据第3.4节中的随机游走方法从原始大型图中采样。我们还报告了平均节点重叠率，即一对样本图的公共节点与节点总大小的比率。覆盖率被定义为100个采样图的并集与原始大图的比率。较低的重叠率和较高的覆盖率是优选的。数据集的统计报告见表3。表3：IGB中数据集的统计。AMiner Facebook NELL Flickr平均节点4，485263，475 713,540 68 4，45231边缘5，000 5，000 5，000 5，000特点3，883 128 10，000 500类别8 4 164 7原始大小236，017 22，470 63，910 89，250重叠率0.083 0.339 0.146 0.119覆盖率0.550 0.958 0.956 0.969实体描述。为了提高效率，我们只保留最频繁的10，000个单词的特征。Flickr。Flickr数据集是一个上传照片的图表Flickr网站。每个节点代表一张照片，边意味着两张照片共享一些共同的属性，例如来自同一位置或同一图库。500-维度节点特征是照片的词袋（bag-of-words）表示。这些标签是Zeng等人从81个原始标签中开发的7类标签之一。3.4采样算法使子图的节点标签分布类似于原始图的节点标签分布的最简单方法然而，它并没有达到我们的期望，因为它生成不连通的子图。为了获得接近i.i.d.对于我们的基准子图，我们必须精心设计抽样策略和原则。具体来说，我们期望采样策略具有以下属性：1. 采样子图是连通图。2. 子图的节点标签的分布3. 子图的边类别（边类别由其两个端点的标号的组合来定义）的分布第一个性质可以很好地满足随机游走（RW）算法。当对一个不规则图G=（V，E）执行RW时，我们从节点u=n0开始采样，并且可以根据转换可能性选择以下节点：.一、如果（u，v）∈E，AMiner AMiner 数据集是来自 AMiner 系统的合著图[Tanget al. ，2008年]。节点表示作者，而边表示至少一篇论文的合著。节点特征指示作者拥有出版物的场所具体而言，每个特征具有3，883个维度，并且每个维度为0或1，表示作者是否在相应场所有出版物。节点标签代表作者的主要研究领域。Facebook. Facebook数据集是来自论文[Rozemberczkietal. ，2019]。这是Facebook官方页面的图表。节点是官方的脸书页面，而边缘是页面之间的相互喜欢。从页面描述中提取节点特征节点标签是Face-book定义的以下4个类别之一：政治家，政府组织，电视节目和公司。内尔。NELL数据集是从NELL知识图生成的知识图数据集[Carlsonet al. ，2010]。节点表示实体，边表示两个实体之间的关系。每个节点最初都有一个61,278维的特征，一个二进制的词袋表示，其中Pu，v是从节点u到v的转移可能性，并且du是节点u的度。为了保证第二和第三个性质，我们放弃了类似于抽样的方法.在这里，我们引入Kull-back为了得到100个节点标签添加阈值之前和之后的结果的比较示于表4中。表4：抽样结果的KL偏差AMiner Facebook NELL Flickr Node KL 0.0186± 0.01070.1306±0.04270.4393 ±0.10080.0060 ±0.0025边缘KL 0.0189± 0.01490.0284± 0.01210.2796 ±0.06780.0046 ±0.0015公司简介节点KL0.0123± 0.00240.0326± 0.00640.3184 ±0.02430.0041 ±0.0006边缘KL 0.0062± 0.00080.0243± 0.01200.2068 ±0.01790.0021 ±0.00033.5基准测试结果我们在IGB上评估了7个有代表性的GNN： Grand[Feng等人，2020]、GCNII [Chenet al. ，2020]，APPNP[KlicperaPu，v=+v：mala2277获取更多论文∈/表5：GNN对IGB的评估结果。我们称mj>mk当且仅当mj的秩高于mjAMiner Facebook NELL FlickrAvgBid在S1上。对于另一个序列Si，i1，如果mj>mk，但mj在Si上的秩低于mk，我们称（j，k）为逆大82.5± 0.8 88.9± 1.0 84.4± 1.1 44.3± 0.8 75.0GCN 76.5± 1.1 87.9± 1.0 93.9± 0.7 41.9± 1.3 75.1GAT 78.8± 1.0 88.3± 1.2 91.1± 1.2 43.1± 1.3 75.3GraphSAGE 81.6± 0.8 87.2± 1.194.9±0.643.4± 0.9 76.8APPNP 87.0± 1.0 88.0± 1.3 93.0± 0.8 44.6± 0.9 78.2混合跳86.1± 1.1 89.1± 0.9 94.7± 0.7 43.5± 1.2 78.4GCNII88.4±0.6 89.5±0.991.5± 1.044.7±0.8 78.5等人， 2019a] ， GAT [Velickovicet al. ， 2018] ， GCN[KipfandWelling，2016]，GraphSAGE [Hamiltonet al. ，2017]和MixHop [Abu-El-Haijaet al. ，2019]。结果示于表5中。为了评估GNN模型，我们首先为每个超参数定义一个搜索范围经过精心选择，以包括所有数据集上的最佳值。对于每个模型，其原始论文中的最佳超参数和CogDL [Cenet al. 2021]通常包括在搜索范围内。之后，我们使用我们的IGB基准测试来评估3.2节中介绍的设置下的每个模型。3.6IGB的稳定性我们从两个方面验证了IGB的稳定性首先，我们在不同的图上评估模型时验证了它的稳定性，因为每个IGB数据集包含100个接近i.i.d.图表。具体地说，我们比较了100 AMiner的子图（IGB风格）和100 Cora的随机数据分裂（Cora风格）的精度的方差图3所示的结果强烈表明，即使每个AMiner图使用随机数据分割，IGB的评估也比Cora风格更稳定。图3：GNN在AMiner和Cora上的准确性。蓝色区域是测试精度的波动范围。结果基于AMiner的子图或Cora的随机分裂上的100次运行其次，我们重点研究了IGB在评估具有不同随机种子的模型时的稳定性。在稳定的基准测试中，当改变随机种子时，不同模型的等级不应该轻易改变。为了验证这一点，我们使用排名的具体来说，我们使用十个不同的随机种子来评估七个模型，提供十个排序序列 Si（i[1，10]）。每排序序列，我们根据模型的准确性对其进行排序第一种子的排名顺序被用作参考序列S1={m1，m2. 其中m i是GNN模型。[5]“反转”的定义对在Si. “Inversion number” is the number of inversion pairsin all sequences 因此，高的“转化数”表明用不同种子进行评估的高度不稳定性。结果报告于表6中。 IGB具有比Cora、CiteSeer和PubMed显著更小的反演数，证明了其强大的稳定性。表6：使用10个不同随机种子的排序序列的反转数。反转数越小，稳定性越好。科拉CiteSeerPubMedAMinerFacebookNellFlickr67 45 107 0 9 0 54讨论限制超参数的数量是解决过调问题的好方法吗在第2节中，我们说明了过度调整的力量，其中的改进基本上与超参数的数量相关。然而，如果我们为超参数的数量设置一个硬限制，那么由于这个限制，具有许多超参数的复杂优化器，例如Adam[Kingma和Ba，2014]，将不会受到鼓励还将鼓励模型研究更有影响力的超参数，以在有限的超参数预算下利用验证集中的标签。因此，最根本的解决方案是将评估设置更改为IGB。什么是最好的GNN？在IGB的实验结果中，GCNII表现最好.然而，性能在不同的数据集中有所不同例如，Citeseer上的sota方法GRAND在NELL上表现不佳，因此平均得分较低，因为NELL是一个知识图，其分布与引文网络的分布有很大不同一个GNN是否适合所有类型的图，或者我们是否需要为不同类别的图设计不同的GNN？5结论在本文中，我们重新审视了图上的半监督学习的设置，识别过调问题，并通过ValidUtil的实验证明其重要性。为了解决这个问题，我们提出了一个新的基准，IGB，具有更合理的评估管道。为了进一步提高评估的稳定性，我们提出了一种基于RW的采样算法。在新的基准上对GNN进行了评估，结果表明性能排名稳定我们希望IGB可以通过稳定GNN未来的发展路径来使图学习社区受益+v：mala2277获取更多论文引用[Abu-El-Haija et al. Sami Abu-El-Haija，Bryan Per- ozzi，Amol Kapoor，Hrayr Harutyunyan，Nazanin Alipour-fard ， Kristina Lerman ， Greg Ver Steeg ， and AramGal- styan.Mixhop：通过稀疏邻域混合的高阶图卷积架构。2019年，在ICML中。[Carlson et al. Andrew Carlson，Justin Betteridge，BryanKisiel ， Burr Settles ， Estevam R. Hruschka 和 TomMichael Mitchell。一个无止境的语言学习的建筑。在AAAI，2010年。[Cen et al. Yukuo Cen，Zhenyu Hou，Yan Wang，QibinChen，Yizhen Luo，Xingcheng Yao，Aohan Zeng，Shiguang Guo ， Peng Zhang ， Guohao Dai ， et al.Cogdl：An extensive toolkit for deep learning on graphs.arXiv预印本arXiv：2103.00959，2021。[Chen et al. 陈明，魏哲伟，黄增峰，丁柏林，李亚良。简单和深度图卷积网络。2020年，《国际反洗钱法》[Feng et al. 冯文正，张杰，董玉晓，韩宇，栾焕波，徐谦，杨强，唐杰。图上半监督学习的图随机神经网络。2020年，在NeurIPS[Fey和Lenssen，2019] Matthias Fey和Jan E. Lenssen.使用PyTorch Geomet- ric进行快速图形表示学习。在ICLR关于图和流形的表示学习研讨会上，2019年。[Gori et al. Marco Gori，Gabriele Monfardini，and FrancoScarselli.一种新的图域学习模型。在IJCNN，第2卷，第729-734页。IEEE，2005年。[Hamilton et al. ， 2017] William L. Hamilton ， ZhitaoYing，and Jure Leskovec.大图上的归纳表示学习。在NeurIPS，2017年。[Hu et al. Weihua Hu，Matthias Fey，Marinka Zitnik，Yuxiao Dong ， Hongyu Ren ， Bowen Liu ， MicheleCatasta，and Jure Leskovec.Open graph benchmark：用于图上机器学习的数据集ArXiv，abs/2005.00687，2020。[Huang et al. 2020] Qian Huang ， Horace He ， AbhaySingh，Ser-Nam Lim，and Austin R Benson.结合标签传播和简单模型，性能优于图神经网络。arXiv预印本arXiv：2010.13993，2020。[Kingma and Ba，2014] Diederik P Kingma and Jimmy Ba.Adam ：随机最佳化的方法。arXiv预印本 arXiv：1412.6980，2014年。[Kipf and Welling ， 2016] Thomas N Kipf and MaxWelling.图卷积网络的半监督分类。 arXiv 预印本arXiv：1609.02907，2016。[Klicpera et al. Johannes Klicpera ， Aleksandar Bo-jch evski，andStephanGünnemann. 预测然后传播：图神经网络满足个性化网页排名。2019年，在ICLR[Klicpera et al. ， 2019 b] Johannes Klicpera ， StefanWeißen-be r ge r，andStephanGünnemann.差异融合改进了图学习。2019年在NeurIPS[Lv et al. 吕青松，丁明，刘强，陈玉喜昂，冯文正，何思明，周昌，姜建国，董玉晓，唐杰。我们真的有很大进展吗重新审视、基准测试和改进异构图神经网络。在KDD，2021。[Rozemberczkietal.BenedekRozemberczki ， CarlAllen，and Rik Sarkar.多尺度属性节点嵌入。CoRR，abs/1909.13021，2019。[Sen et al. Prithviraj Sen ， Galileo Namata ， MustafaBilgic ， Lise Getoor ， Brian Gallagher ， and TinaEliassi-Rad.网络数据的集体分类。AI Mag. ，29：93[Tang et al. ，2008] Jie Tang，Jing Zhang，Limin Yao，Juan-Zi Li，Li Zhang，and Zhong Su.Arnetminer：学术社交网络的提取与挖掘。InKDD，2008.[Velickovic et al. Petar Velickovic ， Guillem Cucurull ，Arantxa Casanova，Adriana Romero，Pietro图注意力网络。2018年，在ICLR[Wang et al. Zhitao Wang ， Yong Zhou ， Litao Hong ，Yuanhang Zou，and Hanjing Su.用于神经链接预测的成对学习。arXiv预印本arXiv：2112.02936，2021。[Yang et al. Zhilin Yang ， William Cohen ， and RuslanSalakhudinov. 用图嵌入重新审视半监督学习。InICML，2016.[Yang et al. Zhen Yang ， Ming Ding ， Chang Zhou ，Hongxia Yang，Jingren Zhou，and Jie Tang.理解图表示学习中的负采样。在KDD 2020中，第1666-1676页[Zeng et al. 曾汉青，周洪宽， Ajitesh Srivastava ，Rajgopal Kannan和Viktor K. Prasanna Graphsaint：基于图形采样的归纳学习方法。 CoRR ，abs/1907.04931，2019。[Zhao et al. Jialin Zhao ， Yuxiao Dong ， Ming Ding ，Evgeny Kharlamov，and Jie Tang.图神经网络中的自适应扩散。在NeurIPS，2021年。[Zheng et al. Yanan Zheng ， Jing Zhou ， Yujie Qian ，Ming Ding ， Jian Li ， Ruslan Salakhutdinov ， JieTang，Se- bastian Ruder，and Zhilin Yang. Fewnlu：对少数自然语言理解的最先进方法进行基准测试。arXiv预印本arXiv：2109.12742，2021。

下载后可阅读完整内容，剩余1页未读，立即下载