大规模图数据增广的深度图神经网络优化

154 浏览量更新于2023-10-25 收藏 624KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

60大规模图的鲁棒优化数据增广孔克志1，李国豪2，丁木聪1，吴祖轩1，陈珠1，Bernard Ghanem2，Gavin Taylor3，TomGoldstein11马里兰大学帕克分校{kong，mcding，zxwu，chenzhu，tomg}@ cs.umd.edu阿卜杜拉国王科技大学King Abdullah University ofScience and Technology{guohao.li，bernard.ghanem}@ kaust.edu.sa3美国海军学院taylor@usna.edu摘要数据增强通过扩大训练集来帮助神经网络更好地泛化，但如何有效地增强图数据以提高GNN（图神经网络）的性能仍然是一个悬而未决的问题。虽然大多数现有的图正则化集中在操纵图的拓扑结构，通过添加/删除边缘，我们提供了一种方法来增加节点功能，以获得更好的性能。我们提出了FLAG（Free Large-scaleAdversarial Augmentation on Graphs），它在训练过程中使用基于梯度的对抗性扰动迭代地增强节点特征。通过使模型对输入数据中的小波动保持不变，我们的方法可以帮助模型推广到分布外的样本，并在测试时提高模型性能。FLAG是一种用于图数据的通用方法FLAG也是高度灵活和可扩展的，并且可与任意GNN骨干和大规模数据集一起部署。我们通过大量的实验和消融研究证明了我们的方法的有效性和稳定性。我们还提供了直观的观察，更深入地了解我们的方法。我们在https上开源了我们的实现//github.com/devnkong/FLAG网站。1. 介绍图神经网络（GNN）已经成为学习和分析图表示的强大架构。图卷积网络（GCN）[21]及其变体已被应用于广泛的任务，包括视觉识别[33]，元学习[11]，社会分析[23，29]和推荐系统[41]。然而，在大规模数据集上训练GNN通常会受到来自过拟合，而现实的图形数据集通常涉及大量的分布外测试节点[17]，这对预测问题提出了重大挑战。在深度神经网络中对抗过拟合的一个有前途的解决方案是数据增强[22]，这在计算机视觉任务中很常见。数据扩充将标签保留变换应用于输入，例如图像的平移和反射。因此，数据增强有效地扩大了训练集，同时产生的计算开销可以忽略不计。然而，如何有效地将数据增强的概念推广到GNN仍然是一个悬而未决的问题。图像上的转换严重依赖于图像结构[3]，并且设计低成本的转换，以保留非视觉任务（如自然语言处理[38]和图形学习）的语义意义，这是一项挑战。一般来说，用于机器学习的图数据具有图结构（或边特征）和节点特征。在有限的情况下，数据扩充可以在图表上完成，它通常通过添加/删除边来专门关注图结构[13，14，16，30，37，42]。与此同时，对抗性数据增强（ adversarial dataaugmentation）在输入特征空间中应用小扰动以最大限度地改变模型输出，已知它可以提高神经网络的鲁棒性，并提高对对抗性选择输入的抵抗力[15，26]。尽管人们普遍认为对抗性训练会损害标准泛化并导致更差的准确性[1，35]，但最近越来越多的注意力已经转移到使用对抗性扰动来增强数据集并最终减轻过拟合。例如，[36]和[34]表明对抗性数据增强是一种数据依赖的正则化，可以帮助泛化到分布外的样本，其有效性已在计算机视觉[40]，语言理解[19，27，44]和视觉问题回答[10]等领域得到验证。尽管对抗性扩张取得了成功，61∈E∈ VGG V E ∈ Vv·vvθvuvϕvvVV·0.4500.4250.4000.3750.3500.3250.300节点分类0.700.650.600.550.50链接预测0.100.090.080.070.060.05图分类0 20 40 60 80100时代0 50 100 150200时代0 5 10 15 20 25时代图1. FLAG在所有三个任务上的泛化性能。左：ogbn产品上以GAT为基线的节点分类;中：ogbl-ddi上以hits@20为度量（越高越好）和GraphSAGE为基线的链接预测;右：ogbg-molhiv上以GIN为基线的图分类。绘制的线是通过平滑原始线（浅线）获得的，其中平滑权重分别为0.75、0.75和0.5。由于GNN在语言和视觉方面的局限性，目前尚不清楚如何使用对抗增强有效地提高GNN现在的工作。我们提出了FLAG，FreeLarge-scaleAdversarial Augmentation onG graphs，以解决过拟合问题。虽然现有文献集中于修改图结构以增强数据集，但FLAG通过将对抗扰动（由基于梯度的鲁棒优化算法生成）添加到图结构不变的输入节点特征来FLAG利用该方法还利用多尺度对抗增强，使模型在输入特征空间中完全泛化。我们在 Open Graph Benchmark（OGB）[17]上验证了我们方法的有效性，OGB是一个用于节点，链接和图形属性预测任务的大规模，现实和多样化的图形数据集的集合我们通过将FLAG应用于竞争性GNN基线，在OGB数据集上进行了广泛的实验，并表明FLAG在大多数情况下带来了非平凡的改进。例如，FLAG通过以下方式提高GAT对ogbn产品的测试精度：跨节点、链接和图形属性预测任务的大规模数据集的问题研究。我们验证了FLAG优于现有的对抗性增强方法。• 分析：我们提供了观察和分析来支持我们的猜想，即输入特征的离散与连续分布差异是对抗性增强对模型准确性产生不同影响（有益与有害）的关键。2. 前期工作及相关工作图神经网络（GNN ）。我们将一个图表示为（），其中初始节点特征xv为v，边特征euv为（u，v）。GNN构建在图结构上，以学习每个节点v的表示向量hv和整个图的向量hG遵循[18]，形式上是消息传递的第k次迭代，或者GNN前向路径的第k层被定义为：ms g （ k ） =AGGREG A TE （ k ），.，h （ k−1 ），h （ k−1 ），euv，，<$u∈N（v）<$，h（k）=COMBINE（k），h（k−1），msg（k），，，（一）绝对值为2.31%。FLAG很简单（易于在PyTorch中用十几行代码实现），通用（无模型和无任务），高效（能够以易处理甚至没有额外成本带来显着改进我们其中h（k）是节点v在第k层的嵌入，euv是节点u和v之间的边的特征向量，N（v）是节点v的邻居集，h（0）= x. AGGREGATE（）并将（主要贡献概述如下：网络.·）函数由神经网络参数化• 方法：据我们所知，我们的工作是第一个通用的基于特征的图数据的数据扩充方法，这是对其他正则化器（例如，dropout）和拓扑增强。该新方法结合了• 实验：我们通过大量的实验和abla证明了我们的方法为了获得整个图hG的表示，置换不变的READOUT（）函数将来自最终迭代K的节点特征池化为：hG=读出，h（K）|v∈V，n，（2）现有的图正则化器主要集中在通过修改边来增强图结构[2，16，30]。GraphAT[8]，BVAT [5]和LAT [20]是三个半监督的基线+标志基线+标志基线+标志验证损失验证命中率@20验证损失62节点分类任务的方法GraphAT促进63D·D通过加强扰动节点及其邻居的预测之间的相似性来实现局部平滑。BVAT提出了两种图VAT方案来提高GCN的输出平滑度; LAT实际上扰动了GCN分类器的第一层嵌入这些方法的使用场景此外，这些工作所使用的VAT [28]的公式同时涉及监督的清洁和对抗性稳健损失。实际上，这将消耗至少两倍的GPU内存作为基线，使它们无法扩展到300025002000150010005000FLAGPGD0.005 0.010 0.015 0.020 0.025 0.030 0.035l2增强大规模数据集。总的来说，到目前为止，还没有工作考虑了通用的基于特征的大规模图形的数据增强。3. 该方法在这项工作中，我们研究了如何通过基于特征的增强来有效地提高GNN的泛化能力。图节点特征通常构造为离散嵌入，例如二进制词袋向量或分类变量。因此，标准的手工制作的增强，如在计算机视觉中使用的翻转和裁剪变换，不适用于图形节点特征。通过寻找和消除导致分类器失败的小扰动，人们可能希望对抗性训练可以提高标准准确率[15，28，35]。人们广泛观察到，当数据分布稀疏且离散时，对抗性扰动对泛化的有益影响超过[10，35]。[36]将对抗扰动视为数据依赖的正则化，可以直观地推广到分布外的样本。[17]强调，数据的分布外现象在图域中很突出，并且考虑到半监督节点分类任务中标记节点样本的稀疏性，我们将对抗扰动视为输入特征增强的强候选方法。最小最大优化对抗性训练是制作对抗性数据点，然后将它们注入训练数据的过程。这个过程通常被公式化为以下最小-最大问题：图2.FLAG和PGD的增强距离分布我们在ogbn-arxiv上运行测试，GCN作为主干。上升步长均设置为3。δt+1=δ∞≤（δt+ α·sign（δL（fθ（x +δt），y），（4）其中，扰动δ迭代更新，并且在l∞-范数下，将扰动δ<$∞≤<$∞投影到为了获得最大的鲁棒性，这种迭代更新亲，codeword通常循环M次以产生最坏情况的噪声，这需要端到端的M次向前和向后传递然后将最大噪声δM应用于输入特征，并在此基础上对模型权值进行优化。上面的算法称为PGD。多尺度增强。在视觉任务中，[3]强调了使用不同类型的数据增强的重要性，例如随机裁剪，颜色失真和高斯模糊。作者表明，一个单一的转换是不足以学习良好的表示。为了充分利用其泛化能力，提高对抗扰动的多样性和质量，我们提出了多尺度增强的方法。为了实现这一目标，我们利用下面的技术。“免费”培训。我们利用PGD是解决最小-最大优化的一种强大但低效的方法。它运行M个完整的向前和向后通道以制作精细的扰动δ1：M，但模型权重θ仅使用最终δM更新一次。这个过程使模型训练慢了M倍。相比之下minθE（x，y）DMaxδL（fθ（x+δ），y）、（3）计算扰动δ的梯度，这使参数更新能够其中是数据分布，y是标签，p是某个范数距离度量，k是扰动预算，L是目标函数。[26]表明，该鞍点优化问题可以通过随机梯度下降（SGD）（用于外部最小化）和投影梯度下降（PGD）（用于内部最大化）可靠地解决。在实践中，内部的典型近似L∞范数约束下的最大化如下，与扰动更新并行计算，实际上没有额外的成本。作者建议在同一个小批量上连续训练M次，以模拟Eq.（3），同时通过执行少M倍的训练时期来补偿。由此产生的算法产生的准确性和鲁棒性与标准对抗训练相竞争，但运行时间与干净训练相同。密度Σ64联系我们∇∈u··v·←−，.，，Σ，G V EVM、vθ，vvθvuθi+1=θi−MθL（fθ（x+δt），y），（5）v11：结束v、ϕvvuut=1（）除了效率，“自由”方法实现了我们的注意，X被加性扰动δ1 ：M增广，其中每个扰动的最大尺度为mα，m1，，M，与PGD不同，PGD的扰动是具有Mα标度的单个δM这大大增加了我们增强的多样性。然而，为了解决这个问题，我们不是使用从δ上的梯度上升步骤获得的“副产品”梯度直接更新θ，从形式上讲，最优化-算法1 FLAG：在G图上进行自由大规模的A（节点分类任务）要求：图=（，）的情况下，l是标记节点集;学习率τ;上升步长M;上升步长αv，beled节点，αu表示未标记，我们假设标记节点的邻居都是未标记的;L（）作为目标函数; A（）和C（）表示Eq.（一）.第12行的后向函数指的是模型权重和噪声的后向传播梯度计算。1：初始化（θ，θ）2：对于v∈Vl，第三章：δ（0）←U（−αv，αv）4：δ（0） U（αu，αu）5：对于t = 1。- 是的- 是的 M do6：h（0）←xv+δ（t−1）7：h（0）←xu+δ（t−1）步骤是8：对于k = 1。- 是的- 是的 Kdo9：msg（k）← A（k） h（k−1），h（k−1），euv，<$u ∈N（v）τ10：h（k）←C（k），h（k−1），msg（k），其中τ是学习率，δ1是均匀的噪音。注意θ，θ，· grad（θ，θ）在Eq.（5）在方程中（四）、我们节省了一个反向传递和M次V Vu u为· sign（ grad（δv））· sign（ grad（δu））在批量重放过程中，通过累积梯度（PyTorch完全支持）来增加额外的GPU内存图2描述了我们设计的效果。我们可以看到，PGD不可避免地产生集中的增强幅度，而我们的方法产生的扰动具有更广泛的大小范围，这增加了增强的多样性和质量。此外，在节点分类任务中，我们建议在训练期间使用不同的扰动幅度来增强标记节点与未标记节点，以进一步分散增强。我们称之为加权扰动。当对一个目标节点进行分类时，来自整个k跳邻域的消息被聚合并组合到其嵌入中很自然地认为，另一个邻居应该对目标节点的最终决策具有较低的影响，即较高的平滑度，这也可以通过等式（1）中的GNN的递归消息传递过程直观地反映出来（一）.在实践中，我们发现，一个较大的扰动的未标记的节点可以是有益的perfor-mance。算法1总结了我们的方法在节点分类任务上的伪代码。图1说明了我们提出的方法的泛化能力。4. 实验在本节中，我们进行了大量的实验，以充分揭示我们的方法的有效性。数据集。我们证明了FLAG[32]，[7]和[6]显示传统，17：（θ，θ）←（θ，θ）−τ·g（M）18：结束传统的图数据集存在着数据分割不真实、数据大小有限、评价指标不严格、验证集被普遍忽略等问题为了以公平可靠的方式实证研究FLAGSetup. 考虑到大扰动对推广的积极影响[36]，FLAG在执行内部最大化时放弃了投影步骤，并简化了超参数搜索。通常在图像上，内最大化对扰动具有范数约束;可以添加的最大扰动由下式限定：超参数λ，在l∞范数下通常为8/255。这是一种视觉上难以察觉的感觉，因此，使防御变得现实和实用。然而，图节点特征或语言词嵌入没有确定的不可感知性距离阈值，这使得搜索引擎的选择具有很强的启发性。注意，尽管在FLAG中扰动不再受显式的δ的限制，但它仍然隐式地受δ可以达到的fur-fur距离的限制，即步长α乘以递增步长M的数量。此外，除非另有说明，所有的基线测试统计数据都来自官方OGB排行榜网站，我们使用公开的重新测试数据进行所有实验十二：Lh（K），y. 落后十三：g（t）←g（t−1）+1M十四：十五：16：结束δ（t）←δ（t−δ（t）←δ1）+αv1）+αu65+FLAG79.36±77.68±0.20±+FLAG81.76±0.59 73.65±0.11+FLAG81.93±0.20 ±71.92±0.16·+FLAG53.90±4.7448.10±0.81±±±±±GraphSAGE 78.700.3671.71±0.5071.490.27GA T 79.45±0.5776.57±-0.7572.19±0.21深度GCN 80.98±0.4585.80-0.1773.71±0.130.3185.96±0.2772.14±0.19表 1. 节点属性预测测试 ogbn-products 、 ogbn-proteins和ogbn-arxiv数据集的性能。空白表示排行榜上没有统计数据。租赁实现，而不触及原始模型架构或培训设置，以进行公平比较。我们报告了不同随机种子10次运行的平均值和标准差。遵循此基准的常见做法，我们报告与最佳验证结果相关的测试性能。我们选择GCN，GraphSAGE，GAT和GIN作为我们的基线模型。此外，我们将FLAG应用于DeeperGCN模型，以证明其对深度明显更深的GNN的有效性。为了简单起见，我们的实现总是使用M=3的上升步骤。在[15，26]之后，我们使用sign（）进行梯度归一化。大规模节点属性预测。我们在表1中总结了节点分类的结果。值得注意的是，FLAG为GAT提供了2.31%的测试准确度提升，使GAT在ogbn-products数据集上具有竞争力。考虑到ogbn蛋白质中没有输入节点特征的特点，我们在第5节中详细讨论了不同节点特征结构的影响。OGBN-MAG是异构网络，其中只有我们使用邻居采样小批量算法来训练R-GCN，并在表2中报告其结果。令人惊讶的是，FLAG也可以直接带来非平凡的准确性的改善，而无需特殊的设计异构图，这表明了它的通用性。奥格本杂志主干测试累积 R-GCN46.78±0.67+FLAG47.37±0.48表2.在异构OGB节点属性预测数据集ogbn-mag上测试性能。大规模链路属性预测。我们评估我们的方法上的两个OGB链接预测数据集，这是ogbl-ddi和ogbl-collab。OGB的作者选择Hits@K作为官方评估指标。我们研究了FLAG的性能与GCN和GraphSAGE作为骨干在这项任务上。我们遵循基线的做法，以全批量的方式训练模型。再-GraphSAGE51.41±3.7663.31±6.0648.44±0.40表3.ogbl-ddi和ogbl-collab数据集上的链接属性预测测试性能结果列于表3。我们强调，FLAG在ogbl-ddi数据集上为GCN和GraphSAGE带来了显着的提升。大规模图形属性预测。表4总结了所有四个OGB图形属性预测数据集上的GCN、GIN和DeeperGCN的测试分数。“Vir- tual” means the model is augmented withvirtual nodes [由于对抗性扰动是通过梯度上升来制作的，因此向离散输入节点特征添加噪声将是不自然和次优的[45]。我们首先将离散的节点特征投影到连续空间中，然后逆向增加隐藏的嵌入。在ogbg-molhiv上，FLAG产生了显著的改进，但是当GCN已经受到虚拟节点的伤害时，FLAG似乎夸大了伤害。在ogbg-molpcba上，带有FLAG的GIN-Virtual接收到绝对值1.31%的测试AP值增加。除了节点分类和链接预测外，FLAG5. 消融研究和讨论与图结构正则化器的兼容性。由于我们的增强操作输入特征，因此它与基于结构的正则化器高度互补我们通过下面的实验来验证这一点。我们主要关注两种广泛使用的拓扑增强方法来说明1：（i）邻居采样[16]随机采样邻居进行信息聚合。它不仅有助于GNN的可扩展性，而且还充当结构调节器。一个全批次的GraphSAGE达到78。50014%的ogbn产品的测试准确度，和邻居采样单独推广的模型到78。700百分之三十六当还使用FLAG时，测试精度提高到79。360 百分之五十七。(ii)虚拟节点[13]添加了一个连接到所有现有节点的合成节点。表4中的几乎所有数字都支持我们的方法可以很好地使用虚拟节点来进一步推广GNN。在这里，我们强调了一组具有代表性的ogbg-ppa实验，以GIN为基线。香草杜松子酒得68分 921. 00%测试准确率。通过单独添加虚拟节点，它将达到70。371.07%。当进一步部署FLAG时，测试精度达到1我们也尝试过DropEdge [30]，但它一开始就没能带来性能提升骨干ogbn产品测试访问ogbn蛋白检测ROC-AUC奥格本阿尔西夫测试访问GCN+标志--72.51±0.3571.74±0.2972.04±0.20骨干奥格布尔-迪迪点击率@20奥格布尔-科拉布点击率@50GCN+标志37.07±5.0744.75±1.0746.22±0.8166±76.83±1.0221.16±0.1768.38±0.4775.45±1.5824.83±0.3769.44±0.5276.54±1.1423.95±0.4069.05±0.9277.48±0.9628.34±0.3872.45±1.1479.42±1.2028.42±0.4377.52±0.69表4.图属性测试ogbg-molhiv、ogbg-molpcba、ogbg-ppa和ogbg-code数据集的性能。表示存在虚拟节点;空白表示排行榜上没有统计。方法GCN GraphSAGE不含BN 71.09±0.2269.58±0.76w/BN 71.74±0.2971.49±0.27含BN +FLAG 72.04±0.2072.19±0.21带双BN +FLAG72.11±0.2372.21±0.20表5.使用不同BN方法在ogbn-arxiv80.96±0.4162.02±6.5676.14±1.6279.42±0.8458.61±6.074.93±1.2981.76±0.4563.31±6.0676.54±1.1480.64±0.74--表6.在使用不同对抗增强训练的不同数据集上测试性能。基线分别为GAT、Graph- SAGE和GIN。FLAG（fast）意味着训练周期数减少，使我们的方法训练得像基线一样快。七十二451 .一、百分之十四与批次规范的兼容性。批处理范数在性能最好的GNN中越来越频繁地[40] 他认为存在一个潜在的风险，即对抗性样本可能会扭曲BN参数，使其偏离自然分布，从而导致对抗性训练的模型在干净样本上失败。作者建议在训练时使用双批范数（一个用于对手，另一个用于干净的），以更好地利用对抗增强的泛化能力。为了在图数据上测试双批范数方法，我们运行如表5中总结的实验。我们发现，利用双BN可以产生轻微的性能增益。随着越来越多的人关注在GNN上使用批规范，在未来的研究中如何更好地协同对抗增强与批规范将是有趣的与其他鲁棒优化方法的比较表6显示了不同对抗性增强的性能对于PGD和“自由”，我们计算8个上升主干测试访问GAT（无脱落）75.67±0.27GAT（带脱落）79.45±0.59GAT（带脱落）+FLAG81.76±0.45表7.在ogbn-products数据集上测试准确性ogbn产品主干测试访问GraphSAGE w/NS 78.70±0.36+FLAG79.36±0.57GraphSAGE w/Cluster78.97±0.33+FLAG 78.60±0.27GraphSAGE w/SAINT 79.08±0.24+FLAG79.60±0.19表 8. 使用 GraphSAGE 测试 ogbn 产品的准确性，该GraphSAGE使用各种小批量算法进行训练。内部最大化的步骤使攻击足够强大，而对于FLAG，我们只计算3步。我们可以看到，FLAG优于所有其他方法。我们将此归功于我们的多尺度增强的实践，它使特征扰动的尺度范围多样化，并帮助模型看到不同的输入特征以更好地泛化，特别是在分布样本上。虽然加权扰动的影响。偏置扰动的影响如图3c所示。一般来说，当log2（αu/αl）>0时，这意味着未标记的节点接收更大的增强，性能增益更显著。这一现象支持了我们使用加权扰动来促进多尺度增强的实践。经验上，我们发现加权扰动的好处是更明显的ogbn产品比ogbn-arxiv。我们的理解是，ogbn产品更适合我们的做法，标签与。由于它的高强度，+“免费”+标志奥格格莫希夫奥格格-莫尔普巴奥格格帕OGBG码骨干检测ROC-AUC测试AP测试访问测试F1GCN+标志76.06±0.9720.20±0.2468.39±0.3431.63±0.1832.09±0.19GCN虚拟+标志75.99±1.1924.24±0.3468.57±0.6132.63±0.1333.16±0.25松子酒+标志75.58±1.4022.66±0.2868.92±1.0031.63±0.2032.41±0.40GIN虚拟+标志77.07±1.4927.03±0.2370.37±1.0732.04±0.1832.96±0.36DeeperGCN+标志78.58±1.1727.81±0.3877.12±0.71--+FLAG（快速）ogbn产品奥格布尔-迪迪奥格格莫希夫测试访问点击率@20检测ROC-AUC基线+PGD79.45±0.5953.90±4.7475.58±1.4067±±与 ogbn-arxiv 相比的 bel 稀疏性（标记率 8% 对54%）。当标记节点更稀疏时，标记节点的邻域将更容易被未标记节点淹没，此时我们的近似更准确。超参数敏感性。图3a和图3b显示了我们方法的超参数灵敏度。总的来说，我们的方法是稳定的，与基线相比，可以产生一致的精度提升。与小批量方法兼容。图小批量算法对于在大规模数据集上训练GNN至关重要。我们测试了不同的算法如何使用GraphSAGE作为骨干的对抗性数据增强。从表8中，我们可以看到邻居采样[16]和GraphSAINT [43]都可以与FLAG一起工作，以进一步提高性能，而Cluster[4]则会遭受准确性下降。与dropout兼容 Dropout在GNN中被广泛使用。表7显示，当在没有丢弃的情况下训练时，GAT准确度急剧下降。此外，FLAG还可以进一步推广GNN模型，并结合dropout，类似于图像增强现象它表明，我们的方法是完全兼容的域/模型无关的正则化。走向 FLAG引入了易于处理的额外训练开销。我们的经验表明，当我们减少训练周期的总数，使其与标准GNN训练管道一样表6显示具有较少时期的FLAG仍然概括基线。经验上，在单个Nvidia RTX 2080 Ti上，100 epoch vanilla GAT需要88分钟，而表6中的FLAG（快速）需要91分钟。我们注意到，像早期停止和循环学习率这样的策略可以进一步加速对抗性训练过程[39]，因此有大量的机会以更低甚至没有成本的方式进一步研究对抗性增强。向纵深发展。过度平滑会阻止GNN深入。FLAG显示了其提高浅低和深基线的能力GCN和DeeperGCN。在图4a中，当GNN逐渐深入时，我们仔细检查了FLAG实验在ogbn-arxiv上进行，其中GraphSAGE作为骨架，其中一致的改进是明显的。如果没有节点特征呢？一个自然的问题，灰可以提出：如果没有输入节点功能提供 vided ？ ogbn-proteins是没有输入节点特征的数据集。[17]提出平均传入的边缘特征以获得初始节点特征，而[24]使用求和并获得了有竞争力的结果。请注意，表1中的GCN和GraphSAGE基线使用有趣的是，当DeeperGCN被训练成节点特征，它接收高不变性，因此即使大幅度扰动也不会改变其结果。对抗增强的多样性行为暗示了节点特征构造方法选择的重要性。助推力从何而来？现在人们普遍认为，模型的鲁棒性似乎与干净的准确性不一致。尽管最近使用对抗性数据增强来提高标准性能的文献越来越多，但对抗性训练的提升或降低来自哪里仍然没有解决。与语言模型的独热词嵌入类似OGBN产品中的词袋二元特征。我们推测，对抗训练在不同领域的不同效果源于输入数据分布的差异，而不是模型架构。为了支持我们的主张，我们有以下观察结果。观察结果1：我们利用FLAG来增强MLP（一种对抗训练在图像域中具有不利影响的架构），并成功地促进了生成。 FLAG直接提高了测试精度，61岁06± 0. 08%至62。41± 0。16%的ogbn产品，从55。50±0。23%至56。02±0. 19%在ogbn-arxiv上。观察结果2：一般来说，对抗训练会损害图像分类的准确性，但[35]表明CNN可以从MNIST上的对抗增强中受益，其中像素值比其他更自然的图像数据集更接近离散分布。观察结果3：为了说明，我们提供了Cora[12]数据集上的一个简单示例。为了简化场景，我们选择FGSM为GCN制作对抗增强。通过添加具有标准差σ的高斯噪声，我们模拟了从连续分布中提取的节点特征。结果总结在图4b中。当σ=0时，节点特征的离散分布持续存在。此时，具有对抗增强的GCN表现出非增强模型。随着噪声水平σ的增加，特征以大支持度连续分布，FGSM开始损害干净的准确性，这验证了我们的猜想。所有这些观察结果都支持我们的猜想，即数据分布与对抗性增强的效果有更多关系，而缺乏严格的理论依据是我们分析的局限性。适用于计算机视觉任务。尽管重点是图学习，但我们相信我们的工作有益于视觉社区。图在CV中被广泛使用，例如，3D视觉和场景理解。此外，2D图像可以表示为以像素为节点的网格图，因此我们可以使用GNN平滑地进行图像识别。在这里，我们提供了MNIST超像素数据集上FLAG的一些初步结果[9]。GCN达到87。83 0. 70%，而GCN+FLAG得到89。10.37%，这证明了FLAG68基线+标志82.082.082.081.581.080.580.079.579.078.50.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010扰动步长(a) 步长81.581.080.580.079.579.02 3 45上升步(b) 上升台阶81.581.080.580.079.579.01 0 1 2log2（u/l）(c) 加权扰动图3.GraphSAGE和GAT在ogbn-products数据集上的结果72.51.51.072.00.571.50.071.070.50.51.01.53 6 912层数（一）2.00.00 0.05 0.10 0.15 0.20噪声std（b）第（1）款图4.（a）ogbn-arxiv上的测试精度;（b）Cora上的性能差距。6. 结论我们提出了FLAG，一个简单的，可扩展的，通用的数据增强方法，以更好地GNN泛化。像广泛使用的图像增强一样，FLAG可以很容易地集成到任何GNN训练管道中。FLAG在一系列GNN基线上产生了改进。除了广泛的实验之外，我们还提供了概念分析来验证对抗增强对抗性增强对泛化的影响仍然没有完全理解，我们认为这是未来探索的肥沃空间。然而，对于潜在的负面社会影响，我们的工作可能被部署为大规模社交网络的细粒度社交跟踪器的正则化器，以破坏个人隐私。鸣谢。Kezhi Kong和Tom Goldstein得到了DARPAGARD 、海军研究办公室、 AFOSR MURI 计划、DARPA青年科学家奖和国家科学基金会数学科学部的支持。Capital One Bank和JP Morgan Chase提供了额外的支持Guohao Li和Bernard Ghanem通过视觉计算中心（ VCC ）的资金得到了阿卜杜拉国王科技大学（KAUST）赞助研究办公室的支持引用[1] 约格什·巴拉吉汤姆·戈尔茨坦和朱迪·霍夫曼。实例自适应对抗训练：神经网络中改进的准确性权衡arXiv预印本arXiv：1910.08051，2019。1[2] 陈杰、马腾飞、曹啸。Fastgcn：通过重要性采样使用图卷积网络进行 arXiv 预印本 arXiv ： 1801.10247 ，2018。2[3] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。第1、3条[4] Wei-Lin Chiang，Xuanqing Liu，Si Si，Yang Li，SamyBen- gio，and Cho-Jui Hsieh. GCN：一种用于训练深度和大型图卷积网络的高效算法。在第25届ACM SIGKDD知识发现数据挖掘国际会议论文集，第257-266页，2019年。7[5] Zhijie Deng，Yinpeng Dong，and Jun Zhu.图卷积网络的批量虚拟对抗训练。arXiv预印本arXiv：1902.09192，2019。2[6] Vijay Prakash Dwivedi ， Chaitanya K Joshi ， ThomasLaurent，Yoshua Bengio，and Xavier Bresson.对图神经网络进行基准测试。arXiv预印本arXiv：2003.00982，2020。4[7] Federico Errica ， Marco Podda ， Davide Bacciu ， andGraphSAGE+FLAGGAT+FLAGGraphSAGEGATGraphSAGE+FLAGGAT+FLAGGraphSAGE基线GAT基线GraphSAGE+FLAGGAT+FLAGGraphSAGE基线GAT基线测试准确度（%）基线+FGSM测试准确度（%）准确度（%）测试准确度（%）相对增长率（%）69Alessio Micheli. 图神经网络的公平比较70图分类arXiv预印本arXiv：1912.09893，2019。4[8] Fuli Feng，Xiangnan He，Jie Tang，and Tat-Seng Chua.图对抗训练：基于图结构的动态正则化。 IEEETransactions on Knowledge and Data Engineering ，2019。2[9] Matthias Fey，Jan Eric Lenssen，Frank Weichert，Hein-richMüller. Splinecnn：使用连续b样条核的快速几何深度学习在IEEE计算机视觉和模式识别会议论文集，第869-877页，2018年。7[10] Zhe Gan，Yen-Chun Chen，Linjie Li，Chen Zhu，YuCheng，and Jingjing Liu.大规模对抗性训练用于视觉和语言表征学习。 arXiv 预印本 arXiv ： 2006.06195 ，2020。第1、3条[11] 维克多·加西亚和琼·布鲁娜。图神经网络的少样本学习arXiv预印本arXiv：1711.04043，2017。1[12] 丽莎·格图尔基于链接的分类。从复杂数据中发现知识的高级，第189Springer，2005年。7[13] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。arXiv预印本arXiv：1704.01212，2017.一、五[14] 乔纳森·戈德温、迈克尔·沙尔施泰特、亚历山大·L·冈特、阿尔瓦罗·桑切斯·冈萨雷斯、尤利娅·鲁巴诺娃、佩塔尔·韦利·科维克、詹姆斯·柯克帕特里克和彼得·巴塔利亚。简单的GNN正则化用于3D分子性质预测和超越。2022年国际学习代表。1[15] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。一、三、五[16] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。神经信息处理系统进展，第1024-1034页，2017年一、二、五、七[17] Weihua Hu ， Matthias Fey ， Marinka Zitnik ， YuxiaoDong，Hongyu Ren，Bowen Liu，Michele Catasta，andJure Leskovec. Open graph benchmark：用于图上机器学习的数据集arXiv预印本arXiv：2005.00687，2020。一、二、三、四、五、七[18] Weihua Hu ， Bowen Liu ， Joseph Gomes ， MarinkaZitnik，Percy Liang，Vijay Pande，and Jure Leskovec.预训练图神经网络的策略。 arXiv 预印本 arXiv ：1905.12265，2019。2[19] Haoming Jiang ， Pengcheng He ， Weizhu Chen ，Xiaodong Liu，Jianfeng Gao，and Tuo Zhao.智能：通过有原则的正则化优化，对预先训练好的自然语言模型进行稳健而有效的

下载后可阅读完整内容，剩余1页未读，立即下载