没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文--图神经网络的无数据对抗知识提取庄元欣1,吕玲娟2,石传1,杨明3,孙立超41北京邮电大学2索尼AI3埃默里大学4利哈伊大学zhuangyuanxin,bupt.edu.cn,Lingjuan. sony.com,j. emory.edu,lis221@lehigh.edu摘要图神经网络(GNNs)由于其在广泛的实际应用中的优异性能,已被广泛应用于图结构数据的最近,GNN的知识蒸馏(KD)在图模型压缩和知识传输方面取得了显着进展。然而,大多数现有的KD方法需要大量的真实数据,这不是资源受限的设备,如移动电话。有大量的文献[Bahrietal. ,2021]旨在将繁琐的 GNN压缩和加速为 轻量级GNN。在这些方法中,知识蒸馏[Hintonet al. ,2015]是用于通过直接模仿其输出来从预先训练的复杂教师学习便携式学生模型的最流行的范例之一。知识蒸馏(KD)是由Hinton等人提出的[Hintonet al.2015年],对一名学员的培训进行监督,在实践中容易获得,并且可能排除它们在教师模型在稀有或难以获取的数据集上训练的场景中的适用性。为了解决这个问题,我们提出了第一个端到端框架,用于图结构数据上的无数据对抗知识蒸馏(DFAD-GNN)。具体地说,我们的DFAD-GNN采用了一个生成对抗网络,它主要由三个部分组成:一个预先训练的教师模型和一个学生模型被视为两个鉴别器,并利用生成器来导出训练图,以将知识从教师模型提取到学生模型中。在各种基准模型和六个代表性数据集上进行的大量实验表明,我们的DFAD-GNN在图分类任务中显著超过了最先进的无数据基线。1介绍越来越多的机器学习任务需要处理大量的图形数据,这些数据捕获了潜在的数十亿元素之间丰富而复杂的关系。图神经网络(Graph Neural Networks,GNNs)通过将图数据转换到低维空间,同时最大限度地保留结构和属性信息,已成为解决图学习问题的有效途径。最近,GNN的快速发展已经导致越来越多的新架构以及新颖的应用[Luet al. ,2021;Sunet al. ,2018;Wuet al. ,2021]。然而,训练一个强大的GNN通常需要大量的计算和存储。因此,很难将它们部署到作者:CorrespondentAuthor.通过捕获和传输,实现紧凑而高效的学生模型从一个大的复杂的教师模型的知识。近年来,KD受到了 社 区 的 极 大 关 注 [Yanget al. , 2021;Gouet al. ,2021]。尽管KD取得了成功,但它的经典形式有一个严重的局限性。它假设真实的训练数据在蒸馏阶段仍然可用。然而,在实践中,由于隐私问题,原始训练数据通常不可用。此外,许多大型模型是在数百万甚至数十亿个图上训练的[Luet al. ,2021]。虽然预先训练的模型可以向整个社区提供,但提供训练数据也带来了许多技术和政策挑战。避免上述问题的有效方法是使用合成图,即,无数据知识描述[Lopeset al. ,2017;Liuet al. ,2021]。正如“无数据”所暗示的那样,没有训练数据。 相反,数据是从预训练的模型中随机生成的。无数据精馏在该领域受到了广泛的关注计算机视觉[Fanget al. ,2019;Lopesetal. ,2017;Fanget al. ,2021],然而,这在图挖掘中很少被探索。请注意,Deng等人[Deng and Zhang,2021]已经对此问题进行了一些初步研究,并提出了无图知识蒸馏(GFKD)。不幸的是,GFKD不是一种端到端的方法。它只考虑固定的教师模型,在生成图形时忽略了来自学生模型的此外,他们的方法是基于这样的假设,即适当的图通常对教师模型具有高度的置信度。事实上,该模型将图从数据空间映射因此,这些生成的图对于有效地提取教师模型不是很有用,这导致了不令人满意的性能。在这项工作中,我们提出了一种新的无数据对抗arXiv:2205.03811v1 [cs.LG] 2022年5月+v:mala2277获取更多论文GNN的知识蒸馏框架(DFAD-GNN)。DFAD-GNN使用基于GAN的知识蒸馏方法[Goodfellowet al. ,2014]。如图1所示,DFAD-GNN包含一个生成器和两个判别器:一个固定的判别器是预先训练好的教师模型,另一个是我们要学习的紧凑的学生模型。该生成器生成图形,以帮助将教师的知识传递给学生。与以前的工作不同[Deng and Zhang,2021],我们的生成器可以充分利用来自预训练教师模型的内在统计信息和来自学生模型的可定制信息,这可以帮助生成高质量和多样化的训练数据,以提高学生模型我们提出的框架的贡献可以总结如下:1)我们研究了一个有价值但棘手的问题:当原始训练数据不可用时,如何从预训练的教师模型中提取可移植且有效的学生模型; 2)我们提出了一种新的用于GNN的无数据对抗性知识提取框架(DFAD-GNN),以便使用生成的图和固定的教师模型来训练紧凑的学生模型据我们所知,DFAD-GNN是第一个端到端的框架,用于图结构数据上的无数据知识蒸馏; 3)大量的实验表明,我们提出的框架显着优于现有的最先进的无数据方法。DFAD-GNN在所有六个数据集上都可以成功地提取出学生模型,其准确率为教师模型的81.8%-94.7%。2前期及相关工作2.1图神经网络图神经网络(GNN)已经受到了广泛的关注[Wuet al. ,2020;Zhouet al. ,2020]。一般来说,GNN模型可以通过邻域聚合或消息传递模式来统一[Gilmeret al. ,2017],其中每个节点的表示通过迭代地聚合其邻居的嵌入(“消息”)来学习。作 为 最 有 影 响 力 的 GNN 模 型 之 一 , 图 卷 积 网 络(GCN)[Kipf和Welling,2016]对图卷积进行线性近似 。 Graph Atten-tionNet work ( G A T ) [Veli cko vic′etal. ,2017]引入了一种注意机制,其允许在聚合步骤期间不同地对邻近区域中的节点进行加权。GraphSAGE[Hamiltonet al. ,2017年]是对原始GCN的全面改进,它用可学习的聚合函数取代了全图拉普拉斯算子。图同构网络(GIN)[Xuet al. ,2018]使用简单但富有表现力的内射多集函数进行邻居聚合。这些GNN将被用作实验中的教师模型和2.2知识蒸馏知识蒸馏(KD)旨在将(较大)教师模型的知识转移到( 较 小 ) 学 生 模 型 [Hintonet al. , 2015; Wuet al. ,2022]。它最初是为了减少部署在计算资源有限的设备上的模型的大小而引入的。从那时起,这条研究路线吸引了大量的关注[Gouet al. ,2021]。最近,存在尝试将知识表示与图卷积网络(GCN)相结合的一些尝试 Yang等人[Yanget al. 2021]提出了一种知识蒸馏框架,该框架可以提取任意教师模型的知识,并将其注入到设计良好的学生模型中。Jing等人[Jing等人,,2021]提出学习一个轻量级的学生GNN,掌握多个异构教师的全套专业知识。这些工作旨在提高学生模型在半监督节点分类任务上的性能,而不是我们在这项工作中考虑的图分类任务此外,尽管上述方法获得了有希望的结果,但在没有原始训练数据集的情况下,它们不能有效地启动。在实践中,训练数据集可能由于某些原因而不可用,例如:传输限制、隐私等。因此,有必要考虑一种无数据的方法来压缩神经网络。解决无数据知识蒸馏的技术依赖于训练生成模型来合成假数据。最近的一项名为无图KD(GFKD)的工作[Dengand Zhang,2021]提出了一种用于图神经网络的无数据知识分类。GFKD通过用多项分布建模来学习用于知识蒸馏的图形拓扑结构。训练过程包括两个独立的步骤:(1)首先,使用预先训练好的教师模型生成伪图;(2)然后,使用这些伪图将知识提取到紧凑的学生模型中。然而,这些假图是由不变的教师模型优化的,而不考虑学生模型。因此,它们对于有效地提取学生模型不是很有用。为了生成高质量的多样化训练数据以提高学生模型我们的生成器是端到端训练的,它不仅使用了预先训练好的教师的内在统计数据,而且还获得了教师模型和学生模型之间的差异。我们注意到GFKD和我们的模型之间的关键区别在于训练过程和生成器。2.3图生成无数据知识蒸馏涉及训练数据的生成。受生成式广告网络(GANs)的力量的激励[Goodfellowet al. ,2014],研究者已经使用它们来生成图。Bojchevski等人提出了NetGAN [Bojchevskiet al. ,2018],它使用GAN框架来生成图上的随机游走。De Cao和Kipf提出了MolGAN[DeCao和Kipf,2018],它使用简单的多层感知器(MLP)生成分子图。在这项工作中,我们建立在两个对手谁试图优化相反的损失函数之间的最小-最大博弈。这种方法类似于在GAN中执行的优化,以训练生成器和迭代器。关键的区别在于,GAN通常被训练来恢复底层的固定数据分布。然而,我们的生成器追逐一个移动的目标:数据的分布,这是最能表明当前学生模型及其教师模型的差异的。+v:mala2277获取更多论文GS不SG∈G中国.Σ--·不S G∈GGSGSGLCITDG− DGLS·T数据流向前梯度流蒸馏一代教师GNN(固定)发生器学生GNN发生器鉴别器图1:DFAD-GNN的框架。3DFAD-GNN框架如图1所示,DFAD-GNN主要由三个组件组成:一个发生器和两个鉴别器。一个固定的模型是预先训练的教师模型,另一个是我们旨在学习的紧凑的学生模型。更具体地说,生成器从先验分布中获取样本z并生成伪图。然后,在教师模型的监督下,使用生成的图来训练学生模型。3.1发生器生成器用于合成最大化教师之间分歧的假图和学生.取从标准正态分布z(0,I)采样的D维向量zRD,并输出图形。对于每个z,输出一个对象:FRN×T,定义节点特征,其中N是节点编号,T是节点特征维度。然后我们计算邻接矩阵A如下:A=σ FFT,(1)其中σ()是logistic sigmoid函数。我们用阈值τ将A的范围从[0,1]变换到0,1。如果A中的元素大于τ,则设为1,否则设为0。损失函数用于与用于换句话说,学生被训练来匹配老师的预测,而生成器被训练来为学生生成困难的图形。培训过程可以表述为:max minEz<$N(0,1)[D(T(G(z)),S(G(z)],(2)一1DFAD-GNN输入:预先训练的教师模型,T(X;θt)输出:可比较的学生模型S(X;θs)1:随机初始化学生模型(X;θs)和生成器(z;θg)2:对于Epochs,3://蒸馏阶段4:对于k步,5:从z生成具有(z;θg)的图X6:计算与DIS的模型差异7:更新θs,以最大限度地减少与θs的差异8:结束9://生成阶段10:从z生成具有(z;θg)的图X;11: 计算与GEN的12:更新θg以最大化与θg的差异13:结束蒸馏阶段在这个阶段,我们修复了生成器,只更新了学习器中的学生。我们对一批随机噪声z进行采样,并用生成器构造伪图。然后,每个图X被馈送到教师和学生模型以产生输出qt和qs,其中q是指示不同类别的分数的向量在我们的方法中,损失的选择涉及与GAN中概述的因素类似的因素:多个作品已经讨论了梯度消失的问题,因 为 在 GAN 训 练 的 情 况 下 , 梯 度 变 强 [Arjovsky 和Bottou,2017]。模型蒸馏中的大多数先前工作在学生和教师模型之间的KullbackLeibler散度(KLD)和均方然而,随着学生模型与教师模型的匹配程度越来越高,这两个损失函数往往会出现梯度消失的情况。具体来说,通过生成器反向传播这种消失梯度可能会损害其学习。对于我们的方法,我们最小化qt和qs之间的平均绝对误差(MAE),这为生成器提供了稳定的梯度,从而可以减轻消失的梯度。在我们的实验中,我们根据经验发现,这显着提高学生的表现超过其他可能的损失。现在我们可以定义蒸馏阶段的损失函数如下:Σ1ΣG S其中DLDIS=Ez<$pz(z)n<$T(G(z))− S(G(z))<$1.(三)()表示教师和学生之间的差异。如果生成器继续生成简单和重复的图形,则学生模型将拟合这些图形,从而导致学生模型与教师模型在这种情况下,生成器被迫生成困难和不同的图形,以扩大差异。3.2对抗蒸馏总体而言,对抗训练过程包括两个阶段:最小化差异D的蒸馏阶段;以及最大化差异的生成阶段如图1所示。我们详细说明每个阶段如下。生成阶段生成阶段的目标是推动新图形的生成。在这个阶段,我们修复了两个鉴别器,只更新了生成器。我们鼓励生成器生成更多令人困惑的训练图。用于generator的损失函数与student的损失函数相同,只是目标是使其最大化:LGEN= −LDIS.(四)随着产生损失,误差首先反向传播+v:mala2277获取更多论文∈×中国联系我们联系我们然后通过生成器对它进行优化。3.3优化整个蒸馏过程总结在算法1. DFAD-GNN通过在蒸馏阶段和生成阶段进行迭代来训练学生和生成器。基于学生模型的学习进度,生成器制作新的图以进一步估计模型的离散性。这种对抗性游戏中的竞争驱使生成器发现更多的知识。在蒸馏阶段,我们对学生模型进行k次更新,以确保其收敛。注意,与常 规 方 法 GFKD[Deng 和 Zhang , 2021] 相 比 , DFAD-GNN的时间O(TN2)其中N是节点并且T是节点特征维度。 虽然我们的方法具有较高的时间复杂度,性能较好。此外,因为在大多数现实世界的图级应用程序中没有太多的节点(通常小于100),我们注意到我们的复杂性在实践中是可以接受的。4实验4.1数据集我们采用了六个图分类基准数据集,包括三个生物信息学图数据集,MUTAG、PTC MR和PROTEINS,以及三个社交网络图数据集,即,IMDB-BINARY、COLLAB和REDDIT- BINARY。表1总结了这些数据集的统计数据。为了消除对训练数据的不必要的偏差,对于这些数据集上的所有实验,我们使用10倍交叉验证设置来评估模型性能,其中数据集分割基于常规使用的训练/测试分割 [Niepertet al. , 2016;Zhanget al. , 2018;Xuet al. ,2018]与LIBSVM [Chang and Lin,2011]。我们报告了交叉验证中10个折叠内验证准确度的平均值和标准差。数据集MUTAG#图形188#类2平均图形大小17.93PTC MR344214.29蛋白1113239.06IMDB-BINARY1000219.77COLLAB5000374.49REDDIT-双星2000年表1:数据集总结。4.2生成器架构所有实验均采用固定结构的发生器。生成器采用从标准正态分布z(0,I)采样的32维向量。 我们用[64,128,256]个隐藏单元的3层MLP来处理它,取tanh作为激活函数。最后,利用线性层将256维向量映射为N个T维向量,并将其重新整形为节点特征FRN×T.在整个实验中,我们将训练数据中的平均节点数作为N,并在消融实验中测试N(a) 蛋白质类(b)胶原图2:不同教师对不同学生的PROTEINS和COLLAB表现。4.3教师/学生建筑为了证明我们提出的框架的有效性,我们考虑四个GNN模型作为教师和学生模型进行彻底的比较,包括:GIN,GCN,GAT和GraphSAGE。虽然GNN模型并不总是需要一个深度网络来实现良好的结果,但是,从附录B来看,没有固定的层和隐藏单元可以使六个数据集在四个不同的模型上实现最佳性能。为了公平比较,我们使用5层128个隐藏单元作为教师模型。对于学生模型,我们进行实验,以逐步减少层数l 5,3,2,1 逐渐减少隐藏的单元h128,64,32,16。 我们使用图分类器层它首先通过平均所有节点来构建图形表示,从最后一个GNN层提取的特征,然后将此图形表示传递给MLP。4.4执行对于训练,我们使用Adam优化器和权重衰减5e-4来更新学生模型。生成器使用Adam训练student和generator都使用学习率调度器,该调度器在训练时期的10%、30%和50%处将学习率乘以算法1中的学生模型的更新次数k被设置为5。阈值τ根据经验设置为0.5。4.5基线我们与以下基线进行比较,以证明我们提出的框架的有效性。教师:给定的预训练模型,在蒸馏过程中充当KD:生成器被移除,学生模型在我们的框架中100%的原始训练数据上进行训练。随机:生成器GFKD:GFKD是GNN的无数据KD,通过用多项式分布对图的拓扑进行建模[Deng和Zhang,2021]。4.6实验结果我们已经在GCN,GIN,GAT和GraphSAGE上预训练了所 有 数 据 集 , 具 有 5 层 和 128 个 隐 藏 单 元 ( 简 称 5-128),并发现GIN在所有数据集上表现最好(详细的实验结果可以在附录B中找到)。+v:mala2277获取更多论文××数据集MUTAGPTC 先生蛋白IMDB-BINARYCOLLABREDDIT-二进制老师GIN-5-128GIN-5-128GIN-5-128GIN-5-128GIN-5-128GIN-5-12896.7±3.775.0±3.578.3±2.980.1±3.783.5±1.292.2±1.2学生GIN-5-32 GIN-1-128GIN-5-32GIN-1-128GIN-5-32GIN-1-128GIN-5-32GIN-1-128GIN-5-32GIN-1-128GIN-5-32GIN-1-128(6.7%×m)(20.6%×m)(6.7%×m)(20.6%×m)(6.7%×m)(20.6%×m)(6.7%×m)(20.6%×m)(6.7%×m)(20.6%×m)(6.7%×m)(20.6%×m)随机67.9±8.0 62.9±8.560.1±9.161.0±8.560.8±9.460.2±9.261.6±5.860.2±6.457.3±4.359.9±3.469.6±4.364.5±5.6GFKD77.8±11.1 72.6±10.465.2±7.762.1±7.061.3±4.062.5±3.667.2±5.565.1±5.464.7±3.364.1±3.070.2±3.468.1±3.9DFAD-GNN87.8±6.9 85.6±6.771.0±3.169.7±3.570.0±4.269.9±5.373.1±4.374.9±3.172.1±2.771.2±2.075.4±2.475.7±2.3(90.8%×t)(88.5%×t)(94.7%×t)(92.9%×t)(89.4%×t)(89.3%×t)(91.3%×t)(93.5%×t)(86.3%×t)(85.3%×t)(81.8%×t)(82.1%×t)学生GCN-5-32 GCN-1-128GCN-5-32GCN-1-128GCN-5-32GCN-1-128GCN-5-32GCN-1-128GCN-5-32GCN-1-128GCN-5-32GCN-1-128(3.3%×m)(10.6%×m)(3.3%×m)(10.6%×m)(3.3%×m)(10.6%×m)(3.3%×m)(10.6%×m)(3.3%×m)(10.6%×m)(3.3%×m)(10.6%×m)随机58.9±19.3 55.6±21.159.4±10.155.6±8.159.2±8.457.9±8.052.3±2.455.1±2.855.6±4.455.3±5.559.3±3.757.7±4.2GFKD70.0±11.2 69.1±10.365.0±8.261.9±8.562.9±7.761.4±8.863.5±5.365.2±5.765.7±2.664.2±1.965.3±2.665.1±2.7DFAD-GNN74.1±9.3 76.4±8.867.7±2.967.9±3.567.2±5.065.7±3.769.5±4.868.6±5.470.3±1.269.8±1.869.9±1.370.4±1.9(76.2%×t)(79.0%×t)(90.3%×t)(90.5%×t)(85.8%×t)(83.9%×t)(86.8%×t)(85.6%×t)(84.2%×t)(83.6%×t)(75.8%×t)(76.4%×t)学生GAT-1-128GAT-532GAT-1-128GAT-532GAT-1-128GAT-532GAT-1-128GAT-532GAT-1-128GAT-532GAT-1-128(164.6%×m)(84.5%×m)(164.6%×m)(84.5%×m)(164.6%×m)(84.5%×m)(164.6%×m)(84.5%×m)(164.6%×m)(84.5%×m)(164.6%×m)(84.5%×m)随机63.9±17.3 57.5±20.360.0±7.159.4±6.759.8±6.460.6±5.653.6±4.552.9±2.156.3±3.658.1±3.357.6±4.155.8±4.3GFKD72.5±13.8 70.4±11.963.2±6.562.7±7.062.2±6.862.8±7.963.7±4.664.4±5.266.2±2.364.9±3.767.8±3.568.3±4.4DFAD-GNN76.9±6.9 77.3±5.966.4±3.968.0±4.767.8±4.966.0±4.768.4±3.968.0±4.771.1±1.670.5±2.573.5±2.672.3±2.7(79.5%×t)(79.9%×t)(88.5%×t)(90.7%×t)(86.6%×t)(84.3%×t)(85.4%×t)(84.9%×t)(85.1%×t)(84.4%×t)(79.7%×t)(78.4%×t)学生KDRANDOMGFKDDFAD-GNNGraphSAGEGraphSAGE-5-32-1-128(5.9%×m)(11.1%×m)87.8±12.182.8±9.862.2±17.4 57.8±22.767.7±12.9 68.1±12.176.5±7.3 75.9±6.5(79.1%×t)(78.5%×t)GraphSAGEGraphSAGEGraphSAGEGraphSAGEGraphSAGEGraphSAGEGraphSAGEGraphSAGEGraphSAGEGraphSAGE-5-32-1-128-5-32-1-128-5-32-1-128-5-32-1-128-5-32-1-128(5.9%×m)(11.1%×m)(5.9%×m)(11.1%×m)(5.9%×m)(11.1%×m)(5.9%×m)(11.1%×m)(5.9%×m)(11.1%×m)61.1±7.059.9±6.957.4±8.555.7±6.352.6±2.853.2±2.954.6±3.655.5±2.754.6±4.554.4±4.062.5±5.963.0±6.663.3±7.761.8±7.962.3±5.263.1±6.063.3±2.364.7±3.263.6±3.864.0±3.766.9±3.767.5±3.969.0±6.167.8±5.467.5±4.969.0±3.468.9±1.169.6±2.171.3±3.169.1±2.9(89.2%×t)(90.0%×t)(88.1%×t)(86.6%×t)(84.3%×t)(86.1%×t)(82.5%×t)(83.4%×t)(77.3%×t)(74.9%×t)表2:六个数据集的测试准确度(%)。GIN-5-128表示5层GIN,128个隐藏单元。(6.7%m)表示学生模型参数占教师模型参数的百分比,m为教师模型参数的个数。(90.8 DFAD-GNN下的%t)表示学生模型精度与教师模型精度的百分比,t是相应教师网络的精度(a) PTC MR(b)IMDB-BINARY(a) 蛋白质类(b)胶原图3:不同损失函数的评估(教师模型为GIN-5-128)。因此,我们采用GIN作为表2中的教师模型。我们选择了两个具有代表性的体系结构1-128和5-32用于四种学生模型(更多关于其他体系结构的实验可以在附录D中找到)。从表2可以看出,KD这这也意味着我们的DFAD-GNN的损失函数在将知识从教师模型提取到学生模型方面非常有效,因为我们在KD和DFAD-GNN中应用了相同的损失函数我们还观察到,由于生成器在训练过程中没有更新,因此RANDOM提供了最差的性能,因此随着学生模型的进展,生成器将无法生成困难图。因此,学生模型不能从老师那里学到足够的知识,导致效果不佳。就我们的DFAD-GNN的功效而言,表2显示图4:使用不同百分比的真实数据进行训练。两条线的交叉表示实现无数据性能所需的真实训练数据的百分比。我 们 的 DFAD-GNN 始 终 优 于 最 近 的 无 数 据 方 法GFKD[Deng和Zhang,2021]。我们推测DFAD-GNN能够显著优于GFKD的潜在原因是教师在自己的特征空间下对原始输入图的分布特征进行了编码。GFKD中的简单反转图倾向于过拟合存储在该教师模型中的部分分布信息。因此,它们生成的伪图缺乏普遍性和多样性。相比之下,我们生成的图更有利于将教师模型的知识转移到学生模型。在稳定性方面,从表2可以看出,我们的DFAD-GNN的标准差在所有无数据基线和所有数据集中最小,表明我们的模型可以获得相对稳定的预测结果。另一个有趣的观察是,压缩模型的性能不一定比更复杂的模型差从表2中可以看出,5-32的更压缩学生模型的性能+v:mala2277获取更多论文(a) IMDB-B实图(b)PTC MR实图(a)PTC MR(b)IMDB-B图5:节点数N的影响(注意,GFKD从[10,22]中随机抽取每个图的节点数比1-128的学生模型更差。因此,我们推测学生模型的性能可能与模型压缩的程度没有明显的关系,这需要进一步的研究。4.7模型分析模型比较。在这里,我们选择蛋白质和COL-LAB分别在分子数据集和社会数据集上具有最多的训练数据进行交叉训练。 从图2可以看出,当GIN作为教师模型时,无论采用哪种类型的学生模型,学生模型的整体性能都更好。当GIN用作学生模型时,与其他学生模型相比,学生模型的性能显著提高。我们推测这可能有两个原因:(1)在相同的层数和隐藏单元数下,GIN模型比GCN和GraphSAGE模型具有更多的参数,因此GIN具有更强的学习能力。注意,虽然GAT比GIN有更多的参数,但它在计算节点注意力权重和执行节点分类任务方面可能更好;(2)GIN是为了解决图同构问题而提出的。对于我们的小分子图和社会网络图,GIN在图分类任务中比其他模型更强大损失函数的选择损失的选择对成功的蒸馏是至关重要的。我们解释了五个潜在的损失函数,包括logit-MAE(计算MAE与pre-softmax激活,简称L-MAE),softmax-MAE(计算MAE与softmax输出,简称S-MAE),MSE,KLD,和交叉熵(简称CE)。这些损失通常用于知识传播文献[Gouetal. ,2021]。图3显示,使用MAE可以获得比其他损失函数更好的测试精度。一般来说,在softmax之前计算MAE更好,因为logits包含更多的信息。如前所述,当学生模型与教师模型更紧密地匹配时,其他损失函数往往会遭受消失梯度[Fanget al. ,2019]。具体来说,通过生成器反向传播这种消失的梯度可能会损害其学习。为了防止梯度消失,我们使用MAE计算,教师和学生的逻辑。训练数据的百分比。虽然在上述报告的结果中,我们假设学生无法获得任何训练数据。然而,在实践中,学生可能有部分(c)IMDB-B伪图(d)PTC MR伪图图6:IMDB-B和PTC MR上的图形可视化(第一行是真实图形,第二行是我们生成的假图形获取训练数据。为了反映知识蒸馏的实际场景,我们对PTC MR和IMDB-B进行了额外的实验,通过将训练数据的百分比从0.5%变化到100%,同时保持其他超参数与之前的实验相同。如图4所示,PTC MR需要17.1%的真实数据才能实现我们的结果,而IMDB-B仅需要5.6%。这是因为PTC MR的数据较少,因此所需的实际数据百分比高于IMDB-B。生成的节点数。为了探索节点数N对模型性能的影响,我们在PTC MR和IMDB-B上进行了不同大小N从图5中可以看出,当N取接近训练集中节点平均数的值时,模型性能更好。远离平均值,由于与实际数据的较大偏差,性能将相应下降生成的图形的可视化。IMDB-B和PTC MR的生成图和实际图如图6所示。虽然生成的图与真实的图不完全相同,但可以用来生成性能相对较好的学生模型。5结论本文介绍了一种基于图神经网络的无数据对抗知识提取框架,用于模型压缩。在没有任何真实数据的情况下,我们成功地减少了差异,并获得了性能相对较好的学生模型。我们对图分类的大量实验表明,我们的框架可以有效地应用于不同的网络架构。在未来,我们将把这项工作扩展到多教师场景,并继续探索如何在各种生成器结构下生成更复杂致谢本 课 题 得 到 国 家 自 然 科 学 基 金 部 分 资 助( No.62192784 , U20B2045 , 62172052 , 61772082 ,62002029,U1936104)。也是sup--部分由中央大学基础研究基金2021RC28移植。+v:mala2277获取更多论文引用[ArjovskyandBottou , 2017]MartinArjovskyandLe'onBottou.训练生成对抗网络的原则性方法。arXiv预印本arXiv:1701.04862,2017。[Bahrietal.MehdiBahri,Gae'tanBahl,andStefanosZafeiriou.二元图神经网络在CVPR中,第9492-9501页[Bojchevski et al. Aleksandar Bojchevski , OleksandrShchu r,DanielZügner,andStephanGünnemann. net-gan:通过随机游走生成图ICML,第610-619页PMLR,2018年。[Chang and Lin ,2011] Chih-Chung Chang and Chih-JenLin. Libsvm :支持向量机库。ACM transactions onintelligent systems and technology(TIST),2(3):1[De Cao and Kipf,2018] Nicola De Cao and Thomas Kipf.Molgan:一个小分子图的隐式生成模型arXiv预印本arXiv:1805.11973,2018。[Deng and Zhang,2021] Xiang Deng and Zhongfei Zhang.图 神 经 网 络 的 无 图 知 识 提 取 。 ArXiv ,abs/2105.07519,2021。[Fang et al. ,2019] Gongfan Fang,Jie Song,ChengchaoShen,Xinchao Wang,Da Chen,and Mingli Song.无数据对抗蒸馏。arXiv预印本arXiv:1912.11006,2019。[Fang et al. 方刚凡,莫侃雅,王新潮,宋杰,贝世涛,张浩飞,宋明丽。无数据知识提炼速度提高100倍。arXiv预印本arXiv:2112.06253,2021。[Gilmer et al. Justin Gilmer , Samuel S Schoenholz ,Patrick F Riley,Oriol Vinyals,and George E Dahl.量子化学的神经信息传递。ICML,第1263-1272页。PMLR,2017年。[Goodfellow et al. Ian Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,SherjilOzair,Aaron Courville,and Yoonne Bengio.生成对抗网络。NeurIPS,27,2014.[Gou et al. ,2021] Jianping Gou,Baosheng Yu,StephenJ Maybank,and Dacheng Tao. 知识蒸馏:一项调查。国际计算机视觉杂志,129(6):1789[Hamilton et al. William L Hamilton,Rex Ying,and JureLeskovec.大图上的归纳表示学习。在第31届神经信息处理系统国际会议论文集,第1025-1035页[Hinton et al. 2015年]杰弗里·辛顿,Oriol Vinyals和杰夫·迪恩。在神经网络中提取知识。arXiv预印本arXiv:1503.02531,2015年。[Jing et al. Yongcheng Jing , Yiding Yang , XinchaoWang,Mingli Song,and Dacheng Tao.融合来自异构图神经网络的知识。在CVPR中,第15709-15718页[Kipf and Welling , 2016] Thomas N Kipf and MaxWelling.图 卷 积 网 络 的 半 监 督 分 类 。 arXiv 预 印 本arXiv:1609.02907,2016。[Liu et al. Yuang Liu , Wei Zhang , Jun Wang , andJianyong Wang.无数据知识转移:一项调查。arXiv预印本arXiv:2112.15278,2021。[Lopes et al. Raphael Gontijo Lopes,Stefano Fenu和ThadStarner。深度神经网络的无数据知识蒸馏。arXiv预印本arXiv:1710.07535,2017。[Lu et al. , 2021] Yuanfu Lu , Xunqiang Jiang , YuanFang,and Chuan Shi.学习预训练图神经网络。在AAAI,第35卷,第4276-4284页[Niepert et al. Mathias Niepert, Mohamed Ahmed ,andKonstantin Kutzkov.学习图的卷积神经网络。在机器学习国际会议上,第2014-2023页。PMLR,2016.[Sun et al. 孙丽超,窦颖彤,Carl Yang,Ji Wang,PhilipS Yu,何丽芳和李波。图数据的对抗性攻击和防御:一项调查。arXiv预印本arXiv:1812.10528,2018。[Velickovic 'etal.,2017]PetarVelickovic,GuillemCucurull, ArantxaCasanova , AdrianaRomero,Pietro Lio,and Yoeli Bengio.图注意力网络。arXiv预印本arXiv:1710.10903,2017。[Wu et al. ,2020] Zonghan Wu,Shirui Pan,FengwenChen , Guodong Long , Chengqi Zhang , and S YuPhilip. 图神经网络综述。IEEE transactions on neuralnetworks and learning systems,32(1):4[Wu et al. Chuhan Wu , Fangzhao Wu , Yang Cao ,Lingjuan Lyu , Yongfeng Huang , and Xing Xie.Fedgnn:用于隐私保护推荐的联邦图神经网络。arXiv预印本arXiv:2102.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功