基于图神经网络的整体知识提取

20 浏览量更新于2023-10-13 收藏 917KB PDF 举报

图神经网络

知识蒸馏

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10387基于图神经网络的整体知识提取周胜1，2*，王玉成1*，陈德芳1，车吉伟3，王欣4，王灿1，卜家军1<$1浙江大学浙江省服务机器人重点实验室2浙江大学软件学院3中国科学技术大学4清华大学{zhousheng zju，wangyuc，defchen}@ zju.edu.cn，cjwustc@ustc.edu.cn，xinwang@tsinghua.edu.cn{wcan，bjj} @ zju.edu.cn摘要知识蒸馏（KD）旨在将知识从一个更大的优化教师网络转移到一个更小的可学习的学生网络。现有的知识发现方法主要考虑了两类知识，即个体知识和关系知识。然而，这两种类型的知识通常是独立建模，而它们之间的内在联系在很大程度上被忽视。充分的学生网络学习的关键是在保持其内在联系的同时整合个体知识和关系知识。在本文中，我们提出了提取新的整体知识的基础上构建的属性图之间的实例。通过图神经网络聚合关系邻域样本中的个体知识，将整体知识表示为一个统一的基于图的嵌入，学生网络通过对比提取整体知识来学习。在基准数据集上进行了大量的实验和消融研究，结果表明了该方法的有效性。代码已在 https://github.com/wyc-ruiker/HKD上发布1. 介绍深度神经网络（DNN）在各种应用中取得了巨大的成功[11，26，10，25，7，36]。然而，它们的成功在很大程度上依赖于大量的计算和存储资源，而这些资源在嵌入式和移动系统中通常是不可用的。为了在保持满意的同时降低成本，提出了知识蒸馏[12]，将知识从一个较大的训练有素的教师网络转移到一个较小的可学习的学生网络，希望*同等贡献†通讯作者输入数据主干输出个体KD关系KD整体KD图1. 个人/关系/整体知识蒸馏的比较。蓝色圆圈表示教师代表，绿色圆圈表示学生代表。红色箭头表示从教师网络到学生网络的知识转移。整体KD中的黄色区域指示统一的基于图形的表示。所传递的知识将有益于学生网络。从教师网络中提炼出的知识在知识提炼中起着核心作用。在现有的知识提取方法中，两类知识得到了广泛的研究，即个体知识和关系知识。个体知识独立地从每个数据实例中提取，并提供比离散标签更有利的监督，包括logits[12]，特征表示[27，21]和特征图[24，35，17]等。关系型知识[22，18，20，16]是从对教师网络和学生网络的结构之间的差异不变的实例中提取的。尽管上述两种类型的知识是成功的，但是现有方法已经独立地提取它们，忽略了它们的内在相关性。然而，单独提取的每种类型的知识将不足以用于学生网络学习，特别是当教师网络的能力有限时。直观地说，10388个体知识和关系知识可以看作是同一教师网络的两个视图，它们是自然相关的。紧密相关的实例往往具有相似的个体特征和共享模式，这对于更具区分性的学生网络学习至关重要。在保持个体知识和关系知识内在联系的同时，将二者有机地结合起来是知识提炼的首要任务。为了解决上述局限性，我们提出了一种基于图神经网络的全局K-神经元我们引入了一种新的整体知识，它是个体知识和关系知识的整合。给定教师和学生网络学习的特征表示和预测，我们首先为每个网络构建属性图，其中每个节点表示一个实例，节点属性表示学习的特征表示，实例之间的边由预测上的K-最近邻（KNN）构造。受图神经网络（GNNs）[10，16]最近在同时建模网络拓扑和节点属性方面的成功启发，我们通过从属性图中的邻域样本中聚合节点属性来提取整体知识，表示为统一的基于图的嵌入。图1说明了个体知识、关系知识和整体知识之间的比较。我们还从理论上证明了现有的个体知识和关系知识在一定条件下是整体知识的特例。给定由基于图的嵌入表示的整体知识，知识蒸馏的朴素方式是直接对齐来自教师和学生网络的相同实例的嵌入。然而，由于学生网络通常具有比教师网络更低的能力，因此强制对齐基于图的嵌入对于传递邻居和整体知识中的共享模式来说过于严格。相反，HKD旨在最大化来自教师和学生网络的基于图形的表示之间的互信息，其以对比的方式使用InfoNCE估计器[19]进行优化。整体性知识通过两种方式指导学生网络学习：一是学生应该学习与教师网络相似的实例特征和关系邻域;第二，学生应该从属性图中的邻域实例中捕获相似的模式。采用记忆库技术进一步提高了训练效率。最后，我们将我们的贡献总结如下：1. 我们提出了整体知识蒸馏（HKD），一种新的方法，有效地提取整体知识的学生网络学习。2. 所提出的HKD方法采用图神经网络的作品，同时整合个人和关系型知识的统一表示，保留了它们之间的内在联系。3. 我们在基准数据集上进行了大量的实验，以评估HKD的性能和整体知识的动机，结果表明所提出的HKD方法的有效性。2. 相关工作知识蒸馏。知识蒸馏首先被引入作为一种神经网络压缩技术，其最小化教师和学生网络的输出日志之间的KL分歧[1，12]。与离散标签相比，教师网络预测的相对概率倾向于编码类别之间的语义相似性，这对学生网络学习很重要[12]。已经提出了一些后续工作来扩大其适用性，例如在logits [30，3]，中间层[24，35，4，17]或dis-logits [30，3]上添加正则化。[33，34]。然而，上述方法独立地提取包含在每个实例中的知识，而忽略了实例之间的关系，这对于实现鲁棒和通用的学生模型是至关重要的。为了弥补这个缺点，关系知识蒸馏[20]通过蒸馏实例和关系知识提出。给定特定层1，GKD[14]在内部表示的余弦相似性上构建基于KNN的图，并且权重表示两个实例之间的接近强度。但它要求教师网络和学生网络的层数相同，这并不总是令人满意的。然后通过引入跨层的特征空间变换提出IRG[18]。在MHGD[16]中，使用注意力网络将关系级知识提取到图中，并通过最小化嵌入的教师和学生图之间的KL散度来优化。最近的作品[27，32]已经纳入了对比学习，并取得了鼓舞人心的结果。CRD[27]通过最大化教师和学生网络之间的交互信息来SSKD[32]在教师和学生网络中分别执行对比学习，然后通过最小化来自两个网络的自监督模块为了清楚地表明我们的方法的最关键的贡献，我们不使用中间信息，并在实验部分与依赖于它的那些方法进行比较。图神经网络图神经网络（GNNs）[13，10]旨在通过集体聚合来自图结构数据中的邻域实例的信息来学习节点表示。学习的表示可以对单个特征以及实例之间的关系进行建模，这对于数据理解至关重要10389∈∈Y{···}X{···}·∈∈ΣΣ。Σs st不ing.从这个属性中获益，GNN在网络/图形表示之外的许多学习任务中取得了显著的进步[37，39，38]，包括COM。计算机视觉[9，15]，自然语言处理[23，2]和建议[6，5]等。尽管在其他领域取得了成功，但据我们所知，GNN尚未探索知识蒸馏，我们是第一个这样做的人。3. 预赛3.1. 背景和注释给定一个数据集 =x1，x2，，xN关于K-带相应标签的图片=y1，y2，，yN，其中N表示数据集中的样本的数量。我们将具有固定参数W t的良好优化的深度神经网络称为教师网络，将具有可训练参数W s的相对较浅的神经网络称为学生网络[12]。教师和学生网络学习的特征表示为ftRdt和fsRds，它们主要用于关系知识提取。值得注意的是，dt和ds可能不同，特别是当教师和学生网络架构不同时。由教师和学生网络预测的logit表示为zt和zs，它们主要用于个人知识蒸馏。3.2. 香草知识蒸馏香草知识蒸馏的一般思想是从教师网络预测的软目标中提取知识[12]。软目标由具有温度缩放的Softmax函数产生：ezi/τ4. 模型如前所述，整体知识被期望整合个人知识和关系知识。受图神经网络在同时建模网络拓扑结构和节点属性方面的最新成功的启发，我们利用图神经网络从教师网络中提取在下一小节中，我们将详细说明拟议的整体知识蒸馏（HKD）方法。4.1. 属性上下文图构造给定一批实例，我们首先将它们馈送到教师网络和学生网络中，以获得特征表示ft，fs以及预测pt，ps。然后，我们建立两个属性图Gt={At，Ft}和Gs ={At，Ft}。{As，Fs}用于教师网络和学生网络，其中FtRN×dt，FsRN× ds 是图中节点的属性，这里我们直接使用由教师和学生网络学习的特征表示;At，As是基于由教师和学生网络预测的预测pt，ps的At=（pt），As=（ps）（4）其中（）是基于KNN的图构造函数。注意，图Gt是固定的，因为教师网络已经被很好地优化，而图Gs将在节点属性和图拓扑两者的训练期间被上面定义的属性图具有以下性质：首先，与现有的关系知识提取方法所建立的实例间全连通图相比，KNN图将过滤掉最多的实例pi（z;τ）= Softmax（z;τ）=Kk=1 ezk/τ（一）不相关的样本对。这是特别重要的，因为在随机采样中只有少数样本是相关的。其中Zi是第i类的对应logit，并且温度τ通常被设置为1。使用更高的τ值将在类上产生更软的概率分布。然后通过最小化由教师和学生网络产生的软目标pt和psN批处理并为节点表示学习提供足够的信息其次，该图能够对类间和类内信息进行建模，因为边缘是基于预测构建的。来自两个高度相关类的样本将具有形成边缘的高概率。最后，可以直接从属性上下文图与图神经网络。LKD（ps，pt）=1 KLps，pt（2）Ni=14.2. 整体知识蒸馏在vanilla KD中，学生网络也使用硬标签进行训练，总损失可以形式化为：L=LCE（p，y）+λLKD（p，p）（3）其中λ是平衡重量。LCE是交叉熵受图神经网络在同时建模网络拓扑和节点属性方面的巨大成功的启发，我们将拓扑自适应图卷积网络（TAGCN）[8，13]应用于属性上下文图Gt和Gs以提取整体知识。我们使用基于图的表示Ht∈RN×g和(CE)硬标签和预测之间的损失。Hs∈RN×gs表示教师网络和学生网络10390教师代表教师预测k教师网络NNRe图构建教师图神经网络图构建学生图神经网络…K学生网络交叉熵NNN训练数据学生代表学生预测地面实况LΣNX·不J1IJ我我L我LJNΣ我我教师图表演示互信息基于学生表示图2.港元方法的整体框架。三个主要组件经过精心设计：图构造、图神经网络和互信息估计来表示、定义和提取整体知识。学生模型是在地面真值标签和整体知识的互信息的指导下训练的。整体知识，其可以计算为：通过最大化基于图的表示Ht和Hs之间的互信息来生成网络：Ht=Σ .D−1/2AtD−1/2ΣlFtΘt（五）L=−I（Ht，Hs）（7）t tll=0Σ。ΣlL保持Ws，Θt， Θs其中I（·）表示两个随机变量之间的互信息Hs=Ds−1/2AsD−s1/2FsΘsl=0（六）dom变量在最近成功的相互信息的启发下，信息估计，我们使用InfoNCE估计器[19]来测量互信息，其被定义为：其中，gt、gs是基于图的表示的维度sentation，D =At是的对角度矩阵，将第l跳的结果加在一起的可学习权重ΣΣN不SN i=1f（ht，hs） Σ教师网络，Ds矩阵也是如此，Θs和Θt是I（H，H）≥E日志1ef（ht，hs）（八）这里我们设L=1。一个好的学生网络有望提炼出整体从教师网络中学习类似的知识基于图的表示Hs与Ht。存在用于测量它们的比对的若干矢量度量，包括余弦相似性、欧几里德距离等。然而，这些度量不适合整体知识蒸馏，因为教师和学生网络通常具有不同的网络结构，在表示能力之间存在差距。因此，直接对齐相同实例的基于图形的表示Hs和Ht可能是过度细化的。为了克服这些限制，我们使用互信息（MI）[28]来衡量从教师网络到学生网络的整体知识量。假设我们给出一组具有经验概率分布P的训练实例，在将实例推送通过教师和学生网络之后，基于图的表示将服从概率分布HtPt和HsPs。我们希望培养学生其中f（）是向量相似性函数，我们使用这里的余弦相似性，ht，hs是基于图的表示，我通过教师网和学生网络整体知识提炼的目标可以表述为：L=LCE+βLHOL（9）其中β是线性组合的权重。4.3. 有效的培训由于InfoNCE估计器使用数据集中的所有实例作为负样本，因此对于大规模数据集，使用图神经网络计算整体知识蒸馏损失是计算昂贵的。为了避免在训练期间重新计算每个实例的表示，广泛使用的MemoryBank[31]策略用于存储它们。然而，在HKD方法中，属性上下文图Gt和Gs是在具有随机采样实例的小批量上构造的。因此，基于图形的DNDNLej=110391∈·i=1BBD港元我j=1，j我J数据集来评估建议的HKD方法。然后我们D{}i=1我我j=1，j=f（hs，我我J（十）5. 实验表示Ht和Hs反映了不同属性图中的整体知识，它们不应存储在存储库中，并作为负样本。为了克服这一限制，同时提高效率的HKD方法，我们保持两个存储器银行的教师网络和学生网络，其中的特征表示ft，fs被存储，并作为负样本的训练。近似的整体知识蒸馏损失可以用公式表示为：Nf（ht，hs）关联KD方法通过这些方法[20，22，29，27]捕获的实例的成对关系可以通过将特征矩阵Ht，HsRN × N设置为特征表示Ft，Fs的相似性来轻松实现：Ht=φ（Ft，Ft），Hs=φ（Fs，Fs）（12）其中φ（）是向量相似性函数。对于不估计互信息的方法，它们可以被视为没有负样本的等式（8）L=loge i我保持ef（ht，hs）+ΣNef（ht，fs）+logeiief（hs，ht）+Nef（hs，ft）我在本节中，我们首先进行模型压缩和基准测试上的表示可移植性实验港元方法的整体架构载于算法1.算法1整体知识蒸馏。输入：训练数据集=（xi，yi）N;具有参数Wt的预训练的教师模型;具有随机初始化参数Ws的学生模型;输出：训练有素的学生模型;一曰：当Ws不收敛时第二章：小批量取样尺寸B从3：前向传播到Wt和Ws中以获得特征表示ft，fs和预测pt，ps。第四章：构造属性上下文图Gt和Gs。5：通过等式（5）、（6）利用图神经网络提取整体知识。6：如等式（10）计算基于图形的表示之间的互信息。7：通过反向传播等式（9）中的损失的梯度来更新参数W s。第八章： end while4.4. 用现有方法为了进一步说明HKD的一般性，我们提供了一个理论分析，许多现有的知识提取方法可以被看作是我们的方法在一定条件下的特殊情况。基于特征的KD方法。基于特征的KD方法是流行的，其仅提取由教师网络学习的特征与HKD相比，这些方法[29，12，35，21]忽略了物质之间的关系，这可以通过在HKD中设置L=0或A=diag（N）Ht=FtΘt， Hs=FsΘs（11）对图形构建进行多次消融研究，并图神经网络，以验证其有效性。Fi-最后，对HKD方法的超参数灵敏度进行了实验分析5.1. 基线比较了最近提出的几种知识提取方法，将其分为两类。它们的主要区别如图1所示。(1) 个体知识蒸馏：这组方法捕获个体实例中包含的知识，包括vanilla KD [12]中的logits，AT[35]中的注意力图以及CRD [27]和SSKD [32]中的特征表示。(2) 关系知识蒸馏：这组方法捕获成对的关系知识，包括PKT [21]，RKD[20]，CCKD [22]，SP[29]。我们使用这些方法的官方实现，并遵循标准实验设置。对于SSKD方法，我们删除了数据增强，使训练样本与其他方法一致。5.2. 模型压缩实验设置。模型压缩是知识提取的最基本应用之一。学生网络是通过从固定的教师网络和地面实况标签中提取知识来学习的我们将我们的方法与最近在CIFAR100，TinyImageNet和ImageNet数据集上使用不同教师和学生网络架构的几项工作进行了比较，分别如表1，表2和表3所示所有结果报告为五次运行的分类准确度的平均值和方差。为了获得关于定量改进的直观感觉，我们采用平均相对改进（ARI）作为先前的工作[27]：MAri= 1Σ接入ACC-加计BKD×100%我（十三）其中diag（·）是对角矩阵。M i=1我BKD -接入STU我我10392港元BKD斯图××表1.在CIFAR100数据集上测试学生网络的准确度（%），该数据集将蒸馏方法与KD相结合。老师ResNet32×4ResNet8×4ResNet32×4ShuffleNetV2VGG13MobileNetV2ResNet50VGG8ResNet50MobileNetV2ARI（%）学生老师79.4279.4274.6479.3479.34/学生72.79 ±0.2672.63 ±0.7165.33 ±0.6370.56 ±0.3265.33 ±0.63KD73.55 ±0.2074.80 ±0.1574.68 ±0.0773.99 ±0.0574.44 ±0.1474.18 ±0.0975.64 ±0.2575.80 ±0.5875.38 ±0.5276.51 ±0.1676.16 ±0.1676.02 ±0.3475.81 ±0.2075.64 ±0.2476.41 ±0.3676.36 ±0.3868.08 ±0.2466.37 ±0.1368.08 ±0.9468.46 ±0.3768.54 ±0.2168.24 ±0.4669.82 ±0.2269.12 ±0.5473.76 ±0.0973.91 ±0.2474.19 ±0.2773.50 ±0.2073.48 ±0.1673.81 ±0.1174.41 ±0.3174.68 ±0.2267.83 ±0.4666.81 ±0.1168.42 ±0.3968.18 ±0.5768.92 ±0.1668.52 ±0.1469.86 ±0.0469.53±0.43126.48%AT+KD152.84%PKT+KD55.63%SP+KD80.89%CC+KD58.96%RKD+KD72.15%CRD+KD15.32%SSKD+KD18.86%港元HKD+KD75.63 ±0.2276.13± 0.0576.31 ±0.3076.92± 0.2269.97 ±0.4270.48± 0.2574.86 ±0.1774.88± 0.3069.83 ±0.1570.72± 0.3212.94%/表2.在结合蒸馏方法和KD的TinyImageNet数据集上测试学生网络的准确度（%）老师学生ResNet32×4ResNet8×4ResNet32×4ShuffleNetV2VGG13MobileNetV2ResNet50VGG8VGG13VGG8ARI（%）老师57.9257.9252.0255.4452.02/学生49.91 ±0.1650.60 ±0.2344.20 ±0.2247.00 ±0.1747.00 ±0.17KD52.28 ±0.0754.79 ±0.2354.11 ±0.1854.22 ±0.4154.08 ±0.3253.78 ±0.1555.53 ±0.4155.10 ±2.0557.27 ±0.0357.56 ±0.3858.33 ±0.3658.66 ±0.2558.20 ±0.0657.85 ±0.2458.95 ±0.0557.48 ±0.0445.39 ±0.5945.13 ±0.6047.73 ±0.3148.10 ±0.5947.67 ±1.1448.10 ±0.2649.12 ±0.0447.02 ±0.9051.50 ±0.3651.42 ±0.4251.45 ±0.2851.70 ±0.1250.87 ±0.2051.01 ±0.2352.87 ±0.3052.36 ±0.3651.34 ±0.0851.03 ±0.2851.61 ±0.2851.51 ±0.3251.07 ±0.3350.59 ±0.3252.25 ±0.2651.60 ±0.16123.18%AT+KD122.61%PKT+KD35.51%SP+KD29.98%CC+KD44.12%RKD+KD46.70%CRD+KD7.88%SSKD+KD35.51%港元HKD+KD55.53 ±0.0756.18± 0.1258.83 ±0.0959.31± 0.0149.53 ±0.3249.57± 0.5452.20 ±0.2053.30± 0.3351.97 ±0.3352.62± 0.0310.48%/其中M是不同架构组合的数目，测试观察是HKD方法不受限制的操作和访问，访问i，访问i指的是...的准确性相同的教师和学生网络架构。更香港迪士尼乐园、基本知识提炼方法及定期受训的学生网络。结果和分析。基本的观察是，我们的方法优于传统的学生网络和基线方法对大多数教师和学生对。即使没有KD损失，我们提出的HKD方法仍然达到了相当的性能。这证明了HKD方法在从教师网络中提取整体知识以指导学生网络学习方面的有效性。我们还发现，现有的关系型知识提取方法并不总是优于个体知识提取方法。这意味着，由于对齐实例之间的所有关系对而产生的噪声信号可能会损害学生网络的学习，从而激励我们基于KNN的图结构进行噪声过滤。另一间-令人惊讶的是，我们发现，当教师和学生网络具有不同的结构时，HKD方法有时例如，在TinyImageNet数据集上，当教师网络固定为ResNet32 4架构时，学生获得了12.56%的改善ResNet8 4建筑学。但是，17.21%的改善在传统的学生网络是获得时，学生-dent使用ShuffleNetV2。当学生网络采用VGG8架构时，教师网络采用VGG13架构时，性能提高了11.95%采用ResNet 50架构的教师网性能提高了13.4%.这证明了利用互信息来测量教师和学生网络10393表3.在ImageNet数据集上测试学生网络的准确率（%）竞争方法的结果由[4]得到。方法教师学生KD FitNet AT SP VID CRD HKD Top-1准确度73. 54 53. 78 53. 73 51. 46 52.83 51. 73 53. 97 53. 7654. 07表4. 学生网路之表征可传递性实验。学生网络在CIFAR100数据集上进行训练线性分类器的学生网络的冻结表示进行评估。T：ResNet32x4，S：ShuffleNetV278777675T：VGG13，S：MobileNetV2717069图3. CIFAR100数据集上HKD方法整体知识定义的消融研究。T：ResNet32x4，S：ResNet8x4767472MSE JSD MB HKDT：VGG13，S：MobileNetV27068MSE JSD MB HKD限制于相同的网络架构。5.3. 代表权可转让性实验设置。为了评估学生网络学习的表示的可转移性，我们遵循现有作品的实验设置[27，21，35]并将HKD与多个基线方法进行比较。我们首先在CIFAR100 数据集上训练学生网络，并使用它来获取TinyImageNet和STL-10数据集上每个数据实例的表示。然后，我们冻结这些表示，并使用随机初始化的线性分类器来评估性能，以测量学生网络结果和分析。表 4 显示了从 CIFAR100 数据集到TinyImageNet和STL 10数据集的表示可转移性的实验结果。其中，HKD在所有传输的数据集上都取得了更好的性能，这证明了HKD方法学习的表示的可移植性我们还观察到，传统的KD方法比学生网络表现更差。这表明，仅将逻辑转移到学生网络将限制代表的可转移性，从而促使香港迪士尼在统一的框架内转移整体知识。5.4. 消融研究为了进一步显示提取整体知识的益处，我们在CIFAR100数据集上设计消融研究。我们测试了教师和学生网络的相似和不同的架构。图4. CIFAR100数据集上HKD方法训练策略的消融研究。图构造与图神经网络。在HKD方法中，图构造和图神经网络在定义整体知识方面起着关键作用。为了探索不同图构造策略的影响，我们测试了两种图构造策略：随机图构造（Rand）和全连通图构造（FC）。为了证明图神经网络在结合图拓扑和实例特征方面的优越性，我们比较了两种基本的基于图的表示学习策略：总和合并（Sum）和均值合并（Mean）。图3显示了消融研究结果。我们可以观察到，利用K-最近邻和图神经网络的HKD方法实现了最佳性能，证明了HKD方法的有效性。培训战略。在HKD方法中，我们利用具有图形独立存储库的互信息来指导整体知识转移。为了验证这种训练策略的优势，我们与以下策略进行比较：第一个是均方误差（MSE），用于度量表示之间的相似性;第二种是在没有存储体的情况下，每个小批中具有少量负样本的JS散度（JSD）;第三种方法是使用内存库（MB）直接存储基于图的表示。图4示出了消融研究结果。我们可以观察到HKD方法取得了比比较策略更好的性能，证明了我们的有效性-精度精度数据集TinyImageNetSTL-10T：ResNet50S：MobileNetV230.79 ±0.0123.01 ±0.0570.16 ±0.0761.42 ±0.10KDAT+KDPKT+KDSP+KDCC+KDRKD + KDCRD + KDSSKD +KD22.92 ±0.1325.02 ±0.0126.04 ±0.1124.98 ±0.0825.68 ±0.0326.10 ±0.0328.98 ±0.0524.24 ±0.0261.25 ±0.0962.05 ±0.0663.71 ±0.0562.25 ±0.1362.52 ±0.1063.26 ±0.0365.87 ±0.1061.78 ±0.0210394老师1.00.80.60.40.2学生1.00.80.60.40.276.476.276.075.875.675.475.2T：ResNet32x4S：ResNet8x4246810121416K（一）77.577.076.576.075.5T：ResNet32x4S：ShuffleNetV2246810121416K（b）第（1）款CRD+KD1.00.80.60.40.20.0HKD+KD1.00.80.60.40.20.076.576.276.075.875.575.275.0T：ResNet32x4S：ResNet8x40.51.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0β（c）77.577.076.576.075.575.0T：VGG13S：ShuffleNetV20.51.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0β（d）图5. 四个网络的HeatMap可视化。颜色表示实例对之间的相似性强度。使用互信息来测量对齐，使用InfoNCE来估计互信息和记忆库以进行有效的训练。5.5. 可视化和分析为了深入研究结果之外的本质，我们在可视化的基础上进行我们首先训练一个网络，然后随机选择一批具有32个实例的数据。这些实例被输入四个网络：教师网、学生网、CRD和HKD。我们使用余弦相似性来衡量预测之间的成对相似性，并使用不同的颜色来表示不同的相似性强度。图5显示了实验结果。每个块表示两个实例之间的成对余弦相似性。较深的颜色表示较高的余弦相似性，而较浅的颜色表示较低的余弦相似性。从该图中，我们有以下观察结果：首先，大多数对在批实例之间具有表面相似性。这意味着大多数实例对彼此不相似，这激发了HKD方法对整体知识进行建模，而不是研究所有实例对之间的关系。其次，与学生网络和CRD网络相比，我们提出的HKD方法具有与教师网络更相似的可视化结果。这证明了HKD方法在从教师网络中提取整体知识方面的有效性。5.6. 超参数调整在本小节中，我们调整CI-FAR 100数据集上的超参数以测试HKD方法的灵敏度。更具体地说，我们测试了K-最近邻中的邻居数和损失函数中的β图6-（a）和图6-（b）示出了最近邻的数量的影响。基本的观察是，图6. HKD方法的超参数调整。子图的第一行表示关于邻居的数量的超参数调谐结果。子图的第二行表示β上的超参数调谐结果。HKD是不是很敏感的邻居的数量在图的构造，因为性能变化不大，不同数量的邻居。当我们选择8个邻域实例时，我们在两个测试的教师网络和学生网络结构中获得了最好的性能。当邻居的数量大于8时，我们观察到性能下降，这与图神经网络的过度平滑有关。图6-（c）和6-（d）说明了β对HKD方法的影响我们可以观察到HKD方法随不同的β而略有变化。这是合理的，因为整体知识对于不同的β具有不同的重要性。6. 结论提出了一种基于图神经网络的整体知识提取方法。与现有的方法相比，整体知识在保留个体知识和关系知识内在联系的同时，将两者有机地结合在一起。利用图神经网络（GNNs）从关系邻域样本中聚合特征表示来提取整体知识学生网络是在整体知识的监督下以对比的方式进行训练的。在基准数据集上进行了大量的实验，以评估HKD的性能和动机，结果证明了HKD方法的有效性。7. 确认本课题得到了国家重点研究发展计划（批准号：2000000000）的资助。2018 YFB 1403202）、国家自然科学基金（批准号：61972349，U1866602）清华国强研究中心（批准号2020 GQG 1014）和阿里巴巴-浙江大学前沿技术联合研究院。测试精度测试精度10395引用[1] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？神经信息处理系统的进展，第2654-2662页，2014年[2] 丹尼尔·贝克，戈拉姆雷扎·哈法利，和特雷弗·科恩。使用门控图神经网络的图到序列学习。arXiv预印本arXiv：1806.09835，2018。[3] 陈德芳，梅建平，王灿，闫峰，陈春。与不同的同行进行在线知识蒸馏。在AAAI，第3430-3437页[4] Defang Chen ， Jian-Ping Mei ， Yuan Zhang ， CanWang，Zhe Wang，Yan Feng，and Chun Chen.跨层蒸馏与语义校准。arXiv预印本arXiv：2012.03236，2020。[5] Jiawei Chen，Yan Feng，Martin Ester，Sheng Zhou，Chun Chen，and Can Wang.利用社会知识影响力和消费影响力对用户的曝光度进行建模，并进行推荐在第27届ACM信息和知识管理国际会议论文集，第953-962页[6] Jiawei Chen，Can Wang，Sheng Zhou，Qihao Shi，YanFeng，and Chun Chen.Samwalker：具有信息抽样策略的社会推荐。在万维网会议上，第228 - 239页，2019年。[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会：人类语言技术，第4171-4186页，2019年。[8] Jian Du，Shanghang Zhang，Guanhang Wu，Jose 'MFMoura，and Soummya Kar.拓扑自适应图卷积网络。arXiv预印本arXiv：1710.10370，2017。[9] 维克多·加西亚和琼·布鲁娜。图神经网络的少样本学习arXiv预印本arXiv：1711.04043，2017。[10] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。神经信息处理系统进展，第1024-1034页，2017年[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[12] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[13] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[14] Carlos Lassance ， Myriam Bontonou ， Ghouthi BoukliHacene，Vincent Gripon，Jian Tang，and Antonio Or-tega.用图形进行几何知识的深层提炼。在ICASSP2020-2020 IEEE 声学，语音和信号处理国际会议（ICASSP），第8484-8488页。IEEE，2020年。[15] 李中伟、方伟、叶志宽、王玉强。使用结构化知识图的多标签零射击学习。 InProceedings of the IEEEConference计算机视觉和模式识别，第1576- 1585页，2018年。[16] Seunghyun Lee和Byung Cheol Song基于图的多头注意力网络知识提取。在BMVC，第141页，2019年。[17] Xiaojie Li，Jianlong Wu，Hongyu Fang，Yue Liao，FeiWang，and Chen Qian.知识提炼的局部相关一致性欧洲计算机视觉会议，第18-33页。Springer，2020年。[18] Yufan Liu ，Jiajiong Cao，Bing Li，Chunfeng Yuan，Weiming Hu，Yangxi Li，and Yunqiang Duan.基于实例关系图的知识提取。在IEEE计算机视觉和模式识别会议集，第7096-7104页[19] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比预测编码的表示学习。 arXiv 预印本 arXiv ：1807.03748，2018.[20] Wonpyo Park，Dongju Kim，Yan Lu，and Minsu Cho.关系知识的升华。在IEEE计算机视觉和模式识别会议论文集，第3967-3976页[21] Nikolaos Passalis和Anastasios Tefas。通过概率知识转移学习深度表示。在欧洲计算机视觉会议（ECCV）的论文集，第268-284页[22] Baoyun Peng，Xiao Jin，Jiaheng Liu，Dongsheng Li，Yichao Wu ， Yu Liu ， Shunfeng Zhou ， and ZhaoningZhang.知识蒸馏的相关同余。在IEEE计算机视觉国际会议论文集，第5007-5016页[23] Afshin Rahimi，Trevor Cohn，and Timothy Baldwin.通过图卷积网络的半监督用户地理定位。arXiv预印本arXiv：1804.08049，2018。[24] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets：薄而深的网的提示。arXiv预印本arXiv：1412.6550，2014。[25] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集，第4510-4520页[26] David Silver ， Julian Schrittwieser ， Karen Simonyan ，Ioannis Antonoglou，Aja Huang，Arthur Guez，ThomasHubert，Lucas Baker，Matthew Lai，Adrian Bolton，etal.在没有人类知识的情况下掌握围棋。Nature，550（7676）：354[27] Yongl

下载后可阅读完整内容，剩余1页未读，立即下载