基于图过滤的标签有效半监督学习方法

174 浏览量更新于2023-10-17 收藏 676KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于图过滤的李启迈1吴晓明1刘汉1张晓彤1关志超121香港理工大学，2浙江大学{csqmli，csxmwu，cshliu，csxtzhang}@ comp.polyu.edu.hk，zcguan@zju.edu.cn摘要基于图的方法已被证明是半监督学习最有效的方法之一，因为它们可以利用标记和未标记数据样本之间的连接模式来提高学习性能。然而，现有的基于图的方法要么是有限的，在他们的能力，联合建模图结构和数据特征，如经典的标签传播方法，或需要大量的标记数据的训练和验证，由于高模型的复杂性，如最近的基于神经网络的方法。在本文中，我们从图过滤的角度来解决标签有效的半监督学习。具体来说，我们提出了一个图形过滤框架，将图形相似性注入到数据特征中，将它们作为图形上的信号，并应用低通图形过滤器来提取有用的数据表示进行分类，其中可以通过方便地调整图形过滤器的强度来实现标签效率有趣的是，这个框架统一了两种看起来非常不同的方法在图过滤框架下重新审视它们会带来新的见解，从而提高它们的建模能力并降低模型复杂性。在四个引文网络和一个知识图上进行的各种半监督分类任务以及一个零拍摄图像识别的半监督回归任务的实验验证了我们的发现和建议。1. 介绍深度学习和神经网络的成功是以大量标记数据和长时间训练为代价的。半监督学习[13]很重要，因为它可以利用大量可用的未标记数据来辅助监督学习，从而大大节省了人工标记的成本，麻烦和时间。许多研究表明，*通讯作者如果使用得当，未标记的数据可以显著提高学习性能[64，31，32]。利用未标记数据的一种有效方法是将数据表示在一个图中，其中每个标记或未标记的样本是一个顶点，然后对顶点之间的关系进行建模。对于某些应用，如社会网络分析，数据表现出自然的图形结构。对于其他一些应用，如图像或文本分类，数据可能以矢量形式出现，并且通常使用数据特征来构造图然而，在许多情况下，图仅部分编码数据信息。以引文网络中的文档分类为例，文档之间的引文链接形成一个图，表示它们之间的引用关系，每个文档表示为一个描述其内容的词袋特征向量。为了正确地对文档进行分类，需要同时考虑引文关系和内容信息，因为它们包含文档信息的不同方面。对于基于图的半监督学习，关键的挑战是利用图结构以及其他信息，特别是数据特征来提高学习性能。尽管取得了许多进展，但现有方法在利用多种形式的数据信息进行学习的能力方面仍然有限。经典的标签传播方法只利用图结构对未标记的样本进行预测，这在许多情况下往往是不够的。为了超越它们的限制并联合建模图结构和数据特征，一种常见的方法是训练有监督的学习者对数据特征进行分类，同时用图相似性正则化分类器。流形正则化[4]用图拉普拉斯正则化器训练支持向量机。深度半监督嵌入[53]和Planetoid[56]使用基于嵌入的正则化器训练神经网络。最近，图卷积网络（GCN）[32]在半监督学习中展示了令人印象深刻的结果，这是由于其一阶卷积滤波器的特殊设计，该滤波器很好地集成了每层中的图和特征信息。的成功95829583GCN启发了许多关于半监督学习的图神经网络的后续工作[60，62]然而，尽管这些基于神经网络的模型往往具有比传统模型更强的建模能力，但由于模型复杂性高，它们通常需要大量的标记数据进行训练和验证，因此可能不是标签有效的。在本文中，我们建议从原理图过滤的角度来研究半监督其基本思想是将数据特征看作是位于编码数据样本之间关系的底层图上的信号，并使用该图设计适当的低通图卷积滤波器，以生成平滑的、有代表性的特征，用于后续分类。在这个过程中，图相似性被注入到数据特征中，以产生更可信的数据表示。它还可以通过灵活调整过滤器强度来实现标签，从而在标签较少的情况下进行学习。所提出的GLP和IGCN方法在预测精度和训练效率方面表现优异。我们的贡献总结如下。首先，我们提出了一个用于半监督学习的图过滤框架，该框架为GCN提供了新的见解，并显示了其与标签传播的密切联系。其次，我们提出了GLP和IGCN来成功地解决半监督学习中的标签第三，我们证明了所提出的方法在各种半监督分类和回归任务上的高效性和效率2. 图形过滤本节介绍图形信号、图形卷积滤波器和图形滤波的概念。符号。一个无向图G=（V，W，X），n=| V|顶点，具有非负对称仿射矩阵W∈Rn×n编码边权值，效率更有趣的是，它统一了著名的半-特征矩阵X∈R+n×m，其中m维特征监督学习方法，包括标签传播，图方法[61]和图卷积网络[32]，具有改进其建模能力的有用见解。在图过滤框架下，我们证明了标签传播方法可以分解为三个组成部分：图信号、图滤波器和分类器。在此基础上，通过对这三个组成部分的自然扩展，提出了一类广义标签传播（GLP）方法，包括使用数据特征矩阵代替标签矩阵作为输入图信号，将图滤波器扩展为任意低通图卷积滤波器，以及使用任意期望的分类器进行分类.GLP算法充分利用了数据特征、强大高效的图过滤器和有力的监督分类器的优势，在半监督学习向量与每个顶点相关联。对于半监督分类，只有一小部分顶点被标记，目标是预测其他顶点的标签用Y∈{0，1}n×l表示标号矩阵1，其中l是类的个数。在图形信号处理[44]中，图形拉普拉斯算子的特征值和特征向量对应于经典谐波分析中的频率和傅立叶基的图拉普拉斯算子定义为L = D − W，其中D是度矩阵。它可以被特征分解为L=ΦΛΦ−1 ，其中Λ=diag（λ1，···，λn）和（λi）1≤i≤n是递增阶的特征值，Φ=（φ1，· · ·，φn）和（φi）1≤i≤n是相关的正交特征向量。注意，归一化图拉普拉斯算子Lr=D−1L和对称归一化图拉普拉斯算子Ls=D−1 LD−12 2 具有与L相似的特征分解。的流行的图卷积网络（GCN）[32]也可以在图过滤框架下进行解释已经表明，GCN通过进行拉普拉斯平滑在每一层中实现图形卷积[33]。在图过滤框架下，进一步阐明了GCN的内部工作，包括重整化技巧和模型参数设置。此外，它导致一个改进的GCN模型（IGCN），更灵活和标签效率。IGCN通过在GCN的滤波器上增加一个指数参数来方便地控制滤波器的强度，可以显著减少可训练参数，并有效地防止训练数据被特征值（λ i）1≤i≤n可以被认为是频率，而相关的特征向量（φi）1≤i≤n形成傅立叶基。定义1（图形信号）。图信号是图的顶点集V上的实值函数f：V →R，它可以用向量形式表示为f=（f（v1），···，f（vn））n任何图形信号f都可以分解为基信号（φi）1≤i≤n的线性组合：Σf=Φc=cφ，（1）非常有限。我我我我们进行了大量的实验来验证我们的发现-以及所提出的方法的有效性我们测试了各种半监督分类任务，包括四个引用网络上的文档分类和一个知识图上的实体分类我们还测试了零拍摄图像识别的半监督回归任务。其中c=（c1，· · ·，cn）φ i，ci是φi的系数。系数的大小|C i|代表着1如果顶点v i的标号已知，则Y（i，：）是vi的独热嵌入，其中如果vi属于第j个类，则y i j = 1，否则yij=0。如果没有给出顶点vi的标号，则Y（i，：）是一个全零向量9584par（）prnm（）ar在信号f中呈现的基础信号φi的。众所周知，与较低频率（较小特征值）相关联的基础信号在图上更平滑[64]，其中基础信号φi的平滑度由特征值λi测量，即，1.00.50.00.51.01.00.50.00.51.0ΣW [φ（j）−φ（k）]2=φ<$Lφ=λ。（二）0.0 0.5 1.0 1.52.00.0 0.5 1.0 1.5 2.0jk i i（vj，vk）∈E我我我（a）p（λ）=（1+αλ）−1（b）prnm（λ）=（1−λ）k因此，平滑图形信号f应该主要包括低频基本信号。图过滤的基本思想是使用底层数据关系图来设计适当的图过滤器，为下游任务产生平滑的信号。图形滤波器是将图形信号作为输入并输出新信号的功能。线性图过滤器可以表示为矩阵G∈Rn×n，输出信号为Gf.在本文中，我们专注于图卷积滤波器，因为它们的线性移位-不变量属性[42]。图1：频率响应函数。作为一种简单有效的工具，它已被广泛应用于许多科学研究领域和众多的工业应用中。LP的目标是找到一个预测（嵌入）矩阵Z ∈ Rn×l，该矩阵与标号矩阵Y一致，同时在图上是光滑的，使得附近的ver-bedding-matrixtice有类似的嵌入：定义2（图卷积滤波器）。的线性图Z=argmin{||Z−Y||2+αTr（Z<$LZ）（4）滤波器G是卷积的，当且仅当存在函数p（·）：R→R，满足G=Φp（Λ）Φ−1，其中p（Λ）=Z`Zebrax2最小二乘拟合联系我们拉普拉斯正则化diag（p（λ1），···，p（λn））.函数p（·）被称为滤波器G的频率响应函数。我们用p（L）表示频率响应函数为p（·）的滤波器。为了产生平滑的信号，滤波器G应该能够保留f中的低频基础信号，同时滤除高频基础信号。通过（1），输出信号可以写为：Σf<$=Gf=Φp（Λ）Φ−1·Φc=p（λi）ciφi.（三）我在输出信号f′中，基础信号φi的系数ci被缩放p（λi）。为了保留低频信号并去除高频信号，对于小的λ i，p（λ i）应该很大，而对于大的λi ，s 应该很小。简单地说，p（·）应该表现得像经典谐波分析中的低通滤波器图1（a）示出了响应随频率增加而减小的低通函数的示例。将顶点特征作为图形信号，例如，特征矩阵X的列可以被认为是图形信号，图形滤波提供了一种将图形结构和顶点特征集成用于学习的原则性方法在下文中，我们将在此框架下重新审视两种流行的半监督学习方法其中，α是控制以下程度的平衡参数：拉普拉斯正则化在（4）中，拟合项强制预测矩阵Z与标签矩阵Y一致，而正则化项使Z的每一列沿着图边缘平滑。上述无约束二次优化的封闭形式解可以通过对目标函数求导并将其设置为零来获得：Z=（I+ αL）−1Y。（五）然后，通过简单地比较Z（i，：）中的元素或首先对Z的列应用某种归一化来对每个未标记的顶点vi进行分类[63]。3.1. 重新访问标签传播从图过滤的角度来看，我们表明LP由三个组成部分组成：信号、滤波器和分类器。我们可以从（5）中看到，LP的输入信号矩阵简单地是标签矩阵Y，其中每列Y（：，i）可以被认为是图形信号。注意，在Y（：，i）中，只有类i中的标记顶点的值为1，其他顶点的值为0。LP的图形滤波器是自回归（AR）滤波器[48]：par（L）=（I+αL）−1=Φ（I+αΛ）−1Φ−1，（6）频率响应函数：p（λ）=1.（七）=3= 10= 5= 20k= 1k= 3k=2K= 495853. 重新访问和扩展标签传播arI1 +αλi标签传播（LP）[63，61，5]可以说是基于图的半监督学习最流行的方法。请注意，这也适用于规范化图拉普拉斯。如图1（a）所示，par（λi）是低通的。任何9586Sα >0，当λi接近0时，par（λi）接近1，随着λi的增大，par（λi）减小并接近0对信号Y（：，i）应用AR滤波器将产生平滑信号Z（：，i），其中相同类别的顶点具有相似的值半监督学习引起了广泛关注。GCN模型由三个步骤组成。首先，通过向每个顶点添加自循环来对邻接矩阵W应用所谓的重正化技巧，从而产生新的而I类的值比其他类的值大，邻接cy矩阵W=W+I与度矩阵集群假设参数α控制AR滤波器的强度。当α增加时，滤波器变得更D=D+I，然后将其对称归一化为W=D−1WD−1。第二，定义分层propag a-低通（图1（a）），并将产生更平滑的信号。最后，LP在嵌入上采用非参数分类器的标签S2操作规则：2H（t+1）=σ.ΣWsH（t）Θ（t）、（9）未标记的顶点vi由yi=arg maxjZ（i，j）给出。3.2. 广义标记传播方法上述分析表明，LP只考虑了给定的图W和标签矩阵Y，而没有使用特征矩阵X。这是它在处理提供W和X的数据集时的主要限制之一，例如，引文网络在这里，我们提出了广义标签传播（GLP）的方法，自然扩展其中H（t）是馈送到第t层的激活矩阵，并且H （0）=X，Θ（t）是层中的可训练权重矩阵，并且σ是动作函数，例如， ReL U（·）=max（0，·）。图卷积被定义为将每一层的输入与从左起的重正化邻接矩阵Ws 相乘，即， W=H（t）。然后将卷积特征馈送到投影矩阵Θ（t）中。第三，堆叠两层并在输出上应用softmax函数生成预测矩阵的特征：LP的三个组成部分• 信号：使用特征矩阵X而不是标签Z=softmax.WsReLU.ΣWsXΘ（0）ΣΘ⑴ 、（10）矩阵Y作为输入信号。• 滤波器：滤波器G可以是任何低通图卷积滤波器。• 分类器：分类器可以是在标记顶点的嵌入上训练的任何分类器。GLP由两个简单的步骤组成首先，低通滤波器将 G 应用于特征矩阵 X 以获得平滑特征矩阵X<$∈Rn×m：X<$=GX。（八）第二，监督分类器（例如，多层感知器、卷积神经网络、支持向量机等）使用标记顶点的过滤特征进行训练，然后将其应用于未标记顶点的过滤特征以预测其标签。GLP具有以下优点。首先，通过将图关系注入到数据特征中，它可以为下游分类任务产生更有用的数据表示。其次，它提供了使用计算效率高的滤波器的灵活性，并方便地调整其强度，以适应不同的应用场景。第三，它允许利用针对高维数据特征的强大的域特定分类器，例如，用于文本数据的多层感知器和用于图像数据的卷积神经网络4. 图卷积的然后用标记样本上的交叉熵损失训练模型。4.1. 再论图卷积网络在本节中，我们将在图过滤框架下解释GCN，并解释其隐含的设计特征，包括规范化图拉普拉斯算子的选择和邻接矩阵上的重规范化技巧。GCN利用滤波器W（ t）和信号矩阵H （t）在每一层中进行图形滤波。我们有一个W=I−Ls，其中Ls是图W 的对称归一化图拉普拉斯算子。特征分解 Ls 为Ls=ΦΛΦ−1，则滤波器为Ws=I−Ls=Φ（I−Λ）Φ−1，（11）具有频率响应功能p（λi）=1−λi。（十二）显然，如图1（b）所示，该函数在[0，1]上是线性和低通的，但在[1，2]上不是。可以看出，通过执行所有的图形卷积，（10）中的解决方案首先，即，通过用内部ReLU函数交换第二层中的重正化邻接矩阵，GCN是GLP的特殊情况，其中输入信号矩阵是X，滤波器是W*2，分类器是是一个两层多层感知器（MLP）。我们还可以看到，GCN钉在两个共熔层上，因为W=2网络安全9587最近提出的图卷积网络（GCN）[32]在以下方面表现出卓越的性能：比W s更低通，这可以从图中看出。1（b）（1−λ）2比（1−λ）更低通，因为更难抑制大的特征值。9588SSSSdm+11.01.0通过用Wk替换滤波器W s：0.50.00.50.0Z=softmax.WkReLU.ΣWkXΘ（0）ΣΘ⑴ .（十三）0.51.00.00.51.01.52.00.51.00.00.51.01.52.0我们称prnm（Ls）=Wk为重整化（RNM）滤波器，具有频率响应函数1.00.5(a) 1−λ1.00.5(b) 1−λ˜人民民主党（λ）=.ΣkI−λ.（十四）0.00.51.00.00.51.01.52.0(c)（1−λ）20.00.51.00.00.51.01.52.0(d)（1−λ）2IGCN可以通过使用指数k来方便地调整过滤强度来实现标记效率。通过这种方式，它可以保持具有合理数量的可训练参数的浅层结构，以避免过拟合。5. 滤波器强度和计算图2：重正化技巧的效果。左二图-ures plot points（λi，p（λi））. 右两个图形标绘点（λi，p（λi））。为什么要使用归一化图拉普拉斯算子？GCN使用规范化的拉普拉斯Ls，因为Ls的特征值落在[0，2][18]中，而未规范化的拉普拉斯L的特征值落在[0，+∞]中。如果使用L，则（12）中的频率响应将放大[2，+∞]中的特征值，这将引入噪音和破坏性能。为什么重正化技巧有效？我们在图中说明了GCN中使用的重整化技巧的效果。2，其中L s和Cora引文网络工作中的L是相对于V绘制的。We可以看到，通过向每个顶点添加自循环，特征值的范围从[0，2]缩小到[0，1.5]，这避免了放大2附近的特征值并降低了噪声。因此，尽管响应函数（1-λ）k不是完全低通的，但重正化技巧缩小了本征值的范围values和makesL类似于低通滤波器。可以证明了如果Ls的最大特征值为λm，则Ls的所有特征值都不大于dm λm，其中AR和RNM滤波器的强度分别由参数α和k控制。然而，为不同的应用场景选择合适的α和k并非易事。应该考虑的一个重要因素是标签率。直觉上，当每个类中的标签非常少时，应该增加过滤强度，使得远处的节点可以具有与标记的节点相似的特征表示，以便于分类。然而，过度平滑通常会导致不准确的类边界。因此，当标签率相当大时，希望降低滤波器强度以保持特征多样性，以便学习更准确的类边界。图3可视化了由RNM滤波器产生并由t-SNE投影的Cora的原始和过滤特征[49]。可以看出，随着k增加，RNM滤波器产生更平滑的嵌入，即，过滤后的特征表现出更紧凑的簇结构，使得可以用较少的标签进行AR滤波器par（L）=（I+αL）−1的计算涉及矩阵求逆，这是计算上昂贵的，复杂度为O（n3）。幸运的是，我们可以通过使用多项式近似p ar来解决这个问题。扩展：dm是所有顶点的最大度。4.2. 改进的图卷积网络（I+αL）−1=11+α+∞W1+αi=0时Σi，（α> 0）。（十五）当前GCN模型的一个显著缺点是不能容易地控制过滤器强度。增加过滤器然后我们可以计算出X<$=par(L) X迭代，强度和产生更平滑的特征，必须堆叠多个层。然而，由于在每一层中，卷积通过ReLU与投影矩阵耦合，因此堆栈X′（0）=O，···，X（i+1）α=X+WX1+α（i）设置许多层将引入许多可训练参数。当标签率很小时，这可能会导致严重的过拟合，或者需要额外的标签数据进行验证和模型选择，这两者都不是标签有效的。为了解决这个问题，我们提出了一个改进的GCN模型（IGCN）95891+α设X<$=1X′（k）。根据经验，我们发现k=4α因此，计算复杂度降低到O（nmα+Nmα）（注意X的大小为n×m），其中N是L中非零元素的数量，当图是稀疏的时，N<$n29590S(a) 原始特征（b）k= 1(c)（d）k= 10图3：原始和过滤后的Cora特征的可视化（通过使用具有不同k的RNM过滤器）。表1：数据集统计。数据集顶点边缘类特征科拉2,7085,42971433CiteSeer3,3274,73263703PubMed19,71744,3383500大科拉11,88164,898103780Nell65,755266,1442105414测试两个场景-每个类4个标签和每个类20个标签。在NELL上，我们测试了三种情况基线。我们将GLP和IGCN与最先进的半监督分类方法进行比较：Manifold正则化（ManiReg）[4]，半监督嵌入（SemiEmb）[53]，DeepWalk [40]，迭代分类算法（ ICA ） [43] ， Planetoid [56] ，图形注意力网络（GAT）[51]，多层感知器（MLP），LP [54]和GCN[32]。设置. 我们使用MLP作为GLP的分类器，F或RNM滤波器prnm（Ls）=Wk=.ΣkI−Ls，注意GLP和IGCN与RNM和AR过滤器。我们一起来[32]对所有神经网络使用两层结构，包括对于稀疏图，（ I-Ls ）是稀疏矩阵。因此，计算X<$=prn m（Ls）X的最快方法是将X乘以（I-Ls）重复k次，其计算复杂度为O（N s）。6. 实验为了验证我们的方法GLP和IGCN的性能，我们对各种半监督分类任务和零拍摄图像识别的半监督回归任务进行了实验6.1. 半监督分类对于半监督分类，我们在两个任务上测试了我们的方法GLP和IGCN。21）引文网络上的半监督文档分类，其中节点是文档，边是引文链接。其目标是用少量标记文档对文档类型进行2)知识图上的半监督实体分类从知识图[ 56 ]中提取了一个二分图，有两种节点：实体和关系，其中边在实体和关系节点之间。其目标是对只有少量标记实体节点的实体节点进行分类。数据集。我们在四个引文网络上评估了我们的方法数据集统计总结见表1。在引文网络上，我们2代码可在https://github.com/liqimai/Efficient-SSLing MLP，GCN，IGCN.根据我们在第5中的分析，如果标签率小，则滤波器参数k和α应该设置得大，如果标签率大，则应该设置得小具体来说，当引用网络上每个类有20个标签或NELL的10%实体被标记时，我们将RNM的k=5， GLP中的AR过滤器的α=10。在其他标签较少的情况下，我们将GLP设置为k=10，α=20。为IGCN选择的k，α等于上述k，α除以层数我们遵循[32]设置MLP，GCN，IGCN的参数：对于引文网络，我们使用具有16个隐藏单元的两层网络，0. 01学习率，0. 5的丢失率和5×10−4的L2正则化，除了隐藏层被扩大到64个单位之外，对于大Cora;对于NELL，我们使用具有64个隐藏单元的两层网络，0。01学习率，0. 1的丢弃率和1 ×10−5的L2正则化。为了更公平地比较不同的基线，我们不使用验证集进行模型选择与[32]中一样，我们选择200步中训练损失最小的模型所有结果均为数据集50次随机分割的平均值。对于引用网络，我们将LP的α设置为100，对于NELL设置为10GAT的参数与[51]相同其他基线的结果取自[56，32]。GLP和IGCN的性能。结果总结在表2中，其中前3个分类准确度以粗体突出显示。总体而言，GLP和IGCN表现最好。特别是当标签率非常小时，它们的表现明显优于基线。具体来说，在引文网络上，每个类别有20个标签，GLP和IGCN的表现略好于GCN和GAT，但比其他基线好得多。每个标签4个9591表2：引文网络和NELL的分类准确性和运行时间标签率每类20个标签每类4个标签10% 1%0.1% Cora CiteSeer PubMed大号Cora Cora CiteSeer PubMed大号Cora NELLIGCN（RNM）80.9（1.2秒）69.0（1.7秒）77.3（10.0秒）68.9（7.9秒）70.3（1.3秒）57.4（1.7秒）69.3（10.3秒）52.1（8.1秒）85.9（42.4秒）76.7（44.0秒） 66.0（46.6秒）IGCN（AR）81.1（2.2秒）69.3（2.6秒）78.2（11.9秒）69.2（11.0秒）70.3（3.0秒）58.0（3.4秒）70.1（13.6秒）52.5（13.6秒）85.4（77.9秒）75.7（116.0秒）67.4（116.0秒）GLP（RNM）80.3（0.9秒）68.8（1.0秒）77.1（0.6秒）68.4（1.8秒）68.0（0.7秒）56.7（0.8秒）68.7（0.6秒）51.1（1.1秒）86.0（35.9秒）76.1（37.3秒） 65.4（38.5秒）GLP（AR） 80.8（1.0s）69.3（1.2s）78.1（0.7s）69.0（2.4s）67.5（0.8s）57.3（1.1s）69.7（0.8s）51.6（2.3秒） 80.3（57.4秒）67.4（76.6秒） 55.2（78.6秒）表3：AWA2中未看到的类的结果方法设计SYNC GCNZ GPM DGPM ADGPMIGCN（RNM）GLP（RNM）k=1 k=2 k=3 k=2 k=4 k=6准确度59.7 46.6 68.0（1840秒）77.3（864秒）67.2（932秒）76.0（3527秒）77.9（864秒）77.7（1583秒）73.1（2122秒） 76.0（12秒）75.0（13秒）73.0（11秒）类，GLP和IGCN显着优于所有的基线，证明他们的标签效率。在NELL上，使用RNM滤波器的GLP和IGCN以及使用AR滤波器的IGCN的性能略优于两个非常强的基线表2还报告了我们测试的方法的运行时间。我们可以看到，在大多数情况下，使用RNM过滤器的GLP运行速度比GCN快得多，而使用RNM过滤器的IGCN具有与GCN相似的时间效率。结果分析。与仅使用图形信息的方法相比，与LP和DeepWalk相比，GLP和IGCN的巨大性能增益显然来自图和特征信息的杠杆化。较使用图形和特征信息的方法，例如，GCN和GAT、GLP和IGCN的标记效率更高。原因是它们允许使用更强的滤波器来提取更高级别的数据表示，以在标签率较低时提高性能，这可以通过增加滤波器参数k和α来轻松实现。但这在最初的GCN中并不容易实现。如第4节所述，为了提高平滑度，GCN需要堆叠许多层，但是深度GCN很难用很少的标签来训练。6.2. 半监督回归所提出的GLP和IGCN方法也可以用于半监督回归。在[52]中，GCN用于具有回归损失的零拍摄图像识别。在这里，我们用GLP和IGCN替换[52]中使用的GCN模型，以测试它们在零拍摄图像识别任务上的性能。[52]中的零镜头图像识别是学习一个视觉分类器，用于零训练样本的类别，只有类别的文本描述和类别之间的关系。特别是，给定已知类别的预训练CNN，[52]建议使用GCN来学习CNN最后一层中未见过类别的模型/分类器权重该方法首先将每个类别的词嵌入和所有类别之间的关系（Word-Net知识图）作为GCN的输入，然后在CNN的最后一层用已知类别的模型权重训练GCN，最后预测未知类别的模型权重。数据集。我们在ImageNet [41]基准上评估我们的方法和基线。ImageNet是根据WordNet层次结构组织的图像数据库。ImageNet的所有类别通过“是一种”关系形成一个图比如，吊桥是一种桥，桥是一种建筑，建筑是一种人工制品。根据[52]，每个类别的词嵌入是通过GloVe文本模型从维基百科学习的[39]。基线。我们将我们的方法GLP和IGCN与六种最先进的零拍摄图像识别方法进行比较，即Devise [22]，SYNC[12]，GCNZ [52]，GPM [29]，[29]第29话：的预测精度ManiReg59.560.170.7-----63.441.321.8SemiEmb59.059.671.7-----65.443.826.7DeepWalk67.243.265.3-----79.572.558.1ICA75.169.173.9-62.249.657.4----小行星75.764.777.2-43.247.864.0-84.575.761.9GAT79.568.276.267.466.655.064.646.4---MLP55.1（0.6秒）55.4（0.6秒）69.5（0.6秒）48.0（0.8秒）36.4（0.6秒）38.0（0.5秒）57.0（0.6秒）30.8（0.6秒）63.6（2.1秒）41.6（1.1秒）16.7（1.0秒）LP68.8（0.1秒）48.0（0.1秒）72.6（0.1秒）52.5（0.1秒）56.6（0.1秒）39.5（0.1秒）61.0（0.1秒）37.0（0.1秒）84.5（0.7秒）75.1（1.8秒）65.9（1.9秒）9592这些基线是从他们的论文中摘录的。值得注意的是，GPM模型正是我们的IGCN，k=1。设置. ImageNet中有21K个不同的类。我们将它们分成训练集和测试集，类似于[29]第10段。ResNet-50模型在ImageNet 2012上使用1 k个类进行预训练。CNN最后一层中这1000个类的权重用于训练GLP和IGCN，以预测剩余类的权重。零拍摄图像识别的评估是在AWA2数据集上进行的[55]，AWA2数据集是ImageNet的子集对于IGCN和GLP的分类器（MLP），我们都使用了具有2048个隐藏单元的两层结构。我们测试了IGCN的k=1，2，3和GLP的k=2，4，6。将结果平均20次运行。性能和结果分析。结果总结在表3中，其中前3个分类准确度以粗体突出显示。我们可以看到，k = 1，2的IGCN和GPM [29]表现最好，并且显著优于其他基线，包括Devise [22]，SYNC [12] ，GCNZ [52] 和DGPM [29]。与基线相比，k=2的GLP是第二好的，仅略低于GPM。我们观察到较小的k在此任务上实现更好的性能，这可能是因为应该为回归任务保留特征（分类器权重）的多样性[29]。这也解释了为什么DGPM[29]（通过添加距离节点来扩展节点邻域）的性能不是很好。还值得注意的是，通过用k=3的2层IGCN和k=6的GLP替换GCNZ中的6层GCN，成功率从68%提高到约73%，证明了我们的方法的低复杂度和训练效率。另一件值得注意的事情是，GLP的运行速度比GCNZ快数百倍，比其他人快数十倍。7. 相关作品有大量关于半监督学习的文献[13，64]，包括生成模型[2，31]，半监督支持向量机[6]，自训练[24]，协同训练[9]和基于图的方法[30，34，35，59]。早期的基于图的方法采用一个共同的假设，即附近的顶点可能具有相同的标签。一种方法是使用马尔可夫随机游走[45]，拉普拉斯特征映射[3]，谱核[14，57]和基于上下文的方法[40]学习平滑低维嵌入。另一种工作依赖于图划分，其中切割应该与标记的顶点一致并放置在低密度区域[7，8，28，63]，其中最流行的可能是标签传播方法[5，15，61]。在[21，23]中表明，它们可以被解释为低通图形滤波。为了进一步提高学习性能，提出了许多方法来联合建模图结构和数据特征。迭代分类算法[43]通过我们迭代地对未标记的数据读取其邻居的标签和要素。流形正则化[4]，深度半监督嵌入[53]和平面类[56]使用拉普拉斯正则化器或基于嵌入的正则化器正则化监督分类器。受卷积神经网络（CNN）在图像和视频等网格结构数据上的成功启发，一系列工作提出了各种图卷积神经网络[10，27，20，1]，以将CNN扩展到一般的图结构数据。为了避免昂贵的特征分解，ChebyNet [19]通过Chebyshev展开使用由图拉普拉斯的k阶多项式表示的多项式滤波器图卷积网络（GCN）[32]通过使用谱图卷积的局部化一阶近似进一步简化了ChebyNet，并在半监督学习中取得了有希望的结果在[33]中显示，GCN的成功是由于对数据特征执行拉普拉斯平滑。MoNet [38]表明，包括GCN在内的各种非欧几里德CNN 方法都是其特殊实例。其他相关工作包括GraphSAGE [25]，图形注意力网络[51]，基于注意力的图形神经网络 [47] ，图形分区神经网络 [36] ，FastGCN [16]，双图卷积神经网络 [65]，随机GCN[17]，贝叶斯GCN [58]，深度图infomax [50]，Lanc-zosNet [37]等。我们建议读者参考两个全面的调查[60，62]以获得更多的讨论。另一个相关的研究方向是特征平滑，它长期以来一直用于计算机图形学中的3D表面光顺[46]。[26]提出了通过使用特征平滑作为半监督学习的预处理步骤的流形去噪（MD），其中去噪数据特征用于构建用于运行标签传播算法的图MD使用数据特征来构造图，并采用AR滤波器进行特征平滑。然而，它不能直接应用于数据集，如引文网络，其中给出了图。8. 结论本文从统一图过滤的角度研究半监督学习，为经典的标签传播方法和最近流行的图卷积网络提供了新的见解在此基础上，我们提出了广义标签传播方法和改进的图卷积网络，以扩展它们的建模能力并实现标签效率。在未来，我们计划研究设计和自动选择适当的图过滤器的各种应用场景，并应用所提出的方法来解决更多的实际应用。致谢本研究得到香港理工大学1-ZVJJ和G-YBXV基金的资助9593引用[1] J. Atwood和D.毛巾扩散卷积神经网络。在神经信息处理系统会议上，第1993-2001页，2016年。8[2] S. Baluja用于面部取向辨别的概率建模：从标记和未标记的数据中学习。神经信息处理系统会议，第854-860页，1998年。8[3] M. Belkin和P.新木黎曼流形上的半监督学习。MachineLearning，56（1）：209-239，2004. 8[4] M. Belkin，P. Niyogi，and V.辛德瓦尼流形正则化：一个几何框架，用于从标记和未标记的示例中学习。Journal of Machine Learning Research，7（1）：2399-2434，2006. 一、六、八[5] Y. 本焦岛Delalleau和N.勒鲁标签传播和二次准则。半监督学习，第193-216页，2006年。三、八[6] K. P. Bennett和A.德米里斯半监督支持向量机。神经信息处理系统会议，第368-374页，1998年8[7] A. Blum和S.乔拉使用图分割从标记和未标记的数据中国际机器学习会议，第19-26页，2001年8[8] A. Blum，J. Lafford，M. Rwebangira和R.雷迪使用随机分割的半监督学习。国际机器学习会议，第13页，2004年。8[9] A. Blum和T. M.米切尔将标记和未标记的数据与联合训练相结合。计算学习理论会议，第92-100页，1998年8[10] J. Bruna，W. Zaremba、A. Szlam和Y.乐存。图上的谱网络和局部连通网络。2014年国际学习代表会议。8[11] A.卡尔森，J.贝特里奇，B.基谢尔湾塞特勒斯，E. R.Hr-uschka Jr，和T. M.米切尔迈向无止境语言学习的架构。在AAAI人工智能上，第1306-1313页，2010年。6[12] S. Changpinyo，W.- L. Chao湾Gong和F.煞用于零射击学习的合成分类器。计算机视觉和模式识别会议，第5327- 5336页，2016年。七、八[13] O. 沙佩勒湾 Schoül k opf，A. Zien等人半监督学习。麻省理工学院出版社，2006年。1、8[14] O. Chapelle，J. Weston和B. Scholkopf用于半监督学习的聚类核。神经信息处理系统会议，第601-608页，2003年。8[15] O. Chapelle和A.齐恩低密度分离的半监督分类。在《商业情报和统计国际研讨会》，第57-64页，2005年。8[16] J. Chen，T. Ma和C. 萧 Fastgcn：通过重要性采样使用图卷积网络进行在2018年国际学习代表会议上。8[17] J. Chen，J. Zhu和L.歌具有方差减少的图卷积网络的随机训练。国际机器学习会议，第941-949页，2018年。8[18] F. R.阿忠谱图论美国数学学会，1997年。5[19] M. Defferrard，X.布列松和P。范德海恩斯具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统会议，第3844-3852页，2016年。8[20] D. K. Duvenaud，D. Maclaurin，J.伊帕拉吉雷河Bom-barell，T. Hirzel、A. Aspuru-Guzik和R. P·亚当斯用于分子指纹学习的图上卷积网络神经信息处理系统会议，第2224-2232页，2015年8[21] V. N. Ekambaram，G.凡蒂湾Ayazifar和K.拉姆昌-德朗。小波正则图半监督学习。在全球信号和信息处理会议上，第423-426页8[22] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩T. Mikolov等人Devise：一个深度的视觉语义嵌入模型。神经信息处理系统会议，第2121-2129页，2013年。七、八[23] B. 吉罗山口 Gon calves，E. Fleur y，和A. S. 莫河图到信号映射的半监督学习：一个图

下载后可阅读完整内容，剩余1页未读，立即下载