没有合适的资源?快使用搜索试试~ 我知道了~
基于图的半监督分类:解决标签数据有限的问题
4174Shoestring:基于图的半监督分类与严格有限的标签数据多伦多大学林万玉,高兆林,李宝春{wanyu.lin,zhaolin.gao}@ mail.utoronto.cabli@ece.toronto.edu摘要基于图的半监督学习已被证明是最有效的分类方法之一,因为它可以利用标记和未标记样本之间的连接模式然而,我们表明,现有的技术表现不佳时,标记的数据是严重有限的。为了解决半监督学习在标记样本严重有限的情况下的问题,我们提出了一个新的框架,称为鞋带1,将度量学习纳入基于图的半监督学习的范式。特别是,我们的基础模型由一个图嵌入网络,其次是一个度量学习网络,学习语义度量空间来表示稀疏标记和大量未标记样本之间然后根据学习的语义空间对未标记的样本进行聚类来进行分类。我们经验证明了鞋带的优势,许多基线,包括图卷积网络,标签传播和他们最近的标签效率的变化(IGCN和GLP)。我们表明,我们的框架实现了最先进的性能,在低数据制度的节点分类。此外,我们证明了我们的框架在少数学习制度中对图像分类任务的有效性,miniImageNet上的显著收益(2. 57%的人3. 59%)和tieredImageNet(1. 05%,2. 70%)。1. 介绍大量标记样本的可用性使得深度学习在语音识别,自然语言处理和计算机视觉方面取得了显着的性能突破[6,18]。怎么-1代码将公开提供。这项研究得到了NSERC发现研究计划的部分支持。以往,对大量标记样本的依赖增加了数据收集的负担,使得难以将深度学习应用于标记样本极其罕见并且难以收集的低数据状态。在半监督学习(SSL)中,少量的标记样本与相对大量的未标记样本一起用于分类。在现有的半监督学习模型中,基于图的方法,例如图卷积网络和标签传播,已经被证明是用于半监督分类的最有效的方法之一,因为它们能够利用标记和未标记样本之间的连接模式来提高分类性能。鉴于其优点,在以前的少数拍摄图像分类工作中,通过考虑实例之间的关系并将数据表示为图形[4,7,8,13]来获取来自少数样本的快速知识然而,即使使用这种基于图的半监督学习,模型学习性能也会随着每个类的标记样本数量的减少而迅速下降[11]。性能下降可以解释如下。一般来说,标签作为然而,当标记样本严重受限时,即使它们的训练误差很小,它们也很有可能表现出很大的测试误差,即,过度拟合这些有限的标记数据。以图卷积网络为例,在存在足够量的标记样本的情况下,它们确实导致了具有两个卷积层的节点分类任务的最然而,当只给出几个标记样本时,它将无法有效地将标签传播到整个数据图[11]。然而,人类是特殊的学习者,能够将他们学到的知识概括为新的概念,并且能够从很少的例子中学习。在本文中,我们的目标是解决基于图的半监督学习的问题,标记的数据是严重有限的。4175在最近的研究中,特别是在图像分类任务上,有一个主要的推动力,就是通过少量学习来推广深度学习模型,以数据高效的方式学习任务。在性能最好的方法中(例如,基于梯度的[3]、基于度量学习的[16,19]和基于模型的[15])。对于少次学习,度量学习方法已经被证明是少次设置中最简单和最有效的方法之一。度量学习方法旨在通过学习嵌入的基于距离的预测规则来优化可转移嵌入。基于这一发现,除了利用标记和未标记样本之间的连接模式之外,我们还试图将尽可能多的知识从有限的标记样本转移到嵌入空间中的大量未标记样本。在我们提出的框架中,称为Shoestring的主要贡献在于,它是第一个将度量学习网络纳入基于图的半监督学习的设置中的方法。该方法简单有效,可用于提高典型的基于图的半监督学习方法的学习性能。从本质上讲,我们的框架是基于这样的想法提出的,即在低维语义空间中,存在一个嵌入,其中点簇围绕每个类的单个原型表示。更具体地说,Shoestring使用图嵌入网络联合学习每个实例到语义空间的非线性映射,并使用度量学习网络学习度量空间以表示标记和未标记样本之间的语义相似性然后,对于嵌入的未标记样本,通过基于学习的语义度量找到其最近的类原型来执行分类。我们的原始贡献的重点如下。首先,为了验证我们的框架的有效性,我们重新访问了几个基于图的半监督学习模型,如图卷积网络,标签传播及其最近从图过 滤 器 的 角 度 提 出 的 标 签 有 效 的 变 化 ( IGCN 和GLP),并通过实验证明了我们的框架相对于这些基线的优越性我们表明,我们的框架导致国家的最先进的节点分类性能在低数据制度,通过将这些图学习模型作为基础模型。其次,我们实证分析了度量学习网络中使用的基本距离函数,如余弦相似性和平方欧几里德距离。我们发现相似性度量的选择是至关重要的,因为不同度量的性能因不同的数据集以及各种标签率而异。最后,我们恶魔-2. 问题设置我们考虑图上的半监督节点分类的任务形式上,给出一个图G=(V,A,X),其中n = |V|其中V ={v1,v2,···,vn}是顶点的集合,A ∈ {0,1}n×n是表示连通的邻接矩阵,X={x1,x2,· · ·,xn}T∈ Rn×m是顶点的特征矩阵,xi∈ Rm是顶点Vi的m维特征向量.我们遵循标准的半监督分类设置,这在各种文献[1,9]中常用。给定一组标记节点Vl <$V,类标签从Y={y1,y2,y3,···,yK}和一组unla-节点分类的目标是将每个节点v∈V映射到Y中的一个类。我们假设数据域是稀疏标记的,使得节点-标签对比未标签节点的数目小得多,|Vl|≪|Vu|.我们特别感兴趣的是|Vl|是非常有限的,例如,每类1或2个标记样本,这可能出现在获得未标记样本便宜且容易的新的类,而标记样本是昂贵的或困难的。我们的最终目标是产生一个有效的分类器,用于图上的半监督节点分类,其中只有很少的标记样本可用。3. 再论基于图的半监督学习我们不试图提供一个全面的文献综述基于图的半监督学习。相反,我们选择性地提供了节点分类任务的顶级执行者所采用的基线方法,例如图卷积网络和标签传播,无论是在简单性还是表现力方面。此外,我们认为这些方法具有很大的价值,尤其是因为它们导致了文献中少量标记数据的最先进的节点分类,并且可以很容易地应用于少数学习机制中的图像分类任务[4,13]。作为原型示例,让我们考虑使用图卷积网络[9]和标签传播方法[1,21,22]的半监督图卷积网络:图卷积神经网络(GCN)是传统卷积神经网络到图域的推广。在[9]中,应用于半监督分类的GCN模型是一个两层GCN,后面是输出特征上的softmax分类器:Z=softmax(A<$ReLU(A<$XΘ(0))θ(1))(1)证明Shoestring在图像分类上的有效性˜ ˜Σ˜ ˆ ˜−1˜˜−1在少数拍摄学习制度的任务,并实现国家的-miniImageNet和tieredImageNet上的最新结果。其中A=A+I,Dii=jAij,A=D2AD2,softmax(x)=1exp(x),其中Z=1exp(x)。 的iZiii41762优化损失函数被定义为所有标记样本上的交叉熵误差:ΣΣK表1:Cora和CiteSeer的分类准确性,每个类别一个标记样本(%)。基于图过滤的变化的性能在严重低数据状态下是微不足道的。Lce=−YiklnZik(2)i∈Vlk=1其中Vl是具有标签的节点索引的集合,并且K是类/标签的数量。标签传播:标签传播是一种简单而有效的原理,它使用图结构将标签从标记的样本传播到整个数据集。从具有已知标签的节点开始,每个节点开始将其标签传播到其邻居,并且重复该过程直到收敛。由于其简单有效,文献中有几种变体[1,21,22],并已广泛用于许多科学研究领域和众多工业应用。源自平滑性考虑的替代方法产生基于图正则化的算法,其自然地导致基于图拉普拉斯算子的正则化项形式上,目标是找到与标签矩阵Y一致的嵌入矩阵Z,同时在图上是光滑的,使得附近的顶点具有相似的嵌入。Z=argmin{||2+ α Tr(Z T L Z)}(3)||2+αTr(ZTLZ)}(3)其中L=D− A是图拉普拉斯算子,D是度矩阵,α是控制拉普拉斯正则化度的参数。 一个封闭的解决方案可以可以通过对目标函数求导并将其设置为零来获得。分析本质上,半监督学习的工作,一定的假设,称为平滑性假设,必须保持。这意味着,如果两个输入x1,x2,高密度区域接近,那么相应的输出Y1、Y2也应该如此。自监督GCN和标签传播方法已被证明在许多分类任务上表现得非常这些可以解释如下。对于GCN,图卷积是拉普拉斯平滑的一种特殊形式,其通过对自身及其邻居求平均来计算顶点的新表示。关于标签传播,其目标函数的第二项是由平滑假设激发的正则化项。当标记样本的数量足够大时,GCN和标签传播都可以有效地学习数据集中在嵌入空间附近的流形的形状,从而在节点分类任务上获得优异的性能。为什么这些方法会失败?图卷积网络和标签传播本质上属于半监督学习中的局部学习算法的范畴。ing,依赖于邻域图来近似流形,假设数据密度集中在流形附近DATASETGCN IGCN(RNM)IGCN(AR)LPGLP(RNM)GLP(AR)C ITE S EER三十四 1331330306370374第三十九章. 541岁5四十二 3436384三十当只有少量标记样本时,不能正确地generalize,并且模型性能非常迅速地下降。GCN和LP的基于图过滤的变化,具有严重有限的标记样本。[12]旨在解决标签有效的半监督学习问题,图过滤的角度。他们提出了一个框架,通过将图结构作为图上的信号并应用低通图过滤器来提取下游分类任务的数据表示,将图结构引入数据特征事实上,它可以在一定程度上通过调整图过滤器的强度来实现标签效率在此框架下,分别提出了基于重正化(RNM)滤 波 器 和 自 回 归 ( AR ) 滤 波 器 的 广 义 标 签 传 播(GLP)和改进的图卷积网络(IGCN)。我们分别在Cora [14]和CiteSeer [5]上评估了不同半监督学习方法的文档分类任务,每个类都有一个标记样本。结果示于表1中。我们观察到,在标记样本严重有限的情况下,基于图过滤的变化的性能是不显著的。更具体地说,IGCN在CiterSeer上的表现比GCN差,而GLP导致Cora上的表现下降。在本文中,我们感兴趣的是利用数据的内在结构,以提高分类准确率,进一步收益时,标记的样本的数量是严重有限的。4. 拟议框架在本节中,我们将介绍我们的框架,称为鞋带,以解决基于图的半监督学习的问题,在存在严重有限的标记样本。Shoestring的架构如图所示。1,它由两个模块组成:典型的基于图的半监督学习模块/图嵌入网络,用于学习每个实例到嵌入向量的非线性映射两层GCN或标签传播模块),以及学习每个节点表示之间的语义相似性4177K交叉熵损失嵌入矩阵基于度量损失图嵌入网络服务器例如,双层GCN度量学习网络图1:鞋带框架的说明:作为一个例子,输入图包含三种不同颜色的三种类型的节点标签,其中实心节点被标记,其余节点未被标记。(1)图嵌入网络(典型的基于图的半监督学习模块,例如,GCN)学习每个节点到嵌入向量的非线性映射(2) 度量学习网络,用于学习低维语义空间中每个节点表示与每个类的质心表示之间的成对相似性为了优化Shoestring,我们使用了架构中的完整管道以及每个类在低维语义空间中的质心表示。为了简单起见,我们首先将半监督GCN作为我们的原型模型来说明我们的框架。我们还将讨论如何将其他半监督学习方法融入我们的框架,例如最近的图过滤,IGCN和GLP。在我们提出我们提出的框架之前,我们首先介绍流形假设和聚类假设[2],它们不同于光滑假设,但构成了我们构造的基础。流形假设构成了文献中几种半监督学习方法的基础,这表明高维数据位于低维流形上。聚类假设是半监督学习的最早形式之一,这意味着如果数据点/节点在同一个聚类中,则它们可能属于同一个类。如前所述,图卷积网络的设计基础是平滑假设(拉普拉斯平滑)。它在半导体上的优越性能,在我们的原型示例中是一个两层GCN,它能够通过卷积操作将图形结构注入到数据表示中。通过这种转换,数据的图形表示被鼓励位于低维流形上。此外,我们利用一个度量学习网络,能够学习一个语义度量空间来表示稀疏标记和大量未标记样本之间的语义相似性。对于未标记的样本,通过传递标记样本的语义知识来执行标记分配我们的度量学习网络包括一个相似性网络,用于学习每个节点表示与每个类的质心表示(图中的彩色十字符号)1)。特别地,每个类的质心是其在嵌入空间(图嵌入网络的输出)中的标记样本的元素平均值,如图所示。2a:具有足够标记样本的监督分类任务也可以解释如下。双层卷积变换倾向于鼓励图表示位于低维流形上,例如1cyk=| V|Σ(xl,yl)∈VkZΘ,xl(4)在嵌入空间中节点可以被区分开。出于这种直觉,我们试图利用嵌入空间中数据分布的内在结构,而半监督分类任务是在相当有限数量的标记样本下进行的。更具体地说,Shoestring的第一个组件是一个经典的基于图的半监督学习模块,其中Vk≠Vl,Z0,xl是节点xl的嵌入向量。因此,度量学习模块的输出包含每个节点与每个类的相似度值随后是softmax(输出层),每个未标记样本的标签可以分配给具有最高相似性值的类(其最近的类质心),如图所示。2b:4178可以配制为:Σexp[sim(zxl,cyl)]Lme=−(xl,yl)∈Vl对数Ki=1 exp[sim(zxl,cyi(六))]形式上,Shoestring的目标函数定义如下:(a) 每类质心。(b)标签分配。图2:我们用于语义相似性学习和标签分配的度量学习网络:(a)三种类型的实体节点分别被标记为三个类别中的样本。每个类的类质心由每个类中标记样本的元素平均值计算,如十字符号所示。(b)每个未标记的样本被分配到学习度量空间中最近的类质心的标签L鞋带=Lce+λLme(7)其中λ用于控制基于度量的学习损失的程度。优化后,Shoestring使用通过图嵌入网络和度量学习网络的前向传播,然后使用softmax(输出层)来获得最终的标签分配。我们提出的框架是相当普遍的,可以用来进一步提高几个基于图的半监督学习方法的分类性能,而标记样本的数量是非常有限的。特别是,为了适应标签传播,图过滤(IGCN,GLP)的标签效率变化到我们的框架中,我们p(i = k|x)= λ exp [sim(zΘ,xl,cyk)](五)可以简单地替换图嵌入网络模型-ΘlKi=1 exp [sim(zΘ,xl、cyi)]用这些方法中的任何一种。在实验部分,我们将以经验证明,鞋带确实可以拉,其中SIM是用于低维嵌入空间中的相似性底层的设计直觉是,在嵌入空间中,图表示倾向于位于低维流形上,其中紧密聚集的节点表示倾向于显著地提高了这些方法的分类精度,特别是当只有少量标记样本时。表2:引文网络的统计描述。被赋予类似的标签(的底层相似性函数可以是余弦相似性或负平方欧几里德距离等。我们将展示相似性度量的选择是至关重要的,其中性能因不同的数据集和各种标签率而异。Shoestring的目标函数为了优化Shoestring,我们使用了架构中的完整管道。我们的目标函数中有两个分量(一)典型的基于图的半监督学习损失。(2)基于度量的学习损失。更具体地,在GCN模块中,第一项是如等式(1)中定义的交叉熵损失。(2)而第二项是基于度量的交叉熵损失。假设我们有|VK|来自目标域中的每个类的标记样本。我们计算质心表示cyk 对于每个类,通过取|标记样本,在嵌入空间(经典图嵌入网络的输出)。|labeled samples, in the embedding space (the output ofthe classical graph embedding network). 因此,我们可以具有每个标记样本的相似性向量,其中第k个元素是该样本与类cyk的质心之间的相似性。 因此,基于度量的损失22在这里,我们使用术语(二)、5. 实验我们评估并比较了Shoestring与引用网络中半监督文档分类的最新方法,以及两个数据集上图像分类的少量学习任务miniImageNet和tieredImageNet。5.1. 引文网络的性能评价数据集。 在[11,12]之后,我们选择了四个引文网络 : Cora [14] , CiteSeer [5] , PubMed [17] 和 LargeCora。这些数据集的统计数据总结见表2。 更具体地说,对于每个引文网络,我们测试几种情况,其中每个类别的标记样本的数量从1到15不等。 此外,我们还测试D ATASETN ODESE DGESC类手术FEATURE第二章,7085. 429C ITE S EER3,327四千七百三十二PUB MED19,71744,338763一千四百三千七百500L ARGE C ORA 11,88164,898103,7804179表3:引文网络上的文档分类准确率(%)。标签费率数据集LPGCNST-CTIGCN(RNM)IGCN(AR)GLP(RNM)每类1个标签每类2个标签每类5个标签Cora CiteSeer PubMed Large Cora Cora CiteSeer PubMed Large Cora Cora CiteSeer PubMed大号Cora四十三6(0. 1)30。6(0. (1)49. 8(0. (二)二十四岁3(0. 第三章五十三1(0. 1)33. 0(0. 1)56。1(0. (二)三十七2(0. 第三章六十岁。6(0. (1)41。5(0。(1)64. 5(0。(二)四十二1(0. 第三章39岁5(0。(6)34. 1(0. (9)50。8(4. 第八章)28岁1(3. 第八章)51岁7(0. 7)45. 5(1. (0)59. 9(5. 0个)39岁6(3. 九、68岁7(0. (6)57. 0(0. (9)69. 6(4)第八章)51岁8(3. 第八章)五十四7(5. (3)48. 5(8. (4)59. 3(51)31. 第8(36)62条。7(5.(5)51。3(8. (4)67. 3(51)41. 第六条第三十五款第七十三项。1(5. 6)63。5(8. (8)71. 0(53) 53.四(三十六)41岁5(0。6)33。1(1. (0)51. 4(4. 九、三十9(4. (二)62. 6(0. (7)44. 5(1. 0)60. 4(5)第三章44. 9(4. 第五章)七十一2(0. (6)57. 6(0. (9)70。5(4)九、55. 4(4. (二)四十二3(1. 0)33. 0(1. (3)52. 1(5. 第七章)31岁6(8. 第八章)62. 7(1. (7)44. 9(1. (9)61. 6(8. 第一章四十五3(9. 四、七十二1(1. (0)58. 1(1. (2)71. 1(5. 第七章)55. 7(8. 第八章)三十八岁。4(0。(4)37。0(0. (7)54. 7(0. 第八章)三十2(2. (二)五十九6(0. 4)46. 0(0. (6)60。6(0.六、四十五2(2. 0个)七十二2(0. (4)59. 2(0. (7)69. 9(0. 第八章)55. 4(1. 第五章)37.第37章大结局7(4. (0)37. 4(19)55. 8(9. 1)27. 第八条第二十六款第五十七项。7(3. 4)46. 第一卷第十六条第六十一款。7(7. (6)44. 第八条第二十六款第七十一项。1(3. (9)59. 4(19)71. 2(9)(0) 55。七(十三)GCNIGCN(RNM)IGCN(AR)GLP(RNM)六十岁。2(0. (9)52. 2(1. (3)60。3(6. 第一章四十八0(4. 0个)69岁。1(1. 57.9(1. (4)63。3(6.(二)54.6(4. 四、70.1(2. (4)58.3(2. (7)64。7(11)56.0(8.第三章69岁。3(0. (6)57. 6(0. (8)63.3(0. 第八章)五十四2(2. (二)68岁3(0. 9)57. 7(1. (3)63。5(5. 第七章)52岁8(4. 第一章七十三。0(1. 61.7(1. (4)64。9(6. (二)五十七3(4. 第五章)73.3(2. (4)61.9(2. (7)66。4(11)58.1(8.第五章)七十二8(0. (6)61. 3(0. (8)65。0(0. 第八章)五十六4(2. 第七章)七十三。0(1. (2)64。2(1. (5)68。6(6. 第三章五十八9(4. 第五章)七十六。4(1. (3)65.8(1. (6)69. 0(7. 第一章61岁4(5)第一章76.5(3. 65.9(3. (4)70。0(13) 61. 6(9. 第五章)75. 7(0. (8)65。0(1. (1)67. 9(1. 第三章五十九9(3. 第三章GLP(AR) 69.8(3. (7)58.1(17)65.2(7)(7)55.5(26)73.5(3)(7)61.7(17)66. 2(7. (6) 57.7(26)76. 3(4. (9)65.4(21) 69岁。7(11)61. 五(三十二)GCNIGCN(RNM)IGCN(AR)GLP(RNM)六十岁。7(1. (3)51。0(1. (5)62。1(6. 第一章四十六岁。5(4)第七章)69岁。6(1. (4)54. 5(1. (7)64。4(6. 第七章)五十三3(5.(二)70.1(2. (8)54. 9(3. (2)66.4(12)2(9)(二)68岁1(0. (9)52. 3(1. (1)64. 1(1. (二)四十九7(2. 第八章)67岁4(1. 2)55。5(1. (5)64. 6(6. 第一章五十三9(4. 第七章)七十三。1(1. (4)58. 6(1. (7)67.1(6. 第七章)57.7(5. 第一章73.4(2. (8)59. 3(3. (2)67.3(12)6(9.0个)七十二3(0. 9)57. 3(1. (1)65。5(1. (二)五十六4(2. 第八章)74岁2(1. (3)62. 2(1. (5)71. 4(6. 0个)62.0(4. 第七章)七十六。4(1. (4)63。8(1. (7)71. 7(6. 第八章)62.0(5. 第一章76.7(2. (8)64. 3(3. (2)73.1(12)7(9. 第一章75. 8(0. (9)62. 5(1. (1)72.1(1. 第一章61岁3(2. 第八章)68.第68章大结局0(4. (2)53。5(17)65.5(8. (3)49. 第一卷第二十七期9(4. (1)57. 9(17)66.5(8. 2)56. 9(26)76.7(4. (1)63. 3(17)74.0(8. (2)63.1(26)我们的框架下,20标记样本每类评估- uate的性能鞋带足够的标记样本。基线。 由于Shoestring的目标是提高基于图的半监督学习方法的学习性能,我们实现了几个现有的模型作为Shoestring的基础模型,并与它们的原始实现进行了比较。这些方法是GCN [9]、IGCN(RNM)、IGCN(AR)、GLP(RNM)和GLP(AR)。此外,我们还比较了自训练和协同训练GCN的方法[11](为了简单起见,我们称这组方法为ST-CT)。实验结果在20次运行中取平均值以确保统计显著性。值得一提的是,IGCN和GLP [12]是有限标记样本下半监督学习的最先进方法。从图过滤的角度来看,它们是GCN和LP的变体[21]。更具体地,IGCN(RNM)和IGCN(AR)改变了原始GCN的邻接矩阵的重归一化 自回归滤波器(AR)和重整化滤波器(RNM)。GLP(RNM)和GLP(AR)通过图传播节点特征,而不是在LP中传播标签。输入节点特征分别使用自回归滤波器(AR)或重整化滤波器(RNM)对GLP(AR)和GLP(RNM)在传播的特征上训练分类器以生成标签。鞋带-L2鞋带-COS4180对于ST-CT [11],有四种不同的建议,包括共同训练,自训练,联合和交叉来训练GCN,以提高学习性能。更具体地说,联合训练是一个随机游走的GCN该模型可以添加标记节点的最近邻居以迭代地扩展标记集合。自训练是一个迭代过程,其中分类器为在前一步骤中已被置信度分类的未标记样本分配标签Union使用随机游走和GCN扩展训练集。交集,类似于并集,也使用两种方法,但只使用共同的预测。由于篇幅的限制,我们报告了这四种方法中最好的准确度。相似性度量。在我们的相似性网络中,我们使用了三种类型的相似性度量:基于距离的相似度分别根据L1和L2(负距离值作为相似度)和余弦相似度。更具体地说,L1通过添加两个节点的特征嵌入的绝对差来计算两个节点之间的距离,而L2添加特征嵌入的平方差另一方面,余弦相似性(COS)是内积空间的两个非零向量之间的相似性度量所有的实验都是在一台配备英特尔酷睿i7- 9700 K 8核 3 的 机 器 上 进 行 的 。 6GHz CPU 、 32GB RAM 、500GB SSD和GeForce GTX 1660 Ti GPU。参数设置。对于LP、GCN、IGCN和GLP,我们使用与[12]中相同的设置:0的情况。01学习率,0. 5dropoutrate,510−4weight decay,200epochs,16hiddenCora、CiteSeer、PubMed的单位和64个隐藏单位,大科拉。基于度量的交叉熵损失的权重在{0. 001,0。010 05,0。1}并设置为0。010 05,0。001用于COS、L1和L2相似性度量。4181结果分析。1、2和5个标记样品的结果报告我们以粗体突出显示了前3名分类准确性。由于篇幅限制,我们在附录中报告了3个和4个标记样本的结果以及使用L1距离度量的所有结果。我们可以从这些实验中得出的第一个结论是,没有任何相似性度量是一致优于其他人。我们还可以观察到具有余弦相似性的鞋带下的IGCN(AR)和GLP(AR)在总体情况下表现最好特别地,对于每个类5个标记样本,与最初的实现相比,我们提出的框架改进了0.5%正如标签率当它变小的时候,它的改善会显著增加,达到32。对于GLP(AR),Cora的性能提高了1%,每个类有1个标记样本,这表明我们的方法具有标记效率(a)Cora(b)GCN的原始表示,每个类别为了进一步研究我们的模型在具有较大比例标记样本的数据集上的性能,我们使用每个类20个标记样本来测试该场景。结果如表4所示,最佳准确度以粗体突出显示。我们的框架的一个有趣的结果是当标记的样本足够大时。事实上,已经表明,在我们的鞋带下的半监督学习方法可能非常有用,并且表4的结果显示出比基线方法更好的分类性能。对于这一事实可能有一种可能的解释,即这些半监督学习模型已经有效且可靠地生成用于后续分类的平滑和代表性特征,(c)小本经营----COS,每个类别1个(e)鞋带-COS,每类(d)鞋带-L2,每类(f)鞋带-COS,每类标记的样本的数量非常大。在嵌入空间的流形假设和聚类分析的基础上设计了一个度量学习网络,并对其进行了改进,使其性能增益进一步提高,最高可达1。7%的大科拉。Shoestring算法即使在有限的标记样本情况下也能保持较高的性能,其原因在于,Shoestring算法能够根据聚类假设和流形假设为每个类定位质心并生成标记,从而能够将尽可能多的知识从稀疏的标记样本转移到嵌入空间中大量的未标记样本中。 为了清楚地看到改进,图。图3显示了Cora的原始特征,基于原始GCN[9],每个类使用一个标记样本学习的特征嵌入,以及分别基于Shoestring-COS和Shoestring-L2学习的特征嵌入。结果表明,GCN表现不佳,每个类一个标记的样本,而我们提出的框架可以聚类更复杂,如图所示。3c和图3D.使用5个标签和20个标签使用Shoestring-COS学习的特征嵌入也在图中示出。3e和图3F,分别。计算成本。计算相似性度量的质心和相对距离所图3:Cora功能的可视化。每次迭代对应于类的数目。由于基准测试数据集没有大量的类,所以Shoestring的时间效率与原始实现相当。如表3所示,括号中的数字是每个模型执行分类的计算时间。对于每个类的1标记样本,只有0。平均时间增加5秒,平均性能提高20%5.2. 小镜头图像分类性能评价我们提出的框架也可以用于少数拍摄图像分类。少次学习[3]是学习一个分类器,即使在每个类的训练实例数量有限的情况下也能很好地泛化。情景元学习策略[20]由于其泛化性能,已被许多关于少数学习的作品所采用为了在有限数量的训练实例的情况下实现更大的改进,之前的几项工作提出考虑实例之间的关系并将数据表示为图[4,13]。特别是,TPN [13]支持4182表4:20个标记样本的引文网络上的文档分类准确率(%).表5:在miniImageNet和tieredImageNet(5向)上的少数镜头图像分类的分类准确度(%)标签费率数据集LPGCNST-CTIGCN(RNM)IGCN(AR)GLP(RNM)每类Cora CiteSeer PubMed大号Cora67岁8(0. 1)47. 7(0. (1)73. 3(0. (二)52岁5(0。第三章79岁。8(0. (7)68。1(0. (9)78。0(5. 四、67岁4(3)第八章)八十1(5. (8)70.1(9. (1)77. 第六条第五十四款第六十六项。0(18)八十9(0. (7)68。4(1. (0)77. 6(5. 第五章)68岁5(3. 九、81. 3(1. (4)68。6(1. (7)78。5(8. 第五章)68岁8(6. 四、八十7(0. (3)67。7(0. (4)77。7(0. 四、68岁1(1. 第五章)81.第81章大结局2(1. (8)68. 4(8. (6)78. 8(3. (9) 68. 七(十三)我们81.9(2. (1)69. 5(2. (4)79.7(4.四、70.5(4. 第七章)拍摄两个数据集。结果分析。结果如表5所示,每个类别的最高准确度以粗体突出显示。通过情景元学习在看不见的类的数据实例之间传播标签在这里,我们在TPN的每一集训练中将标签传播模块替换为Shoestring,并在少量图像分类任务上测试其性能。数据集。为了与以前的作品进行公平的比较,我们使用两个数据集,miniImageNet和tieredImageNet,并遵循数据预处理和从[13]中分离。miniIm- ageNet数据集是ImageNet数据集的子集,专为少镜头分类而设计。它有100个类,其中64个类用于训练,16个用于验证,20个用于测试,每个类600个与miniImageNet类似,tieredImageNet也是ImageNet数据集的一个子集,它有608个类,每个类的平均示例数为1,281。它具有34个类别的分层结构,其中20个用于训练,6个用于验证,8个用于测试。基 线 。 除 了 TPN [13] , 我 们 还 与 最 先 进 的 方 法MetaOptNet [10]进行了比较。该模型采用不同凸基学习器的元学习框架进行少量学习。特别是,该框架与岭回归和支持向量机结合,分别称为MetaOptNet-RR和 MetaOptNet-SVM 。 为 了 公 平 比 较 , TPN 和MetaOptNet都使用标准的4层卷积网络,每层64个过滤器作为其特征嵌入架构。参数设置。我们的实现遵循[13]中的参数设置,其中k-最近邻图的超参数k设置为20,标签传播参数α设置为0。99,查询数为15,结果是测试集中600个随机生成的剧集的平均值。 此外,学习率初始设置为10−3,然后miniImageNet每10,000集减半,分层ImageNet每25,000测试在半监督条件下进行,5路1-shot和5路5-shot基准数据集的结果直接从他们的论文中获得。 从实验中,我们观察到余弦相似性最适合图像分类,因此,我们只包括这种方法的结果。鞋带-TPN(COS)优于所有基线方法。特别是,“小本经营”主题方案网络(COS)取得了重大进展,在 miniImageNet 上 ( 2. 57% 的 人 3. 59% ) 和tieredImageNet(1. 05%,2. 70%)。此外,TPN下的鞋带导致国家的最先进的性能作为COM-在MetaOptNet上的测试,证明了Shoestring在少数镜头图像分类任务上的有效性。我们可以观察到,1次学习的改进甚至高于5次学习,1。765%,1。05%,表明Shoestring可以在严格限制的标记样品中提供更优越的性能。6. 总结发言在本文中,我们提出了基于图的半监督学习范式的情况下,标记的数据是非常有限的。我们提出了一个新的框架,称为鞋带,它是基于嵌入空间中的流形假设和簇假设而设计的。引文网络上的文档分类和少量学习图像分类的实验都显示出使用Shoestring的强大优势,从而在整个案例中产生了新的最先进的结果。决定我们提出的框架性能的关键因素是,通过度量学习网络,Shoestring可以将有限数量的标记样本的语义知识转移到大量的未标记样本。因此,即使只有少量标记的样本,Shoestring也可以胜过所有的基线方法。我们的经验表明,在我们的框架中相似性度量的选择用不同的相似性度量拟合不同数据集的一种策略是学习自适应相似性函数。我们把它作为我们未来的工作。模型TPNminiImageNet tieredImageNet单次拍摄 5次射击 1发5发53 .第五十三章2369岁。51五十四6372. 1152.第二次世界大战8768岁76五十四7171. 7952岁7866岁。4255.7471. 01鞋带-TPN(COS)55.3570.01 56.7973.714183引用[1] 约瑟芬·本吉奥,奥利维耶·德拉洛,尼古拉斯·勒鲁。11标签传播和二次准则。2006年[2] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。Semi-Supervised Learning ( Chapelle , O. 例 如 , eds.;2006)[书评]。IEEE Transactions on Neural Net-works,20(3):542[3] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。 在proc 2017年机器学习国际会议。[4] 维克多·加西亚和琼·布鲁娜。图神经网络的少镜头学习。在Proc.国际学习表示会议,2018年。[5] C Lee Giles,Kurt D Bollacker和Steve Lawrence。Cite-Seer:一个自动引文索引系统.在ACM DL,1998年。[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEEInternationalConference on Computer Vision and Pattern Recognition,2016。[7] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum。深度半监督学习的标签传播。IEEEInternationalConference on Computer Vision and Pattern Recognition,2019。[8] 姜波,张紫烟,林豆豆,唐锦,罗斌。图学习的半监督学习-卷积网络。在Proc. IEEE计算机视觉和模式识别,2019年。[9] Thomas N Kipf和Max Welling图卷积网络的半监督分类在proc 2017年国际学习代表会议。[10] KwonjoonLee,SubhransuMaji,AvinashRavichandran,and Stefano Soatto.使用可微凸优化的元学习。IEEEInternational Conference o
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功