小样本学习中的亲和力：基于图神经网络的新方法

191 浏览量更新于2024-01-22 收藏 740KB PDF 举报

少样本学习

图神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2329用于少样本学习的唐世祥1<$陈大鹏2雷白1刘凯建2葛一笑3欧阳万里11悉尼大学SenseTime计算机视觉集团澳大利亚2香港商汤集团有限公司3香港中文大学{stan3903，lei.bai，wanli. zhi}@sydney.edu.auliukaijian@sensetime.comdapengchenxjtu@yahoo.comyxge@link.cuhk.edu.hk摘要图神经网络（GNN）是一种新兴的小样本学习方法。GNN中的一个关键组成部分是亲和力。通常，GNN中的亲和度主要在特征空间中计算，例如，成对特征，并且没有充分利用与这些特征相关联的语义标签。在本文中，我们提出了一种新的互CRF-GNN（MCGN）。在该MCGN中，CRF使用支持数据的标签和特征以原则性和概率性的方式推断GNN亲和力。具体来说，我们构建了一个条件随机场（CRF）的标签和支持数据的功能，推断标签空间中的亲和力。这种亲和力作为逐节点亲和力被馈送到GNN。在MCGN中，GNN和CRF相互促进对于GNN，CRF提供了有价值的亲和力信息。对于CRF，GNN提供了更好的功能来推断亲和力。实验结果表明，我们的方法在数据集mini ImageNet，分层ImageNet和CIFAR-FS上的5路1-shot和5路5-shot设置上的性能优于最先进的方法。1. 介绍少量学习尝试对未标记的数据进行分类（即查询样本）时，只有少数标记的数据（即，，支持样品）。研究人员已经探索了学习类似任务分布的方法（也称为“元学习”），而不是依靠正则化来弥补数据稀缺。元学习方法引入了情景概念，这意味着一轮模型训练仅包含少量样本（例如，1或5）每一个类。元学习方法的目标是通过情景训练，训练出一个能够快速将标签从支持样本传播到查询样本的元学习器最近，图神经网络（GNN）[60，31]成为一种新兴的方法，可以将知识从[2]这项工作是唐世祥在商汤科技实习时完成的A类：要素标签变量B类：要素标签变量二进制兼容性：一元兼容性：GNN亲和力：图1. 互CRF-GNN（MCGN）的图示。绿色和紫色表示不同的类别。一元兼容性包含标签信息，二进制兼容性包含来自GNN的特征(a)成对变量的边际分布可用于预测GNN的亲和力（b）：单变量的边际分布用于标签预测。支持示例到查询示例。特别是，Garcia和Bruna [15]首先将少量学习问题建模为监督图消息传递任务，将支持集和查询集中的每个样本定义为GNN中的节点。度量两个样本/节点之间的相似性的亲和力是GNN中的关键组件因此，许多方法被提出来具有更好的亲和力表示。EGNN [26]提出利用标签进行GNN亲和力初始化，并传播边缘标签以显式地对集群内相似性和集群间不相似性进行建模。DPGN [53]提出将分布传播与GCN结合起来，并将分布级关系与实例级关系结合起来。在这方面，我们利用CRF [48]，这是一个强大的概率图形模型，以操纵变量之间的依赖关系，与GNN合作。我们在CRF中将标签建模为随机变量在我们的ap-（（CRF标签预测GNN2330在统一CRF模型中，边缘化分布具有两个功能。第一，单个变量的边缘化分布反映了标签的预测其次，成对变量的边缘化概率定义了两个样本的相似性，这是GNN的亲和力我们的MCGN的设计是从以下两个观察CRF和GNN。首先，对于CRF，应通过融合特征信息和标签信息来获得单个变量和成对变量的边缘化概率。每个变量的一元相容性项用于对变量/样本与相应的观察到的标签信息之间的关系进行建模。二进制兼容性项利用特征信息。具体地说，它是对两个随机变量/样本之间的关系进行建模，并由两个相应随机变量/样本的特征相似性直观地定义。由于在CRF中边缘化变量的状态需要乘上一元和二元相容项，因此边缘分布以原则性和概率性的方式融合了特征信息和标签信息其次，对于GNN，它的亲和度应该由标签空间中的概率定义，反映两个样本属于同一个类的可能性。与确定特征空间中的成对亲和力例如，使用特征的相似性，通过标签空间中的概率确定相似性具有两个优点。首先，在标签空间中定义的亲和度对离群值不太敏感。以两个视觉上相似但属于不同类的样本为例。当使用特征相似度来确定亲和度时，它们的亲和度可能很大，这导致两个样本之间的不适当的特征聚合。然而，这样的亲和性可以在标签空间中被降低，因为它另外由所提供的语义标签引导，即，两个样本具有不同的类标签。第二，在支持集中给出的标签可以以概率而不是确定性的方式引导亲和力与EGNN和DPGN根据相应的标签将亲和力初始化为零或一不同，CRF中的一元相容性项可以设置对错误标记样本的容忍度，这使得我们的分类比原始基于GNN的模型更鲁棒。考虑到上述观察结果，我们提出了一个统一的模型称为互CRF-GNN（MCGN），其中GNN和CRF相互关联，可以相互贡献该网络由多层结构组成，每层交替实现基于CRF的亲和度推理和基于GNN的特征聚合。如图1所示，我们使用GNN中的特征来定义CRF中的二进制兼容性。接下来，利用一元和二元相容性，我们估计每个变量的边际分布。然后，得到的每个变量的边际分布最后，更强大的功能通过在GNN中聚合获得，这进一步导致下一CRF层中更好的兼容性。在这样的前馈过程中，CRF产生与GNN中的鲁棒特征所定义的兼容性的更好的亲和力，并且GNN通过采用CRF推断的亲和力来产生鲁棒特征总之，我们的主要贡献有两个方面。首先，我们建议将CRF引入GNN，其中CRF有助于实现预测之间的依赖性并在标签空间中定义GNN的亲和性其次，我们提出了一种新的互CRF-GNN，其中特征聚合和关系推理可以相互促进。在三个流行的数据集上进行的大量实验证明了互CRF-GNN的有效性，在少数镜头分类精度的证明2. 相关工作少拍学习。关于少镜头学习的研究文献是高度多样化的。我们专注于使用监督Meta学习框架的算法[21，13，49]。特别是，我们将这些方法分为三类。 (1)基于度量学习的方法[52，45，47，53，9，58，42，51]专注于获得可推广的编码器，以将所有样本转换为公共度量空间，然后使用查询特征和支持特征之间的距离来执行分类。(2)基于记忆网络的方法[25，34，35]试图存储来自可见任务的知识，然后将其推广到新任务。(3)基于梯度下降的方法[13，40，29，18，59]有一个特定的元学习器，它学习使特定的基本学习器适应任何少数学习任务。我们的方法与基于度量学习的方法密切相关，特别是利用GNN来测量少数样本之间的相似性。GNN是一种少镜头学习。基于Metric学习的方法的最新发展是利用GNN [7]。GNNs可以迭代地执行来自邻居的特征聚合，因此可以探索图中特征之间的复杂相似性节点标记GNN [15]聚合节点特征以探索样本相似性。EGNN [26]还聚合了GNN中的边缘以进行少量学习。DPGN [54]提出利用分布关系进行亲和力，它考虑了一阶全局信息。我们的方法在两个方面与方法不同。首先，现有的方法融合特征信息和标签信息来确定相似度，这是一种无原则的、不平衡的方法。节点标记GNN将高维特征和低维标签连接为统一的节点特征，其中标签信息在聚合期间被EGNN和DPGN在特征变换时忽略了标签信息，只在GNN初始化时将它们统一起来。我们的方法将亲和力建模为CRF中的成对边缘概率，其中成对边缘概率通过乘以一元兼容性和二进制兼容性来融合特征和标签信息。2331我L我JK我我我l ll我JK以一种有原则的方式。第二，标签其中l =0，1，.，L−1，Dl=diag（d1，d2，.，d n）是二-支持集可以以概率的方式引导亲和性。Di对角矩阵卢恩j=1li，j而σ是一个可训练的有限元，不同于EGNN和DPGN将亲和力初始化为0或者1，CRF中的一元相容性可以为错误标记的样本设置公差，使我们的分类更加稳健。通用报告格式办法。条件随机场（CRF）[27，11，12，10，6]是一种流行的概率模型，用于推断图像组或图像中像素内的各种依赖关系。结合概率模型和神经网络来预测结构化数据的工作可以在各个领域找到[3，24，55，4]。[14]是与我们的方法最相关的工作它还使用CRF来增强GNN，但使用变量的期望来生成新的节点特征，以便在下一个GNN层中进行转换。与以往使用CRF来预测标签或生成GNN的新节点特征的工作不同，我们将CRF引入GNN模型中，通过边缘分布来计算GNN的更好的亲和力，这是以前没有研究过的。此外，CRF应该与GNN合作，利用样本之间的关系，因为它不具有多层结构，并且不能像GNN那样以迭代的方式进行精化3. 方法3.1. 预赛少量学习的目标是学习一个可以很好地推广到新任务的模型（例如，类），只有少量标记的样本。每个少镜头任务都有一个支持集S和一个查询集Q。支持集S包含具有K个样本的N个类真正的Transformer。通常，亲和度A1通常由逐节点特征计算，并且因此可能不是最优的，原因有两个：（1）它仅对成对信息进行建模，并且忽略GNN中的相邻信息（2）它仅利用特征信息而不结合语义信息，即，标签，当计算Al时。3.2. 将CRF引入GNN条件随机场（CRFs）是一类常用于结构化预测的统计建模方法.为了产生考虑上下文的亲和度Al，我们使用CRF中的每个随机变量的边际分布来计算所有GNN层中的亲和度与传统的利用特征估计亲和力的GNN相比，使用随机变量的边缘分布带来了三个首先，边缘分布考虑了上下文，而特征只描述了个体信息。其次，边际分布将支持样本的特征相似性（二元相容性）和语义相似性（一元相容性）合并为一个统一的量。最后，边际分布的空间受到标号空间的限制.当用于估计亲和力时，边际分布可以帮助明确说明两个样本是否属于同一类，而不是典型GNN中的两个特征是否相似。特别地，第lCRF层建立在由所有的CRF层组成的概率图Gcrf=（Vcrf，Ecrf）上。在一个几杆学习任务的样本Vcrf={ul}N×K+Tli i=1对于每个类（称为N路K拍摄设置）。具体称为y，S={ （ x1 ， y1 ），（ x2 ， y2 ）， . ，（ xN×K ，yN×K）}，其中x表示样本，y表示其标签。查询集合Q具有T个样本，其可以表示为：是图的节点，其中u_l是与样本i相关联的随机变量。它表示分配给样本i的标签，并且可以从标签集中取任何值。CRF的条件分布由下式给出：Q={xN×K+1，xN×K+2，.， xN×K+T}。在训练阶段，标签{yN×K+1 ，yN×K+2 ，.， yN×K+T}. 在测试阶段，我们确定标签根据少数标记支持度，P（u 1，. . . ，ul1N×K+T|Fl，Ys）NY×Ki=1Y（ul）（j，k∈Ecrfφ（ul，ul），（二）样品在训练阶段和测试阶段样本的标签是互斥的。使用GNN建模在少次学习中，图神经网络其中，Ys={y1，y2，.，yN×K}是一个标签集合支持集，（ul）是一元相容性，随机变量ul及其标号yi和φ（ul，ul）为i jkral Network [17，44]是一个强大的后处理工具，描述这种关系的二元兼容性是-实现强大的功能。设F=（f1，f2，.，fN×K+T）∈在随机变量u1和u1之间。在下文中，我们R（N×K+T）×p是在一个少次任务中N × K + T个特征向量的集合，其中p是特征维数。对任意两个特征的成对关系进行编码在a f矩阵A={aij|1≤i，j≤N×K+T}∈首先介绍了CRF中的两个相容性函数，然后描述了估计边际分布P（u 1）的具体方法|F1，Ys）和下一层GNN的亲和力A1。一元相容性函数（u l）。一元相容性（u l）是我我R（N×K+T）×（N×K+T）。GNN通常包含几个传播（隐藏）层。给定输入F0=F和关联的图亲和度A0=A，GNN在隐藏层中进行以下逐层传播：为了描述支持样本的变量ul与其对应的观测值之间的关系，即，地面真值标签y i.在数学上，它可以表示为：.Fl+1=σ（D−1/ 2AlD−1/ 2Fl），（1）（ul=m）=1−ηifm=yiη/（N−1）如果mi=yi，、（3）=一2332我我IJ我我JKLi(a) GNN系列（c）查询节点标签预测（b-1）相互CRF-GNN：节点特征更新聚集概率加法原理特征相似性循环信念传播(b-2)交互式CRF-GNN：基于CRF的亲和力推断图2. MCGN的总体框架。此图显示了一个双向双镜头设置的示例，以及一个查询示例。GNN中的圆圈表示从主干提取或由前一层聚合的特征。CRF中的方块表示支持样本的标签。查询示例的标签（虚线正方形）未知。紫色和绿色的圆圈（正方形）代表不同的类。CRF中的五边形表示随机变量，这些随机变量表示为GNN中相应嵌入分配的标签其中η=0。3是一个小的正值，它是随机变量取Incorr时的概率容限，除了u1之外的随机变量的可能状态。通过考虑随机变量的所有可能状态，rect标签。值得注意的是，我们定义了n（ul/=yi）=ul，P（ul=m|Fl，Ys）可以利用上下文信息-我我我η/（N−1），因为我们考虑到样本在支持集和查询集中的概率都我们采用l不正确的标签。我们设置（ul=yi）=1 −η[37]第37章：我的心iN因为我们将求和归一化我l（ul=m）到1。CRF中每个节点的编号（见补充材料-m=1i二进制兼容性φ（ul，ul）。二进制兼容性里亚尔）。jkl lφ（ul，ul）是用来描述连通亲和A 由于边际分布P（u i|Fl，Ys）in-JK随机变量ul和ul。在数学上，它可以表示为.L整合CRF和标签中的上下文信息支持样本的信息，我们可以使用边际分布来估计语义亲和度矩阵Al。更φ（ul=m，ul=n）=tj，k，如果m=n，，（4）具体地，可以将f1和f1之间的关系abjk（1-tl）/（N-1）如果mn，国际新闻报j，k其中m和n表示分配给u1和u2重新表示由于样本i和j可能属于同一个班级。从数学上讲，它可以通过加法来计算JK概率定理i，t1=ReLU（ cos（f1，f1）），并且cos（f1，f1）） indi。j，kj kj k表示节点特征f1和f2之间的余弦相似性。Nik根据等式4、相似特性导致高兼容性，al=P（ul=ul）=P（ul=m）P（ul= m）。（六）当两个样品采用相同的标签和不同的标签时，伊日jI jm=1当两个样品采用不同的标签时，特征产生高兼容性边际分布P（u l=m|图1，Ys）。为公司-在EGNN [26]中实现之后，我们通过其相邻关系聚合关系a，以获得最终的alal−1率状态的其他变量，我们边际化所有随机对GNN的亲和力，即，a l←伊杰，其中kijal−1al−1/al−1在等式中除了u1以外的变量2，并推导出边际分布P（u|F1，Ys），是我的邻居。kik ik克伊克P（u l| F l，Ys）ΣP（ul，ul，. . . ，ul|Fl, Ys),(5)3.3. 通用报告格式I12Vcrf\{ul}N×K+T我们提出了一个共同的CRF-GNN（MCGN），使支持查询埃森布2333我GNN和CRF互相帮助。对于GNN，CRF提供其中P（u，l= m|Fl，Ys）描述了在考虑了所有特征变换F1+ 1的有价值的亲和度A1。对于CRF，GNN提供用于推断亲和力的更好特征Fl2334L我i，0i，N我我Al.在下文中，我们将描述它们如何与我们方法的整体管道一起相互- 是的给定支持集中的图像和本质上是一个分类问题。这两个损失函数可以定义为：N×K+TL+1查询集，原始特征F1由基于CNNLcrf=µ crfCE（P（u l|F1，Y），Y），（9）特征提取器FEMB，即，Li=N×Kl=1i0iF1=femb（X），（7）Lgnn=N×K+TN×K×LµgnnBCE（al，cij），（10）其中X=S Q包含一个任务中的所有样本的GNN中的初始亲和矩阵A0通过语义Li=N×K j=1l =1IJCRF标签从支持集，即如果yi=yj且i，j≤N×K，a0=0，如果yi/=yj且i，j≤N×K，（八）其中CE表示交叉熵，µl是权重BCE表示二进制交叉熵损失，µgnn是每层r的权重，cij是1ifyi=yj，0如果yii=yj. 总目标函数可以是加权的伊杰 0的情况。5否则，两个损失的总和，即，L = λCRFLcrf+λGNN我知道，MCGN的前馈实现。给定原始特征F1和初始化的亲和矩阵A0，用于分类的最终特征FL+1由MCGN变换L次迭代。我们描述了MCGN的详细过程对于第l层，整个过程可以分为4个步骤。• 步骤1：给定亲和度Al−1和来自第（l−1）次迭代的输出特征F l，我们通过等式估计CRF中的一元和二元兼容性。3和等式4、再循环。估计的相容性函数定义了两个连接的随机变量之间的亲和力，CRF表格• 第二步：边际分布（等式2）5）是通过循环信念传播[37]，使用从步骤1获得的相容性函数和支持集中样本的标签来推断的。• 步骤3：GNN中的亲和度A1六、• 步骤4：第l次迭代的输出特征Fl+1通过聚合它们的相邻特征来计算，其中Al作为它们的权重，通过等式1.一、我们逐层重复上述过程L次迭代，并得到最终输出FL+1和亲和矩阵AL，用于网络优化和推理。3.4. 训练和测试训练我们监控GNN和CRF仿真器的输出。特别地，GNN由亲和力Al上的验证损失Lgnn监督，并且CRF可以由边缘分布上的交叉熵损失监督。这是因为边际分布P（u l|F1，Y0）表示-其中，每个损失的λcrf，λgnn被设置为平衡它们的im。重要性试验. 每个样本的类别可以通过其最终的边际分布来推断。我们取能最大化边缘分布y_i=a rgmaxP（uL+1|FL+1，Y0）。（十一）4. 实验4.1. 数据集和实验设置数据集：我们的实验是在几个广泛使用的少量学习基准上进行的，包括迷你ImageNet [52]，分层ImageNet[41]和CIFAR。FS [28]。miniImageNet由100个类组成，每个类中有600个标记实例。我们遵循标准协议，利用64个类作为训练集来训练特征提取器，16个类作为验证集，20个类作为测试集。与迷你ImageNet相比，分层ImageNet是一个更大的数据集，它的类别是通过分层结构选择的，以便在语义上分割训练和测试数据集。我们遵循[41]中的数据集划分，其中351类用于训练，97类用于验证，160类用于测试。每个类别中的平均图像数量为1281。CIFAR-FS是一个包含CIFAR-100图像的数据集。它包含100个类，每个类有600个实例。我们遵循[28]给出的分区协议，使用64个类来构建训练集，16个类用于验证，20个类用于测试。评估方案：在标准的几次学习数据集，包括miniImageNet，分层ImageNet和CIFAR-FS。评价过程与以前的作品完全相同[26，28，56]。在N向K次测试环境中，元测试任务由N个类组成，其中有K个样本。我们从测试数据集中随机抽取600个元测试任务，然后报告平均准确率以及95%置信区间。对于每个元测试任务，表示为N维向量（plL一，1、...、pl），以及我们还为5个类中的每个类抽取了15个查询，li，j，pp2335表示分配给标签j的可能性ul，5路-1 shot/5shot设置。23368070605040百分之二十百分之四十百分之六十百分百表1. 在miniImageNet上进行的预训练实验微型ImageNet，适用于5路1次拍摄（5w1s）和5路5次拍摄标签比率图3. 在迷你ImageNet上的5 way- 5shot中实现半监督少次学习精度。MCGN始终以相当大的幅度超过GNN和EGNN。网络架构：我们使用两种流行的网络主干进行公平比较，它们是广泛用于少量学习任务的 ConvNet 和ResNet12 [26，28，43，8]。ConvNet由四个Conv-BN-ReLU块组成，没有任何跳过连接，其中最后两个块包含额外的两个Dropout层[46]。ResNet12与[20]中提出的相同。ConvNet和ResNet12的输出之后是全局平均池化和具有批归一化的全连接层[23]，以获得128维的实例嵌入。数据增强：数据增强在训练之前实现，如[16，56]所示，包括水平翻转，随机裁剪和颜色抖动。每个元训练集由具有K个样本的N个类我们在每次迭代中随机亚当优化器在所有实验中都被利用，初始学习值为10−3。学习率衰减设置为每15000次迭代0.1，权重衰减设置为10−5。4.2. 小镜头学习的情景训练情景训练首先由Vinyals等人提出。[52]第52话学习训练集和测试集按片段组织，每个片段包含一个支持集和一个查询集。我们比较了建议MCGN与几个国家的最先进的模型，包括图形和非图形模型的任务，少数镜头分类。结果（在转导设置中）报告在表2中，其中平均值和偏差是600次发作的平均我们的方法在miniImageNet，分层ImageNet上的5路1次拍摄设置和5路5次拍摄设置方面都优于当前最先进的方法。我们分析了我们的主要竞争方法的结果，包括EGNN [26]，TPN [15]和DPGN [54]与表2中的ConvNet骨干。EGNN采用特征和亲和力聚合，但这些亲和力是确定的。（5w5s）少拍学习。通过特征相似性进行挖掘，其性能接近表3中报告的仅GNN方法。与EGNN相比，我们的方法的主要区别在于采用了基于CRF推理的类级亲和力，从而得到7。69%，7. 在miniImageNet和分层ImageNet上分别获得23%的准确率，用于5向1次学习。对于5路5拍学习，MCGN比EGNN好6。69%，5。74%在miniImageNet和分层ImageNet上。TPN通过Laplacian矩阵将支持样本的标签传播到查询样本，充分利用支持样本标签的优势。然而，它我们的方法大大提高了TPN 13。17%和11。在miniImageNet和分层ImageNet上分别为3%，用于5路5次少量学习。DPGN [54]利用分布传播来涉及用于推理的缺乏这种语义信息可能会使DPGN不如我们的方法有效我们的方法优于DPGN 1。2%和1。8%用于5路1次拍摄和5路5次拍摄设置。诱导情景。在归纳的场景中，我们必须学习一个函数，它为任何给定的输入生成一个标签。在这种情况下，我们单独对待每个查询样本我们提出的方法和其他现有技术的比较如表2所示。建议MCGN优于其他归纳方法约1%。这是因为MCGN可以更好地利用特征空间中的上下文信息。另一方面，使用查询样本之间的关系的预防减少了我们的方法在归纳场景中的改进，因为我们的方法依赖于充分利用图中所有特征之间的复杂半监督的少数镜头学习。我们遵循与[15]相同的设置进行半监督实验。在这种设置中，支持集中的样本的标签是部分给定的，并且在不同的类之间是平衡的，以便每个类具有相同数量的标记和未标记的样本。结果如图3所示，GNNEGNNMCGN方法迷你ImageNet微型ImageNet5w1s5w5s5w1s5w5s欧洲议会[42]66.5081.2876.5387.32LST [32]70.178.777.785.2EMD [58]65.9182.4171.1686.03[第56话]66.7882.0570.8084.79et.al [50]第50届中国国际汽车工业展览会62.0279.6469.7484.41et.al [50]第50届中国国际石油天然气工业展览会64.8282.1471.5286.03准确度（%）2337可以得出结论：（1）随着样本在支持集中的标记率的增加，GNN、EGNN和MCGN的测试精度都有较大幅度的提高。(2)我们的方法MCGN在不同的标记率（即20%，40%，60%，100%）下优于EGNN [26]。当标签率为20%、40%时，与EGNN相比，我们的方法的优势相对较小（约1%）。这是因为MCGN无法充分利用支持集中的标签。随着标记样本数量的增加，我们的方法可以利用更多的信息在支持集，导致更大的边缘EGNN（约3。5%）。4.3. 特征预训练的少镜头学习特征预训练的少量学习由[50，42，22]实现，其中特征嵌入由元训练阶段的所有样本训练。[50]中提出的基线方法在元训练阶段使用所有样本来训练特征提取器，并在元测试阶段使用支持集中的样本来训练每个元测试任务中的分类器。与基线方法不同的是，该方法中的所有参数都是由Meta训练样本训练的.具体来说，我们提出的方法包括两个步骤。首先，我们按照[50]中相同的方法其次，我们通过由所获得的特征提取器计算的固定特征来训练顶部的为了验证我们的MCGN与其他方法[42，56，30]相比在少量学习中的有效性，我们固定了特征提取器并在特征提取器上训练MCGN。结果示于表1中。我们提出的MCGN将基线性能，即Tian el.al（distill），在迷你ImageNet中提高了4%，在分层ImageNet中提高了3%，这表明MCGN可以进一步提高分类，即使具有非常强的特征。我们的方法也优于其他使用预训练模型但微调骨干至少2%的方法，这与[50]中的结论一致。4.4. 消融研究为了研究GNN和CRF的贡献，我们通过构建我们方法的4个变体，在miniImageNet上逐步评估它们。特别地，基线是匹配网，其中支持样本和查询样本之间的相似性直接从特征嵌入计算GNN-only是GNN嵌入模型，可以聚合特征和亲和力，但GNN的亲和力由两个连接节点的嵌入定义。仅CRF是一个CRF直接跟随主干的模型。CRF+GNN是两个分支的模型。一个是GNN分支，与GNN-only相同，另一个是CRF分支，与CRF-only相同。在这种情况下，CRF和GNN不能相互促进。MCGN是提议的图 4. 在 miniImageNet 上进行的 5 路 5 次少量学习实验（transductive scenario）左：MCGN中不同层数的少次分类精度。彩色区域的宽度表示性能的变化。右：GNN损失和GNN损失+CRF损失的比较方法，其中利用CRF推断来推断GNN中的亲和力表3列出了所有变体的性能在本节中，我们首先通过将GNN和CRF分别递增添加到基线来说明GNN和CRF的贡献，然后探讨CRF和GNN之间的共同利益我们还探讨了新的CRF损失的贡献9）和GNN中一个重要的超参数的影响，即，MCGN中的层数。GNN和CRF的贡献。我们比较基线和GNN-仅在表3中，以说明扩展GNN有助于提出的方法。我们观察到GNN在少数镜头分类中起着重要作用，因为仅应用特征聚合仅将模型的性能提高了10%-13%，用于5路1镜头设置，7%-10%用于5路5次拍摄设置。与比较-在基线和仅CRF之间，我们得出CRF可以在支持样本和查询样本之间提供更好的亲和性。CRF在miniImageNet、分层ImageNet和CIFAR-FS上以5路1次设置将模型改进了4%-6%，而在5路5次设置上的改进大约是2%-4%。我们将改善差异归因于不准确的边际分布估计，当CRF具有密集连接和大量节点[57]时，循环置信传播[37GNN+CRF的性能表明，GNN和CRF是累积的。通用报告格式和 GNN 互利基金的捐款。通过与CRF+GNN和单独的GNN进行比较，我们可以看到性能只提高了一点点。然而，表3中CRF+GNN和MCGN之间的比较表明，GNN和CRF可以互相帮助，因为我们可以看到MCGN的分类准确率显著高于CRF+GNN在miniImageNet，分层ImageNet和CIFAR-FS上的分类准确率。贡献的边际分布监管CRF丢失（公式9）利用变量的边际分布来监督网络优化。为了说明监管对CRF中每个随机变量的边际分布的有效性，我们只在GNN损失下进行实验（等式10）。10）和GNN（等式11）。10）+CRF损失（公式10）9）。从图4（右），我们可以看到CRF+GNN损失2338方法骨干迷你ImageNetImageNet单次拍摄5次射击单次拍摄5次射击归纳学习[52]第五十二话64-64-64-6443号。56±0。8455个。31±0。7351. 67 ±1。81七十。30±1。75[45]第四十五话64-64-64-64第四十九章。42 ±0。768岁。20±0。66五十三31±0。8972. 69 ±0。74TAML [25]64-64-64-6451. 77 ±1。8666岁05 ±0.85--[19]第十九话64-64-64-6452. 22±n/a66岁49±n/a--GCR [30]64-64-64-64五十三21±0。8072. 34 ±0。64--IMP [2]64-64-64-64第四十九章。2 ±0。764岁7 ±0。7--[39]第39话64-64-64-6454号61 ±0。8071岁。21±0。66--R2D2 [5]96-192-384-51251. 2 ±0。668岁。8±0。1--爬行动物[38]64-64-64-64四十七07±0. 862岁74 ±0。58--蜗牛[34]ResNet-1255个。71±0。9968岁。88±0。92--AdaResNet [36]ResNet-12五十六88±0。6271岁。94±0。57--法国国民议会[15]64-64-64-6450块33 ±0。3666岁41 ±0。63--[26]第二十六话64-96-128-256-66岁85 ±0。63-七十。98±n/a[54]第五十四话128-192-256-512-72. 83 ±0。74--MCGN64-96-128-256第五十七章。89 ±0。87七十三。58±0。8758. 45 ±0。5974岁58 ±0。84直推学习[47]第四十七话64-64-64-64第四十九章。97 ±0。3265岁99 ±0。5854号48 ±0。9371岁。32±0。78MAML [38]64-64-64-64四十八。70±18463岁11 ±0。92--爬行动物[38]64-64-64-6450块44 ±0。8265岁32 ±0。70--[26]第二十六话64-96-128-25659. 63 ±0。5276岁。34±0。4863岁52 ±0。53八十。24±0。87TPN [33]64-64-64-6455个。51±0。8669岁86 ±0。6559. 91 ±0。94七十三。30±0。75[54]第五十四话128-192-256-51266岁14 ±0。4381岁。23±0。4169岁91 ±0。4383. 13 ±0。46MCGN64-96-128-25667岁。32±0。4383. 03 ±0. 5471岁。21±0。8585. 98 ±0。98表2. 在迷你ImageNet和分层ImageNet上的少量分类精度。结果报告中的归纳的情况下和转导的情况下，分别。†表示由公共代码重新实现的结果[1]。方法迷你ImageNet分层ImageNetCIFAR-FS5路1拍5way 5shot5路1拍5way 5shot5路1拍5way 5shot基线第四十九章。42 ±0。9868岁。20±0。85五十三34±0。7872. 69 ±0。7855个。50±0。8672. 01 ±0。90仅GNN58. 93 ±0。7676岁。12±0。9462岁62 ±0。9879. 64 ±0。8769岁47 ±0。6982. 14 ±0。74仅CRF五十三21±0。7671岁。34±0。79第五十七章。43 ±0。7276岁。04 ±0.7359. 98 ±0。89七十五。69±1。02通用报告六十12 ±0。78岁64 ±0。65岁43 ±0。82. 23 ±1。0271岁。9884. 22 ±0。2339格式+国民总收入578493±0。9923MCGN67岁。32±0。4383. 03 ±0. 5471岁。21±0。8585. 98 ±0。9876岁。45±0。9988. 42 ±0。23表3.在miniImageNet、分层ImageNet和CIFAR-FS上对基线和三种变体进行消融研究。在GNN- only、CRF+GNN和MCGN中有3个层。的准确性进行了测试600集的转导的情况下。可以改善GNN损失仅约1%。多层膜在MCGN中的作用。我们研究了MCGN中层数的影响。MCGN具有一个循环结构，它包括GNN的嵌入聚集和CRF的边缘分布推断。为了获得测试准确度的趋势，我们在表4（左）中报告了5路5次设置的迷你ImageNet 结果更具体地说，我们确保 Loopy BeliefPropagation的收敛 [37]并改变MCGN中的层数。通过将层数从0改为1，我们可以看到测试精度从72有了显著的提升。43%到76。百分之三十四当层数不断增加时，测试精度仅略有提高，并在最后几层趋于收敛。与EGNN，DPGN和MCGN相比，我们提出的MCGN的性能是一致的。比其他两种方法的平均值高10%。5. 结论在这项工作中，我们提出了一个新的框架，相互CRF-GNN（MCGN）的少镜头分类。MCGN将GNN和CRF结合为一个统一的模型，其中CRF可以为GNN提供更好的亲和力，而GNN可以通过从CRF中提取亲和力来产生鲁棒的嵌入。我们的方法在广泛的基准测试中显着优于现有技术。6. 确认欧阳万里获得商汤科技、澳大利亚研究理事会基金DP200103223 和澳大利亚医学研究未来基金MRFAI000085的支持。2340引用[1] DPGN：用于少量学习的分布传播图网络. https：//GitHub.com/megvii-research/DPGN#dpgn-distribution-propagation-graph-network-for-few-shot-learning. 7[2] Kelsey R Allen ， Evan Shelhamer ， Hanul Shin ， andJoshua B Tenenbaum.无限的混合物原型，用于少量学习。arXiv预印本arXiv：1902.04552，2019。7[3] Thierry Artieres et al. Neural Conditional Random Fields.第十三届人工智能和统计，第177-184页，2010年2[4] 约瑟芬·本吉奥，扬·勒昆，唐尼·亨德森。使用空间表示、卷积神经网络和隐马尔可夫模型的全局训练手写字识别器神经信息处理系统进展，第937-944页，1994年。2[5] Luca Bertinetto，Joao F Henriques，Philip HS Torr，andAndrea Vedaldi.使用可微封闭形式求解器的元学习。arXiv预印本arXiv：1805.08136，2018。7[6] 陈大鹏，徐丹，李洪生，Nicu Sebe，王晓刚.基于深度crf的群体一致性相似性学习用于人员重新识别。在IEEE计算机视觉和模式识别会议论文集，第86492[7] Riquan Chen ， Tianshan Chen ， Xiaolu Hui ， HefengWu，Guanbin Li，and Liang Lin.知识图传递网络用于少镜头识别。arXiv预印本arXiv：1911.09579，2019。1[8] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.仔细看看几杆分类。arXiv预印本arXiv：1904.04232，2019。5[9] Arnout Devos和Matthias Grossglauser。用于少镜头分类的子空间网络。 arXiv 预印本 arXiv ： 1905.13613 ，2019。1[10] 贾斯汀·多姆克截断消息传递的参数学习。在CVPR2011年，2011年。2[11] 贾斯汀·多姆克用近似边缘推理学习图形模型参数。IEEEtransactionsonpatternanalysisandmachineintelligen

下载后可阅读完整内容，剩余1页未读，立即下载