没有合适的资源?快使用搜索试试~ 我知道了~
全局类表示学习及少数样本问题的研究
9715使用全局类表示的李傲雪1 * 罗天歌1 *陶翔2黄蔚然3王立伟11北京大学机电工程学院2英国萨里大学电气与电子工程系3华为诺亚{lax,luotg,wanglw}@ pku.edu.cn,t.xiang@ surrey.ac.uk,huang. outlook.com摘要在本文中,我们提出了解决具有挑战性的少数拍摄学习(FSL)的问题,学习全局类表示使用基础和新的类训练样本。在每个训练片段中,从支持集计算的片段类均值经由注册模块与全局表示注册这将产生一个注册的全局类表示,用于使用查询集计算分类损失。虽然遵循与现有的基于Meta学习的方法类似的情景训练管道,但我们的方法显着不同,因为从一开始就涉及新的类训练样本为了弥补新类训练样本的不足,提出了一种有效的样本合成策略重要的是,通过联合基础新类训练,我们的方法可以很容易地扩展到更实用但具有挑战性的FSL设置,即,广义FSL,其中测试数据的标签空间扩展到基类和新类。大量的实验表明,我们的方法是有效的两个FSL设置。1. 介绍深度学习在各种识别任务中取得了巨大成功[32,31]。然而,由于参数数量庞大,深度神经网络需要每个类的大量标记数据来进行模型训练。这严重限制了它们的可扩展性-对于许多罕见的类,收集大量的训练样本是不可行的,甚至是不可能的。相比之下,人类可以很容易地识别一个新的对象类后,只看到它一次。受人类的少次学习能力的启发,最近对少次学习(FSL)的兴趣越来越大[8,12,21,7,23,19,28,22]。在FSL问题中,我们提供了一组基本类,每个类都有足够的训练样本,以及一组只有几个的新类*同等缴款。图1.我们的方法的一个例证。第一个块显示了嵌入空间中的基类和新类基类包含足够的标记数据,而新类只有少量的标记数据。这两个类有交集,我们的目标是学习用于重新识别测试数据的每个类的全局表示。第二块说明了所提出的模型的两个关键组成部分。首先,我们生成新的样本(橙色交叉),以增加新类的类内方差。第二,注册模块,建议鼓励样本“拉”其全球代表自己和“推”其他全球代表了。同样,全局表示也会影响样本。最后一个块显示了使用基础和新类样本联合学习全局表示后的结果。这两个类变得更加可分离,并且全局表示更加可区分。每个类别的标记样本(镜头)。FSL的目标是通过从基本类中转移知识来学习用于具有较少镜头的新颖类的类指示符。大多数现有的FSL方法是基于Meta学习。在Meta学习阶段,对基本类进行采样,以模拟新类的少量学习条件。可转移的知识是从9716源类以良好的初始条件[9],嵌入[34,29]或优化策略[21]的形式存在。在Meta学习阶段之后,通过使用学习的优化策略[21]进行微调[9]来解决目标少次学习问题,或者在不更新网络权重的情况下在前馈过程[29,34,27]中计算目标少次学习问题。然而,这些基于Meta学习的方法有一个基本的局限性:模型(初始条件、嵌入或优化策略)主要仅利用源数据来学习。即使在微调步骤之后,这也不能保证模型在目标数据上很好地在本文中,我们提出了一种新的方法FSL表示每个类,基地或小说,作为一个单一的点在嵌入空间。由于该表示是使用基础和新类训练样本共同学习的,因此它被称为全局表示。我们认为,只有在模型训练的一开始就涉及新的类数据,我们才能确保学习的FSL模型适用于新的类。学习这种全局类表示的一个关键障碍是基础类和新类之间的训练样本数量不平衡我们通过两种方法来解决这个问题。首先,我们使用样本合成来增加新类的类内变化。通过从同一类的样本子空间中随机采样数据点,我们的合成策略可以有效地增加类内方差(见图1中的橙色十字)。其次,我们引入情景训练来平衡基础和新类样本。在每个训练片段中,从支持集计算的片段类均值经由配准模块与全局表示配准。这产生了一个注册的全局类表示使用查询集计算的分类损失通过学习将每个数据与所有全局类表示进行比较,我们的注册模块强制每个数据将其类的全局表示“拉”向自身,并将其他全局表示“推”到嵌入空间中(参见图1中的在训练之后,学习的全局表示用于识别测试数据。由于在训练过程的每个步骤中同时涉及基础类和新类,因此学习的全局表示自然能够区分基础类和新类两者。这意味着我们的方法可以很容易地扩展到更现实但更具挑战性的FSL设置(即,广义FSL),其中测试数据的标签空间覆盖基类和新类。这与标准设置相反,在标准设置中,测试数据仅包含新类别样本在这种情况下,我们无法判断学习到的全局表示是否偏向于基类。我们的主要贡献如下:1)我们提出了一种新的FSL方法,该方法通过使用基础和新的全局表示来学习新的类数据类训练样本。2)我们的方法可以很容易地扩展到更现实的广义FSL设置。在两个FSL基准上的实验表明,该方法在标准和广义环境下都是有效的。重要的是,在广义FSL设置下,改善甚至更大。2. 相关工作最近,少镜头对象识别已经成为热门。随着基于深度学习的方法在数据丰富的多镜头设置中的成功[25,10],已经对将这种深度学习方法推广到少镜头学习设置产生了浓厚的兴趣,使得视觉识别可以真正扩展到大量的类(例如,百万)。大多数最近的基于深度学习的方法使用元学习或学习学习策略。通过Meta学习,这些模型通过情景训练从一组辅助任务中提取可转移的知识,然后帮助它们解决目标新颖类的目标少镜头现有的基于元学习的FSL方法可以分为三类:1)第一类通过“学习微调”来解决FSL问题。这些方法旨在学习良好的模型初始化(即,网络的参数),以便可以使用有限数量的标记示例和少量的梯度更新步骤来学习新类别的分类器[9,26,18]。2)第二类模型通过“学习一个好的度量来比较”来解决FSL直觉是,如果一个模型可以确定两个图像的相似性,它可以用标记的实例对一个看不见的输入图像进行分类[29,30]。为了学习一个有效的比较模型,这些方法在训练过程中使它们的预测以到少数标记实例的距离为条件[1,34,13,2]。这些实例是从设计用于模拟测试场景的基类中采样的,其中只有来自新类的几个镜头3)第三类模型通过“学习优化器”来处理FSL问题。这些模型试图修改经典的基于梯度的优化(例如,随机梯度下降)以适应元学习场景[21,17]。尽管它们在最近的文献中占据主导地位,但这些基于元学习的模型仍然存在一个基本问题:在训练阶段,仅涉及基本类样本,使得它们容易过拟合到基本类。与我们最相关的方法是原型网络[29],其目的是通过将类的几个镜头的特征均值馈送到完全连接的层来学习类表示或原型。与[29]相比,我们的模型有两个重要的区别:(1)我们学习全局类表示,而不是像[ 29 ]中那样的情景类表示。(2)基础和新类训练样本都用于联合学习表示。这确保了一个类表示-9717可以用全局一致性而不是局部一致性来学习。还相关的是最近的基于特征幻觉的方法[35]。它们与我们的模型是正交的3. 方法我们的模型的核心思想是使用基础和新类训练样本进行联合类表示学习。为了克服类不平衡的问题,我们采用代表注册和新的类样本合成。在本节中,我们首先介绍这两个关键模块。之后,我们描述了如何将这两个模块集成到我们的FSL框架中,以识别来自新类的未标记数据。最后,我们将所提出的方法扩展到广义FSL设置,其中未标记的数据来自基础类和新类。3.1. 注册模块假设我们有一组类C total={c1,…其中N表示类的总数。这些在-包括基类和新类。我们给出一个训练集Dtrain,其标签空间为Ctotal(即,基本类和新类都用于训练)和测试集D测试。我们的注册模块将训练样本与所有训练类的全局表示进行比较,并选择相应的全局表示。定义配准损失以联合优化全局表示和配准模块。具体地,首先,将训练集中的样本xi馈送到特征提取器F中以获得其视觉特征,表示为fi=F(xi)。然 后 , 将 该 样 本 的 视 觉 特 征 和 所 有 全 局 类 表 示G={gcj,cj∈Ctotal}馈送到配准模块R中。 对于每个视觉fea-对于j,配准模块R产生向量Vi= [v1,…,vN]T,其中第j个元素是相似性得分模块使每个全局表示接近其类内的样本,而远离类外的样本。请注意,表示和特征提取网络都是端到端可训练和联合优化的。具体地说,利用经过良好训练的全局类表示,特征提取器被优化以围绕这些类表示聚类样本;给定特征提取器,每个全局类表示被优化为更接近其类中的样本并且远离其他表示。当将配准模块集成到FSL框架中时(稍后将详细介绍),我们将标记数据馈送到配准模块中以选择用于分类查询图像的全局表示。分类查询图像的丢失也将与配准丢失一起优化全局表示3.2. 样品合成模块为了解决由新类中的有限数据(少数镜头)引起的类不平衡问题,我们提出了一种样本合成策略来合成表示为Cnovel的新类的样本。在本文中,我们通过两个步骤来合成样本:1)用原始样本生成新样本2)我们通过使用由第一步获得的所有样品来合成新样品。具体来说,我们首先通过使用随机裁剪、随机翻转和数据超分辨率生成具有原始样本的新样本[35]。这些方法将类的单个示例作为输入,并生成该示例的变体在原始的少量训练样本上使用这三种方法,我们将为每个新类获得总共kt个样本。在此之后,我们进一步合成新的样本从每个类的kt样本。特别是,对于一个新的类cj,我们首先从kt个样本中随机选择kr个样本。然后,我们通过从kr视觉fea所跨越的子空间中随机选择一个数据点来合成一个新的样本,我我在fi和类c j的全局表示gcj之 间。 在本文中,我们在嵌入空间中计算相似性得分。样本{f1,…,f kr}。具体来说,我们取样k个r值{v1,...,从0到1的均匀分布。然后,我们对这些视觉特征进行加权求和,使用随机数作为权重。一个新的w样本rcj 为vj= − <$θ(fi)−φ(gc)<$(一)在等式3中定义了新的类cj。与亲-Ij2其中θ(·)和φ(·)分别是样本的视觉特征和全局类表示的嵌入因此,我们为样本定义配准损失Lreg通过使用设定的策略,类内变化因此增加,并且有限的数据问题得到缓解(如图3中所验证的)。xi(具有其标签yi),以使样本最接近其在嵌入空间中的全局类表示,其中CE不注意交叉熵损失。RCJ格但斯克河=i=1νiΣjνj fi,yi=cj(三)Lreg=CE(yi,Vi)(2)通过比较样本与嵌入空间中Ctotal中所有类的全局表示,我们的注册krU(0,kt),kr=kr,νiU(0,1),其中表示n个类别cj的合成样本。U(a,b)表示从a到b的均匀分布。9718图2.建议的FSL方法概述。首先,我们提出了一个样本合成方法来合成支持集中每个类的情节表示。其次,利用配准模块来选择全局表示,根据他们的情节表示,然后使用所选择的全局表示来分类查询图像。查询图像的分类损失和配准损失用于联合优化全局表示,配准模块和特征提取器。3.3. 通过配准的少镜头学习现在我们可以描述完整的FSL框架。在FSL中,类集合C total由两个不相交的集合组成:一组基类C base和一组新类C novel。在训练集,每个基类都有足够的标记数据,而每个新类仅被给予n个(n个≤5)标记样本。在测试集中,样本来自C小说下的标准FSL设置。我们首先获得一个初始的类表示为每个类在C总通过简单的平均视觉特征的所有样本的类。我们的模型的目的是学习全局类表示为每个新的类给定的简单的初始化。为了缓解训练集中严重的数据不平衡问题,除了前面描述的数据合成策略之外,我们定义了许多现有Meta学习模型通常采用的情景学习策略[29]。在每次训练迭代中,通过以下三个步骤获得一个小片段/小批量:1)我们首先从整个类集合C total中随机选择n个训练类,以形成训练片段类集合C train; 2)从训练集合C train中随机选择n s个类的样本以形成支撑集S ={(xi,yi),i = 1,., n s× n列车}。3) 我们从训练集中选择C train中的每个类的nq个样本以形成查询集Q ={(x k,y k),k = 1,.,n q×n列车}。注意,每个新类在训练集中只有n个标记样本,其中n个通常是小于ns+nq。因此,我们首先利用3.2节中提出的合成方法将n个原始样本扩充为ns+nq个样本,然后将它们分成ns个样本和nq个样本,分别放入在每个测试迭代中,片段与训练片段在三个部分中不同:1)C检验由仅从新类别中随机选择的n个检验组成。 2)我们使用标记的图像,n测试训练集中的新类作为支持集(即,几个镜头)。3)查询集是从Dtest中选择的,而不是从Dtrain中选择的.如果训练集中每个新类有n 个标记样本,则FSL问题称为n个少量FSL。如果一个模型在测试阶段从n个测试候选类中预测测试图像的标签,则该FSL问题称为n测试路FSL。在情景学习策略下,我们首先将所提出的样本合成模块整合到FSL框架中。 具体来说,在每次训练迭代中,图像{xi,i= 1,…n s×n train}首先被送入可训练特征提取器F以获得它们的视觉特征{fi= F( xi),i =1,., n s× n列车}。其次,我们为支持集中的每个类构造一个情节表示,表示为{r ci,c i∈ C train}。 该情节表示r ci集成了当前小批量的支持集S中的类c i的信息;因此,它是局部表示。类表示而不是全局表示。对于基类,我们对同一类中的视觉特征进行平均,以获得情节类表示,类似于Prototypi- cal Nets [29]。对于新的类,我们利用第3.2节中提出的合成策略为每个类合成一个新的样本,并将支持集中该类的视觉特征作为输入(参见图2中的这种情节新颖的类表示比原始标记样本更多样化。然后,注册模块被集成到我们的FSL框架选择全球表示根据其情节表示。然后使用所选择的全局表示对查询图像进行具体地说,我们将支持集{rcj,cj∈Ctrain}中的类的情节表示和所有全局类表示G={gcj,cj∈Ctotal}馈送到记录模块R中,以计算每个情节类表示之间的相似性得分9719我算法1训练片段损失计算。输入:整个类集C total、基类集C base、新类集C novel、训练集D train、测试集D test、特征提取器F、注册模块R和全局类表示G={gcj,cj∈Ctotal}。输出:随机生成的训练集的损失。1. 从Ctotal中随机抽取n个train类,形成Ctrain;2. 在C个训练中对每个类别的ns个图像进行随机采样以形成支持集S ={(xi,yi),i = l,... n s× n train};3. 在C训练中每类随机采样nq个图像以形成查询集Q ={(x j,y j),j = 1,.,n(n);4. 利用特征提取器F计算S中图像的视觉特征,得到视觉特征{fi= F(xi),i = 1,.,n q× n train};5. 通过使用其自身类内的特征来构造情节表示{rci,ci∈Ctrain}6. 计算相似性得分向量Vi =[v1,...,在每个情节表示r。 和所有全局类我我我表示G={gcj,cj∈Ctotal};7. 根据公式4计算配准损失;8. 获得概率分布Pi =[p1,...,通过经由softmax函数对相似性得分Vi进行归一化来计算P [N ] T;我我9. 计算估计的类表示{i,i = 1,.., n列}的方法;10. 根据公式5计算查询图像的分类损失;11. 根据公式6计算总损耗。表示和所有全局类表示。相似性分数将用于为查询图像选择全局类表示。使{xk,yk} ∈Q公式化如下:Lfsl(xk)=CE(yk,Wk),wi= − <$F(xk)−<$i<$,i∈Ctrain(五)全局类表示更可分离,我们的注册k2模块定义配准损失以施加相似性其中,Wk=[W1,...,tntrain]T表示其得分将高于其他全球代表团的得分-kk句子更可分离的全局类表示可以增强识别未标记图像的能力。根据等式2,一个类别的情节表示的配准损失rci被公式化如下:查询样本的估计类表示xk.通过将查询图像的配准损失和分类损失组合在一起,训练迭代的总损失函数如等式6所示,并且Lreg(rci)=CE(ci,Vi),计算训练片段损失在算法1中给出。vj= −θ(rc)−φ(gcj)2,cj∈C全(四)丢失将更新所有可学习的组件,包括全局表示和寄存器的参数。其中Vi= [v1,....,表示相似性得分,特征提取模块和特征提取器。我我在Ctrain中类cj的情节表示与所有全局类表示{gcj,cj∈Ctotal}之间。最后,利用第三次计算得到的相似度得分,L总(S,Q)=Σci∈SLreg(rci)+Σk∈QLfsl(xk)(6)第二步,我们为C训练中的每个类选择一个全局类表示作为它的类表示,并使用所选择的全局类表示作为参考,通过执行最近邻搜索来识别查询图像。然而,当选择是argmax操作时,它是不可微的因此,我们以软方式选择类表示:V i= [v1,.,相似性得分向量在测试期间,我们使用相同的程序来预测未标记数据的标记。也就是说,我们首先将支持集提供给特征提取器,并为每个类获取情景类表示。然后,使用情节类表示来经由注册模块注册对应的全局类表示在此之后,我们通过计算欧几里得距离来执行最近邻搜索-我我首先通过softmax函数进行归一化,以获得概率。能力分布P1= [P1,…,p N]T。 然后以将测试样本的特征向量与选定的全局表示。我我概率分布Pi作为权重,我们估计类将C列中的第i个类别的表示(表示为ξi)作为所有类别的全局表示的加权和也就是说,Pi=Pi G。 现在,我们获得对应的全局类表示集{i,i = 1,., n train},用于C train中的课程。尽管我们在采用软配准方式,仍能达到较好的配准精度(见4.1.4节)。查询样本的分类损失3.4. 广义FSL的推广虽然所提出的方法最初是为标准FSL设计的,但它可以很容易地扩展到广义FSL:简单地包括来自基本类和新类的测试数据,并且在测试阶段从C total中的所有N个类预测它们的标签。该设置比标准FSL更直观和真实,其中测试数据我9720模型5路Acc.20路Acc.Model5 way Acc.MMN [3]MG [36]99.28±0.08 99.77±0.04 97.16±0.1099.67±0.18 99.86±0.11 97.64± 0.17我们99.72±0.0699.90± 0.1099.63± 0.0999.32± 0.04表1.Omniglot数据集上FSL的比较结果给出了1,000个测试事件的平均准确度(%),然后是标准偏差(%)。从只有小说类。注意,我们的配准模块本质上是用于广义FSL设置的分类器。我们的注册模块不仅优化了新的类表示,但更新基类表示以及。通过将每个测试样本与基本类和新类的全局表示进行比较,我们的注册模块可以直接预测测试图像属于Ctotal中每个类的概率。4. 实验与讨论在本节中,我们通过进行三组实验来评估我们的方法:1)标准FSL设置,其中测试数据的标签空间在每次测试迭代时被限制为几个新类,2)广义FSL设置,其中测试数据的标签空间扩展到基类和新类,以及3)消融研究。4.1. 标准少拍学习4.1.1数据集和设置根据目前所有FSL工程采用的标准FSL设置,我们对最受欢迎的基准点进行评估:Omniglot和miniImageNet。Omniglot [15]包含32,460个手写字符图像。它由50个字母中的1,623个不同字符组成。每个角色有20个图像。我们遵循[34,29]中最常见的划分,取1,200个字符用于训练,其余423个用于测试。此外,我们采用与[34]相同的数据预处理:每个图像的大小调整为28×28 像 素 , 并 旋 转 90 度 的 倍 数 作 为 数 据 增 强 。miniImageNet数据集是一个最近的col-选择ImageNet for FSL。它由从ImageNet [25]中随机选择的100个类组成,每个类包含600个大小为84× 84像素的图像。 遵循先前工作中广泛使用的设置[34,29],我们采用64个课程进行培训,16个用于验证,20个用于测试,重新分别为。在培训阶段,表2.miniImageNet数据集上FSL的比较结果给出了600个测试事件的平均准确度(%),然后是标准偏差(%)。16个验证类分别作为基类和新类来确定算法的超参数。报告的性能是通过我们的方法训练64个训练类作为基类和20个测试类作为新的类。4.1.2实现细节网络架构:我们的特征提取器F反映了[29,34]使用的架构,由四个卷积块组成。每个块包括一个64过滤器3× 3卷积,批量归一化层[11],一个ReLU非卷积层[12]。线性和2× 2最大池化层。当应用于28× 28 Omniglot图像时,该架构导致64维输出空间。当应用于84× 84的miniImageNet图像时,这种架构导致1600-三维输出空间我们在支持集和查询集中对图像使用相同的特征提取器。我们的注册模块中的两个嵌入θ和φ使用相同的架构:一个完全连接的层,后面是一个批量归一化层和一个ReLU非线性层。全连接层的输出通道为512。训练过程:我们首先训练特征提取器F简单的分类任务,使用所有的基类。每个然后,通过首先使用预训练的F从其类中提取图像的视觉特征,然后对这些视觉特征进行平均,来初始化全局类表示。第3.2节中使用的数据超分辨率器[35]使用预训练的F作为特征提取器进行预训练。配准模块使用随机高斯初始化从头开始训练在初始化特征提取器、全局表示、数据超分辨率器和注册模块之后,我们以端到端的方式一起训练它们带有动量的随机梯度下降(SGD)[16]用于模型训练,基本学习率为0.001,动量为0.9。学习率每3,000集退火1/101镜头5投MLSTM [21]43.44 ±0.7760.60 ±0.71[34]第三十四话43.56 ±0.8455.31 ±0.73马[9]48.70 ±1.8463.11 ±0.92PN [29]49.42 ±0.7868.20 ±0.66DLM [33]50.28 ±0.8063.70 ±0.70[29]第二十九话50.44 ±0.8265.32 ±0.70MG [36]52.71 ±0.6468.63 ±0.67MMN [3]53.37 ±0.4866.97 ±0.351镜头5投1镜头5投[34]第三十四话97.998.793.598.7APL [20]97.999.997.297.6DLM [33]98.895.499.698.6PN [29]98.899.796.098.9马[9]98.7±0.499.9±0.195.8±0.398.9±0.297214.1.3关于Omniglot遵循大多数现有的少数镜头学习作品所采用的标准设置,我们在Omniglot数据集上进行了5路1-shot/5-shot和20路1-shot/5-shot分类。在四个FSL任务中,每个训练集包含60个类,每个测试集包含n个测试类(对于20路场景,ntest= 20;对于5路场景,ntest= 5)。在1-shot和5-shot场景中,每个查询集每个类具有5个图像,而每个支持集每个类分别包含1个和5个图像。对于训练片段,从整个训练集中随机选择支持集和查询集中的图像在测试片段中,从训练集中随机选择支持集中评价指标定义为随机选择的1000个测试集的分类准确率。Omniglot数据集的比较结果见表1。可以观察到,我们的方法实现了新的最先进的性能。这验证了我们的方法的有效性,由于其独特的全局类表示学习策略。4.1.4miniImageNet上的结果根据之前的工作[34,29],我们在miniImageNet数据集上进行了5路miniIm- ageNet数据集上的5路1次激发和5路5次激发与Omniglot数据集上的相似,除了三个差异:1)在5路1次FSL中,每集训练包含30个类; 2)在5路5镜头FSL中,每个训练集包含20个类; 3)在训练和测试片段中,每个查询集每类具有5个图像。评估度量被定义为随机选择的600个测试片段的分类准确度表2提供了miniImageNet数据集上FSL的比较结果。我们可以看到,我们的方法显着优于其他FSL替代品的5路5次设置,并实现了联合最佳结果下5路1次设置。我们的配准模块在测试数据上产生100%的配准准确率,并且相似性得分接近于它们的独热标签。这表明配准模块可以准确地为支持集的情景类表示选择对应的全局表示。也就是说,第3.3节中提出的软配准方式已经实现了与相似性得分上的“argmax”操作相同的性能4.2. 广义少镜头学习4.2.1数据集和设置为了进一步评估我们的方法的有效性,我们在更具挑战性但实际的环境中测试我们的方法,即,广义FSL,其中测试的标签空间模型阿库河阿库Baccun.[34]第三十四话26.9833.540.75PN [29]31.1739.530.52注册护士[30]32.4840.241.42我们39.1446.3212.98表3.广义FSL设置下miniImageNet数据集的比较结果(%)在这种情况下,测试示例来自基础类和新类,每种方法都必须从联合标签空间预测标签。数据被扩展到基类和新类。我们在miniIma-geNet数据集上进行了5路5次FSL实验,并采用了新的数据分割。具体地说,我们使用与原始miniImageNet相同的类分割(即,培训/验证/测试:64/16/20),采用新的样本分割:我们从每个基本类的总共600个图像中随机选择500个图像,并从每个新类中随机选择一些样本,以形成新的训练集。我们从剩余的数据中选择每个基础/新颖类100个图像超参数选择策略与标准FSL中的相同。受广义FSL [4,5,14,24,6]的启发,我们定义了广义FSL的三个评价指标:1)acc b-将数据样本从基本类分类到所有类(包括基本类和新类)的准确度; 2)accu n-将数据样本从新类分类到所有类的准确性; 3)将所有测试样本分类到所有类别的准确性;请注意,测试示例来自基础类和新类,每种方法都必须从联合标签空间预测标签。我们将我们的模型与最近的三种方法进行比较1:1)PN [29]基于学习的嵌入空间中与每个类的距离来识别未标记的图像。2)MN [34],其通过软最近邻机制识别未标记的数据,其中上下文嵌入的输出作为参考。上下文嵌入使用来自支持集和查询集的图像进行训练,以强调与特定查询类相关的特征。3)RN [30]通过使用用训练集学习的关系网络来识别未标记的图像,以计算查询图像和类均值之间的关系得分。这三种方法可以很容易地推广到广义FSL。具体地,模型训练几乎与标准FSL设置相同,除了使用新的数据分割并且来自新类别的少量样本被包括在训练集中。在测试阶段,我们将广义FSL问题转化为一个100路FSL问题,并将所有测试数据分类到基类和新类的联合空间中。在[29]中,我们将一个类中所有样本的特征平均为一个类,以识别测试数据。同样,测试样本的特征和1这三种方法的结果是通过使用我们新的miniImageNet分裂来训练他们论文中提供的原始代码获得的97227372717069686766BB+S1B+S1+S2B+RB+S1+RB+S1+S2+R模型图3.在标准FSL设置下,在miniImageNet数据集上进行FSL消融研究获得全局类表示的不同方法表示如下:'B'-平均同一类别中的视觉特征以获得类别表示;“S1”-第3.2节中提出的方法的第一步;“S2”– 第3.2节中提出的方法的第二步骤;每个类中的所有样本分别被馈送到[30]和[34]中的关系网络和上下文嵌入中4.2.2结果表3提供了miniImageNet数据集上广义FSL的比较结果我们可以观察到:1)我们的方法在所有评估指标上都取得了最佳结果,比标准设置下的结果有更大的利润。这表明我们的模型在这种更具挑战性的设置下具有最强的泛化能力。2)我们的方法优于PN和RN,因为我们学习每个类的全局类表示,而它们估计情节类表示。3)MN产生的结果比我们的方法低得多预计:上下文嵌入对所有类的示例进行编码;由于有如此多的基类示例,它们压倒了新类中的示例,使得上下文嵌入无法强调新类的特征。我们的样本合成策略增加了类内方差,从而解决了新类中的数据稀缺问题。4.3. 消融研究我们比较了我们的完整模型与一些剥离版本,以评估我们的方法的关键组成部分的有效性在介绍我们的消融研究方法之前,我们将我们的方法的关键组成部分表示如下:'B' -平均同一类别中的视觉特征以获得类别表示;“S1”-第3.2节中提出的方法的第一步;“S2”-第3.2节中提出的方法的第二步;“R”– 第3.1节中提出的注册模块。通过对关键部件的组合,我们比较了六种FSL模型,它们中的每一个都使用相同的FSL框架,不同之处仅在于如何学习全局类表示:1)'B'-通过'B'获得基类/新类的全局表示; 2)'B+S1' -基类的全局表示由'B'获得;而新类的全局表示由'S1'获得; 3)'B+S1+S2'– 基类的全局表示由“B”获得,而新类的全局表示由“S1”后接“S2”获得; 4)“B+R”-通过“B”获得每个基础/新颖类的情节表示,并且通过“R”以这些情节表示作为输入来学习基础类和新颖类两者的全局类表示; 5)基础类和新类的全局类表示都是由“R”学习的图3中的消融研究结果表明:杠杆老化我们的样本合成策略或单独的配准模块不能很好地学习类的全局表示(参见然而,当同时使用这两种方法来学习全局类表示时,性能得到了显着提高(参见 这是预期的,因为:1)当单独应用样本合成策略时,我们使用情节表示作为全局表示。虽然合成策略可以增加类内方差,但情节表示失去了全局类一致性,限制了其性能的提高。2)当单独应用注册模块时,严重的类不平衡问题将限制性能的提高。3)通过将这两种方法集成到FSL框架中,我们的方法可以解决上述两个问题,从而显着提高性能。这些结果清楚地说明了这些关键组件在我们的方法中的有效性。5. 结论我们提出了解决具有挑战性的FSL问题,通过学习一个全球性的类表示使用基础和新的类训练样本。在每个训练片段中,从支持集计算的片段类平均值通过配准模块与全局表示配准。这产生了一个注册的全局类表示,用于使用查询集计算分类损失。我们的方法可以很容易地扩展到更具挑战性的广义FSL设置。我们的方法被证明是有效的标准FSL和广义FSL。致 谢 本 工 作 得 到 国 家 基 础 研 究 计 划(2015CB352502)、国家自然科学基金(61573026)和北京国家自然科学基金(L172037)的支持。准确度9723引用[1] Luca Bertinetto 、 Joao F Henriques 、 Philip HS Torr 和Andrea Vedaldi。使用可微封闭形式求解器的元学习。在2019年的学习代表国际会议上。2[2] 放大图片作者:Joo F. Henriques,Jack Valmadre,PhilipH. S. Torr和Andrea Vedaldi.学习前馈一次性学习器。神经信息处理系统的进展,第523-531页,2016年2[3] 蔡奇,潘英伟,姚婷,闫成刚.记忆匹配网络用于单次图像识别。在IEEE计算机视觉和模式识别会议论文集,第4080-4088页,2018年。6[4] Soravit Changpinyo,Wei-Lun Chao,Boqing Gong,andFei Sha.用于零镜头学习的合成分类器。在IEEE计算机视觉和模式识别会议的Proceedings,第5327-5336页,2016年。7[5] Soravit Changpinyo,Wei-Lun Chao,and Fei Sha.为零射击学习预测看不见的类的视觉样本。IEEEInternationalConference on Computer Vision,2017。7[6] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha.广义零拍学习在野外物体识别欧洲计算机视觉会议,第52-68页7[7] 戴梓航,杨志林,杨凡,罗斯兰.好的半监督学习需要一个坏的团队。神经信息处理系统的进展,第6510-6520页,2017年。1[8] Harrison Edwards和Amos J.史托基成为神经统计学家。在2017年学习代表上。1[9] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在国际机器学习会议上,第1126-1135页,2017年。二、六[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。2[11] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少 内 部 协 变 量 偏 移 来 加 速 深 度 网 络 训 练 。 在International Conference on Machine Learning , 第 448-456页6[12] Lukasz Kaiser , Ofir Nachum , Aurko Roy 和 SamyBengio。学会记住罕见的事件。在2017年国际学习表征会议上。1[13] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。在ICML研讨会,2015。2[14] Elyor Kodirov,Tao Xiang,and Shaogang Gong.用于零触发学习的语义自动编码器在IEEE计算机视觉和模式识别会议论文集,第3174-3183页,2017年。7[15] 布伦登M. Lake,Ruslan Salakhutdinov,Jason Gross,and Joshua B.特南鲍姆简单视觉理念的2011年认知科学学会年会论文集。6[16] 放大图片创作者:Bernhard E.作者:John S.放大图片作者 : Richard E. Howard , and Lawrence D. Hubbard ,Wayne E.and Jackel.应用于手写体邮政编码识别的反向传播。神经计算,1(4):541- 551,1989。6[17] Tsendsuren Munkhdalai和Hong Yu。Meta网络。国际机器学习会议,第2554- 2563页2[18] Alex Nichol和John Schulman爬虫:可扩展的元学习算法。arXiv预印本arXiv:1803.02999,2018。2[19] Shafin Rahman,Salman H Khan,and Shahh Porikli.一个统一的方法,为传统的零杆,广义零杆和少杆学习。arXiv预印本arXiv:1706.08653,2017。1[20] 蒂亚戈·拉马略和玛尔塔·加内洛自适应后验学习:具有基于惊喜的记忆模块的少量学习。在学习代表国际会议上,2019年。6[21] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在2016年的国际学习代表会议上一、二、六[22] Mengye Ren , Eleni Triantafillou , Sachin Ravi , JakeSnell , Kevin Swersky , Joshua B.Tenenbaum , HugoLarochelle,and Richard S.泽梅尔用于半监督少镜头分类的元学习。在2018年国际学习代表。1[23] Danilo JimenezRezende 、 ShakirMohamed 、 IvoDanihelka、Karol Gregor和Daan Wierstra。深度生成模型中的一次性泛化。在国际机器学习会议上,第1521-1529页,2016年。1[24] Bernardino Romera-Paredes和Philip H.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功