没有合适的资源?快使用搜索试试~ 我知道了~
6659PARN:用于少镜头学习的位置感知关系网络电子信息工程学院,华南理工大学,广州,中国{eezywu1,2018210108242}@ mail.scut.edu.cn,{guolihua3,kuijia4}@scut.edu.cn摘要少样本学习提出了一个挑战,即分类器必须快速适应未出现在训练集中的新类,而每个新类只有几个标记 的 示 例 本 文 提 出 了 一 种 位 置 感 知 关 系 网 络(PARN),以学习更灵活和鲁棒的度量能力,为少数学习。关系网络(RN)是一种关系推理的架构,可以通过设计为简单的卷积神经网络(CNN)来获得图像的深度度量能力[23]。然而,由于CNN固有的局部连通性,基于CNN的关系网络(RN)可能对两个比较图像中语义对象的空间位置关系敏感为了解决这个问题,我们引入了一个变形特征提取器(DFE)来提取更 有 效 的 特 征 , 并 设 计 了 一 个 双 相 关 注 意 机 制(DCA)来处理其固有的局部连通性。成功地,我们提出的方法扩展的潜力RN是位置感知的语义对象,通过引入只有少量参数。我们在两个主要的基准数据集 上 评 估 我 们 的 方 法 , 即 。 Omniglot 和 Mini-Imagenet,并且在这两个数据集上,我们的方法都实现了最先进的性能。值得注意的是1. 介绍人类可以有效地利用先前的知识,很容易地学习新的概念,只要给出几个例子。少量学习[11,20,15]旨在像人类一样获得一些可转移的知识,其中当只给出每个类的一个或几个标记示例时,分类器能够推广到新的类,即,一枪或几枪。在本文中,我们关注的是学习如何计算的能力,即基于度量的方法。基于度量的方法- s [2,11,22,23,25]通常由特征提取器和图1:RN的比较能力将受到限制的两种情况。上面一行显示了两个比较的图像,下面一行显示了它们提取的特征,其中蓝色区域表示相应语义对象的响应。(a)卷积核无法涉及这两个对象。(b)卷积核不能涉及相同的细粒度特征。公制模数给定一幅未标记的查询图像和少量标记的样本图像,特征提取器首先为所有输入图像生成嵌入,然后度量模块测量查询嵌入和样本嵌入之间的距离,给出识别结果。大多数现有的基于度量的少镜头学习方法集中在构建学习的嵌入空间以更好地适应一些预先指定的距离度量函数,例如,余弦相似度[25]或欧几里得距离[22]。这些研究期望学习图像的距离度量,但实际上只有特征嵌入是可学习的。因此,固定但次优的度量函数将限制特征提取器产生区别性表示。基于这个问题,最近Sunget al. [23]引入了一个关系网络,它被设计为一个简单的CNN,以数据驱动的方式使度量可学习和灵活(在本文中,我们简单地表示6660基于CNN的关系网络作为RN),他们在少量学习中取得了令人印象深刻的表现。然而,根据我们的分析,RN的比较能力仍然是有限的,由于其固有的本地连接。众所周知,卷积运算天然具有平移不变性,可以从图像中提取特征,这意味着提取的特征的较高响应主要位于语义对象对应的位置-s [27]。有两种情况:(i)图像的两个语义对象处于完全不同的空间位置,如图1(a)所示;(ii)它们在空间位置上很接近,而它们的细粒度特征却不接近,如图1(b)所示。我们注意到这两种情况在数据集中经常发生,特别是情况(ii),不应被忽视。对于这两种情况,Sunget al. [23]简单地将两个比较的特征连接在一起,并使用RN来学习它们的关系。然而,我们认为,RN的比较能力是固有的限制,由于其本地的感受野。在情况(i)中,如图1(a)所示,每个卷积步骤只能涉及同一个局部空间区域,很少同时包含两个对象在情况(ii)中,即使卷积核同时涉及两个对象,它也可能无法涉及它们相关的细粒度语义特征,例如,在图1(b)中,它涉及样本的主体特征和查询的头部特征,这不是最佳的和合理的比较操作。这两种情况促使我们促进RN意识到的对象和细粒度的功能在不同的位置。在本文中,我们提出了一个位置感知的关系网络(PARN),其中的卷积运算符可以克服其局部连接,是位置感知的相关语义对象和图像中的细粒度特征与RN [23]相比,我们提出的模型提供了更有效的特征提取器和更强大的深度度量网络,这增强了模型处理上述两种情况的泛化能力。总体框架如图2所示。我们的主要贡献如下:• 在特征提取阶段,我们引入了可变形特征提取器(DFE)来提取更有效的特征,这些特征包含更少的低响应或不相关的语义特征,用于有效地缓解情况(i)中的问题。• 我们的另一个重要贡献是,我们进一步开发了RN的位置感知潜力,学习更健壮和通用度量能力。在比较阶段,我们提出了一个双相关注意机制(DCA),利用两个比较功能的位置关系,以捕捉他们的全局信息,然后密集地聚集到每个位置的输出所捕获的信息。通过这种方式,后续的卷积层可以感测相关的细粒度特征,并自适应地比较它们,而不管局部连通性如何• 通过使用浅层特征提取网络的设置,我们的方法达到了最先进的结果在 两个 主要 基 准上 具有 可 比较 的差 额 ,即,Omniglot和Mini-Imagenet值得注意的是2. 相关工作最近的几次学习方法通常采用基于情节的策略[25]来从一组情节中学习元知识,其中每个情节/任务/小批量包含C个类和每个类的K个样本,即,C-方向K-射击。获得的元知识可以使模型能够适应新的任务,包含看不见的类只有几个样本。根据元知识的多样性,目前的方法可以归纳为三类,基于优化(学习快速优化模型)[6,18,28,29],基于记忆(学习积累和推广经验)[3,16,19]和基于度量(学习一般metric)[2,11,22,23,25]方法。简而言之,基于优化的方法通常与元学习/学习的概念相关联[7,24],例如,学习元优化器[18]或采取一些明智的优化策略[6,28,29],以更好更快地更新新任务的模型。基于记忆的方法通常在学习旧任务时引入记忆成分来积累经验,并在执行新任务时将其我们的实验结果表明,我们的方法优于他们,而不需要更新新的任务模型或引入复杂的内存结构。我们的方法属于基于度量的方法,可以以前馈方式执行新的任务,通常由特征提取器和度量模块组成。特征提取器首先对未标记的查询图像和少量标记的样本图像进行嵌入,然后在度量模块中通过测量查询嵌入和样本嵌入之间的距离来给出识别结果。早期的工作[2,11,22,25]主要集中在设计嵌入方法或一些性能良好但固定的度量机制。例如,Bertinettoet al.[2]设计了一种任务自适应的特征提取器,利用训练好的网络预测参数,用于新任务的特征提取。和Vinyals等人。[25]提出了一种可学习的注意力机制,通过引入LSTM来计算完全上下文嵌入(FCE),并在嵌入空间中的余弦相似性上应用softmax,从而发展了完全可微神经邻居算法的思想。M. 然而,他们的方法有些复杂。 Snel-1等”[22]于是,他们就更进一步。6661网络通过简单地学习嵌入空间,其中类的原型表示可以通过直接计算样本的平均值来获得,并且他们使用Bregman分歧[1]来测量距离,这优于[25]中使用的余弦相似性。在上述基于度量的方法中,嵌入将被限制为产生区别性表示,以便满足固定但次优的度量方法。一些方法[4,14]试图采用Mahalanobis度量,但在高维嵌入空间中仍然不够。为了解决这个问题,Sunget al. [23]介绍了用于少量学习的关系网络(RN),这是一种关系推理的架构,并成功地应用于视觉问答任务[17,20,30]。他们通过设计一个简单的基于CNN的关系网络(RN)来开发一个可学习的非线性度量模块,这对于嵌入网络来说是简单但足够灵活的,从而实现了令人印象深刻的性能然而,由于CNN的局部连通性,RN将对被比较对象的空间位置关系敏感。因此,我们进一步利用RN的潜力来学习更鲁棒的度量能力,从而避免了这个问题。3. 方法在本节中,我们将详细介绍用于少量学习的位置感知关系网络(PARN)首先,我们将介绍PARN的总体框 架 。 然 后 我 们 将 介 绍 我 们 的 变 形 特 征 提 取 器(DFE),它可以提取更有效的功能。最后,为了提高RN对图像中细粒度特征的位置感知能力,提出了一种双相关注意机制(DCA)。3.1. 整体网络架构如图2所示首先,样本和查询图像被送入特征提取网络,该网络被设计为DFE 。 通过DFE,提取的特征f1和f2可以更加集中于语义对象,有利于提高后续的分类效率和精度。然后,为了在f1和f2之间进行鲁棒的比较,我们对它们应用双相关注意力模块(DCA),使得输出的每个位置特征图fmn(m,n ∈ {1,2})包含全局互相关或自相关信息,其中fmn意味着fm的每个位置涉及fn的所有位置。这样一来即使随后的卷积操作是局部连接的,每个卷积步骤也可以自适应地感测所有位置中的相关细粒度语义特征。最后,我们将上述输出特征fmn(m,n∈ {1,2})连接起来,并将它们送入标准CNN以学习关系得分。图2:我们提出的用于少量学习的PARN概述。DFE是可变形特征提取器。DCA是双相关注意模块,它由互相关注意模块(CCA)和自相关注意模块(SCA)组成这两个SCA块是一个共享模块。符号‘∼’ represents a concatenating3.2. 可变形特征提取器图3(a)示出了标准特征提取器(SFE)。由于卷积运算的平移不变性,由SFE提取的输出特征将仅在与对象对应的空间位置中呈现高响应其他位置是低响应或不相关的特征,可能会导致度量模块对它们执行在最坏的情况下,如图1(a),很难准确地比较两个对象。受可变形卷积网络[5,9]用于对象检测任务的想法的启发,我们尝试为特征提取网络部署可变形卷积层,以提取包含较少低响应或不相关语义特征的更有效特征如图3(b)所示,可变形卷积核的卷积核是一个可变形的卷积核。旋转层不是一个规则的k×k网格,而是具有二维偏移距的k2内核的每个参数wi(0≤i≤k2)都应该取一个偏移坐标(x,y),将原始操作从wif(x,y)转换为wif(x+ x,y+ x,y),其中f(x,y)是指f的坐标(x,y)处的空间点。在我们的工作中,偏移量是通过在输入特征图上应用卷积层来学习Dai等人。[5]的文件。偏移映射具有与输出映射相同的空间分辨率,而其通道维度为2k2,因为对于输出映射有k×k×2 =2k2个偏移标量。对比图3(a)(b)中SFE和DFE提取的特征,可以得知DFE可以在一定程度上过滤掉不相关的信息,提取出更高效的特征,有望提高后续的计算效率和性能。6662和f2IJIJ12(orf2)自身的全局信息。我们将在下面分别给出它们的详细信息。互相关注意模块如图4所示,给定两个提取的特征f1∈RC×H1×W1和f2∈RC×H2×W21,CCA首先应用两个共享1×1卷积层分别覆盖它们,在通道维度上进行嵌入,以及′然后生成两个特征图f′′∈RC×H1×W 1′和f2 ∈RC×H2×W2′,其中C小于C。我们′把它们改造成f1 ∈RH1W1×C′′′∈RH2W2× C.′ ′然后我们应用交叉相关运算g(f1,f2)来计算任意两个位置之间的关系 的 交叉注意力图Ac.从 空间′ ′f1的位置i和f2的位置j,我们可以分别得到"C“两个空间点/向量{f1i,f2j}∈R得双曲余切值.i∈ {1,…H1W1},j∈ {1,.,H2W2}。的点态′ ′ ′ ′图3:两个特征提取器。 特征图显示在spa中-形状各异。输出特征上的蓝色区域表示相应语义对象的响应。g(f1,f2)的计算表示为gij(f1i,f2j),即,gij计算Ac的值,这表明 ′ ′1i和f2j。 在这里我们选择用于gij的余弦相似性函数来计算它们的3.3. 双相关注意力模块关系,则Ac可以计算如下:c′ ′T′′尽管有更有效的功能,如第二节所述,第1步,如果我们只使用卷积运算来实现Aij=gij(f1i,f2j)=f1if2j(1)随后的比较程序,比较能力-′其中f′′=f1i和f′′=f2j是l-归一化的′它仍然是有限的,因为它有点难以参与,1i“f1i“2j“f2j“′ ′′′两幅图像的相关细粒度语义特征向量 我们记为f=[f] ∈RH1W1×C和f=′′11i′ ′2在每个卷积步骤中。 为了解决这个问题,一最直接的想法是通过放大来使用更大的感受野[f2j ]∈RH2W2×C,意味着f1和f2′′获得改变卷积核的大小,或者堆叠几个卷积层。然而,随着参数的增加和层次的加深,模型会陷入过拟合问题通过分别在f1和f2上执行l2-归一化沿着它们的通道尺寸。 那么方程(1)可以重写-矩阵形式十个:更容易。c′ ′′′T受非本地网络[26]的启发,它捕获了视频分类任务的长期依赖关系,我们A=g(f1,f2)=f1f2(2)其中Ac∈RH1W1×H2W2包含所有相关性′ ′提出了一种双相关注意机制(DCA),双输入深度关系网络所提出的注意力机制仅使用少量参数 为了捕获FEA的任何两个位置之间的关系在f1和f2的每个空间位置之间。在获得交叉注意力图Ac之后,如图所示,在图4中,下一个步骤是分布操作,它在Ac与f′的每个子映射之间执行点积不管它们的空间距离如何,然后利用′1和F2。我们执行分配如下:所捕获的位置方面的关系,以聚合全局输出的每个空间位置处的信息。这样,即使后续的卷积核很小,每个卷积步骤也可以涉及两者的全局信息。.F21F12=AcTf′=Acf′(三)输入要素,并自适应地对其中fmn表示fm关注全局信息,他们fn(m,n∈ {1,2},mn)。 具体可以如 图 2 所 示 , 提 出 的 DCA 由 互 相 关 关 注 模 块(CCA)和自相关关注模块(SCA)组成,其中CCA通过关注f1(或f2)的每个空间位置到f2(或f1)的全局信息来计算f12从图4中可以看出,输出特性f21捕获了将f1的全局信息转化为每个空间位置,f12到f2也是如此。通过这种方式,后续卷积层可以感测所有位置,并比较实际上H1和W1等于H2和W2。为了解释清楚,我们在这里用不同的符号表示它们。1′266631′2图4:互相关注意模块(CCA)。特征图以空间形状显示共享两个1×1卷积层的权重互相关注意图Ac包含两个输入的所有位置相关性。在分布操作期间,Ac将被重新塑造成与f1(或f2)的空间形状相对应的形状。Ac的每个子映射是′ ′与f1(或f2)执行点积,以将跨全局信息聚合到输出f21(或f12)的每个空间位置图5:自相关注意力模块(SCA)。特征图以空间形状显示1 × 1卷积层的权重与CCA中的权重共享。自相关注意力图As包含了f1中所有的位置关系。每个子图s′然后将A1与f1进行点积,以将全局信息聚合到输出f11的每个空间位置。即使用一个小的卷积核。终于f21了并且f12将被整形为f21∈RC×H2×W2,′在CCA。因此,对于Eq。(2)(3),给定输入特征f1,我们也可以得到输出f11:f∈RC×H1×W1,然后通过aS′ ′′′T121×1卷积层,增加通道维度A1=g(f1,f1)=f1f1(4)梭f=AsTf′(五)1111自相关注意模块如图5所示,SCA类似于图4中的CCA,除了SCA中的自相关操作仅接受一个输入以生成自注意图As,这实际上是当交叉相关操作的两个输入在我们的实现中相同时的情况。此外,SCA中的两个1×1卷积层的权重与其中f11表示f1关注自身,并捕获全局信息以聚合到其每个空间位置。通过输入f2并执行相同的操作,我们也可以得到As和f22。f11和f22的下一步与f12和f21的步骤相同。在此基础上,完成了DCA的计算,其中所有的引入参数都是一个共享的1×1con-n,6664卷积层用于嵌入输入特征,另一个共享的1×1卷积层用于增加通道维度。之后,我们将这四个全局相关的特征fmn(m,n∈ {1,2})2连接起来,并通过CNN来学习最终的关系得分。4. 实验在本节中,我们首先介绍两个基准数据集和实现细节。然后,我们进行了一系列的消融研究,以分析我们提出的模型的有效性最后,我们将我们提出的模型与这两个数据集上的先前最先进的方法进行了比较。4.1. 数据集Omniglot[12]是一个用于少量学习的常见基准,它包含来自50个不同字母表的1,623个不同的手写字符/类,每个类最多有20个大小为28×28的样本。我们遵循[22,23,25]有1,200个类元训练和423个元测试类。此外,我们遵循[19,22,25],在训练期间通过90度的倍数随机旋转来增强数据集。Mini-Imagenet[25]是Imagenet的一个子集,由100个类组成,每个类包含600个大小为84×84的图像。我们按照[6,18,22,23,25]以完全相同的方式分割数据集,即,64个元培训课程,16个元验证类和元测试20类。4.2. 实现细节网络架构继以前的工作- s [22,23,25],我们的基本特征提取网络,为1次拍摄和5次拍摄任务安排样本和查询图像的数量。分类结果由得分最高的类别给出。4.3. 消融研究在本小节中,我们在Mini-Imagenet上进行了一些消融实验,以检查DFE和DCA的有效性。变形特征提取器在3.2节中,我们提出了DFE来提取更有效的特征,期望提高后续的比较效率和精度。为了验证预期,我们观察了使用具有4个卷积层的SFE(SFE-4)或具有4个卷积层的DFE(DFE-4)来提取特征以进行后续比较的结果。SFE-4和DFE-4的结构为了消除DFE-4引入的额外参数的影响,我们设置了具有6个卷积层的SFE(SFE- 6)进行比较。在这个烧蚀实验中,我们只使用没有DCA的RN作为度量网络。由于我们发现可变形卷积层的学习在开始时往往不稳定,因此我们将学习偏移量的卷积层的参数初始化为0,并在大约10000集热身后开始训练它们。结果示于表1中。 结果表明,DFE的精度在5路1次任务中从51.64%提高到52.07%,在5路5次任务中从66.08%提高到67.53%,略优于包含更多参数的SFE-6,表明DFE的有效性。在图6中,我们进一步可视化了标准特征提取器(SFE),由4个卷积模块,每个模块都包含一个3x3卷积的64滤波器,然后是批量归一化[8]和ReLU非线性。此外,我们在最后两层中应用2×2对于基本关系网络(RN),我们遵循[23]中的相同架构,即具有64-filter的两个卷积模块,随后是两个完全连接的层,并且最终输出通过sigmoid函数被映射为0-1作为关系得分。我们使用GeForce GTX 1080 Ti GPU在Pytorch中实施所有实验。我们使用Adam [10]来端到端优化网络,从0.001的学习率开始,当验证准确性停止提高时,将其降低10倍。我们使用均方误差(MSE)损失来训练网络作为回归任务,其中当两个输入类别相同时,标签为1,否则为0。在训练期间不应用诸如dropout或l2我们跟随Sunget al。[23]到2在我们的实验中,我们还连接了两个输入特征。型号5路1次5路5次参数 深度SFE-451.64 ±0.83%66.08 ±0.69% 0.424M 4SFE-651.74 ±0.84%67.13 ±0.67% 0.498M6DFE-452.07±0.82%67.53 ±0.67% 0.445M4表1:Mini-Imagenet上的DFE消融研究结果是通过平均超过600个测试事件与95%的置信区间。图6:DFE的有效感受野(ERF)[13]的可视化DFE可以过滤掉一些无用的信息,比如背景。6665DFE的感受野(ERF)[13]在输入图像上。可视化显示,在de-carter中学习到的偏移量方法5-向Acc.1发5发可成形的卷积层可以潜在地适应于图像对象,这意味着DFE可以过滤掉一些无用的信息,以提取更有效的特征,这有助于后续的比较过程。请注意,ERF并不代表提取特征的响应,而只是RN 51.64± 0.83%66.08± 0.69%基线51.29± 0.82%66.00± 0.70%SCA 52.64± 0.91%67.14± 0.70%CCA 53.88± 0.87%69.49± 0.69%CCA SCA54.36±0.84% 70.50 ±0.64%表示感受野中的有效面积,即,电视台正在监视这些地方。因此,如果DFE只是过滤掉一些背景信息,但不完全关注所需的对象,则是可以接受的。双相关注意机制在烧蚀实验中,我们采用SFE作为特征提取器,RN作为基本度量网络。因此,当没有使用建议的注意力模块时,整个网络是我们在[23]中对RN的实现。为了验证我们提出的DCA,我们进行实验,是否RN应用与CCA、SCA或其组合DCA。为了公平比较,将在RN之前添加一个简单的1×1卷积层,作为建议的注意力模块的基线。结果示于表2中。我们可以看到,在1次和5次任务中,所提出的CCA和SCA都提高了性能。特别是当将两个模块组合为DCA时,在1次射击任务中的准确率增加 到 54.36% , 在 5 次 射 击 任 务 中 的 准 确 率 增 加 到70.50%,这明显优于基线。此外,我们发现在训练过程中,使用DCA的网络收敛速度要快得多,这表明DCA成功地允许RN在不同位置感知相关的语义特征,并且更容易学习比较。为了更直观地观察DCA的有效性,我们使用[21]中介绍的梯度加权类激活映射(Grad- CAM)来可视化两个比较图像上的输出结果激活。如图7所示,当两个对象的相关细粒度语义特征处于不同位置时,RN在没有我们提出的DCA的情况下无法比较它们,而使用DCA则可以成功地进行比较。换句话说,与所提出的DCA,RN变得更强大和一般的学习指标。值得注意的是,CCA比SCA工作得更好,如表2所示。我们分析了其主要原因可能是CCA具有一定的初步比较能力,而SCA不具备这种能力。如第3.3节所述,CCA的交叉注意图Ac由交叉相关运算g(f1,f2)计算,该运算实际上由相似性函数实现。因此,当两个输入要素来自不同类别时,大多数Ac值将趋于较小。然后在Eq。(3)、表2:Mini-Imagenet上的DCA消融研究。基线是具有RN的1×1SCA和CCA的组合是拟议的DCA。结果是通过平均超过600个测试事件与95%的置信区间。图7:在有或没有DCA的RN的两个输入图像上的三个加权类激活映射(Grad-CAM)[21]的可视化示例。使用DCA时,RN成功地比较了两幅不同位置图像的相关语义特征,而不使用DCA时,RN则不能比较。类别.因此,我们可以了解到,CCA的输出已经初步表示了两个输入之间的关系,这可以帮助后续RN进行进一步的比较。此外,如第1节所述,我们提出DFE来处理(i)两个对象处于不同位置的情况,DCA来处理(ii)相关细粒度特征处于不同位置的情况比较表1中的DFE和表2中的DCA的结果,我们可以发现DCA的贡献比DFE大得多根据我们的分析,其中一个原因是,在数据集中,(ii)比情况(i)更常见,因此DCA的效果可能更明显。另一个原因是,由于DCA可以在任何位置比较相关特征,因此它自然具有一定的处理情况(i)的能力。换句话说,DCA对于这两种情况是通用的。4.4. 与最新技术在本小节中,我们将DFE和RN与DCA′ ′由于在BN [8]层之后f1和f2相对稳定在超临界流体萃取中,由于ac值较小,f12和f21的响应将趋于降低。换句话说,不同类别的投入导致产出小。而当f1和f2来自同一个方向时,情况正好相反作为我们提出的位置感知关系网络(PARN),与Mini-Imagenet和Omniglot上以前的最先进方法相比Mini-Imagenet上的结果总结在表4中。表4中的前三种方法6666方法5-向Acc.20路Acc.表3:Omniglot上的少镜头分类精度。结果是1000次测试事件的平均准确度,置信区间为95%。‘-’: not并且以明显的优势击败了所有其他基于度量的方法。总之,我们提出的方法实现了最先进的性能。Omniglot的实验结果如表3所示。以前的大多数方法在Omniglot数据集上都表现得很好。然而,在所有1次和5次拍摄任务中,我们的方法仍然以可比的幅度优于它们,并达到了最先进的结果。值得注意的是,我们的5路1杆结果甚至超过了以前的5路5杆结果。1训练5路15个查询每集任务,这是我们一样。2训练30路15查询每集任务。3我们重新实现了RN [23]。表4:Mini-Imagenet上的少镜头分类精度。结果是600次测试事件的平均准确度,置信区间为95%。是基于优化的,第四种方法(MMNets)是基于内存的。其他方法,包括我们的方法,都是基于度量的。我们重新实现RN [23]的结果比报告的要好,因为我们的2×2最大池化层应用于最后两层,而不是前两个,避免过早的信息丢失。与基于优化的方法[6,18,28]和基于内存的方法[3]相比,我们提出的PARN实现了更好的精度,而无需为新任务更新模型或引入复杂的内存结构。对于基于度量的方法,结合 DFE 和 DCA 后 , PARN 将 RN 从 51.64% 提 高 到55.22%, 1次任务中,66.08%对71.55%,5次任务中5. 结论在 本 文 中 , 我 们 提 出 了 位 置 感 知 关 系 网 络(PARN),这是一种用于少量学习的更有效,更强大的深度度量网络。首先,我们引入了变形特征提取器(DFE)来提取更有效的特征,这有利于后续的比较效率和精度。其次,通过引入少量的参数,我们提出的双相关注意机制(DCA)帮助RN克服其固有的局部连通性,以比较不同位置的相关语义对象或细粒度特征。因此,我们的模型更灵活,更强大的学习指标。最后但并非最不重要的是,我们验证了我们提出的方法在Om- niglot和Mini-Imagenet上,它实现了最先进的性能。6. 致谢这 项 工 作 得 到 了 广 州 市 科 技 计 划 重 点 项 目(No.201707010141,201704020134),GD-NSF(编号2017 A030312006),国家自然科学基金(批准号:61771201)、广东省引进创新创业团队项目(批准号:2017ZT07X183)。单次拍摄5次射击1发5发曼恩[19]82.8%百分之九十四点九- -[25]第二十五话百分之九十八点一百分之九十八点九93.8% 98.5%[11]第十一话百分之九十八点四99.6%95.0% 98.6%[16]第十六话百分之九十八点九五-97.0%-[22]第二十二话97.4%百分之九十九点三95.4% 98.7%MAML [6]98.7 ±0.4%99.9 ±0.1%95.8±0.3% 98.9 ± 0.2%MSNet [3]99.28 ±0.08%99.77 ±0.04%97.16± 0.10%98.93± 0.05%方法5路Acc.单次拍摄5次射击Meta-LSTM [18]43.44 ±0.77%60.60 ±0.71%MAML [6]48.70 ±1.84%63.11 ±0.92%[28]第二十八话52.71 ±0.64%68.63 ±0.67%MMNets [3]53.37 ±0.48%66.97 ±0.35%[25]第二十五话43.40 ±0.78%51.09 ±0.71%[25]第二十五话43.56 ±0.84%55.31 ±0.73%[22]第二十二话44.53 ±0.76%65.77 ±0.70%[22]第二十二话49.42 ±0.78%68.20 ±0.66%[23]第二十三话50.44 ±0.82%65.32 ±0.70%RN351.64 ±0.83%66.08 ±0.69%PARN(我们的)55.22 ±0.84%71.55 ±0.66%6667引用[1] Arindam Banerjee,Srujana Merugu,Inderjit S.狄伦和乔伊 迪 普 · 戈 什 用 Bregman 分 歧 进 行 聚 类 Jour- nal ofMachine Learning Research(JMLR),2005.[2] LucaBertinetto,Jo aoF. 亨里克斯,杰克V阿尔马德雷,菲利普H. S. Torr和Andrea Vedaldi.学习前馈一次性学习器。神经信息处理系统进展,2016年。[3] 齐彩,潘英伟,姚婷,严成刚,梅涛。用于单次图像识别的记忆匹配网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[4] Dong Chen,Xudong Cao,Liwei Wang,Fang Wen,and Jian Sun.Bayesian Face:一种联合制剂。在2012年的欧洲计算机视觉会议(ECCV)上[5] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。IEEEInternationalConferenceonComputerVision(ICCV),2017年。[6] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届机器学习国际会议(ICML),2017年。[7] Sepp Hochreiter,A. Steven Younger和Peter R.康威尔学习使用梯度下降。人工神经网络国际会议(ICANN),2001年。[8] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议(ICML),2015年。[9] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。神经信息处理系统(NIPS)的优势,2015年。[10] 迪德里克·金马和吉米·巴。Adam:一种随机优化方法。国际学习表征会议(International,2015。[11] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。第32届国际机器学习研讨会(ICMLW),2015年。[12] 布伦登M. Lake,Ruslan Salakhutdinov,Jason Gross,and Joshua B.特南鲍姆一次学习简单的视觉概念。在第33届认知科学学会(CogSci)年会上,2011年。[13] Wenjie Luo,Yujia Li,Raquel Urtasun,and Richard S.泽梅尔了解深度卷积神经网络中的有效感受野。在神经信息处理系统(NIPS)的进展,2016年。[14] 放大图片作者:Thomas Mensink,Jakob J. Verbeek,Florent Perronnin,and Gabriela Csurka.用于大规模图像分类的度量学习:以近乎零的成本推广到新的类。2012年欧洲计算机视觉会议(ECCV)[15] 埃里克·G作者:Nicholas E. Matsakis和Paul A.维欧路易斯安那州 通过变换上的共享密度从一个示例中学习。IEEE计算机视觉与模式识别会议(CVPR),2000年。[16] Tsendsuren Munkhdalai和Hong Yu。Meta网络。第34届机器学习国际会议(ICML),2017年。[17] 拉斯莫斯·伯格·帕尔姆乌尔里希·帕奎特和奥勒·温瑟关系网络。神经信息处理系统进展(NeurIPS),2018。[18] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在国际学习表征会议(ICLR)的会议记录中,2017年。[19] Adam Santoro,Sergey Bartunov,Matthew Botvinick,Daan Wierstra,and Timothy P. Lillicrap使用记忆增强神经网络的元学习。第33届机器学习国际会议(ICM-L),2016年。[20] 放大图片作者:David G. T. 巴雷特,马林诺夫斯基,拉兹万帕斯卡努,彼得巴塔利亚,和蒂姆莉莉-废话。一个简单的神经网络模块的关系推理。神经信息处理系统进展(NIPS),2017年。[21] 兰 普 拉 萨 河 Selvaraju , Michael Cogswell , AbhishekDas,Ramakrishna Vedantam,Devi Parikh,and DhruvBatra. Grad-cam:通过基于梯度的定位从深度网络进行视觉解释。在IEEE国际计算机视觉会议(ICCV)集,2017。[22] Jake Snell,Kevin Swersky,and Richard S.泽梅尔用于少 量 学 习 的 原 型 网 络 。 神 经 信 息 处 理 系 统 进 展(NIPS),2017年。[23] 宋洪,杨永新,张立,陶翔,菲利普H. S. Torr和Timothy M.医院Learning to com-mounting:Relation Network for few-shot learning(英语:RelationNetwork for few-shot learning)在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[24] Sebastian Thrun 和 Lorien Pratt 学 会 学 习 。 SpringerScience Business Media,2012.[25] Oriol Vinyals、Charles Blundell、Tim Lillicrap、KorayKavukcuoglu和Daan Wierstra。匹配网络进行一次性学习。神经信息处理系统进展(NIPS),2016年。[26] 王 小 龙 , Ross B. Girshick , Abhinav Gupta , andKaiming He.非局部神经网络。 在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[27] Matthew D. Zeiler和Rob Fergus。可视化和理解卷积网络。欧洲计算机视觉会议(ECCV),2014。[28] Ruixiang Zhang , Tong Che , Zoubin Ghahramani ,Yoshua Bengio,and Yangqiu Song. Metagan:一种对抗性的少数学习方法。神经信息处理系统进展,2018年。[29] 张亚斌,唐辉,贾奎。细粒度视觉分类使用元学习优化与辅 助数 据的 样本 选择 。在欧洲 计算 机视 觉会 议(ECCV),2018。[30] Bolei Zhou,Alex Andonian,Aude Oliva,and AntonioTorralba.视频中的时间关系推理。在欧洲计算机视觉会议(ECCV),2018。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功