没有合适的资源?快使用搜索试试~ 我知道了~
从少样本到新概念:视觉类比图嵌入回归的类人学习方法
11497用视觉类比周林军1崔鹏1杨世强1朱文武1田琦2清华大学2华为诺亚zhoulj16@mails.tsinghua.edu.cn{cuip,yangshq,wwzhu}@ mail.tsinghua.edu.cn,huawei.com摘要人类是更好的学习者,与机器相比,人类可以用很少的样本快速学习一个新概念。造成这种差异的看似合理的奥秘是两种基本的学习机制:学会学习和举一反三。本文试图将这两种机制有机地结合起来,探索一种新的类人学习方法特别地,我们研究了如何将分类参数从预先学习的概念推广到新概念。我们首先提出了一种新的视觉类比图嵌入回归(VAGER)模型,用于联合学习低维嵌入空间和从嵌入空间到基本类的分类参数然后,我们提出了一个样本外的嵌入方法来学习嵌入的一个新的类表示的几个样本,通过其与基类的视觉类比,并获得新的类的分类参数我们在ImageNet数据集上进行了广泛的实验,结果表明我们的方法可以持续且显着地优于最先进的基线。1. 介绍深度学习的出现将图像分类性能提升到了前所未有的水平。ImageNet上的错误率已经减半并再次减半[11,21,9],甚至接近人类水平的性能。尽管取得了成功,但最先进的模型非常需要数据,需要大量样本进行参数学习。然而,在实际情况下,视觉现象遵循长尾分布[31],其中只有少数子类别是数据丰富的,其余的是有限的训练样本。如何从尽可能少的样本中学习分类器是实际应用的关键,也是探索新的学习机制的基础与机器相比,人类是更好的学习者,因为他们能够从非常有限的新类别样本中学习模型并做出准确的预测并作出相应的判断。一个直观的例子是,一个婴儿学习者可以学习识别狼只有几个样本图像,只要他/她已经能够熟练地识别狗。造成这种差异的关键奥秘在于,人们有很强的先验知识来区分不同的类别[13]。这意味着人们不需要学习一个新的分类器(例如,wolf)从零开始,但是概括和适应先前学习的分类器(例如,狗(狗)向新的类别。获得先验知识的一个主要途径是通过学习从以前的经验中学习。在图像分类场景中,学习学习是指学习识别新概念可以通过先前学习的其他相关概念来加速的机制。典型的图像分类器由表示和分类步骤构成,导致学习图像分类器的两个基本问题:(1)如何将先前概念的表示推广到新概念,以及(2)如何将先前概念的分类参数推广到新概念。在文献中,迁移学习和领域自适应方法[14]提出了类似的概念,主要关注跨不同领域和任务的表示泛化问题。随着基于CNN的图像分类模型的发展,从非常大规模的标记数据集学习的高级表示被证明在不同概念甚至不同数据集之间具有良好的可移植性[26],这显著缓解了表示泛化问题。然而,如何将深度模型(例如AlexNet中的fc7层)中的分类参数从经过良好训练的概念推广到新概念(只有少量样本)在很大程度上被以前的研究所忽略。类比学习已被证明是人类学习过程中的一个基本组成部分[7],对新类快速学习的一个合理解释是,人类学习者通过视觉类比从基本类中选择一些相似的类,将它们的分类参数转移并从这个意义上说,视觉类比提供了一个有效的和信息丰富的线索,11498以类人学习的方式推广图像分类器但新类中样本数量有限会导致高维表示空间中视觉类比的测量不准确和不稳定,如何将分类参数从选定的基类转移到新类中对生成效率也是非常重要的。为了解决上述问题,我们首先提出了一种新的视觉类比图嵌入回归(VAGER)模型,以联合学习低维嵌入空间和从嵌入空间到基类分类参数的线性映射函数。特别是,我们为每个基类学习一个低维嵌入,以便两个基类之间的嵌入相似性可以反映它们在原始表示空间中的视觉相似性。同时,我们从基类到其先前学习的分类参数(即逻辑回归参数)的嵌入中学习线性映射函数VAGER模型实现了从原始表示空间到嵌入空间的转换,并进一步转换为分类参数。然后,我们提出了一个样本外的嵌入方法来学习嵌入的一个新的类表示的几个样本,通过其视觉类比与基类。通过将学习的嵌入输入到VAGER中,我们可以导出新类的分类参数。注意,这些分类参数纯粹是从基本类(即,转移的分类参数)生成的,而新类中的样本(尽管只有几个)也可以被利用来生成一组分类参数(即,模型分类参数)。因此,我们进一步研究了两种参数的融合策略,使先验知识和数据知识可以充分利用。所提出的方法的框架如图1所示。本文的技术贡献有三个方面。(1)本文将视觉类比机制引入图像分类中,为图像分类参数从已有概念向新概念的转换提供了一种新的途径。(2)我们提出了一种新的VAGER模型,实现了从原始 表 示 到 任 何 新 类 的 分 类 参 数 的 转 换 。 (3) 我 们intensively评估所提出的方法和结果表明,我们的方法一致,显着优于其他基线。2. 相关工作一次/几次学习。One/Few Shot学习主要关注如何从一个或一堆图像而不是大规模训练数据集训练模型。[5]首先提出了这一概念以及通过贝叶斯方法对低层视觉特征进行转移的方法。Af- terward研究人员一直致力于手工制作的vi-视觉特征[30,15]提出了基于Adaboost-SVM方法的传输机制。它们都通过基类的数据构造一组弱分类器,并通过线性组合弱分类器来学习新的分类器此外,[25]提出了一种自适应最小二乘SVM方法。这些方法需要大量的监督信息来学习组合模型的权重,并且低层特征的代表能力不足限制了它们的性能。将深度学习引入到大规模图像分类中后,得益于其较强的代表能力,小样本学习的性能逐渐得到改善。[10]介绍了一种双向连体神经网络来学习两个输入图像的相似性作为评估指标,这是少数学习与深度学习相结合的早期工作。之后,元学习提供了一种新的训练机制,并在Om- niglot [12]和MiniImageNet [27]等小数据集上表现出出色的性能。MANN[20]、MatchingNetwork[27]、 MAML[6]、 Prototypical Network[22]、Relation Network[23]等是其中的代表性著作。他们的方法引入了一种新的训练机制来完全模拟m路k-shot分类的评估环境,其中训练数据被分成支持集,训练过程基于支持集,而不是单个图像。然而,它们在像ImageNet这样的大规模数据集上表现不佳。对于大规模数据集,[8]提出了考虑多类逻辑损失和小数据集训练损失的平方梯度幅度损失[29]提出了一种用于类内转移的模型回归网络,它学习从小样本训练的模型参数到大样本训练的模型参数的非线性映射。最近,一些作品利用生成模型来创建更多的训练数据。[18]利用深度生成模型给出了一种从给定图像生成相似图像的方法。[28]在原有的Meta学习方法中增加了一个深度幻觉器结构,并同时训练幻觉器和分类器。学习图像分类器。该问题的核心是如何学习新类的分类器参数,该方法广泛应用于零次学习和少次学习。[4]和[2]使用纯文本的类别描述来学习零拍摄图像分类中分类器的参数[4]使用核方法从文本特征学习参数,而[2]使用神经网络。此外,[3]学习基本分类器,并利用类之间的属性相似性构造新类的分类器。最近,[17]和[16]研究了如何利用视觉特征来生成新类的分类器参数,并在少量学习中表现出良好的性能与以往的工作不同,本文的工作主要集中在如何生成分类参数上,11499fc7_1嵌入式回归WB1���(视觉类比图狗CNN图嵌入WBn猫���(fc7_nIJ我我我IJfc7_kwN模型类似=====CNN晚wN融合狼wN反式���(使用VAGERGeneralization将基类训练成新类图1.学习图像分类器的学习框架使用VAGER训练基类:通过使用VAGER训练基类泛化到一个新类:给定一个只有少量样本的新类,我们可以通过样本外推理来推断它的嵌入,然后通过VAGER学习的映射函数将嵌入转换为转换的分类参数在用新类样本训练分类器并得到模型分类参数后,将两类参数融合形成最终的分类器。在类别水平上用视觉类比来描述。图嵌入。图嵌入(Network Em-bedding)用于提取大规模图或网络中每个节点的形式化表示。低维隐嵌入既能捕捉节点间的关系,又能捕捉节点自身的特征图嵌入在社会网络领域有着广泛的应用使用相同的CNN模型来导出新类别中图像的高级表示,由xN表示。典型的二元分类器可以表示为f(·;w|X)是一个映射函数f:Rd→−R,由w参数化。输入是一个d维图像有限元分析-真向量,输出是图像属于类别的概率。 我们用wB表示参数以解决节点聚类或链路预测等问题。对于基类i和wN对于新型I类。基于图的嵌入有很多经典的算法;我们列出其中的一些,但不是全部。例如,[1]使用由SGD优化的矩阵分解技术,[24]提出了保留每个节点的一阶和二阶近似的LINE方法,以上符号,我们的问题定义如下。问题1(学习图像分类器) 给定基本类的图像特征XB、良好训练的基本分类器参数WB以及仅具有少量正样本的新类iXN提高了嵌入的质量等。 Graph embed-iN证明了Ding是一种有效的图分析方法分类参数w小说课的课,所以学习的分类器f(·; wN|XB,WB,XN)可以姐妹区。精确预测第i个标签我我小说类3. 方法3.1. 符号和问题表述假设我们有一个图像集I,这个集是划分为基类集IB=IB<$IB<$· ·<$IB注意,学习图像分类器的学习问题与传统图像分类问题的不同之处在于,用于新类的分类器的学习取决于先前学习的基类分类器和基类中的图像表示,除了图1中的图像样本之外。1 2N它有足够的训练样本和新的类集IN=ININ···IN只有很少的训练小说类。1 2mB3.2. VAGER模型每个班级的样本 我们在I上训练AlexNet [11],我们的基本CNN模型,并提取其FC7层作为图像的高级特征。特征空间表示为XRd.对于I B中的每个图像,我们获得其fc 7层特征xB∈ X,其中i = 1,2,···,n表示其类,j=1,2,· · ·,|I B|表示其在类别i中的索引。我们我们定义一个图G=(V,E),其中V是图的顶点集,每个顶点代表一个基类,|V|=n. E是图的边集,每条边表示两类其中边权重描述相似度。 我们…………11500我¨⊤2⊤FF用A表示网络的邻接矩阵,Aij是顶点i和顶点j之间的边权。 Ai,:和A:,j分别代表A的第i行和第j列。在我们的分类问题中,我们构造作为无向完全图的视觉模拟网络,以及边权重(即,两个类别之间的视觉相似度)通过以下公式计算:xB· xB3.3.新颖类通过在基类中训练VAGER模型,可以得到每个基类的嵌入以及嵌入到分类参数的映射函数。给定一个只有几个样本的新类,我们需要推断它的嵌入。 假设novel类的嵌入是vnew∈Rq.我们通过等式1计算新类与所有基类的相似性,并且我们表示这种相似性nA=ij.(一)向量的一个新的∈R。IJ阿克斯湾 ·xB然后我们定义了新类的目标函数i2j 2嵌入推理,我们的目标是尽量减少以下内容-这里xB表示第i类的平均特征向量,这个等式是两个基降低功能:¨Σ¨AA AA新V⊤¨2⊤Σ¨班注意,我们的图是无向图,邻接矩阵A是对称的。L(vnew)=<$新的1-vnewvé新的 F为了使视觉类比测量在稀疏场景中具有鲁棒性,我们需要降低表示空间的我们在推广分类参数时的基本假设是,如果两个类在视觉上相似,则它们应该共享相似的分类参数。通过施加从嵌入空间到分类参数空间的线性映射函数,相似的嵌入将导致相似的分类参数。基于此,本文提出了一种基于可视化类比图的嵌入式回归模型.设V∈Rn×q是图中所有节点的嵌入,V中维数为q的每一行是图的嵌入,(四)等式4实际上是等式2中第二项的扩展。由于我们几乎没有关于新类别的分类参数的信息,因此我们省略了等式2中的第一项。在我们删除vnew的独立项之后,我们要解决的最终最小化问题是:¨ ¨min L(vnew)= 2 <$anew−vnewV <$2+(vnewvnew−1)。(五)事实上,等式5的第二项是正则化项。我们省略了第二项,因此第一项是线性回归损失的形式那么我们挣到为每个顶点设置丁。设W∈Rn×p表示所有参数,v的显式解新而不使用梯度下降。基本分类器的参数还有一个共同点--所有基类T∈Rq×p的耳变换矩阵,以将嵌入空间转换为分类参数-为所有基本分类器命名空间。损失函数定义为:L(V,T)= VVT− WVT2+ βVVA−VVVVT 2。(二)其中,f·F是矩阵的Frobenius范数。第一项强制嵌入能够通过线性变换转换为分类参数。解表示为:其中M+是矩阵的Moore-Penrose伪逆M定义为(M<$M)−1M<$。注意我们可以加速通过预先计算的伪逆来改进算法V.在导出新类的嵌入之后,我们可以通过乘以变换矩阵T来轻松获得其转换的分类参数:阵第二项约束嵌入以保持视觉类比图的结构我们的目标wN新=vnew T.(七)就是找到矩阵V和T来最小化这个损失函数。这是一个常见的无约束两个变量的优化问题,我们使用交替坐标下降方法来找到V和T的最佳解,其中梯度计算如下:3.4. 参数优化如上所述,我们还可以从样本中学习新类的分类参数(尽管只有几个),我们称之为模型分类参数。然后我们需要融合转移的分类页-L(V,T)最后将参数和模型分类成参数V.11501∂ (,)V=2(VT−W)T+β(−4AV+4VVV)LV TVT= 2V(VT − W)。分类器在这里,我们提出了三种改进策略:初始化、调整和投票。设f(·,wN):Rd→−[0,1]是a的二元分类器(3)新课程。XT是正负混合集11502反式新模型=¨-wN2.样品,y是标记,y=1表示阳性样品,y=0表示阴性样品。初始化我们使用传递的分类参数作为初始化,然后通过新的类样本重新学习新分类器的参数。训练损失函数被定义为用于分类的公共损失函数。即:4. 实验4.1. 数据和实验设置在我们的实验中,我们主要使用ImageNet数据集[19],其训练集包含1,000个类别的120多万张图像我们将ImageNet训练数据集随机分为800个基本类和200个新类。10个新类用于验证,以确认L(wN)=. Σx∈XTΣL(f(x,wN),y)+λ·R(wN),(8)超参数和其他190个新类用于测试。我们在800个基本类上重新训练AlexNet作为我们的基本CNN模型,其中训练设置与[11]相同。训练后,我们使用AlexNet的fc7层其中L(·,·)是预测误差,我们在实验中使用交叉项损失。R(·)是正则化在实验中,我们使用L2-范数。 学习wN,我们使用批量随机梯度下降(SGD),并且用传递的分类参数wN初始化wN。我们用新的类样本训练模型分类参数,同时添加一个损失项来约束传递的分类参数和最终参数的相似性:作为图像的高级表示,并且从fc 7到fc 8的参数作为基本分类器的参数(即,等式2中的由于我们的算法不依赖于基础模型结构,所以本文选择AlexNet作为我们的基础模型。此外,在实现我们的算法时,我们使用600维嵌入空间,训练超参数β设置为1.0。我们从两个方面评估我们的算法的性能:第4.2节和第4.3节显示了一个二进制分类问题,其中新的分类器被学习来分类新的类(作为正样本)和所有的基.ΣΣL(wN)=L(f(x,wN),y)+λ·-wNx∈XT¨¨反式F(九)类(作为负样本)。这种设置消除了新类之间的关系,便于我们独立验证每个新类,这有助于发现我们算法的适用性,如第4.3节所示。wN反式是我们从中获得的传递参数泰特。 在训练阶段,我们随机选择k个图像前面的步骤(即,在等式7中)。 我们仍然使用作为每个新类的训练集来模拟k-shot随机初始化的批处理SGD方法求解wN。投票该方法是对所传递的分类参数和所学习的模型类的加权平均。学习场景。 在测试阶段,给定一个新类,我们从中随机选择500张图像(与训练集没有重叠)作为阳性样本,并从ImageNet验证集的每个基类中随机为了消除随机性,sization参数 首先,我们学习一个wN使用k-拍摄设置,我们运行50次,并报告平均重新-公式8随机初始化。然后我们通过以下方式获得最终参数:在下面的实验中。第4.4节显示了M-方法k-镜头分类问题,其中新的分类器被学习以在m个新类中分类,这是wNwN反式wN模型 .(十)这与经典的少拍学习模式一致。在训练阶段,我们随机选择m个新类,超参数λ用作投票权重。3.5.复杂性分析在我们的VAGER模型的训练过程中,主要成本是计算损失函数L(V,T)的梯度。 为了计算L对于V,每次迭代的复杂度为O(nq·max(p,n))。对于L对T的一阶导数,每次迭代的复杂度为O(nq·max(p,q))。在预测新类时,如果我们使用等式6来加速,则我们能够预先计算O(nq2)的(V)+,并且对于每个新类,预测过程的复杂度为O(q·max(p,n))。从这些类别中的每一个中选择k个图像作为训练数据集。在测试阶段,我们从剩余的图像中随机选择5个图像作为测试数据集。实验将在每个m路k次设置下重复500次。实验中的评价指标是受试者工作特征(ROC)的曲线下面积(AUC)和F1-score,这两个指标在二分类中被广泛使用。我们报告所有测试类别的平均AUC和F1分数。对于m路k-shot分类,我们使用了m个新类的平均前1准确率我们将我们的方法与下面的基线进行比较。我们的方法的完整版本是VAGER+Voting。在这里,+λ·11503Logistic Regression(LR)新类的常见Logistic回归模型。在多类分类的设置中,它变成了Softmax回归。请注意,LR也相当于微调AlexNet的最后一层。加权逻辑回归(Weighted-LR)这里我们使用基本分类器参数的加权平均值权值由新类的特征与10个最相似的基类的特征之间的L2这种方法也可以看作是一种直观的类比方法,但转换过程是启发式的。VAGER这是没有参数细化步骤的VAGER算法。VAGER(-映射)我们直接通过方程2学习嵌入,而不需要第一个回归项。然后,我们使用上述加权LR方法在嵌入空间,而不是原来的特征空间。该方法用于评价映射函数的有效性。VAGER(-Embedding)算法直接从原始特征空间到分类参数空间训练回归模型,不需要视觉类比图的嵌入。该方法被用来证明类节点嵌入在视觉类比网络上的有效性。此外,我们还考虑了一些最先进的算法作为我们在多类分类设置中的基线,例如模型回归网络(MRN)[29] , 匹 配 网 络 ( MatchingNet ) [27] , 原 型 网 络( ProtoNet ) [22] 和 [17] 中 提 出 的 方 法( ActivationNet ) 。 请 注 意 , 对 于 MatchingNet 和ProtoNet,我们使用两层全连接神经网络作为嵌入架构,这与[28]一致。4.2. 二元分类在本节中,我们评估通过我们的方法和其他基线学习的分类器在二进制分类设置的新类中的表现。结果示于表1中。在所有低拍摄设置中,我们的方法VAGER+Voting在AUC和F1指标方面始终表现相比之下,LR在单次设置中表现最差,这表明当新类具有非常少的样本时,从基类泛化的重要性。MRN在大多数情况下都不能很好地工作,这表明它的基本假设,即大样本和小样本分别训练的分类参数是相关的通过比较VAGER+Voting与其他五种不同的方法,我们可以得出结论,我们的方法中的主要成分,包括低维表示的网络嵌入,将嵌入空间转换为分类参数空间的映射函数,以及表示方法,都是有效的。纳里奥此外,我们比较了这些方法在不同低拍摄设置下的性能,结果如图2所示。我们的方法在所有设置中始终表现最好,并且当新类具有较少的训练样本时,我们的方法的优势特别是,通过比较我们的方法和LR,我们可以看到LR需要大约20次射击才能达到AUC 0.9,而我们只需要2次射击,这表明我们可以节省90%的训练数据。一个有趣的现象是,加权LR的性能不随镜头数的增加而改变。其主要原因是启发式规则不够灵活,不能吸收新的信息,这说明了学习的重要性,而不是基于规则的学习。1.000.950.900.850.800.7512345 10 20 50镜头图2.二值分类器的性能随镜头数的增加而变化。4.3. 洞察力的分析虽然我们的方法在不同的情况下表现最好,但失败的情况很容易发现。我们对以下问题感兴趣:(1)典型的失败案例有哪些?(2)控制泛化成功的驱动因素是什么?(3)泛化过程是否可解释?为了回答上述问题,我们进一步进行了深入的分析。我们随机选择了10个新的类,并列出了我们的方法与LR在这些类上的单次设置的性能比较,如表2所示。其中9个为了发现控制泛化成功或失败的驱动因素,我们定义并计算新类与基类的相似性比(SR):与基类的平均Top-K相似度优化策略是必要的和有效的,结果支持投票策略在我们的sce中表现最好Sr=与基类的平均相似性(十一)VAGER+投票VAGERLR加权LR MRNAUC11504表1.二分类问题不同算法的性能比较算法1次5次10次20次这里,两个类的相似性通过以下等式计算:1.一、直觉上,如果一个新类与前K个基类相似,而与其余基类不相似,则其相似性比率将很高,这意味着这个新类可以从基类中受益更多。对于每个新类别,我们计算我们的方法在1次设置中相对于非转移方法LR的AUC的相对改善,并对其相似性比进行线性回归,K=10。因变量表示泛化的成功程度。我们设K=10。我们在图3中绘制了所有新类别的相似性比率和相对改进。我们可以看到,在一个新的类的相对改善是正相关的新的类的相似性比,95%置信区间的相关系数范围为0。124和0的情况。169,R2= 0。45,表明SR比可以解释45%的因变量。结果充分表明,我们的方法与类人学习的概念是一致的:首先,如果一个新概念与一些预先学过的概念更相似,我们可以更快地学习它。 (即: 导致相似性比率的分子增加)。第二,如果我们已经学习了更多样化的概念,我们可以更快地学习一个新概念。 导致相似比的分母减小)。这个原则也可以用来指导泛化过程,并帮助确定一个新类是否适合泛化。最后,我们验证了泛化过程是否是可解释的。在这里,我们随机选择5个新类,对于每个新类,我们在视觉类比图中可视化与新类最相似的前3个基类,如图4所示。在我们的方法中,这些基类对新分类器的形成有很大的影响。我们可以看到,前3个基类与新类在视觉上相关,并且泛化过程可以非常直观和可解释。表2. VAGER和LR在具有1次二进制分类设置的类别LR(无传输)VAGER(转移)吉普0.80340.9469斑马0.84720.9393母鸡0.77630.8398柠檬0.68540.9583泡沫0.74550.7041菠萝0.73640.8623狮子0.83050.9372屏幕0.78010.9056鼓0.65100.6995餐厅0.78060.87870.30.20.10.00.11.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0相似比图3.所有新类别4.4. 多类分类在这一节中,我们主要展示了多类分类实验的性能。我们将从三个方面证明在这些实验中,4.2节中的所有基线都被扩展到多类第一个实验是验证我们的算法的鲁棒性。我们从小说中随机抽取10类AUCF1AUCF1AUCF1AUCF1VAGER0.85560.52920.92710.64910.93790.67210.94320.6850VAGER+初始化0.76620.39410.90300.61850.93380.68870.94610.7237VAGER+调音0.79230.42440.90980.63070.93650.70120.94660.7268VAGER+投票0.87180.56710.94250.70390.95430.73430.96070.7510VAGER(-映射)0.82610.45510.85260.48070.87260.51790.88970.5394VAGER(-嵌入)0.79220.43350.90320.60150.91830.63470.93930.6788LR0.77050.39940.88850.58820.91340.64210.93410.6877加权LR0.84400.47750.84580.48130.85090.48350.84680.4801MRN0.80830.45110.91750.66530.93610.71330.94740.7388AUC增加11505表3.m类单次问题的Top-1精度算法10班/G110 cls/G210 cls/G310班/G410 cls/G530 cls/G150 cls/G1100 cls/G1VAGER+投票67.59%63.96%58.02%51.27%56.24%40.73%38.69%百分之二十八点三八LR61.97%59.72%52.97%47.51%52.01%37.32%34.75%23.94%加权LR63.13%60.09%50.32%46.13%49.81%36.77%34.64%23.60%MRN64.55%61.82%54.74%48.85%54.54%39.43%37.78%27.16%MatchingNet65.69%61.74%57.13%48.56%54.34%39.04%37.05%27.21%ProtoNet47.98%47.18%40.20%35.86%41.55%30.15%28.12%21.28%ActivationNet65.04%62.42%55.62%48.61%53.85%40.15%37.41%27.68%新颖类吉普柠檬狮子屏幕餐厅前3个相似基类拾取沙滩车橙色橡子美洲狮野狗监测笔记本鞋店马林巴拖车史密斯奶奶Lynx电视面包店图4.前3个最相似的基础类,以小说类嵌入层在5杆设置。0.950.900.850.8010/30/50/100路单次设置。结果显示在表3的最后四列中。实验结果表明,该算法始终取得最佳性能.第三个实验是在不同的镜头上对我们的方法进行评估。我们控制新类的数量,并改变用于学习新分类器的 镜头 数量 。我 们随 机选 择 10 个 小说 类,在1/2/3/4/5/10/20/50个镜头上测试我们的算法和基线的性能。结果如图所示五、在所有情况下,我们的算法表现最好。尽管MatchingNet和ProtoNet在Omniglot[12]和MiniImageNet[27]等小数据集上表现更好,但在一个合理的原因是,当嵌入架构具有足够的代表性时,它们的元学习机制的有效性是有限的。另一方面,MRN和ActivationNet也采用了学习学习我们的方法比这两个基线的优势归因于类比学习机制,这是受人类学习的启发。5. 结论0.750.700.650.6012345 10 20 50镜头在本文中,我们研究了学习图像分类器的学习问题,并探索了一种新的类似人类的学习机制,充分利用以前学习的特别是,我们将学会学习和类比学习的思想有机地结合起来,提出了一种新的VAGER模型,图5. 10类单镜头多类分类问题性能随镜头数的变化。测试类别,并学习区分这10个类别的1杆设置。我们重复随机选择五次,结果显示在表中的前5列3. 我们的VAGER+Voting在所有5组中表现最好,平均前1名准确率提高了约2%,这表明我们的方法无论是什么新类都是鲁棒的。第二个实验是在不同数量的新类上评估我们的方法。设计了一种填充从基类到新类的泛化过程。实验结果表明,该方法符合类人学习,并提供了一个有洞察力和直观的泛化过程。鸣谢:这项工作得到了国家重点基础研究计划(2005年)的部分支持。2015CB352300)、国家自然科学基金(No. 61772304号61521002号61531006,国家自然科学基金重大项目(编号:U1611461)、清华-腾讯互联网创新技术联合实验室研究基金、中国科学院青年科学家资助项目VAGER+投票LR加权LR MRNMatchingNetProtoNetActivationNet前1精度11506引用[1] AmrAhmed,NinoShervashidze,ShravanNarayanamurthy , Vanja Josifovski , and Alexander JSmola.分布式大规模自然图分解。第22届万维网国际会议论文集,第37ACM,2013年。3[2] Jimmy Lei Ba , Kevin Swersky , Sanja Fidler , andRuslan Salakhutdinov. 使用文本描述预测深度零触发卷积在IEEE International Conference on Computer Vision,第4247-4255页,2015年。2[3] Soravit Changpinyo,Wei Lun Chao,Boqing Gong,andFei Sha.用于零镜头学习的合成分类器。在IEEE计算机视觉和模式识别会议上,第5327-5336页,2016年。2[4] Mohamed Elhoseiny、Babak Saleh和Ahmed Elgammal。写一 个分 类器 :使 用纯 文本描 述的 零镜 头学 习。IEEEInternational Conference on Computer Vision , 第2584-2591页2[5] 李飞飞,罗伯·费格斯,皮埃特罗·裴罗纳。对象类别的一 次 性 IEEE Transactions on Pattern Analysis andMachine Intelligence,28(4):594-611,2006。2[6] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在第34届机器学习集,第1126-1135页,2017年。2[7] Dedre Gentner和Keith J Holyoak。 推理和类比学习:导论. 美国心理学家,52(1):32,1997。1[8] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。在IEEE计算机视觉国际会议的论文集,第3018-3027页,2017年。2[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页,2016中。1[10] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会,第2卷,2015年。2[11] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。一、三、五[12] 布伦登M. Lake,Ruslan Salakhutdinov,and Joshua B.特南鲍姆通过反转合成因果过程的一次性学习。在神经信息处理系统国际会议上,第2526-2534页,2013年。二、八[13] Brenden M Lake , Tomer D Ullman , Joshua BTenenbaum,and Samuel J Gershman.制造像人一样学习和思考的机器。行为和大脑科学,40,2017。1[14] 诺维·帕特里夏和芭芭拉·卡普托。学会学习,从迁移学习到领域适应:一个统一的视角。在IEEE计算机视觉和模式识别会议(CVPR)中,2014年6月。1[15] Guo-Jun Qi , Charu Aggarwal , Yong Rui, Qi Tian ,Shiyu Chang,and Thomas Huang.视觉概念学习之跨范畴在ComputerVisionandPatternRecognition(CVPR) ,2011 IEEE Conference on , 第897-904 页中。IEEE,2011年。2[16] Hang Qi,Matthew Brown,and David G Lowe.使用印记权重的低射击学习在IEEE计算机视觉和模式识别会议论文集,第5822-5830页2[17] Siyuan Qiao,Chenxi Liu,Wei Shen,and Alan L Yuille.通过从激活预测参数的少拍图像识别在IEEE计算机视觉和模式识别会议论文集,第7229-7238页,2018年。二、六[18] Danilo JimenezRezende 、 ShakirMohamed 、 IvoDanihelka、Karol Gregor和Daan Wierstra。深度生成模型中的一次性泛化arXiv预印本arXiv:1603.05106,2016。2[19] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211-252,2015年。5[20] Adam Santoro,Sergey Bartunov,Matthew Botvinick,Daan Wierstra,and Timothy Lillicrap.单触发使用记忆 增 强 神 经 网 络 学 习 。 arXiv 预 印 本 arXiv :1605.06065,2016。2[21] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。1[22] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少量学习的原型网络。神经信息处理系统,第4077-4087页,2017年二、六[23] Flood Sung,Yongxin Yang,Li Zhang,Tao Xiang,Philip HS Torr,and Timothy M Hospedales.学习比较:用于少数学习的关系网络。在IEEE计算机视觉和模式识别会议集,2018年。2[24] 唐健、曲梦、王明哲、张明、严君、梅巧珠。线:大规模信息网络嵌入。在第24届万维网集,第1067ACM,2015.3[25] 塔蒂阿娜·托马西,弗朗西斯科·奥拉博纳,芭芭拉·卡普托。通过多模型知识转移从少数例子中学习类别。IEEEtransactionsonpatternanalysisandmachineintelligence,36(5):928-941,2014。2[26] Eric Tzeng , Judy Hoffman , Trevor Darrell 和 KateSaenko。跨域和任务的同步深度传输。在Proceedings ofthe IEEE International Conference on Computer Vision,第4068-4076页,2015年。1[27] Oriol Vinyals, Charles Blundell,Tim Lillicrap ,DaanWier-stra,et al.匹配网络进行一次性学习。神经信息处理系统进展,第3630-3638页,2016年。二、六、八11507[28] Yu-Xiong Wang,Ross Girshick,Martial Herbert,andBharath Hariharan.从假想数据中进行低拍摄学习。在计算机视觉和模式识别(CVPR),2018年。二、六[29] 王玉雄和马夏尔·赫伯特。学会学习:为回归网络建模,便于小样本学习。欧洲计算机
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功