1用于少样本学习的Yann Lifchitz1,2 Yannis Avrithis1 Sylvaine Picard2 Andrei Burgrit31雷恩大学、因里亚大学、CNRS、IRISA2赛峰集团3valeo.ai摘要深度神经网络的少样本学习是许多计算机视觉任务中极具挑战性的关键问题在这种情况下,我们的目标是将知识从具有丰富数据的集合转移到具有很少可用示例的其他集合。我们提出了两个简单而有效的解决方案:(i)在特征图上进行密集分类,这是第一次在少数学习领域研究局部激活,以及(ii)植入,即将新的神经元附加到先前训练的网络上,以学习新的任务特定特征。植入使得能够在少数拍摄制度中训练多个层,这与仅训练最后一层的从度量学习导出的当单独或联合使用时,这两种贡献都显示出一致的增益,我们在miniImageNet上报告了少数镜头分类的最新性能。1. 介绍图像分类[40,11,15]、对象检测[21,35,10]、语义分割[51,2,20]以及实际上大多数涉及一定程度学习的任务的现有这些都是强大的高容量模型,可训练的参数从数百万到数千万不等,需要大量的注释数据来拟合。当这样的数据很丰富时,监督学习是首选的解决方案。任务和类有限的可用数据,即从长尾[47],对于这种类型的方法是非常有问题的深度神经网络的性能在低数据状态下提出了几个挑战,特别是在过拟合和泛化方面。少镜头学习的主题这不是一个新问题[4],但最近通过元学习[18,43,38,1,5]的兴趣重新抬头,这是早期的启发。学习的过程[42,13]。在元学习设置中,即使存在具有固定数量的类的单个大型训练集,也会将其视为元学习和元测试以类似的方式进行[43,38,5]。然而,这种选择并不总是带来最佳性能。我们认为,一个简单的传统管道使用所有可用的类和数据与参数分类器是有效的和有吸引力的。大多数少镜头学习方法不显式地处理空间信息,因为特征图通常在分类层之前被平坦化或合并我们表明,在特征图上执行密集分类会导致更精确的分类,并在标准基准测试中不断提高性能。虽然增量学习通过学习使用相同的网络来适应新任务[26,25]或为每个新任务扩展新层和参数的现有网络[37],但很少有这些想法被采用。主要障碍是训练示例数量减少,这使得很难正确定义新任务。我们提出了一种利用增量学习思想进行少量学习的解决方案。贡献:我们做出以下贡献。 首先,我们提出了一个简单的扩展,用于由特征图上的密集分类通过本地化的监督,它能够从有限的训练数据中获得其次,我们引入了神经植入物,这些植入物是连接到已经训练好的网络的层,使其能够快速适应新任务,只需很少的例子。两者都易于实现,并显示出一致的性能增益。2. 问题表述和背景问 题 表 述 。 我 们 给 出 了 一 组 训 练 示 例 X : =(x1,. . .,xn),其中每个xi∈ X,以及对应的标签Y:=(y1,. . . ,yn),其中每个yi∈ C,其中C:=[c]1是基类的集合。在这个训练数据上,我们可以学习域X的表示,这样我们就可以解决新的任务。这种表征学习我们称之为第一。在少次学习中,一个新的任务是我们被赋予一个几个支持例子的集合X′:=(x′,. . .,x′′)不同类的数据集的集合,其中每个类1n有一些注释的例子。 这样做是为了使两个1我们使用符号[i]:={1,. . . ,i},其中i∈ N.92589259我我我j=1′i=1我我每个x'∈X和相应的标签Y′:=欧氏距离和σ:Rm→Rm是softmax函数。(y′,. . . ,y′′),其中每个y′∈ C′,其中C′:=[c′]是一个集合定义为1n i与C和n′n不相交的新类;使用这些新数据,目标是学习一个分类器,该分类器映射一个新的exp(xj)从X到C′中的标签预测的查询示例。最后-不排除继续表示学习的分类器学习,我们称之为阶段2。σ(x):=对于x∈Rm和m∈N.Σmi=1 exp(xi)j=1(三)分类被称为c′-way,其中c′是新类的数量;在每个新类有固定数量k个支持示例的情况下,其被称为k-shot。如在标准分类中,通常存在用于评估每个任务的查询的集合。少样本学习通常在大量新任务上进行评估,查询和支持示例从(X′,Y′)中随机抽样。网络模型我们考虑一个模型,它在概念上由两部分组成:嵌入网络和分类器。嵌入网络φθ:X→Rr×d将输入映射到嵌入,其中θ表示其参数。由于我们将研究输入的空间属性,因此嵌入不是向量,而是张量,其中r表示空间维度,d表示特征维度。例如,对于2d输入图像和卷积网络,嵌入是Rw×h×d中的3d张量,作为最后一个卷积层的激活,其中r=w×h是其空间分辨率。在特殊情况r=1下,嵌入仍然可以是向量。分类器网络可以是任何形式,并且取决于特定的模型,但是它被应用在φθ之上,并且它的输出表示对c的置信度(相应地,c′)碱(分别为小说)类。如果我们用fθ:X →Rc(resp. Rc)将输入映射到类置信度的网络函数,然后通过分配最大置信度的标签,arg maxfi(x)2。给定一个新的任务,支持数据(X′,Y′)超过新的类C′(阶段2),使用全索引集N′,并将提交类原型(1)是唯一要做的学习。当在基类C上从训练数据(X,Y)学习时(阶段1),通过从C随机采样多个类,然后从X随机采样每个类中的多个示例,并从Y随机采样它们的标签,来生成多个被称为情节的虚构任务;这些集合,分别表示为X′,Y ′,长度为n′,被认为是新类C ′的支持示例和查询,其中标签现在可用于查询,目标是正确地分类查询。集合N′:= [n′]被划分为支持集S<$N′和查询集Q:=N′\S。类原型P根据(1)在索引集S上计算,网络函数fθ由(2)在这些原型然后通过在θ上最小化成本函数来训练网络ΣJ(X′,Y′;θ):=fθ[P](x′),y′)(4)i∈Q在查询集Q上,其中,Q是交叉熵损失(a,y):=−logay(5)对于a∈Rm,y∈[m]和m∈N。iθ原型网络。 Snell等人 [41]引入一个简单的分类器,用于新类,计算每个类的单个原型,然后将查询分类到最接近的原型。更正式地说,给定X′,Y ′和索引集S <$N ′:=[n′],令集合Sj:={i∈S:y′=j}索引S中标记为类j的支撑样本。类j的原型由这些例子的平均值给出学习与印记的重量。Qi等人[31]当在基类C上学习训练数据(X,Y)时,遵循更简单的方法(阶段1)。特别是,他们使用一个没有偏见的全连接层作为嵌入函数φθ之上的参数线性分类器,然后是soft-max,并且他们在标准的监督分类设置中进行训练。更正式地说,设Wj∈Rr×d是权重pa-pj=1|SJ|Σφθ(x′)(1)对j ∈C,定义了类j的度量。 然后,类似于(2),网络功能定义如下:i∈Sj对于j∈C′.然后,将网络函数定义为3fθ,W(x):=σ.Σ[sτ(φθ(x),Wj)]c(六).其中W:=(W1,. . . ,Wc)是f[P](x):= σ[s(φ(x),p)]c′(二)类权重和是缩放余弦相似度θ θjj=1τ对于x∈X,其中P:=(p1,. . . ,pc′),并且s是相似性函数,其可以是余弦相似性或负平方2给定向量x ∈Rm,xi表示x的第i个元素.类似地对于f:A→Rm,fi(a)表示f(a)的i-元素,其中a∈A.3We定义[e(i)]n:=(e(1),. . . ,e(n)),其中n∈N,且nye表示-9260sτ(x,y):=τx,y(7)其中x∈Rr×d;x∈R r × d;x∈ R:=x/<$x<$是x的<$2-正规化反部;<$·,·<$,<$·