没有合适的资源?快使用搜索试试~ 我知道了~
12改进的少镜头视觉分类Peyman Bateni1,Raghav Goyal1,3,Vaden Masrani1,Frank Wood1,2,4,LeonidSigal1,3,41英属哥伦比亚大学,2MILA,3Vector Institute,4CIFAR AI Chair{pbateni,rgoyal14,vadmas,fwood,lsigal}@ cs.ubc.ca摘要少镜头学习是计算机视觉中的一项基本任务,它有望减轻对精确标记数据的需求。迄今为止,大多数少数学习方法都集中在越来越复杂的神经特征提取器和分类器自适应策略,以及任务定义本身的细化。在本文中,我们探索了一个假设,即采用最先进的少拍学习方法(CNAPS [30])的简单的基于类协方差的距离度量,即Mahalanobis距离,本身可以导致显着的性能改善。我们还发现,它是可能的学习自适应特征提取器,允许有用的估计的高维特征协方差所需的这个度量从令人惊讶的很少的样本。我们的工作的结果是一个新的1. 介绍深度学习的成功导致了计算机视觉的重大进步[11,13,37]。然而,这些成功背后的大多数方法必须在完全监督的高数据可用性制度下运行。这限制了这些方法的适用性,有效地排除了数据基本上稀缺或无法标记的领域。这启发了少数学习领域[42,43],其目的是在计算上模仿人类推理并从有限的数据中学习。少次学习的目标是自动调整模型,使它们在训练时没有看到的类的实例上工作良好,每个新类只有几个标记的示例。在本文中,我们专注于少数拍摄图像分类的最终目标是开发一种分类方法,自动适应新的分类任务在测试时,特别是在只有一个非常小的数量标记的“支持”图像的情况下,(a) 平方欧几里德距离(b)平方马氏距离图1:类协方差度量:由任务自适应特征提取器输出的嵌入支持图像特征的二维图示(点)、每类嵌入装置(插图图标)、显式(左)和隐式类决策边界(右)以及两个分类器的测试查询实例(灰点和插图图标) :基于标 准 L2 (左 )和我们 的基于 类协方差(Mahalanobis距离,右)。在分类期间使用基于类协方差的度量的优点是考虑每个类在特征空间中的分布可以导致改进的非线性分类器决策边界。在该图中不能明确出现但我们希望在此传达的是,用于产生这些嵌入的任务适应机制是从基于马氏距离的分类损失端到端训练的。这意味着,实际上,任务自适应特征提取机制学习产生嵌入,从而产生信息丰富的任务自适应协方差估计。少镜头学习方法通常采取以下两种形式之一:1)最近邻方法及其变体,包括匹配网络[40],其有效地在特征[ 15,16,34 ]或语义空间[ 5 ]中对样本本身应用最近邻或加权最近邻分类;或2)嵌入方法,其有效地将所有示例提取到每个类的单个原型,其中原型可以被学习[9,30]或从样本中隐式地导出[36](例如,意味着嵌入)。原型通常在特征或语义空间中定义(例如,word2vec [44])。这一领域的大多数研究都集中在学习非线性映射,其中十个表示为神经网络,从图像到嵌入式系统1449314494特征提取器完全适应部分地适于全球培训预先训练(加权)距离平方马氏距离MLP离子工厂平均而言,在少数镜头图像分类中,通过在最终的任务适应分类中利用测试时间估计的基于类协方差的距离 度 量 ( 即 Maha-lanobis 距 离 [6] ) 获 得 的 SoTA(CNAPS [30])。2)令人惊讶的发现是,我们能够估计这样的即使在每类的可用支持实例的数量在理论上太少而不能估计所需的类特定协方差的少数镜头分类设置中也是如此。3)一种新的点积Bregman分歧神经网络网络分类器图2:少数镜头图像分类方法:由图像特征提取器自适应方案(垂直轴)与最终分类方法(水平轴)来组织。我们的方法(简单CNAPS)部分适应特征提取器(在架构上与CNAPS相同),但使用固定的而不是适应的Mahalanobis度量进行训练并用于最终分类。在用于最终最接近类分类的嵌入空间中,确定服从预定义度量的空间;通常是查询图像嵌入和类嵌入之间的余弦相似性。最近,CNAPS [30]通过在情节训练的上下 文 中 利 用 稀 疏 的 FilLM [27] 层 来 实 现 最 先 进 的(SoTA)少镜头视觉图像分类,以避免尝试使用很少的支持样本来适应整个嵌入网络所产生的问题。总的来说,很少有人注意到用于计算嵌入空间中分类距离的度量。这大概是因为常识决定了灵活的非线性映射显然能够适应任何这样的度量,使得度量的选择显然无关紧要。在实践中,正如我们在本文中发现的,度量的选择是相当重要的。在[36]作者分析了使用的基本距离函数,以证明使用样本平均值作为原型的合理性。他们认为Bregman分歧[1]是在这种情况下使用的理论上合理的度量家族,但只利用了这个类平方欧几里得距离内的单个实例然而,欧几里德度量的选择涉及两个有缺陷的假设:1)特征维度是不相关的,以及2)它们具有均匀方差。此外,它对类内样本相对于其原型的分布不敏感,最近的结果[26,36]表明这是有问题的。正如我们所发现的,对这种分布进行建模(在[1]的情况下使用极值理论)是获得更好性能的关键。我们的贡献:我们的贡献有四个方面:1)6.1%的显著改善是一个强有力的经验发现,建筑,用固定的,不学习的,阻止的,最小协方差估计和马氏距离计算。4)应该让读者质疑的证据是,足够复杂的CNN特征提取器可以适应任何最终度量(无论是余弦相似性/点积还是其他)。2. 相关工作过去十年中的大多数少数学习作品[ 43 ]可以沿着两个主轴进行区分:1)如何将图像变换成矢量化嵌入,以及2)如何计算矢量之间的“距离”以便分配标签。这在图2中示出。Siamese网络[16]是一种早期的少镜头学习和分类方法,使用共享特征提取器为支持和查询图像生成嵌入。然后通过选择查询和标记图像嵌入之间的最小加权L1距离进行分类。关系网络[38]和最近的GCNN变体[15,34]通过使用多层感知器(MLP)参数化和学习分类度量来扩展这一点匹配网络[40]学习支持和查询图像的不同特征提取器,然后用于计算分类的余弦相似性。这些模型使用的特征提取器,值得注意的是,不适合测试时的分类任务。已经确定的是,在测试时使特征提取适应新任务通常是一件好事。精细调整迁移学习网络[45]通过使用特定于任务的支持图像来微调特征提取器网络来MAML [3](及其许多扩展[23,24,28])通过学习一组元参数来缓解这个问题,这些元参数专门使特征提取器能够适应新任务,给定很少的支持示例,使用很少的梯度步骤。与我们自己的方法最相似的两种方法是CNAPS[30] ( 和 相 关 的 TADAM [26] ) 和 原 型 网 络 [36] 。CNAPS是一种基于条件神经过程(CNP)的少次自适应分类器[7]。它是用于少数镜头图像分类的最先进方法[30]。它使用一个预先训练的特征提取器,FinetuneMeta-LST原-MMAML爬行动物,蜗牛MAML简单的CNAPSCNAPSTADAM匹配网络SiameNetwoseProtrks网典型作品RelatNetk-NN余弦线性自 适应相似分类器线性分类器L1平方欧几里得距离14495任务编码器φi=1我我i =1i ii=1我层1层2层3层4预块1膜层块2块1膜层块2块1膜层块2块1膜层块2邮政图3:CNAPS中特征提取器自适应方法概述:任务编码器gφ(·)为每个块i处的自适应网络i提供任务表示(gφ(Sτ))以产生薄膜参数(γj,βj)。 关于自回归变量(AR-CNAPS)、架构实现和薄膜层的详细信息,请参见附录B。有关详细说明,请参阅原始文件[30]。层[27],适用于每个任务,使用特定于该任务的支持图像。 CNAPS在最终线性分类器中使用点积距离;其参数也在测试时适应于每个新任务。在描述我们的方法时,我们更详细地描述了CNAPS。原型网络[36]不使用特征自适应网络;而是使用简单的平均池操作来形成类平方欧几里得距离3. 正式问题定义我们框架少数镜头图像分类作为一个摊销的分类任务。假设我们有一个大的标记数据集D={(xi,yi)}N图像xi和标签yi。 从这个数据集,我们可以通过重复采样而不替换D来构造大量的分类任务DτD。设τ 2 Z+唯一地标识一个类,任务。我们将任务的支持集定义为这些原型随后被用于分类,fication. 他们选择距离度量的动机是Sτ={(x,y)}Nττ而查询集Qτ={(x∈,y∈)}N <$τD其中D其中,xi,x∈2 R是矢量化的根据Bregman分歧的理论性质[1],平方欧几里德距离是其成员的函数族 这些属性允许数学我图像和y1,y2 {1,...,K}是类标签。我们的目标-tiveQ是找到分类器的参数θ,Eτ[τp(y)|fθ(xθ,Sτ)]。平方欧几里德距离在Softmax分类器和执行密度估计。在我们的论文[36]中,我们还利用平方马氏距离的类似性质作为Bregman散度[1]来绘制多变量高斯混合模型的理论联系。我 们 的工 作 与 CNAPS [30]和 Prototypical networks[36]的不同之处首先,虽然CNAPS已经证明了适应特征提取器的重要性其次,我们证明了改进的Bregman散度的选择可以显着影响精度。具体来说,我们表明,从特定于任务的自适应特征向量的正则化类特定协方差估计允许使用Mahalanobis距离进行分类,实现了对现有技术的显着改进我们的“简单CNAPS”架构与CNAPS的最近,[4]还通过将其用于原型网络[36]来探索使用Mahalanobis距离。特别是,他们使用神经网络来产生每类对角协方差估计,然而,这种方法是限制性的,并限制了性能。与[4]不同,Simple CNAPS从端到端训练的自适应网络生成正则化全协方差估计。Qi i在实践中,D是通过连接大的IM来构造的。年龄分类数据集和分类任务集{Dτ}τ=1以比简单地不替换更复杂的方式采样。特别地,约束被放置在支持集中存在的图像标签对和查询集中存在的图像标签对的关系上。例如,在少次学习中,施加了查询集标签是支持集标签的子集的约束。通过施加该约束,分类任务减少到正确地将每个查询集图像分配给支持集中存在的类之一。此外,在这种受约束的少数镜头分类情况下,支持集可以被解释为用于隐式地训练(或适配)查询集图像的任务特定分类器的请注意,在[30,39]的猜想中,与早期的工作[36,3,40]不同,我们没有对必须平衡的支持集和统一数量的类施加任何约束,尽管我们也在这个较窄的设置上进行了实验。4. 方法我们的分类器与CNAPS [30]共享特征自适应架构为了解释我们的分类器,即14496φθφφj=1φφ特征提取器图4:CNAPS与Simple CNAPS中特征提取和分类的比较:CNAPS和SimpleCNAPS共享图3中详细描述的特征提取自适应架构。 CNAPS和Simple CNAPS的不同之处在于如何计算查询特征向量和分类特征表示之间的距离。CNAPS使用经过训练的自适应线性分类器,而Simple CNAPS使用可微分但固定且无参数的确定性距离计算。浅蓝色的组件具有经过训练的参数,特别是两个模型中的f τ和θ φCNAPS自适应分类。CNAPS分类需要778k个参数,而Simple CNAPS是完全确定性的。在4.1节中,在4.2节中介绍我们的模型之前。4.1. CNAPS条件神经适应过程(CNAPS)由两个要素组成:一个特征提取器和一个分类器,两者都是任务适应的。自适应由接受支持集的训练过的自适应模块执行。CNAPS和SimpleCNAPS中使用的特征提取器架构如图 3 所 示 。 它 由 一 个 在 ImageNet [31] 上 预 训 练 的ResNet18[10]网络组成,该网络也已使用Film层[27]进行了增强这页-通过深度神经网络,基于支持图像Sτ产生置换不变任务表示gφ(Sτ)。然后将此任务表示传递给ResNet中的每个块j,然后生成FilLM参数{γj,βj}。一旦设置了胶片参数,特征提取器就适应了任务。 我们使用f τ来表示适应于任务τ的特征提取器。 CNAPS论文[30]还提出了一种自回归自适应方法,该方法将每个适配器的条件设定在输出上,将先前的适配器PADJ-1 放 置。我们把这个变量称为AR-CNAPS,但为了简洁起见,我们省略了这个变量的细节。参数{γj,βj}4可以缩放和移动这里的架构,而不是指感兴趣的读者,在ResNet 18的每一层提取的特征,允许-使特征提取器在逐个任务的基础上聚焦和忽略不同的特征。 训练特征自适应模块Iref以产生{γ,β}4。基于支持[30] 或参阅附录B.1以获得简要概述。CNAPS中的分类是由一个任务适应的线性分类器来执行的,其中查询的类概率图像xx x被计算为softmax(Wfτ(xx x)+b)。的φj j j=1iθi示例Sτ为任务提供分类权重W和偏差b由以下公式产生:特征提取器自适应模块WIF包括:分类器自适应网络形成[W,b]=两个阶段:支持设置编码,然后是膜层pa-[c(µ1)c(µ2).. . 其中,对于每个类k,φ φ φrameter生产。在任务中参数化的集合编码器gφ(·),对应的分类权重......12234支持图像??特征提取器特征提取器支持特征向量查询特征向量...............CNAPS分类器(#parameters:788K)简单CNAPS分类器(#参数:0).........阶层意味阶层意味类协方差估计分类适配器埃卢足球俱乐部softmaxsoftmax...分类权重偏见.........14497φθφKKKKKKKKK1KiθiKK如果该类支持实例的数量为1,即 |Sτ|= 1,则我们定义πτ为K K合适的尺寸。任务内所有类的协方差Στ的估计方式与任务内类的估计方式相同,不同之处在于它使用所有支持集样本xi2Sτ,而不管它们的类。我们选择了一个特定的,确定性的方案来计算类和任务特定协方差的权重估计值,λτ=|Sτ|(|Sτ|+1)。这一选择意味着(a) 欧氏范数(b)马氏距离图5:单位的问题性质-正常作为-k k k在sup中的类的单个标记实例的情况下,端口设置,单次“射击“,Q τ = 0。5π+0。5πτ+βI。这假设:欧几里得范数(左)假设嵌入k k图像特征fθ(xi)分布在类均值以单位为标准。马氏距离可以被看作是增加了正规化的强度相对于任务协方差τ的作用参数β。当|=2,λ τ变为2 / 3,Q τ仅部分地影响|=2, λτbecomes 2/3andQτonly partially fav ors the(右)在形成决策k k k时考虑聚类方差边界,由背景颜色表示。类水平协方差优于全类水平协方差。在高激发设置,λτ趋于1,Qτ主要由以下组成:K K由类平均值μk生成。类均值μk通过均值池化由自适应特征提取器fτ提取的类k的支持示例的特征向量来获得。CNAPS适配的分类器架构的视觉概述在图4中示出,左下角,红色。4.2. 简单的CNAPS在Simple CNAPS 中,我 们也使用 相同的预训 练ResNet18进行特征提取,并使用相同的自适应模块CNAPF,尽管由于我们使用的分类器架构与CNAPS类似,该选择允许对特征提取器进行任务特定的适配。与CNAPS不同,我们直接计算p(y)= k|f τ(xτ),Sτ)= softmax (-dk(f τ(xτ),μ))(1)类水平协方差。这个公式背后的直觉对于λτ来说,射击次数越多,任务内类协方差估计值就越好,Qτ就越像λτ。我们考虑了其他比值并使λτ的SimpleCNAPS中分类器的架构如图4右下角的蓝色部分所示。5. 理论公式1中出现的类别标签概率计算对应于等加权指数族混合模型, 0 [36],其中指数族分布由正则Bregman散度唯一确定[1]iθi使用确定性的固定dkdk(x,y)=(x-y)T2(Qτ)-1θi k(x-y)。(二)DF(z,z0) =F(z)-F(z0)-rF(z0)T(z-z0)(4)对于可微严格凸函数F.等式2中的平方马氏距离是Breg-这里Qτ是特定于任务和类的协方差矩阵。由凸函数F(x)产生的人发散=kτ1xTτ-1x,对应于多元正态分布,由于我们无法提前知道Qk的值,因此,必须从任务特定支持集的特征嵌入中估计由于任何特定支持集中的示例数量可能远小于DIBI,ponentialfamilydistribution. 当 所 有 的 Qk 都 等 于 +βI时,我们可以将等式1中的类概率视为高斯混合模型中的“响应”。在特征空间中,我们使用正则化估计器Qτ=λτπτ+(1-λτ)πτ+βI。(三)p(y)= k|f τ(xτ),Sτ)=PπkN(µk,Qτ)0π0N(µk0,Qτ)(五)KKkkkkk由任务内类和任务内所有类协方差矩阵的凸组合形成。我们估计类内任务协方差矩阵使用所有xi2Sτ的特征嵌入fτ(xi),其中具有等加权混合系数πk=1/k。这种观点立即突出了一个问题,平方欧几里德规范,使用的一些approaches如图所示。二、欧几里得范数,对应于平方马氏距离,θkSτ是Sτ中类标签为k的例子的集合。τ=I,隐含地假设每个集群是分布在ac-τ=1X(f τ(x)-μ)(f τ(x)-μ)T.根据单位法线,如图5所示。 相比之下,K| Sτ|-一个θi(xi,yi)2Sτkθik平方Mahalanobis距离考虑聚类协方差,在计算到聚类中心的距离时,Q14498226. 实验我们在元数据集[39]系列数据集上评估了SimpleCNAPS,与包括当前SoTA、CNAPS在内的九种基线方法相比,证明了报告的基准结果来自[39,30]。6.1. 数据集Meta-Dataset [39]是一个包含10个标记图像数据集的少量 学 习 基 准 : ILSVRC- 2012 ( ImageNet ) [31] ,Omniglot [18],FGVC-飞机(飞机)[22],CUB-200-2011 ( 鸟 类 ) [41] , 可 描 述 纹 理 ( DTD ) [2] ,QuickDraw [14],FGVCx真菌(真菌)[35],VGG花(花)[25],交通标志(标志)[12]和MSCOCO [20]。为了与先前的工作保持一致,我们报告了使用前8个数据集进行训练的结果,保留了交通标志和MSCOCO用于“域外”的每一个评估。此外,从用于训练的八个训练数据集中,一些类被保留用于测试,以评估“域内”性能。在[30]之后,我们用另外3个数据集扩展了域外评估:[19],CIFAR10 [17]和CIFAR100 [17]。我们使用[39]提供的标准测试/列车分离和基准基线报告结果,但重要的是,我们使用不同的测试/列车分离交叉验证了我们的关键经验声明,并且我们的结果在不同的折叠中是稳健的(参见附录C)。有关任务生成、镜头/路径分布和超参数设置的详细信息,请参见附录A。Mini/tieredImageNet[29,40]是两个较小但更广泛使用的基准测试,由ILSVRC- 2012(ImageNet)[31]的子集组成,分别具有100个类(60,000张图像)为了与最近的工作[8,21,26,32]进行比较,其中元数据集评估不可用,我们使用mini/tieredImageNet。请注意,在mini/tieredImageNet设置中,所有任务都具有相同的预设类数量和每个类的支持示例数量,这使得学习相对更容易。6.2. 结果报告格式:粗体表示每个数据集的最佳性能,下划线表示相对于基线的统计学显著改善。误差条表示任务的95%置信区间。域 内 性 能 : 使 用 自 回 归 特 征 提 取 适 配 器 的SimpleCNAPS和SimpleAR-CNAPS的域内结果如表所示1.一、简单AR-CNAPS在8个数据集中的7个上优于先前的SoTA,同时在FGVCx真菌(真菌)上匹配过去的SoTA。Simple CNAPS在8个数据集中的6个数据集上优于基线,同时在FGVCx真菌(Fungi)和可描述纹理(DTD)上匹配性能。总的来说,在具有2-6%裕度的少数拍摄域中,域内性能增益是相当可观的。简单的CNAPS实现了图6:准确度与镜头:每个类别的支持示例的平均数量(对数标度)v/s精度。对于测试时使用的7,800个元数据集任务(13个数据集,每个任务600个)中的每个类,获得了该类查询示例的分类准确率。这些类精度,然后分组根据类镜头,平均和绘图,以显示CNAPS,L2和简单的CNAPS规模与更高的镜头的精度。域内少炮分类的平均准确率为73.8%,比CNAPS提高了4.2%,而简单AR-CNAPS达到了73.5%的准确率,比AR-CNAPS提高了3.8%域外性能:如表2所示,SimpleCNAPS和SimpleAR-CNAPS在域外数据集上的性能都有显著提高,均超过了SoTA基线。SimpleCNAPS和SimpleAR-CNAPS的平均域外准确率分别为69.7%和67.6%,这意味着简单CNAPS/AR-CNAPS比基线模型更好地推广到域外数据集 。 此 外 , Simple AR-CNAPS 的 性 能 低 于 SimpleCNAPS,这表明自回归特征自适应方法可能过拟合到它已经训练过的数据集的域。整体性能:简单CNAPS实现了最好的总体分类准确率为72.2%,简单AR-CNAPS非常接近地落后于71.2%。由于这两种变体的总体性能在统计上是不可区分的,我们建议简单CNAPS优于简单AR- CNAPS,因为它具有较少的参数。与 其 他 距 离 度 量 的 比 较 : 为 了 测 试 我 们 选 择 的Mahalanobis距离的重要性,我们在我们的架构中用其他距离度量来代替它- 绝对差(L1)、平方欧几里德(L2)、余弦相似性和负点积。性能比较见表3和表4。我们观察到,使用Mahalanobis距离可以在所有数据集上获得最佳的域内、域外和总体平均性能。14499K2模型ImageNetOmniglot飞机域内鸟类准确度(%)DTDQuickdraw真菌花MAML [3]32.4±1.071.9±1.252.8±0.947.2±1.156.7±0.750.5±1.221.0±1.070.9±1.0[第38话]30.9±0.986.6±0.869.7±0.854.1±1.056.6±0.761.8±1.032.6±1.176.1±0.8K-NN [39]38.6±0.974.6±1.165.0±0.866.4±0.963.6±0.844.9±1.137.1±1.183.5±0.6[第40话]36.1±1.078.3±1.069.2±1.056.4±1.061.8±0.760.8±1.033.7±1.081.9±0.7[45]第四十五话43.1±1.171.1±1.472.0±1.159.8±1.269.1±0.947.1±1.238.2±1.085.3±0.7ProtoNet [36]44.5±1.179.6±1.171.1±0.967.0±1.065.2±0.864.9±0.940.3±1.186.9±0.7ProtoMAML [39]47.9±1.182.9±0.974.2±0.870.0±1.067.9±0.866.6±0.942.0±1.188.5±0.7CNAPS [30]51.3±1.088.0±0.776.8±0.871.4±0.962.5±0.771.9±0.846.0±1.189.2±0.5[30]第三十话52.3±1.088.4±0.780.5±0.672.2±0.958.3±0.772.5±0.847.4±1.086.0±0.5简单AR-CNAPS56.5±1.191.1±0.681.8±0.874.3±0.972.8±0.775.2±0.845.6±1.090.3±0.5简单的CNAPS58.6±1.191.7±0.682.4±0.774.9±0.867.8±0.877.7±0.746.9±1.090.7±0.5表1:与基线相比,简单CNAPS和简单AR-CNAPS的域内少数镜头分类准确度。除(AR-)CNAPS报告的结果来自[30]外,所有其他基准均来自[39]。模型域外准确度(%)平均准确度(%)迹象MSCOCOMNISTCIFAR10CIFAR100域内域外整体MAML [3]34.2±1.324.1±1.1NANANA50.4±1.029.2±1.246.2±1.1[第38话]37.5±0.927.4±0.9NANANA58.6±0.932.5±0.953.3±0.9K-NN [39]40.1±1.129.6±1.0NANANA59.2±0.934.9±1.154.3±0.9[第40话]55.6±1.128.8±1.0NANANA59.8±0.942.2±1.156.3±1.0[45]第四十五话66.7±1.235.2±1.1NANANA60.7±1.151.0±1.258.8±1.1ProtoNet [36]46.5±1.039.9±1.174.3±0.866.4±0.754.7±1.164.9±1.056.4±0.961.6±0.9ProtoMAML [39]52.3±1.141.3±1.0NANANA67.5±0.946.8±1.163.4±0.9CNAPS [30]60.1±0.942.3±1.088.6±0.560.0±0.848.1±1.069.6±0.859.8±0.865.9±0.8[30]第三十话60.2±0.942.9±1.192.7±0.461.5±0.750.1±1.069.7±0.861.5±0.866.5±0.8简单AR-CNAPS74.7±0.744.3±1.195.7±0.369.9±0.853.6±1.073.5±0.867.6±0.871.2±0.8简单的CNAPS73.5±0.746.2±1.193.9±0.474.3±0.760.5±1.073.8±0.869.7±0.872.2±0.8表2:与基线相比,简单CNAPS和简单AR-CNAPS的(中)域外少数拍摄分类准确度。右)与基线相比,简单CNAPS和简单AR-CNAPS的域内、域外和总体平均分类准确度除了CNAPS和AR-CNAPS报告的结果来自[30]外,所有其他基准都直接来自[39]。方差矩阵τ不包括在协方差正则化中(用“-TR”标记表示这相当于在等式3中将λτ设置为1。如表4所示,我们观察到,虽然删除任务级正则化器只会略微降低整体性能,但ImageNet等单个数据集的差异可能很大。图7:准确度与方法:方法的数量(任务中的类)v/s精度。测试集中的任务按类的数量对准确度进行平均以获得每个类别计数的值。任务正则化器的影响:我们还考虑了Simple CNAPS的一个变体,其中所有类内任务协同对每个类的支持示例数的敏感性:图6显示了总体分类准确度如何作为所有任务中每个类(镜头)的平均支持示例数的函数而变化。我们比较简单的CNAPS,原始的CNAPS,和我们的方法的L2变体正如预期的那样,每个类的支持示例的平均数量与性能高度相关。所有方法在每个支持类具有更多标记示例的情况下执行得更好,随着拍摄数量的增加,Simple CNAPS的执行效果明显更好。令人惊讶的发现是,即使当标记实例的数量低至4时,Simple CNAPS也是有效的,这表明即使对任务和类特定协方差矩阵的估计很差也是有帮助的,并且我们引入的正则化方案效果非常好。14500KK2度量ImageNetOmniglot飞机域内鸟类准确度(%)DTDQuickdraw真菌花负点积48.0±1.183.5±0.973.7±0.869.0±1.066.3±0.666.5±0.939.7±1.188.6±0.5余弦相似度51.3±1.189.4±0.780.5±0.870.9±1.069.7±0.772.6±0.941.9±1.089.3±0.6绝对距离(L1)53.6±1.190.6±0.681.0±0.773.2±0.961.1±0.774.1±0.847.0±1.087.3±0.6平方欧几里德(L22)53.9±1.190.9±0.681.8±0.773.1±0.964.4±0.774.9±0.845.8±1.088.8±0.5简单CNAPS-TR56.7±1.191.1±0.783.0±0.774.6±0.970.2±0.876.3±0.946.4±1.090.0±0.6简单的CNAPS58.6±1.191.7±0.682.4±0.774.9±0.867.8±0.877.7±0.746.9±1.090.7±0.5表3:简单CNAPS与负点积、绝对差(L1)、平方欧几里德(L22)和由“-TR”表示的恢复任务正则化(λτ=1)的消融替代方案相比的域内少数激发分类准确度。度量域外准确度(%)平均准确度(%)迹象MSCOCOMNISTCIFAR10CIFAR100域内域外整体负点积53.9±0.932.5±1.086.4±0.657.9±0.838.8±0.966.9±0.953.9±0.861.9±0.9余弦相似度65.4±0.841.0±1.092.8±0.469.5±0.853.6±1.070.7±0.964.5±0.868.3±0.8绝对距离(L1)66.4±0.844.7±1.088.0±0.570.0±0.857.9±1.071.0±0.865.4±0.868.8±0.8平方欧几里德(L22)68.5±0.743.4±1.091.6±0.570.5±0.757.3±1.071.7±0.866.3±0.869.6±0.8简单CNAPS-TR74.1±0.646.9±1.194.8±0.473.0±0.859.2±1.073.5±0.869.6±0.872.0±0.8简单的CNAPS73.5±0.746.2±1.193.9±0.474.3±0.760.5±1.073.8±0.869.7±0.872.2±0.8表4:简单CNAPS的中)域外少数激发分类准确度与由“-TR”表示的n维点积、绝对差(L1)、平方欧几里德(L22)和恢复任务正则化(λτ=1)的右)消融模型的域内、域外和总体平均分类准确度。模型迷你ImageNet1发5发分层ImageNet1发5发ProtoNet [36]46.1465.7748.5869.57Gidariss等人[八]《中国日报》56.2073.00N/AN/ATADAM [26]58.5076.70N/AN/ATPN [21]55.5169.8659.9173.30LEO [32]61.7677.5966.3381.44CNAPS [30]77.9987.3175.1286.57简单的CNAPS82.1689.8078.2989.01表 5 : 与 mini/tieredImageNet 基 线 相 比 的 准 确 度(%)。对CNAPS和简单CNAPS报告的性能指标取5次不同运行的平均值。对任务中类的数量的敏感性:在图7中,我们将平均准确率作为任务中类别数量的函数进行检查。我们发现,无论在任务中的类的数量,我们保持准确性的改进,提高了CNAPS和我们的L2变体。在mini/tieredImageNet上的准确性:表5显示,SimpleCNAPS在所有标准的1次和5次5向分类任务上都优于最近的基线。这些结果应该小心解释,因为CNAPS和Simple CNAPS 都 使 用 在 ImageNet 上 预 先 训 练 的ResNet18 [10]特征提取器。与此表中的其他模型一样,这里的Simple CNAPS针对这些特定的炮点/方式配置进行了训练。简单CNAPS在1次拍摄设置中表现良好,甚至在CNAPS上也有所改善,这表明简单CNAPS除了在拍摄数量和方式不受约束时表现良好之外,还能够专门用于特定的少数拍摄分类设置,如在早期实验中一样。7. 讨论小镜头学习是现代人工智能研究中的一项基本任务。本文介绍了一种新的摊销少拍图像分类方法,通过对现有SoTA体系结构的简化,建立了一个新的SoTA性能基准。我们的特定架构选择,即确定性地估计和使用Mahalanobis距离对任务调整的类特定特征向量进行分类,似乎通过训练产生了通常允许有用的协方差估计的嵌入Mahalanobis距离在特征空间中用于区分类别的有效性表明了与分层正则化方案的联系[33],即使在零触发设置中也可以实现性能改进。在未来,探索其他布雷格曼分歧可能是一个潜在的富有成效的研究途径。以数据和任务增强形式的其他增强也可以提高性能。8. 确认我 们 感 谢 加 拿 大 自 然 科 学 和 工 程 研 究 委 员 会(NSERC),加拿大研究主席(CRC)计划,加拿大CIFAR AI主席计划,加拿大计算,英特尔和DARPA在其D3M和LWLL计划下的支持。14501引用[1] A. 班纳吉河梅鲁古岛S. Dhillon和J.高希用Bregman分歧聚 类 。 Journal of Machine Learning Research , 6(Oct):1705-1749,2005。二三五[2] M. Cimpoi, S. 玛吉 I. 科基诺斯 S. 穆罕默德 和A.维达尔迪描述野外的纹理。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中,第3606-3613页,2014年。六、十二[3] C. Finn,P. Abbeel,和S.莱文模型不可知Meta学习用于深度网络的快速适应第34届机器学习卷70,页1126-1135。JMLR。org,2017. 二、三、七、十一[4] S.堡用于Omniglot上的少量学习的高斯原型网络。CoRR,abs/1708.02735,2017。3[5] A. 弗 罗 姆 , G 。 S. Corrado , J.Shlens , S.Bengio ,J.Dean,M.A. Ranzato和T.米科洛夫Devise:一个深度视觉语义嵌入模型。In C.J. C. 伯吉斯湖Bottou,M.威林Z. Ghahramani和K. Q. Weinberger,编辑,神经信息处理系统进展26,第2121- 2129页。Curran Associates,Inc. 2013. 1[6] P. Galeano,E.Joseph和R.E. 莉罗函数数据的马氏距离及其在分类中的应用。Technometrics,57(2):281-291,2015. 2[7]M. Garnelo,D.罗森鲍姆角J. Maddison,T. 拉马略D.萨克斯顿山Shanahan,Y. W. Teh,D. J. Rezkirk,以及S. M. A. 埃 斯 拉 米 条 件 神 经 过 程 。 CoRR ,abs/1807.01613,2018。2[8] S. Gidaris 和 N. 小 木 动 态 少 镜 头 视 觉 学 习 而 不 忘 。CoRR,abs/1804.09458,2018。六、八[9] S. Gidaris和N.小木用gnn去噪自编码器为少拍学习生成分类权重arXiv预印本arXiv:1905.01102,2019。1[10] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CoRR,abs/1512.03385,2015。四、八、十二、十三[11] M. Z. Hossain,F. Sohel,M. F. Shiratuddin和H.拉加图像字幕深度学习的全面调查ACM计算监视器,51(6):118:1-118:36,Feb.2019年。1[12] S. 作者:J. Salmen,M. Schlipsing,以及C.伊格尔在真实世界图像中检测交通标志:德国交通标志 检 测 基 准 。 2013 年 国 际 神 经 网 络 联 合 会 议(IJCNN),第1-8页IEEE,2013。6[13] L. Jiao,F.Zhang,F.Liu,S.扬湖,澳-地Li,Z.Feng和R.屈
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功