没有合适的资源?快使用搜索试试~ 我知道了~
6558真实环境戴维斯·韦特海默康奈尔大学dww78@cornell.edu康奈尔大学bh497@cornell.edu摘要传统的识别方法通常需要大型的、人工平衡的训练类,而少数学习方法则在人工小的训练类上进行测试。与这两个极端相反,现实世界的识别问题表现为重尾类分布,场景杂乱,粗粒度和细粒度的类区别混合。我们表明,以前的方法设计的几次学习- ING不工作的盒子在这些具有挑战性的条件下,基于一个新的“元iNat”基准。我们介绍了三个无参数的改进:(a)基于将交叉验证适应于Meta学习的更好的训练程序,(b)在分类之前使用有限的边界框注释来定位对象的新架构,以及(c)基于双线性池的特征空间的简单无参数扩展。总之,这些改进使元iNat上的最先进模型的准确性加倍,同时推广到先前的基准、复杂的神经架构和具有实质性域转移的设置。1. 介绍图像识别模型据称在ImageNet等基准测试中达到了人类的性能,但关键取决于大型,平衡,标记的训练集,每个类有数百个示例。这个要求在许多现实场景中是不切实际的,在这些场景中,概念可能是罕见的或者具有非常少的标记训练示例。然而,获取更多的标记示例可能需要专业的注释者,因此成本太高。该问题在应用中(例如,机器人技术),需要在部署中动态学习新概念,并且不能等待昂贵的离线数据收集过程。这些考虑促使了对“少镜头”学习问题的研究过去的这项工作建立了“学习器”,可以学习基于极少量的训练示例(例如,每班5人)。然而,多重挑战困扰着这些方法图1.现有基准和现实世界问题之间的差异。上图:传统的识别基准使用许多同样大的类,而少数基准使用很少的同样小的类。自然问题往往是厚尾的。底部:从左上角开始的计数:相关物体可能重叠、微小、被遮挡、强调不足(鸟在喂食器上)、模糊或难以描绘。当它们被应用于现实世界的识别问题时。首先,少数方法通常假设平衡的数据集,并优化学习器,以获得精确的,通常是不现实的少量训练样本。相比之下,现实世界的问题可能具有高度不平衡的重尾类分布,某些类中的数据比其他类中的数据因此,一个实用的学习者必须对所有类都同样有效,而不管训练示例的数量如何。目前还不清楚如何或即使是少数几个镜头的方法可以处理这种不平衡。第二,少数学习方法通常假设相关概念的数量很少,因此彼此之间高度不同相比之下,现实世界的应用程序6559往往涉及到数千个类,它们之间有着微妙的区别。当自然图像杂乱或难以解析时,这些区别可能特别难以检测(图1,底部)。因此,学习者还必须能够在杂乱的自然图像。我们首先评估原型网络[37],这是一种简单但最先进的少数学习方法,基于iNaturalist数据集的重尾类分布和微妙的类区别[39]。我们证明了原型网络可以在这个挑战性基准上挣扎,证实了上述直觉。接下来,我们提出了解决重尾、细粒度、杂乱识别挑战的方法我们引入修改原型网络,显着提高准确性,而不增加模型的复杂性。首先,针对严重的类不平衡问题,提出了一种基于留一交叉验证的训练方法。这种方法使优化更容易,学习者对更广泛的班级规模分布更有弹性。该技术在精度上产生4点增益其次,我们认为,当对象很小或场景是杂乱的,学习者可能发现难以单独从图像级标签识别为了解决这个问题,我们探索新的学习器架构,在分类之前定位每个感兴趣的对象。这些学习器使用边界框注释标记的图像的一个小的子集。定位将准确度提高了6个点,当对象占图像的40%以下时更是如此。即使在定位对象之后,学习者可能需要寻找概念之间的细微区别。现有的少数镜头的方法依赖于学习过程中单独建立信息丰富的功能表示。我们表明,直接的,无参数的调整可以显着提高,证明性能。特别是,我们发现学习器的表示能力可以通过利用双线性池来显[7,26]。虽然在其原始公式,双线性池显着增加模型参数计数,我们表明,它可以适用于原型网络与零增加。这一修改显著提高了高达9点的准确性。这些贡献加在一起,原型网络和其他强大的基线,具有挑战性的重尾基准,对模型复杂性的影响可以忽略不计。我们的研究结果表明,我们提出的方法提供了显着的好处,在野外现实的识别问题比以前的技术。2. 相关工作我们提出的技术背后的想法有广泛的支持,但出现在大多数不相交或不兼容的问题设置。我们适应这些概念到一个统一的框架,在现实世界中的情况下识别。元学习:之前 工作 对 少样本 学习已经主要专注于优化学习器:一个函数,将一个小的标记训练集和一个未标记的测试集作为输入,并输出对测试集的预测。该学习器可以表示为参数函数,并在“训练”概念的数据集上进行训练,以便它推广到新的概念。因为这些方法训练学习者,所以这类方法通常被称为优化可以集中在学习器正交方法是生成额外的合成数据[18,46]。然而,在大多数情况下,少数镜头分类器[6,15,21,28,34,35,37,38]仅在两个数据集之一或两者上进行评估:mini-ImageNet [40]和Omniglot [24]。前者一次只呈现五个类,每个类有一个或五个训练图像。 后者是手写字符数据集,其准确率通常超过98% [12,28,29,38,40]。最近的一些工作已经极大地扩大了类的数量[18,43],但仍然假设新的类具有相同数量的示例。因此,这些基准与现实世界的条件分离,其中涉及困难的问题,自然图像,许多概念和不同数量的训练数据[27,39,44]。许多先前的元学习方法与这些设置不兼容。值得注意的是,Wang等人[42]设计了一种基于从常见类到罕见类的知识转移的重尾问题方法他们的方法与我们的改进是正交的。重尾数据集:重尾类分布在现实世界中很常见。MS-COCO [25] 、 SUN 数 据 库 [44] 、 DeepFashion [27] 、MINC [5]和Places[49]都是这样的例子,其中一个数量级将最常见的类中的图像数量与最不常见的类中的图像数量分开。MINC和Places特别值得注意,因为它们明确地设计为缩小数据可用性的差距[5,49],但无论如何都尽管有这种趋势,但ImageNet [11],CIFAR-10和CIFAR-100[22]等标准识别基准对数据进行了大量管理,以确保类保持良好的平衡和易于分离。mini-ImageNet和Om-niglot few-shot benchmark显式编码类平衡,其他提出的few-shot benchmark也是如此[18,43,46]。改进特征空间:众所周知,特征空间的高阶扩展可以提高手工设计的特征提取器的表达能力[19,33]。最近的工作表明,类似的技术[7,26],这些技术的可学习概括[8,47]以及这些技术的有效近似[16,20]也提高了卷积网络的性能。这种改进在细粒度分类设置中特别大,例如面部识别[4,9,26]。然而,使用由此产生的扩展特征空间需要参数-6560图2.我们的真实世界学习基准。最初,许多图像都可以使用边界框注释。然后,学习者必须使用变化但有限的数据量来适应新的类,只有很少的边界框。在野外测试时,没有注释。重型模型我们将双线性池化[26]适应于少数镜头设置,作为真正的无参数扩展,不再冒过拟合小数据集的风险。本地化:定位与再认之间存在着密切的关系。仅在图像级、基于分类的损失上训练的网络仍然学习局部化感兴趣的对象[30,48]。 这些习得的定位可以作为有用的数据注释,包括用于原始识别任务[41,45,48]。然而,非常困难的问题可能需要昂贵的地面实况注释来开始自举。幸运的是,一个非常小的符号集就足以预测其余的[36]。当提供图像级类别标签时,半监督定位进一步改进[17,23]。由于每一个都可以从另一个引导,结合识别和定位可能被证明是一个特别有效的补救措施,数据稀缺。3. 问题设置和基准我们的目标是构建学习器,可以在具有挑战性的现实世界条件下自动学习新概念的系统,具有重尾分布的类和微妙的类区别。每个学习器可以具有可调参数或超参数。与先前的工作一样,这些参数是在具有许多训练示例的概念的“表示集”([18]中的“基类”)上学习的(见图19)。2)的情况。一旦被训练,学习者必须推广到一个不相交的“评价集”的新类别。评估集被分成一个小的集合标记的“参考图像”和一个较大的集合未标记的“查询图像”。学习器可以使用参考图像来定义新的类别集合,估计这些类别的新参数(例如,线性分类器)和/或微调其特征表示。最终的准确率报告在未注释的查询图像上。我们报告前1名和前5名的准确性,作为图像和评估集类别后一种度量标准惩罚那些专注于大类别而忽略小类别的分类器。解决上述问题的两种方法可以作为说明性的例子。传统的迁移学习方法是在表示集上训练softmax分类器。在评估集上,完全连接层被具有适当数量类别的新版本替换,并在参考图像上进行微调从测试集查询图像元学习方法,例如原型网络,在从表示集采样的微小数据集上训练参数学习器,教导学习器适应新的微小数据集。学习器在单遍中处理评估集,参考图像形成训练集,查询图像形成测试集。对象位置注释:正如第1节所讨论的,现实世界识别问题的一个关键挑战是在杂乱的场景中找到相关的对象。图像级类别标签的小集合可能是不够的。因此,我们为评估集中的一小部分(≤10%)参考图像提供边界框。请注意,对于极端点点击,这些注释在实践中很容易获得。Tice [32].我们对表示集进行了充分的注释,因为这样的数据集往往在现实世界中得到了大量的管理(图1)。2)的情况。3.1. 基准实施我们现在将这个问题设置转换为一个基准,可以准确地评估学习者在现实世界中的重尾问题。为此,评估集必须满足三个关键属性。首先,与许多现实问题一样,训练集应该是严重不平衡的,稀有类和常见类之间的数量级差异。然而,每个类的例子的数量必须既不是不必要的小(例如,少于10个),也不是不切实际的大(例如,超过200)。其次,与过去一次使用五个类的少数学习基准相比[24,40],应该有很多(例如,至少20)评估集中的类别,具有粗粒度和细粒度的区别,如在真实世界中一样。第三,图像必须具有现实挑战性,具有杂乱和小的感兴趣区域。我们使用iNat2017数据集[39]实现了我们的基准测试,这是一个有机收集的、众包的活生物体成分,具有细粒度和粗粒度的物种区分、重尾类大小分布以及重要子集的边界框注释。在具有边界框的适当大小的类别中,80%被随机分配给表示集,其余的分配给评估集。在评估集中,20%的图像是参考图像,其余的是查询图像,总体划分为80/4/16%的表示、参考和查询。 我们提出这个Meta-iNat包含1,135种动物物种,其分布可以在图中找到。3.第三章。虽然meta-iNat中的所有图像都有边界框注释,但在评估期间仅允许10%的图像(参见第6561pn图3. Meta-iNat中的类别大小第3段)。我们在评估集上运行十次试验,每次试验中使用不同的注释参考图像集合4. 方法我们在原型网络[37](第4.1节)的基础上,对原型网络[37]引入了三个轻量级和无参数的改进。批量折叠(第4.2节)在训练过程中改善了梯度,并帮助学习者推广到大型类。少镜头定位(4.3节)教导学习者在分类之前定位对象。协方差池(第4.4节)大大增加了原型向量的表达能力,而不影响底层的网络架构。除了无参数之外,这些技术是相互兼容和互利的。4.1. 原型网络形象,但永远不会两者兼而有之。当参考图像学习形成良好的类质心时,以其他贡献者为条件,查询图像朝向正确的质心并且远离其他质心。两者的权重都是学习所必需的,但每个图像只能得到一个,因此原型权重更新是嘈杂的。这种引用/查询的区别也限制了网络可以处理的引用图像的数量。对于一个原型类型的网络,它必须使用大量的参考图像进行训练[37]。然而,增加每个批次的参考图像,需要增加批次大小,这会遇到内存限制,或者减少查询的数量,产生更嘈杂的查询梯度。因此,原始的原型网络是为稀有类设计的作为替代方案,我们建议在每个批次中使用留一整个批次被视为参考图像,并且每当它充当查询时,每个图像的贡献都从其对应的原型中减去(因此,每个图像都会得到一个组合的、更清晰的梯度,既作为参考又作为查询。此外,查询/参考图像的数量可以与批量大小一样高/少一其结果是在不违反内存限制的情况下,使用大参考集进行稳定的训练我们称这种方法为批量折叠。过程:设n是类的数量,p是批处理中每个类的图像数量。用v i,j表示第j个猫y中第i个图像的特征向量. 让cj=ivi,j是第j个类的质心。Tomak epre-对于第j个类别中的第i个图像,网络使用以下类原型:我们简要回顾一下原型网络[37]。原型网络是一种学习器架构,旨在使用很少的训练示例学习新的类学习者使用c1,c2,.cj−1,p(c−p−1jvi,j),c j+1,. c(1)p特征提取器,用于在特征空间中嵌入标记的参考图像和参考图像嵌入在每个类内被平均以生成该类的“原型类型”向量。基于L2接近每个类原型的查询嵌入的预测训练一个原型网络相当于设置特征提取器的参数,因为分类是非参数的。通过对参考和查询图像的小数据集进行采样,在表示集上训练原型网络。这些通过网络传递,以获得查询图像的类概率。然后最小化查询图像上的交叉熵损失通过这种训练,网络学习一个特征提取器,从有限的参考图像中获得好的原型。4.2. 批量折叠批量折叠的动机是在训练过程中,批量中的每个图像都是引用或查询开销:使用张量广播可以有效地并行化批量折叠。大多数机器学习库都内置了必要的广播操作,包括NumPy [1],PyTorch [2]和TensorFlow [3]。还要注意,标准的原型网络预测已经涉及计算每个质心和每个查询图像嵌入之间的L2距离。这与为每个图像计算(1)具有相同的渐近成本,因此long as query set sizenqueryntotal. 这是真的[37]。批量折叠的开销也往往是由早期的卷积层主导。4.3. 定位当感兴趣的对象很小并且场景混乱时,图像级标签的信息量较少,因为不清楚标签指的是图像的哪个部分。给定许多足够不同的训练图像,机器最终会找出感兴趣的区域[48]。但只有一个6562由于图像和图像级标签很少,区分相关特征和干扰物变得非常困难。由于这些原因,隔离感兴趣区域(参考和查询图像)应使分类明显更容易。我们考虑两种可能的方法。在无监督本地化中,学习者在表示集上内部开发类别不可知的“前景”模型。少镜头定位使用评估集上的参考图像边界框来进行这种定位。过程:在这两种方法中,定位器是一个子模块,它将最终10×10特征图中的每个位置分类为“前景”或“背景”。这个预言-计算作为每个像素嵌入的负L2接近度到前景向量和背景向量的softmax在无监督定位中,这些向量是在表示集上优化的学习参数。在少镜头定位中,定位器得到一些用边界框注释的我们使用这些框作为图形/背景遮罩,并平均所有前景像素嵌入以产生前景向量。背景矢量的计算方法类似.定位器的输出是一个柔和的前景/背景遮罩。将特征图与其遮罩(和逆遮罩)相乘产生前景和背景图,这些图被平均池化,然后被连接。这个双倍长度的特征向量用于形成原型并执行分类。图四是提供直观的解释。培训:这两种本地化方法都是可培训的,所以我们在分类问题中训练它们。我们没有使用额外的监督损失;定位器只被训练用于分类。尽管如此,输出在视觉上还是相当不错的。图中给出了示例。五、当使用批量折叠训练几次拍摄定位器时,需要在定位期间进行额外的一轮折叠。每个图像的贡献从前景和背景向量中移除。否则,每个图像4.4. 协方差池对于困难的分类问题,可以使用诸如双耳池化[26],Fisher向量[33]和其他[4,16]的方法来扩展特征空间并增加表达能力。不幸的是,传统的学习框架使用这些扩展的表示作为线性分类器或完全连接的softmax层的输入[9,20,26],大大增加了参数,使模型易于在小类上进行然而,这些技术可以适用于原型网络,而无需任何参数的增加。我们使用bilin- ear pooling [26],1它改进了细粒度的分类,1类似的技术在文献中被称为二阶池化[7]和协Top-1准确度Top-5准确度模型平均值/类平均值/类Softmax13.35±.246.55±.1934.46±.3020.05±.30重新加权Softmax6.92±.197.88±.1621.94±.3122.53±.29重新采样Softmax1.54±.06.99±.023.77±.012.75±.03迁移学习17.39±.2417.61±.1041.03±.2540.81±.27PN16.07±.1917.55±.1942.1±.2141.98±.18PN+BF20.04±.0420.81±.0847.86±.3146.57±.23PN+BF+fsL*26.25±.0526.29±.0455.43±.0953.01±.08PN+BF+usL28.75±.1328.39±.1557.90±.2455.27±.37PN+BF+usL+CP32.74±.1330.52±.1361.32±.1456.62±.16PN+BF+fsL+CP*35.52±.0531.69±.0663.76±.0957.33±.10表1.荟萃iNat基准的结果,来自4项试验的95%置信区间。PN是一个原型网络,BF是批量折叠,fsL和usL是少镜头和无监督局部化,CP是协方差池。* 结果是4次试验的10次运行的平均值,注释在每次运行中随机取样。性能,并概括了许多手工设计的特征描述符,如VLAD [19] , Fisher 向 量 [33] 和 Bag-of-Visual-Words[10]。这种方法采用两个特征图(例如,双流卷积网络),并通过在平均池化之前执行逐像素外积来计算它们之间的互协方差。在我们的定位模型中,预测的前地和背景地图作为两个流。另一方面,我们使用特征图与其自身的外积这两个版本都执行有符号平方根归一化,就像在双线性池中一样,但不投影到单位球,因为这严重限制了原型预测空间。值得强调的是,这种扩展没有增加参数。与以前的模型不同,性能的所有改进都来自于增加的功能表现力,而不是增加的网络容量。为了强调这种差异,我们称这个版本为协方差池。5. 实验我们首先呈现关于meta-iNat基准的总体结果(表1)。我们分析了定位器的行为,然后推广到更大的网络,具有域转移的任务和原始的mini-ImageNet。我们使用4层卷积学习器密切模仿原型网络[37],加上平均池(见补充)。5.1. Meta iNat基线结果:在评估集的参考图像上从头开始训练的标准softmax分类器表现不佳,特别是在罕见的类别上。在训练过程中增加稀有类的权重只能稍微提高每个类的准确性对稀有类进行过采样会导致灾难性的过拟合。第二个基线是迁移学习:我们在表示集上训练相同的网络,但使用类权重在评估集上替换并重新训练最终的线性层。这种方法的效果明显优于从头开始训练,达到了17.6%的每类准确率。6563图4.少量定位所提供的边界框遮蔽了前景和背景区域(1),将其平均以产生前景和背景特征向量(2)。新特征图(3)上的像素特征基于与那些向量(4)的距离被分类为前景或背景。预测的掩模分离前景和背景区域(5),前景和背景区域被独立地平均合并并连接(6)。无监督定位学习前景/背景向量作为参数,并从(3)开始图5.少数拍摄定位器的示例输出。最左边的图像提供了每行的前景和背景质心网络在没有监督或专用参数的情况下学习,以隔离(大多数)适当的感兴趣区域。作为我们的第三个基线,在元iNat表示集上训练的原型网络很容易超越从头开始训练的这表明,原型网络本质上是类平衡的,但在这种重尾设置中没有提供比迁移学习更多的优势批量折叠:一个用批量折叠训练的原型网络比所有基线都好,几乎是3分之一。每类精度增益作为类大小的函数绘制在图中。6.我们看到了全面的收益,这表明批量折叠确实提供了更高质量的梯度。与此同时,通过在训练过程中加入更多的参考图像,批量折叠可以帮助模型推广到更大的类:最佳拟合线的正斜率表明,大类从批量折叠中受益更多,尽管不是以牺牲小类为代价。本地化:减少少数镜头定位导致另一个显着的性能提升,约6%-年龄点。请注意,10%的参考图像是注释的,每个类别只有1到20个图像。这种相对廉价的注释对性能有着巨大的影响。图6.批量折叠提高了所有类大小的准确性,但特别有助于大的(r2=。05)有趣的是,无监督本地化提供了更大的增益,约为8个百分点。 我们认为,少数拍摄定位不如其对手,因为它使用边界框,一个非常粗糙的分割形式。边界框可能包含大量的背景,从而影响前景与背景的分离.事实上,我们发现,当提供边界框是大的(例如,占据整个图像),少数拍摄的定位器不能正确定位。正如假设的那样,当对象很小,并且边界框覆盖不到一半的图像时,定位特别有用(图11)。(七).微小对象的增益下降并不完全令人惊讶-当相关对象仅包含几个像素时,分类本质上更协方差合并:通过协方差池化,准确度再次提高,在无监督定位上获得4点增益,在少数拍摄定位上获得9点增益。值得注意的是,协方差池会导致类平衡打破:大类受益不成比例(图)。(八)。我们假设协方差空间6564定位器%注释平均加速度每类acc.未经训练百分之十19.74±.0320.42±.06没有梯度百分之十22.77±.2322.86±.18超类别23.67±.7924.08±.66百分之一25.85±.1125.96±.09联合培养百分之四26.17±.0826.22±.06百分之十六26.28±.0526.3±.04百分之六十四26.21±.0426.25±.03图7.少镜头定位对感兴趣图8.协方差池提高了大型类的性能,但牺牲了一些小型类的性能(r2=。第五十章)是负责的。小类别没有足够的参考图像来跨越空间,因此质心质量受到影响。无监督定位不能与协方差池很好地相互作用,这可能是因为协方差空间对于在训练期间跨越的参考图像因此,学习的前景和背景向量可能过拟合到表示集上的特定流形。动态计算这些向量的少镜头定位没有这个问题。我们的结论是,这两种本地化技术是有用的不同的设置。使用所有这三种技术,top-1的准确性是基线原型网络的两倍。表现最好的使用批量折叠,少拍定位和协方差汇集消融研究以补充形式提供。5.2. 分析少炮定位器行为接下来,我们评估了良好的分类精度所需的边界框注释的数量。如表2所示,性能在16%的边界框可用性时饱和,但即使在1%(相当于每个类一个框)时,性能也仅略有下降。这种稀缺性可以表2.与基线定位器相比,随着注释的增加,少量定位模型所有型号均使用批量折叠。进一步:元iNat中的类别被分组为9个超类别,因此我们也尝试每个超类别使用一个框,总共9个。准确性确实会显著下降,但仍然优于不本地化的模型。因此,本地化可以导致几乎不使用任何注释的真正准确性增益,据我们所知,这是第一次发现。联合训练:虽然少数拍摄定位器从来没有接受直接的训练监督,它仍然必须与分类器共同学习。表2还比较了未联合训练的定位器。将少数镜头定位应用于未经训练的网络会导致性能下降(“未经训练”)。训练网络使用定位器,但阻止通过定位器本身的反向传播,也会导致性能下降(因此,定位提供了有用的训练信号,但为了获得最大收益,定位本身必须用分类器进行训练。5.3. 泛化我们在三个新的设置上评估我们的模型。为了测试域转移的泛化,我们基于超类别创建了第二个元iNat分裂为了测试对其他网络架构的泛化,我们使用更强大的预训练ResNet架构在meta-iNat上评估我们的技术。最后,这些技术在迷你ImageNet上进行了测试,使用了以前文献中的评估方法。对于mini-ImageNet有一些预期的警告,我们的结果非常适用于所有设置。超类别元iNat:我们希望在迁移学习更困难的环境中评估我们的结果,并且从表示集切换到评估集涉及实质性的域转移。为此,我们构建了一个新版本的元iNat,我们称之为超类别元iNat。我们不是随机地将类别分配给表示集和评估集,而是按超类别进行划分昆虫和蛛形纲动物(总共354种)形成了评估集,其他一切(鸟类、鱼类、哺乳动物、爬行动物等)是表示集。如前所述进行培训和评估,结果见表3。超类别元iNat上的迁移学习比原始设置要困难得多。所有的分数都比较低。然而,总体趋势仍然是,6565顶部-1AC牧师职位前5名AC牧师职位模型5次射击精度1次射击精度模型是说按类是说按类PN65.76±.2949.97±.30重新加权Softmax4.59±.215.38±.2215.95±.5816.57±.53PN+BF65.2±.2947.67±.31迁移学习6.34±.236.19±.1418.89±.4817.86±.49PN+fsL67.85±.2951.1±.3PN5.33±.186.31±.1817.41±.4518.32±.27PN+BF7.29±.118.24±.1322.09±.3522.53±.37PN+BF+fsL*11.69±.0612.38±.0730.64±.1129.86±.09PN+BF+usL12.46±.5912.95±.5132.28±1.131.18±.95PN+BF+usL+CP17.65±.2116.72±.1840.16±.2636.19±.48PN+BF+fsL+CP*20.02±.1317.32±.0943.45±.2036.65±.15表3.超类别元iNat基准测试的结果,95%置信区间。型号见表1。Top-1准确度Top-5准确度模型平均值/类平均值/类传输学习(顶部)19.27±.17 18.72±.20 44.02±.30 41.2±.36传输学习(满)22.52±.58 18.22±.40 48.16±.60 40.38±.48PN35.35±.24 35.59±.11 67.82±.13 66.33±.19PN+BF37.36±.15 36.73±.12 69.25±.16 67.03±.15PN+BF+fsL*46.2±.04 44.43±.08 75.87±.0473.26±.06PN+BF+fsL+CP*51.25±.13 46.04±.13 77.5±.0672.14±.05表4.使用ResNet 50功能的Meta-iNat结果,置信区间为迁移学习(顶部)调整参考图像上的解冻其他型号如表1所示。完全一样。批量折叠优于标准原型典型网络和迁移学习基线2个点。少镜头和无监督定位导致类似的实质性准确性增益(4分)。协方差池也提高了(5分),但再次导致平均准确度超过每类准确度。当使用协方差池时,无监督定位执行较少的定位,因此我们将其从未来的测试中删除。ResNet-50:虽然批量折叠、少量定位和协方差池导致了元iNat的实质性改进,但准确性仍然很低。对于更强大的模型,这些改进可能会消失。为了测试这一点,我们将底部的两个原型网络层替换为在ImageNet上预训练的冻结ResNet-50。详情见补充资料。结果见表4。使用预训练的ResNet-50模型,可以直接从ImageNet到Meta-iNat评估集执行迁移学习。冻结ResNet,只在参考图像上训练最上面的两层,考虑到模型的强大功能,效果很差。在参考图像上微调整个网络的效果稍好,但会降低每类的准确性。冻结ResNet并将顶层作为原型网络进行训练,将top- 1的准确率提高了13个百分点。批量折叠、少拍定位和协方差池提供了另外16个点。我们的结论是,这些技术是有帮助的大型神经架构,以及小的。Mini-ImageNet:批量折叠、少量定位和协方差池提高了具有长尾类分布的大型评估集的准确性。去看看这些技术-PN+fsL+CP69.45±.2849.64±.31表5. mini-ImageNet上的五级精度,10次数据集传递的置信区间为95%。“Shot” refers to number型号见表1。图9.批量折叠会导致较小的mini-ImageNet表示集上的过拟合。模型在20个类别上进行训练,但在5个类别上进行测试,因此测试损失低于训练损失。niques仍然有助于解决原始的较小的少数学习问题,我们构建了一个模拟的mini-ImageNet数据集,具有类似的统计数据,但使用边界框进行了注释。我们的数据集上的原型网络的性能与已发表的数据相似[37]。表5示出了结果。与先前结果的直接偏离是批量折叠损害性能的事实批量折叠确实会导致更好的训练和更低的训练损失,但过度拟合,因为表示集更小(图2)。第9段)。当提供五个参考图像(“五个镜头”)时,少镜头定位和协方差池化可以实现适度但真正的改进。对单参考(“一次”)性能几乎没有明显的影响尽管如此,小的改进确实表明,少镜头定位和协方差池推广到少镜头学习。6. 结论在本文中,我们已经表明,过去的工作经典或少数平衡基准未能推广到现实的重尾分类问题。我们表明,从有限的边界框注释的无参数本地化,以及对训练和表示的改进,提供了超出先前在数据丰富的设置中观察到的大的收益。我们的研究只是解决阶级平衡和数据稀缺等更广泛问题的第一步。致谢这项工作的部分资金来自Aricent的赠款。6566引用[1] 广播-numpy v1.15手册。https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html。浏览次数:2018-11-16.[2] 广播语义- pytorch主文档。https://pytorch.org/docs/stable/notes/broadcasting.html。访问时间:2018-11-16。[3] 广 播 语 义 - xla - tensorflow 。 网 址 : http ://www.tensorflow.org/xla/broadcasting访问时间:2018-11-16。[4] D. Acharya,Z.Huang,黄氏拟谷盗D.Pani Paudel和L.范古尔用于面部表情识别的协方差池。在IEEE计算机视觉和模式识别会议,2018年6月。[5] S. Bell,P. Upchurch,N. Snavely和K.巴拉野外材料识别与上下文数据库中的材料在IEEE计算机视觉和模式识别会议上,2015年。[6] L.贝尔蒂内托a. F. Henriques,J.瓦尔马德尔山口H. S.Torr和A.维达尔迪学习前馈一次性学习器。在神经信息处理系统,2016年。[7] 卡雷拉河Caseiro,J. Batista,and C.斯明奇塞斯库使用二阶池的语义分割。在欧洲计算机视觉会议上,第430-443页。Springer,2012.[8] Y. Cheng,F. X.于河,巴西-地S. Feris,S.库马尔A.Choudhary和S.-F. 昌循环投影深度网络中参数冗余的探索在2015年IEEE国际计算机视觉会议[9] A. R. Chowdhury,T. Lin,S. Maji和E.学习米勒。基于双线性cnns的一对多人脸识别。IEEEWinter Conferenceon Applications of Computer Vision(WACV),2016年3月。[10]G. 丘尔卡 C. R. 跳舞 L. 风扇、 J. Willamowski,以及C.布雷。 使用关键点包进行视觉分类。 在2004年欧洲计算机视觉会议[11] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议上,2009年。[12] H. Edwards和A.史托基成为神经统计学家。在2017年国际学习代表会议上。[13] M.芬克从一个单一的例子利用类相关性度量对象分类。神经信息处理系统,2004年。[14] C. Finn,P. Abbeel,和S.莱文模型不可知Meta学习用于深度网络的快速适应。2017年国际机器学习会议[15] C. Finn,P. Abbeel,和S.莱文模型不可知Meta学习用于深度网络的快速适应。2017年国际机器学习会议[16] Y. Gao、黄花蒿O. Beijbom,N. Zhang和T.达雷尔。紧凑的双线性池。IEEE计算机视觉与模式识别会议,2016年6月。[17] M. Gui l laumin,D. Küttel和V. 法拉利Imagenet自动注 释 与 分 割 传 播 。 International Journal of ComputerVision,110(3):328[18] B. Hariharan和R.娘娘腔。通过缩小和幻觉特征进行低射学习。在2017年IEEE计算机视觉国际会议[19] H. Jgou,M.杜兹角Schmid,和P.总统将局部描述符聚合成紧凑的图像表示。在IEEE计算机视觉和模式识别会议上,2010年6月。[20] J. Kim,K.金,等。W.哦,W。Lim,J. Kim,J.哈,B。张某低秩双线性池的Hadamard乘积。2017年国际学习表征会议[21] G.科赫河Zemel和R.萨拉赫季诺夫用于一次性图像识别的连体神经网络。2015年。[22] A. 克里热夫斯基从微小的图像中学习多层特征多伦多大学计算机科学系硕士[23] D. Kuettel,M. Guillaumin和V.法拉利imagenet中的分段传播。以. Fitzgibbon,S.拉泽布尼克P. Perona , Y. Sato 和 C. Schmid , editors , EuropeanConference on Computer Vision,2012.[24] B. M. 莱克河Salakhutdinov和J.B. 特南鲍姆通过概率程序诱导的人类水平概念学习。Science,2015.[25] T.林,M。迈尔,S。贝隆吉湖D.布尔代夫河B.吉尔希克,J。海斯角Perona,D. 拉马南山口 Doll a'r和C. L.齐特尼克Microsoft COCO:在上下文中常见的对象。2014年欧洲计算机视觉会议[26] T.- Y. Lin,L.RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性cnn2017年。[27] Z. Liu,P. Luo,S. Qiu,X. Wang和X.唐Deepfashion:支持强大的服装识别和检索与丰富的注释。2016年在IEEE计算机视觉和模式识别会议上发表[28] N. 米什拉,M。Rohaninejad,X.Chen和P.阿比尔一个简单的神经专注元学习者。在2018年国际学习表征会议[29] T. Munkhdalai和H. Yu. Meta网络。2017年国际机器学习会议[30] M.奥夸布湖博图岛Laptev和J.西维克对象本地化是免费的吗?- 用卷积神经网络进行弱监督学习。IEEE计算机视觉与模式识别会议,2015年6月。[31] N. 奥特伯杜特,A. 卡西姆,M. 达乌迪,L. 巴利希,S. 贝雷蒂用于面部表情识别的深度协方差描述符2018年英国机器视觉会议[32] D. P. Papadopoulos,J. R. R. Uijlings,F. Keller和V.很好。极端点击有效的对象注释。2017年。[33] F. Perronnin,J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。在2010年欧洲计算机视觉会议[34] S. Ravi和H.拉罗谢尔优化作为一个模型,为少数拍摄学习.在2017年国际学习代表会议上[35]A. Santoro,S. Bartunov,M. Botvinick,D. Wierstra,以及T. Lillicrap 记忆增强神经6567网络.在2016年的机器学习国际会议[36] A. Shaban、S.班萨尔河柳岛Essa和B.靴子语义分割的一次性学习。2017年英国机器视觉会议[37] J. Snell,K.Swersky和R.S. 泽梅尔用于少镜头学习的原型在神经信息处理系统,2017年。[38] F. Sung,Y.扬湖,澳-地Zhang,T.Xiang,山核桃P.H.Torr和T.M.医院学习比较:用于少拍学习的关系网络在IEEE计算机视觉和模式识别会议上,2018。[39] G. 范霍恩岛Mac Aodha,Y.宋,Y。Cui,C.孙先
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功