多样性与合作：少样本分类的集成方法

70 浏览量更新于2023-10-10 收藏 662KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3723多样性与合作：用于少样本分类的集成方法Nikita Dvornik Cordelia Schmid Julien MairalUniv. Grenoble Alpes，Inria，CNRS，Grenoble INP，LJK，38000 Grenoble，Francefirstname. inria.fr摘要少镜头分类包括学习一个预测模型，该模型能够有效地适应一个新的类，只有几个注释的样本。为了解决这个具有挑战性的问题，元学习已经成为一种流行的范式，倡导“学会适应”的能力然而，最近的在本文中，我们进一步表明，通过解决少数学习分类器的基本高方差问题，有可能显着优于当前的Meta学习技术。我们的方法包括设计一个深度网络的集合来利用分类器的方差，并引入新的策略来鼓励网络合作，同时鼓励预测的多样性。评估是在mini-ImageNet、分层ImageNet和CUB数据集上进行的，在这些数据集上，我们表明即使是通过蒸馏获得的单个网络也会产生最先进的结果。1. 介绍卷积神经网络[17]已经成为计算机视觉中对图像建模的标准工具，在许多视觉识别任务中取得了出色的结果，如分类[16]，对象检测[8，19，26]或语义识别。抽搐分段[8，20，27]。像ImageNet [28]或COCO [18]这样的大规模注释数据集似乎在这一成功中发挥了关键作用。然而，注释一个大的语料库是昂贵的，并不总是可行的，这取决于手头的任务。因此，提高深度神经网络的泛化能力并消除对大量注释集的需求至关重要。虽然可以从不同的互补观点来解决这样一个巨大的挑战，大规模无监督学习[4]，自监督学习[7，12]，或者通过开发专用于深度网络的正则化技术[2，36]，我们在本文中选择专注于基于集成方法的方差缩减原则。合作预测因子SoftmaxCNN 1美国有线电视新闻网2美国有线电视新闻网2CNN 1Softmax预测因子多样性独立预测因子SoftmaxCNN 1美国有线电视新闻网2图1：两个网络的合作和多样性战略说明。所有网络接收相同的图像作为输入，并使用softmax计算相应的类概率。合作鼓励非地面真值概率（红色）在归一化后相似，而多样性鼓励正交性。具体来说，我们感兴趣的是少数拍摄分类，其中分类器是第一次从零开始训练一个中等规模的注释语料库，也就是说，没有利用外部数据或预先训练的网络，然后我们评估其能力，以适应新的类，只有很少的注释样本提供（通常为1或5）。不幸的是，在一个新的分类任务中，简单地用很少的样本对卷积神经网络进行微调，结果很差[9]，这促使社区开发专用的方法。少数学习中的主导范式建立在元学习[9，24，30，32，31，33]的基础上，元学习被制定为学习如何适应新学习问题的原则。这些方法将大型注释语料库拆分为分类任务，目标是跨任务传输知识以提高泛化能力。虽然元学习原则似乎对少量学习很有吸引力，但其经验优势尚未明确确立。确实有强有力的证据[5，11，23]表明，使用元学习从头开始训练CNN的性能比以标准方式训练CNN特征的性能要差得多-也就是说，通过最小化依赖于语料库注释的经典损失函数;另一方面，学习3724已经发现仅使用元学习的最后一层产生更好的结果[11，23]。然后，最近在[5]中表明，简单的基于距离的分类器可以达到与元学习方法相似的准确性。我们的论文更进一步，表明无Meta学习的方法可以得到改进，并在少量学习中显着优于当前的最新技术水平。我们的攻击角度包括使用集成方法来减少少量学习分类器的方差，这是不可避免的高数量的注释。给定初始中等大小的数据集（遵循少量学习的标准设置），最基本的集成方法包括首先独立地训练几个CNN，然后冻结它们并删除最后一个预测层。然后，给定一个新的类（具有很少的注释样本），我们为每个网络构建一个平均质心分类器，并根据到质心的距离估计测试样本的类概率-根据基本概率模型[21，31]。然后将获得的概率在网络上进行平均，从而获得更高的准确性。虽然我们证明了独立训练网络的基本集成方法已经表现良好，但我们引入了惩罚项，允许网络在训练期间合作，同时鼓励足够的预测多样性，如图1所示。合作的动机是更容易学习和正则化，其中来自集合的各个网络可以相互受益。鼓励多样性的动机是集成方法的经典[6]，其中一组弱学习器进行不同的预测通常比单个强学习器表现得更好。虽然这两个原则似乎在相互矛盾，乍一看，我们表明，这两个原则实际上是有用的，并导致显着更好的结果比基本的合奏方法。最后，我们还表明，通过蒸馏训练的单个网络总之，我们的贡献有三方面：• 我们引入机制，鼓励合作和多样性，学习网络的合奏。我们研究了这两个原则，少数拍摄学习和表征的制度，他们是有用的。• 我们表明，它是可能的显着优于当前国家的最先进的技术，少数镜头分类，而不使用元学习。• 作为一个小小的贡献，我们还展示了如何通过使用额外的未标记数据，将一个集成提取到一个单一的网络中，同时在准确性上有轻微的损失。2. 相关工作在本节中，我们将讨论少数学习、元学习和集成方法的相关工作。少镜头分类。典型的少量分类问题由两部分组成，称为元训练和元测试[5]。在元训练阶段，给出足够大的注释数据集，用于训练预测模型。在元测试期间，提供了新的类别以及一些注释的示例，并且我们评估了预测模型重新训练或适应的能力，然后在这些新类别上进行概括。元学习方法通常从元训练数据集中对少量学习分类任务进行采样，并训练模型，使其能够概括已被搁置的新任务。例如，在[9]中，学习“良好的网络初始化”，使得新问题上的少量梯度步骤足以获得良好的解决方案。在[24]中，作者学习了网络初始化和由长期短记忆网络（ LSTM ）表示的更新规则（优化模型）。受深度学习方法流行之前开发的少量学习策略的启发[21]，还提出了基于到质心的距离的基于距离的分类器，例如。，原型网络[31]，或更复杂的具有注意力的分类器[33]。所有这些方法都考虑了一个经典的骨干网络，并使用元学习从头开始训练它最近，这些元学习被发现是次优的[11，22，23]。具体而言，通过在第一步中使用元训练数据在经典分类任务上训练网络，然后在第二步中仅使用元学习进行微调[22，29，35]。其他人，如[11，23]，简单地冻结第一步中获得的网络，并使用元学习训练一个简单的预测层，这会导致类似的性能。最后，论文[5]证明了没有元学习的简单基线-基于基于距离的分类器-同样有效。我们的论文进一步推动了这些原则，并表明通过适当的方差缩减技术，这些方法可以显着优于当前的最新技术水平。集成方法。众所周知，集成方法降低了估计量的方差，从而可以提高预测的质量[10]。为了从平均中获得准确性，通常使用各种随机化或数据增强技术来鼓励预测的高度多样性[3，6]。虽然集合中的单个分类器可能表现不佳，但平均预测的质量有时会令人惊讶地高。尽管集成方法在神经网络的训练时间上是昂贵的，但已经表明，一个单一个被训练来模拟整体行为的网络几乎可以表现得同样好[14]--一个被称为蒸馏的过程--从而消除了测试时的开销为了提高蒸馏的可扩展性3725我我2i=1i=1高度并行化的实现，在[1]中提出了在线蒸馏过程。在那里，每个网络都被鼓励同意集合中其他网络的平均预测，从而产生更稳定的模型。然而，我们的工作目标却截然不同。他们鼓励网络之间的合作形式确实是针对可扩展性和稳定性（由于工业限制），但在线蒸馏网络不一定比基本的增强策略表现得更好。另一方面，我们的目标是提高不一定会导致更好的结果，为少数拍摄学习。实际上考虑（1）的参数化版本：克伦克cj=αjf<$θ（xi），j=1，.，n，（2）i=1其中，权重αj可以通过最大化概率模型exp（−d（f~θ（x），cl））预测的质量和做得比基本合奏。pj（y=l|x）=nexp（−d（f≠（x），c）（3）为此，我们鼓励以不同的方式进行合作，通过鼓励网络之间的预测在预测不是地面真实标签的条件下匹配类概率虽然我们表明，当网络数量较少时，这种策略通常是有用的，但当网络数量增加时，鼓励多样性变得最后，我们表明，蒸馏可以帮助减少在测试时的计算开销3. 我们的方法在本节中，我们将介绍我们的方法，从初步组件开始进行少量分类。3.1. 均值质心分类器我们现在解释如何使用固定特征提取器和平均质心分类器执行少镜头分类。j=1θj其中d（·，·）是距离函数，诸如欧几里德距离或负余弦相似性。由于系数是从数据中学习的，而不是像（1）中那样任意设置为1/k当我们在从miniImagenet-test中采样的1000个5次学习任务上运行上述分类器的评估时（有关此数据集的详细信息，请参见实验部分），我们得到了类似的平均结果：77。28±0。46%（1）vs.七十七。01 ±0. 50%赞成（2），确认学习有意义在这种非常低的样本制度的参数是困难的。3.2. 深度网络在元训练期间，需要最小化训练集{xi，yi}m上的以下损失函数：基于原型分类器的少镜头分类。在元训练阶段，我们被给予具有L（θ）=1ΣmMi=1<$（yi，σ（fθ（xi）+λ<$θ<$2，（4）注释，我们使用它来训练由CNN表示的预测函数fθ形式上，在Db上训练CNN之后，我们移除最终的预测层并使用重新选择向量f~θ（x）作为给定的视觉特征的集合图像x.参数θ表示网络的权重在此培训步骤后，这些工作将被冻结。在元测试期间，我们得到一个新的数据集Dq={xi，yi}nk，其中n是新类别的数量，k是每个类的可用示例数。（xi，yi）然后，我们建立了一个均值质心分类器，从而得到类原型1Σk其中fθ是如前所述的CNN。成本函数（·，·）是真实标签和预测类概率p=σ（fθ（x））之间的交叉熵，其中σ是归一化指数函数，λ是权重衰减参数。当独立地训练K个网络的集合fθk时，需要分别求解每个网络的（4）。虽然这些术语可能看起来相同，但当使用不同的初始化和随机种子进行训练时，深度神经网络提供的解决方案通常会有所不同，这使得增强方法在这种情况下很有吸引力。在本文中，我们感兴趣的网络集成-工作，但我们也希望模型的成员之间的关系;这可以通过考虑成对的cj=ki=1f∈θ（xi），j= 1，.，n.（一）罚函数ψ，得到联合公式：最后，将测试样本x分配给最近的质心简单的平均质心分类器已被证明是ΣKL（θ¯）=. 1Σn（y，σ（fΣ（x）+λ<$θ<$2在少数镜头分类的上下文中有效[5，21，31]，这在以下实验中得到证实。j=1nii=1γ-氨基苯甲酸ΣK3726θjij2均值质心分类器的动机。我们在这里报告的实验表明，一个更复杂的模型比（1）+n（K−1）i=1 j，l，j=ln（yi，fθj（xi），fθl（xi）），（5）3727ΣKK不其中θ<$是通过连接所有参数θj 获得的向量。通过仔细地设计函数γ并适当地设置参数γ，可以实现集合的期望性质，诸如预测的多样性或训练期间的协作。3.3. 鼓励多样性与合作为了减少少量学习分类器的高方差，我们使用用特定交互函数训练的集成方法，如（5）。然后，一旦在元训练期间学习了参数θj，则通过考虑与等式（1）中给出的基本概率模型相关联的K（三）、给定一个测试图像，K类概率被平均。这样的策略被发现执行经验优于投票计划。正如我们在实验部分所示，成对关系函数的选择显著影响了集成的质量。在这里，我们描述了三种不同的策略，它们都在不同的制度中提供了好处，从一个鼓励预测多样性的标准开始。多样性鼓励多样性的一种方法是在学习过程中引入随机化，例如：通过使用数据扩充[3，10]或各种初始化。在这里，我们还评估了直接作用于网络预测的相互作用函数ψ 给定一个图像x，由θi和θj表示的两个模型分别导致类概率 pi=σ（fθi（x））和pj=σ（fθj（x））. 在训练期间，自然地鼓励pi和pj接近{0，1}d中的分配向量ey，其中在位置y处具有单个非零条目，其中y是与x相关联的类标签，并且d是类的数量。从[14]中，我们知道，即使只有pi或pj中最大的条目用于进行预测，其他条目-通常不对应于地面真值标签y-也携带有关网络的重要信息然后，考虑概率pi和pj条件变得不是地面真相标签。从形式上讲，这些通过将P1和P2中的项y设置为零来获得，重新归一化相应的矢量，使得它们的和为1。然后，我们考虑以下多样性惩罚φ（pi，pj）=cos（pi，pj）。（六）当与损失函数相结合时，所得到的公式鼓励网络根据地面实况标签做出正确的预测，但随后也鼓励它们做出不同的次佳、第三佳和最佳预测。合作显然与前面的原则相反，鼓励条件概率pi相似（尽管使用不同的度量）也可以通过允许网络合作进行更好的学习来提高预测质量。我们的实验表明，这样的原则可能是有效的，但它似乎是最有用的训练网络的数量很小，这表明，需要找到合作和多样性之间的权衡。具体来说，我们的实验表明，使用负余弦-换句话说，（6）的相反-是无效的。然而，诸如对称化KL散度的惩罚结果提供了期望的效果：1φ（p∈i，p∈j）=2（KL（p∈i||pj）+KL（pj||pi））。（七）通过使用这种惩罚，我们成功地获得了更稳定、更快的训练，从而使单个网络的性能更好，但也可能令人惊讶地获得了更好的整体。不幸的是，我们还观察到，由于个体成员变得过于相似，因此集成的增益随着集成中网络的数量而减少。稳健与合作。考虑到用前两种惩罚进行的实验，合作与多样性之间的权衡似乎对应于两种制度（低与低）。大量网络）。这促使我们开发一种旨在实现最佳权衡的方法当考虑合作惩罚（7）时，我们试图通过几种额外的方法来增加预测的多样性。i）我们在每次训练迭代时随机从增强器中删除一些网络，这导致网络在不同的数据流上学习，降低了知识传播的速度。ii）我们在每个网络中引入Dropout以增加随机性。iii）我们为每个网络提供相同图像的不同（裁剪、颜色）变换，这使得集合对输入图像变换更鲁棒。总的来说，这种策略在大多数情况下都表现最好（见图2）。3.4. 集合蒸馏与大多数集成方法一样，我们的集成策略在训练时引入了显著的计算开销。为了消除测试时的开销，我们使用知识蒸馏的变体[14]将集合压缩到单个网络fw中。给定元训练数据集Db，我们考虑以下关于示例（x，y）的成本函数：（x，y）=（1−α）·..Σ。 ΣΣ选择预测（见图1）。当网络的数量-α·T2·1k=1σθk，σfw（x）不、（8）是很大的，如实验部分所示。它通常恶化了单个分类器的平均性能，但使集成预测更准确。其中，k是跨中心py，ey是真标签y第二项用参数T进行蒸馏（见[14]）。它鼓励单一模型fw3728(a) mini-ImageNet 5张照片（b）CUB 5张照片图2：不同集合策略（每种颜色一个）对于不同数量的网络的准确性。实线给出了聚合预测后的集合精度来自集合的单个模型的平均性能用虚线绘制。最好用彩色观看。类似于集合的平均输出。在我们的实验中，我们能够获得一个性能相对接近于系综的模型（见第4节）。建模分发外行为。当当对数据集Db执行蒸馏时，网络fw模仿特定数据分布上的系综的行为但是，在测试时会引入新的类别因此，我们还尝试了蒸馏，通过使用额外的unnannotated数据，这会产生稍微好一点的性能。4. 实验我们现在提出的实验研究的效果，合作和多样性的集成方法，并开始与实验和实施细节。4.1. 实验装置数据集。我们使用来自原始ImageNet [28]数据集和Caltech-UCSD Birds （ CUB ） 200- 2011 [34] 的迷你ImageNet [24]和分层Mini-ImageNet由100个类别组成，其中64个用于训练，16个用于验证，20个用于测试，每个类别包含600张图像。分层-ImageNet也是ImageNet的一个子集，包括351个用于训练的类，97个用于验证的类和160个用于测试的类，总共有779，165个图像。选择分割使得训练类与测试结果有很大的不同，这与迷你ImageNet不同。CUB数据集包含200多种鸟类的11，788张图像。我们采用[35]中的训练、验证和测试分割，最初是通过将所有200个物种随机分割为100个用于训练，50个用于验证，50个用于测试而创建的。评价在少样本分类中，测试集用于对N个5向分类问题进行采样，其中仅k每一类别都提供了实例供培训之用，并提供了15个实例供评估之用。我们遵循[9，11，22，23，24]并测试k=1和5且N被设置为1000时的算法。每次，类和相应的训练/测试示例被随机采样。对于我们所有的实验，我们报告的平均准确率（%）超过1000个任务和95%的置信区间。实作详细数据。对于所有实验，我们使用Adam优化器[15]，初始学习率为10- 4，当连续p个时期没有观察到验证准确性的提高时，在训练期间将其降低10倍对于mini-ImageNet，我们使用p=10，对于CUB数据集使用20当将一个集合提取到一个网络中时，p被加倍。我们在训练过程中使用随机裁剪和颜色增强，以及参数λ=5·10−4的权重衰减。所有实验都使用ResNet18架构进行[13]，该架构允许我们在单个GPU上训练20个网络的集合然后将输入图像重新缩放为224×224的大小，并以大小为16的小批量通过在验证集上运行5次测试评估来计算验证准确度在元测试阶段，我们从图像中提取大小为224×224的中心作物，并将它们馈送到特征提取器。测试时不使用其他预处理当构建平均质心分类器时，（3）中的距离d被计算为负余弦相似度[31]，其被因子10重新缩放。为一公平比较，我们有也评价en-由 ResNet18 [13] （输入图像大小为 84×84 ）和WideResNet28 [37]（输入大小为80×80）组成的集合。所有详细信息见附录。出于再现性目的，我们的实现将在http://thoth.inrialpes.fr/research/fewshot_ensemble/上提供。37294.2. 少数镜头分类在本节中，我们研究了具有鼓励合作或多样性的成对交互项的集成训练的效果。为此，我们分析了集合的大小与它们在迷你ImageNet和CUB数据集上的1次和5次分类性能之间的联系。详细介绍三种策略。当模型被联合训练时，数据流在所有网络中共享，并且权重更新同时发生。这是通过将所有模型放置在同一GPU上并优化损失来实现的（5）。当训练一个不同的集合时，我们使用余弦函数（6），并在测试值（10i，i = −2，. . . ，2）对于n =5和n = 10网络。然后，对于其他n值保留该值。为了加强网络之间的合作，我们使用对称化的KL函数（7）并以相同的方式选择参数γ=10最后，用合作关系惩罚和相同的参数γ训练鲁棒集成策略，但在最后一层之前使用概率为0.1的Dropout;在每次迭代时，每个网络以概率0.2从系综中丢弃;不同的网络接收相同图像的不同变换，即，不同的随机裁剪和颜色增强。结果附录中的表1和表A1总结了使用我们的策略训练的集成的少镜头分类准确率，并与基本集成进行了比较。在mini-ImageNet数据集上，1次和5次拍摄分类的结果合作训练允许较小的合奏（n≤5）表现得更好，这导致合奏成员的个人准确性更高，如图2所示。然而，当n≥10时，合作的有效性较低，而多样性策略则受益于较大的n。从图2中可以看出，集合中的单个成员变得更差，但集合精度大幅提高。最后，鲁棒策略似乎在几乎所有设置中对所有nCUB数据集的情况类似，尽管我们注意到鲁棒集成与n=20的多样性策略类似。4.3. 提取合奏我们提取所有规模的鲁棒集成来研究随着集成规模的增长知识的可转移性。为此，我们使用元训练数据集并使用参数T=10和α=0优化损失（8）。8.对于使用外部数据的策略，我们在每次迭代时随机添加来自COCO [18]数据集的8个图像（没有注释）到来自元训练数据的16个注释样本中。这些图像仅对损失的蒸馏部分有贡献（8）。附录的表1和表A1分别显示了mini-ImageNet和CUB数据集的模型精度。对于mini-ImageNet上的5次分类，集成与其提取版本之间的差异相当低（约1%），而添加额外的非注释数据有助于缩小这一差距。令人惊讶的是，提取模型的1次分类精度略高于其相应的完整集合。在CUB数据集上，蒸馏模型在n=5之后停止改进，即使完整集合的性能保持增长。这似乎表明单个网络的容量可能已经达到，这表明在这里使用更复杂的与这样的假设一致，添加额外的数据并不像迷你ImageNet那样有用，很可能是因为COCO和CUB的数据分布更不同。在表2，3中，我们还将我们的蒸馏网络的性能与文献中的其他基线进行了比较，包括当前最先进的元学习方法，表明我们的方法在迷你ImageNet [24]和分层ImageNet [25]数据集上表现得更好。4.4. 关系惩罚研究存在许多可能的方式来对系综的成员之间的关系建模。在本小节中，我们将研究和讨论这些特殊的选择。关系函数的输入。正如 [14] 所指出的，网络的softmax层获得的类概率似乎携带了大量信息，并且对蒸馏很有用。然而，在元训练之后，这样的概率通常接近于具有与地面实况标签相关联的主导值的二进制向量。为了使较小的值更明显，蒸馏使用参数T，如（8）中所示给定由网络计算的这样一个类概率，我们实验了这样一种策略，该策略包括引入新的概率p∈=σ（p/T），其中强调了非地面真值的约束。然而，当在我们的分散（6）或合作（7）惩罚中使用时，我们没有看到比基本集合方法的任何改进。相反，我们发现，如第3.3节所述，在不成为地面真值标签的条件下计算类概率会表现得更好。这在下面的实验中用两个大小为n=5的网络集合来说明。我们在第一个中的全概率向量上强制相似性，在T=10时使用softmax计算[1]，并在第二个中使用条件非地面真实概率，如第3.3节所定义。当使用合作训练公式时，在MiniImageNet上测试时，第二种策略的表现比第一种策略好1%左右（79.79% vs 80.60%）。也有人提出了类似的意见使用多样性标准。相比之下，没有交互作用的基本增强方法实现了约80%。37305次射击系综类型1 2 3 5 10 20独立77.28 ±0.4678.27 ±0.4579.38 ±0.4380.02 ±0.4380.30 ±0.4380.57 ±0.42多样性77.28 ±0.4678.34 ±0.4679.18 ±0.4379.89 ±0.4380.82 ±0.4281.18 ±0.42合作77.28 ±0.4678.67 ±0.4680.20 ±0.4280.60 ±0.4380.72 ±0.4280.80 ±0.42鲁棒77.28 ±0.4678.71 ±0.4580.26 ±0.4381.00 ±0.4281.22 ±0.4381.59 ±0.42蒸馏合奏鲁伯-迪斯特−79.44 ±0.4479.84 ±0.4480.01 ±0.4280.25 ±0.4480.63 ±0.42鲁棒-dist++−79.16 ±0.4680.00 ±0.4480.25 ±0.4280.35 ±0.4481.19 ±0.43单次拍摄系综类型1 2 3 5 10 20独立58.71 ±0.6260.04 ±0.6060.83 ±0.6361.34 ±0.6161.93 ±0.6162.06 ±0.61多样性58.71 ±0.6359.95 ±0.6161.27 ±0.6261.43 ±0.6162.23 ±0.6162.47 ±0.62合作58.71 ±0.6260.20 ±0.6161.46 ±0.6161.61 ±0.6162.06 ±0.6162.12 ±0.62鲁棒58.71 ±0.6260.91 ±0.6262.36 ±0.6062.70 ±0.6162.97 ±0.6263.95 ±0.61蒸馏合奏鲁伯-迪斯特−62.33 ±0.6262.64 ±0.6063.14 ±0.6163.01 ±0.6263.06 ±0.61鲁棒-dist++−62.07 ±0.6262.81 ±0.6063.39 ±0.6163.20 ±0.6263.73 ±0.62表1：mini-ImageNet上的少镜头分类精度。第一列给出策略，最上面一行表示系综中网络的数量N。在这里，dist意味着一个集合被提取到一个网络中，而'++'表示额外的未注释图像被用于提取。我们在mini-ImageNet-test上进行了1000次独立实验，并以95%的置信区间报告平均值。所有网络都在mini-ImageNet训练集上训练。方法输入尺寸网络5-shot 1-shot方法TADAM [22]LEO [29]平均质心（一个网络）鲁棒20-dist（我们的）鲁棒20全输入尺寸网络5拍1拍84 ResNet81.92±0.3062.13±0.3180WideResNet 81.44 ± 0.1266.33 ± 0.09224ResNet83.89 ± 0.3368.33 ± 0.32224 ResNet85.43±0.2170.44±0.32224ResNet86.49 ± 0.2271.71 ± 0.31表3：在1次和5次分层ImageNet上将蒸馏的集合与其他方法进行比较[25]。为了评估我们的方法，我们在分层ImageNet测试上进行了5000次独立实验，并报告了95%置信区间的平均表2：在1-shot和5-shot mini ImageNet上比较蒸馏集成与其他方法。最后两列显示了1次和5次学习任务的准确性。为了评估我们的方法，我们在MiniImageNet测试上进行了1000次独立实验，并报告了平均值和95%置信区间。这里，“++”表示使用额外的未注释图像来执行蒸馏。最后一个模型是一个完整的整体，不应该直接与表中的其他部分进行比较。选择关系函数。原则上，任何相似性度量都可以用来设计惩罚激励，老龄化合作在这里，我们表明，事实上，选择正确的标准比较概率向量（余弦相似性，L2距离，对称KL发散），是至关重要的，这取决于所需的效果（合作或多样性）。在表4中，我们对MiniImageNet数据集上的n=5个网络的集合进行了这样的比较，用于5次分类任务，当将上述函数插入公式5中时，具有特定的符号。选择每个实验的参数γ，使得验证集的性能最大化。当寻找多样性时，余弦相似性的表现略好于负L2距离，尽管TADAM [22]84ResNet76.70 ±0.3058.50 ±0.30[11]第十一话224ResNet73.00 ±0.6456.20 ±0.86线性分类器[5]224ResNet74.27 ±0.6351.75 ±0.80余弦分类器[5]224ResNet75.68 ±0.6351.87 ±0.77PPA [23]80WideResNet73.74 ±0.1959.60 ±0.41LEO [29]80WideResNet77.59 0.12±0.1261.76 ±0.08[35]第三十五话80WideResNet78.32 0.16±0.1661.72 ±0.11Robust 20-dist++（我们的）224ResNet81.19 ±0.4363.73 ±0.62Robust 20-dist++（我们的）84ResNet75.62 ±0.4859.48 ±0.62Robust 20-dist++（我们的）80WideResNet81.17 ±0.4363.28 ±0.623731目的（符号）L2-cos KLsim合作（+）80.14 ±0.4380.29 ±0.4480.72 ±0.42多样性（-）80.54 ±0.4480.82 ±0.4279.81 ±0.43表4：评估mini-Imagenet5-shot上的不同关系标准第一行指示哪个函数被用作关系标准，第一列指示函数被用于哪个目的以及相应的符号.为了评估我们的方法，我们进行了1000个独立的实验，CUB测试和报告的平均准确度与 95% 的置信区间。所有集合都在 mini-ImageNet-train上训练。精度在误差条内。使用具有不同γ的负KLsim与独立训练不可区分，或者对于较大的γ值会损害性能（表中未报告）。在合作方面，正KL相似度比L2距离和负余弦相似度的结果更好。我们认为，这种行为是由于这些函数比较概率向量中的小值的方式的重要差异虽然负余弦或L2损失将严重惩罚最大差异，但KLsim集中在一个向量中接近0且第二个向量中更大的值。4.5. 域转移最后，我们评估集成方法的我们通过在迷你ImageNet训练集上对模型进行元训练，并在CUB测试集上对模型进行评估。下面的设置首先由[5]提出，旨在评估算法的性能，以适应训练和测试分布之间的差异很大的情况。为了与原始工作中报告的结果进行比较，我们采用了他们的CUB测试分裂。表5将我们的结果与[5]中列出的结果进行了比较。我们可以看到，无论是完整的鲁棒集成还是它的蒸馏版本都不能比在冻结网络上训练线性分类器做得更好。然而，它明显优于基于距离的方法（由表中的余弦分类器表示）。然而，如果使用不同的合奏，它会达到最佳的精度。这并不奇怪，并强调了在集成弱分类器时具有不同模型的重要性。5. 结论在本文中，我们表明，基于距离的分类器的几杆学习遭受高方差，这可以显着减少使用集成的分类器。与传统的集成范式不同，在传统的集成范式中，各种随机化和数据增强技术鼓励预测的多样性，我们表明，鼓励网络在训练过程中进行合作也很重要。表5：在域移位下的5次射击分类准确度。最后两个模型是完整的集合，不应该直接与表中的其他部分进行比较。我们对[5]中的CUB检验进行了1000次独立实验，并在此报告了平均值和置信区间。所有的集合都是在迷你ImageNet上训练的。通过蒸馏获得的单个网络的整体性能虽然这样的结果可能听起来对元学习方法是负面的，但它可能只是意味着在这一领域还有很多工作要做，才能真正学会如何学习或适应。确认这项工作得到了ERC资助号714381（SOLARIS项目），ERC高级资助AL-LEGRO以及亚马逊和英特尔的资助。引用[1] Rohan Anil，Gabriel Pereyra，Alexandre Passos，RobertOr- mandi，George E Dahl，and Geoffrey E Hinton.大规模分布式神经网络的在线训练.在国际学习代表会议（ICLR），2018年。[2] AlbertoBietti ， Gre'goireMialon ， De XiongChen 和JulienMairal。正则化深度神经网络的内核视角。预印本arXiv：1810.00363，2019年。[3] 利奥·布莱曼模型选择中不稳定性与稳定性的启发式。The Annals of Statistics，24（6）：2350-2383，1996.[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年。[5] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangWang，and Jia-Bin Huang.近距离观察少数镜头分类。在2019年国际学习代表会议（ICLR）上[6] 托马斯·G·迪特里希。机器学习中的集成方法。多分类器系统国际研讨会，2000年。方法mini-ImageNet →CUBMatchingNet [33]53.07±0.74MAML [9]51.34±0.72ProtoNet [31]62.02±0.70线性分类器[5]65.57±0.70余弦分类器[5]62.04±0.76Robust 20-dist++（我们的）64.23±0.58Robust 20 Full（我们的）65.04±0.573732[7] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在2017年国际计算机视觉会议（ICCV）的会议记录中[8] Nikita Dvornik，Konstantin Shmelkov，Julien Mairal，and Cordelia Schmid. Blitznet：用于场景理解的实时深度网络。在2017年国际计算机视觉会议（ICCV）的会议记录中[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。2017年，国际机器学习会议（ICML）。[10] 杰罗姆·弗里德曼特雷弗·哈斯蒂罗伯特·提布希拉尼。统计学习的要素，第1卷。2001年[11] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在 IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[12] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在国际学习代表会议（ICLR），2018年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[15] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的ImageNet分类。神经信息处理系统进展（NIPS），2012年。[17] Yann LeCun、Bernhard Boser、John S Denker、DonnieHenderson 、 Richard E Howard 、 Wayne Hubbard 和Lawrence D Jackel。应用于手写体邮政编码识别的反向传播。神经计算，1989年。[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。在欧洲计算机视觉会议（ECCV）的会议记录中，2014年。[19] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. SSD：单次触发多盒探测器。欧洲计算机视觉会议（ECCV），2016年。[20] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2015年。[21] Thomas Mensink，Jakob Verbeek，Florent Perronnin，and Gabriela Csurka.基于距离的图像分类：以接近零的成本生成新的类。IEEE Transactions on Pattern Analysisand Machine Intelligence（PAMI），35（11）：2624[22] 鲍里斯·奥列什金、帕·罗德·雷格斯·洛佩斯和艾尔·亚历山大·拉科斯特.Tadam：Task Dependent Adaptive Metricfor Improved Few-Shot Learning。神经信息处理系统进展（NeurIPS），2018年。[23] Siyuan Qiao，Chenxi Liu，Wei Shen，and Alan L Yuille.通过从激活预测参数的少拍图像识别在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[24]

下载后可阅读完整内容，剩余1页未读，立即下载