少镜头图像分类：预训练特征提取器与简单分类器的合奏

110 浏览量更新于2023-10-15 收藏 530KB PDF 举报

迁移学习

简单分类器

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9445DDDDDDDD少镜头图像分类：只需使用预训练特征提取器库和简单分类器Arkabandhu Chowdhury1，Mingchao Jiang1，Swarat Chaudhuri2，and Chris Jermaine11莱斯大学2德克萨斯大学奥斯汀分校摘要最近的论文已经表明，迁移学习可以优于用于少拍摄图像分类的复杂元学习方法。我们把这个假设的逻辑结论，并建议使用一个高质量的，预先训练的特征提取器的合奏少拍图像分类。我们的实验表明，一个库的预训练的特征提取器结合一个简单的前馈网络学习与L2正则化可以是一个很好的选择，解决跨域少拍图像分类。我们的实验结果表明，这种简单的方法远远优于几个成熟的元学习算法。1. 介绍最近有很多兴趣在少数拍摄图像分类[5，15，17，6，7，12，19，16]。各种论文探讨了不同的配方的问题，但在一个一般的配方，我们给出了一个数据集trn（图像，标签）对采样分布Ptrn。我们的目标是设计一种方法，使用trn来学习函数f，它本身就是一个少数学习者。少拍学习器f将新的标记数据集few作为输入，所述新的标记数据集few由来自新的分布PfewPtrn的一组样本组成。 F然后返回分类函数g，其目标在于对来自分布P_few的样本进行分类。学习f的过程在文献中通常被称为Meta学习当few很小时，学习对来自Pfew的样本进行分类是一个在最困难的和普遍适用的变体的少拍问题，我们认为在本文中-P少有没有已知的关系，Ptrn（这是因此，元学习过程不能访问关于最终应用的信息。关于Pfew，我们所拥有的唯一信息是集合Dfew，这是只有在构造g时才可用。例如，我们不能选择任何超参数来控制g的学习，使用不是从D中提取的信息。我们的目标是设计一个学习器f，它可以很好地工作，开箱即用，几乎可以在任何新的分布P上工作。我们认为，在这种情况下，开发新的元学习方法来从头开始学习ftrn可以不是最有成效的研究方向。因为在元学习期间没有关于Pfew的信息可用，所以选择具有许多不同类型的图像的trn是有意义的，因此它可能包含一些具有与Pfew产生的图像相似的特征的图像，无论这种分布采取何种形式。幸运的是，在计算机图像分类中，标准基准数据集现在是ILSVRC2012，这是完整ImageNet的1000类版本[22]。ILSVRC2012由各种各样的图像组成，并且对于设计和训练新图像分类器的研究人员来说，发布在ILSVRC2012上训练的分类器已经成为相当标准的。这些已发表的人工制品代表了研究人员数千小时的工作，他们精通从深度CNN中榨取每一个最后百分比的准确性的“黑色艺术”。与其开发新的元学习方法，不如简单地修复trn= ILSVRC2012，并尝试通过使用这些CNN作为少数学习者f的基础，来杠杆化在ILSVRC2012上学习深度CNN的所有努力。由于其他更广泛和更困难的基准数据集变得普遍（例如完整的20，000+类ImageNet），使用该数据集训练的高质量分类器可能是首选。我们首先表明，可以使用通过ILSVRC2012学习的许多已发表的高质量深度CNN中的任何一个，作为显著优于最先进方法的少量学习器的基础。做到这一点的方法简单得令人尴尬：从深度CNN的顶部删除分类器，固定剩余深度特征提取器的权重，并用使用L2正则化训练的简单MLP替换分类器我们称这些为9446D----它们基于标准的、公开的特征提取器。接下来，我们问：如果可以使用已发布的深度CNN为了产生一个最先进的、少拍的学习器，我们是否可以通过将许多高质量的、深度CNN组合在一起来产生一个甚至更高质量的少拍学习器？我们称这样的学习者为然后，我们注意到，其他研究人员已经提出了重用高质量，预训练的特征提取器进行少量图像分类的实用性。特别是，“Big Transfer”论文[ 13 ]的作者认为，在巨大的数据集（JFT-300 M数据集[ 26 ]，具有3亿张图像）上训练的非常大的网络可以支持非常准确的基于迁移学习的不幸的是，作者没有公开他们最大的JFT-300 M训练的网络，所以我们不能直接用它进行实验然而，他们已经公开了他们的有趣的是，我们发现“大”可能不如“多样”重要：由许多不同的高质量ILSVRC2012训练的深度CNN组成的单个少量分类器似乎是比构建在任何Google训练的CNN之上的单个少量分类器更好的选择。最后，我们研究了为什么一个完整的图书馆学习效果如此之好。我们假设有两个首先，拥有大量的特征（>10，000）对于少数学习来说似乎不是问题。其次，多样性似乎有优势，因为不同的CNN似乎对不同的任务有用。2. 基于库的学习者2.1. 基于图书馆的学习者设计我们首先要问：如果我们避开先进的Meta学习方法，而是简单地使用从库中提取的非常高质量的深度CNN，在ILSVRC2012数据集上进行训练，作为少数分类器的基础，会怎么样？具体来说，我们从预先训练的网络库中获得了一个高质量的、预先训练的深度CNN;我们采用CNN原样，但移除用于分类的最顶层。这将产生一个函数，它接受一个图像，并返回一个嵌入。然后，我们使用该嵌入以基本方式构建分类器：我们将嵌入馈送到具有单个隐藏层的多层感知器中;使用softmax来产生最终分类。给出了一个小样本分类问题，两个权矩阵学习CEW1和W2;第一个将嵌入连接到隐藏层，第二个将隐藏层连接到softmax。为了防止训练期间的过拟合，在权重矩阵上使用简单的L2正则化。2.2. 评价为了评估这个非常简单的几次学习器，我们首先确定了九个高质量的深度CNN，并发表了在ILSVRC2012上培训的模型：ResNet18、ResNet34、ResNet50、ResNet101、ResNet152（所有ResNet实现都来自原始 ResNet 设计者 [8] ）、 DenseNet121 、DenseNet161 、 DenseNet169 和 DenseNet201 （所有DenseNet实现也来自原始设计者[10]）。我们的目标是产生一个我们非常小心，不允许在测试数据域上进行验证或参数调优，因此需要事先选择所有参数和设置。如果有可能构建这样一个少量的学习器，它将是最广泛适用的：简单地为每个类生成一些训练图像，应用于学习者。因此，我们进行了广泛的超参数搜索，仅使用Caltech-UCSD Birds 200集[32]作为验证数据集，然后在我们所有的实验中使用来自该数据集的最佳超参数。考虑的超参数是学习率，训练时期的数量，正则化惩罚权重，MLP隐藏层中的神经元数量，以及是否完全丢弃隐藏层。使用单独的超参数搜索进行5向、20向和40路分类。然后，我们在八个不同的数据集上测试了得到的少量学习者-每个深度CNN一个学习者，FGVC-Aircraft[18]， FC 100 [21] ， Omniglot [14] ，交通标志 [9]，FGCVx Fungi [24] ， Quick Draw [11] 和 VGG Flower[20]。为了评估数据集上的少量学习者，对于由于这是我们对5、20、40中的m和1、5中的n进行了该评估。由于篇幅限制，完整的结果作为补充材料，我们在这里只给出一个概要（表2和表3）。在表1中，我们示出了针对8个数据集中的每一个，针对{5，20，40}中的m和n=1，在9个学习器中实现的最佳和最差准确度。为了让读者了解这种准确性与最新技术水平的比较，我们将这些结果与文献中的一些少数学习者进行了比较。我们比较了基线和基线++ [1]，MAML [6]，Match-ingNet [30]，ProtoNet [25]，RelationNet [28]，Meta-transfer [27]，FEAT [33]和SUR [4]。当必须为这些方法中的任何一种选择深度CNN分类器时，我们使用ResNet18。对于需要预训练CNN的方法（FEAT，Meta-transfer和SUR），我们使用ResNet设计师训练的ResNet 18[8]。为了避免读者认为我们选择了最差的选项（ResNet 18），我们指出，在基于库的少镜头学习器中，在5路5镜头问题上，ResNet 18为两个数据集提供了所有基于ResNet的学习器中最好的准确性（参见Ta-9447基线++MAMLMatchingNetProtoNetRelationNet元转移FEATSUR基于最差最佳图书馆基础40.9±0.733.1±0.659.8±0.833.5±0.662.0±0.890.6±0.459.9±0.779.6±0.854.1± 1.7 68.4± 0.783.1±0.741.5±0.759.4±0.882.6±0.789.7±0.556.9±0.854.7±0.767.4±0.973.7±0.848.3± 1.8 77.5± 0.878.0±0.737.5±0.764.7±0.895.5±0.362.9±0.775.0±0.855.7±1.753.1±1.870.4±0.874.9±0.774.2±0.886.7±0.664.8±0.846.2±0.746.2±0.975.7±0.891.2±0.493.5±0.460.0±0.770.5±0.768.6±0.858.7± 1.8 71.9± 0.780.6±0.745.2±0.860.5±0.867.2±1.085.3±0.798.7±0.180.0±0.870.7±0.759.6±0.770.6±0.870.5±0.866.1±0.860.0±1.867.3±1.777.7±0.773.5±0.769.9±0.790.5±0.690.8±0.592.1±0.461.0±0.9RN3471.9±0.8DN12194.0±0.4RN15279.3±0.6RN1878.8±0.7RN15277.1±0.8RN3477.8±0.7RN15295.3±0.4RN3466.0±0.9DN161 DN152 DN201 DN161 DN201 DN121 DN20180.0±0.696.7±0.283.4±0.685.3±0.779.1±0.781.8±0.696.8±0.3产品编号：DN161}−{最糟糕20.1±0.327.8±0.456.2±0.538.0±0.429.7 0.3±0.4 31.7± 0.4RN101 DN121 RN101 RN18 RN101 RN10133.2±0.5RN10162.4±0.5RN101最糟糕14.2±0.219.6±0.247.3±0.328.9±0.222.223.7± 0.3RN34RN18 RN152 RN18 RN15226.4±0.3RN15253.1±0.3RN34飞机FC100 Omniglot纹理交通真菌快速绘制VGG花5路1次拍摄最糟糕40.9±0.950.8±0.9RN18 DN12177.2±0.9RN15259.1±0.955.5±0.853.0±0.9DN169 DN152 DN20157.3±0.9RN10179.7±0.8RN1820路，1次拍摄40路，1次拍摄表1：使用库深度CNN进行少量学习获得的准确度飞机FC100Omniglot纹理交通真菌快速绘制VGG花基线47.6±0.766.9±0.796.5±0.262.5±0.782.1±0.757.6±1.775.6±0.790.9±0.5表2：在5路5次问题上，将竞争性方法与简单的基于库的学习器进行ble4）。此外，这些有竞争力的方法训练起来往往非常昂贵-例如，MAML需要在梯度下降上运行梯度下降-对于这种方法，较浅的ResNet 18是比更深模型更合理的选择（即使使用ResNet 18，由于内存限制，我们也无法成功训练一阶MAML用于5次40路分类）。对于竞争性方法（除SUR之外），我们遵循与用于基于库的少数镜头分类器相同的程序：在ILSVRC2012数据集上进行任何必要的训练，并且使用Caltech-UCSD Birds 200数据集进行超参数验证。然后使用每种方法，而不进一步调整剩余的八个数据集。根据数据集合 X ，我们使用在 Omniglot 、 Aircraft 、 Birds 、Texture、Quickdraw、Flowers、Fungi和ILSVRCX中的数据集上训练的特征提取器。交通标志和FC100数据集仅保留用于测试。这些竞争性方法中的每一种与基于库的学习器在5路5次学习问题上的最佳和最差表现的比较在表2中示出; 20路5次学习的比较在表3中示出。补充材料中有一套更完整的结果。2.3. 讨论这些结果有几个关键的结论。最好的基于图书馆的学习者总是击败每一个其他测试方法，只有SUR测试时例外。最好46.2±1.061.2±0.986.5±0.765.1±0.966.6±0.956.6±0.962.8±0.983.5±0.8产品编号：DN161RN152DN121RN101产品型号：DN201DN121RN18产品编号：DN161最好24.3±0.336.4±0.469.1±0.542.5±0.438.5±0.433.9±0.539.5± 0.570.0±0.5产品编号：DN161RN152DN121RN152产品型号：DN201产品编号：DN161产品型号：DN201产品编号：DN161最好17.4±0.227.2±0.361.6±0.333.2±0.329.5±0.226.8±0.331.2±0.362.8±0.3产品编号：DN161RN152产品型号：DN201DN152产品型号：DN201产品编号：DN161产品型号：DN201产品编号：DN1619448基线++MAMLMatchingNetProtoNetRelationNet元转移FEATSUR基于最差最佳图书馆基础18.4±0.311.8±0.233.8±0.311.9±0.225.7±0.376.2±0.234.8±0.355.3±0.428.2± 0.8 45.5± 0.464.0±0.422.1±0.331.6±0.346.5±0.464.6±0.621.9±0.331.6±0.327.0±0.346.5±0.417.3± 0.7 30.7± 0.332.9±0.317.1±0.338.9±0.488.1±0.238.9±0.346.9±0.428.1±0.833.0±0.941.2±0.433.0±0.953.7±0.570.9±0.439.1±0.419.1±0.323.1±0.548.0±0.479.7±0.375.3±0.432.1±0.345.5±0.441.9±0.427.8± 0.8 47.5± 0.462.5±0.421.8±0.334.4±0.542.9±0.566.4±0.696.3±0.152.0±0.447.5±0.635.5±0.446.7±0.443.4±0.638.6±0.534.4±0.943.9±0.852.6±0.454.2±0.447.0±0.674.0±0.477.1±0.480.5±0.537.5±0.4RN1847.1±0.4RN1884.3±0.3RN10158.7±0.4RN1855.9±0.4RN15256.1±0.5RN3457.2±0.4RN10186.8±0.3RN10144.6±0.4DN161 DN152 DN201 DN161 DN201 DN16158.8±0.492.0±0.265.1±0.466.0±0.460.8±0.563.9±0.491.6±0.2产品编号：DN161飞机FC100Omniglot纹理交通真菌快速绘制VGG花基线24.2±0.340.0±0.487.5±0.337.0±0.359.9±0.432.5±0.852.8±0.476.7±0.4表3：在20路5次问题上，将竞争性方法与基于库的简单学习器进行在Omniglot数据集上运行。对于其他数据集，差距只会随着方式数量的增加而增加。事实上，对于20路问题，最差的基于库的学习者总是击败所有其他测试方法（除了Om- niglot上的SUR）。这个差距可能相当大，特别是在20路问题上最好的基于非迁移的少量学习器（MAML，Proto Nets，Relation Nets和MatchingNets属于这一类）甚至比最差的基于库的学习器还要差：Proto Nets与基于纹理上RestNet18的分类器的准确率为59%，关系网与基于ResNet101的Quick Draw分类器的准确率为57%。在文献中已经提出了大量的非基于转移的方法（特别是大量关注于改进MAML [6，7，12，19，16]），但是MAML和基于库的分类器之间的差距非常大。我们还注意到，在其余的非文库方法中，Meta转移、基线和FEAT通常是最好的。我们注意到Meta-transfer、Baseline和FEAT使用预先训练的ResNet 18而不进行修改。这倾向于支持本文核心的假设：从专家训练的最先进的特征提取器开始，可能是少数学习中最重要的决定。3. 一个简单的全库分类器3.1. 少量注射质量的极端变化不存在基于库的分类器中的哪一个倾向于表现最好以及哪一个倾向于表现最差的明确模式。考虑所有基于库的少镜头学习器的完整结果集，用于5路，5镜头问题，如表4所示。对于“开箱即用”的使用，其中没有可用的验证数据，很难看到可能有助于挑选特定的基于库的分类器的任何类型的模式。DenseNet的一些变化-时间做得比ResNet好（例如，在飞机数据集上），但有时它们做得比ResNet变化差（例如，在FC100数据集上）。在一个家庭中，不清楚使用哪个基于图书馆的CNN。如前所述，ResNet18为其中两个数据集提供了最好的基于ResNet的少量学习器，但它形成了另外两个数据集上最差的基于ResNet的学习器的基础3.2. 结合图书馆为基础的学习者考虑到使用库深度CNN在各种数据集上获得的准确性相对较高，很自然地会问：是否有可能使用所有这些库特征提取器相互配合，以开发一个少数镜头学习器，该学习器始终与最好的库CNN一样好（甚至更好）？考虑到在少量学习中缺乏训练数据，人们可能会考虑的第一个想法是一些简单的集成变体：给定一个少量学习问题，只需在每个深度CNN之上训练一个单独的神经网络，然后在分类时使用多数投票（硬集成），或者我们可以在分类时平均类权重（软集成）。另一种选择是将所有库深度CNN放在一起，并将它们视为单个特征提取器。以这种方式使用本文中迄今为止考虑的九个模型然后，我们在此基础上使用L2正则化训练MLP。再次使用加州理工学院- UCSD鸟类200数据集进行验证，我们执行超参数搜索，以建立一个5路，20路和40路分类问题的几杆学习器。我们在八个测试集上测试了这两个选项，并在表5中给出了结果的概要。我们发现，在所有24个测试用例（8个数据集，3个分类任务）中，最好的单个学习者永远无法击败使用所有9个深度CNN的最佳方法。所有测试9449DenseNet16166.0±0.973.7± 0.796.6±0.3DenseNet16963.6±0.973.5±0.795.0±0.382.3±0.683.4±0.684.6±0.783.9±0.778.4±0.878.4±0.881.3±0.680.6±0.796.8±0.396.1±0.3ResNet18 61.2± 0.972.1±0.895.4±0.3DenseNet20162.6±0.975.1±0.796.7±0.6ResNet34 61.0± 0.976.2±0.794.9±0.379.3±0.683.2±0.685.3±0.783.2±0.778.0±0.777.7±0.781.7±0.681.8±0.696.5±0.395.3±0.482.5±0.6ResNet50 62.3± 0.973.9±0.894.3±0.4ResNet101 62.4± 0.979.2±0.795.5±0.383.2±0.681.3±0.779.4±0.877.1±0.777.9±0.879.7±0.678.1±0.895.3±0.495.6±0.4ResNet152 61.7± 1.080.0±0.694.0± 0.483.0±0.682.8±0.678.8±0.781.3±0.779.0±0.878.6±0.877.8±0.778.6±0.795.6±0.395.8±0.3DD飞机FC100Omniglot纹理交通真菌快速绘制VGG花DenseNet12164.7±0.971.9±0.896.7±0.382.1±0.685.0±0.779.1±0.781.3±0.796.0±0.4表4：基于库的少镜头学习者在5路5镜头问题上的完整结果方法在5向分类任务上具有相似的性能，尽管最好的单个学习者通常比其他方法稍差。在类别数较多的分类任务上，差异更为明显。对于20路和40路问题，两种基于集成的方法在准确性上有一个小但一致的下降，并且在所有九个深度CNN之上构建一个单一的网络显然是最好的这可能有些令人惊讶;对于40路问题，在Caltech-UCSDBirds 200数据集上的超参数搜索在隐层中具有1024个神经元的单个网络上解决;这意味着必须在仅仅200个图像上学习超过1400万个参数。显然，神经网络是大量过度参数化的，但获得的准确性是显著的，在两个数据集上具有超过90%的准确性。4. 数据与多样性：谁赢了？最后一节的结果清楚地表明，在高质量、深度CNN库之上学习的MLP可以成为一个优秀的这就留下了一个悬而未决的问题。当基于一个相当简单的，基于迁移的方法，这是更重要的，多样性或大小，当构建的几杆学习？也就是说，是将各种各样的深度CNN组合在一起更好，其中的每一个都在较小的trn上训练，还是将几个镜头的学习器基于已经在更大和更多样化的trn上训练的单个深度CNN更好？为了回答这个问题，我们将基于所有九个库深度CNN构建的单个MLP与基于高质量深度CNN构建的MLP进行比较，后者本身是基于更大的数据集构建的：完整的ImageNet数据集，包含超过20，000个类别。针对该数据集的高质量、公开可用的深度CNN非常罕见，但谷歌最近发布了一组在完整ImageNet上训练的深度CNN，专门用于迁移学习[13]。我们考虑他们的三个深度 CNN 。每个都是一个 ResNet ： BiT-ResNet-101-3 （ “BiT”代表“BigTransfer”;“101-102 - 103”代表“BigTransfer”）3对于这些大转移模型中的每一个，我们使用Caltech-UCSD Birds数据集进行了完整的有趣的是，与在ILSVRC2012上训练的其他深度CNN（通常在使用约0.1的权重的验证集上表现最好）相比，Google模型倾向于使用更大的L2正则化参数权重（0.5到0.7）结果示于表6中。标题发现是单一模型利用九个ILSVRC2012训练的CNN的库是最好的模型。它并不总是在每个数据集上表现最好。事实上，在四个数据集（ FC100 ，Texture，Fungi和VGG Flower）上，至少有一个GoogleBig Transfer模型的表现优于由九个ILSVRC2012训练的CNN组成的单一模型。在每种情况下，模型之间的性能都是可比较的，除了VGG Flower数据集，其中最好的Big Transfer模型总是获得超过99%的准确性。然而，在其他数据集（飞机，Omniglot，交通标志和QuickDraw）上，组合模型的表现远远优于任何Big Transfer模型。差距往往很大，在40路任务中，组合模型的平均表现超过了最好的基于大转移的模型11%。同样有趣的是，虽然大转移模型通常优于ILSVRC2012训练的图书馆CNN，但这在数据集之间存在差异。例如，在飞机和Omniglot数据集上，即使是最好的ILSVRC2012训练库CNN也优于Big Transfer模型。所有这些加在一起似乎表明，在构建基于转移的少量学习器时，拥有一个大型的深度CNN库至少与访问在非常大的Dtrn上训练的CNN一样重要，而且可能更重要。9450硬合奏38.0± 0.3 50.2± 0.2 92.1± 0.1全库41.2 ± 0.351.8±0.293.2 ± 0.159.3± 0.2 62.7± 0.257.6±0.3软合奏39.0± 0.3 51.2± 0.3 92.5± 0.158.5± 0.2 59.6± 0.255.6±0.359.3±0.360.8±0.390.6±0.291.9±0.2最佳单一35.9± 0.2 48.2± 0.3 89.4± 0.259.0± 0.2 60.2± 0.256.5±0.355.4± 0.2 57.5± 0.252.1±0.360.1±0.355.5±0.391.1±0.288.9±0.2飞机FC100 Omniglot纹理交通真菌快速绘制VGG花5路，5杆全库68.9 ± 0.979.1 ± 0.897.5 ± 0.385.3 ± 0.685.8±0.781.2± 0.884.2±0.697.4± 0.3硬合奏67.8± 0.9 79.9± 0.7 97.8± 0.2 85.4± 0.5 85.2± 0.782.1±0.7 83.5± 0.6 97.7± 0.2软合奏68.4± 0.980.5±0.6 98.0±0.2 85.7±0.685.2± 0.782.0± 0.7 84.1± 0.597.9±0.2最佳单曲66.0± 0.9 80.0± 0.6 96.7± 0.2 83.4± 0.6 85.2± 0.779.1± 0.7 81.8± 0.6 96.8± 0.320路5发全库49.5 ± 0.461.6 ± 0.495.4 ± 0.268.5 ± 0.470.4±0.465.5± 0.569.4 ± 0.494.3± 0.2硬合奏46.6± 0.4 60.1± 0.4 94.5± 0.2 67.8± 0.4 67.8± 0.464.4± 0.4 67.9± 0.4 93.5± 0.2软合奏47.5± 0.4 60.7± 0.4 94.9± 0.2 68.2± 0.4 68.3± 0.464.4± 0.4 68.8± 0.4 93.7± 0.2最佳单曲44.6± 0.4 58.8± 0.4 92.0± 0.2 65.1± 0.4 66.0± 0.460.8± 0.5 63.9± 0.4 91.6± 0.240路，5发表5：使用所有九个文库CNN作为少量学习者的基础获得的准确度5. 为什么这样做的工作？5.1. 少量微调出奇地容易我们把注意力转向问：为什么使用一个完整的预训练特征提取器库似乎工作得这么好？一个原因是，使用预先训练的特征库进行微调似乎非常考虑下面的简单实验，旨在测试训练点的数量是否对学习的模型有很大影响。我们在所有八个基准数据集上选择了大量的40路问题，并为每个问题训练了两个分类器。两个分类器都使用由九个库特征提取器提供的所有13，984个然而，第一分类器被训练为单次分类器，并且第二分类器使用数据集中的所有可用数据来训练。我们的目标是看看学习的权重集在两个学习者之间是否有很强的对应关系;如果有，则证明训练点的数量具有相对较小的影响。请注意，在一个新- 对于具有由数百或数千个神经元组成的隐藏层的常规网络，可能存在大量具有相同质量的学习权重;实际上，简单地置换隐藏层中的神经元会导致功能相同但具有非常不同的权重矩阵的模型。因此，我们在两个分类器中都不使用隐藏层，而是直接在输出层上使用softmax，该输出层线性组合输入特征。单次和全数据分类器都是在没有正则化的情况下学习的。在八个基准数据集的每一个上，对于每个特征，我们取所有40个相关权重的L1范数具有该特征;这用作特征重要性的指示。我们计算了使用为1次和全数据分类器学习的模型这些相关性示于表7中。我们看到的是两组学习的权重之间的显著高度相关性;以上80%的相关性，在每一种情况下，除了交通标志数据集。然而，即使在交通标志数据集的情况下，也存在弱相关性（交通标志数据在其他方面也有点离群，正如我们随后将看到的那样）。这似乎表明存在每个类只有一个数据点的强信号，因为当使用整个数据集学习时，学习的权重没有太大差异这可能是全库少量学习器令人惊讶的准确性的一种解释当然，强相关性可能掩盖显著差异，并且更多数据确实产生显著差异（考虑表1中的单次精度与表2中的五次精度之间的但即使每个类一张图像似乎也能提供很多信息。5.2. 不同的问题使用不同的功能通过全库方法获得的准确性的另一个原因可能是不同的问题域似乎利用不同的特征集和不同的特征提取器。拥有一个大的库可以确保与任何任务相关的一些功能始终存在。为了研究这一点，我们在每个不同的数据集上构建了大量的40路训练任务，对于每个数据集，我们在使用深度CNN库获得的所有13，984个特征9451--飞机FC100 Omniglot纹理交通真菌QDraw花 5路，5杆全库68.9±0.979.1± 0.897.5 ± 0.3 85.3 ± 0.685.8±0.781.2± 0.884.2±0.697.4± 0.3BiT-ResNet-101-3 54.0± 1.1 78.6± 0.8 82.5± 1.2 82.0± 0.969.2±0.981.2±1.263.70.01±0.01BiT-ResNet-152-459.5 ± 1.080.9 ± 0.794.2 ± 0.585.4±0.673.3± 0.882.5±0.974.8± 0.899.7±0.1BiT-ResNet-50-1 61.9± 1.2 79.0± 0.8 87.2± 1.1 84.2± 0.675.6±1.082.5±0.871.5± 0.8 99.3± 0.220路5发全库49.5±0.461.6± 0.495.4±0.268.5± 0.470.4±0.465.5± 0.569.4±0.494.3± 0.2BiT-ResNet-101-3 35.8± 0.4 60.4± 0.4 87.8± 0.3 69.6± 0.451.1±0.468.4±0.557.0 0.4±0.4 99.3± 0.1BiT-ResNet-152-433.5 ± 0.463.4 ± 0.485.4 ± 0.470.9±0.449.2± 0.468.1±0.552.6 0.5±0.599.5±0.1BiT-ResNet-50-1 39.6± 0.4 60.9± 0.4 83.9± 0.4 66.4± 0.453.5±0.468.7±0.455.0± 0.4 99.1± 0.140路，5发全库41.2±0.351.8± 0.293.2±0.159.3± 0.262.7±0.257.6± 0.360.8±0.391.9± 0.2BiT-ResNet-101-324.6 ± 0.349.6 ± 0.256.4 ± 0.861.5±0.240.2± 0.260.3±0.328.9± 0.5 99.0± 0.1BiT-ResNet-152-4 25.4± 0.253.0±0.381.0± 0.3 58.6± 0.240.0±0.253.9±0.444.8 0.3±0.3 98.8± 0.1BiT-ResNet-50-1 33.0± 0.3 48.8± 0.3 84.6± 0.2 60.0± 0.246.9±0.259.2±0.348.3 0.3±0.399.0±0.1表6：比较利用九个ILSVRC2012训练的深度CNN的完整库的几次学习器与在完整ImageNet上训练的较大CNN。飞机鸟类FC100真菌Omniglot快速绘制纹理交通VGG花相关系数0.95 0.88 0.89 0.860.930.920.80 0.180.87表7：使用每类一个示例学习的权重与完整数据之间的相关性同样，我们计算与每个特征相关联的权重集的L1然而，这一次，对于每一个问题，我们考虑的特征，其规范是在前20%;这些可以被认为是对解决分类任务最重要的特征。对于每个（数据集，数据集）对，我们计算这些顶级特征集的平均Jaccard相似度。由于每个集合由20%的特征组成，如果选择的每个特征集合是完全随机的，则对于总共n个特征，我们将期望Jaccard相似度为0。04n=其甚至低于0。111，这将是在纯随机特征选择机制下预期的。人们可能会推测，数据集之间缺乏对应性是不同任务倾向于使用不同特征的假设的证据，这可以解释为什么使用整个深度CNN库进行少量学习是如此有效还请注意，在图2中，我们倾向于看到不同的深度CNN以非常不同的速率贡献这也说明，多样性是一个重要的...0的情况。04年4月. 2n+。2n−0。04ntant. 一般来说，DenseNets. 40 04=0。111.大于此值表示所选要素集正相关;小于此值表示负相关。结果见图1。对于九个CNN中的每一个，我们还计算了构建完整库分类器时每个CNN的前20%特征的分数这些百分比见图2。这两个图中的数据，以及前面的结果，讲述了一个一致的故事：在数据集之间被选为重要的特征集方面，数据集之间似乎没有什么图1中的最大Jaccard值小于0.5（在FC100和纹理之间观察到）。我们认为，这表明对应性相对较弱。交通标志数据集的平均Jaccard值为0。108跨越其它八个数据集，ResNets的功能，但这不是通用的，有很多变化。可能并非偶然的是，图2中从库CNN中选择特征显示出最大多样性的三个数据集（交通标志、快速绘制和Omniglot）是其中构建在所有九个库CNN之上的分类器与构建在单个基于“大转移”的深度CNN之上的少量分类器相比具有最大优势6. 相关工作虽然大多数关于少数学习的研究[31，21，23]都集中在开发用于学习少数学习者的新的和复杂的方法，但最近有一种新的方法。9452飞机鸟FC100真菌杂居快速绘制纹理交通标志VGG花顶部特征10.390.3990.3720.3140.2770.4310.1070.3690.3910.3820.4170.2910.2680.4130.1010.3870.3990.38210.3730.3350.3310.4850.1080.3420.3720.4170.37310.2870.2640.460.1010.4160.3140.2910.3350.28710.3310.3320.1240.2810.2770.2680.3310.2640.33110.3260.1090.2440.4310.4130.4850.460.3320.32610.1250.3990.1070.1010.1080.1010.1240.1090.12510.0930.3690.3870.3420.4160.2810.2440.3990.093110.90.80.70.60.50.40.30.20.1Chen等人[1]是最早指出简单的基于迁移的方法可能比复杂的少数学习者更好的研究者之一。他们提出了在预训练的深度CNN之上使用简单线性分类器的基线，以及使用基于距离的分类器的基线++。Dhillon等人[2]还指出了基于迁移的方法的实用性，并提出了一个转导微调器;然而，这种方法依赖于具有适当大量的相关的、未标记的图像来执行转换学习。Sun等人。[27]考虑了迁移学习，但是迁移是通过分类参数的移位和缩放来实现的。Dvornik等人[4]提出SUR，并认为特征的多样性最好通过数据集的多样性来获得。他们的方法训练了许多特征提取器，每个数据一个图1：各种（数据集，数据集）对的最重要特征集的Jaccard相似性。选定要素的百分比70飞机鸟类60FC10050真菌40Omniglot30快速绘制纹理20交通标志10VGG花0图2：每个数据集上出现在前20%特征中的每个深度CNN特征的百分比少数论文，像这项工作，提出了转移为基础的方法可能是最准确的。在第1节中，我们提到了Google在那里，作者

下载后可阅读完整内容，剩余1页未读，立即下载