类别遍历：提升少样本学习的性能

132 浏览量更新于2023-10-19 收藏 799KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1（b）第（1）款掩模类别遍历遍历利用类别训练李红阳1，2李大卫·艾根2塞缪尔·道奇2马修·泽勒2王晓刚1，31香港中文大学2Clarifai Inc.3商汤科技研究{yangli，xgwang}@ ee.cuhk.edu.hk{deigen，samuel，zeiler}@ clarifai.com摘要少镜头学习是一个重要的研究领域从概念上讲，人类能够很容易地理解仅给出几个示例的新概念，而在更实用的术语中，有限示例的训练情况在实践中很常见。最近有效的方法，以少数拍摄学习- ING采用度量学习框架学习之间的特征相似性比较查询（测试）的例子，和少数支持（训练）的例子。然而，这些方法将每个支持类彼此独立地对待，从不将整个任务视为一个整体。因此，他们被限制为对所有可能的测试时间任务使用单个特征集，这阻碍了区分手头任务的最相关维度的能力。在这项工作中，我们引入了一个类别遍历模块，可以插入作为一个即插即用的模块到大多数基于度量学习的几杆学习器。该组件一次遍历整个支持集，根据特征空间中的类内一致性和类间唯一性识别任务相关特征。在 mini-ImageNet 和tieredImageNet基准测试中，与基线系统相比，扩展我们的模块可以显著提高性能（相对提高5%-10%）1. 介绍少次学习的目标[38，35，30，36，33，7，25，26]是将看不见的数据实例（查询示例）分类到一组新的类别中，每个类别中只有少量的标记实例（支持示例）。典型地，在支持集中，每个类有1到10个标记的示例;这与标准分类问题[19，16，20]形成对比，在标准分类问题中，每个类有-万个。此外，在传统问题中，训练集和测试集的类是相同的，而在少次学习中，这两个集合是互斥的。几个关键挑战本文是在Clarifai Inc.实习期间的工作成果（a）平均/嵌入/…分离图1. （a）用于少量学习的基于度量的算法的高级说明。支持度和查询都首先被馈送到特征提取器fθ中;在以前的方法中，查询与基于特征相似性的支持度单独地相关联，而不将最相关的信息跨类相关联。（b）拟议的类别训练模块（CTM）审视所有类别来查找与任务相关的功能。因此，镜头学习是为了最好地利用支持集中可用的有限数据，以便找到任务所建议的最近解决这个问题的有效方法是训练神经网络，用于产生用于将查询与每个支持样本进行比较的特征嵌入。这类似于使用Siamese网络的度量学习[4，6]，通过迭代地从更大的标记训练集中采样查询和支持集，并优化以最大化查询和相同标记示例之间的相似性得分，来明确地针对少数分类问题进行优化查询和支持之间的相似性非常有效[35，38，31，14，21，2，13]。图1（a）在高水平上示出了这种机制。然而，虽然这些方法能够学习丰富的特征，但是这些特征是为超级数据库中的每个类生成的2（一）I.二.三.四.诉支持套件（1次）我们可以确定颜色是这个任务的区别维度。这种观察促使我们遍历所有支持类，以找到沿特征维度的类间唯一性此外，在图1所示的多拍摄设置下。如图2（b）所示，可以更清楚地看出，颜色维度是最相关的，因为大多数实例具有相同的蓝色，而它们的形状不同。因此，除了类间唯一性之外，还可以使用类内共性来找到相关维度。注意，在此k >1的情况下，fea-在每个类中真正平均是一种有效的方法，减少类内变化并暴露共享特征组件;这种平均在[35，36]中执行虽然类间和类内比较都是分类的基础，并且长期以来一直用于机器学习和统计[8]，但基于度量的少数学习方法图2.玩具示例说明任务相关的动机功能. （a）一个任务定义了五个类（i）。(v)具有两个特征尺寸，颜色和形状。查询和支持之间的距离对于类（i，iii，iv，v）是相同的。然而，通过考虑所有类的上下文，我们看到相关的特征是颜色，因此查询图像的类应该是（iii）：绿色。（b）在k-shot（k >1）的情况下，一个类中的大多数实例共享蓝色的属性，而它们的形状在它们之间不同-使得颜色特征更具代表性。端口独立设置在本文中，我们扩展了有效的度量学习为基础的方法，将整个支持集的背景下通过包含这样的视图，我们的模型可以找到与每个任务最相关的维度。这一点在少量学习中尤为重要：由于每个任务只有很少的标记数据可用，因此必须最好地利用从全部示例集合中获得的所有信息。作为一个激励的例子，考虑图。2（a），其描述了具有两个简单特征尺寸（颜色和形状）的5向1次拍摄任务。分类的目的是为了-决定一个问题的答案：查询属于支持集中的哪个类别在这里，查询是一个绿色圆圈。我们认为，因为每个例子中的支持集有一个独特的颜色，但其形状与其他支持的例子，在这个任务中的相关功能是颜色。因此，查询的正确标签分配应该是class（iii）：共享的然而，如果为每个类别独立计算与查询的特征相似性，如[38，35，36，34，21，30，23，10]中所做的那样，则不可能知道哪个维度（颜色或形状）更相关，因此类别（i，iii，iv，v）都将具有基于距离1的相等得分。只有看上下文1注意，如果特征提取器为了在该特定任务中成功而学习到颜色比形状更重要，则它将在颜色共享而形状唯一的任务中失败-静态特征比较不可能在两个任务中成功。还没有通过在类之间查找来合并任何可用的上下文为了将支持集的类间和类内视图结合起来，我们引入了一个类别遍历模块（CTM）。这样的模块在横向和内部遍历之后选择最相关的特征维度类别CTM的输出被捆绑到支持集和查询集的特征嵌入上，使得后续特征空间中的度量学习更加有效。CTM由一个集中器单元和一个投影器单元组成，集中器单元用于提取类别内的嵌入以获得共性，投影器单元用于考虑集中器跨类别的输出以获得唯一性。集中器和投影器可以被实现为卷积层。图1（b）给出了如何将CTM应用于现有的基于度量的少次学习算法的描述。它可以被看作是一个即插即用的模块，通过考虑支持集中的全局特征分布来提供更具鉴别力和代表性的特征-我们证明了我们的类别遍历模块的有效性，对少数拍摄学习基准。 CTM达到或超过了以前的最先进水平。将CTM整合到现有算法中[36，38，35]，我们在迷你ImageNet和分层ImageNet上看到了约5%-10%的一致相对收益。代码套件位于：https://github.com/Clarifai/few-shot-ctm。2. 相关工作近年来，人们在小样本学习任务方面做了大量的工作。它们可以大致分为三个分支，（i）基于度量，（ii）基于优化，和（iii）基于大型语料库。工作的第一个分支是基于度量的方法[35，38，36，14，34，21，30，23，2，10]。 Vinyals等人 [38]在少数学习中引入了情节训练的概念，其中训练过程模仿测试场景（b）第（1）款I.二.三支持集（k-shot）四.色形12111距离查询3基于支持查询度量学习。这个想法是直观和简单的：这些方法在将支持样本和查询样本嵌入到共享特征空间。原型网络[35]是在[38]的基础上建立的，通过将查询与支持集中的类原型进行比较，利用类质心消除支持集中的离群值，并找到所有类样本的共同维度。这样的实践在精神上与我们的集中器模块相似，我们将集中器模块设计为关注类内的通用性。我们的工作还超越了这一点，我们还一起查看支持集中的所有类，以找到与每个任务相关的维度。在[14]中，引入了一个内核生成器来修改特征嵌入，以查询图像为条件。这是对我们的补充：虽然[14]查看查询以确定可能与其分类相关的内容，但我们查看整个支持集以使我们的网络能够更好地确定哪些特征最适合任务。在[34]中，特征嵌入和分类器权重创建网络被分解，以便在同一框架内执行零拍摄和少量拍摄任务也有一些有趣的工作，探索支持和查询之间的关系，使支持和查询功能之间的更复杂的比较。关系网络[36]提出使用具有连接特征嵌入的神经网络来评估每个查询支持对的关系。它可以被视为[35，38]的进一步扩展，其中学习度量由神经网络定义。Liuet al.[23]提出了一种转换传播网络，通过学习利用数据中的流形结构的图构造模块，将标签从已知的标记实例传播到未标记的Garcia等人 [10]引入了图神经网络的概念，通过将消息传递推理算法同化到神经网络中来显式地学习特征嵌入Oreshkin等人。 [26]还学习了一个任务相关的度量，但条件基于类原型的平均值，这可以减少其任务条件网络可用的类间Gaoet al. [9]将掩码应用于应用于NLP少量句子分类任务的原型网络中的特征，但他们的掩码仅基于每个类中的示例，而不是像我们的方法那样在类之间。上面提到的所有方法都将它们的算法基于一个度量学习框架，该框架将查询与每个支持类进行比较。然而，除了对单独创建的距离分数进行最终比较之外，它们都没有将任务的各个类别中可用的信息结合起来。这可能会导致问题-相似性比较在这项工作中，我们通过引入一个类别遍历模块来扩展基于度量的方法，通过同时查看所有类别来找到任务的相关特征维度。文献的第二个分支是基于优化的解决方案[28，22，7，25，33]。对于每个任务（情节），学习器从分布中采样，并执行SGD或展开的权重更新几次迭代，以适应页面。为手头的特定任务构建一个不规则的模型。在[28]中，学习者模型通过产生有效参数更新的重新当前元学习者MAML [7]及其变体[25，33]已经证明了令人印象深刻的结果;在这些工作中，学习器模型的参数被优化，使得它们可以快速地适应特定任务。在高层次上，这些方法通过对少量任务执行几次权重更新迭代来引入遍历所有支持类的思想然而，正如[33，21]所指出的，虽然这些方法在任务更新中覆盖了所有类的样本，但它们通常难以学习有效的嵌入。[33]通过仅将权重更新“内环”应用于顶层权重来解决这个问题，顶层权重通过从以任务样本为条件的生成分布进行采样来初始化，并且使用初始监督阶段来预训练视觉特征。相比之下，基于度量学习的方法在学习好的特征方面取得了相当大的成功，但没有利用类间视图来确定每个任务的最相关维度。我们将一个所有类的视图到一个度量学习框架，并获得有竞争力的性能。我们提出的方法学习了特征嵌入和分类维度，并以完全从头开始的方式进行训练第三个分支是基于大型训练语料库的方法[11，15，12，27，29]。在这些中，基础网络是用大量数据训练的，但也必须能够适应少量学习任务而不忘记原始基础模型概念这些方法为基本模型类提供了更强的特征表示，这些基本模型类仍然3. 算法3.1. 关于少镜头学习在一个少量分类任务中，我们得到了一个小的支持集，其中包含N个不同的、以前看不见的类，每个类有K个例子。给定查询样本，目标是将其分类到N个支持类别中的一个。训练该模型使用大型训练语料库C训练的标记的例子（类别不同第1节中提到的要素，其中特征尺寸为通常，N在5和20之间，K在1和20之间。4我我我图3. CTM中组件的详细分解。它通过集中器o提取每个类中元素的共同特征，并允许度量学习器通过投影器p集中于更具鉴别力的维度，投影器p通过遍历支持集中的所有类别而构建。从我们将在评估期间的最终少数任务中看到的任何任务）。该模型使用情节进行训练。在每一集中，我们构造一个支持集S和查询集Q：S={s（1），···，s（c），···，s（N）} Ctrain，|（c）|=K，Q={q（1），···，q（c），···，q（N）} Ctrain，|q（c）|= K，其中c是类索引，K是类s（c）中的样本数;支持集具有NK个样本的总数，并且对应于N路K-shot问题。设sj是单个样本，其中j是S中所有样本之间的索引。我们将样本i的标签定义为：3.2. 类别训练模块（CTM）图3显示了我们模型的总体设计。类别遍历模块将支持集特征fθ（S）作为输入，并通过分别利用类内和类间视图的集中器和投影器产生掩码p掩码p被应用于支持和查询的降维特征，产生具有与当前任务相关的维度的改进特征I这些改进的特征嵌入最终被馈送到度量学习器中。l（s）=c， S∈s（c）.3.2.1集中器：类内共性类似的符号适用于查询集Q。如示于图 1，样本si，qj首先被馈送到特征提取器fθ（ ·）中。我们使用CNN或ResNet[16]作为f θ的主干。这些特征用作比较模块M（·，·）的输入。在实践中，M可以是直接的成对特征距离[35，38]或进一步的关系CTM中的第一个组件是一个集中器，用于查找一个类的所有实例共享的通用特性。将来自特征提取器fθ的输出形状表示为（NK，m1，d1，d1），其中m1，d1分别指示通道的数量和空间大小。我们定义浓缩器如下：单元[36，10]由额外的CNN层组成，以测量f（S）：（NK，m，d，d）−C−on−c−en−tr−at→或o：（N，m，d，d），两个样本之间的关系。表示输出θ从M得到的分数为Y={y ij}。此训练的损失L1 1 12 2 2（四）episode被定义为跨所有查询-支持对平均的交叉熵分类损失：其中，m2、d2表示通道的输出数量，大小请注意，输入首先被馈送到CNN模块.3.进行降维;然后在每个样本中yij=Mfθ（si），fθ（qj），（1）1Σ Σ∗ ∗类被平均以具有最终输出O。在1-shot设置，没有平均操作，因为只有一个L=−（NK）2我1[li=lj] log y ij。（二）J以每个班级为例。在实践中，CNN模块可以是简单的训练通过迭代地采样片段并使用每个片段的损失执行SGD更新来进行。推理。泛化性能是在测试集事件上测量的，其中S，Q现在从包含与C训练中使用的不同类的C测试中采样。支持集中的标签是已知的，在查询中是未知的，并且仅用于评估。通过获取具有最高比较得分的类来找到查询的标签预测：lj=argmaxycj，（3）C5CNN层或ResNet块[16]。其目的是消除实例间的差异，提取同一类别内实例间的共同性。这通过从m1，d1到m2，d2的适当下采样来实现。这样的学习组件被证明优于平均替代方案[35]，其中后者可以被视为我们的集中器的特殊情况，当m1=m2，d1=d2而没有学习参数时。3.2.2投影机：班级间统一投影其中y=1y和l= c。平均精度为cjKi iji因此，通过将测试片段长度（通常为600）的查询标签与查询标签进行比较来第二个组件是一个投影仪，特征，并通过查看集中器特征从6表 1. 类别遍历模块（ CTM ）中 I（S）的设计选择以及与基线的比较。我们看到一个实质性的改善，使用CTM在相同的能力基线（二，三）。样本明智选择（ii）表现更好，与（v）相比具有边际额外计算成本。所有支持类别同时：投影仪on：（1，Nm2，d2，d2）−→p：（1，m3，d3，d3）.（五）其中，Om只是Om的重新成形的版本;m3，d3遵循与集中器中类似的含义。我们通过将第一维（N）中的类原型类型连接到通道维（m2）来实现跨类遍历的目标，将小CNN应用于连接的特征以产生大小为（1，m3，d3，d3）的映射，最后在通道维m3上应用softmax（单独对于D3×D3空间维度中的每一个）以产生掩模P。这是用来掩盖相关的功能dimen-查询和支持集中任务的选择。3.2.3整形器为了使投影输出p影响特征嵌入fθ（·），我们需要匹配网络中这些模块之间的形状这是通过一个重新-我们发现，选项1的结果更好的性能，在执行时间的边际增加，由于其更大的比较数量;详情见第2节。第4.2.1条。3.3. CTM在行动所提出的类别遍历模块是一个简单的即插即用模块，并且可以嵌入到任何基于度量的少量学习方法中。在本文中，我们考虑了三种基于度量的方法并将CTM应用于它们，即匹配网络[38]，原型网络[35]和关系网络[36]。如第1，所有这三种方法都受到不同时考虑整个支撑集的限制。由于特征是为每个类独立创建的，因此与当前任务无关的嵌入最终可能会主导度量比较。这些现有的方法定义它们的相似性度量如下：（1）;我们修改它们以使用我们的CTM如下：整形器网络，分别应用于NK个样本中的每个：Σ整形器fθ（·）−→r（·）：（NK，m3，d3，d3）.它以轻量级的方式设计，只有一个CNN层。3.2.4CTM中的设计选择有了上面提到的组件，我们可以通过遍历所有类别来生成掩码输出：f θ（S）→p. CTM的效果是通过将投影仪输出捆绑到支持和查询的特征嵌入上来实现的，记为I（·）。改进的特征表示因此被保证是更有区别的被区分。对于查询，I的选择很简单，因为我们没有查询的标签;该组合是嵌入和投影仪输出的元素乘法，put：I（Q）=r（Q）p，其中表示沿着Q中的样本维度（NK）广播p的值。对于支持，然而，由于我们知道查询la-Bels，我们可以选择将p直接屏蔽到嵌入上（按样本），或者如果我们保持（m2，d2，d2）=（m3，d3，d3），我们可以使用它来屏蔽集中器输出o（按簇）。在数学上，这两个选项是：选项1：I1（S）=r（S）p：（NK，m3，d3，d3），选项2：I2（S）= o·p：（N，m3，d3，d3）。Y= Mr（S）p，r（Q）p，Y ={yij}.（六）正如我们稍后所展示的（见第二节）。4.3.1），在集成了建议的CTM单元后，这些方法在不同的设置下得到了较大幅度的改进（2%-4%）。4. 评价实验的目的是回答以下关键问题：（1）CTM是竞争力的其他国家的最先进的大规模少数拍摄学习基准？(2)CTM是否可以作为一种简单的即插即用的方式使用，并为现有方法带来CTM工作的基本组成部分和因素是什么(3)CTM如何修改特征空间，使特征更具区分性和代表性？4.1. 数据集和设置数据集。迷你ImageNet数据集[38]是从ILSVRC-12数据集[32]中选择的100个类的子集，每个类中有600它分为训练、验证和测试元集，分别有64、16和20个类。分层ImageNet数据集[30]是ILSVRC-12的一个更大的子集，其中 608 个类（ 779 ， 165 张图像）基于WordNet层次结构分为34个更高级别的节点[5]。此节点集被划分为20、6和8个不相交节点模型5向1发5发型号大小（Mb）训练时间（秒）/episode）20路1发5发(i)样本样式基线37.20%53.35%0.470.054517.96%百分之二十八点四七(ii)样本方面，I141.62%58.77%0.550.068821.75%32.26%(iii)基线相同尺寸37.82%53.46%0.540.056118.11%百分之7训练、验证和测试节点的集合以及相应的类由相应的元集合组成。正如[30]中所指出的，分层ImageNet中的分裂更加复杂，测试类的现实制度与训练类不太请注意，验证集仅用于调整模型参数。评价指标。我们报告了600个随机产生的事件的平均准确率（%）以及测试集上的95%置信区间在测试期间的每个事件中，每个类有15个查询，遵循大多数方法[35，36，33]。实作详细数据。对于训练，5路问题有15个查询图像，而20路问题有8个查询图像。20路设置中查询样本数量较少的原因主要是GPU内存方面的考虑。将输入图像的大小调整为84 ×84。我们使用Adam [18]优化器，初始学习率的0.001。MiniImageNet和分层ImageNet的总训练集分别为600，000和1，000，000。学习率每20万集下降10%权重衰减设置为0.0005。渐变剪裁也被应用。4.2. 消融研究4.2.1浅层网络验证我们首先验证类别遍历的有效性，通过比较使用简单的骨干网络的相同容量的基线。具体来说，一个4层神经网络-以工作为骨干，我们直接计算I（S）和I（Q）之间的特征相似性。最后给出了在miniImageNet上的平均精度。在特征嵌入之后，m1=64，d1=21;集中器是步长为2的CNN层，即，，m2=32，d2=10.为了比较两个选项（ I1 或I2），投影仪保持尺寸不变，即。，m3=m2，d3=d2。基线比较。结果报告于表中。1.一、模型大小和训练时间是在5路下测量的。5个镜头。行（i）和（iv）中的行（ii）示出了包括我们的CTM的模型由于添加CTM与基线（i）相比增加了模型容量，因此我们还包括相同大小的模型基线用于比较，示出为注意，（i）和（iv）之间的唯一区别是后一种情况取每个类别内的样本的平均值。我们可以看到，在5路和20路设置中使用CTM的平均相对改善为10%，与基线一致。值得注意的是，较大容量的基线仅比原始基线略有改进，而使用CTM的改进是实质性的。这表明CTM获得的性能提高确实是由于它能够为每个任务找到相关特征。表2. 范畴遍历模块的消融研究。因子miniImageNet精度1发5发具有浅（4层）主干的41.6258.77具有ResNet-18主干的59.3477.95(i)w/o集中器网络o55.4173.29(ii)w/o projectorp57.1874.25(iii)softmax all inp57.7775.03无CTM的58.2174.29关系网M，CTM，MSE损失61.3778.54关系网M，CTM，交叉熵损失62.0578.63I（S）哪个选项更好？表1（ii，v）显示了I1和I2之间的比较。一般来说，样本选择I1比I2好2%. 请注意，这两个模型的大小是完全相同的;唯一的区别是如何乘以 p 然而， I1 的一个小缺点是时间稍慢（0.0688 vs 0.0632），因为它需要以在所有样本上广播p 尽管效率很高，但我们还是选择第一个选项作为我们生成I（S）=I1的偏好。4.2.2拥有更深网络的CTM表2报告了CTM不同成分的消融分析。使用一个更深的骨干的功能提取器增加了很大的利润率性能。第二组实验分别考察了聚光器和投影器的影响。单独去除每个组件导致性能降低（情况i、ii、iii）3. 如果我们移除集中器的网络部分，则准确度较差（-3.93%，1次拍摄情况），这意味着其降维和空间下采样对于最终比较很移除投影仪p也导致显著下降（-2.16%，1次），证实了该步骤对于找到任务特定的辨别维度是必要的。一个有趣的结果是，如果我们在p中的所有位置（ m3 ， d3 ， d3 ）上执行 softmax 操作，则准确率（57.77%）不如沿着通道维度（m3）对每个位置单独执行softmax操作（59.34%）;这与数据一致，其中图像中的绝对位置仅适度地与任何类别差异相关。此外，我们将关系模块[36]作为最后一个模块M的度量学习器。它由两个CNN块组成，其中两个后续fc层生成一个查询支持对的关系得分。无CTM的基线关系网模型的准确率为58.21%。包括我们提出的模块后，性能-3实现细节：情况（i）没有集中器，支持样本仍然被平均以生成投影仪的输出（N，m，d，d）;在（ii）没有投影的情况下，支持度和查询度的改进特征表示分别为o（S），r（Q）.8方法5向1发5发20路单次拍摄5次射击5-w单次拍摄ay5次射击20路单次拍摄5次射击匹配网[38]，纸43.5655.31------Matching Net [38]，我们的实现48.8966.3523.1836.7354.0270.1123.4641.65[38]第三十八话52.4370.0925.8440.9857.0173.4525.6945.07+3.54+3.74+2.66+4.25+2.99+3.34+2.23+3.42Prototypical Net [35]，paper49.4268.20--53.3172.69--Prototypical Net [35]，我们的实现56.1174.1628.5342.3660.2775.8028.5649.34原型网络[35]，CTM59.3477.9532.0847.1163.7779.2431.0251.44+3.23+3.79+3.55+4.75+3.50+3.44+2.46+2.10关系网[36]，论文50.4465.32--54.4871.32--关系网[36]，我们的实现58.2174.2931.3545.1961.1177.3926.7747.82关系网[36]，CTM62.0578.6335.1148.7264.7881.0531.5352.18+3.84+4.34+3.76+3.53+3.67+3.66+4.76+4.36表3. 将CTM合并到miniImageNet（左）和分层ImageNet（右）上的现有方法后的改进。增加3.84%，达到62.05%。请注意，原始文件[36]使用均方误差（MSE）;我们发现交叉熵稍微好一点（1次和5次分别为0.68%和0.09%），如公式中所定义。（二）、4.3. 与最新技术4.3.1将CTM融入现有框架为了验证我们提出的类别遍历模块的有效性，我们将其嵌入到三个与我们密切相关的基于度量的值得注意的是，比较应该在公平的环境中进行;然而，不同的来源报告不同的结果4。在这里，我们描述我们使用的实现。匹配网[38]和原型网[35]。在这些情况下，度量模块M是成对特征距离。请注意，改善的主要来源是[38] [35]是将查询与每个类别的平均特征进行比较;这具有包括类内通用性的效果，我们在集中器模块中使用了这种通用性。至于从原始论文到我们的基线的改进，我们使用具有欧氏距离的ResNet-18模型进行相似性比较，而不是最初使用余弦距离的浅层CNN网络关系网[36]。在改进方面，骨架结构由4-conv模型改为ResNet-18模型;关系单元M采用ResNet块而不是CNN层;将透视损失转化为交叉熵。表3示出了通过将CTM包括到每种方法中而获得的增益我们观察到，采用CTM后，平均增加约3%。这显示了我们的模块能够即插即用到多个基于度量的系统中。此外，无论初始性能如何，每种方法4例如，关系网络在miniImageNet上的5路5次设置的准确率为65.32%。[39] 61.1%;[2]占66.6%;[21]通过更大的网络获得71.07%模型MiniImageNet测试精度1发5发[28]第二十八话MAML [7]REPTILE [25]新加坡元[22][24]第二十四话CAML [17]LEO [33]43.44 ±0.7748.70 ±1.8449.97 ±0.3254.24 ±0.0355.71 ±0.9959.23 ±0.9961.76 ±0.0860.60 ±0.7163.11 ±0.9265.99 ±0.5870.86 ±0.0468.88 ±0.9272.35 ±0.1877.59 ±0.12[29]第二十九话动态[12]预测参数[27]55.72 ±0.4156.20 ±0.8659.60 ±0.4170.50 ±0.3673.00 ±0.6473.74 ±0.19[38]第三十八话BANDE [1][35]第三十五话[36]第三十六话投影子空间[34]个人特色[13]IDEMe-Net [3]TADAM [26]43.56 ±0.8448.90 ±0.7049.42±0.7850.44 ±0.82---56.89-57.71--58.50 ±0.3055.31 ±0.7368.30 ±0.6068.20 ±0.6665.32 ±0.7068.12 ±0.67七十点五一-七十四点三十四分-76.70 ±0.30CTM（我们的）CTM（我们的），数据扩充62.05 ±0.5564.12 ±0.8278.63 ±0.0680.51 ±0.13模型分层ImageNet测试精度1发5发MAML [7]Meta-SGD [22]，报告人[33]LEO [33]51.67 ±1.8162.95 ±0.0366.33 ±0.0570.30 ±0.0879.34 ±0.0681.44 ±0.09[29]第29话：我的故事[29]第二十九话50.90 ±0.4651.12 ±0.4566.69 ±0.3666.40 ±0.36软k均值[30][35]第三十五话投影子空间[34][36]第三十六话传导性Prop. [23日]52.39 ±0.4453.31 ±0.89-五十九点九一分69.88 ±0.2072.69 ±0.7471.15 ±0.6771.32 ±0.78七十三点三十分-CTM（我们的）CTM（我们的），数据扩充64.78 ±0.1168.41 ±0.3981.05 ±0.5284.28 ±1.73表4.测试5路任务的精度，包括1次拍摄和5次拍摄。我们提供了两个版本的模型。参见第4.3.2详情9水平这支持了我们的方法能够并入先前对于这些方法中的任一种不可用的信号的假设，即，每个任务中的类间关系。10(a) 关系网，47.82%的准确率(b) 使用CTM的关系网络，准确率为52.18%图4. 通过我们的CTM方法学习的改进的特征嵌入 I （ · ）的 t-SNE 可视化[37]。(a)对应于表3中没有CTM的关系网络的20路5次设置，并且（b）对应于具有CTM的仅显示10个类以获得更好的视图。我们可以看到，在遍历类别之后，投影仪p对特征的影响是明显的-使聚类更加紧凑和彼此区分。4.3.2超越度量方法的比较我们将我们提出的CTM方法与表4中的其他现有技术方法进行比较。对于每个数据集，第一块方法是基于优化的，第二块是基类语料库算法，第三块是基于度量的方法。我们使用ResNet-18主干作为特征提取器，与其他方法进行比较。该模型是用标准初始化从头开始训练的，没有任何额外的训练数据（例如，，干扰器[30，23]）。我们相信这样的设计与大多数比较算法保持一致。据观察，我们的CTM方法相比，有利地对大多数方法的大幅度，不仅限于基于度量的方法，但也与基于优化的方法相比。例如，在5路1次设置下，两个基准测试 miniImageNet 和分层 ImageNet 的性能分别为62.05%和59.60% [27]，64.78%和59.91% [23]LEO [33]在分层ImageNet上比我们的（没有数据增强）稍好。它使用具有28层的宽残差网络[40];它们还使用整个训练集上的监督任务来预训练模型，并基于这些预训练的特征来微调网络。出于实用性考虑，我们还通过监督预训练（仅使用迷你或分层ImageNet训练集）、基本数据增强（包括随机裁剪、颜色抖动和水平翻转）和更高的权重衰减（0.005）来训练模型的一个版本。结果显示在每个数据集的最后一种情况注意，考虑到LEO的wideResNet-28，网络结构仍然是4.4. CTM学习的特征可视化图4使用t-SNE [37]可视化了特征分布。在20路5次激发设置中计算的特征，但仅显示10个类以便于比较。模型（a）在无CTM的情况下达到47.32%的精度，而配备CTM的改进型（b）具有更好的性能，为52.18%。当对我们模型的t-SNE进行特征采样时，我们使用I（S），即在应用掩码p由于这取决于支持样本，有限元分析-根据所选择的任务，结果将大不相同。因此，当对任务进行采样以创建这些可视化特征时，我们首先选择了20个类，并保持这些固定，同时从这个类集中绘制不同的随机支持样本。我们在测试集上总共绘制了50集。可以清楚地观察到，CTM模型具有更紧凑和可分离的聚类，表明特征对于任务更具区分性。这源于类别遍历模块的设计。在没有CTM的情况下，一些聚类彼此重叠（例如，浅绿带橙色），使得度量学习难以比较。5. 结论在本文中，我们提出了一个类别遍历模块（CTM）提取功能尺寸最相关的每个任务，通过寻找整个支持集的上下文。通过这样做，它能够利用类间唯一性和类内共性属性，这两者都是分类的基础。通过一起查看所有支持类，我们的方法能够识别每个任务的判别特征维度，同时仍然完全从头开始学习有效的比较特征我们设计了一个集中器，首先通过有效地对输入特征进行下采样并取平均值来提取类内实例之间的特征共性。引入投影仪来遍历支撑集中所有类别的特征尺寸。投影仪类间关系集中在手头任务的相关特征维度上然后将CTM的输出组合到支持和查询的特征嵌入上;增强的特征表示对于任务来说是更加独特和有区别的。我们已经证明，它大大提高了非线性方法，并且与最先进的方法相比具有很强的竞争力。确认我们感谢Nand Dalal、Michael Gornish、Yanan Jian和审稿人提供的有益讨论和意见。H.李先生获香港博士资助。研究金计划。11引用[1] Kelsey R Allen，Hanul Shin ，Evan Shelhamer和Josh B.特南鲍姆基于bavelet非参数深度嵌入的变元学习。在OpenReview，2019年。[2] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-Chiang Frank Wang，and Jia-Bin Huang.更仔细地看几个镜头分类。2019年，在ICLR[3] Zitian Chen，Yanwei Fu，Yu-Xiong Wang ，LinMa，Wei Liu，and Martial Hebert.用于一次性学习的图像变形元网络。在OpenReview，2019年。[4] Sumit Chopra，Raia Hadsell，and Yann Lecun. 学习- ing的相似性度量的区别，与应用程序的人脸验证。在CVPR，2005年。[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞ImageNet：一个大规模的分层图像数据库。CVPR，2009。[6] 尼尔·艾伦·埃拉德·霍弗。使用Triplet网络进行深度度量学习。2015年，国际会议[7] Chelsea Finn，Pieter Abbeel，Sergey Levine.模型不可知元学习，用于快速适应深度网络。在arXiv预印本：1703.03400，2017。[8] 罗纳德·A·费舍尔多重测量在分类学问题中的应用。Annals of eugenics，7（2）：179[9] 高天宇、徐涵、刘志远和孙茂松。基于混合注意力的原型网络用于噪声少镜头关系分类。在AAAI，2019年。[10] 维克多·加西亚和琼·布鲁娜。用图神经网络进行少次学习。在ICLR，2018年。[11] Mohammad Ghasemzadeh，Fang Lin，Bita DarvishRouhani，Farinaz Koushanfar，and Ke Huang. Ag-ilenet：轻量级的基于字典的少量学习。在arXiv预印本：1805.08311，2018。[12] 斯派罗·吉达里斯和尼科斯·科莫达基斯无遗忘的动态在CVPR，2018年。[13] 乔纳森·戈登，约翰·布朗斯基尔，马蒂亚斯·鲍尔，塞巴斯蒂安·诺沃津，理查德·特纳.预测的元学习概率推理。2019年，在ICLR[14] 韩春瑞，Shiguang Shan，Meina Kan，Shuzhe Wu和Xilin Chen。元学习与个性化的特征空间为少数拍摄分类。2019年。[15] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低拍摄视觉识别InICCV，2017.[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun. 用于图像识别的深度残差学习。在CVPR，2016年。[17] Xiang Jiang，Mohammad Havaei，Farshid Varno，Gabriel Chartrand ， Nicolas Chapados ， and StanMatwin.学会有条件地学习. 2019年，在ICLR[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[19] Alex Krizhevsky 、 Ilya Sutskever 和 Geoffrey E.欣顿。Imagenet分类与深度卷积神经网络。NIPS，2012年。[20] Hongyang Li ， Xiaoyang Guo ， Bo Dai ， WanliOuyang ， and Xiaogang Wang. 神经网

下载后可阅读完整内容，剩余1页未读，立即下载