少镜头分类中的组合表示学习方法

97 浏览量更新于2023-10-16 收藏 900KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3890CORL：用于少镜头分类的组合表示学习朱和1亚当·科蒂莱夫斯基1，2，3阿兰·尤耶11约翰霍普金斯大学2马克斯普朗克信息学研究所3弗莱堡大学摘要少镜头图像分类由两个连续的学习过程组成：1）在元学习阶段，模型从一组训练类中获取知识库。2)在元测试期间，所获得的知识用于从很少的示例中识别看不见的类。受人类对象的组成表示的启发，我们训练了一个神经网络架构，该架构将对象显式表示为共享组件及其空间组成的字典。特别是，在元学习过程中，我们训练了一个知识库，该知识库由组件表示的字典和组件激活图的字典组成，这些组件激活图编码了组件的共同空间激活模式。两个词典的元素在训练类之间共享。在元测试期间，使用来自知识库的组件表示和组件激活图来学习看不见的类的表示最后，使用注意力机制来加强对每个类别最重要的那些组件我们使用miniImageNet、tieredImageNet、CIFAR-FS和FC 100展示了我们可解释的组合学习框架在少数分类中的价值，在这些分类中，我们实现了相当的性能。1. 介绍深度卷积神经网络（DCNN）架构设计的进步[18，31，11]极大地提高了计算机视觉系统在图像分类方面的性能。然而，在实践中，它们的性能通常是有限的，当没有足够的标记数据是可用的。少样本分类关注的是从少量样本中学习的问题。特别是，它由两个连续的学习过程组成：1）在元学习阶段，模型从一组训练类中获取知识库。2)在元测试期间，获得的知识用于从很少的示例中识别看不见的因此，少镜头分类希望通过要求转移通过训练获得的知识来模仿人类的学习效率[19，2，6，13图1：直观地说明了我们的模型如何在元学习过程中获取知识。特别是，它学习一个组件表示的字典，这些组件表示类似于单个对象组件。其中一些可以在不同的类之间共享，例如，汽车轮胎此外，它学习一个地图字典，其中包含共同的空间激活模式的组件。在元测试期间，知识库通过重新使用已经学习的组件和空间激活模式来促进新类的学习在大量的基类上，以增强从几个类中学习新类的能力过去提出了采取不同视角的各种少镜头分类方法。虽然这些方法试图在基础类和新类之间共享公共知识，但由于少镜头数据集不包括像零镜头数据集中的属性或组件注释，因此它们没有明确考虑对象可以具有可以重用的相似组件和形状。在本文中，我们介绍了一种新的方法，明确利用对象组件和它们的空间激活模式可以共享不同的对象类之间的少拍分类例如，类“horse”的空间结构可以用于有效地学习类“donkey”。我们通过在元学习期间训练知识库来实现这样的组件表示共享，该知识库由组件表示字典和组件激活图字典组成，组件激活图对组件的常见空间激活模式进行编码（图1）。我们从提取脂肪-3891图像的真实表示直到标准骨干架构的最后一个卷积层，例如ResNet [11]。根据最近对无监督分量检测的研究[21，44，45]，通过对来自训练图像的特征编码的各个特征向量进行此外，我们通过计算训练图像中组件的空间激活模式来提取组件激活图将组件激活图聚类以学习编码组件的最常见空间激活模式的原型图在实践中，地图字典的元素被优化为彼此不同以避免冗余。在元测试过程中，我们的模型通过从知识库的组件和组件激活图中组合对象来学习对象的表示我们使用注意力层来增加对对象类最具区分力的组件的权重。最后，学习的对象表示被馈送到分类器中以预测类别标签。在元训练期间，完整的模型管道是端到端训练的在元测试期间，我们观察到仅训练分类头就足够了，同时冻结学习的骨干和知识库。这与其他元学习方法的主要特点不同，突出了将compo-sitonal表示共享集成到神经网络中所引起的我们在四个流行的少数镜头分类数据集上评估了我们的模型总之，我们在这项工作中做出了几个重要贡献：1. 据我们所知，我们是第一个研究和证明成分表示学习对少数分类的有效性和可解释性的人。2. 我们介绍CORL，一种新的神经架构，用于少数镜头分类，实现了组合表示共享的归纳先验。它学习一个包含组件表示及其常见空间激活模式的知识库，并重用这些知识来有效地学习新类。3. 我们在几个标准的基准测试中取得了相当的性能，优于许多最近的复杂优化方法。2. 相关工作在这一节中，我们回顾了现有的工作，少数镜头分类和组合模型。2.1. 少数学习在过去的几年里，小镜头学习受到了很多关注。相关工作可以大致分类分成两个分支。第一个分支专注于在满足新任务时为分类器找到快速适应。MAML [9]提出了一种通用的优化算法，可以通过几个梯度步骤对新任务进行改进。MetaOptNet [20]在MAML框架中用SVM取代了线性预测器，并引入了可区分的二次规划求解器以允许端到端训练。FEAT [41]提出了集合到集合的函数，用于实例和目标嵌入之间的快速自适应。MELR [5]利用剧集间的关系来提高模型对低采样镜头的鲁棒性。另一个工作重点是如何学习更多的generalizable特征嵌入和设计简单而有效的分类指标。以前的方法主要是在元学习框架中学习表示，其中训练数据以许多元任务的形式组织。匹配网络[36]分别使用两个网络来支持和查询样本，然后使用具有读注意的LSTM来编码完整的嵌入。近年来，大训练语料库方法成为新的趋势，认为直接在整个训练集上训练一个基本网络也是可行的。例如，Dynamic Few-shot [10]扩展了具有注意力权重生成器的对象识别系统，并将分类器模块重新设计为余弦相似性函数。RFS[35]简单地在组合的元训练集上训练嵌入函数，随后利用知识蒸馏来进一步提高性能。它证明了通过代理任务（如图像分类）学习一个好的表示可以提供最先进的性能。BML [47]通过逐段局部特征学习进一步改进了学习的全局特征。尽管所有这些方法都以不同的方式改进了少镜头学习，但它们没有明确考虑到对象可以具有可以重用的相似部分和形状。我们的方法遵循大训练语料库的思想，并表明通过明确考虑对象可以具有相似的组件和形状，我们可以重用它们之间的信息，并进一步提高性能。2.2. 组合模型关于图像分类的合成模型，存在着丰富的文献然而，除了极少数的作品[8，48]，大多数方法使用部分注释进行训练，并且不在对象类之间共享组件。相比之下，我们的工作表明，在没有劳动密集型部分注释的情况下，在类之间共享部分及其空间分布可以实现有效的表示学习。此外，许多传统的工作[8，48，3，7，40]直接从图像像素学习模型参数这些方法的主要挑战是，它们需要明确地考虑到诸如照明和变形之类的干扰几3892∈pP∈图2：使用CORL的前馈推理。DCNN主干用于提取特征图F。组件字典D的项被用作计算组件激活图A的核。然后我们比较每个通道将组件激活图A b中的空间模式映射到图字典S中的空间模式，并将其与最相似的空间模式逐元素相乘以计算输出O。注意力机制用于进一步加强对对象类最具辨别力的组件。注意力加权输出表示为Φ。我们将Φ与平均池化的F连接起来，并将其转发到分类器模块以计算最终的分类结果。最近的工作提出了从深度卷积神经网络的较高层的特征中学习组合模型，因为这些特征已被证明对干扰是鲁棒的，并且具有一些语义含义：Liao等人。[21]提出通过正则化DCNN的特征表示来将组合性集成到DCNN中，以便在学习期间进行聚类。他们的定性结果表明，所得到的特征聚类类似于不同部分的检测器。Zhang等人[44]证明，通过限制特征图中的活动以具有局部空间分布，组件检测器出现在DCNN中。Kortylewski等人[17]提出从DCNN的特征中学习基于生成词典的组合模型。如果DCNN的分类分数低于某个阈值，则它们使用其组合模型作为独立训练的DCNN的“备份”。在后续工作中，Kortylewski etal.[15，16]进一步提出了一种用于图像分类的完全可微的组成模型，该模型对遮挡场景具有很强的鲁棒性。Sun等人[33]表明，这些方法可以扩展到结合图像分类和amodal分割，利用组成形状先验。这些最新的进展激发了我们整合组合模型和深度神经网络的工作。在这项工作中，我们提出了一种用组合模型生成零件信息并在不同的类之间共享的方法。特别是，我们的少数镜头分类模型学习了组件表示以及如何在空间上将它们组合在一起我们利用组件和它们的空间激活模式可以在不同的类之间共享，这使得我们的模型能够从很少的例子中有效地学习。3. 方法我们首先简要回顾了少镜头分类的框架。然后，我们介绍了如何学习组件字典模块，然后讨论了如何学习地图字典模块，以及如何将这些模块集成到一个流水线中进行少量分类。最后，我们讨论如何以端到端的方式训练我们的模型。3.1. 少样本分类少镜头图像分类由两个连续的学习过程组成：1）在元学习阶段，模型从一组训练类中获取知识库。2)在元测试期间，所获得的知识用于从很少的示例中识别看不见的类。元训练集T和元测试集S都可以被组织为元任务的集合，其中每个元任务是N路K次分类问题。在本文中，我们在组合元训练集T上训练我们的模型，然后直接在元测试集S上进行测试，而无需微调模型参数。3.2. 通过聚类学习组件字典配方。我们将特征映射FlRH×W ×C表示为深度卷积神经网络中的层l的输出，其中C是通道的数量。特征向量flRC是F l中位置p处的特征向量在特征地图的二维网格上。在本节的其余部分中，为了符号清晰，我们省略了上标l，因为这是先验固定的。学习组件表示。许多关于学习组合表示的先前工作[21，44，17，15]表明，当对特征向量fp进行聚类时，3893∈--×∈∈×∈∈∈--·--LBBB21聚类中心类似于在训练图像中频繁重复出现的图像模式。这些模式通常具有相同的语义，因此类似于部件式探测器。受这些结果的启发，我们的目标是构造一个成分字典D=d1，. . . ，其中项dbRC是来自训练图像的特征向量fp为了实现这一点，我们集成了一个额外的聚类损失，稍后将在训练网络时引入到整体损失函数中直观地，这将鼓励字典项db从DCNN的中间层l学习组件表示，并且因此捕获对象的中级语义图3通过示出图像块来示出元学习阶段之后的词典项db图Ab被鼓励从最相似的存储空间激活模式Sv学习信息。注意重新权衡重要的组成部分。为了进一步增加对表示特定对象最重要的组件，我们采用注意力机制来计算空间分布的不同权重我们遵循SENet [12]的设计，只做一些小的改变。特别地，我们首先通过使用学习的过滤器R将O的全局空间信息压缩到信道描述符中RH×W ×B。形式上，总结向量zRB是通过将O收缩到其空间维度H W而生成的，使得向量z的第b个条目通过以下公式计算：HW最能激活每一个项目。注意组件表示确实响应于语义上有意义的图像模式，例如狗的头。3.3. 用于少镜头分类的计算组件的空间激活图给定组件字典D，我们计算激活通过计算db和特征向量fp之间的余弦相似度来计算特征图F。我们将此模块实现为卷积层，我们称之为组件检测层。分量检测层的卷积核是分量字典D的项，并且它们的核大小是11。在每个前向时间，在计算余弦相似度之前，对内核和输入特征图进行L2归一化。检测层的输出是分量激活张量ARH×W ×B，其中B是字典D中的项目数。这个张量AbRH×W中的每个通道被称为分量激活图。空间激活模式的学习词典。我们的目标是使模型能够在不同的类之间共享组件激活模式。这是受到以下想法的启发：不同对象的组件可以具有相似的空间激活模式，并且应该利用这种自然冗余（例如，类“狗”的空间结构可以用于有效地我们通过学习映射字典S =S1，.， SV，它包含训练数据中最常见的组件激活模式。我们通过使用余弦相似性将字典项SvRH×W与单个成分激活图A进行比较，将字典项Sv R H × W集成然后我们选择最接近的项目z= R（h，w）O（h，w）∈ R.（一）h=1w=1为了充分利用压缩信息，我们使用与SENet相同的门控机制，该机制包含具有两个完全连接层和非线性激活的瓶颈。它可以表示为l=σ（W δ（W z））∈RB（2）其中σ表示Sigmoid激活，W1，W2是全连接层的权重利用计算的激活l，通过用l重新加权输入O来获得最终输出Φb=lb·Ob∈RH×W（3）其中是指标量lb和通道输出Ob之间的通道乘法。最后，我们沿着Φ中的通道维度对特征向量进行归一化以具有单位范数，并将其与平均池化F连接，然后将其转发到分类器中以获得最终预测。3.4. 模型的端到端培训在训练过程中，我们使用两层全连接结构作为分类器来预测分类结果。我们的模型是完全可微的，可以使用反向传播进行端到端训练我们的模型的可训练参数是Θ = θ，D，S，其中θ是用于特征提取的主干的参数，例如，ResNet-12。D是组件字典，S是组件激活映射的字典。我们使用随机梯度下降联合优化这些参数。我们的损失函数包含三项：v<$=argmaxvcos（Sv，Ab）并将输出通道计算为Ab和Sv<$之间的逐点乘法。在对所有空间分布图重复该操作之后L（y，y′）=L类（y，y′）+γ1L簇（D）+γ2L稀疏（S）（四）我们得到激活的空间分布输出，表示为O∈RH×W ×B。这样，每个组件激活class（y，y′）是预测标签y′和地面实况标签y之间的交叉熵损失。第二在图1中的位置p处的分量表示db的位置3894ΣLΣL−|··JJ表1：与先前在miniImageNet和tieredImageNet上的工作的比较。在miniImageNet和tieredImageNet的元测试集上的平均少次分类准确率（%）和95%置信区间。a-b-c-d表示在每层中具有a、b、c、d个滤波器的4层卷积网络。model backboneminiImageNet 5-way tieredImageNet 5-way发生在训练数据中。为了正则化映射字典，我们在字典S上添加稀疏损失：Vsparse=argmaxcos（Sv，Sv′）2（6）v′图3：组件字典中元素的可解释性说明。每一行都可视化了miniImageNet数据集中激活最多的一个字典项的图像模式。v=1其中cos（Sv，Sv′）是S的两个随机元素之间的余弦相似性.该正则化器鼓励映射字典元素稀疏，从而避免元素变得彼此太相似。我们发现，利用余弦相似度的二阶信息避免了稀疏损失在训练的后期阶段主导梯度的方向，从而有助于模型收敛。3.5. 在元测试termL 集群（D）用于添加额外的正则化在元测试时，与许多其他方法不同，我们不会根据支持集进一步微调模型对于组件字典：cluster（D）=min（1 cos（Db fp））（5）Bp其中fp是指特征图F中的位置p处的特征向量，并且cos（，）是指余弦相似度。直觉上，这一损失促使字典在元测试阶段进行D训练。相反，我们用一个更简单的分类器替换了全连接的分类头，以避免过拟合。我们测试了不同的分类器，如基于不同距离度量的最近邻分类器、对数回归分类器、线性支持向量机。我们发现逻辑回归给出了最好的结果。总之，对于从Meta采样的任务（D训练，D测试）J J类似于特征向量fp。因此，字典被迫学习频繁地测试集S，我们通过整个嵌入函数向前推进D训练，以获得关注的组件激活单次拍摄5次射击单次拍摄5次射击MAML [9] 32-32-32-3248.70 ± 1.8463.11 ± 0.9251.67 ± 1.8170.30 ± 1.75[36]第36话第36话第36话43.56 ± 0.8455.31 ± 0.73--原型网络[32] 64- 64-64-6449.42 ± 0.7868.20 ± 0.6653.31 ± 0.8972.69 ± 0.74动态少拍[10] 64-64-128-12856.20 ± 0.8673.00 ± 0.64--联系网络[34] 64-96-128-25650.44 ± 0.8265.32 ± 0.7054.48 ± 0.9371.32 ± 0.78美国[25]58.50 ± 0.3076.70 ± 0.30--[20]第二十话62.64 ± 0.6178.63 ± 0.4665.99 ± 0.7281.56 ± 0.53[41] 2016年第41期65.10 ± 0.2081.11 ± 0.1470.41 ± 0.2384.38 ± 0.16美国[35]64.82 ± 0.6082.14 ± 0.4371.52 ± 0.6986.03 ± 0.49[22]第二十二话63.85 ± 0.8181.57 ± 0.56--美国[14]65.08 ± 0.8682.70 ± 0.5474.40 ± 0.6886.61 ± 0.59美国[5]67.40 ± 0.4383.40 ± 0.2872.14 ± 0.5187.01 ± 0.35[47]第四十七话67.04 ± 0.6383.63 ± 0.2968.99 ± 0.5085.49 ± 0.34[38]第三十八话67.76 ± 0.4682.71 ± 0.3171.89 ± 0.5285.96 ± 0.35[23]第二十三话67.67 ± 0.4582.44 ± 0.3171.51 ± 0.5285.44 ± 0.35[43]第四十三话67.05 ± 0.4482.90 ± 0.3072.24 ± 0.5086.73 ± 0.34Meta DeepBDC [37] ResNet-1267.34 ± 0.4384.46 ± 0.2872.34 ± 0.4987.31 ± 0.32我们的ResNet-1265.74 ± 0.5383.03 ± 0.3373.82 ± 0.5886.76 ± 0.523895××××映射与平均池化F接触的Φ，并在此表示上训练逻辑回归分类器。4. 实验在本节中，我们进行了大量的实验，证明了我们的模型的有效性。我们首先描述我们的详细设置，其中包括数据集，模型结构和超参数。然后，我们评估我们的模型，并与四个少数分类基准数据集的相关工作进行比较：miniImageNet [36]，tieredIm- ageNet [29]，CIFAR-FS [1]，Fewshot-CIFAR100（FC100）[25]第20段。分别讨论了在ImageNet和CIFAR衍生工具上的具体性能。我们进一步进行消融研究，以研究CORL管道中单个模块的影响。最后给出了组件字典中项的接收域。4.1. 实验设置架构根据之前的工作[24，25，28，4]，我们使用ResNet12作为我们的特征提取网络，它包含4个残差块，其中每个残差块包含3个卷积层。我们删除最后一个平均池化层，并在池化之前使用特征图进行后续计算。在我们的模型中，Dropblock被用作正则化器。组件字典D中的项目数是512，地图字典S中的项目数是2048。实作详细数据。方程中的损失系数4被设置为γ1= 1和γ2= 0。5的比例。我们使用SGD优化器，动量为0。9，重量衰减为5e−4。我们的批量大小设置为64，基本学习率为0。05. 我们通过对特征向量fp进行K均值聚类来初始化组件字典D，并在元训练阶段对其进行微调我们发现，组件字典的随机初始化不会降低最终性能，但K-means初始化有所帮助我们的模型收敛得更快，因为训练开始在miniImageNet和tieredImageNet上，我们训练模型100个epoch，对于CIFAR衍生物，训练的总epoch为90。我们采用余弦退火作为学习速率调度器。在训练过程中，我们采用常规的数据增强方案，如随机翻转。在处理CIFAR衍生数据集时，我们将输入图像的大小调整为84 - 84像素，以便具有足够的空间分辨率。在常见的实验设置之后，我们报告了基于平均600个元任务的性能，其中每个元任务包含每个类15个测试实例。为了公平比较，我们只在每个数据集的训练集上训练我们的模型，而不进行任何测试时训练。4.2. ImageNet衍生产品miniImageNet数据集是Matching Networks[36]第30段。它由100个随机抽样的不同类，每个类包含600个大小为84 - 84像素的图像。我们遵循Ravi等人提出的广泛使用的分裂协议。[27]，它使用64个类进行元训练，16个类进行元验证，20个类进行元测试。tieredImageNet数据集是ImageNet的一个更大的子集，由608个类组成，分为34个高级类别。它们进一步分为20类用于训练，6类用于验证，8类用于测试，分别对应于351，97和160个元训练，元验证和元测试类。这种考虑高级别类别的分割方法被应用于最小化分割之间的语义重叠。图片大小为84 84.结果表1总结了5路mini-ImageNet和tieredImageNet上的结果。我们的方法在miniImageNet基准测试中实现了5路1拍和5路5拍任务的可比较性能。在tieredIma-geNet上，我们还在5路5拍任务上实现了最佳性能，在5路1拍任务上实现了相当的性能。请注意，相关作品使用非常复杂的训练计划，以提高其性能。例如，除了WRN-28-10骨干网络之外，LEO [30]还使用编码器和关系网络来产生梯度下降的样本依赖初始化。FEAT[41] 和 LEO [30] 预训练 WRN-28-10 骨干，以分类miniImageNet的64个元训练集，然后继续元训练。FEAT [41]和MABAS [14]需要对元测试集进行额外的微调与所有这些方法相比这种策略使我们能够清楚地证明一个好的嵌入函数的效果，通过一个可以说是更简单的训练来实现更强的性能。4.3. CIFAR衍生物的实验CIFAR-FS数据集是最近提出的源自CIFAR的少量它由所有100个类组成，并进一步随机分为64个训练类，16个验证类和20个测试类。每个类包含600个大小为32 -32的图像。FC100数据集是另一个基于CIFAR的少量分类数据集。它的主要思想与tieredImageNet非常相似，其中全部100个类被分组为20个超类。每个超类由5个标准类组成.这些超类被分为12、4、4个，分别用于训练、验证、测试。结果表2总结了5路CIFAR-FS和FC 100的性能。我们的模型在CIFAR-FS和FC 100基准测试中的所有任务上都取得了相当的性能。我们观察到CIFAR-FS数据集上的相对改善率比FC 100数据集更大，这与Im上的泛化模式类似3896表2：与CIFAR-FS和FC 100上先前工作的比较。在CIFAR-FS和FC 100的元测试集上，具有95%置信区间的a-b-c-d表示在每层中具有a、b、c、d个滤波器的4层卷积网络型号骨干CIFAR-FS 5路FC 100 5路表3：消融研究。我们的消融模型在四个少量分类基准上的性能。当我们进行烧蚀实验时，考虑到损失项，模型是该指标是平均少拍分类准确度（%）。地图字典关注集群损失稀疏损失迷你图像单次拍摄Genet5次射击tieredImageNet1发5发CIFAR-FS1发5发FC1001发5发✓61.4277.4369.6782.3370.2383.2140.2857.0261.7178.6570.5382.6770.8983.7240.6257.72✓✓62.0379.4471.1083.4271.6784.5941.1358.25✓✓✓64.2481.7472.3285.9373.0785.5443.2460.35✓✓✓✓65.7483.0373.8286.7674.1387.5444.8261.31ageNet衍生工具。也就是说，在元训练集和元测试集之间存在语义差距的基准上，我们的方法的性能受益较少。我们希望在未来的工作中找到一个很好的方法来微调我们的模型在元测试阶段，以减轻这个问题4.4. 消融实验在本节中，我们对CORL管道进行消融研究，以分析其变体如何影响少量分类结果。我们研究我们的方法的以下三个部分：（a）地图词典;（b）关于激活的空间分布图的注意模块;（c）分量字典的聚类损失;（d）映射字典的稀疏损失。此外，我们还分析了组件词典D、映射词典S中的项目数的结果。表3显示了我们在mini-ImageNet、tieredImageNet、CIFAR-FS和FC 100上的消融研究结果我们可以看到，当引入映射字典时，该模型超越了纯词袋模型，即使没有进一步使用，也能获得平均0.7%的性能增益失去了控制它。这清楚地表明，考虑组件之间的空间关系有助于模型。此外，增加重要成分及其关系的注意机制使平均成绩平均提高0。6%，所有数据集。由于我们的聚类损失使成分字典D中的项规则化，我们平均获得约2。百分之三。此外，这种损失增加了我们的模型的可解释性，因为它使这些组件检测器检测到的图像补丁我们的稀疏损失regularizer提高了另一个1的性能。5%，这说明了使地图字典中的项目彼此不同的好处。表4显示了组件字典D的大小B对我们的模型在miniImageNet上的性能的影响。由于字典中的项目太少，我们的模型不包含足够的信息来建模对象的基于组件-整体的关系。然而，如果大小B变得太大，则它损害每个组件表示以准确地捕获相应的特征，并且许多项可能集中在无意义的返回上。单次拍摄5次射击单次拍摄5次射击MAML [9] 32-32-32-3258.90 ± 1.9071.50 ± 1.00--原型网络[32] 64- 64-64-6455.50 ± 0.7072.00 ± 0.6035.30 ± 0.6048.60 ± 0.60联系网络[34] 64-96-128-25655.00 ± 1.0069.30 ± 0.80--美国[25]--40.10 ± 0.4056.10 ± 0.40[28]第二十八话69.20 ± n/a84.70 ± n/a--[26]第二十六话70.40 ± n/a81.30 ± n/a--[32]第三十二话72.20 ± 0.7083.50 ± 0.5037.50 ± 0.6052.50 ± 0.60[20]第二十话72.60 ± 0.7084.30 ± 0.5041.10 ± 0.6055.50 ± 0.60[42]第四十二话--46.47 ± 0.7863.22 ± 0.71美国[35]73.90 ± 0.8086.90 ± 0.5044.60 ± 0.7060.90 ± 0.60美国[14]73.51 ± 0.9685.49 ± 0.6842.31 ± 0.7557.56 ± 0.78[39]第三十九话75.40 ± 0.2086.80 ± 0.2043.80 ± 0.2059.70 ± 0.20[47]第四十七话73.45 ± 0.4788.04 ± 0.33--我们的ResNet-1274.13 ± 0.7187.54 ± 0.5144.82 ± 0.7361.31 ± 0.543897图4：组件字典D中元素的可视化。每行可视化两个字典组件的激活。请注意，即使在训练过程中没有使用零件注释，学习的组件也会激活语义上有意义的图像模式，例如轮胎、动物头部或瓶子的零件。表 4 ：在 mini-ImageNet 的元测试集上测试准确度（%），其中组件字典中的项目数量不同。过多或过少的项目都会损害模型的性能。因此，加大了学习难度。图5展示了映射字典S中的条目数量对我们的模型在四个基准测试中的性能当条目数增加时，性能首先提高，但随着字典变大而饱和。业绩保持在同一水平，甚至有下降的趋势这些结果表明，当字典的容量很小时，我们的模型不能存储所有必要的信息。但是，如果容量变得太大，模型就会开始过拟合。4.5. 组件的可视化在图4中，我们按照[46]提出的方法可视化了组件字典D中元素的激活具体来说，我们对来自miniImageNet数据集的图像上的字典元素的响应映射进行阈值化，并将它们扩展到原始图像大小。可视化结果表明，字典组件响应语义有意义的图像模式，如轮胎，动物头部，或一个瓶子的一部分。总之，我们的模型（表1和表2）的强区分能力和图4中的定性可视化表明，我们的组合表示学习方法使模型能够学习语义上有意义的局部图像模式。图5：在map字典中具有不同数量条目的元测试集上的测试准确率（%）。我们的模型的性能在第一次增加和饱和在某个点上有轻微的趋势进一步下降。在培训期间没有部分级别的监督。5. 结论在这项工作中，我们研究了少镜头图像分类问题。受人类对象的组成表示的启发，我们引入了CORL，这是一种用于少数分类的新型神经架构，通过组成表示共享进行学习。特别是，CORL学习一个知识库，其中包含一个字典的组件表示和字典的组件激活地图，编码频繁的空间激活模式的组件。在元测试期间，这些知识被重用以从很少的样本中学习看不见的类我们广泛的实验证明了我们的方法的有效性，在四个流行的少拍分类基准上实现了相当的性能。鸣谢。作者感谢ONR N 00014 -21-1-2690的支持。AK通过他的Emmy Noether研究小组获得了支持，该研究468670075组件字典大小BminiImageNet1发5发25663.8281.1351265.7483.03102465.1282.453898引用[1] Luca Bertinetto 、 Joao F Henriques 、 Philip HS Torr 和Andrea Vedaldi。使用可微封闭形式求解器的元学习。arXiv预印本arXiv：1805.08136，2018。[2] 欧文·比德曼按组件识别：人类图像理解的理论。Psychological Review，94（2）：115，1987.[3] Jifeng Dai，Yi Hong，Wenze Hu，Song-Chun Zhu，andYing Nian Wu.分层组合模型字典的无监督学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2014年6月。[4] GuneetSDhillon ， PratikChaudhari ， AvinashRavichandran，and Stefano Soatto.少数拍摄图像分类的基线。arXiv预印本arXiv：1909.02729，2019。[5] 南一飞，陆志武，陶翔，黄松芳。Melr：通过对片段级关系进行建模进行元学习，以进行少量学习。在2020年国际学习代表会议上[6] 雅各布·费尔德曼感知范畴的结构数学心理学杂志，41（2）：145[7] Sanja Fidler，Marko Boben，and Ales Leonardis.学习一个多类对象表示的层次组合形状词汇表arXiv预印本arXiv：1408.5516，2014年。[8] 桑娅·菲德勒和艾尔斯·莱昂纳迪斯朝向对象类别的可缩放表示：学习零件的层次结构。2007年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2007年。[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。国际机器学习会议，第1126-1135页。PMLR，2017年。[10] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在 IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[12] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，2018年6月。[13] 艾伦·杰恩和查尔斯·坎普。范例和类别生成的概率解释。认知心理学，66（1）：85[14] Jaekyeom Kim Hyoungseok Kim和Gunhee Kim。用于少量学习中测试时间生成的模型不可知边界对抗采样。在计算机Springer，2020年。[15] Adam Kortylewski，Ju He，Qing Liu和Alan L.尤尔。复合卷积神经网络：一种对部分遮挡具有天生鲁棒性的深层架构在Pro-IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[16] Adam Kortylewski，Qing Liu，Angtian Wang，YihongSun，and Alan Yuille.合成卷积神经网络-工作：一个鲁棒的可解释的遮挡下目标识别模型。国际计算机视觉杂志，第1-25页[17] Adam Kortylewski，Qing Liu，Huiyu Wang，ZhishuaiZhang，and Alan Yuille.结合组合模型和深度网络，在遮挡下实现鲁棒的对象分类。arXiv预印本arXiv：1905.11826，2019。[18] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[19] Brenden M Lake，Ruslan Salakhutdinov，and Joshua BTenenbaum.通过概率程序归纳的人类水平概念学习。Science，350（6266）：1332-1338，2015.[20] KwonjoonLee，SubhransuMaji，AvinashRavichandran，and Stefano Soatto.基于可微凸优化的元学习。在 IEEE/CVF 计算机视觉和模式识别会议（CVPR）上，2019年6月。[21] Renjie Liao，Alex Schwing，Richard Zemel，and RaquelUrtasun.学习深度简约表征。神经信息处理系统的进展，第5076-5084页，2016年[22] 刘斌，曹悦，林宇彤，李琦，张征，龙明生，韩虎.负保证金问题：少数镜头分类中的边缘理解。欧洲计算机视觉会议，第438-455页。Springer，2020年。[23] Chen Liu，Yanwei Fu，Chengming Xu，Siqian Yang，Jilin Li，Chengjie Wang，and Li Zhang.用对比学习方法学习少镜头嵌入模型。在AAAI人工智能会议集，第35卷，第8635-8643页[24] Nikhil Mishra ， Mostafa Rohaninejad ， Xi Chen ， andPieter Abbeel.一个简单的神经专注元学习者。arXiv预印本arXiv：1707.03141，2017。[25] 鲍里斯·奥列什金、帕·罗德·雷格斯·洛佩斯和艾尔·亚历山大·拉科斯特.Tadam：用于改进的少数学习的任务相关自适应度量。In S. Bengio，H. Wallach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展，第31卷，第721-731页Curran Associates，Inc. 2018年。[26] Limeng Qiao ， Yemin Shi ， Jia Li ， Yaowei Wang ，Tiejun Huang，and Yonghong Tian.用于少量学习的转导式逐段自适应度量。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。[27] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。2016年。[28] Avinash Ravichandran、Rahul Bhotika和Stefano Soatto。使用嵌入式类模型和无镜头Meta训练的少镜头学习在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。3899[29] Mengye Ren ， Eleni Triantafillou ， Sachin Ravi ， JakeSnell ， Kevin Swersky ， Joshua B Tenenbaum ， HugoLarochelle，and Richard S Zemel.用于半监督少镜头分类的元学习。arXiv预印本arXiv：1803.00676

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

少镜头分类中的组合表示学习方法

基于伙伴辅助学习的少镜头图像分类

干扰子在少镜头分类中的重要性

集合特征提取的少镜头图像分类方法

基于混合特征空间学习的少镜头图像分类

基于深度学习的镜头运动分类算法应用场景

zemax的镜头优化的学习方法与书籍有？

光学检查镜头的mtf测试方法研究 pdf

多组镜片组合的定焦镜头离轴

现代光学镜头设计方法与实例pdf

如何从zemax镜头库中找出鲍威尔棱镜

详细介绍下镜头选型中的光圈

r语言 视频数据处理视频数据处理 问题(1): 发现视频的显著特征，比如爱情片中的拥抱镜头，动作片的打斗镜头，喜剧片中的搞笑镜头； 问题(2): 对于较长视频，能够自动统计上述显著特征的数量。

详细介绍下镜头选型中的畸变率

镜头中HFOV中文介绍

多组镜片组合的定焦镜头，其中一个镜片位置变化导致离轴？

zemax sample镜头库

镜头光学设计宝典结合设计zemax

openmv镜头畸变

像素和分辨率，帧率（FPS），颜色、三原色 镜头的焦距， 图像在计算机中的存储方式，1位~32位所表示的图像的基础概念，要求1000字以上

最新资源

r语言视频数据处理视频数据处理问题(1): 发现视频的显著特征，比如爱情片中的拥抱镜头，动作片的打斗镜头，喜剧片中的搞笑镜头；问题(2): 对于较长视频，能够自动统计上述显著特征的数量。

像素和分辨率，帧率（FPS），颜色、三原色镜头的焦距，图像在计算机中的存储方式，1位~32位所表示的图像的基础概念，要求1000字以上