深度学习:用于少镜头识别的简化正则化技术

120 浏览量更新于2023-10-16 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6372用于少镜头识别卡内基梅隆大学{potokmako，yuxiongw，hebert}@ cs.cmu.edu摘要现代深度学习方法的关键限制之一在于训练它们所需的数据量。相比之下，人类可以从几个例子中学会识别新的美食。这种快速学习能力的工具是人类大脑中概念表征的组成结构-这是深度学习模型所缺乏的。在这项工作中，我们通过引入一种简单的正则化技术，使学习到的表示可以分解成部分，从而朝着弥合人类和机器学习之间的差距迈出了一步。我们的方法使用类别级别的属性注释来解开网络的特征空间到对应于属性的子空间。这些属性可以是纯粹的视觉，如对象部分，或更抽象，如开放性和对称性。我们在三个数据集上展示了组合表示的价值：CUB-200-2011，SUN 397和ImageNet，并表明他们需要更少的例子来学习新类别的分类器。我们的代码和训练模型以及收集的属性注释可在https：//sites.google.com/view/comprepr/home网站。1. 介绍考虑图1中CUB-200-2011数据集[41]中代表四个类别的图像。给定一个使用前三个类别学习的表示，如红色所示，第四个类别的分类器，如绿色所示，可以从几个甚至一个示例中学习这是一个被称为少次学习的问题[39，21，18，44，12]。显然，这取决于表示的属性。认知科学将组合性确定为对这一任务至关重要的属性。概念的人类表示可分解为部分[5，17]，例如图1中图像右上角所示的部分，允许分类器通过已知原语的组合快速学习新概念[13]。以新鸟类为例，它的所有区别性属性在前三类中都已经观察到了图1.来自CUB-200-2011数据集的四个类别的图像，以及它们的一些属性注释。我们提议，姿势学习图像表示，可分解的属性。因此，这些表示可以用来识别新的类别，从几个例子。血淋淋的这些想法在计算机视觉中具有很大的影响力，其中一些视觉概念的第一个模型被构建为部分和关系的组合[26，27，45]。然而，几乎所有视觉识别任务的最先进方法都基于深度学习[24，20]。深度神经网络的参数使用基于梯度的方法针对最终任务进行了优化，导致不容易解释的对这些表征进行了大量的定性解释[47，48]，证明了一些神经元代表对象部分。最近，已经提出了一种定量方法来评估深度表征的组合性[3]。然而，这些方法并没有研究改善神经网络的组成特性的问题在本文中，我们提出了一种简单的正则化技术，该技术迫使深度图像表示可分解为部分，并且我们实证地证明了这种表示有助于学习。从更少的例子中为新概念分类我们的方法将图像数据集及其类标签和类别级属性注释作为输入。属性可以是纯视觉的，例如对象部分（喙形状）和场景元素（草），或者更抽象的，例如场景的开放性在[3]中，6373如果图像的真实编码可以被表示为这些属性的编码的组合，则将图像的真实编码定义为在一组属性根据这个定义，我们建议在学习图像表示时使用属性注释作为约束。这导致了一种方法，该方法在给定具有其对应属性注释的图像的情况下，联合学习用于图像嵌入的卷积神经网络（CNN）和用于属性嵌入的线性层。然后，属性嵌入用于将图像表示约束为等于属性表示的总和（参见图2（b））。然而，这种约束意味着可以使用详尽的属性注释这样的假设对于大多数图像域是为了解决这个问题，我们提出了一个宽松版本的组合性正则化。它不要求图像表示精确等于属性嵌入的总和，而是简单地最大化属性和图像嵌入之间的个体相似性之和（见图 2（c））。这确保了图像表示反映类别的组成结构，同时允许其对注释中未捕获的剩余变化因素最后，我们观察到，强制执行正交的属性嵌入导致更好地解开所得到的图像表示。我们在三个不同大小和领域的数据集上评估了我们的组合表示：CUB-200-2011 [41]用于细粒度识别，SUN 397用于场景分类[46]，ImageNet [9]用于对象分类。当有许多训练示例可用时，它的性能与在没有属性监督的情况下训练普通分类器的基线相当，但在少数情况下，它显示出更好的泛化行为。特别是，我们的模型在SUN397上最具挑战性的1次拍摄场景中，在基线上实现了8%的前5名精度改进。我们的方法的一个明显的局限性是它需要额外的注释。有人可能会问，收集属性标签的成本有多高，更重要的是，如何为任意数据集定义属性词汇表。为了说明收集类别级属性实际上相对容易，即使是对于大规模数据集，我们为[15，42]中一个关键的细节是，属性必须在类别上标记，而不是在图像级别上，这使得我们能够在短短三天内收集注释。此外，请注意，我们的方法不需要对新类进行。我们的贡献是三方面的。(1)我们在第3节中提出了第一种学习深度成分表示的方法。我们的方法将图像及其属性注释作为输入，并应用正则化器来强制图像表示被分解。能够超越属性。(2)我们在第3.3节中说明了在ImageNet数据集的子集上收集属性注释的简单性。(3)我们提供了一个全面的分析，学习表示的上下文中的几杆学习三个数据集。第4节中的评估表明，我们提出的方法导致一个表示，概括显着更好，需要更少的例子来学习新的类别。2. 相关工作少样本学习是一个经典的识别问题，只有很少的训练样本[39]。Lake等人[21]用贝叶斯概率程序明确编码组合性和因果关系属性。然后，学习可以归结为构建最好地解释观察结果的程序，并且可以通过每个类别的单个示例有效地完成。然而，这种方法受到必须为每个新域手动定义用于少量学习的最先进的方法可以分为基于度量学习的方法[18，40，36，38]-训练网络以预测两个图像是否属于同一类别，以及围绕元学习的思想构建的方法[12，33，43，44]-训练损失，明确地强制权重容易适应新类别，这里仅举几个例子。与这些方法分开，一些工作提出学习为看不见的类别生成额外的示例[42，15]。最近，研究表明，使用余弦相似度作为距离度量对于在少数学习评估中获得最佳结果至关重要[14]。最近，Chenet al. [7]证明了一种简单的基线方法-在冻结的CNN上学习的线性层-在两个少量学习基准上实现了最先进的结果其基线成功的关键是在少拍训练中使用余弦分类函数和应用标准数据增强技术。在这里，我们证实了他们关于这个基线在更现实的环境中令人惊讶的效率的观察，并证明了在组合特征表示的基础上学习分类器会导致性能的显著提高。组成表征在认知科学文献中得到了广泛的研究[5，17，13]，其中Biderman一个吸引人的道具-组合表示的优点在于，它们允许通过组合已知的原语，从几个甚至单个示例中学习新的概念Lake等人[22]认为组合性是人类智能的关键组成部分之一虽然早期的计算机视觉模型本质上是组合的[26，27，45]，建立在特征层次结构[11，49]和基于部分的模型[30，10]上，但现代深度学习系统[24，20，16]确实6374没有明确地将概念建模为部分的组合。对深度网络[47，35，25，48，19]学习的内部表示的分析表明，隐藏层中的一些神经元确实对对象和场景部分进行了然而，所有的工作观察到，所发现的组成结构是有限的，网络激活的定性分析是高度主观的。最近，Andreas提出了一种定量评估学习表征组合性的方法[3]。本文假设图像的特征编码是组合的，如果它可以表示为描述图像的属性的编码的总和，并设计了一个算法来量化这个属性。我们证明，天真地把这一措施变成一个训练目标的结果在劣质的性能，我们提出了一个补救措施。在之前明确解决深度学习模型中的组合性的工作中，Misraet al.[29]建议训练一个网络，通过为部件组合现有的分类器来预测新概念的分类器。相比之下，我们建议训练一个单一的模型，在内部将概念分解为部分，并在几个镜头中显示结果Stone等人[37]提出了空间复合性的概念，将图像中对象的网络表示约束为彼此独立并与背景独立。然后，他们证明了用这种约束训练的网络更好地推广到测试分布。虽然我们还强制将网络表示分解为部分，以提高其泛化能力，但我们的方法不需要空间甚至图像级的监督。因此，我们可以处理抽象属性，并很容易应用于大规模数据集。属性学习已经在各种应用中得到了研究。最值得注意的是，zero-shot学习方法使用类别级别的属性来识别新的类别，而无需看到任何训练示例[1，2，8，23]。为此，他们学习将属性作为输入的模型，并预测图像分类器，使它们能够识别以前从未见过的类，只要它们可以由已知的属性词汇表描述。相比之下，我们的方法使用属性来学习组合图像表示，需要更少的训练样本来识别新的概念。至关重要的是，与这些方法不同，我们的方法不需要对新类进行。使用属性的另一个背景是主动学习[31]和半监督学习[34]。在[31]中，属性分类器用于基于用户反馈挖掘类别的硬负面图像。我们的方法是离线的，不需要用户交互。在[34]中，属性用于在从少量标记图像和大量未标记图像中学习时显式提供约束。我们的方法使用属性来正则化学习的深度图像表示，从而使这些约束由网络隐式编码。3. 我们的方法3.1. 问题公式化我们认为，少数拍摄图像分类的任务我们有一组基本范畴Cbase和一个相应的数据集Sbase={（ xi ，yi），xi∈X，yi∈Cbase}，其中每个类包含大量的例子。我们也有一组看不见的新类别Cnovel和相应的数据集Snovel={（xi，yi），xi∈X，yi∈Cnovel}，每个类只包含n个例子，其中n可以只有一个。我们在S基上学习了一个由θ参数化的表示模型fθ，该模型可用于Snovel上的下游分类任务。虽然可能存在许多可能的表示，可以学习，并实现类似的泛化性能的基础类别，我们认为，一个是可分解成共享的部分将能够更好地推广到新的类别，从更少的例子。再次考虑图1中的示例。 Intu-100是一个内部学习识别属性喙：弯曲，翅膀颜色：灰色和胸部颜色：白色的模型，它能够简单地通过组成来获得从未见过的鸟类物种的分类器。但是，如何在深层表征模型的空间中表达这种直观的组合性概念呢遵循[3]中提出的形式主义，在基本数据集Sbase上，我们用关于它们的结构的信息来扩充样本xi的类别标签yi∈ Cbase，所述结构的形式为定义在一个集合D0 上的导子D（xi）。也就是说，D（xi）是D0的子集。在实践中，这些原语可以被看作是部分，或者更广泛地说，在-描述了实施例的组成结构。那么派生就是属性标签的简单集合例如，对于CUB-200-2011数据集，基元集合由诸如喙：弯曲、喙：针等项组成，图1（a）中的图像的推导是{ 喙：弯曲，翅膀颜色：棕色， .{\fn 方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}我们现在利用推导来学习一个基本类别的表示。请注意，对于小说类别，我们只能访问类别标签，而不能访问任何派生。3.2. 组合性正规化在[3]中，如果每个fθ（x）都由D（x）决定，则fθ被定义为D0上的合成表示.也就是说，可以从对应属性的该定义以如下方式形式化：Σfθ（xi）=fη（d），（1）d∈D（xi）其中f∈η是由η参数化的属性表示，d是xi的导数的元素。实际上，f∈η是6375(a)(b)（c）第（1）款图2.概述我们提出的组合正则化。我们的目标是通过利用属性注释来学习可分解为部分的图像表示。首先，图像用CNN编码，其属性用线性层（a）编码。然后，我们提出两种形式的正则化：一个是硬的，如（b）所示，一个是软的，如（c）所示。前者是强制图像表示完全由属性描述。后者是一个宽松的版本，允许一部分表示编码有关图像的其他信息（以灰色显示）。实现为线性嵌入层（参见图2（a）），因此η是大小为k×m的矩阵，其中k=| D0|m是图像嵌入空间的维数。给定固定的、预训练的图像嵌入fθ，等式（1）可以在-在η上进行优化以发现最佳可能分解。在[3]中，该分解然后用于评估在保持的图像集上的重建误差并量化fθ的合成性。相反，在这项工作中，我们希望使用属性an-对下游的分类任务很重要。然而，即使是在CUB这样一个狭窄的领域中，获取抽象的属性注释也是非常昂贵的事实上，对于更大规模的数据集，比如SUN和ImageNet。理想情况下，我们只需要图像嵌入fθ的一部分来模拟D0中的基元，允许其他部分来模拟数据中的其余变化因素。更正式地说，我们希望强制执行一个比等式中的约束更软的约束。（一）：改进图像Σf（x）=f（d）+w（x），（4）表示。天真地，人们可以想象一种方法，直接在Eq中执行等式。（1）同时学习图像表示。事实上，它不仅是可微的关于ηbut也关于θbut。我们可以这样转身θ i ηid∈D（xi）其中，w（xi）表示图像表示中未由属性描述的部分它转化为目标函数σ（fθ（xi），d∈D（xi）f∈η（d）），为了达到这个目的，我们没有强制执行完全分解，其中σ是距离函数，例如余弦相似性，并且联合优化fθ和fθη。硬约束：基于这一观察，我们提出了一个硬性组合约束：的图像嵌入的属性，我们建议，以最大限度地提高个人之间的相似性的总和每个顶点的嵌入和用点积的图象嵌入：d∈D（xi）fθ（xi）·f∈η（d）.优化Lcmph（θ，η）=Σ。σ fθ（xi），我Σd∈D（xi）fη（d）Σ.（二）这一目标与Lcls共同确保fθ捕获了该方法可以使用由属性编码的组成信息，同时允许它对对分类任务有用注意，为了避免triv-它可以作为正则化项与分类损失Lcls，例如softmax。直观地，Eq.（2）对参数θ的基于梯度的优化施加了约束，迫使它从所有同样能很好地解决分类问题的表示中选择一个在预定义的vocabu上完全可分解的一组基元D0。硬约束如图2（b）所示。总的来说，我们使用以下内容的解，与嵌入的属性，不是在D（xi）的相似性必须在同一时间最小化。软约束：我们提出的软组合约束定义如下（见图2（c）的可视化）：Lcmps（θ，η）=培训损失ΣΣf（x）·f∈（d）−f（x）·f∈（d）.（五）L（θ，η）=Lcls（θ）+λLcmph（θ，η），（3）iηd/∈D（xi）i ηd∈D（xi）其中λ是平衡两个目标的重要性的超参数。在Eq中的一个关键假设（1）是推导D是穷举的。换句话说，为了使这个等式成立，D0必须捕捉图像的所有方面，很容易看出，这个公式相当于多-当属性分类器的权重被处理为嵌入f∈η（d）时的标签分类。与硬变量相比，在Eq。它允许图像编码fθ的一部分（图2（c）中以灰色显示）表示属性注释未捕获的信息。6376CUB-200-2011 SUN397 ImageNet图3.本文中使用的三个数据集的类别示例以及属性注释示例最后，我们观察到一些属性可以在训练集中高度相关。例如，SUN上的大部分自然场景也有植被。直接优化方程（5）对于这样的属性，将无法解开相应的变化因素，限制了学习的图像表示的泛化能力。为解决这个问题，我们建议属性嵌入f∈η的正交性。特别是我们的最终目标是：我们自己收集。下面我们描述收集这些注释的关键步骤。我们严重依赖WordNet [28]层次结构来定义属性词汇表并收集它们。首先，我们在层次结构的每个级别上定义属性：每个对象都有大小和材料，大多数哺乳动物都有腿和眼睛等。这使我们能够获得一个词汇表，既广泛，类别的交叉边界，又足够具体，捕捉歧视性的属性。秒-L（θ，η）=LCLS（θ）+λLcmp s（θ，η）+β| ηη T−I|、（6）第二，我们还依靠属性的层次属性来简化标注过程。特别是其中I是单位矩阵，β是控制正交性约束重要性请注意，最近在其他领域也提出了类似的约束[4，6]。3.3. 获得属性监督的复杂性到目前为止，派生D（x i）是在实例级别上定义的。这样的精细化监管，是非常不...渴望得到。为了缓解这一问题，我们主张-任何给定类别中的立场共享相同的组成结构。事实上，所有的海鸥都有弯曲的喙和短脖子，所以我们可以通过将派生重新定义为D（xi）=D（yi）来显著减少注释工作。一个问题可能是，在所有海鸥的图像中，喙都是不可见的。虽然这是真的，我们认为，这种标签噪声可以忽略不计，在实践中，这是验证empiri- cally在第4节。我们使用三个数据集进行实验评估：CUB- 200-2011 [41]，SUN 397 [46]和ImageNet [9]。来自三个数据集的不同类别的图像样本及其属性注释如图3所示。我们的方法处理具体的视觉属性，如材料和颜色，以及抽象属性，如开放性和对称性。对于前两个数据集，attribute注释是公开可用的，但对于ImageNet，注释器首先被询问类别的通用属性，比如它是否是有生命的，然后所有特定于无生命实体的属性被自动设置为负值这种修剪应用于层次结构的每个级别，允许单个注释器在短短3天内收集[15]的基本分割中的386个类别的属性4. 实验4.1. 数据集和评估我们使用三个数据集：CUB-200-2011、SUN 397和ImageNet。下面我们将更详细地描述它们中的每一个及其评估协议。CUB-200-2011是用于细粒度分类的数据集[41]。它包含11，788张鸟类图像，标记有200个类别，对应于鸟类物种。数据集被均匀地分成训练和测试子集。此外，作者还收集了307个属性的注释，这些属性对应于鸟类部分的外观这些属性注释已经通过众包在图像级别上收集。我们在类别级别上聚合它们，如果类别中至少有一半的图像被标记为具有特定属性，则将类别标记为具有特定属性。我们进一步6377通过只保留那些被标记为至少五个类别的属性来过滤掉罕见的属性，从而在训练中使用130个属性。为了进行少量的评估，我们将200个类别随机分为100个基本类别和100个新类别。SUN397是用于场景识别的SUN数据集的一个子集，其中包含397个采样最好的类别，总计108，754张图像[46]。Patterson等人[32]已经收集了这些场景类别的区别性属性，产生了106个属性的词汇表，这些属性既有区别性，又在场景类之间共享。似-余弦余弦+硬余弦+软余弦+软+正交70 6060 5050 4040 30对于CUB，我们将这些图像级注释聚合起来，1发5发1-5-shot如果类别中有一半的图像具有属性，则将类别标记为具有该属性，并过滤掉不频繁的属性，从而在训练中使用89个属性。对于少数镜头评估，我们随机将场景类别分为197个基本类别和200个新类别。ImageNet是一个以对象为中心的数据集[9]，其中包含1，200，000张图片，标注了1，000个类别。猫-词是从WordNet [28]层次结构中抽取的，构成了从动物到乐器的各种概念词汇表。为这样的数据集定义属性的词汇表是不平凡的，并且以前没有完成。我们在3.3节中更详细地描述了我们收集属性的方法。对于少数镜头评估，我们使用[15，42]中提出的分割。4.2. 实现细节在[15，42]之后，我们使用ResNet-10 [16]架构作为所有模型的主干，但也使用补充材料中的更深层次变体报告结果。我们在所有网络的末尾添加了一个没有非线性的线性层，以帮助学习余弦分类器。网络首先使用小批量SGD在基本类别上进行预训练，如[15，42，7]所示。学习率设置为0.1，动量设置为0.9，权重衰减设置为0.0001。批量大小和学习率计划取决于数据集大小，并在补充材料中报告。所有模型都是用sofmax交叉熵损失训练的，如等式中的Lcls。（三）、我们的软组合约束方程。（5）是用多标签、一对所有损失来实现的。我们观察到，当从头开始训练时，所提出的组合性规则化会减慢收敛速度。为了缓解这个问题，我们首先使用标准分类损失对网络进行预训练，然后使用相同的优化参数对相同数量的epochs进行正则化微调。为了进行公平的比较，基线模型以相同的方式进行微调。我们在等式中设置超参数λ和β（6）对于每个数据集，分别使用验证集。在少量训练中，我们使用[7]中提出的基线特别是，我们在冻结的CNN表示上学习线性或余弦分类器。与[7]类似，我们在小说上联合学习分类器CUB-200-2011 SUN397图4.将我们的组成性正则化的变体与CUB和SUN数据集的新类别的基线进行比较y轴表示前5名精度。我们的软正则化与正交约束实现了最佳性能的两个数据集。基础类别。我们使用小批量SGD，批量大小为1,000，学习率为0.1，但发现训练对这些超参数具有鲁棒性重要的是训练迭代的次数。这个数字取决于数据集和分类器（参见补充材料）。总体而言，我们遵循[42]中提出的评估方案4.3. 成分表示在这里，我们分析我们的compositionallity约束是否会导致学习表征，能够从几个例子中识别新的类别我们使用CUB和SUN数据集，因为它们具有高质量的注释。在[14，7]之后，由于其优越的性能，我们在大多数实验中使用余弦分类器。补充材料中提供了使用网络解剖[48硬组合约束和软组合约束的比较：我们通过比较两种组合性正则化的变体来开始我们的分析：一个是EQ。（2）和方程中的软一个。（五）、图4显示了CUB和SUN这两个新类别的前5名性能。我们在1次和5次拍摄场景中进行评估。首先，我们注意到，基于硬和约束的正则化变体（显示在或- ange中）略微提高了CUB上的基线性能，但导致SUN上的性能下降。这并不令人惊讶，因为这个约束假设了详尽的属性注释，如第3节所述。在CUB上，鸟部分的注释确实捕捉到了大多数重要的变异因素，而SUN上的属性则不那么直观。相比之下，我们提出的软约束（以灰色显示）允许表示捕获属性注释中未描述的重要信息。强制正交的属性嵌入，提出在方程。（6）、进一步提高了性能。的新类别的前5名准确率（%）63789190表1.我们的方法分析：小说和所有的前5个准确度（即，新+基础）类别。'Cos'：使用余弦分类器的基线，'Cosw/comp'：我们使用余弦分类器的 compo- sitional 表示， “ Li n e a rw / c o m p ” ：我们的线性分类器的组成表示用数据增强训练的变量标记为898887CUB-200-2011 SUN397单次拍摄小说2-拍摄 5次射击单次拍摄所有2-拍摄5次射击Cos35.445.656.452.156.761.9Cos w/comp43.454.565.954.960.466.3线性w/comp41.251.863.350.157.666.4Cos +数据aug39.949.759.754.258.563.5Cos w/ comp + data aug45.956.767.156.361.567.3线性w/ comp +数据aug41.151.662.351.757.163.3表2.我们的方法分析：小说和所有的前5个准确度（即，小说+基础）类别的SUN数据集。'Cos'：使用余弦分类器的基线，'Cosw/comp'：我们使用余弦分类器的 compo- sitional 表示，“ Li n e a r w / c o m p ” ：我们的线性分类器的组成表示用数据增强训练的变量标记为SUN上的改进更大，因为属性在该数据集中的相关性更高。总体而言，在最具挑战性的单次拍摄场景中，我们的完整模型（以黄色显示）在CUB上将性能提高了6.4%，在SUN上提高了8%。在5次注射制度中也观察到类似的改善。这证实了我们的假设，即强制学习的表示在类别级属性上是可分解的，这允许它以更少的例子推广到新的类别。因此，我们在本文的其余部分使用我们的方法与正交约束的软变体消融研究：我们进一步分析了通过广泛消融使用软约束学习的成分表示，并在表1中报告了结果。在基础类和新类的具有挑战性的联合标签空间中的评估：我们注意到，关于组合性约束对上面针对新颖类别所做的学习表示的泛化性能的积极影响的观察对于新颖+基础设置（表1的右部分“全部”，第1和第2行）成立。特别是，我们的方法在1次拍摄中比基线提高了4.4%，在5次拍摄中提高了4.2%。余弦与线性分类器：线性分类器，被称为“线性w/comp”，表现明显不如余弦变量，特别是在新的+基础设置。在[14，7]中观察到类似的行为，并且归因于余弦分类器通过在点积运算之前对向量进行单位归一化来显式地减少图5.将我们的compositionallity正则化与CUB和SUN数据集的基本类别y轴表示相应验证集上的前5名准确度。这些改进比小说类的改进小数据增强的效果：[7 ]中的另一个观察结果是，为了进行公平的比较，标准数据扩充技术，例如，随机裁剪和翻转，需要在执行少数镜头学习时应用。我们在表1的下半部分报告了数据增加的结果。这里最重要的结果是，当在少数情况下学习分类器时，数据增强确实有效，提高了所有变量的性能相比之下，在补充材料中，我们证明了传统的少量学习方法无法从数据增强中显著受益。大规模评价：为了验证我们之前的观察结果，我们现在报告一个更大规模的SUN397数据集的结果[46]。表2分别总结了新型和新型+碱环境中的200和397向评价。总的来说，这里可以得出类似的结论，证实了我们的方法在不同领域和数据集大小上的有效性。属性数量的影响：我们还评估了用于训练的属性数量对补充材料中的少数镜头性能的影响。大样本性能：图5评估了余弦分类器基线（蓝色显示）和我们的合成表示（黄色显示）在CUB和SUN基本类别的验证集。由于成分表征的改善显著低于新颖类别（例如，在一次拍摄的情况下：2.5%，而CUB为6.4%，SUN为8%，只有1%这一观察结果证实了我们的主张，即所提出的方法不仅提高了模型的整体性能，而且提高了其在少数情况下的泛化能力。4.4. 与最新技术现在，我们将我们的组合表示与余弦分类器（表示为“Cos w/comp”）与基于Meta的最先进的少数镜头方法进行比较Cosine Cosine+Soft+Orth基类的前5名准确度（%）单次拍摄小说2-拍摄 5次射击单次拍摄所有2-拍摄 5次射击Cos46.157.068.958.263.369.8Cos w/comp52.563.673.862.668.474.0线性w/comp47.060.074.057.665.072.7Cos +数据aug47.758.069.458.764.070.1Cos w/ comp + data aug53.664.874.663.169.274.5线性w/comp+数据aug52.163.175.260.967.373.96379表3.与最先进方法的比较：小说和所有的前5个准确度（即，novel+base）类别。我们的方法始终如一地实现最佳性能。单次拍摄小说2-拍摄 5次射击10杆单次拍摄2-拍摄所有5次射击10杆原型网络[36]37.149.263.170.051.359.066.469.3[40]第四十话41.048.960.467.650.354.060.264.4关系网[38]35.149.063.770.351.058.666.569.1Cos w/ comp（我们的）43.454.565.971.454.960.466.369.2Cos w/ comp + data aug（Ours）45.956.767.172.356.361.567.370.0表4.与最先进方法的比较：小说和所有的前5个准确度（即，novel+base）类别。我们的方法始终如一地实现最佳性能。表5.与最先进方法的比较：对小说和所有的前5名准确度（即，使用ResNet-10主干的ImageNet数据集的novel+base）类别即使我们收集了噪声或歧视性较低的属性，我们的方法在1，2和5杆的情况下也达到了最佳性能它可以与数据生成方法[42]相结合，以进一步改进。学习[40，36，42，38]。我们在3个数据集上进行评估：CUB- 200-2011、SUN 397和ImageNet。对于CUB和SUN，它们具有公开可用的、注释良好的属性，表3和表4表明我们的方法很容易胜过它们即使没有数据增加，也可以全面地使用所有基线。在补充材料中，我们展示了其他方法在数据增强的情况下表现出边际改进。特别是，我们的完整方法在最具挑战性的1次和2次拍摄场景中为新类别的两个数据集提供了5到7点的改进，并在联合标签空间中实现了类似的改进。表5总结了我们自己收集属性注释的ImageNet上的比较。在这里，我们比较了[42]中报道的最先进的方法这些结果验证了我们的ap-proach的有效性注释属性的类别级别。与[41，32]中的众包注释相比，收集的注释可能是嘈杂的或不太有区别的。然而，我们的组合表示与一个简单的余弦分类器仍然实现了最好的性能在1-，2-和5次拍摄场景，并且仅在10次拍摄场景中被原型匹配网络优于[42]。5. 结论在这项工作中，我们提出了一个简单的基于属性的正则化方法，允许学习组合图像表示。当有许多训练样本可用时，所得到的表示与现有的方法相当，但在小样本大小的情况下泛化得更好。我们验证了我们的方法在从几个例子中学习的任务中的使用，在三个数据集上获得了组合性是现代深度学习方法中缺失的人类认知的关键属性之一，我们相信我们的工作是对这一主题进行更深入研究的先驱。致谢：这项工作得到了情报高级研究项目活动（IARPA）的部分支持，室内/室内商务中心（DOI/IBC）合同编号D17 PC 00345，ONR MURI N000141612007，以及美国陆军研究实验室（ARL）根据合作技术联盟计划，合作协议W 911 NF-10-2-0016。单次拍摄小说2-拍摄 5次射击10杆单次拍摄2-拍摄所有5次射击10杆原型网络[36]43.254.367.872.955.659.164.165.8[40]第四十话48.557.369.274.550.655.862.665.4关系网[38]39.554.167.172.751.957.463.165.3Cos w/ comp（我们的）52.563.673.878.562.668.474.076.4Cos w/ comp + data aug（Ours）53.664.874.678.763.169.274.576.9单次拍摄小说2-5-shot10杆单次拍摄2-拍摄所有5次射击10杆[42]第42话最后一句话45.857.869.074.357.664.771.975.2[42]第四十二话43.355.768.474.055.863.171.175.0[42]第四十二话45.055.967.373.056.963.270.674.5原型网络[36]39.354.466.371.249.561.069.772.9[40]第四十话43.654.066.072.554.461.069.073.7Cos w/ comp（我们的）46.658.068.573.055.463.871.274.46380引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid。基于属性分类的标签嵌入。CVPR，2013。3[2] 乔恩·阿尔马兹、阿尔伯特·戈多、艾丽西亚·福恩和欧内斯特·V·阿尔韦尼。单词识别和嵌入式的attribute。IEEETransactionsonPatternAnalysisandMachineIntelligence，36（12）：2552-2566，2014. 3[3] 雅各布·安德烈亚斯表征学习中的组合性测量。2019年，在ICLR。一、三、四[4] Nitin Bansal，Xiaohan Chen，and Zhangyang Wang.在训练深度网络时，我们能否从正交正则化中获得更多？NeurIPS，2018。5[5] 欧文·比德曼按组件识别：一个关于人类图像理解的理论。Psychological Review，94（2）：115，1987. 一、二[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练2019年，在ICLR。5[7] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangWang，and Jia-Bin Huang.更仔细地看几个镜头分类。2019年，在ICLR。二六七[8] Jia Deng，Nan Ding，Yangqing Jia，Andrea Frome，Kevin Murphy ， Samy Bengio ， Yuan Li ， HartmutNeven，and Hartwig Adam.使用标签关系图的大规模对象分类。2014年，在ECCV。3[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，2009。二、五、六[10] 佩德罗 ·F. 罗斯？费尔岑斯瓦尔布 Girshick ， DavidMcAllester，and Deva Ramanan.使用区分性训练的基于部分的模型进行对象检测。 IEEE Transactions onPattern Analysis and Machine Intelligence，32（9 ）：16272[11] 桑娅·菲德勒和艾尔斯·莱昂纳迪斯面向对象类别的可扩展表示：学习部件的层次结构。CVPR，2007。2[12] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。NeurIPS，2017。一、二[13] 杰瑞·A福多思想的语言，第五卷。哈佛大学出版社，1975年。一、二[14] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR，2018年。二六七[15] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。InICCV，2017. 二、五、六[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在ECCV，2016年。二、六[17] 唐纳德·D Hoffman和Whitman A.理查兹承认的一部分。Cognition，18（1-3）：65-96，1984. 一、二[18] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会，2015年。一、二6381[19] 维韦克·克里希南和德瓦·拉玛南引擎盖下的修补程序：交互式零射击学习与净手术。arXiv预印本arXiv：1612.04901，2016年。3[20] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的 ImageNet 分类。InNeurIPS，2012. 一、二[21] 布伦登M. Lake，Ruslan Salakhutdinov，and JoshuaB.特南鲍姆通过概率程序归纳的人类水平概念学习。 Science ， 350 （ 6266 ）： 1332-1338 ， 2015.一、二[22] 布伦登M.托默·莱克作者：Joshua B.Tenenbaum，and Samuel J.格什曼制造像人一样学习和思考的机器。行为和大脑科学，40，2017。2[23] 克里斯托弗 ·HLampert ， Hannes Nickisch ， andStefan Harmeling.学习通过类间属性转移来检测不可见的对象类。CVPR，2009。3[24] 扬·勒昆和约瑟芬·本吉奥图像、语音和时间序列的卷积网络。脑理论和神经网络手册，3361（10）：1995，1995。一、二[25] Aravindh Mahendran和Andrea Vedaldi。通过反转它们来理解深度图像表示。CVPR，2015。3[26] 大卫·马尔视觉：对人类对视觉信息。麻省理工学院出版社，马萨诸塞州剑桥，1982年。一、二[27] David Marr和Herbert K.西原三维形状的空间组织的表示和识别。伦敦

下载后可阅读完整内容，剩余1页未读，立即下载