没有合适的资源?快使用搜索试试~ 我知道了~
自适应边界提升少样本学习能力
+125760通过自适应边界损失提升少样本学习0Aoxue Li 1 � Weiran Huang 2 Xu Lan 3 Jiashi Feng 4 Zhenguo Li 2 Liwei Wang 101 北京大学电子工程与计算机科学学院,中国 2华为诺亚方舟实验室,中国 3伦敦玛丽女王大学,英国 4新加坡国立大学,新加坡0lax@pku.edu.cn, weiran.huang@outlook.com, x.lan@qmul.ac.uk,0elefjia@nus.edu.sg, li.zhenguo@huawei.com, wanglw@cis.pku.edu.cn0摘要0近年来,少样本学习(FSL)引起了越来越多的关注,但由于从少数示例中学习泛化的固有困难,仍然具有挑战性。本文提出了一种自适应边界原则,以改善基于度量的元学习方法在少样本学习问题中的泛化能力。具体而言,我们首先开发了一个与类别相关的加性边界损失,其中考虑了特征嵌入空间中每对类别之间的语义相似性,以将来自相似类别的样本分离开来。此外,我们在一个抽样的训练任务中结合了所有类别之间的语义上下文,并开发了一个与任务相关的加性边界损失,以更好地区分来自不同类别的样本。我们的自适应边界方法可以很容易地扩展到更现实的广义FSL设置。大量实验证明了所提出方法在标准FSL和广义FSL设置下可以提升当前基于度量的元学习方法的性能。01. 引言0深度学习在各种计算机视觉任务中取得了巨大的成功[10,26]。然而,深度神经网络由于参数众多,需要大量标记数据进行模型训练。这严重限制了它们的可扩展性-对于许多罕见的类别,收集大量标记样本是不可行的。相比之下,人类在看到一个物体后就能识别出它。受到人类的少样本学习能力的启发,对于少样本学习(FSL)问题的兴趣越来越大。0�本工作是第一作者在华为诺亚方舟实验室实习时完成的。0嵌入空间0语义空间0沙发0狼 狗0柜子0自适应边界损失0改进的嵌入空间0自适应边界0狗 狼0狼 狗0柜子0柜子0沙发0沙发0图1.我们自适应边界损失的关键洞察力的示意图。在我们的方法中,利用不同类别之间的语义相似性(在类别的语义空间中测量)来生成类别之间的自适应边界。然后,将边界整合到分类损失中,使得嵌入空间中的相似类别更易分离,从而有利于FSL。0lem [6, 13, 25,27]。给定一组具有足够标记样本的基类和一组只有少量标记样本的新类,FSL旨在通过从基类中学习通用知识来为新类学习一个分类器。最近,基于度量的元学习方法[8, 14,016, 27,29]在解决FSL问题时表现出了卓越的性能,具有吸引人的简洁性。这些方法通常学习一个良好的嵌入空间,在这个空间中,来自同一类的样本聚集在一起,而来自不同类的样本相互之间相距较远。通过这种方式,新的来自新类的样本可以被识别出来。125770在学习到的嵌入空间中,这些基于度量的方法通过简单的距离度量直接识别出来。这些方法的成功依赖于学习一个有区分性的嵌入空间。0为了进一步提高性能,我们在嵌入空间中引入了自适应边界,有助于分离不同类别的样本,特别是相似类别的样本。我们方法的关键洞察是不同类别之间的语义相似性可以用来生成类别之间的自适应边界,即相似类别之间的边界应该大于不相似类别之间的边界(如图1所示)。通过将自适应边界整合到分类损失中,我们的方法学习到了一个更具有区分能力和更好泛化能力的嵌入空间。0具体来说,我们首先提出了一个类相关的边界生成器,根据语义空间中的语义相似性为每对类别生成自适应边界。通过结合类相关边界生成器生成的边界和FSL方法的分类损失,我们的类相关加性边界损失可以有效地将每个类别与其他类别分开。考虑到FSL中采样的训练任务中的语义上下文,我们进一步开发了一个任务相关的边界生成器。通过在语义空间中将每个类别与任务中的其他类别进行比较,我们的任务相关边界生成器为每对类别生成更合适的边界。通过引入这些边界惩罚,我们的任务相关边界损失学习到了更具有区分能力的嵌入空间,从而具有更强的泛化能力来识别新类别样本。此外,我们的方法可以很容易地扩展到更现实但更具挑战性的FSL设置(即广义FSL),其中测试数据的标签空间涵盖了基类和新类。这与标准FSL设置相反,标准FSL设置中的测试数据仅包含新类样本。在两个FSL基准测试上的实验结果表明,我们的方法显著提高了当前基于度量学习的方法在这两个FSL设置上的性能。0总结一下,我们的贡献有三个方面:(1)据我们所知,这是第一个提出自适应边界原则来改善当前基于度量的元学习方法在少样本学习中的性能的工作。(2)我们提出了一种任务相关的自适应边界损失,根据样本的语义相似性在嵌入空间中很好地区分不同类别的样本,实验结果表明我们的方法在基准数据集上达到了最先进的结果。(3)我们的方法可以很容易地扩展到更现实但更具挑战性的广义少样本学习设置,取得了更好的性能。这进一步验证了我们方法的有效性。02. 相关工作02.1. 少样本学习0近年来,少样本目标识别成为热门话题。随着基于深度卷积神经网络(DCNN)的方法在数据丰富的情况下的成功[5,10, 26,30],人们对将这些深度学习方法推广到少样本情况下产生了极大的兴趣。最近的方法大多使用元学习策略。通过元学习,这些模型通过情节训练从一组辅助任务中提取可转移的知识。这些知识有助于学习针对新类别的少样本分类器。现有的基于元学习的少样本学习方法通常学习一个模型,给定一个任务(一组少样本标记数据和一些测试查询数据),产生一个能够横跨所有任务的分类器[8]。一组主要的基于梯度的元学习模型试图修改经典的基于梯度的优化方法,通过产生高效的参数更新来适应新的情节任务[1, 7, 8,23]。最近,许多元学习方法试图在特征空间上学习一个有效的度量。其基本思想是,如果一个模型能够确定两个图像的相似性,那么它可以通过少量标记的示例对未见过的测试图像进行分类[27,29]。为了学习一个有效的度量,这些方法在训练阶段将其预测条件化为与少量标记示例的距离[2,31]。这些示例是从设计成模拟少样本情况的基类中采样的。在本文中,我们提出了一种新颖的通用自适应边界策略,可以集成到现有的基于度量的元学习方法中。我们的方法可以使不同类别在嵌入空间中相距较远。这样就更容易识别新类别样本。02.2. 视觉识别中的边界损失0对于训练深度卷积神经网络(DCNN)提取具有辨别性的视觉特征用于目标识别任务,Softmax损失被广泛使用。通过观察在使用Softmax损失训练的分类DCNN的最后一个全连接层的权重与每个类别的中心具有概念上的相似性,[4, 18,33]的研究提出了几种边界损失来提高训练模型的辨别能力。刘等人[18]引入了角度边界的重要思想。然而,他们的损失函数需要进行一系列的近似计算,导致网络训练不稳定。王等人[32]和王等人[33]直接将余弦边界添加到目标logits中,取得了比[18]更好的结果。邓等人[4]提出了一种加性角度边界损失,进一步提高了特征嵌入空间的辨别能力。尽管上述边界损失在视觉识别中取得了有希望的结果,但它们并不适用于少样本学习,因为少样本学习中只提供了有限的样本用于新类别。125780尽管现有的度量学习方法在识别任务中表现出色,但它们并不适用于少样本学习,因为少样本学习中只提供了有限的样本用于新类别。为了学习更适合少样本学习的边界,我们提出了一种自适应边界原则,考虑了采样训练任务中的语义上下文。通过使用我们的自适应边界损失训练少样本学习方法,学得的模型在所有任务上都具有更好的泛化能力,从而在新类别上取得更好的识别结果。03. 方法论03.1. 初步:基于度量的元学习0在少样本学习中,我们给定一个由n个基类组成的基类集合Cbase,并且对于每个基类,我们有足够的标记样本。同时,我们还有一个由n个新类组成的新类集合Cnovel,每个新类只有少量的标记样本(例如,少于5个样本)。少样本学习的目标是为新类别获得一个良好的分类器。元学习[7, 27,31, 34,35]是少样本学习的一种常见方法。标准的元学习过程包括两个阶段:元训练和元测试。在元训练阶段,我们以情节方式训练模型。在每个情节中,从整个基类数据集中随机抽取一个小的分类任务,构建一个小的训练集和一个小的测试集,然后用它们来更新模型。在元测试阶段,学得的模型用于识别来自新类别的样本。最近,基于度量的元学习方法变得流行起来。大多数基于度量的元学习方法通常假设存在一个嵌入空间,在该空间中,样本围绕每个类别的单一表示聚集,然后使用这些类别表示来推断测试样本的标签。接下来,我们介绍基于度量的元学习方法的框架。元训练。在每个元训练情节中,我们从基类数据集中随机抽取一个n_t-wayn_s-shot分类任务。具体而言,我们随机从基类集合Cbase中选择n_t个类别进行情节训练,表示为Ct。我们从每个情节训练类别中随机选择n_s个样本,并将它们组合成一个小的训练集,称为支持集S。此外,我们还从每个情节训练类别中随机选择一些其他样本,并将它们组合成一个小的测试集,称为查询集Q。在当前情节中,使用嵌入模块F将查询集和支持集中的所有样本嵌入到嵌入空间中。然后,元学习器使用度量模块D(例如,余弦相似度)生成类别表示r1,r2,...,rnt,使用支持集S中的样本。例如,PrototypicalNetworks[27]通过对支持样本按类别求平均嵌入来生成类别表示。之后,元学习器使用度量模块D计算查询集中的样本与类别表示之间的距离,从而预测查询样本的标签。0用于衡量查询集中每个查询点(x,y)与嵌入空间中当前类别表示之间的相似性。基于这些相似性,元学习器为当前查询集中的每个点产生一个分类损失。然后,元学习器反向传播所有查询样本的总损失的梯度。分类损失可以表示为:0L_cls = -10|Q|0(x, y) ∈ Q log e D(F(x), ry)0k ∈ C t e D(F(x), rk), (1)0其中,D(F(x),rk)表示元学习器预测的样本x与第k个类别表示rk之间的相似性。元测试。在元测试的一个episode中,一个新的分类任务类似于一个训练基类分类任务。具体来说,标记的少样本集和未标记的测试样本被用来构成支持集和查询集。然后,它们被输入到学习到的模型中,查询样本的预测分类结果作为输出。不同的基于度量的元学习方法在类别表示生成模块和度量模块的形式上有所不同,我们的工作引入了不同的边界损失来改进当前基于度量的元学习方法。03.2. 朴素加性边界损失0学习一个具有区分性的嵌入空间的直观想法是在不同类别的预测结果之间添加一个边界。这有助于增加嵌入空间中的类间距离,并使识别测试新样本更容易。为此,我们提出了一个朴素加性边界损失(NAML),可以表示为:0L_na = -10|Q|0(x, y) ∈ Q log p_na(y | x, S), (2)0其中0p_na(y | x, S) = e D(F(x), ry)0e D(F(x), ry) +0k ∈ C t \{y} e D(F(x),rk) + m.0上述的朴素加性边界损失假设所有类别之间应该等距离地远离彼此,因此在所有类别之间添加一个固定的边界。这种损失迫使嵌入模块F提取不同类别样本的更可分离的视觉特征,从而有利于Few-ShotLearning(FSL)。然而,固定的加性边界可能会在相似类别的测试样本上产生错误,尤其是对于FSL来说,在新类别中提供的标记样本非常有限。mcri,j := M(ei, ej) = α · sim(ei, ej) + β,(3)Lcr =− 1|Q|�(x,y)∈Qlog pcr(y|x, S),(4)pcr(y|x, S)=eD(F(x),ry)eD(F(x),ry) +�k∈Ct\{y}eD(F(x),rk))+mcry,k .125790元训练任务0狗 狼0沙发 柜子0沙发狼0语义向量0狗 柜子0词嵌入模型0度量模块0预测0分类损失0元测试任务0猫 虎0桌子 椅子0基类数据集0新类别数据集0嵌入模块0度量模块0预测0自适应边界损失01. 元训练阶段02. 元测试阶段0嵌入模块0自适应边界生成器0图2.提出方法的概述。我们的方法包括两个阶段:1)在元训练阶段的每个episode中,我们首先从基类数据集中随机选择一个元训练任务。然后,将元训练任务中的类别名称输入到词嵌入模型中,提取类别的语义向量。接下来,我们提出了一个自适应边界生成器,为每一对类别生成边界惩罚(例如,在第3.3节中提出的类别相关边界生成器或在第3.4节中提出的任务相关边界生成器)。最后,我们将边界惩罚整合到分类损失中,从而得到一个自适应边界损失。通过最小化自适应边界损失来训练由嵌入模块和度量模块组成的元学习器。2)在元测试阶段,利用在元训练阶段学到的嵌入模块和度量模块,我们使用简单的softmax(没有任何边界)来预测测试样本的标签。03.3. 类别相关的加性边界损失0为了在特征嵌入空间中更好地分离相似类别,两个类别之间的边界应该是自适应的,即对于相似类别而言,边界应该比不相似类别更大。为了以一种原则性的方式实现这种自适应边界,我们设计了一个类别相关的加性边界损失(CRAML),其中引入了类别之间的语义相似性来调整边界。在引入类别相关的加性边界损失之前,我们首先描述如何在语义空间中测量类别之间的语义相似性。具体而言,我们使用一个词嵌入模型(例如Glove[21])提取的语义向量来表示每个类别名称。如图2所示,我们将类别名称(如狼或狗)输入词嵌入模型,它将将类别名称嵌入到语义空间中并返回一个语义词向量。然后,我们构建一个类别相关的边界生成器 M。对于每一对类别,类别i 和类别 j,M 使用它们的语义词向量 e i 和 e j作为输入,并生成它们的边界 m cr i,j 如下:0其中 sim表示度量类别之间语义相似性的度量(例如余弦相似度)。我们使用 α 和 β来表示类别相关边界生成器的缩放和偏置参数。0通过将类别相关的边界生成器引入到分类损失中,我们得到了一个类别相关的加性边界损失如下。0其中0通过适当利用类别之间的语义相似性,我们的类别相关边界损失使得来自相似类别的样本在嵌入空间中更易分离。更具辨别性的嵌入空间将有助于更好地识别测试的新类别样本。03.4. 任务相关的加性边界损失0到目前为止,我们假设边界与任务无关。动态任务相关边界生成器应该在元训练任务中考虑所有类别之间的语义上下文,从而生成更合适的不同类别之间的边界。通过将元训练任务中的每个类别与其他类别进行比较,我们的任务相关边界生成器可以测量类别之间的相对语义相似性。因此,生成器将为相对相似的类别添加更大的边界,并为相对不相似的类别添加较小的边界。因此,我们将生成器合并到sim ( , )sim ( , )Figure 3. The illustration of the architecture of our task-relevant margin generator.{mtry,k}k∈Ct\{y} = G�{sim(ey, ek)}k∈Ct\{y}�,(5)|�(x,y)∈Qlog ptr(y|x, S),(6)ptr(y|x, S) =D(F(x),ry)eD(F(x),ry) +125800语义向量0狗0任务相关边界生成器0柜子0沙发0狼0一个任务中的类别0词嵌入0sim ( , ) 狗和柜子之间的边界0狗和狼之间的边界0狗和沙发之间的边界0分类损失并获得任务相关的加性边界损失(TRAML)。具体而言,给定元训练任务中的类别 y ∈ Ct,生成器将根据它们的语义相似性为类别 y和任务中的其他类别 C t \ { y } 生成边界,即0其中mtry,k表示类别y和类别k之间的任务相关边界,G表示任务相关边界生成器,其结构如图3所示。如图所示,对于一个查询样本(例如一张狗的图片)其标签y∈Ct,我们首先计算其语义向量ey与任务中其他类别(例如类别狼、沙发和柜子)的语义向量之间的相似性。然后,将这些语义相似性1输入到全连接网络中,为每个类别对生成任务相关边界。通过考虑元训练任务中所有类别之间的上下文,我们的任务相关边界生成器可以更好地衡量类别之间的相似性,从而为每个类别对生成更合适的边界。通过将我们的任务相关边界生成器整合到分类损失中,我们可以得到给定公式6的任务相关加性边界损失,并且计算训练集中的任务相关加性边界损失的概述给出在算法1中。0Ltr = − 10其中0k ∈ Ct \{ y } e D ( F ( x ) ,rk )+ m tr y,k .0在测试阶段,使用学习到的嵌入模块和度量模块,我们使用简单的softmax函数(不带任何边界)来预测未标记数据的标签,即在测试阶段不需要使用新类的语义向量,这使得我们的模型对于任何新类都是灵活的。01 输入相似性的顺序对性能影响很小。0算法1:少样本学习中训练集中的任务相关加性边界损失计算输入:基类集Cbase,任务相关生成器G。输出:任务相关加性边界损失Ltr。01:从基类集Cbase中随机采样nt个类别,形成一个训练集类别集Ct;2:在Ct中每个类别随机采样ns个图像,形成支持集S;03:在Ct中每个类别随机采样nq个图像,形成查询集Q;4:通过将其类名输入到词嵌入模型中,为Ct中的每个类别获取语义向量;5:对于每个查询样本,使用任务相关边界生成器G根据公式5计算其类别y与Ct中其他类别{y}之间的任务相关边界;6:根据公式6计算任务相关的加性边界损失Ltr。03.5. 广义少样本学习的扩展0尽管该方法最初是为标准FSL设计的,但可以很容易地扩展到广义FSL:只需在测试阶段包括来自基类和新类的测试数据,并且它们的标签是根据测试阶段中基类和新类集合中的所有类预测的。这种设置比标准FSL更具挑战性和现实性,因为测试数据仅来自新类。请注意,我们的自适应边界损失对于广义FSL是灵活的:通过自适应损失训练的嵌入模块和度量模块可以直接用于基类和新类的不相交空间中测试样本的标签推断。实验结果表明,我们的方法可以改进现有的基于度量的元学习方法,并创造出新的基于度量的元学习方法的最新技术。04. 实验和讨论0在本节中,我们通过进行三组实验来评估我们的方法:1)标准FSL设置,其中125810模型骨干类型 测试准确率 5-way 1-shot 5-way 5-shot0Matching Networks [31] 4Conv Metric 43.56 ± 0.84 55.31 ± 0.73 Prototypical Network [27] 4Conv Metric49.42 ± 0.78 68.20 ± 0.66 Relation Networks [27] 4Conv Metric 50.44 ± 0.82 65.32 ± 0.70 GCR [15] 4ConvMetric 53.21 ± 0.40 72.34 ± 0.32 Memory Matching Network [3] 4Conv Metric 53.37 ± 0.48 66.97 ± 0.35Dynamic FSL [8] 4Conv Metric 56.20 ± 0.86 73.00 ± 0.64 Prototypical Network [27] ResNet12 Metric 56.52± 0.45 74.28 ± 0.20 TADAM [20] ResNet12 Metric 58.50 ± 0.30 76.70 ± 0.38 DC [17] ResNet12 Metric 62.53± 0.19 78.95 ± 0.13 TapNet [36] ResNet12 Metric 61.65 ± 0.15 76.36 ± 0.10 ECMSFMT [24] ResNet12Metric 59.00 77.46 AM3 (Prototypical Network) [35] ResNet12 Metric 65.21 ± 0.49 75.20 ± 0.360MAML [7] 4Conv Gradient 48.70 ± 1.84 63.11 ± 0.92 MAML++ [1] 4Conv Gradient 52.15 ± 0.26 68.32 ±0.44 iMAML [22] 4Conv Gradient 49.30 ± 1.88 - LCC [19] 4Conv Gradient 54.6 ± 0.4 71.1 ± 0.4 CAML [11]ResNet12 Gradient 59.23 ± 0.99 72.35 ± 0.18 MTL [28] ResNet12 Gradient 61.20 ± 1.80 75.50 ± 0.80MetaOptNet-SVM [12] ResNet12 Gradient 62.64 ± 0.61 78.63 ± 0.460Prototypical Network + TRAML (OURS) ResNet12 Metric 60.31 ± 0.48 77.94 ± 0.57 AM3 (PrototypicalNetwork) + TRAML (OURS) ResNet12 Metric 67.10 ± 0.52 79.54 ± 0.600表1.miniImageNet数据集上FSL的比较结果。给出了600个测试集的平均准确率(%),后跟95%的置信区间(%)。符号说明:‘4Conv’ -特征嵌入模块,如[27]中所述,即64个滤波器的四个堆叠卷积层;‘ResNet12’ -特征嵌入模块,如[20]中所述,即包含三个堆叠的3×3卷积层的四个残差块的ResNet12架构;‘Metric’ -基于度量的FSL元学习方法;‘Gradient’ - 基于梯度的FSL元学习方法。0测试数据的标签空间在每个测试集中被限制为少数新类,2)广义FSL设置,测试数据的标签空间扩展到基类和新类,以及3)包括消融研究和与其他边界损失的比较的进一步评估。04.1. 标准Few-Shot Learning04.1.1 数据集和设置0在标准FSL设置[27,31]下,我们在最流行的基准测试集miniImageNet上评估我们的方法。它包含了从ImageNet[26]中随机选择的100个类,每个类包含600个分辨率为84×84的图像。按照之前的工作[27,31]中广泛使用的设置,我们将64个类用于训练,16个类用于验证,20个类用于测试。在训练阶段,将64个训练类和16个验证类分别视为基类和新类,以确定模型的超参数。按照大多数现有少样本学习工作[3, 8, 27, 29,31]采用的标准设置,我们在miniImageNet数据集上进行5-way1-shot/5-shot分类。在1-shot和5-shot场景中,每个查询集每类有15个图像,而每个支持集分别包含1个和5个图像。对于训练集0在支持集和查询集中,基类集中的图像是随机选择的。在测试集中,支持集和查询集中的图像是从新类集中随机选择的。miniImageNet数据集的评估指标定义为在随机选择的600个测试集上的top-1分类准确率。我们使用两种基于度量的元学习方法:Prototypical Networks[27]和最新改进的AM3 (Prototypical Networks)[35]来测试我们的任务相关的加性边界损失,这两种方法都是用于FSL的最先进的基于度量的元学习方法。04.1.2 实现细节0我们的特征嵌入模块与[20]使用的ResNet12架构相似,由四个残差块组成。每个块包含三个堆叠的3×3卷积层。每个块后面是最大池化。我们在支持集和查询集中都使用相同的特征提取器。关系模块中的全连接网络由两个全连接层组成,每个层后面是一个批量归一化层和一个ReLU非线性层。本文中使用的词嵌入模型是Glove [21]。ss1020Dynamic FSL + TRAML (OURS)48.159.270.376.479.459.266.273.677.380.2125820模型 新类 全部0逻辑回归(来自[34]) 38.4 51.1 64.8 71.6 76.6 40.8 49.9 64.2 71.9 76.9 逻辑回归w/H(来自[9]) 40.7 50.8 62.0 69.3 76.5 52.259.4 67.6 72.8 76.9 原型网络[27](来自[34]) 39.3 54.4 66.3 71.2 73.9 49.5 61.0 69.7 72.9 74.6 匹配网络[31](来自[34]) 43.654.0 66.0 72.5 76.9 54.4 61.0 69.0 73.7 76.5 平方梯度幅度w/H[9] - - - - - 54.3 62.1 71.3 75.8 78.1 批量平方梯度幅度[9] - - - - -49.3 60.5 71.4 75.8 78.5 原型匹配网络[34] 43.3 55.7 68.4 74.0 77.0 55.8 63.1 71.1 75.0 77.1 原型匹配网络w/H[34] 45.8 57.8 69.074.3 77.4 57.6 64.7 71.9 75.2 77.5 动态FSL[8] 46.0 57.5 69.2 74.8 78.1 58.2 65.2 72.2 76.5 78.70表2.ImageNet2012数据集上广义FSL的比较结果。新类和全部类别的前5准确率(%)被用作该数据集的评估指标。带有“w/H”的方法使用机制为新类别产生额外的训练样本。04.1.3 实验结果0表1提供了mini-ImageNet数据集上FSL的比较结果。我们可以观察到:1)我们的方法显著提高了基线模型(即原型网络[27]和AM3(原型网络[35]))的性能。这表明所提出的任务相关的加性边界损失可以非常有效地提升基于度量的元学习方法的性能。2)我们的方法在5-way1-shot和5-way5-shot设置上明显优于最先进的FSL模型,这要归功于所提出的任务相关的加性边界损失学习到的有区分性的特征嵌入。04.2. 广义Few-Shot Learning04.2.1 数据集和设置0为了进一步评估我们的方法的有效性,我们在一个更具挑战性但实际的广义FSL设置中测试了我们的方法,其中测试数据的标签空间扩展到了基类和新类。我们在大规模的ImageNet2012数据集上进行实验,这个基准将1000个ImageNet类分为389个基类和611个新类;其中193个基类和300个新类用于交叉验证,剩下的196个基类和311个新类用于最终评估(更多细节请参考[9,34])。与[8]一样,我们使用的嵌入模块是ResNet10网络,它以224×224分辨率的图像作为输入。我们将我们的模型与几种广义FSL替代方法进行比较:匹配网络[31],原型网络[27],逻辑回归[34],批量平方梯度幅度[9],带幻觉的平方梯度幅度[9],原型匹配网络[34]和动态FSL[8]。我们在0最先进的模型(即动态FSL[8])。根据[34]的方法,我们首先使用我们的任务相关的加性边界损失对嵌入模块(即ResNet10)进行训练,使用所有基类。然后,我们使用学到的嵌入模块提取所有训练样本的特征,并将其保存到磁盘上。动态FSL[8]中的权重生成器将使用这些预计算的特征作为输入。最后,我们通过用我们的任务相关的加性边界损失替换原始的分类损失来训练权重生成器。评估指标是新类和全部类别的前5准确率。我们重复上述实验5次(每次对新类别的训练图像进行不同的采样),并报告平均准确率。04.2.2结果0表2提供了在大规模ImageNet2012数据集上进行广义FSL的比较结果。我们可以观察到:1)我们的方法在所有评估指标上都取得了最好的结果。这表明,通过我们的任务相关加性边际损失学习到的有区分性的嵌入空间,我们的方法在这种更具挑战性的设置下具有最强的泛化能力。2)我们的方法在1-shot、2-shot、5-shot、10-shot和20-shot设置上相对于最先进的广义FSL模型(即Dynamic FSL[8])都取得了一致的性能改进。这进一步验证了我们方法的有效性。04.3.进一步评估04.3.1关键组成部分的消融研究0我们将我们的完整模型与一些简化版本进行比较,以评估我们方法的关键组成部分的有效性。具体来说,比较了三种不同的损失,每种损失都使用AM3(原型网络)[35]作为基线模型,唯一的区别在于使用哪种损失来训练模型:“原始分类损失”125830模型测试准确率 5-way 1-shot 5-way 5-shot0原始分类损失 65.21 ± 0.49 75.20 ± 0.36 Naive加性边际损失65.42 ± 0.25 75.48 ± 0.34 类相关加性边际损失 66.36 ± 0.5777.21 ± 0.48 我们的完整模型 67.10 ± 0.52 79.54 ± 0.600表3.在标准FSL设置下,在miniImageNet数据集上进行FSL的消融研究。评估指标与表1相同。0- 使用[35]中提供的softmax损失进行模型训练;-使用第3.2节中提出的损失进行模型训练的“Naive加性边际损失”;-使用第3.3节中提出的损失进行模型训练的“类相关加性边际损失”;表3展示了在标准FSL设置下,在miniImageNet数据集上使用上述损失的比较结果。可以观察到:1)使用我们的自适应边际损失训练基于度量的元学习方法可以显著提高性能(参见我们的完整模型与原始分类损失的比较)。这为我们在FSL中的嵌入学习的主要贡献提供了有力支持。2)使用提出的Naive加性边际损失训练的模型显示出略微的性能改进,而不是使用原始分类损失训练的模型。这意味着在FSL中简单地将一个固定边际添加到分类损失中的效果有限。3)由于类相关边际生成器产生的自适应边际,我们的类相关边际加性损失对于FSL的嵌入学习是有益的(参见类相关加性边际损失与Naive加性边际损失的比较)。4)通过在元训练任务中考虑类别之间的语义上下文,我们的任务相关加性边际损失比类相关边际损失产生更好的结果。此外,我们观察到方程(3)中学习的系数α是正的,这验证了我们的直觉,即相似类别之间的边际应该大于不相似类别之间的边际。04.3.2与其他边际损失的比较0为了验证所提出的自适应边际损失的有效性,我们将我们的方法与两种在人脸识别中广泛使用的边际损失进行比较。每种方法都使用AM3(原型网络)[35]作为基线模型,唯一的区别在于使用哪种损失来训练模型。这两种边际损失分别是:1)加性角度边际损失[4],它在权重向量和特征嵌入之间的角度上添加了一个加性角度边际。2)加性余弦边际损失[33],它直接在目标logits上添加了一个余弦边际。请注意,这两种方法都将边际惩罚添加到由特征嵌入和权重向量之间的点积计算得到的目标logits上。这与原型网络不同。0模型测试准确率 5-way 1-shot 5-way 5-shot0加性角度边界损失[4] 66.21 ± 0.46 77.30 ± 0.71加性余弦边界损失[33] 65.96 ± 0.56 76.93 ± 0.49我们的完整模型(余弦) 66.92 ± 0.43 79.08 ± 0.52我们的完整模型(欧几里得) 67.10 ± 0.52 79.54 ± 0.600表4.在标准FSL设置下,miniImageNet数据集上另外两种边界损失的比较分类准确率(%)。符号说明:“我们的完整模型(余弦)”-在嵌入空间中使用余弦距离实现我们的任务相关加性边界损失的AM3(原型网络)[35];“我们的完整模型(欧几里得)”-在嵌入空间中使用欧几里得距离实现我们的任务相关加性边界损失的AM3(原型网络)[35]。0和它的变种,它们使用类表示和特征嵌入之间的欧几里得距离的相反数作为逻辑回归。为了公平比较,我们用余弦距离替换了AM3(原型网络)[35]中使用的欧几里得度量的相反数,并使用我们的任务相关边界损失训练AM3模型(在表4中表示为“我们的完整模型(余弦)”)。表4展示了两种边界损失和我们的损失在miniImageNet数据集上的比较结果,在标准FSL设置下。我们可以观察到,我们的方法比两个竞争对手更有效。可以预期,我们的方法是为FSL问题设计的。也就是说,我们的方法涉及元训练任务中类之间的语义相似性,以学习更适合的边界惩罚,与由[4,33]生成的固定边界相比。每对类的适当边界有助于学习更具区分性的嵌入空间,从而更好地区分来自不同新类的样本。05. 结论0在本文中,我们提出了一种自适应边界原则,可以有效增强嵌入空间在少样本图像识别中的区分能力。我们首先开发了一种与类相关的加性边界损失,它将标准分类损失与基于类之间语义相似性的自适应边界生成器相结合。然后,通过在元训练任务中考虑类之间的语义上下文,进一步提出了一种与任务相关的加性边界损失,以学习更具区分性的FSL嵌入空间。此外,我们还将所提出的模型扩展到更现实的广义FSL设置。实验结果表明,我们的方法在这两种FSL设置下都是有效的。0致谢。本工作得到了中国国家重点研发计划(2018YFB1402600)、北京自然科学基金(L172037)和北京人工智能学院的支持。[1] Antreas Antoniou, Harrison Edwards, and Amos Storkey.How to train your maml. In ICLR, 2018.[2] Luca Bertinetto, Joao F Henriques, Philip HS Torr, and An-drea Vedaldi. Meta-learning with differentiable closed-formsolvers. In ICLR, 2019.[3] Qi Cai, Yingwei Pan, Ting Yao, Chenggang Yan, and TaoMei. Memory matching networks for one-shot image recog-nition. In CVPR, pages 4080–4088, 2018.[4] Jiankang Deng, Jia Guo, Niannan Xue, and StefanosZafeiriou. Arcface: Additive angular margin loss for deepface recognition. In CVPR, pages 4690–4699, 2019.[5] Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman,Ning Zhang, Eric Tzeng, and Trevor Darrell.DeCAF:A deep convolutional activation feature for generic visualrecognition. In Proc. International Conference on MachineLearning, pages 647–655, 2014.[6] Matthijs Douze, Arthur Szlam, Bharath Hariharan, andHerv´e J´egou. Low-shot learning with large-scale diffusion.In CVPR, pages 7229–7238, 2018.[7] Chelsea Finn, Pieter Abbeel, and Sergey Levine.Model-agnostic meta-learning for fast adaptation of deep networks.In ICML, pages 1126–1135, 2017.[8] Spyros Gidaris and Nikos Komodakis. Dynamic
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功