面向少样本学习的语义对齐度量学习方法

189 浏览量更新于2023-10-12 收藏 777KB PDF 举报

少样本学习

泛化能力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8460、、收集和选择：面向少样本学习的语义对齐度量学习郝福生1，2，何凤翔3，程军1，2，王磊1，2，曹建中4，陶大成31中国科学院人机智能-协同系统中国科学院深圳先进技术研究院2香港中文大学，中国香港3UBTECH悉尼人工智能中心，计算机科学学院，工程学院悉尼大学，达林顿，新南威尔士州2008年，澳大利亚4中国科学院西安{fs.hao，jun.cheng，lei.wang1}@ siat.ac.cn，{fengxiang.he，dacheng.tao}@sydney.edu.aucjz@opt.ac.cn，www.example.com摘要少镜头学习的目的是从支持查询比较几个训练例子，并在实践中显示出希望（）Tice。然而，直接计算现有方法中的查询图像和支持图像可能导致模糊，因为主要对象可以位于图像上的任何地方。为了解决这个问题，本文提出了一种语义对齐度量学习（SAML）方法，通过“收集和选择”的策略，对齐语义相关的主导对象的少量学习。具体来说，我们首先计算一个关系矩阵（RM），以然后，注意力技术适用于“选择”语义相关的对，并把更多的权重。然后，利用多层感知器（MLP）将重新加权的RM映射到它们相应的相似性得分。理论分析证明了SAML的泛化能力，为SAML的泛化提供了理论保证。实验结果表明，语义对齐。在基准数据集上的大量实验验证了所提出方法的优势，并表明SAML显著优于当前最先进的方法。源代码可在https://github.com/haofusheng/SAML上获得。1. 介绍少镜头学习旨在从很少的训练示例中学习知识[21]，与通常需要大规模数据集的传统方法（例如Ima，*通讯作者。模棱两可！比较（）下一页准确！图1.所示的两个图像属于同一类别，而关键对象（狗）出现在不同的位置。根据空间索引直接计算两个图像之间的距离引入了狗的头部（红色框）和狗的尾部（蓝色框）之间配对的模糊性。所提出的方法SAML将具有相同语义信息的局部区域对齐（参见红色和黄色框之间的比较）。geNet [7]）。它解决了收集如此大量的数据是非常耗时的，有时在实践中是不现实的问题[37]。最近，通过神经网络从图像中提取的特征在许多计算机视觉任务中表现出了深刻的表示能力[42，20，23，14]。基于从图像中提取的三维张量的度量学习方法极大地推动了少镜头学习的前沿具体来说，度量学习首先计算分别从查询和支持图像中提取的3D张量之间的距离，然后基于距离学习分类器。然而，大多数现有方法[48，37，16]直接计算每个张量对之间的距离度量，8461√O支持查询图2.语义相关的局部区域的插图结果表明，语义对齐是通过SAML实现的根据元素索引。这种直接比较可能会引入严重的模糊性，因为主要对象可以位于图像上的任何地方因此，一个图像中的主要对象可能会与另一个图像中语义上不相关的局部区域进行比较（请参见图1中红色和蓝色框的比较）。为了解决这个问题，本文提出了一种语义对齐度量学习（SAML）的方法，通过“收集和选择”的策略来对齐图像上的语义相关的局部区域具体地，SAML首先每个局部区域由卷积神经网络（CNN）从对应图像然后，SAML“选择”语义相关的局部区域对，并通过使用注意力技术根据相关性对它们进行重新加权。然后由多层感知器（MLP）处理相关性重新加权的RM理论分析评估了SAML的泛化能力，并给出了一个（1/ N）泛化界，该泛化界与嵌入网络和MLP的参数大小没有显式依赖关系（ N为训练样本集的片段数）。在两个标准基准数据集 CUB [40]和 miniIm-ageNet [34，31]上进行的广泛实验表明，SAML显著优于最先进的方法。2. 相关作品现有的少量学习的工作主要来自以下四个类别：度量学习、元学习、幻觉和基于注意力。度量学习：基于度量学习的方法共享相同的范例：（1）映射所有图像（包括支持类和查询类）嵌入到一个表示空间中，并计算每个支持类的表示;（2）计算每个查询图像到所有支持类的距离;以及（3）将每个查询实例分配到与其自身距离最近的支持类。现有的方法主要集中在前两个步骤中的一个，因为第三个步骤相对成熟：（1）嵌入网络的设计已经从早期的连体神经网络[19]发展到具有连续移位神经元[27]和记忆匹配网络[5]的快速适应。最近，为了更好地捕捉几何信息，[48，37]引入了3D张量。类表示的计算可以追溯到[16]，其使用每个支持类别的嵌入深度特征的平均值作为其表示。最近，Qiao et al.提出从预先训练的神经网络中的激活预测每个新支持类的表示[33];以及（2）用于执行分类的距离度量的设计源于余弦距离[31]和欧几里得距离[16]到更高级的距离测量，例如由图神经网络计算的距离测量[39]。大多数现有作品的一个重要问题是距离是通过根据元素索引[48，37]直接计算获得的，并且经常引入严重的歧义，比较语义上不相关的部分。元学习：基于元学习的方法学习学习算法本身。Ravi等人提出了一种基于LSTM的元学习器，它学习精确的优化算法，以便在少数情况下训练神经网络分类器[34]。Finn等人设计了MAML来训练一个元学习器，该元学习器提供了良好的参数初始化，使得只有少量的更新可以导致对新任务的快速学习[8]。Meta-SGD调整更新方向和快速适应新任务的学习速率[22]。然而，这些方法通常需要昂贵的高阶梯度，这可能导致失败。8462∩{|联系我们输入从3D张量特征中提取LRF语义对齐查询图像查询3D张量要素WCH查询LRFLRF1LRF2LRF硬件基于激活的注意LRF1LRF1LRF1LRF2LRFiLRFj查询注意力地图矢量化关系矩阵（i，j）关注相似性分数度量支持图像WCH支持3D张量功能LRF1LRF2支持LRFLRF硬件LRFHWLRFHW矢量化基于激活的注意支持注意地图图3.所提出的方法SAML的流程图。当扩展到更深的网络架构时，如[26]所示。相应地，Mishra et al.结合时间卷积和软注意力，提出通用的Meta学习器架构，扩展到更深的网络架构[26]。此外，已经提出了一阶优化[29]和潜在嵌入优化[36]技术来解决这些问题。幻觉：基于幻觉的方法通过两个不同的方向增加每个新类别中的标记实例的数量来解决少镜头学习。Bharath等人的早期工作。应用类别独立的转换来为每个新类别生成尽可能多的新实例[13]。它的子系统开发[43]利用了Meta学习的最新进展，该元学习联合优化了元学习器和幻觉器，以产生高质量的训练实例。Zhang等人建议MetaGAN生成与从特定任务中采样的真实数据不可区分的样本[47]和Akshay等人。将生成的伪实例视为强正则化器[24]。基于注意力：最近，注意力机制已被引入到少数镜头制度。例如，Yan et al.[44]利用空间注意力定位相关目标区域，利用任务注意力选择相似的训练数据进行标签预测，从而提出了一种基于两种注意力机制的双注意力网络。 Ren等人。[35]提出通过注意力吸引网络来正则化新类的学习。Hu et al. [15]提出了一种基于注意力的多上下文引导（A-MCG）网络，该网络在支持和查询分支之间集成了多尺度上下文特征，从而从支持集执行更好的引导。相比之下采用注意机制来3. 语义对齐度量学习本节介绍我们提出的方法SAML。在描述图像嵌入之前，我们首先回顾了少量学习的问题定义然后，我们描述了语义对齐的“收集和选择”。最后，提供了度量的两个实例。3.1. 问题定义在这项工作中，我们专注于M-路K-shot问题，其中M是类别的数量，K是每个类别中的示例的数量（K通常是一个小整数，如1或5）。少样本学习数据集由三部分组成一个类别看到dur-在验证或测试过程中未观察到ing培训）。一般来说，每一个集合都包含大量的类别和例子，它们明显大于M和K。自[31]提出以来，这三个集合通常被分成许多集，每个集包含一个支持集S={（xi，yi）|i=1。 . . MK，yi∈{1，. . . ，M}}和查询集Q=（x<$j ，x<$j ）j=1。 . . MT ，yj1、. . . 、M. 两者支持集和查询集从训练/验证/测试集中随机抽取。此外，S和Q是不相交的（S Q= S），而共享相同的标签空间。为了模拟少镜头学习的真实场景，所有的训练、验证和测试程序都是在情节上实现的。例如，在每次训练迭代中，从训练集中随机采样一集，直到MLPCNN我8463M×MM我我MMM×确定可学习参数的日期这个过程重复多次，直到模型收敛到稳定状态。发作的验证和测试是相似的。3.2. 图像嵌入通过神经网络对每幅图像xi进行卷积，可以得到一个三维张量fΘ（xi）∈RRC×H×W来表示这幅图像，其中fΘ是神经网络学习的假设函数，Θ是神经网络的参数，R是所有三维张量形成的表示空间，C、H和W分别是张量三维的长度通过这种方式，我们嵌入表示是计算距离的重要任务。为了解决这个问题，我们提出了一个具体来说，我们计算的度量距离的所有LRF对构成的一个LRF从查询图像和一个从支持类。所有的距离值被收集在一个关系矩阵（RM）中，并根据空间索引进行定位例如，RMR的（i，j）元素r ij是由查询图像x n的第i个LRFoji和支持类表示的第j个LRFoj之间的某个度量g定义的距离：所有图像到一个表示空间。在每个3D张量中存在H WC维细胞，每个细胞都是相应图像中某个区域的局部区域特征（LRF）（它也是感受野）。与一维[16，31]或其他维度的特征相比，三维张量可以更好地其中rijrij=g（oi，oj）∈R，i，j ∈ {1，. . . ，HW}，（3.2）是反映两个LRF的相似性的标量。捕获几何信息，因此是基于度量学习的少数学习方法中的常见图像嵌入可以通过多种神经网络实现。有关我们的嵌入网络的详细信息，请参阅第5.1节。在一集中有来自每个支持类的K个图像。当K >1时，一个重要的任务是从K个单个图像的3D张量计算支撑类的表示在本文中，我们利用K3D张量的经验平均值作为相应支撑类的表示：度量可以根据各种场景而变化不...关于度量实例的讨论在第3.4节中提供。RM携带查询图像和支持类之间的相似性的所有信息。获取RM的过程称为策略的RM包含语义上不相关的局部区域的距离注意力技术加强关键观察，同时抑制背景[46，4，17]。通过使用注意技术，我们可以更多地关注语义相关的LRF对。在本文中，我们选择了基于激活的注意力[46]，其中每个1cm=ΣfΘ（xi），（3.1）LRF被定义为注意力值a：|（x，y）∈ Sa（o i）= o i，a（o j）= o j，|(x,y)∈Sa(oˆi)=ǁoˆiǁ,a(oj)=ǁojǁ,其中cm是第m个支持类的类表示，Sm是情节中类m的支持集，并且|是S m中的例子数。|is the number of examples in S m.支持类表示c m也位于表示空间中：c m∈RC×H×W.与单个图像的表示类似，每个类表示cm也由H×W的C维特征作为LRF构成.为了便于解释。ns，HWL的表示cm表示为 o1，. . .，或HW。模拟i，j ∈ {1，. . . ，HW}。（3.3）我们将距离rij重新加权为ri′j=a（oi）a（oj）rij.（3.4）通过这种方法，语义无关的局部区域的距离被抑制，同时，语义相关的局部区域的距离被增强。从而实现语义对齐。采用Atten的过程-M m同样，t.每个查询图像x ∈ n的3D表示fΘ（x∈n）是0≤1，. . . ，O.W.3.3. 收集和选择语义对齐图像中决定其类别的局部区域可以位于任何地方。例如，对于狗图像，包含狗的确定性局部区域可以在一个图像中位于右上角，而在另一个图像中位于中心区域。因此，根据位置索引直接计算它们之间的距离可能会对语义上不相关的局部区域进行配对，并可能导致严重的模糊性[48，37]（见图1）。因此在语义上一种查找语义相关局部区域的方法被称为策略的“选择”阶段。然后，重新加权的RMR′被馈送到MLP以计算相似性得分（因子）来执行进一步的分类：sm=MLPΦ（R′），（3.5）其中Φ表示MLP的可学习参数对于每个查询实例，有M个相似度得分sm，分别表示查询实例与所有支持类的相似度将所有的M个相似8464度连接起来构成一个向量，我们形成一个判别函数。为了执行最终分类，我们使用softmax函数来8465Conv（3，64），BN，ReLUMaxPool（2，2）Conv（3，64），BN，ReLUMaxPool（2，2）FC（HxW，256），ReLUConv（3，64），BN，ReLUFC（256，256），ReLUConv（3，64），BN，ReLUFC（256，64），ReLUAvgPoolFC（64，1）−MMǁ· ǁ··MHijm计算分配给第m个类的测试示例xn的概率pmesm图像pm=Mi=1.（3.6）esi基于概率，我们进一步定义损失函数：1MTML= Mtn=1m =1I（yn=m）ln（pm），（3.7）其中I（·）是指示函数，如果其参数为真则等于1，否则等于0，yn是xn的标签，T是每个查询集中的实例数。3.4. 实例化上一小节中的度量函数有很多选择。本文用两个简单的度量标准实现了实验：余弦度量和高斯度量。实验表明，简单的指标足以执行嵌入网络MLP好.余弦度量：余弦距离定义为两个特征之间的夹角的余弦：<我的天，我的天g（o_i，o）=c_os（θi_j）=，图4.嵌入网络和MLP的网络结构我们使用二元分类的理论来评估我们的方法。从而从理论上保证了训练样本集中有多少集是足够的。ǁoˆiǁ·ǁojǁ（3.8）如图4所示，我们的模型涉及两个神经网络，嵌入网络和MLP。他们是骗子-i，j ∈ {1，. . . ，HW}，（3.9）其中θij是o∈i和oj<之间的夹角，θi j是内积，θ j是范数。它对于人脸验证[41]和图像分类[12]是有效的。高斯度量：高斯函数也可以作为g的选择：g（oi，oj）=eoi·oj，通过不影响假设复杂度的固定操作连接具体地说，该操作计算每个支持类的表示，并计算从查询实例和类表示导出的关系矩阵。假设所提出的模型的输入是X。嵌入网络由四个卷积层、两个最大池化层和一个平均池化层构成。我们分别用重量ma表示它们。三角形A、A、A和A以及非线性σ、σ、σ和m1 2 3 4 1 2 3i，j ∈ {1，. . . ，HW}。（3.10）4. 理论分析本节从理论上研究了我们的方法的泛化能力，根据训练样本的大小。我们首先提出了一个上限的覆盖数（覆盖界）的建议模型。覆盖界控制了由我们提出的方法引起的假设空间的复杂性的大小。然后，我们得到了所提出的方法的泛化误差（泛化界）的上界。推广界为我们的方法提供了理论保证。少镜头学习可以建模为二进制分类问题。具体来说，每一集都是一个例子;查询和支持图像是实例，标签是它们是否来自同一类。在本节中，σ4′。相应地，嵌入网络的输出可以表示为FE（X）=σ4′（A4σ3（A3σ2（A2σ1（A1X）.（4.1）关系矩阵的收集和注意技术是一个固定的非线性操作。在这里，我们将其表示为σ f。此外，我们用权重矩阵A5、 A6、A7和A8以及非线性度σ5、σ6和σ7来表示MLP。因此，我们提出的算法的最终输出是：...ΣΣΣF（X）=A8σ7A7σ6A6σ5A5O fF E（X） .（4.2）为了简化下面的定理，我们定义σ4=σfσ4′。假设我们模型的输出分类器的假设空间为。然后，我们可以得到以下结果：定理定理1（覆盖界）。设第i个非线性项σ i的Lipschitz常数为ρ i，运算项σ f的Lipschitz常数为ρ f. 假设的谱范数M8466ǁ − ǁ ≤2ε2×每个权矩阵是有界的：<$Ai <$σ≤ si，i = 1，. . . ，8。型号图片大小5路-1拍5路-5拍此外，假设每个权重矩阵Ai具有参考矩阵Mi，其中满足AiMiσbi，i=1，. . . ，8。则ε-覆盖数满足logN（N，ε，ε·ε2）关系网[37]第三十七届SAML（我们的）84×8450.44% 65.32%224×22450.16% 65.98%84×8452.22% 66.49%224×22456.68% 71.34%日志≤.Σ2W2ε2X.Y7S8i=1siρiΣ2 Σ8i=1Σ3三分之二i2/3i表1.图像尺寸对少拍分类.实验在miniImageNet上进行。. （ 4.3）公制功能5 way-1 shot 5 way-5shotW是特征图的最大维度，出了算法。这里省略了详细的证明，并在附录中给出。基于覆盖界，我们可以得到以下定理。为了简洁起见，我们表示右-2Eq.的手侧（RHS） (4.3)作为R. 此外，我们定义预期风险和经验风险分别为R（F）=EX，YI（F（X），Y），（4.4）高斯52.35±0.40% 68.54±0.46%余弦49.52±0.42% 62.82±0.45%高斯+注意力56.40±0.48% 71.28±0.39%余弦+注意力56.68±0.40% 71.34±0.41%表 2. 不同度量函数对少炮分类精度的影响。实验在miniImageNet上进行。（F）=1NΣNn=1l（F（Xn），Yn），（4.5）分别获得64、16和20个类别用于训练、验证和测试，分别。CUB数据集最初是为细粒度分类而设计的，包含超过200种鸟类的11788个我们随机将其中（X，Y）是特征标签对，N是训练样本。而l是损失函数。定理2（广义界）。对于任何实数δ∈（0，1），概率至少为1−δ，以下不等式对任何假设Fθ∈ N成立：数据集分为100个训练，50个验证和50个测试类别。对于miniImageNet和CUB，图像大小调整为224 224，并且不采用数据增强。为了更直观地了解这两个数据集，附录中显示了一些图像R（F）≤R（F）+24RΣ1 +log. NΣΣ网络：我们的嵌入式网络的细节，MLP在图4中示出。因为嵌入网-θ θN3R.log2+ 3δ，（4.6）2N其中N是训练样本大小。定理2可以直接通过将定理1应用于学习理论中的两个经典结果而得到，这两个结果在这里省略，但在附录中提供。详细Pro. 附录中还提供了当量（4.6）给出一个1工作是我们的重点，为了进行公平的比较，我们的嵌入网络与[31，37]共享类似的骨干，同时仍然有一些微小的变化以获得足够的LRF。例如，仅保留前两个最大池化层，最后一个最大池化层被平均池化层替换miniImageNet和CUB的平均池化层的步幅设置为5，导致100个LRF。此外，相似性得分通常被限制在0到1的范围内，这是通过在最后一个完全连接的层之后添加sig-moid函数来实现的在这里，我们省略了MLP常用的sigmoid函数。乌恩我们提出的算法的泛化界。这为我们提出的方法提供了理论保证5. 实验本节介绍了实验设置、消融研究以及与最先进方法的比较5.1. 实验设置数据集： miniImageNet 数据集是 ImageNet [7]的子集，由100个类别组成，每个类别包含600个标记实例。我们采用共同分割，BSR8467实施详情：我们取余弦度量以介绍SAML。总体流程图如图3所示。在嵌入所有的支持图像和查询图像之后，我们合并它们的空间维度。SAML可以通过对整形的LRF执行矩阵乘积来直接实现所有实验都在PyTorch框架下进行[1]。我们使用Adam [18]，初始学习率为10−3，每2000集减半。训练集的总数是20，000。请注意，在每个测试事件中，每个类别测试T= 15个8468××××××0.80支持查询0.750.700.650.600.550.5016 36 64 100FGR数量图6.当中的主要对象的比例图5.LRF的数量对miniImageNet上少镜头分类性能的影响5.2. 消融研究我们研究了度量函数，LRF的数量，图像大小和注意方法的影响并讨论了时间复杂性。实验在mini-ImageNet上进行.图像大小的影响：为了更有效地控制激光测距仪的数目，我们采用较大的图像尺寸224 224，而不是八四八四为了公平比较，我们评估了图像大小对少镜头分类性能的影响，结果如表1所示。我们也使用WARNNET进行类似的比较[37]。我们的方法从图像大小的增加中比WEBNet受益更多。图像尺寸越大，LRF重叠越小，并且各个LRF越独立。直观地说，性能随图像尺寸而增加的原因可以归因于感受野与图像尺寸的较小比率。度量函数的影响：我们研究了度量函数的选择对少次学习性能的影响，如表2所示。无注意力的余弦和高斯比它们的注意力版本表现得差得多，这可以归因于它们对所有LRF对的计算结果的平等处理对于同一个范畴，语义相同的LRF比语义不相关的LRF更重要，因为后者会增加差异。注意力余弦和注意力高斯通过注意力方法抑制了语义无关LRF的比较。对于不同的类别，关键区域表现出显着的差异，这也是由SAML捕获。LRF数量的影响：LRF的数量可以通过设置嵌入网络的最终平均池化层的步幅来调整。我们评估的查询图像（中间）与支持图像有很大不同，或者查询图像中的关键对象（右）在复杂背景中不突出。LRF的数量对少拍学习性能的影响，结果如图5所示。5路1次和5路5次分类精度都随着LRF数量的增加而提高，并且当LRF数量为100时，它们达到饱和。基于这种观察，我们在下面的实验中默认将LRF的数量设置为100，并且该设置对于miniImageNet和CUB都很有效。注意力方法的影响：我们研究了注意力方法的影响。一些正确分类的图像和它们相应的注意力图如图2所示。关键区域用红色矩形标记，所有这些区域对应于同一个语义概念，即狗。注意力地图的效果是在抑制背景的同时加强对象。注意方法和度量函数的结合减少了关键对象和语义上不相关的部分之间的比较所引入的歧义。然而，当不同尺度的主要对象存在于复杂背景中时，我们的方法会受到影响，图6中显示了一些失败的例子。我们进一步优化我们的方法来解决这个问题。具体地说，我们引入了一个接收[38]算子（[22最大合并，33个回旋，5 5个回旋，7个 7卷积]）嵌入后网络（见图4）来提取具有不同尺度的对象的特征。结果讨论见第5.3节。时间复杂度：SAML的计算是乘法运算（见附录中的图8），在流行的深度学习平台中已经得到了很好的优化，例如，PyTorch [1]和TensorFlow [2]，不再是主要的计算瓶颈。我们比较了不同方法的时间成本，并显示了结果5路1拍5路-5拍精度8469模型训练/测试（ms/episode）5way-1shot 5way-5shot澳门博彩[8] 61.92/31.04 72.64 /38.38原型网[16] 14.55/4.5115.46/ 5.22匹配网[31]6.89/2.8819.10 /6.83澳门博彩网[37] 20.78/4.13 22.84 /5.26SAML（Ours）16.30/3.95 19.59 /5.17表3. miniImageNet上不同方法的每集训练/测试时间成本表3所我们的方法是有竞争力的时间成本（第二次快速为5路-1 shot和第一次为5路-5shot在测试期间）。5.3. 与最新技术水平的比较我们比较了SAML与最先进的方法。型号5 way-1 shot 5 way-5shot原型净值[16] 49.42±0.78% 68.20±0.66%Matching Net[31] 43.56±0.84% 55.31±0.73%M-LLSTM[34] 43.44±0.77% 60.60±0.71%MAML[8] 48.70±1.84% 63.11±0.92%净利润[37] 50.44±0.82% 65.32±0.70%Meta-SGD[22] 50.47±1.87% 64.03±0.94%LLAMA[11] 49.40±1.83%-爬行动物[29] 49.97±0.32% 65.99±0.58%MM-Net[5] 53.37±0.48% 66.97±0.35%PLATIPUS[9] 50.13±1.86%-SAML（我们的）56.68±0.40% 71.34±0.41%SAML*（我们的）57.69±0.20% 73.03±0.16%表4. miniImageNet上的少量分类精度。表示“未报告”。“*” means “adopting inception这里，采用余弦度量。更多的经验主义-结果，包括具有更复杂指标的结果，可以在附录中找到。miniImageNet上的结果：为了进行公平的比较，通过评估的方式进行两个常见的任务，即5向1-shot和5向5-shot分类。我们从miniImageNet测试集中随机抽取了600集，然后报告了95%置信区间的少量分类准确率。我们还重复测试过程10次并报告方差。结果见表4。我们的方法实现了更好的性能比国家的最先进的方法为5路1-镜头和5路5-镜头分类，特别是在5路5-镜头任务（>2。4%）。miniImageNet中关键对象的规模变化很大。当采用尺度不变特征时，对于5路1- shot和5路5-shot分类，与naive SAML相比的改进分别为1.01%和1.69%。关于CUB：CUB是由不同物种的鸟类组成的细粒度图像分类数据集。与收集用于通用识别的miniImageNet进行通信CUB很简单，因为主要对象总是鸟类，背景相对干净。然而，鸟类在位置上仍然表现出很大的变化。在CUB上进行了两个任务，即5 way-1 shot和5 way-5shot分类，实验结果如表5所示我们的方法比现有的方法性能更好。具体来说，细粒度5路1镜头分类和5路5镜头分类任务的增量为6。88%，2。22%，这是令人惊讶和令人印象深刻的性能提升。当我们用给定的CUB边界框裁剪所有图像因此，采用尺度不变特征对性能的影响很小.6. 结论主要对象可以出现在图像的任何部分中。因此，直接计算方法5 way-1 shot 5 way-5shot基线[6] 47.12±0.74% 64.16±0.71%基线++[6] 60.53±0.83% 79.34±0.61%匹配净值[31] 61.16±0.89% 72.86±0.70%原型净值[16] 51.31±0.91% 70.77±0.69%MAML[8]55.92±0.95% 72.09±0.76%净利润[37] 62.45±0.98% 76.11±0.69%SAML（我们的）69.33±0.22% 81.56±0.15%SAML*（我们的）69.35±0.22% 81.37±0.15%表5. CUB上的少量分类精度。“*” means “adopting inception根据索引从图像中提取的特征可能会导致严重的歧义，因为我们可能在语义上不相关的局部区域。为此，我们提出了一个语义对齐度量学习（SAML）的方法，通过“收集和选择”的策略，对齐语义相关的局部区域。具体来说，我们定义了一个关系矩阵（RM）来“收集”所有距离的局部区域对的查询实例和支持类的手段，然后利用注意力技术来“选择”和关注语义相关的局部区域对。实验结果表明，语义对齐的实现。通过对推广界的理论分析，证明了SAML在未知数据上的可行性。在标准基准数据集上进行的大量实验表明，与现有的少量学习方法相比，SAML具有更大的优越性。致谢本工作得到了国家自然科学基金项目（61772508，U1713213 ）、深圳市科技攻关项目（ JCYJ20170413152535587，JCYJ 20180507182610734）、中国科学院重点科技人才计划和澳大利亚研究委员会（FL-170100117，DP-180103424）的部分资助。8470引用[1] https://pytorch.org/.[2] https：//ww.tensorflo w.or g/.[3] Matthias Bauer，Mateo Rojas-Carulla，Jakub BartlomiejSwiatkowski，Bernhard Scholkopf，and Richard E.特纳使用概率模型的判别式 k-shot 学习。 arXiv ：1706.00326，2017年。[4] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测：基准。IEEE Trans. Image Processing，24（12）：5706[5] 齐彩，潘英伟，姚婷，严成刚，梅涛。用于单次图像识别的记忆匹配网络。正在进行IEEE会议Comput.目视模式识别。，第4080-4088页[6] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察少数镜头分类。在Proc. Int. Conf.学习.代表。，2019年。[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。正在进行IEEE会议Comput.目视模式识别。，第248-255页[8] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在Proc. Int. Conf.马赫学习. ，第1126-1135页[9] Chelsea Finn、Kelvin Xu和Sergey Levine。概率模型不可知的元学习。在Proc. Adv. Neural Inf.过程系统，第9537-9548页[10] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少数镜头视觉学习而不会忘记。正在进行IEEE会议计算机。目视模式识别。，第4367-4375页[11] Erin Grant ， Chelsea Finn ， Sergey Levine ， TrevorDarrell和Thomas Griffiths。将基于梯度的元学习重构为分层贝叶斯。在Proc. Int. Conf.学习.代表。，2018年。[12] Fusheng Hao，Jun Cheng，Lei Wang，Xinchao Wang，Jianzhong Cao，Xiping Hu，and Dapeng Tao.卷积神经网络的基于锚点的最近类平均损失。arXiv：1804.08087，2018。[13] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别正在进行IEEE会议内部计算目视，第3037-3046页[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.通过收缩和幻觉特征进行低拍摄视觉识别在proc IEEE会议Int. Comput. 目视，第3037-3046页[15] 胡涛，杨鹏万，张池良，余刚，穆亚东，和Cees G.M.斯诺克基于注意力的多上下文引导的少镜头语义分割。在AAAI Artif.内特尔，第8441-8448页[16] 斯内尔·杰克斯沃斯基·凯文和泽梅尔·理查德用于少镜头学习的原型网络。在Proc. Adv. Neural Inf.过程系统，第4077-4087页[17] 放大图片作者：Nicholas A. Lord，Namhoon Lee，andPhilip H.S.乇学会注意。在Proc. Int. Conf.学习.代表。，2018年。[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Proc. Int. Conf.学习.代表。，2015年。[19] 格雷戈里·科赫用于一次性图像识别的连体神经网络。2015年。[20] Alex Krizhevsky，Sutskever Ilya和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在proc Adv. 神经信息过程系统第1097- 1105页[21] Fei-Fei Li，Rob Fergus，and Pietro Perona.对象类别的一次性学习 IEEE Trans. 模式分析马赫内特尔，28（4）：594[22] Zhengguo Li，Fengwei Zhou，Fei Chen，and Hang Li.Meta-sgd：学习快速学习，进行少量学习。arXiv：1707.09835，2017。[23] 林宗宇和Subhransu Maji。用cnn改进了双线性在英国马赫。目视Conf. ，2017年。[24] Akshay Mehrotra和Ambedkar Dukkipati。用于一次性学习的生成式对抗残差成对网络。arXiv：1703.08033，2017。[25] Mohri Mehryar 、 Rostamizadeh Afshin 和 TalwalkarAmeet。机器学习的基础MIT Press，2012.[26] Nikhil Mishra ， Mostafa Rohaninejad ， Xi Chen ， andPieter Abbeel.一个简单的神经专注元学习者。在proc 国际会议学习。代表。，2018年。[27] Tsendsuren Munkhdalai，Xingdi Yuan，Soroush Mehri，and Adam Trischler.有条件移位神经元的快速适应。在proc Int. Conf. 马赫学习. ，第3664[28] Tsendsuren Munkhdalai，Xingdi Yuan，Soroush Mehri，Tong Wang，and Adam Trischler.学习快速时间适应。arXiv：1712.09926，2017年。[29] Alex Nichol，Joshua Achiam，and John Schulman.一阶元学习算法。arXiv：1803.02999，2018。[30] 鲍里斯·奥列什金，保罗·罗德里格斯·洛佩兹，亚历山大·拉科斯特. Tadam：Task Dependent Adaptive Metricfor Improved Few-Shot Learning。在Proc. Adv. Neural Inf.过程系统，第719-729页[31] Vinyals Oriol ， Blundell Charles ， Lillicrap Tim ，kavukcuoglu koray，and Wierstra Daan.匹配网络进行一次性学习。在Proc. Adv. Neural Inf.过程系统，第3630-3638页[32] Bartlett Peter，Foster Dylan J，and Telgarsky Matus.神经网络的谱归一化边界。在Proc. Adv. Neural Inf.过程系统，第6240-6249页，2017年。[33] Siyuan Qiao，Chenxi Liu，Wei Shen，and Alan Yuille.基于动作预测参数的少拍图像识别。在proc IEEE会议Comput. 目视模式识别。，第7229-7238页[34] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在Proc. Int. Conf.学习.代表。，2017年。[35] Mengye Ren，Renjie Liao，Ethan Fetaya，and Richard S.泽梅尔使用注意力吸引器网络的增量少次学习。arXiv：1810.07218，2018。8471[36] 安德烈 ·A. Rusu、 Dushyant Rao 、 Jakub Sygnowski 、Oriol Vinyals、Razvan Pascanu、Simon Osindero和RaiaHad-sell。具有潜在嵌入优化的元学习。在Proc

下载后可阅读完整内容，剩余1页未读，立即下载