基于显著性引导的少样本幻觉学习

24 浏览量更新于2023-10-18 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2770通过显著性引导的样本幻觉进行少镜头学习张宏光1，2张晶1，2Piotr Koniusz2，11澳大利亚国立大学，2Data 61/CSIROfirstname.lastname@{ anu.edu.au1，data61.csiro.au2}摘要从少量样本中学习新概念是计算机视觉中的一个标准挑战。提高少样本训练模型学习能力的主要方向包括（i）鲁棒的相似性学习和（ii）从有限的现有样本中生成或产生额外的数据在本文中，我们遵循后者的方向，并提出了一种新的数据幻觉模型。目前，大多数数据点生成器包含专用网络（即，GAN）的任务是产生新的数据点，因此首先需要大量带注释的数据进行训练。在本文中，我们提出了一种新的成本较低的幻觉方法，利用显着图的少镜头学习。为此，我们采用显着性网络来获得可用图像样本的前景和背景，并将所得到的映射馈送到双流网络中，以直接在特征空间中从可行的前景-背景组合中产生数据点。据我们所知，我们是第一个利用显着图来完成这样一项任务的人，我们证明了它们在为少数学习产生额外数据点方面的有用性。我们提出的网络在公开可用的数据集上达到了最先进的水平。1. 介绍卷积神经网络（CNN）已经证明了它们在许多计算机视觉任务中的有用性，例如。图像分类和场景识别。然而，在这些任务上训练CNN需要大量的标记数据。与CNN相比，人类从少数样本中学习新概念的能力仍然是无与伦比的。受这一观察的启发，研究人员[8]提出了一次性和少量学习任务，目标是用少量数据点训练算法。最近，几篇论文[36，33，34，32]探讨了深度学习的学习关系概念，这可以被视为适应少数学习场景的度量学习[39，21，11在这些工作中，神经网络提取卷积描述符，而另一种学习机制（例如，关系网络）图1：针对单次情况的基于显著性的数据生成的图示。前景对象与不同的背景相结合，试图细化分类边界。捕捉描述符之间的关系。这一类的大多数论文提出了改进关系建模的相似性学习的目的。相比之下，[12]采用单独的多层感知器（MLP）通过在特征空间中对前景-背景关系进行建模来对额外的图像描述符进行超分辨率处理，为了训练特征生成器，MLP使用手动标记的特征聚类成100个聚类，这突出了对额外标记的需要。另一种方法[38]在元学习场景中生成数据，这意味着网络必须在多个数据集上进行预训练，从而增加了训练成本。在本文中，我们采用的数据幻觉策略，并提出了一个显着性引导的数据幻觉网络被称为显着网络（SalNet）。图1显示了我们工作的一个简单动机。与以前的特征幻觉方法相比，我们采用了一个现成的显着性网络 [46] ，该网络在 MSRA 显着对象数据库（MSRA-B）[25]上进行了预训练，以从给定图像中分割前景和背景，然后是一个双流网络，该网络在编码器的特征空间中混合前景和背景（我们称之为混合网络）（c.f.图像空间）。当我们从这个过程中获得空间特征图时，我们将混合特征向量嵌入到二阶表示中，该二阶表示在特征图的空间维度上聚合然后，我们通过以下方式捕获所谓的训练查询样本的最终同现描述符与超分辨率支持矩阵之间2771相似性学习网络此外，我们调整了我们的混合网络，以促进逼真混合前景-背景表示的幻觉。为此，无论何时从同一图像中提取前景-背景对（c.f.两个单独的图像），我们通过N2范数将所得到的混合表示约束为接近于来自监督网络的表示，通过其设计，该监督网络仅在真实的前景-背景对上训练（c.f.不可行的组合）。我们将这种策略称为实表示正则化（TriR）。最后，我们提出了基于相似性的背景选择策略为此，我们执行（i）类内混合（同一类的前景/背景）或（ii）类间混合（对于任何给定的前景，我们获取其对应的背景，从各种类检索其最近邻背景，并使用检索距离来表达混合对有效性的可能性）。低，我们列出我们的贡献：I. 我们提出了一种新的显着性指导的数据幻觉网络的少镜头学习。II. 我们研究了各种各样的幻觉策略。我们提出了一个简单但有效的正则化和两个策略，以防止低于标准的幻觉样本。III. 我们研究了不同显著图生成器对少镜头学习性能的影响据我们所知，我们是第一个为数据点幻觉使用显着图进行少量学习的人。我们的实验在两个具有挑战性的公开可用的少镜头学习数据集上达到了最先进的水平2. 相关工作在下文中，我们描述了流行的零次、一次和几次学习算法，然后是显着性检测方法和二阶统计量的讨论2.1. 从少量样本中学习对于深度学习算法来说，“仅从几个示例中快速学习的能力从稀缺的数据中学习对典型的基于CNN的分类系统构成了挑战[31]，这些系统必须学习数百万个参数。计算机视觉的当前趋势突出了对“系统识别并将在先前任务中学到的知识和技能应用于新任务或新领域的能力”的需求这个问题在1901年被引入“粒子转移”的概念对于一次或几次学习，一些“一次和几次学习在计算机视觉中已经被广泛研究，无论是浅层[26，24，9，2，8，22]还是深度学习场景[15，36，33，10，33，34]。早期的作品[8，22]提出了具有迭代推理的生成模型。相比之下，最近的Siamese Network [15]使用双流卷积神经网络来执行简单的度量学习。匹配网络[36]引入了支持集和N路W-shot学习协议的概念。它捕获一个查询和多个支持图像之间的相似性，并隐式地执行度量学习。原型网络[33]学习一个模型，它计算每个类的dat-apoint和原型表示之间的距离。模型不可知元学习（MAML）[10]是一种元学习模型，可以看作是迁移学习的一种形式。Relation Net [34]类似于Matching Network [36]，但使用额外的网络来学习图像之间的相似性。二阶相似性网络（SoSN）[45]利用二阶描述符和功率归一化来帮助推断丰富的关系统计。SoSN描述符比一阶关系网更有效[34]。基于幻觉的方法[12]和[38]使用手动分配到100个聚类中的描述符来生成数据点的合理组合。混合网络[42]应用了数据点和标签对的凸组合。相比之下，我们通过显着性图将图像分解为前景可以在几个镜头内实现零镜头学习学习框架[15，36，33，34]。属性标签Em-bedding（ALE）[1]，Zero-shot Kernel Learning（Zero-Shot Kernel Learning）[44]都使用所谓的兼容性映射（线性/非线性）和某种形式的正则化来将特征向量与属性（类描述符）相关联。最近的方法，如特征生成网络[41]和模型选择网络[43]，通过生成对抗网络（GAN）为不可见的类提供训练数据。2.2. 显著性检测显著性检测器突出显示包含与人类视觉注意力相关的前景对象的图像区域，从而产生密集似然显著性图，其将范围[0，1]中的某个相关性得分分配给每个像素。传统的显着性检测器由于基于人类定义的先验的计算而在复杂场景中表现不佳[47]。相比之下，深度显着性模型[37，13]优于传统的显着性检测器，但它们需要费力的像素标签。在本文中，我们使用显着图作为指导信号，因此我们采用了一种高效的弱-2772（a）显著性网络显着性网络（b）前景-背景编码和混合网（c）相似性网h（I1）I1F1f（F1）ΦR11111-h（I1）评分B1f（FN）R1NΦ1NIN支持集FNf（B1）RN1公司简介BNf（BN）ΦNNRNNf（Fq）东凤企业股份有限公司查询图像ΦqRQBQf（Bq）相似网TriRJ2S1…SN图2：我们的流水线由三个单元组成：（a）预训练的显着性网络，（b）前景-背景编码和混合网络（FEMN）和（c）相似性网络。FEMN块由两个流和一个混合网络组成，这两个流分别将前景/背景图像作为输入，而混合网络通过卷积来组合前景-背景对，并在通过二阶编码器聚合所得特征图之前通过单流网络对其进行细化。监督式深度卷积显著性检测器MNL [46]。我们将MNL的性能与（i）RFCN [37]（一种完全监督的深度模型）和（ii）廉价的非CNN鲁棒背景检测器（RBD）[47]进行了比较，根据评估[3]，这是最好的无监督显着性检测器2.3. 二阶统计量下面我们简要讨论二阶统计量的作用以及相关的浅层和基于CNN的方法。在纹理识别[35，30]的背景下，通过所谓的区域协方差描述符（RCD）研究了二阶统计量，通常应用于语义分割[5]和对象类别识别[17，18]。二阶统计必须处理所谓的突发性，即功率归一化[19，17]与词袋[19，17，18，20]一起使用，可以限制这种突发性。一项调查[19]显示，所谓的MaxExp壮举。池化（pooling）[4]实际上是“图像中存在的至少一个特定可视词“的检测器二阶矩阵的MaxExp在[20]中被证明这样的池化也在少量学习中表现良好[45]。因此，我们使用Sigmoid的二阶池。3. 方法我们的管道建立在通用的少数关系网管道[34]上，该管道隐式地学习所谓的查询和支持图像的度量。为此，对图像进行编码转化为特征向量。然后，形成具有查询和支持图像的所谓片段。每个查询-支持对被转发到所谓的关系网络和损失函数，以学习查询-支持对是否属于同一类（1）或不属于同一类（0）。然而，这种方法受到我们下面解决的训练数据稀缺的影响。3.1. 网络图2展示了一个前景-背景双流网络，它利用显著性图来隔离前景和背景图像表示，以便对额外的训练数据进行幻觉处理，从而提高少数镜头学习性能。该网络由（i）显著性网络（SalNet），其作用是生成前景hypothothes ，（ ii ）前景 - 背景编码和混合网络（FEMN），其作用是将前景-背景图像对组合成情节，以及相似性网络（SimNet），其学习查询支持对之间的相似性。为了说明我们的网络是如何工作的，考虑一幅图像I，它通过某个显着网络h来提取相应的显着图h（I），分别是I的前景F和FI=h（I）I，（1）BI=（1 −h（I））I，（2）其中，λ是Hadamart乘积。特征编码网络由f和g两部分组成。对于图像 I ∈R3×M×M 和 J∈R3×M×M（I=J或I/=J），我们通过特征编码器f对它们的前景 FI∈ R3×M×M 和背景 B∈ R3×M×M 进行编码：R3×M×M→ RK×Z，…………………………………………2773IJ其中M ×M表示图像的空间尺寸，K是特征尺寸，Z2是尺寸为Z × Z的f的映射的矢量化空间尺寸。然后，经编码的前景和背景经由求和而被混合，并且在编码器g中被细化：RK×Z2→RK′×Z′2，其中K′是特征尺寸，并且Z′2对应于大小为Z′×Z′的g的映射。与SoSN方法[45]一样，我们应用g（·）上的外积来获得特征的自相关性，并且我们通过Sigmoid递归来执行池化以解决我们表现的突发性。因此，我们有：ΦIJ=g（f（FI）+f（BJ）），（3）RIJ=Σ（ΦIJΦT，σ），（4）其中，σ是一个以零为中心的Sigmoid函数，σ作为控制其曲线斜率的参数：（X，σ）=（1−e−σX）/（1+e−σX）=tanh（2σX）。（五）[46]第四十七话：我的世界图3：不同方法生成的显着性图。对于一个简单的场景（顶行），所有三种方法都能够检测到前景。然而，对于复杂场景，方法无法检测到显著对象。简单和复杂的场景，我们的方法的性能描述符R∈RK′×K′ 表示一个given图像I′ ′在某种程度上取决于显著性检测器，，结果基于RBD [47]，预计相比之下，而RIJ∈RK×K表示图像I和J的组合前景-背景对。随后，我们形成查询支持对（例如，我们将他们的代表联系在一起，tations），我们将情节传递给相似性网络。我们使用均方误差（MSE）损失来训练我们的网络：[37][38][39][39][39][39]结合不同显着性检测器的少次学习的性能将在第4.3节中介绍。首先，我们详细介绍了我们的策略，用于为少量学习提供额外的训练数据。1 ΣNL=ΣW （r（Rsnw，Rq）−δ（lsnw-lq））2，（6）3.3. 数据幻觉NWn=1w =1其中snw从I=I+I′中选择支持图像，I和I′是原始图像和超分辨率图像，q选择查询图像，r是相似性网络，l是图像的标签N是一集中的类数，W是每个支持类的镜头数，δ（0）=1（其他地方为0）。请注意，方程式（6）本身不形成前景-背景幻觉对。我们在3.3节中描述了这个过程。3.2. 显著性图生成为了简洁起见，我们考虑三种方法：深度监督显着性方法[46，37]和无监督浅层方法[47]。在本文中，我们使用显着性图作为先验来生成前景和背景假设。在我们的主要经验中，由于其优越的性能，我们使用深度弱监督slaiency检测器MNL [46]。此外，我们研究了在THUS10K数据集[6]上预训练的深度监督RFCN方法[37]，该方法与我们的少量学习数据集没有交集。我们还研究了廉价的RBD模型[47]在无监督模型中表现最好[3]。图3显示了由上述方法生成的显著性图。在顶行中，前景和背景具有不同的纹理。因此，常规模型和深部模型都能很好地隔离前景然而，对于前景/背景共享颜色和纹理组成的场景（底部行），无监督方法不能检测正确的前景。因为我们的数据集包含了II2774通过从特征编码器f获得并由编码器g细化的前景和背景特征向量对的求和来对附加数据点进行超分辨率处理。以N路W镜头问题为例（参见关系网 [34] 或 SoSN [45] ，了解此类协议的详细定义），我们将从N个训练类中的每个训练类中随机抽取W设nw是从片段的第n个类中选择第w个图像的索引，q是选择查询图像的索引。在需要时，假设提取图像的前景和背景描述符。然后，可以制定以下用于辅助数据点的幻觉的策略。策略一：班级内幻觉。对于该策略，给定图像索引snw，对应的前景仅与来自相同类别的图像的背景混合n.因此，我们可以为每个图像生成W-1个数据点。图5显示了类内幻觉产生了可信的新数据点。请注意，N通常与前景对象相关，并且这样的对象出现在背景上，从统计学上讲，如果交换，将产生似乎合理的对象-背景组合。然而，上述策略不能在一次性设置中工作，因为每个类只给出一个支持图像。虽然我们的类内幻觉呈现出一个有前途的方向，但我们的结果将表明，有时由于非常简单的前景-背景混合策略（包括前景-背景特征向量总和），2775¨¨NW前景-背景编码与混合网络卷积层BatchNormReLU最大池化全连接层相似网图4：前景-背景编码和混合网络以及相似性网络的详细架构。最好用彩色观看。前景1图5：类内数据点幻觉策略：以这种方式产生的大多数数据点在统计上是可信的。然后是细化编码器G。这样的策略包括来自（i）不合标准的显著性图和/或（ii）混合不相容的前景-背景对的可能噪声。因此，为了进一步细化超分辨率数据点，我们提出利用来自同一图像的前景-背景混合对Fsnw和Bsnw（例如，它们的混合应该产生原始图像），并强制它们的特征向量在N2范数意义上接近于不执行幻觉的某个基线教师网络。具体地说，我们取Φ=g（Fsnw，Bsnw），并鼓励它接近一些教师表示前景1图6：类间数据点幻觉可能会生成不可能的实例，例如，‘天空中的长颈鹿’是一个不太可能的概念（除了长颈鹿在运输过程中从直升机上掉下来？）.将是统计上难以置信的，如图6所示，这将导致分类精度的下降为了消除类间幻觉过程中不可信的前景-背景对，我们设计了一个相似性先验，它根据背景与给定前景的兼容性为背景分配概率。可以提出许多相似性先验，例如，可以使用标签信息来指定两个给定类之间的某种相似性直觉上，包含狗和猫的图像之间的背景应该比Φ=g（{Fs，Bsnw }）其中Fsnw+Bsnw =Isnw ∈I：狗和收音机的图像的背景。然而，模-ΣN ΣW1NW¨？g（f（FSNW ）+f（BSNW ））−g<$（{FSNW ，Bsnw¨2}）<$，明确地提取这样的关系可能是麻烦的，并且它具有其缺点，例如，，图像的背景包含n=1w =12辆车也可能适合渲染路上的S.T.FSNW′+Bsnw =Isnw ∈I（7）或者说，虽然没有明显的关联性，孩子们说猫和汽车课程。因此，我们忽略类标签L=L+β β，其中I是一组原点。火车图像，β调整了图像质量的影响，L′是综合损失，而净。G已经训练好了。我们研究的g编码（i）的原始图像，即，g（f（Inw））或（ii）前景-背景对而代之以执行后台检索。具体来说，一旦提取了支持图像的所有背景，我们就测量索引为snw的所选图像的背景与所有其他背景之间的距离，以分配两个背景相似程度的概率得分，因此：从原始图像即，g∈（f（Fs）+f（Bs）.我们称之为NWd（B ，B¨）=<$ f（B）−f（B¨2（8）RealRepresentation Regularization（TriR）我们的经验-SNW西南SNW西南2结果表明，TriR改善了最终结果。策略二：阶级幻觉。对于这种策略，我们允许将支持图像的前景与支持集中所有可用的背景混合（允许类间混合与类内生成器相比，类间幻觉可以生成W−1+W（N−1）个新数据点。然而，许多前景-背景对背景1飞机A背景2前景2飞机B飞机B在空中盘旋飞机B从陆地上起飞飞机A在空中盘旋飞机A从陆地上起飞背景1长颈鹿背景2前景2飞机飞机在空中盘旋飞机从草原起飞长颈鹿在天空飞翔长颈鹿在草地上散步Ω=NW27762e−αd（Bsnw，Bsn′w′）p（Bsn′w′|Bsnw）=1+e−αd（Bsnw，Bsn′w′），（9）其中α是控制概率分布函数p（d）的超参数，如图7所示：沿y轴反射的Sigmoid。我们将轮廓p应用于g的幻觉输出以获得g′。我们在图8中展示了这一策略，2777图7：概率曲线pw.r.t.区d和各种α.前景1背景1d长颈鹿背景2d背景3D背景4d飞机在海面滑行概率：0.13长颈鹿在草地上散步概率：0.89长颈鹿在天空中飞翔概率：0.21长颈鹿在草地上散步概率：1.00图8：具有相似性先验的类间幻觉策略。我们根据给定图像的背景与其他背景的相似性将可能性分配给生成的数据点。我们称之为软相似性先验（SSP）：表1：迷你Imagenet数据集上的评估。见[34，45]基线的详细信息。请注意，类内幻觉对一次性学习没有影响，因此没有（w/o Hal. 类内幻觉（Intra-class Hal.））上的1-shot是相同的。astersik（*）表示我们提出的管道上的“健全检查”结果，给定禁用的显着性分割和幻觉（见supp.材料详情）。模型罚款调谐5路Acc.单次拍摄5次射击[36]第三十六话N四十三56±0。8455. 31 ±0。73Meta Nets[27]N四十九21±0。96-[29]第二十九话N四十三44±0。77六十岁。60±0。71[33]第三十三话N四十九42±0。7868岁20 ±0。66MAML[10]Y四十八70±1。8463岁11 ±0。92[34]第三十四话N51岁36 ±0。86六十五63±0。72SoSN[45]N52岁96 ±0。8368岁63 ±0。68SalNetw/o Sal.隔离区（*）N五十三15±0。8768岁87 ±0 .01，P<0.05。67SalNet w/o Hal.SalNet内部哈尔NN55. 57 ±0。86七十35 ±0。66七十一78±0。69SalNet国际哈尔N五十七45±0。88七十二01±0. 67GPU通过亚当求解器。我们的显着性引导的幻觉网络的架构如图所示。2和4.结果进行了比较，与几个国家的最先进的方法，一次和几次拍摄学习。4.1. 数据集下面，我们描述我们的设置，数据集和评估。miniImagenet[36]由来自100个类别的60000个RGB图像组成。我们遵循标准协议[36]并使用g′（Fs ，Bsn′w′）=p（Bsn′w′| Bsnw ）g（f（Fsnw），f（Bsn′w′））。80个培训班（包括16个验证班）（十）此外，我们提出了一个硬相似性先验（HSP），根据它，我们将给定的前景与p高于特定τ的最相关的检索背景相结合：和20个班级进行测试。所有图像的大小调整为84×84像素与其他方法进行公平比较。我们还研究了更大的尺寸，例如224×224，因为我们的SalNet模型可以使用来自更大图像的更丰富的空间信息来获得高秩自相关矩阵，而无需g′（F， B.0，如果p（B）=的西南 |Bsnw ）≤τ，将相似性网络修改为更大的特征图。Open MIC是最近提出的一个开放博物馆IDEN-SNW西南g（f（FSNW ），f（B西南），否则。（十一）Tification Challenge（Open MIC）数据集[16]，其中包含各种展品的照片，例如绘画，钟表，我们将在实验中证明，显著地增强了类间幻觉的性能，特别是对于类内幻觉不适用的1次激发协议。我们将在第4节中展示HSP和SSP都能提高少次学习的性能; SSP是所有方案的一致执行者。首先，我们详细介绍了数据集，然后通过实验展示了我们方法的实用性。4. 实验我们的网络在迷你Imagenet [36]数据集和最近提出的Open MIC数据集[16]上的少拍学习场景中进行了评估，该数据集用于SoSN方法[45]的少拍学习。我们的实现基于PyTorch，模型在Titan XpNW2778雕塑、玻璃器皿、文物、科学展品、自然历史作品、陶瓷、陶器、工具和土著工艺品，从10个博物馆展览空间捕获，根据这些展览空间分为10个子问题。Open MIC总共有866个不同的类，每个类有1-20个类内图像经历各种几何和照片失真，因为数据是用可穿戴相机捕获的。这使得OpenMIC成为测试一次性学习算法的完美候选者。根据 SoSN[45] 中的设置，我们将（shn+hon+clv），（xl +gls+scl），（sci+nat）和（shx+rlc）拆分为子问题p1，. ，p4.我们从12个可能的对中随机选择4个，其中子问题x用于训练，y用于测试（x→y）。关系网[34]和SoSN [45]被用作我们比较SalNet方法的基线。2779关系网SoSN没有哈尔。班内哈尔。跨类哈尔。前1精度表2：开放MIC数据集的评价。p 1 ：shn+hon+clv，8060p2：P3 +gls+scl，p3：sci+nat，p4：shx+rlc。符号x→y表示75关于展览x的培训和关于展览y的测试。706560555012345678910注射次数（a）4030205 10 15 20路号（b）图9：在不同的方法下，迷你Imagenet上的精度作为（左）W-拍摄（5路）和（右）N-拍摄（5路）数量的函数。我们的模型在所有基线上改进结果。72 5871.5 5771 5670.5 5570 5400.0010.0050.010.050.10.20.512.0 0.4 0.8 1.2 1.6 2β α4.2. 实验装置对于迷你Imagenet数据集，我们在5路场景中执行1到10次拍摄实验，以证明我们的SalNet在不同数量的W-拍摄图像上获得的对于每个训练和测试片段，我们随机选择每个类5个和3个查询样本。我们平均最终结果超过600集。初始学习率设为1e−3。我们用20万集训练模型。对于Open MIC数据集，我们从12个可能的子问题中选择4个，即p1→p2，p2→p3，p3→p4和p4→p1。首先，我们对斑块图像应用均值提取（Open MIC为每张图像提供三个大的作物），并将其调整为84×84像素。由于某些类别的开放MIC包含少于3个图像，因此我们将5路1次拍摄应用于3次拍摄学习协议在训练过程中，为了形成一个片段，我们为每个类随机选择1在测试过程中，我们在每个事件中使用相同数量的支持和查询样本，并将准确率平均1000集的最终得分。初始学习率设置为1e−4。这些模型是用50000集训练的。4.3. 结果对于迷你Imagenet数据集，表1显示我们提出的SalNet在标准5路1次和5次协议上优于所有其他最先进的与目前的最先进的方法相比，我们的SalNet类间哈尔。模型在1次和5次发射协议上分别比SoSN高出4.4%和3.3%，而我们的SalNet Intra-class Hal. 与SoSN相比，精度提高了（a）（b）图10：miniImagenet上的准确度作为（a）β的函数从Eq.（7）（5次5路）和（b）SSP的α，（10）（1次5路）。表2显示了开放MIC的结果。SalNet类间哈尔的改进。和SalNet Intra-class Hal。与迷你影像网一致然而，在某些拆分上的改进很小（即，1.1%），由于这些分裂的困难，例如。珠宝，化石，复杂的非本地发动机装置或用可佩戴的照相机捕获的半透明展品不能被显著性检测器容易地分割出来。消融研究。我们论文中提出的网络建立在基线框架上[34]。然而，我们已经添加了几个非平凡的单元/子网络来实现我们在特征空间中的数据点幻觉的目标。因此，我们进行了额外的实验，以表明所实现的准确性增益源于我们的贡献。我们还分解了w.r.t.各种组件。首先，表1示出了如果在我们的流水线中禁用显著性分割和数据超分辨率（SalNet w/o Sal. 隔离区），所有协议的性能都下降到SoSN的基线水平。此外，我们观察到SalNet优于SoSN，即使我们将图像分割成前景和背景，并通过我们的网络传递它们，而不使用幻觉数据点（SalNet w/o Hal. ）.我们断言，这种改进源于显着性检测器定位图像中主要对象的能力。这是一种空间知识转移的形式，有助于我们的网络更好地捕捉查询和支持图像之间的相似性图9（a）显示了我们的（SalNet Intra- class Hal. ）模型在miniImagenet上，用于5次拍摄5路情况关系网SoSN没有哈尔。跨类哈尔。前1精度50模型N路W-镜头p1→p2 p2→p3 p3→p4 p4→p1[34]第三十四话SoSN [45]551170.178.049.760.166.975.546.957.8内部。哈尔国际。-哈尔551178.279.360.361.475.976.658.159.2[34]第三十四话SoSN [45]552275.684.655.268.172.382.756.066.8内部。哈尔国际。-哈尔552285.786.469.270.084.184.367.567.8[34]第三十四话SoSN [45]553380.987.161.972.678.585.958.972.8内部。哈尔国际。-哈尔553387.588.173.974.286.587.173.673.9[34]第三十四话SoSN [45]10101154.467.235.346.253.163.935.546.6内部。哈尔国际。-哈尔10101167.668.346.747.564.365.447.048.4[34]第三十四话SoSN [45]10102265.574.440.954.662.673.041.554.2内部。哈尔国际。-哈尔10102275.875.656.356.473.874.255.355.6[34]第三十四话SoSN [45]10103369.078.045.756.367.577.546.358.6内部。哈尔国际。-哈尔10103379.279.358.358.578.378.659.159.927807570656055501发5发1发5发1发5发没有哈尔。班内哈尔。跨类哈尔。图11：迷你Imagenet的RBD [47]，RFCN [37]和MNL [46作为正则化损失TriR的参数β的函数。我们观察到，对于β=0。01我们在β=0（TriR禁用）时获得了101%的准确度重要的是，增益在大范围内保持稳定。005≤β≤0。五、表3进一步验证了我们的TriR正则化在组合中的有用性。民族与内部和阶级间的幻觉 SalNet （内部。Hal.+TriR）和（Inter.- Hal.+ TriR），增益高达1。6%和1。在迷你Imagenet上有5%的准确率。我们的结论是，TriR通过迫使编码器g模仿教师g的真实前景-背景对来帮助我们的端到端训练（g的训练只针对这样的对来充当可靠的监督者）。图9（b）显示了我们的（SalNet Inter-class Hal. ）迷你Imagenet上的模型，用于1次拍摄5路，软相似性先验（SSP）。观测到的最大精度增益为1.33%。表3进一步比较了硬先验和软先验（SalNet Inter-classHal.+ HSP）和（SalNet Inter-class Hal.+ SSP），SSP的表现优于HSP高达2.2%。最后，图11比较了少数镜头学习精度的术语。复杂的显着性方法同样表现良好。然而，RBD方法[47]的使用由于其许多失败而导致显著的性能损失，例如：，参见图3。显着图扩张。由于通过显着性检测器提取的背景包含“剪切”轮廓，因此它们无意地携带一些前景信息。图12表明，如果我们在遮罩上应用高斯模糊和阈值来消除轮廓形状，我们可以防止将主要前景与对应于轮廓的前景混合。表4示出了将每个前景与背景图像配对，图12：前景蒙版的逐渐扩大模型5路1拍五向五射班内哈尔。55. 57 ±0。86七十一78±0。69类内哈尔+扩张五十六67±0。85七十二15±0。68表4：轮廓扩张的结果通过根据两种不同半径扩张（扩张）来移除，由于（类内Hal. ）.5. 结论在本文中，我们提出了两个新的轻量级数据幻觉策略的少镜头学习。与基于GAN的其他昂贵的幻觉方法相比，我们利用现成的显着性网络来获得前景-背景对，我们在其上以端到端的方式训练我们的SalNet网络。为了应对显着图的噪声，我们提出了一种真实表示正则化（TriR），它用真实前景-背景对的可行解来正则化我们的网络。为了减轻前景-背景假设不合理所带来的性能损失，本文提出了一种基于相似性的先验知识，有效地降低了不正确假设的影响对于未来的工作，我们将调查一个自我监督的注意力模块的相似性感知和研究松弛的显着分割方法。鸣谢。这研究是支持由国家留学基金管理委员会（ CSC 学生证 201603170283 ）。我们还要感谢CSIRO科学计算、NVIDIA（GPU赠款）和国防科技大学的支持。引用[1] Zeynep Akata、Florent Perronnin、Zaid Harchaoui和Cordelia Schmid。基于属性类表3：针对不同的N次拍摄数对迷你Imagenet数据集的5向评估。有关基线的详细信息，请参阅[34，455路精度W-镜头12345678910[34]第三十四话51岁4±0.7五十六7±0。8六十岁。6±0。863岁3±0。7六十五6±0。766岁。9±0。767岁7±0。768岁6±0。669岁。1±0。669岁。3±0。6SoSN[45]五十三0±0。8六十岁。8±0。8六十四5±0。867岁1±0。768岁6±0。7七十3±0。7七十一5±0。6七十二0±0。6七十二3±0。6七十三。4±0. 6不含销售。隔离区五十三1±0。9六十岁。9±0。8六十四7±0。867岁3±0。768岁9±0。7七十6±0。7七十一7±0。6七十二1±0。6七十二6±0。6七十三。6±0。6没有哈尔。55. 6±0。963岁5±0。866岁。2±0。868岁2±0。7七十4±0.7七十一2±0。7七十二2±0。7七十三。2±0。674岁0±0。674岁6±0。6内部。哈尔55. 6±0。963岁1±0。8六十五9±0。768岁7±0。7七十8±0。7七十一8±0。7七十三。6±0。6七十三。8±0。674岁1±0。675. 2±0。6内部。Hal.+ TriR55. 6±0。9六十四5±0。867岁5±0。7七十3±0。7七十一8±0。7七十二8±0。774岁1±0。674岁4±0.674岁7±0。675. 7±0。6国际。-哈尔五十三7±0。9五十八9±0。862. 4±0. 8六十五2±0。767岁7±0。768岁5±0。769岁。6±0。769岁。9±0。6七十6±0。6七十一1±0。6国际。- Hal.+ TriR五十四1±0。9六十岁。1±0。863岁4±0.7六十五8±0。767岁9±0。769岁。6±0。7七十5±0。6七十一0±0。7七十二1±0。6七十二5±0。7国际。- Hal.+TriR+HSP五十六4±0. 963岁0±0。867岁3±0。869岁。2±0。7七十一0±0。6七十一8±0。7七十二1±0。6七十三。0±0。674岁2±0。675. 4±0. 6国际。- Hal.+TriR+SSP五十七5±0。9六十四8±0。867岁9±0。8七十5±0。7七十二0±0。7七十三。2±0。774岁3±0。674岁6±0。675. 2±0。6七十六。1±0。6RBD RFCN2781化在CVPR，第819-826页，2013年。2[2] 叶夫根尼·巴特和西蒙·厄尔曼。交叉泛化：通过特征替换从单个例子学习新类.见CVPR，第672-679页，2005年。2[3] A. Borji，M.Cheng，H.Jiang和J.李显著物体检测一个基准。TIP，24（12）：5706-5722，2015。三、四[4] Y-Lan Boureau，Jean Ponce，and Yann LeCun.视觉算法中特征池的理论分析ICML，2010年。3[5] 卡雷拉河Caseiro，J. Batista，and C.斯明奇塞斯库硒Mantic Segmentation with Second-Order Pooling（二阶池分割）ECCV，2012年。3[6] M. Cheng，G. Zhang，N.J.米特拉，黄晓蕾，施-胡敏。基于全局对比度的显著区域检测。在CVPR，第409-416页，2011年。4[7] Ali Farhadi ， Ian Endres ， Derek Hoiem ， and DavidForsyth.按属性描述对象在CVPR，第17782[8] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。One-shotlearning对象类别。PAMI，28（4）：594-611，2006. 一、二[9] 迈克尔·芬克从一个单一的例子利用类相关性度量对象分类。在洛 K. Saul， Y. Weiss 和 L. Bottou ，编辑，NIPS，第449-456页，2005年。2[10] Chelsea Finn，Pieter Abbeel，Sergey Levine. 型号-不可知元学习，用于深度网络的快速适应。在ICML，第1126-1135页，2017年。二、六[11] Mehrtash Harandi ， Mathieu Salzmann ， and RichardHartley.联合降维和度量学习：一个几何学的镜头。在ICML，第14041413页，2017年。1[12] Bharath Hariharan和Ross B Girshick。低射vi-通过缩小和幻觉特征来进行视觉识别。在ICCV，第3037-3046页，2017年。一、二[13] Hou Qibin ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip H.S. 乇具有短连接的深度监督在CVPR中，第3203-3212页，2017年7月。2[14] H. 我也是M. Douze和C. 施密特论《红楼梦》的突发视觉元素。见CVPR，第1169-1176页。IEEE，2009年。3[15] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。在ICML深度学习研讨会，第2卷，2015年。2[16] Piotr Koniusz，Yusuf Tas，Hongguang Zhang，MehrtashHa- randi，Daughh Porikli，an

下载后可阅读完整内容，剩余1页未读，立即下载