全引导网络：少镜头实例分割中的指导机制

186 浏览量更新于2023-10-25 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9172FGN：用于少镜头实例分割的范志波1，余金刚1，2，梁志豪1，欧家荣1，高长新3，夏桂松4，李元庆1，21华南理工大学2广州实验室3华中科技大学4武汉大学{zanefan0323，zhliang19980922}@gmail.com，{jingangyu，yqli}@scut.edu.cn，au_jaring@mail.scut.edu.cn，cgao@hust.edu.cn，guisong. whu.edu.cn摘要少镜头实例分割（Few-Shot instance segmentation，FSIS）将少镜头学习范式与一般实例分割相结合，为在缺乏大量可供训练的标记数据的情况下解决实例分割问题提供了一种可能的方法本文提出了一种用于少镜头实例分割的全引导网络（FGN）FGN将FSIS视为引导模型，其中所谓的支持集被编码并用于引导基本实例分割网络的预测（即，Mask R-CNN），其中关键的是指导机制。从这个角度来看，FGN在Mask R-CNN的各个关键组件中引入了不同的指导机制，包括Attention-Guided RPN 、 Relation-Guided Detector 和Attention-Guided FCN，以充分利用支持集的指导作用，更好地适应类间泛化。在公共数据集上的实验表明，我们提出的FGN可以优于最先进的方法。1. 介绍实例分割[10，12]是一项基本的计算机视觉任务，其目的是同时对给定图像中的对象实例进行局部化、分类和估计分割掩模。在过去的几年里，由于卷积神经网络（CNN）的繁荣[12，19，4，3]，以及它在不同领域的成功，实例分割取得了显着的进步。真实世界的应用[33，31，9]。现有的基于CNN的实例分割方法大多是完全监督的，这需要大量的标记数据用于模型训练[12，24，11]。然而，这种数据饥渴的设置可能是不切实际的。受人类在有限数据下学习的非凡能力的启发，最近，*通讯作者完全引导网络图1.使用建议的完全引导网络（FGN）进行少量实例分割的说明。为了更好地适应类间泛化，FGN为Mask R-CNN中的各个关键组件引入了不同的指导机制。很多研究关注[29，27，16，28，8]。假设有大量属于某些类别（基础类别）的标记数据可用于训练，FSL旨在对来自其他不同类别（新类别）的数据进行预测，每个类别只有少数标记样本[29，27]。FSL不是对在具有非常有限的新类样本的基类上预先训练的普通模型进行微调，或者进行数据增强，而是学习一个条件模型，该模型以支持集为条件进行预测，以便适应类间泛化。大多数现有的FSL模型专注于视觉分类，少数专注于语义分割[32，22，26，5]。然而，它已经很少探索到目前为止，在实例分割的情况下，我们所关心的任务称为少镜头实例分割（FSIS）。虽然我们认为FSL范式对于解决有限数据的实例分割也任何FSL方法的关键是一种适当的机制，用于编码和利用支持集来引导基本网络，支持集指导指导指导例如查询分段检测器RPNFCNMask R-CNN9173工作（例如，ResNet [13]用于分类或FCN [20]用于语义分割）。与视觉分类或语义分割任务相比，设计用于实例分割的引导机制变得更具挑战性，这主要是因为实例分割网络通常具有更复杂的结构。在之前的尝试[21，30]中，作者提出在Mask R-CNN[12]上建立引导网络，这可能是一般实例分割的最具代表性的模型。Mask R-CNN是一个两阶段网络，其中第一阶段区域建议网络（RPN）生成类别不可知的对象建议，第二阶段子网由三个头组成，分别用于分类，边界盒（bbox）回归和掩码分割。先前的工作通过简单地在Mask R-CNN中的某个位置引入单个引导模块来实现引导。Michaelis等人。 [21]提出在第一阶段将Siamese作为骨干网络，以编码来自支持集的指导因此，不同任务的所有后续组件（包括RPN和三个头）必须共享相同的指南。在[30]中，通过从支持集中提取的类关注向量来重新加权特征图，将指导注入到第二阶段前面的Mask R-CNN中，这强制所有第二阶段组件共享相同的指导，并完全忽略第一阶段RPN。在本文中，我们提出了一个完全引导网络（FGN），以解决少数镜头的实例分割，在概念上展示了图。1.一、FGN将少量学习范式与Mask R-CNN结合起来，建立了一个引导网络。与之前的作品[21，30]不同，FGN的关键理念是，Mask R-CNN中不同任务的组件应该被不同地引导以实现完全引导（这为“完全引导网络”的名称提供了理由我们的直觉是，FSIS的问题设置给Mask R-CNN中的各个组件带来了不同的挑战，这些挑战很难通过使用单一的指导机制来解决。为此，FGN在掩码R-CNN中引入了三种引导机制，即注意引导RPN（AG-RPN）、注意引导检测器（ RG-DET）和注意引导FCN（AG-FCN）。AG-RPN通过类感知注意力对支持集进行编码，然后用于引导RPN，使其能够关注新的关注类并生成类感知建议。RG-DET通过一个显式的比较方案来指导检测器分支，以适应FSIS中的类间泛化。AG-FCN还从支持集中获取注意力信息，以指导掩模分割过程。精心设计了具体的指导模块，并为模型学习提出了有效的培训策略（详见图2和第3在公开数据集上的实验结果表明，该算法的性能优于现有的算法FSIS接近。总之，我们工作的主要贡献有两个方面：• 我们提出了完全引导网络，一个新的框架工作的少数镜头的实例分割。• 我们提出了三个有效的指导机制，即， AG-RPN、RG-DET和AG-FCN，性能卓越。2. 相关工作在本节中，我们简要回顾了相关文献。实例分段。实例分割可以被视为语义分割和对象检测的交叉点上的任务，近年来已经取得了显著的进步[10，12，24，11，19，4，3]，受益于深度CNN。现有的实例分割方法是基于提议的或无提议的。前一类最具代表性的工作可能是Mask R-CNN [12]，它利用RPN在第一阶段生成其他有影响力的作品包括[14，19，3]。后一类方法直接执行实例分割，而不依赖于RPN，以平衡性能和计算效率。有代表性的作品有[17，7]。实例分割主要是在全监督环境下进行的，这对于某些应用来说可能是不切实际的。少射分类。FSL [29，27]最近已经成为学习预测的一个有前途的范例从非常有限的训练数据（通常是一把训练样本，只有每个类）模型。通常需要具有大量标记数据（但与目标数据不同的类别）的外部数据集然后从这些事件中学习条件分类器，其使预测以支持集为条件。期望条件分类器能够很好地通用于目标任务（在新类上）。A num- ber of few-shot classification models have beenproposed recently, including Matching Networks [29],Prototypical Networks [27], Relation Networks [28], themodels based on Siamese CNN [16], graph CNN [8], etc.这些模型可以通过它们如何编码和利用支持集来指导基础网络来区分。少镜头语义分割。考虑将FSL范式应用于其他计算机视觉是很自然的任务，如语义分割、对象检测等。根据少炮分类的精神，Shaban et al.[1]提出利用条件分支对支持集进行编码，并调制基于FCN的分割分支以实现一次性语义分割。在类似的结构下，一些作者提出了不同的建议-9174i=1支持集猫人瓶CNN共享注意-引导RPN注意-制导FCN掩模查询图像Bbox注册瓶瓶瓶瓶瓶瓶引导检测器瓶瓶CLSRoIAlignCNNRoIAlign实例分割图2.全面引导网络（FGN）。FGN建立在Mask R-CNN [12]上，其中支持集被编码并用于分别通过注意引导RPN（AG-RPN）、关系引导检测器（RG-DET）和注意引导FCN（AG-FCN）来引导Mask R-CNN中的三个关键组件。用于对支持集进行编码或对分段分支进行调制的方案[22，32，5]。少镜头对象检测。由于目标检测需要定位，因此使FSL适应目标检测（称为少镜头目标一些研究从自定进度学习[5]或迁移学习[2]的角度来解决这个问题。在[25]中，Schwartz等人提出将基于代表性的度量学习方法与Faster R-CNN框架相结合。在[15]中，Kang等人提出了一个条件YOLO框架[23]，其中重新加权了用于少数拍摄对象检测的特征。这些方法只能产生对象边界框，而不是实例遮罩。与我们最密切相关的是，[21，30]中的工作通过在Mask R-CNN上构建引导网络来考虑FSIS。然而，整体性能仍然有限，这可能是由于由支持集驱动的指导不能完全影响上述基础网络的事实。更有效的指导机制在很大程度上仍有待探索。3. 方法在这一节中，我们从少量实例分割的问题陈述开始。然后介绍了提出的全引导网络模型，并给出了模型训练策略.3.1. 问题陈述假设对于一组基类Cbase，我们有一个用对象实例标注的大图像集，用Dbase表示。现在让我们考虑一组不同的语义类Cnovel（称为novel类），它们不与基类重叠，即，C基= Cnovel=φ。对于这些新的类，我们只有非常有限的注释实例D小说，简称支撑集。在实践中，这通常是由于难以收集图像或获取实例级注释。少镜头实例分割（FSIS）的任务是从任何给定的查询图像Iq中分割出属于新类的所有对象实例。注意当|C小说|=N（|·|代表在这篇文章中，一个集合的基数），有K注释的实例，我们称之为N路K-shot实例分割任务。在本文中，我们结合了一般的实例分割，以解决FSIS问题的少镜头学习范式。遵循少镜头分类的精神[29，27]，我们模拟了大量的N路K镜头实例分割任务T ={（Si，xi）}|不|通过随机抽样支持集合和查询从D基地（的基础类Cbase），其中第i个任务通过对支持集Si和查询图像xi进行采样而形成。通过使用这些模拟任务T，我们学习了条件实例分割模型fθ（x|S），其对以支持集S为条件的查询图像X执行实例分割。学习模型fθ（x|S）然后可以应用于目标任务，即N路K-镜头实例分割在新颖类C新颖上（简单地让S=D新颖且x=Iq）。值得指出的是，我们的策略不是直接学习fθ（x），而是学习一个条件模型fθ（x|S），其可以被视为利用支持集S来指导x的实例分割。指导的存在对于在基类Cbase上训练的模型很好地推广到新类Cnovel起着关键作用。3.2. 完全引导网络任何FSIS方法的核心都是如何有效地编码和利用支持集来指导基本的9175nn图3.注意力引导的RPN（AG-RPN）。站姿分割网络（通常是Mask R-CNN [12]）。先前的工作通过在Mask R-CNN中的某个位置处引入单个引导模块来实现这样的引导，这可能会不期望地强制不同任务的组件共享相同的引导[29]，或者新的某些组件[27] 。在本文中，我们提出了完全引导网络（FGN），它不同于传统的网络。图4.磁导引探测器（RG-DET）的结构。引导RPN（AG-RPN）。AG-RPN的结构如图所示3 .第三章。特征映射Fk∈ RH×W×C，其中n = 1，…，N，k = 1，… K，其编码支持集，经历全局平均池化（GAP）和对每个单独类的平均操作，由下式给出我们的工作[29，27]在于，Mask R-CNN中不同任务的组件由不同的支持集指导，以实现完全指导。an=1ΣKKk=1间隙. Fkn ， n=1，…N，（1）所提出的FGN的概述如图所示。二、通常，FGN在三个关键组件处将指导引入到Mask R-CNN中，即：RPN、检测分支（包括分类和bbox回归）和掩码分支，分别导致注意引导RPN（AG-RPN）、注意引导检测器（RG-DET）和注意引导FCN（AG-FCN）。在建议的FGN，给定的支持集S（包含N个类中每个类的K个注释实例）和查询图像x由共享骨干网编码（ResNet 101 [13]在我们的实现中），以给出特征映射Fk，Y∈其中{a1，...，aN}∈RC×1是与N个新类相关的类关注向量。然后，每个an被用来对查询图像Y ∈RH×W×C的特征图进行加权，如下所示Yn=Yan n，n=1，.，N，（2）这意味着在每个空间位置处沿着信道维度取N来执行逐元素乘法耶氏酵母中每个Yn都被输入到基本RPN中，用于建议生成。独立计算，然后将结果汇总，RH×W ×C kn提出最终建议。聚合过程可以分别Fn对支持集进行编码，AG-RPN使用该支持集在第一阶段中指导从Y生成提案。然后，在第二阶段，对于每个具有对齐的特征映射zj∈Rh×w×C，对齐的Fk∈Rh×w×C为由RG-DET用于指导分类和bbox头，并通过AG-FCN引导掩模头。我们工作的另一个关键贡献是为这些模块设计新颖有效的指导机制，详细介绍如下。注意力引导的RPN。Mask R-CNN依赖于RPN来获得潜在对象的类不可知建议，以供后续处理。在FSIS的问题设置下，RPN必须在基类Cbase上进行训练，并在完全不同的新类Cnovel上进行测试。在这种情况下，RPN可能会生成很多不需要的建议，但错过了关注的建议，特别是当Cnovel远离Cbase，或者novel类的数量很少时，这将大大降低整体性能。为了解决这个问题，我们的想法是将来自支持集的指导引入RPN，以便它可以关注关注的类别并生成类别感知的建议，我们呼吁注意-描述如下：对于每个特定的锚点，可以通过RPN在每个Y=n，并且N个分数上的softmax结果被记为主播的阶级意识自信。在推理过程中，锚点精化是通过与最高匹配分数相对应的回归进行的。通过对锚点的置信度进行阈值化并执行非最大抑制，从锚点中提取最终建议。导航探测器Mask R-CNN中检测器分支的指导（包括分类和bbox回归头）在以前的作品中以隐式方式施加[21，30]，其只是通过使用支持集简单地调节第一或第二阶段中的特征提取。在本文中，我们提出了一个不同的指导机制的检测器（实际上分类分支），称为引导检测器（RG- DET）。RG-DET通过显式比较从支持集和RoI中提取的特征来实现指导，这受到了最初针对少数镜头分类提出的关系网络（RN）[28我们支持RN主要是因为它的特点是，注意力引导RPN9176nn我我i*我Fkn ∈Rh×w×C在计算类注意向量之前，tors{b1，.，bN} ∈ RC×1，如等式2中所述。（一）.蒙面池化F k意味着在二进制掩码内池化F kn n图5.注意力引导的FCN的结构。和相似性度量是可学习的，与其他竞争对手相比，如[29，27，16]。不幸的是，RN不能直接部署到我们的任务，因为这里的问题与一般的少镜头分类之间存在本质区别，即拒绝背景类。RG-DET对AG-RPN输出的各个RoI进行操作，其可能不可避免地包含不属于支持集中的新类别的背景RoI。相比之下，回想一下，少数分类方法（包括RN）总是将查询分类为支持集所指示的类之一。考虑到背景抑制问题，RG-DET的结构如图所示。4.第一章对于特定的RoI，其对齐的特征映射zj∈Rh×w×C与N个对齐的特征图连接mk∈Rh×w×C，这是通过对原始实例掩码mk∈ RH×W×C执行RoIAlign而获得的。其次，使用选择器从{b1，.，bN}，其中，n nn被选择为用于训练的地面实况类，和测试中分类分数最高的那个注意，zj=zjbn，其中运算符与等式中的运算符相同（二）、3.3. 培训战略FGN是一个两级结构，因为它是基于Mask R-CNN的。因此，我们的训练管道基本上类似于Mask R-CNN（包括损失函数）。但不同的是，按照[2，15，30]中的惯例，我们的训练包括两个步骤。第一步，我们纯粹采取D库的基类C库作为训练数据.对于第二步，我们从基类和新类中获取数据，即，C基的C++新颖，对模型进行进一步的微调更准确地说，第二步训练数据由整个支持集Dnovel（包含NK个实例）和从D base中随机抽样的Cbase中每个类的3K个实例组成，其总共包含（N+3| C碱基|）K个实例。我们的训练需要对训练集进行随机抽样，模拟目标FSIS任务（构建事件），F=.1ΣKΣFkKn∈Rh×w×C从sup-这将在第4.1节中详细说明。端口设置（如图所示）4），然后是conv和fc层的堆栈（称为MLP），以给出匹配分数（cls分支）和对象框（bbox reg分支）。zj和第i个特征图之间的匹配得分Fn由一个二重峰（c+，c−）表示，其中c+和4. 实验和结果在本节中，我们给出实验结果来评估我们的方法的有效性，主要包括：1）与最先进方法的比较; 2）消融我我我c-代表匹配第i个类的置信度，背景分别。为了实现背景抑制，我们需要导出（N+1）长度的匹配向量c=（c1，...，cN，cN+1），其中ci，i=1，.，反映了第i个类和cN+1的背景。为了这个。位置，我们设置使用几种不同的基线进行研究。我们的方法在TensorFlow和Keras中在具有4个NVIDIA Titan XP GPU的工作站上实现。4.1. 实验设置我们采用两个常用的数据集为我们的实验-ci=c+和cN+1个=c−withi=arg maxi+语言部分，即，Microsoft COCO 2017 [18]和PASCAL VOC物理上意味着我们依赖于最匹配的类（最可靠的一个）来估计背景cN+1的置信度。然后对匹配向量c执行softmax操作，产生最终的分类分数。bbox回归分支与分类分支共享级联和第一个4.第一章注意力引导的FCN。如示于图5、注意力引导FCN（AG-FCN）将引导引入到基于FCN的掩模头中。AG-FCN基本上遵循少数语义分割的指导方案[26]，除了两个修改。首先，对对齐的特征向量执行掩码池化操作[322012 [6]（分别称为COCO和VOC）。COCO有80个对象类，包括一个包含118，287个图像的训练集（train-set）和一个包含4，952个图像的验证集（valset）。VOC覆盖了COCO的80个类的一个子集--20个常规设置。根据3.1节中的问题定义，我们的评估需要以下基本设置：1）设置基本类Cbase和新类Cnovel，并相应地设置训练集Dbase和查询集Dnovel（测试集）：作为我们的主要设置，我们采用了一个具有挑战性的跨数据集设置，以更好地比较各种模型的泛化能力，受到预-注意力引导FCNC9177i=1我方法分割检测1路1拍3路-1拍3way-3shot1路1拍3路-1拍3way-3shotMRCNN-FT0.40.52.76.05.210.2[21]第二十一话13.86.36.623.911.513.3Meta R-CNN [30]12.512.115.320.119.223.4FGN16.213.017.930.823.532.9表1.在COCO2VOC设置下通过各种方法获得的mAP 50性能。分割和检测报告结果以供比较。方法分割检测1路1拍3路-1拍3way-3shot1路1拍3路-1拍3way-3shotMRCNN-FT25.325.027.427.327.129.7[21]第二十一话24.28.89.126.49.710.1Meta R-CNN [30]14.914.115.218.517.819.3FGN24.213.214.327.216.717.3表2.添加实验结果以证明FSIS问题设置的挑战。在本实验中，和D库与COCO2VOC中的库相同，但C新的CNOC库和测试任务是从COCO的验证集中抽样的[15，30]。具体来说，我们将COCO和VOC交叉的20个类设置为Cnovel，将COCO覆盖但不包含VOC的其余60个类设置为Cbase。进一步地，我们从COCO的训练集中取测试集（详见下文）。我们将该主要实验设置称为COCO2VOC。此外，我们还考虑另一种称为VOC 2VOC的设置，RG-DET和AG-FCN设置为0。01和0。001.第001章我们训练了60000步，10倍的学习率衰减应用于后半步。为了构造模拟任务T ={（Si，xi）}，|不|（典型地称为“片段”）进行训练，我们基本上遵循[ 29 ]中提出的采样策略。请注意，我们裁剪在实例的地面真值框周围扩展20个像素的局部补丁以形成支持集，而不是使用整体图像。为了测试，任务{（Dnovel，Iq）}i 我我使用VOC数据集。更准确地说，我们随机抽样在VOC所涵盖的20个类中，有15个是基类Cbase，其余5个是Cnovel。训练集Dbase和查询集Dnovel分别由VOC的trainset和valset构造（2）N和K的数目：我们考虑三种不同的设置：（a）N=1，K=1（称为1路-1拍）;（b）N=3，K=1（称为3路-1拍）;（c）N=3，K=3（称为3路-3拍）。比较方法。据我们所知，目前文献中只有两种FSIS方法，即。，Siamese MRCNN[21]和Meta R-CNN[30]，这些都包括在我们的比较中。与我们的FGN类似，Siamese MRCNN和Meta R-CNN也通过将指导引入到Mask R-CNN中来实现FSIS（但使用不同的指导机制），为此我们使用作者为我们的实验发布的源代码。此外，我们还建立了一个用于比较的基线，称为MRCNN-FT，它基本上是一个使用第3.3节中详细介绍的策略训练的Mask R-CNN。执行续费我们遵循的训练战略在部分3.3和的的设置{Cbase，Dbase，Cnovel，Dnovel，N，K}来训练我们的FGN模型。我们使用ResNet101 [13]为我们的模型提供支持。第一阶段AG-RPN和第二阶段AG-RPN的SGD初始学习率以确保测试集中的每个图像中的每个新类都被测试一次。具体来说，对于每个图像Iq，我们收集它所覆盖的所有类然后，对于每个类，我们随机抽取其他N-1个类，实例相应地形成N路K镜头情节。我们报告所有测试任务的平均性能4.2. 结果我们在下文中分别介绍了COCO2VOC和VOC2VOC设置下的主要结果和相关分析。COCO2VOC。在COCO2VOC设置下通过各种方法获得的FSIS性能比较报告于表1中，其中我们使用mAP50作为定量性能测量。可以观察到，对于N和K的三个设置，我们的FGN通常可以优于两种最先进的方法Siamese MRCNN [21]和Meta R-CNN [30]。SiameseMRCNN [21]在1 way-1 shot的情况下与我们的表现相当，但在其他两种设置下严重退化。这可能是因为，这种方法中的指导遵循最初为成对输入设计Meta R-CNN [30]也表现不佳，可能是因为这种方法在很大程度上依赖于训练中的微调过程，当N和9178姆比凯姆比凯牛牛总线姆比凯牛总线总线奶牛奶牛牛奶牛奶牛姆比凯总线母牛牛母牛牛牛牛姆比凯牛牛牛盆栽盆栽姆比凯姆比凯牛牛盆栽姆比凯牛盆栽盆栽盆栽盆栽植物兰特波特特德盆栽盆栽盆栽盆栽盆栽盆栽盆栽植物（一）（b）第（1）款自行车自行车自行车鸟鸟鸟总线总线总线鸟鸟自行车自行车自行车自行车自行车鸟鸟（c）第（1）款图6. 通过COCO 2 VOC 3路-3射设置下的各种结果获得的示例性结果。在每组（a）-（c）中，顶行中的图像是支持集。在最下面的一行中，从左到右是查询图像，地面实况以及MRCNN-FT，Siamese MRCNN [21]，Meta R-CNN [30]和我们的FGN获得的结果方法分割检测1路1拍3路-1拍3way-3shot1路1拍3路-1拍3way-3shot[21]第二十一话8.24.45.217.98.79.0Meta R-CNN [30]4.23.67.38.07.314.4FGN8.47.39.615.411.316.2表3.在VOC 2VOC设置下通过各种方法获得的mAP 50性能。分割和检测结果进行了比较。K很小，就像我们的设置一样。正如预期的那样，基线MRCNN-FT表现非常差，这表明用来自新类的数据天真地微调从基类获得的模型的策略不适合FSIS。除了分割，我们还比较了几个镜头目标检测任务的各种方法，如表1所示。我们的FGN也可以在所有设置中始终优于其他可以进一步观察到，对于所有方法，从检测到分割存在明显的性能下降，这可以指示FSIS不能通过少量拍摄对象检测方法的简单扩展来实现。我们还提供了一些通过各种方法获得的示例性结果，用于在图1中进行视觉比较。六、9179虽然所提出的FGN可以优于如上所述的最先进的，但人们可能会担心这样一个事实，即各种方法（包括我们的方法）的性能通常看起来有限，比传统的实例分割差得多。我们认为这可能是由于FSIS问题的内在挑战，特别是在像我们这样的方法和镜头数量较少的情况下。为了证明这一点，我们进一步进行了另一个实验其中，Cbase和Dbase的设置与COCO2VOC中的设置相同，但新类C新类Cbase和测试任务从COCO的验证集中采样(the用于测试的数据不同）。这种情况下，其中C新颖的C语言库不符合FSIS的问题定义，而是一般的实例分割。此外，MRCNN-FT是通过通用策略de训练的Mask R-CNN9180AG-RPN RG-DET AG-FCN分割检测FGN-PC13.723.8FGN-DSC C15.126.8FGN-PSC C15.624.8FGN-PDC C15.129.1FGN（我们的）C c C17.932.9表4.对消融术的有效性研究进行全程在mAP 50方面比较FGN变体。RPN AG-RPN-v1 AG-RPN64.5 74.892.5表5. AG-RPN变体之间的AR50比较。在第3.3节中描述，这是所有比较方法（包括我们的）所共有的。如表2所示，在一般实例分割的设置下，即使是以与FSIS方法通常所需相同的方式训练的标准Mask R-CNN也只能实现有限的性能。这可能反映出，FSIS问题设置本质上是具有挑战性的，这些FSIS方法（包括我们的FGN）所采用的训练策略在这个意义上是有效的值得注意的是，在这种实验环境下对各种方法进行比较是没有意义的VOC 2VOC。除了COCO2VOC的主要设置外，我们还在VOC 2VOC设置下进行评估。通过各种方法获得的结果，mAP50列于表3中。虽然VOC2VOC与COCO2VOC共享相同的验证集，但它的训练集要小得多（2011年）。4K对比118K图像）。结果表明，对于所有方法，VOC2VOC的性能都比COCO 2VOC在这种情况下，我们的FGN可以仍然在用于分割和检测的组合方法中实现最佳的整体性能。4.3. 消融研究我们进行消融研究，以进一步揭示我们的FGN的优点。以下所有实验均在COCO2VOC 3路3次设置下进行。全面指导。FGN有效性的一个关键原因是就是我们精心设计了三个引导机制，、AG-RPN（P）、RG-DET（D）和AG-FCN（S）实现全面制导。为了验证这些模块的贡献，我们通过禁用完整FGN模型中的一个或多个模块来构建几个变体通过这些变体获得的关于用于分割和检测的mAP50的结果比较报告于表4中。从这些变体的性能下降可以看出，每个模块在一定程度上对这两个任务都有贡献。AG-RPN。我们将我们的AG-RPN与Mask R-CNN中的基本RPN和称为AG-RPN-v1的变体进行比较，分别评估生成的建议的质量。AG-RPN-v1遵循[21]中的设计以实现指导。从表5可以看出，AG-RPN（我们的）FCN AG-FCN-v1 AG-FCN-v2 AG-FCN15.1 14.515.6表6. AG-FCN变体之间在mAP 50方面的比较。在AR50方面获得最佳性能。AG-FCN。我们构建了AG-FCN的两个变体（我们的）进行比较，称为AG-FCN-v1和AG-FCN-v2。AG-FCN-v1是[32]中建议的用于语义分割任务的FCN指导机制。AG-FCN- v2将信道注意向量bnn平铺为与zj相同的大小，然后将它们连接在一起（参见图11）。（五）。我们还包括Mask R-CNN使用的基本FCN（无指导）进行比较。从表6中可以看出，AG-FCN（我们的）在所有变体中表现最好。5. 结论在本文中，我们提出了完全引导网络（FGN），一种新的网络，以解决少镜头的实例分割。FGN可以被视为一个引导网络，其中支持集被编码并用于引导基础网络，即，，Mask R-CNN。与以往的工作相比，FGN的特点是在Mask R-CNN的三个关键组件中引入不同的引导机制，以充分利用支持集的引导作用.在公共数据集上的比较实验表明，FGN可以优于最先进的方法。还进行了消融研究，以进一步验证FGN的有效性。尽管FGN比以前的工作优越，但小镜头实例分割本质上是一个非常具有挑战性的任务，仍然有很大的改进空间，特别是在分类分支上，涉及更复杂的特征和背景抑制在今后的工作中，我们将探索新的指导机制，进一步提升整体绩效。确认本工作得到了国家自然科学基金项目61703166和61633010 、广东省自然科学基金项目2014A030312005 、广东省重点研发 & 计划项目2018B030339001 、广州市科技计划项目201904010299、以及中央大学基础研究基金，SCUT，根据Grant 2018MS72。9181引用[1] Zhen Liu Irfan Essa Byron Boots，Amirreza Shaban，andShray Bansal.用于语义分割的一次性学习。2017年英国机器视觉会议。4322[2] Hao Chen，Yali Wang，Guoyou Wang，and Yu Qiao.Lstd：用于物体检测的低拍摄传输检测器。2018年AAAI人工智能会议。四三二三，四三二五[3] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。在IEEE计算机视觉和模式识别会议上，第4974-4983页四三二一四三二二[4] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在IEEE计算机视觉和模式识别会议上，第4013-4022页，2018年。四三二一四三二二[5] 董南青和邢国雄。具有原型学习的少量语义分割。2018年英国机器视觉会议。四三二一四三二三[6] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010. 4325[7] Cheng-Yang Fu ， Mykhailo Shvets ， and Alexander CBerg. Retinamask：学习预测蒙版，免费提高最先进的单镜头检测。arXiv预印本arXiv：1901.03353，2019。4322[8] 维克多·加西亚和布鲁纳·琼。图神经网络的少样本学习。在2018年国际学习代表会议上。四三二一四三二二[9] Saurabh Gupta ， Ross Girshick ， Pablo Arbeláez ， andJitendra Malik.从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议，第345-360页4321[10] 巴拉斯·哈里哈兰，巴勃罗·阿贝雷斯，罗斯·吉希克，和吉坦德拉·马利克.同时检测和分割。欧洲计算机视觉会议，第297-312页，2014年。四三二一四三二二[11] Zeeshan Hayder，Xuming He，and Mathieu Salzmann.边界感知实例分割。在IEEE计算机视觉和模式识别会议上，第5696- 5704页四三二一四三二二[12] Kaiming He，Georgia Gkioxari，Piotr Dollár，and RossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议上，第2961-2969页，2017年。四三二一四三二二四三二三四三二四[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition，第770-778页四三二二四三二四四三二六[14] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.面具得分r-cnn。在IEEE计算机视觉和模式识别会议上，第6409-6418页，2019年。4322[15] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在IEEE计算机视觉国际会议上，第8420-8429页四三二三四三二五四三二六[16] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。机器学习研讨会国际会议，第2卷，2015年。四三二一四三二二四三二五[17] Xiaodan Liang ， Liang Lin ， Yunchao Wei ， XiaohuiShen，Jianchao Yang，and Shuicheng Yan.用于实例级对象分割的无建议网络。IEEE Transactions on PatternAnalysis and Machine Intelligence，40（12）：29784322[18] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays，Pietro Perona，Deva Ramanan，Piotr Dollár，andC Lawrence Zitnick.微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页，2014年。4325[19] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议上，第8759-8768页四三二一四三二二[20] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议上，第3431-3440页，2015年。4322[21] Claudio Michaelis ， Ivan Ustyuzhaninov ， MatthiasBethge，and Alexander S Ecker.一次性实例分割。arXiv预印本arXiv：1811.11507，2018。四三二二、四三二三、四三二四、四三二六、四三二七、四三二八[22] Kate Rakelly、Evan Shelhamer、Trevor Darrell、AlyoshaEfros和Sergey Levine。用于少镜头语义分割的条件网络。在2018年国际学习代表研讨会上。四三二一四三二三[23] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别会议上，第779-788页4323[24] Mengye Ren和Richard S Zemel.端到端的实例分割与经常性的关注。在IEEE计

下载后可阅读完整内容，剩余1页未读，立即下载