CRNet:交叉引用网络的少镜头分割

69 浏览量更新于2023-10-24 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4165CRNet：用于少镜头分割的刘伟德1，张驰1，林国胜1，刘法尧21新加坡南洋理工大学2A* 星酒店，新加坡电子邮件：weide001@e. ntu。edu. sg，chi007@e. ntu。edu. sg，gslin@ntu. edu. S G摘要在过去的几年中，最先进的图像分割算法是基于深度卷积神经网络的。为了渲染具有理解概念能力的深度网络，人类需要收集大量像素级注释数据来训练模型，这是耗时且繁琐的。最近，提出了少镜头分割来解决这个问题。少镜头分割旨在学习一种分割模型，该模型可以仅用几个训练图像来生成新的类。在本文中，我们提出了一个交叉引用网络（CRNet）的少镜头分割。与以前的作品只预测查询图像中的掩码不同，我们提出的模型同时对支持图像和查询图像进行预测。通过交叉引用机制，我们的网络可以更好地找到两幅图像中的共现对象，从而帮助完成少镜头分割任务。我们还开发了一个模板细化模块来循环细化前景区域的预测对于k-shot学习，我们建议微调网络的部分，以利用多个标记的支持图像。在PASCAL VOC2012数据集上的实验表明，我们的网络达到了最先进的性能。1. 介绍深度神经网络已被广泛应用于视觉理解任务，目标检测，语义分割和图像字幕，因为ImageNet分类挑战中的巨大成功[4]。由于其数据驱动的特性，需要大规模的标记数据集来训练深度模型。然而，在语义分割、实例分割和视频分割等任务此外，数据收集通常针对一组特定类别。在以前的课堂上学到的知识很难转移到看不见的课堂上* 通讯作者：G. Lin（电子邮件：gslin@ntu.edu.sg）支持图像查询分支查询图像支持图像查询图像图1.我们提出的CRNet与以前的工作的比较。以前的工作（上半部分）单方面指导查询图像与支持图像的分割，而在我们的CRNet（下半部分）支持和查询图像可以指导彼此的分割直接.直接对训练模型进行微调仍然需要大量新的标记数据。另一方面，提出了少镜头学习来解决这个问题。在少量学习任务中，在先前任务上训练的模型预计将推广到只有少数标记训练图像的未见过任务。在本文中，我们的目标是在少镜头图像分割。给定一个新的对象类别，少镜头分割的目的是找到该类别的前景区域，只有看到少数标记的例子。许多以前的作品制定的少数镜头分割任务作为一个指导分割任务。该方法从前景预测的标记支持集中提取引导信息，通常采用非对称的二分支网络结构。该模型的优化与地面实况查询掩码作为监督。在我们的工作中，我们认为，查询和支持集的角色可以切换在一个少镜头分割模型。具体地，支持图像可以引导对图像的预测。支助处交叉引用4166查询集以及相反地，查询图像也可以帮助进行支持集的预测。受图像共分割文献[7，12，1]的启发，我们提出了一个对称交叉引用网络，两个头同时对查询图像和支持图像进行预测。网络设计与以往工作的不同之处如图所示。1.一、在我们的网络设计中的关键组成部分是交叉引用模块，它通过比较两幅图像中的共现特征来生成增强的特征表示。增强表示用于两幅图像中的下游前景预测。同时，交叉参考模块还对两幅图像中的共现物体进行预测。该子任务在训练阶段提供辅助损失，以便于交叉引用模块的训练由于对象外观存在巨大的变化，挖掘图像中的前景区域可能是一个多步骤的过程。我们开发了一个有效的掩模细化模块，以迭代地完善我们的预测。在初始预测中然后，置信度图以概率图的形式保存为模块中的缓存，并用于以后的我们每次做出新的预测时都会更新缓存在运行掩模细化模块几个步骤后，我们的模型可以更好地预测前景区域。我们的经验表明，这样一个重量轻的模块可以显着提高性能。当涉及到多个支持图像的k次图像分割时，以前的方法通常使用1次模型对每个支持图像单独进行预测，并融合它们的特征或预测掩模。在我们的论文中，我们建议用标记的支持示例来微调网络的部分。由于我们的网络可以同时对两个图像输入进行预测，因此我们最多可以使用k2个图像对来微调我们的网络。我们的基于微调的方法的优点是，它可以受益于越来越多的支持图像，从而不断提高准确性。在复杂度计算中，当提供更多的支持图像时，基于融合的方法容易饱和。在我们的实验中，我们验证了我们的模型在1-shot，5-shot，和10-shot设置。本文的主要贡献如下：• 我们提出了一种新的交叉引用网络，同时使预测的查询集和支持集在少数拍摄图像分割任务。通过挖掘两幅图像中的共现特征，我们提出的网络可以有效地改善结果。• 我们开发了一个具有置信度缓存的掩模细化模块，该模块能够递归地细化预测的重新结果。• 我们提出了一个微调方案的k-杆学习，这是一个有效的解决方案，以处理多个支持图像。• 在PASCAL VOC 2012上的实验表明，我们的方法显着优于基线结果，并在5个镜头的分割任务上实现了新的最先进的性能2. 相关工作2.1. 少拍学习少样本学习的目标是学习一个模型，该模型可以很容易地在有限的训练数据下转移到新的任务中。小样本学习在图像分类任务中被广泛探索。根据模型在测试时是否需要微调，以前的方法可以大致分为两类在非微调方法中，在训练时学习的参数在测试阶段保持固定。例如，[19，22，21，24]是基于度量这些方法的优点是推理速度快，无需进一步的参数调整。然而，当多个支持图像可用时，性能很容易变得饱和。在基于微调的方法中，模型参数需要适应新的预测任务例如，在[3]中，他们证明了仅通过微调全连接层，在训练类上学习的模型可以在新类上产生最先进的少数性能。在我们的工作中，我们使用非微调的前馈模型来处理单镜头学习，并在k镜头设置中采用模型微调来受益于多个标记的支持图像。少镜头学习的任务也与开集问题有关[20]，其中目标仅是检测来自新类的数据。2.2. 分割语义分割是计算机视觉的一项基本最先进的方法将图像分割制定为密集预测任务，并采用完全卷积网络进行预测[2，11]。通常，预先训练的分类网络通过在末端移除完全连接的层而被用作网络骨干。为了进行像素级密集预测，编码器-解码器结构[9，11]通常用于重建高分辨率预测图。通常，编码器逐渐对特征图进行下采样，这旨在获取大视场并捕获抽象特征表示。然后，解码器逐渐恢复细粒度的信息。跳过连接通常用于高电平和低电平fea的熔断4167为了更好的预测。在我们的网络中，我们还遵循编码器-解码器设计，并选择在低分辨率地图中传输指导信息，并使用解码器来恢复细节。2.3. 少炮分割少镜头分割是少镜头分类到像素级的自然扩展自Shabanet al. [17]第一次提出这项任务，提出了许多基于深度学习的方法。大多数以前的作品制定的指导分割任务的少数镜头分割。例如，在[17]中，侧分支将标记的支持图像作为输入，并回归图像. 模型的训练和测试在两个没有重叠类别的数据集上进行。在训练和测试阶段，标记的示例图像被称为支持集，其用作元训练集，未标记的元测试图像被称为查询集。为了保证测试时具有良好的泛化性能，模型的训练和评估通过对支持集和查询集进行周期性采样来完成。给定一个由θ参数化的网络Rθ，在每一集中，我们首先从数据集C中采样一个目标类别c。基于采样的类，然后对k+ 1个标记的图像进行{（x1，y1），（x2，y2），. （xk，yk），（xq，yq）}都包含s s s s s smain分支为查询进行前景预测形象在[26]中，他们分享相同的精神，并提出利用密集比较模块将支持分支的嵌入融合到查询分支中。Dong等人[5]从原型网络[19]在少数分类中的成功中汲取灵感，并提出了一种密集的原型学习，以欧几里得距离作为分割任务的度量。同样，Zhanget al. [27]提出了一种余弦相似性指导网络来对查询分支中的前景预测的特征进行加权有一些以前的作品使用循环结构来改进分割预测[6，26]。所有以前的方法都只使用查询图像中的前景掩码作为训练监督，而在我们的网络中，查询集和支持集相互指导，两个分支都进行前景预测以进行训练监督。2.4. 图像共分割图像联合分割是一个研究较多的课题，其目的是联合分割成对图像中的共同目标。已经提出了许多方法来解决对象共分割问题。Rotheret等人[15]建议最小化直方图匹配项的能量函数与MRF以实施类似的前景统计。Ru- binsteinet等[16]从具有密集对应的图像对中捕获共同对象的稀疏性和视觉可变性。Joulin等人[7]用一个有效的凸二次近似的能量和判别聚类来解决公共对象问题。自从深度神经网络盛行以来，已经提出了许多基于深度学习的方法。在 [12] 中，该模型使用Siamese网络重新检索公共对象提案。Chen等人[1]采用通道注意力来加权特征以用于共同分段任务。基于深度学习的方法明显优于基于非学习的方法。3. 任务定义少镜头分割的目的是在测试图像中找到前景像素，只给出几个像素级的注释抽样的c类。其中，前k个标记图像构成支持集S，最后一个是查询集Q.然后，将支持集和查询图像输入到模型y<$q=Rθ（S，xq）中，对查询图像进行预测。在训练时，我们通过优化交叉项py损失L（yq，yq）来学习模型参数θ，并重复这些过程直到收敛。4. 方法在本节中，我们将介绍所提出的用于解决少镜头图像分割的交叉参考网络。首先，我们描述了1次拍摄情况下的网络。之后，我们描述了我们的微调方案的情况下，k杆学习。我们的网络包括四个关键模块：Siamese编码器、交叉引用模块、条件模块和掩码细化模块。总体架构如图所示。二、4.1. 方法概述与先前现有的几次分割方法[26，17，5]单方面引导查询图像与支持图像的分割不同，我们提出的CRNet使能支持和查询图像引导彼此的分割。我们认为，支持查询图像对之间的关系表2中的实验验证了我们的新架构设计的有效性。如图2所示，我们的模型学习执行少量分割，如下所示：对于每一个查询支持对，我们使用Siamese编码器将图像对编码为深度特征，然后应用交叉引用模块挖掘共现对象特征。为了充分利用带注释的掩模，条件模块将结合支持集注释的类别信息在k-shot学习的情况下，以前的作品[27，26，17]简单地平均了不同的1-shot预测的结果，而我们采用了一种基于优化的方法来微调模型，4168暹罗编码器支持图像查询图像图2.我们网络架构的管道。我们的网络主要由一个连体编码器，一个交叉引用模块，一个条件模块，和一个掩码细化模块。我们的网络采用对称设计。Siamese编码器将查询和支持图像映射交叉引用模块挖掘两幅图像中的共现特征，以生成增强的表示。条件模块将类别相关特征向量融合到特征图中，以强调目标类别。掩码细化模块将最后预测的置信图保存到缓存中，并循环细化预测的掩码。使用更多的支持数据。表4展示了我们的方法比以前的作品的优点。4.2. 连体编码器Siamese编码器是一对参数共享的卷积神经网络，其将查询图像和支持图像编码为特征图。与[17，14]中的模型不同，我们使用共享特征编码器来编码支持和查询图像。通过将图像嵌入到同一空间，我们的交叉引用模块可以更好地挖掘共现特征来定位前景区域。为了获得有代表性的特征嵌入，我们使用跳过连接来利用多层特征。正如在CNN特征可视化文献[26，23]中所观察到的那样，较低层中的特征通常与低级别提示相关，而较高层通常与片段提示相关，我们将较低级别的特征和较高级别的特征相结合，并传递到后续模块。4.3. 交叉引用模块交叉引用模块用于挖掘两幅图像中的共现特征并生成更新的表示。模块的设计如图所示。3.第三章。给定由Siamese编码器生成的两个输入特征图然后，将两个特征向量分别发送到一对两层全连接（FC）层。在FC层之后附加的Sigmoid激活函数将向量值转换为通道的重要性，其在[0，1]的范围内之后，通过逐元素乘法融合两个分支中的向量。直觉上，只有两个分支中的共同特征在融合的重要性向量中具有高激活。最后，我们使用融合向量对输入特征图进行加权，以生成增强的特征表示。与原始特征相比，增强特征更侧重于并发表现。基于增强的特征表示，我们添加一个条件模块支撑掩模遮罩优化模块池向量交叉引用模块解码器遮罩优化模块条件模块4169上采样Conv +ReLUConv +ReLU图3.交叉引用模块。给定来自支持集和查询集的输入特征图（Fs，Fq），交叉引用模块通过检查共现特征来生成更新的特征表示（Gs，Gq）。在训练时间期间直接预测两个图像中的共现对象。该子任务旨在促进共分割模块的学习，以挖掘更好的特征表示用于下游任务。为了生成两幅图像中的共现对象的预测，两个分支中的增强特征图被发送到解码器以生成预测图。解码器由卷积层组成，ASPP[2]层，最后，卷积层生成对应于前景和背景分数的双通道预测。4.4. 条件模块为了充分利用支持集注释，我们设计了一个条件模块，以有效地将类别信息用于前景掩模预测。条件模块将交叉引用模块生成的增强特征表示和类别相关向量作为输入。类别相关向量是目标类别的融合特征嵌入，这是通过在类别区域上应用前景平均池化[26]来实现的。由于少镜头分割的目标是只找到指定对象类别的前景掩模，因此任务相关向量用作分割目标类别的条件。为了实现类别相关的嵌入，以前的工作选择过滤掉输入图像[14，17]或特征表示[26，27]中的背景区域。我们选择在特征级别和输入图像中都这样做。通过将向量双线性上采样到与特征图相同的空间大小并将它们连接起来，将类别相关向量与条件模块最后，我们添加一个残差卷积来处理连接的特征。条件模块的结构可以在图中找到。4.第一章支持分支和查询分支中的条件模块具有相同的结构并共享所有参数。4.5. 掩模细化模块正如在弱监督语义分割文献[26，8]中经常观察到的那样，直接预测图4.条件模块。我们的条件模块将类别相关特征融合到表示中，以更好地预测目标类别。对象掩模可能是困难的。首先定位种子区域，然后细化结果是常见的原则。基于这样的原则，我们设计了一个掩模细化模块来细化预测掩模一步一步。我们的动机是，在一个单一的前馈预测的概率图可以反映在模型预测的置信区域。基于置信区域和图像特征，我们可以逐步优化掩模并找到整个对象区域。如图5，我们的掩码细化模块有两个输入。一个是缓存中保存的置信度图，第二个输入是条件模块和交叉引用模块的输出的连接。对于初始预测，高速缓存用零掩码初始化，并且模块仅基于输入特征图进行预测。每次模块做出新的预测时，模块高速缓存用所生成的概率图更新。我们运行这个模块多次生成一个最终的细化面具。掩码细化模块包括三个主要块：下采样块、全局卷积块和组合块。下采样块将特征图下采样2倍。下采样的特征然后被上采样到原始大小，并与相对分支中的特征融合全局卷积块[13]旨在捕获大视场中的特征，同时包含很少的参数。它包括两组1 × 7和7 × 1卷积核。组合块有效地融合特征分支和高速缓存的分支以生成细化的特征表示。4.6. K Shot学习在k-shot学习的情况下，我们建议微调我们的网络，以利用多个标记的支持图像。由于我们的网络一次可以对两个图像进行预测，我们最多可以使用k2个图像对来微调我们的网络。在评估阶段，我们从标记的支持集中随机抽取一个图像对来微调我们的模型。我们保持暹罗编码器中的参数固定，只微调其余模块。在我们的实验中，我们证明了当有更多的标记支持图像时，我们的基于微调的方法可以明显改善结果，而当支持图像的数量增加时，基于融合的方法在平均池化FC +ReLUFC+乙状G平均FC+ FC+合并ReLU SigmoidG4170DSGC块结合块解码器DSGC块��−1缓存conv1XKconvKX1向下-样品convKX1conv1XKconvconvConvConvConvconvconvMaxpoolconvconvconvconvDS：下采样区组GC块：全局Conv块合并块图5.掩码细化模块。该模块将最后一步生成的概率图保存到缓存中，并循环优化预测。5. 实验5.1. 实现细节在 Siamese 编码器中，我们利用 ImageNet 预训练Resnet-50的多级特征作为图像表示。我们使用扩张卷积，并在层3和层4具有输入图像的1/8的固定大小后保留特征映射，我们提出的模块中的所有卷积层都具有3× 3的内核大小，并生成256个通道的特征，然后是ReLU激活函数。在测试时，我们循环运行掩码细化模块5次，以细化预测的掩码。在k-shot学习的情况下，我们修复了Siamese编码器并微调了其余参数。5.2. 数据集和评估指标0飞机，自行车，鸟，船，瓶子1公共汽车，汽车，猫，椅子，牛2餐桌，狗，马，摩托车，人3盆栽，羊，沙发，火车，电视/监视器表1.PASCAL VOC 2012数据集的类别划分在[17]中提出。条件交叉引用模块单次拍摄C36.3C43.3CC49.1表2.对条件模块和交叉引用模块进行消融研究。交叉引用模块比基线模型（仅条件）带来了很大的性能改进。我们在PAS上进行了交叉验证实验CAL VOC 2012数据集来验证我们的网络设计。为了将我们的模型与以前的作品进行比较，我们采用了与[17]中首次提出的相同的类别划分和测试设置在交叉验证实验中，将20个对象类别平均分为4个部分，其中3个部分作为训练类，1个部分作为测试类。类别划分见表1。我们报告的平均性能超过4个测试倍。对于评估指标，我们使用测试文件夹中类的标准平均交集（mIoU）。有关数据集信息和评价指标的更多详细信息，请参见[17]。6. 消融研究消融研究的目标是检查我们网络设计中的每个组件。我们的消融实验在PASCAL VOC数据集上进行。我们实施多级蒙版优化多尺度单次拍摄49.1C50.3C C53.4C C C55.2表3.在多级特征、多尺度输入和掩模优化模块上进行消融实验。每一个模块都带来了比基线模型更好的性能。交叉验证单次实验，并报告四次分割的平均性能。在表2中，我们首先研究了两个重要网络组件的贡献：条件模块和交叉引用模块。如图所示，如果我们从网络中删除任何一个组件，性能都会显著下降。特别是，我们提出的交叉引用模块对预测有很大的影响我们倍类别4171图6.我们在PASCAL VOC数据集上的定性示例第一行是支持集，第二行是查询集。第三行是我们的预测结果，第四行是地面实况。即使查询图像包含来自多个类的对象，我们的网络仍然可以成功地分割支持掩码所指示的目标类别。方法单次拍摄5次射击10杆方法骨干MiouIOU融合49.150.249.9OSLM[17]VGG1640.861.3FinetuneN/A57.559.1[第14话]VGG1641.160.9Finetune + Fusion不适用57.6 58.8表4. k-shot实验。我们比较我们的微调为基础的方法与融合方法。当支持图像的数目增加时，我们的方法产生一致对于单次拍摄的情况，由于CRNet需要至少两张图像才能应用我们的微调方案，因此无法获得微调结果网络可以使没有交叉引用模块的对应模型提高10%以上。为了研究观测数据的尺度变化对网络性能的影响，我们在网络中进行了多尺度的测试实验具体来说，在测试时，我们将支持图像和查询图像调整为原始图像大小的[0.75，1.25]，并进行推断-PL[5] VGG16 - 61.2A-MCG[6] ResNet-50 - 61.2CANet[26] ResNet-50 55.4 66.2[25]第25话CRNet VGG16 55.2 66.4CRNet ResNet-50 55.7 66.8表5.在单次激发设置下与最先进的方法进行比较。我们提出的网络实现了国家的最先进的per-technology下的两个评估指标。恩塞调整大小后的查询图像的输出预测掩码我们融合不同图像尺度下的预测。如Ta所示-地面实况支持集预测查询集Sg-one [27]VGG1646.363.1R-DRCN [18]VGG1640.160.94172条件交叉引用模块屏蔽-优化单次拍摄5次射击C43.344.0C38.542.7CC44.945.6CCC45.847.2表7.在MS COCO数据集上对条件模块、交叉引用模块和掩码细化模块进行消融研究。表6.在5次拍摄设置下与最先进的方法进行比较。我们提出的网络优于所有以前的方法，并在两个评估指标下实现了新的最先进的性能表3，多尺度输入测试在单次设置中带来1.2 mIoU分数我们还研究了表3中网络骨干中的功能选择。我们将多层特征嵌入与仅来自最后一层的特征相结合。我们的模型具有多级特征，提供了1.8 mIoU分数的改进。这表明，为了更好地定位两幅图像中的公共对象，中间层特征也是重要和有帮助的。为了进一步检查掩码细化模块的有效性，我们设计了一个基线模型，删除缓存的分支。在这种情况下，掩码细化模块仅根据输入特征进行预测，我们只运行一次掩码细化模块。如表3所示，我们的掩码细化模块比我们的基线方法提高了3.1 mIoU分数性能。在k-shot设置中，我们将我们的基于微调的方法与在先前的作品中广泛使用的基于融合的方法进行了比较。对于基于融合的方法，我们对每个支持图像进行推理，并平均其概率图作为最终预测。比较示于表4中。在5次拍摄设置中，基于微调当有10个支持图像时，我们的基于微调的性能继续提高，而基于融合的方法6.1. MS CocoCOCO 2014 [10]是一个具有挑战性的大规模数据集，包含80个对象类别。在[26]之后，我们选择了40个类用于训练，20个类用于验证，20个类用于测试。如表中所示。结果再次验证了我们网络中的设计。6.2. 与最新技术水平结果的比较我们将我们的网络与PASCAL VOC 2012数据集上的最先进方法进行了比较。表5显示了单次激发设置中不同方法的性能我们使用IoU来表示[14]中提出的评估度量。这两个度量之间的区别在于，IoU度量还将背景合并到Intersection-over- Union计算中，并忽略图像类别。5次射击实验The comparison of 5-shot seg- mentationresults under two evaluation metrics is shown in Table 6.我们的方法实现了新的国家的最先进的perfor-曼斯下的两个评价指标。7. 结论在本文中，我们提出了一种新的交叉参考网络的少镜头分割。与以前的工作不同，我们的双头设计同时在查询图像和支持图像中进行预测，以帮助网络更好地定位目标类别。我们开发了一个具有缓存机制的掩码细化模块，可以有效地提高预测性能。在k-shot设置中，我们基于微调的方法可以利用更多的注释数据，并显着提高性能。PASCAL VOC 2012数据集上的大量消融实验验证了我们设计的有效性。我们的模型在PASCAL VOC 2012数据集上实现了最先进的性能。确认本研究由新加坡国家研究基金会在其AI新加坡计划（奖励编号：AISG-RP-2018-003）和MoE Tier-1研究资助下支持：RG 126/17（S）和RG 22/19（S）。这项研究也得到了德尔塔-NTU企业实验室的部分支持，并得到新加坡国家研究基金会（NRF）引用[1] 陈红，黄一飞，中山秀树。基于语义感知注意的深度对象共分割。arXiv预印本arXiv：1810.06859，2018。二、三[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：语义图像方法骨干MiouIOUOSLM [17]VGG1643.961.5[第14话]VGG1641.460.2Sg-one [27]VGG1647.165.9R-DFCN [18]VGG1645.366.0波兰[5]VGG16-62.3A-MCG [6]ResNet-50-62.2CANet [26]ResNet-5057.169.6[25]第二十五话ResNet5058.570.5CRNetVGG1658.571.0CRNetResNet5058.871.54173使用深度卷积网、无环卷积和全连接CRF进行分割。IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2018。二、5[3] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangWang，and Jia-Bin Huang.更仔细地看几个镜头分类。在2019年国际学习代表会议上。2[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页，2009。1[5] 董南青和邢国雄。带有原型学习的少量语义在BMVC，2018年。三、七、八[6] 胡涛，杨鹏万，张池良，余刚，穆亚东，和Cees GMSnoek。基于注意力的多上下文引导的少镜头语义分割。 2019. 三、七、八[7] 阿曼德·儒林，弗朗西斯·巴赫，让·庞塞。多类共分割。在2012年IEEE计算机视觉和模式识别上，第542-549页。IEEE，2012。二、三[8] Alexander Kolesnikov和Christoph H Lampert。种子、展开和约束：弱监督图像分割的三个原则。欧洲计算机视觉会议，第695-711页。施普林格，2016年。5[9] Guosheng Lin，Anton Milan，Chunhua Shen，and Ian DReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在CVPR，第1卷，第5页，2017年。2[10] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在ECCV，第740-755页，2014中。8[11] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。2[12] Prerana Mukherjee，Brejesh Lall，and Snehith Lattupally.使用深度连体网络进行对象共分割。arXiv预印本arXiv：1803.02555，2018。二、三[13] Chao Peng，Xiangyu Zhang，Gang Yu，Guiming Luo，and Jian Sun.大核问题-通过全局卷积网络改进语义分割。在IEEE计算机视觉和模式识别会议论文集，第4353-4361页，2017年。5[14] Kate Rakelly、Evan Shelhamer、Trevor Darrell、AlyoshaEfros和Sergey Levine。用于少镜头语义分割的条件网络。在ICLR研讨会，2018年。四五七八[15] Carsten Rother ， Tom Minka ， Andrew Blake ， andVladimir Kolmogorov.基于直方图匹配的图像对联合分割--将全局约束引入mrfs。在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。3[16] Michael Rubinstein ， Armand Joulin ， Johannes Kopf，and Ce Liu.无监督联合对象发现和分割in internet互联网images图片.在IEEE计算机视觉和模式识别会议论文集，第1939-1946页3[17] Amirreza Shaban，Shray Bansal，Zhen Liu，Irfan Essa，and Byron Boots.用于语义分割的一次性学习。arXiv预印本arXiv：1709.03410，2017。三四五六七八[18] Mennatullah Siam和Boris Oreshkin。用于少镜头分割的自适应掩码权重印记arXiv预印本arXiv：1902.11123，2019。七、八[19] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少镜头学习的原型网络。在NIPS，2017年。二、三[20] Xin Sun，Zhenning Yang，Chi Zhang，Guohao Peng，and Dampark-Voon Ling.开集识别的条件高斯分布2[21] 作者：George，Charles Blundell，Timothy Lillicrap，Daan Wierstra，et al.匹配网络进行一次性学习。在神经信息处理系统的进展，第3630-3638页，2016年。2[22] Flood Sung Yongxin Yang ， Li Zhang ， Tao Xiang ，Philip HS Torr，and Timothy M Hospedales.学习比较：用于少数学习的关系网络。在CVPR，2018年。2[23] Jason Yosinski 、 Jeff Clune 、 Anh Nguyen 、 ThomasFuchs和Hod Lipson。通过深度可视化理解神经网络。arXiv预印本arXiv：1506.06579，2015。4[24] Chi Zhang ， Yujun Cai ， Guosheng Lin ， and ChunhuaShen. Deepemd：使用可微推土机距离和结构化分类器进行少拍图像分类，2020年。2[25] Chi Zhang，Guosheng Lin，Fayao Liu，Jiushuang Guo，Qingyao Wu，and Rui Yao.基于区域的一次性语义分割的具有连接关注度的金字塔图网络。在IEEE计算机视觉集，第9587七、八[26] Chi Zhang，Guosheng Lin，Fayao Liu，Rui Yao，andChunhua Shen.Canet：具有交互式细化和专注的少量学习的类不可知分割网络。在IEEE计算机视觉和模式识别会议上，第5217-5226页，2019年。三四五七八[27] Xiaolin Zhang，Yunchao Wei，Yi Yang，and ThomasHuang.Sg-one：用于一次性语义分割的相似性指导网络。arXiv预印本arXiv：1810.09091，2018。三五七八

下载后可阅读完整内容，剩余1页未读，立即下载