没有合适的资源?快使用搜索试试~ 我知道了~
1FSS-1000:用于少镜头分割的1000类数据集向里天汉卫一陈攸彬1戴玉荣邓志强11香港科技大学2腾讯{xlide,tweiab,ypchen}@connect.ust.hk,yuwingtai@tencent.com,cktang@cs.ust.hk摘要在过去的几年里,我们见证了深度学习在图像识别中的成功,这虽然这些数据集涵盖了广泛的对象类别,但仍有大量对象未被包括在内。我们能在没有大量人类注释的情况下完成同样的任务在本文中,我们感兴趣的是少数镜头的对象分割的注释的训练样本的数量仅限于5。为了评估和验证我们的方法的性能,我们已经建立了一个少镜头分割数据集,FSS-1000,其中包括1000个对象类与地面实况分割的像素级注释。在FSS-1000中是独一无二的,我们的数据集包含了大量在以前的数据集中从未见过或注释过的对象,如微小的日常对象、商品、卡通人物、徽标等。我们使用标准骨干网络(如VGG-16、ResNet-101和Inception)构建基线模型。令我们惊讶的是,我们发现使用FSS-1000从头开始训练我们的模型我们的方法和数据集都是简单,有效的,并且易于扩展,以学习新对象类的分割,给出很少的注释训练示例。数据集可在https://github.com/HKUSTCV/FSS-10001. 介绍尽管首次发布时对象类别的数量是前所未有的,但用 于 训 练 深 度 神 经 网 络 的 当 代 图 像 数 据 集 , 如PASCAL VOC [5](19,740张图像,20个类别),ILSVRC [29](1,281,167张图像),年龄,1,000类)和COCO [21](204,721张图像,80类)实际上对于现实世界中的视觉识别任务非常有限:地球上各种物体的数量粗略估计在50万个左右本研究部分由腾讯及香港特别行政区研究资助局资助,1620818到70万个,仅次于英语中名词的总数。虽然视觉对象类别的确切总数小于这些数字,但这些大规模数据集总共贡献不到1%。将一个新的对象类别扩展到现有的数据集是一个主要的任务,因为需要大量的人工注释工作:在ImageNet中,给定类中的平均图像数量是650。更重要的是,观察ImageNet中每个对象类别中的图像数量可能会有很大的变化,从1到3,047不等。这不可避免地引入了不期望的偏差,其可能对仅依赖于使用在对象类(少量)和给定类内的图像(不均匀分布)的选择中有偏差的数据集获得的预训练权重的重要任务具有不利影响。现有数据集的偏差最近也有报道[9,20]。因此,少镜头学习已经成为重要计算机视觉任务的一个有吸引力的替代方案,特别是当给定的新数据集非常小且不相似时,因此依赖于上述预训练的权重可能无法很好地工作。特别相关的是图像分割,这需要非常劳动密集型,逐像素标记的监督学习。在少镜头分割中,给定由具有标签的小支持图像集(本文中为5)和没有标签的查询图像集组成的输入,学习的模型应该正确地分割查询图像,即使相关对象属于之前未见过的对象类没有大规模的对象数据集用于少数镜头分割。先前关于少镜头分割的研究依赖于PASCAL VOC数据集的手动分割以训练和评估新模型[31,26],但PASCALVOC和COCO数据集中分别只有20和80个类包含像素分割信息。因此,建立一个大规模的对象分割数据集是必要的,以广泛和客观地评估我们和未来的少镜头模型的性能。FSS-1000是第一个大规模的数据集,具有内置的对象类别层次结构,强调对象类别的数量,而不是图像的数量。FSS-1000具有高度可扩展性:10个新的图像与地面实况分割是所有它需要新的对象类扩展。28692870数据集图像类分类检测分割平均值Stddev太阳[37]131,0673,819✓ ✓39.22美元717.68ImageNet3,200,0005,247✓ ✓650.02元526.03打开图像9,052,8397,186✓ ✓粤ICP备1409962号-114429.29Pascal VOC 201219,74020✓ ✓✓215.90164.07MS Coco204,72180✓ ✓✓4492.137487.38公司简介10,0001,000✓ ✓✓100表1.大规模数据集比较。平均值和标准差基于每个类别中的预期图像数量百分之二十五百分之二十百分之十五百分之十5.00%0.00%的百分比类别ImageNetCOCOPASCALFSS-1000Imagenet [4]建立在WordNet的基础上,为5,247个类提供图像级标签进行训练,其中1,000个类别的子集被拆分出来形成ILSVRC [29]数据集。这一挑战对近年来视觉识别任务和计算机视觉图1.归一化图像分布。为了使这些数据集具有可比性,我们分别在图像总数(y轴)和对象超类别总数(x轴)中对每个数据集进行归一化,使得每个曲线下的面积为1,以使它们具有可比性。除了FSS-1000(红色)之外,所有现有的数据集都偏向于一些我们的基线网络架构是通过将解码器模块附加到关系网络[33]来构建的,关系网络是一种简单而优雅的深度模型,最初仅为少数镜头图像分类而设计。将关系网络重塑为完全卷积的U-Net架构[24],我们广泛的实验结果表明,在FSS- 1000上从头开始训练的基线模型 , 其 大 小 不 到 当 代 大 型 数 据 集 的 1% , 优 于 从ImageNet/COCO数据集上预先训练的权重微调的模型此外,在没有任何微调/重新训练的情况下,我们训练的基线网络可以直接应用于任何看不见的类,并具有良好的性能。凭借其出色的分割性能和可扩展性,FSS-1000和我们的基线模型有望为少镜头图像分割做出持久的贡献。有关我们广泛的实验结果,请参阅补充材料。2. 相关工作本文首先回顾了FSS-1000与现代数据集之间的联系和区别,旨在解决图像分割和少镜头分类问题。然后,我们回顾了当前关于少镜头学习和语义分割的研究,并讨论了我们如何将少镜头分割与以前的研究联系起来。大规模数据集当深度学习开始成为计算机视觉的主要工具时,构建大规模数据集对于训练深度网络的重要性得到了强调。PASCAL VOC [5]是第一个为对象类别识别和语义分割提供具有挑战性的图像数据集的。最新版本的VOC2012包含20个对象类和9,993个带有分割注释的图像尽管没有segmen-最新的Open Image数据集[17]包含7,186个可训练的不同对象分类和600个检测类,使其成为具有对象类和位置 注 释 的 最 大 现 有 数 据 集 。 继 PASCAL VOC 和ImageNet之后,COCO分割数据集[21]包括超过200,000个具有实例序列分割标签的图像。COCO数据集中有80个对象类在本文中,我们专注于扩大分割数据集中的对象类的数量,而不是增加数据集的大小。我们的FSS-1,000由1,000个对象类组成因此,我们的数据集总共包含10,000张带有像素分割标签的图像我们对分割特别感兴趣,因为它有明显的好处:分割是指在没有背景的情况下,提取目标的基本特征;实例级分段可以从分段准备好。我们的数据集的结构类似于广泛使用的数据集,用于少数镜头视觉识别。例如,Omniglot数据集[18]由50个不同字母的1,623个不同手写字符组成,相当于1,623个对象类,每个类中有50个图像。MiniImageNet在[35]中首次提出,由60,000张图像组成,其中100个类,每个类有600个示例。但是这些少量学习数据集都没有包含密集的像素分割标签,这对于训练语义分割的深度网络模型至关重要。少拍学习最近的少拍分类研究可以分为1)学习一个良好的初始条件,使网络在极小的训练集上进行微调,如[8,27]中所提出的; 2)依赖于RNN的记忆特性,在[23,30]中引入; 3)学习少拍样本和查询之间的度量,如[2,10,18,16,33]。 我们选择扩展关系网络[33]用于少数镜头分割,因为它是一个简单,通用和有效的框架。通过连接支持图像和查询图像之间的CNN特征图,关系模块可以考虑由损失函数引导的这两组图像之间的隐藏关系。在原有的关系网络中,它使用MSE损失来比较fi,图像百分比2871空气电子户外音乐动物山雀硫磺蝶woodpeckergampadhair_driermodem ipod psp装置对象蒙古包鸟居圆顶冰屋凯旋门图腾柱网球拍哑铃小提琴吊袋短号&体育日用品水果植物工具运输化梳子茶壶马桶笔枕鳄梨南瓜郁金香芹菜锁漆刷海绵缝合器注射器客机肌肉车皮卡快艇无轨电车土地食用牲口混合水动物芝士比萨饼华夫饼月饼冰棍黑斑羚埃及猫非洲鳄印度象摇篮麦当劳_标志纸鹤口袋妖怪球超级马里奥海星泥龟图2. FSS-1000中的示例图像及其相应的分割。对于这里的12个超类别,显示了5个示例,其中地面实况分割图在相应的图像中以红色覆盖。最终概率向量到地面真相。在本文中,我们简单地修改了损失,以计算分割地面实况和热图之间的像素差异。在OSLSM [31]中,作者提出了一种双分支网络来解决少镜头分割。该网络非常复杂,他们的训练集仅限于PASCAL VOC数据集,只有20个对象类。因此,他们的特征提取器可能会遭受严重的偏见,使其难以推广到其他对象。引导网络[26]在数据集选择上也会受到同样的限制。虽然点标注可以用来指导少镜头分割的训练,但稀疏的标注会严重影响准确性。语义图像分割以前的研究利用CNN进行密集预测通常依赖于分片训练[3,6,25]以及超像素的预处理和后处理[6,11]。在[22]中,作者首次提出了一种简单而优雅的全卷积网络(FCN)来解决语义分割。值得注意的是,这是第一个在全卷积网络上进行端到端训练以进行密集像素预测的工作,这表明来自良好骨干网络(如VGG- 16)的最后一层特征图包含足够的前景特征,这些特征可以通过上采样网络进行解码以产生分割结果。直观,这也是我们修改关系网络架构的指导原则。尽管现代网络架构[12,14,19]通过添加复杂的网络模块和分支在COCO挑战中实现了高准确性,但这些模型无法轻松地适应于使用少量训练示例分割新类别。3. 公司简介最近的少数镜头数据集[18,35]支持少数镜头分类,但没有大规模的少数镜头分割数据集。在本节中,我们首先介绍数据收集和注释的细节,然后讨论FSS-1000的属性。表1和图1将FSS-1000与现有的流行数据集进行了比较。FSS-1000的目标是解决一般目标的少镜头分割问题。因此,仅关注世界上的子域对象类别(例如手写字符,人脸和道路场景)的数据集不包括在比较中。3.1. 数据收集对象类我们在选择FSS- 1000的对象类别时首先参考了ILSVRC [29]中的类。 因此,FSS-1000有584个类,它的1,000个类与ILSVRC数据集中的类重叠。我们发现ILSVRC数据集严重偏向于animals,无论是在类别的分布和图像的数量。因此,我们用任何现有数据集中看不到的新类来具体而言,我们包括更多的日常对象,以便在FSS-1000上训练的网络模型可以从各种人工和人造对象/特征以及自然和有机对象/特征中学习,后者是由现有的大规模数据集强调的。我们多样化的1,000个对象类在层次结构中进一步排列,将在3.2节中详细介绍。原始图像为了避免偏差,通过在三个不同的互联网搜索引擎(即Google、Bing和Yahoo)上查询对象关键字来重新检索原始图像。我们下载了从给定搜索引擎返回的前100个结果(或者如果返回的图像少于100个,则少于没有使用特殊的标准或假设来选择候选人,但是,由于互联网搜索引擎的偏见,大量返回的图像包含一个单一的对象拍摄的锐利的焦点。在最后一步中,我们有意在背景中包含一些具有相对较小对象、多个对象或其他对象的图像,以平衡数据集的简单示例和困难示例。宽高比大于2或小于0.5被排除在外。由于所有图像及其分割图的大小都将调整为224×224,因此在调整大小操作之后,不良的纵横比出于同样的原因,高度或宽度小于224像素的图像将被丢弃,因为它们会...这将影响图像质量后,放大器上采样。像素分割注释我们使用了Photo- shop自动选择对象,并细化或校正所选区域以产生所需的分割。图2显示了FSS-1000中与其相应分割图重叠的示例图像。3.2. 性能本节总结了FSS-1000的三个理想特性2872底部水平中间水平顶部水平奇瓦瓦山雀 鲟鱼梳郁金香披萨鸟居杠铃皮氏培养皿拾取真空扑克狗鸟鱼花健身房车土地动物空气动物水动物每日对象水果&植物食品户外对象音乐&体育工具运输-化Misc电子装置图3. FSS-1000的层次结构。箭头表示“支持集编码器模块关系模块解码模块输出预测图4.FSS-1000数据集中的实例注释示例可扩展性要扩展FSS-1000以包含一个新类,对于新的类别,所需要的全部是具有逐像素二进制分割标签的10个图像。这比PASCAL VOC和COCO等其他数据集要容易得多。首先,在这些数据集中,给定类别中的图像的平均数量远大于10其次,在这些大规模数据集中,对象类需要首先预定义。因此,我们认为二进制注释是一个更好的注释策略,在少数拍摄学习数据集,因为它允许容易扩展新的对象类,而不涉及旧的对象类图5.我们的基线网络架构使用VGG-16作为骨干。关系模块改编自[33],其中附加了解码器模块以产生分割图。支持和查询功能都通过跳过连接连接到解码器有关此标准体系结构的更多详细信息,请参见补充资料。分为两个集合,即支持集和查询集。支持集由带注释的样本组成,而查询集包含不带注释的样本。在少数镜头已经被注释过了。层次图3显示了数据集中每个给定超类别的一个子类别的示例,以说明FSS-1000的层次结构。对象类按照3级结构分层排列,而不是每个底层子类都有一个中间层超类。对象层次结构的顶部由12个超类别组成,而底部包含1,000个类作为叶节点。注意,这严格地不是树结构,因为给定的类可以属于多于一个的超类(例如,苹果既是“实例FSS-1,000数据集支持实例级分段,数据集中的1 , 000 个 类 中 有 758 个 具 有 实 例 分 段 标 签 , 这 比PASCAL VOC和MS COCO的类要多得多我们的数据集和PASCAL VOC / MS COCO实例级分割之间的一个主要区别是,我们的数据集只注释一个图像中的一种类型的对象,尽管可能有其他对象类别出现在背景中我们在单个图像中最多标注10个实例,这与COCO采用的实例标注原则相同。图4显示了数据集中实例注释的示例4. 方法4.1. 问题公式化在少次学习中,训练-测试分割是在对象类别上,因此,所有测试类别在训练期间都是不可见的。在训练和测试中,分类,支持集通常包括C类K训练示例该设置被定义为C路K炮分类[7,33]。在少镜头分割中,我们采用这种表示法,但将查询输出扩展为查询图像的每像素分类,而不是单个类别标签。具体来说,在少数镜头分割中,输入输出对由(X,Y)给出,其中.ΣL = l(i,j); l∈ {1,2,.,{\fnMicrosoftYaHei\fs14\bord1\shad0\3aHCC\b0}X={(I s,L s,I q); s ∈ {1,2,., K}}.ΣY=y(i,j)|Iq;y∈{1,2,.,{\fnMicrosoftYaHei\fs14\bord1\shad0\3aHCC\b0}l(i,j)是基础事实类的标签,而y(i,j)表示给定图像中像素(i,j)的预测类标签。 是3通道RGB支持图像。 对于具有图像和标签对(Is,L s)的每个支持输入X,模型预测查询图像I q上的逐像素分类图。本文借鉴FSS-1000的标注策略,设置C = 2,只研究小镜头二值分割问题。然而,一般的C-路-K-镜头分割可以通过C二值分割任务的联合来解决.4.2. 网络架构我们的网络由三个子模块组成:编码器模块E θ、关系模块R φ和解码器模块D ω。对于网络的给定输入X,编码器Eθ将支持图像和查询图像分别编码为特征图Eθ(Is)和Eθ(Iq)。对于K镜头转发,我们在支持特征像素损失conv5UP5conv4UP4conv3UP3conv2UP2conv1UP1查询集GT功能 连 接1x1convs2873图的深度通道上执行元素平均,使得编码器2874模块总是产生相同深度的支持特征图,而不管支持集的大小。然后将支持度和查询特征映射组合在关系模块Rφ中。我们选择通道级级联作为组合操作,而其他选择,如参数回归和最近邻也是可能的,并在[26]中讨论关系模块生成粗分割的结果,在低分辨率的基础上级联的特征图。最后,粗结果被馈送到解码器模块以将预测图恢复到与输入相同的分辨率。图5显示了整个工作流程。总之,输出定义如下:ΣK方法平均值VGG-16-BCEloss80.12%VGG-16-MSE损失79.66%ResNet-101-BCEloss79.43%ResNet-101-MSEloss79.12%起始V3-BCEloss79.02%InceptionV 3-MSE丢失79.22%表2.不同的网络设置,以探索我们的网络架构的最佳设置。方法平均值[31]第三十一话70.29%OSLSM-5shot73.02%[26]第二十六话71.94%导航网络-5shot74.27%我们的-1杆73.47%我们的-5shot80.12%(2)A=D(s=1E θ(I s),Eθ(I q))。表3.在FSS-1000上训练和测试不同的少镜头分割网络。损失函数我们使用交叉熵损失查询预测输出和地面实况注释,训练我们的模型具体来说,在我们的二进制少镜头分割设置下,采用二进制交叉熵(BCE)损失来优化网络中的参数:θ,φ,ω=方法PASCAL-50PASCAL-51PASCAL-52PASCAL-53是说OSLSM [31]34.2%百分之五十七点九百分之四十三点二百分之三十七点八百分之四十三点三[26]第二十六话33.1%百分之五十八点九百分之四十四点三百分之三十九点九百分之四十四点一我们百分之三十七点四百分之六十点九46.6%42.2%百分之四十六点八PANet [36]百分之五十一点八64.6%百分之五十九点八百分之四十六点五55.7%CANet [39]百分之五十五点五百分之六十七点八百分之五十一点九53.2%57.1%我们的 *百分之五十点六百分之七十点三百分之五十八点四55.1%58.6%表4. PASCAL-5i上不同模型的比较。 GN是Guided Network and Ours* 是我们在FSS-1000上训练的模型所有Σ Σargmin−L(i,j)对数y(i,j)+(1−L(i,j))log(1−y(i,j))模特们使用的是5张照片的设置。θ,φ,ωij均方误差(MSE)也是语义分割任务中广泛使用的目标函数。与BCE损失不同,MSE将问题建模为对目标输出的回归我们的实验表明,在我们的网络设置下,BCE和MSE损失达到相似的性能。4.3. 网络模块详细信息人们可以设计自己的或选择任何流行的特征提取主干,如VGG-16 [32],ResNet [13]和Inception [34]作为网络内部的编码器模块。支持和查询特征组成了组合特征图,其深度是通道数的两倍编码器的最后一层输出的BER。关系模块在组合特征图上使用两个1×1卷积层解码器模块根据降尺度运算在编码器模块中,其应用等效的上采样块以将分辨率恢复回原始输入。在每个上采样块中,存在最近邻上采样层和卷积层。编码器和解码器特征图之间采用跳过连接,遵循U-Net [24]提出的方案。我们发现,当编码器特征图中的信息通过通道级连接融合到解码器模块时,有助于在分割中产生精细的细节ReLU激活应用于整个深度网络,除了最后一层的激活,我们的建筑的更多细节参数在柔软的材料中提供。28755. 实验我们进行实验来评估FSS-1000的实用性我们评估了具有相同网络架构但在不同数据集上训练的模型,以表明FSS-1000对少数镜头分割任务是有效的。将讨论不同的支持集及其对查询结果的影响最后,我们说明了在FSS-1000上训练的模型能够将少镜头分割知识推广到新的看不见的类别。我们使用的度量是二进制分割图中正标签的IoU是一个标准的度量,被广泛用于评价图像分割方法。所有的网络都是在PyTorch中实现的。我们使用Adam solver [15]优化参数。学习率最初设置为10−3(微调时为10−4),每50,000集减半。我们训练所有的电视网50万集。网络设置为了探索我们网络的最佳设置,我们使用不同的组合训练不同的模型FSS-1000上的不同骨干和损失函数。表2列出了VGG-16、ResNet- 101和InceptionNet作为骨干网,BCE和MSE作为损失函数的相应性能。在此基础上,我们选择VGG-16作为特征提取器,并在整个实验部分中使用BCE损失5.1. 基准5.1.1 公司简介我们在FSS-1000上训练OSLSM和Guided Network,以提供基准测试并证明我们的数据集。表3显示2876平均值号ImageNetFSSfsCOCO测试集fsCOCO(测试集)我✓✓✓✓✓✓✓71.34%42.11%II79.30%百分之四十七点九九III80.12%48.31%IV82.66%50.56%表5.比较在不同数据集上训练和测试的模型。每个模型(行)显示训练阶段,例如,模型I使用ImageNet的预训练权重,然后在fsCOCO的训练类上进行微调所有的学习率最初都设置为10−4,除了没有使用ImageNet预训练权重训练的模型,它设置为10−3。图7.我们的基线模型分别在fsPASCAL,fsCOCO和FSS-1000上训练的图像结果。支持标签和预测的分割以红色覆盖在相应的支持图像和查询图像中。查询图像的地面实况标签为绿色。前两行中的类存在于fs- PASCAL和fsCOCO中,而其余的在FSS-1000中是唯一的1009080图6. FSS-1000中超类的平均IoU,员工接受fsPASCAL、fsCOCO和FSS-1000培训酒吧在50底部表示超过40的类别数量的百分比在相应的数据集中与FSS-1000重叠。20我们的自适应关系网络在10FSS-1000此外,我们是唯一一个5次射击训练的模型,与1次射击训练相比,准确率提高了10%以上。我们认为,嵌入多个支持单次拍摄三发5次射击7发在网络的输入端的图像,并鼓励特征提取器考虑多个支 持 图 像 和 查 询 图 像 之 间 的 相 关 性 是 设 计 k-shot(k >1)分割网络的适当方式,而不是简单地结合1-shot预测[31]或合并高-多个支撑的水平特征[26]。5.1.2 PASCAL-5i为了与以前的几种方法进行比较,我们在PASCAL-5i上训练和测试了我们的网络[31]。 表4显示我们的简单基线模型(Ours)略微优于OSLSM和引导网络。更重要的是,我们的模型只在FSS-1000上训练,而没有在 PASCAL-5i ( 我 们 的 * ) 上 进 行 微 调 , 与 在PASCAL-5i(我们的)上训练的模型相比,取得了更好的结果,超过了最新的最先进的性能[39,36]。5.2. 预培训我们比较了在不同数据集上训练的网络模型,以证明FSS-1000在少数镜头分割中的有效性。由于没有公开可用的少数镜头图像分割数据集,我们通过将所需的前景类标签设置为正而所有其他标签设置为负来转换PASCALVOC 2012和COCO数据集,然后通过第3.1节中描述的相同清理阶段来转换二进制化标签。两个新数据集图8.使用k-shot测试FSS-1000中超类的平均IoU模型(k = 1,3,5,7)。因此产生:fsPASCAL和fsCOCO。在fsPASCAL中,包含15个训练类和5个测试类的20个对象类中包含4,318个图像和标签对;在fsCOCO中,包含60个训练类和20个测试类的80个对象类中包含48,015个图像和标签对。这些数据集的生成与[39]中的设置一致对于FSS-1000,我们通过从12个超类别中随机抽取20个不同的子类别来构建验证/测试集;其它图像和标签用于训练。实验中使用的训练/验证/测试分割由5,200/2,400/2,400个图像和标签对组成。fsPASCAL、fsCOCO和FSS的每个测试集都被设计成与所有训练集在类方面不相交,以便进行公平的比较。表5列出了不同型号的性能。对于每个模型(行),顺序中的“0”标记指示预训练阶段中使用的数据集,最后一个标记指示微调中使用的数据集。模型III只有一个训练集,表明它是专门在数据集上训练的使用ImageNet的预训练权重,在FSS-1000上训练的模型II在两个测试集上都比fsCOCO训练的模型I高出8%和5.8%,这是由于FSS训练集包含COCO70603002877原单次拍摄5次射击GT图9.不同支持集的效果。每行最左边的支持用于生成单次结果。对于每个类,我们在下一行中显示好的支持集和坏的支持集的结果人(PS)人类(GrabCut)CPUGPU时间180米32秒53m22s9m13s16.9s95%+借条百分百71.4%百分之五十八点四百分之五十八点四90%+借条百分百80.4%百分之七十点四百分之七十点四80%+借条百分百91.0%87.4%87.4%70%+借条百分百百分之九十五点八百分之九十点二百分之九十点二表6.从FSS-1000中随机抽取500幅测试图像,比较人类和少镜头模型标记分割数据的时间和准确性性能培训班,但有更多的品种。值得注意的是,在不使用任何预训练权重的情况下,与模型II相比,模型III实现了略好的结果,这证实了我们的主张,即特征提取器中的偏差确实存在于预训练和/或在每个类别内的对象类别和图像中不均匀分布的数据集上训练的模型有趣的是,在FSS-1000上预训练并在fsCOCO上微调的模型IV在两个测试集上都取得了最佳结果,优于仅 在 FSS 上 训 练 的 模 型 III 和 在 fs-COCO 上 微 调 的ILSRVC上预训练的模型I。我们认为前者是由于增加了更多的数据,后者是由于分类和分割任务的理想特征图的要求不同直观地说,语义分割需要更准确的低层特征来产生分割图中的精细细节,而分类则侧重于图像理解的高层特征。因此,我们认为使用FSS-1000进行预训练是ImageNet在少量语义分割中进行预训练的一个很好的替代方案。总的来说,在fsCOCO上训练的模型在测试类中产生了相当好的结果,这些测试类与COCO训练类类似。对于这些类,由于训练集中的变化更多,有时它们的分割然而,它在与60个COCO培训班明显不同的课程中失败现有数据集中对象类别的变化有些有限,这使得在它们上训练的模型很难在少数镜头设置下生成更多看不见的类别另一方面,在FSS-1000类上训练的模型可以处理这些情 况 。 定 量 结 果 和 定 性 结 果 分 别 见 图 6 和 图 7 。fsPASCAL和进一步比较的结果在补充材料中提供。5.3. 支持集我们分别使用1、3、5和7张支持图像训练了四种不同的模型,研究了不同数量的支持图像对少镜头分割精度的影响。图8总结了两个重要的观察结果。首先,更多的支持图像通常会提高分割精度,因为包括了对象的颜色、姿态和尺度的更多变化。然而,性能的提高变得微不足道时,5个以上的支持images。由于这种瓶颈效应,我们将大部分实验设置在5次拍摄设置下。第二,不同类别之间的准确性提升是不同的。对于简单的情况(例如,刚性对象),但是改进并不明显,因为单个支持图像足以使深度网络捕获和区分对象的对于困难情况(例如可变形对象),更多的支持图像对于网络学习复杂形状以进行正确分割至关重要。图9展示了支持集的效果,这表明要分割的对象的尺度和姿态是在FSS-1000上指导少镜头语义分割的最重要特征由于FSS-1000没有明确考虑尺度变化(未来的工作),因此支持集中的微小或超大对象不是分割的良好参考。尺度上的显著差异可能会导致网络在查询中捕获错误的特征内容。此外,由于CNN特征中旋转的固有脆弱性,支持集和查询集中显著不同的姿势可能导致不好的分割结果5.4. 自动标注新的和不可见的类传统上,需要大量人工注释的表6列出了人工(使用Photoshop和GrabCut [28]算法)在FSS-1000中注释500张测试图像的时间和准确性凭借其良好的准确性和时间权衡,尽管当前在尺度不变性方面存在上述限制,但FSS- 1000允许我们通过仅提供一些支持示例而无需重新训练或微调给定模型来自动分割新对象我们选择了一些非常新颖的类看不见的FSS-1000,并标记5图像的每个类作为支持集。图10显示了测试结果,表明我们在FSS-1000上训练的模型能够推广到这些不可见的类。补充材料中包含了关于新类的更广泛的结果。支持集2878支持集查询集支持1:IoU72.87%支持2:IoU78.17%图11.迭代少镜头分割。左、右分别显示了支持集和在支持集中包括校正的故障案例之前和之后的结果艾菲尔铁塔的完整测试集可在补充材料中获得。图10.看不见的类的测试结果。从上到下:android机器人;加州大学默塞德分校土地利用数据集的河流[38];裁剪成补丁的大型细胞图像;羊群;来自牛津企鹅计数数据集的企鹅[1];一群野鹅;向日葵田的不同图像在存在遮挡和透视失真的情况下描绘了各种尺度。例如,Android机器人是一个在FSS-1000中看不到的虚幻物体在从卫星图像的地图绘制中,通常会出现重叠的图像瓦片,制图师只需要标记5个图像或瓦片,我们的系统可以自动分割其余部分,例如在我们的示例中识别河流,细胞示例显示了FSS-1000在实例分割中的良好潜力,其显著有助于医学图像分析中的细胞计数,例如,患者的健康与他或她的红细胞计数直接相关。随着宽度和高度通常超过100,000像素(因此需要计数许多细胞)的全载玻片图像(WSI)的发展,使用我们在FSS-1000上训练的少镜头分割,病理学家只需标记5个图像相关区域,然后WSI的其余部分将自动标记。尽管在目前的准确性下,仍有必要对遗漏或错误的细胞进行手动校正,但与需要数小时甚至数天才能完成的详尽标记相比同样,相关羊、企鹅和大雁等动物实例表明,FSS-1000最后,我们的基线骨干网络对尺度方差、遮挡和背景噪声不是很鲁棒(未来的工作)。在向日葵中,对于太大或太小的实例(特别是对于具有景深的图像,其中远处的向日葵没有焦点)的分割结果变得不完整甚至完全省略。尽管如此,FSS-1000仍然报告了有限的成功。5.5. 迭代少镜头分割我们的少镜头分割连续受益于支持集,通过在每次通过中包括校正后的失败案例来轻松改进考虑图11中FSS-1000看不到的埃菲尔铁塔,我们手动标记200张图像进行定量评估(IoU)。第一个支撑集(左)没有足够的视图和比例变化,并且没有清楚地看到塔的底部部分,这导致其在某些测试用例中不完整的分割。在挖掘了一些这样的困难情况之后,纠正并将它们包括在第二个支持集中(右),以前的困难情况现在可以正确分割。我们相信,分阶段执行的少量分割可以立即提高性能。6. 结论少镜头学习/分割是一种新兴的有吸引力的替代方案,其中只需要几个训练示例。然而,没有现有的大规模数据集的少数镜头分割。在本文中,我们解决了现有的大规模数据集的偏见和缺乏可扩展性的限制,并建立了第一个少数镜头分割数据集FSS-1000强调类的多样性,而不是数据集的大小。我们适应关系网络架构,以少数镜头分割。这种基线少镜头分割模型仅在FSS-1000上训练,不使用预先训练的权重,比以前的方法实现了更高的准确性,包括在FSS-1000看不到的测试集我们进一步证明了FSS-1000在完全不可见的类别上进行大规模分割的有效性和潜力,而无需重新训练或微调,并展示了其在少数镜头实例分割和迭代少数镜头识别任务上的前景。2879引用[1] Carlos Arteta,Victor Lempitsky,and Andrew Zisserman.在野外数数。 在ECCV,2016年。8[2] Luca Bertinetto , João F. Henriques , Jack Valmadre ,PhilipH. S. Torr和Andrea Vedaldi.学习前馈一次性学习器。在NIPS,2016年。2[3] 丹 ·C Ciresan , Alessandro Giusti , Luca Maria Gam-bardella,and Jürgen Schmidhuber.电子显微镜图像中的深层神经网络分割神经元膜。NIPS,2012年。3[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。CVPR,2009。2[5] 放 大图 片 作 者: Mark Everingham , Luc Van Gool,Christopher K. I. Williams , John Winn , and AndrewZisserman. pascal视觉对象类(voc)的挑战。InIJCV,2010. 一、二[6] Clément Farabet ,Camille Couprie, Laurent Najman ,and Yann LeCun.学习场景标记的层次特征。InTPAMI,2013. 3[7] 李飞飞,罗伯·费格斯,皮埃特罗·裴罗纳。对象类别的一次性TPAMI,2006年。4[8] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML,2017。2[9] 放 大 图 片 作 者 : Robert Geirhos , Patricia Rubisch ,Claudio Michaelis,Matthias Bethge,Felix A.Wichmann和Wieland Brendel。ImageNet训练的CNN偏向于纹理;增 加 形 状 偏 差 提 高 了 精 度 和 鲁 棒 性 。 2019 年 , 在ICLR。1[10] 放 大 图 片 作 者 : Ellen M. 放 大 图 片 作 者 : S. 诉 N.Vishwanathan和Roman Garnett用于少镜头学习的原型网络在NIPS,2017年。2[11] 放 大 图 片 作 者 : Bharath Hariharan , Pablo AndrésArbeláez,Ross B.吉尔-希克和吉坦德拉·马利克。同时检测和分割。2014年,在ECCV。3[12] Kaiming He,Georgia Gkioxari,Piotr Dollár,and Ross B.娘娘腔。面具R-CNN。InICCV,2017. 3[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。5[14] 戴继锋,何开明,孙坚。通过多任务网络级联的实例感知语义分割。在CVPR,2016年。3[15] Diederik P. Kingma和Jimmy Lei Ba。亚当:一种随机优化方法。2015年,国际会议。5[16] 格雷戈里河科赫用于一次性图像识别的连体神经网络在ICML研讨会,2015。2[17] Alina Kuznetsova 、 Hassan Rom 、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vittorio Ferrari。开放图像数据集v4:统一的图像分类,对象检测,和视觉关系检测的规模。在arXiv:1811.00982,2018。2[18] 布伦登M. Lake,Ruslan Salakhutdinov,and Joshua B.特南鲍姆通过概率程序归纳的人类水平概念学习。科学,2015年。二、三2880[19] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功