没有合适的资源?快使用搜索试试~ 我知道了~
1ShapeMask:通过细化形状先验来郭伟成1,Anelia Angelova1,Jitendra Malik2,Tsung-Yi Lin11谷歌大脑2加州大学伯克利分校1{weicheng,anelia,tsungyi}@ google.com,2malik@eecs.berkeley.edu摘要实例分割的目的是检测和分割场景中的单个对象。大多数现有方法依赖于每个类别的精确掩码注释。然而,由于需要大量的掩模注释,因此在新的类别中分割对象是困难和昂贵的。我们引入了ShapeMask,它学习对象形状的中间概念,以解决实例分割到新类别的泛化问题。ShapeMask从边界框检测开始,并通过首先通过形状先验集合估计检测到的对象的形状来逐步细化。接下来,Shape- Mask通过学习实例嵌入将粗略的形状细化为实例级掩码。的形状先验提供了一个强大的线索,类似对象的预测,和实例嵌入模型的实例特定的外观信息。在跨类别学习时,ShapeMask的性能显著优于最先进的6.4和3.8 AP,并在完全监督的设置中获得有竞争力的性能。它对不准确的检测、降低的模型容量和小的训练数据也是鲁棒的。此外,它在GPU上高效运行,推理时间为150ms,在TPU上训练时间为11小时。通过更大的骨干模型,ShapeMask将与最先进的差距扩大到9.4和6.2 AP。代码将在以下网址公开:https://sites.google.com/view/shapemask/home.1. 介绍实例分割是提供对象的像素级分类并将各个对象识别为单独实体的任务。它对于自动驾驶或机器人操纵等应用至关重要[8,44],因为分割单个对象可以帮助自主代理社区最近在这项任务上取得了很大进展[38,39,19,17,36,10,26,2,33,21,23]。 但这些这些方法需要对每个类别进行精确的逐像素监督。对注释的需求将实例分割限制在我们密集的视觉世界的一小部分图1:ShapeMask实例分割旨在通过细化对象形状先验来学习对象的形状。从边界框(最左边的列)开始,形状在我们的算法中逐渐细化,直到达到最终的掩码(最右边的列)。仅需要边界框来近似地定位感兴趣的对象,并且不要求边界框是准确的(底行)。的注释。但是,实例分割如何更好地推广到新类别?现有的实例分割算法可以分为两种主要方法:基于检测的[38,39,19,17,10]和基于分组的[35,1,36,26,2,33]。为了推广到新的类别,基于检测的方法可以使用类不可知训练,其将所有类别视为一个前景类别。例如,以前的作品在没有区分对象类的框区域内执行形式的图形-背景分割[38,39]。虽然类不可知学习可以很容易地应用于新的类别,但与完全超类学习相比仍然存在明显的差距92079208[21,38]。另一方面,基于分组的方法学习实例特定的线索,诸如用于对每个实例进行分组的像素亲和性。虽然分组阶段本质上是类不可知的并且适合于新类别,但是大多数算法仍然依赖于语义分割[1,35,2]来提供类信息,这需要每个类的像素注释。无论是基于检测还是基于分组,对新类别的泛化仍然是一个开放的挑战。我们建议通过引入中间表示[29,43,11]和基于实例特定分组的学习[40,23]。考虑图2。大多数基于检测的方法使用框作为对象的中间表示(参见中间列),其不包含对象姿态和形状的信息。相反,形状信息量更大(见右列),并且已被许多算法用于帮助对象分割[1,47,20,7,46]。由于新对象的像素可能看起来非常不同,我们假设,形状可以被利用来提高泛化以及。直观地说,学习形状是有帮助的,因为不同类别的对象通常共享相似的形状,例如,马和斑马,橘子和苹果,叉子和勺子。另一方面,基于分组的学习使得模型学习例如,即使模型之前从未见过橙子,它仍然可以通过将具有相似外观的像素分组来对其进行分割。出于这些观察,我们提出了一个新的立场分割算法图1说明了Shape- Mask如何从框检测开始,并通过学习中间形状逐渐将其细化为精细的遮罩。 给定一个检测,ShapeMask首先将其表示为一个均匀的盒子先验。然后,ShapeMask找到形状先验,其最好地指示对象的位置、尺度和粗略形状以适合框(检测先验)。最后,ShapeMask通过完全卷积网络对粗掩码进行解码,并通过自己的实例嵌入对其进行细化。细化背后的想法类似于分组方法。为了推广到新的类别,我们简单地使用类不可知训练的ShapeMask,而不需要迁移学习。学习形状作为软先验的自然副产品是形状-掩模可以在检测框之外产生掩模,类似于[18],而不像[19,10],其应用特征裁剪。COCO上的实验表明,ShapeMask在跨类别设置中的表现明显优于最先进的迁移学习方法[21]事实上,ShapeMask仅使用1%的标记数据就可以超越最先进的技术。我们还定性地表明,ShapeMask是能够分割许多新的对象类的机器人环境中不同的COCO数据集。在完全苏-图2:统一盒子先验中的对象与塑造前科每行包含:(左)输入图像加检测,(中)盒先验,(右)形状先验。形状先验表示具有比框丰富得多的细节的对象通过优化实例分割设置,ShapeMask可与最先进的技术竞争,同时训练速度快数倍,每个图像的测试时间为150- 200 ms,因为它可以在TPU [22,16]和GPU等硬件加速器上无缝运行,以最大限度地提高性能。2. 相关工作实例分割可分为两种主要方法:基于检测和基于分组的方法。基于检测的方法[17,10,18,28,6,19,38,39]首先检测每个对象实例的边界框,并预测由检测到的框裁剪的区域内的分割掩码。这种方法一直是在COCO[32]和Cityscapes [8]等实例分割数据集中实现最先进性能基于分组的方法[26,2,4,35,33,1,25]将实例分割视为自下而上的分组问题。它们不会为每个对象实例指定感兴趣区域。相反,它们产生线索的逐像素预测,如方向向量[33],成对亲和力[35],分水岭能量[2]和语义类,然后在后处理阶段从线索中分组对象实例。除了分组之外,一些对象分割工作还同时使用形状先验作为概率框架[1,47,20]中的一元数,增强建议[7],或在帮助分组之前自上而下[46,24,3]。经典的实例分割方法大多是基于分组的,并且在看不见的数据上工作得很好[42,40]。例如,MCG [40]通过从低级别线索计算的轮廓金字塔上的归一化切割生成质量掩模。到目前为止,基于分组的方法尚未被证明在具有挑战性的COCO数据集上优于基于检测的方法。最近,[37,48,23,21]研究了实例分割算法,可以推广到没有掩码注释的类别。[23]利用了这样的想法,即给定目标对象的边界框,我们可以从基于分组的分割算法(如Grab_Cut [42])获得伪掩码标签。[37]研究开集实例分割,9209使用边界检测器,然后分组,而[48]通过深度激活从图像级监督中学习实例分割。虽然有效,但这些方法没有利用现有的实例掩码标签来实现更好的性能。在本文中,我们专注于部分监督实例分割问题[21],而不是弱监督设置[23,48]。主要思想是通过利用具有边界框注释的大型数据集来构建大规模实例分割模型,例如。[27],小的,有详细的面具注释。[32 ]第32段。更具体地,设置是在训练时仅框标签(而不是模型需要在测试时对这些类别执行实例分割。MaskX R-CNN [21]通过学习从框检测分支预测掩码分割分支的权重来这图3:通过对训练集中的掩码标签进行聚类获得的形状先验每个先验是对象类别的聚类质心。在分类问题中,我们学习将来自H的相似形状组合起来以形成预测。图4展示了整个过程。首先,我们在特征图X上的边界框B内汇集特征,以获得表示对象实例的嵌入x框迁移学习方法在类不可知的训练上显示出显着的改进,但与完全监督的系统仍然存在明显的x=1框|B| Σ(i,j)∈BX(i,j)(1)3. 方法在下面的部分中,我们讨论了一组模块,这些模块连续地将对象框检测细化为准确的实例掩码。3.1. 形状识别形状先验:我们从掩模注释的集合中获得一组形状基础,以便简洁地表示每个类的规范姿势和形状。这些基础被称为直觉是,当在算法的早期选择近似形状时,随后的实例分割变得比盒子更有信息(也参见图2)。为了获得形状先验,我们运行k-均值来找到所有实例的K个质心训练集中每个类的掩码在聚类之前,我们将所有掩码注释调整为规范大小32×32在类特定设置中,形状先验的总数是C×K,其中C是类的数量(例如,K=20)。在类不可知设置中,我们将所有类分组为一个,并且总共具有K个形状先验(例如, K =100)。 我们将形状先验的集合定义为H={S1 ,S2,…Sk}。图3可视化了COCO的每个类别的示例选定形状先验数据集。我们可以看到对象具有不同的类内和类间外观。在类不可知的设置中,聚类产生类似的不同形状先验。形状估计:从盒子检测开始,我们首先将其表示为二进制热图B,即b∈{0,1},b∈B.这个阶段的目的是估计一个更有信息量的检测优先级S 优 先于B(参见图4)。为了实现这一点,我们通过从知识库H中选择相似的形状先验来估计目标对象形状。与将形状预测视为每像素的现有方法[6,19]然后使用实例形状嵌入x框来识别知识库H中的相似形状。形状先验是用于在边界框内重建目标对象形状的基础。 预测的对象形状S是形状先验的加权和{S1,S2,...,其中通过将线性层Φ应用于X框来预测权重然后是softmax函数,用于将权重归一化到K,wk=softmax(φk(xbox))ΣKS=wkSk(2)k=1预测形状S然后被调整大小并拟合到检测框B中以创建平滑热图,我们称之为在训练期间,我们针对地面实况掩模S gt对检测先验S prior应用逐像素均方误差(MSE)损失以学习φ中的参数。该方法通过首先解决形状识别问题来简化实例分割它结合了物体形状的基本模式数较少的强先验知识。这使模型的输出空间正规化并且防止其预测不可信的形状,例如,“破碎的碎片”。通过将这样的结构添加到模型中,我们观察到对新类别的改进的泛化我们推测,这是因为许多新的对象共享类似的形状与标记的。3.2. 粗掩模预测给定来自前一部分的检测先验S_prior,该阶段的目标是获得粗略实例掩码S_coarse(图5)。首先,我们使用函数g将S先验嵌入到与图像相同的特征维中9210X形状分布事先空间AvgPool线性Softmax加权概率总和SH={S,S,. . . ,S}逐像素S12KMSE损失gX先验BtX事先X先验X4粗GT检测B事先图4:形状估计。给定一个盒子检测,我们通过以下方式将盒子细化为形状S的初始估计:图5:粗略掩模预测。 我们先将S与图像特征X以获得先验条件特征X先验,从中我们解码粗略形状S_coarse。线性组合先前形状S1、S2、…Sk.我们的模型学习预测形状先验分布,以最大限度地减少重建误差。特征X,其中g是1×1卷积层。然后我们将它们求和为先验条件特征映射Xprior:X先验=X+g(S先验)(3)X先验现在包含来自两个图像要素的信息XSCWHX先验eX仪器Avg.池S粗以及引导网络预测类对象分割掩模的检测先验。通过将函数f应用于X先验来解码粗略实例掩码S_coarse,在我们的情况下,X先验由四个卷积层组成。这类似于[19]中的掩码解码器设计,但不同之处在于我们在引导解码之前使用检测先验S将逐像素交叉熵损失应用于预测掩码S_coarse以学习掩码解码器中的参数3.3. 基于实例嵌入的形状细化尽管粗分割掩模S_coarse提供了针对可能的对象形状的强线索,但是它不利用由图像特征编码的实例特定信息与旨在提取粗略形状估计的先前阶段相反,该阶段的目标是将S粗略细化为详细的最终掩模S精细(图6)。类似于Sec中嵌入x框3.1中,我们可以在获得更准确的实例表示x_mask之前,通过细化的形状来池化实例掩码嵌入。给定预测的粗糙掩码S_coarse,我们通过池化粗糙掩码内的特征来计算目标对象的实例嵌入x掩码图6:形状细化。从Xprior和Scoarse开始,我们首先通过平均池化Scoarse内的特征来计算嵌入Xinst的实例。然后,我们减去Xinst从X之前解码的最终掩码。 我们示出了低维PCA投影的“中心实例功能”的可视化的目的。该操作可以被视为由目标实例调节图像特征。 这个想法是为了鼓励模型学习简单的,低维的功能,以表示发送对象实例。 为了获得精细掩模S_fine,我们添加具有与第3.2节中描述的相同架构的掩模解码分支,其中一个附加的上采样层用于增强输出分辨率。与之前相同,使用逐像素交叉熵损失来从地面实况掩模Sgt学习精细掩模Sfine。注意,由于S精细的上采样,这里的Sgt具有比之前更高的分辨率。3.4. 类不可知学习的推广为了推广到新的类别,我们在ShapeMask中采用了类不可知学习。我们跟着安排1X掩模=ΣX先验(i,j)(4)在[21]中,盒分支输出具有所有类的置信度得分的盒检测,并且掩码分支预测|(i,j)∈ S粗|(i,j)∈S coarse然后,我们通过减去所有像素位置处的实例嵌入x掩模,从等式3中居中图像特征X先验Xinst(i,j)=Xprior(i,j)-xmask(5)+1x1ConvSigmoidCE损失S粗S型1x1转换-之前3x3 4x4Conv Deconv Conv乙状鱼翅X4最多4倍粗X空间Avg.池乙状X仪器CES损失GT中心仪器特征精细面膜3x3转换S9211在不知道类别的情况下给出一个框的前景遮罩。为了生成形状先验S1,S2,.,SK,我们结合实例,从所有类的面具在一起,并运行k-均值与一个更大的K比类特定的设置。这使我们有更多的能力来捕捉所有类别中形状的不同模式在推理时,我们将任何新对象视为形状期间这一前景类别的一部分9212估计和掩模预测阶段。在类别之间很好地泛化的能力使得ShapeMask也是一个类不可知的算法,尽管它在特定于类的设置中的性能在最好的技术中仍然具有竞争力。3.5. 实现细节我们采用RetinaNet1 [31]来生成ShapeMask的边界框检测。与[19,6]从对象提案中采样掩码不同,我们直接对每个图像的8个地面实况掩码及其相关框进行采样,以抖动它们进行训练。给定一个边界框,我们通过其最长边将该框分配给特征金字塔[30]中的特征级别,并以该框为中心取固定大小的特征块。关于检测器、训练和特征裁剪过程的更多细节可以在Supp. 材料.4. 实验实验设置:我们在COCO数据集上报告了Shapemask的性能[32]。我们通过报告小型/中型/大型对象的标准COCO指标AP、AP 50、AP 75和AP,采用文献中完善的方案进行评价[14、41、19、10、28、9、6]。除非另有说明,否则报告掩码AP而不是框AP。我们还比较了训练和推理时间,以证明性能/复杂性的权衡。4.1. 小说范畴的泛化我们首先展示了最先进的能力的形状掩模概括类和数据集。这样的generalization能力表明ShapeMask可以在视觉世界的更大部分上工作,而不是需要针对每个类别进行强像素标记的其他方法。部分监督实例分割是对训练期间未提供掩码的类别子集执行实例分割的任务模型在这些类别上仅使用框注释进行训练,并且在其他类别上使用框和掩码注释进行训练。这些实验是根据以前的工作[21]建立的。我们将COCO类别分为“voc”和“非VOC”。voc类别也存在于PASCAL VOC中[12]。在训练时,我们的模型可以访问所有类别的边界框,但掩码只来自voc或非voc类别。性能上限由可以访问所有类别掩码的oracle模型设置。在本节中,我们的训练集是COCO train 2017,并在之前的工作[21]之后对val 2017 non-voc/voc类别进行了与其他方法的比较1https://github.com/tensorflow/tpu/tree/master/models/official/retinanet主要结果:我们实现了比表1中所示的现有技术方法显著更好的结果。所有基准实验都使用具有特征金字塔连接的ResNet-101网络[30]。使用相同的FPN主干,ShapeMask在voc到non-voc转移上的表现优于最先进的方法MaskX R-CNN [21] 6.4 AP,在non-voc到voc转移上的表现优于3.8 AP。与MaskX R-CNN的10.6和9.6 AP相比,ShapeMask相对于oracle上限的差距为4.8和7.6AP(越低越好)。通过从[13]中添加更强的特征金字塔,我们的表现优于MaskX R-CNN 9.4和6.2 AP。这表明Shape- Mask可以充分利用大骨架模型的我们还观察到,ShapeMask明显优于[21]中报告的基线类不可知Mask R-CNN或我们自己的Mask R-CNN实现。这些结果提供了强有力的证据表明,ShapeMask可以更好地推广到没有遮罩注释的类别。图7显示了部分监督设置中的ShapeMask的输出。ShapeMask能够很好地分割许多对象,尽管在训练期间没有看到相同类别的任何示例遮罩。口罩部门接受了voc培训,非voc类别的测试,反之亦然。通过使用形状先验和实例嵌入,ShapeMask能够在像Mask R-CNN这样的逐像素预测方法倾向于预测碎片的情况下预测完整用更少的数据进行概括:为了用更少的训练数据研究ShapeMask的泛化能力,我们在voc上训练了类不可知的ShapeMask和Mask R-CNN,并使用1/1,1/2,直到1/1000的数据对非voc类别进行测试。为了模拟具有较少标记数据的现实设置,我们通过其图像id对训练集进行子采样。图8显示,ShapeMask可以很好地推广到看不见的类别,甚至可以推广到训练数据的1/1000事实上,仅使用1/100的训练数据,ShapeMask仍然优于通过2.0 AP在整个数据上训练的最先进的MaskX机器人数据的推广:我们通过在机器人抓取的对象实例分割上对其进行测试,进一步演示了样本外场景中的ShapeMask算法(图9)。该数据集包含许多未在COCO词汇表中定义的对象,因此可以作为评估ShapeMask泛化的该数据集带有办公对象和建筑结构上的边界框注释,但没有任何实例遮罩注释。该模型仅在COCO 上训练,而不是在此数据上训练。为了将实例分割的任务与检测分离,我们输入groundtruth框并仅对分割任务进行评估。如图所示,ShapeMask很好地概括了训练数据中不存在的许多类别这表明我们的方法在智能体将遇到超出像素注释词汇表的对象的设置中特别有用9213图7:在新颖类别上的ShapeMask的可视化。为了清楚起见,我们只可视化新类别的掩码。ShapeMask能够很好地分割许多具有挑战性的对象,而不会在同一类别中看到遮罩注释。它学习在许多情况下预测新类别的对象形状,而Mask R-CNN没有(见最右栏)。骨干方法APAP50voc→AP75非有机化合物APSAPMAPLAPAP50非有机化合物AP75→vocAPSAPMAPL[21]18.534.818.111.323.421.724.743.524.911.425.735.1我们的Mask R-CNN21.939.621.916.129.724.627.239.627.016.431.835.4FPN[21]第二十一话19.739.717.06.421.235.819.646.114.35.116.032.4MaskX R-CNN [21]23.842.923.512.728.133.529.552.429.713.430.241.0Oracle Mask R-CNN [21]34.455.236.315.539.052.639.164.541.416.338.155.1我们的Oracle掩码R-CNN34.354.736.318.639.147.938.564.440.418.939.451.4FPNShapemask(我们的)30.249.331.516.138.238.433.356.934.317.138.145.4Oracle形状掩码(我们的)35.053.937.517.341.049.040.965.143.418.541.956.6NAS-FPN [13]Shapemask(我们的)33.253.135.018.340.243.335.760.336.618.340.547.3Oracle形状掩码(我们的)37.657.740.220.144.451.143.167.945.820.144.357.8表1:Shapemask(类不可知)在新类别上的性能在顶部,voc→ non-voc意味着 ShapeMask优于最先进的方法MaskX R-CNN [21]通过使用相同的ResNet主干的voc到non-voc转移的6.4 AP和non-voc到voc转移的3.8 AP。与MaskX R-CNN相比,ShapeMask与oracle上限的差距更小通过使用来自[13]的更强的特征金字塔,ShapeMask比MaskX R-CNN高出9.4和6.2 AP。遮罩AP与遮罩注释量322416801/1 1/2 1/51/101/201/501/1001/2001/5001/1000可用遮罩注释(作为总遮罩标签的一部分图8:用较少的数据进行泛化。ShapeMask generalizes以及下降到1/1000的训练数据。4.2. 完全监督的实例分割尽管ShapeMask的重点是泛化,但本节表明它作为通用实例分割算法具有竞争力主要结果:我们将特定于类的ShapeMask与COCO上的领先实例分割方法进行了比较二、在之前的工作[19]之后,培训在COCO train 2017上进行,测试在test-dev 2017上进行。使用相同的ResNet-101-FPN主干,ShapeMask的性能比Mask R-CNN 高1.7 AP。凭借 更强大的骨 干,ShapeMask比最好的Mask R-CNN和MaskLab数字高出2.9和2.7 AP。由于Shapemask的重点是推广到新的类别,我们不应用[6,34]中报道的技术,包括atrous形状遮罩Mask R-CNN掩模AP(VOC至非VOC)9214图 9 : 应 用 于 机 器 人 抓 取 的 对 象 实 例 分 割 的ShapeMask。 在这里,ShapeMask模型是在COCO数据集上训练的,并且没有对来自该域的数据进行微调。如图所示,它成功地分割了对象实例,包括诸如毛绒玩具、文档、纸巾盒等的新颖对象。为了更好地可视化,较小的分割对象显示在中间列,较大的对象显示在右列。卷积、可变形裁剪和调整大小、掩模细化、自适应特征池化、较重头部等。如果没有这些,Shapemask排名仅落后于PANet 2.0 AP。类似地,在不使用由[5,45,34]材料)。Supp.的图1材料可视化形状遮罩的结果,以展示其捕捉详细轮廓、薄结构和重叠对象的能力我们基准的训练和推理时间与现有的系统。我们在TPU上的训练时间为11小时,比所有版本的Mask R-CNN快4倍[19,15]2。对于ResNet-101模型,我们报告了领先方法之间的竞争性推理时间,我们注意到我们的CPU时间未优化,可以通过更多的工程来减少。在较重的机型中,ShapeMask是唯一的方法报告的runtimes。训练在TPU上25小时内完成,并在GPU上以每1024 ×1024Supp材料进一步表明,通过减少掩码分支的特征通道,我们可以将掩码分支容量减少130倍,并且运行速度提高6倍(4.6ms)。具有边际性能损失。这些结果表明,ShapeMask是最有效的方法之一。稳健分割分析:利用诸如[ 19 ]的逐像素预测方法,掩模的命运被设计成严重依赖于检测质量。当检测不可靠时,不存在掩码分支的机制2github.com/facebookresearch/Detectron/blob/master/MODEL ZOO.md图10:稳健分割的分析。我们在随机扰动的盒子上对Mask R-CNN和ShapeMask进行了压力测试(两者都是在 整 个 盒 子 上 训 练 的 ) 。 使 用 软 检 测 先 验 ,ShapeMask可以在测试时处理较差的局部检测,而Mask R-CNN通过紧密特征裁剪的设计无法做到这一点。来恢复在ShapeMask中,掩模不限于来自检测框内。我们通过进行以下实验来分析分割的鲁棒性。首先,我们在推理时通过使用随机因子xU(0. 75,1。00),其中U代表均匀分布。缩小尺寸避免了重叠检测的复杂性。图10比较了掩模亲-由Mask R-CNN和ShapeMask在该扰动下引入。由于Mask R-CNN 只 能 在 框 内 生 成 掩 码 相 比 之 下 ,ShapeMask仅将检测用作软形状先验,并设法纠正这些情况,而根本不需要为此进行训练。此外,表3量化了缩小尺寸的检测对掩模质量的影响。我们看到MaskR-CNN性能显著下降,而Shape- Mask保持稳定。此外 , 我 们 还 表 明 , 在 缩 小 尺 寸 的 盒 子 上 训 练ShapeMask提高了其鲁棒性。4.3. 消融研究为了进一步理解我们的系统,我们将uni-form box先验与我们学习的检测先验进行比较,并将direct mask解码[19]与我们的实例条件掩码解码进行比较。表4显示了我们使用ResNet-101-FPN在COCO val 2017上的部分监督系统消融结果。令人惊讶的是,使用对象形状先验或实例嵌入从基线大大提高了约12和5AP。结合这两种技术可以进一步提高性能。对于完全监督设置,也发现了类似的结果(Supp. 材料)。9215骨干APAP50AP75APSAPMAPL培训(小时)推断(X+ Y ms)GPUFCIS+ [28]+OHEMResNet-101-C5-扩张33.654.5----24240K40[19]第十九话ResNet-101-FPN35.758.037.815.538.152.444一百九十五+十五P100Detectron Mask R-CNNResNet-101-FPN36.4-----50126 + 17P100Shapemask(我们的)ResNet-101-FPN37.458.140.016.140.153.811*125 + 24V100[19]第十九话ResNext-101-FPN37.160.039.416.939.953.5---MaskLab [6]膨胀的ResNet-10137.359.839.619.140.550.6---PANet [34]ResNext-101-PANet42.065.145.722.444.758.1---Shapemask(我们的)ResNet-101-NAS-FPN [1]40.061.543.018.343.057.125岁 *180 + 24V100表2:C0C0上的ShapeMask实例分割性能。使用相同的主干,ShapeMask比Mask R-CNN高出1.7 AP。使用更大的主干网,ShapMask的性能分别比Mask R-CNN和MaskLab高出2.9和2.7 AP。与PANet相比,在不使用[34,6]中报道的任何技术的情况下,ShapeMask仅落后2.0 AP。这表明ShapeMask在完全监督设置中具有竞争力。TPU上报告的时间用星号标记。推理时间按照Detectron格式报告:X表示GPU时间,Y表示CPU时间。所有掩模AP均为单型号,并在COCO test-dev 2017上报告,未增加测试时间,但Val 2017上的Detectron除外(灰色)。方法没有抖动抖动我们的Mask R-CNN36.429.0Shapemask(我们的)37.234.3ShapeMask w/ jittering training(我们的)37.235.7表3:在测试时间具有抖动检测的实例分割掩码AP。ShapeMask比5.3 AP的Mask R-CNN更健壮。在训练时间期间添加抖动使ShapeMask对其更鲁棒(最后一行)。形状Embed.VOCAP→非VOCAP50AP75非VOC→AP AP50VOCAP7513.728.012.024.845.623.5C26.244.627.129.451.729.0C26.444.927.230.653.430.4CC30.249.331.533.356.934.3表4:部分监督模型的消融结果4.4. 形状先验我们进行以下实验以研究形状先验的质量如何影响最终掩模。我们使用检测先验的IoU作为到训练集中先验形状的距离的代理。这捕获了训练集中相似形状的存在,以及形状先验是否被正确预测用于下游分割。我们绘制了检测之前的IoU与图11中的非voc类别的最终掩码IoU具有在voc类别上训练的模型,具有各种状态的可视化。该图显示了类别的先验和最终掩码IoU之间的明显正相关性。我们显示IoU,因为它将掩模预测的效果与对象检测隔离开来。5. 结论我们引入了ShapeMask,它使用形状先验和实例嵌入,以更好地推广到新的类别。ShapeMask在跨类别设置中的表现明显优于最先进的技术。它对不准确的检测是鲁棒的,在完全监督的设置中具有竞争力,并且有效地运行用于训练和推理。我们认为一BC9216图11:上图:精细掩模与检测先验掩模IoU与地面实况。每个点代表一个类平均IoU。我们观察到类之间的正相关性A、B和C映射到非常好、好和差的掩码IoU的状态。底部:来自方案A、B和C的代表性实例。我们观察到,好的先验往往会产生好的掩码(A和B),而差的先验可能会导致掩码进入背景(C)。是进一步在野外进行实例分割的一步。鸣谢:我们要感谢X的Alexa Greenberg为机器人带来ShapeMask的工程支持,以及Pengchong Jin在开源方面的帮助。9217引用[1] Anurag Arnab和Philip HS Torr。具有动态实例化网络的逐像素实例分段。在IEEE计算机视觉和模式识别会议的论文集,第441-450页,2017年。一、二[2] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在2017年IEEE计算机视觉和模式识别会议(CVPR)中,第2858- 2866页。IEEE,2017年。一、二[3] Eran Borenstein和Shimon Ullman 学习分割。见ECCV,2004年。2[4] Bert De Brabandere,Davy Neven,and Luc Van Gool.基于判别损失函数的语义实例分割。在2017年IEEE计算机视觉和模式识别会议上的机器人视觉深度学习研讨会上。2[5] 赵伟蔡和努诺·瓦斯康塞洛斯。级联R-CNN:深入研究高质量目标检测。arXiv预印本arXiv:1712.00726,2017。7[6] Liang-Chieh Chen,Alexander Hermans,George Papan-dreou,Florian Schroff,Peng Wang,and Hartwig Adam.Masklab:通过语义和方向特征细化对象检测进行实例分割。arXiv预印本arXiv:1712.04837,2017。二三五六八[7] Yi-Ting Chen,Xiaokai Liu,Ming-Hsuan Yang.具有遮挡处理的多实例对象分割。在IEEE计算机视觉和模式识别会议论文集,第3470-3478页,2015年。2[8] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3213一、二[9] Jifeng Dai ,Kaiming He ,Yi Li ,Shaoqing Ren ,andJian Sun.实例敏感的全卷积网络。欧洲计算机视觉会议,第534-549页施普林格,2016年。5[10] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在IEEE计算机视觉和模式识别会议论文集,第3150-3158页,2016年。一、二、五[11] 阿查尔·戴夫帕维尔·托克马科夫和德瓦·拉玛南把所有移动 的 东 西 都 分 割 开 来 。 arXiv 预 印 本 arXiv :1902.03715,2019。2[12] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。5[13] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V. 乐 NAS-FPN:学习用于对象检测的可扩展特征金字塔体系结构。在CVPR,2019年。五六八[14] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。5[15] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。 Detec t ron. https://github.com/facebookresearch/detectron , 2018 年 。七、八[16] Google.Cloud TPU,2019(2019年3月12日访问)。https://cloud.google.com/tpu/网站。2[17] Bharat hHariharan,PabloArbela' ez,RossGirshick,andJi-tendra Malik.同时检测和分割。欧洲计算机视觉会议,第297Springer,2014. 一、二[18] Zeeshan Hayder,Xuming He,and Mathieu Salzmann.边界感知实例分割。 在IEEE计算机视觉和模式识别会议论文集,第5696-5704页,2017年。2[19] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick. 面 具 R-CNN 。 在 计 算 机 视 觉(ICCV),2017年IEEE国际会议上,第2980IEEE,2017年。一二三四五六七八[20] 何旭明和斯蒂芬·古尔德。一种基于样本的CRF用于多实例对象分割。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition , pages 296-303,2014中。2[21] RonghangHu,PiotrDolla'r,KaimingHe,TrevorDarrell,andRoss Girshick.学会把每一件事都分割开来。一、二、三、四、五、六[22] Norman P. Jouvillage , Cliff Young , Nishant Patil ,David Patter- son,Gaurav Agrawal,Raminder Bajwa,Sarah Bates,Suresh Bhatia,Nan Boden,Al Borchers,Rick Boyle , Pierre luc Can
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ***+SQL三层架构体育赛事网站毕设源码
- 深入探索AzerothCore的WoTLK版本开发
- Jupyter中实现机器学习基础算法的教程
- 单变量LSTM时序预测Matlab程序及参数调优指南
- 俄G大神修改版inet下载管理器6.36.7功能详解
- 深入探索Scratch编程世界及其应用
- Aria2下载器1.37.0版本发布,支持aarch64架构
- 打造互动性洗车业务网站-HTML5源码深度解析
- 基于zxing的二维码扫描与生成树形结构示例
- 掌握TensorFlow实现CNN图像识别技术
- 苏黎世理工自主无人机系统开源项目解析
- Linux Elasticsearch 8.3.1 正式发布
- 高效销售采购库管统计软件全新发布
- 响应式网页设计:膳食营养指南HTML源码
- 心心相印婚礼主题响应式网页源码 - 构建专业前端体验
- 期末复习指南:数据结构关键操作详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功