没有合适的资源?快使用搜索试试~ 我知道了~
{wangyuqing06,xuzhaoliang,shenhao04,chengbaoshan02,yanglirong}@meituan.compoint representation 93130CenterMask:基于点表示的单次实例分割0王玉清 徐兆良 沈浩 程宝山 杨丽蓉 美团点评集团0摘要0在本文中,我们提出了一种简单、快速和准确的单次实例分割方法。一阶实例分割面临两个主要挑战:对象实例的区分和像素级特征对齐。因此,我们将实例分割分解为两个并行子任务:局部形状预测,在重叠条件下分离实例;全局显著性生成,以像素级方式对整个图像进行分割。两个分支的输出被组装在一起形成最终的实例掩码。为了实现这一点,局部形状信息从目标中心点的表示中采用。完全从头开始训练,没有任何花哨的东西,所提出的CenterMask在具有挑战性的COCO数据集上使用单模型和单尺度训练/测试,实现了34.5的掩码AP和12.3fps的速度。准确性高于除了5倍更慢的TensorMask之外的所有其他一阶实例分割方法,这表明了CenterMask的有效性。此外,我们的方法可以轻松嵌入到其他一阶目标检测器(如FCOS)中,并表现良好,展示了CenterMask的生成能力。01. 引言0实例分割[11]是一项基础且具有挑战性的计算机视觉任务,要求在图像中定位、分类和分割每个实例。因此,它既具有目标检测的特点,又具有语义分割的特点。最先进的实例分割方法[12, 21, 14]大多建立在两阶段目标检测器[9, 8,26]的进展基础上。尽管一阶目标检测[13, 25, 22, 17, 27,30]是流行趋势,但只有少数几个工作[1, 2, 28,7]专注于一阶实例分割。在这项工作中,我们旨在设计一个简单的一阶和无锚框的实例分割模型。实例分割比目标检测更困难,因为实例的形状比二维边界框更灵活。有两个主要的0局部形状 全局显著性0组装0图1:CenterMask的示意图。局部形状分支在局部分离对象,全局显著性图在像素级别上实现整个图像的分割。然后将粗糙但实例感知的局部形状和精确但实例无感知的全局显著性图组装在一起形成最终的实例掩码。0一阶实例分割面临的挑战:(1)如何区分对象实例,特别是当它们属于同一类别时。一些方法[3,1]首先提取图像的全局特征,然后对其进行后处理以分离不同的实例,但是这些方法在对象重叠时很难处理。(2)如何保留像素级的位置信息。最先进的方法将掩码表示为结构化的4D张量[2]或固定点的轮廓[28],但仍然面临像素不对齐的问题,使得边界处的掩码变得粗糙。TensorMask[2]设计了复杂的像素对齐操作来解决这个问题,使得网络比两阶段的方法更慢。为了解决这些问题,我们提出将掩码分解为93140图2:CenterMask在COCO测试集图像上的结果。这些结果基于Hourglass-104主干网络,实现了34.5的掩码AP,并以12.3fps的速度运行。我们的方法在重叠条件下以精确的掩码很好地区分对象。0将表示分解为两个并行组件:(1)局部形状表示,预测每个局部区域的粗略掩码,可以自动分离不同的实例;(2)全局显著性图,对整个图像进行分割,可以提供显著性细节,并实现像素级对齐。为了实现这一点,局部形状信息从目标中心的点表示中提取出来。将目标建模为其中心点受到一阶CenterNet[30]检测器的启发,因此我们将我们的方法称为CenterMask。所提出的CenterMask的示意图如图1所示。给定输入图像,首先预测目标中心点的位置,然后提取中心点处的特征表示形成局部形状,该形状由将目标与附近目标分离的粗略掩码表示。同时,完全卷积的主干网络生成整个图像的全局显著性图,该图在像素级别上将前景与背景分离。最后,将粗糙但实例感知的局部形状和精确但实例无感知的全局显著性图组合在一起形成最终的实例掩码。为了展示CenterMask的鲁棒性并分析其核心因素的影响,进行了大量消融实验并比较了多个基本实例化的性能。可视化结果显示,只有局部形状分支的CenterMask可以很好地分离对象,只有全局显著性分支的模型在对象不重叠的情况下表现良好。在复杂和对象重叠的情况下,这两个分支的组合区分实例并同时实现像素级分割。CenterMask在COCO[20]测试集图像上的结果如图2所示。总之,本文的主要贡献如下:0•提出了一种无锚框和一阶段实例分割方法,简单、快速且准确。0准确。完全从头开始训练,没有任何花哨的东西,提出的CenterMask在具有挑战性的COCO数据集上以12.3fps的速度实现了34.5的掩码AP,显示出良好的速度-准确性权衡。此外,该方法可以轻松嵌入到其他一阶段目标检测器(如FCOS[27])中,并表现出良好的性能,展示了CenterMask的生成能力。0•提出了对象掩码的局部形状表示,以区分无锚框条件下的实例。使用对象中心点的表示,局部形状分支有效地预测粗糙的掩码,并在重叠情况下有效地分离对象。0•全局显著性图被提出来实现像素级特征对齐。与以前的实例分割特征对齐操作不同,该模块更简单、更快速、更精确。全局显著性生成类似于语义分割[23],希望这项工作能够激发未来的一阶段全景分割[16]。02. 相关工作0两阶段实例分割:两阶段实例分割方法通常遵循先检测再分割的范式,首先进行边界框检测,然后对边界框区域的像素进行分类,以获取最终的掩码。Mask R-CNN [12]在每个感兴趣区域上添加了一个掩码分割分支,扩展了成功的Faster R-CNN [26]检测器。为了保持精确的空间位置,它引入了RoIAlign模块来解决像素对齐问题。PANet [21]通过引入自下而上的路径增强、自适应特征池化和全连接融合来改善Mask R-CNN的信息传播。Mask Scoring R-CNN[14] 提出了一个掩码评分模块,而不是分类评分。(HxWx1)(HxWxS2)(2)(HxWx2))(2)(HxWx2)(HxWxC)InstanceFCN [3] utilizes FCN [23] to generate multi-ple instance-sensitive score maps which contain the rela-tive positions to objects instances, then applies an assem-bling module to output object instances. YOLACT [1] gen-erates multiple prototype masks of the global image, thenutilizes per-instance mask coefficients to produce the in-stance level mask. Global-area-based methods can main-tain the pixel-to-pixel alignment which makes masks pre-cise, but performs worse when objects overlap. In contrastto these methods, local-area-based methods output instancemasks on each local region directly. PolarMask [28] repre-93150卷积网络0热力图0显著性0形状0大小0偏移0点位置0裁剪0局部形状0全局显著性图0输入图像0主干网络0实例分割结果0乘以0图3:CenterMask的整体流程。主干网络后面有五个头部。头部的输出具有相同的高度(H)和宽度(W),但通道数不同。C是类别的数量,S2是形状向量的大小。热力图和偏移头部预测中心点的位置。形状和大小头部在相应位置预测局部形状。显著性头部预测全局显著性图。局部形状和裁剪的显著性图相乘,形成每个实例的最终掩码。为了方便可视化,图中仅显示了两个实例的整个分割流程,并以类别不可知的形式可视化了全局显著性图。0用于评估掩码的分数,可以提高分割掩码的质量。0尽管两阶段实例分割方法取得了最先进的性能,但这些模型通常复杂且速度较慢。一阶段目标检测的进展激发了我们开发更快、更简单的一阶段实例分割方法。0一阶段实例分割:目前最先进的一阶段实例分割方法可以大致分为两类:基于全局区域和基于局部区域的方法。基于全局区域的方法首先根据整个图像生成中间和共享的特征图,然后将提取的特征组装成每个实例的最终掩码。0它以轮廓形式表示掩码并利用从中心点出发的射线来描述轮廓,但是由轮廓所围成的多边形无法准确描绘掩码,也无法描述中心有孔洞的对象。TensorMask[2]利用结构化的4D张量来表示空间域上的掩码,它还引入了对齐表示和张量金字塔来恢复空间细节,但这些对齐操作使网络比两阶段的Mask R-CNN[12]更慢。与上述方法不同,CenterMask包含全局显著性生成分支和局部形状预测分支,并将它们集成在一起以同时保留像素对齐并分离对象。03. CenterMask0本文的目标是构建一种单阶段实例分割方法。单阶段意味着没有预定义的感兴趣区域(RoIs)用于掩码预测,需要同时定位、分类和分割对象。为了实现这一点,我们将实例分割分解为两个简单且并行的子任务,并将它们的结果组合起来形成最终的掩码。第一个分支从每个对象的中心点表示中预测出粗糙形状,可以约束每个对象的局部区域并自然地区分实例。1x1xS2HxWxS293160h x w0重塑 调整大小0S x S0P0h和w0形状0大小0HxWx20图4:局部形状预测的形状头和大小头的架构。P表示由主干网络提取的特征图。H和W表示头部输出的高度和宽度。形状头的通道大小为SxS,大小头的通道数为2,h和w为点上对象的预测高度和宽度。0第二个分支预测整个图像的显著性图,实现精确的分割并保留准确的空间位置。最后,每个实例的掩码通过两个分支的输出相乘构建。03.1. 局部形状预测0为了区分不同位置的实例,我们选择从它们的中心点建模掩码。中心点被定义为每个对象周围边界框的中心。一个自然的想法是用中心点位置的提取图像特征来表示它,但是固定大小的图像特征无法表示不同大小的掩码。为了解决这个问题,我们将对象掩码分解为两个部分:掩码大小和掩码形状。每个掩码的大小可以由对象的高度和宽度表示,形状可以用固定大小的二维二进制数组描述。上述两个部分可以使用中心点的固定大小表示并行预测。两个头的架构如图4所示。P表示由主干网络提取的图像特征。令F shape ∈ R H ×W × S 2 为LocalShape头的输出,其中H和W表示整个地图的高度和宽度,S2 表示此头的输出通道数。Size头的输出F size ∈ R H × W×2与之具有相同的高度和宽度,通道大小为2。对于特征图上的中心点(x, y),在此位置提取的形状特征由F shape(x,y)给出。形状向量的大小为1 × 1 × S 2,然后被重塑为大小为S ×S的二维形状数组。中心点的大小预测为F size(x,y),高度和宽度分别为h和w。然后将上述二维形状数组调整为h × w的大小,形成最终的局部形状预测。0为了方便起见,局部形状预测分支用于指代形状和大小头的组合。该分支从局部点表示中生成掩码,并为每个对象预测一个局部区域,适用于实例区分。03.2. 全局显著性生成0虽然局部形状分支为每个实例生成了一个掩码,但这对于精确分割来说是不够的。由于固定大小的形状向量只能预测出一个粗糙的掩码,将其调整大小并扭曲到目标大小会损失空间细节,这是实例分割的一个常见问题。我们设计了一种更简单更快速的方法,而不是依赖于复杂的像素校准机制[12,2]。受语义分割[23]的启发,该方法在整个图像上进行像素级预测,我们提出了预测全局显著性图来实现像素级特征对齐。该图旨在表示整个图像中每个像素的显著性,即像素是否属于对象区域。利用完全卷积的主干网络,全局显著性分支与现有的局部形状分支并行地在整个图像上进行分割。与语义分割方法不同,语义分割方法利用softmax函数在对象类别之间实现像素级竞争,我们的方法使用sigmoid函数进行二分类。全局显著性图可以是类别无关的或类别特定的。在类别无关的设置中,只产生一个二进制图来指示像素是否属于前景。对于类别特定的设置,头部为每个对象类别生成一个二进制掩码。图3顶部显示了全局显著性图的示例,使用类别无关的设置以方便可视化。从图中可以看出,该图突出显示具有显著性的像素,并与输入图像实现像素级对齐。03.3. 掩码组装0最后,局部形状和全局显著性图被组装在一起形成最终的实例掩码。局部形状预测每个实例的粗糙区域,裁剪的显著性图在粗糙区域内实现精确分割。设L k ∈ R h ×w表示一个对象的局部形状,G k ∈ R h ×w表示相应的裁剪显著性图。它们与预测的高度和宽度相同。为了构建最终的掩码,我们首先使用sigmoid函数将它们的值转换到(0,1)的范围内,然后计算两个矩阵的Hadamard乘积:0M k = σ ( L k ) ⊙ σ ( G k ) (1)0局部形状和全局显著性没有单独的损失函数Lp = −1N�ijc�(1 − ˆYijc)α log ( ˆYijc)if Yijc = 1(1 − Yijc)β( ˆYijc)α log (1 − ˆYijc) otherwiseLoff = 1N�p��� ˆO˜p − ( pR − ˜p)���(4)Lsize = 1NN�k=1��� ˆSk − Sk���(5)Lseg = λpLp+λoffLoff +λsizeLsize+λmaskLmask (6)93170Saliency分支,所有的监督都来自于组装掩码的损失函数。设T k表示相应的真实掩码,最终掩码的损失函数为:0L mask = 10N0k =1 Bce ( M k , T k ) (2)0其中Bce表示像素级的二进制交叉熵,N是对象的数量。03.4. CenterMask的整体流程0CenterMask的整体架构如图3所示。热图头用于预测中心点的位置和类别,遵循典型的关键点估计[24]流程。输出的每个通道都是相应类别的热图。获取中心点需要在每个热图中搜索峰值,峰值被定义为窗口内的局部最大值。偏移头用于恢复由输出步幅引起的离散化误差。给定预测的中心点,通过形状头和尺寸头在相应位置计算这些点的局部形状,遵循第3.1节中的方法。显著性头生成全局显著性图。在类别无关的设置中,输出通道数为1,通过预测的位置和大小裁剪得到每个实例的显著性图。在类别特定的设置中,裁剪相应预测类别的通道。最终的掩码由局部形状和显著性图组装而成。损失函数:整体损失函数由四个损失组成:中心点损失、偏移损失、尺寸损失和掩码损失。中心点损失的定义与Hourglass网络[24]相同,设ˆ Yijc为预测热图中位置(i,j)处类别c的得分,Y为“ground-truth”热图。损失函数是像素级的逻辑回归,通过焦点损失[19]进行修改:0(3) 其中,N是图像中心点的数量,α和β是focalloss的超参数;偏移损失和尺寸损失采用CenterNet[30]的相同设置,使用L1损失惩罚距离。令ˆO表示预测的偏移量,p表示真实的中心点,R表示输出步长,则低分辨率下的p为˜p = �p0R � ,因此偏移损失为:0假设真实目标的尺寸为Sk = (h, w),预测的尺寸为ˆSk =(ˆh, ˆw),则尺寸损失为:0总体的训练目标是四个损失的组合:0其中,掩码损失在公式2中定义,λp、λoff、λsize和λmask分别是四个损失的系数。03.5. 实现细节0训练:评估CenterMask的性能涉及两个骨干网络:Hourglass-104 [24]和DLA-34[29]。形状向量的S取值为32。损失函数中的λp、λoff和λsize、λmask分别设置为1、1、0.1、1。输入分辨率固定为512×512。所有模型都是从头开始训练的,使用Adam[15]来优化整体目标。模型训练130个epoch,初始学习率为2.5e-4,在第100和120个epoch时降低10倍。由于我们的方法直接使用了CenterNet[30]的相同超参数,我们认为如果相应地优化超参数,CenterMask的性能可以进一步提高。推断:在测试过程中,不使用数据增强和非极大值抑制,只返回得分最高的100个点及其对应的掩码。掩码的二值阈值为0.4。04. 实验0提出的CenterMask在MSCOCO实例分割基准测试[20]上进行了评估。模型在115k个trainval35k图像上进行训练,并在5k个minival图像上进行测试。最终结果在20k个test-dev上进行评估。04.1. 切除实验0进行了多个切除实验来分析CenterMask。结果如表1所示。形状大小选择:首先,分析我们的方法对局部形状表示大小的敏感性,结果如表1a所示。较大的形状大小带来更多的增益,但差异不大,说明局部形状表示对特征大小具有鲁棒性。当S等于32时,性能饱和,因此我们将该数字作为默认的形状大小。骨干网络架构:CenterMask使用不同的骨干网络的结果如表1b所示。大型Hourglass相比较小的DLA-34带来了约1.4倍的增益。SAPAP50AP75APSAPMAPL2432.052.833.814.036.348.53232.553.633.914.336.348.74832.553.434.113.836.649.0DLA-3432.5 53.633.9 14.3 36.3 48.7 25.2Hourglass-104 33.9 55.635.5 16.1 37.8 49.2 12.3APAP50 AP75 APS APM APLAPAP50AP75APSAPMAPLgcompare93180(a)形状大小:较大的形状大小带来更多的增益。结果基于DLA-34。0骨干网络 AP AP 50 AP 75 AP S AP M AP L FPS0(b)骨干网络架构:FPS代表每秒帧数。Hourglass-104骨干网络相比于DLA-34带来了1.4倍的增益,但其速度比DLA-34慢两倍以上。0形状 AP AP 50 AP 75 AP S AP M AP L0无 21.7 44.7 18.3 9.8 24.0 31.8 有 31.5 53.7 32.415.1 35.5 45.50(c)局部形状分支:CenterMask有或没有局部形状分支的比较。0显著性 AP AP 50 AP 75 AP S AP M AP L0无 26.5 51.8 24.5 12.7 29.8 38.2 有 31.5 53.7 32.415.1 35.5 45.50(d)全局显著性分支:CenterMask有或没有全局显著性分支的比较。0类别无关 31.5 53.7 32.4 15.1 35.5 45.5 类别特定33.9 55.6 35.5 16.1 37.8 49.20(e)类别无关 vs.类别特定:全局显著性分支的类别无关和类别特定设置的比较。0无 33.9 55.6 35.5 16.1 37.8 49.2 有 34.4 55.8 36.216.1 38.3 50.20(f)直接显著性监督:CenterMask有或没有直接显著性监督的比较。0表1:CenterMask的消融实验。除非另有说明,所有模型均在trainval35k上进行训练,并在minival上进行测试,使用Hourglass-104骨干网络。0(a)CenterMask在仅形状分支设置下的结果。局部形状分支使用粗糙的掩码将实例分开。0(b)CenterMask在仅显著性分支设置下的结果。当对象之间没有重叠时,全局显著性分支表现良好。0(c)CenterMask在具有挑战性条件下的结果比较。从左到右的图像分别由:仅形状分支、仅显著性分支和两个分支的组合生成。0图5:CenterMask在不同设置下生成的图像。此实验中,显著性分支处于类别无关的设置。two-stageMNC [4]ResNet-101-C4-2.7824.644.324.84.725.943.6FCIS [18]ResNet-101-C5-dilatedmulti-scale4.1729.249.5-7.131.350.0Mask R-CNN [12]ResNeXt-101-FPN800×13338.337.160.039.416.939.953.5one-stageExtremeNet [31]Hourglass-104512×5123.118.944.513.710.420.428.3TensorMask [2]ResNet-101-FPN800×13332.6337.359.539.517.539.351.6YOLACT [1]ResNet-101-FPN700×70023.631.250.632.812.133.347.1YOLACT-550 [1]ResNet-101-FPN550×55033.529.848.531.29.931.347.7PolarMask [28]ResNeXt-101-FPN768×128010.932.955.433.815.535.146.3CenterMaskDLA-34512×51225.233.153.834.913.435.748.8CenterMaskHourglass-104512×51212.334.556.136.316.337.448.493190方法 骨干网络 分辨率 FPS AP AP 50 AP 75 AP S AP M AP L0表2:COCOtest-dev上的实例分割掩码AP。分辨率表示训练时的图像大小。大多数模型都采用单尺度测试。每秒帧数(FPS)在可能的情况下在同一台机器上测量。破折号表示数据不可用。0DLA-34 [29]骨干网络的模型实现了32.5 mAP和25.2FPS,实现了良好的速度-准确性平衡。局部形状分支:在表1c中展示了CenterMask在有或没有局部形状分支的情况下的比较,以类别无关的设置下的显著性分支。形状分支带来了10个增益。此外,只有形状分支的CenterMask实现了26.5AP(如表1d的第一行所示),该模型生成的图像如图5a所示。每个图像包含多个具有密集重叠的对象,形状分支可以用粗糙的掩码将它们分开。上述结果说明了提出的局部形状分支的有效性。全局显著性分支:在表1d中展示了CenterMask在有或没有全局显著性分支的情况下的比较,引入显著性分支相对于只有局部形状分支的模型提高了5个点。我们还对只有显著性分支的CenterMask进行了可视化。如图5b所示,这些图像中的对象之间没有重叠。显著性分支通过为每个实例预测精确的掩码,在这种情况下表现得足够好,表明该分支对像素级对齐的有效性。此外,表1e中比较了全局显著性分支的两种设置。类别特定的设置比类别无关的设置高出2.4个点,表明类别特定的设置可以更好地将不同类别的实例分开。对于全局显著性分支的类别特定版本,除了掩码损失Eq.(2)之外,还添加了二元交叉熵损失来直接监督该分支。表1f中比较了有或没有新损失的CenterMask,直接监督带来了0.5个点的提升。局部形状和全局显著性的组合:尽管显著性分支在非重叠情况下表现良好,但在存在重叠的情况下,局部形状分支可以更好地分离实例。0在重叠情况下,Shape分支无法处理更复杂的图像。我们在具有挑战性的实例分割条件下比较了仅形状、仅显著性和两者组合的效果。如图5c所示,这些图像中存在对象重叠。在第一列中,形状分支能够很好地分离不同的实例,但预测的掩码较粗糙。在第二列中,显著性分支能够实现精确的分割,但在重叠情况下失败,导致重叠区域出现明显的伪影。CenterMask结合了两者的优点并避免了它们的弱点。如最后一列所示,重叠的对象能够很好地分离并同时进行精确的分割,说明我们提出的模型的有效性。04.2. 与最先进方法的比较0在本节中,我们将CenterMask与COCO[20]测试集上的最先进实例分割方法进行比较。作为一种单阶段实例分割方法,我们的模型遵循简单的设置进行比较:完全从头开始训练,没有使用骨干网络的预训练权重[6],使用单一模型进行单尺度的训练和测试,并且在推理过程中没有使用任何NMS。如表2所示,有两个模型的AP高于我们的方法:两阶段的MaskR-CNN和单阶段的TensorMask,但它们的速度分别比我们最大的模型慢4帧和5倍。我们认为这些差距是由于复杂且耗时的特征对齐操作引起的。与最准确的YOLACT[1]模型相比,具有DLA-34骨干的CenterMask实现了更高的AP和更快的速度。与PolarMask[28]相比,具有hourglass-104骨干的CenterMask的AP高出1.6个点,并且速度更快。图6显示了最先进模型生成的结果的可视化比较,仅比较了已发布代码的模型。MaskR-CNN[12]能够很好地检测对象,但掩码中仍然存在伪影,例如(a)中的两个人的头部,我们认为这是由于特征池化引起的。YOLACT[1]能够精确地分割实例,但在(d)中错过了对象,并且在一些重叠情况下失败,例如(c)中的两条腿。PolarMask能够分离不同的实例,但由于多边形掩码表示的原因,其掩码不够精确。我们的CenterMask能够很好地分离重叠的对象并精确地分割掩码。93200Mask R-CNN YOLACT PolarMask 我们的方法0原始0(a)0(b)0(c)0(d)0图6:三种不同实例分割方法的可视化比较。从左到右依次是:原始图像,MaskR-CNN,YOLACT,PolarMask以及我们在COCO minival图像上的方法。0通过最先进的模型生成的结果的可视化比较,仅比较了已发布代码的模型。MaskR-CNN[12]能够很好地检测对象,但掩码中仍然存在伪影,例如(a)中的两个人的头部,我们认为这是由于特征池化引起的。YOLACT[1]能够精确地分割实例,但在(d)中错过了对象,并且在一些重叠情况下失败,例如(c)中的两条腿。PolarMask能够分离不同的实例,但由于多边形掩码表示的原因,其掩码不够精确。我们的CenterMask能够很好地分离重叠的对象并精确地分割掩码。04.3. FCOS检测器上的CenterMask0除了CenterNet[30]之外,提出的局部形状和全局显著性分支可以轻松嵌入其他现成的检测模型中。我们使用FCOS[27],这是一种最先进的单阶段目标检测器,进行实验。CenterMask-FCOS在不同骨干网络下的性能如表3所示,训练设置与MaskR-CNN[12]相同。在使用ResNeXt-101-FPN骨干的情况下,CenterMask-FCOS在表2中比PolarMask[28]高出3.8个点,最佳模型在COCO test-dev上达到38.5mAP,显示了CenterMask的泛化能力。为了展示CenterMask在精确分割上的优势,我们在更高质量的LVIS注释上评估了模型。结果如表4所示。在相同的骨干网络下,CenterMask-FCOS的性能优于Mask R-CNN。0骨干AP AP 50 AP 75 AP S AP M AP L0ResNet-101-FPN 36.1 58.7 38.0 16.5 38.4 51.2ResNeXt-101-FPN 36.7 59.3 38.8 17.4 38.7 51.4ResNet-101-FPN-DCN 37.6 60.4 39.8 17.3 39.8 53.4ResNeXt-101-FPN-DCN 38.5 61.5 41.0 18.7 40.5 54.8表3:CenterMask-FCOS在COCOtest-dev上的性能。DCN代表可变形卷积[5]。0模型 骨干网络 AP0Mask R-CNN[12] ResNet-101-FPN 36.0CenterMask-FCOS ResNet-101-FPN 40.0表4:CenterMask-FCOS在LVIS[10]上的性能。MaskR-CNN的AP来自原始LVIS论文。05. 结论0本文提出了一种单次检测和无锚框的实例分割方法,该方法简单、快速且准确。掩膜预测被分解为两个关键模块:局部形状分支有效地分离不同实例和全局显著性分支像素级地实现精确分割。大量的消融实验和可视化图像显示了所提出的CenterMask的有效性。我们希望我们的工作能够帮助更多的实例级别识别任务。致谢本研究得到北京市科技计划项目(编号:Z181100008918018)的支持。[1] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee.Yolact: Real-time instance segmentation. In ICCV, 2019.[2] Xinlei Chen, Ross Girshick, Kaiming He, and Piotr Doll´ar.Tensormask: A foundation for dense object segmentation.ICCV, 2019.[3] Jifeng Dai, Kaiming He, Yi Li, Shaoqing Ren, and Jian Sun.Instance-sensitive fully convolutional networks. In ECCV,pages 534–549. Springer, 2016.[4] Jifeng Dai, Kaiming He, and Jian Sun. Instance-aware se-mantic segmentation via multi-task network cascades.InCVPR, pages 3150–3158, 2016.[5] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, GuodongZhang, Han Hu, and Yichen Wei. Deformable convolutionalnetworks. In The IEEE International Conference on Com-puter Vision (ICCV), Oct 2017.[6] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Li Fei-Fei. Imagenet: A large-scale hierarchical imagedatabase. In CVPR, pages 248–255. Ieee, 2009.[7] Cheng-Yang Fu, Mykhailo Shvets, and Alexander C. Berg.RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free.In arXiv preprintarXiv:1901.03353, 2019.[8] Ross Girshick. Fast r-cnn. In CVPR, pages 1440–1448, 2015.[9] Ross Girshick, Jeff Donahue, Trevor Darrell, and JitendraMalik. Rich feature hierarchies for accurate object detectionand semantic segmentation. In CVPR, pages 580–587, 2014.[10] Agrim Gupta, Piotr Dollar, and Ross Girshick.Lvis: Adataset for large vocabulary instance segmentation. In Pro-ceedings of the IEEE Conference on Computer Vision andPattern Recognition, pages 5356–5364, 2019.[11] Bharath Hariharan, Pablo Arbel´aez, Ross Girshick, and Ji-tendra Malik. Simultaneous detection and segmentation. InECCV, pages 297–312. Springer, 2014.[12] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir-shick. Mask r-cnn. In ICCV, pages 2961–2969, 2017.[13] Lichao Huang, Yi Yang, Yafeng Deng, and Yinan Yu. Dense-box: Unifying landmark localization with end to end objectdetection. arXiv preprint arXiv:1509.04874, 2015.[14] Zhaojin Huang, Lichao Huang, Yongchao Gong, ChangHuang, and Xinggang Wang. Mask scoring r-cnn. In CVPR,pages 6409–6418, 2019.[15] Diederik Kingma and Jimmy Ba.Adam: A method forstochastic optimization. ICLR, 12 2014.[16] Alexander Kirillov, Kaiming He, Ross Girshick, CarstenRother, and Piotr Dollar. Panoptic segmentation. In CVPR,June 2019.[17] Hei Law and Jia Deng.Cornernet: Detecting objects aspaired keypoints. In ECCV, pages 734–750, 2018.[18] Yi Li, Haozhi Qi, Jifeng Dai, Xiangyang Ji, and Yichen Wei.Fully convolutional instance-aware semantic segmentation.In CVPR, pages 2359–2367, 2017.[19] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, andPiotr Doll´ar. Focal loss for dense object detection. In ICCV,pages 2980–2988, 2017.[20] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C LawrenceZitnick. Microsoft coco: Common objects in context. InECCV, pages 740–755. Springer, 2014.[21] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia.Path aggregation network for instance segmentation.InCVPR, pages 8759–87
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功