没有合适的资源?快使用搜索试试~ 我知道了~
FastMask:一次性分割多尺度对象的新分割建议框架
1FastMask:一次Hexiang Hu胡鹤翔USChexiangh@usc.eduShiyi Lan兰世毅复旦大学sylan14@fudan.edu.cn公司简介jyn@megvii.com曹志敏公司czm@megvii.com飞沙南加州大学feisha@usc.edu摘要物体在自然图像中的比例似乎不同。这一事实需要处理以对象为中心的任务的方法(例如,对象建议)以在对象尺度的变化上具有鲁棒的性能在本文中,我们提出了一种新的分割建议框架,即FastMask,它利用深度卷积神经网络中的分层特征,一次性分割多尺度对象。创新性地,我们将分段建议网络调整为三个不同的功能组件(身体,颈部和头部)。我们进一步提出了一个权重共享的剩余颈部模块以及一个尺度容忍的注意头部模块,用于有效的一次性推理。在MSCOCO基准测试中,建议的FastMask优于所有最先进的分段,感受野(太小)感受野(过大)基于Bbox的提案(a) 感受野小的问题GroundtruthSegment-basedproposal(b) 感受野大的问题建议方法的平均召回速度快2- 5倍。此外,在精度上略有折衷,Fast- Mask可以用800×600分辨率的图像近实时(每秒13帧)分割对象,展示了其在实际应用中的潜力。我们的实现可以在https://github.com/voidrank/FastMask网站。1. 介绍目标建议被认为是目标检测任务中的第一步和基本步骤[8,25,1,16,10,29]。随着该领域的快速发展,对对象分段建议的重新兴趣受到了广泛关注[6,20,21,5,2]。与传统的对象提议方法不同,分段提议算法期望为每个对象生成逐像素分段而不是边界框。从这个角度来看,分割建议继承了对象建议和图像分割,并进一步迈向同时检测和分割[11],这带来了更多的挑战要克服。在这些挑战中,如何处理物体外观的尺度变化仍然是最关键的一个。与基于边界框(bbox)的对象prop相比,*同等缴款。†工作是在Megvii Inc.实习期间完成的。图1.不匹配的感受野如何影响片段提案结果。详细解释请参阅正文。分段提案。 这是由于在分部提案中, 需要高度匹配的感受野来区分前景物体和背景。在图1中,给出了两个示例来解释不匹配的接收字段如何影响分段建议结果:一方面(图1(a)),当物体提议者的感受野比物体本身小得多时(例如,仅感知到公共汽车的窗口),基于BBOX的提议者仍然可以利用先前的知识粗略地估计边界框。然而,对于基于分段的提议者来说,任务变得几乎不可能,因为他们需要想象公共汽车的完整轮廓;另一方面(图1(b)),过大的感受野可能引入来自背景的噪声,并导致不正确的实例级分段。例如,基于片段的提议者可能会被站在目标人附近的其他人分散注意力,导致不准确的面具不仅覆盖目标人。因此,一旦基于分段的提议者的感受野固定,对象尺度变化将严重影响分段精度和提议召回。一般来说,现有的方法[6,20,21,5,2]可以分为两大类,根据它们如何处理尺度方差。第一类[6,2]使用额外的基于bbox的对象建议或对象检测作为初始输入。991992然而,其有效性和效率高度依赖于预处理建议方法的准确性和速度。第二种[20,21,5]采用图像金字塔策略,其中原始图像被重新缩放并重复馈送到固定尺度对象提议器中进行多尺度推理(见图3(a))。然而,这种多镜头方法面临着一个共同的困境:密集采样的图像金字塔成为整个框架的计算瓶颈;然而,减少图像金字塔的尺度数导致性能下降。这些方法很难同时提供令人满意的精度和速度。由于原始图像已经包含了图像金字塔的所有信息,我们认为使用一张图像就足以捕获其中的所有多尺度对象。因此,在本文中,我们的目标是通过利用卷积神经网络(CNN)的分层特征金字塔[9]来解决分段建议中的尺度差异。我们将段建议网络适配为三个不同的功能组件,即身体,颈部和头部。与[20,21]类似,主体和头部模块分别负责从原始图像中提取语义特征图和从特征图中解码分割掩码此外,本文还引入了颈部模块的概念,颈部模块的工作是将身体模块提取的特征图循环缩小为特征金字塔,然后将特征金字塔送入头部模块进行多尺度推理。我们将主要贡献总结如下:• 首先,我们学习了一种新的权重共享残差颈模块来构建CNN的特征金字塔,同时保留了一个校准良好的特征语义,以实现有效的分类。古多尺度训练和推理。• 接下来,我们提出了一种新的尺度容忍头部模块,该模块利用视觉注意力,显著降低了背景噪声造成的影响感受野的尺度不匹配。• 最后,结合这些模块,我们构建了一个能够一次性提出细分建议的框架。我们在MS COCO基准测试[18]上评估我们的框架,它在近实时运行时达到了最先进的结果。2. 相关工作基于Bbox的对象建议。大多数基于bbox的对象建议方法依赖于图像金字塔上的密集滑动窗口。在EdgeBox[31]和Bing [4]中,边缘特征用于对每个滑动窗口进行预测,而梯度特征用于[29]。最近,DeepBox [17]训练CNN 对 EdgeBox 生 成 的 建 议 进 行 重 新 排 名 , 而MultiBox [7]生成直接从卷积特征映射中提出建议Ren et.[22]提出了一个区域建议网络(RPN),以处理不同尺度的候选对象。基于段的对象建议。分段建议算法旨在找到图像中可能包含对象的不同区域。传统的分段预测方法,如SelectiveSearch [25]、MCG [1]和Geodesic [16]首先将图像过分割为超像素,然后以自下而上的方式合并超像素。受CNN在图像分割中的成功启发[23,3,28],以前的作品[6,2]对基于bbox的对象建议结果执行作为最先进的技术,DeepMask [20]提出了一种身体-头部结构来从CNN特征图中解码对象掩码,而SharpMask [21]进一步添加了一个反向分支来细化掩码。然而,所有这些方法在推理过程中都依赖于图像金字塔,这限制了它们在实际中的应用。注意力集中。代替使用来自CNN的整体图像特征,许多最近的作品[26,19,30,27]已经探索了视觉注意力以突出区分区域内部图像和减少嘈杂的背景的影响。在本文中,我们应用这样的注意力机制,以提高实例级分割性能。3. 从多镜头到单镜头DeepMask [20]被认为是基于CNN的多镜头分段建议方法的代表在本节中,我们简要回顾DeepMask,以帮助更好地理解多镜头范例,然后继续我们提出的单镜头范例。基于补丁的训练。DeepMask被训练来预测给定固定大小的图像块的分割掩码和置信度分数。在训练中,分配图像块如果它满足对象中心约束[20],则为正;否则为所有的图像补丁被裁剪和重新缩放到固定的大小(例如,224×224)。这些补丁被送入DeepMask的身体网络中提取语义特征图,然后解码成置信度分数以及使用头部模块的分割掩模。多镜头推理。在多镜头推理期间,Deep-Mask在每个位置密集地应用训练模型,在不同尺度上重复。如图3(a)所示,首先将输入图像重复调整大小为图像金字塔。接下来,DeepMask的身体网络从每个调整大小的图像中提取完整的特征图。最后,头部模块被应用于每个固定大小的滑动窗口(例如,14×14),对每个滑动窗口的置信度和掩码进行解码。对于DeepMask及其变体[20,21,6],在推理期间需要密集采样的图像金字塔然而,随着图像金字塔上的卷积计算被重新使用,993头体网图像金字塔(a) 多镜头片段建议特征图缩小的要素地图残留组分(f,残余瘤颈(女、男/平均合并Conv 3x3平均合并Conv 1x1图4. 剩余股骨颈图示。我们用一个可学习的剩余部分来增加平均池颈。图3. 多镜头模式和我们的单镜头模式的比较。冗余的图像金字塔已经成为这种多镜头分割建议方法中的计算瓶颈。为了克服图像金字塔带来的低效率,我们提出了一个一次性的范例,使有效的训练和推理。如图3(b)所示,我们继承了身体-头部结构,并引入了一个名为颈部的新组件。这个颈部组件可以在特征图上使用,并在保留特征语义的同时将其放大为特征金字塔。然后,在特征图的金字塔上应用共享头部模块利用提出的体-颈-头结构,我们可以节省冗余的卷积计算,并有效地利用信息,一次完成分割建议。我们将此称为一次性细分提案范例,并在第4节中推导出我们提出的细分提案框架。4. 我们的方法从输入图像到对象片段。接下来,我们研究颈部模块的不同设计,包括非参数颈部和参数颈部。最后,我们提出了一种新的头部模块,使尺度容忍的分割掩码解码,利用注意力模型,这在提高性能的关键作用。4.1. 网络架构我们在图2中展示了我们的网络架构。与多镜头方法类似,身体网络从输入图像中提取语义特征。有了这个基本特征图,一个共享的颈部模块被递归地应用于它,以构建具有不同尺度的特征图。 这个金字塔的特征然后,将映射输入到1×1卷积以减小维数。接下来,我们从所有这些特征图,并在所有窗口上进行批量归一化以校准窗口特征。 注意,在特征图缩小了因子m的情况下,大小为(k,k)的滑动窗口对应于原始图像处的(m×k,m×k最后,使用统一的头模块来解-对这些滑动窗口特征进行编码,并生成输出置信度得分和对象掩码。我们的方法可以很容易地采用任何现有的CNN架构(例如,VGGNet [24],ResNet [12]),通过将其完全连接的层或一些卷积层和池化层替换为颈部和头部模型,在本节中,我们将详细介绍我们的方法。首先,我们概述了所提出的架构(FastMask),给出了一个关于我们的身体-脖子-头结构的具体想法我们通过说明数据流来ules.删除这些顶部卷积层和池化层的原因是为了将特征映射保持在可行的大小,以便小对象仍然可以对应于特征映射上的显著上采样批量滑动窗口激活头批次归一化置信段图2.建议的FastMask架构的概述(b)一次性分段提案头脖子特征金字塔脖子体网分担重量的剩余颈身体净脖子脖子downscale 32脖子downscale缩缩小128缩小16图像不同尺度的语义特征提取滑动窗口降维9944.2. 残余瘤颈我们考虑非参数和参数化方法编码特征金字塔。要缩小特征图,一个简单的选择是非参数池。最大池和平均池都被广泛使用方法AR@100 AR S@100 AR M@100 AR L@100现代CNN架构中的组件对识别和检测的影响。在我们的场景中,我们希望校准每个特征图以进行统一解码。然而,一些池颈产生次优的经验结果,如其自然所期望的。在本节中,我们讨论了颈部的几种选择,并对它们进行了实证比较。最大池颈。最大池化在编码期间产生未校准的特征。对于特征的空间网格,最大池化在每个网格上获取最大响应以用于缩小的特征图。因此,该过程增加了输出特征图的均值。由于重复应用最大池化,顶部特征图将具有比底部特征图显著更大的均值。平均池颈。平均池平滑了区分功能在编码过程中。与max pooling不同,average pooling维护的是特征图的均值。虽然它有助于保持不同尺度上特征的均值校准,但它模糊了区分特征。区分特征的丢失使得头部模块难以区分目标和背景。前馈颈。为了减轻上述副作用,我们建议学习保留特征语义的参数颈部。一个简单的参数选择是学习前馈颈,它使用卷积和池化层来缩小特征图。然而,随着尺度数量的增加,前馈颈部面临梯度消失效应[13此外,特征语义可能会发生实质性变化,因为顶部的特征图比底部的特征图经历更多的卷积操作。颈部残留。受[12]中瓶颈连接的启发,我们设计学习剩余颈部,如图4所示。我们使用参数残差分量来增强非参数平均池化(使用与前馈颈相同的结构,3×3卷积层,然后是表1.颈部模块不同设计的比较(基于COCO基准)。VGGNet[24]用作所有颈部的身体网络一个1×1的)缩小特征图,以减少平均池化的平滑效果以及保留特征语义。对比为了验证所提出的颈部的有效性,我们对所有这些设计进行了经验评估,并在表1中报告了其性能。在这里,我们报告了不同尺寸对象的总体AR@100和AR@100(详见第6节)。结果证实,在平均回忆率方面,剩余请注意,我们获得了大规模的ob-batch的平均召回率的大幅度,这是从顶部的特征图解码。这验证了剩余颈在特征金字塔编码中的有效性。4.3. 注意力头在[20,21]之后,我们使用卷积层和全连接层的组合来组装用于解码掩码和对象置信度的头部模块。然而,在特征金字塔解码的背景下,我们发现简单地应用这个头会导致次优性能。一个可能的原因是,与原始的深度掩模[20]相比具体来说,在应用颈部模块之后,特征图被缩小了两倍,这意味着两个相邻特征图之间的比例差距是2(而DeepMask中的比例差距是20。(五)。稀疏特征金字塔提高了不存在用于对象解码的合适特征图的可能性,并且还增加了引入背景噪声的风险,因为对象可能与感受野(滑动窗口)的大小不匹配。功能参与组件有人值守窗口功能图解码组件注意力图窗口特征图掩模分数图(40、40)(10、(128,对应的分片置信度分数(1、1)置信度解码器(完全连接)掩码解码器(完全连接)注意力发生器(完全连接)(128,10,10)注意力头输出图5. 注意力头部的细节。它呈现了从特征图开始到每个滑动窗口内的置信度得分和分段掩码的数据流。(圆括号中的符号表示维数)平均合并27.911.536.943.9Max-pooling27.811.136.844.2前馈27.110.835.843.4残余29.311.738.347.2995这样的观察促使我们提出两种替代解决方案来缓解这样的问题。首先,我们尝试将网络扩展为两个流,以简单地增加规模密度(我们将这一部分推迟到第5节)。其次,我们开发了一种新的头部模块,它在解码过程中学习注意显著区域。在视觉注意的作用下,解码头可以在滑动窗口中减少背景噪声,并缓解感受野大小与物体大小的不匹配请注意,这种注意也带来了宽容的转变干扰(即。当对象没有很好地居中时),这进一步提高了其鲁棒性。图5给出了我们的意向头的详细实现。给定滑动窗口的特征图作为输入,我们首先通过全连接层计算空间注意力。然后,通过跨通道的逐元素乘法将这种空间注意力应用于窗口特征图。这样的操作使得头部模块能够突出显示显著区域上的特征,该显著区域指示目标对象的粗略位置。最后,将该关注的特征图输入到全连接层中进行解码对象的分割掩码对比为了验证所提出的注意力头的有效性,我们对具有标准头的FastMask和具有注意力头的FastMask进行了实验比较,如表2所示。从表中我们可以看出,注意头对尺度和移位干扰的容忍度显著提高了分段预测的准确性。可视化。为了进一步证明区域注意力在去噪中的有效性,我们将两个示例(图6)可视化为范例。在上面的例子中,滑板是中心物体,而骑着它的人是噪音。作为方法AR@10 AR@100 AR@1k标准头12.724.833.2注意力头15.229.338.6表2. COCO基准上不同头部模块的比较。VGGNet [24]被用作身体网络。滑动车窗注意事项 细分预测值因此,生成的注意力权重区域靠近滑板,具有更高的置信度,以突出中心对象。同样,下面的例子表明了同样的精神,而在一个副与方式,人成为中心对象和滑板是噪音。5. 实现细节在本节中,我们首先介绍了一种实用的技术,用于在特征金字塔中获得更多的尺度。然后,我们给出了我们的框架中的训练,优化和推理的所有细节。我们在 以 下 网 站 上 公 开 了 我 们 的 代 码 :https://github.com/voidrank/FastMask。5.1. 双流网络如第4.3节所述,为了使特征金字塔更密集,我们通过应用具有不同步幅的池化层(例如,2和3),并将这些不同比例的特征馈送到共享颈部。这增强了身体网络,以产生不同大小的特征图,不一定限于2的倍数。由于篇幅所限,我们将更多细节(包括插图)推迟到补充材料。5.2. 培训训练FastMask和标准DeepMask [20]之间的关键区别在于FastMask可以通过不同尺度的图像进行训练,而不是裁剪固定尺度的补丁。为了实现这个训练计划,我们介绍了我们的策略地面真值分配,学习目标和优化细节。地面实况任务。在训练过程中,我们需要确定地面实况对象所处的滑动窗口对于每个地面实况对象,我们将其分配给滑动窗口,如果(i)它完全包含该对象,并且(ii)该对象适合关于窗口的[0.4,0.8]的尺度范围,并且(iii)该对象大致位于窗口的中心(对象中心位于窗口的中心10×10矩形区域中)。窗口)。 一旦一个对象被分配给一个窗口,我们就可以...将分割掩模作为分割基础事实(由S表示),并使用周围边界作为注意基础事实(由A表示)。学习目标。Fast-Mask的总体目标函数是置信度损失( Lconf )、分割损失( Lseg )和区域注意力损失(Latt)的加权和请注意,c,a,s代表置信度的地面真值标签,gionattention和segmentationmask,而c、a、s代表相应的预测。图6. 注意了。 注意力的头部有助于定位L(c,a,s)=1<$N<$L(c,c).NkconfKK ΣΣ掩码解码器重要中心对象特征。(颜色朝向红色代表高分)+1(ck)·Lseg(sk,sk)+Latt(ak,ak).(一)996i,ji,j这里1(ck)是一个指示函数,如果ck为真,则返回1,否则返回0。等式1表明,我们仅在ck= 1时反向传播梯度。通过仅使用正对象样本计算Lseg和Latt来我们将这个加权和与跨迷你滑动窗口的总数归一化,分批对于每个损失分量,我们计算预测和地面实况之间的交叉熵函数,如下所示:Lconf(c,c)=−E(si,j,si,j)(2)以生成更密集的特征金字塔。在下面的实验中,除非特别说明,我们在推理阶段使用具有8个尺度的双流6. 实验我们在MS COCO基准上分析和评估了我们的网络,其中包含8万张训练图像和近50万个实例注释。在[20,21,5]的实验设置之后,我们报告了我们对前5k个COCO验证图像的结果。我们使用另一个非重叠的5k图像进行验证。指标. 我们通过相交来衡量掩模精度Lseg(s,s)=−Latt(a,a)=−Σ1w· hΣ1w· h埃什,W。i、j埃什,W。i、jΣΣE(si,j,si,j)E(a,a)(三).(四)在预测掩码和地面实况注释之间的联合(IoU)。由于平均召回率与对象建议质量密切相关[15],我们总结了IoU 0.5和0.95之间的平均召回率(AR),用于固定数 量 N 的 建 议 , 表 示 为 (We使 用 N 等 于 10 、 100 和1000)对于Lseg 和Latt,我们在空间上对鳞片由于COCO数据集包含各种尺度的对象,因此更细粒度的评估倾向于测量窗口,以平衡三个损失COM之间的梯度ponents。E(y,y∈)是一个标准的二元交叉熵y函数,具有sigmoid激活函数(用σ(y)表示),以下形式:E (y ,y)=y·log (σ (y))+(1−y ) ·log (1−σ(y))。(五)优化.我们通过标准随机梯度下降(SGD)优化目标,批 量 大 小 等 于 1 , 动 量 等 于 0.9 , 权 重 衰 减 等 于0.00005。我们对网络进行了大约15个epoch的训练,并通过COCO验证集的不同子集选择最佳模型按照[22,8]的实践,我们以一定的比例平衡阳性和阴性样本(例如,在我们的情况下大约是1:1)。在我们的实践中,由于GPU内存的限制,我们用总共7个尺度的特征映射来训练我们的双流网络,通过在步幅= 2的流上缩小4倍,在步幅= 3的流上缩小3倍。5.3. 推理在推理过程中,我们一次处理图像,并在多尺度特征图上提取窗口,与训练阶段相同。首先预测每个窗口的置信度得分,然后仅选择前k个置信度窗口此外,由于剩余颈部是重量共享的,我们可以在推理过程中增加或减少颈部组件的数量。这使得我们能够通过调整颈部组件的数量来轻松地在有效性和效率之间进行权衡。因此,即使经过7个尺度的训练,双流网络仍然可以配备7个以上的颈部模块关于对象尺度的度量。实际上,根据它们的像素面积a,将对象分为三组:小(a322)、中(322962)。在我们的实验中,我们通过分别添加上标S,M,L来表示不同尺度方法.默认情况下,我们将我们的方法与最新的分段建议进行比较,包括Deep-Mask[20],SharpMask[21]和InstanceFCN[5]。请注意,我们还提供了修订后的DeepMask ar的结果[21]中的架构,表示为 DeepMask。与原始DeepMask不同,它是基于39层残差网实现的,并修改了头部组件。这些该方法不仅具有良好的平均召回率,而且在推理过程中具有很强的效率。我们的网络是通用的,可以插入到不同的身体网络。在我们的实验中,我们采用39层残差网络[12]以获得最佳准确性和公平比较,并采用PvaNet [14]以获得最佳效率。6.1. 与现有技术方法的表3比较了我们的FastMask与其他最先进方法的性能。我们报告结果的边界框和段的建议(通过推导出一个严格的边界框从掩码的建议)。这里我们不包括SharpMaskZoom2的结果,因为它们使用具有额外比例(大2 1/2)的图像来获得更好的性能。我们将我们的双流FastMask与所有基于图像金字塔的方法进行比较,因为我们的单流网络在其特征金字塔中不包含相同的密度。为了解决特征尺度密度对性能和效率的影响,我们在第6.2节中进行了单独的对照实验。997方法身体净Box Proposals细分提案AR@10AR@100AR@1kAR@10AR@100AR@1kMCG[20]第二十话[20]第二十话[21]第二十一话[21]第二十一话[21]第二十一话InstanceFCN [5]-VGGRes39Res39Res39VGG10.124.639.87.718.629.915.331.344.612.624.533.115.032.648.212.726.136.618.034.847.014.125.833.619.236.248.315.427.836.019.239.053.215.630.440.1---16.631.739.2FastMask+两个流Res3922.643.157.416.931.340.6FastMask+两个流PVA24.143.656.217.530.739.0表3. COCO验证集上的对象分段建议结果,用于框和分段建议。请注意,我们还报告了每个相应方法的身体网络。(a) 召回@10箱提案(b)召回@100箱提案(c)召回@1000箱提案(d)召回@10段提案(e)召回@100段提案(f)召回@1000段提案图7. 建议召回曲线。(a-c)示出详细框提议召回,而(D-E)示出详细段提议召回。定量评价。根据表3,我们在边界框pro-bounding中的所有最先进的方法都有很大的优势,并且使用分割建议获得了非常有竞争力的结果(在AR@10和AR@1k上优于所有方法,并且在AR@100上显示出有竞争力的性能)。值得注意的是,与所有其他方法相比,我们的双流网络显着提高了框建议的质量,这为基于bbox的 对 象 检 测 提 供 了 潜 在 的 指 导 。 我 们 的 两 个 流FastMask模型与39层Resnet分别实现了约18%,11%,8%的相对改善AR@10,AR@100,AR@1k指标,比以前最好的SharpMask模型。为了更好地展示我们的建议质量,我们在COCO数据集中绘制了不同分割建议的召回率与IoU阈值,如图7所示。图中有一个明显的间隙,这表明FastMask总体上产生更好的遮罩质量在获得优越性能的同时,我们的方法也比所有基于图像金字塔的方法产生更好的效率。我们做了一些对照实验,并在第6.2节中报告了速度/性能。定性可视化。我们在图8中可视化了一些结果,显示了我们的方法在基线上改进的示例一般来说,我们观察到我们的方法对尺度方差更鲁棒,对噪声背景更不变性。与SharpMask不同,FastMask根本不执行任何遮罩优化。可以通过利用掩模细化来进一步提高掩模质量。6.2. 效率研究在本节中,我们评估两个线程来支持我们的论点,即FastMask在效率和性能方面优于图像金字塔在第一个线程中,我们提供了DeepMask和Sharp- Mask的实验结果,限制了它们的图像金字塔的尺度密度。我们构建了一个公平的环境,这些方法和我们的方法采取相当多的尺度和评估的推理速度和性能。在另一个线程中,我们提供了最先进方法的性能和速度,并将我们的最佳模型和最快模型与它们进行比较。权衡规模密度与速度。 我们举办了一场998方法鳞片AR@10AR@100速度[21]第二十一话814.327.30.45s[21]第二十一话411.322.20.24sFastMask816.931.30.26sFastMask413.326.60.14s表4.权衡规模密度和性能。研 究 通 过 降 低 规 模 密 度 来 分 析 权 衡 。 在DeepMaskZoom和SharpMaskZoom中,他们推断从2分之一[-2.5,-2.0,-1.5,-1.0,-0.5,0,0.5,1]缩放的图像,以在不同范围内获得卓越的性能表5.用最先进的方法加速研究性能的权衡,我们最快的模型获得al-对象片段。这与我们的双流网络类似工作,我们输入一个上采样为2的图像。为了提高推理效率,我们通过将网络减少到没有重新训练的单流来对规模密度进行权衡,这与降低规模密度是相同的对于DeepMaskZoom缩放和SharpMaskZoom缩放为2 μ m[-2.5,-1.5,-0.5,0.5]。图4说明了性能下降和效率提高与规模密度的权衡。我们仅测量AR@10和AR@100,因为稀疏尺度密度导致总提案数较少这些受控实验使用NVIDIA TitanX GPU进行测试我们进行多次运行并平均它们的时间以获得运行时间的估计速度我们的方法在保持最佳性能的同时,将推理速度提高了近2倍。请注意,重新训练具有降低规模密度的网络可以提高性能。速度评估。 我们评估所有最先进的方法的推理速度。我 们 的 模 型 的 两 个 变 体 , 我 们 最 有 效 的 模 型(FastMask-acc)和最有效的模型(FastMask-fast),报告。我们最有效的模型采用39层ResNet的双流结构;我们最快的模型采用PvaNet的单流结构[14],这是轻量级和快速的。图5将我们的最佳和最快模型与其他网络进行比较。我们的最佳模型在保持良好效率的同时产生了卓越的建议率。有轻微最高的实时效率(NVIDIA Titan X Maxwell的每秒13帧)。7. 结论在本文中,我们提出了一个创新的框架,即。FastMask,用于有效的基于段的对象建议。FastMask不需要对输入图像建立金字塔,而是通过颈部模块学习编码特征金字塔,并进行一次性训练和推理。与此同时,提出了一种尺度容忍头部模块,使前景目标从背景噪声中突出出来,从而显著提高了分割精度。在MS COCO基准测试中,FastMask在平均召回率方面优于所有最先进的分段建议方法,同时保持几倍的速度。更令人印象深刻的是,有一个轻微的贸易-FastMast可以在800×600分辨率的图像上几乎实时地(每秒13帧)分割物体。FastMask作为一种有效的分段建议方法,在其他领域也有很大的应用潜力。8. 确认高 Hu 和 F. Sha 部 分 得 到 NSF IIS- 1065243 、1451412、1513966、1208500、CCF-1139148、Google研究奖、Alfred的支持。P. Sloan研究基金会和ARO#W911 NF-15-1-0484图像DeepMask图像DeepMask图像 SharpMask图像 SharpMask图像图8.在采样的MS COCO图像上可视化对象候选分割结果我们将我们的FastMask与[21]第21话,一个人的幸福。我们还显示了原始图像和地面实况注释以供参考。方法身体净AR@10 AR@100 AR@1k速度[20]第二十话VGG12.624.533.11.60s[21]第二十一话Res3914.125.833.60.46s[21]第二十一话Res3915.427.836.00.76s[21]第二十一话Res3915.630.440.11.5秒InstanceFCN [5]VGG16.631.739.21.50sFastMask-accRes3916.931.340.60.26sFastMask-fastPVA17.229.436.40.07s999引用[1] P. Arbel a'ez,J. 庞特-T使用t,J。 T. Barron,F. Marques和J·马利克多尺度组合分组CVPR,2014。一、二[2] S.贝尔角L. Zitnick,K. Bala和R.娘娘腔。内外网:用跳跃池和递归神经网络检测上下文中的对象。在CVPR,2016年。一、二[3] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年,国际会议。2[4] M.- M. 郑,Z.张文--Y. Lin,和P.乇Bing:在300fps下用于对象估计的二进制赋范梯度。CVPR,2014。2[5] J. Dai,K.他,Y. Li,S. Ren和J. Sun.实例敏感的全卷积网络。在ECCV,2016年。一二六七八[6] J. Dai,K. He和J. Sun.通过多任务网络级联的实例感知语义分割。在CVPR,2016年。一、二[7] D. 埃尔汉角Szegedy,A.Toshev和D.安盖洛夫使用深度神经网络的可扩展对象检测CVPR,2014。2[8] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。CVPR,2014。1、6[9] R. 格尔希克F.Iandola,T.Darrell和J.马利克可变形零件模 型 是 卷 积 神 经 网 络 。 在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中,第437-446页,2015年。2[10] R. Gokberk Cinbis,J. Verbeek和C.施密特基于Fisher矢量的分割驱动目标检测。CVPR,2013。1[11] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克同时检测和分割。2014年,在ECCV。1[12] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。三、四、六[13] K.他,X。Zhang,S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV,2016年。4[14] S. 洪湾,澳-地卢KH. 金,Y。Cheon和M.公园Pvanet:用于实时对象检测的轻量级深度神经网络arXiv预印本arXiv:1611.08588,2016年。六、八[15] J. 霍桑河贝嫩森山口 Doll a'r和B. 席勒什么是有效的检测建议?IEEE T-PAMI,2016年。6[16] P. Kr aühenbuühl和V. 科尔顿测地线对象建议。在ECCV,2014年。一、二[17] W. Kuo,B. Hariharan和J.马利克Deepbox:使用卷积网络学习对象。在ICCV,2015年。2[18] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco : 上下 文中 的通 用对 象。 2014 年, 在ECCV。2[19] C. 刘,J.毛氏F.Sha,和A.尤尔。神经图像字幕的注意力正确性arXiv预印本arXiv:1605.09553,2016年。2[20] P. O.皮涅罗河Collobert和P.美元.学习分割候选对象。2015年,在NIPS中。一、二、四、五、六、七、八[21] P. O. Pinh e iro,T.- Y. 林河,巴西-地Collobert和P. 娃娃。学习细化对象分段。在ECCV,2016年。一、二、四、六、七、八[22] S. Ren,K.赫利河Girshick和J.太阳Faster r-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年,在NIPS中。二、六[23] E. Shelhamer,J. Long和T.达雷尔。用于语义分段的全卷积网络。IEEE T-PAMI,2016年。2[24] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年,国际会议。三、四、五[25] K. E. Van de Sande,J. R. Uijlings,T. Gevers和A. W.史默德斯分割作为对象识别的选择性搜索。在ICCV。IEEE,2011年。一、二[26] K. Xu,J. Ba,R. Kiros、K. Cho,A.库维尔河萨拉胡特-迪诺夫河S. Zemel和Y.本吉奥。显示、出席和讲述:具有视觉注意的神经图像字幕生成。ICML,2015。2[27] Z. Yang,X. He,J. Gao,L. Deng和A.斯莫拉用于图像问答的堆叠注意力网络。2016. 2[28] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。ICLR,2016年。2[29] Z. Zhang,J. Warrell,and P. H.乇使用级联排序支持向量机的目标检测建议生成。CVPR,2011。一、二[30] Y. Zhu,O.格罗斯M. Bernstein和L.飞飞 Visual7w:在图像中回答问题。 2016. 2[31] C. L. Zitnick和P. 多尔拉。边框:从边定位对象2014年,在ECCV。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功