特征融合与金字塔网络改进语义分割方法

51 浏览量更新于2023-10-12 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4230弥合语义鸿沟改进语义分割庞艳伟1，李亚钊1，沈建兵2，邵凌21天津大学，天津，中国2Inception Institute of Artificial Intelligence，阿布扎比，阿联酋pyw@tju.edu.cn网站，lyztju@tju.edu.cn网站，shenjianbingcg@gmail.com，ling. ieee.org摘要聚集多层次特征对于捕获多尺度上下文信息以进行精确的场景语义分割是必不可少的。然而，通过直接融合浅特征和深特征的改进为了解决这个问题，我们探索两种策略的鲁棒特征融合。一种是使用语义增强模块（SeEM）来增强浅层特征，以减轻浅层特征和深层特征之间的语义鸿沟另一个策略是特征关注，它涉及发现补充信息（即，边界信息）来增强高级特征以进行精确分割。通过嵌入这两种策略，我们构造了一个并行的特征金字塔，以提高多层次特征融合的效率.利用并行金字塔构造语义增强网络SeENet，实现精确分割.在三个基准数据集上的实验证明了该方法的有效性。因此，我们的SeENet比其他最先进的语义分割方法取得了更好的性能。1. 介绍场景语义分割是一项高级视觉任务，其目标是为图像中的每个像素分配相应的语义标签。为了处理复杂的尺度变化，必须提取多尺度鲁棒特征和丰富的上下文信息[21，57，19，47]。最先进的语义分割方法通常基于全卷积网络（FCN）[36，53]。大多数基于FCN的方法[48]倾向于构建一个编码器分支，以逐步提高语义级别，而不使用完全连接的层。为了恢复分辨率信息，广泛研究了级联解码器流[2，41，5，49]。跳过连接[38，30，14]经常用于组合编码器和解码器功能。解码器流充当特征金字塔，* 通讯作者：沈建兵(a) B0（b）B1（c）B2(d)B0增强（e）B1增强（f）B2增强(g)图像（h）地面实况（i）SeENet结果图1. 功能增强，以弥合语义鸿沟。(a)图（c）分别示出了来自最后三个块的（g）的特征。当将它们组合在一起时，存在语义鸿沟（d）（f）分别显示增强（a）（c）后（d）与(b) 比组合（a）和（b）更鲁棒。 (h)显示SEG-（i）示出了通过我们的方法的分割结果。有助于聚合多级特征并捕获多尺度上下文信息。在该框架中，来自浅层的特征编码更多的细节信息，而来自深层的特征编码更多的语义信息以区分不同的类。浅特征和深特征对于精确分割是互补的[59]。然而，浅层特征对于边缘、线和角是低级的，而深层特征对于测量对象特征、分类和场景解析是高级的。本文将这种语义粒度的差异这一差距的存在是为了消除-但很少被探索。我们在图中显示了一些特征热图。1（a）图像（g）的图像（c）。这些特征是从FCN网络的最后三个阶段生成的，以呈现存在的差距在不同的层中。可以看出，（a）中的来自浅层的特征包含狗和背景山的更多局部区域和边缘信息Fea-4231来自深层的（c）中的纹理包含用于分割的更多判别信息。也就是说，浅层中的特征具有粗糙信息，而深层中的特征嵌入更多代表性信息。已经观察到，在这些特征之间存在语义间隙将这些浅层特征引入到深层特征中会带来一些背景“噪声”特征，影响特征的鲁棒性，并可能导致语义不一致。因此，直接熔合这些浅特征和深特征不太有效。基于这一观察，我们认为在聚合多层次特征时应该考虑融合语义距离较小的特征是提高特征聚合鲁棒性的一种方法因此，我们建议以自下而上的方式逐渐将浅特征聚合为深特征进一步增强浅特征有助于减轻相邻金字塔特征中的间隙。此外，消除了浅层特征中的基于这些策略，我们提出了一种鲁棒的特征融合方法，以弥合语义鸿沟，提高分割性能。所提出的方法的贡献和特点如下：提出了一种自底向上的并行金字塔方法来弥合语义鸿沟，实现鲁棒的多层次特征聚合。提出了两种特征融合策略一种策略是通过引入语义增强模块来改进浅层特征另一种策略是通过设计一个用于边界细化的反向边界注意模块，从非常浅的特征随后，一个语义增强网络，SeENet，通过嵌入所提出的并行特征金字塔语义分割。因此，SeENet在多个基准数据集上实现了最佳性能。2. 相关工作全卷积网络已被广泛探索以提高分割性能[37，30]。已经证明，提取多尺度上下文信息和增强特征可辨别性[59，52，13，15，39]有利于处理复杂的尺度变化和实现精确分割。在这项工作中，我们讨论了网络的典型模块，利用多尺度信息和方法的特征增强。自上而下的特征金字塔。自上而下的特征金字塔[32]旨在从网络的不同阶段产生多分辨率特征，并逐渐从上到下融合这些特征。编码器-解码器方法中的解码器流作为自顶向下的pyra工作，图2.用于捕获多尺度要素的不同金字塔。中间模块。我们在图中展示了这种金字塔方法。第2段（a）分段。SegNet [2]采用了编码器-解码器网络，并使用池化索引来恢复高分辨率。在DeconvNet [38]中，解卷积和解池用于解码器流以提高分辨率。U-Net[41]被提出来构建从编码器特征到解码器流中的对应特征的跳过连接，并实现多级特征聚合。许多具有跳过连接的特征金字塔方法[59，40，27，20，26]已经被探索用于语义分割以及其他任务[18，32]，并且已经取得了很大的改进。RefineNet [30]还通过多路径细化探索了用于高分辨率场景分割的多级特征空间金字塔池化。空间金字塔池化[23]如图所示，2（b），通常包含多个池化分支以生成多尺度特征。PSPNet [60]被提议在多个网格尺度上执行空间池化，以捕获多尺度信息。 DeepLabv2 [8] 提出了 atrous 空间金字塔池化（ASPP），其中具有不同滤波器速率的并行atrous卷积层捕获多尺度信息[9]。ASPP模块在DeepLabv3 [9]中通过集成全局池分支进行了改进。DenseASPP [52]通过以密集方式连接不同的atrous卷积来开发更有效的模块，所有ASPP变体[9，10，52，58，6，42]都堆叠在其骨干网络的顶部进行预测。图像金字塔。通过使用图像金字塔，如图2（c），一个图像被调整大小为不同的尺度，并在-放到网络上。Eigen等人[16]提出了一个多尺度网络来逐步完善输出。Lin等[31]采用多尺度输入并融合特征。Liu等[34]建议使用多尺度补丁并汇总结果。虽然使用多尺度输入有助于提取丰富的特征，但基于图像金字塔的方法在计算上是昂贵的，并且消耗大量GPU资源[13]，这限制了它们的实际应用。功能增强。要增强功能，请放大4232已经探索了感受域和捕获更多的上下文信息。为了实现这一点，Penget al. [40]提出在网络顶部使用大的内核卷积来捕获更多的全局上下文信息。最近，atrous卷积已被广泛探索[7，54，50，55，46，4，42，43]用于捕获上下文信息。Zhang等人提出通过引入多阶段语义监督来提高语义水平[59]。初始模块[44]也被探索[33]以增强特征的可辨别性和鲁棒性。与以往的金字塔语义分割方法不同，我们构造了一个并行金字塔，如图所示。2（d），朝着弥合多层次特征之间的语义鸿沟和鲁棒地聚合多层次特征的方向发展。为了实现这一点，多级特征在自底向上的金字塔中渐进地融合以缩小特征距离。在并行金字塔中，我们引入语义增强模块来增强浅层特征，并使用注意力模块来发现互补信息并增强深层特征。3. 基于并行金字塔的鲁棒特征融合在这项工作中，我们提出了一个强大的多级特征聚合的并行金字塔。在我们的平行金字塔中，采用了两种策略来减轻语义冲突。一个是增强浅层特征的可区分性。另一种是只捕获深层的补充信息。我们首先提出我们的平行金字塔。然后，我们在我们的方法中介绍了这两种策略的细节。3.1. 平行要素金字塔多级特征聚合。捕获多尺度特征对于解决场景分割中的复杂尺度变化至关重要。来自网络不同阶段的特征与以往的金字塔方法不同，我们提出了一种新的平行金字塔方法，以自底向上的方式逐步融合来自相邻阶段我们在图中展示了金字塔的结构第3（a）段。构建并行金字塔以聚合来自主干的多层次特征（B0、B1和B2）并增强多尺度信息。请注意，我们展示了一个典型的平行金字塔，其骨干特征为B0，B1和B2，通过使用膨胀策略获得相同的分辨率[56，8]。金字塔是通过自下而上逐步融合特征而构建的因此，多层次的功能聚合，以丰富的多尺度信息。双路径聚合。如图3，并行特征金字塔充当有效的解码器流。两在我们的方法中存在不同的特征提取路径。在主干编码器流中发现的一条路径由级联的几个卷积块组成，以逐步提高分辨率。(a) 基本平行棱锥(b)语义增强的概率金字塔图3.平行特征金字塔。 Bi表示来自主干层i的特征。Pi表示金字塔层i中的特征。较粗的轮廓线意味着更高的语义。智能信息另一条路径由一个特征金字塔组成，它简化了从底层到顶层的信息流双路径信息的引入将促进特征融合，并解决复杂场景中的大规模变化。缩短特征距离。在网络中，编码器-解码器架构，特征金字塔通常以级联方式构造。在编码器和解码器功能之间采用跳过连接虽然传统的基于编码器-解码器的自顶向下金字塔方法已经取得了巨大的成功，但存在于浅层和深层之间的语义鸿沟限制了特征融合的性能[59]。为了鲁棒地聚合多层次特征，应该考虑并缓解这种语义鸿沟。因此，我们以并行的方式构建我们的特征金字塔，并分层融合编码器流的特征，与级联金字塔相比，这可以缩短特征距离。为了进一步缓解多层次特征之间的语义鸿沟，本文提出了两种改进特征融合的策略一种策略涉及在融合浅层和深层特征之前使用语义增强模块（SeEM）来增强浅层的特征。如图3（b）中，我们首先将B0的浅层特征增强为P0，以捕获更多与B1相似的上下文信息，缓解特征不一致性。另一种策略是在与高层特征融合时提取互补信息，而不是使用所有的浅层特征。众所周知，一些边界信息通常存在于非常浅的层中，这有助于增强深层特征以进行精确分割。然而，这些特征的语义差距要大得多。在此基础上，我们构造了一个边界注意模块（BAM）来提取边界信息。我们将SeEM和BAM的细节介绍如下。3.2. 用于功能增强的SeEM为了弥补特征融合中的语义鸿沟，本文提出了一个语义增强模块来增强浅层特征扩大感受野和获取更多的上下文信息有助于提高特征的表征能力。如第2、我们可以使用ASPP，一个inception模块，或者一个大核方法来增强浅层特征。考虑到计算4233图4.在语义模块中提出了并行金字塔的特征融合改进方法。我们引入语义增强模块（a）和（b）以增强浅特征的语义，并提出边界注意模块（c）以从非常浅的特征提取补充信息并增强深特征。'DA'表示脱乙酰卷积。“dri”表示膨胀率。“r i”表示卷积层的内核大小。“BA”代表边界注意力。复杂性，我们基于dependency ASPP实现我们的SeEM[10]。与[10]中用于最终预测的网络顶部的ASPP不同，设计的语义依赖性ASPP（S-DASPP）用于增强浅层特征并确保鲁棒的特征融合。此外，由于SeEM在特征金字塔内部使用而不是用于最终预测，因此使用非常大的扩张率，例如[10]中的那些（即，（6，12，18）），不适用于浅层。因此，我们采用相对较小的膨胀率（例如，（1，2，4，8））。我们不使用SeEM中的“图像池”，而是引入残差连接来使学习过程稳定。请注意，使用这种ASPP来构建SeEM并不是我们的创新。我们还可以在金字塔中嵌入一个大的内核或初始模块来增强语义。此外，我们提出了一个新的SeEM与全采样，使精确分割。我们在下面展示了详细的实现.语义依赖ASPP。考虑到效率和有效性，SeEM是用如图所示的S-DASPP模块构造的。4（a）用于捕获多尺度上下文信息和特征增强。S-DASPP由四个并行的非线性卷积分支组成.在每个分支中，我们首先使用1×1卷积层将输入通道数减少到较小的值（例如，128）。然后，一个令人沮丧的谈话-树枝为了改善浅层特征的语义，我们使用膨胀率（1，2，4，8）来配置SeEM。通过使用S-DASPP，可以通过多尺度无卷积分支来进一步丰富多尺度上下文信息。全采样的S-DASPP。Atrous卷积通常用于以稀疏采样方式捕获大的感受野。为了生成精确的分割结果，我们建议构建一个具有全采样组件的语义增强模块（SeEM-FS），如图所示第4（b）段。在每个分支中的1×1卷积层用于通道减少之后，我们首先使用具有ri×ri滤波器的卷积层来捕获局部区域信息。以下具有扩张率dri的非线性卷积层能够捕获全局上下文信息，一个完整的抽样方式。我们在图中说明了稀疏采样和全采样方法。五、在一维中，如（a）所示，将xi表示为输入，对于具有膨胀率r=3的无环卷积，输出z0可以表示为：z0=fac（x0，x3，x6），（1）其中fac（x）表示无环卷积运算。因此，z0只能以稀疏采样方式从{x0，x3，x6}我们展示了完整的图中的采样方法5（b）。使用卷积核r×1，特征yi可以从（xi，xi+1，xi+2）捕获局部信息那么，z0可以公式化为：该算法首先采用一个1 ×1卷积层对接收域进行放大，然后采用另一个1批量标准化[25]和ReLUz0=fac（y0，y3，y6）=fac（fc（x0，x1，x2，x3，x4，x5，x6，x7，x8）），（二）激活被用于每个卷积层。我们将四个分支的输出与输入特征连接起来，以更密集的连接方式简化网络训练一个核可以在卷积层中表示为wm×n ×c，在卷积层中表示为wm×n ×1。在我们的S-DASPP中，其中m×n是3×3，c表示输入的信道数放。显然，深度卷积需要较少的参数。为了捕捉多尺度信息，四个图像中采用不同的膨胀率（dr1，dr2，dr3，dr4），其中fc（x）表示卷积运算。因此，在本发明中，z0覆盖了从x0到x8范围内的所有输入点（即，{x0，x1，x2，x3，x4，x5，x6，x7，x8}）。我们在图中给出了一个例子5（c）及（d）将─充分发挥全抽样的优势由于使用稀疏采样（大多数采样点来自摩托车），（c）中摩托车上的骑手被错误地分割为摩托车通过使用全采样方法，可以如（d）中那样正确地分割为了避免严重增加计算成本，我们使用{r×1，1×r}，4234(a)（b）采用全采样(c)稀疏采样（d）全采样图5. Atrous卷积在SeEM中使用稀疏采样，在SeEM-FS中使用全采样。{1×r，r×1}卷积群逼近r×r卷积，由[44，40]开发3.3. 边界注意模块虽然级联卷积运算可以扩大接收域并捕获更多的全局上下文信息，但它们也会导致边界信息的丢失。为了重新存储边界信息，一些方法直接将来自非常浅的层的特征与深层添加或连接。然而，浅层特征不仅包含边界信息，还包含物体内部的纹理因此，为了融合非常浅的特征和深特征，我们提出在与深特征结合时去除冗余特征并保留浅特征中的边界信息。为了实现这一点，边界注意模块（ BAM ），如图所示。 4（c），是在我们的金字塔设计和雇用。受反向注意机制[11]的启发，我们提出通过关注在高级特征中不显著的区域来提取边界信息（即Pout）。我们将Pout中的特征表示为P∈Rh×w×cp，记 B 为 B∈Rh×w×c 。首先对 P 作 1×1 卷积，生成P∈Rh×w×c. 边界注意力产生为：图6.用于场景分割的SeENet概述。有两条信息通道。一是基本骨干信息通路。另一个是我们的特征金字塔信息路径并行多层次的特征聚合。3.4. SeENet用于分割通过提出的并行特征金字塔，我们构建了一个深度FCN网络，语义增强网络（SeENet），具有用于语义分割的预训练ResNet [24]骨干。我们在图中展示了SeENet的主要架构。六、我们遵循[56，8]的先前工作，移除块3和块4中的子采样层，并在块3和块4的预训练骨干上使用扩张策略。第四块我们的并行金字塔是基于Block1和Block4的输出构建的。具体来说，我们首先使用SeEM模块增强来自Block2的浅特征。然后，我们通过级联操作将块2的增强特征与块3的特征融合。我们将Block2和Block4的功能与SeEM逐步融合。在执行最终预测之前，我们应用SeEM-FS来进一步增强语义并捕获丰富的上下文信息。三个SEEM是（1，2，4，8），（3，6，9，12）和（7，13，19，25）。该变化-A=1−σ（P）=1−11+e−P .（三）SeEM和SeEM-FS中的1×1卷积层的nel数被设置为128。为了细化边界信息，然后，边界特征B∈Rh×w×c被捕获为：B=AB，（4）其中⊙表示Hadamard乘积。我们使用1×1和3×3卷积层进一步通过提出的BAM，生成的边界元，特征和原始高级特征是互补的。最后，我们使用一个3×3卷积层进行特征融合，另一个1×1卷积层生成最终的分割结果。我们将包含大量详细信息的Block1中非常浅的特征引入到BAM模块中。4. 实验结果为了证明所提出的方法的有效性，在三个公共分割数据集上进行实验：Pascal VOC 2012 [17]，CamVid [3]和Cityscapes [12]。在Pascal VOC 2012数据集上进行烧蚀实验，以评估4235总iter阶段B2EB2B3B3+B2B3+ EB2mIoU（%）50.162.469.471.573.5表2.对SeENet不同阶段的评价像素13510213040woBF50.558.363.269.273.975.576.4高炉料槽53.260.664.669.974.375.876.7BAM（我们的）56.162.166.070.874.976.377.2PFPa嵌入了三个SeEM模块。PFPb嵌入了三个SeEM-FS模块。PFPc嵌入了两个SeEM模块和一个SeEM-FS模块。表1. Pascal VOC 2012验证集上SeENet各部分的消融研究。‘R50’ and ‘R101’ represent two back- bones with ResNet50 andResNet101 [ ‘PFP’ represents the proposed Parallel FeaturePyramid without embedding SeEM ‘BF’ means boundaryrefinement by skip我们的平行特征金字塔的每一部分。我们的实验使用Tensorflow [1]进行。在以前的工作[8 ， 56] 之后，我们使用 iter 学习速率调度（即，lr=baselr（1−ITER）电源与power= 0. 9）训练网络。我们设置baselr = 0。001对于VOC 2012和Camvid数据集，以及baselr=0的情况。007对于Cityscapes数据集。我们将权重衰减设置为0.0001，动量设置为0.9。我们通过执行随机左右翻转、随机缩放图像来（0。五二0）、随机裁剪和零填充用于训练。我们使用标准的交叉熵损失来监督模型的训练。4.1. Pascal VOC 2012数据集Pascal VOC 2012是一个基准数据集，20个前景类和一个背景类（总共21个类）用于语义分割。作为在[60，56，9]中，我们使用额外的注释[22]以及原始数据集来构建训练集（10582张图像），验证集（1449张图像）和测试集（1456张图像）。我们首先进行消融实验，以评估SeENet在验证集上的每个部分，然后通过将结果提交给Pascal VOC服务器，在测试集上将其与其他最先进的方法进行每个像素的平均值是根据平均像素交叉-联合（mIoU）来测量的，在21个类别中取平均值。4.1.1消融研究对于消融实验，我们在训练集上训练所有模型，并在验证集上对其进行评估。我们用320×320的小规模作物和10个小批量训练网络，进行50K次迭代。我们不使用任何后处理操作，如[8]中使用的CRF [62]并行特征金字塔（PFP）。我们首先评估了没有SeEM的PFP模块。我们通过在后面的顶部堆叠一个膨胀率为{6，12，18，24}的ASPP模块来构建基线网络，如[8表3.使用trimap测量的边界评估[10]。'woBF'表示没有边界细化。 ‘BF-skip’ rep- resents boundary refinement with directlyskip骨头ResNet50的基线[24]获得了70.9%的mIoU。在没有SeEM的情况下构造PFP时，我们使用卷积层与3×3×512滤波器融合之前，从两个阶段的特征。表1（a）和（d）表明，通过使用PFP，ResNet50获得了1.8%的改进骨干当使用ResNet101作为主干时，mIoU达到75.7%（仅提高0.8%）。与ResNet50相比，ResNet101的特征聚合范围更长，因此存在更大的语义差距语义增强模块。我们进一步采用语义增强模块（SeEM，SeEM-FS）来增强网络。首先，我们在PFP中嵌入三个SeEM模块（即，（f）），目的是解决语义上的不一致问题。因此，我们获得了 76.9% 的mIoU ，这优于仅使用普通金字塔的模型（即，(d))1.2%，不引入任何参数。然后，我们评估所提出的SeEM-FS模块的性能。如果在基线（c）上仅使用一个 SeEM-FS ，则获得 75.9% 的 mIoU ，其优于基线1.0%。当将三个SeEM-FS模块与金字塔模块组合时，实现了77.5%的mIoU。然而，使用SeEM-FS导致比使用SeEM时消耗更多的我们在配置SeENet时实现了参数消耗和分割精度之间的权衡，如图所示六、最后，对于表1中的（h），实现了77.4%的mIoU。弥合语义鸿沟。然后，我们进行实验，以证明SeEM的有效性，为弥合语义差距。使用SeENet的不同阶段的分割性能反映了相应特征的特征水平。使用SeENet不同阶段的特征来预测分割结果，我们在表2中显示了结果。我们使用来自Block2（B2）的特征进行预测，并获得50.1%的mIoU。使用SeEM增强B2（EB2）的特征，我们获得了62.4%的IoU，比B2好12.3%，比使用Block3（B3）进行预测少7.0%。结果表明，SeEM的引入可以减小B2和B3之间的间隙。通过结合B2和B3的特征进行预测，我们获得了71.5%的mIoU。并结合方法R50 R101 PFP 似乎 SeEM-FS BF BAM mIoU（%）(a) 基线(b) +PFP(c) 基线(d) +PFPCCCCCC70.972.774.975.7(e) +SeEM-FS(f) +私营部门筹资和伙伴关系司CCCCC75.976.9(g) +私营部门筹资和伙伴关系司(h) +私营部门筹资和伙伴关系司cCCCCCCC77.577.44236方法 Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视mIoU（%）FCN [36]76.8 34.2 68.9 49.460.375.3 74.7 77.6 21.4 62.5 46.8 71.8 63.976.573.945.272.437.4 70.9 55.162.2GCRF [45]85.2 43.9 83.3 65.268.389.0 82.7 85.3 31.1 79.5 63.3 80.5 79.385.581.060.585.552.0 77.3 65.173.2DPN [35]87.7 59.4 78.4 64.970.389.3 83.5 86.1 31.7 79.9 62.6 81.9 80.083.582.360.583.253.4 77.9 65.074.1[31]第三十一话90.6 37.6 80.0 67.874.492.0 85.2 86.2 39.1 81.2 58.9 83.8 83.984.384.862.183.258.2 80.8 72.375.3ResNet38 [51]94.4 72.9 94.9 68.878.490.6 90.0 92.1 40.1 90.4 71.7 89.9 93.791.089.171.390.761.3 87.7 78.182.5PSPNet [60]91.8 71.9 94.7 71.275.895.2 89.9 95.9 39.3 90.7 71.7 90.5 94.588.889.672.889.664.0 85.1 76.382.6AAF [28]91.3 72.9 90.7 68.277.795.6 90.7 94.7 40.9 89.5 72.6 91.6 94.188.388.867.392.962.6 85.2 74.082.2TripleNet [5]95.6 70.7 93.3 71.478.496.2 92.4 93.1 43.0 89.0 73.7 87.4 92.889.288.569.092.5 68.4 88.1 80.383.3EncNet [56]94.1 69.2 96.3 76.786.296.3 90.7 94.2 38.8 90.7 73.3 90.0 92.588.887.968.792.659.0 86.4 73.482.9SeENet（我们的）93.7 73.7 94.4 67.882.494.5 90.7 94.1 42.4 92.5 72.1 90.8 92.688.389.476.692.968.1 88.5 77.283.8COCO预培训DeepLabv2 [8]92.6 60.4 91.6 63.4 76.395.0 88.4 92.6 32.7 88.5 67.6 89.6 92.187.087.463.388.360.0 86.8 74.579.7RefineNet [30]95.0 73.2 93.5 78.1 84.895.6 89.8 94.1 43.7 92.0 77.2 90.8 93.488.688.170.192.964.3 87.7 78.884.2PSPNet [60]95.8 72.7 95.0 78.9 84.494.7 92.0 95.7 43.1 91.0 80.3 91.3 96.392.390.171.594.466.9 88.8 82.085.4DeepLabv3 [9]96.4 76.6 92.7 77.8 87.696.7 90.2 95.4 47.5 93.4 76.3 91.4 97.291.092.171.390.9 68.9 90.8 79.385.7EncNet [56]95.3 76.9 94.2 80.285.296.5 90.8 96.3 47.9 93.9 80.0 92.4 96.690.591.570.893.666.5 87.7 80.885.9SeENet（我们的）97.3 81.2 94.8 77.4 87.5 97.4 92.6 96.6 48.2 94.2 73.2 93.7 97.291.791.572.594.166.5 90.8 82.786.6表4.PASCAL VOC 2012测试集的每类结果所提出的SeENet优于大多数最先进的方法。作为边界，我们的BAM获得了56.1%的边界mIoU，这比使用跳过连接方法时要好得多。因此，我们的BAM有助于维护更好的边界信息，发现的补充信息。这也证明了我们的鲁棒特征融合的注意力策略的有效性。表1示出，通过使用跳过连接（即，BF-Skip），可以实现0.3%的mIoU改进。相比之下，所提出的BAM获得了0.7%的mIoU改进，优于BF跳过方法。最后，提出的SeENet实现了78.1%的mIoU。(a) 图像（b）地面实况（c）基线（d）我们的图7.Pascal VOC 2012验证集的分割结果第三排和第四排的边界更好。最后一行显示了一个失败案例。增强的功能，我们进一步提高了2.0%的性能。因此，SeEM促进了我们的并行金字塔中的特征融合。图中的可视化1（d）和（f）表明，SeEM可以提高输入功能。对于浅特征，如图所示。1（a）中，通过生成特征（d），已经缓解了（b）中的大的语义差距。融合特征，(d)和（b）具有相似的语义级别，比融合（a）和（d）更鲁棒。边界注意模块。为了更好地评估边界元性能，我们使用trimap度量，仅计算不同边界宽度下的边界mIoU，如下[8]。如表3所示，如果只有1个像素宽度，4.1.2测试集性能我们首先评估作物大小和多尺度测试的影响与ResNet101作为骨干。当使用320×320的较小裁剪大小时，我们使用10个小批量来训练SeENet，在训练集上进行50k次迭代，并在训练值集上进行另外50k次迭代以进行微调。当使用512×512的较大crop大小时，我们使用8的minibatch训练SeENet，在训练集上进行70k次迭代，并在训练值集上进行另外50k次迭代以进行微调。对于使用320×320输入训练的模型，SeENet实现了80.5%的mIoU当使用较大的作物尺寸时，512×512，获得了1.3%的改进。通过对多尺度{0. 5，0。75，1。0，1。25，1。五一75）输入，如[8，9，56，60]中所做的，SeENet实现了83.8%mIoU1.通过在COCO数据集上进行预训练[56]，我们获得了更好的结果，在测试集上有86.6%的mIoU2我们在VOC 2012测试集上将我们的方法与其他最先进的方法进行了比较。每个类的IoU和相应的mIoU如表4所示。与所有其他模型（包括PSPNet [60]和EncNet [56]）相比，所提出的方法显示出增强的整体性能。特别是对于一些困难的课程，如1http://host.robots.ox.ac.uk:8080/anonymous/EN0UWH.html2http://host.robots.ox.ac.uk:8080/anonymous/VJBC6X.html网站4237方法路侧建筑壁围栏极T光T形标志vege 地形天空人骑手车卡车总线火车电机自行车mIoU（%）RefineNet [30] 98.2 83.391.347.8 50.4 56.166.971.392.370.394.880.963.3 94.5 64.6 76.1 64.362.270.073.6[46]第四十六话 98.5 85.592.858.6 55.5 65.073.577.993.372.095.284.868.5 95.4 70.9 78.8 68.765.973.877.6[51]第五十一话 98.5 85.793.155.5 59.1 67.174.878.793.772.695.586.669.2 95.7 64.5 78.8 74.169.076.778.4[29]第二十九话 98.5 85.492.554.4 60.9 60.272.376.893.171.694.885.268.9 95.7 70.1 86.5 75.568.375.578.2AAF [28] 98.5 85.693.053.8 58.9 65.975.078.493.772.495.686.470.5 95.9 73.9 82.7 76.968.776.479.1[52]第五十二话 98.7 87.193.460.7 62.7 65.674.678.593.672.595.486.271.9 96.0 78.0 90.3 80.769.776.880.6PSANet [61]-------------------80.1SeENet（我们的）98.7 87.393.757.1 61.8 70.577.680.994.073.595.987.571.6 96.3 76.4 88.0 79.973.078.581.2表5.Cityscapes测试集的每类结果所提出的SeENet在细标记数据上训练获得81.2%的mIoU方法mIoU（%）SegNet [2]46.4FCN 8 [36]57.0[54]第54话65.3DeepLab [7]64.6[27]第二十七话66.9SeENet（我们的）68.4表6.CamVid测试集的结果自行车和植物， SeENet比其他人有很大的优势。SeENet的精确分割能力在图中可视化。7.第一次会议。由于上下文的模糊性（在河流中很少发现汽车），很难解决最后一个案例。4.2. CamVid数据集上的结果CamVid数据集[3]由用于城市场景理解的完全分段的视频组成我们使用与[27]中相同的分裂帧。有468帧（训练值集）用于训练，测试框架（测试集）。我们使用分辨率为360×480的原始图像进行训练和测试。跨所有11个类的mIoU用于性能测量。如表6所示，SeENet实现了68.4%的mIoU。因此，所提出的方法能够解决街景4.3. Cityscapes数据集为了证明SeENet处理高分辨率（2048 ×1024）复杂街道场景分割的能力，我们在Cityscapes数据集上评估了拟议的SeENet [12]。其中5000张图片有像素级的注释，（19个分类中的精细标记）。根据Cityscapes的标准设置，这些图像分为2975个图像用于训练集，500个图像用于验证集，其余1525个图像用于测试集。我们将裁剪尺寸设置为768×768进行训练，并使用原始图像进行测试。我们首先在训练集上训练我们的SeENet，小批量大小为8，用于90k次迭代。我们进一步微调它的火车价值集与一个较小的学习率集（baselr=0. 001）进行另外90k次迭代。如表5所示，对于大多数类，获得了更好的分割性能最后，我们的SeENet实现了81.2%的mIoU 我们将一些结果形象地显示在图中。8. SeENet能够处理复杂的尺度变化，并获得高分辨率的最佳性能图8.Cityscapes测试集上的细分预测第一行表示输入图像，第二行显示基线结果，最后一行说明我们的结果。街景解析5. 结论弥合多层次特征之间的语义鸿沟对于健壮的特征聚合至关重要。在本文中，我们提出了一个并行金字塔聚合多层次的功能在一个自下而上的方式。两种策略已被探索，以弥合语义差距，并嵌入在我们的平行金字塔。一种策略是增强浅层特征的表示能力，以缓解多层次特征之间的语义增强模块已设计与此策略的鲁棒性特征融合。另一种策略是在非常浅的特征中发现互补信息，以增强深层特征。我们已经设计了一个边界atten- tion模块与此策略的边界细化。一个网络，SeENet，与我们的平行金字塔已经构建了语义分割。结果表明，SeENet在多个基准数据集上获得了比其他最先进方法更好的性能，这证明了我们方法的有效性。致谢本工作得到国家自然科学基金（批准号：61632018）和北京市自然科学基金根据4182056号授权4238引用[1] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo ， Zhifeng Chen ， Craig Citro ， Gregory S.Corrado，Andy Davis，Jeffrey Dean，et al. Tensorflow：异构分布式系统上的大规模机器学习。 CoRR ，abs/1603.04467，2016。6[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Trans. 模式分析马赫内特尔，2017年。一、二、八[3] Gabriel J. Brostow， Jamie Shotton ， Julien Fauqueur，and Roberto Cipolla.利用运动点云的结构进行分割和识别。ECCV，2008年。五、八[4] 曹佳乐，庞彦伟，李雪龙。探索多分支和高级语义网络，以提高行人检测。CoRR，abs/1804.00872，2018。3[5

下载后可阅读完整内容，剩余1页未读，立即下载