场景分割中的对象边界控制的图像语义分割方法

195 浏览量更新于2023-10-13 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6819用于场景分割的丁恒辉1蒋旭东1刘爱群1NadiaMagnenat Thalmann1，2王刚31新加坡南洋理工大学2瑞士日内瓦大学3中国阿里巴巴集团{ding0093，exdjiang，eaqliu，nadiathalmann}@ ntu.edu.sg，gangwang6@gmail.com摘要在这项工作中，我们解决了具有挑战性的问题，场景分割。为了提高同一对象的特征相似性，同时保持不同对象的特征区分度，我们探索在对象边界的控制下在整个图像中为此，我们首先提出学习边界作为一个额外的语义类，使网络能够知道边界布局。然后，我们提出了单向无环图（UAGs）来模拟无向第一部分第二连接较弱更紧密的联系循环图（UCG），其通过以高效和有效的方式构建图形逐像素连接来结构化图像。此外，我们提出了一个边界感知的特征传播（BFP）模块，以收获和传播的局部特征在其区域内的学习边界的UAG结构的图像隔离。BFP通过在同一分割区域之间建立强连接，而在不同分割区域之间建立弱连接，将特征传播分解为一组语义组.在没有花里胡哨的情况下，我们的方法在三个具有挑战性的语义分割数据集上实现了新的最先进的分割性能，即， PASCAL-Context 、 CamVid 和Cityscapes。1. 介绍场景分割是一项具有挑战性和基础性的任务，旨在为场景图像的每个像素分配语义类别。场景分割的关键是涉及将场景图像解析和分割成语义相关区域的范围。因此，在保持不同目标特征区分度的同时，提高同一目标的特征相似度是至关重要的。为此，一方面，我们探索在整个图像中传播特征，以共享特征并收获上下文信息，这有利于提高特征相似度。另一方面，为了保持辨别力，图1. (Best边界感知特征传播模块在同一段内建立较强的连接，在不同段之间建立较弱的连接，这有助于增强属于同一段的特征的相似性，同时保持属于不同段的特征的区分度。为了提高属于不同对象的特征的创新能力，我们提出利用边界信息来控制传播过程中的信息流。总之，我们提出了一个边界感知的特征传播模块，用于在同一段内建立强连接，在不同段之间建立弱连接，如图1所示。此模块需要两个组件：边界检测和图形构造。首先，边界检测，这是一个隐含的任务，在场景分割，是重要的细致密集预测。然而，在现有的分割方法中，边界检测并没有引起应有的重视，因为边界像素只占整个图像的一小部分，它对性能的提高贡献不大在这项工作中，我们试图找到一种方法，同时实现分割和边界检测，并进一步利用学习的边界信息，以提高分割性能。关于这一点，我们建议从分割数据集中给出的现有对象类标签生成语义对象的边界标签，并将其定义为用于学习和分类的附加类通过这样做，简洁的边界6820被很好地学习并推断为一个附加类，因为边界上的像素的特性不同于边界外的大多数像素的特性。和有争议区域（即，在边界附近）被增强。此外，将边界作为附加类对网络的要求很小，但使网络知道边界布局，可以进一步用于分割改进。其次，需要图形模型来创建特征传播的顺序规则。卷积方法[13，79]在场景分割中很受欢迎，但当从大范围的感受野中聚合特征时，它们通常会消耗大量的计算资源。此外，卷积核不能随输入分辨率而变化，因此不能确保整体图像的整体视图。最近，DAG-RNN[66] 提出使用四个具有不同方向的有向无环图（DAG）来建模无向循环图（UCG）的功能，其通过在整个图像中建立逐像素连接来结构化图像。然而，DAG需要大量的循环来逐像素地扫描图像。因此即使在低分辨率的特征地图上也非常缓慢，这限制了其在“扩张的FCN”[13，86，82]和像Cityscapes [15]这样的高分辨率数据集上的应用。为了解决这个问题，我们提出了一个更有效的图形模型，以实现更快的功能传播。我们发现[66]中采用的每个DAG都可以被两个单向无环图（UAG）所替代，其中同一行或列的像素被并行处理 1D卷积所提出的UAGs大大加快了特征传播过程。此外，与非常深的DAG不同，所提出的UAG要浅得多，从而减轻了传播消失的问题[57]。最后，基于UAG结构的图像和学习的边界信息，我们建立了一个边界感知的特征传播（BFP）模块。在BFP中，同一片段的局部特征通过无障碍连接共享以交换信息，从而实现特征同化，而不同片段的特征在学习边界的指导下在受控连接下交换。我们提出的边界感知特征传播（BFP）网络有几个优点。首先，由于所提出的UAGs并行处理同一行或列的像素，我们实现了高速的传播过程UAG包含的参数比卷积方法少得多。其次，将边界检测表示为语义类的分类，省去了大量的参数和复杂的边界检测模块。第三，在边界置信度的建议下，以更有动机的方式传播局部特征，在保持局部特征的同时增强属于同一段的区分属于不同段的特征。本文的主要贡献可以概括如下：• 我们表明，边界可以学习的语义类别之一，这需要很少的网络变化，但获得必要的边界信息。• 我们提出了一些单向无环图（UAGs）的高分辨率图像之间的高速传播信息。• 我们提出了一个边界感知的特征传播模块，以提高局部特征的相似性，在保持属于不同段的特征的区分能力的• 我们在PASCAL-Context、CamVid和Cityscapes上实现了新的最先进的性能。2. 相关工作2.1. 场景分割场景分割（或场景解析、语义分割）是计算机视觉中的基本问题之一，受到了广泛的关注。最近，由于卷积神经网络（CNN）在计算机视觉中的巨大成功[42，68，71，52，25，72，27，29]。80，26]，已经提出了许多基于CNN的分割工作，并取得了很大进展[29，22，81，83，84、70、60]。例如，Long等人[54]介绍了全卷积网络（FCN），其中标准CNN中的全Noh等人。[56]提出了去卷积网络，以逐渐将粗糙特征上采样到高分辨率。Chen等人。[13]提出删除CNN中的一些池化层（或卷积步幅），并采用扩张卷积来保留更多的空间信息。一些工作集中在轻量级网络架构[3，46]和实时分段[85，58，77，59]。上下文聚合是场景分割中的一个研究热点例如，Chen等人[13]提出了一个atrous空间金字塔池（ASPP）模块来聚合多尺度上下文信息。Yu等人。[79]在分数映射后采用多个扩张卷积层来进行多尺度上下文聚合。Zhao等人。[86]引入金字塔空间池（PSP）来利用来自不同尺度区域的上下文信息。Zhang等人[82]将语义上下文编码为网络并强调依赖于类别特征图。He等人[30]提出自适应金字塔上下文模块来捕获全局引导局部亲和性。Fu等人。[21]将局部和全局依赖性与空间和通道注意力相结合。Ding等人。[17]采用语义相关来推断形状变体上下文。图形模型在场景分割中有着悠久的历史。早期的作品构建图形模型与6821和融合分割分类器边界置信图分割置信图损失图2.拟议方法概述。我们使用具有扩张网络策略[13]的ResNet-101（CNN）作为骨干，并将拟议的边界感知特征传播（BFP）模块放置在CNN的顶部。损失2的监督者是N+1个类别的新的基础事实，具有从N个类别的原始基础事实生成的附加边界类别。手工制作的功能[24，51，75，69]。马尔可夫随场（MRF）[24，43，45]和条件随机场(CRF)[41，61，13，53]根据相邻像素的相似性建立依赖关系。Liang等人[47]提出基于超像素节点构建图形拓扑，并将远程上下文与图形LST结合。M. Shuai等人[66]采用无向循环图（UCG）来制定图像，并用有向无环图（DAG）分解UCG。Byeon等人[9]提出将图像划分为非重叠窗口，并采用2D LSTM来构建局部和全局依赖关系。然而，大多数基于图的方法是耗时和计算昂贵的，因为它们需要候选预段，超像素或大量的循环。在这项工作中，我们提出了单向无环图（UAGs），基于此本地功能快速并行传播。为了在同一段内构建强依赖关系，在不同段之间构建弱依赖关系，我们利用学习的边界信息来指导UAG结构图像内的特征传播。2.2. 边界检测边界检测是许多计算机视觉任务的基本组成部分，并且具有悠久的历史[1，19，40，35]。例如，Lim等人[48]提出草图令牌（ST）和Doll a´ r[20]等人。提出了基于快速随机森林的结构化边缘（SE）来处理边界检测，局部分类问题。最近，CNN的成功极大地提高了边界检测的性能[5，6，33，64，74]。Xie等人。[74]采用CNN中间层的特征进行边界检测。Shen等人。[63]提出了用于电子显微镜图像边界检测的多级全卷积网络。这些方法的目标是优化边界检测的准确性，边界信息可以用于改善分割性能。例如， Bertasius etal.[6]，Hayder et al.[28]，Chen et al.[11]和Kokkinos [38]采用二进制边缘来提高分割性能。然而，它们都采用额外的网络分支进行边缘检测，这需要更多的资源，并将分割和边界检测作为两个独立的任务来处理。与[6，28，11]不同的是，我们的目标不是检测明显的二进制边界，而是推断出表示高级边界布局的概率分布的边界置信度图。3. 方法由于场景图像风格多样、布局复杂，需要利用全局背景信息对每个像素进行分类，同时避免全局场景对每个像素的影响。在这方面，我们提出了一个边界感知的特征传播模块来武装损失2（N+1）N+1N损失1（N）分裂+CNNBFPNsegseg+seg6822局部特征具有整体的上下文意识，但保留了特征对不同对象的区分能力。总体架构如图2所示。我们使用基于ResNet-101 [31]的扩展FCN（子采样8）作为主干。损失2的主管是从原始基础事实（N类）生成的边界感知基础事实（N+1类）。3.1. 语义边界检测UCG=DAGSEDAGSWDAGNEDAGNW=边界描绘有利于精细的场景解析。然而，由于分割数据集中对象的语义标签种类繁多，布局复杂，边界区域的像素解析往往比较困难，导致预测结果混乱。在这项工作中，而不是迪-DAGSEDAGNEDAG软件DAGNWUAGS=UAGNUAGS.EUAGS.WUAGN.EUAGN.W通过直接给边界区域的像素分配语义标签，我们探索了先推断边界布局，并利用学习到的边界信息提高分割性能。许多工作都有助于边界检测[5，6，33，64，74]，但大多数都集中在绘制对象的边缘上。与它们不同的是，我们只关注在逐像素操作单向并行操作分割数据集。我们已经观察到，边界具有RGB和特征信息急剧变化的特性。并且边界标签易于从现有的地面真值生成。因此，我们假设边界可以被视为一个额外的语义类别，同时学习与其他现有的对象类别。如图2所示，我们从原始的地面真值（损失1，N类）获得新的地面真值（损失2，N+1类），并利用新的地面真值来监督网络学习和推断边界布局。不同于以往的边界检测工作，旨在边界划定或处理分割和边界检测作为两个独立的任务，我们提出的语义边界检测嵌入语义对象解析。我们的边界检测模块只针对训练数据中预定义的语义对象的边界，并在与分割的交互作用下生成简洁的边界信息。这两项工作合二为一，相互受益。通过一起训练它们，场景分割类有助于抑制对象内不是对象的语义边界的边缘，例如，眼睛的边缘场景分割有助于边界检测滤除噪声并描绘出方向性好的边界，而边界检测则使场景分割了解重要的边界布局信息。3.2. 单向无圈图上下文被设计为聚合广泛的周围信息，因此它期望不考虑分辨率的整体图像的整体视图一种流行的方式是图3. DAG的每个点具有三个不同的方向。因此，DAG必须逐个像素地扫描图像，并且由于许多循环而消耗大量时间。我们将四个DAG分解为六个单向无环图（UAG）。每个UAG向单个方向传播信息，其并行地处理每行的像素，然后并行地处理每列的像素。例如，UAGS仅在南方向，UAGS.E仅在东方向（基于UAGS）。采用堆叠卷积或扩张卷积来扩大感受野[13，79，18]，但这会消耗大量的计算资源。[66]的工作提出了DAG-RNN来捕获基于有向无环图（DAG）的远程上下文如图3所示，像素被局部连接以形成无向循环图（UCG），从而在整个图像之间建立传播通道。为了克服UCG的循环特性，将UCG分解为四个不同方向（东南、西南、东北、西北）的DAG。然而，由于DAG的每个因此，即使在低分辨率的特征地图上，它也非常缓慢，这限制了它在“扩张的FCN”[13，86，82]和高分辨率数据集（如城市景观[15]和CamVid [8]）上的应用为了解决这个问题，我们探索减少循环的数量和并行传播信息。在这里，我们提出了一些单向无环图（UAG），如图3所示，它并行处理每行的像素，然后并行处理每列的像素。[66]通过的每一个DAG都可以UAGS.W+UAGN.EUAGsUAG西北UCG输入UAGS.EUAGNUAGSDAG软件+DAGNEDAGNWDAG%sUCG输入DAGSE6823(a)（b）（c）（d）（e）图4. (a)（b）原始地面实况;（c）新生成的地面实况：添加从所述原始基础事实生成的边界类;（d）边界信任图：边界布局的概率分布;（e）传播置信图：传播的置信度分布。可以由两个UAG替代。例如，DAGSE被分解为UAGS和UAGS.E，其中UAGS是向南的，其并行地处理相同行的像素，并且UAGS.E是向东的（在UAGS之后），其并行地处理相同列的像素。结果，减少了每个DAG的循环数从H×W到H+W，其中H和W是特征图的高度和宽度。建议的UAG大大加快了这在实践中是经济且期望的，特别是对于需要高分辨率和大视野的应用（例如，自动驾驶汽车）。此外，由于逐像素操作，DAG中的这导致传播问题消失[57]。所提出的UAG比DAG浅得多，从而减轻了传播消失的问题。ht-1htht+1x x xpt-1ptpt+1it-1itit+1XXX图5. 由于我们的UAG是单向和并行的，为了清楚起见，我们在这里显示了1D的传播过程。it表示位置t处的像素的特征，ht是输出（隐藏状态），pt是传播置信度。清楚起见扩展到2D/3D非常简单。我们将位置t处的像素的特征表示为it，并且对应的输出（隐藏状态）表示为ht。基于我们的UAG结构化图像的标准传播过程公式化如下：3.3. 边界感知特征传播然而，非选择性传播会使特征同化，导致平滑表示，削弱特征的区分度。在场景分割中对不同对象和素材中的特征进行分类，有利于在保持不同对象特征区分度的同时，提高同一对象的特征相似度。因此，我们将边界信息引入到特征传播中，以控制不同段之间的信息流。如图1所示，利用学习的边界信息，我们为属于同一段的像素建立强连接，但为不同段建立弱连接。在传播过程中，更多的信息通过同一段内的强连接传递，而更少的信息流穿过不同的段。以这种方式，像素从相同对象的其他像素获得更多的信息，而从其他对象的像素获得更少的信息。因此，不同目标的特征可以保持其区分性，而同一目标的特征则趋向于同源，这是分割所需要的。下面呈现所提出的边界感知特征传播的详细过程由于我们的UAG是单向和并行的，我们在这里用1D表示传播过程，ht=g（Uit+Wht−1+δ）（1）其中，δ是1D卷积运算，U、W是1D卷积的可学习参数，δ是可学习偏差。 g是逐元素非线性激活函数（我们使用ReLU）。对于边界感知传播，我们首先从（N+ 1）个分割置信度图中提取边界置信度图，如图2所示。我们将像素t的边界置信度表示为bt，对应于it。基于边界置信度图，我们生成传播置信度图：pt= 1−βf（αbt−γ）（2）其中Pt是传播置信度，其决定像素t的多少信息将被传递到下一个区域。α=20和γ=4是根据经验选择的常数，f是S形函数以增强边界，β是a可学习参数有了传播置信度，传播过程可以重新表述如下：ht=g（Uit+W ht−1pt−1+δ）（3）如图5所示，传播由边界控制，因此对边界感知上下文特征进行建模，以便更好地解析不同的段。6824总iter对于具有“两个方向”的无人机，它们也是单向的和平行的。例如，UAGS.E的公式如下：hj=g（Uij+Whjjj−1j−1t t t−1pt −1+Wht −1pt −1+δ）（4）j j−1有两个隐藏状态ht−1和ht−1，输入到当前单元，其中t和j表示水平轴和垂直轴。最后，四个UAG中的对应位置的隐藏状态（即，UAGS.E，UAGS.W，UAGN.E、UAGN.W）融合一起生成最终输出，如图3所示。边界置信度图和propa的一个例子图4显示了gation置信图。我们学习在新生成的具有附加边界类的地面实况的监督下的边界置信度图。为了控制特征传播的进程，由边界置信度图生成传播置信度图。如果像素it在边界区域中，则其具有较高的边界概率bt，并且因此具有较小的传播概率pt。因此，特征传播被抑制，并且弱信号被传递到下一个像素。否则，它具有将其特征传播到下一个像素的强传播。4. 实验4.1. 实现细节我们的网络是基于公共平台Pytorch实现的。我们使用ResNet-101 [31]和扩张网络策略[13]（子采样8）作为我们的骨干。详细地，最后两个块中的下采样的卷积步长被重置为1，并且最后两个块的卷积分别以2和4的扩张率扩张。弃去池5和之后的层。网络使用mini-batch进行训练，PASCAL-Context的batchsize设置为12，Cityscapes和CamVid的batchsize设置为8。遵循deeplab-v2 [13]，我们使用基本学习速率Lr b和迭代：Lr c= Lr b×（1 −iter）0。9 .第九条。动量和重量衰减固定为0.9和0.0001。我们采用随机水平翻转和0.5到2之间的随机大小调整来增加训练数据。大多数场景分割数据集不提供边界布局，我们使用所提供的分割基础事实来生成边界感知的基础事实，如图4（c）所示由于我们采用扩张的FCN作为我们的骨干，在编码过程中，空间大小被下采样8倍因此，为了避免具有最小空间尺寸的特征图中的边界信息的丢失，距离小于9像素的像素在一些实施例中，将数据集（例如，18个像素的三重图）到边界的所有像素定义为边界像素，并且将它们的地面真值标签设置为N+1，其中N是数据集中的类的数量在我们的实验中，过宽的边界（例如，50的三重映射表1. FCN（基线），DAG和UAG在具有不同分辨率输入的扩张ResNet-101像素）挤压小对象并且削弱边界在特征传播中的作用。我们用平均交集对并集（mIoU）来评估我们的网络。mIoU的数学定义请参见[54]。4.2. 效率分析为了评估所提出的UAG的速度，我们在表1中报告了UAG的推理时间，并基于扩张的FCN（以8次采样）在不同分辨率的输入图像上将其还记录了循环次数与必须逐像素扫描图像的DAG不同，所提出的UAG并行处理每行/列的像素，因此它们节省了大量的循环。如表1所示，UAG包含比DAG少得多的循环，因此它们比DAG快得多。DAG。尤其是具有高分辨率（例如，960×720），DAG非常缓慢且耗时。速度DAG的分辨率与确定循环数量的输入分辨率高度相关，因此DAG不适合高分辨率数据集（例如，城市景观[15]）和扩展网络策略的FCN [13]。除了推理时间外，基于扩展FCN的DAG的训练需要比我们提出的UAGs多100倍的GPU小时，这也表明了我们的方法的高效率。为了定量比较DAG和提出的UAG的分割性能，我们使用编码器-解码器策略在VGG- 16 [67]上对其进行评估，与[66]中的方式完全相同。DAG和UAG在PASCAL-Context上实现了几乎相同的结果（UAG为43.0%，而UAG为43.0%）。DAG 42.6%）。这表明所提出的UAG实现了与DAG相同的功能，但速度快得多。4.3. 消融研究我们在表2中示出了所提出的方法所提出的UAGs收获局部特征并将其传播到整个图像中以实现整体上下文聚合，这大大提高了基线（扩张的FCN）的分割性能。然后，基于UAGs，我们学习边界信息，并将其注入到传播过程中，以控制不同区域之间的信息流。利用边界信息，UAG在同一段方法输入分辨率循环次数时间（s）FCN480 ×360没有一0.35DAGs480 ×3601080017.92UAGs480 ×3603000.47FCN960 ×720没有一0.42DAGs960 ×7204320056.97UAGs960 ×7206000.766825图像边界置信度Ground Truth5452504846444240385 10 15 20 25 30 35 40 45 50三重图宽度[像素]图7.边界周围的带内分割性能（三重图）。方法骨干UAGs边界MS mIoUFCNResNet-5041.2BFPResNet-50✓49.8BFPResNet-101✓50.8BFPResNet-101✓ ✓52.8BFPResNet-101✓ ✓ ✓53.6表2.基于PASCAL-Context的边界感知特征传播网络消融基线是扩张的FCN，MS表示多尺度测试。图6.推断边界图的定性示例。以及不同部分之间的较弱连接。因此，相同片段的特征变得更相似，但不同片段的特征保持区分性。我们还在图6中可视化推断的边界置信度图的一些示例。如图6所示，推断边界图主要涉及数据集中预定义的语义段之间的边界，因此，它包含所需的边界布局的语义对象，并可用于控制整个图像的特征传播。表2中的结果示出了边界感知特征传播（BFP）网络的有效性。在[37，11]之后，我们评估了边界附近BFP的性能，如图7所示我们计算不同边界带内区域的mIoUDT-EdgeNet [11]与BFP最相关。然而，BFP将边界学习为语义类之一，是端到端训练的，而 DT-EdgeNet 通过额外的 EdgeNet 学习边缘，并且需要DeepLab和EdgeNet的两步训练如图6所示，我们学习的边界对对象内部边缘的响应比DT-EdgeNet少。BFP被提出来执行特征传播，这是某种上下文特征建模，而DT被用来细化分割分数。我们使用DT来过滤BFP的分割分数，这带来了0.7%的性能增益，这表明DT和BFP是互补的。4.4. 与最先进作品的比较PASCAL-Context[55]为整个场景图像提供逐像素分段注释。在PASCAL中有4998个训练图像和5105个测试图像表3.在PASCAL-Context上测试准确性方法Miou[56]第五十六话48.9SegNet [3]50.2[54]第五十四话52.0DeepLab [12]54.7DilatedNet [79]65.3[44]第四十四话66.1G-FRNet [34]68.0密集解码器[7]70.9BFP（我们的）74.1表4.在CamVid上测试精度上下文在[55]之后，我们使用最常见的59个类进行评估。PASCAL-Context的测试精度如表3所示，这表明所提出的BFP大大优于最先进的作品。CamVid[8]是一个道路场景图像分割数据集，为11个语义类别提供密集的像素级注释有367张训练图像，101张验证图像和233张测试图像。测试结果无边界有边界方法MiouO2P [10]FCN-8s [62]免费WiFi [16]HO-CRF [2]PixelNet [4]DAG-RNN [66][65]第六十五话DeepLab-v2+CRF [13][第50话]摩根士丹利资本国际[49]CCL+GMA [18]EncNet [82]BFP（我们的）18.139.140.541.341.443.745.045.747.350.351.651.753.6mIoU [%]6826[62]第六十二话97.4 78.4 89.2 34.9 44.2 47.4 60.1 65.0 91.4 69.3 93.9 77.1 51.4 92.6 35.3 48.6 46.5 51.6 66.865.3DPN [53]97.5 78.5 89.5 40.4 45.9 51.1 56.8 65.3 91.5 69.4 94.5 77.5 54.2 92.5 44.5 53.4 49.9 52.1 64.866.8LRR [23]97.7 79.9 90.7 44.4 48.6 58.6 68.2 72.0 92.5 69.3 94.7 81.6 60.0 94.0 43.6 56.8 47.2 54.8 69.769.7[13]第十三话97.9 81.3 90.3 48.8 47.4 49.6 57.9 67.3 91.9 69.4 94.2 79.8 59.8 93.7 56.5 67.5 57.5 57.7 68.870.4[第50话]98.2 83.3 91.3 47.8 50.4 56.1 66.9 71.3 92.3 70.3 94.8 80.9 63.3 94.5 64.6 76.1 64.3 62.2 70.073.6深度集[39]-------------------78.2ResNet-38 [73]98.5 85.7 93.1 55.5 59.1 67.1 74.8 78.7 93.7 72.6 95.5 86.6 69.2 95.7 64.5 78.8 74.1 69.0 76.778.4PSPNet [86]98.6 86.2 92.9 50.8 58.8 64.0 75.6 79.0 93.4 72.3 95.4 86.5 71.3 95.9 68.2 79.5 73.8 69.5 77.278.4AAF [36]98.5 85.6 93.0 53.8 59.0 65.9 75.0 78.4 93.7 72.4 95.686.4 70.5 95.9 73.9 82.7 76.9 68.7 76.479.1DFN [78]-------------------79.3PSANet [87]-------------------80.1DenseASPP [76]98.7 87.193.4 60.762.7 65.6 74.6 78.5 93.6 72.5 95.4 86.2 71.9 96.0 78.090.380.7 69.776.880.6BFP（我们的）98.787.0 93.559.8 63.468.976.880.993.772.895.5 87.072.196.077.6 89.0 86.969.2 77.681.4表5. Cityscapes测试集上的类别性能比较。请注意，DenseAspp [76]使用比我们采用的Resnet-101 [31]更强的主干DenseNet-161[32]作为主干。见表4。它再次表明，拟议的BFP优于以前的国家的最先进的大幅度。Cityscapes[15]是一个最近的街道场景数据集，包含5000个具有像素级精细注释的高分辨率（1024×2048）图像。有2975人参加培训，年龄，500验证图像和1525测试图像。19类（例如，道路、自行车和汽车）在组织者提供的测试服务器上进行评估。分类结果见表5。我们的BFP只在精细注释上训练，而[14]也使用粗糙注释进行训练。Cityscapes上的一些分割示例如图8所示。5. 结论在这项工作中，我们解决了具有挑战性的问题，场景分割。为了提高同一段的特征相似性，同时保持不同段的特征区分度，我们探索在推断边界的控制下在整个图像中传播特征。对此，我们首先提出学习边界作为一个附加的语义类，网络要知道边界布局。然后，为了结构化图像以定义特征传播的顺序规则，我们提出了一些单向无环图（UAGs）来以比DAG更有效的方式建模无向循环图（UCGs）的功能。基于所提出的UAGs，整体上下文聚合通过收获和传播的局部特征，整个图像有效。最后，我们提出了一个边界感知特征传播（BFP）网络来检测和利用边界信息来控制UAG结构图像的特征传播。所提出的BFP能够提高属于同一分割区域的局部特征的相似性，同时保持属于同一分割区域的特征的区分能力。图片我们的地面实况图8.Cityscapes上的定性分割示例不同的片段。我们在三个变化的语义分割数据集PASCAL-Context、CamVid和Cityscapes上评估了所提出的边界感知特征传播网络，这表明所提出的BFP一致地实现了新的最先进的分割性能确认本研究由新加坡教育部Aca-Demic Research Fund AcRF Tier 3 Grant No：MOE 2017-T3-1-001，以及由南洋理工大学和北卡罗来纳大学教堂山分校合作的BeingTogether中心。BeingTogether中心由新加坡总理办公室国家研究基金会在其新加坡国际研究中心资助计划下支持。方法Miou路人行道建筑壁围栏极红绿灯交通标志植被地形天空人骑手车卡车总线火车摩托车自行车6827引用[1] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（5）：898[2] Anurag Arnab 、 Sadeep Jayasumana 、 Shuai Zheng 和Philip HS Torr。深度神经网络中的高阶条件随机场。欧洲计算机视觉会议。施普林格，2016年。[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEETransactionsonPatternAnalysisMachineIntelligence，2017。[4] Aayush Bansal，Xinlei Chen，Bryan Russell，AbhinavGupta，and Deva Ramanan.Pixelnet：Towards a GeneralPixel-Level Architecture.arXiv：1609.06694，2016年。[5] Gedas Bertasius ， Jianbo Shi ， and Lorenzo Torresani.Deepedge：一个多尺度分叉深度网络，用于自上而下的轮廓检测。在The IEEE Conference on Computer Visionand Pattern Recognition，第4380-4389页，2015中。[6] Gedas Bertasius，Jianbo Shi，and Lorenzo Torresani.高对低和低对高：从深层物体特征进行有效的边界检测在IEEE计算机视觉国际会议论文集，第504-512页[7] 彼得·比林斯基和维克多·普拉萨卡留。用于单遍语义分割的密集解码器快捷连接。在IEEE计算机视觉和模式识别会议，2018年。[8] Gabriel J Brostow，Jamie Shotton，Julien Fauqueur，andRoberto Cipolla.利用运动点云的结构进行分割和识别。2008年欧洲计算机视觉会议[9] 作者：Thomas M. Breuel，Federico Raue，and MarcusLiwicki.基于lstm递归神经网络的场景标注。IEEE计算机视觉与模式识别会议（CVPR），2015年6月。[10] 若昂·卡雷拉，鲁伊·卡塞罗，豪尔赫·巴蒂斯塔，克里斯蒂安·斯敏-奇塞斯库。使用二阶池的语义分割计算机[11] 陈良杰，乔纳森T巴伦，乔治帕潘德里欧，凯文墨菲，和艾伦L尤伊尔。语义图像分割与特定任务的边缘检测使用cnn和区分训练域变换。在IEEE计算机视觉和模式识别会议上，第4545-4554页[12] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015年，国际会议[13] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义arXiv：1606.00915，2016。[14] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flori-an Schroff，and Hartwig Adam. 编码器-解码器-用于语义图像分割的槽可分离卷积。 arXiv ：1802.02611，2018。[15] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Tim-oBuckfeld ， MarkusEnzweiler ， RodrigoBenenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议上，2016年。[16] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在IEEE国际计算机视觉会议论文集，2015年。[17] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.语义相关性促进了形状变化上下文的分割.在IEEE计算机视觉和模式识别会议（CVPR）论文集，第8885-8894页[18] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第2393-2402页[19] 皮奥特·多尔和C·L·劳伦斯·齐特尼克。用于快速边缘检测的结构化森林在IEEE计算机视觉国际会议论文集，第1841-1848页[20] 皮奥特·多尔和C·L·劳伦斯·齐特尼克。使用结构森林进行快速边缘检测IEEE transactions on pattern analysis andmachine intelligence，37（8）：1558[21] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议上，第3146-3154页[22] 傅军，刘静，王宇航，李勇，鲍勇军，唐金辉，卢汉青.用于场景解析的自适应上下文网络。在IEEE计算机视觉国际会议论文集，2019年。[23] 戈尔纳兹·吉亚西和查利斯·C·福克斯。用于语义分割的拉普拉斯金字塔重构与精化。欧洲计算机视觉会议。施普林格，2016年。[24] 史蒂芬·古尔德理查德·富尔顿和达芙妮·科勒。将场景分解为几何和语义一致的区域。在国际计算机视觉会议上，第1-8页。IEEE，2009年。[25] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，and Gang Wang.基于语言旋转的不成对图像字幕。在ECCV，2018。[26] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，Handong Zhao，Xu Yang，and Gang Wang.通过场景图对齐的不成对图像字幕在ICCV，2019年。[27] 顾久香，赵汉东，林哲，李胜，蔡剑飞基于外部知识的场景图生成与图像重建。在CVPR，2019年。[28] Zeeshan Hayder，Xuming He，and Mathieu Salzmann.边界感知实例分割。在IEEE计算机视觉和模式识别会议上，第5696-5704页6828[29] 何军军，邓仲英，乔宇。用于语义分割的动态多尺度过滤器在

下载后可阅读完整内容，剩余1页未读，立即下载