上下文增强的语义分割的重要性及其在CiSS-Net上的实现

37 浏览量更新于2023-10-18 收藏 1.6MB PDF 举报

语义分割

深度卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4046上下文增强的语义分割周义洲1孙晓燕2查正军1曾文军21中国科学技术大学网址：zyz0205@mail.ustc.edu.cn，zhazj@ustc.edu.cn2微软亚洲研究院{xysun，wezeng}@microsoft.com摘要最近的努力表明了上下文对基于深度卷积神经网络的语义分割的重要性。其中，预测的分割图（p图）本身编码丰富的高级语义线索（例如，对象和布局）可以被认为是有希望的上下文源。在本文中，我们提出了一个专门的模块，上下文网，以更好地探索p-maps中的上下文信息。在不引入任何新监督的情况下，我们将上下文学习问题表示为马尔可夫决策过程，并使用强化学习对其进行优化，在此过程中，p-映射和上下文网络分别被视为环境和代理。通过充分的探索，上下文网络选择了对分词推理有长期益处的信息。通过将上下文网络与基线分割方案相结合，我们提出了一个上下文约束的语义分割网络（CiSS-Net），它是完全端到端可训练的。实验结果表明，与基线分割方法相比，学习后的上下文在mIoU上的绝对性能提高了3.9% ， CiSS-Net 在 ADE 20 K 、 PASCAL-Context 和Cityscapes上达到了最先进的分割性能1. 介绍图像语义分割是计算机视觉中一项基础性的、具有它通过为每个像素分配语义标签来解释图像。这些语义标签提供了从场景布局到图像中每个单独对象的类别、位置和形状的高级语义信息，这使得语义图像分割对于许多智能系统（例如自动驾驶和图像编辑）是必不可少的。上下文对于语义分割是必不可少的[11]。关于其周围环境对局部区域/像素进行分类对于减少局部模糊非常有帮助。然而，全卷积网络（FCN），这项工作是在Yizhou Zhou在微软亚洲研究院实习时完成的†通讯作者。图1.可视化分割结果（也称为预测分割图（p-map））和CiSS-Net中的上下文图(a)上下文映射分三步。这里，白色区域表示从有效上下文信息中排除的不确定区域这里显示的上下文映射逐渐升级。(b)p-map三步由于上下文强化学习，预测逐渐改善。可以观察到，很容易欺骗基线算法的水中树木的反射被我们基于学习的上下文的CiSS-Net很好其是当前成功的语义分割方法的最流行的基线为了包含更多信息，在FCN中采用了扩张/无环卷积来扩大卷积的感受野此外，多尺度/多级特征被组装以利用来自不同尺度/层的信息来提高分割性能[21，30，16，7，13]。最近的努力更多地集中在将全局上下文特征集成到FCN中。采用全局平均池化的方法，从FCN的最后几层中提取一个全局上下文特征，然后与局部特征融合，河水植物地球树地板领域岩石围栏彩色地图输入地面实况基线步骤3步骤2步骤1（a）背景图(b)P映射4047全球分割提示[23]。基于atrous卷积，提出了atrous空间金字塔池化网络[5]，通过以不同速率涉及多个并行atrous滤波器来捕获多尺度特征。除了扩展的FCN之外，[37]中的PSPNet还将像素级特征扩展到全局金字塔池特征，该全局金字塔池特征融合了四个不同金字塔尺度下的特征。除了多尺度和多级特征之外，Ding等人还引入了上下文对比局部特征，以突出每个局部和全局特征之间的差异，并提高不显眼对象的性能[11]。在[35]中，提出了一个上下文编码模块来捕获场景上下文与特征图中类别概率之间的无顺序相关性Lin等人。 [22]通过可训练的成对势函数和多尺度滑动池来明确地对斑块-斑块和斑块-背景背景上下文建模。Huang等人。 [15]基于场景相似性将额外的网络引入语义分割中，以对全局场景信息进行编码，然后是图像检索模块，该模块捕获输入图像的非参数先验信息。除了在特征学习中使用的上述全局/局部上下文特征之外，我们注意到，由每种语义分割方法生成的预测分割图（p图，其指的是中间分割图以及最终结果）已经在本地（例如，对象）和全局（例如，布局），并且可以是上下文的另一个很好的候选。此外，与深度网络中的特征映射相比，p映射的维度通常要低得多，这可以促进上下文的探索。因此，将这些信息纳入特征学习是有益的。然而，如图1（b）所示，p-映射通常包含大量噪声，例如错误分类的区域和混沌对象，这使得使用p-映射作为语义分割的上下文非常具有挑战性。事实上，p-map在以前的作品中已经被用于通过在p-map之上以后处理方式利用条件随机场（CRF）[19]来进行自我改进[4，5，32，3]，连接可训练网络以促进端到端培训[38，24，31]，或纳入经常性架构，以实现粗到细的细化[36，28，17]。与这些算法不同的是，我们试图充分利用p-映射来生成场景上下文的另一个来源，该来源可以有效地与传统特征相结合，以递归方式进一步提高分割性能。更具体地说，我们提出了一个上下文增强的语义分割网络（CiSS-Net），以探索p-映射中的高级语义上下文信息，以进一步增强现代语义分割方法。我们的CiSS-Net由两个子网络组成，上下文网（C- Net）是一个专门的网络，用于学习有效的语义，从p-maps的tic上下文，和Segment Net（S-Net），它将学习到的上下文嵌入到基于FCN的分割的推理中。由于很难判断哪些信息应该从p-maps中选择作为学习的上下文，因此我们选择不引入任何新的上下文监督。相反，我们将上下文学习问题表述为马尔可夫决策过程（MDP），并提出通过C-Net和S-Net之间的交互来学习上下文。自然地，优化问题可以通过深度强化学习（RL）来解决，将p-映射视为环境，将C-Net视为代理。如图1所示，由于在上下文增强学习期间对长期利益的探索，基于逐渐升级的上下文地图，p-map逐步改进，并且基于学习的上下文，我们的CiSS-Net很好地分割了邻近水域总之，我们的主要贡献有三方面：• 我们建议通过一个专用的网络从p-映射中探索高级语义上下文，该网络将嵌入到基于FCN的语义的推理抽动分段• 在没有任何新的监督的情况下，我们将上下文学习问题表述为MDP，并提出使用强化学习来学习上下文，以便它具有通过与分割网络的相互作用，对分割推理的长期益处。• 我们提出了一个完全端到端的上下文增强的语义分割网络，有效地促进，评价了上述学习过程，并在三个流行的分割数据集上实现了最先进的性能。2. 上下文增强的语义分割我们提出了一个新的框架，CiSS-Net，它递归地从p映射中提取上下文，然后嵌入它以提高分割性能。为了便于理解，本文首先给出了CiSS-Net的总体框架，然后分别对其中的两个主要模块Context Net和Segment Net进行了详细的描述。2.1. 框架我们的CiSS-Net的整体框架如图2所示。CiSS-Net由两个模块组成：Segment Net（S-Net）和Context Net（C-Net）。S-Net被设计为通过探索S-Net的输入和输出来推断输入图像的p-映射，给定C-Net生成S-Net和C-Net交互式地用于分割和上下文学习。更具体地说，S-Net基于输入图像特征以及生成的上下文预测分割图;然后向C-Net提供p-map以及4048编码段地图政策咨询C产品介绍我SS我×ooSss sI基本净流量产品介绍P-map地图一编码续地图偏置网络产品介绍（）SegmentP-map净Encoder编码器续地Encoder编码器（政策QS上下文净产品介绍P−map��S：采样A：添加：串联图2.概述我们提出的上下文增强语义分割网络。我们的CiSS-Net有两个子网，SegmentNET和Context Net。这两个子网络相互受益，并迭代工作Segment Net将编码的上下文映射作为附加信息来生成分割预测，而该预测随后被用作上下文Net的条件以产生新的上下文映射，从而进一步改进分割预测。输入图像特征以生成新的上下文。通过正确定义状态、动作和转换矩阵，可以通过强化学习来明确地学习上下文，从而在没有任何额外监督的情况下提高分割性能在详细说明每个模块之前，我们首先提供一个简短的列表，其中列出了以下描述中使用的符号。给定输入图像I，我们有′ ′• 上下文映射KI∈ {0，1，2，...，Nc}HW，其中Nc，H′和W′是类的数量、高度和宽度为了在推理过程中有效地利用上下文映射，我们对S-Net进行了一些特殊的设计。由于前几个卷积层会提取大量的底层特征，如纹理、边界等，因此将高层语义上下文与底层特征进行融合既不合理也不有效因此，我们采用预训练的卷积神经网络（CNN）来提取中级域特征XI，而不是使用R A W图像。如图3（a）所示的金字塔池模块Fe（·）[37]也用于编码上下文映射到多个空间层次，这揭示了更多的全球性K，分别。• 域特征XI E ∈RH′×W′×C ，其中C是每个空间位置的信息然后，将编码的上下文映射K（e）=F（K）与X级联并馈送给特征图的通道大小。• P-mapYI∈RH×W，其中Ho和Wo表示分割预测的空间分辨率。• 金字塔池化模块（图中的编码器）Fe：伊伊伊进入S网我们的S-网Fs（XI，K（e））由两个子网络组成，基本网Fba和偏置网Fbi。它可以表示为RH′×W′ →RH′×W′×Ce ，其中Ce是通道大小. Fba（XI），如果KI为None（一）的输出。• 编码的k-映射和p-映射K（e），Y（e）∈Fba（XI）+Fbi（XIK（e）），否则RH′×W′×Ce.I I，其中，K表示级联操作，并且KI为无是指没有提供上下文映射因此，我们认为，• 基网Fba：RH′×W′×C→RHo×W o×Nc与偏置索奥奥净Fbi：ReH×W ×（C+Ce）→RH×W× Nc.p-映射YI被导出为YI=argmax（Fs（XI，KI））。作为如图2和Eq. (1)，Base Net仅处理XI• 上下文净Fk：RH′×W′×（C+Ce）→RHo×Wo×2.来推断基本的分割图，而偏置网络被馈送到• 政策QI∈RH o× W o×2。使用嵌入式特性XIK（e）为每个类学习反映每个类偏差的一致2.2. 分部净如图2所示，S-Net有两个输入，输入图像的上下文映射KI和域特征XII.上下文映射是由C-Net从p-映射导出的二维语义映射，这将在2.3小节中详细介绍。如图1（b）所示，上下文映射对某些语义信息进行编码，例如：场景的布局和对象的类别，但有一个额外的类“不确定性”。在推理过程中，分配有“不确定”的区域基于上下文映射K1。然后将掩码添加到基本分割图（Softmax激活前的张量），以进一步校正预测。受剩余学习思想的启发[14]，这种设计有助于降低学习复杂度并强调上下文的作用。2.3. 上下文网络C-Net的结构如图1左侧所示。2.我们的C-Net也有两个输入，域特征XI和由S-Net生成的p-mapYI学习4049Conv_3x3_1512GN ReLUIN我我我我（st∈S，at∈A），ρ0：S→R是初始状态的概率分布，γ∈[0，1]是折扣因子H′×W′r：S×A →R是奖励函数。让πFk表示输出的概率分布，C-Net和η（Fk）表示C-NetFk下的期望折扣报酬，我们有η（Fk）=Es 0，a0，.ΣΣ∞t=0Σγtrt得双曲余切值.（三）图3.（a）金字塔池化模块的架构（网格矩形块是具有不同池化大小和跨距的空间池化层）和（b）C-Net的架构的图示。s0<$ρ0，at <$πFk（at|st），st+1 P（st+1|st）。C-Net的行为可以通过最大化期望的未来折扣回报η（Fk）来与回报函数r对齐。为了使上下文能够以增量方式在YI之上的上下文KI使得KI以YI为条件，并且改进分割，我们计算rt（i，j），即，再-在时间步长t处，将空间位置（i，j）通过将预测Y1视为将被更新基于上下文K1的内容，上下文学习-1Σt′t+1′ ′′C-Net中的搜索过程可以被重新表示为一个马尔可夫过程，N−1ChCwi′，j′M（YI（i，j），YI（i，j），LI（i，j））（四）K精确链Y0=πK1Y1=0···K=Y. 这个-t t我我我+β1<$LI（i，j）（KI（i，j））+ β2<$0（KI（i，j））。表明可以通过学习KI来逐步提高通过强化学习进行分割。我们的C-Net是用五层CNN实例化的，如图所示。3（b）款。 C-Net的输入是以下内容的串联：奖励函数有三项。第一项M（）是一个测量函数，用于计算给定位置从Y t到Y t+1的改善程度，其中我我两个信号XIY（e）。C-Net的输出Fki′∈[i−Ch/2，i+Ch/2]，j′∈[j−Cw/2，j+Cw/2]，且是策略映射QI=Fk（XIY（e）），其中Q（i，j，k）的值指示在位置（i，j）处采取动作k的概率。我们定义k∈{0，1}，其中k=1表示采用预测YI（i，j）作为上下文的行为，而k = 0则忽略预测。然后，在每个位置处对二进制决策BI（i，j）<$QI（ i ， j ）进行采样，以生成上下文映射 KI=（YI+1）<$BI，其中◦ 表示逐元素矩阵乘法。结论因此，KI中的每个值表示相应的索引的类（从一个索引），除了表示类“不确定”的数字两个EQ。1和KI=（YI+1）BI，我们可以观察到预测的seg之间的相互依赖性片段映射Y1和上下文映射K1。可以沿着时域解耦依赖性，如Yt+1=Fs（XI，Kt）Ch/Cw表示图中考虑的区域的高度/宽度。计算位置（i，j）处的动作的奖励这用于鼓励生成的上下文映射以提高分割性能。更具体地，给定LI（i′，j′），即，位置i′，j′，M（）处的地面实况首先分别计算时间t和t+1处的预测的正确性。有四种不同的情况，即Y t（i′，j′）是t+1′ ′I正确/不正确→是I（i，j）是正确的/不正确的。我们-对“不正确→正确”的情况签署奖励1由于位置（i，j）处的Kt值实际上对Yt+1的Ch×Cw矩形区域起作用（取决于C-Net的接收场），因此由M（）计算的得分在目标区域中被平均。我们只是忽略了关联-超出图像边界的区域第二项和第三项分别为：<$L（i，j）（Kt（i，j））和<$0（Kt（i，j））我我Kt=（Yt+1）Bt（二）是指示函数，其分配较小的正奖励我我t tβ1和β2用于正确的上下文（语义信息其中BFk（XI这是符合地面的真相）和其中t是迭代索引。解耦的依赖关系表明，YI和KI可以被看作是一个状态-动作对。因此，一个无限时域折扣马尔可夫决策过程（MDP）可以自然地用元组（S，A，P，r，ρ0，γ）来定义，其中S是定义的有限状态集当S={YI}时，A是有限的动作集，定义为A={BI}，P：S × A × S → R是转移概率分布，定义为P（st+1=Fs（XI，（st+1））→t）|st）=1因为有效语境总是被认为是正确的信息。2.4. 上下文增强分割我们采用异步优势行动者-批评者-出租m [26]来优化前一节中提出的MDP，并且以下标准定义用于价值函数VFk、状态-行动价值函数QFkConv_3x3_1512GN ReLUConv_3x3_1Conv_3x3_1Conv_3x3_1Conv_3x3_1256 256 256 256GN ReLU GN ReLU GN ReLU GN ReLU GN ReLUInterp Interp Interp InterpConv_3x3_1512GN ReLU辍学Concat政策状态值（一）（b）第（1）款Conv_3x3_1512GNReLUConv_3x3_1512GNReLUConv_1x1_1输出Conv_1x1_1一热编码输入我我4050招牌路径草车人行道建筑路树领域芳斯灯书柜希亚尔书桌窗玻璃天花板绘画光锅植物人门地板壁vKKK图像步骤0（无上下文）步骤2（有上下文）图像步骤0（无上下文）步骤2（有上下文）路灯颜色贴图图4.可视化的CiSS-Net分割结果对于每个输入图像，我们展示了迭代时生成的两个分割结果步骤0（基线）和步骤2（学习上下文）。这里示出的分割结果是输入图像中由绿色框表示的放大部分。分割结果中的白色区域表示错误分类的区域。我们可以观察到，在初始阶段被错误分类的对象/东西（例如第一行中的盆、植物、灯和桌子，第二行中的围栏和灯，以及第三行中的汽车、人行道、路灯）可以通过涉及学习的上下文在阶段2中更准确地分割优势函数AFKΣ ΣΣ∞C网。通过这样做，S-Net有望在训练VFk（s t）=Eat，st+1...γlrt+ll=0 Σ ΣΣ∞从而防止局部最优。最后的损失方案的公式为：QFk（s t，at）=E s电话+1，at+1...l=0γlrt+l（五）损失=损失p+损失v+λ1损失s+λ2损失e，（7）AFk（s，a）=Q Fk（s，a）−V Fk（s），其中其中损失P= log [πFk（at|st; θk）]A（at，st）和损失v=（R−Fv（st;θv））2是政策损失和价值损失，at <$πFk（at|st），st+1 P（st +1 |st）。其中，价值函数VFk 由CNNFv（st）估计K更新规则定义在Eq.（六）、损失s 是段预测的交叉熵损失和损失e=K它与C-NetFk共享相同的权重，除了最后一层，如图3（b）所示，优势函数πFklostecgπFk 是Fk的熵正规化项，以鼓励充分的探索。A（s，a）由下式估计：Fkt tl=0t+LFk t+K3. 实验VFk（st）. C-NetFk的参数和值函数Fv更新为θ k= θ k+<$θlog [π Fk（a t|s t; θ k）]A（a t，st）∂ （R−Fv（st;θv））2θv=θ v+，其中3.1. 数据集和实验设置ADE20K[39]提供了超过20K的以场景为中心的图像，这些图像完全使用对象和对象部件进行注释。它是-TΣ−1R=l=0θvγlrt+l+γkVF（st+k）.（六）分为三个子集，分别为20，210，2，000和3，000图像分别用于训练、验证和测试。它有多达150个类，1,038个不同的图像级标签，包括对象和内容。关于ADE20K请注意，方程式(5)和等式(6)一起仅强制上下文有益于固定的S-NetFs（即，固定等式1中的转移概率分布）。(3)和等式(5))仅通过最大化η（Fk），并且可能仅导致p-映射的数值改进，而不是选择真正有效的上下文为了解决这个问题，我们同时更新了两个网络，并鼓励更多的探索4051基于逐像素准确度（ pixAcc ）和类交联平均值（mIoU）。Cityscapes[8]包含来自50个城市的5，000帧像素级注释和20，000张弱注释的街景图像。它包括19类物和物。数据分割遵循2，975500人用于验证，1 525人用于测试。我们4052步骤上下文城市景观（%）Ade20K（%）0没有77.5940.972是的79.2142.564是的79.2942.636是的79.2942.66表1.在迭代步骤0、2、4和6，Cityscapes测试集和Ade 20 K验证集上CiSS-Net的mIoU。γ城市景观Ade20KIoUcls iIoUcls mIoU pixAcc0.178.31%54.39%41.53%78.76%0.378.45%54.61%41.80%79.47%0.978.94%百分之五十四点九七42.42%80.51%表2.我们的CiSS-Net在Cityscapes和Ade 20 K验证集上的分割结果（单尺度），具有不同的γ。只使用完全注释的数据进行训练，以刺激-在我们的CiSS-Net中进行上下文学习。我们使用Cityscapes官方服务器来评估类/类别交叉联合（IoU类/类别）和实例级交叉联合（iIoU类/类别）的性能。Pascal Context[27]提供了4998个完全注释的图像用于训练，5105个图像用于测试，这些图像是从PascalVOC重新注释的。我们在评估中使用最常用的性能评估的全局像素精度（GPA）和mIoU。3.2. 实现细节图3（b）显示了C-Net的架构。我们使用在三个数据集上预训练的PSPNet [37]的前四个块生成域特征XI（PSPNet-101用于Cityscapes，PSPNet-50用于Ade 20 K和Pascal Context）。在我们的S-Net中，基本网络有两个卷积层，其通道，步幅和内核大小分别为512，1和3;除了最后的卷积层被修改以适合输入/输出维度之外，偏置网络使用与 C-Net 相同的架构。 GroupNormalization [33]用作归一化层。每组中的通道大小为16。CiSS-Net使用Tensorflow和16个Nvidia M40 GPU实现。每个gpu上的批量大小为2. Dropout比率为0.1，采用随机镜像以及0.5至2.0之间的随机镜像。在ADE 20K上，我们随机裁剪图像中的473×473区域，并采用随机梯度下降（SGD）来训练网络，基本网络的初始学习率为2×10−3，偏差网络和C网络的初始学习率为2×10−4Net.我们在CityScapes上随机裁剪一个713×713的区域，在Cityscapes和Pascal Context上，我们使用SGD训练网络，BaseNet的初始学习率为5 × 10−4，Bias Net和C-Net的初始学习率为5 × 10 − 5。表3. Cityscapes和Ade20K验证集上λ 2值不同的分割结果（单尺度）。3.3. 超参数我们分析了两个重要的超参数，γ在方程。（3）和等式中的λ2。(7)，在我们的CiSS-Net中。在CiSS-Net的上下文强化学习中，参数γ奖励长期收益，而λ2影响探索程度。在以下所有测试中，方程中的参数β1和β2（4）分别设为0.4和0.2; λ1= 1。0在Eq. (7).表2显示了不同γ值的结果。随着γ的增加，结果一致地改善。它表明，在上下文学习的长期利益在我们的CiSS-Net中起着重要的作用。因此，我们设置γ=0的情况。9、促进长远利益。表3给出了λ2的灵敏度分析。它表明，当λ2从0.001运行到0.05时，我们的CiSS-Net的性能有所改善，而当λ2>0时，训练并不收敛。十五岁这表明，适量的探索对于有效语境的学习至关重要在我们的CiSS-Net中，我们设置λ2=0。05在融合和探索之间做出权衡。3.4. 消融研究在消融研究中，我们首先研究了基于RL的可学习模块用于上下文生成的必要性，然后讨论了RL中的迭代次数对CiSS-Net性能的影响。RL策略。还有其他方法可以利用在我们的CiSS-Net的框架下，p-maps的上下文信息。如表4所列，“基线”表示没有学习到的上下文的方法，即，没有上下文map被馈送到我们的CiSS-Net中的S-Net;'Baseline+p-map'显示了当p-map作为上下文直接用作S-Net的输入时的性能，这甚至低于'Baseline';“基线+门控（p-map）*”近似使用门函数生成上下文的性能，其中通过在RL中将非常小的数字0.001分配给λ 2来进行近似，以极大地抑制探索。在所有的方法中，我们的CiSS-Net与基于RL的上下文学习实现了最好的性能。此外，与基于RNN的尝试不同，RNN将完整的p-映射作为输入[24，17，38，36]，我们试图探索p-映射以生成另一个可以与传统特征有效结合的场景上下文来源。表5进一步说明了我们的好处-λ2城市景观Ade20KIoUclsiIoU clsmIoU 像素访问0.00177.23% 53.62%41.31%78.68%0.00578.59% 54.47%41.90%79.52%0.0178.44% 54.38%42.19%80.07%0.0278.94% 百分之五十四点九七42.42%80.51%4053我方法城市景观（%）Ade20K（%）基线76.3640.97基线+p图75.1939.44基线+门控（p-map）77.2341.31CiSS-Net79.1042.56表4.在Cityscapes和Ade 20 K的验证集上对CiSS-Net中的RL策略进行评估。四个替代approaches进行了测试，即。基线方法、直接用p-map馈送的基线方法、用门控p-map和CiSS-Net的基线方法这表明我们使用RL方法，λ2= 0。001作为门函数的近似。表5. CiSS-Net和其他基于RNN的方法的mIoU性能。w/o RL是我们使用完全p映射的方法。/†注意基于ResNet 101/50取得的结果我们设计的上下文学习，以促进p-maps作为上下文。它表明，我们提出的基于RL的上下文学习可以有效地利用p-maps中的上下文信息，以提高我们的CiSS-Net的性能。迭代步骤。表1示出了我们的CiSS-Net关于如等式中所表示的迭代索引t的性能。（二）、注意，当t=0时，上下文映射K0被设置为全零，并且在分段网中不涉及来自p-map的上下文信息。可以观察到，通过利用所学习的上下文，per-perception显著提高。与许多迭代优化过程类似，随着迭代的继续，改进变得微不足道。因此，我们在下面的测试中选择t=2来平衡推理的性能和时间复杂度。我们还将预测的分割图可视化，表6. ADE20K验证集上的分割结果。我们的CiSS-Net在具有相同主干ResNet-50的算法中实现了最佳性能。与具有更复杂的主干ResNet-101的算法相比，它还具有竞争力甚至更好的性能。在图4中分别为t=0和t=2。可以观察到，CiSS-Net能够校正错误分割的对象/区域，因为所学习的上下文涉及到分割推断中。例如，CiSS-Net在花盆，植物，表7. Pascal Context上的分割结果。我们的CiSS-Net实现了最先进的性能。†表示性能报告见[11]。灯和书桌在第一排;围栏，灯在第二排;而汽车，人行道，路灯在第三排，而不是只细化对象边界。3.5. 与最新技术我们通过与最先进的语义分割方法进行比较，进一步评估了CiSS-Net的性能在下文中，Ciss-Net的结果在t=2时给出，因此我们的CiSS-Net的推理时间与比较方法具有竞争力。ADE 20K表6显示了ADE 20K验证集的比较结果。ADE20K是一种可编程控制器，处理具有复杂场景和不同对象的数据集。结果表明，我们的CiSS-Net能够受益于学习的上下文并实现最高性能（42.56%/80.77% mIoU/pixACC）在具有相同主干的算法中，ResNet-50。此外，我们的CiSS-Net与ResNet-50也优于具有更复杂主干的算法ResNet-100。Cityscapes表8显示了Cityscapes测试集的比较结果。在这项测试中，只有Cityscapes中的5,000张经过精细注释的图像参与了CiSS-Net的训练，以进行公平的比较。在所有比较的算法中，我们的CiSS-Net表现最好。在表7中，我们在不利用广告数据的情况下评估了我们的CiSS-Net在Pascal上下文上的性能。该表表明，CiSS-Net优于具有相同主干的最先进方法，并且与具有更深主干的那些作品相当。方法骨干Miou像素访问SegNet [1]21.6471.00[25]第二十五话29.3971.32DilatedNet [34]32.3173.55[39]第三十九话27.5171.83[39]第三十九话34.9074.52RefineNet [21]Res10140.2-PSPNet [37]Res10141.96 80.64GRN+LRN（单型号）[36]Res10142.60-[20]第二十话Res10142.03 80.81全球背景[15]Res10138.37 77.76PSPNet [37]Res5041.6880.04EncNet [35]Res5041.1179.73CiSS-Net（我们的）Res5042.5680.77[24日][17个][38个][36个]不带RL我们市66.8-62.5七十六。2∗75. 2∗79岁。2∗方法骨干GPAMiouO2P [2]--18.1CFM [10]--34.4免费WiFi [9]VGG16-40.5Context-CRF [22]VGG1671.543.3[25]第二十五话FCN-8s67.539.1CRF-RNN [38]FCN-8s-39.3RefineNet [21]Res101-47.1[11]第十一话Res10178.451.6[11]第11话Res10176.648.3全球背景[15]Res10173.846.5PSPNet† [37]Res10176.047.8[11]第十一话Res50-48.1[11]第11话Res50-46.3CiSS-Net（我们的）Res5076.548.74054方法IoU类爱猫SegNet [1]57.079.1CRF-RNN [38]62.582.7[25]第二十五话65.385.7DPN [24]66.886.0DilatedNet [34]67.186.5LRR [12]69.788.2DeepLab [5]70.4 86.4Context-CRF [22]71.6 87.3RefineNet [21]73.6 87.9[29]第二十九话71.8 88.9GRN+LRN（单型号）[36]76.2-[20]第二十话76.6 89.6[18]第十八话78.2 89.7PSPNet [37]78.4 90.6CiSS-Net（我们的）79.290.7表8. Cityscapes上的分割结果。我们的CiSS-Net通过在训练中仅使用完全注释的图像来实现最佳性能。例如图5中的（b）和（d）中的街道的细节和末端。我们认为，这种上下文信息包含了场景的整体布局，具有丰富的语义线索，约束条件，甚至位置先验的当前图像。因此，这对场景中其他项目的预测非常有益它也呼应了等式中奖励函数的第一项(4)这鼓励了对改善分割预测的上下文的追求。第三，我们注意到，我们的基于RL的上下文学习自动提供了一个独特的信息，“不确定类”。该信息可以非常有助于识别语义分割中的“硬”示例或高模糊性区域，如图1中的白色区域所示。5.另一方面，我们也发现不确定区域包含大量的边界和小物体。这表明，学习的背景可能缺乏足够的支持，这些地区。Cityscapes上的iIoU性能对小对象赋予了更多权重，这也支持了我们的观察结果，其中我们的方法的类级别和类别级别iIoU因此，我们将更加专注于增强CiSS-Net在边界和小对象上的性能，例如：通过引入边界精化思想和挖掘“不确定类”中的硬样本，将其应用于上下文学习。（一）（b）第（1）款（c）第（1）款（d）其他事项4. 结论在本文中，我们建议使用的p-地图作为另一个来源的场景上下文，除了传统的上下文特征。长期受益的环境图5.在步骤2中生成的上下文映射的可视化。白色表示由C-Net可以观察到，上下文倾向于逐渐感知具有高可靠性的区域/对象，而忽略具有大的模糊性的区域/对象，例如，第二列和最后一列中的街道的细节和远端，作为上下文信息。3.6. 论习得语境首先，学习的上下文映射不是由p映射的高置信度像素组成的。学习的上下文映射中的信息被选择为对分割具有长期益处以图1为例，我们的C-Net在第一步中选择了概率较低（0.870）的左边沿水域，而概率较高（0.993）的包含树木反射的区域被忽略更多的例子可以在图中找到。5，例如，选择第4个图像中最右边的草（概率=0.929）而不是最左边的板（0.976）作为上下文。其次，我们观察到，大多数上下文信息-上下文地图提供的背景是背景物体和东西，如图（a）和（c）中的地板、墙壁和橱柜。5，代替具有大的模糊性的区域/对象，通过与分段网络的交互作用，分段推断经由专用模块上下文网络从p-映射中选择性地和自适应地通过将上述过程制定为MDP，我们通过强化学习优化上下文网络，而不引入任何额外的监督，我们进一步提出了一个完全端到端的上下文增强语义分割网络，以有效地促进这种学习过程。数值和可视化结果表明，所提出的上下文增强计划带来的好处。在未来，我们将努力提高我们的CiSS-Net的性能为小对象，并探索其他认知任务的上下文增强的概念的潜力。确认本工作得到了国家重点研发项目2017YFB1300201 、国家自然科学基金 61622211 和61620106009 以及中央高校基础研究基金WK2100100030的资助上下文映射图输入地面实况4055引用[1] V.巴德里纳拉亚南，A. Kendall，和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。IEEETransactionsonpatternanalysisandmachineintelligence，39（12）：2481[2] 卡雷拉河Caseiro，J. Batista，and C.斯明奇塞斯库使用二阶池的语义分割。在欧洲计算机视觉会议上，第430-443页。Springer，2012.[3] S.钱德拉和我Kokkinos基于深度高斯crfs的快速、精确、多尺度语义图像分割欧洲计算机视觉会议，第402-418页。施普林格，2016年。[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。arXiv预印本arXiv：1412.7062，2014。[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE transactionson pattern analysis and machine intelligence，40（4）：834[6] L- C. Chen，G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv预印本arXiv：1706.05587，2017.[7] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页[8] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议论文集，第3213-3223页[9] J. Dai，K. He和J. Sun. Boxsup：利用边界框来监督卷积网络进行语义分割。在 Proceedings of the IEEEInternational Conference on Computer Vision ，第 1635-1643页[10] J. Dai，K. He和J. Sun.用于联合对象和填充物分割的卷积特征掩蔽在IEEE计算机视觉和模式识别会议集，第3992-4000页[11] H.叮，X。江湾，澳-地Shuang、A. Q. Liu和G.王.上下文对比特征和门控多尺度聚合用于场景分割。在IEEE计算机视觉和模式识别会议论文集，第2393- 2402页[12] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯金字塔表示和细化欧洲计算机视觉会议，第519-534页施普林格，2016年。[13] B. 哈里哈兰山口阿尔贝拉兹河。Girshick和J. 马利克用于对象分割和细粒度局部化的Hy-在IEEE计算机视觉和模式识别，第447-456页[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE会议计算机视觉和模式识别会议，第770-778页，2016年。[15] W.- C.洪，Y H. Tsai，X.沈，Z. L. Lin，K. 孙卡瓦利X. Lu和M. H.杨使用全局上下文嵌入的场景解析。在ICCV，第2650-2658页[16] M. A. Islam，M. Rochan，N. D. Bruce和Y.王.用于密集图像标记的门

下载后可阅读完整内容，剩余1页未读，立即下载