ACFNet:基于空间金字塔池和类中心的注意力类特征网络用于语义分割

42 浏览量更新于2023-10-13 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

67981x1转换3x3转换率63x3转换率123x3转换率18ACFNet：用于语义分割的张凡1、2、3陈燕琴3李志航2洪志斌3 <$刘敬拓3马菲菲1、2 <$韩俊宇3丁二瑞31中国科学院软件研究所并行软件与计算科学实验室2中国科学院大学3百度公司{zhangf，maff}@www.example.comwww.example.comios.ac.cnzhihang.li @ nlpr.ia.ac.cn{陈艳琴洪志斌刘敬拓韩俊宇丁尔瑞}@ baidu.com摘要近年来，语义分割研究取得了很大进展，利用了更丰富的语境，其中大部分是从空间角度设计的与以往的研究不同，我们提出了类中心的概念，它从范畴的角度提取了全局语境。这个类级上下文描述了图像中每个类的总体表示我们进一步提出了一个新的模型--注意类别特征（ACF）模型，根据每个像素计算和自适应地组合不同的类别中心。在ACF模块的基础上，我们引入了一个由粗到细的分割网络，称为AttentionalClass Feature Network（ACFNet），它可以由ACF模块和任何现成的分割组成特征图池(a) 金字塔池模块网络（基础网络）。在本文中，我们使用两种类型的基础网络来评估ACFNet的有效性。我们(b) Atrous空间金字塔池（ASPP）(c) 类中心在Cityscapes数据集上实现81.85% mIoU的最新性能，仅使用精细注释的数据进行训练。1. 介绍语义分割是计算机视觉的基本任务之一，其目的是为给定的图像分配每个像素的类别标签它已被广泛应用于自动驾驶、场景理解、人类解析等各种挑战领域。最近的最先进的语义分割方法通常基于卷积神经网络（CNN ），特别是全卷积网络（ FCN）框架[26]。提高认知能力的最有效方法之一是利用更丰富的上下文[46，8，12]。对于前-张凡在百度公司实习时完成了这项工作。†通讯作者图1.利用上下文的不同方法。金字塔池化模块（a）和Atrous空间金字塔池化（b）通过采用不同的空间采样策略来利用上下文但是类中心（c）通过分类策略捕获上下文，该策略使用同一类别的所有像素来计算类级特征。例如， Chenet al. [8] 提出了一种空间金字塔池（ASPP）方法，以不同的膨胀率将空间规则采样的像素聚集在一个像素周围作为其上下文。在PSPNet [46]中，金字塔池化模块将特征图划分为不同大小的多个区域。然后将每个区域的合并表示视为同一区域内的上下文。此外，全局平均池化（GAP）[23]也被广泛用于获得全局上下文[42，46，43，8，24]。一般来说，这类的方法[9，46，12，42，43]侧重于利用不同的空间策略，以捕捉更丰富的上下文信息，特征图上采样特征图分割图6799第它们在计算上下文时不显式区分来自不同类别的像素。来自不同类别的周围激活对象对上下文的贡献相同，而不管像素来自哪个类别，这可能使像素难以确定其属于哪个类别。与上述方法不同的是，我们认为，利用类级上下文，以前被忽视的因素，也是至关重要的语义分割任务。因此，在这项工作中，我们提出了一种新的方法来利用上下文信息从分类的角度来看。我们首先提出了一个所谓的类中心，它描述了图像中每个类别的整体表示。具体地，一个类的类中心是属于这个类的像素的所有特征的聚合类中心和传统上下文模块（如ASPP [8]和PSP [46]）之间的比较如图1所示。ASPP和PSP试图通过采用空间策略来利用上下文，而类中心则专注于从类别视角捕获上下文，该视角使用同一类别的所有像素来计算类级表示。然而，在测试时获得groundtruth标签是不切实际的。因此，我们提出了一个简单而有效的粗到细的分割框架来近似类中心。每个类的类中心可以由粗分割结果和主干的高级特征图来计算。此外，受注意力机制在计算机视觉任务中的成功应用的启发，例如. [47，38，16，18]，提出了不同的像素需要自适应地拾取到不同类别的类中心例如，如果在图像中不存在“道路”类或者，如果一个像素在类“人”和类“骑手”之间振荡为此，提出了一个注意类特征（ACF）模块，利用注意机制使像素有选择地感知整个场景的不同类中心。与以往的工作不同，我们设计了一个独立的模型来学习注意力地图，我们直接使用粗分割结果作为我们的注意力地图。我们提出的粗到细分割网络的整体结构，命名为注意类特征网络，如图2所示。更具体地说，我们提出的网络由两部分组成第一部分是一个完整的语义分割网络，称为基础网络，它生成粗略的分割结果，它可以是任何最先进的语义分割网络。第二部分是我们的ACF模块。ACF模块首先使用粗分割结果和基础网络中的特征图来计算每个类别的类中心。之后，注意力类别特征通过粗略分割结果和类中心。最后，将注意类别特征与基网络中的原始特征进行融合，生成最终的分割。我们评估我们的注意力类别特征网络（ACFNet）对热门场景解析数据集Cityscapes[10] 并且它实现了81.85%的平均IoU的最新性能，仅使用精细注释的数据进行训练。我们的贡献可归纳如下：• 我们首先提出了类中心的概念，它代表类级上下文，以帮助像素意识到整体中不同类别的性能现场• 提出了注意类特征（ACF）模块，使不同的像素点自适应地聚焦于不同的类中心.• 我们提出了一个由粗到细的分割结构，命名为注意类特征网络（ACFNet），利用类级上下文来改善语义细分• ACFNet在流行的基准测试中实现了81.85%的平均IoU的最新Cityscapes [10]数据集，只有精细注释的数据用于训练。2. 相关工作语义分割。受益于深度神经网络的进步[20，33，34，15，17]，语义分割取得了巨大成功。FCN [26]首先用卷积层取代传统分类网络中的全连接层，以获得分割结果。Segnet[2]、RefineNet [22]、Deeplabv3+[9]和UNet[30] 采用编码器-解码器结构，通过逐步上采样操作来仔细地恢复减少的空间信息。条件随机场（CRF）[6，5，7]，马尔可夫随机场（MRF）[25]和递归神经网络（RNN）[4，32]也被广泛用于利用长程依赖性。扩张卷积[6，44]用于提高特征分辨率，同时保留足够大的感受野。在我们的工作中，我们也使用与[46，8]中相同的扩张策略来保持分辨率。上下文上下文在包括语义分割在内的各种视觉任务中起着至关重要的作用。有一堆的工作集中在如何利用更多的歧视性的背景，以帮助分割。 [42，43]第四十二话全局平均池化（GAP），以利用图像级上下文。提出了无源空间金字塔池化（ASPP）[8]，以基于不同的扩张率捕获附近的上下文。在PSPNet [46]中，平均池化在四个不同的金字塔尺度上使用，并且一个子区域中的像素被视为同一子区域内像素的上下文。其他一些作品专注于如何融合不同的上下文信息[43，42，12，28]更多选择。6800CONCAT基础网络(e)类中心驾驶室建行conv1x1(a) 输入图像(b) 特征图（c）粗分割（d）ACF模块（f）精细细分图2.注意力类别特征网络（Attentional Class Feature Network）给定一个输入图像（a），我们首先使用CNN（基础网络）来获得更高层的特征图（b）和相应的粗分割结果（c）。然后是注意类别特征（ACF）模块(d)根据粗分割结果，计算不同类别的类别特征和每个像素的注意类别特征。最后将注意类别特征和特征图（b）连接起来，得到最终的精细分割（f）活泼地与传统的语境不同，本文从范畴的角度来获取语境信息。最近，一些作品也研究了特定于类的语境的影响。在EncNet [45]中，根据整个场景增强或减弱通道类级别特征与EncNet不同的是，我们的工作主要集中在从像素级有选择地利用特定于类的上下文。关注注意力广泛应用于自然语言处理和计算机视觉等领域。Vaswani等人[35]提出了一种基于自注意力的机器翻译Transformer。Hu等人[16]提出了对象关系模块来扩展可学习的NMS操作。非局部模块[38]由Wang等人提出。来计算时空依赖性。PSANet[47]还使用注意力图来聚集长范围上下文信息。我们的工作受到注意机制的启发，并将其应用于注意类别特征的计算。我们没有像以前的作品那样设计一个独立的模块来学习注意力图，而是简单地使用粗分割结果作为注意力图。由粗到精的方法有很多成功的应用使用粗到细的方法，如人脸检测[13]，形状检测[1]，人脸对齐[48]和光流[3]。一些现有的分割网络[19，49，36，21]也采用粗到细的策略。Islam等[19]将高分辨率特征与低分辨率特征的粗分割结果相结合，得到更精细的分割结果。在[49]中，胰腺通过特征级聚合得到最终结果3. 方法在本节中，我们首先介绍我们提出的属性类特征（ACF）模块，并详细说明ACF模块如何捕获和自适应地组合类中心。然后，我们介绍了一个由粗到细的分割结构，它包括我们的ACF模块，命名为注意力类别特征网络（ACFNet）。3.1. 注意力类功能模块ACF模块的整体结构如图2（d）所示。该模型由两个模块组成：类中心模块（CCB ）和类注意模块（CAB），分别用于计算类中心和注意类特征。注意力类别特征（ACF）模块基于由粗到细的分割结构。ACF模块的输入是粗分割结果和基网络中的特征映射，输出是注意类别特征。3.1.1类中心类中心概念的直观含义是从范畴的角度开发更丰富的全局上下文。类i的类中心被定义为属于类i的所有像素的特征的平均值。理想情况下，给定特征图F∈RC×H ×W，其中C、H和W分别表示通道数、特征图的高度和宽度类I的类中心可以用公式表示如下，在粗阶段获得，在细阶段获得，负责平滑分割。在工作中，我们支持-Fi= HW1[y]j=0j=i]·F J、（1）提出由粗到细的结构，并专注于提高类HW1[y]j=0j=i]6801′我�� × × ��1x1转换��(��×�� ′)��(��×��)��×�� ×��′ ×�� ×��(a) 类中心块��×�� ′特征点模型学习分布��(��′×��)班级中心给定图像的特征分布��×�� ′��(��×��)��′ ×�� ×��′ ×�� ×��图4.这是一个关于班级中心作用的例子。对于属于A类的给定像素p，当仅使用p的特征时，模型将其错误地标记为B类。但是，如果模型知道A（浅蓝色区域）和B（浅色）的表示（类��×�� ×��(b) CAB：类注意块黄色区域），它可以发现p更可能来自A而不是B。因此，错误的预测可以得到纠正。图3.班级中心大楼（a）和班级注意大楼（b）的详情其中yj是像素j的标签，1[yj=i]是表示相应像素是否来自第i类的二元指示符。由于地面实况标签在测试阶段不可用，我们使用粗略的分割结果来评估像素属于特定类别的可能性。对于某一类A，在粗分割中对A概率较大的像素通常属于A，在计算A的类中心时，这些像素的贡献应该较大。通过这种方式，我们可以近似一个鲁棒的类中心。给定粗分割结果Pcoarse∈RN×H ×W和特征图F∈RC×H×W，其中N是类别数，我们提出了一个类中心块(CCB)来计算每个类的类中心Class Center Block的结构如图3（a）所示。为了以较小的计算代价计算类中心，我们首先对特征图进行通道缩减操作，通过1×1卷积来缩减通道数为C。然后，我们将P粗整形为RN×HW，新计算的特征映射F ′到RC′×HW。然后对P粗集和F′的转置集进行矩阵乘法和归一化，计算出类中心Fclass∈RN× C.因此，方程式。1可以重写如下：班级中心的好处是双重的。首先，它允许像素从全局视图理解每个类的整体表示。由于类中心是图像中所有像素的组合，因此这在训练时提供了强大的超视信息，并且可以帮助模型为每个类学习更多的判别特征。此外，类中心还可以帮助检查图像中每个类中心与像素之间的一致性，以提高性能。因此，每个类别的分布可以进一步细化。众所周知，模型总是学习每个类别在整个数据集上的分布，因此对于特定图像，特定类别的分布通常占据整个数据集上该类别分布的一小部分。因此，这部分的类中心更具有代表性，对图像中的像素分类更有帮助。通过引入类中心，该模型可以纠正许多以前分类错误的情况图4中示出了一个示例，当仅使用像素p的特征时，模型将其错误地标记为B类。但是，通过同时考虑类中心，可以进一步解决误分类问题。3.1.2注意力类别特征受注意机制的启发，我们提出了注意类特征。不同的像素需要选择性地在-公司简介i，j′倾向于不同的类。对于像素p，我们使用粗class=j=0P粗糙·FjHHWPi，j，（2）分割结果作为其注意力图，以计算其at-意向类特征。我们之所以使用粗糙的j=0粗分割结果是直接的。如果粗糙的部分-其中Pi，j表示像素j所属的概率mentation错误地将像素标记为错误的类，它需要支付粗的1×C′到I类。Fj和F类都在R中.更多地关注错误的类来检查特性��’1x1转换��′一pBF6802一一最大迭代器其中F和F都在R1×.一致性或者如果某些类甚至不存在于图像中，则像素不需要知道这些类。如图4所示，像素p只需要知道A和B的类中心，而不需要知道其他类中心。我们提出了一个班级注意力模块（CAB），如图3（b）所示，以计算注意力等级fea-图像，其中2，975个图像用于训练，500个图像用于验证，1，525个图像用于测试。在我们的实验中，我们使用类交叉的平均值作为评估指标。4.1. 网络架构是的。给定类中心F类∈RN×C′和粗分割结果Pcoarse∈RN×H ×W，我们首先整形P粗到RN×HW。然后矩阵乘法是应用于F类和P粗的转置以计算每个像素的注意类特征Fa更具体地，像素j的注意类别特征（表示为Fj）可以如下计算，ΣN我们使用两个基本网络来验证ACF模块的有效性和通用性。一个是ResNet-101，这是我们的基线网络，另一个是带有ASPP的ResNet-101。后一个网络上的实验表明，我们的模块也可以显着提高性能时，与其他国家的最先进的模块相结合。基线网络。至于基线网络，我们使用在ImageNet上预训练的ResNet-101 [11]。在PSP之后-Fj=i=0时i、j粗我类、（3）Net [46]，分类层和最后两个池化层被移除，卷积层′j i C一类在计算注意类别特征之后，我们应用1 ×1卷积来细化计算的特征。3.2. 注意类特征网络基于注意类别特征（ACF）模块，我们提出了用于语义分割的注意类别特征网络，如图2所示。ACFNet由两个独立的部分组成，基础网络和ACF模块。基础网络是一个完整的分段网络。在我们的实验中，我们分别使用 ResNet [15] 和 ResNet with atrous spatialpyramid pooling（ASPP）[8]作为我们的基础网络来验证我们的ACF模块的有效性。ACF模块利用分割结果和基础网络中的特征图来计算注意类别特征。最后，我们将注意类别特征和基础网络中的特征图连接在一起，通过1×1conv进行细化，得到最终的分割结果。损失函数。对于显式特征细化，我们使用辅助监督来提高性能，使网络更容易优化以下PSPNet [46]。采用类平衡交叉熵损失进行辅助监督、粗分割和细分割。最后，我们使用三个参数λa、λc和λf来平衡辅助损失la、粗略分割损失lc和精细分割损失lf，如等式中所示。4.L= λ a·l a+ λ c·l c+ λ f·l f。（四）4. 实验为了评估所提出的模块，我们对Cityscapes [10]数据集进行了几次Cityscapes数据集是为城市场景理解而收集的，包含19个用于场景解析或语义分段评估的类它具有5，000高分辨率（2048 ×1024）在移除池化层之后，分别将池化层设置为2和4。因此，网络的输出步幅被设置为8。ASPP 的基线网络。众所周知，空间金字塔池（ASPP）[8]在分割任务中取得了巨大成功。为了验证ACF模块的泛化能力，我们还进行了几个实验的基础上ResNet-101（基线网络），其次是ASPP模块。ASPP由四个部分组成：一个1×1卷积分支和三个3×3卷积分支。扩张率分别为12、24和36分别在我们的ASPP模块的重新实现中，我们遵循原始论文，但在所有四个分支中将输出通道从256改为512。注意力等级功能模块。为了减少计算量和内存使用，我们首先将ACF模块的输入特征通道减少到512个。ACF模块的最终输出的通道号也被设置为512。4.2. 实现细节对于训练，我们使用随机梯度下降（SGD）优化器[29] ，初始学习率为 0.01 ，权重衰减为 0.0005 ，Cityscapes数据集的动量为0.9。在之前的工作[8，46]之后，我们还采用了（1 −iter）0. 9 .第九条。在此基础上，对方程中的损失权λ a、λ c和λ f进行了分析。4分别设置为0.4、0.6和0.7 所有的实验都是在4×Nvidia P40 GPU上训练的，进行了40k次迭代，批量大小为8。我们网络中的所有BatchNorm层都被InPlaceABN-Sync取代[31]。为了避免过度拟合，我们还采用了常见的数据增强策略，包括随机水平翻转， [0.5 ， 2.0] 范围内的随机缩放和769×769图像块的随机裁剪[46，41]。P·F6803一4.3. 消融研究在本小节中，我们基于基线网络进行了一系列实验，以揭示我们提出的模块中每个组件的效果。4.3.1注意力类别特征模块我们首先使用atrous ResNet-101作为基线网络，并通过直接对输出进行上采样来获得最终结果首先，我们评估基线网络的性能，如表1所示。应该注意的是，我们所有的实验都使用了辅助监督。班级中心的消融。为了验证班级中心的效果，我们首先删除图2（d）中的班级注意力块（CAB）。计算出的类中心F类被整形并上采样为RNC×H ×W。然后将上采样后的类中心与基本网络中的特征图连接起来以得到精细的分割结果。实验结果也示于表1中。这一修改提高了每-粗分割为 76.42% （ 0.57%↑ ），细分割为 77.94%（2.09%↑）。注意力等级功能消融。我们进一步评估了注意类别特征的作用本质上公式3中描述的计算过程是类中心的加权求和，其中权重是每个像素的粗分割概率。因此我们将这种计算注意类别特征的方法称为 ACF （ sum ）。除了 ACF（ sum ），我们还尝试了另一种方法，称为 ACF（concat），利用粗分割概率和类中心来获得另一种类型的 attentional 类特征。对于给定的像素 j ， ACF（concat）可以用公式表示如下，方法mIoU（%）ResNet-101基线75.85ResNet-101 +类中心76.42（C）/ 77.94（F）ResNet-101 + ACF（concat）76.66（C）/ 79.17（F）ResNet-101 + ACF（sum）76.56（C）/79.32（F）表1.详细的性能比较，我们提出的Atten- tional类功能模块的Cityscapes价值。基于ResNet-101。C：粗分割的结果。F：精细分割的结果。ACF（concat）：注意力类别特征是通过类别中心的加权级联来计算的。ACF（sum）：注意类别特征是通过类别中心的加权求和计算的。(a) 图片（b）地面实况（c）基线（d）ACFNet图5.所有像素与给定像素的特征相似性可视化。较热的颜色表示在特征级别上更相似。我们选择的像素在（a）图像和（b）地面实况中标记为十字符号。列（c）和（d）显示了所有其他像素与基线网络和ACFNet的选定像素使用精细分割之前的特征图来计算特征相似度。在添加类级上下文之后，ACFNet为每个类学习更具区分力的特征类内特征更一致，类间特征更可区分。与粗分割相比的改进如3.1.1节中所讨论的，类级上下文可以Fj= CONCATN {Pi，j·Fi}，（5）也有助于像素检查与每个类的一致性，ai=0粗类其中F j在RNC′×1中，它是类中心的加权级联，其中权重是每个像素的粗实验结果示于表1中。与类中心实验相比，ACF（concat）的细分割性能从77.94%提高到79.17%，ACF（sum）的细分割性能达到79.32%。与基线相比，改进是显著的。在接下来的实验中，我们使用ACF（总和）策略作为默认值。4.3.2特征相似度与基线相比改善。为了更好地理解ACF模块如何改善最终结果，我们将给定像素与特征图中其他像素之间的余弦相似度图可视化。如图5所示，我们分别从“terrain”和“car”中选择两个像素。基线和ACFNet的特征相似性图分别显示在（c）和（d）栏对于ACFNet，我们并进一步细化分割结果。为了-为了实现这一思想，我们还可视化了给定特定像素的粗分割和细分割之前的特征图的特征相似性。如图6所示，在（e）粗分割和（f）细分割中，显示改善的从（b）和（e）中，我们可以看到模型没有学习到足够好的类“建筑”分布那些错误标记的像素的特征与那些正确标记的像素不一致。但在对这些像素加入注意类别特征后，改进后的特征显示了错误标记像素与正确标记像素之间的一致性。因此，最终结果有了显著的改善。4.3.3结果可视化我们在图7中提供了ACFNet和基线网络我们用黄色方块6804(a) 图像(b) 粗相似度图(c)精细相似图方法mIoU（%）ResNet-101 + ASPP基线78.42ResNet-101 + ASPP + ACF 80.08ResNet-101 + ASPP + ACF + OB 80.99ResNet-101 + ASPP + ACF + MS/Flip 81.46（d）Groundtruth（e）粗分割（f）细分割图6.粗分割和细分割前特征图的特征相似性可视化。在（a）和（d）中，选择用于计算与其它像素的相似性的像素由十字符号标记。(b)以及（c）示出了粗分割和细分割恢复之前的特征图的相似性图。视觉改善部分在（e）和（f）中用黄色方块标记。来标记那些具有挑战性的区域。基线很容易错误标记这些区域，但ACFNet能够纠正它们。例如，基线模型在第一个例子中不能正确地分类“卡车”或“汽车”，在第五个例子中错误地加入ACF模块后，这些区域得到了很大的校正。4.4. ASPP在基线网络上的实验为了验证ACF模块的通用性，我们还将其与ResNet-101和ASPP进行了结合。我们首先进行基线（ResNet-101与ASPP）实验，结果如表2所示。与原始论文[8]相比，我们重新实现的ASPP版本实现了类似的性能（78.42% vs. 77.82%）。ACF模块的性能。我们将ACF模块附加到ASPP模块的末尾，实验结果如表2所示加入ACF模块后结果表明，ACF模块的性能提高了1.7%（从78.42%提高到80.08%），验证了ACF模块可以与其他先进模块协同工作，进一步提高性能。此外，我们应用在线自举[39]和多尺度（MS），左右翻转（Flip）来提高基于ResNet-101+ ASPP + ACF的性能。Cityscapes val的结果见表2。• 在线引导：在前人工作[39]的基础上，我们采用在线自举的方法进行硬训练-ing像素。硬训练像素是那些在正确类别上的概率小于某个阈值θ的像素。当使用在线引导训练时，我们在每个批次中至少保留K个像素。在我们的实验中，我们将θ设为0.7，K设为100，000。通过在线引导， Cityscapes val set 的性能可以提高0.91%。• MS/Flip：与以前的许多作品[46，43，14，41，9]一样，我们也采用了左右翻转和多尺度表2.详细的性能比较，我们提出的Atten- tional类功能模块的Cityscapes价值。基于ResNet-101和ASPP设置。注意力类别特征模块。OB：在训练时使用在线自举。MS/Flip：在测试时使用多尺度和翻转。[0。75，1。0，1。25，1。五一75，2。[0]测试时的策略。从表2中，我们可以看到MS/Flip在val set上将性能提高了1.38%。4.5. 与现有技术相比我们通过将结果提交给官方评估服务器，进一步将ACFNet与Cityscapes测试集上的现有方法进行比较。具体来说，我们使用ASPP和ACF在线自举策略训练ResNet- 101，并在测试时使用多尺度翻转策略结果和比较见表3. ACFNet 仅使用训练精细数据，比之前的工作PSANet [47]的性能高出约2.2%，甚至比大多数也使用验证集进行训练的方法更好。当同时使用train-fine和val-fine数据进行训练时，ACFNet优于以前的方法[41，47，43，42]，并实现了81.85% mIoU的新的最先进水平。5. 结论在本文中，我们提出了类中心的概念来表示类级上下文，以提高分割性能。我们进一步提出了一个由粗到细的分割结构，基于我们的注意力类特征模块，称为ACFNet，计算和选择性地结合类级上下文，根据每个像素的功能消融研究和中间结果的可视化显示了类层次上下文的有效性。ACFNet在Cityscapes数据集上实现了新的最先进水平，mIoU为81.85%。6. 确认马飞飞是由中国科学院青年创新促进会支持的。此外，我们还要特别感谢孙宇晨、宋雪宇、张茹、袁宇辉和匿名评论者的讨论和有益的建议。6805方法平均IoU道路人行道建筑墙栅栏杆交通灯交通标志植被地形天空人乘用车公共汽车列车摩托车自行车PSPNet[46]78.4-------------------PSANet[47]78.6-------------------ACFNet（我们的）†80.898.787.193.760.862.069.777.780.494.073.695.787.673.696.165.687.383.070.578.0DeepLab-v2 [7]70.497.981.390.348.847.449.657.967.391.969.494.279.859.893.756.567.557.557.768.8[22]第二十二话73.698.283.391.347.850.456.166.971.392.370.394.880.963.394.564.676.164.362.270[27]第二十七话76.9-------------------[37]第三十七话77.698.585.592.858.655.56573.577.993.37295.284.868.595.470.978.868.765.973.8ResNet-38 [40]78.498.585.793.155.559.167.174.878.793.772.695.586.669.295.764.578.874.16976.7[42]第四十二话78.9-------------------[43]第四十三话79.3-------------------[47]第四十七话80.1-------------------[41]第四十一话80.698.787.193.460.762.765.674.678.593.672.595.486.271.996.078.090.380.769.776.8ACFNet（我们的）81.898.787.193.960.263.971.178.681.594.072.995.988.174.196.576.689.381.572.179.2†仅使用train-fine数据集进行训练。使用train-fine和val-fine数据集进行训练表3.Cityscapes测试集上的每类结果，采用最先进的模型。ACFNet优于现有方法，在mIoU中达到(a) 图像（b）基线（c）ACFNet（d）地面实况植被交通标志红绿灯极围栏壁地形自行车摩托车火车总线卡车车骑手K人天空图7.基于ResNet-101网络的ACFNet在Cityscapes上的可视化结果。侧墙建筑路虚空6806引用[1] Yali Amit，Donald Geman，and Xiaodong Fan.一种由粗到细的多类形状检测策略。 IEEE Transactions onPattern Analysis Machine Intelligence，（12）：1606[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481[3] ThomasBrox ， Andre 'sBruhn ， NilsPapenberg ，andJoachimWeickert.基于翘曲理论的高精度光流估计。欧洲计算机视觉会议，第25-36页。Springer，2004.[4] Wonmin Byeon，Thomas M Breuel，Federico Raue，andMarcus Liwicki.基于lstm递归神经网络的场景标注。IEEE计算机视觉和模式识别会议论文集，第3547-3555页，2015年[5] Siddhartha Chandra ， Nicolas Usunier ， and IasonasKokkinos. 使用深度嵌入的稠密低秩高斯 crfsIEEEInternational Conference on Computer Vision ，第 5103-5112页，2017年[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[8] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[9] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。arXiv预印本arXiv：1802.02611，2018。[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年[12] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在IEEE计算机视觉和模式识别会议论文集，第2393-2402页[13] 弗朗索瓦·弗勒雷和唐纳德·杰曼。从粗到精的人脸检测。国际计算机视觉杂志，41（1- 2）：85[14] Jun Fu ， Jing Liu ， Haijie Tian ， Zhiwei Fang ， andHanqing Lu.用于场景分割的双注意网络。arXiv预印本arXiv：1809.02983，2018。[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[16] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集，第3588-3597页，2018年[17] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页[18] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：用于语义分割的交叉注意. arXiv预印本arXiv：1811.11721，2018.[19] Md Amirul Islam，Shujon Naha，Mrigank Rochan，NeilBruce，和杨望。标签精化网络用于从粗到细的语义分割。arXiv预印本arXiv：1703.00551，2017。[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[21] Weicheng Kuo，Anelia Angelova，Jitendra Malik，andTsung-Yi是林书形状掩码：学习到通过细化形状先验来分割新对象。 arXiv 预印本 arXiv ：1904.03239，2019。[22] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议论文集，第1925-1934页[23] Min Lin，Qiang Chen，and Shuicheng Yan.网络中的网络。arXiv预印本arXiv：1312.4400，2013。[24] Wei Liu ， Andrew Rabinovich ， and Alexander C Berg.Parsenet：看得更宽，看得更好。arXiv预印本arXiv：1506.04579，2015。[25] Ziwei Liu，Xiaoxiao Li，Ping Luo，Chen-Change Loy，and Xiaoou Tang.基于深度解析网络的语义图像分割。在 Proceedings of the IEEE international conference oncomputer vision，pages 1377[26] 乔纳森·朗埃文·谢尔哈默

下载后可阅读完整内容，剩余1页未读，立即下载