没有合适的资源?快使用搜索试试~ 我知道了~
条带合并:重新思考场景解析的空间池侯启斌1李章2程明明3冯佳士11新加坡国立大学2牛津大学3南开大学摘要空间池已被证明是非常有效的捕获长距离的上下文信息的像素预测任务,如场景解析。在本文中,是-yond传统的空间池,通常有一个注册-N×N的形状,我们通过引入一种新的池化策略,条带池化(strippooling),其考虑长但窄的内核,即,1×N或N×1。在条带池的基础上,我们进一步研究了空间池结构的设计:1)引入一个新的条带池模块,使骨干网络能够有效地建模长距离依赖,2)提出了一种以不同空间池为核心的新型构建块这两种新颖的基于池的设计是轻量级的,可以作为一个有效的即插即用模块在现有的场景解析网络。在流行的基准 上 进 行 了 广 泛 的 实 验 ( 例 如 , ADE20K 和Cityscapes)表明,我们的简单方法可以建立最先进的新结果。代码可在https://github.com/Andrew-Qibin/SPNet上获得。1. 介绍场景解析,也称为语义分割,旨在为图像中的每个像素分配语义标签。作为最基本的任务之一,它已被应用于广泛的计算机视觉和图形应用[10],如自动驾驶[47],医疗诊断[46],图像/视频编辑[41,27],显著对象检测[3]和航空图像分析[38]。最近,基于全卷积网络(FCN)的方法[37,5]在场景解析方面取得了非凡的进展,能够捕获高级语义。然而,这些方法大多堆叠局部卷积和池化操作,因此由于有限的有效视场,几乎无法很好地处理具有各种不同类别的复杂场景[65,23]。提高CNN中建模长距离依赖关系的能力的一种方法是采用自关注或非本地模块[51,23,7,45,21,53,66,62,61,28]。然而,众所周知,它们消耗巨大的内存来计算每个空间位置处的大型亲和矩阵。用于远程上下文建模的其他方法包括:扩张卷积[5,8,6,57],旨在扩大CNN的接收场,而不引入额外的参数;或全局/金字塔池[26,65,19,5,8,54],对图像的全局线索进行求和。然而,这些方法(包括扩张卷积和池化)的一个共同限制是,它们都在方形窗口内探测输入特征图。这限制了它们在捕获广泛存在于现实场景中的各向异性上下文方面的例如,在某些情况下,目标物体可以具有长距离带状结构(例如,图1b中的草地)或离散分布(例如,图1a中的支柱。使用大的正方形池化窗口不能很好地解决问题,因为它将不可避免地包含来自不相关区域的污染信息[19]。在本文中,为了更有效地捕获长程依赖性,我们利用空间池来扩大CNN的感受野并收集信息上下文,并提出了条带池的概念。作为全局池的替代方案,条带池提供了两个优点。首先,它沿着一个空间维度部署长核形状,因此能够捕获隔离区域的长程关系,如图1a和1c的顶部所示第二,它沿着其他空间维度保持窄的核形状集成这种长而窄的池内核使场景解析网络能够同时聚合全局和局部上下文。这与传统的从固定的正方形区域收集上下文的空间池化本质上不同基于条带池化操作,我们提出了两个基于池化的场景解析网络模块。首先,我们设计了一个条带池模块(SPM),以有效地扩大骨干的感受野。更具体地说,SPM由两条路径组成,这两条路径专注于沿着水平或垂直空间维度对长距离上下文进行对于池化地图中的每个空间位置,它对其全局水平和垂直信息进行编码400324004将上述两个基于池的模块合并到一个架构中,这在基线上实现了显着改进,并在广泛使用的场景解析基准数据集上建立了新的最先进的结果。(a)(b)第(1)款(c)第(1)款(d)其他事项2. 相关工作当前最先进的场景解析(或语义分割)方法主要利用卷积神经网络(CNN)。然而,通过堆叠局部卷积或池化算子,CNN的感受野增长缓慢,因此阻碍了它们考虑足够有用的上下文信息。用于场景解析的上下文关系建模的早期技术涉及条件随机场(CRF)[25,49,1,67]。它们大多在离散标签空间中建模并且计算昂贵,因此现在对于产生最先进的场景解析结果来说不那么麻烦,尽管已经集成到CNN中。对于连续特征空间学习,先前的工作使用多尺度特征聚合[37,5,33,18,42,31,32,2,44,4,48,17]以通过探测来图1.条带合并和空间合并的说明对于场景解析的工作方式不同。从上到下:条带合并;常规空间汇集;地面实况注释;我们的结果与传统的空间池只;我们的结果与条带池考虑。如顶行所示,与传统空间合并(绿色网格)相比,条带合并具有带状形状的核心(红色网格),因此可以捕获离散分布的区域之间的长程依赖性(黄色边界框)。然后使用编码来平衡其自身的权重以进行特征细化。此外,我们提出了一种新的附加的残余构建块,称为混合池模块(MPM),进一步在高语义级别的远程依赖模型。该算法利用不同核形状的池化操作来探测具有复杂场景的图像,从而收集信息丰富的上下文信息。为了证明所提出的基于池的模块的有效性,我们提出了SPNet,它将两个模块合并到ResNet [20]主干中实验表明,我们的SPNet建立新的国家的最先进的结果流行的场景解析基准。本工作的贡献如下:(i)我们研究了传统的空间池化设计,提出了条带池化的概念,它继承了全局平均池化的优点,既能收集长期依赖性,又能关注局部细节。(ii)在此基础上,设计了条带合并模块和混合合并模块.这两个模块都是轻量级的,可以作为有效的附加模块插入任何骨干网络,以生成高质量的分段预测。(iii)我们提出SPNet集成在多个速率和多个视场下使用过滤器或池化操作来处理传入特征。DeepLab [5,6]及其后续[8,54,39]采用膨胀卷积并融合不同的膨胀率特征来增加网络的接收场此外,聚合非局部上下文[36,58,29,15,7,45,21,53,66,23,14]对于场景解析也是有效的关于改善感受野的另一条研究路线是空间金字塔池化[65,19]。通过采用一组在每个金字塔级别具有唯一核大小的并行池化操作,网络能够捕获大范围上下文。它已被证明是有前途的几个场景解析基准。然而,它利用上下文信息的能力此外,空间金字塔池化仅在骨干网络的顶部模块化,因此使得其不灵活或不直接适用于特征学习的网络构建块。相比之下,我们提出的条带池化模块和混合池化模块采用池-使用大小为1×N或N×1的内核,这两种内核都可以插入和堆叠到现有网络中。这种差异使网络能够在每个建议的构建块中利用丰富的上下文关系在我们的实验中,所提出3. 方法在本节中,我们首先给出条带池的概念,然后介绍两个基于条带池的模型设计,以演示它如何改进场景解析网络。最后,我们描述了整个架构的建议24005H× 1扩大高×宽高×宽融合高×宽带池1 ×W扩大高×宽高×宽带池身份J输入张量图2. 试纸合并(SP)模块的示意图。输出张量场景解析网络由条带池增强。类似地,垂直条带池化后的输出yv∈RW可以写为:3.1. 条带合并在描述条带合并的公式之前,我们首先简要回顾平均合并操作。yv=1 ΣH0≤i Hxi,j.(三)标准空间平均合并:设x∈RH×W 是二维输入张量,其中H和W分别是空间高度和宽度在平均池化层中,需要池化的空间范围(h×w)考虑一个简单的情况,h整除H,w整除W。那 么 池 化 后 的 输 出 y 也 是 一 个 二 维 张 量 , 高 度Ho=H,宽度Wo=W。从形式上讲,给定水平和垂直条带池化层,由于核形状长而窄,因此易于在离散分布的区域之间建立长范围依赖性,并对具有带状形状的区域进行编码。同时,由于其沿另一维度的窄核形状,这些特性使得所提出的条带池不同于传统的条带池。传统的空间池,依赖于方形的克尔,平均池化操作可以写为nels。在下文中,我们将描述如何利用y=1io,j oh×wΣxio×h+i,j o×w+j,(1)条带合并(Eqn. 2和Eqn. 3)改进场景解析网络。0≤i h0≤j w其中0≤io Ho且0≤jo Wo。在等式中1,y的每个空间位置对应于大小为h×w的池化窗口。上述池化操作已被广泛应用于以前的工作[65,19],用于收集长期背景。然而,当处理如图1所示的具有不规则形状的对象时,它可能不可分割地合并大量不相关的区域。条带合并:为了缓解上述问题,我们在这里提出了“条带池化”的概念,其使用带状池化窗口来沿着水平或垂直维度执行池化,如图1的顶行所示。在数学上,给定二维tensorx∈RH×W,在条带池化中,池化(H,1)或(1,W)是必需的。不像二维的平均池,建议的条带池平均所有行或列中的特征值因此,输出水平条带合并后的yh∈RH可以写为3.2. 条带合并模块在以前的工作[8,16]中已经证明,扩大骨干网络的接收域有利于场景解析。在本小节中,基于这一事实,我们引入了一种有效的方法来帮助骨干网络通过利用条带池来捕获长距离上下文。特别是,我们提出了一种新的条带池模块(SPM),它利用水平和垂直条带池操作来收集长距离上下文从不同的空间维度。图2描述了我们提出的SPM。设x∈RC×H ×W为输入张量,其中C表示通道数。我们首先将x馈送到两个平行的路径中,每个路径都包含一个水平的或者垂直条带池化层,之后是具有核大小3的1D卷积层,用于调制当前位置及其相邻特征。这使得yh∈RC×H且yv∈RC×W.为了获得输出z∈RC×H ×W,包含更多有用的全局先验,我们首先将yh和yh=1Σxi,j.(二)yw一起如下,得到y∈RC×H ×W:IW0≤j Wyc,i,jhc,ivc,j一维转换一维转换1×1转换乙状=y+y24006.(四)24007然后,输出z计算为:z=Scale(x,σ(f(y),(5)其中,Scalee(·,·)是指逐元素乘法,σ是sigmoid函数,f是1×1卷积。它应该注意的是,有多种方法可以将由两个条带池化层提取的特征,例如计算两个提取的1D特征向量之间的内积。然而,考虑到效率,并使SPM轻量级,我们采用上述操作,我们发现仍然工作得很好。在上述过程中,允许输出张量中的每个位置与输入张量中的各种位置建立关系。例如,在图2中,输出张量中由黑框包围的正方形连接到具有与其相同的水平或垂直坐标的所有位置(由红色和紫色框包围)。因此,通过重复上述聚合过程几次,可以在整个场景上建立长期依赖关系。此外,得益于逐元素乘法运算,所提出的SPM也可以被认为是一种注意力机制,并直接应用于任何预先训练的骨干网络,而无需从头开始训练它们。与全局平均池化相比,条带池化考虑长但窄的范围而不是整个特征图,避免了在彼此远离的位置之间建立大多数不必要的连接与需要大量计算来建立每对位置之间关系的基于注意力的模块[16,19]相比,我们的SPM是轻量级的,可以很容易地嵌入到任何构建块中,以提高捕获长距离空间依赖性和利用通道间依赖性的能力。我们将提供更多的分析,我们的方法对现有的基于注意力的方法的性能。3.3. 混合池化模块事实证明,金字塔池化模块(PPM)是增强场景解析网络的有效方法[65]。然而,PPM严重依赖于标准的空间池化操作(尽管在不同的金字塔级别具有不同的池化内核),使得它仍然受到第3.1节中分析的影响。考虑到标准空间池化和条带池化的优点,本文提出了PPM,并设计了一个混合池化模块(MPM),通过不同的池化操作聚合不同类型的上下文信息,使特征表示更具区分性。建议的MPM由两个子模块组成,同时捕获不同位置之间的短程和长程依赖性,我们发现两者都对于场景解析网络至关重要。对于长期依赖性,与使用全局平均池化层的先前工作[60,65,8]不同,我们建议通过采用水平和垂直条带池化操作来收集此类线索。图3(b)中可以找到简化图如第3.2节中所分析的,条带汇集使得在整个场景上离散分布的区域之间的连接然而,对于语义区域紧密分布的情况,空间池化对于捕获局部上下文信息也是必要的。考虑到这一点,如图3(a)所示,我们采用轻量级金字塔池化子模块进行短程依赖收集。它有两个空间池化层,然后是用于多尺度特征提取的卷积层,以及用于原始空间提取的2D卷积层。信息保存。每次合并后的特征图的bin大小分别为20×20和12×12然后通过求和来组合所有三个子路径。基于上述两个子模块,我们建议将它们嵌套到具有瓶颈结构的残差块[20]中,以进行参数缩减和模块化设计。具体来说,对于每个子模块,首先使用1×1卷积层进行信道缩减。两个子系统的输出模块被级联在一起,然后馈送到另一个1×1卷积层进行信道扩展,如[20]中所做。请注意,除了用于信道缩减和扩展的卷积层之外,所有卷积层的内核大小都是3 ×3或3(对于1D卷积层)。值得一提的是,与空间金字塔不同,池化模块[65,8],所提出的MPM是一种模块化设计。其优点是可以方便地以顺序方式使用它来扩展远程依赖项收集子模块的角色我们发现,在相同的骨干网络中,我们的网络只有两个MPM(大约是原始PPM的1/3参数[65]),性能甚至比PSPNet更好在我们的实验部分,我们将提供更多的结果和分析。3.4. 整体架构基于所提出的SPM和MPM,我们介绍了一个整体架构,称为SPNet,在这一小节。我们采用经典的残差网络[20]作为我们的骨干。在[5,65,16]之后,我们改进了原始的ResNet,膨胀策略和最终特征图尺寸被设置为输入图像的1/8。SPM 被 添 加 在 每 个 阶 段 中 的 最 后 一 个 构 建 块 的 3×3SPM中的所有卷积层共享相同数量的通道,输入张量对于MPM,由于其模块化设计,我们直接将其构建在骨干网络上。由于主干网的输出是2048个通道,我们首先连接一个24008二维转换最大迭代器二维转换(一)一维转换表1.混合合并模块(MPM)数量的消融分析。“SPM”是指条带合并模块。可以看出,当使用更多的MPM时,产生更好的结果所有结果均基于ResNet-50主干和单模型测试。最佳结果以粗体突出显示。一维转换(b)第(1)款图3.(a)短期受扶养人汇总子模块。(b)长期依赖汇总子模块。受[34,35]的启发,在每个子模块中的融合操作之后添加卷积层,以减少由下采样操作带来的混叠效应。1×1卷积层到骨干网,以将输出通道从2048减少到1024,然后添加两个MPM。在每个MPM中,在[20]之后,内核大小为3× 3或3的所有卷积层都有256个通道(即,减少使用1/4的比率卷积层被添加在最后预测分割图。4. 实验我们在流行场景解析数据集上评估了所提出的SPM和MPM,包括ADE 20K [68]、Cityscapes [11]和PascalContext [40]。此外,我们还根据[65]中所做的ADE20K数据集对拟议条带合并4.1. 实验装置我 们 的 网 络 是 基 于 两 个 公 共 工 具 箱 [64 , 59] 和Pytorch [43]实现的。我们使用4个GPU来运行所有的实验。在训练期间,Cityscapes的批大小设置为8,其他数据集的批大小设置为16。在大多数以前的作品[5,65,60]之后,我们采用了策略(即,在训练中基数1乘以(1-iter)的幂对于ADE 20K,基本学习速率设置为0.004和Cityscapes数据集,Pascal Context数据集为0.001。功率设置为0.9。 培训阶段如下:ADE20K(120)、Cityscapes(180)和Pascal Context(100)。动量和重量衰减率设置为0.9 和 0.0001 。 我 们 在 训 练 中 使 用 同 步 的 BatchNormalization,如[60,65]所示。对于数据增强,类似于[65,60],我们随机翻转并重新缩放输入图像从0.5到2,最后将图像裁剪为固定大小,城市景观为768×768,其他为480×480。默认情况下,我们根据标准评估指标-平均交叉点报告结果,联合(mIoU)。对于没有地面实况注释的数据集,我们从官方评估服务器获得结果。对于所有实验,我们使用交叉熵损失来优化所有模型。在[65]之后,我们利用辅助损失(连接到第四级的最后一个残差块),并且损失权重设置为0.4。 我们还报告了多模型的结果,以公平地比较我们的方法与其他方法,即,从多个图像中平均分割概率图,年龄范围{0. 5,0。75,1。0,1。25,1。五一75}如[32,65,60]中所示4.2. ADE20KADE20K数据集[68]是最具挑战性的基准之一,其中包含150个类和各种场景,具有1,038个图像级标签。我们遵循官方协议来分割整个数据集。像大多数以前的作品,我们使用像素的准确性(像素Acc.)和交集对并集(mIoU)的平均值进行评估。我们还采用多模型检验,并使用平均结果进行以下评估[32,65]。对于消融实验,我们采用ResNet-50作为我们的骨干,如[65]所做。与之前的作品相比,我们使用ResNet-101。4.2.1消融研究MPM数量:如3.3节所述,MPM是基于残 差块 的瓶颈结构构建的[20]并且因此可以容易地重复多次以扩展条带汇集的作用。在这里,我们调查需要多少MPM来平衡所提出的方法的性能和运行时成本如表1所示,我们列出了基于ResNet-50主干使用不同数量的MPM时的结果。可以看到,当不使用MPM(基本FCN)时,我们在mIoU方面实现了37.63%的结果。当使用1 MPM时,我们得到40.50%的结果,即, 改善3.0%左右。 毛皮-起来起来起来起来二维转换二维转换二维转换设置#参数SPMMiou像素访问基础FCN27.7百万✗37.6377.60%基础FCN + PPM [65]+21.0 M✗41.6880.04%基础FCN + 1 MPM+4.4 M✗40.5079.60%基础FCN + 2 MPM+8.8 M✗41.9280.03%基础FCN + 2 MPM+11.9 M✓44.0380.65%24009设置带SPM Miou 像素访问基础FCN✗37.6377.60%基本FCN + 2 MPM(仅SRD)✗40.5079.34%基本FCN + 2 MPM(仅限LRD)✗41.1479.64%基础FCN + 2 MPM(SRD +LRD)✗41.9280.03%基础FCN + 2 MPM(SRD +LRD)✓44.0380.65%表2.混合合并模块(MPM)上的消融分析。“SPM”是指条带合并模块。“SRD”和“LRD”分别表示短程依赖性聚合子模块和远程依赖性聚合子模块。可以看出,收集短程和长程依赖性对于产生更好的分割结果是必不可少的。所有结果均基于单模型试验。当我们把两个MPM加到主干上时,(a)图像(b)GT(c)2 SRD(d)2 LRD(e)2 MPM图4.MP模块(MPM)不同设置之间的视觉比较。‘2 SRD’means we use 2 MPMs with only the short-range dependencyaggregation module included and ‘2 LRD’ means we use 2MPMs with only the long-range depen- dency aggregationmodule可获得约4.3%的增益。然而,在这方面,添加更多的MPM给出微不足道的性能增益。这可能是因为接收场已经足够大。因此,关于运行时成本,我们将MPM的数量默认设置为2。设置SPM位置#MPM mIoU像素Acc.基础FCN-2 41.92 80.03%基础FCN + SPM L 2 42.61 80.38%基础FCN + SPM A 2 42.30 80.22%为了显示建议的MPM优于PPM[65] ,我们还在表1中显示了PSPNet的结果和参数编号。可以很容易地看出,“Base FCN + 2 MPM”的设置PSPNet尽管比PSPNet少12M参数。这一现象表明,我们的模块化设计的MPM是更有效的PPM。MPM中条带合并的影响:在第3.3节中已经描述了所提出的MPM包含分别用于收集短程和长程依赖性的两个子模块。在这里,我们消融的重要性,提出了带池。相应的结果示于表2中。显然,用条带池收集长距离依赖性(41.14%)比仅收集短距离依赖性(40.5%)更有效,但将两者都收集会进一步提高(41.92%)。为了进一步演示条带池化如何在MPM中工作,我们在图5中可视化了MPM的不同位置处的一些特征图,并在图4中可视化了MPM的不同设置下的一些分割结果。显然,所提出的条带池可以更有效地收集远程依赖性。例如,从图5的顶行中的长程依赖性聚合模块(LRD)输出的特征图可以准确地定位天空在哪里。然而,全局平均池化不能做到这一点,因为它将整个特征图编码为单个值。SPM的有效性:我们的经验发现,有没有必要添加建议SPM的骨干网络的每个构建块,尽管它的重量轻。在这个实验中,我们考虑了四种场景,如表3所示。我们将基本FCN和2个MPM作为表3.条带合并模块(SPM)上的消融分析。L:每个阶段的最后一个积木A:所有的积木都在最后阶段。可以看出,SPM可以大大提高基础FCN的性能,从37.63提高到41.66。基线。 我们首先将SPM添加到每个阶段的最后一个构建块; mIoU得分为42.61%。其次,我们尝试在最后一个阶段的所有构建块中添加SPM,发现性能略有下降,为42.30%。接下来,当我们将SPM添加到上述两个位置时,可以产生44.03%的mIoU分数。然而,当我们试图将SPM添加到主干的所有构建块时,几乎没有性能增益。关于上述结果,默认情况下,我们将SPM添加到每个阶段的最后一个构建块和最后一个阶段的所有构建块。此外,当我们仅将基本FCN作为基线并添 加 建 议 的 SPM 时 , mIoU 分 数 从 37.63% 增 加 到41.66%,实现了近4%的改进。以上结果表明,在主干网络中加入SPM确实有利于场景解析网络。条带合并与全球平均合并:为了证明所提出的条带池化算法相对于全局平均池化算法的优越性,我们尝试将所提出的SPM算法中的条带池化操作改为全局平均池化操作。以基本FCN后接2个MPM为基线,当我们向基本FCN添加SPM时,基础FCN + SE [22]A + L241.3480.05%基础FCN + SPMA + L041.6679.69%基础FCN + SPMA + L244.0380.65%24010(a) 图像(b)GT(c)VSP后(d)HSP后(e)LRD后(f)SRD后(g)MPM后(h)结果图5.在所提出的MP模块的不同位置处的所选特征图的可视化。VSP:垂直条带汇集;HSP:水平条带合并;SRD:短程依赖性聚合子模块(图3a); LRD:长程依赖性聚合子模块(图3b); MPM:混合池化模块。设置多尺度+翻转mIoU(%)像素Acc.(%)方法主干mIoU(%) 像素累积(%)分数SPNet-50 44.03 80.65SPNet-50 45.03 81.32SPNet-101SPNet-101 45.60 82.09表4.在不同的骨干网上进行了更多的烧蚀实验。从41.92%上升到44.03%。然而,当我们将拟议的条带合并更改为全局平均合并时,如[22]所示,性能从41.92%下降到41.34%,甚至比基线更差,如表3所示。这可能是由于直接融合特征图以构建1D向量,这导致丢失太多的空间信息,从而导致模糊性,如先前的工作[65]中所指出的。更多实验分析:在这一部分中,我们展示了不同的实验设置对性能的影响,包括骨干网络的深度和多尺度测试与翻转。 如表4中所列,具有翻转的多尺度测试可以极大地改善两个脊椎骨的结果。此外,使用更深的骨 干 网 络 也 有 利 于 性 能 ( ResNet-50 : 45.03%→ResNet-101:45.60%)。可视化:在图6中,我们显示了在所提出的方法的不同设置下的一些视觉结果。显然,添加MPM或SPM的基本FCN可以有效地改善分割结果。当同时考虑MPM和SPM时,分割图的质量可以进一步提高。4.2.2与最新技术水平的比较在这里,我们比较所提出的方法与以前的国家的最先进的方法。结果见表5。可以看出,我们使用ResNet-50作为主干的方法达到了45.03%的mIoU分数,像素ac-[32]第三十二话四十块七PSPNet [65]ResNet-10143.29 81.39六十二点三四PSPNet [65]ResNet-26944.9481.6963.32SAC [63]ResNet-10144.3081.8663.08EncNet [60]ResNet-10144.6581.6963.17DSSPN [30]ResNet-10143.6881.1362.41UperNet [52]ResNet-10142.6681.0161.84PSANet [66]ResNet-10143.7781.5162.64CCNet [23]ResNet-10145.22--APNB [69]ResNet-10145.24--APCNet [19]ResNet-10145.38--SPNet(我们的)ResNet-5045.0381.3263.18SPNet(我们的)ResNet-10145.6082.0963.85表5.与ADE 20K验证集最新技术水平的比较[68]。我们报告mIoU和Pixel Acc。在这个基准上。最佳结果以粗体突出显示。准确率为81.32%,已优于以往的大多数当使用ResNet-101作为我们的骨干时,我们在mIoU和像素精度方面都实现了新的最先进的结果。4.3. 城市景观Cityscapes [11]是另一个流行的场景解析数据集,它总共包含19个类。它由从50个城市在不同季节收集的5K高质量像素注释图像组成,所有图像均为1024×2048像素。正如以前的工作所建议的那样,我们将整个数据集分为三个部分,分别用于训练,验证和测试,分别包含2,975,500和1,525张图像。为了进行公平的比较,我们采用ResNet-101作为骨干网络。我们比较我们的方法与现有的方法在测试集。根据之前的工作[16],我们只使用精细注释的数据训练我们的网络,并将结果提交给官方服务器。结果可见于表6中。很明显,所提出的方法优于所有其他方法。24011(a)图像(b)GT(c)基础FCN(d)仅1 MPM(e)仅2MPM(f)仅SPM(g)SPNet图6。在不同的模型设置下所提出的方法的可视化结果。方法出版物骨干测试mIoU方法出版物骨干mIoU(%)SAC [63]ICCV'17ResNet-101百分之七十八点一CRF-RNN [67]ICCV'15VGGNet39.3[50]第五十话WACV'18ResNet-101百分之八十点一免费WiFi [12]ICCV'15VGGNet40.5DSSPN [30]CVPR'18ResNet-10177.8%[33]第三十三话CVPR'16VGGNet43.3[24]第二十四话CVPR'18ResNet-101百分之七十八点二DeepLab-v2 [5]PAMI'17ResNet-10145.7DFN [56]CVPR'18ResNet-10179.3%RefineNet [32]CVPR'17ResNet-15247.3DenseASPP [54]CVPR'18DenseNet-161百分之八十点六CCL [60]CVPR'18ResNet-10151.6BiSeNet [55]ECCV'18ResNet-10178.9%EncNet [60]CVPR'18ResNet-10152.6PSANet [66]ECCV'18ResNet-101百分之八十点一DANet [16]CVPR'19ResNet-10152.6DANet [16]CVPR'19ResNet-101百分之八十一点五SVCNet [14]CVPR'19ResNet-10153.2SPGNet [9]ICCV'19ResNet-10181.1%EMANet [29]ICCV'19ResNet-10153.1APNB [69]ICCV'19ResNet-10181.3%APNB [69]ICCV'19ResNet-10152.8CCNet [23]ICCV'19ResNet-10181.4%BFP [13]ICCV'19ResNet-10153.6SPNet(我们的)-ResNet-10182.0%SPNet(我们的)-ResNet-10154.5表6.与Cityscapes测试集上的最新技术水平进行比较[11]。4.4. Pascal上下文Pascal Context数据集[40]有59个类别和10,103张带有密集标签注释的图像,其中4,998张图像用于训练,5,015张用于测试。定量结果见表7。可以看出,我们的方法比其他方法效果更好。5. 结论在本文中,我们提出了一种新的类型的空间池操作,条带池。它的长而窄的池窗口允许模型收集丰富的全局上下文信息,这对于场景解析网络是必不可少的。基于24012表7.与Pascal上下文数据集上的最新技术进行比较[40]。在条带池和空间池操作上,我们设计了一种新的条带池模块来增加骨干网络的感受野,并提出了一种基于瓶颈结构的经典剩余块的混合池模块。在几个广泛使用的数据集上的实验证明了该方法的有效性。谢 谢 。 本 研 究 得 到 了 AI.SG R-263-000-D97-490 、NUS ECRA R-263- 000-C87-133、MoE Tier-II R-263-000-D17-112、NSFC的(61922046)、国家青年人才支持计划、天津市自然科学基金(17JCJQJC 43700)。24013引用[1] Anurag Arnab 、 Sadeep Jayasumana 、 Shuai Zheng 和Philip HS Torr。深度神经网络中的高阶条件随机场。在ECCV,2016年。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。IEEE TPAMI,2017年。[3] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显著对象检测:一个调查。计算视觉媒体,5(2):117[4] Samuel Rota Bulo , Gerhard Neuhold , and PeterKontakheder.损失最大池的语义图像分割。2017年IEEE计算机视觉和模式识别会议(CVPR),第7082-7091页。IEEE,2017年。[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE TPAMI,2017年。[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017.[7] Liang-Jieh Chen,Yi Yang,Jiang Wang,Wei Xu,andAlan L Yuille.注意秤:尺度感知的语义图像分割。在CVPR,2016年。[8] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。[9] Bowen Cheng , Liang-Chieh Chen , Yunchao Wei ,Yukun Zhu , Zilong Huang , Jinjun Xiong , ThomasHuang,Wen-Mei Hwu,and Honghui Shi.Spgnet:场景解析的语义预测指南。在ICCV,2019年。[10] Ming-Ming Cheng,Qi-Bin Hou,Song-Hai Zhang,andPaul L.松香智能视觉媒体处理:当图形与视觉相遇。Journal of Computer Science and Technology,32(1):110[11] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。[12] 戴季峰、何开明、孙建。Boxsup:利用边界框来监督卷积网络进行语义分割。在ICCV,2015年。[13] Henghui Ding , Xudong Jiang , Ai Qun Liu , NadiaMagnenat Thalmann,and Gang Wang.用于场景分割的边界感知特征在ICCV,第6819-6829页,2019年。[14] Henghui Ding , Xudong Jiang , Bing Shuai , Ai QunLiu,and Gang Wang.语义相关性促进了形状变化的上下文分割。在CVPR中,第8885[15] Henghui Ding , Xudong Jiang , Bing Shuai , Ai QunLiu,and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR,2018年。[16] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在CVPR中,第3146-3154页[17] Shanghua Gao,Ming-Ming Cheng,Kai Zhao,Xin-YuZhang , Ming-Hsuan Yang , and Philip HS Torr.Res2net : 一 种 新 的 多 尺 度 骨 干 网 架 构 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,2019。[18] Bharat hHariharan,PabloArbela' ez,RossGirshick,andJi-tendra Malik. 用 于 对象 分 割 和细 粒 度 定位 的 超 列。CVPR,2015。[19] Junjun He,Zhongying Deng,Lei Zhou,Yali Wang,and Yu Qiao.用于语义分割的自适应金字塔上下文网络。在CVPR中,第7519-7528页[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[21] Seunhoon Hong , Junhyuk Oh , Honglak Lee , andBohyung Han.用深度卷积神经网络学习语义分割的可转移知识在CVPR,2016年。[22] 杰虎,李申,孙刚。挤压-激发网络。在CVPR中,第7132-7141页[23] Zilong Huang,Xinggang Wang,Lichao Huang,ChangHuang,Yunchao Wei,and Wenyu Liu. Ccnet:用于语义分割的交叉注意. arXiv预印本arXiv:1811.11721,2018.[24] Shu Kong和Charless C Fowlkes。循环中具有透视理解的循环场景在CVPR,2018年。[25] Phil i ppK raühenbuühlandVladlenKoltun. 具有高斯边势的全连通crfs的有效推理NeurIPS,2011。[26] Svetlana Lazebnik , Cordelia Schmid , and Jean Ponce.Be-yond功能包:自然场景类别识
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功