金字塔场景解析网络的全局上下文信息与PSPNet的不同区域上下文聚合所实现的新方法的分析

111 浏览量更新于2023-10-15 收藏 2.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1金字塔场景解析网络赵恒双1石建平2齐晓娟1王晓刚1贾佳雅11香港中文大学2商汤科技集团有限公司{hszhao，xjqi，leojia}@ cse.cuhk.edu.hk，xgwang@ee.cuhk.edu.hk，shijianping@sensetime.com摘要场景分析是一个具有挑战性的开放式和多样化的场景。在本文中，我们利用全局上下文信息的能力，通过我们的金字塔池模块与建议的金字塔场景解析网络（PSPNet）的基于不同区域的上下文聚合。我们的全局先验表示在场景解析任务上产生良好质量的结果是有效的，而PSPNet为像素级预测提供了一个优越的框架所提出的方法在各种数据集上实现了最先进的性能它在2016年Im-ageNet场景解析挑战赛、PASCAL VOC2012 基准测试和Cityscapes 基准测试中获得第一名PSPNet在PASCAL VOC 2012上产生了85.4%的mIoU准确度和80.2%的Cityscapes准确度的新记录1. 介绍基于语义分割的场景分析是计算机视觉领域的一个目标是为图像中的每个像素分配类别标签。场景解析提供了对场景的完整理解。它预测每个元素的标签、位置和形状这个主题是广泛的兴趣的潜在应用自动驾驶，机器人传感，举几例。场景解析的难度与场景和标签的多样性密切相关先驱场景解析任务[23]是对LMO数据集[22]上的2，688个图像的33个场景进行分类最近的PASCAL VOC语义分割和PASCAL上下文数据集[8，29]包括更多具有相似上下文的标签，例如椅子和沙发、马和牛等。新的ADE20K数据集[43]是最具挑战性的一个，它拥有大量不受限制的开放词汇表和更多的场景类。图中显示了一些代表性图像。1.一、要开发出一种针对这些数据集的有效算法，需要克服一些困难。最先进的场景解析框架主要基于完全卷积网络（FCN）[26]。基于深度卷积神经网络（CNN）的方法可以提高动态对象的理解，但仍然面临挑战。图1. ADE20K数据集中复杂场景的图示。考虑到不同的场景和不受限制的词汇。图1的第一行示出了一个示例2、船被误认为是汽车。这些错误是由于对象的但是当在场景被描述为河流附近的船库之前查看关于上下文的图像时，应该产生正确的预测。为了准确的场景感知，知识图依赖于场景上下文的先验信息。我们发现，目前基于FCN的模型的主要问题是缺乏合适的策略来利用全局场景类别线索。对于典型的复杂场景理解，之前为了获得全局图像级特征，空间金字塔池化[18]被广泛采用，其中空间统计为整体场景解释提供了良好的空间金字塔池化网络[12]进一步增强了能力。与这些方法不同的是，为了结合合适的全局特征，我们提出了金字塔场景解析网络（PSPNet）。除了用于像素预测的传统扩张FCN [3，40]之外，我们将像素级特征扩展到专门设计的全局金字塔池化特征。局部和全局线索一起使最终预测更可靠。我们还提出了一个优化策略28812882深受监督的损失我们给出了所有的实现细节，这是我们在本文中体面表现的关键，并使代码和训练模型公开可用1。我们的方法在所有可用的数据集上实现了最先进的性能。它是ImageNet场景解析挑战赛2016的冠军[43]，并在PASCAL VOC 2012语义分割基准测试中获得第一名[8]，在城市场景Cityscapes数据中获得第一名[6]。它们表明PSPNet为像素级预测任务提供了一个有希望的方向，这甚至可能有利于基于CNN的立体匹配、光流、深度估计等。后续工作。我们的主要贡献有三方面。• 我们提出了一个金字塔场景解析网络嵌入困难的场景上下文功能的FCN为基础的像素预测框架。• 我们基于深度监督损失为深度ResNet [13]开发了一种有效的优化策略• 我们建立了一个实用的系统，国家的最先进的场景解析和语义分割，其中包括所有重要的实施细节。2. 相关工作在下文中，我们回顾了场景解析和语义分割任务的最新进展。在强大的深度神经网络[17，33，34，13]的驱动下，像场景解析和语义分割这样的像素级预测任务取得了很大的进展，这得益于用卷积层取代分类中的全连接层[26]。为了扩大神经网络的感受野，[3，40]的方法使用了扩张卷积。Noh等人[30]提出了一种由粗到细的结构，具有去卷积网络来学习分割掩模。我们的基线网络是FCN和扩张网络[26，3]。其他工作主要在两个方向进行。一条线[26，3，5，39，11]具有多尺度特征集成。因为在深度网络中，高层特征包含更多的语义含义和更少的位置信息。结合多尺度特征可以提高性能。另一个方向是基于结构预测。先驱性工作[3]使用条件随机场（CRF）作为后处理来细化分割结果。以下方法[25，41，1]通过端到端建模细化网络这两个方向都改善了场景解析的定位能力，其中预测的语义边界适合对象。然而，在复杂场景中仍有很大的空间来利用为了很好地利用全局图像级先验来进行各种场景理解，[18，27]的方法提取了具有传统特征的全局上下文信息，而不是来自深度神经网络。也进行了类似的改进1https://github.com/hszhao/PSPNet在对象检测框架下[35]。Liu等[24]证明了使用FCN的全局平均池化可以改善语义分割结果。然而，我们的实验表明，这些全球性的描述符是不够的挑战ADE20K数据的代表性。因此，与[24]中的全局池不同，我们通过金字塔场景解析网络通过基于不同区域的上下文聚合来3. 金字塔场景解析网络我们开始与我们的观察和分析的代表性失败的情况下，应用FCN方法场景解析。他们激励我们的金字塔池模块作为有效的全局上下文优先的建议。我们的金字塔场景解析网络（PSPNet）如图所示3，然后描述，以提高性能的开放词汇对象和复杂场景解析中的填充物识别。3.1. 重要意见新的ADE 20 K数据集[43]包含150个东西/对象类别标签（例如，墙、天空和树）和1，038个图像级场景描述符（例如，机场航站楼、卧室和街道）。因此，大量的标签和场景的广泛分布就形成了。检查[43]中提供的FCN基线的预测结果，我们总结了复杂场景解析的几个常见问题。不匹配关系语境关系是一种统一的关系，对于复杂场景的理解尤为重要.存在共同发生的视觉模式。例如，飞机很可能在跑道上或在天空中飞行，而不是在道路上。对于图中的第一行示例。2，FCN根据外观预测黄色盒子里的船是一辆“汽车”。但大家都知道，汽车很少能越过河流。缺乏收集上下文信息的能力增加了错误分类的机会。混淆类别在ADE 20K数据集[43]中有许多分类标签对在分类中令人困惑。例如：田地和土地;山和小山;墙、房子、建筑物和摩天大楼。它们具有相似的外观。标记整个数据集的专家注释器仍然会产生17.60%的像素误差，如[43]所述。在图的第二行。2、FCN预测框中的对象为摩天大楼的一部分和建筑物的一部分。这些结果应该被排除，这样整个对象要么是摩天大楼，要么是建筑物，而不是两者兼而有之。这个问题可以通过利用类别之间的关系来解决。不显眼的类场景包含任意大小的对象/东西。一些小东西，如路灯和招牌，很难找到，而他们可能是非常重要的。相反，大的物体或东西可能超过2883图2. 我们在ADE20K [43]数据集上观察到的场景解析问题。第一行显示了不匹配关系的问题第二行示出了混淆类别，其中类别第三行示出了不显眼的类。在该示例中，枕头在颜色和纹理方面与床单非常相似。这些不显眼的物体很容易被FCN错误分类。FCN的感受野，从而导致不连续的预测。如图3的第三行所示。2、枕头外观与床单相似。忽略全局场景类别可能无法解析枕头。为了提高对非常小或非常大的对象的性能，应该对包含不显著类别内容的不同子区域给予更多关注。总结这些观察，许多错误部分或完全与上下文关系和不同感受野的全局信息有关。因此，具有合适的全局场景级先验的深度网络可以大大提高场景解析的性能。3.2. 金字塔池模块通过以上分析，在下文中，我们引入金字塔池化模块，其经经验证明是有效的全局上下文先验。在深度神经网络中，感受野的大小可以大致指示我们使用上下文信息的程度。虽然理论上ResNet [13]的感受野已经大于输入图像，但Zhou等人表示。[42]CNN的经验感受野比理论感受野小得多，特别是在高层。这使得很多网络没有充分的融入全球的大风景。我们解决这个问题，提出了一个有效的全球事先表示。全局平均池是作为全局上下文先验的良好基线模型，其通常用于图像分类任务[34，13]。在[24]中，它被成功地应用于语义分割。但是对于ADE20K [43]中的复杂场景图像，这种策略不足以覆盖必要的信息。这些场景图像中的像素被注释了许多东西和对象。直接将它们融合成一个向量可能会失去空间关系并导致歧义。在这方面，全球背景信息以及次区域背景有助于区分各种类别。一个更强大的表示可以融合来自不同的子区域与这些感受野的信息在场景/图像分类的经典工作[18，12]中得出了类似的结论在[12]中，金字塔池化生成的不同层次的特征映射最终被展平并连接到一个完全连接的层中进行分类。该全局先验被设计为去除CNN的固定大小约束用于图像分类。为了进一步减少不同子区域之间的上下文信息损失，我们提出了一种分层的全局先验，包含不同尺度的信息，我们2884图3. 我们提出的PSPNet概述。给定一个输入图像（a），我们首先使用CNN来获得最后一个卷积层的特征图（b），然后应用金字塔解析模块来收获不同的子区域表示，然后进行上采样和级联层以形成最终的特征表示，其携带（c）中的局部和全局上下文信息最后，将表示馈送到卷积层以获得最终的每像素预测（d）。将其称为金字塔池化模块，用于在深度神经网络的最终层特征图上进行全局场景先验构造，如图11的部分（c）所示。3 .第三章。金字塔池化模块融合四种不同金字塔尺度下的特征。以红色突出显示的最粗糙级别是全局池化，以生成单个bin输出。下面的金字塔级别将特征图分成不同的子区域，并形成不同位置的池化表示。金字塔池模块中不同层次的输出包含不同大小的特征图。为了保持全局特征的权重，我们在每个金字塔层之后使用1×1卷积层来减少D-S。当金字塔的层数为N时，将上下文表示法的规模扩大到原上下文表示法的1/N。然后直接对低维特征图进行上采样，通过双线性插值得到与原始特征图大小相同的最后，不同级别的特征被连接为最终的金字塔池化全局特征。请注意，金字塔级别的数量和每个级别的大小可以修改。它们与馈送到金字塔池化层的特征图的大小有关该结构通过在几个步长内采用大小可变的池化核来提取不同的子区域因此，多阶段的核心应保持合理的代表性差距。我们的金字塔池化模块是一个四层的金字塔池化模块，其bin大小分别为1×1、2×2、3×3和6×6对于max和average之间的池化操作类型，我们在5.2节中进行了大量的实验以显示差异。3.3. 网络架构通过金字塔池化模块，我们提出了金字塔场景解析网络（PSPNet），如图所示3 .第三章。给定图中的输入图像。3（a），我们使用预训练的ResNet [13]模型和扩张网络策略[3，40]来提取特征图。最终特征图大小为输入图像的1/8，如图2所示3（b）款。的顶部上图4. ResNet101中的辅助损耗图示。每个蓝色框表示残余块。在res4b22剩余块之后添加辅助损耗。map，我们使用（c）中所示的金字塔池化模块来收集上下文信息。使用我们的4级金字塔，池化内核覆盖图像的全部、一半和小它们被融合为全局先验。然后，我们在（c）的最后一部分中将先验与原始特征图连接起来。其后是卷积层以生成（d）中的最终预测图。为了解释我们的结构，PSPNet提供了一个有效的全局上下文先验像素级场景解析。金字塔池化模块可以收集比全局池化更具代表性的信息级别[24]。在计算成本方面，我们的PSPNet与原始扩张的FCN网络相比并没有增加多少。在端到端学习中，可以同时优化全局金字塔池化模块和局部FCN特征。4. 基于ResNet的FCN深度监控深度预训练的网络具有良好的性能[17，33，13]。然而，增加网络的深度可能引入额外的优化困难，如[32，19]中所示用于图像分类。ResNet通过在每个块中跳过连接来解决这个深度ResNet的后一层主要是基于前一层学习残差。2885maxteri相反，我们建议通过具有额外损失的超级视觉生成初始结果因此，深度网络的优化被分解为两个，每个更容易解决。我们的深度监督ResNet101 [13]模型的示例如图所示。4.第一章除了使用softmax loss来训练最终分类器的主分支之外，在第四阶段之后应用另一个分类器，即，res4b22残差块。与中继反向传播[32]将向后辅助损失阻挡到几个浅层不同，我们让两个损失函数通过所有先前的层。辅助损失有助于优化学习过程，而主分支损失承担了最大的责任。我们增加重量来平衡辅助损失。在测试阶段，我们放弃了这个辅助分支，只使用优化好的主分支进行最终预测。这种针对基于ResNet的FCN的深度监督训练策略在不同的实验设置下广泛有用这体现了这种学习策略的普遍性。更多详情见第5.2节。5. 实验我们提出的方法是成功的场景解析和语义分割的挑战。我们在本节中对三个不同的数据集进行了评估，包括ImageNet场景解析挑战2016 [43]，PASCAL VOC2012语义分割[8]和城市场景理解数据集Cityscapes[6]。5.1. 实现细节对于一个实用的深度学习系统来说，细节永远是魔鬼。我们的实现基于公共平台Caffe [15].受[4]的启发，我们使用我们将基本学习率设置为0.01，功率设置为0.9。通过增加迭代次数可以提高性能，ImageNet实验的迭代次数为150K，PASCAL VOC为30K，Cityscapes为90K。动量和重量衰减分别设置为0.9和0.0001 对于数据增强，我们对所有数据集采用随机镜像和0.5到2之间的随机大小调整，并额外添加-10 至10 度之间的随机旋转，以及ImageNet 和PASCAL VOC的随机高斯模糊。这种全面的数据增强方案使网络抵抗过拟合。我们的网络包含扩展卷积，遵循[4]。在实验过程中，我们注意到一个AP-适当大的非常重要由于GPU卡上的物理内存有限，我们在训练期间将“batchsize”设置为16。为了实现这一点，我们修改了[37]中的Caffe以及方法平均IoU（%）像素Acc.（%）ResNet 50-基线37.2378.01ResNet50+B1+MAX39.9479.46ResNet50+B1+AVE40.0779.52ResNet50+B1236+MAX40.1879.45ResNet50+B1236+AVE41.0779.97ResNet50+B1236+MAX+DR40.8779.61ResNet50+B1236+AVE+DR41.6880.04表1. 不同设置的PSPNet调查。基线是具有扩张网络的基于ResNet50 的 FCN 。 ‘B1’ and ‘B1236’ denote pooled featuremaps of bin sizes2、3×3、6×6}。 ‘MAX’ and ‘AVE’ represent单独进行池化和平均池化操作。‘DR’在具有单尺度输入的验证集上测试结果。branch [4]，并使其支持基于OpenMPI的多个GPU收集的数据的批量归一化。对于辅助损失，我们在实验中将权重设置为0.4。5.2. ImageNet场景解析挑战赛2016数据集和评估指标ADE20K数据集[43]用于ImageNet场景解析挑战2016。Dif-与其他数据集不同，ADE20K对于多达150个类别和不同场景更具挑战性，1，038个图像级标签。挑战数据分为20 K/2K/3 K图像，用于训练、验证和测试。此外，它需要解析场景中的对象和内容，这使得它比其他数据集更困难。对于评估，像素精度（像素Acc.）和并集上的类相交的平均值（Mean IoU）。PSPNet的消融研究为了评估PSPNet，我们进行了几种设置的实验，包括最大值和平均值的池化类型，仅使用一个全局特征或四个级别特征的池化，在池化操作之后和连接之前进行和不进行维度缩减。如表1所示，在所有设置中，平均池化都比最大池化更有效使用金字塔解析的池比使用全局池的池更好。随着维数的减小，性能得到进一步提高. 使用我们提出的PSPNet，最佳设置在平均IoU和像素Acc方面产生41.68/80.04的结果。（%），超过了Liu et al. [24] 1.61/0.52。与基线相比，PSPNet的绝对改善率为4.45/2.03，相对改善率为11.95/2.60。辅助损失的消融研究引入的辅助损失有助于优化学习过程，同时不会影响主分支的学习。我们通过将辅助损失权重α设置在0和1之间进行实验，结果如表2所示。基线使用基于ResNet50的FCN，具有扩张的网络，主分支加辅助损耗2886减肥α平均IoU（%）像素Acc.（%）方法平均IoU（%）像素Acc.（%）ResNet50（无AL）35.8277.07[26]第二十六话29.3971.32ResNet50（α= 0.3）37.0177.87SegNet [2]21.6471.00ResNet50（α= 0.4）37.2378.01DilatedNet [40]32.3173.55ResNet50（α= 0.6）37.0977.84[43]第四十三话34.9074.52ResNet50（α= 0.9）36.9977.87ResNet 50-基线34.2876.35ResNet50+DA35.8277.07表2.在辅助分支中设置适当的损耗权重α是重要的。“AL”表示辅助损耗。基线是具有扩张网络的基于ResNet50的FCN。经验上，α= 0.4产生最佳性能。在单尺度输入的验证集上对结果进行了检验。图5. 性能随着网络的深入而增长。结果在具有单尺度输入的验证集上获得。方法平均IoU（%）像素Acc.（%）PSPNet（50）41.6880.04PSPNet（101）41.9680.64PSPNet（152）42.6280.80PSPNet（269）43.8180.88PSPNet（50）+MS42.7880.76PSPNet（101）+MS43.2981.39PSPNet（152）+MS43.5181.38PSPNet（269）+MS44.9481.69表3. 深度预训练的模型获得更高的性能。括号中的数字是指ResNet的深度，分支，α= 0.4产生最佳性能。它在平均IoU和像素Acc.（%）。我们相信，考虑到新的增强辅助损失，更深的网络将受益更多预训练模型的消融研究更深的神经网络在以前的工作中已经被证明是有益的大规模数据分类。为了进一步分析PSPNet，我们对预训练ResNet的不同深度进行了实验。我们测试{50，101，152，269}的四个深度。如图5，在相同的设置下，将ResNet的深度从50增加到269可以提高（Mean IoU + Pixel Acc.）/2（%）从60.86提高到62.35，绝对值提高了1.49表3中列出了从不同深度ResNet模型预训练的PSPNet的详细分数。ResNet50+DA+AL 37.23 78.01ResNet50+DA+AL+PSP41.68 80.04ResNet269+DA+AL+PSP43.8180.88ResNet269+DA+AL+PSP+MS44.9481.69表4. 详细分析了我们提出的PSPNet与其他人的比较。除了最后一行，我们的结果是在具有单尺度输入FCN、SegNet和DilatedNet的结果见[43]。“DA”指的是我们执行的数据增强，“AL”表示我们添加的辅助损耗，“PSP”表示拟议的PSPNet。‘MS’ means that multi-scale testing is秩队名最终得分（%）1我们57.212阿德莱德56.743360+MCG-ICT-CAS SP55.56-(our单一型号）（55.38）4SegModel54.655CASIA IVA54.33-DilatedNet [40]45.67-[26]第二十六话44.80-SegNet [2]40.79表5. ImageNet场景解析挑战赛2016的结果。列出了每个团队的最佳参赛作品。最终得分是Mean IoU和Pixel Acc的平均值。在测试集上评价结果。更详细的性能分析我们对表4中ADE 20K验证集的更详细分析。除最后一行结果外，其余结果均采用单尺度检验。“ResNet269+DA+AL+PSP+MS”使用多尺度测试。我们的基线是从具有扩张网络的ResNet50适应的，其产生MeanIoU 34.28和Pixel Acc。76.35.由于强大的ResNet [13]，它已经优于其他先前的系统我们提出的架构相比，基线进一步改进。使用数据增强，我们的结果超过基线 1.54/0.72 ，达到35.82/77.07。使用辅助损耗可进一步提高1.41/0.94，达到37.23/78.01。使用PSPNet，我们注意到4.45/2.03的改进相对更显着的进展结果达到41.68/80.04。与基线结果的差异在绝对改善方面为7.40/3.69（%），在相关性方面为21.59/4.83（%）更深的ResNet 269网络产生更高的性能，高达43.81/80.88。最后，多尺度测试方案将分数移动到44.94/81.69。使用所提出的架构，我们的团队在ImageNet场景解析中获得了第一名2887图7. PASCAL VOC 2012数据的视觉改进PSP- Net产生更准确和详细的结果。图6. PSPNet在ADE20K上进行了视觉改进，可生成更准确、更详细的结果。挑战2016表5显示了这一竞争的一些结果。我们的集成提交达到测试集上的得分57.21%。我们的单一模型收益率得分为55.38%，甚至高于其他几个多模型集成提交。该评分低于验证集，可能是由于验证集和测试集之间的数据分布差异。如列所示(d)图2、PSPNet解决了FCN中的常见问题图6显示了在ADE20K的验证集上的其他一些解析结果与基线相比，我们的结果包含更准确和详细的结构。5.3. Pascal VOC 2012我们的PSPNet在语义分割方面也取得了令人满意的效果。我们在PASCAL VOC 2012分割数据集[8]上进行了实验，该数据集包含20个在[26，7，31，3]的过程之后，我们使用具有anno的增强数据将[10]得到的10，582、1，449和1，456张图像用于训练、验证和测试。结果如表6所示，我们将PSPNet与之前基于两种设置的测试集上的最佳性能方法进行了比较，即，在MS-COCO数据集上进行或不进行预训练[21]。用MS-COCO预训练的方法标记为“0”。为了在场景解析/语义分割任务中与当前基于ResNet的框架[38，9，4我们用几个尺度的输入来评估PSPNet，并使用[3，24]的平均结果。如表6所示，PSPNet在两种设置上都优于先前的方法。仅使用VOC 2012数据进行训练，我们实现了82.6%的准确率2当PSPNet使用MS-COCO数据集进行预训练时，它达到了85.4%的准确率3，其中20个类别中有19个类别的准确率最高。有趣的是，我们仅使用VOC 2012数据训练的PSP- Net优于使用MS-COCO预训练模型训练的现有方法。有人可能会说，我们的分类模型比ResNet最近提出的几种现有方法更强大。为了展示我们独特的贡献，我们表明我们的方法也优于使用相同模型的最先进的框架，包括FCRN [38]，LRR [9]和DeepLab [4]。在这个过程中，我们甚至不使用耗时但有效的后处理，如CRF，如[4，9]。图中示出了几个示例7 .第一次会议。对于对于第二行和第三行中的“飞机”和“桌子”，PSPNet会找到缺失的部分。对于下面几行中的“人”、“瓶”和“植物”，与基线模型相比，PSP-Net在图像中的这些小尺寸对象类上表现良好。PSPNet和其他方法之间的更多可视化比较包括在我们的项目网站上。5.4. 城市景观Cityscapes [6]是最近发布的用于语义城市场景理解的数据集它包含从50个城市收集的5,000张高质量像素级精细注释图像2http://host.robots.ox.ac.uk:8080/anonymous/0OOWLP.html3http://host.robots.ox.ac.uk:8080/anonymous/6KIR41.html2888方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视 Miou[26]第二十六话76.8 34.2 68.9 49.460.375.3 74.7 77.621.462.546.871.863.976.573.945.272.437.4 70.9 55.162.2[28]第二十八话85.6 37.3 83.2 62.566.085.1 80.7 84.927.273.257.578.179.281.177.153.674.049.2 71.7 63.369.6DeepLab [3]84.4 54.5 81.5 63.665.985.1 79.1 83.430.774.159.879.076.183.280.859.782.250.4 73.1 63.771.6CRF-RNN [41]87.5 39.0 79.7 64.268.387.6 80.8 84.430.478.260.480.577.883.180.659.582.847.8 78.3 67.172.0DeconvNet [30]89.9 39.3 79.7 63.968.287.4 81.2 86.128.577.062.079.080.383.680.258.883.454.3 80.7 65.072.5GCRF [36]85.2 43.9 83.3 65.268.389.0 82.7 85.331.179.563.380.579.385.581.060.585.552.0 77.3 65.173.2DPN [25]87.7 59.4 78.4 64.970.389.3 83.5 86.131.779.962.681.980.083.582.360.583.253.4 77.9 65.074.1[20]第二十话90.6 37.6 80.0 67.874.492.0 85.2 86.239.181.258.983.883.984.384.862.183.258.2 80.8 72.375.3PSPNet91.8 71.9 94.7 71.275.895.2 89.9 95.939.390.771.790.594.588.889.672.889.664.0 85.1 76.382.6CRF-RNN† [41]90.4 55.3 88.7 68.469.888.3 82.4 85.132.678.564.479.681.986.481.858.682.453.5 77.4 70.174.7[7]第七话89.8 38.0 89.2 68.968.089.6 83.0 87.734.483.667.181.583.785.283.558.684.955.8 81.2 70.775.2[40]第四十话91.7 39.6 87.8 63.171.889.7 82.9 89.837.284.063.083.389.083.885.156.887.656.0 80.2 64.775.3DPN† [25]89.0 61.6 87.7 66.874.791.2 84.3 87.636.586.366.184.487.885.685.463.687.361.3 79.4 66.477.5[20]第二十话94.1 40.7 84.1 67.875.993.4 84.3 88.442.586.464.785.489.085.886.067.590.263.8 80.9 73.078.0[38]第三十八话91.9 48.1 93.4 69.375.594.2 87.5 92.836.786.965.289.190.286.587.264.690.159.7 85.5 72.779.1LRR† [9]92.4 45.1 94.6 65.275.895.1 89.1 92.339.085.770.488.689.488.686.665.886.257.4 85.7 77.379.3DeepLab† [4]92.6 60.4 91.6 63.476.395.0 88.4 92.632.788.567.689.692.187.087.463.388.360.0 86.8 74.579.7PSPNet†95.8 72.7 95.0 78.984.494.7 92.0 95.743.191.080.391.396.392.390.171.594.466.9 88.8 82.085.4表6.PASCAL VOC 2012测试集的每类结果在MS-COCO上预训练的方法标记为“0”。方法IoU类iIoU类爱猫iIoU猫CRF-RNN [41]62.534.482.766.0[26]第二十六话65.341.785.770.1SiCNN [16]66.344.985.071.2DPN [25]66.839.186.069.1[40]第四十话67.142.086.571.1LRR [9]69.748.088.274.7DeepLab [4]70.442.686.467.7[20]第二十话71.651.787.374.1PSPNet78.456.790.678.6LRR [9]71.847.988.473.9PSPNet网络80.258.190.678.2表7. Cityscapes测试集的结果。使用精细和粗略数据训练的方法标记为“0”。在不同的季节。这些图像被分为2，975，500和1，525组，用于训练，验证和测试。它定义了19个类别，包括东西和对象。此外，20，000个粗略注释的图像被提供用于两个设置进行比较，即，仅用精细数据或用精细和粗略数据两者进行训练使用精细和粗略数据训练的方法标记为“0”。详细结果见表7。我们的基础模型是DeepLab [4]中的ResNet101，用于公平比较，测试过程遵循第5.3节。表7中的统计数据表明，PSPNet优于其他方法，具有显著的优势。使用精细和粗略的数据进行训练，使我们的方法产生80.2的准确率。图中示出了几个示例。8.测试集上的详细的每类结果显示在我们的项目网站上。6. 总结发言我们提出了一个有效的金字塔场景解析网络复杂场景的理解。全球皮拉-图8. PSPNet在Cityscapes数据集上的结果示例。中间池化特征提供附加的上下文信息。我们还为基于ResNet的FCN网络提供了一种深度监督优化策略。我们希望公开的实现细节能够帮助社区采用这些有用的场景分析和语义分割策略，并推动相关技术的发展。确认我们要感谢孙刚（Gang Sun）和童晓（Tong Xiao）对基本分类模型的帮助。这项工作由香港特别行政区研究资助局拨款资助（项目编号：2150760）。2889引用[1] A. Arnab，S.Jayasumana，S.Zheng，和P.H. S. 乇深度神经网络中的高阶条件随机场。在ECCV，2016年。2[2] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。arXiv：1511.00561，2015。6[3] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。基于深度卷积网和全连接crfs的语义图像分割。arXiv：1412.7062，2014年。一、二、四、七、八[4] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。arXiv：1606.00915，2016。五七八[5] L. Chen，Y. Yang，J. Wang，W. Xu和A. L.尤尔。注意秤：尺度感知语义图像分割。在CVPR，2016年。2[6] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR，2016年。二、五、七[7] J. Dai，K. He和J. Sun. Boxsup：利用边界框来监督卷积网络进行语义分割。在ICCV，2015年。七、八[8] M. 埃弗灵厄姆湖，澳-地J. 诉古尔角K. I. 威廉斯，J.M.Winn和A.齐瑟曼。pascal视觉对象类VOC的挑战。IJCV，2010年。一、二、五、七[9] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯金字塔在ECCV，2016年。七、八[10] B. 哈里哈兰山口阿贝拉埃斯湖D. Bourdev，S.Maji和J.马力。从反向检测器的语义轮廓。见ICCV，2011年。7[11] B. 哈里哈兰山口A. 阿尔贝拉兹河。B. Girshick和J. 马利克用于对象分割和细粒度本地化的超列。CVPR，2015。2[12] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔2014年，在ECCV。第1、3条[13] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。二三四五六[14] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。5[15] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地B. Girshick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM MM，2014中。5[16] I. Kreso，D. Causevic，J. Krapac和S.赛格维奇语义分割的卷积尺度不变性在GCPR，2016年。8[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。二、四[18] S.拉泽布尼克角Schmid和J.庞塞除了功能袋之外：用于识别自然场景类别的空间金字塔匹配。CVPR，2006。一、二、三[19] C. 李，S。Xie，山核桃P.W. Gallagher，Z.zhang和Z.涂。深层监控网。InAISTATS，2015. 4[20] G. 林角，澳-地申岛D. Reid和A.范登亨格尔。用于语义分割的深度结构化模型的高效分段训练。在CVPR，2016年。8[21] T.林，M。迈尔，S。J. Belongie，J. Hays，P. Perona，D. Ra-manan ， P.Doll a'r 和 C. L. 齐特尼克Microsoftcoco ：上下文中的通用对象。2014 年，在ECCV。7[22] C. 刘，J.Yuen，和A.托拉尔巴非参数场景解析：通过密集场景对齐进行标签传输。CVPR，2009。1[23] C. 刘，J.Yuen，和A.托拉尔巴非参数场景解析，通过标签转移。TPAMI，2011年。1[24] W. Liu ，中国粘蝇 A. Rabinovich 和 A. C. 伯格。Parsenet：看得更宽，看得更好。arXiv：1506.04579，2015。二三四五七[25] Z. Liu，X. Li，P. Luo，C. C. Loy和X.唐基于深度解析网络的语义在ICCV，2015年。二、八[26] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。一二六七八[27] A. Lucchi，Y.Li，X.B. Bosch，K.Smith和P.呸分割真的需要空间约束和全局约束吗见ICCV，2011年。2[28] M. Mostaja

下载后可阅读完整内容，剩余1页未读，立即下载