ICNet：解决实时高分辨率图像语义分割挑战的网络

35 浏览量更新于2023-10-13 收藏 1.86MB PDF 举报

实时语义分割

深度卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ICNet用于高分辨率图像赵恒双1，齐晓娟1，沈晓勇2，石建平3，贾佳雅1， 21香港中文大学、2腾讯优图实验室、3商汤科技@cse.cuhk.edu.hk网址：dylanshen@tencent.com，shijianping@sensetime.com抽象。我们专注于具有挑战性的任务，实时语义分割在本文中。它发现了许多实际应用，但从根本上难以减少大部分的计算像素明智的标签推理。我们提出了一个图像级联网络（ICNet），结合多分辨率分支下适当的标签指导，以解决这一挑战。我们提供了深入的分析，我们的框架，并介绍了级联特征融合单元，以快速实现高质量的分割。我们的系统在单个GPU卡上产生实时推理，并在Cityscapes、CamVid和COCO-Stuff等具有挑战性的数据集上获得了不错的质量结果关键词：实时，高分辨率，语义分割1介绍语义图像分割是计算机视觉中的一项基本任务。它预测图像中所有像素的密集标签，被认为是一个非常重要的任务，可以帮助深入理解场景，物体和人。最近深度卷积神经网络（CNN）的发展在语义分割方面取得了显着进展[1，2，3，4，5，6]。这些网络的有效性在很大程度上取决于关于深度和宽度的复杂模型设计，其必须涉及许多操作和参数。基于CNN的语义分割主要利用完全卷积网络（FCN）。现在普遍的看法是，结果准确性的提高几乎意味着更多的操作，特别是对于像语义分割这样的像素级预测任务。为了说明它，我们在图中显示。1（a）Cityscapes [ 7]数据集上不同框架的准确性和推理时间。快速语义分割的现状与高质量语义分割的非凡发展相反，使语义分割快速运行而不牺牲太多质量的研究仍然落后。我们注意到，实际上这一工作线同样重要，因为它可以激发或实现许多实际任务，例如自动驾驶，机器人交互，在线视频处理，甚至移动计算，其中运行时间成为评估系统性能的关键因素。2H. Zhao，X. Qi，X. Shen，J. Shi，J. 贾(a) 推理速度和mIoU（b）PSPNet50每层的时间Fig. 1. （a）1：Cityscapes [7]测试集上的推理速度和mIoU性能。涉及的方法有PSPNet [5]、ResNet38 [6]、DUC [10]、RefineNet [11]、FRRN [12]、DeepLabv2-CRF[13]、Dilation10 [14]、DPN [15]、FCN-8s [1]、DeepLab [2]、CRF-RNN [16]，SQ [9]，ENet [8]，SegNet [3]和ICNet。（b）：对于两个输入图像，在PSPNet 50上花费的时间，具有膨胀8粗略的运行时间与像素数和内核数成正比我们的实验表明，ResNet 38 [6]和PSP- Net [5]的高精度方法在测试期间需要大约1秒才能在一个Nvidia TitanX GPU卡上预测1024× 2048的高分辨率图像这些方法属于图1所示的领域。1（a）具有高精度和低速度。相反，ENet [8]和SQ [9]的最近的快速语义分割方法在图中采取了完全不同的位置。速度大大加快;但准确性下降，其中最终mIoU低于60%。这些方法位于图中的右下方阶段。我们的重点和贡献在本文中，我们专注于建立一个实用的快速语义分割系统与体面的预测精度。我们的方法是同类方法中第一个定位在图1所示的右上方区域的方法1（a），并且是仅有的两种可用的实时方法之一。它在效率和准确性之间实现了不错的权衡。与以往的体系结构不同，我们综合考虑了速度和精度这两个看似收缩的因素我们首先深入分析了语义分割框架的时间预算，并进行了大量的实验，以证明直观的加速策略的不足这激发了图像级联网络（ICNet）的发展，ICNet是一种具有体面质量的高效分割系统它充分利用了低分辨率图像的处理效率和高分辨率图像的高推理质量这个想法是让低分辨率的图像通过完整的语义感知1使用下采样图像测试蓝色的。推理速度报告为sin-⋆角网络向前，同时几个mIoU目标方法的准确性（如PSPNet）可能包含测试技巧，如多尺度和翻转，导致更多的时间。有关详细信息，请参见补充材料。用于实时语义分割的ICNet3网络首先用于粗略预测图。提出了级联特征融合单元和级联标签引导策略，融合中高分辨率特征，逐步细化粗语义图我们将所有的代码和模型公开2.我们的主要贡献和业绩统计如下。– 我们开发了一种新颖独特的图像级联网络用于实时语义分割，它有效地利用了低分辨率图像的语义信息以及高分辨率图像的细节。– 所开发的级联特征融合单元与级联标签引导一起可以以低计算成本逐步恢复和细化分割预测– 我们的ICNet实现了5倍的推理时间加速，并减少了5倍的内存消耗。它可以以30 fps的速度以1024×2048的高分辨率运行，同时实现高质量的结果。它在各种数据集上产生实时推理，包括Cityscapes [7]，CamVid [17]和COCO-Stuff [18]。2相关工作传统的语义分割方法[19]采用手工特征来学习表示。最近，基于CNN的方法在很大程度上提高了性能。高质量语义分割FCN [1]是用卷积层替换分类中最后一个全连接层的先驱工作。DeepLab [2，13]和[14]使用扩张卷积来扩大密集标记的感受野。编码器-解码器结构[3，4]可以将来自较晚层的高级语义信息与来自较早层的空间信息相结合。多尺度特征集成也用于[20，21，22]中。在 [2 ， 15 ， 16] 中，条件随机场（ CRF ）或马尔可夫随机场（MRF）被用来模拟空间关系。Zhao等人[5]使用金字塔池来聚合全局和局部上下文信息。Wu等[6]采用了更宽的网络来提高性能。在[11]中，多路径细化网络结合了多尺度图像特征。这些方法是有效的，但排除实时推理。高效语义分割在目标检测中，速度成为系统设计中的一个重要因素[23，24]。最近的Yolo [25，26]和SSD [27]是代表性的解决方案。相比之下，语义分割中的高速推理未被[8]和[28]是轻量级网络。这些方法大大提高了效率，但显著牺牲了精度。2https://github.com/hszhao/ICNet4H. Zhao，X. Qi，X. Shen，J. Shi，J. 贾′ ′′视频语义分割视频在帧中包含冗余信息，可以利用这些冗余信息来减少计算量。最近的Clockwork [29]在稳定的视频输入下重用特征图。深度特征流[30]基于小规模光流网络，将特征从关键帧传播到其他帧。FSO [31]使用应用于优化特征的密集CRF执行结构化预测，以获得时间一致的预测。NetWarp [32]利用相邻帧的光流来跨视频序列中的时间空间扭曲内部特征我们注意到，当一个良好的准确性快速图像语义分割框架的存在，视频分割也将受益。3图像级联网络我们首先通过实验统计分析高性能分割框架PSPNet [5]上不同组件的计算时间预算。然后，我们介绍了图像级联网络（ICNet），如图所示2、配合级联特征融合单元和级联标签引导，进行快速语义分割。3.1速度分析在卷积中，将变换函数Φ应用于输入特征图V∈Rc×h×w，得到输出映射U∈Rc×h×w，其中c、h和w分别表示特征通道、高度和宽度。所述变换操作Φ：V→U是通过应用c′个3D核K∈Rc×k×k来实现的，其中k×k（例如，3× 3）是核空间大小。因此，在卷积层中的操作O（Φ）的总数是c′ck2h′w′。输出映射h′和w′的空间大小与输入高度相关，由参数步长s控制为h ′=h/s，w′=w/s，O（Φ）≈c′ck2hw/s2。（一）计算复杂度与特征图分辨率（例如，h，w，s），核的数量和网络宽度（例如，c，c′）。图1（b）示出了PSPNet50中两个分辨率图像的时间成本。蓝色曲线对应于大小为1024× 2048的高分辨率输入，绿色曲线对应于分辨率为512× 1024的图像。计算量随着图像分辨率的增加而增加。对于任一曲线，阶段4和阶段5中的特征图具有相同的空间分辨率，即，原始输入的1 / 8;但是阶段5中的计算比阶段4中的计算重四倍。这是因为阶段5中的卷积层将内核c的数量与输入通道c’一起加倍。3.2网络架构根据上述时间预算分析，我们在实验中采用直观的加速策略，将在第二节中详细说明。5，包括下采样输入，收缩特征图和进行模型压缩。的相应结果用于实时语义分割的ICNet5了图二、网络工作是IC网络的一个重要组成部分。“C FF's t and s forr ca s cad e e t u re fu s lO n d e led in Sec. 三点三括号中的数字是与全分辨率输入的特征图大小比率。操作在括号中突出显示底部分支中的最终×4上采样仅在测试期间使用。表明在推理精度和速度之间保持良好平衡是非常困难的直观的策略是有效的，以减少运行时间，而他们产生非常粗糙的预测图。直接将高分辨率图像输入网络在计算中是难以忍受的。我们提出的系统镜像级联网络（ICNet）并不是简单地选择任何一种方式。相反，它采用级联图像输入（即，低、中、高分辨率图像），采用级联特征融合单元（Sec. 3. 3），并接受级联标签指导（第3. 4）.新架构如图所示。二、具有全分辨率的输入图像（例如，Cityscapes [7]中的1024× 2048）以2和4的因子进行下采样，形成对中分辨率和高分辨率分支的级联输入。直接使用FCN等经典框架对高分辨率输入进行分段非常耗时。为了克服这个缺点，我们使用低分辨率输入来获得语义提取，如图1的顶部分支所示。二、一个1/ 4大小的图像，年龄馈入PSPNet与下采样率8，在1/32分辨率的特征地图的结果。为了得到高质量的分割，需要中等分辨率和高分辨率的分支（图1中的中间部分和底部部分）。2）帮助恢复和细化粗略预测。虽然在顶部分支中缺少一些细节并且生成模糊的边界，但是它已经收获了大部分语义部分。由此安全地限制中间和底部分支中的参数数量。在较高分辨率分支中采用轻加权CNN（绿色虚线框）;不同分支输出特征图由级联特征融合单元（Sec. 3.第三章。3）并接受级联标签指导（第3.第三章。4）.虽然顶部分支基于完整的分割主干，但输入分辨率低，导致计算有限。即使对于具有50+层的PSPNet，推理时间和内存也仅为18ms，对于6H. Zhao，X. Qi，X. Shen，J. Shi，J. 贾2n，y，x城市景观。因为权重和计算（在17层中）可以在低分支和中分支之间共享，所以仅花费6ms来构建融合图。底部分支的层数更少。虽然分辨率很高，但推理只需要9ms。该体系结构的详细信息见补充文件。有了所有这三个分支，我们的ICNet成为一个非常有效和内存友好的架构，可以实现高质量的分割。3.3级联特征融合为了组合来自不同分辨率输入的级联特征，我们提出了如图所示的级联特征融合（CFF）单元。3.第三章。该单元的输入包含三个组件：两个特征图F1和F2，大小分别为C1×H1×W1和C2×H2×W2，以及一个分辨率为1×H2×W2的地面真值标签。F2的空间大小是F1的两倍。我们首先通过双线性插值对F1应用上采样率2，从而产生与 F2相同的空间大小。然后应用具有核大小C3×3× 3和膨胀2的膨胀卷积层由此产生的要素与大小图三. 级联特征融合。C3×H2×W2。这种扩张卷积结合了来自several- eral最初相邻像素的特征信息与反卷积相比，上采样随后的扩张卷积仅需要小的核，以收获相同的感受野。为了保持相同的感受野，去卷积需要比具有扩张卷积的上采样更大的核大小（即，7× 7与3× 3），这会导致更多的计算。对于特征F2，利用具有核大小C3×1× 1的投影卷积来投影F2，使得其具有与F1的输出相同的通道数。然后使用两个批归一化层来归一化这两个经处理的数据，如图1中所示。3.第三章。然后通过一个简单的分层和一个“ReLU”层，得到融合特征F ′为C3 × H2 × W2。为了增强F1的学习，我们在F1的上采样特征上使用辅助标签指导。3.4级联标签指南为了提高每个分支的学习过程，我们采用了级联标签指导策略。它利用不同的尺度（例如，1/ 16、1/ 8和1/ 4）地面实况标签来指导低、中和高分辨率输入的学习阶段。给定T个分支（即，T=3）和N类别。在分支t中，特征图Ft具有空间大小Yt×Xt。在位置（n，y，x）处的值是Ft。对于2Dp〇ition（y，x）的计算结果是：为了恢复IC网络，用于实时语义分割的ICNet7Ftt见图4。语义分割框架的比较。(a)FCN [1]和Hypercolumns [21]使用的中间跳过连接。(b)SegNet [3]、DeconvNet [4]、UNet [33]、ENet [8]中包含的编码器-解码器结构，以及LRR [34]和RefineNet [11]中的逐步重建(c)DeepLab-MSC [2]和PSPNet-MSC [5]采用的多尺度预测集成（d）我们的ICNet架构。我们在每个分支中附加加权softmax交叉熵损失，并具有相关的损失权重λt。因此，我们最小化损失函数L，定义为ΣT1ΣYt ΣXt不enx，y，xL=−t=1λtY Xy=1x=1对数ΣNn=1etn，y，x .（二）在测试阶段，简单地放弃了低和中制导操作，仅保留高分辨率分支该策略使梯度优化更平滑，便于训练。由于每个分支具有更强大的学习能力，最终的预测图不受任何单个分支的支配。4结构比较与分析现在，我们说明ICNet与现有的级联架构的语义分割的差异在先前的语义分割系统中的典型结构在图1中示出。4.第一章我们提出的ICNet（图。4（d））在性质上与其他不同。在给定高分辨率输入的情况下，先前的框架都具有相对密集的而在我们的级联结构中，只有最低分辨率的输入被馈送到重CNN中，计算量大大减少，较高分辨率的输入被设计为逐步恢复和细化关于模糊边界和缺失细节的预测。因此，它们由轻量CNN处理。新引入的级联特征融合单元和级联标签引导策略将中高分辨率的特征融合在一起，逐步细化粗语义图。在这种特殊的设计中，ICNet实现了高效率的推理和合理质量的分割结果。F8H. Zhao，X. Qi，X. Shen，J. Shi，J. 贾5实验评价我们的方法是有效的高分辨率图像。我们评估建筑师-在三个具有挑战性的数据集上，包括图像分辨率为1024× 2048的城市场景理解数据集Cityscapes [7]，图像分辨率为720× 960的CamVid [17]和图像分辨率高达640× 640的素材理解数据集COCO-Stuff [18]。COCO-Stuff与VOC 2012 [35]和ADE 20 K [36]的对象/场景分割数据集之间存在显著差异。在后两组中，大多数图像具有低分辨率（例如，300× 500），已经可以快速处理了。而在COCO-Stuff中，大多数图像更大，这使得它更难以实现实时性能。在下文中，我们首先展示直观的加速策略及其缺点，然后通过定量和可视化分析揭示我们的改进。5.1实现细节我们基于Caffe平台进行实验[37]。所有实验都在具有Maxwell TitanXGPU卡的工作站上进行，在CUDA 7.5和CUDNN V5下。我们的测试只使用一张卡。为了测量前向推理时间，我们将时间间隔设置为“Cafftime”，并将时间间隔设置为100，以消除测试期间的将批归一化层中的所有参数合并到相邻的前卷积层中。对于训练超参数，最小批量大小设置为16。在e处的基线为0。01，并且该多项式学习算法的迭代次数被调整为低 0.9 ，并且对于Cityscapes，最大迭代次数被CamVid 10K，COCO-Stuff 30K。动量为0.9，重量衰减为0.0001。数据扩充包含随机镜像和随机调整大小0.5和2.辅助损失权重对于λ1和λ2经验性地设置为0.4，对于λ3在等式2中经验性地设置为1。2，如[5]中所采用的。对于评估，使用类式交集的均值（mIoU）和网络转发时间（Time）5.2城市景观我们首先将我们的框架应用于最近的城市场景理解数据集Cityscapes[7]。该数据集包含高分辨率的1024× 2048图像，这使得快速语义分割面临巨大挑战。它包含5，000张精细注释的图像，分为训练集，验证集和测试集，分别为2，975，500和1，525张图像密集注释包含30种常见的道路、人、汽车等类别。其中19个用于训练和测试。直观的加速比根据等式2所示的时间复杂度（1），我们在三个方面进行直观的加速，即下采样输入、下采样特征和模型压缩。用于实时语义分割的ICNet9(a) 输入图像（b）地面实况（c）色图(d)标度0.25（42 ms/60.7%）（e）标度0.5（123 ms/68.4%）（f）标度1（446 ms/71.7%）图五. 下采样输入：在Cityscapes的验证集上预测PSPNet50。括号中的值是推理时间和mIoU。表1. 左：因子为8、16和32的下采样功能。右：模型压缩与核心保持率1，0.5和0.25。下采样大小81632mIoU（%）时间（ms）71.7 70.2 67.1446177131核心保持率10.50.25mIoU（%）时间（ms）71.7 67.9 59.444617072下采样输入图像分辨率是影响运行速度的最关键因素，如第3.1. 一种简单的方法是使用小分辨率图像作为输入。我们以1/ 2和1/ 4的比例对图像进行下采样测试我们直接将预测结果上采样到原始大小。这种方法经验上具有如图1B所示的五、在缩放比为0.25的情况下，尽管推断时间减少了很大的幅度，但是预测图非常粗糙，与更高分辨率的预测相比，丢失了许多小但重要的细节。在缩放比为0.5的情况下，与0.25的情况相比，预测恢复更多的信息。不幸的是，远离相机的人和交通灯仍然缺失，并且对象边界模糊。更糟糕的是，对于实时系统来说，运行时间仍然太长。除了直接对输入图像进行下采样之外，另一个简单的选择是在推理过程中以较大的比例缩小特征图。FCN [1]对它进行了32次下采样，DeepLab[2]这样做了，八次。我们使用1：8、1：16和1：32的下采样率测试PSPNet50并在表1的左侧显示结果。较小的特征图可以以牺牲预测精度为代价产生更快的推断。丢失的信息主要是包含在低级别层中的细节。此外，即使在比率为1：32的情况下得到最小的特征图，系统仍然需要131ms的推理时间。10H. Zhao，X. Qi，X. Shen，J. Shi，J. 贾项目基线sub4 sub24 sub124表2. 具有不同分支的ICNet在Citysapes验证集上的性能。该数据库是一个精简的数据库，需要50个组件。“U B 4 ” 、 “ U B 2 4 ” 和 “ U B 1 2 4 ” 分别表示低、中和高分辨率分支中的预测。mIoU（%）67.959.666.567.7时间（ms）170182533帧（fps）5.955.64030.3加速比1×9.4×6.8倍5.2×内存（GB）9.20.61.11.6存储器节省1×15.3×8.4×5.8倍表3. 级联特征融合单元（CFF）和级联标签引导（CLG）的有效性。DC3DC5DC7 CFFCLGmIoU（%）时间（ms）CCCCCC66.7 3166.7 3468.0 38CC67.7 33C66.8 33除了上述两种策略，另一种降低网络复杂度的自然方法是在每一层中修剪内核近年来，由于需求量大，压缩解[38，39，40，41]可以在用户控制的精度降低下使复杂的网络简化为较轻的网络。我们在我们的分割模型上采用了[41]对于每个滤波器，我们首先计算核1-范数的和。然后，我们将这些求和结果按降序排序，只保留最重要的结果。不幸的是，该策略也不满足我们的要求，给出了表1右侧列出的压缩模型。即使只保留四分之一的内核，推理时间仍然太长。同时，相应的mIoU低得令人无法忍受我们对级联分支进行了消融研究，结果如表2所示。我们的基线是半压缩的PSPNet50，170ms的推断时间产生与mIoU减少到67.9%。结果表明，在保证分割质量的前提下，模型压缩几乎没有机会达到实时性。基于这一基础，我们用于实时语义分割的ICNet11方法DR mIoU（%）时间（ms）帧（fps）表4. 在图像分辨率为1024 × 2048的Cityscapes测试集上预测mIoU和推理时间。“DR”测试和“在测试过程中以一个简单的比例进行的数据处理”（例如：g，DR=4表示在分辨率256× 512下进行测试）。使用精细数据和粗糙数据两者训练的方法被称为“h”。SegNet [3]457.06016.7ENet [8]258.31376.9SQ [9]没有59.86016.7CRF-RNN [16]262.57001.4DeepLab [2]263.140000.25FCN-8S [1]没有65.35002扩张10 [14]没有67.140000.25[12]271.84692.1PSPNet3 [5]没有81.212880.78ICNet没有69.53330.3ICNet†没有70.63330.3在不同的分支上测试ICNet。为了示出所提出的级联框架的有效性，我们将低分辨率、中分辨率和高分辨率区块的输出表示为‘s ub 4’、‘sub 24’和‘s ub 124’，其中，所述多个区块被存储并用于所述级联框架。设置的ub4’仅使用具有较低分辨率输入的操作。UB24’和UB124’的每个都是可选择的，并且都是可接收的。我们在Cityscapes的验证集上测试了这三种设置，并在表2中列出了结果。仅使用低分辨率输入分支，虽然运行时间短，但结果质量下降到59.6%。使用两个和三个分支，我们将mIoU分别增加到66.5%和67.7%运行时间仅增加了7ms和8ms。请注意，我们的分割质量几乎与基线相同，但速度快了5.2倍内存消耗明显减少了5.8倍。级联结构还对级联特征融合单元和级联标签制导进行了烧蚀研究。结果示于表3中。与3× 3核和5× 5核的反卷积层相比，级联特征融合单元在推理效率相近的情况下获得了更高的mIoU性能。mIoU的性能与具有7×7的较大核的反卷积层相比，接近，而级联特征融合单元产生更快的处理速度。如果没有级联标签指导，性能会下降很多，如最后一行所示方法比较我们最后列出了我们提出的ICNet在Cityscapes测试集它在训练和3单次网络转发耗时1288ms（使用TitanX Maxwell，Pascal为 680ms），而mIoU旨在提高性能的测试（81.2% mIoU）耗时51.0s。12H. Zhao，X. Qi，X. Shen，J. Shi，J. 贾(a)输入图像（b）地面实况（c）色图(d)sub4 branch（e）sub24 branch（f）sub124 branch图六、Cityscapes数据集上每个分支中ICNet的可视化预测改进(a)输入图像（b）diff1（c）diff2(d)sub4 branch（e）sub24 branch（f）sub124 branch了图7.第一次会议。 Visualprdicinmpr ementofICNet. 当区域1’和区域2’不完全区分两个节点的子节点24’和子节点4’时，并且两个节点的子节点124’和子节点24’是完全区分的。Cityscapes的90K迭代验证集结果见表4。报告的mIoU和其他方法的运行时间显示在官方Cityscapes排行榜中。为了公平起见，我们不包括没有报告运行时间的方法这些方法中的许多可能已经采用耗时的多尺度测试以获得最佳结果质量。我们的ICNet产生mIoU 69.5%。它甚至在数量上优于几种不关心速度的它比ENet [8]和SQ [9]高约10个点。使用精细和粗略数据进行训练，将mIoU性能提高到70.6%。ICNet是一个30fps的方法，在1024×2048分辨率的图像上，只使用视频示例可通过链接4访问。外观改善图图6和图7显示了ICNet在Cityscapes上的可视化结果。通过提出的渐进特征融合步骤和级联标签指南，4https://youtu.be/qWl9idsCuLQ用于实时语义分割的ICNet13图8. 连通元件精度变化的定量分析表5. CamVid测试集的结果，时间报告分辨率为720× 960。表6. COCO-Stuff测试集的结果，时间报告分辨率为640×640。方法Miou时间帧方法Miou时间帧结构，我们产生体面的预测结果。有趣的是，子模块的输出可以同时捕获一系列简单的几何结构。但是，由于低分辨率输入，预测是粗略它忽略了一些小尺寸的重要区域，如电线杆和交通标志。在中等分辨率信息的帮助下，这些区域中的许多区域被重新定位并且被重新显示为在其子24’臂中所示。不可能的是，远离相机的对象（诸如，几个人）仍然以模糊的对象边界而丢失。该分支124’的分支具有输入这些细节的完整搜索，该分支的输出无疑是最好的。这表明，我们的不同分辨率的信息是适当地利用在这个框架。定量分析为了进一步理解每个分支中的准确性增益，我们基于连接的组分定量分析预测的标记图对于每个连通区域Ri，我们计算其包含的像素数，表示为Si。然后，我们将在对应的图中正确预测的像素的数量计数为si。因此，Ri中的预测区域准确度Pi是si/Si。根据区域大小Si，我们将这些区域投影到具有间隔K的直方图H上，并将所有相关区域准确度pi平均作为当前bin的值。在实验中，我们将直方图的bin大小设置为30，间隔K设置为3，000。因此，它覆盖1至90K之间的区域大小S1我们忽略了有大小的区域（%）（毫秒）FPSSegNet [3]46.42174.6DPN [15]60.18301.2DeepLab [2]61.62034.9扩张8 [14]65.32274.4PSPNet50 [5]69.11855.4（%）（毫秒）FPS简体中文[CN]DeepLab [2]PSPNet50 [5]22.726.932.61691241515.98.16.614H. Zhao，X. Qi，X. Shen，J. Shi，J. 贾超过90K。图8示出了每个箱中的准确度变化。蓝色直方图显示的是子块24’和子块4’之间的差异，而该直方图显示的是子块124’和子块24’之间的差异。对于这些图，大的差异主要在具有小区域尺寸的前仓上。这表明，交通信号灯和电线杆等小区域物体在我们的框架中可以得到很好的改善。在此之前，存储器区域的位置，提供该子块24’可以在子块4’的所有节点上进行存储。用户的UB 124'也可以与用户的UB 24'进行比较。5.3CamVidCamVid [17]数据集包含从分辨率高达720× 960的高分辨率视频序列中提取的图像。为了便于与以前的工作进行比较，我们采用Sturgess等人的分裂。[42]，它将数据集划分为367、100和233张图像，分别用于训练、验证和测试。11个语义类用于评估。测试结果如表5所示，我们的基本模型是没有压缩的PSPNet50。ICNet在这种高分辨率上的推理速度比其他方法快得多，实时速度达到27.8 fps，比第二种快5.7倍，比基本模型快5.1倍。除了高效率外，它还实现了高质量的分割。视觉结果见补充材料。5.4COCO-StuffCOCO-Stuff [18]是最近基于MS-COCO [43]标记的数据集，用于上下文中的内容分割。我们在[18]中分割后评估ICNet，9K图像用于训练，另外1K用于测试。这个数据集对于多个类别来说要复杂得多表6示出了测试结果。ICNet对于常见事物和材料的理解仍然表现令人满意它比现代分割框架（如FCN和DeepLab）更有效和准确。与我们的基线模型相比，它实现了5.4倍的加速比。补充材料中提供了视觉预测6结论我们提出了一个实时语义分割系统ICNet。它结合了有效的策略，以加快网络推理速度，而不牺牲太多的性能。主要贡献包括新的框架保存- ING操作在多个分辨率和功能强大的融合单元。我们相信速度和准确性的最佳平衡使我们的系统非常重要，因为它可以使许多其他需要快速场景和对象分割的任务它极大地增强了语义分割在其他学科中的实用性。用于实时语义分割的ICNet15引用1. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：CVPR中。（2015年）2. Chen，L.，中国地质大学，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：基于深度卷积网和全连接crfs的语义图像分割ICLR（2015年）3. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器-解码器架构。arXiv：1511.00561（2015）4. 诺H Hong，S.，汉，B.：用于语义分割的学习反卷积网络。In：ICCV.（2015年）5. 赵，H.，施，J.，Qi，X.，王，X.，Jia，J.：金字塔场景解析网络。在：CVPR中。（2017年）6. 吴志，Shen，C.，van den Hengel，A.：更宽或更深：重新审视用于视觉识别的resnet模型。1611.10080（2016）7. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集在：CVPR中。（2016年）8. Paszke，A.，Chaurasia，A.，Kim，S.，Culurciello，E.：Enet：用于实时语义分割的深度神经网络架构。arXiv：1606.02147（2016）9. Treml，M.，Arjona-Medina，J.，Unterthiner，T.，杜尔杰什河Friedmann，F.，Schu-berth，P.，Mayr，A.，Heusel，M.，Hofmarcher，M.，Widrich，M.，Nessler1，B.，Hochre- iter，S.：加速自动驾驶的语义分割。NIPS工作-商店（2016）10. 王，P.，陈佩，Yuan，Y.，Liu，D.，中国科学院，黄志，侯，X.，Cottrell，G.W.：理解语义分割的卷积1702.08502（2017）11. 林，G.，Milan，A. Shen，C.，Reid，ID：Refinenet：用于高分辨率语义分割的多路径细化网络。在：CVPR中。（2017年）12. Pohlen，T.，Hermans，A. Mathias，M.，莱贝B：用于街道场景语义分割的全分辨率残差网络。在：CVPR中。（2017年）13. Chen，L.，中国地质大学，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。1606.00915（2016）14. 余，F.，Koltun，V.：通过扩张卷积的多尺度上下文聚合ICLR（2016）15. 刘志，Li，X.，Luo，P.，Loy，C.C.，唐X：基于深度解析网络的语义图像分割。In：ICCV. （2015年）16. Zheng，S.，中国科学院，Jayasumana，S.，Romera-Paredes，B.Vineet，V.，苏、Z.Du，D.，黄，C.，Torr，P.H.S.：作为递归神经网络的条件随机场In：ICCV.（2015年）17. 布罗斯托，G.J.Fauqueur，J.，Cipolla，R.：视频中的语义对象类：一个高清晰度地面实况数据库。02 The Dog（2009）18. 凯撒H Uijlings，J.，Ferrari，V.：Coco-stuff：上下文中的事物和东西类。arXiv：1612.03716（2016）19. 刘，C.，Yuen，J.，Torralba，A.：通过标签转移的非参数场景解析。TPAMI（2011）20. Chen，L.，中国地质大学，杨，Y.，王杰，徐伟，Yuille，A.L.：注意尺度：尺度感知的语义图像分割。在：CVPR中。（2016年）21. Hariharan，B. Ar bela'ez，P. 一、 Girshi ck，R. B、 Malik，J. ：用于对象分割和细粒度定位的Hype rco lums。在：CVPR中。（2015年）16H. Zhao，X. Qi，X. Shen，J. Shi，J. 贾22. Xia，F.，中国农业大学，王，P.，Chen，L.，中国地质大学，Yuille，A.L.：放大以看得更清楚：使用分层自动缩放网络的人和对象解析。In：ECCV. （2016年）23. Girshick，R.：快速R-CNN。 In：ICCV. （2015年）24. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。在：NIPS。（2015年）25. Redmon，J.，Divvala，S.K.，Girshick，R.B.，Farhadi，A.：只需查看一次：统一的实时物体检测。在：CVPR中。（2016年）26. Redmon，J.，Farhadi，A.：YOLO9000：更好、更快、更强。在：CVPR中。（2017年）27. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.E.，Fu，C.，Berg，A.C.：Ssd：单发多盒探测器。In：ECCV. （2016年）28. Romera，E.，Alvarez，J.M.，Bergasa，L.M.阿罗约河：用于实时语义分割的高效convnet智能汽车研讨会（IV）。（2017年）29. Shelhamer，E.，Rakelly，K.Hoffman，J.，达雷尔，T.：用于视频语义分割的发条式卷积网络在：ECCV车间。（2016年）30. Zhu，X.，Xiong，Y.，Dai，J.，Yuan，L.魏云：用于视频识别的深度特征流在：CVPR中。（2017年）31. Kundu，A.Vineet，V.，Koltun，V.：语义视频分割的特征空间优化在：CVPR中。（2016年）32. 加德河Jampani，V.，Gehler，P.V.：通过表示变形的语义视频cnnsIn：ICCV. （2017年）33. Ronneberger，O.，Fischer，P.，Brox，T.：U-net：用于生物医学图像分割的卷积网络。在：MICCAI. （2015年）34. Ghiasi，G.，Fowlkes，C.C.：用于语义分割的拉普拉斯金字塔重构与精化。In：ECCV. （2016年）35. Everingham，M. Gool，L.J.V.，威廉姆斯，C.K.I.，Winn，J.M.，齐瑟曼，A.：pascal视觉对象类VOC的挑战。IJCV（2010）36. Zhou，B.，（1991年），中国地质大学，赵，H.，Puig，X.，Fidler，S.，Barriuso，A. Torralba，A.：通过ADE20K数据集对场景进行语义理解。arXiv：1608.05442（2016）37. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗JGirshick，R.B.，瓜达尔-拉马，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构In：ACM MM. （2014年）38. Iandola，F.N.，Moskewicz，M.W.，Ashraf，K.，汉，S.，戴利，W.J.，Keutzer，K.：Squeezenet：Alexnet级别的精度，参数减少50倍，模型大小为1mb。1602.07360（2016）39. 汉，S.，毛，H.，Dally，W.J.：深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络In：ICLR.（2016年）40. 汉，S.，普尔J Narang，S.，毛，H.，唐，S.，Elsen，E.，卡坦扎罗湾特兰J.，Dally，W.J.：DSD：使用密集-稀疏-

下载后可阅读完整内容，剩余1页未读，立即下载