ICNet：实时高分辨率图像语义分割的创新网络解决方案

92 浏览量更新于2024-06-20 收藏 1.86MB PDF 举报

"本文介绍了一种名为ICNet的深度学习模型，旨在解决实时高分辨率图像语义分割的问题。ICNet采用图像级联网络结构，结合多分辨率分支和适当的标签指导，能够在保持高质量分割的同时实现快速推理。该网络设计考虑了实际应用中的运行效率，如自动驾驶、机器人交互和移动计算等，强调了在不牺牲太多精度的前提下，实现快速语义分割的重要性。研究者对比了不同框架在Cityscapes数据集上的推理速度和准确性，展示了ICNet的优势。" 在计算机视觉领域，语义分割是一个关键任务，它涉及到对图像中每个像素的类别进行预测，有助于深入理解场景和对象。近年来，深度卷积神经网络（CNNs）在语义分割领域的进步显著，然而，这通常伴随着模型复杂度的增加和计算资源的需求。传统的基于CNN的语义分割方法，如全卷积网络（FCNs），在提升准确率的同时，也会增加运算量。 ICNet正是为了解决这个挑战而提出，它是一个图像级联网络，能够适应高分辨率图像的实时处理需求。网络内包含多个分辨率分支，通过级联特征融合单元，有效地整合不同分辨率的信息，快速产生高质量的分割结果。ICNet的设计兼顾了速度和准确性，使得它在单个GPU上就能实现实时推理，且在Cityscapes、CamVid和COCO-Stuff等数据集上表现出色。当前，虽然高精度的语义分割模型已经发展成熟，但快速而精确的实时语义分割仍然是一个难题。ICNet的工作对此进行了重要贡献，它强调了在实时应用中，如自动驾驶和机器人技术，快速推理的重要性。通过比较不同框架在推理速度和mIoU（平均交并比）上的表现，如PSPNet、ResNet38等，ICNet展示了其在平衡速度和精度方面的优越性。此外，ICNet的创新之处在于它的级联结构，这种结构允许在不同分辨率的特征之间进行有效的信息传递，从而在降低计算复杂度的同时，保持分割质量。这一设计思路为后续研究提供了一个新的视角，即如何在保持高效的同时，优化深度学习模型的性能，特别是在实时语义分割的场景下。总结起来，ICNet是一种高效的深度学习模型，针对实时高分辨率图像语义分割，通过级联网络和多分辨率信息融合，实现了快速且高质量的分割效果。这项工作对于推动计算机视觉领域的实时应用具有重要意义，尤其是在需要快速响应的场景中，如自动驾驶和实时视频处理。

H. Zhao，X. Qi，X. Shen，J. Shi，

J. 贾

′ ′

′

视频语义分割视频在帧中包含冗余信息，可以利用这些冗余信息来减

少计算量。最近的Clockwork [29]在稳定的视频输入下重用特征图。深

度特征流[30]基于小规模光流网络，将特征从关键帧传播到其他帧。

FSO [31]使用应用于优化特征的密集CRF执行结构化预测，以获得时

间一致的预测。NetWarp [32]利用相邻帧的光流来跨视频序列中的时

间空间扭曲内部特征我们注意到，当一个良好的准确性快速图像语义

分割框架的存在，视频分割也将受益。

图像级联网络

我们首先通过实验统计分析高性能分割框架PSPNet [5]上不同组件的

计算时间预算。然后，我们介绍了

图像级联网络

（ICNet），如图所

示2、配合级联特征融合单元和级联标签引导，进行快速语义分割。

3.1

速度分析

在卷积中，将变换函数

应用于输入特征图

∈Rc

，得到输出映

射U∈

，其中c、h和w分别表示特征通道、高度和宽度。所述变换

操作 Φ：V→U是通过应用c

′

个3D核K∈R

来

实现的，其中k×k（例

如，3× 3）是核空间大小。因此，在卷积层中的操作

（

）

的总数是

′

。

输出

映射

′

和w

′

的

空间大小

与输入高度相关，由参数步长s控

制为h ′

h/s

，

′

w/s

，

（

）

≈

′

。

（

一）

计算复杂度与特征图分辨率（例如，

，

），核的数量和网络

宽度（例如，

，

′

）。图1（b）示出了PSPNet50中两个分辨率图像的

时间成本。蓝色曲线对应于大小为1024

2048的高分辨率输入，绿色

曲线对应于分辨率为512

1024的图像。计算量随着图像分辨率的增

加而增加。对于任一曲线，阶段4和阶段5中的特征图具有相同的空间

分辨率，即，原始输入的1 / 8;但是阶段5中的计算比阶段4中的计算重

四倍。这是因为阶段5中的卷积层将内核

的数量与输入通道

’

一起

加

倍。

3.2

网络架构

根据上述时间预算分析，我们在实验中采用直观的加速策略，将在第

二节中详细说明。5，包括下采样输入，收缩特征图和进行模型压

缩。的相应结果

剩余15页未读，继续阅读

cpongm

粉丝: 6

ICNet：实时高分辨率图像语义分割的创新网络解决方案

ICNet的图像语义分割程序示例

ICNet-pytorch:由pytorch实现的ICNet，用于在高分辨率图像上进行实时语义分割，在城市景观上，mIOU = 71.0，单次推理时间为19ms，FPS为52.6

Python-Tensorflow实现的ICNet和PSPNet50用于实时语义分割

历史最新的语义分割文献综述报告

Fast_Seg:此仓库在Pytorch的CityScapesCamvid DataSet上提供了快速的语义分割模型

0818_icnet_1.0_1025_resnet_v1.tar.gz

0818_icnet_0.5_1025_resnet_v1.tar.gz

ICNet深度学习模型图像语义分割成功示例

ICNet在PyTorch上的高效城市景观语义分割实现

Fast_Seg: PyTorch实现的快速语义分割模型在CityScapes与Camvid数据集上的应用

最新资源