没有合适的资源?快使用搜索试试~ 我知道了~
首页历史最新的语义分割文献综述报告
资源详情
资源评论
资源推荐

摘要:语义图像分割是计算机视觉中重要的领域之一,其广泛的应用于机器人、
道路场景解析、医学图像分割等领域。深度学习的发展为语义图像分割提供了更
加有效、更准确的解决办法。现有的很多基于深度学习的网络架构在图像分割性
能方面不断提升,但其推理效率较低。自动驾驶领域的飞速发展也迫使图像分割
领域的研究转向了如何有效的实现快速推理及计算效率的实时语义分割研究之
中。为了解决这个问题,利用轻量化网络作为基本框架中成为了提取特征的主要
方法。同时,文中阐述了实时语义分割的发展进程以及一些实时图像分割的改进
网络,并对其做了相关对比分析。
关键字:语义图像分割,深度学习,实时语义分割,轻量化网络
English Tile for the Survey
Abstract: Semantic image segmentation is one of the important fields in computer
vision, which is widely used in robot, road scene analysis, medical image
segmentation and other fields. The development of deep learning provides a more
effective and accurate solution for semantic image segmentation. Many existing
network architectures based on deep learning improve the performance of image
segmentation, but their reasoning efficiency is low. The rapid development of the field
of automatic driving also forces the research of image segmentation to turn to the
research of how to effectively achieve fast reasoning and computational efficiency of
real-time semantic segmentation. In order to solve this problem, using lightweight
network as the basic framework becomes the main method of feature extraction. At
the same time, this paper describes the development process of real-time semantic
segmentation and some improved network of real-time image segmentation, and
makes a comparative analysis of them.
Keywords: Semantic image segmentation, deep learning, real-time semantic
segmentation, lightweight network.

1. 引言
1.1 语义分割史
语义分割早期的方法是阈值法,其目的是将图像划分为连个区域,即目标与
背景。在灰度级图像中,通过使用单个阈值就能很好的实现灰度图像的分类。为
了更好地捕捉图像特征,该技术采用了局部阈值和全局阈值。第二种技术涉及具
有相似特征的像素或区域的聚类,其中图像被分成 K 组或聚类。所有像素被分
配一个基于相似性度量的聚类,该度量可以涉及像素特征(例如颜色、梯度)以
及相对距离。一些流行的分割技术已经被成功应用,例如 K-means
[]
、GMMs、
mean-shift
[2]
和 fuzzy K-means
[3]
。
现有的边缘检测方法被证明能够有助于图像完成分割。包括 Roberts 边缘检
测,Sobel 边缘检测,和 Prewitt 边缘检测等在内的线性边缘检测方法均利用不同
的二维 masks,当它们与图像进行卷积时,会将边缘突出出来。
第三种方法是条件随机场,条件随机场(CRF)
[4]
是一种用于标记和分割数
据的概率框架,在图像分割中得到了广泛的应用。
1.2 研究背景、目的及意义
近年来,以深度学习为中心的机器学习技术引起了人们的关注。比如自动
驾驶汽车已经逐渐成为可能,但在整个深度学习过程,需要算法识别和学习作为
原始数据提供的图像,在这一过程中,应用到了语义分割技术。早期,计算机视
觉的初始应用需求只是识别基本元素,例如边缘(线和曲线)或渐变。然而,仅
仅通过全像素语义分割的创造来理解像素级的图像,它将属于同一目标的图像部
分聚集在一起,从而扩展了语义分割的应用场景。识别每个像素或分组像素一起
分配类别的过程可以通过以下过程:
1) 图像分类(image classification)-识别图像中存在的内容;
2)物体识别与检测(object recognition and detection)-识别图像中物体存
在的内容和位置(通过边界框);
2) 语义分割(semantic segmentation)-识别图像中物体存在的内容与位置(通
过查找属于它的所有像素)

语义分割是一种典型的计算机视觉问题,其涉及将一些原始数据(例如,平
面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。许多人使
用术语全像素语义分割(full-pixel semantic segmentation),其中图像中的
每个像素根据其所属的感兴趣对象被分配类别 ID。早期的计算机视觉问题只发
现边缘(线条和曲线)或渐变等元素,但它们从未完全按照人类感知的方式提供
像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起来解决这
个问题,从而扩展了其应用领域。但与其它基于图像的任务相比,语义分割是完
全不同的且先进的。
语义分割作为计算机视觉中的核心,其在地理信息系统、医疗影像分析、机
器人、卫星图像处理、自动驾驶
[5,6]
、农业发展、道路场景解析
[7]
被提上日程,计
算机视觉任务已然走进我们的生活。在智能化不断发展应用的大趋势下,我们面
临着如何将其应用于实际的问题。如何提高其性能并将其运用于实践已然成为现
如今该领域的研究点。近年来各种算法的出现,使得语义分割的性能获得了大幅
度提高,各种相关类型的网络不断地被提出。但研究人员过于重视语义分割的精
度,通过增加繁重的网络结构使得分割精度取得了显著提升,但他们未考虑计算
机硬件、网络参数、访问成本代价等因素,导致很难将其应用于移动设备上。如
何通过有效的网络设计使其应用于实际,是现阶段应研究的热点。
在本文中,我们对以实时语义分割为重点的网络提供了一个全面的总结。一
些研究者对实时网络的研究使得将语义分割应用于移动设备成为可能。未来语义
分割对智能化的发展一定会做出巨大贡献,基于实时性的语义分割应用于自动驾
驶、道路解析等方向在未来也会成为这些领域需要迫切需要的研究。
2. 国内外研究现状
卷积神经网络(CNN)
[8,9,10,11]
极大的推进了计算机视觉领域的发展,语义分
割作为计算机视觉的核心领域,其飞速的发展得益于 CNN。基于卷积神经网络
的网络结构均使语义分割性能在精度、实时性上均有所提高。近来,人工智能、
自动驾驶领域的快速发展导致了越来越多的研究者将目光投入了实时性的语义
分割。下面我们将对语义分割的研究现状做一个详细的阐述。

2.1 全卷积网络
全卷积网络最先被应用与分类任务(AlexNet
[9]
, VGG
[10]
, GoogLeNet
[11]
)。 这
些网络首先对输入的图像进行处理,通过增加滤波器以获取更多特征,再经过池
化降低分辨率,最后一个卷积层将其向量化。该向量化的特征与 Softmax 分类器
以全连接的方式输出每个类别的概率值。在 FCN
[12]
中,作者认为最后一个卷积
层将二维的图像降维为一维会损失特征的空间信息,故在这篇文章中作者将全连
接层替换为允许对图中每个像素分类的层(见图 1),这也为图像级别的分类进
一步延伸到像素级别的分类。使用卷积替换全连接层有两个显著的优势:(a)它
允许输入网络的图像是任意分辨率;(b)卷积层替换全连接层大大降低了网络参
数,使得网络可以更快的训练与推理。这个全新的方法在多个图像分割领域都产
生了里程碑式的意义,它们依靠该思想产生了最先进的结果,并被认为是该领域
中最有影响力的方法之一。
图 1:全卷积网络框图
2.2 编码-解码结构
在 DeconvNet
[13]
中,作者认为在 FCN
[12]
(这里是受 VGG16
[10]
与 FCN 的影
响说的 FCN 的缺点)方法中,送入反卷积的特征图十分稀疏,并且反卷积过程
又很粗糙,会导致输入图片中的空间信息会有严重损失。他们提出了如下图 2
所示的结构。

图 2:DeconvNet 网络结构图
这里,多层反卷积网络均可被学习。训练好的网络通过使用全连接的 CRF,
并将其应用于 individual object proposals,得到实例级的分割结果,并将这些分割
结果组合起来进行最终的语义分割。与反卷积网络类似,解码器/编码器架构也
用于医疗方面
[14]
。该作者提出了一种在训练数据较少(30 幅图像)的情况下,
工作良好的体系结构,在适当的数据扩充下,可以获得最先进的性能。在图 3
中,左边的编码器部分对图像进行下采样操作,同时增加特征数量。在上采样过
程中,该过程与下采样相反(增加图像分辨率,减少特征数量),同时解码器对
相应的编码层进行 concatenate 操作。除此之外,他们还提出了不同地区的加权
损失以实现更精确的类分离。
图 3:UNet 网络结构图
在 SegNet
[15]
中,与[]相似的结构被提出,在本文中作者使用 VGG
[10]
作为编
码器的骨干网络,去除了全连接层,并采用了对称的解码结构。与 Unet
[14]
的主
要不同之处在于其解码部分采用了与编码层相对应的最大池化索引。在解码过程
中重用最大池化索引有以下几个的优点:1)有利于边界的划分;2)不仅能够实
剩余20页未读,继续阅读

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0