基于深度学习的图像语义分割算法综述基于深度学习的图像语义分割算法综述
随着自动驾驶及虚拟现实技术等领域的发展,图像语义分割方法受到越来越多的计算机视觉和机器学习研究人
员的关注。首先介绍了图像语义分割领域的常用术语以及需要了解的背景概念,并介绍语义分割问题中几种经
典的深度学习算法,如全卷积神经网络(FCN)、Deeplab等。最后针对当前图像语义分割算法的应用,总结展望
未来研究方向。
0 引言引言
图像语义分割是计算机视觉领域中最具挑战性的问题之一。随着场景理解
[1-2]
、重构
[3]
和图像处理等计算机视觉领域最热门
话题的兴起,图像语义分割作为上述热门话题的基础,也受到了越来越多该领域科研人员的重视。
在深度学习应用于语义分割之前,传统的机器学习算法如随机决策森林(Random Decision Forests)等方法被应用于语义分
割领域。在PASCAL VOC 2007数据集上,SHOTTON J等人使用了基于纹理特征的随机决策森林算法
[4]
取得了42%的评价像
素精确率。另一种用于解决语义分割问题的方法是使用概率图模型。首先利用参数统计方法
[5-8]
基于几个简单的特征对图像进
行过度分割,然后利用马尔可夫随机场(MRF)方法,通过提取复杂的手工特征将这些超像素分类为不同的几何类。在
PASCAL VOC 2010挑战赛上,Gonfaus等人使用基于概率图模型条件随机场构建的系统取得了第一名的好成绩。
随着深度学习的崛起,越来越多的学者将深度学习方法引入至计算机视觉领域中,如图像分类
[9]
等。2015年,LONG J等人
提出了全卷积网络(Fully Convolutional Networks,FCN)
[10]
,创造性地提出了一种全新的端到端的网络应用于语义分割中,并
取得了远超于传统方法的像素准确率。作为将深度学习应用于语义分割的开山之作,之后大部分方法都是基于FCN网络的改
进版。本文将对基于深度学习的图像语义分割算法进行综述。
1 常用术语及基本概念介绍常用术语及基本概念介绍
图像语义分割是像素级别的问题,因此在训练集中需要对图像的每个像素附加一个标签。用公式来表示即为:从标签空间
L={l
1
,l
2
,…,l
k
}表示一组随机变量X={x
1
,x
2
,…,x
N
}。每个标签l表示不同的类或对象,例如,飞机、汽车、交通标志等。
这个标记空间具有k个可能的状态,这些状态通常扩展到k+1个,并将l0作为背景或空类。x表示图像的像素,像素个数为N。
除了问题表述之外,重要的是要注释一些背景概念,如常见的深度学习网络常常被用作深度学习语义分割系统的基础。此
外,了解常见的训练技术,如迁移学习,以及对数据进行的预处理等都有助于读者理解综述。
1.1 常见的深层网络架构常见的深层网络架构
当前最常见的深度学习网络如GoogLeNet、VGG等网络为计算机视觉领域作出了巨大的贡献,在语义分割中也通常使用这
些常见的深层次网络作为基本框架。
1.1.1 VGG
Visual Geometry Group(VGG)是由牛津大学视觉几何组引入的CNN模型。他们提出了各种深层CNN的模型和配置
[11]
,其
中之一被提交到ImageNet大型视觉识别挑战(ILSVRC)-2013,因为该模型是由13个卷积层和3个全连接层叠加而成的,所以也
称其为VGG-16。由于其达到92.7%的TOP-5测试精度而成为流行的网络。图1显示了VGG-16的结构。VGG-16和它的前身之
间的主要区别是在第一层使用一组具有小感受野的卷积层而不是使用一个大感受野的卷积核。这导致使用了更少的参数和更多
的非线性层,从而使决策函数更具有鉴别力并使得模型更容易训练。
1.1.2 GoogLeNet
GoogLeNet是由SZEGEDY C等人[12]设计的一个网络。该网络以93.3%的TOP-5测试准确率赢得了ILSVRC-2014挑战赛。
这种CNN体系结构的特点是它的复杂性,它由22层和一个新引入的模块(见图2)组成。这种新方法证明了CNN层可以用比
典型的顺序堆叠方式更多的方式进行构建。实际上,这些模块包括网络中的网络层、池化层、大型卷积层和小型卷积层,它们
评论0