深度学习图像分割：从FCN到Mask R-CNN

需积分: 0 150 浏览量更新于2024-07-01 收藏 9.64MB PDF 举报

第九章深入探讨了图像分割这一关键的计算机视觉任务，涵盖了各种算法和网络结构。图像分割是将图像划分成多个具有不同特征或意义的区域，这在自动驾驶、医学影像分析等领域有着广泛的应用。 9.1图像分割算法分类通常被划分为语义分割和实例分割。语义分割关注的是将图像中的每个像素分类到预定义的类别中，不区分同一类别内的不同对象。而实例分割则更进一步，不仅区分不同的类别，还能识别同一类别中的不同个体，为每个实例提供独特的标识。 9.2传统的基于CNN（卷积神经网络）的图像分割方法面临一些挑战。由于这些方法通常依赖于固定大小的输入图像或使用滑动窗口，导致存储需求巨大，尤其是在处理高分辨率图像时。此外，由于全连接层的存在，网络的计算复杂度高，难以适应不同尺度的对象，且无法充分利用上下文信息。 9.3FCN（全卷积网络）的出现解决了这些问题。FCN将全连接层替换为卷积层，使得网络能够接受任意尺寸的输入，并直接输出与输入相同尺寸的分割掩模。FCN的网络结构包括上采样层，通过反卷积操作恢复了输入的空间分辨率，实现了端到端的像素级预测。 9.2.4全连接层和卷积层的转换是FCN的关键创新。将全连接层权重重塑为卷积核，可以保留学习到的特征，同时适应不同大小的输入，减少了参数数量，降低了计算成本。 9.3.3全卷积网络的示例，如U-Net、SegNet和DeepLab系列，采用了跳跃连接（skip connection）来结合不同分辨率的特征图，有效地融合了全局和局部信息，提高了分割精度。 9.9Mask-RCNN是另一个里程碑式的工作，它在 Faster R-CNN 的基础上增加了分割分支，不仅能定位物体，还能生成精确的像素级掩模，适用于实例分割。 9.10弱监督学习在图像分割中的应用，如Scribble标记和图像级别标记，利用少量标注数据训练模型，显著降低了标注成本。 9.12中提到的PASCALVOC、MSCOCO和Cityscapes是常用的图像分割数据集，分别针对通用物体、多对象交互和城市景观场景，提供了丰富的标注数据，为算法研究提供了基础。图像分割是一个复杂且多样的领域，涉及多种算法和技术，从FCN的革新到Mask-RCNN的实例分割，再到弱监督学习的应用，每一步都推动着计算机视觉的进步。随着技术的发展，我们期待更多的创新和突破，提高图像分割的精度和效率。



（1）全连接层转化为全卷积层 : 在传统的CNN结构中，前5层是卷积层，第6层

和第7层分别是一个长度为4096的一维向量，第8层是长度为1000的一维向量，

分别对应1000个不同类别的概率。FCN将这3层表示为卷积层，卷积核的大小

(通道数，宽，高) 分别为 (4096,1,1)、(4096,1,1)、(1000,1,1)。看上去数字上并

没有什么差别，但是卷积跟全连接是不一样的概念和计算过程，使用的是之前

CNN已经训练好的权值和偏置，但是不一样的在于权值和偏置是有自己的范

围，属于自己的一个卷积核。

（2）CNN中输入的图像大小是统一固定成227x227大小的图像，第一层pooling

后为55x55，第二层pooling后图像大小为27x27，第五层pooling后的图像大小为

13x13, 而FCN输入的图像是H * W大小，第一层pooling后变为原图大小的1/2，

第二层变为原图大小的1/4，第五层变为原图大小的1/8，第八层变为原图大小的

1/16。

（3）经过多次卷积和pooling以后，得到的图像越来越小，分辨率越来越低。其

中图像到H/32 * W/32的时候图片是最小的一层时，所产生图叫做heatmap热

图，热图就是我们最重要的高维特征图，得到高维特征的heatmap之后就是最重

要的一步也是最后的一步对原图像进行upsampling，把图像进行放大几次到原

图像的大小。

相较于使用被转化前的原始卷积神经网络对所有36个位置进行迭代计算优化模

型，然后再对36个位置做预测，使用转化后的卷积神经网络进行一次前向传播计

算要高效得多，因为36次计算都在共享计算资源。这一技巧在实践中经常使用，

通常将一张图像尺寸变得更大，然后使用变换后的卷积神经网络来对空间上很多

不同位置进行评价得到分类评分，然后在求这些分值的平均值。

9.2.7 反卷积层理解

Upsampling的操作可以看成是反卷积(deconvolutional)，卷积运算的参数和

CNN的参数一样是在训练FCN模型的过程中通过bp算法学习得到。反卷积层也

是卷积层，不关心input大小，滑窗卷积后输出output。deconv并不是真正的

deconvolution（卷积的逆变换），最近比较公认的叫法应该是transposed

convolution，deconv的前向传播就是conv的反向传播。

反卷积参数: 利用卷积过程lter的转置（实际上就是水平和竖直方向上翻转

lter）作为计算卷积前的特征图。

反卷积的运算如下所示:

蓝色是反卷积层的input，绿色是反卷积层的outputFull padding, transposed

Full padding, transposed。

剩余33页未读，继续阅读

张景淇

粉丝: 42
资源: 275

深度学习图像分割：从FCN到Mask R-CNN

09_第九章_图像分割1

第九章_图像分割.pdf

第九章_图像分割.md

DeepLearning深度学习教程_第九章_图像分割.pdf

17.图像分割与提取_opencv_cornercy9_图像分割_

数字图像处理与通信：第9章_图像形态学.ppt

第 05 章 基于阈值分割的车牌定位识别.rar_车牌识别_阈值分割

第七章 图像分割.pdf

第 05 章 基于阈值分割的车牌定位识别_车牌识别_第05章基于阈值分割的车牌定位识别_车牌_

VC++ 车牌识别源代码_vc++_车牌_车牌分割_车牌识别代码_

最新资源

第 05 章基于阈值分割的车牌定位识别.rar_车牌识别_阈值分割

第七章图像分割.pdf

第 05 章基于阈值分割的车牌定位识别_车牌识别_第05章基于阈值分割的车牌定位识别_车牌_