深度学习驱动的语义分割：从FCN到Mask R-CNN

下载需积分: 0 | PDF格式 | 9.69MB | 更新于2024-06-15 | 192 浏览量 | 举报

1 收藏

“语义分割是计算机视觉中的关键技术，用于图像理解和细粒度分类。它在自动驾驶、医学影像分析和景观解析等领域有广泛应用。全卷积网络(FCN)、U-Net、SegNet、空洞卷积、ReﬁneNet、PSPNet、DeepLab系列和Mask-R-CNN等是深度学习在图像分割中的重要模型。此外，弱监督学习也被用于图像分割，如Scribble标记和图像级别标记。常用的图像分割数据集包括PASCALVOC、MSCOCO和Cityscapes。” 语义分割是一种在计算机视觉中用于图像理解和解析的技术，其核心任务是将图像的每个像素分配给预定义的类别，从而创建一个像素级别的分类图。这一技术有助于计算机理解图像中的物体边界和形状，对自动驾驶、医学影像分析等多个领域有着深远的影响。在自动驾驶中，语义分割帮助车辆识别路面、行人、车辆和交通标志，确保安全行驶。在医学领域，它辅助医生精确区分影像中的组织和病变，提高诊断和治疗规划的精度。在景观解析中，语义分割用于识别和分类城市结构、环境特征，支持城市规划和地理信息系统。传统的基于卷积神经网络(CNN)的图像分割方法存在存储开销大、处理速度慢等问题，因为它们通常需要对每个像素进行多次计算。为了解决这些问题，出现了多种创新模型： 1. **FCN (全卷积网络)**：FCN是第一个成功应用于语义分割的端到端深度学习模型，它摒弃了全连接层，转而使用卷积层来输出像素级别的预测，减少了模型参数，提高了计算效率。 2. **U-Net**：结合了卷积和反卷积（上采样）操作，通过跳跃连接保留了输入图像的细节信息，提高了分割精度。 3. **SegNet**：类似于U-Net，但使用编码-解码结构，通过保存池化层的索引来进行上采样，简化了模型并降低了计算成本。 4. **空洞卷积（Dilated Convolutions）**：通过增加卷积核的间距，扩大感受野，无需增加计算量就能捕捉更广阔的上下文信息。 5. **ReﬁneNet**、**PSPNet**、**DeepLab系列**（v1-v3+）：进一步优化了上下文信息的捕获和细节恢复，其中DeepLab引入了空洞卷积和 atrous spatial pyramid pooling (ASPP)。 6. **Mask-R-CNN**：扩展了 Faster R-CNN，不仅进行目标检测，还能同时执行实例分割，输出每个物体的像素级掩模。在弱监督学习中，如Scribble标记和图像级别标记，利用较少的标注信息也能训练图像分割模型，提高了数据利用效率。常见的图像分割数据集包括PASCALVOC，包含20个类别的物体；MSCOCO，涵盖更多的物体和场景类别；以及Cityscapes，专为城市街景分割设计，提供了精细的像素级标注。总而言之，语义分割是计算机视觉的关键技术，它通过深度学习模型的进步不断推动着图像理解和应用的发展。这些模型不仅提高了分割精度，还降低了计算和存储需求，使得图像分割在多个领域中得到广泛应用。



（1）全连接层转化为全卷积层 : 在传统的CNN结构中，前5层是卷积层，第6层和第7层分别是一个长度

为4096的一维向量，第8层是长度为1000的一维向量，分别对应1000个不同类别的概率。FCN将这3层

表示为卷积层，卷积核的大小 (通道数，宽，高) 分别为 (4096,1,1)、(4096,1,1)、(1000,1,1)。看上去数

字上并没有什么差别，但是卷积跟全连接是不一样的概念和计算过程，使用的是之前CNN已经训练好的

权值和偏置，但是不一样的在于权值和偏置是有自己的范围，属于自己的一个卷积核。

（2）CNN中输入的图像大小是统一固定成227x227大小的图像，第一层pooling后为55x55，第二层

pooling后图像大小为27x27，第五层pooling后的图像大小为13x13, 而FCN输入的图像是H * W大小，

第一层pooling后变为原图大小的1/2，第二层变为原图大小的1/4，第五层变为原图大小的1/8，第八层

变为原图大小的1/16。

（3）经过多次卷积和pooling以后，得到的图像越来越小，分辨率越来越低。其中图像到H/32 * W/32

的时候图片是最小的一层时，所产生图叫做heatmap热图，热图就是我们最重要的高维特征图，得到高

维特征的heatmap之后就是最重要的一步也是最后的一步对原图像进行upsampling，把图像进行放大

几次到原图像的大小。

相较于使用被转化前的原始卷积神经网络对所有36个位置进行迭代计算优化模型，然后再对36个位置做

预测，使用转化后的卷积神经网络进行一次前向传播计算要高效得多，因为36次计算都在共享计算资

源。这一技巧在实践中经常使用，通常将一张图像尺寸变得更大，然后使用变换后的卷积神经网络来对

空间上很多不同位置进行评价得到分类评分，然后在求这些分值的平均值。

9.2.7 反卷积层理解

Upsampling的操作可以看成是反卷积(deconvolutional)，卷积运算的参数和CNN的参数一样是在训练

FCN模型的过程中通过bp算法学习得到。反卷积层也是卷积层，不关心input大小，滑窗卷积后输出

output。deconv并不是真正的deconvolution（卷积的逆变换），最近比较公认的叫法应该是

transposed convolution，deconv的前向传播就是conv的反向传播。

反卷积参数: 利用卷积过程ﬁlter的转置（实际上就是水平和竖直方向上翻转ﬁlter）作为计算卷积前的特

征图。

反卷积的运算如下所示:

蓝色是反卷积层的input，绿色是反卷积层的outputFull padding, transposed Full padding,

transposed。

剩余34页未读，继续阅读

fighting的码农(zg)-GPT

粉丝: 788

深度学习驱动的语义分割：从FCN到Mask R-CNN

语义分割,语义分割是什么意思,matlab

一种有关图像分割的介绍

基于边界轮廓的高效感知区域检测器：显著提高语义精度与速度

语义分割 vs 实例分割：区别与联系

【图像分割鲁棒性研究】：提升算法在各种条件下的性能

从零到一：构建模式识别知识体系，第一章《Pattern Recognition and Machine Learning》深度解读

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

最新资源