深度学习图像分割详解：从FCN到Mask-R-CNN

版权申诉

75 浏览量更新于2024-06-21 1 收藏 4.92MB PDF 举报

本资源是一份深度学习教程的第九章，专精于图像分割领域。章节内容涵盖了深度学习在图像分割中的关键技术和方法，包括但不限于图像分割算法的分类、传统基于卷积神经网络（CNN）的分割方法的局限性，以及对全卷积网络（FCN）、U-Net、SegNet、空洞卷积、RefineNet、PSPNet、DeepLab系列等先进模型的详细介绍。首先，9.1节介绍了图像分割算法的分类，帮助读者理解不同类型的分割方法，如像素级分类、区域生长和实例分割等。传统CNN在图像分割中的应用可能存在输入图片大小固定、处理细节丢失以及难以进行端到端学习等问题。 9.3部分聚焦于FCN，它是转折点，因为它解决了传统CNN对于固定输入大小的限制。FCN通过移除全连接层，将权重矩阵转换为可滑动的卷积滤波器，使得网络能够适应任意大小的输入，并且能够在像素级进行预测。这不仅提升了网络的灵活性，也提高了对图像细节的保留能力。 9.3.3中，以具体的例子展示了FCN的网络结构，可能包括卷积层、池化层、以及如何实现从全连接层到卷积层的权重重排。反卷积层（上采样）的概念也在这一部分被深入解释，它用于增加输出特征图的尺寸，恢复原始分辨率。跳级结构（skip connections）作为重要组成部分，允许信息在网络的不同层次之间流动，有助于融合不同尺度的信息，提高分割精度。此外，章节还讨论了FCN的训练策略及其存在的不足，例如对于语义信息的理解可能不够深入。接下来，章节介绍了其他知名模型，如U-Net的U形结构，SegNet的递归编码解码器，以及空洞卷积带来的感受野增强。RefineNet通过多尺度特征融合来细化分割结果，而PSPNet则利用金字塔池化来捕获全局上下文信息。DeepLab系列（v1、v2、v3、v3+）则是针对不同场景优化的高效分割模型，特别是针对密集预测任务。对于基于弱监督学习的应用，如Mask-R-CNN，该章节讲解了其网络结构（结合区域提议网络RPN和掩码分支），在行人检测框架中的作用，以及关键技术点。在图像分割与弱监督标记（如scribble标记、图像级别标记）的结合上，也给出了DeepLab+boundingbox+image-level labels等方法的探讨。最后，章节提到DenseNet这种稠密连接架构，由华南理工大学的黄钦建等人提出，对图像分割有独特贡献。此外，常用的数据集如PASCAL VOC、MSCOCO和Cityscapes也被提及，它们在模型训练和性能评估中扮演着重要角色。这份教程第九章提供了深度学习在图像分割领域的详尽指南，覆盖了理论分析、网络设计、实践应用和数据集等多个层面，为学习者提供了全面的深度学习图像分割知识体系。

DeepLearning

（2）FCN与CNN的区别在于把CNN最后的全连接层转换成卷积层，输出的是⼀张已经带有标签的图⽚, ⽽这个图⽚就可以做

语义分割。

（3）CNN的强⼤之处在于它的多层结构能⾃动学习特征，并且可以学习到多个层次的特征: 较浅的卷积层感知域较⼩，学习

到⼀些局部区域的特征；较深的卷积层具有较⼤的感知域，能够学习到更加抽象⼀些的特征。⾼层的抽象特征对物体的⼤

⼩、位置和⽅向等敏感性更低，从⽽有助于识别性能的提⾼, 所以我们常常可以将卷积层看作是特征提取器。

9.2.4 全连接层和卷积层如何相互转化？

两者相互转换的可能性：两者相互转换的可能性：

全连接层和卷积层之间唯⼀的不同就是卷积层中的神经元只与输⼊数据中的⼀个局部区域连接，并且在卷积列中的神经元共

享参数。然⽽在两类层中，神经元都是计算点积，所以它们的函数形式是⼀样的。因此，将此两者相互转化是可能的：

（1）对于任⼀个卷积层，都存在⼀个能实现和它⼀样的前向传播函数的全连接层。权重矩阵是⼀个巨⼤的矩阵，除了某些特

定块，其余部分都是零。⽽在其中⼤部分块中，元素都是相等的。

（2）任何全连接层都可以被转化为卷积层。⽐如VGG16中第⼀个全连接层是25088 * 4096的数据尺⼨，将它转化为512 *

7 * 7 * 4096的数据尺⼨，即⼀个K=4096的全连接层，输⼊数据体的尺⼨是7 * 7 * 512，这个全连接层可以被等效地看做

⼀个F=7, P=0, S=1, K=4096 的卷积层。换句话说，就是将滤波器的尺⼨设置为和输⼊数据体的尺⼨⼀致7 * 7, 这样输出

就变为1 * 1 * 4096, 本质上和全连接层的输出是⼀样的。

输出激活数据体深度是由卷积核的数⽬决定的输出激活数据体深度是由卷积核的数⽬决定的 (K=4 096)。。

在两种变换中，将全连接层转化为卷积层在实际运⽤中更加有⽤。假设⼀个卷积神经⽹络的输⼊是227x227x3的图像，⼀系

列的卷积层和下采样层将图像数据变为尺⼨为7x7x512的激活数据体, AlexNet 的处理⽅式为使⽤了两个尺⼨为4096的全连接

层，最后⼀个有1000个神经元的全连接层⽤于计算分类评分。我们可以将这3个全连接层中的任意⼀个转化为卷积层：

（1）第⼀个连接区域是[7x7x512]的全连接层，令其滤波器尺⼨为F=7,K=4096，这样输出数据体就为[1x1x4096]。

（2）第⼆个全连接层，令其滤波器尺⼨为F=1,K=4096，这样输出数据体为[1x1x4096]。

（3）最后⼀个全连接层也做类似的，令其F=1,K=1000，最终输出为[1x1x1000]。

9.2.5 为什么传统CNN的输⼊图⽚是固定⼤⼩？

对于CNN，⼀幅输⼊图⽚在经过卷积和pooling层时，这些层是不关⼼图⽚⼤⼩的。⽐如对于⼀个卷积层，outputsize =

(inputsize - kernelsize) / stride + 1，它并不关⼼inputsize多⼤，对于⼀个inputsize⼤⼩的输⼊f eat ure map，滑窗卷

积，输出out putsize⼤⼩的f eat ure map即可。pooling层同理。但是在进⼊全连接层时，feat ure map（假设⼤⼩为n×n）

要拉成⼀条向量，⽽向量中每个元素（共n×n个）作为⼀个结点都要与下⼀个层的所有结点（假设4096个）全连接，这⾥的

权值个数是4096×n×n，⽽我们知道神经⽹络结构⼀旦确定，它的权值个数都是固定的，所以这个n不能变化，n是conv5的

outputsize，所以层层向回看，每个outputsize都要固定，那每个input size都要固定，因此输⼊图⽚⼤⼩要固定。

9.2.6 把全连接层的权重W重塑成卷积层的滤波器有什么好处？

这样的转化可以在单个向前传播的过程中, 使得卷积⽹络在⼀张更⼤的输⼊图⽚上滑动，从⽽得到多个输出(可以理解为⼀个

label map)。

第九章图像分割

5/33

剩余34页未读，继续阅读

安全方案

粉丝: 2550
资源: 3960

深度学习图像分割详解：从FCN到Mask-R-CNN

探索深度学习工具包：GM_deeplearning_zip_

MATLAB指纹图像分割深度学习教程

深度学习与MATLAB图像分割仿真实现

DeepLearning深度学习教程_第五章 卷积神经网络(CNN).pdf

Halcon参考手册中文版，第九章Deep Learning(...),深度学习

Adrian-Deep Learning for Computer Vision（计算机视觉 英文原版教材）.pdf

deep learning for computer vision with python starter bundle by

吴恩达深度学习课程第四课相关论文

微软夺冠2015 ImageNet计算机视觉识别挑战pdf

Stanford cs468 课件_part2

最新资源

DeepLearning深度学习教程_第五章卷积神经网络(CNN).pdf

Adrian-Deep Learning for Computer Vision（计算机视觉英文原版教材）.pdf