深度学习500问：图像分割详解与经典方法

下载需积分: 5 | PDF格式 | 7.03MB | 更新于2024-06-21 | 201 浏览量 | 举报

3 收藏

深度学习500问之图像分割是一份针对深度学习面试热点的参考资料，特别关注于图像分割这一关键领域。本资源提供了一本PDF格式的中文书籍，包括深度学习500问的原著内容以及作者在学习过程中的个人笔记，旨在帮助准备面试的软件开发、系统开发、测试开发和算法岗位的求职者提升应试能力，尤其是对于大厂或中厂的应聘者。章节9详细介绍了图像分割的各种方法和技术，包括： 1. **图像分割算法分类**：这部分可能涵盖了不同类型的图像分割方法，如基于阈值的方法、区域生长法、边缘检测等，以及深度学习驱动的现代方法。 2. **传统基于CNN的分割方法缺点**：这可能指出了早期卷积神经网络（CNN）在图像分割任务中的局限性，比如分辨率损失、计算效率低等。 3. **FCN（Fully Convolutional Network）**：这是转折点，FCN通过将全连接层替换为全卷积层，解决了传统CNN在输入图片大小固定的限制，使得网络能够处理任意大小的输入并保持高分辨率输出。 - FCN改变了什么：引入了无缝像素级预测，无需先进行特征池化再上采样。 - FCN网络结构：包括卷积层、池化层和反卷积层，用于特征提取和图像重建。 - 全连接层与卷积层转化：全连接层权重被转化为可滑动的卷积核，实现空间不变性。 - 反卷积层理解：用于将低分辨率特征映射回原始尺寸的层，如上采样操作。 - 跳级结构（skip connection）：结合多尺度特征，提高细节恢复能力。 4. **U-Net、SegNet等其他网络结构**：这些是后续发展出的改进版，比如U-Net通过保留上下路径信息增强细节恢复，SegNet则采用了编码器-解码器结构。 5. **空洞卷积（Dilated Convolutions）**：扩大感受野，增加对周围像素的考虑，有助于捕捉更大范围的上下文信息。 6. **RefineNet、PSPNet和DeepLab系列**：这些是深度学习中先进的图像分割架构，DeepLab系列从v1到v3+不断优化，特别是v2的Atrous Spatial Pyramid Pooling（ASPP）和v3的多尺度特征融合。 7. **Mask R-CNN**：一个强大的目标检测和实例分割模型，尤其适用于行人检测，它将区域提议网络（RPN）与FCN相结合。 8. **弱监督学习应用**：探讨如何使用Scribble标记、图像级别标记等方法来训练模型，减少标注成本。 9. **DenseNet（贡献者：黄钦建）**：一种密集连接的网络结构，有助于信息传播和特征重用。 10. **常用数据集**：列举了PASCAL VOC、MSCOCO和Cityscapes等知名图像分割数据集，用于模型训练和评估。这份资源深入浅出地解释了深度学习在图像分割领域的核心技术和策略，无论是理解基本原理，还是应对面试挑战，都具有很高的实用价值。

（2）FCN与CNN的区别在于把CNN最后的全连接层转换成卷积层，输出的是⼀张已经带有标签的图⽚, ⽽这个图⽚就可以做

语义分割。

（3）CNN的强⼤之处在于它的多层结构能⾃动学习特征，并且可以学习到多个层次的特征: 较浅的卷积层感知域较⼩，学习

到⼀些局部区域的特征；较深的卷积层具有较⼤的感知域，能够学习到更加抽象⼀些的特征。⾼层的抽象特征对物体的⼤

⼩、位置和⽅向等敏感性更低，从⽽有助于识别性能的提⾼, 所以我们常常可以将卷积层看作是特征提取器。

9.2.4 全连接层和卷积层如何相互转化？

两者相互转换的可能性：两者相互转换的可能性：

全连接层和卷积层之间唯⼀的不同就是卷积层中的神经元只与输⼊数据中的⼀个局部区域连接，并且在卷积列中的神经元共

享参数。然⽽在两类层中，神经元都是计算点积，所以它们的函数形式是⼀样的。因此，将此两者相互转化是可能的：

（1）对于任⼀个卷积层，都存在⼀个能实现和它⼀样的前向传播函数的全连接层。权重矩阵是⼀个巨⼤的矩阵，除了某些特

定块，其余部分都是零。⽽在其中⼤部分块中，元素都是相等的。

（2）任何全连接层都可以被转化为卷积层。⽐如VGG16中第⼀个全连接层是25088 * 4096的数据尺⼨，将它转化为512 *

7 * 7 * 4096的数据尺⼨，即⼀个K=4096的全连接层，输⼊数据体的尺⼨是7 * 7 * 512，这个全连接层可以被等效地看做

⼀个F=7, P=0, S=1, K=4096 的卷积层。换句话说，就是将滤波器的尺⼨设置为和输⼊数据体的尺⼨⼀致7 * 7, 这样输出

就变为1 * 1 * 4096, 本质上和全连接层的输出是⼀样的。

输出激活数据体深度是由卷积核的数⽬决定的输出激活数据体深度是由卷积核的数⽬决定的 (K=4 096)。。

在两种变换中，将全连接层转化为卷积层在实际运⽤中更加有⽤。假设⼀个卷积神经⽹络的输⼊是227x227x3的图像，⼀系

列的卷积层和下采样层将图像数据变为尺⼨为7x7x512的激活数据体, AlexNet 的处理⽅式为使⽤了两个尺⼨为4096的全连接

层，最后⼀个有1000个神经元的全连接层⽤于计算分类评分。我们可以将这3个全连接层中的任意⼀个转化为卷积层：

（1）第⼀个连接区域是[7x7x512]的全连接层，令其滤波器尺⼨为F=7,K=4096，这样输出数据体就为[1x1x4096]。

（2）第⼆个全连接层，令其滤波器尺⼨为F=1,K=4096，这样输出数据体为[1x1x4096]。

（3）最后⼀个全连接层也做类似的，令其F=1,K=1000，最终输出为[1x1x1000]。

9.2.5 为什么传统CNN的输⼊图⽚是固定⼤⼩？

对于CNN，⼀幅输⼊图⽚在经过卷积和pooling层时，这些层是不关⼼图⽚⼤⼩的。⽐如对于⼀个卷积层，outputsize =

(inputsize - kernelsize) / stride + 1，它并不关⼼inputsize多⼤，对于⼀个inputsize⼤⼩的输⼊f eat ure map，滑窗卷

积，输出out putsize⼤⼩的f eat ure map即可。pooling层同理。但是在进⼊全连接层时，feat ure map（假设⼤⼩为n×n）

要拉成⼀条向量，⽽向量中每个元素（共n×n个）作为⼀个结点都要与下⼀个层的所有结点（假设4096个）全连接，这⾥的

权值个数是4096×n×n，⽽我们知道神经⽹络结构⼀旦确定，它的权值个数都是固定的，所以这个n不能变化，n是conv5的

outputsize，所以层层向回看，每个outputsize都要固定，那每个input size都要固定，因此输⼊图⽚⼤⼩要固定。

9.2.6 把全连接层的权重W重塑成卷积层的滤波器有什么好处？

这样的转化可以在单个向前传播的过程中, 使得卷积⽹络在⼀张更⼤的输⼊图⽚上滑动，从⽽得到多个输出(可以理解为⼀个

label map)。

第九章图像分割

5/33

剩余34页未读，继续阅读

Cherry330

粉丝: 2766

深度学习500问：图像分割详解与经典方法

深度学习与图像处理读书笔记精选

Keras-Unet：深度学习图像语义分割的实用工具包

ICNet深度学习模型图像语义分割成功示例

学习笔记(05):深度学习之图像识别 核心技术与案例实战-图像分割模型

学习笔记(06):深度学习之图像识别 核心技术与案例实战-分割数据

图像及深度学习笔记整理

基于深度学习的图像细胞分割Python设计源码Demo演示

matlab图像分割肿瘤代码-segmentation-models:张量流中实现的语义图像分割网络

深度学习笔记

jx-ocr-图像处理笔记

最新资源

学习笔记(05):深度学习之图像识别核心技术与案例实战-图像分割模型

学习笔记(06):深度学习之图像识别核心技术与案例实战-分割数据