ResNet18-ASPP: 语义分割深度模型与ASPP策略详解

需积分: 0 74 浏览量更新于2024-08-04 收藏 485KB DOCX 举报

语义分割是一种深度学习任务，目标是给定一张图像，对图像上的每个像素进行精确分类，预测其属于哪个类别。实验三主要集中在使用基于深度学习的全卷积网络（FCN）进行语义分割，具体来说，是在Pascal VOC数据集上进行训练和测试。首先，实验的基础架构是ResNet-18，一个广泛应用于计算机视觉任务的深度神经网络。在实验中，原始的ResNet18被改造为一个适用于密集预测的模型，即去除了其顶部的全局平均池化层和全连接层。这种设计保留了ResNet的卷积特征提取能力，以便于处理高分辨率的像素级预测。在ResNet18-FCN模型中，通过一个1x1卷积层将512个通道的特征图压缩至像素类别数N，随后使用上采样层恢复分辨率，确保输出与输入图像有相同的尺寸。实验中的另一个关键组件是ASPP（Atrous Spatial Pyramid Pooling），它是一种增强语义分割性能的技术，通过引入不同尺度的空间金字塔池化来捕捉不同层次的上下文信息。在实验要求的选项中，可以选择将ResNet18-FCN与ASPP结合，以构建ResNet18-ASPP模型。ASPP模块通过不同步距的空洞卷积层，增加了模型对图像空间信息的敏感性，从而提高语义分割的准确性。实验者可以选择在ResNet18-FCN的基础上，结合ASPP或其他针对上下文建模的方法，如PPM（Pyramid Pooling Module），以进一步优化模型的性能。这些方法旨在增强模型对图像全局特征的理解，减少因局部信息缺失导致的误分类。总结来说，本实验关注的核心知识点包括全卷积网络的设计原则，ResNet18在语义分割中的应用，去除全局池化和全连接层的作用，以及ASPP在捕捉多尺度上下文信息和提升分割精度方面的贡献。通过对比ResNet18-FCN和ResNet18-ASPP的性能，研究者可以评估不同上下文建模技术对语义分割任务的影响。

实验三语义分割

一、实验要求

使用基于深度学习的方法全卷积网络（Fully Convolution Network，FCN）在 Pascal VOC

训练集上进行训练，然后将训练后的模型在 Pascal VOC 验证集上进行测试。为了减小所需

的计算资源，训练时统一使用 480x480 的图片尺寸。

此外，使用的深度模型包括：

1) 一个使用 ResNet-18 作为骨干网络的 Output Stride=16 的 FCN，即将 ResNet 最后

一个 stage 的下采样层去掉、卷积层的 dilation 设置为 2；

2) （与第三点二选一）基于上述的 FCN，结合至少一种课上提到的、对上下文语境建

模（Context Modeling）的方法，例如 ASPP、PPM 等；

3) （与第二点二选一）基于上述的 FCN，结合 Transformer Block 的方法。

二、实验原理

语义分割，即给定一张输入图像，利用模型输出该图像上每一个像素对应的类别预测或

者属于某一类别的概率。由于该任务需要对每个像素都进行预测，语义分割又被称作稠密预

测任务（Dense Prediction）。不同于图像分类只需对整张图片输出一个概率分布向量，语义

分割中需要对图片中的所有像素都生成一个与之对应的概率分布向量，因此要求模型最终输

出的特征图与输入图像具有相同的分辨率，并且具有与像素所属类别数同样多的通道数。

本次实验采用两个模型完成语义分割任务（即“实验要求”中的“1)”和“2)”），分

别是下采样率为 32 的全卷积 ResNet18 模型（记作 ResNet18-FCN），和结合了 ASPP 的

ResNet18（记作 ResNet18-ASPP）。

1. 全卷积 ResNet18

全卷积 ResNet18（ResNet18-FCN）的基本设计与原版 FCN

相同，只是

中使用 VGG 作

为卷积网络，而此处我们将其替换为 ResNet18。

相比于标准 ResNet18，ResNet18-FCN 去掉了其最高层的全局池化和全连接层，用一个

1x1 卷积和一个 32 倍上采样层取而代之。其中 1x1 卷积用于将 512 通道的特征图转换为 N

通道（N 为像素的类别数），而上采样层用于将特征图的分辨率恢复到与原输入图像相同，

以进行稠密预测。

图 1.1 ResNet18-FCN 的构建细节

下载后可阅读完整内容，剩余4页未读，立即下载

设计师马丁

粉丝: 21
资源: 299

ResNet18-ASPP: 语义分割深度模型与ASPP策略详解

MATLAB图像语义分割实例（道路语义分割）

汽车结构语义分割数据集

深度卷积网络CNN与图像语义分割1

基于卷积神经网络特征和改进超像素匹配的图像语义分割1

语义分割,语义分割是什么意思,matlab

语义分割：使用综合数据集的语义分割

基于 Pytorch 和 MMCV 语义分割开源算法库，也是语义分割算法性能评估框架，已提供超过420个语义分割算法模型

标准语义分割和实例语义分割

弱监督语义分割、无监督语义分割和全监督语义分割的关系和区别

实时语义分割与非实时语义分割

最新资源