深度学习驱动的图像语义分割：全卷积网络与注意力机制

版权申诉

106 浏览量更新于2024-06-28 收藏 1.31MB DOCX 举报

"本文主要探讨了全卷积注意力机制在图像语义分割中的应用，以及相关的深度学习模型，如FCN、PSPNet、U-Net和OCNet等的介绍和改进。" 全卷积注意力机制神经网络在图像语义分割中扮演着至关重要的角色，这一技术是计算机视觉领域的关键研究方向，它旨在将图像划分为多个具有语义意义的区域，并为每个区域赋予特定的标签。语义分割不仅在室内导航、地理信息系统、人机交互、自动驾驶等领域有着广泛的应用，而且对于场景理解、医学图像处理和目标分类等视觉分析任务来说，也是基础性技术。随着深度学习的崛起，尤其是卷积神经网络（CNN）的广泛应用，图像语义分割技术取得了显著的进步。全卷积网络（FCN）是这一领域的里程碑式工作，由Long等人提出。FCN的独特之处在于将传统的全连接层替换为卷积层，通过跳跃层结合中间层的特征图，再利用转置卷积来恢复图像的原始尺寸，从而实现像素级别的分类。然而，FCN在处理图像时，由于池化操作导致分辨率下降，可能会丢失部分像素信息，且未充分利用特征图的上下文信息。为了解决这些问题，研究人员提出了多种改进模型。例如，PSPNet（金字塔场景解析网络）引入了金字塔池化模块，能有效整合不同尺度的上下文信息，增强了模型对上下文的感知能力。另一方面，U-Net是一种编码器-解码器结构的网络，通过收缩路径捕获上下文信息，而扩展路径则利用上采样来恢复图像细节和位置信息，特别适合处理需要高精度输出的任务。此外，OCNet（对象上下文网络）进一步发展了这一概念，通过计算每个像素与其他像素的相似性，构建目标上下文特征图，以增强像素的表示能力。这种方法强调了每个像素的全局依赖性，提高了分割的准确性和鲁棒性。全卷积注意力机制在图像语义分割中起到了强化特征学习和上下文理解的作用。通过各种网络结构的优化，如多尺度信息融合、上下文保留和像素间关系建模，深度学习模型在解决复杂的语义分割问题上取得了显著进步，为实际应用提供了强大的工具。未来的研究将继续探索更高效的注意力机制和网络设计，以应对更加复杂的图像理解和分割任务。

注意力机制的基本思想是在运算中忽略无关信息而关注重点信息,通过注

意力机制学习上下文信息,并且进行优化得到自我注意力模块,捕获数据或者特

征的内部相关性

[16]

。PANet（path aggregation network）中作者认为高层的特

征信息可以对低层的特征信息进行指导,因此注意力机制必须发生在不同的层

之间

[17]

。解码器的作用在于恢复像素类别的位置信息,经过编码器提取的特征

带有充分的分类信息可以作为指导低层的信息。Woo 等人提出了一种轻量、

通用的注意力模块（convolutional block attention mo-dule,CBAM）

[18]

。该模

块分别在特征图的空间和通道上引入注意力模块,在不显著增加计算量和参数

量的前提下能提升网络模型的特征提取能力。文献[19]提出了自我注意力机制,

并将其运用到视频动作识别任务,自我注意力机制可以有效地捕捉不同位置之

间的远程依赖关系,每个位置都可以在不造成特征图退化的情况下获得全局感

受野。OCNet 中,使用自我注意力机制来计算像素之间的相似度,通过利用同一

目标的其他像素来为当前像素分类,获取目标上下文,并且在金字塔池化模块和

空洞空间金字塔池化模块上做了实验,结果在 Cityscapes 和 ADE20K 数据集上

取得了 SOTA（state of the art）的结果。

2 本文方法

本章首先介绍论文提出的语义分割网络 CANet 的整体结构,然后分别详细

介绍 ASPPAM 和 PAM,损失函数采用常用的交叉熵损失函数。

2.1 网络的整体结构

本文的整体网络结构如图 1 所示,该模型由扩展的 FCN、ASPPAM 和 PAM

三个摸块组成。采用在 ImageNet 上预先训练的 ResNet-101

[20]

的扩展为主干

网络,并且去掉 ResNet 最后的全连接层,图 1 中每个带有“Res”字样的蓝色块的

详细结构如表 1 所示,“7×7,64,stride：2”表示卷积核为 7×7,输出通道数为 64,

步长为 2。Res 每个大块都包含一个基本结构（Base-block：包含残差（residual）

结构）,具体结构如表 1 中 Res 块的矩阵所示,“1×1,64”表示卷积核为 1×1,输出

通道数为 64。矩阵外的“×3”表示输入数据将会执行这个矩阵结构 3 次,后续结

构以此类推。在 Res4 块后添加 ASPPAM（空洞空间金字塔注意力模块）来提

取深度特征,获得高级语义信息,此时特征映射的大小减小到原始图像的 1/8。

剩余16页未读，继续阅读

罗伯特之技术屋

粉丝: 4558

深度学习驱动的图像语义分割：全卷积网络与注意力机制

基于注意力机制的全景分割网络.docx

基于注意力机制的街景图像语义分割方法.docx

基于结合注意力机制和膨胀卷积的HRNet遥感图像语义分割python源码.zip

基于全局卷积神经网络的图像语义分割软件工程探析.docx

基于深度可分离卷积网络的皮肤镜图像病灶分割方法.docx

MFA-Net 基于多视野上下文关注的视网膜血管分割.docx

多维注意力特征聚合立体匹配算法.docx

融合注意力机制与轻量化DeepLabv3+的非结构化道路识别.docx

基于卷积循环网络与非局部模块的语音增强方法.docx

基于渐进结构感受野和全局注意力的显著性检测.docx

最新资源