逐点空间注意力网络：突破局部限制，提升场景解析性能

112 浏览量更新于2024-06-20 收藏 1.28MB PDF 举报

逐点空间注意力网络（PSANet）是一种创新的深度学习架构，特别针对场景解析任务进行了设计。它旨在解决传统深度卷积神经网络（CNN）中信息流受限于局部邻域的问题，这是由于CNN的物理结构导致的。通常，CNN的每个位置只能依赖于其附近像素，这在处理复杂场景时可能限制了整体理解能力。 PSANet的核心贡献在于引入了逐点空间注意力机制，即每个位置上的像素都通过一个自适应学习的注意力权重进行处理。这个注意力机制允许网络在元素地图上实现双向信息流，不仅允许当前位置利用其他位置的信息进行预测，同时也让其他位置能够接收当前位置的信息进行辅助预测。这种设计模仿了人类视觉处理中注意力的动态调整，增强了对全局上下文的捕捉和利用。为了增强上下文信息的聚合，PSANet采用了扩张卷积，这是对经典紧凑卷积的一种扩展，使得信息能够在更大的范围传播，从而缓解了长距离依赖性问题。这种方法有助于提升模型对场景中物体和场景结构的理解，从而提高了语义分割的精度和鲁棒性。该方法在多个权威的场景解析数据集上，如ADE20K、PASCAL VOC 2012和Cityscapes上取得了显著的性能优势，这不仅验证了PSANet的有效性，也展示了其在实际应用中的通用性，尤其是在自动驾驶和机器人导航这类对场景理解要求极高的领域。关键词：逐点空间注意力、双向信息流、自适应上下文聚合、场景解析、语义分割，这些都突出了PSANet技术的核心特点和其在计算机视觉领域的关键地位。PSANet是深度学习在场景理解和图像分割方面的一项重要进展，为未来的研究提供了新的视角和方法。

H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾

框架

为了捕获上下文信息，特别是在长范围内，信息聚合对于场景解析非

常重要[24，5，45，38]。在本文中，我们制定的信息聚合步骤作为一

种信息流，并提出了自适应学习的像素明智的全球注意力地图的每个

位置从两个角度来聚合上下文信息的en-tire特征图。

3.1

制剂

一般特征学习或信息聚合被建模为

z =

∈

Ω

（

）

（x

，

∆

）x

（1）

其中，

是位置i处的新聚合特征，并且

是在输入映射X处的位置

处

的特征副本

。

∈

Ω

（

）

numer

与

相关的感兴趣区域中的所有位

置，

表示位置

和

的相对位置。

（

，

xij

）

可以是根据操作的

任何函数或学习参数，并且它表示从

到

的信息流。注意，通过考虑

相对

位置

，

（

，

）

对不同的相对位置敏感。这里

是归一化

的。

具体而言，我们简化了配方和设计不同的函数

相对于不同的相对

位置。当量（1）更新为

z =

∈

Ω

（

）

∆

（x

，

）x

（2）

其中

{

∆

}

是一组位置特定函数。它对从

osi

到

osi

的信息流

进行建模

。

在

（

，

）

上的函数i不将源和目标信息作为输入。

当在特征图中存在许多位置时，组合（

，

）

的数量非常大。在

本文中，我们简化的公式和近似。

首先，

我们将

∆

（

，

）上

的

函数

实现

为

∆

（x

，

）

≈

∆

（x

）（3）

在该近似中，从

到

的信息流仅与目标位置

处的语义特征以及

和

的

相对位置有关。基于等式（3），我们重写Eq.（2）作为

z =

∈

Ω

（

）

∆

（x

）x

（4）

类似地，

我们将

∆

（

，

）上

的函数

实现

为

∆

（x

，

）≈

∆

（x

）（5）

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

逐点空间注意力网络：突破局部限制，提升场景解析性能

CNN-BIGRU-SAM-Attention分类、基于卷积神经网络结合双向门控循环单元-空间注意力机制实现多特征分类预测

用于遥感图像语义分割的结合注意力机制和膨胀卷积的HRNet.zip

ACFNet: 基于空间金字塔池和类中心的注意力类特征网络用于语义分割

【自注意力机制的原理与应用场景详解】： 深入解析自注意力机制的原理及应用场景

空间注意力和通道注意力的区别

自注意力与空间注意力

CRAM注意力机制和通道空间注意力机制的区别

神经网络空间注意力机制作用

谱注意力和空间注意力

简述自注意力机制，通道注意力机制，空间注意力机制的基本原理与区别

最新资源

【自注意力机制的原理与应用场景详解】：深入解析自注意力机制的原理及应用场景