计算机视觉注意力机制详解：硬软区分与优化策略

版权申诉

5星 · 超过95%的资源 196 浏览量更新于2024-07-21 5 收藏 1.09MB PDF 举报

计算机视觉中的注意力机制是当前研究热点，其核心理念在于帮助系统在处理视觉信息时，聚焦于关键细节并排除无关背景。在计算机视觉任务中，如图像分类、物体检测、语义分割等，注意力机制能够提升模型的性能，因为它允许模型根据输入数据动态地调整其注意力分布。首先，为什么需要视觉注意力？这是因为在大量的视觉数据中，存在大量冗余和噪声，传统的卷积神经网络(CNN)可能会被无关特征分散注意力。通过引入注意力机制，系统可以集中精力在最具区分性的特征上，提高识别和理解的准确性。注意力机制主要分为两类：硬注意力和软注意力。硬注意力，也称为强注意力，是一种二元选择，每个像素要么被完全关注（1），要么被忽视（0）。它通常通过强化学习进行训练，用于执行如图像裁剪这样的操作，比如在生成对抗网络(GAN)中，用于指导生成器只关注关键区域。硬注意力的缺点是不可微分，因此在参数优化时需要特殊的处理方法。相比之下，软注意力或弱注意力则采用概率分布的形式，每个区域的关注程度通过分数（0到1之间的值）表示，它允许模型精细控制每个像素的重要性。软注意力是可微的，这意味着可以直接通过反向传播更新网络权重，从而实现端到端的学习。然而，这可能导致计算上的浪费，因为对于输入中不影响结果的区域，仍需进行计算。为了解决这一问题，空间变换网络(Spatial Transformer Networks, STN)和DRAW等模型引入了两种机制。STN通过对输入图像进行几何变换，如缩放、旋转和平移，实现了对局部区域的精确关注，避免了全局注意力的过度参数化。DRAW则通过序列生成的方式，每次选择一个特定的目标区域，确保了选择的针对性。计算机视觉中的注意力机制是一项强大的工具，它通过区分和聚焦，显著提高了模型的性能和效率。无论是硬注意力的精确性还是软注意力的灵活性，都在推动着计算机视觉领域的不断进步。随着技术的发展，未来我们期待看到更多创新的注意力模型，以适应更复杂的视觉任务需求。

文提出的注意力mask，不仅仅只是对空间域或者通道域注意，这种mask可以看作是每一个特征元素（element）的权重。通

过给每个特征元素都找到其对应的注意力权重，就可以同时形成了空间域和通道域的注意力机制。

很多人看到这里就会有疑问，这种做法应该是从空间域或者通道域非常自然的一个过渡，怎么做单一域注意力的人都没有想到

呢？原因有：

如果你给每一个特征元素都赋予一个mask权重的话，mask之后的信息就会非常少，可能直接就破坏了网络深层的特征信息；

另外，如果你可以加上注意力机制之后，残差单元（Residual Unit）的恒等映射（identical mapping）特性会被破坏，从而很

难训练。

该文章的注意力机制的创新点在于提出了残差注意力学习(residual attention learning)，不仅只把mask之后的特征张量作为下

一层的输入，同时也将mask之前的特征张量作为下一层的输入，这时候可以得到的特征更为丰富，从而能够更好的注意关键

特征。

文章中模型结构是非常清晰的，整体结构上，是三阶注意力模块(3-stage attention module)。每一个注意力模块可以分成两个

分支(看stage2)，上面的分支叫主分支(trunk branch)，是基本的残差网络(ResNet)的结构。而下面的分支是软掩码分支(soft

mask branch)，而软掩码分支中包含的主要部分就是残差注意力学习机制。通过下采样(down sampling)和上采样(up

sampling)，以及残差模块(residual unit)，组成了注意力的机制。

模型结构中比较创新的残差注意力机制是：

H是注意力模块的输出，F是上一层的图片张量特征，M是软掩码的注意力参数。这就构成了残差注意力模块，能将图片特征

和加强注意力之后的特征一同输入到下一模块中。F函数可以选择不同的函数，就可以得到不同注意力域的结果：

f1是对图片特征张量直接sigmoid激活函数，就是混合域的注意力；

f2是对图片特征张量直接做全局平均池化（global average pooling），所以得到的是通道域的注意力（类比SENet）；

f3 是求图片特征张量在通道域上的平均值的激活函数，类似于忽略了通道域的信息，从而得到空间域的注意力。

Non-local Neural Networks, CVPR2018

FAIR的杰作，主要 inspired by 传统方法用non-local similarity来做图像 denoise

剩余14页未读，继续阅读

weixin_38597533

粉丝: 11
资源: 919

计算机视觉注意力机制详解：硬软区分与优化策略

计算机视觉中的注意力机制（Visual Attention）.docx

Attention(注意力机制代码)

注意力attention机制在CV中的讲解.pptx

深度学习视角：计算机视觉中的注意力机制解析

综述：图像处理中的注意力机制 - 知乎1

计算机视觉Attention注意力机制综述！清华、南开出品！185篇参考文献！.pdf

计算机视觉中的自注意力与尺度注意力机制综述

深度学习中的视觉注意力机制：清华大学与南开大学联合综述

2021年深度学习计算机视觉模型综述：Inception、MobileNet与ShuffleNet

计算机视觉注意力机制

最新资源