计算机视觉中的自注意力与尺度注意力机制综述

版权申诉

85 浏览量更新于2024-08-11 收藏 451KB PDF 举报

计算机视觉中的注意力机制研究是近年来深度学习领域的重要课题，它旨在模拟人类大脑的注意力功能，以提升计算机对图像中关键信息的识别和处理能力。本文主要探讨了两种核心的注意力机制类型：self-attention和scale attention。首先，self-attention，源自[1]提出的Transformer模型，最初应用于机器翻译任务中，通过调整查询(query)和键(key)来自同一空间的计算方式，计算不同位置间的关系，从而更好地提取输入句子或图片的全局特征。这一机制极大地增强了模型的精度和并行性，特别是在视觉任务中，如语义分割和生成对抗网络，它能够突破传统卷积神经网络的局部限制，实现对全局信息的有效捕捉。然而，self-attention在处理视觉数据时也存在挑战。由于图像像素众多，全量计算会导致高昂的计算成本和显存消耗。此外，它假设所有位置独立处理，忽略了像素间的相对位置信息，这可能丢失图像的结构信息。为解决这个问题，研究者开始探索如何在self-attention中融入相对位置编码，例如通过添加位置嵌入或者设计专门的模块来保留图像的空间结构。另一方面，scale attention，虽然具体文献未在摘要中提及，可能是指对不同尺度特征的注意力机制，这种机制可能关注于不同尺度下的视觉元素，比如物体的大小、形状等，有助于捕捉图像中的多尺度信息。在实际应用中，结合自注意力和尺度注意力，可能能进一步提高计算机视觉模型的鲁棒性和准确性。总结来说，计算机视觉中的注意力机制研究是深度学习中一个至关重要的分支，它通过模拟人脑的注意力，优化了信息处理过程，显著提高了视觉任务的性能。同时，随着技术的发展，不断出现的新方法和改进，如相对位置编码的引入，将继续推动这一领域的发展。理解并掌握这些注意力机制，对于开发高效、准确的计算机视觉系统具有重要意义。

计算机视觉中的注意⼒机制研究计算机视觉中的注意⼒机制研究

写在前⾯的话：本⽂来⾃于本⼈的⼀次课程作业综述，当时还是写了很久的，不想交上去就完了，所以发上来留个纪念。

摘要摘要

将注意⼒机制⽤在计算机视觉任务上，可以有效捕捉图⽚中有⽤的区域，从⽽提升整体⽹络性能。计算机视觉领域的注意⼒机制主要分为两类：

(1) self-attention；(2) scale attention。这两类注意⼒从不同的⾓度进⾏图⽚内容理。本⽂将分别就这两种注意⼒机制进⾏说明，并列举相关

的⽂献。

引⾔引⾔

注意⼒是⼈类⼤脑固有的⼀种信号处理机制。⼈类⼤脑通过快速从视觉信号中选择出需要重点关注的区域，也就是通常所说的注意⼒焦点，然后重

点处理这些区域的细节信息。通过注意⼒机制可以利⽤有限的⼤脑资源从⼤量的信息中筛选出有价值的信息。注意⼒机制最初被⽤在深度学习任务

上是在机器语⾔翻译领域，将源语⾔翻译成⽬标语⾔，⽬标语⾔中的词并⾮与源语⾔的所有词都同等相关，⽽是仅与特定的⼏个词有相关性。因

此，注意⼒机制可以将这个词的注意⼒分配到这些最相关的词上。之后，[1]中提出⾃注意⼒机制 (self-attention)，并将其⽤于Transformer模

块中，极⼤提升了翻译模型的精度和并⾏性。与传统的注意⼒机制不同，self-attention的查询（query）和键（key）属于同⼀个域，计算的是

同⼀条语句（或同⼀张图⽚）中不同位置之间的注意⼒分配，从⽽提取该语句（或图⽚）的特征。

[2]⾸先将self-attention⽤于视觉任务中，提出了non-local network，来捕获图⽚（或视频）中的长程依赖（long-range dependency）。

Self-attention机制在视觉任务，如语义分割[3]，⽣成对抗⽹络[4]中取得了巨⼤的成功。它解决了卷积神经⽹络的局部视野域问题，使得每个位

置都可以获得全局的视野域。不过，由于在视觉任务中，像素数极多，利⽤所有位置来计算每个位置的attention会导致巨⼤的计算和显存开销；

另⼀⽅⾯，由于self-attention简单将图像当成⼀个序列进⾏处理，没有考虑不同位置之间的相对位置关系，使得所得到的attention丧失了图像

的结构信息。之后对于self-attention的⼀个改进⽅向就是，在self-attention中加⼊相对位置信息或绝对位置信息编码。

除了self-attention，视觉任务中另⼀类注意⼒机制为scale attention。与self-attention不同，scale attention基于每个位置本⾝的响应。就

分类任务⽽⾔，每个位置的响应越⼤，则其对于最终的分类结果影响越⼤，那么这个位置本⾝的重要性就越强。根据响应⼤⼩有选择地对特征图进

⾏强化或抑制，就可以在空间（或其他维度）上达到分配attention的⽬的。[5]所提出的SENet，就相当于channel-wise的attention。类似的还

有GENet[6]，CBAM[7]等，GENet将SENet中的channel-wise attention扩展到了spatial上，CBAM设计了串⾏的两个模块，分别进⾏

channel-wise attention和spatial-wise attention的计算。另⼀篇⼯作residual attention network[8]也属于这⼀类attention，与SENet系

列不同之处在于，本⽂采⽤bottom-up top-down形式得到spatial attention，再将其以残差的形式作⽤回原来的特征。这⼀类注意⼒机制仅仅

基于图像中每个位置本⾝，对显著区域进⾏增强，⾮显著区域进⾏抑制，⽐self-attention机制更接近与⼈类视觉系统的注意⼒机制。

⼀、self-attentio n⼀、self-attentio n

1. se lf-atte ntion简介1. s e lf-atte ntion简介

普通卷积将特征图的每个位置作为中⼼点，对该位置及其周围的位置进⾏加权求和，得到新的特征图上该位置对应的滤波结果，对于边缘，必要时

可以⽤0进⾏填充。这⼀操作可以有效提取图⽚的局部信息。随着⽹络加深，卷积层不断堆叠，每个位置的视野域也越来越⼤，⽹络提取到的特征

也逐渐由⼀些low-level的特征，如颜⾊、纹理，转变到⼀些high-level的结构信息。但是，简单通过加深⽹络来获取全局视野域，所带来的计算开

销是很⼤的，并且，更深的⽹络会带来更⼤的优化难度。

Self-attention操作[2]可以有效地捕获不同位置之间的long-range dependency，每个位置的特征都由所有位置的加权求和得到，这⾥的权重就

是attention weight。由此，每个位置都可以获取全局的视野域，并且不会造成特征图的退化（分辨率降低），这对于⼀些密集的预测任务，如

语义分割、⽬标检测等，具有很⼤的优势。

图1展⽰了self-attention的⽹络结构。给定输⼊X，将两个1x1卷积分别作⽤于X上，得到的两个特征利⽤f(⋅)得到相关性矩阵，图中展⽰的f(⋅)为

矩阵乘法。最后将相关性矩阵作⽤在原特征经过1x1卷积变换后的特征上。

公式（1）展⽰了第i个位置的相应的计算⽅法，其中f(⋅)为相关性函数，g(⋅)为变换函数，x_i为输⼊第i个位置的特征，y_i为第i个位置的输出特

征，C(x)为归⼀化因⼦，⼀般采⽤总位置的个数。

下载后可阅读完整内容，剩余4页未读，立即下载

_webkit

粉丝: 31
资源: 1万+

计算机视觉中的自注意力与尺度注意力机制综述

计算机视觉Attention注意力机制综述！清华、南开出品！185篇参考文献！.pdf

注意力机制在计算机视觉中的应用研究.pdf

人工智能-机器学习-协同视觉选择注意计算模型研究.pdf

一文读懂计算机视觉中的注意力机制原理及其模型发展.pdf

人工智能-机器学习-视觉信息处理中注意机制计算模型研究.pdf

机器不学习：深度学习训练淫技4 深度学习中的注意力机制.pdf

基于计算机视觉的交互式电子沙盘系统研究.pdf

图注意力网络attention.pdf

一文了解计算机视觉与自然语言处理融合的研究进展 计算机视觉.pdf

注意力机制概述原理及应用.pdf

最新资源

一文了解计算机视觉与自然语言处理融合的研究进展计算机视觉.pdf