变形注意力Transformer：解决视觉任务中的注意力焦点问题

84 浏览量更新于2024-06-20 收藏 1.24MB PDF 举报

"这篇论文提出了一种名为变形注意力Transformer（DAT）的新模型，该模型针对传统Transformer模型在处理视觉任务时存在的问题进行了优化，特别是针对自我注意力机制的改进。DAT引入了可变形的自我注意力模块，允许在自我注意力中选择键和值的位置，以数据依赖的方式关注相关区域，增强特征捕获能力。这一创新方法旨在解决密集注意力带来的计算成本过高以及稀疏注意力限制长范围关系建模的问题。DAT模型在图像分类和密集预测任务中表现出了优秀的性能，并且已经在GitHub上开源其代码。" 文章首先介绍了Transformer模型在计算机视觉领域的广泛应用，特别是VisionTransformer（ViT）如何通过堆叠Transformer块来处理图像，形成大感受野以增强长期依赖性的建模。然而，ViT的全局密集注意力可能导致计算和内存负担过重，同时容易受到无关区域的影响。另一方面，像PVT和SwinTransformer等采用的稀疏注意力虽然降低了计算复杂度，但其数据不可知性可能限制了对长距离依赖的捕捉。为了解决这些问题，论文提出了可变形的自我注意力模块（Deformable Self-Attention，DSA）。DSA允许根据输入数据动态地选择注意力机制中的关键点和值点，使得模型能够更专注于相关区域，从而提高特征提取的有效性。这种方法既避免了密集注意力的计算开销，又克服了稀疏注意力的局限性。论文进一步详细阐述了DAT模型的设计，该模型将DSA集成到Transformer的结构中，形成一个适用于图像分类和密集预测的通用骨干网络。实验结果显示，DAT在一系列基准测试中取得了显著的性能提升，验证了其设计理念的有效性。代码已在https://github.com/LeapLabTHU/DAT上公开，供研究者参考和使用。总结来说， DAT模型通过引入数据依赖的变形自我注意力，提供了一种平衡计算效率和长距离依赖建模能力的解决方案，对Transformer在计算机视觉任务中的应用进行了重要改进。

4797

前者导致严重的信息丢失，而后者的移窗注意导致

感受野的增长慢得多因此，需要数据相关的稀疏注

意力来灵活地对相关特征进行建模，从而导致DCN

[8]中首次提出的可变形机制。然而，将DCN应用于

Transformer模型是一个重要的问题。在DCN中，特

征映射上的每个元素单独学习其偏移量，其中HWC

特征映射上的3 3可变形卷积具有9HWC的空间复杂

度。如果我们在注意力模块中直接应用相同的机

制，空间复杂度将急剧上升到

NqNk

C，其中

，

是

查询和键的数量，并且通常具有与特征图大小HW

相同的尺度，带来近似双二次复杂度。尽管可变形

DETR [44]已经通过在每个尺度下设置较低数量的密

钥（其中N

= 4）来设法减少这种开销，并且作为检

测头工作良好，但是由于不可接受的信息丢失，因

此在骨干网络中关注如此少的密钥是不好的（参见

附录中的详细说明）。与此同时，[3，42]中的观察

表明，不同的查询在视觉注意力模型中具有相似的

注意力图。因此，我们选择一个更简单的解决方

案，为每个查询共享移位键和值，以实现有效的权

衡。

具体来说，我们提出了变形注意力模型的重要区

域的特征图的指导下，有效地令牌之间的关系这些

聚焦区域由多组变形采样点确定，这些变形采样点

通过偏移网络从查询中学习我们采用双线性插值从

特征映射图中抽取特征，然后将抽取的特征送入键

投影和值投影，得到变形的

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

变形注意力Transformer：解决视觉任务中的注意力焦点问题

Self-Attention与Transformer

Transformer：Seq2Seq 模型 + 自注意力機制

【Transformer模型训练中的优化技巧与注意力模块分析】： 分析Transformer模型训练中的优化技巧与注意力...

深度自注意力Transformer模型在字符级语言建模中的突破

DynaST：动态稀疏注意力Transformer模型在样本引导图像生成中的效率与优化

Transformer模型解析：从注意力机制到Transformer

深度解析Transformer模型：自注意力与多头注意力机制

【Transformer模型中的自注意力机制原理解析】： 解析Transformer模型中的自注意力机制原理

【Transformer模型与注意力机制的可解释性研究进展】： 研究Transformer模型与注意力机制的可解释性

理解多头自注意力机制在Transformer模型中的作用

最新资源

【Transformer模型训练中的优化技巧与注意力模块分析】：分析Transformer模型训练中的优化技巧与注意力...

【Transformer模型中的自注意力机制原理解析】：解析Transformer模型中的自注意力机制原理

【Transformer模型与注意力机制的可解释性研究进展】：研究Transformer模型与注意力机制的可解释性