小波视觉Transformer：融合小波与Transformer提升视觉学习效率与准确性

122 浏览量更新于2024-06-19 1 收藏 977KB PDF 举报

"小波视觉变换器：统一小波和变换器实现视觉学习" 本文介绍了Wave-ViT，这是一种新的小波视觉变换器，旨在改进传统Transformer在视觉表示学习中的性能。作者指出，当前的多尺度视觉Transformer（如ViT）虽然强大，但其自我注意机制中的下采样操作可能导致信息丢失，尤其是高频对象信息（如纹理细节）。为解决这一问题，他们受到小波理论的启发，提出将小波变换的可逆下采样与自我注意学习相结合。在Wave-ViT中，小波变换允许无损地对键/值进行下采样，从而在保持效率的同时提高自我注意的准确性。此外，逆小波变换用于增强自我注意的输出，通过结合局部上下文和扩大感受野来进一步提升性能。实验结果表明，Wave-ViT在图像识别、对象检测和实例分割等多个视觉任务上表现出优于现有先进ViT模型的性能，且在计算复杂度（FLOPs）方面具有优势。关键词涵盖视觉Transformer的基础——自我注意学习，以及小波变换在其中的应用，这些关键概念在构建高效的视觉模型中起着至关重要的作用。论文还提供了开源代码，可以在https://github.com/YehLi/ImageNetModel获取，便于研究者复现和进一步开发。小波视觉变换器（Wave-ViT）的创新之处在于它结合了两种不同的技术：自我注意学习，这是Transformer的核心，负责捕捉输入序列中的全局依赖；以及小波变换，这是一种多分辨率分析工具，能够有效地处理不同频率的信息。这种结合不仅提高了模型的效率，而且提升了对高频信息的处理能力，这对于理解和解析图像的细节至关重要。在实际应用中，Wave-ViT的性能提升对于计算机视觉领域的各种任务，如自动驾驶、医学图像分析、视频监控等，都有潜在的积极影响。通过优化Transformer的下采样策略，Wave-ViT能够更好地处理复杂场景中的细节信息，从而提高整体系统的准确性和可靠性。 Wave-ViT的提出是对Transformer架构的重要扩展，它融合了小波理论，以实现更高效、更精确的视觉表示学习。这一工作为未来的计算机视觉研究提供了新的方向，特别是在如何平衡模型性能与计算效率之间关系的研究上。

+v：mala2255获取更多论

文

4吨。Yao等人

因此，许多基于transformer的视觉理解架构已经开始。一些尝试用全

局自注意力[2]或局部自注意力[22，43，45，69]来增强卷积运算符，

产生CNN和Transformer的混合骨干。同时，Vision Transformer（ViT）

[13]首先在图像块序列上采用纯Transformer进行图像识别。DETR[4]还

利用纯Transformer来构建用于对象检测的端到端检测器。与ViT单独

将输入图像划分为块不同，TNT[19]首先将输入分解为若干

块作为

一

个子变压器被额外集成到变压器中，以在较小的“视觉单词”上

执行

自我注意。随后，为了促进密集

预测任务，多尺度范例被引入到

Transformer结构中，从而产生多尺度Vision Transformer骨干[14，35，

54，55]。特别是，Swin Transformer[35]通过合并更深层的图像块来构

建分层特征图，从而升级了ViT。Pyramid Vision Transformer（PVT）

[55]设计了一个金字塔结构的Transformer，它在四阶段架构中产生多

尺度特征图。PVTv 2[54]通过使用平均池化来减少键/值的空间维度，

而不是 PVT 中的卷积，进一步改进了 PVT 。多尺度视觉变换器

（MViT）[14]将变换器框架与多尺度特征层次结构集成在一起，并在

查询/键/值上使用池化内核进行空间缩减。

我们的 Wave-ViT 也是一种多尺度 ViT 。现有的多尺度 ViT （

例

如：

，[14，54，55]）通常采用不可逆的下采样操作，如平均池化或

池化核用于空间缩减。相比之下，Wave-ViT利用小波变换，通过可逆

下采样来降低键/值的空间维度，以在多尺度特征上进行自注意学

习，从而在计算成本和性能之间实现更好的权衡。

2.2 计算机视觉中的小波变换

小波变换是一种有效的时频分析方法。考虑到小波变换是可逆的，并

且能够保留所有信息，小波变换已被用于CNN架构中，以提高各种视

觉任务的性能例如，在[1]中，Bae

等人

验证了在小波子带上学习CNN

表示可以有利于图像重建的任务。DWSR[18]将低分辨率小波子带作为

输入，以恢复图像超分辨率任务中丢失的细节多级小波变换

[34]

用于在不丢失信息的情况下扩大感受野，用于图像恢复。Williams

等人。

[56]利用小波变换将输入特征分解为第二级分解，并丢弃第一

级子带以减少图像识别的特征维度。Haar小波CNN与[15]中的多分辨

率分析相结合，用于纹理分类和图像注释。在[41]中，ResNet通过将

第一层与小波散射网络相结合进行了改造，该网络在图像识别方面具

有可比的性能，参数较少。

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

小波视觉Transformer：融合小波与Transformer提升视觉学习效率与准确性

谐振变换器：拓扑形式与优势解析

谐振变换器：降低开关损耗，实现高效小型开关电源设计

有源箝位正激变换器：Flyback拓扑设计与优化

VHDL实现的一维小波变换器

电吸收调制(EAM)波长变换器：原理与实现

单级PFC变换器：问题与改进拓扑分析

交错控制双Boost DC/DC变换器：特性和优势分析

直流-直流变换器：从Buck到软开关技术

全桥ZVS高压直流变换器：原理、分析与仿真

电流模式PWM DC-DC变换器：电流环路补偿设计

最新资源