4吨。Yao等人
因此,许多基于transformer的视觉理解架构已经开始。一些尝试用全
局自注意力[2]或局部自注意力[22,43,45,69]来增强卷积运算符,
产生CNN和Transformer的混合骨干。同时,Vision Transformer(ViT)
[13]首先在图像块序列上采用纯Transformer进行图像识别。DETR[4]还
利用纯Transformer来构建用于对象检测的端到端检测器。与ViT单独
将输入图像划分为块不同,TNT[19]首先将输入分解为若干
块作为
一
个子变压器被额外集成到变压器中,以在较小的“视觉单词”上
执行
自我注 意。随后, 为 了促进 密 集
预测任 务 , 多 尺 度 范 例 被引入 到
Transformer结构中,从而产生多尺度Vision Transformer骨干[14,35,
54,55]。特别是,Swin Transformer[35]通过合并更深层的图像块来构
建分层特征图,从而升级了ViT。Pyramid Vision Transformer(PVT)
[55]设计了一个金字塔结构的Transformer,它在四阶段架构中产生多
尺度特征图。PVTv 2[54]通过使用平均池化来减少键/值的空间维度,
而 不 是 PVT 中 的 卷 积 , 进 一 步 改 进 了 PVT 。 多 尺 度 视 觉 变 换 器
(MViT)[14]将变换器框架与多尺度特征层次结构集成在一起,并在
查询/键/值上使用池化内核进行空间缩减。
我 们 的 Wave-ViT 也 是 一 种 多 尺 度 ViT 。 现 有 的 多 尺 度 ViT (
例
如:
,[14,54,55])通常采用不可逆的下采样操作,如平均池化或
池化核用于空间缩减。相比之下,Wave-ViT利用小波变换,通过可逆
下采样来降低键/值的空间维度,以在多尺度特征上进行自注意学
习,从而在计算成本和性能之间实现更好的权衡。
2.2 计算机视觉中的小波变换
小波变换是一种有效的时频分析方法。考虑到小波变换是可逆的,并
且能够保留所有信息,小波变换已被用于CNN架构中,以提高各种视
觉任务的性能例如,在[1]中,Bae
等人
验证了在小波子带上学习CNN
表示可以有利于图像重建的任务。DWSR[18]将低分辨率小波子带作为
输入,以恢复图像超分辨率任务中丢失的细节多级小波变换
[34]
用于在不丢失信息的情况下扩大感受野,用于图像恢复。Williams
等人。
[56]利用小波变换将输入特征分解为第二级分解,并丢弃第一
级子带以减少图像识别的特征维度。Haar小波CNN与[15]中的多分辨
率分析相结合,用于纹理分类和图像注释。在[41]中,ResNet通过将
第一层与小波散射网络相结合进行了改造,该网络在图像识别方面具
有可比的性能,参数较少。