离散余弦Transformer：频域图像建模

159 浏览量更新于2023-10-15 收藏 928KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

546812离散余弦Transformer：频域图像建模李新宇1，张燕怡2，袁建波1，卢翰林1，朱一波111字节跳动，2罗格斯大学{李新宇.亚瑟，袁建波，hanlin.lu，朱一波}@ bytedance.com，yz533@scarletmail.rutgers.edu摘要在本文中，我们提出了离散余弦 Transformer（DCFormer），直接学习基于DCT的频域表示的语义我们首先证明了基于变换的网络能够直接从基于离散余弦变换（DCT）的频域表示中学习语义，为了实现所需的效率-效果权衡，我们然后利用输入信息压缩其频域表示，这突出了JPEG压缩启发的视觉上显著的信号我们探索了不同的频域下采样策略，并表明通过策略性地丢弃高频分量来保留语义有意义的信息是可能的。所提出的DC- Former在各种下游任务上进行了测试，包括图像分类、对象检测和实例分割，并且以更少的FLOP实现了最先进的可比性能，并且优于常用的骨干（例如，在类似的FLOPS。我们的烧蚀结果还表明，所提出的方法推广以及不同的Transformer骨干。1. 介绍不同类型的图像表示通常用于不同类型的下游任务。基于RGB的表示承载了丰富的语义信息，因此成为视觉内容理解和相关计算机视觉任务的主流解决方案，例如：图像分类[11]、对象检测[31]等。频域表示可以更好地将信息从不同的频带中分离出来，这通常用于图像压缩和图像质量评估[15，16]。在本文中，我们探索直接在频率表示的图像建模不同于传统的基于RGB的图像建模，此外，有效的图像建模，通过直接从频率表示丢弃非视觉上重要的信息直接在频域上执行有效的图像建模通常图1：ImageNet-1 K上的图像分类DCFormer（红线）能够实现更好的效率/效果平衡：DCFormer在较低的FLOP下实现了类似的性能，并在类似的FLOP下实现了更好的精度。DC Former- SW和-NA分别表示具有SWIN [33]和NAT [19]作为主干的DC Former。详情见第4节。这一点被忽视了，因为在关注语义和内容理解的下游任务中，基于RGB的建模方法通常会产生更好的性能。直接在频域上进行有效的图像建模存在两个主要挑战：（1）。如何在相邻像素缺乏直接空间关联时对频率表示进行建模;（2）.如何压缩非视觉上重要的信息而不损害性能。对于频率表示建模，我们发现逆 DCT 变换与Transformer（基于自注意力的网络）共享类似的数学表示，这表明基于transformer的编码器可以模拟逆DCT过程（详见第3节）。因此，我们提出了离散余弦变换器（DCFormer）使用频域表示的图像建模。为了确保频率表示通常与传统变压器（例如，ViT [12]、SWIN Transformer [33]等），我们提出5469除了位置嵌入之外的频率嵌入以保持空间和频带信息。我们进一步实证证明，我们的DCFormer是能够捕捉语义直接从频率表示没有任何性能的compro-与RGB为基础的方法相比。至于第二个挑战，从输入中战略性地丢弃信息是不平凡的，并且它对基于RGB的表示具有挑战性，因为先前的研究表明，输入上的任何类型的池化都会损害性能[9]。受图像压缩方法的启发，我们建议策略性地丢弃更多的高频分量和更少的低频分量，以更好地维护语义信息。我们还引入了一个重建辅助损失，以帮助培训过程。我们使用Imagenet-1 K数据集在图像分类任务上测试了我们的模型，并使用MS-COCO [31]进行了对象检测和实例所提出的DC-成形器很好地推广到不同的Transformer骨干网，而没有性能折衷，包括SWIN[33]、ViT [12]和NAT [19]。在所提出的频率下采样策略的帮助下，DCFormer能够以不同的分辨率拍摄输入图像，以获得更好的效率，有效性权衡（图1）。我们进一步表明，DCFormer能够以较低的计算成本实现与常用的基于RGB的模型相当的性能，表明频率建模是构建高效模型的一个有前途的方向。我们的贡献总结如下：1. Transformer是一款DCFormer，它直接在基于DCT的频率表示上为各种下游任务DCFormer直接从基于DCT的频率表示中学习se-mantics，而不会影响性能。2. 研究了不同的输入下采样方法，提出了基于锯齿形的硬选择DCT输入压缩方法。与所提出的输入压缩，锡永战略，DCFormer是能够实现更好的效率-效果的权衡。3. 详细的实验结果和烧蚀情况，可供以后参考。2. 相关工作2.1. 图像建模作为许多计算机视觉任务的基础，图像分类已经被研究了几十年，从严重依赖人工特征[59，28，38]到深度神经网络[30]时代，自2012年以来，深度学习主导了图像建模[29]。在过去的十年中，网络变得更深，更广，更复杂[44，47，21，56]，以适应各种任务，包括类，[21]，检测[40，32]，分割[20，8]，[45 ]第45话和更多除了网络架构之外，卷积层也从基本卷积发展到深度卷积[57]，非局部卷积[53]和可变形卷积[10]。与卷积网络并行，最近的研究表明，以前常用于NLP任务的基于注意力的架构[51]可以很好地转移到图像建模。先驱工作ViT [12]和以下工作DEiT[50]，SWIN [33]，CoaT [58]以及更近的Mixer [49]都实现了与卷积网络相比相当或更好的性能。图像建模的主要工作集中在性能上，而在本文中，我们关注的是效率和效果的权衡。2.2. 频域学习与RGB域建模相比，频域学习在过去几十年中受到的关注要少得多。只有少数作品提出使用JPEG编码来实现更快的图像分类[17，14]。虽然有效，这些作品是不太有效的SOTA图像分类模型在他们的时间。最近的一些工作试图将DCT变换的频率分量合并到信道中以更好地建模[2，1]，然而，有效性差距仍然存在。此外，频域表示也用于压缩[55，35]，修剪[35]和convnet压缩[54，13]。频域建模虽然有效，但普遍存在精度低、效率低的问题，这使得频域建模不受图像下游任务的青睐。与SOTA RGB网络相比，我们提出的具有图像压缩的DCFormer以低得多的计算成本实现了并行性能，这在以前的频域建模工作中脱颖而出。最近的工作Wave- ViT [60]使用基于离散小波变换的表示实现了强大的性能我们在基于频率表示的建模上具有类似的范围，但相反，利用基于DCT的表示，因为其灵活性可以支持策略性下采样，从而在不影响性能的情况下提高效率。2.3. 高效的图像建模有几种有效的图像建模的尝试。卷积核或网络压缩[18，22]是减少模型FLOP的直接方法，但10会导致明显的性能下降。后来，精心设计的紧凑型网络（具有非常小的带宽）被提出用于边缘设备，包括squeezeNet[24]，MobileNets [23，42]和Shuf-fleNets [61，36]。最近，神经架构搜索被广泛用作搜索有效和准确的网络架构的工具，例如，[15]《明史》卷15：18，《明史》卷15：19。与这些方法不同，5470∈K×KPSPS∈为了建立一个更小的网络，我们提出了基于频域图像压缩的减少计算量的方法。3. 方法3.1. 频域建模在本文中，我们采用基于DCT的频域表示，因为它通常用于图像压缩[41]，图像编码[43]和各种计算机视觉任务。3.1.1域名转换器对于RGB图像IRGBR3×W×H，我们首先将图像颜色空间从RGB转换为yCrCb颜色空间（IYCrCb）并将图像拼接为：P=[P0，P1，. . . ，P1]= patchfy（IYCrCb）（1）其中P∈R（3×H×W×ps ×ps）是一个斑块序列，ps其中Wk，Wq，Wv表示键，查询和值的可学习线性投影。W表示关注后线性层的可学习权重。虽然不能保证W是（WqΛWq）的严格转置，但变换器可以学习IDCT的近似。等式4中的观察使Transformer架构非常适合我们的压缩图像建模。请注意，卷积网络可以模拟IDCT通过精心设计的内核大小和步幅，但它将是比较有效的Transformer网络（消融表4d）。常用的变压器，包括顺序变压器（如 ViT[12] ）和分层视觉Transformer（例如，SWIN[33]，NAT [19]）直接在频域中工作，对补丁大小和嵌入进行微小更改。频率嵌入：Si上的每个频点Si，j携带相对位置信息以及某些频带信息。为了保持频率信息，我们提出了频率嵌入（FE）在addi-表示每个贴片的边长DCT [4]应用于每个补丁以生成频域表示：Di=DCT（Pi）（2）对于常用的位置嵌入，F E（j，2k）=sin（j/100002k/dm）FE（j，（2k+1））= sin（j/10000（2k+1）/dm）（五）其中，每个片DiR3×ps ×ps的DCT映射具有与原始片Pi相同的维度。分块操作保留相对空间信息，而分块Di中的每个点携带特定频率信息。补丁大小的选择涉及到一个权衡.较小的斑块导致更高的空间分辨率，但较少的细粒度的频率信息和较大的斑块大小相反我们根据经验选择88作为补丁大小的最佳效率-效果的权衡，相同的JPEG这种设计可能允许我们可以直接从原始JPEG图像中获取DCT分量，以便更快地进行训练和推理。3.1.2频域编码器对于压缩的频率图S，像素不再保持每个补丁内的空间关系。与以前尝试将频率分量转移到基于卷积的建模通道的工作不同[1，2]，我们提出构建一个直接在频率图上工作的网络用于每个频率片的 2D 逆 DCT（IDCT）变换可以在数学上公式化为：IDCT（Si）=A（Si）A（3）其中A表示DCT变换矩阵。上述等式可以进一步说明如下，并且与Transformer层的公式一致IDCT（Si）=A（Si）A=（Wq~W）（WvSi）（W）（4）5471∈ττHW∈其中，j[0，ps2]表示下采样频率修补S1中的位置。k表示总DM特征尺寸的第k个我们通过将其添加到频率图S来应用频率嵌入。产品类别：我们基于压缩补丁的相对位置将其解补丁化为：S=unpatchfy（S）（6）其中，解块操作重新组织压缩DCT映射序列S到SR3××基于它们的相对空间位置。 DCFormer编码器附加功能从压缩的频域表示进行特征嵌入，如：XE=（S）（7）其中XE代表DCFormer编码器特征图。分类可以通过添加[CLS]-token [12]或使用线性层[33]来完成3.2. 高效的频域建模3.2.1频域压缩著名的JPEG压缩推断，压缩可以通过经由量化丢弃非视觉显著值来实现[52]。遵循类似的直觉，我们的目标是仅保持来自每个DCT映射Di的信息频率分量以用于有效的图像建模。我们探索了三种类型的压缩策略，如下所示：5472×××∈PSPS×τ2LLLττ我i−1图2：我们的模型DCFormer的概述。该模型首先将RGB图像作为输入，将其转换为基于DCT的频率表示，然后是可选的频率压缩模块。压缩模块（当τ>1时）提供显著的效率提升，具有轻微的性能折衷。然后，基于频率的表示通过位置和频率嵌入来增强，并馈送到一组DCFormer块中。频率注意事项与各种Transformer注意事项兼容（例如：注意，邻居注意）。具有CE损失的线性投影用于分类，并且当应用频率压缩时，MSE重建损失可以用作辅助损失。平均：在DCT映射Di上具有τ τ核的平均池化，如下：训练过程中的纤毛损失，这鼓励DCFormer编码器生成全面的和语义相关的jSi（τ，K1τ）= τ 2 [Di（j，k）+. + Di（j，k + τ）加... + Di（j + τ，k +τ）]（八）特征嵌入。解码器不用于推理，因此不引入额外的推理计算。值得一提的是，解码器必须是具有有限容量的轻量级的其中j和k是Di的坐标。Si表示压缩的DCT映射Di，τ是压缩比。软选择： Di上的基于交叉注意的软选择方法，如：Si=MHCA（Conv2D（Di），qemb）（9）其中MHCA表示多头交叉注意模。尽可能多地利用编码的特征，而不是自己学习新的语义特征。我们提出了一个简单的8层卷积神经网络与33内核作为解码器。因为卷积的效果不太好，在频率域到 RGB 域的转换中，解码器必须依赖DCFormer编码器产生的语义信息重建乌勒，Ps2qemb∈Rτ2×c是查询嵌入，Conv2D是一个因此，过程强制编码器生成更多的COM。在训练中的代表性。解码器具有11扩展Di的通道的2D卷积，例如c=128，支持多头关注。硬选择：硬选择遵循Z字形模式主要关注低频成分：四个上采样级，每个级具有两个卷积层和空间上采样层，定义为：D.X Ei = 1Si=[（Di）]k，k∈[1，Ps2τ2]（10）Xi=转换二维（转换二维（U（XD（十一））））i∈[2，4]其中，m是[37]中使用的锯齿形编码，m（Di）R×代表频率分量的序列其中U表示4 双线性插值上采样。XD表示来自第i个在Z字形编码之后，然后按照它们的频带从低到高进行排序。为了保持视觉上有意义的信息，我们从其中包括DC分量和大部分低-频率和部分中频信息。我们根据经验选择基于图像的硬选择进行压缩，因为它在不引入额外计算的情况下效果最好基于交叉注意力的软选择被弃用，因为它的计算量很大。基于平均的方法执行最差，因为平均不同频带上的频率响应没有意义。3.2.2重建辅助损耗由于频率压缩造成的信息丢失，我们进一步介绍了一种采用辅助编码的重构解码器3.2.3损失我们将分类交叉熵应用于DCFormer编码器输出作为分类损失（cls）。对于重建图像，我们计算MSE损失作为重建质量（MSE）的度量我们还采用了图像超分辨率任务中常用的视觉损失（感知）[25]，以鼓励DCFormer编码器生成语义相关表示。因此，最终损失定义为：L=Lcls+αLMSE + βLperceptual（154732）我们凭经验确定α = 0。1且β = 0。01.5474×表1：ImageNet-1 K验证集的频率建模结果。τ=1和τ=2表示无和有4X压缩的频率输入。* 表示在额外数据上训练的WaveViT [60DCFormer-SW和DCFormer- NA分别表示具有SWIN [33]和NAT [19]主干的DCFormer。4. 实验我们在ImageNet-1 K数据集上进行图像分类[11];在COCO对象检测数据集上进行对象检测和实例分割任务 [31] 。我们将首先在每个任务上将所提出的DCFormer与其他频率域建模方法进行比较，然后进一步与基于SOTA RGB的模型进行比较。最后，我们提出了消融分析的设计选择和DCFormer的推广。对于没有频率压缩的DC-成形器，我们使用τ=1，对于DC-成形器，我们使用τ=24倍频率压缩。4.1. 频域建模结果4.1.1ImageNet分类设置：我们遵循[33]进行ImageNet训练，但略有变化。我们采用AdamW [27]优化器并使用余弦学习率调度器。训练过程开始于30个线性预热时期，随后是270个训练时期。与[33]类似，使用1024的批量大小，0.001的初始学习率和0.05的权重衰减，学习率根据不同实验的批量大小进行缩放。我们在训练中遵循[50]的增强和规则化策略，包括颜色和大小抖动，混合和标签平滑等。结果：我们首先证明了Transformer能够直接从频率表示学习语义。我们将图像分类精度与以RGB图像作为输入的SWIN[33]和以基于频率的表示作为输入的DC-Former进行比较。结果（表1，τ=1）表明，DCFormer能够与不同的RGB骨干相比，实现了相似的性能这证明了我们直觉的正确性，即Transformer可以直接从频率表示学习语义而不会影响性能。我们进一步研究了DCFormer上建议的频率输入压缩的性能（表1，τ=2），并与以前的频率建模工作[1，2]进行了比较。在相同的输入分辨率下，Transformer主干优于最新的频域建模方法[1]，具有更少的FLOP。降低的FLOP和更好的性能表明，我们的锯齿形压缩比常用的基于信道卷积的频域压缩方法更好地保持了显著信息[2]。DCFormer- NAT-T还略微优于使用小波变换的最新图像频率建模工作[60]。值得一提的是，WaveVit-B在附加数据的情况下获得了很强我们注意到，通过提高输入分辨率，在执行建议的输入压缩时，我们看到性能提高（表1，τ=2）。具有τ=2和4输入分辨率的DCFormer与DCFormer相比以相同的FLOP运行，在没有压缩的情况下获取输入，但是具有相当的或稍微更好的性能（例如，DCFormer-SW-T与SWIN-T）。4.1.2基于COCO的设置：我们在COCO 2017数据集[31]上使用Mask R-CNN [20]管道微调DCFormer-SWIN。在微调过程中，我们使用多尺度训练[46，7]，AdamW优化器[27]，权重衰减为0.05，以及与[6，34]相同的学习衰减时间表。管道如下[33]。由于我们的图像压缩在最后阶段导致更小的特征图，因此我们降低了RoIAlign和FPN层的空间比例因子以匹配特征图的比例，例如对于τ =2，标度=2。结果：所提出的DCFormer优于其他自由基，频率域建模工作[1，2，60]的一个显着的边际（表2）。在Mask R-CNN设置下，DCFormer-T在一半的FLOP下优于[2] 3.5%，DCFormer-S在只有60%的FLOP下优于 [1] 3.8% 。在其他基于频域的方法中，DCFormer 在检测任务中脱颖而出，因为：（ 1 ）DCFormer能够将用于ROIalign的特征图保持在合理的大小，而不是将频带挤压到通道中，这对于检测任务是至关重要的;（2）与堆叠卷积相比，Transformer更好地对频域表示进行建模。4.1.3基于COCO的设置：我们还评估了COCO数据集上的实例分割，我们的训练如下模型大小FLOPs（G）#参数。前一名（%）DCT-64T[2]256--77.2FcaNet-TS-50[1]2564.1328M78.6FcaNet-LF-152[1]25611.661M80.1WaveViT-S[60]2564.320M82.7[60]第六十话2567.233M84.8SWIN-T[33]2564.528M81.2DCFormer-SW-T（τ=1）2564.528M81.2DCFormer-SW-T（τ=2）256/384/5121.3/3.2/4.528M79.2/81.2/82.1SWIN-S[33]2568.750M83.0DCFormer-SW-S（τ=1）2568.750M82.8DCFormer-SW-S（τ=2）256/384/5122.7/6.3/8.750M80.9/82.1/82.9SWIN-B[33]25615.488M83.5DCFormer-SW-B（τ=1）25615.488M83.1DCFormer-SW-B（τ=2）256/384/5124.8/10.9/15.488M81.4/82.9/83.5NAT-T[19]2564.328M83.15475×0.50.5××目标检测实例分割骨干输入大小FLOPsTr.（f/s）AP髁间盒AP髁间盒 0.5AP髁间盒 0.75AP髁间盒AP髁间盒 0.5AP髁间盒 0.75ResNet-50-FPN800× 1333800× 1333800× 13331600× 2666800× 1333800× 1333800× 1333800× 1333800× 1333-267G262G-262G262G262G--- 二十三点一25.6------37.359.040.234.254.936.2SWIN-T[33]46.068.150.341.665.144.9ConvNeXt-T[34]46.267.950.841.765.044.9DCT-64S[2]38.159.641.135.056.537.4FcaNet-LF[1]40.361.943.936.358.338.6FcaNet-TS[1]40.362.044.136.258.638.1FcaNet-NAS[1]40.361.943.936.358.338.6WaveViT-S[60]42.465.545.8---WaveViT-B[60]43.066.446.0---DC成型器-SW-TDC成型器-SW-SDC成型器-SW-TDC成型器-SW-S800× 1333800× 13331200× 20001200× 2000116G139G183G235G39.334.228.625.941.644.144.446.463.265.466.267.744.848.147.449.837.939.240.042.759.361.762.864.640.342.243.344.1表2：在5k验证集上COCO对象检测和实例分割的比较，具有800 1333个输入图像。DCFormer-SW和DCFormer-NA分别表示以SWIN [33]和NAT [19]作为主干的DCFormer模型大小FLOPs #Param.前一名（%）使用Cascade Mask R-CNN设置进行ResNet-50[21] 256 3.8G 26M 79.3ResNet-101[21] 256 7.6G 45M 80.1骨干FLOPs AP掩码AP掩码面具0.75RegNetY-4G[39]2564.0G21M80.0RegNetY-8G[39]2568.0G39M81.7RegNetY-16G[39]25616.0G84M82.9DCFormer-S（1. 5×）骨干FLOPs AP掩码AP掩码面具0.75NAT-T[34] 256 4.3G 29M 83.2NAT-S[34] 256 7.8G 50M 83.5NAT-B[34] 256 13.7G 89M 84.3DCFormer-SW-S（τ=2）256 2.7G 28M 80.9(a) 在ImageNet分类任务上与基于SOTA RGB的模型进行比较。SWIN-T[33] 745G 43.7 66.6 47.3ConvNeXt-T[34] 741G 43.7 66.5 47.3SWIN-S[33]838G45.068.248.8ConvNeXt-S[34]827G45.068.449.1DCFormer-T595G38.059.340.7DCFormer-S618G40.562.243.7DCFormer-T（1.5×）661G42.165.746.5(b) COCO 5K验证集上的比较。使用具有SWIN主干和τ=2的DCFormer。表3：与基于RGB的图像分类，目标检测和实例分割工作的比较。检测和实例分割任务在800 1333输入图像上运行，1. 5表示1.5倍大的输入图像。DC Former- SW/NA表示分别以SWIN [33]和NAT [19]作为主干的DC Former。检测实验中使用的相同协议。结果：与其他频域建模方法相比，DCFormer在实例分割方面实现了一致的性能改进（表2）[1，2]。4.2. 与基于RGB的SOTA相比分类表3（a）显示了我们在ImageNet-1 K验证集上的结果，与之前基于卷积[21，34]，Transformer [33，50]的工作进行了比较。所有列出的模型都是在ImageNet-1 K上从头开始训练的我们发现，建议DCFormer能够操作以较低的计算预算，以保持类似的性能与常用的RGB模型相比。例如，DCFormer-SWIN-S（= 2）达到80。9%的top1精度，仅 2.7G FLOP ，比 SWIN-T 效率高得多 [33] 。DCFormer-NA-T还在较低的FLOP下实现了略好的性能，与最近的作品ConvNeXT-T [34]和SWIN- T [33]相比。此外，DCFormer能够在相同的计算条件下实现与RGB SOTA相当的性能。APAP[48]第四十八话3001.8G12M81.6ConvNeXt-S[34]827G51.970.856.5[48]第四十八话3804.2G19M82.9DCFormer-T595G43.562.647.4[48]第四十八话4569.9G30M83.6DCFormer-S618G46.664.950.4[33]第三十三届中国国际纺织品展览会2562564.5G8.7G28M50M81.283.0DCFormer-T（1.5×）661G714G48.450.167.668.852.654.1SWIN-T[33]745G50.369.154.3ConvNeXt-T[34]741G50.469.254.7SWIN-S[33]838G51.970.756.3DCFormer-SW-T（τ=2）5124.5G28M82.1DCFormer-NA-T（τ=2）3843.8G28M82.6ConvNeXt-S[34]2568.7G50M83.1ConvNeXt-B[34]25615.4G89M83.85476×××××××(a) 建筑构件。每个建议的组成部分有助于性能，频率选择器和重建解码器帮助最大。(b) 压缩比较低的compres，锡永比提供更高的精度，但也更高的FLOPs。输入尺寸DCT Patch Top1256× 256 4270.70256× 256 8278.88256× 256 16278.93512× 512 8281.15512× 512 16282.03(c) DCT补丁大小。在较大的输入图像上较大的DCT块尺寸导致更好的性能。骨干FLOPsTop1RGB Top1选择器FLOPsTop1输入大小FLOPsTop1ResNet-50[21]1.0G75.779.3没有抽样4.1G81.1RGB2564.1G81.2ResNet-101[21]2.1G77.580.1平均池化1.3G57.9RGB1121.3G78.5[第12话]14.9G75.277.9交叉注意3.8G77.8重建了。RGB1121.3G79.0SWIN-T[33]1.3G79.281.2锯齿形1.3G79.2DCT1121.3G79.2(d) 概括。基于Transformer的主干通常更适合作为编码器。(e) 压缩方法。锯齿形的比其他的好。(f) 有效性所提出的压缩比空间下采样更有效。表4：ImageNet-1 K上的消融研究所有的实验都使用DCFormer-SW-T和256 256的图像作为主干，除非指定，否则不使用重建解码器。预算例如，具有512 512输入分辨率的DCFormer-SWIN-T （ τ=2 ）在相同的 FLOP 下略优于SWIN- T[33]DCFormer-NA-B还实现了与SOTA NAT-B [19]相当的性能，具有相同的输入分辨率和相同的FLOP。结果表明，所提出的方法的出色的效率和有效性为了与SOTA RGB模型进行比较，我们在级联掩码RCNN管道上训练了具有SWIN主干的DCFormer。所提出的DCFormer能够减少对象检测任务的FLOP和延迟（表3（b））。在输入图像分辨率相同的情况下，DCFormer-SWIN-S 的性能比 SOTASWIN-T 和ConvNeXt-T模型略差，但浮点运算次数减少了15%与图像分类类似，性能差距可以通过更高的输入分辨率来补偿，而无需显著增加FLOPS。通过将输入图像放大1。5（1200 1666），DCFormer-SWIN-S是能够实现可比的性能，少11%的FLOP。实例分割具有大输入分辨率的DCFormer与基于SOTASWIN [33]和ConvNeXT [34]的方法相比实现了类似的性能（表3（c））。我们注意到，DCFormer保持良好的效率，由于建议的频率压缩。然而，DCFormer在实例分割任务上的表现略差。这可能是由于减少的特征图大小和缺乏高频（纹理）信息。有研究表明，纹理信息有助于实例分割[26]。如何在压缩过程中更好地保留这些纹理以及保持低的计算量将是我们未来的工作。4.3. 消融研究我们证明了重要的设计选择，有效性和通用性的ImageNet-1 K图像分类任务的建议模型所有实验均在DCFormer-SWIN-T上进行。图像的分辨率为256 256，具有8 8个频率补丁大小，除非指定，否则使用τ=2建筑构件的分解。表4a分析了每个建议的组件的贡献，通过将它们一次一个地添加到标准 SWINTransformer。我们使用在下采样的RGB图像上的SWIN Transformer，112 112作为基线（相同的FLOP）。通过对频率分量进行硬选择，我们在不引入额外COM的情况下将性能提高了0.34%截肢这也验证了我们的直觉，即频域下采样更好地保留了视觉上重要的信息。建议的频率嵌入稍微提高了0.2%的性能。此外，重建解码器实现了0.16%的轻微改善，这表明我们的解码器的预期工作请注意，解码器只在训练中引入额外的FLOP，但在推理过程中不使用。压缩比表4b比较了不同频率压缩比下的分类性能。压缩比越大，例如τ=4，导致较低的FLOP，但由于更多的信息被丢弃而导致较低的准确度;相反的也是一样。基于消融，我们选择τ=0。5、效率和效益的最佳平衡。同样有趣的是，没有频率下采样（ τ=1 ）的DCFormer实现了与RGB图像输入的SWIN-T相同的精度和FLOP这表明频域表示与RGB表示一样有效，因为我们认为Transformer非常适合频域建模。模块FLOPsTop1τ#选择FLOPsTop1SWIN-T（1122RGB）1.31G78.544 40.39G73.3+频率选择1.31G78.882 161.31G79.2+频率嵌入1.31G79.191.3 363.05G80.4+重构解码器1.31G79.351 644.50G81.25477×××DCT补丁大小。表4c研究了使用不同DCT块大小对不同分辨率图像的影响。通常，较小的DCT块大小，例如82在较小的图像上效果更好（例如，2562、3842）。在相同DCT块大小的情况下进一步提高输入分辨率并不能始终提高性能，因为具有有限DCT基的小DCT块仅包含有限的信息。较大的DCT补丁传达更多的频率信息，并在高分辨率输入上产生更好的性能。动态调整DCT图像块的大小将是我们未来的研究方向。概括。表4d探索了所提出的具有不同主干的图像压缩的一般化。我们的方法推广到不同的骨干。基于变换器的编码器一般产生较小的性能下降，通过使用频域输入，这证明了我们的说明，注意力可以更有效地模拟逆DCT操作。还值得一提的是，ViT-B由于缺乏多尺度特征层次结构而具有高FLOP。压缩方法。表4e比较了不同的频率压缩方法。我们首先注意到，通常用于空间下采样的平均池在应用于频域时会导致显着的性能下降。这是因为平均属于不同频带的数据点没有意义，因为它们没有直接的空间关联。然后，我们尝试使用交叉注意来学习基于加权平均的压缩。然而，交叉注意需要在输入DCT映射上应用额外的卷积层，这引入了额外的计算，使得压缩效率较低，与我们的动机相矛盾。在我们的例子中，锯齿形选择在没有额外计算的情况下效果最好。在JPEG压缩中使用了类似的方法，并观察到了类似的模式[2]。有效性表4f比较并分析了在类似FLOP下所提出的图像建模的几种替代方案，包括：直接将输入图像下采样2;并且在建议的频域压缩之后，用IDCT重建RGB图像并将其馈送到标准SWIN Transformer。为了更好地比较，使用RGB输入为256 256的SWIN-T作为基线。实验结果表明，该方法比传统的方法更有效，因为重建过程可能会受到填充和转换过程中引入的噪声的影响。5. 可视化为了定性地显示所提出的频域建模学习语义，我们可视化了DCFormer-SWIN的激活与注意力展示[3]。图 3 显示并比较了 SWIN Transformer 和我们的DCFormer-SWIN-T（τ=2）学习的特性激活图是从最后一个阶段提取的，图3：SWIN-T [33]和DCFormer- SWIN的激活。大多数情况下，两种模型的激活相似（上图）;在某些情况下，SWIN覆盖更大的区域（下图）。骨干和叠加到输入图像。在大多数情况下，来自SWINTransformer和我们的DCFormer的注意力落在相同的区域上，这表明DCFormer学习与RGB域建模相同的语义表示（图3，顶部）。我们注意到，在少数情况下，SWIN Transformer的激活图覆盖了更广泛的区域（图3，底部），这可能是因为SWIN Transformer生成的特征图比DCFormer生成的特征图大4个，给出了相同的输入图像。6. 结论在本文中，我们介绍DCFormer，使Transformer学习语义直接从基于DCT的频域表示。在DCFormer的基础上，进一步提出了一种频率输入下采样方法。DCFormer实现了与常用的Transformer主干网相当的性能，且不会影响性能。提出的频率输入压缩，DCFormer是能够实现更好的效率-效果权衡与以前的频率建模方法相比。我们希望这些有希望的结果报告将鼓励从另一个角度研究有效的建模和许多下游任务的建议方法的实施。探索基于Transformer的频域建模方法与其他频率表示，例如。离散小波变换，并细化频率压缩，以获得更好的性能将是我们未来的工作。5478引用[1] Fcanet：频率信道注意网络。在CVPR 2021中。[2] 在频域中学习。在CVPR 2020。[3] Samira Abnar和Willem Zuidema。量化变压器中的损耗流。arXiv预印本arXiv：2005.00928，2020。[4] Nasir Ahmed，T Natarajan，and Kamisetty R Rao.离散余弦变换。IEEE Transactions on Computers，100（1）：90[5] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv：1812.00332，2018。[6] 曹虎、王悦悦、陈悦、姜东升、张晓鹏、田奇、王曼宁.Swin-unet：用于医学图像分割的Unet类纯Transformer。arXiv预印本arXiv：2105.05537，2021。[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[9] 陈天水，梁林，左旺梦，罗晓南，张磊。学习类似小波的自动编码器来加速深度神经网络。在AAAI人工智能会议论文集，第32卷，2018年。[10] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[11] Jia Den

下载后可阅读完整内容，剩余1页未读，立即下载