没有合适的资源?快使用搜索试试~ 我知道了~
+…………Synergistic context 120730NomMer:为视觉识别提名协同上下文的视觉变换器0Hao Liu † * Xinghua Jiang * Xin Li Zhimin Bao Deqiang Jiang Bo RenTencent YouTu Lab0{ ivanhliu, clarkjiang, fujikoli, zhiminbao, dqiangjiang, timren } @tencent.com0摘要0最近,视觉变换器(ViT)作为事实上的自我注意力(SA)成分,在计算机视觉社区展示了巨大的潜力。为了在效率和性能之间取得平衡,一组工作仅在局部补丁内执行SA操作,而全局上下文信息被舍弃,这对于视觉识别任务来说是不可或缺的。为了解决这个问题,随后的全局-局部ViTs尝试在模型中以并行或交替的方式将局部SA与全局SA结合起来。然而,详尽地结合局部和全局上下文可能存在冗余,而且每个层内的感受野是固定的。或者,更优雅的方式是全局和局部上下文可以自适应地为不同的视觉数据做出贡献。为了实现这个目标,我们在本文中提出了一种新颖的ViT架构,称为NomMer,它可以动态地在视觉变换器中提名协同的全局-局部上下文。通过研究NomMer的工作模式,我们进一步探索了关注的上下文信息。得益于这种“动态提名”机制,NomMer不仅可以在ImageNet上以仅有73M参数的情况下达到84.5%的Top-1分类准确率,还可以在密集预测任务(如目标检测和语义分割)上展现出有希望的性能。代码和模型可在https://github.com/TencentYoutuResearch/VisualRecognition-NomMer上公开获取。01. 引言0在计算机视觉中,卷积神经网络(CNNs)[6, 9, 11, 21, 23,35]多年来一直是事实上的黄金标准。最近,视觉变换器(ViT)[8]及其变种[25, 31]已经0* 平等贡献。† 联系人。0×N0带有局部上下文的令牌0带有全局上下文的令牌0基本块0基本块(a)并行结构中的全局-局部ViT0(b) 连续结构中的全局-局部ViT0提名者0基本块×N0预测0“糖果”0预测0“灯罩”0×0�0输入图像0输入图像0图1. 提出的NomMer的动机说明。 (a)并行结构中的全局-局部ViTs。 (b)连续结构中的全局-局部ViTs。以前的全局-局部ViTs只关注融合全局和局部上下文,而对它们的调节不足,其中冗余信息在识别各种情况时可能会产生负面影响。 (c)我们的NomMer。在识别对象时,我们的方法可以通过提名者从全局-局部上下文中动态产生协同上下文。0提出了挑战现状。由于自我注意力(SA)的全局信息传递和内容相关的学习特性与CNN中的局部行为实质上不同,ViTs在许多视觉识别任务上表现出优越的性能。然而,ViTs对分割特征块嵌入(即令牌)的全局依赖推理是计算昂贵的。为了解决这些问题,许多最近的工作,如SwinT[15],TNT-ViT [38]和HaloNet[27],引入了类似CNN的归纳偏差(例如,局部性,平移等变换)120740通过仅在局部窗口内通过自注意力构建令牌关系,并以自下而上的方式层次聚合这些关系,从而提高了这些基于局部SA的ViTs的数据效率,而全局上下文关系,特别是在早期阶段,被放弃了。为了弥补这个不足,如图1(a)和(b)所示,有两种“全局-局部ViTs”采取折中的方式,其中每个令牌都融合了局部和全局的视觉依赖关系。第一种[12, 18,37]将局部SA或CNN聚合的上下文与全局SA捕获的上下文并行结构相结合,例如多粒度连接[24],在分层ViT的基本块中。另一方面,第二种[32,39]则交替地聚合局部和全局上下文。然而,无论是并行还是连续的方式,这些全局-局部ViTs只关注融合全局-局部上下文,而对其进行调节的能力不足,其中冗余信息可能在识别各种情况时产生负面影响。例如,先前的方法将“灯罩”误识别为“糖果”,可能是由于冗余的上下文线索(如有色灯光)误导了模型。根据一项开创性的研究[22],人类视觉系统在感知真实世界场景时可以同时处理周边视觉和中央视觉,这也展示了在各种场景下调节的有趣特性。因此,冗余信息可以自然地被忽略。具体而言,中央视觉聚焦于具有更多视觉细节的局部感兴趣区域,例如场景中物体的细粒度细节、颜色或纹理,而周边视觉则指的是以大角度查看但包含粗略全局场景信息的视觉。受到上述初步观察的启发,在本文中,我们将全局-局部ViT模型中的局部聚合上下文视为中央视觉,而全局聚合上下文视为类似周边视觉的视觉信息。此外,我们提出了一种更有效的上下文利用策略,即从局部和全局上下文中动态提取有用的依赖信息。为了实现这个提名过程,我们需要解决以下两个非平凡的问题:(i)在处理不同的视觉情况时,如何使提名的全局和局部上下文协同工作?(ii)在推理全局依赖性时,如何在不明显增加计算成本的情况下最大程度地保留信息?对于第一个问题,提名的一种直接方式是直接从全局或局部上下文中进行硬采样。不幸的是,这个采样过程是不可区分的,这使得模型面临梯度丢失的问题。为了克服这个问题,我们提出了一种新颖的可学习的协同上下文提名器(SCN),以动态产生具有协同作用的全局-局部上下文,如图1(c)所示。此外,对于第二个全局上下文推理问题,大多数先前的方法[12,18]在进行全局SA-based上下文聚合之前采用池化或双线性下采样,以在效率/性能权衡中取得有利。然而,这种天真的计算简化可能会移除冗余和显著信息,导致性能下降。考虑到自然图像中存在大量冗余,其中包含大多数具有高频噪声的平滑信号,我们在离散余弦变换(DCT)[1]上构建了一个压缩的全局上下文聚合器(CGCA),以减少来自频域的全局冗余并且不增加计算复杂性。这种全局上下文推理机制与人类视觉系统在处理周边视觉时的工作行为[22]也惊人地一致。基于SCN和CGCA子模块,我们构建了基本的Transformer块并将它们堆叠到我们的NomMer框架中,该框架可以为各种视觉数据动态地提名视觉转换Mer中的协同上下文。我们在图像分类任务以及密集预测任务(如目标检测和语义分割)上实验证实了我们提出的方法的有效性。我们的贡献可以总结如下:1)我们提出了一种新颖的可学习的协同上下文提名器(SCN),用于聚合上下文,与先前将全局-局部上下文贪婪聚合的ViTs形成鲜明对比。2)我们提出了一种新颖的压缩全局上下文聚合器(CGCA),更有效地减少全局冗余并捕捉全局相关性。3)我们提出了一种新颖的ViT框架,称为NomMer,它使得提名的全局-局部上下文能够互补地适用于各种情况和任务。我们还研究了NomMer中SCN的工作行为。4)由于“提名”机制,NomMer在ImageNet上可以实现84.5%的Top-1分类准确率,仅使用73M个参数。在参数更少的情况下,我们的小型和微型模型仍然可以分别达到83.7%和82.6%的准确率。我们还观察到NomMer在目标检测和语义分割等密集预测任务上的良好性能。0先前的方法[12,18]在进行全局SA-based上下文聚合之前采用池化或双线性下采样,以在效率/性能权衡中取得有利。然而,这种天真的计算简化可能会移除冗余和显著信息,导致性能下降。考虑到自然图像中存在大量冗余,其中包含大多数具有高频噪声的平滑信号,我们在离散余弦变换(DCT)[1]上构建了一个压缩的全局上下文聚合器(CGCA),以减少来自频域的全局冗余并且不增加计算复杂性。这种全局上下文推理机制与人类视觉系统在处理周边视觉时的工作行为[22]也惊人地一致。基于SCN和CGCA子模块,我们构建了基本的Transformer块并将它们堆叠到我们的NomMer框架中,该框架可以为各种视觉数据动态地提名视觉转换Mer中的协同上下文。我们在图像分类任务以及密集预测任务(如目标检测和语义分割)上实验证实了我们提出的方法的有效性。我们的贡献可以总结如下:1)我们提出了一种新颖的可学习的协同上下文提名器(SCN),用于聚合上下文,与先前将全局-局部上下文贪婪聚合的ViTs形成鲜明对比。2)我们提出了一种新颖的压缩全局上下文聚合器(CGCA),更有效地减少全局冗余并捕捉全局相关性。3)我们提出了一种新颖的ViT框架,称为NomMer,它使得提名的全局-局部上下文能够互补地适用于各种情况和任务。我们还研究了NomMer中SCN的工作行为。4)由于“提名”机制,NomMer在ImageNet上可以实现84.5%的Top-1分类准确率,仅使用73M个参数。在参数更少的情况下,我们的小型和微型模型仍然可以分别达到83.7%和82.6%的准确率。我们还观察到NomMer在目标检测和语义分割等密集预测任务上的良好性能。02. 相关工作02.1. 视觉变换器0全局视觉变换器。传统的视觉变换器(ViT)[8]通过贪婪地推理整个模型中视觉令牌的全局依赖性。然而,它可能会导致模型收敛缓慢和计算成本高昂。为了缓解这个问题,DeiT[25]利用蒸馏技术,而PVT[31]将金字塔结构[13]引入到ViT中。120750局部视觉变换器。由于全局ViT缺乏归纳偏差并且在全局范围内计算SA的计算复杂度较高,全局ViT的固有缺点无法完全消除。因此,许多后续的ViT提议仅在局部区域内通过自注意力(SA)限制令牌关系构建。其中,SwinT[15]使用连续的WMHSA和移位操作来执行窗口内和窗口间的信息通信。TNT-ViT[38]提议通过递归地聚合相邻的令牌来表示局部结构。在类似的思路下,HaloNet[27]引入了一种非中心的局部注意力,并通过“haloing”操作进行扩展。尽管基于局部SA的ViT显著降低了模型复杂性并提高了数据效率,但是全局上下文关系,特别是在早期阶段,被舍弃了。全局-局部视觉变换器。为了解决“全局上下文信息丢失”的问题,许多全局-局部ViT [12, 18, 32,37,39]试图在完全全局和完全局部的上下文信息利用之间寻求平衡。具体而言,文献[37]提出了一种聚焦SA,结合了细粒度的局部和粗粒度的全局交互。Conformer[18]根据特征耦合单元,在不同分辨率下融合局部特征和全局表示。除了具有并行结构的全局-局部ViT之外,NesT[39]交替堆叠局部SA和基于CNN的全局聚合模块,而由连续的全局SA和局部CNN组成的基本块设计在CVT [32]中。02.2. 冗余减少方法0本地[27, 38]和全局-局部ViT[39]的设计可以被视为架构方面的冗余减少。相比之下,我们提出的架构可以通过提名机制动态地协调局部和全局上下文。此外,OctConv[6]是通过将CNN特征分离为低频和高频而成功减少特征冗余的开创性尝试,这是通过下采样和上采样实现的。DRConv [5]和DynamicViT[20]是另外两个代表性的工作。DRConv提议动态选择CNN滤波器,但仍然利用了局部上下文,而DynamicViT动态地稀疏化令牌,这可能会导致在密集预测任务中性能下降,因为细粒度的局部交互减弱了。DCTransformer[17]将解决问题的视角转移到频域,并证明了稀疏表示可以携带足够的信息来生成图像。类似地,工作[36]也将输入图像转换为频域以进行视觉理解。频域的有趣属性激发了我们的方法在特征级别上聚合全局上下文。0在频域中的频率级别,与上述两个工作只操作输入图像不同。03. 方法论03.1. 架构概述0所提出架构的概述如图2(a)所示,它遵循其他ViT模型[15, 18, 31,37]中的分层设计。它主要由四个阶段组成,相邻阶段之间分散着“减少模块”,用于通过因子2减少令牌数量并增加通道数。每个减少模块由一个3×3的卷积层和一个步长为2的最大池化层组成。在被发送到第一个阶段之前,尺寸为H×W×3的图像被分割成大小为4×4×3的补丁,然后通过“补丁嵌入”进行投影,该投影由一个4×4×C内核和4步长大小的卷积层组成,投影到H0C维度中的4个视觉标记。我们在我们提出的架构中创造了两种NomMer基本块,即协同NomMer(S-NomMer)和全局NomMer(G-NomMer)块。阶段1和2包含N1和N2个S-NomMer块,负责捕获全局-局部上下文的协同关系。由于阶段3和4中的特征图在空间尺寸上变得相对较小(H032),全局上下文和局部上下文可能变得同质化,信息高度抽象。因此,在第3和第4阶段内,我们在全局自注意力(SA)的基础上构建了G-NomMer层,该层更加关注捕获全局范围内的语义信息。如图2(b)所示,S-NomMer和G-NomMer层都配备了前馈网络(FFN)[28]、残差连接和层归一化(LN)[28]。由于S-NomMer层是我们方法的核心组件,我们将在下一小节中详细介绍它。03.2. 协同NomMer层0为了实现作为我们提出的ViT模型中核心组成部分的S-NomMer层的“动态提名”,我们的设计主要集中在两个关键方面:1)生成全局和局部上下文;2)为每个视觉标记提名协同上下文。通常情况下,如图3所示,S-NomMer层有三个可训练的子模块,即压缩全局上下文聚合器(CGCA)、局部上下文聚合器(LCA)和协同上下文提名器(SCN)。CGCA提供粗略的全局上下文,而LCA在局部区域内提供更详细的上下文信息。通过评估局部或全局上下文对每个标记的贡献,SCN灵活地调节它们并构建提名图以屏蔽具有协同上下文的特征。!" ×!$ ×!%& ××++NF(m,n) is applied by 2D-DCT to obtain a serious of corre-sponding frequency blocks {f (m,n), m = 1, 2, ..., DN , n =1, 2, ..., DN }, f (m,n) ∈ RN×N×C, which is denoted as:f(i, j) =N−1�u=0N−1�v=0c(u)c(v)· Fu,v cos�(i + 0.5)πNu�cos�(j + 0.5)πNv�,(1)c(λ) =�1N ,λ = 0�2N ,λ ̸= 0,(2)where Fu,v represent the pixel with index (u, v) in F(m,n)while the i and j are indexes of horizontal and vertical spa-tial frequencies in frequency block f (m,n). c(·) is the nor-malization scale factor ensuring the orthogonality.Afterwards, the redundancy reduction is achieved by thelow-frequency perceiver (LFP) module. In detail, LFP firstdrops the high-frequencies of each frequency block in pro-portion α, which is set to 0.5 in default:ˆf (m,n) = {f (m,n)(i, j)}, i, j ∈ {1, 2, ..., l},(3)l = ⌊αN⌋.(4)then the low frequency map is obtained by flattening eachˆf (m,n) into a vector in l2 · C dimension. To further extractuseful frequencies while reducing dimensions, a convolu-tional layer with 1 × 1 × C kernel is applied to obtain thecompressed frequency map ˆf ∈ RDN × DN ×C. As the redun-dancy is only reduced in the frequency domain while thespatial information still preserved, it is feasible to performglobal context aggregation by using global multi-head self-attention (G-MHSA):ˆf (G) = Conv(G-MHSA(ˆf)),(5)whereˆf (G) ∈ RDN × DN ×N 2·C and “Conv(·)” is a convolu-tional layer with 1 × 1 × N 2 · C kernel size. Then,ˆf (G) isreshaped to the tensor with shape DN × DN × N × N × C,where each block has the same shape (N × N × C) withF(m,n). To project the frequency maps with compressedglobal context back to the spatial domain, the 2D-IDCT (In-verse DCT) is conducted within each channel of each blockˆf (G)(m,n) according to:F (G)u,v =N−1�u=0N−1�v=0c(u)c(v)· f (G)(i, j) cos�(i + 0.5)πNu�cos�(j + 0.5)πNv�,(6)where F (G)u,v represent the pixel with index (u, v) in a re-stored spatial feature block while the f (G)(i, j) are spatialfrequencies in one frequency block ofˆf (G). c(·) is the nor-malization scale factor given in Eqn. (2). Finally, spatialfeature with compressed global context F(G) is yielded.120760补丁嵌入0H × W × 30减少模块0S-NOMMER0块0减少模块0S-NOMMER0块0减少模块0G-NOMMER0块0G-NOMMER0块0# " ×C0$ × 2 C0%& × 4 C !0'( × 8 C0阶段1 阶段2 阶段3 阶段40× N1 × N2 × N3 × N40+FFN0LN0LN0S-ER0层0(a) 架构 (b) S-NOMMER和G-NOMMER块0+FFN0LN0LN0G-ER0层0图2. (a) 提出的NomMer的架构;(b) NomMer基本块由NomMer层、层归一化(LN)和带有残差连接的前馈网络(FFN)组成。03.2.1 压缩全局上下文聚合器0正如第1节中介绍的那样,我们期望类似外围的全局上下文能够提供关于场景的粗略视觉线索,而更详细的信息可以从局部上下文中补充。因此,包含用于全局上下文聚合的视觉标记的特征图应同时满足:稀疏和信息丰富。为了获得具有减少空间冗余的稀疏表示,我们提出了一种新颖的压缩全局上下文聚合器(CGCA),将包含视觉标记的空间特征图转换为频域,并有选择地保留全局上下文推理所需的低频信息。与许多先前的方法不同,例如OctConv[6]在特征上进行下采样,我们旨在寻求在冗余减少和有用信息保留之间的最佳平衡。我们方法背后的思想主要受到JPEG编解码器[29]的启发,它利用离散余弦变换(DCT)将空间频率与图像分离开来。具体而言,如图3中的“压缩全局上下文聚合器”分支所示,输入特征F∈RD×D×C被划分为N×N大小的块{F(m,n), m=1, 2, ..., DInput featureCNNL-MHSADCTIDCTGumbel-SoftmaxG-MHSACompressed Global Context AggregatorFrequencyblocksLocal Context AggregatorSynergistic Context NominatorNominationmapOutput featureFf(m,n)…LFPCNDD!"𝐟"F(G)𝐟"(G)F(C)F(L)+ConvCandidatefeaturesDDCCT𝛀F(S)F~Figure 3. Illustration of detailed Synergistic NomMer layer. Best viewed in color.1207703.2.2局部上下文聚合器0局部上下文聚合器(LCA)的作用是聚合具有更多视觉细节的局部上下文,作为补充的视觉信息,预期与压缩的全局上下文协同工作。为了实现这个目标,如图3所示,我们在这项工作中采用了两种类型的LCA,即局部-MHSA(L-MHSA)和CNN。正如许多流行的研究所建议的[18,39],在ViT模型中引入的CNN可以提供更多的归纳偏差,有助于模型收敛。本质上,CNN是内容无关的聚合器,而MHSA是内容相关的聚合器。CNN和MHSA的结合可以被视为在利用预定义的归纳偏差或从数据中学习之间的权衡。然而,大多数采用并行[18]或后续[39]组合方式的先前方法只能在一个层内具有单一获取与归纳偏差相关的方式。相比之下,更优雅的方式是根据特定区域确定归纳偏差的使用情况,这激发了我们设计LCA的动机,提供CNN特征F(C)∈RD×D×C和L-MHSA特征F(L)∈RD×D×C。0用于动态提名。更具体地说,我们从SwinT[15]继承了基于窗口的自注意力(W-MSA)作为L-MHSA的M窗口大小。另一方面,我们采用了“瓶颈”[9]的结构{Conv 1×1,Conv 3×3,Conv 1×1}作为CNN聚合器。03.2.3协同上下文提名器0一旦获取了压缩的全局和局部上下文特征,它们被视为候选特征˜F = {F(L), F(C), F(G)} ∈R3×D×D×C(在图3中用红色虚线边界标出)用于提出的协同上下文提名器(SCN)。SCN的目标是为每个空间位置选择具有协同效应的最有价值的上下文,具体过程如图3所示。候选特征首先通过逐元素加法操作融合,然后传递给一个具有1×1×3卷积核的卷积层,以获得形状为D×D×3的张量T,其中最后一个轴中的每个通道描述了提名的概率。0从三个候选项中提名出一个类型的上下文特征。为了进一步获得提名图,我们可以对张量T进行逐元素的硬采样:0ωi,j = argmax(τi,j,1, τi,j,2, τi,j,3),(7)0其中τi,j,c是T的第(i, j)个空间位置的第c个通道的第(i,j)个元素,ωi,j是在(i,j)空间位置上被提名的上下文特征的通道索引。相应地,提名图Ω∈RD×D×3可以确定。例如,如果在位置(i,j)提名了L-MHSA上下文特征,则相应的提名向量Ωi,j是[1,0,0]。提出的SCN模块面临的一个挑战是硬采样过程不可微分,而SCN中的权重需要在训练过程中更新。为了解决这个问题,我们引入了一种重新参数化方法,称为GumbelSoftmax技巧[10],它允许梯度通过离散采样过程进行反向传播。最后,通过在候选特征集上使用提名图屏蔽,输出具有提名的协同上下文的特征图F(S)∈RD×D×C:0f(S)i,j = � 30p =1 Ωi,j˜fp,i,j,(8)0其中f(S)i,j是F(S)的第(i, j)个特征向量,p是位置(i,j)处上下文特征的类型索引。03.3. NomMer变体0为了充分发掘NomMer在不同配置下的潜力,我们构建了几个变体,即NomMer-T,NomMer-S和NomMer-B,分别指的是微型、小型和基础模型。详细的配置信息请参见补充材料。04. 实验04.1. ImageNet-1K上的图像分类0实验设置。我们在ImageNet-1K [ 7]上将我们提出的NomMer与几个基线模型进行比较。Top-1(%)RegNetY-4G [19]214.080.0RegNetY-8G [19]398.081.7RegNetY-16G [19]8416.082.9NFNet-F0 [2]7212.483.6DeiT-S [25]224.679.8DeiT-B [25]8617.581.8PVT-S [31]253.879.8PVT-M [31]446.781.2PVT-L [31]619.881.7Swin-T [15]294.581.3Swin-S [15]508.783.0Swin-B [15]8815.483.3T2T-ViTt-14 [38]226.181.7T2T-ViTt-19 [38]399.882.2T2T-ViTt-24 [38]6415.082.6LG-T [12]334.882.1LG-S [12]619.483.3120780为了进行公平比较,我们遵循[ 25]中的实验设置。具体而言,我们的所有模型都是在输入尺寸为224^2的情况下进行300个epoch的预训练。初始学习率和批大小分别设置为10^-3和1,024。我们使用AdamW [16]优化器和余弦学习率调度器进行优化。权重衰减设置为0.05,最大梯度范数剪裁为5.0。我们还继承了[ 25]中的数据增强和正则化技术。小型、中型和基础模型的随机深度丢弃率分别设置为0.1、0.3和0.5。在报告384^2输入结果时,我们使用总批大小为512进行30个epoch的微调。学习率和权重衰减分别为10^-5和10^-8。0性能。在表1中,我们将我们的NomMer与CNN和Transformer架构的最新方法进行了比较。结果表明,与具有相似模型大小和计算预算的其他方法相比,我们提出的NomMer始终表现出色。与基于CNN的RegNetY [ 19]相比,我们的模型在输入图像尺寸为224^2的三种配置下的性能提高了1.6%到2.6%。与ViT模型相比,我们提出的NomMer也表现出卓越的性能。具体而言,我们的NomMer-B具有73M参数,达到了84.5%的ImageNetTop-1准确率,比DeiT-B [ 25 ]、Swin-B [ 15]和Conformer-B [ 18]分别高出2.7%、1.2%和0.4%。此外,轻量级版本(NomMer-T)也取得了最佳性能。在384^2图像上微调时,也观察到了类似的趋势。此外,我们还进一步验证了我们在更大的ImageNet-21K数据集上预训练的方法的有效性(请参见补充材料)。04.2. COCO上的目标检测0实验设置。为了验证NomMer的通用性,我们在COCO2017 [ 14]上进行目标检测基准测试。使用在ImageNet-1K [ 7]上预训练的模型来初始化级联掩码R-CNN [ 3]框架的骨干网络。与SwinT [ 15]类似,我们遵循3×调度训练,共进行36个epoch,以进行公平比较。训练过程中采用多尺度训练策略,将图像的较短边随机调整为[480, 800]的范围。我们使用AdamW [ 16]进行优化,初始学习率为10^-4,权重衰减为0.05。在类似的精神下,对于小型、中型和基础模型,设置0.1、0.3和0.5的随机深度丢弃率进行训练正则化。0性能。COCO验证集上的框和掩码mAP总结在表2中,从中我们可以看出NomMer显著提升了APb和APm。具体而言,NomMer-B的框mAP和掩码mAP比强基线Swin-B [ 15]分别高出0.8%和0.6%,这证明了我们方法中全局表示对于高级任务的重要性。当评估0ImageNet-1K 224^2训练的模型0方法 #参数 (M) FLOPs (G)0Focal-T [37] 29 4.9 82.2 Focal-S [37] 51 9.1 83.5Focal-B [37] 90 16.0 83.80Conformer-T [18] 24 5.2 81.3 Conformer-S [18] 3810.6 83.4 Conformer-B [18] 83 23.3 84.10NesT-T [39] 17 5.8 81.5 NesT-S [39] 38 10.4 83.3NesT-B [39] 68 17.9 83.80CvT-13 [32] 20 4.5 81.6 CvT-21 [32] 32 7.1 82.50CaiT-S [26] 68 13.9 84.00NomMer-T 22 5.4 82.6 NomMer-S 42 10.1 83.7NomMer-B 73 17.6 84.50ImageNet-1K 3842经过微调的模型ViT-B/16 [8] 86 49.377.90DeiT-B [25] 86 55.4 83.10Swin-B [15] 88 47.0 84.20T2T-ViT t -14 [38] 22 17.1 83.30CvT-13 [32] 20 16.3 83.0 CvT-21 [32] 32 24.9 83.30CaiT-S [26] 68 48.0 85.40NomMer-T 22 17.2 83.9 NomMer-S 42 33.1 84.6NomMer-B 73 56.2 84.90表1.在ImageNet-1K分类上不同骨干的比较。0在评估我们的小型模型时,它超过了第二好的方法Focal-T[37]0.3%,这也表明NomMer在具有较少参数的预测任务上也能表现良好。为了进一步调查所提出模型在不同检测框架下的多功能性120790此外,我们还进行了一系列实验,将NomMer与其他SOTA进行比较。更详细的描述请参见补充材料。0方法#参数(M)FLOPs(G)0(%)AP b 50(%)APb 75(%)0A0(%)AP m 50(%)APm 75(%)0Res50 [9] 82 739 46.3 64.3 50.5 40.1 61.7 43.4 X101-32 [35]101 819 48.1 66.5 52.4 41.6 63.9 45.2 X101-64 [35] 140 97248.3 66.4 52.3 41.7 64.0 45.10Swin-T [15] 86 745 50.5 69.3 54.9 43.7 66.6 47.1 Swin-S [15]107 838 51.8 70.4 56.3 44.7 67.9 48.5 Swin-B [15] 145 98251.9 70.9 56.5 45.0 68.4 48.70Focal-T [37] 87 770 51.5 70.6 55.9 - - -0NomMer-T 80 755 51.8 70.8 56.0 44.7 67.6 48.1 NomMer-S99 851 52.4 71.5 56.8 45.1 68.8 48.5 NomMer-B 130 100652.7 71.6 57.2 45.6 68.9 49.30表2.使用级联MaskR-CNN进行COCO目标检测和实例分割的结果。04.3.在ADE20K上的语义分割0实验设置。对于另一个密集预测任务,语义分割,我们在ADE20K[40]数据集上进一步评估我们的模型。具体而言,我们的NomMer作为UperNet[33]的骨干,UperNet是一种流行的分割方法。除非另有说明,我们使用标准配方,将图像大小设置为5122,并以批量大小16训练模型160k次迭代。0性能。在ADE20K[40]数据集上,使用不同骨干的Upernet的结果报告在表3中,其中包括单尺度和多尺度评估结果。显然,我们的方法在不同配置下明显优于先前的最新技术。在单尺度设置下,我们的NomMer分别以基础、小型和微型模型配置实现了50.0%、48.7%和46.1%的mIoU,比强基准Focal[37]高1.0%、0.7%和0.3%。我们还可以观察到在多尺度评估下的一致性性能改进。总之,由于协同上下文提名,我们的NomMer可以稳定地提高各种视觉识别任务的性能。04.4.消融研究0为了更好地研究我们提出的S-NomMer层中不同方面的有效性,我们在分类和下游任务上进行了广泛的消融研究,其结果总结在表4中。0本地上下文聚合器的效果。我们通过验证LCA的有效性来结合L-MHSA和CNN。与仅配备L-MHSA的“-w/oGlobal&CNN”的性能相比,额外的CNN(“-w/o0方法 #参数(M) FLOPs(G)0mIoU(%)+MS(%)0Res101 [9] 86 1029 44.9 -0Swin-T [15] 60 945 44.5 45.8 Swin-S [15] 81 1038 47.649.5 Swin-B [15] 121 1188 48.1 49.70Focal-T [37] 62 998 45.8 47.0 Focal-S [37] 85 1130 48.050.0 Focal-B [37] 126 1354 49.0 50.50LG-T [12] 64 957 45.3 -0NomMer-T 54 954 46.1 47.3 NomMer-S 73 1056 48.750.4 NomMer-B 107 1220 50.0 51.00表3.在ADE20K分割任务上,不同主干与UperNet框架的性能比较。0“Global”在ImageNet[7]上的准确率增加了0.3%,在COCO[14]上的盒子mAP和掩膜mAP增加了0.2%,在ADE20K[40]上的mIoU增加了0.1%。这证实了CNN提供的归纳偏差的好处,并显示了该组合可以通过协同作用捕捉到显著的细粒度特征。0压缩全局上下文聚合器的效果。如表4所示,我们发现通过将全局上下文整合到局部上下文中,所有任务的性能都可以持续改善,即使全局上下文是从简单的最大池化特征中聚合而来。当聚合在频域中通过我们基于DCT的CGCA进行时,每个任务的平均准确率进一步提升,这表明我们可学习的CGCA可以很好地在冗余减少和有用信息保留之间取得平衡,用于视觉识别任务。0协同上下文提名器的效果。为了验证我们架构中另一个核心组件SCN的能力,我们将我们的NomMer与不配备SCN的每个任务上的NomMer进行性能比较。如表4所示,我们的模型通过采用提名器获得了最佳结果,在不同任务上比非提名器版本至少提高了0.4%。在非提名器版本中,各种类型的上下文通过逐元素相加直接融合。这些结果进一步证明了SCN学习的协同上下文的有效性。04.5. 定性分析0为了进一步研究我们提出的NomMer的工作模式,在图4中,我们可视化了基于基础模型的S-NomMer块的中间层的协同提名地图。我们惊讶地观察到提名地图展示了几个有趣的特性。在低层的提名地图(“Layer 11”)中,CNN上下文特征始终占主导地位,这是120800方法 本地 全局 提名器 ImageNet COCO ADE20K0NomMer-T�无全局和CNN�����81.4 50.4 43.5 44.7 NomMer-T�无全局�����81.7 50.6 43.8 44.8 NomMer-T�无Gumbel和DCT�����82.0 50.944.0 45.1 NomMer-T�无Gumbel�����82.2 51.2 44.3 45.40NomMer-T � � � � � 82.6 51.8 44.7 46.10表4. NomMer在基于NomMer-T架构的三个基准上的消融研究。0Layer 1_4 Layer 1_5 Layer 1_6 Layer 2_5 Layer 2_60原始图像 提名地图 注意力和CNN CAM地图0局部 全局0Layer 1_10CNN0图4. NomMer-B在分类任
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功