视觉识别中局部特征和全局表示的结合

89 浏览量更新于2023-10-16 收藏 13.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3670Conformer: 将局部特征与全局表示相结合的视觉识别0彭志亮 1 黄伟 1 顾山志 3 谢凌熙 2 王耀伟 30焦剑斌 1 叶其祥 1, 3 *01 中国科学院大学，北京，中国 2 华为公司 3 深圳鹏城实验室，中国0{ pengzhiliang19, huangwei19 } @mails.ucas.ac.cn { gushzh, wangyw } @pcl.ac.cn0198808xc@gmail.com { jiaojb, qxye } @ucas.ac.cn0摘要0在卷积神经网络（CNN）中，卷积操作擅长提取局部特征，但难以捕捉全局表示。在视觉transformer中，级联的自注意力模块可以捕捉长距离的特征依赖关系，但不幸的是会损害局部特征细节。在本文中，我们提出了一种混合网络结构，称为Conformer，以利用卷积操作和自注意机制来增强表示学习。Conformer根源于特征耦合单元（FCU），它以交互方式在不同分辨率下融合局部特征和全局表示。Conformer采用并发结构，以最大程度地保留局部特征和全局表示。实验证明，在可比较的参数复杂性下，Conformer在ImageNet上的性能优于视觉transformer（DeiT-B）2.3%。在MSCOCO上，它在目标检测和实例分割方面的mAP分别优于ResNet-1013.7%和3.6%，表明它具有成为通用主干网络的巨大潜力。代码可在github.com/pengzhiliang/Conformer上获得。01. 引言0卷积神经网络（CNNs）[29, 37, 40, 19,0[48,22]显著推动了图像分类、目标检测和实例分割等计算机视觉任务的发展。这在很大程度上归功于卷积操作，它以强大的图像表示方式以分层的方式收集局部特征。尽管在局部特征提取方面具有优势，但CNN很难捕捉全局表示，例如长距离的特征关系。0* 通讯作者0视觉元素之间的关系对于高级计算机视觉任务往往至关重要。一种直观的解决方案是扩大感受野，然而这可能需要更加密集但有害的池化操作。0最近，transformer架构[42]已被引入到视觉任务中[16, 47,41, 51, 8, 9, 3, 55,28]。ViT方法[16]通过将每个图像分割成带有位置嵌入的补丁，并应用级联的transformer块来提取参数化向量作为视觉表示。由于自注意机制和多层感知机（MLP）结构，视觉transformer反映了复杂的空间变换和长距离的特征依赖关系，构成了全局表示。不幸的是，视觉transformer忽视了局部特征细节，这降低了背景和前景之间的可区分性，如图1（c）和（g）所示。改进的视觉transformer[16,51]提出了一个标记化模块或利用CNN特征图作为输入标记来捕捉特征的邻近信息。然而，如何精确地嵌入局部特征和全局表示之间的关系仍然是一个问题。0在本文中，我们提出了一种双网络结构，称为Conformer，旨在将基于CNN的局部特征与基于transformer的全局表示相结合，以增强表示学习。Conformer由一个CNN分支和一个transformer分支组成，分别遵循ResNet [19]和ViT[16]的设计。这两个分支形成了局部卷积块、自注意力模块和MLP单元的综合组合。在训练过程中，交叉熵损失被用于同时监督CNN和transformer分支，以将CNN风格和transformer风格的特征相结合。0考虑到CNN和变换器特征之间的特征不匹配，特征耦合单元（FCU）被设计为桥梁。一方面，为了融合两者ResNet-101DeiT-SResNet-1013680我们的-CNN0我们的-0变换器0（a）（b）（c）（d）（e）（f）（g）（h）0我们的- CNN DeiT-S0我们的-0变换器0浅层0深层0图1：CNN（ResNet-101）[19]，视觉变换器（DeiT-S）[41]和提出的Conformer的特征图比较。变换器中的补丁嵌入被重新整形为特征图以进行可视化。虽然CNN激活了有区别的局部区域（例如(a)中的孔雀头部和(e)中的尾巴），但Conformer的CNN分支利用了视觉变换器的全局线索，从而激活了完整的对象（例如(b)和(f)中的整个孔雀）。与CNN相比，视觉变换器的局部特征细节变差了（例如(c)和(g)）。相反，Conformer的变换器分支保留了CNN的局部特征细节，同时抑制了背景（例如(d)和(h)中的孔雀轮廓比(c)和(g)中的更完整）。（最佳观看颜色）0风格特征，FCU利用1×1卷积对齐通道维度，使用下/上采样策略对齐特征分辨率，使用LayerNorm [2]和BatchNorm[25]对齐特征值。另一方面，由于CNN和变换器分支倾向于捕捉不同层次的特征（例如，局部与全局），FCU被插入到每个块中以连续消除它们之间的语义差异，以交互方式。这样的融合过程可以极大地增强局部特征的全局感知能力和全局表示的局部细节。Conformer在耦合局部特征和全局表示方面的能力在图1中得到了证明。而传统的CNN（例如，ResNet-101）倾向于保留有区别的局部区域（例如，孔雀的头部或尾巴），Conformer的CNN分支可以激活完整的对象范围，图1（b）和（f）。当仅使用视觉变换器时，对于弱局部特征（例如，模糊的对象边界），很难将对象与背景区分开，图1（c）和（g）。局部特征和全局表示的耦合显著增强了基于变换器的特征的可区分性，图1（d）和（h）。本文的贡献包括：0•我们提出了一种双网络结构，称为Conformer，最大程度地保留了局部特征和全局表示0•我们提出了特征耦合单元（FCU），以交互方式融合卷积局部特征和基于变换器的全局表示。0• 在可比的参数复杂度下，Conformer优于CNN和视觉变换器0显著边界。Conformer继承了CNN和视觉变换器的结构和泛化优势，展示了成为通用主干网络的巨大潜力。02. 相关工作0具有全局线索的CNN。在深度学习时代，CNN可以被视为具有不同感受野的局部特征的分层集合。不幸的是，大多数CNN [29, 37, 19, 39, 48, 23,44]擅长提取局部特征，但难以捕捉全局线索。为了缓解这种限制，一种解决方案是通过引入更深的架构和/或更多的池化操作来定义更大的感受野[22, 21]。扩张卷积方法[49,50]增加了采样步长，而可变形卷积[13]学习了采样位置。SENet [22]和GENet[21]提出使用全局Avgpooling来聚合全局上下文，然后用它来重新加权特征通道，而CBAM[46]分别使用全局Maxpooling和全局Avgpooling在空间和通道维度上独立地优化特征。另一种解决方案是全局注意机制[45，07, 4, 20,38]，在自然语言处理中捕捉长距离依赖性方面表现出巨大优势[42, 15,5]。受非局部均值方法[6]的启发，非局部操作[45]以自我注意的方式引入到CNN中，使得每个位置的响应是所有（全局）位置的特征的加权和。注意力增强的卷积网络[4]将卷积特征图与自我注意特征图串联起来，增强卷积操作以捕捉长距离的相互作用。关系网络3690H0W0C0K+10E0下采样上采样0重塑插值0重塑平均池化0池化0干扰0分类器0卷积块0类别标记0项目0转换块0分类器0转换块0卷积块0N-10(b) (a)0(c)0N0图2：所提出的Conformer的网络架构。（a）特征图和补丁嵌入的空间对齐的上采样和下采样。（b）CNN块、transformer块和特征耦合单元（FCU）的实现细节。（c）Conformer的缩略图。0[20]提出了一个对象注意模块，通过外观特征和几何之间的交互同时处理一组对象。尽管有了进展，将全局线索引入CNN的现有解决方案仍然存在明显的缺点。对于第一个解决方案，较大的感受野需要更多的池化操作，这意味着较低的空间分辨率。对于第二个解决方案，如果卷积操作没有与注意机制正确融合，局部特征细节可能会恶化。0视觉Transformer。作为开创性的工作，ViT[16]验证了纯Transformer架构在计算机视觉任务中的可行性。为了利用长距离依赖性，Transformer块作为独立的架构或被引入到CNN中用于图像分类[47, 41, 51]、目标检测[8, 58,3]、语义分割[55]、图像增强[9]、弱监督目标定位[17]和图像生成[11,28]。然而，视觉Transformer中的自我注意机制经常忽略局部特征细节。为了解决这个问题，DeiT[41]提出使用蒸馏标记将基于CNN的特征转移到视觉Transformer，而T2T-ViT[51]提出使用标记化模块对图像进行递归重组，考虑相邻像素。在目标检测中，DETR方法[8,58]将CNN提取的局部特征馈送给Transformer编码器-解码器，以串行方式建模特征之间的全局关系。0与现有的方法不同，Conformer定义了第一个以交互方式融合特征的并发网络结构。这样的结构不仅自然地继承了CNN和transformers的结构优势，还最大程度地保留了局部特征和全局表示的表征能力。03. Conformer03.1. 概述0局部特征和全局表示是重要的对应部分，在视觉描述符的漫长历史中得到了广泛研究。局部特征及其描述符[34, 27,35]是许多计算机视觉算法的基石，它们是局部图像邻域的紧凑向量表示。全局表示包括但不限于轮廓表示、形状描述符和远距离的对象类型[32]。在深度学习时代，CNN通过卷积操作以分层方式收集局部特征，并将局部线索保留为特征图。视觉Transformer被认为以软方式在压缩的补丁嵌入中聚合全局表示，通过级联的自我注意模块。为了充分利用局部特征和全局表示，我们设计了一个并发的网络结构，如图2(c)所示，称为Conformer。考虑到c256 × 56,1971×1, 643×3, 641×1, 256-, 384, stride 4×1MHSA-6, 3841×1, 15361×1, 3841×1, 643×3, 641×1, 256×3[1 × 1, 384] −→MHSA-6, 3841×1, 15361×1, 384- - - - - - - - - - - - - -1×1, 643×3, 641×1, 256←− [1 × 1, 64]c328 × 28,1971×1, 1283×3, 1281×1, 512×4[1 × 1, 384] −→MHSA-6, 3841×1, 15361×1, 384- - - - - - - - - - - - - -1×1, 1283×3, 1281×1, 512←− [1 × 1, 128]c414 × 14,1971×1, 2563×3, 2561×1, 1024×3[1 × 1, 384] −→MHSA-6, 3841×1, 15361×1, 384- - - - - - - - - - - - - -1×1, 2563×3, 2561×1, 1024←− [1 × 1, 256]c57 × 7,1971×1, 2563×3, 2561×1, 1024×1[1 × 1, 384] −→MHSA-6, 3841×1, 15361×1, 384- - - - - - - - - - - - - -1×1, 2563×3, 2561 1, 1024←− [1 × 1, 256]MACs10.6 G3700阶段输出 CNN分支 FCU Transformer分支0c1 112 × 112 7 × 7, 64, 步长2056 × 56 3 × 3最大池化，步长20分类器 1 × 1 , 1 全局池化 - 类令牌0参数 37.7 M0表1：Conformer-S的架构，其中MHSA-6表示transformer块中具有6个头的多头自注意力，fc层在这里被视为1 ×1卷积。在FCU列中，箭头表示特征的流动。在输出列中，56 × 56，197分别表示特征图的大小为56 ×56，嵌入补丁的数量为197。0为了增强Conformer内两种风格特征的互补性，我们将transformer分支的全局上下文连续地馈送到特征图中，以增强CNN分支的全局感知能力。同样，从CNN分支中逐渐馈送局部特征回到补丁嵌入中，以丰富transformer分支的局部细节。这样的过程构成了交互。0特别地，Conformer由一个干扰模块、双分支、用于连接双分支的FCU和两个分类器（一个fc层）组成。干扰模块是一个7 × 7的卷积，步长为2，后跟一个3 ×3的最大池化，步长为2，用于提取初始的局部特征（例如，边缘和纹理信息），然后0将数据馈送到双分支。CNN分支和transformer分支分别由N（例如，12）个重复的卷积和transformer块组成，如表1所述。这样的并发结构意味着CNN和transformer分支可以分别最大程度地保留局部特征和全局表示。FCU被提出作为将CNN分支中的局部特征与transformer分支中的全局表示融合的桥梁模块，如图2（b）所示。FCU从第二个块开始应用，因为两个分支的初始化特征是相同的。在分支中，FCU以交互方式逐渐融合特征图和补丁嵌入。最后，对于CNN分支，所有特征都被汇集并馈送给一个分类器。对于transformer分支，类令牌被取出并馈送给另一个分类器。在训练过程中，我们使用两个交叉熵损失分别监督这两个分类器。损失函数的重要性经验上被设置为相同。在推理过程中，两个分类器的输出简单地总结为预测结果。03.2.网络结构0CNN分支。如图2(b)所示，CNN分支采用特征金字塔结构，其中特征图的分辨率随着网络深度的增加而降低，通道数增加。我们将整个分支分为4个阶段，如表1（CNN分支）所述。每个阶段由多个卷积块组成，每个卷积块包含nc个瓶颈。根据ResNet[19]的定义，一个瓶颈包含一个1×1的下投影卷积，一个3×3的空间卷积，一个1×1的上投影卷积以及输入和输出之间的残差连接。在实验中，第一个卷积块中的nc设置为1，并且在后续的N-1个卷积块中满足nc≥2。视觉变换器[16,41]通过单步将图像块投影为向量，导致了局部细节的丢失。而在CNN中，卷积核在特征图上滑动并重叠，这提供了保留细节局部特征的可能性。因此，CNN分支能够连续为变换器分支提供局部特征细节。0变换器分支。根据ViT[16]，该分支包含N个重复的变换器块。如图2(b)所示，每个变换器块由一个多头自注意模块和一个MLP块（包含一个上投影fc层和一个下投影fc层）组成。在自注意层和MLP块之前都应用了LayerNorm[2]，并且在两者之间都有残差连接。对于标记化，我们通过线性投影层将由干线模块生成的特征图压缩为14×14的不重叠的块嵌入，该层是一个4×4的卷积，步长为4。然后，添加一个类标记。3710(a)0(b) (c)0(d) (e)0图3：结构分析。Cn和Tr分别表示瓶颈和变换器块。(a)双重结构可以被视为残差结构的特殊串行情况。(b)CNN（例如，ResNet）；(c)一个特殊的混合结构，其中变换器块嵌入到瓶颈中。(d)视觉变换器（例如，ViT）；(e)一个特殊情况，其中瓶颈嵌入到变换器块中。0用于分类的补丁嵌入。考虑到CNN分支（3×3卷积）编码了局部特征和空间位置信息[26]，因此不再需要位置嵌入。这有助于提高下游视觉任务的图像分辨率。0特征耦合单元。给定CNN分支中的特征图和变换器分支中的块嵌入，如何消除它们之间的不对齐是一个重要问题。为了解决这个问题，我们提出了FCU以交互方式连续地将局部特征与全局表示耦合起来。一方面，我们必须意识到CNN和变换器的特征维度不一致。CNN特征图的维度是C×H×W（C、H、W分别表示通道数、高度和宽度），而块嵌入的形状是（K+1）×E，其中K、1和E分别表示图像块的数量、类标记和嵌入维度。当输入到变换器分支时，特征图首先需要通过1×1卷积来对齐块嵌入的通道数。然后使用一个下采样模块（图2(a)）来完成空间维度的对齐。最后，将特征图与块嵌入相加，如图2(b)所示。当从变换器分支反馈到CNN分支时，块嵌入需要上采样（图2(a)）来对齐空间尺度。然后，通过1×1卷积将通道维度与CNN特征图的通道维度对齐，并添加到特征图中。同时，使用LayerNorm和BatchNorm模块对特征进行规范化。另一方面，特征图和块嵌入之间存在显著的语义差距，即特征0ResNet-1010(a) 类激活图0我们的CNN我们的Trans.0(b) 注意力图0图4：特征分析。 (a)使用CAM方法[57]在ResNet-101和Conformer-S的CNN分支中使用类激活图。 (b) 使用AttentionRollout方法[1]在DeiT-S和Conformer-S的transformer分支中使用注意力图。（最佳观看效果为彩色）0特征图是从局部卷积算子中收集的，而patch嵌入是通过全局自注意机制进行聚合的。因此，在每个块（除第一个块外）中都应用了FCU，以逐渐填补语义差距。03.3. 分析与讨论0结构分析。通过将FCU视为一条短连接，我们可以将提出的双重结构抽象为特殊的串行残差结构，如图3(a)所示。在不同的残差连接单元下，Conformer可以实现不同深度的瓶颈组合（如ResNet，图3(b)）和transformer块组合（如ViT，图3(d)），这意味着Conformer继承了CNN和视觉transformer的结构优势。此外，它在不同深度实现了不同的瓶颈和transformer块的排列组合，包括但不限于图3(c)和(e)。这极大地增强了网络的表示能力。0特征分析。我们在图1中可视化了特征图，在图4中可视化了类激活图和注意力图。与ResNet[19]相比，Conformer的CNN分支通过耦合的全局表示更容易激活较大的区域，而不是局部区域，这表明增强了远距离特征依赖性，这在图1(f)和4(a)中得到了显著的证明。由于CNN分支逐渐提供了精细的局部特征，Conformer的transformer分支中的patch嵌入保留了重要的局部细节特征。3720模型图像 #参数 MACs Top-1 大小 (M) (G) (%)0ResNet-50 [19] 224 2 25.6 4.1 76.2 ResNet-101[19] 224 2 44.5 7.8 77.4 ResNet-152 [19] 224 260.2 11.6 78.3 RegNetY-4.0GF [36] 224 2 20.64.0 78.8 RegNetY-12.0GF [36] 224 2 51.8 12.180.3 RegNetY-32.0GF [36] 224 2 145.0 32.3 81.00ViT-B [16] 384 2 86 55.5 77.9 ViT-L [16] 384 2307 191.1 76.5 T2T-ViT t-14 [51] 224 2 21.5 5.280.7 T2T-ViT t-19 [51] 224 2 39.0 8.4 81.4T2T-ViT t-24 [51] 224 2 64.1 13.2 82.2 DeiT-S[41] 224 2 22.1 4.6 79.8 DeiT-B [41] 224 2 86.617.6 81.80Conformer-Ti 224 2 23.5 5.2 81.3 Conformer-S224 2 37.7 10.6 83.4 Conformer-B 224 2 83.323.3 84.10表2：在ImageNet验证集上的图像分类Top-1准确率。0（图1(d)和(h)），这些特征在视觉transformer [16,41]中被破坏（图1(c)和(g)）。此外，图4(b)中的注意力区域更完整，而背景被显著抑制，这表明Conformer学习到的特征表示具有更高的区分能力。04. 实验04.1. 模型变体0通过调整CNN和transformer分支的参数，我们得到了模型的变体，分别称为Conformer-Ti、-S和-B。Conformer-S的详细信息在表1中描述，Conformer-Ti/B的详细信息在补充材料中。Conformer-S/32将特征图分割成7×7的patch，即transformer分支中的patch大小为32×32。04.2. 图像分类0实验设置。Conformer模型在ImageNet-1k[14]的训练集上进行训练，包含130万张图像，并在验证集上进行测试。在表2中报告了Top-1准确率。为了使transformer收敛到一个合理的性能，我们遵循了DeiT[41]中的数据增强和正则化技术。这些技术包括Mixup[53]、CutMix [52]、Erasing [56]、Rand-Augment[12]和Stochastic Depth [24]。模型使用AdamW优化器[33]进行300个epoch的训练，批大小为1024，权重衰减为0.05。初始学习率设置为0.001，并按照余弦衰减进行衰减。0性能。在相似的参数和计算预算下，Conformer优于CNN和视觉变换器。例如，Conformer-S（具有37.7M参数和10.6GMACs）的性能分别比ResNet-152（具有60.2M参数和11.6G MACs）高出4.1%（83.4% vs.78.3%），比DeiT-B（具有86.6M参数和17.6GMACs）高出1.6%（83.4% vs.81.8%）。具有可比参数和适度MAC成本的Conformer-B比DeiT-B高出2.3%（84.1% vs.81.8%）。除了性能更好，Conformer的收敛速度也比视觉变换器更快。04.3. 目标检测和实例分割0为验证Conformer的通用性，我们在MSCOCO数据集1上对其进行了实例级任务（例如目标检测）和像素级任务（例如实例分割）的测试。Conformer作为骨干网络，无需额外设计，表2中包含了相对准确性和参数比较。使用CNN分支，我们可以使用[c2, c3, c4,c5]的输出特征图作为侧输出来构建特征金字塔。0实验设置。按照常规做法，模型在MSCOCO训练集上进行训练，并在MSCOCOminival数据集上进行测试。在表3中，我们报告了在IoU阈值、小型、中型和大型目标的平均AP bbox（APsegm）、AP bbox S（AP segm S）、AP bbox M（APsegm M）和AP bbox L（AP segmL）。除非另有说明，我们使用批大小为32，学习率为0.0002，优化器为AdamW[33]，权重衰减为0.0001，最大训练轮数为12。学习率在第8和第11轮进行衰减。0性能。如表3所示，Conformer显著提升了AP bbox和APsegm。对于目标检测，Conformer-S/32（55.4M和288.4GFLOPs）的mAP比FPN基线（ResNet-101，60.5M和295.7GFLOPs）高出3.7%。对于实例分割，Conformer-S/32（58.1M和341.4GFLOPs）的mAP比MaskR-CNN基线（ResNet-101，63.2M和348.8GFLOPs）高出3.6%。这证明了全局表示对于高级任务的重要性，并表明Conformer成为通用骨干网络的巨大潜力。04.4. 消融研究0参数数量。提出的Conformer的参数是CNN和变换器分支的组合。两个分支的参数比例是一个需要通过实验确定的超参数。在表4中，我们评估了不同参数设置下两个分支的性能。对于CNN分支，我们通过改变通道数来调整CNN分支的参数。01 使用mmdetection库，网址为github.com/open-mmlab/mmdetection384 622 M----4.6 G79.82641.5 M 0.07 5.2 G81.31284.5 M0.2 6.4 G82.31929.3 M0.4 8.2 G82.8256 15.7 M 0.7 10.6 G83.4320 23.7 M 1.0 13.7 G83.64 192 15.8 M 0.7 10.9 G83.33 256 21.4 M 1.0 13.0G83.5576 948.9 M----10.0 G79.02 256 16.4 M 0.3 16.3 G83.6384 36.4 M 0.7 23.3 G84.1768 1286 M----17.6 G81.82 256 17.6 M 0.2 24.2 G83.0DeiT-S/3222.9 M1.1 G73.8%ResNet-26d & DeiT-S36.5 M3.7 G80.2%ResNet-50d & DeiT-S46.0 M5.5 G80.4%Conformer-S/3238.8 M7.0 G81.9%Deit-S√79.8%×77.4% (-2.4%)Conformer-S√83.5%×83.4% (-0.1%)Sampling Strategies. In FCU, to make CNN-based fea-ture maps coupling with Transformer-based patch embed-dings, up/down-sampling operations are used to align thespatial scale.In Tab. 7, we compare different up/down-sampling strategies including Maxpooling, Avgpooling,convolution and attention-based sampling2.Comparedwith Max/Avgpooling sampling, convolution and attention-based sampling methods use more parameters and compu-tation cost but achieve comparable accuracy. We therebychoose the Avgpooling strategy.3730方法骨干网络输入尺寸 #参数 GFLOPs AP bbox AP bbox S AP bbox M AP bbox L AP segm AP segm S AP segm M AP segm L0FPN0ResNet-50†[30] (1333, 800) 41.5 M 215.8 37.4 21.2 41.0 48.1 - - - -0ResNet-101†[30] (1333, 800) 60.5 M 295.7 39.4 22.4 43.7 51.1 - - - -0Conformer-S/32 (1344, 800) 55.4 M 288.4 43.1 26.8 46.5 55.8 - - - -0Conformer-S/16 (1120, 800) 54.2 M 404.6 44.2 28.5 48.1 58.4 - - - -0Mask R-CNN0ResNet-50†[18] (1333, 800) 44.2 M 268.9 38.2 21.9 40.9 49.5 34.7 18.3 37.4 47.20ResNet-101†[18] (1333, 800) 63.2 M 348.8 40.0 22.6 44.0 52.6 36.1 18.8 39.7 49.50Conformer-S/32 (1344, 800) 58.1 M 341.4 43.6 27.5 46.9 56.5 39.7 23.5 42.8 53.20Conformer-S/16 (1120, 800) 56.9 M 457.7 44.9 28.7 48.8 58.6 40.7 24.4 44.3 55.10表3：在MSCOCO minival数据集上进行目标检测和实例分割的性能。†表示结果由mmdetection库[10]报告。0Transformer分支 CNN分支 p p MACs 准确率 E d h#参数 n c C #参数0表4：不同参数比例下的性能。E和d h分别表示Transformer分支中多头注意力模块的嵌入维度和头数。C和n c 分别表示CNN分支中c2的通道数和每个卷积块中的瓶颈数。p p是CNN（包括干线和FCU）和Transformer分支参数的比例。0对于CNN分支，我们调整参数来改变CNN分支的宽度和深度。对于Transformer分支，我们通过改变嵌入维度和头数来调整参数。从表4中可以看出，通过增加CNN或Transformer分支的参数，准确率得到了提高。增加CNN参数可以带来更大的提升，而计算成本相对较低。0双重结构。Conformer是一个双重模型，与串行混合ViT（CNN→Transformer）[16]完全不同。在表5中，ResNet-26/50d &DeiT-S是一个混合模型，由ResNet-26/50d[19]和DeiT-S[41]组成，其中DeiT-S根据ResNet-26/50d提取的特征图形成标记。在可比较的计算成本开销下，Conformer-S/32的性能优于串行混合模型，尽管ResNet-26/50d可以在干线阶段保留更多的局部信息。0模型 #参数 MACs 准确率0表5：混合结构的比较。DeiT-S/32表示DeiT-S模型的补丁大小为32×32[41]。ResNet-26/50d是ResNet-26/50的变种，其干线模块由三个3×3卷积组成。0方法位置嵌入准确率0表6：位置嵌入策略的比较。0尺度对齐策略。在FCU中，为了使基于CNN的特征图与基于Transformer的补丁嵌入相耦合，使用上/下采样操作来对齐空间尺度。在表7中，我们比较了不同的上/下采样策略，包括最大池化、平均池化、卷积和基于注意力的采样2。与最大/平均池化采样相比，卷积和基于注意力的采样方法使用更多的参数和计算成本，但达到了可比较的准确率。因此，我们选择了平均池化策略。0位置嵌入。考虑到CNN分支编码了局部特征和空间位置信息，假设Conformer不再需要位置嵌入。在表6中，当移除位置嵌入时，DeiT-S的准确率下降了2.4%，而Conformer-S的准确率略微下降了0.1%。02 请参考补充材料以获取详细的基于注意力的采样方法。DeiT-S22.0 M 4.2 G-79.8% 79.8%ResNet-10144.5 M 7.8 G 80.6%-80.6%DeiT-S + ResNet-101 66.5 M 11.2 G 80.6% 79.8% 81.8%Conformer-S37.7 M 10.3 G 83.3% 83.1% 83.4%ls.RCAM [54] VGG16 [37]59.0%76.3%TS-CAM [17] DeiT-S [41]71.3%87.7%Conformer-S72.0%93.4%et.0°60°120°180°240°300°Conformer-SDeiT-SResNet-101DeiT-B5055606570758085112160224336448Conformer-SDeiT-SResNet-50ResNet-152(a)(b)ro-dertedsonith3740向下向上 #参数 MACs 准确率0最大池化插值 37.7 M 10.3 G 83.3% 平均池化插值37.7 M 10.3 G 83.4% 卷积插值 47.7 M 12.3 G83.4% 注意力注意力 39.4 M 11.3 G 83.3%0表7：采样策略比较。使用最近邻插值。0模型 #参数 MACs 准确率 C n 准确率 T r 总准确率0表8：集成模型的性能比较。Acc C n和Acc Tr分别表示CNN和Transformer分支的准确率。0与集成模型的比较。将Conformer与将CNN和Transformer的输出组合的集成模型进行比较。为了公平比较，我们使用相同的数据增强和正则化策略以及相同的训练轮数（300）来训练ResNet-101 [19]，并将其与DeiT-S[41]模型组合成一个集成模型，并在表8中报告准确率。CNN分支、Transformer分支和Conformer-S的准确率分别达到83.3%、83.1%和83.4%。相比之下，集成模型（DeiT-S+ResNet-101）的准确率为81.8%，比Conformer-S（83.4%）低1.6%，尽管它使用了更多的参数和MACs。04.5. 定量评估0在图1和图4中，我们定性地展示了Conformer可以通过弱监督的目标定位（WSOL）学习全局信息，这可以反映模型的定位能力。实验在CUB-200-2011数据集上进行[43]。在表9中，Conformer-S与TS-CAM[17]相比，在定位性能上明显优于基于CNN的RCAM[54]和基于Transformer的DeiT-S，这支持了Conformer可以更好地学习完整目标范围的论点。04.6. 泛化能力0旋转不变性。为了验证模型在旋转方面的泛化能力，我们将测试图像旋转0°、60°、120°、180°、240°和300°，并评估在相同数据增强设置下训练的模型的性能。如图5(a)所示，所有模型对于没有旋转的图像(0°)报告了相似的性能。对于旋转的测试图像，ResNet-101的性能显著下降。相反，Conformer-S报告了更高的性能，这意味着更强的旋转不变性。0方法骨干网络 Top-1 定位准确率已知GT定位准确率0表9：CUB-200-2011测试集上的WSOL性能。0Top-1准确率(%)0图像分辨率0图5：泛化能力。 (a)旋转不变性比较。比较的模型在相同的数据增强设置下训练，并在旋转图像上直接评估，而无需模型微调。 (b)尺度不变性比较。这些模型在分辨率为224×224的图像上进行训练，并在没有模型微调的情况下在不同的图像分辨率上进行测试。0尺度不变性。在图5(b)中，我们将Conformer的尺度适应能力与视觉变换器（DeiT-S）和CNN（ResNet）进行比较。我们在推理过程中插值DeiT-S的位置嵌入以适应不同分辨率的输入图像。当输入图像的尺寸从224减小到112时，DeiT-S的性能下降了25%，而ResNet-50/152的性能下降了15%。相比之下，Conformer的性能仅下降了10%，表明学习到的特征表示具有更高的尺度不变性。05. 结论0我们提出了Conformer，这是第一个将CNN与视觉Transformer相结合的双骨干网络。在Conformer中，我们利用卷积运算符提取局部特征，利用自注意机制捕捉全局表示。我们设计了特征耦合单元来融合局部特征和全局表示，以交互方式增强视觉表示的能力。实验证明，在相当的参数和计算预算下，Conformer的性能优于CNN和视觉Transformer，与现有技术形成鲜明对比。在下游任务中，Conformer展现了成为简单而有效的骨干网络的巨大潜力。致谢。本工作得到了中国国家自然科学基金（NSFC）的支持，项目编号为61836012、61771447和62006216，中国科学院战略性先导科技专项（XDA27000000）的支持。[1] Samira Abnar and Willem Zuidema.Quantifying atten-tion flow in transformers. arXiv preprint arXiv:2005.00928,2020. 5[2] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hin-ton. Layer normalization. arXiv preprint ar

下载后可阅读完整内容，剩余1页未读，立即下载