CrossViT：交叉注意力多尺度视觉转换器

76 浏览量更新于2023-10-15 收藏 12.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

01020506070727476788082OursDeiTViT3570CrossViT：用于图像分类的交叉注意力多尺度视觉转换器0Chun-Fu (Richard) Chen，Quanfu Fan，RameswarPanda MIT-IBM Watson AI Lab0chenrich@us.ibm.com，qfan@us.ibm.com，rpanda@ibm.com0摘要0最近开发的视觉转换器（ViT）在图像分类方面相对于卷积神经网络取得了有希望的结果。受此启发，本文研究了如何在图像分类的转换器模型中学习多尺度特征表示。为此，我们提出了一个双分支转换器，将不同尺寸的图像块（即转换器中的标记）结合起来，以产生更强的图像特征。我们的方法使用两个不同计算复杂度的独立分支处理小块和大块标记，并通过注意力多次纯粹融合这些标记以相互补充。此外，为了减少计算量，我们基于交叉注意力开发了一个简单而有效的标记融合模块，该模块使用每个分支的单个标记作为查询与其他分支交换信息。我们提出的交叉注意力只需要线性时间进行计算和存储，而不是二次时间。大量实验证明，我们的方法在视觉转换器上表现优于或与几个同时进行的工作相当，除了高效的CNN模型。例如，在ImageNet1K数据集上，通过一些架构调整，我们的方法在FLOPs和模型参数略有增加的情况下，以2%的大幅度优于最近的DeiT。我们的源代码和模型可在https://github.com/IBM/CrossViT获得。01. 引言0新颖的转换器架构[36]在NLP任务中的序列到序列建模能力方面取得了重大突破[10]。转换器在NLP领域的巨大成功引起了视觉社区的特别关注，以了解转换器是否可以成为视觉任务中卷积神经网络（CNNs）的强有力竞争者，例如ResNet [15]和EfficientNet [34]。以前的研究[5]0FLOPs（10^9）0Top-1准确率（%）010M 50M 100M 200M0图1：我们提出的方法相对于DeiT [35]和ViT[11]的改进。圆的大小与模型大小成比例。所有模型都是从头开始在ImageNet1K上训练的。ViT的结果参考自[45]。0迄今为止，关于视觉中的转换器的研究一直主要集中在将CNN与自注意力相结合[3, 48, 31,32]。虽然这些混合方法取得了有希望的性能，但与纯注意力转换器相比，它们在计算上的可扩展性有限。视觉转换器（ViT）[11]是第一种使用嵌入图像块序列作为标准转换器输入的无卷积转换器，它展示了与CNN模型相当的性能。然而，ViT需要非常大的数据集，如ImageNet21K[9]和JFT300M [33]进行训练。DeiT[35]随后表明，数据增强和模型正则化可以使高性能的ViT模型在更少的数据下进行训练。自那时以来，ViT立即激发了从不同方面改进其效率和效果的几次尝试。在构建更强大的视觉转换器的同一研究线上，本文研究了如何在图像识别的转换器模型中学习多尺度特征表示。多尺度特征表示3580已经证明对许多视觉任务有益[5, 4, 22, 21, 25, 24,7]，但这种对视觉转换器的潜在益处尚待验证。受到多分支CNN架构（如Big-Little Net[5]和Octave卷积[6]）的有效性的启发，我们提出了一个双分支转换器，将不同尺寸的图像块（即转换器中的标记）结合起来，以产生更强的图像特征用于图像分类。我们的方法使用两个不同计算复杂度的独立分支处理小和大的块标记，并多次融合这些标记以相互补充。我们的主要关注点是开发适用于视觉转换器的特征融合方法，据我们所知，这个问题尚未得到解决。我们通过一个高效的交叉注意力模块来实现这一点，在该模块中，每个转换器分支创建一个非块标记作为代理，通过注意力与另一个分支交换信息。这样可以线性时间生成融合的注意力图，而不是二次时间。通过在每个分支的计算负载中进行适当的架构调整，我们提出的方法在FLOPs和模型参数略有增加的情况下，以2%的大幅度优于DeiT [35]（见图1）。我们的工作的主要贡献如下：0•我们提出了一种新颖的双分支视觉变换器，用于提取图像分类的多尺度特征表示。此外，我们基于交叉注意力开发了一种简单而有效的令牌融合方案，该方案在计算和内存方面都是线性的，用于组合不同尺度的特征。0•我们的方法在准确性、吞吐量和模型参数方面优于或与基于ViT的几个并发工作相当，并且与EfficientNet在准确性、吞吐量和模型参数方面具有可比性。02. 相关工作0我们的工作与三个主要研究方向相关：具有注意力的卷积神经网络，视觉变换器和多尺度CNN。在这里，我们重点关注与我们的工作密切相关的一些代表性方法。具有注意力的CNN。注意力已经被广泛应用于许多不同形式的特征表示增强中，例如SENet使用通道注意力，CBAM添加了空间注意力，ECANet提出了一种高效的通道注意力来进一步改进SENet。还有很多将CNN与不同形式的自注意力相结合的方法，例如SASA和SAN使用局部注意力层来替代卷积层。尽管取得了有希望的结果，但之前的方法由于复杂性将注意力范围限制在局部区域。LambdaNetwork最近提出了一种有效的全局注意力模型，用于模拟内容和基于位置的交互，极大地改善了图像分类模型的速度和准确性。与将卷积与自注意力混合的这些方法不同，我们的工作是建立在纯自注意力网络（如视觉变换器）之上的，这些网络最近在几个视觉应用中显示出了巨大的潜力。0引入了一种高效的全局注意力，用于建模内容和基于位置的交互，极大地改善了图像分类模型的速度和准确性。BoTNet将空间卷积替换为全局自注意力，结果在ResNet的最后三个瓶颈块中实现了强大的图像分类性能。与将卷积与自注意力混合的这些方法不同，我们的工作是建立在纯自注意力网络（如视觉变换器）之上的，这些网络最近在几个视觉应用中显示出了巨大的潜力。0视觉变换器。受到Transformers在机器翻译中的成功启发，只依赖于变换器层的无卷积模型在计算机视觉领域已经变得非常流行。特别是，视觉变换器（ViT）是第一个基于变换器的方法，可以与甚至超越CNN在图像分类方面的性能。最近还提出了许多视觉变换器的变体，这些变体使用蒸馏来实现对视觉变换器的数据高效训练，使用类似CNN的金字塔结构，或者通过学习抽象表示而不是执行全连接自注意力来提高效率。Perceiver利用非对称的注意机制将输入迭代地蒸馏成紧凑的潜在瓶颈，使其能够处理非常大的输入。T2T-ViT引入了一种逐层的Token-to-Token（T2T）变换，以编码每个标记的重要局部结构，而不是ViT中使用的简单标记化方法。与这些方法不同，我们提出了一种双路径架构，用于提取多尺度特征，以实现更好的视觉表示与视觉变换器。0多尺度CNN。多尺度特征表示在计算机视觉领域有着悠久的历史（例如图像金字塔、尺度空间表示和粗到精的方法）。在CNN的背景下，多尺度特征表示已被用于检测和识别多尺度的对象，以及在Big-LittleNet和OctNet中加速神经网络。bLVNet-TAM使用两个分支的多分辨率架构，同时学习跨帧的时间依赖性。SlowFastNetworks依赖于类似的两个分支模型，但每个分支编码不同的帧速率，而不是具有不同空间分辨率的帧。虽然多尺度特征已经显示出对CNN的益处，但对于视觉变换器的适用性仍然是一个新颖且基本未解决的问题。03. 方法0我们的方法是基于视觉Transformer[11]构建的，因此我们首先简要介绍ViT，然后描述我们提出的用于学习图像分类的多尺度特征的方法（CrossViT）。……Small patch size Ps Large patch size Pl+……xk = yk + FFN(LN(yk)),(1)3590Transformer编码器 � N Transformer编码器 � M0交叉注意力 � L0: CLS标记 ,0线性投影线性投影0MLP头 MLP头0连接0多尺度Transformer编码器 � K0: 图像块标记0S-分支 L-分支0图2：用于学习多尺度特征的我们提出的带有交叉注意力的Transformer架构（CrossViT）的示意图。我们的架构由K个多尺度Transformer编码器堆叠而成。每个多尺度Transformer编码器使用两个不同的分支来处理不同尺寸（Ps和Pl，Ps AB+3icbVDLSsNAFL2pr1pfsS7dDBbBVUlE0WXRjcsK9gFtLJPpB06mYSZibSE/IobF4q49Ufc+TdO2iy09cDA4Zx7uWeOH3OmtON8W6W19Y3NrfJ2ZWd3b/APqy2VZRIQlsk4pHs+lhRzgRtaY57caS4tDntONPbnO/80SlYpF40LOYeiEeCRYwgrWRBna1H2I9oN0mj3yQUq4ygZ2zak7c6BV4hakBgWaA/urP4xIElKhCcdK9Vwn1l6KpWaE06zSTxSNMZngEe0ZKnBIlZfOs2fo1ChDFETSPKHRXP29keJQqVnom8k8qVr2cvE/r5fo4NpLmYgTQVZHAoSjnSE8iLQkElKNJ8ZgolkJisiYywx0auinBXf7yKmf192L+uX9Ra1xU9RhmM4gTNw4QoacAdNaAGBKTzDK7xZmfVivVsfi9GSVewcwR9Ynz/vhZUIAB/3icbVDLSsNAFJ3UV62vqODGTbAIrkoiFV0W3bisYB/QxjCZTtqhk0mYuRFLzMJfceNCEbf+hjv/xkmbhbYeGDicy/3zPFjzhTY9rdRWlpeWV0r1c2Nre2d8zdvbaKEkloi0Q8kl0fK8qZoC1gwGk3lhSHPqcdf3yV+517KhWLxC1MYuqGeChYwAgGLXnmQT/EMPKD9CG7S1XmpTEGMso8s2rX7CmsReIUpIoKND3zqz+ISBJSAYRjpXqOHYObYgmMcJpV+omiMSZjPKQ9TQUOqXLTaf7MOtbKwAoiqZ8Aa6r+3khxqNQk9PVknlbNe7n4n9dLILhwUybiBKgs0NBwi2IrLwMa8AkJcAnmAimc5qkRGWmICurKJLcOa/vEjapzWnXju7qVcbl0UdZXSIjtAJctA5aqBr1EQtRNAjekav6M14Ml6Md+NjNloyip19AfG5w9hPJb9AB/3icbVDLSsNAFJ3UV62vqODGTbAIrkoiFV0W3bisYB/QxjCZTtqhk0mYuRFLzMJfceNCEbf+hjv/xkmbhbYeGDiccy/3zPFjzhTY9rdRWlpeWV0r1c2Nre2d8zdvbaKEkloi0Q8kl0fK8qZoC1gwGk3lhSHPqcdf3yV+517KhWLxC1MYuqGeChYwAgGLXnmQT/EMPKD9CG7S3nmpTEGMso8s2rX7CmsReIUpIoKND3zqz+ISBJSAYRjpXqOHYObYgmMcJpV+omiMSZjPKQ9TQUOqXLTaf7MOtbKwAoiqZ8Aa6r+3khxqNQk9PVknlbNe7n4n9dLILhwUybiBKgs0NBwi2IrLwMa8AkJcAnmAimc5qkRGWmICurKJLcOa/vEjapzWnXju7qVcbl0UdZXSIjtAJctA5aqBr1EQtRNAjekav6M14Ml6Md+NjNloyip19AfG5w9WYZb2AB/HicbVDLSsNAFL2pr1pf0S7dBIvoqiRS0WXRjcsK9gFtDJPpB06mYSZiRhC/BU3LhRx64e482+ctF1o64GBwzn3cs8cP2ZUKtv+Nkorq2vrG+XNytb2zu6euX/QkVEiMGnjiEWi5yNJGOWkrahipBcLgkKfka4/uS787gMRkb8TqUxcUM04jSgGCkteWZ1ECI19oPsMT+5Z16Gmcw9s2bX7SmsZeLMSQ3maHnm12AY4SQkXGpOw7dqzcDAlFMSN5ZBIEiM8QSPS15SjkEg3m4bPrWOtDK0gEvpxZU3V3xsZCqVMQ19PFlHloleI/3n9RAWXbkZ5nCjC8exQkDBLRVbRhDWkgmDFUk0QFlRntfAYCYSV7quiS3AWv7xMOmd1p1E/v23UmlfzOspwCEdwCg5cQBNuoAVtwJDCM7zCm/FkvBjvxsdstGTMd6rwB8bnD1VLlTk=AB/HicbVDLSsNAFL2pr1pf0S7dBIvoqiRS0WXRjcsK9gFtDJPpB06mYSZiRhC/BU3LhRx64e482+ctF1o64GBwzn3cs8cP2ZUKtv+Nkorq2vrG+XNytb2zu6euX/QkVEiMGnjiEWi5yNJGOWkrahipBcLgkKfka4/uS787gMRkb8TqUxcUM04jSgGCkteWZ1ECI19oPsMT+5Z16Gmcw9s2bX7SmsZeLMSQ3maHnm12AY4SQkXGpOw7dqzcDAlFMSN5ZBIEiM8QSPS15SjkEg3m4bPrWOtDK0gEvpxZU3V3xsZCqVMQ19PFlHloleI/3n9RAWXbkZ5nCjC8exQkDBLRVbRhDWkgmDFUk0QFlRntfAYCYSV7quiS3AWv7xMOmd1p1E/v23UmlfzOspwCEdwCg5cQBNuoAVtwJDCM7zCm/FkvBjvxsdstGTMd6rwB8bnD1VLlTk=AB/HicbVDLSsNAFL3xWesr2qWbwSK6KolUdFl047KCfUAbw2Q6aYdOHsxMhBDir7hxoYhbP8Sdf+OkzUJbDwczrmXe+Z4MWdSWda3sbK6tr6xWdmqbu/s7u2bB4dGSWC0A6JeCT6HpaUs5B2FOc9mNBceBx2vOmN4Xfe6RCsi8V2lMnQCPQ+YzgpWXLM2DLCaeH6W5qcP3M0Il7lr1q2GNQNaJnZJ6lCi7Zpfw1FEkoCGinAs5cC2YuVkWChGOM2rw0TSGJMpHtOBpiEOqHSyWfgcnWhlhPxI6BcqNFN/b2Q4kDINPD1ZRJWLXiH+5w0S5V85GQvjRNGQzA/5CUcqQkUTaMQEJYqnmAimM6KyAQLTJTuq6pLsBe/vEy65w272bi4a9Zb12UdFTiCYzgDGy6hBbfQhg4QSOEZXuHNeDJejHfjYz6YpQ7NfgD4/MHVtmVOg=AB8XicbVBNSwMxEJ31s9avqkcvwSLUS9mVih6LXjxWsB/YriWbzbah2WRJskJZ+i+8eFDEq/Gm/GtN2Dtj4YeLw3w8y8IOFMG9f9dlZW19Y3Ngtbxe2d3b390sFhS8tUEdokvVCbCmnAnaNMxw2kUxXHAaTsY3Uz9hNVmklxb8YJ9WM8ECxiBsrPQweaVHQmnO+qWyW3VnQMvEy0kZcjT6pa9eKEkaU2EIx1p3PTcxfoaVYTSbGXapgMsID2rVU4JhqP5tdPEGnVglRJUtYdBM/T2R4VjrcRzYzhiboV70puJ/Xjc10ZWfMZGkhgoyXxSlHBmJpu+jkClKDB9bgoli9lZEhlhYmxIRuCt/jyMmdV71a9eKuVq5f53EU4BhOoAIeXEIdbqEBTSAg4Ble4c3Rzovz7nzMW1ecfOYI/sD5/AHqAJBuAB8XicbVBNSwMxEJ31s9avqkcvwSLUS9mVih6LXjxWsB/YriWbzbah2WRJskJZ+i+8eFDEq/Gm/GtN2Dtj4YeLw3w8y8IOFMG9f9dlZW19Y3Ngtbxe2d3b390sFhS8tUEdokvVCbCmnAnaNMxw2kUxXHAaTsY3Uz9hNVmklxb8YJ9WM8ECxiBsrPUSPvNIjoTRn/VLZrbozoGXi5aQMORr90lcvlCSNqTCEY627npsYP8PKMLpNhLNU0wGeEB7VoqcEy1n80unqBTq4QoksqWMGim/p7IcKz1OA5sZ4zNUC96U/E/r5ua6MrPmEhSQwWZL4pSjoxE0/dRyBQlho8twUQxeysiQ6wMTakog3BW3x5mbTOq16tenFXK9ev8zgKcAwnUAEPLqEOt9CAJhAQ8Ayv8OZo58V5dz7mrStOPnMEf+B8/gDoc5BtA = softmax(qkT /(6)(7)3610W q W v0Softmax0�0小分支大分支0q k v0x l0cls0x 0patch0x l0patch0x 0 l0cls0x 0 l0cls0y 0 l0cls0gl（∙）0fl（∙）0图4：大分支的交叉注意力模块。大分支的CLS令牌（圆圈）作为查询令牌，通过注意力与小分支的补丁令牌进行交互。fl（∙）和gl（∙）是用于维度对齐的投影。小分支遵循相同的过程，但是交换了另一个分支的CLS和补丁令牌。0x ′ l = � fl（x l cls） || x s patch �，（5）0其中fl（∙）是用于维度对齐的投影函数。然后，模块在x lcls和x ′l之间执行交叉注意力（CA），其中CLS令牌作为查询，因为补丁令牌的信息被融合到CLS令牌中。数学上，CA可以表示为0q = x ′ l cls W q，k = x ′ l W k，v = x ′ l W v，0C/h），CA（x ′ l） = Av，0A = softmax(qk T / �0y l cls = f l（x l cls） + MCA（LN（� fl（x lcl0其中fl（∙）和gl（∙）分别是用于维度对齐的投影和反投影函数。我们在第4.3节中经验性地表明，与其他三种简单的启发式方法相比，交叉注意力在多尺度特征融合方面实现了最佳准确性，并且更加高效。04. 实验0在本节中，我们进行了广泛的实验，以展示我们提出的CrossViT相对于现有方法的有效性。首先，我们在表2中检查了我们提出的模型相对于基线DeiT的优势，然后在表3和表4中与几个并发的ViT变体和基于CNN的模型进行了比较。此外，我们还在5个下游任务（表5）上测试了CrossViT的可迁移性。最后，我们在表6中对不同融合方案进行了消融研究，并在表7中讨论了CrossViT的不同参数的影响。04.1. 实验设置0数据集。我们在ImageNet1K数据集[9]上验证了我们提出的方法的有效性，并使用验证集上的top-1准确率作为评估模型性能的指标。ImageNet1K包含1,000个类别，训练和验证图像的数量分别为128万和5万。我们还使用几个较小的数据集（如CIFAR10 [20]和CIFAR100[20]）测试了我们方法的可迁移性。0训练和评估。原始的ViT[11]在训练时只有在非常大规模的数据集（例如ImageNet21K [9]和JFT300M[33]）上才能取得与一些最佳CNN模型相媲美的结果。然而，DeiT[35]表明，通过使用丰富的数据增强技术，ViT可以仅通过ImageNet的训练产生与CNN模型相媲美的结果。因此，在我们的实验中，我们基于DeiT[35]构建我们的模型，并应用他们的默认超参数进行训练。这些数据增强方法包括随机增强[rand augmentation][8]，mixup [47]和cutmix [46]以及随机擦除[randomerasing] [49]。我们还应用了模型正则化的drop path[34]，但是只有对CrossViT-18启用了实例重复[instancerepetition][16]，因为它对小模型没有改进。我们在32个GPU上使用批量大小为4,096对所有模型进行了300个epoch（其中30个epoch为预热epoch）的训练。其他设置包括余弦线性速率调度器与线性预热，初始学习率为0.004，权重衰减为0.05。在评估过程中，我们将图像的较短边调整为256，并以中心裁剪224×224作为输入。此外，我们还使用更大的分辨率（384×384）对模型进行了微调，以进行公平比较。我们应用双三次插值来调整学习的位置嵌入的大小，并进行了30个epoch的微调。更多细节可以在补充材料中找到。(%)(G)(images/s)(M)DeiT-Ti72.21.325575.7CrossViT-Ti73.4 (+1.2)1.616686.9CrossViT-973.9 (+0.5)1.815308.6CrossViT-9†77.1 (+3.2)2.014638.8DeiT-S79.84.696622.1CrossViT-S81.0 (+1.2)5.669026.7CrossViT-1581.5 (+0.5)5.864027.4CrossViT-15†82.3 (+0.8)6.162628.2DeiT-B81.817.631486.6CrossViT-B82.2 (+0.4)21.2239104.7CrossViT-1882.5 (+0.3)9.043043.3CrossViT-18†82.8 (+0.3)9.541844.33620模型补丁大小维度头数 M r0嵌入小分支大分支小分支大分支0CrossViT-Ti 线性 12 16 96 192 3 4 4 CrossViT-S 线性 12 16 192 384 6 4 4 CrossViT-B线性 12 16 384 768 12 4 4 CrossViT-9 线性 12 16 128 256 4 3 3 CrossViT-15 线性 1216 192 384 6 5 3 CrossViT-18 线性 12 16 224 448 7 6 3 CrossViT-9 † 3 卷积 12 16 128256 4 3 3 CrossViT-15 † 3 卷积 12 16 192 384 6 5 3 CrossViT-18 † 3 卷积 12 16 224448 7 6 30表1：CrossViT的模型架构。对于所有模型，K = 3，N =1，L =1，并且两个分支的头数相同。K表示多尺度transformer编码器的数量。M、N和L分别表示小分支和大分支中的transformer编码器数量以及一个多尺度transformer编码器中的交叉注意力模块。r是transformer编码器中前馈网络（FFN）的扩张比率。详见图2。0模型。表1指定了我们评估中使用的CrossViT模型的架构配置。在这些模型中，CrossViT-Ti、CrossViT-S和CrossViT-B将它们的大（主要）分支分别设置为DeiT-Ti、DeiT-S和DeiT-B模型中的微小分支、小分支和基础分支。其他模型通过FFN（r）、深度和嵌入维度的不同扩张比率来区分。特别地，模型名称中的结束数字表示大分支中使用的transformer编码器的总数。例如，CrossViT-15有3个多尺度编码器，每个编码器包括5个常规transformer，总共有15个transformer编码器。原始的ViT论文[11]表明，通过从CNN模型（如ResNet-50）生成补丁令牌，可以提高ViT在ImageNet1K数据集上的性能。在这里，我们尝试了类似的想法，通过将ViT中的线性补丁嵌入替换为三个卷积层作为补丁分词器。这些模型在表1中通过后缀†与其他模型区分开来。04.2. 主要结果0与DeiT的比较。DeiT[35]是ViT的更好训练版本，因此我们将我们的方法与DeiT中引入的三个基线模型进行比较，即DeiT-Ti、DeiT-S和DeiT-B。从表2可以看出，当它们作为CrossViT的主要分支时，CrossViT将DeiT-Ti、DeiT-S和DeiT-B分别提高了1.2%、1.2%和0.4%。这清楚地表明我们提出的交叉注意力对于学习图像识别的多尺度transformer特征是有效的。通过进行一些架构更改（见表1），CrossViT进一步提高了基线的准确性，提高了0.3-0.5%的点，只增加了少量的FLOPs和模型参数。令人惊讶的是，基于卷积的嵌入为CrossViT-0模型 Top-1 准确率 FLOPs 吞吐量参数0表2：与ImageNet1K上的DeiT基线的比较。括号中的数字显示了每个变化的改进。有关模型详细信息，请参见表1。09 (+3.2%) 和 CrossViT-15(+0.8%)。随着transformer编码器数量的增加，卷积层的有效性似乎变得较弱，但CrossViT-18仍然比CrossViT-18提高了0.3%。我们想指出，T2T[45]的工作同时提出了一种基于令牌到令牌转换的不同方法，以解决视觉变换器中线性补丁嵌入的局限性。尽管CrossViT的设计旨在提高准确性，但也考虑了效率。例如，CrossViT-9和CrossViT-15的FLOPs和参数比基线多30-50%。然而，它们的准确性提高了约2.5-5%。另一方面，CrossViT-18将FLOPs和参数减少了近一半，而仍然比DeiT-B准确率高1.0%。0与SOTATransformers的比较。我们进一步将我们提出的方法与一些最近的视觉transformers的竞争作品进行比较。它们都在原始的ViT [ 11 ]的效率、准确性或两者方面进行了改进。如表3所示，CrossViT-15 †在准确性上超过了其他方法的小模型，而FLOPs和参数相当。有趣的是，与ViT-B相比，CrossViT-18 †在准确性上显著优于它4.9%（77.9% vs82.8%），同时需要更少的FLOPs和参数。此外，CrossViT-18 †的性能与TNT-B相当，优于其他方法，但FLOPs和参数更少。我们的方法在准确性和FLOPs方面始终优于T2T-ViT [ 45 ]和PVT [ 380与基于CNN的模型的比较。基于CNN的模型在计算机视觉应用中占主导地位。在这个实验中，我们将我们提出的方法与ResNet-101 [15]76.77.8067844.6ResNet-152 [15]77.011.544560.2ResNeXt-101-32×4d [43]78.88.047744.2ResNeXt-101-64×4d [43]79.615.528983.5SEResNet-101 [18]77.67.856449.3SEResNet-152 [18]78.411.539266.8SENet-154 [18]81.320.7201115.1ECA-Net101 [37]78.77.459142.5ECA-Net152 [37]78.910.942859.1RegNetY-8GF [30]79.98.055739.2RegNetY-12GF [30]80.312.143951.8RegNetY-16GF [30]80.415.933683.6RegNetY-32GF [30]81.032.3208145.0EfficienetNet-B4@380 [34]82.94.235619Efficien

下载后可阅读完整内容，剩余1页未读，立即下载