重新审视CNNs中的大卷积核设计

194 浏览量更新于2023-10-25 收藏 12.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

119630将卷积核扩展到31x31：重新审视CNNs中的大卷积核设计0Xiaohan Ding 1* Xiangyu Zhang 2† Jungong Han 3 Guiguang Ding 1‡01 北京信息科学与技术国家研究中心（BNRist）；清华大学软件学院，中国北京 2MEGVII科技 3 Aberystwyth大学计算机科学系，英国SY23 3FL0dxh17@mails.tsinghua.edu.cn zhangxiangyu@megvii.com0jungonghan77@gmail.com dinggg@tsinghua.edu.cn0摘要0我们重新审视现代卷积神经网络（CNNs）中的大卷积核设计。受到最近视觉变换器（ViTs）的进展的启发，本文中我们证明，使用少量大卷积核而不是一系列小卷积核可能是一种更强大的范例。我们提出了五个指导原则，例如应用重新参数化的大深度卷积，来设计高效的高性能大卷积核CNNs。根据这些指导原则，我们提出了RepLKNet，这是一种纯CNN架构，其卷积核大小为31×31，与通常使用的3×3不同。RepLKNet极大地缩小了CNNs和ViTs之间的性能差距，例如在ImageNet和一些典型的下游任务上实现了与SwinTransformer相当或更好的结果，并具有更低的延迟。RepLKNet还展现了对大数据和大模型的良好可扩展性，在ImageNet上获得了87.8％的top-1准确率，在ADE20K上获得了56.0％的mIoU，这在具有相似模型大小的最新技术中非常有竞争力。我们的研究进一步揭示了与小卷积核CNNs相比，大卷积核CNNs具有更大的有效感受野和更高的形状偏差而不是纹理偏差。代码和模型可在https://github.com/megvii-research/RepLKNet找到。01. 引言0卷积神经网络（CNNs）[40,53]曾经是现代计算机视觉系统中常见的视觉编码器选择。然而，最近，CNNs[40, 53]已经0*本工作得到中国国家自然科学基金（编号61925107，U1936202，62021002）和北京人工智能学院（BAAI）的支持。本工作是丁晓晗在MEGVII科技实习期间完成的。†项目负责人。‡通讯作者。0（A）ResNet-101（B）ResNet-152（C）RepLKNet-13（D）RepLKNet-310图1.ResNet-101/152和RepLKNet-13/31的有效感受野（ERF）。更广泛分布的黑色区域表示更大的ERF。更多的层（例如从ResNet-101到ResNet-152）对扩大ERF帮助不大。相反，我们的大卷积核模型RepLKNet有效地获得了大的ERF。0Vision Transformers (ViTs) [34, 59, 86,94]在许多视觉任务上表现出色，如图像分类[34,104]、表示学习[4, 9, 16, 100]，以及目标检测[24,59]、语义分割[94, 98]和图像恢复[10,54]等下游任务。为什么ViTs如此强大？一些研究认为ViTs中的多头自注意力（MHSA）机制起到了关键作用。他们通过实证结果证明，MHSA更加灵活[50]、能力更强（较少归纳偏差）[20]、对扭曲更加鲁棒[66,98]，或者能够建模长程依赖关系[69,90]。但是，一些研究质疑了MHSA的必要性[115]，将ViTs的高性能归因于适当的构建模块[33]和/或动态稀疏权重[38,111]。更多的研究[20, 38, 42, 95,115]从不同的角度解释了ViTs的优越性。在本研究中，我们关注其中一种观点：构建大感受野的方式。在ViTs中，MHSA通常被设计为全局[34, 78, 94]或局部但具有大卷积核[59,70,89]，因此单个MHSA层的每个输出都能够从一个大区域收集信息。然而，在CNNs中并不常用大卷积核（除了第一层[40]）。相反，典型的做法是使用一系列小的空间卷积。As mentioned in the introduction, apart from a fewold-fashioned models like Inceptions [79–81],large-kernel models became not popular after VGG-Net [77].One representative work is Global Convolution Networks(GCNs) [67], which uses very large convolutions of 1×Kfollowed by K×1 to improve semantic segmentation task.However, large kernels are reported to harm the per-formance on ImageNet.Local Relation Networks (LR-Net) [45] proposes a spatial aggregation operator (LR-Layer) to replace standard convolutions, which can beviewed as a dynamic convolution. LR-Net could benefitfrom a kernel size of 7×7, but the performance decreaseswith 9×9. With a kernel size as large as the feature map, thetop-1 accuracy significantly reduced from 75.7% to 68.4%.Recently, Swin Transformers [59] propose to capture thespatial patterns with shifted window attention, whose win-dow sizes range from 7 to 12, which can also be viewedas a variant of large kernel. The follow-ups [32, 58] em-ploy even larger window sizes. Inspired by the success ofthose local transformers, a recent work [38] replaces MHSAlayers with static or dynamic 7×7 depth-wise convolutionsin [59] while still maintains comparable results. Thoughthe network proposed by [38] shares similar design patternwith ours, the motivations are different: [38] does not inves-tigate the relationship between ERFs, large kernels and per-formances; instead, it attributes the superior performancesof vision transformers to sparse connections, shared param-eters and dynamic mechanisms. Another three representa-tive works are Global Filter Networks (GFNets) [72], CK-Conv [74] and FlexConv [73]. GFNet optimizes the spatialconnection weights in the Fourier domain, which is equiv-alent to circular global convolutions in the spatial domain.CKConv formulates kernels as continuous functions to pro-cess sequential data, which can construct arbitrarily largekernels. FlexConv learns different kernel sizes for differentlayers, which can be as large as the feature maps. Althoughthey use very large kernels, they do not intend to answer the119640卷积1[40,44,47,68,77,82,109]（例如3×3）来扩大现代CNN中的感受野。只有一些老式网络，如AlexNet [53]，Inceptions[79-81]和一些源自神经架构搜索的架构[37,43,56,116]采用大空间卷积（尺寸大于5）作为主要部分。上述观点自然引出一个问题：如果我们使用少量大内核而不是许多小内核来构建传统CNN，会怎么样？大内核或构建大感受野的方式是否是弥合CNN和ViTs之间性能差距的关键？为了回答这个问题，我们系统地探索了CNN的大内核设计。我们遵循一个非常简单的"哲学"：只需将大深度卷积引入传统网络，其尺寸范围从3×3到31×31，尽管存在其他通过单个或少数层引入大感受野的替代方法，例如特征金字塔[93]，扩张卷积[13,101,102]和可变形卷积[23]。通过一系列实验，我们总结了五个经验指导原则，以有效地使用大卷积：1）非常大的内核在实践中仍然高效；2）标识快捷方式对于具有非常大内核的网络尤为重要；3）使用小内核重新参数化[30]有助于弥补优化问题；4）大卷积比ImageNet更能提升下游任务；5）即使在小特征图上，大内核也很有用。基于以上指导原则，我们提出了一种名为RepLKNet的新架构，它是一个纯2CNN，其中使用重新参数化的大卷积来构建大感受野。我们的网络通常遵循Swin Transformer[59]的宏架构，并进行了一些修改，同时用大深度卷积替换了多头自注意力。我们主要对中等大小和大型模型进行基准测试，因为ViTs曾被认为在大数据和大模型上超越CNNs。在ImageNet分类中，我们的基线模型（与Swin-B模型尺寸相似），其内核尺寸与31×31一样大，仅在ImageNet-1K数据集上训练，达到84.8%的Top-1准确率，比Swin-B高出0.3%，但在延迟方面更高效。更重要的是，我们发现大内核设计在下游任务上特别强大。例如，我们的网络在COCO检测[55]上比ResNeXt-101 [99]或ResNet-101[40]骨干网络提高了4.4%，在ADE20K分割[114]上提高了6.1%，复杂度和参数预算相似，甚至与SwinTransformers相当甚至更好，但推理速度更高。在拥有更多预训练数据（例如7300万张图像）和更多计算预算的情况下，我们的最佳模型在与模型尺寸相似的情况下获得了与同类模型相当的竞争结果，例如在ImageNet上的87.8%的Top-1准确率和ADE20K上的56.0%，展现出对大规模应用的出色可扩展性。我们认为RepLKNet的高性能主要是由于通过大内核构建的大有效感受野（ERFs）[63]，如图1所示。此外，RepLKNet显示出比传统CNN更能利用形状信息，这部分符合人类的认知。我们希望我们的发现能帮助理解CNN和ViTs的内在机制。01 空间尺寸大于1×1的卷积核（包括深度卷积/分组卷积等变体）。2即没有任何注意力或动态机制的CNN，例如squeeze-and-excitation[46]，multi-head self-attention，dynamic weights [38,95]等。0（例如73M张图像）和更多的计算预算，我们的最佳模型在与模型尺寸相似的情况下获得了与同类模型相当的竞争结果，例如在ImageNet上的87.8%的Top-1准确率和ADE20K上的56.0%，展现出对大规模应用的出色可扩展性。我们相信RepLKNet的高性能主要是由于通过大内核构建的大有效感受野（ERFs）[63]，如图1所示。此外，RepLKNet显示出比传统CNN更能利用形状信息，这部分符合人类的认知。我们希望我们的发现能帮助理解CNN和ViTs的内在机制。02. 相关工作02.1. 使用大内核的模型119650表1. 在单个GTX 2080Ti GPU上使用各种内核大小和分辨率对24层深度卷积进行推理速度测试。输入形状为（64，384，R，R）。基线模型使用Pytorch 1.9.0 +cuDNN 7.6.5，在FP32精度下评估。0分辨率 R 实现延迟（毫秒）@内核大小 3 5 7 9 13 17 21 27 29 31016×16 Pytorch 5.6 11.0 14.4 17.6 36.0 57.2 83.4 133.5 150.7 171.4 Ours 5.6 6.5 6.4 6.9 7.5 8.4 8.4 8.4 8.3 8.4032×32 Pytorch 21.9 34.1 54.8 76.1 141.2 230.5 342.3 557.8 638.6 734.8 Ours 21.9 28.7 34.6 40.6 52.5 64.5 73.987.9 92.7 96.7064×64 Pytorch 69.6 141.2 228.6 319.8 600.0 977.7 1454.4 2371.1 2698.4 3090.4 Ours 69.6 112.6 130.7 152.6199.7 251.5 301.0 378.2 406.0 431.70我们希望回答的关键问题是：为什么传统的CNNs在性能上不如ViTs，并且如何在常见的CNNs中应用大内核。此外，[38]和[72]都没有在强基线模型上进行评估，例如大于Swin-L的模型。因此，目前还不清楚大内核CNNs是否能够像transformers那样良好地扩展。并行工作。ConvMixer[87]使用高达9×9的卷积来替换ViTs [34]或MLPs [84,85]的“mixer”组件。MetaFormer[103]提出池化层是自注意力的替代方法。ConvNeXt[60]使用7×7的深度卷积来设计强大的架构，推动了CNN性能的极限。尽管这些工作表现出色，但它们没有展示出更大卷积（例如31×31）的好处。02.2. 模型扩展技术0对于一个小模型，通常会将其扩大以获得更好的性能，因此扩展策略在结果的准确性和效率之间起着至关重要的作用。对于CNNs，现有的扩展方法通常关注模型的深度、宽度、输入分辨率[31, 68, 82]、瓶颈比和组宽度[31,68]。然而，卷积核大小经常被忽视。在第3节中，我们将展示卷积核大小在CNNs中也是一个重要的扩展维度，特别是对于下游任务。02.3. 结构重参数化0结构重参数化[26-30]是一种通过转换参数等效地转换模型结构的方法。例如，RepVGG针对深度推理时的VGG-like（例如，无分支）模型，通过在训练期间在3×3层旁边构建额外的ResNet-style快捷方式。与难以训练的真实VGG-like模型[40]相比，这些快捷方式帮助模型达到了令人满意的性能。训练后，通过一系列线性变换，这些快捷方式被吸收到平行的3×3内核中，使得结果模型成为VGG-like模型。在本文中，我们使用这种方法将一个相对较小的（例如3×3或5×5）内核添加到一个非常大的内核中。通过这种方式，我们使得非常大的内核能够捕捉到小尺度的模式，从而提高模型的性能。03. 应用大卷积的指南0将大卷积轻易应用于CNN通常会导致性能和速度下降。在本节中，我们总结了使用大内核的5个有效指南。0指南1：在实践中，大的深度卷积可以高效地使用。人们普遍认为大内核卷积在计算上是昂贵的，因为内核大小的增加会使参数和FLOPs的数量呈二次增加。然而，通过应用深度（DW）卷积[17,44]，这个缺点可以得到很大程度上的克服。例如，在我们提出的RepLKNet中（详见表5），将不同阶段的内核大小从[3, 3, 3, 3]增加到[31, 29, 27,13]只会使FLOPs和参数数量分别增加18.6%和10.4%，这是可以接受的。实际上，剩下的1×1卷积才是主要的复杂度。有人可能担心DW卷积在像GPU这样的现代并行计算设备上效率很低。对于传统的DW 3×3内核[44, 75,109]来说，这是正确的，因为DW操作引入了计算与内存访问成本之比较低的比例[64]，这对于现代计算架构来说并不友好。然而，我们发现当内核大小变大时，计算密度增加：例如，在DW11×11内核中，每次从特征图中加载一个值时，它最多可以参与121次乘法，而在3×3内核中，这个数字只有9次。因此，根据屋顶模型，当内核大小变大时，实际延迟不会像FLOPs的增加那样大。备注1.不幸的是，我们发现现成的深度学习工具（如Pytorch）对大DW卷积的支持很差，如表1所示。因此，我们尝试了几种方法来优化CUDA内核。基于FFT的方法[65]在实现大卷积时似乎是合理的。然而，在实践中，我们发现基于块的（反）隐式gemm算法是更好的选择。该实现已经集成到开源框架MegEngine[1]中，这里我们省略了细节。我们还为PyTorch发布了一个高效的实现[2]。表1显示，与Pytorch基线相比，我们的实现效率更高。通过我们的优化，DW卷积在RepLKNet中的延迟贡献119660表2.不带shortcut的MobileNet V2不同内核大小的结果。0Shortcut 内核大小 ImageNet top-1准确率（%）0� 3×3 71.76 � 13×13 72.5303×3 68.67 13×13 53.980减少了从49.5%到12.3%，大致与FLOPs占用成比例。0指南2：对于具有非常大内核的网络，identityshortcut尤为重要。为了证明这一点，我们使用MobileNetV2[75]进行基准测试，因为它大量使用DW层，并且有两个已发布的变体（带shortcut和不带shortcut）。对于大内核对应的模型，我们只需将所有DW3×3层替换为13×13即可。所有模型都在ImageNet上进行了100个epoch的训练（详见附录A）。表2显示，大内核提高了带shortcut的MobileNetV2的准确性0.77%。然而，没有shortcut，大内核的准确性仅为53.98%。备注2.该指南对ViTs也适用。最近的一项研究[33]发现，没有identityshortcut，注意力随深度指数级别地丧失排名，导致过度平滑问题。尽管大内核CNN可能与ViT的退化机制不同，但我们也观察到，没有shortcut，网络很难捕捉到局部细节。从与[91]类似的角度来看，shortcut使模型成为一个由具有不同感受野（RFs）的众多模型组成的隐式集合，因此它可以从更大的最大RF中受益，同时不会失去捕捉小尺度模式的能力。0指南3：使用小内核重新参数化[30]有助于解决优化问题。我们将MobileNetV2的3×3层分别替换为9×9和13×13，并可选择采用结构重新参数化[26, 27,30]方法。具体而言，我们在大内核旁边构建一个3×3层，然后在批量归一化（BN）[49]层之后将它们的输出相加（图2）。训练后，我们将小内核以及BN参数合并到大内核中，因此得到的模型与训练模型等效，但不再具有小内核。表3显示，直接将内核大小从9增加到13会降低准确性，而重新参数化则解决了这个问题。然后，我们将在ImageNet上训练的模型转移到Cityscapes上的语义分割任务中，使用DeepLabv3+[15]进行训练，Cityscapes[21]上的所有默认训练设置都保持不变。观察结果与在ImageNet上类似：3×3重新参数化将9×9模型的mIoU提高了0.19，将13×13模型的mIoU提高了0.93。通过这种简单的重新参数化，将内核大小从9增加到13不再降低性能。0表3.在不同内核大小上对MobileNetV2进行3×3重新参数化的结果。0核3×3重新参数化 ImageNet top-1准确率（%）Cityscapes验证mIoU（%）03×3 N/A 71.76 72.3109×9 72.67 76.11 9×9 � 73.09 76.30013×13 72.53 75.67 13×13 � 73.24 76.600在ImageNet和Cityscapes上的性能。备注3.已知ViTs在小数据集上存在优化问题[34,57]。一种常见的解决方法是引入卷积先验，例如，在每个自注意力块中添加DW 3×3卷积[18,96]，这与我们的方法类似。这些策略在网络中引入了额外的平移等变性和局部性先验，使得在小数据集上更容易进行优化而不失去泛化性。与ViT的行为类似[34]，我们还发现当预训练数据集增加到7300万张图像时（参见下一节中的RepLKNet-XL），可以省略重新参数化而不会降低性能。0指南4：大卷积在下游任务中比ImageNet分类更有提升。表3（经过重新参数化后）显示，将MobileNetV2的内核大小从3×3增加到9×9将ImageNet准确率提高了1.33%，但Cityscapes的mIoU提高了3.99%。表5显示了类似的趋势：将内核大小从[3, 3, 3, 3]增加到[31, 29, 27,13]，ImageNet准确率仅提高了0.96%，而在ADE20K[114]上的mIoU提高了3.12%。这种现象表明，具有类似ImageNet分数的模型在下游任务中可能具有非常不同的能力（就像表5中的后3个模型）。备注4.是什么导致了这种现象？首先，大内核设计显著增加了有效感受野（ERFs）[63]。许多研究已经证明，“上下文”信息（即大的ERFs）在许多下游任务（如目标检测和语义分割）中至关重要[61, 67, 93,101,102]。我们将在第5节中讨论这个主题。其次，我们认为另一个原因可能是大内核设计为网络提供了更多的形状偏置。简而言之，ImageNet图片可以根据纹理或形状进行正确分类，正如[7,35]所提出的。然而，人类主要根据形状线索而不是纹理来识别物体，因此具有更强形状偏置的模型可能在下游任务中更好地进行迁移。最近的一项研究[88]指出，ViTs在形状偏置方面表现出色，这在一定程度上解释了为什么ViTs在迁移任务中非常强大。相反，ImageNet上训练的传统CNN倾向于偏向纹理[7,35]。幸运的是，我们发现在CNN中简单地增大内核大小可以有效地提高形状偏置。详情请参阅附录C。++shared parametersfeature mapparameters applied on the zero paddings119670输入07×7 3×30BN BN0输入07×70重新参数化0输入07×7 3×30融合BN0内核参数重新参数化的内核0图2.将小内核（例如3×3）重新参数化为大内核（例如7×7）的示例。详见[27, 30]。0滑动0图3.说明了在小特征图和大内核上进行卷积的示例。相邻位置的两个输出只共享部分内核权重。平移等变性不严格成立。0表4. MobileNetV2最后一阶段不同内核大小的结果。前几个阶段的内核大小保持为3×3。0内核大小 ImageNet准确率（%） Cityscapes mIoU（%）03×3 71.76 72.31 7×7 72.00 74.30 13×13 71.9774.620指南5：大内核（例如13×13）即使在小特征图（例如7×7）上也很有用。为了验证这一点，我们将MobileNetV2最后一阶段的DW卷积扩大到7×7或13×13，因此内核大小与特征图大小（默认为7×7）相当甚至更大。我们按照指南3的建议对大内核进行重新参数化。表4显示，尽管最后一阶段的卷积已经涉及非常大的感受野，但进一步增加内核大小仍然会带来性能改善，特别是在Cityscapes等下游任务上。备注5.当内核大小变大时，注意到CNN的平移等变性不严格成立。如图3所示，相邻空间位置的两个输出只共享内核权重的一部分，即通过不同的映射进行变换。这个特性也符合ViTs的“哲学”——放松对称先验以获得更大的容量。有趣的是，我们发现transformer社区广泛使用的2D相对位置嵌入（RPE）[5,76]也可以看作是一个大小为（2H-1）×（2W-1）的大深度卷积核，其中H和W分别是特征图的高度和宽度。大内核不仅有助于学习概念之间的相对位置，还由于填充效应[51]编码了绝对位置信息。04. RepLKNet：一个大内核架构0根据以上准则，在本节中，我们提出了RepLKNet，一个纯粹的CNN架构，具有大内核设计。0通道设计。据我们所知，到目前为止，CNN仍然主导着小型模型[108,110]，而视觉transformers被认为在更复杂的预算下优于CNN。因此，在本文中，我们主要关注相对较大的模型（其复杂度与ResNet-152 [40]或Swin-B[59]相当或更大），以验证大内核设计是否可以消除CNN和ViTs之间的性能差距。04.1. 架构规范0我们在图4中勾勒了RepLKNet的架构：Stem指的是开始的层。由于我们的目标是在下游的密集预测任务中获得高性能，我们希望通过开始的几个卷积层捕捉更多的细节。在第一个3×3的2×下采样之后，我们安排了一个DW3×3层来捕捉低级模式，一个1×1卷积和另一个DW3×3层进行下采样。第1-4阶段各包含几个RepLK块，它们使用了快捷方式（指南2）和DW大内核（指南1）。我们在DW卷积之前和之后使用1×1卷积作为常见做法。请注意，每个DW大卷积使用5×5的内核进行重新参数化（指南3），这在图4中没有显示。除了大卷积层提供足够的感受野和聚合空间信息的能力之外，模型的表示能力也与深度密切相关。为了提供更多的非线性和跨通道的信息传递，我们希望使用1×1层增加深度。受到在transformers [34, 59]和MLPs[26, 84,85]中广泛使用的前馈网络（FFN）的启发，我们使用类似的CNN风格块，由快捷方式、BN、两个1×1层和GELU[41]组成，因此被称为ConvFFN块。与在全连接层之前使用层归一化[3]的经典FFN相比，BN的优势在于它可以融合到卷积中以实现高效的推断。作为一种常见做法，ConvFFN块的内部通道数是输入的4倍。简单地遵循ViT和Swin的做法，交替使用注意力和FFN块，在每个RepLK块之后放置一个ConvFFN块。过渡块位于各个阶段之间，首先通过1×1卷积增加通道维度，然后通过DW3×3卷积进行2×下采样。总之，每个阶段有三个架构超参数：RepLK块的数量B，通道维度C和内核大小StemStage 1Transition 1input3×3, C13×3, C1, DW1×1, C13×3, C1, DW1×1, C23×3, C2, DWStage 2Transition 2Stage 3Transition 3Stage 4ConvFFNConvFFN1×11×1K×K, DWBN+1×11×1GELU+…ConvFFNBN3-3-3-382.1171.8M12.9G46.05 104.1M 1119G7-7-7-782.7372.2M13.1G48.05 104.6M 1123G13-13-13-13 83.0273.7M13.4G48.35 106.0M 1130G25-25-25-13 83.0078.2M14.8G48.68 110.6M 1159G31-29-27-13 83.0779.3M15.3G49.17 111.7M 1170GRepLKNet-31B224×22483.57915.3295.5Swin-B224×22483.58815.4226.2RepLKNet-31B384×38484.87945.197.0Swin-B384×38484.58847.067.9RepLKNet-31B ‡ 224×22485.2---Swin-B ‡224×22485.2---RepLKNet-31B ‡ 384×38486.0---Swin-B ‡384×38486.4---RepLKNet-31L ‡ 384×38486.617296.050.2Swin-L ‡384×38487.3197103.936.2RepLKNet-XL ⋄ 320×32087.8335128.739.1119680RepLK块0RepLK块0输出0步长=20步长=20步长=20RepLK块0图4.RepLKNet由Stem、Stages和Transitions组成。除了深度卷积（DW）大卷积核外，其他组件包括DW 3 × 3、稠密的1 × 1卷积和批归一化[ 49]（BN）。请注意，每个卷积层后面都有一个BN，但未显示出来。这些卷积-BN序列使用ReLU作为激活函数，除了在快捷连接之前（作为一种常见做法[40 , 75 ]）和在GELU之前（作为一种常见做法[ 41 ]）的卷积层。0表5.不同核大小的RepLKNet。这些模型在ImageNet-1K上进行了120个epoch的预训练，输入为224 ×224，并在ADE20K上使用UperNet进行了80K次迭代的微调。在ADE20K上，我们测试了单尺度的mIoU，并使用2048 ×0ImageNet ADE20K 核大小 Top-1准确率参数量 FLOPs mIoU参数量 FLOPs0K . 因此，RepLKNet的架构由 [ B 1 , B 2 , B 3 , B 4 ] , [ C 1, C 2 , C 3 , C 4 ] , [ K 1 , K 2 , K 3 , K 4 ] 定义。04.2. 让大卷积核变得更大0我们继续通过固定 B = [2 , 2 , 18 , 2] , C = [128 , 256 , 512 , 1024] ，变化 K并观察分类和语义分割的性能来评估 RepLKNet上的大卷积核。在没有仔细调整超参数的情况下，我们随意设置了核大小为 [13 , 13 , 13 , 13]，[25 , 25 , 25 , 13] ，[31 , 29 , 27 , 13] 的模型，并将其称为RepLKNet-13/25/31。我们还构建了两个小核基线，其中核大小都是3或7（RepLKNet-3/7）。在ImageNet上，我们使用AdamW [ 62 ]优化器，RandAugment [ 22 ]，mixup [ 106]，CutMix [ 105 ]，Rand Erasing [ 113 ]和Stochastic Depth [ 48]进行120个epoch的训练，遵循最近的工作[ 4 , 59 , 60 , 86]。详细的训练配置见附录A。对于语义分割，我们使用ADE20K [ 114]数据集，该数据集包含20K张150个类别的图像用于训练，2K张用于验证。我们使用在ImageNet上训练的模型作为骨干网络，并采用MMSegmentation [ 19]实现的UperNet进行80K次迭代的训练，并测试单尺度的mIoU。表5展示了不同核大小的结果。在ImageNet上，尽管将核大小从3增加到13可以提高准确性，但将它们变得更大并没有带来进一步的改进。然而，在ADE20K上，将核大小从[13 , 13 , 13 , 13]增加到[31 , 29 , 27 ,13]可以使mIoU提高0.82，只增加了5.3%的参数和3.5%的FLOPs，这凸显了大卷积核对下游任务的重要性。在接下来的小节中，我们使用更强的训练配置将RepLKNet-31与ImageNet分类、Cityscapes/ADE20K语义分割和COCO [ 55]目标检测的最新方法进行比较。我们将前述模型称为RepLKNet-31B（B代表Base），将通道更宽的模型（C = [192 , 384 , 768 ,1536]）称为RepLKNet-31L（Large）。我们还构建了另一个通道更宽的模型（C = [256 , 512 ,1024 , 2048]）并在RepLKBlocks中采用1.5倍的反向瓶颈设计，即DW大卷积层的通道数是输入的1.5倍。0表6.ImageNet结果。吞吐量是使用FP32和64批量大小在2080Ti上测试的。‡ 表示在ImageNet-22K上进行了预训练。 �0模型输入分辨率 Top-1准确率参数量(M) FLOPs(G) 吞吐量examples/s0ADE20K是一个广泛使用的大规模语义分割数据集，包含20K张150个类别的图像用于训练，2K张用于验证。我们使用在ImageNet上训练的模型作为骨干网络，并采用MMSegmentation [ 19]实现的UperNet进行了80K次迭代的训练，并测试了单尺度的mIoU。表5展示了不同核大小的结果。在ImageNet上，尽管将核大小从3增加到13可以提高准确性，但将它们变得更大并没有带来进一步的改进。然而，在ADE20K上，将核大小从[13 , 13 , 13 , 13]增加到[31 , 29 , 27 ,13]可以使mIoU提高0.82，只增加了5.3%的参数和3.5%的FLOPs，这凸显了大卷积核对下游任务的重要性。在接下来的小节中，我们使用更强的训练配置将RepLKNet-31与ImageNet分类、Cityscapes/ADE20K语义分割和COCO [ 55]目标检测的最新方法进行比较。我们将前述模型称为RepLKNet-31B（B代表Base），将通道更宽的模型（C = [192 ,384 , 768 ,1536]）称为RepLKNet-31L（Large）。我们还构建了另一个通道更宽的模型（C = [256 , 512 , 1024 ,2048]）并在RepLKBlocks中采用1.5倍的反向瓶颈设计，即DW大卷积层的通道数是输入的1.5倍。04.3. ImageNet分类0由于RepLKNet的整体架构类似于Swin，我们首先希望进行比较。对于ImageNet-1K上的RepLKNet-31B，我们将上述训练计划扩展到300个epoch，以进行公平比较。然后我们使用384×384的输入分辨率进行30个epoch的微调，这样总的训练成本要比从头开始使用384×384训练的Swin-B模型低得多。然后我们在ImageNet-22K上预训练RepLKNet-B/L模型，并在ImageNet-1K上进行微调。RepLKNet-XL在我们的私有半监督数据集上进行预训练。119690表7.Cityscapes结果。FLOPs是使用1024×2048输入计算的。mIoU使用单尺度（ss）和多尺度（ms）进行测试。Swin的结果由[36]实现。‡表示ImageNet-22K预训练。0主干方法 mIoU（ss） mIoU（ms）参数（M） FLOPs（G）0RepLKNet-31B UperNet [97] 83.1 83.5 110 2315 ResNeSt-200[107] DeepLabv3 [14] - 82.7 - - Axial-Res-XL Axial-DL [92] 80.681.1 173 2446 Swin-B UperNet 80.4 81.5 121 2613 Swin-BUperNet + [36] 80.8 81.8 121 -0ViT-L ‡ SETR-PUP [112] 79.3 82.1 318 - ViT-L ‡

下载后可阅读完整内容，剩余1页未读，立即下载