没有合适的资源?快使用搜索试试~ 我知道了~
ConvNeXt: 一个面向2020年代的纯粹ConvNet模型
Zhuang Liu1,2* Hanzi Mao1Chao-Yuan Wu1Christoph Feichtenhofer1Trevor Darrell2Saining Xie1†4816256 GFLOPsDiameter119760一个面向2020年代的ConvNet01 Facebook AI Research (FAIR) 2 加州大学伯克利分校0摘要0视觉识别的“繁荣20年”始于0视觉变换器(ViTs)的引入迅速取代了ConvNets成为最先进的图像分类模型。然而,纯粹的ViT在应用于目标检测和语义分割等一般计算机视觉任务时面临困难。层次化的变换器(例如Swin变换器)重新引入了几个ConvNet先验,使得变换器在作为通用视觉骨干的同时表现出卓越的性能,适用于各种视觉任务。然而,这种混合方法的有效性主要归功于变换器的内在优势,而不是卷积的固有归纳偏差。在这项工作中,我们重新审视设计空间,并测试纯粹的ConvNet可以实现的极限。我们逐步将标准ResNet“现代化”为视觉变换器的设计,并在过程中发现了几个对性能差异起到关键作用的组件。这次探索的结果是一系列纯粹的ConvNet模型,被称为ConvNeXt。ConvNeXt完全由标准的ConvNet模块构建,其在准确性和可扩展性方面与变换器相媲美,在ImageNettop-1准确率方面达到了87.8%,在COCO检测和ADE20K分割上优于Swin变换器,同时保持了标准ConvNet的简单性和高效性。0代码:https://github.com/facebookresearch/ConvNeXt01. 引言0回顾2010年代,这个十年的特点是0深度学习的巨大进展和影响是这个时代的主要驱动力。主要推动因素是神经网络的复兴,尤其是卷积神经网络(ConvNets)。在这个十年中,视觉识别领域成功地从工程特征转向了(ConvNet)架构的设计。尽管反向传播训练的ConvNets的发明可以追溯到上世纪80年代[42],但直到2012年末,我们才看到它在视觉识别方面的真正潜力。0* 在Facebook AI Research实习期间完成的工作。†通讯作者。0图1. ImageNet-1K分类结果,•ConvNets和◦视觉变换器。每个气泡的面积与模型系列中变体的FLOPs成比例。这里的ImageNet-1K/22K模型分别使用2242/3842的图像。ResNet和ViT的结果是通过改进的训练程序获得的。我们证明了标准ConvNet模型可以达到与层次化视觉变换器相同的可扩展性水平,同时在设计上更简单。0视觉特征学习。AlexNet的引入[40]引发了“ImageNet时刻”[59],开启了计算机视觉的新时代。此后,该领域发展迅速。代表性的ConvNets,如VGGNet[64]、Inceptions[68]、ResNe(X)t[28, 87]、DenseNet[36]、Mo-bileNet[34]、Ef�cientNet[71]和RegNet[54],侧重于准确性、效率和可扩展性的不同方面,并普及了许多有用的设计原则。0ConvNets在计算机视觉领域的全面主导地位是0不是巧合:在许多应用场景中,“滑动窗口”策略是视觉处理的内在特性,尤其是在处理高分辨率图像时。ConvNets具有几个内置的归纳偏差,使它们非常适用于各种计算机视觉应用。最重要的一个是平移等变性,这是目标检测等任务所需要的一个理想属性。由于在滑动窗口方式下使用时,计算是共享的[62],ConvNets本质上也是高效的。几十年来,这一直是ConvNets的默认用法,通常用于有限的对象类别,如数字[43]、人脸[58, 76]和行人[19,63]。进入2010年代,50) trained with an improved procedure. We gradually “mod-ernize” the architecture to the construction of a hierarchicalvision Transformer (e.g. Swin-T). Our exploration is directedby a key question: How do design decisions in Transformersimpact ConvNets’ performance? We discover several keycomponents that contribute to the performance differencealong the way. As a result, we propose a family of pureConvNets dubbed ConvNeXt. We evaluate ConvNeXts on avariety of vision tasks such as ImageNet classification [17],object detection/segmentation on COCO [44], and semanticsegmentation on ADE20K [92]. Surprisingly, ConvNeXts,constructed entirely from standard ConvNet modules, com-pete favorably with Transformers in terms of accuracy, scal-ability and robustness across all major benchmarks. Con-vNeXt maintains the efficiency of standard ConvNets, andthe fully-convolutional nature for both training and testingmakes it extremely simple to implement.119770基于区域的检测器[23, 24, 27,57]进一步将ConvNets提升到成为视觉识别系统中的基本构建块的位置。0与此同时,神经网络的奥德赛0自然语言处理(NLP)的设计走了一条非常不同的道路,Transformers取代了循环神经网络成为主导的骨干架构。尽管语言和视觉领域的任务存在差异,但这两个领域在2020年出现了惊人的融合,因为Vision Transformers(ViT)的引入彻底改变了网络架构设计的格局。除了最初的“patchify”层将图像分割成一系列的补丁之外,ViT在原始的NLPTransformers上几乎没有引入任何图像特定的归纳偏差和最小的变化。ViT的一个主要关注点是扩展行为:借助更大的模型和数据集大小,Transformers可以在很大程度上胜过标准的ResNets。这些在图像分类任务上的结果令人鼓舞,但计算机视觉不仅限于图像分类。正如前面讨论的,过去十年中解决许多计算机视觉任务的解决方案在很大程度上依赖于滑动窗口、全卷积的范式。没有ConvNet的归纳偏差,一个普通的ViT模型在作为通用视觉骨干的过程中面临许多挑战。最大的挑战是ViT的全局注意力设计,它与输入大小的平方复杂度成正比。这对于ImageNet分类可能是可以接受的,但对于更高分辨率的输入来说很快就变得难以处理。0分层Transformers采用混合方法来0弥合这个差距。例如,将“滑动窗口”策略(例如在局部窗口内进行注意力)重新引入到Transformers中,使它们的行为更类似于ConvNets。Swin Transformer[45]是这个方向上的一个里程碑式的工作,首次证明了Transformers可以作为通用视觉骨干并在图像分类之外的一系列计算机视觉任务中取得最先进的性能。SwinTransformer的成功和快速采用也揭示了一件事:卷积的本质并没有变得无关紧要;相反,它仍然非常受欢迎,从未消失。0从这个角度来看,许多进展都是0计算机视觉的Transformers的目标是重新引入卷积。然而,这些尝试0但代价是:滑动窗口自注意力的天真实现可能很昂贵[55];通过高级方法,如循环移位[45],可以优化速度,但系统的设计变得更加复杂。另一方面,几乎讽刺的是,ConvNet已经以一种简单直接的方式满足了许多期望的特性。ConvNets似乎失去动力的唯一原因是(hierarchical)Transformers在许多视觉任务中超越了它们,而性能差异通常是0归因于Transformers的优越的扩展行为,其中多头自注意力是关键组成部分。0与ConvNets不同,它们逐渐改进了0在过去的十年中,采用VisionTransformers是一个重大的变革。在最近的文献中,通常在比较两者时采用系统级的比较(例如Swin Transformer vs.ResNet)。ConvNets和分层视觉Transformers在某种程度上既不同又相似:它们都配备了类似的归纳偏差,但在训练过程和宏观/微观级别的架构设计上存在显著差异。在这项工作中,我们研究了Con-vNets和Transformers之间的架构差异,并试图确定在比较网络性能时的混淆变量。我们的研究旨在弥合ConvNets的ViT之前和ViT之后的差距,以及测试纯ConvNet可以实现的极限。0我们希望这些新的观察和讨论能够挑战一些常见的观念,鼓励人们重新思考卷积在计算机视觉中的重要0挑战一些常见的观念,鼓励人们重新思考卷积在计算机视觉中的重要性。02. ConvNet的现代化:一个路线图0在本节中,我们提供了从一个0将ResNet转化为类似于Transformer的ConvNet。我们根据FLOPs考虑了两种模型大小,一种是FLOPs约为4.5×10^9的ResNet-50 / Swin-T模型,另一种是FLOPs约为15.0×10^9的ResNet-200 /Swin-B模型。为了简单起见,我们将以ResNet-50 /Swin-T复杂度模型的结果为例。更高容量模型的结论是一致的,结果可以在附录C中找到。0到另一个是ResNet-200 /Swin-B模型,其FLOPs约为15.0×10^9。为了简单起见,我们将以ResNet-50 /Swin-T复杂度模型的结果为例。更高容量模型的结论是一致的0从高层次上看,我们的探索是为了研究0从SwinTransformer中调查和跟踪不同层次的设计,同时保持网络作为标准ConvNet的简单性。我们的探索路线图如下所示:…78.979.579.578.580.480.778.979.880.380.680.680.680.881.581.281.681.781.881.34.14.54.42.45.34.64.14.14.24.24.34.24.24.24.24.54.578.879.479.578.380.580.679.980.480.680.680.580.681.381.481.582.081.3119780ResNet-50 / 2000Swin-T / B0阶段比例0“分块化”的干细胞0深度卷积0宽度增加0反转维度0移动增加深度卷积0内核大小 → 50内核大小 → 70内核大小 → 90内核大小 → 110ReLU � GELU0较少的激活0较少的规范化0BN � LN0ConvNeXt-T / B0宏观设计0ResNeXt0反向0瓶颈0大内核0微观设计0ImageNet0GFLOPs0图2。我们将标准ConvNet(ResNet)现代化为分层视觉Transformer(Swin),而不引入任何基于注意力的模块。前景柱状图是ResNet-50 / Swin-T FLOP模型的模型准确率;ResNet-200 /Swin-B模型的结果显示为灰色柱状图。有斜线的柱状图表示未采用该修改。两种模型的详细结果见附录。许多Transformer的架构选择可以应用于ConvNet,并且它们会带来越来越好的性能。最终,我们的纯ConvNet模型ConvNeXt可以胜过Swin Transformer。0关注。我们的起点是一个ResNet-50模型。我们首先使用类似于训练视觉Transformer的训练技术对其进行训练,并与原始的ResNet-50相比,取得了显著改进的结果。这将成为我们的基准。然后,我们研究了一系列设计决策,我们将其总结为1)宏观设计,2)ResNeXt,3)反向瓶颈,4)大内核大小,以及5)各种逐层微观设计。在图2中,我们展示了“网络现代化”的每个步骤的过程和我们能够实现的结果。由于网络复杂性与最终性能密切相关,FLOPs在探索过程中大致受到控制,尽管在中间步骤中,FLOPs可能高于或低于参考模型。所有模型都在ImageNet-1K上进行训练和评估。02.1. 训练技术0除了网络架构的设计之外,训练过程也会影响最终的性能。0训练过程也会影响最终的性能。0视觉Transformer不仅带来了一组新的模块和架构设计决策,还引入了不同的训练技术(例如AdamW优化器)来处理视觉。这主要涉及优化策略和相关的超参数设置。因此,我们探索的第一步是使用视觉Transformer的训练过程训练一个基准模型,这里是ResNet-50/200。最近的研究[7,81]表明,一组现代训练技术可以显著提高简单ResNet-50模型的性能。在我们的研究中,我们使用了一个接近DeiT[73]和Swin Transformer[45]的训练配方。训练从原始的ResNet的90个epoch延长到300个epoch。我们使用AdamW优化器[46],数据增强技术如Mixup [90],Cutmix [89],RandAugment[14],Random Erasing [91],以及包括Stochastic Depth[36]和Label Smoothing[69]在内的正则化方案。我们使用的完整的超参数集可以在附录A.1中找到。仅仅通过这种增强的训练配方,ResNet-50模型的性能从76.1%[1]提高到了78.8%(+2.7%),这意味着传统ConvNets和视觉Transformer之间性能差异的一个重要部分可能是由于训练技术。我们将在整个“现代化”过程中使用这个固定的训练配方和相同的超参数。在ResNet-50模型上报告的每个准确性都是从使用三个不同的随机种子进行训练的平均值。02.2. 宏设计0我们现在分析Swin Transformers的宏网络设计0Swin Transformers遵循ConvNets [28,65]使用多阶段设计,每个阶段具有不同的特征图分辨率。有两个有趣的设计考虑因素:阶段计算比例和“干细胞”结构。0更改阶段计算比例。ResNet中阶段之间的计算分配最初是基于经验的。重要的“res4”阶段旨在与目标检测等下游任务兼容,其中检测器头在14x14特征平面上操作。另一方面,Swin-T遵循相同的原则,但阶段计算比例略有不同,为1:1:3:1。对于更大的SwinTransformer,比例为1:1:9:1。根据设计,我们将ResNet-50中每个阶段的块数从(3, 4, 6, 3)调整为(3, 3, 9,3),这也使得FLOPs与Swin-T对齐。这将模型的准确性从78.8%提高到79.4%。值得注意的是,研究人员已经对计算分配进行了彻底的研究[53, 54],可能存在更优的设计。0从现在开始,我们将使用这个阶段计算比例。0将干细胞更改为“Patchify”。通常,干细胞设计关注的是网络开始时如何处理输入图像。由于冗余性(a)(b)(c)119790在自然图像中固有的情况下,标准ConvNets和视觉Transformer中的常见干细胞会对输入图像进行积极的下采样,以获得适当的特征图大小。标准ResNet中的干细胞包含一个步长为2的7x7卷积层,后面跟着一个最大池化,这导致输入图像的4x下采样。在视觉Transformer中,采用了一种更积极的“patchify”策略作为干细胞,它对应于一个大的卷积核尺寸(例如卷积核尺寸=14或16)和非重叠卷积。SwinTransformer使用类似的“patchify”层,但使用较小的4x4、步长4的卷积层来适应架构的多阶段设计。我们用一个使用4x4、步长4的卷积层实现的patchify层替换了ResNet风格的干细胞。准确性从79.4%变为79.5%。这表明,在ResNet中,干细胞可以用类似ViT的更简单的“patchify”层替换,从而获得类似的性能。0我们将在网络中使用“patchify stem”(4×4非重叠0卷积)。02.3. ResNeXt化0在这部分中,我们尝试采用ResNeXt [87]的思想,0它比普通的ResNet具有更好的FLOPs/准确性权衡。其核心组件是分组卷积,其中卷积滤波器被分成不同的组。从高层次上看,ResNeXt的指导原则是“使用更多的组,扩展宽度”。更准确地说,ResNeXt在瓶颈块的3×3卷积层中使用了分组卷积。由于这显著减少了FLOPs,网络宽度被扩展以弥补容量损失。0在我们的情况下,我们使用深度卷积,这是一种特殊情况0分组卷积的一种形式,其中组数等于通道数。深度卷积已经被MobileNet [34]和Xception[11]广泛使用。我们注意到,深度卷积类似于自注意力中的加权和操作,它在每个通道上操作,即只在空间维度上混合信息。深度卷积和1×1卷积的组合导致了空间和通道混合的分离,这是视觉Transformer所共享的属性,其中每个操作要么在空间维度上混合信息,要么在通道维度上混合信息,但不能同时进行。深度卷积的使用有效地减少了网络的FLOPs和预期的准确性。根据ResNeXt提出的策略,我们将网络宽度增加到与Swin-T相同的通道数(从64增加到96)。这将网络性能提高到80.5%,并增加了FLOPs(5.3G)。0我们现在将采用ResNeXt设计。02.4. 倒置瓶颈0每个Transformer块中的一个重要设计是0创建了一个倒置瓶颈,即MLP块的隐藏维度比输入维度宽四倍0d3×3,96 � 9601×1,384 � 9601×1,96 � 3840d3×3,384 � 38401×1,96 � 38401×1,384 � 9601×1,96 � 3840d3×3,96 � 9601×1,384 � 960图3. 块修改和结果规格。 (a) 是一个ResNeXt块; 在 (b)中,我们创建了一个倒置瓶颈块,在 (c)中,空间深度卷积层的位置被移动了。0(见图4)。有趣的是,这种Transformer设计与在ConvNets中使用的扩展比率为4的倒置瓶颈设计相连接。这个想法由MobileNetV2[61]推广,并在几个先进的ConvNet架构中得到了推广。0在这里,我们探索倒置瓶颈设计。图30(a)到(b)说明了配置。尽管深度卷积层的FLOPs增加了,但这个改变将整个网络的FLOPs减少到4.6G,因为在下采样残差块的快捷方式1×1卷积层中显著减少了FLOPs。有趣的是,这导致了稍微改进的性能(80.5%到80.6%)。在ResNet-200 /Swin-B范围内,这一步带来了更多的收益(81.9%到82.6%),同时还减少了FLOPs。0我们现在将使用倒置瓶颈。02.5. 大卷积核尺寸0在这个探索的部分,我们专注于行为-0大卷积核的行为。视觉Transformer最显著的一个特点是它们的非局部自注意力,这使得每一层都具有全局感受野。虽然在过去的ConvNets中使用过大卷积核尺寸[40,68],但黄金标准(由VGGNet[65]推广)是堆叠小的卷积核尺寸(3×3)的卷积层,这在现代GPU上具有高效的硬件实现[41]。尽管SwinTransformers重新引入了自注意力块的局部窗口,但窗口大小至少为7×7,远大于ResNe(X)t的卷积核尺寸为3×3。在这里,我们重新审视了ConvNets中使用大卷积核尺寸的方法。0向上移动深度卷积层。要探索大卷积核,一个先决条件是将深度卷积层的位置向上移动(图3(b)到(c))。这也是Transformer中明显的设计决策:MSA块位于MLP层之前。由于我们有一个反向瓶颈块,这是一个自然的设计选择 -复杂/低效的模块(MSA,大卷积核)将具有较少的通道,而高效的密集的1x1层将承担重任。这个中间步骤将FLOPs减少到4.1G,导致临时性能下降到79.9%。0增加卷积核大小。通过所有这些准备,采用更大的卷积核大小的好处是显著的。BNReLU256-d+ rel. pos.win. shiftFigure 4. Block designs for a ResNet, a Swin Transformer, and aConvNeXt. Swin Transformer’s block is more sophisticated due tothe presence of multiple specialized modules and two residual con-nections. For simplicity, we note the linear layers in TransformerMLP blocks also as “1⇥1 convs” since they are equivalent.119800显著。我们尝试了几种不同的卷积核大小,包括3、5、7、9和11。网络的性能从79.9%(3x3)提高到80.6%(7x7),而网络的FLOPs保持大致相同。此外,我们观察到更大的卷积核大小的好处在7x7达到饱和点。我们还在大容量模型中验证了这种行为:当我们将卷积核大小增加到7x7以上时,ResNet-200模型不会进一步提高。0我们将在每个块中使用7x7的深度卷积。到此为止,我们已经完成了对微观尺度的研究。这里的大部分探索都是在层级上进行的,重点是激活函数和归一化层的具体选择0网络架构的映射。有趣的是,视觉Transformer中所做的设计选择中的很大一部分可以映射到ConvNet的实例化。02.6. 微观设计0在本节中,我们将研究几种其他的宏观网络架构。有趣的是,视觉Transformer中所做的设计选择中的0微观尺度上的差异 -这里的大部分探索都是在层级上进行的,重点是激活函数和归一化层的具体选择。0用GELU替换ReLUNLP和视觉架构之间的一个差异是使用哪种激活函数的具体细节。随着时间的推移,已经开发出了许多激活函数,但由于其简单性和高效性,修正线性单元(ReLU)[49]仍然广泛用于ConvNets。ReLU也被用作原始Transformer论文[77]中的激活函数。高斯误差线性单元(GELU)[32]可以被认为是ReLU的一种更平滑的变体,它被用于最先进的Transformer模型,包括Google的BERT [18]和OpenAI的GPT-2[52],以及最近的ViTs。我们发现在我们的ConvNet中可以用GELU替换ReLU,尽管准确性保持不变(80.6%)。0更少的激活函数。Transformer和ResNet块之间的一个小区别是Transformer的激活函数更少。考虑一个具有键/查询/值线性嵌入层、投影层和MLP块中的两个线性层的Transformer块。MLP块中只有一个激活函数。相比之下,通常的做法是在每个卷积层中都添加一个激活函数,包括1x1卷积。在这里,我们研究了当我们坚持相同策略时性能的变化。如图4所示,我们除了在两个1x1层之间保留一个GELU层外,消除了残差块中的所有GELU层,复制了Transformer块的风格。这个过程将结果提高了0.7%,达到了81.3%,实际上与Swin-T的性能相匹配。0我们现在将在每个块中使用单个GELU激活函数。0更少的归一化层。Transformer块通常也有较少的归一化层。在这里,我们移除了两个批归一化(BN)层,只在1x1卷积层之前保留了一个BN层。这进一步提高了性能,达到了81.4%,已经超过了Swin-T的结果。注意0BN,ReLU0BN,ReLU01x1, 6403x3, 6401x1, 2560d7x7, 9601x1, 38401x1, 96096-d0LN0GELU096-d01x1, 96x30MSA, w7x7, H=301x1, 9601x1, 38401x1, 960GELU0LN096-d0LN0ResNet块 ConvNeXt块0Swin Transformer块0我们甚至比Transformers中的每个块有更少的归一化层,因为经验上我们发现在块的开头添加一个额外的BN层并不能提高性能。0图4. ResNet、SwinTransformer和ConvNeXt的块设计。由于存在多个专门的模块和两个残差连接,SwinTransformer的块更加复杂。为了简单起见,我们将TransformerMLP块中的线性层也称为“1x1卷积”,因为它们是等效的。0直接将LN替换为原始ResNet中的BN0将BN替换为LN。BatchNorm[38]是ConvNets中的一个重要组件,它改善了收敛性并减少了过拟合。然而,BN也有许多复杂性,可能对模型的性能产生不利影响[84]。已经有许多尝试开发替代归一化技术[60, 75,83],但在大多数视觉任务中,BN仍然是首选。另一方面,更简单的层归一化[5](LN)已经在Transformers中使用,取得了在不同应用0从现在开始,我们将使用一个LayerNorm作为我们的选择0在每个残差块中使用LN进行归一化。0单独的下采样层。在ResNet中,空间下采样是通过起始的残差块实现的• ConvNeXt-T: C = (96, 192, 384, 768), B = (3, 3, 9, 3)• ConvNeXt-S: C = (96, 192, 384, 768), B = (3, 3, 27, 3)• ConvNeXt-B: C = (128, 256, 512, 1024), B = (3, 3, 27, 3)• ConvNeXt-L: C = (192, 384, 768, 1536), B = (3, 3, 27, 3)• ConvNeXt-XL: C = (256, 512, 1024, 2048), B = (3, 3, 27, 3)119810在每个阶段中,使用3x3步长为2的卷积(在快捷连接处使用1x1步长为2的卷积)。在SwinTransformers中,在各个阶段之间添加了一个单独的下采样层。我们探索了类似的策略,使用2x2步长为2的卷积层进行空间下采样。这种修改出人意料地导致了训练的发散。进一步的调查显示,无论何时空间分辨率发生变化,添加归一化层可以帮助稳定训练。这些归一化层包括在SwinTransformers中也使用的几个LN层:一个在每个下采样层之前,一个在干扰层之后,一个在最终的全局平均池化之后。我们可以将准确度提高到82.0%,显著超过Swin-T的81.3%。0我们将使用单独的下采样层。这带来了0我们将最终模型称为ConvNeXt。0ResNet、Swin和ConvNeXt块结构的比较0图4中可以找到这些结构的详细架构规范。表9中可以找到ResNet-50、Swin-T和ConvNeXt-T的详细架构规范的比较。0结束语。我们已经完成了我们的第一次“试玩”,发现了一种名为ConvNeXt的纯卷积网络,在这个计算范围内可以胜过SwinTransformer进行ImageNet-1K分类。值得注意的是,到目前为止讨论的所有设计选择都是从视觉Transformers中改编的。此外,这些设计在ConvNet文献中甚至不是新颖的,它们在过去的十年中都是分别研究的。我们的ConvNeXt模型与SwinTransformer具有大致相同的FLOPs、参数数量、吞吐量和内存使用,但不需要像平移窗口注意力或相对位置偏差这样的专门模块。0我们构建了不同的ConvNeXt变体,ConvNeXt-03. 在ImageNet上的实证评估0T/S/B/L与Swin-T/S/B/L[45]的复杂性相似。ConvNeXt-T/B是对ResNet-50/200制度进行“现代化”处理的最终产品。此外,我们构建了一个更大的ConvNeXt-XL来进一步测试ConvNeXt的可扩展性。这些变体只在通道数C和每个阶段的块数B上有所不同。遵循ResNets和SwinTransformers的做法,每个新阶段的通道数翻倍。我们总结如下配置:0我们报告了在验证集上的ImageNet-1K top-1准确率0tion set. We also conduct pre-training on ImageNet-22K, alarger dataset of 21841 classes (a superset of the 1000ImageNet-1K classes) with � 14M images for pre-training, andthen �ne-tune the pre-trained model on ImageNet-1K forevaluation. We conduct pre-training at 224 2 resolution, and�ne-tuning with both 224 2 and 384 2 resolutions. Detailedtraining settings can be found in Appendix A.03.1. 结果0ImageNet-1K。表1(上)显示了与两个最近的Transformer变体DeiT [73]和Swin Transformers[45]以及两个来自架构搜索的ConvNet - RegNets[54],Ef�cientNets [71]和Ef�cientNetsV2[72]的结果进行比较。ConvNeXt在准确性-计算量的权衡以及推理吞吐量方面与两个强大的ConvNet基线(RegNet[54]和Ef�cientNet[71])相媲美。ConvNeXt在各个方面都优于复杂性相似的SwinTransformer,有时差距相当大(例如ConvNeXt-T的0.8%)。与SwinTransformers相比,ConvNeXts没有使用特殊模块,如平移0结果中的亮点是ConvNeXt-B在384 2上的表现:它0相比Swin-B,ConvNeXt-B的准确率提高了0.6%(85.1%vs. 84.5%),但推理吞吐量提高了12.5%(95.7 vs. 85.1image/s)。我们注意到,当分辨率从224 2增加到3842时,ConvNeXt-B相对于Swin-B的FLOPs/吞吐量优势变得更大。此外,我们观察到进一步扩展到ConvNeXt-L时的结果提高了85.5%。0ImageNet-22K。我们在表1(下)中展示了从ImageNet-22K预训练微调的模型的结果。这些实验非常重要,因为一个普遍的观点是,视觉Transformer在更大规模的预训练下具有更少的归纳偏差,因此可以比卷积神经网络表现更好。我们的结果表明,当使用大规模数据集进行预训练时,设计良好的卷积神经网络并不逊色于视觉Transformer -ConvNeXt仍然与大小相似的SwinTransformer表现相当甚至更好,并且吞吐量稍高。此外,我们的ConvNeXt-XL模型在3842上实现了87.8%的准确率,相比ConvNeXt-L有了显著的提升,证明了ConvNeXt是可扩展的架构。0在ImageNet-1K上,Ef�cientNetV2-L,一种搜索的架构0配备先进模块(如Squeeze-and-Excitation[35])和渐进训练过程的ConvNeXt实现了最佳性能。然而,通过ImageNet-22K预训练,119820模型图像尺寸 #参数 FLOPs 吞吐量0(图像/秒)0IN-1K0top-1准确率0ImageNet-1K训练的模型0• RegNetY-16G [54] 224 2 84M 16.0G 334.7 82.90• EffNet-B7 [71] 600 2 66M 37.0G 55.1 84.30• EffNetV2-L [72] 480 2 120M 53.0G 83.7 85.70◦ DeiT-S [73] 224 2 22M 4.6G 978.5 79.80◦ DeiT-B [73] 224 2 87M 17.6G 302.1 81.80◦ Swin-T 224 2 28M 4.5G 757.9 81.30• ConvNeXt-T 224 2 29M 4.5G 774.7 82.10◦ Swin-S 224 2 50M 8.7G 436.7 83.00• ConvNeXt-S 224 2 50M 8.7G 447.1 83.10◦ Swin-B 224 2 88M 15.4G 286.6 83.50• ConvNeXt-B 224 2 89M 15.4G 292.1 83.80◦ Swin-B 384 2 88M 47.1G 85.1 84.50• ConvNeXt-B 384 2 89M 45.0G 95.7 85.10• ConvNeXt-L 224 2 198M 34.4G 146.8 84.30• ConvNeXt-L 384 2 198M 101.0G 50.4 85.50ImageNet-22K预训练的模型0• R-101x3 [39] 384 2 388M 204.6G - 84.40• R-152x4 [39] 480 2 937M 840.5G - 85.40• EffNetV2-L [72] 480 2 120M 53.0G 83.7 86.80• EffNetV2-XL [72] 480 2 208M 94.0G 56.5 87.30◦ ViT-B/16(T)[67] 384 2 87M 55.5G 93.1 85.40◦ ViT-L/16(T)[67] 384 2 305M 191.1G 28.5 86.80• ConvNeXt-T 224 2 29M 4.5G 774.7 82.90• ConvNeXt-T 384 2 29M 13.1G 282.8 84.10• ConvNeXt-S 224 2 50M 8.7G 447.1 84.60• ConvNeXt-S 384 2 50M 25.5G 163.5 85.80◦ Swin-B 224 2 88M 15.4G 286.6 85.20• ConvNeXt-B 224 2 89M 15.4G 292.1 85.80◦ Swin-B 384 2 88M 47.0G 85.1 86.40• ConvNeXt-B 384 2 89M 45.1G 95.7 86.80◦ Swin-L 224 2 197M 34.5G 145.0 86.30• ConvNeXt-L 224 2 198M 34.4G 146.8 86.60◦ Swin-L 384 2 197M 103.9G 46.0 87.30• ConvNeXt-L 384 2 198M 101.0G 50.4 87.50• ConvNeXt-XL 224 2 350M 60.9G 89.3 87.00• ConvNeXt-XL 384 2 350M 179.0G 30.2 87.80表1.ImageNet-1K上的分类准确率。与Transformer类似,ConvNeXt在更高容量的模型和更大的(预训练)数据集上展现出有希望的扩展行为。推理吞吐量是在V100 GPU上测量的,遵循[45]。在A100GPU上,ConvNeXt的吞吐量比SwinTransformer高得多。请参阅附录E。(T)通过与作者的个人交流提供的90个时期的AugReg[67]训练的ViT结果。0ConvNeXt能够胜过Ef�cientNetV2,进一步证明了大规模训练的重要
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功