UniNet：结合卷积、Transformer和MLP的高性能混合视觉架构搜索

92 浏览量更新于2023-12-01 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文UniNet：使用卷积、Transformer和MLP的刘继豪1、2、黄欣1、宋光禄2、李洪生1、刘宇2、1香港中文大学，MMLab2商汤科技研究抽象的。最近，Transformer和多层感知器（MLP）架构在各种视觉任务上取得了令人印象深刻的结果。然而，如何有效地结合这些操作，形成高性能的混合视觉架构仍然是一个挑战。在这项工作中，我们研究了可学习的组合卷积，Transformer，和MLP提出了一种新的统一架构的搜索方法。我们的方法包含两个关键的设计，以实现高性能网络的搜索首先，我们在一个统一的形式非常不同的可搜索的运营商建模，从而使运营商的特点与相同的配置参数集。通过这种方式，整体搜索空间的大小显著减小，并且总搜索成本变得可负担。其次，我们提出了上下文感知的下采样模块（DSM），以减轻不同类型的运营商之间的差距我们提出的DSM能够更好地适应不同类型的操作者的功能，这对于识别高性能的混合架构是很重要的。最后，我们将可配置的操作符和DSM集成到一个统一的搜索空间中，并使用基于强化学习的搜索算法进行搜索，以充分探索操作符的最佳组合为此，我们搜索一个基线网络，并将其扩展以获得一系列模型，称为UniNets，它比以前的ConvNets和Transformer具有更高的准确性和效率特别是，我们的UniNet-B5在ImageNet上实现了84.9%的top-1准确率，优于EfficientNet-B7和BoTNet-T7，FLOP恢复率分别减少了44%和55%通过在ImageNet-21 K上进行预训练，我们的UniNet-B6达到了87.4%，优于Swin-L，FLOP减少了51%，参数减少了41%代码可在https://github.com/Sense-X/UniNet上获得。关键词：深度学习架构，神经架构搜索1介绍卷积神经网络（CNN）主导了视觉表示的学习，并在各种视觉任务上显示出有效性，包括图像分类、对象检测、语义分割等。最近，无卷积骨干在图像分类上显示出令人印象深刻的性能 [10] 。 Vi- sionTransformer（ViT）[11]证明了纯Transformer架构*Correspondent author.arXiv：2207.05420v2 [cs.CV] 2022年9月+v：mala2255获取更多论文2Liu等人当在大规模数据集上训练时，ImageNet-21K，JFT-300M）。MLP混合器[41]引入了一种纯多层感知器（MLP）架构，几乎可以匹配ViT这些网络中的主要运营商在效率和数据利用率方面的表现各不相同。一方面，CNN中的卷积是局部连接的，并且它们的权重是独立于输入的，这使得它在提取低级表示时是有效的，并且在低数据状态下是有效的另一方面，Transformer中的MSA捕获长程依赖性，并且注意力权重动态地依赖于输入表示。因此，它需要更多的数据和计算。MLP Mixer中的令牌混合就像是具有参数共享的完整感受野的深度卷积，这也是对数据的要求。如何将它们有效地结合起来，形成高性能的混合视觉体系结构是一个重要的研究课题，但这仍然是一个挑战。最近有论文试图手动组合不同类型的操作符以形成混合视觉网络。在ViT [11]中，还研究了使用ResNet和Transformer的混合架构，并针对较小的模型尺寸对纯transformer进行了改进此外，许多其他工作[9，8，53，51，16，14，12]也探索了卷积和Transformer的组合，以形成混合架构，以提高数据或计算效率。此外，在[25]中研究了卷积和MLP的组合，在[26]中研究了门控MLP和MSA的组合这些方法集中于将两个不同的算子结合起来，并在一定程度上获得了令人满意的性能然而，在现有技术中缺乏统一的观点和系统的研究。在构建高性能混合体系结构时，我们确定了两个关键挑战：（1）运算符可以用各种风格实现，手动探索所有可能的实现和组合是不可行的。虽然我们可以使用神经架构搜索（NAS）技术自动化探索，但搜索空间应该适当设计，以便搜索成本可以负担得起。（2）每种算子都有其自身的特点，简单地将它们组合在一起并不能得到最优结果。我们进行了一个简单的试点研究，直接堆叠不同的运营商，形成混合网络。然而，如表1所示，不同操作符的直接堆叠实现的性能甚至比vanillaViT更差。在本文中，我们通过提出一种新的统一架构搜索方法来研究卷积、变换器和MLP的可学习组合。我们的方法有两个关键设计来应对上述挑战。首先，我们以统一的形式对不同的操作符进行建模，并使用相同的可搜索配置参数集（即， OP类型、扩展、通道等）来表征每个不同的运营商。统一的设计使我们能够大大减少整体搜索空间，因此，总的搜索成本变得负担得起。此外，我们提出了上下文感知的下采样模块（DSM），以协调不同的运营商的组合。所提出的DSM可以被实例化为三种类型，即，局部-DSM（L-DSM）、局部-全局-DSM（LG-DSM）和+v：mala2255获取更多论文UniNet 3(a) ConvNet（b）Transformer/Hybrid（c）ImageNet 21 K传输图1：ImageNet top-1准确度与失败。我们的UniNet-B5在ImageNet-1 K数据集上实现了84.9%，优于EfficientNet-B7和BoTNet-T7，FLOP分别减少了 44% 和 55% 。我们的 UniNet-B6 在 ImageNet-1 K 上实现了 87.4% 的ImageNet-21 K预训练，优于EfficientNetV 2- XL，FLOP减少了46%。表1：不同操作符组合的ImageNet top-1准确度。T、M和C分别指的是Transformer块、MLP混频器块和去卷积卷积块。选择不同的块号，以便它们的计算具有可比性。模型配置#Params（M）#FLOPs（G）Top-1 Acc.ViT12 T224.678.0MLP混合器18米234.776.8DWConv18个C224.378.1ViT-MLP7 T+ 7 M224.576.5MLP-ViT7个月+7个月224.577.8DWConv-ViT7 C+ 7 T224.379.5全局DSM（G-DSM），旨在更好地适应从一个运营商到另一个的表示。基于这些设计，我们建立了一个统一的搜索空间，包括一个大家庭的不同的一般运营商（GOP），DSM和网络规模，并共同优化模型的准确性和FLOPs识别高性能的混合网络。我们在图6中说明了搜索空间和主干.所发现的网络名为UniNet，在各种视觉基准测试中，与常见的ConvNets，Transformers或混合架构相比，表现出强大的性能和效率改进我们的实验表明，UniNet具有以下特点：（1）将卷积放在浅层，将transformers放在深层，（2）为卷积和transformers分配类似数量的FLOP，以及（3）插入L-DSM来对卷积进行下采样，对transformers插入LG-DSM。我们的分析表明，前5个模型的结论是一致的。+v：mala2255获取更多论文4 Liu et al.为了更进一步，我们通过扩大搜索的基线网络来构建一系列高性能的UniNet模型，这在小型和大型模型中都实现了更好的准确性和效率。特别是，我们的 UniNet-B5 实现了与 EfficientNet-B7 相当的准确性（+0.1%），同时需要更少的计算成本（-44%）（图1（a））。通过在大规模ImageNet上进行预训练-21 K时，我们的UniNet-B6实现了87.4%的准确度，优于Swin-L，具有更少的FLOP（-51%）和参数（-41%）（图1（c））。2相关作品卷积、Transformer和MLP。许多ConvNets已经被提出来推动最先进的计算机视觉方法，如[17，37，39]。尽管有许多CNN模型，但它们的基本运算符卷积是相同的。最近，[11]提出了一种纯粹的基于transformer的图像分类模型ViT，它在Ima-geNet基准测试中取得了令人印象深刻的性能。DeiT [43]表明，经过良好训练的ViT可以获得比ConvNets更好的性能-速度权衡。PVT [50]和Swin [29]提出了多阶段视觉转换器，可以很容易地转移到其他下游任务。另一方面，最近的论文试图只使用MLPas thebuilding建造block块. MLP混合器[41]，ResMLP [42]和ViP [20]表明纯MLP架构也可以实现接近最先进的性能。不同运营商的组合。另一种工作是试图将不同的运营商结合起来形成新的网络。CvT [51]提出通过在具有卷积的自注意中生成Q、K和V来合并自注意和卷积。CeiT [53]用卷积干替换原始的补丁干，并将去卷积卷积添加到FFN层，从而获得快速收敛和更好的性能。ConViT [9]试图将卷积和自我注意力与门控位置自我注意力统一起来，并且比自我注意力更具样本效率。许多其他作品[8，16，14，12]也探索了卷积和Transformer的组合，以形成混合架构，以提高数据或计算效率。此外，ConvMLP [25]研究了卷积和MLP的组合，gMLP [26]研究了门控MLP和多头自注意力（MSA）的组合。我们提出了一种统一的架构搜索方法来自动搜索高性能的混合架构，而不是需要手动探索的混合架构。下采样模块。在ConvNets中，下采样模块（DSM）是用strided-Conv或pooling实现的。由于DSM破坏了卷积的平移不变量，[56]提出了抗锯齿DSM来保持它。此外，一系列工作试图在使用可学习或动态内核进行下采样时保留更多信息[13，32，49]。他们的大多数方法都是基于本地上下文的下采样，我们认为这不适合我们的统一网络。在我们的工作中，我们提出了上下文感知的DSM和联合搜索与运营商的组合，这保证了更好的性能。+v：mala2255获取更多论文×��1×��2×��5输入图像共和党DSM共和党DSM…共和党统一搜索空间：政府办事处：•卷积·L-DSM•Transformer· G-DSM•MLP· LG-DSM尺寸：•重复•渠道•膨胀UniNet 5i输出图2：统一架构搜索。我们联合搜索不同类型的操作者以及下采样模块（DSM）和网络大小在一个统一的搜索空间。我们以多阶段的方式构建UniNet架构。在两个连续的阶段之间，插入DSM中的一个以改变空间维度或通道。3方法3.1统一架构搜索正如在以前的工作中所讨论的那样，卷积和Transformer算子的适当组合可以提高性能。然而，以前的方法[51，53]仅在自注意或前馈网络（FFN）子层中采用卷积并重复堆叠它们。他们的方法并没有充分探索这些组合，以利用它们不同的特性。现有技术[49，56]表明下采样模块在视觉任务中起着重要作用。大多数先前的方法采用手工制作的下采样操作，即，步幅卷积、最大池化或平均池化，以仅基于局部上下文对特征图进行下采样。然而，这些操作是专门为ConvNets设计的，可能不适合基于Transformer或MLP的架构，这些架构全局捕获表示。在本文中，我们研究了卷积，trans-former和MLP的可学习组合为了更好地在不同的操作块之间传输特征，我们提出了上下文感知的下采样模块。我们在一个统一的搜索空间中联合搜索算子、下采样模块和网络大小相比之下，以前的神经结构搜索（NAS）工作主要通过搜索网络大小来实现最先进的性能。我们发现，我们的统一架构搜索方法搜索的混合架构可以实现非常有前途的性能。在本节的其余部分中，我们首先介绍了如何将不同的算子适当地定义到一个统一的搜索空间中并联合搜索它们。然后，我们提出了将下采样模块与不同的挑战-这里，MLP指的是捕获空间表示的MLP样式子层[41，42，20]，而不是纯1× 1卷积。+v：mala2255获取更多论文6 Liu et al.ent运算符，并提出我们提出的上下文感知下采样模块。最后，我们将介绍我们的UniNet架构和NAS管道。3.2卷积、Transformer、MLP的统一搜索模型最近，基于Transformer和MLP的架构能够在不同的视觉任务上实现与卷积网络相当的性能为了实现更好的性能，可以直观地将所有类型的运营商组合起来构建高性能的混合网络。实际上，已经研究了一些作品[51，53，9]，以经验地将卷积和自我注意力结合起来。然而，手动搜索网络架构是相当耗时的，并且不能确保具有不同计算预算的最佳性能。我们引入了一个统一的搜索空间，其中包含一般运营商（GOP，包括卷积，Transformer和MLP），然后搜索这些运营商的最佳组合联合。与现有技术相比，我们提出了一种统一的形式来表征不同的运营商。具体来说，我们使用反向残差[33]来建模一个通用运算符块，它首先将输入通道c扩展到更大的ec，然后将ec通道投影回c以进行残差连接。e被定义为膨胀比，其通常是小整数，例如，4.因此，一般操作块被建模为y=x+运算（x），（1）其中，运算可以是卷积、MLP或Transformer，x、y分别表示输入和输出特征对于卷积，我们将卷积运算放在瓶颈[33]内，可以表示为运算（x）= Projec→c（Conv（Projc→ec（x）。（二更）Conv操作可以是常规卷积或深度卷积（DWConv）[4]，Proj表示线性投影。对于Transformer中的自注意和MLP中的标记混合，大的瓶颈特征图上的计算成本是相当巨大的。根据之前的工作[11，41]，我们将它们与计算效率的瓶颈分开，并且在FFN [46]子层内实现Proj每个Transformer块具有查询键值自关注子层和FFN子层，并且MLP块中的令牌混合通过如[41]中的转置-FFN-转置来实现，y=y′+FFN（y′），（3）y′=x+SA（x）或x+MLP（x），（4）FFN（y′）=Projec→c（Projc→ec（y′）），（5）其中SA可以是普通自注意或局部自注意LSA，并且MLP是指令牌混合操作。在统一的格式和搜索空间中表示不同类型的算子有两个主要优点：（1）我们可以用+v：mala2255获取更多论文×UniNet 7输出输出输出输入输入多头注意Q K VConv1ds2输入(a) L-DSM(b) LG-DSM(c) G-DSM图3：上下文感知下采样模块的结构第3.3节描述了三个DSM。为了更好的可视化，省略了快捷方式。同一组配置参数（即，OP类型、扩展、通道等）。因此，整体搜索空间大大减少，总搜索成本变得负担得起。(2)通过统一的形式，不同运营商之间的比较更加公平，这对于NAS [38]识别最佳混合架构非常重要。3.3上下文感知下采样模块如第3.1节所述，下采样模块（DSM）在视觉任务中起着重要作用。除了手工制作的DSM（即，max-pooling或avg-pooling），一些作品[32，13，49]试图通过使用可学习或动态内核的下采样来保留更多信息大多数方法都利用了基于局部上下文的下采样，这非常适合传统的ConvNets然而，在我们的统一搜索空间中，具有不同感受野的运算符可以不受限制地组装以形成混合架构，其中局部上下文可能被破坏，因此先前的下采样操作可能不适合。在本文中，我们提出了上下文感知的DSM，这是与本地DSM（L-DSM），本地全局DSM（LG-DSM）和全局DSM（G-DSM）的实例。这些DSM之间的主要区别是执行下采样时所考虑的上下文。对于L-DSM，只涉及局部上下文，这与ConvNets非常匹配，如以前的作品[50，29]所示。对于G-DSM，仅全局上下文用于下采样，这可以适合其他运算符，例如，变压器. LG-DSM结合了L-DSM和G-DSM的特点。它使用本地和用于下采样的全局上下文。我们的直觉是，不同操作者最大的不同之处之一是感受野。Transformer和MLP自然具有全局感受场，而卷积具有局部感受场，例如，33.当组合这些运营商时，不存在单一的最佳DSM能满足所有的情况图3显示了所提出的DSM。为了基于全局线索进行下采样，我们利用自注意机制来捕获全局上下文，这是现有技术所遗漏的。Conv2d，s2多头注意Q K VConv2ds2+v：mala2255获取更多论文××----8 Liu et al.对查询进行下采样，并使用下采样的查询特征来聚合具有下采样输出分辨率的关键特征。注意，在G-DSM的下采样之后不存在保留的对于LG-DSM，我们首先将扁平化的令牌序列重新整形为空间网格，并应用步长为2的Conv 2D对查询进行下采样，然后将查询扁平化以计算注意力权重。与以前的作品，主要是试图改善ConvNets相比，我们提出的DSM不是为特定的架构而设计的。我们的动机是，不同的DSM可能适合不同的运营商。例如，对于ConvNets，最佳DSM可能是L-DSM，但对于变压器，最佳DSM可能是G-DSM。由于在我们的NAS过程中将训练数千个操作者组合，因此手工决定使用哪个DSM是不可行的。为了获得最佳的archi- tecture，我们联合搜索DSM与其他运营商。在我们搜索的最佳架构中，L-DSM确实用于具有局部感受野的运营商之间，而LG-DSM则受到具有全局感受野的运营商的青睐。实验结果验证了我们提出的上下文感知下采样模块的有效性。3.4UniNet架构如最近的研究所示，结合不同的运营商[51，53]可以带来性能改善。大多数以前的方法只是在整个架构中重复堆叠相同的操作符，并在不同的阶段只搜索不同的通道。这些方法不允许在每个块中的大的架构多样性，我们表明，这是至关重要的，以实现高精度的混合体系结构。相反，在我们的UniNet中，算子不是固定的，而是从统一的搜索空间中搜索的。我们以多阶段的方式构建我们的UniNet架构，可以很容易地转移到下游任务。在两个连续的阶段之间，我们提出的DSM之一被插入以减少空间维度。我们联合搜索GOP和DSM的所有阶段。GOP对于不同的阶段可以是不同的，但是在一个阶段中重复多次，这可以极大地减小搜索空间大小，如之前所指出的[38]。整体架构和统一搜索空间如图6所示。由于GOP的统一形式，每个阶段的网络大小可以配置为重复数r，信道大小c和扩展比e。为了获得更好的计算精度的权衡，我们联合搜索的网络规模与GOP和DSM。对于GOP，我们搜索卷积、Transformer、MLP及其有希望的变体，即，SA，LSA，Conv，DWConv，MLP，如3.2节中定义的;对于e，我们从2，3，4，5，6开始搜索。LSA是指窗口大小为7 7的窗口自注意。请注意，我们不像Swin Transformer [29]那样使用移位窗口。卷积运算的核大小固定为3 3。自我注意力的头部维度固定为32。我们从初始架构开始架构搜索，其网络大小基于参考架构确定，例如，[40]第四十话.根据参考架构设置初始通道和重复。对于c和r，我们+v：mala2255获取更多论文×关于我们f（m）不αUniNet 9分别从集合0.5，0.75，1.0，1.25，1.5和-2，-1，0，1，2中搜索。频道设置为可被32整除，以引起自我注意。假设我们将网络划分为K个阶段，每个阶段都有一个大小为S的子搜索空间。那么总的搜索空间是SK。在我们的实现中，K被设置为5，S等于1875。其结果是，我们的搜索空间大小约为2 - 10- 16，涵盖了一个大的运营商具有相当不同的特点。3.5搜索算法我们使用基于强化学习（RL）的搜索算法，通过联合优化模型精度和FLOPs，在我们的统一搜索空间中搜索高性能的混合架构具体地说，我们遵循以前的工作[28，38]并将统一搜索空间中的架构映射到令牌列表，这些令牌由递归神经网络（RNN）生成的动作序列确定。RNN通过PPO算法[34]通过最大化预期奖励来优化。在我们的实现中，我们同时优化精度和理论计算成本（FLOPs）。为了处理多目标优化问题，我们使用定制的加权产品[38]来近似Pareto最优。对于采样架构m，回报公式为r（m）=a（m）×（），其中函数a（m）和f（m）返回精度和m的FLOP，t是目标FLOP，α是平衡精度和计算成本的权重因子。我们在补充材料中提供了RL算法的更多细节在搜索过程中，数千种GOP和DSM的组合在具有相同设置的代理任务上进行训练，这为我们提供了这些组合之间的公平比较。当搜索结束时，具有最高奖励的前5个架构将使用完整的epoch进行训练，而表现最好的架构将保留用于模型缩放和转移到其他下游任务。4实验设置和实施为了在搜索空间中找到最佳架构，我们直接在大规模数据集ImageNet-1 K上搜索。我们从训练集中保留50k张图像作为验证集。我们在搜索阶段采用代理任务设置对于每个采样架构，我们训练它5个epoch，并计算架构的奖励及其FLOP和验证集的准确性。我们将奖励函数中的目标FLOPt和权重因子α分别设置为550 M和0.07 [39]。在搜索过程中，总共有2K个模型在代理任务上训练在此之后，我们在ImageNet-1K上完全训练了前5个架构，并保留了性能最好的一个用于模型缩放和转移到其他下游任务。对于ImageNet-1 K数据集的完整训练，我们遵循DeiT [43]中流行的我们使用AdamW优化器[24]，初始学习率为0.001，权重衰减为0.05来训练UniNet。总批次大小设置为1024。我们总共训练了300个epoch，学习率呈余弦衰减+v：mala2255获取更多论文×10 Liu et al.表2：UniNet-B 0架构。GOP和DSM分别代表通用运算符和下采样模块.DWConv和SA在第3.2节中描述。表3：完全训练后前5名模型的性能。 D 和 A 分别是DWConv和SA的缩写。排名配置Top-1Acc.0DDDAA79.11DDDAA78.72DDDAD77.93DDDAA78.64DDDAA78.4和5个时期的线性预热。我们遵循DeiT[43]并对小模型应用小增广，对大模型应用大增广，如[44，36]中所介绍的为了提高训练效率，UniNet-B5和UniNet-B6使用224 224输入大小进行训练，然后在大分辨率上进行微调。我们还在更大的ImageNet-21K数据集上预训练了UniNet，该数据集包含1420万张图像和21 K个类，以进一步测试UniNet。我们使用AdamW优化器预训练了90个epoch。然后，我们在ImageNet-1 K上微调了30个epoch，并将ImageNet-1 K上的top-1准确率与其他方法进行了比较。我们在补充材料中列出了训练和微调超参数的细节。此外，我们还将UniNet转移到下游任务，例如，基于COCO的目标检测和实例分割以及基于ADE20K的语义分割。对于COCO训练，我们使用各种检测框架，并使用广泛使用的1x（12个epoch）和3x（36个epoch）时间表训练UniNet。对于ADE20K训练，我们使用UperNet框架，并使用与[29]相同的设置进行训练培训详情见补充材料。5主要结果在本节中，我们首先介绍了我们搜索的UniNet架构。然后，我们展示了缩放的UniNets在分类，对象检测和语义分割方面的性能。5.1UniNet模型系列表2显示了我们搜索到的UniNet-B 0架构。我们所寻找的架构具有以下特点：（1）在浅层放置卷积，在深层放置具有SA的变压器虽然以前的工作[11]表明早期Transformer块学习收集本地表示，但我们搜索的架构在早期直接应用卷积，这更有效。我们进一步比较了表3中的前5个检索模型，发现结论接近一致。唯一的例外是第三种模式，阶段运营商网络规模FLOPs（M）GOP DSMe CR0DWConv L-DSM 4 482681DWConv L-DSM 6 8041352DWConv L-DSM 3 1284423SALG-DSM 2 1284634SALG-DSM 5 2568187+v：mala2255获取更多论文UniNet 11表4：ImageNet上的UniNet性能。所有的 UniNet 模型都是在ImageNet-1 K数据集上训练的，包含128万张图像。C、T和H分别表示卷积、Transformer和混合架构表 5 ： ImageNet-21 K 预训练在ImageNet 上的性能所有模型都在ImageNet-21 K上进行了预训练，并在ImageNet-1 K上进行了微调。模型家庭输入大小浮点数（G）#参数（M）Top-1Acc.[40]第四十话C480245586.1[11]第十一话不384190.730485.3[45]第四十五话不384-8585.6Swin-B [29]不38447.18886.4[51]第五十一话H384253284.9UniNet-B5H38420.472.987[40]第四十话C4805312186.8[40]第四十话C5129420887.3Swin-L [29]不384103.919787.3[8]第八话H38449.87587.1[8]第八话H51296.77587.3UniNet-B6H4485111787.4表6：与以前的高效架构的比较UniNet通过知识蒸馏进行训练，以便进行更公平的比较。型号系列#FLOPs（M）Top-1 Acc.[48]第四十八话C49180.1AlphaNet [47]C49180.3FBNetv3 [7]C55780.5OFA [3]C59580.0LeViT [15]H65880.0UniNet-B0H55580.8在最后阶段使用DWConv，但性能较差。(2)为卷积和变换器分配类似的计算量。示在表2中，DWConv级消耗245M FLOP，SA级消耗250MFLOP。虽然在现有技术中已经研究了算子组合，忽略了为不同算子分配的计算量。我们的工作通过在统一搜索空间中联合搜索网络大小来解决这个问题。(3)插入L-DSM以针对卷积进行下采样，插入LG-DSM以针对变压器进行下采样。我们的搜索结果表明，广泛使用的下采样模块是次优的混合架构。我们还注意到，在搜索的UniNet中没有选择MLP运算符。我们根据经验发现，MLP类型的操作破坏了对视觉任务很重要的空间结构[23]，导致与其他操作符组合时性能较差。我们在补充材料中添加了可视化为了更进一步，我们构建了一系列高性能UniNet模型通过放大搜索到的UniNet-B 0。我们使用复合缩放[39]模型家庭输入大小浮点数（G）#参数（M）Top-1Acc.[39]第三十九话C2240.395.377.1[40]第四十话C2400.77.478.7[43]第四十三话不2241.35.772.2[50]第五十话不2241.913.275.1ConViT-Ti+[9]H22421076.7UniNet-B0H1600.5611.579.1[39]第三十九话C26019.280.1[40]第四十话C2601.28.179.8RegNetY-4G [30]C224420.681.9[43]第四十三话不2244.32279.8小型PVT [50]不2243.824.579.8UniNet-B1H2241.111.580.8[39]第三十九话C3001.81281.6[40]第四十话C30031482.1Swin-T [29]不2244.52981.3[8]第八话H2244.22581.6UniNet-B2H2562.216.282.5[39]第三十九话C3804.21982.9NFNet-F0 [2]C25612.471.583.6Swin-B [29]不22415.48883.5ConViT-B+[9]H2243015282.5[8]第八话H2248.44283.3[51]第五十一话H38424.93283.3UniNet-B3H2884.32483.5[39]第三十九话C600376684.3[40]第四十话C480245485.1NFNet-F2 [2]C35262.6193.885.1BoTNet-T7 [35]不38445.875.184.7[8]第八话H38427.44285.1UniNet-B4H3209.443.884.4UniNet-B5H38420.472.984.9UniNet-B6H4485111785.6+v：mala2255获取更多论文×××12Liu等人同时缩放深度、宽度和分辨率。请注意，与EfficientNet [39]相比，分辨率使用更小的系数进行缩放，以提高训练和内存效率。我们在补充材料中列出了UniNet-B1到UniNet-B6的详细信息。虽然大多数以前的基于transformer的架构在大模型尺寸中优于基于卷积的架构，但在小模型尺寸中表现不佳，但UniNet在B0到B6之间始终实现更好的准确性和效率。5.2ImageNet分类性能ImageNet-1K。表4给出了我们搜索的UniNet与以前提出的架构的性能比较。我们搜索的UniNet比以前的ConvNets，Transformers或混合架构具有更好的准确性和计算效率。如表4所示，在移动设置下，我们的UniNet-B 0以5.55亿FLOP实现了 79.1% 的 top-1 准确度，优于具有更少 FLOP 的 EfficientNetV 2-B 0[40]。在中间FLOPs设置中，我们的UniNet-B3以4.3G FLOPs实现了83.5%的top- 1精度，优于纯卷积的EfficientNet-B4，纯变压器的Swin-B和混合架构CvT。21.对于更大的型号，我们的UniNet-B5在20 G FLOP下实现了84.9%，表现优于EfficientNet-B7和BoTNet-T7，FLOP分别减少了44%和55%。图1（a，b）进一步可视化了UniNet与其他架构在精度和FLOP方面我们在表6中进一步比较了UniNet-B 0与之前搜索到的高效架构。请注意，为了更公平的比较，我们使用知识蒸馏来训练UniNet-B 0。蒸馏的细节在补充材料中列出。如表6所示，UniNet-B 0以5.55亿FLOP实现了80.8%的准确度，优于其他基于卷积的高效架构或混合架构。ImageNet-21K。表5给出了UniNet和其他架构与ImageNet-21 K预训练的性能比较。值得注意的是，UniNet-B5获得了87%的top-1准确度，比Swin-L少4次计算。UniNet-B6实现了87.4%的top-1准确度，比CoAtNet-2 [8]性能更好，计算量减少了47%。我们在图1（c）中进一步可视化比较。5.3目标检测和语义分割性能对于目标检测和语义分割，我们选择了UniNet-B1和UniNet-B3，并将它们用作检测和分割框架的骨干网络我们将我们的UniNet与其他卷积或基于transformer的架构进行比较。对于COCO对象检测，我们使用了各种检测框架，并比较了1和3调度下的性能。对于ADE20K语义分割，我们使用UperNet框架，并报告相同训练设置下不同架构的mIoU（%）。如表7所示，我们搜索的UniNet始终优于基于卷积的ResNet [17]和基于变换器的PVT [50]或Swin-Transformer [29]。UniNet-B1实现了40.5AP@box，比PVT-Tiny高3.8%，+v：mala2255获取更多论文××UniNet 13表 7 ： COCO val2017 和 ADE 20K val 集上的所有 UniNet 模型都在ImageNet-1 K数据集上进行了预训练。骨干#参数（M）检测/分段浮点数（G）Det/Seg面罩R- CNN 1x Mask R-CNN 3xUperNetAP@box AP@mask AP@box AP@maskmIoU（%）ResNet18 [17]31/-207/88534.031.236.933.6-ResNet50 [17]44/-260/95138.034.441.037.1-[50]第五十话33/-208/94536.735.139.837.4-UniNet-B128/38211/87740.537.544.440.142.7[第17话]63/86336/102940.436.442.838.544.9小型PVT [50]44/-245/103940.437.843.039.9-Swin-T [29]48/60267/94543.739.846.041.644.5UniNet-B342/51270/94045.241.147.942.948.5表8：COCO val2017在各种检测框架下的性能报告AP@box。框架Cascade-Mask-R-CNN ATSS Sparse-R-CNN Mask-R-CNNResNet50 [17]46.343.544.541.0Swin-T [29]50.547.247.946.0UniNet-B351.349.848.947.9减少了15%的参数UniNet-B3在1个调度下实现了45.2个AP@box，在3个调度下实现了47.9个AP@box，分别比Swin-T好1.5%和1.9%我们进一步测试了各种检测框架，并在表8中显示了结果，并发现UniNet在其他方面取得了更好的性能。对于ADE 20K语义分割，我们使用51M参数实现了48.5%的mIoU与基于变压器的Swin-T相比，我们的UniNet在相似的参数大小下优于4.0%的mIoU此外，与基于卷积的ResNet101相比，我们实现了3.6%的mIoU，参数减少了41%所有的结果表明我们搜索的UniNet的有效性。6消融研究和分析在本节中，我们将研究通用算子联合搜索的影响，并讨论上下文感知下采样模块（DSM）的重要性。6.1单个操作员与一般操作员以前的工作[38，39]主要集中在网络大小搜索上，它使用单个算子卷积作为主要特征提取器。相比之下，我们联合搜索不同通用运算符（GOP）的组合，即，卷积、Transformer、MLP以及它们有前途的变体。为了验证GOP的重要性，我们在搜索空间中只保留一种类型的算子，并在相同的设置下重新运行搜索实验。搜索结束后，我们全力训练+v：mala2255获取更多论文→14 Liu等人。表9：ImageNet上不同搜索设置的性能一种类型的运营商被保留用于与混合UniNet进行比较。模型#FLOPs（G）#Params（M）Top-1 Acc.UniNet-B00.56 11.579.1仅卷积0.5911.077.7仅变压器1.211.278.2仅MLP0.9511.476.8在ImageNet-1 K上获得最高奖励的前5个架构，并报告最佳性能。如表9所示，与基于单操作符的架构相比，我们搜索的混合架构始终实现更好的准确性实验结果验证了本文提出的统一搜索架构的有效性，该架构可以充分利用不同运营商的特点。6.2固定与上下文感知下采样当将不同的算子组合到统一的网络中时，传统的下采样模块（例如，跨越式卷积或池化）可能是次优的。为了验证我们提出的上下文感知DSM的有效性，我们用一个固定的DSM替换我们的搜索UniNet的DSM，并在相同的训练设置下比较它们的性能如表12所示，我们搜索的UniNet始终优于其在所有阶段使用单一固定DSM的变体虽然我们看到在所有阶段使用结果强调了我们联合搜索GOP和DSM的重要性。此外，我们将我们提出的DSM转移到其他流行的基于变压器的架构，Swin-Transformer [29]和PVT [50]。Swin和PVT都有4个阶段。我们比较了2种设置：1）使用LG-DSM用于4个阶段，因为PVT和Swin都是纯Transformer架构2）使用L-DSM用于前两个阶段，而LG-DSM用于后两个阶段，这需要更少的计算。如表11所示，我们提出的LG-DSM将PVT-Tiny和Swin-T分别提高了3.

下载后可阅读完整内容，剩余1页未读，立即下载