MobileNetV3:互补搜索与新体系结构设计的下一代移动网络

24 浏览量更新于2023-10-12 收藏 811KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

131410搜索MobileNetV31Google AI，2Google Brain{howarda，sandler，cxy，lcchen，bochen，tanmingxing，weijunw，yukun，rpang，vrv，qvl，hadam}@ google.com摘要我们提出了基于互补搜索技术的组合以及新颖的体系结构设计的下一代移动网络。MobileNetV3通过硬件感知网络架构搜索（NAS）与NetAdapt算法的组合进行调整，以适应移动电话CPU，然后进行改进72种小型移动机型，20- 40 ms CPU延迟70686664626058565415 20 25 30 35延迟，像素1，ms78款大型移动机型，40- 100 ms CPU延迟767472706866405060708090100110延迟，像素1，ms通过新颖的建筑进步。本文开始探索如何自动搜索算法和网络设计可以一起利用互补的方法，提高整体的艺术状态。通过这个过程，我们创建了两个新的MobileNet模型用于重新租赁：MobileNetV 3-Large和MobileNetV 3-Small，分别针对高资源和低资源使用情形。这些模型，然后适应和应用于目标检测和语义分割的任务。针对语义分割（或任何密集像素预测）的任务，提出了一种新的高效分割解码器Lite ReducedAtrous Spatial Pyramid Pooling（LR-ASPP）。我们实现了移动分类，检测和分割的最新成果。MobileNetV3-Large在ImageNet分类上的准确率提高了3.2%，同时与MobileNetV 2相比，延迟减少了20%。MobileNetV 3-Small是图1.像素1延迟和前1图像之间的权衡geNet精度。所有模型使用输入分辨率224。V3大和V3小使用乘数0.75、1和1.25来显示最优边界。使用TFLite[1]在同一设备的单个大内核上测量所有延迟。MobileNetV 3-Small和Large是我们提出的下一代移动模型。准确度vs MAds vs模型大小80706050与MobileNetV2模型相比，准确率提高6.6%40具有可比较的等待时间。 MobileNetV 3-大型检测30 100 300 1000 3000乘加，百万在COCO检测上，在与Mo-bileNetV 2大致相同的准确度下，速度快25%以上。MobileNetV 3-Large LR- ASPP比MobileNetV 2 R-ASPP快34%，但Cityscapes分割的准确性相似。1. 介绍高效的神经网络在移动应用中变得无处不在，从而实现全新的设备上体验。它们也是个人隐私的关键推动者，允许用户获得神经网络的好处，而无需将其数据发送到服务器进行评估。神经网络效率的进步不仅通过更高的准确性和更低的延迟来改善用户体验，而且图2. MAds和top-1精度之间的权衡。这允许比较针对不同硬件或软件框架的模型所有MobileNetV3用于输入分辨率224，并使用乘数0.35、0.5、0.75、1和1.25。其他决议见第6节。最好用彩色观看。通过降低功耗帮助延长电池寿命。本文介绍了我们开发MobileNetV3 Large和Small模型的方法，以便提供下一代高精度高效神经网络模型，为设备上的计算机视觉提供动力。新的网络推动了最先进的技术，并展示了如何将自动搜索与新颖的架构优势相结合，以构建有效的模型。67.576.675.676.7七十五点二七十五点二74.671.970.0MobileNetV3 largeProxylessNASMnasNet-AMobileNetV2准确度，前1，%准确度，Imagenet，Top1准确度，前1，%70.466.065.464.965.460.3MobileNetV3 smallMnasNet-smallMobileNetV2InceptionV2MnasNet-AMnasNet-smallMobileNetV1MobileNetV2MobileNetV3NasNetProxylessNASResNet-50ShuffleNetV2安德鲁·霍华德1马克·桑德勒1Grace Chu1陈良杰陈波1明星谈2王伟军朱玉昆庞若明Vijay Vasudevan2Quoc V.乐2哈特维希亚当11315本文的目标是开发最佳的移动计算机视觉架构，优化移动设备上的为了实现这一点，我们介绍（1）互补搜索技术，（2）新的有效版本的非线性实用的移动设置，（3）新的有效的网络设计，（4）一个新的有效的分段解码器。我们提出了全面的实验，证明了每种技术在广泛的用例和手机上评估的有效性和价值本文的结构如下。我们在第2节开始讨论相关的工作。第3节回顾了用于移动模型的高效构建块。第4节回顾体系结构搜索和MnasNet和NetAdapt算法的互补性质。第5节描述了改进通过联合搜索发现的模型的效率的新颖的架构设计第6节呈现了用于分类、检测和分割的广泛实验，以便证明功效并理解不同元素的贡献。第7节载有结论和今后的工作。2. 相关工作近年来，设计深度神经网络架构以实现准确性和效率之间的最佳权衡一直是一个活跃的研究领域。新颖的手工结构和算法神经结构搜索在推进这一领域中发挥了重要作用。SqueezeNet[22]广泛使用1x1卷积，其中挤压和扩展模块主要关注减少参数的数量。最近的工作转移的重点从减少参数，以减少操作的数量（MAds）和实际测量的延迟。MobileNetV1[19]采用可分离卷积来大幅提高计算效率。MobileNetV2[39]通过引入具有反转残差和线性瓶颈的资源高效块来扩展这一点。ShuffleNet[49]利用组卷积和通道混洗操作来进一步减少MAdd。CondenseNet[21]在训练阶段学习组卷积，以保持层之间有用的密集连接，以供特征重用。ShiftNet[46]提出了与逐点卷积交织的移位操作来取代昂贵的空间卷积。为了使体系结构设计过程自动化，请加强-分段学习（RL）首先被引入以搜索具有竞争准确性的高效架构[53，54，3，27，35]。一个完全可配置的搜索空间可以指数地增长，并且难以处理。因此，早期的体系结构搜索工作主要集中在单元级结构搜索，并且在所有层中重用相同的单元。最近，[43]探索了块级分层搜索空间，允许在网络的不同分辨率块处的不同层为了降低搜索的计算成本，可微体系结构搜索框架在[28，5，45]中使用基于梯度的优化。专注于使现有网络适应受限的移动平台，[48，15，12]提出了更有效的自动化网络简化算法。量化[23，25，47，41，51，52，37]是通过降低精度算法提高网络效率的另一重要补充努力。最后，知识蒸馏[4，17]提供了一种额外的复杂方法，可以在大型“教师”网络的指导下生成小型精确的3. 高效移动构建模块移动模型建立在越来越高效的构建块上。MobileNetV1 [19]引入了深度可分离卷积作为传统卷积层的有效替代深度可分离卷积通过将空间滤波与特征生成机制分离，有效地分解了传统卷积。深度可分离卷积由两个单独的层定义：用于空间滤波的轻量级深度卷积和用于特征生成的较重的1x1逐点卷积。MobileNetV2 [39]引入了线性瓶颈和反向残差结构，以便通过利用问题的低秩性质来实现更有效的层结构。这种结构如图3所示，由1x1扩展卷积、深度卷积和1x1投影层定义。当且仅当输入该结构在输入和输出处保持紧凑的表示，同时内部扩展到更高维的特征空间以增加非线性每通道变换的表现力。MnasNet [43]通过将基于挤压和激励的轻量级注意力模块请注意，挤压和激励模块集成在与[20]中提出的基于ResNet的模块不同的位置。该模块被放置在展开中的dependency过滤器之后，以便将注意力应用于最大的表示，如图4所示。对于MobileNetV3，我们使用这些层的组合作为构建块，以构建最有效的模型。层也升级与修改swish非线性[36，13，16]。挤压和激励以及swish非线性都使用sigmoid，其计算效率低下，并且在定点算法中保持准确性具有挑战性，因此我们将其替换为硬sigmoid[2，11]，如第5.2节所述。1316|∆latency|Mobilenet V2：有剩余的瓶颈13x3Relu6，DwiseRelu6，1x1+图3. MobileNetV2 [39]层（反向残差和线性瓶颈）。每个块由窄输入和输出（瓶颈）组成，其剩余连接瓶颈（而不是扩张）。Mobilenet V3块1NL，13x3NL，Dwise池⊗FC、FC、ReLUhard-σ+X1图4. MobileNetV2 +挤压和激发[20]。与[20]相反，我们在残余层中施加挤压和激发。我们根据层使用不同的非线性，请参见第节5.2详情4. 网络搜索网络搜索已经证明自己是发现和优化网络架构的一个非常强大的工具 [53 ， 43 ， 5 ， 48] 。对于MobileNetV3，我们使用平台感知NAS来搜索全局网络结构，通过优化每个网络块。然后，我们使用的NetAdapt算法，rithm每层的过滤器的数量进行搜索。这些技术是互补的，可以结合起来，有效地找到一个给定的硬件平台的优化模型。4.1. 用于数据块明智搜索的平台感知NAS与[43]类似，我们采用平台感知神经架构方法来找到全局网络结构。由于我们使用相同的基于RNN的控制器和相同的因子分解分层搜索空间，因此我们发现与[43]类似的结果用于目标延迟约为80ms的大型移动模型。因此，我们简单地重用相同的MnasNet-A1[43]作为我们最初的大型移动模型，然后在其上应用Ne- tAdapt [48]和其他优化。然而，我们观察到原始奖励设计并没有针对小型移动模型进行优化。具体地说，它使用W多目标奖励ACC（m）×[LAT（m）/TAR]，通过基于目标延迟TAR平衡每个模型m的模型准确度ACC（m）和延迟LAT（m），近似帕累托最优解。我们观察到AC-对于小模型，精确性随着延迟的变化更显著;因此，我们需要一个较小的权重因子w= −0。15（相对于原始的w=-0。[43]中的07），以补偿不同纬度的较大精度变化。通过这个新的权重因子w增强，我们从头开始一个新的架构搜索，以找到初始种子模型，然后应用NetAdapt和其他优化来获得最终的MobileNetV 3-Small模型。4.2. 用于逐层搜索的NetAdapt我们在架构搜索中使用的第二种技术是NetAdapt[48]。这种方法是对平台感知NAS的补充：它允许以顺序方式微调各个层，而不是试图推断粗糙但全局的架构。我们参考原始文件的全部细节。简而言之，该技术如下进行：1. 从平台感知NAS发现的种子网络体系结构开始。2. 对于每个步骤：(a) 生成一组新提案。每个提议表示对架构的修改，其与前一步骤相比产生至少δ(b) 对于每个建议，我们使用上一步中的预训练模型，并填充新的建议架构，适当地截断和随机初始化缺失的权重。微调每个建议的T步骤，以获得一个粗略的估计的准确性。(c) 根据某种度量标准选择最佳建议。3. 重复上一步，直到达到目标延迟。在[48]中，度量是最小化准确度变化。我们修改了该算法，并最小化延迟变化和准确率变化之间的比率。也就是说，对于每个NetAdapt步骤期间生成的所有提议，我们选择一个最大化的提议：∆Acc，其中∆延迟满足2（a）中的约束。直觉是，因为我们的建议是离散的，我们更喜欢最大化权衡曲线斜率的建议。重复这个过程，直到延迟达到其目标，然后我们从头开始重新训练新的架构。我们使用与[48]中用于MobilenetV2的相同的提案生成器。具体而言，我们允许以下两种类型的提案：1. 减小任何扩展层的尺寸;2. 减少共享相同瓶颈大小的所有块中的瓶颈-以保持剩余连接。1317高效的最后阶段1x1ConvBNH-Swish1x1ConvH-Swish1x1转换128010001609606对于我们的实验，我们使用T= 10000，并发现虽然它增加了pro-tuning的初始微调的准确性，但它不会改变从头开始训练时的最终准确性我们设置δ= 0。01|L|其中L是种子模型的延迟。5. 网络改进除了网络搜索，我们还引入了几个新的组件的模型，以进一步改善最终的模型。我们重新设计了网络开始和结束时计算昂贵的层。我们还介绍了一个新的非线性，h-swish，最近的swish非线性，这是更快的计算和更量化友好的修改版本5.1. 重新设计昂贵的图层一旦通过架构搜索找到模型，我们观察到一些最后的层以及一些较早的层比其他层更昂贵。我们提出了一些修改的架构，以减少这些慢层的延迟，同时保持准确性。这些修改超出了当前搜索空间的范围。第一个修改重新设计了网络的最后几层如何交互，以便更有效地生成最终特征。目前基于Mo-bileNetV 2的反向瓶颈结构和变体的模型使用1x 1卷积作为最终层，以便扩展到更高维的特征空间。为了具有用于预测的丰富特征，该层至关重要然而，这是以额外的延迟为代价的。为了减少延迟并保留高维特征，我们将该层移动到最终平均池之后。现在以1x1的空间分辨率而不是7x7的空间分辨率来计算最终的特征集。这种设计选择的结果是，在计算和延迟方面，特征的计算变得几乎免费。一旦减轻了该特征生成层的成本，就不再需要先前的瓶颈投影层来减少计算。这一观察允许我们移除先前瓶颈层中的投影和滤波层，从而进一步降低计算复杂度。原始和优化的最后阶段可以在图5中看到。有效的最后一级减少了7毫秒的延迟，这是运行时间的11%，并减少了30百万MAdd的操作数量，几乎没有损失的准确性。第6节包含详细结果。另一个昂贵的层是过滤器的初始集合。当前的移动模型倾向于在完整的3x3卷积中使用32个滤波器来构建用于边缘检测的初始滤波器组。这些滤波器中有10个是彼此的镜像.我们通过减少过滤器的数量并使用原始最后阶段1x1ConvBNH-Swish3x3DConvBNH-Swish1x1ConvBN1x1ConvBNH-Swish1x1转换10001609609603201280图5.原末级与高效末级的比较这个更有效的最后一级能够在网络末端丢弃三个昂贵的层，而不会损失准确性。不同的非线性来尝试和减少冗余。我们决定对这一层使用硬swish非线性，因为它的性能和其他测试的非线性一样好。我们能够将过滤器的数量减少到16个，同时保持与使用ReLU或Swish的32个过滤器相同的精度。这节省了额外的2毫秒和1000万MAdd。5.2. 非线性在[36，13，16]中，引入了一种称为swish的非线性，当用作ReLU的替代品时，它显著提高了神经网络的准确性非线性定义为swishx =x·σ（x）虽然这种非线性提高了准确性，但它在嵌入式环境中具有非零成本，因为在移动设备上计算S形函数要昂贵得多我们用两种方法来处理这个问题。1. 我们用它的分段线性硬模拟替换sigmoid函数：类似于[11，44]的ReLU6（x+3）微小的区别是我们使用ReLU6而不是自定义裁剪常数。类似地，swish的硬版本变成了ReLU6（x+3）h-swish[x] =x6最近在[2]中也提出了一个类似的硬切换版本。sigmoid和swish非线性的软版本和硬版本的比较如图6所示。我们选择常数的动机是简单，并与原始平滑版本很好地匹配。在我们的实验中，我们发现所有这些功能的硬版本在准确性方面没有明显的差异，但从部署的角度来看有多方面的优势。首先，ReLU6的优化实现在几乎所有的软件和硬件框架上都是可用的其次，在量化模式下，它消除了由于近似sigmoid的不同实现而导致的最后，在实践中，h-swish可以实现为13181.00.80.60.40.20.0乙状结肠vs H-乙状结肠乙状H-S形6 4 2 0 2 46swish vs h-swish87嗖嗖声65h-嗖嗖声43210864202468图6. S形和Swish非线性和其他“硬”的相互作用。减少存储器访问次数的分段函数，从而大大降低等待时间成本。2. 随着我们深入网络，应用非线性的成本会降低，因为每一层的激活概率通常会在分辨率下降时减半。无意中，我们发现swish的大部分好处都是通过只在更深的层次上使用它们来实现的。因此，在我们的体系结构中，我们仅在模型的后半部分使用h-swish。我们参考表1和表2以获得精确的布局。即使进行了这些优化，h-swish仍然会带来一些延迟成本。然而，正如我们在第6节中所展示的，在没有优化的情况下，对准确性和延迟的净效应是积极的，并且当使用基于分段函数的优化实现时，净效应是显著的。5.3. 大挤激在[43]中，挤压和激发瓶颈的大小与卷积瓶颈的大小相关。相反，我们将它们全部替换为固定为扩展层中通道数量的1/4。我们发现，这样做增加了准确性，在适度增加参数的数量，并没有明显的延迟成本。5.4. MobileNetV3定义MobileNetV 3被定义为两种型号：MobileNetV 3-Large和MobileNetV 3-Small。这些模型分别针对高资源和低资源使用情况模型表1. MobileNetV 3规范-大型。SE表示在该块中是否存在挤压并激励。NL表示所使用的非线性类型。这里，HS表示h-swish，RE表示ReLU。NBN表示无批次归一化。s表示步幅。输入操作者exp大小#outSENLS2242× 3conv2d，3x3-16-HS21122× 16bneck，3x31616CRE2562× 16bneck，3x37224-RE2282× 24bneck，3x38824-RE1282× 24bneck，5x59640CHS2142× 40bneck，5x524040CHS1142× 40bneck，5x524040CHS1142× 40bneck，5x512048CHS1142× 48bneck，5x514448CHS1142× 48bneck，5x528896CHS272× 96bneck，5x557696CHS172× 96bneck，5x557696CHS172× 96conv2d，1x1-576CHS172× 576游泳池，7x7----112× 576conv2d 1x1，NBN-1280-HS112× 1280conv2d 1x1，NBN-K--1通过将平台感知NAS和Ne- tAdapt应用于网络搜索并结合本节中定义的网络改进功能创建。我们网络的完整规格见表1和表26. 实验我们目前的实验结果表明，新的MobileNetV3模型的有效性。我们报告的结果分类，检测和分割。我们还报告了各种消融研究，以阐明各种设计决策的影响6.1. 分类作为标准，我们使用ImageNet[38]进行所有分类实验，并将准确率与表2.MobileNetV 3规范-Small。见表1记法例如延迟和乘法加法（MAds）等资源使用的各种度量。6.1.1训练设置我们使用4x 4 TPU Pod [24]上的同步训练设置训练我们的模型，使用标准的tensorflow RMSPropOp-timizer，动量为 0.9我们使用 0.1 的初始学习我们使用 0.8 的dropout和l2权重衰减1 e-5以及与Inception [42]相同的图像预处理。最后，我们使用衰减为0.9999的指数移动平均线。我们所有的谈话-输入操作者exp大小#outSENLS2242× 3Conv2d-16-HS21122× 16bneck，3x31616-RE11122× 16bneck，3x36424-RE2562× 24bneck，3x37224-RE1562× 24bneck，5x57240CRE2282× 40bneck，5x512040CRE1282× 40bneck，5x512040CRE1282× 40bneck，3x324080-HS2142× 80bneck，3x320080-HS1142× 80bneck，3x318480-HS1142× 80bneck，3x318480-HS1142× 80bneck，3x3480112CHS1142× 112bneck，3x3672112CHS1142× 112bneck，5x5672160CHS272× 160bneck，5x5960160CHS172× 160bneck，5x5960160CHS172× 160conv2d，1x1-960-HS172× 960游泳池，7x7----112× 960conv2d 1x1，NBN-1280-HS112× 1280conv2d 1x1，NBN-K--11319网络Top-1P-1P-2P-3V3-大号1.0V2 1.073.870.9445242.548.331.737.0V3-小型V2 0.3564.957.215.516.714.915.610.711.9表3.Pixel系列手机上的浮点性能（P-n表示Pixel-n手机）。所有延迟均以毫秒为单位，并使用批量大小为1的单个大型内核ImageNet的准确性最高分离层使用平均衰减为0.99的批归一化层。6.1.2测量设置为了测量延迟，我们使用标准的Google Pixel手机，并通过标准的TFLite Bench- mark Tool运行所有网络。我们在所有测量中使用单线程大核心。我们不报告多核推理时间，因为我们发现这种设置对于移动应用程序不是很实用。我们为tensorflow lite贡献了一个原子h-swish操作符，现在它在最新版本中是默认的。我们在图9中显示了优化的h-swish的影响。6.2. 结果如图1所示，我们的模型优于现有技术，如MnasNet[43]，ProxylessNas[5]和MobileNetV2 [39]。我们在表3中报告了不同Pixel手机上的浮点性能。我们将量化结果包括在表4中。在图7中，我们显示了MobileNetV3性能权衡作为乘数和分辨率的函数。请注意MobileNetV 3-Small的性能如何优于MobileNetV 3- Large，其乘数扩展到与性能匹配近3%。另一方面，分辨率提供了比乘数更好的权衡。然而，应该注意的是，解决方案通常由问题（例如：分割和检测问题通常需要更高的分辨率），因此不能总是用作可调参数。6.2.1消融研究非线性的影响在表5中，我们研究了在哪里插入H-Swish非线性以及使用优化实现优于简单实现的改进。可以看出，使用h-swish的优化实现节省了6 ms（超过表4.量化性能。所有延迟都以ms为单位。推理延迟是使用一个大的核心在各自的像素1/2/3设备测量。80V3大号与V3小号与V2的比较7570V656055500 10 20 30 40 50 60 70 80 90 100延迟，像素1图7. MobileNetV3的性能作为不同乘数和分辨率的函数。在我们的实验中，我们使用了0.35，0.5，0.75，1.0和1.25的倍数，固定分辨率为224，以及分辨率96、128、160、192、224和256，固定深度乘数为1.0。最好用彩色观看Top-1准确率在ImageNet上，延迟以ms为单位。Top-1P-1P-1（无选择）V3-大号1.075.251.457.5ReLU74.5（-0.7%）50.5（-1%）50.5h-swish @ 1675.4（+.2%）53.5（+4%）68.9h-swish @ 11275.0（-0.3%）51人（-0.5%）54.4表5.非线性对MobileNetV 3-Large的影响。在h-swish @N中，N表示启用了h-swish的第一层中的通道的数量第三列显示了没有优化h-swish的运行时。Top-1准确率在ImageNet上，延迟以ms为单位。运行时间的10%）。与传统ReLU相比，优化的h-swish图8显示了基于非线性选择和网络宽度的有效边界MobileNetV 3在网络中间使用h-swish，显然在ReLU中占主导地位。有趣的是，在整个网络中添加h-swish比扩大网络的插值边界稍微好一些。在图9中，我们示出了不同组分的引入如何沿着潜伏期/准确度曲线移动。网络Top-1MAddsParamsP-1P-2P-3V3-大号1.075.22195.4M516144V3-大号0.7573.31554.0M394640MnasNet-A175.23153.9M718661无代理[5]74.63204.0M728460V2 1.072.03003.4M647656V3-小型1.067.4662.9M15.819.414.4V3-小号0.7565.4442.4M12.815.611.7Mnas-small [43]64.965.11.9M20.324.217.2V2 0.3560.859.21.6M16.619.613.9准确度，Top-1V3大型 e：1/224移动netV3暴徒IleneTV23小：1/224MobilenetV3 大 / 倍增器MobilenetV3 小 / 倍增器MobilenetV3 大 / 分辨率MobilenetV 3小/分辨率MobilenetV2/multiplierMobilenetV 2/分辨率132076.576.0优化的h-swish无优化的1.15 V3：76.375.5V3：75.2h-swish@16：75.475.074.5h-swish@112：75.0 ReLU：74.574.0455055606570 750.85 V3：74.3455055606570 75延迟，像素1图8.h-swish与ReLU对优化和非优化的h-swish。这条曲线显示了一个利用深度增效器. 注意，将h-swish放置在具有80个或更多个通道（V3）的所有层处为优化的h-swish和非优化的h-swish两者提供了最佳折衷。Top-1准确率在ImageNet上，延迟以ms为单位。表6.不同背衬COCO测试集上的骨头†：C4之间的块中的通道和C5都减少了2倍。76.476.276.075.8V3开发75.675.475.275.050 55 60 65 70 75 80潜伏期，ms图10.基于MobileNetV 3，建议的分割头，Lite R-ASPP，提供快速的语义分割结果，同时混合来自多个分辨率的功能。图9. MobileNetV3开发中各个组件的影响。进步是通过向上和向左移动来衡量的。6.3. 检测我们使用MobileNetV3作为SSDLite [39]中骨干网络特征提取器的直接替代品，并与COCO数据集上的其他骨干网络进行比较[26]。在MobileNetV2 [39]之后，我们将第一层SSDLite附加到输出步幅为16的最后一个特征提取器层，并将第二层SSDLite附加到输出步幅为三十二根据检测文献，我们将这两个特征提取器层分别称为C4和C5对于MobileNetV 3-Large，C4是第13个瓶颈块的扩展层对于MobileNetV 3-Small，C4是第9个瓶颈块的扩展层。对于这两个网络，C5是池化之前的层.我们还将C4和C5之间的所有特征层的通道数减少了2。这是因为MobileNetV3的最后几层被调整为输出1000个类，当传输到具有90个类的COCO时，这可能是冗余的。COCO测试集的结果见表1。六、在信道减少的情况下，MobileNetV 3-Large比MobileNetV 2快27%，mAP几乎相同MobileNetV 3-小与通道减少也是2. 4和0。5mAP比MobileNetV2和MnasNet更高，同时速度快35%。对于这两种MobileNetV3模型，通道减少技巧有助于减少约15%的延迟，而没有mAP损失，这表明Imagenet分类和COCO对象检测可能更喜欢不同的特征提取器形状。6.4. 语义分割在本小节中，我们使用MobileNetV2 [39]和拟议的MobileNetV3作为移动语义分割任务的网络骨干。此外，我们比较了两个分段头。第一个被称为R-ASPP，在[39]中提出。R-ASPP是Atrous空间金字塔池化模块[7，8，9]的简化设计，仅采用由1×1卷积和全局平均池化操作[29，50]组成的两个分支。在这项工作中，我们提出了另一种轻量级的分段头，称为Lite R-ASPP（或LR-ASPP），如图所示。10个。Lite R-ASPP在R-ASPP 基础上进行了改进，以类似于 Squeeze-and-Excitation模块[20]的方式部署全局平均池化，在该模块中，我们采用了一个具有大步幅的大型池化内核（以节省一些计算），并且在模块中只有一个1×1卷积我们对MobileNetV3的最后一个块应用atrous卷积[18，40，33，6]以提取更密集的特征，并进一步从低级特征添加跳过连接[30]以捕获1.15 V3：76.3h-swish@16：75.4V3：75.2h-swish@112：75.0ReLU：74.50.85 V3：non-optt：75.2MnasNedapt：75.2+Neta2影响：75。+co5.5+SE/4：7：76.1愿望：76.1+h-s+h-swish主干mAP延迟（ms）参数（M）MAdd（B）MobileNetV3分段负责人雷索卢1/41x1转换+1919语义分割1x1转换19Imagenet精度准确度，Top-1tion1x1ConvBNReLU12849x49平均池步幅=[16，20]X1x1转换S形双线性上采样128128双线性上采样1281/81/161/16V122.22285.11.3V222.11624.30.80MnasNet23.01744.880.84V322.01374.970.62V3†22.01193.220.51V20。3513.7660.930.16V20。516.6791.540.27MnasNet0. 3515.6681.020.18MnasNet0. 518.5851.680.29V3-小型16.0522.490.21V3-小型†16.1431.770.161321更多详细信息。我们在Cityscapes数据集上进行了实验[10]用度量mIOU [14]，只利用我们采用与[8，39]相同的训练方案我们所有的模型都是从头开始训练的，没有在ImageNet上进行预训练[38]，并且使用单尺度输入进行评估。与对象检测类似，我们观察到，我们可以将网络主干的最后一块中的通道减少2倍，而不会显著降低性能。我们认为这是因为主干是为 1000 类ImageNet图像分类设计的[38]，而Cityscapes上只有19类，这意味着主干中存在一些通道冗余。我们在Tab中报告Cityscapes验证集结果7 .第一次会议。如表中所示，我们观察到（1）将网络主干的最后块中的信道减少因子2显著地提高了速度，同时保持了类似的性能（行1与行2）。行2和行5与行6），（2）所提出的分段头LR-ASPP比R-ASPP [ 39 ]稍快，同时性能得到改善（行2对行6）。行3和行6与第7行），（3）将分段头中的滤波器从256减少到128提高了速度，但代价是性能稍差（第3行对行4和行7与第8行），（4）当采用相同的设置时，MobileNetV 3模型变体获得类似的性能，同时略快于MobileNetV 2对应物（第1行与第5行、第2行与第六排，第三与第7行相比，以及第4行与第7行相比。第8行），（5）MobileNetV 3-Small获得了与MobileNetV 2 -0.5类似的性能，同时速度更快，以及（6）MobileNetV 3-Small明显优于MobileNetV 2 -0.35，同时产生类似的速度。选项卡. 8显示了我们的Cityscapes测试集结果。我们使用MobileNetV3作为网络主干的分段模型的性能优于ESPNetv2 [32]、CCC2 [34]和ESPNetv1 [32]分别提高了6.4%、10.6%、12.3%，而在MAds方面更快。在MobileNetV3的最后一个块中不使用atrous卷积来提取密集特征图时，性能略有下降0.6%，但速度提高到1.98B（对于半分辨率输入），分别比ESPNetv2，CCC2和ESPNetv1此外，我们的模型与MobileNetV 3-小作为网络骨干仍然超过-执行所有这些至少有一个健康的利润率为2.1%。7.结论和今后的工作在本文中，我们介绍了MobileNetV3大和小模型展示了最新的国家的最先进的移动分类，检测和分割。我们有N骨干RF2SHFMiouParamsMAddsCPU（f）CPU（h）1V2-×25672.842.11M21.29B3.90s1.02s2V2C×25672.561.15M13.68B3.03s793ms3V2CC25672.971.02M12.83B2.98s786ms4V2CC12872.740.98M12.57B2.89s766ms5V3-×25672.643.60M18.43B3.55s906ms6V3C×25671.911.76M11.24B2.60s668ms7V3CC25672.371.63M10.33B2.55s659ms8V3CC12872.361.51M9.74B2.47s657ms910V2 0.5V2 0.35CCCC12812868.5766.830.28M0.16M4.00B2.54B1.59s1.27s415ms354ms11V3-小型CC12868.380.47M2.90B1.21s327ms表7.Cityscapesval set上的语义分割结果RF2：将最后一个块中的滤波器减少2倍。V20.5 和 V2 0.35 分别是深度乘数 = 0.5 和 0.35 的MobileNetV2SH：分段H头，其中×采用R-ASPP，而C采用建议的LR-ASPP。F：分段头中使用的滤波器数量。CPU（f）：在Pixel 3（浮点）的单个大核上测量的CPU时间w.r.t.全分辨率输入（即，1024×2048）。CPU（h）：相对于r.t.测量的CPU时间半分辨率输入（即，512×1024）。第8行和第11行是我们的MobileNetV3细分候选项。骨干OSMiouMAds（f）MAds（h）CPU（f）CPU（h）V31672.69.74B2.48B2.47s657msV33272.07.74B1.98B2.06s534msV3-小型1669.42.90B0.74B1.21s327msV3-小型3268.32.06B0.53B1.03s275Ms[32]第三十二话-66.2-2.7B--CCC2 [34]-62.0-3.15B--[31]第三十一话-60.3-4.5B--表8.Cityscapes测试集上的语义分割结果OS：输出分辨率，输入图像空间分辨率与骨干输出分辨率的比率。当OS = 16时，在主干的最后一个块中应用了无环卷积.当OS = 32时，不使用无规则卷积。MAds（f）：相乘-将测量值相加全分辨率输入（即，1024×2048）。MAdds（h）：乘-相对于r.t. 半分辨率输入（即，512×1024）。CPU（f）：在Pixel 3（浮点）的单个大核上测量的CPU时间w.r.t. 全分辨率输入（即，1024×2048）。CPU（h）：相对于r.t.测量的CPU时间半分辨率输入（即，512×1024）。ESPNet [31，32]和CCC2[34]采用半分辨率输入，而我们的模型直接采用全分辨率输入。有效的方式将它们引入到移动模型中，作为有效的工具。我们还引入了一种新形式的轻量级分段解码器，称为LR-ASPP。虽然如何最好地将自动搜索技术与人类直觉相结合仍然是一个悬而未决的问题，但我们很高兴地提出这些第一个积极的结果，并将继续改进方法作为未来的工作。描述了我们努力利用多种网络架构搜索算法以及网络设计的进步来提供下一代移动模型。我们还展示了如何适应非线性，如sw

下载后可阅读完整内容，剩余1页未读，立即下载