提高计算效率的MUXConv：多路复用网络中的信息流增加与复杂性降低

93 浏览量更新于2023-10-23 收藏 898KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1NASNet A Mobile EfficientNet B0 MixNet S MUXNet（我们的）CIFAR 2010年前10名（%）MUXConv：卷积神经网络密歇根州立大学{luzhicha，kdeb，vishnu}@msu.edu摘要近年来，卷积神经网络在计算效率上有了显著的提高. 一个关键的驱动力是贸易的想法通过1×1和深度可分离卷积的组合来代替标准卷积层，实现了非模型表达能力和效率。然而，效率的代价是次优的信息网络中的空间和通道为了克服这一限制，我们提出了MUXConv，这是一个层，旨在通过逐步多路复用网络中的信道和空间信息来增加信息流，同时降低计算复杂性。此外，为了证明MUXConv的有效性，我们将其集成到一个高效的多目标进化算法中，以搜索最优模型超参数，同时si-600500400300200100080757065605.554.543.537698977496729570949368926691准确度与参数与MAdds多方面优化精度、紧凑性和计算效率。在ImageNet上，生成的模型被称为 MUXNets ，与 Mo 的性能（75.3%的前1精度）和乘加运算（218M）相匹配。bileNetV3，同时是1.6倍更紧凑，并优于其他移动模型在所有三个标准。MUXNet还在迁移学习下以及在适应对象检测时表现良好。在ChestX-Ray 14基准测试中，其精度与最先进的水平相当，同时为3。3倍更紧凑，14倍更高效。同样，PASCAL VOC 2007的检测准确度提高了1.2%与MobileNetV2相比，速度更快，结构更紧凑6%。该代码可从https://github.com/human-analysis/MUXConv获得。1. 介绍在过去的十年中，卷积神经网络（CNN）在预测性能、紧凑性和计算效率方面经历了巨大的转变。发展主要分为两个阶段。从AlexNet [20]开始，第一波模型的重点是提高CNN的预测准确性，包括VGG [35]，GoogleNet [37]，2 3 4 5 6 7 8 9参数数量（百万）图1：准确度与紧凑性与效率：现有的网络在最多两个标准上优于其他网络。然而，在移动环境下，MUXNet模型在所有三个目标中都占主导地位。[11]、ResNeXt [43]、DenseNet [16]等。这些模型逐渐增加了3×3卷积的贡献，无论是在模型大小还是乘加运算（MAds）方面。第二波模特的焦点是提高了它们的计算效率，同时在很小程度上牺牲了精度。这类模型包括 ShuffleNet [26] ， MobileNetV 2[32]，MnasNet [38]和Mo-bileNetV 3 [12]。这种解决方案试图通过逐步替换参数来提高计算效率，并通过组合计算密集的标准卷积1×1卷积和深度可分的3×3卷积。图2描绘了相对贡献率的趋势不同层的参数和MAdd的选择。深度可分离卷积[34，4]从参数数量和计算复杂度的角度来看，都提供了显著的计算优势。这些层的一个显著特征是缺乏交互，12044t MNAImageNet Top 2001 Acc.（%）MAds（男）参数（M）ImageNet前10名（%）高效Net B1MUXNM和混合物高效ntNet B0MUXNet网络MixN等移动SNet A移动NetV3大型莫MobileNbileNetV3小型ETV2560M220M60M300MReMAdds参考1204510.5010.503x3，5x5，7x7，.conv.1x1转换线性他人网络中的层。搜索同时优化三个目标，即预测精度，模型的compactness和模型效率的MAds。为了提高搜索过程的效率，我们将多目标优化问题分解为一系列单目标优化子问题，这些子问题依次同时和协同优化。我们将由此产生的CNN家族称为MUXNet。贡献：我们首先开发了一个新的层，称为 MUX-Conv，它在空间上和跨通道复用信息流，同时提高计算效率。深度方向可分离和1×1卷积的等价组合。然后，我们开发了第一个多目标图2：CNN设计中不同层的相对贡献参数（顶部）和MAdd（底部）。最初的模型主要依赖于标准卷积层。另一方面，最近的网络在很大程度上依赖于1×1卷积和线性层。相比之下，MUXNet在一定程度上扭转了这一趋势。信息在渠道中的传播。这种限制通过1×1卷积来克服，这是一个允许跨通道交互和信息流的层深度方向可分离和1×1卷积的结合充分完成了空间和通道输入的任务地层流分别进入两个独立且有效的层。另一方面，标准卷积层将空间和信道信息流耦合到单个但计算效率低下的层中。因此，前者取代后者成为CNN设计的主力在本文中，我们寻求一种替代方法来权衡卷积层的表达能力和效率。我们引入了MUXConv，这是一个利用深度或分组卷积层效率的层，以及一种增强网络中信息流的机制。MUXConv通过两个组件实现这一点，空间复用和信道复用。空间复用通过空间混洗在多个尺度上提取特征信息，通过深度或分组卷积处理这些信息信道复用受到Shuff-fleNet [26]的启发，并且被设计为通过混洗信道来解决深度/组卷积的限制，即缺乏跨信道/信道组的信息流。洗牌过程和我们在洗牌通道上执行的操作是由计算效率驱动的，与ShuffleNet有很大不同。总的来说，这两个组件在空间上和跨通道上增加了信息流，同时减轻了层的计算负担。为了进一步实现MUXConv在权衡精度和计算效率方面的全部潜力，我们提出了一种基于种群的进化算法来有效地搜索每个MUXConv神经结构搜索（ NAS ）算法，以同时优化使用MUXConv作为基本构建块设计的MUXNet的紧凑性、效率和准确性。我们提出了全面的实验评估，证明了MUXNet的每个组件在多个任务中的有效性和价值，包括图像分类（ImageNet），对象检测（PASCALVOC 2007）和迁移学习（CIFAR-10，CIFAR-100，ChestX-Ray 14）。我们的研究结果表明，与所有现有解决方案中的传统智慧不同，设计CNN是可行的，它不会为了效率而牺牲紧凑性，反之亦然，以寻求更好的预测性能。2. 相关工作许多CNN架构都是通过优化不同的目标来开发的，例如模型紧凑性，计算效率或预测性能。简单地说，我们把解决方案分成几个主要的主题.多尺度和洗牌：CNN中多尺度处理的概念已经以不同的形式和在各种上下文中被利用。这些包括用于对象检测[2，21]和图像分类[14]的多分辨率特征图的显式处理以及具有内置多尺度处理的计算块[3，9]。这些方法的重点是预测性能，因此面向大规模模型。相比之下，多尺度处理在MUX- Conv的动机是增强信息流的小规模模型部署在资源受限的环境中。值得注意的是，MUXConv通过类似于[33]中的子像素卷积的像素重排操作来缩放特征图MUX-Conv的信道混洗组件由[47，26]激发。移动架构：已经为移动设置开发了许多CNN架构。其中包括SqueezeNet [18]、MobileNet [13]、MobileNetV2 [32]、Mo-bileNetV3 [12]、ShuffleNet [47]、ShuffleNetV2 [26]和CondenseNet [15]。这项工作的重点在很大程度上是优化两个目标，要么准确性和紧凑性，要么准确性和效率，从而产生MAdds参数12046R2在高效或紧凑的模型中，但不是两者兼而有之。相比之下，MUXNet被设计为同时优化所有三个目标，紧凑性，效率和准确性，因此导致同时紧凑和高效的模型。神经架构搜索：搜索良好神经架构的自动化方法已被证明在寻找计算块方面非常有效，这些计算块不仅表现出高预测性能，而且还可以推广并转移到其他任务。大多数方法-[22]《明史》：“明者，明也，明者，明也。2空间到通道逐组转换（一）baNet [30]和MixNet [40]针对单一目标进行优化，即预测性能。最近的几种方法， LEMONADE [7] ，NSGANet [25]，si-（b）第（1）款22（c）第（1）款多目标优化针对多个目标的网络，包括参数、MAds、延迟和准确性。然而，只有小规模的数据集，如CIFAR- 10的结果证明在这两种方法。同时，许多CNN架构，如ProxylessNAS [1]，MnasNet [38]，ChamNet[5]和FBNet [5]，已被设计为针对特定的计算平台，如移动，CPU和GPU。与上述NAS方法相比，我们采用混合搜索策略，其中基本计算块MUXConv是手工设计的，而网络中每个MUXConv层的超参数通过基于种群的进化算法直接在大规模数据集上搜索3. 多重卷积复用卷积层称为MUXConv，是两个组件的组合：（1）空间多路复用，其增强网络的表现力和预测性能，以及（2）信道多路复用，其有助于降低模型的计算复杂性。图3：（a）空间复用操作的概述。(b)亚像素操作将空间信息复用到通道中。(c)超像素操作将通道复用为空间信息。相应的子像素和超像素操作。该过程的图示如图所示。3a.总的来说，子像素和超像素操作允许多尺度空间信息跨通道流动。我们注意到，现有方法中的多尺度处理的标准思想，多尺度特征表示或具有较大接收域的内核相反，MUXConv试图通过像素操作来利用层内的多尺度信息。正如我们在第6节中所展示的，这种操作显著提高了网络的准确性，特别是当它们变得更加紧凑时。我们对子像素复用操作进行参数化（见图11）。3b）通过r，并定义大小为r × r的窗口和步幅。窗口中的特征被映射到r2个通道，每个窗口对应于通道中的唯一总的来说，亚像素操作映射第一组通道特征的大小C1×H×W到大小为r2C1×H×W的特征。在那里-3.1. 空间复用r r标准卷积层的表现力源于空间上和跨通道的信息流。空间复用被设计为模仿这种特性，同时减轻其计算复杂性。其关键思想是将多尺度的空间信息映射到通道中，反之亦然。具体来说，给定一个特征图x ∈RC×H×W，其中C是通道数，H是特征图的高度，W是特征图的宽度，信道被分组为三组（ C1 ， C2 ， C3 ）信道，使得C=C1+C2+C3。第一和第三组通道分别经受子像素和超像素复用操作。然后，通过在三个组中的每一个上定义的逐组卷积操作来处理多路复用的通道。通过反转，将群卷积的输出特征映射回与输入特征映射相同的维度因此，子像素操作使得能够缩小空间信息。形成将与信道信息多路复用并且通过在该组上的标准卷积联合这两种操作的组合有效地将卷积的感受野增加了r倍。我们定义了超像素复用操作（参见图1B）。3c）作为子像素复用的逆。它由r2参数化，r 2对应于将在空间上多路复用成单个信道的信道数量来自r2通道的特定位置处的特征值被映射到输出特征图中的唯一窗口。总体上，超像素操作将尺寸为C3×H×W的第三组通道特征映射到尺寸为C3 ×rH×rW。因此，超像素操作en-使通道信息能够与放大的空间信息，并通过在该组上的标准卷积来联合处理两者的结合--24224通道到空间12047i=1¨¨我||W||1m副本副本与深度可分离卷积相反，分组的计算负担。频道切换：在选择性处理操作之后，我们以固定模式对输出特征图的通道进行混洗。从未处理和已处理通道中选择的替代通道被交织。4. 三目标超参数搜索图4：两个通道复用层的图示。在每一层中，一半的通道按原样传播，而另一半通道被处理通过空间复用操作。来自两个组的信道然后如索引所表示的那样交织。颜色强度去注释通道被处理的次数.有效地将卷积的感受野减小因子r。我们的超像素操作与平铺卷积的概念相似[27]，这是局部连接层的一种特定实现。这个想法对于图像超分辨率也特别有效[33]。设计CNN通常涉及许多对模型性能产生重大影响的超参数。为了实现MUXNet的全部潜力，我们寻求在网络的每一层中搜索最佳超参数。由于MUXConv的主要设计动机是在降低计算复杂性的同时增加模型表达能力，因此我们提出了一种多目标超参数搜索算法，以同时优化准确性、紧凑性和效率。这可以表述为，以“子像素”卷积的形式3.2.信道复用minimize F（x）=subject tox∈N，.ΣTf1（x），· · ·，fm（x），（一）虽然上述空间复用操作在我们的上下文中，[ai，bi]Rn是hy-虽然它是有效的，但它仍然受到一些限制。首先，空间复用中的群卷积比它们所取代的深度可分离卷积在计算上更昂贵。其次，群卷积的解耦性质不允许信息在群之间流动。通道复用操作被设计为通过减少空间复用的计算负担并进一步增强跨特征图通道的信息流来减轻这些缺点。这是实现在两个阶段，选择性的处理，ING和通道洗牌。整个操作的图示如图所示。4.第一章总体而言，信道复用操作在精神上类似于ShuffleNet [47]和Shuf-fleNetV 2 [26]，但具有显著的变化;（1）ShuffleNet使用shuffling来共享在不同组中处理的频道信息，而我们使用shuffling来混合原始和处理后的频道信息。(2)虽然ShuffleNetV2总是将输入通道分成两半，但我们将其视为针对每一层搜索的超参数，并且（3）ShuffleNetV2中通过反向残留瓶颈块处理ShuffleNetV2中的混洗通道，而不是我们的情况下的空间复用。选择性处理：我们只处理一部分-预参数决策空间，其中ai，bi是较低的，上界，x=（ x1，. . .，xn）T∈R是一个候选超参数集，F：R → Rm构成m个竞争目标，即. 预测误差，模型大小，模型无效，科学等等，Rm是目标空间。随着目标数量的增加，近似整个Pareto曲面所需的解的数量呈指数增长[6]，在大多数情况下，全局搜索是不实际的。为了克服这一挑战，我们提出了一个参考引导超参数搜索。而不是跨越整个搜索空间，我们集中的超参数搜索到附近的几个所需的用户定义的偏好。这一概念的说明如图所示。5a.例如，在我们的上下文中，这可以对应于不同的期望精度目标和硬件规格。这种思想使我们能够将三目标问题分解为多个单目标子问题。我们采用基于惩罚的边界相交（PBI）方法[46]将多个目标缩放为单个目标，最小化gpbi（x| w，z（？）= d1+ θd2（二）受x ∈N，通过空间复用块放置信道具体而言，输入特征图中的C通道被分成两个其中d2=¨。¨<$F（x）−z<$W1||W||Σ¨¨，d1=具有C1和C2通道的组，使得C=C1+C2。第一组信道按原样传播，而第二组信道通过空间多路复用处理。该方案立即增加了紧凑性和效率。||， z ∈ = （ z ∈ ，.||, z∗= (z∗, . . .，z<$）T是理想目标向量，其中z<$

下载后可阅读完整内容，剩余1页未读，立即下载