稀疏移位层网络可用于图像分类

97 浏览量更新于2023-10-19 收藏 793KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1你所需要的只是一些转变：设计用于图像分类的高效卷积神经陈伟杰，谢迪，张元，蒲世良海康威视研究院，杭州，中国{chenweijie5，xiedi，zhangyuan，pushiliang}@ hikvision.com摘要移位操作是深度可分离卷积的有效替代方案。然而，它的实现方式，即内存移动，仍然是瓶颈。为了实现这一目标，本文引入了一种新的基本构件--稀疏移位层（SSL）来构造高效的卷积神经网络。在这一系列架构中，基本块仅由1x1卷积层组成，只有少数移位操作应用于中间特征图。为了使这一想法可行，我们在优化过程中引入了移位操作惩罚，并进一步提出了一种量化感知的移位学习方法，以使学习到的位移更有利于推理。广泛的消融研究表明，只有少数移位操作足以提供空间信息通信。此外，为了最大限度地发挥SSL的作用，我们重新设计了一种改进的网络结构，以充分利用有限的能力的神经网络（FE-Net）。配备SSL，该网络可以在ImageNet上实现 75.0%的top-1准确率，只需5.63亿M-Adds。它在精度和实际速度上都超过了由深度可分离卷积构造的同类网络和NAS搜索的网络1. 介绍由于卷积神经网络（CNN）的惊人性能，将CNN应用于实际应用场景成为一个大趋势。然而，它受到其大量计算成本和存储的阻碍（a）分组换档（b）主动换档（c）稀疏移位图1.应用于特征地图的不同移位操作的比较。设计轻量级架构，如MobileNet [10]和ShuffleNet [40]。尽管它的浮点运算（FLOPs）较低，但由于碎片化的内存占用，在实践中实现效率低下。为了跳出依赖可分卷积的约束，ShiftNet[37]提出另一种替代方案，例如移位操作，以构建与逐点卷积合作的体系结构在该网络中，移位操作通过移位特征映射提供空间信息通信，这使得随后的逐点卷积层不仅可用于信道信息聚合，而且可用于空间信息聚合。为了比较这两个基本组件，我们对ShiftNet的每个基本组件的占用时间进行了分解，这激励了许多研究人员和工程师对这个问题的讨论。解决这个问题的有效方法之一是直接设计精确而紧凑的神经网络架构。设计良好的网络拓扑结构以及硬件友好的基本组件可以带来令人惊讶的突破。近年来，一种流行的基本成分--独立可分卷积受到人们的欢迎内存受限的计算平台。如图2（a）和（b）所示，移位运算在CPU上占用3.6%的运行时间，但在GPU上占用28.1%，这表明移位运算由于内存移动而在内存受限的计算平台上仍然占用相当大的运行时间。至于深度可分离卷积，在MobileNetV2中，它占用了大约36%的GPU运行时间。然而，在两个不同的architec中比较这两个组件是不公平的72417242（a）（b）（c）（d）（e）图2.实际运行时分析。为了进行清晰的比较，忽略了批量归一化和ReLU层，因为它们可以合并到卷积层中进行推理。这里也不考虑数据馈送和预处理时间。结果在Caffe下用小批量32实现。它们是100次运行的平均值（a）在CPU（Intel Xeon E5-2650，atlas）上的ShiftNet-A [37]（b）GPU上的ShiftNet-A（TITAN X Pascal，CUDA 8和cuDNN 5）。（c）ShiftNet-A中的移位层被可分离卷积层取代(d)核大小为5的依赖可分离卷积层被核大小为3的卷积层取代。(e)ShiftNet-A在GPU上具有80%的移位稀疏性（移位稀疏性表示未移位特征图的比率）。真的。为了公平的比较，我们使用与ShiftNet相同的架构，只使用dependency可分离卷积代替移位运算如图2（c）所示，它占用了GPU上 79.2%的运行时间，这与其理论FLOP严重不匹配。从这一点来看，移位运算明显优于深度可分卷积.此外，移位运算的另一个吸引人的特点是其计算成本与核大小无关，而独立可分卷积的实际运行时间受核大小的强烈影响如图2（c）和（d）所示，在将内核大小从51减少到3之后，依赖可分离卷积的占用运行时间降低到62.1%。尽管移位运算在实际运行时间方面优于可分离卷积，但它仍然受到其实现的检验，即内存移动。这里自然会产生一个问题，每一次移位操作真的有必要吗？如果消除无意义的移位，则可以减少那些移动的记忆。带着这个问题，我们对移位运算作了进一步的研究为了抑制冗余移位操作，在优化过程中加入惩罚我们惊奇地发现，几个移位操作实际上足以提供空间信息通信。它可以通过移动一小部分特征图来提供相当的性能。我们将这种类型的移位层命名为稀疏移位层（SSL），以区别于图1所示的其他类型的移位层。如图2（e）所示，引入稀疏性后，可以显著减少移位操作的占用时间。SSL的前提是保证换档操作的可学习性.常用的解决方法是将位移从整数松弛到实值，将移位运算松弛到双线性插值，使其可微[16]。然而，内插不能带来移位运算那样的推理效果.借用QNN [13]的思想，我们提出1在ShiftNet中，有11个移位层，内核大小为5。一种量化感知移位学习方法，使移位运算可微分，同时避免推理期间的内插在设计紧凑的网络架构时，一个简单的指导方针是确保信息流，同时保持特征图的多样性。我们希望它能在有限的特征空间中包含尽可能丰富的标签相关信息。然而，特征图通常倾向于折叠成一个小的子集，这并没有充分利用有限的特征空间。为了缓解这个问题，我们设计了一个新的网络架构FE-Net，如图3所示，它涉及到计算的特征映射，随着层的增加，逐步施加多样性，同时避免冗余的开销。本文主要在图像分类基准上进行实验.对CIFAR-10和CIFAR 100的广泛消融研究验证了SSL的影响。此外，我们进行了实验上的大规模图像分类数据集ImageNet，以确认SSL的效率和推广。随着网络架构的改进，我们大大超过了ShiftNet和AS-ResNet [16]。值得强调的是，我们的网络甚至超过了其他由深度可分离卷积组成的网络。我们在ImageNet上实现了75.0%的top-1准确率，具有563 MM-Adds。这是第一次紧凑的网络可以实现这样的高精度在这个水平的计算成本，而不使用可分离的卷积。以适当的方式配备Squeeze-and-Excitation模块[11]，我们的网络可以进一步提高到76.5%的top-1精度，具有566 MM-Adds。我们的主要贡献概括如下：• 引入了一个名为稀疏移位层的新的基本组件来构建快速准确的神经网络，可以消除无意义的记忆移动。除此之外，通过广泛的消融研究，我们发现只需少量移位操作就足够了提供空间信息通信，7243将激发更多的探索在紧凑的神经网络的发展。• 提出了一种量化感知的移位学习方法，在保证移位运算可学习的同时避免了推理过程中的插值。• 为了充分利用有限的特征空间，设计了一种改进的紧凑网络结构.将其与SSL相结合，我们实现了状态-现有技术在准确性和推理速度方面产生分类基准2. 相关作品在过去的几年里，越来越多的方法被提出来减轻神经网络的存储，计算和实际推理时间，同时保持其强大的性能。我们从是否给出预训练模型的角度将这些相关方法分为以下两部分2.1. 神经网络压缩要将给定的预训练模型压缩成轻量级模型，有四种不同的方法：1）剪枝[6，20，5，35，21，27，8，25，24，1，2]旨在去除不重要的参数并将权重矩阵变为稀疏矩阵。2）张量分解[3，15，19，17，36，34]利用权重矩阵的信道或空间冗余，并寻求它们的低秩近似。3)量化[4，13，28]采用低位而不是每个权重参数的浮点表示4)知识蒸馏[9，31]将知识从教师模型转移到轻量级学生模型。这些方法可以有效地将神经网络压缩成小的网络。然而，它们的性能在很大程度上取决于给定的预训练模型。如果不改进体系结构，准确性就不能更进一步。2.2. 紧凑型网络开发如何设计一个紧凑的神经网络结构是近年来的一个热门研究课题。一些相关的工作[14，39]使用群卷积来构造紧凑网络。的网络可以通过将该操作与逐点卷积交织来构造。在此之前，将随机移位操作[42]应用于池化层以增强网络的泛化，作为数据增强的替代方案[16]提出了一种使移位操作可学习的方法，这意味着每一层的感受野可以自动学习存在的问题是，由于该操作是通过内存移动来实现的，因此仍然占用了相当多的推理时间这正是本文所要解决的问题。3. 背景我们首先回顾一下标准轮班操作，其公式如下：Oc，i，j=Ic，i+αc，j+βc（1）其中I和O是输入和输出特征图，re-map。c是信道索引。i和j表示空间位置。αc和βc表示分配给第c个输入特征图的水平和垂直位移。α和β的参数数分别相当于输入特征映射的通道数，与卷积层的参数相比几乎可以忽略不计。分组轮班。在[37]的工作中，对于核大小为K的移位操作，输入特征图被均匀地划分为K2组，每组被分配一个位移，如图1（a）所示。该位移分配可以用公式表示如下：αc= c/K2/K−K/ 2，βc=c/K2 modK−K/2，（2）式中，φ·φ表示地板函数。然而，启发式分配不是任务驱动的。每个移位操作的核大小是通过大量的试错实验来设置的，并且位移的均匀分布通常不适合于每一项任务。主动换档。为解决这一问题，[16]提出了一种使α和β可微的方法，该方法将α和β的整数约束放松为实值，并放松移位操作到双线性插值。以这种方式，等式1可以被放宽如下：Σ最著名的作品，MobileNet [10]，采用了依赖性，Oc，i，j=Ic，n，m·（1−|i+αc−n|）（1−|j+βc−m|）（3）可耕种的回旋，以建立一个准确和轻量级的网-工作，这在这一领域向前迈进了一大步。此后，许多研究人员遵循这些工作并设计更紧凑和强大的架构，如Shuf-fleNet，MobileNetV 2，ShuffleNetV 2，IGCV 2等[40，30，26，38]。然而，尽管可分离卷积仅需要很少的理论计算量，但由于运算强度太低，在实际中难以有效地实现。[37]提供了一种替代的命名为移位操作，其仅移位特征图而不进行计算。紧凑（n，m）∈N其中，n是（i+αc，j+βc）的由四个最近的整数点组成的邻域集。因此，α和β可以通过反向传播由梯度下降优化器自适应地优化。图1（b）说明了这种换档模式4. 用少量位移在文献[16，37]中证明了移位操作可以为空间信息计算提供感受野7244†††在ConvNets中通信。然而，并不是每个特征图都需要移位。冗余的移位操作会带来冗余的内存移动，进而影响神经网络的推理时间。从这一点出发，我们在本节中开发了一种方法来构建高效的ConvNets反向传播与前馈阶段不同，需要实值移位来计算它们的梯度，并通过随机梯度下降（SGD）进行优化。根据公式3，损耗相对于α和β的梯度公式如下：更少的转移操作。4.1. 稀疏化移位操作卢卢夫阿吉尔 =αΣIc，n，m·cijc，i，j（n，m）∈为了避免无意义的记忆移动，我们添加了dis-（1− |j + βc− m|）·Sign（n − i − αc）放置惩罚以消除损失函数中无用的移位操作。此外，它可以避免移位学习的扩散，因为大的位移将在-卢卢夫Σh=βcijLc，i，jΣ（n，m）∈NIc，n，m·（六）地层损失，特别是对于那些具有较低分辨率为此，我们将L1正则化添加到α和β惩罚冗余移位，其公式如下：Σ（1− |i + αc− n|）·Sign（m-j-βc）其中w和h是输入特征图的空间大小。Sign（·）是一个函数，根据下式输出+1或-1：L总计=（x，y）L（f（x |W，α，β），y）+ λR（α，β）R（α，β）=<$α <$1+<$β<$1（四）输入值的符号。为了将关于特征图的损失梯度从高层反向传播到浅层，其中（x，y）是输入数据及其对应的标签，W表示除α和β之外的可训练参数，f（·）输出预测标签，L（·）是神经网络的损失函数，λ平衡这两项。等式3和等式5都用于计算偏导数。考虑等式5是我们应用的实际前馈过程，而不是等式3。采用公式5计算梯度更合理有效，公式为：有了这样的稀疏诱导惩罚，我们可以采用最小-记忆移动，以建立一个准确和快速的神经网络。我们将这种新的分量命名为稀疏移位Lc，i，jL=Oc，i−|αc|，j−|βc|（七）层（SSL），其在图1（c）中示出，以区别于先前的移位操作。4.2. 量化感知移位学习尽管引入了灵活性和稀疏性，一些问题仍然没有解决。虽然为了学习移位运算，将α和β的整数约束放宽到实值，但由于插值仍需要多次运算，而标准移位运算在推理时只需要进行一定的平移，这在一定程度上受训练量化神经网络[13]方法的启发，我们提出了一种量化感知的移位学习方法，使这些问题变得易于处理。在这种方法中，我们的目标是在前馈过程中将位移恢复到整数，同时保持换档操作仍然是可学习的。前馈我们使用α和β的整数近似来恢复移位操作而不是插值，其可以公式化如下：Oc，i，j= Ic，i+|αc|， j+|βc|（五）与等式5相比，这是逆存储器移动讨论训练后，保持了位移的舍入近似，推理时只执行移位操作。此外，该方法还4.3. 网络架构改进网络容量并不总是得到充分利用。正如跨通道分解[41]的工作中所展示的那样，特征图通常倾向于折叠成一个小的子集。从这个角度来看，并不是每个特征图都需要参与下一层的卷积。根据这一认识，我们重新设计了一种改进的网络结构来缓解这一问题。网络架构。在本节中，我们提出了一个由图3所示在此块中，只有要素的子集映射参与计算，其余映射直接传播到下一层，以保证信息流动，其公式如下：哪里|·|†表示实值的舍入近似I1、I2、IO=f（I1）I2（八）这样，等式3实际上被转换回等式1通过量化，也就是说我们用移位运算代替插值来计算网络的损耗。其中I和O表示输入和输出特征图。表示按通道拆分，†72452n−1BN1x1转换G1G2公司简G2公司简G1G2公司简G1公司简G2G1输入特征图单尺度特征地图两尺度混合特征映射三尺度混合特征映射计算单元图3.完全开发的计算块（FE块）。在每个阶段，只有一个特征图子集参与优化默认值，这意味着第一个1×1 Conv始终用于将输入通道扩展6倍。结合先进的在残差学习[7]的各个阶段中，对于图3所示的每个计算块，除了最后一个计算单元之外，我们主要采用图4（b）作为基本计算单元。对于每个计算块的最后一个计算单元，我们使用图4（a）来改变下一个计算块的通道号，或者使用图4（c）进行空间下采样。5. 实验在本节中，我们首先对CIFAR10和CIFAR100 [18]进行了几次消融实验，以证明SSL的效果。在这些实验中，我们证明了它足以提供空间信息通信，基本计算单位对于每种分辨率，特征图随着层的增加而逐渐混合对于一个计算机-如图所示，我们将输入特征图均匀地分为2个n-1部分，并涉及2个l-1（l=1，. . .，n）特征映射到优化的每一层。在本文中，计算单元被实现为倒置瓶颈[30]。构建紧凑的ConvNets，只需几个移位操作。然后我们在ILSVRC-2012 [29]上进行实验，以评估其对大规模数据集的泛化能力。5.1. 基准和培训设置CIFAR 10/CIFAR 100 [18]分别是10类和100类图像分类的数据集。它们都包含50k张用于训练的图像和10k张用于测试的图像，分辨率为32 ×32。在CIFAR的实验中，我们选择了ShiftResNet[37] 它是由CSC模块构建的，用于评估BN+ReLUSSL(a) IB-SSL(b) Res-IB-SSLU(c) IB池的 SSL 。注意， CSC 模块由夹在用于维度上升的1×1Conv层和用于维度下降的1×1Conv层仅利用此模块中的偏移图层进行空间信息交流。用SSL代替移位层，通过调整公式4中的超参数λ，我们研究了至少需要多少次移位操作才能保持ShiftResNet的性能。图4. FE-Block的基本计算单元。(a)：无跳接的基本单元;（b）：具有跳接的基本单元;（c）：空间下采样的基本单位（2×）。请注意，在（a）和（b）中，SSL提供了感受野。(IB是倒置瓶颈的缩写。）连接在实践中，这种计算模式可以实现效率，因为I1加入到计算和它的输出f（I1）被重写回I1的原始存储器位置。其余的特征图I2不需要任何操作。随着层的增加，我们将更多的特征映射混合到计算中。最后对输入的每一个特征图进行优化，得到多尺度特征图进行预测。我们在第5.4节中实证地证明了它的有效性。基本计算单位。在本文中，我们采用反向瓶颈[30]作为基本计算单元来构建如图4所示的高效网络。在没有任何特殊声明的情况下，它们的膨胀率总是被设置为6，我们使用扩展率为6的ShiftResNet-20和ShiftResNet-56作为消融研究的两个我们用两个GPU训练这些网络，小批量为128，基本学习率为0.1。与[37]相同，在32k和48k次迭代后，学习速率衰减10倍，并且在64k次迭代后停止训练。具体来说，我们在48k次迭代后停止SSL的训练，以修复学习到的移位模式。对于数据增强，仅采用水平翻转和随机裁剪。我们在下面的实验中使用L2正则化来移动值，因为我们发现L2正则化的结果略好于L1。ImageNet2012[29]是一个大规模的图像分类基准，有128万张图像用于训练，5万张图像用于验证。众所周知，在这样的大规模数据集上使用轻量级的神经网络。为了进一步提高使用SSL构建的网络的性能，我们重新设计了如图3所示的神经网络架构，以充分利用有限的网络容量。BN+ReLUBN+1x1转换SSL1x1转换1x1转换1x1转换BN+ReL2x2平均池（stride=2）1x1转换BN7246深度网络λ精度CIFAR10 /CIFAR100参数/浮点数移位稀疏CIFAR10 /CIFAR10020ResNet [37]-91.4% /66.3%0.27米/81米-[37]第37话：我的世界-90.6% /68.6%0.16米/53米百分之十一点一ShiftResNet（SSL）091.7% /69.2%12.1% /10.3%1e-491.1% /69.2%66.6% /41.2%4e-490.4% /67.7%91.7% /80.0%5e-489.8% /67.7%93.5% /86.1%ShiftResNet（仅限1x1）-81.5% /56.7%百分百56ResNet [37]-92.0% /69.3%0.86米/251米-[37]第37话：我的世界-92.7% /72.1%0.55米/166米百分之十一点一ShiftResNet（SSL）093.8% /72.4%12.8% /11.4%1e-492.9% /71.7%87.8% /73.8%4e-491.9% /71.1%97.4% /94.6%5e-491.8% /69.9%98.0% /96.1%ShiftResNet（仅限1x1）-82.5% /56.1%百分百表1.CIFAR10和CIFAR100的SSL分析在ImageNet上的实验中，我们使用SGD训练网络，小批量为1024，权重衰减为0.00004，动量为0.9。训练以0.6的学习率和线性衰减策略开始，并在480个epoch后停止整个训练迭代与[32，22，30，26]相当对于数据增强，我们将图像的短边缩放到256，采用224×224随机裁剪和水平翻转来扩充训练数据集。此外，为了进一步丰富训练图像，提供更多的失真图像，如在Inception训练中使用的那样[33，10]。但它将在最后几个纪元被在验证阶段，我们只集中裁剪喂养大小调整为224×224的图像，并提出了单视图的方法的结果。5.2. 消融研究我们从三个方面探讨SSL的特性(i)分组移位与稀疏移位;（ii）深度网络与浅网络;（iii）λ的设置。分组移位与稀疏移位如表1所示，在没有移位惩罚的情况下，移位学习的结果优于CIFAR 10和CI-FAR100上的启发式设置的结果。通过移位学习，网络可以自适应-根据不同的任务和不同的数据集，灵活地调整移位操作的位移和方向通过引入移位惩罚，可以在保证网络精度与原网络相当的前提下，消除大部分移位操作即使移位操作的稀疏度超过90%，网络也能保持相当好的性能，这表明只有少数移位操作在图像分类的空间信息通信中起着至关重要的作用深度网络与浅层网络我们分析了SSL在CIFAR10/CIFAR 100上的稀疏性，低网络和更深的网络，比如 ShiftResNet-20 和ShiftResNet-56。如表1所示，ShiftResNet-56上的移位稀疏性大于 ShiftResNet-20 。它可以在 CIFAR10/CIFAR 100上提供良好的性能，在ShiftResNet-56上甚至增加深度会在移位层中带来更多冗余。λ的不同设置。我们将λ从0增加到5e- 4，发现大部分的移位运算被逐步消除，而网络的精度下降了点这里，SSL（λ=0）实际上等同于量化感知的主动移位。当我们显著增加λ时，我们将所有位移收缩为零，这意味着基本模块都由1×1 Conv层组成，网络中只有三个池化层提供空间信息。沟通。在这种情况下，准确性下降了很多，这从另一个侧面反映了这样的一些变化确实对空间信息通信有很大的影响。让我们以CIFAR 100上的ShiftResNet-56为例。该算法的准确率从56.1%提高到69.9%，而特征图的移动量仅为3.9%。5.3. 为例我们在CIFAR 10和CIFAR 100上使用ShiftResNet-20，λ= 5e-4进行更详细的研究。在表2中，我们详细显示了在一些块中，几乎所有的特征图都保持未移动，这表明这些位置中的移动层不重要。实际上，移位层的稀疏性可以作为衡量这些层的重要性的度量它可以决定哪些移位层是不重要的，并且可以在不降低精度的情况下被移除。例如，块2 1中的移位层是最不重要的，而块2 2中的移位层在ShiftResNet-20中是最重要的。我们把块2 2中的移位层用于可视化，如图5所示尽管少校-7247稀疏学习(a) （b）结果图5. CIFAR 100上ShiftResNet-20块2 2中每个点的面积x轴和y轴分别表示水平和垂直位移。(Best颜色显示）块CIFAR10CIFAR100不轮班/渠道移位稀疏性不轮班/渠道移位稀疏性块1 1九三/九六96.9%82 /9685.4%块1 287 /96百分之九十点六84 /9687.5%块1 3九四/九六97.9%92 /96百分之九十五点八块2 1九六/九六百分百九六/九六百分百块2 2161 /192百分之八十三点九146 /19276.0%块2 3181 /19294.3%164 /19285.4%块3 1190 /192百分之九十九189 /192百分之九十八点四块3 2331 /384百分之八十六点二316 /384百分之八十二点三块3 3382 /384百分之九十九点五319 /384百分之八十三点一总1615 /1728百分之九十三点五1488 /172886.1%表2.ShiftResNet-20（λ =0. 0005）在CIFAR10和CIFAR100上。删除了移位层编号（ShiftResNet20-SSL，λ=0）精度CIFAR10/CIFAR100091.7% /69.2%491.5% /68.2%691.4% /67.0%889.4% /66.0%9（全部删除）81.5% /56.7%表3.ShiftResNet-20在CIFAR 10和CI-FAR 100上去除最不重要的移位层后的性能如果一部分通道保持不变，其余的通道可以学习有意义的转换模式，并提供多个感受野。实际上，与逐点卷积合作的移位层可以扮演Inception模块的角色。这也是移位层相对于传统卷积层的主要优点。为了进一步分析，我们使用ShiftResNet-20在CIFAR 10和CIFAR 100上进行了几次实验，根据表2中的稀疏性删除了最不重要的移位层如表3所示，当我们逐步去除最不重要的移位层时，7248表4.网络配置。t表示膨胀率。n表示FE块的计算单元数。c表示输出通道。S是步幅的意思。网络MAdds ParamsTop-1[10]第十届全国人大代表325M2.6M百分之六十八点四[30]第三十话300M3.4M72.0%ShuffleNetV1 1.5x（g=3）[40]292M3.4M69.0%[26]第二十六话299M3.5M百分之七十二点六IGCV3-D [32]318M3.6M72.2%（G=C=8）[12]274M2.9M71.0%ShiftNet-B [37]371M1.1M百分之六十一点二AS-ResNet-w50 [16]404M1.96M百分之六十九点九FE-Net（我们的）1.0x301M3.7M百分之七十二点九[10]第十届全国人大代表569M4.2M70.6%[30]第三十话585M6.9M百分之七十四点七[40]第四十话524M5.4M百分之七十点九[26]第二十六话591M7.4M74.9%IGCV3-D 1.4x[32]610M7.2M74.55%[12]第12话第12话第12话529M4.8M百分之七十三点八PNASNet[22]588M5.1M百分之七十四点二DARTS [23]595M4.9M73.1%ShiftNet-A [37]1400M4.1M百分之七十点一AS-ResNet-w68 [16]729M3.42M72.2%FE-Net（我们的）1.375x5.63亿5.9M百分之七十五点零表5. ImageNet上几种紧凑型神经架构的性能比较牧师的职位只下降了一点点即使在块2 2中只保留一个移位层，精度仍然保持在相当高的水平。5.4. ImageNet上的性能我们为ImageNet 2012分类任务重新设计的网络架构如表4所示，主要由配备SSL的FE-Block组成。我们使用宽度乘数作为超参数来调整精度和计算成本之间的权衡。输入操作者不nCS2242× 3conv3×3+BN--1621122× 16IB-SSL4-1611122× 16IB-合并液2×25-322562× 32FE-块63642282× 64FE-块641282142× 128FE-块641281142× 128FE-块64256272× 256FE-块63256172× 256conv1×1+BN+ReLU--1380172× 1380GAP7×7--1380-12× 1380辍学率0.2--1380-12× 1380Conv1×1--1000172491x1转换频道关注1x1转换SE与其他同行的比较。如表5所示，随着网络架构的改进，我们的结果大大超过了ShiftNet和AS-ResNet更重要的我们是第一个建立一个紧凑的神经网络，而不使用深度可分离卷积，可以实现优于其他同行的深度可分离卷积。如表 5 所示，我们的网络超过了MobileNet系列网络和Shuf-fleNet系列网络，以及通过NAS技术自动搜索的网络[22，23]，表明网络Top1Top5GPUCPUFE-Net百分之七十二点九91.2%16.1ms1.9sMobileNetV2（DW）72.0%-21.4ms2.9sFE-Net（DW）百分之七十三点二百分之九十一点四21.8ms2.7sFE-Net 1.375x百分之七十五点零92.4%23.1ms3.8sMobileNetV2 1.4x（DW）百分之七十四点七-30.6ms5.8sFE-Net 1.375x（DW）百分之七十五点二92.8%30.4ms5.3s表6.移位操作FE-Net（SSL）与ImageNet上的深度卷积（DW）（batchsize 32）。SSL可以作为依赖可分离卷积的替代选择。这为NAS提供了一个新的基本组成部分，并在此方面进行了进一步的探索。在实际运行时间方面，我们主要将我们的网络与最具代表性的可分离卷积紧致网络MobileNetV2进行了比较。如表6所示，我们的网络实现了更高的准确性，推理时间明显更快。BN+ReLUSSLBN(a) SE V1BN+ReLU频道关注SSLSEBN(b) SE V2GPU和CPU，这证明SSL对于实际应用场景来说是一个更友好的基础组件。FE-Net的消融研究。我们还在ImageNet上训练了配备了依赖可分离卷积（DW）的FE- Nets，以便从改进的网络设计中分解SSL的好处。如表6所示，SSL和基于DW的 FE-Net之间的准确性差距很小，而实际运行时间则明显更大，这进一步验证了SSL和FE-Net的优越性。与其他方法兼容。我们的网络也可以与其他方法相结合，以进一步的性能探索。例如，我们的网络可以配备SE模块（挤压和激励[11]）用于通道注意。然而，我们发现将SE模块放置在基本块的不同位置是有关系的。这里只讨论SE模块在倒瓶颈中的位置.如图6所示，有两种不同的放置方式。第一种方式是传统的方式，将SE模块放置在基本块的输出位置。然而，对于反向瓶颈，最冗余的信息存在于扩展部分。由于SE模块用于通道注意，因此将SE模块放置在如图6（b）所示的表7中的结果从经验上验证了这一观点。此外，我们注意到，如表8所示，配备SE模块后，移位稀疏性增加了很多由于SE模块对全局信息进行编码，降低了空间信息通信中的移位要求，因此通过通道级特征重校准，可以图6.SE模块的两种不同放置方式网络MAdds ParamsTop1[11]第十一届全国人大代表5.72亿4.7M百分之七十四点七[26]第二十六话597M-75.4%FE-Net 1.375x + SE V1564M6.1M百分之七十五点六FE-Net 1.375x + SE V2566M8.2M76.5%表7. ImageNet上几种配备SE模块的紧凑型神经架构的性能比较网络Top1移位稀疏FE-Net 1.0x百分之七十二点九60.0%FE-Net 1.375x百分之七十五点零百分之六十九点五FE-Net 1.375x + SE V1百分之七十五点六百分之七十七点七FE-Net 1.375x + SE V276.5%80.2%1x1转换1x1转换7250表8.不同精度FE网的移位稀疏性6. 结论本文主要研究SSL的可行性构建一个紧凑而精确的神经网络大量的实验证明，只需少量的移位操作就足以实现空间信息的传输.我们还表明，SSL可以作为一个有效的替代依赖可分离卷积。配备SSL的精心设计的网络可以在精度，FLOP和实际推理时间方面超过其他配备深度可分离卷积的同行我们的工作将激发更多的网络设计和搜索的探索。7251引用[1] A. Aghasi，N.Nguyen和J.K. 龙伯格Net-trim：深度神经网络的凸修剪，具有性能保证。在NIPS，2017年。[2] W. Chen，Y. Zhang，L. Xie和S. PU.一个用于神经元修剪的层分解-重组框架，在AAAI，2019年。[3] E. Denton，W. Zaremba，J. Bruna，Y. Lecun和R.费格斯。利用卷积网络中的线性结构进行有效评估。在NIPS，2014。[4] Y.贡湖，澳-地Liu，M. Yang和L. D.布尔德夫使用矢量量化压缩深度卷积网络。CoRR，abs/1412.6115，2014年。[5] S. Han，J. Pool，J. Tran和W. J·达利学习有效神经网络的权重和连接。2015年，在NIPS[6] B. Hassibi和D. G.鹳鸟用于网络修剪的二阶导数：最佳脑外科医生。NIPS，1993年。[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[8] Y.他，X。zhang和J.太阳用于加速非常深的神经网络的通道修剪。InICCV，2017.[9] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取在NIPS，研讨会，2014年。[10] A. G. Howard，M.Zhu，B.Chen，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。 CoRR ，abs/1704.04861，2017。[11] 胡杰湖，澳 - 地 Shen 和 G. 太阳结构 - 激励网络。在CVPR，2018年。[12] G. Huang，S.柳湖，加-地V. Der Maaten和K. Q.温伯格Condensenet：一个高效的密集网络，使用学习的群卷积。在CVPR，2018年。[13] I. 胡巴拉M. Courbariaux，D. 苏德里河 Elyaniv，以及Y.本吉奥。量化神经网络：用低精度权重和激活训练神经网络。 Journal of Machine Learning Research ， 18（187）：1[14] Y. Ioannou，D.罗伯逊河Cipolla和A.天啊深根：提高cnn的效率与层次过滤器组。在CVPR，2017年。[15] M. Jaderberg，A. Vedaldi和A.齐瑟曼。加速具有低秩扩展的卷积神经网络。InBMVC，2014.[16] Y. Jeon 和 K. 俊模用卷积解构法构造快速网络。在NIPS，2019。[17] Y. Kim，E.帕克，S。刘，T。崔湖，澳-地Yang和D.信用于快速和低功耗移动应用的深度卷积神经网络的压缩。ICLR，2016年。[18] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。2009年[19] 诉 Lebedev ， Y. 加宁 M. 拉库巴岛诉 Oseledets 和 V.S.Lempitsky使用微调的cp分解加速卷积神经网络。2015年，国际会议[20] Y. Lecun，J.S. Denker和S. A.索拉最佳脑损伤。NIPS，1990年。7252[21] H. Li ，长穗条锈菌A. 卡达夫岛 Durdanovic ，H.Samet和H. P·格拉夫修剪过滤器以实现高效的卷积。在ICLR，2017。[22] C. Liu，M.诺伊曼湾作者：王志华，男。瓦湖，加-地李鹏说，L. Feifei，A.L. Yuille，J.Huang和K.P. 墨菲渐进式神经结构搜索。在ECCV，2017年。[23] H. Liu，K. Simonyan和Y.杨DARTS：微分架构搜索。CoRR，abs/1806.09055，2018。[24] Z. Liu，J. Li，Z. Shen，G. Huang，S. Yan和C.张某通过网络瘦身学习高效的卷积网络。InICCV，2017.[25] J. H. Luo，J. Wu，and W.是林书Thinet：一种用于深度神经网络压缩的滤波器级压缩方法。InICCV，2017.[26] N.妈，X。张洪- T. Zheng和J.太阳Shufflenet v2：高效cnn体系结构设计实用指南。在ECCV，2018。[27] P. Molchanov，S. Tyree，T. Karras，T. Aila和J.考茨修剪卷积神经网络以实现资源高效推理。在ICLR，2017。[28] M. 拉斯泰加里河谷Ordonez，J.Redmon和A.法哈迪。 Xnor- net ：使用二进制卷积神经网络的Imagenet分类。在ECCV，2016年。[29] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S. 妈Z。Huang，黄背天蛾A.卡帕西A.Khosla，和M。伯恩斯坦。图像网大规模视觉识别挑战。International Journal of Computer Vision ， 115（3）：211[30] M. Sandler，A. G. Howard ，M. Zhu，中国茶青冈A.Zhmoginov和L.尘Mobilenetv2：倒残差和线性底差。在CVPR，2018年

下载后可阅读完整内容，剩余1页未读，立即下载