文件标题：基于可学习组卷积的深度神经网络加速方法

168 浏览量更新于2023-10-19 收藏 807KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9049用于加速深度神经网络的王喜军1，2阚美娜1石广山1，2，3陈西林1，21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京1001902中国科学院大学，北京1000493中国科学院脑科学与智能技术示范中心，上海200031xijun.wang @ vipl.ict.ac.cn{kanmeina，sgshan，xlchen}@ict. ac. cn摘要受益于其在许多任务上的巨大成功，深度学习越来越多地用于低计算成本设备，例如。智能手机、嵌入式设备等。为了降低高计算和内存成本，在这项工作中，我们提出了一个完全可学习的组卷积模块（简称FLGC），它非常有效，可以嵌入到任何深度神经网络中进行加速。具体而言，我们提出的方法在训练阶段以完全端到端的方式自动学习组结构，从而产生比现有的预定义的两步或迭代策略更好的结构。此外，我们的方法可以进一步与深度可分离卷积相结合，在单CPU上的加速比vanilla Resnet50快5倍另一个优点是，在我们的FLGC中，可以将组的数量设置为任何值，但不一定是大多数现有方法中的2K在我们的实验评估，我们的方法实现了更好的性能比现有的可学习的组卷积和标准组卷积时，使用相同数量的组。1. 介绍自Krizhevsky等人提出Alexnet以来，[23]在2012年ImageNet挑战赛中取得了突破性的成果，更深更大的卷积神经网络（CNN）已经成为一种普遍存在的设置，可以实现更好的性能，特别是在大数据任务中[5，26]。然而，即使是一个普通的CNN通常也有几十个，几百个甚至几千个层和几千个通道[12，35，18]。如此巨大的参数和高计算成本使得其在具有有限硬件资源的设备或具有严格延迟要求的应用上不受支持。在[6]中，Misha Denilet al.发现CNN中存在显著的冗余，准确性不会下降甚至许多网络参数都没有被学习或去除。在此之后，各种减少冗余的方法这些方法可以大致分为两类，后处理方法，如修剪或量化预训练的深度模型，以及有效的架构设计方法，试图设计快速和紧凑的深度网络。1.1. 后处理方法一个简单的策略是对预训练的模型进行后处理，例如修剪参数，或者通过使用更少的位来量化模型。参数修剪。一些细粒度的方法试图根据其重要性修剪两个神经节点之间的稀疏连接，从而将密集网络转换为稀疏网络[27，11，10，24]。一个典型的例子是[11] ，其中Hanet al.建议学习每个连接的重要性，然后删除那些不重要此外，Guoet al. [10]提出了一种动态网络手术的动态连接修剪方法，将连接拼接融入到整个过程中，避免错误的修剪，使其成为一次持续的网络维护通过细粒度裁剪方法得到的稀疏网络在理论上具有更低的计算代价遗憾的是，稀疏网络还没有成熟的框架或硬件，因此实际上只能获得有限的加速。还有一些其他方法试图通过切断整个过滤器，通道甚至层来进行粗粒度修剪。在[14]中，Heet al.提出了一种基于通道选择和最小二乘重构的迭代两步算法，利用LASSO回归对每一层进行有效的剪枝。在[25]中，Liet al.应用L1正则化来修剪滤波器以诱导稀疏性。更一般地，Wenet al. [38]提出了一种结构化稀疏学习方法，以统一的方式减少冗余的滤波器、通道和层。粗粒化9050121324354657689112234354675869121324354657689232549115764538(a) 法线转换(b) 标准组转换(c) Shuffl#N#t group conv un$ttra$n$ngt#st$ng(d) FLGC图1.不同群卷积机制的概述。(a)是一个正常的卷积。(b)是标准的组卷积，其中每组中的输入通道和滤波器都是固定的。(c)是ShuffleNet组卷积单元，其中输入通道是固定的。(d)是我们的FLGC卷积，其中包括每个组中的输入通道和滤波器的分组结构是动态学习的。八边形表示输入通道，圆形表示滤波器。使用方法直接去除滤波器或信道，从而有效地加速网络。量化。网络量化是为了减少用于表示参数或特征的比特数。Han等人[1]提出了一种深度压缩的方法，首先修剪掉不重要的连接，然后对剩下的连接进行加权共享和Huffman编码量化。此外，INQ [47]和ShiftCNN[9]将全精度CNN模型转换为低精度模型，其参数（即，权重）或者为零或者2的幂利用二次幂表示，乘法运算可以用移位运算代替，效率很高。除了这些后量化方法之外，还有一些方法试图直接训练二进制网络，例如BinaryCon-10 [3]，BNN [4]和XNORNetworks [30]。由于所用比特数较少，这些方法都能获得较快的网络速度，但相应地，在处理大型网络时，其精度往往会显著下降。其他方法。除了上面描述的方法之外，其他一些方法探索了如何使用低秩因子分解，知识蒸馏进行深度网络加速。在低秩分解方法[7，22]中，在4D张量中构造的卷积滤波器被分解为低秩滤波器，这消除了卷积中的冗余，从而减少了计算。在知识蒸馏方法[15，31]中，通过使两个网络的输出分布相同，将从深而宽的网络中学习的知识转移到浅而窄的网络中。后处理方法简单直观，但显然有一定的局限性。上述方法大多是两步或多步的，网络目标（如分类或检测）和加速目标分别优化。因此，加速不一定确保优良的分类或检测精度。此外，大多数剪枝方法只考虑连接或层的重要性及其对多个连接层的贡献正如[43]中所验证的那样，在不考虑全局影响的情况下进行修剪将导致显著的错误传播，导致性能退化，特别是在深度网络中。1.2. 设计高效架构考虑到上述局限性，一些研究者转而直接设计高效的网络结构，如更小的滤波器、可分离卷积、群卷积等。可分离卷积一些早期的作品直接使用小的过滤器（例如，1×1，3×3）来替换那些大的（例如，5×5，7×7）加速[33，12，20，18]。然而，即使只使用3×3和1×1过滤器，普通的深度网络仍然是耗时的，例如ResNet50需要大约4G MAds1，VGG16需要16G MAds来计算224 ×224图像。为了获得更大的加速度，一些工程师使用多个2D卷积的可分离卷积1在本文中，MAdds是指乘法-加法运算的次数。112223443154566753869洗牌#9051我我1 2N以取代耗时的3D卷积。在空间分离方面，Inception V3[37]将h×w×c滤波器分解为两个，即 1个h×1×c滤波器1×W×C滤波器。在渠道分离方面，Xception [2]和MobileNets [16]采用了依赖性，可分卷积这种可分离卷积可以指数级地提高计算速度，因此它们在许多现代网络中得到了广泛的应用。群卷积可分离卷积通过分解滤波器来实现加速。相应地，组卷积通过将所有滤波器分成几组来加速网络，例如[21，34，40，45，41，46]。群卷积的概念首先在Alexnet [23]中提出，然后在ResNeXt [41]中进一步成功采用，使其在最近的网络设计中流行。然而，标准的群卷积不进行不同群之间的通信，这限制了它们的表示能力。为了解决这个问题，在ShuffleNet[46]中，提出了一个通道混洗单元，用于随机排列组卷积的输出通道，以使输出更好地与输入相关。在这些方法中，元件（即，输入通道和滤波器）是固定的或随机定义。此外，在Condensenet [17]中，提出了一种可学习的组卷积来自动选择每组的输入通道。虽然现有的群卷积方法已经非常有效地提高了加速，但仍然存在一些限制需要解决：1）用于每个组中的组卷积的滤波器是预定义的和固定的，并且这种硬分配阻碍了其表示能力，即使在组卷积之后进行随机置换; 2）在某些工作中，群是可学习的，但通常被设计为繁琐的多阶段或迭代方式。在每个阶段中，前一阶段的网络首先被修剪，然后微调，以恢复精度。为了一劳永逸地解决上述所有限制，在这项工作中，我们提出了一个完全可学习的群卷积（FLGC）方法。在我们提出的FLGC，分组结构，包括输入通道和滤波器在一个组是动态优化的。更重要的（3）每一组的输入通道数和滤波器数都是灵活的，而在传统的组卷积中，这两个数必须由组数整除。2. 完全可学习群卷积（FLGC）在现代深度网络中，滤波器的大小大多为3×3或1×1，主要计算成本来自卷积层。3×3卷积可以很容易地通过使用深度可分离卷积（DSC）来加速。3×3卷积的分离将伴随着额外的1×1卷积。在DSC之后，1×1卷积贡献了主要的时间成本，例如。对于Resnet50网络，将DSC应用于3 × 3卷积后，1 × 1卷积的计算量占83. 全网6%。因此，如何提高1×1卷积的速度成为一个迫切需要解决的问题，也越来越受到人们的关注。由于1×1滤波器是不可分离的，群卷积成为一种有希望的、可行的解决方案。然而，简单地应用群卷积将导致剧烈的预处理，切割降解。正如[17]中所分析的，这是由于1×1卷积层的输入通道具有内在顺序或者它们更加多样化。这意味着标准组卷积中的硬分配分组机制是不合格的。对美好解决方案中，我们提出的方法动态地确定每个组的输入通道和过滤器，形成一个灵活而有效的分组机制。简单地说，在我们的FLGC中，一组中的输入通道和滤波器（即组结构）都是通过反向传播根据网络的总损耗的梯度来动态确定和更新的。因此，它可以以端到端的方式进行优化。2.1. 方法在深度网络中，卷积层被计算为将输入特征图与滤波器进行卷积。以第k层为例，第k层的输入可以是表示为Xk={xk，xk，···，xk}，其中C是数量。12CULE可以嵌入任何现有的深度网络，易于以端到端的方式进行优化。在测试时，信道的BER，并且Xk是第i个特征图。过滤器表示为Wk={wk，wk，···，wk}，1 2N学习模型的计算与标准组CON相似这使得在实践中有效的计算不同的群卷积方法的简要比较如图1所示。总的来说，我们的方法的优点如下：(1) 每个组中包括输入通道和滤波器的元素都是可学习的，允许灵活的分组结构并诱导更好的表示能力;(2) 所有层中的组结构以端到端的方式同时优化，而不是以多阶段或迭代的方式（即，逐层修剪。）;其中N表示滤波器的数量，即输出通道数，wk是第i个3D卷积滤波器。该卷积层的输出2计算如下：Xk+1=WkXk={wk<$Xk，wk<$Xk，···，wk<$Xk}，（1）其中，在这项工作中，卷积表示两个集合之间的卷积，卷积表示滤波器和输入特征映射之间的卷积运算。[2]为了简单起见，我们省略了偏置b9052JGk=1JJ1 1 2 2GG我1 1 2 2GG在组卷积中，输入通道和滤波器分别被分成G组，表示为Xk={Xk，Xk，···，Xk}3和Wk={Wk，Wk，···，Wk}4。属于第j组。然后，第j组滤波器，即可以表示为：1 2G1 2Gk k kT现在，Xk+1被重新表示为如下：Wj=W<$T（：，j），j ∈ [1，G].（七）Xk+1={W k<$Xk，W k<$Xk，···，W k<$Xk}.（二）通常，在标准组卷积中，输入通道和滤波器以硬分配方式被均匀地划分为G个组，即，C个输入通道和N个滤波器，因此，Eq. (2)可重新表述如下：Xk+1=Wk<$Xk={Wk<$Xk，Wk<$Xk，···，Wk<$Xk}G G={Wk<$Tk（：，1）T<$Xk<$Sk（：，1）T，···，每组因此，在每一个中使用的通道的数量过滤器减少到1曝气速率如下：一个是原创，一个是加速。WkTk（：，G）TXkSk（：，G）T{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}（八）MAdds（WkXk）等式(8)，群卷积的结构是param-由两个二元选择矩阵Sk和Tk表示。在那里-MAdds（德国）=G.（三）WkXk）因此，这种参数化的群卷积可以被嵌入-i=1在任何现有的深度网络中，目标是：可以看出，这组卷积从硬如-分配可以很容易地使G ×产生相当大的加速度。然而，它不一定是一种有希望的准确性方法。因此，我们的方法的目标是设计minW k，Sk，T k|K1Σnni=1L（Yi;Yi） |Xi，Wk，Sk，Tk），（9）完全可学习的分组机制，其中分组结构被动态优化以获得有利的加速和准确性。首先，我们将第k层的分组结构表示为输入通道和滤波器的两个二元选择矩阵，分别表示为Sk和Tk。Sk是一个用于信道选择的矩阵，形状为C×G，每个元素定义为：如果xk∈Xk，其中，Xi表示第i个输入样本，n表示训练数据的数量，Yi表示第i个样本L（，）表示损失函数（例如，交叉熵损失）用于分类或检测等。在上述目标下，滤波器W_k、包含S_k和T_k的群结构都可以根据总体目标函数自动优化。然而，Binary变量因其非微分特性而臭名昭著。所以，Sk（i，j）=I ji=[1，C]; j ∈ [1，G].0，如果xk∈/Xk，（四）在2.2节中，我们进一步设计了一个巧妙的近似，使其可微，以实现更好的优化I j从Eq.(9)，在我们的其中Sk（i，j）=1意味着第i个输入通道被选入第j个组。可以看出，Sk的第j列指示哪些输入声道属于第j组。然后，Xk可以简单地表示如下：Xk=Xk<$Sk（：，j）T，j∈[1，G]，（5）其中， n 表示逐元素选择算子，这里的元素表示nxk∈Xk，T表示向量的转置类似地，对于滤波器选择，我们定义一个N×G形状的矩阵Tk，每个元素定义为：如果wk∈Wk，9053方法是自动优化的，而不是手动定义。此外，与只考虑一层或两层连接的大小和影响的方法不同，该方法是根据整个网络的客观损耗来因此，在我们的方法中，所有层的组结构被联合优化，这意味着更优的解决方案。2.2. 优化由方程式(9)通过使用随机梯度下降，滤波器Wk可以像大多数深度网络一样容易地优化为了解决这一问题，我们--Tk（i，j）=I ji=[1，N]; j ∈ [1，G].（六）模拟Sk而Tk通过将softmax函数应用于如果wk∈/Wk，Meta选择矩阵，使其可微。ij具体来说，我们引入一个Meta选择矩阵Sk，其中Tk（i，j）=1表示第i个滤波器被选入第j个组。Tk的第j列指示哪些滤波器3XkXk···Xk=Xk通道选择与Sk相同的形状。然后将softmax函数应用于S<$k的每个ro w，它可以将其映射到（0，1），如下所示：1 2G4k kWk=WkS（i，：）为softmax（S<$（i，：）），i∈[1，C].（十）1 2G9054kWuhuWuhuk这里，Meta选择矩阵Sk可以被初始化为高斯分布或来自其他方法的结果。在softmax之后，S k的ithr w表示Wk←WkL-η。i，j ∈ I，（16）第i个输入通道属于每个组。因此，第i个输入通道可以被简单地选择到具有最高概率的组中。也就是说，二进制选择矩阵Sk可以近似为：（i，j）k（i，j）（i，j）k（i，j）K（i，j）— η。WkK（i，j）LΣMk如果Sk（i，j）=max（Sk（i，：）），（i，j）.（i，j）Sk（i，j）=Σ（11）k k0，否则。W（i，j）K（i，j）K（i，j）k（i，j）斯库台（i，j），（17）（i，j）使用softmax函数的原因是，通过soft-max运算，可以更新Meta选择矩阵S<$k为了使输出Sk近似于0或1，k.LΣsible。因此，S<$k和Sk之间的量化误差在很大程度上缩小了。T（i，j）←T（i，j）−ηK K（i，j）（i，j）.Σ类似地，二进制选择矩阵Tk近似为：通过在Meta选择矩阵Tk上应用softmax函数进行滤波器选择，如下所示：K（i，j）K（i，j）K（i，j）K（i，j）k（i，j）特罗克（i，j），（18）（i，j）Tk（i，j）=与如果Tk（i，j）=max（Tk（i，：）），0，否则，（十二）其中η表示学习速率。整个过程总结在算法1中。算法1FLGC：求解方程中的优化问题。(15)通过SGDTk（i，：）为softmax（T<$k（i，：）），i∈[1，N]. （十三）输入：X：训练数据，Y：标签输出：{Wk，Sk，Tk：k∈[1，K]}这里，Tk的ithr w表示ith过滤器属于每个组。总之，利用上述等式。(10)，方程式(11)，方程式（12）和Eq. (13)将二元Sk和Tk的微分转化为Meta选择变量1：初始化Wk←msra;Sk，Tk←02：对于每个批次Xi，3：//前向传播：4：对于i=1→C，Sk，Tk←高斯;S<$k和T<$k是非二进制y，但数量很小-5：S<$k（i，：）←softmax（S<$k（i，：））操作错误。此外，为了便于实现，Eq. (8)等价地转化为以下公式：6：Sk（i，j）←1，如果Sk（i，j）=max（Sk（i，：））7：结束8：对于i=1→N，Xk+1={Wk<$Tk（：，1）T<$Xk<$Sk（：，1）T，···，Wk<$Tk（：，G）T<$Xk<$Sk（：，G）T}=（Wk<$Mk）<$Xk，（14）其中Mk=Tk（Sk）T，Mk的形状为N×C，KS←SW⊙MMMSSW⊙MMMTT∂∂9055k=1k=1k=19：Tk（i，：）←softmax（Tk（i，：））10：Tk（i，j）←1，如果Tk（i，j）=max（Tk（i，：））11：结束12：Mk←Tk（Sk）T13：得到损失：L=L（Yi，Xi（Wk<$Mk）+b）14：//反向传播：15：Wk←Wk−ηL与W相同。（Wk最后，目标函数重新表述如下：kL十六：S←S— η（W k <$Mk）<$Mk < $S<$k ∂S¯knkL2017年1月17日：T←T— η（W k <$Mk）<$Mk<$T<$k<$T<$kminW、S、T、Ni=1L（Yi，Xi（W<$M）+b），（15）18：结束其中W={Wk|K}，S<$={S<$k|K}，T<$={T<$k|K}。Eq中的目标(15)可以很容易地进行优化，最深的网络通过使用随机梯度下降法，与每层的参数更新如下：2.3. 索引重排序在学习了组结构之后，通常需要重新组织输入通道一个简单的方法是添加一个索引层来重新排序输入9056[2，4，1，5，6，3][1，3，5]、[4，2]、[6]特征图滤波器特征图指数滤波器21特征指数文件索引索引重排序逆运算4索引重排序3逆运算去索引15特征图滤波器特征图指数滤波器[3，6，4]、[2，1]、[5]特征指数文件索引索引重排序54逆运算逆运算62去索引去索引FCFC3第一个产出指数6（i%1！输入索引（a！朴素推理（b！我们的推论（c！索引-我们的推理的通道，以及另一个索引层来重新排序滤波器。然后，输出声道被重新排序回到原始顺序，如图2（a）所示。不幸的是，这种频繁的内存重新排序操作将显著增加推理时间。因此，我们提出了一个高效的索引重排序策略，如图2（b）所示.首先，对滤波器进行重新排序，使一组中的滤波器排列在一起。其次，考虑到输入通道也是前一层的输出通道，我们将前一层的输出通道的索引和本层的输入通道的索引合并为单个索引，以获得正确的输入通道顺序。细节如图2（c）所示。这样的设计大大减少了对内存的操作，并且所有这些重新排序的索引都可以离线获得，因此在推理阶段非常有效。因此，在推理时，我们的FLGC可以像标准组卷积一样高效。3. 实验在本节中，我们通过将其嵌入现有流行的CNN网络（包括 Resnet 50 [13] ， Mo-bileNetV 2 [32] 和Condensenet [17]）来研究我们提出的FLGC的有效性。首先，我们在CASIA-WebFace [42]上进行FLGC的消融研究，然后在人脸验证和图像分类方面将其与CASIA-WebFace，CIFAR-10和ImageNet（ILSVRC 2012）[5]上的现有竞争方法进行比较。3.1. 嵌入最先进的CNN我们选择了三种最先进的架构，包括Resnet50，MobileNetV2和CondenseNet，以嵌入所提出的完全可学习的群卷积（FLGC）进行评估。使用FLGC的Resnet50 Resnet50是一个功能强大的网络，在许多任务上实现了突出的准确性。然而，这是相当耗时的。如图3（蓝线）所示，主要计算成本落在3×3图2.索引重新排序以实现高效推理的说明(a)是一个朴素的推理方法，（b）是我们的有效推理方法，（c）是索引重排单元。卷积，因此我们首先使用DSC来分离MobileNet [16]之后的3×3DSC之后，存在大量的1 × 1卷积，其计算代价占83. 占整个网络的6%。因此，我们进一步将网络中的所有1×1层替换为FLGC层。此外，我们只是加倍跨越第一层并添加fc层。带FLGC的MobileNetV2。MobileNetV2是一个具有精心设计的最先进的高效架构。这种架构在许多具有有利计算成本的任务上实现了令人满意的精度，例如。分类、检测和分割。但是，密集的1×1卷积占用了大部分计算成本，为进一步加速留下了很大的空间。因此，我们用我们的FLGC层替换那些滤波器数量大于96的1×1使用FLGC的CondenseNet。CondenseNet提出了一种可学习的组卷积，可以自动为每组选择输入通道。然而，每组中的滤波器是固定的，并且该过程被设计为繁琐的多阶段或迭代方式。此外，每个输入通道的重要性是根据输入和滤波器之间的连接的大小来确定的，但没有考虑其对整个网络的影响我们在CondenseNet中用所有FLGC替换LGC。3.2. 消融研究在CASIA-WebFace上，使用Resnet 50进行了人脸验证的消融实验。该数据集的实验设置与第3.1节相同。首先，我们通过与标准卷积的比较，分析了DSC和我们的FGLC的加速比所有方法中每一层的时间可以看出，在蓝线表示的标准Resnet50中，3×3卷积层是最耗时的部分。应用DSC后，3×3卷积时间成本显著降低，如橙色线所示，橙色线还强调了1×1卷积层现在是主要的时间成本部分。通过进一步应用FLGC，1×1卷积层的时间成本成功减少，如绿线所示，从而产生非常有效的架构。与基线（标准Resnet50）具有可比精度的结构。对于整个过程，我们的方法实现了显着的时间成本的改善。除了效率，我们进一步探讨了标准组卷积的准确性和我们的FLGC w.r.t.不同数量的组，并且结果示于图4、表1和表2中。可以看出，当应用标准组卷积时，准确度急剧下降1×1卷积，主要是由于硬分配的表示能力的损失。当然，我们的9057图3. Resnet50中每个卷积层在单个CPU上使用不同卷积机制的时间成本。蓝线是标准Resnet50。橙色线是Resnet50，其中3×3卷积被DSC取代。绿线是Resnet50，1×1卷积进一步被FLGC取代。图4.在CASIA-WebFace w.r.t.上，将我们的FLGC与标准组卷积（SGC）在Resnet 50的人脸验证准确性方面进行比较。不同的组号。FLGC成功地保持了准确性，即使有大量的组，受益于完全可学习的机制，分组结构。3.3. 与竞争方法的比较结果在CASIA-WebFace上。CASIA-WebFace是一种常用的人脸验证数据集，包含来自10，575名受试者的494，414张人脸图像。使用[39]和[44]检测并对齐所有人脸，然后以256×256的分辨率裁剪出检测到的人脸。该数据集用于训练。遵循主流作品，着名的LFW [19]数据集用于人脸验证评价LFW包括来自5749个不同身份的13，233张人脸图像，标准协议定义了3，000个阳性对和3，000个阴性对用于验证测试。在这个数据集上，我们将建议的FLGC嵌入到Resnet50如第3.1节所述。为了优化我们的方法，我们用高斯分布初始化Meta选择矩阵S<$k和T<$k，并简单地将动量的h参数设置为0.9，权重衰减为5×10−4，批处理大小为80，迭代次数为120，000。分别计算了群号为4和8的两个版本的FLGC。我们的加速网络与该数据集上的几种最先进的方法进行了比较，包括[42，28，8，29]。所有的比较方法，包括我们的方法，都采用软最大损失进行优化.实验结果示于表1中。可以看出，标准Resnet50在巨型架构下实现了比[42，28，8，29]更好的验证率预计，我们修改后的Resnet50比标准Resnet50实现了约18倍的速度，而没有准确性下降，这也比[42，28，8，29]快得多在单 CPU （ Intel （ R ） Xeon （ R ） CPU E5- 2620v3@2.40GHz）上的实际评估中，我们改进的Resnet 50比标准Resnet 50运行快5倍，证明了我们方法的有效性。CIFAR-10的结果。我们进一步比较了我们的FLGC与其他加速方法的CIFAR-10数据集。CIFAR-10由10类60，000幅图像组成，分辨率为32×32像素。其中，5万张图片是10,000个用于培训，10,000个用于测试。由于该数据集上的图像分辨率较小，因此第3.1节中用于224×224图像的修改后Resnet50过大且冗余。因此，我们将7×7卷积层替换为3×3卷积层，以适应较小的输入图像。基于此基础架构，我们重新-将1x1卷积层与FLGC层放置在一起，组数设置为4。为了清楚地比较，提出了通过改变滤波器的数量而具有不同MAdd的两个版本的FLGC，称为ResNet 50-FLGC1和ResNet 50-FLGC 2。除了Resnet50，我们还将FLGC嵌入到最先进的加速架构9058表1. LFW上的人脸验证准确率（%）和时间复杂度，所有模型都在CASIA-WebFace上训练。ResNet 50-FLGC和ResNet50-SGC的架构在第3.1节中介绍。(SGC：标准组卷积）表3. Top-1和Top-5分类错误率（%）与ImageNet上其他最先进的紧凑模型的比较。型号MAdds参数Top1 Top51.0 MobileNet-224[16] 569M 4.2M 29.4 10.5ResNet50-SGC（G=8）124M 1.37M 98.30ResNet50-FLGC（G=8）124 M 1.37 M 98.73MobileNetV 2，简称MobileNetV 2-FLGC。为了优化我们的方法，所有超参数与CASIA-WebFace上使用的相同。在这个数据集上，我们比较了FLGC与最先进的过滤器级修剪方法和最先进的体系结构MobileNetV2。比较结果示于表2中。与修剪方法比较[14，25]同样采用Resnet结构，我们可以得到更低的分类错误与3×更少的MAds。此外，我们的FLGC可以灵活地嵌入到任何有效的架构，如MobileNetV2，导致进一步加速。从表2中可以看出，具有FLGC的MobileNetV2实现了更好的精度w.r.t不同的组数，进一步证明了我们提出的FLGC的优越性。表2.在CIFAR-10上比较了不同方法的分类错误率和时间复杂度（G：组号）模型MAddsParams ErrResNet 56-修剪[14]62M-8.2ResNet 50-FLGC 1（我们的）23M0.22M7.95[25]第二十五话90M0.73M6.94ResNet 50-FLGC 2（我们的）44M0.68M6.77MobileNetV2-SGC（G=2）158M1.18M6.04MobileNetV2-FLGC（G=2）158M1.18M5.89MobileNetV2-FLGC（G=3）122M0.85M5.80MobileNetV2-SGC（G=4）103M0.68M6.64MobileNetV2-FLGC（G=4）103M0.68M5.84MobileNetV2-FLGC（G=5）92M0.58M6.12MobileNetV2-FLGC（G=6）85M0.51M6.33MobileNetV2-FLGC（G=7）80M0.46M6.34MobileNetV2-SGC（G=8）76M0.43M7.51MobileNetV2-FLGC（G=8）76M0.43M6.91ImageNet上的结果。为了进一步验证我们提出的FLGC的有效性，我们将我们的FLGC与最先进的可学习群卷积进行了比较，模型MAdds参数ACC[36]第三十六话小行星14486.6M30.210.1Yi等人[第四十二届]770M1.75M97.73[46]第四十六话524M5.3M26.3-[28]第二十八话小行星2846037.16M97.88美国（N=4）564M5.3M26.08.4Ding等[八]《中国日报》小行星28743.76M98.43[48]第48话488米5.3M27.28.7Liu等[29日]小行星101946.78M98.71[48]第48话558M4.9M27.59.0ResNet50-FLGC（G=2）363M5.35M98.82ResNet50-SGC（G=4）203M2.70M98.78ResNet50-FLGC（G=4）203M2.70M98.829059CondenseNet-FLGC529M4.8M25.3七点九在ImageNet上的CondenseNet [17]中提出。为了进行公平的比较，我们使用了与CondenseNet相同的网络结构。基于此基线架构，我们将CondenseNet中的LGC层替换为FLGC层和标准组卷积（SGC）层，组数设置为4。更重要的是，我们保持超参数与CondenseNet中使用的相同。所有模型都训练了120个epoch，余弦形状的学习率从0.2开始逐渐降低到 0 。从表 3 中可以看出，我们的 FLGC 比CondenseNet的LGC和SGC实现了更好的准确性。此外，我们的FLGC甚至达到了良好的性能相比，竞争对手的MobileNet，Shuf- fleNet和NASNet-A。4. 结论在这项工作中，我们提出了一个完全可学习的组卷积模块，它非常有效，可以嵌入到任何深度神经网络的任何层中进行加速。与现有的预定义、两步或迭代加速策略不同，FLGC可以在训练阶段根据网络的整体损失以完全端到端的方式自动学习组结构，并在推断阶段与标准组卷积一样高效地运行。每组的输入通道数和滤波器数灵活，保证了较好的表示能力，很好地解决了标准组卷积中遇到的信息分布不均匀的问题此外，与CondenseNet的LGC和标准组卷积相比，我们的FLGC可以更好地保持准确性，同时即使在大量组的情况下也可以实现显着的加速确认本课题得到了国家重点科技&攻关项目（2005年第10号）的部分支持。2017YFA0700800）、国家自然科学基金（编号： 61650202 、 61772496 和61532018）。9060引用[1] W. Chen，J. Wilson，S. Tyree，K. Weinberger和Y.尘用散列技巧压缩神经网络。国际机器学习会议（ICML），第2285-2294页[2] F.胆Xception：使用深度可分离卷积的深度学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第1251-1258页[3] M. Courbariaux，Y.Bengio和J.P. 大卫Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统进展，第3123-3131页，2015年[4] M.库尔巴里奥岛Hubara，D.苏德里河El-Yaniv，以及Y.本吉奥。二进制神经网络：训练深度神经网络，权重和激活限制为 +1 或 -1 。 arXiv 预印本 arXiv ：1602.02830，2016。[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议中，第248-255页[6] M.德尼尔湾沙基比湖Dinh，N. De Freitas等人深度学习中的预测参数。神经信息处理系统进展（NIPS），第2148-2156页，2013年。[7] E. L. Denton，W. Zaremba，J. Bruna，Y. LeCun和R.费格斯。利用卷积网络中的线性结构进行有效评估。在神经信息处理系统（NIPS）中，第1269[8] C. Ding和D.涛. 通过多模态深度人脸表示的鲁棒人脸识别IEEE Transactions on Multimedia（TMM），第2049-2058页[9] D. A. Gudovskiy和L.里加齐奥Shiftcnn：用于卷积神经网络推理的通用 arXiv 预印本 arXiv ： 1706.02393 ，2017。[10] Y. Guo，中国古猿A.Yao和Y.尘高效动态网络手术神经信息处理系统（NIPS）进展，第1379-1387页，2016年[11] S. Han，J.普尔，J。Tran和W.Dally 学习权值和连接以实现高效的神经网络。神经信息处理系统进展（NIPS），第1135- 1143页，2015年[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 IEEE 计算机视觉和模式识别会议（CVPR），第770[13] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在欧洲计算机视觉会议（ECCV），LNCS9908，第IV部分，第630-645页，2016年。[14] Y.他，X。zhang和J.太阳用于加速非常深的神经网络的通道修剪。 IEEEInternational Conference on ComputerVision（ICCV），2017年。[15] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取arXiv预印本arXiv：1503.02531，2015。[16] A. G. Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[17] G. Huang，S.柳湖，加-地Van der Maaten和K.Q. 温伯格Condensenet：一个高效的密集网络，使用学习的群卷积。在IEEE计算机视觉和模式识别会议，2018年。[18] G. Huang，Z.柳湖，加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年。[19] G. B. Huang，M.Mattar，T.Berg和E.学习米勒。在野外的拉贝莱德面孔：研究无约束环境下人脸识别的数据库。在“现实生活”图像中的面孔研讨会：检测、对齐和识别，2008年。[20] F. N.扬多拉，S。汉，M。W.莫斯基维茨K.阿什拉夫，W。J.达利和K.库茨Squeezenet：Alexnet级精度，参数减少50倍，模型大小为0.5 mb。

下载后可阅读完整内容，剩余1页未读，立即下载