1231深根:用分层滤波器组Duncan Robertson2 Roberto Cipolla1 Antonio Criminisi21剑桥大学,2微软研究院摘要我们提出了一种新的方法来创建计算效率和紧凑的卷积神经网络(CNN),使用一种新的稀疏连接结构,重新组装树根。与现有技术的深度CNN相比,这允许显著降低计算成本和参数数量,而不损害准确性,通过利用层间滤波器依赖性的稀疏性。我们通过使用它来训练最先进的CNN架构的更有效的变体来验证我们的方法,这些变体在CIFAR10和ILSVRC数据集上进行了评估我们的研究结果显示出类似或更高的精度比基线架构,计算少得多,由CPU和GPU的时间测量。例如,对于ResNet 50,我们的模型的参数减少了40%,浮点运算减少了45%对于更深的ResNet 200,我们的模型具有减少48%的参数和减少27%的浮点运算,同时保持最先进的准确性。对于GoogLeNet,我们的模型的参数减少了7%,在CPU(GPU)上的速度提高了21%(16%)。1. 介绍本文描述了一种使用类似树根的新型稀疏连接结构来创建计算高效且紧凑的卷积神经网络(CNN)的新方法。这使得计算成本和与最先进的深度CNN相比较的参数数量显著减少,而不影响准确性。已经表明,深度网络中学习的权重的很大一部分是冗余的[1],这一特性已被广泛利用以使神经网络更小,计算效率更高[2],[3])。因此,正则化是使用大型数据集训练此类网络的关键部分并不令人惊讶[4]。如 果 没 有 正 则 化 , 深 度 网 络 很 容 易 过 度 拟 合 。Regulariza-可以通过权重衰减或丢弃来实现[5]。此外,精心设计的稀疏网络连接结构也可以具有正则化效果。卷积神经网络(CNN)[6],[7]体现了这一思想,使用稀疏卷积连接结构来利用自然图像结构的局部性。因此,他们更容易训练。除了少数例外,用于图像识别的最先进的CNN在很大程度上是单片的,每个过滤器都在前一层上的所有过滤器的特征图有趣的是,这与我们对生物神经网络的理解形成了鲜明对比最近,发现学习滤波器的低秩基可以提高泛化能力,同时降低仅使用满秩滤波器的CNN的计算复杂度和模型大小[9]。然而,这项工作只解决了卷积滤波器的空间范围(即,h和w在图中。1a)。在这项工作中,我们将表明,一个类似的想法,可以适用于渠道的范围滤波器互连我们表明,简单的改变国家的最先进的CNN架构可以大幅降低计算成本和模型大小,而不影响准确性。2. 相关工作大多数以前关于降低CNN计算复杂性的工作都集中在空间(而不是信道)域中的卷积滤波器近似,无论是通过使用低秩近似[9]更一般的方法使用降低精度的数字表示[16]或压缩先前训练的模型[17],[18]。在这里,我们探索的方法,减少大量的过滤器通道的计算影响的国家的最先进的具体来说,我们考虑减少节点的传入连接数。1232H2W2H2W211周1次(a) 卷积比没有滤波器组的相应网络更好。这是由于分组卷积滤波器的输入通道维度的减少(见图1)。2)的情况。尽管模型之间的参数数量存在很大差异,但两者在ILSVRC上都达到了相当的精度-本文建立在这些研究结果的基础上,并将其扩展到最先进的网络。c2滤波器c2μg×111c1克×c2μgReLU低维嵌入。Lin,Chen和Yan [19]提出了一种降低卷积特征映射维数的方法。通过使用相对便宜的“1×1”卷积层(即层包括d个大小为1 × 1 ×c的过滤器,其中d来华传教士。,1939--人威尔逊,S。Tyree,K. Q. Weinberger和Y. Chen,R.Bach 和 D. M. 布 莱 , 编 辑 , ser. JMLRProceedings , vol.37 , JMLR.org , 2015 ,pp.2285arXiv:1504.04788(cit. 对瘦疮丙酸①的人。[18]Y.-- D. Kim,E.帕克,S。刘,T。崔湖,澳-地Yang和D. Shin , 1-16. arXiv : 1511. 06530( cit.在pp。1、2)。[19]M. 林 角 , 澳 - 地 Chen 和 S.Yan , “Network innetwork , ”ArXiv preprint , vol. abs/1312.4 , p.2013年10月。arXiv:1312.4400(cit.在pp。2、4、5)。[20]K.他,X。Zhang,S. Ren和J.Sun,第3页。171-arXiv:1512.03385(cit.在pp。2、4、5)。[21]M. Cogswell,F.艾哈迈德河B.吉希克湖zitnick和D.Batra , 2016 年 国 际 学 习 表 征 会 议(InternationalConferenceonLearningRepresentations)对瘦疮丙酸(3)第三章。1243[22]A. Krizhevsky,多伦多,技术报告,2009年,pp。1-60 arXiv:arXiv:1011.1669v3(cit.在pp。4、11)。[23]I. J. Goodfellow,D. Warde-Farley,M. Mirza,A.Courville和Y. Bengio,1319- 1327年。arXiv:1302.4389(cit.见第4页)。[24]K.他,X。Zhang,S. Ren,and J. Sun,“深入研究 整 流 器 : 在 IEEE Conference on ComputerVision and Patern Recognition(ICCV),IEEE,2015 , pp. 1026-arXiv : 1502.01852 ( cit. 在pp。4[25]S. Ioffe和C. Szegedy,“批次归一化:通过减少内部协变量偏 移来加速深度网络训练。”在Proceedings of the 32nd International Conferenceon Machine Learning , Lille , France , 2015 ,2015(cit.在pp。4、5、7)。[26]K Simonyan 和 A Zisserman , 对 瘦 疮 丙 酸(五)。[27]Y. Jia、E. Shelhamer,J.多纳休S. J. Long,R.Karayev Girshick,S. Guadarrama和T.达雷尔,“咖啡:用于快速特征嵌入的卷积体系结构”,ACM 多 媒 体 国 际 会 议 , pp. 675arXiv :1408.5093(cit.见第6页)。[28]C. Jhurani和P.Mullowney,133-140,2015(cit.对瘦疮丙酸(八)。