深度扩展器网络：基于图论的高效深度网络

26 浏览量更新于2023-10-13 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

深度扩展器网络：基于图论的高效深度网络Ameya PrabhuGirishVarmaAnoop Namboodiri视觉信息技术印度海得拉巴理工学院Kohli智能系统中心ameya.pandurang.gmail.com，{girish.varma，anoop}@iiit.ac.inhttps://github.com/DrImpossible/Deep-Expander-Networks抽象。提出了高效的CNN设计，如ResNets和DenseNet，以提高准确性与效率的权衡。它们本质上增加了连接性，允许跨层的有效信息流受这些技术的启发，我们建议使用同时稀疏和良好连接的图来建模CNN滤波器之间的连接。稀疏性导致效率，而良好的连通性可以保持CNN的表达能力。我们使用理论计算机科学中的一类经过充分研究的图，它满足这些属性，称为扩展图。扩展图用于对CNN中的滤波器之间的连接进行建模，以设计称为X网络的网络。我们对X-Nets的连通性提出了两个保证：每个节点以对数步长影响层中的每个节点，并且两组节点之间的路径数量与它们的大小的乘积成比例。我们还提出了有效的训练和推理算法，使得有效地训练更深更广的X-Nets成为可能。基于扩展器的模型在MobileNet上的准确性比分组卷积提高了4%，分组卷积是一种流行的技术，具有相同的稀疏性，但连通性较差。X-Nets提供了比原始ResNet和DenseNet-BC架构更好的性能权衡。我们实现的模型大小相当于国家的最先进的修剪技术，使用我们简单的架构设计，没有任何修剪。我们希望这项工作能够激励其他方法利用图论的结果来开发高效的网络架构。1介绍卷积神经网络（CNN）在各种机器学习应用中实现了最先进的结果[1，2，3，4]。然而，它们也是计算密集型的并且消耗大量的计算能力和运行时存储器。在VGG网络[5]成功之后，由于范围广泛，人们对设计紧凑的神经网络架构产生了极大的兴趣。重视基于移动和嵌入式设备的用例的应用程序这表明这些作者对这项工作做出了同样的贡献。2A. Prabhu，G. Varma和A. 南布迪里Fig. 1. 流行的稀疏近似对网络中的全局信息流是不可知的，可能会创建断开的组件。相比之下，基于扩展图的模型产生稀疏但高度连接的网络。ResNet[6]和DenseNet-BC[3]将卷积层的有效设计的重点放在增加连接性上与先前层的剩余连接的额外连接提供了通过网络的有效信息流，使它们能够实现存储和计算需求的数量级降低。我们从这些方法中获得灵感，专注于设计高度连接的网络。我们探索通过设计保留连接属性的稀疏网络来提高网络效率最近的架构，如MobileNet[7]，将效率提高了一个数量级然而，为了实现这一点，他们通过从训练的网络中删除几个连接来稀疏网络，从而降低了其在此过程中的准确性。我们问一个基本的问题：如果我们试图最大化连接属性和信息流，我们是否可以在准确性损失最小的情况下实现相同的效率增益？连接必须允许信息轻松地在网络中流动。也就是说，每个输出节点必须至少具有对先前层的特征敏感的能力。正如我们可以看到从图。1，诸如修剪的传统模型压缩技术可能会加剧该问题，因为它们可以修剪层的神经元连接，同时不知道网络的全局连接性具有良好代表性的必要条件是通过网络的有效信息流，深度扩展器网络3其特别适合于通过曲线图来建模。我们建议根据称为扩展图的特定图形构造来建立神经元之间的连接（在CNN的情况下是它们在谱图论[8]和伪随机性[9]中得到了广泛的研究，并且已知是稀疏但高度连通的图。扩展图在理论计算机科学中有着悠久的历史，也被用于计算机网络，构造纠错码和密码学中的实践（有关调查，请参见[10]）。主要贡献：（一）我们建议使用扩展图来表示深度网络中的神经元连接（见第3节）。我们进一步证明了X-网具有强连通性（见定理1）。ii.）我们提供了使用稀疏矩阵的卷积（X-Conv）层的内存高效实现，并提出了一个快速的扩展器特定算法（见第4节）。iii.）我们根据经验将X-Conv层与具有相同稀疏性水平但连接性较差的分组卷积进行比较。当这两种技术都应用于在Imagenet上训练的MobileNet架构时，X-Conv层的准确率提高了4%（见第5节）。①的人。iv.）我们还通过将该技术应用于一些最先进的模型（如DenseNet-BC和ResNet）来证明我们方法的鲁棒性，从而获得更好的性能权衡（参见第5节）。2）的情况。（五）此外，我们简单的设计实现了可比的压缩率，甚至国家的最先进的训练修剪技术。(see第5款. （3）第三章。vi.）由于我们在训练阶段本身之前强制执行稀疏性，因此与修剪技术相比，我们的模型本质上是紧凑的，并且训练速度更快。我们利用这一点，展示更广泛和更深入的性能X-Net（参见第5节。（五）。2相关工作我们的方法在于训练修剪技术和高效层设计技术的交叉点。我们提出了一个关于这两个方向的详细文献调查。2.1高效的层设计目前，人们对开发新的卷积层/块并有效地利用它们来改进像[11，7，12]这样的架构有着广泛的兴趣。这种微架构设计与我们的工作方向相似。相比之下，类似[4]的方法试图通过连接预先存在的块来设计宏架构最近的并行工作是有效地执行架构搜索[13，14，15，16]。我们的工作是对架构搜索技术的补充，因为我们可以利用其优化的宏观架构。另一种高效的架构设计是分组卷积：它首先在AlexNet[1]中提出，最近由MobileNets[7]和XCeption[17]架构推广。这是当前研究的一个非常活跃的领域，提出了许多新的并行工作[18，19，20]。有趣的是，最近在设计精确的深度网络方面的突破[6，3，21]主要是通过引入额外的连接来实现的。4A. Prabhu，G. Varma和A. 南布迪里信息在深层网络中的高效流动这使得能够训练紧凑、准确的深度网络。这些方法以及分组卷积与我们的方法密切相关。2.2网络压缩已经引入了几种方法来压缩预训练的网络以及训练时间压缩。模型通常从低秩分解[22，23，24]到网络修剪[25，26，27，28]。还有一个主要的工作是在训练时间量化网络以实现效率[29，30，31，32，33，34，35]。训练时间中修剪权重的问题已经被广泛探索[36，37]，主要是从权重级别[38，39，40，41]到通道级别修剪[42，37，36]。权重级修剪具有最高的压缩率，而通道级修剪更容易实际地开发，并且具有几乎与前者相当的压缩率。因此，通道级修剪目前被认为是优越的[42]。通道级修剪方法开始时没有稀疏性指导[43]，最终添加了约束[44，45，46]，倾向于更结构化的修剪。然而，据我们所知，这是通过图论方法来约束神经网络连接以改进深度网络架构设计的第一次尝试。请注意，我们在训练期间不会修剪权重3方法最近CNN架构的突破，如ResNet[47]和DenseNet-BC[3]，是基于增加连接性的想法，这导致了更好的性能权衡。这些工作表明，连通性是提高深度CNN性能的重要属性。在这种情况下，我们研究的方法，同时显着稀疏它们之间的连接保持神经元之间的连接。这样的网络被期望保持准确性（由于连通性），同时是运行时高效的（由于稀疏性）。我们将在后面的章节中以经验证明这一点。3.1图和深度CNN我们将神经元之间的连接建模为图。这使我们能够从图论中杠杆化研究得很好的概念，如扩展图。现在，我们继续正式描述图和深度CNN之间的连接。由图定义的线性层：给定一个具有顶点U，V的二分图G，由G定义的线性层是一个具有|U|输入神经元，|V|输出神经元，并且每个输出神经元v ∈ V仅连接到由G给定的邻居。设图G是稀疏的，只有M条边。则该层仅具有M个参数，与|V |×|U|这是典型线性层的尺寸。由图定义的卷积层：设一个卷积层被定义为一个二分图G，其顶点U，V和窗口大小为c × c。深度扩展器网络5此图层采用3D输入，|U|通道并生成3D输出|渠道|channels.对应于顶点v∈V的输出通道仅使用对应于v的邻居的输入通道来计算。设G是稀疏的，只有M条边。因此，该卷积层的内核具有M× c × c参数与|V |× |U |× c × c，这是vanilla CNN层中的参数数量。3.2稀疏随机图我们希望约束卷积层以形成稀疏图G。没有任何先验知识的数据分布，我们从随机化算法的灵感，并建议选择邻居的每个输出neu- ron/通道均匀和独立地随机从它的所有输入通道的集合。已知以这种方式获得的图G属于被称为扩展图（Expander Graphs）的被充分研究的图的类别，已知扩展图是稀疏的但良好连接的。扩展器图形：一个度为D、谱隙为γ的二部扩张图G =（U，V，E）（E是边的集合，E U × V），其中：1.稀疏性：V中的每个顶点在U中只有D个邻居。我们将使用D的结构<<|U|. 因此，边的数量仅为D × |V|相比|U| × |V|在一个稠密图中。2.）的情况。光谱间隙：绝对值第二大的特征值邻接矩阵的λ远离D（最大特征值）有界。形式为1 − λ/D ≥ γ。随机扩展器：一个在两个顶点集U，V上的D度随机二部扩张图是这样一个图，其中对于每个顶点v ∈ V，D个邻居是从U独立均匀地选择的。这是图论中一个众所周知的结果，即这样的图具有大的谱隙（[9]）。与随机扩展器类似，存在几种显式扩展器构造。关于显式扩展器的更多我们现在继续给出具有由扩展图定义的连接的深度网络的构造扩展器线性层（X-线性）：线性扩展器（X-Linear）层是由具有度D的随机二分扩展器G定义的层。我们使用的扩展图的值为D<<|U|，同时具有K≈D的扩展因子，这确保了层仍然具有良好的表现力。扩展卷积层（X-Conv）：扩展卷积（X-Conv）层是由度为D的随机二分扩展图G定义的卷积层，其中D <<|U|.深度扩展器网络（X-Nets）：给定扩展图G1=（V0，V1，E1），G2=（V1，V2，E2），···，Gt=（Vt−1，Vt，Et），我们将深度扩展器卷积网络（卷积X-Net或简称为X-Net）定义为t层深度网络，其中卷积层由X-Conv层代替，线性层由相应图定义的X-Linear层代替6A. Prabhu，G. Varma和A. 南布迪里图二. 提出了X-Conv层的快速卷积算法。我们将X-Conv层的权重矩阵中的所有非零滤波器表示为D通道的压缩密集矩阵。该算法通过使用在初始化模型时创建的掩模从输入（具有替换）选择D通过将这些选择的通道与压缩的权重矩阵进行卷积来计算输出3.3连通性措施在这一小节中，我们描述了Expander图的一些连通性性质（参见[9]的证明）。这些将用于证明X网中随机游动的灵敏度和混合特性。展开：对于每个大小≤ α的子集SV|V|（α∈（0，1）取决于构造），设N（S）是邻域的集合。然后|N（S）|≥K|S|为K≈D。也就是说，S中的顶点的邻居几乎是不同的。已知随机展开子具有展开因子K≈D（见定理4.4在[9]中）。小直径：图的直径是所有最短路径中最长路径的长度若G（U，V，E）是D-正则扩张子，扩张因子K>1，直径d，则d≤O（logn）.这个直径上的界限意味着对于任何一对顶点，在图中存在长度为O（logn随机游动的混合：图中的随机游动快速收敛到图的节点上的均匀分布。如果我们从任意一个顶点开始，并一直移动到一个随机的邻居，在O（logn）的步骤中，分布将在顶点集上接近均匀。3.4X网络的灵敏度X-Net有多个层，每个层都有从扩展图导出的连接。我们可以保证这样的网络中的输出节点对所有输入节点都是敏感的。深度扩展器网络7定理1（X网的灵敏度）。设 n是网络的输入输出节点数， G1，G2，…，Gt是D正则二部扩张图，两边都有n个节点. 然后，每个输出神经元对由深度t = O（log n）的Gi定义的深度X网络中的每个输入敏感。证据对于每一对输入和输出（u，v），我们证明了在X-Net中存在一条路径。证明基本上是有关的事实，即膨胀图的直径为O（logn）。详细的证明可以在补充材料中找到。接下来，我们展示了一个更强的连接属性，称为X网的混合。该定理本质上说，输入和输出节点的子集之间的边的数量与它们的大小的乘积成比例。这个结果意味着，连接属性是均匀的，丰富的所有节点，以及相同大小的节点的子集简单地说，所有节点都具有同样丰富的代表性。定理2（X网中的混合）。设n为网络的输入输出节点数，G为D正则二部扩张图，图的两边各有n个节点。设S、T是由G定义的X-Net层中的输入和输出节点的子集。S和T之间的边数≈ D|S||不|/n证据补充材料中提供了详细的证明。4高效算法在本节中，我们将介绍X-Conv层的高效算法我们的算法实现了加速和节省内存的训练以及推理阶段。这使得人们能够在给定内存和运行时间限制的情况下对更宽更深的网络进行实验。我们利用扩展图的结构稀疏性来设计快速算法。我们提出了两种训练X-Nets的方法，两者所需的内存和计算成本都比普通的方法少得多：1) 使用稀疏表示2) 扩展器专用快速算法。4.1使用稀疏表示扩张图的邻接矩阵对Dn是高度稀疏的。因此，我们可以用对应于扩展图的边缘的非零条目来初始化稀疏矩阵。与大多数修剪技术不同，稀疏连接在训练阶段之前确定，并保持固定。密集-稀疏卷积很容易实现，并且得到大多数深度学习库的支持。像Cuda-convnet[48]这样的CNN库支持这种随机稀疏卷积算法。8A. Prabhu，G. Varma和A. 南布迪里算法1：用于X-Conv层中的卷积的快速算法1：对于每个顶点v∈ {1，···，n}，设N（v，i）表示v（i∈ {1，···，n}）的第i个邻居{1，···，D}）。2：设Kv是与第v个输出通道相关联的大小为c×c×D×3：令0v[x，y]为位置x，y处的第v个通道的输出值。4：对于v= l至n，do5：Ov[x，y]=Kv*MaskN（v，1），···N （v，D）（I）[x，y].4.2基于X-Net的快速稠密卷积接下来，我们提出了快速算法，利用扩展图的稀疏性X-Conv：在X-Conv层中，每个输出通道只对输入通道的我们建议使用掩码来选择输入的D个通道，然后与c×c×D×1内核卷积，在输出中获得每个滤波器的单个通道通过从集合{1，···N}中均匀地选择D个样本（没有替换）来获得掩码，其中N是输入声道的数量。每个选定D通道的掩码值为1，其他通道的掩码值为0（参见算法4）。①的人。这在图2中示出。最近有关于快速CUDA实现的工作，称为块稀疏GPU内核[49]，可以有效地实现该算法。5实验和结果图三. 使用在ImageNet上训练的MobileNet架构比较分组卷积和X-Conv。X-d或G-d表示使用X-Conv或Groups将1x 1 conv层压缩d次。我们观察到X-MobileNets在增加稀疏性的准确性上击败了Group-MobileNet 4%。深度扩展器网络9(a)CIFAR10（b）CIFAR100见图4。我们在CIFAR 10和CIFAR 100数据集上使用X-DenseNet-BC显示了DenseNet-BC我们观察到X-DenseNet-BC比DenseNet-BC模型实现了更好的性能权衡对于每个数据点，我们提到了X-C-D-G符号（见5.2节）以及准确度。在本节中，我们将对X-Nets在各种CNN架构上的有效性进行基准测试和经验证明我们的代码可在：https：//github.com/DrImpossible/Deep-Expander-Networks网站。5.1与分组卷积的比较首先，我们将扩展卷积（X-Conv）与分组卷积（G-Conv）进行比较。我们选择G-Conv，因为它是一种流行的方法，许多并行工作[18]已经发展了他们的想法。G-Conv网络具有与X-Conv网络相同的稀疏性，但仅缺乏连通性。这将测试增加连接性是否会增加准确性，即没有良好连接性的图是否会提供更差的准确性？我们选择MobileNet作为本实验的基础模型，因为它是高效 CNN 架构中最先进的。我们使用MobileNet-0.5在ImageNet分类任务中比较了X-Conv与分组卷积。我们将MobileNet-0.5中的1 ×1卷积层替换为形成X-MobileNet-0.5的X-Conv层。0.5. 类似地，我们用G-Conv层替换它们以形成Group-MobileNet-0.5。请注意，我们仅在具有最多参数的层中执行此操作（在[7]的表1中给出的第 8 层之后）。我们在图 3 中展示了我们的结果。参考原始MobileNet-0.5的误差为36.6%，成本为1.5亿FLOPs。补充材料中给出了其他实施细节。我们可以观察到，当我们增加稀疏性时，X-MobileNets在准确性这也说明了X-10A. Prabhu，G. Varma和A. 南布迪里Conv可以用来进一步提高效率，即使是像MobileNet这样最高效的架构。5.2与高效CNN架构的比较在本节中，我们测试了Expander Graphs是否可以在ImageNet [50]数据集上改进最先进的架构，如 DenseNet-BC [3] 和 ResNets[47] 我们还在CIFAR-10和CIFAR-100 [51]数据集上训练了DenseNet-BC，以证明我们的方法在数据集上的鲁棒性我们的X-ResNet-C-D是一个D层ResNet，除了第一层和最后一层之外的每一层都被一个X-Conv层所取代，该层将它与前一层之间的连接压缩了一个系数C。我们比较了各种模型，如ResNets-34，50，101。类似地，我们的X-DenseNet-BC-C-D-G架构具有深度D和增长率G。我们使用DenseNet-BC-121- 32，169 - 32，161 - 48，201 -32作为基本模型。这些网络中除了第一层和最后一层之外的每一层都被一个X-Conv层所取代，该X-Conv层将其与前一层之间的连接压缩了一个系数C。补充材料中提供了更多细节模型精度浮点数ResNet(in100M）X-ResNet-2-3469.23%35X-ResNet-2-5072.85%40ResNet-3471.66%70X-ResNet-2-10174.87%80ResNet-5074.46%80ResNet-10175.87%160DenseNet-BCX-DenseNet-BC-2-121 百分之七十点五28X-DenseNet-BC-2-16971.7%33X-DenseNet-BC-2-20172.5%43X-DenseNet-BC-2-16174.3%55DenseNet-BC-121百分之七十三点三55DenseNet-BC-16974.8%65图五.我们将误差显示为#FLOPs的函数，以在ImageNet数据集上比较ResNet和X-ResNet我们观察到X-ResNet比原始ResNet模型实现了更好的性能权衡表 1. ResNet 和 DenseNet-BC 模型在ImageNet数据集上获得的结果，按#FLOPs排序。或每个数据点，我们使用X-C-D-G符号（见5.2节）以及精度。5.3修剪技术比较我们在图5中绘制了X-ResNets与ResNets的性能权衡。与原始模型相比，我们实现了显着更好的性能权衡。更具体地说，我们可以将ResNets中的FLOPs数量减少一半，而准确率仅下降1-1.5%此外，我们可以在表1的帮助下比较具有相似#FLOP或准确性的模型。我们观察到，X-ResNet- 2-50的FLOP比ResNet-34少43%，但在FLOP方面实现了1%的改进。深度扩展器网络11方法精度#参数培训Li等人[37]第三十七届Liu等人[第四十二届]百分之九十三点四百分之九十三点八5.4M2.3M✗✗X-VGG16-1X-VGG16-2百分之九十三点四93.0%1.65M（9x）1.15M（13x）✓✓VGG 16-原始94.0%15.0M-表2.使用VGG 16作为CIFAR-10数据集与其他方法的比较基本模型我们显著优于流行的压缩技术，实现了高达13倍的压缩率类似的精度。准确度对它。类似地，X-DenseNet-BC-2-161与DenseNet-BC-121具有相似的#FLOP，但准确度提高了1%。为了进一步证明我们的方法在DenseNet-BC上的鲁棒性，我们在CIFAR 10和CIFAR 100上进行了测试，并在图4中绘制了权衡曲线。我们观察到，我们可以在CIFAR-10和CIFAR-100数据集上实现高达33%的压缩，保持精度不变。我们将我们的方法与在训练期间或之后修剪权重的方法进行比较。我们的方法可以被认为是在训练开始之前就用一个经过充分研究的稀疏连接模式来约束权重这导致紧凑X-Conv模型的快速训练，而训练的修剪技术面临以下挑战：1) 由于全密集模型，初始训练缓慢。2) 几个额外的修剪和再培训阶段。因此，他们实现的紧凑性和运行时的效率，只有在测试时间。然而，我们表明，类似的稀疏性，可以实现我们的方法，而无需显式修剪。我们对VGG16和AlexNet架构进行基准测试，因为修剪文献中的大多数先前结果都是在这些架构上报告的。在表2中，我们将两个X-VGG-16模型与现有的修剪技术进行了比较。我们实现了与之前最先进的模型相当的精度，参数和FLOPs数减少了50%类似地，在表3中，我们将X-AlexNet与Imagenet数据集上的训练剪枝技术进行了比较。尽管由于参数仅集中在最后三个完全连接的层中而导致连接性较差，但我们仅使用61 M中的7.6M-9.7M参数实现了与AlexNet模型相似的准确性，与具有高达3.4M-5.9M参数的最先进的修剪技术相当此外，有可能通过在我们的紧凑架构上应用修剪方法来改善压缩，但是修剪X-Nets超出了我们当前工作的范围。12A. Prabhu，G. Varma和A. 南布迪里方法精度#参数培训加速？网络修剪Collins等人[五十二]55.1%15.2M✗Zhou等人[45个]54.4%14.1M✗Han等人[三十一]百分之五十七点二6.7M✗Han等人[三十一]百分之五十七点二6.7M✗Srinivas等人[第四十四届]56.9%5.9M✗Guo等人[41个]56.9%3.4M✗X-AlexNet-155.2%7.6M✓X-AlexNet-256.2%9.7M✓AlexNet-Orig百分之五十七点二61M-表3.与ImageNet-2012上使用AlexNet作为基础的其他方法的比较模型我们仅使用9.7M参数就能够实现相当的精度5.4模型的稳定性我们给出了经验证据，以及我们的方法的稳定性的理论论据。对于vanilla DNN训练，权重被随机初始化，并且使用诸如退出、增强等随机技术。因此，存在一些随机性，并且在我们的方法之前在DNN文献中被广泛接受我们在不同的数据集（Imagenet和CIFAR10）和架构（VGG，DenseNet和MobileNet0.5）上重复实验，以经验证明基于扩展器的模型的准确性在多次运行中具有类似于普通DNN训练的方差我们在CIFAR10数据集上的VGG和DenseNet基线上重复了随机扩展器的独立采样实验。结果可见于表4中。应注意，准确度值的变化仅小于0。3%，并且扩展器方法的标准偏差也与vanilla DNN训练相当。我们还重复了我们的主要结果的实验，这是与ImageNet数据集上的分组卷积的比较。我们用MobileNet0.5特征提取器用Groups和扩展器方法重新运行了两次实验。从表5中可以看出，两种模型之间的精度变化相当，并且小于1%。一个或多个传统的语法操作表明，choose和om grap不会降低稳定性。随机图理论中的一个著名结果（见[ 9]中的定理4.4）是随机选择的图以压倒性的高概率（由于f的T界的C h e n，只有逆指数的小误差）很好地连通，并且满足E x p和p r p r p e r t i e s。因此，对于特定的运行，由于选择了特别糟糕的连接图而影响准确度是不重要的。深度扩展器网络13模型准确度%最大值%最小%VGG93.96±0. 1294.1793.67X-VGG-193.31±0. 1893.6693.06X-VGG-292.91±0. 1993.2692.69XDNetBC-40-2494.41±0.1994.6394.18XDNetBC-40-3694.98±0.1495.2194.84XDNetBC-40-4895.49±0.1595.6595.28XDNetB C-40-6095.75±0.0795.8195.68表4.准确度（平均值±标准差）在CIFAR-10数据集上进行10次训练运行的各种模型。表5.在ImageNet数据集上运行2次MobileNet0.5变体的平均准确度和变异范围5.5训练更广泛和更深入的网络由于X-Nets在训练前需要将权矩阵约束为稀疏连接模式，因此快速算法可以在训练阶段有效地利用内存和运行时间。这使得训练显著更深更广的网络成为可能。请注意与修剪技术的对比，在修剪技术中，有必要训练完整的庞大模型，从而限制了可以压缩的模型的Wide-DenseNets1提供了更好的精度-内存-时间权衡。我们增加了这些网络的宽度和深度，以训练更宽更深的网络。目的是研究以这种方式利用X-Nets的有效性是否可以提高准确性。我们扩大和深化了DenseNet-BC-40-60架构，将增长率分别从60增加到100和200，并比较了增加宽度对这些新模型的影响同样，我们将深度从40增加到58和70，以获得更深的网络。我们使用CIFAR-100数据集对这些方法进行基准测试，并在图6中显示结果。我们有两个有趣的观察。首先，更深的X-DenseNet-BC-70- 60显著优于X-DenseNet-BC-58-60，更宽的X-DenseNet-40- 200优于X-DenseNet-BC-40-100，对于广泛的C值（Expander degree）具有更少的参数。第二个有趣的观察结果是曲线的斜率逐渐减小。这表明扩展器图建模似乎对更宽和更深的X-Net有效，即X-DenseNet-BC模型随着深度和宽度压缩的增加而受到较小的惩罚。这使得X-Nets能够以30倍的高压缩率工作，将DenseNet-BC-40-200模型从19.9B FLOPs压缩到0.6B FLOPs，仅需4.准确度下降3%。我们希望这个初步的调查具有重要的价值，在减轻GPU的内存和资源的限制1https://github.com/liuzhuang13/DenseNet#wide-densenet-for-better-timeaccuracy-and-memoryaccuracy-tradeoffMobileNet变体是说精度范围（最大值-最小值）基地63岁百分之三十九0的情况。百分之十一G2X2五十七百分之四十五五十八百分之二十二0的情况。06%0的情况。百分之十四14A. Prabhu，G. Varma和A. 南布迪里(a) （b）深度的影响图六、我们展示了在CIFAR-100数据集上训练更广泛和更深入的网络所获得的性能权衡每个数据点都是X-C，与参数的数量一起指定，C是压缩因子。我们表明，使用X-Nets训练更宽或更深的网络以及更多的压缩，可以在CIFAR-100数据集上获得高达三分之二的总参数和FLOPs的更好的准确性。6结论我们提出了一种新的网络层架构，用于使用扩展图的深度网络由此产生的architecture（X-Net）被证明是非常有效的计算要求和模型大小方面除了紧凑和计算效率，网络的连接特性使我们能够实现显着的改进，在性能上的参数或运行时预算的最先进的架构。简而言之，我们表明，使用稀疏化模型同时保持全球信息流的原则性方法可以帮助开发高效的深度网络。据我们所知，这是第一次尝试使用图论的理论结果来建模连接性，以改善深度网络架构。我们相信，深度网络领域可以从其他类似的探索中获益引用1. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：具有深度概念的图像网分类。In：NIPS. （2012）10972. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射In：ECCV，Springger（2016）6303. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。CVPR（2017）4. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D. ， Vanhoucke ， V. ， Rabinovich ， A. ：更深的回旋。在： CVPR 中。(June2015）1深度扩展器网络155. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。CoRR abs/1409.1556（2014）6. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：CVPR中。(June（2016年）7. Howard，A.G.，Zhu，M.，陈伯，Kalenichenko，D.王伟，Weyand，T.，安德里托，M.，Adam，H.：Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861（2017）8. Spielman，D.A.：谱图理论及其应用。见：FOCS 2007年。（2007年10月）299. Vadhan，S.P.：伪随机性FoundationsandTrendsinTheoreticalComputerScience7（13）（2012）110. Hoory，S.，Linial，N.，Wigderson，A.：扩张图及其应用。BULL。AMER。MATH. SOC. 43（4）（200 6）43911. Iandola，F.N.，汉，S.，Moskewicz，M.W.，Ashraf，K.，戴利，W.J.，Keutzer，K.：Squeezenet：Alexnet级别的精度，参数减少50倍，模型大小为0.5mb。ICLR（2017）12. 胡， J ， Shen ， L. ， Sun ， G. ：压缩 - 激励网络。 arXiv 预印本 arXiv ：1709.01507（2017）13. 刘洪，西蒙尼扬，K.，Vinyals，O.，Fernando，C. Kavukcuoglu，K.：用于高效体系结构搜索的分层表示。arXiv预印本arXiv：1711.00436（2017）14. 佐弗湾，Vasudevan，V.，Shlens，J.，Le，Q.V.：可扩展图像识别的学习可转移架构。arXiv预印本arXiv：1707.07012（2017）15. Zhong，Z.，Yan，J.，Liu，C.L.：用q学习设计实用网络模块。arXiv预印本arXiv：1708.05552（2017）16. 刘， C. ，佐弗湾，Shlens ， J. ，Hua ， W. ，Li ， L.J.，Fei-Fei ， L.Yuille，A.，黄，J.，Murphy，K.：渐进式神经架构搜索。arXiv预印本arXiv：1712.00559（2017）17. Chollet，F.：Xception：使用深度可分离卷积的深度学习。CVPR（2017）18. 张，X.，Zhou，X.，中国科学院，Lin，M.，孙杰：Shufflenet：一个非常有效的卷积神经网络的移动设备。arXiv预印本arXiv：1707.01083（2017）19. Sandler，M.，Howard，A.，Zhu，M.，Zhmoginov，A.，Chen，L.C.：反演残差和线性瓶颈：用于分类、检测和分段的移动网络。arXiv预印本arXiv：1801.04381（2018）20. Huang，G.，Liu，S.，范德马滕湖，Weinberger，K.Q.：冷凝网：一个有效的密集网使用学习组卷积。arXiv预印本arXiv：1711.09224（2017）21. Xie，S.， Gir shi ck，R.， Do ll'ar，P.， Tu，Z.， He，K. ：Agregatedd eddidurtr n s a t r t rns a t r t t rns a t r t t r n s a t r t t rte d d e d t r n s a t r t t r n sa t r t t r n s at r t t r t t r t t r t t r ttr tt 注册号：CVPR，IEEE（2017）598722. Sainath，T.N.，金斯伯里湾Sindhwani，V.，Arisoy，E.，Ramabhadran，B.：低秩矩阵分解用于具有高维输出向量的深度神经网络训练。注册号：ICASSP，IEEE（2013）665523. Novikov，A.，Podoprikhin，D.，Osokin，A.，Vetrov，D.P.：张量化神经网络。 In：NIPS. （2015）44224. Masana，M.，van de Weijer，J.，赫兰茨湖Bagdanov，A.D.，Malvarez，J.：域自适应深度网络压缩。网络16（2017）3025. 布伦德尔角Cornebise，J.，Kavukcuoglu，K.，Wierstra，D.：神经网络中的权重不确定性。ICML（2015）26. 刘，B.，王，M.，Foroosh，H.，Tappen，M.彭斯基，M.：稀疏卷积神经网络工作。 In：CVPR. （2015）80 616A. Prabhu，G. Varma和A. 南布迪里27. 他，Y.，张，X.，孙杰：用于加速深度神经网络的通道修剪。CVPR（2017）28. Molchanov，P. Tyree，S.，Karras，T.，Aila，T. Kautz，J.：修剪卷积用于资源高效推理的神经网络。 ICLR（2017）29. Rastegari，M.，Ordonez，V.，Redmon，J.，Farhadi，A.：Xnor-net：使用二进制卷积神经网络的Imagenet分类。In：ECCV. （2016年）30. Courbariaux，M.，Bengio，Y.：Binarynet：使用Binarynet训练深度神经网络权重和激活约束为+1或-1。ICML（2016）31. 汉，S.，毛，H.，Dally，W.J.：深度压缩：压缩深度神经网络-使用修剪，训练量化和霍夫曼编码。ICLR（2016）32. 吴，J.，Leng，C.王玉，胡Q Cheng，J.：量化卷积神经网络移动设备的新工作。 In：CVPR. （2016）482033. Bagherinezhad，H.，Rastegari，M.，Farhadi，A.：Lcnn：基于查找的卷积神经网络。CVPR（2017）34. Zhu，C.，汉，S.，毛，H.，Dally，W.J.：经过训练的三进制量化。ICLR（2017）35. Zhou，S.，吴，Y.，Ni，Z.，Zhou，X.，中国科学院，温，H.，Zou，Y.：Dorefa-net：用低位宽梯度训练低位宽卷积神经网络ICLR（2016）36. Wen，W.，吴，C.，王玉，陈玉，Li，H.：学习结构化稀疏性设计您的工作。 In：NIPS. （2016）207437. Li，H.，Kadav，A.，杜尔达诺维奇岛，Samet，H.，Graf，H.P.：修剪过滤器以实现高效的卷积。ICLR（2017）38. Lebedev，V.，Lempitsky，V.：使用分组脑损伤的快速转换。于：C VPR. （2016）255439. Scardapane，S.，Comminiello，D.，Hussain，A.，Uncini，A.：组稀疏正则化，用于两个任务。《国家标准》241（2017）8140. Srinivas，

下载后可阅读完整内容，剩余1页未读，立即下载