酉群卷积：构建高效深度神经网络的新方法

105 浏览量更新于2023-10-17 收藏 615KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11303使用酉群卷积构建高效的深度神经网络赵玉伟胡乔丹·多泽尔克里斯托弗·德萨智如张康奈尔大学Ithaca，NY 14853，USA{rz252，yh457，jad443}@ cornell.edu，cdesa@cs.cornell.edu，zhiruz@cornell.edu摘要我们提出了酉群卷积（UGConvs），这是CNN的一个构建块，它在特征空间中用酉变换组成群卷积，以学习比单独的群卷积更丰富的表示集。UGConvs概括了CNN架构中的两个完全不同的想法，频道洗牌（即，ShuffleNet [29]）和块循环网络（即，CirCNN[6]），并提供统一的见解，导致对每种技术的更深入的理解。我们通过实验证明，密集酉变换在DNN准确性方面优于信道重排。另一方面，不同的密集变换表现出相当的精度性能。基于这些观察，我们提出了HadaNet，一个UGConv网络，使用Hadamard变换。HadaNets实现了与循环网络相似的精度，但计算复杂度较低，并且在参数数量和浮点乘法相同的情况下比ShuffleNets具有更好的精度1. 介绍深度卷积神经网络（CNN）在解决大规模计算机视觉问题方面非常成功。过去几年的研究在提高CNN准确性方面取得同时，已经努力减少CNN中的参数和浮点乘法（fpmuls）的数量。这个研究领域的一个主要趋势是层连接越来越稀疏。早期的网络，如AlexNet[13]和VGG [19]，只使用密集映射，即卷积（conv）或全连接（FC）层，其在每个输入和每个输出特征之间形成权重连接。更高级的架构，如Xception [2]和MobileNets [8]，使用了dependable可分离卷积，它由稀疏空间映射（dependable卷积）和密集跨信道映射（逐点卷积）组成最近，Shuf-fleNet [29]用稀疏群卷积代替逐点卷积，并提出了一种通道洗牌，以允许信息在组之间流动这些对层结构的更改旨在删除重量连接，同时保留准确性性能。另一种有效的CNN研究方法是用循环或块循环1权重训练网络[1，20，6，22]。一个n×n循环矩阵只包含n个唯一的元素此外，每个循环矩阵C可以是二-通过归一化离散傅立叶矩阵F进行如下的计算C =FDF（1）通过快速傅立叶变换（FFT）产生用于矩阵乘法的渐近更快算法。通过利用循环权重的这些特性，这些工作还可以降低CNN复杂度和模型大小。在本文中，我们提出了酉群卷积（UGConv）的概念，定义为神经网络的构建块，将权重层（最常见的是群卷积）与特征空间中的酉变换相结合。我们证明了具有通道 shuf- fle （ ShuffleNet ）和块循环网络（CirCNN）的组convs是UGConvs的具体实例。通过统一CNN文献中的两条不同的工作线，我们对基本的基本思想有了更深入的了解-当在变换的特征基中执行时，组卷积表现出更好的学习能力通过一系列的实验，我们研究了不同的变换和UGConv结构对学习性能的影响。具体而言，我们的贡献如下：1. 我们提出了酉群卷积的概念。我们表明，ShuffleNets和循环网络，从两个不同的研究路线的技术这让我们统一了两部作品的概念见解。1本文讨论了块循环、块对角等。是指由正方形子矩阵组成的矩阵，这些子矩阵是循环的、对角的等。这与块对角矩阵的规范定义不同。113042. 我们评估不同的酉变换如何影响学习性能。我们的实验表明，当权重层是高度稀疏的（即，组的数目很大），密集变换优于简单置换。3. 我们提出了HadaNets，UGConv网络，使用易于计算的Hadamard变换。HadaNets以较低的计算复杂度获得与循环网络相似的精度，并且在参数和fpmul计数相同的情况下优于ShuffleNets。2. 相关工作2.1.相依可分与群卷积在传统的卷积层中，每个3D滤波器必须学习空间和交叉通道相关性。深度可分离卷积将其分为两个步骤：仅执行空间滤波的去卷积和仅学习跨信道映射的逐点卷积。这个想法起源于Sifre 2014 [18]，随后被Xcep- tion [2]和MobileNets [8]等网络推广。这些工作表明，依赖可分离卷积可以使用更少的参数和fpmuls优于传统卷积。组卷积将输入和输出特征分成相互独立的组，并在每个组中执行依赖转换是组大小为1的组转换的特定情况。组卷积是原始AlexNet的一部分，但只是为了方便在多个 GPU 上进行训练 [13]; 作为 ResNeXt [25] 和ShuffleNet [29]的一部分，它们作为高效CNN的构建块而受到欢迎。后者提出了通道洗牌，以促进跨通道的信息流，在准确性和参数效率上超过了MobileNets。交织组卷积[28，24，21]检查交织组卷积和通道洗牌，并显示了宽度和稀疏度的特定组合（即，数余弦变换以避免DFT产生的复值，并添加了第二个通道滤波器[16]。Sind-hwani等人研究了广义Toeplitz-like矩阵的超集这些作品专门工作在结构化的FC层。最近，Wang et al.[6，23]提出使用块循环矩阵，并将其应用于FC和卷积层。块循环结构优雅地解决了长期存在的非方权重矩阵问题。同一作者还利用DFT的蝶形结构在专用硬件中为循环网构建有效的加速器[6，22]。这一领域最近的后续工作建议在专用硬件中使用置换块对角矩阵[4]。2.3. 随机投影与Hadamard网络我们对随机正交和Hadamard变换的研究部分受到Fastfood变换[14]及其在CNN中的应用的启发[27]。这项工作是在机器学习中使用随机嵌入和Hadamard变换的最近的工作从Devici等人。[5]使用Hadamard变换的图像作为CNN输入。他们的工作与我们的工作有很大的不同;他们在输入图像上应用单个2D Hadamard来提取频率特征，而我们在整个网络中使用Hadamard进行通道混合。3. 酉群卷积UGConv的基本思想是在特征空间中的两个酉变换之间进行群卷积设X是到conv/FC层的M通道输入张量。每个通道都是一个2D特征图（对于密集层，月经是1×1）。设x（i）表示X中的第i个类似地，设Y为N通道输出张量，W为由M×N个滤波器组成的权重张量我们现在可以在下面定义一个普通的conv层ΣM组的BER）可以最大化准确性。Deep Roots [10]使用组卷积，随着组大小的增加，y（j）=i=1x（i）<$W（ij）， 1≤j≤N以改进现有的许多模型。与这些工作不同的是，我们研究了具有稠密酉变换的群卷积的合成。2.2. 循环和块循环网络一个n乘n的循环矩阵只需要O（n）存储空间和O（nlogn）矩阵向量乘积的运算（见等式（1））。循环权重可以减少图1（a）示出了这样的conv或致密层。请注意，尽管该图看起来像矩阵乘法，但每个正方形表示一个2D权重过滤器或特征图。一个群卷积是G个不相交卷积的集合（G是群的个数）。每个conv需要M/G个输入通道，并产生N/G个输出通道。M/G以确定性的方式计算CNN的模型大小和计算复杂度。Cheng等人在2015年，y∈（g，j）=i=1x∈（g，i）<$W∈（g，ij），1≤j≤N/G（2）在AlexNet上实现18倍的参数减少，仅损失0.7%的Top-1 精度 [1] 。其他作者提出了循环结构的变化。Moczulski等人'使用的ACDC这里g表示群（1≤g≤G），我们用两个索引（group，channel in group）重新索引x和y。图1（b）说明了组中的非零权重如何转换为11305常规转换y（j）=<$W（ij）<$x（i）我组转换y（g，j）=<$W（g，ij）<$x（g，i）我（一）*=（b）第（1）款*=块对角Convy（j，d）=<$W（ij，d）<$x（i，d）i块循环Conv（c）第（1）款*=（d）其他事项*=块循环卷积（通过分解��）（e）*图1. 组convs和循环权重之间的关系（a）规则conv层;（b）具有2个组的组conv;（c）相同的组conv重新排序以显示块对角权重结构;（d）块循环conv层;（e）相同的块循环conv分解成块DFT和块对角conv层。沿着主对角线形成M×N个块一组转换器酉矩阵变换应用元素的方式在GG将参数大小和fpmuls减少了G倍（相对于一个普通的conv。然而，这是通过移除组之间的所有权重连接来实现的，并对学习行为产生负面影响。UGConv通过在两个交叉通道酉变换P和Q之间对组Conv 进行沙夹来恢复这种丢失的学习能力（图 2（a））。更正式地说，我们可以定义一个UGConv为：输入和输出通道。我们使用波浪号（x，y，W）表示-在变换后的特征空间中选择张量。注意：（1）P和Q可以是单位变换，因此UGConv包括群卷积;（2）幺正变换保持内积，因而不应减小网络的梯度幅度;（3）UGConv也可以应用于FC层（使用1×1特征图和1×1组conv）。M/GX~k= PXk要做的一个关键点是群卷积和具有块对角权重的卷积（即，由正方形对角线的子块组成的权重y∈（g，j）=i=1x∈（g，i）<$W∈（g，ij），1≤j≤N/GYl=QYl（三）矩阵）。图1（c）示出了块对角conv，其在视觉上已经看起来与图1（b）中的组conv相同更正式地说，将X和Y分成大小D×1子块，W分成D×D子块，对于包含M个通道的张量X，Xk被定义为M-长度向量，通过从每个通道中获取第k个元素/像素形成 P∈CM×M和Q∈CN×N是奥纳。令i索引输入子块（0≤i≤M/D-1），j索引输出子块（ 0≤j≤N/D-1 ）， d 索引每个子块内的通道（1≤d≤D）。我们11213141122232421323334314243444=X1X2X3X4y1y2y3y41,11 1,211,12 1,222,11 2,211,12 1,22x1.1x1.2x2.1x2.2y1，1y1，2y2，111,121,111,221,212,122,112,222,2x1.1x1.2x2.1x2.2y1，1y1，2y2，11234214356786587X1X2X3X4y1y2y3y4F*F*13245768FFX1X2X3X4y1y2y3y411306（一）（b）第（1）款（c）第（1）款图2. CNN块架构-（a）用于酉群卷积的通用块;（b）从原始论文复制的ShuffleNet块[29];（c）我们提出的HadaNet变体。请注意，ShuffleNet和HadaNet块都包含UGConv模式。可以将块对角conv表示为：M/D−1y（j<$D+d）=x（i<$D+d）<$W（i<$D+dj<$D+d）i=0时仅需要对每个D×D子块执行D转换，因为它们是对角的。类似于等式2，我们可以通过使用元组（子块，子块中的通道）重新标记来简化表示法。这就去掉了乘以D的操作，并允许i和j从1开始。然后又道：男/女3.2. UGConv和循环网络循环和块循环神经网络[6，23]利用层对其权重张量施加块循环结构。对于FC层，使2D权重矩阵是循环的。对于卷积层，循环结构应用于输入和输出通道轴.也就是说，给定具有形状（高度、宽度、通道内、通道外的4D卷积权重张量，该张量[i，j，：，：]的每个2D切片变为循环的。图1（d）示出了块循环层，其中每个y（j，d）=i=1x（i，d）<$W（ij，d），1≤j≤N/D（4）权张量的2×2子块是循环的。通过公式（1），每个D×D循环矩阵可以被分解很容易看出公式4与公式2相匹配。3.1. UGConv和ShuffleNetShuffleNet是MobileNets架构的一个变体，其中逐点卷积（占用93。4%的乘法-累加运算[29]）被转换为群卷积。然而，当多个组convs堆叠在一起时，在许多层上的组之间缺乏连接阻止了为了解决这个问题，ShuffleNet以固定的循环方式对输出通道组进行混洗-对于每个组，第一个通道被混洗到组1，第二个通道被混洗到组2，等等。这种混洗可以被表示为特征空间中的置换，并且ShuffleNets因此是UGConvNets的示例，其中P是单位元并且Q是固定置换矩阵。ShuffleNet的实验表明，以在堆叠组conv时在组之间混洗信息。然而，混洗信道并不是实现这种信息混合的唯一方式。身份1x1组转换总和频道混洗1x1组转换3x3独立Conv阿达玛区块1x1组转换总和阿达玛区块1x1组转换3x3独立Conv酉变换Q群卷积酉变换P11307分解为D长度的DFT、对角矩阵和相应的IDFT。在图1（e）中，每个D×D子块以这种方式对角化我们使用波浪线来表示DFT变换空间中的权重值由此产生的权重结构是块对角的，权重层位于两个块DFT变换。我们从上一节知道，块对角权重对应于群卷积。因此，块循环层只是变换特征空间中的。这当然属于UGConv的定义，其中P和Q是块DFT/IDFT变换。注意，这些DFT沿着通道应用，因此循环网络不检查图像的空间频率分量。我们对块循环层做一些额外的说明。首先，循环块D的大小相等相等的组conv中的组数（而不是组大小）。因此，每个D长度的DFT接触每个组中的单个通道，充分混合组之间的信息. 其次，虽然我们的例子使用了一个“平方”权重张量（即，M=N），非正方形块循环张量11308也可以对角化。只要M和N都能被D整除，“矩形”权重张量就在这种情况下，P∈CM×M不是Q∈CN×N的逆，但沿表1. 阿达玛与离散傅立叶变换-DFT矩阵的元素是复数单位根。阿达玛矩阵的元素是+1或-1。最后一列示出了P=DP的结构，其中D是对角矩阵并且P是变换;差异被夸大了。P的对角线是对应子块的逆在Q.我们说P是Q的块逆。因为P和Q是块逆，如果我们直接堆叠多个这样的块，许多变换将被抵消。然而，实际的DNN包括批量范数和/或线性层之间的非线性。块DFT（和一般的正交变换）不与逐通道或逐点操作交换，这防止了triv- ial消除。然而，注意通道洗牌确实以这种方式交换和抵消。3.3. 讨论UGConvs我们提供了文献中的两个具体示例（ShuffleNet [29]和CirCNN [6]），它们将结构化稀疏权重层（群卷积）与酉变换相结合。这些转换有助于改善跨通道表示学习，而无需添加额外的参数。然而，这两种技术有重要的区别。ShuffleNet的排列是非常轻量级的，因为它们不需要算术运算。然而，置换不影响权重层的稀疏性。另一方面，CirCNN将块DFT与组卷积组合以创建有效的权重结构（即，循环权重）是稠密的。此外，它这样做的同时仍然具有比非结构化稠密权重更低的渐近计算复杂度。我们假设UGConv层的表示学习的权重以及变换的权重。非结构化的稠密权值层提供了最好的学习能力;分组引入了稀疏性，并降低了跨信道学习性能，其中一些可以通过变换来恢复。因为密集变换创建密集权重结构（即，循环权重），我们相信它们能够学习比稀疏变换更丰富的表示集（即，信道混洗）。当权重稀疏度低时（即，组的数量很小），在网络精度方面，两者之间的差异可以忽略不计。然而，我们期望密集变换在使用多个组时表现出比洗牌更好的性能。另一个区别是ShuffleNet只在权重层的一侧应用通道洗牌，而CirCNN有效地在两侧应用转换。我们使用术语单侧和双侧UGConvs来指代这两种情况，并在我们的实验中进行测试。3.4. 哈达玛变换诸如DFT之类的密集变换的一个缺点是，与DFT相比，它们需要更多的计算开销。FourierHadamard1111111ω3ω6ω91111111−1−11变换Pωω2ω2ω4−111−1ω3ω6−1−1P-3DP的结构一布吕德布拉奇badCcbaDdcb一一布布拉奇badCcdaBdcb一BDFP Mulsnlogn0FP添加nlognnlogn11309洗牌即使使用“快速”算法，每个n × n DFT也此外，DFT使用复数的事实可能进一步使软件/硬件实现复杂化。最后，在没有空间结构的通道上进行DFT-变换的存在纯粹是为了跨通道混合信息，而不是执行特定于域的分析。鉴于此，我们希望找到更有效的替代方案。Hadamard变换[17]被定义为仅包含+1/-1元素并且其行和列相互正交的矩阵表 1 显示了一个4×4Hadamard矩阵。因为所有系数具有幅度1，所以可以在没有乘法的情况下计算变换，即，使用只做加法/减法这是非常重要的，因为浮点乘法通常是GPU和专用硬件上DNN计算的计算瓶颈。此外，Hadamard变换可以像傅立叶变换一样递归地生成，这意味着快速Hadamard变换（FHT）类似于FFT存在，以在O（nlogn）加/减中计算n长度Hadamard变换[17]。FHT的递归性质还使得Hadamard内核能够在不显式存储矩阵本身的情况下实现;相反，矩阵可以在运行中生成（类似于FFT内核的现有实现）。这意味着FHT和FFT都不需要存储额外的参数。Hadamard比DFT更有效，但它能达到相同的学习性能吗？有一些高层的直觉认为情况会是这样：表1比较了当P是DFT和Hadamard时由P ≠ DP施加的权重结构。DFT的结果是一个循环矩阵; Hadamard的结果是一个几乎相同的权重矩阵，只有几个不同的元素。我们假设不会有任何指控-11310表2.在玩具MNIST网络上测试错误在transform列中，P和Q分别表示单侧conv前和conv后变换;PQ表示双侧变换。所有值均为5次运行的平均值，每个值的90%置信区间至多为±5%。层宽度变换L2L3L4没有一Rand Ortho兰德·彼尔姆Conv3x3FCFCPQPQPQPQ2020，G10占6%百分之四百分之四百分之四百分之五占6%百分之五2020，G10，G百分之二十七百分之十百分之八百分之四百分之二十七百分之二十六百分之二十五20，G20，G10百分之二十五百分之十百分之十百分之十百分之二十七百分之二十百分之二十一20，G20，G10，G百分之六十百分之二十三百分之十七百分之二十百分之五十七百分之五十五百分之五十七在神经网络中，用Hadamard-对角化权代替循环权具有很大的影响。我们进一步推测，一般情况下，密集酉变换，包括DFT和Hadamard，达到相当的学习性能。这再次是因为DNN中的信道的排序基本上是随机的（即，信道顺序不编码有用的信息），这意味着不存在可被一个特定的跨信道变换利用而不能被其它变换利用的模式。UG- Conv中的变换仅用于连接不同的通道组，并且任何密集变换都可以工作。为了验证这一假设，我们的实验与随机生成的正交变换除了DFT和阿达玛。4. 实验验证我们首先介绍了玩具MNIST网络的消融研究，然后是更深入的 CIFAR-10 模型。这些实验积累了对UGConv的见解。然后，我们使用分组ResNets和在ImageNet上训练的文献中的Shuf-fleNet模型来演示Hadamard的实用性4.1. 密集变换与洗牌我们的第一个实验使用玩具MNIST网络。这使我们能够隔离UGConv块，并在一个简单的集合中比较密集正交变换与排列。我们强调，这里的目标不是建立一个现实的分类器。下面表示层架构，其中每个层被描述为（通道数量）（层类型）：10Conv3 x3−20 Conv3 x3−20FC −10 FC我们在每个3×3conv层之前执行2×2max pooling每一层之后都是批量归一化和ReLU。我们将网络的第一个FC层（20FC1，以粗体显示）转换为UGConv块（即，它变成具有变换的分组FC）。组号等于使稀疏性最大化的通道数。从这个基础架构中，我们得到三个变体：（1）将前面的Conv 3x 3层转换为组conv;（2）转换11311跟随FC层进入组FC;（3）将两个周围层转换为组层。这些测试在堆叠组层的上下文中转换两种类型的变换进行评估：随机生成的密集正交和随机置换变换。我们使用单侧（使用P或Q中的一个，并将另一个设置为同一性）和双侧 UGConvs（P=Q−1）进行测试。所有结果在五次运行中取平均值，并且我们在运行之间重新生成随机变换矩阵表2显示了我们的结果。由于网络的尺寸很小，这些值的90%置信区间可以大到±5%。然而，转换之间的差异是清楚地表明。当L3是唯一对于网络中的分组层（第1行），变换几乎没有影响。然而，当两个或更多个组层堆叠在一起时，密集正交变换实现了改进的精度。在任何实验中，排列都没有提高这是一个清楚的（尽管是人为的）证明，当组的数量非常大时，密集变换在学习能力上优于排列。另一个有趣的观察结果是，无论UGConv块是在另一个组层之前还是之后堆叠例如，在表2的第3行中，密集正交变换即使被放置在两个组层之后也提高了准确性。令人惊讶的是，变换会影响它前面的层。但请记住，转换也会影响向后传递的梯度，允许相同的权重在反向传播期间“看到”更多的下游激活。或者，我们可以将UGConv层视为一个可学习的结构化权重层（见3.2节）-在这个角度下，权重结构是变换之前或之后的函数。4.2. 不同变换的评价我们已经证明，密集正交变换可以改善具有大组大小的小DNN中的混洗。为了在更现实的架构上验证我们的结果，我们使用ResNet [7]在CIFAR-10 [12]上进行了实验。我们使用UGConvs来替换两个3×3卷积，11312表3.CIFAR-10上UGConvs的测试误差-“基”列显示没有转换的测试误差，其他列显示测试误差相对于此基线的改进由于没有足够的时间完成实验，有些条目是空白的组数基地单侧变换双边变换ParamsS1S2S3洗牌哈达Ortho洗牌 *Fourier哈达OrthoResNet-204816百分之十九点五百分之三点三4.0%4.0%百分之三点一4.1%百分之四点二百分之三点八25K8163223.8%二点九厘百分之四点三百分之三点九4.1%百分之五点四百分之五点四百分之五点三14KResNet-56481616.0%4.0%百分之四点四百分之四点二4.0%百分之四点七百分之四点五百分之四点六76K81632百分之二十点六百分之五点四6.1%百分之六点四百分之五点八百分之七点一百分之七点二百分之六点八41KShuffleNet-29481618.3%二点七厘百分之二点四百分之三点一百分之三点八百分之四点九百分之四点五百分之四点二23K8163222.1%百分之零点六百分之三点四百分之三点六百分之三点八百分之五点一5.0%百分之五点三17KShuffleNet-564816百分之十六点二百分之三点六百分之三点五百分之三点四百分之三点九百分之四点六百分之四点五百分之四点七41K81632百分之十九点七百分之四点三百分之四点四百分之四点九百分之五点二6.0%6.0%6.0%29K是说4816百分之十七点五百分之三点四百分之三点六百分之三点七百分之三点七百分之四点六百分之四点四百分之四点三81632百分之二十一点五百分之三点三百分之四点六百分之四点七百分之四点七百分之五点九百分之五点九5.9%每个ResNet块，并替换1 ×1投影层。ResNet分为三个阶段（S1，S2，S3），后期有更多的频道。我们在后期使用更多的组，保持通道与组的比例恒定。测试了两种模型：ResNet-20（每级3个模块）和ResNet-56（每级9个模块）。我们也尝试了相同的高级架构，但使用构建-来自ShuffleNet的ing块[29]。该模块包含两个1×1conv和一个 3×3dependency conv （见图 2 （ b ））。在ShuffleNet之后，我们只在第一个1×1组conv周围应用变换，而不对第二个组conv进行任何更改。再次测试两个模型： ShuffleNet-29 （每阶段 3 个区块）和ShuffleNet- 56（每阶段6个区块）。我们使用层宽度和训练超参数，[7]并利用标准数据扩充：填充每边8个像素，随机裁剪回原始大小，并结合随机水平翻转[7，9，15]。每个网络都训练了200个epoch，我们报告了过去5个epoch的平均测试误差。我们测试以下转换：恒等（无）、ShuffleNet置换（Shuffle）、块Hadamard（哈达）、块DFT（傅立叶）和块随机正交（Or-tho）。块变换遵循3.2节中描述的相同结构。对于每个变换，在合理的情况下测试单侧（假设Q是变换和P恒等式）和双侧（P和Q是块逆）版本。单侧DFT被排除在外，因为它将复数引入网络。对于双侧通道混洗（Shuffle*），我们设置P =Q以基本上执行附加混洗;这样做是因为使用块逆混洗将导致微不足道的抵消。所有结果均显示在表3中-首先给出了无变换的错误率，然后是实现的精度提高11313每个UGConv设置。CIFAR-10的基本错误率很高，因为群卷积显著压缩了网络这里的一个关键结果是密集正交变换在精度上类似地执行Fourier、Hada和Ortho获得的结果在单侧和双侧设置中均在0.4%的范围内。另一方面，对于较大的组大小，洗牌变换（1边和2边）明显表现较差。这证实了我们的假设，即Hadamard在学习性能上与DFT相当，同时更容易计算。它还提供了所有密集UGConv实现可比学习性能的证据。另一个观察结果是双侧变换显著优于其单侧变体，这与MNIST数据不同。我们目前没有对这种影响的一种推测是，当输入和输出通道的数量不匹配时，双面变换的性能更好。然而，进一步测试与一个小型的MNIST网络显示，情况并非如此。最后，请注意，无论变换应用于ResNet中的3×3组convs还是ShuffleNet中的1×1组convs，精度趋势都保持不变这表明，空间和跨渠道的依赖性是有效的。在卷积层中解耦，并且滤波器的大小不会显著影响信道空间变换。4.3. ImageNet上的Hadamard网络前几节的数据表明了两种制度：在低权重稀疏（即，小组号码），简单的洗牌就足以最大限度地提高准确性。然而，在大的组数下，密集变换的性能优于洗牌。本节在 ImageNet 上评估双侧块Hadamard变换对shuffle的影响。选择Hadamard是因为它比其他稠密酉变换更有效11314表4. ImageNet上的Top-1分类错误-我们的基准ShuffleNet实现接近文献结果（52.7%）。对于每个模型，我们显示了参数和fpmuls的数量，以及Hadamard变换的附加开销洗牌哈达三角洲ParamsFPmuls哈达补充道ResNet-18 g846.4%百分之四十四点六(-1.8%）1.9M330M7.8MResNet-18 g1655.8%百分之五十二点三(-3.5%）1.2M226M10.4MShuffleNet-x0.25 g853.6%百分之五十二点六(-1.0%）0.46M17M0.95M(see第3.4节和ShuffleNet用于比较，因为它是高度相关的工作和强大的基线。我们将使用Hadamard UGConvs的网络称为HadaNets。图2比较了ShuffleNet和HadaNet的残差块。由于硬件限制，我们选择了具有相当大的组大小的小模型-这是与shuffle相比，密集变换应该执行最佳的设置我们根据[7]中的ImageNet架构评估ResNet-18，并在整个网络中使用组大小 8 和 16 。我们还测试了ShuffleNet-x 0.25 g8，这是[29]中最小的ShuffleNet变体。这个网络有50层，也使用8个组。每个网络都使用各自论文中描述的超参数和学习率计划我们将单侧shuffle合并为双侧block-Hadamard（请注意，文献中的ShuffleNet已经包含单侧shuffle）。所有结果见表4。我们对ShuffleNet-x 0.25-g8的复制实现了53的Top-1错误。6%，这是接近52。7%，见[29]的表2。结果表明，Hadamard变换确实可以在大规模数据集上的准确性方面优于洗牌。ResNet-18与组convs是一个非标准模型，但它表明，在CIFAR-10 ResNet中观察到的趋势可以延续到ImageNet。另一方面，ShuffleNet是一个优化良好的基线，在非常紧凑的参数和fpmul预算下获得了良好的准确性性能。此外，尽管超参数调整非常小，但HadaNet能够比ShuffleNet略有改进。4.4. HadaNet的实用性HadaNet在准确性上略优于ShuffleNet，但需要额外的浮点加法。一个 N 通道群卷积与 B 组需要N2/Bfpmuls的权重层和2NlogB增加的两个块阿达玛变换。与乘法相比，加法在硬件上已经便宜得多。表4的最后一列显示了如果使用快速Hadamard变换，每个网络所需的加法次数。HadaNet的相对开销相当小：在这些网络中，额外的加法只占现有乘法累加的2-5%然而，阿达玛变换的开销取决于良好优化的实现。我们没有在GPU上显示运行时间的原因是，一个O（nlogn）快速11315Hadamard内核沿着通道运行目前还不可用-因此我们自己的HadaNet实现相当缓慢。另一方面，我们认为Hadamard变换可能对使用FPGA [3]或ASIC [11]实现的专用DNN加速器有用。顶级计算机硬件会议已经包含演示在专用硬件中使用循环矩阵进行DNN压缩的这些工作表明，DFT可以非常有效地实现在一个专用的模块，由于其递归性质。我们选择Hadamard是因为它也具有相同的递归特性，这意味着由于计算复杂度较低，它在硬件上应该总而言之，本文揭示了在高权重稀疏性制度，密集变换优于简单的洗牌。HadaNet比现有的最先进的密集变换（即，DFT变换），同时在DNN中实现5. 结论和未来工作我们引入了酉群卷积的概念我们使用UGConv框架来统一 CNN 文献中的两个不同的想法，ShuffleNets和块循环网络，并为这两种技术提供有价值的具有密集酉变换的UGConv表现出优于普通和混洗群卷积的学习跨通道映射的能力。基于这些观察，我们提出了HadaNet， ShuffleNet的一个变体，可以提高ImageNet数据集的准确性，而不会产生额外的参数或浮点乘法。一个未来的工作是用训练的0，+1，-1变换代替Hadamard变换;训练可以允许变换适应权重，并且引入零可以减少稀疏计算。致谢这项工作得到了半导体研究公司（SRC）和DARPA的部分支持。感谢教授。王延智（东北大学），教授。Bo Yuan（罗格斯大学）和他们的学生提供了关于CirCNN的技术细节和代码[6]。11316引用[1] Yu Cheng ， Felix X Yu ， Rogerio S Feris ， SanjivKumar，Alok Choudhary，and Shi-Fu Chang.循环投影深度网络中参数冗余的探索Int’l Conf. on Computer Vision(ICCV)[2] 弗朗索瓦·肖莱。Xception：使用依赖可分离卷积的深度学习 Conf. 计算机视觉和模式识别（CVPR），2016年6月。[3] Eric Chung，Jeremy Fowers，Kalin Ovtcharov，MichaelPa- pamichael ， Adrian Caulfield ， Todd Massengill ，Ming Liu ， Daniel Lo ， Shlomi Alkalay ， MichaelHaselman ， Maleen Abeydeera ， Logan Adams ， HariAngepat ， Christian Boehn ， Derek Chiou ， OrenFirestein ， Alessandro Forin ， Kang Su Gatlin ， MahdiGhandi ， Stephen Heil ， Kyle Holohan ， Ah- mad ElHusseini，Tamas Juhasz，Kara Kagi，Ratna K. 作者：陈文辉，陈文辉.Reinhardt，Bita Darvish Rouhani，AdamSapek ， RajaSeera ， SangeethaShekar ， BalajiSridharan ， Gabriel Weisz ， Lisa Woods ， Phillip YiXiao，Dan Zhang，Ritchie Zhao，and Doug Burger. 实时提供DNN服务在数据中心规模的脑波项目。IEEEMicro，38（2）：8[4] 邓春华，廖思宇，谢毅，柯沙布 . 钱学海，袁波 .PermDNN：使用置换对角矩阵的高效压缩深度神经网络架构。Int'l Symp微架构（MICRO），2019年10月。[5] T. Ceren Deveci、Serdar Cakir和A.艾尼斯·塞汀能量有效的 Hadamard 神经网络。 arXiv 预印本， arXiv ：1805.05421，2018年5月。[6] Caiwen Ding，Siyu Liao，Yanzhi Wang，Zhe Li，NingLiu ， Youwei Zhuo ， Chao Wang ， Xuehai Qian ， YuBai，Geng Yuan，Xiaolong Ma，Yipeng Zhang，JianTang，Qinru Qiu，Xue Lin，and Bo Yuan. CirCNN：使用块循环权重矩阵加速和压缩深度神经网络。Int'l Symp微架构（MI-CRO），第395-408页，2017年。[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。arXiv电子版，arXiv：1512.0338，2015年12月。[8] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto ， and Hartwig Adam. Mobilenets： EfficientConvolutionalNeuralNetworksforNervousVisionApplications. arXiv电子版，arXiv：1704.04861，2017年。[9] Gao Huang，Yu Sun，Zhuang Liu，Daniel Sedra，andKilian Q Weinberger.随机深度的深度网络欧洲计算机视觉会议（ECCV），第646- 661页[10] Yani Ioannou，Duncan Robertson，Roberto Cipolla，andAntonioCriminisi.DeepRoots：ImprovingCNNEfficiency with Hierarchical Filter Groups. 计算机视觉和模式识别（CVPR），2017年6月。[11] Norman P Jouvillage，Cliff Young，Nishant Patil，DavidPatter- son，Gaurav Agrawal，Raminder Bajwa，SarahBates，SureshBhatia，Nan Boden，Al Borchers，et al.张量处理单元的数据中心Int'l Symp计算机体系结构（ISCA），第1-12页，2017年。[12] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小图像中学习多层特征。技术报告，2009年。[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。基于深度卷积神经网络的图像分类. 神经信息处理系统进展（NIPS），第1097-1105页[14] QuocLe，Ta

下载后可阅读完整内容，剩余1页未读，立即下载