深度与广度神经网络的传播机制

83 浏览量更新于2023-10-17 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9220深度和广度神经网络的传播机制德江徐孟李李永利徐计算学院，新加坡国立大学{xudj，leeml，whsu}@ comp.nus.edu.sg摘要最近的深度神经网络（DNN）利用恒等映射，其涉及逐元素加法或逐通道级联以用于这些恒等映射的传播。在本文中，我们提出了一种新的传播机制，称为通道添加（cAdd）来处理消失梯度问题，而不牺牲学习功能的复杂性。与通道级连接不同，cAdd能够消除存储特征图的需要，从而减少内存需求。所提出的cAdd机制可以深化和拓宽现有的神经架构，与通道级级联和元素级加法相比，具有更少的参数我们将cAdd集成到最先进的架构中，如ResNet，WideResNet和CondenseNet ，并在 CIFAR10 ， CIFAR100 ， SVHN 和ImageNet上进行了广泛的实验，以证明基于cAdd的架构与相应的基础架构相比，能够以更少的参数实现更高的精度。1. 介绍在深度神经网络令人印象深刻的表现[17]在ImageNet [3] 2012竞赛中，快速引入了具有改进性能的新神经网络架构。这些架构包括ResNet [7]，Wide-ResNet [32]，ResNeXt [31]，Pyramid- Net [6]，DenseNet [12] ， Dual Path Network [2] ， MobileNet[10] ， Shake-Shake Net [4] ， ShuffleNet[33] ，CondenseNet [4]，[11] 最近尝试使用大量GPU服务器的纯粹力量来自动搜索良好的神经网络架构，导致NASNet [34]，EAS[1]，ENAS [22]和AmoebaNets [24]）。在这些神经网络架构中一致的一个趋势是，更深更宽的神经网络通常会产生更好的性能。然而，一个深而宽的网络会遇到梯度消失的问题以及参数数量的二次增长此外，计算复杂度和存储器要求也在这些架构中升级，这些架构对于现实世界应用中的可扩展学习来说是强大的设计可以解决消失梯度问题的神经架构仍然是不平凡的，但能够捕获复杂的特征以显著提升学习模型的性能，这些学习模型的尺寸也足够小以降低功耗，并且可能可部署在物联网设备和移动平台上。我们观察到，神经架构的深度是其性能的关键。当前的神经架构使用跳跃连接形式的标识映射来增加其深度。这允许梯度被直接向后传递，从而允许深度的增加而没有消失梯度的问题。这些标识映射从一个块到下一个块的传播通过逐元素加法（eAdd）[7]或逐通道级联（cCon）[12]实现。图1显示了这些传播机制。在eAdd中，对相应的元素执行加法，因此每个单元的输入大小保持不变。另一方面，cCon连接来自所有先前单元的输入，从而以二次方方式增加每个后续单元的输入大小因此，cCon可以学习更复杂的特征，但是它需要更多的内存来存储级联输入[23]。(a) 逐元素加法(b) 逐行级联图1.逐元素添加（eAdd）和逐通道级联（cCon）的传播机制。9221图2.使用cAdd的深度神经网络的一般架构。在这项工作中，我们提出了一种新的传播机制，称为通道加法（cAdd），可以很容易地纳入任何最先进的神经架构，以减少计算和内存的要求，同时实现高精度。为了保持较小的存储需求，我们顺序地产生小的剩余部分，并将它们添加到单位部分的部分通道中。该单元重复多次，直到添加所有通道。这样，网络的深度增加，而参数的数量减少。图2显示了使用cAdd的神经网络的一般架构。它有几个阶段，每个阶段内的cAdd单元对于输入和输出特征图具有相同的分辨率，以允许通道加法。跨级的分辨率可以是不同的，因为它们可以由过渡单元下采样这种设计有几个优点：1. 消失梯度可以减轻，因为cAdd也有一个快捷方式，允许梯度直接绕过单位。2. 由于cAdd添加了输出特性而不是连接，因此需要更少的内存，从而保持每个单元的输入大小相同。3. 可以生成更复杂的特征，因为cAdd显著增加了CNN的宽度和深度。4. 与具有相同宽度和高度的现有神经网络相比，参数和FLOP更少。在 CIFAR10 [16] ， CIFAR100 [16] ， SVHN [21] 和ImageNet [3]数据集上进行的广泛实验表明，与使用eAdd或cCon的原始网络相比，基于cAdd的神经网络始终以较少的参数实现更高的准确性2. 相关工作使用eAdd的神经网络。深度对于神经网络实现更高性能至关重要。然而，很难优化深度神经网络。ResNet[7]中引入了元素添加，以显着深化神经网络并简化训练过程[8]。它已被广泛用于许多深度神经网络，包括Inception-ResNet [29] ， Wide-ResNet [32] ， ResNeXt[31] ， PyramidNet[6] ， Shake-ShakeNet[4] 和ShuffleNets[33 ]第33段。它也被AlphaGo [26]和自动设计的架构所采用，如 NASNet [34] ， ENAS [22] 和 AmoebaNets[24]。神经网络的宽度对于获得准确性也至关重要。与ResNet不同，ResNet通过简单地堆叠元素加法来实现更高的性能，Wide- ResNet通过沿深度增加输入通道来扩大网络。实验结果表明，一个16层的Wide-ResNet在准确性和效率上都优于一千层的ResNet。对于Wide-ResNet，宽度的增加仅发生在阶段之间，并且阶段内的输入大小保持不变。PyramidNet逐渐增加其宽度，形状类似于一个加宽的步长因子，这已经被实验证明可以提高泛化能力。ResNext使用多分支元素加法，通过用一组小的同质分支替换唯一的分支。简单地添加更多的分支可以提高ResNext的性能。Shake-shake Net不是直接将所有小分支相加，而是使用随机仿射组合来显著提高泛化能力。与需要人类专业知识的手动设计架构不同，自动设计架构搜索整个架构空间以找到最佳设计。虽然学习的体系结构有许多不同的小分支，但其显著特点是它们都使用eAdd来总结分支。由于eAdd要求输出大小至少等于或大于输入大小，因此神经网络可以更深或更宽，但当参数数量有限时，两者都不能。相比之下，所提出的cAdd可以加深和扩大相同数量的参数的神经使用cCon的神经网络 DenseNet中首次使用了逐行级联[12]。来自所有先前单元的特征被用作输入以生成少量输出，这些输出被传递到后续单元。虽然这加强了特征传播和重用，但并不是所有先前的特征都需要用作每个后续层的输入。因此，CondenseNet通过学习的组卷积只选择最相关的输入[11]。它通过在压缩阶段修剪掉不重要的过滤器来精简卷积层，并在训练过程的后半部分优化精简模型 CondenseNet 比紧凑的MobileNes [10]和ShuffleNets [33]更有效，后者是为使用深度可分离卷积的移动设备而设计的[15]。9222F····图3.四个cAdd单元内的传播机制。从自动设计的架构中获得的最佳模型都使用cCon，特别是对于所有单元输出的由于串联线性增加了输入大小，这也增加了参数和内存需求的数量。相比之下，所提出的cAdd能够通过将输出添加回所选择的输入来保持输入大小恒定。3. 逐行加法所提出的cAdd传播机制结合了eAdd和cCon的优点，以深化和扩展神经网络，同时使用更少的参数。关键思想是每个单元必须生成少量的输出通道，从而将生成的输出加回相应的跳过连接，以形成下一个单元的输入图3显示了使用cAdd跨4个单元的传播。第一cAdd单元生成3个输出，然后将其加回到前3个跳过的连接以形成第二cAdd单元的输入。假设M是输入通道的数量。为了确保覆盖所有跳过的连接，我们将每个单元的输入通道分组为不重叠的部分。每个部件的尺寸由参数α控制，使得每个部分都有精确的M/α通道，除了最后一部分有M/α+R通道，其中R是剩余我们表明，cAdd传播机制是能够减轻消失梯度的问题。令X=[x 1，x 2，...，x M ]是cAdd单元的输入，并且Y =[x 1，x 2，...，x M ]是cAdd单元的输入。[y 1，y 2，，yN]是X通过非线性变换函数后的输出（）会议的议程如下─功能块，其可以具有不同的层，批量归一化[14]（BN），校正线性单元[5]（ReLU）和卷积层（Conv）。即，Y=F（X）（2）cAdd单元将其输出Y加回到其输出Y的一部分′输入X，以形成下一个单元的输入X，如下所示：X′=X+TY（3）其中T 是M×N稀疏矩阵，如果yj要加到xi ，则Tij=1。通过等式2和等式3，我们得到：X′=X+ T·F（X）（4）让我们考虑从cAdd单元s到cAdd单元e的传播，cAdd单元e的对应输入分别是Xs和Xe我们有e−1渠道在图3中，我们可以看到第二个输入部分（绿色）有3个通道，Xe= Xs+I=sTi·F（Xi）（5）通过添加到cAdd2单元的输出来覆盖而第三个也是最后一个输入部分（蓝色）设E为误差损失。Xs上的梯度可以表示为：M/α除了cAdd3单元的输出之外。为了使加法运算有意义，一个单元产生的输出数量必须与下一个单元要覆盖的通道数量相匹配。马特E=XsEXe.E=1+Xee−1I=s Ti·Σ（Xi）Xs（六）在数学上，第k个cAdd由于不可能所有的训练样本都在e−1i单位由下式给出：一个批次，i=sT·在Equa-.M/αM/α9223（一）（6）总是等于-1，这意味着梯度不太可能为0，从而缓解了梯度消失的问题。9224××∗ ∗−√4. 使用cAdd的架构所提出的cAdd传播机制可以容易地并入现有的神经网络。神经网络中有两种单元，即基本单元和瓶颈单元。我们对单元中的不同层使用以下符号• Conv（I，O，L，L）.卷积层，具有I个输入通道，O个输出通道，内核大小为L×L。• BN（I）. 使用I输入通道进行批量归一化• ReLU。校正线性单位。我们首先考虑使用eAdd传播机制的网络。在eAdd基本单元中，输出通道的数量必须与逐元素加法的输入通道的数量相同。当我们将eAdd替换为cAdd时，不再需要此约束回想公式1，其中cAdd中的输出通道数由α确定。较大的α将意味着输出通道数量的显著减少图4显示cAdd基本单元的初始卷积层是Conv（M，M/α，L，L），而不是Conv（M，M，L，L）的eAdd基本单元(a)eAdd（b）cAdd图4.使用eAdd与cAdd的eAdd瓶颈单元使用具有内核大小11的卷积层[19]来在空间上组合具有很少参数的大量输入特征图（参见图5（a））。由于逐元素加法要求，需要额外的卷积层来将输出通道的大小扩展回M。然而，这对于逐通道加法是不需要的。图5（b）显示了使用cAdd的相应瓶颈单元。调整基于cCon的神经网络以使用cAdd传播机制是简单的。我们使用等式1，而不是使用增长率g来确定基本单元和瓶颈单元中的输出通道数。图6显示了使用cAdd与cCon的基本单元，其中卷积层是Conv（M，M/α，L，L）而不是Conv（M，g，L，L）。类似的调整可以对神经架构变体进行，例如PyramidNet [6]。(a)eAdd（b）cAdd图5.使用eAdd与cAdd的(a)cCon（b）cAdd图6.使用cCon与cAdd我们分析了使用cAdd与eAdd或cCon的神经架构我们假设神经结构有U个基本单元，每个单元有M个输入通道，大小为hw。为了公平比较，我们假设cCon单元的增长率g为M/α，使得cCon单元具有与cAdd相同的输出数量。表1给出了所需参数的数量。数量的参数eAdd基本单元对应cAdd单元2 22000万美元2 2 2UM L（1/α+ 1/α）cCon基本单位对应cAdd单元2 2UM/αL+2 2 2（M/α）L（U-U）/22 2U M/αL表1.所需参数数量的比较我们看到，使用cAdd的神经网络与使用eAdd的网络相比，参数减少了约2.2α也就是说，在参数个数相同的情况下，使用cAdd的神经网络的深度可以增加2α，而使用eAdd的神经网络的宽度可以增加2α。这种增加可以提高神经网络的泛化能力，从而导致更高的精度。显然，表1中cCon所需的参数数量比cAdd具有更多的参数。（M/α）2L2的剩余部分（U2U）/2是通过级联运算引入的。92252α我们还比较了所需的FLOP数量表2显示，与分别使用eAdd和cCon的网络相比，使用cAdd的神经网络需要的FLOP大约是eAdd和cCon的2α和（1 + U−1）倍。浮点数eAdd基本单元对应cAdd单元2 22M L hwU +MhwU2 2 2（1/α+ 1/α）M L hwU+1/αMhwUcCon基本单位对应cAdd单元2 21/αM L hwU+2 2 2 21/α M L hw（U−U）/22 21/αM L hwU + 1/αMhwU表2.需要比较FLOP5. 实验评价我们进行实验，比较使用cAdd，eAdd和cCon的神经架构的性能。我们将cAdd整合到三种广泛使用的CNN架构中，即ResNet，WRN和CondenseNet，并分别称之为cResNet，cWRN和cCondenseNet。每一种体系结构都有三个阶段。我们使用随机梯度下降来训练这些网络，其中nesterov 动量[28] 为0.9 ，没有阻尼，权重衰减为10−4。为了公平比较，所有的训练设置（学习率，批量大小，时期和数据增强）都与原始论文相同除另有规定外使用以下数据集CIFAR10 [16]：它有10个对象类，每个类有6，000个32x32彩色图像。有50，000张图像用于训练，10，000张用于测试。CIFAR100：它有100个类，每个类有600个32x32彩色图像。训练集和测试集分别包含50，000和10，000张图像。SVHN [21]：这有超过60万张32x32的真实门牌号图像。有73，257张图像用于训练，26，032张用于测试，还有531，131张用于额外训练。ImageNet [3]：它有1,000个类。训练集有120万张图像，有效集有5万张图像。5.1. ResNet vs cResNet在这组实验中，我们使用cResNet来检查ResNet的性能。像ResNet一样，我们训练所有cResNet（α=7）300个epoch，批量大小为128。学习率从0.1开始，在第150和第225个历元之后减少10。对于1224层的cResNet，前20个epoch的初始学习率为0.01，然后回到0.1继续训练。表 3 给出了 CIFAR10 、 CIFAR100 和 SVHN 上的ResNet、预激活ResNet和cResNet数据集。ResNet-20具有27万个参数，深度为20，三个阶段的宽度分别为16，32和64。相比之下，cResNet-86具有相当数量的参数（21万），其深度为86，相应的宽度为84，112和140。与ResNet-20相比，cResNet-86的宽度和深度增加，使其在CIFAR 10上具有更高的准确性。事实上，cResNet-86在CIFAR 10、CI-FAR100和SVHN数据集上的准确性击败了ResNet-56，后者的参数数量是前者的四倍当我们将cResNet-86的宽度增加到168-196- 308，使其具有与ResNet-56相当的参数数量（84万）时，准确性差距显著扩大。cResNet-86甚至优于ResNet-110、ResNet- 164和预激活ResNet-164，后者的参数数量是前者的两倍。我们看到cResNet-170与1.65百万个参数给出了所有ResNet和预激活ResNet的最佳结果。我们观察到ResNet-1202有1940万个参数，但其错误率高于ResNet-110，可能是由于过度拟合[7]。另一方面，我们的cResNet- 1224比ResNet-1202更宽更深，在CIFAR 10上达到了最低的top-1错误率4.06图7显示了CIFAR10数据集上cResNet和ResNet的前1错误率，因为我们改变了参数的数量。显然，对于相同数量的参数，cResNet的错误率总是我们观察到，ResNet在其最低错误率下的参数是cResNet的8倍。图7. CIFAR10上的ResNet与cResNet5.2. WRN vs cWRN接下来，我们比较WRN与cWRN的性能。与WRN类似，我们训练cWRN（α=7）200个epoch，批量大小为128。学习率从0.1开始，在CIFAR10和CIFAR100数据集的第60、120和160个对于SVHN数据集，cWRN被训练了160个epoch，批量大小为128，并且通过在第80个和第120个epoch之后将初始学习率0.01除以10来优化。····9226架构宽度#参数CIFAR10CIFAR100SVHNResNet-20 [7]ResNet-32 [7]ResNet-44 [7]ResNet-56 [7]ResNet-110 [7]ResNet-164 [7]ResNet-1001 [7]ResNet-1202 [7]16-32-6416-32-6416-32-6416-32-6416-32-6416-32-6416-32-6416-32-640.27M0.46M0.66M0.85M1.73M1.70M10.2M19.4M8.757.517.176.976.61 ±0.16-- 七点九三---28.25美元27.22<$25.1627.82----2.49公斤2.01†---预激活ResNet-164 [8]预激活ResNet-1001 [8]64-128-25664-128-2561.7M10.2M5.464.9224.3322.71--cResNet-86cResNet-86cResNet-170cResNet-122484-112-140168-196-308196-224-280196-224-2800.21M0.84M1.65M13.185M6.37 ±0.094.76 ±0.074.33±0.044.0627.45 ±0.1123.35 ±0.1721.33 ±0.20-2.09 ±0.072.04 ±0.071.92±0.06-表3. ResNet和cResNet的前1错误率。宽度是三级中输入通道的数量。结果显示，结果来自[30]和†显示结果来自[13]，cResNet的结果以“mean±std”的格式在5次运行中取平均值。架构宽度#参数CIFAR10CIFAR100SVHNWRN-52-1 [32]WRN-16-4 [32]WRN-40-4 [32]WRN-16-8 [32]16-32-6464-128-25664-128-256128-256-5120.76M2.75M8.95M11.00M6.435.024.534.2728.8924.0321.1820.432.081.85--cWRN-130-2cWRN-130-4cWRN-172-6cWRN-172-8cWRN-88-1398-126-154196-252-308294-378-462392-504-616637-819-10010.39M1.52M4.41M7.80M10.90M6.32 ±0.104.87 ±0.094.34 ±0.094.26 ±0.074.04±0.0926.75 ±0.2022.4 ±0.1920.87 ±0.1319.78 ±0.1719.33 ±0.131.99 ±0.061.810.05±---表4. WRN和cWRN的前1错误率。宽度是三级中输入通道的数量。cWRN的结果以“平均值±标准值”的形式平均5次运行。表4给出了结果。与相应的WRN相比，所有cWRN都更宽更深，并且能够在所有三个数据集上以更少的参数实现更低的前1错误率。具体而言，cWRN-130-2比WRN-52-1的参数少一半（39万vs.0.76在所有三个数据集上。总体而言，cWRN-88-13提供了最佳性能。图8显示了CIFAR10数据集上cWRN和WRN的前1错误率，因为我们改变了参数的数量。我们看到，cWRN有1.4倍少的参数，比WRN的人为相同的错误率。5.3. CondenseNet与cCondenseNet最后，我们研究了在CondenseNet中使用cAdd的性能。我们训练所有cCondenseNet（α=6）300个epoch，批量大小为64，并使用从0.1到0的余弦形学习率对于cCondenseNet-254，我们训练了600个epoch，辍学率为0.1 [27]，以确保与CondenseNet-182进行公平比较。表5示出了使用cCondenseNet-254 giv.图8. CIFAR10上的WRN与cWRN在CIFAR10和CIFAR100上都有最好的性能它有456个输入通道，是CondenseNet-182的38倍，254个卷积层，1.4倍于冷凝网182的深度我们看到，cCondenseNet-146和cCondenseNet-110 比它们的对手CondenseNet-86和CondenseNet-50更在部分-9227架构宽度#参数CIFAR10CIFAR100[11]第十一话8-16-320.22M6.22-[11]第十一话8-16-320.41M5.28-[11]第十一话8-16-320.52M5.0623.64[11]第十一话8-16-320.65M4.83-[11]第十一话8-16-320.79M4.63-[11]第十一话8-16-320.95M4.48-[11]第十一话12-24-484.22M3.7618.47cCondenseNet-110cCondenseNet-146cCondenseNet-25496-144-192168-216-264456-504-5760.19M0.50M4.16M5.74 ±0.084.64 ±0.083.40±0.0927.40 ±0.1523.44 ±0.1118.20 ±0.13表5. CondenseNet和cCondenseNet的前1错误率。宽度是三个阶段中输入通道的数量或增长率。cCondenseNet的结果以“平均值±标准差”的格式在5次运行中取平均值。架构宽度#参数Top-1错误率前5名错误率（G=C=4）[11]8-16-32-64-1284.8M百分之二十六点二8.3%cCondenseNet-246（G=C=4）192-288-384-552-7684.7M百分之二十五点四百分之七点七ResNet-50 [7]64-256-512-1024-204825.6M百分之二十四点七百分之七点八ResNet-101 [7]64-256-512-1024-204844.5M百分之二十三点六百分之七点一cResNet-72280-280-560-1120-224023.3M百分之二十三点七7.1%表6.ImageNet上的单作物验证结果宽度是五个阶段中输入通道的数量或增长率1和top-5错误率，我们看到基于cAdd的architec- ture只需要一半的参数数量类似地，cCondenseNet-246的参数少了10万个，性能优于CondenseNet-74。图9. CondenseNet与CIFAR10上的cCondenseNet。尽管cCondenseNet-110比CondenseNet-50少了0.03万个参数，但其前1位错误率小于CondenseNet-50，分别为5.74%和6.22%。图9显示了CIFAR10上的前1错误率。我们 cCondenseNet的参数比cCondenseNet少1.4倍CondenseNet的错误率相同。5.4. ImageNet上的实验我们还比较了ImageNet数据集上各种神经架构的性能。表6示出了结果。我们观察到，与ResNet相比，cResNet-72实现了低得多的top-1和top-5错误率。50个相似的参数。当我们比较ResNet-101和cResNet-72时，它们具有相似的顶部-5.5. 深度相对宽度深度和宽度是神经网络实现更高性能的重要维度。深度控制学习特征的复杂性。更深的神经网络可以学习更复杂的特征，而更宽的网络可以使更多的特征参与最终的分类。对于基于cAdd的体系结构，我们可以灵活地增加深度或宽度，或者同时增加深度和宽度，保持近似相同数量的参数。在这里，我们调查的深度和宽度的cAdd的基础上，其分类精度的架构的影响。我们使用具有85万个参数的ResNet-56和具有52万个参数的CondenseNet-86作为基线，并在不同的深度和宽度下设计具有近似相同数量的参数的不同cResNet和cCondenseNet表7显示了CI-FAR 10和CIFAR 100数据集的结果。我们观察到，当深度的增加与宽度的增加相平衡时，可以获得最佳性能这是有意义的，因为神经网络的性能取决于特征的数量以及这些特征的复杂性。9228架构#参数宽度深度CIFAR10CIFAR100ResNet-56 [7]（基线）0.85M16-32-64566.9728.25cResNet-440.86M280-308-336446.2027.14cResNet-860.81M196-224-252865.9127.09cResNet-1280.89M168-196-2241285.8426.94cResNet-1700.88M140-168-1961705.6627.04cResNet-2120.89M126-154-1822125.5026.93cResNet-2540.88M112-140-1682545.8827.39cResNet-2960.86M100-128-1562965.9527.77cResNet-3380.82M91-119-1473385.9427.55[11]第十一届中国国际汽车工业展览会0.52M8-16-32865.0623.64cCondenseNet-380.51M312-360-384385.0825.29cCondenseNet-740.49M240-288-312744.8924.19cCondenseNet-1100.51M216-240-2881104.7324.02cCondenseNet-1820.51M168-192-2401824.6123.46cCondenseNet-2180.51M144-192-2162184.9423.56cCondenseNet-2540.49M120-168-2162544.8923.74cCondenseNet-2900.51M120-168-1922904.8624.19cCondenseNet-3260.51M120-144-1923265.1124.24表7.cResNet和cCondenseNets在CIFAR10和CIFAR100数据集上的前1错误率(a) eAdd与cAdd（b）cCon与CADD图10.使用cAdd、eAdd和cCon的架构的卷积层中的神经元权重5.6. 重量标准权重范数度量特征学习过程中神经元的活跃性[9，11，18，20]。图10显示了使用cAdd（ResNet-26和DenseNet-28 ）、 eAdd （ ResNet-26 ）和 cCon（DenseNet-28）训练的神经网络的每个卷积层内神经元权重的平均值和标准差。我们观察到基于cAdd的网络中的神经元具有比基于eAdd和cCon的网络更大的权重这表明在特征学习期间，cAdd神经元比eAdd和cCon神经元更活跃。一个可能的原因可能是eAdd和cCon中的许多权重接近于零，可以在不牺牲准确性的情况下进行修剪[9，18，20]。使用cAdd，我们能够减少权重的数量，从而减少参数并提高精度。6. 结论在本文中，我们提出了一种新的通道方式的附加传播机制，加深和扩大神经网络与显着较少的参数。我们已经描述了如何调整最先进的深度神经网络，即ResNet，WRN和CondenseNet以使用cAdd。在CI-FAR10、CIFAR 100、SVHN和ImageNet数据集上进行的大量比较实验表明，基于cAdd的神经架构（cResNet、cWRN和cCondenseNet）始终优于相应的神经架构，具有更高的精度、更少的参数和更低的计算成本。未来的工作包括阐明如何将通道式加法结合起来，以进一步增强用于现实世界部署的紧凑神经架构9229引用[1] Han Cai，Tianyao Chen，Weinan Zhang，Yong Yu，andJun Wang.通过网络变换进行有效的体系结构搜索。在AAAI，2018。[2] Yunpeng Chen，Jianan Li，Huaxin Xiao，Xiaojie Jin，Shuicheng Yan，and Jiashi Feng.双路径网络。CoRR，abs/1707.01629，2017。[3] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞Imagenet：一个大规模的分层图像数据库。IEEE计算机视觉与模式识别（CVPR），2009年。[4] 泽维尔 · 加斯塔尔迪 Shake-shake 正则化 ICLR ，abs/1705.07485，2017.[5] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流神经网络。人工智能和统计国际，第15卷，第315-323页，2011年[6] Dongyoon Han，Jiwhan Kim和Junmo Kim深层金字塔残余网络。IEEE计算机视觉与模式识别，2016年。[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，2015年。[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。ECCV，2016。[9] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速非常深的神经网络的通道修剪。CoRR，abs/1707.06168，2017。[10] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络CoRR，abs/1704.04861，2017。[11] 高煌，刘世辰，劳伦斯·范德马腾，和Kilian Q.温伯格Condensenet：一个高效的密集网络，使用学习的群卷积。CVPR，2017年。[12] Gao Huang，Zhuang Liu，and Kilian Q.温伯格密集连接的卷积网络。CVPR，2016年。[13] 高煌，孙宇，刘壮，丹尼尔·塞德拉，和Kilian Q.温伯格深度随机的深度网络。CoRR，abs/1603.09382，2016。[14] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。2015年国际机器学习会议[15] 放大图片作者：LukaszKaise r. Gomez，andFran c. 用于神经机器翻译的依赖可分离卷积。 CoRR ，abs/1706.03059，2017。[16] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。多伦多大学计算机科学系硕士[17] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在NIPS，第1097-1105页[18] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。CoRR，abs/1608.08710，2016。[19] Min Lin，Qiang Chen，and Shuicheng Yan.网络中的网络。2013年国际学习代表会议[20] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。CoRR，abs/1708.06519，2017。[21] Yuval Netzer ， Tao Wang ， Adam Coates ， AlessandroBis-sacco，Bo Wu，and Andrew Y Ng.使用无监督特征学习读取自然图像中的数字。NIPS，2011年。[22] Hieu Pham，Melody Y.放大图片作者：Guan，BarretZoph.Le和Jeff Dean。通过参数共享的高效神经结构搜索。2018年机器学习。[23] Geoff Pleiss，Danlu Chen，Gao Huang，Tongcheng Li，Laurens van der Maaten，and Kilian Q.温伯格密集网的内存高效实现。CoRR，abs/1707.06990，2017年。[24] Esteban Real ， Alok Aggarwal ， Yanping Huang ， andQuoc V. Le.用于图像分类器架构搜索的正则化进化。CoRR，abs/1802.01548，2018。[25] L. 西弗用于图像分类的刚性运动散射Ph. D.论文，2014。[26] David Silver ， Julian Schrittwieser ， Karen Simonyan ，Ioannis Antonoglou，Aja Huang，Arthur Guez，ThomasHubert，Lu- cas Baker，Matthew Lai，Adrian Bolton，Yutian Chen ， Timo- thy Lillicrap ， Fan Hui ， LaurentSifre，George van den Driess- che，Thore Graepel，andDemis Hassabis.在没有人类知识的情况下掌握围棋。Nature，550，354 - 359，2017.[27] Nitish Srivastava，Geoffrey Hinton，Alex Krizhevsky，Ilya Sutskever，and Ruslan Salakhutdinov. Dropout：一种防止神经网络过度拟合的简单方法。 Journal ofMachine Learning Research，15：1929[28] Ilya Sutskever ， James Martens ， George Dahl ， andGeoffrey Hinton.初始化和动量在深度学习中的重要性。第28卷，Proceedings of Machine Learning Research，第1139-1147页，Atlanta，Georgia，USA，2013年6月17-19日。PMLR。[29] Christian Szegedy、Sergey Ioffe和Vincent Vanhoucke。起始 -v4 ，起始 -resnet 和剩余连接对学习的影响。AAAI，2017。[30] Yan Wang ， Lingxi Xie ， Chenxi Liu ， Ya Zhang ，Wenjun Zhang，and Alan L.尤尔。SORT：用于视觉识别的二阶响应变换。CoRR，abs/1703.06993，2017。[31] 作者：Sain i ngXie，RossB. Girshick，PiotrDolla

下载后可阅读完整内容，剩余1页未读，立即下载