紧凑卷积神经网络中解决随机预测问题的新方法及多样性的重要性

96 浏览量更新于2023-10-14 收藏 765KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1×个移动神经网络Lusine AbrahamyanLusine Abrahamyan1，3lusine. vub.beValentin Ziatchin2valentin. picsart.comNikos Dannis NikosDannis1，3ndeligia@etrovub.be陈一鸣1，3cyiming@etrovub.be1ETRO Department，Vrije Universiteit Brussel（VUB），Pleinlaan 2，B-1050 Brussels，Belgium2PicsArt Inc.，美国旧金山3imec，Kapeldreef 75，B-3001 Leuven，Belgium摘要紧凑卷积神经网络（CNN）近年来在性能上有了显著的提高。然而，它们仍然无法提供与具有大量参数的CNN相同的预测能力。由层捕获的多样甚至丰富的特征是这些成功的CNN的重要特征然而，大CNN和它们的紧凑对应物之间的这种特性的差异很少被研究。在紧凑的CNN中，由于参数数量有限，不太可能获得丰富的特征，特征多样性成为一个必不可少的特征。在模型推断期间从数据点导出的激活图中存在的不同特征相比之下，具有低特征多样性的数据点可能无法提供足够数量的唯一描述符来进行有效的预测;我们将其称为随机预测。随机预测可能会对优化过程产生负面影响，并损害最终性能。本文提出通过重塑标准交叉熵来解决随机预测所引起的问题，使其偏向于具有有限数量的独特描述性特征的数据我们的新偏差损失将训练集中在一组有价值的数据点上，并防止大量具有不良学习特征的样本误导优化过程。此外，为了显示多样性的重要性，我们提出了一系列SkipblockNet模型，其架构被用来增加最后一层中唯一描述符的数量在基准数据集上进行的实验表明，所提出的损失函数优于交叉熵损失。此外，我们的SkipblockNet-M可以实现比MobileNetV3 Large高1%的分类准确性，具有类似的计算能力。7674727068电话：+86-510 - 8888888传真：+86-510 - 8888888FLOPs（百万）图1.准确度与ImageNet上的FLOPs。我们用提出的偏差损失训练的SkipblockNet模型优于以前用交叉熵损失训练的性能良好的紧凑神经网络。ImageNet ILSVRC-2012分类数据集的成本。代码可在链接-https：//github上获得。com/lusinlu/biasloss_skipblocknet.1. 介绍深度CNN在许多计算机视觉任务上表现出优异的性能，例如分类、语义分割和对象检测。典型地，具有高预测能力的模型包含大量的参数并且需要大量的浮点运算（FLOP）;例如，Inception-v3 [45]具有大约24M参数，并且需要6 GFLOPs来处理具有299 299像素的空间大小的图像。随着移动设备中AI应用的出现，sev-6556SkipblockNet（我们的）MobileNetV3Large MobileNetV2MuxNetShuffleNetV2MnasNetFBNetImageNet Top-1准确度（%）6557×个以往的研究都集中在为资源受限的环境开发高性能CNN。一些研究集中在压缩现有的高性能预训练模型。模型的压缩可以通过执行量化[51，25，56，38，39]来实现29，55]，修剪[14，13，10，16]，或知识蒸馏[17，4]。通常，这些方法的缺点是不可避免的性能下降。另一个研究方向集中在设计紧凑的神经网络和架构单元[34，12，49，49]。53、6、48]。例如，Xception [6]为传统卷积引入了一种具有成本效益的替代方案ShuffleNet [53]用逐点组卷积与通道混洗操作的组合替换卷积层。EfficientNet [48]的作者提出了一种缩放方法，该方法使用一组固定的缩放系数统一缩放模型的宽度，深度和分辨率。然而，这些方法中的显著性能改善主要与参数数量的增加有关[49，12]。该问题的解决方案可以是任务特定目标函数的设计。设计一个目标函数的优点是创建一个新的架构，前一种方法可以提高模型的准确性，而不增加参数的数量。通常，用于分类的优选损失函数是交叉熵;然而，存在表明其他目标可以优于标准交叉熵损失的研究[46，52，32]。[46]的作者提出用来自均匀分布的目标的加权混合来计算交叉熵。在存在类别不平衡问题的情况下，[32]建议降低分配给分类良好的示例的损失。在[39]中，作者提出了一种元学习重新加权算法，以解决数据集中的标签噪声问题。虽然这些目标实现了很大的性能提升，但它们针对的是主要与数据集相关的特定问题，并且没有考虑紧凑型神经网络的优化与其大型计算器之间的差异。高性能CNN的特征图中的多样甚至丰富的信息通常保证了对输入数据的全面理解。在紧凑型CNN中，由于参数的数量较少，提取的特征量将较小，并且可能不足以描述待分类的对象对于某些数据点，这些特征可能缺乏区分不同类别的对象所需的唯一描述符。因此，在缺乏足够量的独特描述符的情况下，模型不能产生有效的预测。我们将这些称为随机预测，其对优化过程没有贡献有用的学习信号。为了解决这个问题，我们设计了偏差损失，这是一种新的损失，它按比例加权每个数据点它提供的多样性。作为多样性的简单度量，我们采用信号的方差，其描述了特征图的值与平均值的距离。基于方差，我们设计了一个非线性函数，其值作为交叉熵的权重。通过这种方式，我们让具有不同特征的数据点对优化过程产生更大的影响，并减少随机预测造成的误导。为了进一步实现偏置损失的全部潜力，我们提出了SkipblockNet架构来解决最后一层缺乏提取特征的问题。具体来说，我们设计了轻量级的中间块，以使用跳过连接将低级特征从第一层直接转移到最后一层。所提出的块的使用将增加具有大量唯一描述符的数据点的数量。实验结果表明，所提出的偏置损失能够提高现有移动模型的性能，例如MobileNetV3 Large [18]（+0. 5%）、ShuffleNetV2 0. 五[三十五]（+0。6%）、SqueezeNet [23]（+1%）。另外，跳跳-NET可以超越最先进的紧凑型神经网络例如MobileNetV3，在移动设备上进行快速推断。总而言之，我们的贡献有三个方面：（1）我们设计了一个损失函数，以减少在紧凑CNN中由随机预测引起的优化误导;(2) 我们提出了一种有效的神经结构，以增加具有大量独特描述性特征的数据点的数量;（3）我们的模型在资源约束设置下在ImageNet分类任务上实现了最先进的性能。2. 相关工作已经提出了许多策略来设计紧凑、计算高效和高性能的CNN。Bellow，我们提出两大类解决方案：移动架构和面向任务的目标函数的设计。2.1. 移动架构已经针对资源约束设置开发了几种CNN架构[20，19，35，23，12，34]。之间其中，MobileNet [19，42，18]和ShuffleNet [53，35]系列由于其以较少的FLOP实现的高性能而脱颖而出。MobileNetV2 [42] 引入了反转的残差块，以提高MobileNetV1 [19]的性能。此外，MobileNetV3 [18]使用NAS（神经架构搜索）技术[47，50，37]，从而以更少的FLOP实现更高的性能。ShuffleNet [53]引入了通道混洗操作，以促进通道组内的信息流。ShuffleNetV2 [35]进一步提高了硬件的实际速度。尽管业绩6558∈∈ ××尽管用很少的FLOP实现了这一点，但在网络的最后几层中保持独特的描述性特征的重要性从未得到很好的利用。为此，我们提出了SkipblockNet，这是一种旨在增加最后一层中唯一描述性特征数量并减少随机预测数量的架构。SkipblockNet与以前的高性能CNN有许多相似之处，特别是MobileNetV 3 [18]中使用的反向残差块和U-Net [40]中使用的跳过连接的我们强调，我们的简单修改取得了优异的结果，而不是由于创新的设计，但由于网络与我们的新的损失相结合。这样，我们才能从发达国家的损失中获益最多。1.61.41.21.00.80.60.4= 0.3，= 0.3=0.4，= 0.3=0.7，= 0.6=0.8，= 0.50.0 0.2 0.4 0.6 0.8 1.0标度方差2.2. 目标函数在许多任务中，目标函数的最常见选择是交叉熵。然而，各种研究表明，旨在解决特定问题的损失函数的设计可以具有显著的益处[32，39，46，57，26，22]。Lin等[32]建议以重塑标准交叉熵，从而解决在对象检测器的训练期间遇到的前景-背景类别不平衡的标签平滑的机制[46]建议在交叉熵计算中使用“软”目标。这些图2.在（6）中给出的所提出的非线性函数z（v），其中v是缩放方差。该函数包括两个超参数α和β。β的增加降低了低方差数据点对累积损失的影响α控制高方差数据点的影响。2.52.01.51.00.50.0标签上的贡献。这种技术有助于防止网络在图像分类、语言翻译和语音识别等众多任务中变得过于自信。各种研究试图解决由噪声标签引起的障碍[39，54]。在[39]中，作者引入了加权交叉熵的变体，其中权重由多层感知器学习。2.52.01.51.00.50.0（一）0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9预测概率（b）创。这些工作的重点主要是优化具有大量参数的模型的性能。相反，我们的损失是为了解决由于在紧凑的模型中缺乏参数而产生的问题，即在随机预测引起的优化过程中可能产生误导的问题。3. 偏置损失我们设计了偏差损失来解决资源受限的分类场景，其中在深度卷积神经网络[30，43，15]的优化过程中可能存在由随机预测引起的误导。我们主张，在紧凑的神经网络中，数据点不能提供足够数量的独特特征来描述对象，迫使模型产生随机预测，即在没有特征多样性的情况下进行预测。作为我们所有实验中的多样性的简单度量，我们采用信号方差，其可以指示信号的距离。图3.损失与（a）正确预测和（b）不正确预测的预测概率（soft-max的输出）。Lce表示交叉熵，并且L偏置损失中的α、β超参数等于0。3 .第三章。特征图的值从平均值展开。这种选择背后的直觉是，方差越高，获得大量独特特征的机会就越高对于方差计算，使用最后一个卷积层（在池化和这有助于避免结果中的失真并且更好地估计数据点提供的学习信号。令TRb×c ×h ×w是卷积层的输出，其中b是批量大小，c是输入通道的数量，h和w是张量的高度和宽度在方差计算之前，T被展开成二维数组tRb× n，其中n=c hW. 中第i个LceL（方差= 0.6）偏置L偏倚（方差= 0.2）L偏倚（方差= 1.0）z（v）6559∈--i=1Σtj∈×批次等于Σn（tj−µ）2图3中的我们注意到偏置函数的两个性质：(i)当方差较低时，函数值达到其最小值，（1−β），这些数据点的影响为哪里vi=j= l，（1）n−1降权随着方差的增加，z（v）nµ=j=1。（二）n此外，方差被缩放到范围[0，1]以用于在损失函数中进一步使用，即，（vi−min）逐步增加。(ii)参数α平滑地调整高方差示例的影响率。随着α的增大，高方差数据点的影响也增大。此外，图2呈现了取决于方差和预测得分的偏差损失损失是向下加权主要是低信心和vi= （最大值−最小值）、（3）正确和不正确预测的低方差数据点。此外，它是向上加权的高浓度。其中，在每次迭代时，max和min是该批特征图中的激活的最大值这是为了确保变异值中的异常值不会导致损耗的大变化，并且不会使模型不稳定。此外，我们建议将这种知识的唯一的描述性特征的缺乏到优化过程中，为此，我们提出了新的损失函数，即偏差损失。偏置损失是动态缩放的交叉熵损失，其中尺度随着数据点的方差减小而衰减。设XRc× h × w 是特征空间，其中c是输入通道的数量，并且h、w是输入数据的高度和宽度，并且Y=1，…，k是标签空间，其中k是类的数目。在标准场景中，我们给出数据集D=（xi，yi）N，其中每个（xi，yi）X Y，以及神经网络f（x;θ），其中θ表示模型参数。传统上，训练旨在通过最小化训练集的预期损失来学习模型。一般来说，分类问题的交叉熵损失为置信度和高方差的不正确预测，因为从这种具有大量独特特征的数据点学习可以对优化过程产生积极影响我们的经验结果表明，选择α=0。3，β=0。3导致最佳性能。直观地，所提出的函数有助于将学习可以提供大量独特特征的示例，并减少由随机预测引起的优化过程中的可能误导4. SkipblockNet移动架构我们还引入了一个新的计算块和一个新的CNN架构，以进一步增加通过偏置损耗获得的性能增益。所提出的块可以很容易地集成到现有的体系结构中，并促进信息流向最后几层，而无需额外的努力。4.1. 跳过块跳过块的想法是将低级特征直接从第一层传递到最后一层。的Nk块L=−1Σ Σylogf（x;θ），（4）其中，在自动编码器风格架构中，铈氮ij j ii=1j =1编码器和解码器中具有相同空间维度的层经由跳过连接来连接。一般而言，其中我们认为神经网络的输出层是softmax。为了校准每个数据点对累积损失的贡献，我们建议添加一个非线性缩放函数，其目的是在具有低方差和高方差的数据点之间创建偏差。偏置损耗定义为在分类网络中，层为了解决这一限制，我们提出了一个中间块，这是带来连接层与不同的空间大小和丰富的最后一层与低级别的功能提取的第一层。如图4所示，跳过块由池化操作组成。N kL=−1Σ Σz（v）ylogf（x;θ），（5）与卷积相结合的操作。第一，为了保持偏置Ni=1j =1i ij j i关键特征和减少空间大小，我们应用自适应平均池化，然后进行三次卷积z（vi）=exp（vi*α）−β，（6）其中α和β是可调贡献参数，并且V是卷积层的输出的缩放方差对于α和β的几个值，偏差函数是可视化的6560层。批归一化（BN）[24]和ReLU非线性[1]在每个卷积层之后应用，除了不使用ReLU的最后一个卷积层之外。自适应平均池化的选择是由以下事实激发的：它考虑了所有特征，使得可以使用自适应平均池化。6561----×个- -图 4.SkipblockNet 架构概述在反转残差 [18] 之上，SkipblockNet使用跳过块将第一个块的高级特征转移到最后一层。网络设计故意简单，这允许集中在新的偏置损失的贡献上，这通过将训练集中在具有丰富学习信号的一组数据点上来跳过块以处理所有输入值。关于卷积层4.2. SkipblockNet由于我们的主要目标是提高紧凑型神经网络中唯一描述性特征的数量，同时降低计算复杂度，因此我们提出了一种部署跳过块的Skipblock-Net架构。由于其作为设计基准的卓越性能，我们遵循MobileNetV3的架构 [18]。SkipblockNet（图4）由MobileNetV3的反向残差和分类块的堆栈组成，并包括我们的新颖跳过块。第一层是与16个滤波器的卷积，随后是15个反转的残差块。两个跳过块被插入后，第一个反转的残差块（图4）的目的是转移信息到第六和第十反转的残差块。在跳过和反转残差块之后，在最终分类块之前应用卷积层和全局平均池化，最终分类块由丢弃层和全连接层组成。与MobileNetV3类似，由于其效率，我们使用硬切换非线性函数。从表 2 中可以看出，SkipblockNet在移动设备上的延迟与MobileNetV3相当。尽管所描述的架构已经可以保证高性能和低延迟，但是可能存在可能需要更快的模型或更高的准确性的情况。为了提供一个完全可定制的网络，我们集成了宽度乘数，在反转的残差块到跳过块中，以便控制每一层中的通道的数量。通过操纵的宽度乘数，整个网络的宽度可以改变。这将导致模型大小和计算成本的变化，以及性能的变化。通常，乘数的增加将导致性能和延迟的增加所提出的架构提供了一个基本的设计供参考，为了进一步改进，可以使用AutoML方法[2，9，27]来调整跳过块并提高性能。5. 实验我们提出了实证结果，以证明新的偏置损失和SkipblockNet模型的建议家庭的效率。我们报告三个任务的结果：图像分类，对象检测和迁移学习。所有实验都在具有2个GeForce RTX 2080 Ti GPU的单个机器上进行。此外，在训练期间，具有异常值的激活图产生非常高的方差。反过来，这些高方差将导致偏置函数的高值，并使训练不稳定。为了避免这种影响，在所有实验中，我们将偏置函数的输出箝位到[0.5，1.5]的范围。5.1. ImageNet分类我们在ImageNet [41]上进行了实验，并将所达到的准确度与各种资源使用指标（如FLOP和延迟）进行了比较。培训设置：ImageNet是一个大规模的图像分类数据集，拥有超过1. 2M训练和属于1000类的50K验证图像。对于ImageNet上的实验，我们遵循Effi-cientNet[ 48 ]中使用的大多数设置：RMSProp优化器的衰减为0。9，动量为0。9;批量范数动量为0。99;重量衰减1e5;和初始学习速率1e6增加到0。032在最初的3个时期[11]，然后衰减0。97每2。4个时期。此外，我们采用Inception预处理，图像大小为224 224像素[44]，批大小为512，并使用衰减率为0的指数移动平均值完成训练。九九五。报告的结果是ImageNet验证集上的单作物性能评估。采用上述设置是为了进行公平的比较，因为我们正在比较的大多数最先进的架构[49，12，34，18]都使用相同的设置。结果：表1示出了与几种现代资源约束网络架构相关的Skip- blockNet系列模型的性能。网络分为四个计算复杂度级别：50 100、100 200、200 300和3004亿FLOPs。我们比较了它们的准确性-racy，参数数量和计算复杂度-6562×个表1.比较国家的最先进的资源约束神经网络的准确性，FLOPs和参数的数量为了更好的可视化，模型FLOPs参数Top-1 Acc.（%）前5名Acc.（%）MobileNetV2 0.5×[42]MUXNet-xs [34]MobileNetV3小型1.0×[18]SkipblockNet-XS（带偏置损耗）97M66M66M81M2.0M1.8M2.9M2.3M65.466.767.469.986.486.8-88.91. 0×MUXNet-s [34][7]第七届全国人大常委会委员长会议75×SkipblockNet-S（带偏置损耗）146M117M212M155M152M2.3M2.4M3.4M4.0M3.6M69.471.671.673.373.888.990.3--91.4FBNet-A [50]MobileNetV 3大型1.0×MUXNet-mGhostNet1.3×MixNet-S [49]SkipblockNet-M（带偏置损耗）249M219M218M226M256M246M4.3M5.4M3.4M7.3M4.1M5.5M73.075.275.375.775.876.2--92.592.792.892.8ProxylessNAS [5]MnasNet-A2 [47][48]第48话MobileNetV3大1.25×SkipblockNet-L（带偏置损耗）320M340M390M318M356M364M4.14.8M5.34.0M7.5M7.1M74.675.676.376.676.677.192.292.793.293.2-93.4表2.前1位精度与Google Pixel系列手机上的延迟（Pixel-n表示Google Pixel-n手机）。所有延迟均以毫秒为单位，并使用批处理大小为1的单核进行测量top-1精度在ImageNet上计算。模型前1名（%）Pixel 4Pixel 3SkipblockNet-M76.22742GhostNet1. 3×MnasNet-A275.775.6272141391. 0×1. 0×75.271.826273838（ FLOPs ）。总的来说，我们用偏差损失训练的SkipblockNet 模型家族（ SkipblockNet-XS 、SkipblockNet-S、SkipblockNet-M、SkipblockNet-L）在不同的计算复杂度水平上优于其他竞争对手。具体来说， SkipblockNet-M 存档 76 。 2% 的准确度， 246 个MFLOP，与MobileNetv3 Large [ 18 ]相比高出1%，与MobileNetv3 Large [18]相比高出0. 4%，与MixNet-S相比[49]。图1和图5显示了SkipblockNet和以前的紧凑神经网络所获得的折衷。推理速度：我们使用Py- Torch V1.6 Mobile框架[ 36 ]测量了Google Pixel手机上SkipblockNet-M的推理速度。我们在所有的测量中使用单个核心。表2报告了SkipblockNet以及其他最先进的压缩神经网络的延迟。结果表明，Skipblock-表3.不同技术的消融研究。基线是MobileNetV3 1。0，并且基线与跳过块的组合是SkipblockNet-M。前1名（%）基线跳过块偏置损耗75.2✓75.7✓✓75.5✓✓76.2✓✓✓Net可以实现比MobileNetV3高1%的准确度，而GooglePixel 4的计算开销仅高出1毫秒不同组件对性能的影响：为了研究SkipblockNet中使用的不同技术的重要性，我们对ImageNet数据集进行了一系列实验，如表 3 所示。我们首先考虑MobileNetV3，这是我们的SkipblockNet的基线架构，并使用偏差损失对其进行训练。如表3所示，偏置损耗可以使MobileNetV3的精度提高0. 5%，与交叉熵训练相比。为了评估跳过块的影响，我们使用SkipblockNet-M（这是MobileNetV 3架构加上跳过块）测试了基线MobileNetV 3的性能，两者都使用交叉熵进行了训练。结果表明，增益为0。3%，只能通过使用跳过块来获得此外，通过丰富最后6563×个------×个×个表4.在CIFAR-100上训练的紧凑型CNN准确度与偏置损失和交叉熵的比较。767472706866二三四五六七参数数量（百万）图5. Top-1分类准确度与ImageNet上各种紧凑CNN的参数数量我们的SkipblockNet是用提出的偏差损失训练的。87.587.0具有第一层的低级信息的层，我们可以增加具有高方差的数据点的数量并且使得与偏置损耗的使用相关的性能的提升甚至更高（即，增加0。MobileNetV3为5%，0. SkipblockNet-M的7%）。此外，为了体现跳块86.586.085.50500100015002000两千五FLOPs（百万）30003500四千通过简单地增加深度乘数，我们训练了MobileNetV31 。 05 与 247 M FLOPs 和 5.9M 参数，并将其与SkipblockNet-M（246 M FLOPs，5.5M参数）进行比较。当用交叉熵训练时，SkipblockNet-M达到75。5%的准确度，而1. 05×达到75。百分之三。5.2. 有偏差损失为了验证所提出的偏置损失的有效性，我们将其应用于几个资源约束神经网络，并使用CIFAR-100 [31]分类数据集进行实验。CIFAR-100数据集[31]由来自100个类别的60，000张图像该数据集分为50，000张训练图像和10，000张测试图像。对于CIFAR-100的训练，我们使用动量等于0的SGD优化器。9和5e4的重量衰减。初始学习速率被设置为1e1，然后在时期60、120、160以速率0衰减。二、对于数据增强，图像随机水平翻转并在角度[ 15，15]之间旋转。表4报告了使用交叉熵、焦点损失[32]和偏置损失训练的神经网络的准确性。结果表明，使用偏置损失训练的模型系统地优于使用交叉熵和焦点损失训练的模型约1%和0。5%，分别。结果表明，我们的损失可以提高性能，无论架构。特别是，当与交叉熵相比时，对于ShuffleNetV2 [35] 0。5，则精度增加1。5%，对于SqueezeNet [23]为1%，图6.迁移学习绩效。在top-1精度和FLOP数量之间进行权衡。对于MobileNetV2 0。75× [42] × 0。百分之六。5.3. 迁移学习我们还使用Food101 [3]数据集在迁移学习任务上评估了我们的SkipblockNetFood-101由来自101个不同类的75，750个训练图像和25，250个测试图像图6比较了我们的模型和其他神经网络列表每个SkipblockNet模型首先在ImageNet上从头开始训练，所有权重都使用类似于[28]的设置在Food101数据集上进行微调。其余模型的准确度和FLOP结果取自[28]。结果表明，我们的SkipblockNets显着优于以前的紧凑型神经网络，并具有与具有大量参数的模型相当的准确性。具体来说，SkipblockNet-M 实现了 0. 准确率比 MobileNetV2 高95%[42]，1. 2效率高。5.4. 对象检测为了评估SkipblockNet的泛化能力，我们在PASCALVOC检测基准[8]上进行了对象检测实验。我们使用PASCAL VOC 2012训练值分割作为训练数据，并报告平均平均值。SkipblockNet（我们的）MobileNetV3大型MobileNetV2MobileNetV3小型ProxylessNASGhostNetShuffleNetV2FBNetImageNet Top-1准确度（%）SkipblockNet（我们的）MobileNetV 2MobileNetV 2（1.4）InceptionV1 ResNet-50DenseNet-121NASNet-AMobileNetV1准确度（%）模型Params前1名（%）CE损失前1名（%）焦点损失前1名（%）偏置损耗0. 5× MobileNetV20. 75×NASNet-A（N=4）1.4M2.6M5.3M69.56877.269.868.277.57168.678SqueezeNet1.25M69.469.870.46564×× ××个表5.不同模型的第n个和最后一个卷积层的输出的平均/最大/最小方差，其中BL和CE分别指示具有偏置损失和交叉熵的训练模型第5层第20层最后层avg.Maxminavg.Maxminavg.MaxminSkipblockNet-M（CE）1.72.41.60.61.20.10.090.20.04SkipblockNet-M（BL）2.2.51.71.1.60.20.150.20.09ShuffleNet（CE）1.21.60.90.30.50.020.020.070.01ShuffleNet（BL）1.41.70.90.40.70.030.040.10.021. 0×（CE）1.72.31.60.41.0.060.050.090.011. 0×（BL）1.92.41.90.71.50.10.090.10.03Inception V3（CE）3.35.91.95.29.32.40.73.60.2DenseNet（CE）36.11.94.17.21.40.72.40.2表6.PASCAL VOC2007检测的性能模型参数FLOPsmAP（%）VGG + SSD26.2M31B77.2MobileNet + SSD9.4M1.6B67.5MobileNetV2 + SSD8.9M1.4B73.1SkipblockNet-S + SSD9.4M1.4B73.6测试拆分的老化精密度（mAP）。我们的实验使用单镜头检测器（SSD）[33]作为检测框架，SkipblockNet作为特征提取主干。要设置额外的层，我们遵循MobileNetV2 [42]中描述的过程。我们使用SGD优化器训练所有模型200个epochs，批量大小为42，输入图像大小为300 300 3，初始学习率为0。01与余弦退火。表6报告了使用SkipblockNet与其他模型相比实现的在相似的资源使用情况下，SkipblockNet-S + SSD达到0.mAP比MobileNetV2高5%[42]。5.5. 神经网络的方差分析为了显示CNN中方差的作用以及偏置损失和跳过块可能对其产生的影响，我们在一系列众所周知的架构上进行了实验我们研究了具有大量参数（如InceptionV3 [45]和DensNet169 [21]）的网络中卷积层中的值分布以及紧凑网络中的值分布。实验的目的是比较大模型和紧凑模型中的方差，并量化偏置损失和跳过块可以提供的方差的提升。我们采用在ImageNet上预训练的模型，并检查了不同层内方差的平均值，最大值和最小值。表1中所示的结果表明：（1）大模型中的方差显著高于紧凑模型。因此，大型模型可以为几乎所有样本提取大量的描述性特征，并且所提出的策略调整权重的努力不会提高他们的业绩。（2）偏差损失可以增加整个模型的方差(3) 跳过块用低级特征丰富了模型的后续层方差的增加导致向上加权的数据点的数量的增加，这意味着在利用偏置损失进行训练的情况下，优化器将受益于从更有用的数据点学习。因此，跳过块与偏置损失的组合可以带来更高的精度增益。6. 结论在本文中，我们提出了偏差损失，这是一种新的损失函数，旨在通过减少优化过程中由学习特征较差的数据点引起的误导来提高紧凑CNN的性能。此外，我们提出了一个家庭的跳块网络模型，其架构带来的学习功能，以减少数据点的数量。我们在基准数据集和模型上进行的广泛实验表明，所提出的损失能够提高现有紧凑CNN的性能。此外，我们的SkipblockNet-M在Ima-geNet分类任务中实现了比所有最新紧凑型CNN更好的准确性和效率。引用[1] 阿比恩·弗雷德·阿加拉普。使用校正线性单元（relu）的深度学习arXiv预印本arXiv：1803.08375，2018。四个[2] JamesSBe r gstra、Re′miBardenet、YoshuaBengio和Bal a′zsKe′gl。H型参数优化算法。神经信息处理系统进展，第2546-2554页，2011年五个[3] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年欧洲计算机视觉会议76565[4] CristianBuciluaˇ ， RichCaruana ， andAle xandruNiculescu-Mizil. 模型压缩。在 Proceedings of the 12 th ACMSIGKDDInternationalConferenceonKnowledgeDiscovery and Data Mining，第535-541页，2006年。二个[5] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。2018年国际学习表征会议。6[6] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第1251-1258页二个[7] 戴晓亮，张培昭，吴碧晨，尹红旭，孙飞，王扬汉，马拉·杜汗，胡云青，吴一鸣，贾扬青，等.Chamnet：通过平台感知模型适应实现高效在IEEE计算机视觉和模式识别会议的论文集中，第11398-11407页，2019年。六个[8] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International journal ofComputer Vision，88（2）：303-338，2010. 七个[9] Matthias Feurer，Aaron Klein，Katharina Eggensperger，Jost Springenberg，Manuel Blum，and Frank Hutter.高效、健壮的自动化机器学习。神经信息处理系统进展，第2962-2970页，2015年。五个[10] Ariel Gordon、Elad Eban、Ofir Nachum、Bo Chen、HaoWu、Tien-Ju Yang和Edward Choi。Morphnet：深度网络的快速简单资源约束结构学习在IEEE计算机视觉和模式识别会议论文集，第1586-1595页二个[11] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。五个[12] Kai Han ， Yunhe Wang ， Qi Tian ， Jianyuan Guo ，Chunjing Xu，and Chang Xu. Ghostnet：廉价操作带来更多功能。在IEEE/CVF计算机视觉和模式识别会议论文集，第1580- 1589页，2020年。二、五[13] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。二个[14] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。在C. Cortes，N. D. Lawrence，D. D.李，米。Sugiyama和R.Garnett ，编辑， Advances in Neural InformationProcessing Systems 28 ，第 1135-1143 页。 CurranAssociates，Inc. 2015. 二个[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页，2016中。三个[16] Yihui He， Ji Lin ，Zhijian Liu ，Hanrui Wang，Li-JiaLi，and Song Han. Amc：Automl用于模型压缩和加速移动设备上的操作。在欧洲计算机视觉会议（ECCV）的论文集，2018。二个[17] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。Stat，1050：9，2015。二个[18] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，et al.搜索mobilenetv 3.在IEEE计

下载后可阅读完整内容，剩余1页未读，立即下载