DNAS变体：DMaskingNAS：一个内存和计算效率的扩展性DNAS方法

173 浏览量更新于2023-10-25 收藏 825KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1）f）...FBNetV2：空间和通道维度万晓亮1，戴晓亮2，张培昭2，何子健2，田远东2，谢赛宁2，吴碧晨2，余修2，徐涛2，陈侃2，Peter Vajda2，Joseph E.冈萨雷斯11加州大学伯克利分校，2Facebook Inc.{alvinwan，jegonzal}@ berkeley.edu{xiaoliangdai，stzpz，zijian，yuandong，s9xie，bichen，mattcyu，xutao，kanchen18，vadjap}@fb.com摘要微分神经结构搜索（DNAS）在设计最先进、高效的神经网络方面取得了巨大成功然而，与其他搜索方法相比，基于DART的DNAS的搜索空间很小，因为所有候选网络层都必须在存储器中进行实例化。为了解决这个瓶颈，我们提出了一个内存和计算效率DNA变体：DMaskingNAS。该算法将搜索空间扩展到传统DNAS的10 - 14倍，支持空间和信道维度上的搜索，否则这些搜索将非常昂贵：输入分辨率和滤波器数量。我们提出一个面具机械-特征图重用的原则，使得内存和计算成本随着搜索空间的扩展而保持几乎不变。此外，我们采用有效的形状prop-agation，以最大限度地提高每FLOP或每参数的准确性。搜索FBNetV2产量的最先进的每一个，与以前的所有架构相比DNAs无通道搜索...修剪一次探索一个频道选项DNAs所有可能的渠道我们所有可能的渠道f（）DMaskingNAS的搜索成本最多可降低421倍，查找模型的准确性提高0.9%， FLOP减少15%，MobileNetV 3-小型;精度相似，但FLOP比Efficient-B 0少20%。此外，我们的FBNetV2优于MobileNetV3 的2.6%的准确性，与等效的模型大小。FBNetV2模型在www.example.com上开源https://github.com/facebookresearch/mobile-vision。1. 介绍深度神经网络在许多研究领域和应用中取得了重大进展，例如计算机视觉和自动驾驶。尽管如此，为资源受限的设置设计有效的网络仍然是一个具有挑战性的问题。涉及的初步指示在Facebook实习时完成的工作图1：DNAS：添加所有可能的过滤器数量to DNAS(top-right) increases computational and memory costsdrastically, exacerbating DNAS’s memory bottleneck onsearch space size. 修剪：通道修剪（左下角）仅限于一次训练一个架构. 我们的：通过我们的权重共享近似，DNAS可以同时探索所有可能数量的过滤器，而内存和计算开销可以忽略不计。详见图2。压缩现有网络[7]或建立小型网络[23，26]。然而，设计空间可以很容易地包含超过1018 个候选架构[33，27]，使得手动设计选择次优且难以扩展。代替手动调整，最近的工作使用神经架构搜索（NAS）自动设计网络。12965...尺寸失配......培训修剪12966先前的NAS方法利用强化学习（RL）技术或进化算法（EA）。然而，这两种方法在计算上都是昂贵的，并且需要数千个GPU小时[40，29]。因此，最近的NAS文献[33，20，24]关注于可微分神经结构搜索（DNAS）; DNAS搜索包含所有候选架构的超级图，选择单个路径作为最终的神经网络。与传统NAS不同，DNAS可以在训练单个模型所需的时间内搜索大型组合空间[20，35，33，27]。基于DARTS [20]的一类DNA方法受到两个显著限制[5]：• 内存成本限制了搜索空间。由于张量无法分页，超图和特征图必须驻留在GPU内存中进行训练，这限制了搜索空间。• 成本随着每层选项的数量线性增长。这意味着每一个新的搜索维度都引入了更多的组合选项，内存和计算成本。另一类不基于DARTS的DNAS方法也存在类似的问题：例如，ProxylessNAS通过在每次迭代中只训练超图中的一条路径来解决内存约束。然而，这意味着无代理NAS将花费非常长的时间来收敛到更大的搜索空间。对于所有DNAS方法，这些理论和计算问题阻止我们扩展搜索空间以探索更大的配置空间。注意到特征映射通常支配内存成本[1]，我们提出了一个DNAS的公式（图1）。1）称为DMaskingNAS（图。2）按数量级增加搜索空间大小。为了实现这一点，我们表示多个通道和输入分辨率选项在超图中的掩码，其携带的内存和计算成本可以忽略不计。此外，我们重用的所有选项的超图，这使能源几乎恒定的内存成本与搜索空间大小的特征图。这些优化产生以下三个贡献：• 一种内存和计算效率高的DNA它同时优化了宏观（分辨率、通道）和微观（构建块）架构，1014倍更大的搜索空间使用微分搜索。据我们所知，我们是第一个使用可区分搜索框架来解决这个问题的人。超图，具有显著更少的计算成本和大致恒定的存储器成本。• 一种用于特征图重用的掩模机制和有效的形状传播。这适用于DNAS中的空间维度和信道维度• ImageNet分类的最新结果。在8个GPU上仅需27小时，我们搜索的紧凑型模型可实现可观的每参数、每FLOP准确性改进。搜索的模型优于所有以前的国家的最先进的神经网络，手动和自动设计，小和大。表1：DMaskingNAS设计选择的数量超过了以前的搜索空间：通道数C、核大小K、层数L、瓶颈类型B、输入分辨率R和扩展速率E。NAS算法CKLBRe[29]第二十九话CCCCProxylessNAS [2]CCCC单路径NAS [27]CCCChamNet [3]CCCCFBN [33]CCCCDMaskingNASCCCCCC2. 相关工作手工制作的高效神经网络有两种主要方法：（1）压缩现有的体系结构和（2）从头开始设计紧凑的体系结构。网络压缩包括架构和非架构修改。一种非架构方法是低位量化，其中权重和激活都可以用更少的位表示比如说，Wang等人。[31]提出了硬件感知的自动量化，其实现了1. 四比一MobileNet上的延迟减少了95倍[12]。这些技术与本文的方法是正交的，可以与本文的方法相结合。另外，架构修改包括网络穿孔，ing [8，32，36]，其中各种算法控制逐层或逐通道修剪。例如，Han等人。[8]表明，基于幅度的修剪可以在不损失精度的情况下将参数计数减少几个数量级，并且Ne-tAdapt [37]利用过滤器修剪算法，为MobileNetV2实现了1.2倍然而，通过基于逻辑的简化，修剪方法一个接一个地单独训练潜在的架构紧凑的架构设计旨在直接构建高效的网络，而不是修剪昂贵的网络[15，34]。例如，MobileNet [12]和MobileNet V2 [26]通过利用深度卷积和反转的残差块reversal来实现显著的效率改进ShuffleNetV2 [23]利用低成本组卷积缩小模型大小。Tan等人提出了一种复合缩放方法，获得了一系列架构，这些架构实现了最先进的精度，参数数量级比以前的卷积12967FG声道掩蔽分辨率二次抽样G1CcH2WG3M X A B C D图2：用于通道搜索的通道屏蔽：列向量掩码M∈R c是若干个掩码mi∈ R c的加权和，具有Gumbel Softmax权重gi。对于某个k∈Z，每个mi在前k个条目中有1（白色），在接下来的c−k个条目中有0（蓝色）。与这个掩码相乘可以加速通道搜索，使用图1中描述的权重共享3 .第三章。输入分辨率的分辨率子采样：X是网络的中间输出特征映射使用最近邻从X对A进行二次采样A列中蓝色像素处的值被组合以在B中创建较小的特征图。接下来，运行操作F。最后，C中的每个值都被放回D中的一个更大的特征图中。注意，我们将值放回（D）到我们从（A）提取值的像素这个过程的动机在图。4.第一章网络[30]。然而，这些模型依赖于微调，手动决策，自动设计击败。神经结构搜索可自动设计最先进的神经网络。Zoph等人在[39]中首次提出使用 RL进行自动神经网络设计这种方法和其他早期的NAS方法都是基于RL [39，29]和EA [25]。然而，这两种方法都消耗大量的计算资源。后来的作品利用各种技术，以减少计算成本的搜索。一种这样的技术将架构搜索问题公式化为超图中的路径查找过程[33，20，6，27]。其中，基于梯度的NAS已成为一个有前途的工具。Wu等人的研究表明，基于梯度的可微分NAS产生了与基于RL的方法相比，具有421倍另一个方向是利用每-预测器，以指导搜索过程[3，19]。这样的方法通过渐进地修剪来探索搜索空间，并导致搜索成本的显著降低。Stamoulis等人[28]引入权重共享以进一步降低搜索的计算成本。然而，内核权重共享空间大小：假设一个由于不可能从5 × 5卷积中提取3×3卷积的输出（反之亦然），因此该混合内核仍然卷积2×，并且仍然存储2个用于反向传播的因此，2个内核权重共享卷积引起2个香草卷积的存储器和计算成本。搜索沿空间和通道的维度进行了研究，有和没有NAS。Liu等人[18]开发一个NAS变体，在不同的步幅上搜索语义分割。然而，这种方法的缺点是随着可能的输入分辨率的增加而增加存储器成本。如上所述，网络修剪遭受逐个架构的低效和顺序探索Yu等人[38]通过创建对数量输入通道不变量的batchnorm部分地修改了这一点;在训练了“超图”之后，对于每个可能的信道子集，他们看到了竞争性的准确性，而无需进一步的训练。Yu等人[21]通过引入测试时贪婪信道选择过程扩展了这些可精简的网络。但是，这些方法与DMaskingNAS是正交的，并且可以与DMaskingNAS结合使用，因为我们从头开始训练为了解决这些问题，我们的算法联合优化多个输入分辨率和通道选项同时，增加的成本只能忽略不计的选项数量的增长。这使得DMaskingNAS支持数量级更多的可能架构，在现有的内存约束。3. 方法我们建议DMaskingNAS搜索空间和信道维度，总结在图。二、如果没有下面描述的优化，搜索空间将在计算上是禁止的并且是病态的;我们的方法使得可以在信道和输入分辨率上搜索该扩展的搜索空间（表1）。3.1. 频道搜索为了支持在不同数量的信道上的搜索，以前的DNAS方法简单地实例化一个块，M1M2M3G1G2G3WHFF12968g1g2g3不兼容昂贵具有不同通道选项的卷积必须单独运行，导致FLOP成本增加O（k）。此外，每个输出特征图必须单独存储在存储器中。步骤A步骤C步骤B为了解决上述问题，我们处理了不兼容性（图。步骤A）：考虑具有不同数量的滤波器的块b，其中bi表示具有i个滤波器的该块。过滤器的最大数量为k。所有块的输出然后被零填充以具有k个通道（图1）。3，步骤B）。给定输入x，Gumbel Softmax输出因此如下，具有Gumbel权重gi：Σky=i=1（1）k（x）{\displaystyle k步骤D（）下一页步骤E请注意，这相当于将所有卷积的滤波器数量增加到k，并屏蔽掉额外的通道（图1）。3，步骤C）。Rk是列向量，i个前导1和k−i个尾随0。注意搜索图3：渠道搜索挑战：步骤A：考虑3卷积与不同数量的过滤器。每一个人-put（gray）将具有不同数量的通道。因此，输出不能简单地求和。步骤B：零填充（蓝色）输出允许他们被求和.怎么-方法对1和0的顺序不变。由于所有块bi具有相同数量的滤波器，因此我们可以通过共享权重来近似，使得bi=b（图3，步骤D）。Σk然而，FLOP和存储器成本都随着通道选项的数量而次线性地增加。步骤C：这是等效的。y=i=1gi（b（x）i）（2）甚至可以用相同数量的过滤器，乘以零（蓝色）和一（白色）的掩码步骤D：我们使用权重共享进行近似-所有三个卷积都由一个卷积表示。步骤E：这相当于在输出相乘现在，FLOP和内存成本最后，通过这种近似，我们可以处理朴素通道搜索方法的计算复杂性：这相当于计算聚合掩码并仅运行块b一次（图10）。3，步骤E）。Σk有效常数w.r.t.频道选择的数量y=b（x）i=1吉吉（三）超级图中的每个通道选项。对于k个滤波器的卷积，这可能意味着多达k（k+1）/2<$O（k2）个卷积。以前的通道修剪方法[21]也有类似的缺点：每个选项都必须经过训练分别地，在一次发射中或迭代地找到“最佳”信道计数。此外，即使没有饱和的最大数量的可能性，有两个问题，其中第一个使得这种搜索是不可能的：1. 不兼容的维度：DNA被分为几个“单元”。在每个单元格中，我们考虑许多不同的区块选项;所有选项的输出被合并为加权和。这意味着所有块输出必须对齐尺寸。如果每个块采用具有不同数量的滤波器的卷积，则每个输出将具有不同数量的通道。因此，DNAS无法执行加权求和。2. 较慢的训练，增加的内存成本：即使有一个解决方案，使用这种天真的实例化，每个连接，`联系我们M这种近似只需要一个前向传递和一个特征图，除了方程中可忽略的M项之外，不引起额外的FLOP或存储器成本。3（图2，通道掩蔽）。此外，近似值不等于等价性，因为权重是共享的，这可以减少训练时间并提高DNAS的准确性[28]。这使我们能够搜索任何块的输出通道的数量，包括相关的架构决策，例如反转残差块中的扩展速率。3.2. 输入分辨率搜索对于空间维度，我们搜索输入分辨率。与通道一样，以前的DNAS方法将简单地用每个输入分辨率实例化每个块。这种幼稚的方法有两个缺点：增加的存储器成本和不兼容的尺寸。和前面一样，我们通过对结果进行零填充来直接解决这两个问题。不过，有两G1G2G3G1G2G3G1G2G3G1G2G312969点需要注意：12970出来出来F1. 像素错位：意味着填充不能像以前那样简单地发生。对图像的外围进行零填充是没有意义的，因为等式2中的和是零填充。1会导致像素错位（图4，B）。来处理像素错位，我们零垫，使零是在-在空间上分散（图）。4，C）。这种零填充模式是均匀的;除了零之外，这是最近邻上采样。例如，大小增加2倍将涉及每隔一行和列进行零填充。零填充而不是上采样迷你最大化“像素污染”的输入分辨率（图（五）。2. 感受野错位：由于特征图对应于不同分辨率C简单地在整个特征图上卷积将重新-不兼容的尺寸像素未对准==结果在一个减少的感受野（图。4，D）。处理接受野未对准，我们卷积子采样输入代替。（图4，E）。使用Gumbel Soft- max，我们得到了图中的二、NASNet [40]引入了一个类似的概念，将D隐藏状态这些组合也可用于有效探索组合式大搜索空间，但用于确定–与E以上的见解，输入分辨率搜索，从而招致康，存储器成本不变，无论输入数据的数量感受野错位F溶液。另一方面，计算成本随着分辨率的增加而次线性地增加。3.3. 有效形状传播请注意，此有效形状的计算仅在训练期间使用。在我们制定的加权和方程。1时，输出y保持通道的最大数量。然而，存在非整数数量的有效通道：例如16通道输出具有Gumbel权重gi=0。8，并且12通道输出具有权重g i= 0。二、这意味着有效通道数为0。8岁16+0.2 12 = 15。二、这些有效通道对于FLOP和参数计算都是必要的，因为分配较高的对更多信道的加权将导致更大的成本损失。这个有效的形状是我们如何实现在以前的作品中引入的有效资源成本[33，35]：首先，将gumbel softmax权重定义为图4：空间搜索挑战：A：由于维度不兼容，具有不同空间维度的张量无法求和。B：沿着较小特征图的外围进行零填充使得求和成为可能。然而，右上角的像素（蓝色）没有正确对齐。C：在空间上散布零填充导致正确对齐像素的总和请注意，两个特征图的右上角像素在总和中正确重叠D：说F是3×3核的卷积。简单地卷积使用包含子集（灰色）的特征图，导致子集的感受野减小（2×2，蓝色）。E：为了保留所有搜索到的输入分辨率的感受野，在卷积之前必须对输入进行二次采样。注意，感受野（蓝色）仍然是3×3。此外，我们注意到，可以达到同样的效果，而不需要建立一个更小的张量，具有适当的步幅扩张卷积;我们进行子采样以避免修改操作F。lexp[（αl+αl）/τ]h′l=gl·h<$l，wl=gl·w<$l（六）gi=i iiexp[（αl+（四）出来伊伊因出来伊伊因我我采用采样参数α、Gumbel噪声系数、温度l出来 =（n，C<$ll出来l输出）（7）τ. 对于在第l层中与Gumbel Softmax的卷积我们在等式中定义其有效输出形状Sl7例使用ef-withbatchsizen，ef fectiveeinputwidthwin和heighth′in。出来有效输出通道（C？l，方程式5），以及有效的高度，对于没有Gumbel Softmax的卷积层，有效的输出形状简化为Eq.8、有效的S，h，w'B12971出来宽度（h′ll输出，方程式（六）。信道计数等于实际信道计数。对于一个深度-Cl=igl·Cl（五）明智的卷积，有效的输出形状简化为Eq.9、出去我我，出去，w'12972k·h·C在8x8（满）+4x4（二次抽样）=2x2（二次抽样）F1F44x4（合并）P1图5：最小化像素蓝色的4×4是一个特征图，使用最近邻进行了二次采样，并均匀地进行了零填充黄色的2×2也是二次采样和零填充。将2×2与4×4相加，得到最右边的组合特征图。只有绿色的-角中的元素保持来自两个特征图尺寸的值;这些绿色值被较低分辨率的特征图“污染”。其中简单地传播有效信道计数。L2图6：搜索的FBNetV2架构，用颜色表示不同的内核大小和高度，表示不同的扩展速率。高度是按比例画的。4.1. 实验装置我们使用 PyTorch 在 8 个 Tesla V100 GPU 上实现DMaskingNAS，内存为16GB我们使用DMaskingNAS在ImageNet（ILSVRC 2012）分类数据集[4]上搜索卷积神经网络，这是一个广泛使用的NAS评估基准。我们使用相同的训练集-l 出来l出来L出来l在（八）（九）如[33]中所报道的：我们从原始的1000个类中随机选择10%的在每个epoch中，我们使用SGD训练 80%的训练样本来然后我们训练实际输出通道计数C out，有效输入通道计数Cn。然后，我们定义第l层的成本函数Gumbel Softmax采样参数α，剩余20%使用Adam [17]。我们将初始温度τ设为5.0，并以e −0进行指数退火。045美元。956每一个时代4.2. 搜索空间成本L=. 第二节出来l输出¯l¯l在外层/γ（如果FLOP）以前的细胞级搜索产生了碎片，com-k2·C1l出来 /γifparam（十）复杂和延迟不友好的块。因此，我们采用用于已知延迟友好块的逐层搜索空间用γ卷积群有效的输入渠道（l+1）th层是C<$l+1=C<$l- 是的总训练损失表3描述了微架构搜索空间：块结构受到[26，11]的启发，并依次在外层由（1）交叉熵损失和（2）总成本组成，总成本是所有层的成本之和：总成本=总成本。在前向传递中，对于所有卷积，我们计算并返回输出张量和有效输出形状。此外，Gumbel Softmax方程中的τ。4在整个训练过程中减少，[16]，迫使gl接近一个热点分布因此，argmaxg1将选择块的路径，由1×1逐点卷积、3×3或5×5卷积组成深度卷积和另一个1×1逐点卷积。表2描述了宏架构。的搜索空间包含超过1035个候选体系结构，比DNAS的搜索空间大1014倍4.3. 存储器成本我我超图;单通道和扩展速率选项对于每个块;以及用于整个网络的单个输入分辨率。然后训练最终的架构。注意，这个最终模型不使用掩蔽或需要有效的形状。4. 实验我们使用DMaskingNAS来搜索不同目标下的卷积网络结构。我们com-church我们的搜索空间，搜索模型的性能，和搜索成本，以前国家的最先进的网络。详细的数值结果列于表4中。内核大小3内核大小5跳过CC=C=C·w'·C·C12973我们的内存优化在通道每2个数量级的存储器成本搜索空间增长;对于上下文，这1 MB的增加仅占训练期间总内存开销的0.1%。这是由于我们的特征图重用，如第2节所述。第3.1条我们比较了随着通道选项数量的增加，DNAS和DMaskingNAS的内存成本（图1）。7，左）。由于每个卷积只有8个通道选项，DNAS在训练期间无法容纳内存，超过了Tesla V100GPU支持另另一方面，DMaskingNAS支持32选项的通道搜索，搜索空间大小为3222×1033英寸（给定我们的22层搜索空间），内存成本几乎不变。给，k-12974表2：我们最大搜索空间的宏架构，描述了块类型b、块扩展速率e、滤波器数量f、块数量n、第一块的步幅s。三个值的元组表示最低值、最高值和选项之间的步长（低、高、步长）。FBNetV 2-P型号的最大输入分辨率为 288 ， FBNetV 2-F 为 224 ，FBNetV 2-L为256。参见所有补充材料141312110 2 4 6 8搜索空间大小增长（数量级）5430 2 4 6 8搜索空间大小增长（数量级）搜索空间图7：DNAS的内存成本与DMaskingNAS（左）传统的DNAS在通道搜索中每个块只有8个选项，无法装入内存。另一方面，DMaskingNAS（右）我们减少搜索空间中的块选项数量将传统的DNA放入内存。随着搜索空间的增加，存储器成本的增长明显比DMaskingNAS更陡峭;实际上，DMasking- NAS内存开销几乎是恒定的。表3：用于块设计的微架构搜索空间：非线性、核大小和挤压和激发[13]。块型核压缩-激发非线性ir k3 3 N reluir k5 5 N reluir k3 hs 3 N hswishir k5 hs 5 N hswishir k3 se 3 Y reluir k5 se 5 Y reluir k3 se hs 3 Y hswishir k5 se hs 5 Y hswish跳过-选项通道搜索意味着对于具有c个通道的每个卷积，我们在{c/k，2c/k，...，c}通道。为了比较更大数量的信道选项，我们减少了搜索空间中的块选项的数量（图1）。7，右）。为了计算内存成本，我们在10个epoch中平均每个训练步骤中分配的最大内存。4.4. 搜索ImageNet模型FLOP-efficient models：我们首先使用DMaskingNAS来找到紧凑的模型（图1）。6）对于低计算预算，模型范围从 50 MFLOPs 到 300 MFLOPs 图。 8. 搜索的FBNetV2优于所有现有网络。76747270686664626050 100 150 200 250 300 350 400FLOPs（M）图8：ImageNet准确度与模型FLOPs。我们将这些FLOP 高效的 FBNetV 2 从左到右称为 FBNetV 2-F{ 1，2，3，4}高效率的模型：许多现实世界的场景都面临着有限的设备存储空间。因此，我们接下来进行形式搜索，以最小化参数计数的模型，如图所示。9 .第九条。在相似或更小的模型大小（4M参数）下，FBNetV2分别比MobileNetV3 [11]和FBNet [33]实现了2.6%和2.9%的绝对精度增益大型模型：我们最终使用DMaskingNAS来探索高端设备的大型模型我们将FBNetV 2- Large与图中的300多个MFLOP网络进行了比较。10个。5. 结论我们提出了一个内存效率的算法，通过支持空间和信道维度的这些贡献针对DNAS的主要瓶颈-14.6DNAsDMaskingNAS13.310.4410.4410.4410.44十点四十四5.81DNAsDMaskingNAS4.113.483.172.54 2.54 2.552.5576.073.271.168.3FBNetMobileNetV2ShuffleNetV2ChamNetOne-ShotProxylessNASMnasNetMobileNetV3FBNetV2（我们内存成本（GB）前1位准确度（%）内存成本（GB）最大输入BeFnS2562× 33x3116121282× 16 TBS1(12（第16段，第4段）111282× 16 TBS(0.75、3.25、0.5）(16（第28页，第4页）12642× 28TBS(0.75、3.25、0.5）(16（第28页，第4页）21642× 28TBS(0.75、3.25、0.5）(16（第40页，第8页）12322× 40TBS(0.75、3.25、0.5）(16（第40页，第8页）21322× 40TBS(0.75、3.75、0.5）(48，96，8）12162× 96TBS(0.75、3.75、0.5）(48，96，8）21162× 96TBS(0.75、4.5、0.75）(72，128，8）411297577.278.1FBNetMobileNetV2ShuffleNetV2ChamNetProxylessNASMobileNetV3EfficientNetFBNetV2（Ours）模型搜索FLOPsTop-1方法空间成本（GPU小时）累积（%）MobileNetV2- 0。35×[26]手动--59M60.3ShuffleNetV2- 0。[23]第二十三话手动--41M60.3MnasNet-0。35×[29]RL逐段91K步枪63M64.1ChamNet-E [3]EA逐段28K†54M64.2FBNet-0。[33]第三十三话梯度逐层0.2K72M65.3[11]第十一话RL/NetAdapt逐段>91K电池66M67.4FBNetV 2-F1（我们的）梯度逐层0.2K56M68.3MobileNetV2- 1. 0×[26]手动--300M72.0ShuffleNetV2- 1. [23]第二十三话手动--299M72.6DARTS [20]梯度细胞0.3K595M73.1FBNetV 2-F3（我们的）梯度逐层0.2K126M73.2ChamNet-B [3]EA逐段28K†323M73.8FBNet-B [33]梯度逐层0.2K295M74.1One-Shot NAS [6]EA逐层0.3K295M74.2ProxylessNAS [2]梯度/RL逐层0.2K320M74.6[11]第十一话RL/NetAdapt逐段>91K电池219M75.2[29]第二十九话RL逐段91K步枪312M75.2FBNetV 2-F4（我们的）梯度逐层0.2K238M76.0ResNet-50 [9]手动--4.1B76.0[14]第十四话手动--3.5B76.2[30]第三十话RL/缩放逐段>91K电池390M77.3FBNetV 2-L1（我们的）梯度逐层0.6K325M77.2表4：ImageNet分类性能：对于基线，我们引用了原始论文中ImageNet的统计数据。我们的结果是∗粗体搜索成本是根据[29]中的实验设置估计†：[3]发现5个模型，训练成本为240网络. 答：成本估算是一个下限。[11]和[30]结合了[29]和[37]中提出的方法和复合缩放。77.57875.07772.57670.07567.57465.07362.57260.01 2 3 4 5 6 78参数数（M）71300 400 500 600700 #FLOPs（M）图9：ImageNet准确度与型号尺寸。我们将这些称为参数高效的FBNetV 2，从左到右为FBNetV 2-P{ 1，2，3}除了 NSF CISE Expeditions Award CCF-1730628 之外，加州大学伯克利分校的研究还得到了阿里巴巴、亚马逊网络服务、蚂蚁金服、CapitalOne、爱立信、Facebook、Futurewei、图 10 ： ImageNet 准确度与用于大型模型的模型FLOP 。我们将这些大 FBNetV 2 从左到右称为FBNetV 2-L{ 1，2}。谷歌、英特尔、微软、英伟达、丰业银行、Splunk和VMware。本材料基于国家科学基金会研究生研究奖学金资助的工作。DGE 1752814。75.974.873.9FBNetMobileNetV2ShuffleNetV2ChamNetProxylessNASMobileNetV3FBNetV2（我们的）前1位准确度（%）前1位准确度（%）12976引用[1] 深度学习性能指南。https：//docs.nvidia.com/deeplearning/sdk/dl-performance-guide/index.html。[2] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv：1812.00332，2018。[3] 戴晓亮，张培昭，吴碧晨，尹红旭，孙飞，王扬汉，马拉·杜汗，胡云青，吴一鸣，贾扬青，等.Chamnet：通过平台感知模型适应实现高效在IEEE计算机视觉和模式识别会议的论文集中，第11398-11407页[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。正在进行IEEE会议计算机视觉和模式识别，第248-255页，2009年。[5] Thomas Elsken，Jan Hendrik Metzen，and Frank Hutter.神经架构搜索：一个调查。 arXiv 预印本 arXiv ：1808.05377，2018。[6] Zichao Guo ， Xiangyu Zhang ， Haoyuan Mu ， WenHeng，Zechun Liu，Yichen Wei，and Jian Sun.均匀采样单路径单次神经结构搜索 arXiv 预印本 arXiv ：1904.00420，2019。[7] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。[8] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统进展，第1135-1143页，2015年[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE会议计算机视觉和模式识别，第770- 778页，2016年。[10] 杨和、康国良、董宣义、傅彦伟、杨毅。用于加速深度卷积神经网络的软滤波器修剪arXiv预印本arXiv：1808.06866，2018。[11] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，et al.搜索mobilenetv 3. arXiv预印本arXiv：1905.02244，2019。[12] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. MobileNets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[13] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[14] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页[15] Forrest N Iandola、Song Han、Matthew W Moskewicz、Khalid Ashraf、William J Dally和Kurt Keutzer。SqueezeNet：AlexNet级别的精度，参数减少50倍，模型大小为0.5 MB。arXiv预印本arXiv：1602.07360，2016.[16] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax 进行分类重新参数化。arXiv预印本arXiv：1611.01144，2016。[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[18] 刘晨曦，陈良杰，弗洛里安·施罗夫，哈特维希·亚当，华伟，艾伦·L。尤耶和李飞飞自动deeplab：用于语义图像分割的分层神经结构搜索。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[19] Chenxi Liu，Barret Zoph，Jonathon Shlens，Wei Hua，Li-Jia Li，Li Fei-Fei，Alan Yuille，Jonathan Huang，and Kevin Murphy.渐进式神经架构搜索。arXiv预印本arXiv：1712.00559，2017。[20] 柳寒笑，凯伦西蒙尼扬，杨一鸣。 Darts：差异化架构搜索。arXiv预印本arXiv：1806.09055，2018.[21] Ning Liu，Xiaolong Ma，Zhiyuan Xu，Yetang Wang，Jian Tang，and Jieping Ye. Autoslim：一个自动dnn结构化修剪框架，用于超高压缩率，07 2019。[22] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。在IEEE计算机视觉国际会议的论文集，第2736-2744页[23] 马宁宁，张翔宇，郑海涛，孙健。ShuffleNet V2：高效CNN 架构设计的实用指南 arXiv 预印本 arXiv ：1807.11164，2018。[24] Hieu Pham、Melody Y Guan、Barret Zoph、Quoc V Le和Jeff Dean。通过参数共享进行高效的神经架构搜索。arXiv预印本arXiv：1802.03268，2018。[25] Esteban Real 、 Sherry Moore 、 Andrew Selle 、 SaurabhSaxena、Yutaka Leon Suematsu、Jie Tan、Quoc V Le和Alexey Kurakin。图像分类器的大规模进化。第34届机器学习国际会议论文集-第70卷，第2902-2911页。JMLR。org，2017.[26] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。反演残差和线性瓶颈：用于分类、检测和分段的移动网络。arXiv预印本arXiv：1801.04381，2018。[27] Dimitrios Stamoulis ， Ruizhou Ding ， Di Wang ，Dimitrios Lymberopoulos ， Bodhi Priyantha ， Jie Liu ，and Diana Mraculescu.单路径nas：在不到4小时的时间

下载后可阅读完整内容，剩余1页未读，立即下载