没有合适的资源?快使用搜索试试~ 我知道了~
网络设计空间的理解和发现设计原则
1设计网络设计空间IlijaRados由 vic RajPrateekKaju RossGirshick KaimingHe PiotrDolla'rFacebook AIResearch(FAIR)摘要在这项工作中,我们提出了一个新的网络设计范例。我们的目标是帮助推进网络设计的理解,并发现跨设置的设计原则。而不是专注于设计单个网络实例,我们设计的网络设计空间,参数化网络的人口。整个过程类似于经典的手工网络设计,但提升到了设计空间级别。使用我们的方法,我们探索网络设计的结构方面,并在一个低维的设计空间组成的简单,规则的网络,我们称之为RegNet。RegNet参数化的核心见解非常简单:良好网络的宽度我们分析了RegNet设计空间,并得出了与当前网络设计实践不匹配的有趣发现。RegNet设计空间提供了简单而快速的网络,可以在广泛的触发器机制中工作在类似的训练设置和失败情况下,RegNet模型的表现优于流行的Effi模型。cientNet模型,同时在GPU上的速度高达5倍。1. 介绍深度卷积神经网络是视觉识别的引擎在过去的几年里,更好的架构已经在广泛的视觉识别任务中取得了相当大的进展例子包括LeNet [12],AlexNet [10],VGG [22]和ResNet [6]。这些工作既提高了神经网络的有效性,也提高了我们对网络设计的理解特别是,上述工作序列分别证明了卷积、网络和数据大小、深度和残差的重要性。这些工作的成果不仅是具体的网络实例,而且是可以推广并应用于许多设置的设计原则虽然手动网络设计带来了巨大的进步,但手动找到优化良好的网络可能会很麻烦,特别是当设计选择的数量增加时。解决这一限制的一种流行方法是神经结构搜索(NAS)。给定一个固定的搜索空间,一BCB一C图1. 设计空间设计。我们建议设计网络设计空间,其中设计空间是一个参数化的一组可能的模型架构。设计空间的设计类似于手工的网络设计,但被提升到人口的层面.在我们的过程的每一步中,输入是初始设计空间,输出是更简单或更好模型的细化设计空间。在[18]之后,我们通过对模型进行采样并检查其误差分布来表征设计空间的质量。例如,在上图中,我们从初始设计空间A开始,并应用两个细化-分割步骤以产生设计空间B,然后产生C。在这种情况下,CBA(左),误差分布从A到B严格改善C(右)。希望是应用于模型群体的设计原则更有可能是鲁棒的和通用的。在网络中,NAS会自动在搜索空间内找到一个好的模型最近,NAS受到了很多关注,并显示出优异的结果[29,15,25]。尽管NAS是有效的,但该范例具有局限性。搜索的结果是调谐到特定设置的单个网络实例(例如,硬件平台)。这在某些情况下是足够的;然而,它不能使网络设计原则的发现,加深我们的理解,并允许我们推广到新的设置。特别是,我们的目标是找到简单的模型,易于理解,构建和推广。在这项工作中,我们提出了一个新的网络设计模式,结合了手工设计和NAS的优点。我们设计的设计空间将网络的总体参数化,而不是专注于设计单个网络实例。[1]与手工设计一样,我们的目标是可解释性,并发现描述简单、工作良好、通用于各种设置的网络的一般设计原则与NAS一样,我们的目标是利用半自动化程序来帮助实现这些目标。1我们使用[18]中的术语设计空间,而不是搜索空间,以强调我们不是在空间中搜索网络实例。相反,我们正在设计空间本身。1042810429我们采用的一般策略是在保持或提高其质量的同时,逐步设计初始的、相对不受约束的设计空间的简化版本(图1)。整个过程类似于手动设计,提升到总体水平,并通过网络设计空间的分布估计进行指导[18]。作为这种范例的试验平台,我们的重点是探索网络结构(例如,宽度、深度、组等)假设标准模型系列包括VGG [22],ResNet [6]和ResNeXt [26]。我们从一个相对不受约束的设计空间开始,我们称之为AnyNet(例如,宽度和深度在各个阶段之间自由变化),并应用我们的人在回路方法来达到由简单的“规则”网络组成的低维设计空间RegNet设计空间的核心很简单:级宽度和深度由量化线性函数确定。与AnyNet相比,RegNet设计空间具有更简单的模型,更容易解释,并且具有更高的好模型集中度。我们使用ImageNet上的单个网络块类型在低计算、低历元机制中设计RegNet设计空间[2]。然后,我们表明,RegNet设计空间推广到更大的计算制度,时间表长度和网络块类型。此外,设计空间设计的一个重要支柱是它更具可解释性,并可以导致我们可以学习的见解我们分析了RegNet设计空间,并得出了与当前网络设计实践不匹配的有趣发现。例如,我们发现,最佳模型的深度在计算机制(20个块)上是稳定的,并且最佳模型不使用瓶颈或反向瓶颈。我们比较顶级的REGNET模型,现有的网络在各种设置。首先,REEGNET模型在移动领域令人惊讶地有效。我们希望这些简单的模型可以作为未来工作的强有力的基线。接下来,REGNET模型在所有指标上都比标准RESNE(X)T[6,26]模型有相当大的改进。 我们强调了对固定激活的改进,这具有很高的实际意义,因为激活的数量会强烈影响加速器(如GPU)的运行时间。接下来,我们将跨计算机制与最先进的EFFICIENT-NET[25]模型进行比较。在可比较的训练设置和失败情况下,REGNET模型优于-形成EFFICIENTNET模型,同时在GPU上速度提高5倍。我们进一步在ImageNetV2上测试泛化[20]。我们注意到,网络结构可以说是设计空间设计的最简单形式。专注于设计更丰富的设计空间(例如,包括运营商)在未来的工作中可能会导致更好的网络。我们强烈建议读者在arXiv2上看到这项工作的扩展版本,并检查代码3。2https://arxiv.org/abs/2003.136783https://github.com/facebookresearch/pycls2. 相关工作手动网络设计。AlexNet [10]的引入使网络设计成为一个蓬勃发展的研究领域。在随后的几年中,提出了改进的网络设计;例如VGG [22]、Inception [23,24]、ResNet [6]、ResNeXt [26]、DenseNet [8]和Mo- bileNet[7,21]。这些网络背后的设计过程主要是手动的,重点是发现新的设计选择,以提高准确性,使用更深的模型或残差。我们同样也有发现新设计原则的目标事实上,我们的方法是类似于手动设计,但在设计空间级别执行。自动化网络设计。最近,网络设计过程已从手动探索转向更自动化的网络设计,NAS使其流行起来。NAS已被证明是寻找好模型的有效工具,例如,[30、19、14、17、15、25]。NAS中的大部分工作集中在搜索算法上,即,在一个固定的、手动设计的搜索空间(我们称之为设计空间)内高效地找到最佳网络实例。相反,我们的重点是设计新颖的设计空间的范例。两者是互补的:更好的设计空间可以提高NAS搜索算法的效率,并通过丰富设计空间而导致更好的模型的存在。网络扩展。手动和半自动网络设计通常都集中在为特定的机制(例如,与ResNet-50相当的失败次数)。由于该过程的结果是单个网络实例,因此不清楚如何使该实例适应不同的机制(例如,更少的失败)。一种常见的做法是应用网络缩放规则,例如改变网络深度[6],宽度[27],分辨率[7],或三者联合[25]。相反,我们的目标是发现一般的设计原则,持有跨政权,并允许有效调整的最佳网络在任何目标政权。比较网络。考虑到可能的网络设计空间数量巨大,必须使用可靠的计算指标来指导我们的设计过程。最近,[18]的作者提出了一种方法,用于比较和分析从设计空间采样的网络群体。这个分布层视图完全符合我们寻找通用设计原则的目标。因此,我们采用这种方法,并证明它可以作为一个有用的工具,设计空间设计过程。参数化。我们的最终量化的线性参数化与以前的工作,例如。如何设置阶段宽度[22,5,27,8,7]。然而,有两个关键的区别。首先,我们提供了一个实证研究证明我们所做的设计选择。其次,我们给出了以前没有理解的结构设计选择的见解(例如,如何设置每个阶段中的块的数量104303. 设计空间设计我们的目标是设计更好的视觉识别网络。而不是设计或寻找一个单一的最佳模型在特定的设置,我们研究的行为流行,1.00.80.60.40.20.0404550556065误差706050401020304050深度706050402004006008001000w4模型的实现我们的目标是发现一般的设计原则-可以应用于并改进整个模型的样本。这样的设计原则可以提供对网络设计的见解,并且更有可能推广到新的设置(不像针对特定场景调整的单个模型)。我们依赖于Radosavovic等人介绍的网络设计空间的概念。[18 ]第10段。设计空间是一个大的,可能是无限的,人口的模型架构。[18]的核心见解是,我们可以从设计空间中对模型进行采样,从而产生模型分布,并转向经典统计工具来分析设计空间。我们注意到,这与架构搜索不同,架构搜索的目标是从空间中找到单个最佳模型。在这项工作中,我们建议设计一个初始的,不受约束的设计空间逐步我们把这个过程称为设计空间设计。设计空间设计类似于顺序手动网络设计,但提升到总体水平。具体而言,在我们设计过程的每一步中,输入是初始设计空间,输出是细化的设计空间,每个设计步骤的目的是发现产生更简单或性能更好的模型的设计原则。我们首先在§3.1中描述我们用于设计空间设计的基本工具。在第3.2节中,我们应用我们的方法-图2.使用n= 500个采样模型计算的AnyNetX设计空间的统计数据。左:误差经验分布函数(EDF)是我们可视化设计空间质量的基础工具。在图例中,我们报告了最小误差和平均误差(对应于曲线下面积)。中间:网络深度d(块数)与误差的分布。右图:第四阶段(w4)与误差的关系。蓝色阴影区域是包含95%置信度的最佳模型的范围(使用经验自举法获得),黑色垂直线是最可能的最佳值。为了获得模型的分布,我们从一个设计空间采样和训练n个模型。为了提高效率,我们主要在低计算、低历元训练方案中这样做。特别是,在本节中,我们使用4亿次浮点数4(400MF)机制,并在ImageNet数据集上训练每个采样模型10个epoch [2]。我们注意到,虽然我们训练了许多模型,但每次训练运行都很快:在400 MF下训练100个模型10个epoch大致相当于在4GF下训练单个ResNet-50 [6]模型100个epoch。与[18]一样,我们分析设计空间质量的主要工具是误差经验分布函数(EDF)。具有误差ei的n个模型的误差EDF由下式给出:1Σn一个名为AnyNet的设计空间,允许不受约束的F(e)=n i=11[e i1是最好的(未显示);我们在arXiv中进行了更详细的分析。AnyNetXD. 接下来,我们在图6中检查AnyNetX C中好网络和坏网络的典型网络结构。一种模式出现了:良好的网络具有增加的宽度。我们测试了w i+1≥w i的设计原则,并将具有此约束的设计空间称为AnyNetXD。在图7(左)中,我们看到这大大改善了EDF。我们很快会回到检查控制宽度的其他选项AnyNetXE. 在进一步检查许多模型(未显示)后,我们观察到另一个有趣的趋势。除了级宽度wi随i增加之外,级深度di对于最佳模型同样倾向于增加,尽管不一定在最后一级中。尽管如此,我们在图7(右)中测试了一个设计空间变体AnyNetXE,其中di+1≥di最后,我们注意到,对w i和d i的约束每个都将设计空间减少了4!,与AnyNetX A相比,累计减少了O(107)。空间可以通过量化线性参数化来很好地建模,相反,这种参数化具有较高拟合误差Efit的网络往往表现不佳。详情见正文3.3. RegNet设计空间为了进一步了解模型结构,我们在一个图显示了AnyNetXE 中 最 好 的 20 个 模 型 , 参 见 图 8 ( 左 上角)。对于每个模型,我们绘制每个块j到网络深度d的每块宽度wj(我们分别使用i和j我们的模型可视化参考见图6虽然个体模型(灰色曲线)存在显著差异,但总体上出现了一种模式。特别是,在同一图中,我们显示了直线wj=48·(j+1),0≤j≤20(实心黑色曲线,请注意y轴为对数)。值得注意的是,这个微不足道的线性拟合似乎是前-清楚地表明了顶级模特网络宽度增长的总体趋势。然而,请注意,该线性拟合为每个块分配不同的宽度wj,而各个模型具有量化的宽度(分段常数函数)。为了查看类似的模式是否适用于单个模型,我们需要一种策略来将一条线映射到分段常数函数。受我们对AnyNetXD和AnyNetXE的观察的启发,我们提出了以下方法。首先,我们引入块宽度的线性参数化:uj=w0+wa·j为0≤j0,斜率wa>0,并为每个块j0,0.80.6量化如下。首先,给定uj由方程(2)我们0.40.2对于每个块j计算sj,使得以下成立:0.03540455055603035404550556040455055606570uj=w0·wsj(三)1.00.8然后,对于uj,我们简单地舍入sj(用sj表示)0.6并通过以下公式计算量化的每块宽度w,jsj0.40.20.0wj=w0·wm(4)455055606570误差50 60 7080误差50 55 60 65 70误差我们可以将每个块的wj转换为每个阶段的格式,简单地计算具有恒定宽度的块的数量,图10. RegNetX泛化。 我们将RegNetX与AnyNetX在更高的触发器(左上),更高的时代(中上),也就是说,每个级i具有块宽度wi=w0·wi#21446;,具有5级网络(右上)和各种块类型m(底部)。在所有情况下,设计空间的顺序都是一致的。块的误码率di=j1[ksjk=i]。当仅仅考虑到四阶段网络,我们忽略了参数组合,导致不同的阶段数。我们通过拟合AnyNetX的模型来测试这种参数化。特别是,给定一个模型,我们通过将d设置为网络深度并在w0,wa和wm上执行网格搜索来计算拟合,以最小化预测的平均对数比(由e拟合表示)。AnyNetXE的两个顶级网络的结果如图8所示(右上角)。量化的线性拟合(虚线)是这些最佳模型(实线)的良好拟合。接下来,我们在图8(底部)中绘制了AnyNetXC到AnyNetXE中每个网络的拟合误差efit与网络误差的关系 First, we note that the best models in each designspace all have good linear fits. 实际上,经验自举给出了接近0的窄的e拟合带,其可能包含每个设计空间中的最佳模型其次,我们注意到,平均而言,从AnyNetXC到AnyNetXE,e拟合得到改善,这表明线性参数化自然会强制相关约束wi和di增加。为了进一步测试线性参数化,我们设计了一个只包含具有这种线性结构的模型的设计空间。特别地,我们通过6个参数指定网络结构:d,w0,w a,w m(以及b,g)。给定这些,我们通过等式11生成块宽度和深 度 ( 2 ) - ( 4 ) 。 我 们 将 生 成 的 设 计 空 间 称 为RegNet,因为它只包含简单的常规模型。 我们采样d64,w0,wa256,<1 .一、5≤wm≤3,b和g如前所述(范围根据efitonAnyNetXE).RegNetX的错误EDF如图9(左)所示。RegNetX中的模型比AnyNetX具有更好的平均误差,同时保持最佳模型。在图9(中间)中,我们测试了两个进一步的简化。 首先利用wm=2(级间宽度加倍)略微改善了EDF,但我们注意到使用wm≥2时性能更好[39. 0| 49. [ 38.第38话.7|42.7]AnyNetXE[38.2|]RegNetXRegNetX7] RegNetXw m[38.2| 40.1] RegNetXw0=wa= 2.2|41.0]8.0|40.[38][3AnyNetXARegNetX限制调光组合总数AnyNetXA无16(16·128·3·6)41.8·1018AnyNetXB+ bi+1 = bi13(16·128·6)4·36. 8·1016AnyNetXC+ gi+1 = gi10(16·128)4·3·6·3。2·1014AnyNetXD+ wi+1 ≥ wi 10 ( 16·128 ) 4·3·6/ ( 4 ! ) 1.3·1013AnyNetXE+ di+1 ≥ di10 ( 16·128 ) 4·3·6/ ( 4 ! )两 千 五 百万。5·1011RegNet量化线性6644·6·33. 0·108EXRegNet6.8][34.6|3tXATXAnyNeAnyNe|44.5]|38.5][35.8[35.10Ms=80翻牌EE35E[47.0|61.2][46.8|56.4]ERegNetV6.0|49.2][四AnyNetVAAnyNetV83EetVR3] RegN[46.6|49.NetVRANetVR.9]任何.3]任何[48.1|5[47.4|5累积概率误差累积概率累积概率EPOchs=50[30.0[30.0|38.8|32.5任何任何净值XANetX[29.4|31.5] RegNETXSt年龄= 5[40.4|[38.4|49.9]42.8]AnyNeAnyNeTX ATX[37.9|41.4] RegNeTX[四[四2.9|52.0|4.1]安.7]安YnetYnetRAR[41.9|44.3] RegNetR10434我们没有看到设计空间过度拟合的迹象(稍后显示)。其次,我们测试设置w0=wa,进一步简化线性参数化为uj= wa·(j +1)。有趣的是,它的表现甚至更好。但是,对于主-保持模型的多样性,我们不强加任何限制。最后,在图9(右)中,我们表明RegNetX的随机搜索效率要高得多;32个随机模型可能会产生好的模型。表1显示了设计空间大小的汇总(对于RegNet,我们 通 过 量 化 其 连 续 参 数 来 估 计 大 小 ) 。 在 设 计RegNetX时,我们将原AnyNetX设计空间的维数从16维减少到6维,大小减少了近10个数量级。然而,我们注意到,RegNet仍然包含各种各样的模型,可以针对各种设置进行调整。3.4. 设计空间概化我们设计了RegNet设计空间,采用低计算、低时期的训练机制,只有一个块类型。然而,我们的目标不是为一个单一的设置设计一个设计空间,而是发现网络设计的一般原则,可以推广到新的设置。在图10中,我们将RegNetX设计空间与AnyNetXA和AnyNetXE在更高的触发器、更高的epoch、5级网络和各种块类型(在arXiv中描述)下进行了比较。在所有 情 况 下 , 设 计 空 间 的 顺 序 是 一 致 的 ,RegNetX>AnyNetXE>AnyNetXA。换句话说,我们没有看到过度拟合的迹象。这些结果很有希望,因为它们表明RegNet可以推广到新的设置。5阶段的结果表明,RegNet的规则结构可以推广到更多阶段,其中AnyNetXA具有更多的自由度。104351024102410241024102410241024102451251251251251251251251225625625625625625625625612864321286432128643212864321286432128643212864321286432160246810121603691215182116024681012 1416024681012 141602468101216024681012 14160246810121416024681012204820482048204820482048204820481024102410241024102410241024102451251251251251251251251225612864256128642561286425612864256128642561286425612864256128643202468101214 1632036912151821 24320369121518 21320246810 12 14 1632036912 1518 21 24320369121518320369121518 2132036912 15 18 21 24409640964096409640964096409640962048204820482048204820482048204810241024102410241024102410241024512256128512256128512256128512256128512256128512256128512256128512256128640369121518 21块索引6402468 1012 1416 18块索引64036912151821块索引640369121518 21块索引6402468101214 16块索引6402468 101214 16 18块索引6402468101214 16块索引64024681012 1416 18块索引REG NET X-200MFREG NET X-400MFREG NET X-600MFREG NET X-800MFREG NET X-1.6GFREG NET X-3.2GFREG NET X-4.0GFREG NET X-6.4GFREG NET X-8.0GFREG NET X-12GFREG NET X-16GFREG NET X-32GFflops(B)0.20.40.60.81.63.24.06.58.012.115.931.7params(M)2.75.26.27.39.215.322.126.239.646.154.3107.8行为(M)二、二3.14.05.17.911.412.216.414.1批尺寸10241024102410241024512512512512512512推断(ms)101517213357699294137168318火车(hr)2.83.94.45.78.714.317.123.522.632.939.776.9误差(顶部-1)31.1±0.0927.3±0.1525.9±0.0324.8±0.0923.0±0.1321.7±0.0821.4±0.1920.8±0.0720.7±0.0720.3±0.0420.0±0.11REG NET Y-200MFREG NET Y-400MFREG NET Y-600MFREG NET Y-800MFREG NET Y-1.6GFREG NET Y-3.2GFREG NET Y-4.0GFREG NET Y-6.4GFREG NET Y-8.0GFREG NET Y-12GFREG NET Y-16GFREG NET Y-32GFflops(B)0.20.40.60.81.63.24.06.48.012.115.932.3params(M)第3.2节4.36.16.311.219.420.630.639.251.8行为(M)二、二3.94.35.28.011.312.316.418.0批尺寸10241024102410241024512512512512512512推断(ms)11191922396768104113150189319火车(hr)第3.1节5.15.26.010.116.516.826.128.1误差(顶部-1)29.6±0.1125.9±0.1624.5±0.0723.7±0.0322.0±0.0821.0±0.0520.6±0.0820.1±0.0420.1±0.0919.7±0.0619.6±0.16图11. 热门REGNETX车型 我们在NVIDIA V100 GPU上测量64幅图像的推理时间;训练时间为8个GPU上的100个epoch,并列出批量大小。网络图图例包含实现模型所需的所有信息4. 与现有网络的比较我们现在将RegNetX和RegNetY设计空间的顶级模型(参见arXiv)与ImageNet [2]上的最先进模型进行比较 。 我 们 用 小 型 大 写 字 母 来 表 示 各 个 型 号 , 例如.REGNETX.我们也给模型加上了触发器机制的后缀,例如。400MF。对于每个触发器机制,我们从RegNet参数(d,g,wm,wa,w0)的25个随机设置中选择最佳模型,并在100个epoch处重新训练
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功