没有合适的资源?快使用搜索试试~ 我知道了~
11398ChamNet:通过平台感知模型自适应戴晓亮1人,张培昭2人,吴碧晨3人,尹红旭1人,孙飞2人,王扬涵2人,Marat Dukhan2人,胡云青2人,吴一鸣2人,贾阳青2人,Peter Vajda2人,Matt Uyttendaele2人,Niraj K.Jha11普林斯顿大学,2Facebook Inc.,3加州大学伯克利分校摘要本文提出了一种高效的神经网络(NN)架构设计方法称为变色龙荣誉给定的资源约束。我们的方法不是开发新的构建块或使用计算密集型再增强学习算法,而是利用现有的高效网络构建块,并专注于利用硬件特性和调整计算资源以适应目标延迟和/或能量约束。我们制定了一个优化框架中的平台感知NN架构搜索在我们的算法的核心在于一个精度预测器建立在高斯过程与贝叶斯优化迭代采样。由于预测器的一次性构建成本,我们的算法在几分钟内即可在给定的约束条件下在不同平台上生成最先进的模型架构。我们的研究结果表明,适应计算资源的构建块是至关重要的模型性能。在不添加任何特殊功能的情况下,我们的模型相对于最先进的手工制作和自动设计的架构实现了显着的准确性提高。我们在移动CPU和DSP上以20 ms的延迟在ImageNet上实现了73.8%和75.3%的top-1在减少延迟的情况下,我们的模型在移动CPU(DSP)上分别 实 现 了 与 MobileNetV 2 和 MnasNet 相 同 的 8.2%(4.8%)和6.7%(9.3%)的绝对top-1精度提升,在Nvidia GPU(IntelCPU)上分别实现了与ResNet-101和ResNet-152相比的2.7%(4.6%)和5.6%(2.6%)的精度提升。1. 介绍神经网络(NN)在无数领域(如计算机视觉、语音识别和机器翻译)中取得了最先进的成就。由于压力-这项工作部分得到了Facebook暑期实习的支持CNS-1617640由于存在数百万个参数和浮点运算(FLOP),NN通常计算量太大而不能部署在资源受限的平台上。在设计紧凑的神经网络结构方面,已经取得了许多示例包括[24,21]中提出的NN,其显着降低了计算成本,并在准确性和效率之间实现了更有利的权衡。然而,紧凑的模型设计在实际应用中部署时仍然面临挑战[33]:• 不同的平台具有不同的硬件特性。单一的神经网络结构很难运行最佳地在所有不同的平台上。例如,Hexagon v62DSP更喜欢通道大小为32的倍数的卷积运算符,如后所示,而在其他平台上可能不是这种情况。• 现实世界的应用程序可能面临非常不同的约束。例如,实时视频帧分析可以具有严格的延迟约束,而互联网视频帧分析可以具有严格的延迟约束。物联网(IoT)边缘设备设计人员可能更关心运行时能量,以延长电池寿命。要有一个神经网络同时满足所有这些约束是不可行的.这使得有必要使NN架构适应特定的使用场景。有两种常见的做法来解决这些挑战。第一种做法是根据给定平台的特性手工制作架构。然而,这种试错法对于大规模跨平台NN部署来说可能过于耗时,并且可能无法有效地探索设计空间。此外,它还需要硬件细节和驱动程序库的大量知识。另一个实践集中在平台感知神经架构搜索(NAS)和基于顺序模型的优化(SMBO)[37]。NAS和SMB0两者都需要计算上昂贵的网络训练和网络性能度量(例如,延迟和能量)。例如,延迟驱动的移动NAS(MNAS)架构需要数百个11399的GPU小时来开发[28],这变得负担不起时,针对众多平台的各种资源预算。此外,由于其复杂性,可能难以实现NAS发现的新小区级结构[37]。在本文中,我们提出了一个有效的,可扩展的,和自动化的神经网络架构的适应方法。我们将这种方法称为变色龙。它不依赖于新的细胞级构建块,也不使用计算密集型强化学习(RL)技术。相反,它考虑到硬件平台的特点,从而分配计算资源时,搜索的设计空间给定的神经网络架构与现有的构建块。这种适应减少了搜索时间。它采用预测模型(即准确性、延迟和能量预测器),通过启用即时性能度量估计来加快整个搜索过程。准确度和能量预测器结合了高斯过程(GP)回归,并采用贝叶斯优化和不平衡准蒙特卡罗(QMC)采样进行了增强。它还在延迟预测器中包含一个操作员延迟查找表(LUT),用于快速而准确的延迟估计。它始终提供更高的准确性和更少的运行时延迟,以应对跨多个硬件平台(例如,移动CPU、DSP、Intel CPU和Nvidia GPU)。我们的贡献可归纳如下:1. 我们发现,计算分布是模型性能的关键。通过利用现有的高效构建块,我们在各种设备和资源预算下对模型进行了调整,使其在最先进的手工制作和2. 我们提出了一种新的算法,通过有效的精度和资源预测搜索在我们的算法的核心在于一个准确的预测建立在GP与贝叶斯优化,使一个更有效的搜索在类似的空间比基于RL的NAS。3. 我们提出的算法是高效和可扩展的。由于一次性的构建成本,它只需要几分钟就可以搜索到不同平台/约束下的模型,因此使它们适合大规模异构部署。2. 相关工作高效的NN设计和部署是一个充满活力的领域。我们接下来总结相关的工作。模型简化:模型简化是高效神经网络设计的一个重要方向.网络prun- ing [11,29,6,34,32,7]一直是一种流行的方法用于去除NN中的冗余。例如,Ne-tAdapt [33]利用硬件感知的过滤器修剪算法,并在ImageNet数据集上实现高 达 1.2 倍 的 MobileNetV 2 加 速 [8]。 AMC [13] 采 用RL,自动模型压缩,并在Titan XP GPU上实现MobileNetV1的1.53倍量化[10,17]也已成为一个强大的工具,显着削减降低计算成本,没有或很少的精度损失。例如,Zhu等人[36]表明,与其全精度对应物相比,当使用3位表示权重时,ResNet-18的前5位精度损失仅为2%。紧凑型架构:除了简化现有模型外,为移动友好架构手工制作更高效的构建块和操作器也可以显著改善准确性-效率权衡[18,30]。例如,在相同的精度水平下,MobileNet [15]和ShuffleNet [31]通过分别利用深度卷积和低成本组卷积,与ResNet [12]相比大幅降低了计算成本。 他们的继任者MobileNetV 2 [24]和Shuf-fleNetV 2 [21]进一步缩小了模型大小,同时保持甚至提高了准确性。为了将这些模型部署在不同的真实世界平台上,Andrew et al.在[15]中提出了线性缩放这是一种简单但广泛使用的方法,可以适应各种延迟约束。它依赖于在每一层均匀地细化网络,或者减少网络的密度。设置输入图像分辨率。NAS和SMBO:平台感知NAS和SMBO已经成为基于直接度量自动化模型的合成流程的有前途的方向,使其更适合部署[14,22,3,19,20,4]。例如,与MobileNetV2 1.0 x 相 比 , MnasNet [28] 在 使 用TensorFlow Lite的Google Pixel 1上仅产生了1.3%的延迟开销。至于SMBO,Stamoulis et al.使用贝叶斯优化方法,减少VGG-19的能耗[25]在移动终端上最多可提高6倍。不幸的是,很难扩展NAS和SMBO以进行大规模平台部署-这是因为整个搜索和优化需要在每个网络、每个平台、每个用例中进行一次。3. 方法我们首先对Chameleon框架进行了高层次的概述,然后我们放大到预测模型。3.1. 平台感知模型适配我们在图中说明了变色龙方法。1.适配步骤采用默认NN架构和特定使用场景(即,平台和资源预算)作为输入,并生成适配的架构作为输出。Chameleon通过高效进化搜索(EES)搜索适合使用场景的基本NN架构的变体。EES基于自适应遗传算法-11400图1.变色龙适应框架rithm [26],其中NN架构的基因由超参数向量表示(例如,#过滤器和#瓶颈),表示为x∈Rn,其中n是感兴趣的超参数在每次迭代中,EES根据以下条件评估每个NN架构候选者的适应度:输入的预测模型,然后选择具有最高适应度的架构,使用变异和交叉算子繁殖下EES在预定义的迭代次数后终止最后,Chameleon基于目标平台和使用场景的适应性NN架构。我们制定EES作为一个约束优化问题。目标是在目标平台上的给定资源限制下最大限度地提高准确性:在F(x,plat)≤thres(1)的条件下最大化A(x)其中A、F、plat和thres指的是x到网络准确度的映射,x到网络性能度量的映射(例如,等待时间或能量)、目标平台,以及由使用场景确定的资源约束(例如,20ms)。我们将资源约束合并为适应度函数R中的正则化项,如下所示:R=A(x)−[αH(F(x,plat)−thres)]w(2)其中H是Heaviside阶跃函数,α和w是正常数。因此,目标是找到使R最大化的网络基因x:然而,通过网络训练和硬件上的直接测量来提取上述度量太耗时[19]。为了加快这个过程,我们通过利用准确性,延迟和能量预测器来绕过训练和测量过程,如图所示。1.这些预测器使度量估计在不到一个CPU秒。接下来,我们将详细介绍我们的准确性、延迟和能量预测器3.2. 高效的精度预测器为了显着加快NN架构候选评估,我们利用准确度预测器来估计模型的最终准确度,而无需实际训练它。这种预测器有两个期望的目标:1. 可靠的预测:预测器应该最小化预测精度和实际精度之间的距离,并按照与实际精度相同的顺序对模型进行排序。2. 样品效率:预测器应该用尽可能少的训练过的网络架构来构建。这节省了计算资源。接下来,我们将解释如何通过GP回归和基于贝叶斯优化的样本结构选择来实现这两个目标。3.2.1高斯过程模型我们选择一个GP回归量作为我们的准确性预测因子,以模型A为:x =argmax(R)(3)A(xi)= f(xi)+f(xi),i = 1,2,.,S(四)xf(·)<$GP(·|0,K),中国(·|20,σ)我们接下来估计F和A来解决优化问题。F的选择取决于兴趣约束 在这项工作中,我们主要研究基于直接延迟和能量测量的F,而不是间接代理,如FLOP,已被证明是次优的[33]。因此,对于每个NN候选者x,我们需要三个指标来计算其R(x):准确性,延迟和能耗。其中,i表示s个训练向量中的训练向量的索引,并且ni表示具有独立N(·)的噪声变量。|0,σ2)分布。f(·)是根据由协方差矩阵K表征的GP先验确定的。我们对K使用径向基函数核:K(x,x′)=exp(−γ||x−x′||(2) (5)我11401MSE=6.15高斯过程70605050 60 70线性回归70605050 60 70MLP70605050 60 70决策树回归70605050 60 70算法1用于构建准确度预测器的步骤输入:k:样本架构池大小,p:探索样本计数,q:开发样本计数,e:MSE阈值样本池=从自适应搜索空间中获取k个QMC样本所有样本=从样本池中培养(所有样品)Predictor =使用所有观测值当Eval(Predictor)≥e时,对于(池\所有示例)中的架构,a i =预测器。getAccuracy(架构)v i =预测器。getUncertainty(架构)flopi=getFLOP(体系结构)端Sexplore ={具有p个最高vi的架构}Sexploit={具有q最高ai的架构}提升决策树贝叶斯岭翻转I所有样本=所有样本均为xxplorexxploit70 70列车(S探索 恶意利用)605050 6070实际605050 60 70实际Predictor =使用所有观测值end while返回预测器图2.不同精度预测模型的性能比较MSE指的是留一法均方误差。GP回归器提供两个好处。首先,当训练数据稀缺时,它提供了可靠的预测。作为一个例子,我们比较了几个回归模型的Mo-bileNetV 2的准确性预测图。2.在 所 有 六 个 回 归 模 型 中 , GP 回 归 量 的 均 方 误 差(MSE)最低。其次,GP回归器产生具有不确定性估计的预测,这为用于训练的新样本架构选择这有助于提高收敛速度和提高采样效率,如下所示。3.2.2迭代样本选择如前所述,我们的目标是用尽可能少的NN架构样本来训练GP预测器。在算法1中,我们总结了我们高效的样本生成和预测器训练方法。由于自适应搜索空间中唯一架构的数量仍然非常大,因此我们首先从该搜索空间中抽取代表性架构以形成架构池。我们采用QMC抽样方法[2],已知该方法提供与Monte Carlo抽样相似的精度,但样本数量级较少。然后,我们迭代地构建准确度预测器。在每次迭代中,我们使用当前预测器作为选择其他样本架构以添加到训练集的指南。我们训练这些样本架构,然后根据新的架构精度观察结果升级预测器。图3.“感兴趣的样品”和样品选择结果的图示为了提高样本效率,我们进一步将贝叶斯优化纳入样本架构选择过程。这使得算法1能够以更少的样本更快地收敛[27]。具体来说,我们在每次迭代中选择exploitation和exploration样本:• 开发样本:我们选择具有高精度/FLOPs比率的样本这些理想的架构或更高的精度,更少的计算成本。它们通常位于精度-FLOPs权衡图的左上部分,如图所示。3.第三章。• 勘探样品:我们选择具有较大不确定性值的样本。这有助于提高GP回归量在整个适应搜索空间[27]。基于这些规则,我们在图中显示了从架构空间中选择的样本架构。3.可以观察到,我们在“感兴趣的样本”区域中具有更高的采样密度MSE=1.69MSE=3.52MSE=3.02MSE=13.92MSE=3.52预测预测预测11402302010(a)(b)第(1)款图4.在(a)Snapdragon 835上,输入图像大小为56×56且步幅为1的1×1卷积的延迟与通道数CPU和(b)Hexagon v62 DSP。红色(蓝色)表示高(低)延迟。3.3. 延迟预测器最近,已经做出了很大的努力,以开发更有效和紧凑的NN架构,以实现更好的准确性-延迟权衡。他们中的大多数基于FLOP优化NN,这是一种常用的代理[37,35]。然而,基于直接延迟测量而不是FLOP的优化可以更好地探索硬件特性,从而提供额外的优势。为了说明这一点,我们显示了具有不同数量的输入和输出的1×1卷积算子的测量潜伏期表面把通道放在图中。4.延迟是在骁龙835移动CPU和Hexagon v62 DSP上测量的。可以观察到,FLOP虽然通常在提供用于延迟减少的指导方面是有效的,但是在模型部署时可能无法捕获然而,通过直接测量在EES执行期间提取NN架构的延迟特定于平台的延迟测量可能很慢并且难以并行化,特别是当可用设备的数量有限时[33]。因此,大规模的延迟测量可能是昂贵的,并成为Chameleon的计算瓶颈。为了加快这个过程,我们为目标设备构建了一个操作员延迟LUTLUT由操作员延迟数据库支持,在该数据库中,我们对具有不同输入维度的真实设备上的操作员级延迟进行基准测试。对于NN模型,我们将其所有操作员级延迟总结为网络级延迟的估计tnet=toperator(6)为给定设备构建操作员延迟LUT是一次性成本,但可以在各种NN模型、不同任务以及架构搜索和模型自适应的不同应用中基本上重用。基于操作延迟LUT的延迟估计可以在不到一个CPU秒的时间内完成,而不是通常需要几分钟的硬件上的实际测量。此外,它还支持并行查询,从而显着提高同时延迟提取效率跨多个NN候选人。这使得延迟00 5 10 15 20 25 30 35实际(ms)图5.Snapdragon 835 CPU上的延迟预测器评估在EES中进行估计所花费的时间非常少。我们将预测的延迟值与图1中的实际测量值进行比较。五、预测值与实际测量值之间的距离很小。3.4. 能量预测器电池供电设备(例如,智能手表、移动电话和AR/VR产品)具有有限的能量预算。因此,重要的是在部署之前调整NN模型以适应能量约束[5]。为了解决这个问题,我们在Chameleon中针对不同的平台和使用场景引入了能量约束驱动的自适应。1501005000255075100125150实际(mJ)图6.在Snapdragon 835 CPU上的能量预测器评估我们以与准确度预测器类似的方式构建能量预测器。我们建立了一个GP能量预测器,结合贝叶斯优化和获取的能量值从硬件上的直接测量。然而,对于能量预测器,我们仅在每次迭代中选择探索不确定性较大的样本)。“感兴趣的样品”的概念我们在图中显示了MobileNetV2的能量预测器的性能六、4. 实验在本节中,我们将Chameleon应用于各种平台和资源预算上的各种NN架构。我们使用PyTorch [23]和Caffe2 来 实 现 。 对 于 移 动 平 台 , 我 们 使 用 全 精 度(float32)和浮点数到int8来训练模型。我们报告的准确性比较全精度的结果。我们使用Caffe2 int8后端与Facebook AI性能评估平台[1]对延迟进行了基准测试。我们报告了ImageNet数据集的结果[8],这是一个众所周知的基准测试预测值(mJ)预测(ms)11403包括120万个训练和50K个验证图像,分为1000个不同的类。我们从训练集中随机保留5万张图像(每类50张图像)来构建准确度预测器。我们使用相同的批量大小1来测量延迟和能量在EES过程中,我们将延迟和能量约束自适应、恢复设置为α=10/ms和α=10/mJ,w=2。我们将初始QMC架构池大小设置为k=2048。我们生成的准确性和能量预测与240个样本从archi- tecture池中选择。延迟估计由具有大约350K记录的操作员延迟LUT支持。在进化搜索中,每一代的种群规模设置为96。我们为下一代挑选前12名候选人。搜索迭代的总次数设置为100。接下来我们将展示我们的实验结果4.1. 适应移动模型本节介绍了从MobileNetV2(移动平台最先进的手工架构)中提取高效逆残差构建块的自适应结果。它利用反向残差和线性瓶颈来显着减少每个推理所需的操作和内存数量我们首先在表1中显示了我们的实验中使用的自适应搜索空间,其中t,c,n和s分别指扩展因子,输出通道数,重复块数每个超参数的自适应搜索范围表示为[a,b],其中a表示下限,b表示上限。MobileNetV2 1.0x中使用的默认值也显示在我们的搜索范围旁边,遵循[24]中使用的符号规则。表1.ChamNet-Mobile输入分辨率的自适应空间→ 224 [96,224]阶段不CnSConv2d-32 [8,48]12瓶颈116 [8,32]11瓶颈6 [2,6]24 [8,40]2 [1,2]2瓶颈6 [2,6]32 [8,48]3 [1,3]2瓶颈6 [2,6]64 [16,96]4 [1,4]2瓶颈6 [2,6]九十六[三万二千一百六十]3 [1,3]1瓶颈6 [2,6]160 [56,256]3 [1,3]2瓶颈6 [2,6]三百二十【九万六千四百八十】11Conv2d-1280 [1024,2048]11平均池--1-FC-1000--我们在实验中针对两个不同的平台:骁龙835移动CPU(在三星S8上)和Hexagon v62 DSP(800 MHz频率,内部NN库实现)。我们在广泛的延迟约束下评估Chameleon:4ms、6ms、10ms、15ms、20ms和30ms。757065605550455 10 15 20 25 30延迟(ms)图7. ChamNet-Mobile在Snapdragon 835 CPU上的性能。括号中的数字表示输入图像分辨率。757065605550455 10 15 20 25 30延迟(ms)图8. ChamNet-Mobile在Hexagon v62 DSP上的性能。我们将我们的适应ChamNet-Mobile模型与最先进的模型进行比较,包括MobileNetV 2,Shuf-fleNetV 2和MnasNet,具有不同的宽度乘数,如图所示。7和8分别在移动CPU和DSP上Chameleon发现的模型在这两个平台上的性能始终优于所有以前与MobileNetV2 0.5倍相比,我们的ChamNet具有8.2%的绝对精度增益,输入分辨率为96×96,而两种型号在移动CPU上共享相同的4.0ms运行时延迟。4.2. 适用于服务器模型我 们 还 在 CPU 和 GPU 上 评 估 了 服 务 器 模 型 的Chameleon。我们选择ResNet中的剩余构建块作为自适应的基础,因为它的准确性高,使用广泛。目标平台是2.4 GHz频率的Intel Xeon Broadwell CPU和1.708 GHz频率的NvidiaGTX 1060 GPU实验中使用CUDA 8.0和CUDN5.1我 们 在 表 2 中 显 示 了 详 细 的 自 适 应 搜 索 空 间ChamNet-Res的搜索空间包括#Filters、扩展因子和每层的#Bottlenetter。注意到73.875.471.669.164.259.4移动网络V2(224)移动网络V2(192)移动网络V2(160)移动网络V2(128)移动网络V2(96)中文(简体)ShuffleNetV 2(224)ChamNet-Mobile(我们74.575.376.571.767.163.6移动网络V2(224)移动网络V2(192)移动网络V2(160)移动网络V2(128)移动网络V2(96)MnasNet(224)ChamNet-Mobile(我们前1位准确度(%)前1位准确度(%)11404表2. ChamNet-Res的适应空间输入分辨率→ 224757065605550450 20 40 60 80100120140160 180能量(mJ)图11.能量受限的ChamNet-Mobile在Snapdragon 835 CPU上767268640 100 200 300 400 500延迟(ms)图9.英特尔CPU上的延迟受限ChamNet-Res。77.575.072.570.067.565.0电话:+86-0510 - 8888888传真:+86-0510 - 8888888延迟(ms)图10. Nvidia GPU上的延迟受限ChamNet-Res。自适应搜索空间中的最大层数是152,这是ResNet系列的最大报告深度[12]。我们为Intel CPU和Nvidia GPU设置了广泛的延迟约束,以展示我们框架的通用性。CPU的延迟约束为50ms、100ms、200ms和400ms,而GPU的延迟约束为2.5ms、5ms、10ms和15ms。我们在图中比较了适应模型 与 CPU 和 GPU 上 的 ResNets9 和 10 所 示 。 同 样 ,Chameleon在两个平台上都大幅提高了4.3. 能源驱动的适应接下来,我们研究了ChamNet-Mobile在移动电话上的能量受限使用场景。我们从Snapdragon 835 CPU获得能量测量。我们首先更换电池的手机与季风电源monitor与恒压输出4.2V。在测量过程中,我们确保手机保持空闲模式,18秒,然后运行网络1000次,并以200µ s的间隔测量电流。然后,我们在后处理步骤中从原始数据中扣除基线电流,并计算每次正向通过的能耗。为了证明Chameleon在各种约束下的适用性,我们在实验中设置了六个不同的能量约束:15 mJ、30 mJ、50mJ、75 mJ、100 mJ和150 mJ。我们使用与ChamNet-Mobile相同的自适应搜索空间。我们展示了ChamNet的准确性,并将其与图2中的MobileNetV2进行了比较。11.我们实现了显着的改善,-ment在准确性能源权衡。例如,与输入分辨率为96×96基线的MobileNetV2 0.75x(每次运行19 mJ时准确率为58.8%)相比,我们的适应性模型在每次运行仅14mJ的情况下实现了60.0%的准确度。因此,我们的模型能够将能量降低26%,同时将精度提高1.2%。4.4. 与其他适应和压缩方法的比较在本节中,我们将Chameleon与相关工作进行比较,包括:1. MNAS [28]:这是一种用于移动设备的基于RL的NN架构搜索算法。2. AutoML模型压缩(AMC)[13]:这是一种基于RL的自动网络压缩方法。3. [33]第三十三话:这是一种平台感知的过滤器修剪算法,其在给定的等待时间约束下使预先训练的网络适应特定的硬件。4. MorphNet [9]:这是一种基于稀疏化正则化的网络简化算法。表3比较了骁龙835 CPU上不同的模型压缩和适配方法,其中m、n和k分别指网络模型、不同平台和具有不同资源萌芽的使用场景的数量1。ChamNet产生最有利1 延 迟 LUT 和 预 训 练 模 型 可 从 以 下 网 址 获 得 :https://github.com/facebookresearch/mobile-vision78.577.275.272.7ResNet-50ResNet-101ResNet-152ChamNet-Res(我们78.677.775.770.8ResNet-50ResNet-101ResNet-152ChamNet-Res(我们72.674.075.670.265.860.0移动网络V2(224)移动网络V2(192)移动网络V2(160)移动网络V2(128)移动网络V2(96)MnasNet(224)ChamNet-Mobile(我们前1位准确度(%)前1位准确度(%)前1位准确度(%)阶段不CnSConv2d-64 [16,64]12瓶颈4 [2,6]64 [16,64]3 [1,3]2瓶颈4 [2,6]一百二十八[32,128]4 [1,8]2瓶颈4 [2,6]256 [64,256]6 [1,36]2瓶颈4 [2,6]512 [128,512]3 [1,3]211405MobileNetV 2 0.5xChamNet-Mobile(我们的)表3.不同架构搜索和模型自适应方法的比较模型方法直接基于度量缩放复杂性FLOPs(M)延迟(ms)Top-1准确度(%)[24]第二十四话手动−−50933.874.4[21]第二十一话手动Y−59133.374.9ChamNet-AEESYO(m+n)55329.875.4[24]第二十四话手动−−30021.771.8[21]第二十一话手动Y−29922.072.6[16] 2016年世界杯足球赛手动−−52928.7米73.8[28]第二十八话RLYO(m·n·k)31723.874.0AMC [13]RLYO(m·n·k)−−−MorphNet [9]正则化NO(m·n·k)−−−ChamNet-BEESYO(m+n)32319.973.8[24]第二十四话手动−−20916.669.8[21]第二十一话手动Y−14614.969.4[28]第二十八话RLYO(m·n·k)19018.471.5NetAdapt [33]修剪Y时间复杂度O(m·k+n)−16.6(63.6+)70.9ChamNet-CEESYO(m+n)21215.071.6[24]第二十四话手动−−9710.665.4[28]第二十八话RLYO(m·n·k)7610.762.4ChamNet-DEESYO(m+n)12010.069.1[24]第二十四话手动−−599.360.3[21]第二十一话手动Y−418.860.3ChamNet-EEESYO(m+n)546.164.2∗我们报告了五个ChamNet模型,具有A-30 ms,B-20 ms,C-15 ms,D-10 ms和E-6 ms延迟限制。:推理机比其他模型更快+:参考[33]报告在Pixel 1上使用TensorFlow Lite的延迟为63.6ms为了进行公平的比较,我们在配备Snapdragon 835 CPU的三星Galaxy S8上使用Caffe2的实验设置中报告了相应的延迟30252520201515101055000 2 4 6 8阶段图12. MobileNetV2和ChamNet在移动CPU上的FLOP分布和逐阶段CPU处理速度。所有模型之间的准确性-延迟权衡。此外,大多数现有的方法需要每个网络每个设备每个约束至少执行一次[28,33,9,13],因此总训练成本为O(m·n·k)。变色龙仅构建m个精度预测器和n个资源预测器(e.g.、时间复杂度为O(m+n)。一旦建立了预测器,搜索成本可以忽略不计。这种一次性成本很容易摊销时,数量-使用场景的BER按比例增加,这通常是大规模异构部署的情况。我们比较了MobileNetV2 0.5x和ChamNet在每个阶段(avgpool和fc除外)的FLOP分布,图中的延迟相似。12.我们的模型在15.0ms时达到71.6%的准确度,而MobileNetV2在16.6ms时达到69.8%的准确度。我们有两点观察:1. ChamNet将FLOP从早期阶段重新分配到后期阶段。我们假设这是-每秒浮点数(G/s)FLOPs(M)11406因为当特征图尺寸在后面的阶段中较小时,需要更多的过滤器或更大的扩展因子来传播信息。2. ChamNet具有较好的计算资源利用率.我们使用FLOP和延迟的比率来估计每个阶段的CPU处理速度,如图中的绿色曲线所示。12.具有大输入图像大小的早期阶段的运算符具有显著更低的每秒GFLOP,因此在给定相同计算负载的情况下引起更高的一个可能的原因是缓存容量和大图像大小之间的不兼容 。 通 过 更 好 的 FLOP redis-decision ,ChamNet能够实现1.8%的准确性增益,同时与基线MobileNetV 2相比将运行时延迟减少5%。5. 结论本文提出了一个平台感知的模型自适应框架Chameleon,它利用高效的构建块来使模型适应不同的真实世界平台和使用场景。该框架基于非常有效的预测模型,因此绕过了昂贵的训练和测量过程。它显著提高了准确性,而不会产生任何延迟或能量开销,同时只需CPU分钟即可执行自适应搜索。在相同的延迟或能量下,相对于手工制作和自动搜索的模型,它实现了显著的准确性增益。11407引用[1] FacebookAI性能评估平台。github.com/facebook/FAI-PEP,2018.[2] Søren Asmussen和Peter W Glynn。随机模拟:算法与分析,第57卷。Springer Science Business Media,2007.[3] Bowen Baker , Otkrist Gupta , Ramesh Raskar , andNikhil Naik.使用性能预测加速神经结构搜索。arXiv预印本arXiv:1705.10823,2017。[4] JamesSBe r gstra、Re′miBardenet、YoshuaBengio和Bal a′zsK e′ gl 。 H 型 参 数 优 化 算 法 。 在 Proc. Advances inNeural Information Processing Systems,第2546-2554页[5] 蔡二毛,大程娟,迪米特里奥斯·斯塔姆利斯,迪安娜·马库列斯库。Neuralpower:预测和部署节能卷积神经网络。arXiv预印本arXiv:1710.05420,2017.[6] Xiaoliang Dai,Hongxu Yin,and Niraj K Jha. NeST:一个基于生长和修剪范式的神经网络合成工具。arXiv预印本arXiv:1711.02017,2017.[7] Xiaoliang Dai,Hongxu Yin,and Niraj K Jha.生长和修剪紧凑、快速和准确的LSTM。arXiv预印本arXiv:1805.11797,2018。[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。正在进行IEEE会议计算机视觉和模式识别,第248-255页,2009年。[9] Ariel Gordon、Elad Eban、Ofir Nachum、Bo Chen、HaoWu、Tien-Ju Yang和Edward Choi。MorphNet:深度网络的快速简单资源约束结构学习。 在proc IEEE会议 计算机视觉与模式识别,2018。[10] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,2015。[11] Song Han,Jeff Pool,John Tran,and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统进展,第1135-1143页,2015年[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc IEEE会议 计算机视觉和模式识别,第770- 778页,2016年。[13] Yihui He, Ji Lin ,Zhijian Liu ,Hanrui Wang,Li-JiaLi,and Song Han. AMC:AutoML用于移动设备上 在proc 欧洲会议中计算机视觉,第784-800页,2018年。[14] 乔·米格尔·赫尔· 洛巴托、 迈克尔·A·格尔巴特、瑞安·P·亚当斯、马修·W·霍夫曼和祖宾·加赫拉马尼。使用基于信息搜索的约束贝叶斯优化的一般框架。J.Machine Learning Research,17(1):5549[15] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. MobileNets:高效卷积-移 动 视 觉 应 用 的 神 经 网 络 。 arXiv 预 印 本 arXiv :1704.04861,2017。[16] 高 煌 , 刘 世 晨 ,Laurens van derMaaten 和 Kilian QWeinberger。CondenseNet:使用学习的群卷积的高效DenseNet。arXiv预印本arXiv:1711.09224,2017。[17] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二值化神经网络神经信息处理系统进展,第4107-4115页,2016年[18] Forrest N Iandola、Song Han、Matthew W Moskewicz、Khalid Ashraf 、 William J Dally 和 Kurt Keutzer 。SqueezeNet:AlexNet级别的精度,参数减少50倍,模型大小为0.5 MB。arXiv预印本arXiv:1602.07360,2016.[19] Chenxi Liu,Barret Zoph,Jonathon Shlens,Wei Hua,Li-Jia Li,Li Fei-Fei,Alan Yuille,Jonathan Huang,and Kevin Murphy.渐进式神经架构搜索。arXiv预印本arXiv:1712.00559,2017。[20] 柳寒笑,凯伦西蒙尼扬,杨一鸣。 Darts:差异化架构搜索。arXiv预印本arXiv:1806.09055,2018.[21] 马宁宁,张翔宇,郑海涛,孙健。ShuffleNet V2:高效CNN 架 构 设 计 的 实 用 指 南 arXiv 预 印 本 arXiv :1807.11164,2018。[22] Diana Marculescu,Dimitrios Stamoulis,an
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功