没有合适的资源?快使用搜索试试~ 我知道了~
1对混合精度神经网络可微搜索的再思考蔡兆伟加州大学圣地亚哥分校zwcai@ucsd.eduNunoVasconcelos UC圣地亚哥nuno@ucsd.edu摘要低精度网络,权重和激活量化到低位宽,被广泛用于加速边缘设备上的推理。然而,目前的解决方案是统一的,使用相同的位宽的所有过滤器。这不能考虑不同滤波器的不同灵敏度,并且是次优的。混合精度网络通过调整各个滤波器要求的位宽来在这项工作中,最优的混合精度网络搜索(MPS)的问题被认为是。为了克服其离散搜索空间和组合优化的困难所得到的高效可微混合精度网络搜索(EdMIPS)方法在为多个流行网络找到最优比特分配方面是有效的,并且可以搜索大型模型,例如。Inception-V3,在合理的时间内直接在ImageNet上运行,学习的混合精度网络显著优于其统一的对应网络。1. 介绍深度神经网络在计算机视觉任务上具有最先进的性能,例如视觉识别[16,26,29,30,12],对象检测[24,19,5],分割[11,6]等。然而,其庞大的计算和内存成本使其难以部署在移动电话,无人机,自主机器人等设备低精度网络通过将网络权重和激活量化为低比特表示来大大减少计算和存储,有望解决这个问题。在低精度文献中,所有网络权重和激活通常被量化为相同的位宽[14,23,35,4,37,34]。由此产生的统一的低精度网络已被首选,主要是因为它们得到了现有硬件的良好支持,例如。CPU、FPGA等然而,统一的比特分配不考虑不同滤波器的个体属性,例如,他们的位置图1.提出的混合精度网络搜索模块的可微结构。对网络结构、参数基数等进行了分析。因此,对于给定的网络规模和复杂性,它可能导致次优性能。混合精度网络[1,18,17,33,32,31,9]解决了这一限制,从而实现了滤波器级的位宽优化。随着支持混合精度表示的硬件的引入,它们也变得越来越实用。例如,NVIDIA AMP1可以在训练期间在不同的浮点表示之间进行选择。然而,混合精度网络的比特分配优化问题非常具有挑战性。由于L层和N个候选比特宽度的网络可以具有NL个不同的配置,因此通常不可能人工地设计最佳解决方案,并且需要自动比特虽然这与自动神经结构搜索(NAS)的最新进展非常一致[38,39,3,2,20],但通用NAS和混合精度网络搜索(MPS)之间存在几个重要差异。首先,NAS广泛依赖于代理任务来克服在大型数据集(如ImageNet)上搜索最佳网络架构的极高计算需求。通常在小数据集(如CIFAR-10)上搜索模块块,并将此模块的堆栈副本作为最终架构。怎么-1https://devblogs.nvidia.com/nvidia-automatic-mixed-precision-TensorFlow2349激活重量1122NN输出+输入1位...2比n位+...1位2比n位2350然而,这种类型的代理任务对于MPS是非常无效的,这是由于1)层重要性差异,例如,更接近输入和输出的层通常需要更高的位宽;以及2)CIFAR-10和ImageNet的最佳比特分配之间的(可能很大的)差异。其次,更高的位宽通常会导致(直到过拟合)更高精度的混合精度因此,分类损失的唯一最小化通常有一个平凡的解决方案:总是选择最高位宽的候选。第三,虽然一般NAS需要结构异构的候选运营商,例如,卷积、跳过连接、池化等,MPS只涉及齐次算子和非常相似的表示,例如,不同位宽的卷积。MPS的这些独特属性表明需要与标准NAS不同的在这项工作中,我们利用上述属性,提出了一个有效的MPS框架的基础上的几个贡献。首先,为了实现没有代理的搜索,所提出的框架基于图1的可区分搜索架构,其动机是通用NAS的流行DARTS [20]方法其次,为了避免最高位宽的平凡选择 约束优化被重新表述为 拉格朗日函数,其被优化以实现准确性和复杂性之间的最佳权衡。第三,为了消除DARTS昂贵的二阶双层优化,提出了一种更简单有效的优化,其中结构和网络参数都在单个前向-后向传递中更新。第四,通过利用卷积算子的线性,图1的昂贵的并行卷积被替换为有效的复合卷积,由并行权重张量的加权和参数化。这确保了训练复杂度保持恒定,与搜索空间的大小无关,从而能够训练大型网络。总之,这些贡献使得高效的MPS过程不需要代理任务。 这被称为高效可微混合精度网络搜索(EdMIPS),例如,可以在ImageNet上搜索93个过滤器的最佳混合精度Inception-V3 [30],在8GPU天内。EdMIPS在各种规模、精度、属性等多个流行网络上的广泛评估包括AlexNet、ResNet、GoogLeNet和Inception- V3,表明它大大优于统一的低精度解决方案。除了证明EdMIPS的有效性外,这一系列庞大的结果还为不断增长的混合精度网络区域建立了坚实的基线为了方便将来的研究,所有代码都发布在https://github.com/zhaoweicai/EdMIPS网站。2. 相关工作均匀低精度:低精度网络最近变得流行,以加快速度和减少模型大小深度网络[14,23,35,4,37,34,36]。[14,23]使用连续近似来克服量化的不可微性,对网络权重和激活进行联合二进制化。然而,这导致了显著的准确性损失。[35,4]后来实现了更接近全精度网络的精度。HWGQ-Net [4]通过半波高斯量化器来近似ReLU,并提出了一个裁剪的ReLU函数来避免梯度失配。 LQ-Net [34]和PACT [7]分别尝试在线学习最佳步长和裁剪函数,实现了更好的性能。然而,这些都是统一的低精度网络。位分配:最优比特分配在神经网络中有很长的历史[15,1,18]。[15,1]提出了在每层基础上对滤波器灵敏度进行详尽检查,遵循信号处理中基于模拟的字长优化方法[28]。[18]提出了一种定点量化的分析[17]帧精度分配是将精度比特顺序分配给一层的权重,直到比特预算耗尽。这些技术先于NAS [38],功能不太强大,不太适用于实际的网络设计,或者两者兼而有之。神经架构搜索:NAS是一种流行的自动搜索神经网络架构的方法[38,39,3,2,20]。然而,搜索空间的大而离散的性质使得NAS非常昂贵。[38]提出了一种增强学习(RL)技术,需要1,000 GPU天来搜索CIFAR-10上的架构。随后的工作试图减少这些非凡的计算水平。[3,2,10]首先学习一个超网,包含所有可能的模块选择,并在这个超网中找到最好的子网。微分架构搜索(DARTS)[20]将离散搜索空间放松为连续搜索空间,从而通过梯度下降进行优化混合精密度:最近,[33,32,31]将MPS公式化为NAS的实例。其中一些技术[33,31]基于RL,因此效率不高。[32]依赖于DARTS,但需要代理任务,因为候选池的基数上的线性代数/计算,并且在搜索期间对数十个架构进行采样。与这些方法相比,EdMIPS更简单,更高效,有效,适用于更广泛的网络。3. 低精度神经网络在本节中,我们简要回顾了低精度神经网络的一些初步3.1. 深度神经网络深度网络实现了许多过滤算子,y=f(a(x))=W<$a(x),(1)2351我J我J32.521.5图2.GoogLeNet中的Inception模块10.50-0.5-10% 25% 50% 75%100%计算变化125% 150%其中,滤波器f由权重张量W(其可以全精度或低精度表示)参数化,x是滤波器输入,a是非线性激活函数(例如,全精度网络中的ReLU或低精度网络中的HWGQ [ 4 ]),y是滤波器输出,y是卷积或矩阵向量乘法操作符. L个网络滤波器F={f1,f2,···,fL}是通过最小化由训练集上的交叉熵损失函数定义的分类风险RE[F]来学习的神经网络的总体复杂度主要由(1)的复杂度决定。通过将权重和激活两者量化到低位宽,(1)的昂贵浮点运算可以被高效位运算(例如,XNOR和位计数),大大减少了模型大小和计算[23,4]。3.2. HWGQ网络混合精度网络可以具有任意权重和激活位宽。已经提出了许多量化技术[14,23,35,4,37,34]。在这项工作中,我们从HWGQ-Net [4]开始,这是文献中最先进的低精度网络之一。虽然HWGQ-Net只使用二进制权重,但其激活量化技术可用于产生更高精度的权重。首先,预先计算最佳量化器Q(x)=qi,如果x∈(ti,ti+1](2)对于零均值和单位方差的高斯分布,使用劳埃德由于网络权重分布总是接近不同方差σ2的零均值高斯分布,因此最佳量化参数图3.Inception模块中的滤波器灵敏度GoogLeNet [ 29 ]的模块,其架构如图2所示。这总共有四个并行分支和六个可学习的过滤器。为了检查它们的敏感性,我们首先在ImageNet上训练了一个统一的2位GoogLeNet基线。然后,我们训练了另一个模型,将Inception模块的单个过滤器更改为4位,在整个网络中。对所有六个过滤器重复该实验。整个网络的精度和计算量相对于基线的变化反映了六个滤波器的位宽灵敏度的差异。图3显示,“ch1x1”是最敏感的过滤器,因为位宽的增加使网络精度提高了2%以上,而计算量仅增加了25%。“ch3x3red”和“ch5x5”具有类似于“ch1x1”的计算,但灵敏度较低,尤其是“ch5x5”。另一方面,“ch3x3”的计算最后,“ch5x5red”在精度和计算方面有微小的变化。这些观察结果表明,混合精度网络可以大大超过均匀网络。4. 混合精度网络在混合精度网络中,位宽随滤波器而变化。这个问题是搜索一个候选池B的位宽的最佳位宽为每个过滤器在网络工作。这可以通过将(1)重新公式化为然后可以通过重新缩放预先计算的量化参数[27],即使用量化器,Q(x)= σ qi, 如果x∈(σ ti,σ ti+1]. (三)Σnfy=i=1Σ⎛oα fi Σnaj=1⎞oβaj(x),(4)为了对硬件友好,所有量化器都是统一的。S.T.oα=1,oβ=1,oα,oβ∈ {0,1},3.3.滤波器灵敏度将相同的位宽分配给所有网络层,称为均匀比特分配,可能非常次优。其中nf和na是位宽池Bα的基数对于权重和Bβ对于激活。 目标是找到全网最优位宽配置{o,o}αβ由于不同的滤波器具有不同的位宽敏感性,关系的图3说明了流行的Inception工作由于搜索空间是离散的和大的,它通常是手工制作最优解是不可行的ch3x33x3卷积ch3x3red1x1卷积先前层3x3最大池化ch5x5red1x1卷积ch1x11x1卷积pool_proj1x1卷积ch5x55 x 5卷积过滤器级联ch1x1ch3x3redch3x3ch5x5redch5x5poolproj精度变化2352KJ我我我4.1. 复杂性感知学习通常,较高位宽的网络具有较高的精度。因此,简单的最小化分类然后,通过引入一组实配置参数{α,β}并定义损失的平凡解决方案总是选择最高αexp(αi)βexp(βj)可能的bit-width。 为了避免这种情况,我们求助于复杂性-学习,寻求最佳的平衡之间的分类,πi=πK exp(α),πj=Σ.(十一)exp(βk)准确性和复杂性。这是一个约束优化问题,其中分类风险RE[F]在复杂性风险RC[F]的界限下被最小化,∗这导致图1的架构。(9)的复杂性度量最终定义为:c(f)=E[bf]E[ba]|F|(12)F=arg minR E[F]S.T.RC[F]<γ,(5)F这可以通过最小化拉格朗日量来解决L[F] =RE[F]+ηRC[F],(6)哪里ΣnfE[bf]=Σnaπαbf,E[ba]=πβba(十三)其中η是仅取决于γ的拉格朗日乘子。i我i=1jJj=1在这种约束下,最佳比特分配不再是微不足道的。复杂性是用户定义的,并且可以解决计算、存储器、模型大小、能量、运行速度或其他方面。它的形式Σ分别是权重和激活的位宽期望值。这种松弛使得能够在连续参数{α,β}的空间中通过梯度下降进行学习,这比组合搜索便宜得多RC[F]f∈F其中c(f)是滤波器f的成本。4.2. 模型复杂性c(f)。(七)在{oα,oβ}的构型上。4.4. 高效复合卷积虽然高效,但可区分的架构搜索并非没有限制。一般NAS一种流行的做法是通过滤波器f的浮点运算(FLOP)的数量来表征复杂度,c(f)= |F|(8)宽x高x宽2哪里| · |表示基数,w x和h x是滤波器输入x的空间宽度和高度,s是滤波器步幅。在低精度网络中,其中滤波器f和激活函数a具有低位宽,该成本可以用位操作(BitOps)表示,c(f)=bfba|F|wxhx/s2,(9)其中,bf和ba是权重s和动作s的位宽,是计算和内存随搜索空间维度的线性增长[20,2]。如果一个层有10个候选操作符,它们都需要并行应用于同一输入。这使得搜索不可能用于大型网络,例如ResNet-50、Inception-V3等,并且通常通过求助于代理任务来解决。与一般NAS不同,其中候选算子是异构的[38,20,2],例如卷积,跳过连接,池化等,MPS的候选算子是同质的,即具有不同位宽的相同滤波器的副本利用这一特性可以避免昂贵的并行操作。 并行的加权和如图1中所示,将加权后的数据,分别。因为只有相对的复杂性才重要对于搜索,对于要搜索的第一层,总网络复杂度由(8tivationsuma<$(x)=Σnfnaj=1 πβaj(x),可以写成asΣnf4.3.松弛混合精度网络y=παfi(a<$(x))=i=1πα(Qi(Wi)<$a<$(x))i=1{oα,oβ}的搜索空间的二元性质使得(6)的最小化成为复杂的组合问题。正如[20]所建议的,一个简单得多的优化是正的。.Σnf=i=1Σπα Qi(Wi)a<$(x)=f<$(a<$(x))(14K2353我我J)通过将二进制搜索空间放松为连续空间,通过将(4)重新表述为其中f是由权重10参数化的复合滤波器Σnfy=i=1παfi⎛Σna⎝j=1⎞πβaj(x)、(10)sorΣnfW=i=1π αQi(Wi).(十五)Σ ΣS.T.π α= 1,π β= 1,π α,π β∈[0,1].因此,相反,在不同ijQi(Wi)和公共行为ivationa¯(x),2354我我我图1的卷积仅需要与(15)的复合滤波器进行一次卷积这使得恒定的训练时间,独立于每个滤波器考虑的位宽的数量,并且大型网络的训练变得可行。在(15)中,每个候选算子具有其自己的权重tensor Wi。在训练期间,到达一层的梯度被分配到不同的分支。结果,低概率πα的滤波器接收很少的梯度更新,并且可能训练不足。例如,π α= 0的分支。1将仅接收总梯度的10%。一个更鲁棒的解决方案是通过使Wi= W并将(15)的复合滤波器重新定义为ΣnfW=π α Q i(W)。(十六)i=1在这种情况下,虽然梯度仍然分布到每个分支,但它们都被累加以更新通用权重张量W。这消除了欠拟合的可能性,并且搜索模型的大小也可以保持恒定,与搜索空间无关注意,这种权重共享需要足够用于不同位宽的多个量化器的通用W虽然这在低精度网络文献[35,4,37,34]中没有显示,但对于MPS来说问题不大,因为1)并行分支学习不同位宽的相似和潜在冗余表示;(2)重要的 是4.6. 学习这 就 引 出 了 MPS 的 学 习 过 程 。 EdMIPS 相 对 于(11)的结构参数{α,β}和权重张量W优化(6)的拉格朗日量的 (16)在(17)的搜索空间上。 W和{α,β}是通过梯度下降来学习的这是一个双-水平优化问题[8]在[20]。然而,这对于在大型数据集(例如,ResNet和Inception-V3)上搜索大型模型(例如,ImageNet),没有代理任务。为了避免这种情况,我们考虑两种更有效的优化方法。 第一种,用于默认情况下,是普通的端到端反向传播。它同等对待架构{α,β}和滤波器W参数,在单个前向-后向传递中更新两者。第二种是两步交替优化:1)固定{α,β}并更新W; 2)固定W并更新{α,β}。它的复杂性是香草反向传播的两倍 我们的实验表明这些策略对MPS是有效的4.7. 架构离散化给定最优结构参数{α<$,β<$},混合精度网络必须通过离散化将(11)的软选择器变量π转换为(4)所需的二进制选择器0。两个战略进行了探讨。第一种是默认使用的.MPS是为了优化比特分配,而不是权重张量。o*=1,如果i= argmaxjπj,0,否则。(十八)4.5.搜索空间搜索空间的设计对于NAS至关重要。与具有开集搜索空间的NAS不同,MPS的搜索空间是明确定义的,并且限于每个过滤器和激活的相对少量的可能性,例如,{1,.,32}。先前的作品[32,10]具有耦合的权重和激活位宽,例如,定义对(1,4),(2,4)等。这导致|Bα| × |Bβ|每个滤波器的并行分支。 为了降低复杂性,[32,10]手动修剪|Bα| × |Bβ|到一个小的子集,例如,六对,这是次优的相反,我们将权重和激活位宽解耦,使用|Bα|和|Bβ|分别用于权重和激活的并行分支,如图1所示。 这种去耦合使搜索空间保持完整大小|Bα| × |Bβ|,但是显著地减少了计算和存储器。自1)许多工作[34,7]已经表明4的位宽足以获得非常好的性能; 2)非常低精度的网络,例如,使用2比特,是开发最具挑战性的;以及3)1位激活通常不足以获得良好的性能[14,23,35,4],我们使用具有Bα={1,2,3,4},Bβ={2,3,4}。(十七)2355这导致确定性架构,其不受π分布的细节影响,仅受其值的相对排名影响。第二是抽样策略。由于每个π是一个分类分布,所以硬选择器oi可以从多项分布中n(n,π).(十九)一次试验n=1。这定义了具有如(13)中定义的预期BitOps的随机架构。然后,用户可以对多个架构进行采样,并选择在准确性和复杂性之间具有最佳权衡的架构,如[32]所示然而,根据我们的经验,这种随机架构的方差或者,可以用多次试验从(19)中取样,例如:n=50,并选择具有最高计数的体系结构。这产生了更接近于“赢家通吃”发现的架构,当n→∞时收敛到后者。5. 实验EdMIPS使用ImageNet [25],top-1和top-5分类准确度进行评估。[32,31]第一章:2356权重结构激活结构权重结构激活结构1615141312111098765432100 5 10 15 20 25时代1615141312111098765432100 5 10 15时代20 251615141312111098765432100 5 10 15时代20 251615141312111098765432100 5 10 15时代20 25图4. ResNet-18在搜索过程中的架构演变。每个层索引所示的曲线表示两个位宽的概率。Layers索引与PyTorch中的一样,其中7/12/17是剩余连接。左:η= 0。001在(6)中。右:η= 0。002.使用ResNet-18或MobileNet [13]。然而,这些是相对简单的网络,其堆叠单个模块块的副本,并且对于这些网络,可以使用算法来手工制作接近最优的比特分配。例如,MobileNet的深度层应该比点层接收更多的比特另一方面,GoogLeNet[29]和Inception-V3 [30]是不同模块的复杂组合,过于复杂,无法手动优化由于MPS在这种情况下更有用,除了小而简单的AlexNet和ResNet-18之外,我们还在更大和更复杂的ResNet-50,GoogLeNet和Inception-V3上测试了EdMIPS这些实验为MPS的未来研究建立了广泛的基线。5.1. 实现细节所有实验都遵循PyTorch2上的标准ImageNet训练,但有以下例外。为了简单起见,所有辅助损失都从GoogLeNet和Inception-V3中删除EdMIPS对网络参数W使用0.1的学习率,对架构参数{α,β}。所有网络参数都像往常一样初始化,所有架构参数都设置为0.01,候选人平等。搜索模型训练了25个epoch,每10个epoch学习率衰减10倍。在训练搜索模型之后,通过第4.7节的“赢家通吃”策略导出接下来,对分类模型进行50(95)个时期的训练,每15(30)个时期,学习率衰减10倍,以允许探索(与最新技术水平的最终一致性)。所有模型都是从头开始训练的。对于网络量化,我们遵循[4],但在所有BatchNorm层中启用缩放。5.2. 架构演进有时候,NAS为什么以及如何发现一个架构是很神秘的。由于ED的可微性2https://github.com/pytorch/pytorch网站MIPS,软架构在搜索过程中逐渐演变,如图4所示。为了清楚起见,我们只显示了搜索空间为{2,4}位的ResNet-18的演变一些有趣的观察结果来自图的左边部分4.第一章首先,使用具有复杂度惩罚η=0的(6)。001被示出以避免平凡解(总是选择最高位宽)。为许多层选择较低位宽的候选者。其次,几乎所有层都在早期阶段选择2位,此时网络参数尚未训练,复杂度损失占主导地位。随着网络参数变得更强,错误惩罚更有可能克服复杂度惩罚,并且开始选择4位候选者。第三,权重和激活可以具有不同的最优比特分配。例如,为层5/6/8的权重选择4比特,其激活被分配2比特。第四,由于复杂性惩罚剩余连接(第7/12/17层)比3×3卷积小得多,它们在早期被分配了4位。最后,两个候选者对于某些层同样强,例如,9/13用于权重,1用于激活。在这些情况下,模型对选择哪个候选人没有信心5.3. 复杂性约束当执行更强的复杂性约束时,更可能选择较低的位宽。 这可以通过比较左侧(η=0. 001)和右(η=0.002)。对于偏好较低比特宽度的层,该偏好通过较强的η来加强。例如,在第1-4层的权重和第2-6层的激活,EdMIPS收敛到较低的位宽快得多。对于喜欢在开始时使用较低位宽但在结束时切换到更多位的层,例如,对于权重为5/10/15,对于激活为10/15/16,需要更多的时期来到达交叉点。更强的复杂性约束也可以改变最终决策。例如,对于第6/8/11层的权重和第18-19层的激活,决策从4位切换到2位。这些结果表明,最佳的架构依赖于复杂性约束。层索引层索引层索引19191919182比特182比特182比特182比特174位174位174位174位层索引235720康夫足球俱乐部加重钻头激活位AlexNet62605856545211.522.533.544.5位宽ResNet-187068666462605811.522.533.544.5位宽GoogLeNet72706866646260585611.522.533.544.5位宽ResNet-507472706866646211.522.533.544.5位宽inception-V3767472706866646211.522.533.544.5位宽图5.统一HWGQ-Net和EdMIPS网络的比较。X轴表示BitOps,被归一化为位宽的尺度,实际上是对数尺度。AlexNet5 54 43 32 21 10 05 54 43 32 21 10 00246 0层索引图6.AlexNet、ResNet-18和GoogLeNet的EdMIPS位分配5.4. 与统一比特分配的比较图5显示,EdMIPS网络的性能大大优于AlexNet、ResNet-18/50 、 GoogLeNet 和 Inception-V3 的 统 一HWGQ-Net版本。请注意,HWGQ-Net具有相当高的基线。由于学习模型在搜索空间中以最弱(W1A2)和最强(W4A4)模型为界,因此两端的改进都很小,但中间的改进很大。例如,EdMIPS模型将统一的2位HWGQ-Net提高了约0.9点(对于AlexNet),0.8点(对于ResNet- 18),2.8点(对于GoogLeNet),1.5点(对于ResNet-50),1.7关于Inception-V3这是EdMIPS有效性的有力证据。5.5. 学习最优比特分配为了理解EdMIPS学习到了什么,我们在图6中可视化了AlexNet、ResNet-18和GoogLeNet的每一层的最佳比特分配,其BitOps与统一的2比特模型大致相同。在AlexNet上,FC层更轻,更接近输出,它们接收更高的位宽。更接近输入的层,例如第一个用于权重,第二个用于激活,也接收相对较高的位宽。在ResNet-18上,廉价的剩余连接通常接收最大的位宽。每个阶段中的第一块层,例如,5- 6、10- 11和15- 16,也具有相对较高的位宽。GoogLeNet是一个更复杂的网络,其比特分配也是如此。最昂贵的更高的位宽被分配给更靠近输出的“ch3x3”层。另一方面,“ch5x5red”非常便宜,并且通常接收最高的位宽。虽然这反映了它的最高灵敏度,如图3所示.最后,“ch5x5”具有类似的计算,但前者要敏感得多。因此,它接收更高的位宽分配。请注意,为这个复杂的网络手工制作最佳比特分配是很困难的。5.6. 消融研究ResNet-18用于消融实验。默认EdMIPS模型在图7(a)中表示为松弛:图7(a)显示,(10)(训练50个时期),仅具有比它们的离散化对应物稍高的准确性,即,体系结构离散化具有很小的性能代价。过滤器共享与非共享:在默认模型中,所有并行候选项共享(16)的权重张量。图7(a)表明,这与学习(15)中的各个权重张量一样有效。这也证实了他们的放松对应的比较,表明非共享的平行分支有点冗余。采样:使用第4.7节中讨论的分类和多项式采样,从接近图5的2位模型的体系结构分布中采样了四个体系结构,其中BitOps接近均匀2位模型。图7(a)显示,分类抽样架构具有较大的准确性方差,有时甚至不如统一基线。多项抽样法具有更好的性能和更低的方差学习策略:图7(a)显示,使用单遍优化的默认模型与使用第4.6节的交替优化训练的模型之间的准确性几乎没有差异。由于后者的学习复杂度是前者的两倍,因此在EdMIPS上默认使用单遍优化。收敛速度:图7(b)总结了均匀的混合均匀的混合均匀的混合均匀的混合均匀的混合ResNet-18GoogLeNet5432105conv3x3残余43后备箱ch1x1ch3x3redch3x3ch5x5redch5x5poolproj21024681012141618层索引0102030层索引4050前1精度激活位加重钻头前1精度加重钻头激活位前1精度前1精度前1精度2358ResNet-18上的消融结果68666462601.5 2 2.5 3 3.5 4位宽(一)ResNet-18上的复杂性演化25201510500 5 10 15 20 25时代(b)第(1)款10.90.80.70.60.50.40.30.20.10通过有效的复合卷积ResNet-18GoogLeNetResNet-50Inception-V3计算内存大小(c)第(1)款图7.(a)ResNet-18上的烧蚀实验;(b)ResNet-18上的复杂性演化(虚线是(13)的预期复杂性(c)通过第4.4节的高效复合卷积节省。网络复杂度作为η的函数,对于图5的五个ResNet-18模型。搜索通常很快收敛,在第15个历元之后,架构复杂性会发生微小变化。图7(a)中示出了相应的分类模型(“第15个时期的模型”)的准确度它们与25个搜索时期后发现的结果相当。搜索空间:图7(a)示出了当使用较粗糙的搜索空间({1,4}比特用于权重,{2,4}比特用于激活)时,在均匀模型上没有增益发生。高效复合卷积:图7(c)总结了第4.4节的高效复合卷积相对于普通并行卷积在计算、内存和模型大小方面为(17)的搜索空间实现的实际节省。(16)的权重共享将模型大小减小了近四倍。替换并行卷积可节省30-50%的计算量和20-40%的内存。这些节省使MPS更加实用。例如,在2个GPU上搜索ResNet-18所需的时间从35小时减少到18小时,而搜索Inception-V3可以在8个GPU和12 GB内存下执行因此,完整的搜索(例如,25个时期)仅增加·训练复杂度是统一低精度ResNet-18网络的45%。值得一提的是,这些实践--然而,由于其他实际成本瓶颈,例如,权重/激活量化、GPU中的并行化效率、网络架构等。更好地实施EdMIPS可以进一步节省成本。5.7. 与最新技术水平的表1将EdMIPS模型与最先进的统一低精度网络进行了比较,包括HWGQ-Net [4]和LQ-Net [34]。EdMIPS模型具有与2位统一模型相似的BitOps,可为所有基础网络实现最佳性能。与均匀HWGQ-Net相比,对于复杂的HWGQ-Net,增益特别大(3点)。表1.与最先进的技术相比。模型位宽Ref32充分32HWGQ2LQ [34]2EdMIPS∼2AlexNetTop-1Top-557.180.259.281.758.680.957.480.159.181.0ResNet-18Top-1Top-569.689.270.289.565.186.264.985.965.986.5GoogLeNet Top-1Top-573.391.372.791.064.886.3--67.888.0ResNet-50Top-1Top-576.093.076.293.070.689.871.590.372.190.6inception-V3 Top-1Top-577.593.677.393.671.089.9--72.490.7GoogLeNet,一个非常反对量化的紧凑模型。另一方面,对于最简单的模型(AlexNet),2位EdMIPS模型已经等同于全精度网络。这些结果表明EdMIPS是一种有效的MPS解决方案。由于1)[31]仅在MobileNet上进行实验,并使用延迟作为复杂度指标; 2)[32]主要关注更高位宽的ResNet-18/34,例如4位; 3)这些作品都没有发布复制其结果所需的代码,我们无法与它们进行比较。我们相信,EdMIPS代码的发布和表1现在建立的坚实基线将使MPS的未来工作能够进行更广泛的比较。6. 结论我们已经提出了EdMIPS,一个有效的框架MPS的基础上可区分的架构。EdMIPS对MPS问题有多个新的贡 献 。 它 可 以 搜 索 大 型 模 型 , 例 如 ResNet-50 和Inception-V3,直接在ImageNet上,价格合理。多个流行网络的学习混合精度模型大大优于其统一的低精度均匀混合放松非共享权重非共享再泄漏模型在第15个时期交替选择。粗搜索空间分类抽样= 0.0004= 0.001=0.002= 0.004= 0.006前1精度BitOps(1e9)成本率2359模型,并为未来的MPS研究建立了一套坚实的基线鸣 谢 这 项 工 作 得 到 了 NSF 奖 项 IIS-1637941 、 IIS-1924937和NVIDIA GPU do的部分资助。nations.2360引用[1] Sajid Anwar,Kyuyeon Hwang,and Wonyong Sung.用于对象识别的深度卷积神经网络的固定点优化ICASSP,第1131一、二[2] Gabriel Bender,Pieter-Jan Kindermans,Barret Zoph,Vijay Vasudevan,and Quoc V.乐理解和简化一次性架构搜索。在ICML,第549一、二、四[3] 放大图片作者:Andrew Brock,Theodore Lim,JamesM.里奇和尼克·韦斯顿SMASH:通过超网络进行一次性模型架构搜索。在ICLR,2018年。一、二[4] 蔡兆伟,何晓东,孙健,努诺. 通过半波高斯量化进行低精度深度学习在CVPR中,第5406-5414页,2017年。一二三五六八[5] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN:深入研究高质量的对象检测。在CVPR中,第61541[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。Deeplab:使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。 IEEE Trans. 模式分析马赫内特尔,40(4):834-848,2018. 1[7] Jungwook Choi,Zhuo Wang,Swagath Venkataramani,Pierce I-Jen Chuang , Vijayalakshmi Srinivasan , andKailash Gopalakrishnan. Pact:量化神经网络的参数化裁剪激活。arXiv预印本arXiv:1805.06085,2018。二、五[8] Beno t Colson,Patrice Marcotte,and Gilles Savard.二层优化概述。Annals OR,153(1):235- 256,2007. 5[9] Zhen Dong,Zhewei Yao,Amir Gholami,Michael W.妈妈,亲爱的,还有科特·库兹。HAWQ:混合精度神经网络的hessian感知量化。载于ICCV,第293-302页。IEEE,2019。1[10] Zichao Guo , Xiangyu Zhang , Haoyuan Mu , WenHeng,Zechun Liu,Yichen Wei,and Jian Sun.均匀采样单 路 径 单 次 神 经 结 构 搜 索 arXiv 预 印 本 arXiv :1904.00420,2019。二、五[11] 何凯明、吉欧吉亚·基奥克萨里、皮奥特·多尔和罗斯·B.娘娘腔。面罩R-CNN。在ICCV,第2980-2988页,2017年。1[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。1[13] Andrew G. Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络CoRR,abs/1704.04861,2017。6[14] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二值化神经网络在NIPS,第4107-4115页,2016年。一、二、三、五[15] Kyuyeon Hwang和Wonyong Sung。使用权重+1,0和0的定点前馈深度神经网络设计-1. IEEE信号处理系统研讨会,第174-179页,2014年。22361[16] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在NIPS中,第1106-1114页,2012年。1[17] 放大图片作者:Graham W.泰勒和肖基·阿瑞比深度神经网络中的随机逐层精度。在UAI,第663-672页,2018年。一、二[18] 林德旭,萨钦S. Talathi和V. Sreekanth An- napureddy.深度卷积网络的定点量化。在ICML,第2849-2858页,2016年。一、二[19] 林宗义,彼得·多尔,罗斯·B. 何凯明,巴拉特·哈里哈兰,和塞尔日·J。贝隆吉用于对象检测的特征金字塔网络。在CVPR中,第936-944页,2017年。1[20] 柳寒笑,凯伦西蒙尼扬,杨一鸣。Darts:差异化架构搜索。 arXiv预印本 arXiv: 1806.09055,2018. 一、二、四、五[21] 斯图尔特·劳埃德。PCM中的最小二乘量化。IEEETrans. Information Theory,28(2):129-136,1982。3[22] 乔尔·麦克斯。 最小
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功