没有合适的资源?快使用搜索试试~ 我知道了~
1803·××通用可精简网络和改进的训练技术美国伊利诺伊大学香槟分校摘要Slimmable networks [25]是一个可以即时调整运行时宽度的神经网络家族宽度可以从预定义的宽度集选择,以在运行时自适应地优化精度-效率权衡。在这项工作中,我们提出了一种系统的方法来训练通用的可瘦身网络(US-Nets),扩展可瘦身网络以在任意宽度上执行,并推广到具有和不具有批量归一化层的网络。我们进一步提出了两种改进的US-Nets训练技术,命名为三明治规则和原地蒸馏,以提高训练过程和测试精度。我们在ImageNet分类任务上展示了通用可精简的Mo- bileNet v1和MobileNet v2的性能改进,与单独训练的和4开关可精简的网络基线相比。我们还评估了提出的US网络和改进的图像超分辨率和深度强化学习任务的训练技术。在这些典型任务上的大量烧蚀实验我 们 的 发 现 开 辟 了 直 接 评 估 网 络 架 构 的 FLOPs-Accuracy谱的可能性代码和型号可从以下网址获得:https://github.com/JiahuiYu/slimmable_networks.1. 介绍在延迟宽度0的情况。25×49.855.7(5.9)0的情况。375×-60.10的情况。5×63.364.2(0.9)0的情况。625×-67.50的情况。75×68.469.5(1.1)0的情况。875×-70.91 .一、0×70.971.8(0.9)图1. FLOPs-单个US-MobileNet v1模型的准确度谱,与四个单独的MobileNet v1模型进行比较。[ ]表示可用宽度,0表示可用宽度。25代表着所有层中的宽度按0缩放。25、完整的模型为了训练可精简的网络,提出了可切换的批量归一化[25],其为每个子网络私有化批量归一化[11]层一个可精简的网络具有与单独训练的具有相同宽度的网络相似的精度[25]。在可精简网络的驱动下,进一步的问题出现了:单个神经网络可以以任意宽度运行吗?这个问题促使我们重新思考特征聚合的基本形式。在深度神经网络中,sin的值-角输出神经元是一个由多个输入神经元组成的神经元集合财政预算对申请机动车辆牌照来说,至为重要。胆汁手机,增强现实眼镜,自动驾驶汽车,由可学习系数y=ni=1 wixi,其中安全相机和许多其他[22,10,15]。在这些应用程序中,许多应用程序需要在不同的设备或硬件版本中部署训练模型[25,9,13]。然而,单个训练的网络不能在不同设备之间实现最佳的准确性-效率权衡(例如,在不同移动电话上运行的面部识别模型)。为了解决这个问题,最近引入了可瘦身的网络[25],可以在运行时在不同宽度之间切换,允许即时和自适应的准确性-效率权衡。 宽度可以从预定义的宽度集合中选择,例如[0. 25,0。5,0。75,1。0]×,其中1804n k+1n k nk0x是输入神经元,y是输出神经元,w是可学习系数。Qcient,n是输入通道的数量。该公式表明,每个输入通道或通道组可以被视为输出神经元的残差分量[6]。因此,一个更宽的网络应该不会比它的瘦网络性能更差(瘦网络的精度总是可以通过学习新的零连接来实现换句话说,如果我们考虑单个层,则完全聚合和部分聚合之间的残差减小并且有界:|≤| y|y −y| ≤ |y −y|、(1)1805i=1∀ ∈⌈⌉×××其中,yk总结了前k个通道yk=wixi,在每次训练迭代中,我们随机采样n个宽度K[k0,n),k0是常数超参数(例如,ple,k0=0. 25n)。 有界不等式1表明,在离散宽度集上可执行的可精简网络[25]可以潜在地在其间的任何宽度上运行(如果适当的话训练),因为残差随着宽度的增加而减小此外,该不等式概念上适用于任何深度神经网络,无论使用什么归一化层[11,17]。然而,正如[25]中所建议的,由于训练和测试之间的不一致性,批量归一化(BN)[11]需要特殊处理在这项工作中,我们提出了通用的可瘦身网络(US-网),可以在很宽的范围内以任何宽度运行。培训美国网络的三个基本挑战得到解决。首先,如何处理神经网络的批量规范化?第二,如何有效地培养美国网队?第三,与训练单个网络相比,我们还可以在US-Nets中探索什么来提高整体性能?批量归一化[11]一直是深度学习中最重要的组成部分之一。在训练过程中,该算法利用当前小批量数据的均值和方差对特征进行这种不一致性导致训练可精简网络的失败,如[25]所示。然后介绍可切换的批量归一化[25](我们默认解决共享尺度和偏倚的版本,专用尺度和偏倚的版本将在第6节中讨论)。然而,由于两个原因,训练US-Net是不实际的。首先,在训练期间累积US-Net中所有子网络的独立BN统计量是计算密集型的并且效率低下。其次,如果在每次迭代中我们只更新一些采样的子网络,那么这些BN统计量没有充分积累,因此不准确,导致我们实验中的准确性差得多。为了正确解决这个问题,我们通过一个简单的修改来适应修改是在训练后计算所有宽度的BN统计。训练后的US网的权重是固定的,因此所有BN统计数据可以在集群服务器上并行计算更重要的是,我们发现,一个随机抽样的训练图像子集,少至1个小批量(1024张图像),已经产生了准确的估计。因此,计算BN后统计量可以非常快。我们注意到,为了更普遍,我们有意避免修改国阵的提法或提出新的正常化。接下来,我们提出了一个改进的训练算法的US-网的动机方程1中的有界不等式。为了训练US-Net,一个自然的解决方案是累积或平均从不同宽度采样的损失考试-1分析基于单个隐藏层。未来对具有非线性激活的深度神经网络的理论分析的研究可能会充分揭示为什么普遍存在或为什么不存在可瘦身网络。范围内 [0。25,1。0个字符] . 更进一步,我们我应该注意到,在美国网络,性能在所有宽度受模型在最小宽度处的性能限制(例如,0的情况。25)和最大宽度(例如,1 .一、0)。换句话说,优化性能下限和上限可以隐式地优化所有宽度的模型。因此,在每次训练迭代中,我们不是随机采样n个宽度,而是在最小宽度、最大宽度和(n-2)个随机采样的宽度上训练模型。我们采用这种规则(命名为三明治规则)来训练US网,并显示出更好的收敛行为和整体性能。此外,我们提出了就地蒸馏,在每个训练迭代中就地将单个US网络内的知识从全网络转移到子网络这个想法是由两步知识提取[7]激发的,首先训练一个大模型,然后通过使用预测的软目标进行训练,将其学习的知识转移到一个小模型。在US-Nets中,通过三明治规则,我们在每次迭代中以最大宽度,最小宽度和其他随机采样宽度一起训练模型。值得注意的是,这一培训计划自然支持就地知识转移:我们可以直接使用模型在最大宽度处的预测标签作为其他宽度的训练标签,而对于最大宽度,我们使用地面实况。它可以在训练中就地实现,而无需额外的计算和内存成本。重要的是,所提出的原地蒸馏是通用的,我们发现它不仅适用于图像分类,而且适用于图像超分辨率和深度强化学习任务。我们应用所提出的方法来训练具有代表性的网络(有和没有BN,以及剩余和非剩余网络)的代表性任务的通用可瘦网络。我们表明,经过训练的US网络的性能与单独训练的模型相似,甚至更好。三明治规则和原位蒸馏的广泛烧蚀研究表明,我们提出的方法的有效性。我们的贡献总结如下:1. 这是我们第一次能够使用一种简单而通用的方法来训练一个任意宽度的神经网络。2. 我们进一步提出了两种改进的训练技术,在US-Nets的背景下,以提高训练过程和测试精度。3. 我们目前的实验和烧蚀研究的图像分类,图像超分辨率和深度再学习。4. 我们进一步深入地研究了US网关于(1)宽度下限k0,(2)宽度因子d,(3)每次训练迭代的采样宽度数n,(4)BN后统计的子集的大小。18060----1234567 81234567 81234567 81234567 81234567 81234567 8111残差残差调整宽度猫0.5×0.75×1.0×图2.以不同宽度运行的网络的图示我们特别考虑一个层中的输出神经元y1(右,放大)。5. 我们进一步表明,我们的方法也可以应用于训练非均匀US网,其中每一层都可以调整自己的宽度比,而不是均匀地应用于所有层的全局宽度比。6. 我们的发现为许多相关领域开辟了可能性,例如,在FLOPs-Accuracy频谱方面的网络比较(图1),以及通道数量的一次性架构搜索[24]。3. 通用可精简网络3.1. 重新思考特征聚合深度神经网络由多层组成,每一层都由神经元组成。作为深度学习的基本元素,神经元执行所有输入神经元的加权和作为其值,逐层传播以做出最终预测。图2中示出了示例。输出神经元y计算为:Σn2. 相关工作y=i=1(2)第一个条件:精简网络。Yu等人 [25]提出了初始方法来训练可在不同宽度下执行的单个神经网络,允许在运行时进行即时和自适应的准确性-效率权衡。宽度可以从预定义的宽度集合中选择。解决了训练可精简网络的主要障碍:累积不同数目的通道导致不同的特征均值和方差。不同子网络之间的这种差异导致共享批量归一化层的统计数据不准确[11]。本文提出了可切换的批量归一化方法,它对可精简网络中的不同子网络采用独立的批量归一化。关于图像识别任务(即,分类,检测和分割),可精简网络实现与单独训练的模型类似的准确性[25]。知识蒸馏。知识提取[7]的思想是通过使用预测特征、软目标或两者来训练它,将学习到的知识从预先训练的网络转移到新的网络。 它有很多应用 在计算机视觉,网络压缩,强化学习和序列学习问题[2,4,12,14,16]。FitNet [16]建议使用教师网络学习的输出和中间表示作为提示来训练更瘦的网络。Net2Net [4]提出将知识从预先训练的网络转移到新的更深或更宽的网络,以加速训练。Actor-Mimic [14]训练单个策略网络在许多教师网络的指导下在多个任务中表现。知识发现其中,n是输入神经元(或信道)的数量卷积网络),x=x1,x2,., xn 是输入神经元,w=w1,w2,.,wn是可学习系数,y是单个输出神经元。这个过程也被称为特征聚集:每个输入神经元负责检测一个特定的特征,输出神经元将所有输入特征与可学习的转换聚合在一起。网络中的信道数量通常是人工挑选的超参数(例如,128,256,...,2048)。它在深度模型的准确性和效率方面发挥着重要作用:更宽的网络通常具有更好的准确性,但会牺牲运行时效率。提供灵活的-许多架构工程工作[8,18,26]分别用不同的宽度乘数来训练他们提出的网络:一个全局超参数,用于在每一层均匀地精简网络我们的目标是训练一个可以直接以任意宽度运行的单个网络。它促使我们重新思考深度神经网络中特征聚合的基本形式。如图2所示,特征聚合可以在通道残差学习的框架中明确解释[6],其中每个输入通道或通道组可以被视为输出神经元的残差分量[6因此,一个更宽的网络应该不会比它的瘦网络性能更差(瘦网络的准确性总是可以通过学习新的连接到零来实现)。换句话说,完全聚合的特征yn和部分聚合的特征yk之间的残差δ减小并且有界:0≤ δk+1≤ δk≤ δk,δk= |yn− yk|、(3)tillation也有效地应用于词级预测用于神经机器翻译[12]。其中yk总结了前k个通道ykΣk=i=1wixi,1807⌈⌉∀ ∈2联系我们- 你好- 你好−B BB不−∗不t−1k[k0 , n] ) , k0 是 常 数 超 参 数 ( 例 如 , k0=0.25n)。等式3中的有界不等式提供了线索关于几个猜测:(1)可在离散宽度集上执行的可精简网络[25]换句话说,单个神经网络可以在k从k0到n的宽范围内的任何宽度处执行,因为每个特征的残差由δk0限定,并且随着宽度k的增加而减小。(2)从概念上讲,有界不等式适用于任何深度神经网络,而不考虑什么规范化层(例如,批量归一化[11]和权重归一化[17])。因此,在下面的章节中,我们主要探讨如何训练一个可以在任意宽度上执行的神经网络。这些网络被称为通用可瘦身网络,或简称为US-网络。3.2. 批量归一化然而,正如[25]中所建议的那样,由于训练和测试之间的不一致性,批量归一化[11在训练期间,每层中的特征用当前小批量特征值xB的均值和方差进行归一化:BN [25]. Yu等人引入了可切换的批量归一化,其针对每个子网络私有化BN的γ、β、μ、σ2虽然参数γ,β可以在训练后合并(公式7),但具有共享γ和β的可瘦身网络具有接近的性能[25]。然而,关于普遍可瘦身的网络,由于两个原因,可切换的批量归一化[25]是不切实际的首先,在训练期间累积US-Net中的所有子网络的独立BN统计是计算密集型的且低效的。例如,假设n沟道层可以从0.25n到n,总共有(n0. 25n)子网络进行评估和0。25n+(0. 25n+1)+. +n=(n)在每次训练迭代中更新的BN统计量的变量。其次,如果在每次迭代中我们只更新一些采样的子网络,那么这些BN统计量没有充分积累,因此不准确,导致我们实验中的准确性差得多为此,我们采用了一个简单的修改,可以适当地解决这个问题的批量归一化修改是在训练后计算所有宽度的BN统计。US-Nets的可训练参数是固定的,因此所有BN统计数据可以在集群服务器上并行计算在训练之后,我们可以计算训练xBX E [x个]=γ+β,(4)V arB[xB]+V样本,或者作为公式5中的移动平均值,或者作为如下的精确平均值:其中,k是小值(例如,10−5)为了避免零除法,γ和β是可学习的尺度和偏差。 特征值然后将均值和方差作为移动平均值更新到全局统计数据中:m=(t−1)/t,µt=mµt−1+(1−m)EB[xB],σ2= mσ2+(1 − m)VarB[xB]。(八)µt=mµt−1+(1−m)EB[xB],σ2=mσ2+(1−m)VarB[xB],(五)我们的实验表明,精确平均线比移动平均线有更t t−1其中M是动量(例如,0的情况。9),t是训练迭代的指数我们表示μ=μT,σ2=σ2,假设网络总共训练了T次迭代。在推理过程中,这些全局统计数据被使用:在实践中,我们发现没有必要积累所有训练样本上的BN统计:随机采样的子集(例如,1k图像)已经产生了准确的估计。使用此选项,计算BN的后统计量可以非常快(默认情况下,我们计算所有训练样本)。 在实验中,我们将比较xtest=γx检验µσ2+(6)不同的样本量。此外,在研究或开发中,跟踪验证准确性非常重要其中γε和βε是优化的比例和偏差。注意,在训练之后,等式6可以被重新公式化为简单的线性变换:一个模型在训练的时候。虽然它不受BN的后期统计,我们可以在训练US-Nets时使用一个简单的工程技巧:在训练期间始终跟踪模型在最大和最小宽度处的BN统计。′ ′′γ∗′ ∗ ′xtest=γxtest+β,γ=σ2+,β=β −γ µ,(7)4. 改进培训技术并且通常γ′和β′可以进一步融合到其先前的卷积层中。在可精简网络中,累积不同数量的通道会导致不同的特征均值和变化,这进一步导致共享在本节中,我们将从下到上描述我们的US-Nets训练算法。我们首先介绍了三明治规则和原地蒸馏的动机和细节,然后给出了训练通用可瘦网络的整体算法。1808×××−×−′′4.1.三明治规则为了训练US-Net,一个自然的解决方案是累积或平均从不同子网络采样的损失。例如,在每次训练迭代中,我们随机采样n宽度在[0. 25,1。0],并应用从累积损失反向传播的梯度。更进一步,等式3中的有界不等式表明,在US网络中,所有宽度的性能都受最小宽度0处模型的性能限制。25,最大宽度1。0的情况。换句话说,优化性能下限和上限可以隐式地优化US-Net中的所有子网络。因此,我们提出了三明治规则,即在每次迭代中,我们在最小宽度,最大宽度和(n2)随机宽度上训练模型,而不是n个随机宽度。我们采用这一规则,并在实验中表现出更好的收敛行为和整体性能。三明治规则带来了两个额外的好处。首先,如第3.2节所述,通过训练最小宽度和最大宽度,我们可以显式地跟踪模型在训练时的验证精度,这也表明了US-Net的性能下限和上限。其次,训练最大宽度也是重要和必要的在实践中,重要的是停止由最大宽度预测的标签十元的梯度,这意味着子网络的损失将永远不会通过全网络的计算图反向传播。此外,如果预测标签具有批量归一化,则在训练模式中直接计算预测标签。它工作良好,节省了额外的推理模式的for-ward成本。我们尝试将地面真实标签和预测标签结合起来作为子网络的训练标签,使用两个损失的恒定平衡或衰减平衡,但结果更糟。4.3.训练通用可精简网络配备了三明治规则和原地蒸馏,训练US-Nets的整体算法在Al-出租m1中显示。为了简单起见,不包括使用等式8计算BN的后统计。值得注意的是:(1)算法对不同的任务和网络具有通用性。(2) GPU内存成本与训练单个网络相同,因此我们可以使用相同的批量大小。(3)在我们所有的实验中,应用了相同的超参数(4)算法实现相对简单,在算法1中以PyTorch风格的伪代码为例。下一个训练技巧就地蒸馏。算法1训练通用可瘦网络M。4.2.就地蒸馏就地蒸馏背后的基本思想是在每次训练迭代中将单个US网络中的知识从全网络就地转移到子网络。它由两步知识提取[7]驱动,首先训练一个大模型,然后通过使用预测类软训练将其学习的知识转移到一个小模型要求:定义宽度范围,例如,[0. 25,1。0]。Require:定义n为每次训练迭代的采样宽度数,例如,n= 4。一曰: 初始化共享网络M的训练设置。2:对于t= 1,...,Titersdo3:获取下一个小批量的数据x和标签y。4:清晰渐变,optimizer.zero grad()。′概率在US-Nets中,通过三明治规则,我们训练5:执行全网络,y=M(x)。′最大宽度、最小宽度和其他随机模型在每次迭代中采样的所有宽度。值得注意的是,这个培训计划自然支持就地知识蒸馏:我们可以直接使用模型在最大宽度处的预测标签作为其他宽度的训练标签,而对于最大宽度,我们使用地面实况。6:计算损失,损失=标准(y,y)。7:累加梯度,loss.backward()。8:停止y ′的渐变作为标签,y′= y′.detach()。9:随机抽样(n2)宽度,作为宽度样本。10:将最小宽度添加到宽度样本。11:对于宽度中的宽度样本,所提出的就地蒸馏是简单、有效的,将军与两步知识蒸馏[7]相反,原地蒸馏是一次性的:它可以在训练中就地实现,而无需额外的计算或内存成本。它通常适用于我们所有的任务,包括图像分类,图像超分辨率和深度强化学习。对于图像分类,我们使用最大宽度的预测软概率,交叉熵作为目标函数。在图像超分辨率中,使用预测的高分辨率块作为标签,其中,或者R11或者R12作为训练目标。对于深度强化学习,我们以最近策略优化算法(Actor- Critic)[19]为例。为了提取,我们在最大宽度处运行模型预测的策略,作为用于训练其他宽度的推出12:E x在宽度上切割子网,y=M(x)。13:计算损失,l〇ss=criterion(yt,y)。14:累加梯度,loss.backward()。15:结束16:更新权重,optimizer.step().17:结束5. 实验在本节中,我们首先介绍了ImageNet分类、图像超分辨率和深度强化学习任务的实验。接下来,我们提供了关于三明治规则和就地蒸馏的广泛的烧蚀研究。我们进一步研究了US网的样本大小,1809US-WDSR@1GFLOPs双三次放大US-WDSR@5GFLOPs×BN后统计量s、宽度下限k0、宽度除数d和每次训练迭代的采样宽度数n。在所有表格和图中,我们使用I-Net表示不同宽度的单独训练模型,S-Net表示4开关可精简网络[25],US-Net表示我们提出的通用可精简网络。5.1. 主要结果ImageNet 分 类 。 我 们 使 用 具 有 1000 个 类 的 Ima-geNet[5]分类数据集进行评估了两种代表性的移动网络架构,MobileNet v1 [8]和MobileNet v2 [18]请注意,MobileNet v1是一个非残余网络,而MobileNet v2是一个残余网络。表1. I-Net [8,18],S-Net [25]和US-Net的ImageNet分类结果( 前 1 个 错 误 ) , 给 定 相 同 的 宽 度 和 FLOP 。网络宽度FLOPs I-Net S-Net US-Net1 .一、0×569 M 29.1 28.5(0.6) 28.2(0.9)0的情况。75×317米31.6 30.5(1.1) 30.5(1.1)MobileNetv1 0. 5×150M 36.7 35.2(1.5)35.8(0.9)0的情况。25×41 M 50.2 46.9(3.3) 44.3(5.9)(3) 我们从0开始线性降低学习率。5到0,批量大小为1024,在8个GPU上。我们总是使用最终训练期的模型报告结果。为了公平起见,我们使用n=4来按照算法1训练US-Nets。我们首先在表1中显示数值结果。 与单个模型和4开关可精简网络[25]相比,US网络在以下方面具有更好的分类准确性:指数.在图3中,我们显示了US-MobileNet v1在宽度[.25:. 025:1。0]×和US-MobileNet v2,宽度为[. 三十五:025:1。0]×。图像超分辨率。我们使用包含800个训练和100个验证2K分辨率图像的DIV2K数据集[21]进行了双三次 2图像超分辨率任务的实验。网络WDSR [23]正在评估-过时了请注意,WDSR网络没有批量归一化层[11],而是使用权重归一化[17],这不需要在US-Nets中进行进一步修改我们首先分别训练宽度n=32和宽度n=64的两个模型,其中有8个残差块。然后,我们在[32,64]中训练了可以在任何宽度上执行的US网络,无论是否有4.2节中提出的就地蒸馏。结果如图4所示. US-WDSR比单独训练的模型性能略差,平均269米36.935.3(1.6)34.7 (2.2)#21040; ,但只有0?01较低的PSNR)。US-WDSR培训没有就地蒸馏则性能稍差1 .一、0×301M 28.2 29.5(-1.3) 28.5(-0.3)0的情况。75×209M 30.2 31.1(-0.9) 30.3(-0.1)0. 5×97M 34.6 35.6(-1.0)35.0(-0.4)0的情况。35×59 M 39.7 40.3(-0.6) 37.8(1.9)平均167米33.2 34.1(-0.9)32.9(0.3)值得注意的是,我们使用针对单个模型优化的默认超参数,这对于我们的可精简模型可能不是最佳的(例如,学习速率、初始化、权重衰减等)。7065605550100 200 300 400 500百万次多址接入(MFLOPs)图3. FLOPs-US-MobileNet v1和US-MobileNet v2的准确度谱,与I-Net [8,18]和S-Net [25]相比。我们在[8,18]中使用默认的训练和测试设置,除了:(1)为了快速实验,我们只训练US-Net250个epoch,而不是480个epoch。(2)我们使用随机梯度下降作为优化器,而不是RMSProp。图4.在不同的计算下,US-WDSR和超分辨高分辨率图像的FLOPs-PSNR谱。FLOP使用输入大小48 ×48计算。深度强化学习。我们使用Actor-Critic邻近策略优化算法[19]对Atari游戏BreakoutNoFrameskip-v4[3]进行了遵循基线模型[19],我们堆叠三个卷积,基本通道数为32,64,32,内核大小为8,4,3,步幅为10,000。as4,2,1,以及具有512个输出fea的全连接层US-MobileNet v1(单一型号)US-MobileNet v2(单一型号)4-siwtch S-MobileNet v1(单一型号)4-siwtch S-MobileNet v2(单一型号)MobileNet v1(四个独立型号)MobileNetv2(四个独立型号)ImageNet Top-1精度1810I-Net 0.25 ×I-Net 0.5 ×I-Net 0.75 ×I-Net 1.0 ×I-Net 0.25 ×US-Net 0.25 ×US-Net 0.25 ×US-Net 0.5 ×US-Net 0.75 ×US-Net 1.0 ×I-Net 0.5 ×US-Net 0.5 ×I-Net 0.75 ×US-Net 0.75 ×××−−350300250200150个体网络350300250200150通用可精简网络350300250200150宽度0.25 ×时的比较350300250200150宽度0.5 ×时的比较350300250200150宽度0.75 ×时的比较350300250200150宽度1.0 ×时的比较1001001001001001005050505050500 0 0 0 0 002000400060008000 10000数量的更新02000400060008000 10000数量的更新02000400060008000 10000数量的更新02000400060008000 10000数量的更新02000400060008000 10000数量的更新02000400060008000 10000数量的更新图5.基于演员-评论家风格PPO的US-Net和I-Net的平均剧集奖励[19]。曲线不平滑。表2.在训练过程中使用不同宽度采样规则的ImageNet分类结果。我们将 min表示为最小宽度,max表示为最大宽度,random表示随机采样的宽度。表3.不同方法计算批次归一化后统计量的性能比较(前1误差)。 我们使用移动平均(公式5)或精确平均(公式8)。采样规则0的情况。25×0的情况。5×0的情况。75×1 .一、0×AVG样本量平均0的情况。25×0的情况。5×0的情况。75×1 .一、0×3个随机55.935.831.030.138.201.28M移动44.435.830.628.2min+2随机46.237.232.231.336.731.28M确切44.335.830.528.2最大值+2随机58.437.031.128.338.701k确切44.435.830.628.2最小值+1随机数+最大值46.638.632.428.236.452k确切44.335.830.528.2真的。输出由actor(一个额外的全连接层到动作数)和critic(一个额外的全连接层到1)共享请注意,网络没有批量规范化层。我们首先在[0]的不同宽度处单独训练模型。25,0。5,0。75,1。0]。然后,按照第4.2节和算法1,使用就地蒸馏训练US网络。性能如图5所示。 从左到右,我们显示了单独训练的模型,通用的可精简模型(显示了四个相应的宽度用于比较),以及宽度为[0]的I-Net和US-Net之间的性能比较。25,0。5,0。75,1。0]。 曲线显示,US-Net始终优于四个单独的在所有这些实验中没有使用,因为它不适用于排除最大宽度的宽度采样规则。就地蒸馏。接下来,我们主要在ImageNet分类上研究了所提出的就地蒸馏的有效性。图像超分辨率(包括有无就地蒸馏)和深度强化学习的结果在图4和图5中已经示出了蒸馏(具有就地蒸馏)。我们使用相同的设置来训练两个US-MobileNetv 1模型,有或没有就地编译,并在图6中显示比较。就地冷却显著提高了整体性能,而无需任何成本。我们认为它可能是训练可瘦身网络的重要组成部分。在深度强化学习的任务中训练网络我们注意到,我们包括Atari游戏示例主要是为了说明我们的可精简训练也适用于用于RL的CNN。我们认为这很重要,因为在更具挑战性的RL解决方案中,例如AlphaGo[20]和AlphaStar[1],推理延迟和自适应计算能力将至关重要。5.2. 消融研究三明治规则通过烧蚀实验研究了三明治准则 我们使用 不 同 的 宽 度 采 样 规 则 训 练 了 四 个 n = 3 的 US-MobileNet v1模型:n个随机采样宽度,(n-1)ran-domly采样宽度加上最小宽度,(n1)随机采样宽度加上最大宽度,以及(n( 二)随机抽样宽度加上最小和最大宽度宽度.结果示于表2中。使用三明治规则训练的US-Net平均性能更好,在最小宽度和最大宽度上都具有良好的准确性此外,如表2的第2行和第3行所示,在最小宽度处训练模型比在最大宽度处训练模型更重要,这表明了宽度下限k0的重要性。就地蒸馏是图6. FLOPs-两个US-MobileNet v1模型的精度谱,无论是否使用就地蒸馏。批量标准化的后期统计。 我们进一步研究了US-Nets中批量归一化的后统计当所有权重都固定时,我们在训练US-MobileNet v1后更新BN统计数据。然后,我们使用四种方法计算BN统计:整个训练集的移动平均值、整个训练集的精确平均值、随机采样的1k训练子集的精确平均值 以及I-Net 1.0 ×US-Net 1.0 ×平均发作奖励平均发作奖励平均发作奖励平均发作奖励平均发作奖励平均发作奖励宽度0的情况。25×53.9 55.7(1.8)0的情况。375×56.9 60.1(3.2)0的情况。5×61.4 64.2(2.8)0的情况。625×65.1 67.5(2.4)18110的情况。875 ×-70.970.6 70.4×××××⌊⌋ ∗随机采样的2k训练子集。表3显示,精确平均具有稍好的性能,并且小子集产生同样准确的BN统计。这表明BN后统计量的计算可以非常快。最小可调信道数为8,而不是1,并且稍微有益于整体性能,如图8所示。实际上,d=8时,US网已经提供了足够的可调宽度。同样在许多硬件系统中,具有可被d=8,16,.,由于处理单元的对准可以与较小的尺寸一样快(例如,GPU中的warp大小为32)。宽度0的情况。25×49.855.7-45.20的情况。375×-60.162.356.80的情况。5×63.364.265.162.90的情况。625×-67.567.766.80的情况。75×68.469.569.569.0宽度1 .一、0×70.971.871.771.70的情况。375×-58.760.160.20的情况。5×63.363.164.264.50的情况。625×-66.467.567.50的情况。75×68.468.869.569.30的情况。875×-70.570.970.71 .一、0×70.972.171.871.6图7. FLOPs-具有不同宽度下限的三个US-MobileNet v1模型的准确度谱。宽度下限k0。宽度下限k0是有界方程3中的核心重要性。尽管通常在宽度0之间调整模型就足够了。25和1。0,我们感兴趣的是宽度下限如何影响整体性能。我们训练了三个US-MobileNet v1模型,其宽度下限k0为0。25岁0的情况。35,0。05,结果见图7。 它揭示了US-Net的性能基于其宽度较低正如我们在第3.1节的分析中所建议的那样。宽度0的情况。25×49.855.755.10的情况。375×-60.159.20的情况。5×63.364.263.80的情况。625×-67.566.90的情况。75×68.469.569.00的情况。875×-70.970.61 .一、0×70.971.871.7图8. FLOPs-具有不同宽度因子的两个US-MobileNet v1模型的精度谱。宽度除数d. 在Mo-bileNets [8,18]中引入了宽度因子,以将通道数近似为nr/d d,其中n是基本通道数,r是宽度乘数,d是宽度因子2。为了精确匹配MobileNets的FLOP并进行公平的比较,默认情况下,我们遵循MobileNets并设置宽度除数d=8。这导致2详细信息在超链接TensorFlow模型中(需要PDF)。1812图9. FLOPs-每次迭代使用不同数量的采样宽度训练的两个US-MobileNet v1的准确度谱。每次迭代的采样宽度数n。 最后,我们研究了每次训练迭代的采样宽度数这很重要,因为较大的n会导致更多的训练时间。我们训练了三个US-MobileNet v1模型,其中n等于3,4或5。图9显示,使用n=4训练的模型比使用n=3训练的模型具有更好的性能,而n=4和n=5实现了非常相似的性能。默认情况下,在我们所有的实验中,我们使用n=4。6. 讨论本节主要讨论三个问题,详细结果见补充资料.首先,对于到目前为止训练的所有US网络,宽度比均匀地应用于所有层。我们能否训练一个非均匀的US-Net,其中每一层都可以使用我们提出的方法独立调整自己的比率?这一要求对于网络瘦身等相关任务尤为重要。我们的答案是肯定的,我们展示了一个简单的演示如何不均匀的US-Net可以帮助网络瘦身。第二,也许这个问题很天真,但深层神经网络天生就可以瘦身吗?答案是否定的,一个天真的训练模型甚至不能在不同的宽度上运行,如果他们的BN统计被校准。第三,在可瘦身网络[25]中,私有规模和偏差被用作每个子网络的条件参数,这会略微带来性能增益在美国网队,我们有着共同的规模和偏见。我们还提出了一个模拟条件参数的选项:通过输入通道的数量对输出进行平均。1813引用[1] 阿尔法星:掌握即时战略游戏星际争霸ii。7[2] Hessam Bagherinezhad 、 Maxwell Horton 、 MohammadRastegari和Ali Farhadi。标签精炼厂:通过标签进展改进图像基因组分类。arXiv预印本arXiv:1805.02641,2018。3[3] Greg Brockman 、 Vicki Cheung 、 Ludwig Pettersson 、Jonas Schneider、John Schulman、Jie Tang和WojciechZaremba。Openai健身房,2016年。6[4] 陈天奇,伊恩·古德费洛,乔纳森·史伦斯。Net2net:通过知识转移加速学习arXiv预印本arXiv:1511.05641,2015年。3[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别,2009年。CVPR2009。 IEEE会议,第248-255页。Ieee,2009年。6[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。第1、3条[7] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。二三五[8] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。三六八[9] Gao Huang , Danlu Chen , Tianhong Li , Felix Wu ,Laurens van der Maaten,and Kilian Q Weinberger.多尺度密集网络用于资源有效的图像分类。arXiv预印本arXiv:1703.09844,2017。1[10] 黄泽浩和王乃艳。深度神经网络的数据驱动稀疏结构选择在欧洲计算机视觉会议(ECCV)的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功