没有合适的资源?快使用搜索试试~ 我知道了~
1学生网络Hanting Chen1人,Yunhe Wang2人,Chang Xu3人,Zhaohui Yang1人,Chuanjian Liu2人,BoxinShi4人,5人,Chun Jing Xu2人,Chao Xu1人,Qi Tian2人1北京大学机器感知学院CMIC机器感知教育部重点实验室2华为诺亚4北京大学视频技术国家工程实验室5鹏程实验室{chenhanting,zhaohuiyang,shiboxin}@ pku.edu.cn,c. sydney.edu.au{yunhe.wang,liuchuanjian,xuchunjing,tian.qi1}@ huawei.com,xuchao@cis.pku.edu.cn摘要学习便携式神经网络对于计算机视觉非常重要,因为预训练的深度模型可以很好地应用于边缘设备,如手机和微型传感器。大多数现有的深度神经网络压缩和加速方法对于训练紧凑的深度模型非常有效,因为我们可以直接访问训练数据集。然而,由于一些实际问题(例如,隐私、法律问题和传输),并且除了一些接口之外,给定网络的体系结构也是为此,我们提出了一个新的框架,通过利用生成对抗网络(GAN)来训练有效的深度神经网络。具体地说,将预先训练好的教师网络看作一个固定的学习器,利用生成器来生成训练样本,使训练样本在学习器上然后,使用生成的数据和教师网络同时训练具有较小模型大小和计算 复 杂 度 的 高 效 网 络 。 使 用 提 出 的 无 数 据 学 习(DAFL)方法学习的高效学生网络达到92。22%和74。使用ResNet-18,在CIFAR-10和CIFAR-100数据集上没有任何训练数据的情况下,准确率分别为47%。同时,我们的学生网络获得了80分。CelebA基准测试的准确率为56%。1. 介绍深度卷积神经网络(CNN)已成功用于各种计算机视觉应用,如图像分类[24,11],对象检测[21]和语义分割[15]。然而,发射大多数这项工作是在参观华为诺亚方舟实验室时完成的†通讯作者广泛使用的CNN需要大量的计算和存储,只能在配备现代GPU卡的PC上使用。例如,超过500MB的内存和超过处理一个整数需要10次10×乘法运算使用VGGNet年龄[24],这几乎是不可能的,应用于自动驾驶汽车和微型机器人等边缘设备虽然这些预先训练的CNN有许多参数,但Hanet al.[6]表明,在给定的神经网络中丢弃超过85%的权重不会明显损害其性能,这表明这些CNN中存在显着的冗余。为了压缩和加速预训练的重深度模型,最近已经提出了各种有效的方法。例如,Gong等人[5]利用矢量量化方法将相似的权值表示为聚类中心。Denton等人[3]利用低秩分解来处理全连接层的权重矩阵。Chen等人[1]提出了一种基于散列的方法来编码CNN中的参数。Han等人[6]采用了Prun- ing,量化和Huffman编码来获得具有较低计算复杂度的紧凑深度CNNHinton等人[8]提出了知识蒸馏方法,该方法提取预先训练的教师网络的信息,用于学习便携式学生网络等。尽管上述方法在基准数据集和模型上做了大量的工作,但一个重要的问题还没有被广泛注意,即:大多数现有的网络压缩和加速算法具有原始网络的训练样本是可用的强假设。然而,由于隐私和传输限制,训练数据集在现实世界的应用中通常是未知的。例如,用户不想让他们的照片泄露给其他人,而且一些训练数据集太大,无法快速上传到云端。此外,除了输入和输出层之外,预训练网络的参数和结构有时也是未知的。因此,常规方法不能35143515图1.所提出的在没有训练数据集的情况下学习高效深度神经网络的方法的示意图。生成器通过从给定的网络中提取有用的信息来训练原始训练集中的图像。然后,通过使用生成的图像和教师网络,直接用于在这些实践约束下学习可移植的深度模型。然而,只有少数工作被提出来压缩没有训练数据的深度模型。Lopes等人[16]利用来自每层的激活的平均值和标准偏差),这是从原始训练数据集记录的,大多数经过良好训练的CNN都没有提供。Srinivas和Babu[26]通过在完全连接的层中合并类似的神经元来压缩然而,使用这些方法的压缩网络的性能为了解决上述问题,我们提出了一种新的框架,用于在没有原始训练数据集的情况下压缩深度神经网络。具体地说,我们将给定的重神经网络看作是一个固定的神经网络。然后,通过在对抗过程中提取网络的信息,建立一个生成网络,用于替换原始训练集,该网络可用于学习性能可接受的较小通过对基准数据集和模型的大量实验,证明了该方法的优越性。本文件其余部分组织如下。第二节研究了CNN压缩算法的相关工作。第三部分提出了基于GAN的无数据师生范式。第4节说明了所提出的方法在基准数据集和模型上的实验结果,第5节总结了本文。2. 相关作品基于不同的假设和应用,现有的可移植网络学习方法可以分为两大类:数据驱动和无数据方法。2.1. 数据驱动的网络压缩为了学习有效的深度神经网络,已经提出了许多方法来消除预训练的深度模型中的冗余。例如,Gong等人[5]采用矢量量化方案来表示神经网络中的相似权重。Denton等人[3]利用奇异值分解(SVD)方法分解全连接层的权重矩阵。Han等人[6]提出了用于去除预训练神经网络中Wang等人[27]进一步介绍了离散余弦变换(DCT)基,并将卷积滤波器转换到频域,以实现更高的压缩比和加速比。Yang等[28]使用一组乐高过滤器来构建高效的CNN。除了消除冗余的权重或滤波器,Hin-ton等人。[8]提出了一种知识蒸馏(KD)范式,用于将有用的信息从给定的教师网络传输到便携式学生网络。Yim et al.[29]引入了FSP(解决方案流程)矩阵来继承两层特征之间的关系Li等[13]还提出了一种特征模拟框架,以训练用于目标检测的有效卷积网络此外,Rastegariet al.[20]和Courbariauxet al. [2]探索了二进制神经网络,以实现相当大的压缩和加速比,其权重为-1/1或-1/0/1等。尽管上述算法在大多数基准数据集和深度模型上都取得了令人满意的结果,但如果没有原始训练数据集,它们就无法有效地启动。在实践中,训练数据集可能由于某些原因而不可用,例如传输限制和隐私。因此,有必要研究无数据压缩神经网络的方法。3516z不ySST2.2. 无数据网络压缩只有少数几种方法被提出用于在没有原始训练数据集的情况下压缩深度神经网络。Srinivas和Babu [26]提出在全连接层中直接合并相似的神经元,这不能应用于卷积层和详细架构和参数信息未知的网络。此外,Lopeset al.[16]试图从“元数据”重建原始数据由于在没有原始训练数据的情况下无法准确地进行微调过程,因此现有算法的压缩方法的性能比基线模型的性能差。因此,有效的3.2. 用于生成训练样本的GAN为了在没有原始数据的情况下学习可移植网络,我们利用GAN来利用给定网络的可用信息生成训练样本。生成对抗网络(GANs)已被广泛应用于生成样本。GAN由生成器G和鉴别器D组成。G被期望生成所需的数据,而D被训练以识别真实图像与生成器产生的图像之间的具体而言,给定输入噪声向量z,G将z映射为期望的数据X,即,G:z- x。另一方面,D的目标是区分真实数据和合成数据G(z).对于任意的香草GAN,目标函数可以被公式化为使用Compa学习高效CNN的无数据方法非常需要出色的性能。LGAN=Ey数据 (y)[logD(y)](二)3. 无数据学生网络学习在本节中,我们将提出一种新的无数据框架,通过将生成器网络嵌入到师生学习范式中来压缩深度神经网络。3.1. 师生互动如上所述,由于各种原因,客户通常不会提供原始训练数据集。此外,参数和详细的架构信息有时也可能不可用。因此,我们建议利用师生学习范式来学习便携式CNN。知识蒸馏(KD)[8]是一种广泛使用的方法,用于将输出信息从一个重网络转移到一个较小的网络,以实现更高的性能,它不利用给定网络的参数和架构。尽管给定的深度模型可能仅提供有有限的接口(例如,输入和输出接口),我们可以将知识传递到继承教师网络上的有用信息。令NT和NS表示原始的预训练卷积神经网络(教师网络)和期望的可移植网络(学生网络),可以使用以下基于知识分解的损失函数来优化学生网络+Ez<$pz(z)[log(1 − D(G(z)]。在对抗过程中,根据D.通过优化以下问题获得最优GG=ar gminEzp(z)[log(1−D(G(z)],(3)G其中D是最优的。对抗性学习技术可以自然地用于合成训练-ing数据。根据Eq。(2)训练时需要真实图像。在没有训练数据的情况下,因此不可能训练像vanilla GAN那样的神经网络。最近的工作[19]已经证明,CXD可以从样本中学习表示的层次结构,这鼓励了D在其他任务(如图像分类)中的推广Odena [18]进一步提出,区分和分类的任务可以相互改进。给定的深度神经网络可以从图像中提取语义特征,而不是像普通GAN那样训练新的神经元,因为它已经在大规模数据集上进行了良好的训练因此,我们建议将这个给定的深度神经网络(例如,50.[50]第50章:一个人的秘密因此,G可以直接优化,而不需要一起训练D,即。原始网络D的参数在训练G期间是固定的。此外,输出的概率是一个概率,表明是否1ΣLKD=nH我cross(y i,y i).(一)在普通GAN中输入图像是真的还是假 然而,在这方面,给定教师深度神经网络作为训练器,输出是将图像分类到不同的概念集,其中Hcross是交叉熵损失,yi=NT(xi)且而不是显示图像的真实性。 损失函数i=NS(x i)分别是教师网络NT和学生网络NS的输出。因此,利用知识转移技术,便携式网络可以无需给定网络的特定架构即可进行优化。因此,在vanilla GAN中,不适用于近似原始训练集。因此,我们对教师网络上的真实图像及其反应进行了深入的分析。几个新的损失函数将被设计来反映我们的观察。3517i=1i=1KK不不nT T TT在图像分类任务中,教师深度神经网络在训练阶段采用交叉熵损失,这强制输出接近输入的地面真实标签。特别是对于多类分类,鼓励输出为独热向量,其中只有一个条目为1,所有其他条目为0。表示生成器和教师网络作为G和NT,re-req。给定一组随机向量{z1, z2,···, zn},从这些向量生成的图像是{x1, x2,···, xn},其中xi=G( zi)。把这些图像输入老师算法1DAFL学习便携式学生网络。输入:给定的教师网络NT,不同对象的参数:α和β。1:初始化生成器G,学生网络NS,具有较少的内存使用和计算复杂度;2:重复第3章:模块1:训练生成器。4:随机生成一批矢量:{z i}n;5:生成训练样本:x← G(z);6:在小批量上雇用教师网络:网络,我们可以得到输出{y1,y2,···,yn},7:[y ,t,fT]←NT( x);T T TTi= NT(x i)。然后,预测的标签{t1,t2,···,t n}为由t i= arg max(y i)j计算。 如果G生成的图像8:计算损失函数LT总(Fcn. 7):9:使用反向传播更新GJT遵循与教师网络的训练数据相同的分布,它们也应该具有与训练数据相似的输出。因此,我们引入了one-hot损失,它鼓励由教师网络要接近一个热点一样的向量。通过将{t1,t2,···,tn}作为伪地面真值标签,我们将单热损失函数计算为10:模块2:培训学生网络。11、随机生成一批向量{zi}n;12:在mini-batch上使用生成器:x← G(z);13:利用教师网和学生网-同时处理小批量14:yS← NS(x),yT← NT(x);15:计算已知的边缘蒸馏损失:16:LKD←1H(yi,yi);1Σi inS T我Loh=nH交叉(yT,t),(4)我17:根据梯度更新NS18:直到收敛其中Hcross是交叉熵损失函数。借由─我们期待着一个热的损失,我们期待着一个产生的输入,年龄可以以更高的概率被分类到教师网络所关注的一个特定类别换句话说,我们追求的是与教师网络完全兼容的合成图像,而不是任何场景的一般真实图像。除了DNN预测的类别标签外,卷积层提取的中间特征也是输入图像的重要表示。大量的工作已经研究了深度神经网络的可解释性[30,22,4]。由卷积滤波器提取的特征应该包含关于输入图像的有价值的信息。具体地,Zhanget al. [31]将对象的一部分分配给较高卷积层中的输出:学生网络NS。MNIST数据集中的每个类。我们采用信息熵损失来衡量生成图像的类别平衡。具体地说,给定概率向量p=(p1,p2,· · ·,pk),p的信息熵(衡量混淆程度)计算如下:Hinfo(p)= −1p ilog(p i)。Hinfo(p) indi的值我表示p拥有的信息量,这将需要所有变量都等于1时的最大值。 给定一组输出向量{y1,y2,···,yn},其中yi= NT(xi),每个类别的生成图像的快速y分布为:1y i. 生成图像的信息熵损失我这表明每个过滤器代表不同的se,mantics。我们将由教师网络提取的xi的特征表示为fi,其对应于因此定义为1i不全连接层。 由于教师DNN中的过滤器在训练中提取内在模式Lie=−Hinfo(nyT)。(六)我数据,如果输入图像是真实的而不是一些随机向量,则特征图倾向于接收更高的激活值。因此,我们将激活损失函数定义为:L=−1fi,(5)anT1我其中,k·k1是常规的l1范数。此外,为了简化深层神经元的训练过程,在一个典型的神经网络中,每个类别中的训练样本的数量通常是平衡的,例如。有6,000张图片y3518yKnS当损失最小时,1i等于1,这意味着G可以生成-我每个类别的评价图像具有大致相同的概率,能力因此,最小化所生成图像的信息熵可以导致合成图像的平衡集合通过结合上述三个损失函数,我们得到最终的目标函数LTotal=Loh+αLa+βLie,(7)3519不不不y不不不表1.MNIST数据集上的分类结果算法需数据LeNet-5 [12]HintonNet [8]精度FLOPs#参数精度FLOPs#参数老师原始数据百分之九十八点九一436K62K98.39%2.39米2.4M标准反向传播原始数据百分之九十八点六五144K16K98.11%1.28米1.28米知识蒸馏[8]原始数据百分之九十八点九一144K16K98.39%1.28米1.28米正态分布没有数据88.01%144K16K87.58%1.28米1.28米替代数据USPS数据集94.56%144K16K93.99%1.28米1.28米[第16话]Meta数据92.47%144K16K91.24%1.28米1.28米无数据学习(DAFL)没有数据百分之九十八点二144K16K百分之九十七点九一1.28米1.28米其中α和β是用于平衡三个不同的超参数哪里fiG.W.G是特征fi的梯度.的梯度条款。通过最小化上述函数,关于y的最后一项可以容易地计算生成器可以合成具有相似分布的图像与先前用于训练的训练数据相同,如:Lie=−1yi[log(1使教师网络(即,鉴别器网络)。值得注意的是,以前的一些作品[23,17]可以通过使用反向传播优化神经网络的输入来合成图像。但很难为后续的学生网络训练生成丰富的图像-yin nTj其中1表示所有值均为1的n维向量。G中的参数将通过以下方式进行额外更新:对于每个合成图像,将导致通过反向传播解决的独立优化问题。与此相反,LieG.W.GΣ∂Lie=yi伊·T。(十一)G.W.GIT该方法可以模拟训练样本的分布,数据,这是更灵活,更有效地生成新的图像。3.3. 优化我们的算法的学习过程可以分为两个阶段的训练。首先,我们将训练有素的教师网络视为固定的鉴别器。使用等式中的损失函数LT总。7,我们优化了生成器G,以生成遵循与教师网络的原始训练图像。其次,我们利用知识蒸馏的方法,直接转移知识从教师网络到学生网络。 学生网络的参数较少,ters然后使用等式中的KD损失LKD进行优化。1.一、所提出的方法的示意图如图1所示。我们使用随机梯度下降(SGD)方法来优化图像生成器G和学生网络NS。在G的训练中,L总的第一项是交叉熵损失,可以传统地训练。第二项La在方程。7正好是一个线性运算,可以很容易地计算出La相对于fi建议的无数据学习的详细程序(DAFL)计划学习有效的学生神经网络的总结算法1。4. 实验在本节中,我们将展示我们提出的无数据知识蒸馏方法的有效性,并进行大量的消融实验,以明确理解所提出的方法中的每个组件。4.1. MNIST实验我们首先在MNIST数据集上进行了实验,该数据集由10个类别(从0到9)的28×28像素图像组成。整个数据集由60,000张训练图像和10,000张测试图像组成。用于选择超参数,我们从训练图像中选取10,000张图像作为验证集。然后,我们在全部60,000张图像上训练模型,以获得最终的我们要做一个公平的比较[16]。两种体系结构用于调查每-如:La=−1sgn(fi),(8)提出的方法,即,基于卷积的AR-阿夫林其中sgn(·)表示符号函数。参数WGinG3520将通过以下方式更新:架构和网络由完全连接的层组成对于卷积模型,我们使用LeNet-5 [12]作为教师模型,LeNet-5-HALF(每层通道数量减半的修改版本)作为学生模型。对于第二种架构,教师网络由以下部分组成A.G.W.GΣ∂La=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000fi·T,(9)G.W.G两个1,200个单元的隐藏层(Hinton-784- 1,200 - 1,200 -10)[8],学生网络由两个隐藏层组成,IT3521表2.所提出的无数据学习方法的不同组成部分的有效性单热损耗✓✓✓✓信息熵损失✓✓✓✓特征图激活丢失✓✓✓✓Top 1准确度88.01%78.77%88.14%15.95%42.07%百分之九十七点二五95.53%百分之九十八点二800件(Hinton-784-800-800-10)。学生网络的参数明显少于教师网络。对于我们的方法,Fcn中的α和β。7分别为0.1和5,并在验证集上进行调整。生成器使用Adam训练了200个epoch我们在[19]之后使用深度卷积生成器1,并在生成器的末尾添加一个批归一化来平滑样本值。表1报告了MNIST数据集上不同方法的结果。在LeNet-5模型上,教师网络实现了98. 91%的准确率,而学生网络我们-使用标准反向传播实现了98. 65%ac-Curacy,分别。知识蒸馏将学生网络的准确率提高到98. 百分之九十一这些方法使用原始数据来训练学生网络。然后,我们利用所提出的方法来训练学生网络,以评估合成数据的有效性。我们首先使用正态分布随机生成的数据来训练学生网络。 通过利用知识蒸馏,学生网络仅达到88。01%的准确率。此外,我们进一步使用另一个手写数字数据集,即USPS [9],进行相同的实验来训练学生网络。尽管两个数据集中的图像具有相似的属性,但使用USPS学习的学生网络在MNIST数据集上只能获得94.56%的准确率,这表明很难找到原始训练数据集的替代品为此,Lopeset al.[16]使用注意到学生网络的准确率上限为98.65%,这只有在我们能找到一个与原始数据集分布相同的数据集(即,MNIST数据集)。所提出的方法利用生成的对抗网络实现了98.20%的准确率,这是非常接近这个上限。此外,使用该算法的学生网络的准确性优于使用其他数据(正态分布,USPS数据集和使用“Meta数据”重建的数据集),这表明我们的方法可以更好地在全连接模型上,分类ac-教师和学生网络的质量是98。39%和九十八分别为11%。 知识蒸馏带来了1https://github.com/eriklindernoren/PyTorch-GAN/blob/master/implementations/dcgan/dcgan.py学生网络的性能通过将信息从教师网络传输到98. 百分之三十九然而,在缺乏训练数据的情况下,结果变得不可接受。随机噪声仅为87. 58%的准确率和“Meta数据”[ 16 ]达到更高的准确率91。百分之二十四使用USPS数据集作为替代,达到了93.99%的准确率。所提出的方法的结果在最高性能的97。在没有原始数据的所有方法中,正确率为91%,这证明了生成器的有效性4.2. 消融实验在上述部分中,我们已经测试和验证了所提出的生成方法在没有训练数据的情况下用于然而,有一些组成部分,即.在Eq中的三个项。7、优化发电机时。我们进一步进行烧蚀实验,以明确的理解和分析。消融实验也在MNIST数据集上进行我们使用LeNet-5作为教师网络,LeNet-5-HALF作为学生网络。培训设置与第4.1节相同。表2报告了各种设计组件的结果。使用随机生成的样本,即。生成器G没有被训练,学生网络达到88.01%的准确率。然而,利用one-hot loss和feature map activation loss或其中之一,生成的样本不平衡,导致学生网络性能不佳仅引入信息熵损失,由于样本不包含足够的有用信息,因此获得了88.14%的准确度当Loh或La与Lie结合时,学生网络的性能分别达到97.25%和95.53%。而且在使用所有损失函数时,学生网络的准确率为98.20%值得注意的是,one-hot损失和信息熵的组合对于训练生成器是必不可少的,这也在以前的一些工作中使用[25,10]。烧蚀实验表明,G的损失函数的每个分量是有意义的。通过应用所提出的方法,G可以从不同类别中生成与原始数据集中分布相似的平衡样本,这对于学生网络的训练是有效的。3522表3.CIFAR数据集上的分类结果算法需数据FLOPS#参数CIFAR-10CIFAR-100老师原始数据1.16G21M95.58%77.84%标准反向传播原始数据557M11M百分之九十三点九二76.53%知识蒸馏[8]原始数据557M11M94.34%76.87%正态分布没有数据557M11M百分之十四点八九百分之一点四四替代数据类似的数据557M11M90.65%69.88%无数据学习(DAFL)没有数据557M11M92.22%74.47%4.3. 可视化结果在研究了该方法的有效性后,我们进一步在MNIST数据集上进行了可视化实验。在MNIST数据集中有10类手写数字,从0到9。设置与第4.1节相同。(a) MNIST数据集上的平均图像。(b) 生成的数据集上的平均图像。图2. MNIST数据集上每个类别(从0到9)的平均图像的可视化。图2显示了平均图像的可视化结果。注意,生成的图像是未标记的,它们的类是由教师网络的预测定义的通过尽可能多地利用给定网络的信息图2(b)示出了每个类别的图像的平均值虽然没有提供真实图像,但是生成的图像具有与训练图像相似的模式,这表明生成器可以以某种方式学习数据分布。过滤器可视化。此外,我们在图3中可视化了LeNet-5教师网络和学生网络的过滤器。虽然学生网络是在没有真实世界数据的情况下训练的,但通过所提出的方法学习的学生网络的过滤器(见图3(b))仍然与教师网络的过滤器相似(见图3(a))。可视化实验进一步表明,该生成器可以生成与原始图像具有相似模式的图像,并且通过利用生成的样本,学生网络可以(a) 教师过滤器(b) 学生过滤器。图3.在MNIST数据集上学习的第一个卷积层中的过滤器的可视化。顶线示出了使用原始训练数据集训练的滤波器,并且底线示出了使用由所提出的方法生成的样本获得的滤波器。4.4. CIFAR实验为了进一步评估我们的方法的有效性,我们在CIFAR数据集上进行了实验。我们使用ResNet-34作为教师网络,ResNet-18作为学生网络2,这是复杂和先进的,以进一步研究所提出的方法的有效性这些网络使用Nesterov Accelerated梯度(NAG)、权重衰减和动量分别设置为5×10−4和0.9。我们训练网络200个epoch,初始学习率设置为0.1并分别在80和120个时期除以10。随机翻转,随机裁剪和零填充用于数据增强,如[7]中所建议的。G和所提出的方法的学习网络被训练了2,000个epoch,其他设置与MNIST实验中的设置相同。表3报告了CIFAR-10和CIFAR-100数据集的分类结果教师网络在CIFAR-10中达到了95.58%的准确率。使用知识蒸馏的学生网络达到了94.34%的准确率,这略高于标准BP(93.92%)。然后,我们探索优化的学生网络与真实的数据。由于CIFAR数据集比MNIST更复杂,因此不可能使用遵循正态分布的随机生成的数据来优化学生因此,我们将没有标签的MNIST数据集作为使用知识蒸馏来训练学生网络的替代数据学生网络在CIFAR-10数据集上仅达到28.29%的准确率此外,我们使用CIFAR训练学生网络-工作可以从老师那里获得有价值的知识网络2https://github.com/kuangliu/pytorch-cifar3523100个数据集,与原CIFAR-10数据集有相当大的重叠,但该网络的准确率仅为90.65%,明显低于教师模型。相比之下,利用所提出的方法训练的学生网络仅使用合成数据就达到了92.22%的准确率。除了CIFAR-10之外,我们还在CIFAR-100数据集上进一步验证了所提出的方法的能力,该数据集有100个类别,每个类别有600个图像。因此,在我们的方法中,生成器的输入随机向量的维数增加到1000。教师网的准确率为77.84%,学生网的准确率仅为76.53%.使用正态分布数据、MNIST和CIFAR-10来训练学生网络不能获得有希望的结果,如表3所示。相比之下,通过利用所提出的方法学习的学生网络在没有任何真实训练数据的情况下获得了74.47%的准确率。4.5. CelebA实验除了CIFAR数据集之外,我们还在CelebA数据集上进行了实验,该数据集包含202,599张像素为224×224的人脸图像。为了公平地评估我们的方法,我们使用AlexNet [11]对最平衡的属性进行[14]在[16]中的设置。学生网络是AlexNet-Half,过滤器的数量是AlexNet的一半。原来的教师网络有大约57M的参数,而学生网络只有大约40M的参数。 我们的网络已经优化了100个纪元-学习率为10−4的亚当。我们使用DCGAN [19]的替代模型来生成224×224的彩色图像。该方法的超参数与MNIST和CIFAR实验中的超参数相同,G.4.6. 扩展实验在几个基准点上进行了大量的实验,以验证DAFL方法使用生成的图像学习学生网络的性能。其中,所使用的学生网络的架构比教师网络的架构更具可移植性。为了研究原始训练图像和生成图像之间的差异,我们使用这些生成的图像来训练与使用所提出的方法的教师网络相同架构的网络。结果见表5。在表5中可以发现,MNIST数据集上的LeNet-5和HintonNet分别实现了98.91%的准确度和98.39%的准确度。相比之下,用相同的架构从头开始训练的学生网络的准确率分别为98.47%和98.08%,这与教师网络的准确率非常接近。此外,在CIFAR-10和CIFAR-100数据集上的学生网络也获得了与教师网络相似的结果实验结果表明,该方法能有效地从教师网络中提取信息,逼近原始训练数据集.如果给出了网络结构,我们甚至可以复制教师网络并达到类似的精度。表5.各种数据集的分类结果数据集模型精度老师学生MNISTLeNet-5 [12]百分之九十八点九一百分之九十八点四七MNISTHintonNet [8]98.39%98.08%CIFAR-10ResNet-34 [7]95.58%93.21%CIFAR-100ResNet-34 [7]77.84%75.32%CelebAAlexNet [11]81.59%80.56%5. 结论表4报告了通过利用所提出的方法和最先进的学习方法对CelebA数据集的学生网络的分类结果。教师网络达到81.59%的准确率,学生网络使用标准的BP网络达到80.82%的准确率。Lopes等人[16]使用“Meta数据”仅实现了77.56%的准确率。用该方法训练的学生网络的准确率为80.03%,与教师网络的准确率相当。表4.CelebA数据集上的分类结果算法FLOPS精度老师711M81.59%标准反向传播222M百分之八十点八二知识蒸馏[8]222M81.35%[第16话]222M77.56%无数据学习(DAFL)222M80.03%传统方法需要原始训练数据集来微调压缩的深度神经网络,使其具有可接受的精度。然而,由于一些隐私和传输限制,给定深度网络的训练集和详细架构信息通常不可用在本文中,我们提出了一个新的框架,训练生成器近似原始数据集没有训练数据。然后,通过知识表示方案,可以有效地学习可移植在基准数据集上的实验表明,所提出的方法DAFL方法能够在没有任何训练数据的情况下学习可移植的深度神经网络。确认本工作得到国家自然科学基金项目号:61876007、61872012和澳大利亚研究委员会项目DE-180101438。3524引用[1] Wenlin Chen,James T Wilson,Stephen Tyree,Kilian QWeinberger,and Yixin Chen.用散列技巧压缩神经网络。ICML,2015。1[2] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络:训练深度神经网络,权重和激活限制为+1或-1。arXiv预印本arXiv:1602.02830,2016。2[3] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构在NIPS,2014。一、二[4] 董银鹏,苏航,朱军,范宝。通过利用对抗性示例实现可 解 释 的 深 度 神 经 网 络 arXiv 预 印 本 arXiv :1708.05493,2017。4[5] 龚云超,刘柳,杨明,卢博米尔.使用矢量量化压缩深度卷积网络。arXiv预印本arXiv:1412.6115,2014。一、二[6] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,2015。一、二[7] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。三、七、八[8] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。一二三五七八[9] 乔纳森·赫尔。一个用于手写文本识别研究的数据库。IEEE Transactions on pattern analysis and machineintelligence,16(5):550-554,1994. 6[10] 他是拉雅·杰恩、华金·塞佩达、帕特里克·佩雷斯和雷米·格里邦瓦尔。Subic:一种用于图像搜索的监督结构化二进制代码。在ICCV,第833-842页,2017年。6[11] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS,第1097-1105页,2012中。1、8[12] YannLeCun,Le'onBottou,YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE,86(11):2278-2324,1998.五、八[13] Quanquan Li,Shengying Jin,and Junjie Yan.模仿非常有效的网络进行对象检测。在CVPR中,第7341-7349页。IEEE,2017年。2[14] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在ICCV,第3730-3738页,2015中。8[15] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR,第3431-3440页,2015年。1[16] Raphael Gontijo Lopes,Stefano Fenu,and Thad Starner.深度神经网络的无数据知识蒸馏。arXiv预印本arXiv:1710.07535,2017。二三五六八[17] Aravindh Mahendran和Andrea Vedaldi。通过反转它们来理解深度图像表示。在CVPR中,第5188-5196页,2015年。53525[18] 奥古斯都·奥德纳半监督学习与生成对抗网络。arXiv预印本arXiv:1606.01583,2016年。3[19] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv:1511.06434,2015。三六八[20] MohammadRastegari 、 Vicente Ordonez 、 JosephRedmon和Ali Farhadi。Xnor-net:使用二元卷积神经网络的Imagenet分类。在《欧洲共同体刑法典》第525-529542.施普林格,2016年。2[21] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。在NIPS,第91-99页,2015中。1[22] RamprasaathR Selvaraju,Michael Cogswell,AbhishekDas , Ramakrishna Vedantam , Devi Parikh , DhruvBatra,et al. Grad-cam:通过基于梯度的定位从深度网络进行视觉解释。见ICCV,第618-626页,2017年。4[23] Karen Simonyan Andrea Vedaldi和Andrew Zisserman卷积网络内部:可视化图像分类模型和显着图。arXiv预印本arXiv:1312.6034,2013。5[24] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年,国际会议。1[25] 约斯特·托拜厄斯·斯普林根伯格分类生成对抗网络的无 监 督 和 半 监 督 学 习 。 arXiv 预 印 本 arXiv :1511.06390,2015年。6[26] Suraj Srinivas和R Venkatesh Babu。深度神经网络的无数据参数修剪。arXiv预印本arXiv:1507.06149,2015年。二、三[27] 王云鹤、徐畅、游山、陶大成、徐超。Cnnpack:在频域中打包卷积神经网络。在NIPS,第253-261页,2016年。2[28] 杨朝晖,王云鹤,刘传健,陈汉庭,徐春静,施博新,徐超,徐昌。Legonet:使用乐高滤波器的高效卷积神经网络。在ICML,第7005-7014页,2019年。2[29] Junho Yim , Donggyu Joo , Jihoon Bae , and JunmoKim.知识升华的礼物:快速优化、网络最小化和迁移学习。在CVPR,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功