没有合适的资源?快使用搜索试试~ 我知道了~
6599כ深度神经网络孟凡旭1,2张伟,程浩2李可2,徐志新1,季荣荣3,4孙兴2,卢光明1 <$1哈尔滨工业大学计算机科学与技术学院深圳2腾讯优图实验室上海3中国厦门大学信息学院人工智能系4彭城实验室,中国{louischeng,tristanli,winfredsun}@ tencent.com,{18S151514,xuzhixin}@ stu.hit.edu.cn,rrj@xmu.edu.cn,luguangm@hit.edu.cn摘要本文提出了一种新的学习范式,称为过滤器移植,旨在提高深度神经网络(DNN)的表示能力。其动机是DNN具有不重要(无效)的过滤器(例如,l1范数接近于0)。这些过滤器限制了DNN的潜力,因为它们被识别为对网络几乎没有影响。虽然过滤器修剪出于效率考虑移除这些无效过滤器,但过滤器移植从准确性提升的角度重新激活它们。通过将外部信息(权重)移植到无效过滤器中来处理激活为了更好地执行嫁接过程,我们开发了一个基于熵的标准来衡量过滤器的信息和自适应加权策略,用于平衡网络之间的嫁接信息。在嫁接操作之后,与其未接触状态相比,网络具有很少的无效过滤器,从而使模型具有更多的表示能力。我们还进行了大量的实验分类和识别任务,以显示我们的方法的优越性。例如,在CIFAR-100数据集上,移植的MobileNetV 2比未移植的MobileNetV 2的性能高出约7%。代码可在https://github.com/fxmeng/filter-grafting.git上获得。1. 介绍自从Krizhevsky等人[7]在2012年ImageNet竞赛中取得突破[17],研究人员在探索DNN的各种架构方面取得了重大 进展(Szegedyet al.[20]; Heet al. [4]; Lu 等人。[13,12]; Zhenget al.[27])。DNN逐渐成为计算机视觉[7,11],语音识别[2]和语言处理[24]等领域非常流行和强大的模型然而,最近的研究表明,DNN在-①在作者列表中,“”表示作者贡献均等,按字母顺序排列;†表示相应的作者。修剪:去除嫁接:重新激活图1.说明过滤器修剪和过滤器嫁接之间的区别。对于滤波器移植,我们将外部信息移植到无效滤波器中,而不改变模型结构。(最佳彩色)有效(不重要)过滤器[9]。这些滤波器被认为对输出精度的影响很小删除某些过滤器可以加速DNN的推理,而不会损害太多性能。这一发现激发了许多研究如何决定哪些过滤器是不重要的作品[14] 以及如何有效地去除具有可容忍性能下降的滤波器[19,10]。但目前还不清楚直接放弃这类过滤器和组件是否是最佳选择。如果这种传统的无效过滤器在某些意义上确实有用呢?同样的故事也发生在集成学习中,比如boosting,虽然单个弱分类器很差,但它们的组合和再训练可能会打开通往最佳性能的大门。此外,考虑到多个网络,目前还不清楚一个网络是否可以从其他网络中学习在本文中,我们研究了通过引入外部信息来重新激活一个网络中无效过滤器的可能性这是通过提出一种新的滤波器移植方案来实现的过滤器嫁接与过滤器修剪的不同之处在于,我们通过分配有效筛选器无效筛选器ᇱ6600方法而不改变模型结构?一个阶段?没有监督?过滤器修剪[9]××✓蒸馏[6]✓××深度学习[25]✓✓×RePr [15]✓×✓滤过嫁接✓✓✓表1.过滤器移植与其他学习方法的区别新的权重,其保持层的数量和每个层内的过滤器相同。嫁接网络具有更高的表示能力,因为网络中更多的有效过滤器参与处理信息。滤波器嫁接的关键是选择合适的信息源(即滤波器)。我们应该从哪里移植信息)。本文对此问题进行了深入的研究,认为应该从外部(其他网络)而不是内部(自网络)嫁接信息。一般来说,我们可以并行训练几个网络。在特定时期的训练中,我们将一个网络的有意义的过滤器移植到另一个网络的无效过滤器中。通过嫁接,每个网络可以从其他网络学习外部信息详情见第3节。本文的主要贡献有三:• 我们提出了一种新的学习范式,称为DNN的过滤器嫁接。嫁接可以重新激活无效的过滤器,以提高DNN的潜力,而不会改变网络结构。• 提出了一种基于熵的准则和自适应加权策略,进一步提高了滤波器嫁接方法的• 我们对分类和识别任务进行了广泛的实验,并表明嫁接可以实现分类和识别任务。提高DNN的性能例如,移植的MobileNetV 2在CIFAR-100上实现了78.32%的准确度,这比未移植的MobileNetV 2高约7%。2. 相关工作过滤器修剪。过滤器剪枝的目的是去除无效的过滤器,以加速网络的推理. [9]首先利用L1范数准则对不重要的滤波器进行剪枝。此后,又有更多的标准来衡量滤波器的重要性.[怎么样?]利用谱聚类来决定需要移除哪个滤波器。[19]提出了一种内在的数据驱动的方法,利用主成分分析(PCA)来指定应该保留的能量的比例[21]将子空间聚类应用于特征图以消除卷积滤波器中的冗余。而过滤移植不是放弃无效过滤器,而是打算激活它们。It is worth noting that even though themotivation of filter grafting is opposite to修剪、嫁接仍然涉及选择适当的标准来决定哪些过滤器是不重要的。因此,修剪的不同标准很容易应用于嫁接。蒸馏和相互学习。移植可以涉及并行训练多个网络。这是一个类似于“学习”的过程,也是一个“学习”的过程。接枝和蒸馏之间的区别在于蒸馏是“两阶段”过程。首先,我们需要训练一个大模型(教师),然后使用训练好的模型来教一个小模型(学生)。虽然移植是一个“一步”的过程,但我们在训练过程中移植重量。相互学习与嫁接的区别在于,相互学习需要一个相互损失来监督每个网络学习,并且不能很好地推广到多个网络。而嫁接不需要监督损失,当我们在训练过程中添加更多网络时,表现会更好。此外,我们在每个历元移植的权重,而不是每次迭代,从而大大减少了网络之间的通信成本。RePr[15]类似于我们的工作,考虑在过滤器级别上改进网络然而,RePr的动机是在由网络过滤器捕获的特征中存在不必要的重叠。RePr首先修剪重叠的过滤器以训练子网络,然后恢复修剪的过滤器并重新训练整个网络。从这个意义上说,RePr是一个多阶段训练算法。相比之下,滤波器嫁接的动机是l1范数较小的滤波器对网络输出的贡献较小。因此,每种方法操作的过滤器是不同的。嫁接也是一个更有效的一阶段训练算法为了更好地说明嫁接与上述学习类型的不同之处。我们在表1中绘制一个表格。从表1中可以看出,滤波器移植是一种单阶段学习方法,不需要改变网络结构,也不需要监督损失。3. 过滤器移植本节安排如下:在第3.1节中,我们研究了嫁接过程中所需的信息来源;在3.2节中,我们提出了两个计算滤波器信息的准则;在3.3节中,我们讨论了如何有效地利用嫁接的信息;在第3.4节中,我们将嫁接方法扩展到多个网络,并提出了我们最终的基于熵的嫁接算法。6601我3.1. 嫁接信息源在其余的,我们将原来的无效过滤器称为过滤嫁接的目的是将信息(重量)从接穗传递到砧木,因此选择有用的信息是嫁接的关键。在本文中,我们提出了三种获得接穗的方法。3.1.1作为接穗的一种简单的方法是将高斯噪声N(0,σt)移植到无效滤波器中,因为高斯噪声通常用于DNN的权重初始化[8,3]。在嫁接之前,滤波器具有较小的L1范数并且对输出几乎没有影响。但在移植后,无效过滤器具有较大的l1范数,对DNN的影响开始增大.σt=at(02多个网络嫁接可以在3.4节中找到。网站地图网站地图有效筛选器过滤器相互移植无效网络工作坊3.2.2熵l1范数准则只考虑滤波器权值的绝对值l1范数准则的一个问题是l1范数忽略了权的变化设滤波器每个n ∈ {1,. - 是的- 是的 ,Ni}且k1,k2∈ {1,. - 是的-是的,K},每一个罪-在Wi,j中的角值将是相同的因此,当使用Wi,j为了对输入进行卷积运算,即使α很大,输入的每一部分对输出的贡献也是相等的。因此,滤波器不能区分输入的哪一部分更重要。基于上述分析,我们选择测量权重的变化。我们假设Wi,j的每个值都是从随机变量X的分布中采样的,并使用熵来度量分布。假设分布满足P(X=a)= 1,则Wi,j中的每个单个值都相同,熵为0。虽然计算连续分布的熵是困难的,但我们遵循[18,1]的策略。我们首先将连续分布转化为离散分布。具体来说,我们将值的范围划分为m个不同的bin,并计算每个bin的概率。最后,变量的熵可以计算如下:∑B图3.两个网络之间的连接。 每个网络都接受H(Wi,j)=−k=1pklogpk(4)来自另一个网络的信息。(best颜色显示)3.2. 滤波器和层在这一节中,我们研究了两个准则来计算过滤器或层的信息。3.2.1L1范在前面的章节中,我们使用l1范数来度量滤波器的信息.将Wi,j∈RNi×K×K表示为第i个卷积层中第j个滤波器的权重,其中Ni是第i层中滤波器的数量。其l1范数可以表示为:其中B是bin的数量,pk是bink的概率。较小的H(Wi,j)分数意味着滤波器具有较少的变化(信息)。假设第i层有C个滤波器,则第i层的总信息为:∑CH(Wi)= Hi,j(5)j=1但是(5)的一个问题是,它忽略了滤波器之间的相关性,因为(5)独立地计算每个滤波器的信息。为了保持层的一致性,我们直接计算整个层的权重的熵Wi∈RNi×Ni+1×K×K如下:∑BWi,j∑Ni ∑K ∑K|(三)|(3)H(Wi)=−k=1pklogpk(6)n=1k1=1k 2=1l1范数准则在许多研究中常用[9,23,22].但最近的研究表明,较小的规范不太重要的标准并不总是正确的。一个特殊的情况是,0-1规则排列的过滤器优于所有1过滤器。[5]同时指出了使用小范数不重要准则的前提条件。否则,修剪可能会损害有效的过滤器.与(4)不同的是,(6)中要分箱的值来自整个层的权重,而不是单个滤波器。在补充资料中,我们证明了层的一致性是必要的嫁接算法。3.3. 嫁接中的自适应加权在这一部分中,我们提出了一种自适应加权策略来加权(2)中的两个模型的权重。表示WM1网络工作坊6603LL我我我我L我我我算法1基于熵的多网络嫁接输入:网络数量K,M,k表示第k个网络;层数L;训练迭代N ={1,. - 是的- 是的,N max};每个时期的迭代次数NT;训练数据集D;每个网络的每个层的初始权重{WMk:k= 1,. - 是的- 是的 ,K; l = 1,. - 是的- 是的,L};每个网络{λ k:k = 1,. - 是的- 是的K}。迭代:对于n= 1至Nmax对于k ∈ {1,. - 是的- 是的 K},l ∈ {1,. - 是的- 是的 L}平行do更新模型参数WMk 基于D,λk//在每次迭代时更新模型权重。如果n mod NT= 0从(7)//每个时期的移植模型权重中获得加权系数αW Mk =α W Mk +(1 −α)WMk−1l l l结束if结束for端和H(WM1)分别作为网络M1中的层i的权重和信息。H(WM1)的计算可参考(6)。我们列举了计算系数α需要满足的两个条件。• (2)中的系数α应等于0.5M2 M1如果H(Wi)=H(Wi)且大于0.5,如果H(WM2)> H(WM1)。网站地图我我• 每个网络都应该包含一部分自我信息即使H(WM2)<$H(WM1)或H(WM2)<$我H(W M1).我我图5.与多个网络嫁接 网络MKAC-为配合上述要求,现提出以下适应化修改建议:主动系数设计:α= A(arctan(c(H(W M2)− H(W M1)+0。第五章(七)cepts information from Mk−1. (best颜色显示)3.4. 将嫁接扩展到多个网络其中来自(7)的A和c是固定超参数。α是(2)的系数我们在图4中进一步描绘了一幅图片我们可以看到这个函数很好地满足了上述条件。0.80.70.60.5嫁接方法可以很容易地扩展到多个网络的情况下,如图5所示在训练过程中的每个时期,每个网络Mk接受来自Mk−1的信息。经过一定的训练时间后,每个网络都包含了来自其他网络的信息。加权系数也是自适应计算的从第4.5节中,我们发现通过使用嫁接来训练多个网络,每个网络都获得了很大的性能增益。我们在算法1中提出了基于熵的嫁接。值得注意的是,嫁接是在并行的多个网络上执行的lel,这意味着当我们使用WMk−1来更新WMk时,0.40.30.20.10.0−60 −40 −20 0 20 40 60H(WM2)−H(WM1)L lWMk−1尚未通过嫁接更新。4. 实验本节安排如下:在4.1节中,我们研究了不同的信息来源如何影响嫁接图4.嫁接过程中的适应系数在4.2节中,我们证明了基于熵的嫁接优于基于l1范数的嫁接;在第4.3节中,我们-有效过滤器无效过滤器移植C一濷αNetw奥科·科奇Netw奥科·科奇联网k联网k网络工作坊网络工作坊ି�Netw奥科·科奇6604嫁接时分析训练的多样性;在4.4节中,我们将嫁接与其他学习方法进行了比较:在4.5节中,我们通过使用多个网络,展示了嫁接可以大大提高网络的性能;在第4.6节和第4.7节中,我们研究了闭集分类和开集识别任务的嫁接;在第4.8节中,我们进一步分析了嫁接算法的有效性。所有实验都是可重复的。该代码可根据需要提供,并将在网上发布。4.1. 选择有用的信息源我们在第3节中提出了三种获得接穗的方法,并在表2中的CIFAR-10和CIFAR-100数据集采用无移植的Vanilla DNN训练所有方法都使用MobileNetV2作为基础模型。为了进行公平的比较,每个方法都部署了相同 的 超 参 数 : minibatch 大 小 ( 256 ) 、 优 化 器(SGD)、初始学习率(0.1)、动量(0.9)、权重衰减(0.0005)、epoch数(200)、学习率衰减(每60epoch为0.1)。这里的“外部”涉及并行训练两个网络。在实践中,我们发现每一个网络的性能在因此,在剩余的时间里,我们总是记录第一个网络CIFAR-10CIFAR-100基线92.4271.44噪声92.5172.34内部92.6872.38外部92.9472.90表2.不同接穗来源的比较从表2中可以看出,“内部接穗”的性能而选择外接滤子作为接穗的效果最好。其余的嫁接试验均选用外接滤纸作接穗。4.2. L_1范数熵准则的比较在3.2节中,我们提出了两个衡量滤波器固有信息的准则在这一部分中,我们在CIFAR-10和CIFAR-100数据集上对基于l1结果列于表3中。两个网络用于嫁接,具有相同的模型结构和训练超参数。从表3中,我们可以发现,在每个模型和数据集设置上,基于熵的嫁接优于基于范数的嫁接表3.用l1范数熵比较嫁接。4.3. 嫁接中的培训多样性评价我们发现,当我们增加两个网络的训练多样性时,性能会提高。由于嫁接是在模型之间转移权重,如果外部信息(权重)有更多的变化,网络为了实现这一点,我们可以使超参数设置多样化(在我们的情况下,采样顺序和学习率),以了解这些因素如何影响嫁接性能。结果列于表4中。在不同的LR情况下,为每个模型设置具有不同初始学习速率的余弦退火LR时间表(这确保了在每一步,每个模型的学习速率是不同的)。我们发现,采样顺序和学习率带来的权重变化丰富了嫁接信息,从而鼓励模型更好地学习在剩余的部分中,当执行嫁接时,所有网络在数据加载器和学习率方面使用不同不同顺序不同的LRCIFAR10CIFAR100××93.0571.91✓×93.5373.26✓✓94.2074.15表4.移植的超参数验证主干网是MobileNetV2。4.4. 嫁接与其他方法的我们在表1中深入研究了嫁接和其他学习方法之间的区别在这一部分中,我们在表5中的CIFAR- 10和CIFAR-100数据集上对移植与其他方法进行了实验比较。为了公平比较,“蒸馏”,“相互学习”和“过滤器嫁接”都涉及训练两个网络。蒸馏和接枝之间的区别在于,蒸馏是一个两阶段的训练过程。当执行蒸馏时,我们首先训练一个网络直到收敛,模型方法CIFAR-10CIFAR-100ResNet32基线92.8369.82l1范93.2470.69熵93.3371.16ResNet56基线93.5071.55l1范94.0972.73熵94.2873.09ResNet110基线93.8173.21l1范94.3773.65熵94.6074.70MobileNetV2基线92.4271.44l1范92.9472.90熵93.5373.266605数据集方法ResNet32ResNet56ResNet110MobileNetV2WRN 28 -10基线92.8393.5093.8192.4295.75CIFAR-10蒸馏[6]93.1192.0592.3492.3795.70相互学习[25]92.80–––95.66RePr [15]93.90–94.60––滤过嫁接93.9494.7394.9694.2096.40基线69.8271.5573.2171.4480.65CIFAR-100蒸馏[6]70.9672.0373.3273.3781.03相互学习[25]70.19–––80.28RePr [15]69.90–73.60––滤过嫁接71.2872.8375.2774.1581.62表5.滤波器移植与其他学习方法的比较然后我们用网络,作为一个老师,把知识提炼到学生网络中。为了与嫁接进行公平的比较,教师和学生的网络结构是相同的,这与[25]中的设置一致。而对于光栅,培训是在一个阶段完成的,没有再培训过程。相互学习和嫁接的区别在于,相互学习训练两个具有另一个强监督损失的网络,在使用互学习方法时,应仔细选择互监督损失和主损失的系数。而对于嫁接而言,转移权重不需要监督.利用熵权值对权值进行嫁接,自适应地计算权值系数,提高了计算效率。表5的结果表明,在所有学习方法中,滤波器移植实现了最佳结果。4.5. 多网络嫁接过滤器嫁接的力量在于,我们可以通过在嫁接算法中涉及更多的网络来大大提高性能。我们在表6中检查了多网络接枝的效果。方法CIFAR-10CIFAR-100基线92.4271.442种嫁接方式94.2074.153种嫁接方式94.5576.214种嫁接方式95.2377.086种嫁接95.3378.328种嫁接方式95.2077.766个模型集合94.0976.75表6.与多个网络嫁接(MobileNetV2)。随着网络数量的增加,性能会变得更好。例如,具有6个模型接枝的性能可以比基线高出约7个。过滤器可能学习不足的知识。过滤器嫁接可以帮助过滤器从其他网络中学习互补知识,从而大大提高网络值得注意的是,6个模型嫁接的结果甚至比6个模型的合奏更好。但与集成不同,嫁接只保留一个网络进行测试。然而,当嫁接算法中模型数增加到8时,性能就停滞了我们认为这可能是由于网络接收了过多的外部信息,影响了网络自身的学习信息。如何更好地解释这一现象是一个有趣的未来工作。4.6. ImageNet上的移植为了测试嫁接在更大数据集上的性能,我们还在ImageNet上验证了嫁接,ImageNet是一个拥有超过1400万张图像的图像分类数据集。我们在ResNet18和ResNet34模型上将移植与基线进行基线超参数为了增加训练的多样性,我们在执行嫁接时为两个网络使用不同的学习率和数据加载器。其他超参数的设置与基线一致。表7中的结果表明,移植也可以处理更大的数据集。4.7. ReID任务上的移植嫁接是卷积神经网络的一种常用训练方法。 这样,不仅能使人安心,适用于分类任务,也适用于其他计算机视觉任务。在这一部分中,我们评估了人重新识别(ReID)任务的嫁接,这是分布式多摄像机监控中的开集检索问题,旨在匹配出现在不同非重叠摄像机视图中的人这是一个很大的进步。原因是莫-bileNetV2基于深度可分离卷积,因此1https://github.com/pytorch/examples/tree/master/imagenet66061.00.80.60.4表7. ImageNet数据集0.20.01 1e-1 1e-2 1e-3阈值我们在两个人的ReID数据集上进行实验:Market 1501[26]和DukeMTMC-ReID(Duke)[16,28]。基线超参数设置与[29]一致:minibatch大小(32),预训练(True),初始学习率(0.1),学习率衰减(每20个epoch为0.1),epoch数量(60)。除了数据加载器和学习率外,其他超参数的设置与基线一致。表8显示,对于每个模型和每个数据集,移植的性能优于基线。此外,如前所述,在嫁接中增加网络的数量可以进一步提高性能。图6. l1范数在一定阈值下的滤波器的比率。80090图7.100基线网络的熵和准确性,嫁接网络网络x轴表示在嫁接算法中训练的网络的数量。表8.ReID任务上的移植4.8. 嫁接的效果在这一部分中,我们进一步分析了嫁接法的有效性。为了证明嫁接确实提高了网络的潜力,我们在训练过程后计算了无效过滤器的数量和信息增益。我们选择MobileNetV 2,它是在CIFAR-10上用嫁接算法训练的。选择没有接枝的相同网络结构作为基线。实验结果见图6和图7。从图6中可以看出,在1 e-3的阈值下,大约有50%的过滤器对于基本网络是无效的或不重要的从图7中可以看出,通过嫁接训练的模型比基线包含更多的信息同时,通过对多个网络进行嫁接训练,网络可以获得更多的信息.因此,从上述分析中,我们证实了嫁接可以提高神经网络的潜力。补充材料中载有更多的分析,包括对无效滤波器5. 结论与讨论在这项工作中,提出了一种新的学习范式称为我们认为,有效地应用滤波器移植算法有两个关键点:1)如何选择合适的准则来计算DNN中滤波器的固有信息。2)如何平衡网络间的信息系数.为了解决这两个问题,我们提出了基于熵的准则和自适应加权策略,以提高网络的性能。但这不是唯一的解决办法。可以开发其他标准或方法来进一步改进嫁接算法。从启发式的角度来看,未来的研究方向是:1)如何在嫁接大量网络的情况下提高网络的性能; 2)如何在具有不同网络结构的多个网络上应用嫁接。致谢本工作得到了国家自然科学基金委员会的部分支持(No.61906162),部分由深圳基础-Tal研究基金资助JCYJ20180306172023949,部分由中国深圳市医学生物识别感知与分析工程实验室资助。基线接枝无效的过滤器比率75.1777.4477.3468.6354.1340.11基线2模型3模型4模型6模型8车型92.4294.2094.5595.2395.3395.20信息精度模型方法top-1top-5ResNet18基线接枝69.1571.1988.8790.01ResNet34基线接枝72.6074.5890.9192.05ResNet50基线接枝75.9276.7692.8193.34模型方法Market1501mAP等级1公爵mAP等级1ResNet50基线67.686.756.276.22个型号70.687.860.879.84款车型73.3389.262.179.8MobileNetV2基线56.881.347.671.72个型号63.785.253.476.14款车型64.585.854.376.36607引用[1] Hao Cheng,Dongze Lian,Shenghua Gao,and YanlinGeng.利用信息瓶颈来评估深度神经网络用于图像分类的能力。Entropy,21(5):456,2019.[2] 亚历克斯·格雷夫斯,阿卜杜勒·拉赫曼·穆罕默德,杰弗里·辛顿。深度递归神经网络语音识别2013年IEEE声学 、 语 音 和 信 号 处 理 国 际 会 议 , 第 6645-6649 页 。IEEE,2013。[3] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集,第1026-1034页[4] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[5] 杨鹤、刘平、王紫薇、胡芷兰、易阳。通过几何中值进行滤波器修剪,用于深度卷积神经网络加速。 在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。[6] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。[7] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[8] Siddharth Krishna Kumar.深度神经网络中的权重初始化arXiv预印本arXiv:1704.08863,2017。[9] Hao Li,Asim Kadav,Igor Durdanovic,Hanan Samet,and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv:1608.08710,2016。[10] Shaohui Lin,Rongrong Ji,Chao Chen,Dacheng Tao,and Jiebo Luo.通过知识转移的低秩分解的整体cnn压缩IEEEtransactionsonpatternanalysisandmachineintelligence,41(12):2889[11] William Lotter,Gabriel Kreiman,and David Cox.用于视频 预 测 和 无 监 督 学 习 的 深 度 arXiv 预 印 本 arXiv :1605.08104,2016。[12] Y. Lu,G.卢河,巴西-地Lin,J. Li,and D.张某稀疏重复 群 卷 积 神 经 网 络 。 IEEE Transactions on NeuralNetworks and Learning Systems,2019。[13] 姚璐,光明路,鲍勃张,元荣徐,和金星李。超稀疏卷积神经网络。在AAAI人工智能会议上,第33卷,第4440-4447页[14] Pavlo Molchanov 、 Arun Mallya 、 Stephen Tyree 、 IuriFrosio和Jan Kautz。神经网络剪枝的重要性估计。在IEEE计算机视觉和模式识别会议论文集,第11264-11272页,2019年。[15] Aaditya Prakash , James Storer, Dinei Florencio 和 ChaZhang。Repr:改进卷积滤波器的训练。在IEEE计算机视觉和模式识别会议论文集,第10666-10675页[16] Ergys Ristani , Francesco Solera , Roger Zou , RitaCucchiara,and Carlo Tomasi.多目标、多相机跟踪的性能测量和数据集。2016年欧洲计算机视觉会议[17] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211[18] Ravid Shwartz-Ziv和Naftali Tishby通过信息打开深度神经网络的黑匣子。arXiv预印本arXiv:1703.00810,2017。[19] Xavier Suau , Luca Zappella , Vinay Palakkode , andNicholas Apostoloff.引导网络压缩的主滤波器分析arXiv预印本arXiv:1807.10585,2018。[20] Christian Szegedy , Wei Liu , Yangqing Jia , PierreSermanet , Scott Reed , Dragomir Anguelov , DumitruErhan,Vincent Vanhoucke,and Andrew Rabinovich.更深 的 回 旋 。 IEEE 计 算 机 视 觉 与 模 式 识 别 会 议(CVPR),2015年6月。[21] 王东,周雷,张雪妮,小白,周军。探索特征映射子空间中的线性关系用于卷积网压缩。arXiv预印本arXiv:1803.05729,2018。[22] 何阳,康国良,董宣义,傅彦伟,杨毅。用于加速深度卷积神经网络的软滤波器修剪。在第二十七届国际人工智能联合会议IJCAI-18,2018。[23] Jianbo Ye,Lu Xin,Lin Zhe,and James Z.王.在卷积层的信道修剪中重新考虑较小范数较少信息的假设2018年。[24] 张翔和 杨乐存。从零 开始理解文 本。arXiv预印本arXiv:1502.01710,2015。[25] Ying Zhang,Tao Xiang,Timothy M Hospedales,andHuchuan Lu.深度相互学习。在IEEE计算机视觉和模式识别会议集,第4320-4328页[26] L.郑湖,澳-地申湖,澳-地Tian,S. Wang,J. Wang,and Q.田可扩展的人员重新识别:基准。2015年IEEE国际计算机视觉会议(ICCV),第1116-1124页[27] Xiawu Zheng , Rongrong Ji , Lang Tang , BaochangZhang,Jianzhuang Liu,and Qi Tian.用于有效神经结构搜索的多项分布在ICCV,2019年。[28] 郑哲东、梁铮、杨毅。通过gan生成的未标记在IEEE计算机视觉和模式识别国际会议(CVPR)论文集,第3754-3762页[29] Kaiyang Zhou,Yongxin Yang,Andrea Cavallaro,andTao Xiang.用于人员重新识别的全尺度特征学习。arXiv预印本arXiv:1905.00953,2019。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功