没有合适的资源?快使用搜索试试~ 我知道了~
知识蒸馏通道间相关性研究及其在视觉任务中的应用
8271多样性保持知识提取的通道间相关性研究李柳1†庆乐黄1†思浩林2†‡谢宏伟1王兵1常晓军3* 梁晓丹41阿里巴巴集团2莫纳什大学3皇家墨尔本理工大学4中山大学{liuli.ll9412,qingle.hql,linsihao6,hongwei.xie.90,xdliang328} @gmail.comfengquan. alibaba-inc.com,xiaojun. rmit.edu.au摘要知识蒸馏在将学习到的表征从较大的模型(教师)转移到较小的模型(学生)方面表现出非常有前途的能力。 尽管有许多努力,现有方法忽略了保持特征的通道间相关性的重要作用,导致缺乏捕获特征空间的固有分布和教师网络中特征的足够多样性。为了解决这一问题,我们提出了一种新的知识蒸馏通道间关联(ICKD)方法,利用该方法可以使学生网络和教师网络的特征空间的多样性和同源性保持一致。如果这两个通道彼此不相关,则将它们之间的相关性解释为多样性,否则解释为同源性。然后要求学生在自己的嵌入空间内模拟相关性。此外,我们引入了网格级通道间相关性,使其能够进行密集预测任务。在两个视觉任务上的广泛实验,包括ImageNet分类和Pascal VOC分割,证明了我们的ICKD的优越性,它不断优于许多现有的方法,推进了知识蒸馏领域的最新技术。据我们所知,我们是第一个基于知识蒸馏的方法,使ResNet 18在ImageNet分类上的Top-1准确率超过72%。代码可从以下网址获得:https://github.com/ADLab-AutoDrive/ICKD。1. 介绍人们普遍认为,与较小的网络相比,较大的网络在学习能力方面更优越然而,由于大量的能量消耗和计算成本,大型网络(例如,ResNet-50 [9])虽然功能强大,但很难在移动系统上部署。因此,在减少模型大小的同时,存在越来越多的兴趣。*通讯作者。†同等贡献。‡在阿里巴巴集团达摩院实习时所做的工作图1:通道间相关性的图示。从ResNet18的第二层中顺序提取的通道已经可视化。由红框表示的信道在感知上和数学上都是同源的(例如,内积),而由橙色框表示的通道是多样的。我们表明,通道间的相关性可以有效地衡量每个通道是同源的或不同的其他,这进一步反映了丰富的特征空间。基于这一深刻的发现,我们的ICKD可以强制学生模仿教师的这一属性保持可比较的性能,从而缩小小型网络和大型网络之间的知识蒸馏是解决这一问题的有效方法之一。公认Bucilaet al.[1] 介绍了知识蒸馏的思想和Hin-ton等人的观点。[12]进一步普及了这一概念。知识蒸馏的核心思想是让学生网络模仿教师模型。其基本原则是教师可以提供地面实况实验室无法提供的知识。尽管它的成功,这种技术,投票给实例级分类,可能会导致学生主要学习的实例级信息,而不是结构信息,这限制了它的应用。已经提出了先前的工作[19,20,21,27,28]来帮助学生网络学习结构表示以获得更好的泛化能力。这些方法通常利用核心。8272×× ×× ××实例的关系来描述特征空间中的几何形状、相似性或相异性。我们称这种流行的逐层关系知识蒸馏,因为它们主要关注于在层的水平上探索特征图之间的相关性。相反,我们更关注通道间的相关性。以前的工作[16,25]利用知识蒸馏来减少同源性(即,冗余)的特征空间。尽管如此,Ghost- Net [7]的成功表明小型神经网络受益于增加的特征同源性。丰富的表征可以为下游任务提供动力,多样性和同源性可以反映丰富性。现有文献忽略了特征多样性和同源性的重要性,产生了一个问题,即特征多样性与同源性的比例可能与我们的期望不平衡,即学生可以学习与教师一样丰富的表示以获得更好的概括。在图1中,可视化的特征图显示了特征多样性和同源性在网络中共存。该性质可以通过通道之间的相关性来公开,其中高相关性表示同源性,低相关性表示多样性。在本文中,我们采用通道间相关性(ICC)作为特征分布的多样性和同源性的指标。然而,手动地计算出最佳信道间相关性是不切实际的。一个直观的解决方案是让学生从老师那里学习更好的通道间相关性,如图所示。二、由于学习能力的差异[4],强迫学生模仿教师的整个特征图是不可行的。相反,我们让学生模型从教师那里学习通道间相关性,即通道间相关性知识蒸馏(ICKD)。本文用内积法来估计两个由于内积折叠空间维度,因此自然不需要将教师网络和学生网络的特征图空间大小另一方面,当涉及到大型特征图时,例如语义分割模型,由内积测量的通道间相关性与原始特征空间之间的映射具有高自由度。因此,提取通道间相关性分布以锚定教师的特征空间分布将更加困难。为了缓解这个问题,我们提出了一个网格级通道间相关蒸馏方法。通过划分大小为h的特征图Wc通过预定义的网格变成nm块大小为hG wG c。块级的蒸馏更可控,并且我们可以通过聚合跨这些块的通道间相关性蒸馏来对整个特征图此外,由于每个块都能保持特定区域的知识,因此能保持局部空间信息在我们的实验中,我们在不同的任务中评估了我们提出的方法,包括分类(Cifar-100和ImageNet)和语义分割(Pascal VOC)。所提出的方法显示出优于现有的国家的最先进的方法的性能。据我们所知,我们是第一个将ResNet 18提升到ImageNet分类的Top-1准确率超过72%的知识蒸馏方法。在Pascal VOC上,与基线模型相比,我们实现了3%的mIoU改进。概括起来,我们的贡献是:• 我们引入通道间相关性,利用通道间相关性对空间维度不变性的特点,探索和测量特征的多样性和同源性,帮助学生更好地进行表征学习。• 我们进一步引入网格级通道间的相关性,使我们的框架能够密集的预测任务,如语义分割。• 为了验证所提出的框架的有效性,已经在不同的(a)网络架构、(b)下游任务和(c)数据集上进行了广泛的实验。我们的方法在广泛的知识转移任务中始终2. 相关作品知识蒸馏。由[12]给出,学生网络需要最小化学生和教师输出的logit(在softmax之前)之间的KL散度,其中温度τ被应用于软化logit。该过程使其不同于地面真实标签,将增加logits中的低概率,这被称为暗知识。为了学习更多的通用表示,最近的作品[19,20,21,27,28]探索了教师特征空间内的结构信息,并将其转移到学生。Tung和Mori [28]测量了教师特征空间中给定实例之间的相似性Peng等[21]提出了基于核的相关同余。采用核函数度量特征空间中每对实例的相关性。类似地,要求学生与教师共享相同的相关性度量。RKD [19]进一步引入了角度关系,给出了三个实例。最近,Tianet al. [27]引入了对比学习以最大化学生和教师的表征之间的交互信息。罗梅罗等人[22]提出了在中间层中的蒸馏(即,引导层)和教师(即,提示层)。教导学生最小化特征图的欧几里得距离,从8273ℎLogits层-3YY层-3LogitsCCℎ���⊗���…���’...���层-2层-2X∈∈···KLNKLττ老师学生层-1ICC矩阵ICC矩阵简体中文CE图2:拟议的ICKD说明。我们测量教师特征的通道间相关性,并要求学生共享相同的属性。立方体表示从教师和学生提取的3D特征张量。它们被平坦化为用于计算ICC矩阵的对应的2D矩阵。我们最小化与特征张量相关联的ICC矩阵之间的MSE。学生还被要求最小化教师和学生的逻辑之间的KL分歧。最后将交叉熵损失应用于学生。引导层和提示层。因为包含在特征内的语义信息根据深度和宽度从层到层变化,所以现有工作[15,34,2]已经示出逐层匹配一对引导层和提示层可能不是最佳选择。AT [34]提出了一种统计方法来突出注意力,将3D特征张量压缩到2D特征图。Chen等人[2]提出了语义校准,根据教师层和学生层的内积跨层将目标教师层分配给学生层。Ji等人[15]测量了教师和学生特征之间的相似性,用softmax函数限制为1,这被用作平衡特征匹配的权重语义分割。尽管面临着巨大的挑战,但基于知识提炼的语义切分方法已经被提出。He等人[10]预先训练了一个自动编码器来匹配学生和教师之间的特征,它还测量了教师网络中配对实例的亲和矩阵,并将其传输到学生网络。Liu等[17]提出了由成对相似性转移和像[12]一样的像素蒸馏组成的结构化知识蒸馏Liu等也通过对抗性学习转移整体知识。Wang等人[30]提出了类内特征变化蒸馏,其还测量每个像素的特征与对应的类原型的特征之间的成对相似性。Heo等人”[11]他说。计算跨层的Gram矩阵的求解过程。不同之处在于[13,32]测量了像素位置之间的关系,我们探索了两个通道之间的3. 方法在这一部分,我们首先简要介绍了知识提炼的基本概念。然后,我们制定所提出的方法,以显示我们如何计算ICC矩阵。最后,我们扩展了网格级通道间的相关性的框架。3.1. 初步令N表示基数为N的不同示例的集合。 假设我们有一个教师模型T和学生模型S,分别用fT和fS在实践中,fT和fS可以是任何微分函数,并且我们在这里将它们参数化为卷积神经网络(CNN)。FTRc×h×w表示教师网络中的嵌入,其中c是输出通道数,h和w表示特征图的高度和宽度类似地,设FSRc'×h'×w'表示学生网络中的嵌入。一般来说,传统知识蒸馏试图最小化学生和教师的嵌入之间的差异,以减少学生和教师之间的差异。[12]配方可以描述为:NT SL=1ΣD(σ(f(xi)),σ(f(xi),(1)我们进一步扩展的框架与网格级通道间的相关性,稳定的蒸馏过程和保留的空间信息。也许我们的工作是最接近黄和王[13],利用革兰氏矩阵[6]。Yim等人[32]建议的流程其中DKL(x)测量Kullback-Leibler散度,σ(x)是softmax函数,τ是温度因子,fT(x)和fS(x)分别表示教师网络和学生网络中的倒数第二层(softmax之前)的输出。层-1......使用设计的余量ReLU来提高学生在语义分割上的表现。i=18274F·×个∈×个×个C2(i,j)2F(i,j)F2×× ×CCm,nMn(i,j)= f(F(i,j))·f(F(i,不F 不不不不SSS×个3.2. 制剂在本节中,我们介绍通道间相关性的公式。给定两个通道,相关性度量应返回反映其相关性的值。高值指示同源的,否则是多样的。最终,所有的相关性度量被顺序地收集,以表示信道的整体多样性声道间相关性可以由下式定义:G=K(v(FT),v(FT)),(2)网格掩模其中FT∈Rh×w表示fea的第m个tureMF T,v(·)将2D要素地图矢量化为矢量,其中长度hw,并且K()是测量输入对的相关性的函数注意这个Eq。2返回标量,而不管通道的空间维度如何。这可以用矩阵乘法的方式重写,形成我们的ICC矩阵:GFT =f(FT)·f(FT)T,(3)其中f(FT)Rc×hw使空间维度平坦化。所得到的ICC矩阵具有大小c,c,而不管空间维度h和w。在经验设置[29,10]之后,我们在学生的特征之上添加线性变换层Cl,其由具有11个内核的卷积层和没有激活函数的BN层组成在学生的输出维度c′与教师的输出维度c ′不匹配的情况下,Cl可以调整FS以匹配FT的输出维度c。此过程不会更改空间维度。我们惩罚的L2之间的距离ICC矩阵的学生和老师,让学生获得类似的功能多样性。S$%图3:网格级通道间相关性。我们均匀地将原始特征分成n m个部分,并分别计算它们的ICC矩阵。然后,我们最小化每个配对的ICC矩阵的MSE。训练过程中的模型可能不稳定。出于分治的动机,我们试图分割特征图,然后单独执行知识蒸馏。基于这一思想,我们引入了网格级的通道间相关性。 我们将特征F T均匀划分为n沿着像素位置的m个部分,由FT表示,i=1,2,…n,j=1,2,…M.每个部分都有大小c×hG×wG,其中hG=h/n,wG=w/m。每个LCC =1||GCI(F S)-G||二、(四)部分在补丁级别上呈现语义。每个部件的ICC矩阵如第2节所述单独计算我们将上述方法称为ICKD-C,其3.2. 然后聚合所有ICC矩阵。主要针对图像分类而开发。 最后GT我们的方法的目标由下式给出(i,j)= f(F(i,j))·f(F(i,j))、(6)LICKD−C=LCE+β1LKL+β2LCC,(5)GT其中LCE是交叉熵损失,β1和β2是n m权重因子Ln×m =1Σ Σ||GFT我 JS- G(i,j)|| .( 八)3.3. 网格级通道间相关性由方程式3中,我们简单地将整个3D特征图平坦化为相应的2D矩阵,然后计算ICC矩阵。当进入语义分割时,最终的特征图可能非常大,例如256 128 128.两个通道的相关性由长度为16,384的两个向量的内积生成通常,这两个向量可以被看作是从独立分布中采样的,相关值将具有非常小的量级,这意味着相关结果易受噪声影响。在这种情况下,学生的通道间相关性CCn×m×c22如图所示3,我们使用网格掩码将整个特征均匀地划分为不同的组。不管空间维度的变化,所得到的ICC矩阵的大小总是取决于信道的数量,即,C. 此外,网格划分还有助于提取更多的空间和局部信息,这有利于正确分类像素以进行语义分割[31]。该变体被称为ICKD-S。最后,语义分割的目标被公式化为:LICKD−S=LSeg+αLn×m,(9编码器解码器教师GGℎ...ℎ GGℎCC���…CC���…Y学生Y...GGYY GGYY编码器解码器F、(7)8275)8276LLL×个×× ××× ×表1:Cifar-100测试集中的前1准确度(%)方法分为两组。报告了每种方法相对于传统KD的性能[12为了公平比较,我们还报告了我们的方法没有KL的性能。我们发现我们的ICKD-C优于所有其他方法。方法网络架构WRN-40-2WRN-16-2WRN-40-2WRN-40-1ResNet56ResNet20ResNet110ResNet20ResNet110ResNet32ResNet32× 4ResNet8× 4VGG13VGG8老师75.6173.2674.9273.58−1.3474.08−0.8473.83−1.0973.56−1.3673.35-1.5774.54−0.3872.91−2.0173.68−1.2475.6171.9873.5472.24−1.3072.77−0.7772.43−1.1172.21−1.3372.22−1.3273.45−0.09NA72.24−1.372.3469.0670.6669.21−1.4570.55-0.1169.67−0.9969.63−1.0369.61−1.0570.34−0.3269.95−0.7169.60−1.0674.3169.0670.6768.99−1.6870.22−0.4570.04-0.6369.48−1.1969.25−1.4270.25-0.4270.11−0.5669.53−1.1474.3171.1473.0871.06−2.0272.31−0.7772.69−0.3971.48−1.671.82−1.2672.61−0.4771.89−1.1971.96−1.1279.4272.5073.3373.50+0.1773.44+0.1172.94−0.3972.97−0.3671.90−1.4373.64+0.3172.62−0.7173.30−0.0374.6470.3672.9871.02−1.9671.43−1.5572.68−0.2070.71−2.2771.48−1.572.88−0.1070.20−2.7871.53−1.45香草KD [12][22]第二十二话[34]SP [28]中文(简体)RKD [19]PKT [20]FSP [32]NST [13]ICKD-C(不含LKL)ICKD-C(我们的)75.64+0.7275.57+0.6574.33+0.7974.63+1.0971.76+1.171.69+1.0371.68+1.0171.91+1.2473.89+0.8174.11+1.0375.25+1.9275.48+2.1573.42+0.4473.88+0.9其中,α是权重因子,并且分段是监督分段损失。尽管对于不同的下游任务,分段可以用其他损失来代替,但这不是本文的重点。4. 实验我们评估所提出的模型的有效性上的两个视觉任务:图像分类和语义分割。对于图像分类,我们在Cifar-100和ImageNet上进行了为了验证我们的框架的泛化,我们进一步进行实验的语义分割的大型基准Pascal VOC。4.1. 数据集ImageNet. 这个数据集有大约120万个训练样本,被标记为1,000个类别。对于训练和测试,图像被调整大小为224 224。通常,模型的性能通过Top-1和Top-5分类精度来衡量Cifar-100 该数据集包含50,000个训练图像和10,000个测试图像,标记为100个类别。每个图像的大小为32 32 3。采用Top1分类准确率来衡量模型的准确性。Pascal VOC。该数据集包含20个前景对象类和一个额外的背景类。它有1,464张图像用于训练,1,499张图像用于验证,1,456张图像用于测试。我们还包括来自[8]的粗略注释的训练图像,总共产生10,582个训练图像。我们采用平均交集超过联合(mIoU),以评估所提出的模型的有效性。4.2. 实现细节对于图像分类,全局平均池化层之前的特征图用于蒸馏。我们-在等式中螺旋地设置β1和β25比1和2.5。在Cifar-100上,SGD优化器[26]用于训练学生模型,Nesterov动量和批量大小为64。初始学习率为5e-2,在150、180和210个时期衰减0.1,总共240个时期。在ImageNet方面,我们使用AdamW优化器[18]来训练网络100个epoch,总批量为256。初始学习率在时期30、60和90处为2 e-4减少0.1。对于语义分割,我们提取DeeplabV3+的最后一个BN [14]层上的知识,其特征图大小为256 129 129。等式中的权重α9被设置为20. 所有学生都被训练了100个epoch,批量大小为12。我们使用初始学习率为0.007的SGD优化器。并且学习速率根据余弦退火调度器衰减。4.3. 图像分类Cifar-100的结果。我们在各种网络架构中评估了所提出的方法,包括VGG [24],ResNet [9]及其变体[33]。如表1所示,我们的方法比其他方法有很大的优势。在从WRN-40-2到WRN-16-2的蒸馏设置中,我们实现了75.57%的Top-1准确率,接近教师的表现75.61%。我们还比较了与我们更相关的方法,包括逐层关系[20,28,21,19]和基于Gram矩阵[32,13]的方法,该矩阵测量像素位置之间的关系。在逐层关系知识蒸馏方法方面,我们始终优于所有最先进的方法。例如,在从ResNet56到ResNet20的蒸馏设置中,我们的方法实现了71.69%的准确度,大大超过了第二好的方法。这种一致性证明了特征多样性在知识提取中的重要作用。如可以观察到的,82777570656055VGG13/MobileNetV2ResNet50/MobileNetV2ResNet50/VGG8ResNet32×4/ShuffleNetV1 WRN-40-2/ShuffleNetV1 ResNet32×4/ShuffleNetV2Vanilla KD FiNet AT SP CC RKD PKT NST ICKD-C图4:Cifar-100上不同架构的知识蒸馏。利用与学生完全不同的教师网络进行知识提炼。斜线前的模型是老师,斜线后的模型是学生。我们的方法可以使学生学习更多的一般知识,而不管具体的架构。表2:ImageNet验证集上的Top-1和Top-5准确度(%)。教师网络是ResNet34,学生网络是ResNet18。我们的方法优于其他国家的最先进的显着保证金。用 * 表示的方法不发布Top-5准确度。香草KD [12][34]RKD [19]SCKD* [2]CRD [27]CRD+KDSAD* [15][21]第二十一话ICKD-C(我们的)老师含LKLTop-170.04C70.6870.59C71.34C70.8771.17C71.3871.38C70.74C72.1973.31Top-589.4890.1689.7390.37NA90.1390.49NANA90.7291.42其他技术水平的排名不一致,传统KD [12]在大多数时间排名第二。我们可以说,挖掘逐层特征的关系的贡献小于特征多样性的保证。我们通过在不同的网络架构中进行蒸馏,进一步探索了通道间相关性的潜力,包括MobileNetV 2 [23],ShuffleNetV 1 [35]和Shuf-fleNetV 2 [23](见图4)。理想的知识提炼方法的特点是,它可以转移一般的知识,而不管具体的体系结构。我们发现有些方法甚至使学生的成绩恶化。Cho等人[4]指出,如果学生的学习能力不匹配,他们可能无法赶上教师在采用VGG13作为MobileNetV2的老师的情况下,许多方法都不能提高学生的成绩。当试图单方面引导学生学习教师特征的高反应区域时,情况甚至变得更糟,因为与普通学生相比,AT [ 34 ]下降了相反,由于ICKD-C具有空间维不变性的特点,它可以用于跨体系结构的知识传递,且性能优于其他方法。例如,VGG13的传输层具有与MobileNetV2不同的特征图大小,我们的方法超过第二好的约1%的准确性。ImageNet 上 的 结 果 。 我 们 在 更 大 规 模 的 数 据 集ImageNet上评估了我们的方法[5]。请注意,[19]还应用了旋转、水平翻转和颜色抖动来进行数据增强。与其他作品更 公 平 地 说 , 我 们 选 择 ResNet34 作 为 教 师 网 络 ,ResNet18作为学生网络。结果示于表2中。同样,我们的方法始终优于所有方法的显着保证金。我们的结果是显着的,它首次在现有文献中达到了超过72%的准确率。我们将学生网络和教师网络的ICC矩阵可视化(见图1)。(五)。首先,学生和教师的特征图在通道间相关性和单个通道上的响应方面都显示出很大的然而,经过蒸馏,除了ICC矩阵之外,它们已经变得相似,并且在单个通道上的响应也更接近。根据特征通道的可视化,我们可以说学生可以有效地保留特征多样性,并且与教师具有相似的特征模式。更多结果见附录。4.4. 语义分割语义分割是一个很有前途但计算量很大的应用。然而,基于知识提取的方法很少成功地应用于语义分割。在本节中,我们提出了在知识蒸馏的设置下的Pascal VOC语义分割的实验。具体来说,我们部署ResNet101作为教师骨干网,并转移到学生骨干网ResNet18和MoobileNetV2。选择DeepLabV3+ [3]作为基线模型。语义分割的目标是像素级的分类,这比图像分类更具挑战性。结果显示在表3中。结果表明,我们可以大幅度地提高学生的学习兴趣(从72.07%提高到75.01%),这对提高学生的学习兴趣具有重要意义前1位准确度%8278普通学生ICKD-C教师输入普通学生ICKD-C老师香草学生ICKD-C教师输入Vanilla学生ICKD-C老师图5:特征和ICC矩阵的可视化。我们已经可视化的特征图和相应的四个输入图像从ImageNet测试集中采样。教师架构是ResNet34,学生架构是ResNet18。不失一般性,我们顺序地选择从第4块提取的16个特征图(即,蒸馏层)。实验结果表明,该模型具有与教师相似的特征多样性和模式,证明了学习通道间相关性可以有效地保持特征多样性。表明我们的方法可以学习不同下游任务的丰富表示。特别是,我们的方法弥合了繁琐的老师和劣质学生之间的差距,使其可行的边缘设备上部署分割模型。4.5. 成为更好老师一种假设是,教师越好,我们的学生就越好。这个假设似乎是合理的,但已被证明是不切实际的,因为学生可能无法赶上老师[4]。我们分别使用几个教师网络来训练同一个学生网络(ResNet18),以查看可能的改进。如图6,虽然所有的教师都能给学生带来相当大的成绩增益,但较重的教师不能比较轻的教师始终如一地提示Top-1的准确性。当使用ResNet 101作为教师时,学生可以实现最好的表现(Top-1 72.31%),当采用ResNet 34时,学生可以实现第二好的表现(Top-1 72.19%)除ResNet101外,优于ResNet34的教师不能带来进一步的改进。最好的老师(ResNet152)与其他人相比,无法获得可观的学生模型,这可能是由于他们的通道编号之间存在巨大差异(ResNet152为2048,ResNet18为512)。我们可以说,没有必要使用一个非常繁琐的教师网络进行知识提炼,因为它不能持续地带来进一步的改进,并且在预培训上花费更多的成本。表3:在Pascal VOC的验证集上的mIoU(%)方面的语义分割的性能模型ResNet18MobileNetV2香草72.0768.46KD [12]73.7471.73[22]第二十二话73.3169.23[34]73.0171.39维修[11]73.9871.19ICKD-S(我们的)75.0172.794.6. 消融研究首先,我们研究了线性变换层 Cl对Cifar-100的影响。直观上,线性变换模块可能会阻碍通道间相关性特征特征ICC矩阵ICC矩阵8279前1位准确度%×个L转L×个L×× ××个85×个77知识升华 结果显示,在96表6示出了11线性变换导致94在大多数情况下都是轻微的增益这种现象也是ob-8392由Wang等人提供。[29]其中线性变换81 90在老师和学生之间充当适配器。七九八八其次,我们研究了86中权重因子β2当量五、为了排除LKL(等式1)的影响1)84并分别验证了LCC的有效性,我们设置β17582为零表7中的结果表明,我们的方法在没有将KL加入ImageNet的情况下仍然令人印象深刻(71.59%的Top-1准确率,也超过了表2中的方法)。而且它对β2也非常稳健。我们在不同阶段执行ICC阶段编号由下标指示。当使用单层时,我们的策略是最好的。当多个阶段参与训练时,S3,4达到最佳Top-1准确度(参见表4)。此外,我们还在不同的损失函数和核函数下进行了实验(见表5)。最后,在Sec. 3.3能够带来更多的性能改进。 回想一下,我们把整个特征图分成n个m部分,如果设置为1 1,该变体退化为不含KL的ICKD-C。我们进行了一些实验,在不同的设置下的n m,看看它的效果。 如表8所示,我们提出的没有KL的ICKD-C仍然将student(ResNet 18)提高了2.07%(从72.07提高到74.14),并且在将特征图划分为32个32块之后,它可以进一步将student提高到75.01。通常,对特征图进行网格化可以一致地提高性能,但不是越细越好。再说了越细网 格 意 味 着 更 多 的 培 训 成 本 。 表 9 显 示 了 使 用2×NVIDIA 2080Ti训练分割模型100个epoch的GPU小时成本。表4:ImageNet上不同位置的ICC传输S1S2S3S4(我们的)S1、 4S2、 4S3、 4S1、 2、3、 4Top-170.4970.5070.8772.1672.3172.2072.3372.26Top-589.4789.5389.5990.7590.6790.7190.5590.64表5:不同的损失函数和核函数。损失函数核函数L2(我们的)平滑的L1高斯核多项式核Top-172.16 72.2970.63 72.25Top-590.7589.73 90.805. 结论本文提出了一种知识蒸馏的方法,该方法探索了通道间的相关性,以模拟教师网络的特征多样性。除了图像分类,我们引入了网格级通道间的相关性的语义分割,大多数以前的作品不注意。我们实证证明了所提出的方法对各种网络七三八零七一七八ResNet34 VGG19DenseNet121ResNet50ResNet101 ResNet152教师Top-1学生前1名教师前5名学生前5名图6:同一个学生(ResNet18)在ImageNet上由不同老师指导的准确率(%)。表6:Cifar-100上的消融。老师学生无线性带线性WRN-40-2WRN-16-275.1075.64WRN-40-2WRN-40-173.8774.33ResNet56ResNet2071.7271.76ResNet110ResNet2070.9671.68ResNet110ResNet3273.9073.89ResNet32× 4VGG13ResNet8× 4VGG874.4073.8575.2573.42表7:ImageNet上不同β2β20的情况。21 .一、0二、04.第一章0ACC.71.0971.1771.5971.34表8:在Pascal VOC上在不同的n m设置下的mIoU(%)n ×m1× 1个4× 4个16× 1632× 32ResNet1874.1474.9774.7475.01MobileNetV272.1072.2672.7972.58表9:在Pascal VOC上不同的n×m设置下的训练成本(GPU小时数)n ×m1× 1个4× 4个16× 1632× 32ResNet1825.825.931.8157.4MobileNetV224.524.730.4155.9架构,并在两个视觉任务(图像分类和语义分割)中实现最先进的技术。此外,所提出的ICC矩阵的计算是不变性的特征空间维度,并能够提取跨不同的网络架构的通用知识。确认这 项 工 作 得 到 了 “ 浙 江 省 领 先 创 新 团 队 ”(2018R01017)和澳大利亚研究理事会(ARC)发现早期职业研究者奖(DECRA)DE190100626的资助前5名准确度%91.8491.9792.8693.5590.7290.6190.6690.9390.7978.3177.3774.4376.1373.3172.1972.0171.9172.1772.3171.868280引用[1] 克里斯蒂安·布西卢阿、里奇·卡鲁阿纳和亚历山德鲁·尼古列斯库-米齐尔。模型压缩。第12届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第535-541页,2006年。一个[2] 陈德芳,梅建平,张业良,王灿,王哲,闫峰,陈春。跨层蒸馏与语义校准。ArXiv,abs/2012.03236,2020。三、六[3] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页,2018年。六个[4] J. H. Cho 和 B 哈 里 哈 兰 论 知 识 升 华 的 功 效 。 2019IEEE/CVF计算机视觉国际会议(ICCV),第4793-4801页,2019年。二六七[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。六个[6] 利昂·A Gatys,Alexander S. Ecker和M.贝丝使用卷积神经网络的图像风格转换2016年IEEE计算机视觉和模式识别会议,第2414-2423页,2016年。三个[7] 韩凯,王云鹤,Q.Tian,Jianyuan Guo,Chunjing Xu,and C.徐Ghostnet:廉价操作带来更多功能。2020年IEEE/CVF计算机视觉和模式识别会议(CVPR),第1577-1586页,2020年。二个[8] BharathHariharan,PabloArbel a'ez,LubomirD. Bourdev,Subhransu Maji,and Jitendra Malik.从反向检测器的语义轮廓2011年计算机视觉国际会议,第991-998页,2011年。五个[9] 何开明、X. Zhang,Shaoqing Ren,and Jian Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议(CVPR),第770-778页,2016年。一、五[10] Tong He , Chunhua Shen , Thi Tian , Dong Gong ,Changming Sun,and Youliang Yan.知识适应有效的语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第578-587页,2019年。三、四[11] 作者:Byeongho Heo,Jeesoo Kim,Sangdoo Yun,H.帕克,N. Kwak和J.崔对特征提取的全面检修。2019年IEEE/CVF计算机视觉国际会议(ICCV),第1921-1930页,2019年。三、七[12] 杰弗里·E Hinton、Oriol Vinyals和J. Dean.在神经网络中提取知识。ArXiv,abs/1503.02531,2015。一、二、三、五、六、七[13] 黄泽浩和王乃艳随你喜欢:通过神经元选择性转移进行知识提取.arXiv预印本arXiv:1707.01219,2017。三、五[14] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上,第448-456页。PMLR,2015. 五个[15] Mingi Ji、Byeongho Heo和S.公园显示、参加并提取:通过基于注意力的特征匹配进行知识提取。ArXiv,abs/2102.02973,2021。三、六[16] Seung Hyun Lee,Dae Ha Kim,and Byung Cheol Song.基于奇异值分解的自监督知识提取。在欧洲计算机视觉会议(ECCV)的会议记录中,第335-350页,2018年。二个[17] Yifan Liu , Ke Chen , Chris Liu , Zengchang Qin ,Zhenbo Luo,and Jingdong Wang.结构化知识提炼用于语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第2604-2613页,2019年。三个[18] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv:1711.05101,2017。五个[19] Wonpyo Park,Dongju Kim,Yan Lu,and Minsu Cho.相关知识的提炼。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第3962-3971页一、二、五、六[20] N. Passalis和A.特法斯通过概率知识转移学习深度表示在ECCV,2018。一、二、五[21] 彭宝云,肖金,刘家恒,周顺风,Y.吴先生,Y. Liu,Dongsheng Li,and Z.张某知识提炼的关联同余法。2019年IEEE/CVF国际计算机视觉会议(ICCV),第5006一、二、五、六[22] A. Romero,Nicolas Ballas,S.放大图片作者:C.Gatta和Yoshua Bengio Fitnets:薄而深的网的提示。CoRR,abs/1412.6550,2015。二、五、七[23] Mark Sandler,A. Howard,朱梦龙,A. Zhmoginov,and Liang-Chieh Chen. Mobilenetv2:反演残差和线性瓶颈。2018年IEEE/CVF计算机视觉和模式识别会议,第4510-4520页,2018年。六个[24] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功