没有合适的资源?快使用搜索试试~ 我知道了~
2319Σ不(f /)的情况。理解混淆在知识蒸馏中的作用:实证研究Hongjun Choi,Eun Som Jeon,Ankita Shukla,PavanTuraga Geometric Media Lab亚利桑那州立大学亚利桑那州立大学电气、计算机与能源工程学院hchoi71@asu.edu,ejeon6@asu.edu,ashukl20@asu.edu,pturaga@asu.edu摘要Mixup是一种流行的数据增强技术,基于通过在两个给定数据样本之间进行线性插值来创建新样本,以提高训练模型的泛化性和鲁棒性。另一方面,知识蒸馏(KD)广泛用于模型压缩和迁移学习,其涉及使用较大网络的隐式知识来指导较小网络的学习。乍一看,这两种技术似乎非常不同,然而,我们发现尽管已经提出了许多混淆变体和蒸馏方法,但关于混淆在知识蒸馏中的作用仍有在本页中-已经提出了诸如混合增强[38,35]和知识蒸馏[8]的方法。 具体地说,混淆[38]是一种常用的数据增强技术,基于使用样本及其标签的凸组合。引入这种技术是为了提高泛化能力,以及增加对对抗性示例的鲁棒性。最近,人们越来越关注在保持可比较性能的同时减小模型大小,这缩小了大型网络和小型网络之间的差距。KD是满足这一需求的有前途的方法之一[8]。KD的目标是利用从较大的模型中学习简明知识表示(logit或特征)的能力,然后将这些知识嵌入到较小的模型中。例如,在图像分类中,深度神经网络通过使用softmax函数将logitfi转换为概率pi,通过com-因此,我们提出了一个详细的实证研究,对各种重要的,混合物和知识之间的兼容性的可变尺寸将fi与其他logits配对如下:pi=exp(fi/T)jjT边缘蒸馏我们还通过广泛的分析,可视化和图像分类的综合实验,根据知识蒸馏,仔细检查了用混合训练的网络的行为。最后,根据研究结果,我们提出了改进策略,以引导学生网络提高其有效性。此外,本研究的发现为通常使用KD技术的研究人员和从业人员提供 了 有 见 地 的 建 议 。 我 们 的 代 码 可 在https://github.com/hchoi71/MIX-KD上获得。1. 介绍深度神经网络在广泛的任务上取得了令人印象深刻的表现,包括语言翻译[30,26],图像分类[34,6]和语音识别[2,19]。为了进一步提高模型在传统的知识蒸馏[8]中,温度用于在输出类中生成伪概率的更软分布,其中较高的温度增加输出的熵,从而为学生模型提供更多的学习信息。动机:从表面上看,mixup和KD是非常不同的,然而,我们发现“平滑”是两者之间的连接纽带,也是理解KD与mixup相互作用的一个非常重要的直觉上,KD涉及学生模仿教师的平滑概率分布,而mixup通过标签的线性组合在模型中人为地引入平滑性(标签不是严格的独热)。虽然混合增强和KD是各种应用中训练网络的常见技术,但两者之间的相互作用尚未得到很好的探索。在本文中,我们详细研究了混淆增强对知识提取的影响。为了深入了解一些有趣的行为,2320不不型号:RN110V-Score:0.9592产品编号:RN56V评分:0.8256Mix-S:RN110V-得分:0.7244混合-S:RN 56V评分:0.5908宝贝男孩女孩男人女人KD,T=1T:RN110S:RN56V评分:0.7884KD,T=8T:RN 110S:RN56V-评分:0.6978KD,T=20T:RN110S:RN 56V-评分:0.6579图1.从倒数第二层提取的CIFAR100的特征表示在这里,我们只说明了训练集,因为学生和教师网络是在同一训练集上训练的在第一行中,我们观察到更高容量的模型(ResNet110显示为RN110)比ResNet56(RN56)在每个类中促进了更紧密的聚类(更高的V分数)同时,混合训练的模型(Mix-S:RN 110和Mix-S:RN 56)分散了相同实例的特征。该图的第二行显示,以KD为单位的温度升高对投影具有类似的影响,导致分散的特征表示。在这里,表示每个聚类的平均点。下表显示了相应的测试准确度。最好用彩色观看。网络,我们提供各种可视化功能和logit水平。例如,为了分析mixup如何在每个类之间强制执行特征表示,我们从CIFAR100数据集中挑选了5个语义相似的类(婴儿、男孩、女孩、男人和女人)。然后,我们将从倒数第二层提取的特征投影到2-D使用tsne [29],如图1所示。 的第一行该图表示具有混合(Mix-S:ResNet 110或Mix-S:ResNet 56)和不具有混合(S:ResNet 110或S:ResNet 56)的从头开始训练的两个网络的特征表示。一般来说,我们观察到较高容量的模型(S:ResNet110)鼓励深度网络学习每个类中的紧密投影,而较低容量的模型(S:ResNet56)学习更多的扩散投影。这也可以通过聚类度量来验证,例如V分数[21],其中较高的值意味着更好的聚类。有趣的是,与没有混合的训练模型相比,混合训练模型将特征分散在类似的类中同时,当使用更高的温度时,我们从蒸馏模型中发现了类似的特征表示观察结果(即,蒸馏出更软的logit),如图1的第二行所示。从图1中的表,高温是一个默认的选择,以提高性能。通过这种方式,教师将更多的信息传递给学生,即使更高的温度表面上促进了类似班级中的特征分散。然而,将高质量的监督转移到学生网络也是至关重要的,因为它可以引导学生从上级教师网络学习区分性表示因此,我们寻求一种方法来增加从教师到学生的监督信号,而不影响性能。这就是mixup提供前进方向的地方。简而言之,我们洞察的关键是,如果一个老师使用mixup中的平滑数据进行训练,然后可以避免在蒸馏过程中的高温下进一步“平滑”。这确保了更强的监督信号,同时通过混合享受数据集增强的好处。我们将我们的贡献总结如下:1. 我们提供了新的见解,设计改进的策略,学习学生模型,通过更深入地了解的行为的功能/logits和网络工程训练与混淆期间KD。2. 为了减少选择适当“温度”的关键性保存类间的相关信息,从而不再使用温度T3. 我们发现,强内插混合对对logits施加额外的平滑度,因此我们可以在一个批次中仅生成几个混合对,称为部分混合(PMU),但在KD中使用此变体实现了相当甚至更好的性能。2. 背景我们首先通过一个简单的数学描述介绍了混淆和KD的背景。 给定训练数据D ={(x1,y1),., (x n,yn)},类的目标-分类任务是通过映射学习分类器f:X →Rk2321L∼∈- -∈X <$∈Y{}ΣΣE不L不不输入xRd以标记y=1,2,...,K. 令(f(x),y)为损失函数,用于度量分类器f(x)对标签y的预测有多差。混合增强[38]在混合增强中,两个通过线性插值将样本混合在一起:x∈ij(λ)=λxi+(1λ)xj,y∈ij(λ)=λyi+(1λ)yj,其中λ[0,1]遵循分布Pλ,λ β(α,α)。然后,混淆损失函数可以描述为:nn图2. Student(固定RN56)在CIFAR100上测试准确度L混合(f)=1n2i=1j=1λPλ[L(f(x)ij(λ)),yij(λ))]、(1)在不同的教师网络下,=4。 在这里,T和S代表标准教师和标准学生。Mix-T和Mix-S是混合训练的教师和混合训练的学生,其中表示本研究中的交叉熵损失函数。具体地,等式1中的超参数λ用于指定混合的程度。换句话说,beta分布中的控制参数α命令特征-目标对之间的插值强度,即,高α生成强插值样本。已经提出了相当数量的混淆变体[31,35,11]。这些基于混合的方法的一般策略本质上是相似的,因为它们通过混合图像并按比例混合它们的标签来扩展训练分布因此,在本研究中,我们只关注常规混淆,以研究混淆与知识蒸馏之间的相互作用[38]。知识蒸馏[8]在知识蒸馏中,预先给定数据集上的预先训练的教师模型fT,通过利用由fT生成的简明知识在相同的数据集上训练学生模型fS。具体地,一旦教师网络被训练,其参数在KD中的训练期间被冻结,然后,通过最小化其输出与教师网络生成的软标签之间的相似性为此,我们最小化学生和教师的logits之间的差异如下:分别与标准教师模型相比,混合培训的教师指导的是表现较差的学生,而能力较低的教师模型通常会提炼出表现较差的学生。KD过程。本研究跨越两个层面,试图通过综合的实证分析,提出兼容与不兼容的观点。此外,根据观察,我们建议一个更好的学习策略,以提高网络3. Mixup和KD相互作用的主要发现在本节中,我们将讨论我们的主要发现。我们首先参考图2。在这里,我们描述了四种可能的情况,其中混合增强可能涉及KD如下;标准教师和标准学生(T&S)、混合训练的教师和标准学生(Mix-T& S)、混合训练的教师和混合训练的学生(Mix-T& Mix-S)、以及标准教师和混合训练的学生(T& Mix-S)在相同温度下,4. 我们将学生模型固定为ResNet 56(RN 56),并评估-通过改变ResNet20(RN20)的教师模型来使用它ResNet110(RN110)如图2所示,我们可以观察到两点:nT SL(fT,fS)=1<$KL(S(f(xi)),S(f(xi)(2)首先,学生的表现与一个混乱的帮助kdni=1T T受过训练的教师(混合T S,混合T混合S)总是显示出比标准教师的帮助更低的有效性其中,S表示softmax函数,KL测量Kullback-Leiber散度,并且输出由温度平滑的模型的logits。最近,一些工作已经利用数据增强并取得了有希望的结果,因为增强的样本使网络能够从蒸馏框架中的不同视图学习放松的知识[33,32,12]。在广泛可用的方法中,它们通常不能提供对模型内部工作的洞察。同时,最近的作品[15,23]研究了KD相反,我们感兴趣的是光增强的基本机制,(T S,T Mix-S),即使混合训练的教师本身比没有混合训练的教师表现出更好的测试准确性。第二,一般来说,较高能力的教师模型提取出较好的学生,但对于较低能力的教师(T:RN44 S:RN56),与普通学生模型相比,学生表现仍显示基于这些观察,本文旨在研究以下问题:1)为什么混合训练的教师模型会损害学生在 KD 中 的 有 效 性 ? 我们将 在 章 节 中 回答这个问题3. 那么,2)在混合增强的情况下,如何提高知识提取的有效性?我们将在第4节讨论这个问题。2322不无KD列车组特征表示V-ScoreT:ResNet110 T:ResNet20S(无KD)婴儿男孩海狸苹果Mix-S(无KD)TS女孩水族馆鱼无KD Mix-T:ResNet110 Mix-T:ResNet20混合TS人火箭Mix-S女龟TMix-S图3.具有各种组合的倒数第二层的特征表示(T:标准教师,S:标准学生,Mix-T:mixup训练的教师,Mix-S:mixup训练的教师)和CIFAR 100数据集上相应的V分数我们选择了两个组,语义相似的类(婴儿,男孩,女孩,男人和女人),和语义不同的类(海狸,苹果,观赏鱼,火箭和海龟)。在这里,特征是从学生网络中提取的。观察1)混合增强鼓励来自相似类的样本的特征被分散,同时它仍然很好地保留了不同类中的特征可分性。观察2)使用较低准确度的教师网络使学生能够通过较少区分的特征进行学习,从而降低KD的性能。观察3)在混合训练的教师存在的情况下,特征表征的分散破坏了教师监督的益处。表示每个聚类的中心点。最好用彩色观看。观察1)混淆与非混淆。为了研究使用混合增强训练的网络的效果,我们选择了一些类并将它们分为两组:(1)语义不同的类(Beaver、Apple、AquariumFish、Rocket和Turtle)和(2)语义相似的类(Baby、Boy、Girl、Man和Woman),全部来自CI-FAR 100。例如,在图3中,左图示出了列车集上的倒数第二层的特征表示。如果我们看一下红色圆圈中的数字1,来自类似类的混合训练模型的投影更加分散,而不同类的投影仍然在其结构中保持良好。这种信息损失也可以通过聚类度量来测量,图的右侧直方图上的V分数,导致相似类的V分数急剧下降观察2)从低精度教师模型中提取。如果学生网络被解决,保留监督的优良质量(即,教师网络的性能)对于培养更好的学生至关重要。如红色圆圈中的数字2所示,具有较低准确度教师的学生的投影明显分散,V分数显著下降,最终损害了学生这意味着更好的学生是在高能力教师提供的可辨别特征的帮助下提炼出来的。观察3)从混合训练的教师网络中提取。观察结果1)表明,混合训练的模型将特征分散在相似的类中。现在我们来看一个受过混合训练的教师将知识传达给学生的案例。在KD中,由于学生和教师模型在同一训练集上训练,因此我们认为在混合训练的教师的监督下训练由于特征分散,不能利用学习高级知识。如图中的数字3所示,学生网络中类似类的特征表示最终变得更加分散,并且训练集和测试集的V分数我们在补充材料中提供了训练集和测试集的可视化。观察4)和5)Logit表示。与观察1)-3)中显示的特征表示不同,我们进一步可视化了学生网络的概率分布首先,我们对CIFAR100的训练和测试中所有类别的概率进行平均,并说明属于同一类别的示例的平均分布,以显示模型对该类别的预测。为了与定量测量进行比较,我们还提供了在图4中的所有示例中计算的熵值越高,分布越平滑。在这里,我们观察到两个有趣的现象;观察结果4)混合训练的模型产生较软的输出对数,由训练集和测试集中的短红色条说明。从这一观察,我们推测,在KD中训练学生所涉及的混淆增强有助于logits的额外平滑。此外,在温度=4的相同设置下,从标准教师学习的学生在准确性方面优于混合训练的教师(74.98%对73.92%和71.78%对70.60%)。总之,当从一个受过混合训练的教师那里提取时,使用高温会对学生的准确性产生不利影响。观察5)当由低准确性教师(T:RN20)产生的劣质知识转移到学生时,学生的信心水平不同的类相似类23230.91.00.90.80.70.60.50.40.31.00.91.00.90.80.70.60.50.40.31.0宝贝男孩 女孩男人女人宝贝男孩 女孩男人女人不不→→不→训练集测试集0.80.80.70.70.60.60.50.50.40.40.30.3图4.以下配置的概率分布:有/没有混合训练的模型(S:RN 56/Mix-S:RN 56),在不同能力教师的帮助下训练的标准学生模型(T:RN 110& S:RN 56,T:RN 20& S:RN 56),以及在不同混合训练的教师存在下用混合训练的学生模型(Mix-T:RN110 &Mix-S:RN 56,Mix-T:RN 20 &Mix-S:RN 56)。我们在左边显示了CIFAR100中五个相似类的平均分布,并提供了所有示例的平均准确度和熵值。观察4)当模型使用混合训练时,两组预测的置信度都降低了(也通过更高的熵值验证观察结果5)此外,在从低能力教师中提取的情况下,预测的置信度远低于从高能力教师中提取的模型。最好用彩色观看。如在两组上的灰色条中所见,预测显著下降,导致两种情况下的测试准确度的显著降低(74.98% 71.78%,73.92% 70.60%)。它这意味着将良好的监督质量转移给学生对成功的知识蒸馏至关重要。观察结果6)在低温下混合T S。从ob-objective 5),虽然增加被认为有助于产生KD的更好的表示,但我们注意到,在混合训练的教师存在的情况下,增加可能对KD的性能产生不利影响,因为logit中的特征分散/过度平滑。在这一点上,人们可能会产生以下问题。如果我们降低温度来减少logit的平滑度呢?混合TS,T=4混合TS,T=1图5.使用热图表示的可视化。当从混合训练的教师(混合T)在更高的温度下蒸馏时,它将劣质知识转移给学生。在较低的温度=1的情况下,它产生更好的学生,覆盖热图中相对高精度的区域。为了研究温度对KD测试性能的影响程度,我们将测试准确度可视化为图5中在这个图中,我们探索了混合训练的教师和学生的所有左侧面板该图的显示了设置T=4时的测试精度右图是T=1的情况。我们注意到当一个较低的温度越高,使得logit不那么平滑,则传递给学生的知识质量越好。这一结果表明,在高温下受过混合训练的教师的知识使学生模型不那么有效。4. Mix-KD的有效学习策略根据我们的发现,我们观察到logit的平滑度是蒸馏的关键属性,如图5所示。由于从学生的角度很难测量合适的光滑度,许多蒸馏方法严重依赖于简单的蛮力搜索来找到合适的温度。为了减少选择合适的温度和减轻过度光滑的强烈混淆的关键,我们引入了一个有效的学习策略,以提高KD的性能。部分混淆。β分布中的控制参数对解释强度起着关键的控制作用,同时也影响着输出的软化程度。作为α1,它提供更软的输出对数。然而,在避免过度平滑以及在知识提取中对对抗性攻击的鲁棒性的改进。为了缓解这个问题,我们建议只生成少量用于训练的混合对例如,PMU=10%是指在一个批处理中仅使用10%的混合对,其余的保持不变。为了进一步理解部分混淆如何影响输出概率的行为,我们在补充材料中提供了使用2个类的玩具重新缩放的logits。在这里,我们建议使用标准偏差作为温度,这样网络输出层产生的logit通过除以该logit的标准偏差来重新缩放,从而温度T为2324·λ不再是超参数这种方法可以在不破坏类间相对结构的前提下,使教师和学生逻辑数之间两个不同的统计特性达到相近的范围。我们强调重新标度logit的重要性,因为来自beta分布的随机混合部分λ因此,我们将输出logit替换为重新缩放的logit,损失函数变为如下:nS T5. 实验在这一节中,我们提出的实验结果来验证我们的理论和发现。在前一节中,我们注意到:(1)在相同温度下,与没有混淆的教师相比,受过混淆训练的教师产生了更低的在KD中,只有当混合训练的教师为学生提供了进一步的好处,例如更好的知识和额外的鲁棒性时,混合增强才对教师有用通过L(f<$T,f<$S)=1<$KL(S(f(xi)),S(f(xi),(3)kd rn i=1σ(fS(xi))σ(fT(xi))我们的分析,我们看到,使用的预期效果,混合培训的教师并不令人满意。 因此,我们认为,我们其 中 f=f/σ ( f ) , S 表 示 softmax 函 数 , KL 是Kullback-Leibler散度,σ()是输入logit的标准偏差。那么,KD学员的最终培训目标如下:minE(x,y)<$DEλ<$P[γkdLmix(f<$S)+αkdLkdr(f<$T,f<$S)],(4)其中γkd和αkd是平衡参数。注意,PMU中的部分量的超参数在该等式中未被省略。图6.在CIFAR100上测试了不同α组态和不同混淆对数量下的精度。报告的准确度为3次运行的平均值。α 和PMU的 选择 。此外, 我们研究了 每个超参数(PMU中的部分量和控制参数α)如何影响CIFAR 100数据集上T:RN 110和Mix-S:RN 20组合下的KD学生表现。我们通过在[0 . 05]范围内改变部分量的程度从10%到80%,并使用不同的控制参数来评估学生的表现。2,0。四,零。七,一。0]。图6表明,在这种情况下,具有高α的PMU在α=1的FMU(使用完全混合对)中观察到最低性能。0的情况。我们注意到,PMU并不一定旨在优于FMU,但它起着调节作用,调整平滑精细,从而帮助我们理解KD平滑的效果。我们在5.1节中介绍了性能分析,并在5.3节中进一步研究了部分混淆如何响应对抗性攻击。使用经过培训的教师进行我们的实验,即,T Mix-S.5.1. CIFAR100 ImageNet上的图像分类对CIFAR-100的实验:表1比较了各种蒸馏方法的top-1准确度,并评估了教师-学生的各种网络选择。表1的前两行表示利用如下网络的许多不同的师生组合:宽残差网络(Wd-w)[37],其中d和w分别表示网络中的深 度 和 宽 度 , MobileNetV 2 ( MN 2 ) [22] 、ShuffleNetV 1 ( SN 1 ) [39]/ShuffleNetV 2 ( SN 2 )[14]、VGG(VG)[24]和ResNet(RN)[5]。所有 模型训 练240个epoch,学 习率为 0.05,150epoch后每30 epoch衰减0.1。平衡参数γkd和αkd为0.1,0.9对于所有设置,分别。在表1中,我们报告了四种不同设置的结果,无混淆的蒸馏模型(无混淆),有PMU的蒸馏模型(α=1时为10%和50%),以及有完整PMU的蒸馏模型。混合(FMU,α=1)。 如表1所示,学生接受PMU培训的人始终优于接受培训没有混淆。令人惊讶的是,在某些情况下(例如,T:W 40 - 2 S:W16-2和T:W 40 -2 S:SN 1),我们的学生与PMU培训的表现优于教师。ImageNet上的实验:表2显示了ImageNet上的top-1准确 度 [3] 。 在 这 个 实 验 中 , 我 们 选 择 ResNet34 和ResNet18 [5]分别作为教师网络和学生网络。我们训练模型100个epoch,初始学习率为0.1,在30,60和80个epoch时衰减0.1。 批量大小设置为256。 为了与其他蒸馏方法进行比较,其他方法的超参数遵循各自的论文。平衡参数γkd和αkd分别为0.1和0.9,我们报告了10%和100%的部分混淆(FMU)。我们观察到,所提出的方法与完全混合提高了2.07%和1.56%的前1名和前5名的准确性超过基线和完全混合显示出更好的性能比10%的部分混合。我们将在下一节中讨论性能分析:根据表1,在一些2325∗∗表1. CIFAR-100测试用几种蒸馏方法训练的学生网络的准确度(%)。除此之外,其他蒸馏方法的结果引自[27]。最佳和次佳结果以粗体和红色突出显示。是根据作者提供的代码用我们的实现来执行的。师生公司简介公司简介RN56RN20RN110RN20RN110RN32RN32×4RN8×4VG13VG8VG13MN2RN50MN2RN50VG8RN32×4SN1RN32×4SN2W40-2SN1师生75.6173.2675.6171.9872.3469.0674.3169.0674.3171.1479.4272.5074.6470.3674.6464.679.3464.679.3470.3679.4270.5079.4271.8275.6170.50[8]第八话74.9273.5470.6670.6773.0873.3372.9867.3767.3573.8174.0774.4574.83[20]第二十话73.5872.2469.2168.9971.0673.5071.0264.1463.1670.6973.5973.5473.73[第36话]74.0872.7770.5570.2272.3173.4471.4359.4058.5871.8471.7372.7373.32SP[28]73.8372.4369.6770.0472.6972.9472.6866.3068.0873.3473.4874.5674.52CC[18]73.5672.2169.6369.4871.4872.9770.7164.8665.4370.2571.1471.2971.38VID[1]74.1173.3070.3870.1672.6173.0971.2365.5667.5770.3073.3873.4073.61RKD[16]73.3572.2269.6169.2571.8271.9071.4864.5264.4371.5072.2873.2172.21[第17话]74.5473.4570.3470.2572.6173.6472.8867.1366.5273.0174.1074.6973.89英国[7]72.5072.3869.4769.5370.9873.1770.9466.0667.2070.6573.5574.3173.34《金融时报》[10]73.2571.5969.8470.2272.3772.8670.5861.7860.9970.2971.7572.5072.03NST[9]73.6872.2469.6069.5371.9673.3071.5358.1664.9671.2874.1274.6874.89CRD[27]75.4874.1471.1671.4673.4875.5173.9469.7369.1174.3075.1175.6576.05ICKD国际会议 [13]75.6474.1871.5671.2973.4974.7873.3668.6168.6573.4374.9675.3476.18我们的(没有混淆)75.3873.7071.8571.6173.6075.4672.9267.3767.7273.1073.3875.0675.09我们的(PMU=10%)76.0674.4272.0971.9474.0776.8773.6068.5269.5574.2975.8977.0676.78我们的(PMU=50%)75.8774.6971.8071.7873.9777.1374.0069.1469.6974.6176.8377.6077.18我们的(FMU)75.6973.3470.9870.9973.4877.2573.8468.8169.8074.5077.1777.9277.00表2.ImageNet验证数据集上的Top-1和Top-5准确率(%)与各种知识蒸馏方法的比较老师学生[8]第八话[第36话]RKD[16]SP[28]CC[18]CRD[27]我们的(PMU=10%)我们的(FMU)Top-173.3169.7570.6670.7070.5970.7969.9671.1771.3871.82Top-591.4289.0789.8890.0089.6889.8089.1790.1390.4090.63在教师-学生组合中,我们观察到添加更多的混淆对比少量的对帮助学生实现更高的准确性。此外,对于不同的体系结构风格,在某些情况下,使用完全混合优于其他方法。从这一观察结果可以推断,来自不同体系结构的网络试图寻找它们的解决方案路径,这意味着教师和学生在logit中具有不同的分布,因此,通过强增广引起的额外平滑度可能会为学生提供关于不同风格的教师如何表示知识的额外信息。此外,在ImageNet具有大量类的情况下,与CIFAR-100相比,通过两个混合图像及其标签学习的生成知识可能会产生相对较少的信息性知识,因此在这种情况下,完全混合的强大平滑性有利于提取更好的学生模型。虽然我们详细介绍了性能是由平滑度控制的,但是应该在数据集或网络之间施加多少精确的平滑度仍然是一个悬而未决的问题,可以为未来的进一步工作奠定基础。5.2. 对抗性示例训练模型的一个不可取的后果是它们对对抗性示例的脆弱性[4]。对抗性的例子是通过添加微小的(视觉上看不出来的)扰动来制作的,表3.针对白盒攻击的分类精度,每个像素具有不同的干扰。 所有方法都是在完全混合(α= 0)的情况下训练的。2)和我们的蒸馏训练与部分混合只有10%(α=1。CIFAR100上。FGSMEPS香草(+mixup)KD(+mixup)ICKD(+mixup)CRD(+mixup)我们0.069.14(69.42)70.36(70.65)71.03(69.25)72.010.00161.14(63.18)64.25(65.02)64.74(64.59)64.09(63.98)68.920.00348.80(51.92)52.98(54.98)52.91(53.25)62.210.00539.00(42.59)44.13(46.28)43.99(44.20)55.890.0123.25(27.61)29.89(32.29)29.50(31.96)29.75(29.09)44.10I-FGSM0.069.14(69.42)70.36(70.65)71.03(69.25)72.010.00161.57(63.03)64.08(64.85)64.58(64.45)63.91(63.92)68.910.00346.79(50.55)51.43(53.56)51.39(51.80)61.530.00534.05(39.19)39.96(42.99)39.94(42.97)40.02(40.78)53.930.0113.28(18.58)19.71(23.12)19.34(23.13)19.59(19.70)37.40选择合法的样本,以降低模型性能。不幸的是,许多蒸馏方法已经发展到提高KD的性能,而忽略了攻击。因此,在本节中,我们将评估我们的模型是否能抵御白盒攻击,在白盒攻击中,我们使用经过训练的模型本身来生成对抗性示例,使用两种常见的攻击方法,快 速 梯 度 符 号 方 法 ( FGSM ) 和 迭 代 FGSM ( I-FGSM)方法[4]。对于I-FGSM,我们使用具有相等步2326长的10次迭代。两种攻击的结果总结在表3中。对于蒸 馏 方 法 , 教 师 和 学 生 的 设 置 是 T : RN110 S :RN20,他们在那里接受了CIFAR100的培训。我们将mixup增强应用于我们探索的所有方法(见。2327FGSMOursw/oMU80我们的FMU(0.1)80FGSMOursw/oMU我们的FMU(0.7)80FGSMOursw/oMUOursFMU(0.2)75我们的FMU(0.4)70我们的FMU(1.0)6560555045400.001 0.003 0.005EPSI-FGSMOursw/oMUOursFMU(0.1)85我们的FMU(0.4)75我们的FMU(1.0)655545350.001 0.003 0.005EPS我们的PMU(10%)75我们的PMU(50%)70我们的PMU(80%)6560555045400.001 0.003 0.005EPSI-FGSMOursw/oMUOursFMU(0.7)75我们的PMU(10%)我们的PMU(50%)65我们的PMU(80%)5545350.001 0.003 0.005EPS我们的PMU(0.7,50%)75706560555045400.001 0.003 0.005EPSI-FGSMOursw/oMUOursFMU(0.2)75我们的PMU(0.7,50%)655545350.001 0.003 0.005EPS图7. CIFAR100在攻击下的测试准确率直方图。第一列表示使用完全混合时不同α的比较结果。第二列显示完全混合和α = 0的部分混合之间的比较。7 .第一次会议。最后一个图显示了FMU(0.2)和PMU(0.7,50%)之间的比较。方法+表中的混淆)。我们使用仅10%的部分混合来训练我们的模型,其中α=1。即使只有10%的混淆对使用,它显示出令人印象深刻的抵抗两个钉。我们注意到,使用ICKD和CRD等特征图的混合蒸馏方法在没有混合的情况下表现不佳。我们将在下一节中展示不同数量的mixup对的更多比较结果5.3. 消融研究在本节中,我们使用T:WN 40 -2和S:WN 16 -2网络组合进行超参数消融研究。如表4所示,具有PMU和高α值的蒸馏模型通常产生更好的性能。此外,为了研究部分混淆程度和α对这两种攻击的反应程度,我们还在图7中显示了测试精度。如直方图的第一列和第二列所示,当训练中涉及强增强时,例如完全混合(具有高α值的FMU)或大量混合对(PMU 80%),它可以提高鲁棒性。有趣的是,只有10%的部分混淆(中间栏的灰色条)可以很好地防御这两种攻击。对于图的最后一列,我们从FMU中选择了两个提取模型(α=0. 2)和PMU(50%,α=0. 7)其中它们具有表4中类似的测试性能。我们观察到PMU(50%,α = 0。7)的稳健性略高于FMU(α= 0. 2)的情况。6. 结论在这项工作中,我们研究了混淆在知识蒸馏中的作用。我们观察到,混合训练的教师网络由于对特征和logits的过度平滑而产生较差的监督,特别是在蒸馏过程中的高温下。因此,学生在KD中的表现会降低我们支持-表4.在CIFAR100上测试不同α和部分混淆量设置下的准确度。准确度为3次运行的平均值。M.表示搞混了α0.10.20.40.71.0PMU=10%75.3075.4575.8975.9475.92PMU=30%75.5175.4075.7176.2175.95PMU=50%75.5075.5075.8376.0275.97PMU=80%75.3675.6676.0576.1975.78FMU75.6976.0175.9675.9275.75KD74.60%香草73.26%通过对图像分类任务的一系列实证分析和大规模实验,端口我们的研究结果我们的研究结果提供了对使用mixup增强训练的蒸馏模型这些见解使我们能够开发一种改进的学习策略,使用重新标度的逻辑和部分混淆。正如我们前面提到的,各种基于混合的增强已经显示出它们对特定任务的有效性。然而,这些增强可能会产生不合理的训练样本,因为它混合了随机图像[11],这可能会扭曲类别之间的合理相对结构因此,这可能在蒸馏期间对logits产生不利的平滑效应。因此,开发一种能够自动选择更合理的样本以确保最佳拟合光滑度的增广方法我们将在今后的工作中进一步发展这项技术。7. 确认本材料是基于国防高级研究计划局(DARPA)根据第2004/2005号协议支持的工作。HR00112290073。已获批准作公开出租;分布是无限的。准确度(%)准确度(%)准确度(%)准确度(%)不包括M。W/M.准确度(%)准确度(%)2328引用[1] Sungsoo Ahn,Shell Xu Hu,Andreas Damianou,Neil DLawrence,and Zhenwen Dai.知识转移的变分信息蒸馏。在IEEE/CVF计算机视觉和模式识别会议论文集,第9163-9171页[2] Chung-Cheng Chiu,Tara N Sainath,Yonghui Wu,Ro-hit Prabhavalkar,Patrick Nguyen,Zhifeng Chen,AnjuliKannan , Ron J Weiss , Kanishka Rao , EkaterinaGonina,et al.最先进的序列到序列模型语音识别。在IEEE声学、语音和信号处理国际会议集,第4774-4778页[3] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据 库 。 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第248[4] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释 和 利 用 对 抗 性 的 例 子 。 arXiv 预 印 本 arXiv :1412.6572,2014。[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页[6] 何通,张志,张航,张中岳,谢军元,李慕.使用卷积神经网络进行图像分类的技巧包。在IEEE/CVF计算机视觉和模式识别会议论文集,第558-567页[7] Byeongho Heo,Minsik Lee,Sangdoo Yun和Jin YoungChoi。通过隐藏神经元形成的激活边界的蒸馏进行知识转移。在AAAI人工智能会议论文集,第33卷,第3779-3787页[8] Geoffre
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功