没有合适的资源?快使用搜索试试~ 我知道了~
Monish KeswaniSriranjani RamakrishnanNishant ReddyVineeth N BalasubramanianIndian Institute of Technology, Hyderabad{monish.keswani01, sriranjani.ramakrish, s.nishantreddy024}@gmail.com, vineethnb@iith.ac.in102330Proto2Proto:你能像我一样认出这辆车吗?0摘要0由于其通过原型获得的内在可解释性,原型方法最近引起了很多关注。随着模型重用和蒸馏的使用案例增多,还需要研究从一个模型到另一个模型的可解释性转移。我们提出了Proto2Proto,一种通过知识蒸馏将一个原型部分网络的可解释性转移到另一个原型部分网络的新方法。我们的方法旨在将从教师模型传输给更浅的学生模型的“黑暗”知识添加可解释性。我们提出了两种新的损失函数:“全局解释”损失和“补丁-原型对应”损失,以促进这种转移。全局解释损失强制学生原型接近教师原型,而补丁-原型对应损失则强制学生的局部表示与教师的局部表示相似。此外,我们提出了三种新的度量标准来评估学生模型与教师模型的接近程度,作为我们设置中可解释性转移的度量。我们在CUB-200-2011和斯坦福汽车数据集上定性和定量地证明了我们方法的有效性。我们的实验表明,所提出的方法确实实现了从教师到学生的可解释性转移,同时展现了竞争性的性能。代码可在https://github.com/archmaester/proto2proto上找到。01. 引言0机器学习中的可解释性有助于人们理解模型在做出特定决策时的推理过程。从最终用户的角度来看,可解释性增加了对模型的信任,最终导致更好的机器学习系统,特别是涉及高风险决策的系统。Lipton[28]指出了可解释性的各种期望,如信任、因果关系、可转移性等。在过去的十年中,视觉社区的主要关注点是设计模型以提高分类、目标检测、分割等任务的性能。深度学习模型如CNNs0[12, 40,44]在这一成功中起到了重要作用。然而,由于它们的黑盒特性,它们经常受到不可解释性的批评。0为了向CNN模型添加解释[?],近年来已经研究了许多属于模型近似、基于示例、基于梯度和基于概念的解释方法。在这项工作中,我们特别关注使用原型进行模型近似的方法,这些方法允许后续解释性(在模型训练后以概念为基础进行解释)和先前解释性(在训练过程中通过原型联合学习预测和解释)。ProtoPNet[6]和ProtoTree[33]是两种最近的方法,它们为原型模型增加了可解释性。ProtoPNet学习类特定的原型,而ProtoTree学习类不可知的原型以提供全局和局部的可解释性。然而,这个领域的努力还处于初级阶段,尚未有努力将可解释性转化为更浅层的网络或通过学习的原型将可解释性转移到其他模型,这在模型压缩、少样本学习、持续学习等方面可能有许多应用。0知识蒸馏(KD)是一种将“黑暗”知识从教师模型传输到学生网络的众所周知的技术。许多工作[1, 7, 9, 13-16, 23,34, 35, 37, 46, 47, 51,53]都致力于提高学生模型对教师模型的准确性和忠实度,而对可解释性方面关注不多。Liu等人[29]将黑盒深度学习模型蒸馏成决策树,使其更具可解释性。Song等人[41]构建了一个中间决策树,以捕捉教师的内在问题解决过程,并将其传递给学生。这些少数工作的目标是通过知识蒸馏为黑盒教师模型增加可解释性。而我们则考虑一个已经隐含可解释性的教师模型,并展示了我们的蒸馏方法如何在传递给学生模型时保持解释性的忠实度。0为此,我们提出了一种新方法Proto2Proto,将一个典型部分网络的可解释性转移到另一个典型部分网络中。我们考虑一个教师网络,其内部TeacherBaselineStudentProto2Proto Student (Ours)TeacherBaselineStudentProto2Proto Student (Ours)102340前5个激活的原型(在边界框内)0来自的测试图像0CUB数据集0注意我们的P2P原型与教师的非常相似0原型,而基线学生获得非常不同的原型0前5个激活的原型(在边界框内)0每个原型都被投影到最近的潜在空间0训练图像patch0来自的测试图像0CARS数据集0图1. 测试图像的样本原型在教师、基线学生和Proto2Proto(P2P)学生之间的比较。0我们希望将可解释性转移到更浅的学生网络中。本文中的原型是指具有较小空间维度的训练图像的潜在表示,称为patch。它代表了图像的典型部分,允许进行更精细的比较,类似于ProtoPNet[6]中定义的原型。图1说明了我们方法的动机。对于给定的测试图像,我们可视化了在决策过程中起到最重要作用的top-k原型。我们比较了教师、基线学生和我们的学生的这些原型。显然,与基线学生相比,我们的学生在保留类似原型以做出决策方面更忠实于教师。0具体而言,我们提出了两种新的损失函数:全局解释损失和Patch-PrototypeCorrespondence损失,以实现将教师的可解释性转移到学生的目标。在典型网络[6, 33,39]中,知识存储在这些模型学习的原型中。这些原型可以作为模型的全局解释,即无论输入如何,模型都可以告诉它可能关注哪些部分/区域来做出决策。全局解释损失有助于将这些全局解释或原型转移到学生。0同样,对于给定的输入,从模型中获得的局部表示与原型进行比较,以确定图像中存在哪些原型。根据原型的激活情况,模型识别图像。因此,生成类似于教师的原型的类似激活对于识别图像变得重要。Patch-PrototypeCorrespondenceloss有助于实现这一目标。它模仿了教师的局部表示,其中原型变得活跃。与[37]不同,[37]模仿教师的整个特征图进行知识转移,我们提出模仿局部0教师的激活原型的表示。由于这是首次尝试,为了验证我们是否实现了我们的目标,我们提出了三个新的度量标准:(i)平均激活patch数(AAP),用于确定模型中活跃的局部表示的平均数量。它用于评估Patch-PrototypeCorrespondence,目的是将学生的这个值接近教师;(ii)与教师的平均Jaccard相似性(AJS),用于确定学生的活跃局部表示与教师的重叠程度。它是针对一对模型(教师和学生)计算的。其值越高,学生与教师越接近。它也用于评估Patch-PrototypeCorrespondence;(iii)原型匹配分数(PMS),用于评估学生的原型与教师的接近程度。它用于评估全局解释的转移。我们总结我们的贡献如下:0•就我们所知,我们首次尝试将可解释性从典型的教师模型转移到学生模型。0•我们提出了两种新的损失函数,全局解释损失和补丁-原型对应损失,用于知识传递。我们展示了通过我们的方法,教师的最终层决策模块可以直接用于学生,无需重新学习。0•我们提出了三个评估指标,以确定学生对教师的可解释性的忠实程度。0•我们在基准数据集上进行了一系列全面的实验,展示了我们方法的有效性。1023502. 相关工作02.1. 可解释性0机器学习模型的可解释性可以作为事后解释或自解释提供。前者提供了关于训练的黑盒模型的直观理解[8, 19, 21, 22,32,55],而后者试图通过在训练过程中修改架构来理解复杂的决策过程[2, 38,54]。现有的可解释模型可以分为四种主要类型[26],即基于梯度的、基于模型逼近的、概念解释和基于示例的方法。本文的重点是模型逼近和基于示例的方法。无论是全局还是局部,模型逼近方法都使用诸如线性模型和决策树等自解释模型来逼近表示。局部模型如LIME[36]专注于局部相似性邻域。而全局模型如软决策树[17, 24,43]、自适应神经树[45]则逼近整个深度神经模型。另一方面,基于示例的方法[11,18]通过将输入图像与示例图像进行比较来解释单个输入图像。由于示例过于具体,学习的原型模型[4,20]在一组原型中逼近模型。这些学习的原型并不过多关注决策过程,它们的解释能力有限。通过将模型逼近方法与基于原型的模型相结合,可以处理性能和可解释性。最近提出的模型如ProtoPNet [6]、ProtoTree[33]使用上述概念来提高可解释性并关注模型的决策过程。ProtoPNet通过线性模型逼近表示类的特定原型,用于决策。ProtoTree通过决策树逼近表示类不可知的原型,使架构具有层次性。我们提出的工作重点是将存储在这些原型中的可解释性知识转移到一个更浅的网络中。02.2. 可解释性知识蒸馏0许多工作都集中在设计和开发适用于资源受限部署的小型模型。知识蒸馏是一种模型压缩方法,通过模仿教师模型的逻辑[3]或软标签[14],将暗知识传递给学生模型,以提高学生模型的性能。可以查看关于知识蒸馏的调查论文,了解有关这种设置的背景,包括蒸馏策略、学生-教师架构和最新发现[10,50]。尽管存在大量关于知识蒸馏的文献,但很少有作品专注于知识蒸馏的可解释性方面。知识蒸馏中的可解释性通常是普遍的。0通过将教师的暗知识以一种形式或另一种形式转移到可解释的基于树的模型中来实现。通过对树的输入进行匹配的方式获得了暗知识的事后解释[30],或者使用不同类型的树架构,如软决策树[17]、普通决策树、自适应神经树[45]、神经支持决策树[49]、梯度提升树[5]和广义可加模型[31]。Tree-Network-Tree架构[27]尝试在输入空间中学习基于树的模型,以提取决策路径并形成嵌入表示。这进一步用于学习一个神经网络,其软标签用于将知识蒸馏到另一个基于树的模型中。这个三步过程有助于使模型具有可解释性,因为可以从蒸馏树中提取决策路径。上述大部分尝试都集中在准确性和可解释性之间的平衡。由于输入/权重空间的限制,知识无法完全蒸馏到学生中,或者蒸馏模型无法充分利用。另一种思路是使用可视化方法进行解释。DarkSight[52]使用简单的可解释分类器,如朴素贝叶斯,作为学生模型来模仿暗知识。将低维表示应用于数据,并在模型压缩目标上进行联合优化,可以提供网络预测的可视化解释。我们提出的方法与上述所有方法不同,它将暗知识(i)存储在原型的形式中,(ii)甚至无需重新学习学生的决策模块。我们还保持了对教师的忠实度,以实现可解释性。它还模仿了教师的决策过程,因此学生模型可以在不放弃性能的情况下进行充分训练。在可解释性方面,由于使用了可解释模型来训练教师,该模型本质上是可解释的。03. Proto2Proto:提出的方法0原型方法[6, 33, 39]学习一个原型元组P =(pi)mi=1,其中pi∈Rd,它们是训练数据集中最重要区域的表示。它们有助于对图像进行精细的识别。这些方法通常包含四个模块:骨干网络、附加模块、比较模块和决策模块。输入图像x首先被传递给骨干网络模块以获得特征图f(x),然后传递给附加模块以获得特征图ω(x)∈RH�W�d。附加模块输出维度为d的HW个局部表示或补丁。我们用集合L(x)={l11(x), l12(x),.....lHW(x)}表示它们,其中lij(x)∈Rd。注意原型的维度与局部表示的维度相同,即d。然后比较模块使用相似性分数比较L(x)与P。然后将原型与其最近的补丁之间的分数传递给决策模块。在ProtoPNet [6]中,决策模块是一个维度为|P|�C的全连接层,其中C是类别数。102360图2.我们提出的通过知识蒸馏训练“Proto2Proto”学生模型的架构。它显示了教师和学生之间的信息流,以及推理过程(黑色箭头:前向信息流,紫色箭头:学生中的反向传播,蓝色箭头:我们的工作中引入的损失项用于教师和学生的对齐)。0图3.使用L2作为度量标准,通过改变τ对活动补丁的影响。二进制激活掩码M被放大并叠加在图像上进行可视化,对于不同的τ值。图像的突出部分显示了活动补丁。0符号描述0f(x) 输入x的骨干特征 ω(x) 输入x的附加特征(与原型匹配) P一组原型的元组 p 单个原型 M 活动补丁的二进制掩码 L(x)输入x的局部补丁集合 lij(x) 输入x的第ij个局部补丁 τ确定活动补丁的距离阈值 C 类别数0表1. 论文中定义的符号。符号上标为T或S,分别表示教师或学生。0首先将输入图像x传递给骨干模块以获得特征图f(x),然后传递给附加模块以获得维度为d的特征图ω(x)∈RH�W�d。附加模块输出HW个维度为d的局部表示或补丁。我们用集合L(x)={l11(x), l12(x),.....lHW(x)}表示它们,其中lij(x)∈Rd。请注意,原型的维度与局部表示的维度相同,即d。然后比较模块使用相似性分数比较L(x)与P。然后将原型与其最近的补丁之间的分数传递给决策模块。在ProtoPNet[6]中,决策模块是一个维度为|P|�C的全连接层,其中C是类别数。0此外,每个原型都属于特定的类别,这使得决策模块的权重稀疏化。ProtoP-Share [39]在ProtoPNet的基础上改进,还使用了一种新的数据相关的合并修剪算法来合并语义相似的原型。在ProtoTree[33]中,决策模块是一个决策树,其中原型被排列为决策树的节点。为了清晰起见,表1中列出了带有描述的符号。原型模型中的典型信息流程如下所述:a)在ProtoPNet中的推理:输入图像x通过CNN传递以获得一组特征L(x)。对于每个原型p,我们计算其与集合L(x)的L2距离,然后将距离取倒数以获得相似性分数,并使用最大池化计算最大相似性分数。因此,获得的|P|个相似性分数然后被馈送到大小为|P| * C的全连接层以获得输出logits。b)在ProtoTree中的推理:在这里,原型被排列为一个软性二叉决策树的内部节点(用户提供的结构)。如上所述获得的最大相似性分数然后被归一化为[0,1],作为概率值。对于每个原型节点,根据将最大相似性分数与预设的阈值进行比较进行路由。叶节点存储分类预测。(1)Active(k(x), τ, P ) =�1if Eq. (1) is satisfied0Otherwise(2)M T (x)[i, j] = Active(lij(x), τtrain, P T )∀i, j ∈ {1, 2, ....H}, {1, 2, ....W}(3)Lppc = 1NN�n=1�M T (xn) · [ωT (xn) − ωS(xn)]�2(4)Lglobal = 1m�i=1D(pTi , pSi )(5)Ltotal = Lmodel + λglobalLglobal + λppcLppc(6)102370在我们的设置中,我们将训练好的原型教师模型的知识转移到学生模型中,不仅可以提高学生的准确性,还可以使其在可解释性方面更接近教师。我们用PT表示教师模型的学习到的原型元组,用PS表示学生模型的可学习的原型元组。教师的全局可解释性包含在其原型中,因为它们隐含地表示模型用于做出决策的部分/区域。对于输入图像x,局部可解释性取决于对偶(LT(x),PT)的距离,因为决策是基于PT和局部表示LT(x)之间的距离进行的。为了传递这种知识,学生必须在局部表示和原型上与教师达成一致。为此,我们提出了两个损失:全局解释损失和补丁-原型对应损失。我们首先定义活动补丁来确定哪些局部表示与原型相关联。接下来,我们定义补丁-原型对应损失,强制学生在活动局部表示上与教师达成一致。最后,我们定义全局解释损失,强制学生在原型上与教师达成一致。0活跃区域:在比较模块中,每个原型与最近的局部区域相关联,只有相关联的局部区域参与决策。我们称这样的区域为活跃区域。对于输入x,设k(x)∈L(x)是一个局部区域。我们为局部区域k(x)定义一个函数Active,如下所示。0如果� p∈P,使得D(k(x), p) = D� ≤ τ0其中D� = min i,j D ( l ij ( x ) , p )0且i, j∈{1, 2, ....H},{1, 2, ....W}0其中τ是距离阈值,P是原型的元组,如前所述。如果存在一个原型p∈P,使得p与k(x)之间的距离是所有局部区域L(x)中最小的且小于τ,则局部区域k(x)被认为是活跃的。超参数τ控制了定义活跃区域的最大距离。图3显示了τ对活跃区域数量的影响。观察到,活跃区域的数量随着τ的增大而减少。我们在训练过程中将τ称为τ train,在测试过程中称为τtest。0局部区域-原型对应损失:Romero等人[37]提出通过将教师的局部表示作为提示传递给学生来改善学生的性能。我们提出仅传递活跃的局部表示。0教师的附加层的表示对于学生的可解释性也有所改善。我们确定了教师对于输入x的活跃区域,并将其表示为二进制激活掩码MT,定义如下:0现在我们定义局部区域-原型对应损失如下:0其中N是训练图像的数量,ω T ( x n )和ω S ( x n)分别是输入图像x n 的教师和学生附加层的输出。0全局解释损失:为了实现我们的目标,学生应该与教师在原型上达成一致。全局解释损失强制要求学生模型的原型接近于教师模型的原型。我们将其定义为:0其中D是距离度量(余弦距离、欧氏距离等),m是原型的数量。我们将其称为全局解释损失,因为原型在全局上是可解释的,即在没有任何输入的情况下,我们可以知道它们关注的区域。在我们的实验中,我们使用欧氏距离作为度量。0模型损失:它表示原型部分方法[6,33]的相应损失。对于ProtoPNet,我们将L model称为Lppnet,对于ProtoTree,我们将Lptree。总损失如下所示:0其中λ global和λ ppc是用于平衡损失的超参数。03.1. 评估可解释性转移0由于这是关于原型网络可解释性转移的首次尝试,我们还提出了三个评估指标来确定学生模型与教师模型在可解释性方面的接近程度。请注意,我们评估指标的目的不是评估单个模型的可解释性,而是评估教师模型和学生模型之间的可解释性转移。0活跃补丁的平均数量(AAP):我们之前提到学生应该与教师在局部表示和原型上达成一致。为了达到前者的一致性,我们引入了Lppc损失。AAP是其中之一102380评估Lppc的度量标准之一是模型m的平均活跃补丁数量:0AAP(τ test, P) = 10N0N0H0w = 1 Active(l hw(x n), τ test,0(7)其中N是图像的数量,τtest是距离阈值,P是模型m的原型元组(理想情况下,符号应为Pm,为简单起见我们忽略m),Active在公式(2)中定义。学生的AAP值越接近教师的AAP值,可解释性转移效果越好。0与教师的平均Jaccard相似度(AJS):对于AAP分数,我们计算了活跃补丁的数量。在这里,我们确定了学生的活跃补丁与教师的重叠情况,以找出它们之间的相似性。AAP分数是针对单个模型计算的,而AJS是针对(学生,教师)对计算的。我们为图像x的所有活跃补丁分配了唯一的标识符。对于图像x,A(x) = {..., id ij(x), ...},其中id ij(x) =UNIQUE-ID(ij)且Active(l ij(x), τ test, P) =1。我们定义学生S和教师T的活跃补丁之间的平均Jaccard相似度如下:0AJS(S, T) = 10N0N0n = 10|A T (x n) ∩ A S (x0|A T (x n) ∪ A S (x n)|(8)0其中N是图像的数量。A T 和 A S分别是教师和学生的活跃补丁。注意,AJS(T, T) =1作为学生模型的目标上限。0原型匹配分数(PMS):现在,我们定义一个度量标准来评估全局损失L。直觉是计算一个匹配分数来衡量教师和学生原型之间的接近程度。为了计算这个分数,需要确定教师和学生原型之间的对应关系,但这是未知的。因此,我们使用匈牙利匹配算法(HMA)来匹配原型。需要注意的是,对于我们的学生来说,可能不需要使用HMA来匹配教师原型,因为两者之间会有一个顺序映射(公式(5)),但对于基准学生来说是必需的。由于模型之间的原型分布在不同的空间中,使用距离度量直接比较两者并不容易。因此,我们通过激活相应原型的局部补丁来确定模型之间的原型相似性。在AJS中,我们为给定输入图像维护了一个活跃补丁列表。在这里,我们为每个原型维护了跨所有图像的活跃补丁列表,以确定两个模型的原型相似性。我们使用修改的Jaccard相似度作为距离度量来比较原型0教师和学生之间的度量标准。算法1总结了整体思想。有关修改的Jaccard相似度的详细信息,请参阅补充材料。0算法1:原型匹配分数(PMS)0输入:T - 教师,S - 学生,D - 测试/验证数据集输出:原型匹配分数(PMS)02 初始化教师原型列表,Q T = {q T 1, ..., q T m},其中 q T i =ϕ,对于所有 i ∈ {1, 2, ..., m},P T 的大小为 m03 初始化学生原型列表,Q S = {q S 1, ..., q S m},其中 q S i =ϕ,对于所有 i ∈ {1, 2, ..., m},P S 的大小为 m04 对于 i = 1:numSamples执行以下操作05 for j = 1: m do06 k T = argmin h,w D(l T hw(x i),p T j)07 q T j = q T j ∪ UNIQUE-ID(k T,x i)08 k S = argmin h,w D(l S hw(x i),p S j)09 q S j = q S j ∪ UNIQUE-ID(k S,x i)010 结束011 结束012 分数矩阵 = 修改的Jaccard相似度(Q T,Q S)013 匹配分数 = 匈牙利算法(分数矩阵)014 返回 平均(匹配分数)04. 实验结果0我们在细粒度分类基准数据集CUB-200-2011[48]和Stanford Cars[25]上演示了我们的方法并进行了实验。为了进行公平比较,我们的实验设置与ProtoPNet [6]和ProtoTree[33]中的设置类似。我们尝试了ResNet [12]和VGG[40]等各种架构。对于每个设置,我们有教师模型、基准学生模型和Proto2Proto学生(我们的方法)的结果。模型根据AAP、AJS和PMS等指标进行可解释性评估,这些指标在第3.1节中定义。除此之外,我们还根据Top-1准确率评估所有模型,因为我们不希望在追求可解释性时牺牲准确性。教师模型使用了ResNet50和VGG19,学生模型使用了ResNet18、Resnet34和VGG11。超参数的详细信息可以在补充材料中找到。表2显示了我们提出的方法的性能。我们的学生模型在所有实验中都优于基准学生模型。在某些情况下,它能够达到甚至超过教师模型的性能。例如,VGG19 →VGG11(知识蒸馏)相比基准学生模型,我们的方法在准确率上提高了5.83%。在CUB和StanfordCars上的ResNet架构也观察到了类似的趋势。评估指标AJS对于教师模型将为1,因为该模型与自身相似。该指标显示学生模型与教师模型的接近程度。从结果中可以看出,与基准学生模型相比,我们提出的学生模型在所有设置中更接近教师模型。PMS也有类似的情况,它显示学生原型与教师的接近程度。)))))102390数据集 方法 设置 AAP AJS(↑) PMS(↑) Top-1准确率(↑)0CUB0ProtopNet VGG19(教师)29.10 1.0 1.0 77.970ProtopNet VGG11(学生)37.92 0.58 0.36 71.620我们的方法 VGG19 → VGG11(知识蒸馏)29.29 0.73 0.81 77.450ProtopNet Resnet50(教师)20.24 1.0 1.0 79.200ProtopNet Resnet18(学生)39.77 0.42 0.18 75.470我们的方法 Resnet50 → Resnet18(知识蒸馏)19.23 0.71 0.74 79.800ProtopNet Resnet50(教师)20.24 1.0 1.0 79.220ProtopNet Resnet34(学生)18.17 0.30 0.16 78.310我们的方法 Resnet50 → Resnet34(知识蒸馏)19.33 0.73 0.79 79.890CARS0ProtopNet Resnet50(教师)29.22 1.0 1.0 85.310ProtopNet Resnet18(学生)32.67 0.45 0.14 79.960我们的方法 Resnet50 → Resnet18(知识蒸馏)29.61 0.62 0.73 84.000Prototree Resnet50(教师)21.35 1.0 1.0 85.700Prototree Resnet18(学生)23.60 0.46 0.12 77.870我们的方法 Resnet50 → Resnet18(知识蒸馏)21.55 0.59 0.65 81.500表2. Proto2Proto学生(我们的方法)在ProtoPNet [6]和ProtoTree [33]上的结果,针对ResNet和VGG等多种架构在CUB和StanfordCars上进行了实验。使用Top-1准确率评估性能,并使用AAP、AJS和PMS等指标评估可解释性。0原型。对于教师模型本身,该值将为1.0。例如,对于CUB,ResNet50 →ResNet18(知识蒸馏),基准学生模型和我们的方法之间的绝对值增加了0.56。我们提出的学生模型的优势在于可解释性方面,同时保持性能。这在所有实验结果中都观察到,因为AAP、AJS和PMS等指标相对于基准学生模型而言有所改善。例如,在ResNet50 →ResNet34(知识蒸馏)中,尽管性能差异远小于其他模型,但AJS和PMS指标的绝对值分别增加了0.43和0.63。因此,我们的模型在不牺牲准确性的情况下具有可解释性。以上实验的其他结果可以在补充材料中找到。0方法/设置 | P | AAP AJS(↑)PMS(↑)准确率(↑)0基线+PShare 960 10.69 0.20 0.13 70.150我们+PShare 960 13.69 0.33 0.70 74.010表3. 剪枝ResNet18基线学生和我们的学生模型使用ProtoPShare[39](PShare)在Cars数据集上的结果04.1. 消融研究0损失消融我们通过使用不同损失的各种组合来进行实验,以展示我们方法的有效性。表4总结了我们的结果。显然,添加各个损失可以提高性能0所有指标和三个损失的组合效果更好。我们还通过在学生中重用教师的决策模块进行实验。这显著提高了可解释性得分和准确性。注意,通过去除Lppnet,我们在可解释性得分上获得了一些小的好处。然而,L ppnet的准确性更高。因此,我们在实验中使用最后一种设置。0L ppnet L ppc L global 重用 AAP AJS PMS 准确率0� 39.77 0.42 0.18 75.47 � � 31.26 0.49 0.31 75.19 � � 30.590.54 0.61 77.63 � � � 20.89 0.70 0.69 78.110� � � 19.29 0.72 0.76 79.44 � � � � 19.23 0.71 0.74 79.800教师 20.24 1.0 1.0 79.200表4.使用不同损失在CUB数据集上使用ResNet50教师的ResNet18学生的性能。列“重用”表示我们是否为学生使用教师的决策模块。0剪枝消融 ProtoPShare[39]引入了一种新的原型合并策略,用于合并语义相似的原型。它们显著减少了ProtoPNet模型的原型数量,而准确率下降不多。在表3中,我们总结了剪枝的结果。我们使用ProtoPshare将基线学生和Proto2Proto学生从2000个剪枝到960个原型。我们观察到,即使在剪枝后,我们的Proto2Proto模型的性能仍然显著优于基线模型。TeacherBaseline StudentProto2Proto Student (Ours)Hungarian Matched Prototypes ofStudents with Teacher102400原型1原型2原型3原型40图4.教师和学生(基线和Proto2Proto)的原型比较(每个原型投影到最近的潜在训练图像块)。学生的原型通过匈牙利匹配算法与教师的原型匹配。0与KD方法的比较由于我们的重点是通过知识蒸馏增加可解释性,为了证明我们方法的有效性,我们与关系知识蒸馏(RKD)[34]和提示损失[37]进行了比较。基线学生仅使用Pro-toTree/ProtoPNet损失进行训练。与现有的KD方法相比,我们的方法在可解释性得分上表现得更好。在准确性方面,我们比RKD稍微有所提升,但在可解释性得分上,我们表现得更好。这表明我们的方法与现有的KD方法相当,并且在蒸馏的黑暗知识中具有可解释性。附加的消融研究可以在补充材料中找到。0设置 AAP AJS(↑)PMS(↑)准确率(↑)0教师 29.22 1.0 1.0 85.31 基线学生 32.67 0.45 0.1479.960Hint [37] 28.13 0.48 0.15 81.52 RKD [34] 30.850.53 0.27 83.310我们 29.61 0.62 0.72 84.000表5. 使用Resnet 50(教师)和Resnet18(学生)在Cars数据集上与最先进的知识蒸馏方法进行比较05. 可视化0图4显示了教师、基线学生和Proto2Proto学生学到的原型。如前所述,0与基线学生相比,我们的学生模型的原型更接近于教师模型。例如,教师的原型1关注汽车的挡风玻璃,原型2关注发动机盖,这些特征也被Proto2Proto学生模型的相应原型捕捉到。然而,基线学生模型关注的是背景而不是挡风玻璃和发动机盖。如图1所示,我们提出的学生的前5个激活的原型与教师的相似,因为它们关注鸟的翅膀,而基线学生关注给定测试图像的脖子。这表明我们的Proto2Proto模型可以很好地模仿教师,并且生成的原型与教师相比保持了忠实度。为了可视化ProtoPNet决策模块的原型,我们使用了与[6]中描述的方法类似的方法,即使用高度激活的训练图像块的学习原型并进行上采样。更多关于CUB和Cars的ProtoTree/ProtoPNet的可视化请参考补充材料。6.结论和未来工作最近的方法主要集中在设计隐式可解释模型。然而,它们缺乏在可解释性方面的知识传递能力。我们提出了一种新颖的框架,将教师的可解释性传递给学生,以帮助学生像教师一样做出决策。此外,我们提出了三个评估指标来证明我们方法的有效性,并在我们的学生模型上在所有指标上报告了显著的性能改进。将我们的方法扩展到其他任务,如持续学习、迁移学习,可以是一个很好的未来方向。广泛的影响和局限性。我们的工作没有已知的社会不利影响。在当前设置中,我们要求教师和学生具有相同数量的原型。然而,与特征提取器相比,原型添加的参数数量通常要少得多。此外,如第4.1节所示,现有的剪枝策略也适用于我们的学生,部分解决了这个问题。所提出的原型匹配分数使用Jaccard相似度来比较不同模型的原型。更直接的方法是使用距离度量(欧氏距离、余弦距离等)。然而,在我们的设置中应用这样的距离度量并不简单。原型模型通常在对数层进行集成以获得改进的性能。这样的设置将需要评估教师集合和学生集合之间的可解释性。需要进一步研究如何在这样的设置中应用所提出的评估指标。致谢。本工作部分得到了印度政府DST通过ICPS计划以及Google ResearchScholar奖励的资助。我们感谢匿名审稿人对本文的宝贵意见,这些意见改进了本文的表达方式。102410参考文献0[1] Sungsoo Ahn,Shell Xu Hu,Andreas Damianou,Neil DLawrence和ZhenwenDai。变分信息蒸馏用于知识转移。在IEEE/CVF计算机视觉和模式识别会议上,第9163-9171页,2019年。10[2] David Alvarez Melis和TommiJaakkola。朝着具有自解释性的鲁棒性发展的神经网络。《神经信息处理系统进展》,31,2018年。30[3] Lei Jimmy Ba和RichCaruana。深度网络真的需要很深吗?arXiv预印本arXiv:1312.6184,2013年。30[4] Jacob Bien和RobertTibshirani。用于可解释分类的原型选择。《应用统计学年鉴》,5(4):2403-2424,2011年。30[5] Zhengping Che,Sanjay Purushotham,RobinderKhemani和YanLiu。从深度网络中提取知识,并应用于医疗领域。arXiv预印本arXiv:1512.03542,2015年。30[6] Chaofan Chen,Oscar Li,Daniel Tao,AlinaBarnett,Cynthia Rudin和Jonathan KSu。这看起来像那个:用于可解释图像识别的深度学习。在H.Wallach,H. Larochelle,A. Beygelzimer,F. d'Alch´e-Buc,E.Fox和R.Garnett编辑,《神经信息处理系统进展》,第32卷。CurranAssociates,Inc.,2019年。1,2,3,4,5,6,7,80[7] Yiheng Chi,Abhiram Gnanasambandam,VladlenKoltun和Stanley HChan。使用量子图像传感器进行动态低光成像。在欧洲计算机视觉会议上,第122-138页。Springer,2020年。10[8] Amirata Ghorbani,James Wexler,James Y Zou和BeenKim。朝自动概念解释迈进。《神经信息处理系统进展》,32,2019年。30[9] Abhiram Gnanasambandam和Stanley HChan。使用量子图像传感器在黑暗中进行图像分类。在欧洲计算机视觉会议上,第484-501页。Springer,2020年。10[10] Jianping Gou,Baosheng Yu,Stephen JMaybank和DachengTao。知识蒸馏:一项调查。《国际计算机视觉杂志》,129(6):1789-1819,2021年。30[11] Yash Goyal,Ziyan Wu,Jan Ernst,Dhruv Batra,DeviParikh和StefanLee。反事实视觉解释。在国际机器学习会议上,第2376-2384页。PMLR,2019年。30[12] Kaiming He,Xiangyu Zhang,Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上,第770-778页,2016年。1,60[13] Byeongho Heo,Minsik Lee,Sangdoo Yun和Jin YoungChoi。通过隐藏神经元形成的激活边界蒸馏知识。在AAAI人工智能会议论文集上,第33卷,第3779-3787页,2019年。10[14] Geoffrey E. Hinton,Oriol Vinyals和J.Dean。提炼神经网络中的知识。ArXiv,abs/1503.02531,2015年。1,30[15] Guanzhe Hong,Zhiyuan Mao,Xiaojun Lin和Stanley HChan。从干净输入到噪声输入的学生-教师学习。在IEEE/CVF计算机视觉和模式识别会议上,第12075-12084页,2021年。10[16] Ming Hong,Yuan Xie,Cuihua Li和YanyunQu。使用异
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功