决策树解释CNN预测的原理

29 浏览量更新于2023-10-19 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过决策树解释CNNQuanshi Zhang< $，Yu YangZhang，Haotian Ma< $，and Ying Nian Wu<$†上海交通大学、加州大学洛杉矶分校、华南理工摘要本文 1 旨在定量解释由预训练的卷积神经网络（CNN）进行的每个预测的基本原理。我们建议学习一个决策树，它澄清了CNN在语义层面上做出的每个预测的具体原因即决策树将CNN的高conv层中的特征表示分解为对象部分的基本概念。通过这种方式，决策树告诉人们哪些对象部分激活了哪些过滤器用于预测以及每个过滤器的数量(a) 输入y=0.87(b) 梯度计算机辅助制造(c) 过滤器可视化Conv5-2 Conv3-3不同过滤器的贡献分布颈背滤镜的特征图对象部分对预测得分有贡献CNN预测的这种语义和定量解释具有超越CNN的传统像素级分析的特定价值更具体地说，我们的方法挖掘CNN的所有潜在决策模式，其中每个模式代表CNN如何使用对象部分进行预测的典型情况。决策树以从粗到细的方式组织所有潜在的决策模式，以在不同的细粒度级别上解释CNN预测。实验证明了该方法的有效性。1. 介绍卷积神经网络（CNN）[20，18，14]在各种任务中取得了优异的性能。然而，除了识别能力之外，模型的可解释性仍然是神经网络的一个重大挑战。为了打开神经网络的黑盒，已经提出了许多研究来可视化或分析隐藏在CNN中的特征表示。动机目标：在网络可解释性的范围内，最先进的算法仍然远远不能解释为什么CNN学习知识的最终目标。虽然一些理论，如信息瓶颈[34]，分析了神经网络1张全时是中国上海交通大学约翰·霍普克罗夫特中心和MoE人工智能重点实验室人工智能研究所的通讯作者。Yu Yang和Ying NianWu来自美国加州大学洛杉矶分校。马浩天就职于中国华南理工大学。图1. CNN的不同类型的解释。我们比较(d) 我们的任务是用以前解释CNN的研究来定量和语义地解释CNN的预测，比如(b)梯度CAM [26]和（c）CNN可视化[23]。给定一个输入图像（a），我们在决策树中推断出一个解析树（绿线），以将神经激活投射到对象部分的清晰概念我们的方法定量地解释了哪些过滤器/部件（在小/大轮中）用于预测以及它们对预测的贡献有多大。为了清晰起见，我们将随机选择的10%过滤器的数值分布可视化。尽管CNN是一个非常复杂的网络，但解释为什么CNN在端到端学习过程中编码前腿特征而不是后腿特征来进行分类仍然是一个挑战。因此，在这项研究中，我们将讨论限制在解释CNN学习什么知识的问题上。在这个方向上，我们的研究集中在以下两个解释CNN的新视角：• 如何在语义层面解释CNN中中间层的特征也就是说，我们的目标是将CNN内部过滤器的混沌特征转换为语义上有意义的概念，例如对象部分，从而帮助人们理解CNN中的知识。•如何定量分析每个C- NN预测的原理.我们需要弄清楚哪些过滤器/部分通过CNN传递信息，并有助于预测输出。我们还报告了每个过滤器（或对象部分）对输出分数的数值贡献。如图1，上述两个视角在实际应用中至关重要，与传统的像素级可视化和CNN特征诊断有本质区别[37，23，10，24，22]。我们的语义和定量6261...银杏树（d）我们的解释尾6262各种鸟类的方式具有特定姿势的物种模式y=0.9......这是什么？最通用理由（我们的目标）最具体的理由其次，我们还需要将每个解开的过滤器与明确的语义（即本研究中的对象部分）相关联。这种关联使得能够对中间层知识进行语言描述，例如，CNN中记忆了多少部分以及如何组织这些部分。•桥接中间层特征与最终CNN预测：当我们为中间层要素分配了A头部过滤器A脚部过滤器A躯干过滤器贡献2.32%贡献0.72%贡献1.21%除了特定部分的概念之外，下一个问题是定量地解释CNN如何使用这些中间层特征来计算预测分数。换句话说，给定一个输入图像，我们希望澄清CNN预测的具体理由。图2.编码所有潜在决策模式的决策树以粗到细的方式来处理CNN我们学习了一个用于对象分类的CNN，给定一个输入图像，我们从决策树中推断出一个解析树（绿线），以语义和定量地解释哪些对象部分（或过滤器）用于预测以及对象部分（或过滤器）对预测的贡献。我们对高层决策模式更感兴趣，这些模式将低层模式总结为CNN预测的紧凑解释。对CNN的解释具有超越CNN的像素级可视化/分析的潜在价值。语义和定量的解释可以帮助人们更好地理解和信任CNN的预测。例如，在关键应用中，例如手术计划的推荐，人们通常不简单地满足于计划本身，而是期望对计划进行然而，弥合CNN的中间层特征和语义解释之间的差距还没有得到很好的探索。我们将从以下两个角度介绍我们的任务，阐明其挑战，并定义相关概念• 将中间层功能与语义概念连接起来：给定一个输入图像，第一个问题是学习更多的交互-CNN内的可预测特征表示，并将CNN内的每个神经激活与语义概念相关联。这对最先进的算法提出了重大挑战。首先，我们需要在学习过程中强制中间卷积层中的特征表示被很好地分解。根据[2，38]2，传统CNN中的过滤器通常表示部分和纹理的混合学习语义上有意义的过滤器是困难的，但它是语义级解释的基础。在这项研究中，我们学习了一个在高conv层中使用解纠缠滤波器的CNN。每个滤波器需要在不同的输入图像上由相同的对象区域一致地激活。我们不使用任何零件或纹理的注释来监督过滤器特征的分离。2 Zhang et al. [40]总结了[ 2 ]中定义的六种类型的语义作为部件和纹理。在这里，我们将CNN预测的基本原理定义为被激活并有助于预测的对象部分（或过滤器）的集合。给定不同的输入图像，CNN使用不同的对象部分来激活不同的滤波器集合以计算预测分数，从而具有不同的基本原理。让我们以鸟类分类为例。CNN可以使用由头部外观激活的几个滤波器作为基本原理来对站立的鸟进行分类，并且CNN可以采用用于翅膀的滤波器来区分飞鸟。给定每个输入图像，我们的任务是澄清哪些对象部分被激活的过滤器，并定量地测量每个对象部分对预测的贡献。贡献的概念在[24，22]中也被称为如图2，我们将贡献描述为ter贡献了2.32%，foot filter贡献了0.72%。任务：如图所示。 1 ，给定一个预先训练好的CNN，我们提出了一种方法来构建一个决策树来语义和定量地解释CN-N预测。我们将CNN对所有图像的预测的基本原理总结为各种决策模式。每个树节点代表一个决策模式。每个决策模式描述了由多个图像共享的预测的共同原理。也就是说，对于这些图像，CNN通常会激活类似的过滤器（对象部分），每个部分对预测都有类似的贡献决策树以从粗到细的方式分层表示CNN的所有潜在决策模式靠近树根节点的节点主要代表许多图像共享的最常见的决策模式（预测原理）。叶附近的节点对应于少数图像的细粒度模式。特别地，每个叶节点编码特定图像的特定决策模式。为了构建决策树，我们学习过滤器来表示对象部分（我们不将任何部分或纹理标记为附加监督3）。然后，我们为每个过滤器分配一个特定的部件名称。最后，我们挖掘决策模式，3部分注释不用于学习CNN和决策树。给定学习的CNN，我们标记滤波器的对象部分，以计算方程（11）中的部分级贡献。...一种决策模式FC层顶部对流层中的分离过滤器6263解释CNN如何使用部分/过滤器进行预测，并构建决策树。推理：当CNN对输入图像进行预测时，决策树确定解析树（见图中的绿线）。（2）对一系列解释进行编码。解析树中的每个节点（决策模式）在不同的抽象级别解释预测，即澄清每个对象部分/过滤器对预测分数的贡献。与叶节点中的细粒度模式相比，我们对高层节点中的通用决策模式更感兴趣。通用决策模式通常选择重要的对象部分（过滤器）作为CNN预测的基本原理，并忽略不重要的部分。因此，通用决策模式反映了CNN预测的紧凑原理。贡献：在本文中，我们的目标是使用语义视觉概念来定量和语义地解释CNN预测。我们建议在没有强有力的解释监督的情况下学习决策树我们的方法是一个通用的-IC方法，并已成功应用于各种基准CNN。实验证明了该方法的有效性。2. 相关工作在本节中，我们将讨论限制在打开CNN表示的黑匣子[2，21，9，4]针对不同的任务，从不同的角度讨论了可解释性的定义。Zhang等人 [43]对深度视觉模型的可解释性进行了调查CNN可视化：CNN中过滤器的可视化是最直接的方式来探索隐藏在一个神经单位基于直觉的可视化[37，23]估计使神经单元的激活分数最大化的输入图像。上卷积网络[10]将conv层的特征映射转化为图像。与基于梯度的方法不同，上卷积网络无法在数学上确保可视化结果反映实际的神经表示。Zhou等人 [44]提出了一种方法，可以准确计算特征图中神经激活的图像分辨率感受野。神经激活的估计感受野小于基于滤波器大小的理论感受野。感受野的准确估计Bau等人 [2]进一步定义了CNN的六种语义类型，即对象、部分、场景、纹理、材料和颜色。Zhanget al. [38]将这六种语义归纳为“部分”和“纹理”。然而，CNN中的每个过滤器都代表了语义的混合。[45]解释了视觉识别的语义原因。网络诊断：除了可视化之外，一些方法诊断预训练的CNN以获得对CNN表示的理解。Fong和Vedaldi [11]分析了多个过滤器共同代表一个特定的语义概念。Yosinski等人 [36]评价了过滤器在中间对流层中的可转移性。Aubry等人 [1]计算了 CNN 特征空间中不同类别的特征分布。Selvaraju等人[26]和Fong等人[12]传播特征图的梯度w.r.t. 将CNN损失恢复到图像，以估计直接贡献网络输出的图像区域。LIME [24]和SHAP [22]是CNN用来预测标签的示例图像区域。Zhang等人。 [41]使用解释器网络来解释CNN中间层中的对象部分表示。网络攻击方法[17，30]通过计算C-NN的对抗样本来诊断网络表示。特别是，提出了影响函数[17]来计算对抗样本，提供合理的方法来创建训练样本来攻击CNN的学习，修复训练集，并进一步调试CN的表示。N. Lakkaraju等人。 [19]以弱监督的方式发现了预训练CNN的知识盲点（未知模式）。[39]的研究检查了conv层的表示，并自动发现由于数据集偏差而导致的CNN的潜在偏差表示。CNN语义化：与CNN表征的诊断相比，一些研究旨在学习更有意义的CNN表征。一些研究从CNN中提取具有清晰语义的神经元用于不同的应用。给定conv-layers的特征图，Zhou等人。 [44]提取场景语义。Simon等人从conv-layers的特征图中挖掘对象[27]，并学习对象部分[28]。胶囊网[25]使用动态路由机制将整个对象解析为一个cap-turbine解析树。网络中胶囊的每个输出维度可以编码特定的含义。Zhang等人。 [40]提出用解纠缠的中间层表示来学习CNN。infoGAN [6]和β-VAE [15] 学习了生成模型的可解释输入代码。Zhang等人。 [42]通过网络移植学习了神经网络的功能可解释的模块化结构。神经网络的决策树：从神经网络中提取知识到树结构是一个新兴的方向[13，31，5]，但树并没有在人类可解释的语义水平上解释网络知识。Wu等人。 [35]通过知识蒸馏学习了一棵决策树来表示RN-N的输出特征空间，以便正则化RNN以获得更好的表示。S. Vaughan等人 [32]将知识提炼成一个加性模型来解释。尽管使用了树结构，但上述两项研究与我们的研究之间存在两个主要差异。首先，我们专注于使用一棵树来解释预先训练的CNN在语义上做出的每个预测。相比之下，上述研究中的决策树主要是针对类学习的，6264过滤器1普通过滤器特征图的分布和零件位置的分布之间的信息。Σ滤波器2损失f=xf∈Xf Lossf（xf）=−MI（Xf;P）滤波器3Σ=−μ∈PΣp（µ） xf∈Xf p（xf|µ）logp（xf|µ）p（xf）（一）图3.普通CNN特征图和本研究中使用的解纠缠特征图之间的我们基于[44]可视化与每个特征图对应的图像区域。不能提供语义层次的解释-S. 其次，我们从梯度w.r.t. 对象部分的神经激活作为解释CNN预测的基本原理。与上述“基于蒸馏”的方法相比3. CNN预测在本节中，我们设计了一种方法，将CNN内部的复杂特征处理简化为线性形式（即等式（3）），作为预测w.r.t.的具体原理。输入图像。该线性方程阐明了（i）哪些对象部分激活CNN中的哪些滤波器，以及（ii）这些部分/滤波器对最终预测分数的贡献有多大。为了获得CNN预测的语义级基本原理，我们需要（i）首先确保CNN的中间层特征在语义上是有意义的在这项研究中，我们学习CNN用于对象分类。从理论上讲，我们可以解释面向不同任务的CNN。然而，在本文中，我们将注意力限制在CNN分类上，以简化故事。3.1. 学习解缠过滤器其基本思想是修改基准CNN，以便使顶部conv层中的每个过滤器表示特定的我们期望过滤器自动转换为零件的表示，而不是使用附加的零件注释来监督学习过程。其中MI（·）表示互信息。 Xf表示从不同输入图像提取的 f 的特征图的集合。 P={µ|μ=[h ， w] ， 1≤h ，w≤L}μ{μ}被称为所有部件位置候选的集合。每个位置μ= [h，w]对应于xf中的一个激活单元。此外，X∈P表示目标部分不出现在目标部分中的情况输入图像。在这种情况下，xf中的所有单元都将保持不动作。联合概率p（xf，μ）描述xf和μ之间的相容性（详见[40]）。滤波器损失确保给定输入图像，xf应该仅匹配所有L2+ 1位置候选者中的一个它被假定为在各个区域上的重复形状更有可能描述低级别的纹理比高级别的部分。如果出现该部分，则xf应在部件位置;否则，xf应保持未激活状态。3.2. CNN预测的定量依据如[2]中所分析的，高卷积层中的滤波器更倾向于表示对象部分，而低卷积层中的滤波器通常描述纹理。因此，我们选择顶部conv层中的过滤器来表示对象部分。因此，我们定量地分析了全连接（FC）层如何使用来自顶部conv层的对象部分特征来进行最终预测，作为理论基础。给定输入图像I，令x∈RL×L×D表示ReLU操作后顶部conv层的特征图，其中L表示特征图的尺度，D是过滤器编号。令y表示softmax操作之前的某个类别（当CNN针对多个类别学习时，我们可以学习特定的决策树来解释每个类别的输出）。我们的任务是用x来表示y的基本原理。正如[22，24]中所讨论的，我们可以使用分段线性图10示出了用于表示级联FC层和ReLU层的功能的表示，如下所示。Σ我们将滤波器损耗[40]应用于顶部卷积中的每个滤波器层以将过滤器推向对象部分的表示。如图3、学习滤波器是主动的。y=ffc-n（frelu（···ffc-1（x）=h，w，dg（h，w，d）·x（h，w，d）+b（2）在给定不同输入图像的情况下，由相同的对象部分来改变。从理论上讲，我们的方法也支持在中间层中挖掘可解释特征的其他技术[38，27]。然而，滤波器损耗通常确保比其他方法更有意义的特征。过滤损失：设xf∈RL×L表示滤波器f的特征映射. 如果没有零件注释，则滤波器损耗力xf由某个类别的特定部分专门激活。我们可以将滤波器损耗总结为负互信息-6265x其中x（h，w，d）∈R表示位置处的元素（h，w）;g（h，w，d）是描述x（h，w，d）对I. 从理论上讲，我们可以计算g = y和b =y − g x。我们使用权重g来表示对输入图像进行预测。g（h，w，d）x（h，w，d）测度x（h，w，d）不同的输入图像对应不同的权重g，即他们的CNN预测的不同理由。是6266G=h，w x（h，w，d）vQP0P1u...u'v v过滤器1：头部模式过滤器2：躯干模式…过滤器D-1：脚模式过滤器D：尾型P2u...’算法1学习一个类别的决策树输入：1.一个CNN与解开过滤器，2。训练图像=+−。输出：决策树。初始化一棵树Q=P0并设置t= 0对于每个图像Ii，i∈N+do，初始化初始树Q的根的子树，基于等式（3）和α=1设置g = gi。端图4.学习决策树P3中的绿线表示解析树，用于解释图像预测的基本原理。因为不同的图像具有通过ReLU层的各种信号传递给定输入图像I，CNN使用特定于I的某些权重值。因为每个可解释的过滤器只有一个活动，对于t=t+ 1，直到Δ logE≤0，1. 在Pt−1的第二个树层中选择（v，v′），基于等式（8）最大化对数E2. 基于等式（5）和（6）合并（v，v′）以生成新节点u，并获得树Pt。端分配过滤器与语义对象部分，以获得A。对于峰[40]，我们可以进一步计算向量x，g ∈RD作为张量x的近似，简化计算。我们得到xΣ（d）其他事项x1sdh，wx（h，w，d）和叶子节点子节点v′子（v），子（v），子（v）（d）sdL2其中，x（d）表示第d个元素。TV细粒度X的部分。sd=EIEh，wx（h，w，d）用于归一化第d个滤波器的激活幅度以这种方式，我们可以认为x和g表示预测原理4，即使用哪些滤波器/部件进行预测。y=gTx+b（3）模式由图像的子组共享。就像等式（3）中定义的基本原理一样，节点v中的决策模式用w和b参数化，并且该模式解释对特定图像集的预测。对于每个图像Ii，i∈N，v，决策模式如下：hv（xi）=wTxi+b，w=αg（4）向量x的不同维数测量标量不同物体部分的信号强度，因为滤波器可能ΣMaxGi∈N cosine（gi，g），s.t.gTg= 1（5）基本上表示某个对象部分。g对应于用于CNN预测的对象部分的选择。min1Σα，bi∈N （wTxi+b−yi）2+λ<$α<$1（六）4. 学习决策树我们学习决策树来解释每个类别的分类。在接下来的两节中，我们首先定义了决策树的基本概念，然后介绍了学习算法。4.1. 决策树让我们专注于某个类别的决策树我们认为这类图像是积极的图像，其他图像是消极的图像。表示目标类别的图像索引，即，正图像，并且=+−表示所有训练图像。对于图像Ii（i∈N），yi表示softmax层之前的目标类别的分类得分如图在图2中，决策树中的每个节点v对隐藏在CNN的FC层内部的决策模式进行编码。决策模式表示由一组正训练图像共享的预测好的。决策树以从根节点到[4]不失一般性，我们将g归一化为一个单位向量，以获得更令人信服的结果：y←y/g，g←g/g，b←b/g。...v v...=Σ6267其中w被称为决策模式的基本原理g是一个单位向量（单位向量2 = 1），它反映了所有图像共享的共同基本原理。α∈ {0，1}D被给出为判决模式中的滤波器的二元选择。请注意元素乘法。我们计算稀疏α，获得决策模式5的稀疏解释。特别地，当V是叶节点时，决策模式被公式化为特定图像Ii的基本原理。即 α =[1，1，. . . ，1] T和w = α | gi = gi，其中gi在等式（3）中计算。4.2. 学习决策树决策树学习的基本思想是从不同图像的特定决策模式中总结出通用的一般决策模式，这与层次聚类相似。算法1示出了学习过程的伪代码。首先，我们通过设置g=gi和α=1将每个正图像Ii的决策模式gi初始化为叶节点。因此，我们建立一个初始树Q，如图所示。4，其中根节点将所有正图像的决策模式作为子节点。然后，在每一步中，我们选择合并第二树层中的两个节点v，v′∈V（即根节点的子节点），得到新节点u，其中V表示根节点的子节点集。你成为一个新的孩子6268我我我我v和v′被重新分配为u其中ρi的第d个元素∈RD，ρ（d），表示逆dren. u的像集被定义为u=vv′，我们基于等式（5）和（6）学习u的α，b，g这样，我们逐步修正初始树P0=Q在T次合并操作之后，第d个滤波器做出的CNN预测的部分若ρ（d）>0，则第d个对象部分构成正连通.如果ρ（d）0，则第d个滤波器产生负贡献。<基于图1和图2中的可视化结果3和Q=P0→P1→P2→···→PT=P我们将学习目标表述如下。QmaxE，E=Qi∈N+P（xi）·e−β<$V<$（七）（八）6，我们标记矩阵A ∈ {0，1}M×D，以将顶部conv层中的每个滤波器分配给特定的对象部分，其中M是部分编号。每个过滤器被分配给某个部分，注释成本是O（M）。类似地，Pi∈N+ Q（xi）` 联系我们拉吉吉 ∈RM，φ（m）度量第m部分的收缩.联系我们区分能力决策模式5. 实验其中P（xi）表示树P估计的xi为正的可能性。β是缩放参数5。这一目标惩罚的歧视权力的下降，并迫使系统总结了一些通用的决策模式进行解释。我们计算xi为正的可能性为：实施详情：我们基于四个基准C-NN的结构学习了四种类型的解纠缠CNN，包括AlexNet [18]，VGG-M网络[29]，VGG-S网络[ 29]，VGG-16网络[29]。请注意，如[40]中所讨论的，解释器中的滤波器损耗为γh（x） ΣP（xi）=ei/j∈Ωeγh（xj）（9）与剩余网络中的跳过连接不兼容- s [14]。我们遵循[40]的技术来修改或-其中h（xi）=hv（xi）表示基于第二树层r中的最佳子树v∈V对xi的预测。 γ是常数标度参数5。在第t步中，我们将Pt−1的第二树层中的两个节点v，v′∈V合并，得到一个新节点u，从而得到一棵新的树Pt。我们可以很容易地计算出w.r.t. 每对（v，v′）基于等式（8）。因此，我们通过贪婪策略学习决策树。在每一步中，我们选择并合并节点v，v′∈V，埃洛格湖我们对合理的聚类进行了归一化ǁΩv ǁ+ ǁΩv′ ǁing性能。由于每个节点合并操作只影响节点对（v，v ′）中几个例子的h_（xi）值，因此我们可以快速估计每对节点（v，v′）的h_（xi）值.4.3.解释CNN给定测试图像Ii，CNN做出预测yi。决策树在不同的细粒度级别上估计预测在推理过程中，我们可以从根节点开始，以自顶向下的方式推理出一棵解析树。图中的绿色线条。4显示了一个解析树。当我们选择节点u中的决策模式作为基本原理时，我们可以进一步选择其最大化与最具体的基本原理gi的兼容性的子版本作为更细粒度的模式：v=argmaxv∈Child（u）cosine（gi，wv）（10）其中我们添加下标v以区分v的参数与其他节点的参数。解析树中的节点v提供了在某个细粒度级别上对图像Ii我们计算向量ρ i和ρi，以评估不同滤波器和不同对象部分的贡献。ρi=wv<$xi，<$<$i=Aρi（11）将CNN的顶部conv-layer改变为解缠结CNN，其将CNN的顶部conv-layer改变为解缠结conv-layer，并且进一步在顶部conv-layer上添加解缠结conv-layer我们使用新的顶层conv层的特征图作为决策树的输入。我们直接从CNN 加载所有旧的 conv 层的参数， CNN 是使用ImageNet ILSVRC 2012数据集[8]中的图像进行预训练的，1000个类别的分类会丢失。我们初始化了新的顶层conv-layer和所有FC层的参数。受文献[40]研究的启发，我们可以将多类分类问题弱化为多个单类分类问题，以简化可解释性的评价。因此，我们微调了CNN，用于从具有对数逻辑的随机图像中对单个类别使用三个基准数据集的损失。在所有实验中，我们简单地将参数设置为β= 1，γ= 1/Ei∈N+[yi]，λ= 10−6v，以进行公平的比较。数据集：由于CNN预测的定量解释要求我们为顶层卷积层中的每个滤波器分配特定的对象部分，因此我们使用了三个具有地面真实艺术注释的基准数据集来评估我们的方法。所选数据集包括PASCAL部件数据集[7]、CUB 200 -2011数据集[33]和ILSVR-C 2013 DET动物部件数据集[38]。就像在大多数部分定位研究[7，38]中一样，我们使用动物类别进行评估，这些动物类别通常包含非刚性形状变形。也就是说，我们从PASCAL Part Dataset中选择了六种动物类别-鸟，猫，牛，狗，马和羊。CUB 200 -2011数据集包含200种鸟类的11.8K图像。像在[3，28]中一样，我们忽略了物种标签，并将所有这些图像视为单一的鸟类类别。ILSVRC 2013 DET动物部分数据集[38]包括所有200个类别中的30个动物类别，62695有关β、γ和λ的设置，请参见实验部分。ILSVRC 2013 DET数据集中的对象检测[8]。6270我我我（d）其他事项1123112 3112 3112322223333图5.与第二树层中的节点相对应的决策模式的可视化我们展示了每个决策模式的典型图像输入激活分布捐款分配输入激活分布捐款分配鸟颈过滤器鸟胸过滤器猫躯干过滤器猫头过滤器滤波器在不同图像上的图像感受野图6.对象部分对CNN预测的贡献。饼图显示了不同部分的贡献比例，这些贡献比例是使用第二树层中的节点估计的。热图指示顶部conv层中神经激活的空间分布（注意，热图不表示“贡献”的分布，因为神经激活不被gi加权）。右图显示了[ 44 ]估计的不同滤波器的图像感受野。基于这些接受过滤器，我们分配不同的对象部分的过滤器来计算对象部分的贡献的分布。分析预测对象部件：当我们为每个过滤器分配特定的对象部分时，我们分析了CNN预测中不同对象部分的贡献。等式（ 1 1 ）中的向量V r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r rr r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r rr r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r rr r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r rr r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r rr r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r r rr r r r r r r r其中y表示I上的原始CNN预测;y=i是当我们从对应于第i部分的特征图（过滤器）中移除神经行为时的输出在这在这里，我们使用deEI∈I[−]/EI∈I[y]来解-不同目标部分在预测中的贡献伊岛对于第m个对象部分，我们计算conrim=注意第i部分贡献的误差。另一个指标，即贡献分布，比较（m）ΣM′（m）不同文件上的地面实况贡献分布-|拉吉吉|/m′=1|拉吉吉 |作为部件收缩的比率。更具体地说，对于基于ILSVRC 2013 DET Animal-Part数据集的CNN，我们手动标记了对于基于PascalVOC Part数据集的CNN[7]，[40]的研究将数十个小部分合并为六个动物类别的几个主要标志性部分给定某个类别的CNN，我们使用[44]来估计不同图像中对应于每个滤波器的神经激活的区域6和3）。对于每个过滤器，我们从所有主要的土地中选择一部分-顶部对流层中的温度，估计贡献为这些过滤器在预测过程中。当决策树使用节点vi来解释I i的预测时，等式（11）中的向量ρ i表示不同滤波器的估计贡献分布。 ti =gi xi对应于地面实况贡献分布。我们报告了ρ i和ti之间的联合值的相互作用，以衡量地面实况和估计的滤波器贡献分布的适应性即我们计算了拟合度（d）其他事项（d）其他事项如E最小值（ρ）、|不|），其中t表示第d个i∈+ [客户端]我我max（ρε（d），|t（d）|）i标记最接近滤波器的图像接收器i i的部分元素ti和ρ∈（d）=max{ρ（d）sign（t（d）），0}. 我们使用通过所有正面的图像。对于CNN基于我（d）其他事项我我（d）其他事项CUB 200 -2011数据集，我们使用鸟类的胸部，前额，颈背，尾巴的地面真实位置作为主要的标志性部分。类似地，我们将顶部卷积层中的每个过滤器分配给最近的地标部分。评价指标：评价有两个方面。首先，我们使用两个度量来评估预测的估计基本原理的准确性。第一个度量评估使用第二树层中的节点估计的对象部分对CNN预测的贡献的误差。在给定输入图像I的情况下，等式（11）中的i表示第i部分的定量贡献。因此，委员会认为，̺ˆ∗=y−yˆiisreferredtoastheground-truthcontrib utionof6271ρi的非零均值和|我不是|，因为向量ρi并且ti可以具有负元素。其次，除了原理的准确性之外，我们还测量了使用决策树表示CNN的信息损失一个度量标准是分类准确度。因为h（xi）表示y i的预测基于第二树层的最佳子树，我们将h_i（·）作为树的输出，并对 h_i（·）的鉴别能力进行了评估。我们用h_（xi）的值进行分类，并比较了它的分类精度。与CNN的准确性。另一个度量，即预测误差，衡量的是6272数据集第2月5月10第50第100ILSVRC动物部分4.831.669.1236.5402.1VOC部分3.825.759.0219.5361.5CUB200-20115.032.064.0230.0430.0表1.为VGG-16网络学习的决策树的第2、5、10、50和100层中的平均节点数乳腺额头nape尾巴平均第2层0.0280.0040.0130.0050.013第5层0.0240.0040.0100.0060.011第十层0.0220.0040.0100.0050.010第五十层0.0180.0030.0080.0050.009第一百层0.0190.0030.0080.0050.009表2.使用决策树的第2/5/10/50/100层中的节点估计的对象部分贡献的误差。CNN是使用CUB200数据集学习的。数据集第2月5月10第50第100叶ILSVRC动物部分0.230.300.360.520.651.00VGG-16VOC部分0.220.300.360.530.671.00CUB200-20110.210.260.280.330.371.00VGG-MVOC部分CUB200-20110.350.440.380.440.460.460.630.590.780.631.001.00VGG-SVOC部分CUB200-20110.330.400.350.400.410.430.630.480.800.521.001.00AlexNetVOC部分CUB200-20110.370.470.380.470.470.470.660.580.820.661.001.00表3.基于第2/5/10/50/100层节点和叶节点的贡献分布的平均适应度，反映了预测的估计基本原理的准确性。数据集CNN第2月5月10第50第100叶分类精度ILSVRC动物部分96.794.489.088.788.688.787.8VGG-16VOC部分95.494.291.090.189.889.488.2CUB200-201196.591.592.288.388.688.985.3VGG-MVOC部分CUB200-201194.296.095.797.294.296.893.196.093.095.292.694.990.893.5VGG-SVOC部分CUB200-201195.595.892.795.492.694.991.393.190.293.488.893.686.188.8AlexNetVOC部分CUB200-201193.995.490.794.988.694.288.694.387.992.886.292.084.190.0预测误差ILSVRC动物部分–0.0520.0640.0630.0490.0340.00VGG-16VOC部分–0.0520.0660.0700.0510.0350.00CUB200-2011–0.0750.0990.1010.0870.0830.00VGG-MVOC部分CUB200-2011––0.0530.0360.0510.0370.0510.0380.0340.0350.0190.0300.000.00VGG-SVOC部分CUB200-2011––0.0470.0450.0470.0460.0450.0500.0350.0510.0190.0380.000.00AlexNetVOC部分CUB200-2011––0.0550.0440.0580.0440.0550.0450.0380.0390.0200.0330.000.00表4.基于树的第2/5/10/50/100层节点和叶节点的平均分类精度和平均预测误差分类精度和预测误差反映了未被决策树编码的CNN知识估计值h（xi）w. r.t的真实价值yi。我们计算出预测误差为Ei∈N+[|h（xi）− yi|]/（maxi∈yi−min i∈yi），其中我们使用yi的值范围对误差进行归一化。对不同层节点的评估：上述三个指标评估决策树第二层中的决策模式（节点）由于较低层的节点编码更细粒度的决策模式，我们扩展了这三个指标来评估低层的节点当我们评估第k层中的节点时，我们通过删除第k层以上的所有节点并将根节点直接连接到第k因此，我们可以将评估应用于新树。基于决策树的解释：决策树中的决策模式客观地反映了隐藏在CNN内部的知识。表1通过列出决策树的不同层中的节点数量来显示决策树的结构图5可视化决策树中的决策图图6显示了对象部分对CNN预测的贡献分布，这些分布是使用决策树第二层中的节点估计的表4评估了当我们使用决策树来表示CNN时的信息损失。平均分类准确率、平均预测误差是用来评价的。表2和表3分别使用对象部分贡献的误差和贡献分布的平均适应度来评估基于不同树层中的节点的估计原理的准确性一般来说，由于细粒度决策模式接近图像特定的基本原理，因此细粒度决策模式通常产生较低的错误预测率。然而，细粒度的决策模式并没有表现出更高的分类精度。这是因为我们的方法被设计为挖掘特定类别对象的共同决策模式，而忽略了随机/负面图像，这与分类器的判别式学习不同。6. 结论和讨论在这项研究中，我们使用决策树来解释CNN在语义层面上的预测我们已经开发了一种方法来修改CNN，并建立了CNN和决策树的紧密耦合。所提出的决策树将CNN的决策模式编码为每个CNN预测的定量依据。我们的方法不需要对训练图像中的对象部分或纹理进行任何注释来指导CNN的学习我们在不同的基准数据集上测试了我们的方法，实验证明了我们的方法的有效性。请注意，从理论上讲，决策树仅为CNN预测提供近似解释，而不是CNN表示细节的准确重建有两个原因。首先，没有准确的对象部分注释来监督CNN的学习，滤波器损失只能粗略地使每个滤波器代表一个对象部分。过滤器可能会被一些具有挑战性的图像中不相关的视觉概念激活。其次，在每个节点的决策模式忽略不重要的对象部分过滤器，以确保决策模式的稀疏表示。确认本工作得到了微软研究院、华为上海交通大学重点实验室、DARPA XAI Award N66001-17-2-4029、NSFIIS 1423305和ARO项目W 911 NF 1810296的部分资助。6273引用[1] M.奥布里和B. C. Russell.用计算机生成的图像理解深层特征。在ICCV，2015年。3[2] D. 鲍湾Zhou，中国古柏A.科斯拉A.Oliva和A.托拉尔巴网络解剖：量化深度视觉表征的可解释性。在CVPR，2017年。二、三、四[3] S. Branson，P. Perona，and S.贝隆吉从弱注解强监管：可变形零件模型的交互式训练。见ICCV，2011年。6[4] A. 钱德拉塞卡兰河

下载后可阅读完整内容，剩余1页未读，立即下载