卷积神经网络的全局解释与概念归因

154 浏览量更新于2023-10-20 收藏 939KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8652具有概念属性吴伟斌1，苏宇欣1，陈希贤2，赵胜林2，欧文金1，迈克尔R。吕1、戴玉荣21香港中文大学计算机科学与工程系2腾讯{wbwu，yxsu，king，lyu}@ cse.cuhk.edu.hk，{xixianchen，henryslzhao，yuwingtai}@ tencent.com摘要随着卷积神经网络（CNN）的日益普及全局解释有助于理解模型对整个样本类别的预测，因此最近引起了越来越多的兴趣。然而，现有的方法压倒性地进行单独的输入，或者依赖于模型的局部近似，使得它们无法提供CNN的忠实的全局解释。为了克服这些缺点，我们提出了一个新的两阶段框架，攻击的可解释性（AfI），解释，平原模型的决定，用户定义的概念的重要性。AfI首先进行特征遮挡分析，这类似于攻击模型的过程，以获得不同特征的类别范围的重要性。然后，我们映射的特征的重要性，概念的重要性，通过特设的语义任务。实验结果证实了AfI的有效性和它的优势，在提供更准确的估计概念的重要性比ex-technical建议。1. 介绍卷积神经网络（CNN）已经成为现实世界广泛应用的前沿解决方案，例如对象识别[21]，音频处理[17]和自然语言分析[49]。尽管这些强大的计算架构取得了惊人的进步，但它们的解释和理解CNN的行为已经成为一个越来越重要的研究课题它不仅可以证明CNN的决策，以提高模型的可信度，还可以发现它们的潜在缺陷，以激励开发更好的模型[12，16，9，45]。在众多的解释技巧中，归因-在量化中，惯例是测量人类可理解的单元对模型预测的重要性，诸如像素（即，输入属性）和概念（即，[19]第十九话概念归因可以克服输入归因的模糊性，因此近年来受到越来越多的关注[19，10，52]。文献中研究的概念属性解释界面有两种：局部解释[52]和全球解释[19]，我们在这项工作中关注后者，这是必要的，但尚未得到充分探索。局部解释研究了模型对单个数据点的预测的基本原理，当我们只关心特定实例时，这很有帮助。相比之下，全局解释集中在挖掘适用于整个类别的示例的通用决策模式。例如，全局解释可以回答带状纹理在多大程度上与模型认知中的斑马类相关。因此，这样的全局解释有助于简洁地总结模型知识，并从整体上理解模型[19]。一般来说，现有的概念归属方法隐含地遵循两阶段过程[19，10，52]。首先，由于模型决策是建立在丰富的特征检测器上的，因此它们进行特征归属以量化各个特征检测器对模型预测的重要性1。在该步骤中，当前尝试简单地采用反向传播梯度作为特征重要性的估计。其次，通过将特征重要性转化为概念重要性来实现概念归属。大多数转向首先解决概念在模型特征空间中的嵌入（即，概念向量），然后测量该概念向量与特征重要性向量之间的对齐至于关注全局解释的作品，他们只是用上述过程孤立地分析单个预测，然后返回汇总统计[19，10]。这种获得全球解释的战略是否真的“全球化”是值得怀疑的第一个缺陷-研究者们简要地总结了CNN是如何达到他们的最后的决定[28，10]。在图像类的背景*通讯作者。1为了避免混淆，我们一直使用术语“特征”来指代CNN的特征过滤器检测到的视觉模式（例如，带状纹理）而不是输入像素。8653��′···············(0.8、0、-0.1）特征重要性特征1归因2��′��′��′��′特征遮挡概念班级印象概念重要性==��归因图1：我们框架的工作流程：为可解释性而攻击（Attacking for Interpretability，AfI）ily源于具有反向传播梯度的特征属性的过程，其隐含地建立在CNN的局部线性近似之上。不幸的是，这种近似仅在我们处理单个实例或CNN的最后一个线性层的接近度时才成立。更糟糕的是，用各自的梯度分别检查各个预测忽略了同一类的示例之间的连接，并且可能无法捕获嵌入在模型知识中的类的通用属性。为了克服现有建议的缺陷，我们提出了一个新的概念属性框架，用于CNN的全球解释。它明确地建立在先前努力的两阶段原型之上。因此，我们系统化的过程模型的解释，我们使每一步接地，并建议评估中间结果。更重要的是，我们深思熟虑地将输入遮挡的方法扩展到特征遮挡，这使得能够学习全局解释并深入研究模型内部进行逐层检查（第4.4节）。图1概述了我们框架的工作流程：可解释性测试（AFI）。在第一阶段，我们通过一个深思熟虑的特征遮挡分析来进行特征归属。基于归因的相反观点，以及CNN中的特征检测器可以被结构化模式抑制的事实[33]，我们通过在整个图像类别的输入空间中学习这样的特征遮挡器来进行特征遮挡器用于破坏类的关键特征过滤器，使得模型偏离其原始预测。这样的特征遮挡过程与攻击CNN以欺骗其决策（攻击）的过程一致然后，我们记录特征检测器的激活变化，并相应地对不同特征的重要性进行在第二阶段，我们通过将特征重要性直接锚定到概念重要性（可解释性）来完成概念归属。我们首先根据特征检测器的重要性得分直接组合特征检测器，以获得特定于类的元检测器，然后对一个con-specific元检测器进行语义测试除了兴趣。因此，Meta检测器在语义测试中的更高性能意味着所调查的概念对类的更大重要性。总之，这项工作的主要贡献是：• 我们提出了一个新的概念归因框架，用于CNN的全局解释。我们的框架明确-它建立在两阶段过程上，并采用新颖的特征遮挡方法来学习全局解释。因此，我们系统化的过程模型的解释。• 我们克服了大多数现有的全球解释技术，银行的局部近似的缺陷，CNN的作用。实验结果验证了我们的方法的有效性，并显示其优越性，以前的努力。• 通过我们的框架提供的全球解释，我们展示了它的用例，CNN，像接地模型决策和揭示模型认知中的偏见。2. 相关工作2.1. 归因在图像分类的背景下，属性旨在量化人类可读单元对模型决策的重要性[28，10]。根据模型预测的归属单位，有两种归属技术：输入和概念归属。输入属性根据不同输入像素的重要性解释模型行为。输入属性的结果，创造显着图，可以突出输入图像的最负责任的部分，用于模型决策。在这条轨道下有大量的工作，例如[2019 - 03 - 19 00 ： 00 ：00][2019- 03 - 19 00：00：00][2019 - 03 - 19 00：00]基于[1，24，46，51]，基于代理模型[30，23]，以及基于决策的方法[8，5，53，31，6，48，46]。不幸的是，尽管是直观的，但输入属性也会受到输入空间的限制。图像像素8654高度依赖他人，且具有多样性。因此，由输入属性返回的显着性图在成为人类可读的解释之前受到人类感知的影响。不幸的是，人类的判断是容易出错的，可能会导致矛盾的结论[19]。概念归因试图通过直接测量人类可理解的概念对模型决策的重要性来解决这个问题。它提供两个解释接口：局部解释适用于个体预测[52，28]，全局解释适用于整个类别的示例[19，10]。这两种概念归因都遵循一个隐含的两阶段过程。它们首先进行特征属性化以获得特征重要度，然后将特征重要度转化为概念重要度以完成概念属性化。在特征归属步骤中，先前的方案巧合地采用反向传播梯度作为单个特征对类的重要性的估计（特征重要性向量）。在概念属性阶段，他们通常利用概念分类来导出在CNN的隐藏层中的概念嵌入（概念向量）。这样的概念向量表示可以最好地检测概念的特征过滤器的组合。然后，他们沿着概念向量的方向投影特征重要性向量，以衡量相应概念对模型决策的重要性[52，19，10]。对于全局解释，他们只需单独对单个样本运行上述例程，并报告平均概念重要性[19，10]。我们的概念归因框架克服了现有的全局解释方法中模型的局部近似和样本的单独解释的缺陷在特征归属过程中，我们设计了一种新的特征封闭分析方法。它放弃了局部模型近似，并学习一种全局解释，考虑模型认知中同类样本之间的广泛联系受现有技术[26，19，7，3，52]的启发，我们的概念归属方案根据特征过滤器的重要性直接组合特征过滤器，并估计它们对感兴趣概念的表示能力以测量概念重要性。因此，与当前的尝试相比，我们的概念归属过程更一般，这也提供了将先验模型可视化技术[26，50]集成到概念归属中的机会与我们一样，一些努力也旨在克服现有全局解释方法中的上述缺点[47，13]。然而，它们的普遍适用性不如我们。[13]建议执行直接的概念遮挡分析，而他们假设访问给定概念的自然图像的生成过程[47]依赖于一个固有的更可解释的模型，其中每个特征过滤器独立地和排他地响应一个概念。相比之下，我们的技术广泛应用于后期培训，CNN图像分类器，无需数据生成机制或模型修改。2.2. 对抗敏感性CNN的功能单元对对抗模式（即所谓的对抗扰动）非常敏感。[43]首先发现，尽管人类无法察觉，但当连接到干净的图像时，它们可以使CNN偏离正确的决策。[33]进一步揭示了这种有目的的扭曲可能会误导CNN的特征过滤器。因此，他们可以操纵合法图像的隐藏表示。后续研究，如[25，4]，发现对抗性噪声对于图像组非常有效和普遍。基于这些发现，我们提出了一种新的特征归属方案，在该方案中，我们从图像空间进行特征遮挡，并利用它来学习全局解释。3. 方法在本节中，我们将详细介绍我们的框架设计.如图1所示，我们的两阶段方法通过依次处理以下任务来进行：（a）如何学习特征遮挡器以执行特征遮挡（第3.1.1节），（b）如何使用特征遮挡器完成特征属性（第3.1.2节），以及（c）如何通过将特征重要性与概念重要性对齐来实现概念属性（第3.2节）。我们首先设置一些符号。我们将输入图像视为具有标签预测y ∈ Y的向量x ∈Rn，其中Y：={1，.，K}是感兴趣的分类集合。按照惯例，图像将被归一化，使得x保持在[−1，1]n的范围内，在输入模型之前均值为零。在具有L层的CNN分类器中，具有m神经元学习从输入到隐藏表示fl的映射：Rn→Rm。特别地，最后一层计算logit 向量Z（x）∈RK，然后在softmax归一化后产生概率向量fL（x）第y个条目fL（x）[y]对应于x属于类y的概率。CNN分类器最终将输出标签预测，因此其决策函数为f：Rn→Y。3.1. 特征属性对于特征属性，我们提出了将输入遮挡方法扩展到特征遮挡的方法输入遮挡的一般过程是遮挡一些输入像素，并将模型输出的结果更改视为其重要性得分[46]。不幸的是，一个直接的适应几乎不适用于特征遮挡.在现代CNN架构中，有无数的神经元密切合作[7]。因此，单独封闭单个神经元忽略了它们的密集互连，而耗尽所有可能的组合是非常昂贵的。8655L我们通过一个相反的观点来解决这个困难。给定一个图像x和它的预测y，属性中的基本问题是解释模型如何将y类与所有其他类区分开来。此外，以特征属性的形式，我们可以总结出该二元分类任务中模型的推理过程为：图像x中的类y的特征更加突出因此，图像x的标签预测是y。（一）因此，它减少了对模型决策的支持功能。为此，我们首先将（1）的前向推理转化为它的逻辑等价：图像x的标签预测不是y-→图像X中的类别Y的特征不太突出。（ 2）然后结合（1）的反向推理：图像x的标签预测是y-→图像X中的类别Y的特征更加突出，（三）它将我们引向一个相反的过程，即带有封闭性的归因。具体来说，我们可以保守地破坏模型的特征过滤器，直到它被迫放弃其原始决策。因此，神经元激活的结果变化代表了它们对模型预测的重要性此外，由于CNN的特征滤波器容易受到结构化噪声的影响[33]，这种相反的观点使我们能够从输入空间执行特征遮挡。具体来说，我们可以首先学习这种恶意扰动来“减去”最小图像特征，这足以翻转模型预测。我们创造了这样的扰动特征遮挡器，其通过干扰负责的特征检测器有效地工作[33，2]。因此，这意味着特征遮挡器不需要以人类可识别的方式破坏图像然后，我们检查神经元输出的变化，我们将定义解释如下。在（4）的目标函数中，距离函数D测量δ的大小。因此，我们的目标是搜索最小扰动，这反映了干扰最小特征过滤器的吸引力根据CNN [11]中的滑动窗口方案，我们通过l1距离实现D（4）的第一个条件进一步要求全局特征遮挡物是同时翻转所有给定实例上的模型预测因此，它将更倾向于阻止决定性的特征检测器，共同的图像相同的类，考虑到嵌入在模型存储器中的样本之间的关系。因此，我们的方法对模型训练过程进行了一种逆向工程，这有助于揭示模型逻辑的更全局的图景。（4）的第二个条件进行正则化，其中t表示图像变换，如随机噪声。我们假设，纯粹的学习欺骗性失真可能最终会破坏一些脆弱的过滤器不太相关的基本图像特征。为了消除这样的伪影，我们还要求全局特征遮挡器在应用于原始图像的变换版本时仍然有效。我们期望在输入变换后的图像时，支持特征滤波器的输出可以保持相对不变。因此，这样的要求可能使特征遮挡器专注于使关键特征变暗，而不是达到最便宜的结构。此外，为了构造有效的正则化，我们确保t不会损害模型对干净图像的判断（4）的最后一个条件保证了被遮挡的图像仍然是模型的有效输入由于涉及CNN，直接求解（4）是困难的。相反，我们通过使用Adam优化器[20]迭代地最小化以下目标函数来获得近似值：评价其重要性。1ΣN（Z（x-δ）[y]+Z（t（x-δ））[y]）+ λ·D（δ）。（五）Ni=1i i3.1.1全局特征遮挡器当我们寻求同一类别下样本的全局解释时，我们首先制作一个全局特征遮挡器为他们形式上，给定图像集合{xi：i= 1，. - 是的-是的，N}具有相同的分类y，我们将它们的全局特征遮挡物δθ定义为：δθ=argminD（δ）使得f（xi−δ）yf（t（xi− δ））/= y i = 1，. -是的- 是的，Nf（t（xi））= f（xi）= y一旦遮挡物满足（4）中的所有约束，或者当我们超过预设的最大迭代时，我们的算法终止。3.1.2特征重要性评分现在，我们可以使用获得的y类全局特征遮挡器来计算特征重要性得分。具体地，第l层中第j个神经元检测到的特征的重要性得分为：1xi −δ ∈[−1，1]n.（四）sj=NNi=1（fl（xi）[j]−fl（xi−δ）[j]）。（六）Σ8656LLLLLLcLl重要性分数的符号区分了与模型决策相关的两种特征。具有正分数的神经元解释支持特征，而具有负分数的神经元投票支持对抗性对应物[50，34]。与传统实践类似，我们关注对模型决策有积极贡献的特征和概念[34，52]。因此，我们将sj中的负重要性分数归零，以获得我们采用的最终特征重要性分数（FIS）：'jjSL = max（sl，0）。（七）3.2. 概念归因这一步传达了特征的重要性，即人类容易理解的语义概念的重要性一些先前的提议首先分别检查CNN单元以确定它们的概念标签。然后，他们从相应单元的特征重要性得分中读取这些概念的重要性得分[28，47]。然而，这种策略忽略了CNN中具有纠缠编码的概念[3，7]。为了克服这一缺陷，我们提出了一个两步程序。我们首先根据其重要性分数组合CNN单元，这导致了特定于类的元检测器。然后，我们通过精心设计的语义任务估计元检测器的表示能力，其中较高的表示能力意味着概念对所研究的类的重要性更大。具体地说，在第一步中，为了获取特定于类别的元检测器，我们还将特征图视为像现有技术[7，3]那样的基础CNN单元。我们将第l层中的第c个特征图表示为Ac。因此，对于类y，我们将Ac内神经元的总重要性得分归一化为其通道重要性得分（CIS）：c1′jwl = B j∈Pcsl.（八）这里Pc是Ac中神经元的索引集，B是一个非线性函数。Y类的元检测器的总激活。精心制作的图像对应于一个类印象。它定性地描述了模型内存中类概念y对于定量概念属性，我们将其具体化为概念分类任务，其中我们衡量元检测器区分不同概念的能力，并相应地对具体来说，我们求助于具有概念标签的探测数据集，如[19，10]所示。对于每个探针图像，我们首先从元检测器获得输出作为其新的表示。然后，对于感兴趣的概念，我们计算其样本与具有不相关概念标签的基准样本的差异。离散量化的Meta检测器关于这个概念的辨别力。我们采用最大平均离散度（MMD）作为差异度量[14]。因此，我们将所有中间层中计算的MMD值相加，并将归一化结果视为相应概念的重要性得分。4. 实验我们首先在第4.1节中报告中间攻击结果。然后，我们分别在4.2节和4.3节中评估我们的特征和概念属性结果。最后，我们分别在第4.4节和第4.5节中给出了一些定性和定量的说明，这些说明展示了我们框架的用例。我们用三个为ImageNet（ILSVRC 2012）分类训练的 CNN 证明了我们框架的有效性： ResNet-50 ，GoogLeNet和VGG-16 [15，42，37，32]。这些模型涵盖了图像分类的代表性模型种类，并在实践中有广泛的应用[29]。因此，这样的模型选择可以确认我们的方法的普遍适用性。此外，我们专注于ImageNet数据集，因为它是一个广泛认可的用于评估解释技术的数据集[36，10]，用于ImageNet分类的预训练模型是公开的，L l所以，我们可以用一个常数来表示wc∈[0，1]。我们将具有C神经元的全连接层视为具有空间分辨率为1×1。随后，我们将第l层中的特征图与CIS相结合以获得元检测器：f′= Δwc·Ac.（九）它编码了模型认知中各种概念与类y在第二步中，受工作[26，19，7，3，52]的启发，我们提出了两种语义任务来评估元检测器的表示能力。它们分别针对定性和定量概念归属而定制。对于定性概念归因，我们设计了一个生成任务。具体来说，我们采用模型可视化技术[26]来合成图像，可以最大限度地提高available. 因此，这样的数据集选择有助于与现有努力进行公平比较[19，10]。我们采用ImageNet的训练集来学习全局特征遮挡，以便我们可以在与模型相同的页面上工作。通过实验确定了参数。反式-形成函数t是以下的组合：（1）在[-0. 04，0。04]n和（2）[-5，5]内的随机旋转。λ的设置是为了平衡（5）中各项的贡献。4.1. 攻击结果作为实验演示，我们首先从ImageNet数据集中的所有1000个类中随机选择100个类[32]，并为我们的实验修复这些类。然后，我们为每个类学习一个全局特征遮挡器检验全局特征的攻击成功率8657模型清洁摄动随机抽样一个平衡的数据集，其中包括ResNet-500.87710.0973类和补集的相同数目的实例GoogLeNet0.81150.0907一个。我们还可以确保教师模型能够-VGG-160.80950.1001正确识别所有包含的图像。然后对于每个样本，我们计算来自元检测器的输出，表1：不同模型在干净图像上的平均前1准确度以及用相应的全局特征遮挡物扰动的对应物。教师模型，其被展平为图像的表示。最后，我们训练学生模型，根据ImageNet的原始训练-验证分区对结果数据进行二进制分类教师模型梯度-AFIAFI为了进行比较，我们还根据最先进的基线- TCAV[19，10]的特征属性结果具体来说，TCAV提出了对具有反向传播梯度的单个样本执行特征归属。由于TCAV不获取类的全局特征重要性得分（FIS），我们表2：不同方法得出的学生模型的平均准确度。遮挡物，我们用相应的全局特征遮挡物扰动图像，并计算模型在这些样本上的平均top-1表1报告了结果。我们可以看到，我们的全局特征遮挡器可以严重破坏模型在扰动图像上的性能。因此，用我们的方法学习全局特征包是可行的。此外，基于我们的初步实验，我们注意到，只要攻击成功率足够高（不一定是100%），我们就可以获得相当准确的全局归因结果。这可能是因为全局概念定位器应该发现在模型认知中对于类经常重要的概念（例如，虽然有些树木目前可能没有叶子），并且不必太注意不具代表性的样本。另一方面，如果封堵器不能达到高成功率，我们的整体解释方法的性能将退化。因此，我们在实验中通过类特定的微调来减轻它。4.2. 特征属性结果的评价为了检查我们的特征归因结果-特征重要性得分，我们提出了一个类似于[44，22]的蒸馏测试。我们把我们要解释的模型看作是教师模型。如果对于类y，教师模型具有突出的准确性，并且我们的特征重要性得分是正确的，则导出的元检测器也应该对类概念y具有高的区分能力。换句话说，给定元检测器作为输入的激活，紧凑的学生模型可以将类y与其他类区分开来。学生模型的性能越高，表明特征归因结果越精确。因此，我们将蒸馏测试作为ImageNet中的二进制分类任务来实现。对于每一个类，我们首先将其特征属性结果在整个类别的示例上进行平均，作为要测试的FIS。表2报告了超过100个类的学生模型的平均准确度。我们利用的所有学生模型都是具有三个完全连接层的神经网络，其中分别有32，16和2个神经元。从我们的方法（AfI）派生的学生模型它验证了我们的特征归因机制的有效性和其优越性的国家的最先进的基准。此外，我们运行消融研究以验证变换函数t的贡献，其中当学习特征遮挡物时，我们将其从（5）中由此产生的学生模型的性能下降证实了t的正则化效果。此外，在我们的方法下，GoogLeNet的学生模型表现出最好的性能相比，其他教师模型。由于我们通过模型决策的全局解释获得学生模型，这可能表明GoogLeNet依赖于更一致的特征组合来识别来自同一类的样本，因此采用了比其他模型更多的类别通用决策模式4.3. 概念归因结果的评价我们遵循[10]来评估我们的概念归因结果-概念重要性分数，因为[10]可以高效地进行广泛的定量评估。具体来说，[10]将语义图像片段视为概念数据。它导致两个指标：最小充分概念（SSC）和最小破坏概念（SDC）。SSC是最小的概念集合，足以使模型预测目标类，而SDC是最小的概念集合，其缺失将导致错误的预测。更准确的概念重要性分数可以导致SSC和SDC的更精确的估计。因此，给定一个类，我们首先分割该类的图像并聚类相似的片段。每个集群代表基于（无t）ResNet-500.88990.89180.9592GoogLeNet0.83830.88960.9826VGG-160.85310.86790.94688658AFITCAV随机AFITCAV随机预测精度预测精度ResNet-50GoogLeNetVGG-1660606040404020202000 1 2 3 4 5增加的概念ResNet-5090807060500 1 2 3 4 5概念数量00 1 2 3 4 5增加的概念(a) SSCGoogLeNet807060500 1 2 3 4 5概念数量(b) SDC00 1 2 3 4 5增加的概念VGG-1680706050400 1 2 3 4 5概念数量图2：当我们开始编辑通过不同方法估计的最重要的SSC/SDC时，模型精度变化对于我们的方法（AfI），前5个SSC足以在所有模型中恢复超过74%的原始准确度，而删除前5个SDC可能会导致所有模型中超过45%的原始准确度下降我们还以随机顺序绘制由我们的方法（AfI）得到的概念重要性分数始终比基准（TCAV）更准确，因为模型精度的变化对于我们的方法来说更剧烈山雀狼蛛示例图像ResNet-50GoogLeNet VGG-16按重要性顺序依次将SSC添加到空白图像或从源图像中删除SDC。我们记录模型准确性的变化，以检查我们得出的概念重要性分数我们还在相同的设置下测试了最先进的基线（TCAV），以进行比较[10，19]。图2显示了100个类的平均结果。这表明，随着模型的改变，我们对SSC和SDC的估计明显比TCAV更准确图3：不同模型捕获的类概念。为了更好的比较，展示了相应类别的示例图像。一个概念的例子利用这些概念数据，我们计算每个概念的重要性得分，并将最重要的概念筛选为SSC和SDC。最后我们在概念添加/移除期间的准确性更加显著。因此，我们估计的概念重要性分数比最先进的基准更精确。4.4. 类概念可视化通过我们的定性概念归因策略，我们可视化模型捕获的类概念。具体来说，对于一个随机类，我们首先单独生成可以高度激活每个中间层中的元检测器的图像。AFITCAV随机AFITCAV随机AFITCAV随机AFITCAV随机预测精度预测精度预测精度预测精度8659图4：不同概念对分类结果的重要性得分误差条指示标准偏差。模型图层名称原始输出形状ResNet-50 ResBlock_4c 7 x 7 x 2048GoogLeNet Mixed_5b 7 x 7 x 832VGG-16 Fc_6 1 x 1 x 4096表3：选择用于制作类印象的层及其原始输出形状（空间分辨率×通道数）。然后，我们通过视觉调查发现了第一层，在那里出现了类概念。这一层的类概念的可视化在生成类印象的过程中，除了总变差惩罚之外，我们不求助于任何其他自然图像先验，例如生成网络[27]。相应地，它确保类印象只产生于被检查模型的知识。图3显示了我们获得的一些类印象，以及相应类的示例图像，以便更好地进行比较。它说明了CNN可以捕获图像类的最突出特征，例如，狼蛛类的纹理此外，ResNet- 50似乎比其他模型更好地捕捉和利用图像的颜色属性，因为ResNet-50的类印象在颜色方面与相应类的原始图像更相似。表3报告了我们选择为每个模型制作类映像的层。我们注意到，在中间层，推断大量神经元与图像类别的联系是不平凡的。因为与最后一个logit层不同，它们的映射在训练过程中没有指定。因此，在CNN中间层发现类概念嵌入的能力进一步验证了我们框架的有效性。4.5. 用户定义的概念属性通过我们的定量概念归属方案，我们测量了用户定义的概念对分类的重要性。我们集中在解释广泛使用的ResNet-50，这在文献中涉及较少。作为实验性的例子，我们从三个代表性的群体（即，质地、性别和种族）分别分为三类我们遵循[19]来策划探测概念数据[32，3，18]。具体地，对于每对概念类型和图像类，我们首先随机选择相同数量的图像作为每个概念的概念数据然后我们固定一个相同大小的随机基准集。最后，我们用探测数据计算概念重要性分数。图4报告了100次运行的平均结果它验证了CNN可以为他们的决策提取合理的依据，比如斑马的带状纹理。然而，与[40]的研究结果一致，我们发现他们有时也会学到一些不受欢迎的刻板印象，例如女性与围裙和亚洲人与乒乓球的积极联系相对较强。因此，它展示了我们的框架在模型确认和偏差揭示方面的用例5. 结论我们提出了一个新的两步框架的CNN的全球解释。它首先通过一种新的特征遮挡分析来获得特征重要性，然后根据人类可理解概念的重要性来传达这些信息。实证结果证实了我们的技术在解释模型行为的有效性和优越性更重要的是，我们证明了我们可以通过两个语义任务来实现概念归因。它展示了一个令人兴奋的机会，将以前的功能可视化工作集成到我们的框架中，这是未来工作的一个确认我们感谢匿名评论者的宝贵意见。本文所述的工作得到了中国香港特别行政区研究资助局的资助（香港中文大学综合研究基金 14210717 和合作研究基金2300174，编号2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000C5026-18GF）。8660引用[1] SebastianBac h ， Ale xanderBinder ， Gre´ goireMontavon，FrederickKlauschen，Klaus-RobertMüller ，andWojciechSamek.通过逐层相关传播对非线性分类器决策的PloS one，10（7）：e0130140，2015。2[2] Randall Balestriero等人深度网络的样条理论。在国际机器学习会议（ICML），第383-392页，2018年。4[3] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在IEEE计算机视觉和模式识别会议（CVPR）中，第6541-6549页，2017年。三、五、八[4] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。3[5] 彼得·达布科夫斯基和亚林·加尔。黑盒分类器的实时图像显著性。神经信息处理系统（NIPS），第6967-6976页，2017年。2[6] Amit Dhurandhar ， Pin-Yu Chen ， Ronny Luss ， Chun-Chen Tu，Paishun Ting，Karthikeyan Shanmugam，andPayel Das.基于缺失的解释：用相关的否定词进行对比解释。神经信息处理系统（NIPS）进展，第592-603页，2018年2[7] 露丝·方和安德里亚·维达尔迪Net2Vec：量化和解释深度神经网络中的过滤器如何编码概念在IEEE计算机视觉和模式识别会议（CVPR）中，第8730-8738页，2018年。三、五[8] Ruth C Fong和Andrea Vedaldi。通过有意义的扰动对黑匣子的可解释国际计算机视觉会议（ICCV），第3449IEEE，2017年。2[9] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. ImageNet训练的CNN偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。在国际学习代表会议（ICLR），2019年。1[10] Amirata Gohorbani，James Wexler，James Zou和BeenKim。基于概念的自动解释。在神经信息处理系统（NIPS）的进展，2019年。一、二、三、五、六、七[11] Ian Goodfellow Yoshua Bengio和Aaron Courville 深度学习麻省理工学院出版社， 2016. http ： //www.deeplearningbook.org的网站。4[12] 布莱斯·古德曼和塞斯·弗拉克斯曼。欧盟关于算法决策和“解释权”的法规。ICML机器学习中人类可解释性研讨会，2016年。1[13] Yash Goyal Uri Shalit和Been Kim用因果概念效应解释类词。arXiv预印本arXiv：1907.07165，2019。3[14] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. AKernelTWO-样本test.JournalofMachineLearningResearch ， 13（Mar）：723- 773，2012。5[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页，2016年。5[16] Lisa Anne Hendricks ， Kaylee Burns ， Kate Saenko ，Trevor Darrell和Anna Rohrbach。妇女也滑雪：克服偏见的字幕模式.在欧洲计算机视觉会议（ECCV）中，第793Springer，2018. 1[17] Shawn Hershey，Sourish Chaudhuri，Daniel PW Ellis，JortF Gemmeke ， Aren Jansen ， R Channing Moore ，Manoj Plakal ， Devin Platt ， Rif A Saurous ， BryanSeybold，et al.用于大规模音频分类的CNN架构。在国际声学、语音和信号处理会议中，第131-135页。IEEE，2017年。1[18] 加里湾Huang，Manu Ramesh，Tamara Berg，and ErikLearned-Miller. 《荒野中的脸》（Faces in the Wild）：用于研究无约束环境中人脸识别的数据库。技术报告07-49，马萨诸塞大学阿默斯特，2007年10月。8[19] Been Kim ， Martin Wattenberg ， Justin Gilmer ， CarrieCai，James Wexler，Fernanda Viegas，et al.特征属性的可解释性：概念激活向量（ Concept ActivationVectors，TCAV）国际机器学习会议（ICML），第2673PMLR，2018。一、三、五、六、七、八[20] Diederik P Kingma和Jimmy Ba。 Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。4[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的ImageNet分类。神经信息处理系统进展（NIPS），第1097-1105页。Curran Associates，Inc. 2012. 1[22] Neeraj Kumar，Alexander C Berg，Peter N Belhumeur，and Shree K Nayar.用于人脸验证的属性和分类器。在国际计算机视觉会议（ICCV）上，第365-372页。IEEE，2009年。6[23] Scott M Lundberg和Su-In Lee。解释模型预测的统一方法。神经信息处理系统（NIPS）进展，第4765-4774页，2017年2[24] Gre'goireMontav on ，Sebast ianLapuschkin ，Al exander Binde r ， WojciechSamek ， andKlaus-RobertMüller.用深度泰勒分解解释非线性分类决策。 PatternRecognition，65：211-222，2017. 2[25] Seyed-Mohsen Moosavi-Dezfooli ， Alhussein Fawzi ，Omar Fawzi，and Pascal Frossard.普遍对抗性扰动。在IEEE计算机视觉和模式识别会议（CVPR），第1765-1773页，2017年。3[26] Alexander Mordvintsev Christopher Olah和Mike Tyka 。猜想主义：深入研究神经网络。Google Research Blog，2015.已于2018年10月恢复。三、五[27] Anh Nguyen 、 Alexey Dosovitskiy 、 Jason Yosinski 、Thomas Brox和Jeff Clune。合成以下各项8661神经网络中的神经元通过深度生成器网络。神经信息处理系统进展（ NIPS ），第 3387-3395 页。 CurranAssociates，Inc. 2016. 8[28] 克里斯·奥拉，阿文德·萨蒂亚纳拉扬，伊恩·约翰逊，山·卡特，路德维希·舒伯特，凯瑟琳·叶和亚历山大·莫文特 - 塞夫。可解释性的构建块。蒸馏， 2018 。https://distill.pub/2018/building-blocks. 一、二、三、五[29] Waseem Rawat和Zenghui Wang。用于图像分类的深度卷积神经网

下载后可阅读完整内容，剩余1页未读，立即下载