分层神经元概念解释器：一个建立神经元和概念关联的方法，用于解释深度网络中隐藏神经元的作用，并发现概念之间的内在联系

200 浏览量更新于2023-10-25 收藏 14.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

102540HINT：分层神经元概念解释器0王安东，李伟宁，齐晓娟香港大学0wangad@connect.hku.hk, wnlee@eee.hku.hk, xjqi@eee.hku.hk0摘要0解释深度网络的一种主要方法是将神经元与人类可理解的概念相关联。然而，现有方法经常忽视不同概念之间的内在联系（例如，狗和猫都属于动物），从而失去了解释负责高级概念（例如动物）的神经元的机会。在本文中，我们研究了受人类分层认知过程启发的分层概念。为此，我们提出了分层神经元概念解释器（HINT），以低成本和可扩展的方式有效地建立神经元和分层概念之间的双向关联。HINT使我们能够系统地和定量地研究概念的隐含分层关系是否嵌入到神经元中。具体而言，HINT识别负责一个概念的协作神经元和与不同概念相关的多模态神经元，这些概念在语义层次上从具体概念（如狗）到更抽象的概念（如动物）不同。最后，我们使用弱监督目标定位验证了关联的准确性，并展示了它在各种任务中的适用性，例如发现显著区域和解释对抗性攻击。代码可在https://github.com/AntonotnaWang/HINT上找到。01. 引言0深度神经网络在许多计算机视觉和机器学习任务中取得了显著的成功。然而，以人类可理解的方式解释隐藏神经元仍然具有挑战性，这对于揭示深度学习的推理过程并增加对人类的可信度具有重要意义[3, 31,61]。早期的研究侧重于从输入数据中找到证据来解释深度模型的预测[4, 10, 29, 33, 34, 48, 51, 52, 54-57,64]，而神经元仍然没有解释。最近的研究努力将隐藏神经元与人类可理解的概念相关联[7-9, 11, 23, 44, 45, 67, 68, 71,72]。尽管有深入的相互理解的神经元的解释，即识别控制树内容的神经元[8]，现有方法以一种特定的方式定义概念，这在很大程度上依赖于人类的注释，例如手动视觉检查[11, 44, 45,72]，手动标记的分类类别[23]或手工制作的指导图像[7-9,71]。因此，它们面临着巨大的成本和可扩展性问题。此外，现有方法经常忽视不同概念之间的内在联系（例如，狗和猫都属于哺乳动物），并将它们视为独立的，因此失去了发现隐含的高级概念（例如犬、哺乳动物和动物）的神经元的机会，并探索网络是否能够像人类一样对事物进行抽象。0解释神经元语义的洞察力已经得到证明，即识别控制树内容的神经元[8]，现有方法以一种特定的方式定义概念，这在很大程度上依赖于人类的注释，例如手动视觉检查[11, 44, 45,72]，手动标记的分类类别[23]或手工制作的指导图像[7-9,71]。因此，它们面临着巨大的成本和可扩展性问题。此外，现有方法经常忽视不同概念之间的内在联系（例如，狗和猫都属于哺乳动物），并将它们视为独立的，因此失去了发现隐含的高级概念（例如犬、哺乳动物和动物）的神经元的机会，并探索网络是否能够像人类一样对事物进行抽象。0上述事实促使我们重新思考如何定义概念，以更准确地揭示隐藏神经元的作用。我们从人类的分层认知过程中汲取灵感——人类倾向于从具体到一般的类别组织事物[37, 47,60]——并提出探索可以从WordNet[39]（一个词语之间语义关系的词汇数据库）中获得的分层概念。我们研究深度网络是否能够自动学习训练数据中未标记的类别的分层关系。更具体地说，我们的目标是识别低级概念（如Malamute，Husky和波斯猫）以及隐含的高级概念（如狗和动物），如图1（a）所示。请注意，我们将较具体的概念称为低级概念，将较抽象的概念称为高级概念。0为此，我们开发了HIerarchical Neuron concepTexplainer（HINT），它在神经元和分层概念之间建立了双向关联（见图1）。首先，我们开发了一种基于显著性的方法，用于识别与隐藏层中分层概念相关联的高维表示（在图1（b）中称为负责区域），使得HINT成本低且可扩展，因为不需要额外的手工引导。然后，我们训练图1（c）中所示的分类器，以区分不同概念的负责区域，其中权重表示相应神经元对分类的贡献。基于这些分类器，我们设计了一个Shapley值的方法来公平评估神经元对概念的贡献。12345...445...5121st2ndth44521127725102550犬类食肉动物哺乳动物0爬行动物0鸟类0脊椎动物0无脊椎动物0动物0植物0人整体0例如512个神经元0神经元概念0关联0输入图像0(b) 第一步负责区域识别。0输入图像0特征图0显著图0特征图0聚合和0归一化0掩码0指示负责区域0空间激活0负责狗的区域0背景区域在不同地方重复0(c) 第二步训练概念分类器。(d) 第三步神经元对概念的贡献分数。0识别1）对一个概念有贡献的协作神经元和2）对多个概念有贡献的多模态神经元0使用概念分类器0Shapley值对狗0神经元0低级概念（较不抽象）0高级概念（较抽象）0(a) 隐藏层神经元与分层概念之间的双向关联0图1. HINT的整体说明。(a)HINT能够建立隐藏层神经元与分层概念之间的双向关联。它还能够识别协作神经元和多模态神经元。此外，HINT有助于指示神经元如何学习类别的分层关系。(b)-(c) 主要步骤。有关第1步，请参见第3.1节；有关第2步，请参见第3.2节；有关第3步，请参见第3.3节。0基于价值的评分方法来公平评估神经元的贡献，考虑到神经元的个体和协作效应。据我们所知，HINT是首次尝试将神经元与分层概念关联起来，这使我们能够系统地和定量地研究分层概念是否以及如何嵌入到深度网络神经元中。HINT识别出对一个概念有贡献的协作神经元和对多个概念有贡献的多模态神经元。特别是，HINT发现，尽管只使用低级标签进行训练，如哈士奇和波斯猫，深度神经网络自动将分层概念嵌入到其神经元中。此外，HINT能够发现对高级概念（如动物、人和植物）和低级概念（如哺乳动物、爬行动物和鸟类）负责的神经元。最后，我们通过弱监督目标定位任务验证了HINT所识别的神经元-概念关联的准确性。此外，HINT在各种应用中取得了显著的性能，包括显著性方法评估、对抗攻击解释和COVID19分类模型评估，进一步展示了HINT的实用性。02. 相关工作0神经元概念关联方法。神经元概念关联方法旨在直接解释CNNs的内部计算[2, 12, 25,43]。早期的研究表明，浅层神经元倾向于学习更简单的概念，如线条和曲线，而较高层次的神经元倾向于学习更复杂的概念。0学习更抽象的概念，如头部或腿部[63, 64]。TCAV[30]和相关研究[22,24]量化了由引导图像表示的给定概念对目标类别在选择的隐藏层上的贡献。目标检测器[72]通过迭代简化图像来可视化输入图像中神经元的概念负责区域。之后，网络解剖学[7,8,71]通过使用额外图像的指导将每个神经元分配给一个概念来量化神经元的作用。GAN解剖学[8,9]通过改变特定概念的神经元并观察图像中概念相关内容的出现和消失来说明其效果。神经元Shapley[23]通过对Shapley值[49]进行排序，识别对图像类别在所有隐藏层上具有最大影响力的神经元。除了预定义的概念，特征可视化方法[11, 44, 45]为每个神经元生成DeepDream风格的解释，并手动解释它们的含义。此外，Net2Vec[20]将语义概念映射到向量嵌入中，以研究CNN滤波器和概念之间的关系。然而，现有方法无法系统地解释网络如何学习概念之间的内在联系，并且存在高成本和可扩展性问题。HINT提出了一种克服这些限制并超越单独探索每个概念的方法。具体而言，HINT采用分层概念来探索它们的语义关系。0显著性图方法。显著性图方法是一种简单快速的解释方法，它显示了输入图像中像素对目标模型输出的负责程度（即显著性分数）。主要有两种主要类别的显著性图方法——基于反向传播和基于扰动。基于反向传播的方法主要通过梯度生成显著性图，包括Gradient [52]、Gradient x Input [51]、Guided Backpropagation [55]、Integrated Gradient[57]、SmoothGrad [54]、LRP [5, 26]、Deep Taylor [41]、DeepLIFT [50]和Deep SHAP[13]。基于扰动的显著性方法扰动输入图像的像素并观察模型输出的变化，包括Occlusion [64]、RISE [46]、Real-time[15]、Meaningful Perturbation [21]和Extremal Perturbation[19]。在HINT中，我们借鉴了显著性方法，构建了一种基于显著性的方法来识别隐藏层中每个概念的负责区域。Le which separates re andrerb∗102560显著性图方法主要分为基于反向传播和基于扰动的两类。基于反向传播的方法主要通过梯度生成显著性图，包括Gradient [52]、Gradient x Input [51]、GuidedBackpropagation [55]、Integrated Gradient[57]、SmoothGrad [54]、LRP [5, 26]、Deep Taylor[41]、DeepLIFT [50]和Deep SHAP[13]。基于扰动的显著性方法扰动输入图像的像素并观察模型输出的变化，包括Occlusion [64]、RISE[46]、Real-time [15]、Meaningful Perturbation[21]和Extremal Perturbation[19]。在HINT中，我们借鉴了显著性方法，构建了一种基于显著性的方法来识别隐藏层中每个概念的负责区域。03. 方法0概述。考虑一个CNN分类模型f和一个概念层次结构E:{e}（见图1(a)），我们的目标是识别神经元和层次概念之间的双向关联。为此，我们开发了一种名为HIerar- chicalNeuron concepTexplainer（HINT）的方法，通过贡献分数ϕ来量化每个神经元d对每个概念e的贡献，其中较高的贡献值意味着d和e之间的关联更强，反之亦然。因此，关键问题是如何估计任意一对e和d的分数ϕ。我们通过确定网络如何将概念e映射到高维空间并量化d对映射的贡献来实现这一点。首先，给定一个概念e和一张图像x，在第l层的特征图z上，HINT通过开发一种基于显著性的方法（详见第3.1节）来识别与概念e相关的负责区域re。然后，给定所有概念的已识别区域，HINT进一步训练概念分类器Le，将概念e的负责区域re与其他区域rE\e∪rb�（其中b�表示背景）分开（见第3.2节）。最后，为了获得ϕ，我们设计了一种基于Shapley值的方法，公平评估每个神经元d对概念分类器的贡献（见第3.3节）。03.1. 对概念的负责区域识别0在本节中，我们介绍了我们的显著性引导方法，用于收集某个概念 e ∈ E 的负责区域 re，以作为概念分类器的训练样本，该分类器将在第3.2节中描述。将包含概念 e 的图像 x 作为输入，网络 f 生成特征图z ∈ R D l × H l × W l，其中总共有 D l个神经元。通常，并非 z 的所有区域与 e相关程度相同[68]。换句话说，一些区域与 e的相关性更强，而其他区域的相关性较弱，如图1（b）“步骤1”所示。基于上述观察，我们提出了一种显著性引导方法，用于在特征图 z 中识别与概念 e 密切相关的区域 re。我们称之为负责区域。0算法1：HINT0输入：具有分层概念的图像集合{( x , e)}，实验中的神经元集合 D，修改后的显著性方法Λ，聚合方法 ζ 和阈值 t ∈ (0 , 10。0输出：得分矩阵 Φ，其中每个元素 ϕ 是神经元 d对概念 e 的 Shapely 值。0初始化：负责区域容器 r e = {}，对于 E 中的每个e，背景区域容器 r b � = {}，得分矩阵 Φ ={0}|D|×|E|。01 对于每个 ( x , e )：02 特征图 z = f l ( x )；03 使用 Λ( x , f l | e ) 得到显著性图 s；04 z ← z D,:,:；06 ˆ s = 归一化(ζ(s)) ∈ [0 , 1] H l × W l；07 z e = z ⊙ (ˆ s ≥ t)，将 z e 添加到 r e 中；08 z b � = z ⊙ (ˆ s < t)，将 z b � 添加到 r b �09 对于 E 中的每个 e：011 对于 E 中的每个 e：012 对于 D 中的每个 d：013 ϕ = 神经元 d 对概念 e 的 Shapley 值；014 使用 ϕ 更新 Φ；0首先，我们得到第 l层的显著性图。如图1（b）“步骤1”所示，通过提取第 l层的特征图 z，我们使用显著性图估计方法 Λ 得到与概念 e相关的第 l 层显著性图 s。请注意，HINT可以与不同的基于反向传播的显著性图估计方法兼容。我们实现了其中的五种方法[51, 52, 54, 55,57]，请参阅补充材料以了解更多细节。请注意，与现有的工作[51, 52, 54, 55,57]将梯度传递给输入图像作为显著性分数不同，我们在第 l层提前停止反向传播以获取显著性图s。这里，我们以修改后的 SmoothGrad [54]作为示例来演示我们的方法：0∂ z ′，其中 x ′ = x + N(µ, σ^2 n)，N表示正态分布。值得注意的是，我们可以选择优化部分神经元 D 进行分析。接下来是根据显著性图 s 的指导在特征图 z上识别负责区域。具体而言，我们将 z 中的每个条目 z D,i,j分类为对 e 负责或不负责。为此，首先通过聚合函数 ζ沿通道维度对显著性图 s 进行聚合，然后将其归一化为 [0 ,1] 范围内。请注意，可以应用不同的聚合函数ζ（参见补充材料中显示的五种不同的 ζ）。这里，我们聚合�r��Mi=1⟨S∪d⟩⟨S⟩102570s 使用欧几里得范数 ζ = ∥ s ∥沿其第一维度。然后，我们得到 ˆ s ∈ [0 , 1] H l × Wl，其中每个元素 s i,j 表示 z D ,i,j 对概念 e的相关性。通过设置阈值 t（我们在论文中将 t 设置为0.5）并使用 ˆ s ≥ t 和 ˆ s < t 对 z进行掩码，我们最终分别得到负责区域和背景区域（参见两个区域的示意图图1（b）：“步骤1”）。我们的显著性引导方法扩展了显著性方法的可解释性，这些方法最初旨在找到一个特定图像上与概念相关的“负责区域”。然而，我们的方法能够在多个图像的隐藏层高维空间中识别与概念相关的“负责区域”，这可以更准确地描述网络内部对概念 e的表示方式。因此，我们的显著性引导方法提供了更好的可解释性，因为它帮助我们研究网络中概念 e 的内部抽象。03.2. 概念分类器的训练0对于所有图像，我们根据3.1中描述的过程确定每个概念e ∈E的负责区域，并构建一个包含负责区域集合re和背景区域集合rb�的数据集。给定数据集，如图1（c）“步骤2”所示，我们使用高维CNN隐藏层特征来训练一个概念分类器Le，该分类器区分re和rE\e∪rb�，即将概念e与其他概念E\e∪b�分开（算法1中的第9行和第10行）。Le可以有很多形式：线性分类器、决策树、高斯混合模型等。在这里，我们使用最简单的形式，即线性分类器，它等价于在CNN的高维特征空间中将概念e与其他概念分开的超平面。0Le(r) = σ � αTr�，(1)0其中r = zD，i，j ∈ R|D|表示每个元素表示一个神经元的空间激活；α是一个权重向量，σ是一个sigmoid函数，L e ( r ) ∈ [0 ,1]表示r与概念e相关的置信度。值得注意的是，我们可以将概念分类器L e 应用回特征图z，以可视化L e如何检测概念e。更抽象的概念的分类器（例如整体）倾向于激活更一般特征的区域，这有助于我们定位对象的整个范围。相反，较低级别概念的分类器倾向于激活具有区分性特征的区域，例如眼睛和头部。03.3. 神经元对概念的贡献分数0接下来是解码贡献分数ϕ来自概念分类器。一种估计ϕ的简单方法是使用与每个神经元e对应的学习到的分类器权重，其中较高的值通常意味着较大的贡献[40]。然而，α可以作为0贡献分数的假设是神经元彼此独立的。然而，这通常是不正确的。为了公平评估神经元对e的贡献，设计了一种基于Shapley值的方法来计算分数ϕ，该方法考虑了神经元的个体效应以及与其他神经元合作的贡献。0Shapely值[49]来自于博弈论，用于评估通道的个体和协作效果。更具体地说，如果一个通道不能独立用于分类，但与其他通道合作时可以极大地提高分类准确性，那么它的Shapely值仍然可以很高。Shapely值满足效率、对称性、虚拟和可加性的性质[40]。Monte-Carlo采样用于估计通过与其他神经元进行可能的合作来测试目标神经元的Shapley值。方程（2）显示了我们如何计算神经元d对概念e的Shapley值ϕ。0ϕ =0M | rE∪rb� |，(2)0其中 r = zD，i，j 表示来自rE和rb�的空间激活；S � D\ d是在每次迭代中随机选择的神经元子集；��是一个操作符，保持括号中的神经元，即S∪d或S，不变，同时随机化其他神经元；M是Monte-Carlo采样的迭代次数；L �� e表示分类器在括号中的神经元不变，其他神经元被随机化时重新训练。0通过对不同的e和d进行重复计算（见算法1中的第11行到第14行），最终我们可以得到得分矩阵Φ。03.4. 神经元-概念关联0通过对所有e和d的得分计算进行重复（见算法1中的第11行到第14行），我们得到一个得分矩阵Φ，其中每一行表示一个神经元d，每一列表示层次结构中的一个概念e。通过对概念e的列中的得分进行排序，我们可以得到具有高贡献度的协作神经元，这些神经元对概念e有很高的贡献。此外，通过对神经元d的行中的得分进行排序，我们可以测试d是否是多模态的（对多个概念具有高得分），并观察d负责的概念的层次结构。0请注意，得分矩阵Φ无法告诉我们概念e的负责神经元的确切数量。对于一个贡献得分ϕ为零或接近零的神经元d，可以认为该神经元与相应的概念e无关。因此，对于截断，我们可以为ϕ设置一个阈值。在我们的实验中，对于一个概念，我们对得分进行排序，并选择前N个作为负责神经元。0.50.60.70.80.9102580(a) 在features.30层上对层次概念的负责通道0(b) 不同层次上概念哺乳动物的负责通道0应用概念0植物人类动物0爬行动物鸟类哺乳动物0将鸟类分类器应用于汽车0features.30上分类器的F1得分0将哺乳动物分类器应用于狗0features.10（F1：0.04） features.14（F1：0.11） features.20（F1：0.46） features.25（F1：0.66）0不同层次的多模态通道与概念相同层次的多模态通道与概念0图2.神经元与层次概念之间的双向关联。链接的宽度表示神经元对概念的贡献得分的大小。（a）在VGG19的features.30层上，对层次概念（参见图1中的层次结构）的负责神经元。概念分类器的F1得分显示了它们区分目标概念的能力。图片说明了将概念分类器应用于不同图像的结果。对于大多数情况，概念分类器只定位属于目标概念的对象。然而，由于鸟类和汽车共享多模态神经元，鸟类分类器对汽车的车轮有反应。（b）在不同层次上对哺乳动物的负责神经元。图片和F1得分表明，随着层次的提高，网络更容易区分哺乳动物与其他概念。04. 实验04.1. 实验设置0HINT是一个通用的框架，可以应用于任何CNN架构。我们在ImageNet [17]上评估了HINT，使用了VGG-16[53]、VGG-19 [53]、ResNet-50 [27]和Inception-v3[58]等代表性的CNN骨干网络进行训练。本文中的层名称来自PyTorch预训练模型（例如，“features.30”是VGG19的一个层名称）。层次概念集E是基于ImageNet的1000个类别构建的，其中的层次关系由WordNet[39]定义，如图1所示。图3显示了计算复杂性分析，表明在考虑整个周期时，Shapely值计算是可以忽略的。04.2. 对层次概念的负责神经元0在本节中，我们研究了概念的负责神经元，并展示了CNN的层次认知模式。我们采用VGG-19骨干网络，并显示每个概念的前10个显著神经元（N=10）。图2的结果显示，HINT明确揭示了网络的层次学习模式。一些神经元是0负责更高语义层次的概念，如整体和动物，其他的则是更详细的概念，如犬类。此外，HINT显示一个概念可能有多个贡献神经元，HINT还能识别多模态神经元，它们对多个概念有很高的贡献。0不同层次的概念。首先，我们研究了图2(a)中不同层次的概念。在所有的概念中，整体具有最高的语义层次，包括动物、人和植物。为了研究网络如何识别给定层次上的哈士奇（犬类的一个子类）图像，HINT从更高层次（如整体、动物）到更低层次（如犬类）逐层识别负责该概念的神经元。此外，HINT能够识别负责不同语义层次上许多概念的多模态神经元。例如，第445个神经元0神经元对多个概念贡献最大，包括动物、脊椎动物、哺乳动物和食肉动物，还对犬类有贡献，表明第445个神经元捕捉到了训练数据中未标记的一般和物种特定的特征。0相同层次的概念。接下来，我们研究HINT识别出的相同层次的概念的负责神经元。VGG16ResNet50Inception v3performance when adopting VGG16 and Inception v3, andperforms the best when adopting ResNet50. However, Ta-ble 2 shows that HINT outperforms all existing methods onall models on ImageNet. Besides, the differences in Local-ization Accuracy may indicate different models have dif-ferent learning modes. Precisely, few neurons in VGG16are responsible for animal or whole, while most neuronsin ResNet50 contribute to identifying animal or whole. Inconclusion, the results quantitatively prove that the associa-tions are valid, and HINT achieves comparable performanceto WSOL. More analysis is included in the supplementaryfile.Flexible choice of localization targets. When locating ob-jects, HINT has a unique advantage: a flexible choice of lo-calization targets. We can locate objects on different levelsin the concept hierarchy (e.g., bird, mammal, and animal).In experiments, we train concept classifiers of whole, per-son, animal, and bird using 20 most important neurons onlayer features.30 of VGG19 and apply them on PASCALVOC 2007 [18]. Figure 4 (a) shows that HINT can accu-rately locate the objects belonging to different concepts.Extension to locate the entire extent of the object. Many102590HINT。对于哺乳动物、爬行动物和鸟类，存在多模态神经元，因为这三个类别在形态上有相似之处。例如，第199个和第445个神经元既对哺乳动物又对鸟类贡献，而第322个和第347个0神经元既对爬行动物又对鸟类负责。有趣的是，HINT还识别出对人类来说概念上相距较远的概念的多模态神经元。例如，第199个神经元既对鸟类又对汽车贡献。通过将鸟类分类器应用于鸟类和汽车的图像，我们发现鸟类的身体和汽车的车轮都可以被检测到。不同层次上的相同概念。我们还使用HINT在不同的网络层次上识别出负责的神经元。图2（b）说明了在其他四个网络层次上对哺乳动物的10个最负责的神经元。在浅层，例如在features.10层上，HINT表明网络无法识别哺乳动物的概念（F1分数：0.04）。然而，随着网络的深入，哺乳动物分类器的F1分数增加，直到在features.30层达到约0.8，这与现有的研究结果[63,64]一致，即更深的层次捕捉到更高级和更丰富的语义有意义的特征。04.3.通过弱监督目标定位验证关联0通过HINT获得神经元和层次概念之间的关联后，我们使用弱监督目标定位（WSOL）进一步验证这些关联。具体来说，我们使用与某一层次的概念e相对应的前N个显著神经元训练一个概念分类器Le（详细步骤见第3.1和3.2节），并使用Le作为定位结果来定位负责的区域。Le的良好定位性能表明这N个神经元对概念e也有很高的贡献。定位准确性的比较。表1和表2中的定量评估结果显示，HINT在现有的WSOL方法上取得了可比较的性能，从而验证了这些关联。我们分别使用VGG16的“features.26”层（512个神经元），ResNet50的“layer3.5”层（1024个神经元）和Inceptionv3的“Mixed6b”层（768个神经元）对10％，20％，40％和80％的神经元进行排序和选择，使用Shapley值进行训练动物（表1）和整体（表2）分类器。为了与常用的WSOL度量一致，定位准确性衡量了具有IoU大于50％的真实边界框和预测边界框的图像比例。在表1中，我们将HINT与数据集CUB-200-2011[59]上的最先进方法进行了比较，该数据集包含200个鸟类别的图像。请注意，现有的定位方法需要在CUB-200-2011上重新训练模型，因为它们是针对分类器进行调整的，而HINT直接采用了在ImageNet上训练的分类器，而无需在CUB-200-2011上进行进一步的微调。即使如此，HINT仍然取得了可比较的0表1.CUB-200-2011上的定位准确性比较。*表示在CUB-200-2011上进行微调。0CAM* [73] 34.4% 42.7% 43.7% ACoL* [69]45.9% - - SPG* [70] - - 46.6% ADL* [14] 52.4%62.3% 53.0% DANet* [62] 52.5% - 49.5% EIL*[36] 57.5% - - PSOL* [65] 66.3% 70.7% 65.5%GCNet* [32] 63.2% - - RCAM* [6] 59.0% 59.5%- FAM* [38] 69.3 % 73.7 % 70.7 %0我们的 (10%) 66.6 % 60.2% 49.0%0Ours (20%) 65.2% 67.1% 55.8%0Ours (40%) 61.3% 77.3% 52.8%0Ours (80%) 64.8% 80.2% 56.2%0表2. 在ImageNet上的定位准确性比较。0VGG16 ResNet50 Inception v30CAM [73] 42.8% - - ACoL [69] 45.8% - - SPG[70] - - 48.6% ADL [14] 44.9% 48.5% 48.7%DANet [62] - - 48.7% EIL [36] 46.8% - - PSOL[65] 50.9% 54.0% 54.8% GCNet [32] - - 49.1%RCAM [6] 44.6% 49.4% - FAM [38] 52.0%54.5% 55.2%0Ours (10%) 64.7% 59.7% 53.1%0Ours (20%) 66.1% 66.6% 54.1%0Ours (40%) 64.4% 69.4% 54.3%0Ours (80%) 62.6% 70.7% 58.7%0%10%20%30%40%50%60%70%0%2%4%6%8%10%12%102600A. [10-20分钟*N] 获取N个概念的特征图和显著性图0B. [1-2分钟] 获取目标概念和其他概念的负责区域0C. [1-3分钟] 训练目标概念的分类器0D. [约5分钟] 使用GPU计算Shapley值0图3. HINT不同阶段的时间消耗。数据准备过程是最耗时的部分。使用单个NVIDIA RTX2080计算Shapely值大约需要5分钟，而线性分类器训练需要1-3分钟。因此，考虑整个周期时，Shapely值计算的时间消耗是可以忽略的。0整体人物动物鸟0(a) 在PASCAL VOC上应用概念分类器0整体人物动物鸟0pointinggame0整体人物动物鸟0shap0clf coef0通过选择通道0(c) 使用20个神经元训练概念分类器0Vanilla Backprop SmoothGrad Integrated Gradients Guided Backprop Gradient x Input0(b) 使用不同的显著性图方法训练概念分类器0图4. 弱监督目标定位和消融研究结果。(a) 在PASCAL VOC 2007上应用不同的概念分类器，显示HINT可以定位所选择的概念的对象。(b)消融研究显示不同显著性方法的结果。(c)消融研究显示Shapley值是神经元贡献的良好度量。概念分类器是使用不同方法选择的20个神经元进行训练的。指向游戏（掩码与地面实况掩码的交集）和IoU（掩码与掩码的并集的交集）分数显示了PASCAL VOC2007上“整体”、“人物”、“动物”和“鸟”概念分类器的准确性。0现有的WSOL方法调整模型架构并开发训练技术，以突出对象的整个范围而不是区分性的部分[6, 32, 36, 38, 62,65]。然而，我们能否在不进行模型调整和重新训练的情况下有效实现这一目标？HINT提供了一种利用模型学习到的隐含概念的方法。如图4（c）所示，高级概念（例如整体）的分类器倾向于在对象上绘制较大的掩码，而低级概念（例如鸟类）的分类器倾向于绘制较小的掩码。这是因为整体的负责区域包含其子类别的所有特征。自然地，整体分类器倾向于激活完整的对象区域而不是对象的部分。04.4. 消融研究0我们进行了消融研究，以表明HINT是通用的，并且可以使用不同的显著性方法实现，Shapley值是衡量神经元对概念贡献的良好指标。使用不同的显著性方法进行实现。我们使用五种修改后的显著性方法训练概念分类器（详见补充材料）。然后，我们将分类器应用于对象定位任务。图4（b）显示了这五种显著性方法都表现良好。这表明HINT是通用的，不同的显著性方法可以0集成到HINT中的Shapley值。为了测试Shapley值的有效性，我们使用VGG19的第30层的20个神经元通过不同的选择方法训练概念分类器，包括Shapley值（表示为shap）、线性分类器系数的绝对值（表示为clfcoef）和随机选择（表示为random）。然后，我们使用这些分类器在PASCAL VOC2007上执行定位任务（见图4（c））。使用了两个指标：pointinggame（掩码与真实掩码的交集，通常由其他解释方法使用）[66]和IoU（掩码与掩码并集的交集）。结果表明，在定位不同目标时，“shap”优于“clfcoef”和“random”。这表明Shapley值是神经元贡献的良好指标，因为它考虑了神经元的个体和协作效应。相反，线性分类器系数假设神经元彼此独立。04.5. 更多应用0我们进一步通过显著性方法评估、对抗攻击解释和COVID19分类模型评估（图5）展示了HINT的有用性和可扩展性。详细信息请参见补充材料。0%1%2%3%4%5%0%5%10%15%20%25%102610随机特征4 随机整个模型随机特征8 随机特征12 随机特征16 随机特征20 随机特征24 随机特征28 随机特征320特征8上的概念分类器结果0GuidedBackprop的显著性图0（a）通过级联随机化层参数并观察概念分类器区分junco和背景的结果来评估显著性方法0原始图像junco0（b）通过定位被攻击图像上的目标类来解释对抗攻击0攻击成为鸟类0在被攻击图像上定位鸟类0在鸟类图像上定位鸟类0在被攻击图像上定位哺乳动物0在原始图像上定位哺乳动物0（c）通过定位COVID19分类模型（例如EfficientNet）来评估0特征为10 特征为15 特征为20 特征为25 特征为30 特征为350IOU0指向游戏0pointing game IOU0一些高分的游戏得分案例，特征为350图5. HINT的其他应用。(a) 显著性方法评估。如果我们观察隐藏层的结果，引导反向传播（GB）可以通过[1,28]中的合理性测试。随着随机化层数的减少，分类器识别的区域更集中在鸟的关键特征上-喙和尾巴，从而表明GB检测到了显著区域。(b)解释对抗攻击。我们使用PGD[35]对各种类别的图像进行攻击，将这些图像应用于鸟分类器的特征图。在这些伪造的鸟图像中，与概念“鸟”相关的负责区域可能暗示着某种对抗攻击可能是由于攻击目标类别的相似形状（例如，对于大多数形状都是圆形的咖啡杯图像，对抗攻击会捕捉到唯一的尖锐形状并将其攻击成鸟的形状）。(c)COVID19分类模型评估。将深度学习应用于胸部X射线片的COVID19检测有潜力在资源有限的情况下提供快速诊断。然而，这些模型的鲁棒性仍然不清楚[16]。使用HINT进行对象定位可以检查识别的负责区域是否与医生绘制的病变区域重叠。05. 解释的局限性0HINT可以系统地和定量地识别隐式高层次概念的负责神经元。然而，我们的方法无法处理不包含在概念层次结构中的概念。对于低于层次结构底层的概念（即分类类别），识别负责神经元也不起作用。如果我们想建立这种神经元-概念的关联，需要进行更多的探索。06. 结论0我们提出了HIerarchical Neuron concepT ex-plainer（HINT），它以低成本和可扩展的方式建立神经元和层次概念之间的双向关联。HINT系统地和定量地0解释了神经元是否以隐式方式学习了高层次的概念关系。此外，它还能够识别为同一概念做出贡献的协作神经元，以及为多个概念做出贡献的多模态神经元。大量的实验证明了HINT的有效性和实用性。我们开源了我们的开发包，并希望HINT能够激发更多的研究。07. 致谢0这项工作部分得到了香港研究资助局-青年学者计划（编号27209621）、香港大学创业基金和香港大学基础研究种子基金的支持。我们还要感谢刘正哲先生对本文的有见地的评论和仔细编辑。102620参考文献0[1] Julius Adebayo，Justin Gilmer，Michael Muelly，IanGoodfellow，Moritz Hardt和BeenKim。关于显著性图的合理性检查。arXiv预印本arXiv:1810.03292，2018年。80[2] Sarah Adel Bargal，Andrea Zunino，VitaliPetsiuk，Jianming Zhang，Kate Saenko，

下载后可阅读完整内容，剩余1页未读，立即下载