神经网络模型的特征解释评估框架

23 浏览量更新于2023-10-25 收藏 958KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10244解释说明？模型最了解3*Khao Sha酒店， Khao Sha 3*ashkan. tum.de1慕尼黑工业大学，德国2Mila，魁北克人工智能研究所，加拿大摘要输入特征对神经网络输出的影响是一个谜。在文献中提出了各种解释（特征属性）方法来阐明这个问题。一个奇特的观察是，这些解释（归因）指出不同的特征是重要的。这一现象提出了一个问题，信任的解释是什么？我们提出了一个框架，使用神经网络模型本身的解释进行评估。该框架利用网络来生成对输出施加特定行为的输入使用生成的特征，我们设计了受控的实验装置来评估解释方法是否符合公理。因此，我们提出了一个经验框架的公理化评价的解释方法。我们评估知名的和有前途的解释解决方案，使用建议的框架。该框架提供了一个工具集，以揭示现有和未来的解释解决方案中的属性和缺点。11. 介绍考虑一个神经网络函数，我们如何知道输入中的哪些特征（模式）对其输出是重要的？这个问题被称为特征在-时间[16，35]，解决方案通常被称为解释，归因或显着性方法。文献中有大量的解释方法[8，9，13，15，16，19，26，27，29，32，33，35，39，41]。一个奇特的观察到这些解决方案指出不同的特征是重要的。虽然它们是同一个问题的解决方案，特征归属，但由此产生的解释却奇怪地不同。这一现象提出了一个问题，哪种解释是正确的？或者这些解释是正确的，但从不同的角度揭示了问题？*表示等额供款1 https：//github. com/CAMP-eXplain-AI/Do-解释-解释一种方法是将解释与地面真相进行比较（例如，边界框）数据集上的注释[27，38，41]。但是我们怎么知道对人类重要的东西对模型也重要呢没有任何保证（或理由）模型将使用与人类相同的特征。为了解决这个问题，我们需要退一步，问一个特性对于输出来说“重要”意味着什么。直观的方法是移除特征并观察输出行为[8，11，25]。这种证据的去除确实是许多解释方法的基础[8，9，16，26，35]。然而，这样的概念可能导致模棱两可。考虑具有等同特征的场景（例如，重复的特征），其中每个特征的存在本身就足以满足特定的输出值。添加到删除这些功能中的任何一个都不会影响输出值的场景中。在这种情况下，基于移除的概念将零重要性分配给每个特征。然而，在这种情况下，期望的属性可以是为每个特征分配相等的重要性。因此，重要性的概念可以通过指定重要性分配方法应该满足的期望属性来进一步凿刻。这些理想的性质通过公理形式化[16，34，35]。公理视图提供了一个补充框架，用于评估功能属性的解决方案。可以评估解释方法是否符合公理。公理化观点的优点是，方法可以被证明符合特定的公理。例如，Shapley值[16，28]和积分梯度[34，35]等解被证明符合特定公理。然而，在实际实现中，证明可能会被破坏。例如，[34]表明，近似Shapley值的方法中的固有假设导致方法不符合公理。此外，某些条件可能会在证明中被忽略因此，需要实验来检验最终解是否符合公理。即使这些方法有优雅而坚实的数学推导和证明，它们也必须遵守观察中的公理10245在设计的实验中如果它们在实验中不符合公理，我们可以重新审视我们的假设和方法。这就是科学方法的方式。这项工作奠定了一个实验框架，评估归因解决方案公理。我们设置每个实验，以便可以测试解决方案是否符合特定公理。我们生成输入特征，这些特征对网络的输入/输出关系施加特定的行为。在保持网络参数不变的情况下，通过对输入空间的优化来生成特征。使用优化，我们可以在生成的输入和输出之间施加期望的关系。因此，我们可以设计设置来评估公理。例如，属性方法需要遵循的一个公理是Null-player公理。零参与者公理要求如下;如果在所有可能的联盟中删除一个功能与其他功能不影响输出，它应该被分配为零的重要性。利用我们提出的框架，我们可以为神经网络函数生成一个空玩家特征。随后，我们可以测试不同的特征属性解决方案，并检查它们是否因此，我们可以测试一个解决方案是否符合Null-player公理。我们还设计了实验来评估其他理想的属性方面的解释;类敏感性和特征饱和度。通过我们的框架，我们评估了知名的和最近推出的有前途的解决方案。通过我们的实验，我们打算揭示现有解释中的属性和缺点。2. 背景及相关工作2.1. 背景我们首先介绍了我们的框架是为了评估这些方法的特征归因文献然后，我们介绍功能可视化/生成方法，因为它们可以在我们的框架内使用。2.1.1通过特征属性特征属性问题涉及识别对输出值有贡献的输入特征。解决方案可以大致分类如下（一些解决方案属于多个类别）。反向传播[4，30]线性近似网络，并提出梯度作为属性。Deconvolution [37]、GuidedBackProp [32]反向传播修改后的梯度。积分梯度[35]通过对两个输入状态之间的梯度进行积分来分配输出相对于基线输入的变化LRP [19]、DeepLIFT [29]反向传播逐层贡献。LRP和DeepLIFT中的贡献概念也基于移除。扰动/删除方法在这一类别中是解释性的基础上删除的功能。它们屏蔽/扰动输入特征并观察输出变化[8，9，18，23]。例如，在一个示例中，Extremal Perturbations[8]搜索输入中的最小区域，以便保持区域保留目标预测。[37]提出遮挡像素或像素块并测量输出变化。IBA[26]通过移除隐藏特征（通过用噪声替换它们）来插入信息瓶颈，并保留保留预测信息的最小区域。InputIBA [39，40]允许在输入上插入信息瓶颈。潜在特征CAM/GradCAM [27，41]利用卷积层的激活值（又名网络GradCAM++在图层上使用不同的求和规则，适用于所有图层。IBA [26]还利用了潜在特征。FullGrad 利用所有层的激活、梯度和偏置值。PathwayGrad [13]利用关键通路（通路重要神经元）。在合作博弈论中，归因问题可以这是通过假设网络的函数是得分函数，输入特征是球员来实现的。满足几个公理的这个问题的解决方案是Shapley值。这个概念也是基于球员的去除和去除对得分函数的影响。Shapley Value考虑在所有可能的联盟中移除一个参与者。由于计算的复杂性，提出了几种近似神经网络。DeepSHAP [16]通过DeepLift [29]框架反向传播SHAP值最近的研究表明[34]，积分导数[35]在连续设置中逼近Shapley值。2.1.2生成激活神经元这些工作识别什么输入模式/特征激活神经元，并且通常被称为特征可视化。本质上，这些方法生成最大化某些神经元激活的图像[7，17，20，22，30，36]。这可以通过在冻结网络参数的同时对图像进行优化来实现。我们可以在我们的框架内使用这些我们选择深度图像优先[36]（参见第3.5）。我们在框架中使用的另一种方法是对抗补丁[5]。2.2. 相关工作本节介绍了评估配置的工作。我们的框架属于我们在每一节中分别讨论了与现有作品的不同之处（更多内容见附录）。10246FFL联系我们S解释说明？早期的工作[21]表明，去卷积[37]和引导反向传播[32]正在重建图像特征，而不是解释预测。因此，解释可以是视觉上可解释的，但不是真正的解释。本节中的工作调查了一种解释方法是否确实解释了预测，以及它是否可信。每一部作品都从不同的角度对一种解释进行了评价。我们将作品分类如下：扰动/去除这些工作的目的是评估属性方法确定为显著的特征是否确实有助于输出。它们背后的直觉是，如果识别出的特征很重要，则扰动（删除）它们会相对更多地改变输出灵敏度-N [2]和[25]在输入上使用各种扰动方案并观察输出变化。Remove-and-Retrain [11]扰动输入，然后重新训练模型并测量精度下降。这些作品将解释与重要特征的地面事实进行比较。指向游戏[38]和经典的基于定位的度量[27]使用人类对自然图像的注释。然而，这里有一个潜在的假设，即模型使用与人类相同的特征，这是一个粗略的假设。为了解决这个问题，CLEVR XAI [3]提出使用CLEVR [12]生成合成数据集。然后在生成的数据集上训练模型，然后将解释与地面事实进行比较该方法增加了部分控制。但是，不能保证模型在生成的数据集中提取预期的特征。在我们的框架中，我们可以控制哪些特征对模型的输出有贡献或没有贡献公理化方法检查模型是否符合特别需要的属性。评估可以是理论的，其中该方法被证明满足公理（或期望的属性），[16，31，34，35]或实验。健全性检查[1]实验性地检查随机化网络参数是否改变解释。另一个期望的特性是类别敏感性，即，如果不同输出（类）的贡献特征不同，则对于[14]提供了为什么几种方法对参数随机化和不同类不敏感的原因。[21，24]提出实验来评估自然图像数据集的类敏感性。然而，在自然图像上，不能保证模型对不同的类使用不同的特征。我们的框架提供了一个可控的设置功能生成。3. 方法我们的目标是有一个受控的实验环境中，我们控制哪些功能有助于或不有助于神经网络功能的输出。在这种环境下，我们可以设计场景来测试公理的解释。为此，我们利用模型本身并对输入进行优化，从而控制特征对输出的贡献。仅在参考/基线状态方面理解重要性或贡献（在我们的设置中，我们计算一个功能相对于正常随机噪声的参考的贡献X表示参考输入。我们将一组像素及其特定值称为一个“特征”。在这项工作中，我们选择一个补丁的像素形成的功能。我们用f表示补丁/特征，用X{ f }表示添加了特征f的基线输入，用Xt（. ）的情况。为了生成对应于目标t的特征f，我们在激活目标t的基线输入X上生成补丁。由于添加的功能改变了输出值（通过设计），根据灵敏度公理[35]，保证它有助于输出。仅在面片f上执行优化（而不在输入的其他区域上X）。生成对应于目标t的特征f的优化损失由Lt表示。根据场景的不同，t可以与以下任一项相关联。我们可以生成一个最大化目标值minf-λt（X{f}）的补丁，也可以生成一个- 恒定目标值c，minfLCE（ft（X{f}），c），其中LCE表示交叉熵损失。3.1. 产品特点本节的目的是设计一个测试零特征公理的设置。空特征是对输出分数没有贡献的特征。如果一个特征是空特征，那么解释不给该特征分配任何贡献是一个理想的属性。基于合作博弈理论和归因文献，无效特征可以被正式定义如下。有一组功能（球员），一个功能是一个空的功能，如果它的缺席不影响所有可能的联盟即如果我们有一组n个fea，tures{f1，.，f n}，则特征f i对于输出ft（. ）如果t（X{fi[S}）=t（X{S}），其中表示不包括f i的所有特征子集，即f1，...，f n f i. 请注意，有2个N-1可能的联盟。在我们的实验设置中，我们将两个特征添加到基线输入X（可以添加更多特征并设计更复杂或更具创造性的实验）。我们添加对应于输出的特征fa（. ），并添加对应于输出FLB（. ），但它是空特性10247Fafa1Fafa1一个2FAFAB一对于输出端a（. ）的情况。为了使f null成为null特征，它在所有可能的与f a的联合中的缺失应该对输出fa（. ）的情况。有两个可能的联盟，3.2.2双功能场景在此设置中，我们添加了两个功能，输入和fb于参考它们是fa的子集，即fa和。因此，输出为a（. 当fa存在于基线输入X中时，当f null被移除时）必须保持恒定。输出为a（. 当fnull被加到基线X上时，）也必须保持不变。因此，优化问题被定义为以下问题：X，每一个对应于不同的输出）和Cubb（. ）分别。在此设置中，主要的贡献功能，以repla（。）是特征fA，并且是对fB（. ）是fb。因此，我们执行两个并发优化。第一个减少两个并发优化，最小La（一）minLa+（λb（X{f，f}）-λb（X{f}））2（4）fafa生成有助于输出的fa（. ）但它的重新-minf零f零+（fa（X{fa，fnull}）-X{f}））2存在特征fb时的移动不影响输出b）。）的情况。第二个优化，+（X{fnull}）-{X{}}）2最小Lb +（a（X{f，f}）-a（X{f}））2（5）其中La 生成特征fa对应于输出fbfbab a阿格拉（. ）的情况。由方程式（2）Lb生成一个特征fnullcorre-响应输出f零b）。）的情况。第二和第三个任期生成对输出fib（. ），但在存在特征fa的情况下其移动不影响输出当量（2）尝试使f null成为对于fixa（. ）重新─可能会与联邦航空局结盟。优化的结果是X{fa，fnull}，其是包含补丁/特征f a和f null的基线噪声图像X。在这个设置中，我们的目标是测试解释方法是否将输出的fixa（X{fa，fnull}）归因于null特征。建议的评估指标见第第3.4节3.2. 类别灵敏度解释方法的另一个属性是类敏感性，即输出敏感性。考虑到两个输出，）和（。）的神经网络，如果阿格拉（. ）的情况。因此，主要贡献的功能，为recta（。）是f a，对于fb（. ）是fb。在这个场景中，我们期望当要解释的输出从faa（. ）到BLB（. ）的情况。我们提出的捕获该指标的指标在第二节中提供。三点四分。3.3. 特征饱和度在本节中，我们设计了一个场景，其中功能使输出饱和使得特征fa1和fa2一起（即X{fa1，fa2}）产生与当a b特征被单独地添加到参考输入X。到对这些输出有贡献的输入特征不同，对输出的解释也应该不同。到为了实现这一点，我们同时解决两个优化问题为了测试这种性质，我们设计了两种情况：最小La +（X{f，f}）-λa（X{f（6）第二章3.2.1单一功能场景在我们的第一个建议的设置中，我们只将一个特征f a添加到参考输入X。生成该特征，使其对应于输出函数a（. ），但是对于另一个输出Recta（. ）的情况。因此，我们认为，其中第一项生成fa1，使得输出等于常数值c。第二项确保从输入中移除特征fa1不会影响fa2存在时的输出。第二个优化在第二个特征fa2上执行此过程，a2minLa+（X{f，f}）-λa（X{f（7）第二章minLfa+（b（X{fa}）-b（X{}））（三）fa2fa2a1a2a1其中第一项La在参考上生成补丁fa在此设置中，存在其中一个特征就足够了输入XFa，第二项确保它是空要素为了预测。由于它们对输出的贡献相等，对于输出Pwb（. ）的情况。即，特征f a的移除不应影响输出f ab（. ）的情况。在此设置中，对两个输出的解释是：）和BLB（. ）进行比较。预计，第一次会议（为阿格拉（。））将输出（部分）归因于f a。而第二个解释（forboth）。））不应将预测的结果归因于. ）到特征Fa。我们提出的评B的1一个2L（二）10248估这一影响的方法见第2节。三点四分。期望解释解决方案将输出等同地归因于两个特征。我们提出的评估此属性的指标三点四分。3.4. 度量在本节中，我们将介绍用于评估每个生成的设置中的属性的指标。我们表示为目标输出foot（. ），t。10249PPf[fa B\特征度量定义为分配给空特征的贡献相对于总分配贡献的比例：没有任何正则化的补丁，很容易陷入局部解。在这种情况下，我们可能无法获得令人满意的优化解方程。1-7.在我们的工作中faSaPS一（八）我们利用解决方案，避免平凡的局部解决方案。使用深度图像先验方法，我们添加了一个解码器网络，求和运算符f S t在S t中的所有对应像素上运行，这些像素在补丁f中。类敏感度度量在双功能场景中，我们通过以下方式测量类敏感度：DOM权重和生成的补丁后面的随机种子输入。换句话说，贴片由先验网络参数化。因此，优化是在先验网络的参数上而不是在补丁上进行的。在[36]还证明了未经训练的网络确实捕获了自然图像的一些低级统计数据min（Sa，Sb）PfaSa+PfbSb（九）因此，生成的补丁对我们来说也是可解释的。在这个框架中，视觉解释性不是必需的，尽管它可以使实验更直观。其中，min（Sa，Sb）是Sa和Sb的逐像素最小值。在极端情况下，对于对目标类无关的解释方法，min（Sa，Sb）将等于Sa和Sb。因此，度量值为1。在另一个极端中，当属性从fa转移到fb时，min（Sa，Sb）和度量为零。对于单一功能场景，类别敏感度为：corr（Sa-Sa\fa，Sb-Sb\fa）（10）Sa\fa项St-St\f确定控制的平均量模型：只要优化是可解的，模型的选择就不会影响框架。该网络在ImageNet上预先训练[6]。然而，所提出的框架不依赖于正在训练的网络。对于一个随机网络，生成的特征看起来是不可优化在优化步骤中，我们将补丁放置在不同的位置，以确保结果不依赖于补丁的位置。此外，为了平衡方程中的项1-7我们使用焦点损失[10]（附录）。4. 结果和讨论STF补片f内的分数，除以外部平均值我们提出的框架的目的是揭示补丁更高的相关性意味着该方法对两个输出的相同特征都有贡献。特征饱和度度量为了评估属性如何在特征之间分布，我们评估分配给特征fa1和fa1的属性之间的corrr（XSa，XSa）（11）关于解释方法的见解和缺点。我们从不同的类别评估各种解释方法。DeepSHAP和IntegratedGradient是理论上公理化的方法。GradCAM和GradCAM++是两种利用网络注意力的流行方法。我们还评估了最近推出的FullGrad从这个家庭。此外，我们评估了两个最近有前途的解决方案，IBA和极值扰动。fa1fa24.1. 产品特点只将属性分配给一个特征的方法得分较低。3.5.实现细节参考/基线输入：重要性是相对于参考状态来理解的。参考被选择为使得其表示特征的缺失。在视觉领域，通常使用零值[29，35]或噪声[26]。在任何情况下，我们的框架都不依赖于引用。我们不对参考文献中的特征做任何假设我们确保特征相对于参考为空，并且我们的度量仅考虑生成的特征而不是背景（我们仅使用背景中的属性进行缩放）。深度先验网络：如果我们对空特征实验检查一个实例是否将输出归因于空特征。也就是说，它检查解释方法是否将空特征识别为重要。框架保证空特征没有贡献。使用该框架，我们生成1000个输入。对于每个输入样本，为随机输出生成特征然后，我们继续计算每个生成的输入的空特征度量，并在Tab中报告1.一、一个示例生成的输入是在图。1.一、FullGrad、DeepSHAP、Gradient和GuidedBackProp在该实验中表现最差。这种性能可能表明这些方法将输入中的所有先前显示[21]，GuidedBackProp重建图像特征，而不是解释预测，并且我们的结果是一致的是一个10250图像GradCAM GradCAM++ Gradient FullGradGuidedBackProp集成DeepSHAP IBA外部扰动图1. 特征实验：左边的图像表示在参考（噪声）输入上生成的特征。这些特征是使用模型本身生成的。在图像内，生成较低的特征（补丁），使得它是输出的空特征。其余的图像代表不同的解释。由于第二个特征是一个空特征，解释方法不应该赋予它的重要性。我们观察到，GradCAM，IBA和极值扰动在避免空特征方面表现最好。类别灵敏度方法产品特点双功能场景单一功能场景特征饱和度GradCAM0.1350.1760.0500.243GradCAM++0.4520.4690.845-0.571梯度0.8350.4690.6840.310FullGrad1.000.9310.951-0.130GuidedBackProp0.7040.5550.9790.703IntegretedGradient0.5340.3440.7590.212DeepSHAP1.030.5070.9340.221IBA0.2110.1910.295-0.223外部扰动0.0470.0390.759-0.680表1.使用框架评估解释：1）解释功能：解释功能实验评估每个解释将输出归因于空功能的程度。在这个指标中，值越小越好。极值扰动[]、GradCAM和IBA是从零特征角度来看的有利方法2）类敏感度：对于两个实验，值越低越好1)双功能场景：在对应于两个不同类别的两个特征存在的情况下，当应用于两个输出时，极值扰动、IBA和GradCAM属性为正确的特征。2)单一特征场景：在只有特征的情况下，对两种不同输出的解释与所有方法相似，除了GradCAM和IBA。3）特征饱和度：实验评估解释如何在饱和特征之间分配重要性在这个指标中，值越高值得注意的观察是极值扰动，因为它只识别其中一个重要的特征。与发现。还可以推断，梯度也对输入中的所有特征敏感。DeepSHAP被广泛认为是一种可靠的方法，因为它涉及SHAP。然而，它也有一个反向传播机制（因为它是在DeepLift上设计的）。反向传播似乎是罪魁祸首，因为其他梯度方法也失败了这个实验。FullGrad对所有图层的梯度和偏差进行加权求和。在这种情况下，早期层中的梯度可能是罪魁祸首。我们观察到GradCAM很少将属性分配给空特征。并且分配的值可能是由于CAM的低分辨率。IBA和极值扰动都是基于特征的去除。我们看到他们也避免归因于空特征。我们还在 ResNet 网络的不同层上评估了 IBA 和GradCAM++这些方法的优点之一是，它们可以应用于早期层，以产生更高分辨率的地图。然而，我们在图中观察到2、Tab。2，当我们向早期层移动时，方法归因于空特征。4.2. 类别灵敏度双特征场景目标是观察当两个输出都有相应的特征时，对两个不同输出的解释如何不同。计量结果见表1。 1 ，和视觉示例在图 3 中呈现。我们观察到，GradCAM，IBA和极值扰动属性相应的功能时，解释不同的输出。FullGrad在应用于两个输出时会产生相同的解释。我们观察到 Gradient 、 GuidedBackProp 、DeepSHAP和IntegratedGradient稍微改变了解释。我们还对IBA和GradCAM++进行了分层实验。我们观察到，在较早的层中，解释变得不那么阶级敏感。单一特征场景在此设置中，我们在只有一个贡献特征可用的情况下评估类敏感度。假设对10251IBA GradCAM++度量层1层2层3层4层1层2层3层4产品特点0.3150.3110.2010.2110.8270.9060.8150.453双功能场景0.3270.3370.2070.1910.9770.9480.8990.469单一功能场景0.2190.2370.1580.2950.9790.8230.7610.845表2.IBA和GradCAM++对ResNet各个层的解释的评估：IBA和GradCAM++适用于卷积网络的不同层。然而，我们观察到，当我们向更早的层（向输入）移动时，更多的属性被分配给空特征。我们也观察到同样的趋势与类敏感性。GradCAM++的结果显著恶化（在两个实验中，值越低越好）。因此，建议将这些解释应用于深层。GradCAM++第一层第二层第三层第四层IBA第一层第二层第三层第四层图2.在网络的不同层上进行IBA和GradCAM++的功能实验。第二个（下）特征是空特征。我们观察到，当我们向更早的层移动时，解释归因于两种方法的空特性。对应特征的解释类似于对该特征没有贡献的输出的解释。在这种情况下，解释对输出不敏感。图4中提供了这种情况的直观示例。相关指标的结果见表1。1.一、在这种情况下，更多的解释方法倾向于将输出归因于图像中的单个特征。有趣的是，在这种情况下，唯一对输出敏感的方法是GradCAM。即使在双特征场景中表现良好的IBA和极值扰动也可以识别两个输出的相同特征。这可能是所有基于扰动/移除的方法的属性，它们收敛到输入中唯一的预测特征，即使该特征对另一个类是预测的。4.3. 特征饱和度本实验旨在检查在输入中存在饱和特征的情况下归因方法的行为。在这种情况下，理想的属性是对这两个特征的贡献。指标结果见表1。1.一、一个直观的例子是在ap-pendulum（图5）。输入中的两个特征（补丁）对输出的贡献相等，并且仅存在一个就足以进行精确的输出预测。我们希望观察到，一个方法，如极值扰动，只贡献的功能之一。该方法搜索最小的区域，保持它将保持输出预测。在饱和特征的情况下，这转化为仅保留一个特征。Tab中的度量。1表明，统计上，该方法收敛到的特征之一。其他的方法大多数都归因于这两个特征，但考虑到来自多人实验和类敏感性实验的结果，观察结果最好谨慎解释。有几种方法可能归因于这两个特征，因为它们归因于所有特征的其他原因。例如，我们使用GuidedBackprop观察到，该方法归因于空特征，并且在解释不同输出时归因于两个特征。一种方法，是归因于两个特征，但这样做，在空的功能的情况下，以及，是不做的归属公平分配，但其他原因。4.4. 关于框架的优化是否可行？为了实际保证设置（Eq. 1-7)实现时，我们设置停止标准并继续优化，直到实现期望的设置。停止标准检查属性（例如，一个特征为空）在某个阈值内得到满足。设置是移除补丁的变体;因此，我们在每个epoch之后检查移除补丁对所有设置我们报告输出变化率- tio（输出变化/输出）时，删除补丁在不同的设置（空，类灵敏度，饱和度）的平均年龄为1K样本。对于非线性特征、特征饱和度和类敏感度（双），比率为0.0712。对于类别敏感度（单个），比率为0.0649。框架是否对样本的生成方式敏感？根据定义，给定一个函数，对于任何输入/输出，归因方法应该识别特征与输出的一致性。该定义适用于任何输入，并且与生成的输入的属性无关（例如，不在分发范围内）。该框架确保10252集成极值GradCAMGradCAM++梯度FullGradGuidedBackProp工具DeepSHAPIBA摄动图像图3. 类敏感度-双特征场景：左侧的图像表示参考输入上生成的特征。生成特征，使得每个特征对应于不同的输出。下面的特征（面片）对应于第一输出（第一行），另一个面片对应于第二输出（第二行）。预计对这两项产出的解释会有所不同，并归因于每项产出的相应特点。GradCAM、IBA和极值扰动证明了这一特性。集成极值GradCAMGradCAM++梯度FullGradGuidedBackProp工具DeepSHAPIBA摄动图像图4. 类敏感性-单个特征场景：生成的特征对一个输出有贡献，对另一个输出为空。第一个输出显示在第一行中。特征为空的输出如下所示。对这两项产出都作了说明预计对这两项产出的解释会有所不同。此外，解释不应归因于空输出的特性（第二行）。在这种情况下，唯一正确属性的方法是GradCAM。该特征具有特定的行为，例如，对输出没有贡献。简而言之，来自框架的新见解：我们揭示了FullGrad，GradCAM++，集成矢量和梯度都归因于空特征。我们实际上确认DeepSHAP打破了公理（[34]中的理论）。我们显示CAM，极值扰动（Exp），IBA作为trustwor- thy在零和类敏感性公理（虽然当只有一个功能是存在的，只有CAM占上风）。我们揭示了饱和特性内ExP和IBA。我们发现GradCAM++，FullGrad，Gradient，IG，DeepSHAP可以是类不敏感的。我们显示（Tab。2）IBA和GradCAM++在早期层中打破了公理（尽管它们被提议在最深层之外的其他层上工作）。5. 结论这项工作提出了一个实验框架，公理化评价的解释方法，使用该模型。在这个框架内，检查解释是否符合公理或满足属性。实验装置是通过使用该模型生成特征来实现的。通过特征生成，方案评估公理介绍。该框架揭示了许多解释方法将空特征识别为显著的，即使该框架保证该特征没有贡献。此外，该框架表明，许多解释是不类敏感的，并产生大致相同的解释不同的输出。唯一不属于空特征且对类敏感的方法我们进一步分析了 IBA 和GradCAM++在神经网络的各个层，并揭示了只有当它们应用于最终层时才符合ax- ioms。我们提出的框架可以用来评估未来的解释方法。此外，研究人员可以在所提出的框架中添加更多的创造性实验，以评估从其他角度的解释。致谢本工作得到了慕尼黑机器学习中心（MCML）的支持，并得到了 Bundesministerium fur Bildung undForschung（BMBF）项目01IS18036B的资助。10253引用[1] 朱利叶斯·阿德巴约，贾斯汀·吉尔默，迈克尔·穆利，伊恩·古德费洛，莫里茨·哈特和比恩·金。显著性图的健全性检查。在神经信息处理系统的进展，2018年。3[2] MarcoAncona，EneaCeolini，CengizOüztireli，andMarkusGross.更好地理解深度神经网络的基于梯度的ICLR，2018年。3[3] Leila Arras ， Ahmed Osman ， and Wojciech Samek. 用clevr- xai对神经网络解释进行地面实况评估。arXiv预印本arXiv：2003.07258，2020。3[4] David Baehrens，Timon Schroeter，Stefan Harmeling，Mo-toakiKawanabe ， KatjaHansen， andKlaus-RobertMAzller. 如何解释个人分类决策。 Journal ofMachine Learning Research，11（Jun）：18032[5] TomBBro wn ， DandelionMa ne´ ， Aurk oRoy ， Mart´ınAbadi ， and Justin Gilmer. 对抗补丁。 arXiv 预印本arXiv：1712.09665，2017。2[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议上，第248-255页。Ieee，2009年。5[7] Dumitru Erhan 、 Yoshua Bengio 、 Aaron Courville 和Pascal Vincent。可视化深度网络的高层功能蒙特利尔大学，1341（3）：1，2009。2[8] Ruth Fong，Mandela Patrick，Andrea Vedaldi.通过极值扰动和平滑掩码理解深度网络。在ICCV，2019年。一、二[9] Ruth C Fong和Andrea Vedaldi。通过有意义的扰动对黑匣子的可解释在ICCV，第3429-3437页，2017年。一、二[10] Michelle Guo ， Albert Haque ， De-An Huang ， SerenaYeung，and Li Fei-Fei.多任务学习的动态任务优先级排序。在欧洲计算机视觉会议（ECCV）的会议记录中，第270-287页，2018年。五、十一[11] Sara Hooker、Dumitru Erhan、Pieter-Jan Kindermans和Been Kim。深度神经网络中可解释性方法的基准测试神经信息处理系统的进展，第9737-9748页，2019年。一、三、十一[12] 贾斯汀约翰逊先生，Bharath哈里哈兰LaurensVan Der Maaten，Li Fei-Fei，C Lawrence Zitnick，andRoss Girshick. Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在IEEE计算机视觉和模式识别会议论文集，第2901-2910页，2017年。3[13] AshkanKhakzar 、 SorooshBaselizadeh 、 SaurabhKhanduja、Christian Rupprecht、Seong Tae Kim和NassirNavab 。通过关键通路的透镜解释神经反应。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第13528-13538页，2021年6月。一、二[14] Ashkan Khakzar，Soroosh Baselizadeh，和Nassir Navab.重新思考基于梯度的显着性方法中梯度的正聚合和传播。arXiv预印本arXiv：2012.00362，2020。三、十一[15] Ashkan Khakzar ， Yang Zhang ， Wejdene Mansour ，Yuechi Cai ， Yawei Li ， Yucheng Zhang ， Seong TaeKim，and Nassir纳瓦布通过识别信息输入特征解释covid-19和胸部病理模型预测。医学图像计算和计算机辅助干预国际会议，第391-401页。斯普林格，2021年。1[16] 斯科特·M Lundberg和Su In Lee。解释模型预测的统一方法。在神经信息处理系统的进展，2017年。一二三十一[17] Aravindh Mahendran和Andrea Vedaldi。通过反转它们来理解深度图像表示。在 Proceedings of the IEEEconference on computer vision and pattern recognition，第5188-5196页，2015中。2[18] Saumitra Mishra，Bob L Sturm和Simon Dixon。音乐内容分析的局部可解释模型不可知论解释。在ISMIR，第537-543页，2017年。2[19] Gre'goireMontav on ，Sebast ianLapuschkin ，Al exander Binde r，WojciechSamek，andKlausRobertMüller. 用深度泰勒分解解释非线性分类决策. 模式识别，2017年。一、二[20] Anh Nguyen 、 Alexey Dosovitskiy 、 Jason Yosinski 、Thomas Brox和Jeff Clune。通过深度生成器网络合成神经网络中神经元的首选输入。神经信息处理系统的进展，第3387-3395页，2016年。2[21] Weili Nie，Yang Zhang，and Ankit Patel.基于反向传播的可视化的复杂行为的理论解释2018年机器学习。三、五[22] Chris Olah ， Alexander Mordvintsev ， and LudwigSchubert. 特征可视化。蒸馏， 2017 。https://distill.pub/2017/feature-visualization. 2[23] Zhongang Qi，Saeed Khorram，and Fuxin Li. 通过集成梯度优化来可视化深度网络。CVPR研讨会，2019年。2[24] Sylvestre-Alvise Rebuffi，Ruth Fong，Xu Ji，and AndreaVedaldi.ThereandBackAgain：RevisitingBackpropagation Saliency Methods. 2020年4月。3[25] Wojc i echSamek，Al e xanderBinde r，G re'goireMont avon，SebastianLapuschkin，andKlausRobertMüller. 评估深度神经网络所学习内容的可视化。IEEE Transactions onNeural Networks and Learning Systems，2017。一、三、十一[26] 卡尔·舒尔茨，莱昂·西克特，费德里科·汤巴里，蒂姆·兰德-里兹。限制流动：分配的信息瓶颈。在2020年的学习代表国际会议上。一、二、五[27] Ramprasaath R

下载后可阅读完整内容，剩余1页未读，立即下载