解纠缠掩蔽反向传播算法的属性映射生成

176 浏览量更新于2023-10-13 收藏 2.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于解纠缠掩蔽反向传播算法的属性映射生成Adria Ruiz Antonio Agudo Francesc Moreno-NoguerInstitutdeRoboticaiInforma` ticaIndustrial，CSIC-UPC，Barcelona，Spain{aruiz，aagudo，fmoreno} @ iri.upc.edu摘要属性图可视化已经成为理解卷积神经网络底层推理过程的最有效技术之一。在此任务中，目标是计算每个图像像素的分数，该分数与其对网络输出的贡献相关。在本文中，我们介绍了解纠缠屏蔽反向传播（DMBP），这是一种基于梯度的新方法，它利用ReLU网络的分段线性性质将模型函数分解为不同的线性映射。该分解旨在通过学习在反向传播期间掩蔽每个滤波器对标准架构（ResNet50和VGG16）和基准数据集（PASCAL VOC和ImageNet）的全面评估表明，DMBP比以前的方法生成更直观的属性此外，我们定量地表明，我们的方法产生的地图是更一致的每个像素的最终网络输出的真实贡献1. 介绍卷积神经网络（CNN）在当前最先进的自动视觉理解方法中无处不在。尽管它们在多个任务中表现出色[10，14，40]，但它们仍然被描述为黑盒，其内部推理规则难以解释。因此，这种类型的模型的可信度是有限的，并且它阻碍了它们在自动驾驶[17]或医疗诊断[6]等应用中的广泛采用，其中确保模型决策是可靠的并且不是基于数据伪影或偏见。在这种情况下，已经探索了几种策略来可视化指导模型决策过程的基本规则归因图生成是用于此目的的最有效的方法之一[3，21，25，31，33，37]。该任务旨在为每个单独的输入分配一个分数（即，像素）确定它们对FI的贡献笔记本单峰骆驼三脚架羊狗摩托车图1. 说明我们提出的方法生成属性图。给定一个输入图像，我们希望获得每个像素的分数，估计它们对目标标签的CNN输出的贡献（粗体）。我们的方法能够识别-区分对预测有正贡献（红色）或负贡献（蓝色）的区别性图像像素，以及对应于对输出没有影响的讨厌因素的像素（白色）。例如，在底部中间，正属性被分配给狗，而负分数对应于属于猫的像素。另外，没有属性被分配给非区分性背景像素。这些组件的解开产生细粒度的像素级归因，揭示了网络在推理过程中使用的模式。我们表明，所生成的属性图是更丰富的信息和visu- ally解释比以前的方法获得的。最终网络输出（例如，给定类的概率）。通过可视化属性图，然后很容易验证网络推理是否由直观规则引导，例如识别与高级语义概念相关的有区别的图像区域①的人。生成可靠属性图的一种有前途的方法是基于梯度的技术[28，33，37，31]。为了确定每个像素的重要性，这些方法使用不同的机制，通过中间层将信息从输出反向传播到输入图像。基于梯度的方法的一个吸引人的特性是，与其他产生粗糙和信息量较少的归因图的方法相比[21，25]，它们可以识别905906高频图案，例如边缘或纹理。已经表明，这些信息可以与充分理解网络推理过程相关[11]。在本文中，我们介绍了解纠缠掩蔽反向传播（DMBP）。与以前的基于梯度的方法类似，我们的方法使用反向传播来确定每个输入像素对网络输出的贡献。然而，DMBP从一个新的角度解决了这一任务。特别地，我们使用具有ReLU非线性的标准CNN可以被解释为分段线性函数的事实，其中输入空间根据输入被分成不同的线性区域[35]。使用这种观察，DMBP将输出的计算分解成不同的线性映射，这些线性映射用于从属性图中解开滋扰、正面和负面因素。而滋扰分量指的是对网络输出没有影响的信息，后者的因素识别为目标标签提供否定或肯定证据的有区别的像素（再次参见图2）。①的人。通过将网络梯度分解为不同的子分量来识别不同的线性映射，这些子分量通过在反向传播期间学习一组变量掩蔽网络滤波器来识别（见图2）。2为概述）。在我们的实验中，我们通过在标准网络架构（ResNet50和VGG16）和基准数据集（ImageNet和PASCAL VOC）上提供定性和定量结果来结果表明，与以前的方法相比，DMBP产生的分布图是更符合每个像素的网络输出的真实贡献此外，我们表明，我们的结果是更翔实和视觉上的解释。2. 相关工作归因图生成是理解CNN对给定输入的推理过程的最有效策略之一。为此目的，基于扰动的方法通过观察在推断期间排除或包括输入像素的效果来测量输入像素的贡献。这些方法使用不同的机制来生成二元掩模，该二元掩模定义被扰动以用于网络评估的图像区域。预测差异分析[42]和遮挡[37]使用滑动窗口方法将图像块设置为零并测量对CNN输出的影响RISE [21]生成随机二进制掩码，并根据目标类概率对它们进行平均。LIME [23]和KernelShap [19]根据代理模型对图像超像素进行加权，该代理模型估计当它们被移除时对CNN输出的影响。与这些蛮力策略相反，有意义[9]和极值扰动[8]将此任务作为一个学习问题，其中掩码被优化以最小化目标标签概率。然而，虽然先前的方法已经显示有希望的结果，生成的属性图对不同的超参数[5，2]控制因素敏感，例如：（i）图像扰动的类型[9]，（ii）提取的超像素[19，23]，（iii）掩模上的采样过程[42，21，23]或（iiii）稀疏性和平滑约束[8，9]。由于缺乏客观的基础事实，这些参数在实践中可能难以验证。生成属性图的另一种流行方法是利用中间网络层中包含的信息。特别是，类激活图[41]使用最终分类器的权重来计算最后一个平均池化层中特征图GradCam[25]考虑了一种类似的方法，该方法具有由输出w.r.t.最后一张特征图Score-CAM [34]使用中间层激活来按照与基于扰动的方法类似的策略生成归因图。全梯度[32]使用偏置项的梯度w.r.t. 输出以生成属性。最近， Principal FeatureVisualization [4]通过PCA在相应的特征图上可视化了最后一个CNN层的最后，[22]结合了从输出w.r.t.的梯度信息生成的多个属性图中间层参数。尽管这些方法通常涉及比基于扰动的方法更少的超参数，但是中间层的信息通过将其上采样到原始输入图像的分辨率来可视化。因此，生成的属性图是粗粒度的，并且不会揭示对理解网络推理过程至关重要的线索，例如纹理或边缘[11]。用于生成属性图的基于梯度的方法的动机是CNN输出w.r.t. 输入图像与每个像素对最终预测的贡献相关基于这一观察，[28]提出直接使用网络梯度来计算每个像素的重要性。然而，这种方法的结果往往是太嘈杂，很容易解释。为了克服这一限制，几种方法平均多个梯度计算w.r.t.一组修改的输入图像。特别地，集成梯度[33]考虑了原始输入和参考输入之间的一组插值（例如，零图像）。XRAI [16]应用该框架为不同的超像素分配分数。BIG [12]使用一组模糊图像作为参考输入。最后，Smooth- Grad [30]对由评估被高斯噪声破坏的不同输入产生的多个梯度进行不是平均多个梯度，其他方法试图通过修改激活函数导数[2]来过滤反向传播期间的非相关信息。例如，DeconvNet [37]将ReLU激活应用于每个中间层的梯度。引导反向传播[31]遵循类似的策略，但907ΣΣ∈爱岛因为x是其中⊙是Hadamard乘积，y====图2.用于生成归因图的解纠缠掩蔽反向传播概述。上图：给定由具有ReLU非线性的CNN建模的函数F（x），可以通过对输入应用线性映射来计算给定图像的网络输出。该映射等同于输出梯度w.r.t.输入. 然后，指示每个像素的贡献的属性图可以被计算为映射和图像像素的逐元素乘法然而，可以看出，这种策略通常会产生难以在视觉上解释中间和底部的噪声结果：DMBP学习一组变量，在反向传播期间对每个网络滤波器的贡献进行这些变量的优化是由一个损失，分解成不同的线性映射，解开积极和消极的属性，并删除滋扰因素的属性地图的原始功能如果到相应层的输入是负的，则导数也被归零[25]第25话粗粒度映射RGB图像）。给定任意输入输出对{x，y}，我们可以计算一个属性m a pa∈Rd0为Σa（x）=c⊙x，关于GradCam最后，诸如激发反向传播[38]、逐层相关性传播[3]、DeepLift [26]、DeepShap [19]、深度泰勒分解[20]或模式属性[18]的方法采用不同的梯度计算规则来跨层传播属性。所提出的解开掩蔽反向传播的灵感来自于使用基于梯度的策略来生成归因图的方法。然而，一个根本的区别是DMBP不依赖于手工制作的反向传播规则[38，3，37，31]。相反，它优化了一组变量，在梯度计算过程中掩盖个别网络过滤器。虽然最近在LPR [36]中探索了学习函数导数，但该方法使用修改的梯度来生成类似于基于扰动的方法的二进制掩码。相反，DMBP是优化反向传播规则的第一种方法，以明确地将网络函数分解为一组线性映射，从属性图中分离出积极、消极和讨厌的因素。3. 解纠缠掩蔽反向传播在下文中，我们介绍了在我们的框架中使用的属性图让我们考虑一个形式为y=cTx的线性模型，其中y∈R是输出（例如，给定类的得分）并且c∈Rd0是应用于输入x∈Rd0的线性映射（例如，载体-图像A可以被可视化，以便识别每个输入像素对输出的贡献。从现在开始，我们使用以前的定义的属性地图的DMBP和其余的基于梯度的方法。在本节中，我们将展示标准ReLU网络为每个输入x建模一个线性函数（第3.1节）。为了简单起见，我们开始考虑具有全连接层且没有偏置项的网络。在第3.2节中，我们解释了DMBP如何使用这种依赖于输入的线性化，以便从属性图中分离出积极、消极和讨厌的因素。最后，在第3.3节和第3.4节中，我们分别将我们的框架推广到具有偏置项的网络和CNN的情况。3.1. 线性化ReLU神经网络让我们考虑具有L个全连接层的神经网络，其将函数F：Rd0→R定义为：y= F （ x） = wTf L. . . o f lo. . . o f2o f1（x），（1）其中wRdL表示计算来自最后隐藏层的输出的最终滤波器（例如，在应用softmax之前的目标标签此外，每个中间层f被定义为线性函数和ReLU非线性的组合，如下所示：hl=fl（hl−1）=（Wlhl−1），（2）其中hl∈Rdl是中间层激活，W∈Rdl×dl−1和（·）=max（·，0）。在现有的定义中，XXx2X1XX2XX2X1CNN线性映射POS.线性映射Neg.线性映射纠缠归因图POS.归因图Neg.归因图908∈∈--∈−∈∥∥LLLLLLy+（σ）=xF+（x）Tx，y−（σ）=xF−（x）Tx（11）我们可以表示Eq。（2）如：hl=Wlhl−1=diag（H（Wlhl−1））Wlhl−1，（3）当量（4）被定义为矩阵W^l的乘积。因此，We可以将这些线性映射中的每一个分解为：Wl=W++W−=ΣlWl+（I−Σl）Wl，（8）其中，H（·）表示施加到Il的He的阶跃函数向量中的所有元素。更直观地，我们将ReLU操作建模为对角二进制矩阵，该矩阵屏蔽了Wl中的过滤器子集，通过Wlhl−1产生负元素。因此，我们可以表示线性映射和ReLU作为单个矩阵W^l。从Eqs在等式（1）和（3）中，很容易看出，通过在输入x上应用线性变换W^l的合成来计算网络输出，如下：其中I是单位元，Σl=diag（σl）Rdl×dl是对角矩阵，其元素σl[0，1]dl是可学习参数的向量。表示σ=σL，. . .，σ1，等式中的网络输出（4）可以明确地分解为正面、负面和滋扰项，如下所示：y= wT。H++H−+HΣxy=wTΣWL. . . W2W1Σx=wTHL X.（四）=y+（σ）+y−（σ）+y（σ）=wTΣΣLWL. . . Σ1W1Σx其中HL∈RdL×d0.注意，对于任何线性函数形式F（x）=cTx，我们有c=xF（x）。在那里-+wTΣ（I−Σ）W. . . （I−Σ）WΣx因此，向量wTHL∈Rd0 由方程式（4）相当于LL 11网络输出的梯度w.r.t.输入.因此，给定图像的分布图a（x）Rd0可以计算为：a（x）=[wTHL] ⊙ x = xF（x）⊙ x.（五）+wTHLx，（9）其中掩模Σ1和（I Σ1）选择用于每一层的滤波器集合，从而产生对输出具有正或负影响的特征。相比之下，HLmod-3.2. 归因图分解动机使用输出梯度来计算属性映射最初在[28]中提出。但这消除了非区分性特征。学习目标。为了学习给定输入图像X的最佳参数σ，DMBP优化：策略通常会产生难以直观解释的噪声结果（见图1）。2-顶部）。为了理解这一点--minσ 1，σ2，…σLy−（σ）−y+（σ）+y（σ）1，（10）注意，我们需要分析矩阵 HL 在等式中的作用。（四）、特别地，它可以被解释为从输入计算最后一层特征X.然而，请注意，所得到的特征在推理过程中会纠缠网络编码的区分性和非相关信息因此，在归因图中也可视化了干扰成分，掩盖了真正有助于模型输出的区分因素受此观察的启发，DMBP分解Eq.（4）分为三个不同的术语：wTHLx=wT.H++H−+HLΣx，（6）其中，我们的目标是最大化和最小化等式中的正项和负项。（9）分别。此外，项y（σ）1鼓励干扰因素对y具有可忽略的影响。在优化期间，我们通过在所学习的标量参数的集合上应用S形函数来确保约束〇1[0，1]dl通过掩码反向传播优化。类似于Eq。（4），等式（4）中的正项和负（10）是线性w.r.t.因此，它们可以表示为：其中H+和H-是产生fea-的L其中F+（x）是通过执行反向对产出有积极和消极贡献的措施，都是值得尊敬的。相比之下，HL旨在提取非区分性特征。使用这种分解，没有滋扰因子的属性图可以计算为：909−∇a（x）=[wTH+] ⊙ x +[wTH−] ⊙ x.（七）X通过网络，同时将每层的滤波器乘以Σl。类似地，xF−（x）可以通过使用（I Σl）的另一个反向传递来获得。最后，滋扰项不需要任何显式计算，因为它可以通过网络输出和先前的计算来估计。计算项为y（σ）= y − y+（σ）− y −（σ）。后L L这些计算的定义，参数σl滤波器分解为了获得Eq. 在等式（6）中，我们使用以下事实：每一层都可以通过最小化等式（1）中的损失函数来优化（10）使用标准梯度下降。910∇−◦ ∇LΣy=F（x）x+F（x）b。（14）xb l−∗3.3. 纳入偏倚术语在前面的章节中，我们已经排除了神经网络中通常使用的每个滤波器考虑到这些因素，我们将修改Eq。（3）作为：hl=f l（h l−1）=（Wlhl−1+ bl），（12）其中bl是滤波器Wl的偏置项。类似于Eq。在等式（4）中，很容易示出，在这种情况下，对于给定的输入，网络函数可以线性化为：输入特征图。以这种方式，项y+（σ）也可以如在等式2中计算。其中xF+（x）是通过将每个中间层的梯度修改为ΣlhlF（x）而在网络上用单次反向传递获得的。类似地，负项y−（σ）可以在反向传播期间使用（IΣl）计算。附录B中提供了DMBP优化的伪代码。将DMBP应用于其他层。除了卷积和ReLU之外，标准CNN还包含批量归一化（BN）[15]或残余层[13]。幸运的是，使用这些层不需要对y=wTΣWL. . .W1Σx+ l=2wTΣWL. . . WlΣbl−1（十三）我们提出的框架。原因是它们也可以被建模为输入上的线性映射，因此，网络函数仍然可以被线性化，如在等式2中。（14）。持续时间其中Wl =Wldia g（H（hl−1+bl−1）），且为通过评估，BN可以与其先前的卷积融合。w直径g（H（h））。更多详情请参见附录A注意通过修改其滤波器和偏置项来实现。1.一、另L输出y现在通过应用一组线性另一方面，形式Hl=（Wlhl−1）+hl−1在输入x和每个偏置项b上的映射。然而可以用线性映射hl=（Wl+I）hl−1表示，所得函数再次关于Lx和b0：L。其中，Wl在等式中定义。（三）、因此，我们也可以表示Eq。（13）使用输出梯度w.r.输入和偏置为：LT TLl=1虽然前面的表达式是在[32]中通过使用不同的推导首次开发的（14）为了计算等式中的DMBP分解（9）对于具有偏置项的神经网络具体地，我们遵循在第2节中描述的相同3.2.然而，梯度w.r.t.需要在两个独立的反向通过期间使用Σ和（I Σ）来计算偏差。这是计算方程中的偏置项的贡献所必需的。（14）。3.4. 卷积神经网络掩蔽卷积滤波器。CNN通过应用形式hl=（Wlhl−1）的卷积层来计算中间特征图。在这种情况下，组合物卷积算子和ReLU也可以表示为单个线性映射：h l=（Wl* hl−1）= H（Wl* hl−1）⊙（Wl*hl−1）。（十五）在Eq.公式（9）也可以如下应用于卷积层。首先，正项y+（σ）可以通过将Σ1乘以每个卷积和ReLU之后的结果特征图hl=Σl◦ H（Wl∗hl−1）⊙（Wl ∗hl−1），（16）其中Σl是与hl维数相同的张量。直观地，这等效于针对每个空间位置和通道的每个空间位置和通道独立地掩蔽所应用的滤波器Wl。9114. 实验数据集和模型。我们进行我们的实验，基准数据集和架构的图像分类。特别地，我们使用Ima-geNet [24]和VOC 2012 [7]的验证集。作为基线模型，我们使用两种广泛使用的 CNN 架构： [13] 和 VGG16 [29] 。在ImageNet上，我们将Torchvision库中的预训练模型用于这两种架构。在VOC2012中，我们使用[38]中训练的模型。基线。我们比较了DMBP与11个以前的方法的属性地图生成，包括国家的最先进的方法。考虑到DMBP是基于梯度的方法，我们专注于与遵循该策略的先前方法的比较：Grad [28]，积分梯度（IG）[33]，平滑梯度（SG）[30]，模糊积分梯度（BIG）[12]，DeepLift（DL）[27]，梯度反向传播（GBp）[31]和GuidedGradCam（GGC）[25]。作为参考，我们还将我们的方法与Grad-Cam（GC）[25]和FullGradients（FG）[32]进行了比较，它们使用中间层中的信息来计算属性图。最后，我们还提供了与基于扰动的方法RISE[21]和LPR [36]的比较。实现细节和超参数。我们使用PyTorch实现DMBP和其他比较方法。对于BIG2和FG3，我们集成了作者提供的代码。我们使用我们自己的LPR实现，因为没有公开的代码对于其余的方法，我们使用Captum.ai和TorchRay库中的实现。所有的超参数1https://nenadmarkus.com/p/fusing-batchnorm-and-conv/2https://github.com/PAIR-code/saliency3https://github.com/idiap/fullgrad-saliency网站912×∼图3. 我们实验中使用的插入度量（IM）的图示。详情见正文数据库/模型指标NDDMBP+DMBP+，−DMBP全部VOC/VGG16IM.36[.62].51.57CIM.09.06[.18].16VOC/RN50IM.30.58.59[.61]CIM.15.15[.22][.22]ImNet/VGG16 IM.24.37.37[.39]ImNet/RN50 IM.26.50.51[.57]表1. 用不同的解缠结损失优化的DMBP变体的结果。详情见正文。最佳方法用括号表示。第二和最好的用粗体表示。比较的方法被设置为原始论文中建议的默认值。对于DMBP，我们使用RMSProp，学习率为0。01作为优化器，以最小化等式1中的损失（十）、不应用权重衰减在梯度下降期间执行总共200次针对给定224的优化224输入图像需要20秒的NVIDIA 2080 Ti GPU。该时间高于其他基于梯度的方法所需的时间。然而，我们的主要目标是生成准确的归因图，而不是高效的计算。我们实现DMBP的代码在这个存储库中是公开的。4.1. 评估指标考虑到缺乏客观的地面实况，评估属性图具有挑战性。以前的作品试图通过使用由人类注释者提供的对象边界框[25，38]或进行用户研究[19]来评估它们。然而，基于人类的评估可能存在缺陷和误导[1]，因为人类和CNN之间的感知插入度量（IM）。为了克服这个限制，我们使用[21]中提出的插入度量。该度量不依赖于人类注释，并且如下计算每个图像的分数。给定针对目标标签生成的属性图，像素根据其属性值以降序排序。然后，增加像素的百分比迭代地添加到参考模糊图像中，并且用网络评估目标标签的概率最后，计算概率上的AUC，以获得图像的单个分数（参见图1）。3为例）。直观地说，这个度量试图测量具有大属性值的像素是否对网络输出有积极贡献。与[21]中为具有最高概率的标签生成属性图不同，我们使用地面实况在每个数据集中提供的类作为目标标签。这导致更具有挑战性的问题，因为可以以低概率预测类别。此外，使用地面实况注释作为目标标签允许我们使用以下补充度量来IM。互补插入度量（cIM）。在IM中，第一个插入的像素是具有最高属性的像素。因此，该度量不适于评估由具有负分数的像素提供我们期望这样的像素对应的区域是discrimi- native的，但提供负面的证据的目标标签。为了评估这些属性，我们使用了一种替代度量，可以应用于多个类注释的图像，我们称之为互补插入度量（cIM）。特别地，我们遵循与IM中相同的过程，但是首先插入具有较低属性的像素。然后，通过评估与用于计算属性图的目标类别不同的所有地面实况标签的概率因此，高cIM指示具有负属性的像素对应于为图像中的互补类提供正证据的有区别的区域。因此，这些区域为目标类别提供了阴性证据。我们不计算ImageNet的cIM，因为图像只标记了一个类。4.2. 评价归因图分解在本实验中，我们评估了分离积极、消极和讨厌因素对生成的归因图的影响。为此目的，我们比较了不同的DMBP的变体优化与消融版本的损失定义在方程。（十）、具体而言，我们用途：（一）损失仅使正项y+最大化。(ii)同样的目标，但也最小化y-。（三）原损失额还考虑了干扰项γ。从现在开始，我们将这些方法分别称为DMPB+、DMBP+、−和DMBPAll。注意，DMPB+被优化为仅识别积极因素; DMBP+，−旨在分解积极和消极因素; DMBP All还致力于消除有害因素。此外，我们还评估了在生成的香草的方法在方程的地图（5），其中的因素没有解开。我们将这种方法称为ND。为了更快的实验，我们使用ImageNet的5K图像子集，每个类有五个随机图像。913表2. 通过DMBP和其他最先进的方法获得的结果。显示了所有评估的数据集和网络模型的指标。最佳方法用括号表示。第二和最好的用粗体表示。FGGCDMBP图5示出了使用DMBP和具有更好性能的替代的基于梯度的方法获得的定性结果。如图所示，IG、SG和DL产生噪声可视化，其中混合了正面和负面属性。原因是这些方法没有明确地分解歧视性和非相关因素。相反，GBp使用手工制作的反向传播规则来识别仅对应于积极因素的图像区域。然而，该方法产生属性，其中不属于目标类的像素也被分配有正属性。最后，GGC使用由GradCam产生的粗特征图来过滤由GBp产生的属性然而，该策略不能识别对网络输出具有负面贡献的图像像素。与IG、SG和DL相比，我们的方法产生图4. 生成的属性图之间的比较FG、GradCam和拟定DMBP。后者生成细粒度的像素属性，其比由其他方法产生的粗结果更具信息性和表1总结了不同评价指标、数据集和模型的结果如我们可以观察到的，在大多数度量中，与不同的DMBP版本相比，ND产生显著更差的结果其原因是积极因素、消极因素和妨害因素在这一案件中没有被分解。这会生成噪声结果，其中属性无法正确识别每个像素对模型输出另一方面，除了VGG 16中的IM度量超过VOC之外，在所有情况下，DMBP+，-始终优于DMBP+这种改进是因为DMBP+在优化期间忽略了负面因素。作为一个骗子-序列，对模型的输出具有负面影响的判别模式没有被正确地这通过观察由DMBP+获得的差的cIM值而清楚地看出。最后，DMBPAll达到了相当或更好的效果在大多数情况下，结果比DMBP+，−这表明消除非歧视性因素的重要性，从而最小化干扰项的影响。4.3. 与最新技术与基于梯度的方法进行比较。如在表2中可以观察到的，DMBP始终优于其余的比较的基于梯度的方法（Grad、IG、SG、BIG、DL、GBp和GGC）。为了提供进一步的见解，通过去除非歧视性因素，使归因图更具可解释性。此外，与GGC和GBp相比，我们的方法正确地识别了对输出有负面影响的因素。与其他方法的比较。表2中的结果还证明了DMBP优于使用中间层信息GradCam和FG的方法。更具体地说，DMBP在所有指标中获得了最好的平均性能和最高得分结果，除了VGG16在ImageNet上，其中FG和GC优于我们的方法。然而，这两种方法通过对从中间层提取的信息进行上采样来生成属性图。如图4，这导致比用我们的方法获得的那些更粗糙和更少信息的可视化。虽然粗糙的at-mapping可以潜在地应用于特定的下游任务，例如弱监督的对象定位，但可靠的网络可解释性需要细粒度的结果，提供关于模型在推理期间利用的视觉线索的详细信息如可以观察到的，这是DMBP可视化的情况，其提供识别诸如对象边缘或纹理的高频信息的细粒度像素级属性。总之，我们的方法始终优于基于扰动的方法RISE和LPR。后者还优化了反向传播的函数衍生物。然而，修改的梯度被用来生成破坏原始图像的二进制掩码。相比之下，DMBP通过使用修改后的梯度来显式地区分，从而实现更好的性能。捕鼠器大熊猫数据库/模型指标毕业生[28]IG[33]SG[30]大[12][27]英国药典[31]GGC[25]LPR[36]RISE[21]第三十二章GC[25]DMBPVOC/VGGIM0.360.430.550.360.410.320.350.400.410.280.35【0.57】CIM0.090.060.060.080.070.060.120.070.130.100.13【0.16】VOC/RN50IM0.300.360.470.270.340.390.500.400.510.440.510.61]CIM0.150.160.150.150.150.130.190.140.210.140.21【0.22】INet/VGG IM0.230.280.380.210.300.320.360.280.280.43【0.48】0.41监测914IGSGDLGBpGGC DMBP图5. DMBP和替代的基于梯度的方法的定性结果。更多结果请参见supply。材料VOC IMNetVGG16 RN50 VGG16 RN50GBp [31]0.990.99 0.99 0.99GGC [25]0.25 0.28 0.35 0.45DMBP（我们的）0.02-0.03 0.00 0.00表3.从原始网络获得的属性与重新初始化参数的属性之间的相关性。积极的、消极的和讨厌的因素纠缠在一起属性对图层重新初始化的敏感性。DMBP生成细粒度的属性，其中可以清楚地识别边缘等视觉线索。这种直观模式的识别也可以在基于梯度的方法中观察到，然而，[1]表明，这些方法存在一个严重的弱点：属性图对网络参数的重新初始化不敏感。因此，他们无法识别解释推理过程的区分区域。为了评估DMBP是否受到这种限制，我们执行[1]中提出的健全性检查。特别是，我们计算原始属性图和网络生成的属性图之间的秩相关性，其中最后一层参数使用正态分布随机重新初始化表3示出了所获得的结果。如可以观察到的，由GBp和GGC获得的高相关性表明这些方法生成的归因图不是对模型重新初始化敏感。与此相反，DMBP获得几乎为零相关的所有情况下，表明所确定的边缘是真正依赖于网络参数。5. 结论我们提出了一种新的基于梯度的属性图生成方法--解纠缠掩蔽反向传播。与以前的方法相比，DMBP利用ReLU神经网络的分段线性性质，从属性图中分离出积极、消极和讨厌的我们的实验表明，与以前的最先进的方法相比，DMBP产生细粒度的属性图，更直观的解释，更好地识别每个像素对网络输出的贡献虽然我们专注于采用ReLU激活的标准CNN架构，但我们的框架也可以应用于具有其他类型的分段线性激活的网络，例如Leaky-ReLU。最后但并非最不重要的是，其他非线性，如S形或双曲正切也可以通过用分段线性近似对其建模来引入。致谢。这项工作部分由西班牙政府资助，项目为MoHuCo PID 2020 - 120049 RB-I 00。Adria Ruiz感谢MICINN（西班牙）通过Juan de la Cierva项目提供的资金支持。LaRENSET50 /ImageNetVGG16 /VOC2012狗监测沙漏单峰骆驼915引用[1] 朱利叶斯·阿德巴约，贾斯汀·吉尔默，迈克尔·穆利，伊恩·古德费洛，莫里茨·哈特和比恩·金。显著性图的健全性检查。在高级神经信息。过程系统，2018年。六、八[2] MarcoAncona，EneaCeolini，CengizOüztireli，andMarkusGross.更好地理解深度神经网络的基于梯度的内部配置学习.代表。，2018年。2[3] Sebastia nBa ch ， Ale xanderBinder ， Gre´ goireMontavon，FrederickKlauschen，Klaus-RobertMüller ，andWojciechSamek.基于逐层相关传播PLOS One，2015.第1、3条[4] MarianneBakken ， JohannesKvam ， AlexeyAStepanov，and Asbjørn Berge.卷积神经网络中的主要特征可视化。ECCV，2020年。2[5] Naman Bansal、Chirag Agarwal和Anh Nguyen。Sam：归因方法对超参数的敏感性在IEEE Conf. Comput.目视模式识别，2020年。2[6] Travers Ching，Daniel S Himmelstein，Brett K Beaulieu-Jones ， Alexandr A Kalinin ， Brian T Do ， Gregory PWay ， EnricoFerrero ， Paul-MichaelAgapow ，MichaelZietz，Michael M Hoffman，et al.深度学习在生物学和医学中的机遇和障碍。英国皇家学会界面杂志，2018年。1[7] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman。pascal visual object classes挑战：回顾展。Int.J.计算机目视，2015年。5[8] Ruth Fong，Mandela Patrick，Andrea Vedaldi.通过极值扰动和平滑掩码理解深度网络。国际会议补偿目视，2019年。2[9] Ruth C Fong和Andrea Vedaldi。黑箱的有意义扰动解释。Int. Conf.Comput.目视，2017年。2[10] Alberto Garcia-Garcia 、 Sergio Orts-Escolano 、 SergiuOprea、VictorVillena-Martinez和JoseGarcia-Rodriguez。深度学习技术应用于语义分割的再认识。arXiv预印本arXiv：1704.06857，2017。1[11] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. ImageNet训练的CNN偏向于纹理;增加形状偏差提高了精度和鲁棒性。Int. Conf.学习.代表。，2019年。2[12] ShawnXu Google 、 A IHealthcare 、 SubhashiniVenugopalan和Google Research。在规模和空间上的归属。IEEE会议计算机目视模式识别，2020年。二、五、七[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE会议Comput.目视模式识别，2016年。5[14] 医学博士Zakir Hossain、Ferdous Sohel、Mohd FairuzShiratuddin和Hamid Laga。图像字幕深度学习的全面调查ACM计算调查，2019年。1[15] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。5916[16] 安德烈·卡皮什尼·科沃，托尔·格·博鲁克巴西，费尔南达·五世和迈克尔·特里。XRAI：通过区域更好的归因IEEE会议Comput. 目视模式识别，2019年。2[17] 金镇奎和约翰·坎尼。通过可视化因果注意力实现自动驾驶汽车在Int. Conf.Comput.目视，2017年。1[18] Pie t e r-JanKindermans，KristofTSc hütt，MaximilianAlber，Klaus-RobertMüller，DumitruErhan，BeenKim，andS ven D aühne. 学习如何解释神经网络工作：P属性和模式分布。国际会议学习。代表。，2018年。3[19] Scott M Lundberg和Su-In Lee。解释模型预测的统一方法。在高级神经信息。过程系统，2017年。二、三、六[20] Gre'goireMontav on ，Sebast ianLapuschkin ，Al exander Binde r ， WojciechSamek ， andKlaus-RobertMüller.用深度泰勒分解解释非线性分类决策。模式识别，2017年。3[21] Vitali Petsiuk Abir Das和Kate Saenko RISE：用于解释黑盒模型的随机输入采样。英国人马赫。目视Conf. ，2018年。一、二、五、六、七[22] Sylvestre-Alvise Rebuffi ， Ruth Fong ， Xu Ji ， andAndrea Vedaldi. There and Back Again ： RevisitingBackpropagation显着性方法 IEEE会议Comput. 目视模式识别，2020年。2[23] Marco Tulio Ribeiro Sameer Singh和Carlos Guestrin。机器学习的模型不可知解释性。2016年知识发现与数据挖掘国际会议。2[24] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。 Int. J.Comput. 目视，2015年。5[25] Ramprasaath R Selvaraju，Michael Cogswell，AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBatra.Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。国际计算机目视，2020年。一二三五六七八[26] Avanti Shrikumar

下载后可阅读完整内容，剩余1页未读，立即下载