类激活映射方法在解释卷积神经网络内部行为方面具有改善，但缺乏明确的系数确定方法

68 浏览量更新于2023-10-13 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1336类激活映射的更好解释Hyungsik Jung Youngrock OhSamsung SDS{hs89.jung，y52.oh} @ samsung.com摘要对理解卷积神经网络（CNN）的内部行为的日益增长的需求导致了解释方法的显著改进特别地，已经提出了几种基于类别激活映射（CAM）的方法，其通过来自CNN的激活映射然而，大多数方法缺乏关于它们如何分配线性组合系数的明确的理论基础。在本文中，我们重新审视CAM的固有线性相对于激活图;我们构建了CNN的解释模型，作为表示相应激活图存在的二元变量的线性函数。利用这种方法，解释模型可以以解析的方式通过附加特征分布方法来确定。然后，我们演示的SHAP值，这是一个独特的解决方案的解释模型与一组理想的属性，适当的CAM的系数。由于无法获得精确的SHAP值，因此我们引入了一种基于DeepLIFT的高效近似方法LIFT-CAM 。我们提出的LIFT-CAM可以快速准确地估计激活图的SHAP值此外，该方法在定性和定量两个方面都大大优于其他基于CAM的方法。1. 介绍最近，卷积神经网络（CNN）在各种现实世界的视觉任务中取得了出色的性能然而，由于缺乏对其内部行为的了解，很难解释它们的预测。为了理解模型为什么做出某个决定，已经提出了许多显着性方法。该方法生成表示像素级重要性的视觉解释图，输入图像中的为了更好地理解CNN，已经广泛使用了基于类激活映射（CAM）的方法，其利用卷积层的响应基于CAM的方法[3，4，7，14，18，20]（本文其余部分缩写为CAM）线性组合激活图以产生视觉解释图。由于对于给定的输入图像和模型对，激活图是固定的，因此线性组合的系数决定了方法的性能。因此，设计一种合理的确定系数的方法然而，大多数CAM依赖于启发式conjec-tures系数分配没有一个明确的理论基础。具体地，CAM的基本线性w.r.t.激活图没有被充分考虑。此外，他们没有设定严格的标准，期望在良好的解释模型中满足哪些属性。在这项工作中，我们利用CAM的线性分析确定超出启发式的系数。由于CAM定义了一个使用激活图的线性组合的解释图，我们将解释模型公式化为表示相关激活图存在的二元变量的线性函数。在该方案下，每个激活图可以被视为加性特征属性方法中的单个特征[2，10，12，16]。值得注意的是，SHapley加法解释（SHAP）[10]提供了SHAP值作为满足三个期望属性的特征重要性的统一度量（在第12节中描述）。2.2）。因此，可以通过相应激活图的SHAP值来确定系数。然而，确切的SHAP值是不可计算的。为了解决这个问题，我们提出了一种使用深度学习重要特征（ DeepLIFT ） [16]的新型显着性方法，称为 LIFT-CAM，其有效地近似激活图的SHAP值。我们的贡献总结如下：• 我们提出了一个新的框架，确定一个plausible视觉解释图的CAM，通过重新定义的问题，确定一个可靠的解决方案的解释模型，使用添加剂的特征属性的方法。最近的消融-CAM [4]可以通过该框架重新解释。• 我们制定的SHAP值的激活映射作为一个统一的解决方案的建议的框架和1337Σg（z）=+z0i联系我们Σ·Σ\Σ⊂我−−| |≈≈C验证它们在产生忠实的视觉解释方面的益处。• 我们介绍了一种新的显着性方法，LIFT-CAM，基于DeepLIFT。它有效地估计了激活图的SHAP值，2.2. SHapley加法解释加性特征属性法。 SHAP [10]是加性特征属性方法的统一解释框架。方法如下：M传播和性能优于其他以前的CAM定性和定量。′ ′我i=1（二）2. 相关工作2.1.类激活映射视觉解释图。令f是原始预测模型，并且c表示感兴趣的目标类别。CAM [3，4，7，14，18，20]旨在解释针对特定输入图像X的模型的目标输出（即，fc（x）），其可以通过以下步骤生成其中g是用于特定输入x和目标类别c的原始预测模型f的解释模型。 M是输入特征的数量，并且z'0 ， 1M指示二元向量，其中每个条目表示对应的原始输入特征的存在; 1表示存在，0表示不存在。 i表示第i个特征的重要性，设计方法以确保g（z′）fc（hx（z′）），其中映射函数hx满足x=hx（x′）。而C凸轮Nl（A）=ReLU（ αkAk）（1）k=1几种现有的归因方法[2，10，12，16]匹配当量(2)，只有一个解释模型满足三个期望性质：局部精度、缺失和一致性[10]。SHAP值。解释的特征属性其中A = f [l]（x），其中f [l]（x）表示第l层1的输出。Ak是A的第k个激活图，并且αk是系数（即，的重要性）。Nl表示模型服从Eq. (2)同时保持上述三种性质的值定义为SHAP值[10]，并可由下式表示：第L层的激活图的数量这个“线性组合激活图的概念首先由[20]提出，导致其变体。以前的方法。 Grad-CAM [14]决定系数i=z′x′（M-|z|）！（|z|−1）！[fc（hM！（z′））−fc（hx（z′\i））]（三）通过对特定激活图中的所有激活神经元上的梯度求平均来计算该Grad-CAM++[3]是Grad-CAM的修改版本，专注于考虑高阶导数的神经元的积极影响。然而，由于梯度饱和问题，深度神经网络的梯度趋于减小。因此，使用未修改的原始梯度会导致相关区域的定位失败为了克服这种限制，已经提出了无梯度CAM。Score-CAM [18]将归一化激活映射重叠到输入图像，并进行预测以获取系数。消融-CAM [4]将系数定义为删除相关激活标测图时靶输出下降的分数它们没有饱和问题，但是耗时，因为它们需要N1次前向传播来获取系数。上述所有方法都以启发式方式确定其系数。XGrad-CAM [7]通过提出两个公理来解决这个问题。作者导出了尽可能满足公理的系数然而，它们的推导仅针对ReLU-CNN被证明其中z′ 表示z’中非零项的数量，并且z’x’指示所有z’向量，其中非零项是x’中非零项的子集。此外，z′ i表示设置z′=0。 SHAP值的这种定义与经典Shapley值密切一致[15]。2.3. 深度学习的重要特征DeepLIFT [16]关注原始激活和参考激活之间的差异。它通过网络传播差异，以通过线性化网络中的非线性分量将贡献分数分配给每个输入特征通过该技术，缓解了梯度饱和问题。令〇表示目标神经元的输出，并且 X =（Xl，. . . ，xn）是其参考值为r =（ r1，. . . ，rn）。第 i个输入特征C∆xi∆o 的贡献分数量化了∆xi= xiri对∆o=fc（x）f c（r）的影响。此外，DeepLIFT满足如下的求和到增量属性nC∆xi∆o = ∆o。（四）i=1通常，最后一个卷积层用于层1，因为它被期望提供高级语义和空间信息之间的最佳折衷[14]。注意，如果我们设置C∆xi∆o =i且f（r）=0，则等式(4) 匹配Eq. （二）、因此，DeepLIFT也是一种附加的-LX1338凸轮凸轮凸轮凸轮−凸轮凸轮ΣKK--K K特征属性方法它有效地近似SHAP值，满足局部精度和缺失度[10]。3. 方法在本节中，我们将阐明CAM的问题公式，并提出一种方法来解决它的分析。首先，我们提出了一个框架，定义了一个线性的解释模型，并确定基于该模型的CAM的系数然后，我们制定的SHAP值的激活映射作为一个统一的解决方案的框架。最后，我们介绍了一种快速近似方法的 SHAP 值的激活地图： LIFTCAM。3.1. CAM的问题公式化如Eq所示（1），CAM产生一个视觉前-图1.提出了确定CAM系数的框架。首先，我们建立一个线性解释模型。接下来，我们通过优化解释模型，使用添加剂特征归因方法来确定激活图的重要性分数。最后，我们使用的分数作为CAM的系数。夷平面图Lc与t呈线性关系激活图A1，. . . .，ANl，除了ReLU之外，其被应用于仅考虑对目标类c的积极影响的目的。另外，完整激活图A对于给定的模型f和输入图像x的对不改变。因此，Lc的质量由系数α =（α1，. . . ，αNl），其表示相关联的激活图的重要性分数。总而言之，CAM的目的是找到或中的线性组合的α-[10]第10节中的属性方法第3.3节[16]补充材料中的3.4、[2]和[12]）。一旦我们基于gCAM获得α，我们就可以使用这些值来生成Lc。图1显示了本节中描述的我们提出的框架3.3.激活标测图的SHAP值SHAP [10]是一种模型不可知的方法，并且局部ACder生成Lc输出fc（x）。，它可以可靠地解释目标准确性、缺失性和一致性[10]在等式中仍然是五、因此，我们采用交流的SHAP值3.2.拟议框架我们怎样才能以分析的方式获得所需的α呢为此，我们首先将每个激活图视为单独的特征（即，我们有Nl个特征）并定义一个二进制向量a′∈ {0，1}Nl的特征。在向量中，一个en-作为我们框架的统一解决方案令F是原始模型f的后部分，从层1 + 1到层L12，其中L表示f中的层的总数。也就是说，我们有F（A）=f [L−1]（x）。此外，本发明还我们定义一个映射函数hA，它将a′转换为A的嵌入空间;它满足A=hA（A′），其中A′是trya’为1指示对应的A保持一个向量。具体地，a′ = 1被映射到Ak，kk′k它的原始激活值，0表示它丢失了这些值。接下来，我们指定要解释的解释模型gCAMfc（x）. 由于CAMLc的解释图是线性的w.r.t. 激活图A1，. . . 根据定义，可以合理地假设解释模型gCAM是ak= 0至0，其具有与Ak相同的维数。注意，这是合理的，因为当Ak对于等式2中的所有激活神经元具有0的值时，Ak对Lc（一）.现在，激活图的SHAP值w.r.t. C类由下式表示：′ ′也是线性w.r.t.激活图a′，.. .，a′如下所示α形状=Σ（Nl−|一|）！（|一|−1）！[Fc（h（a′））−Fc（h（a′\k）]1NlG（a′）=αNl+α a′。（五）哪里a′A′αshap是Ak的SHAP值和（六）Fc表示焦油，k=1在此假设下，确定方程中的α的问题1可以被重新公式化为确定遵循等式1的gCAM的问题五、当量5匹配Eq. 2是的。此外，Eq.5（即，每个激活图）预期可以通过跨Πtotal对Ak的存在和不存在之间的边际预测差求平均来获得，Π total表示以下的所有可能特征排序的集合： 1、. . .、Nl.为了减少计算负担，我们建议使用子集ΠΠtotal而不是Πtotal来估计αshap=（α形状，. . .，αshap），如算法1中所述。我们指表示不同的高级语义信息。有-1Nl因此，在这项工作中，我们确定gCAM使用添加剂特征2它表示softmax层之前的logit层。KNl！一一凸轮0得到F的输出。上面的等式意味着α形状可以1339凸轮←−←−联系我们Σα=F（A）−F（0）。（八）凸轮Σπ（i）K1Nl图2.LIFT-CAM概述首先，我们将DeepLIFT从目标输出应用到激活图并获取贡献分数图，其中每个像素表示C∆Ak（i，j）∆Fc。接下来，我们通过对所有的激活图求和来量化每个激活图的重要性。自己的贡献。然后，我们执行（αlift，. . . ，αlift）和A1，. . . 、AN. 最后，我们纠正由此产生的1Nll映射，将映射上采样到原始图像维度，并使用最小-最大归一化函数来归一化映射使用的算法|Π|按SHAP-CAM排序|Π|整个报纸。越高|Π| SHAP-CAM的α| Π|通过大数定律收敛到α形。我们验证了这些SHAP属性的好处使用DeepLIFT3近似α形状[16]。首先，我们使用DeepLIFT通过单个反向传递来计算层1处的每个激活神经元的贡献分数。考虑到求和到增量的特性-关于Lc节中4.1.的分析在DeepLIFT中，我们定义了一个特殊的贡献分数SHAP值的公认近似方法DeepSHAP [10]和KernelSHAP[10]在花絮将特定激活图中的所有神经元的贡献分数的总和计算为该激活图中的所有神经元的贡献分数的总和，如下：α升力=C∆A∆Fc=ΣC∆A∆Fc（7）算法1SHAP-CAM |Π|KK（i，j）∈Λk（i，j）输入：F、c、hA和子集输出：α =（α1，. . . ，αNl）初始化：α0对于Π中的每个排序πa′0对于i= l，i，N，l，doa′←−1απ（i）←−απ（i）+Fc（hA（a′））−Fc（hA（a′\π（i）结束结束α←−α/|Π|3.4.高效逼近：LIFT-CAM通过在SEC的实验4.1我们证明其中Λ = 1，. . .、H1、. . .，W是离散激活维度，并且Ak（i，j）是在Ak的（i，j）位置处的激活值。注意，Δ表示与参考值的差和参考值（即，对应于缺失特征的值）被设置为0，与SHAP对齐。根据该定义，αlift=（αlift，. . . ，α升力）成为方程的可靠解。(5) 同时满足如下SHAP的局部精度4Nl升降机cc kk=1因此，LIFT-CAM可以通过单次向后传递估计α形状，同时缓解梯度饱和问题[16]。图2显示了我们提出的α形可以得到一个忠实的Lc。然而，计算精确的α形状几乎是不可能的。因此，我们需要考虑一种近似方法。在本研究中，3DeepLIFT-Rescale用于近似，因为该方法可以通过覆盖梯度运算符轻松实现。这种便利性使LIFT-CAM能够轻松应用于各种各样的任务。1340我们提出了一种新的方法，LIFT-CAM，有效地应用-4Nlk=1 αshap= F c（A）− F c（0）。1341凸轮◦··N我凸轮NY[Yi

下载后可阅读完整内容，剩余1页未读，立即下载