统计一致显著性估计在深度学习模型中的应用

171 浏览量更新于2023-10-13 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

745统计一致显著性估计罗顺燕乔治华盛顿大学lsy@gwu.edu亚马逊Alexaebarut@amazon.com方进乔治华盛顿大学fangjin@email.gwu.edu摘要深度学习越来越多地用于各种数据问题，这突出了正确理解和诊断这些模型的必要性，使深度学习解释技术成为数据分析师的重要工具近年来提出的众多模型解释方法一般都是基于启发式的，很少或没有理论保证。在这里，我们提出了一个统计框架工作的显着性估计的黑盒计算机视觉模型。我们提出的模型不可知估计过程，这是统计上一致的，能够通过健全检查，具有多项式时间的计算效率，因为它只需要解决一个线性规划。通过我们的理论分析，恢复区域的重要性，以高概率所需的模型评估的数量上界此外，提出了一种新的扰动方案的局部梯度，这是更有效的比常用的随机扰动计划的估计通过灵敏度分析，我们的新方法的有效性和优越性的1. 介绍尽管深度学习模型在许多任务中取得了这是阻碍其更广泛采用的主要障碍，特别是在诸如医学等需要定性理解和/或验证模型的鲁棒性的领域。为了解决这些问题，已经提出了许多解释方法，其中许多是基于可视化，量化特定神经元或特征的影响，或创建新的图像，最大化特定类别的目标得分[13，26，33]。一种流行的方法是通过各种过程将神经网络的梯度归因于输入图像来构建显着性图，或者通过寻找显著改变输出的扰动来构建显着性图[2，4，12，15，19，24，25，28，29，30，34]。另一种选择是将深度学习者视为黑盒。该领域中的实例包括Baehrens等人。[5]，他们使用Parzen窗口分类器在本地近似目标分类器，以及Riberio等人。[23]，他们介绍了LIME过程，该过程依赖于稀疏线性模型，该模型适合于对扰动输入的预测进行建模。 Lundberg 和 Lee [17] 提出了 SHapley 加法解释（SHAP），它将来自游戏理论的Shapley值与加法特征属性方法相结合，突出了SHAP程序与现有方法（如LRP ， LIME 和 DeepLIFT ）之间的联系。类似地，Chenet al.[10]已经建立了L-和C-Shapley过程，其相对于特征的数量在线性时间内可靠地近似Shapley值。上面列出的大多数方法都是根据某些期望的质量构建的算法。然而，在这些方法中，没有一种方法清楚地知道主要被估量是什么，它是否可以被一致地估计，或者是否（以及如何）可以更有效地计算被估量。事实上，根据Adebayo等的最新研究。[1]，具有良好视觉检查的大多数方法对模型和数据生成过程缺乏敏感性，Nie等人提供了关于为什么引导反向传播和反卷积方法执行图像恢复的理论解释。[20 ]第20段。这些研究结果提醒我们的重要性，构建显着性估计方法，建立在坚实的理论保证。这种动机并不是直截了当的; Burns et al的最新研究。[7]提出了一种显着性估计技术，包括基于错误发现率的理论保证，即FDR控制。尽管他们的过程从统计学的角度来看是非常有前途的，并且在非常一般的假设集合下理论上是有效的，但是它需要人工输入并且由于它使用生成模型来填充目标图像的某些区域而引起显著的在这项工作中，我们提出了一个统计上有效的技术模型无关的显着性估计，并证明其considerations在合理的假设。此外，我们的方法通过了Adebayo等人给出的健全性检查。[1]的文件。我们的分析为提高我们方法的准确性和可靠性我们的主要贡献如下：746X- -G∇|不×−∈⊆∥ ∥ ∥ ∥Σ Σ2• 我们引入了一个新的和创新的显着性估计框架CNNs，并提出了一个新的本地解释的基础上输入扰动的方法我们的程序只需要解决一个线性规划，因此可以非常有效地计算估计。此外，优化可以被重铸为• 我们建立的条件下，在输入中的重要像素可以识别出高概率和本有限样本收敛率，可用于确定必要的模型评估的数量。• 我们确定扰动的噪声分布对收敛速度有很大的影响，并提出了一种新的扰动方案，该方案使用高度相关的高斯分布，而不是广泛使用的独立高斯分布。我们将在下一节中介绍我们的符号。我们定义感兴趣的显著性参数（即，被估量），线性估计梯度（LEG），并介绍我们的新的统计框架在第3节。在第4节中，我们提出了一个正则化的估计过程，LEG惩罚各向异性的全变差。我们的理论结果在第5节中提供，我们的数值比较的结果在第6节中示出。2. 符号对于矩阵B，我们使用vec（B）和vec−1（B）分别表示它的向量化和逆向量化。矩阵B的转置由BT给出，我们使用B+作为其伪逆。对称矩阵B的最大和最小特征值分别表示为λmax（B）和λmin（B）。对于一个集合S，我们用SC来表示它的补集。对于向量uRp和集合S [1，. . .，p]，我们使用uS来指代由S中的元素索引的其分量。向量u的q范数由uq给出，我们使用BFr来表示矩阵B的Frobenius范数。其值都等于1的大小为p的向量由1p表示。类似地，我们使用1p1×p2和0p1×p2来表示一个p1p2矩阵，其元素分别等于1和0。最后，对于连续分布F，我们使用F+ x0 来表示均值偏移 x0 的分布，即 F （ z ） = G（zx0），其中G=F+ x0。3. 线性估计梯度在基于梯度的显着性方法中，主要目标是恢复深度学习器相对于输入的梯度更具体地说，让f（x）是一个深度学习器，f：X-[0，1]，其中X是输入空间。比如说，对于包含28 × 28大小的0到9手写数字图像的MNIST数据集，=[0，255]28×28。我们假设模型输出是特定类别的概率，例如，f（x）=P模型（x为9）。然而，这可以修改为通过将输出f（x）设置为等于两个类概率的差来检查比较量，即通过写f（x）：=f9（x）f7（x）=P模型（x是9）P模型（x是7）。（一）然后，局部显著性cy被定义为f（·）相对于输入在ive处的deriv，在感兴趣点x0∈ X处被评估，i.e.xf（x）x=x0.然而，在实践中，局部显着性通常太嘈杂，而是使用x 0附近的梯度的平均值[25，29]。为了从一个统计学的角度研究显著性过程从理论的角度来看，我们首先定义一个被估量，其定义是由LIME程序[23]激发的。定义1（专家组）。对于一个连续分布F，初始点x0∈ X，其中X <$Rp1×p2，函数f：X →[-1，1]，线性估计梯度（LEG）γ（f，x0，F）∈Rp1×p2由下式给出：γ（f，x0，F）=argminExF+x0Σ. f（x）−f（x0）-vec（g） vec（x0− x）.（二）LEG是基于围绕感兴趣点x0的函数f（x）的一阶泰勒级数展开。被估量是局部梯度的代理，并且是在所有可能的选择中给出最佳线性近似的系数，以平方误差表示。分布F决定了分析师想要考虑的点的范围。我们在两个玩具示例上用单个像素（即，p1=p2= 1）。当扰动被视为具有独立条目的高斯分布时，LEG的行为类似于SmoothGrad [29]，其使用通过向初始图像添加随机扰动而生成的多个图像的平均显著性得分。LEG不依赖于显著性分数，这需要关于底层深度学习者的全部知识，而是找到针对可能的扰动评估的最佳线性近似因此，如果基础函数f（x）在x 0附近的邻域上是线性的，则SmoothGrad估计量和LEG将完全相同。Yeh等人[32]提出了一种称为不忠的广义度量，以统一现有的解释，包括SmoothGrad。在这个相应的，LEG定义了一个有效的和新颖的不忠措施的黑盒模型。此外，LEG属于模型解释类。依赖于局部平滑的站技术已知此类解释方法对对抗性操作更可靠[11]，更忠实于模型[32]，倾向于通过健全性检查[1]，并且在747→ ∇√pp/n，其中p和p是X的维数。1212→≥G→ ∞∼. Σ¨∈−∫−γ（f，x0，F）=vec−1.Σ−1Σ1Σnnvec（y~izi）ΣΣ.（四）(a) 梯度与LEG（b）F对LEG图1：LEG的单个输入的可视化演示LEG试图在x0附近的邻域找到f（x）的局部线性近似;分布F的选择决定了邻域的大小在图1a中，我们比较LEG的梯度，这是非常本地化。如果f（x）是高度变化的函数，则梯度太嘈杂，并且由LEG提供的显著性分数更有意义。在图1b中，我们显示了两种不同分布的LEG对于具有较大方差的分布，LEG针对x 0附近的较大邻域评估输入对输出的影响。基准测量去除相关像素后的准确度变化[16]。我们注意到F的方差对LEG有很大的影响。当F在0处收敛到质点时，如果f（x）在x0的邻域内二次连续可微，则γxf（x）。另一方面，如果F具有高方差，则来自F + x0的样本与x0显著不同，并且LEG可能不再用于解释x0处的模型。然而，通过对分布F的一些假设，LEG具有如下引理所示的解析解。引理1.设Z是具有中心的随机变量i=1由于函数f（x）是有界的，并且F具有正定协方差矩阵，则随着n，γ。然而，经典的线性模型理论[22]表明收敛的速率非常慢，大约为1λmin（Σ）这严重限制了经验方法的实用性在下一节中，我们建议使用正则化以获得更快的收敛速度。4. LEG的有效估计对于图像分类器的解释，期望显著性分数位于特定区域，即，邻接的物体或这些物体的联合这种想法导致了通过惩罚解决方案的局部差异来估计显着性分数的各种程序，通常利用某种形式的总变差（TV）惩罚[15]。从实践的角度来看，这种方法是非常明智的：首先，它产生易于解释的估计，因为可以容易地识别重要区域;其次，惩罚显著地缩小了估计的方差，并且有助于以较少的模型评估产生可靠的解决方案。鉴于上述情况，我们建议用各向异性的L1TV惩罚来估计LEG系数定义2（LEG-TV）。对于超参数L 0，T V惩罚的LEG估计被给出为γ~=vec−1（g），其中r eg是以下线性规划的解：最小值Dg1分布F，即，Z F和E[Z] = 0p1×p2。假设vec（Z）的协方差存在，并且是正定的。设Σ =Cov（vec（Z）），则S.T. ¨D+T1Nni=1vec（y~izi）−ΣgΣ¨∞≤L，（5）γ（ f，x0，F）=vec −1。Σ−1Ez F [（f（x0+z）− f（x0））vec（z）]Σ。（三）其中D R（2p1 p2 −p1 −p2）×（p1 p2）是差分矩阵，如果g的第j个和第k个分量在二维网格上连接，则Di，j = 1，D i，k = 1。引理的证明在附录中提供。引理1表明，LEG可以写成高维积分的仿射变换，其中被积函数是（f（x0+z）f（x0））zdF（z）。这一分析还提出了专家组的经验估计数，用经验平均数取代了预期数。经验平均值可以通过从F +x0中采样x，计算f（x），然后应用引理1来获得。更正式地，令x1，. . . ，xn是来自F + x0的随机样本，并且令y1，. . . ，yn是满足yi=f（xi）的函数估值。此外，令y〜i=我们的方法是基于满足公式中的约束的g的集合是我们的高置信度集合;如果L被适当地选择，则该集合以高概率1包含真实的LEG系数γ（f，x0，F）。这种设置确保γ和γ~之间的距离很小。当与目标函数中的TV惩罚相结合时，该过程寻求找到既属于置信集又在网格上具有稀疏差异的解决方案。因此，在本发明中，f（xi）− f（x0）和zi= xi− x0。然后，经验LEG估计由下式给出1参见附录中的引理2。748.Σ−Σ- -UT∆ =02√∥∥m∈RsκCdn该估计器在恢复具有小的总变差的γ在图2中，我们显示了VGG-19 [27]网络的每个通道具有10k个模型评估的方法的两个结果估计，并且LEG-TV估计确实为我们提供了更稀疏的解释和更好的可视化2。对于分布F，我们使用多元高斯分布，并在5.2节中提出了扰动方案。我们为每个通道分别计算γ~，然后对不同通道的绝对值求和以获得最终的显著性得分。该方法具有较低的计算复杂度。方程5中的问题是线性规划，并且可以在多项式时间内求解，例如通过使用时间复杂度为O（p1p2）3的原始-对偶内点方法。5[21]。然而，在实践中，使用单纯形求解器可以更快地获得解决方案。在我们的实现中，我们使用MOSEK，ApS [3]的商业级单纯形求解器，并且能够在标准8核PC上在不到3秒的时间内获得大小为p1=p2= 28的问题的解决方案。此外，可使用参数单纯形方法求解替代公式（附录中提供），该方法可在L[31]中产生整个求解路径。在实践中，当L需要根据特定标准被调谐以获得最佳性能时，这种方法可以节省大量的计算成本。我们注意到，该过程不需要任何关于底层神经网络的知识，并且完全与模型无关。事实上，在安全性或隐私可能是一个问题并且需要避免返回多个预测值的应用中，由下式给出的项(a) 来源（b）LEG（c）LEG-TV图2：由VGG-19分类的ImageNet图像的LEG估计。这两种方法都选择了对标签至关重要的像素，例如金毛猎犬的鼻子和耳朵，圆锥体的底部与LEG相比，LEG-TV提供了对局部显著性的更人类可读的估计假设1. 设D+是差分矩阵D的伪逆，并将D的奇异值分解的元素记为U，Θ，V，其中D = U ΘVT.此外，将U的对应于零奇异值的最后p1p2p1p2列表示为U2。我们将差定义为Δ=D（γ（1）和（2）的元素，在集合S中。对于协方差矩阵Σ和任何大小为s的集合S，它保持κ> 0，其中ni=1 v_ec（y~i_z_i）可以在侧面计算并提供∆TD+T ΣD+∆与预测同时进行。5. 理论分析与实现κ= inf∆S2∥∆∥2.（六）在本节中，我们从理论的角度分析了该过程，并推导出所提出的LEG-TV估计的有限样本收敛速度。我们的研究结果提供了一个上限的估计误差如何变化的真实参数的复杂性，由其稀疏性的TV范数，和输入扰动的数量。这些结果在特定条件下成立，下面的定理是我们的主要结果。定理1. 设γ∈ F=γ（f，x0，F），E[Z]=0p1×p2. 令γ~为LEG-TV估计，其中L=2D+1log（p1p2/ε）/n。如果假设1对于具有常数κ的协方差矩阵成立，则概率为1−，我们将在5.2节中研究其含义。正如我们所指出在前面，这种认识被用来导出理想的微扰在这种情况下的分布。-1℃1Frp2.slogp p/1 2¨γ*−γ~−m1p1T¨≤，5.1. 一致性其中是均值偏移参数，的数目记在Dγ*中的非零元，Cp=4√2D+1∝p1/4p1/4我们首先介绍我们的条件，它在我们估计的收敛速度病情类似和1 2Cd是D限制特征值条件[6]与调整具体到我们的问题。2请访问https://github.com/Paradise1008/LEG以获取更多示例、源代码以及如何创建自己的LEG估计器证明使用Fan [ 14 ]的在证明中，我们首先确定，对于适当选择的L值，γ*= γ（f，x0，F）以高概率满足等式5中的约束。然后，我们利用γ~和γ*的TV稀疏性来判断这两个量p7492−1 21 2不能彼此相距太远，因为两者都在约束集中。附录中提供了完整的证据我们的定理有两个主要含义：1. 随着模型评估次数的增加，我们可以恢复真实参数。也就是说，TV惩罚LEG是统计上一致的模型解释方案。此外，我们的结果表明，忽略对数项，需要n=O（s（p1p2）1/2）多个模型评估以可靠地恢复γ*。2. 我们的界取决于常数κ，而常数κ又取决于微扰方案中κ的选择通过仔细调整Σ的选择，可以获得更快的收敛速度。作为一个旁注，由于γε也依赖于ε，当ε被调整时，被估量会改变。换句话说，我们的结果表明某些被估量需要更少的样本。我们注意到，我们的过程识别LEG系数直到均值漂移参数m，其是LEG系数的平均值图3：所提出的模型的选定特征向量。包含分布的主方向的特征向量类似于2D Haar小波的基础[18]。在优化过程中，我们提出了一种启发式方法：我们选择i t，使得i t eigen个向量匹配D + i t，对于具有单位范数且U T i = 0的向量i t，it eige n个向量匹配D+ i t。这种选择固定了Σ的许多特征向量p1p21。对于最后一个特征向量，我们使用一个向量，因为它与其余的特征向量正交我们提出的扰动方案如下：1. 计算D的奇异值分解，并且令D=UΘVT。2. 令Σ =σ2。VΘ2VT+11pp1TΣ对于一些真实LEG系数γ。在实践中，平均值可以一致地估计（例如，使用经验版本选择σ2> 0。p1p212p1p2公式4中的LEG），并且可以减去平均值以产生γ的一致估计值。然而，在我们的数值研究中，我们看到这种均值漂移几乎不存在：LEG-TV产生与LEG系数没有平均差的解，我们将LEG系数定义为n → ∞时的经验版本。5.2. 微扰法在我们的主要结果中，我们建立了我们的估计的收敛性依赖于与Σ的谱性质相关的量κ。在本小节中，我们将探讨这一假设的后果。我们在定理1中的主要结果表明，收敛到真实LEG系数的速率与项κ成反比。因此，如定义1中所定义的，其受限制的特征值较大的扰动方案产生需要较少样本来估计LEG的显著性图我们注意到，大多数利用扰动的显著性估计过程将这些扰动视为独立的，这导致协方差矩阵等于单位矩阵Σ =σ2I（pp）×（pp），其中σ2> 0。对于没有惩罚的LEG估计，即，使用公式2，这种选择也是最佳的，因为经验估计的收敛率取决于1/λmin（Σ）。然而，当人们试图找到一个估计，其解决方案是稀疏的电视范数，这种选择不再是理想的，我们的定理证明。为了以最大化等式6中的界限的方式选择我们的扰动方案的协方差矩阵，还需要关于S，s的大小的一些先验信息。因为这需要估计s，并且当D+=VΘ+UT时，利用所提出的Σ，等式6中的分子减少到σ2ΔTΔ，并且因此κ = σ2。在没有对S的任何附加假设的情况下，这是κ的最大值。我们在图3中绘制了我们提出的Σ的一些特征向量，其中p1= p2=28。这些特征向量是扰动分布F的主方向，并且从F中提取的样本包含这些方向的组合。我们看到，从这个分布中提取的样本在某些位置会有鲜明的对比。这个结果是非常直观的：扰动方案是为一个特定的问题创建的，其中假设对象的边界存在，并且分布幅度的大跳跃有助于我们的方法有效地恢复这些边界。附录中提供了使用高斯噪声的扰动方案的演示及其与独立扰动的直观比较。5.3. 实现细节LEG-TV程序有两个调谐参数：（i）F，其确定扰动的结构;以及（ii）L，其控制所选择的解释的稀疏性。关于F，我们建议使用多元高斯分布，因为它很容易从中采样对于Σ，我们在5.2节中提出了一个理论驱动的启发式方法来确定Σ的相关结构。然而，Σ的大小的选择，即σ2应谨慎选择。如果这个量被选择得太低，则所添加的扰动在幅度上是小的，并且神经网络的预测不改变，导致LEG接近零。另一方面，在〇2的非常大的值的情况下，样本图像由极端像素强度主导，其750±±LLin our implementations实现. 我们注意到CC看起来像随机噪声，而不保留原始图像的任何信息因此不能认为它属于目标图像的某个小邻域。在我们的实现中，我们发现将σ设置为0.02左右分别得到合理的解。我们确定这一范围内的计算扰动的各种大小的众多图像的实验。发现所提供的范围产生足够大以改变预测概率但足够小以避免图像中的重大变化的扰动。对于L的选择，我们提出了两种解决方案：第一种是定理1中给出的理论上建议的量，尽管这经常导致过于保守的估计我们的第二种方法是一个启发式的基础上的一些数量的优化问题，我们使用我们的演示。我们设置L=KLLmax，其中K是0和1之间的常数，Lmax是最小值其中方程5中的解将导致作为LEG、LEG-TV和C-Shapley的单一特征，遵循Yeh等人。[32]其他两种技术，LIME和KernelSHAP，将分割视为“超像素”，因此不能利用大的6.2.敏感性分析评价解释是一项不可避免的主观任务。敏感性分析试图通过提供一个量化的框架来比较评价结果来解决这个问题，并广泛用于对比不同的解释技术。在灵敏度分析中，首先，使用各种解释最后，通过log-odds计算由于掩蔽导致的得分差异，其给出为：g=0;即 Lmax=n−1D+T（Σnvec（y~izi））。我们使用K= 0。1或K=0。3i=1. P（x′）/（1 − P（x′））Σ我们可以通过使用一个参数化的LOR= log、P（ x）/（1−P（ x）单纯形求解器[31]，或者通过以大的初始L开始，以及然后使用程序的解决方案作为L的选择较小。这两种方法都返回所有L的解决方案路径，并且在实践中可能比依赖启发式更可取。6. 实验在本节中，我们将我们的过程与其他可解释性技术进行比较。我们首先呈现敏感性分析的结果，其中根据每种解释方法的最显著区域被掩蔽，并且记录掩蔽图像的分类得分的在该分析中，期望更有效的可解释性技术来更好地识别重要区域，并且因此根据更好的方法掩蔽的图像应该具有较低的分数。在第二小节中，我们运行一个健全性检查，其中我们从最后一层开始以级联方式扰动深度学习器的参数。对于这个练习，我们遵循Adebayo等人提出的设置。[1]，并发现我们的技术通过了健全性检查-即，它不能为具有随机选择的参数的神经网络提供解释。6.1. 设置在我们的分析中，我们使用在ImageNet上训练的预训练VGG-19图像分类器作为深度学习器。我们比较我们的方法与其他三个流行的模型不可知的方法，C-Shapley，KernelSHAP和石灰。除了这三种技术，我们还提供了GradCAM的结果作为一个参考点的方法，需要有关的基础模型的知识。所有模型不可知的方法都基于6,000个模型评估。我们把8x8的补丁C0C0其中Pc（x’）是掩码的预测概率。图像x’，并且C是原始图像x0的模型的顶部预测类。通过改变掩蔽区域的量来重复先前的过程，并且最后相对于掩蔽区域的大小绘制对数几率的变化方法可以准确地识别显著区域将具有更快的对数几率降低，并且因此如果前者比后者实现更快的对数几率降低，则可以说解释技术优于另一种解释技术。我们注意到，尽管所提出的灵敏度分析程序在文献中被普遍采用，但掩蔽任务使得设置模糊不清：我们发现不同的掩蔽方法可以产生不同的结果。大多数掩蔽技术将像素移位到给定的基线，尽管这可能意味着使用不同的掩蔽技术实现不一致的性能评估。因此，我们总结了几种有意义的掩蔽技术，而不是采用单一的掩蔽技术来进行本研究的敏感性分析，如下所述，并依次分析每种掩蔽技术所获得的结果，以全面了解局部解释。• 距离K掩蔽：通过修改强度来掩蔽像素K，即Si′j=SijK. K的符号由显著性的符号确定。如果K足够大，则将具有正显著性的像素分配给黑色，将具有负显著性的像素分配给白色。• 固定值遮罩：使用固定颜色向量（例如（0，0，0）和（255，255，255））遮罩像素，分别称为黑出和白出7510-1-2-3-4-50.00 0.05 0.10 0.15 0.20 0.25零点半 0.35 0.40扰动尺度(a) 距离-1000-1-2-3-4-50.00 0.05 0.10 0.15 0.20 0.25零点半 0.35 0.40扰动尺度(b) 遮光0-1-2-3-4-50.00 0.05 0.10 0.15 0.20 0.25零点半 0.35 0.40扰动尺度(c) 均值向量0-1-2-3-4-50.00 0.05 0.10 0.15 0.20 0.25零点半 0.35 0.40扰动尺度(d) 噪声掩蔽方法腿部-电视石灰CShapKernelSHAPGradCam图4：使用不同掩蔽技术的LEG、LEG-TV、LIME、KernelSHAP、CSap和GradCam的灵敏度结果图5：通过不同掩蔽技术显示的10%掩蔽的LEG-TV估计的示例在大多数情况下，也应用图像的平均值向量。• 噪声掩蔽：通过范围[0，255]中的某个随机像素强度来遮罩像素。由于这种随机性可能会导致试验之间存在相当大的差异，因此最好将这些试验平均以减少方差。这些掩蔽技术中的每一个可以被描述为原始图像的污染形式。图5显示了各种掩蔽技术下的污染图像。我们注意到，当图像的大部分是黑色（或白色）时，最常用的掩模方法，黑掉和白掉将具有问题距离-K掩模相对于原始像素强度使图片变暗，并且模拟具有不同的亮度水平，并且因此它可以保留一些颜色和边缘图案。噪波遮罩消除了颜色和边缘图案，但由于随机化而可能不稳定。我们在图4中展示了使用四种不同掩蔽技术对从ImageNet测试数据集中随机收集的LEG和LEG-TV在Distance-100和black-out方案上实现了最佳性能，而KernelSHAP在均值向量上表现注意，如图4（a）所示，使用距离-100掩蔽，KernelSHAP和LIME在初始2%扰动的情况下急剧下降这自然提出了一个问题，即当这种交叉发生时，是否仍然有可能比较不同的解释。我们认为图6：所有方法的10%图像被掩蔽的示例不是研究目标类别的预测在接近零扰动时下降得有多快，而是解释应当能够有效地发现改变由用于对计算机视觉进行监督学习的方法获得的分类结果所需的最小量。为此，我们提出了一个新的度量标准，称为关键掩码大小，由S键表示，它被定义为导致目标模型提供不同分类结果的最小掩码大小。我们在距离-100，黑掉，均值和噪声掩蔽设置下计算S键结果总结于表1中。我们观察到，LEG和LEG-TV在距离-100和熄灭方案中实现了最低的密钥大小，并且在均值和噪声掩蔽下，它的性能接近最佳性能KernelSHAP。我们注意到KernelSHAP依赖于分割超参数，并且其性能随超参数的选择而变化很大-我们在附录中的附加研究中使用MNIST数据集的示例证明了这一点视觉分析还表明，从人类的角度来看，由LEG-TV识别的像素在视觉上更有意义。我们在图6中展示了这一点，其中我们根据数据集中三个随机选择的图像的在第一张图片中，LEG-TV能够选择长臂猿的不同部位在第二张图片中，LEG和LEG-TV不仅弄清楚了隐藏在背景中的吼猴的身体然而，KernelSHAP和LIME只发现身体部分，GradCam和C-对数让步对数让步对数让步对数让步752方法掩蔽技术距离-100遮光是说噪声腿0.1630.0620.1180.069（0.012）（0.005）（0.006）（0.004）LEG-TV0.1700.0560.1160.068（0.012）（0.004）（0.006）（0.004）KernelSHAP0.2510.0590.0740.060（0.017）（0.004）（0.004）（0.003）石灰0.2690.1110.1610.084（0.016）（0.008）（0.010）（0.006）C-沙普利0.3800.1010.1310.105（0.018）（0.006）（0.007）（0.006）GradCam0.3180.0860.1150.089（0.018）（0.006）（0.007）（0.006）表1：平均最小扰动大小S¯key，使用ImageNet中的500个随机选择的样本，在VGG-19的不同掩蔽方案下更改顶部预测类。括号中提供了标准误差沙普利完全失败了。在最后一幅图像中，LEG和LEG-TV可以检测到帝王蝶的位置，以及背景中的花朵区域，这表明模型中存在潜在的背景偏差。我们还看到，KernelSHAP、C-Shapley和GradCam倾向于选择紧凑区域，而LEG-TV倾向于掩盖非连续区域，尽管在公式中存在平滑度惩罚。6.3.健全性检查Adebayo等[1]通过改变神经网络的权重来测试显着性估计过程的有效性在一种名为“级联随机化”的技术中，作者从最后一层开始逐层替换CNN的拟合权重，并计算每个变化的显着性得分。显然，随机选择权重的深度学习器应该没有预测能力，基于它的解释应该是毫无意义的。我们期望LEG-TV倾向于通过级联随机化为所有像素获得零显著性分数。在这个过程中可能出现的小伪影，例如没有空间结构的正或负显著性分数，由于最终的TV惩罚，应该被平滑为了验证我们的直觉，我们对VGG-19网络的权重执行级联随机化。从最后一层开始，网络权重由级联或der中的随机数代替。我们通过从ImageNet3中具有匹配类类别的网络中随机选择30张图像来生成用于此分析的数据集。我们对四张图像的实验结果如图7所示。对于我们分析中的所有图像，LEG-TV估计失去了其3这一步确保我们避免使用任何可能用于训练网络的图像图7：使用级联随机化的健全性检查的结果在第一或第二扰动之后，该估计被逐渐地模式化，并且在第一卷积层的随机化之后，该估计被减少到零或随机噪声。也就是说，在权重被扰动之后，LEG-TV方法无法检测到可以用于解释的任何信号这些结果表明，我们所提出的方法提供的解释为了区分效果是由于LEG的公式化还是总变化惩罚，我们还使用LEG和非常小的L系数重复健全性检查以施加最小平滑估计。附录中提供的这一分析结果表明，专家组在健全性检查方面的稳健性是由于基本估计的可靠性，而不仅仅是由于所施加的惩罚。7. 结论在本文中，我们提出了一个线性估计梯度（LEG）的显着性估计框架的黑盒计算机视觉模型，是基于梯度权重和模型无关。据我们所知，这是第一项旨在解决具有统计一致性的模型不可知显着性方法的工作。我们进一步提出了一个新的计算效率的估计（LEG-TV）使用图形表示的数据。除了进行理论分析的收敛速度，我们提出了一种新的结构化高斯噪声的方法，是能够加快erating收敛速度显着。我们的实验结果表明，我们提出的模型，LEG和LEG-TV，始终提供比其他模型特定的或模型不可知的方法更好的性能。总之，我们提出的框架是计算效率高，不需要先验知识的模型，并可以保证统计一致性，清楚地表明其承诺作为一个重要的显着性估计框架的工作范围广泛的模型解释领域。753引用[1] 朱利叶斯·阿德巴约、贾斯汀·吉尔默等人显著性图的健全性检查。神经信息处理系统进展，第9505-9515页，2018年一、二、六、八[2] 朱利叶斯·阿德巴约、贾斯汀·吉尔默、伊恩·古德费罗和比恩·金。深度神经网络的局部解释方法对参数值缺乏敏感性。arXiv预印本arXiv：1810.03307，2018。1[3] MOSEK ApS.MOSEK Optimizer API for Python 9.1.6 ，2020。4[4] Sebastian Bach，Alexander Binder，et al.基于逐层相关传播的非线性分类器决策的逐像素解释。PloS one，10（7）：e0130140，2015。1[5] David Baehrens，Timon Schroeter，Stefan Harmeling，etal.如何解释个人分类决策。Journal of Machine LearningResearch，11（Jun）：18031[6] Peter J Bickel，Ya'acov Ritov，Alexandre B Tsybakov，等. lasso 和dantzig选择器的同时分析。The Annals ofStatistics，37（4）：1705-1732，2009. 4[7] 科林·伯恩斯，杰西·杰森，韦斯利·坦西.用统计保证解释黑箱模型。arXiv预印本arXiv：1904.00045，2019。1[8] Tony Cai，Weidong Liu，and Xi Luo.稀疏精度矩阵估计的约束最小化方法 Journal of the American StatisticalAssociation，106（494）：594- 607，2011. 3[9] Emmanuel Candes和Terence Tao dantzig选择器：p远大于n时的统计估计。The annals of Statistics，35（6）：2313-2351，2007. 3[10] 陈建波，宋乐，马丁J。Wainwright和Michael I.约旦. L-Shapley和C-Shapley：结构化数据的高效模型解释。2019年，在ICLR。1[11] Ann-KathrinDombrowski、MaximillianAlber、ChristopherAnders 、 MarcelAckermann、 Klaus-RobertMüller和Pan Kessel。解释可以被操纵，几何学是罪魁祸首。神经信息处理系统进展，第13567-13578页，2019年。2[12] MaximilianAlberKlaus-RobertMüllerDumitru，ErhanBeenKimS venD ühnePiete r，JanKindermans和KristofT Schütt。学习如何解释神经网络工作：知识网络和模式分布.在2018年国际学习代表会议上。1[13] Dumitru Erhan 、 Yoshua Bengio 、 Aaron Courville 和Pascal Vincent。可视化深度网络的高层功能蒙特利尔大学，1341（3）：1，2009。1[14] 范剑青。高置信度下的大数据特征及稀疏解。统计科学的过去、现在和未来，第507-523页，2013年。三、四[15] Ruth C Fong和Andrea Vedaldi。通过有意义的扰动对黑匣子的可解释在IEEE计算机视觉国际会议论文集，第3429-3437页，2017年。第1、3条[16] Sara Hooker、Dumitru Erhan、Pieter-Jan Kindermans和Been Kim。深度神经网络中可解释性方法的基准测试。神经信息处理系统的进展，第9734-9745页，2019年。3[17] Scott M Lundberg和Su-In Lee。解释模型预测的统一方法神经信息处理系统进展，第4765-4774页，2017年1[18] 圣·法恩·马拉特。信号处理的小波巡视。Else vier，1999.5[19] Gre´goireMontav on ， SebastianLapuschkin ， AlexanderBinde r，WojciechSamek，andKlaus-RobertMüller. 用深度Taylor分解解释非线性分类决策Pattern Recognition，65：211-222，2017. 1[20] Weili Nie，Yang Zhang，and Ankit Patel.基于反向传播的可视化的复杂行为的理论解释arXiv预印本arXiv：1805.07039，2018。1[21] Jorge Nocedal和Stephen J Wright。数值优化第二版。数值优化，第4974[22] N. Ravishanker 和 D.K. 戴线性模型理论初级教程。Chapman Hall/CRC Texts in Statistical Science。泰勒·弗朗西斯2001年。3[23] Marco Tulio Ribeiro Sameer Singh和Carlos Guestrin。我为什么要相信你？：解释任何分类器的预测。在procKDD，第1135-1144页。ACM，2016。一、二[24] Ramprasaath R Selvaraju，Cogswell等人Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。在IEEE计算机视觉国际会议论文集，第618-626页，2017年。1[25] Avanti Shrikumar ， Peyton Greenside ， and AnshulKundaje.通过传播激活差异学习重要特征。在Proc.ICML，第3145-3153页。JMLR。org，2017. 一、二[26] Karen Simonyan Andrea Vedaldi和Andrew Zisserman卷积网络内部：可视化图像分类模型和显着图。arXiv预印本arXiv：1312.6034，2013。1[27] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。4[28] Sahil

下载后可阅读完整内容，剩余1页未读，立即下载