通过噪声引入模型权重的NoiseGrad方法改善机器学习模型的解释性

56 浏览量更新于2023-12-01 收藏 1.83MB PDF 举报

深度神经网络

评估标准

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文NoiseGrad：通过将随机性引入模型权重来基里尔·贝科夫 *ML Group，TU Berlin，Germany UMI Lab柏林工业大学kirill079@gmail.comAnna Hedström*ML Group，TU Berlin，Germany UMI LabAnna. tu-berlin.de中岛真一ML Group，TU Berlin，Germany RIKEN AIP，Tokyo，Japannakajima@tu-berlin.deMarina M.- C. 赫内ML Group，TU Berlin，Germany UMI Labmarina. tu-berlin.de摘要归因方法仍然是一个实用的工具，用于在现实世界中的appli-阳离子来解释复杂的学习机器的决策过程。它已被证明，一个简单的方法称为SmoothGrad可以有效地减少基于梯度的归因方法的视觉扩散，并建立了自己的研究人员和从业者。然而，研究中尚未探索的是如何通过将随机性引入模型权重来改善解释有鉴于此，我们引入了-NoiseGrad-一种随机的，方法不可知的增强方法，该方法将噪声添加到权重而不是输入数据。我们通过各种实验研究了我们提出的方法，包括不同的数据集，解释方法和网络架构，并得出结论，与SmoothGrad相比，具有乘性高斯噪声的NoiseGrad（及其扩展NoiseGrad++）在几个评估标准上具有明显的优势我们将我们提出的方法连接到贝叶斯学习，并为用户提供选择超参数的启发式方法。1介绍深度神经网络（DNN）的普遍使用，由于其泛化和学习复杂非线性函数的能力，给研究人员和从业人员带来了机器学习（ML）模型的不可解释性和不透明性问题这种缺乏透明度的情况，加上这些高度复杂的模型在实践中的广泛使用，对负责任地使用人工智能，特别是在安全关键领域，如医疗领域，构成了风险和重大挑战针对这一点，可解释人工智能（XAI）领域已经出现，其目的是使人类能够理解复杂算法的预测。到目前为止，大部分进展都是在XAI的地方一级取得的，即，解释单个输入的模型决策[1]，其中各种方法，诸如逐层相关传播（LRP）[2]、深度泰勒分解[3]、CAM[4]及其扩展GradCAM[5]和集成梯度[6]已被证明在解释DNN方面是有效的这些基于梯度的方法因其简单而流行，但它们往往会受到梯度破碎效应的影响，这通常会导致嘈杂的解释图[7]。作为补救措施，Smilkov et. 他提出了一个简单的解决方案，* 两位作者对这项工作做出了同等代码和示例可在https://github.com/understandable-machine-intelligence-lab/NoiseGrad获得。arXiv：2106.10185v1 [cs.LG] 2021年6月+v：mala2255获取更多论文2图1：我们提出的方法的说明：各个方法的功能，即，Baseline、SmoothGrad、NoiseGrad和NoiseGrad++从左到右以示意图的方式可视化基线解释以确定性的方式计算-一个输入（狗），一个模型（黑色方块），一个解释。SmoothGrad通过探索数据点的邻域来增强解释，这里由输入的多个噪声版本表示。相比之下，我们提出的方法NoiseGrad通过调查训练模型的邻域来增强解释，这些邻域由模型的多个版本表示。NoiseGrad++通过在输入空间和模型空间中合并随机性来组合SmoothGrad和NoiseGrad。SmoothGrad[8]，其中考虑输入的局部邻域来计算解释。简而言之，这是通过将高斯噪声添加到给定的输入n次，然后计算n个解释，最后将所有解释结果平均为一个解释结果来完成的。因此，SmoothGrad适用于任何基于梯度的解释方法，并已被实践证明可以减少解释的视觉噪声。SmoothGrad增强解释背后的机制有人可能会说，SmoothGrad平均了粉碎效果。然而，SmoothGrad在添加的噪声水平约为信号水平的10%从这一事实中，我们得出这样的假设，即SmoothGrad扰动测试样本，以便从决策边界的最陡部分获得信号这促使我们探索另一种使用随机性的方法：我们提出的方法称为NoiseGrad（NG），而不是向输入中添加噪声，它从回火贝叶斯后验的网络权重中提取样本[9]，使得某些模型的决策边界接近测试样本，从而得到更精确的解释。我们的假设导致了一种自然而简单的超参数选择方法：选择噪声水平（对应于回火贝叶斯后验的温度），使得相对分类精度下降约5%。此外，我们经验性地发现，从回火贝叶斯后验的采样可以近似为应用于网络权重的乘性噪声– 在相同的精神作为MC辍学[10]。因此，我们提出的方法NoiseGrad可以像SmoothGrad一样容易实现，并具有自动超参数选择，适用于任何模型架构和解释方法。我们的实验从经验上支持我们的假设，并在定量和定性上表明NoiseGrad优于SmoothGrad，并且将NoiseGrad与SmoothGrad相结合，我们称之为NoiseGrad++（NG++），进一步提高了性能。我们提出的方法的概述如图1所示。+v：mala2255获取更多论文3Σ1SGN2本文的主要贡献归纳如下• 我们提出了一种新的方法NoiseGrad，通过引入模型参数的随机性来改善基于属性的解释。• 在各种实验中，我们在不同的评价标准，NoiseGrad表现良好的SmoothGrad相比，定性和定量。• 我们证明了NoiseGrad++，SmoothGrad和NoiseGrad的组合，进一步提高了属性的质量。2背景设f（·;W）：Rd→Rk是一个学习权值WRS的神经网络，它映射一个向量x∈Rd，在输出域中，将输入向量i∈n映射到一个向量y∈Rk消耗方法工作作为操作员E，该属性与输入x的特征的相关性关于x，f（·，W）对于模型函数f（.，W）。更深入地讨论不同的可解释性方法可以在补充材料中找到。2.1通过在输入最近提出的一种流行方法-SmoothGrad-试图通过向输入引入随机性来减轻显着图的噪声和视觉扩散[8]。SmoothGrad将高斯噪声添加到给定数据点的输入特征中，并通过对输入的噪声版本的解释进行平均来获得结果解释：ESG（x）=NNi=1E.x+i，f（·，W），σi<$N（0，σ2I），其中（µ，<$）表示均值为µ和协方差为<$的正态分布，I为单位矩阵。除了改进解释之外，据报道SmoothGrad对对抗性攻击更强大[11]。 SmoothGrad对初始点x周围的邻域的解释进行平均，因此，不是为特定的输入点提供解释，而是为其局部邻域解释模型的决策过程。2.2通过近似贝叶斯学习从统计学的角度来看，使用最常用的损失函数和正则化器（例如分类任务的分类交叉熵或回归的MSE）训练DNN可以被视为执行最大后验（MAP）学习。因此，所得权重可以被认为是参数空间上后验分布模式的点估计。虽然MAP学习是有效的，因为网络只学习一组固定的权重，但没有考虑有关参数空间曲率和权重不确定性的任何信息最近的研究表明，结合后验分布的信息可以增强DNN的局部解释[12]。直观地说，与MAP学习不同，MAP学习中权重的点估计代表一种确定性决策策略，后验分布代表一个无限的模型集合，这些模型采用不同的预测策略。通过聚合网络决策过程的可变性，我们可以获得用于预测的特征的更广泛的前景，即，更深入地了解模型在贝叶斯学习中，存在大量不同的方法来近似后验分布，例如变分推理[13，14]，MCdropout[10]，变分丢弃[15，16]，MCMC抽样[9]，但其中大多数都需要对网络进行全面的重新训练拉普拉斯近似[17，18]给出了一种对预训练MAP周围的后验分布进行局部近似的简便方法，其中后验分布通过围绕模式Wlogp（W|D树）logp（W | Dtr）−1（W−W<$）TH（W−W<$）.+v：mala2255获取更多论文4N{W}NGNGN我i=1原始图像基线SG NG NG++图2：两种基本解释方法的基线、SG、NG和NG++的定性性能图示：从PASCAL VOC 2012数据集中随机选择的图像的积分梯度（IG）[6]和梯度SHAP（GradSHAP）[20]，具有重叠分割。这里H是在W处的n g at iv elog后验的Hessian。该表达式导致贝叶斯后验的高斯p（W|Dt r）<$N（W;W<$，H−1）.（一）然而，对于具有数千个权重参数的DNN来说，计算和求逆完整的Hessian矩阵是困难的，因此提出了不同的近似方法，例如对角近似和三对角近似。二阶优化的最新发展表明，Kronecker因子近似曲率（K-FAC）[19]可以有效地用于近似Hessian，即使对于具有数十万参数的复杂DNN [18]。Hessian的这种近似不需要对网络进行任何再训练，但是，它需要计算数据集上的二阶统计量，这仍然是计算昂贵的。3方法如前所述，SmoothGrad改善解释的机制尚未得到很好的理解。在实证实验中，我们发现SmoothGrad的建议噪声水平为10% 也许与直觉相反，这一发现意味着SmoothGrad不仅平滑了峰值导数，而且还从可能性的最陡峭部分收集信号，即，通过用大噪声扰动输入样本来确定决策边界。受此观察的启发，我们提出了另一种引入随机性的方法-而不是扰动输入，我们扰动模型本身。更确切地说，我们提出了一种新方法- NoiseGrad-它基于回火贝叶斯后验[9]从网络权重中提取样本，即，温度高于1的贝叶斯后验，使得某些模型的决策边界在数学上，NG表示如下E（x）=1<$E（x，f（·，W）），（2）其中i是从回火贝叶斯后验中提取的样本。由于近似贝叶斯学习是计算昂贵的，我们主要集中在近似后验与多-在MC dropout [10]的情况下，叠加高斯噪声：Wi = Wi· η i，其中η i <$N（1，σ 2I）。这里，1是所有元素都等于1的向量。这样，NoiseGrad可以被视为拉普拉斯近似的特殊情况，其中后验分布粗略地近似为GradSHAPIG+v：mala2255获取更多论文5≤SG∞- − ∞ −∞NG++NMJ我i=1j=1输入=0.0加速度：98.07=0.2加速度：96.17=0.4电话：+86-021 -88888888=0.6电话：41.208=0.8访问量：11.477图3：CMNIST数据集上NG增强的显着性解释的说明：当增加超参数σ直到σ0时，我们观察到解释的定位能力有所提高。4N（W;W<$，σNGW<$）.通过在足够大数量的样本N上进行平均，我们期望NG来平滑信号，并且还从决策边界接近测试样本的模型中收集放大的信号此外，为了将输入空间和模型空间中的随机性结合起来，我们提出了NoiseGrad++作为NoiseGrad和SmoothGradN ME（x）=1<$1<$E（x+<$，f（·，W）），（3）其中，N和M表示模型的数量和输入的噪声版本分别在我们的实验中，NG++进一步提高了NG的性能，提供了最佳的定性和定量性能。噪音水平。重要的问题是应该向权重添加多少噪声σNG 我们是否需要根据给定的模型架构或数据集来调整噪声水平？我们提出了一个简单的假设：由于我们需要来自决策边界接近测试样本的模型的信号，我们可以选择噪声水平σNG，以便我们观察到一定的准确性下降。根据实验结果（在补充材料中进行了更深入的讨论），我们建议将相对精度下降AD（σ）设置为1（ACC（σ）中国（））/（ACC（0）中国（其中ACC（σ）表示在噪声水平σ下的分类准确度。注意，ACC（0）和ACC（）分别对应于原始精度和机会水平。这个经验法则可以用于不同规模的各种模型架构，如5.2节所述。4实验为了评估我们提出的方法，我们有兴趣比较的属性质量的NoiseGrad和NoiseGrad++的解释与SmoothGrad产生的。为此，我们现在描述有关实证实验的细节，包括数据集，评估方法，比较方法和模型。4.1数据集为了衡量一个解释的好坏，人们通常需要求助于替代品进行评估，因为不存在解释的基础事实与[21]和[22]类似，我们因此设计了一个受控设置，其中地面实况分割标签可用。为此，我们构建了一个半自然的数据集CMNIST（自定义MNIST），其中每个MNIST数字[23]显示在随机选择的CIFAR背景[24]上。为了确保类的可解释证据位于对象本身的附近，而不是在其上下文环境中，我们一致地+v：mala2255获取更多论文6| |≈≈·中国当我们构建CMNIST数据集时，为每个MNIST数字类分配CIFAR背景。通过在感兴趣的对象周围创建分割掩模的不同变化来形成用于解释的地面实况分割标签，所述分割掩模例如是围绕对象或对象本身的像素的正方形框。此外，我们使用PASCAL VOC 2012对象识别数据集[25]进行评估，其中对象定位掩码可用。关于训练和测试分割、预处理步骤和其他相关数据集统计的更多细节自然地，出现了对象定位掩码是否可以用作解释自然数据集的地面实况标签的问题，其中不能保证模型与背景的独立性。因此，我们只报告了受控半自然数据集的定量指标，但也报告了自然数据集的定性结果。4.2评价方法虽然关于基于归因的解释应该满足什么属性的争论仍在继续，但一些作品[3，26，27]表明，为了产生人类有意义的解释，仅仅一个度量是不够的。为了拓宽提供良好解释的意义的视野，我们使用三个研究得很好的属性来评估增强增强方法。（属性1）局部化测量解释将其可解释的证据归因于感兴趣的对象的程度。地面实况掩模上的属性质量的集中度越高越好。为此，在文献[21，28，29，30，31，32]中存在许多可以应用的度量由于我们对归因的排名感兴趣（性质2）忠诚度估计特征的存在（或不存在）如何影响预测分数：删除高度重要的特征会导致模型性能下降。第二个属性试图理解分配的属性是否准确地反映了模型的行为。它可以说是研究最充分的评价指标之一，因此提出了许多经验解释[2，3，33，34]。为了评估该属性的相对实现，我们进行了一项实验，该实验迭代地修改图像以测量每个修改后的补丁的属性总和与预测得分差异之间的等级相关性[35]。给定模型f、解释函数E和样本x的d个索引的子集S以及基线值x，我们如下µF（f，E;x）=c o. rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrf（x）i，f（x）−f.x[xs=xs]整数（4）S∈[d]|S|i∈S由于伪相关性的潜在出现和分布外样本的创建，同时掩蔽原始输入[36]，像素扰动策略的选择是重要的[6，37]。因此，对于每种方法，当我们对几个测试图像重复实验时，我们列举了补丁大小和基线值的不同组合。有关扰动策略的进一步详情，请参阅《补编》。（性质3）鲁棒性测量在模型预测保持大致相同的同时，解释在输入点的小局部邻域内变化的强度在评估归因质量的第三个属性中，我们检查了解释函数的可靠性[38，39]，该函数具有微妙的变化，也被称为连续性[3]，稳定性[39]，连贯性[40]和灵敏度[34]。与[11]类似，我们通过添加高斯噪声来构造输入x0=x+δ的扰动版本，以使δ（0，σ2）来测试该属性。我们用相似函数S（）来度量在扰动E（x）E（x0）下x和x 0的解释保持不变的程度，使得S（E（x），E（x0））1。在[41]的工作的基础上，我们在实验中对性质2和性质3采用Kendall+v：mala2255获取更多论文7−4.3比较方法和模型NoiseGrad是方法不可知的，这意味着它可以与任何解释方法结合使用然而，由于空间限制，我们专注于事后基于梯度的解释方法，并使用显着性（SA）[43]作为实验中的基本解释方法由于大多数模型感知的局部解释方法利用模型梯度，我们认为，一个潜在的解释改进SA与我们提出的方法也可以转移到一个相关的基于梯度的解释方法的作为比较基线解释方法（基线），我们使用显着性解释，它不向权重或输入添加噪声针对不同架构组成的网络，如ResNet [44]，VGG [45]和LeNet [46]进行了说明。所有网络都针对图像分类任务进行了训练，因此CMNIST和PASCAL VOC 2012数据集的测试准确度分别达到至少86%和92%。有关模型架构、优化配置和训练结果的更多详细信息，请参阅补充材料。5结果在下面，我们介绍我们的实验结果。研究结果可以总结如下：（i）NG和NG++都比用几个归因质量指标测量的SG具有优势;（ii）作为一种启发式方法，根据分类性能下降5%来选择NG和NG++的超参数通常会导致具有高归因质量的解释。5.1基准方法我们首先检查的性能的方法，考虑上述三个属性的质量标准适用于其各自的解释的绝对值。结果总结见表1，其中第一列列出了方法（基线、SG、NG、NG++），第2-4列列出了定位、忠实性和耐用性的相应值。使用ResNet9分类模型和用于计算解释的显著性方法，将分数计算为来自CMNIST的200个随机选择的测试图像的平均值请注意，忠实度分数的计算在计算上是昂贵的，因为我们重新计算不同的补丁大小和基线值，我们只使用200个测试样本中的50个随机样本为了获得NG和NG++的超参数的最佳值，我们分别对每个方法SG、NG和NG++的σ值执行网格搜索AUC值。从表1中，我们可以观察到与基线方法相比，SG，NG和NG++显著提高了归因质量，其中没有添加噪音对于每个检查的质量标准，值的范围在[0，1]之间，其中值越高越好，SmooothGrad和NoiseGrad的组合，即，NG++明显优于单独使用任何一种方法此外，我们可以观察到NG在定位和鲁棒性方面优于SG，但在忠实性方面则不然表1：归因质量0.9783±0.0131 0.2690±0.1579 0.5072±0.11670.9795±0.0120 0.2457±0.1587 0.5492±0.07330.9830±0.01110.2796±0.14540.5701±0.0980NG++的超参数搜索。N G ++的最佳超参数是通过图4（左）所示的网格搜索估计的。对于所有与NG++相关的实验，我们设置N=10，并使σNG（x轴）和σSG（y轴）的步长分别等于0.1和0.2为了更清楚地观察向权重（或输入）添加噪声如何改变与基线相关的归因质量，我们比较了相对于基线的相对AUC改善，即，dAUC，其计算如下：（AUC/AUC基线）1）。暗红色表示与基线相比归因质量更好，深蓝色表示解释定位恶化。NG方法本地化AUCF（f，E;x）耐用性S（E（x），E（x0））基线SG0.9278±0.02500.2274±0.15990.4037±0.0627NG+++v：mala2255获取更多论文8≤≤∼图4：左图：NG++超参数搜索的网格搜索结果可视化，使用dAUC测量，其中x轴显示σNG，y轴显示σSG。右图：使用所有三种方法（SG、NG和NG++）的最佳超参数时AUC结果我们观察到NG++在本地化方面超过了SG和NG。最有趣的是，当将NG和SG组合为NG++且σSG=0.4和σNG=0.2时，可以获得最佳结果从图4中我们还可以观察到，对于高于σNG0的值。7或σSG1。4分别增加噪声提高属性质量。有趣的是，我们发现，与SG的解释使dAUC恶化超过10倍的速度比使用NG的解释当比较第一列（SG，仅应用输入噪声）和第一行（NG，仅应用噪声到模型权重）时，我们可以得出结论，一般来说，NoiseGrad的属性质量高于SmoothGrad。最后，为了更细致地观察结果，我们研究了不同方法的dAUC评分分布，如图4（右）所示值得注意的是，NG和SG的分数是相当的，而NG++的解释归因质量显着更高。5.2超参数选择NoiseGrad和NoiseGrad++带有两个需要调优的超参数σ和N。正如图4中深蓝色所示，并非σNG和σSG的每一种组合都能提高属性质量。反之，NG++的某些σ值会使属性质量变差。因此，我们将在下面的段落中描述如何最好地选择这些超参数。选择σNG。在开发σNG的启发式算法时，我们设置了一个实验，在这个实验中，我们记录了不同网络架构的AUC分数和模型准确性的下降根据该分析（如补充材料中进一步讨论的），我们可以得出结论，σNG的最佳噪声水平是分类准确度下降5%的地方（因为这是AUC曲线通常达到峰值的地方）。表2：不同架构的AUC得分，应用启发式方法LeNet VGG 11 ResNet 9 ResNet18ResNet 50基值0.923± 0.033 0.962± 0.015 0.930± 0.024 0.911±0.037 0.909 ± 0.034SG 0.950± 0.029 0.980± 0.011 0.969± 0.017 0.951±0.030 0.941 ± 0.032NG 0.950± 0.028 0.982± 0.0100.977± 0.0120.966± 0.0220.967± 0.021NG++0.955±0.0230.985± 0.006 0.974± 0.012 0.961±0.026 0.954 ± 0.029为了验证启发式确实提高了归因质量，我们接下来对NG和NG++解释应用经验法则并记录AUC值。为了计算SG解释，我们遵循作者正如从+v：mala2255获取更多论文9√∈S原始图像基线N = 3 N = 10 N = 25 N = 100图5：使用不同样本量的NoiseG-rad对两个随机选择的PASCAL VOC 2012图像进行显著性解释解释的质量随着样本数量的增加而提高，直到样本数量达到25时不再变化。如表2所示，与SG和基线相比，无论架构设置如何，向权重添加噪声（通过NG或选择N。建议的NG和NG++方法可视为以下积分的蒙特卡罗积分[47]版本：ING（x）=RE（x，f（·，W））p（W）dW，ING++（x）=R<$RE（x+∞，f（·，Wi））p（∞）p（W）d <$dW.D作为Monte-Carlo近似，平均值的标准误差渐近减小为1N与积分的维数无关。在实践中，我们观察到样本量N [25，50]已经足以产生吸引人的解释，如图5所示。对于NG++，N（NG样本）和M（SG样本）仅10个样本就足以增强解释。6讨论和结论在本文中，我们提出了一种称为NoiseGrad的新方法，这是一种简单的方法不可知的解释增强方法，探讨了如何将随机性引入模型参数可以提高归因质量。我们在一组不同的评估标准上证明了NoiseGrad，特别是它的扩展NoiseGrad++可以在使用简单的启发式选择超参数的同时胜过SmoothGrad局限性。 NG和NG++的主要局限性在于它们的性能取决于噪声水平的选择，其中更多的噪声并不总是更好。针对这一点，我们提出了一种基于模型精度的启发式算法，使用户可以轻松地设置适当的噪声水平。此外，由于DNN中的参数数量通常大于数据中的特征数量，因此NoiseGrad的计算量比SmoothGrad略大此外，解释评价仍然是XAI研究中尚未解决的问题，毫无疑问，每种评价技术都有各自的缺点。为此，我们因此应用几个质量标准，即本地化，忠实性和鲁棒性来定量评估我们的方法今后的工作。为了扩大我们提出的方法的适用性，我们感兴趣的是量化验证本地化作为属性质量标准在自然数据集上的有用程度。此外，进一步研究NG和NG++在图像分类以外的其他任务（如时间序列预测或NLP）上的性能也很有趣我们还想探索向神经网络的权重添加噪声的替代方法，例如，通过向不同的层或单个神经元添加不同级别的噪声。S+v：mala2255获取更多论文10引用[1]Riccardo Guidotti等人，“解释黑箱模型的方法调查”。在：ACM计算调查（CSUR）51.5（2018），pp。1-42[2]Sebastian Bach等人，“On pixel-wise explanations for non-linear classifier decisions by layer-wiserelevance propagation”。In：PloS one10.7（2015）.[3]Grégoire Montavon，Wojciech Samek，and Klaus-Robert Müller.“解释和理解深度神经网络的方法”。在：数字信号处理73（2018），pp。1比15[4]Bolei Zhou et al.“Learning deep features for discriminative localization”.在：IEEE计算机视觉和模式识别会议论文集。2016年，页2921-2929。[5]兰普拉萨河Selvaraju等人Grad-CAM：通过基于梯度的本地化从深度网络中进行视觉扩展。在：国际计算机视觉杂志128.2（10月。2019），pp.336-359.ISSN：1573-1405。 DOI ：10. 1007/s112 63- 01 9- 0122 8-7。 URL：http：//dx. 是的。或g/10。1007/s11263-019-01228-7。[6]Mukund Sundararajan，Ankur Taly，and Qiqi Yan. 国际机器学习会议International Conference onMachineLearningPMLR。2017年，页3319-3328[7]Wojciech Samek等人在：IEEE109.3（2021），pp。247-278.[8]Daniel Smilkov等人在：arXiv预印本arXiv：1706.03825（2017年）。[9]F. Wenzel等人在《于：arXiv：2002.02405（2020）.[10]Y. Gal和ZGhahramani 在：ICML的会议记录。2016年。[11]Ann-Kathrin Dombrowski等人于：神经信息处理系统进展。2019年，页13567-13578。[12]Kirill Bykov，《我能相信你多少？》（How Much Can I Trust You？- 量化解释神经网络中的不确定性”。In：arXiv preprint arXiv：2006.09000（2020）.[13]A. Graves. 在：NIPS的进展。2011年。[14]K. Osawa等人上一篇：Advances in NeurIPS2019年。[15]D. P. Kingma，T. Salimans和M.威灵“Variational Dropout and the Local Reparameterization 在：NIPS的进展。2015年。[16]D. Molchanov，A.Ashukha和D.维特罗夫于：ICML会议记录。2017年。[17]大卫·JC·麦凯。在：神经计算4.3（1992），pp.448-472[18]希波利特，亚历山大·博特夫，大卫·巴伯。A scalable laplace approximation for neural networks.在：第六届国际学习代表会议，ICLR 2018-会议跟踪程序。第6卷。代表性学习国际会议。2018年[19]詹姆斯·马滕斯和罗杰·格罗斯用Kronecker因子近似曲率优化神经网络上一篇：机器学习国际会议2015年，第页2408-2417[20]Scott M Lundberg和Su-In Lee。在：神经信息处理系统的进展。2017年，页4765-4774[21]Leila Arras，Ahmed Osman，and Wojciech Samek.使用CLEVR-XAI对神经网络模型进行地面实况评估。2021. arXiv：2003.07258 [cs.CV]。[22]杨梦娇和金波。见：CoRRabs/1907.09701（2019）。[23]Yann LeCun ， Corinna Cortes ， and CJ Burges. 在： ATT 实验室 [ 在线 ]. 见：http://yann.lecun.com/exdb/mnist2（2010）。[24]亚历克斯·克里热夫斯基从微小的图像中学习多层特征。Tech. 众议员2009年[25]M. Everingham等人在：国际计算机视觉杂志88.2（2010年6月），pp。303-338[26]David Alvarez-Melis和Tommi S Jaakkola。In：arXiv preprint arXiv：1806.07538（2018）.[27]Diogo V Carvalho，Eduardo M Pereira，and Jaime S Cardoso.“机器学习可解释性：方法和度量的调查”。In：Electronics8.8（2019），p. 八三二[28]Jonas Theiner，Eric Müller-Budack，and Ralph Ewerth. 可解释的语义照片地理定位。2021.arXiv：2104.14995 [cs.CV]。[29]Sebastian Bach等分类器分析：Fisher向量和深度神经网络。2015年。arXiv：1512.00172 [引文CV]。+v：mala2255获取更多论文11[30]Maximilian Kohlbrenner等用LRP解释神经网络决策的最佳实践。2020. arXiv：1910.09840[cs.LG].[31]Jianming Zhang et al.用兴奋基础训练法训练神经元注意力。2016年。 8.第八章00507[cs.CV]。[32]汤姆·福塞特 In：Pattern Festival. Lett. 27.8（2006年6月），pp. 861- 874。 ISSN：0167-8655。DOI：10.1016/j.patrec.2005.10.010。网址：https://doi.org/10.1016/j.patrec.2005.10.010。[33]Wojciech Samek等人 IEEE transactions on neural networks and learning systems28.11（2016），pp. 2660-2673。[34]叶志宽等，《论解释的（不）忠实性和敏感性》。In：arXiv preprint arXiv：1901.09392（2019）.[35]Umang Bhatt，Adrian Weller，and José M.F. 你好评估和聚合基于数据库的模型配置。2020.arXiv：2005.00631 [cs.LG]。[36]Sara Hooker等人深度神经网络中可解释性方法的基准测试。2019年。arXiv：1806.10758 [LG引文]。[37]Pascal Sturmfels，Scott Lundberg，and Su-In Lee.“可视化特征属性基线的影响”。In：Distill（2020）.https://distill.pub/2020/attribution-baselines的网站。DOI：10.23915/10.00022。[38]Pieter-Jan Kindermans等人可解释的人工智能：解释，解释和可视化深度学习。施普林格，2019年，第267-280。[39]David Alvarez-Melis和Tommi S.贾科拉用自解释神经网络实现强大的可解释性。2018. arXiv：1806.07538 [cs.LG].[40]Riccardo Guidotti等人在潜在特征空间中学习图像样本的黑箱解释。2020. arXiv：2002.03746[cs.CV]。[41]Jiefeng Chen et al.“Robust attribution regularization”.在：神经信息处理系统的进展。2019年，页14300-14310。[42]莫里斯·肯德尔。见：《生物统计学》30.1/2（1938年），pp.81比93[43]阿凡提·什里库玛佩顿·格林赛德和安舒尔·昆达杰上一篇：机器学习国际会议PMLR。2017年，页3145[44]Kaiming He等用于图像识别的深度残差学习。2015年。arXiv：1512.03385 [cs.CV]。[45]凯伦 · 西蒙尼扬和安德鲁 · 齐瑟曼 “Very deep convolutional networks for large-scale imagerecognition” （用于大规模图像识别的非常深的卷积网络）。In ： arXiv preprint arXiv ：1409.1556（2014）.[46]Yann LeCun等人，“基于一致性的学习应用于文档识别”。在：IEEE86.11（1998年）的会议记录，pp。2278-2324[47]尼古拉斯·大都会和斯坦尼斯瓦夫·乌拉姆蒙特卡洛方法（Monte Carlo Method）在：美国统计协会杂志44.247（1949年），pp。335-341[48]雷德福·M·尼尔Bayesian Learning via Stochastic Dynamics.在：神经信息处理系统的进展。1993，pp. 475-482.[49]亚当·D·科布和布莱恩·贾莱恩。“Scaling Hamiltonian Monte Carlo Inference for Bayesian NeuralNetworks with Symmetric Splitting”. In：arXiv preprint arXiv：2010.06772（2020）.[50]Jongseok Lee等人，“在稀疏信息形式中估计神经网络的模型不确定性”。国际机器学习会议（International Conference on Machine Learning，ICML）机器学习研究论文集2020.[51]安国忠。“The effects of adding noise during backpropagation training on a generalization在：神经计算8.3（1996），pp. 643-674。[52]Ben Poole，Jascha Sohl-Dickstein，and Surya Ganguli.分析自动编码器和深度网络中的噪声。In：arXiv preprint arXiv：1406.1831（2014）.[53]Charles Blundell等人上一篇：机器学习国际会议PMLR。2015年，第页1613-1622年。[54]托马斯·G·迪特里希在：关于多分类器系统的国际研讨会。斯普林格。2000年，第2000页。1比15[55]Laura Rieger和Lars Kai Hansen“一个简单的防御对抗性攻击的热图布局”。In：arXiv preprintarXiv：2007.06381（2020）.[56]Adam Paszke等人在：神经信息处理系统的进展32。Ed. 由H.Wallach等人Curran Associates，Inc.2019 年，页 8024-8035.网址： http://papers.neurips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf。[57]M.2012 年 PASCALVisualObjectClassesChallenge （ VOC2012 ） http://www.pascal-+v：mala2255获取更多论文12network.org/challenges/VOC/voc2012/workshop/index.html的网站。+v：mala2255获取更多论文13[58]Christopher J Anders等. 可解释的人工智能：解释，解释和可视化深度学习。施普林格，2019年，第297-309[59]Leila Arras等

下载后可阅读完整内容，剩余1页未读，立即下载