优化的视觉解释方法：提升卷积神经网络理解与应用

146 浏览量更新于2024-06-20 收藏 1.69MB PDF 举报

本文探讨了卷积神经网络（CNN）在视觉任务中的广泛应用，特别是在ImageNet、Caltech和Cityscapes等高精度基准上的成功，促使它们被广泛应用于自动驾驶和翻译等实际场景。然而，CNN的黑盒特性使得其在安全关键领域应用时存在挑战，缺乏透明度和可解释性降低了工程师的信心。为了解决这个问题，研究者提出了一种事后、基于优化的视觉解释方法，旨在揭示CNN决策背后的证据，增强模型的可信度和透明度。该方法的主要目标是提供细粒度的解释，即突出输入图像中对特定预测至关重要的像素，同时尽可能保持图像特征的完整性，如边缘和颜色。不同于传统的对抗性证据防御方法，该解释方法不依赖于人为调整的参数，而是通过优化过程寻找稀疏掩模，将不相关的像素设置为零，生成的解释可以直接作为模型的有效输入。这种方法旨在生成与原始图像相似的softmax得分，以确保解释的准确性。研究者们通过大量的模型和数据集进行了定性和定量的评估，以验证其在抵御对抗性证据方面的能力，以及在保持图像特征和解释性的平衡上的有效性。通过对比常见的解释形式，如单个预测的解释，该方法提供了一个更具深度的理解，帮助用户洞察模型决策背后的具体证据，从而提高模型的透明度和用户信任度。总结来说，本文的关键知识点包括： 1. **卷积神经网络的黑盒问题**：CNN在视觉任务中的出色表现带来了对其在安全领域的应用需求，但黑盒特性限制了模型的可解释性和信任度。 2. **事后解释方法**：提出了一种基于优化的视觉解释技术，用于揭示CNN决策的证据，提升模型的透明度。 3. **防御对抗性证据**：通过优化算法寻找对抗干扰的解决方案，保证解释的稳健性。 4. **细粒度解释**：强调输入图像中对特定预测至关重要的部分，同时保持图像特征的真实性。 5. **模型解释的评估**：通过实验验证了方法的有效性和可靠性，适用于大规模模型和数据集。 6. **提升用户信任**：通过可解释性增强，用户能够理解和验证模型决策，从而增强信任度。这个方法为深度学习模型的透明度和可信度提升提供了新的途径，对于推动CNN在安全关键领域的发展具有重要意义。

9099

在优化过程中进行了优化）。

我们的方法还优化了输入的扰动版本与现有的方法

相比，我们提出了一种新的对抗性防御技术，在优化

过程中过滤梯度这种防御不需要必须微调的超参数。

此外，我们单独优化每个像素，因此，得到的解释没

有分辨率的限制，是细粒度的。

解释模型预测

解释提供了对模型决策过程的深入了解。最普遍的

解释形式是描述整个模型行为的

全局

解释。

全局

解释

以直观的方式为所有可能的模型输入指定相应的输

出。中的分类器的决策边界图，例如，低维向量空

间表示

全局

解释。对于高维数据和复杂模型，实际上

不可能产生这样的解释。因此，当前的方法利用

局部

解释

，其关注于个体输入。给定一个数据点，这些方

法突出了模型决策所依据的证据。如图所示，2、高亮

的定义取决于所使用的解释

，来自图像的信息（

保存

）。由于不可能在不替换

信息的情况下删除信息，并且我们无法访问图像生成

过程，因此我们必须使用近似删除算子[17]。一种常

见的方法是使用基于掩码的运算符

，该运算符计算

图像 x和 a之间的加权平均值。

参考图像

，使用掩模

m ∈[

，

]

：

（

，

）

（

−

）

。

（

一）

参考图像的常见选择是常数值（例如零）、原始图像

的模糊版本、高斯噪声或生成模型的采样参考[17，

14，6，11]。在这项工作中，我们采取了零图像作为

参考。在我们看来，该参考文献产生了最令人愉悦的

视觉解释，因为不相关的图像区域被设置为零

（图

1），并且没有被其他结构取代。此外，零图像（和随

机图像）携带相对较少的信息，并导致具有高熵的模

型预测。其他参考，如图像的模糊版本，通常会导致

较低的预测熵，如第二节所示A3.1. 由于额外的计算工

作，我们没有考虑基于模型的参考，提出了在张

等

人

。[6]的文件。

此外，需要相似性度量

（

，

）

，

X e

法在这项工作中，我们遵循的范例中介绍的措施的一致性模型输出生成-

[17]

并直接优化的干扰版本，

由y

的

图像的输出

把图像。这种方法有几个优点：（1）由于其形象的

性质，所得到的解释是可解释的; 2）推理代表有效的

模型输入，因此是可测试的;（3）优化算法，使其具

有较好的可信度。节中3.1我们简要回顾了基于优化的

解释方法的一般范式，然后在第二节中介绍我们新颖

的对抗性防御技术。3.2.

3.1.

基于扰动的可视化算法

遵循基于优化的计算方法的范例，其计算图像的扰

动版本[17，14，6，11]，解释可以定义为：保存说

明：最小的区域

相对于目标类别

。这种相似性

如果解释保留了目标类的输出，则ric应该小，如果解

释设法显著降低目标类的概率，则ric应该大[17]。度

量的典型选择是交叉熵，

类c

作为硬目标[24]或目标类c

的负softmax得分。相似

性度量确保解释仍然忠实于模型，从而

准确地解释了模型的功能，这一特性是PBM的主要优

势。

使用具有零图像作为参考（r

0）的解释的基于掩

码的定义以及相似性度量，可以通过以下公式计算

保留解释

必须保留的图像

，

以保留原始模型

输出（

即

，足够的证据）。

删除解释图像的最小区域

= m

，

arg min

{

（

，

）

{\fn

方

正黑体

简体

\f s18\

b1 \b or

d1 \s ha

d1 \3 c

H2 F2F

2F }

（

二）

必须将其删除以更改模型输出。

为了正式推导出基于这种范式的解释方法，我们

假设给出

CNN

cnn

，其将输入图像

∈

映射到

输出

cnn

（x;

cnn

）。输出

∈

是表示

不同类别c的softmax得分y

。给予

x e

T 1

我们将参考Eq. 2、游戏

的游戏性

。这个游戏产生的面

具（图2 / b2）

是稀疏的（

即

，许多像素为零/显示为

黑色;通过最小化

最

大

值来强制执行，并且最多

重要像素。相应的解释是，

输入图像x、目标类

（

例如

，

通过将掩模与图像相乘而得出（图2/c2）。

最可能

的

类

）通过

remov

计算

优化的视觉解释方法：提升卷积神经网络理解与应用

卷积神经网络原理与视觉实践

卷积神经网络（CNN）在计算机视觉中的高级应用

一种卷积神经网络的优化方法.pdf

网络游戏-卷积神经网络系统及其操作方法.zip

经典卷积神经网络在机器视觉中的应用及不同数据集的特点

实时人体姿态识别预警系统：OpenPose卷积神经网络优化

"卷积神经网络优化与嵌入式手势识别算法实现

"卷积神经网络结构优化及应用综述：从图像处理到医疗诊断

"卷积神经网络结构设计及目标检测应用研究：性能优化与嵌入式应用

卷积神经网络在图像识别中的应用与优化

最新资源