基于对抗样本的深度神经网络可解释性分析研究

版权申诉

114 浏览量更新于2024-06-26 1 收藏 1.79MB DOCX 举报

面向对抗样本的深度神经网络可解释性分析深度神经网络（Deep Neural Networks，DNNs）在语音识别、图像分类、自然语言处理等领域取得了很好的效果，近年来获得了人们的广泛关注。然而，深度神经网络通常被看作“黑盒”模型，导致用户只能观察模型的预测结果，而不能了解模型产生决策的原因。这限制了深度神经网络的发展与应用，例如，在医疗、自动驾驶等实际应用场景中，仅仅向用户提供最终的预测结果而不解释其原因，无法满足用户的需求。为了解决这个问题，研究人员尝试了多种方法来解决深度神经网络的可解释性问题。例如，一个模型对于图像的分类结果可以归因于图像的关键性区域或者其他类似图像。同时，一系列的工作研究如何可视化深度神经网络内部神经元学习到的特征。然而，这些方法存在以下几个问题：1）它们通常是在模型训练结束后进行解释，并不能在训练的过程中约束其学习到一个可解释的模型；2）它们仅仅关注模型对于正常样本的预测进行解释与分析，而忽视了模型在现实场景中可能遇到的对抗样本（Adversarial examples）；3）它们并没有解释模型发生错误的原因，也不能让用户针对性地修复模型的问题。本文针对图像分类任务，利用对抗样本检验深度神经网络的内部特征表示。对抗样本是指攻击者通过向真实样本中添加微小的、人眼不可察觉的扰动，导致模型发生预测错误的样本。真实样本和对抗样本可以从正反两方面研究深度神经网络的行为，既可以通过真实样本分析模型产生正确预测的原因，同时也可以通过对抗样本分析模型发生错误的原因，以深入探究深度神经网络的运行机制。通过将对抗样本与真实样本输入到深度神经网络中并检验其特征表示，我们发现深度神经网络内部学习到的特征表示与人类的感知和理解相似。对抗样本可以帮助我们更好地理解深度神经网络的内部机理，并且可以帮助我们开发出更加可靠和可解释的深度神经网络模型。本文的贡献在于：1）我们提出了一个新的方法来研究深度神经网络的可解释性，利用对抗样本来检验深度神经网络的内部特征表示；2）我们发现了深度神经网络内部学习到的特征表示与人类的感知和理解相似；3）我们展示了如何使用对抗样本来提高深度神经网络的可解释性和可靠性。本文的研究结果为深度神经网络的可解释性分析和改进提供了新的思路和方法，并且对深度神经网络在实际应用中的发展和应用产生了重要的影响。

展开

Processing Error]L(fθ(x

∗

),y

∗

)产生, 使网络将其错分为目标类别[Math Processing Error]y

∗

, 即

[Math Processing Error]fθ(x

∗

)=y

∗

有很多的攻击方法可以解决上述的优化问题, 以产生对抗样本. 其中快速梯度符号法

(Fast gradient sign method, FGSM)

[10]

通过一步梯度迭代产生对抗样本. 对于无目标对抗攻击,

FGSM 可以表示为

[Math Processing Error]x

∗

=x+ϵ×sign(

∇

xL(fθ(x),y))

(1)

其中, [Math Processing Error]ϵ 是扰动的噪声规模. FGSM 首先计算损失函数对于输入

的梯度, 然后取梯度的符号将其归一化, 并乘以扰动规模[Math Processing Error]ϵ, 可以使

得对抗样本与真实样本的距离满足[Math Processing Error]‖x

∗

−x‖∞≤ϵ. 基于 FGSM, 基础迭

代法(Basic iterative method, BIM)

[11]

通过多步梯度迭代, 可以产生攻击效果更好的对抗样本.

基于优化的方法

[12]

直接求解

[Math Processing Error]argminx

∗

⁡{‖x

∗

−x‖22−λ×L(fθ(x

∗

),y)}

(2)

其中, 第 1 项减小对抗样本与真实样本的[Math Processing Error]ℓ2 距离, 第 2 项最大

化网络的损失函数, [Math Processing Error]λ 是一个超参数. 上述的几种攻击方法可以简单

地扩展到有目标攻击上, 通过将式(1)和式(2)中的损失函数[Math Processing Error]L(fθ(x

∗

),y)

替换成[Math Processing Error]−L(fθ(x

∗

),y

∗

)即可.

由于对抗样本对于深度神经网络所带来的安全隐患, 有很多的防御方法期望抵抗对抗

样本的干扰, 得到更加鲁棒的模型. 在这些防御方法中, 对抗训练(Adversarial training)

[10, 20-

23]

是一类典型且有效的算法. 对抗训练通过将对抗样本加入到训练过程中更新模型参数, 使

其可以抵抗对抗样本的影响. 具体地, 对抗训练可以被定义为一个最小最大化问题

[Math Processing Error]minθ⁡E(x,y)

∼

D[maxx

∗∈

S(x)⁡L(fθ(x

∗

),y)]

(3)

其中, [Math Processing Error]D 是数据分布, [Math Processing Error]S(x)是所允许的对

抗样本区域. 上式中的内层最大化问题通常通过攻击算法产生的对抗样本近似, 而外层最小

化问题将对抗样本作为训练数据得到更加鲁棒的模型.

本文说明了对抗样本以及对抗训练对于深度神经网络可解释性分析的作用. 我们通过

对抗样本分析深度神经网络的特征表示, 并利用加入特征表示一致性损失的对抗训练方式

提升网络的可解释性.

2. 面向对抗样本的可解释性分析

先前的工作认为深度神经网络可以学习到对于图像内容的解耦的特征表示

[6, 8]

, 即其中

的神经元会检测人类所理解的语义概念, 从而使整体的特征表示可以解释. 然而, 在本节中

展示了可以检测语义概念(例如物体或者物理组成部分)的神经元可以很轻易地被对抗样本

所欺骗, 展现出神经元学习到的特征和语义概念之间的不一致性.

下载后可阅读完整内容，剩余16页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

罗伯特之技术屋

粉丝: 4608

基于对抗样本的深度神经网络可解释性分析研究

golang解析.docx文件包使用详解

C++库DuckX：轻松创建和编辑.docx文件

DuckX：C++库实现Microsoft Word .docx文件快速操作

基于卷11积神经网络的显著性检测.docx

深度学习 人工神经网络的研究的概念.docx

如何用Python和深度神经网络识别图像？.docx

深度神经网络全面概述.docx

增强型深度对抗样本攻击防御算法.docx

面向NDN的网络攻击检测技术分析.docx

ChatGPT技术对于不同领域对话样本的适应性分析.docx

最新资源

深度学习人工神经网络的研究的概念.docx