深度学习安全挑战：对抗性攻击与防御现状

63 浏览量更新于2024-06-18 收藏 1.35MB PDF 举报

深度学习中的对抗性攻击和防御是当前人工智能和深度学习领域的热点问题。随着AI技术的飞速发展，确保深度学习算法在实际应用中的安全性与鲁棒性变得至关重要。对抗性攻击是指攻击者通过微小的、肉眼难以察觉的扰动，制造出看似正常的"对抗性样本"，这些样本能够误导深度学习模型，使其产生错误的预测。这种攻击威胁到了深度学习在诸如图像分类、自然语言处理和博弈论等领域的广泛应用。现有的对抗性攻击主要分为三种类型：白盒攻击、灰盒攻击和黑盒攻击。白盒攻击假设攻击者对模型的内部结构有全面了解，可以利用这种优势进行精准的攻击；灰盒攻击则介于两者之间，攻击者部分了解模型但不知道全部细节；黑盒攻击最为严峻，攻击者对模型完全不了解，仅能依赖输入输出数据进行攻击。针对对抗性攻击，研究人员已经提出了一系列防御策略，包括但不限于训练过程中的防御性增强（如对抗训练）、模型鲁棒性优化、以及使用检测机制识别对抗样本。这些防御方法涉及前沿的技术，如对抗样本检测算法、防御模型的设计与优化，以及对攻击者策略的理解和对抗。尽管已取得了一些进展，对抗性攻击和防御仍面临诸多挑战，比如如何设计更有效的防御机制来抵御未知的攻击策略，如何在保持模型性能的同时提高其对抗性，以及如何将这些防御技术实现在复杂的真实世界场景中。这些问题的解决不仅需要跨学科的合作，也需要不断探索新的理论和技术路径。总结来说，深度学习中的对抗性攻击和防御是一个既具有理论深度又关乎实际应用的重要课题，对于保障AI技术的安全性和可靠性具有重要意义。未来的研究方向将集中在开发更为稳健的防御机制，以及对对抗性攻击的深入理解，以期为深度学习的发展创造一个更安全的环境。

348

K. Ren

等人

工程

（

2020

）

346

是

的

ΣΣ

ð Þ

;

吉

[]

损失，即cjjx-x

jh;x

，其中c是超参数，作为优化问题的解的近似，

其中c的最优值可以通过线搜索/网格搜索找到。

3.2.

快速梯度符号法

Goodfellow等人[5]首先提出了一种有效的无目标攻击，

3.4.

动量迭代攻击

受动量优化器的启发，Dong等人[18]提出将动量记忆集成到BIM的

迭代过程中，并推导出一种新的迭代算法，称为动量迭代FGSM（MI-

FGSM）。具体来说，MI-FGSM迭代地更新对抗样本，

Cli p

sig n

称为

FGSM

，

以

在良性样本的

邻域

中生成

对抗

样本，如图1所示。

FGSM是一种典型的一步攻击算法，它执行一步更新

其中梯度g 由

更新

;

，

是

衰减

因子。

1.0

沿着该方向（即，（符号）的梯度的对抗

损失Jh;x;y，以增加最陡方向上的损失形式上，FGSM生成的对抗样本

公式如下：

sign

;

]

其中s是扰动的幅度。FGSM可以很容易地扩展到一个有针对性的攻击

算法（目标FGSM）通过下降的梯度Jh;x;y

，其中y

是目标标签。这种

更新过程可以降低预测概率向量和目标概率向量之间的交叉熵如果交

叉熵被应用为对抗性损失。针对目标FGSM的更新规则可以公式化如

下：

sign

;

]

此外，已经发现，在对良性样本执行FGSM之前的随机扰动可以增

强FGSM对抗样本的性能和多样性

3.3. BIM

和

PGD

Kurakin

等人。

[6]

提出

BIM

以提高

作者进一步提出了一个计划，旨在建立一个

在黑盒

灰盒设置中攻击模型。其基本思想是考虑多个模型相对于输

入的梯度，并确定更有可能转移到其他模型的梯度方向

MI-FGSM

和

集成攻击方案

的组合

在

2017

年神经信息处理系统（

NIPS

）会议上获

得了非目标对抗攻击和目标对抗攻击竞赛（黑盒设置）的第一名。

3.5.

分布式对抗攻击

Zheng等人[7]提出了一种新的对抗攻击，它在概率测度空间上执

行，称为分布式对抗攻击（DAA）。与PGD不同，对抗样本是为每个

良性样本独立生成的，DAA对潜在的对抗分布进行了优化。此外，所提

出的目标首先包括在对抗性损失的计算中的对抗性和良性数据分布之间

的Kraft-McMillan（KL）分歧，以增加优化期间的对抗性泛化风险。

该分配优化问题公式化如下：

FGSM通过运行更精细的迭代优化器进行多次迭代。

BIM以较小的步长执行FGSM，并将更新的对抗样本裁剪到T次迭代的

有效范围内;

最大

在第t次迭代中，更新规则如下：

Clip

sign

;

其中，

是每次迭代中扰动的大小。PGD可以被认为是BIM的广义版

本，没有约束aTs。为了约束对抗性扰动，PGD将

从

每次迭代

中

学习到

的对抗性样本投影到良性样本的

s-L1

因此，对抗扰动大小小于

.从形式上讲，更新过程如下

Pro j

sign

;

其中，

Proj

将

更新的

反向

样本投影到s-L1中

邻居和有效范围。

其中，

表示对抗数据分布，

表示良性数据分布。

由于直接优化的分布是棘手的，作者利用两个粒子优化方法近

似。与

PGD

相比，

DAA

探索了新的对抗模式，如图

所示

[7]

。它在

麻省理工学院（

MIT

）

MadryLab

的白盒排行榜上排名第二

[13]，被

认为是多个防御模型上最有效的L1攻击之一

。

3.6.

卡烈尼和瓦格纳攻击

Carlini

和

Wagner[8]

提出了一组基于优化

的

对抗性

攻击

（

攻

击），

可以生成

，

和

范数测量的对抗性样本，即

，

和

CW 3

。

Fig. 1.通过将FGSM应用于GoogleNet生成的对抗样本的演示[5]。FGSM精心制作的难以察觉的扰动欺骗了GoogleNet，使其将图像识别为giglion。

H.S

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习安全挑战：对抗性攻击与防御现状

面向深度学习模型的对抗攻击与防御方法综述.pdf

针对深度学习模型的对抗性攻击与防御.docx

针对深度学习模型的对抗性攻击与防御.pdf

基于深度学习的对抗攻击和对抗防御

基于深度学习的对抗攻击与对抗防御

关于深度学习后门攻击和防御的预训练模型

语音识别对抗样本攻击与防御

the limitations of deep learning in adversarial settings

对抗样本dp攻击是什么

基于CNN的对抗攻击算法实现可以从哪些方面去讲

最新资源