![](https://csdnimg.cn/release/download_crawler_static/86323202/bg6.jpg)
46
Journal of Software 软件学报 Vol.32, No.1, January 2021
意两个模型可能同时学习到类似的非稳健特征,因此扰动此类特征的对抗样例,可对二者同时产生影响.
3.2 对抗样例攻击方法
作为破坏机器学习模型完整性最强有力的攻击方法,对抗样例攻击被广泛应用于诸如计算机视觉、自然语
言处理、音频处理以及图数据处理等各个领域.
3.2.1 计算机视觉
在计算机视觉领域,对抗攻击旨在通过向图片中添加人眼无法感知的噪音以欺骗诸如图像分类、目标识别
以及看图说话等多种机器学习模型.根据在攻击过程中是否依赖模型具体的结构和参数信息,针对计算机视觉
模型的对抗攻击方法可以分为白盒攻击和黑盒攻击.为了保证攻击的隐蔽性,无论是白盒攻击还是黑盒攻击,均
需要限定所添加扰动的幅度,从而保证促使学习模型产生误分类的同时,不干扰人的识别结果.
1) 白盒攻击
(1) 基于优化
Szegedy 等人
[33]
首次提出“对抗样例”这一概念,将寻找最小可能的攻击扰动定义为一个优化问题,并提出
使用 L-BFGS 来解决这个问题.采用这种方法攻击的成功率很高,但同时其计算成本也较高.Carlini 等人
[35]
进一
步改进了 L-BFGS 方法,提出了攻击效果更好的目标函数,并通过改变变量以解决边界约束问题,这一方法通常
被称为 C&W 攻击.Chen 等人
[36]
在 C&W 攻击的基础上结合弹性网(elastic net)正则思路提出了 EAD,该方法生
成的对抗样本相较于 C&W 生成的对抗样本具有更强的迁移性.Khrulkov 等人
[37]
提出了一种基于求解优化问题
的构造通用扰动的新算法,该算法主要基于深度神经网络特征映射的雅可比矩阵的(p,q)-奇异向量(singular
vectors).
(2) 基于梯度
为了降低计算成本,Goodfellow 等人
[32]
提出了快速梯度符号法 FGSM,这种方法假设在数据点附近决策边
界是线性的,因此沿着梯度的反方向添加扰动即可拉大对抗样例与原始样本的距离.这种方法虽然能够快速生
成对抗样例,但在实际情况中,由于线性假设往往不成立,使得该方法无法很好地拟合模型.此外,FGSM 是一种
单步(one-step)攻击方法,因此其攻击的成功率较低.为了进一步提升 FGSM 的攻击效果,Kurakin 等人
[38]
提出了
基本迭代方法 I-FGSM(或 BIM),使用贪婪法在每次迭代中将对抗样本沿梯度方向移动.然而,迭代方法生成的对
抗样本很容易过拟合到局部极值点,因此迁移性没有单步攻击生成的对抗样例强
[39]
.为了解决这个问题,Dong
等人
[40]
提出了基于梯度的动量迭代攻击方法 MI-FGSM,在稳定更新的方向时又能逃离局部极值点,使得生成
的对抗样本具有很高的可迁移性,进而使其具有强大的黑盒攻击能力.Xie 等人
[41]
在 MI-FGSM 的基础上引入了
输入转换(input diversity)并提出了 M-DI
2
-FGSM 方法,进一步提高了对抗样本的迁移性.此外,Madry 等人
[42]
发
现,I-FGSM 可以通过
范围球内的随机点开始而得到显著的改善,因此提出了一种名为 PGD 的攻击方法,有效地
提升了 I-FGSM 的攻击效果.Zheng 等人
[43]
将 PGD 推广至数据分布空间,使学习得到的对抗样例分布能够最大
程度地增加模型的泛化风险.Papernot 等人
[44]
提出了基于雅可比矩阵的 JSMA 方法,其主要思想是通过添加稀
疏噪音的方式来构造对抗样例.这种方法则允许添加大的扰动,但要求被扰动的像素点要尽可能地少.
(3) 基于分类超平面
尽管 FGSM 等基于梯度的对抗样例攻击方法能够快速地生成使原分类器产生误分类的对抗样本,但这类
攻击方法存在一个共性问题,即无法控制达到攻击目标的最优扰动规模.为了解决这一问题,Moosavi-Dezfooli
等人
[45]
提出了 Deepfool 算法,目的是寻找可以使分类器产生误判的最小扰动.在此基础上,Moosavi-Dezfooli 等
人
[46]
还提出了一种通用的、不依赖于某一特定样本的对抗扰动(universal adversarial perturbation,简称 UAP)生
成方法,可使所有被添加该扰动的图片都被误分类为其他类别.相比于基于梯度信息的对抗样本生成方法,基于
分类超平面的方法所生成的扰动具有更强的泛化能力和更强的黑盒攻击能力.
(4) 基于生成模型
Baluja 等人
[47]
提出了对抗性转换网络(adversarial transformation network,简称 ATN),它能够将任何输入样
本转换为使目标网络产生错误分类的对抗样例,同时对原始输入和目标网络输出的干扰最小.Song 等人
[48]
提出