第 X 卷 第 X 期 网 络 空 间 安 全 Vol. X No.X
201X 年 X 月
Cyberspace Security
X, 201X
深度学习对抗样本的防御方法综述
张嘉楠
1
,赵镇东
1
,宣晶
2,3
,常晓林
1
(1.北京交通大学智能交通数据安全与隐私保护技术北京市重点实验室,北京 100044;2.北京京投卓越科技发展有限公司,
北京 100101;3.北京京投信安科技发展有限公司,北京 100101)
摘要:深度学习技术的出现给许多领域带来了突破,被广泛地应用于多个实际场景中。在解决许多复杂问题方面,深度学习的
表现已经超过了人类水平。但研究表明,深度学习模型容易受到对抗样本的攻击而产生不正确的输出,进而被攻击者加以利用,
这影响到实际应用系统的可靠性和安全性。面对对抗样本的不同攻击方法,本文从模型和数据两个方面对防御方法进行了分类,
总结了不同分类下防御方法的研究思路和研究进展,并给出了下一步对抗深度学习的发展方向。
关键词:深度学习;对抗样本;防御技术
中图法分类号:TP309.2 文献标识码:A
Survey of Defense of deep learning against adversarial
examples
Zhang Jianan
1
, Zhao Zhendong
1
, Xuan Jing
2,3
, Chang Xiaolin
1
(1.Beijing Key Laboratory of Security and Privacy in Intelligent Transportation, Beijing Jiaotong University, Beijing 100044; 2.Beijing Jingtou Zhuoyue
Technology Development Co., Ltd, Beijing 100101; 3.Beijing Jingtou Xin'an Technology Development Co., Ltd, Beijing 100101)
Abstract: The emergence of deep learning technology has brought breakthroughs in many fields, and it is widely used in
multiple real-world scenarios. In terms of solving many various complex problems, deep learning has outperformed humans.
However, studies have shown that the deep learning model is vulnerable to be attacksed by thefrom adversarial examples
and makes produces incorrect output, which is then exploited by the attacker to affect the reliability and security of the actual
application system. In the face of different attack methods of adversarial examples, this paper classifies the defense methods
from two aspects of model and data, summarizes the research ideas and research progress of defense methods under different
classifications, and gives the development direction of the next step of adversarial deep learning.
Keywords: machine learning; adversarial examples; defense technology
1 引言
近年来,深度学习理论技术不断成熟,在人工
智能、大数据分析以及安全检测等方面都取得了很
好的应用成果,它突破性地被应用在现实生活的很
多领域中,在促进社会进步层面起到了关键作用。
然而在带来便利的同时,深度学习本身也存在着一
定的安全问题。如敌手的攻击和数据隐私的问题,
这引起了安全领域的极大关注。
对抗样本指的是攻击者在数据集原始输入样本
通过添加人类无法察觉的细微扰动来形成新的输入
样本,导致模型以高置信度给出一个错误的输出,
以欺骗机器学习模型。2013 年,Szegedy 等人
[1]
首先
通过添加轻微扰动来干扰输入样本,使基于深度神
经网络(Deep neural network, DNN)的图片识别系统
输出攻击者想要的任意错误结果,此过程称为对抗
攻击(Adversarial attack)。研究人员表明,现代深
度神经网络模型极易受到人类视觉系统几乎无法察
觉的微小扰动的对抗攻击。这种攻击可以造成神经
网络分类器对原始图像进行错误预测。如果将其应
用于现实世界,如恶意代码检测、无人驾驶系统、
生物医学领域,将会带来极为严重的后果。
在之前的研究里,我们基于敌手知识和对抗特
异性对对抗样本的攻击方法进行了细致的分类,本
文根据前一部分研究提出的攻击方法,从模型和数
据两个方面对防御方法分类,分析总结了分类方法