利用反向梯度优化进行深度学习算法的中毒攻击研究

需积分: 16 1 下载量 54 浏览量 更新于2024-12-02 收藏 616KB ZIP 举报
资源摘要信息:"人工智能matlabmnist代码-Poisoning-Attacks-with-Back-gradient-Optimization:论文“ 人工智能与机器学习是当前科技领域的研究热点,特别是深度学习算法的应用广泛且效果显著,例如在图像识别、自然语言处理等领域。然而,随着研究的深入,深度学习算法的安全性问题逐渐凸显,其中之一就是对抗性攻击。本篇提供的代码资源主要关注于一类特殊的对抗性攻击——中毒攻击(Poisoning Attacks),特别是使用反向梯度优化方法对深度学习模型进行攻击。 在本文中,代码实现了基于MNIST数据集的中毒攻击示例。MNIST是一个包含手写数字的大型数据库,广泛用于训练多种图像处理系统。该代码集包含了三种攻击模型的实现:Adaline(自适应线性神经元)、Logistic回归以及小型多层感知器(MLP)。攻击者通过操纵输入数据(即添加特定的中毒样本),尝试使机器学习模型在训练过程中学习到这些恶意数据,导致模型在实际应用中产生误判。 对于实验准备,首先需要生成随机训练/验证拆分。这可以通过在“MNIST_splits”文件夹中运行脚本createSplits.m来完成。完成数据拆分后,可以使用testAttackAdalineMNIST.m、testAttackLRmnist.m和testAttackMLPmnist.m这三个脚本对上述三种模型分别进行攻击测试。这种攻击的目的是展示深度学习模型在面对精心设计的攻击样本时可能表现出的脆弱性。 此外,本文所提到的反向梯度优化是一种特定的优化技术,用于指导攻击者有效地选择中毒样本。通过反向梯度优化,攻击者可以计算出对模型参数影响最大的输入数据变化,这样就可以构造出能够有效干扰学习过程的样本。 在引用方面,如果将本文中的代码用于研究项目并发表了相关研究,应当按照指示给出相应的引用。这不仅表明了对原作者工作的尊重,而且也有助于维护学术诚信。 值得注意的是,本资源的标签为“系统开源”,这意味着所提供的代码资源是可以免费获取并按需修改使用的。这通常是为了促进学术交流和技术创新,让更多的研究者和开发者能够参与到深度学习安全性的研究中来。 该资源的文件压缩包名为“Poisoning-Attacks-with-Back-gradient-Optimization-master”,这表明所提供的资源是一系列文件的集合,可能包含多种脚本、代码文件、文档说明等,以帮助用户理解、部署和扩展该中毒攻击的实现。 总结来说,本资源提供了一套完整的工具和方法论,旨在帮助研究者更好地理解深度学习模型在对抗性样本面前的脆弱性,以及如何使用特定的技术进行攻击。这对于深度学习领域的安全性研究具有重要的意义。"

这一段讲的是什么:Abstract—A recent trojan attack on deep neural network (DNN) models is one insidious variant of data poisoning attacks. Trojan attacks exploit an effective backdoor created in a DNN model by leveraging the difficulty in interpretability of the learned model to misclassify any inputs signed with the attacker’s chosen trojan trigger. Since the trojan trigger is a secret guarded and exploited by the attacker, detecting such trojan inputs is a challenge, especially at run-time when models are in active operation. This work builds STRong Intentional Perturbation (STRIP) based run-time trojan attack detection system and focuses on vision system. We intentionally perturb the incoming input, for instance by superimposing various image patterns, and observe the randomness of predicted classes for perturbed inputs from a given deployed model—malicious or benign. A low entropy in predicted classes violates the input-dependence property of a benign model and implies the presence of a malicious input—a characteristic of a trojaned input. The high efficacy of our method is validated through case studies on three popular and contrasting datasets: MNIST, CIFAR10 and GTSRB. We achieve an overall false acceptance rate (FAR) of less than 1%, given a preset false rejection rate (FRR) of 1%, for different types of triggers. Using CIFAR10 and GTSRB, we have empirically achieved result of 0% for both FRR and FAR. We have also evaluated STRIP robustness against a number of trojan attack variants and adaptive attacks. Index Terms—Trojan attack, Backdoor attack

2023-07-24 上传