深度学习后门攻击检测与缓解：NeuralCleanse方法解析

需积分: 0 97 浏览量更新于2024-06-30 收藏 2.61MB PDF 举报

深度学习模型在近年来的广泛应用中扮演着核心角色，但其黑盒特性使其容易受到后门攻击，这种攻击通常通过隐藏的关联或触发机制，使得模型在遇到特定输入时产生意外结果。2019年IEEESymposium on Security and Privacy (SP)上的一项重要论文——"NeuralCleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks"，由Bolun Wang等人提出，针对这一问题提出了一个可靠且具有普适性的解决方案。论文首先介绍了背景，强调深度神经网络(DNNs)因其复杂性和非透明性，成为了后门注入的理想目标。后门攻击者可能在模型训练过程中植入恶意代码，使得模型在特定输入（如预定义的触发器）下失效或误分类。作者关注的问题是如何检测这些潜在的后门，并设计有效的缓解策略来保护模型免受此类威胁。该论文的核心部分分为几个部分。首先，作者定义了一个攻击模型，详述了后门攻击的实施方式和潜在影响。然后，他们阐述了防御策略的假设和目标，即构建一个系统，能够识别模型是否受到后门影响，并能够在检测到后门时进行有效的清理或修复。防御思路和综述部分，论文探讨了如何利用对抗样本技术和对模型行为的理解，设计出既能检测又能在一定程度上抵御后门攻击的策略。这包括了对模型内部机制的分析，以及如何利用这些信息来设计针对性的防御措施。在详细检测方法部分，作者详细描述了他们的NeuralCleanse算法，该算法通过分析模型对正常数据和包含触发器的数据的响应差异，来发现隐藏的后门行为。实验验证是论文的重要组成部分，作者构建了一套实验装置来测试NeuralCleanse的有效性，包括攻击模型的构建和真实环境下的后门检测性能评估。这篇论文提供了一种实用的方法来对抗深度学习模型中的后门攻击，为网络安全研究人员和从业者提供了一个有价值的参考框架。对于深度学习模型的用户和开发者来说，理解并应用这种技术有助于提高模型的安全性，确保在实际应用中能够应对潜在的安全威胁。

上的特定图案（如贴纸），它可能会将其他标签（如狼、鸟、海豚）的图像错误地分类到目标标签（如狗）中。

注意，后门攻击不同于针对DNN的对抗攻击[14]。对抗攻击通过对图像的特定修改而产生错误的分类，换句话说，当修改应用于其他图像

时，是无效的。相反，添加相同的后门触发器会导致来自不同标签的任意样本被错误分类到目标标签中。此外，虽然后门必须注入模型，

但在不修改模型的情况下，对抗攻击也可以成功。

补充知识——对抗样本

对抗样本指的是一个经过微小调整就可以让机器学习算法输出错误结果的输入样本。在图像识别中，可以理解为原来被一个卷积神

经网络（CNN）分类为一个类（比如“熊猫”）的图片，经过非常细微甚至人眼无法察觉的改动后，突然被误分成另一个类（比如“长

臂猿”）。再比如无人驾驶的模型如果被攻击，Stop标志可能被汽车识别为直行、转弯。

先前的后门攻击工作。

GU等人提出了BadNets，它通过恶意（poisoning）训练数据集来注入后门[12]。图1显示了该攻击的高度概述。攻

击者首先选择一个目标标签和触发器图案，它是像素和相关色彩强度的集合。图案可能类似于任意形状，例如正方形。接下来，将训练图

像的随机子集用触发器图案标记，并将它们的标签修改为目标标签。然后用修改后的训练数据对DNN进行训练，从而注入后门。由于攻

击者可以完全访问训练过程，所以攻击者可以改变训练的结构，例如，学习速率、修改图像的比率等，从而使被后门攻击的dnn在干净和

对抗性的输入上都有良好的表现。BadNets显示了超过99%的攻击成功率（对抗性输入被错误分类的百分比），而且不影响MNIST中的模

型性能[12]。

Liu等人提出了一种较新的方法（特洛伊攻击）[13]。他们不依赖于对训练集的访问。相反，通过不使用任意触发器来改进触发器的生成，

第4页共17页

剩余16页未读，继续阅读

daidaiyijiu

粉丝: 20
资源: 322

深度学习后门攻击检测与缓解：NeuralCleanse方法解析

Attacks in Cognitive Radio Networks

Must-read-papers-and-continuous-tracking-on-Graph-Neural-Network-GNN-progress:图神经网络（GNN）的论文

论文研究-Elman-style Process Neural Network and Its Learning Algorithm.pdf

pcl-adversarial-defense:在ICCV 2019中通过限制深度神经网络的隐藏空间进行对抗性防御

neural-networks-and-deep-learning-master.zip_Neural networks_dee

Joint-Entity-recognition-and-relation-Extraction-using-joint-neural-model

matlab代码abs-Universal-Graph-Embedding-Neural-Network:论文代码学习借助迁移学习实现强大的图

Boosted-EfficientNet-Detection-of-Lymph-Node-Metastases-in-Breast-Cancer-Using-Convolutional-Neural:我们的论文“ Boosted EfficientNet”的官方pytorch实施

Hierarchical-Recurrent-Neural-Networks-for-Speech-Bandwidth-Extension:论文编号

Multi-task-Physics-informed-neural-networks

最新资源