深度学习神经网络后门攻击研究综述

需积分: 16 61 浏览量更新于2024-08-04 1 收藏 695KB PDF 举报

“神经网络后门攻击研究，谭清尹，曾颖明，韩叶，刘一静，刘哲理，南开大学网络空间安全学院，北京计算机技术及应用研究所” 这篇学术文章主要探讨了神经网络后门攻击的相关研究，这是一种在人工智能安全领域中日益引起关注的问题。神经网络作为深度学习的核心组成部分，广泛应用于图像识别、自然语言处理等多种任务。然而，其潜在的安全隐患，尤其是后门攻击，可能导致模型在执行特定输入时产生预定义的错误结果，严重威胁到系统的安全性。文章首先定义了神经网络后门攻击的概念，它是指攻击者在训练神经网络模型的过程中，通过操纵训练数据或训练过程，在模型中隐藏恶意的触发模式。这种触发模式可以使模型在接收到特定输入（带有后门特征）时，按照攻击者的意愿产生错误输出，而不会影响其对常规输入的性能。接着，文章回顾了神经网络后门攻击的研究历程，从早期的发现到近年来的各种创新攻击方法。它总结了该领域的典型工作，包括数据中毒、模型注入等策略，这些策略通过篡改训练数据，使得模型在学习过程中不知不觉地包含后门。此外，文章还对后门攻击的分类进行了阐述，比如根据触发方式可以分为基于标签的后门和无标签的后门，根据攻击目标可以分为白盒攻击和黑盒攻击等。文章详细分析了几种典型的后门植入策略。例如，“Clean Label”攻击，攻击者不改变训练样本的标签，仅修改部分样本的内容，使得模型在学习过程中产生误导；“BadNet”攻击则是在训练数据中加入带有后门特征的样本，使得模型在学习这些特征的同时，也学会了后门行为。这些策略展示了攻击者如何巧妙地利用模型的训练过程来达到隐蔽且高效的目标。最后，作者对当前的研究状况进行了总结，并对未来的研究趋势进行了展望。目前，尽管已经提出了多种检测和防御神经网络后门的方法，但这一领域的挑战仍然很大，如如何更有效地检测隐藏的后门，如何设计更安全的训练机制，以及如何在不影响模型性能的前提下增强其抗攻击能力等。未来的研究可能会集中在开发新的防御策略、提高后门检测的准确性以及深入理解后门攻击的本质机制等方面。神经网络后门攻击是一个复杂且重要的课题，它涉及到人工智能安全的基础问题。这篇研究不仅提供了对该领域的全面理解，也为未来的研究者指明了可能的研究方向。随着深度学习应用的普及，确保模型的安全性和可靠性将变得越来越关键。

·48· 网络与信息安全学报第 7 卷

门前后的模型，其对触发输入以外的正常输入的

推理结果是否发生变化。

隐蔽性：用于评价后门攻击方法在实施中是

否不易为受害者发现。主要通过攻击方法的目标

场景及攻击实施方式进行评估。

现实性：用于评价后门攻击方法在现实是否

可操作，用于分析攻击方法的威胁。主要通过攻

击方法的目标场景及攻击能力设定进行评估。

抗检测性：用于评价后门攻击方法抗神经网

络后门检测算法检测的能力。

鲁棒性：用于评价后门攻击方法植入的后门

抗神经网络后门修复算法的能力。

3 研究现状

3.1 研究发展

对深度学习的广泛应用使其安全性愈发受人

重视。自神经网络后门攻击首次提出以来，大量

学者对此进行了深入研究，推动其不断向前发展。

按照神经网络后门攻击至今的发展，大概可以划

分为 3 个阶段：验证期、完善期、丰富期。

（1）验证期

这一阶段，神经网络后门攻击的概念首次出

现，对神经网络后门攻击的研究集中在可行性与

危害性的证明上。2017 年，Gu 等

[12]

在 BadNets

中首先将传统的后门攻击发展到神经网络模型领

域，证明了神经网络后门攻击的可行性与危害性，

但其假设学习模型和训练数据处于攻击者的控制

下，在实践中不太现实。同时期平行进行类似工

作的还有 Liu 等

[13]

的 Trojaning Attack，对模型进

行修改从而在神经网络中植入后门，在原始数据

上正确精度达到 96.58%，对原始训练数据以外的

数据正确精度达到 97.15%，同样证明了后门攻击

的可行性与危害性。

（2）完善期

在神经网络后门攻击的可行性与危害性得以

证明的情况下，学界对其表现的要求提高，相关

研究集中在完善其作为一种攻击手段应具备的性

质（如隐蔽性、现实性）上，追求提高其在相关

方面上的表现。

典型如 2018 年，Shafahi 等

[14]

提出

Clean-Label Attack，利用特征碰撞（feature col-

lision）生成毒样，使生成的毒样与正常样本类

似，可以被干净标注，提高了后门攻击的隐蔽

性。而 Zou

[15]

提出的 PoTrojan 在预训练模型中

插入后门，不需要修改模型架构和预训练参数，

也不需要进行重训练，一定程度上提高了攻击

的现实性。

（3）丰富期

在持续追求更优隐蔽性和现实性的同时，如

2019 年提出的 Transferable Clean-Label Poisoning

Attacks

[16]

，其基于 Clean-Label 的干净标注，发展

了特征碰撞方法，首次提出 ConvexPolytope 用于构

造毒样，实现攻击在不同模型间的可迁移，体现了

后门攻击对现实性的不断追求。

根据不同目标和不同场景，学术界对神经网

络后门攻击的攻击策略进行了“因地制宜”的研

究。在不同目标和场景下，攻击的特点和适用的

手段不尽相同，相关研究极大丰富了神经网络后

门攻击领域的内容。

例如，在联邦学习场景下，文献[17-18]等对

相应的神经网络后门攻击策略进行了研究；类似

地，文献[19-20]等对深度强化学习场景下的神经

网络后门攻击进行了深入分析。

另外，针对神经网络后门攻击的防御策略不

断发展，相应地，神经网络后门攻击的抗检测性

和鲁棒性也得到了重视。

Yao 等在文献[21-22]中描述了潜在后门程

序，潜在后门程序可以被嵌入“教师”模型中，

使“教师”模型在不存在的输出标签上被植入“潜

在”的触发器后门。这样的后门程序是未完成的，

可防止验证机制的检测

[23]

。当“教师”模型通

过迁移学习被“学生”模型继承学习时，后门

被完成并激活。该攻击在现实性、隐蔽性和抗

检测性上具有突出的优势。同样 Tan 在文献[24]

提出了可以根据各种后门防御算法定制攻击策

略的后门植入算法，提高了后门攻击的抗检测

性与鲁棒性。

3.2 典型研究工作

典型的神经网络后门攻击研究工作如表 1 所示。

可以看到，神经网络后门攻击的方式大体可

分为 3 种：数据中毒、模型操作与模型中毒；关

于攻击场景，对迁移学习场景下的研究较多，

剩余12页未读，继续阅读

trickedout

粉丝: 0
资源: 1

深度学习神经网络后门攻击研究综述

基于卷积神经网络的Webshell检测方法研究.pdf

RSA后门证明和应对方案.pdf

神经网络在计算机网络安全评价中的应用 (4).pdf

深度学习赋能的恶意代码攻防研究进展.pdf

人工免疫原理在Linux网络安全中的应用.pdf

数据挖掘技术的计算机网络病毒防御技术探索.pdf

云端智能时代的工业互联网解决方案.pdf

一种深度学习的硬件木马检测算法.pdf

基于深度学习和半监督学习的webshell检测方法.pdf

人工智能行业产业观察07期：安全可控AI，安全的“A”，可控的“I”-0324-国泰君安-37页.pdf

最新资源