无梯度优化在黑盒对抗样本设计中的新应用

183 浏览量更新于2024-06-20 收藏 644KB PDF 举报

"本文主要探讨了在无梯度优化环境下设计黑盒对抗样本的方法，针对机器学习模型的威胁模型进行研究。文章提出了两种新的黑盒攻击生成策略——ZO-ADMM和BO-ADMM，结合了零阶优化与贝叶斯优化，适用于没有梯度信息的场景。实验证明，这两种方法在功能查询复杂度上优于当前最先进的攻击方法，同时保持了较高的攻击成功率。对抗性攻击的研究对于揭示深度神经网络（DNN）的脆弱性以及构建更健壮的机器学习模型至关重要，特别是在安全性要求高的领域，如人脸识别、自动驾驶和恶意软件检测。尽管大部分早期工作集中在白盒攻击，即对手拥有完整的目标系统知识，但本文关注的是更现实的黑盒威胁模型，其中攻击者只能通过有限的查询接口与模型交互。" 在深度学习的广泛应用背景下，对抗性样本的研究显得尤为重要。对抗性攻击可以被看作是一种测试机器学习模型鲁棒性的手段，它们通过向原本能正确分类的输入中添加微小扰动，使模型产生误判。这种现象对于那些依赖于DNN的高风险应用来说，是不可忽视的安全问题。例如，在自动驾驶系统中，一个微小的图像篡改可能导致车辆识别错误，从而引发事故。针对黑盒对抗样本设计，本文提出的ZO-ADMM和BO-ADMM方法利用无约束优化和算子分裂技术来应对无梯度信息的挑战。ADMM（交替方向乘子法）是一种有效的优化工具，而结合零阶优化（通过函数值而非梯度信息进行优化）和贝叶斯优化（通过概率模型来选择最有可能导致最优解的查询点），使得在不完全了解模型内部结构的情况下也能有效地进行攻击。实证评估显示，这些新方法在保持高攻击成功率的同时，减少了对目标模型的查询次数，这对于减少攻击成本和提高攻击效率具有重要意义。此外，源代码的公开也促进了其他研究人员对该领域的进一步探索和改进。这篇论文为黑盒对抗性攻击的研究开辟了新的道路，有助于提升对抗性攻击的效率，同时也提醒我们在设计和部署机器学习模型时必须考虑其在对抗环境中的表现，以确保模型的稳定性和安全性。这不仅有助于推动机器学习模型的防御策略发展，也为构建更加安全可靠的人工智能技术奠定了基础。

123

{

{}

试图减小扰动（即，最小化失真），同时通过停留在

错误分类的类和真实类之间的边界上来保持对抗性。

然而，由于需要大量的查询来减少失真，它具有高计

算复杂度，并且它也不能保证收敛。与文献[5]不同的

是，文献[9]将硬标签黑箱攻击描述为一个实值优化问

题，该问题通常是连续的，可以用零阶优化算法求

解。类似地，[16]解决了在硬标签黑盒设置中找到普遍

（图像不可知）扰动的问题。

在本文中，我们将介绍一种有趣的基于ADMM的对

抗性黑盒攻击的重新表述，包括ZO-ADMM [26]，它

具有ADMM和BO-ADMM的算子分裂优势，可以借助

高斯过程降低查询复杂度。

问题公式化

在这项工作中，我们专注于DNN图像分类应用中的

对抗攻击在下文中，我们首先提供了一个对抗性攻击

的一般问题公式，它适用于白盒或黑盒设置。然后，

我们将为更有趣的黑箱设置开发一个有效的解决方

案，其中对手只能访问DNN模型的某些类型的输出

（其内部结构和配置是未知的）。

对手）。具体地说，给定一个合法图像

∈

，其正确

的类标签为t

，我们的目标是设计一个最优的对抗性扰

动δ∈R

，使得扰动后的检查-

在获得对抗性扰动之后，从而保持扰动不可感知。更

具体地说，如果k太小，我们可能无法获得成功的对抗

示例。因此，我们需要增加

攻击力

来实现成功的对抗

性攻击。但是，由于

扰动

只限制了扰动的最大元素，

因此在大

扰动的

情况下，图像上的整个扰动可能相对

较大并且容易被识别。因此，问题（1）中的D（

）

项有助于最小化整个扰动的

Dupp

在本节的剩余部分，我们将讨论损失函数

（

，

）的可能选择。请注意，不失一般性，我们只关注

指定目标类

的

有针对性的攻击，以误导

DNN

，因为

目标攻击版本可以很容易地实现类似

于目标攻击

[6]

。

我们还强调，在黑盒设置中，

（x

，

）的梯度不能

像在白盒设置中那样直接获得。损失函数

（

，

）

的形式取决于不同黑盒反馈设置中的约束信息。特别

是，基于分数（第

3.1

节）和基于决策（第

3.2

节）的

攻击的定义以及它们的损失函数将在下面的小节中

讨论。

3.1.

分数攻击

在基于分数的攻击设置中，对手能够对DNN进行查

询以获得软标签（即，属于不同类别的图像的分数或

概率），而关于梯度的信息不可用。在基于得分的攻

击中，问题（1）的损失函数为：

ple

（x

+δ）被误分类为目标类

，

DNN模型在合法图像上训练诉讼辩护

（x

，

）= max max

logP

（x

）

}

扰动

可以通过求解一般形式的问题来获得

logP

（x

）

，

−

}

，

（

）

尽量减

少

（

，

）+

γD

（

）

（一）

这是由[6]激发的，并且在白盒攻击中产生最知名的性

能。P

（x）

表示目标

受（

）∈[0

，

<$∞

≤

，

其中

（x

，

）表示将（x

）错误分类为目标类

所

导致的攻击损失，

（

）是控制合法图像和对抗示

例之间的感知相似性的失真函数，并且

λ·

∞

表示

∞

范数。在问题（

）中，

直到预定义

的失真

容忍阈值都是不可感知的，并且非

负参数γ强调失真。此外，在上述问题中，我们主要设

置

D（

）

<$δ<

，这是由优秀的C& W <

对抗攻击

的优越性能所激发的。我们强调D（

）可以采用4.1节

中讨论的其他形式的

DNP

问题（1）是文[18，19]中不考虑D（δ）项的问题的

一般形式。其优点是我们能够最大限度地减少

非

线性

失

真

模型基本

上，这意味着

（

，

）= 0，如果

（

）

是

在所有类别中最大，这意味着扰动

成功地将目标模型

错误分类为目标类

。否则，

它将大于零。注意，在

Eqn.

（

）使用对数概率

log

（x）而不是直接使用实际概率

（x）。这是基于这

样的观察：输出概率分布

倾向于具有一个主导类，使得对概率/分数的查询不太

有效。对数算子的使用可以帮助减少支配类的影响，

同时保持所有类的概率顺序。

3.2.

决策攻击

与基于得分的攻击不同，基于决策的攻击更具挑战

性，因为对手只能

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无梯度优化在黑盒对抗样本设计中的新应用

黑盒测试用例设计方法

基于空间及能量维度的黑盒对抗样本生成方法.docx

GenAttackMCS2018: 改进实现无梯度优化的黑盒对抗攻击方法

基于噪声初始化、Adam-Nesterov方法和准双曲动量方法的对抗样本生成方法.docx

基于网络结构自动搜索的对抗样本防御方法研究.docx

对抗样本攻击

自然语言处理的对抗样本

adversarial_examples:对抗样本

对抗样本生成入门文献系统整理

基于噪声初始化和先进优化算法的对抗样本生成方法研究

最新资源