属性生成模型：语义对抗攻击的新视角

85 浏览量更新于2025-01-16 收藏 1.56MB PDF 举报

"本文主要探讨了语义对抗攻击在深度学习分类器中的应用，强调了在有限的属性修改情况下，如何生成对抗性示例来愚弄分类器。研究指出，传统对抗性攻击主要关注全局像素空间的微小扰动，而语义对抗攻击则聚焦于改变输入图像的特定属性，例如人脸图像的头发颜色或眼镜等，从而产生自然且能误导分类器的新输入。文章介绍了新提出的属性生成模型，并展示了在人脸识别任务上的应用实例。作者们还对攻击的有效性进行了合成数据和真实数据的评估，并与其他现有攻击方法进行了比较，提供了理论证明和实验结果。该研究受到多个机构的资助，并且得到了NVIDIA公司GPU的硬件支持。" 在深度学习领域，对抗性样本是一个重要的安全问题。传统的对抗性攻击通过在输入图像上添加人眼难以察觉的噪声来误导模型，这些噪声通常受到像素空间内的P-P-范数限制。然而，这种攻击方式并不反映真实世界中的情况，因为对手可能无法完全控制所有像素。因此，语义对抗攻击引入了一个新的视角，即只改变输入图像的某些特定属性，如颜色、纹理或形状，这些改变在视觉上更为自然，但仍可能导致分类错误。文中提到的人脸图像为例，不变特征如面部结构代表了个体的身份，而可变属性如发型、妆容或配饰可以被用于构建对抗性示例。通过优化属性生成模型，可以在保持图像整体感知自然的同时，改变这些属性，从而生成可以混淆深度分类器的输入。这种方法不仅揭示了深度神经网络的脆弱性，也为提高模型的鲁棒性提出了新的挑战。作者们实施了一系列实验，包括在合成数据集和真实人脸图像上对攻击的有效性进行评估，并对比了其他已知的对抗性攻击策略。这些比较有助于理解语义对抗攻击的独特性和潜在优势。此外，他们还提供了理论上对这种参数对抗性的证明，进一步证实了在特定属性变换下的对抗性样本确实存在。这篇论文对语义对抗攻击的探索加深了我们对深度学习模型在实际环境中的局限性的理解，同时也为未来的研究指明了方向，即如何设计更健壮的模型来抵御这类攻击。未来的研究可能会集中在开发防御策略，以增强模型对语义对抗示例的抵抗力，同时保持其在正常输入上的高性能。

4775

→

原始

分类器

推子网

络

语义对抗

示例

女性

对抗性

推子网络

enc

（

）

dec

（z，a）

男性

属性

向量

一

（眼镜）

对抗性损失

图2.

一个单属性的对抗性衰减器网络。语义对抗攻击框架优化对抗损失以生成对抗方向。通过衰减器网络相对于属性向量

a反

向传播对抗方向

，确保对抗示例仅针对该特定属性生成。在这里，对抗算法通过优化

在女性的脸上

生成眼镜，

从而迫使性别

分类器将图像误分类为男性。

空间这种方法会产生更Athalyeet al[2] Liuet al. [35]使用

3D空间中的几何表面优化来创建对抗性示例。Zhang

等人[71]证明存在可以伪装车辆的逆向设计Zhao等人

[72]通过使用GAN的参数输入潜在空间生成对抗示例

[18]。Xiao等[65]采用空间变换来扰动图像几何形状以

创建对抗性示例。Sharif等人[55]提出了一种生成模型

来改变带有眼镜的面部图像，以便混淆面部识别分类

器。与这些方法相反，我们考虑使用预训练的多属性

生成模型来将输入转换为多个属性以生成对抗性示例

的逆方法。

Song等人[57]优化con-gAN的潜在空间，为性别分类

器生成不受限制的对抗性虽然我们的方法在主题上是

相似的，但我们在能够为给定的测试样本生成对抗性

对应物我们在下面讨论关于这种多属性生成模型的相

关文献。

基于属性的条件生成模型：生成对抗网络（GAN）[18]

是一种从真实世界的数据分布中生成样本的流行方

法。GAN的最新进展[49，36，64，6Chen等人[6]引入

属性学习生成模型的概念，其中视觉特征由输入向量

参数化。

Perarnae等人[48]使用条件生成广告网络[40]和编码

器来学习属性

用于属性编辑的不变潜在表示。衰减器网络[30]使用

具有潜在延迟的自动编码器对此进行了改进。He等人

[20]认为这样的属性不变约束过于紧缩，并将其替换

为属性分类约束和重构损失，以仅改变保留属性排除

特征的期望属性这些模型主要用于生成各种各样的面

部图像。我们在理解神经网络的泛化属性的背景下为

这种属性模型提供了一个次要的（也许是实际的）用

例。

语义攻击

从概念上讲，产生给定输入的对抗性语义（ “自

然”）扰动取决于两个算法组件：（i）导航输入图像

的参数变换的流形的能力，以及（ii）在该流形上执行

最大化关于给定目标模型的分类损失的优化的能力。

我们在下面详细描述每个组件。

符号：我们假设一个白盒威胁模型，其中对手可

以访问目标模型

（

）

：

，

1和与之相关的梯度。该模型将输入图像x分类为c

类之一，由

独热输出标签

。在本文中，我们专注于二元分类模型

（c

），同时注意到我们的框架透明地扩展到多类模

型。设G（

，

）：

表示参数变换，条件

是参数向量，

.这里，

的每个元素（比如a

）都是一

个实数，对应于特定的语义属性。例如

，

可以对应

于面部毛发，其中零值（或负值）表示在给定面部示

例上不存在毛发，并且正值表示在给定面部示例上存

在毛发。我们定义了一个语义上的反对者-

（

）

（

）

剩余12页未读，继续阅读

cpongm

粉丝: 6

属性生成模型：语义对抗攻击的新视角

生成对抗网络模型

生成模型-生成对抗网络1

机器人对抗纵深防御安全解决方案.pdf

公共密文测试的实用直接选择密文安全密钥策略基于属性的加密

提升模型鲁棒性与泛化性的生成对抗训练方法

从对抗攻击到模型鲁棒性：深度学习安全研究的终极指南

【图像处理技术深度解析】：在天池比赛中对抗伪造人脸攻击

【NLP中的对抗策略】：对抗训练在自然语言处理中的应用

Python深度学习高级话题：生成对抗网络（GANs）入门

生成对抗网络（GANs）原理：创意与鉴别艺术的融合

最新资源