深度神经网络易受普遍扰动攻击：图像误分类风险

PDF格式 | 1.19MB | 更新于2025-01-16 | 186 浏览量 | 举报

本文主要探讨了深度神经网络分类器在面对普遍扰动时的脆弱性。"泛对抗扰动"这一概念被引入，指的是对于任何给定的最先进的深度学习模型，存在一种小型且图像不可知的扰动，能够在自然图像上以很高的概率诱导分类错误。研究者发现，即使这种扰动极其微小，几乎难以被人眼察觉，却能够显著影响深度神经网络的判断。作者们开发了一种系统算法来计算这些普遍扰动，结果显示，即使是高度复杂的深度神经网络，也容易受到这类攻击。实验数据显示，它们揭示了分类器在高维决策边界之间的几何关联性，这暗示着潜在的安全威胁。攻击者只需在输入图像的方向上施加这种扰动，就可能破坏大量自然图像的分类结果，这是一种潜在的输入空间攻击向量。文章通过具体示例（如图1所示）生动地展示了这个现象：一个微小的普遍扰动图像能够改变深度神经网络对原始图像的预测标签，哪怕是在视觉上几乎察觉不到的变化。这种情况在深度学习模型应用于实际、可能带有恶意的环境中显得尤为关键，因为它预示着模型可能面临现实世界的潜在安全漏洞。作者们强调，这种普遍扰动的存在提醒我们，深度学习模型在面对未知的输入时可能存在漏洞，需要在设计和部署时充分考虑安全性。他们提供的代码和演示视频提供了深入研究和防御这类攻击的实用资源。这篇论文引发了关于深度学习模型鲁棒性与安全性的深入讨论，对防范此类攻击具有重要的理论和实践意义。

1765

泛对抗扰动

赛义德-穆赫辛·穆萨维-德兹富

利

epfl.ch

Omar Fawzi

邮箱：omar. ens-lyon.fr

AlhusseinFawzi

hussein. gmail.com

帕斯卡·弗罗

萨尔

pascal. epfl.ch

摘要

给定一个最先进的深度神经网络分类器，我们展示

了一个通用的（图像不可知的）和非常小的扰动向量

的存在，它导致自然图像被错误分类的概率很高我们

提出了一种用于计算普遍扰动的系统算法，并表明最

先进的深度神经网络非常容易受到这种扰动的影响，

尽管人眼几乎无法察觉我们进一步实证分析了这些普

遍扰动，特别是普遍扰动的惊人存在揭示了分类器的

高维决策边界之间的重要几何相关性它进一步概述了

潜在的安全漏洞，在输入空间中存在单一方向，对手

可能会利用它来破坏大多数自然图像上的分类器。

介绍

我们能否找到

一个

小的图像扰动，在所有自然图像

上欺骗最先进的深度神经网络分类器？在本文中，我

们表明存在这样的准不可感知

的普遍

扰动向量，导致

误分类自然图像的概率很高。具体地说，通过向自然

图像添加这样一

个准不可感知的

扰动，由深度神经网

络估计的标签， ral网络以高概率发生变化（见图

1）。①的人。这种扰动被称为

普遍

的，因为它们是图

像不可知论的。当分类器被部署在真实世界（并且可

能是敌对的）环境中时，这些扰动的存在是有问题

的，因为它们可以被对手利用的确，

前两位作者对本书的贡献相当

瑞士洛桑理工学院

里昂

市，LIP，UMR 5668 ENS Lyon - CNRS - UCBL -INRIA，

法国里昂大学

代码可从https://github.com/LTS 4/universal下载。

可以在https://youtu.be/jhOu5yhe0rc上找到演示。

图1：当添加到自然图像时，通用扰动图像会导致图像

被深度神经网络错误分类

左图：原始

的自然图像。标

签显示在每个箭头的顶部。

中央图像：宇宙

微扰。

右

图：扭曲

的图像。扰动图像的估计标签显示在每个箭

头的顶部。

操纵杆

吉娃娃

杰

伊

脱粒机

拉布拉

多

拉布拉

多

藏獒

灰蝶科

长吻布拉班孔

球囊

拉布拉多

边境犬

喜花花

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

深度神经网络易受普遍扰动攻击：图像误分类风险

关于深度神经网络目前发展的研究.pdf

人脑肺炎CT图像——图像分类数据集

颜色分类leetcode-DeepExplain:用于深度神经网络可解释性的扰动和基于梯度的归因方法的统一框架。DeepExplain还包括对

注意力机制结合深度学习分类器

图像领域的最新研究进展

cifar-10对抗攻击代码

深度学习 遥感图像 目标识别

基于深度学习的图像搜索

直观观察图像中的噪声

最新资源

深度学习遥感图像目标识别