基于神经元归因攻击的对抗性迁移性提高

需积分: 0 2 下载量 173 浏览量 更新于2024-08-03 收藏 3.26MB PDF 举报
Improving Adversarial Transferability via Neuron Attribution-Based Attacks 本文主要讨论了深度神经网络(Deep Neural Networks,DNNs)中的对抗性攻击问题。作者提出了基于神经元 Attribution 的攻击方法,以提高对抗性样本的可迁移性。 首先,作者指出,深度神经网络在安全敏感应用中存在漏洞,容易受到对抗性攻击。为此,需要设计有效的攻击算法来识别 DNNs 的缺陷。然而,在黑箱设置中,目标模型的细节是未知的,攻击算法需要在不知道目标模型的情况下工作。 为了解决这个问题,作者提出了一种基于特征级别的攻击方法。这种方法通过污染本地模型的中间特征输出,然后使用这些crafted 对抗性样本来攻击目标模型。由于特征的可迁移性,基于特征级别的攻击方法可以生成更加可迁移的对抗性样本。 然而,现有的基于特征级别的攻击方法仍然存在一些限制。例如,如何选择合适的特征级别,以确保攻击的有效性?如何在不知道目标模型的情况下,设计高效的攻击算法? 为解决这些问题,作者提出了基于神经元 Attribution 的攻击方法。这种方法通过对神经元的贡献度进行评估,以确定对抗性样本的可迁移性。具体来说,作者使用神经元 Attribution 评估每个神经元对输出的贡献度,然后选择对输出影响最大的神经元,生成对抗性样本。 实验结果表明,基于神经元 Attribution 的攻击方法可以生成更加可迁移的对抗性样本,提高了攻击的有效性。此外,作者还讨论了基于神经元 Attribution 的攻击方法在实际应用中的潜力,例如在安全敏感应用中识别 DNNs 的缺陷。 本文提出了一种基于神经元 Attribution 的攻击方法,以提高对抗性样本的可迁移性。这种方法可以在安全敏感应用中识别 DNNs 的缺陷,提高了攻击的有效性。 知识点: 1. 深度神经网络(DNNs)中的对抗性攻击问题 2. 基于特征级别的攻击方法 3. 基于神经元 Attribution 的攻击方法 4. 神经元 Attribution 评估每个神经元对输出的贡献度 5. 对抗性样本的可迁移性 6. 安全敏感应用中的 DNNs 缺陷识别 本文对深度神经网络中的对抗性攻击问题进行了深入讨论,并提出了基于神经元 Attribution 的攻击方法,以提高对抗性样本的可迁移性。这对于安全敏感应用中的 DNNs 缺陷识别具有重要意义。