贝叶斯防御新解：LibRe——实战对抗检测的轻量化策略

61 浏览量更新于2024-06-17 收藏 752KB PDF 举报

贝叶斯对抗检测的实用方法——LibRe，是一项针对深度神经网络(DNN)对抗性攻击问题的研究。随着DNN在众多领域如图像分类、人脸识别和物体检测中的广泛应用，其对微小扰动的敏感性成为了安全领域的挑战。对抗性示例通过添加难以察觉的扰动，能够欺骗模型做出错误的预测，这主要源于DNN的非线性和黑盒特性。针对这一问题，LibRe提出了一个创新的解决方案，它将深度神经网络的最后几层转化为基于贝叶斯原则的模型。与传统的对抗防御策略相比，LibRe强调了实用性，力求在保持模型的泛化能力和效率之间找到平衡。通过贝叶斯神经网络(BNN)的思想，LibRe构建了一个轻量级的框架，能够赋予预训练的DNN抵御异构对抗攻击的能力，而无需过度牺牲性能。 LibRe的核心技术包括少层深度集成变分学习和预训练微调策略。前者是一种先进的学习方法，允许模型在保持对抗检测能力的同时，对模型进行优化，提升其在对抗样本上的表现。预训练微调则是在利用已有的模型参数基础上，进行针对性的调整，以增强模型对对抗攻击的适应性。此外，LibRe提供了一种新颖的不确定性量化方法，能够在不生成大量对抗样本的情况下，有效地评估输入的不确定性，从而更好地应对对抗攻击。这种方法避免了传统方法在训练过程中因对抗样本制作导致的效率低下问题。实证研究展示了LibRe在各种场景下的实用价值，通过广泛的数据集和细致的消融实验，证实了其模型和学习策略的优越性。这项工作不仅提升了对抗性安全性，也为后续的研究者提供了在实际应用中对抗攻击防护的新思路。总结来说，LibRe通过巧妙融合贝叶斯原理和深度学习技术，为深度神经网络对抗攻击提供了一种既有效又高效的解决方案，对于保障AI系统的鲁棒性具有重要意义。

974

我

标签，分别。由 w ∈R

参数化的深度神经网络

（DNN）经常通过

最大后验

估计（MAP）进行训练：

作为近似贝叶斯推理方法的一个谱，变分BNN由于其

与标准反向传播的相似性而特别有吸引力[20 ，2，

36，54，55，52，45]。一般来说，在变分BNN中，我

们引入一个变分

年

logp（y

;

）

log

（w）

，

（

1）

分布q（w| θ），并最大化学习的证据下限（ELBO）

（按

缩放

）：

其中p（y| x;w）是指DNN模型的预测分布。通过将先

验p（

）设置为各向同性高斯，第二项相当于L2（权

重de-1）。

最大

（

）

年

log

（

;w）

−

（

）

（

））

。

（三）

cay）的正则化

子

。

一般来说，对应于（

，

）的对抗性示例定义为：

推理。得到的后验q（w| θ）

为我们提供了稳健预

测的机会。为了计算的易处理性，我们通常通过以下

方式估计

后验预测

adv

arg min log

（

δ;w）

，

（

）

吨

我

δ∈S

我

（

，

）

（

）

[

（

;

）

]

不

p（y|

;

（

）

，

（4）

其中，

S={δ

：

≤

}

是有效扰动集，

其中

作为扰动预

算，并且·作为某个范数（例如，l

∞

）。广泛的攻击方

法已经开发出来

有希望解决上述最小化问题[19，40，4，57]，基于梯

度或不。

对抗性防御的中心目标是保护模型免受对抗性示例

adv

的不良决策。一个代表性的工作路线通过使用动态

生成的对抗性示例来增强训练数据并迫使模型

对他们做出正确的预测[41，67]。但它们有限的训练

效率和对干净数据的性能作为替代方案，对抗性检测

方法专注于将对抗性示例与正常示例区分开来，以便

绕过为对抗性示例做出决策的潜在有害结果[43，5，

39]。然而，令人满意的转移到看不见的攻击和任务的

图像分类仍然是难以捉摸的[38]。

3.2.

贝叶斯神经网络

其中

（

）

（

w| θ

）

，

= 1

，

表示蒙特卡

罗（

）样本。换句话说，

BNN

集合了所有可能

模型产生的预测，

和校准决策，与DNN形成鲜明对比，DNN只关心最可

能的参数点。

测量不确定性。对于对抗检测，我们感兴趣的是

认

知

不确定性，这是协变量转移的不确定性度量的一个

更好的选择是softmax

方差

，因为它以前在广告方面取

得了成功

图像分类中的对抗检测[14]和有洞察力的理论支持

[53]。然而，模型的softmax输出在推断期间可能不太

吸引人（例如，在开集人脸识别中），更不用说不是

所有的计算机视觉任务都可以被公式化为纯分类问题

（例如，对象检测）。为了使计量方法可靠并适用于

各种情况，我们

通过温和地假设模型内部的信息流

为

x→

−z

→

−

，来关

注对应于

的隐藏特征

的预测方差

。我们利用无偏

方差估计器，并通过以下方式将z的所有坐标的方差汇

总为标量

从本质上讲，区分敌对样本和良性样本的问题可以

被看作是一个特殊的分布外（OOD）检测问题。

（x）

−

电

子

邮

件

（

）

吨

不

（

）

（

）

、

（

五）

安全敏感场景中的典型问题-从这个意义上说，我们自

然地将BNN引入到图片中，这归功于它们的原则性

OOD检测能力以及与DNN相同的数据拟合灵活性。

建模和培训。典型地，BNN由参数先验p（w）和

NN实例化数据如- lihood p（

）指定

）。我们对参

数后验p（w）感兴趣|D）而不是DNN中的点估计。众

所周知，精确地导出后验是棘手的，这是由于：

神经网络的高度非线性。在广泛的

其中

（

）

表示在参数样本

（

）

（

）下

的特

征

）

，

，以

φ·

为

范数。

同时进行预

测和量化

，

不确定性通过等式（4）Eq.（5）测试时。

轻量级贝叶斯精化

尽管BNN在理论上很有吸引力，但由于其

训练效

率

、

预测性能

、

不确定性估计的质量

以及

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

贝叶斯防御新解：LibRe——实战对抗检测的轻量化策略

贝叶斯和KNN算法比较——基于Adult数据集.rar_KNN贝叶斯_adult_knn 贝叶斯_贝叶斯

数据挖掘中SVM模型与贝叶斯模型的比较分析——基于电信客户的流失分析.pdf

时间序列的贝叶斯突变检测算法MATLAB源码.doc

贝叶斯信号处理——经典、现代和粒子滤波方法

python贝叶斯边缘检测

贝叶斯检测算法检测暂态信号

贝叶斯检测csv中不良信息

贝叶斯变点检测matlab

贝叶斯网络和生成对抗网络有哪些共同点

贝叶斯估计与跟踪实用指南 pdf

最新资源