深度学习BNN的Lipschitz连续性与鲁棒性增强

84 浏览量更新于2024-06-19 收藏 1.56MB PDF 举报

"本文探讨了神经网络的Lipschitz连续性在二元神经网络(BNN)中的应用，以及如何通过保留Lipschitz连续性来增强模型的鲁棒性。研究团队提出了一种新的正则化方法，针对BNN的特殊性设计，能够在不精确计算Lipschitz常数的情况下逼近权重矩阵的谱范数，从而提升模型的鲁棒性。实验结果显示，这种方法在CIFAR10和ImageNet数据集上实现了最先进的结果，并在ImageNet-C的鲁棒性测试中表现出色。" 文章详细介绍了神经网络领域的一个关键问题，即如何在降低模型复杂度的同时保持其性能和鲁棒性。二元神经网络因其高效和节省资源的特点，成为神经网络压缩的一种流行手段。然而，二值化的权重向量可能会导致量化误差，影响网络的性能。为了解决这个问题，研究者引入了Lipschitz连续性作为衡量模型鲁棒性的严格标准。 Lipschitz连续性是一种函数性质，确保了函数值的变化不会超过输入变化的某个固定倍数，这个倍数就是Lipschitz常数。在深度学习中，具有较小Lipschitz常数的模型通常更具鲁棒性，因为它们对输入的小扰动更不敏感。尽管Lipschitz连续性对于BNN的鲁棒性很重要，但直接应用常规的Lipschitz正则化方法在BNN中常常失效，主要原因是这些方法依赖于权重矩阵的稀疏性，而BNN的二值权重不具备这种特性。为此，研究团队提出了一种创新的策略，通过保留矩阵来近似权重矩阵的谱范数，以此作为BNN的Lipschitz常数的代理，而不需进行NP-困难的精确计算。这种方法不仅简化了计算过程，还能有效增强BNN的鲁棒性。实验部分展示了该方法的有效性，它在CIFAR10和ImageNet基准测试上取得了最先进的性能，并且在ImageNet-C的鲁棒性挑战中表现出优于其他方法的抵抗力。关键词涵盖神经网络压缩、网络二值化以及Lipschitz连续性，表明这篇论文深入研究了二值神经网络的优化与鲁棒性增强，特别是在利用Lipschitz连续性这一数学工具上的创新实践。论文的作者来自不同国家的知名高校和研究机构，其研究成果可供对深度学习模型压缩和鲁棒性感兴趣的读者参考。

+v：mala2255获取更多论

文

−→

∥

∈ ∈

−

∥ ∥ ∥

∥

−→

∥ ∥ ∥∇ ∥

∥·∥

∥

Lipschitz连续保持二元神经网络5

二元神经网络在

这里，我们重新审视了[7]中的一般基于梯度的方法，该

方法维护用于梯度更新的全精度潜变量W

，

将第

个

权矩阵

二值化为±1个二值权矩阵

由

一个

二值化函数（通常

为

sgn

（

））

表示

为

sgn

（

）。

然后，

第k层的映射由A

k−

产生，并且通过将该过程迭代L次来执

行二值化的整个前向传递

Lipschitz

常数（定义

）。

一个函数

：

称为

Lipschitz连续的，如果存在一个常数

使得：

<$x

，

y∈R

，

（x）−

（y）<

≤

<$x−y<

，

（2）

其中x

，

y表示函数

的两个随机输入。满足不等式的最小

是函数

的

Lipschitz常数，记为

Lip

。通过定义1，

Lip

可以上界输入Pertur之间的比

率，在给定的距离内（通常是L2范数），它可以被看作是一个度量

来评估神经网络的鲁棒性[45，43，46]。

在下面的部分中，我们提出了我们的Lipschitz连续性保留方案（第

3.2），其中BNN被强制接近其FP对应物的Lipschitz常数。此外，我们

还介绍了用于优化二进制网络的损失函数和梯度近似（Sec.3.3）。最

后，我们讨论

了

LCR

和Lipschitz连续性之间的关系，并将我们的方法

与著名的谱归一化[36]（Sec.3.3）。

3.2

Lipschitz

连续性保留程序

我们的目标是保持Lipschitz常数在一个适当的水平。在实践中，我们

需要拉

利普

和

Lip

紧密地稳定BNN的Lipschitz常数。然而，计算神

经网络的精确Lipschitz常数是NP 困难的[47]，特别是涉及二值化过

程。为了解决这个问题，我们提出通过引入由相邻激活产生的保留矩

阵序列来绕过精确的Lipschitz常数计算，然后通过幂迭代方法计算它

们的谱范数以形成LCR损失，以保持BNN的Lipschitz连续性，如图1所

示。

神经网络的

Lipschitz

常数

我们

用权重矩阵W

，

（）对第k层的仿射

函数进行分段，映射

−

，其中

k−

和a

是由（k）产生

的激活 1）-th和第

层。基于补充材料中的引理1，

Lip

sup

（a）

，其中

是矩阵谱范数，形式上定义为：

Sunda

max

：

X102

= max

100%

≤

（3）第一次见面

。

其中矩阵W的谱范数等价于其最大奇异值。因此，对于

，基于补充

材料中的引理2，其

∥

剩余22页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习BNN的Lipschitz连续性与鲁棒性增强

matlab代码实现神经网络Lipschitz常数估计

不连续神经网络鲁棒状态估计：含时变延迟与局部Lipschitz条件

2010年扩散反应脉冲神经网络鲁棒稳定性研究

lipschitz-neural-networks:“通过增强Lipschitz连续性对神经网络进行规则化”中所述的用于运行实验的代码

matlab代码sqrt-LipSDP:LipSDP-神经网络的Lipschitz估计

LipschitzRNN：Lipschitz递归神经网络

一般神经网络架构进行 Lipschitz 常数估计matlab代码.zip

局部Lipschitz连续函数差的刻画 (2014年)

Rn 神经网络的鲁棒指数稳定性

Cohen-Grossberg神经网络的稳定性分析与逆Lipschitz函数

最新资源