机器学习中的范数规则化之L0、L1与L2范数_l1范数 - CSDN文库

范数规则化

5星 · 超过95%的资源需积分: 44 130 浏览量更新于2023-03-16 评论 10 收藏 757KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

机器学习中的范数规则化之（一）L0、L1 与 L2 范数

监督机器学习问题就是“minimizeyour error while regularizing your parameters”，也就是在

规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据，而规

则化参数是防止我们的模型过分拟合我们的训练数据。

然而参数太多，会导致我们的模型复杂度上升，容易过拟合，也就是我们的训练误差会

很小。但训练误差小并不是我们的最终目标，我们的目标是希望模型的测试误差小，也就是

能准确的预测新的样本。所以，我们需要保证模型“简单”的基础上最小化训练误差，这样得

到的参数才具有好的泛化性能（也就是测试误差也小），而模型“简单”就是通过规则函数来

实现的。

另外，规则项的使用还可以约束我们的模型的特性。这样就可以将人对这个模型的先验

知识融入到模型的学习当中，强行地让学习到的模型具有人想要的特性，例如稀疏、低秩、

平滑等等。要知道，有时候人的先验是非常重要的。对机器学习也是一样。

还有几种角度来看待规则化的。规则化符合奥卡姆剃刀(Occam's razor)原理：在所有可

能选择的模型中，我们应该选择能够很好地解释已知数据并且十分简单的模型。从贝叶斯估

计的角度来看，规则化项对应于模型的先验概率。民间还有个说法就是，规则化是结构风险

最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。

一般来说，监督学习可以看做最小化下面的目标函数：

其中，第一项 L(y

i

,f(x

i

;w))衡量我们的模型（分类或者回归）对第 i 个样本的预测值 f(x

i

;w)

和真实的标签 y

i

之前的误差。因为我们的模型是要拟合我们的训练样本的，所以我们要求

这一项最小，也就是要求我们的模型尽量的拟合我们的训练数据。但要保证训练误差最小和

模型测试误差小，所以我们需要加上第二项，也就是对参数 w 的规则化函数 Ω(w)去约束我

们的模型尽量的简单。

其实，机器学习的大部分带参模型都和这个不但形似，而且神似。是的，其实大部分无

非就是变换这两项而已。对于第一项 Loss 函数，如果是 Square loss，那就是最小二乘了；

如果是 Hinge Loss，那就是著名的 SVM 了；如果是 exp-Loss，那就是牛逼的 Boosting 了；

如果是 log-Loss，那就是 Logistic Regression 了；还有等等。不同的 loss 函数，具有不同的

拟合特性，得就具体问题具体分析的。

规则化函数 Ω(w)也有很多种选择，一般是模型复杂度的单调递增函数，模型越复杂，

规则化值就越大。比如，规则化项可以是模型参数向量的范数。然而，不同的选择对参数 w

的约束不同，取得的效果也不同，但我们在论文中常见的都聚集在：零范数、一范数、二范

数、迹范数、Frobenius 范数和核范数等等。不同的范数其作用和意义不同，下面将详细介

绍。

一、L0 范数与 L1 范数

L0 范数是指向量中非 0 的元素的个数。如果我们用 L0 范数来规则化一个参数矩阵 W

的话，就是希望 W 的大部分元素都是 0。就是让参数 W 是稀疏的。

L1 范数是指向量中各个元素绝对值之和，又称“稀疏规则算子”（Lasso regularization）。

为什么 L1 范数会使权值稀疏？因为“L1 范数是 L0 范数的最优凸近似”。完整的回答是：

任何的规则化算子，如果他在 W

i

=0 的地方不可微，并且可以分解为一个“求和”的形式，那

么这个规则化算子就可以实现稀疏。这说是这么说，W 的 L1 范数是绝对值，|w|在 w=0 处

是不可微，但这还是不够直观。这里因为我们需要和 L2 范数进行对比分析。关于 L1 范数

的直观理解见第二节。

既然 L0 可以实现稀疏，为什么不用 L0，而要用 L1 呢？个人理解一是因为 L0 范数很

难优化求解（NP 难问题），二是 L1 范数是 L0 范数的最优凸近似，而且它比 L0 范数要容

易优化求解。

一句话总结：L1 范数和 L0 范数可以实现稀疏，L1 因具有比 L0 更好的优化求解特性而

被广泛应用。

为什么要稀疏？让我们的参数稀疏有什么好处呢？分析如下：

1）特征选择(Feature Selection)：

稀疏规则化优点一个关键原因在于它能实现特征的自动选择。一般来说，x

i

的大部分元

素（也就是特征）都是和最终的输出 y

i

没有关系或者不提供任何信息的，在最小化目标函

数的时候考虑 x

i

这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，

这些没用的信息反而会被考虑，从而干扰了对正确 y

i

的预测。稀疏规则化算子可以实现特

征自动选择，通过学习滤掉没有信息的特征，把这些特征对应的权重置为 0。

剩余14页未读，继续阅读

评论4

jepco1

2018-06-30

这个资料不错，从这个角度看一些论文思路清楚了

曼陀罗彼岸花

粉丝: 2906
资源: 23

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈