机器学习：范数规则化与防止过拟合

需积分: 0 85 浏览量更新于2024-08-05 收藏 2.2MB PDF 举报

"本文主要探讨了机器学习中的范数规则化问题，特别是L0、L1、L2和核范数规则化在防止过拟合和提升模型泛化能力方面的作用。作者指出，规则化是确保模型简洁并具有良好泛化性能的关键，同时也能够根据先验知识约束模型特性。此外，文章提到了规则化与奥卡姆剃刀原则、贝叶斯估计以及结构风险最小化的关联。" 在机器学习中，范数规则化是一种常见的技术，用于防止过拟合，提高模型的泛化能力。过拟合发生时，模型过于复杂，过度适应训练数据，导致在新样本上的预测效果较差。为了解决这个问题，引入了规则化项，它是在模型的损失函数中添加一个惩罚因子，限制模型参数的复杂性。 L0范数表示参数向量中非零元素的个数，理想情况下，L0范数越小，模型的稀疏性越好，即模型中非零参数的数量较少，有利于特征选择。然而，L0范数的优化问题是NP难问题，不易求解。相比之下，L1范数（也称为拉普拉斯范数）是参数向量中所有元素绝对值之和。L1范数的优化相对更容易，且通常能诱导出稀疏解，因此常用于特征选择和压缩。L1规则化通过惩罚模型参数的绝对值，倾向于产生一些接近零的参数值，从而达到稀疏化的效果。 L2范数（也称为欧几里得范数）是参数向量中所有元素平方和的平方根。L2规则化通过对参数的平方和进行惩罚，防止参数过大，有助于避免模型过拟合，保持模型的稳定性。L2规则化下的模型通常不会产生稀疏解，而是所有参数都较小但不为零。核范数规则化通常应用于矩阵分解或机器学习中的核方法，如支持向量机（SVM）。它针对矩阵，计算其所有元素的平方和，有助于降低模型的复杂度，特别是在高维空间中寻找低秩解决方案，如在协同过滤中减少推荐系统的维度。规则化项的选择取决于具体任务和先验知识。对于希望获得稀疏解的任务，如特征选择，L1规则化更为合适；而对于需要保持模型稳定性的场景，L2规则化更常见。此外，还可以结合L1和L2范数，形成Elastic Net，它同时鼓励稀疏性和整体模型的平滑性。从贝叶斯角度，规则化项可以被视为模型参数的先验概率分布，这种先验信息有助于指导模型学习的方向。另一方面，规则化也可以被视为结构风险最小化策略的体现，通过在经验风险（即训练误差）上增加正则化项，以期望降低未来的预测风险。范数规则化是机器学习中至关重要的组成部分，它帮助我们在追求模型对训练数据的拟合度和泛化能力之间找到平衡，同时也为我们提供了将领域知识融入模型的机会。正确理解和应用规则化技术，能够有效地提升模型的性能，减少不必要的复杂性，使得模型更加实用和可靠。

机器学习中的范数规则化

zouxy09@qq.com

http://blog.csdn.net/zouxy09



今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2

和核范数规则化。最后聊下规则化项参数的选择问题。知识有限，以下都是我一些浅显的看法，如果理解存在错误，

希望大家不吝指正。谢谢。



监督机器学习问题无非就是“minimizeyourerrorwhileregularizingyourparameters”，也就是在规则化参数的同

时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们

的训练数据。多么简约的哲学啊！因为参数太多，会导致我们的模型复杂度上升，容易过拟合，也就是我们的训练误

差会很小。但训练误差小并不是我们的最终目标，我们的目标是希望模型的测试误差小，也就是能准确的预测新的样

本。所以，我们需要保证模型“简单”的基础上最小化训练误差，这样得到的参数才具有好的泛化性能（也就是测试误

差也小），而模型“简单”就是通过规则函数来实现的。另外，规则项的使用还可以约束我们的模型的特性。这样就可

以将人对这个模型的先验知识融入到模型的学习当中，强行地让学习到的模型具有人想要的特性，例如稀疏、低秩、

平滑等等。要知道，有时候人的先验是非常重要的。前人的经验会让你少走很多弯路，这就是为什么我们平时学习最

好找个大牛带带的原因。一句点拨可以为我们拨开眼前乌云，还我们一片晴空万里，醍醐灌顶。对机器学习也是一

样，如果被我们人稍微点拨一下，它肯定能更快的学习相应的任务。只是由于人和机器的交流目前还没有那么直接的

方法，目前这个媒介只能由规则项来担当了。

还有几种角度来看待规则化的。规则化符合奥卡姆剃刀(Occam'srazor)原理。这名字好霸气，razor！不过它的

思想很平易近人：在所有可能选择的模型中，我们应该选择能够很好地解释已知数据并且十分简单的模型。从贝叶斯

估计的角度来看，规则化项对应于模型的先验概率。民间还有个说法就是，规则化是结构风险最小化策略的实现，是

在经验风险上加一个正则化项(regularizer)或惩罚项(penaltyterm)。

一般来说，监督学习可以看做最小化下面的目标函数：

其中，第一项L(y

,f(x

;w))衡量我们的模型（分类或者回归）对第i个样本的预测值f(x

;w)和真实的标签y

之前的误

差。因为我们的模型是要拟合我们的训练样本的嘛，所以我们要求这一项最小，也就是要求我们的模型尽量的拟合我

们的训练数据。但正如上面说言，我们不仅要保证训练误差最小，我们更希望我们的模型测试误差小，所以我们需要

加上第二项，也就是对参数w的规则化函数Ω(w)去约束我们的模型尽量的简单。

OK，到这里，如果你在机器学习浴血奋战多年，你会发现，哎哟哟，机器学习的大部分带参模型都和这个不但

形似，而且神似。是的，其实大部分无非就是变换这两项而已。对于第一项Loss函数，如果是Squareloss，那就是

最小二乘了；如果是HingeLoss，那就是著名的SVM了；如果是expLoss，那就是牛逼的Boosting了；如果是log

Loss，那就是LogisticRegression了；还有等等。不同的loss函数，具有不同的拟合特性，这个也得就具体问题具体

分析的。但这里，我们先不究loss函数的问题，我们把目光转向“规则项Ω(w)”。

规则化函数Ω(w)也有很多种选择，一般是模型复杂度的单调递增函数，模型越复杂，规则化值就越大。比如，规

则化项可以是模型参数向量的范数。然而，不同的选择对参数w的约束不同，取得的效果也不同，但我们在论文中常

见的都聚集在：零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。这么多范数，到底它们表达啥意

思？具有啥能力？什么时候才能用？什么时候需要用呢？不急不急，下面我们挑几个常见的娓娓道来。



一、L0范数与L1范数

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元

素都是0。这太直观了，太露骨了吧，换句话说，让参数W是稀疏的。OK，看到了“稀疏”二字，大家都应该从当下风

风火火的“压缩感知”和“稀疏编码”中醒悟过来，原来用的漫山遍野的“稀疏”就是通过这玩意来实现的。但你又开始怀疑

了，是这样吗？看到的papers世界中，稀疏不是都通过L1范数来实现吗？脑海里是不是到处都是||W||

影子呀！几乎

是抬头不见低头见。没错，这就是这节的题目把L0和L1放在一起的原因，因为他们有着某种不寻常的关系。那我们

再来看看L1范数是什么？它为什么可以实现稀疏？为什么大家都用L1范数去实现稀疏，而不是L0范数呢？

L1范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lassoregularization）。现在我们来分

析下这个价值一个亿的问题：为什么L1范数会使权值稀疏？有人可能会这样给你回答“它是L0范数的最优凸近似”。实

际上，还存在一个更美的回答：任何的规则化算子，如果他在W

=0的地方不可微，并且可以分解为一个“求和”的形

式，那么这个规则化算子就可以实现稀疏。这说是这么说，W的L1范数是绝对值，|w|在w=0处是不可微，但这还是不

够直观。这里因为我们需要和L2范数进行对比分析。所以关于L1范数的直观理解，请待会看看第二节。

对了，上面还有一个问题：既然L0可以实现稀疏，为什么不用L0，而要用L1呢？个人理解一是因为L0范数很难

优化求解（NP难问题），二是L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。所以大家才把目光

和万千宠爱转于L1范数。

下载后可阅读完整内容，剩余8页未读，立即下载

林祈墨

粉丝: 39

机器学习：范数规则化与防止过拟合

机器学习中的范数规则化之L0、L1与L2范数

机器学习中的范数规则化之各种范数1

97.笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归（稀疏与特征工程） - 素质云笔记 Recorder... - C

机器学习中的规则化范数(L0, L1, L2, 核范数)

机器学习中的l0,l1,l2范数到底是什么意思

机器学习中的l2范数是什么意思

L1范数归一化和L2范数归一化有什么区别？

机器学习 l0 l1 l2范数

L1范数正则化归一化的公式

huber范数正则化

最新资源