L0、L1、L2范数理解：从稀疏性到优化

需积分: 0 169 浏览量更新于2024-08-05 收藏 1.13MB PDF 举报

本文主要介绍了L0、L1与L2范数的概念，以及它们在参数稀疏性和优化中的应用，特别是在机器学习和深度学习领域。L0范数表示非零元素的数量，L1范数是其最优凸近似，而L2范数则与模型的平滑性有关。L1正则化因优化求解的便利性而被广泛使用，可以实现特征选择和提高模型的可解释性。正文: 在机器学习和深度学习中，正则化是防止过拟合的重要手段，而L0、L1和L2范数则是正则化中常见的度量方式。L0范数定义了一个向量中非零元素的个数，它可以直观地反映出参数的稀疏性。在优化问题中，追求L0范数最小化可以鼓励模型参数尽可能多的为0，从而达到特征选择的效果。然而，由于L0范数优化问题属于NP难问题，实际操作中并不易求解。 L1范数是L0范数的一种凸近似，它等于向量元素绝对值的和。相比于L0范数，L1范数更容易进行优化，并且能够诱导出稀疏解，即许多参数值接近于0。L1正则化的这种特性使得模型在训练过程中能够自动忽略掉对预测结果贡献较小的特征，从而实现特征选择。此外，L1正则化还提高了模型的可解释性，因为非零权重对应的特征被认为是重要的。 L2范数则定义为向量元素平方和的平方根，它衡量的是向量的长度。在模型优化中，L2正则化通过惩罚所有参数的平方和来防止过拟合，它倾向于得到一个所有参数都相对较小的解决方案，而不是使某些参数变为0。L2正则化使得模型更加平滑，减少了对训练数据的过度依赖，但也可能导致特征选择的缺失。在TensorFlow这样的深度学习框架中，L1和L2正则化常被用于模型的训练过程中，以控制模型的复杂度。L1正则化常用于特征选择和压缩模型大小，而L2正则化则可以保持模型的泛化能力。通过调整正则化项的权重（λ），可以平衡模型的复杂度和训练误差。卷积神经网络（CNN）等复杂模型在图像识别和计算机视觉任务中广泛使用，L1和L2正则化对于理解和优化这些模型至关重要。在可视化CNN的过程中，L1和L2范数可以帮助理解哪些特征被模型重点关注，从而揭示模型的决策过程。 L0、L1和L2范数在机器学习和深度学习中扮演着至关重要的角色。它们不仅帮助我们构建和优化模型，还提供了理解模型内部工作原理的途径。L1范数因其稀疏性优势，常用于特征选择和简化模型，而L2范数则有助于保持模型的稳定性。理解这些概念并灵活运用，对于提升模型性能和可解释性具有深远意义。

2018/7/18 『科学计算』L0、L1与L2范数_理解 - 叠加态的猫 - 博客园

https://www.cnblogs.com/hellcat/p/7979711.html 1/5

博客园首页新随笔联系管理订阅随笔- 301 文章- 7 评论- 64

『科学计算』L0、L1与L2范数_理解

一、L0范数、L1范数、参数稀疏

二、L1范数、L2范数

三、先验知识角度理解L1和L2正则化与参数稀疏

四、数值计算角度理解L1和L2正则化与参数稀疏

『教程』L0、L1与L2范数

回到顶部

一、L0范数、L1范数、参数稀疏

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素

都是0，换句话说，让参数W是稀疏的。

既然L0可以实现稀疏，为什么不用L0，而要用L1呢？一是因为L0范数很难优化求解（NP难问题），二是L1范数是

L0范数的最优凸近似，而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。

总结：L1范数和L0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。

参数稀疏的优点，

1）特征选择(Feature Selection)：

大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说，x

的大部分元素（也就是特

征）都是和最终的输出y

没有关系或者不提供任何信息的，在最小化目标函数的时候考虑x

这些额外的特征，虽然可以

获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会被考虑，从而干扰了对正确y

的预测。稀疏规则化

算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权

重置为0。

2）可解释性(Interpretability)：

另一个青睐于稀疏的理由是，模型更容易解释。例如患某种病的概率是y，然后我们收集到的数据x是1000维的，也

就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型：y=w

…+w

1000

+b（当然了，为了让y限定在[0,1]的范围，一般还得加个Logistic函数）。通过学习，如果最后学习到的

w*就只有很少的非零元素，例如只有5个非零的w

，那么我们就有理由相信，这些对应的特征在患病分析上面提供的信

息是巨大的，决策性的。也就是说，患不患这种病只和这5个因素有关，那医生就好分析多了。但如果1000个w

都非0，

医生不得不面对这1000种因素。

回到顶部

二、L1范数、L2范数

L2范数的规则项||W||

最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而

是接近于0。

L2范数的好处如下，

Github地址

总访问量(17.05.08起)：

访问信息(18.04.13起)：

昵称：叠加态的猫

园龄：1年2个月

粉丝：97

关注：7

+加关注

< 2018年7月 >

日一二三四五六

24 25 26 27 28 29 30

1 2 3 4 5 6 7

8 9 10 11 12 13 14

15 16 17 18 19 20 21

22 23 24 25 26 27 28

29 30 31 1 2 3 4

搜索

找找看

谷歌搜索

常用链接

我的随笔

我的评论

我的参与

L0、L1、L2范数理解：从稀疏性到优化

demo_SGMKL.zip_DEMO_L1/L2范数_l1约束_l2_多核matlab

机器学习中的范数规则化之L0、L1与L2范数

l1_ls.rar_L1正则化问题_l1 范数_二范数_最小化 范数_正则化范数

l1magic-1.1.zip_1范数 优化_?1 范数_L1范数_l1-magic最小化_范数MATLAB

L0smoothing.rar_L0范数光滑_l0_l0范数_norm L0

SOOT l1/l2 范数比稀疏盲反卷积：高斯噪声中的稀疏盲反卷积，带有非凸正则化 l1/l2 范数比惩罚-matlab开发

L1范数代码,l1范数和l2范数,matlab

L1、L2范数学习笔记.docx

l2范数matlab源码-hqp_l1:hqp_l1

L1范数代码,l1范数和l2范数,matlab源码.zip

最新资源

l1_ls.rar_L1正则化问题_l1 范数_二范数_最小化范数_正则化范数

l1magic-1.1.zip_1范数优化_?1 范数_L1范数_l1-magic最小化_范数MATLAB