TensorFlow利用L2正则化对抗过拟合：原理与MNIST实例

172 浏览量更新于2024-09-02 收藏 98KB PDF 举报

TensorFlow是一种广泛使用的开源机器学习框架，它在深度学习模型中常用于处理各种复杂的计算任务。在训练过程中，过拟合是一个常见的挑战，它发生在模型在训练数据上表现得非常好，但在新数据上的泛化能力较差。L2正则化作为一种有效的手段，可以帮助我们解决这个问题。 L2正则化的基本原理源自于统计学中的正则化概念，其目的是通过在损失函数中引入一个额外的项，这个项与模型参数的平方和成正比。具体来说，L2正则化的数学公式可以表示为\( Loss = CrossEntropyLoss + \lambda \sum_{i=1}^{n} w_i^2 \)，其中\( w_i \)是模型参数，\( \lambda \)是正则化强度或权重，通常是一个较小的正实数。这个额外的项促使模型倾向于寻找权重较小的解决方案，从而降低了模型的复杂性，使得模型对噪声更加鲁棒，减少了过拟合的风险。在TensorFlow中，我们可以通过tf.keras.layers.Dense或tf.keras.regularizers.l2()函数来实现L2正则化。当训练时，正则化会让模型在最小化原始损失的同时，也尽可能地减小权重的绝对值。这个过程就像一个动态的博弈，loss函数驱动模型去拟合数据，而L2正则化则作为约束，防止权重变得过大。相比之下，L1正则化（也称为Lasso回归）通过替换L2中的平方为权重的绝对值，导致权重向零的方向更均匀地衰减，有时会产生稀疏解，即许多权重接近于零。这有助于特征选择，但可能会牺牲模型的某些表达能力，因为它倾向于完全丢弃某些特征。在MNIST手写数字分类任务中，我们可以直观地看到L2正则化的效果。通过对比只有交叉熵损失的模型训练结果和带有L2正则化的模型，我们可以观察到后者在保持较高训练精度的同时，泛化能力得到了提升，避免了过拟合的典型现象，即训练集上的误差较小，而测试集上的误差增加。总结来说，L2正则化是通过权衡模型复杂度和拟合能力来减轻过拟合问题的重要工具，它在TensorFlow等深度学习框架中扮演着关键角色。理解并应用L2正则化，可以帮助我们构建更加稳健和泛化的模型，这对于实际项目中的模型部署和性能优化至关重要。

tensorflow使用使用L2 regularization正则化修正正则化修正overfitting过拟过拟

合方式合方式

L2正则化原理：正则化原理：

过拟合的原理：在loss下降，进行拟合的过程中（斜线），不同的batch数据样本造成红色曲线的波动大，图中低点也就是过

拟合，得到的红线点低于真实的黑线，也就是泛化更差。

可见，要想减小过拟合，减小这个波动，减少w的数值就能办到。

L2正则化训练的原理：在Loss中加入（乘以系数λ的）参数w的平方和，这样训练过程中就会抑制w的值，w的（绝对）值小，

模型复杂度低，曲线平滑，过拟合程度低（奥卡姆剃刀），参考公式如下图：

（正则化是不阻碍你去拟合曲线的，并不是所有参数都会被无脑抑制，实际上这是一个动态过程，是loss（cross_entropy）

和L2 loss博弈的一个过程。训练过程会去拟合一个合理的w，正则化又会去抑制w的变化，两项相抵消，无关的wi越变越小，

但是比零强一点（就是这一点，比没有要强，这也是L2的trade-off），有用的wi会被保留，处于一个“中庸”的范围，在拟合的

基础上更好的泛化。过多的道理和演算就不再赘述。）

那为什么L1不能办到呢？主要是L1有副作用，不太适合这个场景。

L1把L2公式中wi的平方换成wi的绝对值，根据数学特性，这种方式会导致wi不均衡的被减小，有些wi很大，有些wi很小，得到

稀疏解，属于特征提取。为什么L1的w衰减比L2的不均衡，这个很直觉的，同样都是让loss低，让w1从0.1降为0，和w2从1.0

降为0.9，对优化器和loss来说，是一样的。但是带上平方以后，前者是0.01-0=0.01，后者是1-0.81=0.19，这时候明显是减少

w2更划算。下图最能说明问题，横纵轴是w1、w2等高线是loss的值，左图的交点w1=0，w2=max（w2），典型的稀疏解，丢

弃了w1，而右图则是在w1和w2之间取得平衡。这就意味着，本来能得到一条曲线，现在w1丢了，得到一条直线，降低过拟合

的同时，拟合能力（表达能力）也下降了。

L1和L2有个别名：Lasso和ridge，经常记错，认为ridge岭回归因为比较“尖”，所以是L1，其实ridge对应的图片是这种，或者

翻译成“山脊”更合适一些，山脊的特点是一条曲线缓慢绵延下来的。

训练训练

进行MNIST分类训练，对比cross_entropy和加了l2正则的total_loss。

因为MNIST本来就不复杂，所以FC之前不能做太多CONV，会导致效果太好，不容易分出差距。为展示l2 regularization的效

果，我只留一层CONV（注意看FC1的输入是h_pool1，短路了conv2），两层conv可以作为对照组。

直接取train的前1000作为validation，test的前1000作为test。

代码说明，一个基础的CONV+FC结构，对图像进行label预测，通过cross_entropy衡量性能，进行训练。

对需要正则化的weight直接使用l2_loss处理，

把cross_entropy和L2 loss都扔进collection ‘losses’中。

wd其实就是公式中的λ，wd越大，惩罚越大，过拟合越小，拟合能力也会变差，所以不能太大不能太小，很多人默认设置成了

0.004，一般情况下这样做无所谓，毕竟是前人的经验。但是根据我的实际经验，这个值不是死的，尤其是你自己定制loss函

数的时候，假如你的权重交叉熵的数值变成了之前的十倍，如果wd保持不变，那wd就相当于之前的0.0004！就像loss如果用

reduce_sum，grad也用reduce_sum一样，很多东西要同步做出改变！

weight_decay = tf.multiply(tf.nn.l2_loss(initial), wd, name='weight_loss')

tf.add_to_collection('losses', weight_decay)

tf.add_to_collection('losses', cross_entropy)

total_loss = tf.add_n(tf.get_collection(‘losses’))提取所有loss，拿total_loss去训练，也就实现了图一中公式的效果。

完整代码如下：

from __future__ import print_function

import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

# number 1 to 10 data

mnist = input_data.read_data_sets('MNIST_data', one_hot=True)

def compute_accuracy(v_xs, v_ys):

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38556822

粉丝: 2
资源: 974

TensorFlow利用L2正则化对抗过拟合：原理与MNIST实例

正则化与防止过拟合：理解 regularization 的关键点

逻辑分类器过拟合与正则化的影响分析

机器学习中的过拟合问题与正则化技术

【正则化技术】：在损失函数中应用正则化项防止过拟合

RNN正则化技术：过拟合的终极防御指南

pytorch学习笔记（十四）————正则化惩罚（减轻overfitting）

逻辑分类器过度拟合和正则化

正则化pdf讲义超详细

【过拟合防御术】：TensorFlow中的正则化技术实施指南

【PyTorch正则化技术】：实用方法，防止过拟合

最新资源