2&. 回归在不抛弃任何一个特征的情况下,缩小了回归系数,使得模型相对而言比较的稳定,不至于过拟合。
损失函数的优化方法:
对于这个损失函数,一般有梯度下降法和最小二乘法两种极小化损失函数的优化方法,而 ?&7& 中的 2&. 类
用的是最小二乘法。通过最小二乘法,可以解出线性回归系数 为:
其中 < 为单位矩阵。
验证方法:
2&. 类并没有用到交叉验证之类的验证方法,需要我们自己把数据集分成训练集和测试集,需要自己设置好
超参数 #。然后训练优化。
使用场景:
一般来说,只要我们觉得数据有线性关系,用 %& 42.4& 类拟合的不是特别好,需要正则化,可以考
虑用 2&. 类。但是这个类最大的缺点是每次我们要自己指定一个超参数 #,然后自己评估 # 的好坏,比较麻
烦,一般我都用 2&.9 类来跑 2&. 回归,不推荐直接用这个 2&. 类,除非你只是为了学习 2&. 回归。
4.3. RidgeCV
2&.9 类的损失函数和损失函数的优化方法完全与 2&. 类相同,区别在于验证方法。
验证方法:
2&.9 类对超参数 # 使用了交叉验证,来帮我们选择一个合适的 #。在初始化 2&.9 类时候,我们可以
传一组备选的 # 值, 个, 个都可以。2&.9 类会帮我们选择一个合适的 #。免去了我们自己去一轮
轮筛选 ## 的苦恼。
使用场景:
一般来说,只要我们觉得数据有线性关系,用 %& 42.4& 类拟合的不是特别好,需要正则化,可以考
虑用 2&.9 类。不是为了学习的话就不用 2&. 类。为什么这里只是考虑用 2&.9 类呢?因为线性回归
正则化有很多的变种,2&. 只是其中的一种。所以可能需要比选。如果输入特征的维度很高,而且是稀疏线
性关系的话,2&.9 类就不合适了。这时应该主要考虑下面的 % 回归类家族。
4.4. Lasso
损失函数:
线性回归的 % 正则化通常称为 % 回归,它和 2&. 回归的区别是在损失函数上增加了的是 % 正则化的项,
而不是 %$ 正则化项。% 正则化的项也有一个常数系数 # 来调节损失函数的均方差项和正则化项的权重,具体
% 回归的损失函数表达式如下:
其中 为样本个数,## 为常 数系数,需要进行调优。DD
DD 为 % 范数。
% 回归可以使得一些特征的系数变小,甚至还是一些绝对值较小的系数直接变为 。增强模型的泛化能力。
损失函数的优化方法:
% 回归的损失函数优化方法常用的有两种,坐标轴下降法和最小角回归法。% 类采用的是坐标轴下降
法,后面讲到的 %%4 类采用的是最小角回归法
验证方法:
% 类并没有用到交叉验证之类的验证方法,和 2&. 类类似。需要我们自己把数据集分成训练集和测试集,
需要自己设置好超参数 #。然后训练优化。
使用场景:
一般来说,对于高维的特征数据,尤其线性关系是稀疏的,我们会采用 % 回归。或者是要在一堆特征里面
找出主要的特征,那么 % 回归更是首选了。但是 % 类需要自己对 # 调优,所以不是 % 回归的首选,
一般用到的是下一节要讲的 %9 类。