岭回归与Lasso模型实现及比较

23 浏览量更新于2024-08-03 收藏 907KB PDF 举报

"这篇资源主要涉及岭回归与lasso回归模型的理论介绍及Python实现，同时提到了模型的假设检验，包括F检验和T检验，以及交叉验证的概念和应用。" 岭回归是一种改进的线性回归模型，用于解决自变量间存在多重共线性的问题。在标准线性回归模型中，如果自变量之间高度相关，可能导致模型的系数估计不准确。岭回归通过在损失函数中加入L2正则化项（即各系数平方和），降低了模型对参数的敏感性，从而缓解了多重共线性问题。这相当于在最小二乘法的基础上引入了一个正则化参数，使得模型的系数向0靠近，但不强制为0。在模型评估中，F检验用于判断整个模型的显著性，即检验模型的解释能力是否优于无模型。计算得到的F统计量与F分布的理论值进行比较，如果F统计量远大于理论值，说明模型的解释能力显著，模型是合理的。T检验则关注单个回归系数的显著性，检验每个自变量对因变量的影响是否显著。 Lasso回归进一步引入了L1正则化项（即各系数的绝对值之和），这导致某些系数可能被直接置零，从而实现特征选择。相比于岭回归，Lasso模型更倾向于产生稀疏解，有利于理解模型中的关键特征。交叉验证是一种模型评估方法，它将数据集分成训练集和测试集多组，每次用不同的部分做训练和测试，以避免过拟合或欠拟合。对于岭回归，可以使用K折交叉验证（如5折或10折）来评估不同正则化参数下的模型性能，选取最优的模型。在Python中，可以使用`sklearn`库实现这些模型。例如，`Ridge`类用于构建岭回归模型，`RidgeCV`类则支持交叉验证。同样，`Lasso`类用于构建lasso回归模型，而`LassoCV`则提供了交叉验证功能。这篇资源提供了关于岭回归和lasso回归的基础理论和实践指导，对于想要学习和应用这两种模型的初学者来说非常有帮助。通过Python实现，可以帮助学习者更好地理解和掌握这些模型的实际操作。

岭回归交叉验证：

案例：

# 导⼊第三⽅模块

import pandas as pd

import numpy as np

from sklearn import model_selection

from sklearn.linear_model import Ridge,RidgeCV

import matplotlib.pyplot as plt

# 读取糖尿病数据集

diabetes = pd.read_excel(r'diabetes.xlsx', sep = '')

# 构造⾃变量（剔除患者性别、年龄和因变量）

predictors = diabetes.columns[2:-1]

# 将数据集拆分为训练集和测试集

X_train, X_test, y_train, y_test = model_selection.train_test_split(diabetes[predictors], diabetes['Y'],

test_size = 0.2, random_state = 1234 )

# 构造不同的Lambda值

Lambdas = np.logspace(-5, 2, 200)

# 岭回归模型的交叉验证

# 设置交叉验证的参数，对于每⼀个Lambda值，都执⾏10重交叉验证

ridge_cv = RidgeCV(alphas = Lambdas, normalize=True, scoring='neg_mean_squared_error', cv = 10)

# 模型拟合

ridge_cv.fit(X_train, y_train)

# 返回最佳的lambda值

ridge_best_Lambda = ridge_cv.alpha_

ridge_best_Lambda

# 导⼊第三⽅包中的函数

from sklearn.metrics import mean_squared_error

# 基于最佳的Lambda值建模

ridge = Ridge(alpha = ridge_best_Lambda, normalize=True)

ridge.fit(X_train, y_train)

# 返回岭回归系数

pd.Series(index = ['Intercept'] + X_train.columns.tolist(),data = [ridge.intercept_] + ridge.coef_.tolist())

# 预测

ridge_predict = ridge.predict(X_test)

# 预测效果验证

RMSE = np.sqrt(mean_squared_error(y_test,ridge_predict))

RMSE

View Code

Lasso回归交叉验证：

剩余12页未读，继续阅读

emma20080101

粉丝: 1081
资源: 5280

岭回归与Lasso模型实现及比较

Python实现岭回归与LASSO回归的实践指南

Python数据分析：Kaggle实战：岭回归与Lasso回归在共线性问题中的应用

TensorFlow实现lasso回归和岭回归算法实践

岭回归与LASSO回归模型.rar

岭回归与LASSO回归模型.ipynb

Python实现基于线性回归、Lasso回归、岭回归、决策树回归的空气质量预测模型（Python完整源码)

线性回归详解：从基础到岭回归与Lasso

岭回归与Lasso回归的比较与应用

【回归分析的机器学习算法】：线性回归、岭回归与Lasso的全面对比

岭回归和lasso回归python

最新资源