机器学习基础实验：回归模型对比与调优

需积分: 0 37 浏览量更新于2024-08-05 收藏 99KB DOCX 举报

本资源是一份关于机器学习基础实验的指南，主要集中在线性回归及其不同变种在实际问题中的应用。实验涉及以下几个关键步骤： 1. **明确任务与数据收集**: 开始时，需要明确机器学习项目的目标，如预测广告支出与销售额之间的关系。数据是从名为"Advertising.csv"的CSV文件中获取的，包含销售（y）作为目标变量和除销售和标识列之外的其他特征（X）。 2. **数据预处理和特征工程**: 数据预处理包括从原始数据中分离目标变量y（sales）和特征变量X，然后使用`train_test_split`函数将数据分为训练集（80%）和测试集（20%），确保模型在未知数据上的泛化能力。 3. **模型训练**: 实验使用了三种线性回归模型： - **最小二乘线性回归（Least Squares Regression, LSR）**：这是最基本的回归模型，其参数通过最小化残差平方和来确定。 - **岭回归（Ridge Regression）**：引入L2正则化，防止过拟合，通过调整正则化强度（λ）来平衡模型复杂度和拟合性能。 - **Lasso回归（Least Absolute Shrinkage and Selection Operator, LASSO）**：使用L1正则化，具有特征选择效果，可能导致某些系数变为零，从而实现特征剔除。 4. **模型评估与超参数调优**: 使用RMSE（Root Mean Squared Error）作为性能指标，评估模型在训练集和测试集上的表现。对于岭回归和Lasso，需要调整正则化参数以找到最优性能。这部分涉及到模型性能的优化和验证。 5. **模型比较**: 实验结果显示，最小二乘线性回归在训练集上的性能最好，但测试集性能较差，说明可能存在过拟合。相比之下，Lasso模型在测试集上的性能最好，这归因于其特征选择特性。同时，岭回归的回归系数绝对值小于最小二乘线性回归，体现了正则化的“权值收缩”作用。 6. **模型应用与可视化**: 除了上述步骤，还可能包括将训练好的模型应用于实际数据，以及对回归系数的可视化，以便理解哪些特征对销售额影响最大。整个实验过程不仅锻炼了对机器学习基本概念的理解，还演示了如何在实际问题中使用线性回归模型，以及正则化技术在减少过拟合和提高模型泛化能力中的作用。通过这些实验，学习者能够深入理解机器学习算法的核心原理和实践应用。

一．简介

1.明确任务，收集数据

2.数据预处理和特征工程

3.模型训练

4.模型评估与超参数调优

5.模型融合

6.模型应用

二．线性回归

需要了解：（P39）

特征变换：

1 y=df['sales']

2 X=df.drop(['sales','Unnamed:0'],axis=1)

随机选择其中 80%的样本作为训练数据，其余 20%的数据作为测试样本

3 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)

用训练数据训练最小二乘线性回归（无正则）、岭回归（L2 正则）和 Lasso（L1 正

则），注意岭回归和 Lasso 的正则超参数调优，性能指标为 RMSE：

比较上述三种模型得到的各特征的回归系数，以及各模型在测试集上的性能。

回归系数：岭回归、Lasso 得到的回归系数绝对值均比最小二乘线性回归小，即起到了

权值收缩的效果（不全，具体回归系数分析看 P36 页最上行）

性能：最小二乘线性回归在训练集上的性能最好，但在测试集上的性能最差； Lasso 模

型在测试集上的性能最好

4 # 导入 pandas 工具包

5 import pandas as pd

6 # 读取数据

7 dpath="./data/"

8 df=pd.read_csv(dpath+"Advertising.csv")

9 # 从原始数据中分离输入特征 x 和输出 y

10 y=df['sales']

11 X=df.drop(['sales','Unnamed:0'],axis=1)

12 # 将数据分割为训练数据与测试数据，随机采样 20%的数据构建测试样本，其余作为训练样本

13 from sklearn.model_selection import train_test_split

14 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)

16 # 方法一：

17 # 最小二乘线性回归

18 from sklearn.linear_model import LinearRegression

19 # (1)使用默认配置初始化学习器实例

20 lr=LinearRegression()

下载后可阅读完整内容，剩余9页未读，立即下载

菜鸟一枚cnk

粉丝: 10
资源: 1

机器学习基础实验：回归模型对比与调优

机器学习实验资料（含代码和讲解）

机器学习实验五实验报告（Python）

Python中的机器学习简介与基础知识

理解Python中的机器学习基础

MATLAB机器学习实战：从基础到应用的机器学习之旅

GeoEngine：面向生产的地理空间机器学习平台

"机器学习在化学工程中的应用及挑战

机器学习本科生课程设计matlab

用python完成机器学习实验鸢尾花数据集的 k 均值聚类需要的参考文献

pdf下载hands-on machine learning with scikit-learn, keras & tensorflow, 2nd

最新资源