机器学习实验：线性回归与分类

需积分: 0 199 浏览量更新于2024-08-04 收藏 185KB DOCX 举报

"本次实验主要涉及机器学习中的基础模型，包括一元线性回归、多元线性回归/对数线性回归（二选一）、对数几率回归以及线性判别分析。实验基于真实数据集，如Kaggle的房价预测数据集和垃圾邮件分类问题，旨在提升模型预测和分类能力的评估。" 实验内容详细说明： 1.1 一元线性回归在这一部分，实验者使用Kaggle的房价预测数据集，通过打乱数据并划分训练集（70%）和测试集（30%）。实验者需手动实现最小二乘法来求解模型参数，而非依赖第三方库。接着，使用LotArea、BsmtUnfSF和GarageArea三个特征作为输入，SalePrice作为输出，构建三个不同的模型。实验者需自行计算模型在测试集上的平均绝对误差（MAE）和均方根误差（RMSE）。此外，还要求绘制训练集和测试集的预测曲线，并可选尝试处理异常值以观察模型性能的变化。 1.2 多元线性回归/对数线性回归实验者可以选择进行多元线性回归或者对数线性回归。在多元线性回归中，选取多个特征进行房价预测，通过十折交叉验证评估模型性能，计算MAE和RMSE，比较不同特征组合的影响。此部分可以利用sklearn库的LinearRegression模型。对于对数线性回归，实验者需要自由选择特征，同样计算十折交叉验证下的MAE和RMSE，观察模型性能的变化。 1.3 对数几率回归这部分实验涉及分类任务，如垃圾邮件分类和Dota2比赛结果预测。实验者需运用对数几率回归模型，计算十折交叉验证下的精度（accuracy）、查准率（precision）、查全率（recall）以及F1值。理解这些评估指标的定义和计算方式是关键，例如精度是正确分类样本数与总样本数的比例，查准率是真正例（TP）除以预测为正例的总数（TP+FP），查全率是真正例（TP）除以实际正例总数（TP+FN），而F1值是查准率和查全率的调和平均数。 1.4 线性判别分析最后，实验者应用线性判别分析进行分类任务，可能如垃圾邮件识别。线性判别分析是一种统计方法，用于找到最佳的超平面以最大程度地区分不同类别的样本。这个实验旨在加深对几种基础机器学习模型的理解，同时强调手动实现部分算法和评估模型性能的重要性，以及如何根据数据特性选择合适的模型。通过实践，实验者可以提高数据分析和模型构建的能力。

机器学习第三章实验内容

一、实验内容

1.1 一元线性回归

使用 Kaggle 房价预测数据集：

1. 打乱数据顺序，取前 70%的数据作为训练集，后 30%的数据作为测试集

2. 分别以 LotArea, BsmtUnfSF, GarageArea 三种特征作为模型的输入，SalePrice 作为模型

的输出

3. 在训练集上，使用最小二乘法求解模型参数（需自己实现，不允许第三方库完成）

4. 计算三个模型在测试集上的 MAE 和 RMSE 这两种指标的大小（需自己实现，不允许第

三方库完成）

5. 分别绘制模型的在训练集和测试集上的曲线

6. 选做：尝试去除训练集中的异常值或离群值后再次训练模型，绘制模型的预测曲线，观

察模型在测试集上预测能力的变化

1.2 多元线性回归/对数线性回归（二选一）

1. 多元线性回归

使用多个特征作为输入完成房价预测问题，计算模型在十折交叉验证上 MAE 和 RMSE

的值，比较不同的特征组合在模型预测能力上的影响。

模型可使用 sklearn.linear_model.LinearRegression

选做：多项式回归（一元线性回归的扩展），尝试对部分特征进行变换，如将其二次幂，

三次幂作为特征输入模型，观察模型在预测能力上的变化。

2. 对数线性回归

尝试使用对数线性回归完成房价预测问题，特征自选，比较模型十折交叉验证的 MAE

与 RMSE。

模型可使用 sklearn.linear_model.LinearRegression

下载后可阅读完整内容，剩余4页未读，立即下载

创业青年骁哥

粉丝: 28
资源: 341

机器学习实验：线性回归与分类

机器学习第三章实验内容1

机器学习第五章实验内容1

机器学习第四章实验内容1

机器学习第八章实验内容1

机器学习第七章实验内容1

山东大学机器学习第四章实验报告 非参技术

机器学习第四章实验：决策树与剪枝

机器学习第三章练习题

山东大学机器学习实验报告 第五章 线性判别函数

第七章 机器学习

最新资源

山东大学机器学习第四章实验报告非参技术

山东大学机器学习实验报告第五章线性判别函数

第七章机器学习