Scikit-learn与TensorFlow实战：模型选择与训练比较

173 浏览量更新于2024-08-29 收藏 147KB PDF 举报

在"机器学习实战(用Scikit-learn和TensorFlow进行机器学习)(三)"这篇文章中，作者深入探讨了如何在实际项目中运用Scikit-learn库进行机器学习模型的实战操作。首先，文章关注于处理真实数据集，这里以CSV格式的训练集为例。作者介绍了一个关键步骤——数据预处理，这包括对数据进行清洗、转换和标准化，以便让模型能够有效地理解和学习。在模型选择方面，作者以线性回归（LinearRegression）和决策树回归（DecisionTreeRegressor）作为实例。通过导入`sklearn.linear_model.LinearRegression`和`sklearn.tree.DecisionTreeRegressor`，分别创建并训练了这两个模型。对于线性回归模型，作者展示了如何使用`fit`方法拟合训练数据，然后通过`mean_squared_error`计算训练集的均方根误差（RMSE），结果为68626，表明模型在当前数据上表现一般。接下来，作者尝试决策树回归模型，其训练集均方误差为0，乍看之下似乎性能优越。然而，这并不意味着决策树模型优于线性回归，因为训练误差低可能是模型过度拟合训练数据的结果，即“过拟合”。过拟合是指模型在训练数据上表现得非常好，但在未见过的新数据上预测能力较差。因此，作者强调在训练过程中需要权衡模型的复杂度和泛化能力。仅仅根据训练集的误差来评价模型的好坏是不全面的，还需要进行交叉验证或在独立测试集上进行评估，以确保模型具有良好的泛化性能。同时，理解模型的工作原理和调整参数以避免过拟合也是提升模型效果的关键。总结来说，本文提供了使用Scikit-learn进行机器学习实战的实用教程，不仅演示了如何构建和评估线性回归和决策树回归模型，还强调了在实际应用中处理过拟合问题的重要性。通过这个实战案例，读者可以加深对机器学习模型训练过程的理解，并学习到如何选择合适的模型和优化策略。

机器学习实战机器学习实战(用用Scikit-learn和和TensorFlow进行机器学习进行机器学习)(三三)

三、开始实战

7、选择及训练模型

首先尝试训练一个线性回归模型（LinearRegression）

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()

lin_reg.fit(train_housing_prepared, train_housing_labels)

训练完成，然后评估模型，计算训练集中的均方根误差（RMSE）

from sklearn.metrics import mean_squared_error

housing_predictions = lin_reg.predict(train_housing_prepared)

lin_mse = mean_squared_error(train_housing_labels,

housing_predictions)

lin_rmse = np.sqrt(lin_mse)

lin_rmse

可以看到线性回归模型的训练集均方误差为68626

再试试看更强大的模型，决策树模型（DecisionTreeRegressor）

from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor()

tree_reg.fit(train_housing_prepared, train_housing_labels)

housing_predictions = tree_reg.predict(train_housing_prepared)

tree_mse = mean_squared_error(train_housing_labels,

housing_predictions)

tree_rmse = np.sqrt(tree_mse)

tree_rmse

可以看到决策树回归模型的的训练集均方误差竟然为0。比线性回归模型的的训练集均方误差小太多太多。

但这是否说明了决策树回归模型比线性回归模型在此问题上好很多，当然不是，训练误差小的模型并不代表为好模型，这是因

为模型可能过度地学习了训练集的数据，只是在训练集上的表现好（即过拟合），一旦测试新的数据表现就会很差。

因此在训练的时候需要将部分的训练数据提取出来作为验证集，验证该模型是否对此问题适用。其中比较常用的就是交叉验证

法。

交叉验证法

交叉验证的基本思想是将训练数据集分为k份，每次用k-1份训练模型，用剩余的1份作为验证集。按顺序训练k次后，计算k次

的平均误差来评价模型（改变参数后即为另一个模型）的好坏。（具体做法可以看百度百科）

在Scikit-Learn中交叉验证对应的类为cross_val_score，下面是线性回归模型与决策树回归模型的交叉验证实例：

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38633967

粉丝: 7
资源: 930

Scikit-learn与TensorFlow实战：模型选择与训练比较

ml上的动手书：使用Scikit-learn，Keras和Tensorflow，AurelionGéron进行的机器学习实践

决策树算法实现(使用MNIST数据集)_Python环境

机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf

机器学习实战(用Scikit-learn和TensorFlow进行机器学习)(二)

使用Scikit-Learn和TensorFlow进行实战机器学习

机器学习实战：Scikit-Learn与TensorFlow指南

机器学习实战：Scikit-Learn与TensorFlow应用指南

机器学习实战：Scikit-learn与TensorFlow指南

机器学习实战：Scikit-Learn与TensorFlow项目指南

机器学习实战：使用Scikit-Learn与TensorFlow

最新资源