用pycharm写、题目一：采用 scikit-learn 中的 RandomForestRegressor 对加利福尼亚房价数据集进行预测。具体要求：（1）导入数据集：加利福尼亚房价数据集是 sklearn 中自带的数据集,通过查看数据量和维度、特征类型（离散 or 连续）、特征名、标签名、标签分布情况、数据集的描述等信息了解数据集。（2）模型建立：分别使用 DecisionTreeRegressor 和 RandomForestRegressor 建立分类模型（参数默认即可）。（3）模型评估：输出训练集和测试集评分（以根均方误差 RMSE 为评估指标）。讨论一】比较随机森林和决策树在数据集上的表现,可将交叉验证评分进行可视化，讨论二】随机森林中的 n_estimator 超参数如何选择？提示：可采用学习曲线进行选择，如图 2 所示。学习曲线能够看到变化趋势，帮助确定超参数的搜索范围。对于 RandomForestRegressor 模型，自行选择超参数搜索的方法，找到合适的超参数，最终将超参数在如下的交叉验证集上进行建模，并计算 RMSE 评分。介绍调参过程，并比较调参前后的效果超参数的搜索范围可根据建立的决策树的建树信息进行设定，决策树的建树信息可通过.tree_属性查看

时间: 2024-03-11 07:49:54 浏览: 78

好的，以下是用 PyCharm 实现题目一的代码： ```python import pandas as pd from sklearn.datasets import fetch_california_housing from sklearn.tree import DecisionTreeRegressor from sklearn.ensemble import RandomForestRegressor from sklearn.model_selection import cross_val_score, train_test_split from sklearn.metrics import mean_squared_error import matplotlib.pyplot as plt # 导入数据集 california = fetch_california_housing() X = pd.DataFrame(california.data, columns=california.feature_names) y = pd.DataFrame(california.target, columns=["MedHouseVal"]) # 查看数据信息 print("数据集大小:", X.shape) print("数据集特征类型:", X.dtypes) print("数据集特征名:", X.columns) print("数据集标签名:", y.columns) print("数据集标签分布情况:\n", y["MedHouseVal"].describe()) # 建立决策树模型 dtr = DecisionTreeRegressor(random_state=42) dtr_scores = cross_val_score(dtr, X, y, cv=10, scoring="neg_mean_squared_error") dtr_rmse_scores = (-dtr_scores) ** 0.5 print("决策树模型交叉验证 RMSE 评分:", dtr_rmse_scores.mean()) # 建立随机森林模型 rfr = RandomForestRegressor(n_estimators=100, random_state=42) rfr_scores = cross_val_score(rfr, X, y, cv=10, scoring="neg_mean_squared_error") rfr_rmse_scores = (-rfr_scores) ** 0.5 print("随机森林模型交叉验证 RMSE 评分:", rfr_rmse_scores.mean()) # 可视化交叉验证评分 plt.plot(range(1, 11), dtr_rmse_scores, label="Decision Tree") plt.plot(range(1, 11), rfr_rmse_scores, label="Random Forest") plt.xlabel("Fold") plt.ylabel("RMSE") plt.legend() plt.show() # 随机森林调参 n_estimators = [10, 50, 100, 200, 500] rfr_scores = [] for n in n_estimators: rfr = RandomForestRegressor(n_estimators=n, random_state=42) rfr_scores.append(cross_val_score(rfr, X, y, cv=10, scoring="neg_mean_squared_error").mean()) plt.plot(n_estimators, (-1 * rfr_scores) ** 0.5) plt.xlabel("n_estimators") plt.ylabel("RMSE") plt.show() # 训练最优模型并计算 RMSE 评分 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) rfr = RandomForestRegressor(n_estimators=200, random_state=42) rfr.fit(X_train, y_train) y_pred = rfr.predict(X_test) rfr_rmse = mean_squared_error(y_test, y_pred, squared=False) print("随机森林最优模型测试集 RMSE 评分:", rfr_rmse) ``` 代码解释： 1. 导入需要的库，包括 pandas、scikit-learn 中的数据集 fetch_california_housing、DecisionTreeRegressor、RandomForestRegressor、cross_val_score、train_test_split 和 mean_squared_error，以及用于可视化的 matplotlib.pyplot。 2. 使用 fetch_california_housing 函数从 scikit-learn 自带的数据集中加载加利福尼亚房价数据集。将数据集中的特征和标签分别存储到 X 和 y 中。 3. 使用 pandas 库提供的函数查看数据集的信息，包括数据集大小、特征类型、特征名、标签名和标签分布情况等。 4. 使用 DecisionTreeRegressor 和 RandomForestRegressor 分别建立决策树和随机森林模型，并使用交叉验证计算模型的 RMSE 评分。 5. 使用 matplotlib.pyplot 库将决策树和随机森林模型的交叉验证评分可视化。 6. 使用随机森林模型进行调参，通过学习曲线确定最优的 n_estimator 超参数。 7. 使用 train_test_split 函数将数据集划分为训练集和测试集，使用最优的超参数训练随机森林模型，并在测试集上进行评估，计算模型的 RMSE 评分。

阅读全文

相关推荐

Scikit-learn与TensorFlow实战：从数据下载到机器学习建模

Python线性回归实验实战与scikit-learn应用

PyCharm教程：完全指南-自定义界面与编辑器颜色

Python版数据挖掘实验2报告：使用 Scikit-learn中的 K近邻算法进行分类.pdf

pycharm如何运行$ pip install scikit-surprise 和$ conda install -c conda-forge scikit-surprise

pycharm scikit-learn

pycharm中安装scikit-learn

在pycharm中安装scikit-learn

pycharm安装scikit-learn

pycharm安裝scikit-learn

pycharm怎么简单引入scikit-learn

pycharm scikit-learn安装

pycharm怎么安装scikit-learn

pycharm如何安装scikit-learn

如何在pycharm中安装scikit-learn

pycharm安装特定版本scikit-learn库

pycharm安装scikit-learn库

pycharm安装scikit-learn包

最新推荐

解决pycharm中opencv-python导入cv2后无法自动补全的问题(不用作任何文件上的修改)

基于springboot教育资源共享平台源码数据库文档.zip

视频笔记linux开发篇

readera-24-09-08plus2020.apk

全国江河水系图层shp文件包下载

管理建模和仿真的文件

Keras模型压缩与优化：减小模型尺寸与提升推理速度

MTK 6229 BB芯片在手机中有哪些核心功能，OTG支持、Wi-Fi支持和RTC晶振是如何实现的？

点云二值化测试数据集的详细解读

"互动学习：行动中的多样性与论文攻读经历"