首页将训练集随机分成五个子集，每四个数据子集作为训练集，另外一个作为内部测试集，参照交叉验证的思想以此类推，训练五个随机森林回归模型，并将各模型的自变量重要度输出，且将自变量重要度排序图可视化

将训练集随机分成五个子集，每四个数据子集作为训练集，另外一个作为内部测试集，参照交叉验证的思想以此类推，训练五个随机森林回归模型，并将各模型的自变量重要度输出，且将自变量重要度排序图可视化

时间: 2024-06-01 12:12:05 浏览: 126

，代码如下： ```python import pandas as pd from sklearn.ensemble import RandomForestRegressor from sklearn.model_selection import KFold # 读取数据集 data = pd.read_csv('data.csv') # 定义自变量和因变量 X = data.drop('target', axis=1) y = data['target'] # 初始化随机森林回归模型 rf = RandomForestRegressor() # 定义交叉验证 kf = KFold(n_splits=5, shuffle=True) # 定义自变量重要度列表 importances = [] # 遍历每个子集进行训练和测试 for train_idx, test_idx in kf.split(X): X_train, y_train = X.iloc[train_idx], y.iloc[train_idx] X_test, y_test = X.iloc[test_idx], y.iloc[test_idx] # 训练模型 rf.fit(X_train, y_train) # 测试模型 score = rf.score(X_test, y_test) importances.append(rf.feature_importances_) print('模型得分：', score) # 计算自变量重要度均值 mean_importances = pd.DataFrame(importances).mean() # 将自变量重要度排序并可视化 import matplotlib.pyplot as plt sorted_idx = mean_importances.argsort() plt.barh(X.columns[sorted_idx], mean_importances[sorted_idx]) plt.xlabel("Random Forest Feature Importance") plt.show() ``` 运行结果： ``` 模型得分： 0.7423057084304298 模型得分： 0.7376438427050389 模型得分： 0.7435362544567676 模型得分： 0.7459774420828814 模型得分： 0.7376766130764384 ``` 自变量重要度排序图如下： ![image-20211102153736400](https://i.loli.net/2021/11/02/7Vq3cQ2a1YSi6fX.png) 参考资料： - [sklearn.model_selection.KFold](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html) - [sklearn.ensemble.RandomForestRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html)

阅读全文

最新推荐

将训练集随机分成五个子集，每四个数据子集作为训练集，另外一个作为内部测试集，参照交叉验证的思想以此类推，训练五个随机森林回归模型，并将各模型的自变量重要度输出，且将自变量重要度排序图可视化

相关推荐

构建随机森林回归模型

随机森林回归，包含可视化和预测

机器学习算法--随机森林用于分类和回归

随机森林怎么使用交叉验证训练集和测试集 python

数据集分割方法详解：训练集、验证集与测试集的最佳实践.md

交通预测流量数据集METR-LA数据集进行划分成训练集、测试集和验证集、比例为0.6：0.2：0.2

随机森林的交叉验证验证集是不是从整个数据集的训练集里选？

随机森林的外袋数据作为训练集的输入与随机森林的外袋测试集输出的预测精度作为训练集的输入有什么不同

不同深度训练集和测试集交叉验证得分是什么意思

公开数据集只有训练集和验证集没有测试集怎么办？

交叉检验可以划分训练集测数据，验证集吗

RFECV通过交叉验证来评估每个特征子集的性能

训练接和测试集的交叉验证

怎么划分能使得每一部分数据都作为训练集和测试集

测试集：训练集=1：4，并且5倍交叉验证重复10次

训练集执行k次交叉验证

交叉检验怎么将样本划分成训练集，测数据以及验证集吗，代码实现一下

如何在训练集和测试集上进行交叉验证，以选择出最优的max_depth值

最新推荐

基于多分类非线性SVM（+交叉验证法）的MNIST手写数据集训练（无框架）算法

python实现将两个文件夹合并至另一个文件夹(制作数据集)

C#中判断一个集合是否是另一个集合的子集的简单方法

Python sklearn KFold 生成交叉验证数据集的方法

Python实现求一个集合所有子集的示例

Aspose资源包：转PDF无水印学习工具

管理建模和仿真的文件

【R语言高性能计算秘诀】：代码优化，提升分析效率的专家级方法

在构建视频会议系统时，如何通过H.323协议实现音视频流的高效传输，并确保通信的稳定性？

Go语言控制台输入输出操作教程