随机森林参数优化：气温预测模型构建

版权申诉

5星 · 超过95%的资源 | PDF格式 | 104KB | 更新于2024-09-10 | 198 浏览量 | 举报

11 收藏

"本文是关于机器学习入门的系列教程，主要关注如何利用随机森林进行气温预测。在这一部分，我们将探讨如何对随机森林模型的参数进行优化，以提高预测的准确性。文章首先简略地回顾了数据预处理步骤，包括读取数据、独热编码以及特征与标签的划分。接下来，作者展示了如何构建训练集和测试集，并选择了六个关键特征进行重点考虑。最后，文章引入了随机森林回归模型，并展示了查看模型参数的方法，为后续的参数调优做准备。" 在机器学习领域，随机森林是一种强大的集成学习方法，由多个决策树组成，用于分类和回归任务。在本教程中，我们关注的是气温预测，这是一个回归问题。随机森林模型的性能往往取决于其参数的选择。以下是一些关键参数及其解释： 1. **n_estimators**：这是随机森林中决策树的数量。更多的树可以提高模型的准确性，但也可能导致过拟合。增加n_estimators可以减少方差，但会增加计算成本。 2. **max_features**：此参数控制每个决策树在分裂节点时考虑的特征数量。它可以是固定的数值，如“sqrt”（平方根）或“log2”（对数），或者是一个整数来指定特征的绝对数量。 3. **max_depth**：决策树的最大深度限制，防止树过度生长。更深的树可能捕获更复杂的模式，但也可能导致过拟合。 4. **min_samples_split** 和 **min_samples_leaf**：这两个参数用于控制树的生长。前者规定了分裂内部节点所需的最小样本数，后者规定了叶子节点所需的最小样本数。较大的值可以防止过拟合，但可能牺牲一些模型的灵活性。 5. **bootstrap**：随机森林中的数据采样通常使用Bootstrap抽样。如果设置为True，会在训练每个决策树时从原始数据中随机抽取样本（允许重复）；若为False，则使用所有数据训练，这种方法称为Bagging。在实际应用中，通常使用交叉验证和网格搜索（Grid Search）或随机搜索（Randomized Search）来寻找最佳参数组合。通过调整这些参数，可以找到一个平衡点，使模型在训练集和测试集上的表现都尽可能优秀。在本文的后续部分，作者很可能会介绍如何使用这些参数来调优，以及如何评估和比较不同参数设置下的模型性能。这通常包括计算诸如均方误差（MSE）、决定系数（R^2）等指标，并观察模型在验证集或交叉验证上的表现。通过这样的实践，初学者可以更好地理解随机森林的工作原理，并掌握如何优化此类模型以适应特定问题。

展开

机器学习入门机器学习入门 — 基于随机森林的气温预测（三）随机森林参数选择基于随机森林的气温预测（三）随机森林参数选择

本文中将针对树模型的参数进行优化

数据预处理数据预处理

前面已经做过好几次数据预处理了，这里直接上代码

得到数据得到数据

# 导入工具包

import pandas as pd

import numpy as np

from sklearn.model_selection import train_test_split

# 读取数据

features = pd.read_csv('data/temps_extended.csv')

# 独热编码处理数据

features = pd.get_dummies(features)

# 标签和特征划分

labels = features['actual'] features = features.drop('actual', axis = 1)

# 获取特征list

feature_list = list(features.columns)

# 转换数据类型

features = np.array(features)

labels = np.array(labels)

# 划分数据集

train_features, test_features, train_labels, test_labels = train_test_split(features, labels,

test_size = 0.25,

random_state = 42)

准备训练集、测试集准备训练集、测试集

# 选择6个总要特征

important_feature_names = ['temp_1', 'average', 'ws_1', 'temp_2', 'friend', 'year'] # 得到索引

important_indices = [feature_list.index(feature) for feature in important_feature_names] # 提取特征

important_train_features = train_features[:, important_indices] important_test_features = test_features[:, important_indices]

开始调参开始调参

首先需要看一下决策树模型中一共有多少可调参数

from sklearn.ensemble import RandomForestRegressor

from pprint import pprint

# 建模

rf = RandomForestRegressor(random_state = 42)

print('Parameters currently in use:')

# 打印所有参数

pprint(rf.get_params())

Parameters currently in use:

{'bootstrap': True,

'criterion': 'mse',

'max_depth': None,

'max_features': 'auto',

'max_leaf_nodes': None,

'min_impurity_decrease': 0.0,

'min_impurity_split': None,

'min_samples_leaf': 1,

'min_samples_split': 2,

'min_weight_fraction_leaf': 0.0,

'n_estimators': 10,

'n_jobs': 1,

'oob_score': False,

'random_state': 42,

'verbose': 0,

'warm_start': False}

随机搜索交叉验证随机搜索交叉验证

使用 RandomizedSearchCV 在设定的参数空间中进行随机寻找100组，并得到效果最好的一组参数

from sklearn.model_selection import RandomizedSearchCV

# 建立树的个数

n_estimators = [int(x) for x in np.linspace(start = 200, stop = 2000, num = 10)] # 最大特征的方式

max_features = ['auto', 'sqrt'] # 树的最大深度

max_depth = [int(x) for x in np.linspace(10, 100, num = 10)] max_depth.append(None)

# 节点最小分裂所需样本个数

min_samples_split = [2, 5, 10] # 叶子节点最小样本数，任何分裂不能让其子节点样本数少于此值

min_samples_leaf = [1, 2, 4] # 样本采样方法

bootstrap = [True, False] # Random grid

random_grid = {'n_estimators': n_estimators,

'max_features': max_features,

'max_depth': max_depth,

'min_samples_split': min_samples_split,

'min_samples_leaf': min_samples_leaf,

'bootstrap': bootstrap}

下载后可阅读完整内容，剩余3页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38677306

粉丝: 4

随机森林参数优化：气温预测模型构建

随机森林的matlab的预测Iris

随机森林气温预测数据+代码.zip

基于时间序列的气温预测系统

预测模型入门（含源码）

Python数据分析与机器学习实战课程

机器学习入门：气温预测数据集案例

Python多变量回归分析：机器学习预测入门

吴恩达机器学习讲义精读指南与视频配套

深度学习CNN时间序列预测Python源码教程

MATLAB与机器学习的桥梁：预测模型构建入门指南

最新资源