决策树python代码鸢尾花预处理
时间: 2024-10-29 18:03:19 浏览: 50
决策树是一种常用的机器学习算法,用于分类和回归任务。在Python中,我们可以使用sklearn库来构建决策树模型,特别是对于鸢尾花数据集(Iris dataset),它是一个经典的分类问题。首先,我们需要对数据进行预处理:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import pandas as pd
# 加载鸢尾花数据
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
target = iris.target
# 数据切分(例如80%训练,20%测试)
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=42)
# 特征缩放(标准化)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# 将数据转化为决策树模型所需的格式(二维数组)
X_train_array = X_train_scaled.reshape(-1, len(iris.feature_names))
X_test_array = X_test_scaled.reshape(-1, len(iris.feature_names))
# 现在你可以使用X_train_array和y_train作为输入,构建决策树模型,如:
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train_array, y_train)
在这个示例中,我们做了以下几个预处理步骤:
- 转换数据到pandas DataFrame方便操作。
- 划分训练集和测试集。
- 使用StandardScaler对特征进行标准化,这是因为决策树对数值尺度敏感。
- 转换数据结构以便于输入给决策树模型。
相关推荐


















