决策树python代码鸢尾花预处理 - CSDN文库

决策树是一种常用的机器学习算法，用于分类和回归任务。在Python中，我们可以使用sklearn库来构建决策树模型，特别是对于鸢尾花数据集（Iris dataset），它是一个经典的分类问题。首先，我们需要对数据进行预处理：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import pandas as pd

# 加载鸢尾花数据
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
target = iris.target

# 数据切分（例如80%训练，20%测试）
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=42)

# 特征缩放（标准化）
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 将数据转化为决策树模型所需的格式（二维数组）
X_train_array = X_train_scaled.reshape(-1, len(iris.feature_names))
X_test_array = X_test_scaled.reshape(-1, len(iris.feature_names))

# 现在你可以使用X_train_array和y_train作为输入，构建决策树模型，如：
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train_array, y_train)

在这个示例中，我们做了以下几个预处理步骤：

转换数据到pandas DataFrame方便操作。
划分训练集和测试集。
使用StandardScaler对特征进行标准化，这是因为决策树对数值尺度敏感。
转换数据结构以便于输入给决策树模型。

向AI提问

相关推荐

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通