使用西瓜数据集2.0完成完整决策树代码
时间: 2024-11-30 11:14:10 浏览: 30
在Python中,我们通常使用scikit-learn库来创建决策树模型,包括使用西瓜数据集(西瓜2.0)。这里是一个简单的示例,展示如何使用Pandas加载数据、预处理数据并训练决策树分类器:
```python
# 导入所需库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 加载西瓜数据集(假设它是一个CSV文件)
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/fruit.data"
data = pd.read_csv(url)
# 定义特征列和目标变量
X = data.drop('class', axis=1) # 特征
y = data['class'] # 目标变量
# 数据分割(70%训练,30%测试)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建决策树分类器
clf = DecisionTreeClassifier()
# 训练模型
clf.fit(X_train, y_train)
# 预测
y_pred = clf.predict(X_test)
# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
# 示例代码到此结束,你可以使用`export_graphviz`方法可视化决策树结构,但那不在这个代码片段中。
阅读全文