利用现有的数据集进行决策树模型训练,数据集不限,训练完成后输入新的测试集数据代码
时间: 2024-09-29 22:09:10 浏览: 35
给定训练新闻数据集,可以对输入的测试新闻进行自动分类识别
在Python中,我们可以使用scikit-learn库来构建决策树模型并进行训练。以下是使用Pandas读取数据、划分训练集和测试集、训练模型以及预测新数据的一般步骤:
```python
# 导入所需的库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 1. 加载数据集
data = pd.read_csv('your_dataset.csv') # 将 'your_dataset.csv' 替换为实际的数据文件路径
# 如果数据包含特征列和目标列,例如X是特征,y是目标:
X = data.drop('target_column', axis=1) # 将'target_column'替换为实际的目标变量名
y = data['target_column']
# 2. 数据预处理(如有必要)
# ... 进行缺失值处理、编码等操作
# 3. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 4. 训练决策树模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
# 5. 预测新数据
new_data = pd.read_csv('new_test_data.csv') # 新的测试数据集
predictions = clf.predict(new_data)
# 6. 测试模型性能
accuracy = accuracy_score(y_test, predictions)
print("Accuracy:", accuracy)
阅读全文